倾尽天下 · ea4a20b1
Show whitespace changes
Inline Side-by-side

Showing with 233 additions and 0 deletions

data_stream/company/boss_avatar.md data_stream/company/boss_avatar.md +233 -0

No files found.
--- a/data_stream/company/boss_avatar.md
+++ b/data_stream/company/boss_avatar.md
+# **基本信息**
+### 爬虫整体说明
+```
+根据tb_vip和tb_svip表中的qcc_pid获取老板头像，根据ppid存储到文件服务器， 链接等存储到tb_person_photo里面
+```
+
+
+### task_result说明
+```
+task_result=1000  所有搜索到的，推荐的，都标记为1000
+task_result=9110, 404状态码表示没找到该图片
+```
+
+
+### 字段说明
+```
+```
+
+### 状态码特别说明
+```
+1000 正常获取到数据
+9110 404状态码表示没找到该图片
+```
+
+
+## 数据名称（中文）
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+### 
+```
+boss头像
+```
+
+## 数据英文名称
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+```
+boss_avatar
+```
+
+## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+```
+图片采集位置
+https://image.qcc.com/person/pc4eb763297cf4b8076c2e0d2fe64617.jpg
+```
+
+
+
+## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+
+### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+```
+遍历表中接近80w条数据即可
+```
+
+
+### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+```
+
+```
+
+---
+
+
+## 责任人
+```
+袁波
+```
+
+## 爬虫名称
+```
+boss_avatar
+```
+
+<!--spider_name-->
+
+## 代码地址
+```
+项目地址:
+http://office.pingansec.com:30080/granite/project-gravel/-/tree/boss_avatar_20220406
+
+## 队列名称及队列地址
+<!--redis host port db key 优先级说明-->
+-
+* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+* redis port: 6379
+* redis db: 7
+* redis key: 
+    * boss_avatar:10
+
+```
+
+## 搜索-任务输入参数（样例）
+```json
+{
+	"person_id": 1552869,
+	"person_name": "马云",
+	"ppid": "172098281c644dbe9311cba42eb1b8ce",
+	"qcc_pid": "pc4eb763297cf4b8076c2e0d2fe64617"
+}
+```
+
+## data_type说明
+<!--可能产生的data_type说明-->
+```
+```
+
+## 实际爬虫结果的数据结构
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+```json
+
+```
+
+
+## 爬虫运行环境
+<!--udm模块？scrapy？或其他-->
+```
+scrapy
+```
+
+
+## 爬虫部署信息
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+```
+crontab任务对应机器collie用户:   待添加
+爬虫部署机器:  10.8.6.19   10个进程
+```
+
+
+## Taskhub地址
+```
+
+```
+
+## Taskhub调度规则说明
+```
+
+```
+
+
+## 爬虫监控指标设计
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+```
+
+```
+
+## 爬虫待采集结果目录
+```
+/data/gravel_spiders/boss_avatar
+```
+
+---
+
+# **数据归集**
+
+## 责任人
+```
+范召贤
+```
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [x] 爬虫写文件logstash采集
+
+## 爬虫结果目录
+```
+
+```
+
+## 归集后存放目录
+```
+/data2_227/grvael_spider_result/boss_avatar
+```
+
+## logstash配置文件名称
+```
+project-deploy/logstash/10.8.6.246/conf.d/collie_spider_data_to_kfk.conf(入topic)
+project-deploy/logstash/10.8.6.229/conf.d/grvael/grvael_spider_to_es.conf(入es)
+```
+
+## logstash文件采集type
+```
+type=>"boss_avatar"
+```
+
+## 数据归集的topic
+```
+topic_id => "general-taxpayer"
+```
+
+## ES日志索引及筛选条件
+```
+index => "gravel-spider-data-%{log_date}"
+```
+
+## 监控指标看板
+
+
+## 数据保留策略
+
+
+---
+
+# **数据清洗**
+
+## 责任人
+```
+
+```
+
+## 代码地址
+```
+```
+
+## 部署地址
+<!--机器及线上代码地址-->
+
+
+## 部署方法及说明
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+- [ ] crontab + data_pump
+- [X] supervisor + data_pump
+- [ ] supervisor + consumer
+
+## 数据接收来源
+<!--来源于kafka还是归集的文件、topic的group？-->
+归集的文件
+
+## 数据存储表地址