蒋家升 · b6faa067
Show whitespace changes
Inline Side-by-side

Showing with 368 additions and 0 deletions

data_stream/icp.md data_stream/icp.md +368 -0

No files found.
--- a/data_stream/icp.md
+++ b/data_stream/icp.md
+# **基本信息**
+```buildoutcfg
+icp备案爬虫
+包含两种爬虫：
+    - 找新
+    - 例行/存量更新
+```
+## 数据名称（中文）
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+```buildoutcfg
+icp备案爬虫
+```
+## 数据英文名称
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+```text
+icp
+```
+## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+```buildoutcfg
+官网入口:
+https://beian.miit.gov.cn/
+采集数据存放路径：
+    - 结果：爬虫结果直接存kafka
+```
+## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+```text
+计划一周全量更新一轮
+```
+### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+```buildoutcfg
+由找新爬虫内部逻辑调度
+    - 主体号id递增逻辑 
+    - 各省份主体备案号递增逻辑
+每天采集官网当天全量
+```
+---
+# **爬虫**
+```text
+icp备案爬虫 icp
+```
+## 责任人
+```text
+蒋家升
+```
+## 爬虫名称
+```text
+找新: icp_new
+例行: icp_baxh
+```
+<!--spider_name-->
+## 代码地址
+```buildoutcfg
+项目地址: 
+    - 找新爬虫: http://192.168.109.110/lucioYao/aicha-spider/-/tree/master/icp
+    - 例行爬虫: http://tech.pingansec.com/granite/project-collie-app/-/tree/master/app_icp/udms
+```
+## 队列名称及队列地址
+<!--redis host port db key 优先级说明-->
+* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+* redis port: 6379
+* redis db: 7
+* redis key: 
+    * collie_icp_baxh
+### 优先级队列说明
+* icp 支持队列优先级
+## 任务来源
+<!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+#### 找新爬虫
+> - 主体号id递增逻辑 
+> - 各省份主体备案号递增逻辑
+#### 例行爬虫
+```buildoutcfg  
+mysql:
+    host: bdp-rds-003.mysql.rds.aliyuncs.com
+    port: 3306
+    db: utn_data
+    table: tb_icp_baxh_info;tb_icp_base_info
+```
+## 任务输入参数（样例）  
+```json
+{
+    "id": 4897410, 
+    "company_name_digest": "1ecb0b4e31517d2e59ea7ad2e7d646bd", 
+    "dwmc": "烟台博升环保科技有限公司", "dwxz": "企业", "zt_baxh": "鲁ICP备13028318号", 
+    "ym_list": ",ytbstech.com"
+}
+```
+### 任务样例
+<!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+#### 例行爬虫
+```sql
+select baxh.id, baxh.company_name_digest, baxh.dwmc, baxh.dwxz, baxh.zt_baxh, GROUP_CONCAT(base.ym SEPARATOR ',') ym_list
+    from tb_icp_baxh_info baxh LEFT JOIN tb_icp_base_info base 
+    on baxh.zt_baxh = base.zt_baxh 
+    where baxh.LAST_UPDATE_STATUS=1 AND baxh.LAST_UPDATE_TIME<DATE_ADD(now(),INTERVAL - 21 DAY)
+    GROUP BY baxh.id;
+```
+### 任务参数说明
+<!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+## data_type说明
+<!--可能产生的data_type说明-->
+> 当前没有data_type
+## 爬虫结果的超级数据
+<!--包含所有字段的json数据，每个value都要有样例值-->
+```text
+同以下实际爬虫结果
+```
+## 实际爬虫结果的数据结构
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+####  找新爬虫
+```json
+{
+  "search_province": "粤",
+  "result_code": 1,
+  "result_msg": "查找icp成功",
+  "search_name": "ztid",
+  "search_value": 990000770576,
+  "item_dataes":
+  [
+    {
+      "dwmc": "广州市花都区花城瑞江贸易商行",
+      "dwxz": "企业",
+      "wz_baxh": "粤ICP备2021153599号-1",
+      "wzmc": "爱六八",
+      "site_url": "www.ai6ba.com",
+      "shsj": "2021-11-12 11:53:20",
+      "domain": "ai6ba.com",
+      "website_owner": "",
+      "ztid": 990000770576,
+      "zt_baxh": "粤ICP备2021153599号",
+      "wzid": 990001367507,
+      "ymid": 990001366936
+    }
+  ],
+  "get_time": "2021-11-12 11:53:27",
+  "ztid": 990000770576,
+  "zt_baxh": 990000770576,
+  "wzmc": "",
+  "ym": "",
+  "dwmc": ""
+}
+```
+####  例行爬虫
+```json
+{
+  "last_update_status": 1,
+  "task_params":
+  {
+    "id": "4328358",
+    "company_name_digest": "106b8f7f988d07cdcf07da7e25246d02",
+    "dwmc": "楚胜汽车集团有限公司",
+    "dwxz": "企业",
+    "zt_baxh": "鄂ICP备13004305号",
+    "ym_list": "xgcsgs.net"
+  },
+  "searchkey": "鄂ICP备13004305号",
+  "item_datas":
+  [
+    {
+      "dwmc": "楚胜汽车集团有限公司",
+      "ztid": 10000600349,
+      "dwxz": "企业",
+      "zt_baxh": "鄂ICP备13004305号",
+      "wz_baxh": "鄂ICP备13004305号-1016",
+      "wzid": 990000257356,
+      "wzmc": "湖北楚胜汽车有限公司",
+      "wzfzr": "",
+      "site_url": "www.zycfxx.com",
+      "ym": "zycfxx.com",
+      "ymid": 990000257218,
+      "shsj": "2021-07-29 09:34:35",
+      "nrlx": "",
+      "xzjr": "否",
+      "oper": "A"
+    },
+    {
+      "dwmc": "楚胜汽车集团有限公司",
+      "ztid": 10000600349,
+      "dwxz": "企业",
+      "zt_baxh": "鄂ICP备13004305号",
+      "wz_baxh": "鄂ICP备13004305号-1044",
+      "wzid": 990000534990,
+      "wzmc": "楚胜汽车集团有限公司",
+      "wzfzr": "",
+      "site_url": "www.csygc.cn",
+      "ym": "csygc.cn",
+      "ymid": 990000534665,
+      "shsj": "2021-07-29 09:34:36",
+      "nrlx": "",
+      "xzjr": "否",
+      "oper": "A"
+    },
+    {
+      "zt_baxh": "鄂ICP备13004305号",
+      "ym": "xgcsgs.net",
+      "oper": "D"
+    }, ...
+  ],
+  "search_province": "all",
+  "result_msg": "success",
+  "last_update_time": "2021-11-24 15:12:10",
+  "timecost": 14.668023824691772,
+  "id": "4328358",
+  "zt_baxh": "鄂ICP备13004305号",
+  "ym": "",
+  "dwxz": "企业",
+  "dwmc": "楚胜汽车集团有限公司",
+  "last_update_total": 175,
+  "is_valid": 1,
+  "sync_condition":
+  {
+    "operation": "upsert",
+    "data_type": "icp_baxh"
+  }
+}
+```
+## 爬虫运行环境
+<!--udm模块？scrapy？或其他-->
+```buildoutcfg
+udm
+```
+## 爬虫部署信息
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+#### 找新爬虫
+```buildoutcfg
+target: 10.8.10.63~76
+spider_name: icp_new
+```
+#### 例行爬虫
+```buildoutcfg
+target: 10.8.6.39; 10.8.6.46
+spider_name: icp_baxh
+```
+## Taskhub地址
+```buildoutcfg
+没配置taskhub
+```
+## Taskhub调度规则说明
+```buildoutcfg
+task_result=1000    # 正常获取到详情任务
+task_result=1101    # 无结果信息
+task_result=9101    # 超时错误，需要进行重试，目前重试5次
+task_result=8000    # 参数错误
+```
+## 爬虫监控指标设计
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+```buildoutcfg
+(先观察，待补充)
+索引: 
+监控频率: 
+监控起止时间: 
+报警条件: 
+报警群:  
+报警内容: 
+```
+---
+# **数据归集**
+## 责任人
+```
+```
+## 数据归集方式
+- [ ] 爬虫直接写kafka
+- [ ] 爬虫写文件logstash采集
+## 爬虫结果目录
+```html
+采集文件存放路径：
+/data/gravel_spiders/icp
+```
+## 归集后存放目录
+```html
+```
+## logstash配置文件名称
+```html
+```
+## logstash文件采集type
+```html
+```
+## 数据归集的topic
+```html
+```
+## ES日志索引及筛选条件
+```html
+```
+## 监控指标看板
+## 数据保留策略
+---
+# **数据清洗**
+## 责任人
+## 代码地址
+## 部署地址
+<!--机器及线上代码地址-->
+## 部署方法及说明
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+- [ ] crontab + data_pump
+- [ ] supervisor + data_pump
+- [ ] supervisor + consumer
+## 数据接收来源
+<!--来源于kafka还是归集的文件、topic的group？-->
+## 数据存储表地址
+* 数据库地址：
+* 表名：
\ No newline at end of file