蒋家升 · 6ae960af
Show whitespace changes
Inline Side-by-side

Showing with 291 additions and 0 deletions

data_stream/certifications/construction_enterprise.md data_stream/certifications/construction_enterprise.md +291 -0

No files found.
--- a/data_stream/certifications/construction_enterprise.md
+++ b/data_stream/certifications/construction_enterprise.md
+# **基本信息**
+
+```buildoutcfg
+建筑业企业资质证书爬虫，目前采集小程序端，名字《全国建筑市场监管公共服务平台》
+```
+
+## 数据名称（中文）
+
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+
+```buildoutcfg
+建筑业企业资质证书
+```
+
+## 数据英文名称
+
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+
+```buildoutcfg
+certifications
+```
+
+## 采集网站（采集入口）
+
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+
+```buildoutcfg
+网站数据接口（小程序）:
+https://sky.mohurd.gov.cn/skyapi/api/statis/getResult
+```
+
+## 采集频率及采集策略
+
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+
+### 存量更新策略
+
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+
+```buildoutcfg
+
+```
+
+### 增量采集策略
+
+<!--新增数据怎么来？无需单独采集新增数据？-->
+
+```buildoutcfg
+目前取一轮补完，目标数量参考企查查
+```
+
+---
+
+# **爬虫**
+
+## 责任人
+
+```buildoutcfg
+蒋家升
+```
+
+## 爬虫名称
+
+<!--spider_name-->
+
+```buildoutcfg
+certifications
+```
+
+## 代码地址
+
+```buildoutcfg
+项目地址: http://tech.pingansec.com/granite/project-gravel/-/tree/develop_certifications/scrapy_spiders
+```
+
+## 队列名称及队列地址
+
+<!--redis host port db key 优先级说明-->
+
+* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+* redis port: 6379
+* redis db: 7
+* redis key:
+    * certifications:building
+
+### 优先级队列说明
+
+## 任务来源
+
+<!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+
+```buildoutcfg
+以data_pump读sql，设offset，再将其输出输入至redis的任务键上
+```
+
+## 任务输入参数（样例）
+
+#### 常规任务输入
+```json
+{"search_key": "四川疆耀建设工程有限公司"}
+
+{"search_key": "91340400698951800P"}
+```
+
+### 任务样例
+
+<!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+
+```buildoutcfg
+```
+
+### 任务参数说明
+
+<!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+
+```json
+{"search_key": "四川疆耀建设工程有限公司"}
+
+{"search_key": "91340400698951800P"}
+```
+
+> + search_key: 关键词搜索，（只能全匹配，不能模糊搜索）当前测得该字段支持 1、统一社会信用代码；2、公司名称
+
+## data_type说明
+
+<!--可能产生的data_type说明-->
+
+```buildoutcfg
+detail: 详情信息,其中每个字典为一条数据,只有这一种类型
+```
+
+## 爬虫结果的超级数据
+
+<!--包含所有字段的json数据，每个value都要有样例值-->
+
+```text
+同以下实际爬虫结果
+```
+
+## 实际爬虫结果的数据结构
+
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+
+* 先通过`search_key`进行列表页搜索，再到公司详情页获取每一个证书，每一个证书一个数据
+
+```json
+{
+  "data":
+  {
+    "company_name": "四川疆耀建设工程有限公司",
+    "cert_type": "建筑业企业资质",
+    "cert_name": "城市及道路照明工程专业承包三级",
+    "org_an": "成都市城乡建设委员会",
+    "cert_no": "D351888401",
+    "issue_date": "2021-02-18",
+    "end_date": "2024-01-11",
+    "qulifi_scope": "城市及道路照明工程专业承包三级",
+    "source_url": "http://jzsc.mohurd.gov.cn/data/company/detail?id=002105291322982461"
+  },
+  "http_code": 200,
+  "error_msg": "",
+  "task_result": 1000,
+  "data_type": "detail",
+  "spider_start_time": "2021-10-22 11:12:37.946",
+  "spider_end_time": "2021-10-22 11:12:38",
+  "task_params":{"search_key": "四川疆耀建设工程有限公司"},
+  "metadata":{},
+  "spider_name": "certifications",
+  "spider_ip": "10.8.6.51"
+}
+```
+
+## 爬虫运行环境
+
+<!--udm模块？scrapy？或其他-->
+
+```buildoutcfg
+scrapy
+```
+
+## 爬虫部署信息
+
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+
+```buildoutcfg
+机器：node_51
+项目名称：gravel_spiders
+10个进程
+```
+
+## Taskhub地址
+
+```buildoutcfg
+```
+
+## Taskhub调度规则说明
+
+```buildoutcfg
+
+```
+
+## 爬虫监控指标设计
+
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+
+```buildoutcfg
+```
+
+---
+
+# **数据归集**
+
+## 责任人
+
+```html
+```
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [ ] 爬虫写文件logstash采集
+
+## 爬虫结果目录
+
+```html
+```
+
+## 归集后存放目录
+
+```html
+```
+
+## logstash配置文件名称
+
+```html
+```
+
+## logstash文件采集type
+
+```html
+```
+
+## 数据归集的topic
+
+```
+```
+
+## ES日志索引及筛选条件
+
+```
+```
+
+## 监控指标看板
+
+## 数据保留策略
+
+---
+
+# **数据清洗**
+
+## 责任人
+
+```html
+```
+
+## 代码地址
+
+```html
+```
+
+## 部署地址
+
+```html
+```
+
+<!--机器及线上代码地址-->
+
+## 部署方法及说明
+
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+
+- [ ] crontab + data_pump
+- [ ] supervisor + data_pump
+- [ ] supervisor + consumer
+
+## 数据接收来源
+
+<!--来源于kafka还是归集的文件、topic的group？-->
+
+## 数据存储表地址