章一锋 · 0cffbc91
Hide whitespace changes
Inline Side-by-side

Showing with 0 additions and 0 deletions

data_stream/innocom.md data_stream/innocom.md +0 -0

No files found.
--- a/data_stream/innocom.md
+++ b/data_stream/innocom.md
+# **基本信息**
+
+## 数据名称（中文）
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+```buildoutcfg
+高新技术企业
+```
+
+  ## 数据英文名称
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+```buildoutcfg
+innocom
+```
+
+  ## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+```buildoutcfg
+http://www.innocom.gov.cn/web-comment/extend/comment/queryNew
+```
+
+  ## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+
+
+  ### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+```buildoutcfg
+每次重新刷一边
+```
+
+  ### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+```buildoutcfg
+新增数据来源于收集
+```
+---
+
+# **爬虫**
+
+  ## 责任人
+  ```buildoutcfg
+  章一锋
+  ```
+  ## 爬虫名称
+  <!--spider_name-->
+  ```buildoutcfg
+  innocom
+  ```
+  ## 代码地址
+  <!--爬虫的具体代码地址，不是代码所在的项目，要具体到模块或脚本文件-->
+  ```buildoutcfg
+  http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/scrapy_spiders/gravel_spiders/spiders/inno_com.py
+  ```
+  ## 队列名称及队列地址
+  <!--redis host port db key 优先级说明-->
+  ```buildoutcfg
+  * redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+  * redis port: 6379
+  * redis db: 7
+  * redis key: innocom
+  ```
+  ### 优先级队列说明
+
+
+  ## 任务来源
+  <!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+
+  ```buildoutcfg
+  任务数据：http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/app_innocom/data_dump/company_list.txt
+  导入任务配置文件路径：http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/app_innocom/data_dump/innocom.yml
+  ```
+
+  ## 任务输入参数（样例）
+
+  ### 任务样例
+  <!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+  ```json
+  {
+    "company_name": "拔萃视觉服务旗舰店",             #公司名称
+    "platform_shop_id": "91110109MA00G83K9Y",     #统一信用代码
+  }
+  ```
+  ### 任务参数说明
+  <!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+
+
+  ## data_type说明
+  <!--可能产生的data_type说明-->
+  ```buildoutcfg
+    detail: 详情
+  ```
+
+  ## 爬虫结果的超级数据
+  <!--包含所有字段的json数据，每个value都要有样例值-->
+
+  ```json
+    {
+      "data": [
+        {
+          "cognizanceOrgan": "北京市认定机构办公室",
+          "effeTimeEnd": "2021年11月30日",
+          "entName": "北京立言科技有限公司",
+          "effeTimeBegin": "2018年11月30日",
+          "corCode": "91110108MA004FNG7Q",
+          "state": "有效",
+          "certificateNum": "GR201811008154"
+        }
+      ],
+      "http_code": 200,
+      "error_msg": "",
+      "task_result": 1000,
+      "data_type": "detail",
+      "spider_start_time": "2021-10-20 14:23:35.792",
+      "spider_end_time": "2021-10-20 14:23:38",
+      "task_params": {
+        "company_name": "北京立言科技有限公司",
+        "credit_no": "91110108MA004FNG7Q"
+      },
+      "metadata": {},
+      "spider_name": "innocom",
+      "spider_ip": "10.8.6.51"
+    }
+
+  ```
+
+  ## 实际爬虫结果的数据结构
+  <!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+
+
+  ## 爬虫运行环境
+  <!--udm模块？scrapy？或其他-->
+  ```buildoutcfg
+  scrapy
+  ```
+
+  ## 爬虫部署信息
+  <!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+  ```buildoutcfg
+  爬虫运行机器：10.8.6.51
+  进程数：30
+  项目名称：innocom
+  任务提交机器：10.8.6.63
+  任务提交方式：crontab
+  ```
+
+  ## Taskhub地址
+  ```buildoutcfg
+http://tech.pingansec.com/granite/project-taskhub/-/blob/master/taskhub/config/gravel/config.d/innocom.yaml
+  ```
+
+  ## Taskhub调度规则说明
+  ```buildoutcfg
+  task_result为以下值时被过滤：
+    - 1000
+    - 1101
+    - 1102
+    - 2001
+    - 7000
+    - 9300
+  其他值的任务都会被放入队列
+  ```
+
+  ## 爬虫监控指标设计
+  <!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+
+  ## 爬虫待采集结果目录
+
+---
+  ```buildoutcfg
+  /data/gravel_spiders/innocom
+  ```
+# **数据归集**
+## 责任人
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [ x ] 爬虫写文件logstash采集
+
+
+  ## 归集后存放目录
+
+
+  ## logstash配置文件名称
+
+
+  ## logstash文件采集type
+
+
+  ## 数据归集的topic
+    ```buildoutcfg
+    general-taxpayer
+    ```
+
+  ## ES日志索引及筛选条件
+    ```buildoutcfg
+    gravel-spider-data*  spider_name is innocom
+    ```
+
+
+## 监控指标看板
+
+
+## 数据保留策略
+
+
+---
+
+# **数据清洗**
+
+## 责任人
+
+
+## 代码地址
+
+
+## 部署地址
+  <!--机器及线上代码地址-->
+
+
+  ## 部署方法及说明
+  <!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+- [ ] crontab + data_pump
+- [ ] supervisor + data_pump
+- [ ] supervisor + consumer
+
+  ## 数据接收来源
+    <!--来源于kafka还是归集的文件、topic的group？-->
+
+
+  ## 数据存储表地址
+
+    * 数据库地址：
+    * 表名：
\ No newline at end of file