宋志鹏 · d59c75b3
Hide whitespace changes
Inline Side-by-side

Showing with 0 additions and 0 deletions

data_stream/risk/risk_zhixing.md data_stream/risk/risk_zhixing.md +0 -0

No files found.
--- a/data_stream/risk/risk_zhixing.md
+++ b/data_stream/risk/risk_zhixing.md
+# **基本信息**
+
+```buildoutcfg
+执行公开爬虫
+通过增加的id和数据库已有id进行找新和更新
+如果没有id，通过pname查找
+```
+
+## 数据名称（中文）
+
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+
+###     
+
+```buildoutcfg
+执行公开信息
+```
+
+## 数据英文名称
+
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+
+```buildoutcfg
+risk_zxgk
+```
+
+## 采集网站（采集入口）
+
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+
+```buildoutcfg
+网站数据接口:
+http://zxgk.court.gov.cn
+
+```
+
+## 采集频率及采集策略
+
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+
+### 存量更新策略
+
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+
+```buildoutcfg
+存量连续更新，预计两周更新一轮，逐条更新目前仍是失信状态的。
+db_host: bdp-rds-001.mysql.rds.aliyuncs.com
+db_name: utn_ng_risk
+db_user: shuidi
+db_password: 
+
+```
+
+### 增量采集策略
+
+<!--新增数据怎么来？无需单独采集新增数据？-->
+
+```buildoutcfg
+1、每天从表中查询最大id并生成今天的任务
+```
+
+---
+
+# **爬虫**
+
+```buildoutcfg
+risk_zxgk
+```
+
+## 责任人
+
+```buildoutcfg
+杨龙斌
+```
+
+## 爬虫名称
+
+```buildoutcfg
+risk_zxgk
+```
+
+<!--spider_name-->
+
+## 代码地址
+
+```buildoutcfg
+项目地址:http://tech.pingansec.com/granite/project-gravel/-/tree/develop_general_taxpayer/scrapy_spiders/gravel_spiders/spiders
+```
+
+## 队列名称及队列地址
+
+<!--redis host port db key 优先级说明-->
+-
+
+* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+* redis port: 6379
+* redis db: 7
+* redis key:
+    * risk_zxgk
+
+### 优先级队列说明
+
+* risk_zxgk 支持队列优先级
+
+## 任务来源
+
+<!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+
+```buildoutcfg
+```
+
+## 任务输入参数（样例）
+
+```json
+{
+  "zhixing_id": "1371041114",
+  "task_type": "spider_zhixing_task"
+}
+通过pname查询
+{
+  "zhixing_id": "",
+  "task_type": "spider_zhixing_task",
+  "p_name": "阮芙",
+  "pname_id_task": true
+}
+```
+
+### 任务样例
+
+<!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+
+```buildoutcfg
+```
+
+### 任务参数说明
+
+<!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+
+```json
+{
+  "zhixing_id": "",
+  "task_type": "spider_zhixing_task",
+  "p_name": "阮芙",
+  "pname_id_task": true
+}
+pname_id_task: 这个任务的类型，是否是通过p_name查询
+```
+
+## data_type说明
+
+<!--可能产生的data_type说明-->
+
+```buildoutcfg
+detail: 详情信息 列表,其中每个字典为一条数据
+```
+
+## 爬虫结果的超级数据
+
+<!--包含所有字段的json数据，每个value都要有样例值-->
+
+```json
+{
+  "data": [
+    {
+      "zhixing_id": 1370997737,
+      "case_code": "(2021)苏0402执1978号",
+      "case_state": "0",
+      "pname": "徐琰炜",
+      "court_name": "常州市天宁区人民法院",
+      "exec_money": 100000,
+      "gist_id": "(2021)苏0402刑初97号",
+      "cardnum_view": "32048219981****2812",
+      "sex_name": "男性",
+      "spider_time": "2021-07-06 19:40:09",
+      "deleted": 0
+    }
+  ],
+  "http_code": 200,
+  "error_msg": "",
+  "task_result": 1000,
+  "data_type": "detail",
+  "spider_start_time": "2021-07-06 19:40:08.217",
+  "spider_end_time": "2021-07-06 19:40:09",
+  "task_params": {
+    "zhixing_id": "1370997737",
+    "task_type": "spider_zhixing_task",
+    "p_name": "徐琰炜",
+    "pname_id_task": false
+  },
+  "metadata": {},
+  "spider_name": "risk_zxgk",
+  "spider_ip": "10.8.6.51"
+}
+```
+
+## 实际爬虫结果的数据结构
+
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+
+```buildoutcfg
+
+```
+
+## 爬虫运行环境
+
+<!--udm模块？scrapy？或其他-->
+
+```buildoutcfg
+scrapy
+```
+
+## 爬虫部署信息
+
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+
+```buildoutcfg
+
+```
+
+## Taskhub地址
+
+```buildoutcfg
+```
+
+## Taskhub调度规则说明
+
+```buildoutcfg
+task_result=1000    # 正常获取到详情任务
+task_result=1101    # 无结果信息,表示官网查不到这个数据,同样需要解析入库
+
+task_result=9101    # 超时错误，需要进行重试，目前重试5次
+task_result=8000    # 参数错误
+```
+
+## 爬虫监控指标设计
+
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+
+```buildoutcfg
+(先观察，待补充)
+索引: 
+监控频率: 
+监控起止时间: 
+报警条件: 
+报警群:  
+报警内容: 
+
+```
+
+---
+
+# **数据归集**
+
+## 责任人
+
+```html
+范召贤
+```
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [x] 爬虫写文件logstash采集
+
+## 爬虫结果目录
+
+```html
+/data/gravel_spiders/risk_zxgk
+```
+
+## 归集后存放目录
+
+```html
+/data2_227/grvael_spider_result/risk_zxgk
+```
+
+## logstash配置文件名称
+
+```html
+project-deploy/logstash/10.8.6.246/conf.d/collie_spider_data_to_kfk.conf(入topic)
+project-deploy/logstash/10.8.6.229/conf.d/grvael_spider_to_es.conf(入es)
+```
+
+## logstash文件采集type
+
+```html
+type=>"risk_zxgk"
+```
+
+## 数据归集的topic
+
+```
+topic_id => "general-taxpayer"
+```
+
+## ES日志索引及筛选条件
+
+```html
+index => "public-company-spider-data-%{log_date}"
+{
+"query": {
+"match": {
+"spider_name.keyword": {
+"query": "risk_zxgk",
+"type": "phrase"
+}
+}
+}
+}
+```
+
+## 监控指标看板
+
+## 数据保留策略
+
+---
+
+# **数据清洗**
+
+## 责任人
+
+## 代码地址
+
+## 部署地址
+
+<!--机器及线上代码地址-->
+
+## 部署方法及说明
+
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+
+- [ ] crontab + data_pump
+- [ ] supervisor + data_pump
+- [ ] supervisor + consumer
+
+## 数据接收来源
+
+<!--来源于kafka还是归集的文件、topic的group？-->
+
+## 数据存储表地址
+
+* 数据库地址：
+* 表名：
\ No newline at end of file