袁波 · 5ee03681
Hide whitespace changes
Inline Side-by-side

Showing with 276 additions and 0 deletions

data_stream/jiguan.md data_stream/jiguan.md +276 -0

No files found.
--- a/data_stream/jiguan.md
+++ b/data_stream/jiguan.md
+# **基本信息**
+```
+```
+
+
+## 数据名称（中文）
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+### 
+```
+机关
+```
+
+## 数据英文名称
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+```
+jiguan
+```
+
+## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+```
+http://guide.conac.cn/#/search?keyword=%E6%B2%88%E9%98%B3%E5%B8%82%E5%92%8C%E5%B9%B3%E5%8C%BA%E5%8C%97%E5%B8%82%E5%9C%BA%E8%A1%97%E9%81%93%E5%8A%9E%E4%BA%8B%E5%A4%84&fields=jgmc&type=1
+```
+
+## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+```
+基本是一次性工作，暂不需要周期调度
+```
+
+### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+```
+```
+
+
+### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+```
+
+```
+
+---
+
+# **爬虫名称以及平台**
+```
+爬虫名称: jiguan_list、jiguan_detail
+平台: 中国机构检索
+```
+
+
+## 责任人
+```
+袁波
+```
+
+<!--spider_name-->
+
+## 代码地址
+```
+项目地址
+http://192.168.109.110/granite/project-gravel/-/tree/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders
+
+项目入口脚本
+http://192.168.109.110/granite/project-gravel/-/blob/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders/jiguan_list.py
+
+代码具体实现板块
+http://192.168.109.110/granite/project-gravel/-/tree/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders/jiguan_reqs
+```
+
+## 队列名称及队列地址
+<!--redis host port db key 优先级说明-->
+-
+* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+* redis port: 6379
+* redis db: 7
+* redis key:  trade_union_spider
+
+### 优先级队列说明
+```
+jiguan_list
+jiguan_detail
+说明:无特别处理，都是默认优先级10
+```
+
+
+
+## 任务来源
+<!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+```
+jiguan_list: 全国的省、市、区等关键词查询列表，获取到company_name、credit_no、company_address、company_type等字段
+jiguan_detail: jiguan_list爬虫获取的结果作为此爬虫的任务输入
+```
+
+## 任务输入参数（样例）
+```
+```
+
+
+### 任务样例
+<!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+jiguan_list爬虫任务
+```
+{
+    "keyword": "湖北"
+}
+```
+
+jiguan_detail爬虫任务
+```
+{
+    "company_name": "湖北罗田经济开发区管理委员会",
+    "credit_no": "114211237739485220",
+    "company_type": "党政机关",
+    "company_address": "罗田县经济开发区大别山大道",
+}
+```
+
+### 任务参数说明
+<!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+```
+搜索时候用credit_no,如果没有credit_no,则用company_name
+```
+
+## data_type说明
+<!--可能产生的data_type说明-->
+```
+detail: 某个详情页的数据
+log: 日志记录
+```
+
+## 爬虫结果的超级数据
+<!--包含所有字段的json数据，每个value都要有样例值-->
+jiguan_list爬虫结果
+```
+{
+	"data": {
+		"companylist_item": {
+			"company_name": "湖北罗田经济开发区管理委员会",
+			"credit_no": "114211237739485220",
+			"company_type": "党政机关",
+			"company_address": "罗田县经济开发区大别山大道",
+			"chiness_domain": "湖北罗田经济开发区管理委员会.政务"
+		}
+	},
+	"http_code": 200,
+	"error_msg": "",
+	"task_result": 1000,
+	"data_type": "detail",
+	"spider_start_time": "2021-09-16 14:25:07.491",
+	"spider_end_time": "2021-09-16 14:25:12.162",
+	"task_params": {
+		"keyword": "湖北"
+	},
+	"metadata": {
+
+	},
+	"spider_name": "jiguan_list",
+	"spider_ip": "10.8.1.14",
+	"proxy_ip": "http://10.8.6.219:38080"
+}
+```
+
+## 实际爬虫结果的数据结构
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+```
+```
+
+## 爬虫运行环境
+<!--udm模块？scrapy？或其他-->
+```
+scrapy
+```
+
+
+## 爬虫部署信息
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+```
+10.8.6.62   5个进程
+```
+
+
+## Taskhub地址
+```
+```
+
+## Taskhub调度规则说明
+```
+```
+
+
+## 爬虫监控指标设计
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+```
+```
+
+## 爬虫待采集结果目录
+```
+/data/gravel_spiders/jiguan_list  (新增)
+/data/gravel_spiders/jiguan_detail (新增)
+```
+
+---
+
+# **数据归集**
+
+## 责任人
+```
+范召贤
+```
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [x] 爬虫写文件logstash采集
+
+
+## 归集后存放目录
+```
+10.8.6.227
+/data2/grvael_spider_result/jiguan_list   (新增)
+/data2/grvael_spider_result/jiguan_detail (新增)
+```
+
+## logstash配置文件名称
+```
+# kafka
+project-deploy/logstash/10.8.6.246/conf.d/collie_spider_data_to_kfk.conf
+# es
+project-deploy/logstash/10.8.6.229/conf.d/gravel/gravel_spider_to_es.conf
+```
+
+## logstash文件采集type
+```
+jiguan_list
+jiguan_detail
+```
+
+## 数据归集的topic
+```
+general-taxpayer
+```
+
+## ES日志索引及筛选条件
+```
+public-company-spider-data-*
+```
+
+## 监控指标看板
+
+
+## 数据保留策略
+
+
+---
+
+# **数据清洗**
+
+## 责任人
+
+## 代码地址
+
+## 部署地址
+
+## 部署方法及说明
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+
+## 数据接收来源
+<!--来源于kafka还是归集的文件、topic的group？-->
+文件
+
+## 数据存储表地址
+
+* 数据库地址：
+* 表名：
\ No newline at end of file