袁波 · c3828342
Hide whitespace changes
Inline Side-by-side

Showing with 220 additions and 0 deletions

data_stream/public_company.md data_stream/public_company.md +220 -0

No files found.
--- a/data_stream/public_company.md
+++ b/data_stream/public_company.md
+# **基本信息**
+
+## 数据名称（中文）: 上市公司
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+### 
+
+## 数据英文名称: public_company
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+
+
+## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+```buildoutcfg
+列表入口(统一从东方财富网): http://quote.eastmoney.com/center/gridlist.html#hs_a_board
+详情信息:
+    东方财富网: http://f10.eastmoney.com/f10_v2/OperationsRequired.aspx?code=sh688683
+    同花顺财经: http://stockpage.10jqka.com.cn/605378/
+```
+
+
+
+## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+
+### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+```buildoutcfg
+每日5:30例行更新
+更新全量
+根据16000左右上市公司列表进行更新
+大约9:30以前更新完成
+
+```
+
+
+### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+
+---
+
+# **爬虫**
+```buildoutcfg
+东方财富网爬虫(public_company_eastmoney)
+同花顺财经爬虫(public_company_jqka)
+上市公告爬虫(public_company_notice) 说明: 上市公告是在东方财富网爬取的
+```
+
+
+## 责任人: 袁波
+
+## 爬虫名称
+```buildoutcfg
+public_company_eastmoney
+public_company_jqka
+public_company_notice
+```
+
+<!--spider_name-->
+
+## 代码地址: http://tech.pingansec.com/granite/project-gravel.git
+
+
+
+## 队列名称及队列地址
+<!--redis host port db key 优先级说明-->
+
+* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+* redis port: 6379
+* redis db: 7
+* redis key: 
+    * public_company_eastmoney
+    * public_company_jqka
+    * public_company_notice: 100 (上市公告正常例行的优先级)
+    * public_company_notice: 5 (上市公告补旧数据的优先级)
+
+### 优先级队列说明
+* public_company_eastmoney (默认优先级: 10)
+* public_company_jqka   (默认优先级:10)
+* public_company_notice: 100 (上市公告正常例行的优先级)
+* public_company_notice: 5 (上市公告补旧数据的优先级)
+
+## 任务来源
+<!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+```buildoutcfg
+东方财富网列表获取的公司代码、公司简称等作为入口任务
+```
+
+## 任务输入参数（样例）
+```json
+{
+    "platform_name": "eastmoney", 
+    "stock_type": "gg", 
+    "stock_code": "00001", 
+    "stock_name": "长和", 
+    "data_type": "notice_list"
+}
+```
+
+
+### 任务样例
+<!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+```buildoutcfg
+参考链接: http://192.168.109.199/granite/project-gravel/wikis/taskhub
+```
+
+### 任务参数说明
+<!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+```json
+{
+    "platform_name": "eastmoney",   # 平台名称
+    "stock_type": "gg",             # 股票类型(沪深A股、新三板、港股)
+    "stock_code": "00001",          # 股票code
+    "stock_name": "长和",            # 股票简称
+    "data_type": "notice_list"      # 数据类型,这里指公告的列表任务
+}
+```
+
+## data_type说明
+<!--可能产生的data_type说明-->
+```buildoutcfg
+list:  获取列表任务(非上市公告部分)
+detail: 获取详情的任务(非上市公告部分)
+notice_list:  获取列表任务(上市公告部分)
+notice_detail: 获取列表详情(上市公告部分)
+```
+
+
+## 爬虫结果的超级数据: http://192.168.109.199/granite/project-gravel/wikis/public-company-data-example
+<!--包含所有字段的json数据，每个value都要有样例值-->
+
+## 实际爬虫结果的数据结构
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+
+
+## 爬虫运行环境: scrapy
+<!--udm模块？scrapy？或其他-->
+
+
+## 爬虫部署信息
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+```buildoutcfg
+上市公告(东方财富网): 10.8.6.23 100个进程  
+东方财富网:          10.8.6.34 10个进程
+同花顺财经:          10.8.6.35 10个进程
+```
+
+
+## Taskhub地址
+
+
+## Taskhub调度规则说明
+
+
+## 爬虫监控指标设计
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+
+---
+
+# **数据归集**
+
+## 责任人
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [x] 爬虫写文件logstash采集
+
+## 爬虫结果目录
+
+
+## 归集后存放目录
+
+
+## logstash配置文件名称
+
+
+## logstash文件采集type
+
+
+## 数据归集的topic
+
+
+## ES日志索引及筛选条件
+
+
+## 监控指标看板
+
+
+## 数据保留策略
+
+
+---
+
+# **数据清洗**
+
+## 责任人
+
+
+## 代码地址
+
+
+## 部署地址
+<!--机器及线上代码地址-->
+
+
+## 部署方法及说明
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+- [ ] crontab + data_pump
+- [ ] supervisor + data_pump
+- [ ] supervisor + consumer
+
+## 数据接收来源
+<!--来源于kafka还是归集的文件、topic的group？-->
+
+
+## 数据存储表地址
+
+* 数据库地址：
+* 表名：
\ No newline at end of file