|
# **基本信息**
|
|
# **基本信息**
|
|
|
|
|
|
## 数据名称(中文): 上市公司
|
|
## 数据名称(中文)
|
|
<!-- 该项数据的中文标准名称,后续沟通交流使用的规范名称,如:工商公示股东信息、失信被执行人、一般纳税人等-->
|
|
<!-- 该项数据的中文标准名称,后续沟通交流使用的规范名称,如:工商公示股东信息、失信被执行人、一般纳税人等-->
|
|
###
|
|
###
|
|
|
|
```buildoutcfg
|
|
|
|
上市公司
|
|
|
|
```
|
|
|
|
|
|
## 数据英文名称: public_company
|
|
## 数据英文名称
|
|
<!--英文名称,后续流程中所有涉及到英文名称均以此为准,如:partner、shixin、general_taxpayer等-->
|
|
<!--英文名称,后续流程中所有涉及到英文名称均以此为准,如:partner、shixin、general_taxpayer等-->
|
|
|
|
```buildoutcfg
|
|
|
|
public_company
|
|
|
|
```
|
|
|
|
|
|
## 采集网站(采集入口)
|
|
## 采集网站(采集入口)
|
|
<!--采集的入口地址,不能只是一个网站域名,具体到该网站的数据入口-->
|
|
<!--采集的入口地址,不能只是一个网站域名,具体到该网站的数据入口-->
|
... | @@ -35,6 +40,9 @@ |
... | @@ -35,6 +40,9 @@ |
|
|
|
|
|
### 增量采集策略
|
|
### 增量采集策略
|
|
<!--新增数据怎么来?无需单独采集新增数据?-->
|
|
<!--新增数据怎么来?无需单独采集新增数据?-->
|
|
|
|
```buildoutcfg
|
|
|
|
暂无
|
|
|
|
```
|
|
|
|
|
|
---
|
|
---
|
|
|
|
|
... | @@ -46,7 +54,10 @@ |
... | @@ -46,7 +54,10 @@ |
|
```
|
|
```
|
|
|
|
|
|
|
|
|
|
## 责任人: 袁波
|
|
## 责任人
|
|
|
|
```buildoutcfg
|
|
|
|
袁波
|
|
|
|
```
|
|
|
|
|
|
## 爬虫名称
|
|
## 爬虫名称
|
|
```buildoutcfg
|
|
```buildoutcfg
|
... | @@ -57,9 +68,10 @@ public_company_notice |
... | @@ -57,9 +68,10 @@ public_company_notice |
|
|
|
|
|
<!--spider_name-->
|
|
<!--spider_name-->
|
|
|
|
|
|
## 代码地址: http://tech.pingansec.com/granite/project-gravel.git
|
|
## 代码地址
|
|
|
|
```buildoutcfg
|
|
|
|
http://tech.pingansec.com/granite/project-gravel.git
|
|
|
|
```
|
|
|
|
|
|
## 队列名称及队列地址
|
|
## 队列名称及队列地址
|
|
<!--redis host port db key 优先级说明-->
|
|
<!--redis host port db key 优先级说明-->
|
... | @@ -83,6 +95,7 @@ public_company_notice |
... | @@ -83,6 +95,7 @@ public_company_notice |
|
<!--说明爬虫任务的输入。如:来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
|
|
<!--说明爬虫任务的输入。如:来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
|
|
```buildoutcfg
|
|
```buildoutcfg
|
|
东方财富网列表获取的公司代码、公司简称等作为入口任务
|
|
东方财富网列表获取的公司代码、公司简称等作为入口任务
|
|
|
|
链接地址:
|
|
```
|
|
```
|
|
|
|
|
|
## 任务输入参数(样例)
|
|
## 任务输入参数(样例)
|
... | @@ -125,15 +138,25 @@ notice_detail: 获取列表详情(上市公告部分) |
... | @@ -125,15 +138,25 @@ notice_detail: 获取列表详情(上市公告部分) |
|
```
|
|
```
|
|
|
|
|
|
|
|
|
|
## 爬虫结果的超级数据: http://192.168.109.199/granite/project-gravel/wikis/public-company-data-example
|
|
## 爬虫结果的超级数据
|
|
<!--包含所有字段的json数据,每个value都要有样例值-->
|
|
<!--包含所有字段的json数据,每个value都要有样例值-->
|
|
|
|
```buildoutcfg
|
|
|
|
http://192.168.109.199/granite/project-gravel/wikis/public-company-data-example
|
|
|
|
```
|
|
|
|
|
|
## 实际爬虫结果的数据结构
|
|
## 实际爬虫结果的数据结构
|
|
<!--可能与超级数据一致,可能不同的data_type的爬虫结果结构不同,超级数据是把所有data_type的结果组合在一起-->
|
|
<!--可能与超级数据一致,可能不同的data_type的爬虫结果结构不同,超级数据是把所有data_type的结果组合在一起-->
|
|
|
|
```buildoutcfg
|
|
|
|
东方财富网: http://192.168.109.199/granite/project-gravel/wikis/three-real-data
|
|
|
|
同花顺财经: http://192.168.109.199/granite/project-gravel/wikis/jqka-real-data
|
|
|
|
上市公告: http://192.168.109.199/granite/project-gravel/wikis/notice-real-data
|
|
|
|
```
|
|
|
|
|
|
|
|
## 爬虫运行环境
|
|
## 爬虫运行环境: scrapy
|
|
|
|
<!--udm模块?scrapy?或其他-->
|
|
<!--udm模块?scrapy?或其他-->
|
|
|
|
```buildoutcfg
|
|
|
|
scrapy
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
## 爬虫部署信息
|
|
## 爬虫部署信息
|
... | @@ -146,13 +169,31 @@ notice_detail: 获取列表详情(上市公告部分) |
... | @@ -146,13 +169,31 @@ notice_detail: 获取列表详情(上市公告部分) |
|
|
|
|
|
|
|
|
|
## Taskhub地址
|
|
## Taskhub地址
|
|
|
|
```buildoutcfg
|
|
|
|
提交任务地址:http://10.8.6.222:8526/inbound/public_company_spider_data/check_task/
|
|
|
|
代码编写地址: http://192.168.109.199/granite/project-taskhub/blob/master/taskhub/config/gravel/config.d/public_company.yaml
|
|
|
|
```
|
|
|
|
|
|
## Taskhub调度规则说明
|
|
## Taskhub调度规则说明
|
|
|
|
```buildoutcfg
|
|
|
|
task_result=1000 # 正常获取到详情任务
|
|
|
|
task_result=1001 # 需要进一步处理的任务,一般是从列表分出来的任务
|
|
|
|
task_result=9101 # 超时错误,需要进行重试,目前重试3次
|
|
|
|
task_result=8000 # 参数错误
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
## 爬虫监控指标设计
|
|
## 爬虫监控指标设计
|
|
<!--监控爬虫正常运行的指标是什么?报警规则是什么?-->
|
|
<!--监控爬虫正常运行的指标是什么?报警规则是什么?-->
|
|
|
|
```buildoutcfg
|
|
|
|
索引: public-company-spider-data-*
|
|
|
|
监控频率: 每天一次11:00
|
|
|
|
监控起止时间: 11:00调度一次
|
|
|
|
报警条件: public_company_company和public_company_jqka两个爬虫,过去6个小时task_result=1000的数据量分别低于13000条
|
|
|
|
报警群: "线上报警"群
|
|
|
|
报警内容: 上市公司数据量监测_近6小时成功数低于13000条
|
|
|
|
|
|
|
|
```
|
|
|
|
|
|
---
|
|
---
|
|
|
|
|
... | | ... | |