基本信息
数据维度采集概览
东方财富网
1. 基本资料
2. 财务分析
3. 发行相关
4. 股本变动
5. 十大股东(新三板的在同花顺财经获取)
6. 十大流通股东(新三板的在同花顺财经获取)
7. 核心题材
8. 公告
9.股票行情
同花顺财经
10. 分红情况
11. 高管介绍
12. 控股公司
13. 配股概况
14. 十大股东(新三板)
15. 十大流通股东(新三板)
数据名称(中文)
上市公司
数据英文名称
public_company
采集网站(采集入口)
列表入口(统一从东方财富网): http://quote.eastmoney.com/center/gridlist.html#hs_a_board
详情信息:
东方财富网: http://f10.eastmoney.com/f10_v2/OperationsRequired.aspx?code=sh688683
同花顺财经: http://stockpage.10jqka.com.cn/605378/
采集频率及采集策略
存量更新策略
每日5:30例行更新
更新全量
根据16000左右上市公司列表进行更新
大约9:30以前更新完成
增量采集策略
暂无
爬虫
东方财富网爬虫(public_company_eastmoney)
同花顺财经爬虫(public_company_jqka)
上市公告爬虫(public_company_notice) 说明: 上市公告是在东方财富网爬取的
责任人
袁波
爬虫名称
public_company_eastmoney
public_company_jqka
public_company_notice
代码地址
项目地址:http://tech.pingansec.com/granite/project-gravel.git
项目入口脚本
东方财富网:
http://192.168.109.110/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/public_company_eastmoney.py
同花顺财经:
http://192.168.109.110/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/public_company_jqka.py
上市公告:
http://192.168.109.110/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/public_company_notice.py
代码具体实现板块:
http://192.168.109.110/granite/project-gravel/tree/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/pub_company_reqs
队列名称及队列地址
- redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
- redis port: 6379
- redis db: 7
- redis key:
- public_company_eastmoney
- public_company_jqka
- public_company_notice: 100 (上市公告正常例行的优先级)
- public_company_notice: 5 (上市公告补旧数据的优先级)
优先级队列说明
- public_company_eastmoney (默认优先级: 10)
- public_company_jqka (默认优先级:10)
- public_company_notice: 100 (上市公告正常例行的优先级)
- public_company_notice: 5 (上市公告补旧数据的优先级)
任务来源
东方财富网列表获取的公司代码、公司简称等作为入口任务
链接地址:
任务输入参数(样例)
{
"platform_name": "eastmoney",
"stock_type": "gg",
"stock_code": "00001",
"stock_name": "长和",
"data_type": "notice_list"
}
任务样例
参考链接: http://192.168.109.110/granite/project-gravel/wikis/taskhub
任务参数说明
{
"platform_name": "eastmoney", # 平台名称
"stock_type": "gg", # 股票类型(沪深A股、新三板、港股)
"stock_code": "00001", # 股票code
"stock_name": "长和", # 股票简称
"data_type": "notice_list" # 数据类型,这里指公告的列表任务
}
data_type说明
list: 获取列表任务(非上市公告部分)
detail: 获取详情的任务(非上市公告部分)
notice_list: 获取列表任务(上市公告部分)
notice_detail: 获取列表详情(上市公告部分)
爬虫结果的超级数据
http://192.168.109.110/granite/project-gravel/wikis/public-company-data-example
实际爬虫结果的数据结构
东方财富网: http://192.168.109.110/granite/project-gravel/wikis/three-real-data
同花顺财经: http://192.168.109.110/granite/project-gravel/wikis/jqka-real-data
上市公告: http://192.168.109.110/granite/project-gravel/wikis/notice-real-data
爬虫运行环境
scrapy
爬虫部署信息
上市公告(东方财富网): 10.8.6.23 100个进程
东方财富网: 10.8.6.34 10个进程
同花顺财经: 10.8.6.35 10个进程
Taskhub地址
提交任务地址:http://10.8.6.222:8526/inbound/public_company_spider_data/check_task/
代码编写地址: http://192.168.109.110/granite/project-taskhub/blob/master/taskhub/config/gravel/config.d/public_company.yaml
Taskhub调度规则说明
task_result=1000 # 正常获取到详情任务
task_result=1001 # 需要进一步处理的任务,一般是从列表分出来的任务
task_result=9101 # 超时错误,需要进行重试,目前重试3次
task_result=8000 # 参数错误
爬虫监控指标设计
索引: public-company-spider-data-*
监控频率: 每天一次11:00
监控起止时间: 11:00调度一次
报警条件: public_company_company和public_company_jqka两个爬虫,过去6个小时task_result=1000的数据量分别低于13000条
报警群: "线上报警"群
报警内容: 上市公司数据量监测_近6小时成功数低于13000条
数据归集
责任人
范召贤
数据归集方式
-
爬虫直接写kafka
-
爬虫写文件logstash采集
爬虫结果目录
/data/gravel_spiders/public_eastmoney_list (new)
/data/gravel_spiders/public_company_eastmoney
/data/gravel_spiders/public_company_notice
/data/gravel_spiders/public_company_jqka
归集后存放目录
/data2_227/grvael_spider_result/public_eastmoney_list (new)
/data2_227/grvael_spider_result/public_company_eastmoney
/data2_227/grvael_spider_result/public_company_jqka
/data2_227/grvael_spider_result/public_company_notice
logstash配置文件名称
project-deploy/logstash/10.8.6.246/conf.d/collie_spider_data_to_kfk.conf(入topic)
project-deploy/logstash/10.8.6.229/conf.d/grvael_spider_to_es.conf(入es)
logstash文件采集type
type=>"eastmoney-spider-data"
type=>"eastmoney-notice-spider-data"
type=>"jqka-spider-data"
数据归集的topic
topic_id => "public-company-spider-data"
ES日志索引及筛选条件
index => "public-company-spider-data-%{log_date}"
监控指标看板
数据保留策略
数据清洗
责任人
代码地址
部署地址
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
数据存储表地址
- 数据库地址:
- 表名: