Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
  • public_company

Last edited by yuanbo Sep 09, 2021
Page history

public_company

基本信息


数据维度采集概览
东方财富网
1. 基本资料
2. 财务分析
3. 发行相关
4. 股本变动
5. 十大股东(新三板的在同花顺财经获取)
6. 十大流通股东(新三板的在同花顺财经获取)
7. 核心题材
8. 公告
9.股票行情

同花顺财经
10. 分红情况
11. 高管介绍
12. 控股公司
13. 配股概况
14. 十大股东(新三板)
15. 十大流通股东(新三板)

数据名称(中文)

上市公司

数据英文名称

public_company

采集网站(采集入口)

列表入口(统一从东方财富网): http://quote.eastmoney.com/center/gridlist.html#hs_a_board
详情信息:
    东方财富网: http://f10.eastmoney.com/f10_v2/OperationsRequired.aspx?code=sh688683
    同花顺财经: http://stockpage.10jqka.com.cn/605378/

采集频率及采集策略

存量更新策略

每日5:30例行更新
更新全量
根据16000左右上市公司列表进行更新
大约9:30以前更新完成

增量采集策略

暂无

爬虫

东方财富网爬虫(public_company_eastmoney)
同花顺财经爬虫(public_company_jqka)
上市公告爬虫(public_company_notice) 说明: 上市公告是在东方财富网爬取的

责任人

袁波

爬虫名称

public_company_eastmoney
public_company_jqka
public_company_notice

代码地址

项目地址:http://tech.pingansec.com/granite/project-gravel.git

项目入口脚本
东方财富网: 
http://192.168.109.110/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/public_company_eastmoney.py
同花顺财经: 
http://192.168.109.110/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/public_company_jqka.py
上市公告:
http://192.168.109.110/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/public_company_notice.py

代码具体实现板块: 
http://192.168.109.110/granite/project-gravel/tree/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/pub_company_reqs

队列名称及队列地址

  • redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
  • redis port: 6379
  • redis db: 7
  • redis key:
    • public_company_eastmoney
    • public_company_jqka
    • public_company_notice: 100 (上市公告正常例行的优先级)
    • public_company_notice: 5 (上市公告补旧数据的优先级)

优先级队列说明

  • public_company_eastmoney (默认优先级: 10)
  • public_company_jqka (默认优先级:10)
  • public_company_notice: 100 (上市公告正常例行的优先级)
  • public_company_notice: 5 (上市公告补旧数据的优先级)

任务来源

东方财富网列表获取的公司代码、公司简称等作为入口任务
链接地址: 

任务输入参数(样例)

{
    "platform_name": "eastmoney", 
    "stock_type": "gg", 
    "stock_code": "00001", 
    "stock_name": "长和", 
    "data_type": "notice_list"
}

任务样例

参考链接: http://192.168.109.110/granite/project-gravel/wikis/taskhub

任务参数说明

{
    "platform_name": "eastmoney",   # 平台名称
    "stock_type": "gg",             # 股票类型(沪深A股、新三板、港股)
    "stock_code": "00001",          # 股票code
    "stock_name": "长和",            # 股票简称
    "data_type": "notice_list"      # 数据类型,这里指公告的列表任务
}

data_type说明

list:  获取列表任务(非上市公告部分)
detail: 获取详情的任务(非上市公告部分)
notice_list:  获取列表任务(上市公告部分)
notice_detail: 获取列表详情(上市公告部分)

爬虫结果的超级数据

http://192.168.109.110/granite/project-gravel/wikis/public-company-data-example

实际爬虫结果的数据结构

东方财富网: http://192.168.109.110/granite/project-gravel/wikis/three-real-data
同花顺财经: http://192.168.109.110/granite/project-gravel/wikis/jqka-real-data
上市公告: http://192.168.109.110/granite/project-gravel/wikis/notice-real-data

爬虫运行环境

scrapy

爬虫部署信息

上市公告(东方财富网): 10.8.6.23 100个进程  
东方财富网:          10.8.6.34 10个进程
同花顺财经:          10.8.6.35 10个进程

Taskhub地址

提交任务地址:http://10.8.6.222:8526/inbound/public_company_spider_data/check_task/
代码编写地址: http://192.168.109.110/granite/project-taskhub/blob/master/taskhub/config/gravel/config.d/public_company.yaml

Taskhub调度规则说明

task_result=1000    # 正常获取到详情任务
task_result=1001    # 需要进一步处理的任务,一般是从列表分出来的任务
task_result=9101    # 超时错误,需要进行重试,目前重试3次
task_result=8000    # 参数错误

爬虫监控指标设计

索引: public-company-spider-data-*
监控频率: 每天一次11:00
监控起止时间: 11:00调度一次
报警条件: public_company_company和public_company_jqka两个爬虫,过去6个小时task_result=1000的数据量分别低于13000条
报警群:  "线上报警"群
报警内容: 上市公司数据量监测_近6小时成功数低于13000条

数据归集

责任人

范召贤

数据归集方式

  • 爬虫直接写kafka

  • 爬虫写文件logstash采集

爬虫结果目录

/data/gravel_spiders/public_eastmoney_list (new)
/data/gravel_spiders/public_company_eastmoney
/data/gravel_spiders/public_company_notice
/data/gravel_spiders/public_company_jqka

归集后存放目录

/data2_227/grvael_spider_result/public_eastmoney_list (new)
/data2_227/grvael_spider_result/public_company_eastmoney
/data2_227/grvael_spider_result/public_company_jqka
/data2_227/grvael_spider_result/public_company_notice

logstash配置文件名称

project-deploy/logstash/10.8.6.246/conf.d/collie_spider_data_to_kfk.conf(入topic)
project-deploy/logstash/10.8.6.229/conf.d/grvael_spider_to_es.conf(入es)

logstash文件采集type

type=>"eastmoney-spider-data"
type=>"eastmoney-notice-spider-data"
type=>"jqka-spider-data"

数据归集的topic

topic_id => "public-company-spider-data"

ES日志索引及筛选条件

index => "public-company-spider-data-%{log_date}"

监控指标看板

数据保留策略


数据清洗

责任人

代码地址

部署地址

部署方法及说明

  • crontab + data_pump
  • supervisor + data_pump
  • supervisor + consumer

数据接收来源

数据存储表地址

  • 数据库地址:
  • 表名:
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages