Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Equity_penetration
  • qcc

Last edited by 蒋家升 Jun 14, 2023
Page history
This is an old version of this page. You can view the most recent version or browse the history.

qcc

基本信息

股权穿透QCC爬虫
equity_penetration_qcc,通过scrapy部署
项目名称:project-gravel
分支:develop_equity_penetration

数据名称(中文)

股权穿透QCC爬虫

数据英文名称

equity_penetration_qcc
equity_penetration_qcc_login

采集网站(采集入口)

官网PC端入口:
https://www.qcc.com

采集文件存放路径:
/data/gravel_spiders/equity_penetration_qcc
/data/gravel_spiders/equity_penetration_qcc_login

采集频率及采集策略

存量更新策略

目前全量更新一轮地域与公司遍历

增量采集策略


爬虫

股权穿透QCC爬虫 equity_penetration_qcc

责任人

蒋家升

爬虫名称

equity_penetration_qcc
equity_penetration_qcc_login (登录)

代码地址

项目地址: http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration

队列名称及队列地址

  • redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
  • redis port: 6379
  • redis db: 7
  • redis key:
    • qcc
    • qcc_login

优先级队列说明

  • equity_penetration 支持队列优先级

任务来源

任务输入参数(样例)

无登录爬虫, redis_key: qcc

# 地域列表任务
{"area_code": "AH_340100", "page": "1"}

# 搜索列表任务
{"search_key": "北京出国邦出入境服务有限公司"}

# 公司详情页信息
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}

带登录爬虫, redis_key: qcc_login

# 搜索列表任务
{"search_key": "北京出国邦出入境服务有限公司"}

# 公司详情页信息
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}

# 个人详情页信息
{"pid": "p507f1693d86036364ec3b5b4d3c0639"}

任务样例

任务参数说明

  • area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100)
  • page: 页码
  • search_key: 搜索框输入内容
  • fid: QCC企业id
  • pid: QCC个人id

data_type说明

  • list_region: 地域列表
  • list_search: 搜索列表
  • detail_company: 公司详情页信息
  • detail_company_apph5: 公司详情页信息(无登录状态)
  • detail_person: 个人详情页信息

爬虫结果的超级数据

同以下实际爬虫结果

实际爬虫结果的数据结构

注意:部分示例的结果不包含爬虫的附加信息, 仅有data部分

列表任务结果
分为地域列表,搜索列表,详见data_type说明

公司页详情结果

个人页详情结果

爬虫运行环境

scrapy

爬虫部署信息

target: node_51
project: equity_penetration
spider_name: equity_penetration_qcc,equity_penetration_qcc_login

Taskhub地址

提交任务地址: 
代码编写地址: 

Taskhub调度规则说明

task_result=1000    # 正常获取到详情任务
task_result=1101    # 无结果信息
task_result=9101    # 超时错误,需要进行重试,目前重试5次
task_result=8000    # 参数错误

爬虫监控指标设计

(先观察,待补充)
索引: 
监控频率: 
监控起止时间: 
报警条件: 
报警群:  
报警内容: 

数据归集

责任人

数据归集方式

  • 爬虫直接写kafka

  • [ x ] 爬虫写文件logstash采集

爬虫结果目录

采集文件存放路径:
/data/gravel_spiders/equity_penetration_qcc
/data/gravel_spiders/equity_penetration_qcc_login

归集后存放目录

/data2_227/grvael_spider_result/equity_penetration_qcc
/data2_227/grvael_spider_result/equity_penetration_qcc_login

logstash配置文件名称

logstash文件采集type

equity_penetration_qcc
equity_penetration_qcc_login

数据归集的topic

qcc_spider
备注:分区数36

ES日志索引及筛选条件

gravel-spider-data-*

监控指标看板

数据保留策略


数据清洗

直接使用topic清洗数据时的group

qcc_spider_etl

责任人

代码地址

部署地址

部署方法及说明

  • crontab + data_pump
  • supervisor + data_pump
  • supervisor + consumer

数据接收来源

数据存储表地址

  • 数据库地址:
  • 表名:
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages