基本信息
股权穿透QCC爬虫
equity_penetration_qcc,通过scrapy部署
项目名称:project-gravel
分支:develop_equity_penetration
数据名称(中文)
股权穿透QCC爬虫
数据英文名称
equity_penetration_qcc
equity_penetration_qcc_login
采集网站(采集入口)
官网PC端入口:
https://www.qcc.com
采集文件存放路径:
/data/gravel_spiders/equity_penetration_qcc
/data/gravel_spiders/equity_penetration_qcc_login
采集频率及采集策略
存量更新策略
目前全量更新一轮地域与公司遍历
增量采集策略
爬虫
股权穿透QCC爬虫 equity_penetration_qcc
责任人
蒋家升
爬虫名称
equity_penetration_qcc
equity_penetration_qcc_login (登录)
代码地址
项目地址: http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration
队列名称及队列地址
- redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
- redis port: 6379
- redis db: 7
- redis key:
- qcc
- qcc_login
优先级队列说明
- equity_penetration 支持队列优先级
任务来源
任务输入参数(样例)
无登录爬虫, redis_key: qcc
# 地域列表任务
{"area_code": "AH_340100", "page": "1"}
# 搜索列表任务
{"search_key": "北京出国邦出入境服务有限公司"}
# 公司详情页信息
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}
带登录爬虫, redis_key: qcc_login
# 搜索列表任务
{"search_key": "北京出国邦出入境服务有限公司"}
# 公司详情页信息
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}
# 个人详情页信息
{"pid": "p507f1693d86036364ec3b5b4d3c0639"}
任务样例
任务参数说明
- area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100)
- page: 页码
- search_key: 搜索框输入内容
- fid: QCC企业id
- pid: QCC个人id
data_type说明
- list_region: 地域列表
- list_search: 搜索列表
- detail_company: 公司详情页信息
- detail_company_apph5: 公司详情页信息(无登录状态)
- detail_person: 个人详情页信息
爬虫结果的超级数据
同以下实际爬虫结果
实际爬虫结果的数据结构
注意:部分示例的结果不包含爬虫的附加信息, 仅有data部分
列表任务结果
分为地域列表,搜索列表,详见data_type说明
爬虫运行环境
scrapy
爬虫部署信息
target: node_51
project: equity_penetration
spider_name: equity_penetration_qcc,equity_penetration_qcc_login
Taskhub地址
提交任务地址:
代码编写地址:
Taskhub调度规则说明
task_result=1000 # 正常获取到详情任务
task_result=1101 # 无结果信息
task_result=9101 # 超时错误,需要进行重试,目前重试5次
task_result=8000 # 参数错误
爬虫监控指标设计
(先观察,待补充)
索引:
监控频率:
监控起止时间:
报警条件:
报警群:
报警内容:
数据归集
责任人
数据归集方式
-
爬虫直接写kafka
-
[ x ] 爬虫写文件logstash采集
爬虫结果目录
采集文件存放路径:
/data/gravel_spiders/equity_penetration_qcc
/data/gravel_spiders/equity_penetration_qcc_login
归集后存放目录
/data2_227/grvael_spider_result/equity_penetration_qcc
/data2_227/grvael_spider_result/equity_penetration_qcc_login
logstash配置文件名称
logstash文件采集type
equity_penetration_qcc
equity_penetration_qcc_login
数据归集的topic
qcc_spider
ES日志索引及筛选条件
gravel-spider-data-*
监控指标看板
数据保留策略
数据清洗
直接使用topic清洗数据时的group
qcc_spider_etl
责任人
代码地址
部署地址
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
数据存储表地址
- 数据库地址:
- 表名: