基本信息
股权穿透QCC爬虫
equity_penetration_qcc,通过scrapy部署
项目名称:project-gravel
分支:develop_equity_penetration
数据名称(中文)
股权穿透QCC爬虫
数据英文名称
equity_penetration_qcc
采集网站(采集入口)
官网PC端入口:
https://www.qcc.com
采集文件存放路径:
/data/gravel_spiders/equity_penetration_qcc
采集频率及采集策略
存量更新策略
目前全量更新一轮地域与公司遍历
增量采集策略
爬虫
股权穿透QCC爬虫 equity_penetration_qcc
责任人
蒋家升
爬虫名称
equity_penetration_qcc
代码地址
项目地址: http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration
队列名称及队列地址
- redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
- redis port: 6379
- redis db: 7
- redis key:
- qcc
优先级队列说明
- equity_penetration 支持队列优先级
任务来源
任务输入参数(样例)
# 地域列表任务
{"area_code": "AH_340100", "page": "1"}
# 搜索列表任务
{"search_key": "北京出国邦出入境服务有限公司"}
# 详情页信息
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}
任务样例
任务参数说明
- area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100)
- page: 页码
- search_key: 搜索框输入内容
- fid: QCC企业id
data_type说明
- list_region: 地域列表
- list_search: 搜索列表
- detail_company: 公司详情页信息
- detail_person: 个人详情页信息
爬虫结果的超级数据
同以下实际爬虫结果
实际爬虫结果的数据结构
- 地域列表任务结果
{
"data":
[
{
"fid": "13df1591b2302573e518c410acd7b2b4",
"qcc_url": "https://www.qcc.com/firm/13df1591b2302573e518c410acd7b2b4.html",
"company_name": "大渡口区玖贰辉荟服装经营部"
},
{
"fid": "b028024bb8010add7d668bed6e8b0079",
"qcc_url": "https://www.qcc.com/firm/b028024bb8010add7d668bed6e8b0079.html",
"company_name": "重庆心揽科技发展有限公司"
},
...
],
"http_code": 200,
"error_msg": "",
"task_result": 1000,
"data_type": "list_region",
"spider_start_time": "2021-11-24 22:41:29.584",
"spider_end_time": "2021-11-24 22:41:29",
"task_params": {"area_code": "CQ_500104","page": "5"},
"metadata": {"area_code": "CQ_500104","page": "5"},
"spider_name": "equity_penetration_qcc",
"spider_ip": "10.8.6.51"
}
- 公司页详情结果
{
"data":
{
"business_license":
{
"登记状态": "存续(在营、开业、在册)",
"成立日期": "2015-07-27",
"人员规模": "1000-1999人",
"曾用名": "上海识装贸易有限公司",
"进出口企业代码": "3100351008055",
"统一社会信用代码": "91310000351008055W",
"企业名称": "上海识装信息科技有限公司",
"注册资本": "100万元人民币",
"实缴资本": "100万元人民币",
"核准日期": "2021-06-23",
"组织机构代码": "35100805-5",
"工商注册号": "310141000181698",
"纳税人识别号": "91310000351008055W",
"企业类型": "其他有限责任公司",
"营业期限": "2015-07-27至2045-07-26",
"纳税人资质": "-",
"所属行业": "批发业",
"所属地区": "上海市",
"登记机关": "虹口区市场监督管理局",
"最新年报地址": "上海市杨浦区黄兴路221号互联宝地C栋4层(2020年报)",
"经营范围": "许可项目:第二类增值电信业务;拍卖业务;出版物互联网销售;出版物零售;货物进出口;技术进出口;食品经营。(依法须经批准的项目,经相关部门批准后方可开展经营活动,具体经营项目以相关部门批准文件或许可证件为准)一般项目:从事网络信息、计算机科技专业领域内的技术开发、技术转让、技术咨询、技术服务;互联网数据服务;大数据服务;数据处理服务;电子商务(不得从事增值电信、金融业务);广告设计、代理;广告作;广告发布(非广播电台、电视台、报刊出版单位);商务信息咨询(不含投资类咨询);互联网销售(除销售需要许可的商品);票务代理服务;销售日用百货,鞋帽,箱包,钟表,服装服饰,化妆品,电子产品,通信设备及相关产品,针纺织品,厨房用品,卫生洁具,家用电器,体育用品及器材,健身器材,文化用品,日用杂品,宠物食品及用品;食品经营(限分支机构经营)。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)",
"法定代表人":
{
"legal_person": "杨冰",
"pid": "p533ed7fc11205e102e124f5c85df3cc"
},
"参保人数": "1074",
"英文名": "ShanghaiMdtInfoTechLtd",
"注册地址": "上海市虹口区中山北一路121号B6-2005室"
},
"main_members":
[
{
"职务": "执行董事,法定代表人",
"持股比例": "**********",
"最终受益股份": "**********",
"姓名":
{
"member": "杨冰",
"pid": "p533ed7fc11205e102e124f5c85df3cc",
"tags":
[
"实际控制人",
"最终受益人",
"大股东"
]
}
},
{
"职务": "监事",
"持股比例": "**********",
"最终受益股份": "**********",
"姓名":
{
"member": "田俊杰",
"pid": "pbd488fa8078b7a8a994f83cf1f58f94"
}
}
],
"shareholders":
[
{
"持股比例": "**********",
"最终受益股份": "**********",
"认缴出资额(万元)": "**********",
"认缴出资日期": "2025-07-30",
"参股日期": "2018-04-11",
"关联产品/机构": "-",
"股东及出资信息":
{
"shareholder": "杨冰",
"pid": "p533ed7fc11205e102e124f5c85df3cc",
"tags":
[
"大股东",
"实际控制人",
"最终受益人"
]
}
},
{
"持股比例": "**********",
"最终受益股份": "**********",
"认缴出资额(万元)": "**********",
"认缴出资日期": "2025-07-30",
"参股日期": "2015-11-27",
"关联产品/机构": "-",
"股东及出资信息":
{
"shareholder": "上海唯物信息系统合伙企业(有限合伙)",
"fid": "9a52086f6b6040033482e987b348d0c5",
"tags":
[
"有股权出质"
]
}
},
{
"持股比例": "**********",
"最终受益股份": "**********",
"认缴出资额(万元)": "**********",
"认缴出资日期": "2025-07-30",
"参股日期": "2018-10-22",
"关联产品/机构": "虎扑",
"股东及出资信息":
{
"shareholder": "虎扑(上海)文化传播股份有限公司",
"fid": "39430a805f1438038656d3bd346e0116",
"tags":
[
"有股权出质"
]
}
}
],
"company_pv": "19万+"
},
"http_code": 200,
"error_msg": "",
"task_result": 1000,
"data_type": "detail_company",
"spider_start_time": "2021-12-01 16:13:50.975",
"spider_end_time": "2021-12-01 16:13:53",
"task_params":
{
"fid": "72e4caf95a05c8122ba9c8e9bc90e7f1"
},
"metadata":
{
"fid": "72e4caf95a05c8122ba9c8e9bc90e7f1"
},
"spider_name": "equity_penetration_qcc",
"spider_ip": "10.8.1.30"
}
爬虫运行环境
scrapy
爬虫部署信息
target: node_51
project: equity_penetration
spider_name: equity_penetration_qcc
Taskhub地址
提交任务地址:
代码编写地址:
Taskhub调度规则说明
task_result=1000 # 正常获取到详情任务
task_result=1101 # 无结果信息
task_result=9101 # 超时错误,需要进行重试,目前重试5次
task_result=8000 # 参数错误
爬虫监控指标设计
(先观察,待补充)
索引:
监控频率:
监控起止时间:
报警条件:
报警群:
报警内容:
数据归集
责任人
数据归集方式
-
爬虫直接写kafka
-
爬虫写文件logstash采集
爬虫结果目录
采集文件存放路径:
/data/gravel_spiders/equity_penetration_qcc
归集后存放目录
/data2_227/grvael_spider_result/equity_penetration_qcc
logstash配置文件名称
logstash文件采集type
equity_penetration_qcc
数据归集的topic
general-taxpayer
ES日志索引及筛选条件
gravel-spider-data-*
监控指标看板
数据保留策略
数据清洗
责任人
代码地址
部署地址
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
数据存储表地址
- 数据库地址:
- 表名: