基本信息
数据爬取自执行公开官网
数据名称(中文)
询价评估信息
数据英文名称
risk_evaluate
采集网站(采集入口)
网站数据接口:
http://zxgk.court.gov.cn/ccpg/index_form_cccz03
采集频率及采集策略
存量更新策略
首次运行爬取全部数据
增量采集策略
0 8,10,12,14,16,18,20 各采集一次,每次采集前200页面
爬虫
责任人
章一锋
爬虫名称
inquiry_spider
代码地址
http://tech.pingansec.com/granite/project-gravel/-/blob/dev_risk_zxgk/scrapy_spiders/gravel_spiders/spiders/inquiry.py
队列名称及队列地址
- redis host: bdp-mq-002.redis.rds.aliyuncs.com
- redis port: 6379
- redis db: 7
- redis key: inquiry
任务来源
udm模块产生
data_pump地址:http://tech.pingansec.com/granite/project-gravel/-/blob/dev_risk_zxgk/app_risk_zxgk/data_pump/inquiry_task_committer.yml
任务提交代码部署地址:10.8.6.63
代码执行方式:crontab定时运行
crontab配置:0 8,10,12,14,16,18,20 * * * /home/collie/.conda/envs/collie/bin/python /home/collie/product/app_risk_zxgk/jobs/data_pump/data_pump.py pump-data -c /home/collie/product/app_risk_zxgk/data_pump/inquiry_task_committer.yml --default_config find_new
任务输入参数(样例)
任务样例
{'cclx_root': 'ZX0157-6', 'task_type': 'evaluation_list', 'limit_page': '200'}
{'cclx_root': 'ZX0157-6', 'task_type': 'entrustment_list', 'limit_page': '200'}
任务参数说明
{
'cclx_root': 'ZX0157-6', # 数据类别:房产、交通运输工具
'task_type': 'entrustment_list', # 任务类型 entrustment_list(评估机构)、evaluation_list(评估结果)
'limit_page': '200' # 爬取的页数
}
实际爬虫结果的数据结构
{
"secondaryClassificationName": "土地使用权",
"ownerName": "",
"caseCode": "",
"url": "e6d348c687354c03beae4f454434d785.pdf",
"jsonObject": "{\"caseNumber\":\"(2022)黑0833执恢186号\",\"courtName\":\"抚远市人民法院\",\"assType\":\"3\",\"url\":\"e6d348c687354c03beae4f454434d785.pdf\",\"subjectname\":\"黑龙江省佳木斯市抚远市东方红村10.53公顷土地\",\"primaryClassificationName\":\"土地使用权\",\"secondaryClassificationName\":\"土地使用权\"}",
"secondaryClassificationCode": "",
"IDNumber": "",
"propertyType": "",
"bzxrName": "王晓伟",
"assType": "3",
"primaryClassificationName": "土地使用权",
"courtName": "抚远市人民法院",
"caseNumber": "(2022)黑0833执恢186号",
"courtCode": "",
"primaryClassificationCode": "",
"subjectname": "黑龙江省佳木斯市抚远市东方红村10.53公顷土地",
"unique_id": "96c9f768eb6ae43d09f773a135621814"
}
爬虫运行环境
scrapy
爬虫部署信息
服务器地址:10.8.6.19
进程数:20
Taskhub地址
http://tech.pingansec.com/granite/project-taskhub/-/blob/master/taskhub/config/gravel/config.d/risk_zxgk.yml
Taskhub调度规则说明
task_result=1000 # 正常获取到详情任务
task_result=1101 # 无结果信息,表示官网查不到这个数据,同样需要解析入库
task_result=9101 # 超时错误,需要进行重试,目前重试5次
task_result=8000 # 参数错误
spider_name=='inquiry_spider' and data_type!='log' 重试
爬虫监控指标设计
数据归集
责任人
数据归集方式
-
爬虫直接写kafka
-
[1] 爬虫写文件logstash采集
爬虫结果目录
归集后存放目录
/data/227/data2/gravel_spider_result/inquiry_spider
logstash配置文件名称
logstash文件采集type
数据归集的topic
ES日志索引及筛选条件
监控指标看板
数据保留策略
数据清洗
责任人
章一锋(清洗入原始表)
刘治强
部署地址
机器:10.8.6.77
crontab:*/3 * * * * /home/collie/.conda/envs/collie/bin/python /home/collie/product/app_risk_zxgk/jobs/data_pump/data_pump.py pump-data --config /home/collie/product/app_risk_zxgk/data_pump/clean.yml
代码地址:http://tech.pingansec.com/granite/project-gravel/-/blob/dev_risk_zxgk/app_risk_zxgk/data_pump/clean.yml
机器:10.8.6.18
代码地址:http://tech.pingansec.com/granite/project-collie-app/-/blob/master/app_risk/data_pump/risk_evaluate.yml
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
爬虫数据的ods表
* 数据库地址:bdp-ext.rwlb.rds.aliyuncs.com bdp_risk
* 表名:risk_original_evaluate_org,risk_original_evaluate_result
数据存储表地址
- 数据库地址:bdp-rds-001.mysql.rds.aliyuncs.com utn_ng_risk
- 表名:
- risk_evaluate_org
- risk_evaluate_org_list
- risk_evaluate_result
- risk_evaluate_result_list