找新逻辑简介
执行公开找新(包含:'zhixing','shixin','xianxiao','zhongben')
zhixing: 通过任务表增加的zhixing_id和爬取结果1101的zhixing_id进行找新
shixin: 通过任务表增加的ep_id和爬取结果1101的ep_id进行找新
zhongben: 通过任务表增加的zhongben_id和爬取结果1101的zhongben_id进行找新
xianxiao: 通过shixin和zhongben新增数据的name进行找新
数据名称
执行公开信息(risk_zxgk)
采集网站(采集入口)
网站数据接口:
http://zxgk.court.gov.cn
采集频率及采集策略
增量采集策略
* 被执行人
* 每天发布四次任务,每次发布的zhixing_id为距今十五天内且爬取失败次数小于80次且爬取结果为1101或null的zhixing_id
* 每次发布任务前,判断爬取结果为1000的最大zhixing_id与表内最大zhixing_id,若两个id只差小于七万,就补充差额的zhixing_id到loss表内
* 终本案件
* 根据每天终本网页上的最大zhongben_id,按照向上增加2万,向下增加6万的范围补充执行表内没有的id
* 每天发布四次任务,每次发布的zhongben_id为距今3天内且爬取失败次数小于80次且爬取结果为1101或null的zhongben_id
* 限制高消费
* 使用每天失信和终本新增的name作为任务进行查找
* 失信被执行人
* 与被执行招新策略一致,增大ep_id后发布任务
爬虫
责任人
杨龙斌
爬虫名称
risk_zxgk
代码地址
项目地址:http://tech.pingansec.com/granite/project-gravel/-/tree/develop_general_taxpayer/scrapy_spiders/gravel_spiders/spiders
队列名称及队列地址
- redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
- redis port: 6379
- redis db: 7
- redis key:
- risk_zxgk
优先级队列说明
- risk_zxgk 支持队列优先级
-
找新任务
- zhixing:risk_zxgk:101
- shixin:risk_zxgk:102
- zhongben:risk_zxgk:103
- xianxiao:risk_zxgk:104
-
存量循环更新任务
- zhixing:risk_zxgk:51
- shixin:risk_zxgk:52
- zhongben:risk_zxgk:53
- xianxiao:risk_zxgk:54
-
补漏及其他任务
- risk_zxgk:60
-
任务来源
任务输入参数(样例)
通用任务
zhixing
{
"zhixing_id": "1371041114",
"task_type": "spider_zhixing_task"
}
shixin
{
"shixin_id": "1371041114",
"task_type": "spider_shixin_task"
}
xianxiao
{
"pname": "刘春志",
"task_type": "spider_xianxiao_task"
}
zhongben
{
"zhongben_id": "1371041114",
"task_type": "spider_zhongben_task"
}
zhixing 通过pname查询
{
"zhixing_id": "",
"task_type": "spider_zhixing_task",
"pname": "阮芙",
"pname_id_task": true
}
# 综合查询 name 和 case_code是必要字段
{
"task_type": "spider_zonghe_task",
"name": "张三",
"case_code": "(2018)川0921执801号"
}
任务样例
任务参数说明
{
"zhixing_id": "",
"task_type": "spider_zhixing_task",
"pname": "阮芙",
"pname_id_task": true,
"update_id_type": "zhixing_routine"
}
pname_id_task: 这个任务的类型,是否是通过pname查询
update_id_type: 任务类型,zhixing_routine表示执行存量例行更新, zhixing表示执行找新
data_type说明
detail: 详情信息 列表,其中每个字典为一条数据,只有这一种类型
代码地址
data_type | 代码简介 | 代码地址 |
---|---|---|
zhixing, shixin, zhongben | 通过任务表发布任务到redis | http://192.168.109.110/granite/project-collie-app/-/blob/master/app_risk/data_pump/zxgk_update_id_to_redis.yml |
zhixing, shixin, zhongben | 将爬虫结果更新到任务表中 | http://192.168.109.110/granite/project-collie-app/-/blob/master/app_risk/data_pump/zxgk_update_id.yml |
数据存储表地址
data_type | 表简介 | 数据库地址 | 表名 |
---|---|---|---|
zhixing | zhixing任务表,用于发布爬虫任务 | bdp-ext.rwlb.rds.aliyuncs.com | bdp_risk.risk_zhixing_loss |
shixin | shixin任务表,用于发布爬虫任务 | bdp-ext.rwlb.rds.aliyuncs.com | bdp_risk.risk_shixin_loss |
zhongben | zhongben任务表,用于发布爬虫任务 | bdp-ext.rwlb.rds.aliyuncs.com | bdp_risk.risk_zhongben_loss |
部署地址
10.8.6.18
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
1.爬虫数据进行数据更新
2.代码生成新的执行id进行爬虫任务发布