执行公开执行公开网详细说明
数据简介
1.数据获取来源于官网
- 因为此前发现综合查询入口查询数据不全的情况,便选择从子入口获取不同维度数据。
- 目前爬取的数据包括失信被执行人,限制消费人员,被执行人,终结本次案件和财产处置的询价评估
- 失信被执行人: 目前业务库数据来源于第三方,我们也爬取了官网的数据未入业务库, 表位于bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_shixin_spider_find_new。
- 被执行人,限制消费人员与终结本次案件:目前业务库更新与例行都依靠从官网爬取的数据。 业务库中存在第三方数据,标识为update_source字段非空。 表位于bdp-rds-001.mysql.rds.aliyuncs.com utn_ng_risk
- 询价评估:处于开发阶段。
2.数据关系
- 详见 zxgk找新说明
- 一条名称+案号的数据先进入被执行人,再可能进入终本或失信,再可能进入限制消费。
数据例行与找新
1.例行
-
被执行人
- 通过zhixing_id进行例行。例行更新发布的zhixing_id都是use_flag为0的数据。 表内的唯一键是对规范处理后的名称+案号拼接后的字符串进行md5加密生成的。 zhixing_id爬取结果为1101时,标记为历史数据,即将表内use_flag置为9。 爬取结果为1000时,进行插入或更新。
- 通过pname进行例行。每天取前一天use_flag被置为9的数据中的pname发布任务。 这是因为同一条数据的zhixing_id会变化,为了避免误置为历史数据才发布此任务。
-
终结本次案件
- 通过zhongben_id进行例行,zhixing_id爬取结果为1101时,标记为历史数据,即将表内is_history置为1。 爬取结果为1000时,进行插入或更新。业务表没有唯一键,通过入库的代码验证案号和名称保证数据不重复。
- 终本暂未开发按名称查询的爬虫。
-
限制消费人员
- 通过name进行例行。限销表内唯一键为xianxiao_id,按照xianxiao_id进行数据更新。 按照name爬取的结果包含此名字在官网上搜索的所有结果。 将业务表中对应任务name的xianxiao_id不匹配爬虫结果xinaxiao_id的数据置为历史数据, 即将表内is_history置为1。
2.找新
-
详见 zxgk找新说明
-
被执行人
- 通过任务表中的zhixing_id进行找新。zhixing_id一般为连续自增。
- 也存在zhixing_id跳跃的情况,比如正常找新zhixing_id在13开头号段,突然跳跃到15开头。 这种情况暂时没有预防措施。
-
终结本次案件
- 通过任务表中的zhongben_id进行找新。
- 每天zhongben_id找新的范围取决于当天从网页上获取的zhongben_id。zhongben_id存在重复的情况。
-
失信被执行人
- 通过失信id ep_id进行找新。
-
限制消费人员
- 通过前一天失信和终本新增数据中的name发布任务,进行找新。
问题跟踪
-
详见 zxgk问题跟踪
-
被执行人
- 同一条数据zhixing_id发生变化。原有的zhixing_id查不到数据,导致误置为历史数据。
- 官网上存在同一条数据列表展示多条,我们库内按照姓名+案号去重,只保留一条。
- 被执行表中存在zhixing_id为空且use_flag=0的数据约158w条,按照现有的例行程序无法更新。下一步计划根据姓名+案号进行例行。
-
终结本次案件
- zhongben_id变化,业务库中同一个zhongben_id对应多条数据,导致更新异常。因为只有此zhongben_id爬不到时才会把库内此zhongben_id的数据置为历史数据。
-
限制消费人员
- 通过前一天失信和终本新增数据中的name发布任务。无法确认找新是否找全。
相关程序及部署
-
清洗入库程序
- 部署机器:10.8.6.228
- 部署方式:supervisor + data_pump
- supervisor文件地址
-
data_pump配置文件地址
- reader:读爬虫文件或kafka
- 最初是读爬虫文件,只能单进程,数据量多时无法及时入库。测试时可以读文件。
- 已更新为读kafka,多进程清洗入库。
- filter:清洗入库,包含字段清洗及入库逻辑
- 字段清洗:对姓名、案号半角转全角,关联公司digest等
- 入库逻辑:
- 被执行人:按照姓名+案号生成唯一键进行更新
- 终本:与被执行人逻辑一致
- 限消:按照xianxiao_id进行更新
- 失信:按照外部数据源更新。我们自己爬的数据按照ep_id进行更新。
- writer:写到kafka,推送到水滴
- 程序中只有被执行人做了推送数据的处理。 后来由企业监控项目统一推送,程序中的推送被取消了。
- reader:读爬虫文件或kafka
-
例行更新程序
- 部署机器:10.8.6.63
- 部署方式:crontab + data_pump
- data_pump配置文件地址
-
找新程序
- 部署机器:10.8.6.18
- 部署方式:crontab + data_pump
- data_pump配置文件地址
-
预警程序
- 详见 zxgk找新说明
- 部署机器:10.8.6.18
- 部署方式:crontab + data_pump
- data_pump配置文件地址
爬虫说明
- 详见爬虫说明
- 任务参数
- 任务id:
"zhixing_id": "1371041114" - 任务类型:
"task_type": "spider_zhixing_task" - 是否通过pname查询:
"pname_id_task": true - 数据类型:为了进一步区分不同任务类型增加的字段
"update_id_type": "zhixing_routine"
- 任务id: