Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Risk
  • risk_zxgk

Last edited by liuzhiqiang Jul 08, 2022
Page history

risk_zxgk

执行公开执行公开网详细说明

数据简介

1.数据获取来源于官网

  • 因为此前发现综合查询入口查询数据不全的情况,便选择从子入口获取不同维度数据。
  • 目前爬取的数据包括失信被执行人,限制消费人员,被执行人,终结本次案件和财产处置的询价评估
    • 失信被执行人: 目前业务库数据来源于第三方,我们也爬取了官网的数据未入业务库, 表位于bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_shixin_spider_find_new。
    • 被执行人,限制消费人员与终结本次案件:目前业务库更新与例行都依靠从官网爬取的数据。 业务库中存在第三方数据,标识为update_source字段非空。 表位于bdp-rds-001.mysql.rds.aliyuncs.com utn_ng_risk
    • 询价评估:处于开发阶段。

2.数据关系

  • 详见 zxgk找新说明
  • 一条名称+案号的数据先进入被执行人,再可能进入终本或失信,再可能进入限制消费。

数据例行与找新

1.例行

  • 被执行人

    • 通过zhixing_id进行例行。例行更新发布的zhixing_id都是use_flag为0的数据。 表内的唯一键是对规范处理后的名称+案号拼接后的字符串进行md5加密生成的。 zhixing_id爬取结果为1101时,标记为历史数据,即将表内use_flag置为9。 爬取结果为1000时,进行插入或更新。
    • 通过pname进行例行。每天取前一天use_flag被置为9的数据中的pname发布任务。 这是因为同一条数据的zhixing_id会变化,为了避免误置为历史数据才发布此任务。
  • 终结本次案件

    • 通过zhongben_id进行例行,zhixing_id爬取结果为1101时,标记为历史数据,即将表内is_history置为1。 爬取结果为1000时,进行插入或更新。业务表没有唯一键,通过入库的代码验证案号和名称保证数据不重复。
    • 终本暂未开发按名称查询的爬虫。
  • 限制消费人员

    • 通过name进行例行。限销表内唯一键为xianxiao_id,按照xianxiao_id进行数据更新。 按照name爬取的结果包含此名字在官网上搜索的所有结果。 将业务表中对应任务name的xianxiao_id不匹配爬虫结果xinaxiao_id的数据置为历史数据, 即将表内is_history置为1。

2.找新

  • 详见 zxgk找新说明

  • 被执行人

    • 通过任务表中的zhixing_id进行找新。zhixing_id一般为连续自增。
    • 也存在zhixing_id跳跃的情况,比如正常找新zhixing_id在13开头号段,突然跳跃到15开头。 这种情况暂时没有预防措施。
  • 终结本次案件

    • 通过任务表中的zhongben_id进行找新。
    • 每天zhongben_id找新的范围取决于当天从网页上获取的zhongben_id。zhongben_id存在重复的情况。
  • 失信被执行人

    • 通过失信id ep_id进行找新。
  • 限制消费人员

    • 通过前一天失信和终本新增数据中的name发布任务,进行找新。

问题跟踪

  • 详见 zxgk问题跟踪

  • 被执行人

    • 同一条数据zhixing_id发生变化。原有的zhixing_id查不到数据,导致误置为历史数据。
    • 官网上存在同一条数据列表展示多条,我们库内按照姓名+案号去重,只保留一条。
    • 被执行表中存在zhixing_id为空且use_flag=0的数据约158w条,按照现有的例行程序无法更新。下一步计划根据姓名+案号进行例行。
  • 终结本次案件

    • zhongben_id变化,业务库中同一个zhongben_id对应多条数据,导致更新异常。因为只有此zhongben_id爬不到时才会把库内此zhongben_id的数据置为历史数据。
  • 限制消费人员

    • 通过前一天失信和终本新增数据中的name发布任务。无法确认找新是否找全。

相关程序及部署

  • 清洗入库程序

    • 部署机器:10.8.6.228
    • 部署方式:supervisor + data_pump
    • supervisor文件地址
    • data_pump配置文件地址
      • reader:读爬虫文件或kafka
        • 最初是读爬虫文件,只能单进程,数据量多时无法及时入库。测试时可以读文件。
        • 已更新为读kafka,多进程清洗入库。
      • filter:清洗入库,包含字段清洗及入库逻辑
        • 字段清洗:对姓名、案号半角转全角,关联公司digest等
        • 入库逻辑:
          • 被执行人:按照姓名+案号生成唯一键进行更新
          • 终本:与被执行人逻辑一致
          • 限消:按照xianxiao_id进行更新
          • 失信:按照外部数据源更新。我们自己爬的数据按照ep_id进行更新。
      • writer:写到kafka,推送到水滴
        • 程序中只有被执行人做了推送数据的处理。 后来由企业监控项目统一推送,程序中的推送被取消了。
  • 例行更新程序

    • 部署机器:10.8.6.63
    • 部署方式:crontab + data_pump
    • data_pump配置文件地址
  • 找新程序

    • 部署机器:10.8.6.18
    • 部署方式:crontab + data_pump
    • data_pump配置文件地址
      • 任务表发布任务到redis
      • 读爬虫结果更新mysql任务表
  • 预警程序

    • 详见 zxgk找新说明
    • 部署机器:10.8.6.18
    • 部署方式:crontab + data_pump
    • data_pump配置文件地址
      • 将表中统计结果写到es,配置报警

爬虫说明

  • 详见爬虫说明
  • 任务参数
    • 任务id:
      "zhixing_id": "1371041114"
    • 任务类型:
      "task_type": "spider_zhixing_task"
    • 是否通过pname查询:
      "pname_id_task": true
    • 数据类型:为了进一步区分不同任务类型增加的字段
      "update_id_type": "zhixing_routine"
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages