Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Risk
  • risk_zxgk_find_new

Last edited by liuzhiqiang Jul 06, 2022
Page history
This is an old version of this page. You can view the most recent version or browse the history.

risk_zxgk_find_new

找新逻辑简介

执行公开找新(包含:'zhixing','shixin','xianxiao','zhongben')
zhixing: 通过任务表增加的zhixing_id和爬取结果1101的zhixing_id进行找新
shixin: 通过任务表增加的ep_id和爬取结果1101的ep_id进行找新
zhongben: 通过任务表增加的zhongben_id和爬取结果1101的zhongben_id进行找新
xianxiao: 通过shixin和zhongben新增数据的name进行找新

数据名称

执行公开信息(risk_zxgk)

采集网站(采集入口)

网站数据接口:
http://zxgk.court.gov.cn

采集频率及采集策略

增量采集策略

* 被执行人
  * 每天发布四次任务,每次发布的zhixing_id为距今十五天内且爬取失败次数小于80次且爬取结果为1101或null的zhixing_id
  * 每次发布任务前,判断爬取结果为1000的最大zhixing_id与表内最大zhixing_id,若两个id只差小于七万,就补充差额的zhixing_id到loss表内

* 终本案件
  * 根据每天终本网页上的最大zhongben_id,按照向上增加2万,向下增加6万的范围补充执行表内没有的id
  * 每天发布四次任务,每次发布的zhongben_id为距今3天内且爬取失败次数小于80次且爬取结果为1101或null的zhongben_id

* 限制高消费
  * 使用每天失信和终本新增的name作为任务进行查找

* 失信被执行人
  * 与被执行招新策略一致,增大ep_id后发布任务

爬虫

责任人

杨龙斌

爬虫名称

risk_zxgk

代码地址

项目地址:http://tech.pingansec.com/granite/project-gravel/-/tree/develop_general_taxpayer/scrapy_spiders/gravel_spiders/spiders

队列名称及队列地址

  • redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
  • redis port: 6379
  • redis db: 7
  • redis key:
    • risk_zxgk

优先级队列说明

  • risk_zxgk 支持队列优先级
    • 找新任务

      • zhixing:risk_zxgk:101
      • shixin:risk_zxgk:102
      • zhongben:risk_zxgk:103
      • xianxiao:risk_zxgk:104
    • 存量循环更新任务

      • zhixing:risk_zxgk:51
      • shixin:risk_zxgk:52
      • zhongben:risk_zxgk:53
      • xianxiao:risk_zxgk:54
    • 补漏及其他任务

      • risk_zxgk:60

任务来源

任务输入参数(样例)

通用任务
zhixing
{
  "zhixing_id": "1371041114",
  "task_type": "spider_zhixing_task"
}

shixin
{
  "shixin_id": "1371041114",
  "task_type": "spider_shixin_task"
}

xianxiao
{
  "pname": "刘春志",
  "task_type": "spider_xianxiao_task"
}

zhongben
{
  "zhongben_id": "1371041114",
  "task_type": "spider_zhongben_task"
}


zhixing 通过pname查询
{
  "zhixing_id": "",
  "task_type": "spider_zhixing_task",
  "pname": "阮芙",
  "pname_id_task": true
}


# 综合查询  name 和 case_code是必要字段
{
  "task_type": "spider_zonghe_task",
  "name": "张三",
  "case_code": "(2018)川0921执801号"
}

任务样例

任务参数说明

{
  "zhixing_id": "",
  "task_type": "spider_zhixing_task",
  "pname": "阮芙",
  "pname_id_task": true,
  "update_id_type": "zhixing_routine"
}
pname_id_task: 这个任务的类型,是否是通过pname查询
update_id_type: 任务类型,zhixing_routine表示执行存量例行更新, zhixing表示执行找新

data_type说明

detail: 详情信息 列表,其中每个字典为一条数据,只有这一种类型

代码地址

data_type 代码简介 代码地址
zhixing, shixin, zhongben 通过任务表发布任务到redis http://192.168.109.110/granite/project-collie-app/-/blob/master/app_risk/data_pump/zxgk_update_id_to_redis.yml
zhixing, shixin, zhongben 将爬虫结果更新到任务表中 http://192.168.109.110/granite/project-collie-app/-/blob/master/app_risk/data_pump/zxgk_update_id.yml

数据存储表地址

data_type 表简介 数据库地址 表名
zhixing zhixing任务表,用于发布爬虫任务 bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_zhixing_loss
shixin shixin任务表,用于发布爬虫任务 bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_shixin_loss
zhongben zhongben任务表,用于发布爬虫任务 bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_zhongben_loss

部署地址

10.8.6.18

部署方法及说明

  • crontab + data_pump
  • supervisor + data_pump
  • supervisor + consumer

数据接收来源

1.爬虫数据进行数据更新
2.代码生成新的执行id进行爬虫任务发布
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages