Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Ic
  • ic_spider_df

ic_spider_df · Changes

Page history
update: 更新方案 authored May 06, 2022 by 宋志鹏's avatar 宋志鹏
Hide whitespace changes
Inline Side-by-side
Showing with 52 additions and 0 deletions
+52 -0
  • data_stream/ic/ic_spider_df.md data_stream/ic/ic_spider_df.md +52 -0
  • No files found.
data_stream/ic/ic_spider_df.md
View page @ fcbedd34
......@@ -90,6 +90,8 @@ queue "topic: collie-ic-data-digest"
queue "topic: ic-data-clean-result"
queue "topic: ic_ods_binlog"
database "es: ic_spider_task"
[spider_log] --> [topic: collie-ic-data-to-mongo]: logstash
[topic: collie-ic-data-to-mongo] --> [udm: register_digest]: 单进程
......@@ -98,6 +100,8 @@ queue "topic: ic_ods_binlog"
[topic: collie-ic-data-digest] --> [udms: ic_spider_data]: 多进程清洗
[udms: ic_spider_data] --> [topic: ic-data-clean-result]
[topic: ic-data-clean-result] --> [udm: sync_mysql_new]: 多进程入库
[topic: ic-data-clean-result] --> [es: ic_spider_task]: 更新爬虫任务
[es: ic_spider_task] --> [spider_log]
[udm: sync_mysql_new] --> [company_base]
[udm: sync_mysql_new] --> [company_legalperson]
[udm: sync_mysql_new] --> [company_partner]
......@@ -158,6 +162,54 @@ queue "topic: ic_ods_binlog"
2、注册digest时一个进程是否满足
# 采集任务提交
## 工商采集滚动更新任务索引字段
es: ic_spider_task
| 字段名 | 注释 | 字段类型 | 作用 |
| ---- | ---- | ---- | ---- |
| company_name_digest | 唯一键 | string | 唯一键 |
| company_name | 名称 | string | |
| company_code | 注册号 | string | |
| credit_no | 统一信用代码 | string | |
| ent_type | 主体类型标识(小类)| int | |
| company_major_type | 主体类型标识(大类)| int | |
| n_company_status | 主体状态 | string | |
| province | 省份 | string | 有地方工商网站 |
| city | 地市 | string | 有地方工商网站 |
| find_in_gsxt | 能否在公示系统查到 | int | 提交任务时带上digest,工商查不到的根据digest回写标记 |
| baseinfo_update_time | 基本信息更新时间 | datetime | |
| partner_update_time | 股东更新时间 | datetime | |
| employee_update_time | 主要人员更新时间 | datetime | |
| change_update_time | 变更记录更新时间 | datetime | |
| branch_update_time | 分支机构更新时间 | datetime | |
| allow_update_time | 行政许可更新时间 | datetime | |
| has_allow | 是否有行政许可 | int | 例行更新存量有行政许可的主体的行政许可维度 |
| punish_update_time | 行政处罚更新时间 | datetime | 其他渠道最近更新了该维度可以下轮再更新 |
| has_punish | 是否有行政处罚 | int | 例行更新存量有行政处罚的主体的行政处罚维度|
| abnormal_update_time | 经营异常更新时间 | datetime | |
| has_abnormal | 是否有经营异常 | int | |
| illegal_update_time | 严重违法更新时间 | datetime | |
| has_illegal | 是否有严重违法 | int | |
| pledge_update_time | 股权出质更新时间 | datetime | |
| has_pledge | 是否有股权出质 | int | |
| justice_update_time | 司法协助更新时间 | datetime | |
| has_justice | 是否有司法协助 | int | |
| chattel_update_time | 动产抵押更新时间 | datetime | |
| has_chattel | 是否有动产抵押 | int | |
| intellectual_update_time | 知识产权出质更新时间 | datetime | |
| has_intellectual | 是否有知识产权出质 | int | |
| clear_update_time | 清算信息更新时间 | datetime | |
| has_clear | 是否有清算信息 | int | |
| check_update_time | 抽查检查更新时间 | datetime | |
| random_check_update_time | 双随机抽查检查更新时间 | datetime | |
| qy_partner_update_time | 企业自主公示股东更新时间 | datetime | |
| simple_cancel_update_time | 简易注销更新时间 | datetime | |
| has_simple_cancel | 是否有简易注销 | int | |
| cancel_notice_update_time | 注销备案公告更新时间 | datetime | |
| has_cancel_notice | 是否有注销备案公告 | int | |
# ic_ods表结构
......
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages