... | ... | @@ -90,6 +90,8 @@ queue "topic: collie-ic-data-digest" |
|
|
queue "topic: ic-data-clean-result"
|
|
|
queue "topic: ic_ods_binlog"
|
|
|
|
|
|
database "es: ic_spider_task"
|
|
|
|
|
|
[spider_log] --> [topic: collie-ic-data-to-mongo]: logstash
|
|
|
|
|
|
[topic: collie-ic-data-to-mongo] --> [udm: register_digest]: 单进程
|
... | ... | @@ -98,6 +100,8 @@ queue "topic: ic_ods_binlog" |
|
|
[topic: collie-ic-data-digest] --> [udms: ic_spider_data]: 多进程清洗
|
|
|
[udms: ic_spider_data] --> [topic: ic-data-clean-result]
|
|
|
[topic: ic-data-clean-result] --> [udm: sync_mysql_new]: 多进程入库
|
|
|
[topic: ic-data-clean-result] --> [es: ic_spider_task]: 更新爬虫任务
|
|
|
[es: ic_spider_task] --> [spider_log]
|
|
|
[udm: sync_mysql_new] --> [company_base]
|
|
|
[udm: sync_mysql_new] --> [company_legalperson]
|
|
|
[udm: sync_mysql_new] --> [company_partner]
|
... | ... | @@ -158,6 +162,54 @@ queue "topic: ic_ods_binlog" |
|
|
|
|
|
2、注册digest时一个进程是否满足
|
|
|
|
|
|
# 采集任务提交
|
|
|
|
|
|
## 工商采集滚动更新任务索引字段
|
|
|
|
|
|
es: ic_spider_task
|
|
|
|
|
|
| 字段名 | 注释 | 字段类型 | 作用 |
|
|
|
| ---- | ---- | ---- | ---- |
|
|
|
| company_name_digest | 唯一键 | string | 唯一键 |
|
|
|
| company_name | 名称 | string | |
|
|
|
| company_code | 注册号 | string | |
|
|
|
| credit_no | 统一信用代码 | string | |
|
|
|
| ent_type | 主体类型标识(小类)| int | |
|
|
|
| company_major_type | 主体类型标识(大类)| int | |
|
|
|
| n_company_status | 主体状态 | string | |
|
|
|
| province | 省份 | string | 有地方工商网站 |
|
|
|
| city | 地市 | string | 有地方工商网站 |
|
|
|
| find_in_gsxt | 能否在公示系统查到 | int | 提交任务时带上digest,工商查不到的根据digest回写标记 |
|
|
|
| baseinfo_update_time | 基本信息更新时间 | datetime | |
|
|
|
| partner_update_time | 股东更新时间 | datetime | |
|
|
|
| employee_update_time | 主要人员更新时间 | datetime | |
|
|
|
| change_update_time | 变更记录更新时间 | datetime | |
|
|
|
| branch_update_time | 分支机构更新时间 | datetime | |
|
|
|
| allow_update_time | 行政许可更新时间 | datetime | |
|
|
|
| has_allow | 是否有行政许可 | int | 例行更新存量有行政许可的主体的行政许可维度 |
|
|
|
| punish_update_time | 行政处罚更新时间 | datetime | 其他渠道最近更新了该维度可以下轮再更新 |
|
|
|
| has_punish | 是否有行政处罚 | int | 例行更新存量有行政处罚的主体的行政处罚维度|
|
|
|
| abnormal_update_time | 经营异常更新时间 | datetime | |
|
|
|
| has_abnormal | 是否有经营异常 | int | |
|
|
|
| illegal_update_time | 严重违法更新时间 | datetime | |
|
|
|
| has_illegal | 是否有严重违法 | int | |
|
|
|
| pledge_update_time | 股权出质更新时间 | datetime | |
|
|
|
| has_pledge | 是否有股权出质 | int | |
|
|
|
| justice_update_time | 司法协助更新时间 | datetime | |
|
|
|
| has_justice | 是否有司法协助 | int | |
|
|
|
| chattel_update_time | 动产抵押更新时间 | datetime | |
|
|
|
| has_chattel | 是否有动产抵押 | int | |
|
|
|
| intellectual_update_time | 知识产权出质更新时间 | datetime | |
|
|
|
| has_intellectual | 是否有知识产权出质 | int | |
|
|
|
| clear_update_time | 清算信息更新时间 | datetime | |
|
|
|
| has_clear | 是否有清算信息 | int | |
|
|
|
| check_update_time | 抽查检查更新时间 | datetime | |
|
|
|
| random_check_update_time | 双随机抽查检查更新时间 | datetime | |
|
|
|
| qy_partner_update_time | 企业自主公示股东更新时间 | datetime | |
|
|
|
| simple_cancel_update_time | 简易注销更新时间 | datetime | |
|
|
|
| has_simple_cancel | 是否有简易注销 | int | |
|
|
|
| cancel_notice_update_time | 注销备案公告更新时间 | datetime | |
|
|
|
| has_cancel_notice | 是否有注销备案公告 | int | |
|
|
|
|
|
|
# ic_ods表结构
|
|
|
|
... | ... | |