|
|
# 数据流
|
|
|
|
|
|
```puml
|
|
|
@startuml
|
|
|
component "JOB:UDM:ic_spider_data_into_mongo" #LimeGreen
|
|
|
note left of "JOB:UDM:ic_spider_data_into_mongo": 爬虫数据上线模块
|
|
|
component "JOB:UDM:sync_redis" #LimeGreen
|
|
|
note left of "JOB:UDM:sync_redis": 通用向redis同步数据模块
|
|
|
component "JOB:UDM:sync_risk" #LimeGreen
|
|
|
note right of "JOB:UDM:sync_risk": 司法数据入库模块
|
|
|
queue "collie-ic-crawler-data"
|
|
|
queue "collie-sync-redis"
|
|
|
note bottom of "collie-sync-redis": {"msg": change_info, \n"sync_condition": {"data_type": "company_change_monitor",\n "operation": "rpush"}}
|
|
|
queue "collie-sync-redis-es"
|
|
|
queue "shuidi_company_change_record"
|
|
|
note bottom of "shuidi_company_change_record": 水滴接收数据的redis key
|
|
|
database Elasticsearch
|
|
|
[JOB:UDM:ic_spider_data_into_mongo] --> [collie-ic-crawler-data]
|
|
|
[JOB:UDM:ic_spider_data_into_mongo] --> [collie-sync-redis]
|
|
|
[JOB:UDM:sync_risk] --> [collie-sync-redis]
|
|
|
[collie-sync-redis] --> [JOB:UDM:sync_redis]
|
|
|
[JOB:UDM:sync_redis] --> [collie-sync-redis-es]
|
|
|
[JOB:UDM:sync_redis] --> [shuidi_company_change_record]
|
|
|
[collie-sync-redis-es] --> [Elasticsearch]
|
|
|
@enduml
|
|
|
```
|
|
|
|
|
|
# 数据结构
|
|
|
|
|
|
## 水滴接收到的结构
|
|
|
```json
|
|
|
{
|
|
|
"company_name_digest": "主体唯一键",
|
|
|
"data_type": "动态的维度",
|
|
|
"change_type": "变化的类型",
|
|
|
"change_time": "发现变化的时间",
|
|
|
"content_before": "变化前内容",
|
|
|
"content_after": "变化后内容",
|
|
|
"happen_date": "实际发生的日期: 2020-07-01",
|
|
|
"discover_day_diff": "发现变化日期与实际发生日期相差的天数"
|
|
|
}
|
|
|
```
|
|
|
或
|
|
|
|
|
|
"{company_name_digest}"
|
|
|
|
|
|
## sync_redis模块接收到的结构,topic:collie-sync-redis
|
|
|
```json
|
|
|
{
|
|
|
"msg": {
|
|
|
"company_name_digest": "主体唯一键",
|
|
|
"data_type": "动态的维度",
|
|
|
"change_type": "变化的类型",
|
|
|
"change_time": "发现变化的时间",
|
|
|
"content_before": "变化前内容",
|
|
|
"content_after": "变化后内容",
|
|
|
"happen_date": "实际发生的日期: 2020-07-01",
|
|
|
"discover_day_diff": "发现变化日期与实际发生日期相差的天数"
|
|
|
},
|
|
|
"sync_condition": {
|
|
|
"data_type": "company_change_monitor",
|
|
|
"operation": "rpush"
|
|
|
}
|
|
|
}
|
|
|
```
|
|
|
```json
|
|
|
{
|
|
|
"msg": "company_name_digest",
|
|
|
"sync_condition": {
|
|
|
"data_type": "company_tag_es",
|
|
|
"operation": "rpush"
|
|
|
}
|
|
|
}
|
|
|
```
|
|
|
招聘+知识产权的digest推动
|
|
|
```json
|
|
|
{
|
|
|
"msg": "company_name_digest",
|
|
|
"sync_condition": {
|
|
|
"data_type": "company_tag_es_tmp",
|
|
|
"operation": "rpush"
|
|
|
}
|
|
|
}
|
|
|
```
|
|
|
```json
|
|
|
{
|
|
|
"sync_status": "success",
|
|
|
"company_name_digest": "company_name_digest"
|
|
|
}
|
|
|
```
|
|
|
```json
|
|
|
[
|
|
|
{"sync_status": "success","company_name_digest": "company_name_digest1"},
|
|
|
{"sync_status": "success","company_name_digest": "company_name_digest2"},
|
|
|
{"sync_status": "success","company_name_digest": "company_name_digest3"}
|
|
|
]
|
|
|
```
|
|
|
|
|
|
|
|
|
| data_type值 | 维度 |
|
|
|
| ---- | ---- |
|
|
|
| ic_legal_person | 工商-法定代表人 |
|
|
|
| ic_capital | 工商-注册资本 |
|
|
|
| ic_company_address | 工商-注册地址 |
|
|
|
| ic_partner | 工商-股东 |
|
|
|
| ic_employee | 工商-主要人员 |
|
|
|
| ic_invest | 工商-对外投资 |
|
|
|
| ic_abnormal | 工商-经营异常 |
|
|
|
| ic_illegal | 工商-严重违法 |
|
|
|
| ic_punish | 工商-行政处罚 |
|
|
|
| risk_zhixing | 司法-被执行人 |
|
|
|
| risk_shixin | 司法-失信被执行人 |
|
|
|
| risk_lawsuit | 司法-裁判文书 |
|
|
|
| risk_court_notice | 司法-开庭公告 |
|
|
|
| risk_court_announcement | 司法-法院公告 |
|
|
|
| ip_icp | 知识产权-icp备案 |
|
|
|
| contact_phone | 联系方式-电话/手机号 |
|
|
|
| contact_email | 联系方式-邮箱 |
|
|
|
| biz_bid | 招投标 |
|
|
|
| biz_bid_history_bidder_win | 招投标--历史中标方 |
|
|
|
| biz_bid_history_bidder | 招投标--历史投标方 |
|
|
|
|
|
|
| change_type值 | 变化类型 |
|
|
|
| ---- | ---- |
|
|
|
| change | 变更 |
|
|
|
| include | 新增、收入 |
|
|
|
| remove | 退出、移除 |
|
|
|
|
|
|
# 数据记录说明
|
|
|
|
|
|
| data_type | change_type | content_before | content_after | happen_date |备注 |
|
|
|
| -------- | -------- | -------- | -------- | -------- | -------- |
|
|
|
| ic_legal_person | change | 变化前法人 | 变化后法人 | 变更记录的变更日期 | 从变更记录中取 |
|
|
|
| ic_capital | change | 变化前注册资本 | 变化后注册资本 | 变更记录的变更日期 | 从变更记录中取 |
|
|
|
| ic_company_address | change | 变化前注册地址 | 变化后注册地址 | 变更记录的变更日期 | 从变更记录中取 |
|
|
|
| ic_partner | change | 变更前股东信息 | 变更后股东信息 | 变更记录的变更日期 | 从变更记录中取 |
|
|
|
| ic_partner | include | 空 | 新增的股东名称,若新增多个股东,则','拼接所有新增股东名称 | | 已废弃 |
|
|
|
| ic_partner | remove | 退出的股东名称,若退出多个股东,则','拼接所有退出股东名称 | 空 | | 已废弃 |
|
|
|
| ic_employee | change | 变更前高管信息 | 变更后高管信息 | 变更记录的变更日期 | 从变更记录中取 |
|
|
|
| ic_employee | include | 空 | 新增的主要人员名称,若新增多个人员,则','拼接所有新增人员名称 | | 已废弃 |
|
|
|
| ic_employee | remove | 退出的主要人员名称,若退出多个人员,则','拼接所有退出人员名称 | 空 | | 已废弃 |
|
|
|
| ic_invest | change | 投资企业名称:变化前认缴出资额 | 投资企业名称:变化后认缴出资额 | 只比较认缴出资的数值 | |
|
|
|
| ic_invest | include | 空 | 新增投资企业名称 | | |
|
|
|
| ic_invest | include | 撤资投资企业名称 | 空 | | |
|
|
|
| ic_abnormal | include | 空 | abnormal_record:{abnormal_record}| included_time | |
|
|
|
| ic_abnormal | remove | abnormal_record:{abnormal_record} | 空 | removed_time | |
|
|
|
| ic_illegal | include | 空 | illegal_record:{illegal_record}| included_time | |
|
|
|
| ic_illegal | remove | illegal_record:{illegal_record} | 空 | removed_time | |
|
|
|
| ic_punish | include | 空 | punish_record:{punish_record} | public_date | |
|
|
|
| risk_shixin | include | 空 | ep_id:{ed_id} | 失信表中的记录,根据字段ep_id查询 | |
|
|
|
| risk_shixin | remove | ep_id:{ep_id} | 空 | 失信表中的记录,根据字段ep_id查询 | |
|
|
|
| risk_zhixing | include | 空 | unique_id:{unique_id} | 被执行表中的记录,根据字段unique_id查询 | |
|
|
|
| risk_zhixing | remove | unique_id:{unique_id} | 空 | 被执行表中的记录,根据字段unique_id查询 | |
|
|
|
| risk_lawsuit | include | 空 | docid:{docid} | 根据docid字段,查询新增的裁判文书 | |
|
|
|
| risk_court_notice | include | 空 | unique_id:{unique_id} | 根据unique_id字段,查询新增的开庭公告 | |
|
|
|
| risk_court_announcement | include | 空 | unique_id:{unique_id} | 根据unique_id字段,查询新增的法院公告 | |
|
|
|
| ip_icp | include | 空 | ID:{ID} | 根据ID字段,查询新增的网站备案 | |
|
|
|
| ip_soft | include | 空 | REG_NUM:{REG_NUM} | 根据软件著作权的唯一键REG_NUM,查询ip_copyright_software表| 主体新增软件著作权数据|
|
|
|
| ip_soft | remove | 空 | REG_NUM:{REG_NUM} | 根据软件著作权的唯一键REG_NUM,查询ip_copyright_software表| 主体删除软件著作权数据|
|
|
|
| ip_work | include | 空 | REG_NUM:{REG_NUM} | 根据作品著作权的唯一键REG_NUM,查询ip_copyright_works表| 主体新增软件著作权数据|
|
|
|
| ip_work | remove | 空 | REG_NUM:{REG_NUM} | 根据作品著作权的唯一键REG_NUM,查询ip_copyright_works表| 主体删除软件著作权数据|
|
|
|
| ip_patent | include | 空 | PUB_NUMBER:{PUB_NUMBER} | 根据专利的唯一键PUB_NUMBER,查询ip_patent表新增 | |
|
|
|
| ip_patent | remove | 空 | PUB_NUMBER:{PUB_NUMBER} | 根据专利的唯一键PUB_NUMBER,删除ip_patent_applicant_list表的一个记录 | |
|
|
|
| ip_patent_is_history | change | 空 | PUB_NUMBER:{PUB_NUMBER} | 根据专利的唯一键PUB_NUMBER,查询ip_patent_applicant_list/ip_patent表 | 当前专利权人or历史专利权人的状态变更|
|
|
|
| ip_patent_type | change | 空 | PUB_NUMBER:{PUB_NUMBER} | 根据专利的唯一键PUB_NUMBER,查询ip_patent_applicant_list/ip_patent表 | 申请人or专利权人的状态变更|
|
|
|
| ip_patent_status | change | 空 | PUB_NUMBER:{PUB_NUMBER} | 根据专利的唯一键PUB_NUMBER,查询ip_patent_legal_status/ip_patent表 | 专利法律状态变更 |
|
|
|
| ip_tm | include | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_applicant_list/ip_trademark表新增 | |
|
|
|
| ip_tm | remove | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,删除了ip_trademark_applicant_list/ip_trademark表数据 | |
|
|
|
| ip_tm_exclusive | change | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark表变更 | 专用权期限开始或者结束日期变更|
|
|
|
| ip_tm_status | change | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_applicant_list表变更 | 商标法律状态变更 |
|
|
|
| ip_tm_is_history | change |空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_applicant_list/ip_trademark表变更 | 商标申请人是否是历史申请人的状态变更 |
|
|
|
| ip_tm_category | include | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_category_list/ip_trademark表变更 | 商标群组表组新增数据|
|
|
|
| ip_tm_category | remove | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_category_list/ip_trademark表变更 |商标群组表变更删除数据| |
|
|
|
| ip_tm_category | change | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_category_list/ip_trademark表变更 | 商标群组表变更数据|
|
|
|
| ip_tm_flow | include | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_flow_list/ip_trademark表变更 | 商标流程列表新增|
|
|
|
| ip_tm_flow | remove | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_flow_list/ip_trademark表变更 | 商标流程列表删除数据|
|
|
|
| ip_tm_flow | change | 空 | REG_NO_CLS:{REG_NO_CLS} | 根据商标唯一键REG_NO_CLS,查询ip_trademark_flow_list/ip_trademark表变更 | 商标流程列表变更数据|
|
|
|
| contact_phone | include | | 新增的联系方式 | | |
|
|
|
| contact_email | include | | 新增的邮箱 | | |
|
|
|
| biz_bid | include | | unique_id:{unique_id} | 公告公布日期 | |
|
|
|
| biz_bid | change | | unique_id:{unique_id} | 公告公布日期 | |
|
|
|
| biz_bid_history_bidder_win | include | | unique_id:{unique_id} | 公告公布日期 | 历史中标方(此类型的data_type只出现在发短信的表中)|
|
|
|
| biz_bid_history_bidder_win | change | | unique_id:{unique_id} | 公告公布日期 | 历史中标方(此类型的data_type只出现在发短信的表中)|
|
|
|
| biz_bid_history_bidder | include | | unique_id:{unique_id} | 公告公布日期 | 历史投标方(此类型的data_type只出现在发短信的表中)|
|
|
|
| biz_bid_history_bidder | change | | unique_id:{unique_id} | 公告公布日期 | 历史投标方(此类型的data_type只出现在发短信的表中)| |