|
|
12315网站工商主体行业分类
|
|
|
|
|
|
# 来源网站
|
|
|
|
|
|
https://www.12315.cn/cuser/portal/tscase/corperation
|
|
|
|
|
|
# 网站情况
|
|
|
|
|
|
* 能够查询在营工商主体的基本信息,其中包括行业
|
|
|
|
|
|
* 网站由国家市场监督管理总局主办,所以认为行业是企业信用信息公示系统的官方行业
|
|
|
|
|
|
* 主体信息比公示系统延迟1周左右
|
|
|
|
|
|
# 采集与存储
|
|
|
|
|
|
### 采集字段
|
|
|
|
|
|
| 字段 | 样例 | 接口对应字段 |
|
|
|
| ----- | ----- | ----- |
|
|
|
| 主体id | 98b3adbebb1be05dbf26930c555b3dce | PRIPID |
|
|
|
| 企业名称 | 北京市朝阳区周氏服装加工部 | INVOPT |
|
|
|
| 统一信用代码 | 92110105L100421001 | NBXH |
|
|
|
| 注册号 | 110105600261310 | REGNO |
|
|
|
| 行业类别 | 其他机织服装制造 | UBINDTYPENAME |
|
|
|
| 类型 | 个体工商户 | ENTTYPENAME |
|
|
|
| 住所 | 北京市朝阳区祁家豁子小学平房 | ADDR |
|
|
|
| 登记机关 | 北京市朝阳区市场监督管理局 | REGUNITNAME |
|
|
|
| 经营范围 | 加工服装。(依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动。) | JYFW |
|
|
|
| 状态 | 存续(在营、开业、在册) | REGSTATE_CN |
|
|
|
|
|
|
### 存量采集
|
|
|
|
|
|
全量在营工商主体,优先没有行业分类的在营工商主体
|
|
|
|
|
|
### 增量采集
|
|
|
|
|
|
没有行业分类的在营工商主体滚动采集
|
|
|
|
|
|
### ods表结构
|
|
|
|
|
|
| 字段 | 字段类型 | 注释 | 默认值 | 是否可为空 |
|
|
|
| ----- | ----- | ----- | ----- | ----- |
|
|
|
| id | 数值 | 自增主键 | | 否 |
|
|
|
| pripid | 字符串 | 网站主体id | | 否 |
|
|
|
| company_name | 字符串 | 企业名称 | | 否 |
|
|
|
| credit_no | 字符串 | 统一社会信用代码 | | 是 |
|
|
|
| company_code | 字符串 | 注册号 | | 是 |
|
|
|
| industry | 字符串 | 行业类别 | | 是 |
|
|
|
| company_type | 字符串 | 登记类型 | | 是 |
|
|
|
| company_address | 字符串 | 住所 | | 是 |
|
|
|
| authority | 字符串 | 登记机关 | | 是 |
|
|
|
| business_scope | 字符串 | 经营范围 | | 是 |
|
|
|
| company_status | 字符串 | 状态 | | 是 |
|
|
|
| create_time | 时间 | 入库时间 | 当前时间 | 否 |
|
|
|
| update_time | 时间 | 更新时间 | 当前时间,自动更新 | 否 |
|
|
|
|
|
|
唯一键:pripid
|
|
|
|
|
|
索引:company_name、company_code、credit_no
|
|
|
|
|
|
|
|
|
# 数据使用
|
|
|
|
|
|
```plantuml
|
|
|
@startuml
|
|
|
|
|
|
database ic_base
|
|
|
database company12315
|
|
|
database mongo_ic
|
|
|
database ic_base.tb_industry
|
|
|
database utn_ic.company_industry_authority
|
|
|
queue collie_ic_crawler_data
|
|
|
|
|
|
[company12315] --> [mongo_ic]: 清洗上线
|
|
|
[company12315] ..> [utn_ic.company_industry_authority]
|
|
|
[ic_base] --> [12315spider]: 提交任务
|
|
|
[12315spider] --> [company12315]: 清洗入ods表
|
|
|
[mongo_ic] --> [collie_ic_crawler_data]: 上线结果队列
|
|
|
[collie_ic_crawler_data] --> [ic_base.tb_industry]: 更新mysql库
|
|
|
@enduml
|
|
|
```
|
|
|
|
|
|
* 用12315数据的行业类别更新MongoDB的ic表中主体的行业分类
|
|
|
|
|
|
* 更新条件:
|
|
|
* ic表中没有行业分类
|
|
|
* ic表的行业分类data_source=9(来源tyc)
|
|
|
|
|
|
* 更新ic表时标记其data_source=315
|
|
|
|
|
|
* 更新完ic表后,将被更新的企业行业信息按要求的格式 写入工商上线后的kafka topic:collie-ic-crawler-data中
|
|
|
|
|
|
* 后续流程会将collie-ic-crawler-data中的数据更新至mysql的行业分类表
|
|
|
|
|
|
# 数据质量测试
|
|
|
|
|
|
1. ods表中数据量与任务量一致
|
|
|
|
|
|
2. ods表中企业名称没有空值、空字符串
|
|
|
|
|
|
3. ods表字段内容没有错乱,与网站展示一致
|
|
|
|
|
|
4. 只更新ic表中的industries信息,没有导致基本信息回滚更新
|
|
|
|
|
|
5. ic表中有正确标记数据来源(data_source=315)
|
|
|
|
|
|
6. 更新完mongo的ic表后,正常更新mysql的company_industry表
|
|
|
|
|
|
# 数据验收
|
|
|
|
|
|
* 全量在营主体采集一遍
|
|
|
|
|
|
* 每日例行采集,增量超过4万
|
|
|
|
|
|
* 采集数据的行业信息例行更新MongoDB的ic表
|
|
|
|
|
|
* 采集数据的行业信息例行更新mysql的company_industry表
|
|
|
|
|
|
# 监控指标
|
|
|
|
|
|
* ods表数据总量
|
|
|
|
|
|
* ods表每日新增量 |
|
|
\ No newline at end of file |