12315网站工商主体行业分类
来源网站
https://www.12315.cn/cuser/portal/tscase/corperation
网站情况
-
能够查询在营工商主体的基本信息,其中包括行业
-
网站由国家市场监督管理总局主办,所以认为行业是企业信用信息公示系统的官方行业
-
主体信息比公示系统延迟1周左右
采集与存储
采集字段
字段 | 样例 | 接口对应字段 |
---|---|---|
主体id | 98b3adbebb1be05dbf26930c555b3dce | PRIPID |
企业名称 | 北京市朝阳区周氏服装加工部 | INVOPT |
统一信用代码 | 92110105L100421001 | NBXH |
注册号 | 110105600261310 | REGNO |
行业类别 | 其他机织服装制造 | UBINDTYPENAME |
类型 | 个体工商户 | ENTTYPENAME |
住所 | 北京市朝阳区祁家豁子小学平房 | ADDR |
登记机关 | 北京市朝阳区市场监督管理局 | REGUNITNAME |
经营范围 | 加工服装。(依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动。) | JYFW |
状态 | 存续(在营、开业、在册) | REGSTATE_CN |
存量采集
全量在营工商主体,优先没有行业分类的在营工商主体
增量采集
没有行业分类的在营工商主体滚动采集
ods表结构
字段 | 字段类型 | 注释 | 默认值 | 是否可为空 |
---|---|---|---|---|
id | 数值 | 自增主键 | 否 | |
pripid | 字符串 | 网站主体id | 否 | |
company_name | 字符串 | 企业名称 | 否 | |
credit_no | 字符串 | 统一社会信用代码 | 是 | |
company_code | 字符串 | 注册号 | 是 | |
industry | 字符串 | 行业类别 | 是 | |
company_type | 字符串 | 登记类型 | 是 | |
company_address | 字符串 | 住所 | 是 | |
authority | 字符串 | 登记机关 | 是 | |
business_scope | 字符串 | 经营范围 | 是 | |
company_status | 字符串 | 状态 | 是 | |
create_time | 时间 | 入库时间 | 当前时间 | 否 |
update_time | 时间 | 更新时间 | 当前时间,自动更新 | 否 |
唯一键:pripid
索引:company_name、company_code、credit_no
数据使用
-
用12315数据的行业类别更新MongoDB的ic表中主体的行业分类
-
更新条件:
- ic表中没有行业分类
- ic表的行业分类data_source=9(来源tyc)
-
更新ic表时标记其data_source=315
-
更新完ic表后,将被更新的企业行业信息按要求的格式 写入工商上线后的kafka topic:collie-ic-crawler-data中
-
后续流程会将collie-ic-crawler-data中的数据更新至mysql的行业分类表
数据质量测试
-
ods表中数据量与任务量一致
-
ods表中企业名称没有空值、空字符串
-
ods表字段内容没有错乱,与网站展示一致
-
只更新ic表中的industries信息,没有导致基本信息回滚更新
-
ic表中有正确标记数据来源(data_source=315)
-
更新完mongo的ic表后,正常更新mysql的company_industry表
数据验收
-
全量在营主体采集一遍
-
每日例行采集,增量超过4万
-
采集数据的行业信息例行更新MongoDB的ic表
-
采集数据的行业信息例行更新mysql的company_industry表
监控指标
-
ods表数据总量
-
ods表每日新增量