Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Requirement_doc
  • industry_12315

Last edited by songzp Nov 03, 2021
Page history

industry_12315

12315网站工商主体行业分类

来源网站

https://www.12315.cn/cuser/portal/tscase/corperation

网站情况

  • 能够查询在营工商主体的基本信息,其中包括行业

  • 网站由国家市场监督管理总局主办,所以认为行业是企业信用信息公示系统的官方行业

  • 主体信息比公示系统延迟1周左右

采集与存储

采集字段

字段 样例 接口对应字段
主体id 98b3adbebb1be05dbf26930c555b3dce PRIPID
企业名称 北京市朝阳区周氏服装加工部 INVOPT
统一信用代码 92110105L100421001 NBXH
注册号 110105600261310 REGNO
行业类别 其他机织服装制造 UBINDTYPENAME
类型 个体工商户 ENTTYPENAME
住所 北京市朝阳区祁家豁子小学平房 ADDR
登记机关 北京市朝阳区市场监督管理局 REGUNITNAME
经营范围 加工服装。(依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动。) JYFW
状态 存续(在营、开业、在册) REGSTATE_CN

存量采集

全量在营工商主体,优先没有行业分类的在营工商主体

增量采集

没有行业分类的在营工商主体滚动采集

ods表结构

字段 字段类型 注释 默认值 是否可为空
id 数值 自增主键 否
pripid 字符串 网站主体id 否
company_name 字符串 企业名称 否
credit_no 字符串 统一社会信用代码 是
company_code 字符串 注册号 是
industry 字符串 行业类别 是
company_type 字符串 登记类型 是
company_address 字符串 住所 是
authority 字符串 登记机关 是
business_scope 字符串 经营范围 是
company_status 字符串 状态 是
create_time 时间 入库时间 当前时间 否
update_time 时间 更新时间 当前时间,自动更新 否

唯一键:pripid

索引:company_name、company_code、credit_no

数据使用

  • 用12315数据的行业类别更新MongoDB的ic表中主体的行业分类

  • 更新条件:

    • ic表中没有行业分类
    • ic表的行业分类data_source=9(来源tyc)
  • 更新ic表时标记其data_source=315

  • 更新完ic表后,将被更新的企业行业信息按要求的格式 写入工商上线后的kafka topic:collie-ic-crawler-data中

  • 后续流程会将collie-ic-crawler-data中的数据更新至mysql的行业分类表

数据质量测试

  1. ods表中数据量与任务量一致

  2. ods表中企业名称没有空值、空字符串

  3. ods表字段内容没有错乱,与网站展示一致

  4. 只更新ic表中的industries信息,没有导致基本信息回滚更新

  5. ic表中有正确标记数据来源(data_source=315)

  6. 更新完mongo的ic表后,正常更新mysql的company_industry表

数据验收

  • 全量在营主体采集一遍

  • 每日例行采集,增量超过4万

  • 采集数据的行业信息例行更新MongoDB的ic表

  • 采集数据的行业信息例行更新mysql的company_industry表

监控指标

  • ods表数据总量

  • ods表每日新增量

Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages