Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Requirement_doc
  • industry_12315

industry_12315 · Changes

Page history
update: 12315数据 authored Nov 03, 2021 by 宋志鹏's avatar 宋志鹏
Hide whitespace changes
Inline Side-by-side
Showing with 124 additions and 0 deletions
+124 -0
  • requirement_doc/industry_12315.md requirement_doc/industry_12315.md +124 -0
  • No files found.
requirement_doc/industry_12315.md 0 → 100644
View page @ 71f39ca9
12315网站工商主体行业分类
# 来源网站
https://www.12315.cn/cuser/portal/tscase/corperation
# 网站情况
* 能够查询在营工商主体的基本信息,其中包括行业
* 网站由国家市场监督管理总局主办,所以认为行业是企业信用信息公示系统的官方行业
* 主体信息比公示系统延迟1周左右
# 采集与存储
### 采集字段
| 字段 | 样例 | 接口对应字段 |
| ----- | ----- | ----- |
| 主体id | 98b3adbebb1be05dbf26930c555b3dce | PRIPID |
| 企业名称 | 北京市朝阳区周氏服装加工部 | INVOPT |
| 统一信用代码 | 92110105L100421001 | NBXH |
| 注册号 | 110105600261310 | REGNO |
| 行业类别 | 其他机织服装制造 | UBINDTYPENAME |
| 类型 | 个体工商户 | ENTTYPENAME |
| 住所 | 北京市朝阳区祁家豁子小学平房 | ADDR |
| 登记机关 | 北京市朝阳区市场监督管理局 | REGUNITNAME |
| 经营范围 | 加工服装。(依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动。) | JYFW |
| 状态 | 存续(在营、开业、在册) | REGSTATE_CN |
### 存量采集
全量在营工商主体,优先没有行业分类的在营工商主体
### 增量采集
没有行业分类的在营工商主体滚动采集
### ods表结构
| 字段 | 字段类型 | 注释 | 默认值 | 是否可为空 |
| ----- | ----- | ----- | ----- | ----- |
| id | 数值 | 自增主键 | | 否 |
| pripid | 字符串 | 网站主体id | | 否 |
| company_name | 字符串 | 企业名称 | | 否 |
| credit_no | 字符串 | 统一社会信用代码 | | 是 |
| company_code | 字符串 | 注册号 | | 是 |
| industry | 字符串 | 行业类别 | | 是 |
| company_type | 字符串 | 登记类型 | | 是 |
| company_address | 字符串 | 住所 | | 是 |
| authority | 字符串 | 登记机关 | | 是 |
| business_scope | 字符串 | 经营范围 | | 是 |
| company_status | 字符串 | 状态 | | 是 |
| create_time | 时间 | 入库时间 | 当前时间 | 否 |
| update_time | 时间 | 更新时间 | 当前时间,自动更新 | 否 |
唯一键:pripid
索引:company_name、company_code、credit_no
# 数据使用
```plantuml
@startuml
database ic_base
database company12315
database mongo_ic
database ic_base.tb_industry
database utn_ic.company_industry_authority
queue collie_ic_crawler_data
[company12315] --> [mongo_ic]: 清洗上线
[company12315] ..> [utn_ic.company_industry_authority]
[ic_base] --> [12315spider]: 提交任务
[12315spider] --> [company12315]: 清洗入ods表
[mongo_ic] --> [collie_ic_crawler_data]: 上线结果队列
[collie_ic_crawler_data] --> [ic_base.tb_industry]: 更新mysql库
@enduml
```
* 用12315数据的行业类别更新MongoDB的ic表中主体的行业分类
* 更新条件:
* ic表中没有行业分类
* ic表的行业分类data_source=9(来源tyc)
* 更新ic表时标记其data_source=315
* 更新完ic表后,将被更新的企业行业信息按要求的格式 写入工商上线后的kafka topic:collie-ic-crawler-data中
* 后续流程会将collie-ic-crawler-data中的数据更新至mysql的行业分类表
# 数据质量测试
1. ods表中数据量与任务量一致
2. ods表中企业名称没有空值、空字符串
3. ods表字段内容没有错乱,与网站展示一致
4. 只更新ic表中的industries信息,没有导致基本信息回滚更新
5. ic表中有正确标记数据来源(data_source=315)
6. 更新完mongo的ic表后,正常更新mysql的company_industry表
# 数据验收
* 全量在营主体采集一遍
* 每日例行采集,增量超过4万
* 采集数据的行业信息例行更新MongoDB的ic表
* 采集数据的行业信息例行更新mysql的company_industry表
# 监控指标
* ods表数据总量
* ods表每日新增量
\ No newline at end of file
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages