Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Lake
  • ic_base

Last edited by lan jianling Jun 09, 2022
Page history
This is an old version of this page. You can view the most recent version or browse the history.

ic_base

工商主体-基本信息

工商主体的基本信息(照面信息)包含字段有:名称、成立日期、注册号、统一信用代码、登记状态、类型、注册资本、法定代表人(负责人、经营者、执行事务合伙人)、登记机关、核准日期、经营起始日期、经营截止日期、注册地址、经营范围、吊销日期、吊销原因、注销日期、注销原因。
衍生基本信息字段有: 省份、地市、组织机构代码、行业、实缴资本等

数据存储

阿里云-mongodb-rds
  • host: s-uf679e7a2557fa84.mongodb.rds.aliyuncs.com:3717,s-uf61ad41d3e0fe14.mongodb.rds.aliyuncs.com:3717
  • username: ***
  • password: ***
  • database: utn_ic
  • collection: ic

数据结构

{
    "comapny_name_digest": "主体唯一键",
    "company_name": "名称",
    "history_name": "爬取的历史名称",
    "company_code": "注册号",
    "credit_no": "统一信用代码",
    "org_code": "组织机构代码",
    "establish_date": "成立日期",
    "company_status": "登记状态",
    "n_company_status": "归类后的登记状态",
    "company_type": "类型",
    "company_major_type": "归类后的主体类型,1:个体户,2:合作社,3:企业,4:事业单位,5:社会组织,6:律师事务所,7:基金会,8:机关,9:工会,10:香港企业,11:台湾企业",
    "company_minor_type": "企业类型编码",
    "capital": "注册资本",
    "real_capital": "实缴资本",
    "legal_person": "法人",
    "legal_person_caption": "法人头衔",
    "legal_person_id": "法人id",
    "legal_person_type": "法人类型,1:非自然人,0:自然人",
    "issue_date": "核准日期",
    "operation_startdate": "经营开始日期",
    "operation_enddate": "经营截止日期",
    "authority": "登记机关",
    "company_address": "登记地址",
    "business_scope": "经营范围",
    "province_short": "省份大写英文缩写",
    "province_code": "省份序号",
    "province": "省份中文名称",
    "area_code": "省级行政区划码",
    "city_code": "地市行政区划码",
    "city": "地市名称",
    "district_code": "区县行政区划码",
    "district": "区县名称",
    "cancel_date": "注销日期",
    "cancel_reason": "注销原因",
    "revoke_date": "吊销日期",
    "revoke_reason": "吊销原因",
    "composion_form": "组成形式",
    "tax_code": "税务号",
    "data_source": "数据源,默认1",
    "data_status": "数据状态, 默认1",
    "deleted": "是否删除",
    "create_time": "入库时间",
    "lastupdatetime": "最后更新时间",
    "last_change_date": "最后变更日期",
    "employee_amount": "从业人数",
    "insurance_amount": "参保人数",
    "business_income": "销售总额(营业总收入)",
    "parent_company_name_digest": "该公司为分支机构时,其总公司的company_name_digest",
    "is_sme": "是否是小微企业,1:小微企业,0:非小微企业(小微企业名录已独立建表)",
    "en_name": "英文名称",
    "list_code": "上市代码",
    "bond_type": "上市证券类型",
    "stock_status": "上市状态",
    "industries": "行业分类",
    "changes": "变更记录列表",
    "change_size": "变更记录条数",
    "partners": "工商公示股东列表",
    "partner_size": "工商公示股东条数",
    "employees": "主要人员列表",
    "employee_size": "主要人员条数",
    "branches": "爬取的分支机构列表",
    "branch_size": "爬取的分支机构条数",
    "n_branches": "处理后的分支机构列表",
    "n_branch_size": "处理后的分支机构条数",
    "history_names": "历史名称列表",
    "history_legal_person": "历史法人列表",
    "capital_history": "历史注册资本列表",
    "operations": "经营异常列表",
    "operation_size": "经营异常条数",
    "illegals": "严重违法失信列表",
    "illegal_size": "严重违法失信条数",
    "punishes": "行政处罚列表",
    "punish_size": "行政处罚条数",
    "allows": "行政许可列表",
    "allow_size": "行政许可条数",
    "checks": "抽查检查列表",
    "check_size": "抽查检查条数",
    "clears": "清算信息列表",
    "clear_size": "清算信息条数",
    "justices": "司法协助列表",
    "justice_size": "司法协助条数",
    "pledges": "股权出质列表",
    "pledge_size": "股权出质条数",
    "chattels": "动产抵押列表",
    "chattel_size": "动产抵押条数",
    "intellectuals": "知识产权出质列表",
    "intellectual_size": "知识产权出质条数",
    "simple_cancels": "简易注销列表",
    "simple_cancel_size": "简易注销条数"
}

数据字典

字段名 字段类型 注释 是否关键字段
comapny_name_digest string 主体唯一键 *
company_name string 名称 *
history_name string 爬取的历史名称
company_code string 注册号 *
credit_no string 统一信用代码 *
org_code string 组织机构代码 *
establish_date date 成立日期 *
company_status string 登记状态 *
n_company_status string 归类后的登记状态
company_type string 类型 *
company_major_type int 归类后的主体类型,1:个体户,2:合作社,3:企业,4:事业单位,5:社会组织,6:律师事务所,7:基金会,8:机关,9:工会
company_minor_type string 企业类型编码
capital string 注册资本 *
real_capital string 实缴资本 *
legal_person string 法人 *
legal_person_caption string 法人头衔
legal_person_id string 法人id
legal_person_type int 法人类型 1:非自然人,0:自然人
issue_date date 核准日期 *
operation_startdate date 经营开始日期 *
operation_enddate date/string 经营截止日期 *
authority string 登记机关 *
company_address string 登记地址 *
business_scope string 经营范围 *
province_short string 省份大写英文缩写
province_code int 省份序号(无用)
province string 省份中文名称 *
area_code string 省级行政区划码
city_code string 地市行政区划码
city string 地市名称 *
district_code string 区县行政区划码
district string 区县名称 *
cancel_date date 注销日期 *
cancel_reason string 注销原因 *
revoke_date date 吊销日期 *
revoke_reason string 吊销原因 *
composion_form string 组成形式
tax_code string 税务号 *
data_source int 数据源,默认1
data_status int 数据状态, 默认1
deleted int 是否删除,默认1
create_time date 入库时间
lastupdatetime date 最后更新时间
last_change_date date 最后变更日期
employee_amount int 从业人数 *
insurance_amount int 参保人数 *
business_income double 销售总额(营业总收入)
parent_company_name_digest string 公司为分支机构时,其母公司的company_name_digest
is_sme int 是否是小微企业,1:小微企业,0:非小微企业
en_name string 英文名称
list_code string 股票代码、上市代码
bond_type string 证券类型
stock_status string 上市状态 (上市、退市)
industries object 行业分类 *
changes array 变更记录列表
change_size int 变更记录条数
partners array 工商公示股东列表
partner_size int 工商公示股东条数
employees array 主要人员列表
employee_size int 主要人员条数
branches array 爬取的分支机构列表
branch_size int 爬取的分支机构条数
n_branches array 处理后的分支机构列表
n_branch_size int 处理后的分支机构条数
history_names array 历史名称列表
history_legal_person array 历史法人列表
capital_history array 历史注册资本列表
operations array 经营异常列表
operation_size int 经营异常条数
illegals array 严重违法失信列表
illegal_size int 严重违法失信条数
punishes array 行政处罚列表
punish_size int 行政处罚条数
allows array 行政许可列表
allow_size int 行政许可条数
checks array 抽查检查列表
check_size int 抽查检查条数
clears array 清算信息列表
clear_size int 清算信息条数
justices array 司法协助列表
justice_size int 司法协助条数
pledges array 股权出质列表
pledge_size int 股权出质条数
chattels array 动产抵押列表
chattel_size int 动产抵押条数
intellectuals array 知识产权出质列表
intellectual_size int 知识产权出质条数
simple_cancels array 简易注销列表
simple_cancel_size int 简易注销条数

样例

{
	"_id" : ObjectId("5820976e6d8e2646ce36c781"),
	"employee_size" : 2,
	"other_licences" : [ ],
	"operation_startdate" : ISODate("2012-11-09T08:00:00.000+08:00"),
	"company_code" : "441300000202631",
	"partners" : [ ],
	"punishes" : [ ],
	"operation_enddate" : null,
	"branch_size" : 0,
	"partner_size" : 0,
	"revoke_date" : null,
	"change_size" : 1,
	"legal_person" : "林桥春",
	"lastupdatetime" : ISODate("2021-01-18T18:14:38.158+08:00"),
	"capital" : "100.000000万人民币",
	"area_code" : "440000",
	"data_status" : 1,
	"province_code" : 1002,
	"data_source" : 1,
	"credit_no" : "",
	"checks" : [ ],
	"company_status" : "注销企业",
	"illegals" : [ ],
	"create_time" : ISODate("2020-03-22T12:09:46.318+08:00"),
	"clear_size" : 0,
	"illegal_size" : 0,
	"company_type" : "有限责任公司(自然人投资或控股)",
	"punish_size" : 0,
	"authority" : "惠州市惠城区市场监督管理局",
	"company_name_digest" : "f53b02a883b558e07ae4f51a05ccd143",
	"issue_date" : ISODate("2020-04-10T08:00:00.000+08:00"),
	"org_code" : "",
	"company_name" : "惠州市品致贸易有限公司",
	"province_short" : "GD",
	"chattels" : [ ],
	"province" : "广东省",
	"business_scope" : "国内贸易(不含法律、行政法规、国务院决定规定需前置审批和禁止的项目)。(依法须经批准的项目,经相关部门批准后方可开展经营活动)〓",
	"cancel_date" : ISODate("2014-12-31T08:00:00.000+08:00"),
	"branches" : [ ],
	"employees" : [ ],
	"chattel_size" : 0,
	"company_address" : "惠州市河南岸演达一路8号愉园花园D栋504房(仅限办公)",
	"clears" : [ ],
	"establish_date" : ISODate("2012-11-09T08:00:00.000+08:00"),
	"changes" : [ ],
	"check_size" : 0,
	"legal_person_caption" : "法定代表人",
	"deleted" : 0,
	"history_name" : "",
	"last_change_date" : ISODate("2020-04-10T08:00:00.000+08:00"),
	"industries" : {
		"industry_l1_code" : "F",
		"industry_l2_name" : "批发业",
		"industry_l2_code" : "51",
		"industry_l3_code" : "518",
		"industry_l4_name" : "",
		"industry_l1_name" : "批发和零售业",
		"industry_l4_code" : "",
		"industry_l3_name" : "贸易经纪与代理"
	},
	"real_capital" : "10.0万元人民币",
	"company_major_type" : 3,
	"n_company_status" : "注销",
	"capital_history" : [
		{
			"change_date" : ISODate("2014-12-31T08:00:00.000+08:00"),
			"capital_num" : 100,
			"capital_unit" : "万元"
		},
		{
			"change_date" : ISODate("2012-11-09T08:00:00.000+08:00"),
			"capital_num" : 10,
			"capital_unit" : "万元"
		}
	],
	"cancel_reason" : "",
	"operations" : [ ],
	"operation_size" : 4,
	"city_code" : "441300",
	"city" : "惠州市",
	"district_code" : "441302",
	"district" : "惠城区",
	"legal_person_id" : "",
	"clear_success" : 0,
	"company_minor_type" : "1130",
	"extra_data" : 0
}

省份映射

province province_short area_code
北京市 BJ 110000
天津市 TJ 120000
河北省 HB 130000
山西省 SX 140000
内蒙古 NMG 150000
辽宁省 LN 210000
吉林省 JL 220000
黑龙江省 HLJ 230000
上海市 SH 310000
江苏省 JS 320000
浙江省 ZJ 330000
安徽省 AH 340000
福建省 FJ 350000
江西省 JX 360000
山东省 SD 370000
河南省 HEN 410000
湖北省 HUB 420000
湖南省 HUN 430000
广东省 GD 440000
广西 GX 450000
海南省 HAIN 460000
重庆市 CQ 500000
四川省 SC 510000
贵州省 GZ 520000
云南省 YN 530000
西藏 XZ 540000
陕西省 SAX 610000
甘肃省 GS 620000
青海省 QH 630000
宁夏 NX 640000
新疆 XJ 650000

登记状态归类(n_company_status)

  • 正常
  • 吊销
  • 注销
  • 撤销
  • 迁出
  • 迁入
  • 清算
  • 停业
  • 其他
  • null (company_status值为空 或 空字符串时,n_company_status为空null)

历史名称

历史名称从变更记录和公示的历史名称中解析而来

数据结构如下

{
    "history_names": [
        {
            "history_name": "历史名称",
            "change_date": "变更日期"
        },
        ...
    ]
}

历史注册资本

历史注册资本通过解析变更记录而来

数据结构如下:

{
    "capital_history": [
        {
            "capital_num": "历史注册资本数值",
            "capital_unit": "注册资本单位",
            "change_date": "变更日期"
        },
        ...
    ]
}
  • 最早的一条历史注册资本的变更日期为成立日期

历史法人

历史法人通过变更记录解析、对比更新法人而来

数据结构如下:

{
    "history_legal_person": [
        {
            "legal_person": "历史法人",
            "remove_date": "离任日期",
            "include_date": "上任日期"
        },
        ...
    ]
}

实缴资本

实缴资本是所有股东实缴出资的总和

行业分类

行业分类有四级,每一级有名称和对应的编码

数据结构如下:

{
    "industries": {"industry_l1_code": "一级行业编码",
                   "industry_l1_name": "一级行业名称",
                   "industry_l2_code": "二级行业编码",
                   "industry_l2_name": "二级行业名称",
                   "industry_l3_code": "三级行业编码",
                   "industry_l3_name": "三级行业名称",
                   "industry_l4_code": "四级行业编码",
                   "industry_l4_name": "四级行业名称"
}
}

lake-mysql

判断同一家公司逻辑

  • 将公司名、注册号、统一信用代码中的特殊字符:["*", "×", "*", "+", " ", "\x00", "\x01"]删掉
  • 组装查询条件:
    • 注册号 + 统一信用代码 + 公司名,或的关系查询库中有的记录
    • 注意公司名称中包含括号时,中英文括号的差别
  • 对查询条件命中的记录逐一进行判断是否是同一家(优先选择最新更新的):
    • 如果都有统一信用代码,且相等,则是同一家,返回
    • 如果都有统一信用代码,但是不相等,则不是同一家,返回
    • 如果不能通过统一信用代码判断:
      • 如果都有注册号,且注册号相等,且长度大于等于13位,是同一家,返回
      • 如果都有注册号,且注册号相等,但是长度小于13位:
        • 公司名一致(不区分中英文括号),是同一家,返回
        • 公司名不一致(不区分中英文括号),不是同一家,返回
        • 无法通过公司名判断:
          • 成立日期一致,是同一家,返回
          • 成立日期不一致,不是同一家,返回
          • 成立日期不能判断,默认同一家,返回
      • 如果都有注册号,且注册号不相等,不是同一家,返回
      • 无法通过注册号判断,即用公司名查询到:
        • 成立日期一致,同一家,返回
        • 成立日期不一致,不是同一家,返回
        • 成立日期不能判断,默认同一家,返回
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages