工商主体-基本信息
工商主体的基本信息(照面信息)包含字段有:名称、成立日期、注册号、统一信用代码、登记状态、类型、注册资本、法定代表人(负责人、经营者、执行事务合伙人)、登记机关、核准日期、经营起始日期、经营截止日期、注册地址、经营范围、吊销日期、吊销原因、注销日期、注销原因。
衍生基本信息字段有: 省份、地市、组织机构代码、行业、实缴资本等
数据存储
阿里云-mongodb-rds
- host: s-uf679e7a2557fa84.mongodb.rds.aliyuncs.com:3717,s-uf61ad41d3e0fe14.mongodb.rds.aliyuncs.com:3717
- username: ***
- password: ***
- database: utn_ic
- collection: ic
数据结构
{
"comapny_name_digest": "主体唯一键",
"company_name": "名称",
"history_name": "爬取的历史名称",
"company_code": "注册号",
"credit_no": "统一信用代码",
"org_code": "组织机构代码",
"establish_date": "成立日期",
"company_status": "登记状态",
"n_company_status": "归类后的登记状态",
"company_type": "类型",
"company_major_type": "归类后的主体类型,1:个体户,2:合作社,3:企业,4:事业单位,5:社会组织,6:律师事务所,7:基金会,8:机关,9:工会,10:香港企业,11:台湾企业",12:中概股,13:卫健委医疗机构,14:集体经济组织, 15: 宗教寺庙"
"company_minor_type": "企业类型编码",
"capital": "注册资本",
"real_capital": "实缴资本",
"legal_person": "法人",
"legal_person_caption": "法人头衔",
"legal_person_id": "法人id(aqc)",
"legal_person_nid": "法人id",
"legal_person_type": "法人类型,1:非自然人,0:自然人",
"issue_date": "核准日期",
"operation_startdate": "经营开始日期",
"operation_enddate": "经营截止日期",
"authority": "登记机关",
"company_address": "登记地址",
"business_scope": "经营范围",
"province_short": "省份大写英文缩写",
"province_code": "省份序号",
"province": "省份中文名称",
"area_code": "省级行政区划码",
"city_code": "地市行政区划码",
"city": "地市名称",
"district_code": "区县行政区划码",
"district": "区县名称",
"cancel_date": "注销日期",
"cancel_reason": "注销原因",
"revoke_date": "吊销日期",
"revoke_reason": "吊销原因",
"composion_form": "组成形式",
"tax_code": "税务号",
"data_source": "数据源,默认1",
"data_status": "数据状态, 默认1",
"deleted": "是否删除",
"create_time": "入库时间",
"lastupdatetime": "最后更新时间",
"last_change_date": "最后变更日期",
"employee_amount": "从业人数",
"insurance_amount": "参保人数",
"business_income": "销售总额(营业总收入)",
"parent_company_name_digest": "该公司为分支机构时,其总公司的company_name_digest",
"is_sme": "是否是小微企业,1:小微企业,0:非小微企业(小微企业名录已独立建表)",
"en_name": "英文名称",
"list_code": "上市代码",
"bond_type": "上市证券类型",
"stock_status": "上市状态",
"industries": "行业分类",
"changes": "变更记录列表",
"change_size": "变更记录条数",
"partners": "工商公示股东列表",
"partner_size": "工商公示股东条数",
"employees": "主要人员列表",
"employee_size": "主要人员条数",
"branches": "爬取的分支机构列表",
"branch_size": "爬取的分支机构条数",
"n_branches": "处理后的分支机构列表",
"n_branch_size": "处理后的分支机构条数",
"history_names": "历史名称列表",
"history_legal_person": "历史法人列表",
"capital_history": "历史注册资本列表",
"operations": "经营异常列表",
"operation_size": "经营异常条数",
"illegals": "严重违法失信列表",
"illegal_size": "严重违法失信条数",
"punishes": "行政处罚列表",
"punish_size": "行政处罚条数",
"allows": "行政许可列表",
"allow_size": "行政许可条数",
"checks": "抽查检查列表",
"check_size": "抽查检查条数",
"clears": "清算信息列表",
"clear_size": "清算信息条数",
"justices": "司法协助列表",
"justice_size": "司法协助条数",
"pledges": "股权出质列表",
"pledge_size": "股权出质条数",
"chattels": "动产抵押列表",
"chattel_size": "动产抵押条数",
"intellectuals": "知识产权出质列表",
"intellectual_size": "知识产权出质条数",
"simple_cancels": "简易注销列表",
"simple_cancel_size": "简易注销条数"
}
数据字典
字段名 | 字段类型 | 注释 | 是否关键字段 |
---|---|---|---|
comapny_name_digest | string | 主体唯一键 | * |
company_name | string | 名称 | * |
history_name | string | 爬取的历史名称 | |
company_code | string | 注册号 | * |
credit_no | string | 统一信用代码 | * |
org_code | string | 组织机构代码 | * |
establish_date | date | 成立日期 | * |
company_status | string | 登记状态 | * |
n_company_status | string | 归类后的登记状态 | |
company_type | string | 类型 | * |
company_major_type | int | 归类后的主体类型,1:个体户,2:合作社,3:企业,4:事业单位,5:社会组织,6:律师事务所,7:基金会,8:机关,9:工会,10:香港企业,11:台湾企业 | |
company_minor_type | string | 企业类型编码 | |
capital | string | 注册资本 | * |
real_capital | string | 实缴资本 | * |
legal_person | string | 法人 | * |
legal_person_caption | string | 法人头衔 | |
legal_person_id | string | 法人id | |
legal_person_type | int | 法人类型 1:非自然人,0:自然人 | |
issue_date | date | 核准日期 | * |
operation_startdate | date | 经营开始日期 | * |
operation_enddate | date/string | 经营截止日期 | * |
authority | string | 登记机关 | * |
company_address | string | 登记地址 | * |
business_scope | string | 经营范围 | * |
province_short | string | 省份大写英文缩写 | |
province_code | int | 省份序号(无用) | |
province | string | 省份中文名称 | * |
area_code | string | 省级行政区划码 | |
city_code | string | 地市行政区划码 | |
city | string | 地市名称 | * |
district_code | string | 区县行政区划码 | |
district | string | 区县名称 | * |
cancel_date | date | 注销日期 | * |
cancel_reason | string | 注销原因 | * |
revoke_date | date | 吊销日期 | * |
revoke_reason | string | 吊销原因 | * |
composion_form | string | 组成形式 | |
tax_code | string | 税务号 | * |
data_source | int | 数据源,默认1 | |
data_status | int | 数据状态, 默认1 | |
deleted | int | 是否删除,默认0 | |
create_time | date | 入库时间 | |
lastupdatetime | date | 最后更新时间 | |
last_change_date | date | 最后变更日期 | |
employee_amount | int | 从业人数 | * |
insurance_amount | int | 参保人数 | * |
business_income | double | 销售总额(营业总收入) | |
parent_company_name_digest | string | 公司为分支机构时,其母公司的company_name_digest | |
is_sme | int | 是否是小微企业,1:小微企业,0:非小微企业 | |
en_name | string | 英文名称 | |
list_code | string | 股票代码、上市代码 | |
bond_type | string | 证券类型 | |
stock_status | string | 上市状态 (上市、退市) | |
industries | object | 行业分类 | * |
changes | array | 变更记录列表 | |
change_size | int | 变更记录条数 | |
partners | array | 工商公示股东列表 | |
partner_size | int | 工商公示股东条数 | |
employees | array | 主要人员列表 | |
employee_size | int | 主要人员条数 | |
branches | array | 爬取的分支机构列表 | |
branch_size | int | 爬取的分支机构条数 | |
n_branches | array | 处理后的分支机构列表 | |
n_branch_size | int | 处理后的分支机构条数 | |
history_names | array | 历史名称列表 | |
history_legal_person | array | 历史法人列表 | |
capital_history | array | 历史注册资本列表 | |
operations | array | 经营异常列表 | |
operation_size | int | 经营异常条数 | |
illegals | array | 严重违法失信列表 | |
illegal_size | int | 严重违法失信条数 | |
punishes | array | 行政处罚列表 | |
punish_size | int | 行政处罚条数 | |
allows | array | 行政许可列表 | |
allow_size | int | 行政许可条数 | |
checks | array | 抽查检查列表 | |
check_size | int | 抽查检查条数 | |
clears | array | 清算信息列表 | |
clear_size | int | 清算信息条数 | |
justices | array | 司法协助列表 | |
justice_size | int | 司法协助条数 | |
pledges | array | 股权出质列表 | |
pledge_size | int | 股权出质条数 | |
chattels | array | 动产抵押列表 | |
chattel_size | int | 动产抵押条数 | |
intellectuals | array | 知识产权出质列表 | |
intellectual_size | int | 知识产权出质条数 | |
simple_cancels | array | 简易注销列表 | |
simple_cancel_size | int | 简易注销条数 |
样例
{
"_id" : ObjectId("5820976e6d8e2646ce36c781"),
"employee_size" : 2,
"other_licences" : [ ],
"operation_startdate" : ISODate("2012-11-09T08:00:00.000+08:00"),
"company_code" : "441300000202631",
"partners" : [ ],
"punishes" : [ ],
"operation_enddate" : null,
"branch_size" : 0,
"partner_size" : 0,
"revoke_date" : null,
"change_size" : 1,
"legal_person" : "林桥春",
"lastupdatetime" : ISODate("2021-01-18T18:14:38.158+08:00"),
"capital" : "100.000000万人民币",
"area_code" : "440000",
"data_status" : 1,
"province_code" : 1002,
"data_source" : 1,
"credit_no" : "",
"checks" : [ ],
"company_status" : "注销企业",
"illegals" : [ ],
"create_time" : ISODate("2020-03-22T12:09:46.318+08:00"),
"clear_size" : 0,
"illegal_size" : 0,
"company_type" : "有限责任公司(自然人投资或控股)",
"punish_size" : 0,
"authority" : "惠州市惠城区市场监督管理局",
"company_name_digest" : "f53b02a883b558e07ae4f51a05ccd143",
"issue_date" : ISODate("2020-04-10T08:00:00.000+08:00"),
"org_code" : "",
"company_name" : "惠州市品致贸易有限公司",
"province_short" : "GD",
"chattels" : [ ],
"province" : "广东省",
"business_scope" : "国内贸易(不含法律、行政法规、国务院决定规定需前置审批和禁止的项目)。(依法须经批准的项目,经相关部门批准后方可开展经营活动)〓",
"cancel_date" : ISODate("2014-12-31T08:00:00.000+08:00"),
"branches" : [ ],
"employees" : [ ],
"chattel_size" : 0,
"company_address" : "惠州市河南岸演达一路8号愉园花园D栋504房(仅限办公)",
"clears" : [ ],
"establish_date" : ISODate("2012-11-09T08:00:00.000+08:00"),
"changes" : [ ],
"check_size" : 0,
"legal_person_caption" : "法定代表人",
"deleted" : 0,
"history_name" : "",
"last_change_date" : ISODate("2020-04-10T08:00:00.000+08:00"),
"industries" : {
"industry_l1_code" : "F",
"industry_l2_name" : "批发业",
"industry_l2_code" : "51",
"industry_l3_code" : "518",
"industry_l4_name" : "",
"industry_l1_name" : "批发和零售业",
"industry_l4_code" : "",
"industry_l3_name" : "贸易经纪与代理"
},
"real_capital" : "10.0万元人民币",
"company_major_type" : 3,
"n_company_status" : "注销",
"capital_history" : [
{
"change_date" : ISODate("2014-12-31T08:00:00.000+08:00"),
"capital_num" : 100,
"capital_unit" : "万元"
},
{
"change_date" : ISODate("2012-11-09T08:00:00.000+08:00"),
"capital_num" : 10,
"capital_unit" : "万元"
}
],
"cancel_reason" : "",
"operations" : [ ],
"operation_size" : 4,
"city_code" : "441300",
"city" : "惠州市",
"district_code" : "441302",
"district" : "惠城区",
"legal_person_id" : "",
"clear_success" : 0,
"company_minor_type" : "1130",
"extra_data" : 0
}
省份映射
province | province_short | area_code |
---|---|---|
北京市 | BJ | 110000 |
天津市 | TJ | 120000 |
河北省 | HB | 130000 |
山西省 | SX | 140000 |
内蒙古 | NMG | 150000 |
辽宁省 | LN | 210000 |
吉林省 | JL | 220000 |
黑龙江省 | HLJ | 230000 |
上海市 | SH | 310000 |
江苏省 | JS | 320000 |
浙江省 | ZJ | 330000 |
安徽省 | AH | 340000 |
福建省 | FJ | 350000 |
江西省 | JX | 360000 |
山东省 | SD | 370000 |
河南省 | HEN | 410000 |
湖北省 | HUB | 420000 |
湖南省 | HUN | 430000 |
广东省 | GD | 440000 |
广西 | GX | 450000 |
海南省 | HAIN | 460000 |
重庆市 | CQ | 500000 |
四川省 | SC | 510000 |
贵州省 | GZ | 520000 |
云南省 | YN | 530000 |
西藏 | XZ | 540000 |
陕西省 | SAX | 610000 |
甘肃省 | GS | 620000 |
青海省 | QH | 630000 |
宁夏 | NX | 640000 |
新疆 | XJ | 650000 |
登记状态归类(n_company_status)
- 正常
- 吊销
- 注销
- 撤销
- 迁出
- 迁入
- 清算
- 停业
- 休止活动 (香港企业)
- 已终止营业地点 (香港企业)
- 其他/其它
- null (company_status值为空 或 空字符串时,n_company_status为空null)
历史名称
历史名称从变更记录和公示的历史名称中解析而来
数据结构如下
{
"history_names": [
{
"history_name": "历史名称",
"change_date": "变更日期"
},
...
]
}
历史注册资本
历史注册资本通过解析变更记录而来
数据结构如下:
{
"capital_history": [
{
"capital_num": "历史注册资本数值",
"capital_unit": "注册资本单位",
"change_date": "变更日期"
},
...
]
}
- 最早的一条历史注册资本的变更日期为成立日期
历史法人
历史法人通过变更记录解析、对比更新法人而来
数据结构如下:
{
"history_legal_person": [
{
"legal_person": "历史法人",
"remove_date": "离任日期",
"include_date": "上任日期"
},
...
]
}
实缴资本
实缴资本是所有股东实缴出资的总和
行业分类
行业分类有四级,每一级有名称和对应的编码
数据结构如下:
{
"industries": {"industry_l1_code": "一级行业编码",
"industry_l1_name": "一级行业名称",
"industry_l2_code": "二级行业编码",
"industry_l2_name": "二级行业名称",
"industry_l3_code": "三级行业编码",
"industry_l3_name": "三级行业名称",
"industry_l4_code": "四级行业编码",
"industry_l4_name": "四级行业名称"
}
}
lake-mysql
判断同一家公司逻辑
- 将公司名、注册号、统一信用代码中的特殊字符:["*", "×", "*", "+", " ", "\x00", "\x01"]删掉
- 组装查询条件:
- 注册号 + 统一信用代码 + 公司名,或的关系查询库中有的记录
- 注意公司名称中包含括号时,中英文括号的差别
- 对查询条件命中的记录逐一进行判断是否是同一家(优先选择最新更新的):
- 如果都有统一信用代码,且相等,则是同一家,返回
- 如果都有统一信用代码,但是不相等,则不是同一家,返回
- 如果不能通过统一信用代码判断:
- 如果都有注册号,且注册号相等,且长度大于等于13位,是同一家,返回
- 如果都有注册号,且注册号相等,但是长度小于13位:
- 公司名一致(不区分中英文括号),是同一家,返回
- 公司名不一致(不区分中英文括号),不是同一家,返回
- 无法通过公司名判断:
- 成立日期一致,是同一家,返回
- 成立日期不一致,不是同一家,返回
- 成立日期不能判断,默认同一家,返回
- 如果都有注册号,且注册号不相等,不是同一家,返回
- 无法通过注册号判断,即用公司名查询到:
- 成立日期一致,同一家,返回
- 成立日期不一致,不是同一家,返回
- 成立日期不能判断,默认同一家,返回