工商数据更新任务目标
- 各个维度定期更新
- 各个维度的更新数量可直观观测
- 各个维度任务提交方法统一
各个维度定期更新(例行任务)
- t1:企业7天侦测更新一轮次:8维度(照面信息、股东、主要人员、变更记录、行政处罚,年报信息, 分支机构信息,企业自主公示股东信息)
- t2:个体户1月更新一轮次:(3)维度(照面信息、变更记录、年报, 行政处罚?)
- t3:依照工商表中各个维度的例行更新7天一轮次
- t4:各个维度的找新,有公告则依照公告
- t5:各个维度的找新,无公告则全量企业,一月更新一轮
- t6:其他一次性任务
任务类型
- t1/t2
- t3
- t4
- t5
- t6
各个维度的更新数量可直观观测
- 主要结合es,kibana,mysql统计
提交维度任务的统一
工商维度
| data_type | 名称 | 找新任务 | 例行更新任务 | 任务来源(找新/例行) | 任务周期/天(找新/例行更新) | 注释 | 数据量 | 
|---|---|---|---|---|---|---|---|
| base | 照面基本信息 | - | t1/t2 | es | 7 | 通过es筛选在营企业,任务为8维度,不区分个体户 | |
| change | 变更信息 | - | t1/t2 | es | 7 | -同上- | |
| annual_report | 年报信息 | - | t1/t2 | es | 7 | -同上- | |
| branch | 分支机构信息 | - | t1 | es | 7 | -同上- | |
| employee | 主要人员信息 | - | t1 | es | 7 | -同上- | |
| partner | 股东信息 | - | t1 | es | 7 | -同上- | |
| qy_partner | 企业自主公示股东信息 | - | t1 | es | 7 | -同上- | |
| simple_cancel | 简易注销信息 | - | t1 | es | 7 | -同上- | |
| punish | 行政处罚信息 | t4 | t3/t2 | ic_notice/company_punish | 1/7 | 找新提交公告表的新增任务,根据维度表提交例行任务 | |
| abnormal | 经营异常信息 | t4 | t3 | ic_notice/company_abnormal | 1/7 | -同上- | |
| illegal | 严重违法信息 | t4 | t3 | ic_notice/company_illegal | 1/7 | -同上- | |
| justice | 司法信息 | t4 | t3 | ic_notice/company_justice | 1/7 | -同上- | |
| random_check | 双随机抽查检查 | t4 | t3 | ic_notice/company_random_check | 1/7 | -同上- | |
| cancel_notice | 注销备案、公告 | t4 | t3 | ic_notice/company_cancel_notice | 1/7 | -同上- | |
| intellectual | 知识产权出质信息 | t5 | t3 | es/company_intellectual | 30/7 | 找新通过es提交6维度任务,根据维度表提交例行任务 | |
| clear | 清算信息 | t5 | t3 | es/company_clear | 30/7 | -同上- | |
| check | 抽查检查信息 | t5 | t3 | es/company_check | 30/7 | -同上- | |
| pledge | 股权出质信息 | t5 | t3 | es/company_pledge | 30/7 | -同上- | |
| allow | 行政许可信息 | t5 | t3 | es/company_allow | 30/7 | -同上- | |
| chattel | 动产抵押信息 | t5 | t3 | es/company_chattel | 30/7 | -同上- | 
| data_type | 维度名称 | 存量更新策略 | 找新策略 | 
|---|---|---|---|
| baseinfo | 照面基本信息 | 在营主体滚动更新,且更新时间超过1天 | 独立成项目 | 
| change | 变更记录 | 在营主体滚动更新,且更新时间超过1天 | 在营主体滚动更新 | 
| annual_report | 年报信息 | 不例行更新 | 在营主体滚动更新侦测最新年报 | 
| branch | 分支机构 | 在营有分支机构的enttype主体滚动更新,且更新时间找过前天 | 在营有分支机构的enttype主体滚动更新 | 
| employee | 主要人员 | 在营有主要人员的enttype主体滚动更新,且更新时间超过1天 | 在营有主要人员的enttype主体滚动更新 | 
| partner | 股东信息 | 在营有股东信息的enttype主体滚动更新,且更新时间超过1天 | 在营有股东信息的enttype主体滚动更新 | 
| qy_partner | 企业自主公示股东信息 | 在营有企业自主公示股东信息的enttype主体滚动更新 | 在营有企业自主公示股东信息的enttype主体滚动更新 | 
| simple_cancel | 简易注销 | 有简易注销信息或有简易注销标签的主体滚动更新 | 公告列表 + 照面信息滚动更新时获取标签 | 
| punish | 行政处罚 | 有行政处罚的在营主体滚动更新,且行政处罚维度更新时间超过3天 | 在营主体滚动更新 + 信用中国线索 | 
| abnormal | 经营异常 | 有经营异常的在营主体或有经营异常标签的在营主体滚动更新,且经营异常维度更新时间超过3天 | 公告列表 + 照面信息滚动更新时获取标签 | 
| illegal | 严重违法 | 有严重违法的在营主体或有严重违法标签的在营主体滚动更新,且严重违法维度更新时间超过3天 | 公告列表 + 照面信息滚动更新时获取标签 | 
| justice | 司法协助 | 有司法协助的在营主体滚动更新,且司法协助维度更新时间超过3天 | 公告列表 + 在营有司法协助的enttype主体滚动更新 | 
| random_check | 双随机抽查检查 | 无需更新 | 公告列表 + 在营主体滚动更新 | 
| cancel_notice | 注销备案公告 | 有注销备案的(在营)主体或有注销备案标签的主体滚动更新,且注销备案维度更新时间超过3天 | 公告列表 + 照面信息滚动更新时获取标签 | 
| intellectual | 知识产权出质 | 有知识产权出质的在营主体滚动更新,且维度更新时间超过3天 | 有商标专利的企业滚动更新 | 
| clear | 清算信息 | 有清算信息的在营主体滚动更新,且清算信息更新维度超过3天 | 在营企业滚动更新 | 
| check | 抽查检查 | 无需更新 | 在营主体滚动更新 | 
| pledge | 股权出质信息 | 有股权出质信息的在营主体滚动更新,且股权出质维度更新时间超过3天 | 有股东信息企业滚动更新 | 
| allow | 行政许可 | 有行政许可信息的在营主体滚动更新,且行政许可维度更新时间超过3天 | 在营主体滚动更新 | 
| chattel | 动产抵押 | 有动产抵押信息的在营主体月度更新 | 工商公示系统无新增 | 
ent_type&data_type
| * | base | shareholder | keyperson | branch | neRecItem | clear | alter | mort | stock | intellectual | check | proquacheck | supervisionCheckres | foodChkInfo | drranins | assist | susnate | promisefake | annualreport | instant | other | punish | abnormal | ill | trademark | copyright | simplecancer | elicenseNullfy | ePubGroupMenberInfo | eNliq | eselfinfo | stopBusi | cancleStopInfo | 
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| data_type | partner | employee | branch | 多证合一公示 | clear | change | chattel | pledge | intellectual | check | 产品质量监督抽查 | 认证监管司抽查检查 | 食品抽查检查信息 | random_check | justice | 涉嫌冒用他人身份登记公示 | 承诺不实情况 | annual_report | 知识产权出质 | punish | abnormal | illegal | 商标注册信息 | 知识产权出质 | simple_cancel | 营业执照作废 | 集团成员信息 | cancel_notice | 执行标准自我声明信息 | 市场主体歇业公告 | 终止歇业公告 | ||
| 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 101 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 2 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 3 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 4 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 5 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 6 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 7 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 8 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 9 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 10 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 1001 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 11 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 12 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 13 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 14 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 15 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 
| 16 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 
| 17 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 
| 18 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 
工商全维度更新任务计划
| 任务 | 子任务 | 任务周期 | 天数 | 任务详情描述 | 
|---|---|---|---|---|
| 例行任务数量统计及优先级分配 | 05/05-05/06 | 2 | 统计各个维度的找新及更新的任务量并分配队列优先级 | |
| 例行任务data_pump | 05/07-05/11 | 4 | 各个例行任务data_pump开发 | |
| t1t2任务 | 05/07-05/07 | 1 | t1,t2任务例行及根据标签取消维度任务的测试 | |
| t3任务 | 05/09-05/09 | 1 | t3任务例行及合并的可行性分析,待解决 | |
| t4任务 | 05/10-05/10 | 1 | 已经在例行,公告找新覆盖率测试及解决方案 | |
| t5任务 | 05/11-05/11 | 0.5 | data_pump开发 | |
| 爬虫优化和开发 | 05/12-05/13 | 2 | 调整爬虫以能够完成例行任务,开发时间待定 | |
| 结果监控及面板展示 | 05/16-05/17 | 2 | 各个维度更新状态和速度监控 | |
| 其他开发 | 05/18-05/18 | 1 | 从各个数据源提交任务的方式不宜太分散,开发一个data_pump项目用于提交任务,自动分配优先级。 | 
 songzp
 songzp