基本信息
信用中国双公示
credit_china,通过scrapy部署
项目名称:project-gravel
分支:develop_credit_china数据名称(中文)
信用中国双公示信息数据英文名称
credit_china采集网站(采集入口)
[信用中国 (creditchina.gov.cn)](https://www.creditchina.gov.cn/) 
post https://public.creditchina.gov.cn/private-api/catalogSearchHome采集频率及采集策略
存量更新策略
company表的在营企业增量采集策略
base表的新增数据需要更新爬虫
信用中国双公示信息 credit_china责任人
杨龙斌爬虫名称
credit_china代码地址
项目地址:http://tech.pingansec.com/granite/project-gravel/-/blob/develop_credit_china/scrapy_spiders/gravel_spiders/spiders/credit_china.py队列名称及队列地址
- redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
- redis port: 6379
- redis db: 7
- redis key:
- credit_china
 
优先级队列说明
- credit_china 不支持队列优先级
任务来源
任务输入参数(样例)
{
  "credit_no": "91440400MA52UUKN9D",
  "company_name": "珠海鸿驰鑫物流有限公司"
}任务样例
{
  "credit_no": "91440400MA52UUKN9D",
  "company_name": "珠海鸿驰鑫物流有限公司"
}任务参数说明
{
  "credit_no": "信用号",
  "company_name": "公司名称"
}data_type说明
detail: 详情信息爬虫结果的超级数据
{
  "data": {
    "cf": [
      {
        "columnList": [
          "cf_wsh",
          "cf_cflb",
          "cf_jdrq",
          "cf_nr",
          "cf_nr_fk",
          "cf_nr_wfff",
          "cf_nr_zkdx",
          "cf_wfxw",
          "cf_sy",
          "cf_yj",
          "cf_cfjg",
          "cf_cfjgdm",
          "cf_sjly",
          "cf_sjlydm"
        ],
        "sencesMap": {
          "flowno": "唯一标识",
          "cf_wsh": "行政处罚决定书文号",
          "cf_cflb": "处罚类别",
          "cf_jdrq": "处罚决定日期",
          "cf_nr": "处罚内容",
          "cf_nr_fk": "罚款金额(万元)",
          "cf_nr_wfff": "没收违法所得、没收非法财物的金额(万元)",
          "cf_nr_zkdx": "暂扣或吊销证照名称及编号",
          "cf_wfxw": "违法行为类型",
          "cf_sy": "违法事实",
          "cf_yj": "处罚依据",
          "cf_cfjg": "处罚机关",
          "cf_cfjgdm": "处罚机关统一社会信用代码",
          "cf_sjly": "数据来源",
          "cf_sjlydm": "数据来源单位统一社会信用代码"
        },
        "dataSource": "地方报送",
        "data_catalog": "行政处罚(新标准)",
        "table_name": "credit_xyzx_fr_xzcf_new",
        "entity": {
          "flowno": "63258860",
          "cf_wsh": "粤珠交罚﹝2020﹞01916号",
          "cf_cflb": "罚款",
          "cf_jdrq": "2020-07-09",
          "cf_nr": "罚款人民币壹仟元整(1000元)",
          "cf_nr_fk": "0.1",
          "cf_nr_wfff": "0.0",
          "cf_nr_zkdx": null,
          "cf_wfxw": "《广东省道路运输条例》第四十九条",
          "cf_sy": "2020年04月04日,在珠市海南屏收费站,当事人珠海鸿驰鑫物流有限公司实施未按照规定使用卫星定位汽车行驶记录仪实时传送相关数据行为,涉案车船号为粤C34336,以上事实,有询问笔录、GPS轨迹截图、监控照片、营运车辆信息等证据为证。",
          "cf_yj": "《广东省道路运输条例》第六十四条第(七)项",
          "cf_cfjg": "珠海市交通运输局",
          "cf_cfjgdm": "11440400682447327H",
          "cf_sjly": "珠海市交通运输局",
          "cf_sjlydm": "11440400682447327H",
          "uuid": "d637a5f4664605a2a4359da9d597a6ee",
          "recid": "EFB3842DCF8A42CC9C1817035E0A1CE1",
          "repairState": 1
        },
        "entity_type": "1"
      },
      {
        "columnList": [
          "cf_wsh",
          "cf_cflb",
          "cf_jdrq",
          "cf_nr",
          "cf_nr_fk",
          "cf_nr_wfff",
          "cf_nr_zkdx",
          "cf_wfxw",
          "cf_sy",
          "cf_yj",
          "cf_cfjg",
          "cf_cfjgdm",
          "cf_sjly",
          "cf_sjlydm"
        ],
        "sencesMap": {
          "flowno": "唯一标识",
          "cf_wsh": "行政处罚决定书文号",
          "cf_cflb": "处罚类别",
          "cf_jdrq": "处罚决定日期",
          "cf_nr": "处罚内容",
          "cf_nr_fk": "罚款金额(万元)",
          "cf_nr_wfff": "没收违法所得、没收非法财物的金额(万元)",
          "cf_nr_zkdx": "暂扣或吊销证照名称及编号",
          "cf_wfxw": "违法行为类型",
          "cf_sy": "违法事实",
          "cf_yj": "处罚依据",
          "cf_cfjg": "处罚机关",
          "cf_cfjgdm": "处罚机关统一社会信用代码",
          "cf_sjly": "数据来源",
          "cf_sjlydm": "数据来源单位统一社会信用代码"
        },
        "dataSource": "地方报送",
        "data_catalog": "行政处罚(新标准)",
        "table_name": "credit_xyzx_fr_xzcf_new",
        "entity": {
          "flowno": "63258386",
          "cf_wsh": "粤珠交罚﹝2020﹞01911号",
          "cf_cflb": "罚款",
          "cf_jdrq": "2020-07-09",
          "cf_nr": "罚款人民币壹仟元整(1000元)",
          "cf_nr_fk": "0.1",
          "cf_nr_wfff": "0.0",
          "cf_nr_zkdx": null,
          "cf_wfxw": "《广东省道路运输条例》第四十九条",
          "cf_sy": "2020年03月14日,在珠海市珠海南屏收费站,当事人珠海鸿驰鑫物流有限公司实施未按照规定使用卫星定位汽车行驶记录仪实时传送相关数据行为,涉案车船号为粤C34336,以上事实,有询问笔录、监控照片、GPS轨迹截图、营运车辆信息等证据为证。",
          "cf_yj": "《广东省道路运输条例》第六十四条第(七)项",
          "cf_cfjg": "珠海市交通运输局",
          "cf_cfjgdm": "11440400682447327H",
          "cf_sjly": "珠海市交通运输局",
          "cf_sjlydm": "11440400682447327H",
          "uuid": "80c10d89d4ce030e6e6d9485fc72f8ac",
          "recid": "484D409CC7F14331AE46ABF378FD7CB6",
          "repairState": 1
        },
        "entity_type": "1"
      }
    ],
    "xk": [
      {
        "columnList": [
          "xk_wsh",
          "xk_xkws",
          "xk_xkzs",
          "xk_xklb",
          "xk_xkbh",
          "xk_jdrq",
          "xk_yxqz",
          "xk_yxqzi",
          "xk_nr",
          "xk_xkjg",
          "xk_xkjgdm",
          "xk_lydw",
          "xk_lydwdm"
        ],
        "sencesMap": {
          "xk_wsh": "行政许可决定文书号",
          "xk_xkws": "行政许可决定文书名称",
          "xk_xkzs": "许可证书名称",
          "xk_xklb": "许可类别",
          "xk_xkbh": "许可编号",
          "xk_jdrq": "许可决定日期",
          "xk_yxqz": "有效期自",
          "xk_yxqzi": "有效期至",
          "xk_nr": "许可内容",
          "xk_xkjg": "许可机关",
          "xk_xkjgdm": "许可机关统一社会信用代码",
          "xk_lydw": "数据来源单位",
          "xk_lydwdm": "数据来源单位统一社会信用代码"
        },
        "dataSource": "地方报送",
        "data_catalog": "行政许可(新标准)",
        "table_name": "credit_xyzx_fr_xzxk_new",
        "entity": {
          "xk_wsh": "ZH19090600174",
          "xk_xkws": "无",
          "xk_xkzs": "营业执照",
          "xk_xklb": "登记",
          "xk_xkbh": "zh19090600174",
          "xk_jdrq": "2019-09-06",
          "xk_yxqz": "2019-09-06",
          "xk_yxqzi": "2099-12-31",
          "xk_nr": "货物运输代理、仓储服务、装卸服务、普通货运、货物专用运输(集装箱)、货运代办、机动车零配件、五金交电的批发、零售、汽车租赁、二手车买、卖。",
          "xk_xkjg": "珠海市市场监督管理局",
          "xk_xkjgdm": "11440400MB2C9104X7",
          "xk_lydw": "珠海市市场监督管理局",
          "xk_lydwdm": "11440400MB2C9104X7",
          "uuid": "99e1006483e2d3132ad90c1034380b4a",
          "recid": "F6580E9F0B124E55AC409B57D3841110"
        },
        "entity_type": "1"
      },
      {
        "columnList": [
          "xk_wsh",
          "xk_xkws",
          "xk_xkzs",
          "xk_xklb",
          "xk_xkbh",
          "xk_jdrq",
          "xk_yxqz",
          "xk_yxqzi",
          "xk_nr",
          "xk_xkjg",
          "xk_xkjgdm",
          "xk_lydw",
          "xk_lydwdm"
        ],
        "sencesMap": {
          "xk_wsh": "行政许可决定文书号",
          "xk_xkws": "行政许可决定文书名称",
          "xk_xkzs": "许可证书名称",
          "xk_xklb": "许可类别",
          "xk_xkbh": "许可编号",
          "xk_jdrq": "许可决定日期",
          "xk_yxqz": "有效期自",
          "xk_yxqzi": "有效期至",
          "xk_nr": "许可内容",
          "xk_xkjg": "许可机关",
          "xk_xkjgdm": "许可机关统一社会信用代码",
          "xk_lydw": "数据来源单位",
          "xk_lydwdm": "数据来源单位统一社会信用代码"
        },
        "dataSource": "地方报送",
        "data_catalog": "行政许可(新标准)",
        "table_name": "credit_xyzx_fr_xzxk_new",
        "entity": {
          "xk_wsh": "无",
          "xk_xkws": "无",
          "xk_xkzs": "营业执照",
          "xk_xklb": "登记",
          "xk_xkbh": "zh19090600174",
          "xk_jdrq": "2019-09-06",
          "xk_yxqz": "2019-09-06",
          "xk_yxqzi": "2099-12-31",
          "xk_nr": "变更登记",
          "xk_xkjg": "珠海市市场监督管理局",
          "xk_xkjgdm": "11440400MB2C9104X7",
          "xk_lydw": "珠海市市场监督管理局",
          "xk_lydwdm": "11440400MB2C9104X7",
          "uuid": "03df0aa5278ba207ecd79a05a7b6ade3",
          "recid": "97B3A7DAB89E4F3D90CAFF56DB9E2BBC"
        },
        "entity_type": "1"
      }
    ],
    "base_info": {
      "status": 1,
      "message": "成功",
      "data": {
        "punishmentStatus": "no",
        "data": {
          "columnList": [
            "name",
            "enttype",
            "esdate",
            "dom"
          ],
          "sencesMap": {
            "name": "法定代表人/负责人/执行事务合伙人",
            "enttype": "企业类型",
            "esdate": "成立日期",
            "dom": "住所"
          },
          "dataSource": "市场监督管理总局",
          "data_catalog": "工商存续(企业)",
          "table_name": "credit_scjdglzj_fr_gscxqy",
          "entity": {
            "name": "王锦威",
            "enttype": "有限责任公司(自然人投资或控股)",
            "esdate": "2012-09-20",
            "dom": "云南省昆明市五华区人民中路17号昆明走廊一期4层3A1号",
            "uuid": "592615d9168562ac18f8d9e6e5fd25e2",
            "recid": "5056F963FE45474C8AB87BD10E6E4243",
            "regorg": "五华区市场监督管理局"
          }
        },
        "headEntity": {
          "recid": "5056F963FE45474C8AB87BD10E6E4243",
          "tyshxydm": "915301020546522900",
          "zzjgdm": "I",
          "entity_type": "1",
          "jgmc": "云南沣杰商贸有限公司",
          "zcdjh": null,
          "record_source": "企业法人",
          "status": "存续"
        },
        "rewardStatus": "no"
      }
    }
  },
  "http_code": 200,
  "error_msg": "",
  "task_result": 1000,
  "data_type": "detail",
  "spider_start_time": "2021-10-25 15:04:15.177",
  "spider_end_time": "2021-10-25 15:04:15",
  "task_params": {
    "credit_no": "91440400MA52UUKN9D",
    "company_name": "珠海鸿驰鑫物流有限公司"
  },
  "metadata": {
  },
  "spider_name": "credit_china",
  "spider_ip": "192.168.56.1"
}
实际爬虫结果的数据结构
同上爬虫运行环境
scrapy爬虫部署信息
general_taxpayer: 10.8.6.51 1个进程  Taskhub地址
Taskhub调度规则说明
task_result=1000    # 正常获取到详情任务
task_result=1101    # 无结果信息
task_result=9101    # 超时错误,需要进行重试,目前重试5次
task_result=8000    # 参数错误爬虫监控指标设计
(先观察,待补充)
索引: 
监控频率: 
监控起止时间: 
报警条件: 
报警群:  
报警内容: 
数据归集
责任人
范召贤数据归集方式
- 
爬虫直接写kafka 
- 
爬虫写文件logstash采集 
爬虫结果目录
/data/gravel_spiders/credit_china归集后存放目录
/data2_227/grvael_spider_result/credit_chinalogstash配置文件名称
logstash文件采集type
type=>"credit_china"数据归集的topic
topic_id => "general-taxpayer"ES日志索引及筛选条件
gravel-spider-data-*监控指标看板
数据保留策略
数据清洗
责任人
李子健代码地址
http://192.168.109.110/granite/project-collie-app/-/tree/master/app_credit_china部署地址
机器10.8.6.84
目录/home/collie/product/app_credit_china部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
归集的文件/data2_227/grvael_spider_result/credit_china主体类型
company_major_type :3
爬虫相关
主要业务字段
| 字段名 | 注释 | 样例 | 
|---|---|---|
| 行政许可 | ||
| company_name | 公司名 | 滴滴出行科技有限公司无锡分公司 | 
| credit_no | 统一信用代码 | 91320211MA1NY8PN42 | 
| licence_number | 行政许可决定文书号 | 锡29012813 | 
| licence_fliename | 行政许可决定文书名称 | 关于车辆许可决定书 | 
| licence_name | 许可证书名称 | 中华人民共和国网络预约出租汽车运输证 | 
| audit_ype | 许可类别 | 普通 | 
| licence_no | 许可编号 | 锡29012813 | 
| decision_date | 许可决定日期 | 2021-01-04 | 
| end_date | 许可截止日期 | 2099-12-31 | 
| allow_startdate | 有效期自 | 2021-01-04 | 
| licence_content | 许可内容 | 网络预约出租汽车客运:苏BD69796(绿) | 
| department | 许可机关 | 无锡市交通运输管理处 | 
| department_no | 许可机关统一社会信用代码 | 12320200466285669R | 
| data_source_unit | 数据来源单位 | 无锡市发展改革研究中心 | 
| data_source_unit_credit_no | 数据来源单位统一社会信用代码 | 12320200466284957C | 
| check_type | 审核类型 | 登记 | 
| data_source | 数据来源 | 广东省 | 
| allow_validity | 许可有效期 | -- | 
| 行政处罚 | ||
| company_name | 公司名 | 滴滴出行科技有限公司无锡分公司 | 
| credit_no | 统一信用代码 | 91320211MA1NY8PN42 | 
| punish_number | 行政处罚决定书文号 | 锡交运罚﹝2021﹞01524号 | 
| type | 处罚类别 | 罚款 | 
| decision_date | 处罚决定日期 | 2021-06-17 | 
| result | 处罚内容 | 罚款30000.00元的行政处罚,并责令改正 | 
| punish_amount | 罚款金额(万元) | 3.0 | 
| forfeiture_amount | 没收违法所得、没收非法财物的金额(万元) | 0.0 | 
| revoke_name_code | 暂扣或吊销证照名称及编号 | — — | 
| punish_name | 违法行为类型 | 《网络预约出租汽车经营服务管理暂行办法》第十七条 | 
| reason | 违法事实 | 2021年05月04日13时30分,当事人滴滴出行科技有限公司无锡分公司之车辆苏B019TC(蓝)小型轿车未取得《网络预约出租汽车运输证》 | 
| evidence | 处罚依据 | 《网络预约出租汽车经营服务管理暂行办法》第十七条 | 
| department_name | 处罚机关 | 无锡市交通运输管理处 | 
| department_credit_no | 处罚机关统一社会信用代码 | 12320200466285669R | 
| data_source_unit | 数据来源单位 | 无锡市交通运输管理处 | 
| data_source_unit_credit_no | 数据来源单位统一社会信用代码 | 12320200466285669R | 
| 守信激励 | ||
| company_name | 公司名(纳税人名称) | 深圳市城建物业管理有限公司广州风神花园管理处 | 
| credit_no | 统一社会信用代码 | 914401016777820328 | 
| evaluation_year | 评价年度 | 2018 | 
| data_source | 数据来源 | 国家税务总局 | 
| trustworthy_incentive_type | 守信激励类型 | 纳税信用A级纳税人 | 
库表结构
行政许可
CREATE TABLE `company_license_info_creditchina_new` (
  `id` bigint NOT NULL AUTO_INCREMENT,
  `company_name` varchar(100) DEFAULT NULL COMMENT '企业或自然人名称',
  `company_name_digest` char(32) DEFAULT NULL COMMENT '主体唯一键',
  `company_id` char(32) DEFAULT NULL COMMENT '主体唯一键',
  `credit_no` varchar(50) DEFAULT NULL COMMENT '统一信用代码',
  `licence_number` varchar(100) DEFAULT NULL COMMENT '许可证号(行政许可决定书文号)',
  `licence_status` varchar(10) DEFAULT '0' COMMENT '许可状态',
  `audit_ype` varchar(100) DEFAULT NULL COMMENT '审核类型|许可类型',
  `legal_person_name` varchar(50) DEFAULT NULL COMMENT '法定代表人(负责人)姓名',
  `legal_person_id` varchar(50) DEFAULT NULL COMMENT '法定代表人(负责人)id',
  `licence_content` mediumtext COMMENT '内容许可',
  `validity_time` varchar(100) DEFAULT NULL COMMENT '许可有效期',
  `decision_date` date DEFAULT NULL COMMENT '许可决定日期',
  `allow_startdate` varchar(50) DEFAULT NULL COMMENT '有效期自',
  `end_date` date DEFAULT NULL COMMENT '许可截止日期',
  `local_code` varchar(50) DEFAULT NULL COMMENT '地方编码',
  `department` varchar(100) DEFAULT NULL COMMENT '许可机关',
  `department_no` varchar(50) DEFAULT NULL COMMENT '许可机关统一社会信用代码',
  `area_name` varchar(50) DEFAULT NULL COMMENT '区域',
  `resume` varchar(1000) DEFAULT NULL COMMENT '概要',
  `licence_fliename` varchar(255) DEFAULT NULL COMMENT '行政许可决定文书名称',
  `licence_name` varchar(255) DEFAULT NULL COMMENT '许可证书名称',
  `licence_no` varchar(255) DEFAULT NULL COMMENT '许可编号',
  `data_source` varchar(255) DEFAULT NULL COMMENT '数据来源',
  `data_source_unit` varchar(255) DEFAULT NULL COMMENT '数据来源单位',
  `data_source_unit_credit_no` varchar(50) DEFAULT NULL COMMENT '数据来源单位统一社会信用代码',
  `use_flag` smallint DEFAULT '0' COMMENT '数据使用标记,0有效,10废弃',
  `is_history` smallint DEFAULT '0' COMMENT '是否历史[0:官网还存在 1:官网不存在]',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `company_name_licence_number` (`company_name`,`licence_number`),
  KEY `company_name` (`company_name`),
  KEY `licence_number` (`licence_number`),
  KEY `idx_company_id` (`company_id`),
  KEY `idx_create_time` (`create_time`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_audit_ype` (`audit_ype`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8 COMMENT='行政许可-信用中国';行政处罚
CREATE TABLE `company_punishment_info_creditchina_new` (
  `id` bigint unsigned NOT NULL AUTO_INCREMENT,
  `company_name` varchar(100) DEFAULT NULL COMMENT '企业或自然人名称',
  `company_name_digest` char(32) DEFAULT NULL COMMENT '主体唯一键',
  `company_id` char(32) DEFAULT NULL COMMENT '主体唯一键',
  `credit_no` varchar(50) DEFAULT NULL COMMENT '统一信用代码',
  `punish_number` varchar(200) DEFAULT NULL COMMENT '行政处罚决定书文号',
  `punish_name` varchar(500) DEFAULT NULL COMMENT '处罚名称|违法行为类型',
  `legal_person_name` varchar(50) DEFAULT NULL COMMENT '法定代表人(负责人)姓名',
  `legal_person_id` varchar(50) DEFAULT NULL COMMENT '法定代表人(负责人)id',
  `punish_status` varchar(10) DEFAULT '0' COMMENT '处罚状态',
  `type` varchar(100) DEFAULT NULL COMMENT '处罚类别',
  `type_second` varchar(100) DEFAULT NULL COMMENT '处罚类别2',
  `result` mediumtext COMMENT '处罚结果|处罚内容',
  `reason` mediumtext COMMENT '处罚事由|违法事实',
  `evidence` varchar(1000) DEFAULT NULL COMMENT '处罚依据',
  `punish_amount` varchar(50) DEFAULT NULL COMMENT '罚款金额(万元)',
  `forfeiture_amount` varchar(50) DEFAULT NULL COMMENT '没收违法所得、没收非法财物的金额(万元)',
  `revoke_name_code` varchar(255) DEFAULT NULL COMMENT '暂扣或吊销证照名称及编号',
  `area_name` varchar(50) DEFAULT NULL COMMENT '区域',
  `decision_date` date DEFAULT NULL COMMENT '作出行政处罚决定日期',
  `term` varchar(200) DEFAULT NULL COMMENT '处罚期限',
  `department_name` varchar(100) DEFAULT NULL COMMENT '作出行政处罚决定机关名称',
  `department_credit_no` varchar(50) DEFAULT NULL COMMENT '处罚机关统一社会信用代码',
  `data_source_unit` varchar(255) DEFAULT NULL COMMENT '数据来源单位',
  `data_source_unit_credit_no` varchar(50) DEFAULT NULL COMMENT '数据来源单位统一社会信用代码',
  `use_flag` smallint DEFAULT '0' COMMENT '使用标记,0有效,10废弃',
  `is_history` smallint DEFAULT '0' COMMENT '是否历史数据[0:官网存在 1:官网已经不存在]',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `company_name_punish_number` (`company_name`,`punish_number`),
  KEY `company_name` (`company_name`),
  KEY `punish_number` (`punish_number`),
  KEY `idx_company_id` (`company_id`),
  KEY `idx_create_time` (`create_time`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_type` (`type`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8 COMMENT='行政处罚-信用中国';库表地址
host:bdp-rds-003.mysql.rds.aliyuncs.com
port:3306
db:utn_ng_cc
table:company_license_info_creditchina_new、company_punishment_info_creditchina_new 李子健
 李子健