Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
  • double_publicity

double_publicity · Changes

Page history
update: 数据清洗 authored Oct 28, 2021 by 李子健's avatar 李子健
Show whitespace changes
Inline Side-by-side
Showing with 30 additions and 17 deletions
+30 -17
  • data_stream/double_publicity.md data_stream/double_publicity.md +30 -17
  • No files found.
data_stream/double_publicity.md
View page @ ceb00b8b
...@@ -554,28 +554,37 @@ gravel-spider-data-* ...@@ -554,28 +554,37 @@ gravel-spider-data-*
# **数据清洗** # **数据清洗**
## 责任人 ## 责任人
```
李子健
```
## 代码地址 ## 代码地址
```
http://192.168.109.110/granite/project-collie-app/-/tree/master/app_credit_china
```
## 部署地址 ## 部署地址
<!--机器及线上代码地址--> <!--机器及线上代码地址-->
```
机器10.8.6.84
目录/home/collie/product/app_credit_china
```
## 部署方法及说明 ## 部署方法及说明
<!--运行方法及运行命令、supervisor配置、supervisor的program等--> <!--运行方法及运行命令、supervisor配置、supervisor的program等-->
- [ ] crontab + data_pump - [ ] crontab + data_pump
- [ ] supervisor + data_pump - [X] supervisor + data_pump
- [ ] supervisor + consumer - [ ] supervisor + consumer
## 数据接收来源 ## 数据接收来源
<!--来源于kafka还是归集的文件、topic的group?--> <!--来源于kafka还是归集的文件、topic的group?-->
```
归集的文件/data2_227/grvael_spider_result/credit_china
```
## 主体类型 ## 主体类型
company_major_type :1-9 company_major_type :3
## 爬虫相关 ## 爬虫相关
...@@ -583,8 +592,7 @@ company_major_type :1-9 ...@@ -583,8 +592,7 @@ company_major_type :1-9
| 字段名 | 注释 | 样例 | | 字段名 | 注释 | 样例 |
| -------------------------- | ---------------------------------------- | ------------------------------------------------------------ | | -------------------------- | ---------------------------------------- | ------------------------------------------------------------ |
| ** | **行政许可** | | |
行政许可** | | |
| company_name | 公司名 | 滴滴出行科技有限公司无锡分公司 | | company_name | 公司名 | 滴滴出行科技有限公司无锡分公司 |
| credit_no | 统一信用代码 | 91320211MA1NY8PN42 | | credit_no | 统一信用代码 | 91320211MA1NY8PN42 |
| licence_number | 行政许可决定文书号 | 锡29012813 | | licence_number | 行政许可决定文书号 | 锡29012813 |
...@@ -595,7 +603,6 @@ company_major_type :1-9 ...@@ -595,7 +603,6 @@ company_major_type :1-9
| decision_date | 许可决定日期 | 2021-01-04 | | decision_date | 许可决定日期 | 2021-01-04 |
| end_date | 许可截止日期 | 2099-12-31 | | end_date | 许可截止日期 | 2099-12-31 |
| allow_startdate | 有效期自 | 2021-01-04 | | allow_startdate | 有效期自 | 2021-01-04 |
| allow_enddate | 有效期至 | 2029-01-04 |
| licence_content | 许可内容 | 网络预约出租汽车客运:苏BD69796(绿) | | licence_content | 许可内容 | 网络预约出租汽车客运:苏BD69796(绿) |
| department | 许可机关 | 无锡市交通运输管理处 | | department | 许可机关 | 无锡市交通运输管理处 |
| department_no | 许可机关统一社会信用代码 | 12320200466285669R | | department_no | 许可机关统一社会信用代码 | 12320200466285669R |
...@@ -604,8 +611,7 @@ company_major_type :1-9 ...@@ -604,8 +611,7 @@ company_major_type :1-9
| check_type | 审核类型 | 登记 | | check_type | 审核类型 | 登记 |
| data_source | 数据来源 | 广东省 | | data_source | 数据来源 | 广东省 |
| allow_validity | 许可有效期 | -- | | allow_validity | 许可有效期 | -- |
| ** | **行政处罚** | | |
行政处罚** | | |
| company_name | 公司名 | 滴滴出行科技有限公司无锡分公司 | | company_name | 公司名 | 滴滴出行科技有限公司无锡分公司 |
| credit_no | 统一信用代码 | 91320211MA1NY8PN42 | | credit_no | 统一信用代码 | 91320211MA1NY8PN42 |
| punish_number | 行政处罚决定书文号 | 锡交运罚﹝2021﹞01524号 | | punish_number | 行政处罚决定书文号 | 锡交运罚﹝2021﹞01524号 |
...@@ -622,8 +628,7 @@ company_major_type :1-9 ...@@ -622,8 +628,7 @@ company_major_type :1-9
| department_credit_no | 处罚机关统一社会信用代码 | 12320200466285669R | | department_credit_no | 处罚机关统一社会信用代码 | 12320200466285669R |
| data_source_unit | 数据来源单位 | 无锡市交通运输管理处 | | data_source_unit | 数据来源单位 | 无锡市交通运输管理处 |
| data_source_unit_credit_no | 数据来源单位统一社会信用代码 | 12320200466285669R | | data_source_unit_credit_no | 数据来源单位统一社会信用代码 | 12320200466285669R |
| ** | **守信激励** | | |
守信激励** | | |
| company_name | 公司名(纳税人名称) | 深圳市城建物业管理有限公司广州风神花园管理处 | | company_name | 公司名(纳税人名称) | 深圳市城建物业管理有限公司广州风神花园管理处 |
| credit_no | 统一社会信用代码 | 914401016777820328 | | credit_no | 统一社会信用代码 | 914401016777820328 |
| evaluation_year | 评价年度 | 2018 | | evaluation_year | 评价年度 | 2018 |
...@@ -883,7 +888,7 @@ company_major_type :1-9 ...@@ -883,7 +888,7 @@ company_major_type :1-9
行政许可 行政许可
```sql ```sql
CREATE TABLE `company_license_info_creditchina` ( CREATE TABLE `company_license_info_creditchina_new` (
`id` bigint NOT NULL AUTO_INCREMENT, `id` bigint NOT NULL AUTO_INCREMENT,
`company_name` varchar(100) DEFAULT NULL COMMENT '企业或自然人名称', `company_name` varchar(100) DEFAULT NULL COMMENT '企业或自然人名称',
`company_name_digest` char(32) DEFAULT NULL COMMENT '主体唯一键', `company_name_digest` char(32) DEFAULT NULL COMMENT '主体唯一键',
...@@ -919,6 +924,8 @@ CREATE TABLE `company_license_info_creditchina` ( ...@@ -919,6 +924,8 @@ CREATE TABLE `company_license_info_creditchina` (
KEY `company_name` (`company_name`), KEY `company_name` (`company_name`),
KEY `licence_number` (`licence_number`), KEY `licence_number` (`licence_number`),
KEY `idx_company_id` (`company_id`), KEY `idx_company_id` (`company_id`),
KEY `idx_create_time` (`create_time`),
KEY `idx_update_time` (`update_time`),
KEY `idx_audit_ype` (`audit_ype`) KEY `idx_audit_ype` (`audit_ype`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8 COMMENT='行政许可-信用中国'; ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8 COMMENT='行政许可-信用中国';
``` ```
...@@ -926,7 +933,7 @@ CREATE TABLE `company_license_info_creditchina` ( ...@@ -926,7 +933,7 @@ CREATE TABLE `company_license_info_creditchina` (
行政处罚 行政处罚
```sql ```sql
CREATE TABLE `company_punishment_info_creditchina` ( CREATE TABLE `company_punishment_info_creditchina_new` (
`id` bigint unsigned NOT NULL AUTO_INCREMENT, `id` bigint unsigned NOT NULL AUTO_INCREMENT,
`company_name` varchar(100) DEFAULT NULL COMMENT '企业或自然人名称', `company_name` varchar(100) DEFAULT NULL COMMENT '企业或自然人名称',
`company_name_digest` char(32) DEFAULT NULL COMMENT '主体唯一键', `company_name_digest` char(32) DEFAULT NULL COMMENT '主体唯一键',
...@@ -965,6 +972,12 @@ CREATE TABLE `company_punishment_info_creditchina` ( ...@@ -965,6 +972,12 @@ CREATE TABLE `company_punishment_info_creditchina` (
KEY `idx_update_time` (`update_time`), KEY `idx_update_time` (`update_time`),
KEY `idx_type` (`type`) KEY `idx_type` (`type`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8 COMMENT='行政处罚-信用中国'; ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8 COMMENT='行政处罚-信用中国';
```
## 库表地址
```
host:bdp-rds-003.mysql.rds.aliyuncs.com
port:3306
db:utn_ng_cc
table:company_license_info_creditchina_new、company_punishment_info_creditchina_new
``` ```
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages