Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Ic_icpsp
  • hub

Last edited by fanzx May 27, 2021
Page history
This is an old version of this page. You can view the most recent version or browse the history.

hub

基本信息

一般纳税人--上海
general_etax_reqs/sh 通过详情url的id遍历搜索
sh_verify_code/sh    通过破解验证码根据三要素搜索

数据名称(中文)

上海--一般纳税人

数据英文名称

general_taxpayer

采集网站(采集入口)

官网PC端入口:
http://shanghai.chinatax.gov.cn/newxbwz/wzfw/YhscxCtrl-yhsCx.pfv

采集频率及采集策略

存量更新策略

db_host: bdp-rds-003.mysql.rds.aliyuncs.com
db_name: utn_ng_biz_info
db_user: shuidi
db_password: 
全省的主体信息作为搜索条件
逐条更新
目前每年更新一轮即可。可以根据全量数据的爬取情况,再通过补充详情id顺序号的方式,补充其它主体信息

增量采集策略

1.新成立的主体
2.补充的主体
3.通过已有爬取数据的详情url,分析详情url中的id顺序号,再补充

爬虫

上海--一般纳税人 gravel_spiders

责任人

郭本江

爬虫名称

gravel_spiders

代码地址

项目地址:http://192.168.109.199/granite/project-gravel/tree/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/general_etax_reqs/sh

百度移动端: 
破码版本: http://192.168.109.199/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/general_etax_reqs/sh_verify_code
遍历详情url顺序号版本: http://192.168.109.199/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/general_etax_reqs/sh/sh_etax_detail.py

队列名称及队列地址

  • redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
  • redis port: 6379
  • redis db: 7
  • redis key:
    • general_taxpayer

优先级队列说明

  • general_taxpayer 支持队列优先级

任务来源

taskhub 上海的全量主体信息

任务输入参数(样例)

破码版本
{
  "company_name": "上海翔星建设工程有限公司",
   "company_code":  "",
   "credit_no":  "",
   "province":  "SH",
   "company_name_digest":  "c139fb8844006aa87dbe5f4d90473c57",
   "district_code":  ""
}
顺序号版本
{"province":"SH", "credit_no":"", "company_code":"", "company_name":"", "djxh":"10013101001000048329"}

任务样例

{
	"data": {
		"taxinfo_items": [
			{
				"tax_code": "",
				"company_name": "李关金",
				"company_type": "内资个体",
				"legal_person": "李关金",
				"register_address": "",
				"bussiness_address": "",
				"tax_authority": "国家税务总局上海市黄浦区税务局第四税务所",
				"tax_status": "注销",
				"tax_type": "按征收率征收增值税小规模纳税人",
				"register_date": "",
				"detail_url": "http://shanghai.chinatax.gov.cn/newxbwz/wzfw/YhscxCtrl-yhscxXx.pfv?djxh=10013101001010040630"
			}
		]
	},
	"http_code": 200,
	"error_msg": "",
	"task_result": 1000,
	"data_type": "detail",
	"spider_start_time": "2021-03-20 04:04:44.464",
	"spider_end_time": "2021-03-20 04:04:44",
	"task_params": {
		"province": "SH",
		"credit_no": "",
		"company_code": "",
		"company_name": "",
		"djxh": "10013101001010040630"
	},
	"metadata": {},
	"spider_name": "general_taxpayer",
	"spider_ip": "10.8.6.56"
}```

### 任务参数说明
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
```json
破码版本
{
  "company_name": "上海翔星建设工程有限公司",
   "company_code":  "",
   "credit_no":  "",
   "province":  "SH",
   "company_name_digest":  "c139fb8844006aa87dbe5f4d90473c57",
   "district_code":  ""
}
顺序号版本
{
	"province": "SH",
	"credit_no": "",
	"company_code": "",
	"company_name": "",
	"djxh": "10013101001000048329"  --详情url的顺序号
}

data_type说明

detail: 详情信息

爬虫结果的超级数据

{
	"data": {
		"taxinfo_items": [
			{
				"tax_code": "91310101703102855L",                              -- 纳税人识别号(统一社会信用代码)        
				"company_name": "上海东安国际旅行社有限公司",                  -- 纳税人名称
				"company_type": "私营有限责任公司",                            -- 登记注册类型
				"legal_person": "张锡华",                                      -- 法定代表人
				"register_address": "上海市黄浦区淮海东路99号714-715室",       -- 注册地址
				"bussiness_address": "上海市黄浦区淮海东路99号714-715室",      -- 生产经营地址
				"tax_authority": "国家税务总局上海市黄浦区税务局第十三税务所", -- 主管税务机关
				"tax_status": "正常",                                          -- 纳税人税务登记状态
				"tax_type": "增值税一般纳税人",                                -- 一般纳税人资格状态
				"register_date": "2016-10-26",                                 -- 一般纳税人资格登记时间
				"detail_url": "http://shanghai.chinatax.gov.cn/newxbwz/wzfw/YhscxCtrl-yhscxXx.pfv?djxh=10013101001010040675" -- 详情url链接
			}
		]
	},
	"http_code": 200,
	"error_msg": "",
	"task_result": 1000,
	"data_type": "detail",
	"spider_start_time": "2021-03-20 04:04:40.008",
	"spider_end_time": "2021-03-20 04:04:40",
	"task_params": {
		"province": "SH",
		"credit_no": "",
		"company_code": "",
		"company_name": "",
		"djxh": "10013101001010040675"
	},
	"metadata": {},
	"spider_name": "general_taxpayer",
	"spider_ip": "10.8.6.56"
}

实际爬虫结果的数据结构

{
	"data": {
		"taxinfo_items": [
			{
				"tax_code": "91310101703102855L",                              -- 纳税人识别号(统一社会信用代码)        
				"company_name": "上海东安国际旅行社有限公司",                  -- 纳税人名称
				"company_type": "私营有限责任公司",                            -- 登记注册类型
				"legal_person": "张锡华",                                      -- 法定代表人
				"register_address": "上海市黄浦区淮海东路99号714-715室",       -- 注册地址
				"bussiness_address": "上海市黄浦区淮海东路99号714-715室",      -- 生产经营地址
				"tax_authority": "国家税务总局上海市黄浦区税务局第十三税务所", -- 主管税务机关
				"tax_status": "正常",                                          -- 纳税人税务登记状态
				"tax_type": "增值税一般纳税人",                                -- 一般纳税人资格状态
				"register_date": "2016-10-26",                                 -- 一般纳税人资格登记时间
				"detail_url": "http://shanghai.chinatax.gov.cn/newxbwz/wzfw/YhscxCtrl-yhscxXx.pfv?djxh=10013101001010040675" -- 详情url链接
			}
		]
	},
	"http_code": 200,
	"error_msg": "",
	"task_result": 1000,
	"data_type": "detail",
	"spider_start_time": "2021-03-20 04:04:40.008",
	"spider_end_time": "2021-03-20 04:04:40",
	"task_params": {
		"province": "SH",
		"credit_no": "",
		"company_code": "",
		"company_name": "",
		"djxh": "10013101001010040675"
	},
	"metadata": {},
	"spider_name": "general_taxpayer",
	"spider_ip": "10.8.6.56"
}

爬虫运行环境

scrapy

爬虫部署信息

gravel_spiders: 10.8.6.56 5个进程  

Taskhub地址

提交任务地址: http://10.8.6.222:18518/task/
代码编写地址: http://192.168.109.199/granite/project-gravel/blob/develop_app_10jqka_20210121/app_general_taxpayer/data_pump/general_taxpayer.yml

Taskhub调度规则说明

task_result=1000    # 正常获取到详情任务
task_result=1101    # 无结果信息
task_result=9101    # 超时错误,需要进行重试,目前重试5次
task_result=8000    # 参数错误

爬虫监控指标设计

(先观察,待补充)
索引: 
监控频率: 
监控起止时间: 
报警条件: 
报警群:  
报警内容: 

数据归集

责任人

数据归集方式

  • 爬虫直接写kafka

  • 爬虫写文件logstash采集

爬虫结果目录

归集后存放目录

logstash配置文件名称

logstash文件采集type

数据归集的topic

ES日志索引及筛选条件

监控指标看板

数据保留策略


数据清洗

责任人

代码地址

部署地址

部署方法及说明

  • crontab + data_pump
  • supervisor + data_pump
  • supervisor + consumer

数据接收来源

数据存储表地址

  • 数据库地址:
  • 表名:
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages