Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Company
  • xiaowei

Last edited by yuanbo Feb 21, 2022
Page history
This is an old version of this page. You can view the most recent version or browse the history.

xiaowei

基本信息

爬虫整体说明

1. 破解滑块时候的ip与实际爬取数据时候的ip必须一致
2. 破解滑块时候涉及到7个请求,依次在文件
    xiaowei_register.py、xiaowei_getphp.py、xiaowei_fullbg.py、xiaowei_bg.py、xiaowei_token.py、
    xiaowei_ajax.py (包含一个requests请求内网nodejs服务获取w值, 因为用scrapy,会报400错误。这里用ahttp异步请求,
    性能未见提升,暂时就这样), 10.8.6.4机器,部署了100个进程,32并发(其实与16并发没啥差异)
3. 破解完滑块后涉及到的请求
    xiaowei_validate.py、xiaowei_search.py

搜索关键词的优先级

company_name, credit_no, company_code
只要有company_name, 就用company_name进行搜索,否则用credit_no搜索,如果没有credit_no,则用company_code。

搜索结果可能性

company_name进行搜索
    搜索到唯一一条精准匹配的数据
    搜索到几条数据,其中有一条数据是能够匹配上的, 案例: "兴城市美舒泳装加工厂"
    没有精准匹配到的结果,但是会推荐20条数据
    什么也没有搜索到(这种情况目前没有见到过)

credit_no进行搜索
    搜索到1条精准匹配的结果
    搜索到0条

task_result说明

task_result=1000, 说明当前任务一定是搜索到了匹配的企业,只要有credit_no,则是将credit_no与搜索结果的credit_no匹配。
                    没有credit_no, 则使用company_name与搜索结果的company_name进行匹配。
task_result=1101, 说明没有搜索到匹配的企业。比对逻辑同上。注意: 虽然,task_result=1101,
                    data=None,或者有具体数据,data中的数据都是网站推荐的数据。
            

字段说明

class XiaoWeiItem(Item):
    company_name = Field()  # 企业名称
    credit_no = Field()     # 统一社会信用代码
    company_type = Field()  # 企业类型, 如:有限责任公司(自然人投资或控股的法人独资)
    establish_date = Field()    # 成立日期
    capital = Field()   # 注册资本
    authority = Field() # 登记机关
    industry_name = Field() # 所属门类
    industry = Field()  # 行业
    entid = Field()    # 小微企业网站针对这个公司的唯一id

状态码特别说明

1000 正常获取到数据
1101 未精准匹配到该条数据
9204 验证码未通过
8000 未知错误
9110 非预期的返回状态码
9300 页面解析出错

数据名称(中文)

小微企业

数据英文名称

xiaowei

采集网站(采集入口)

http://xwqy.gsxt.gov.cn/

采集频率及采集策略

存量更新策略

从es中获取在营企业,具体更新要求,请查看本项目对应doc目录下的需求文档

增量采集策略


爬虫

xiaowei

责任人

袁波

爬虫名称

xiaowei

代码地址

项目地址:
http://tech.pingansec.com/granite/project-gravel/-/tree/xiaowei_20211228

## 队列名称及队列地址
<!--redis host port db key 优先级说明-->
-
* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
* redis port: 6379
* redis db: 7
* redis key: 
    * xiaowei:10

任务输入参数(样例)

{
	"credit_no": "91530302397409612J",
	"company_name_digest": "0055c8d645205a8f1a46f7d2b94e5f76",
	"company_name": "曲靖市麒麟区乐友家庭农场",
	"company_code": "530302200120172",
	"_id": "0055c8d645205a8f1a46f7d2b94e5f76"
}

data_type说明

实际爬虫结果的数据结构

task_result=1000,正常获取到的1条结果

{
	"task_result": 1000,
	"data_type": "detail",
	"data": {
		"company_name": "海南罗邦展览有限公司",
		"credit_no": "91460100MA5RD30A1N",
		"company_type": "有限责任公司(自然人投资或控股)",
		"establish_date": "",
		"capital": "100万人民币",
		"authority": "海口市市场监督管理局",
		"industry_name": "",
		"industry": "",
		"entid": "SBv5pbNbVLnyLP_YiLtvA6_7OaEY1k2R9LWUrvkJHzzdXYSOmNVYacgt7J5qLF17VzzGNuYE4pgTvPV9rnDXRA=="
	},
	"http_code": 200,
	"error_msg": "",
	"metadata": {},
	"spider_start_time": "2022-01-06 10:09:01.300",
	"spider_end_time": "2022-01-06 10:09:09.371",
	"task_params": {
		"credit_no": "91460100MA5RD30A1N",
		"company_name_digest": "0edd710ca2b30c29c3ee95d8f731f274",
		"company_name": "海南罗邦展览有限公司",
		"company_code": "460100011151250",
		"_id": "0edd710ca2b30c29c3ee95d8f731f274"
	},
	"spider_name": "xiaowei",
	"spider_ip": "10.8.6.4"
}

task_result=1101,并且没有获取到任何推荐结果,data为null,python中就对应为None

{
	"task_result": 1101,
	"data": null,
	"task_params": {
		"credit_no": "91440101MA9Y2Q9034",
		"company_name_digest": "08fa9d49f957ea2981eb222383eb3e02",
		"company_name": "广州弘旭投资合伙企业(有限合伙)",
		"company_code": "440106008209371",
		"_id": "08fa9d49f957ea2981eb222383eb3e02"
	},
	"data_type": "detail",
	"http_code": 200,
	"error_msg": "",
	"spider_name": "xiaowei",
	"spider_ip": "10.8.6.4"
}

task_result=1101,表示没有搜索到匹配的结果,但获取到推荐数据

{
	"task_result": 1101,
	"data_type": "detail",
	"data": {
		"company_name": "曲靖市麒麟区乐友家庭农场",
		"credit_no": "91530302397409612J",
		"company_type": "个人独资企业",
		"establish_date": "",
		"capital": "30万人民币",
		"authority": "麒麟 ",
		"industry_name": "",
		"industry": "",
        "entid": "SBv5pbNbVLnyLP_YiLtvA6_7OaEY1k2R9LWUrvkJHzzdXYSOmNVYacgt7J5qLF17VzzGNuYE4pgTvPV9rnDXRA=="
	},
	"http_code": 200,
	"error_msg": "",
	"metadata": {},
	"spider_start_time": "2022-01-04 15:11:23",
	"spider_end_time": "2022-01-04 15:11:40",
	"task_params": {
		"credit_no": "91530302397409612J",
		"company_name_digest": "0055c8d645205a8f1a46f7d2b94e5f76",
		"company_name": "曲靖市麒麟区乐友家庭农场",
		"company_code": "530302200120172",
		"_id": "0055c8d645205a8f1a46f7d2b94e5f76"
	},
	"spider_name": "xiaowei",
	"spider_ip": "10.8.6.4"
}

爬虫运行环境

scrapy

爬虫部署信息

crontab任务对应机器collie用户:   待添加
爬虫部署机器:  10.8.6.4   40个进程

Taskhub地址

暂未添加

Taskhub调度规则说明

爬虫监控指标设计

待完善

爬虫待采集结果目录

/data/gravel_spiders/xiaowei

数据归集

责任人

范召贤

数据归集方式

  • 爬虫直接写kafka

  • 爬虫写文件logstash采集

爬虫结果目录

/data/gravel_spiders/xiaowei

归集后存放目录

/data2_227/grvael_spider_result/xiaowei

logstash配置文件名称

project-deploy/logstash/10.8.6.246/conf.d/collie_spider_data_to_kfk.conf(入topic)
project-deploy/logstash/10.8.6.229/conf.d/grvael/grvael_spider_to_es.conf(入es)

logstash文件采集type

type=>"xiaowei"

数据归集的topic

topic_id => "general-taxpayer"

ES日志索引及筛选条件

index => "gravel-spider-data-%{log_date}"

监控指标看板

数据保留策略


数据清洗

责任人

代码地址

部署地址

部署方法及说明

  • crontab + data_pump
  • supervisor + data_pump
  • supervisor + consumer

数据接收来源

归集的文件

数据存储表地址

  • 数据库地址:
  • 库名:
  • 表名:
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages