Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Company
  • xiaowei

xiaowei · Changes

Page history
add: xiaowei 完善文档 authored Jan 10, 2022 by 袁波's avatar 袁波
Show whitespace changes
Inline Side-by-side
Showing with 41 additions and 0 deletions
+41 -0
  • data_stream/company/xiaowei.md data_stream/company/xiaowei.md +41 -0
  • No files found.
data_stream/company/xiaowei.md
View page @ 9315506a
# **基本信息**
### 爬虫整体说明
```
1. 破解滑块时候的ip与实际爬取数据时候的ip必须一致
2. 破解滑块时候涉及到7个请求,依次在文件
xiaowei_register.py、xiaowei_getphp.py、xiaowei_fullbg.py、xiaowei_bg.py、xiaowei_token.py、
xiaowei_ajax.py (包含一个requests请求内网nodejs服务获取w值, 因为用scrapy,会报400错误。这里用ahttp异步请求,
性能未见提升,暂时就这样), 10.8.6.4机器,部署了100个进程,32并发(其实与16并发没啥差异)
3. 破解完滑块后涉及到的请求
xiaowei_validate.py、xiaowei_search.py
```
### 搜索关键词的优先级
```
company_name, credit_no, company_code
只要有company_name, 就用company_name进行搜索,否则用credit_no搜索,如果没有credit_no,则用company_code。
```
### 搜索结果可能性
```
company_name进行搜索
搜索到唯一一条精准匹配的数据
搜索到几条数据,其中有一条数据是能够匹配上的, 案例: "兴城市美舒泳装加工厂"
没有精准匹配到的结果,但是会推荐20条数据
什么也没有搜索到(这种情况目前没有见到过)
credit_no进行搜索
搜索到1条精准匹配的结果
搜索到0条
```
### task_result说明
```
task_result=1000, 说明当前任务一定是搜索到了匹配的企业,只要有credit_no,则是将credit_no与搜索结果的credit_no匹配。
没有credit_no, 则使用company_name与搜索结果的company_name进行匹配。
task_result=1101, 说明没有搜索到匹配的企业。比对逻辑同上。注意: 虽然,task_result=1101,
data=None,或者有具体数据,data中的数据都是网站推荐的数据。
```
### 字段说明
```
class XiaoWeiItem(Item):
......
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages