|
# **基本信息**
|
|
# **基本信息**
|
|
|
|
### 爬虫整体说明
|
|
|
|
```
|
|
|
|
1. 破解滑块时候的ip与实际爬取数据时候的ip必须一致
|
|
|
|
2. 破解滑块时候涉及到7个请求,依次在文件
|
|
|
|
xiaowei_register.py、xiaowei_getphp.py、xiaowei_fullbg.py、xiaowei_bg.py、xiaowei_token.py、
|
|
|
|
xiaowei_ajax.py (包含一个requests请求内网nodejs服务获取w值, 因为用scrapy,会报400错误。这里用ahttp异步请求,
|
|
|
|
性能未见提升,暂时就这样), 10.8.6.4机器,部署了100个进程,32并发(其实与16并发没啥差异)
|
|
|
|
3. 破解完滑块后涉及到的请求
|
|
|
|
xiaowei_validate.py、xiaowei_search.py
|
|
|
|
|
|
|
|
```
|
|
|
|
|
|
|
|
### 搜索关键词的优先级
|
|
|
|
```
|
|
|
|
company_name, credit_no, company_code
|
|
|
|
只要有company_name, 就用company_name进行搜索,否则用credit_no搜索,如果没有credit_no,则用company_code。
|
|
|
|
```
|
|
|
|
|
|
|
|
### 搜索结果可能性
|
|
|
|
```
|
|
|
|
company_name进行搜索
|
|
|
|
搜索到唯一一条精准匹配的数据
|
|
|
|
搜索到几条数据,其中有一条数据是能够匹配上的, 案例: "兴城市美舒泳装加工厂"
|
|
|
|
没有精准匹配到的结果,但是会推荐20条数据
|
|
|
|
什么也没有搜索到(这种情况目前没有见到过)
|
|
|
|
|
|
|
|
credit_no进行搜索
|
|
|
|
搜索到1条精准匹配的结果
|
|
|
|
搜索到0条
|
|
|
|
```
|
|
|
|
|
|
|
|
### task_result说明
|
|
|
|
```
|
|
|
|
task_result=1000, 说明当前任务一定是搜索到了匹配的企业,只要有credit_no,则是将credit_no与搜索结果的credit_no匹配。
|
|
|
|
没有credit_no, 则使用company_name与搜索结果的company_name进行匹配。
|
|
|
|
task_result=1101, 说明没有搜索到匹配的企业。比对逻辑同上。注意: 虽然,task_result=1101,
|
|
|
|
data=None,或者有具体数据,data中的数据都是网站推荐的数据。
|
|
|
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
### 字段说明
|
|
### 字段说明
|
|
```
|
|
```
|
|
class XiaoWeiItem(Item):
|
|
class XiaoWeiItem(Item):
|
... | | ... | |