袁波 · 9315506a
Hide whitespace changes
Inline Side-by-side

Showing with 41 additions and 0 deletions

data_stream/company/xiaowei.md data_stream/company/xiaowei.md +41 -0

No files found.
--- a/data_stream/company/xiaowei.md
+++ b/data_stream/company/xiaowei.md
 # **基本信息**
+### 爬虫整体说明
+```
+1. 破解滑块时候的ip与实际爬取数据时候的ip必须一致
+2. 破解滑块时候涉及到7个请求，依次在文件
+    xiaowei_register.py、xiaowei_getphp.py、xiaowei_fullbg.py、xiaowei_bg.py、xiaowei_token.py、
+    xiaowei_ajax.py (包含一个requests请求内网nodejs服务获取w值， 因为用scrapy,会报400错误。这里用ahttp异步请求，
+    性能未见提升，暂时就这样)， 10.8.6.4机器，部署了100个进程，32并发(其实与16并发没啥差异)
+3. 破解完滑块后涉及到的请求
+    xiaowei_validate.py、xiaowei_search.py
+```
+### 搜索关键词的优先级
+```
+company_name, credit_no, company_code
+只要有company_name, 就用company_name进行搜索，否则用credit_no搜索，如果没有credit_no,则用company_code。
+```
+### 搜索结果可能性
+```
+company_name进行搜索
+    搜索到唯一一条精准匹配的数据
+    搜索到几条数据，其中有一条数据是能够匹配上的， 案例: "兴城市美舒泳装加工厂"
+    没有精准匹配到的结果，但是会推荐20条数据
+    什么也没有搜索到(这种情况目前没有见到过)
+credit_no进行搜索
+    搜索到1条精准匹配的结果
+    搜索到0条
+```
+### task_result说明
+```
+task_result=1000, 说明当前任务一定是搜索到了匹配的企业，只要有credit_no,则是将credit_no与搜索结果的credit_no匹配。
+                    没有credit_no, 则使用company_name与搜索结果的company_name进行匹配。
+task_result=1101, 说明没有搜索到匹配的企业。比对逻辑同上。注意: 虽然，task_result=1101,
+                    data=None,或者有具体数据，data中的数据都是网站推荐的数据。
+```
 ### 字段说明
 ```
 class XiaoWeiItem(Item):