... | @@ -95,7 +95,7 @@ kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业 |
... | @@ -95,7 +95,7 @@ kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业 |
|
蒋家升
|
|
蒋家升
|
|
```
|
|
```
|
|
|
|
|
|
## 爬虫名称
|
|
## spider_name爬虫名称
|
|
```text
|
|
```text
|
|
equity_penetration_qcc
|
|
equity_penetration_qcc
|
|
equity_penetration_qcc_login (登录)
|
|
equity_penetration_qcc_login (登录)
|
... | @@ -160,7 +160,7 @@ equity_penetration_tyc_test (对外测试) |
... | @@ -160,7 +160,7 @@ equity_penetration_tyc_test (对外测试) |
|
```buildoutcfg
|
|
```buildoutcfg
|
|
```
|
|
```
|
|
|
|
|
|
### 任务参数说明
|
|
### task_params任务参数说明
|
|
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
|
|
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
|
|
|
|
|
|
! metadata与task_params兼容问题,信息/附加信息会分布在两处,需要使用 [代码](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/scrapy_spiders/gravel_spiders/utils/__init__.py)`get_full_params` 先组合起来使用
|
|
! metadata与task_params兼容问题,信息/附加信息会分布在两处,需要使用 [代码](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/scrapy_spiders/gravel_spiders/utils/__init__.py)`get_full_params` 先组合起来使用
|
... | @@ -173,6 +173,7 @@ equity_penetration_tyc_test (对外测试) |
... | @@ -173,6 +173,7 @@ equity_penetration_tyc_test (对外测试) |
|
> + pc: 发出pc端公司详情请求
|
|
> + pc: 发出pc端公司详情请求
|
|
> + actual_controller: 发出实际控制人接口请求,需结合登录vip `login:vip`
|
|
> + actual_controller: 发出实际控制人接口请求,需结合登录vip `login:vip`
|
|
>+ source: 任务来源,sql/es/ic_establish/ic_change等,根据实际情况使用
|
|
>+ source: 任务来源,sql/es/ic_establish/ic_change等,根据实际情况使用
|
|
|
|
> + stock: 最新公示: 当pc源时,有该参数才会出最新公示结果
|
|
|
|
|
|
> 附加信息
|
|
> 附加信息
|
|
>+ 常规
|
|
>+ 常规
|
... | @@ -221,8 +222,10 @@ equity_penetration_tyc_test (对外测试) |
... | @@ -221,8 +222,10 @@ equity_penetration_tyc_test (对外测试) |
|
## 实际爬虫结果的数据结构
|
|
## 实际爬虫结果的数据结构
|
|
<!--可能与超级数据一致,可能不同的data_type的爬虫结果结构不同,超级数据是把所有data_type的结果组合在一起-->
|
|
<!--可能与超级数据一致,可能不同的data_type的爬虫结果结构不同,超级数据是把所有data_type的结果组合在一起-->
|
|
|
|
|
|
> 注意:部分示例的结果不包含爬虫的附加信息, 仅有data部分;<br>
|
|
> 注意:<br>
|
|
> example结果在新功能上线后可能会未及时更新,需与功能上线时间与example的spider_start_time对比查看可用与否,如遇到example使用出错时适当提醒一下
|
|
> example结果在新功能上线后可能会未及时更新,需与功能上线时间与example的spider_start_time对比查看可用与否,如遇到example使用出错时适当提醒一下<br>
|
|
|
|
> [关于所谓`约定`的说明](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/readme.md)
|
|
|
|
|
|
|
|
|
|
> [列表任务结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/no_login/list) <br>
|
|
> [列表任务结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/no_login/list) <br>
|
|
> 分为地域列表,搜索列表,详见data_type说明
|
|
> 分为地域列表,搜索列表,详见data_type说明
|
... | @@ -261,11 +264,26 @@ spider_name: equity_penetration_qcc,equity_penetration_qcc_login,equity_penetrat |
... | @@ -261,11 +264,26 @@ spider_name: equity_penetration_qcc,equity_penetration_qcc_login,equity_penetrat |
|
|
|
|
|
|
|
|
|
## Taskhub地址
|
|
## Taskhub地址
|
|
```buildoutcfg
|
|
### 任务提交
|
|
提交任务地址:
|
|
> 提交任务地址: http://10.8.6.222:8526/task/
|
|
代码编写地址:
|
|
|
|
|
|
> 注意:# REMARK(2022-06-07): 由于当前是用的是qcc_retry的outbound, 即重试队列,优先度很低而且会积压;
|
|
|
|
|
|
|
|
> 任务提交示例:
|
|
|
|
+ 通过三要素搜索入口(search_key与ploy[direct,pc])
|
|
|
|
```bash
|
|
|
|
curl -L -X POST 'http://10.8.6.222:8526/task/' -H 'Content-Type: application/json' --data-raw '{"spider_name": "equity_penetration_qcc","province": "SAX","company_status": "废止","search_key": "乐东黎族自治县第二小学","credit_no": "12468843428892871M","submit_time": "2021-06-16 19:29:44","company_major_type": 4, "ploy": "direct,pc"}'
|
|
```
|
|
```
|
|
|
|
|
|
|
|
+ 通过fid直接入口
|
|
|
|
```bash
|
|
|
|
curl -L -X POST 'http://10.8.6.222:8526/task/' -H 'Content-Type: application/json' --data-raw '{"fid": "971414325d72faaa1be487d9eb8d668d", "company_name": "王府井集团股份有限公司", "ploy": "pc", "source": "stock,latest,history_name"}'
|
|
|
|
```
|
|
|
|
|
|
|
|
相当于task_params再加入spider_name
|
|
|
|
|
|
|
|
> [spider_name](#spider_name)与[ploy与source](#task_params)能组合出多种结果,具体参考对应条目
|
|
|
|
|
|
## Taskhub调度规则说明
|
|
## Taskhub调度规则说明
|
|
```buildoutcfg
|
|
```buildoutcfg
|
|
task_result=1000 # 正常获取到详情任务
|
|
task_result=1000 # 正常获取到详情任务
|
... | | ... | |