Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Equity_penetration
  • qcc

qcc · Changes

Page history
update: data_stream: qcc authored Jun 07, 2022 by 蒋家升's avatar 蒋家升
Hide whitespace changes
Inline Side-by-side
Showing with 25 additions and 7 deletions
+25 -7
  • data_stream/equity_penetration/qcc.md data_stream/equity_penetration/qcc.md +25 -7
  • No files found.
data_stream/equity_penetration/qcc.md
View page @ ed40633e
...@@ -95,7 +95,7 @@ kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业 ...@@ -95,7 +95,7 @@ kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业
蒋家升 蒋家升
``` ```
## 爬虫名称 ## spider_name爬虫名称
```text ```text
equity_penetration_qcc equity_penetration_qcc
equity_penetration_qcc_login (登录) equity_penetration_qcc_login (登录)
...@@ -160,7 +160,7 @@ equity_penetration_tyc_test (对外测试) ...@@ -160,7 +160,7 @@ equity_penetration_tyc_test (对外测试)
```buildoutcfg ```buildoutcfg
``` ```
### 任务参数说明 ### task_params任务参数说明
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明--> <!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
! metadata与task_params兼容问题,信息/附加信息会分布在两处,需要使用 [代码](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/scrapy_spiders/gravel_spiders/utils/__init__.py)`get_full_params` 先组合起来使用 ! metadata与task_params兼容问题,信息/附加信息会分布在两处,需要使用 [代码](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/scrapy_spiders/gravel_spiders/utils/__init__.py)`get_full_params` 先组合起来使用
...@@ -173,6 +173,7 @@ equity_penetration_tyc_test (对外测试) ...@@ -173,6 +173,7 @@ equity_penetration_tyc_test (对外测试)
> + pc: 发出pc端公司详情请求 > + pc: 发出pc端公司详情请求
> + actual_controller: 发出实际控制人接口请求,需结合登录vip `login:vip` > + actual_controller: 发出实际控制人接口请求,需结合登录vip `login:vip`
>+ source: 任务来源,sql/es/ic_establish/ic_change等,根据实际情况使用 >+ source: 任务来源,sql/es/ic_establish/ic_change等,根据实际情况使用
> + stock: 最新公示: 当pc源时,有该参数才会出最新公示结果
> 附加信息 > 附加信息
>+ 常规 >+ 常规
...@@ -221,8 +222,10 @@ equity_penetration_tyc_test (对外测试) ...@@ -221,8 +222,10 @@ equity_penetration_tyc_test (对外测试)
## 实际爬虫结果的数据结构 ## 实际爬虫结果的数据结构
<!--可能与超级数据一致,可能不同的data_type的爬虫结果结构不同,超级数据是把所有data_type的结果组合在一起--> <!--可能与超级数据一致,可能不同的data_type的爬虫结果结构不同,超级数据是把所有data_type的结果组合在一起-->
> 注意:部分示例的结果不包含爬虫的附加信息, 仅有data部分;<br> > 注意:<br>
> example结果在新功能上线后可能会未及时更新,需与功能上线时间与example的spider_start_time对比查看可用与否,如遇到example使用出错时适当提醒一下 > example结果在新功能上线后可能会未及时更新,需与功能上线时间与example的spider_start_time对比查看可用与否,如遇到example使用出错时适当提醒一下<br>
> [关于所谓`约定`的说明](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/readme.md)
> [列表任务结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/no_login/list) <br> > [列表任务结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/no_login/list) <br>
> 分为地域列表,搜索列表,详见data_type说明 > 分为地域列表,搜索列表,详见data_type说明
...@@ -261,11 +264,26 @@ spider_name: equity_penetration_qcc,equity_penetration_qcc_login,equity_penetrat ...@@ -261,11 +264,26 @@ spider_name: equity_penetration_qcc,equity_penetration_qcc_login,equity_penetrat
## Taskhub地址 ## Taskhub地址
```buildoutcfg ### 任务提交
提交任务地址: > 提交任务地址: http://10.8.6.222:8526/task/
代码编写地址:
> 注意:# REMARK(2022-06-07): 由于当前是用的是qcc_retry的outbound, 即重试队列,优先度很低而且会积压;
> 任务提交示例:
+ 通过三要素搜索入口(search_key与ploy[direct,pc])
```bash
curl -L -X POST 'http://10.8.6.222:8526/task/' -H 'Content-Type: application/json' --data-raw '{"spider_name": "equity_penetration_qcc","province": "SAX","company_status": "废止","search_key": "乐东黎族自治县第二小学","credit_no": "12468843428892871M","submit_time": "2021-06-16 19:29:44","company_major_type": 4, "ploy": "direct,pc"}'
``` ```
+ 通过fid直接入口
```bash
curl -L -X POST 'http://10.8.6.222:8526/task/' -H 'Content-Type: application/json' --data-raw '{"fid": "971414325d72faaa1be487d9eb8d668d", "company_name": "王府井集团股份有限公司", "ploy": "pc", "source": "stock,latest,history_name"}'
```
相当于task_params再加入spider_name
> [spider_name](#spider_name)与[ploy与source](#task_params)能组合出多种结果,具体参考对应条目
## Taskhub调度规则说明 ## Taskhub调度规则说明
```buildoutcfg ```buildoutcfg
task_result=1000 # 正常获取到详情任务 task_result=1000 # 正常获取到详情任务
......
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages