Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Equity_penetration
  • qcc

qcc · Changes

Page history
update: data_stream: qcc: 任务参数说明更新等 authored Mar 31, 2022 by 蒋家升's avatar 蒋家升
Hide whitespace changes
Inline Side-by-side
Showing with 41 additions and 29 deletions
+41 -29
  • data_stream/equity_penetration/qcc.md data_stream/equity_penetration/qcc.md +41 -29
  • No files found.
data_stream/equity_penetration/qcc.md
View page @ 89ee4393
# **基本信息** # **基本信息**
```buildoutcfg ```buildoutcfg
股权穿透QCC爬虫 股权穿透爬虫(QCC)
equity_penetration_qcc,通过scrapy部署 equity_penetration_qcc,通过scrapy部署
项目名称:project-gravel 项目名称:project-gravel
分支:develop_equity_penetration 分支:develop_equity_penetration
正常流仅运行apph5的非登录爬虫 非登录爬虫
带登录爬虫
对外测试流的带登录爬虫: qcc/tyc
对外测试流运行带登录爬虫: qcc/tyc 500家测试 以下统称为"对外测试"
``` ```
[爬虫相关说明(部署运维命令等)](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/readme.md) [爬虫相关说明(部署运维命令等)](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration)
## 数据名称(中文) ## 数据名称(中文)
<!-- 该项数据的中文标准名称,后续沟通交流使用的规范名称,如:工商公示股东信息、失信被执行人、一般纳税人等--> <!-- 该项数据的中文标准名称,后续沟通交流使用的规范名称,如:工商公示股东信息、失信被执行人、一般纳税人等-->
### ###
```buildoutcfg ```buildoutcfg
股权穿透QCC爬虫 股权穿透爬虫(QCC)
``` ```
## 数据英文名称 ## 数据英文名称
...@@ -25,10 +27,13 @@ equity_penetration_qcc,通过scrapy部署 ...@@ -25,10 +27,13 @@ equity_penetration_qcc,通过scrapy部署
```text ```text
equity_penetration_qcc equity_penetration_qcc
equity_penetration_qcc_login equity_penetration_qcc_login
equity_penetration_qcc_test
equity_penetration_tyc_test
``` ```
## 采集网站(采集入口) ## 采集网站(采集入口)
<!--采集的入口地址,不能只是一个网站域名,具体到该网站的数据入口--> <!--采集的入口地址,不能只是一个网站域名,具体到该网站的数据入口-->
+ 常规
```buildoutcfg ```buildoutcfg
官网PC端入口: 官网PC端入口:
https://www.qcc.com https://www.qcc.com
...@@ -63,12 +68,13 @@ https://www.tianyancha.com ...@@ -63,12 +68,13 @@ https://www.tianyancha.com
<!--新增数据怎么来?无需单独采集新增数据?--> <!--新增数据怎么来?无需单独采集新增数据?-->
```text ```text
kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业更新与新增企业 kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业更新与新增企业
根据策略,新增企业需要延后约一周后采集
``` ```
--- ---
# **爬虫** # **爬虫**
```text ```text
股权穿透QCC爬虫 equity_penetration_qcc QCC爬虫 equity_penetration_qcc
``` ```
## 责任人 ## 责任人
...@@ -108,19 +114,16 @@ equity_penetration_tyc_test (登录*对外测试) ...@@ -108,19 +114,16 @@ equity_penetration_tyc_test (登录*对外测试)
## 任务来源 ## 任务来源
<!--说明爬虫任务的输入。如:来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。--> <!--说明爬虫任务的输入。如:来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
```buildoutcfg > 参考 [任务管理模块说明](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/app_equity_penetration/data_pump/readme.md)
```
## 任务输入参数(样例) ## 任务输入参数(样例)
### 无登录爬虫, redis_key: qcc ### 无登录爬虫, redis_key: qcc
```json ```json
# 地域列表任务 # 地域列表任务
{"area_code": "AH_340100", "page": "1"} {"area_code": "AH_340100", "page": "1"}
{"area_code": "AH_340100", "page": "1", "direct_flag": true}
# 搜索列表任务 # 搜索列表任务
{"search_key": "北京出国邦出入境服务有限公司"} {"search_key": "北京出国邦出入境服务有限公司"}
{"search_key": "北京出国邦出入境服务有限公司", "direct_flag": true}
# 公司详情页信息 # 公司详情页信息
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"} {"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}
...@@ -147,36 +150,44 @@ equity_penetration_tyc_test (登录*对外测试) ...@@ -147,36 +150,44 @@ equity_penetration_tyc_test (登录*对外测试)
### 任务参数说明 ### 任务参数说明
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明--> <!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
! metadata与task_params兼容问题,信息/附加信息会分布在两处,需要使用 [代码](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/scrapy_spiders/gravel_spiders/utils/__init__.py)`get_full_params` 先组合起来使用
> 通用 > 通用
>+ login_flag: 带登录 >+ ploy: 在任务处决定爬虫出结果的策略;组合多种策略用英标逗号分隔;指定某策略时在键值对中间加上英标分号
>+ direct_flag: 直接跳转详情请求(不会生成列表item) > + direct: 列表(搜索/地域等)请求时直接清洗出fid/pid发出后续请求
> + login: 发出带登录/cookie请求,需要登录的请求一律必须带上此参数
> + vip: 目前已预设vip值指定到某一账号
> + pc: 发出pc端公司详情请求
> + actual_controller: 发出实际控制人接口请求,需结合登录vip `login:vip`
>+ source: 任务来源,sql/es/ic_establish/ic_change等,根据实际情况使用
> 附加信息
>+ 常规
> + company_name: 同search_key,因任务源不同字段名称不同,不会与search_key同时出现 `full_params.get('search_key') or full_params.get('company_name')`
> + company_code: 四要素之一,
> + credit_no: 四要素之一,
> + company_name_digest: 四要素之一,清洗辅助作用
> + company_major_type: 企业类型,供统计
> + n_company_status: 企业状态,供统计
>+ ic相关
> + change_date: 变更时间
> + establish_date: 新增时间
>+ 对外测试
> + batch_date
> + batch_sequence_num
> + name: 法人名称
> 列表 > 列表
>+ 地域 >+ 地域
> + area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100) > + area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100)
> + page: 页码 > + page: 页码
>+ 搜索 >+ 搜索
> + search_key: 搜索框输入内容 > + search_key: 搜索框输入内容,同company_name,因任务源不同字段名称不同,不会与company_name同时出现
> + company_name: 同上,因任务源不同字段名称不同,不会与search_key同时出现[task_params.get('search_key') or task_params.get('company_name')]
> + company_code: 四要素之一,
> + credit_no: 四要素之一,
> + company_name_digest: 四要素之一,清洗辅助作用
> + company_major_type: 企业类型,供统计
> + n_company_status: 企业状态,供统计
> 详情 > 详情
>+ fid: QCC企业id >+ fid: QCC企业id
>+ pid: QCC个人id >+ pid: QCC个人id
> 对外测试
>- batch_date
>- batch_sequence_num
>- name: 法人名称
> 其他
>+ ic_flag
>+ change_date: 变更时间
>+ establish_date: 新增时间
## data_type说明 ## data_type说明
<!--可能产生的data_type说明--> <!--可能产生的data_type说明-->
...@@ -185,6 +196,7 @@ equity_penetration_tyc_test (登录*对外测试) ...@@ -185,6 +196,7 @@ equity_penetration_tyc_test (登录*对外测试)
+ detail_company: 公司详情页信息 + detail_company: 公司详情页信息
+ detail_company_apph5: 公司详情页信息(无登录状态) + detail_company_apph5: 公司详情页信息(无登录状态)
+ detail_person: 个人详情页信息 + detail_person: 个人详情页信息
+ actual_controller: 实际控制人数据
## 爬虫结果的超级数据 ## 爬虫结果的超级数据
<!--包含所有字段的json数据,每个value都要有样例值--> <!--包含所有字段的json数据,每个value都要有样例值-->
...@@ -204,7 +216,7 @@ equity_penetration_tyc_test (登录*对外测试) ...@@ -204,7 +216,7 @@ equity_penetration_tyc_test (登录*对外测试)
> [个人页详情结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/login/person) > [个人页详情结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/login/person)
### 对外测试 ### 对外测试 (链接对应目录下已存多个维度样例结果)
> [qcc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/qcc) > [qcc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/qcc)
> [tyc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/tyc) > [tyc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/tyc)
......
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages