Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Equity_penetration
  • qcc

qcc · Changes

Page history
update: data_stream: qcc: 任务参数说明更新等 authored Mar 31, 2022 by 蒋家升's avatar 蒋家升
Hide whitespace changes
Inline Side-by-side
Showing with 41 additions and 29 deletions
+41 -29
  • data_stream/equity_penetration/qcc.md data_stream/equity_penetration/qcc.md +41 -29
  • No files found.
data_stream/equity_penetration/qcc.md
View page @ 89ee4393
# **基本信息**
```buildoutcfg
股权穿透QCC爬虫
股权穿透爬虫(QCC)
equity_penetration_qcc,通过scrapy部署
项目名称:project-gravel
分支:develop_equity_penetration
正常流仅运行apph5的非登录爬虫
非登录爬虫
带登录爬虫
对外测试流的带登录爬虫: qcc/tyc
对外测试流运行带登录爬虫: qcc/tyc
500家测试 以下统称为"对外测试"
```
[爬虫相关说明(部署运维命令等)](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/readme.md)
[爬虫相关说明(部署运维命令等)](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration)
## 数据名称(中文)
<!-- 该项数据的中文标准名称,后续沟通交流使用的规范名称,如:工商公示股东信息、失信被执行人、一般纳税人等-->
###
```buildoutcfg
股权穿透QCC爬虫
股权穿透爬虫(QCC)
```
## 数据英文名称
......@@ -25,10 +27,13 @@ equity_penetration_qcc,通过scrapy部署
```text
equity_penetration_qcc
equity_penetration_qcc_login
equity_penetration_qcc_test
equity_penetration_tyc_test
```
## 采集网站(采集入口)
<!--采集的入口地址,不能只是一个网站域名,具体到该网站的数据入口-->
+ 常规
```buildoutcfg
官网PC端入口:
https://www.qcc.com
......@@ -63,12 +68,13 @@ https://www.tianyancha.com
<!--新增数据怎么来?无需单独采集新增数据?-->
```text
kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业更新与新增企业
根据策略,新增企业需要延后约一周后采集
```
---
# **爬虫**
```text
股权穿透QCC爬虫 equity_penetration_qcc
QCC爬虫 equity_penetration_qcc
```
## 责任人
......@@ -108,19 +114,16 @@ equity_penetration_tyc_test (登录*对外测试)
## 任务来源
<!--说明爬虫任务的输入。如:来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
```buildoutcfg
```
> 参考 [任务管理模块说明](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/app_equity_penetration/data_pump/readme.md)
## 任务输入参数(样例)
### 无登录爬虫, redis_key: qcc
```json
# 地域列表任务
{"area_code": "AH_340100", "page": "1"}
{"area_code": "AH_340100", "page": "1", "direct_flag": true}
# 搜索列表任务
{"search_key": "北京出国邦出入境服务有限公司"}
{"search_key": "北京出国邦出入境服务有限公司", "direct_flag": true}
# 公司详情页信息
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}
......@@ -147,36 +150,44 @@ equity_penetration_tyc_test (登录*对外测试)
### 任务参数说明
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
! metadata与task_params兼容问题,信息/附加信息会分布在两处,需要使用 [代码](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/scrapy_spiders/gravel_spiders/utils/__init__.py)`get_full_params` 先组合起来使用
> 通用
>+ login_flag: 带登录
>+ direct_flag: 直接跳转详情请求(不会生成列表item)
>+ ploy: 在任务处决定爬虫出结果的策略;组合多种策略用英标逗号分隔;指定某策略时在键值对中间加上英标分号
> + direct: 列表(搜索/地域等)请求时直接清洗出fid/pid发出后续请求
> + login: 发出带登录/cookie请求,需要登录的请求一律必须带上此参数
> + vip: 目前已预设vip值指定到某一账号
> + pc: 发出pc端公司详情请求
> + actual_controller: 发出实际控制人接口请求,需结合登录vip `login:vip`
>+ source: 任务来源,sql/es/ic_establish/ic_change等,根据实际情况使用
> 附加信息
>+ 常规
> + company_name: 同search_key,因任务源不同字段名称不同,不会与search_key同时出现 `full_params.get('search_key') or full_params.get('company_name')`
> + company_code: 四要素之一,
> + credit_no: 四要素之一,
> + company_name_digest: 四要素之一,清洗辅助作用
> + company_major_type: 企业类型,供统计
> + n_company_status: 企业状态,供统计
>+ ic相关
> + change_date: 变更时间
> + establish_date: 新增时间
>+ 对外测试
> + batch_date
> + batch_sequence_num
> + name: 法人名称
> 列表
>+ 地域
> + area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100)
> + page: 页码
>+ 搜索
> + search_key: 搜索框输入内容
> + company_name: 同上,因任务源不同字段名称不同,不会与search_key同时出现[task_params.get('search_key') or task_params.get('company_name')]
> + company_code: 四要素之一,
> + credit_no: 四要素之一,
> + company_name_digest: 四要素之一,清洗辅助作用
> + company_major_type: 企业类型,供统计
> + n_company_status: 企业状态,供统计
> + search_key: 搜索框输入内容,同company_name,因任务源不同字段名称不同,不会与company_name同时出现
> 详情
>+ fid: QCC企业id
>+ pid: QCC个人id
> 对外测试
>- batch_date
>- batch_sequence_num
>- name: 法人名称
> 其他
>+ ic_flag
>+ change_date: 变更时间
>+ establish_date: 新增时间
## data_type说明
<!--可能产生的data_type说明-->
......@@ -185,6 +196,7 @@ equity_penetration_tyc_test (登录*对外测试)
+ detail_company: 公司详情页信息
+ detail_company_apph5: 公司详情页信息(无登录状态)
+ detail_person: 个人详情页信息
+ actual_controller: 实际控制人数据
## 爬虫结果的超级数据
<!--包含所有字段的json数据,每个value都要有样例值-->
......@@ -204,7 +216,7 @@ equity_penetration_tyc_test (登录*对外测试)
> [个人页详情结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/login/person)
### 对外测试
### 对外测试 (链接对应目录下已存多个维度样例结果)
> [qcc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/qcc)
> [tyc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/tyc)
......
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages