|
# **基本信息**
|
|
# **基本信息**
|
|
```buildoutcfg
|
|
```buildoutcfg
|
|
股权穿透QCC爬虫
|
|
股权穿透爬虫(QCC)
|
|
equity_penetration_qcc,通过scrapy部署
|
|
equity_penetration_qcc,通过scrapy部署
|
|
项目名称:project-gravel
|
|
项目名称:project-gravel
|
|
分支:develop_equity_penetration
|
|
分支:develop_equity_penetration
|
|
|
|
|
|
正常流仅运行apph5的非登录爬虫
|
|
非登录爬虫
|
|
|
|
带登录爬虫
|
|
|
|
对外测试流的带登录爬虫: qcc/tyc
|
|
|
|
|
|
对外测试流运行带登录爬虫: qcc/tyc
|
|
500家测试 以下统称为"对外测试"
|
|
```
|
|
```
|
|
|
|
|
|
[爬虫相关说明(部署运维命令等)](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/readme.md)
|
|
[爬虫相关说明(部署运维命令等)](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration)
|
|
|
|
|
|
|
|
|
|
## 数据名称(中文)
|
|
## 数据名称(中文)
|
|
<!-- 该项数据的中文标准名称,后续沟通交流使用的规范名称,如:工商公示股东信息、失信被执行人、一般纳税人等-->
|
|
<!-- 该项数据的中文标准名称,后续沟通交流使用的规范名称,如:工商公示股东信息、失信被执行人、一般纳税人等-->
|
|
###
|
|
###
|
|
```buildoutcfg
|
|
```buildoutcfg
|
|
股权穿透QCC爬虫
|
|
股权穿透爬虫(QCC)
|
|
```
|
|
```
|
|
|
|
|
|
## 数据英文名称
|
|
## 数据英文名称
|
... | @@ -25,10 +27,13 @@ equity_penetration_qcc,通过scrapy部署 |
... | @@ -25,10 +27,13 @@ equity_penetration_qcc,通过scrapy部署 |
|
```text
|
|
```text
|
|
equity_penetration_qcc
|
|
equity_penetration_qcc
|
|
equity_penetration_qcc_login
|
|
equity_penetration_qcc_login
|
|
|
|
equity_penetration_qcc_test
|
|
|
|
equity_penetration_tyc_test
|
|
```
|
|
```
|
|
|
|
|
|
## 采集网站(采集入口)
|
|
## 采集网站(采集入口)
|
|
<!--采集的入口地址,不能只是一个网站域名,具体到该网站的数据入口-->
|
|
<!--采集的入口地址,不能只是一个网站域名,具体到该网站的数据入口-->
|
|
|
|
+ 常规
|
|
```buildoutcfg
|
|
```buildoutcfg
|
|
官网PC端入口:
|
|
官网PC端入口:
|
|
https://www.qcc.com
|
|
https://www.qcc.com
|
... | @@ -63,12 +68,13 @@ https://www.tianyancha.com |
... | @@ -63,12 +68,13 @@ https://www.tianyancha.com |
|
<!--新增数据怎么来?无需单独采集新增数据?-->
|
|
<!--新增数据怎么来?无需单独采集新增数据?-->
|
|
```text
|
|
```text
|
|
kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业更新与新增企业
|
|
kafka消费topic<qcc_spider_from_lake_ic_new_list>: 工商变更: 包括企业更新与新增企业
|
|
|
|
根据策略,新增企业需要延后约一周后采集
|
|
```
|
|
```
|
|
---
|
|
---
|
|
|
|
|
|
# **爬虫**
|
|
# **爬虫**
|
|
```text
|
|
```text
|
|
股权穿透QCC爬虫 equity_penetration_qcc
|
|
QCC爬虫 equity_penetration_qcc
|
|
```
|
|
```
|
|
|
|
|
|
## 责任人
|
|
## 责任人
|
... | @@ -108,19 +114,16 @@ equity_penetration_tyc_test (登录*对外测试) |
... | @@ -108,19 +114,16 @@ equity_penetration_tyc_test (登录*对外测试) |
|
|
|
|
|
## 任务来源
|
|
## 任务来源
|
|
<!--说明爬虫任务的输入。如:来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
|
|
<!--说明爬虫任务的输入。如:来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
|
|
```buildoutcfg
|
|
> 参考 [任务管理模块说明](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/app_equity_penetration/data_pump/readme.md)
|
|
```
|
|
|
|
|
|
|
|
## 任务输入参数(样例)
|
|
## 任务输入参数(样例)
|
|
### 无登录爬虫, redis_key: qcc
|
|
### 无登录爬虫, redis_key: qcc
|
|
```json
|
|
```json
|
|
# 地域列表任务
|
|
# 地域列表任务
|
|
{"area_code": "AH_340100", "page": "1"}
|
|
{"area_code": "AH_340100", "page": "1"}
|
|
{"area_code": "AH_340100", "page": "1", "direct_flag": true}
|
|
|
|
|
|
|
|
# 搜索列表任务
|
|
# 搜索列表任务
|
|
{"search_key": "北京出国邦出入境服务有限公司"}
|
|
{"search_key": "北京出国邦出入境服务有限公司"}
|
|
{"search_key": "北京出国邦出入境服务有限公司", "direct_flag": true}
|
|
|
|
|
|
|
|
# 公司详情页信息
|
|
# 公司详情页信息
|
|
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}
|
|
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}
|
... | @@ -147,36 +150,44 @@ equity_penetration_tyc_test (登录*对外测试) |
... | @@ -147,36 +150,44 @@ equity_penetration_tyc_test (登录*对外测试) |
|
### 任务参数说明
|
|
### 任务参数说明
|
|
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
|
|
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
|
|
|
|
|
|
|
|
! metadata与task_params兼容问题,信息/附加信息会分布在两处,需要使用 [代码](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_equity_penetration/scrapy_spiders/gravel_spiders/utils/__init__.py)`get_full_params` 先组合起来使用
|
|
|
|
|
|
> 通用
|
|
> 通用
|
|
>+ login_flag: 带登录
|
|
>+ ploy: 在任务处决定爬虫出结果的策略;组合多种策略用英标逗号分隔;指定某策略时在键值对中间加上英标分号
|
|
>+ direct_flag: 直接跳转详情请求(不会生成列表item)
|
|
> + direct: 列表(搜索/地域等)请求时直接清洗出fid/pid发出后续请求
|
|
|
|
> + login: 发出带登录/cookie请求,需要登录的请求一律必须带上此参数
|
|
|
|
> + vip: 目前已预设vip值指定到某一账号
|
|
|
|
> + pc: 发出pc端公司详情请求
|
|
|
|
> + actual_controller: 发出实际控制人接口请求,需结合登录vip `login:vip`
|
|
|
|
>+ source: 任务来源,sql/es/ic_establish/ic_change等,根据实际情况使用
|
|
|
|
|
|
|
|
> 附加信息
|
|
|
|
>+ 常规
|
|
|
|
> + company_name: 同search_key,因任务源不同字段名称不同,不会与search_key同时出现 `full_params.get('search_key') or full_params.get('company_name')`
|
|
|
|
> + company_code: 四要素之一,
|
|
|
|
> + credit_no: 四要素之一,
|
|
|
|
> + company_name_digest: 四要素之一,清洗辅助作用
|
|
|
|
> + company_major_type: 企业类型,供统计
|
|
|
|
> + n_company_status: 企业状态,供统计
|
|
|
|
>+ ic相关
|
|
|
|
> + change_date: 变更时间
|
|
|
|
> + establish_date: 新增时间
|
|
|
|
>+ 对外测试
|
|
|
|
> + batch_date
|
|
|
|
> + batch_sequence_num
|
|
|
|
> + name: 法人名称
|
|
|
|
|
|
> 列表
|
|
> 列表
|
|
>+ 地域
|
|
>+ 地域
|
|
> + area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100)
|
|
> + area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100)
|
|
> + page: 页码
|
|
> + page: 页码
|
|
>+ 搜索
|
|
>+ 搜索
|
|
> + search_key: 搜索框输入内容
|
|
> + search_key: 搜索框输入内容,同company_name,因任务源不同字段名称不同,不会与company_name同时出现
|
|
> + company_name: 同上,因任务源不同字段名称不同,不会与search_key同时出现[task_params.get('search_key') or task_params.get('company_name')]
|
|
|
|
> + company_code: 四要素之一,
|
|
|
|
> + credit_no: 四要素之一,
|
|
|
|
> + company_name_digest: 四要素之一,清洗辅助作用
|
|
|
|
> + company_major_type: 企业类型,供统计
|
|
|
|
> + n_company_status: 企业状态,供统计
|
|
|
|
|
|
|
|
> 详情
|
|
> 详情
|
|
>+ fid: QCC企业id
|
|
>+ fid: QCC企业id
|
|
>+ pid: QCC个人id
|
|
>+ pid: QCC个人id
|
|
|
|
|
|
> 对外测试
|
|
|
|
>- batch_date
|
|
|
|
>- batch_sequence_num
|
|
|
|
>- name: 法人名称
|
|
|
|
|
|
|
|
> 其他
|
|
|
|
>+ ic_flag
|
|
|
|
>+ change_date: 变更时间
|
|
|
|
>+ establish_date: 新增时间
|
|
|
|
|
|
|
|
## data_type说明
|
|
## data_type说明
|
|
<!--可能产生的data_type说明-->
|
|
<!--可能产生的data_type说明-->
|
... | @@ -185,6 +196,7 @@ equity_penetration_tyc_test (登录*对外测试) |
... | @@ -185,6 +196,7 @@ equity_penetration_tyc_test (登录*对外测试) |
|
+ detail_company: 公司详情页信息
|
|
+ detail_company: 公司详情页信息
|
|
+ detail_company_apph5: 公司详情页信息(无登录状态)
|
|
+ detail_company_apph5: 公司详情页信息(无登录状态)
|
|
+ detail_person: 个人详情页信息
|
|
+ detail_person: 个人详情页信息
|
|
|
|
+ actual_controller: 实际控制人数据
|
|
|
|
|
|
## 爬虫结果的超级数据
|
|
## 爬虫结果的超级数据
|
|
<!--包含所有字段的json数据,每个value都要有样例值-->
|
|
<!--包含所有字段的json数据,每个value都要有样例值-->
|
... | @@ -204,7 +216,7 @@ equity_penetration_tyc_test (登录*对外测试) |
... | @@ -204,7 +216,7 @@ equity_penetration_tyc_test (登录*对外测试) |
|
|
|
|
|
> [个人页详情结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/login/person)
|
|
> [个人页详情结果](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test/login/person)
|
|
|
|
|
|
### 对外测试
|
|
### 对外测试 (链接对应目录下已存多个维度样例结果)
|
|
> [qcc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/qcc)
|
|
> [qcc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/qcc)
|
|
|
|
|
|
> [tyc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/tyc)
|
|
> [tyc](http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration/scrapy_spiders/gravel_spiders/spiders/example/test_online/tyc)
|
... | | ... | |