基本信息
数据爬取自执行公开官网
数据名称(中文)
询价评估信息
数据英文名称
risk_evaluate
采集网站(采集入口)
网站数据接口:
http://zxgk.court.gov.cn/ccpg/index_form_cccz03
采集频率及采集策略
存量更新策略
增量采集策略
爬虫
责任人
爬虫名称
代码地址
队列名称及队列地址
- redis host:
- redis port: 6379
- redis db:
- redis key:
任务来源
任务输入参数(样例)
任务样例
任务参数说明
实际爬虫结果的数据结构
爬虫运行环境
爬虫部署信息
Taskhub地址
Taskhub调度规则说明
爬虫监控指标设计
数据归集
责任人
数据归集方式
-
爬虫直接写kafka
-
爬虫写文件logstash采集
爬虫结果目录
归集后存放目录
logstash配置文件名称
logstash文件采集type
数据归集的topic
ES日志索引及筛选条件
监控指标看板
数据保留策略
数据清洗
责任人
刘治强
部署地址
机器:10.8.6.18
代码地址:http://tech.pingansec.com/granite/project-collie-app/-/blob/master/app_risk/data_pump/risk_evaluate.yml
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
爬虫数据的ods表
* 数据库地址:bdp-ext.rwlb.rds.aliyuncs.com bdp_risk
* 表名:risk_original_evaluate_org,risk_original_evaluate_result
数据存储表地址
- 数据库地址:bdp-rds-001.mysql.rds.aliyuncs.com utn_ng_risk
- 表名:
- risk_evaluate_org
- risk_evaluate_org_list
- risk_evaluate_result
- risk_evaluate_result_list