基本信息
数据名称(中文)
图片下载
数据英文名称
picture_download
采集网站(采集入口)
采集频率及采集策略
根据具体任务决定
存量更新策略
增量采集策略
爬虫
责任人
董雨峰
爬虫名称
picture_download
代码地址
队列名称及队列地址
- redis host: bdp-mq-001.redis.rds.aliyuncs.com
- redis port: 6379
- redis db: 7
- redis key: download_picture_url
优先级队列说明
任务来源
由使用方掉taskhub 接口输入
任务输入参数(样例)
"spider_name":"picture_download",
"key": li[1],
"url": li[2],
"bucket": "patent",
"proxy":1,
}```
### 任务样例
<!--注意是爬虫拿到的完整任务,而不仅仅是task_params-->
### 任务参数说明
<!--特有参数说明,通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
## data_type说明
<!--可能产生的data_type说明-->
## 爬虫结果的超级数据
<!--包含所有字段的json数据,每个value都要有样例值-->
```json
实际爬虫结果的数据结构
爬虫运行环境
爬虫部署信息
Taskhub地址
Taskhub调度规则说明
爬虫监控指标设计
爬虫待采集结果目录
数据归集
责任人
数据归集方式
-
爬虫直接写kafka
-
爬虫写文件logstash采集
归集后存放目录
logstash配置文件名称
logstash文件采集type
数据归集的topic
ES日志索引及筛选条件
监控指标看板
数据保留策略
数据清洗
责任人
代码地址
部署地址
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
数据存储表地址
- 数据库地址:
- 表名: