基本信息
数据名称(中文)
图片下载
数据英文名称
picture_download
采集网站(采集入口)
采集频率及采集策略
根据具体任务决定
存量更新策略
增量采集策略
爬虫
责任人
董雨峰
爬虫名称
picture_download
代码地址
队列名称及队列地址
- redis host: bdp-mq-001.redis.rds.aliyuncs.com
- redis port: 6379
- redis db: 7
- redis key: download_picture_url
优先级队列说明
任务来源
由使用方掉taskhub 接口输入
任务输入参数(样例)
{
"spider_name":"picture_download",
"key": "",
"url": "",
"bucket": "patent",
"proxy":1,
}
任务样例
{
"key": "",
"url": "",
"bucket": "patent",
"proxy":1,
}
任务参数说明
"key": 图片唯一键 "url": 图片url "bucket": 图片来源 "proxy": 是否使用代理,1为使用,0为不使用,默认为1
data_type说明
爬虫结果的超级数据
实际爬虫结果的数据结构
爬虫运行环境
爬虫部署信息
Taskhub地址
Taskhub调度规则说明
爬虫监控指标设计
爬虫待采集结果目录
数据归集
责任人
数据归集方式
-
爬虫直接写kafka
-
爬虫写文件logstash采集
归集后存放目录
logstash配置文件名称
logstash文件采集type
数据归集的topic
ES日志索引及筛选条件
监控指标看板
数据保留策略
数据清洗
责任人
代码地址
部署地址
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
数据存储表地址
- 数据库地址:
- 表名: