参数:
{
"key": "CN208414307U",
"url": "http://epub.cnipa.gov.cn/pic.jpg",
"bucket": "patent",
"real":0,
"proxy":1,
}
- key (str): 唯一标识 (必选)
- url (str): 图片链接 (必选)
- bucket (str):图片来源 (必选)
- proxy (int): 是否开启代理 ,0 不开启, 1 开启 ,默认为1
- real (int):是否实时返回结果 ,可以传 0,1,2,3 ,默认为0
- 0 表示不要求实时返回结果
- 1 表示要求实时返回储存url
- 2 表示要求实时返回图片内容和储存url
返回值:
{
"spider_name": "picture_download", //爬虫名称,str类型
"platform_name": "picture", //爬取平台的名称标识,str类型
"http_code": 200, //http返回码,int类型
"message": "successful", //爬取结束信息,str类型
"task_result":1000, //message对应的状态码, int类型
"bucket": "patent",
"parames":{
"spider_start_time": "2020-07-11 11:30:40", //爬取开始时间,str类型,格式为%Y-%m-%d %H:%M:%S
"spider_end_time": "2020-07-11 11:30:41", //爬取结束时间,str类型,格式为%Y-%m-%d %H:%M:%S
"spider_used_time": 10, //爬取耗时,秒数int类型
"server_host": "10.8.6.51",
"url": "http://epub.cnipa.gov.cn/pic.jpg",
"real":0,
"proxy":1,
},
"data":{
"key": "CN208414307U",
"bucket": "patent",
"src":"http://{host}/save/{bucket}/{key}/{uuid}.jpg", //图片储存后的url
"content":"" //图片二进制内容
}
}
-
message 与 task_result 对应关系:
message task_result successful 1000 成功 local save error 2001 本地存储图片文件错误 status_code error: {status} 3001 http状态码异常 request error 3002 requests请求异常 url unidentified 4001 图片url解析错误 parame error 4002 参数错误 decode error 5001 图片内容解码错误 basket error 5002 调用basket错误
目前计划返回结果储存为 json 文件(可结合文件下载服务);
文件目录格式为: /{bucket}/{date}/{uuid}.json
流程图:
graph LR
A[spider]
F[udms] --> A-->E[basket]
B[web] --> A
C[redis] --> F
D[post]--> B
E -->|real = 0 |K[.json] --> H[kibana]
E -->|real = 1,2 |G[response] --> K
A-->L[图片本地备份]