董雨峰 · fdd486d2
Hide whitespace changes
Inline Side-by-side

Showing with 146 additions and 69 deletions

data_stream/picture_download.md.md data_stream/picture_download.md.md +146 -69

No files found.
--- a/data_stream/picture_download.md.md
+++ b/data_stream/picture_download.md.md
-## 	参数：
+# **基本信息**

-```json
-{
-    "key": "CN208414307U", 
-    "url": "http://epub.cnipa.gov.cn/pic.jpg", 	
-    "bucket": "patent",
-    "proxy":1,
-}
-```
+## 数据名称（中文）
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+图片下载
+
+
+## 数据英文名称
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+picture_download
+
+
+## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+
+
+
+## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+根据具体任务决定
+
+### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+
+
+### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+
+---
+
+# **爬虫**
+
+## 责任人
+董雨峰
+
+
+## 爬虫名称
+<!--spider_name-->

-* **key** (str): 唯一标识  (必选)
-* **url** (str): 图片链接  (必选)
-* **bucket** (str)：图片来源  (必选)
-* proxy (int):  是否开启代理 ，0 不开启， 1 开启 ，默认为1
-* real (int)：是否实时返回结果 ，可以传 0,1,2,3 ，默认为0
-  * 0  表示不要求实时返回结果
-  * 1  表示要求实时返回储存url
-  * 2  表示要求实时返回图片内容和储存url
-  
+## 代码地址
+<!--爬虫的具体代码地址，不是代码所在的项目，要具体到模块或脚本文件-->

-## 	返回值：
+## 队列名称及队列地址
+<!--redis host port db key 优先级说明-->
+
+* redis host:
+* redis port:
+* redis db:
+* redis key:
+
+### 优先级队列说明
+
+
+## 任务来源
+<!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+
+
+## 任务输入参数（样例）
+
+### 任务样例
+<!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+
+
+### 任务参数说明
+<!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+
+
+## data_type说明
+<!--可能产生的data_type说明-->
+
+
+## 爬虫结果的超级数据
+<!--包含所有字段的json数据，每个value都要有样例值-->

 ```json
-{
-	"spider_name": "picture_download",
-	"platform_name": "picture",
-	"http_code": 200,
-	"error_msg": "successful",
-	"task_result": 1000,
-	"data_type": "",
-	"bucket": "patent",
-	"spider_start_time": "2021-10-13 15:48:56",
-	"spider_end_time": "2021-10-13 15:49:08",
-	"spider_used_time_ms": 12,
-	"spider_ip": "10.8.6.30",
-	"task_params": {
-		"key": "CN204671179U",
-		"url": "http://qxb-img.oss-cn-hangzhou.aliyuncs.com/dlpatents/009c730db9230747893f2356324376ba.jpg",
-		"bucket": "patent"
-	},
-	"metadata": {},
-	"data": {
-		"key": "CN204671179U",
-		"bucket": "patent",
-		"store_path": "patent/ff/b1/d0/ffb1d035d18b1d8a37ad2ac54218adb9.jpg",
-		"content": "",
-		"basket_host": "10.8.8.59:31010"
-	}
-}
+
 ```

-* message 与 task_result 对应关系：
+## 实际爬虫结果的数据结构
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+
+
+## 爬虫运行环境
+<!--udm模块？scrapy？或其他-->
+
+
+## 爬虫部署信息
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+
+
+
+## Taskhub地址
+
+
+## Taskhub调度规则说明
+
+
+## 爬虫监控指标设计
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+
+## 爬虫待采集结果目录
+
+---
+
+# **数据归集**
+
+## 责任人
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [x] 爬虫写文件logstash采集
+
+
+## 归集后存放目录
+
+
+## logstash配置文件名称
+
+
+## logstash文件采集type
+
+
+## 数据归集的topic
+
+
+## ES日志索引及筛选条件
+
+
+## 监控指标看板
+
+
+## 数据保留策略
+
+
+---
+
+# **数据清洗**

-  | message                     | task_result |                  |
-  | --------------------------- | ----------- | ---------------- |
-  | successful                  | 1000        | 成功             |
-  | status_code error: {status} | 9110        | http状态码异常   |
-  | request error               | 9100        | requests请求异常        |
-  | url unidentified            | 7000        | 图片url解析错误  |
-  | params error                | 7000        | 参数错误         |
-  | decode error                | 9300        | 图片内容解码错误 |
-  | basket error                  | 6000        | 调用basket错误         |
+## 责任人


+## 代码地址

-> 目前计划返回结果储存为 json 文件（可结合文件下载服务）；
->
-> 文件目录格式为： /{bucket}/{date}/{uuid}.json

+## 部署地址
+<!--机器及线上代码地址-->


-##  流程图：
+## 部署方法及说明
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+- [ ] crontab + data_pump
+- [ ] supervisor + data_pump
+- [ ] supervisor + consumer

-```mermaid
-graph LR
-A[spider]
-F[udms] --> A-->E[basket]
-B[web] --> A
-C[redis]  --> F
-D[post]--> B
-E -->|real = 0 |K[.json] --> H[kibana]
-E -->|real = 1,2 |G[response] --> K
+## 数据接收来源
+<!--来源于kafka还是归集的文件、topic的group？-->


+## 数据存储表地址

-```
\ No newline at end of file
+* 数据库地址：
+* 表名：
\ No newline at end of file