郭本江 · ae922f0f
Show whitespace changes
Inline Side-by-side

Showing with 360 additions and 0 deletions

data_stream/social_organ.md data_stream/social_organ.md +360 -0

No files found.
--- a/data_stream/social_organ.md
+++ b/data_stream/social_organ.md
+# **基本信息**
+```buildoutcfg
+社会组织团体
+gravel_spiders/spiders/social_organ 通过提交任务参数中的credit_no进行搜索。
+```
+
+
+## 数据名称（中文）
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+### 
+```buildoutcfg
+社会组织团体
+```
+
+## 数据英文名称
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+```buildoutcfg
+social_organ
+```
+
+## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+```buildoutcfg
+官网PC端入口:
+https://datasearch.chinanpo.gov.cn/gsxt/newList
+采集文件存放路径：
+/data/enterprise_spider_data/social_organ
+```
+
+## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+
+### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+```buildoutcfg
+db_host: bdp-rds-103.mysql.rds.aliyuncs.com
+db_name: bdp_ic
+db_user: bdp
+db_password: 
+数据库表名:tb_ic_url_social_organ_qcc
+全量的主体信息作为搜索条件
+逐条更新
+目前全量更新一轮即可.
+
+```
+
+
+### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+```buildoutcfg
+1.新成立的主体
+2.补充的主体
+```
+
+---
+
+# **爬虫**
+```buildoutcfg
+社会组织 social_organ
+```
+
+
+## 责任人
+```buildoutcfg
+郭本江
+```
+
+## 爬虫名称
+```buildoutcfg
+social_organ
+```
+
+<!--spider_name-->
+
+## 代码地址
+```buildoutcfg
+项目地址:http://192.168.109.110/granite/project-gravel/-/tree/develop_social_organ/scrapy_spiders/gravel_spiders/spiders/social_organ
+```
+
+## 队列名称及队列地址
+<!--redis host port db key 优先级说明-->
+-
+* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+* redis port: 6379
+* redis db: 7
+* redis key: 
+    * social_organ
+
+### 优先级队列说明
+* social_organ 支持队列优先级
+
+## 任务来源
+<!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+```buildoutcfg
+taskhub 全量主体信息
+```
+
+## 任务输入参数（样例）  其中credit_no、province、company_name为必需
+```json
+{
+	"province": "BJ",
+	"company_name": "北京市东城区混沌创新学校",
+	"credit_no": "52110101400789098K"
+}
+```
+
+### 任务样例
+<!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+```buildoutcfg
+{
+	"province": "BJ",
+	"company_name": "北京市东城区混沌创新学校",
+	"credit_no": "52110101400789098K"
+}
+```
+
+### 任务参数说明
+<!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+```json
+{
+	"province": "BJ",                           -- 任务对应省份
+	"company_name": "北京市东城区混沌创新学校", -- 任务对应社会组织名称
+	"credit_no": "52110101400789098K"           -- 任务对应社会组织名称
+}
+```
+
+## data_type说明
+<!--可能产生的data_type说明-->
+```buildoutcfg
+detail: 详情信息
+```
+
+## 爬虫结果的超级数据
+<!--包含所有字段的json数据，每个value都要有样例值-->
+```buildoutcfg
+{
+    "spider_name": "social_organ",
+    "task_type": "社会组织",
+    "spider_start_time": "2021-06-25 09:23:53.251",
+    "spider_end_time": "2021-06-25 09:23:53",
+    "task_result": 1000,
+    "task_params": {
+        "province": "BJ",
+        "company_name": "北京市东城区混沌创新学校",
+        "credit_no": "52110101400789098K"
+    },
+    "companyinfo_item": {
+        "area_code": "110000",
+        "authority": "北京市东城区民政局",
+        "business_scope": "外语, 对外汉语, 岗位培训等",
+        "capital": "50万元",
+        "company_address": "北京市东城区广渠门内大街35号二层FGY-202-204A",
+        "company_name": "北京市东城区励步摩比培训学校",
+        "company_status": "正常",
+        "company_type": "民办非企业单位",
+        "create_time": "2021-06-25 09:23:53",
+        "credit_no": "52110101400789098K",
+        "data_source": 1,
+        "data_status": 1,
+        "establish_date": "2001-04-28",
+        "illegal_status": 0,
+        "is_charity": 0,
+        "is_industry_commerce": 0,
+        "is_pub_fundraise": 0,
+        "is_volunte_service": 0,
+        "lastupdatetime": "2021-06-25 09:23:53",
+        "legal_person": "曹伟",
+        "legal_person_caption": "法定代表人",
+        "oper_status": 0,
+        "operation_enddate": "2024-05-31",
+        "operation_startdate": "2020-05-31",
+        "organizer": "北京市东城区教育委员会",
+        "province": "北京市",
+        "province_code": 1013,
+        "province_short": "BJ",
+        "search_time": "2021-06-25 09:23:53"
+    }
+}
+
+```
+
+## 实际爬虫结果的数据结构
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+```buildoutcfg
+{
+    "spider_name": "social_organ",
+    "task_type": "社会组织",
+    "spider_start_time": "2021-06-25 09:23:53.251",
+    "spider_end_time": "2021-06-25 09:23:53",
+    "task_result": 1000,
+    "task_params": {
+        "province": "BJ",
+        "company_name": "北京市东城区混沌创新学校",
+        "credit_no": "52110101400789098K"
+    },
+    "companyinfo_item": {
+        "area_code": "110000",                # 行政区划代码
+        "authority": "北京市东城区民政局",    # 登记管理机关
+        "business_scope": "外语, 对外汉语, 岗位培训等", # 经营范围
+        "capital": "50万元",                  # 注册资本
+        "company_address": "北京市东城区广渠门内大街35号二层FGY-202-204A",  # 社会组织住所
+        "company_name": "北京市东城区励步摩比培训学校", # 社会组织名称
+        "company_status": "正常",             # 单位状态: 正常,注销,撤销
+        "company_type": "民办非企业单位",     # 社会组织类型
+        "create_time": "2021-06-25 09:23:53",
+        "credit_no": "52110101400789098K",    # 统一社会信用代码
+        "data_source": 1,
+        "data_status": 1,
+        "establish_date": "2001-04-28",       # 成立日期
+        "illegal_status": 0,                  # 严重违法失信状态（0正常，1异常）
+        "is_charity": 0,                      # 慈善组织 1是 0否
+        "is_industry_commerce": 0,            # 
+        "is_pub_fundraise": 0,                # 公开募捐资格  1是 0否
+        "is_volunte_service": 0,              # 志愿服务组织  1是 0否
+        "lastupdatetime": "2021-06-25 09:23:53",
+        "legal_person": "曹伟",               # 法定代表人姓名
+        "legal_person_caption": "法定代表人", # 头衔（法定代表人）
+        "oper_status": 0,                     # 经营异常状态（0正常，1异常）
+        "operation_enddate": "2024-05-31",    # 经营结束日期
+        "operation_startdate": "2020-05-31",  # 经营开始日期
+        "organizer": "北京市东城区教育委员会",# 业务主管单位/党建工作机构
+        "province": "北京市",                 # 省份（中文名称）
+        "province_code": 1013,                # 省份（数字编号）
+        "province_short": "BJ",               # 省份（英文缩写）
+        "search_time": "2021-06-25 09:23:53"
+    }
+}
+```
+
+## 爬虫运行环境
+<!--udm模块？scrapy？或其他-->
+```buildoutcfg
+scrapy
+```
+
+
+## 爬虫部署信息
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+```buildoutcfg
+project: social_organ_spiders,
+spider: social_organ 
+爬虫机器：10.8.6.51
+进程数:15
+```
+
+
+## Taskhub地址
+```buildoutcfg
+提交任务地址: http://10.8.6.222:18518/task/
+代码编写地址: 
+```
+
+## Taskhub调度规则说明
+```buildoutcfg
+task_result=1000    # 正常获取到详情任务
+task_result=1101    # 无结果信息
+task_result=9101    # 超时错误，需要进行重试，目前重试5次
+task_result=8000    # 参数错误
+```
+
+
+## 爬虫监控指标设计
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+```buildoutcfg
+(先观察，待补充)
+索引: 
+监控频率: 
+监控起止时间: 
+报警条件: 
+报警群:  
+报警内容: 
+
+```
+
+---
+
+# **数据归集**
+
+## 责任人
+```html
+范召贤
+```
+
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [x] 爬虫写文件logstash采集
+
+## 爬虫结果目录
+```html
+/data/enterprise_spider_data/social_organ
+```
+
+## 归集后存放目录
+```html
+```
+
+## logstash配置文件名称
+```html
+```
+
+## logstash文件采集type
+```html
+type=>"social_organ"
+```
+
+## 数据归集的topic
+```
+topic_id => ""
+```
+
+## ES日志索引及筛选条件
+```html
+index => "collie-ic-crawler-meta-%{log_date}"
+{
+  "query": {
+    "match": {
+      "spider_name.keyword": {
+        "query": "social_organ",
+        "type": "phrase"
+      }
+    }
+  }
+}
+```
+
+## 监控指标看板
+
+## 数据保留策略
+
+---
+
+# **数据清洗**
+
+## 责任人
+
+
+## 代码地址
+
+
+## 部署地址
+<!--机器及线上代码地址-->
+
+
+## 部署方法及说明
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+- [ ] crontab + data_pump
+- [ ] supervisor + data_pump
+- [ ] supervisor + consumer
+
+## 数据接收来源
+<!--来源于kafka还是归集的文件、topic的group？-->
+
+
+## 数据存储表地址
+
+* 数据库地址：
+* 表名：
\ No newline at end of file