基本信息
社会组织团体
gravel_spiders/spiders/social_organ 通过提交任务参数中的credit_no进行搜索。
数据名称(中文)
社会组织团体
数据英文名称
social_organ
采集网站(采集入口)
官网PC端入口:
https://datasearch.chinanpo.gov.cn/gsxt/newList
采集文件存放路径:
/data/gravel_spiders/social_organ
采集频率及采集策略
存量更新策略
db_host: bdp-rds-103.mysql.rds.aliyuncs.com
db_name: bdp_ic
db_user: bdp
db_password:
数据库表名:tb_ic_url_social_organ_qcc
全量的主体信息作为搜索条件
逐条更新
目前全量更新一轮即可.
增量采集策略
1.新成立的主体
2.补充的主体
爬虫
社会组织 social_organ
责任人
蒋家升
爬虫名称
social_organ
代码地址
项目地址:http://192.168.109.110/granite/project-gravel/-/tree/develop_social_organ/scrapy_spiders/gravel_spiders/spiders/social_organ
队列名称及队列地址
- redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
- redis port: 6379
- redis db: 7
- redis key:
- social_organ
优先级队列说明
- social_organ 支持队列优先级
任务来源
taskhub 全量主体信息
任务输入参数(样例) 其中credit_no、company_name必需有其中一个
{
"company_name": "北京市东城区混沌创新学校",
"credit_no": "52110101400789098K"
}
任务样例
{
"company_name": "北京市东城区混沌创新学校",
"credit_no": "52110101400789098K"
}
任务参数说明
{
"company_name": "北京市东城区混沌创新学校", -- 任务对应社会组织名称
"credit_no": "52110101400789098K" -- 任务对应社会组织名称
}
data_type说明
detail: 详情信息
爬虫结果的超级数据
{
"http_code": 200,
"error_msg": "",
"task_result": 1000,
"data_type": "detail",
"spider_name": "social_organ",
"task_type": "社会组织",
"spider_start_time": "2021-06-25 09:23:53.251",
"spider_end_time": "2021-06-25 09:23:53",
"task_params": {
"province": "BJ",
"company_name": "北京市东城区混沌创新学校",
"credit_no": "52110101400789098K"
},
"metadata": {},
"companyinfo_item": {
"area_code": "110000",
"authority": "北京市东城区民政局",
"business_scope": "外语, 对外汉语, 岗位培训等",
"capital": "50万元",
"company_address": "北京市东城区广渠门内大街35号二层FGY-202-204A",
"company_name": "北京市东城区励步摩比培训学校",
"company_status": "正常",
"company_type": "民办非企业单位",
"create_time": "2021-06-25 09:23:53",
"credit_no": "52110101400789098K",
"data_source": 1,
"data_status": 1,
"establish_date": "2001-04-28",
"illegal_status": 0,
"is_charity": 0,
"is_industry_commerce": 0,
"is_pub_fundraise": 0,
"is_volunte_service": 0,
"lastupdatetime": "2021-06-25 09:23:53",
"legal_person": "曹伟",
"legal_person_caption": "法定代表人",
"oper_status": 0,
"operation_enddate": "2024-05-31",
"operation_startdate": "2020-05-31",
"organizer": "北京市东城区教育委员会",
"province": "北京市",
"province_code": 1013,
"province_short": "BJ",
"search_time": "2021-06-25 09:23:53"
}
}
实际爬虫结果的数据结构
{
"http_code": 200,
"error_msg": "",
"task_result": 1000,
"data_type": "detail",
"spider_name": "social_organ",
"task_type": "社会组织",
"spider_start_time": "2021-06-25 09:23:53.251",
"spider_end_time": "2021-06-25 09:23:53",
"task_params": {
"province": "BJ",
"company_name": "北京市东城区混沌创新学校",
"credit_no": "52110101400789098K"
},
"metadata": {},
"companyinfo_item": {
"area_code": "110000", # 行政区划代码
"authority": "北京市东城区民政局", # 登记管理机关
"business_scope": "外语, 对外汉语, 岗位培训等", # 经营范围
"capital": "50万元", # 注册资本
"company_address": "北京市东城区广渠门内大街35号二层FGY-202-204A", # 社会组织住所
"company_name": "北京市东城区励步摩比培训学校", # 社会组织名称
"company_status": "正常", # 单位状态: 正常,注销,撤销
"company_type": "民办非企业单位", # 社会组织类型
"create_time": "2021-06-25 09:23:53",
"credit_no": "52110101400789098K", # 统一社会信用代码
"data_source": 1,
"data_status": 1,
"establish_date": "2001-04-28", # 成立日期
"illegal_status": 0, # 严重违法失信状态(0正常,1异常)
"is_charity": 0, # 慈善组织 1是 0否
"is_industry_commerce": 0, # 行业协会商会 1是 0否
"is_pub_fundraise": 0, # 公开募捐资格 1是 0否
"is_volunte_service": 0, # 志愿服务组织 1是 0否
"lastupdatetime": "2021-06-25 09:23:53",
"legal_person": "曹伟", # 法定代表人姓名
"legal_person_caption": "法定代表人", # 头衔(法定代表人)
"oper_status": 0, # 经营异常状态(0正常,1异常)
"operation_enddate": "2024-05-31", # 经营结束日期
"operation_startdate": "2020-05-31", # 经营开始日期
"organizer": "北京市东城区教育委员会", # 业务主管单位/党建工作机构
"province": "北京市", # 省份(中文名称)
"province_code": 1013, # 省份(数字编号)
"province_short": "BJ", # 省份(英文缩写)
"search_time": "2021-06-25 09:23:53"
}
}
爬虫运行环境
scrapy
爬虫部署信息
project: social_organ_spiders,
spider: social_organ
爬虫机器:10.8.6.51
进程数:5
Taskhub相关
任务提交
提交任务地址: http://10.8.6.222:8526/task/
任务提交示例:
curl -L -X POST 'http://10.8.6.222:8526/task/' -H 'Content-Type: application/json' --data-raw '{"spider_name": "social_organ","company_name": "北京市东城区混沌创新学校","credit_no": "52110101400789098K",}'
相当于task_params再加入"spider_name": "social_organ"
Taskhub重试调度规则说明
task_result=1000 # 正常获取到详情任务
task_result=1101 # 无结果信息
task_result=9101 # 超时错误,需要进行重试,目前重试5次
task_result=8000 # 参数错误
爬虫监控指标设计
(先观察,待补充)
索引:
监控频率:
监控起止时间:
报警条件:
报警群:
报警内容:
数据归集
责任人
数据归集方式
-
爬虫直接写kafka
-
爬虫写文件logstash采集
爬虫结果目录
归集后存放目录
logstash配置文件名称
logstash文件采集type
数据归集的topic
topic_id => ""
ES日志索引及筛选条件
监控指标看板
数据保留策略
数据清洗
责任人
代码地址
部署地址
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
数据存储表地址
- 数据库地址:10.8.6.87:3801
- 表名:utn_special.special_social_organ