基本信息
数据名称(中文)
律师事务所
数据英文名称
fund
采集网站(采集入口)
http://www.foundationcenter.org.cn/Search/Index?kws=%E8%A5%BF%E5%AE%89%E5%B8%82%E8%A5%BF%E5%A4%96%E9%99%84%E6%A0%A1%E6%95%99%E8%82%B2%E5%85%AC%E7%9B%8A%E6%85%88%E5%96%84%E5%9F%BA%E9%87%91%E4%BC%9A#
采集频率及采集策略
基本是一次性工作,暂不需要周期调度
存量更新策略
增量采集策略
爬虫名称以及平台
爬虫名称: cfc_spider
平台: 基金会中心网
责任人
袁波
代码地址
项目地址
http://192.168.109.110/granite/project-gravel/-/tree/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders
项目入口脚本
http://192.168.109.110/granite/project-gravel/-/blob/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders/cfc_spider.py
代码具体实现板块
http://192.168.109.110/granite/project-gravel/-/tree/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders/cfc_reqs
队列名称及队列地址
- redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
- redis port: 6379
- redis db: 7
- redis key: law_office
优先级队列说明
cfc_spider
说明:无特别处理,都是默认优先级10
任务来源
从库中导出的基金会列表以及credit_no
任务输入参数(样例)
{
"company_name": "河北省荷花公益基金会",
"credit_no": "531300003590613365"
}
任务样例
{
"company_name": "河北省荷花公益基金会",
"credit_no": "531300003590613365"
}
任务参数说明
{
"company_name": "河北省荷花公益基金会",
"credit_no": "531300003590613365"
}
说明: 任务直接到redis,不经过taskhub
data_type说明
detail: 某个详情页的数据
log: 日志记录
爬虫结果的超级数据
{
"data": {
"companyinfo_item": {
"company_name": "广东省侨心慈善基金会",
"credit_no": "53440000669850170D",
"fund_type": "非公募",
"chair_name": "杨昀",
"secretary_general": "黄荣森",
"authority": "广东省",
"establish_date": "2007年12月19日",
"phone": "020-87353419",
"web_url": "http://qxcf.southcn.com/",
"e_mail": "gdqxcsjjh@163.com",
"fax": "020-87351835",
"original_fund": "200万",
"company_address": "广东省广州市越秀区二沙岛海山街8号506房",
"business_scope": "管理使用海外、港澳、侨资企业捐款,开展专项或捐款人定向扶助项目。\n",
"aim": "创新侨心慈善,凝聚侨胞爱心。拓展扶贫济困,促进和谐发展。"
}
},
"http_code": 200,
"error_msg": "",
"task_result": 1000,
"data_type": "detail",
"spider_start_time": "2021-09-01 10:10:42.166",
"spider_end_time": "2021-09-01 10:10:42.957",
"task_params": {
"company_name": "广东省侨心慈善基金会",
"credit_no": "53440000669850170D"
},
"metadata": {},
"spider_name": "cfc_spider",
"spider_ip": "10.8.1.42",
"proxy_ip": "http://10.8.6.219:38080"
}
实际爬虫结果的数据结构
爬虫运行环境
scrapy
爬虫部署信息
10.8.6.62 3个进程
Taskhub地址
Taskhub调度规则说明
爬虫监控指标设计
爬虫待采集结果目录
/data/gravel_spiders/cfc_spider
数据归集
责任人
范召贤
数据归集方式
-
爬虫直接写kafka
-
爬虫写文件logstash采集
归集后存放目录
logstash配置文件名称
logstash文件采集type
数据归集的topic
ES日志索引及筛选条件
监控指标看板
数据保留策略
数据清洗
责任人
代码地址
部署地址
部署方法及说明
- [ ]
- [ ]
- [ ]
数据接收来源
数据存储表地址
- 数据库地址:
- 表名: