Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
  • fund

Last edited by 王鹏举 Sep 08, 2021
Page history
This is an old version of this page. You can view the most recent version or browse the history.

fund

基本信息

数据名称(中文)

基金会

数据英文名称

fund

采集网站(采集入口)

http://www.foundationcenter.org.cn/Search/Index?kws=%E8%A5%BF%E5%AE%89%E5%B8%82%E8%A5%BF%E5%A4%96%E9%99%84%E6%A0%A1%E6%95%99%E8%82%B2%E5%85%AC%E7%9B%8A%E6%85%88%E5%96%84%E5%9F%BA%E9%87%91%E4%BC%9A#

采集频率及采集策略

基本是一次性工作,暂不需要周期调度

存量更新策略

增量采集策略


爬虫名称以及平台

爬虫名称: cfc_spider
平台: 基金会中心网

责任人

袁波

代码地址

项目地址
http://192.168.109.110/granite/project-gravel/-/tree/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders

项目入口脚本
http://192.168.109.110/granite/project-gravel/-/blob/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders/cfc_spider.py

代码具体实现板块
http://192.168.109.110/granite/project-gravel/-/tree/develop_adsearch_20210517/scrapy_spiders/gravel_spiders/spiders/cfc_reqs

队列名称及队列地址

  • redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
  • redis port: 6379
  • redis db: 7
  • redis key: law_office

优先级队列说明

cfc_spider
说明:无特别处理,都是默认优先级10

任务来源

从库中导出的基金会列表以及credit_no

任务输入参数(样例)

任务样例

{
  "company_name": "河北省荷花公益基金会",
  "credit_no": "531300003590613365"
}

任务参数说明

data_type说明

detail: 某个详情页的数据
log: 日志记录

爬虫结果的超级数据

{
	"data": {
		"companyinfo_item": {
			"company_name": "广东省侨心慈善基金会",
			"credit_no": "53440000669850170D",
			"fund_type": "非公募",
			"chair_name": "杨昀",
			"secretary_general": "黄荣森",
			"authority": "广东省",
			"establish_date": "2007年12月19日",
			"phone": "020-87353419",
			"web_url": "http://qxcf.southcn.com/",
			"e_mail": "gdqxcsjjh@163.com",
			"fax": "020-87351835",
			"original_fund": "200万",
			"company_address": "广东省广州市越秀区二沙岛海山街8号506房",
			"business_scope": "管理使用海外、港澳、侨资企业捐款,开展专项或捐款人定向扶助项目。\n",
			"aim": "创新侨心慈善,凝聚侨胞爱心。拓展扶贫济困,促进和谐发展。"
		}
	},
	"http_code": 200,
	"error_msg": "",
	"task_result": 1000,
	"data_type": "detail",
	"spider_start_time": "2021-09-01 10:10:42.166",
	"spider_end_time": "2021-09-01 10:10:42.957",
	"task_params": {
		"company_name": "广东省侨心慈善基金会",
		"credit_no": "53440000669850170D"
	},
	"metadata": {},
	"spider_name": "cfc_spider",
	"spider_ip": "10.8.1.42",
	"proxy_ip": "http://10.8.6.219:38080"
}

实际爬虫结果的数据结构

爬虫运行环境

scrapy

爬虫部署信息

10.8.6.62   3个进程

Taskhub地址

Taskhub调度规则说明

爬虫监控指标设计

爬虫待采集结果目录

/data/gravel_spiders/cfc_spider

数据归集

责任人

范召贤

数据归集方式

  • 爬虫直接写kafka

  • 爬虫写文件logstash采集

归集后存放目录

10.8.6.227
/data2/grvael_spider_result/cfc_spider

logstash配置文件名称

# kafka
project-deploy/logstash/10.8.6.246/conf.d/collie_spider_data_to_kfk.conf
# es
project-deploy/logstash/10.8.6.229/conf.d/gravel/gravel_spider_to_es.conf

logstash文件采集type

cfc_spider

数据归集的topic

general-taxpayer

ES日志索引及筛选条件

public-company-spider-data-*

监控指标看板

数据保留策略


数据清洗

责任人

代码地址

部署地址

部署方法及说明

  • [ ]
  • [ ]
  • [ ]

数据接收来源

数据存储表地址

  • 数据库地址:
  • 表名:
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages