基本信息
数据名称(中文)
高新技术企业
数据英文名称
innocom
采集网站(采集入口)
http://www.innocom.gov.cn/web-comment/extend/comment/queryNew
采集频率及采集策略
存量更新策略
每次重新刷一边
增量采集策略
新增数据来源于收集
爬虫
责任人
章一锋
爬虫名称
innocom
代码地址
http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/scrapy_spiders/gravel_spiders/spiders/inno_com.py
队列名称及队列地址
* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
* redis port: 6379
* redis db: 7
* redis key: innocom
优先级队列说明
任务来源
任务数据:http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/app_innocom/data_dump/company_list.txt
导入任务配置文件路径:http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/app_innocom/data_dump/innocom.yml
任务输入参数(样例)
任务样例
{
"company_name": "拔萃视觉服务旗舰店", #公司名称
"platform_shop_id": "91110109MA00G83K9Y", #统一信用代码
}
任务参数说明
data_type说明
detail: 详情
爬虫结果的超级数据
{
"data": [
{
"cognizanceOrgan": "北京市认定机构办公室",
"effeTimeEnd": "2021年11月30日",
"entName": "北京立言科技有限公司",
"effeTimeBegin": "2018年11月30日",
"corCode": "91110108MA004FNG7Q",
"state": "有效",
"certificateNum": "GR201811008154"
}
],
"http_code": 200,
"error_msg": "",
"task_result": 1000,
"data_type": "detail",
"spider_start_time": "2021-10-20 14:23:35.792",
"spider_end_time": "2021-10-20 14:23:38",
"task_params": {
"company_name": "北京立言科技有限公司",
"credit_no": "91110108MA004FNG7Q"
},
"metadata": {},
"spider_name": "innocom",
"spider_ip": "10.8.6.51"
}
实际爬虫结果的数据结构
爬虫运行环境
scrapy
爬虫部署信息
爬虫运行机器:10.8.6.51
进程数:30
项目名称:innocom
任务提交机器:10.8.6.63
任务提交方式:crontab
Taskhub地址
http://tech.pingansec.com/granite/project-taskhub/-/blob/master/taskhub/config/gravel/config.d/innocom.yaml
Taskhub调度规则说明
task_result为以下值时被过滤:
- 1000
- 1101
- 1102
- 2001
- 7000
- 9300
其他值的任务都会被放入队列
爬虫监控指标设计
kinaba 爬虫运行结果查看
https://es-cn-4591blu580004eavf.kibana.elasticsearch.aliyuncs.com:5601/goto/c6df8729810014dccabb1c87cbd3a8cb
爬虫待采集结果目录
/data/gravel_spiders/innocom
数据归集
责任人
数据归集方式
-
爬虫直接写kafka
-
[ x ] 爬虫写文件logstash采集
general-taxpayer
gravel-spider-data* spider_name is innocom
监控指标看板
数据保留策略
数据清洗
责任人
代码地址
部署地址
部署方法及说明
-
crontab + data_pump
-
supervisor + data_pump
-
supervisor + consumer
- 数据库地址:
- 表名: