基本信息
字段说明
class ItjuziCompanyItem(Item):
"""
IT桔子-公司信息
"""
company_id = Field() # 公司id
company_short_name = Field() # 公司简称
finance_rounds = Field() # 融资轮次
one_word_desc = Field() # 一句话介绍
logo_url = Field() # 公司图标url
weibo = Field() # 微博
wechat_official_account = Field() # 微信公众号
official_website = Field() # 官网
phone = Field() # 联系电话
email = Field() # 联系邮箱
office_address = Field() # 公司地址
development_stage = Field() # 公司发展阶段
company_status = Field() # 公司状态
finance_demand = Field() # 公司融资需求
primary_industry = Field() # 一级行业
secondary_industry = Field() # 二级行业
industry_label = Field() # 公司标签
company_desc = Field() # 公司介绍
company_ic_fullname = Field() # 公司工商全称
office_province = Field() # 公司所在省份
office_city = Field() # 公司所在地级市
establish_date = Field() # 公司成立日期
team_scale = Field() # 团队规模
related_org_list = Field() # 相关组织列表
product_list = Field() # 产品列表
member_list = Field() # 团队信息列表
class ItjuziCompanyMembersItem(Item):
"""
IT桔子-公司团队信息
"""
rank = Field() # 页面展示id
member_id = Field() # 桔子人员id
name = Field() # 姓名
logo_url = Field() # 头像url
company_id = Field() # 公司id
company_type = Field() # 公司类型
company_short_name = Field() # 公司简称
position = Field() # 任职职位
is_demission = Field() # 是否已离职
individual_resume = Field() # 个人简介
class CompanyRelatedOrg(Item):
"""
公司关联的组织机构
"""
related_org_id = Field() # 相关组织id
related_org_type = Field() # 相关组织类型
related_org_short_name = Field() # 相关组织简称
related_org_ic_fullname = Field() # 相关组织工商全称
related_org_logo_url = Field() # 相关组织图标url
class CompanyProductItem(Item):
"""
公司-产品信息
"""
product_name = Field() # 产品名称
product_desc = Field() # 产品描述
数据名称(中文)
公司
数据英文名称
itjuzi_company
采集网站(采集入口)
详情页: https://www.itjuzi.com/company/1
采集频率及采集策略
存量更新策略
https://www.itjuzi.com/company/35985
详情页链接从1~39002402 ,后续累加
预计有不到20w个公司
增量采集策略
待更新
爬虫
itjuzi_company
责任人
袁波
爬虫名称
itjuzi_company
代码地址
项目地址:http://192.168.109.110/granite/project-gravel/-/tree/itjuzi_20211119/scrapy_spiders/gravel_spiders/spiders/itjuzi_reqs
## 队列名称及队列地址
<!--redis host port db key 优先级说明-->
-
* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
* redis port: 6379
* redis db: 7
* redis key:
* itjuzi_company:10
任务输入参数(样例)
{
"platform": "itjuzi_company",
"invest_event_id": "22568"
}
data_type说明
data_type: detail # 结果数据类型
实际爬虫结果的数据结构
{
"data": [{
"company_detail": {
"company_id": "35985",
"company_short_name": "摩拜单车",
"finance_rounds": "已被收购",
"one_word_desc": "共享自行车服务提供商",
"logo_url": "https://cdn.itjuzi.com/images/7678bf2f47323d846e7acfc4e6917ec6.jpg",
"weibo": "https://weibo.com/u/6038290538",
"wechat_official_account": "Mobike_sharing_bike",
"official_website": "http://www.mobike.com/",
"phone": ["400-811-7799"],
"email": ["bd@mobike.com"],
"office_address": ["北京市海淀区学院路甲5号2幢平房B北-3042室"],
"development_stage": "成长发展期",
"company_status": "运营中",
"finance_demand": "不需要融资",
"primary_industry": ["汽车交通"],
"secondary_industry": ["交通出行"],
"industry_label": ["自行车", "交通出行", "共享单车", "共享出行", "出行服务", "行", "腾讯系", "Google系", "连续获投", "这些公司和摩拜单车、OFO一样提供共享单车服务", "腾讯在2016年的投资事件", "创新工场在2016年的投资事件", "科技部公布2017年独角兽名单", "16位华人投资家的“点睛之笔”"],
"company_desc": "摩拜单车是一家互联网短途出行解决方案,是无桩借还车模式的智能硬件,旨在让用户无需办卡,只需下载摩拜单车App完成注册、扫码解锁、支付、还车的全过程服务。2020年12月14日晚,摩拜App、摩拜微信小程序将停止服务和运营。目前,摩拜单车已接入美团App。",
"company_ic_fullname": "北京摩拜科技有限公司",
"office_province": "北京",
"office_city": "海淀区",
"establish_date": "2015-1",
"team_scale": "300-1000",
"related_org_list": [{
"related_org_id": "6968",
"related_org_type": "investfirm",
"related_org_short_name": "蔚来资本",
"related_org_ic_fullname": "",
"related_org_logo_url": "https://cdn.itjuzi.com/images/959042aff42212a1483fb5cf55e020ff.jpg"
}, {
"related_org_id": "32899105",
"related_org_type": "company",
"related_org_short_name": "武汉蔚能电池",
"related_org_ic_fullname": "武汉蔚能电池资产有限公司",
"related_org_logo_url": "https://cdn.itjuzi.com/images/33f55e4aeb3f155f5d479a0c931d3921.png"
}, {
"related_org_id": "35077632",
"related_org_type": "company",
"related_org_short_name": "蔚来驱动科技",
"related_org_ic_fullname": "蔚然(南京)动力科技有限公司",
"related_org_logo_url": "https://cdn.itjuzi.com/images/9cd832ff7307971c3edd340365979b22.png"
}],
"product_list": [{
"product_name": "摩拜单车",
"product_desc": "帮助每一个人更便捷地完成城市短途出行"
}, {
"product_name": "摩拜单车中国",
"product_desc": "摩拜单车各种好玩的消息,都能在这里找到。 如果有单车使用过程中的问题,请找对应的城市号报障或拨打我们的客服热线哦~"
}],
"member_list": [{
"rank": 1,
"member_id": "13905",
"company_id": "35985",
"company_type": "company",
"company_short_name": "摩拜单车",
"is_demission": "在职",
"name": "在职",
"position": "总裁",
"individual_resume": "胡玮炜,摩拜单车联合创始人、总裁,前GeekCar极客汽车创始人、CEO,资深媒体人。行走于汽车江湖多年,职业贯穿汽车厂商、财经类报纸、都市类媒体、网络媒体和一线杂志,以灵秀气质、犀利笔锋和上下求索的精神见长。曾服务于上汽乘用车、 《每日经济新闻》、《新京报》、 腾讯、《IT经理世界》、《商业价值》,而后创业。"
}, {
"rank": 2,
"member_id": "69144",
"company_id": "35985",
"company_type": "company",
"company_short_name": "摩拜单车",
"is_demission": "在职",
"name": "在职",
"position": "CMO",
"individual_resume": "郑顺景,摩拜单车CMO首席营销官,原特斯拉中国区第一任总经理。"
}, {
"rank": 3,
"member_id": "3448",
"company_id": "35985",
"company_type": "company",
"company_short_name": "摩拜单车",
"is_demission": "在职",
"name": "在职",
"position": "董事长",
"individual_resume": "王兴,美团网创始人及CEO。连续创业者,此前曾创办校内网、海内网、饭否等。2001年毕业于清华大学,2003年放弃美国学业回国创业立校内网,06被千橡集团收购;2007年创办饭否网;2010年创办团购网站美团网。"
}, {
"rank": 4,
"member_id": "28990",
"company_id": "35985",
"company_type": "company",
"company_short_name": "摩拜单车",
"is_demission": "在职",
"name": "在职",
"position": "总经理",
"individual_resume": "王慧文,美团网联合创始人、副总裁;前人人网联合创始人。王慧文与王兴从两人2004年创办的第一个项目开始,王慧文就跟随着王兴,从校内、饭否、海内、到如今的美团。是王兴创业以来最忠实的伙伴。"
}, {
"rank": 5,
"member_id": "29590",
"company_id": "35985",
"company_type": "company",
"company_short_name": "摩拜单车",
"is_demission": "已离职",
"name": "王晓峰",
"position": "原CEO",
"individual_resume": "王晓峰,北京摩拜科技有限公司CEO,曾担任Uber上海总经理、腾讯副总经理、Coty销售总监、Google中国华东渠道负责人等,还曾在宝洁先后担任各种销售岗位销售各种产品 从纸尿裤到SK II 从品客薯片到洗衣粉 。"
}, {
"rank": 6,
"member_id": "8630",
"company_id": "35985",
"company_type": "company",
"company_short_name": "摩拜单车",
"is_demission": "已离职",
"name": "李斌",
"position": "原董事长",
"individual_resume": "李斌,易车网创始人、总裁。毕业于北京大学社会学系,辅修法律及计算机。在大三的时候,曾在中国青年报当记者;1996年初创办北京南极科技发展有限公司,1997年创办北京科文书业信息技术有限公司;2000年6月,李斌创立了易车服务网。"
}, {
"rank": 7,
"member_id": "87180",
"company_id": "35985",
"company_type": "company",
"company_short_name": "摩拜单车",
"is_demission": "已离职",
"name": "夏一平",
"position": "原CTO",
"individual_resume": "夏一平,集度汽车CEO。曾担任摩拜单车联合创始人兼首席技术官。夏一平是国内车联网领域资深的产品技术专家. 曾在福特、菲亚特克莱斯勒的车联网产品研发部门负责产品和技术的研发, 拥有国内外发明, 实用新型和软件著作权专利等20多项。夏一平本科毕业于南京邮电大学通信工程专业。"
}]
}
}],
"http_code": 200,
"error_msg": "",
"task_result": 1000,
"data_type": "detail",
"spider_start_time": "2021-11-24 10:47:58.053",
"spider_end_time": "2021-11-24 10:47:58.846",
"task_params": {
"platform": "itjuzi_company",
"company_id": "99"
},
"metadata": {},
"spider_name": "itjuzi_company",
"spider_ip": "10.8.1.54",
"proxy_ip": "http://H9Q96J7F36N4O4JD:C6EE632BD9F6AE0F@http-dyn.abuyun.com:9020"
}
}
爬虫运行环境
scrapy
爬虫部署信息
crontab任务对应机器collie用户: 待添加
爬虫部署机器: 10.8.6.75 10个进程
Taskhub地址
暂不需要
Taskhub调度规则说明
爬虫监控指标设计
待完善
爬虫待采集结果目录
/data/gravel_spiders/itjuzi_company
数据归集
责任人
范召贤
数据归集方式
-
爬虫直接写kafka
-
爬虫写文件logstash采集
爬虫结果目录
/data/gravel_spiders/itjuzi_company
归集后存放目录
/data2_227/grvael_spider_result/itjuzi_company
logstash配置文件名称
project-deploy/logstash/10.8.6.246/conf.d/collie_spider_data_to_kfk.conf(入topic)
project-deploy/logstash/10.8.6.229/conf.d/grvael/grvael_spider_to_es.conf(入es)
logstash文件采集type
type=>"itjuzi_company"
数据归集的topic
topic_id => "general-taxpayer"
ES日志索引及筛选条件
index => "gravel-spider-data-%{log_date}"
监控指标看板
数据保留策略
数据清洗
责任人
李子健
代码地址
project-collie-app/app_juzi_data/udms/juzi_rongzi_company
project-collie-app/app_juzi_data/udms/juzi_rongzi_company_members
project-collie-app/app_juzi_data/udms/juzi_rongzi_company_org
project-collie-app/app_juzi_data/udms/juzi_rongzi_company_product
部署地址
10.8.6.228
/home/collie/product/app_juzi_data
部署方法及说明
- crontab + data_pump
- supervisor + data_pump
- supervisor + consumer
数据接收来源
归集的文件
数据存储表地址
- 数据库地址:bdp-rds-005.mysql.rds.aliyuncs.com
- 库名:utn_ng_qmp_info
- 表名:juzi_rongzi_company、juzi_rongzi_company_members、juzi_rongzi_company_org、juzi_rongzi_company_product