流程文档
流程图
爬虫结果同步到mysql库
1.分data_type读到的所有bson文件写入kafka的同一topic:
部署地址:10.8.6.84
data_pump配置文件:
/home/collie/product/app_online_lake/data_pump/new_online/all_spider_update_lake.yml
supervisor配置:(29个进程)
/home/collie/product/app_online_lake/supervisor/ic_spider_sync_lake.conf
/etc/supervisord.d/ic_spider_sync_lake.conf
2.消费kafka更新mysql并写入redis:
部署地址:10.8.6.84
data_pump配置文件:
/home/collie/product/app_online_lake/data_pump/new_online/collie_all_spider_update_lake_kafka.yml
supervisor配置:(72个进程)
/home/collie/product/app_online_lake/supervisor/ic_spider_update_lake_kafka.conf
/etc/supervisord.d/ic_spider_update_lake_kafka.conf
3.mysql地址
host:bdp-rds-t02.mysql.rds.aliyuncs.com
db:ic_ar、ic_biz、ic_base
kafka信息
-
topic: ic_spider_all
-
group: ic_spider_all_to_mysql
-
分区数:72
data_type说明
| data_type | 维度注释 |
|---|---|
| ic_base | 照面信息 |
| ic_employee | 主要人员 |
| ic_partner | 工商公示股东 |
| ic_branch | 分支机构 |
| ic_change | 变更记录 |
| ic_history_name | 历史名称 |
| ic_industry | 行业分类 |
| ic_abnormal | 经营异常 |
| ic_allow | 行政许可 |
| ic_illegal | 严重违法 |
| ic_punish | 行政处罚 |
| ic_justice | 司法协助 |
| ic_check | 抽查检查 |
| ic_clear | 清算信息 |
| ic_pledge | 股权出质 |
| ic_chattel | 动产抵押 |
| ic_intellectual | 知识产权出质 |
| ar_base | 年报基本信息 |
| ar_partner | 年报股东 |
| ar_change | 年报修改记录 |
| ar_asset | 年报资产 |
| ar_guarantee | 年报对外担保 |
| ar_invest | 年报对外投资 |
| ar_equity_change | 年报股权变更 |
| ar_social_security | 年报社保 |
| ar_website | 年报网站 |
| enterprise | 事业单位 |
| social_organ | 社会组织 |
| law_office | 律师事务所 |
| fund | 基金会 |
| gov_unit | 机关单位 |
| trade_union | 工会 |
增量数据读redis查mysql获取
部署地址:10.8.6.84
/home/collie/product/app_online_lake/data_pump/new_online/collie_all_spider_update_lake_redis.yml
supervisor配置:(37个进程)
/home/collie/product/app_online_lake/supervisor/ic_spider_update_lake_redis.conf
/etc/supervisord.d/ic_spider_update_lake_redis.conf
redis:bdp-mq-001.redis.rds.aliyuncs.com
db:1
按省份分目录
部署地址:10.8.6.84
/home/collie/product/app_online_lake/data_pump/lake_province/ic_province_split.yml
supervisor配置:(37个进程)
/home/collie/product/app_online_lake/supervisor/ic_lake_update_province.conf
/etc/supervisord.d/ic_lake_update_province.conf
songzp