流程文档
流程图
爬虫结果同步到mysql库
1.分data_type读到的所有bson文件写入kafka的同一topic:
部署地址:10.8.6.84
data_pump配置文件:
/home/collie/product/app_online_lake/data_pump/new_online/all_spider_update_lake.yml
supervisor配置:(29个进程)
/home/collie/product/app_online_lake/supervisor/ic_spider_sync_lake.conf
/etc/supervisord.d/ic_spider_sync_lake.conf
2.消费kafka更新mysql并写入redis:
部署地址:10.8.6.84
data_pump配置文件:
/home/collie/product/app_online_lake/data_pump/new_online/collie_all_spider_update_lake_kafka.yml
supervisor配置:(72个进程)
/home/collie/product/app_online_lake/supervisor/ic_spider_update_lake_kafka.conf
/etc/supervisord.d/ic_spider_update_lake_kafka.conf
3.mysql地址
host:bdp-rds-t02.mysql.rds.aliyuncs.com
db:ic_ar、ic_biz、ic_base
kafka信息
-
topic: ic_spider_all
-
group: ic_spider_all_to_mysql
-
分区数:72
data_type说明
data_type | 维度注释 |
---|---|
ic_base | 照面信息 |
ic_employee | 主要人员 |
ic_partner | 工商公示股东 |
ic_branch | 分支机构 |
ic_change | 变更记录 |
ic_history_name | 历史名称 |
ic_industry | 行业分类 |
ic_abnormal | 经营异常 |
ic_allow | 行政许可 |
ic_illegal | 严重违法 |
ic_punish | 行政处罚 |
ic_justice | 司法协助 |
ic_check | 抽查检查 |
ic_clear | 清算信息 |
ic_pledge | 股权出质 |
ic_chattel | 动产抵押 |
ic_intellectual | 知识产权出质 |
ar_base | 年报基本信息 |
ar_partner | 年报股东 |
ar_change | 年报修改记录 |
ar_asset | 年报资产 |
ar_guarantee | 年报对外担保 |
ar_invest | 年报对外投资 |
ar_equity_change | 年报股权变更 |
ar_social_security | 年报社保 |
ar_website | 年报网站 |
enterprise | 事业单位 |
social_organ | 社会组织 |
law_office | 律师事务所 |
fund | 基金会 |
gov_unit | 机关单位 |
trade_union | 工会 |
增量数据读redis查mysql获取
部署地址:10.8.6.84
/home/collie/product/app_online_lake/data_pump/new_online/collie_all_spider_update_lake_redis.yml
supervisor配置:(37个进程)
/home/collie/product/app_online_lake/supervisor/ic_spider_update_lake_redis.conf
/etc/supervisord.d/ic_spider_update_lake_redis.conf
redis:bdp-mq-001.redis.rds.aliyuncs.com
db:1
按省份分目录
部署地址:10.8.6.84
/home/collie/product/app_online_lake/data_pump/lake_province/ic_province_split.yml
supervisor配置:(37个进程)
/home/collie/product/app_online_lake/supervisor/ic_lake_update_province.conf
/etc/supervisord.d/ic_lake_update_province.conf