流程文档
流程图
爬虫结果同步到mysql库
1.分data_type读到的所有bson文件写入kafka的同一topic:
部署地址:10.8.6.84
data_pump配置文件:
/home/collie/product/app_online_lake/data_pump/new_online/all_spider_update_lake.yml
supervisor配置:(29个进程)
/home/collie/product/app_online_lake/supervisor/ic_spider_sync_lake.conf
/etc/supervisord.d/ic_spider_sync_lake.conf
2.消费kafka更新mysql:
部署地址:10.8.6.84
data_pump配置文件:
/home/collie/product/app_online_lake/data_pump/new_online/collie_all_spider_update_lake_kafka.yml
supervisor配置:(72个进程)
/home/collie/product/app_online_lake/supervisor/ic_spider_update_lake_kafka.conf
/etc/supervisord.d/ic_spider_update_lake_kafka.conf
3.mysql地址
host:bdp-rds-t02.mysql.rds.aliyuncs.com
db:ic_ar、ic_biz、ic_base
mysql库信息
-
ic_ar
host: bdp-rds-t01.mysql.rds.aliyuncs.com:3306
-
ic_base
host: bdp-rds-t02.mysql.rds.aliyuncs.com:3306
-
ic_biz
host: bdp-rds-t02.mysql.rds.aliyuncs.com:3306
-
utn_special
host: 10.8.6.87:3801
kafka信息
-
topic: ic_spider_all
-
group: ic_spider_all_to_mysql
-
分区数:72
data_type说明
data_type | 维度注释 | 去向库 |
---|---|---|
ic_base | 照面信息 | ic_base |
ic_employee | 主要人员 | ic_base |
ic_partner | 工商公示股东 | ic_base |
ic_branch | 分支机构 | ic_base |
ic_change | 变更记录 | ic_base |
ic_history_name | 历史名称 | ic_base |
ic_industry | 行业分类 | ic_base |
ic_abnormal | 经营异常 | ic_biz |
ic_allow | 行政许可 | ic_biz |
ic_illegal | 严重违法 | ic_biz |
ic_punish | 行政处罚 | ic_biz |
ic_justice | 司法协助 | ic_biz |
ic_check | 抽查检查 | ic_biz |
ic_clear | 清算信息 | ic_biz |
ic_pledge | 股权出质 | ic_biz |
ic_chattel | 动产抵押 | ic_biz |
ic_intellectual | 知识产权出质 | ic_biz |
ar_base | 年报基本信息 | ic_ar |
ar_partner | 年报股东 | ic_ar |
ar_change | 年报修改记录 | ic_ar |
ar_asset | 年报资产 | ic_ar |
ar_guarantee | 年报对外担保 | ic_ar |
ar_invest | 年报对外投资 | ic_ar |
ar_equity_change | 年报股权变更 | ic_ar |
ar_social_security | 年报社保 | ic_ar |
ar_website | 年报网站 | ic_ar |
enterprise | 事业单位 | utn_special |
social_organ | 社会组织 | utn_special |
law_office | 律师事务所 | utn_special |
fund | 基金会 | utn_special |
gov_unit | 机关单位 | utn_special |
trade_union | 工会 | utn_special |
增量数据地址
Maxwell部署地址:
Maxwell获取的原始binlog数据地址:10.8.6.227: /data4/data_sync/maxwell_binlog
对外输出的增量数据地址:10.8.6.227: /data/data_sync/lake_ic
按省份分目录
部署地址:10.8.6.84
/home/collie/product/app_online_lake/data_pump/lake_province/ic_province_split.yml
supervisor配置:(37个进程)
/home/collie/product/app_online_lake/supervisor/ic_lake_update_province.conf
/etc/supervisord.d/ic_lake_update_province.conf