lake_20200521

20200521会议总结

1.要以产品的角度理解业务逻辑。数据的维度、业务逻辑、竞品展示的优缺点、主要数据字段（列表展示的字段）的重要程度等要素要清晰明确。行动：行成数据生产指南

2.数据表设计。要参考业内的通用模板，理解专业词汇。

3.选择正确的开发工具。根据数据的大小，复杂性选择正确的开发工具，比如hadoop适合批处理逻辑简单的大量数据，几十天的存量FTP结果去重适合用hadoop；load data into table 可以快速将存量CSV数据导入到MYSQL。

4.每个数据源保持数据的独立性。作为各自的单独业务逻辑，不应该将数据糅合到一块处理，按照数据源推送的特点，要将推过来的数据按照各自的源数据特征恢复成最新的全量结果。

1.代码复用。处理例行和存量尽量让代码通用，减少2次开发。

2.让数据处理没有返工。（1）表设计问题：原始数据的全量中存在一些特殊的数据格式（字段长度），应该参考原始表的结构；（2）每一步结果交付标准。校验结果：数据量统计，抽样，日志、报警信息等。

1.日志模块的通用性。不够友好：日志级别、外部定制等做的不够好、分离日志中的kafka、更好适应于开发过程。

2.通用工具模块的修改和新增。要先发布文档要实现的功能并通知全组人员，确保别人没有实现过而且要兼容老的功能。功能靠考虑通用性，完成后要形成文档，组内评审。

3.SQLReader性能指标。SQLReader大表操作的性能和复杂业务的链接状态控制目前还不够清晰，需要出具一个指导文件说明这些性能参数。需要突破的方向：MySQL的缓存原理、SQL如何在数据库中解析、客户端和服务端如何通信；sqlreader的极限测试，性能指标。

4.data_pump加入清洗逻辑后，如何处理错误数据。

5.工具模块的解耦。目标是让新加入的开发人员不需要了解具体实现，只根据文档使用功能，这个目标还没有实现。

6.consumer和data_pump的标准化和推广，解决环境依赖和易用性，发布1.0版本。

7.collie项目的重构只保留通用功能，不能再追加具体的业务逻辑。

8.data_pump来控制执行成功的标志位文件，减少shell的脚本。

1.supervior和topic的控制，无效配置文件的清除、废弃topic的回收；deploy的部署：一个项目的部分重新部署。

2.consumer驱动多个模块的开发。

3.各个数据维度的关联统计任务做成定时任务，定时出具数据报告。

4.信息归集、标签体系、公司画像。

5.涉诉信息、行业分类等维度的挖掘整理。