|
|
|
# 新数据采集
|
|
|
|
|
|
|
|
* 1、[产品经理]()确认采集网站、采集策略、采集信息等,形成需求文档提供给[数据采集人员]()
|
|
|
|
|
|
|
|
* 2、[数据采集人员]()根据产品经理的文档及网站预研工作形成采集阶段说明文档
|
|
|
|
|
|
|
|
* 3、[数据清洗人员]()根据采集阶段说明文档将采集的原始数据入到原始数据库表
|
|
|
|
|
|
|
|
* 4、待数据采集到一定量或全部采集完后,[数据清洗人员(测试人员)]()分析测试采集的原始数据,确定[数据采集人员]()采集的数据没有问题;
|
|
|
|
[数据清洗人员]()在全量数据基础上分析设计清洗库表结构、清洗加工逻辑,形成清洗阶段说明文档
|
|
|
|
|
|
|
|
* 5、[数据清洗人员]()根据清洗阶段说明文档将采集的原始数据清洗到临时表(非正式表、未发布使用表)中
|
|
|
|
|
|
|
|
* 6、[数据清洗人员(测试人员)]()对临时表数据进行测试,确定[数据清洗人员]()的数据清洗没有问题
|
|
|
|
|
|
|
|
|
|
|
|
# 数据测试点
|
|
|
|
|
|
|
|
* 所有字段空值比例
|
|
|
|
|
|
|
|
* 标记字段各个值的分布情况,标记含义是否正确
|
|
|
|
|
|
|
|
* 非空字段是否有空字符串
|
|
|
|
|
|
|
|
* 有子表的,关联字段可关联比(关联字段在主表有但在子表没有,或关联字段在子表有但在主表没有)
|
|
|
|
|
|
|
|
* 取值在有限范围内的各个值的分布情况
|
|
|
|
|
|
|
|
* 日期时间字段格式是否正确
|
|
|
|
|
|
|
|
* 待补充... |