甜腻的嘴角|数据质量的六个维度-以及如何处理它们( 二 )


您的数据集的及时性可能取决于导致其创建的数据集成管道 。 这可以是实时的 , 可以在事件描述后立即提供数据 , 也可以批量处理 , 这意味着数据将"冻结"直到下一次刷新 。 对该管道的更改可能使您可以访问更多最新数据 , 并对新事件做出更快的响应 。
独特性
每个真实世界的对象或事件仅应在特定的数据集中表示一次 。 即是否有JohnDoe和JohnnyDoe的客户记录 , 尽管他们实际上是同一个人 。
因此 , 任何涉及客户的指标(客户数量 , 每位客户的支出 , 购买频率)都将由于包含一个人的重复表示而被剔除 。
发现此问题意味着确定适当的主键 。 在JohnDoe和JohnnyDoe的示例中 , 他们可以具有不同的名称和客户ID , 但是可以匹配电子邮件地址 , 这有力地暗示了他们是同一个人 。 这意味着在进行任何分析或建模之前 , 需要进行数据整理以合并这些客户记录的附加步骤 。
有效期
数据集中的字段可能具有其必须满足的条件才能被视为有效 。 电子邮件地址必须带有"@"符号 , 电话号码必须是数字序列 , 并且会员级别字段可能需要为"Gold" , "Silver"或"Bronze" 。
在许多情况下 , 使用正则表达式可以轻松实现有效性检查 。 有在线数据库 , 例如regexlib.com , 其中包含数千种常见数据类型的正则表达式 。 对于离散数据类型 , 例如上面的成员资格级别示例 , 简单的频率统计信息可以告诉您是否存在有效性问题 。 如果除了"Gold" , "Silver"或"Bronze"以外 , 还有大量其他值 , 则说明出现了问题 。
一旦识别出无效数据 , 它将有效地成为完整性问题 , 可以使用前面介绍的方法来解决 。
综上所述
在任何数据科学项目的开始阶段 , 重要的是要清楚地了解您的数据及其从源到数据集的路径 。 尽管可能会急于实施您项目中更性感 , 更复杂的部分 , 但如果它建立在不稳定的基础上 , 那将是浪费时间 。 只有认真地进行提问 , 测试假设 , 分析和理解数据的工作 , 您才能真正对分析的质量充满信心 。
(本文翻译自RichardFarnworth的文章《TheSixDimensionsofDataQuality—andhowtodealwiththem》 , 参考:)