讲透|这篇文章把数据讲透了(一):数据来源( 二 )


讲透|这篇文章把数据讲透了(一):数据来源】2)公开的数据源(开源数据源)
除了对内非公开数据以外,许多组织接收和发送大量的文件、图片、声音或视频,这些在公网上传播留存的数据则为公开的数据源;例如,你可以想象,一家保险公司收到了很多可能附有图片的索赔(纸质的或PDF格式的),这些文件通常在处理前手动转换为更结构化的格式;但是,在这种转换中会丢失一些信息,当尝试改进我们的数据科学解决方案时,我们可以使用这些文件来提取额外的数据,比如情景概述。
后续,我们可以使用这些额外的数据改进欺诈性索赔检测,这就是公开数据源的价值。
除此之外,其实业界还有很多数据来源分类法,例如是否为实时数据、一手数据or二手数据来源….
三、结语与下期预告本期,小陈通过一个“买菜”的例子,让大家对“数据”这个庞大的体系有了一个洞察,并通过“菜市场”这样一个比喻,让大家对数据来源有了一个整体的认识。
下期,小陈讲在数据来源的基础上,为大家讲解如何利用常用工具进行数据清洗和采集!
本文由 @小陈同学ing. 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。