数据骗子无处不在,教你拆穿所谓“万金油”
全文共3606字 , 预计学习时长10分钟
文章插图
图源:medium
数据分析师、机器学习/人工智能工程师、统计学家 , 这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下 , 不少数据骗子也隐藏在其中 , 这些骗子毁了遵纪守法的数据专业人士的好名声 。
数据骗子非常善于在众目睽睽之下隐藏自己 , 你甚至可能都没有意识到他们的存在 , 他们有可能就藏身于你的公司当中、不过还好 , 如果你知道该找些什么线索 , 那么他们是很容易识别的 。 第一点线索就是 , 他们无法理解分析学和统计学是两个截然不同的学科 。
不同的学科
统计学家接受的训练是推断数据之外的内容 , 而分析师接受的训练是探究数据集中的内容 。 换句话说 , 分析师根据数据中包含的内容得出结论 , 而统计学家根据未包含于数据中的内容得出结论 。 分析师帮助你提出好问题(假设生成) , 而统计学家帮助你获得理想答案(假设测试) 。
还有一些神奇的“混血” , 会拥有两种身份……但他们不会同时扮演这两种角色 。 为什么呢?数据科学的一条核心原则是 , 如果要处理不确定性 , 则不能使用相同的数据点进行假设生成和假设测试 。 数据有限时 , 不确定性会迫使你在统计学和分析学之间做出选择 。
没有统计学 , 就无法知道自己刚刚产生的观点是否站得住脚 。 没有分析学 , 就只能在摸索中前进 , 几乎无法掌握未知的未知 。
这是一个艰难的选择!是睁开双眼接受灵感(分析学) , 发誓放弃知道新发现是否能站住脚的满足感 , 还是冒着冷汗祈祷自己选择要问的(在没有任何数据的情况下 , 一个人在杂物室里冥思苦想出来的)问题值得自己即将得到的严密答案(统计学)?
“兜售”后见之明的小贩
骗子摆脱这种困境的方式是对其视而不见 , 发现一片薯片长得像猫王 , 然后假装对这一事实感到惊讶 。 (统计假设测试的逻辑可以归结为:我们的数据是否让我们惊讶到改变自己的想法 。 如果我们已经见过这些数据 , 我们又怎么会对它们感到惊讶呢?)
文章插图
在你看来 , 图片中的云朵和薯片长得像兔子还是像猫王呢?亦或是像某一位总统?
骗子发现一个模式并从中得到启发 , 然后以相同的模式测试相同的数据 , 为的是用一到两个合理的p值生成可验证其理论的结果 , 他们这样做实际上是在欺骗你(可能也是在欺骗他们自己) 。 这样的p值没有任何意义 , 除非在查看数据之前对假设作出承诺 。
骗子模仿分析师和统计学家的一举一动 , 却并不明白其中缘由 , 这为整个数据科学领域带来了不好的声誉 。
真正的统计学家总是谨慎行事
由于统计学家在严密的推理方面享有近乎神秘的声誉 , “万金油”在数据科学领域的出现频率创下了历史新高 。 这种骗术不易被人发觉 , 尤其是在那些毫无防备的受害者认为这正关系到方程和数据的时候 。 数据集就是数据集 , 对吗?错 , 要看你如何使用数据集 。
这些骗子身上都带有冒牌货的标志 , 你只需要一个线索就可以识破他们的真面目:骗子只有后见之明——用数学重新发现他们已经知道的存在于数据中的现象 , 而统计学家提供的是具有先见之明的测试 。
与骗子不同 , 优秀的分析师是思想开放的典范 , 总是将鼓舞人心的见解与提醒相结合 , 提醒人们观察到的某种现象可能有多种不同的解释 , 而优秀的统计学家则会谨慎地做出决定 。
分析师带来灵感
分析师不必负责一切 , 他们要根据数据中包含的内容得出结论 。 如果他们想对没见过的事物提出观点 , 那他们担任的就是另一种工作了 。 他们应该摘下分析师的“帽子” , 带上“统计学家”的头盔 。 毕竟 , 无论你的正式职位是什么 , 都没有这样一条规则说你不能投身两种行业 。 只要你想 , 就可以这么做 , 只是不要把它们弄混了 。
文章插图
骗子怎样测试假设
擅长统计并不意味着擅长分析 , 反之亦然 。 如果有人跟你说的与之相反 , 请自行思考 。 如果这个人告诉你 , 你可以对你研究过的数据进行统计推断 , 请再次问问自己 。 他很有可能是个骗子 。
【数据骗子无处不在,教你拆穿所谓“万金油”】
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在
- 统计|多久才能换一次手机?统计机构数据有点意外
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 网购|黑色星期五及网购星期一大数据出炉 全球第三方卖家销售额超48亿美元
- Veeam|Veeam让企业数据拥有“第二次生命”