数据骗子无处不在,教你拆穿所谓“万金油”( 二 )
隐藏在天花乱坠的解释背后
如果你在现实生活中观察数据骗子 , 你会发现他们喜欢编造一些天花乱坠的故事来“解释”观察到的数据:故事听起来越学术越好 , 并不在乎它们只是(过分)符合事后的数据 。
骗子这样做完全是胡扯 。 再多的方程甚至是夸夸其谈也无法弥补这样一个事实:他们没有证据表明他们知道自己谈论的内容超过了数据的范围 。 不要被他们天花乱坠的解释蒙骗了 。 如果是统计推断 , 他们就必须在看到数据之前谨慎做出决定 。
这相当于炫耀他们的“通灵”能力 , 先瞄一眼你出的牌 , 然后预测你手上拿着什么牌……无论你拿着什么牌 , 他们都能预测出来 。 做好准备 , 听听他们的花言巧语:你的面部表情如何将你手中的牌泄露给他们 。 这是后见之明偏误 , 它在数据科学领域随处可见 。
分析师说 , “这是你刚才出的方块皇后 。 ”统计学家说 , “游戏开始之前 , 我把我的假设写在了这张纸片上 。 我们开始吧 , 观察一些数据 , 看我假设得对不对 。 ”骗子说 , “我早知道你要出方块皇后 , 因为……”
机器学习说 , “我要一直提前调用它 , 看看我完成得如何 。 然后重复再重复 。 我可能会调整自己的反应 , 从而适应某个有效的策略 。 但我会用某个算法来完成这一过程 , 因为手动追踪这一切实在太烦人了 , ”
文章插图
图源:unsplash
阻止骗子进入你的生活
要处理的数据不算太多时 , 你必须要在统计学和分析学之间做出选择 。 幸运的是 , 如果你有大量数据 , 那么你将有一个绝妙的机会来利用自己的分析和统计信息 , 而不会上当受骗 。 你还可以通过一个完美的计策来让自己免受骗子侵害 , 这叫做“数据拆分” , 笔者认为这是数据科学中最强大的思想 。
为保护自己免受骗子侵害 , 你要做的就是确保某些测试数据处于他们可窥探到的范围之外 , 然后将其他所有内容看作分析学(不要当真) 。 当你面对某种你可能会全盘接受的理论时 , 可以用它来替你做主 , 然后打开你的秘密测试数据 , 看看这个理论是不是一派胡言 。
从人们习惯的时代到“小数据”时代 , 这是一个巨大的文化转变 , 你必须解释自己是如何知道自己所知道的东西 , 才能以一种轻松的方式-说服人们 , 你可能确实知道一些东西 。
同样的道理也适用于机器学习/人工智能
一些伪装成机器学习/人工智能专家的骗子很容易被识破 。 你可以通过识破蹩脚工程师的方法来识破他们:他们反复尝试构建的“解决方案”无法交付 。 (较早的预警信号是他们缺乏行业标准编程语言和库的经验 。 )
但是那些构建出看上去可以正常运行的系统的人呢?你怎么知道事情是否有可疑之处?同样的道理也适用于此!骗子是阴险的 , 他会向你展示他们的模型有多好 , 用的是他们制作模型时使用的数据 。 如果你构建了一个极其复杂的机器学习系统 , 你怎么知道它能不能正常运行呢?你没法知道 , 除非你能证明它可以处理以前从未见过的新数据 。
有足够的数据可以分割时 , 无需改变工整的公式即可证明项目的合理性(这仍然是一种老习惯 , 在任何地方都可以看到 , 不仅仅是在科学领域) 。
进行统计工作或保持谦虚的态度
套用经济学家保罗·萨缪尔森(Paul Samuelson)的一句俏皮话:骗子成功预测了最近五次衰退中的九次衰退 。
笔者对数据骗子没有耐心 。 “了解”一些长得像猫王的薯片又怎样?没人在乎你的观点是不是符合原来的“薯片” 。 解释再天花乱坠 , 笔者也不为所动 。 看看理论/模型能不能适用于(而且能够一直适用于)一大堆从未见过的新“薯片” , 这才是对该观点的真正考验 。
文章插图
给数据科学专业人士的建议
数据科学专业人士 , 如果你想得到那些明白此处幽默的人的重视 , 请不要再用花哨的方程式来支持你的个人偏见 。 让我们看看你的真才实学 。 如果你想让那些“了解”你理论/模型的人将这些理论/模型看作是鼓舞人心的诗歌 , 那么就请大胆地在他们面前用全新的数据集进行一次伟大的展示吧!
给领导者的建议
领导者不愿认真看待任何与数据有关的“见解” , 除非这些见解已经通过了新数据的测试 。 不想付出努力吗?要坚持利用分析学 , 但不要依赖于这些见解——它们站不住脚 , 而且其可信度尚未通过检查 。
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在
- 统计|多久才能换一次手机?统计机构数据有点意外
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 网购|黑色星期五及网购星期一大数据出炉 全球第三方卖家销售额超48亿美元
- Veeam|Veeam让企业数据拥有“第二次生命”