这个神秘公式，支配了整个硅谷的产品决策这是一个统计学公式

作者：Han

全文共 4066 字 12 图，阅读需要 9 分钟

———— / BEGIN / ————

我过完年回来上班啦！好兴奋！！因为……终于可以再次见到好基友Tommy了……

可我今儿，一打眼就发现他不对，愁眉苦脸的，就问咋滴了呢。

他说：“哎，最近又收到好多人寄来的刀片儿……”

原来，这是用户们在抱怨他的产品不好用呢：

“这个App是脑残吗…”

“孤儿产品…”

哎，我们搞App真的很难，因为有太多太多的细节，要做决策了。有一丢丢搞不好，用户就会不开心。

比如，按钮应该放在上面，还是侧面？让用户手机验证，还是密码验证？二维码还是手动输入？等等等等……

关键是人们的要求又不一样！总自相矛盾……

比如你问妹子想吃啥，她嘴上说“随便”，其实她心里是想说：

这是一道送命题……我们也很无奈啊：我们虽然工资低，但是放假少啊，心累……

那，时间紧迫，竞争压力好大，产品毕竟总要出去的。

到底怎么做决定啊！

最科学的办法，还真不是靠产品经理拍脑袋，也不是靠码农和设计师撕逼，更不是靠高层们微信扔骰子定的。

其实，好多硅谷企业呢，现在都已经有了一套科学方法啦！

最简单地，总结起来就是一个公式：

P<0.05

这是TM啥？

这是一个统计学公式，现在已经被硅谷各企业广泛采用，来做产品的决策了！

那应该怎么实用呢？下面我就来给你爆料下，这个不是秘密的公开内幕吧！

案件重现

现在你接到一个产品优化任务，核心KPI是要提升一个按钮的点击率。那个按钮可能是“搜索”按钮，可能是“预定”，也可能是“了解更多”，等等等等。总之，越多人点击越好。

现有的线上产品方案，那个按钮是一个绿色的。

你知道，因为心理学因素，“颜色”对用户行为有显著的影响吧。

（不知道也不怕，我之前的文章有介绍过“颜色”在产品里的作用和背后的心理学原理，点这里：王者荣耀和LOL：真受不了没素质玩家）

于是，你现在想试试把按钮的颜色从绿色改成红色，想看看是不是有更多的人点击。

应该怎么办呢？当然是做实验啦！

好了，现在实验上线开始，你让一半儿的人看到绿色按钮，而另外一半儿的人看到的，则是红色：

实验结束后，你得到的结果是这样的：

A组，绿色：

100个人看到了这个按钮，没人点击这个按钮

B组，红色：

同样有100个人看到，50个人点击……

结论很明显嘛。

你得出结论：

A组点击率0，B组点击率50%，B组高于A组，红色有效的促进了用户点击！实验成功！！

是的，很好，到目前为止没有任何问题；这个产品决策很愉快的就决定了，你也成功交差。

下面，咱们看一个稍微复杂一点的例子。

你应该知道，手机的“推送通知”对挽留用户很重要吧？发一个推送，用户没准就会点开好久不用的App了——这样就会促进用户对App的交互了。

你又知道，现在都流行做个性化推送；之前你们的产品线上运行的可能是一个非个性化的群发通知。

所以，你又有了一个想法：想试试个性化通知内容，是不是更有效呢。

于是，你设计了一个实验，分别给两组人发了不一样的推送通知内容，就像这样：

第一组收到的是非个性的：“屠龙宝刀点就送！明星都在玩！”

第二组则有一点点个性化：“{$Name(玩家姓名)}，屠龙宝刀点就送！明星都在玩！”

推送发出之后，过了24小时的测量周期，你收到的实验结果如下。

第一组，有95个人看到了，有4个人打开了App。

第二组，有107个人看到了，有11个人打开了App。

跟上面按钮颜色的例子数据处理一样，你开始进行了数据分析：

第一组，是非个性化的推送，接收到推送之后，用户的App打开率是 4 / 95 = 4.21%

对于第二组的个性化推送组，App打开率是11 / 107 = 10.28%。

于是你直接得出结论：

第二组更好！

事情就……结束了么？

要是在硅谷的话，你会被直接喷回来。

为什么？？

因为这个结论，根本不可靠！

两组的打开App的行为很有可能只是巧合，是一个完全随机的事情！

比如，你先用左手抛硬币5次，发现2次硬币正面朝上。

之后再用右手抛硬币5次，发现3次硬币正面朝上。

于是你得出结论：

右手抛硬币出现正面的概率是60%，高于左手的40%。

这明显是错误的。

——因为无论那个手抛硬币，都应该是50%的概率而已。

同样的道理，回到推送的分析案例，那凭什么，你在这里就能直接相信这个结果呢？

提高的打开率，真的是因为“个性化”的原因造成的呢，还是仅仅只是一个巧合呢？

对于此，统计学上会有一个概念，叫做 – “p值”。

p值是啥？

在展开复杂的计算之前，为防止你被绕晕，先直接上一句最最最简单的灵魂总结：

p值，就是实验结果不能被相信的概率。

也就是说，p值就是“实验结果完全是瞎猫碰到死耗子”的几率。

直觉告诉我们，这个p值应该是越低越好，因为越低，他就表示我们的实验越可以被相信。

那么多低是低呢？标准是啥？

硅谷各公司，普遍采用的p值标准线是0.05。如果p小于0.05，那结论就可以被相信了！

下面咱们来计算一下p值。

（需要你静下心来读）

统计方法上，我们会先来一个“无效假设（Null Hypothesis）”：也就是假设结果纯属巧合，也就是假设“个性化”通知根本没啥卵用。

如果没啥用的话，那就是说……两组之间的实际App打开率应该相等的*（此处有简化，详情见文末）。

我们来算一下，第一组的App打开率4/95 = 4.21%。

下面，重点来了：

我们需要计算的是：按照4.21%这个打开率，第二组出现11个人打开App的概率是多少呢？这个概率，就是“无效假设”成立的概率。

无论文科理科，这是一道高考送分题，答案就是：

这个值，就是p值， p = 0.0037。

它代表：“个性化通知”没有任何用处的概率仅为0.0037。

刚刚说过，p值的检测标准是0.05；你看，咱打开率的p值小于0.05，那么就可以说实验可信！“个性化”通知，对于促进用户打开App，有效！你们决定上线新产品！

可是就在这时，数据部门，突然给你发来了最新的另一组数据……

实战应用

数据部门告诉你，用户看了推送通知之后，其实还有一些用户有删除App的行为发生。

可能是因为看了太多推送太烦了，直接删了App。

数据是这样的：

现在这样看来，第二组收到个性化推送的人，删除率是2.8%，高于第一组的1.1%——甚至都已经双倍了！

难道是因为用户看到了自己的名字在推送里，很害怕然后就把App删掉了？

这可怎么评价啊！！太烦了，要是两组数据结论不同，还怎么上线新产品啊……看来又要撕逼了，哎。

稍等，我们刚刚介绍了p值的概念呀！！

赶紧计算一下删除率的p值！

经过一番计算，删除率的p值等于……p = 0.1795！！大于0.05。

什么意思？

p值大于上面提到的分界线！

也就是说：删除率上升，纯属偶然！

这下好啦！！产品决策清晰了！

相比原来的非个性化推送，我们发现个性化的推送打开率有显著性提升，而删除率则没有显著的统计学差异。

于是，你欢快地决定：上线“个性化推送”功能！！今晚请大家吃鸡！！

更进一步

你可能会问，为啥这些硅谷企业都选0.05这个数字呢？

答案就是：

嗯……其实这个真的就只是一个约定俗成的数值而已。

Tommy告诉我，提出这个值的人，还是和英国有关。

这是几十年前，英国统计学家Ronald Fisher提出来的，后人沿用了而已。

当然，很多产品为了更加可靠，也会使用更低的p值, 比如0.01。

不仅仅是硅谷这样的工业界啦，在学术界，尤其是统计学支撑的学科；比如心理学，生物医学甚至经济学，“p < 0.05”早就被当作常识一样了。

比如，医学领域，有人提出了一种新药。想知道这种新药的效果，那就要进行实验了。

简单来讲，他们会找到一些病人，随机的分成两组，比如每组20个人。

双盲测试：医生和患者都不知道分组情况

一组人，作为测试组，会按时吃这种新药。而另一组则是控制组，不会吃这种药。

当然了，也不是啥也不吃。

他们会被要求随便吃点啥，比如吃淀粉片，这东西被称为“安慰剂”。

因为心里作用也会影响治疗效果，所以不能让他们知道其实他们吃的东西没啥用嘛。

吃安慰剂，就能保证他们不知道自己被分到了控制组。

实验结束之后，会看看哪组人治愈率更高。

这我也是从身边好多医学生物学博士朋友那里知道的：他们经常说，科研狗奋斗一生，就为了那0.05，其实硅谷的码农们又何尝不是呀～

后记

我告诉Tommy，你看“p < 0.05”对吧，这就意味着，概率上来讲，咱们每上线20个产品，其实就会有一个产品是垃圾……所以，别难过了，你可能就……恰好是那个垃圾……

然后Tommy把我打了一顿

备注

文中p值计算过程和描述并不完全准确哈，而是为了可读性，进行了简化。

首先p值不是“无效假设”成立的概率，而只是可以“表示”这个概率的大小。

另在案例计算中，因为第一组的4.21%也不能代表真实情况。

这里其实是在比较两个样本的分布：特此大感谢我的数据科学家同事+朋友Cora帮我Review～实际比较复杂，比如先看成是一个正态分布，然后计算一堆值，再……不说了，你去看统计学课本吧……

但是告诉你一个小秘密：已经有很多开源在线工具可以帮你计算p值了: （可见对于文中的例子，打开率p值可以为0.0453。）

另外，感谢我的博士朋友：

（以下为他贡献原文）

其实利用p值是频率学派的假设检验方法，而p值的滥用已经是科学界的一个严重问题。

2017年nature上有篇文章redefine statistical significance 是一堆统计学大佬写给科学家群体的，大意是我们认为贝叶斯假设检验的框架更好，但是鉴于科学家普遍没有受过贝叶斯框架的训练，那么为了降低得出错误结论的概率，至少把p值的阈值降到0.005。

———— / END / ————

作者：Han，facebook美国硅谷总部商业产品全栈软件工程师。先后负责facebook中小企业广告及大型电商零售企业广告商业产品开发。微信公众号：涵的硅谷成长笔记（ID：HanGrowth)，和我一起向硅谷大牛们发起夸学科学习进击，共同见证进步。

本文由 @Han 原创发布于人人都是产品经理。未经许可，禁止转载

点击“阅读原文”下载APP