每个数据科学家都应该知道的六个概率分布

每个数据科学家都应该知道的六个概率分布

介绍

假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。

他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题吧。

一种方法是将成绩可视化,看看是否可以在数据中找到某种趋势。

每个数据科学家都应该知道的六个概率分布

上面展示的图形称为数据的频率分布。其中有一个平滑的曲线,但你注意到有一个异常情况了吗?在某个特定的分数范围内,数据的频率异常低。所以,最准确的猜测就是丢失值了,从而导致在分布中出现了凹陷。

这个过程展示了你该如何使用数据分析来尝试解决现实生活中的问题。对于任何一位数据科学家、学生或从业者来说,分布是必须要知道的概念,它为分析和推理统计提供了基础。

虽然概率为我们提供了数学上的计算,而分布却可以帮助我们把内部发生的事情可视化。

在本文中,我将介绍一些重要的概率分布,并会清晰全面地对它们进行解释。

注意:本文假设你已经具有了概率方面的基本知识。如果没有,可以参考这篇有关概率基础的文章。

目录

1、常见的数据类型

2、分布的类型

伯努利分布

均匀分布

二项分布

正态分布

泊松分布

指数分布

3、各个分布之间的关系

一、常见的数据类型

在开始详细讲述分布之前,先来看看我们会遇到哪些种类的数据。数据可以分为离散的和连续的。

离散数据:顾名思义,只包含指定的值。例如,当你投骰子的时候,输出结果只可能是1、2、3、4、5或6,而不可能出现1.5或2.45。

连续数据:可以在给定的范围内取任何值。范围可以是有限的,也可以是无限的。例如,女孩的体重或身高、路程的长度。女孩的体重可以是54千克、54.5千克,或54.5436千克。

现在我们开始学习分布的类型。

2、分布的类型

2.1、伯努利分布

我们首先从最简单的分布伯努利分布开始。

伯努利分布只有两种可能的结果,1(成功)和0(失败)。因此,具有伯努利分布的随机变量X可以取值为1,也就是成功的概率,可以用p来表示,也可以取值为0,即失败的概率,用q或1-p来表示。

概率质量函数由下式给出:px(1-p)1-x, 其中x