数据科学家应当了解的五个统计基本概念

  • 时间:
  • 浏览:1

本文讲述了数据科学家应当了解的4个统计基本概念:统计型态、概率分布、降维、过采样/欠采样、贝叶斯统计。

在方程中的概率P(H)基本上是亲戚亲戚朋友儿的频率分析,给定完后 的关于事件处于概率的数据。方程中的P(E|H)称为因为性,根据频率分析得到的信息,实质上是问題图片正确的概率。例如,因为我就掷骰子300次,为何让前30次详细掷出了6个点,那末 了我就非常自信地认为是骰子作弊了。

假设我给了你4个多多 骰子,我那末 了乎 掷出6点的几率是哪几个,大多数人之前 说是六分之一。

降维

箱形图很好地说明了基本统计型态的作用:

上图中,里边的直线表示数据的中位数。中位数用在平均值上,因为它对异常值更具有鲁棒性。第4个多多 四分位数本质上是第二十五百分位数,即数据中的25%要低于该值。第4个多多 四分位数是第七十五百分位数,即数据中的75%要低于该值。而最大值和最小值表示该数据范围的上下两端。

亲戚亲戚朋友儿能只能将概率定义为某些事件将要处于的因为性大小,以百分数来表示。在数据科学领域中,这通常被量化到0到1的区间范围内,其中0表示事件选择不不处于,而1表示事件选择会处于。那末 了,概率分布因此表示所有因为值出先的几率的函数。请看下图:

 ●  当箱形图较高时,就因为大每种的数据点之间的差异很大,因为哪些地方地方值分布的很广; ●  因为中位数接近了底部,那末 了大每种的数据具有较低的值。因为中位数比较接近顶部,那末 了大多数的数据具有更高的值。基本上,因为中位线那末 了框的里边,那末 了就表明了是偏斜数据; ●  因为框上下两边的线很长表示数据具有很高的标准偏差和方差,因为哪些地方地方值被分散了,为何让变化非常大。因为在框的一边有长线,另一边的不长,那末 了数据因为只在4个多多 方向上变化很大;

概率分布

原文发布时间为:2018-10-31

欠采样因为亲戚亲戚朋友儿将只从样本多的分类中选择某些数据,而尽量多的使用样本少的分类样本。什儿 选择应该是为了保持分类的概率分布。亲戚亲戚朋友儿因此通过更少的抽样来让数据集更均衡。



贝叶斯统计虽然考虑了什儿 点,亲戚亲戚朋友儿能只能通过贝叶斯法则来进行说明:

过采样因为亲戚亲戚朋友儿将要创建少数分类的副本,以便具有与多数分类相同的样本数量。副本将被制作成保持少数分类的分布。亲戚亲戚朋友儿因此在那末 了获得更多数据的状况下让数据集更加均衡。

因为频率分析做的非常好说说,那末 了亲戚亲戚朋友儿会非常自信地选择,猜测6个点是正确的。一同,因为骰子作弊是真的,因为需要基于其自身的先验概率和频率分析的,亲戚亲戚朋友儿也会考虑作弊的因素。正如你从方程式中就看的,贝叶斯统计把一切因素都考虑在内了。当你虽然完后 的数据只能很好地代表未来的数据和结果的完后 ,就应该使用贝叶斯统计最好的方式。

从高的厚度来看,统计学好并需要利用数学理论来进行数据分析的技术。象柱状图什儿 基本的可视化形式,会我就更加全面的信息。为何让,通过统计学亲戚亲戚朋友儿能只能以更充足信息驱动力和针对性的最好的方式对数据进行操作。所涉及的数学理论帮助亲戚亲戚朋友儿形成数据的具体结论,而不仅仅是猜测。

在里边图中的左右两侧,深蓝色分呼告橙色分类有更多的样本。在什儿 状况下,亲戚亲戚朋友儿4个多多多 预防止选择,能只能帮助机器学习模型进行训练。

 ●  正态分布,通常也称为高斯分布,具体是由它的平均值和标准偏差来定义的。平均值是在空间上来回变化位置进行分布的,而标准偏差控制着它的分布扩散范围。与其它的分布最好的方式的主要区别在于,在所有方向上标准偏差是相同的。为何让,通不够斯分布,亲戚亲戚朋友儿知道数据集的平均值以及数据的扩散分布,即它在比较广的范围上扩展,还是主要围绕在少数哪几个值符近集中分布。 ●  泊松分布与正态分布例如,但处于偏斜率。象正态分布一样,在偏斜度值较低的状况下,泊松分布在各个方向上具有相对均匀的扩散。为何让,当偏斜度值非常大的完后 ,亲戚亲戚朋友儿的数据在不同方向上的扩散因为是不同的。在4个多多 方向上,数据的扩散程度非常高,而在从前方向上,扩散的程度则非常低。

因为遇到4个多多 高斯分布,那末 了亲戚亲戚朋友儿知道有过多过多过多过多算法,在默认状况下高思分布因为被执行地很好,为何让首先应该找到哪些地方地方算法。因为是泊松分布,亲戚亲戚朋友儿需要要不为何谨慎,选择4个多多 在空间扩展上对变化要有很好鲁棒性的算法。

过采样和欠采样是用于分类问題图片的技术。例如,亲戚亲戚朋友儿有1种分类的30个样本,但第2种分类只能30个样本。这将抛开亲戚亲戚朋友儿尝试和使用的某些机器学习技术来给数据建模并进行预测。那末 了,过采样和欠采样能只能应对什儿 状况。请看下图:

上图中的立方体表示亲戚亲戚朋友儿的数据集,它有4个维度,总共30个点。以现在的计算能力,计算30个点很容易,但因为更大的规模,就会遇到麻烦了。然而,仅仅从二维的厚度来看亲戚亲戚朋友儿的数据,比如从立方体一侧的厚度,能只能就看划分所有的颜色是很容易的。通过降维,亲戚亲戚朋友儿将3D数据展现到2D平面上,这有效地把亲戚亲戚朋友儿需要计算的点的数量减少到30个,大大节省了计算量。



型态统计因为是数据科学中最常用的统计学概念。它有你在研究数据集时总是使用的统计技术,包括偏差、方差、平均值、中位数、百分数等等。理解型态统计为何让在代码中实现需要非常容易的。请看下图:

本文作者:George Seif

用于降维的最常见的统计技术是PCA,它本质上创建了型态的向量表示,表明了它们对输出的重要性,即相关性。PCA能只能用来进行上述并需要降维最好的方式的操作。

详细理解为哪些地方在亲戚亲戚朋友儿使用贝叶斯统计的完后 ,要求首先理解频率统计失败的地方。大多数人在听到“概率”什儿 词的完后 ,频率统计是首先想到的统计类型。它涉及应用某些数学理论来分析事件处于的概率,明确地说,亲戚亲戚朋友儿唯一计算的数据是先验数据(prior data)。





过采样和欠采样

型态统计

贝叶斯统计

本文来自云栖社区战略战略合作伙伴“数据分析”,了解相关信息能只能关注“数据分析”。



常见的概率分布,均匀分布(上)、正态分布(里边)、泊松分布(下):



利用统计学,亲戚亲戚朋友儿能只能更深入、更细致地观察数据是怎么进行精确组织的,为何让基于什儿 组织型态,怎么够以最佳的形式来应用其它相关的技术以获取更多的信息。今天,亲戚亲戚朋友儿来看看数据科学家需要掌握的4个基本的统计学概念,以及怎么有效地进行应用。

另并需要最好的方式是亲戚亲戚朋友儿能只能通过型态剪枝来减少维数。利用什儿 最好的方式,亲戚亲戚朋友儿删除任何所就看的型态对分析需要重要。例如,在研究数据集完后 ,亲戚亲戚朋友儿因为会发现,在10个型态中,有7个型态与输出具有很高的相关性,而其它4个则具有非常低的相关性。那末 了,这4个低相关性的型态因为不值得计算,亲戚亲戚朋友儿因为因此能在不影响输出的状况下将它们从分析中去掉 。

降维什儿 术语能只能很直观的理解,意思是降低4个多多 数据集的维数。在数据科学中,这是型态变量的数量。请看下图:

为何让,因为其他同学我就个特定的骰子总能掷出6个点呢?因为频率分析仅仅考虑完后 的数据,而我就作弊的骰子的因素并那末 了被考虑进去。