我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...

本文描述数据分析的时候,会遇到的几个比较相似的数学概念,样本方差/样本标准差/总体方差/总体标准差。这几个词是不是看着头有些大呢?这几个方差相关的名词究竟有什么区别呢?

苏南大叔:什么是方差?什么是标准差?方差标准差的计算公式是什么? - 方差标准差
什么是方差?什么是标准差?方差标准差的计算公式是什么?(图3-1)

大家好,这里是苏南大叔的程序如此灵动博客,记录苏南大叔的代码所学所想。本文描述方差、标准差等数学概念。当然了,数学概念是不以编程语言的变化而变化的。所以,也并不列出编程环境了。

什么是方差

方差的定义如下:
方差是衡量数据分散程度的一种统计量,它是各数据离平均数偏离程度平方的平均数。方差越大,则表示数据越分散。方差越小,则表示数据越集中。方差是一种常用的统计学指标,可以描述数据的稳定性。

样本方差 = ((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/(n-1)
总体方差 = ((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n

什么是标准差

标准差的定义如下:
标准差是离均差平方的算术平均数(即:方差)的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

样本标准差 = 方差的算术平方根 = s = sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/(n-1))
总体标准差 = σ = sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n )

公式表达

相关公式如下图所示:

苏南大叔:什么是方差?什么是标准差?方差标准差的计算公式是什么? - 方差公式
什么是方差?什么是标准差?方差标准差的计算公式是什么?(图3-2)

方差/标准差主要是用于描述样本内部的数据离散程度的(样本偏离平均数的情况)。苏南大叔用更通俗的概率理解的话,就是描述“振幅”的。

  • 方差是标准差的平方,标准差就是方差开平方。标准差*标准差=方差。
  • “样本”观察的是其中一部分数据,而“总体”观察的则是全部数据。(体现在公式里面就是,分母不同数量差1)
  • 如果没有特别强调是“样本”字样的话,说的都是总体方差或者总体标准差。
  • 更常用的是(总体)方差。

数据例子

目标数据为“2,4,6”,相关数据计算如下:

  • 样本总数3,这个不解释。
  • 样本的算术平均数4,这个大家也都会计算。(2 + 4 + 6)/ 3 = 4
  • 样本方差为4,(总体)方差为2.66667。【算法请往下看】
  • 样本标准差为2,(总体)标准差为1.63299。【算法请往下看】

苏南大叔:什么是方差?什么是标准差?方差标准差的计算公式是什么? - 在线demo
什么是方差?什么是标准差?方差标准差的计算公式是什么?(图3-3)

计算方差

原始数据为[2,4,6],那么平均数为(2+4+6)/3=4。然后,样本数-平均数为[-2,0,2],平方为[4,0,4],总和为8。

  • 求样本方差的话,就是取一部分数据(总数象征性减一),所以8/(3-1)=4。
  • 求(总体)方差的话,就是取全部数据了。所以8/3=2.6667。【重点!!!】

计算标准差

标准差就是方差开方,所以:

  • 求样本标准差,就是样本方差4开方=2。
  • 求(总体)标准差,就是(总体)方差2.66667开方=1.63299。

在线验证工具

下面的两个链接是第三方的在线验证工具,大家可以用来验证自己的理解:

结束语

苏南大叔比较不喜欢数学,除了高考数学考了较高分数外,其它时候基本都是不及格。所以,这个方差标准差的概念也是花费了大力气去搞定的,希望对读者有所帮助。

如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。