什么是方差?什么是标准差?方差标准差的计算公式是什么?
发布于 作者:苏南大叔 来源:程序如此灵动~本文描述数据分析的时候,会遇到的几个比较相似的数学概念,样本方差/样本标准差/总体方差/总体标准差。这几个词是不是看着头有些大呢?这几个方差相关的名词究竟有什么区别呢?
大家好,这里是苏南大叔的程序如此灵动博客,记录苏南大叔的代码所学所想。本文描述方差、标准差等数学概念。当然了,数学概念是不以编程语言的变化而变化的。所以,也并不列出编程环境了。
什么是方差
方差的定义如下:
方差是衡量数据分散程度的一种统计量,它是各数据离平均数偏离程度平方的平均数。方差越大,则表示数据越分散。方差越小,则表示数据越集中。方差是一种常用的统计学指标,可以描述数据的稳定性。
样本方差 = ((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/(n-1)
总体方差 = ((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n
什么是标准差
标准差的定义如下:
标准差是离均差平方的算术平均数(即:方差)的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
样本标准差 = 方差的算术平方根 = s = sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/(n-1))
总体标准差 = σ = sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n )
公式表达
相关公式如下图所示:
方差/标准差主要是用于描述样本内部的数据离散程度的(样本偏离平均数的情况)。苏南大叔用更通俗的概率理解的话,就是描述“振幅”的。
- 方差是标准差的平方,标准差就是方差开平方。标准差*标准差=方差。
- “样本”观察的是其中一部分数据,而“总体”观察的则是全部数据。(体现在公式里面就是,分母不同数量差1)
- 如果没有特别强调是“样本”字样的话,说的都是总体方差或者总体标准差。
- 更常用的是(总体)方差。
数据例子
目标数据为“2,4,6”,相关数据计算如下:
- 样本总数3,这个不解释。
- 样本的算术平均数4,这个大家也都会计算。(2 + 4 + 6)/ 3 = 4
- 样本方差为4,(总体)方差为2.66667。【算法请往下看】
- 样本标准差为2,(总体)标准差为1.63299。【算法请往下看】
计算方差
原始数据为[2,4,6],那么平均数为(2+4+6)/3=4。然后,样本数-平均数为[-2,0,2],平方为[4,0,4],总和为8。
- 求样本方差的话,就是取一部分数据(总数象征性减一),所以8/(3-1)=4。
- 求(总体)方差的话,就是取全部数据了。所以8/3=2.6667。【重点!!!】
计算标准差
标准差就是方差开方,所以:
- 求样本标准差,就是样本方差4开方=2。
- 求(总体)标准差,就是(总体)方差2.66667开方=1.63299。
在线验证工具
下面的两个链接是第三方的在线验证工具,大家可以用来验证自己的理解:
结束语
苏南大叔比较不喜欢数学,除了高考数学考了较高分数外,其它时候基本都是不及格。所以,这个方差标准差的概念也是花费了大力气去搞定的,希望对读者有所帮助。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。