统计学

统计学基础三

数据的描述性分析：概括性度量

Posted by Xiaotong on July 29, 2017

水平的描述

平均数（mean）

平均数也称均值，是一组数据相加后除以数据的个数得到的结果；
样本平均数是度量数据水平的常用统计量，在参数估计及假设检验中经常用到；

中位数（median）

中位数是一组数据排序后处于中间位置上的数值，用Me表示；
如果样本容量为奇数，则中间位置的数字为中位数；如果为偶数，则为两数值的平均数；

分位数

四分位数（quartile）
十分位数（decile）
百分位数（percentile）

众数（mode）

众数是一组数据中出现频数最多的数值，用Mo表示；

差异的描述

极差（range）

极差是一组数据的最大值与最小值之差，也称全距，用R表示；
容易受极端值影响，一般很少使用；

四分位差（quartile deviation）

是一组数据75%位置上的四分位数与25%位置上的四分位数之差，也称内距或四分位距（inter-quartile range），用Qd表示，或用IQR表示；
IQR=Q75%-Q25%

方差（variance）

定义：离均值平方和／自由度 $s^2=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}$
无纲量，

标准差（standard deviation）

定义： $s=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}}$
有纲量，与原始单位的计量单位相同，常用。

变异系数（coefficient of variation）

变异系数也称离散系数，是一组数据的标准差与其相应的平均数之比；
vs=s／x（markdown的数学符号表述有点搞不定，随后修订） $v_s=\frac s {\bar {x}} \$
用于消除数据的取值大小和计量单位对标准差的影响，因此可以反映一组数据的相对离散程度；
离散系数主要用来比较不同样本数据的离散程度。离散系数大的署名数据的相对离散程度大，离散系数小的说明相对离散程度小。（平均数接近0时特殊考虑）

标准得分（standard score）

也就是z值； $z_i=\frac{x_i-{\bar{x}}}{s}$
标准得分的作用是把一组数据进行标准化处理，即转化成平均数为0，标准差为1的新数据；
标准得分是对原始数据的线性变换，没有改变某个数值在该数组中的位置，也没有改变分布的形状；
根据标准得分，可以判断一组数据中是否存在的离群点

z值	范围
1	约有68%的数据在加减一个标准差范围之内
2	约有95%的数据在加减两个标准差范围之内
3	约有99%的数据在加减三个标准差范围之内
>3	大于加减三个标准差范围内的数据为离群点

切比雪夫不等式（Chebyshev‘s inequality）的使用
- 使用条件：数据的分布不对称；
- 定义：至少有$1-\frac{1}{k^2}$的数据落在平均数加减k个标准差的范围之内；
- k=2:至少有75%的数据落在平均数加减2个标准差的范围内；
- k=3:至少有89%的数据落在平均数加减3个标准差的范围内；
- k=4:至少有94%的数据落在平均数加减4个标准差的范围内；

分布形状的描述

偏态（skewness）

偏态指数是数据分布的不对称性；
偏斜系数（coefficient of skewness）：SK
对称分布的偏斜系数等于0，所以SK越接近于0，偏斜程度就越低，分布就越接近于对称；

-1<SK	-1<SK<-0.5	-0.5<SK<0	SK=0	0<SK<0.5	0.5<SK<1	1<SK
严重偏态	中等偏态	轻微偏态	对称	轻微偏态	中等偏态	严重偏态
	长尾在左	左偏分布		右偏分布	长尾在右

峰度（kurtosis）

峰度是指数据分布峰值的高低；
峰度系数（coefficient of kurtosis）：K
峰度通常是与标准正态分布相比较而言的，标准正态分布的峰度系数为0

K值	特征
K>0	尖峰分布，数据相对集中
K=0
K<0	扁平分布，数据相对分散