水平的描述
平均数(mean)
- 平均数也称均值,是一组数据相加后除以数据的个数得到的结果;
- 样本平均数是度量数据水平的常用统计量,在参数估计及假设检验中经常用到;
中位数(median)
- 中位数是一组数据排序后处于中间位置上的数值,用Me表示;
- 如果样本容量为奇数,则中间位置的数字为中位数;如果为偶数,则为两数值的平均数;
分位数
- 四分位数(quartile)
- 十分位数(decile)
- 百分位数(percentile)
众数(mode)
- 众数是一组数据中出现频数最多的数值,用Mo表示;
差异的描述
极差(range)
- 极差是一组数据的最大值与最小值之差,也称全距,用R表示;
- 容易受极端值影响,一般很少使用;
四分位差(quartile deviation)
- 是一组数据75%位置上的四分位数与25%位置上的四分位数之差,也称内距或四分位距(inter-quartile range),用Qd表示,或用IQR表示;
- IQR=Q75%-Q25%
方差(variance)
-
定义:离均值平方和/自由度
-
无纲量,
标准差(standard deviation)
-
定义:
-
有纲量,与原始单位的计量单位相同,常用。
变异系数(coefficient of variation)
-
变异系数也称离散系数,是一组数据的标准差与其相应的平均数之比;
-
vs=s/x(markdown的数学符号表述有点搞不定,随后修订)
-
用于消除数据的取值大小和计量单位对标准差的影响,因此可以反映一组数据的相对离散程度;
-
离散系数主要用来比较不同样本数据的离散程度。离散系数大的署名数据的相对离散程度大,离散系数小的说明相对离散程度小。(平均数接近0时特殊考虑)
标准得分(standard score)
-
也就是z值;
-
标准得分的作用是把一组数据进行标准化处理,即转化成平均数为0,标准差为1的新数据;
-
标准得分是对原始数据的线性变换,没有改变某个数值在该数组中的位置,也没有改变分布的形状;
-
根据标准得分,可以判断一组数据中是否存在的离群点
z值 | 范围 |
---|---|
1 | 约有68%的数据在加减一个标准差范围之内 |
2 | 约有95%的数据在加减两个标准差范围之内 |
3 | 约有99%的数据在加减三个标准差范围之内 |
>3 | 大于加减三个标准差范围内的数据为离群点 |
- 切比雪夫不等式(Chebyshev‘s inequality)的使用
- 使用条件:数据的分布不对称;
- 定义:至少有$1-\frac{1}{k^2}$的数据落在平均数加减k个标准差的范围之内;
- k=2:至少有75%的数据落在平均数加减2个标准差的范围内;
- k=3:至少有89%的数据落在平均数加减3个标准差的范围内;
- k=4:至少有94%的数据落在平均数加减4个标准差的范围内;
分布形状的描述
偏态(skewness)
- 偏态指数是数据分布的不对称性;
- 偏斜系数(coefficient of skewness):SK
- 对称分布的偏斜系数等于0,所以SK越接近于0,偏斜程度就越低,分布就越接近于对称;
-1<SK | -1<SK<-0.5 | -0.5<SK<0 | SK=0 | 0<SK<0.5 | 0.5<SK<1 | 1<SK |
---|---|---|---|---|---|---|
严重偏态 | 中等偏态 | 轻微偏态 | 对称 | 轻微偏态 | 中等偏态 | 严重偏态 |
长尾在左 | 左偏分布 | 右偏分布 | 长尾在右 |
峰度(kurtosis)
- 峰度是指数据分布峰值的高低;
- 峰度系数(coefficient of kurtosis):K
- 峰度通常是与标准正态分布相比较而言的,标准正态分布的峰度系数为0
K值 | 特征 |
---|---|
K>0 | 尖峰分布,数据相对集中 |
K=0 | |
K<0 | 扁平分布,数据相对分散 |