统计学基础三

数据的描述性分析:概括性度量

Posted by Xiaotong on July 29, 2017

水平的描述

平均数(mean)

  1. 平均数也称均值,是一组数据相加后除以数据的个数得到的结果;
  2. 样本平均数是度量数据水平的常用统计量,在参数估计及假设检验中经常用到;

中位数(median)

  1. 中位数是一组数据排序后处于中间位置上的数值,用Me表示;
  2. 如果样本容量为奇数,则中间位置的数字为中位数;如果为偶数,则为两数值的平均数;

分位数

  1. 四分位数(quartile)
  2. 十分位数(decile)
  3. 百分位数(percentile)

众数(mode)

  1. 众数是一组数据中出现频数最多的数值,用Mo表示;

差异的描述

极差(range)

  1. 极差是一组数据的最大值与最小值之差,也称全距,用R表示;
  2. 容易受极端值影响,一般很少使用;

四分位差(quartile deviation)

  1. 是一组数据75%位置上的四分位数与25%位置上的四分位数之差,也称内距或四分位距(inter-quartile range),用Qd表示,或用IQR表示;
  2. IQR=Q75%-Q25%

方差(variance)

  1. 定义:离均值平方和/自由度

  2. 无纲量,

标准差(standard deviation)

  1. 定义:

  2. 有纲量,与原始单位的计量单位相同,常用。

变异系数(coefficient of variation)

  1. 变异系数也称离散系数,是一组数据的标准差与其相应的平均数之比;

  2. vs=s/x(markdown的数学符号表述有点搞不定,随后修订)

  3. 用于消除数据的取值大小和计量单位对标准差的影响,因此可以反映一组数据的相对离散程度;

  4. 离散系数主要用来比较不同样本数据的离散程度。离散系数大的署名数据的相对离散程度大,离散系数小的说明相对离散程度小。(平均数接近0时特殊考虑)

标准得分(standard score)

  1. 也就是z值;

  2. 标准得分的作用是把一组数据进行标准化处理,即转化成平均数为0,标准差为1的新数据;

  3. 标准得分是对原始数据的线性变换,没有改变某个数值在该数组中的位置,也没有改变分布的形状;

  4. 根据标准得分,可以判断一组数据中是否存在的离群点

z值 范围
1 约有68%的数据在加减一个标准差范围之内
2 约有95%的数据在加减两个标准差范围之内
3 约有99%的数据在加减三个标准差范围之内
>3 大于加减三个标准差范围内的数据为离群点
  1. 切比雪夫不等式(Chebyshev‘s inequality)的使用
    • 使用条件:数据的分布不对称;
    • 定义:至少有$1-\frac{1}{k^2}$的数据落在平均数加减k个标准差的范围之内;
    • k=2:至少有75%的数据落在平均数加减2个标准差的范围内;
    • k=3:至少有89%的数据落在平均数加减3个标准差的范围内;
    • k=4:至少有94%的数据落在平均数加减4个标准差的范围内;

分布形状的描述

偏态(skewness)

  1. 偏态指数是数据分布的不对称性;
  2. 偏斜系数(coefficient of skewness):SK
  3. 对称分布的偏斜系数等于0,所以SK越接近于0,偏斜程度就越低,分布就越接近于对称;
-1<SK -1<SK<-0.5 -0.5<SK<0 SK=0 0<SK<0.5 0.5<SK<1 1<SK
严重偏态 中等偏态 轻微偏态 对称 轻微偏态 中等偏态 严重偏态
  长尾在左 左偏分布   右偏分布 长尾在右  

峰度(kurtosis)

  1. 峰度是指数据分布峰值的高低;
  2. 峰度系数(coefficient of kurtosis):K
  3. 峰度通常是与标准正态分布相比较而言的,标准正态分布的峰度系数为0
K值 特征
K>0 尖峰分布,数据相对集中
K=0  
K<0 扁平分布,数据相对分散