两种正态分布检验的方法

正态性检验 & 图形化汇总

Posted by Xiaotong on August 5, 2017

获取到干净的数据后,一般都会检验数据是否符合正太分布,下面介绍常用的两种检验数据正太性的方法。

正态性检验

Anderson–Darling 正态性检验

此检验是将样本数据的 ECDF(经验累积分布函数)与假设数据呈正态分布时期望的分布进行比较。如果实测差异足够大,您将否定总体呈正态分布的原假设。

Ryan-Joiner 正态性检验

此检验通过计算数据与数据的正态分值之间的相关性来评估正态性。如果相关系数接近 1,则总体很有可能呈正态分布。Ryan-Joiner 统计量可以评估这种相关性的强度;如果它小于适当的临界值,您将否定总体呈正态分布的原假设。此检验类似于 Shapiro-Wilk 正态性检验。

Kolmogorov-Smirnov 正态性检验

此检验将样本数据的 ECDF(经验累积分布函数)与假设数据呈正态分布时期望的分布进行比较。如果实测差异足够大,该检验将否定总体呈正态分布的原假设。如果此检验的 p 值小于您选择的 α,您可以否定原假设并断定总体呈非正态分布。

三种检验的比较

Anderson-Darling 和 Kolmogorov-Smirnov 检验基于经验分布函数。Ryan-Joiner(与 Shapiro-Wilk 类似)基于回归和相关性。

这三个检验都能够很好地确定在分布偏斜时分布不呈正态。这三个检验在基本分布为 t 分布且因峰度而呈非正态性时差别不大。通常情况下,在基于经验分布函数的两个检验中,Anderson-Darling 在检测分布的尾部偏斜方面更为有效。通常情况下,如果尾部偏离正态性是主要问题,那么很多统计学家将使用 Anderson-Darling 作为首要选择。

注意

如果您正在检查正态性,以准备进行正态能力分析,那么尾部是分布的最重要部分。

以上内容来自官方文档,链接到百度百科或Wiki,防止误导视听,因为原理我也搞不懂啊:D

下面说一下怎么用。

AD测试有两个指标

  • AD,越小越符合正态分布
  • p值,一般大于0.05认为符合正态分布,数值越大越符合程度越高。