统计学基础一

数据与统计学

Posted by Xiaotong on July 28, 2017

统计学(Statistics)

统计学是收集、处理、分析、解释数据并从数据中得出结论的原则和方法。

数据收集

方法 特征
观察法 通过调查或观测获得数据
实验法 在控制实验对象条件下通过实验获得

数据处理

数据分析

数据分析就是利用统计方法对数据进行分析

方法 特征
描述统计 descriptive statistics 利用图表形式对数据进行展示,或通过计算一些简单的统计量(比例、利率、平均数、标准差)对数据进行分析。
推断统计 inferential statistics 主要研究如何根据样本信息来推断总体特征,内容包括参数估计和假设检验两大类。
  1. 参数估计:是利用样本信息推断所关心的总体特征
  2. 假设检验:是利用样本信息判断对总体的某个假设是否成立

数据解释

数据解释是对分析结果的说明,包括结果的含义、从分析中得出的结论等。


变量(variable)

变量是描述观察对象特征的概念

变量的分类

分类 特征
定性变量 qualitative variable 取值为事物属性或类别以及区间值的变量,也被称为类别变量(categorical variable)或者分类变量(classified variable)
定量变量 quantitative variable 取值为数字的变量,也被称为数值变量(metric variable)

定性变量的分类

分类 特征 举例
无序类别变量,又称名义值(nominal) 其取值是不可排序的 旅游业、建筑业、零售业
有序类别变量,又称顺序值(ordinal) 其取值可以排序 优良中差、男女(二值类别变量binary)

定量变量的分类

分类 特征 举例
离散变量 discrete variable 只能取有限个值的变量,而且其取值可以一一例举。 产品数量、人数
连续变量 continuous variable 可以在一个或多个区间中任意取值的变量,不能一一例举。  

数据(data):

数据是变量的观测结果,即定性变量的观测结果为定性数据,定量变量的观测结果为定量数据。

数据的来源

分类 特征 来源举例
一手数据(实验数据)   问卷调查、实验数据
二手数据(公共数据) 经济方便、注意口径、标明来源 研究机构、统计部门

概率抽样(probability sampling)

简单随机抽样(simple random sampling)

  1. 定义:从含有N个元素的总体(population)中,抽取n个元素组成样本,使得总体中每一个元素都有相同的机会(概率)被抽中。
  2. 分类:
    • 有放回抽样(sampling with replacement)
    • 无放回抽样(sampling without replacement)

分层抽样(stratifiedsampling)

  1. 定义:也称分类抽样。是在抽样前,先将总体的元素划分为若干层(类),然后从各层中抽取一定数量的元素组成一个样本。
  2. 特点:可以使样本分布在各个层内,从而使样本在总体中的分布比较均匀,降低抽样误差。

系统抽样(systematic sampling)

  1. 定义:也称等距抽样。是在抽样前,先将总体的元素按某种顺序排列,并按某种规则确定一个随机起点,然后每隔一定的距离抽取一个元素,直至抽取n个元素组成一个样本为止。

整群抽样(cluster sampling)

  1. 定义:先将总体划分为若干群,然后以群作为抽样单元,从中抽取部分群组成一个样本,再对抽中的每个群中所包含的所有元素进行观察。

常用统计软件

  1. Excel
  2. SAS
  3. R
  4. SPSS
  5. Minitab
  6. JMP