统计学(Statistics)
统计学是收集、处理、分析、解释数据并从数据中得出结论的原则和方法。
数据收集
方法 |
特征 |
观察法 |
通过调查或观测获得数据 |
实验法 |
在控制实验对象条件下通过实验获得 |
数据处理
数据分析
数据分析就是利用统计方法对数据进行分析
方法 |
特征 |
描述统计 descriptive statistics |
利用图表形式对数据进行展示,或通过计算一些简单的统计量(比例、利率、平均数、标准差)对数据进行分析。 |
推断统计 inferential statistics |
主要研究如何根据样本信息来推断总体特征,内容包括参数估计和假设检验两大类。 |
- 参数估计:是利用样本信息推断所关心的总体特征
- 假设检验:是利用样本信息判断对总体的某个假设是否成立
数据解释
数据解释是对分析结果的说明,包括结果的含义、从分析中得出的结论等。
变量(variable)
变量是描述观察对象特征的概念
变量的分类
分类 |
特征 |
定性变量 qualitative variable |
取值为事物属性或类别以及区间值的变量,也被称为类别变量(categorical variable)或者分类变量(classified variable) |
定量变量 quantitative variable |
取值为数字的变量,也被称为数值变量(metric variable) |
定性变量的分类
分类 |
特征 |
举例 |
无序类别变量,又称名义值(nominal) |
其取值是不可排序的 |
旅游业、建筑业、零售业 |
有序类别变量,又称顺序值(ordinal) |
其取值可以排序 |
优良中差、男女(二值类别变量binary) |
定量变量的分类
分类 |
特征 |
举例 |
离散变量 discrete variable |
只能取有限个值的变量,而且其取值可以一一例举。 |
产品数量、人数 |
连续变量 continuous variable |
可以在一个或多个区间中任意取值的变量,不能一一例举。 |
|
数据(data):
数据是变量的观测结果,即定性变量的观测结果为定性数据,定量变量的观测结果为定量数据。
数据的来源
分类 |
特征 |
来源举例 |
一手数据(实验数据) |
|
问卷调查、实验数据 |
二手数据(公共数据) |
经济方便、注意口径、标明来源 |
研究机构、统计部门 |
概率抽样(probability sampling)
简单随机抽样(simple random sampling)
- 定义:从含有N个元素的总体(population)中,抽取n个元素组成样本,使得总体中每一个元素都有相同的机会(概率)被抽中。
- 分类:
- 有放回抽样(sampling with replacement)
- 无放回抽样(sampling without replacement)
分层抽样(stratifiedsampling)
- 定义:也称分类抽样。是在抽样前,先将总体的元素划分为若干层(类),然后从各层中抽取一定数量的元素组成一个样本。
- 特点:可以使样本分布在各个层内,从而使样本在总体中的分布比较均匀,降低抽样误差。
系统抽样(systematic sampling)
- 定义:也称等距抽样。是在抽样前,先将总体的元素按某种顺序排列,并按某种规则确定一个随机起点,然后每隔一定的距离抽取一个元素,直至抽取n个元素组成一个样本为止。
整群抽样(cluster sampling)
- 定义:先将总体划分为若干群,然后以群作为抽样单元,从中抽取部分群组成一个样本,再对抽中的每个群中所包含的所有元素进行观察。
常用统计软件
- Excel
- SAS
- R
- SPSS
- Minitab
- JMP