统计学基础二

数据的描述性分析:图表展示

Posted by Xiaotong on July 29, 2017

定性数据的图表展示

用频数分布表观察定性数据

频数分布(frequency distribution)

频数(frequency):落在某一特定类别的数据个数

频数分布(frequency distribution):是指由变量的取值及其相应的频数形成的分布。

频数分布表(frequency distribution table):是指展示变量的取值及其相应频数分布的表格。

列联表(continuous table):是指有两个变量交叉分类的频数分布表,又称交叉表(cross table)。

其他分析指标

比例(proportion):一个样本(或总体)中各类别的频数占全部频数的比值。

百分比(percentage):

比率(ratio):一个样本(或总体)中各不同类别频数之间的比值。

累计百分比(cumulative percentage):用于分析有序定性数据。

用图形展示定性数据

条形图(bar chart)

饼图(pie chart)

定量数据的图表展示

用频数分布表观察

用图形展示定量数据

直方图(histogram)

茎叶图(stem-and-leaf plot)

箱线图(boxplot)

  1. 箱线图是根据一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这五个值绘制而成的;
  2. 不仅可以用来反映一组数据的分布特征,而且可以进行多组数据分布特征的比较;
  3. 离群点:把与25%四分位数或75%四分位数的距离超过四分位差的1.5倍的数值定义为离群点;
  4. 极端值:把与25%四分位数或75%四分位数的距离超过四分位差的3倍的数值定义为极端值;

垂线图(drop-line)

误差图(error bar)

  1. 误差图是以均值为中心,加减一定倍数的标准差(标准误)绘制而成的,也可以绘制均值的一定置信水平的置信区间);
  2. 误差图可以用来展示多个样本或分类的不同取值的分布状况和离散状况;

散点图(scatter diagram)

  1. 散点图可以用来观察多个数值变量之间的关系。

气泡图

  1. 大杀器

使用图表的注意事项

  1. 饼图是最不实用的一种,它在报告中的应用率应该低于5%——麦肯锡《用图表说话》;
  2. 纵坐标要从0开始,不要根据需要任意改动;
  3. 不要随意截断柱状图;
  4. 纵坐标的刻度要保持一致;
  5. 避免过于复杂的图形;