统计的本质就是从原始的数据中找出重要的有用的信息,我们在数据分析中经常提到的“指标”一词,指的就是具备业务意义的统计数据。统计学中的描述性统计,是指运用分类、制表、绘图、概括性计算等操作来描述数据的各项特征,通常是针对所有数据而不是部分数据进行的操作,主要包括数据的频数分析、集中趋势分析、离散程度分析以及一些基本统计图表的绘制。
在统计学中,通过试验、观察、调查等获得的材料被称为数据。首先数据不止是整数和小数,日期、时间、文本、图像、声音、视频都可以是数据;其次数据并不是简单的几个记录值,它通常还需要具备来源、量纲、单位以及业务意义等相关信息。我们大致可以把数据分为定性数据和定量数据,其中定性数据按照计量特征又可以细分为定类尺度和定序尺度,定量数据也可以细分为定距尺度和定比尺度,如下表所示。
对于定量数据的呈现,如果想了解数据的分布,可以先对数据进行分箱。所谓分箱其实就是对连续数据的离散化,将连续的数据根据其取值放到不同的分组中,以此为基础,我们就可以绘制出直方图(histogram),如下所示。
如果想了解两组数据之间的关系,我们可以使用散点图(scatter diagram),如下所示。散点图可以帮助我们理解数据之间的相关性,而对于相关性的探索是数字化运营中帮助我们找到运营抓手的关键。我们也可以通过协方差(covariance)或相关系数(correlation)来了解两组数据的相关性,后面会专门用一个章节来探讨相关和回归的内容,因为这些知识对于数据分析师来说是非常重要的。
统计学中,数据的集中趋势指的是一组数据向某一中心靠拢的程度,它反映了一组数据中心点的位置。我们通常会使用均值、中位数和众数来度量数据的集中趋势。
均值代表某个数据集的整体水平,数据分析师口中的客单价、平均访问时长、平均配送时长等指标都是均值。均值是对数据进行概括的一个强有力的方法,将大量的数据浓缩成了一个数据。均值的缺点是容易受极值的影响,可以使用加权平均值或去尾平均值来消除极值的影响;对于正数可以用几何平均值来替代算术平均值。
中位数是将数据按照升序或降序排列后位于中间的数,它描述了数据的中等水平。中位数的计算分两种情况:
在 Excel 中,可以使用MEDIAN、QUARTILE.EXC或函数来计算中位数,后面两个函数还可以计算四分位数,四分位数就是排序后位于25%和75%位置上的数,较小的那个分位数称为“下四分位数”,通常记作\small{Q_1},较大的那个分位数称为“上四分位数”,通常记作\small{Q_3}。很显然,中位数就是50%分位数,因此中位数也可以记作\small{Q_2}。值得一提的是,Excel 中两个四分位数的位置是按照\small{\frac{n + 3}{4}}和\small{\frac{3n + 1}{4}}进行计算的,著名的 Python 三方库 numpy 中也用同样的方式来获得四分位数的位置;但是在另一个统计工具 SPSS 中,对应的公式是\small{\frac{n + 1}{4}}和\small{\frac{3(n + 1)}{4}}。如果熟悉 Python 语言,你可以使用statistics模块的median()函数或quantiles()函数来计算中位数,后者除了可以找到中位数外,还可以计算出百分位数,例如10%分位数,95%分位数等。
众数是数据集合中出现频次最多的数据,它代表了数据的一般水平。如果数据没有明显的集中趋势,那么众数很有可能就不存在;如果数据非常集中,众数的代表性就会很好。众数一般不会受到极端值的影响,但是无法保证唯一性和存在性。在 Excel 中,可以使用MODE.SNGL或MODE.MULT来找出众数;在 Python 中,可以使用statistics模块的mode()函数或multimode()函数来找出众数。
可以看出,由于加入了一个极端值,A组的均值会大幅度提升,但中位数和众数却没有变化。
如果说数据的集中趋势,说明了数据最主要的特征;那么数据的离散趋势,则体现了这个特征的稳定性。用通俗的话讲,数据波动越小,均值的代表性就越强;数据波动越大,均值的代表性就越弱。
极值指的就是数据中的最大值(maximum)和最小值(minimum),他们代表了数据集的上限和下限。在 Excel 中,计算极值的函数是MAX和MIN。
极差又称“全距”(range),是一组数据中的最大观测值和最小观测值之差,记作\small{R}。一般情况下,极差越大,离散程度越大,数据受极值的影响也越严重。
四分位距离(inter-quartile range)是一组数据上四分位数和下四分位数之差,通常记为\small{IQR}。四分位距离越小,说明数据中间50%的数据越集中;反之四分位距离越大,说明数据中间50%的数据越分散。四分位距离不受极端值的影响,它的大小很好的反映了中位数对一组数据的代表程度。
4. 方差方差(variance)是将数据集中的每个值与均值的偏差进行平方,然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大,就意味着数据越不稳定、波动越剧烈,也就是说数据整体比较分散,呈现出离散的趋势;而方差越小,意味着数据越稳定、波动越平滑,也就是说代表着数据整体比较集中。
s^2 = \frac {\sum_{i=1}^{n}(x_i - \bar{x})^2} {n-1} \tag{5}
)是总体的一个子集,即从总体中抽取出一部分元素构成的集合。总体中全部个体的数量通常记为
。大家可以看看总体方差和样本方差计算公式的差别,然后思考一下为什么会有这样的差别,这里会涉及到统计学中一个叫做“自由度”(
在 Excel 中,计算方差的函数分别是VAR.P和VAR.S,前者用于计算总体方差,后者用于计算样本方差;在 Python 中,可以使用statistics模块的pvariance()函数和variance()函数来计算总体方差和样本方差。
标准差(standard deviation)是将方差进行平方根运算后的结果,与方差一样都是表示数据与期望值的偏离程度。
在 Excel 中,计算标准差的函数分别是STDEV.P和STDEV.S,前者用于计算总体标准差,后者用于计算样本标准差;在 Python 中,可以使用statistics模块的pstdev()函数和stdev()函数来计算总体标准差和样本标准差。
变异系数(coefficient of variation,CV)又称离散系数、变差系数,是一组数据离散程度的一种归一化量度,其定义为标准差\small{\sigma}与平均值\small{\mu}之比,如下所示:
CV = \frac{\sigma}{\mu} \tag{8}变异系数只在平均值不为零时有定义,而且一般适用于平均值大于零的情况数据统计。变异系数也被称为标准离差率或单位风险。变异系数没有量纲,因此在比较两组量纲不同或均值不同的数据时,它比标准差更具参考性。 例如:投资项目A的预期回报率为7%,标准差为5%;投资项目B的预期回报率为12%,标准差为8%,你认为哪个项目的投资风险大?如果只从标准差考虑,似乎项目B的风险更大,但由于项目A与项目B的预期回报率(均值)不同,用变异系数来比较两个项目是更好的选择,变异系数大代表的是单位风险大,大家可以用变异系数算一下到底是哪个项目投资风险更大。
有了均值和标准差之后,可以给数据中的每个值计算标准分数(standard score),计算方法如下所示:
z_i= \frac{x_i - \mu}{\sigma} \tag{9}标准分数可以表示每个数值在一组数据中的相对位置并帮助我们判断是否有离群点(\small{z_i}的绝对值大于3)。标准分数只是对原始数据进行了线性变换,并没有改变某个数值在该组数据中的位置,也没有改变改组数据分布的轮廓。将上面的公式作用于一组数据的过程称为数据的标准化。
我们可以先计算出三个渠道拉新人数的总数或均值,这里非常凑巧,三个渠道每日拉新人数的均值都是247人。这个时候,我们可以进一步考虑数据的离散趋势,通过上面的讲解我们知道,方差或标准差越大,数据的波动(不稳定性)就越大,均值的代表性就越弱。换句话说,方差或标准差越大的渠道,投放的风险就越高,有可能会赚得盆满钵满,但是也有可能会血亏。如果需要规避这样的风险,我们会建议优化掉方差或标准差最大的渠道。大家可以按照这个思路,把你的结论留在评论区。
频数分析是用一定的方式将数据分组,然后统计每个分组中样本的数量,再辅以图表(如直方图)直观展示数据分布趋势的一种方法。频数分析的业务意义包括:
但是,仅仅依靠上面的统计数据还是很难对数据集做出全面的解读,我们可以把学生按照考试成绩进行分组,如下所示。
我们可以利用直方图来查看数据分布的形态,对数据分布形态的测度主要以正态分布为标准进行衡量,正态分布在坐标轴上的形状是一个铃铛型(钟型),正态曲线以均值为中心左右对称,如下图所示。
在 Excel 中,我们可以将上面的学生考试成绩绘制成如下所示的柱状图,可以看出数据呈现出正态分布的轮廓,这说明考试题没有特别简单,也没有特别难,能够有效的反馈学生的学习效果。
如果我们在直方图上再拟合出一条曲线与正态曲线进行比较,比较的重点是曲线的尖峭程度和对称性,我们可以将其称之为峰度和偏态。数据分布的不对称性称为偏态,偏态又分为正偏(positive skew)或负偏(negative skew)两种。在正态分布的情况下,均值、中位数、众数应该都在对称轴的位置,如果众数和中位数在左边,均值在右边,那么数据的极端值也在右边,数据分布曲线向右延伸,就是我们说的正偏(右偏);如果均值在左边,中位数和众数在右边,那么数据的极端值在左边,数据分布曲线向左延伸,就是我们说的负偏(左偏),如下图所示。
对于上面的学生考试成绩,偏态系数为0.00436,说明数据没有明显的左偏(分数偏高的学生更多)或右偏(分数偏低的学生更多),峰度系数为0.069634,说明学生成绩分布跟正态分布轮廓基本是吻合的。
描述性统计通常用于研究表象,将现象用数据的方式描述出来(用全部的数据来描述整体的特征);后面我们要讲的推断性统计通常用于通过现象推测本质(用样本数据的特征去推断总体数据特征),也就是你看到的表象有多大概率符合你对隐藏在表象后的本质的猜测。