本文介绍数据分析与统计中常用的基本概念和应用场景,可作为知识点提纲使用。
数据分析是基于某种业务目的,有目的的处理数据,提取有价值的信息,解决各种业务问题的过程。
数据收集:根据假设或问题树收集相应数据,要求数据准确、有效;SQL、业务调整信息
预处理加工:描述性统计分析(数据分布、数据趋势)、相关分析(正负相关、拟合、相关系数)
数据挖掘:聚类(层次分析、K均值、模糊聚类、高斯回归)、分类(决策树、神经网络、贝叶斯分类、SVM、随机森林)、回归分析(线性回归、logistic回归)
定序尺度:有序列分类,例如职称级别(讲师、副教授、教授);可用=数据统计、!= 或 、进行运算
定距尺度:例如温度;可用=、!= 或 、或 + 、- 进行运算
定比尺度:可用于数据大小、属性、加减乘除等;可用=、!= 或 、或 + 、- 、*、/ 进行运算
平均数:算法平均数、加权平均数、几何算法平均数(几何平均数是n个变量值连乘积的n次方根:对比率、指数等进行平均;复利下的平均年利率;连续作业的车间求产品的平均合格率)
方差variance:观察值的离均差平方和的算术平均数;刻画数据的波动程度和稳定性;区分
标准差standard deviation:方差的平方根;与原始数据单位相同,较方差更易于解释
变异系数/离散系数cofficient of variation:标准差/均值 * 100;百分比形式;去量纲、比较多组数据波动程度
数据分布用来描述变量的概率分布,即数据在各个区间分布的多少。可用数据偏态、数据峰度对数据分布进行描述。
峰度描述方法:峰度系数K(=0标准峰度,0尖顶峰度分布,0平顶峰度分布)
盒式图:显示数据的离散情况,中位数、四分位数、上下边缘、异常值(四分位与边缘间为温和异常值,上下边缘以外为异常值)
上下边缘不是极大极小值,上边缘 = Q3 + 1.5(Q3-Q1),下边缘 = Q1 - 1.5(Q3-Q1)
使用箱式图判断异常值无需假设数据服从正态分布(相比3sigma方法),并且数据抗耐高
正态分布是对称的,概率曲线最高点在均值处,标准正态分布是指均值为0,标准差为1的正态分布、3sigma准则:质量检测、剔除异常值z标准化:将正态分布转化为标准正态分布
用于卡方检验若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布
t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线。t检验、独立性检验等
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。
对于任何分布的总体,若样本容量较大,能够用正态概率分布来近似样本均值的抽样分布。通常样本容量达到30(样本中的单位数达到30)即可满足定理的大样本条件。
根据样本容量不同、估计均值或比例的不同,选取不同的检验统计量大样本——z分布小样本——t分布
通过样本数据检验对总体的假设。基本思想:反证法,基于小概率时间不发生的准则和总体的假设,根据样本数据获得的样本统计量分布,得到抽样过程中的极端或错误现象的小概率时间,从而做出对假设的否定判断。假设:原假设、备择假设
计算检验统计量,做出判断:计算结果落在拒绝域中,则表明小概率事件发生,拒绝原假设
Z检验:统计量满足正态分布。用于单个正态总体均值检验;两个正态总体均值之差检验,方差已知;
t检验:统计量满足t分布。单个正态总体均值检验,方差未知;两个正态总体均值/比例检验,方差相等但未知(同一群体的两次实验);两个正态总体均值/比例检验,方差不等且未知(AB测试)
卡方检验:统计量服从卡方分布,样本来自正态总体,用于单个正态总体方差检验;
F检验:统计量服从F分布,样本数据来自两个正态总体,用于两个正态总体方差检验。
方差分析用来描述多个总体的差异性,检验多个总体均值是否相同。通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著性影响。