基础统计理论
时间:2024-04-03浏览次数:
 在统计中,比较常见的是将数据分为3类,分别是:分类数据、顺序数据、数值型数据  (1)分类数据:按某种属性进行分类而得到的数据,分类没有明显的顺序概念,比如:性别可分为男、女,颜色可分为红色、黄色、白色等等  (2)顺序数据:按某种熟悉进行分类而得到的有序数据,比如:班级可分为1班、2班、3班,教育可分为小学、初中、高中、大学及以上等等  在进行数据分析时,如果遇到巨量数据,我们是很难做到对总

  在统计中,比较常见的是将数据分为3类,分别是:分类数据、顺序数据、数值型数据

  (1)分类数据:按某种属性进行分类而得到的数据,分类没有明显的顺序概念,比如:性别可分为男、女,颜色可分为红色、黄色、白色等等

  (2)顺序数据:按某种熟悉进行分类而得到的有序数据,比如:班级可分为1班、2班、3班,教育可分为小学、初中、高中、大学及以上等等

基础统计理论

  在进行数据分析时,如果遇到巨量数据,我们是很难做到对总体进行分析的,这不仅是因为处理效率会受影响,也是因为没有这种必要。我们在前面也介绍过总体和样本的概念,这就表示在统计学中,对样本进行统计分析,也是可以代表总体的特征情况的。

  通过对数据进行抽样,会生成与真实数据结果之间的误差,这种误差也大致可以分为2种:

  日常工作中,大家经常会纠结是用均值还是中位数来表示一份数据的平均水平。通常呢,如果你不希望极端异常值对数据造成影响,那你就用中位值,因为中位值不会受极端值的影响,而如果你不在意异常值的影响,那你就可以用均值数据统计。但一定要参考具体的场景,否则就会出现工资被平均的算法,比如:9人工资均5000,1个老总工薪50000,最终导致平均工资被拉高,造成数据失衡。

  分位值是指对数据排序后,处于不同比例位置的数据。中位数就是分位数中50%的位置。

  在分位数中,通常有几个我们经常关注的分位值:最小值、25%分位、50%分位(中位值)、75%分位、最大值。

  看到这几个值,不得不给大家介绍一种图表:箱线图。它很直观的展示了我们关注的这几个分位值,能清晰的描述数据之间的分布情况。

  平均数,也可以简称为均值,它是描述数据集中趋势的一种非常重要的方法,并且它非常容易受到极端数据的影响。

  比如,某APP的付费人数可以分为新用户和老用户,人数比例为3:7,则我们在计算到总计的付费率后,需要具体分析影响程度时,可以参考一下:

  总付费率=新用户的占比30%*新用户的付费率+老用户的占比70%*老用户的付费率

  离散程度是用来反映数据离中心值的趋势,可以用来描述离散程度的方法有:异众比率、四分位差、方差、标准差、极差、平均差、离散系数。

  异众比率:指非众数的数量占总数量的比例。实际工作中应用不多,可根据情况参考使用。

  方差和标准差,都能较好的反映数据的离散程度,是应用最广的描述离散程度的方法。

  离散系数,也称为变异系数,主要是用于比较不同样本数据的离散程度。离散系数越大,说明数据的离散程度越大。

Copyright © 2018-2024 美高梅(mgm)官方娱乐平台/IOS/安卓版/手机app下载 版权所有  xml地图  网站地图  备案号:    
地址:广东省广州市天河区88号  邮箱:admin@goodqg.com  电话:400-123-4567