平均值是怎么骗人的?

文 | 商业智能BI相关文章 阅读次数:610 次浏览
2022-12-15 19:18:18

互联网上流传着这么一则笑话:

张家有钱一千万,

九个邻居穷光蛋。

平均起来算一算,

个个都是张百万。

前段时间有条新闻:当前互联网行业人均月薪 2W、90后人均存款 50 W。看到新闻,不少人都大呼“被平均了”“给大家拖后腿了”。

这些例子揭示了一个问题:靠平均值衡量来了解一个群体的收入水平,可能是不妥当的。

有时候,平均数未必能反映平均水平!

那什么时候用平均值衡量平均水平才合适呢?如果用平均值不合适,还能怎样衡量平均水平呢?本文我们一起来探讨一下:

1什么时候平均数是有意义的?

平均数反映数据集中趋势,它的计算方式通常是把所有的观测值相加后再除以观测值个数。

但是如果我们拿到的数据,是像下图这样有一些极端值。

平均值衡量,分组平均值,整体平均值

此时,我想要计算客户的平均回款金额,得到的数据结果(下图红色横线),会发现大部分公司都没有达到平均的回款金额:

平均值衡量,分组平均值,整体平均值

这是因为平均值衡量很容易受到极端值的影响,很多时候都是不能正确的反映数据整体真实情况的,尤其是在样本量较小的情况下,均数其实难以代表总体情况。

也就是说,整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值,其实是没有意义的。

2判断数据的分布

那么拿到数据的第一步是什么呢?自然是判断数据的整体分布形态。

画出直方图可以帮助我们快速了解数据的分布,也就是数据样本集中在哪里。

例如客户购买金额的数据,我们以横轴为购买金额区间,纵轴为在该区间的公司数,画出直方图如下图所示:

平均值衡量,分组平均值,整体平均值

就可以看到这些数据的集中趋势,大部分分布在151-167之间,并不是均匀分布或者正态分布,那么用平均值代表客户的购买金额就是不合适的。

那如果遇到这类问题,怎么才能反映真实情况呢?

3分组和整体平均值

我们需要引入分组的概念。

比如我们第一节说的 90 后的平均存款到了 50W,哪些人能有这么多存款?我们会想到所在城市、年龄段、工作背景、收入来源等等信息。比如一线城市 90 后的存款可能普遍比二三线城市高,然后再拿自己进行比较。这时就引入了分组的概念。

「分组平均值」和「整体平均值」其实是不同的,整体平均值由于受到极端值的影响,结果不准确。分组平均值则是在对应的组别范围内计算数据的平均情况。

「分组平均值」和「整体平均值」结果可能完全不同。

这就引申出一个很有趣且常见的概念:辛普森悖论

辛普森悖论的一个著名的例子出现在加州大学伯克利分校录取数据。在此示例中,从总体上看研究生录取数据时,看来男性比女性更容易被录取(性别歧视),但是当单独查看每个学院的数据时,女性比男性更容易被录取。

平均值衡量,分组平均值,整体平均值

原因就是:

不同学院的接受率非常不同,更多女性申请“更难”的部门。

如果要避免平均值衡量「辛普森悖论」给我们带来的误区,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。比如使用 ARPU、ARPPU 等。

同样的,如果要更客观分析产品的运营情况,就需要设立更多角度去综合评判。

很显然在目前的信息时代,借助类似于FineBI的这些工具,可以让企业加速融入企业数据分析的趋势。备受市场认可的软件其实有很多,选择时必须要结合实际的情况。一般的情况下,都建议选择市面上较主流的产品,比较容易达到好的效果,目前企业数据分析BI软件市场占有率前列的,就是帆软BI软件——FineBI。

平均值衡量,分组平均值,整体平均值

商业智能BI产品更多介绍: www.finebi.com

产品体验

相关内容

目录
立即体验 立即体验

商务咨询

在线咨询
专业顾问帮您解答问题

电话咨询

技术问题

投诉入口

微信咨询

返回顶部