新手请注意,数据分析中的常见误区

文 | 商业智能BI相关文章 阅读次数:1,104 次浏览
2022-09-13 9:17:09

在刚开始进行数据分析的时候,新手往往容易踩坑,尤其是数据分析中的常见误区。

那数据分析中的常见误区有哪些呢,今天跟大家分享数据分析中的常见误区:

1.目的不明

目的不明确为了做而作,导致分析效果不明确。

2.认知不清

对与行业、公司业务还有其他考虑因素认知不清楚,分析结果偏离实际。数据必须要结合企业业务和行业性质才有意义,要明白数据痛点

摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解,再根据业务当前的需要,制定发展计划,归类出需要整理的数据。同时,熟悉业务才能看到数据背后隐藏的信息。

3.强调工具

为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具。

4.过度解读

数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析。

那怎么样减少犯数据分析中的常见误区呢,为了帮助大家更好减少犯数据分析中的常见误区,跟大家分享一些为了减少犯数据分析中的常见误区在进行数据分析的时候必须要知道的一些知识:

1.变量之间关系可以分为两类

函数关系:反映了事物之间某种确定性关系。

相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;

2.为什么要对相关系数进行显著性检验?

实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。当样本数较少,相关系数就很大。

当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。

相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量。

3.增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小。

4.多重共线性与统计假设检验傻傻分不清?

多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提—多重共线性。

很显然在目前的信息时代,借助类似于FineBI的这些工具,可以让企业加速融入企业数据分析的趋势。备受市场认可的软件其实有很多,选择时必须要结合实际的情况。一般的情况下,都建议选择市面上较主流的产品,比较容易达到好的效果,目前企业数据分析BI软件市场占有率前列的,就是帆软BI软件——FineBI。

数据分析是做什么的,数仓建设,获取数据

商业智能BI产品更多介绍: www.finebi.com

产品体验

相关内容

目录
立即体验 立即体验

商务咨询

在线咨询
专业顾问帮您解答问题

电话咨询

技术问题

投诉入口

微信咨询

返回顶部