数据挖掘中如何挑选属性

本文目录

数据挖掘中如何挑选属性

在数据挖掘中，挑选属性是至关重要的一步。挑选属性的方法有：相关性分析、信息增益、卡方检验、基于模型的方法。其中，相关性分析是最常用的，它通过计算每个属性与目标变量之间的相关性来选择最有用的属性。相关性分析能够帮助我们识别出那些对目标变量有显著影响的属性，从而提高模型的准确性和效率。通过相关性分析，可以剔除那些与目标变量关联较弱或无关的属性，从而减少数据集的维度，简化模型，提高计算效率。同时，这种方法还能帮助我们理解数据的内在结构和特征，从而为后续的数据处理和建模提供重要的参考。

一、相关性分析

相关性分析是一种通过计算属性与目标变量之间的相关性系数来筛选重要属性的方法。常用的相关性系数包括皮尔逊相关系数、斯皮尔曼相关系数和肯德尔相关系数。皮尔逊相关系数适用于线性关系，而斯皮尔曼和肯德尔相关系数适用于非线性关系。通过计算这些系数，我们可以判断某个属性对目标变量的影响程度，从而挑选出那些相关性较高的属性。

皮尔逊相关系数：这一系数用于衡量两个变量之间的线性关系，值的范围在-1到1之间。系数越接近1或-1，说明两个变量之间的线性关系越强；接近0，则说明没有线性关系。

斯皮尔曼相关系数：这是一种非参数统计方法，用来衡量两个变量的单调关系。与皮尔逊相关系数不同，斯皮尔曼相关系数不要求数据符合正态分布，因此适用于更多类型的数据。

肯德尔相关系数：肯德尔相关系数也是一种非参数统计方法，用来衡量两个变量之间的排序关系。它适用于数据量较小或者数据存在很多平局的情况。

二、信息增益

信息增益是一种基于熵的属性选择方法。它通过计算每个属性对目标变量的信息增益来选择最重要的属性。信息增益越大，说明该属性对目标变量的区分度越高，从而更有助于提高模型的性能。

熵：熵是度量数据不确定性的一个指标，熵越高，表示数据越混乱。信息增益则是用来衡量某个属性在减少数据不确定性方面的贡献。计算某个属性的信息增益时，首先需要计算数据集的总熵，然后再计算该属性在不同取值下的条件熵，最后通过总熵减去条件熵得到信息增益。

决策树：决策树是一种经典的机器学习算法，信息增益就是决策树中常用的属性选择标准。在构建决策树的过程中，每次选择信息增益最大的属性作为当前节点的划分属性，从而逐步构建出一棵分类精度较高的决策树。

三、卡方检验

卡方检验是一种统计方法，用于检验两个分类变量之间的独立性。在数据挖掘中，卡方检验可以用来选择那些与目标变量显著相关的属性。

卡方统计量：卡方统计量用于衡量观察值与期望值之间的偏差程度，数值越大，说明两个变量之间的相关性越强。计算卡方统计量时，首先需要构建一个列联表，然后根据列联表中的数据计算卡方值，并与卡方分布表中的临界值进行比较，从而判断两个变量是否独立。

显著性水平：显著性水平是卡方检验中的一个重要参数，通常设定为0.05或0.01。当卡方统计量大于临界值时，说明在给定的显著性水平下，可以拒绝两个变量独立的假设，即认为两个变量之间存在显著的相关性。

四、基于模型的方法

基于模型的方法是通过构建一个预测模型，然后通过模型的性能指标来选择最重要的属性。这些方法包括决策树、随机森林、线性回归、逻辑回归等。

决策树：决策树是一种基于树结构的分类和回归方法，通过选择信息增益或基尼指数最大的属性作为当前节点的划分属性，从而逐步构建出一棵分类精度较高的决策树。决策树的优点是易于理解和解释，但容易过拟合。

随机森林：随机森林是一种集成学习方法，通过构建多个决策树并将其预测结果进行投票来提高模型的稳定性和准确性。随机森林中的属性重要性度量可以帮助我们选择那些对模型性能贡献最大的属性。

线性回归和逻辑回归：线性回归和逻辑回归是两种经典的回归方法，通过估计每个属性的回归系数来衡量其重要性。属性的回归系数越大，说明该属性对目标变量的影响越大，从而可以用来选择那些最重要的属性。

五、逐步回归

逐步回归是一种逐步选择和剔除属性的方法，通过逐步添加或删除属性来构建最优的回归模型。逐步回归包括前向选择、后向剔除和双向逐步回归三种方法。

前向选择：前向选择是从一个空模型开始，每次添加一个最能提高模型性能的属性，直到没有显著提高为止。这种方法的优点是简单直观，但可能会遗漏一些重要属性。

后向剔除：后向剔除是从一个包含所有属性的模型开始，每次删除一个对模型性能贡献最小的属性，直到没有显著降低为止。这种方法的优点是可以考虑所有属性的组合，但计算复杂度较高。

双向逐步回归：双向逐步回归是结合前向选择和后向剔除的方法，每次既可以添加一个最能提高模型性能的属性，也可以删除一个对模型性能贡献最小的属性，从而逐步构建最优的回归模型。

六、主成分分析（PCA）

主成分分析（PCA）是一种降维技术，通过将原始数据转换到一个新的坐标系中，使得转换后的数据在新坐标系下具有最大的方差，从而选择最重要的属性。

协方差矩阵：PCA的基本思想是通过计算数据的协方差矩阵，然后对协方差矩阵进行特征值分解，从而得到数据在新坐标系下的表示。协方差矩阵中的特征值和特征向量分别表示数据在新坐标系下的方差和方向。

特征值和特征向量：在PCA中，特征值越大，说明该方向上的方差越大，从而该方向上的数据变化越重要。因此，可以选择那些对应特征值较大的特征向量作为新的坐标系，从而实现降维。

七、因子分析

因子分析是一种统计方法，通过将多个相关的属性组合成少数几个因子，从而简化数据结构。因子分析可以帮助我们识别出那些对数据变化最重要的因子，从而选择最重要的属性。

因子载荷：因子载荷是因子分析中的一个重要概念，表示每个属性在各个因子上的权重。因子载荷越大，说明该属性在该因子上的贡献越大，从而可以用来选择那些最重要的属性。

旋转方法：因子分析中的旋转方法是为了使因子载荷矩阵更加简单和解释清晰。常用的旋转方法包括正交旋转和斜交旋转，通过旋转可以使得每个属性在某个因子上的载荷最大，从而更容易解释因子的含义。

八、嵌入式方法

嵌入式方法是通过在模型训练过程中同时进行属性选择的方法。这些方法包括LASSO回归、岭回归和Elastic Net等。

LASSO回归：LASSO回归是一种线性回归方法，通过在回归过程中加入L1正则化项来选择重要属性。L1正则化项可以使得一些回归系数变为零，从而实现属性选择。

岭回归：岭回归是一种线性回归方法，通过在回归过程中加入L2正则化项来选择重要属性。L2正则化项可以减小回归系数的绝对值，从而减少模型的复杂度和防止过拟合。

Elastic Net：Elastic Net是一种结合LASSO回归和岭回归的线性回归方法，通过在回归过程中同时加入L1和L2正则化项来选择重要属性。Elastic Net可以兼具LASSO回归和岭回归的优点，从而实现更好的属性选择效果。

九、基于集成学习的方法

基于集成学习的方法是通过构建多个基学习器来选择重要属性的方法。这些方法包括Bagging、Boosting和Stacking等。

Bagging：Bagging是一种集成学习方法，通过构建多个基学习器并将其预测结果进行平均或投票来提高模型的稳定性和准确性。Bagging中的属性重要性度量可以帮助我们选择那些对模型性能贡献最大的属性。

Boosting：Boosting是一种集成学习方法，通过构建多个基学习器并将其预测结果进行加权平均来提高模型的准确性。Boosting中的属性重要性度量可以帮助我们选择那些对模型性能贡献最大的属性。

Stacking：Stacking是一种集成学习方法，通过构建多个基学习器并将其预测结果作为新的输入特征来训练一个新的学习器。Stacking中的属性重要性度量可以帮助我们选择那些对模型性能贡献最大的属性。

十、总结

挑选属性是数据挖掘中的关键步骤，相关性分析、信息增益、卡方检验、基于模型的方法、逐步回归、主成分分析（PCA）、因子分析、嵌入式方法、基于集成学习的方法等方法各有优缺点，具体选择应根据实际情况和数据特点进行合理选择。通过有效的属性选择，可以提高模型的准确性和效率，从而更好地实现数据挖掘的目标。在实际应用中，可以结合多种方法进行综合分析，从而获得最佳的属性选择效果。

数据挖掘中如何挑选属性

一、相关性分析

二、信息增益

三、卡方检验

四、基于模型的方法

五、逐步回归

六、主成分分析（PCA）

七、因子分析

八、嵌入式方法

九、基于集成学习的方法

十、总结

相关问答FAQs：

属性选择的意义

属性选择的方法

1. 过滤法

2. 包装法

3. 嵌入法

属性选择的评估

属性选择的最佳实践

结论

传统式报表开发 VS 自助式数据分析

一站式数据分析平台，大大提升分析效率

每个人都能上手数据分析，提升业务

销售人员

FineBI助力高效分析

财务人员

FineBI助力高效分析

人事专员

FineBI助力高效分析

运营人员

FineBI助力高效分析

库存管理人员

FineBI助力高效分析

经营管理人员

FineBI助力高效分析

帆软大数据分析平台的优势

一站式大数据平台

高性能数据引擎

全方位数据安全保护

IT与业务的最佳配合

使用自助式BI工具，解决企业应用数据难题

数据分析，一站解决

可连接多种数据源，一键接入数据库表或导入Excel

可视化编辑数据，过滤合并计算，完全不需要SQL

图表和联动钻取特效，可视化呈现数据故事

可多人协同编辑仪表板，复用他人报表，一键分享发布

每个人都能使用FineBI分析数据，提升业务

销售人员

财务人员

人事专员

运营人员

库存管理人员

经营管理人员

商品分析痛点剖析

打造一站式数据分析平台

定义IT与业务最佳配合模式

深入洞察业务，快速解决

打造一站式数据分析平台

产品中心

行业解决方案

业务应用方案

资源与服务

关于帆软