查看: 2514|回复: 0

python 解决主成分分析 pca

字体大小: 正常放大

1189 主题	4 听众	2934 积分

该用户从未签到

电梯直达

1^#

发表于 2024-3-21 11:03 |只看该作者 |正序浏览

|招呼Ta 关注Ta

主成分分析（Principal Component Analysis，PCA）是一种常用的降维技术和数据预处理方法，它通过线性变换将高维数据映射到低维空间中，以找到数据中的主要特征。
主成分分析的基本思想是将原始数据投影到一个新的坐标系中，使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分，而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序，最重要的主成分排在前面。
主成分分析的步骤如下：

1.标准化数据：将原始数据进行标准化处理，使得每个特征的均值为0，方差为1。这样可以避免某些特征由于量级差异造成的影响。
2.计算协方差矩阵：根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
3.计算特征值和特征向量：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差，特征向量表示各个主成分的方向。
4.选择主成分：根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
5.数据转换：将原始数据投影到选定的主成分上，得到降维后的数据。

主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度，主成分分析可以简化数据集并去除冗余信息，从而提高后续分析的效率和准确性。

逐行解释代码的含义：
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA

这些是导入所需的库。numpy用于数值计算，pandas用于数据处理，sklearn.decomposition中的PCA用于主成分分析。
df = pd.DataFrame({
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
'x2': [69.5, 77, 78.5, 87.5, 74.5],
'x3': [38.5, 55.5, 50.8, 65.5, 49]
})

这里创建了一个数据帧df，包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量，每一行代表一个观测值。
model = PCA().fit(np.array(df))

这行代码创建了一个PCA对象，并使用fit方法拟合数据。fit方法将数据df作为输入，并根据数据计算主成分分析模型。
print('特征值:', model.explained_variance_)
print('贡献率:', model.explained_variance_ratio_)
print('各主成分的系数:', model.components_)

这几行代码分别打印了主成分分析模型的三个重要属性：

1.explained_variance_：特征值，表示每个主成分的方差。
2.explained_variance_ratio_：贡献率，表示每个主成分的方差占总方差的比例。
3.components_：各主成分的系数，表示每个主成分在原始变量空间中的权重。

pca_df = pd.DataFrame(model.transform(np.array(df)))
pca_df.columns = ['F1', 'F2', 'F3']
pca_df

这几行代码使用model.transform方法将原始数据进行主成分转换，并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列，分别命名为'F1'、'F2'、'F3'，分别表示三个主成分的值。
希望这个逐行解释对你有帮助！如果你还有其他问题，请随时提问。