数学建模社区-数学中国
标题:
python 解决主成分分析 pca
[打印本页]
作者:
2744557306
时间:
2024-3-21 11:03
标题:
python 解决主成分分析 pca
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
: d- J* k! y5 ^. w8 p+ D4 @3 A3 X
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
4 M5 }! ^9 ] ~) w$ T
主成分分析的步骤如下:
" K) K1 i1 k6 Y+ Z
7 J, C* z+ c7 c% M5 [
1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
2 v4 `9 U) \) Z* J# {# r4 m- A
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
2 n$ `7 W% p& s7 M
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
% F6 Z9 t$ |+ t
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
9 D# Z G( f( x0 [6 {3 V2 f# R
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
. e4 q' C' ~$ Y! y( W7 E) l2 P
8 u0 N: l/ W% ]) S o; G' v
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
+ f% a; F+ v$ ^1 G
- k' L Z) B' q4 r# e- {" S
逐行解释代码的含义:
& v1 d2 G) p1 m2 s
import numpy as np
& z8 d2 H- N8 g) l, }: p$ S1 T
import pandas as pd
( A4 n8 ~! y B! j& F4 n/ e
from sklearn.decomposition import PCA
+ P+ H, P. t4 w* s, `0 \+ }
. F3 @$ n6 E# ^3 N9 _
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
6 M$ T+ z5 g6 `
df = pd.DataFrame({
' k7 V2 e0 W: c2 [
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
6 G& B g3 Q5 o
'x2': [69.5, 77, 78.5, 87.5, 74.5],
& F9 C9 T) Y- H7 Y" ]
'x3': [38.5, 55.5, 50.8, 65.5, 49]
' t7 g* \' D) Y+ ?: A7 I3 M
})
7 G% T0 W* {5 `3 T3 A3 _1 d# d
7 {; Z; Q$ N4 S2 X# ~% O$ q
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
# b3 u. j: ~% f' `. w
model = PCA().fit(np.array(df))
- y5 O% @7 p+ ~" c9 X6 p
0 @- M% o7 U |% e0 ^& S+ s" I7 p( x
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。
9 ^0 ]# Q" i7 ~
print('特征值:', model.explained_variance_)
! ]- H5 i. N5 d+ c0 W& o- o
print('贡献率:', model.explained_variance_ratio_)
, D' C$ P+ V6 G2 J- Q' ?$ B* |) a+ c
print('各主成分的系数:', model.components_)
) p% ^' t% p- z4 `* ?! M; m7 v+ _7 [
( A3 W# e% s. ~8 X6 K
这几行代码分别打印了主成分分析模型的三个重要属性:
M! h0 a+ U2 V5 D* G: o* i
' V8 _: j' a# X
1.explained_variance_:特征值,表示每个主成分的方差。
: x: _+ M: q. J/ q
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
+ {& R1 z! u6 d: C L+ Q: S
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
7 i# C1 q& J9 ~- b$ r! ?: H
$ w$ c! @& r, g3 K4 h
pca_df = pd.DataFrame(model.transform(np.array(df)))
; a0 Z5 P4 u; |& S* k S2 F" T
pca_df.columns = ['F1', 'F2', 'F3']
. K/ Z* f, U4 { b. P) s5 a
pca_df
3 `) d1 e+ t% P+ J
6 ] t" a# L/ F
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
- ~- [) u2 z. ` W D4 u
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
5 Z4 H5 J, R4 W) {# t! I
% c" T5 ]0 X4 a4 F5 Z4 ?6 c
7 v# t# O- j* k- ~) q
29.pca.py
2024-3-21 11:03 上传
点击文件名下载附件
下载积分: 体力 -2 点
671 Bytes, 下载次数: 0, 下载积分: 体力 -2 点
售价:
2 点体力
[
记录
] [
购买
]
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5