- 在线时间
- 479 小时
- 最后登录
- 2026-4-13
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7789 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
' r! q4 Q, M* E+ w主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。, O- s7 |7 \, A! I6 R U; S4 e
主成分分析的步骤如下:& X4 i; w9 `4 l3 n' U3 J- D
; M* |+ {( u) p# V: l1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
7 E* f0 E( v- m: t6 O2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。% A& n" [2 t; N, K5 h* P. q
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。: E6 p1 R c( T) Y' F
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
: i. A' f" t9 ~- `5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。4 o0 X. |. x+ s
5 e H$ M0 `/ |
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。8 [# p, ~1 B, o( Z6 V
: f1 s6 F; w! X" Y5 X) X
逐行解释代码的含义:. w5 F, \2 C' E7 E) K
import numpy as np
& k& w l( y5 M8 Nimport pandas as pd
( S& v$ n6 \. N6 h; [from sklearn.decomposition import PCA& ^% z# A* t: M
1 [# Y% x- x% o' \- ]0 \9 [
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。! l5 Z* O0 t6 {: L" Q) [. X h6 A* T
df = pd.DataFrame({1 U: B& i! ?3 D: L6 V
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
Q' f: W7 o2 O7 v- p 'x2': [69.5, 77, 78.5, 87.5, 74.5],
$ j- `7 ]5 m8 I$ X( b, w( Q1 g; \ [ 'x3': [38.5, 55.5, 50.8, 65.5, 49], I" I: P8 \3 R1 Q* @& v
})
0 y1 ?& R! n7 p; P+ K; ?1 ~
# F- N) v/ C/ \4 g; S, y: ?+ @! T这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
$ A+ ^3 \( D5 P% Vmodel = PCA().fit(np.array(df))0 p L$ q8 Z' b5 W- ^/ S
3 O% Z3 Q0 y! [* I6 ^; f- z# M3 M这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。
( g1 p4 \9 M# g0 F, {print('特征值:', model.explained_variance_)1 Y; U( g' L4 z X
print('贡献率:', model.explained_variance_ratio_)
# q1 A+ T: J: e: @print('各主成分的系数:', model.components_)1 u% z- |4 m( H1 Y
' K: s5 M, @" P% Q# n这几行代码分别打印了主成分分析模型的三个重要属性:
; M n' b2 g- r2 Y: p" Z) ?+ p2 J" k8 K
1.explained_variance_:特征值,表示每个主成分的方差。' V# z. x8 {; q* `7 ^
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
) |' x+ i% b- o+ R$ V; U/ }) {% ~ s3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。: k+ ?7 g0 q$ q8 i, G3 d; k. b( e
6 O8 g a! m( q2 o$ D9 s$ g/ S
pca_df = pd.DataFrame(model.transform(np.array(df))) j F% p, b) L: ]& K" v% w
pca_df.columns = ['F1', 'F2', 'F3']% {: d- _! \6 ? v0 _3 n5 q! c
pca_df& d; _) Y+ p/ F I
; s& c' Q6 [8 n2 P5 {- t* }9 N4 y& H" j这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
. [5 Z' t, h; C: G3 \希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。( K) e% F8 p+ A7 `! Q
! t: q R8 P+ w- w. U5 @
4 G. e; @8 Z1 ^, D |
zan
|