- 在线时间
- 479 小时
- 最后登录
- 2026-5-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7813 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2931
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1173
- 主题
- 1188
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
w0 N9 R' ~/ r( g; z主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
" u8 y' M3 F1 Z h主成分分析的步骤如下:/ K" w1 V6 C) E
3 y" ?2 L% R5 Y4 s9 t5 W5 n1 ~6 `
1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。( u& {* P; K! o' h) Q2 ~4 o8 O
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
9 h( S" C7 A; ?8 W, K# q* A3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
3 }" G- }1 E1 [7 ~( a9 q$ X4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。1 }0 v3 L; S7 N1 ?& G& ~
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
9 S) w: y0 d2 F7 i2 u/ k. B6 K" W& B* c5 g8 E& F
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
" L7 r, y$ g8 I* q' T. L; j8 j! l; b
逐行解释代码的含义:% i% y, |% q, r
import numpy as np
8 l7 [5 R* N& o* j# C1 n i# I" kimport pandas as pd
" V! A% T h$ pfrom sklearn.decomposition import PCA. o+ b0 ?! V, |/ ^; i3 k
( ] C* ? c3 p' {; v# q这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
3 I$ Q, L& p9 i0 Vdf = pd.DataFrame({
3 f) H" S |. J7 m) { 'x1': [149.5, 162.5, 162.7, 162.2, 156.5],, M) w) @( v) f' C8 e
'x2': [69.5, 77, 78.5, 87.5, 74.5],9 y, t& n' s2 ?0 l# r; m" M
'x3': [38.5, 55.5, 50.8, 65.5, 49]+ v8 G1 {/ Z9 ], a8 i' O
})
1 X% y" n7 u: i% B" s6 m
# p: [8 w2 @* h0 R' h9 c, _3 W这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
4 N) h' T. E4 d, I! bmodel = PCA().fit(np.array(df))) U! [8 I- w6 q$ y( r
) I" l# A. y# V
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。+ d& v! ^$ K$ C- E G' z- s! r
print('特征值:', model.explained_variance_)
, ?: H( z( g: `5 u K0 Lprint('贡献率:', model.explained_variance_ratio_)
0 \- r6 l% c }print('各主成分的系数:', model.components_)
& c8 Y. F$ X3 y6 q8 ?+ y; B0 ?) x, c* e2 C) o
这几行代码分别打印了主成分分析模型的三个重要属性:
# p: [- n$ a0 g, j4 k
9 m* {8 n+ }4 p+ F# X9 W2 _1.explained_variance_:特征值,表示每个主成分的方差。
- l( ^- S1 N! X' H# D2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。" [$ i, j4 D- ^ @3 Z) O
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。1 y+ ~, Z2 a) h. q" B3 p' p
: E6 r+ K' c2 T& A4 U3 @5 }9 ^ Qpca_df = pd.DataFrame(model.transform(np.array(df)))3 M8 A& z7 n: D; I: O% a# W+ I) k
pca_df.columns = ['F1', 'F2', 'F3']
! g- n0 D8 E/ a( o7 spca_df) U3 D, C; `& z2 K. |+ Y
r. s5 ~ q# Y) H; m! R) |& K" k
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。7 s' N8 J2 b& ^/ j' o
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
. [8 o7 \) d+ A K$ x) B( I1 S8 C0 D& W$ X6 _: J
+ m: k; T7 W: s) \7 B |
zan
|