- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。 f; j) z0 |( m$ E
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
8 H) K" o$ t4 h2 l, q( c主成分分析的步骤如下:
5 T! q5 _% Q% y5 U) S! V, J. u2 h
7 [% G: _& G5 h8 g/ D& j! V1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
O8 W* v" |5 p$ Y) c2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。/ h( |) o# [7 n
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
1 l( A2 T+ u% V, \4 M0 f4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。$ s1 }3 o! ?: `0 t
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。6 A, ~# l7 P% m
6 K4 i$ g+ E' t6 ]" c
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。 k3 a% t" {7 t/ ]5 g; I$ _6 y
" L% n$ \4 U+ B! y0 e& @逐行解释代码的含义:
1 c! W( _: I4 B, H- Vimport numpy as np1 x b% e2 w7 T* y
import pandas as pd( V8 F2 R* z* W3 h% `' H% U) G
from sklearn.decomposition import PCA: W: X/ |: n9 {
! m, S/ u5 y. ^; t& w+ y2 A% ?这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
" W2 O/ r+ ]3 e4 V3 ^df = pd.DataFrame({( E! o9 q1 c' \ {+ q& m+ a
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
/ F7 C% D3 d4 \/ | 'x2': [69.5, 77, 78.5, 87.5, 74.5],
L2 q9 P3 m/ \3 q, l 'x3': [38.5, 55.5, 50.8, 65.5, 49]
X( n0 m/ y. V3 a- a})
" }; V6 R$ C: F$ a: c" s# z
# J7 r. M8 q9 L" p这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
, d. @0 G8 W$ f2 p6 z7 C" O8 ?model = PCA().fit(np.array(df))
6 X0 u$ R' z% z5 S/ A& g2 \& P( Z- C7 B0 c% O0 V8 {; o3 A! z9 z
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。8 y+ \2 a& A( A& s/ B# B
print('特征值:', model.explained_variance_)
4 h. ]( \/ I' lprint('贡献率:', model.explained_variance_ratio_)
6 @2 Z# J; a- _3 K& Aprint('各主成分的系数:', model.components_)3 Q( N/ \, n8 Z- e0 l! w
* r5 q, F# l/ ?$ m这几行代码分别打印了主成分分析模型的三个重要属性:$ `. \! a4 A- |6 N# x
9 U1 T3 @9 M2 N" R/ [3 e, P# C* a1.explained_variance_:特征值,表示每个主成分的方差。: d7 d' r9 q6 g3 o1 k+ f
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。5 q3 t# ^3 y% | z$ b9 r
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
2 R9 g* c7 e, ]7 v3 M
( G& @1 H4 v! d4 [) b* U4 Vpca_df = pd.DataFrame(model.transform(np.array(df)))
/ N( `- z0 M& ^4 K. V( b+ u& p' vpca_df.columns = ['F1', 'F2', 'F3']# a: E; g% ~' e8 _
pca_df
4 ~! K) E n4 [- n, [& H/ H
- E4 U: K8 i* {# m3 F1 s& Y5 n6 g这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
& v2 m8 @! L" V) u! K: r希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
" m& w0 g- i; i4 F& U6 u
( ~1 J: Y% v' `# c1 S* A% ^3 B
& r& \9 C& T! {7 Q |
zan
|