- 在线时间
- 470 小时
- 最后登录
- 2025-8-6
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7596 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2859
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1160
- 主题
- 1175
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。( W \: g4 O: K# r% w- d% F9 X6 ?6 E
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。& v+ w, G/ z E4 C6 d8 J4 e
主成分分析的步骤如下:% Z! C, a% K8 e9 k
: G) U, S1 C/ ^; ^1 o* O1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。7 O4 g9 Q: C5 j
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。' C. F" }0 m5 L+ {% r& ?
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
) Z$ E# j9 d! R1 G4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
4 K' H2 q7 D7 b/ m' G5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。4 u. m6 H5 s y
, T- ?7 K, P- S- ] B主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
" H' N g7 s1 r" F# w, o3 u1 L+ B- Y, _+ N0 |$ P, P
逐行解释代码的含义:
. @7 |3 Y4 B3 q! @* a, S$ Fimport numpy as np
9 y$ b) m( J0 @$ Pimport pandas as pd5 k T% |9 @7 |% a. x' G
from sklearn.decomposition import PCA
* `% R3 h8 ^( U4 \% \! [2 a3 ?. u# Z7 o2 e# L9 _4 ~
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。% O9 z) G, H7 O( d) J; V
df = pd.DataFrame({
3 u# u* H: e' `* f8 f8 l) F8 A 'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
3 s9 |5 l& V5 a t" N8 `% ^3 z 'x2': [69.5, 77, 78.5, 87.5, 74.5],
& y! K4 [ h& V# g 'x3': [38.5, 55.5, 50.8, 65.5, 49]
- v. m5 [$ i( j2 j# o})
! c/ z5 [" E9 a, N8 [/ P! ~& _4 T/ u. [2 y! H8 U' M5 U
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
& v# k# e+ ~/ b: u4 u# O7 l# V/ ~model = PCA().fit(np.array(df))
; O) F5 b* m8 @( ^: C( z
; w5 Q7 E! R5 C5 x' Q这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。1 i$ Z/ k3 k8 v2 r
print('特征值:', model.explained_variance_)# ^9 {2 \1 G% L" X, T p# O! E
print('贡献率:', model.explained_variance_ratio_)8 Z3 v9 ~3 H | H8 ^9 y& Q
print('各主成分的系数:', model.components_)
7 R7 ~ P, J3 Y9 ^+ |
7 s% G# B7 v( r, {5 g# W这几行代码分别打印了主成分分析模型的三个重要属性:" V, U; o& L8 h0 i
7 k: ?+ u2 w P2 k! P' I8 B" T$ ]+ r& f1.explained_variance_:特征值,表示每个主成分的方差。% |) e: G9 I3 a" x f6 h7 X
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。5 }$ N& d3 J: P9 O" C
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
( i4 |: S+ G0 @9 r( }
5 \+ W. N( M& vpca_df = pd.DataFrame(model.transform(np.array(df)))
9 B" ~$ I. U8 y4 @% X/ Spca_df.columns = ['F1', 'F2', 'F3']
" n! G( n3 i n* Jpca_df
1 ]! B" ?1 Z Z2 @7 Z& F+ m3 ~ S: I% a' `$ L3 K1 \
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
' {2 s$ R! {% q0 |" }( Z5 A希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
3 F8 l1 d4 f! z' h- U! J9 G; F/ E @7 }* M
) r0 w" h; u" x& o/ m
|
zan
|