- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。! C8 h: ^& c6 M# F" L& L. [
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
& ?* o8 N+ \' }6 M! M' B主成分分析的步骤如下:. D {2 j) k2 }: Z3 F' B6 V
7 F: e/ D/ B4 s9 u1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
4 C+ P; Q" `& O3 g: q& U3 r2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
+ ~" @. W' ]$ s3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。3 a* |& w8 t9 j
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
, f# g( d4 {* W4 `- o6 @5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。: h, y, r0 H6 j5 x1 r9 C
) L6 H) A0 |% E1 P y& M+ A主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
7 d1 L1 z% N4 z1 G8 m$ p$ h: ]! R' D: H: @4 l+ p$ K* @7 Z3 L
逐行解释代码的含义:
h; z! y9 X z/ `9 M+ oimport numpy as np. e3 @' b# T2 C2 c
import pandas as pd
% e( T0 B3 _- }+ }. ~" q8 \from sklearn.decomposition import PCA
3 I+ H) M8 Q- S* a/ ]2 t
[- y& W2 k! a0 o' a这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
9 z% b; X; S4 u: G: J- fdf = pd.DataFrame({
$ h- {+ a% s: b4 q1 b2 j5 ^ 'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
; f) R9 J8 T) J 'x2': [69.5, 77, 78.5, 87.5, 74.5],
( f( `! D! V* \( S 'x3': [38.5, 55.5, 50.8, 65.5, 49]9 L6 g' @' q: |* y% {7 h2 a; P2 ^/ z
})
- j ?; O$ L, n! |5 T' G
7 G% f& @# `# n' Z- e8 O这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
* j! w0 X, v) p5 `' rmodel = PCA().fit(np.array(df))
: R' K5 [1 {, Q( y' I3 \) ~3 ?& S# g" Q3 t9 s# b. H
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。
5 R# c9 a' ]8 ?$ d' I. Oprint('特征值:', model.explained_variance_)- J& c$ y5 ?% x1 E( W! q
print('贡献率:', model.explained_variance_ratio_)8 `0 T D8 V4 f. E( ]/ g+ o
print('各主成分的系数:', model.components_)0 t3 T' A0 F, O3 @" L- e
+ _3 i' w! k1 c. H
这几行代码分别打印了主成分分析模型的三个重要属性:& |1 u. x! ]+ w. s' M: v
: b8 s9 f! t0 I7 M8 I1.explained_variance_:特征值,表示每个主成分的方差。
( I y u5 o0 {- m2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。. ~! h2 I* i' z4 F/ a8 s' u
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。, Z! X4 ?# m- `7 R+ B( p
0 u! q5 j8 D( r, S3 npca_df = pd.DataFrame(model.transform(np.array(df)))
6 o( ~9 b3 y0 Y# G4 s) e* _pca_df.columns = ['F1', 'F2', 'F3']! k3 {$ I: Y& q, c* \
pca_df
9 b7 J* B, b& J2 i1 E* U2 v' g1 g/ ^6 _. Z9 A
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
" u2 _: |9 |+ R0 Y2 l希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
9 \. V$ t* M) t, I: b) D1 R2 t2 h
2 q' \3 i! z' Q+ h# ^/ ^; N |
zan
|