- 在线时间
- 480 小时
- 最后登录
- 2026-6-1
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7823 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2934
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1174
- 主题
- 1189
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。( N. r) H1 [9 r- N& K e% T0 {. l- w
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
3 U; H0 L" T+ c6 Q1 |8 P主成分分析的步骤如下:
5 N# ?* }" Z8 c1 L- E1 H, }- G* g$ G) m! }
1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
9 [2 a. G6 r8 d3 }4 C2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。6 \# p# r+ ]8 Y5 `4 e9 V% f! U! e
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。% w4 f9 u' Y8 s4 B6 s0 \
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
- }9 K: M) {& N' r3 t5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。7 E Z& P4 h+ X0 d5 I% s% z+ N
) H" C/ x( {7 K; o主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
, k0 L5 S2 ?2 x; v6 u! v4 i9 y3 V6 E- @6 b
逐行解释代码的含义:. d' N+ L$ }' u6 V. j) O9 n3 O
import numpy as np, s g' F" x/ o- n, v
import pandas as pd
+ p; U. E1 c; q: h( t9 z4 l1 ~from sklearn.decomposition import PCA
- q5 D+ u) s8 N. p) W- N) |0 m' J8 _: V/ u1 }# x) c' w
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。# A( u+ l: U& l' N4 U$ u+ w3 F- O5 u
df = pd.DataFrame({
2 k( Z& e* T* x/ K. R 'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
8 _# s5 Q% o5 Z* F5 Q5 H# u 'x2': [69.5, 77, 78.5, 87.5, 74.5],
2 P2 @. E0 T: {: t+ ^ 'x3': [38.5, 55.5, 50.8, 65.5, 49]
' O* k- a! N; K7 i, a" j9 N})* ?/ h. _3 [3 ?. @* }, Z' _0 c2 D
9 p3 O7 K2 Q" g
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。3 H4 @$ S0 U1 i8 q8 z/ ^
model = PCA().fit(np.array(df))$ S+ O: h9 S7 N) Y9 S/ z1 t
! R% o- m$ A) S1 D, s8 s这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。
) } v* N4 A! lprint('特征值:', model.explained_variance_)( W j- |; x2 R8 c3 H3 q$ B' m4 t
print('贡献率:', model.explained_variance_ratio_)
# m8 k2 w/ j# N5 m/ @) g$ o' h( }print('各主成分的系数:', model.components_)
: n, x6 z/ Y' ^
5 t* w. E8 B/ S1 A9 E4 c5 u这几行代码分别打印了主成分分析模型的三个重要属性:
3 A5 p; _& S$ b$ c& R
O" s1 [! S8 A6 a( ?1 C+ h) s1.explained_variance_:特征值,表示每个主成分的方差。
9 @* F- C; A0 J, Z. M2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
+ P( U; T: r" b: T' H% S* ?3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。2 f' k9 ~! } U' U6 _
9 J, f4 i) X: @6 E) Z8 J: Kpca_df = pd.DataFrame(model.transform(np.array(df)))
$ F3 q1 G+ C$ G1 [/ _! O% qpca_df.columns = ['F1', 'F2', 'F3']4 p6 L& g- v& h9 E. I+ h! t
pca_df" t( E ^" [% Y+ l$ p" ]0 p, r
1 J# ~4 ?! S2 x7 E5 c- G
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
$ k: k' W9 W( c+ c$ b希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
5 k6 [3 U5 c+ r' o) Y5 v( G% N9 q6 p0 Y
5 i3 q% r9 ?4 ?: Z5 u4 f |
zan
|