- 在线时间
- 478 小时
- 最后登录
- 2026-4-9
- 注册时间
- 2023-7-11
- 听众数
- 4
- 收听数
- 0
- 能力
- 0 分
- 体力
- 7788 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 2922
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1171
- 主题
- 1186
- 精华
- 0
- 分享
- 0
- 好友
- 1
该用户从未签到
 |
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。& e3 n; r8 Z: i; j8 a. n4 z
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
+ Y$ a' \: j: l& j3 ^* C% E主成分分析的步骤如下:
8 c3 t/ s/ b% L; @* d0 M9 b- l2 H% G+ Z) G
1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
0 s$ ^0 U& \, C2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
1 ~' s9 k4 x7 Y% D6 z1 [/ G) H( i4 A3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。7 O* N0 x! H. N$ {) V
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
( p. e! _) ]0 Y) ?5 `: ^: A4 h5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。: P. y ~/ P; C. J
" J- ]6 e |7 k) R9 N
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
; B7 w6 d( d, j& M! B9 z* v$ O8 U0 O$ }) a% S. R
逐行解释代码的含义:7 U- Z6 T3 @0 }- P" R
import numpy as np1 B8 m7 W3 d2 g6 g
import pandas as pd( L7 I! m, U0 M' M
from sklearn.decomposition import PCA8 N! `8 q& d7 n0 K# |
3 b9 }6 V* j, W
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
+ d% Q7 s. B5 {& R: b7 e- jdf = pd.DataFrame({
: y; y" N, U% p' e% h- r 'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
' J/ X2 z) S0 e# Y4 h 'x2': [69.5, 77, 78.5, 87.5, 74.5],9 E, a' s5 [7 V2 M) E2 v5 `3 f( d0 {
'x3': [38.5, 55.5, 50.8, 65.5, 49]
* }- ~+ ?9 i( v& M})8 a8 E1 b/ N8 G! ]0 G/ g( F" e/ W
' Q9 ~/ ]. O3 q2 S3 \
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
. W' @8 h" ^& Z2 F. |model = PCA().fit(np.array(df))3 H6 |7 H6 ?- [# g- B* D
! d. f# L$ ~+ C) e. N这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。
. D2 C9 ^6 p% Cprint('特征值:', model.explained_variance_)
/ W' A/ ^; v2 ]/ V6 ^; o) Qprint('贡献率:', model.explained_variance_ratio_)
. n) T; u" ~, [4 f8 [ d& Bprint('各主成分的系数:', model.components_)+ b5 _7 Z# |2 m1 l' u4 l
+ D, {) J, K9 g8 Y
这几行代码分别打印了主成分分析模型的三个重要属性:1 s" z* q) z6 S% p) _
0 _) c6 O( G; g+ J3 |7 _
1.explained_variance_:特征值,表示每个主成分的方差。
7 U+ }3 C' {- V% n& \& e( {' U4 y. M2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。( k$ q7 y9 N1 O
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。' v8 F% R8 t* U8 I( W( c# [
) w0 R( b+ m+ ^# I$ @( Ypca_df = pd.DataFrame(model.transform(np.array(df)))
: ~! Y2 Z$ `; E, a' Mpca_df.columns = ['F1', 'F2', 'F3']
5 ~' u% ?0 ]# c! m( Y$ Kpca_df
( D3 ~# v' h; N) n7 q0 d: i& {! _& j* m7 v: @" X# `
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。0 k4 P; u/ L/ M& Y) ^3 M
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。) Q) O) b/ W9 g, Y
! J% o; `( s5 {5 M- h
& h" ~, H ~0 z% E
|
zan
|