QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1977|回复: 0
打印 上一主题 下一主题

python 解决主成分分析 pca

[复制链接]
字体大小: 正常 放大

1176

主题

4

听众

2884

积分

该用户从未签到

跳转到指定楼层
1#
发表于 2024-3-21 11:03 |只看该作者 |倒序浏览
|招呼Ta 关注Ta
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
9 L1 r+ o+ ~( Q& t4 [! z. L+ Q8 W主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。1 r% \$ K  E4 E- J% `
主成分分析的步骤如下:
) d6 J% B6 c+ C: n) V! g5 G
4 }7 Q6 M( @; \5 X) M2 J: X1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
; N. z/ h* ^1 I1 D+ `) A0 J2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。9 }5 N9 k/ u2 L/ `& k' i
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。9 p+ @5 l* S  o2 a- k) e
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。& C3 [3 D: m& I6 O( H  X7 ?
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
, i' j, b4 E( R8 i* j/ T2 v3 \7 R) k8 {& ?: _1 n: Z+ a5 ~
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
3 F: o% C; f' v# A- H
1 g' f5 J. @7 R" r$ E逐行解释代码的含义:3 O( K* b; K, G9 S) |$ D! _
import numpy as np8 _7 D( l6 g0 |$ m+ d3 i
import pandas as pd: c; s8 j5 g0 B5 z) z0 \2 l9 |
from sklearn.decomposition import PCA
% F1 B3 @2 e% G; @$ J  G+ i! a+ r  ~+ W5 i2 o! p& s
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。& _$ v) ~- ^3 r' s# j( q
df = pd.DataFrame({
+ ?1 V9 M) k; ~7 G    'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
7 I9 {" \6 `- n; ]    'x2': [69.5, 77, 78.5, 87.5, 74.5],6 p' |( [4 J; q! o, X
    'x3': [38.5, 55.5, 50.8, 65.5, 49]
) W: q  [  E9 E+ @})' G0 ~+ C2 q( k7 [6 O
, j: y* \: n6 j" Y- i( T
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。' N3 \  T3 P  C, G6 Z
model = PCA().fit(np.array(df))5 N5 P, u* Z! u3 b

2 q: }, j* B6 M# @, S$ W这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。
9 Q! ?% R% Z3 Z( a. Iprint('特征值:', model.explained_variance_)
+ q# m! W. Z# a! @% r3 oprint('贡献率:', model.explained_variance_ratio_)' u/ J; C& c* B+ a* T
print('各主成分的系数:', model.components_)) @2 Q# e. v2 I# f+ i, |3 ~! o

- c6 Q" R, R+ E3 v; \这几行代码分别打印了主成分分析模型的三个重要属性:+ {6 {6 M! P: e) K3 z! U8 {
5 C4 }" t1 e, t2 g; @
1.explained_variance_:特征值,表示每个主成分的方差。
, [: z9 w  B  {+ Y/ ]7 q+ [2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。0 v8 W2 U6 I/ p
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。' i& l$ b. ?; p. W3 n" W  [! e0 @
2 V( x) I/ X' g0 k3 T% Y8 h
pca_df = pd.DataFrame(model.transform(np.array(df)))
$ g" G: V7 @7 x$ d! spca_df.columns = ['F1', 'F2', 'F3']. v. }! y: o' ?  G6 S. {6 |5 ^
pca_df
) j6 ~6 d( i9 E: v( @" b3 ?3 R9 V5 k" N# W6 p/ o' H2 s6 o2 t
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
/ x; D9 C1 y1 M6 h& D希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。5 a. Q1 ]  j  [( h8 `/ X

5 C9 n8 i3 [- d2 X+ @
) \- y/ O& `1 v/ \9 w; K9 T

29.pca.py

671 Bytes, 下载次数: 0, 下载积分: 体力 -2 点

售价: 2 点体力  [记录]  [购买]

zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2025-9-21 06:36 , Processed in 0.592254 second(s), 54 queries .

回顶部