数学建模社区-数学中国
标题:
python 解决主成分分析 pca
[打印本页]
作者:
2744557306
时间:
2024-3-21 11:03
标题:
python 解决主成分分析 pca
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术和数据预处理方法,它通过线性变换将高维数据映射到低维空间中,以找到数据中的主要特征。
% v6 n8 w* t. ` g
主成分分析的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些新的坐标轴被称为主成分,而每个主成分都是原始特征的线性组合。主成分按照其所解释的方差贡献程度进行排序,最重要的主成分排在前面。
9 e9 {; v; q* Q
主成分分析的步骤如下:
# x" N- D( @. i9 h: F0 ?
9 s, ?3 U9 T* U& y
1.标准化数据:将原始数据进行标准化处理,使得每个特征的均值为0,方差为1。这样可以避免某些特征由于量级差异造成的影响。
4 ?0 M. v) K* d3 t5 }5 [+ s
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵。协方差矩阵描述了不同特征之间的相关性。
0 ?- A' D7 {- [6 r! a
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示每个主成分所解释的方差,特征向量表示各个主成分的方向。
6 k1 K, t. i' i
4.选择主成分:根据特征值的大小选择要保留的主成分的数量。通常选择保留累计贡献率较高的主成分。
3 A8 z; \/ K; b7 n
5.数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
7 }! A. X$ U- @9 a9 q( C7 t$ W9 x
' S! Y' J* m9 v
主成分分析的主要应用包括降维、可视化、特征提取和去除数据中的噪音。通过降低数据的维度,主成分分析可以简化数据集并去除冗余信息,从而提高后续分析的效率和准确性。
# Z& G* H2 V1 ?5 s* [4 j% T
& T9 ]$ y0 L* V) c/ H
逐行解释代码的含义:
+ [! r2 A; v) x* U" g
import numpy as np
, G8 ]. n: O( Y1 C
import pandas as pd
4 _4 K) ], Q4 o4 j
from sklearn.decomposition import PCA
" B" n" b' b5 g) C
( F* h( }" } v; X; {; {0 L
这些是导入所需的库。numpy用于数值计算,pandas用于数据处理,sklearn.decomposition中的PCA用于主成分分析。
$ l; O+ g8 s" M, v ]
df = pd.DataFrame({
( ~4 {2 g- E8 S: e
'x1': [149.5, 162.5, 162.7, 162.2, 156.5],
, a0 F7 C" [0 p6 d4 s' ^$ Z
'x2': [69.5, 77, 78.5, 87.5, 74.5],
, Y ?, E4 `& F0 J, w
'x3': [38.5, 55.5, 50.8, 65.5, 49]
9 }" z+ Q* [0 e% c( s0 C
})
' R, m6 b: @2 {0 @9 ^0 e, |7 H @ y
" B6 ^& h/ h+ Q
这里创建了一个数据帧df,包含了3个变量 x1、x2、x3 的观测值。数据集中每一列代表一个变量,每一行代表一个观测值。
2 N' Z* s# _+ o* y
model = PCA().fit(np.array(df))
( k+ M. q5 B. Z$ ?
) ]& J% r( a$ {- S# l& y6 I+ ~
这行代码创建了一个PCA对象,并使用fit方法拟合数据。fit方法将数据df作为输入,并根据数据计算主成分分析模型。
/ A' N' ]5 g3 v8 v4 U! {
print('特征值:', model.explained_variance_)
2 r7 y8 `; T$ A9 ^/ p' r
print('贡献率:', model.explained_variance_ratio_)
, b1 ~0 k' A. q x3 {
print('各主成分的系数:', model.components_)
0 l$ R3 o) m! h; A# `
- V8 h/ G, ^7 {; ~
这几行代码分别打印了主成分分析模型的三个重要属性:
+ L2 ]% p h' x8 }
4 R5 h3 b7 v7 H! _5 J2 a I% D
1.explained_variance_:特征值,表示每个主成分的方差。
; Q% r, s0 Z0 K
2.explained_variance_ratio_:贡献率,表示每个主成分的方差占总方差的比例。
; o1 K- B1 f+ R2 v; \
3.components_:各主成分的系数,表示每个主成分在原始变量空间中的权重。
5 ~' O l4 v- e2 o' n( z9 W$ i
/ X( o# @" |9 Z1 r8 V. n) Y3 @
pca_df = pd.DataFrame(model.transform(np.array(df)))
. \6 l& W+ g; [( a/ q
pca_df.columns = ['F1', 'F2', 'F3']
" _& G1 z$ _9 \' W/ Z" y
pca_df
' J4 W' F* X* e! P$ o! [
4 ?0 X! ], c% j! \, X6 Q
这几行代码使用model.transform方法将原始数据进行主成分转换,并将结果存储到一个新的数据帧pca_df中。pca_df包含三个列,分别命名为'F1'、'F2'、'F3',分别表示三个主成分的值。
* i% b u, P8 W, B* N6 g4 z
希望这个逐行解释对你有帮助!如果你还有其他问题,请随时提问。
; D; ?" R0 B0 p4 ]
4 h% \7 }: N, w% O
3 X1 V7 O5 A/ j5 C3 B
29.pca.py
2024-3-21 11:03 上传
点击文件名下载附件
下载积分: 体力 -2 点
671 Bytes, 下载次数: 0, 下载积分: 体力 -2 点
售价:
2 点体力
[
记录
] [
购买
]
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5