机器学习 - 决策树：技术全解与案例实战 - 数学建模社区-数学中国

import pandas as pd: c( C" P+ K1 e
& V2 d1 g' ^* o" T" T/ h4 K" i
from sklearn.model_selection import train_test_split. u* I4 ~& p- z& I1 Y( N
8 X9 K, x$ l0 d$ a
from sklearn.preprocessing import LabelEncoder3 \4 V0 ~, ^7 M8 _ O9 [* t1 J
% J* w1 w. Y% Y$ t* I+ O. C% d: n
from sklearn.tree import DecisionTreeClassifier
3 r) }. i2 w2 j1 z
6 X1 j# M S4 l- C L9 C0 Y2 a3 L
from sklearn.metrics import accuracy_score
6 d- [ k# N- B9 A. e- ^! X6 j
6 f) j+ {/ k( k; J
\9 p0 U% l1 t3 `# {* ^
* J: j5 @- S- _- b1 q
# 加载数据
9 p+ ? t5 s4 l# j' k9 j
& a- {( H+ ~/ y, p7 E3 Y' @
data = pd.read_csv('bank.csv', sep=';')9 } Q8 s; p# c$ M; a' c$ Q0 a
! M8 X% e" J! k( G) J; u0 U
" t0 y& J9 F& V8 J- Z
' o( S) ^; Z/ x" J) e
# 数据预处理
! `$ j- Q O3 ^; D
0 x* G$ ?, e( ^6 `6 E; Q6 i$ Y
# 将分类变量转换为数值& |8 g% n) [4 T8 R0 _
* x% W8 D' N3 S+ i5 D3 ~
labelencoder = LabelEncoder()- b" c5 f0 a0 Y/ i C/ K
7 l/ N/ A/ q% O6 m3 b1 p0 |; _
data['job'] = labelencoder.fit_transform(data['job'])/ r$ V7 V4 |4 V: I0 g
0 @. j$ J7 h! l g$ R# X/ S
data['marital'] = labelencoder.fit_transform(data['marital'])( T. X5 Z+ b) G% |
8 V9 r& d7 ]; d l" m
# ...对其他分类变量进行编码
! k1 X- R4 v4 C6 ?. k+ W$ U* l, P' }6 n
) x1 D( w3 T* X4 u: h9 Q7 X
! h. ?; k2 `# x: T* e
0 Y+ C7 w# V! U# ?+ b
# 定义特征集和标签
9 m0 R- ~2 t) s: Q: _ |: Q3 ~, s
' n3 j$ c { B2 d r. `( z
X = data.iloc[:, :-1].values9 B6 `- ?7 C% A9 E. N4 ~: U/ Y) z
0 b( ~- H0 r# d" ~
y = data.iloc[:, -1].values) ?2 S$ G# h W" u
9 H+ }6 v" |9 R: }: @$ @ h
( q9 ^# u; J7 m) q
@1 D) T/ G" ]
# 划分训练集和测试集6 [, Q* c; K m! I3 q6 [
0 Y7 O1 i' A; w0 E
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)6 @: v# n3 ]+ l
; X& R. t x, q
) i7 Q& N, G/ @0 t# E' o4 v: r1 N

复制代码

clf = DecisionTreeClassifier(criterion='entropy', random_state=42)# 训练模型7 q. _3 n" k8 e4 H0 o
- C. H% j- M" Z0 Q* f
clf.fit(X_train, y_train)
8 s9 p% Q: A4 p% U& o8 s& ^
; b2 f( d8 w' l
4 r5 |$ j! ?' B3 S2 B
, e+ l# Y2 ^0 s4 f" w% w* M
# 在测试集上进行预测
" G4 O0 E6 t# X' p. W# U
& y. G0 q& M( T: `8 F$ R# f S
y_pred = clf.predict(X_test)2 I3 h- c$ x. i. c8 I V* {- ^
( {* K ^2 s6 n
6 ?6 E3 W1 L8 F: c" ?
* w( ^! e- x4 |
# 评估模型$ s( K0 H9 [- _! O# I9 i
4 J I1 p& j- {( D: B2 d
accuracy = accuracy_score(y_test, y_pred)0 i% @! Z/ d0 N1 v) v" X
2 K( P% `: U; s8 Z4 N
print(f'模型准确率: {accuracy:.2f}')

复制代码