数学建模社区-数学中国

标题: 基于Python实现的决策树模型 [打印本页]

作者: 杨利霞 时间: 2022-9-12 18:10
标题: 基于Python实现的决策树模型
基于Python实现的决策树模型

决策树模型
目录
人工智能第五次实验报告 1
决策树模型 1
一、问题背景 1
1.1 监督学习简介 1
1.2 决策树简介 1
二、程序说明 3
2.1 数据载入 3
2.2 功能函数 3
2.3 决策树模型 4
三、程序测试 5
3.1 数据集说明 5
3.2 决策树生成和测试 6
3.3 学习曲线评估算法精度 7
四、实验总结 8
附录 - 程序代码 8
一、问题背景
1.1监督学习简介
机器学习的形式包括无监督学习，强化学习，监督学习和半监督学习；学习任务有分类、聚类和回归等。
监督学习通过观察“输入—输出”对，学习从输入到输出的映射函数。分类监督学习的训练集为标记数据，本文转载自http://www.biyezuopin.vip/onews.asp?id=16720每一条数据有对应的”标签“，根据标签可以将数据集分为若干个类别。分类监督学习经训练集生成一个学习模型，可以用来预测一条新数据的标签。
常见的监督学习模型有决策树、KNN算法、朴素贝叶斯和随机森林等。
1.2决策树简介
决策树归纳是一类简单的机器学习形式，它表示为一个函数，以属性值向量作为输入，返回一个决策。
决策树的组成
决策树由内节点上的属性值测试、分支上的属性值和叶子节点上的输出值组成。

import numpy as np
from matplotlib import pyplot as plt
from math import log
import pandas as pd
import pydotplus as pdp

"""
19335286 郑有为
人工智能作业 - 实现ID3决策树
"""

nonce = 0  # 用来给节点一个全局ID
color_i = 0
# 绘图时节点可选的颜色, 非叶子节点是蓝色的, 叶子节点根据分类被赋予不同的颜色
color_set = ["#AAFFDD", "#DDAAFF", "#DDFFAA", "#FFAADD", "#FFDDAA"]

# 载入汽车数据, 判断顾客要不要买
class load_car:
# 在表格中,最后一列是分类结果
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/car/car_train.csv')
      labels = df.columns.values
      data_array = np.array(df[1:])
      self.feature_names = labels[0:-1]
      self.target_names = labels[-1]
      self.data = data_array[0:,0:-1]
      self.target = data_array[0:,-1]

# 载入蘑菇数据, 鉴别蘑菇是否有毒
class load_mushroom:
# 在表格中, 第一列是分类结果: e 可食用; p 有毒.
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/mushroom/agaricus-lepiota.data')
      data_array = np.array(df)
      labels = ["edible/poisonous", "cap-shape", "cap-surface", "cap-color", "bruises", "odor", "gill-attachment",
               "gill-spacing", "gill-size", "gill-color", "stalk-shape", "stalk-root", "stalk-surface-above-ring",
               "stalk-surface-below-ring", "stalk-color-above-ring", "stalk-color-below-ring",
               "veil-type", "veil-color", "ring-number", "ring-type", "spore-print-color", "population", "habitat"]
      self.feature_names = labels[1:]
      self.target_names = labels[0]
      self.data = data_array[0:,1:]
      self.target = data_array[0:,0]

# 创建一个临时的子数据集, 在划分测试集和训练集时使用
class new_dataset:
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self, f_n, t_n, d, t):
      self.feature_names = f_n
      self.target_names = t_n
      self.data = d
      self.target = t

# 计算熵, 熵的数学公式为: $H(V) = - \sum_{k} P(v_k) \log_2 P(v_k)$
#       其中 P(v_k) 是随机变量 V 具有值 V_k 的概率
# target: 分类结果的列表, return: 信息熵
def get_h(target):
target_count = {}
for i in range(len(target)):
      label = target
8 y! ]- b- l; p. K2 M       if label not in target_count.keys():
. U8 b: M$ Y8 j' j3 H          target_count[label] = 1.07 ]9 F) [+ X8 S) ~- [  o6 X; t! U/ Q
      else:& W3 B5 ]- @" N9 {! G
         target_count[label] += 1.03 o. z& f0 z1 N# D
h = 0.0( q% R/ e  L  b( s
for k in target_count:7 F7 m' v$ Y( g1 K' P
      p = target_count[k] / len(target)4 |- O) H4 n6 s2 F: U
      h -= p * log(p, 2)1 z4 d3 Z2 ~9 y* r1 y+ K
return h/ }; ]& K( P; b' l" h* P. g
8 Q& ^* O) v# _4 n% B3 C6 d/ B
# 取数据子集, 选择条件是原数据集中的属性 feature_name 值是否等于 feature_value- J: z/ k& P* e6 u+ L
# 注: 选择后会从数据子集中删去 feature_name 属性对应的一列
* `- ~! x& z! b! Hdef get_subset(dataset, feature_name, feature_value):; _" ~! Y5 u' V. A
sub_data = []% `) D) C! {( G$ n) B
sub_target = []
% c6 n+ k/ K' _# \* e f_index = -1
9 Z% P9 {1 }, D for i in range(len(dataset.feature_names)):* K% G" M6 J, }, X" _! o3 @
      if dataset.feature_names == feature_name:: S! d/ H) Z& y. X: H0 D% ~$ G- j) p: c
         f_index = i
0 N1 A9 q; p( Y5 @5 g8 g1 e, U          break, l0 r6 i! Y; ]' L! u1 L2 j
, G9 F7 o! w2 z8 @
for i in range(len(dataset.data)):: T0 M9 b6 R/ O
      if dataset.data[f_index] == feature_value:# |3 E) H1 P4 G) j2 W" s5 l
         l = list(dataset.data[:f_index])
8 \% H& o& s$ ^! w7 R- q- L# t          l.extend(dataset.data[f_index+1:])8 K- ]& k6 u. P; f4 D
         sub_data.append(l). `) M( l5 t% V6 Z: E: d  G
         sub_target.append(dataset.target)
- `6 I& Z3 j' t& Q( H% Y3 m4 W8 s- G
sub_feature_names = list(dataset.feature_names[:f_index])
* C9 {1 a' O- r. }2 R) f/ Y sub_feature_names.extend(dataset.feature_names[f_index+1:])5 y4 K4 x# C- L8 P3 V. d8 U
return new_dataset(sub_feature_names, dataset.target_names, sub_data, sub_target)
( [( N8 ^  x: h' }: v% q" n3 D: C
# 寻找并返回信息收益最大的属性划分5 Y% `; y! S; S6 s+ Z  K
# 信息收益值划分该数据集前后的熵减
3 J3 X: D( v, Q6 E' V4 }# 计算公式为: Gain(A) = get_h(ori_target) - sum(|sub_target| / |ori_target| * get_h(sub_target))$) @4 `  O$ s) D" Q. p/ ?+ M
def best_spilt(dataset):
7 b8 ]* X1 F- p6 @
# h" e; J, w; s$ B, y* b base_h = get_h(dataset.target)
0 x" W  _( m" _5 h! P6 y9 G best_gain = 0.0( @% e8 q" v( k+ S8 n
best_feature = None
0 t& U5 \% P+ N5 }2 U" u for i in range(len(dataset.feature_names)):
5 H0 J( g2 E  H6 z* |7 ~9 [       feature_range = []
: ^1 ]; A" E0 p# \       for j in range(len(dataset.data)):1 ]+ S  A+ H7 K- U. y! o4 h" f
         if dataset.data[j] not in feature_range:  f/ g, I  [8 d
            feature_range.append(dataset.data[j])
' K! _1 {/ H% L2 z( Q5 B( }0 ]  I# q
& X3 J' P  t) |. x% N/ c       spilt_h = 0.07 ?  R% q; X8 l* }6 M6 Z
      for feature_value in feature_range:
! b% f9 o% v$ k5 d          subset = get_subset(dataset, dataset.feature_names, feature_value)
/ G* P3 @5 f3 m          spilt_h += len(subset.target) / len(dataset.target) * get_h(subset.target)' ]  a# {" _; A: |

9 I; W3 u8 ]& t- F# Z       if best_gain <= base_h - spilt_h:
' J$ N5 u) k. E; s3 ?          best_gain = base_h - spilt_h2 i5 w( X1 X7 [0 s5 i7 s
         best_feature = dataset.feature_names
0 j+ s6 d3 s: A( L
8 Y  t# j) |3 y" D, A* U8 M return best_feature3 r' U3 G3 d9 Z5 b. ?0 @- y

" @/ [+ C; K& B# l# 返回数据集中一个数据最可能的标签
7 L9 m8 f$ E6 G! ^, ddef vote_most(dataset):0 n& h$ h  G0 D
target_range = {}+ Y' E* m0 g/ d# b
best_target = None; B2 V; F$ W( k+ r1 u! f
best_vote = 0% R. l4 i0 b6 {$ v3 K
: U  ]; q# t6 L2 U2 a4 R
for t in dataset.target:
4 m% U6 u$ v/ n5 s0 }* O% _: s" i       if t not in target_range.keys():) @& B+ [# \+ \4 V
         target_range[t] = 1& m" L' p& O9 W! g6 ?2 z- z
      else:' J) F: V, {2 t2 `/ ^
         target_range[t] += 1
2 X: `: E; ~7 n7 i' I3 t& A0 C' G: J
for t in target_range.keys():: f- A5 @  S- H$ f
      if target_range[t] > best_vote:" H7 Y' ~! K% ]+ }, i% T
         best_vote = target_range[t]
0 y8 I5 C2 W; B0 C* K& y          best_target = t
9 B: ]; @  k% C8 C" Y  L6 z4 n5 z1 b. Z7 T! ?
return best_target
1 @1 ^" ?- g: b3 Q) @, s
' v# f6 }3 ~" f" e( u% n. g# 返回测试的正确率
* J- p0 d( t1 f/ ^+ a# predict_result: 预测标签列表, target_result: 实际标签列表
1 K/ P: }1 O1 W( z. Z1 {4 ]% o+ Wdef accuracy_rate(predict_result, target_result):
' F, B* j: r$ m& V  U1 ` # print("Predict Result: ", predict_result)" F  t7 |# t. a  c0 O# d
# print("Target Result:  ", target_result)
9 J, ]# ?$ {9 w$ m, e) s' | accuracy_score = 0! v0 E! m9 A4 v8 @, d
for i in range(len(predict_result)):
2 X$ x! x" J7 ?* g       if predict_result == target_result:
  C0 y8 x2 O9 k& N0 E- c9 P          accuracy_score += 1
6 g. `! x3 A% n' j% A return accuracy_score / len(predict_result)
8 n+ V4 j& K2 g: N0 a
; X# O4 K* R( p# 决策树的节点结构
1 y  K1 `  ^7 g" Z9 D# ~. E' J/ wclass dt_node:" L+ \, t6 b( w  E4 N2 J4 q" w
! p: Y  w$ N. O
def __init__(self, content, is_leaf=False, parent=None):
7 M' ~7 O" l/ i4 v2 D       global nonce0 E& c" P! g" L( K
      self.id = nonce # 为节点赋予一个全局ID, 目的是方便画图4 p: _5 }: y5 Y' O, i
      nonce += 1
$ _) M* j3 D5 f, H& a2 v       self.feature_name = None) t4 \# M& Z+ e2 z
      self.target_value = None2 \4 m8 ?$ O% \$ t# I/ ]
      self.vote_most = None # 记录当前节点最可能的标签- k$ J, h) W7 U
      if not is_leaf:
9 e% n0 n9 T- c1 D          self.feature_name = content # 非叶子节点的属性名! ]& M4 y3 }! Q
      else:
% I$ ^& S: j1 i: L          self.target_value = content # 叶子节点的标签
6 M# l! C* Z9 N) B  H' S
5 S6 S/ P' i7 d3 z2 x       self.parent = parent4 W, g, }0 Y% Z
      self.child = {} # 以当前节点的属性对应的属性值作为键值1 K3 G6 C5 o+ Z) D' k. Q: E

" L5 X! n2 ?4 S  [+ ^7 l) v# 决策树模型
4 X+ x/ e4 R! D2 N8 ~2 d; rclass dt_tree:
0 n6 I2 k4 z& E. w! X7 s: v+ w7 C7 B, x* y; U3 [, K- h. r1 G
def __init__(self):
& ]: n2 J8 o9 h% _  u: v       self.tree = None # 决策树的根节点2 v3 z. {3 p1 ]9 ]/ C* z
      self.map_str = """
" S' h; n, D: X% T0 p          digraph demo{
/ P7 O8 Y5 Z6 H, }, \          node [shape=box, style="rounded", color="black", fontname="Microsoft YaHei"];3 ?' x  k& z9 ~* R! p" d) {
         edge [fontname="Microsoft YaHei"];
/ m- N! D. B( ?) Q- s          """ # 用于作图: pydotplus 格式的树图生成代码结构
& t' }9 V9 k: B0 A       self.color_dir = {} # 用于作图: 叶子节点可选颜色, 以标签值为键值
' s% a4 h7 p, K* @6 b/ v
9 `. Q2 P8 K0 N, k # 训练模型, train_set: 训练集9 z4 j' b5 D( O+ G- @' D5 W
def fit(self, train_set):7 V$ Q! X& `4 q6 H6 @! a

* ^% v# ~) c; k- L: E       if len(train_set.target) <= 0:  # 如果测试集数据为空, 则返回空节点, 结束递归
* p6 P; L% s0 a2 N2 t          return None
* H7 e8 `' w4 ^6 K* u* K
  R* h7 Y% h9 Y0 W8 o+ n# N! }' m       target_all_same = True
( i6 O5 J* Q  h5 _       for i in train_set.target:
) @# ~: k9 X, Q* b8 F8 k          if i != train_set.target[0]:
* [5 T( `2 Q' A  a0 W0 ~% `             target_all_same = False; M" u$ e! }! P9 h, [3 ]2 R& V) h0 a
            break( u8 T  _: }' M7 `* K, i% A
- t6 r9 A/ J% M6 v7 y# F
      if target_all_same:  # 如果测试集数据中所有数据的标签相同, 则构造叶子节点, 结束递归* }0 j, S" Y- A
         node = dt_node(train_set.target[0], is_leaf=True)
4 y' p: V0 d3 T0 U6 c$ R( j% i          if self.tree == None:  # 如果根节点为空,则让该节点成为根节点, p2 T7 J/ p6 w8 k
            self.tree = node4 _! w& |0 L  O& U

: b. C8 U2 ]. Y4 ?          # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点4 _/ c. D" Q; j  {! z% |) M: o
         node_content = "标签：" + str(node.target_value)
9 O+ I& M8 V- _) J/ ], K7 N          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"
6 E5 [- E8 H* r9 @; `: D5 ^+ g# Z, b+ X4 X0 M: I
         return node2 q; O( V7 L' ?% L/ k( ^" J
      elif len(train_set.feature_names) == 0:  # 如果测试集待考虑属性为空, 则构造叶子节点, 结束递归
' G( t6 z/ V3 B5 Y) P; D+ A          node = dt_node(vote_most(train_set), is_leaf=True)  # 这里让叶子结点的标签为概率上最可能的标签
: m6 }: J$ Y0 U5 ?$ d; j          if self.tree == None:  # 如果根节点为空,则让该节点成为根节点8 t/ j" m0 ]; l) e8 R2 L4 I2 z
            self.color_dir[vote_most(train_set)] = color_set[0]; u$ E9 A: h% c; ^4 \
            self.tree = node. K6 }. q$ b: K& G0 ]; r8 M+ C0 u
( z7 a+ {4 |5 f4 h
         # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点
" `( u' n- j" b. o* K          node_content = "标签：" + str(node.target_value)
6 Z5 a, R: G+ x. t+ X          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n". M" b5 H4 M+ V5 @" P7 a, s9 u

1 @9 z' G8 g$ V" @( z' t          return node
# \# A( U* a+ E# s! f" n: k; t       else: # 普通情况, 构建一个内容为属性的非叶子节点9 d6 P  L8 ^6 X/ O0 a
         best_feature = best_spilt(train_set) # 寻找最优划分属性, 作为该结点的值( L% i8 _/ o8 b8 ^% l
         best_feature_index = -1. B  w  E; @+ p( {
         for i in range(len(train_set.feature_names)):
8 f# E- u5 L2 T: r( F             if train_set.feature_names == best_feature:
* s5 @+ s7 c2 x1 [                   best_feature_index = i6 N  h! k+ j& n% C  I, ~* a
                  break
) ]' r' N/ s5 k% e% r
3 E" s/ a* B) b          node = dt_node(best_feature)
; `$ x4 u7 i6 a- T  x# ^6 c          node.vote_most = vote_most(train_set)
9 S' v1 X  s, B; B7 D$ [          if self.tree == None: # 如果根节点为空,则让该节点成为根节点
! m5 K0 A/ f1 T7 S             self.tree = node
; @; ^  a5 K0 F" t: r             # 用于作图, 初始化叶子节点可选颜色+ n' ?1 u. f- M. q7 r: ?% v
            for i in range(len(train_set.target)):
) v6 @2 w8 r1 J& T3 w                   if train_set.target not in self.color_dir:
- p2 G$ b' }  ]. P3 }5 k                      global color_i$ j* ?+ J" c  S) E5 d3 k/ h+ L
                     self.color_dir[train_set.target] = color_set[color_i]
6 l7 ]& j2 W& P) W                      color_i += 1
9 C) C! {! w- l7 L2 e, U% l" [                      color_i %= len(color_set): q* _: q8 [' n3 T( R
6 C, ^  m8 f' o' I
         feature_range = [] # 获取该属性出现在数据集中的可选属性值
$ g( t& S6 m7 Z( V. N4 h          for t in train_set.data:9 ^# P; `. M) p0 G. Z
            if t[best_feature_index] not in feature_range:
! k! I1 E4 y1 h4 z2 {" N0 \                   feature_range.append(t[best_feature_index])
! t$ S& ~* l7 M% Y9 N
5 i: u9 J; l1 r0 K, z$ U          # 用于做图, 创建一个内容为属性的非叶子节点' x" C$ X3 a9 a( [: X  n
         node_content = "属性：" + node.feature_name; J, j+ Y1 v* H
         self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"#AADDFF\", style=filled]\n"& R* k- b9 \6 K  D" w6 m
  S$ P1 v. W/ k9 q3 g
         for feature_value in feature_range:5 @% z" G& L" A- \. h. x* G8 l
            subset = get_subset(train_set, best_feature, feature_value)  # 获取每一个子集- H( g) e% z) ]* }5 O/ y
            node.child[feature_value] = self.fit(subset)  # 递归调用 fit 函数生成子节点! v: h' z# s$ V* \' W0 ]; b
            if node.child[feature_value] == None:
, Q$ `. L* X; I: w- s: E% \& i1 T                   # 如果创建的子节点为空, 则创建一个叶子节点作为其子节点, 其中标签值为概率上最可能的标签
: d; x2 t$ z0 \2 x$ b: |/ E$ \                   node.child[feature_value] = dt_node(vote_most(train_set), is_leaf=True)
' Q8 l: B/ n  T             node.child[feature_value].parent = node! c3 [! h2 Q, D2 N
; D5 C& F! q. O" p8 j. ~. r
            # 用于做图, 创建当前节点到所有子节点的连线
% Y  n/ L/ t8 M. J! D             self.map_str += "id" + str(node.id) + " -> " + "id" + str(node.child[feature_value].id) + "[label=\"" + str(feature_value) + "\"]\n"
) R2 u1 l, {& Z2 b8 z0 F
6 r" A9 B# h% F9 A1 a% g          # print("Rest Festure: ", train_set.feature_names)
, e. i3 U/ F: `1 i& G5 A, _0 E          # print("Best Feature: ", best_feature_index, best_feature, "Feature Range: ", feature_range). x# Q7 S7 x  Q) |: x
         # for feature_value in feature_range:# ]3 s8 f3 b/ X$ I% b; Z; k$ h
         #    print("Child[", feature_value, "]: ", node.child[feature_value].feature_name, node.child[feature_value].target_value)
+ Y# S' w% N+ W  T" o          return node
4 J  O+ Y8 Q1 W# m3 F) w% y3 ?8 E/ o
# 测试模型, 对测试集 test_set 进行预测2 f. x- B8 }) {8 S* E
def predict(self, test_set):# `& o) ^8 N+ \$ ?/ J
      test_result = []
) X4 e. Y0 h+ r4 q. m) h; o3 M       for test in test_set.data:: k. l& j, e" x$ ^1 I
         node = self.tree # 从根节点一只往下找, 知道到达叶子节点* |' K- M, z/ E4 L" j2 K: L
         while node.target_value == None:! |6 F* u( [* I, [7 \
            feature_name_index = -1
8 u5 u4 }0 N# Q  ?0 v             for i in range(len(test_set.feature_names)):
7 n3 V9 g3 P: V                   if test_set.feature_names == node.feature_name:: ^7 O/ Z' f1 {" Y6 X7 r# F8 o+ d4 C
                     feature_name_index = i
% O. ]# F: ?0 F. T! t. i                      break2 x! o+ D3 Q2 [0 q9 {/ `
            if test[feature_name_index] not in node.child.keys():5 }, q2 a: Q1 U. Y% C9 T
                  break
* f/ Z. s* `) m& M             else:
8 n! {) N& v2 q& l: r                   node = node.child[test[feature_name_index]]
- R* J) h: U% j3 Q1 D
: W$ c1 @2 ^: |2 W% Q          if node.target_value == None:- u+ O: L  G* w$ h& Z" z+ ^
            test_result.append(node.vote_most)
: L, M" n8 Q! r0 |9 y' U          else: # 如果没有到达叶子节点, 则取最后到达节点概率上最可能的标签为目标值
: `# Y5 @* U8 K! A* r; k# m             test_result.append(node.target_value)" f$ }% {0 ?5 I, J4 U7 Z
9 }% o# [1 @3 ]9 f0 d
      return test_result2 m8 u# j9 b- Y0 V: E( f, s0 b: Q

2 x# X3 K9 A. t0 k! E! V8 \9 G0 ? # 输出树, 生成图片, path: 图片的位置
5 @  s) v' B5 b& U# p def show_tree(self, path="demo.png"):
( q; k7 P3 C; i: q       map = self.map_str + "}"
- W. W5 H, I, ]2 m; r9 J9 x& I       print(map). A/ X/ R! j& j% N. E! v( m' g
      graph = pdp.graph_from_dot_data(map)9 C% {( Z9 Z; k
      graph.write_png(path)
$ H  {- ~1 c7 h. i5 q9 z
( M# c1 x; c6 p9 l) n8 L9 b# 学习曲线评估算法精度 dataset: 数据练集, label: 纵轴的标签, interval: 测试规模递增的间隔7 X& c5 [3 `1 L; ]  J3 Y% r
def incremental_train_scale_test(dataset, label, interval=1):0 @9 n5 M- p9 \( w6 o: h# p
c = dataset
& U; g! F/ Y: P- G/ t8 Y: ~1 P! P r = range(5, len(c.data) - 1, interval)
% N5 y+ Q9 C2 ]' I! c! B( b/ [ rates = []# ~0 b3 _1 t2 J
for train_num in r:1 c& [6 @# G$ [$ e2 u7 j' V
      print(train_num)3 Y/ s3 R0 s9 C/ C) f
      train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])
: J* g( Q# J; _+ ?, ]% @, y5 N+ A0 @3 I       test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:]). E8 V2 C2 g" w; }
      dt = dt_tree()
. O! w7 p; h8 r       dt.fit(train_set)' Y3 _' K- h+ O, _
      rates.append(accuracy_rate(dt.predict(test_set), list(test_set.target)))
4 Z3 ?' F) q' _1 W" O. Z
$ J6 D$ R/ o. I$ t/ @  N print(rates)
0 l" ~. I& ?. e plt.plot(r, rates)! l; n6 d5 I: Z
plt.ylabel(label)
% v) o/ Y2 m1 }4 k plt.show()$ k9 P0 E( H. T2 Z1 e. |: U

. x1 g* y* I7 F, _+ [. R( Sif __name__ == '__main__':
& q( [' B1 w, Z7 Q
( s5 B, c. ^& T) a, X8 U c = load_car()  # 载入汽车数据集
1 S, {3 Z3 ~# L* S6 K2 A% o: k # c = load_mushroom()  # 载入蘑菇数据集
" n3 C4 B# ?' g3 C( u train_num = 1000 # 训练集规模(剩下的数据就放到测试集)& \$ D( J+ v- @0 K4 m# e2 t" M
train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])
1 b7 T5 `% P/ R test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])+ h4 l! k3 S* F. B* b1 E
! {( y% r0 t2 j
dt = dt_tree()  # 初始化决策树模型1 t: D2 `2 n) V* E4 W
dt.fit(train_set)  # 训练# a% V. d/ q3 ?8 }. V& _
dt.show_tree("../image/demo.png") # 输出决策树图片
* e4 X+ d) S, }) J print(accuracy_rate(dt.predict(test_set), list(test_set.target))) # 进行测试, 并计算准确率吧( r# W5 Z) Q; o0 h" b3 V

- f0 Z6 w& k$ v2 ~2 u # incremental_train_scale_test(load_car(), "car"). X; F" v4 h& |! ?1 S
# incremental_train_scale_test(load_mushroom(), "mushroom", interval=20)+ L+ P& y, N, ~9 B) X; c

5 w1 ^; J* x/ {8 f
& w$ L4 ~  R7 ^! B! W% @9 t1 w8 w" i9 ]# k) P, R5 ^' w" l7 i
1
# @! E1 Z' {. e! \* H$ B7 P2! q6 ?& l( I5 x5 u5 g. Y2 r* {) U
3
6 ?- _$ t1 b3 s6 D, `4/ [* @8 o, f: K" r# l( n' U
5/ K6 y9 v# v# R4 R$ p4 t+ t& i
6; |  Q' @0 H( O( Q/ c% ]3 S
7, X9 @& K) X- l5 i. l  a* L
8
- O8 K; {5 g2 w$ M6 Z9
9 Y! V7 Q. N0 E" i+ c10% c' j& n5 V) x! z. t. a
11
' U0 V* b+ i% u8 m: H+ i12( P) U* `6 p/ T
136 J. N7 Q" }. I4 ?9 q& k3 \3 k5 U2 O: j
143 Y/ L" Z6 a6 A1 E
15- C+ T0 q/ |. z3 Q' ?
166 z- ^* J( W) Q" Z' m
175 F$ B. n: [. r: t# K* s8 H5 l% h
18
% Y8 g  d4 N# I7 F19$ a; F+ N7 M  O6 m9 x" p/ Q  }
20
, z/ w  S; h- L9 L5 ^" _4 h- x21
: H# X, }0 v; n, o8 v- ^22& {& w. t' x. _$ b8 t, c- F) [
23
0 L8 h4 p' v+ g) |" C7 l3 I24+ |  t, p' ^$ ]5 R/ i- ^
25
. O9 Z: ^" U" _! w3 e26
5 b7 U" `% s! Z4 ?! L1 j5 b" w8 P9 ~273 p; r& M' ?, [: d0 r9 x
28/ A1 s* i( V5 ]3 F0 W; |
29! D- Z" U" |3 S# C% J. h
30) E$ Y5 u* a: u2 h  p+ c: W2 C
31
0 |6 @: A; L. e# D6 T32
  d" T( ~) P; V( q/ [33
+ {1 |( L0 L! _* f+ k7 Q340 ^6 P9 b+ T4 F( `$ u. X+ A
357 R9 w7 ~1 W, u# U* b0 T
36
, c$ A" o; F1 o8 Y37
2 Q9 l3 Q/ }7 [& H) u38
  s/ W: s/ S  h! u3 E% M. _3 v398 H( G- h: N3 L! Y4 w4 m
40% z2 V+ _; e' H" F5 _0 @
41
2 I+ z) B. S+ D3 t' |; O7 ~420 F  P. T. Y1 E% {# j' R) [7 o
43! R8 D* T" l' Y0 O4 _0 N: V
44" b/ j, z+ H. {
45
9 d' G  N5 G5 g6 g1 M# Y! I5 o3 Z46
# p, ?( g0 y: O1 N47/ v- ~- @# ^# u. Z' B
48  m/ ~2 a% G; L% w0 k) Q3 U* x! P
49% k4 c. I. F' [
503 ]6 [) B( w  X/ \' X" ]
519 }, Y  m0 Q9 U# G( v/ G+ L( b
52
5 @6 n3 Q2 J9 r  N+ [- S. F' \53
0 O' J7 u, B, O# Y# O+ i+ S& {548 V7 B$ c% j) T7 y$ }, X9 v3 t! l) q
55& W) N; S3 s; D& F/ t
565 k+ ~) D+ B1 F$ L6 i" d
57$ F8 [6 t4 w8 l+ k7 k% |
58
) ^7 ?# L% R% W+ I" h1 k; j593 _- A$ K& o2 i2 i- ]8 d
60# R/ i9 K; J" M3 q# r- j+ E
614 C3 M2 I& B( [3 ^
62
: d0 Z* j4 I9 W  ]" U0 F631 {2 h/ v+ h( U5 t. x8 E  J
64
0 P1 R& m+ Q- D' T8 n; b65
0 h! m: I( ~+ K( i66% `3 {$ ?& G5 K; h  ~8 y
67" x' |9 L8 I3 k
68$ A% \5 w2 m8 {  |9 U
691 S/ L. X' ]0 ~( o; M1 H! j5 q
70
- N' z& h8 k" A+ _8 E3 c' Y71# r# x7 T' L: s: O
72
6 ^: ?% Z/ }9 U73
2 F8 C7 y7 G5 Z4 P' Q& K74
8 F- o0 f1 }# {8 n$ U75
% ^, |& a' E; D4 T1 n) q76
' `% I; P/ P9 I77, Y! Z! A3 Q( G1 g: w" }
78  `& v0 n  M. {2 E: H
794 C/ O  J; P4 O! r* e2 j7 l
80
2 X* Z2 t9 s, ]3 N4 \. S# c: I815 k% ]! y+ [' l. u. a+ d
821 @! L' K9 ?2 i  m
834 |! {+ I- j0 u4 y4 K
84- p9 r7 ~6 D$ q0 W1 I8 A
859 e- O* b) |9 H: C
86
* v: x  X. }' A9 B6 C8 z87  b! L) [  m; |4 Y; ?8 Z" V
88
7 \$ Q- \7 |4 {, U  Q890 Q  }8 e% d/ W/ K3 A" S3 z: D
90+ d: m5 y- _* v2 |) S$ i6 Y
91$ h) A5 H0 v$ ?; [4 k
92
* P$ R. j4 X9 @; n/ G93
! X& W8 J/ k. w6 T) a! h/ r0 C# `, G* \94
% O& }( }: n3 m! V; S0 E% \  I95; L- X# M$ {6 g1 u% i) J
96. ^  r7 F8 x) |7 I/ X! u& V
97
" N4 P: V+ S/ Q; d98, C6 y$ a! q, ~& C. E8 Q* M2 h
990 ~/ Q4 N* s$ I6 y2 [' F1 P1 m
100
0 T  y6 u/ Z# T9 e4 U1010 x/ x" p7 O' ?
1027 c3 ?* r( l# o
1030 B* x1 d  r$ @" ]/ q& d! g- r
104
$ h' r: x" q* Y7 b; a: G105
  w% S0 e1 M8 ~" `* L5 T3 S. T106
/ h/ }1 X: b. a5 |; `; K2 t9 G107
& x0 f8 R+ Q8 l2 d) o3 F& }) ^108( n7 x1 j2 @& ]8 T! a# c) m
1094 h: W2 _& U. s4 `; Z3 O
110
- I3 A! I( l2 W2 ^6 ^1110 J( p! K; j  f/ u
112
$ }* s5 H: v$ p* s+ D* |113
7 G7 c& j/ r) Y! G114/ s* F2 e( q; ^: V8 m
115
  k, O& {/ W- ~% v; ?1 ~- e116
+ x+ Z& z6 Q0 v0 Q7 C( A! U117: U) _0 ?$ O+ q; B' `/ _
118; {" n  c: v1 u/ P$ e2 P
119! `9 Z% \8 ?  {# ~
120, Y* u1 R' a% ~- H. c% G
121, Z6 R6 f) k# e1 g) u3 u; _* d! B/ I
1222 e: g; m3 I# q9 h4 u5 R+ I  {( _
123  X& R  y: ?" d2 r- i/ \3 P
124" I6 w$ ?2 S4 z8 T1 z5 Y. e5 m
125
* h" l% }: J9 M& }  A2 \126* w& w2 B9 k) }$ p& ?
127
6 N0 E+ K, \" y9 m- E% t8 ^1280 u3 j3 ^& m# i5 [# n  e. b
129
; z/ d9 O: o2 d( A, {! P130
$ D, a4 Q/ u9 \  [. M4 F  `131
8 B$ h5 g/ h8 w5 t132/ x6 o* s, k. t" @8 v
133
5 R+ m8 e( f9 F/ }( [( M9 p134
7 }. z, B2 V$ T; G4 d" V7 b135
: _1 e) U' ^: t136
8 i: K" a* I2 T137) O: u" L% }: k( V/ f
138
* E4 `& f" |7 t139
. a2 G+ h+ `" J0 R, U140( S3 n$ J; i' b9 k& A
141
" O8 h% w3 s6 s6 o142
) Y( {& _% ~  B! J143
6 l: P3 Q% g$ f7 f) E; w- |8 J144
/ M) I$ }1 Z3 X1 ?" m  ^145' @$ ]* S( B2 o, S2 ^
146( A" @& ?5 ~% O8 \2 z
147% M) L: L! w& [9 H9 r3 n$ K
148# `9 R* @! v; `- q& P
149
/ _- I/ W7 t7 `2 p9 i& ]150- r( L$ c  ^1 O( H% \
151  k4 Y: l6 U9 y  J% w/ ^( j
152
3 |4 \8 [& t6 Z5 ]! b6 t  V+ A" p153
1 \2 t7 \) r" z/ a8 {3 R4 O6 {+ ^154
6 F& ]0 d8 C1 r155
4 U( R$ L" m* o! l- G% i156
8 z: g% |  N  Q* s" r  ~" e157& ?8 H( ^2 C5 }+ d8 W, H6 ]  Q
158. m. X- ^) R" e* W, j' N3 B
159
" k- D* e: m2 _; R160& S8 T& N1 J' M7 b3 p1 ^
161. Y0 i! Q9 w. P8 q
162: S7 N* E9 x0 I1 [) ?; X# m
1638 O; K' E$ }3 u6 x7 M$ d
164
: S/ K! {$ c9 X3 X! S9 p% |165
5 v* p' _/ `2 p4 m" G+ g8 r166
: v1 j# \' d, N; K# L* @167
5 J, Q9 w  F) W! m- W! Q+ I/ P1680 G5 }5 a% o1 X. y
169
6 Y* c0 A( ~! d( F6 g+ j/ |8 o170. K0 R- Z) j8 b
171
( {( u4 s8 q' D9 U172
; \4 @. l+ u2 P8 ^7 S173: f6 C+ G6 s% L, i/ N) q
174& y$ u- \& i# U) \, \, p
1750 t& I" a) z# U, l( z
1762 q1 t1 R$ `* |" Y) ?  G  ?8 Y3 w
177% ~- k* g/ t% u# q; ^( r1 R% b) D4 @
178; `3 l  B; q: r5 w  z
179
5 e$ E) f8 |! c- J' r180
& S! W1 e/ H$ `3 b* A) l1816 e% d+ ?, j3 P- R  q! Q
182" E- ?* E2 C! h3 ?% ?- D3 z" D1 W4 o2 q) J
183* r6 n6 @5 `/ c8 {; L) }
184* E. V: O2 L: }8 c
185* ^5 S- n! ]0 C: t, v# {, A6 ]3 i
186/ i6 E8 a. b& G! c2 t- t
187
6 w% x, o# T2 B/ P( o188
6 ?$ f: [! R0 s2 \# ]1891 n/ \3 l9 M7 h6 `  B  d( K* D' R
190
$ z) Q; k8 h3 {8 ]. {- Z191
+ p# _! k- _+ K192% _" G4 G& B, h" X; ]8 M
193
7 R$ H/ {, y0 z# J, t+ o- p194
! O; P# q0 j& ^7 O; p. R) g195* U: e2 F+ W% ]- O+ q6 p6 K3 \
196
! C1 s; |  d, H0 V) Y6 y197- \+ B- o# q! ~' J
198
: f4 G/ ?) Q" @199
- n0 I$ L% u6 r/ Y200) L" _, N) f0 T1 s- X  K
2011 s3 E, @: }2 J: X8 [0 ~& @% }& e
2026 G+ e" X6 C. S: i, O8 u
203) r$ ^, s7 j& Q
2044 T& u/ X" [- F
205" T6 x% V& Y, D, w* }
2062 @- N0 m7 B* V( j
2071 b% d! O* U+ y4 V" D6 ~3 E# s7 V
208$ M# r" S) q. e/ B
209+ u6 G& `1 V: U1 |6 g; Q
210  N7 ^2 Z- b% [4 v- Q, M& k$ u
211
. x' R( T! K7 I1 t) y212, i1 b- e4 H: O$ P+ v
213" y  e  y& ?7 J! u: q+ O
2140 D1 P4 w+ M; r
215
/ B4 W' n  z. s! K4 S2166 r4 _2 U1 d4 G
217" A# _4 Z: h6 J  |" W7 L( H+ B- v
2184 g. L5 B. S" T3 c  F! H
219
4 A+ g' H6 T: {1 S) d2204 s; E0 ]: B6 {- B( v7 ?
221$ q( ]" H0 N5 w1 a, \. s
222# Z9 U" [% F; M1 q- ]
223  s5 _* Y. ~. j! r6 R
224, @+ b& C" G: q9 O
225
  ^6 t! g7 y2 ]* P# m6 O+ J5 A226- `8 E$ T9 ^& c& L! f
227
% p& o, Q5 V  }! C# Q1 X" f228
- p& q, B+ }2 }* {0 L229
3 \/ a/ k; @' a0 L& d230/ }* Y; q- q: F4 I8 l" w5 l
231) X! X8 c2 v9 K/ e
2329 d  f7 Y' g- l, C% f0 }
2333 m; v0 h$ q2 p$ r# |! v9 d0 `
234
0 M( H  O/ ~  R  ~. g235/ d* R9 B& F+ T5 ^4 i: H
236
; h) k5 M8 q3 z7 F$ I2377 Z$ ^) s" ~9 P. O* I
238
4 w4 e" M4 G. ?5 c' M239
& N; ?9 l4 i' p0 q- D" V+ t240
7 [4 ?- a. H0 A: i8 x7 I& m241
  `$ `% n3 a7 t1 }7 X8 H7 `+ f* C242
# k3 `# G+ r' h243! r$ U' Y2 L4 X: a' h2 G7 i
2440 X9 j7 U* n8 q
2451 B3 P& q+ X. [- e$ ?. W3 \3 k
2460 d  m( j6 k. ]5 o6 Z9 F' X2 e
247" ?( B; b, ], Z! x+ g& a9 _$ ~' D
248+ A% R& T" \# V& f. G: a
249
9 p! ]" n4 s9 ~2 u4 S250
" T9 Z) v9 B5 k) T  F9 ]8 H251
; G8 ~) @+ c  h' P/ }& d0 h252
1 [  S, Y' }7 R6 u8 x: u( \- m253
& A1 f6 A' Z+ ~0 q# t& ]: L# \254# {1 w! [& q% d4 p
255; V& Z. o" i) q, Z
256. p/ _# j6 V* Y" _8 A7 U
2577 W, W0 B4 f# n0 T  Z2 F8 h4 S4 x2 I- \
2585 S  d8 Y+ t! z  Z3 @# M" s
2596 J& K5 y1 Y# q7 z
260! ?) n" `0 N7 n& _; }
261! O1 o8 T3 o2 O; g
262
# L0 A' ?$ q: ^) C4 A: o: E. ]3 {- y263
( x) x8 G! q( d* r264  k8 w' k! s7 e, U8 `
2658 D- s# }, y6 D) L3 f  G
266
! X: S* C& N5 t' S4 _267
) j  k' l6 @8 H268! g1 {! y4 [# O, _0 f* J9 Y: }
269' q5 O4 k4 }. Q0 ^( Q. w- o
270: E* Z- Q) Y6 u) P3 v% a8 N3 w
2712 W' N* B# D, M8 [2 q: J4 ?
272
7 T* V# V8 \# L5 E$ g! A273
# W& L) J, [( Y  r% _; E# j, e274
- l+ E) y' N3 A275% e# A( Z9 S; F. U0 l& v
2766 [- [4 m: f* u4 f
277
9 O5 {6 \% e$ j- V  R; i5 Q278' Q1 z* }" R  A4 s2 a) G
2793 H! @4 Q8 }  j+ n; m& H4 o
280
8 B- G$ T- e( i( q2818 N+ T6 ~5 ?$ Z1 _, z
282$ a+ P! Z% y6 E4 c" Q# k# b$ X% F
283
' e$ h4 T5 E; F1 z  ~0 H  O  ]284$ h- m& W( B6 Z5 [& o; r
285
1 ^9 ^' O0 `8 S$ i( T: j5 C4 Q5 i286: s3 [" S! j) Q/ D
287& _1 e% [0 x8 ~5 k1 t- @, B9 t
288
3 l1 D6 J6 s* c289; k* f! b( s+ T5 v6 W  F1 c9 s
290
. n" X$ ?. B' o) X( W8 T; Y291* R( a8 R) c* F
2923 s$ |" j. i& B2 {1 a$ g; ]1 `
293
$ i; {) y1 [4 A" S- ]% `  s5 q3 t294
0 g+ c# b# c1 ]. ?0 k7 P295
1 p% z9 l* M- N! S% J296: u8 o5 _/ F% k+ ~: @/ n
297
6 ?! T/ b  V# g/ O1 S298. u4 `, B5 ^& E% o
299+ s  `( _# {4 M  n; m
300( H3 m$ t; N3 O# |3 R$ F, s. i/ ^
301
+ f7 ?6 \/ e' b- ?: ~! b$ ?302% p# q. q6 T6 d( w% u3 c: q
3030 i0 f) m0 y& F7 G$ G% J9 W
304
. W) \" }' f  g! f% G- I305
4 |0 j# q) }9 o: f/ l306
# X4 _1 q  W  I; ~$ e: j( m307: p" ]( r2 ?$ Q* q
308$ T6 U4 p. c! y8 K3 v- Q
309* Q' Y, e2 m! \$ V! m9 ^
310* m1 D, q+ Q) _2 G' Y' X( M
311, l# B" }0 o, b* _
3121 p, W9 n9 c/ C6 l4 B4 i
313* \8 J. p3 N9 d8 |
314- t& U  V/ k3 ?7 n  D, p
315
5 v; g7 e5 |0 e/ k) N4 B% E. A316
; Q  I# s. G( o3 G7 s" P1 r4 {317
& @8 L# X! q2 j8 A3 F6 C9 W318
# Y: g0 Z8 c/ }5 M2 Z319
7 c9 {! H* k6 I# u5 p, U5 O# Y# g320& R$ Y! z+ e8 g* h( r6 Z
321
& A! i6 Z+ @6 |7 Y322. k* N( p& o  l2 ?  U0 W
3235 O1 u+ P" `- G6 D4 @& M% `* R- e( {
324. b- V5 o+ O1 L# b  l+ K( d6 _
325' O" b# u( ?3 L1 F
3264 z! [+ B6 C) w; R& `6 B4 c+ M
327
8 D- X* x+ t$ Y8 b, h# ?328) I6 m8 G7 e0 q. E- S
3298 n4 C1 b% v6 w- P  K
330: I7 @' u, K' H( b
331
% P7 a( X$ f) {6 s
" ?. v/ K7 F2 v# B
$ v" G3 I; \$ u2 U0 T
1 i4 _2 F5 B% F* {. g
5 q# g% R- [6 q
/ h  g; i1 |; G4 l/ B
) [  B$ Y- O* b0 z% k" ^) n% ]' i6 n' z# |) _: R  A
6 l+ A: A- t" \% V! t4 V/ L

* G; }  `2 y3 g! q+ ~5 Q' e
9 i" `. c9 X' a1 u: u3 |9 _3 w
3 [8 Y- [. M, d& M8 \# Q4 z3 X. w4 g9 ?$ t8 C) M% z
————————————————
/ Z: \, T1 |8 v' j* t' U2 H# X8 @版权声明：本文为CSDN博主「biyezuopin」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
* T6 S1 v4 j% P& e$ S; z" |7 Q原文链接：https://blog.csdn.net/sheziqiong/article/details/126803242# [1 i- `, x0 o; R
( `$ `* N2 a: Y; P
: Y: B9 {$ _' Q+ j

欢迎光临数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5