查看: 2606|回复: 0

[其他资源] 基于Python实现的决策树模型

[复制链接]

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2022-9-12 18:10 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

基于Python实现的决策树模型

决策树模型
目录
人工智能第五次实验报告 1
决策树模型 1
一、问题背景 1
1.1 监督学习简介 1
1.2 决策树简介 1
二、程序说明 3
2.1 数据载入 3
2.2 功能函数 3
2.3 决策树模型 4
三、程序测试 5
3.1 数据集说明 5
3.2 决策树生成和测试 6
3.3 学习曲线评估算法精度 7
四、实验总结 8
附录 - 程序代码 8
一、问题背景
1.1监督学习简介
机器学习的形式包括无监督学习，强化学习，监督学习和半监督学习；学习任务有分类、聚类和回归等。
监督学习通过观察“输入—输出”对，学习从输入到输出的映射函数。分类监督学习的训练集为标记数据，本文转载自http://www.biyezuopin.vip/onews.asp?id=16720每一条数据有对应的”标签“，根据标签可以将数据集分为若干个类别。分类监督学习经训练集生成一个学习模型，可以用来预测一条新数据的标签。
常见的监督学习模型有决策树、KNN算法、朴素贝叶斯和随机森林等。
1.2决策树简介
决策树归纳是一类简单的机器学习形式，它表示为一个函数，以属性值向量作为输入，返回一个决策。
决策树的组成
决策树由内节点上的属性值测试、分支上的属性值和叶子节点上的输出值组成。

import numpy as np
from matplotlib import pyplot as plt
from math import log
import pandas as pd
import pydotplus as pdp

"""
19335286 郑有为
人工智能作业 - 实现ID3决策树
"""

nonce = 0  # 用来给节点一个全局ID
color_i = 0
# 绘图时节点可选的颜色, 非叶子节点是蓝色的, 叶子节点根据分类被赋予不同的颜色
color_set = ["#AAFFDD", "#DDAAFF", "#DDFFAA", "#FFAADD", "#FFDDAA"]

# 载入汽车数据, 判断顾客要不要买
class load_car:
# 在表格中,最后一列是分类结果
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/car/car_train.csv')
      labels = df.columns.values
      data_array = np.array(df[1:])
      self.feature_names = labels[0:-1]
      self.target_names = labels[-1]
      self.data = data_array[0:,0:-1]
      self.target = data_array[0:,-1]

# 载入蘑菇数据, 鉴别蘑菇是否有毒
class load_mushroom:
# 在表格中, 第一列是分类结果: e 可食用; p 有毒.
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/mushroom/agaricus-lepiota.data')
      data_array = np.array(df)
      labels = ["edible/poisonous", "cap-shape", "cap-surface", "cap-color", "bruises", "odor", "gill-attachment",
               "gill-spacing", "gill-size", "gill-color", "stalk-shape", "stalk-root", "stalk-surface-above-ring",
               "stalk-surface-below-ring", "stalk-color-above-ring", "stalk-color-below-ring",
               "veil-type", "veil-color", "ring-number", "ring-type", "spore-print-color", "population", "habitat"]
      self.feature_names = labels[1:]
      self.target_names = labels[0]
      self.data = data_array[0:,1:]
      self.target = data_array[0:,0]

# 创建一个临时的子数据集, 在划分测试集和训练集时使用
class new_dataset:
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self, f_n, t_n, d, t):
      self.feature_names = f_n
      self.target_names = t_n
      self.data = d
      self.target = t

# 计算熵, 熵的数学公式为: $H(V) = - \sum_{k} P(v_k) \log_2 P(v_k)$
#       其中 P(v_k) 是随机变量 V 具有值 V_k 的概率
# target: 分类结果的列表, return: 信息熵
def get_h(target):
target_count = {}
for i in range(len(target)):
      label = target
# }/ [6 v9 ~9 Z# d/ k) O, U       if label not in target_count.keys():
4 ?+ S$ T" D3 I$ ^* _: A" t7 P          target_count[label] = 1.0
8 b( M/ M* X1 V8 j, M# d       else:3 K0 F, \- z9 F
         target_count[label] += 1.01 v  S9 Q3 A" z* P- x, N
h = 0.0
) c& J4 E% x1 q0 j; w for k in target_count:
! h0 X1 O6 |* Z$ f+ e8 r       p = target_count[k] / len(target)! F3 U+ a9 H8 C
      h -= p * log(p, 2)0 j( r6 W' {6 A0 M: S9 w
return h
0 d# q1 L5 h+ I1 ~
! Y5 r! H& e4 r% R4 L8 B1 W# 取数据子集, 选择条件是原数据集中的属性 feature_name 值是否等于 feature_value! P  w" }6 k' ?
# 注: 选择后会从数据子集中删去 feature_name 属性对应的一列
3 ]5 X4 _8 ^' d" D8 Tdef get_subset(dataset, feature_name, feature_value):8 _% T- W2 S2 z6 p2 _
sub_data = []# |0 Q* X1 l* n$ b4 ~
sub_target = []; X9 W+ J5 _, ]; A, H# t6 A! [
f_index = -1; o  L/ C% Q9 b0 P" @3 ?
for i in range(len(dataset.feature_names)):. |! _0 L7 m. P0 I: ^
      if dataset.feature_names == feature_name:
5 M' c4 [8 L9 ^; z          f_index = i
* R1 O1 X$ A/ X) d          break
! L/ o! k  `2 F2 d: q
% m: G4 {0 x/ b+ \2 {1 v! W for i in range(len(dataset.data)):
0 y$ J7 g" e9 Q1 g       if dataset.data[f_index] == feature_value:& @( ^  l+ [3 b2 p- S8 c
         l = list(dataset.data[:f_index])
# g8 g0 c8 t( c9 |9 }/ u          l.extend(dataset.data[f_index+1:])
. \# X: I. w, [, J- I% M( ]          sub_data.append(l)% Q: l: j! ?/ k& A9 h* L6 X* ~
         sub_target.append(dataset.target)- H( x/ p) {4 j6 T; S

' I: N/ e5 z& a7 ~. {1 @ sub_feature_names = list(dataset.feature_names[:f_index])$ s' E5 a3 ]6 q& I. X9 V0 k0 o% R) F
sub_feature_names.extend(dataset.feature_names[f_index+1:])5 ^( n0 a( e5 K: x% z
return new_dataset(sub_feature_names, dataset.target_names, sub_data, sub_target): T1 K% \1 [3 ]9 D: [1 X

& j# F9 o, v& T- n/ }; x# 寻找并返回信息收益最大的属性划分
: a2 f5 c+ h; [# 信息收益值划分该数据集前后的熵减# N& S2 W. J( y  a% l
# 计算公式为: Gain(A) = get_h(ori_target) - sum(|sub_target| / |ori_target| * get_h(sub_target))$* G6 Z' N; v2 S! H4 ^
def best_spilt(dataset):
* w: ?/ H. `( ?
* q3 K8 p# a1 N& y9 d base_h = get_h(dataset.target)
  w# S" L6 f/ |. r$ _" J best_gain = 0.0" B& i. L3 F2 X! u
best_feature = None
3 ~3 ]0 |! ?8 C: e$ s. l. w6 k( C$ q for i in range(len(dataset.feature_names)):7 P& X/ [  F1 i
      feature_range = []  k4 w6 z5 N, c. _* _; v
      for j in range(len(dataset.data)):# C- k3 h+ q# `6 C; y% d. V
         if dataset.data[j] not in feature_range:
9 a: o" |8 X# x4 w& H! t             feature_range.append(dataset.data[j])
' o+ A1 i* r" V/ f! n3 l- A: `; k  a
      spilt_h = 0.0
) w% p2 [& A0 {       for feature_value in feature_range:
* p0 s1 i. o! g8 Z          subset = get_subset(dataset, dataset.feature_names, feature_value)+ @% @4 h  M: s3 e- W: m( m) y3 s8 h
         spilt_h += len(subset.target) / len(dataset.target) * get_h(subset.target)
! z) P9 _& M8 B" u2 k, m8 R  d4 z3 V9 |
      if best_gain <= base_h - spilt_h:
3 E$ J& Y& V6 F0 {5 y$ g- d9 f8 N          best_gain = base_h - spilt_h$ J+ R, z/ p( Q
         best_feature = dataset.feature_names
. T& H3 u- z3 N2 o) W% |
, t9 Q  ?: c- d3 f, c% s$ m return best_feature
3 l% j$ {" Q. C1 l% x- Z9 ?+ b" g$ @7 N/ R
# 返回数据集中一个数据最可能的标签
* ~* e5 h6 A9 P: c# K3 S/ {( G. R' Sdef vote_most(dataset):1 g1 F# P+ `7 h% j& R% r7 i
target_range = {}4 R% K- o/ D+ n* p: V" J
best_target = None
; z* T) k* m( x* q; ? best_vote = 0& W4 V4 T. Z5 Y+ I7 }+ J4 Q. |

' _7 O/ o: U1 ~* Q3 T5 i( u for t in dataset.target:
* x9 o  F1 \! U! }" p       if t not in target_range.keys():6 v- K! c. `. h9 K. M5 k- a
         target_range[t] = 1. k: Y* `+ y# @& w$ N& b
      else:
5 P4 j0 r0 p- `4 G. u: B          target_range[t] += 1
. [  p- L  C& C8 d$ _" N5 \
# ~% O  ?, _* ]; e" `; U for t in target_range.keys():) M5 U: j6 n4 X
      if target_range[t] > best_vote:& r1 }0 f3 N, M) {; k
         best_vote = target_range[t]
* R& d' E- C+ y" Z          best_target = t
. G3 ?" C( A( ]; Z$ z) H5 p0 s
# C) z1 G, O9 V! ? return best_target5 N5 Z, y1 M+ T: n$ k) \: y" \$ B

9 i( z+ c: ^/ `+ J4 {. C. P: W' ]' i" [# 返回测试的正确率8 {0 E' w& H2 q3 {3 s
# predict_result: 预测标签列表, target_result: 实际标签列表( O' x8 x+ l7 e0 k( i: o
def accuracy_rate(predict_result, target_result):# i* B+ V8 H. U6 x3 J. E/ N! Q8 w0 J
# print("Predict Result: ", predict_result)
. K4 D& Z- \8 R' H # print("Target Result:  ", target_result)' ], M, _4 x- P1 C8 I6 B1 [
accuracy_score = 0
) ]+ {  L0 B( } for i in range(len(predict_result)):
# D/ j: Y" a, |. e       if predict_result == target_result:
0 r0 G" Y, y3 h0 B& e( F* m          accuracy_score += 1  G' N0 L- i; w6 X
return accuracy_score / len(predict_result)
  s& Q2 |$ w4 d. B1 O, j
# l0 W% ^: u# }0 ~: J6 c# 决策树的节点结构" t* i) t6 v: T- I, K: s
class dt_node:
6 s/ L3 H( T2 ~: f& o
% x. l$ t2 t' y1 f def __init__(self, content, is_leaf=False, parent=None):2 q, E' d( E: q" l% B
      global nonce, f1 w, ~- H- y4 n9 a
      self.id = nonce # 为节点赋予一个全局ID, 目的是方便画图/ l' z& ~  S$ ]* H1 F7 X4 _: Q
      nonce += 1) g6 ~" L6 H" M; ?* J. H" M7 p
      self.feature_name = None
: u5 T/ H1 S3 E8 E+ Z       self.target_value = None/ s% i4 }5 t  l9 \) Z. o5 K* p
      self.vote_most = None # 记录当前节点最可能的标签  o1 i3 j0 H: Y% X( D
      if not is_leaf:0 Q: r7 P/ r5 v
         self.feature_name = content # 非叶子节点的属性名
% \# h1 j/ v- C$ a: d% X       else:' e" O1 d$ ?# H  _( k
         self.target_value = content # 叶子节点的标签
5 @- [$ M5 P: N% \1 E  F5 f8 H
7 G8 W( L" Z0 g       self.parent = parent
$ h6 W' O4 x6 M3 Z8 @       self.child = {} # 以当前节点的属性对应的属性值作为键值
9 E% U8 ~# b5 E$ V  `  u, ?8 ?, W
3 F# x8 r. E$ S) q) \  D$ w' W# 决策树模型
# Y6 R3 F9 z) i3 ]" ^; v" Bclass dt_tree:
/ Q9 N/ E9 ^5 a; V4 q4 u+ g- ~8 ?: {2 }3 `1 P5 H2 E
def __init__(self):% |4 n. ]* d. ^8 z) v( _
      self.tree = None # 决策树的根节点% E3 [+ W4 m4 K8 {, j; O
      self.map_str = """, Q0 w# E. J1 @( s8 o2 x
         digraph demo{2 t' m# A( D; @# d# W8 n1 H+ R
         node [shape=box, style="rounded", color="black", fontname="Microsoft YaHei"];
9 T5 w$ P( |: O  P' c          edge [fontname="Microsoft YaHei"];4 q- t" n) v" _+ [5 C1 z
         """ # 用于作图: pydotplus 格式的树图生成代码结构
! ^8 d- P$ A. r: K8 R9 Q3 |       self.color_dir = {} # 用于作图: 叶子节点可选颜色, 以标签值为键值2 x2 @# h! W8 \: K. V2 `, ?

+ b8 Q0 s, b- l' G+ Y6 \1 c # 训练模型, train_set: 训练集
- V$ \% p* H% s2 F+ @ def fit(self, train_set):
7 {# j3 T6 b) q% K2 R+ H! T; B# k5 T5 o
      if len(train_set.target) <= 0:  # 如果测试集数据为空, 则返回空节点, 结束递归
! J4 w* u0 M7 e# C. }, ?          return None
  T& A) _5 S; r2 f) a1 u' N9 n+ @# I5 t% T+ Z
      target_all_same = True
; `8 E" p1 A; |       for i in train_set.target:
3 W9 X) G* f# X          if i != train_set.target[0]:
; y* |( Q" P" _, X7 `5 K# ^; y1 i0 m             target_all_same = False3 b: x+ n& Q' B' \) p
            break2 h& w% I7 u+ S! R8 I" `, h5 Q$ d# u6 s& n

0 O8 M' h# q" O! v' h+ _       if target_all_same:  # 如果测试集数据中所有数据的标签相同, 则构造叶子节点, 结束递归
6 `  T4 I. y7 L# W( ?          node = dt_node(train_set.target[0], is_leaf=True)
$ J' m! }; V7 Y' `' c% G$ w          if self.tree == None:  # 如果根节点为空,则让该节点成为根节点6 x, \8 v5 l' K$ m  R0 H) h
            self.tree = node
. r- u- Q/ @+ p6 ^) }
: ?: i, Y1 h9 W3 E          # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点
; M5 [8 E2 K2 V( M3 B9 O( P          node_content = "标签：" + str(node.target_value)
: ?2 E2 e  ^8 F, |* S& h% }/ n( \          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"6 A8 F3 w( k8 c( z4 x
9 a' e) E: r" `- Z
         return node4 c4 r/ g  p' C" k2 n
      elif len(train_set.feature_names) == 0:  # 如果测试集待考虑属性为空, 则构造叶子节点, 结束递归3 P% r2 x& S6 Z, d: w
         node = dt_node(vote_most(train_set), is_leaf=True)  # 这里让叶子结点的标签为概率上最可能的标签! m( S" n( O- y4 Z) y3 u% ^
         if self.tree == None:  # 如果根节点为空,则让该节点成为根节点( L- w2 Q6 ~+ R7 T; @3 G6 _& @
            self.color_dir[vote_most(train_set)] = color_set[0]8 q5 w2 @" ~, g1 h
            self.tree = node* O+ n2 ^) T9 W

* |) g+ w- Y9 o  e% f9 W          # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点
/ f7 n: p0 |" L% v          node_content = "标签：" + str(node.target_value)* h. {* k; u% [- s7 q7 _( @
         self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"2 ^  ~6 G6 I0 l" a

( ^) C% x/ S* s9 P* k          return node8 m/ a$ Z) D6 x4 {7 }% p9 ~7 I$ [- B4 c
      else: # 普通情况, 构建一个内容为属性的非叶子节点/ s( B9 |' V; o# k+ y
         best_feature = best_spilt(train_set) # 寻找最优划分属性, 作为该结点的值) s5 o: g8 W, R0 d* ]! _
         best_feature_index = -1
* N: F( V7 s, p" @. e; D6 V4 q% a2 t' W          for i in range(len(train_set.feature_names)):
. {$ _' O, |5 M6 v2 w+ w             if train_set.feature_names == best_feature:
8 N7 X' R" u! o4 e8 d" b  Y; @+ ^                   best_feature_index = i
. o0 u( @9 s% F2 w3 J                   break# W" x  r; Z$ s
( r1 j9 c6 U( y+ p* X  x6 e  |* }
         node = dt_node(best_feature), \% v6 r1 y3 l/ Z5 k9 z  g& J; W$ T
         node.vote_most = vote_most(train_set)! p. M& H2 e+ h. R$ b9 ~) i
         if self.tree == None: # 如果根节点为空,则让该节点成为根节点; S3 f2 l* w) N7 v0 y4 D1 z9 Z( l
            self.tree = node
) N8 l" Y% I: j) m/ N: _) K% M: ^             # 用于作图, 初始化叶子节点可选颜色1 N- a; i2 n4 U- B8 p2 ^
            for i in range(len(train_set.target)):
$ D1 Q9 {5 I( j; O9 ?/ a$ f                   if train_set.target not in self.color_dir:
9 i  a$ d2 R5 I3 L$ f/ G5 a                      global color_i: P8 F. x8 X- d5 c1 b% E
                     self.color_dir[train_set.target] = color_set[color_i]* w9 N; H/ Y# h2 J" G
                     color_i += 1
* c* H; S- N7 y/ w                      color_i %= len(color_set)
+ F, Z% U8 [5 z, h
; R: h5 I  L7 P' h          feature_range = [] # 获取该属性出现在数据集中的可选属性值; ^& K6 L( U2 D8 ^% D& C& ^( B! z7 X
         for t in train_set.data:& f: _7 n5 i9 [) C
            if t[best_feature_index] not in feature_range:. ~- f0 D# u' }2 \- ]1 G
                  feature_range.append(t[best_feature_index])
$ a$ {6 g$ ?# X! Z
2 M! M8 K1 Q9 ?; \8 y& Z7 o) O          # 用于做图, 创建一个内容为属性的非叶子节点
! H+ a4 V$ @. ], j          node_content = "属性：" + node.feature_name
' m% K& L/ z  d          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"#AADDFF\", style=filled]\n"
9 A2 q/ c. L9 \* R: v, ?, t
( P5 U5 K, i- N. e( |! K- G; v" W          for feature_value in feature_range:
$ r- _& c; A& D9 w, p8 G9 ]             subset = get_subset(train_set, best_feature, feature_value)  # 获取每一个子集5 r4 J  d$ d' w& ~- m3 C6 i+ Y
            node.child[feature_value] = self.fit(subset)  # 递归调用 fit 函数生成子节点) Q- O: Q6 c, D2 w1 ~3 O& W# ^" D
            if node.child[feature_value] == None:9 D' n) J$ H' K+ {' x
                  # 如果创建的子节点为空, 则创建一个叶子节点作为其子节点, 其中标签值为概率上最可能的标签
2 O2 D+ T0 t$ ^* _- c                   node.child[feature_value] = dt_node(vote_most(train_set), is_leaf=True)( x8 t1 N. }% g& D7 x
            node.child[feature_value].parent = node
# O% t, d* G, S( h6 T! W7 @: @( K/ V7 p
' ^8 {1 j. \3 l3 E             # 用于做图, 创建当前节点到所有子节点的连线
+ _) ?9 l  t4 _) R             self.map_str += "id" + str(node.id) + " -> " + "id" + str(node.child[feature_value].id) + "[label=\"" + str(feature_value) + "\"]\n"- T0 @8 x5 a: j! {0 G- H/ W0 |/ I
" {' \+ R1 q8 ?7 Y) f$ n
         # print("Rest Festure: ", train_set.feature_names)3 T6 ~1 F' e1 e3 M
         # print("Best Feature: ", best_feature_index, best_feature, "Feature Range: ", feature_range)
- i% v3 k  k% |, C! }$ h! _6 r          # for feature_value in feature_range:/ C! }- _+ Q8 v) F' T  Z
         #    print("Child[", feature_value, "]: ", node.child[feature_value].feature_name, node.child[feature_value].target_value)
$ ?. o' i; ?7 I. N; y          return node/ b* j* P( R5 D5 z, K3 F
0 \! n. t0 d% l
# 测试模型, 对测试集 test_set 进行预测
0 u7 r0 I& {9 u$ a0 o3 K  b7 | def predict(self, test_set):
' T  a& R/ F/ h( _; L9 N+ B3 y       test_result = []. Q' h. O9 y" F1 t& ^0 E8 A1 u  B
      for test in test_set.data:
( ^4 E( h$ l9 {- x% k  f! @          node = self.tree # 从根节点一只往下找, 知道到达叶子节点
3 o9 a% B# f2 A          while node.target_value == None:/ {) @( E; E& c$ K2 x; ]
            feature_name_index = -17 g3 l8 _7 K" y
            for i in range(len(test_set.feature_names)):& V: W* v/ ?  ^' V* {
                  if test_set.feature_names == node.feature_name:
0 O+ r' ^& x0 a6 R& e                      feature_name_index = i2 R# N! }! k3 \# n3 W
                     break2 O. y8 @. |9 T5 Z0 `: }$ ]- _
            if test[feature_name_index] not in node.child.keys():
5 d, v1 ^: {  t                   break
! x5 ?/ u5 y$ @8 Z9 ?, N7 v, j             else:
# \: L1 o, e5 }& Z& a4 p) y. U                   node = node.child[test[feature_name_index]]7 k: A" }+ ?9 F9 e* \! @

# F& J" G+ B, t: C+ X  t          if node.target_value == None:
& @" q& J+ p- [3 k8 h             test_result.append(node.vote_most)9 W8 F' o8 A& G
         else: # 如果没有到达叶子节点, 则取最后到达节点概率上最可能的标签为目标值
1 @- N8 I2 i( g6 p: U             test_result.append(node.target_value)* |- \4 x+ A! p/ u/ V  b$ y1 z" p

; o9 g5 k6 V* z8 @' K( o       return test_result! T$ M% b5 `. G3 w) `' f3 I$ y
* V& E. ]+ w* v% j* r1 k
# 输出树, 生成图片, path: 图片的位置
6 A4 q, [- R- [5 i1 ` def show_tree(self, path="demo.png"):6 K6 D+ p$ S& H4 q8 o
      map = self.map_str + "}"7 D% `& {9 `; m# @# l' }
      print(map)1 H" s+ p7 f3 `& V- J! q9 [
      graph = pdp.graph_from_dot_data(map)" k' \2 }: |2 I5 C, d/ j
      graph.write_png(path)1 [# D1 W" E* J+ _# O
# N+ T& i1 u0 v# p
# 学习曲线评估算法精度 dataset: 数据练集, label: 纵轴的标签, interval: 测试规模递增的间隔) o  |1 f. m$ y( `
def incremental_train_scale_test(dataset, label, interval=1):
* d5 C7 I" m+ s c = dataset7 A* Y; s, X9 \* _7 x. ~
r = range(5, len(c.data) - 1, interval)6 q8 j1 ^) j  E+ U8 Q* l: u% y0 J
rates = []
. a! A  ?3 B+ \) v* P7 a* T5 ^% c$ L for train_num in r:
( \$ h6 c5 {/ w  N& ]       print(train_num), q+ H! `2 X/ Q- w! v3 ?' ^
      train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])) F# B5 t0 }. u4 U
      test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])
: }9 \% e4 M& a! X9 W( L       dt = dt_tree(); T3 `4 G9 [" e2 ?0 `: }- t
      dt.fit(train_set)7 s$ \3 @* a2 f3 P
      rates.append(accuracy_rate(dt.predict(test_set), list(test_set.target)))6 e# E- m6 J$ H% `: K6 M  G1 O$ h, K9 ~1 r
! ^- v5 U/ D2 N
print(rates)
; l- Y2 ?  @; `+ o5 I plt.plot(r, rates)3 y$ _1 A4 L5 z) H) k. a9 d- u: c# Q
plt.ylabel(label)
( G/ z# o8 b& L8 q" [8 y/ Z, N: L1 x plt.show()
; N6 w& Z  O1 f- _; K& O/ z  `' k: W+ A& d1 V
if __name__ == '__main__':/ n  x' y9 o" I1 P- S$ o! N. V
' H# c8 _$ z* ]& e
c = load_car()  # 载入汽车数据集6 o0 s$ l( B" y% v
# c = load_mushroom()  # 载入蘑菇数据集
2 f6 N1 L$ d# b. A! q0 G/ V train_num = 1000 # 训练集规模(剩下的数据就放到测试集)( o4 [* N# \5 p" i$ y/ w5 f$ U
train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])1 e! u1 p" ~& v# u) m
test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])
  D- I3 v; [" e2 G2 S. L. \6 a. D/ I5 p% N
dt = dt_tree()  # 初始化决策树模型+ T# M9 f9 M- O# v" A
dt.fit(train_set)  # 训练$ F) R, j' a9 d" K5 f: d
dt.show_tree("../image/demo.png") # 输出决策树图片
- {8 P' Q/ g, _5 h$ v2 S; u" l print(accuracy_rate(dt.predict(test_set), list(test_set.target))) # 进行测试, 并计算准确率吧
+ i# R* \" i6 \3 E
1 `3 M7 h. G% O; o # incremental_train_scale_test(load_car(), "car")4 J3 g7 Z1 E) d
# incremental_train_scale_test(load_mushroom(), "mushroom", interval=20)2 d( Q& r- u  R9 z2 M
7 l! ^9 _& f# y9 O( {* b! N

# i8 N( d9 i3 ^$ }; O6 v8 @2 P$ ?+ ]; K
1
% s- |6 C1 _2 @2 j' U! R2
5 u+ w. g# r% K. \/ p5 s) m, o3
: N$ X$ {* R9 |# ?6 S: C& g4
  {5 X  u; m8 ~* \& d4 T. c( e5
2 H2 r, E" h) g- [! B5 ]8 Q- m6
$ ^0 Y+ v( _* o6 B3 t* u7+ d0 v" d3 x  A: {) Y
8
) `: W& V9 a# F/ p+ r2 @& A& d94 |1 ^" p7 f* C, @, t/ N0 Z1 N* v: O: N
10: j# z) m6 k1 h
11
1 i8 R( `5 H0 F12! m( e$ D5 [) y6 g7 a  c( W
13' Y' }# e7 r8 E* ^. Z. _. U2 u# ]
14" n# c+ h2 {7 \5 R( p4 D  u
15
4 X) v3 B+ T2 }8 h2 r16
: a0 Z- B: o+ G17
: K% j# F1 q( n* W! I3 K18
7 x) o. [- r0 J  `: A! z7 @" ?19
2 Z5 U( w7 f" l9 H20
7 K3 m1 R. R4 u! z8 r/ }214 ~$ o, g7 Q% g2 w, N
22' S8 H) H8 L0 ]
23
! c; b. ?; r% t+ `24' j. u8 K( _# o) k% u
25, B% C' b( m% ]
26
4 c# t, \$ `0 Y  T) J! u4 O) H; [, a27. B- V/ Z, I4 i5 o; }( F
28
' H1 A, ~' Z& a. ?" |. L29
4 W5 [5 i. T6 K! _301 J* }# v/ _5 m' M
31
6 T- S7 ~4 O. x: W1 k6 w32
  E' u9 j8 b3 P' W( L/ L33
* S) D0 N9 |2 g9 O5 D+ `342 i3 G: M5 |# L! r7 l' T( {
35
( W3 |4 }0 j8 @' W/ y# o; R  A& l362 e4 K% I  k8 o- h9 s( g
37
% a( u8 {: B5 b387 L3 P) b# t9 e3 o! L0 t4 D" Z+ n
39
: I, @4 [5 {- g# F- V/ G  l40( C* z2 U( k# H+ r* T- Y9 ~7 R
41# ^. `6 u( B, l1 ~4 Z, B  J% Y
427 M6 c, o* j2 a( p- f  q
43* y$ w+ B9 @( a( z
444 W# ?7 b# s+ y; t, @: N' S, Y
45
! f* {7 R; S' O' }46$ Z% e. x( Y% ?( k
47  _" w5 N9 Z  z3 }8 C1 m
486 L# V- K$ R. r0 Z
49, s# k1 b& d  |5 A  L
50+ K  s5 L. D( t: H; }
51( b8 D2 D6 ]9 b! O' W
52
) |3 W; c; U5 g) U4 M( l& E53
  w3 l' g! ^7 S3 w3 y* G7 C54
) ?! y1 A) V- s6 X: O! I% S3 f55
* r2 ^/ _# p% X2 n+ y1 w6 k56& h/ _0 j, X7 B: A& t
57
& w* m6 s" o" u4 C8 o58+ N( w1 R/ q, R
59
2 N7 @2 K& ~& y# K602 Z8 i5 R% G+ {& j
612 g% F) c$ f# t( e1 d! g
62( M4 |( T' h8 `1 m! J! F
63
! P1 q  p' S+ Z! T  C0 g; x+ C( ?64) I/ w( f1 f% q  _3 ]" o! O
65
# K0 n, g! v' `) d/ a$ ?; {* t. L66. ~. f$ z& H5 u/ |+ ?) c
67
4 A: ~! d9 K; x7 D- V( m68
9 _1 m1 u/ b# u, b692 A1 v: {6 C: F9 T$ v5 F, k
70
! K  N$ B3 X. n& U) q' B' [# ?2 A71* E/ l8 G/ h, a& t' h
72
' y2 p$ q" c# {! b: n. @736 |; z: S6 ^2 W# f  F1 s: w' q
74) @$ n+ v, x0 s* ?+ n, J
75
, Q' x/ I: a" l3 J3 }  V76) q. u% |$ @) S' @6 _$ X% h
77
0 E7 c9 x8 a5 h+ I8 a78
, c: G) y# \9 h* ^( W6 z- a79
' f( @5 d( i* V* x80
- f' x3 e7 L" n9 v$ d4 a819 G2 V3 E2 q' K& v( K# P5 e
82: u5 {+ b5 P0 J* Q' @: b4 H% S
83
" R3 y, c7 u* d. i4 r4 ~84( H& ^  ~2 [3 K5 E
852 t4 v0 p. `1 l0 B/ U3 \
86
7 V+ @* {9 y. \0 c0 p875 A7 i  L1 t2 T$ |) a
885 K% [! H' [1 ~( @
89( q7 L, G. y4 M9 P; F
90+ b9 u" g9 g. z# h8 \0 f* q
91
, F. c* u5 J) u4 q( K# I6 ^' c' C92
- r( O/ p& ~9 Q& S) J) A+ R93
. q5 Y+ M! u8 B# k7 E9 ^941 \1 u$ \( p. v/ _
955 i' n) M/ ^5 ]$ v$ n4 {0 ~5 N; j
96
( y+ ]3 _; i  Q3 \& \, h( V- R4 a97' q4 r) A& _+ @
98
9 E- Y4 [: P2 G+ f6 [5 O2 O99
6 A4 f$ b. `. \2 D: y% O100
5 }' K# r$ M! Y1 H7 O4 J1019 D: _, Q: j4 V! M  x2 Y
102' l( A( E* X# f3 Q0 s
103
; [" ~6 q: t3 w( ~: V( [104
  d  P* Z! E- e. ?105
1 t1 Q8 P0 R: _106
9 h" V% J% `+ k7 {8 @, n8 C& F107
, \0 B% W. p; M8 k% q108
$ a8 d( M+ ~  ^0 ]& H109
( s% x" q9 ~0 T0 M110( b2 ~# s/ T6 O7 K0 Y  q1 m
111; j5 y! e& V2 ~7 I- O  w, b+ c3 R
112
- i( {6 @; \& o& a/ Y. l: Y8 `113
4 Q% R) K7 Y6 K114; {1 |% `! R0 U7 a8 e" t( }# [
115
& T+ A& k( g; p8 F+ ^- ^  L116
" n/ s: n4 j: D9 U' Z' a9 m117
. ~" F; u1 u- C# C/ v: D1180 \- C2 q) V: o  q
119: M, M/ C4 ]% y8 F, C+ C
120
2 T0 S& ]' J9 ~, x3 J/ p! e% \121
+ x4 Y/ N9 ^" t' A  S0 G122
- y, {2 k" M4 }0 O123: R" X" J0 ^7 v
124
! n, K8 W& N, c: z! K9 r# @125
' O, o7 j4 X; l126
: B1 q' k& p5 R- M$ f. X! n127
9 ]" z: I2 b; |* j: s1281 y( R- F  m; Q- O- E+ e4 e
129. g6 z  e& j6 ?7 H) z4 M
130
, C2 ~2 C4 I0 C" L. Q+ T5 R131
: j6 L0 b1 o8 i; ?5 X+ m+ g$ G132# i; S4 @# Z; a, A5 K9 M
1334 g% D  d) S4 u6 g- S. Y! C
134
$ h' e8 X- Y: Q% w* G135. H; E" v/ P$ L) \7 V3 X' J  S
136
) p2 k3 w+ e; M( W1 i& t137
! O7 `0 q& j! h$ S2 `% y/ a' \1380 O, ]1 Q; g0 J& G1 N& G  D3 M8 q
139
' {5 s! j0 d4 Q% Z; B140: p/ @. j! K( O4 V5 o9 i
141
4 v: g+ I7 T$ {* z1423 i2 G# @: `! a9 B5 p
143- e: M, h, N! i& Z5 K
144
) B4 y. s1 [9 K( \% U145
& g9 S" H* Z& \7 B/ J1 G; M& Q1465 [) x5 t& V5 @. R$ i5 ?1 b. |4 T
1477 S! r4 c: d( z' g  g" O( Q
148  }5 k" X8 i0 f7 Y' `
149
, C! Y! x; p7 g, V150& I8 v4 h$ Q! w2 `3 d/ M
151! A" L8 b1 {6 \
152" z$ d* M  O3 I: R1 n) _* L3 g
153
  w% t% w" k5 e( e3 f8 u154: y0 F3 o5 {; s1 G0 G4 y! i
155
: ?' [# H) T  {* Y' O9 j5 m5 G1563 z7 m: [4 t# `5 h' t
1579 w# ^. }& X& b. Y
158
" u3 c9 {0 c! F6 ^9 s" ?" S6 t159
, `: B+ V  z% M* k0 ^& S160
0 l8 O# x" w8 x161
. y* e3 M% D5 A162
5 v: R: O; J% A0 S+ O7 k$ U163
. Z# D, A) b/ e& F; h1 M164, {* f& l3 D, |
1652 U) b+ H, j' @& N( \: e
166' A; }# o% N- [% |
167" C+ h& L* @. L  i2 I/ ^
168' C, Q, z7 ^+ U& L2 T# o
169
9 p* i$ Y& T" f) a5 q170
: @& b# {5 w& X171
5 \! Q/ d# K3 j; R! H; R7 h' M4 p1 M172; a1 F' @- g+ E* d5 y- O5 v
173
9 ~) d1 R4 U( Q0 f174
3 D( z' ~! o: r1 @: B2 r+ U175
  F* Q, O# N: X: c" H176
$ M! \7 v! N+ z4 n177# i, q1 Q  I) z6 c, z$ m' ~7 c
178( W" s3 W; U# \& }- o3 `
179
, N. a' n" V2 s& K+ c, z180
9 j6 B/ O& i$ V- D. ?6 X' l* N181
- n0 u* a4 e) y" ^% n7 f" \1821 h& s0 h$ u* H4 \) M  o  \
183
' N" G. W8 b4 V/ i, E9 i3 Y184
$ h; f: O7 S9 d% C9 Y0 j185
# f+ |: ]# v$ M186, w* u/ c) l( G* ]
187
) |. I$ T% b/ Y/ i5 B188% R7 D! A; K) U) D
189; W" w+ B3 R3 z$ _. l4 h
190
& `; x' v9 O- M6 E191
5 f5 a0 W6 {, L5 ^* U1922 t  H. Z4 c) Z; I: w2 j7 Z, h6 P
193( d- ~5 d; u9 o9 E* S
1944 m* t5 \& C- t- D* K9 ]/ ^& a* u
195
( w$ A  c. Q# @1967 L$ X8 f5 ]- l5 z$ y; H5 `
197
# B6 j  N9 ?( q! {3 X1984 \- K5 q0 S5 S3 E/ {
199
  m, m- ^, c2 @200
+ U4 @. k. A; c; \9 N5 h, a" {201
( o' E) k9 i6 g$ j7 Z9 V202  Y+ t; g+ V1 J6 W- T
203, `9 `: q: I0 h  L! M
204- K: B# U7 x& D
205
4 p4 n0 O2 W" y7 C206% Q7 m+ X3 g8 F- g8 ~/ A. e5 \/ A
2075 ]- K4 l. D8 d1 R# o. z
208
( a* M9 @$ c& H% r8 {9 o209
, p  ]9 j5 Q- G+ E- ~210
; ^( f+ q8 C( [" Q! ?- A& T211! g5 g! o! k, L) g6 r/ i- _! s
212; c8 o4 }0 D9 \$ Q
213% K- [( c- b' `1 Q0 B
214
2 t4 K* |9 ?. V8 X+ ~0 s215
$ O5 n0 k5 Y9 b% i' r216
2 e, W0 `- U1 ^2171 c6 w& Q3 f- N2 q/ V0 {
218# q2 |" v3 ]1 Q
219
1 u- J; D- `- a7 z1 j+ t7 j% q2204 A2 P9 _& ]& D) D
221/ i! ^; N! Z) N
222
5 a$ K$ t. a2 g; n223- \: W1 M5 l! g3 P
224
# R) I% t8 e, F- o( ~: G. a225, t( I+ ?  T5 y( G9 E/ C  w% M; ~
2267 G% c+ l  H7 M6 B
227
2 m5 Y9 T& A) a; E1 t* f- I& O228
( g! n5 s4 D( o1 o9 S229" Z8 Y0 q  r) W* v  v
230
" C1 }, E) Q- J; Z2 w5 C231
9 E* y& @9 G, _- ^! p5 _232
/ E* r4 r$ ?+ X) H( z6 f9 N* C1 n3 H7 C233
$ j4 g# i% P' x& W# {) h6 b+ n234/ g- o1 }- e* [4 I3 C1 T
235
/ n- q3 S& m( }1 X; I1 g5 X+ N, w2366 h: [/ h! j8 H6 w3 T3 R& r$ N4 r/ u
237
8 h: M6 j  v+ g" e0 d" S9 C238* }9 B3 t- t- L
239
: f' }6 k- b5 b6 }( P( U: \! R- V240! Q7 D1 i; [2 N+ F; }1 N& K
241
8 y* P' h, K2 m242
8 g- L+ W: S9 J9 k8 }243
: f; S5 I& b& L+ y9 ~/ a1 D244
( t) M$ F, `# l, @/ L9 L245' D+ ^" t5 o- F% y$ b, b
246
$ V9 p- j9 t/ h247
+ ^, r# {# K9 S248
0 X/ c4 P0 {1 t2 G3 B/ V& x249  G' z3 p7 G; [  K# A" d
250" [9 A& [/ O) D$ [% {  D8 N* i4 D
251# Q! x9 a9 @/ m$ X6 g# I
252: j" K$ F; D" b$ h  p' `5 G
253
/ s/ u4 t; W" U4 j& j5 X254
2 i+ J( E; \* J4 s" `255
3 {3 f( _* U: u7 X- R$ n2 x) Y2565 ^. _7 ^; ]2 _
257
3 o. q! N5 N5 r% Z6 I( j" Q258
& r2 N. m+ `' G$ L- w259
& L7 @/ v+ k- N* Z. |' `; i260
1 V8 L) e* {: J3 f: \6 s; u4 X( W261
  y. M& p4 g+ g* `1 `  h262+ u- M: K3 x. L* e
263
$ I# E0 h' |, L9 I( G; f264* ~9 |( v  p" P/ D' @
265
5 b1 N9 R* L  i266
) Z6 g3 |$ P7 q! G9 k# Y267! C2 Z* I( u  A4 @% a, B
268
) f: B+ C6 F2 E3 G6 ]  q2690 ]2 O6 i8 y, B. @/ ?
270
7 ?2 R7 S1 i7 A  Z271
( w6 @4 L0 {& }5 v  J272  }' @: t5 @9 ^# D* Z; l
273
3 ^9 G  M) y1 g! r0 \274
6 A/ T) ^/ z+ G1 W& I6 z+ k# Q+ m2759 F2 ?3 _1 l: T" ?2 T
276
7 L  O/ C' N1 B) I277
4 ^. `1 ]! H( R1 p) I0 I5 i& i: r278
+ ^5 E6 S( B" T2 M7 R279# I% k  _3 a( d9 D* D3 u3 u9 |
280, z$ F$ U  ?  ]3 Z/ k
281
- h$ C+ \. S- K7 Q& q2829 e$ W% P" O' }& t1 L; ?; o
2838 l6 ]. B% E3 R0 v9 M+ v! @+ K
2844 s* S$ \# p7 M" q
285
+ K' P4 K: `9 p+ c' f286; D' _) c) F1 F4 M8 S( `3 d! D
287
2 ~- i$ p- K# \" L% [288
/ K  P& Y- d% r& W$ w( f289
8 R! C* A* s3 \  \+ z1 G2904 h; V2 R4 J8 \5 G# R' T- Y1 N. N* M+ Y1 p
2917 K& l  B/ K3 t) Q8 Y8 e
292
* P0 z, O/ y, z- m& u293
5 Q) h% |* j: C5 J8 p5 J1 ]294
5 N/ p5 ~, b; Z7 f. X5 i2 w295
' U/ J9 h0 o% ~9 b- t2 h296$ O, d5 [  g/ o3 j) b; ~8 c
297/ n% t7 X; d* H- L6 r
298# v% O) Q; s; F3 Z
299/ v: O# F/ D' t- _1 D" X
300
  x* _6 I" V( j3015 z( M8 y0 }6 j! |9 E- e
3021 u: F. D. y' E( Y1 ^! ^
303
7 t, ~- T8 m  }" E- c  _304$ \5 @: ]' T" w: `0 p. h
305
: W; W" h5 s5 H  C9 N  ?306
' S+ G$ `" X. N9 \: Q307
' d5 J( B) |0 T% N# j  a1 Z308+ J# j% U/ g# q4 U/ P
309
8 X* T" C4 q( f310/ R! ^4 L( r6 l! L7 q; R
311  Z6 c( a9 O+ s7 j- N& @& T
312& h. l5 {6 O2 ^! e5 \
3130 |1 }) }/ r" `/ p
314: j: ^( I2 r, i" r1 R' `  }( Q
315  |1 H, z3 ?: y7 s5 i
316, Q$ n! u! L. D7 j8 X  J& E, _
317
9 @( `, Z) L' E  N# {6 `+ G( G1 Q318
5 {$ B2 F# k3 k. h6 ?" D319
4 M+ R% E# V0 [  p: Z320) q; \# {' ]$ w' i8 l# D% H: U: Q
3217 t8 U' u$ F, d
322& g7 P. w' E- M5 Y7 d- z
323
% S8 n0 j+ ^/ G5 a3240 @  e! z4 m3 q+ o2 U- K: R* Q
325; D" r3 x) t5 y$ x" _# o& K
326
- w8 `4 ]6 x0 _! u- M327
( v# D( G1 q. v! P328
- p6 U/ e& T1 ~3 i# I329
1 W  V* l. h. Q3306 {/ u) v) R7 o4 N+ h
331* e, g4 l  Y1 O& Y$ a: _- B
  T& O/ m) @5 Q. X
1 g8 R& ]( U( E0 K$ P
& t. W$ `8 z+ |+ x- `5 `' u

0 {) I, X1 d" d. P5 A0 L1 Y% e
) u* n# l1 T6 N: W
0 [' L/ @  S4 f- ~
& v1 }# |( D( a* D8 M9 R1 C
; w8 r! n  Y* U! _3 @) U
8 {' R( L' K6 ?' s" m; v; h- _' Y+ t* |. H" k4 ]3 |& }6 K  a' }
! _+ R* Y' L( ^; M* s

0 o' Z" ]6 _. P" r# d+ Z$ C1 q5 j————————————————
: s1 i# ~' i) U. g; v: I版权声明：本文为CSDN博主「biyezuopin」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
5 i/ B! @4 z, I/ k2 n% G原文链接：https://blog.csdn.net/sheziqiong/article/details/1268032424 E. ]0 g, Z( a1 A1 A  l/ j& Y
, B9 [) @2 G/ E4 [" a0 p
/ \; W& L1 q1 L  T