查看: 2200|回复: 0

[其他资源] 基于Python实现的决策树模型

[复制链接]

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2022-9-12 18:10 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

基于Python实现的决策树模型

决策树模型
目录
人工智能第五次实验报告 1
决策树模型 1
一、问题背景 1
1.1 监督学习简介 1
1.2 决策树简介 1
二、程序说明 3
2.1 数据载入 3
2.2 功能函数 3
2.3 决策树模型 4
三、程序测试 5
3.1 数据集说明 5
3.2 决策树生成和测试 6
3.3 学习曲线评估算法精度 7
四、实验总结 8
附录 - 程序代码 8
一、问题背景
1.1监督学习简介
机器学习的形式包括无监督学习，强化学习，监督学习和半监督学习；学习任务有分类、聚类和回归等。
监督学习通过观察“输入—输出”对，学习从输入到输出的映射函数。分类监督学习的训练集为标记数据，本文转载自http://www.biyezuopin.vip/onews.asp?id=16720每一条数据有对应的”标签“，根据标签可以将数据集分为若干个类别。分类监督学习经训练集生成一个学习模型，可以用来预测一条新数据的标签。
常见的监督学习模型有决策树、KNN算法、朴素贝叶斯和随机森林等。
1.2决策树简介
决策树归纳是一类简单的机器学习形式，它表示为一个函数，以属性值向量作为输入，返回一个决策。
决策树的组成
决策树由内节点上的属性值测试、分支上的属性值和叶子节点上的输出值组成。

import numpy as np
from matplotlib import pyplot as plt
from math import log
import pandas as pd
import pydotplus as pdp

"""
19335286 郑有为
人工智能作业 - 实现ID3决策树
"""

nonce = 0  # 用来给节点一个全局ID
color_i = 0
# 绘图时节点可选的颜色, 非叶子节点是蓝色的, 叶子节点根据分类被赋予不同的颜色
color_set = ["#AAFFDD", "#DDAAFF", "#DDFFAA", "#FFAADD", "#FFDDAA"]

# 载入汽车数据, 判断顾客要不要买
class load_car:
# 在表格中,最后一列是分类结果
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/car/car_train.csv')
      labels = df.columns.values
      data_array = np.array(df[1:])
      self.feature_names = labels[0:-1]
      self.target_names = labels[-1]
      self.data = data_array[0:,0:-1]
      self.target = data_array[0:,-1]

# 载入蘑菇数据, 鉴别蘑菇是否有毒
class load_mushroom:
# 在表格中, 第一列是分类结果: e 可食用; p 有毒.
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/mushroom/agaricus-lepiota.data')
      data_array = np.array(df)
      labels = ["edible/poisonous", "cap-shape", "cap-surface", "cap-color", "bruises", "odor", "gill-attachment",
               "gill-spacing", "gill-size", "gill-color", "stalk-shape", "stalk-root", "stalk-surface-above-ring",
               "stalk-surface-below-ring", "stalk-color-above-ring", "stalk-color-below-ring",
               "veil-type", "veil-color", "ring-number", "ring-type", "spore-print-color", "population", "habitat"]
      self.feature_names = labels[1:]
      self.target_names = labels[0]
      self.data = data_array[0:,1:]
      self.target = data_array[0:,0]

# 创建一个临时的子数据集, 在划分测试集和训练集时使用
class new_dataset:
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self, f_n, t_n, d, t):
      self.feature_names = f_n
      self.target_names = t_n
      self.data = d
      self.target = t

# 计算熵, 熵的数学公式为: $H(V) = - \sum_{k} P(v_k) \log_2 P(v_k)$
#       其中 P(v_k) 是随机变量 V 具有值 V_k 的概率
# target: 分类结果的列表, return: 信息熵
def get_h(target):
target_count = {}
for i in range(len(target)):
      label = target
- @: b, z+ {* e* p3 S1 P: u       if label not in target_count.keys():  V4 j) C4 T2 l
         target_count[label] = 1.03 Q" D- R' r. N4 a6 A. o
      else:
; `+ U& h" ~! ]3 s          target_count[label] += 1.0
$ v. |& k' j4 u/ I, n) T6 \ h = 0.0% n, w1 l  I+ X- v3 Y% G
for k in target_count:
1 J$ }7 @( M* l  o" \       p = target_count[k] / len(target)$ r* Z1 H9 S! s7 S% e# {8 F
      h -= p * log(p, 2)
- E4 `0 Y3 \  p& a& Q! f return h  A) C/ Q4 z/ \0 k. S

( F/ p$ M0 r4 I$ m& J& T# 取数据子集, 选择条件是原数据集中的属性 feature_name 值是否等于 feature_value6 C" e" s" S% w7 A1 v1 N. F
# 注: 选择后会从数据子集中删去 feature_name 属性对应的一列3 d: e- h4 p2 K' J1 w; n5 z
def get_subset(dataset, feature_name, feature_value):
6 d2 U4 D- M* Y, q6 W( c3 a3 m* y sub_data = []
- [( O* i1 g2 q; \/ o sub_target = []5 z1 u, c/ ?9 [
f_index = -1, j/ h+ V5 }1 ?! l5 o' C8 B! R. X1 {9 a
for i in range(len(dataset.feature_names)):9 l3 }  e7 o+ A# U  Z  R
      if dataset.feature_names == feature_name:
7 @5 T  e1 H' i          f_index = i
1 l+ ?, [$ i9 t0 A8 ]% \# m  u          break
7 ~9 Y; i. K1 {4 t& t9 Y4 y/ _9 v1 t; U9 {( e
for i in range(len(dataset.data)):
3 f0 K- x) \2 D; q) b       if dataset.data[f_index] == feature_value:
: l- U1 [( g/ W5 K! k          l = list(dataset.data[:f_index])1 ^( J& o8 ^3 `
         l.extend(dataset.data[f_index+1:])
5 T' A# n; b$ L2 C3 H* J          sub_data.append(l)
5 O! A$ U* W0 W# H          sub_target.append(dataset.target)9 O) M( `" T: H& L  w7 M# Y: D
+ s0 H3 C2 o# u7 O! H* D
sub_feature_names = list(dataset.feature_names[:f_index])' o7 O- g# p. w7 Y! w7 O. i. e
sub_feature_names.extend(dataset.feature_names[f_index+1:])+ X9 p; B9 K/ ^
return new_dataset(sub_feature_names, dataset.target_names, sub_data, sub_target)
- y0 ?" E, I) Y( \& z7 }7 r( y  J5 i7 w' c# Z: n
# 寻找并返回信息收益最大的属性划分
* G! I, @# Y! _# 信息收益值划分该数据集前后的熵减
8 d2 _3 t7 M0 e0 l5 e; m: Y# 计算公式为: Gain(A) = get_h(ori_target) - sum(|sub_target| / |ori_target| * get_h(sub_target))$
! J) E* {$ f- I. E- Jdef best_spilt(dataset):  n/ u: [" ^% P9 p; `
* A, o9 K: V" h  W
base_h = get_h(dataset.target); f- `, F3 A: T7 z
best_gain = 0.0
" g' r- t1 i7 V& Z) N) j* j best_feature = None
: t$ K; l2 u4 n; ~. X' b for i in range(len(dataset.feature_names)):  m5 P& `% f. @, v4 V2 u
      feature_range = []$ P3 T) v3 Q9 a7 r( L
      for j in range(len(dataset.data)):% E% k) o+ P4 ^9 ^5 c: c; R
         if dataset.data[j] not in feature_range:
+ u# W( z- b. _1 l" N( Q# e             feature_range.append(dataset.data[j])3 u3 X+ M" t9 x. E  h6 ^/ A

+ }( b, H. A0 G3 |! b% S       spilt_h = 0.0
/ w( V, Q1 i- C& @       for feature_value in feature_range:$ d$ G) m- I6 p% i$ d6 B1 l
         subset = get_subset(dataset, dataset.feature_names, feature_value)/ i" Z; A3 ^; S  Q6 n- e
         spilt_h += len(subset.target) / len(dataset.target) * get_h(subset.target); C) c3 ?/ I' T5 H( g

2 W# O2 V- {5 o0 y/ O       if best_gain <= base_h - spilt_h:
5 b8 z& G; f# _, r          best_gain = base_h - spilt_h( l) A# _# I& D1 b( F, N7 F
         best_feature = dataset.feature_names/ d% {) J+ j3 [
! x- I1 x+ x2 W) ^, f. u
return best_feature
5 r3 Q6 a: n+ S1 r/ v
3 w: k7 Z6 A% l5 W7 f# 返回数据集中一个数据最可能的标签1 {; f/ f3 i$ D$ f
def vote_most(dataset):' j; H' e, R7 X8 H
target_range = {}
8 ^+ S9 L' k4 y) Q2 W7 m# q5 O( ^ best_target = None) g- Q  I+ @: m; Z: f
best_vote = 0
. t5 Z' ]# ]( T9 u& ^' p  `! ]/ C% @9 ~& F: h  u' W
for t in dataset.target:2 g* @% a" k* ~" Z1 n% g# p, X& Q
      if t not in target_range.keys():
* o+ g# @# K2 R6 n  C0 n" X          target_range[t] = 1
6 A# H9 ?1 a5 A) d! e       else:3 e0 B& }0 k3 I& X6 ~6 N% g
         target_range[t] += 1! O; U& O; D# g" H/ a
- s" d( c* n6 ?& `2 ]
for t in target_range.keys():  f2 b  l' \: f+ i$ }/ M! C
      if target_range[t] > best_vote:: o! \* p( W: E. p5 U& H! o. P
         best_vote = target_range[t], [1 U! m6 Z: T  M" H, W" Y
         best_target = t
4 q7 n" C" c/ b. M8 V% ]
' w5 S6 u' D; m% b% w9 f; `! y return best_target
% R& w3 M' N8 J  `0 Z
, E. @( |. Z( g  N# 返回测试的正确率
# x: I, H" f4 z3 S# g# predict_result: 预测标签列表, target_result: 实际标签列表) h8 V8 X) Z. {) B7 [
def accuracy_rate(predict_result, target_result):
7 g# i7 ]( |! a+ L) R6 S # print("Predict Result: ", predict_result): g+ a, G# `" V2 x- J
# print("Target Result:  ", target_result)
/ v4 C8 w& C$ F7 i% y2 _- ?# `9 Y7 ~ accuracy_score = 0) X2 A; \& ^9 }' M' u# W+ r
for i in range(len(predict_result)):
' d) r9 i8 N0 x* ^       if predict_result == target_result:3 i3 R1 M- D0 q
         accuracy_score += 1
3 F- R9 f8 D6 h return accuracy_score / len(predict_result)9 H+ g# e4 o5 e: Z

4 W% w$ h& O2 O0 C+ F  e# 决策树的节点结构
0 I& s9 \8 ]) qclass dt_node:
3 E7 q9 O+ ~, f
  D3 b% p! D+ @$ C3 J% ^. `# Y def __init__(self, content, is_leaf=False, parent=None):. S0 z) [# c, @/ k+ Y7 V- l  `
      global nonce4 [8 c& r0 \% L
      self.id = nonce # 为节点赋予一个全局ID, 目的是方便画图( v0 }; `, P; _+ i( G
      nonce += 1
$ K: U, s; ]5 e' c$ m' G3 T       self.feature_name = None1 F* `/ l. I" U' \! \4 r& f
      self.target_value = None
: `8 s( @4 ?! o% K2 \/ i/ V       self.vote_most = None # 记录当前节点最可能的标签. o$ B$ y3 r5 v. ^% @
      if not is_leaf:
  ]5 ^: Q1 b! J  y6 b, Z) l          self.feature_name = content # 非叶子节点的属性名: G) N, o+ n0 G! s( O7 P% f( w+ n
      else:' n  n+ r- ~9 T; _# u
         self.target_value = content # 叶子节点的标签- x6 }, z/ d; c) [. h/ W
  Z; X% G4 M$ f1 ?1 e( P) z4 N
      self.parent = parent
3 G0 B+ n1 F$ I2 c2 ~' K( x1 u       self.child = {} # 以当前节点的属性对应的属性值作为键值" D2 L8 U2 W+ W4 d3 \

5 X0 P" y  U. i8 O7 s, i( F: I# 决策树模型
! g: U' L/ G' w5 \, I$ R6 q2 Lclass dt_tree:7 f  x% J  [0 ~  Z- g

' k% ^. x/ a8 l" E: Y: X$ ^. S3 w def __init__(self):
+ P/ _. i( U! I; _0 D       self.tree = None # 决策树的根节点
% r) g3 P1 N  C       self.map_str = """5 d: [# I# P$ i( v! w
         digraph demo{9 h- N9 q3 S+ g3 E9 p
         node [shape=box, style="rounded", color="black", fontname="Microsoft YaHei"];4 R5 t4 c5 d( W5 G% z) ?' C
         edge [fontname="Microsoft YaHei"];
* w, k. N: c" h* g          """ # 用于作图: pydotplus 格式的树图生成代码结构
; q3 U2 Y& ~+ `. Y8 m/ j3 Z       self.color_dir = {} # 用于作图: 叶子节点可选颜色, 以标签值为键值% F$ u' M4 S* ]$ A8 D
! _: n' z  C; @7 c6 f( z+ G4 E% h. c
# 训练模型, train_set: 训练集7 r9 [, F) t) S  S
def fit(self, train_set):
. h+ `& e8 \" E' L
3 m2 T3 Z; [- V5 _. e3 h4 q       if len(train_set.target) <= 0:  # 如果测试集数据为空, 则返回空节点, 结束递归9 B. B- R& S% {$ D8 c
         return None
: K+ G7 V% P5 L" z
& {, l6 `; f/ L' p       target_all_same = True
# Z) Z% K5 H' k3 D9 S/ [8 W       for i in train_set.target:! u' m& W9 C4 Q# ^; X1 a
         if i != train_set.target[0]:. |% V$ o* o! j+ r0 K& n
            target_all_same = False7 `  p' J- Y: d" O1 R; C
            break
" X& Y' h- Q: v4 v: [* Q+ o2 o: X/ A' H  c4 P1 F
      if target_all_same:  # 如果测试集数据中所有数据的标签相同, 则构造叶子节点, 结束递归
+ ~+ ~. G- S, G- t1 O% k2 A( `          node = dt_node(train_set.target[0], is_leaf=True)5 _9 ]) E4 T* J1 g
         if self.tree == None:  # 如果根节点为空,则让该节点成为根节点
$ J8 I- k& S- K9 F0 X% v8 Z             self.tree = node* }: I: b) V" T2 e* ^! a& }
0 s* X. ~4 q! v" Y+ ]
         # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点7 W) V8 ]) B2 I0 y5 P" y  A  V* I9 _
         node_content = "标签：" + str(node.target_value)
. h" w) b+ }. z. p: F$ ?- U7 P          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"  ]# g! Y3 q9 O: v; i; k- \, ~0 u
' m0 [3 w8 @/ E" b# I
         return node8 _5 ?4 M5 p4 F; E2 I$ }
      elif len(train_set.feature_names) == 0:  # 如果测试集待考虑属性为空, 则构造叶子节点, 结束递归. x2 b3 e! \0 _4 s: N8 r
         node = dt_node(vote_most(train_set), is_leaf=True)  # 这里让叶子结点的标签为概率上最可能的标签4 G0 |( g. M5 j5 {8 I# v3 k
         if self.tree == None:  # 如果根节点为空,则让该节点成为根节点
8 [. \3 s& R) o, A             self.color_dir[vote_most(train_set)] = color_set[0]
7 V$ p: c6 T( J# d/ l' n             self.tree = node, r! Q4 C+ _5 s& `' f( a

' W0 _: p- y" s7 t, p- l          # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点" g7 l8 Z( S3 [' l+ [4 W0 a
         node_content = "标签：" + str(node.target_value)
% y; u' k) k8 G. M: s2 [          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"2 N6 p0 N; M  X+ d( \) }1 q  [
. ~. C4 Q" G8 g4 j: i& A; _
         return node& U8 u0 n- b  |$ I
      else: # 普通情况, 构建一个内容为属性的非叶子节点
1 e2 f5 P7 c# e# L/ S3 c          best_feature = best_spilt(train_set) # 寻找最优划分属性, 作为该结点的值" ^5 }, N/ y% C
         best_feature_index = -1. k; K' k7 C, w' G$ O2 F8 @6 E
         for i in range(len(train_set.feature_names)):1 `8 h4 r& [4 g0 ]. S
            if train_set.feature_names == best_feature:: i% o1 }/ _' e" d2 F, v. ^
                  best_feature_index = i
  p4 p/ ?" J) L  c- K                   break
8 T) X0 u* F- X6 h# s, {" q: e9 K0 k- b3 u( J
         node = dt_node(best_feature)
5 X& O# O& s# ^6 }5 j& e          node.vote_most = vote_most(train_set)
4 Y8 H- i" l; y+ @          if self.tree == None: # 如果根节点为空,则让该节点成为根节点* K4 r4 {& W& T. g* L% S
            self.tree = node! j3 T" }% ^! t7 s
            # 用于作图, 初始化叶子节点可选颜色
! i  M5 P* l: ]3 K$ r  @3 }             for i in range(len(train_set.target)):
. R1 D5 y4 z$ I, `                   if train_set.target not in self.color_dir:/ m* p3 t3 {: _1 ^' G- J* m9 N
                     global color_i
6 i+ [  M0 o- L3 o: D                      self.color_dir[train_set.target] = color_set[color_i]
+ z2 a# E9 i2 t% p, D6 c                      color_i += 1/ H1 f  _, @5 S' w, c% z! ]
                     color_i %= len(color_set)8 L' Q+ @, L$ ]: E- T1 H; V

  {0 D; s7 [+ D4 P          feature_range = [] # 获取该属性出现在数据集中的可选属性值
$ B- K  X6 k' a3 g* B: P          for t in train_set.data:
; {; F/ e' U/ t* ^! }             if t[best_feature_index] not in feature_range:
7 q9 v6 e6 v" q4 w2 V* |                   feature_range.append(t[best_feature_index])$ s: C2 b6 W2 p/ U) R7 W
# F; }9 `( L. N; Z! Q/ T
         # 用于做图, 创建一个内容为属性的非叶子节点5 w# Q0 B/ R, Q; E% Z  O, k
         node_content = "属性：" + node.feature_name
  I; l( \: G& i) I- g( U          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"#AADDFF\", style=filled]\n"
# `! K% o6 J6 H9 {
. m" s& Y2 q/ f! Y; r          for feature_value in feature_range:5 l7 f& m! w, K
            subset = get_subset(train_set, best_feature, feature_value)  # 获取每一个子集' s7 Z5 ^0 K8 J. _5 M+ H; B4 {
            node.child[feature_value] = self.fit(subset)  # 递归调用 fit 函数生成子节点( K; H' _% s6 s+ x
            if node.child[feature_value] == None:" p6 A. P6 y# e$ G. ?
                  # 如果创建的子节点为空, 则创建一个叶子节点作为其子节点, 其中标签值为概率上最可能的标签' [/ k! `: }- j: \2 d1 P
                  node.child[feature_value] = dt_node(vote_most(train_set), is_leaf=True)2 \$ @# T/ N$ }
            node.child[feature_value].parent = node
3 |! r8 N+ @! y6 W- I/ d$ v' a4 k5 s% H
            # 用于做图, 创建当前节点到所有子节点的连线
4 O+ b! D' I5 F! k3 d: N             self.map_str += "id" + str(node.id) + " -> " + "id" + str(node.child[feature_value].id) + "[label=\"" + str(feature_value) + "\"]\n"# E1 t. _, t3 e, D% H5 b8 E

8 L  c- h1 n* Y* b" J6 b          # print("Rest Festure: ", train_set.feature_names)4 `& F3 }+ a2 E$ d$ p
         # print("Best Feature: ", best_feature_index, best_feature, "Feature Range: ", feature_range)0 x" I3 m# M# R1 l: [
         # for feature_value in feature_range:% D; N# k" O7 q! _
         #    print("Child[", feature_value, "]: ", node.child[feature_value].feature_name, node.child[feature_value].target_value)
- m, |. `$ g/ W( x" G( ~! n          return node  g9 v/ W7 w8 ^  X0 @

8 s$ K* J5 x' P8 U6 H- U # 测试模型, 对测试集 test_set 进行预测
* V) B! P& k( A& O5 H+ H def predict(self, test_set):+ H$ S3 X4 J; l
      test_result = []1 w1 @5 r8 e) M( `
      for test in test_set.data:$ h. V5 m8 J/ Y. U
         node = self.tree # 从根节点一只往下找, 知道到达叶子节点! K8 g& ?7 F6 x0 g
         while node.target_value == None:
$ m0 n5 R) c+ p& U% T& Y             feature_name_index = -1; c/ o! p5 ]+ m. r$ p
            for i in range(len(test_set.feature_names)):
$ C6 L: F! N( t6 z7 u                   if test_set.feature_names == node.feature_name:
9 C2 S7 b) Z4 k: B, U                      feature_name_index = i4 {2 x2 v2 Z& A* {1 B* p
                     break3 H- C1 x- q( m6 ?- B0 Q
            if test[feature_name_index] not in node.child.keys():
5 x) P8 ^% Q5 Q, ]                   break- I7 C: i! q! Q' E' c' d3 C, A
            else:& J' s5 t5 O$ Y! D
                  node = node.child[test[feature_name_index]]
3 q1 C4 O1 G5 L/ T
" S9 @* M% h4 {  q          if node.target_value == None:
+ A9 A2 u( `+ y5 ^4 Q             test_result.append(node.vote_most)
. n+ ^5 y' j4 ^0 ?9 u          else: # 如果没有到达叶子节点, 则取最后到达节点概率上最可能的标签为目标值
7 S8 |+ i$ e3 Z7 l5 T4 X             test_result.append(node.target_value)
" ~6 G  U& q# u) Z9 C
: j( S4 U& w. Z: o$ c8 k       return test_result
. T6 b* e( ?* R7 G4 Z& h- ?& B/ K) w
# 输出树, 生成图片, path: 图片的位置
% y* b& o: F0 f1 }) x def show_tree(self, path="demo.png"):
! i# A7 D5 y1 `2 t       map = self.map_str + "}"
4 B- j" e8 u! U" R6 A       print(map)6 U0 y# i! M" Y4 v' e3 A
      graph = pdp.graph_from_dot_data(map)
/ A& M+ M% m, k1 f- X; t       graph.write_png(path)
) |4 V8 s2 Y( n8 \. z" ]# G, v+ `" @2 H5 O, K
# 学习曲线评估算法精度 dataset: 数据练集, label: 纵轴的标签, interval: 测试规模递增的间隔: Q; J9 U3 J- k* k2 U- ~0 q' g& Y
def incremental_train_scale_test(dataset, label, interval=1):5 s0 O! u7 I. e+ _
c = dataset
$ |. t4 k' p# o1 Y: O r = range(5, len(c.data) - 1, interval)4 O% H  B+ }( r8 X6 S
rates = []
2 C: L. b  a9 G3 N for train_num in r:6 x1 l: Y( {3 q  o
      print(train_num)
. h, h0 B8 S  r       train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])
, R9 ]! N. G1 \3 L7 |       test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])
0 l6 m- z' J! Y. r       dt = dt_tree(): E, U5 t8 l  K3 A% m+ c4 S
      dt.fit(train_set)
, i9 Z8 M1 o6 W7 J( p; E# T  C       rates.append(accuracy_rate(dt.predict(test_set), list(test_set.target)))
% ?2 \2 e5 J: a. M* U5 h! Q; X- _* f
print(rates)
: F# N# _+ v6 C9 ^  h& v plt.plot(r, rates)
0 I: c1 M0 s. L5 Z plt.ylabel(label)
  C3 ~) |7 S/ ^6 x plt.show()6 M- k- u( f" _% `8 I: u5 B

  @' J" w8 d) ^$ fif __name__ == '__main__':
$ c0 v: ^# m2 {
2 q" s& V; L7 V" ^+ F/ w2 a c = load_car()  # 载入汽车数据集" s0 ?0 ]  ?4 [7 s6 f
# c = load_mushroom()  # 载入蘑菇数据集
' x: G# x: [2 z2 c- w train_num = 1000 # 训练集规模(剩下的数据就放到测试集)
7 i, m! Z  e8 {1 g; W8 _ train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])2 N5 ?( k- `7 ], k: Y9 U4 I
test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])
# ~; }+ k- l- ^; X: j& G! |! O$ x* X$ a% Q2 w% I! @* R3 i
dt = dt_tree()  # 初始化决策树模型
; h1 W* X( i/ r8 I7 Q! h$ X8 q dt.fit(train_set)  # 训练
1 ?" T9 g1 O8 E& J' | dt.show_tree("../image/demo.png") # 输出决策树图片
; n  r, F) d% H3 Y$ }) A! e print(accuracy_rate(dt.predict(test_set), list(test_set.target))) # 进行测试, 并计算准确率吧4 @; V: i1 k/ t+ o/ h; |
+ E5 f* o& V; k- n# _) r- G5 o
# incremental_train_scale_test(load_car(), "car")
1 P9 F& N, p0 \! G5 S # incremental_train_scale_test(load_mushroom(), "mushroom", interval=20)
( Q2 }! U& u/ l% K3 }+ i; ]4 M0 H

: A& j, @* e) ^" {  p% P6 X
! _3 \+ i/ L/ P9 w7 }1
- ?: ]  m! H% d4 `% v' i9 V2+ K) ^' }( n' ?! \4 T9 _' n
3$ \* [8 [+ Y3 H7 _
4
% ~  a2 Z2 Z/ F: X51 b" f1 i3 I( N1 g. m
6
# H- F) i7 E$ f$ L, S7
4 ]6 o1 e5 r7 m6 E, }8 o$ j8
) X2 J. ~: z6 i4 l2 n) J. {6 [9
  t. e6 S( A+ a* g104 G% p8 {6 X3 E9 M
11, ?6 ^- Q5 U6 m7 S
12
- ?: r) h/ A. G! x: c% |13
  G+ @) T1 A6 m% O, P% p14
  N9 l; F4 ^1 [7 W! R: V15
, D& Q& C2 w4 o, s16
$ O" W' w9 X6 B4 G# _17
- ^5 T, [$ H/ s4 V% `5 N& R! N* R0 H189 O' {, K5 V/ y; h
19/ x8 Z2 C2 z( ?: g' H/ i7 P3 b
20. L: J3 S/ `0 I. y' R
21
9 Y* F; j2 a/ \22
, V0 _( ?4 L' X9 ?) ^23, M8 q. M+ \  z# l. @# {
24
7 _5 V" ~# G8 U2 G4 ?) ]25
1 C/ S6 _0 ~3 X# C! A26
$ _8 Y. J4 r/ x# L* g27
/ S5 }7 X9 U8 b- P4 Z. q28& I% S4 \* q. G3 N3 u) G
29
+ a0 j9 g, t1 X$ @8 a# L/ ~302 }1 h9 W$ ~& ~! ~" |
31& O$ e1 o+ x3 `" P% h  ~
32/ L6 F% y' z0 h7 ^. F
339 `- v: m# ^, j- X( p& \' U+ r
348 N! F  Y2 x- D
35
, H2 o9 H) U: U( U& y' I+ H( F36
7 J( T  g3 L6 j; V37
, Z: ^7 N; q# [8 h9 Y+ Z0 Z38
3 ^) R- D4 l$ Z% D' h3 l1 P39
, r( f& {3 M/ G2 ^+ G  I40  u- R, {, l  V0 J% `, z
41
! s9 C3 b/ ~7 ^/ G- E420 ?* j5 y4 W# O- A/ A
43* ^! ]. H6 H1 J- E- ]; R
44
* l5 ]: Q( }2 f+ _0 ]! j1 t45
! y6 l* W, t9 H/ d# ?0 P% p, W9 i46
3 ^8 y  y0 }/ L& z- M, `47
0 ?) o6 r9 G+ I  @48; L1 V7 d& r1 W( ?
49
3 a: G7 B+ m" ^6 Z) p, }5 c50
- Z& I2 s) S1 ~- u9 V( N3 w51. U, S9 e; k7 t9 a
528 b* i2 @: D/ P: j
533 C0 ?0 I, e! t: n( Z
54
% Z* l9 x+ ~* d' u* P$ G55
: O3 X" e' W9 w! f* n0 p: _569 j& H7 \, C8 e* |/ v/ Z. U
576 y9 F5 L3 u* @5 g7 r: p; Q
58
. {: t9 I4 P3 F59
9 P+ }- v5 H# t+ w: Z% s- U1 R604 N% L5 {' s# d8 b
611 R2 h( A, v0 u
62
/ b/ B$ i/ m% A635 f& o! v& Q1 n8 l2 G- H
648 I$ J/ @) t: l* t$ g( F' u
658 d2 L+ Y1 R; w$ w
66
- @: H6 [! \  _! Y, \67
0 C6 A! {  [$ r6 Y. T" P68
. x  _8 q6 E5 m& B69
7 ^; L" A/ b3 ^! V6 L# q6 z- m  L" `70
' h" b0 X5 \* n- B71
! f! v+ y0 J) R7 U2 f' D72$ h: e& ?# k) q3 Z8 j' K/ X7 S
739 E6 S, q3 V2 y+ Z% g# q
74! G& ^* ]: P; o
75
4 D# |. j7 N0 e3 \76  z( V6 }6 l- N! o2 c, G) e. N
77
0 c) J; t2 O  O7 l78
: Q( T. V! @# ~2 u5 |" \79
0 Z3 r! L6 U# N# O80
$ I3 J) W% }' F, O; c# @1 o81
$ @3 i% [% @  d. s. u4 k82/ C. n- |/ o' {5 s+ q
83( N1 P8 {% I+ _- G1 D9 Z
844 b8 b" N( A+ V) k1 A
85
$ E! m/ H$ _: @5 U86! W8 v% q$ \% w
87
8 s1 ^- L/ R$ b7 d7 {884 l% p3 S. T5 }, h- Q
89- Z+ j( u  E$ [+ y8 m
90
2 O4 `7 l* Q$ Q: b4 Q91/ x. l( W; p: D( u' G' H1 }6 G, J
92
& J$ Y) r. W4 U. O) z, N+ J0 v# K93
0 y# K6 A9 y5 z( ?, ?5 {/ `( A94
7 e& a5 v0 ^6 f95
: X( W4 c; t( N3 y: F+ `; N+ N96/ X- a: Q5 F1 |$ E! S' f3 S
975 E' G" y/ g6 L
98
8 Y3 e9 _) G4 p99
" P4 `  F! x. ?+ M6 g100+ E  a0 K  O8 w7 [, I, z" `, Y
1010 {- ?( g+ Q# Q$ m4 l6 |
102
8 b4 D+ V! A2 t5 k1 a103
" p7 F9 w' c/ ~+ Z6 O; s104
  I; m  P2 G. a# v" n6 ]1 \' m1050 N- q; b; }' {3 w# s3 C
106; }1 _* ?' \# P- n1 J% \
107
/ E4 G. a7 b) F- Y% ]108
; c$ |9 ]. F: A- z# a! L109
5 O: R6 l- |0 E# f110# Y9 c6 S2 Q/ m' L1 V
1115 K' }' v. X  l/ D( X
1122 Q* A  L' g, ~3 O& t1 a3 I1 ^2 H
113* ?5 @& x$ }8 X3 o7 O% `
114
" _, J/ B% A/ `4 L6 M4 E+ y. }115- s2 q4 L( S7 e9 d4 W' m# X0 _
1166 `2 k- ?' V/ q. H. Q, Q: y
117. i9 Y% x7 `; D7 q0 m
118
6 Y( E# Q6 x# w, a7 Z$ N119
( j$ `# X  R% t. [$ h+ o8 y6 G  A120
/ i, V1 P* l/ e" W) W( e. `. N& T121! T, G4 h2 `* E; ^/ F% ?$ a
122
/ G" S* |" w1 S+ V! g1 X5 j123
9 R$ d4 T' a* h# u1243 i, r% C6 ^+ J
125, }2 e9 K# y: w% f& L# l5 E) {
126
0 g/ z* V5 f3 ~$ h' A127& B% e0 v  }' o. C1 V. u
128
5 {7 b6 m5 A$ |* {, c5 U  t129
" a3 j+ l- f6 Y. |$ K7 |5 y/ u% O0 C130
) ~" W8 @7 h2 A. Y131  e+ @  B! L8 A8 P
132* M/ ~* p2 k% t+ Z5 B6 b
133
+ J+ [  {* P% X3 Y134
0 R# E5 q2 [- D+ _$ a0 s+ A2 V* W8 f135
# X& T7 ]' a1 {136) M. u" n) ]" G2 B( q7 Z: G
137  I* h; f8 j3 x7 p9 P$ C' B
1386 a! ?: T% z  s8 P! C5 h
139) J' o* Q: e& y( @- T
1404 F1 k0 h+ Y+ a& N# P, ^
141
* f1 v% I3 }" A# O$ m; g: K5 d142( b. J3 t8 c* Y% j4 t7 o
143
8 `4 b$ \* ]# D" ~$ D1448 F5 \* b0 A. P  }( k! M0 h
145
' j0 a. ^$ U6 M/ {" s) }' W) q146
( v% ]: n3 ]  o& V, V3 n147  y2 n' G+ h7 b% f/ X
148
5 u$ M+ v& ]# f4 `2 C* O$ k8 F+ U149$ c- N) c) o" w- i1 t% b
150
: g# t. j) K3 G! w9 [151/ d% o9 ~) H# }, \; q- i
152
% H- J' r& p  r0 f153
) _" O* c4 \) c# t' c4 w1 G. O154
$ G% G3 ^/ p" m$ W  B- r155' j: N8 I/ e  Y( d4 F6 ~& D
156. e; |& _) i0 I3 r! m. S
157
% w: X) `! q  ^* ]158* u' p  o# z  B. }9 j% o& Z
159; o1 S" ?! j: K" r5 b
160% p9 b0 y% u) D& |! }+ |% t# o
161
% U: a/ S) b; G162% Z  W# B( c! A: g4 G
1635 p  X; B# q5 u6 ]5 n6 R
164: o# X- {, L& j# e# f
165
  X  {' T2 D, R7 N1 F166+ F/ z- \/ E! i' D8 L9 }+ y
167* T1 W/ Y: z  r& [
168( T7 d: h$ @( B, P9 g
169- I0 j7 [" `5 o: A! c2 b3 \' Q
170
  ?0 R' i: g$ Y5 y171
( U' C5 C! m9 h7 S  H172
% X; E: w7 v% [5 N8 h# F173
+ i# t: ~7 ~' L1 n. }; A174
. S" a0 n" Z/ T6 c  H$ K175
+ n+ s4 U& ~7 L/ {  v# g& w6 m6 P176+ N3 ~/ N" T; M. W
177, m$ D$ q- y* {, {" j2 {! b
178, \: }) L- U4 I5 G0 ?2 Z6 j4 f! ?
179- |6 A5 m9 R$ x
180
. |9 {) `  ~7 O( V1819 f; N9 j9 y  w# m' D$ e7 ~) I
182) x7 f) l- D" t- {8 P6 z
183
: Y! `, y  M1 D1 C9 C1841 |/ z9 }! G5 M
185
$ m$ y$ K2 V) p5 G186# G: R7 I0 I- I7 a6 V9 D" F5 b
187
1 D4 Q3 W, E% X! f/ s2 M* |188
7 E# r+ G& r6 W1 m# m5 h& f189# U, H' {$ Y5 C& [' o- M: C
1904 K2 |5 ?4 {7 H& a' j' O
191
8 Z# f" T8 c- z9 d3 b1923 U  v3 h% {3 u, C
193
! G- ?7 H/ E  g1 r6 I) {8 [/ n194/ A" Z" R: P$ u" n) X8 Z
195
! f$ k/ `4 F) D! @. Y196
; T* ?! n5 s. A( L- ]5 C/ l197
& N8 g4 O- `$ _  x1987 w7 I& ]* t" t# Z
199& `0 c* e% g( d6 O+ S, V+ d% N. m
200
: h6 X' q. v. S201& x1 y' \$ p$ L/ P, l# M
202
. |9 @7 l1 `7 `203! O2 r( j/ [% Y: l7 O
204
0 K& ~1 x# |0 p# \  A* e5 f205$ k% @8 Y9 L' ^9 s- Y( M
206
. y$ X* y: w; K: ^6 m2 b207
8 p4 y, Y: I; h/ N; R8 T/ d208
! W/ K6 s5 |2 U5 T3 {2096 O" l+ D4 b! w3 _% [' @
210' a; d  ?' r- V
211; W+ D/ a- n/ X$ n# R- L
212
  P/ K+ q6 K* q, J* j5 y. _5 b213. H" }5 T1 I+ \8 U) q
214
2 [1 `$ Q/ }$ T4 J( T  Z5 Y1 O215; e; x; a6 |- E4 H; f$ w( ^
216+ j" o* P& o1 b
217
" ~: S6 p* a4 q, Q. D  l218" a( [+ ^' }6 I& G
2198 z$ l4 s: e2 @
220
5 l* X5 y$ g  L9 [' R221
8 u8 V' O4 g  V- D4 J) y222
, F: ^/ k8 |3 w- S4 _223
: ?$ h- i- L9 E' B2 K224, A8 K, v3 A; _- h& V9 T% x
225
" ]) \4 Z( S1 P  F+ u  N9 x, e7 K2269 v- A% Y! P& E6 o+ a
227
. e# \( [+ \2 Y1 N) S- f: j9 U' \2289 _0 m' S5 d/ q& w& ~, _
229
7 {% ~" l( M  _230
) @5 f* \7 l# K4 U# c7 p231* s' |/ e% D( t! x" s/ m$ ?
232
7 r6 k7 Q. {8 P9 d+ @6 ^233% a1 l0 a4 `. c; V0 l6 [
234
8 h. l0 t1 l' ?$ p5 S/ c" g0 S* c235
" e. s) d8 [, ~6 ]% ^6 A3 A236- v  z& O; s+ k; A( K. M5 D
237: q. ]6 T: O: `
238
& w5 `# g2 i  I7 ]' I239
3 K( _+ E. K" A* u% Y7 H' l240
' w2 m3 c  N: L$ J. n' }4 ]4 H241
) |, [! B# ], f5 A( B+ A242# ~( J2 X7 |6 ^3 B' A+ y
243: c* q0 `# |- T% s. k0 X
244
: y5 w% x3 a6 d3 J% ^: U' q$ b, \245' \  ?* i% Y6 K$ a( E
246
6 n9 G0 F& z8 d" t3 u5 |/ p) o& e247
" ]7 Q% Q6 X; K3 q$ S248
: i1 P) k& p$ k5 t2499 j  V3 F. \3 h$ b
2507 D3 F; z; [! n! L; }; |
251% G6 w$ s5 D' F' h& \( @3 F
252
8 P- x2 t8 O" s) N' I" s253, [# N2 ^8 r+ B+ y) ^% f
254
  K) B; p0 s4 E: K5 X9 U# ~, f, B2551 I. l1 c9 n, E/ ?; [
256
/ N( Z3 ~, t" Q$ f! b2572 B( w! I( m( N8 `% H5 y6 s! v
2589 v) ^3 u; G' i9 h) P& |9 z/ a
259+ S- o2 `* P1 [7 M+ }4 s( h
260
' E, X3 m) W1 B: |" _4 N261
- g7 f7 `8 C; M( g) U262
$ I4 [1 o* f# q+ I8 ]263
- l. h; _% N) s1 u264
265. N$ Y1 S4 C% Y
266
0 S* H  g+ c2 W" H# f/ j% S. f267
! T4 ?; j/ B4 h7 S7 C) v& E4 h268
  c5 u$ {3 S! D; g5 \% H# t! M: W269% E3 h/ H+ k' M4 ]/ S% l' F! Y
270: n, Q" H; K8 h! B
271
5 ~, Y/ T' R" _! W% I272& J9 }# y/ M' ]7 D8 S
2732 V' F) F& ]& X; r6 F, F
274) M" q% {$ P$ l- v4 ?. e6 J+ [
275+ N9 j% m5 F+ m
276& A  o4 k/ [9 E& [5 W+ n5 H4 P# A- _% X
277, ^( b; E0 L! J3 k# e# F
278
2 F5 P  Q" W% ^' L( ]279
6 s9 {- j8 N" k; K) I5 q# N2801 ?+ v1 r- X4 \
281
( v% y( v" P& L4 n7 E8 [282; K1 g. C  z+ w, x  N
2831 u: ?1 A2 \( v( W" L1 `5 Y
284
& S5 |3 r* P0 q# q3 Z1 M- o/ Q285
. U3 m0 f' E  \0 ~. ^2866 Q+ d9 P0 R8 c/ S% M6 N# a' T
287
' Y* i5 A& U" P, ~9 U( M288
  J- c6 S* J* e: X) P2 H. T6 C289$ N5 n+ ]1 j, o) O  U- f
290! Z* M; ?8 A+ f3 m6 q* k9 z9 |; j
291
, c3 x* g# {3 q  z  R1 z3 s292+ i0 K/ J9 {  o  ?2 R1 [; c% r
293
) u, t% c! v( C1 K, b! u2940 V- |) \5 e/ b
295
4 P1 S+ Y& ^$ a% `- u! n, \296& V" X9 I4 |, v% \/ W, f4 V( m
297+ p* U6 J) O+ R9 h6 S
298/ G. G: `! a/ |
2995 M' j$ s1 z5 g: [1 F2 a
300" T5 r7 t& L' [$ ~# {: `; G% J
301
0 W+ {, _. K( w# O: u9 ^3021 S, w, G9 p4 z0 k
303
5 Y$ ~& a2 s6 _, N  Q' A304
' t3 |  W0 ~/ L305
+ p+ }8 u) |( o7 ~9 E4 `( ?306
3 f/ u8 f( |# U( H0 Z307
7 s' N& P# g! s8 H# L/ i0 o! A308
' Y( S/ \* \, W7 f+ T309
7 b* Z# j4 Z" C310( W6 J2 d$ G- h  w2 p
311$ E1 E" b2 ^  M3 T; S* \6 P+ d
312
0 ~' ?: w$ E; a5 x( w/ ?313. \. L; U: A, A, y! c3 R" L
314
! l/ I. U. F# s) b% M315
7 [4 e! x! @* y+ F; ]9 d316
6 ]$ \3 b) N4 S8 C317. ?* g6 L$ g  o9 @! t
318- S/ t$ q: m$ i* n& F3 v4 ?
3193 f, M- m4 `' G8 ^, d5 b
320
1 Z$ F& m( T7 C4 k321# i2 A1 X' S) r5 c3 j. M8 W9 J. O
322
9 V. m- _5 t4 \+ q6 C" d323
9 H( X6 V+ C% a  X3 a. K324( ?) r8 u5 E( {3 n  V
3251 m6 ~/ {& t; L3 M1 ]
326
0 S- K) g& e* u; C3 Y% S: l327' V9 O6 L& t- W% j: p2 ^# p
328$ d; C$ j* Q: O) D
329
+ G8 Y% D) z4 I330( }' I, m: e) ~' U. h
331
, W" E5 g% a/ }9 G0 a6 `7 g2 N" ~. {8 v; C
* X2 p3 X5 W" }% y
# Y) R. J6 w, O+ B; t3 R

" N- T7 \1 q, b( S$ w6 ^& P/ }" n, M+ Q' Q& _' J

7 C# @' Q% i( O4 T, R+ W8 M7 N/ A- c# D" i& P; v

, i3 b" e: F& T5 I  k
9 f7 h- u8 O7 P( Q  D$ ?
1 Y  ^4 t. ~9 d6 G
% ?* L) ], Z; _3 ~8 V- R2 T5 {  f3 H; S9 Y$ _; W( k
————————————————
8 O4 M: n  w, ?" w) _2 X9 S版权声明：本文为CSDN博主「biyezuopin」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。3 F3 ]; U! ?* ?( y
原文链接：https://blog.csdn.net/sheziqiong/article/details/126803242
, u* C7 J4 q: {* `1 l, k$ S
5 @; Y; I$ _. s1 Q+ d% ^8 ?2 e' c
1 A0 Z5 V7 y- L* x/ T$ a9 _2 m