查看: 3119|回复: 0

[其他资源] 基于Python实现的决策树模型

[复制链接]

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2022-9-12 18:10 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

基于Python实现的决策树模型

决策树模型
目录
人工智能第五次实验报告 1
决策树模型 1
一、问题背景 1
1.1 监督学习简介 1
1.2 决策树简介 1
二、程序说明 3
2.1 数据载入 3
2.2 功能函数 3
2.3 决策树模型 4
三、程序测试 5
3.1 数据集说明 5
3.2 决策树生成和测试 6
3.3 学习曲线评估算法精度 7
四、实验总结 8
附录 - 程序代码 8
一、问题背景
1.1监督学习简介
机器学习的形式包括无监督学习，强化学习，监督学习和半监督学习；学习任务有分类、聚类和回归等。
监督学习通过观察“输入—输出”对，学习从输入到输出的映射函数。分类监督学习的训练集为标记数据，本文转载自http://www.biyezuopin.vip/onews.asp?id=16720每一条数据有对应的”标签“，根据标签可以将数据集分为若干个类别。分类监督学习经训练集生成一个学习模型，可以用来预测一条新数据的标签。
常见的监督学习模型有决策树、KNN算法、朴素贝叶斯和随机森林等。
1.2决策树简介
决策树归纳是一类简单的机器学习形式，它表示为一个函数，以属性值向量作为输入，返回一个决策。
决策树的组成
决策树由内节点上的属性值测试、分支上的属性值和叶子节点上的输出值组成。

import numpy as np
from matplotlib import pyplot as plt
from math import log
import pandas as pd
import pydotplus as pdp

"""
19335286 郑有为
人工智能作业 - 实现ID3决策树
"""

nonce = 0  # 用来给节点一个全局ID
color_i = 0
# 绘图时节点可选的颜色, 非叶子节点是蓝色的, 叶子节点根据分类被赋予不同的颜色
color_set = ["#AAFFDD", "#DDAAFF", "#DDFFAA", "#FFAADD", "#FFDDAA"]

# 载入汽车数据, 判断顾客要不要买
class load_car:
# 在表格中,最后一列是分类结果
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/car/car_train.csv')
      labels = df.columns.values
      data_array = np.array(df[1:])
      self.feature_names = labels[0:-1]
      self.target_names = labels[-1]
      self.data = data_array[0:,0:-1]
      self.target = data_array[0:,-1]

# 载入蘑菇数据, 鉴别蘑菇是否有毒
class load_mushroom:
# 在表格中, 第一列是分类结果: e 可食用; p 有毒.
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/mushroom/agaricus-lepiota.data')
      data_array = np.array(df)
      labels = ["edible/poisonous", "cap-shape", "cap-surface", "cap-color", "bruises", "odor", "gill-attachment",
               "gill-spacing", "gill-size", "gill-color", "stalk-shape", "stalk-root", "stalk-surface-above-ring",
               "stalk-surface-below-ring", "stalk-color-above-ring", "stalk-color-below-ring",
               "veil-type", "veil-color", "ring-number", "ring-type", "spore-print-color", "population", "habitat"]
      self.feature_names = labels[1:]
      self.target_names = labels[0]
      self.data = data_array[0:,1:]
      self.target = data_array[0:,0]

# 创建一个临时的子数据集, 在划分测试集和训练集时使用
class new_dataset:
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self, f_n, t_n, d, t):
      self.feature_names = f_n
      self.target_names = t_n
      self.data = d
      self.target = t

# 计算熵, 熵的数学公式为: $H(V) = - \sum_{k} P(v_k) \log_2 P(v_k)$
#       其中 P(v_k) 是随机变量 V 具有值 V_k 的概率
# target: 分类结果的列表, return: 信息熵
def get_h(target):
target_count = {}
for i in range(len(target)):
      label = target
) ]* X% _6 L( g$ S       if label not in target_count.keys():+ X7 v4 d# y. l3 M" L4 z6 r% [
         target_count[label] = 1.0
$ @. K9 x! n, C, Z1 @( o  \       else:
: {: e2 A7 k. _$ D0 ~( C3 j          target_count[label] += 1.0
" G3 Y/ S9 O4 H% G7 \6 {' Z h = 0.0+ v4 `3 C$ U( v$ i
for k in target_count:
% M( p" i0 G$ r/ p# u% b       p = target_count[k] / len(target)3 F  c% a4 i0 V4 I+ I8 Z
      h -= p * log(p, 2)
9 M: A2 Y2 D1 y6 Q return h
: G- L" v% h- [7 r6 o! F5 F& I5 v9 R1 e1 M( P) g. F& x( \
# 取数据子集, 选择条件是原数据集中的属性 feature_name 值是否等于 feature_value2 g% u3 q& H8 b. x( J. X3 D
# 注: 选择后会从数据子集中删去 feature_name 属性对应的一列
5 j4 N+ w$ S5 k/ ydef get_subset(dataset, feature_name, feature_value):
. L5 ^5 C, ?( Z9 ?: o5 ?# L* q sub_data = []  u6 ~$ {9 g- a. |6 E$ W; t: r; r5 d
sub_target = []
5 M, x& ]3 x$ I f_index = -1- W9 F. K* E  K) O
for i in range(len(dataset.feature_names)):
5 K8 G$ S8 Y/ y# {; t       if dataset.feature_names == feature_name:
3 P8 ]. w) r% y          f_index = i0 _' J  \- C, d. ?7 G
         break
: s' I, o# |" ?2 }1 N# R% d4 Z$ i9 Q
9 y5 m; U! ~) Q) D4 E/ r# \ for i in range(len(dataset.data)):
" t/ x, ~5 `. l       if dataset.data[f_index] == feature_value:* ^3 U( R- {  [5 T8 P
         l = list(dataset.data[:f_index])
1 |$ l/ @& p; `          l.extend(dataset.data[f_index+1:])6 f& h! }: p: l; Y8 l) @9 R
         sub_data.append(l)4 Z) t" t$ ?9 ?; c. g/ b
         sub_target.append(dataset.target)* v" {: s! d/ |7 H- }' C
; m% _8 U1 A; w' U7 A6 S
sub_feature_names = list(dataset.feature_names[:f_index])) G% C( o) B3 R
sub_feature_names.extend(dataset.feature_names[f_index+1:])
. |9 C- g3 g6 `2 q: Y  V return new_dataset(sub_feature_names, dataset.target_names, sub_data, sub_target)
0 p) q8 _# ^% b. x. H1 D7 t; {0 q0 k9 W% S! y5 j* h1 G7 O( L8 k6 A
# 寻找并返回信息收益最大的属性划分% ~9 o) r) q% a, U) q/ Z3 J( [
# 信息收益值划分该数据集前后的熵减. h/ H$ z% H6 t; U1 W
# 计算公式为: Gain(A) = get_h(ori_target) - sum(|sub_target| / |ori_target| * get_h(sub_target))$. F4 g/ L9 q& t8 j
def best_spilt(dataset):
. W" ]/ X  f' U0 v9 e* k
1 O3 k# m* z$ h; g# Q+ m5 g base_h = get_h(dataset.target)
! B5 d3 m! B$ z1 X best_gain = 0.0
4 @$ k4 `# S5 U0 l best_feature = None7 T7 z9 I4 D7 N" q$ l4 q# y0 o# o) K  y
for i in range(len(dataset.feature_names)):4 B3 ?+ O# H9 j1 P- [, n9 n' K
      feature_range = []
8 A9 Z6 k3 V7 v9 k" Z1 {- i& H& d       for j in range(len(dataset.data)):
6 B- W' {  e2 n          if dataset.data[j] not in feature_range:
! ]" t: V' c, S* }$ p             feature_range.append(dataset.data[j])1 y& c7 [/ s7 F; s9 k3 L

: i) o* n/ L' H       spilt_h = 0.0
& V) Q: O$ R, x" t       for feature_value in feature_range:
0 O* s& f5 N. V          subset = get_subset(dataset, dataset.feature_names, feature_value)
& u6 s5 u+ u# ?/ v1 G8 }! V          spilt_h += len(subset.target) / len(dataset.target) * get_h(subset.target)
. i3 I- G2 {' F* P3 Q
( a) O: O. m9 p" o       if best_gain <= base_h - spilt_h:9 ]1 `- j9 F/ g3 u8 T
         best_gain = base_h - spilt_h
4 H1 A' W% c, h; `; Z( U2 O- E1 p" Z          best_feature = dataset.feature_names
! k6 ]" e' t5 H+ j# ?; |! x* K9 _
9 \$ d$ i' e+ `) k return best_feature
4 r; I, |" n4 \& G) L' r6 a' z! N1 h: z9 ^$ C
# 返回数据集中一个数据最可能的标签/ r0 K, g2 L& _+ E
def vote_most(dataset):. r7 J) q2 K6 ?# v3 `+ s
target_range = {}
7 g/ H7 T  u2 p: W best_target = None. O- }* m* V" K
best_vote = 0& P- I4 W1 t) r7 P; `1 ?

0 G4 J5 |- y: P2 W1 ^ for t in dataset.target:# Z$ b& l0 s% |% g7 `1 [% z
      if t not in target_range.keys():( {2 r& Z9 s' ~5 D3 A3 m
         target_range[t] = 1
0 a, m0 |3 h4 _% i       else:. D" Z2 m" c% W4 u! f- d+ M
         target_range[t] += 18 r, ^0 I# K* M
1 m/ q- h: a, Y6 z, _  u! I; V! `
for t in target_range.keys():# v- o. s) Z+ A& C
      if target_range[t] > best_vote:8 Y" W, @0 v  B4 ^
         best_vote = target_range[t]0 Q- v4 Y3 e. T; I
         best_target = t1 I" O, i, G# q. x, X

6 J- q# u; g: V* `3 a3 P" Z5 C+ ~ return best_target6 ^8 u5 [& O+ b3 x+ g* e
' t1 W3 C8 P- u
# 返回测试的正确率" E9 q9 k3 g8 a2 v9 p, w* C
# predict_result: 预测标签列表, target_result: 实际标签列表
# ?6 A9 i* e6 x  N1 z8 Xdef accuracy_rate(predict_result, target_result):) V( _7 P( |( c  j8 l. n
# print("Predict Result: ", predict_result)
* j) Y/ M1 m! |: v  B" C/ a # print("Target Result:  ", target_result)4 b- W. I/ q1 I' \+ R1 S6 ~: F
accuracy_score = 0
9 ^/ }) _! S3 o8 J$ F) p8 @ for i in range(len(predict_result)):; {3 }  L# l3 c. T8 e1 k$ e
      if predict_result == target_result:
2 C4 d1 c8 G, W# S! d          accuracy_score += 1
3 H( W. X; x$ w) b, { return accuracy_score / len(predict_result)! a' ~( W  K4 I( Y8 [& v( ?

) T) p3 U2 l/ [; Q" [& f/ Q) ~# 决策树的节点结构9 Y# o; g+ `- {, I, n8 N0 I6 |
class dt_node:) F9 j5 p1 }' T% ?8 q) ]1 s

4 r5 o4 n0 Z" |+ y def __init__(self, content, is_leaf=False, parent=None):, h5 u; F/ c$ X$ G; C; ~. U
      global nonce' W' I( X  H; `$ X+ I' W1 J& x: ^
      self.id = nonce # 为节点赋予一个全局ID, 目的是方便画图
8 ~- K1 Z4 w" x. A5 l+ V0 D) I       nonce += 1
$ ~0 ?0 R$ c: d; S       self.feature_name = None% C. |7 s/ i) b4 Y
      self.target_value = None- g" E) ]2 F; O8 Q  G  \8 t
      self.vote_most = None # 记录当前节点最可能的标签
& B- h. J; Y# e9 M1 _0 X3 g. c       if not is_leaf:# y/ g9 R2 z) w! M* r6 r8 ^( C
         self.feature_name = content # 非叶子节点的属性名
0 ]0 _4 r" j+ Z, l8 d2 w: l4 ~: n       else:* a6 F- c4 ?/ @& X. `5 n
         self.target_value = content # 叶子节点的标签
$ n- e7 i6 d- x( N& p3 Q& Y( K% c6 ?/ o
      self.parent = parent1 a- {& o. o4 Y; C) D0 U
      self.child = {} # 以当前节点的属性对应的属性值作为键值+ M1 b) j; s. Q/ \5 H

6 x8 D; n. y" v* _# d# 决策树模型
. p7 I& R# K# d% K1 g! Rclass dt_tree:
4 z$ b, Q3 \0 {7 q- c6 |- i+ P8 I9 ^
( P/ O2 h5 A/ `3 r+ d1 X; Y def __init__(self):
9 Q9 m8 [. v  [3 z: u       self.tree = None # 决策树的根节点
/ O' Z6 E$ `# d       self.map_str = """
0 V3 E$ X+ J  X+ `! Y          digraph demo{
- }, p  X5 w- b1 \7 I! O          node [shape=box, style="rounded", color="black", fontname="Microsoft YaHei"];& ~- O( ^8 |0 E' R& g) E
         edge [fontname="Microsoft YaHei"];6 U5 h" b1 ^9 H% ^6 s, a. l
         """ # 用于作图: pydotplus 格式的树图生成代码结构
# m, p; W7 K" Z/ P* d       self.color_dir = {} # 用于作图: 叶子节点可选颜色, 以标签值为键值
! N  S9 E1 F/ a6 R& F+ Q/ l% d; @+ u2 ?
# 训练模型, train_set: 训练集9 w/ Y, k; K5 \5 ^3 z
def fit(self, train_set):
, @& ~$ z) w/ L
6 \4 t  u" l1 l2 p       if len(train_set.target) <= 0:  # 如果测试集数据为空, 则返回空节点, 结束递归
+ C/ J) h9 F0 g          return None4 H6 A9 U7 X* C! M2 P% z

( ?" G0 a) v2 g0 G- H       target_all_same = True
% p: X5 Z; l7 z! V2 U       for i in train_set.target:% C. K3 _9 E: [8 ~8 l
         if i != train_set.target[0]:4 Z% Z" \) r$ L/ Y9 j: W+ ]
            target_all_same = False0 R; t) _7 b# ]6 h8 C
            break# W# C( X9 b  n. L5 J9 O

6 Z  A3 b2 z, }+ R       if target_all_same:  # 如果测试集数据中所有数据的标签相同, 则构造叶子节点, 结束递归! P4 G3 m) w* k
         node = dt_node(train_set.target[0], is_leaf=True)
; L# ~9 m" w& R3 A8 r; S          if self.tree == None:  # 如果根节点为空,则让该节点成为根节点: ]0 `% a6 u# R  `- t; q5 S& h
            self.tree = node
& i5 o0 r8 y: r9 t& D, H$ \& S) O% U4 v% m+ _, t$ N% X+ Q! G
         # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点
1 c0 O/ m6 l( U$ P# L6 E          node_content = "标签：" + str(node.target_value)- ^8 J) P: e1 _8 j% u  `. n. ]
         self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"+ e( I0 S+ j2 Y* {3 ~

. b5 `- F, `, o  K          return node
/ D: |( ]1 i0 K( U2 H       elif len(train_set.feature_names) == 0:  # 如果测试集待考虑属性为空, 则构造叶子节点, 结束递归7 y. t2 U. s9 X8 `, A/ W
         node = dt_node(vote_most(train_set), is_leaf=True)  # 这里让叶子结点的标签为概率上最可能的标签2 m. B/ n3 R/ z4 p/ z
         if self.tree == None:  # 如果根节点为空,则让该节点成为根节点. Y$ m- A+ W+ G/ E1 U
            self.color_dir[vote_most(train_set)] = color_set[0]
* L) V- z! k& T( N/ K$ Z9 z7 Z9 C             self.tree = node
4 B0 _! l7 }0 b! S. }9 w) F9 d
' |! w, a6 k8 ?* w          # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点/ P% ~; y9 ^% n$ C" v* D
         node_content = "标签：" + str(node.target_value)
" |; f7 K/ d* D( y- y  C          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"$ |# M0 @+ M7 f! |8 W7 x) j3 F

1 k3 I. y0 o) \7 p- i          return node
6 |: A* Y; {/ D- z$ H/ ?: n/ K       else: # 普通情况, 构建一个内容为属性的非叶子节点
2 f+ e: g! Y* G) j+ V          best_feature = best_spilt(train_set) # 寻找最优划分属性, 作为该结点的值6 r6 x4 J0 |! p  }7 X7 u
         best_feature_index = -1
$ u1 |( f6 `7 [1 ]1 R, A8 V* E. Y          for i in range(len(train_set.feature_names)):% S0 I( e1 ?, f
            if train_set.feature_names == best_feature:6 z# I2 ^) W. K3 Z% `  k: w0 Y
                  best_feature_index = i
2 z8 L8 y0 p" P                   break; d9 b- }' [. l, @$ ]* I

: T3 ?" V3 H  c  p$ [# m. D          node = dt_node(best_feature)0 C* z, |% H) _% V$ w  H
         node.vote_most = vote_most(train_set)% q' e* N9 {! Z% ~
         if self.tree == None: # 如果根节点为空,则让该节点成为根节点9 {& O2 j: {+ e$ W  @4 J
            self.tree = node+ l$ ^+ n4 Y" R. b! \
            # 用于作图, 初始化叶子节点可选颜色
- q4 M# O3 @7 B             for i in range(len(train_set.target)):
- m6 Q, f7 h  k% I0 U' }                   if train_set.target not in self.color_dir:7 W" O; Z1 S, L$ c7 @
                     global color_i. T+ ^' ?  K, c9 X
                     self.color_dir[train_set.target] = color_set[color_i]
* _8 ~9 Z) J0 d1 c2 V                      color_i += 1
) f) N% |+ A" F  H) u                      color_i %= len(color_set)/ c$ o5 u# G# N6 m) e' ~$ R
& m0 W& ?" v8 k' o. v( H3 ]! a
         feature_range = [] # 获取该属性出现在数据集中的可选属性值
0 n# }' e& l" J+ _9 ~2 v$ j          for t in train_set.data:
2 O+ N# T! L0 A7 z8 R; A4 q             if t[best_feature_index] not in feature_range:& J  z: I# U, w( H# P: m
                  feature_range.append(t[best_feature_index])
! r* o2 ]' F/ K7 B5 x) J
* K' z9 v: I0 c7 m          # 用于做图, 创建一个内容为属性的非叶子节点- T6 |/ g& F. q8 z8 Q5 [2 y
         node_content = "属性：" + node.feature_name' a0 w( U* Y. T1 G! I1 W
         self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"#AADDFF\", style=filled]\n"
; P* V9 y4 z, ]' |8 C0 [5 C" u. R# Q/ }) z
         for feature_value in feature_range:; D: y7 i; s5 p1 I/ k& O% j* @
            subset = get_subset(train_set, best_feature, feature_value)  # 获取每一个子集- d0 ?8 _2 R$ s& V8 d# B
            node.child[feature_value] = self.fit(subset)  # 递归调用 fit 函数生成子节点& `! b4 P) j! ~4 d7 q
            if node.child[feature_value] == None:* `; ]) R- O7 w- {
                  # 如果创建的子节点为空, 则创建一个叶子节点作为其子节点, 其中标签值为概率上最可能的标签
/ g7 k3 l1 C5 ?6 r) x5 r                   node.child[feature_value] = dt_node(vote_most(train_set), is_leaf=True)1 _1 m! H6 t! E& W% T! R
            node.child[feature_value].parent = node
. Z: D; M% @# \" ~$ e
% w6 B6 J2 h. r. q# s) X8 r             # 用于做图, 创建当前节点到所有子节点的连线6 {2 X7 S. H0 x4 ^5 N3 N. L3 m1 }
            self.map_str += "id" + str(node.id) + " -> " + "id" + str(node.child[feature_value].id) + "[label=\"" + str(feature_value) + "\"]\n"
7 z; k0 Z/ J/ ~" C3 j  \8 @- ?
         # print("Rest Festure: ", train_set.feature_names)
$ L2 O# C  {6 u! B9 Y7 P) L          # print("Best Feature: ", best_feature_index, best_feature, "Feature Range: ", feature_range)
* C0 V7 j$ v1 V9 f1 v& y+ s9 r          # for feature_value in feature_range:0 I: U1 m2 k- J& P4 u* Y. L
         #    print("Child[", feature_value, "]: ", node.child[feature_value].feature_name, node.child[feature_value].target_value)1 ^9 @( @# v) R, {
         return node
; U% E) u, w3 ]) {: O) ~3 }" N  ~' l% \
# 测试模型, 对测试集 test_set 进行预测) U2 ?' j% }5 F/ F
def predict(self, test_set):
' B( S) d9 M/ q" W2 k       test_result = []' G2 Y  R+ z- v
      for test in test_set.data:; H0 a2 B; [8 u9 [
         node = self.tree # 从根节点一只往下找, 知道到达叶子节点
4 K: n# t7 C+ t3 o          while node.target_value == None:
4 [5 `  U9 B! t, G) Q7 @             feature_name_index = -10 h9 i* _, m* }) N' K* n& [
            for i in range(len(test_set.feature_names)):
. E0 v3 |5 j6 B) c, O& O1 z" B& l* c                   if test_set.feature_names == node.feature_name:
) S" f, D; g* Y+ P                      feature_name_index = i6 V9 m4 n9 Q1 K( r- L& \6 S
                     break
+ ^* M& G8 @; }# y! v             if test[feature_name_index] not in node.child.keys():) C+ O% C0 K1 C6 o3 `
                  break3 e9 _- O6 J( ]1 e2 X5 s0 H+ l
            else:
5 K) I3 L5 K- l3 B% W0 ]  a6 k& V                   node = node.child[test[feature_name_index]]
, ~6 s  T; |" b: q
* v: d; k  U* z6 q# K0 A$ b  c          if node.target_value == None:
% z( v2 }# u' m/ @4 S$ z) z; y             test_result.append(node.vote_most)
" e# R1 d7 O$ A* c: u# [5 O6 O          else: # 如果没有到达叶子节点, 则取最后到达节点概率上最可能的标签为目标值# e8 {! W; l& {) W% L6 w9 }
            test_result.append(node.target_value); H' A* k6 y2 U) u
4 \7 [. M$ I! L2 y6 _
      return test_result
1 S7 _+ ]  e2 A9 W  X$ w+ e& c. a& _/ c
# 输出树, 生成图片, path: 图片的位置
% G, I7 B* a* q* j8 M. G" d4 ?9 s& T2 l def show_tree(self, path="demo.png"):& ]& ]- }2 K9 _
      map = self.map_str + "}"/ C& S: C& x+ B9 w! T4 U
      print(map)
6 h7 E$ A& J/ _4 ~0 ~       graph = pdp.graph_from_dot_data(map)
9 |) v  _* e% i/ N$ y* T, E       graph.write_png(path)
+ x5 c1 U' H5 M' r  Z, k0 _( p0 M3 k
# 学习曲线评估算法精度 dataset: 数据练集, label: 纵轴的标签, interval: 测试规模递增的间隔! b8 f! B0 s) u" E
def incremental_train_scale_test(dataset, label, interval=1):" u8 ?, }- N) ]/ J% l
c = dataset, |& E+ m5 U4 R% s+ l
r = range(5, len(c.data) - 1, interval)
# K1 {: n& ]- l- i& L9 J5 E rates = []. e' I+ g7 l( n- n# D1 i7 P! C; ]
for train_num in r:
- R0 i( ?' I3 ?( e! G0 J& Z( C/ x       print(train_num)) k' M$ q' x9 L/ k
      train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])
+ Y2 E" N3 n2 A" P( I! B: V- p       test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])
6 r8 }- ~% Q! ~       dt = dt_tree()- Y- x' T; v$ n- c, t2 v
      dt.fit(train_set)$ M2 T, w3 K& c0 o& F
      rates.append(accuracy_rate(dt.predict(test_set), list(test_set.target)))

! G2 j# S0 F3 W) `- P7 b9 j print(rates)
- Q( ]: Q# g+ b' \1 X: u$ Y plt.plot(r, rates)9 s7 C7 p. N. p% Q; n4 C! T
plt.ylabel(label)
* o2 O) T" ~1 a plt.show()
' j* Q6 W9 q1 X0 B8 f) p/ A
) J( X3 u7 x/ N, Q4 Xif __name__ == '__main__':
& R/ V2 B! o; @' B% H' M" b, }" Z1 c# \! r" f# @* Q
c = load_car()  # 载入汽车数据集
% v4 U: J7 C3 \7 v # c = load_mushroom()  # 载入蘑菇数据集/ @( p4 f2 m& N3 ^& ^- R
train_num = 1000 # 训练集规模(剩下的数据就放到测试集)/ U4 z$ O9 T, m' w- a
train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])8 z/ ^1 `" h7 x' G; Y  B
test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])- k+ Y7 i# A( h$ H- [

5 k$ }: X, }. F* \/ e1 r dt = dt_tree()  # 初始化决策树模型
% ^* R/ i# L% U: Y* r dt.fit(train_set)  # 训练
" C9 f( T! p4 \' G) M dt.show_tree("../image/demo.png") # 输出决策树图片" Y6 t5 u; f: W2 x' L6 D! o+ v
print(accuracy_rate(dt.predict(test_set), list(test_set.target))) # 进行测试, 并计算准确率吧
( [) _# o, ?' r& j; i3 U5 U) I2 X- H$ }# x8 R
# incremental_train_scale_test(load_car(), "car")( g2 `) h3 _) U: C+ }
# incremental_train_scale_test(load_mushroom(), "mushroom", interval=20). x" o% w' u8 K
( z* o+ H" v. P  M) B3 U6 [3 l

" V/ c" u. W! g
* o( M  |/ C1 s- |/ @1* x. W; x: A) H" G( C
2
* P( _4 s, [- u# b% \0 _/ E9 v- |3
8 Y( j  T3 ?+ C1 D4* K4 _! V5 w% O, t3 C) z+ c' n
59 g2 u, P& r/ p2 Q( R* r
6
) V9 o2 `# }  b! D2 `: g7
. t; w) F& B& R; c* p7 h6 n8
$ _% E) Q* P! o- Z( k9
' i( q5 F! |0 I6 R105 M) j% Q  b, P7 \: v+ h
11
8 E% k- N3 S& D0 V12) E. V9 j9 _# x4 g+ W& R  w# r# e
13
8 `, y$ w* W) r146 Z( u. A0 H! V# x7 t
15
: P( e" h. W3 Z* J0 ~. z, |6 t16; O# ]: F% V* }! U1 U- U3 {# v$ L
17
- T. D' X7 V4 @& F. t188 ~% n# v# n$ s* P, [' E
19
  j3 }4 B7 M+ W8 ~20% O& ~' q- [1 }% S- B1 g
21& H1 ~  K1 ?4 x0 X# d
22
. S& S8 k- T( X* I23% D5 q) e0 W- O2 v) F
246 r; q3 F! `% y3 T1 u4 K
25
1 M' I6 K8 H& s" {8 `26
1 \( J% X$ V) r! t( Z5 D) W( D8 @27
$ K; k8 B3 w3 x* R/ P6 W28. Z) `! e! a, ?8 X' e2 ~4 D2 g
29! T( B% o: ~1 i6 W* L' ?
30* n1 p8 ?, X, Q
31" q' h+ J" t  K/ ^
32
0 w: A( n8 a& [33
  B5 q0 U4 l$ R+ O( u; M: t34& _- i$ ]$ Q' C3 g' o2 |) u
35, P- c& `2 |# t0 W* }3 I9 i7 t9 M: L
36
( e) Q' h9 k0 T% |" W  u" v. {' ]+ E379 ~$ D- _5 s  X: J, _
38
. d$ O- Q6 F# W0 f, ~4 I39
! b8 [5 n+ ^2 o0 k1 @# v' ~40
' B* t* V5 @3 c0 B8 U2 C411 K; [6 [1 \4 t6 N. V/ B+ K" l& h
426 a5 e& S4 z$ C! Z1 L# ^
437 b! f+ t7 P/ I' p1 h1 e- Y8 W# ]
44+ ^# ?8 A3 m$ q) E" ^6 L4 F( ^
45
3 D0 m6 S/ x5 e) X8 P8 R* y& R46
2 l- r6 \* \/ u1 D; ]  J474 H" H8 N  D$ u1 P' Q
480 q' I' r( w# c, N5 V7 q0 ^
494 V3 Q$ A; g" l; w5 P  [
50: P4 t! K; |! k
51
4 e6 v, x' H/ ?% L52
4 m1 L8 ~9 G# t53
. X  y5 X! z6 J2 k$ ?& _+ Y/ ~54. |. q/ q1 B4 b0 y7 O: s& [
55
" F5 M8 Q% Z3 g' z4 _8 A56
* V  n: a8 K- W& X. ]9 p& o577 Z# V. T4 m, @! M# Q
58
& w" p9 s  T: g* V  b59+ |5 V% H! ?5 P1 U( p; Z, F4 m
601 J, Z2 g& ?9 p9 p: d9 X
61$ F1 \1 C% c. U: F* W* p
62
" f6 Z6 N+ t& }* ?2 a1 _. ]63
6 q9 |* a# n% W1 V! ^' {64
& d  w. r2 C! b8 d# b3 x7 i65+ L# ]7 a' n. x( B. ?; i
66: _; ]1 {. U) B9 \: p" m
679 k0 S# _( X' }3 C
68
6 n! f/ |& Q+ I& g7 {69, v+ P" f. @$ l# @9 M4 t
70
, a7 ~5 s; D0 q$ @71
' H* \7 }! }% e+ R$ l72
: v. I/ ~% W7 q( A# ?! x73
7 y8 l( d- c& |* |: W6 w74
) b4 s8 U, D9 C+ c752 }- z2 u. f4 j# F( `
76
( ?3 u9 W$ l; C/ f. [, {: d" j77+ \: K& Q' d' r7 u) p& i
78
5 @. c3 B; L1 M+ `+ |79+ ^- }6 d9 ~: M
80& G& w$ L9 X6 @' |' z
81/ s5 B' k1 C8 J' n% r2 D
82
7 G) U& z9 P/ }83
* M$ o* q9 t; z! _# K& V84
* r% E1 Z& F1 t8 i852 |1 c/ R4 k9 r5 F# n" j2 P7 ^
865 k1 B0 L2 z' A( E; v' v. b
87" `* v' M+ i% g! f
886 Y; t8 V# z  \; o+ z
89
+ K6 _: _5 e% F1 e* Z( F90% M9 W, Y7 W% n( I
91$ c1 l+ G: H) ]+ f: b# T
92( E; c+ k* p7 n$ ?9 c; h" s( O$ [: u
93, G& @+ ~8 R, _4 {
94: v$ p3 ?* F, w( o8 ~- B5 M- e/ H
95
# x. u/ i9 U% W1 }! j5 d: Y96: X+ R1 k5 c* V6 k0 [; q- M3 G0 m7 \
97
$ D; n3 l9 U/ {3 `98
% M; m' C9 m, h5 x99+ i/ Q! c/ E5 c  ]
100
% z: b" q1 h+ Z101
3 g5 B: v2 {. z& R6 s102
) m1 D/ R2 ^: p' `. n% W, G103
! K+ ]: y3 K6 W$ g" a1 z1048 Q* n7 v: j" F
105
+ v$ @* y+ {+ F$ I/ L106
2 C& V5 M3 P4 {: [3 [107! J: m! f2 |8 |3 O% ?2 @
108  w6 ^5 q+ c2 z8 F" G+ q2 h
109- V+ W1 f4 U; u, v, y- a, T$ r
110
* X2 m8 _! y7 v: }) y111% b1 X3 h* C$ U8 m1 Z9 i$ A
112
+ e' S0 N& z% z& e; Q0 A1131 j4 O0 W+ Q( P* {7 U; ?) a
114
2 S  y+ w  f7 U8 R! ^7 R. `115( n, @: v$ _9 _
116
2 G- |3 T9 ^- ]/ D* m. R117; b+ P5 Q0 ~) ]! B5 [' j; y
118( L5 C" t" H: g  F- A
1196 K9 C  n2 q0 I
120
6 A  Q# k5 d: t! C& M) q( W/ j121
  t- A( K# a1 U# J122
: |4 `8 w3 }; T1236 k7 M3 g4 V$ t1 i5 N, M6 h3 J
124
  G6 k' P0 l( @: ~125: S7 `/ A( f6 k7 u8 m$ e. x
126. x9 E$ F5 D4 y' i6 k
127
8 I( l! v8 |* p/ z  T9 L( t2 W: {6 A128: ]5 Q' X/ N$ I  f
129
$ S: r7 V' E2 H% l130
8 r) U5 A  f: y1 O8 m* T1316 Q4 t  d7 I9 @- V, A2 s# u
132! p+ _7 i1 S- _5 n
133
$ t( S4 V- w" e0 R# N! I( E1345 `( c, C0 l. p7 e9 ^2 l
135' x* i' b6 ~* W; p. t* M
136
- E7 ^' m5 U1 o- X7 `. O2 K137
; V2 z# L: E+ _( e; _9 K+ ^138& k( O; ^- c- W7 m: x# ~
139, t& W6 B, f+ Z/ w. i) P( W) Y
140; l7 x/ s4 ]+ [) i7 Z7 B
141
7 Q$ [1 o; K2 A, i142
5 q) J/ t* W# `; K143
6 O: j- E6 F  ?- q  q. V( e144
) Z" U1 h& C, \1458 E8 m( j* b* Z1 y
146# M! {1 y$ m6 z/ I' @! B8 I
1471 u8 G1 Y/ t% `- q& j$ v* g
148
7 V3 r% S/ f  j) m149
& w- F* v& _$ X' w0 }  F150
# q* a! \6 g) A6 Q3 M- h151
0 ~, L! Z, d$ ?: F# I( l3 ^152: v  p" R. O  d6 m- z: o/ E2 z/ n! E6 d7 i
1531 `1 c* q+ K3 j" V  r+ g) i
1541 `- z+ e1 F* `+ N' }
155
! C+ v- H3 L5 w  G156
( A, i/ w4 I' a0 Z4 c; h157
8 ]* r3 R1 c6 E. Y0 o158
1 M0 o. f: ^) T; o9 \$ s8 p1598 k5 t6 [. k7 E" `* Z9 i1 d
160
+ [1 n8 F1 B  _! {6 K9 D161% {/ K" h6 |, U3 _  t( |5 T
1625 R8 g( `/ G" O4 G, C
163) f- M% ]: h, A5 Q5 E. i) O  R) }* D
164: J, D. e0 \, ]5 t9 u4 _
165
) c" J$ \) s5 s5 A4 [! Q1667 P& o1 g0 }- ^5 H( K
167& s: m3 L" V. Z( m3 B
168
8 A# J" Y; U7 A% e: _& m9 g  g! V169
: r; C3 m+ Q2 r% R  H1706 A, H  F. q4 o- g; u0 m
171
, I4 v4 n5 h1 S1 _3 C1 ~  D172! U& C' s, t+ b2 p
173
7 y3 [1 S1 K; S( c6 F, a' a8 K+ e174
) T! ]3 J! O+ S175, H4 `9 T& _4 ^) H% F( I
1764 m% ~- g9 g, t0 @* T% N+ A
177
- G' D9 s$ A7 E0 z. z178
/ x" d* E; ?- _1 j. u179
) {2 f6 }/ C/ e) [* J! [9 f3 F180$ V& M! M2 n/ I& I0 X
181
1 o! n7 I& L& s3 |. Z/ ^182
; F+ H. t5 O& y: S: P; s5 E183
! D# x/ q9 ?+ I. o184% m- e$ D: u- a- C' S% m$ \
185
8 x- E* I+ ]- {& p186* J+ k4 r7 B! A: J9 o. R0 R, X; C
187; s0 d5 R8 p1 a3 `  b$ Z8 g
188
+ l# ^3 N( @" @: ?8 W8 x189( K( ?1 V. U0 L. j0 @4 ]3 J
190: c4 D; j& }5 _) q9 I
191& W! M" f$ |5 t/ h
192
' P4 s, q& V5 m193
+ ~5 v/ E" y+ \4 C* m1943 |+ d" J; {1 r5 }
195
2 A3 c4 S1 U; e# y' S196+ }+ t5 }) L4 S/ m
197
, b' E$ J9 {: W198
5 @% G$ x4 y) ]: m: D( ^. A+ q& o1994 Z. d& A& |5 e- v8 m& P
200
  J/ U9 Z6 E6 V: \1 J$ X201
1 F) C; f& M7 a202
% W. r& M8 z$ a% }: H* L203
4 K, ?/ c1 `1 W% }2040 v% F! Z/ U0 q. M1 i1 m) ?: q3 g9 a/ f
205
: g; ~6 U; x  s1 q( X1 B& b206% M! ?2 K& y7 y6 Z8 F
207
9 F# t$ U8 ]' Y& M( j& }2 {208% _& z4 g1 g8 `2 S2 a
209) q# ^$ W0 I" v( R1 t- Z& k
210
- d3 z' C8 `$ A, l( {* j" f211# t6 g: n3 f& N# e0 t: F# s! n
212* n, u, B! y: k. P: W' n
213
5 ^5 L' e: B: c1 q2 `" I2143 r! j% V0 S9 U/ d! x: S
215; k6 v3 \8 C  j( \+ N
216
- v, i. n; n( v/ n: j7 `217
0 r8 d( k4 E' |. z1 s4 ]3 p5 I2 G218) L! U4 V. a9 N& e7 U
219
( P5 d) ]# r. S; Q0 s220: l! Q' e$ o$ V: q& Q
2217 S$ L& Y" \6 S, q
222
) g9 Q0 g& o8 K223
0 L  i/ e& G- x' j, S' L+ Q224
: b. [4 F3 k: Z5 i) s225
7 j' [9 s9 x: f. v; _) J; ]6 |2266 l& p& Y" u1 Q- w: S% y
227/ B0 G; J, t2 X: M7 _
228$ N) @2 J: y9 S
2299 s# {' k1 ]: |3 B
2309 |! _. ~5 a* o
231
. ~- G6 S$ M+ l2322 l4 [9 l3 P( [( u! v# A) M& S: E
233
- m8 Z0 A, O* n* R$ V% h234. ?) z$ z9 i, h  ~( b, k
235$ f+ E* t6 W/ ]$ ]
236
7 V1 q. X$ d5 ^- f- X% P" l5 j237
  H# f8 j  x+ ]( _2383 o* L7 E5 y( X* a
239
8 r  G6 O$ A" P. r240( g( {0 Q( h+ {7 l  v
2417 V  I+ ]2 w5 u4 b/ v3 `4 L; ^
242" }/ H* }: ^- e" U- F* ]
243
, |) T6 n+ G* R7 k' n% ^- {1 k244
* _  [$ f/ @+ c245& a$ t% y/ Z# I" f8 [
2469 @# r  T# \9 U3 @( ^0 p5 v
247
5 V9 Z- E6 ]! H6 }: p% c248  D4 H- p# T5 C. ~8 a- ^4 o. x
249) j4 V/ k2 F' I6 m
250
0 B2 L- {8 h3 A, e  a6 a251
1 @8 p& G- u7 z" D  T2527 K6 t, g- ]2 k* E
253
$ V' {5 [% R0 l254
# k+ J, C& E! v6 a: G% b! ]255, y8 P% }5 K/ f6 \' t) a' M/ m+ l, V
256) F' u* f& Z& @  L1 \
257$ y) X, L. Z, \. I' h" p3 @# ~6 o
258
% R( N0 J  R4 J' \! v7 |259
' t/ v* G! |' J3 _' g0 c% b7 t7 f260
; z# E( [! C6 N8 \. ?261
. C7 p* P! y; I9 u& U262% r0 j4 C/ d" a$ l2 A# v/ i
2630 w$ |. i9 s  C8 |8 K# S
264
8 M  K, V% q5 c& r& o) ?265# b$ C  f8 a. {" R/ {1 d* u" O
266
! q3 h2 V- w( e+ f5 `! k267
( E/ [1 R9 I+ }+ X2 i268
5 ?4 K. R9 V4 G6 w3 L+ Q269& Q8 f, X' I8 e' P! c6 U
270( s/ f) C/ g, u: p7 N
271
2 t1 t& b: e0 i2 v& e# r272' q: G# u  ^( u/ X9 p5 C& t4 }8 c% @
2731 U: J. @* V: U, F# @: g" }6 L
274" ~* p$ B: d5 m0 P! C* e
275
4 L. X7 H- {( s. l6 c4 O276
* D( t: }9 b1 U  |9 p277& ^7 \: {* t/ T: p# ?, |
278
1 M+ u/ j& A! ?+ N8 U3 j279
1 _6 z' [! w( s' y/ b280. w& y) ]: K' `3 Z1 u6 R3 W
2815 s) a6 q2 W2 b0 E2 a7 _
2827 Q1 ~; C- L: ?( M; r
283
5 X1 t" P6 y& d2 G8 k, g! K# j4 @284/ g& y4 a" r/ W! a' A+ _1 F
285
0 ]! h$ G7 d. ?& d4 X' W" e1 \- z286
# \+ u6 e/ ?5 a& P5 ~2 T, d287; V% p& i. G5 F( o+ P7 I
288( d9 K9 w* h) l1 M( r
289: U! q/ k- i8 K1 c- a
290: V3 i3 n5 ?7 s6 @1 o6 f
2911 k3 q  v# L6 R: r! F( T; b0 f& s9 \
292
; ^7 M0 i3 H, \! p0 a$ @293) \! T+ h0 D0 F, Z- U6 @& J
2947 s8 r& n: a" @% p& Y7 t
295( K( v/ B+ W  Z0 Z4 w: O
2968 m; s6 e6 J: s) G9 r9 j
297
' D: D& U% A7 P+ i' ~4 |2982 q9 d2 B5 I* a) f
299
) d9 t0 `1 ?; G9 b3005 W, x' m4 F( |$ a' s9 H
301
! f6 ~" M. ]1 T0 [3021 Y/ Y% f9 ~* c% O
303  T& @. K4 G5 z( @
304
1 `, `2 c/ S6 [% o2 B305
) y- `6 f; `1 V: q( Y5 L306
0 x) I8 N9 G) Y+ t. i8 X307( w$ y/ ?/ e3 Z' B
308
6 e5 U! K+ v  Q, [" l# x. a309) e9 o( f+ Q7 E+ h" k+ e
310. F7 C8 p/ q) y/ _/ [7 t% D- M
3118 V. V! S4 A$ r+ |. h7 K' b" u4 f
312
( j0 @) Q2 r) E7 W3 `313
7 ^3 J: Q7 R+ y" ]3 f- Z5 {/ f0 U314  Q4 |4 F7 g$ n% S- h0 i; q& y
315' L8 a5 a/ s* z. \& d6 X+ e6 q, R
316% L0 h6 B! t! Q- A# ?# D( d
3171 f4 U+ i* _4 I' f
3188 X3 t% i9 `" \. V2 n  n; e
319- R7 n# r7 |# e$ a
320
0 h& ~' ?& x( k; {: g321! [4 ?' Z4 x5 r- N' f6 L
322  A; H+ o7 J5 _1 V; {+ u
323/ r8 R4 C2 j9 n$ z  C5 p, k
324
3 `* z0 j2 `, U3 _! k! N325
5 d, o, x' \0 P2 A  ]326: v0 t7 U4 l$ ^; g; t
327- t2 V. i" c/ w0 l% d6 l5 J5 `
328
, m  h$ e4 }6 |* @329
& M& ?/ T4 q* b9 U- F% N( t330
0 S' m5 Y! D# e, @8 c& E1 Y& D5 u331/ t; {& h- ?# Y* t9 I7 }# _6 {
4 P) |* ?8 m  o) v9 ~# e

, {% H- V: U* E, }4 E, o, U: |, [5 ^  I$ ?* d. t, R. ~5 e% z
0 L6 L: S1 k+ r1 }+ R
& ?1 Y. C( ~; M! W  b
# U8 T2 S- m: r0 q  ^. i
) {9 S8 E# E7 i: ^7 x1 n8 c9 K( b
, m. N* \3 j5 q

" L+ ?3 i. _( M, t5 u. s# y$ l' y
" [5 u& Q2 G" Q' x  }; B; `
) ^" \  m8 h$ r9 q# g, q- _) {2 W& Y* s( K& `) [& ~6 {' x: V- X
————————————————
0 s1 o% s* N  ^9 _版权声明：本文为CSDN博主「biyezuopin」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。2 ?1 a  D- ]3 G
原文链接：https://blog.csdn.net/sheziqiong/article/details/126803242
8 p: E2 \  }3 v+ w! b) i
3 T, Y, t, k# k0 E# W, ?; W. ^" L0 O& z, K