查看: 3123|回复: 0

[其他资源] 基于Python实现的决策树模型

[复制链接]

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2022-9-12 18:10 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

基于Python实现的决策树模型

决策树模型
目录
人工智能第五次实验报告 1
决策树模型 1
一、问题背景 1
1.1 监督学习简介 1
1.2 决策树简介 1
二、程序说明 3
2.1 数据载入 3
2.2 功能函数 3
2.3 决策树模型 4
三、程序测试 5
3.1 数据集说明 5
3.2 决策树生成和测试 6
3.3 学习曲线评估算法精度 7
四、实验总结 8
附录 - 程序代码 8
一、问题背景
1.1监督学习简介
机器学习的形式包括无监督学习，强化学习，监督学习和半监督学习；学习任务有分类、聚类和回归等。
监督学习通过观察“输入—输出”对，学习从输入到输出的映射函数。分类监督学习的训练集为标记数据，本文转载自http://www.biyezuopin.vip/onews.asp?id=16720每一条数据有对应的”标签“，根据标签可以将数据集分为若干个类别。分类监督学习经训练集生成一个学习模型，可以用来预测一条新数据的标签。
常见的监督学习模型有决策树、KNN算法、朴素贝叶斯和随机森林等。
1.2决策树简介
决策树归纳是一类简单的机器学习形式，它表示为一个函数，以属性值向量作为输入，返回一个决策。
决策树的组成
决策树由内节点上的属性值测试、分支上的属性值和叶子节点上的输出值组成。

import numpy as np
from matplotlib import pyplot as plt
from math import log
import pandas as pd
import pydotplus as pdp

"""
19335286 郑有为
人工智能作业 - 实现ID3决策树
"""

nonce = 0  # 用来给节点一个全局ID
color_i = 0
# 绘图时节点可选的颜色, 非叶子节点是蓝色的, 叶子节点根据分类被赋予不同的颜色
color_set = ["#AAFFDD", "#DDAAFF", "#DDFFAA", "#FFAADD", "#FFDDAA"]

# 载入汽车数据, 判断顾客要不要买
class load_car:
# 在表格中,最后一列是分类结果
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/car/car_train.csv')
      labels = df.columns.values
      data_array = np.array(df[1:])
      self.feature_names = labels[0:-1]
      self.target_names = labels[-1]
      self.data = data_array[0:,0:-1]
      self.target = data_array[0:,-1]

# 载入蘑菇数据, 鉴别蘑菇是否有毒
class load_mushroom:
# 在表格中, 第一列是分类结果: e 可食用; p 有毒.
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self):
      df = pd.read_csv('../dataset/mushroom/agaricus-lepiota.data')
      data_array = np.array(df)
      labels = ["edible/poisonous", "cap-shape", "cap-surface", "cap-color", "bruises", "odor", "gill-attachment",
               "gill-spacing", "gill-size", "gill-color", "stalk-shape", "stalk-root", "stalk-surface-above-ring",
               "stalk-surface-below-ring", "stalk-color-above-ring", "stalk-color-below-ring",
               "veil-type", "veil-color", "ring-number", "ring-type", "spore-print-color", "population", "habitat"]
      self.feature_names = labels[1:]
      self.target_names = labels[0]
      self.data = data_array[0:,1:]
      self.target = data_array[0:,0]

# 创建一个临时的子数据集, 在划分测试集和训练集时使用
class new_dataset:
# feature_names: 属性名列表
# target_names: 标签(分类)名
# data: 属性数据矩阵, 每行是一个数据, 每个数据是每个属性的对应值的列表
# target: 目标分类值列表
def __init__(self, f_n, t_n, d, t):
      self.feature_names = f_n
      self.target_names = t_n
      self.data = d
      self.target = t

# 计算熵, 熵的数学公式为: $H(V) = - \sum_{k} P(v_k) \log_2 P(v_k)$
#       其中 P(v_k) 是随机变量 V 具有值 V_k 的概率
# target: 分类结果的列表, return: 信息熵
def get_h(target):
target_count = {}
for i in range(len(target)):
      label = target
7 ]+ W" \& x% b% R; o0 P0 Q       if label not in target_count.keys():
1 [6 B3 f* s6 X3 ~! r9 k          target_count[label] = 1.01 V+ d( j1 e% B, G. g
      else:
4 g, B2 F  o1 a) g          target_count[label] += 1.0* X. p% N$ u( l/ q/ Q  s" K
h = 0.0& P* }3 Y: B( h  e' K& P8 P: [
for k in target_count:
  o' g) u7 I. G& T& ^1 G/ T       p = target_count[k] / len(target)2 M/ B8 [/ F5 T. h4 o( b; E  e
      h -= p * log(p, 2)
/ p* m) _) j( l  x return h
, `1 Y$ E. E/ F4 {) J7 U
: U9 o7 b. `% H# 取数据子集, 选择条件是原数据集中的属性 feature_name 值是否等于 feature_value5 q9 n  T0 q6 m1 s
# 注: 选择后会从数据子集中删去 feature_name 属性对应的一列
9 S9 }& `6 [5 r* h% V  p3 c2 T6 ldef get_subset(dataset, feature_name, feature_value):
& u: R9 K8 W) e) N: N sub_data = []+ h* v) o) E0 a- x
sub_target = []* K+ T7 ~- U2 Q) M! |* x
f_index = -1
) v+ x/ G8 B, }4 c. o2 N for i in range(len(dataset.feature_names)):$ L5 o1 m+ }" M# P9 w1 b  A
      if dataset.feature_names == feature_name:3 f. Q( c+ {! ]
         f_index = i, N+ G4 n7 r' ~6 h7 ~+ Q
         break
" \% X7 F! L, }) V. s3 w& s& \( o" D# F- C
for i in range(len(dataset.data)):
; F, t2 c: }4 S" g1 C       if dataset.data[f_index] == feature_value:! U# H  y% G5 d5 i: V
         l = list(dataset.data[:f_index])9 N8 Z9 T% k( c" p
         l.extend(dataset.data[f_index+1:])$ m) A! S2 ]1 C" @+ p, Z+ H
         sub_data.append(l)3 a8 Q1 H  U- E  R' U4 p4 E& }
         sub_target.append(dataset.target)9 v5 u9 C/ R/ W1 R! y
4 e4 i1 v3 Z+ V( p$ W
sub_feature_names = list(dataset.feature_names[:f_index])
7 x& P0 n' R& \ sub_feature_names.extend(dataset.feature_names[f_index+1:])
2 J: v7 b8 Y5 U7 Z/ Q  |7 P8 A return new_dataset(sub_feature_names, dataset.target_names, sub_data, sub_target)
0 z# m# U* c+ B* Y  i7 x# @' R3 U: i% p
# 寻找并返回信息收益最大的属性划分& D/ J( b7 C0 }4 q) j# y
# 信息收益值划分该数据集前后的熵减5 w. s* V0 _1 g( L& d( v$ q/ z% T8 u
# 计算公式为: Gain(A) = get_h(ori_target) - sum(|sub_target| / |ori_target| * get_h(sub_target))$
1 ^* E9 T) P/ d4 W( ^5 |def best_spilt(dataset):
# ~; U1 l. M2 s0 K) J/ M& K4 M! O7 Q$ K
base_h = get_h(dataset.target); x1 a; |. v3 p! B
best_gain = 0.0# n4 I( y$ B. `, Q) n$ ?" G
best_feature = None" ^3 `8 }1 r, \4 ~
for i in range(len(dataset.feature_names)):
7 o4 e! z, B2 ~       feature_range = []
- D/ m3 \+ N" o  z$ J8 [0 F       for j in range(len(dataset.data)):" P+ b: F$ k) G2 ]
         if dataset.data[j] not in feature_range:
/ D4 @& G8 {9 W* X             feature_range.append(dataset.data[j])
) `6 y& c% F: j) F
: z% I, j. g: B; }9 l       spilt_h = 0.09 i2 ^- p/ h! V' H$ {( H
      for feature_value in feature_range:) Q: ?0 P/ U9 h# ]7 c. L" T
         subset = get_subset(dataset, dataset.feature_names, feature_value)( {9 [( b2 k1 U; K$ y
         spilt_h += len(subset.target) / len(dataset.target) * get_h(subset.target)! a) ~1 F* }( _5 a
! E1 Y5 e. x; M3 O5 V
      if best_gain <= base_h - spilt_h:
0 z1 S0 |7 H' x6 C: O          best_gain = base_h - spilt_h/ ?) H! R8 ]& d: N# j3 z
         best_feature = dataset.feature_names
1 R1 z, h1 l6 C0 Y& T
- B4 Y0 w" H0 l" J. J return best_feature7 f2 m% R- e+ l3 @
" {  c- ], d+ Z$ {  l5 ~* H4 ^
# 返回数据集中一个数据最可能的标签9 c& a7 a; X" W7 c' ?; K
def vote_most(dataset):! @5 R! `0 g& P' y+ c. |
target_range = {}
, f% x2 U, j$ y$ N best_target = None; d* }9 m2 J" K3 m
best_vote = 0& F# F/ T% c1 I3 {" a! r
$ H% j& ?. Z9 K: x
for t in dataset.target:3 B, v# i8 ~" T0 F; D
      if t not in target_range.keys():
* s' b. L; l4 ?. W4 S& n$ c* R          target_range[t] = 17 ?9 C1 v9 q0 l8 ]* H0 c
      else:- x  R2 `8 x5 z& m3 {
         target_range[t] += 1
2 g8 N; N! u- I1 @  j" }. f7 z' E
for t in target_range.keys():0 Q( e3 C" b+ ~/ a* R# N4 D
      if target_range[t] > best_vote:7 W2 T6 q9 t% Y
         best_vote = target_range[t]
1 K  R5 T. D7 o6 I2 m2 F/ F) ~          best_target = t
# G" T; n; y& n, B; U6 M+ {1 e) ?/ n. P7 M2 ^
return best_target: ~: `6 O, \' y+ A/ s$ |
0 X7 w' K( B, i2 S$ ]# L0 N( F' a
# 返回测试的正确率
6 R/ ~" C2 Y$ S+ D: s# predict_result: 预测标签列表, target_result: 实际标签列表7 e$ N) x) n& [" {. s, |
def accuracy_rate(predict_result, target_result):
- P/ l2 W6 L+ _% j) ?# q # print("Predict Result: ", predict_result)
  J% G9 z' E: [7 u # print("Target Result:  ", target_result)
1 K2 G" \2 q: _2 Y% m$ J+ i accuracy_score = 0. S8 T; ]+ O& F
for i in range(len(predict_result)):
! S4 S8 ?# K) F) |       if predict_result == target_result:
/ Y; a$ j; F# _5 p          accuracy_score += 1
% a1 M3 V: S( ^7 z6 [6 x$ t return accuracy_score / len(predict_result)
; k% P) Z; f, M9 b
7 I$ W) l7 B; ~& A) @( ]$ u; ^# 决策树的节点结构, m+ d/ c& i* Q, c
class dt_node:
3 X% l& i. |' I3 D5 `5 o2 {/ M% t% B1 x, Q/ Z/ o( m$ d1 u
def __init__(self, content, is_leaf=False, parent=None):
* @0 R# {! Q  r' W( e3 {5 r       global nonce4 D4 I6 a+ O) \/ _) `4 f: K
      self.id = nonce # 为节点赋予一个全局ID, 目的是方便画图$ G# m" a( ?9 }) k0 ]8 X# T
      nonce += 1
6 _8 c& v+ f+ b0 `$ k1 W       self.feature_name = None
7 j0 n" j5 Y% `' i' S0 ~       self.target_value = None( f; o' q  p* j) A( H5 @  ^
      self.vote_most = None # 记录当前节点最可能的标签  U) C! F2 z6 E- B' {2 I+ Y
      if not is_leaf:% R* V* i5 r. C* K: h
         self.feature_name = content # 非叶子节点的属性名
9 R4 z& n5 t) d0 a% Q       else:
$ s, v; Z& u& @! ?0 ~% a          self.target_value = content # 叶子节点的标签
0 s% a! w; f! X9 I* A9 d' N! B! _2 R
, N2 ^( S& J* F* w0 c       self.parent = parent. F: B$ y9 ?- ~# c
      self.child = {} # 以当前节点的属性对应的属性值作为键值: B! v' q) G! ?# r
4 I  K/ T1 e2 T! Y' [% p) J
# 决策树模型
& i( c  m' ^; z% Zclass dt_tree:
7 O0 C$ n) D  m, ~1 U+ m% _" u8 F; A% R
def __init__(self):: w  ?# M. k* i
      self.tree = None # 决策树的根节点0 J/ L; u: L8 g, j) @7 A
      self.map_str = """2 e! c7 {- I% g& Y2 g0 N
         digraph demo{
  v, B: R! X  v+ \( S& T8 X          node [shape=box, style="rounded", color="black", fontname="Microsoft YaHei"];5 A- O: T* z5 G
         edge [fontname="Microsoft YaHei"];# R" U5 R. Z8 R. v. S0 _& ^
         """ # 用于作图: pydotplus 格式的树图生成代码结构& I; i9 n1 W2 Q# k- ]
      self.color_dir = {} # 用于作图: 叶子节点可选颜色, 以标签值为键值$ g5 `* R1 f) u% a* d

3 H8 T( {% a; a9 y# d # 训练模型, train_set: 训练集
4 _: f7 x8 |3 j$ ]5 V def fit(self, train_set):
" Q" A6 D. N( y! K2 g0 T6 |# E9 p# F5 I. y8 G
      if len(train_set.target) <= 0:  # 如果测试集数据为空, 则返回空节点, 结束递归# {" ~* M/ ], U9 Y% a; K
         return None
9 [; v, c" \$ |* h+ `: M  u
; `5 U# u3 t( z* b$ `, \       target_all_same = True0 h, s! P% k5 M, g* `3 i
      for i in train_set.target:
6 q9 x+ j9 D( f" `          if i != train_set.target[0]:
/ x) r$ `$ |( N  ]             target_all_same = False( D& V( n2 B+ G+ C
            break
; a6 \, l2 w9 R' J3 C/ |0 J
4 L2 p( x  @: N( }$ U  s9 K* P       if target_all_same:  # 如果测试集数据中所有数据的标签相同, 则构造叶子节点, 结束递归$ z- Y9 V0 f4 ]9 l3 G" i" l& z
         node = dt_node(train_set.target[0], is_leaf=True)
5 \# n$ V) q, x1 \2 G; q( b9 E3 D          if self.tree == None:  # 如果根节点为空,则让该节点成为根节点" n4 y: ]5 Q- V8 n- _5 {
            self.tree = node- g2 b' U3 ?. p' O7 a( ]; J- F" H

5 G. E1 I. P5 N% C) y5 _, g          # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点
/ G/ @5 S/ E5 T4 E( V          node_content = "标签：" + str(node.target_value)) B; H  v+ F' y2 x4 f8 E; N$ w
         self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"
! n' E/ o/ W* q0 E% E+ ]
# I2 p2 A7 E9 M1 {3 J- A7 _          return node
9 e+ o: Q2 E4 `       elif len(train_set.feature_names) == 0:  # 如果测试集待考虑属性为空, 则构造叶子节点, 结束递归
# D7 J5 `4 p. E1 L& t: M          node = dt_node(vote_most(train_set), is_leaf=True)  # 这里让叶子结点的标签为概率上最可能的标签
5 d3 U+ ]2 v; f          if self.tree == None:  # 如果根节点为空,则让该节点成为根节点( b5 _2 l- }& l9 m5 B) X. W) S
            self.color_dir[vote_most(train_set)] = color_set[0]
3 E# y9 B( z' J$ M) x: m             self.tree = node9 Z" c& p9 v) u- @0 u$ `) e
6 G! Q: n4 k$ h7 H: D
         # 用于作图, 更新 map_str 内容, 为树图增加一个内容为标签值的叶子节点
+ n% Y+ K1 U4 Q" A0 i& T; J          node_content = "标签：" + str(node.target_value)
. f1 _4 e) c" g0 P          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"" + self.color_dir[node.target_value] + "\", style=filled]\n"
5 T, j# ~! F* o8 n/ ~
6 G' q7 J9 a9 H$ f3 Q8 y* K          return node
# H: z$ X5 ~. P       else: # 普通情况, 构建一个内容为属性的非叶子节点
" [5 L9 n9 z& K, A; g          best_feature = best_spilt(train_set) # 寻找最优划分属性, 作为该结点的值
- ~; e0 v' ]7 [          best_feature_index = -1) j1 r' i& N1 E. Y
         for i in range(len(train_set.feature_names)):+ _6 x9 Q0 k- h9 e7 M
            if train_set.feature_names == best_feature:
" q7 }: U9 {1 i! I  j                   best_feature_index = i
0 P; |3 J- b3 Y                   break
9 z& E# [' j9 q' _7 m5 O9 p$ q  e; U* N" H- a3 j
         node = dt_node(best_feature)+ q3 c2 B, D4 @0 q5 G) o
         node.vote_most = vote_most(train_set)
! S7 `- d* v0 K+ j          if self.tree == None: # 如果根节点为空,则让该节点成为根节点
- a& r/ q2 r+ A) g4 S0 W             self.tree = node$ c% D+ `7 D" I$ i4 I8 I$ }
            # 用于作图, 初始化叶子节点可选颜色3 A5 O3 B) T0 n/ J2 I2 h3 u
            for i in range(len(train_set.target)):
+ k# ]1 W' `9 g3 N  x5 _, R/ D                   if train_set.target not in self.color_dir:' j) A: _% {, H( e9 W0 V( |$ x
                     global color_i0 A" l/ r) w- ?- d) a% g" p
                     self.color_dir[train_set.target] = color_set[color_i]/ c) ?* a2 S* L3 H- U2 ^) k$ C8 }
                     color_i += 1% \5 R  T; j( h7 m* @- P# z( v
                     color_i %= len(color_set)5 E7 u& A$ r, B1 j

% L; i  Q1 H( n7 s6 q. u+ m8 B2 ?          feature_range = [] # 获取该属性出现在数据集中的可选属性值9 {" {8 {! ~! ?
         for t in train_set.data:
# S* @: ~; e( M: g4 o4 ~0 k             if t[best_feature_index] not in feature_range:
! w- T) s* v  f  O                   feature_range.append(t[best_feature_index])
. S6 c# y  A& V3 T5 E0 G! K+ l
; \6 h. g4 K" l' F  E# G          # 用于做图, 创建一个内容为属性的非叶子节点
4 w. p2 i8 A- G) }1 P" R  x          node_content = "属性：" + node.feature_name
+ G7 m; U4 N% q0 A+ c          self.map_str += "id" + str(node.id) + "[label=\"" + node_content + "\", fillcolor=\"#AADDFF\", style=filled]\n"
3 j2 |9 k8 I1 w) _: w
0 h) t5 S/ e3 b9 W# h& H          for feature_value in feature_range:
5 N; M6 v3 i; i: U             subset = get_subset(train_set, best_feature, feature_value)  # 获取每一个子集7 v. D4 ]' v, u* w- k/ c3 R, r. c
            node.child[feature_value] = self.fit(subset)  # 递归调用 fit 函数生成子节点
/ N: t# S4 T& l8 x             if node.child[feature_value] == None:
) k' q  ~) ]2 d5 q& j" b                   # 如果创建的子节点为空, 则创建一个叶子节点作为其子节点, 其中标签值为概率上最可能的标签( a! u: F: c* K( r5 P
                  node.child[feature_value] = dt_node(vote_most(train_set), is_leaf=True)
9 a- `" s7 d3 D0 F" W% Y& ?             node.child[feature_value].parent = node
$ p+ ~! S' v: J0 c3 u) E3 E, {9 |- [( c
            # 用于做图, 创建当前节点到所有子节点的连线1 f/ i$ g4 V! @$ y1 |9 x' t7 T
            self.map_str += "id" + str(node.id) + " -> " + "id" + str(node.child[feature_value].id) + "[label=\"" + str(feature_value) + "\"]\n"% W% |& n7 R$ K4 G
% i5 s2 h% ?" N3 v
         # print("Rest Festure: ", train_set.feature_names)
! h$ _% V& I7 |& A1 r% s          # print("Best Feature: ", best_feature_index, best_feature, "Feature Range: ", feature_range)
3 B# M: v( l: }2 _8 I  {# E- B8 w          # for feature_value in feature_range:- [4 p6 a+ c* f9 q6 ]" }; N1 i
         #    print("Child[", feature_value, "]: ", node.child[feature_value].feature_name, node.child[feature_value].target_value)
; S9 B1 N  G' i0 C6 [5 }* @! M          return node  A1 J& s% R1 a& F  F% N
9 j: `" ~, S5 p' Q
# 测试模型, 对测试集 test_set 进行预测: N. H% H9 o% N' n
def predict(self, test_set):5 \' ~, y3 k* W/ }7 ]$ u
      test_result = []( ~& G! d& X8 h1 G0 }* @  R
      for test in test_set.data:7 G- v, V7 }  h" z3 D# S- c( H
         node = self.tree # 从根节点一只往下找, 知道到达叶子节点
7 T5 t8 c/ p1 {# U, e- V          while node.target_value == None:
' P" ~) G8 h1 T. D; P# C             feature_name_index = -1
3 s1 ^; r; ]  R! [7 a2 o2 I( x, d6 l             for i in range(len(test_set.feature_names)):
4 l; v3 p* H& U; V" g8 c; G                   if test_set.feature_names == node.feature_name:
+ Q2 M6 T, o# ^) S                      feature_name_index = i
, ~0 f! D. q& z  m, r                      break" G$ N( A' f8 q- e1 U
            if test[feature_name_index] not in node.child.keys():
- ^* h% j1 K+ \6 _0 h                   break& T* c7 l2 @$ d4 x
            else:& F' p% i9 K+ t4 s  a0 a6 |
                  node = node.child[test[feature_name_index]]
& W$ Q) X) \1 N3 {& V3 g1 S6 q- V) g
         if node.target_value == None:
) x4 w" H1 [$ l7 R2 `1 n6 ^             test_result.append(node.vote_most)1 O6 F/ q" k8 o2 E% m" J% U0 O
         else: # 如果没有到达叶子节点, 则取最后到达节点概率上最可能的标签为目标值
, T: \+ |! `; p             test_result.append(node.target_value)  |) h8 C8 P4 C  d" F7 J, p+ Y

4 C' ?% i% K+ E- Z; p7 q       return test_result
! C8 x* n( i/ `/ E
9 _5 B+ j0 ]$ ~3 D0 I # 输出树, 生成图片, path: 图片的位置
' p: ~6 G* D' ~' L! g7 o+ Y0 N def show_tree(self, path="demo.png"):( ~' {9 S& S; W3 z6 M
      map = self.map_str + "}"
3 q/ H  p  x% l& I2 K0 r       print(map)2 ]# t+ U/ N) g- a
      graph = pdp.graph_from_dot_data(map)
      graph.write_png(path)& ?! q" d7 r" ]2 S

& r8 m5 x7 ~( v$ N( I) A9 @# 学习曲线评估算法精度 dataset: 数据练集, label: 纵轴的标签, interval: 测试规模递增的间隔
  \4 a6 J- Q  M/ ]/ P0 A+ v& Zdef incremental_train_scale_test(dataset, label, interval=1):0 }/ M* @$ s& g3 e
c = dataset
! ~! e8 L# ]6 l" }; | r = range(5, len(c.data) - 1, interval): D, l) M, T/ W* r4 K) q4 }
rates = []
3 d% Z* w4 D8 i( @% m0 v for train_num in r:
  ~- `% l$ p0 E7 y8 \       print(train_num)$ I2 b% {' Q: x6 k6 O3 W
      train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])$ v8 G: y7 J+ o/ ~
      test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])
5 V4 U) v1 Y  P" j$ l+ P) M       dt = dt_tree()
& l* C1 ~* G+ q/ v       dt.fit(train_set)# d& g, w- b2 F& O1 g! V# q8 v
      rates.append(accuracy_rate(dt.predict(test_set), list(test_set.target)))
# p6 t( E$ \: |: Z( o2 t
# y) E+ P5 A/ w& Q2 y/ f print(rates)
0 K% t& f' e* w7 V+ X plt.plot(r, rates)6 v) s. y# t. X! P' q
plt.ylabel(label)- Y4 c; W4 n1 q* q0 Y3 o
plt.show()
7 t3 }  M3 _# `* X& y
& ]+ k: `2 ^2 E( V3 [if __name__ == '__main__':
+ B/ ?  `, [2 j' z/ z2 m
4 V9 h' s% Y/ A. u+ k c = load_car()  # 载入汽车数据集
$ a' ~4 Y# o# V7 F! ^0 F # c = load_mushroom()  # 载入蘑菇数据集
& N8 a; Z, [+ x* s5 O2 M train_num = 1000 # 训练集规模(剩下的数据就放到测试集)% r" i9 a& Z. q
train_set = new_dataset(c.feature_names, c.target_names, c.data[:train_num], c.target[:train_num])2 `  Z, i$ O: K0 n1 N/ @, V. f
test_set = new_dataset(c.feature_names, c.target_names, c.data[train_num:], c.target[train_num:])5 H" _: G) |5 N% G. f7 {
( t0 K) m' e6 e- Y2 E. [
dt = dt_tree()  # 初始化决策树模型
; E8 S8 C  Y1 t$ q$ o dt.fit(train_set)  # 训练9 p- |7 h( ]; a  t" |+ I2 [
dt.show_tree("../image/demo.png") # 输出决策树图片3 [) V& N' x6 ?3 ^: ^9 G
print(accuracy_rate(dt.predict(test_set), list(test_set.target))) # 进行测试, 并计算准确率吧
! M% e$ M* o9 b0 X7 `# T8 H+ B" X2 z" l8 e  Q
# incremental_train_scale_test(load_car(), "car"); D- Z9 J) J* ~; o/ j" g1 C
# incremental_train_scale_test(load_mushroom(), "mushroom", interval=20): a% ^, c  d) |1 |$ ]$ Y# L7 V

# \4 K' k4 q. H5 S5 T: q0 Y/ w7 d7 b( m
' s- N9 Z8 \2 Y4 a  E, t( X
1
5 Y6 ~9 X# A/ o# L$ U! t: s22 W  X, k& h6 p/ T. b& C  [
3
0 h6 L! S) U/ _. i: |4
8 N8 T: q. t! w$ @# f53 L' j$ w, _- e
6
) z/ d. I9 S; q- ?7& a# O. O" f& l% ^' ^' g
85 b: X3 b0 ?. B
9
# X3 `" r7 B- U7 d7 b10. Q4 K) X' T  U
11" T, z# r( K# F) T5 ~. Z- ?+ V+ P$ i
12) B% T2 \7 K, P& Q7 |  D
13
( E5 m1 [7 w# ]$ P% w; R2 c1 x) C, F2 _14" b3 H* {1 O) _. E) y7 C  [) O/ Z
15
0 S- H: o( P9 U/ f: f+ n16
8 z8 \) c0 f4 e3 X17# b" g( @/ ~8 E' o% S, Q# I8 j4 N
189 Y. t/ ]3 M9 {$ W
19# U9 @; `) b8 o' P% e
20- g6 n2 s4 ~+ M9 a) z7 }) x' Y) V
21
1 ?' [5 G$ n* P( [5 ^22
) `  i  S1 l$ B0 X5 E! T+ e- t23. ^5 B0 c) d! H4 x' c( r$ ]' c  _
24
8 K" _6 n: T; t+ M8 Z& r( H3 @25
- g+ V- d& H/ ?; B26
9 N8 ^" D/ S/ X% ~$ M% l9 y27
- d2 p+ M% m. U; h4 A: E- o% {28
5 H( G1 X. E5 L) {: j# w29
; r  B1 I- z7 i9 k) F3 V+ [. Z30$ Z) f4 ~6 l* y4 f* T; a
317 _7 @2 X, W9 f, \  I2 `* m( `& o
32
3 T0 w5 l  [. `2 y( f33
3 S9 i) x. [/ a& v% [1 G34
1 a& H9 u2 O2 h7 A# i, \+ P& ?356 V0 h& \/ H  g) m2 @9 D  s! Q% v# |
36
" \; y0 m6 j! k3 X) x7 v373 ~# B  ?$ X. }# k. G6 {
385 x+ r% w1 Y5 O) {( d# Y
39
1 A( ?. i5 x5 Y7 v5 k6 t406 i3 X" Y5 \9 _: ~( ]
41$ `! _0 D, w5 o
42; T$ K& t; X, p; w2 u& s
43
: S1 H. P  r% `% i2 Z44
/ a, j  P3 {% X$ l7 O6 F45& f: L" H; ~( j, A: ?! O) _
46
0 ]: H/ L. B9 V/ |5 s- _47
' T8 S4 W2 |8 k8 X, ^3 D48
4 v* d. G. F1 I# n( j+ m490 V/ \1 J/ o# K2 Q, D5 B1 w
50
# J9 L) v8 ^" l  b9 M5 ~/ M$ M51
; V' f4 x2 J% M" u52$ g0 h, x. T% ~( ^3 m
53
; G( U$ N- p! D; X- k54
& r5 O8 e" v! ?& S, l55+ G$ a' }% p  |7 |, E# K
56
6 [' l3 T# _) Q) Q: F- W) F& r57
0 Y; ^' `7 B2 A; Z; n58
/ \% k" q* S  _, |3 V59
3 J( d  \- z+ U3 j* b60" f0 G3 b9 j1 C2 G. ]! \% z
61
5 A6 r5 s% C, r+ @62
+ |! Q+ e; g" @( t! S& I+ Y! _63
: N( U6 R9 g$ o0 I64
, @7 f) v" h8 \  `8 n" ^65
) S6 C# p: `, k' p5 Y. p6 @66- F" B7 ~  s# g; a0 Z3 i1 ~
67
6 s( r! G8 f7 u* Y68) t$ t* J8 \4 W- D% n+ j3 Q
69
( T! D/ V/ n  c8 g& n- {1 K8 f704 P6 H7 @+ x8 W8 S
71
/ I) j: t4 q1 s* l- f729 h8 D1 M( d' @& B' A; u
73  j1 Z' h. {5 D6 L; K8 ~; l- C
74* s* r+ r! N' m+ N" B
75
) v1 S5 }6 z+ ]4 m$ m76
3 W1 j6 d2 _. j: N( ?& n$ K77- B; J& ~7 U: J4 z& ]( X+ [) B; p0 b
78. y& L5 }. p) ]7 Y$ g; b; E
79% S# N" ]. |, D+ [8 b
80
6 |$ v) w( u2 l4 M0 t81: C( n$ z4 S" F6 W. I: n
82( Z- l2 |; T! W
83
8 X5 M/ H0 d+ K% O, }" H7 G0 R$ x( |840 C9 J( n9 ]( x
85
1 p' x; X8 b3 o: m86
, D- Y+ ]% v2 l# q- Q6 }879 F# A% i7 j& E7 M& Q$ K' C6 k
88# B! I/ o# S0 N. ?" j; o% Y' a0 n% M
89
. \/ t: W, ]5 G' ?1 V9 V/ ^- n7 C90
+ J  {3 m8 {+ J5 B. w914 C! Y% E; G1 s" }
92
8 \9 Y0 c- W0 D; u  n4 t93
! T" ^0 U$ h9 O, _* K% v2 N  Q943 J6 ~/ A& E1 s( S  D
95
( u$ j  ~" ?* w6 {7 k96
  y( X8 t& V* X# ^% j: i. W97
7 @5 ~% x0 G) V/ b- ~! E4 I9 x98" X0 f6 A$ _3 |" I+ F) h, C- @- A
99
$ R' l3 D0 @6 `# U4 ~7 ?, S& J* b8 O100
1 F% u7 T" n4 d/ K0 ]$ g1 d101! P- H* ^2 F# `- O) \) @7 p6 H
102
- X6 X* k( E- d# T9 |# k103
( D2 o1 n& F2 w104
% J0 s/ e/ \9 T! J4 l# \105
" L7 e! e. W$ W/ Q) [106! z" e% h( f: l+ q+ U+ ?9 Q9 s
107
) M, X" v" t9 c( j' t108) h$ l' J1 J+ d( _; S. V9 F9 Z
109
+ [6 C% D: E8 }4 ?7 ^& J# v110
3 B! S1 i; W; n111& a& r! n8 w) v5 P4 }' C  @
112
3 @& o- S. J, F. R: C# s- @( k" M" e113- z1 s" ?" Y# `
114
! F/ q- @! b6 S6 m* t" H5 w115& Z0 R4 ]* S) B7 \% t3 E
116
; J" J& G# L& \7 E) E% Q8 }117
( c" U  i2 [& s# O7 O' B) Q/ l/ J1185 C$ t- j" C  D& L/ ^) k. a) T
119
; V) M# w2 A% y. I# A120
) v: F1 b( Z. u; w, D121
- B9 P7 |" n. K% q3 a7 ^122
/ ~: r) g! V! M1 `4 Z& X9 x* [' s123) S. m3 N, a0 V7 [/ }" m
124
: j# g$ V( L- X% I1 C125
: D/ y" a  E( l  A" s- X( W126
6 @; D( G) {0 i3 B/ L1273 S0 P3 m2 l% c4 Q9 N: _& }+ k6 F3 V; a
128- n: o/ v9 c6 z$ g2 t) I$ y- D
129
0 ^$ G$ S% R, M* ^  N& O2 b3 L% H1303 s% G8 x, N- ~: I, p5 @2 ?$ x8 Z
1311 n9 {. t* o8 r8 q
132
% \) k. P) {0 \6 ^1338 S2 t8 K) D3 H3 i8 C
134* O  P% }8 N0 W: g( U2 r( H
135, f7 u- X, E, B) }, F/ m' n/ W! `6 \+ `
1366 @% ~. D& z, e/ _) Z
137
5 l$ U' K& b9 [7 R6 ]( Y/ k1383 ~4 c0 p2 U/ b" ]8 ?4 V8 ]
139
+ Q& U/ I1 C4 c2 ]140) r& B; w; r. j. Y. C& k2 y
141
5 N0 }+ f) D) _. K142: D& _; b* Y* o4 _& e
143
* k$ X4 s4 E- R4 Q: c  h% I1 a144
7 }1 ~4 S/ z% F* J1452 N! _' }3 e+ ^  }- }
1460 F* @# {2 G! B  b. u1 P" e
147
; q& o0 j+ W- P+ T. r% b; u148' Z9 i4 K( I, _, K  w2 f
149
4 @2 m" j6 j+ S' P  T3 p150
/ ~6 t1 Z- n% O' n  _# }3 _3 p151( R, G1 {+ Y5 o% M% d
152: Q2 W( Q" k# s4 I# k2 r" c
153
: f, h" d: i/ s9 N/ n154
* w0 |& n! k$ m! g' }155
( B6 S$ s# r( V, k156
$ h! l7 h6 j7 j* P157
7 d4 S- m- B3 a+ q& W: g2 \  g1583 \; q; x' _" g3 S5 N) V$ m( P
1593 q0 F3 ?, N2 p# h( Z$ u
160
& C# a. \5 c) Y5 g# o- ^+ `1611 g% a6 ]" _7 N7 z6 K# ]0 C3 w- H
162
! p, c0 J( {9 L; l+ E  B# b1632 ?, F/ S8 q6 e/ [7 V4 I4 e* Z
164
  u0 X/ }! H9 w5 Y) @% v* `" T7 y165
3 C# u9 o8 H; V1660 M  O) R$ P( l1 P, I1 V! z
167
6 I6 `2 T! ?- d& _168  @) V/ r# N0 m: U
1694 n4 |2 _1 K% [1 C% F% |( e
170
/ C% w2 I  h" G6 ]- I' |. x171* X* S  n9 z& x  e7 l$ C7 R/ |
172% N) {7 ~8 a1 m( Z  C
173- a, C# }+ [% U+ y6 @6 t$ ?  l
1748 k- P* P0 s: z0 `/ q' r
175* u1 D  {* B/ e( o6 f/ F! g
176" ^  n7 T, k; ]6 o9 U9 v
177
8 I8 W" ]$ [8 ]  E4 s178
3 e6 J+ _1 n. W9 w! ~6 o1 i. m6 N1793 g) Q7 L" s  `- A/ ~
180
4 T2 z0 L( F* M, L2 n" N+ D181+ l7 Q2 [. D+ @3 x6 ~+ c
182
4 p0 @( S  M, R183
) S: c! b% L% x' U184
2 B# [$ _. R% Z4 F' d185
) U  E3 t/ k! [& ^; U6 h186
. x6 d5 @' y& a- N" ]. [8 U187; y% z6 Z* ^) e/ J5 l9 s$ P( `. p
188
* _- E% ^  @6 {9 ]6 q* D+ H189
/ a% \2 \! g+ n, T* w0 m  ?1905 U9 {; D2 V8 {4 s1 q: d9 o
191
' A9 O3 @) P" e- h8 T! D192
6 I$ V2 S* }3 x9 Z, o1 C' T% D8 c193+ y8 `$ e) ^$ H4 L+ j. s9 X
1948 Y% ~1 X+ c# _6 V. F1 N' Y: {
195
% U9 N* s' c1 ]8 r, R' e4 q196
* J% X7 ^+ G0 S" {9 a0 r8 l9 A1973 [" L! E# E7 z, J/ }& ]
1983 K8 ]7 \# W9 G  T
199
1 N* v4 a! c! d8 K4 W4 u; g+ E200
. J; w. p3 Q- r+ k) t; U! C201+ O! j) |4 [& j9 ^# t" X
202
8 K7 a$ b. ?; W* i, i2031 b$ U7 ]; O! o3 Q' u% [+ t) o
204" G6 ^% K$ M" G& p# n
205
7 Q3 E$ T0 e& G$ `* N2060 ^% e+ `7 M: F  S" g' F/ \
207
1 Y- u2 x" F  {( F0 A) ?2081 ?& `) h! [+ j' L0 R4 s- l; F) }' K
2096 i. v& I! T) p$ Q- E
210
% j6 S) C8 p6 ?5 a" T, b2112 R1 o2 ]$ ]) T
212) ?9 N( d6 I  K2 D$ ]' g
213
2 y) B2 d* P% G, A0 X. [3 i6 r3 Z214
6 a8 L6 R5 b* J5 u( Z2 v215
, S9 g' S- v8 _, F8 O, J$ o" B216, ?! C( @( K; [/ F! M; \
217
" ^9 ~+ y! a+ X0 ?2185 ]. X3 A( F+ }7 k3 F
219
' q3 M( N# C& B8 ]+ F! H0 a( R( x2200 x. u: K" u3 s0 l% @& X% r/ o
221
, \' j" q& [  R" U. U6 G6 x5 R, s222  h9 X+ t/ g1 B: n, z* Q
223
! r7 z# t0 @5 B) e; `5 \( }224
' t- O; X: [% r6 [; v3 b  }! J225" T5 a7 R, G/ E3 w7 v7 o- h4 S
226
% u2 R9 i# A8 h/ E0 E227
5 @+ h( M1 ]( _6 l3 G% Z3 Y# T228
+ _: {  O. h+ H229
; t9 u4 G5 r! b- `+ r; o- L/ o230
4 P2 O- \7 ]6 z8 W. _0 t7 P231; [! m3 _, j3 c" x7 {- ~
232: q# v, D. \$ k" B) A3 X5 j6 B  I
233* o: S# n8 L8 N) Y
234
2 L, k# M- |3 m6 l( _235
+ Q3 z+ S/ ]8 i/ c  ~236
; v; X! p0 N" v) ^; N% m5 Y4 K237
0 s9 t2 P& t  X& n238. q) A* l; O1 U
239( J" Q& k: z9 G0 ?' Y4 A! R; }
240- J$ e( @0 O9 t; l7 l
241
) u! P8 p' I& N6 S8 Y242
' |) f4 D( G$ P3 F" c' J243
/ @% F  U; w3 u8 G+ \7 `244+ ~0 }7 g1 q. m. t: ?9 @4 A
245
; Q1 x; J7 r4 a246
" j, q, V) C2 x) z' [6 s2477 m& |- a8 |" X/ s0 E8 M
248
( w6 B' J/ X2 ^! ]' m9 D$ e9 y249
  n% q" b; `$ z+ l2 G) H250
! v5 N" Z% e+ X251+ _* v/ Z7 h) A
252$ S9 }8 k8 j4 k! v
253
- [: f0 i/ P0 k$ V7 C6 x254# f# d9 K4 t! |- G. M' G5 V
255( Q5 z: q' C# u* l  [( z# K/ h
2564 _  x6 M6 d# g) d+ w: c; E5 u$ S
257" }1 o* g. F; Y& b, W! g5 Y
258
3 P+ I3 r. \" Q" p259* b, Y- k9 W  M, w. D
260
, Q. i' z; N4 R, N261, M8 x) ~) ]% L+ f+ I% R; a
2627 g0 @/ O# i' P( k5 u: F' V& |
2634 B. y# I# O! H4 u! @
264  o# F  p0 M* }. h2 r
265# w4 g+ ^) a+ P# D
266( J* `, A; g9 n9 t
267, g0 D0 a! z' Y1 j9 U8 @
268: }& q% \1 ]3 X+ M1 j
269
! p$ |% d' ~' x1 D6 U* m$ ?270
7 E% w8 X$ e# O' N# W! j, f5 b2 g2719 {! D$ S: M! Y. p
272
/ ]! e; i3 R: ~2730 a" z- D4 ?. V; X$ B1 C2 k
274
- E( W1 C  i! y+ W8 X* M) q. [275
7 Y' J. o, M( o" B3 ?9 K276) |: f; e) F; H3 g' @0 L8 k
277
8 \8 r) n+ D0 c: ~+ P+ j' P278
/ k: l+ d4 L. x! X' D; d( L: y' e279
- _* q% k" K3 G2803 J2 a6 k* [! Y8 q8 ]" x; ^
2818 r' `. j& c) V3 [" A3 q# y( ~, v
2824 F# w' M* C+ z
283
6 m7 A* F/ ]" ?284
9 Y* \/ f3 L. C9 r* U285
+ T' |6 _8 h( y( a2 p286
' B! Y( _0 R' t. \( Q% P2 o2 f2874 }5 H7 n, J1 w& U# |
288$ J( g0 a# @! y+ V, f9 Z' g
289
' z  T+ j8 p) u1 H# x9 ~290
2 N; I, ?& b, v* G3 E291
. }  a7 r$ ^: Z2 @7 i- o292. s+ y1 p2 K1 m
293
' `. u+ q; F9 g# x294: \3 x. T- L5 {+ D# n3 y# N- v' g
295
" D1 R' w; x9 V& z5 T9 Q$ ^296
& ?- Y; y& k$ [0 `, e1 o297. u! n  [* D- v6 }
298* p& |% i1 P2 g! D# `" ~$ e# X
2990 j0 s/ k8 U/ ^5 M% F" E4 q6 r
300) f# c1 V' w8 |) B- B8 C5 q9 r
301
4 p2 x6 L3 Y  N302# J$ T+ X" O3 f7 K; h
303
1 k. [& ]' H& G& P! k' M  C: \304
. K4 J4 S) p, K9 N* c9 {9 J3 D0 L% t305& m8 o$ [5 m- |# h- I0 T" T4 e
306! t0 e- o- |- C" e. m" v  p; H% p
307. l9 B; N1 D. s
308
6 q/ U2 P0 O' Y2 S$ y$ m  B3093 f2 u  ?) w9 W" G& _9 F
310. M4 r, I9 V; c" s( o) V$ S- M
311
7 h+ b1 U. d, r312: Y! l$ c6 F+ I$ K
3137 _$ y6 a; a9 r  R0 j) ?" G
314! M$ V! ?4 P  Z
315
7 I" c, M7 g4 s( ?# Q' M% y8 J316: ]( L. {0 H$ s9 g
3173 p' o3 C$ D3 k, ?
318( T$ V2 I& y# v/ ?
319' N, w1 O4 I4 u6 u$ C0 u
320
2 L' R" Z' J& G" z  [& X6 @3219 m0 @" w/ V1 Y# @* L+ f
322+ q: u9 [* b' V, t) v1 O1 d
3233 t0 n0 H9 W' Y" n, w5 n6 [
324$ j: y- p9 o# L! f& c
325
  F( ?4 ^- Y. T& a# G. k1 Q* V326" Q4 R( l! k0 v0 V' \1 V
327
3 F/ `# ^4 B! n% H328
9 b  J. R) I2 A329/ _2 k. P: \( g7 y3 B- `% r5 K
330* H1 @/ E! t4 {) C3 B
331
$ f* v/ i( ]) K, u7 T: g+ t
; g5 W8 Q( d! v8 O% @9 f4 z- Y. ?7 v: |
, S0 P+ n% m7 Z6 P; D
/ m, `, D9 Z* Y: h. e0 W

# S- M( Z2 W! ]5 \1 J% |' O# d1 l1 ~) c- e: l1 q

1 u0 e3 \9 d, J! R0 M1 L4 n7 r/ P# m$ B: V, ?( ~7 ~& f
8 \% j: D- h- p: F, N
8 \3 p, {) V" U/ I  O# f' y- b1 o

! `; O  k$ ?* S, ]  l' S; {" t9 U4 R) F9 w
————————————————
, G, c+ B& b+ V: j% ?. T( `版权声明：本文为CSDN博主「biyezuopin」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。6 e0 |! o) f! ^& e) @
原文链接：https://blog.csdn.net/sheziqiong/article/details/126803242
8 m) k- z: r& r0 G- y6 f
; ?( m& Z. h3 Z
4 {9 Z2 {. S( @: d% V7 z$ U