QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3921|回复: 0
打印 上一主题 下一主题

[代码资源] 线性回归实例-鸢尾花数据集

[复制链接]
字体大小: 正常 放大

1178

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-23 20:42 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
                                           文章目录8 Y3 {  E, x" ~% O2 O
    一、具体实现步骤6 w" W" @; E) m4 B9 w
    1. 导入Iris鸢尾花数据集
    & h5 Q9 }! U4 i/ {2. 提取花瓣数据
    $ s2 X8 x2 U" w0 j8 u- K/ X3. 拆分数据5 a1 B8 U- T/ }8 ^  s( r) J0 {' k% z
    4. 训练模型4 j0 \, T# G5 |
    二、可视化结果展示
    2 i6 m1 s* y: j9 j8 s1. 训练集
    0 B$ p( e- n7 O9 L+ _2. 测试集7 v/ t- ~' |* P
    三、相关知识点讲解
    ' P  |# ]! r# _' B  V+ A: d1. train_test_split()函数
    + h+ Q5 k( M1 W' U2. LinearRegression()函数- [9 i% P5 |8 K$ x+ c0 R
    3. 散点图与折线统计图的绘制
    1 P( \6 p6 h) T9 T' X, }& t这篇文章中,我们要通过鸢尾花的花瓣长度预测花瓣宽度7 r2 _+ b% P9 A* t) ~, {

    ( `9 {" A' x. o$ {8 s
    0 ~7 ~% B6 `. N
    环境:Python3.6.5
      c. h2 t5 z4 J% n' \编译器:jupyter notebook$ A  Z0 z1 {4 N$ h! o
      A  \8 f/ ~* i+ [! v
    一、具体实现步骤
    % {% t: N" G- Y2 f" K" @1. 导入Iris鸢尾花数据集# D8 f- ~5 X) X5 ?/ m. t
    Iris鸢尾花数据集共有150条记录,分别是:$ h7 R* r! }8 k$ i+ n
    50条山鸢尾 (Iris-setosa)3 R) c. i* a5 W. }- G( [
    50条变色鸢尾(Iris-versicolor)
    5 `  D' [4 N9 Z* ?5 \( A6 b7 N% l5 }50条维吉尼亚鸢尾(Iris-virginica)
    7 _+ R* S" O$ e; @: \% Xurl = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
    + q+ [% F2 b3 M; f0 Inames = ['花萼-length', '花萼-width', '花瓣-length', '花瓣-width', 'class']  
    + s, _6 F5 z8 qdataset = pd.read_csv(url, names=names)
    7 x5 g( ~3 Y6 w: ^4 v, m' R( k/ ~; Z$ ]6 K4 W8 c/ }6 p, d
    2. 提取花瓣数据: F8 q8 ]' f! [; O, e
    下面我们提取数据集中花瓣宽度与花瓣长度数据,将花瓣数据分为训练数据与测试数据,训练数据用于训练线性回归模型,测试数据用于检测我们的模型的准确率。7 N* c. G  N  {" Q/ R. P; U7 J: D5 z

    / k* g9 ^- ~, w* B/ c9 K. w
    ' \. Q( z/ b: p+ {6 n7 p/ X
    最终我们要达到的效果是:输入花瓣宽度,通过模型预测花瓣宽度。
    8 ], w8 q/ h# p( Z7 ~$ T& k; O% s2 G1 o# N

    . Q& K: c. Q  a. Z" hX = dataset["花瓣-length"]; b& i2 |! Y- H
    Y = dataset["花瓣-width"], g. f( S1 a0 f: g1 D
    X = X.reshape(len(X),1)
    7 T, n( [) J7 g% U; N# JY = Y.reshape(len(Y),1)* m. i, K8 `& m; P0 I: R

    ' Q; y2 o7 e* o3. 拆分数据$ |% J& J9 r, ?. `6 K0 q
    将数据集拆分数据集成训练集、测试集
    " |# X; [0 C% W; g+ @( C; S; f8 X# U  J2 f* l$ j
    7 }/ ?+ Y( d' @8 Y
    from sklearn.model_selection import train_test_split* L6 i" r3 b7 \( j4 b9 ]# [9 ?2 L
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)7 z% B8 U' B" M0 b
    ! L+ r% F0 Q3 U
    4. 训练模型* G, L1 ?1 X& X1 ]6 |9 K
    这里我们需要将我们的训练数据喂给模型进行训练。
    + u8 O; _* U6 Q: E; ?& k& {' c5 E+ e; W3 R* s# Y( f0 Y

    # M; U& p- p9 r: Gfrom sklearn.linear_model import LinearRegression" D1 d5 D9 d2 I) H2 i1 u  p  g
    regressor = LinearRegression()& ?: S* f  n7 F4 f+ b% p1 Z
    regressor = regressor.fit(X_train, Y_train)
    " |( t8 I7 B' }. b. v- t% G. n3 l9 G; G+ P+ W- X$ `! O( j% S
    二、可视化结果展示
    6 K; b: a5 p$ d; a1. 训练集) ]2 y4 N8 Y6 A9 T
    将训练集中每一朵花的花瓣数据与线性回归模型预测的结果放到同一张统计图中。! j# k1 p! b% o5 e- N, T6 v5 m

    4 g& h5 y: q# ?/ g9 S

    ) O9 ^$ o6 s# vimport matplotlib.pyplot as plt
    ! d9 V: O& b! T3 f6 z/ V. U
    / H2 N7 b1 V7 Y0 s3 _0 K

    , q4 s$ I2 H/ ~& Yplt.scatter(X_train, Y_train, color='red')4 Z+ h% R+ J, [! b# q7 E
    plt.plot(X_train, regressor.predict(X_train), color='green')
    , M4 Z# O. V6 H- e- k+ }plt.xlabel("Iris-length") 9 [. `1 g  R& X* t5 z
    plt.ylabel("Iris-width") $ L& y/ C) B( o
    plt.title("This is train dataset-kzb")
    $ B  D% t5 q* T% Fplt.show()4 x, h& B5 x( g7 B+ ~- n0 G
    . ?( _. i$ p7 r( t
    红色的点是训练数据集中的花瓣数据,我们不难看出花瓣长度与宽度是一个线性关系,绿色的线是我们模型拟合的结果。
    . R$ D7 l7 ?0 B4 F% }% @6 P
    0 G) P( e6 O; v( I' m1 ]3 N
    ' l( _( a4 L1 k2 t1 S
    ) P2 v0 w( e5 O
    2. 测试集
    , T  T! c. [8 D: K将测试集中每一朵花的花瓣数据与线性回归模型预测的结果放到同一张统计图中。* t) O) M, B" R0 G6 g

    " s: F/ `5 n7 ^6 y* a2 Z: `
    . D& ~5 v$ X# k+ T' L# Y" |
    plt.scatter(X_test, Y_test, color='blue')
    2 G" C" T) x5 Z0 [( V  D; Qplt.plot(X_train, regressor.predict(X_train), color='green')
    " ~, A, L8 y) g( Z# Y5 w, W% D( ?plt.xlabel("Iris-length") 9 E% D7 ]) B1 \( L* z( ~
    plt.ylabel("Iris-width")
    % `. A1 o; G' t% \- Lplt.title("This is test dataset-kzb")
    # ?- ]4 a+ f% L; Gplt.show()
    1 C* Q' G% ?$ l5 ?4 T
    6 q$ u  A9 b, T$ I绿色的点是测试数据集中的花瓣数据,我们可以看出这部分数据也是符合线性关系的,随着集的增大,线性关系会更加明显。- g) D; c4 T1 \
    8 m$ @- R4 `, N

    8 m) d6 V, O! p. r! d$ F
    ' n: m" W8 ]- {5 i& \
    三、相关知识点讲解" W7 \$ `7 v; H. V. \
    1. train_test_split()函数
    3 n# W1 a' y( s' L9 y* etrain_test_split():将数据集划分为测试集与训练集。
    ' _# ~3 F+ F" R- B& q! L2 B9 Z9 n9 y. _$ ~7 i( d1 @3 R
    ) }9 h1 c- F7 X7 Y* W
    X:所要划分的整体数据的特征集;
    : y. y2 U+ e& eY:所要划分的整体数据的结果;' m8 B0 @4 c0 P! G' [
    test_size:测试集数据量在整体数据量中的占比(可以理解为X_test与X的比值);/ \# {: M. c' k$ J( A/ i3 ]; D$ [, w
    random_state:①若不填或者填0,每次生成的数据都是随机,可能不一样。②若为整数,每次生成的数据都相同;
    " s, g$ \6 i) u# Tfrom sklearn.model_selection import train_test_split  |/ Z8 [5 v, X! O4 g9 s4 I
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)
    7 y3 _- o- q2 o- d" R) _: n3 j! t4 `4 x& U
    2. LinearRegression()函数$ t* n3 l8 d5 `3 l8 W
    sklearn.linear_model包实现了广义线性模型,包括线性回归、Ridge回归、Bayesian回归等。LinearRegression是其中较为简单的线性回归模型。3 V, h0 r  w$ G2 Z* U1 i5 n: C
    ' o! Z5 n; m  F6 b3 J; ^: p

    2 L7 A2 D  s5 [解释一下什么是回归:回归最简单的定义是,给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小,如果这个函数曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归。
    & ]6 N; L& L( u& t. P% l
      V. \( H5 @2 o3 c

    6 {4 X2 q* r+ f- x! F/ n2 B3. 散点图与折线统计图的绘制
    $ D9 D/ x* K. yplt.scatter():绘画出数据的散点图- |1 U' f9 i  b
    plt.plot():绘画出依据模型(LinearRegression的线性回归模型)生成的直线% L% w. U6 K* F/ }. w( w
    有问题请加我QQ32437105601 @( G7 u& J* p

    + s4 N; \, c6 u' y$ q
    ; d5 m. S: L5 ^3 k( \5 D( A
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-11 04:48 , Processed in 0.359410 second(s), 51 queries .

    回顶部