9 R4 r, _9 k1 ?此外,还有一些常用的机器学习算法和技术,如集成学习、降维方法、深度学习、迁移学习、半监督学习等,它们通过不同的方式和建模方法来解决不同的问题。选择合适的机器学习算法需要考虑问题的性质、数据的特点、算法的可解释性和计算效率等因素。 2 ]9 o! d9 Y' z+ w' E! T0 |; ~ I
2、线性回归算法 ( u, B# ]& M! s g6 m" W- {线性回归是一种统计方法,用于检查两个连续变量之间的关系:一个自变量和一个因变量。线性回归的目标是通过一组数据点找到最佳拟合线,然后可用于对未来的观察进行预测。 3 V ^5 f7 V2 a) ~9 U7 z8 E, f8 `3 X9 ^5 S" n$ L0 T3 X, z
$ N" d" B7 Z+ k) X3 f5 Q
简单线性回归模型的方程为:2 V ~9 ^! a2 b( z2 Y& Y
" {6 g! ?' M5 Z5 T& @y = b 0 + b 1 ∗ x y = b0 + b1*x! I& [4 F& t) s# ]* h7 c
y=b0+b1∗x% u2 P, {" ]# [) s! t
7 Z% f5 X0 G$ F) l o
其中 y 是因变量,x 是自变量,b0 是 y 截距(直线与 y 轴的交点),b1 是直线的斜率。斜率表示给定 x 变化时 y 的变化。) [2 x) Z5 p4 J8 F B' z& H/ }
3 @& k5 {9 X9 V# e% F o( X为了确定最佳拟合线,我们使用最小二乘法,该方法找到使预测 y 值与实际 y 值之间的平方差之和最小化的线。线性回归也可以扩展到多个自变量,称为多元线性回归。多元线性回归模型的方程为:y = b 0 + b 1 x 1 + b 2 x 2 + … + b n ∗ x n y = b0 + b1x1 + b2x2 + … + bn*xny=b0+b1x1+b2x2+…+bn∗xn。其中 x1, x2, …, xn 是自变量,b1, b2, …, bn 是相应的系数。 & {( B# s, F% w- S5 p/ g , O! H5 {6 m7 P# Y线性回归可用于简单线性回归和多元线性回归问题。系数 b0 和 b1, …, bn 使用最小二乘法估计。一旦估计了系数,它们就可以用于对因变量进行预测。线性回归可用于对未来进行预测,例如预测股票的价格或将出售的产品的单位数量。然而,线性回归是一种相对简单的方法,可能并不适合所有问题。它假设自变量和因变量之间的关系是线性的,但情况可能并非总是如此。此外,线性回归对异常值高度敏感,这意味着如果存在任何不遵循数据总体趋势的极值,将会显着影响模型的准确性。 , G' G& a; s7 A4 a" C3 n0 F: c9 `4 n6 F
总之,线性回归是一种强大且广泛使用的统计方法,可用于检查两个连续变量之间的关系。它是一个简单但功能强大的工具,可用于预测未来。但是,请务必记住,线性回归假设变量之间存在线性关系,并且对异常值敏感,这可能会影响模型的准确性。 / y. x2 p& a8 R( I/ ^% U, P 8 m" G( I" H! \( V3 a2.1 线性回归的假设是什么? 3 k* M4 C- s$ m: Q线性:自变量和因变量之间的关系是线性的。 & a$ @ w3 D: Q; l9 ~4 i 9 j9 `' E/ Q3 x; q独立性:观察结果彼此独立。' ?1 a+ Q( a4 l* K: H
( B4 T- o: C/ h' J0 W( P
同方差性:误差项的方差在自变量的所有水平上都是恒定的。0 B1 G: l* F- p" e
7 E# W' n: ]1 ]9 B) N! g正态性:误差项呈正态分布。4 F, b2 P6 V# i/ u. u, T0 R, K4 E" R
3 W) }5 r0 \5 ]/ y: c. k1 c' [1 x
无多重共线性:自变量彼此不高度相关。 3 [0 A* A% s8 v5 Z / j. b9 J! R5 V3 {/ j O4 S无自相关:误差项与其自身不自相关。 ; ?0 }) R5 e4 L* K5 Q 3 L Y' U# F/ e% p" _2.2 如何确定线性回归模型的拟合优度?1 y5 S& V% r2 H
有多种方法可以确定线性回归模型的拟合优度:" [1 x$ O4 r8 F, Q, s
& N; B7 j+ s. k$ o" G+ w; V( lR 平方:R 平方是一种统计度量,表示因变量中的方差由模型中的自变量解释的比例。R 平方值为 1 表示模型解释了因变量中的所有方差,值为 0 表示模型没有解释任何方差。7 ^: Z! I$ ~. h9 m) Z' t
+ D9 Y" q# w9 z, n8 s调整 R 平方:调整 R 平方是 R 平方的修改版本,它考虑了模型中自变量的数量。在比较具有不同数量自变量的模型时,它可以更好地指示模型的拟合优度。 / P# d$ p7 h$ h% @ & J$ d; F9 g o& n) [. |均方根误差 (RMSE):RMSE 衡量预测值与实际值之间的差异。RMSE 较低表明模型与数据的拟合效果更好。 2 g* W2 |! P! d/ G% h. t3 s4 I- |/ f
平均绝对误差 (MAE):MAE 测量预测值与实际值之间的平均差异。MAE 越低表明模型与数据的拟合效果越好。 " {" u; q! D7 T6 w5 g; w( _ . i _* X$ g4 g. w+ k % n% e! u9 a, P( u( [& ^; ]* x1 g/ D
2.3 如何处理线性回归中的异常值?1 o& H- v, \8 c+ d9 z
线性回归中的异常值可能会对模型的预测产生重大影响,因为它们可能会扭曲回归线。处理线性回归中的异常值有多种方法,包括以下几点:8 [4 Q1 e, _) h
5 v/ G J+ Q9 S& D' m5 o) h& p
删除异常值:一种选择是在训练模型之前简单地从数据集中删除异常值。然而,这可能会导致重要信息的丢失。2 ~# w3 F* ], @0 q0 v
5 o" g7 v u, F J. x, Z转换数据:应用转换(例如记录数据日志)有助于减少异常值的影响。4 g* P4 N! m9 d3 h+ g4 w, j3 {