* v" X3 F) u- f h0 G" B# b5 [无监督学习算法:无监督学习算法不需要训练数据集中的输出信息,主要用于数据的聚类和降维等问题。常用的无监督学习算法包括:K均值聚类、层次聚类、主成分分析、关联规则挖掘等。6 {/ Z1 g- E* Q: M" h5 N" c' [1 Y
5 g5 P' T" }6 r% n强化学习算法:强化学习算法通过与环境进行交互,试图找到最优策略来最大化奖励。常用的强化学习算法包括:Q学习、深度强化学习算法等。, f4 n7 \ J: b' m/ R& i/ Z4 w* r K
' Q, i; u d8 c! P3 Q5 v此外,还有一些常用的机器学习算法和技术,如集成学习、降维方法、深度学习、迁移学习、半监督学习等,它们通过不同的方式和建模方法来解决不同的问题。选择合适的机器学习算法需要考虑问题的性质、数据的特点、算法的可解释性和计算效率等因素。 * ~+ [, J( j3 w! _$ C: n: N/ g
2、线性回归算法7 {2 F* a; \, w' s9 u
线性回归是一种统计方法,用于检查两个连续变量之间的关系:一个自变量和一个因变量。线性回归的目标是通过一组数据点找到最佳拟合线,然后可用于对未来的观察进行预测。3 {. E/ i) E4 p
5 Q C$ Y, L5 A: }# ^5 f$ Y5 h ~+ ?% D
简单线性回归模型的方程为:+ N8 m, b4 L; U0 S& ?% O
6 w; L# v' @' @" k+ a3 R
y = b 0 + b 1 ∗ x y = b0 + b1*x2 @" B9 b7 G1 G- B$ ` O$ U
y=b0+b1∗x; S! t+ h$ S( a5 |2 R/ @8 |
$ G% b& S; X6 G5 r$ G% d- D
其中 y 是因变量,x 是自变量,b0 是 y 截距(直线与 y 轴的交点),b1 是直线的斜率。斜率表示给定 x 变化时 y 的变化。4 l9 `$ X; T. M$ Q
- u# b4 T: N# X) f+ |8 b为了确定最佳拟合线,我们使用最小二乘法,该方法找到使预测 y 值与实际 y 值之间的平方差之和最小化的线。线性回归也可以扩展到多个自变量,称为多元线性回归。多元线性回归模型的方程为:y = b 0 + b 1 x 1 + b 2 x 2 + … + b n ∗ x n y = b0 + b1x1 + b2x2 + … + bn*xny=b0+b1x1+b2x2+…+bn∗xn。其中 x1, x2, …, xn 是自变量,b1, b2, …, bn 是相应的系数。 ' w' L b/ `+ S8 r; ?" g0 h6 ^0 c- ^; T, w( t; r
线性回归可用于简单线性回归和多元线性回归问题。系数 b0 和 b1, …, bn 使用最小二乘法估计。一旦估计了系数,它们就可以用于对因变量进行预测。线性回归可用于对未来进行预测,例如预测股票的价格或将出售的产品的单位数量。然而,线性回归是一种相对简单的方法,可能并不适合所有问题。它假设自变量和因变量之间的关系是线性的,但情况可能并非总是如此。此外,线性回归对异常值高度敏感,这意味着如果存在任何不遵循数据总体趋势的极值,将会显着影响模型的准确性。+ W& `) v& o& x. p
# ]$ b" l8 {" A, V, F' l
总之,线性回归是一种强大且广泛使用的统计方法,可用于检查两个连续变量之间的关系。它是一个简单但功能强大的工具,可用于预测未来。但是,请务必记住,线性回归假设变量之间存在线性关系,并且对异常值敏感,这可能会影响模型的准确性。 0 D- Y# {1 R0 R6 N9 |: c 3 G' m: q. A1 ~" D: u' {% B1 E2.1 线性回归的假设是什么?9 [) Y) h6 }$ {
线性:自变量和因变量之间的关系是线性的。 , @$ [- P. i9 L% s/ @% D7 E I& {: O- q6 J+ b- {
独立性:观察结果彼此独立。 0 s. f( Q, b( \# \ . ~, o% P% F, D$ |6 a8 r3 _同方差性:误差项的方差在自变量的所有水平上都是恒定的。# j- }% i6 U( b6 j9 }: j# X
; G& U* w8 e; ?3 l _) Q正态性:误差项呈正态分布。 7 W4 i0 i+ u3 M- C/ q6 }- Q8 h& A- C. u
无多重共线性:自变量彼此不高度相关。 8 G, p3 A0 P! h$ c ) p7 h7 t. G! P无自相关:误差项与其自身不自相关。 $ ~0 b6 g! g9 {2 K2 A' J4 S5 C- J+ a2 Y: M
2.2 如何确定线性回归模型的拟合优度? . N- d( t' { {有多种方法可以确定线性回归模型的拟合优度: # x8 B) p, N/ k8 z: X a# y# q9 ~ 1 }* h% s7 s: P1 a# L/ }% VR 平方:R 平方是一种统计度量,表示因变量中的方差由模型中的自变量解释的比例。R 平方值为 1 表示模型解释了因变量中的所有方差,值为 0 表示模型没有解释任何方差。- l: I4 s4 f+ `# i6 q
8 r- T$ D) w9 A3 A$ A: {, g% y
调整 R 平方:调整 R 平方是 R 平方的修改版本,它考虑了模型中自变量的数量。在比较具有不同数量自变量的模型时,它可以更好地指示模型的拟合优度。 ; O- |0 o; @( {; b9 Z. X2 [+ y/ a# X e. d6 {: @8 Y2 R* b* a! c3 j
均方根误差 (RMSE):RMSE 衡量预测值与实际值之间的差异。RMSE 较低表明模型与数据的拟合效果更好。 O9 q \; e6 `) t
1 X9 \2 T2 F( X; `& A2 ~% i, i" i
平均绝对误差 (MAE):MAE 测量预测值与实际值之间的平均差异。MAE 越低表明模型与数据的拟合效果越好。 " J1 x ]* w% ~ ' j! w5 U% s, x3 _4 F2 m6 M6 v7 Y9 y# u* X$ F( `
* [8 [9 m" d: r$ N+ P7 q" C
2.3 如何处理线性回归中的异常值? , F* y- K+ U6 n" X' d$ K线性回归中的异常值可能会对模型的预测产生重大影响,因为它们可能会扭曲回归线。处理线性回归中的异常值有多种方法,包括以下几点:7 H6 V' k6 r+ t3 k$ a