1、机器学习算法简介$ o& }9 X7 B2 k& t
机器学习算法是一种基于数据和经验的算法,通过对大量数据的学习和分析,自动发现数据中的模式、规律和关联,并利用这些模式和规律来进行预测、分类或优化等任务。机器学习算法的目标是从数据中提取有用的信息和知识,并将其应用于新的未知数据中。* ?& j+ H6 R4 E
9 F3 s0 F$ N/ g% [
$ N6 [5 \' q9 [, H2 z0 A: `2 q6 ?1.1 机器学习算法包含的两个步骤5 J$ Q2 c6 K, a8 X, Y
机器学习算法通常包括两个主要步骤:训练和预测。在训练阶段,算法使用一部分已知数据(训练数据集)来学习模型或函数的参数,以使其能够对未知数据做出准确的预测或分类。在预测阶段,算法将学习到的模型应用于新的数据,通过模型对数据进行预测、分类或其他任务。) H5 |" n M2 E3 s) w
, [6 b: P, f M1.2 机器学习算法的分类5 v- s+ S/ m* O; k/ }- O
机器学习算法可以是基于统计学原理、优化方法、神经网络等等。根据学习的方式不同,机器学习算法可以分为监督学习、无监督学习和强化学习等几种类型。不同的机器学习算法适用于不同的问题和数据类型,选择合适的算法可以提高机器学习的任务效果。 % t, C$ D' T3 K- g" P9 `: R* P. b' m0 x+ k6 G2 B
监督学习算法:监督学习算法需要训练数据集中包含输入和对应的输出(或标签)信息。常用的监督学习算法包括:线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯、人工神经网络等。 : B5 c+ U/ W& M) I% T: r2 E' V& {6 f/ R+ p+ z
无监督学习算法:无监督学习算法不需要训练数据集中的输出信息,主要用于数据的聚类和降维等问题。常用的无监督学习算法包括:K均值聚类、层次聚类、主成分分析、关联规则挖掘等。: Z* @0 A+ r8 X$ l: l. a- \; K& ^/ D
( N3 O, Z4 w; M
强化学习算法:强化学习算法通过与环境进行交互,试图找到最优策略来最大化奖励。常用的强化学习算法包括:Q学习、深度强化学习算法等。 $ O4 e5 x* \% m2 R3 W( _; Y5 i2 ] M$ p4 W9 W I
此外,还有一些常用的机器学习算法和技术,如集成学习、降维方法、深度学习、迁移学习、半监督学习等,它们通过不同的方式和建模方法来解决不同的问题。选择合适的机器学习算法需要考虑问题的性质、数据的特点、算法的可解释性和计算效率等因素。0 [# k$ o/ @4 W" N
: N( o( e: E6 e$ C# y2 L6 C2、线性回归算法 * A) c' ?0 e* f4 l: J7 A线性回归是一种统计方法,用于检查两个连续变量之间的关系:一个自变量和一个因变量。线性回归的目标是通过一组数据点找到最佳拟合线,然后可用于对未来的观察进行预测。 3 v" Z5 l8 o7 w. S! o, v3 r7 I9 H ; K6 `& y. H0 U& a- C, N $ N) W( Y7 c! s ?4 ?. \" m4 W简单线性回归模型的方程为:6 j, I( T) G E# \; h
8 u& Y2 f0 q" X& M- n- }
y = b 0 + b 1 ∗ x y = b0 + b1*x + n# l( P" S4 I+ ?- y* K- _5 V. uy=b0+b1∗x' f: {9 O6 i$ T: m1 r5 P6 N
6 Y! p( S1 ^/ R! Z$ X$ Z
其中 y 是因变量,x 是自变量,b0 是 y 截距(直线与 y 轴的交点),b1 是直线的斜率。斜率表示给定 x 变化时 y 的变化。 / g7 A# Y- z. x. m$ U+ e/ [: y+ ~% { w; Q7 r
为了确定最佳拟合线,我们使用最小二乘法,该方法找到使预测 y 值与实际 y 值之间的平方差之和最小化的线。线性回归也可以扩展到多个自变量,称为多元线性回归。多元线性回归模型的方程为:y = b 0 + b 1 x 1 + b 2 x 2 + … + b n ∗ x n y = b0 + b1x1 + b2x2 + … + bn*xny=b0+b1x1+b2x2+…+bn∗xn。其中 x1, x2, …, xn 是自变量,b1, b2, …, bn 是相应的系数。# B: |" D' g# c `/ S; n* [2 d
; ~6 |; {% [* H# M; N/ K线性回归可用于简单线性回归和多元线性回归问题。系数 b0 和 b1, …, bn 使用最小二乘法估计。一旦估计了系数,它们就可以用于对因变量进行预测。线性回归可用于对未来进行预测,例如预测股票的价格或将出售的产品的单位数量。然而,线性回归是一种相对简单的方法,可能并不适合所有问题。它假设自变量和因变量之间的关系是线性的,但情况可能并非总是如此。此外,线性回归对异常值高度敏感,这意味着如果存在任何不遵循数据总体趋势的极值,将会显着影响模型的准确性。- J& c* ]6 Q# m2 r% D
, c( H: C2 X# d3 r3 ^1 `" K
总之,线性回归是一种强大且广泛使用的统计方法,可用于检查两个连续变量之间的关系。它是一个简单但功能强大的工具,可用于预测未来。但是,请务必记住,线性回归假设变量之间存在线性关系,并且对异常值敏感,这可能会影响模型的准确性。$ J k- l( k8 x/ N2 R5 k: f4 O6 P
8 V# G% c% m/ I6 z; Z/ {0 _
2.1 线性回归的假设是什么? c7 f& f- v0 T" ~8 E
线性:自变量和因变量之间的关系是线性的。 , t, [- w2 C* J4 L $ y& j: n, r" q/ M J( t独立性:观察结果彼此独立。 * r- X5 z$ ?4 p, x( [$ D" R! U1 v7 g$ G s x& n7 {& Q
同方差性:误差项的方差在自变量的所有水平上都是恒定的。; y0 u0 i6 q; V3 W
4 {4 P% \ M& R3 N
正态性:误差项呈正态分布。! ?, C# X- E, j a
9 K2 K# n% J: |) t; O) o1 n
无多重共线性:自变量彼此不高度相关。9 w% i6 [9 P8 X2 n0 y1 w2 L: l