$ P) R" F: B4 s' h) b此外,还有一些常用的机器学习算法和技术,如集成学习、降维方法、深度学习、迁移学习、半监督学习等,它们通过不同的方式和建模方法来解决不同的问题。选择合适的机器学习算法需要考虑问题的性质、数据的特点、算法的可解释性和计算效率等因素。 3 T1 `! G0 x- F . T- d. y- z& k( u7 R2、线性回归算法 ; s. d; Z) s6 J9 s线性回归是一种统计方法,用于检查两个连续变量之间的关系:一个自变量和一个因变量。线性回归的目标是通过一组数据点找到最佳拟合线,然后可用于对未来的观察进行预测。: O7 _6 f9 J7 q4 p
4 l" ?; X7 i, n4 Y& J
2 J$ d' N& T7 A
简单线性回归模型的方程为:7 K+ y1 O4 E( |3 X3 E
4 Z3 o$ V% p2 @$ _8 V( r0 U$ ey = b 0 + b 1 ∗ x y = b0 + b1*x " H) D U: h! d' jy=b0+b1∗x 5 ]8 L4 }7 G4 x& \9 w: \, X" I1 R v9 O. I9 s& I2 u e
其中 y 是因变量,x 是自变量,b0 是 y 截距(直线与 y 轴的交点),b1 是直线的斜率。斜率表示给定 x 变化时 y 的变化。 1 J! o+ O4 i3 l 2 X ^+ ?# \2 q! l4 w" ?' L为了确定最佳拟合线,我们使用最小二乘法,该方法找到使预测 y 值与实际 y 值之间的平方差之和最小化的线。线性回归也可以扩展到多个自变量,称为多元线性回归。多元线性回归模型的方程为:y = b 0 + b 1 x 1 + b 2 x 2 + … + b n ∗ x n y = b0 + b1x1 + b2x2 + … + bn*xny=b0+b1x1+b2x2+…+bn∗xn。其中 x1, x2, …, xn 是自变量,b1, b2, …, bn 是相应的系数。8 m0 {- {/ u: Q3 l
0 i- B& ?/ J: B: r, F
线性回归可用于简单线性回归和多元线性回归问题。系数 b0 和 b1, …, bn 使用最小二乘法估计。一旦估计了系数,它们就可以用于对因变量进行预测。线性回归可用于对未来进行预测,例如预测股票的价格或将出售的产品的单位数量。然而,线性回归是一种相对简单的方法,可能并不适合所有问题。它假设自变量和因变量之间的关系是线性的,但情况可能并非总是如此。此外,线性回归对异常值高度敏感,这意味着如果存在任何不遵循数据总体趋势的极值,将会显着影响模型的准确性。 ; t: R+ r- U+ J- U5 \8 A) d- @( b1 n# i0 Y0 K- C
总之,线性回归是一种强大且广泛使用的统计方法,可用于检查两个连续变量之间的关系。它是一个简单但功能强大的工具,可用于预测未来。但是,请务必记住,线性回归假设变量之间存在线性关系,并且对异常值敏感,这可能会影响模型的准确性。* T: F- ~& u9 ?- k* k2 I. a
1 J. J. ?: M* I3 R' o3 V& T" ^ ~: } F' U. F5 ]" W3 F, r
逻辑回归模型基于逻辑函数,逻辑函数是一个sigmoid函数,它将输入变量映射到 0 到 1 之间的概率。然后使用该概率对结果进行预测。 ! b7 L1 e0 g" M & e7 Q. ?3 i3 r: |逻辑回归模型由以下方程表示: ' p& w- R- ~8 `8 P6 { ( l, @2 w) u4 EP ( y = 1 ∣ x ) = 1 / ( 1 + e − ( b 0 + b 1 x 1 + b 2 x 2 + … + b n ∗ x n ) ) P(y=1|x) = 1/(1+e^-(b0 + b1x1 + b2x2 + … + bn*xn))4 ~3 I. o# c' @+ e: A
P(y=1∣x)=1/(1+e & e" {- O6 {0 f−. F7 i: ?% l5 t `4 c& y3 v5 Y, m4 n
(b0+b1x1+b2x2+…+bn∗xn))# |. l6 f3 s$ q/ J
. N* I ~ _, \$ x% z5 g& K4 X X( [
其中 P(y=1|x) 是给定输入变量 x 时结果 y 为 1 的概率,b0 是截距,b1, b2, …, bn 是输入变量 x1, x2, … 的系数, xn。通过在数据集上训练模型并使用优化算法(例如梯度下降)来最小化成本函数(通常是对数损失)来确定系数。模型训练完成后,就可以通过输入新数据并计算结果为 1 的概率来进行预测。将结果分类为 1 或 0 的阈值通常设置为 0.5,但这可以根据情况进行调整具体任务以及误报和漏报之间所需的权衡。 1 S' u9 G: G; b, l( [/ C- \2 E; I, ]+ T' U
3.1 什么是逻辑函数?5 P8 @' Y; d) n9 K/ l
逻辑函数,也称为s i g m o i d sigmoidsigmoid函数,是一条 S 形曲线,将任何实数值映射到 0 到 1 之间的值。它的定义为f ( x ) = 1 / ( 1 + e − x ) f(x) = 1 / (1 + e^-x )f(x)=1/(1+e 0 b) P. n6 h2 a, c−7 y: @6 v' z4 y, S
x)其中 e 是自然对数的底。逻辑函数在逻辑回归中用于对二元结果的概率进行建模。3 j! }5 x2 E+ N, @8 V7 X$ L% H
. a+ x$ E3 h9 a# o' ^- Q+ B% A7 T
' X3 Y! h% p1 U7 z3 R: G, j X3 g& m0 l% C1 P7 E2 q3.2 逻辑回归可以用于多类分类吗? 7 m; A B! n7 }0 u% l A) }逻辑回归可用于多类分类,方法是为每个类创建单独的二元逻辑回归模型并选择预测概率最高的类。这被称为一对一或一对一的方法。或者,我们可以使用s o f t m a x softmaxsoftmax回归,它是逻辑回归的推广,可以直接处理多个类。 ! x1 B. Q: N1 h i# v2 T4 X$ z; n" W1 _& \1 m8 V
3.3 如何解释逻辑回归中的系数?( W' F0 x: R$ i; ^0 z }
逻辑回归中的系数表示在保持所有其他预测变量不变的情况下,预测变量发生一个单位变化时结果的对数几率的变化。优势比可用于解释系数的大小。优势比大于 1 表示预测变量增加一个单位会增加结果的可能性,而优势比小于 1 表示预测变量增加一个单位会降低结果的可能性。! U- z7 X! ~' ~* u# J
, L5 A3 H4 e9 H2 b7 c0 V; t2 R' Z
4、支持向量机(SVM)算法 ! e7 d3 g% I( l% k7 S! F支持向量机 (SVM) 是一种监督学习算法,可用于分类或回归问题。SVM 背后的主要思想是通过最大化间隔(边界与每个类最近的数据点之间的距离)来找到分隔数据中不同类的边界。这些最接近的数据点称为支持向量。+ y _' y4 @" H0 {/ e4 L
- e- o c% w$ j% l3 U( F( P . f, Q9 I% z4 a当数据不可线性分离(这意味着数据不能用直线分离)时,SVM 特别有用。在这些情况下,SVM 可以使用称为核技巧的技术将数据转换为更高维的空间,其中可以找到非线性边界。SVM 中使用的一些常见核函数包括多项式、径向基函数 (RBF) 和s i g m o i d sigmoidsigmoid。8 K- K+ b% p6 r9 z ]# _1 H
2 e) H# {' j" q7 W* }. h3 t) E uSVM 的主要优点之一是它们在高维空间中非常有效,并且即使在特征数量大于样本数量时也具有良好的性能。此外,SVM 内存效率高,因为它们只需要存储支持向量,而不是整个数据集。另一方面,SVM 对核函数和算法参数的选择很敏感。还需要注意的是,SVM 不适合大型数据集,因为训练时间可能相当长。总之,支持向量机(SVM)是一种强大的监督学习算法,可用于分类和回归问题,特别是当数据不可线性分离时。该算法以其在高维空间中的良好性能以及发现非线性边界的能力而闻名。然而,它对核函数和参数的选择很敏感,也不适合大型数据集。 1 q Q, H( ], A4 @0 q$ R( W$ H3 D/ y4 j$ g" n4 p! X
4.1 优点 ' A1 E4 g1 D& P7 m d- J在高维空间中有效:即使当特征数量大于样本数量时,SVM 也具有良好的性能。 4 t! v+ t3 C* y4 {# H( X! K ) i( I* B' k) F! ^/ c- k内存效率高:SVM 只需要存储支持向量,而不需要存储整个数据集,因此内存效率高。! z0 [ n+ E( u3 `0 U6 k
8 z4 b Y1 _" A) j; R
通用性:SVM 可用于分类和回归问题,并且可以使用核技巧处理非线性可分离数据。9 S2 ?2 e' z8 e7 _9 m