/ R" b) j4 H+ _8 S6 a* u. ^" w* g5 d8 t) }, \' l" p
2.3 如何处理线性回归中的异常值?6 {. B; T4 [/ [: |0 X! J0 `" J9 m
线性回归中的异常值可能会对模型的预测产生重大影响,因为它们可能会扭曲回归线。处理线性回归中的异常值有多种方法,包括以下几点: , I4 Z T4 P4 n1 u. g6 N$ H- m) ]$ e3 Y
删除异常值:一种选择是在训练模型之前简单地从数据集中删除异常值。然而,这可能会导致重要信息的丢失。" h q; R8 T$ d ], E" s
6 C- w ^" t9 r5 d1 P转换数据:应用转换(例如记录数据日志)有助于减少异常值的影响。" `3 a/ x, u/ ^, [! C: Y
7 s+ ^- d+ U, d使用稳健回归方法:稳健回归方法(例如 RANSAC 或 Theil-Sen)对异常值的敏感度低于传统线性回归。2 f5 H5 I U$ |1 H6 P: G
* j. K. F8 ^4 O1 U. q7 v/ ]6 m- v
使用正则化:正则化可以通过在成本函数中添加惩罚项来帮助防止由异常值引起的过度拟合。, j& e: R1 w( o& B7 U
) e5 q, c: }! u0 ?% |8 `! R! R总之,采用什么方法将取决于特定的数据集和分析的目标。, W' K8 B0 |2 L' f7 I
& E @& `2 }2 P G
3、逻辑回归算法% W( ]8 I% J3 q
逻辑回归是一种统计方法,用于根据一个或多个自变量预测二元结果,例如成功或失败。它是机器学习中的一种流行技术,通常用于分类任务,例如确定电子邮件是否是垃圾邮件,或预测客户是否会流失。 ; i3 _2 ?6 u2 r+ O. }* ?; ^8 g3 C# B) J# K' M% s
% o3 p0 x& r0 t3 ?# E b( e " H: R! q, ?. S i+ E0 N8 i逻辑回归模型基于逻辑函数,逻辑函数是一个sigmoid函数,它将输入变量映射到 0 到 1 之间的概率。然后使用该概率对结果进行预测。! ] J; n @' x9 \. m
J, N3 V- X% i逻辑回归模型由以下方程表示:5 F% a: \0 y/ a# R# s- N
3 u Q$ [7 @) {6 M$ F% w
P ( y = 1 ∣ x ) = 1 / ( 1 + e − ( b 0 + b 1 x 1 + b 2 x 2 + … + b n ∗ x n ) ) P(y=1|x) = 1/(1+e^-(b0 + b1x1 + b2x2 + … + bn*xn)) 7 U" X% I* V7 V0 @6 WP(y=1∣x)=1/(1+e 8 B! e/ c2 `( R7 q$ ~− 7 F5 Z2 L- P. u (b0+b1x1+b2x2+…+bn∗xn)) ; S; C% r7 U' o& a* @3 w+ J' ]& I3 L# {/ c
其中 P(y=1|x) 是给定输入变量 x 时结果 y 为 1 的概率,b0 是截距,b1, b2, …, bn 是输入变量 x1, x2, … 的系数, xn。通过在数据集上训练模型并使用优化算法(例如梯度下降)来最小化成本函数(通常是对数损失)来确定系数。模型训练完成后,就可以通过输入新数据并计算结果为 1 的概率来进行预测。将结果分类为 1 或 0 的阈值通常设置为 0.5,但这可以根据情况进行调整具体任务以及误报和漏报之间所需的权衡。 6 p1 i. Q1 y( b( T # M- j w$ b% l8 ^3.1 什么是逻辑函数?& Z8 w9 _- g1 M+ ?
逻辑函数,也称为s i g m o i d sigmoidsigmoid函数,是一条 S 形曲线,将任何实数值映射到 0 到 1 之间的值。它的定义为f ( x ) = 1 / ( 1 + e − x ) f(x) = 1 / (1 + e^-x )f(x)=1/(1+e - h& i: m3 ^# y, g− y4 l( j5 y$ R" U9 P. z x)其中 e 是自然对数的底。逻辑函数在逻辑回归中用于对二元结果的概率进行建模。 ) I* {: y" ^2 g# K; V e2 H! Q$ w2 L3 f- C& B ' }9 U) x5 A2 @ e 7 D1 S7 h. r# V$ k3 B3.2 逻辑回归可以用于多类分类吗?- n6 d/ }0 o5 l& K. c
逻辑回归可用于多类分类,方法是为每个类创建单独的二元逻辑回归模型并选择预测概率最高的类。这被称为一对一或一对一的方法。或者,我们可以使用s o f t m a x softmaxsoftmax回归,它是逻辑回归的推广,可以直接处理多个类。 5 w6 R/ t; o" l! P 3 s1 `) ~" G" e) B: M3.3 如何解释逻辑回归中的系数? 6 h! a' k7 \) j4 |" t ?6 J. R' s逻辑回归中的系数表示在保持所有其他预测变量不变的情况下,预测变量发生一个单位变化时结果的对数几率的变化。优势比可用于解释系数的大小。优势比大于 1 表示预测变量增加一个单位会增加结果的可能性,而优势比小于 1 表示预测变量增加一个单位会降低结果的可能性。) r( p( n9 `; X; N
3 U6 e# }) v3 g0 G2 k( c8 b' o+ `+ O4、支持向量机(SVM)算法 1 W: d! Z# _; a; k% g: [' }支持向量机 (SVM) 是一种监督学习算法,可用于分类或回归问题。SVM 背后的主要思想是通过最大化间隔(边界与每个类最近的数据点之间的距离)来找到分隔数据中不同类的边界。这些最接近的数据点称为支持向量。 5 g! l1 x3 A3 L- ? 6 U6 r6 b# X' q0 B' J5 C: s) H5 E/ M9 n3 l
当数据不可线性分离(这意味着数据不能用直线分离)时,SVM 特别有用。在这些情况下,SVM 可以使用称为核技巧的技术将数据转换为更高维的空间,其中可以找到非线性边界。SVM 中使用的一些常见核函数包括多项式、径向基函数 (RBF) 和s i g m o i d sigmoidsigmoid。 " D9 e# N6 c4 @) i , x6 ]6 n& a: {" R: i. Q; ESVM 的主要优点之一是它们在高维空间中非常有效,并且即使在特征数量大于样本数量时也具有良好的性能。此外,SVM 内存效率高,因为它们只需要存储支持向量,而不是整个数据集。另一方面,SVM 对核函数和算法参数的选择很敏感。还需要注意的是,SVM 不适合大型数据集,因为训练时间可能相当长。总之,支持向量机(SVM)是一种强大的监督学习算法,可用于分类和回归问题,特别是当数据不可线性分离时。该算法以其在高维空间中的良好性能以及发现非线性边界的能力而闻名。然而,它对核函数和参数的选择很敏感,也不适合大型数据集。 2 A9 z9 u. i9 p% T8 I, P+ S8 t# ^( k' |% u4 ]5 S/ t( M
4.1 优点8 h( p' B( d$ C
在高维空间中有效:即使当特征数量大于样本数量时,SVM 也具有良好的性能。 9 R5 B/ q; ?+ \1 O/ l6 K$ M7 C6 N4 g4 ]/ f: z# V: C
内存效率高:SVM 只需要存储支持向量,而不需要存储整个数据集,因此内存效率高。% U& s0 n% m6 h8 X
2 X6 ]4 _' G/ E1 g9 l& {通用性:SVM 可用于分类和回归问题,并且可以使用核技巧处理非线性可分离数据。 ) ^- o/ T; ~* S9 z. B' i* e( a3 K3 I- C- [2 F. W
对噪声和异常值具有鲁棒性:SVM 对数据中的噪声和异常值具有鲁棒性,因为它们仅依赖于支持向量。 $ {( S/ p- Q0 x2 `& I. C: S) g% g7 ~
4.2 缺点, M3 B# I2 K1 E9 |' w& b% R
对核函数和参数的选择敏感:SVM 的性能高度依赖于核函数的选择和算法参数。- ^" o6 f U6 J