' y) a0 D X6 q$ @" F' y9 x使用正则化:正则化可以通过在成本函数中添加惩罚项来帮助防止由异常值引起的过度拟合。) n7 q+ d; \* [3 z- }) A. h
# t1 K8 W0 E) c0 e# q9 k# A4 M, f总之,采用什么方法将取决于特定的数据集和分析的目标。, R$ s! t0 i4 q2 M. l
/ Q- f, u. f* [- s! o9 i9 r0 L+ ^; A3、逻辑回归算法 * X0 l* ?3 B! B, T; }7 z& Z3 M7 N" ]逻辑回归是一种统计方法,用于根据一个或多个自变量预测二元结果,例如成功或失败。它是机器学习中的一种流行技术,通常用于分类任务,例如确定电子邮件是否是垃圾邮件,或预测客户是否会流失。 ( @* r. c. {4 X% i! \ & L W2 {* w5 n) S3 ` : T$ w- s8 w8 B % d, K- h$ n, ^, M5 I( v0 x; t* Y `逻辑回归模型基于逻辑函数,逻辑函数是一个sigmoid函数,它将输入变量映射到 0 到 1 之间的概率。然后使用该概率对结果进行预测。 : E, O2 O8 ~; U/ p* U( ? |8 X& Z! T # i- A( d9 s8 E1 H/ G6 {- J6 u9 L. w逻辑回归模型由以下方程表示:8 Q& V* @: a6 K+ s( d
& D) M! U5 {: ^* l. p4 [P ( y = 1 ∣ x ) = 1 / ( 1 + e − ( b 0 + b 1 x 1 + b 2 x 2 + … + b n ∗ x n ) ) P(y=1|x) = 1/(1+e^-(b0 + b1x1 + b2x2 + … + bn*xn))4 H ~8 q& N; e9 \, n, L3 t
P(y=1∣x)=1/(1+e 2 v6 d3 X+ a5 ~/ ~2 v
− 3 U* y0 T- y5 X( i L (b0+b1x1+b2x2+…+bn∗xn)) 7 ?. C) E7 }4 a- b! s" _6 W8 q6 ^# s8 Z* D, h. X
其中 P(y=1|x) 是给定输入变量 x 时结果 y 为 1 的概率,b0 是截距,b1, b2, …, bn 是输入变量 x1, x2, … 的系数, xn。通过在数据集上训练模型并使用优化算法(例如梯度下降)来最小化成本函数(通常是对数损失)来确定系数。模型训练完成后,就可以通过输入新数据并计算结果为 1 的概率来进行预测。将结果分类为 1 或 0 的阈值通常设置为 0.5,但这可以根据情况进行调整具体任务以及误报和漏报之间所需的权衡。4 w. r$ V9 v2 ~( [, M& l. x0 `
' V% a8 y# J8 |( O- W4 |+ b& m2 e3.1 什么是逻辑函数? n5 i% [+ ]# I8 I6 J7 \
逻辑函数,也称为s i g m o i d sigmoidsigmoid函数,是一条 S 形曲线,将任何实数值映射到 0 到 1 之间的值。它的定义为f ( x ) = 1 / ( 1 + e − x ) f(x) = 1 / (1 + e^-x )f(x)=1/(1+e 4 u" s" x* p. W$ @, e
−0 _/ X8 L) n0 e: x* p4 h
x)其中 e 是自然对数的底。逻辑函数在逻辑回归中用于对二元结果的概率进行建模。 Y* a. Q# I" Y) K: i# \
; a- D r; R2 K9 O4 z+ D! _: b4 W. ~0 i
: M% a; x7 x5 ]) m" f8 I
3.2 逻辑回归可以用于多类分类吗? + |" M3 h8 X2 @) m逻辑回归可用于多类分类,方法是为每个类创建单独的二元逻辑回归模型并选择预测概率最高的类。这被称为一对一或一对一的方法。或者,我们可以使用s o f t m a x softmaxsoftmax回归,它是逻辑回归的推广,可以直接处理多个类。8 G# ^3 ^; Z( W4 x
, ^5 |0 n2 N J - ~2 h }) C' ? K# Z7 F+ F1 _当数据不可线性分离(这意味着数据不能用直线分离)时,SVM 特别有用。在这些情况下,SVM 可以使用称为核技巧的技术将数据转换为更高维的空间,其中可以找到非线性边界。SVM 中使用的一些常见核函数包括多项式、径向基函数 (RBF) 和s i g m o i d sigmoidsigmoid。 % g% H0 Q0 i% `; Z) D 3 ]3 T# {6 M1 l: B% c( rSVM 的主要优点之一是它们在高维空间中非常有效,并且即使在特征数量大于样本数量时也具有良好的性能。此外,SVM 内存效率高,因为它们只需要存储支持向量,而不是整个数据集。另一方面,SVM 对核函数和算法参数的选择很敏感。还需要注意的是,SVM 不适合大型数据集,因为训练时间可能相当长。总之,支持向量机(SVM)是一种强大的监督学习算法,可用于分类和回归问题,特别是当数据不可线性分离时。该算法以其在高维空间中的良好性能以及发现非线性边界的能力而闻名。然而,它对核函数和参数的选择很敏感,也不适合大型数据集。" v9 n- t& T/ `3 r' B2 n3 r
& {/ {/ U, z# T) Q. ~$ ]% i! G, L4.1 优点 ) s8 Y6 I, ~1 ~, B8 `6 c7 y0 z在高维空间中有效:即使当特征数量大于样本数量时,SVM 也具有良好的性能。$ w* f$ v, f0 g
& F' N( S$ x; g3 V3 X. ?
内存效率高:SVM 只需要存储支持向量,而不需要存储整个数据集,因此内存效率高。7 T* X; z; h6 Z! O/ L/ Y
; V. Z$ S2 Z& {0 \! |; ^* }! S: x
通用性:SVM 可用于分类和回归问题,并且可以使用核技巧处理非线性可分离数据。 + p6 D+ r: Y/ M. X8 w4 G+ H6 c _) C5 O# e( t
对噪声和异常值具有鲁棒性:SVM 对数据中的噪声和异常值具有鲁棒性,因为它们仅依赖于支持向量。 , E# ]; h+ }, \0 I/ b t' P8 z I0 ~* j0 ?4.2 缺点 4 {% f( q7 ^( W2 I- J' G* [对核函数和参数的选择敏感:SVM 的性能高度依赖于核函数的选择和算法参数。 5 K0 ]2 B! @6 ~3 U1 _3 B . `9 A" X; D4 s! }/ ~. L不适合大型数据集:对于大型数据集,SVM 的训练时间可能会相当长。 * f( q& e8 P' u/ A - v) v& A6 s J& V7 j解释结果困难:解释 SVM 的结果可能很困难,特别是在使用非线性核时。 * h7 T, _2 F9 p# R8 k2 B4 H. V6 c% [) R- W# v1 l$ b
不适用于重叠类:当类有明显重叠时,SVM 可能会遇到困难。- H+ d" o% H8 y s$ S4 X
& b- A9 {! j2 v J
总之,SVM 是一种强大且通用的机器学习算法,可用于分类和回归问题,特别是当数据不可线性分离时。然而,它们可能对核函数和参数的选择敏感,不适合大型数据集,并且难以解释结果。 2 a5 G& }$ W1 I& R / Q2 A& Q' {3 {/ | _5 p( [ 2 p! |) H1 `/ u, V) g$ U2 H% i5 u8 E0 J/ q* ]1 q2 m