# b7 x6 q9 Q* L0 X4 a正态性:误差项呈正态分布。 1 s* m* G% |1 Z7 J, e5 g" r# E 3 o$ N E: ~9 [无多重共线性:自变量彼此不高度相关。7 n2 N3 O) h2 G4 u2 u. w
. [9 a" M$ R7 T
无自相关:误差项与其自身不自相关。7 |: O8 h* w: k
2 K" R0 n! }0 c) I& ?" U3 X2.2 如何确定线性回归模型的拟合优度?. |+ M( ]0 x0 E/ K% Q- w4 Q
有多种方法可以确定线性回归模型的拟合优度: `5 A; ?4 Z- s 1 X6 {8 k6 G5 o: ~ [1 lR 平方:R 平方是一种统计度量,表示因变量中的方差由模型中的自变量解释的比例。R 平方值为 1 表示模型解释了因变量中的所有方差,值为 0 表示模型没有解释任何方差。 6 Z; L- q* R3 K- K / H( e% d9 W1 \3 n5 ?# m调整 R 平方:调整 R 平方是 R 平方的修改版本,它考虑了模型中自变量的数量。在比较具有不同数量自变量的模型时,它可以更好地指示模型的拟合优度。 * Y/ q4 p* E3 k$ A: j# T. I5 d% F; N. z" b# ?# x. |
均方根误差 (RMSE):RMSE 衡量预测值与实际值之间的差异。RMSE 较低表明模型与数据的拟合效果更好。 7 @: @# n. W7 v, s2 ]8 _ ' G% ?" p2 w0 k$ y5 Y: ~- Q平均绝对误差 (MAE):MAE 测量预测值与实际值之间的平均差异。MAE 越低表明模型与数据的拟合效果越好。 E( B' r% N1 C6 Y + w& ~+ w- V" Z# k5 ^; K 6 m3 _; S# x( d* S! @; u 9 |: I5 V. t' P4 O% P- r2.3 如何处理线性回归中的异常值? ; d1 P; F# J5 O# L! {7 l' v2 V" @线性回归中的异常值可能会对模型的预测产生重大影响,因为它们可能会扭曲回归线。处理线性回归中的异常值有多种方法,包括以下几点: " d; `# U2 f% i5 x' ~% Q. ]8 |6 C' Y# a, G$ l/ c; M+ F
删除异常值:一种选择是在训练模型之前简单地从数据集中删除异常值。然而,这可能会导致重要信息的丢失。 # M3 D8 F: Z3 t( f2 F! h* {& M9 N" y# |$ L( L5 N
转换数据:应用转换(例如记录数据日志)有助于减少异常值的影响。 ) a( u4 s& D6 [9 M8 H( R& B- C. y* j, \5 g$ \8 _
使用稳健回归方法:稳健回归方法(例如 RANSAC 或 Theil-Sen)对异常值的敏感度低于传统线性回归。& y7 `: W2 n8 w; u' [. I
5 R0 r# z( }$ a% W B! E0 F
使用正则化:正则化可以通过在成本函数中添加惩罚项来帮助防止由异常值引起的过度拟合。# J5 `' f: w8 H& g
; p# S. X% i, x2 M, a总之,采用什么方法将取决于特定的数据集和分析的目标。4 R6 U B! _1 Z. W, P7 i
) }8 E/ |, C, R7 U$ N- b) {5 u3、逻辑回归算法- w- ~4 _$ N7 w; K
逻辑回归是一种统计方法,用于根据一个或多个自变量预测二元结果,例如成功或失败。它是机器学习中的一种流行技术,通常用于分类任务,例如确定电子邮件是否是垃圾邮件,或预测客户是否会流失。 , t5 X2 J5 X$ X, N3 Q$ a% C6 p& A# |* K3 _8 D. r& r7 {
0 q6 i' C5 ]6 P6 w' C. t
$ K; S' J" o3 S# u! L p逻辑回归模型基于逻辑函数,逻辑函数是一个sigmoid函数,它将输入变量映射到 0 到 1 之间的概率。然后使用该概率对结果进行预测。' s& ?- v& E( W; \
4 t. S) P" E' N, Y2 `2 i6 h# X" ]逻辑回归模型由以下方程表示:+ D! E1 E2 |' n; c* z
2 g8 L2 c, T: p5 i, c% \( [P ( y = 1 ∣ x ) = 1 / ( 1 + e − ( b 0 + b 1 x 1 + b 2 x 2 + … + b n ∗ x n ) ) P(y=1|x) = 1/(1+e^-(b0 + b1x1 + b2x2 + … + bn*xn))# K+ V( C/ R4 s9 a
P(y=1∣x)=1/(1+e $ h' r. k' M1 [0 L
−4 c/ F, s ^3 O; s# h
(b0+b1x1+b2x2+…+bn∗xn))/ x: q5 I2 [" d& J4 L
) r8 C% {; ?. x/ u4 G4 Z% r- H0 K5 i) a
其中 P(y=1|x) 是给定输入变量 x 时结果 y 为 1 的概率,b0 是截距,b1, b2, …, bn 是输入变量 x1, x2, … 的系数, xn。通过在数据集上训练模型并使用优化算法(例如梯度下降)来最小化成本函数(通常是对数损失)来确定系数。模型训练完成后,就可以通过输入新数据并计算结果为 1 的概率来进行预测。将结果分类为 1 或 0 的阈值通常设置为 0.5,但这可以根据情况进行调整具体任务以及误报和漏报之间所需的权衡。 z/ F* {+ G$ m2 F
) q8 n; Z/ m4 S4 R" j& x
3.1 什么是逻辑函数? # Z- w: i" N( K! O$ u; z+ F( u f逻辑函数,也称为s i g m o i d sigmoidsigmoid函数,是一条 S 形曲线,将任何实数值映射到 0 到 1 之间的值。它的定义为f ( x ) = 1 / ( 1 + e − x ) f(x) = 1 / (1 + e^-x )f(x)=1/(1+e ! g2 t- e @) V4 f+ V$ d−4 p7 ` L, b) t3 J, E
x)其中 e 是自然对数的底。逻辑函数在逻辑回归中用于对二元结果的概率进行建模。) I3 T. V4 `% X* F3 U/ s- D
% i7 A+ f* b: w1 I% {7 J! \
% x( r2 r! t+ B" R% _2 A$ t. C3 n4 P. ?* k
3.2 逻辑回归可以用于多类分类吗?: M( N& `% w6 w
逻辑回归可用于多类分类,方法是为每个类创建单独的二元逻辑回归模型并选择预测概率最高的类。这被称为一对一或一对一的方法。或者,我们可以使用s o f t m a x softmaxsoftmax回归,它是逻辑回归的推广,可以直接处理多个类。) s+ M/ u; d3 \; y
2 C( m% ?+ j/ W& |" @! F& G; E 6 t1 N8 ?9 J& D1 m+ f& y" V( ^+ ~! V7 C当数据不可线性分离(这意味着数据不能用直线分离)时,SVM 特别有用。在这些情况下,SVM 可以使用称为核技巧的技术将数据转换为更高维的空间,其中可以找到非线性边界。SVM 中使用的一些常见核函数包括多项式、径向基函数 (RBF) 和s i g m o i d sigmoidsigmoid。( U# U: S. X" }3 v* x5 B