查看: 3440|回复: 0

[其他资源] K-近邻算法分类和回归

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2022-9-5 15:43 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

K-近邻算法分类和回归
K近邻算法的主要思想是用离测试集数据点最近的训练集点(称为其邻居)的输出来估计测试集数据点的输出，参数K代表用多少个邻居来估计。超参数K通常设置为奇数来防止平局现象。

其中对邻居的判定：我们可以用欧几里得距离来衡量距离来确定其K个邻居。

K近邻算法是一种惰性学习和非参数模型。当训练数据数量庞大，同时你对响应变量和解释变量之间的关系所知甚少时，非参数模型会非常有用。KNN 模型只基于一个假设：互相接近的实例拥有类似的响应变量值。非参数模型提供的灵活性并不总是可取的，当训练数据很缺乏或者你对响应变量和解释变量之间的关系有所了解时，对响应变量和解释变量之间关系做假设的模型就很有用。

KNN模型分类：
下面我们看一个分类的例子和代码实现来了解一下K近邻算法：

上表是我们的训练集，下面先对数据进行可视化

import numpy as np
from matplotlib import pyplot as plt
import sklearn

X_train = np.array([ # 身高体重
[158, 64],
[170, 86],
[183, 84],
[191, 80],
[155, 49],
[163, 59],
[180, 67],
[158, 54],
[170, 67]])
y_train = ['male']*4 + ['female']*5 # 性别

#绘制图像
plt.figure()
plt.title('Human Height and Weights by Sex')
plt.xlabel('Height in cm')
plt.ylabel('Weight in kg')
for i, x in enumerate(X_train):
plt.scatter(x[0],x[1],c='k',marker='x' if y_train == 'male' else 'D')$ b( v! q5 h0 R. I
plt.grid()
4 B% W! D. C( d! aplt.show()- c5 s1 n/ d) ]* ]" w  X3 B

- s8 K# [  T* V# e- G4 d结果：
8 z6 S9 w  T% z- X- i7 z& b
; Q( o" ?3 s8 \4 z6 K. `4 z
6 }% C) i' z; Y0 ?, L& K8 b  O0 ?. ?7 H/ i" O
我们使用欧几里得距离公式来衡量距离：
2 h8 E+ L1 Q, n" H: u+ a" K# B5 S& c0 D/ Y

2 t% f1 F0 L( h) \6 }
1 F' j3 L  G9 w  V% T
3 A! D. W1 K# t/ S( j! ]
3 n: |, D5 h! M4 ?# _2 Y 我们设置参数K=3，来寻找3个距离最近的训练实例
& m. v$ F9 G( J# m9 b. T2 K
1 {/ a- \! y& g5 H& _# [3 w" ~3 A( M& L下面代码实现K近邻算法进行分类：
8 w2 Z% g; O. W1 j# {2 ^, Y
" [0 i  z5 d0 H% Px = np.array([[155, 70]])
4 e# m4 f. L6 ?1 P! zdistances = np.sqrt(np.sum((X_train - x)**2, axis=1)) # 计算距离3 [) @8 P) G6 l+ G. ~
% r4 u$ }/ h* o2 d; q& i7 x
nearest_neighbor_indices = distances.argsort()[:3] # 找出前三个距离最小的下标3 X! a3 c3 ]4 v7 C$ S. x
nearest_neighbor_genders = np.take(y_train, nearest_neighbor_indices) # 得到下标对应的标签
( u1 s0 l' T0 {2 P3 S1 [
% w) ^: _# h9 g, B8 Ofrom collections import Counter
% _& b+ q1 _5 S7 Y6 L$ Db = Counter(np.take(y_train, distances.argsort()[:3])) #得到三个结果标签中最频繁的标签得到结果female
+ O0 }7 C0 n5 Z- E8 `$ z! e! |0 P4 w. H7 @/ u9 X
print(b.most_common(1)[0][0]) # female0 G! u1 t  o; u5 L3 {
因此，从上述代码可以得到K近邻算法进行分类就是找到离样本点最近的K个实例，再取K个实例的标签中出现次数最多的那个作为我们的结果。
5 b$ W. r! V! ~) @  V/ q6 q; j
6 H# x2 _& g3 z6 ]: F3 m上述K近邻算法在scikit-learn中也有对应的函数：9 x: y- R, k7 L0 K3 ?" M

: ?1 b3 V& M, ^+ @+ B4 s, T' Ufrom sklearn.preprocessing import LabelBinarizer
& [$ K, k2 s/ w3 m4 g) E* |from sklearn.neighbors import KNeighborsClassifier  V$ E/ D" \9 v
4 J  O2 d0 E2 E$ i0 `. ^
lb = LabelBinarizer() # 创建将标签二值数值化的类实例
" }) Y+ I6 D) I& P3 m* N' [y_train_binarized = lb.fit_transform(y_train) # 将标签二值数值化" Y& i0 f& f% P3 V) w
print(y_train_binarized) ) `% X) A" u& \; K: }3 R
+ q* o$ v, W0 {* ~, z9 ]0 L
K = 39 J, j# Y) k; v$ c' Y" ]; C
clf = KNeighborsClassifier(n_neighbors=K) # 创建K近邻分类器实例0 S; {8 }9 X) z! v7 H9 j9 G
clf.fit(X_train, y_train_binarized.reshape(-1, 1)) # 对训练集进行训练
% ~6 n/ n7 Y3 S  pprediction_binarized = clf.predict(np.array([155, 70]).reshape(1,-1))[0] # 对测试样本点进行预测; j/ B4 X% h% g; _9 I4 k0 g
prediction_label = lb.inverse_transform(prediction_binarized) # 将预测结果从数字转换为标签
' ?2 t- d5 r* _0 V( lprint(prediction_label) # array(['female'], dtype='<U6')" w: g' e4 X9 p9 S) J- ]
KNN回归：
- d+ v+ Y) R1 l/ H9 X2 v( x$ BK近邻算法进行回归和K近邻思想一致，只不过在得到了K个邻居后，分类是取邻居中出现次数最多的那个，而回归是取其他的操作来预测输出值(比如取平均)+ y2 U: S' i/ }8 I! `# Z
  a/ m. s$ Z. f
对应的代码在scikit-learn中其实也很简单  J8 f& p7 J0 v& A6 R
3 T7 o$ Y7 K: r0 V: B0 f. Z) w, I
from sklearn.neighbors import KNeighborsRegressor
/ U3 }! B  N" V" oK = 3
. b# s( j9 ]8 {clf = KNeighborsRegressor(n_neighbors=K)" ]! n  n/ r2 ]9 d" y
clf.fit(X_train, y_train)
& z9 {1 L: I* |; b* S; y6 dpredictions = clf.predict(X_test)! o8 L" u) `: y$ ~
特征缩放
& Q! l7 r% B5 i- R& F* k8 W2 S下面我们谈谈一个提升算法精确度的小细节。假设还是上面的数据，我们现在要做回归，给定身高和性别标签来预测体重。如果我们的训练数据集包含一个身高170cm的男性和身高160cm的女性。如果我们的测试集数据为身高为164cm的男性，你觉得其预测结果会接近170cm的男性还是身高160cm的女性呢？我们可能相信测试实例更接近男性实例，因为对预测体重来说，性别差异可能会比 6cm 的身高差距更重要。但是如果我们以毫米为单位表示身高，测试实例更接近于身高1600mm 的女性。如果我们以米为单位表示身高，测试实例更接近于身高 1.7m 的男性。（记住我们以欧几里得距离来衡量）
; i) b1 d8 Z+ g% L6 p
2 [# B! a) Q2 L- R% |因此，我们的特征缩放的作用就出来了(其实就相当于深度学习对数据集预处理中的Normalize). `3 m6 I* I5 f) l; c8 ?$ o" s

9 K! M  y; `" q  H将所有实例特征值减去均值来将其居中。其次将每个实例特征值除以特征的标准差对其进行缩放。均值为 0，方差为 1 的数据称为标准化数据。
( |. v" {7 [* Q- d3 s( S. D8 z————————————————
( ?3 k# e; p" b5 G* @2 b4 \( [版权声明：本文为CSDN博主「王大队长」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
6 V4 \  K% l" m& O) u/ `" ?# b原文链接：https://blog.csdn.net/qq_55621259/article/details/126695549
7 a& H! S, ?7 ~& |# o4 L! d% {/ W
3 y' h5 ]" W6 O' h3 v* K& A