查看: 2199|回复: 0

1.机器学习概念及相关术语解释

[复制链接]

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2022-9-8 10:23 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

- K( O: l9 T, z% T+ X- P# K. i
1.机器学习概念及相关术语解释

一丶机器学习概念
概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能

总结: 机器学习模型=数据+算法

如果有新的数据,我们只需要带入到Model中就可以输出预测值

什么不是机器学习?

比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)
机器学习其实就是需要有一个预测的过程

机器学习概念补充:

1.说明: X: 特征或属性 Y:类别标签类或预测的值

训练集和测试集: 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
模型的好坏: 训练误差(模型预测在训练集上的Y值误差)丶测试误差(模型预测在测试集上Y值的误差)丶准确率(分对的/全部)丶错误率(1-正确率)
二丶两种学习方式
基于规则的学习: 主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
基于模型的学习: x:特征数据 --> f(函数-模型) --> Y(结果数据),基于模型就可以直接预测分析得到结果数据
三丶术语
3.1机器学习分类的几种概念

监督学习: 训练集数据有类别标记
无监督学习:训练集数据没有类别标记
半监督学习: 有类别标记的训练集+无标记的训练集
强化学习: 常见的应用场景包括动态系统以及机器人控制等
监督学习:

分类:预测值是否为连续值,不是连续值的预测的话,是分类
回归:预测值是连续值的话,是回归
非监督学习:

聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2
半监督学习:

1.基于聚类的假设
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
2.利用所有样本再进行模型训练
强化学习:

解决连续决策的问题丶围棋丶无人驾驶汽车等问题
3.2机器学习三要素

模型: 决策函数丶条件概率分布
算法: 解析解和最优解(梯度下降法和牛顿法)
策略: (损失函数)评判一个模型的好坏
3.3其他

降维: 将多维数据降成低维度数据,不过降过的维度不能使用具体的物理含义表示
抽样: 有行抽样和列抽样,如果模型发生欠拟合和过拟合,可以使用抽样方法很好的解决
交叉验证: 交叉验证就是将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证
过拟合: 模型对于训练集效果很好,对于测试集效果较差原因:模型过于复杂
欠拟合:模型对于训练集和测试集效果都很差原因: 模型太过简单
模型选择的基本原则-奥卡姆剃刀原则:在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
特征向量: 将属性或特征,通常使用向量来进行表示
训练集: 数据集划分的一部分,来用于模型或者算法的训练
测试集: 数据集划分的一部分,来用于对已经训练好的模型进行测试模型的误差好坏

四丶分类和回归问题
4.1说明

如果预测值是连续值对应的问题是回归问题
如果预测值是离散值对应的问题的分类问题
4.2类别型变量处理
比如天气: 晴天丶阴天丶雨天
lable encoder: 标签编码

晴天丶阴天丶雨天
0--------1--------2

ont-hot encoder: 独热编码(二进制方式)

晴天丶阴天丶雨天
1---------0----------0
0---------1----------0
0---------0----------1

总结:通常使用label encoder(标签编码)
————————————————
版权声明：本文为CSDN博主「First_____」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/First_____/article/details/126717523

zan