# 机器学习流程

作者:华王
星球:https://t.zsxq.com/0dgMjetVg (opens new window)

学习、分享、成功;提高效率,有所收获!😄

# 一 工作流程

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

机器学习工作流程:

1.获取数据

2.数据基本处理

3.特征工程

4.机器学习(模型训练)

5.模型评估(结果达到要求,上线服务;没有达到要求,重新上面步骤)

# 二 数据集介绍

数据决定了模型的上限,而算法只是逼近这个上限而已

2.1 数据简介

一行数据我们称为一个样本;一列数据我们成为一个特征有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)

2.2 数据类型构成:

类型一:特征值+目标值(目标值是连续的和离散的)

类型二:只有特征值,没有目标值

2.3 数据划分

训练数据:用于训练,构建模型;测试数据:在模型检验时使用,用于评估模型是否有效

比例:训练集:70% 80% 75%;测试集:30% 20% 25%

2.4 数据处理

对数据进行缺失值、去除异常值等处理

2.5 常用数据集

Kaggle网址:https://www.kaggle.com/datasets

UCI数据集网址: http://archive.ics.uci.edu/ml/

scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

# 三 特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程

特征过程包括:特征提取;特征预处理;特征降维

特征提取:将任意数据(如文本或图像)转换为可用于机器学习的数字特征

特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

# 四 训练

选择合适的算法对模型进行训练

# 五 评估

对训练好的模型进行评估

模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。

1 欠拟合

模型学习的太过粗糙,学习到的东西太少;

机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。

2 过拟合

所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳

学习到的东西太多;学习到的特征多,不好泛化

机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。

# 总结

上次更新: 2023/6/18