我是靠谱客的博主 寒冷未来,最近开发中收集的这篇文章主要介绍机器学习(1)从基本术语开始,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

哦~从这章开始,要写一个系列有关机器学习的套路。

从原理开始吧,机器学习的代码到处都能找到呢。

选教程的话,推荐周志华的《机器学习》,视频教程看吴恩达教授的机器学习公开课就可以了。


数据集(data set),样本(sample)或特征向量(feature vector),特征(feature)或者属性(attribute),属性值(attribute value),维数(dimensionality),标记(label)


 数据集为训练和测试用的数据,比如人脸识别中,数据集就是一张张人脸,样本就是数据集中的一个数据,在人脸数据中,样本就为一张人脸图片,一个数据集中每个样本都有固定的特征数量,比如判断一台电脑是不是“好”电脑,可以分CPU,GPU,内存,显存四个特征,属性值或者特征值就是特征的数值,比如内存多大,显存多大,GPU是不是英伟达的,维数就是特征的数量,比如电脑那个样本中,就是4个维数。单给出数据,程序时没办法做出分类,所以还要给数据配上标记,(X1,y1),X为样本,y为标记,标记表明该样本是“好”或者“不好”,这样程序就能从数据中分辨出样本属于什么。

监督学习,无监督学习,分类和回归,聚类(clustering)


过度拟合和欠拟合:

一个数据集分两个部分,一个为训练集,一个为测试集,训练集用来做出模型,测试集用来校验模型的精确率。

把一个数据集分成两部分有三种方法:

留出法(hold-out),交叉验证,自助法:

留出法:假设有1000个样本,把700个样本作为训练集,300个样本作为测试集,假如测试的时候有90个样本是分类的错的,那么该模型的精确度为;1-(90/300) * 100% = 70%

交叉验证:

假如我有1000个样本,以100个样本为一组,那么就有10组,从每一组抽出10个样本作为测试,那么每一组剩下的90个样本作为训练,最后10组得出的测试结果再平均。

自助法:

自助法适合小数据,假如数据集有1000个样本,每一次从数据集抽出一个样本,抽出后放回,下一次抽取依然有可能会抽到相同的样本,也有可能是有一些样本永远不会被抽到。其中上图的m为样本个数。


这次装逼先到这里

依旧惯例附上我的公众号:

最后

以上就是寒冷未来为你收集整理的机器学习(1)从基本术语开始的全部内容,希望文章能够帮你解决机器学习(1)从基本术语开始所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(45)

评论列表共有 0 条评论

立即
投稿
返回
顶部