概述
视频来源:
李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
https://www.bilibili.com/video/av10590361/?p=5
function set === model
error来源:
(1)baise
(2)variance
问题一: 怎么估算Biase和Variance -------数理统计中的点估计
点估计步骤:
(1)抽取样本
(2)计算样本的均值,方差等
(3)使用统计量近似估算总体的方差,均值
百度介绍点估计:
点估计_百度百科
https://baike.baidu.com/item/%E7%82%B9%E4%BC%B0%E8%AE%A1/10842926?fr=aladdin
如图:
(1)baise就相当于眼睛瞄准的时候是否有偏差以及偏差的多少
(2)variance就是瞄准之后手是否抖动或者是设备的好坏
分析:
第一张图表示蓝色点在靶心的位置,也就是瞄准了以及手也没抖
第二张瞄准了(点散落在靶心的周围)但是手抖了
model复杂性与散布的关系:
简单的model不怎么受不同data的影响比较小(想的少,没心没肺),他自己会找到符合自己的曲线的数据
复杂的model'就是想的比较多(劳碌命),每一个不同的数据它都想囊括进来(一个都不能少)
Biase
黑色: 真实的曲线(靶心)
红色:每次不同model500次运行(图中为一次多项式和三次多项式模型)
蓝色:500次的平均
结论:
(1)复杂的均值更接近与靶心,有较小的baise。 所有有可能错过靶心
(2)model只考虑部分的点,比如线性的将其他不符合的舍弃会造成大的baise
baise 大
解决方案:
(1)重构model
(2)加入更多的特征
variance比较大(手抖-----)解决的方案
(1)增加data
(2)Regularization----强迫是曲线更平滑
regularzation 正则化
影响:
(1)可能对baise造成影响,错过靶心
机器学习之正则化(Regularization) - Acjx - 博客园
https://www.cnblogs.com/jianxinzhou/p/4083921.html
重点: 就是在baise和variance中取得平衡
why not do
(1)在试验中我们使用的Testing 是自己已经知道的局部的一些总体的数据也就是真正的Testing我们是没有的
(2)我们自己设置的Testingset也存在自己的偏差,而这个可能是无法避免的因为我们需要自己进行分出训练集和测试集。故而我们若是选择了model 在我们自己分配的测试集中的error最小的可能造成在真正的应用中error会超级大
交叉验证思想介绍
编辑https://baike.baidu.com/item/%E4%BA%A4%E5%8F%89%E9%AA%8C%E8%AF%81/8543100?fr=aladdin
我们应用和看到的就是Public 的部分
最后
以上就是年轻饼干为你收集整理的李宏毅机器学习笔记(五)-----Where does the error come from的全部内容,希望文章能够帮你解决李宏毅机器学习笔记(五)-----Where does the error come from所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复