李宏毅机器学习（六）自监督学习（一）学习内容前情提要Bert的基本知识

90 阅读 0 评论 60 点赞

我是靠谱客的博主大意时光，这篇文章主要介绍李宏毅机器学习（六）自监督学习（一）学习内容前情提要Bert的基本知识，现在分享给大家，希望可以做个参考。

学习内容

前情提要

BERT与芝麻街

这些都是BERT的组件

BERT与进击的巨人

BERT（340 M 参数）
ELMO（94M）
GPT-2（1542M）
Megatron（8B）
T5（11B）
Turing NLG（17 billion）
GPT-3（170 billion）

Bert的基本知识

前提

监督学习：有标签
自监督学习：由于没有标签，我们需要将文章的某一部分作为特征，另一部分作为标签，使得特征经过模型后和标签距离更近；
无监督学习：就是没有标签喽！

Masking Input

BERT就是输入一些字符，输出一些字符；
Mask Input有两种：第一种是盖住；第二种是替换；
但是在输出结果后还是要和GT标签计算距离！

Next sentence Prediction （观察两个数据是相连还是不相连）

方法：
输入两个句子，输出vector
sep: 两个句子的分隔符；
CLS：输出这两个句子是不是相连接的，连接 = True；不连接=Flase；

评价：
没有用，这个Next sentence Prediction是没用的

其它：
SOP： sentence order prediction
Used in ALBERT

那Bert有什么用？填空题？

其它应用？

下游任务！我们需要Bert进行pre-train，类似胚胎干细胞，fine-tune成不同的Model

GLUE

判断一个模型好与不好，需要在公开模型中判断，GLUE就是一个标杆；
GLUE中包含了各种数据集，从而测试不同模型的不同的性能。下图中是各个子任务达到的SOTA和人类能力的比对。

实例

Case 1: 情感分析

图片1
线性层是需要随机初始化的！而BERT是预训练的模型（会做填空题的BERT）， CLS输出该句子的情感。
随机初始化的效果要差！

Case 2：POS（词性标注）输入一个句子输出一样长度的句子

图片2
这里的CLS就没啥用了，因为我们输出的是三个

Case3： NLI（自然语言逻辑判断）

查看两句话的逻辑是否相通，能否通过前提推出假设！是不是矛盾的！
图片3
用在哪？比如论文和某个人的评论，到底是合理的还是不合理的！
输入两个句子，输出CLS

Case4： QA（问答系统）

让机器读后，你提出问题，让他给你一个答案！
题目：图片1
怎么使用BERT：图片2
你唯一需要训练的向量就是两个随机初始化的向量，这两个向量的大小和BERT的产出向量是同样大小到！怎么使用这两个向量呢？我们先用橙色的向量与右边的文件向量做Inner Product，查看和document哪个单词的内积更高，那么s 就等于几；蓝色的同理，代表了答案结束的向量，d就等于几。答案= s - d
问题1：输入长度有限制吗？
答：长度不是无限长的

问题2：和填空题的区别
答：