李宏毅机器学习(六)自监督学习(一)学习内容前情提要Bert的基本知识
学习内容前情提要BERT与芝麻街这些都是BERT的组件BERT与进击的巨人BERT(340 M 参数)ELMO(94M)GPT-2(1542M)Megatron(8B)T5(11B)Turing NLG(17 billion)GPT-3(170 billion)Bert的基本知识前提监督学习: 有标签自监督学习:由于没有标签,我们需要将文章的某一部分作为特征,另一部分作为标签,使得特征经过模型后和标签距离更近;无监督学习: 就是没有标签喽!Masking Input