【自然语言处理】: transformer原理实现
1.seq2seq一般在我们序列模型当中,都会分为encoder和decoder两个部分,如下图所示:而我们的transformer变形金刚其实相当于是一种对我们seq2seq的一种升级版本,也就是在seq2seq上加上了self-attention,也就变成了我们的transformer,我们可以看到transformer的结构如下所示:在上面这张图当中,左边的就是我们的的enco...