概述
第十九章 生成标题的神经网络模型
字幕生成是一个集计算机视觉和自然语言处理于一体的具有挑战性的人工智能问题。编码器-解码器(Encoded-Decoder)递归神经网路架构已被证明在这个问题上是有效的,该体系的实现可以提炼为基于注入和合并的模型,并对递归神经网络在解决问题中的作用做出不同的假设。在本章中,你将了解生成字幕的编码器-解码器的循环神经网路模型的注入和合并架构。接下来,你将了解:
- 字幕生成的挑战和编码器-解码器架构的使用
- 注入模型将编码图像与每个单词组合生成字幕中的下一个单词
- 合并模型,单独编码被解码的图像和描述,以便生成
19.1 图像生成字幕
图像生成字幕解决的是如何把照片内容翻译成可度和简洁的文本描述的问题。这是以个具有挑战性的人工智能问题,因为它需要使用计算机视觉的技术来解释照片内容和自然语言处理的技术来生成文本描述。最近,深度学习方法已经在这个具有挑战性的问题上取得了很好的成果,结果令人印象深刻,这个问题已经成为证明深度学习能力的标准示范问题。
19.2 编码器-解码器架构
标准编码器-解码器递归神经网络架构用于解决图像生成字幕问题。这里涉及两个要素:
- 编码器:一种网络,它使用内部表示读取照片输入并将内容编码为固定长度的矢量
- 解码器:读取编码照片并生成文本描述输出的网络模型。
通常使用卷积神经网络对图像进行编码,并且使用诸如长短期存储器网络的递归神经网络来对中间码解码到目前为止生成的文本序列或序列中的下一个单词。对于字幕生成问题,有很多方法可以实现这种架构,通常使用在照片分类问题上使用预训练卷积神经网络模型来对照片进行编码。可以加载预训练模型,删除模型输出,并使用照片的内部表示作为输入图像的编码或内部表示。
对字幕生成问题进行框架操作化很常见,在给定图片和之前生成的文本描述作为输入,模型生成输出文本描述的后续单词,在此框架中,模型被递归调用,直到生成整个输出序列。
这种框架可以使用Marc Tanti等人称为注入模型和合并模型的两种体系结构之一来实现。
19.3 注入模型
注入模型将图像的编码形式与迄今为止生成的文本描述中的每个单词组合在一起,该方法使用递归神经网络作为文本生成模型,其使用图像和单词的信息的序列作为输入,以便生成序列中的下一个单词。
在这些“注入”体系结构中,图像矢量(通常是卷积神经网路中隐藏层的激活值)被注入到RNN中,例如通过将图片矢量与“单词”相提并论并且包括它作为字幕前缀的一部分。
该模型将图像的关注点与每个输入词组合在一起,要求编码器开发一种将视觉和语言信息结合在一起的编码。
在注入模型中,RNN被训练用来预测由语言和感知特征组成的历史,因此该模型中RNN主要负责图像语言的生成。
19.4 合并模型
合并模型是将输入图像的编码和生成文本的编码相结合,然后这两个编码输入的组合由非常简单的解码器模型使用,以生成序列中的下一个词。该方法仅仅使用递归神经网络对目前生成的文本进行编码。
在“合并”框架的情况下,图像被排除在RNN网络之外,是的RNN仅处理字幕前缀,即仅处理纯语言信息,在前缀被矢量化之后,图像矢量然后在单独的“多模式层”中与前缀矢量合并,该多“多模式层”在RNN网络之外
这种分离了图像输入、文本输入和编码输入等建模的各自的关注点及相关组合和解释。如上所述,通常使用预训练模型来编码图像,类似的,可以使用预训练语言模型来编码字幕文本输入。
19.5 更多关于合并模型
编码器-解码器架构的合并模型的成功表明:递归神经网络的作用是编码输入而不是生成输出,这与常规认为递归神经网络的作用在于生成模型的理解背道而驰。
如果RNN具有生成字幕的作用,那么他将需要访问图像以便知道要生成什么,这似乎不是这种情况,因为将图像包括在RNN中通常不利于其作为字幕生成器的性能。
注入和合并模型的明确比较,以及用于字幕生成的合并注入成功,提出了这种方法是否转换为相关的序列到序列的生成问题。用于图像编码的预训练模型不同,预训练的语言模型可用于对文本摘要,问答系统和机器翻译等问题的源文本进行编码。
最后
以上就是幸福水蜜桃为你收集整理的Keras自然语言处理(二十二)第十九章 生成标题的神经网络模型的全部内容,希望文章能够帮你解决Keras自然语言处理(二十二)第十九章 生成标题的神经网络模型所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复