Exploring Models and Data for Image Question Answering 论文翻译
这项工作旨在解决基于图像的问答(QA)与新模型和数据集的问题。 在我们的工作中,我们建议使用神经网络和视觉语义嵌入,而不需要诸如对象检测和图像分割之类的中间阶段来预测关于图像的简单问题的答案。 我们的模型比现有图像质量保证数据集上的唯一公布结果好1.8倍。 我们还提出了一种问题生成算法,该算法将广泛可用的图像描述转换为QA形式。 我们使用此算法生成一个数量级更大的数据集,具有更均匀分布的答案。 还...