概述
论文笔记整理:谭亦鸣,东南大学博士。
来源:Knowledge-Based Systems 197 (2020) 105910
链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839
概要与动机
知识图谱推理是图谱构建的关键技术之一,它在包括垂直搜索和智能问答等应用场景中有着重要作用。推理的目标是根据已知实体和关系推断所需的未知实体。现有的推理方法主要基于embedding实现(即对所有的实体和关系做整体embedding,然后利用向量相似度推断实体间的关系或者给定三元组是否为真)。但是在真实的应用场景中,我们需要一个清晰且可解释的实体作为输出。本文提出一种基于注意力机制的知识图谱深度强化学习框架ADRL,用于学习多跳关系路径,通过深度学习及强化学习结构化感知,从而提高传统方法效率,泛化能力及可解释性。
贡献
本文的主要贡献包括:
1.提出了一个面向知识图谱推理的基于深度学习的新框架,相较传统方法,该框架科研有效提升性能及可解释性
2.设计了一个关系模型,作为推理框架的通用插件,其中的self-attention能够循环推断实体之间的关系以引导一个model-free的策略,这一做法相对前人工作更有助于agent推断关系路径
3.利用actor-critic方法有效解决了奖励系数问题,其中奖励取决于价值函数,并将同策略一起被训练和优化
模型与算法
本文提出框架的整个过程如下图所示,其过程大体可以描述为:
1.首先将知识图谱的agent环境输入卷积神经网络(CNN);
2.利用深度CNN将其映射到低维向量,且可以在每个级别可以传递信息
3.接着使用LSTM(使用校正的线路单ReLU激活函数),用于储存生成的历史轨迹,构成策略与价值函数
4.上述步骤的输出被输入进一个关系模型,模型中包含一个self-attention模块用于推断和分享实体向量及关系向量的权值
5.利用一个特征感知的最大池化层对关系模型的输出进行聚合,最后传递给一个MLP接着是ReLU激活函数用于产生一个策略以及一个基准标量价值函数,可以被用作一个agent奖励
在优化算法方面,作者考虑到基于梯度下降的方法效率较低,而蒙特卡洛抽样依赖于大量积极奖励(尤其是学习初始阶段),为了解决这些问题,作者选择Actor-Critic,一种结合策略梯度和顺序差异学习的强化学习方法。Actor-Critic算法可以执行单步更新参数,使用值函数作为基础函数来减少策略梯度的差异,而无需等待回合结束,并且在训练过程中可以同时学习策略和价值函数,算法流程如下图:
实验与结果
实验数据:
本文实验所使用的数据是目前较为流行的KG推理数据集(WN18RR,FB15K-237,NELL-995),其统计信息如表1.
表2是linkprediction实验结果,本文方法展现出了更好的性能,作者认为是共享的实体及关系权值带来了更佳的性能表现。
表3是factprediction的结果,作者认为本文方法的优势在于“the reason is that our model is more complex than the previous model, introducing more state-of-the-art methods”
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。
最后
以上就是可靠白昼为你收集整理的论文浅尝 | ADRL:一个基于注意力机制的知识图谱深度强化学习框架的全部内容,希望文章能够帮你解决论文浅尝 | ADRL:一个基于注意力机制的知识图谱深度强化学习框架所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复