我是靠谱客的博主 柔弱人生,最近开发中收集的这篇文章主要介绍可扩展和可靠的胶囊网络多标签文本分类:Towards Scalable and Reliable Capsule Networksfor Challenging NLP ApplicationsAbstract1 Introduction2 NLP-Capsule Framework3 Experiments4 Related Work,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

面向具有挑战性的NLP应用的可扩展和可靠的胶囊网络

  • Abstract
  • 1 Introduction
  • 2 NLP-Capsule Framework
    • 2.1 Convolutional Layer
    • 2.2 Primary Capsule Layer
      • Capsule Compression
    • 2.3 Aggregation Layer
      • Our Routing
    • 2.4 Representation Layer
      • Partial Routing
  • 3 Experiments
  • 4 Related Work
    • 4.1 Multi-label Text Classification
      • Tree-based models
      • Label embedding models
      • Deep learning models:
    • 4.2 Question and Answering
      • IR-based QA
      • Knowledge-based QA
    • 4.3 Capsule Networks

在这里插入图片描述
在这里插入图片描述

Abstract

阻碍胶囊网络发展以挑战NLP应用的障碍包括对大输出空间的低可扩展性和不可靠的路由过程。在本文中,我们介绍

  1. 用于评估实例级路由进程性能的协议分数
  2. 一个自适应优化器,以提高路线的可靠性
  3. 胶囊压缩和部分路由提高胶囊网络的可扩展性。

1 Introduction

在图像分类中,胶囊网络在深度网络泛化能力方面取得了进展,它们能够以不同的视点在不同的3D图像中一般化到相同的对象。
在训练中可以发现对观察到的句子的外推机制。这样,就可以成功地概括出这一体系中未见过的句子。
在这里插入图片描述
这种泛化能力可以通过外推法从观点较少的例子中学习(Hinton et al., 2011)。这表明,在NLP应用中,胶囊网络可以类似地从不同的表面实现中抽象出来。
图1说明了如何通过外推将训练集中观察到的句子推广到未看到的句子。相比之下,传统的神经网络需要大量的训练样本来进行泛化。在卷积神经网络(CNNs)中尤其如此,其中池操作错误地丢弃了位置信息,并且没有考虑本地特征之间的层次关系。


相反,通过使用不带参数的路由流程(类似于聚类方法),胶囊网络有潜力学习连续层之间的层次关系(Sabour et al., 2017),并额外提高泛化能力。在图2中,我们将这种路由进程与池和完全连接的层进行了对比。
一些重要的障碍仍然阻碍着胶囊网络在成熟的NLP应用上的发展。
选择迭代的数量对于路由过程来说是至关重要的,因为他们反复地将低级的胶囊路由到高级的胶囊,以了解层之间的层次关系。但是,现有的路由算法对集合使用相同的迭代次数,这对于判断路由的收敛性是不可靠的。如图3所示,对所有实例进行五次迭代的路由过程在系统级收敛到较低的训练损失,但在实例级,例如一个实例,仍然没有取得收敛。
在这里插入图片描述
此外,由于胶囊网络的数量巨大,潜在的输出空间很大,在路由过程中需要大量的计算资源,因此训练胶囊网络比传统的神经网络(如CNNand long short-term memory, LSTM)更困难。
在这项工作中,我们通过以下贡献来解决这些问题:

  • 我们将路由过程描述为最小化负面协议分数的问题,以评估路由过程在实例级的执行情况,这将在后面进行更深入的讨论。
  • 我们引入了一个自适应优化器来自调整每个实例的迭代次数,以提高实例级的收敛性和提高路由过程的可靠性。
  • 我们提出了胶囊压缩和部分路由,以实现胶囊网络在具有大输出空间的数据集上更好的可伸缩性。
  • 在多标签文本分类和问答方面,我们的框架优于基线。我们也证明了它在低资源环境下优越的泛化能力。

2 NLP-Capsule Framework

这种网络能够扩展到大的输出空间,并在实例级(instance level)提高路由处理的可靠性。我们现在建立了一个统一的胶囊框架。如图4所示,如下所述。

2.1 Convolutional Layer

我们使用一个卷积操作,通过在文档词嵌入上方滑动窗口提取特征。
在这里插入图片描述

2.2 Primary Capsule Layer

在这一层,我们使用组卷积操作(roup-convolution)来转换特征映射到主胶囊层。
与对特征图中的每个元素使用标量不同,胶囊使用一组神经元来表示当前层中的每个元素,这有可能保存更多的信息。
在这里插入图片描述
在这里插入图片描述
压缩函数 g g g 将一个胶囊的长度压缩到 [ 0 , 1 ] [0,1] [0,1] 范围内。

Capsule Compression

这一层的一个主要问题是初级胶囊的数量与所输入文档的大小成比例,在路由过程中需要大量的计算资源。为了缓解这一问题,我们将原来大量的胶囊浓缩成少量。通过这种方法,我们可以合并相似的胶囊并去除异常值。用总初包胶囊的加权和计算每个浓缩胶囊,记为
在这里插入图片描述

2.3 Aggregation Layer

池化是将浓缩胶囊路由到后续层的最简单的聚合函数,但它在聚合过程中丢失了几乎所有的信息。或者,路由过程被引入迭代路由压缩封装到下一层,以学习两个连续层之间的层次关系。
在这里插入图片描述

Our Routing

如前所述,动态路由(Sabour等人,2017)和EM路由(Hinton等人,2018)等路由算法对所有样本使用相同的迭代次数,根据系统级的训练损失,每个表单都使用相同的迭代次数,但在单个测试的实例级别上,仍未达到收敛。这增加了路由过程不可靠的风险。
为了评估路由过程在实例级的性能,我们将它们表示为最小化负协议分数(NAS)函数的代理问题。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
为了解决实例级无法达到收敛的问题,我们提出了一种自适应优化器,根据每个实例的负一致性得分自适应调整迭代次数(见算法1)和Zhao等人(2018)相同,我们将standard softmax替换为leaky-softmax,这降低了胶囊的噪声强度。
在这里插入图片描述

2.4 Representation Layer

这是包含通过迭代最小化NAS函数计算出的最终胶囊的顶层(见公式1),其中最后的胶囊的数量对应于整个输出空间。因此,只要输出空间的大小变大(数千个标签),这个函数的计算将变得非常昂贵,这就产生了胶囊网络可伸缩性的瓶颈。

Partial Routing

相对于数据集上的整个输出空间,响应单个示例的子输出空间相当小,例如,在文本分类中,只有很少的标签被分配给一个文档。因此,在训练阶段,对于每个示例,将低级封装路由到整个输出空间是多余的,这促使我们提出了一种输出空间受限的局部路由算法,因此我们的NAS函数描述如下:
在这里插入图片描述在这里插入图片描述

3 Experiments

这项工作的主要焦点是研究我们的方法在具有大输出空间的数据集上的可扩展性,以及在资源少、训练例子少的情况下的可扩展性。因此,我们在两个特定的NLP任务上验证了我们的基于包的方法:(i)大标签规模的多标签文本分类;(ii)有数据不平衡问题的问题回答

4 Related Work

4.1 Multi-label Text Classification

多标签文本分类的目的是为标签集可能非常大的标签子集分配一个附加值。随着标签数目的增加,出现了数据稀疏性和可伸缩性的问题。针对大规模多标签分类的情况,提出了几种方法

Tree-based models

(Agrawal et al., 2013; We-ston et al., 2013) 使用一种树状结构,用非叶节点重新粗略地划分特征空间。然后,使用叶子节点上的受限标签空间进行分类。这样的解决方案需要更高的鲁棒性,因为它的超高平面设计和计算效率。FastXML (Prabhu and Varma, 2014)就是这样一个基于树的模型,它学习了训练实例的层次结构,并对树结构中节点的基于NDCG的目标函数进行了优化。

Label embedding models

通过两个步骤解决数据稀疏性问题:压缩和解压。压缩步骤学习从原有的高维标签空间投影的低维标签嵌入。当数据实例被分类到这些标签嵌入中时,它们将被投影回高维标签空间,这就是解压步骤。最近的工作提出了不同的压缩减压技术,例如SLEEC(Bha tia et al.,2015)。

Deep learning models:

FastText (Joulin et al.,2016)使用平均单词嵌入对文档进行分类,这在计算上很有效,但忽略了单词顺序。受Kim(2014)启发的各种cnn用动态池的方式探索了MTC,如bow - cnn (Johnson and zhang, 2014)和XML-CNN (Liu et al., 2017)。
线性分类器:PD-Sparse(Yen等人,2016)引入了一种完全校正的块坐标rank-Wolfe算法来解决数据稀疏性问题。

4.2 Question and Answering

最新的QA方法分为两类:基于IR和基于知识的QA。

IR-based QA

首先对问题进行预处理,利用信息检索技术检索出问题的相关段落列表。然后,采用阅读理解技巧在文本范围内提取答案。最近流行趋势是用神经网络进行答案提取。各种各样使用神经网络模型来呈现问题,由于注意力机制可以很自然地探测相关性,因此它被广泛应用于QA模型中,将问题与候选答案联系起来。此外,研究者利用外部大规模的知识库来帮助选择答案。

Knowledge-based QA

对问题进行语义分析,并将分析结果转换为逻辑形式。这些形式被用来匹配结构化知识库中的答案,最近的发展集中在问题和答案对之间的简洁建模。

4.3 Capsule Networks

胶囊网络最初由Hinton(Hinton等人,2011年)提出,改进神经网络对vanillaCNNs的学习。随后,Sabour等人。(2017)将cnnss的标量输出特征检测器替换为矢量输出胶囊和协议路由的最大池化。
Hinton后来提出了一种新的基于EM算法的胶囊层间路由算法,在smallNORB数据集上实现了较高的精度。Zhang等人将胶囊网络应用于多实例多标签学习框架中的关系提取。Xiao等人(2018)探索了胶囊网络的多任务学习。Xia等人解决了胶囊网络的zero-shot 意图检测问题,胶囊网络以一种未被观察到的方式检测新出现的用户意图。Zhao等人研究了动态路由的文本分类胶囊网络,并将知识从单个标签转移到多标签的情况。Cho等人研究了用于提取多文档求和的具有确定点过程的胶囊网络。
我们的工作与前人不同之处在于:
(i)我们在实例级对路由过程的性能进行了评估,并引入了一个自适应的优化器来提高路由过程的可靠性;
(ii)我们提出了胶囊网络的压缩和部分路由,以实现更好的可扩展性的数据集上的大输出空间。

最后

以上就是柔弱人生为你收集整理的可扩展和可靠的胶囊网络多标签文本分类:Towards Scalable and Reliable Capsule Networksfor Challenging NLP ApplicationsAbstract1 Introduction2 NLP-Capsule Framework3 Experiments4 Related Work的全部内容,希望文章能够帮你解决可扩展和可靠的胶囊网络多标签文本分类:Towards Scalable and Reliable Capsule Networksfor Challenging NLP ApplicationsAbstract1 Introduction2 NLP-Capsule Framework3 Experiments4 Related Work所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(48)

评论列表共有 0 条评论

立即
投稿
返回
顶部