AAAI 2022｜AI顶会论文究竟关注什么？（3）

更新时间：2025-01-15 点击次数：

　　最近， Vision Transformer 的结构引起了研究者们的广泛关注。在许多计算机视觉的任务中★★★，Vision Transformer 都取得了领先的性能。那么，由此引发的一个问题就是★：Vision Transformer 性能优异的原因究竟是什么？

　　目前来说生成式摘要主要是在 sequence-to-sequence 框架下完成的（如图13所示）。通过一个编码器（Encoder）对长的文章进行编码★，再用一个****（Decoder）对编码后的信息进行解码并生成想要的摘要。在训练过程中，通常使用的是NLL（Negative Log Likelihood）作为损失函数★。

　　除此之外，为了增加训练样本的多样性★，研究员们还将模型生成的摘要也加入到训练样本中。整个训练过程在优化 NLL 的同时★★，也在拉近原文章★★、目标摘要和模型生成的摘要三者的相似度(如图15所示)。在训练过程中，跟 BYOL 类似，研究员们采用了双塔型的结构（见图14）。为提高训练的稳定性，对比学习目标端的参数为其对比端的移动平均值（moving average）并停止梯度回传。

　　在进行全局建模时★★，本文设计了一种不基于自注意力机制的方法——稀疏的多层感知机（sparse MLP）模块★。每个 token 只与其所在行和所在列的 token 进行直接交互。这种方法参数量低★，缓解了 MLP 容易过拟合的问题，同时又可以快速地捕获全局感受野。

　　基于 sparse MLP，配合局部偏置和金字塔结构这种对于图片识别很重要的设计理念，该方法达到了和基于自注意力机制的方法一样的性能。这说明自注意力机制并不是必须的，也希望本文可以启发更多研究人员关注不基于自注意力机制的方法。

　　但是微软亚洲研究院的研究员们意识到 NLL 并没有很好地建模文本摘要任务一个重要的特点★★★：文章和摘要虽然长度的差别很大★★，但是所描述的主要内容应该是一致的★。为了更好地在训练过程中强调这一点，研究员们引入了序列间对比学习模型 SeqCo（Sequence-level Contrastive Learning），将文章和摘要映射到成同一个向量空间的两个序列，并且在该向量空间内拉近文章序列和摘要序列的相似度★。

　　移位操作在计算机视觉已经有了很成功的应用★★★。所以研究员们借鉴了部分移位的设计★★★，其结构如图17所示★★。对于输入的特征，研究员们将一部分的通道向上、下★★、左★★、右四个方向分别移位一个像素。通过这种方式，使得模型能够获取邻域位置的信息。

　　最近，Transformer 在计算机视觉领域取得了领先性能并得到了学者的广泛关注★★。其中，自注意力机制(Self-Attention)是 Transformer 取得成功的核心模块。它以一种动态的方式捕获图片的全局感受野。然而★，由于需要计算每两个 token 之间的关系，它的时间复杂度是平方量级的，因此，难以处理高分辨率图片，并且对金字塔结构（pyramid structure）很不友好。而高分辨率输入和金字塔结构是提高图片识别性能的关键要素★★。此外★★★，Transformer 完全摒弃了局部偏置（locality bias）。这种局部偏置也是卷积神经网络在计算机视觉取得成功的重要因素★★★。

　　实验结果表明，和仅仅使用了 NLL 作为损失函数的模型相比★，在训练中引入对比学习使得模型的效果在 CNNDM★★★、XSum 和 NYT 摘要数据集上都得到了显著的提升（表8为在 CNNDM 上的结果★，在其他数据集上的结果具有相同趋势）★★★。

　　*博客内容为网友个人发布，仅代表博主个人观点★，如有侵权请联系工作人员删除★。

　　研究员们采用这个简单的操作去替代 Swin Transformer 中的 Attention★★★。令人惊讶的是，在许多视觉任务上，它的效果并不亚于 Swin Transformer。这说明 Transformer 成功的因素可能并不完全是由于 Attention ：哪怕是这么一个0参数量★★、0计算量的简单操作都能够取得相近的性能。因此，在今后的研究中，Transformer 的一些设计细节或许也应该受到大家的重视，例如训练细节、归一化的方式等等。在文章中，微软亚洲研究院的研究员们也进行了一些初步的探讨★，希望能够启发大家的思考。

　　此前，许多研究者相信，自注意力机制（Self-Attention）是让Vision Transformer 成功的主要原因。相比与常见的卷积操作，自注意机制提供了一种全局的（global）、动态的（dynamic）方式去建模图像中的空间关系。但是，最近的一些研究表明，全局性和动态性可能都不是必须的，例如 Swin Transformer 将全局的 Attention 转换为局部的 Attention；MLP-Mixer 将动态的聚合权重变成了固定的全连接层★。实验证明★★，这些简化都没有损害自注意力机制的性能。为了进一步探索是什么让 Transformer 成功，微软亚洲研究院的研究员们希望进一步去简化 Attention 的模块。具体来说，研究员们将简化推向一种极端情况★★★：没有全局性、没有动态性、甚至没有参数、没有算术运算。这个操作就是邻域的移位操作（Shift）。

　　另一方面，也有学者对自注意力机制的必要性提出了质疑★★★。MLP-Mixer设计了一种单纯使用多层感知机（MLP）的网络架构。它与基于 Transformer 的网络架构 ViT 的主要区别是在空域上进行 token 之间的交互时仅使用了 MLP 来替代自注意力机制★★★。MLP 由于参数量大容易过拟合，因此效果与基于 Transformer 的方法比还有差距。然而，这并不能证明自注意力机制一定是必要的。

　　文本摘要（Text Summarization）的主要目标就是提炼一篇长文章的主要内容，将其改写成一篇概括性的摘要。按照改写的方式★★★，通常将摘要分为抽取式摘要和生成式摘要两种★。抽取式摘要是指从原文中抽取几个句子作为摘要，而生成式摘要则需要模型对整个长文章有一个整体的理解，然后生成一段简洁★★、连贯的摘要★★。

上一篇：平安科技取得文本摘要生成方法相关专利

下一篇：没有了