马毅教授CRATE-α模型首次证实白盒Transformer可扩展性

2024-06-23 05:50 218 阅读 0 评论 144 点赞

靠谱客（kaopuke.com）6月23日消息:马毅教授团队最近取得了显著的研究成果，他们开发的CRATE-α模型首次证实了白盒Transformer架构的可扩展性。这一进展对于自然语言处理（NLP）、图像处理和视觉计算领域的深度表征学习具有重要意义。

尽管Transformer架构及其变体在AI领域取得了巨大成功，但它们大多基于经验设计，缺乏严格的数学解释。CRATE模型通过数学推导得到每一层，提供了更好的可解释性。不过，CRATE的应用规模之前相对有限，与Vision Transformer的参数量相比有较大差距。

为了解决这一问题，研究团队提出了CRATE-α，它对稀疏编码块进行了策略性但最小化的修改，并设计了轻量级的训练方法，有效提高了CRATE的可扩展性。实验结果显示，CRATE-α的性能随着模型尺寸和训练数据集的增大而持续提升。在ImageNet分类任务上，CRATE-α-B和CRATE-α-L的准确率显著提高，同时保持了CRATE模型的可解释性。

研究人员使用了ImageNet-21K和ImageNet-1K数据集进行训练和微调，证明了CRATE-α在不同像素块大小下的性能。此外，他们还采用了多模态数据集DataComp1B，包含14亿图文对，通过对比学习的方法训练CRATE-α，并使用优化的CLIPA协议减少计算资源消耗。

CRATE-α模型的可扩展性通过在ImageNet-1K数据集上的零样本学习评估得到了证明，这为衡量模型的泛化能力提供了重要指标。研究人员还发现了节省计算资源的扩展策略，通过调整预训练阶段的图像token序列长度，在减少计算资源消耗的同时，保持了模型性能。

CRATE-α的语义可解释性也得到了提升，使用MaskCut评估模型捕获的丰富语义信息，CRATE-α在目标检测和分割方面比现有模型有所提高。这些研究成果不仅推动了Transformer模型的发展，也为未来的研究和应用开辟了新的道路。

论文:https://arxiv.org/pdf/2405.20299

项目地址:https://rayjryang.github.io/CRATE-alpha/

（举报）