阿里发通用多模态大模型mPLUG-Owl3 4秒看完2小时电影

来源：网络 作者：声远热闻

阅读：1014

发布时间：2024-08-19 19:05:16

评论：0

[摘要] 阿里mPLUG团队近期发布了一项新成果——通用多模态大模型mPLUG-Owl3，这款模型专为理解复杂多图和长视频内容设计。mPLUG-Owl3在提升推理效率方面实现了显著突破，它能将First Tok

阿里mPLUG团队近期发布了一项新成果——通用多模态大模型mPLUG-Owl3，这款模型专为理解复杂多图和长视频内容设计。mPLUG-Owl3在提升推理效率方面实现了显著突破，它能将First Token Latency降低6倍，并在单张A100显卡上处理的图像数量提升至400张，这意味着一部2小时的电影仅需4秒即可完成分析。重要的是，效率的飞跃并未牺牲模型的准确性，mPLUG-Owl3在多模态场景的多个基准测试中均达到了最佳水平。

团队展示了mPLUG-Owl3的多样应用，包括多模态检索增强、多图推理及长视频理解。在多模态检索中，模型不仅能够准确回应查询，还能明确指出其决策依据；多图推理功能则使模型能够理解不同图像间的关联，进行逻辑推理；而对于长视频，mPLUG-Owl3能够在短时间内解析并回答关于视频细节的问题，解决了传统模型处理超长视频的难题。

mPLUG-Owl3之所以能高效融合多模态信息，得益于其创新的Hyper Attention模块。这一设计允许模型在不增加语言模型序列负担的情况下，直接与视觉特征交互，减少了计算成本和内存占用。通过精心设计的Cross-Attention操作，模型能够精准提取并利用视觉信息，同时保持了对文本的高效处理能力。此外，团队还引入了多模态交错的旋转位置编码MI-Rope，帮助模型更好地理解视觉元素在原始文本中的上下文关系，进一步优化了多模态融合效果。

实验结果显示，mPLUG-Owl3在广泛的多模态基准测试中取得了领先成绩，无论是在单图、多图还是长视频理解任务上，都展现出了超越以往模型的能力。特别是在处理长视觉序列时，即使面对大量无关图像的干扰，mPLUG-Owl3依然能保持较高准确率，体现了其在复杂场景下的鲁棒性。

关键词： 模型多模多图视频视觉