Skip to content

A Survey on Multimodal Retrieval-Augmented Generation

0 Abstract

  • 检索增强生成(RAG)已成为人工智能领域的一项关键技术,它通过访问外部、可靠和最新的知识源,显著增强了大型语言模型的能力。
  • 在计算机视觉领域,RAG的潜力正被逐渐发掘。本调查全面回顾了当前计算机视觉中RAG的现状,重点关注两个主要领域:(I)视觉理解和(II)视觉生成。本文系统性地梳理了相关方法、应用与挑战,并展望了未来研究方向。

检索增强视觉理解与生成的案例

1 Introduction

1.1 Background

RAG起源于自然语言处理,旨在通过检索外部知识库的信息来弥补大模型在时效性、事实性和领域专业知识上的不足。随着多模态AI的发展,视觉数据(图像、视频、3D)的复杂性催生了将RAG技术引入计算机视觉的需求。在CV中,RAG能够为视觉理解任务(如识别、问答)提供上下文,也能为视觉生成任务(如图像、视频合成)提供参考和引导,从而提升模型的准确性、真实性和泛化能力。

1.2 Contributions

本调查的主要贡献包括:

  1. 首次系统性地综述了RAG在计算机视觉领域的应用,涵盖视觉理解、生成及具身智能。
  2. 提出了一个针对不同视觉任务的RAG技术分类法。
  3. 指出了当前RAG在CV中应用的关键局限,如检索效率、模态对齐、计算成本等。
  4. 提出了未来的研究方向,如实时检索优化、跨模态融合、隐私保护等。
  5. 探讨了RAG在具身AI、3D生成等新兴领域的应用潜力。

分类

2 RAG understanding in vision

2.1 Image Understanding

RAG通过检索外部视觉或文本知识,显著增强了图像理解任务的性能,主要应用在以下方面:

  1. 模式识别

    • 图像分类:例如 RAC 方法,通过检索模块引入相关外部信息,提升长尾分布下的识别准确率。
    • 开放词汇检测:例如 RALF,通过检索相关类别并转化为文本描述,丰富视觉特征语义,提升对未见类别的检测能力。
    • 图像分割:利用基础模型(如DINOv2)特征作为查询,从标注数据集中检索相似样本,构建记忆库,并借助分割模型(如SAM 2)的注意力机制进行预测,提升分割精度。
  2. 图像描述: 根据检索内容的不同,可分为三类方法:

    • 检索相似图像:如 SACO,通过检索与目标风格相关的图像(基于物体、区域或关系),引导生成具有特定风格的描述。
    • 检索相关描述:如 EVCAP,从外部视觉记忆库中检索物体名称,用于提示大语言模型生成描述。
    • 检索图像与描述:如 EXTRA,同时对输入图像和检索到的描述进行编码,以增强文本上下文。SAMLLCAP 则通过动态采样检索到的描述进行训练,提升了描述的鲁棒性。

2.2 Video Understanding

视频理解因其时空复杂性而更具挑战,RAG通过整合多模态外部知识,显著提升了视频检索、问答和长视频分析的能力。

  1. 视频理解与检索VideoRAGViTAOmAgent 等方法代表了这一领域的进展。它们通常利用多模态大模型为视频帧生成描述,然后基于文本进行检索和问答,或采用分治策略处理复杂任务。
  2. 长视频理解:处理长视频需要解决实时处理、记忆管理和时序依赖等难题。
    • StreamingRAG 实现了实时上下文检索;
    • Video-RAG 通过视觉对齐的检索增强表征学习;
    • iRAG 则采用增量处理技术提升计算效率。
  3. RAG流程分类:如下图所示,视频RAG系统可分为五类架构:
    • (a) 基础检索流水线:直接从视频数据库索引和检索。
    • (b) LLM增强流水线:集成大语言模型作为生成器,通过语义理解增强检索输出。
    • (c) 基于分块的流水线:先将视频分块处理,再进行细粒度检索分析。
    • (d) 多阶段优化流水线:引入重排序和优化模块,迭代优化检索结果。
    • (e) 工具增强流水线:结合分块、专业分析工具和多步LLM处理,实现复杂多模态推理。

alt text

下表总结了不同的视频检索和理解方法及其特点

alt text

2.3 Multimodal Understanding

多模态理解要求模型协同处理视觉和文本信息,RAG通过构建和检索多模态知识库来增强模型的推理能力。

三种不同的多模态 RAG 管道

  1. 视觉问答:旨在回答关于图像的文本问题。关键方法包括:

    • MuRAG:首次构建了多模态检索数据库,将检索到的图像-文本对与问题结合进行答案生成。如上图b
    • FLMR:采用“晚交互”与多维表示,更精细地捕获图文之间的相关性,优于简单的图像到文本转换方法。
    • RagLLaVA:在训练中引入知识增强的重排序和噪声注入,提升了模型的鲁棒性。和RMR都基于上图c
  2. 文档理解:专注于从文档图像中提取信息并回答问题。

    • 主流方法:将文档页面视为图像,使用视觉语言模型生成嵌入进行检索(对应上图b流程)。
    • OCR-based RAG:先通过OCR将文档内容转为文本摘要,再进行文本检索和生成(对应上图a流程),但可能丢失版式、图表等视觉信息。
    • 先进方法:如 ColPali(图b) 和 M3DocRAG,专注于生成高质量的视觉-语言嵌入,并能处理多页、多文档的复杂场景。
  3. 通用多任务集成:由于预训练成本高,多任务RAG在视觉-语言模型中仍有待探索。现有方法多采用将模态嵌入共享向量空间(图b)的策略。
  4. 医疗领域应用:医疗大视觉语言模型容易产生“幻觉”。

3 RAG generation in vision

3.1 Image Generation

RAG通过检索外部数据库中的相关信息,引导和改善图像生成过程,主要解决事实性错误、领域适应和真实感不足等问题。

框架:文本驱动、视觉驱动和双分支多模态框架

RAG生成框架的整体

  1. 文本驱动框架:主要解决生成内容的事实性和偏见问题。
    • FAI:利用大语言模型反思并融入关于历史人物性别、种族构成的事实信息,干预文生图过程。
    • Cioni:为特定领域(如艺术品)构建专用数据库,通过检索来增强该领域的生成准确性。
  2. 视觉驱动框架:旨在降低训练成本并提升生成质量。
    • RA-Diffusion:一种半参数生成模型,训练时通过最近邻查找从大型图像数据库中检索实例,学习组合新场景,从而用更少的参数实现高效生成。
    • ImageRAG:根据文本提示动态检索相关图像作为上下文,指导生成过程,无需为检索专门训练模型。
  3. 多模态框架:融合文本、图像、布局等多种信息。
    • ReMoDiffuse:一个扩散式运动生成模型,通过混合检索(语义+运动学相似性)获取参考,并利用语义调制变换器对齐目标运动,提升了动作生成的多样性和质量。

3.2 Video Generation

Animate-A-Story 等方法通过两个核心模块工作:

  1. 运动结构检索:根据文本提示检索具有所需运动结构的视频片段;
  2. 结构引导合成:在检索到的运动结构指导下生成新的视频内容。

这种方法能高效复用现有内容,生成具有特定动作或布局的视频。

3.3 3D Generation

3D生成面临数据稀缺和单视图条件不充分(病态问题)两大挑战。RAG通过检索3D知识库提供了解决方案。下图展示了两种检索增强3D生成框架:基于推理的直接生成和基于优化的分数蒸馏

alt text

  • Phidias:先驱性工作,通过检索3D数据库中的参考模型,渲染多视角图像,再通过稀疏视图重建生成3D模型,其结果比前馈方法更合理。
  • 其他方法ReDream 检索相似3D对象后进行优化;IRDiff 探索了用于3D分子生成;ReMoDiffuse 扩展至3D人体运动生成。

4 RAG in Embodied AI


5 Insights and New Outlook

5.1 对视觉理解的洞察与展望

  • 视频理解:未来需关注动态资源分配(优先处理关键片段)和增强记忆管理,以高效处理长视频并保持语义连贯。
  • 多模态学习:需优化多模态采样与融合,避免过度依赖文本检索;发展跨任务泛化的检索模型。

5.2 对视觉生成的洞察与展望

  • 图像生成:未来方向包括:实时动态检索系统偏误感知的公平性检索混合多尺度检索以提升真实感、联邦分布式检索以保护隐私,以及交互式用户自适应检索机制
  • 3D内容生成:核心挑战是高质量3D数据稀缺和生成条件不足。集成RAG有望通过利用外部知识来指导合成,提高3D场景生成的多样性和质量。

5.3 对具身AI的洞察与展望


6 Conclusion

  • 本调查系统阐述了RAG在计算机视觉中的整合与应用,涵盖了视觉理解、生成及具身智能。
  • 研究表明,RAG通过利用外部知识,能有效提升模型性能,解决知识局限性、信息过时和领域适应等问题。
  • 尽管在检索效率、模态对齐和计算成本方面仍面临挑战,但未来在实时检索优化、跨模态融合、隐私保护以及具身AI集成等方面的研究,将推动RAG催生更强大、更智能、更自适应的视觉系统。

Comments