Skip to content

VideoRAG

VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos

0 Abstract

  • 背景:RAG在通过外部知识整合提升LLM方面取得了显著成功,但其应用主要集中于文本内容,导致多模态视频知识的丰富领域尚未被充分探索
  • 贡献:本文提出VideoRAG,首个专门用于处理和理解极长上下文视频的检索增强生成框架
  • 创新:双通道架构
    1. 基于图的文本知识基础以捕捉跨视频语义关系
    2. 多模态上下文编码以高效保留视觉特征
  • 测试集:提出了LongerVideos测试集(超160个视频,134+小时)

1 Introduction

  • 目前VLM处理长视频/跨视频理解存在困难:当前方法往往将长视频分割为孤立片段,导致上下文信息丢失,难以建立跨视频的有意义联系。
  • 极长视频的RAG挑战
    1. 捕捉异构视频知识(视频包含视觉、音频、文本等多模态信息)
    2. 保持跨视频理解的语义连贯性
    3. 高效的视频知识检索
  • VideoRAG框架核心
    1. Multi-Modal Video Knowledge Indexing framework:将视频内容转化为结构化的文本和视觉表示,有效组织和索引长上下文视频,同时保留多媒体内容的丰富语义。
    2. Knowledge-Grounded Multi-Modal Retrieval paradigm:整合文本语义和视觉内容匹配,利用索引知识图谱和嵌入来识别最相关的视频内容。

2 Preliminary

  • RAG基础:由索引模块(φ)检索模块(ψ) 构成
    • 索引模块将知识库D处理为优化索引结构Đ;
    • 检索模块基于查询q从Đ中检索相关信息。
  • 扩展到视频的挑战:需要有效捕捉多模态特征(视觉、音频、文本)及其时序动态,并建模复杂的跨模态对齐与相互依赖关系。
  • 问题定义:处理一个无约束的视频知识库 D = {V₁, …, Vₙ},其中每个视频时长任意,视频数量n无限制。

3 The VideoRAG Framework

alt text

3.1 Multi-Modal Video Knowledge Indexing

3.1.1 Graph-based Textual Knowledge Grounding

框架通过基于图的技术将多模态视频内容转化为结构化文本知识

流程

  1. 视觉-文本基础:将视频V分割为短片段,采样关键帧,使用VLM生成包含场景动态和上下文信息的文本描述 (C)。
  2. 音频-文本基础:使用ASR技术提取每个视频片段的语音转录文本 (T)。
  3. 知识图谱构建
    • 文本分割: 将合并后的文本描述 (C, T) 分割为块 (H)
    • 实体关系提取:利用LLM从每个块中提取实体(节点N)和关系(边E)
    • 实体统一与合并:识别并合并了不同视频中语义等效的实体,形成知识图谱中的统一节点g
    • 动态知识图谱演化:整合新发现的实体和建立此前未被观察到的关系
    • LLM驱动的语义综合:利用LLM通过综合多个视频片段的信息生成统一的实体描述 \(G=(N, E)=\cup_{H\in\{V_1^t,\dots\}}(N_H, E_H)\)
  4. 文本块嵌入:为每个文本块H生成文本嵌入 \((e_H^t=\text{TEnc}(H))\),用于高效检索。 块集合 \(\mathcal{H}\) 的文本嵌入表示为 \(E_H^t\in R^{|H|\times d_t}\)

知识图谱g和块嵌入 \(E_H^t\) 共同构成了图索引模块的核心组件。

3.1.2 Multi-Modal Context Encoding

  • 目的:保留视觉细节(如光照动态、物体细节)等难以用文本完全描述的信息。
  • 方法:使用多模态编码器 MEnc(·) 将每个视频片段 \(\mathcal{S}\) 编码为索引优化的嵌入 \(e_\mathcal{S}^v\),形成视觉嵌入集合: \(E_S^v \in R^{|S|\times d_v} \text{ w.r.t. } e^v_{\mathcal{S}}=\text{MEnc}(\mathcal{S})\)
  • 混合索引输出:最终索引 \(Đ = \phi(D) = (G, E_H^t, E_S^v)\),包含知识图谱、文本块嵌入和视觉片段嵌入。

3.2 Multi-Modal Retrieval Paradigm

目标:整合文本语义和视觉内容匹配,高效地从视频中获取相关知识,以响应查询 过程:

  1. 文本语义匹配:利用知识图谱 (G) 进行检索。
    1. 查询重构:用LLM将查询重构为陈述句。
    2. 实体匹配:计算查询与图谱中实体描述的相似度。
    3. 块选择:基于GraphRAG方法排序并识别检索集合中最相关的块 \(H_q\)
    4. 视频片段检索:从选中块中提取关联的视频片段 \(S_q^t\)
  2. 视觉内容检索:利用视觉嵌入 \(E_S^v\) 进行检索。
    1. 场景信息提取:用LLM从查询q中提取核心视觉场景描述。
    2. 跨模态特征对齐:将场景描述投影到视觉嵌入空间,计算与片段嵌入的余弦相似度\(\text{Sim}(\text{MEnc(q)},E_S^V)\),返回Top-K匹配片段 \(S_q^v\)
  3. LLM片段过滤:使用LLM判断 (\(S_q^t ∩ S_q^v\)) 中每个片段的相关性,过滤掉无关片段,得到最终相关片段集 {Ŝ}。

GraphRAG

3.3 Query-Aware Content Integration and Response Generation

  • 两阶段内容提取
    1. 增强视觉描述生成:使用LLM从查询中提取关键词 \(K_q\),结合更多采样帧和音频转录 \(\hat{\mathcal{T}}\),通过VLM生成更详细的视觉描述 \(\hat{e}=\text{VLM}(K_q,\hat{\mathcal{T}},\{F_1,\dots,F_k|F\in \hat{S}\} )\). 对于每个片段 \(\hat S_j\),通过结合其视觉说明和文字记录,创建了全面的描述:\(\hat V_j^t=(\hat e_j, \hat{\mathcal{T}}_j)\)
    2. 文本信息补充:通过查询 \(q\) 与文本块 \(H\) 的语义相似度匹配,检索相关文本信息 \(\hat H\)
  • 响应生成:检索模块最终输出 \(ψ(q, Đ) = (V̂^t, Ĥ)\)。最终,通用LLM(如GPT-4或DeepSeek)基于查询q和检索到的内容生成最终响应。

4 Evaluation

Research questions:

  1. RQ1:与现有 RAG 替代方法相比,VideoRAG 在处理长视频内容方面的表现如何?
  2. RQ2:VideoRAG 相较于大型视觉模型(LVM)在理解极长上下文视频方面有哪些优势?
  3. RQ3:消融研究如何揭示 VideoRAG 中单个组成部分(文本和视觉检索)的有效性?
  4. RQ4:从 VideoRAG 在不同应用场景下的定性案例研究中,可以获得哪些洞见?

4.1 Experimental Settings

  • 测试集:提出LongerVideos基准,包含22个视频列表(讲座、纪录片、娱乐),超160个视频,总时长134.6小时,600+个查询。
  • 评估协议与指标
    • 胜率比较:使用GPT-4o-mini比较两个模型的回答。
    • 定量比较:将模型回答与基线答案(NaiveRAG)在1-5分制上比较。
  • 评估维度:全面性、启发性、可信度、深度、信息密度。
  • VideoRAG具体实现:
    • 视频片段30s,k=5 frames作为初始visual captioning
    • VLM 模型:MiniCPM-V
    • VSR 模型:Distil-Whisper
    • 视觉和文本编码的MEnc(·):ImageBind
    • 实体和文本块检索:OpenAI’s text-embedding-3-small model
    • 索引、检索和答案生成的核心LLM:GPT-40-mini

4.2 Overall Comparison (RQ1 & RQ2)

  • 对比基线
    • RAG方法:NaiveRAG, GraphRAG, LightRAG。
    • 长视频理解模型:LLaMA-VID, VideoAgent, NotebookLM。
  • 结果:VideoRAG在所有视频类别和评估指标上均显著优于所有基线模型,证明了其在处理长格式、多视频内容方面的有效性。

alt text

4.3 Ablation Study (RQ3)

  • 变体
    1. -Graph:移除基于图的索引-检索流程。
    2. -Vision:移除多模态编码器中的视觉索引和检索组件。
  • 结论:两个组件的缺失均导致性能显著下降,验证了基于图的知识基础对于建模跨视频关系,以及视觉模态处理对于多模态上下文融合的关键作用。

4.4 Case Study Analysis (RQ4)

  • 案例:针对查询“强化微调中评分者的角色”,从OpenAI的12天视频系列中检索信息。
  • 发现:VideoRAG能精准检索到相关视频片段(如第2天内容),并生成详细、技术精确的回答,在粒度和范围上优于LightRAG。展示了其构建精确知识图谱、利用多模态信息进行准确检索以及合成多视频信息的能力。
  • RAG发展:包括基于文本块的优化方法和基于图的结构化知识表示方法。
  • 多模态RAG:已有工作开始探索,但针对视频的RAG仍处于初步阶段(如MM-VID, iRAG),在有效组织和提取视频知识方面面临重大挑战。
  • 长视频理解:传统大型视频语言模型(LVLM)直接将视频帧转换为vision tokens,但计算需求随视频长度增加而剧增。现有基于智能体或RAG的方法依赖外部工具进行帧级信息提取,能力受限。

6 Conclusion

  • 本文提出了VideoRAG,一个专为理解极长上下文视频设计的RAG框架。
  • 双通道架构(图文本知识基础 + 多模态上下文编码)使其能够有效地处理、索引和检索无限长度视频中的信息。
  • 在LongerVideos基准上的综合评估表明,VideoRAG在多个维度上优于现有的RAG替代方案和长视频理解方法。
  • 该框架展示了在构建精确视频知识结构、利用多模态信息进行准确内容检索以及处理多个长上下文视频信息方面的强大潜力,有望推动基于视频的知识检索和生成任务的发展。

Comments