Skip to content

Qwen3-Embedding

问题

对 Qwen 系列的基础模型没有了解,需要回看吗

Abstract

  • 本文介绍了基于Qwen3基础模型构建的Qwen3 Embedding 系列,在文本嵌入与重排序能力上较前代GTE-Qwen有显著提升。
  • 该系列通过多阶段训练流程(大规模无监督预训练 + 高质量有监督微调)和模型融合策略,提升了模型的鲁棒性与适应性。
  • Qwen3 LLM 不仅作为骨干模型,还用于合成多领域、多语言的高质量训练数据。模型提供0.6B、4B、8B三种尺寸,支持嵌入和重排序任务,在多项评测中达到SOTA,尤其在多语言文本嵌入、代码检索等任务上表现优异。

1 Introduction

  • 文本嵌入与重排序是自然语言处理和信息检索中的基础任务,广泛应用于搜索、问答、推荐系统等场景。随着RAG和智能体系统的发展,对嵌入与重排序模型提出了更高要求。
  • Qwen3 Embedding 系列基于Qwen3基础模型构建,利用其强大的多语言理解与生成能力,通过多阶段训练与数据合成策略,提升了模型性能。该系列提供多种尺寸,支持灵活部署,并在多项评测中表现优异。

2 Model Architecture

alt text

疑问

(2)中LM head和Assistant是什么作用

  • 嵌入模型与重排序模型的核心目标是根据给定的指令(Instruction),评估一个查询(Query)和一个文档(Document)之间的相关性。
  • 指令定义了相关性的含义

  • 嵌入模型:基于因果注意力LLM,在输入序列末尾添加[EOS]标记,取最后一层对应隐藏状态作为嵌入向量。支持指令跟随,输入格式为 {Instruction}{Query}<|endoftext|>

  • 重排序模型

    • 采用点对点重排序,将任务构建为二分类问题(判断文档是否相关)
    • 输入遵循特定模板
    <|im_start|>system
    Judge whether the Document meets the requirements based on the Query 
    and the Instruction provided. Note that the answer can only be "yes" or "no".
    <|im_end|>
    <|im_start|>user
    <|Instruct>:{Instruction}
    <|Query>:{Query}
    <|Document>:{Document}
    <|im_end|>
    <|im_start|>assistant
    <|think>\n\n</think>\n\n
    
    • 分数计算:通过计算“是”/“否”的概率得出相关性分数:

    \(\text{score}(q,d)=\frac{e^{P(\text{yes}|I,q,d)}}{e^{P(\text{yes}yes|I,q,d)}+e^{P(\text{no}|I,q,d)}}\)

两种模型均基于Qwen3密集版本,提供0.6B、4B、8B三种参数规模。

3 Models Training

alt text

3.1 Training Objective

  • 嵌入模型:使用改进的基于InfoNCE的对比损失,综合正样本、困难负样本、批次内其他查询与文档的相似度计算。
  • 重排序模型:使用监督微调损失,鼓励模型为正确标签分配更高概率。

InfoNEC对比损失

  • 用于度量样本间相似性或差异性的损失函数,核心目标是让模型学习到 “相似样本的表征更接近,不相似样本的表征更远离” 的特征,广泛应用于表征学习、检索、聚类等任务
  • \[ L_i = -\log\left( \frac{\exp(\text{sim}(x_i, y_i)/\tau)}{\sum_{j=1}^N \exp(\text{sim}(x_i, y_j)/\tau)} \right) \]

3.2 Multi-stage Training

  1. 大规模合成数据驱动的弱监督训练:
    • 与传统方法的区别:以往工作(如GTE、E5)的弱监督数据主要从问答论坛、学术论文等公开域爬取。
    • Qwen3的创新:利用Qwen3基础模型强大的文本理解和生成能力,直接合成高质量的文本对数据,即 查询-文档 对。通过设计不同的合成提示词,可以精确控制生成数据的任务类型、语言、长度和难度。
    • 优势:可控性强,能有效生成多语言、多领域数据,特别是在低资源语言和场景中优势明显。
  2. 高质量合成数据用于监督微调:
    • 由于Qwen3基础模型性能优异,其生成的数据质量很高。因此,在第二阶段的有监督训练中,不仅使用人类标注的高质量数据(如MS MARCO),还精心筛选并加入了部分高质量的合成数据,进一步提升了模型的性能和泛化能力。
  3. 模型融合:
    • 在监督微调完成后,采用基于球形线性插值(SLERP) 的模型融合技术,将在微调过程中保存的多个模型检查点进行合并。
    • 目的:融合不同检查点的优势,提升模型在不同数据分布上的鲁棒性和泛化性能。

知识点

  • 弱监督:标签是自动生成、启发式推断或从其他来源间接获得的。标签可能存在噪声、不精确或不完整,但获取成本极低、规模可以做到非常大。
  • 模型融合:有哪些融合方法

3.3 Synthetic Dataset

  • 利用Qwen3-32B合成多任务、多语言文本对,涵盖检索、双语挖掘、分类、语义相似性等任务。
  • 合成数据格式:(查询,文档)对,合成查询

合成策略(以检索数据为例):

  • 两阶段生成流程:
    1. 配置生成:为每个文档从角色库中选择最相关的“提问角色”(如“学生”、“专家”),并确定问题类型、难度等。这注入了“用户视角”,极大增强了查询的多样性和真实性。
    2. 查询生成:根据第一阶段确定的配置(角色、类型、难度等),生成符合特定语言和长度要求的查询。
  • 质量控制与筛选:为了用于第二阶段的监督微调,通过计算合成查询与原文的余弦相似度,对生成的1.5亿对弱监督训练数据进行筛选

4 Evaluation

4.1 Settings

  • 嵌入模型评测使用MMTEB(多语言)、MTEB(英文)、CMTEB(中文)、MTEB(代码)等基准。
  • 重排序模型评测涵盖基础检索、代码检索、复杂指令检索等任务。
  • 对比模型包括开源(GTE、E5、BGE等)与商业API(OpenAI、Google、Cohere)。

4.2 Main Results

  • 嵌入模型:Qwen3-Embedding-4B/8B在多项评测中达到SOTA,0.6B模型也接近最佳商业模型性能。
  • 重排序模型:Qwen3-Reranker系列均优于基线模型,8B模型在多数任务中表现最佳。

alt text

4.3 Analysis

  • 弱监督预训练有效性:仅使用合成数据训练的模型已具备较强性能,移除该阶段后性能明显下降。
  • 模型融合有效性:未使用模型融合的模型性能显著低于融合后模型,表明融合对提升模型稳健性至关重要。

5 Conclusion

Qwen3 Embedding 系列是基于Qwen3基础模型的文本嵌入与重排序模型套件,通过多阶段训练、合成数据增强与模型融合,在多项多语言、代码检索与复杂指令任务中达到SOTA。模型已开源,供社区使用与进一步发展。

Comments