Qwen3-Embedding

原论文

问题

对 Qwen 系列的基础模型没有了解，需要回看吗

Abstract

本文介绍了基于Qwen3基础模型构建的Qwen3 Embedding 系列，在文本嵌入与重排序能力上较前代GTE-Qwen有显著提升。
该系列通过多阶段训练流程（大规模无监督预训练 + 高质量有监督微调）和模型融合策略，提升了模型的鲁棒性与适应性。
Qwen3 LLM 不仅作为骨干模型，还用于合成多领域、多语言的高质量训练数据。模型提供0.6B、4B、8B三种尺寸，支持嵌入和重排序任务，在多项评测中达到SOTA，尤其在多语言文本嵌入、代码检索等任务上表现优异。

1 Introduction

文本嵌入与重排序是自然语言处理和信息检索中的基础任务，广泛应用于搜索、问答、推荐系统等场景。随着RAG和智能体系统的发展，对嵌入与重排序模型提出了更高要求。
Qwen3 Embedding 系列基于Qwen3基础模型构建，利用其强大的多语言理解与生成能力，通过多阶段训练与数据合成策略，提升了模型性能。该系列提供多种尺寸，支持灵活部署，并在多项评测中表现优异。

2 Model Architecture

alt text

疑问

（2）中LM head和Assistant是什么作用

嵌入模型与重排序模型的核心目标是根据给定的指令（Instruction），评估一个查询（Query）和一个文档（Document）之间的相关性。
指令定义了相关性的含义
嵌入模型：基于因果注意力LLM，在输入序列末尾添加[EOS]标记，取最后一层对应隐藏状态作为嵌入向量。支持指令跟随，输入格式为 {Instruction}{Query}<|endoftext|>。

重排序模型：

采用点对点重排序，将任务构建为二分类问题（判断文档是否相关）
输入遵循特定模板

<|im_start|>system
Judge whether the Document meets the requirements based on the Query 
and the Instruction provided. Note that the answer can only be "yes" or "no".
<|im_end|>
<|im_start|>user
<|Instruct>:{Instruction}
<|Query>:{Query}
<|Document>:{Document}
<|im_end|>
<|im_start|>assistant
<|think>\n\n</think>\n\n

分数计算：通过计算“是”/“否”的概率得出相关性分数：

\(\text{score}(q,d)=\frac{e^{P(\text{yes}|I,q,d)}}{e^{P(\text{yes}yes|I,q,d)}+e^{P(\text{no}|I,q,d)}}\)

两种模型均基于Qwen3密集版本，提供0.6B、4B、8B三种参数规模。

3 Models Training

alt text

3.1 Training Objective

嵌入模型：使用改进的基于InfoNCE的对比损失，综合正样本、困难负样本、批次内其他查询与文档的相似度计算。
重排序模型：使用监督微调损失，鼓励模型为正确标签分配更高概率。

InfoNEC对比损失

用于度量样本间相似性或差异性的损失函数，核心目标是让模型学习到 “相似样本的表征更接近，不相似样本的表征更远离” 的特征，广泛应用于表征学习、检索、聚类等任务
\[ L_i = -\log\left( \frac{\exp(\text{sim}(x_i, y_i)/\tau)}{\sum_{j=1}^N \exp(\text{sim}(x_i, y_j)/\tau)} \right) \]

3.2 Multi-stage Training

大规模合成数据驱动的弱监督训练：
- 与传统方法的区别：以往工作（如GTE、E5）的弱监督数据主要从问答论坛、学术论文等公开域爬取。
- Qwen3的创新：利用Qwen3基础模型强大的文本理解和生成能力，直接合成高质量的文本对数据，即 查询-文档 对。通过设计不同的合成提示词，可以精确控制生成数据的任务类型、语言、长度和难度。
- 优势：可控性强，能有效生成多语言、多领域数据，特别是在低资源语言和场景中优势明显。
高质量合成数据用于监督微调：
- 由于Qwen3基础模型性能优异，其生成的数据质量很高。因此，在第二阶段的有监督训练中，不仅使用人类标注的高质量数据（如MS MARCO），还精心筛选并加入了部分高质量的合成数据，进一步提升了模型的性能和泛化能力。
模型融合：
- 在监督微调完成后，采用基于球形线性插值（SLERP）的模型融合技术，将在微调过程中保存的多个模型检查点进行合并。
- 目的：融合不同检查点的优势，提升模型在不同数据分布上的鲁棒性和泛化性能。

知识点

弱监督：标签是自动生成、启发式推断或从其他来源间接获得的。标签可能存在噪声、不精确或不完整，但获取成本极低、规模可以做到非常大。
模型融合：有哪些融合方法

3.3 Synthetic Dataset

利用Qwen3-32B合成多任务、多语言文本对，涵盖检索、双语挖掘、分类、语义相似性等任务。
合成数据格式：(查询，文档)对，合成查询

合成策略（以检索数据为例）：

两阶段生成流程：
1. 配置生成：为每个文档从角色库中选择最相关的“提问角色”（如“学生”、“专家”），并确定问题类型、难度等。这注入了“用户视角”，极大增强了查询的多样性和真实性。
2. 查询生成：根据第一阶段确定的配置（角色、类型、难度等），生成符合特定语言和长度要求的查询。
质量控制与筛选：为了用于第二阶段的监督微调，通过计算合成查询与原文的余弦相似度，对生成的1.5亿对弱监督训练数据进行筛选

4 Evaluation

4.1 Settings

嵌入模型评测使用MMTEB（多语言）、MTEB（英文）、CMTEB（中文）、MTEB（代码）等基准。
重排序模型评测涵盖基础检索、代码检索、复杂指令检索等任务。
对比模型包括开源（GTE、E5、BGE等）与商业API（OpenAI、Google、Cohere）。

4.2 Main Results

嵌入模型：Qwen3-Embedding-4B/8B在多项评测中达到SOTA，0.6B模型也接近最佳商业模型性能。
重排序模型：Qwen3-Reranker系列均优于基线模型，8B模型在多数任务中表现最佳。

alt text

4.3 Analysis

弱监督预训练有效性：仅使用合成数据训练的模型已具备较强性能，移除该阶段后性能明显下降。
模型融合有效性：未使用模型融合的模型性能显著低于融合后模型，表明融合对提升模型稳健性至关重要。

5 Conclusion

Qwen3 Embedding 系列是基于Qwen3基础模型的文本嵌入与重排序模型套件，通过多阶段训练、合成数据增强与模型融合，在多项多语言、代码检索与复杂指令任务中达到SOTA。模型已开源，供社区使用与进一步发展。

Qwen3-Embedding

Abstract

1 Introduction

2 Model Architecture

3 Models Training

3.1 Training Objective

3.2 Multi-stage Training

3.3 Synthetic Dataset

4 Evaluation

4.1 Settings

4.2 Main Results

4.3 Analysis

5 Conclusion

Comments