目录
在人工智能技术快速发展的今天,阿里巴巴于6月6日正式开源了其全新的千问3向量模型系列 ——Qwen3-Embedding。该模型是基于千问3底座,为文本表征、检索和排序等任务进行优化,标志着阿里在 AI 领域的又一重大突破。
相较于前一版本,Qwen3-Embedding 在文本检索、聚类和分类等核心任务上的性能提升了超过40%。这一进步不仅让它在技术上更具竞争力,还使得它在 MTEB 等专业榜单中,超越了谷歌的 Gemini Embedding、OpenAI 的 text-embedding-3-large 以及微软的 multilingual-e5-large-instruct 等顶尖模型,获得了同类模型的最佳性能(SOTA)。

简单来说,向量模型可以看作是 AI 的 “翻译器”,它通过将文本和图片等非结构化信息转换为机器易于理解的向量,从而实现高效的信息分类、检索和排序。基于千问3模型,通义团队采用对比训练、SFT 和模型融合等多种方法,成功打造出这一新型向量模型,涵盖了文本嵌入模型 Qwen3-Embedding 及文本排序模型 Qwen3-Reranker。
值得一提的是,千问3向量模型具有强大的多语言能力,支持超过100种语言,包括多种编程语言,展现出卓越的多语言、跨语言及代码检索能力。这为全球开发者提供了更为广阔的应用空间。
此次开源的千问3向量模型共有9款,涵盖不同尺寸(0.6B、4B、8B 等)及 GGUF 版本,开发者可以根据需求选择合适的模型,并自由组合模块,甚至可以自定义向量或指令,以实现特定任务、语言和场景的深度优化。这一灵活性将极大提升开发者的工作效率。
目前,千问3Embedding 和 Reranker 模型已经在魔搭社区、Hugging Face 和 GitHub 等多个平台上开源,开发者还可以通过阿里云百炼直接使用 API 服务。自4月29日开源以来,千问3大模型在多个国际榜单中取得了开源冠军的好成绩。