就在发布 Gemini 2.0 且 DeepSeek 崛起仅仅几个月后,谷歌宣布推出其 “迄今为止最智能的模型”——Gemini 2.5。该模型具备推理能力,在性能和准确性方面表现更为出色。
Gemini 2.5 是在谷歌发布此前最智能的模型系列 Gemini 2.0 三个月后推出的。Gemini 2.0 引入了推理和智能体相关的应用场景。这款新模型的 Gemini 2.5 Pro(实验版)已在谷歌 AI Studio 上线,Gemini 高级用户也可在 Gemini 聊天界面使用。不久后,它还将在 Vertex AI 平台推出。
谷歌 DeepMind 的首席技术官科雷・卡武库奥卢(Koray Kavukcuoglu)在一篇博客文章中表示,Gemini 2.5 代表着谷歌朝着 “让人工智能更智能、更具推理能力” 目标迈出的又一步。
卡武库奥卢写道:“如今,通过将大幅增强的基础模型与改进后的训练后优化相结合,Gemini 2.5 的性能达到了一个新高度。展望未来,我们会将这些思考能力直接融入所有模型中,这样它们就能处理更复杂的问题,并为更强大、具备情境感知能力的智能体提供支持。”
更强的情境理解与综合能力
和 Gemini 2.0 以及 Gemini 2.0 Flash Thinking 一样,Gemini 2.5 Pro 在回应前会进行 “思考”。这款新模型能够处理来自文本、音频、图像、视频和大型数据集的多模态输入。它还能理解用于编程项目的整个代码库。
Gemini 2.5 Pro 提供了目前 Gemini 实验模型中较大的上下文窗口。它当前的上下文窗口为 100 万个标记(token),且很快将扩展至 200 万个。谷歌 AI Studio 产品经理洛根・基尔帕特里克(Logan Kilpatrick)在 X 平台发文称,Gemini 2.5 Pro 是 “首个提高速率限制并计费的实验模型”。
谷歌计划很快公布 Gemini 2.5 系列模型的定价。
编码与推理性能提升
谷歌称,该模型在高级推理基准测试中表现领先。公司表示,Gemini 2.5 Pro 在诸如通用专业问答(GPQA)和 2025 年美国数学邀请赛(AIME)等数学和科学基准测试中处于领先地位。卡武库奥卢称,在 “人类终极测试”(旨在考察人类知识和推理能力的数据集)中,该模型在不借助工具的情况下,得分达到 18.8%,在所有模型中处于顶尖水平。
测试方法
非 Gemini 模型结果:所有非 Gemini 模型的结果均来自各供应商自行报告的数据。所有 SWE - bench Verified 数据均遵循官方供应商报告,使用不同的框架和基础设施。谷歌的框架包括绘制多条轨迹,并利用模型自身的判断重新评分。
星号(*)表示仅针对文本问题进行评估(不含图像)。分数越高通常表示性能越好,但不同模型之间的比较会因模型类型和具体测试条件而有所差异。
Gemini 2.5 Pro 在编码任务上同样表现出色,在特定基准测试中的得分高于 Gemini 2.0。谷歌指出,这款新模型 “擅长创建视觉效果引人注目的网页应用和智能体代码应用,以及进行代码转换和编辑”。
竞争愈发激烈的市场
与去年 12 月 Gemini 2.0 发布时相比,Gemini 2.5 Pro 在竞争环境已发生显著变化的情况下进入推理模型领域。DeepSeek 推理大语言模型 DeepSeek - R1 的发布表明,强大的模型能够以较低的训练和计算成本实现出色的性能。此外,DeepSeek 还证明了开源模型可以与 OpenAI 的 o1 和 o3 等更多闭源大语言模型竞争。
除了 DeepSeek 不断推出新模型,谷歌还必须与 OpenAI 的推理模型竞争。虽然 OpenAI 的最新模型 GPT - 4.5 并非推理模型,但预计该公司很快会开发出更多推理模型。
Gemini 2.5 是谷歌本月推出的第二款新模型。3 月,该公司发布了其小型语言模型的最新版本 Gemma 3,该模型提供 12.8 万个标记的上下文窗口,非常适合在移动设备上使用。