周二发布的 Gemini 2.5 Pro 并没有成为新闻焦点。同一周,OpenAI 的图像生成更新在社交媒体上掀起热潮,吉卜力风格的虚拟形象和令人惊叹的即时渲染图赚足了眼球。当大众的关注点都在 OpenAI 上时,谷歌或许悄然推出了目前最适用于企业的推理模型。
Gemini 2.5 Pro 标志着谷歌在基础模型竞赛中向前迈出了重要一步,这不仅体现在基准测试成绩上,在实用性方面也是如此。从早期实验、基准测试数据,以及开发者实际使用后的反馈来看,它值得企业技术决策者给予高度关注,尤其是那些以往在生产级推理中通常选用 OpenAI 或 Claude 模型的决策者。
以下是企业团队在评估 Gemini 2.5 Pro 时需要重点关注的四个方面。
1.透明、结构化的推理 —— 为思维连贯性树立新标杆:Gemini 2.5 Pro 的独特之处不仅在于其智能水平,更在于它能清晰地展示推理过程。谷歌采用的逐步训练方法,使其形成了结构化的思维链(CoT)。与我们在 DeepSeek 等模型中看到的杂乱无章或靠猜测的情况不同,Gemini 2.5 Pro 的思维链不是那种简短、肤浅的总结,也不像 OpenAI 模型那样。新的 Gemini 模型会分步骤罗列观点,还带有小标题和内在逻辑,条理清晰且透明度高。
从实际应用来看,这在可信度和可控性方面取得了突破。企业用户在评估用于关键任务的输出结果时,比如审查政策影响、编码逻辑,或者总结复杂的研究内容,现在可以了解模型是如何得出答案的。这意味着他们能更有信心地进行验证、纠正或引导模型。与许多大语言模型仍存在的 “黑箱” 问题相比,这是一个重大进步。
想深入了解其实际运作方式,可以查看我们对 Gemini 2.5 Pro 进行实时测试的视频解析。我们在视频中讨论过一个例子:当被问及大语言模型的局限性时,Gemini 2.5 Pro 展现出了惊人的认知。它列举了常见的弱点,并将其归类为 “物理直觉”“新概念合成”“长期规划” 和 “伦理细节” 等方面,提供了一个框架,帮助用户理解模型的知识储备以及它处理问题的方式。
企业技术团队可以利用这一能力:
调试关键应用程序中的复杂推理链;
更好地理解特定领域内模型的局限性;
为利益相关者提供更透明的人工智能辅助决策;
通过研究模型的方法,提升自身的批判性思维。
需要注意的一点限制是:虽然在 Gemini 应用程序和谷歌人工智能工作室中可以使用这种结构化推理功能,但目前通过 API 还无法访问,对于希望将这一功能集成到企业应用程序中的开发者来说,这是一个不足之处。
2. 真正的顶尖竞争者 —— 并非徒有虚名:目前,该模型在 Chatbot Arena 排行榜上遥遥领先,比排名第二的模型高出 35 个 Elo 评分,而排名第二的恰好是 Gemini 2.5 Pro 发布次日推出的 OpenAI 4o 更新版本。虽然在基准测试中称霸往往只是昙花一现(因为每周都有新模型发布),但 Gemini 2.5 Pro 确实给人一种截然不同的感觉。
(此处原文包含一个表格,展示了不同模型在 Chatbot Arena 排行榜上的得分、95% 置信区间以及投票数,如 Gemini - 2.5 - Pxo - Exp - 03 - 25 得分 1443,ChatGPT - 4o - 1atest 得分 1408 等。由于文本形式难以完整呈现表格信息,你可查看原文获取更直观的内容。)
它在需要深度推理的任务中表现出色,如编码、解决复杂问题、整合文档信息,甚至进行抽象规划。在内部测试中,它在一些此前难以攻克的基准测试中表现尤为突出,比如 “人类终极测试”,这个测试常被用于揭示大语言模型在抽象和复杂领域的弱点。(你可以在此处查看谷歌的公告以及所有基准测试信息。)
企业团队可能并不关心哪个模型在学术排行榜上获胜,但他们会在意模型是否具备思考能力,以及能否展示思考过程。实际体验很重要,这一次,谷歌似乎成功通过了考验。
正如备受尊敬的人工智能工程师内森・兰伯特(Nathan Lambert)所说:“谷歌再次拥有了最好的模型,毕竟人工智能的蓬勃发展最初就应该由他们引领。之前的战略失误已经得到纠正。” 企业用户不应仅仅将此视为谷歌在追赶竞争对手,更应看到在对商业应用至关重要的能力方面,谷歌有可能实现超越。
3. 谷歌的编码能力终于大放异彩:过去,在面向开发者的编码辅助方面,谷歌一直落后于 OpenAI 和 Anthropic。Gemini 2.5 Pro 彻底改变了这一局面。
在实际测试中,它在编码挑战中展现出强大的一次性成功能力。例如,它构建的俄罗斯方块游戏,导出到 Replit 平台后首次运行就成功了,根本无需调试。更值得注意的是,它能清晰地梳理代码结构,仔细标注变量和步骤,甚至在编写第一行代码之前,就规划好了实现方法。
该模型可以与 Anthropic 的 Claude 3.7 Sonnet 相媲美,Claude 3.7 Sonnet 一直被认为是代码生成领域的佼佼者,也是 Anthropic 在企业市场取得成功的一个重要因素。但 Gemini 2.5 有一个关键优势:它拥有高达 100 万个令牌的上下文窗口。而 Claude 3.7 Sonnet 目前才刚刚开始提供 50 万个令牌的上下文窗口。
这个巨大的上下文窗口为跨整个代码库进行推理、在线阅读文档,以及处理多个相互依赖的文件带来了新的可能。软件工程师西蒙・威利森(Simon Willison)的经历就充分体现了这一优势。他使用 Gemini 2.5 Pro 在自己的代码库中实现一个新功能时,该模型识别出了 18 个不同文件中需要做出的更改,并在大约 45 分钟内完成了整个项目,平均每个修改的文件耗时不到 3 分钟。对于正在尝试智能体框架或人工智能辅助开发环境的企业来说,这是一个非常实用的工具。
4. 多模态集成与类智能体行为:虽然 OpenAI 的最新 4o 等一些模型在炫酷的图像生成方面可能更引人注目,但 Gemini 2.5 Pro 却在悄然重新定义扎实的多模态推理。
举个例子,本・迪克森(Ben Dickson)为 VentureBeat 进行的实际测试展示了该模型的能力。它能够从一篇关于搜索算法的技术文章中提取关键信息,并创建相应的 SVG 流程图,之后在看到带有视觉错误的渲染版本时,还能对流程图进行改进。这种多模态推理水平开启了以往仅靠文本模型无法实现的新工作流程。
再比如,开发者山姆・维特文(Sam Witteveen)上传了一张拉斯维加斯地图的简单截图,并询问 4 月 9 日附近有哪些谷歌举办的活动(可查看此视频 16 分 35 秒处内容)。该模型识别出了地点,推断出用户的意图,在线进行搜索(启用了基础信息查询功能),并返回了关于谷歌云 Next 大会的准确细节,包括日期、地点和引用来源。这一切都无需定制智能体框架,仅靠核心模型和集成搜索功能就完成了。
实际上,该模型不仅仅是处理多模态输入,还能对其进行推理。这也让我们预见到未来六个月企业工作流程可能的变化:上传文档、图表、仪表盘,然后让模型根据内容进行有意义的整合、规划或执行操作。
额外亮点:它真的很实用:虽说这不算一个单独的要点,但值得一提的是,对我们许多人来说,Gemini 2.5 Pro 是首个让谷歌摆脱在大语言模型领域 “边缘化” 地位的版本。之前的版本一直未能真正融入日常使用,因为 OpenAI 或 Claude 等模型占据了主导地位。Gemini 2.5 Pro 却有所不同,其推理质量、长上下文窗口的实用性,以及如导出到 Replit 和可在工作室使用等实用的用户体验功能,都让它不容忽视。
不过,目前仍处于初期阶段。该模型尚未接入谷歌云的 Vertex AI,尽管谷歌表示很快就会实现。另外,还存在一些延迟方面的问题,尤其是在深度推理过程中(处理这么多思维令牌,对首次生成令牌的时间有何影响?),而且价格也尚未公布。
从我对其写作能力的观察来看,还有一点需要注意:OpenAI 和 Claude 在生成易读的文本方面似乎仍更胜一筹。Gemini 2.5 的文本结构感很强,但相比之下,缺少了一些其他模型所具备的对话流畅感。我注意到 OpenAI 最近尤其在这方面下了很大功夫。
但对于那些需要在性能、透明度和规模之间寻求平衡的企业来说,Gemini 2.5 Pro 或许让谷歌再次成为有力的竞争者。
正如 Zoom 首席技术官黄学东(Xuedong Huang)昨天与我交流时所说:在用于实际生产的大语言模型领域,谷歌仍然是重要的参与者。Gemini 2.5 Pro 让我们有理由相信,未来谷歌在这方面的表现会比现在更出色。