摘要:企业界有个重要理念:“人工智能不只是关于模型”。毕竟,领先模型之间的性能差距已经大幅缩小,业内人士也承认,真正的智能来自围绕模型的配套技术,而不仅仅是模型本身。比如,智能体技术能让模型使用工具、在网络...

就在一年前,围绕谷歌和企业人工智能的讨论似乎陷入了僵局。尽管谷歌发明了诸如 Transformer 这样的核心技术,但这家科技巨头似乎总是处于被动地位,被 OpenAI 的火爆成功、Anthropic 的强大编码能力,以及微软在企业市场的强势推进所掩盖。

但看看上周在拉斯维加斯举行的 2025 年谷歌云 Next 大会上的场景吧:自信满满的谷歌,凭借着领先基准测试的模型、强大的基础设施和一套连贯的企业战略,实现了惊人的逆袭。在一场与谷歌高级管理人员的闭门分析师会议上,一位分析师总结道:他感觉这一刻,谷歌实现了从 “追赶” 到 “赶超” 的转变。

在整个大会期间,人们普遍认为谷歌不仅在企业人工智能领域追上了对手,甚至已经超越了 OpenAI 和微软。这可不只是谷歌的营销话术。有证据表明,谷歌在过去一年里进行了高强度、有针对性的努力,将其技术优势转化为一个高性能的集成平台,迅速赢得了企业决策者的青睐。从运行在超高效定制芯片上的世界最强人工智能模型,到为解决实际商业问题而蓬勃发展的人工智能智能体生态系统,谷歌有力地证明了自己从未真正落后,只是之前的挫折掩盖了其深度基础研发的过程。

如今,凭借其集成平台的全面发力,谷歌似乎已准备好在企业人工智能革命的下一阶段引领潮流。在 Next 大会期间,我采访了几位谷歌高管,他们表示,谷歌在基础设施和模型集成方面拥有优势,像 OpenAI、微软或亚马逊网络服务(AWS)这样的竞争对手很难复制。

质疑的阴影:正视近期困境

如果不正视谷歌近期的经历,就无法理解它如今的发展势头。谷歌是 Transformer 架构的诞生地,这项技术引发了现代大语言模型(LLMs)的革命。十年前,谷歌还率先投资开发专门的人工智能硬件(TPU),如今这些硬件正引领行业提升效率。然而,两年半前,谷歌却莫名其妙地陷入了被动防守。

OpenAI 的 ChatGPT 以惊人的速度吸引了公众的目光和企业的兴趣,成为史上增长最快的应用程序。Anthropic 等竞争对手则在编码等领域占据了一席之地。

谷歌自己的公开举措有时也显得犹豫不决或存在缺陷。2023 年 Bard 演示的糟糕表现,以及后来其图像生成器因生成与历史事实不符的内容而引发争议,都让人觉得谷歌可能受到内部官僚主义或过度追求合规的束缚。感觉谷歌迷失了方向:这些人工智能领域的挫折似乎形成了一种模式,最早体现在谷歌在云服务竞争初期的迟缓表现上,当时其市场份额远远落后于亚马逊和微软,位居第三。谷歌云首席技术官威尔・格兰尼斯(Will Grannis)承认,早期人们确实对谷歌云能否长期立足表示怀疑。他回忆起当时人们问他:“这真的靠谱吗?” 一个问题始终萦绕在人们心头:谷歌能否将其无可否认的卓越研究成果和庞大的基础设施规模转化为在企业人工智能领域的主导地位呢?

战略转变:主动出击,谋求领先

然而在幕后,一场变革正在悄然发生,这得益于谷歌高层做出的夺回领先地位的果断决策。谷歌 DeepMind 人工智能开发者平台的产品副总裁马特・韦洛索(Mat Velloso)表示,2024 年 2 月,他离开微软加入谷歌时,就感觉到了这个关键时刻。“我来到谷歌后,和桑达尔・皮查伊(Sundar Pichai)以及这里的几位领导进行了交流,我感觉那一刻他们决定:好吧,生成式人工智能显然是行业关注的焦点,我们得把这件事做好。” 韦洛索在上周 Next 大会期间接受 VentureBeat 采访时分享道。

这一重新发力并没有受到一些外界人士担心的 “人才流失” 的影响。事实上,2024 年初,谷歌悄悄加大了执行力度,这一年里,公司积极招聘人才、进行内部整合,并吸引了大量客户。当竞争对手在大肆招揽人才时,谷歌留住了其核心人工智能领导团队,包括 DeepMind 首席执行官德米斯・哈萨比斯(Demis Hassabis)和谷歌云首席执行官托马斯・库里安(Thomas Kurian),这为公司提供了稳定性和深厚的专业知识。

此外,人才开始流向谷歌明确的发展目标。例如,洛根・基尔帕特里克(Logan Kilpatrick)从 OpenAI 回到谷歌,他被在谷歌内部打造基础人工智能的机会所吸引。他和韦洛索一起开启了他所说的 “从 0 到 1 的历程”,负责从零开始为 Gemini 吸引开发者。“一开始,团队里几乎只有我一个人…… 我们这个平台当时没有用户,也没有收入。那时根本没人对 Gemini 感兴趣。” 基尔帕特里克回忆起最初的情况。熟悉内部动态的人士还称赞了乔希・伍德沃德(Josh Woodward)这样的领导者,他协助创立了人工智能工作室,现在负责 Gemini 应用和实验室。最近,诺姆・沙泽尔(Noam Shazeer)在 2024 年底回到谷歌,担任关键的 Gemini 项目的技术联合负责人,他在首次任职谷歌期间,是最初那篇《Attention Is All You Need》(注意力就是你所需要的一切)Transformer 论文的主要作者之一。

这些招聘、研究突破、数据库技术改进,以及整体上对企业市场的更明确关注等协同努力开始取得成果。这些累积的进步,再加上首席技术官威尔・格兰尼斯所说的 “数百个精细的” 平台要素,为 2025 年 Next 大会上的各项发布奠定了基础,也巩固了谷歌东山再起的故事。

支柱一:Gemini 2.5 与思考模型时代

如今,企业界有个重要理念:“人工智能不只是关于模型”。毕竟,领先模型之间的性能差距已经大幅缩小,业内人士也承认,真正的智能来自围绕模型的配套技术,而不仅仅是模型本身。比如,智能体技术能让模型使用工具、在网络上进行探索。

尽管如此,拥有性能卓越的大语言模型仍是一项了不起的成就,也是实力的有力证明,这表明拥有该模型的公司具备卓越的研究能力和最先进的底层技术架构。就在 2025 年 Next 大会召开前几周,谷歌发布了 Gemini 2.5 Pro,成功占据了这一高地。它迅速登上了独立的 Chatbot Arena 排行榜榜首,甚至比 OpenAI 最新的 GPT-4o 版本表现还要出色,并且在像 “人类终极测试” 这样出了名的高难度推理基准测试中成绩优异。正如皮查伊在主题演讲中所说:“这是我们有史以来最智能的人工智能模型,也是世界上最好的模型。” 他还在推特上提到,该模型在一个月内使 Gemini 的使用量增长了 80%。

谷歌 Gemini 的需求首次呈现爆发式增长。正如我之前详细介绍的,除了 Gemini 2.5 Pro 的强大智能,它展现出的推理能力也让我印象深刻。谷歌为它赋予了 “思考” 能力,使模型在给出最终回复前,能够进行多步推理、规划,甚至自我反思。其结构化、连贯的思维链(CoT),通过分步骤和子要点的形式呈现,避免了其他模型(如 DeepSeek 或 OpenAI 的模型)输出结果中常见的杂乱无章或晦涩难懂的问题。对于评估关键任务输出结果的技术团队来说,这种透明度让他们能够以前所未有的信心进行验证、纠正和引导。

但对企业用户来说更重要的是,Gemini 2.5 Pro 还大幅缩小了在编码领域的差距,而编码是生成式人工智能最大的应用领域之一。在接受 VentureBeat 采访时,领先零售商 Wayfair 的首席技术官菲奥娜・谭(Fiona Tan)表示,经过初步测试,公司发现这款模型 “有了很大提升”,现在 “与 Anthropic 的 Claude 3.7 Sonnet 相当”,而 Claude 3.7 Sonnet 此前是许多开发者的首选。

谷歌还为该模型增加了高达 100 万个令牌的上下文窗口,使其能够对整个代码库或长篇文档进行推理,远远超过了 OpenAI 或 Anthropic 模型的能力(本周 OpenAI 推出了具有类似大上下文窗口的模型,但基准测试表明 Gemini 2.5 Pro 在整体推理方面仍具优势)。这一优势使得复杂的多文件软件工程任务得以高效完成。

与 Pro 版本相辅相成的是在 2025 年 Next 大会上发布、就在昨天推出的 Gemini 2.5 Flash。Flash 同样是一款 “会思考” 的模型,针对低延迟和成本效益进行了优化。用户可以控制模型的推理程度,在性能和预算之间找到平衡。这种分层策略进一步体现了谷歌高管所倡导的 “性价比智能” 战略。

韦洛索展示了一张图表,显示在智能水平的各个层面上,谷歌的模型都具有最高的性价比。“如果一年前我们进行这样的对话…… 我可能拿不出任何数据。” 韦洛索承认,这凸显了谷歌的快速转变。“而现在,无论你在寻找哪种模型、什么规模的模型,如果你不选谷歌的,那就是在浪费钱。” 考虑到 OpenAI 本周发布的最新模型,类似的图表也进行了更新,但结果都一样:谷歌的模型性价比最高。(此处原文包含一张图表,展示了不同模型在不同价格下的智能表现对比,因文本形式难以完整呈现图表信息,你可查看原文获取更直观的内容。)

Wayfair 的谭还表示,她发现 2.5 Pro 在延迟方面有了显著改善:“Gemini 2.5 的响应速度更快了,” 她说这使得它 “更适合用于面向客户的功能”,而之前的其他模型并不具备这一优势。她还说,Gemini 可能会成为 Wayfair 在这些客户交互场景中使用的首款模型。

Gemini 系列的能力还延伸到多模态领域,它能与谷歌其他领先模型无缝集成,比如 Imagen 3(图像生成)、Veo 2(视频生成)、Chirp 3(音频),以及新推出的 Lyria(文本转音乐),企业用户可以通过谷歌的 Vertex 平台访问这些模型。谷歌是唯一一家在其平台上提供全模态生成式媒体模型的公司。微软、AWS 和 OpenAI 则需要与其他公司合作才能实现这一点。

支柱二:强大的基础设施 —— 背后的强大引擎

谷歌能够快速迭代并高效运行这些强大模型,这得益于其无可比拟的基础设施,这是谷歌在运行全球规模服务的数十年间打磨出来的。其中,张量处理单元(TPU)至关重要。

在 2025 年 Next 大会上,谷歌推出了第七代 TPU——Ironwood,它是专门为推理和 “思考模型” 的需求而设计的。其规模巨大,专为高要求的人工智能工作负载打造:Ironwood 计算模块集成了 9000 多个液冷芯片,据称可提供 42.5 百亿亿次浮点运算的计算能力。谷歌机器学习系统副总裁阿明・瓦赫达特(Amin Vahdat)在 Next 大会的舞台上表示,这一计算能力 “是目前世界排名第一的超级计算机的 24 倍多”。

谷歌称,Ironwood 的每瓦特性能相比上一代 TPU——Trillium 提升了一倍。这一点意义重大,因为企业客户越来越多地表示,能源成本和供应限制了大规模人工智能的部署。

谷歌云首席技术官威尔・格兰尼斯强调了这种进步的持续性。他在接受 VentureBeat 采访时表示,谷歌的处理器每年都有 10 倍、8 倍、9 倍、10 倍的性能提升,他称之为人工智能加速器领域的 “超级摩尔定律”。他还说,客户看重的不仅是谷歌的技术,还有其技术发展路线图。

谷歌的市场地位推动了对 TPU 的持续投资。它需要为超过 20 亿用户高效运行像搜索、YouTube 和 Gmail 这样的大规模服务,这使得谷歌早在当前生成式人工智能热潮之前,就必须开发定制化、优化的硬件。虽然 Meta 的用户规模与之类似,但其他竞争对手缺乏这种长达十年、垂直整合的人工智能硬件开发的内部动力。

如今,这些对 TPU 的投资开始获得回报,因为它们不仅提高了谷歌自身应用的效率,还让谷歌能够以更高的性价比为其他用户提供 Gemini 服务。

你可能会问,谷歌的竞争对手为什么不从英伟达购买高效的处理器呢?的确,英伟达的 GPU 处理器在大语言模型的预训练过程中占据主导地位。但市场需求推高了这些 GPU 的价格,英伟达从中获取了可观的利润,这就将高昂的成本转嫁给了芯片用户。而且,虽然到目前为止,人工智能芯片的主要用途是预训练,但随着企业实际部署这些应用程序,情况正在发生变化。这就涉及到 “推理”,在大规模工作负载下,TPU 被认为比 GPU 更高效。

当你问谷歌高管,他们在人工智能领域的主要技术优势来自哪里时,他们通常会首先提到 TPU。负责谷歌计算基础设施的副总裁马克・洛迈耶(Mark Lohmeyer)明确表示:TPU “无疑是我们业务中极具差异化的部分…… OpenAI 就没有这样的能力。”

值得注意的是,谷歌并不是孤立地看待 TPU,而是将其视为更广泛、更复杂的企业人工智能架构的一部分。对于技术专家来说,顶级性能取决于对越来越专业的技术突破的整合。在 Next 大会上,谷歌详细介绍了许多更新内容。瓦赫达特将其描述为一个 “超级计算系统”,它将硬件(TPU、像布莱克威尔和即将推出的维拉・鲁宾这样的最新英伟达 GPU、像 Hyperdisk Exapools、Anywhere Cache 和 Rapid Storage 这样的先进存储设备)与统一的软件栈相结合。这个软件栈包括用于管理加速器的 Cluster Director、Pathways(Gemini 的分布式运行时,现已向客户提供),以及将 vLLM 等优化技术应用于 TPU,使得之前使用英伟达 / PyTorch 架构的用户能够更轻松地迁移工作负载。瓦赫达特认为,正是这种集成系统,使得 Gemini 2.0 Flash 的性价比相比 GPT-4o 提高了 24 倍。

谷歌还在拓展其物理基础设施。Cloud WAN 让企业能够使用谷歌长达 200 万英里的低延迟专用光纤网络,相比客户自行管理的网络,其性能提升高达 40%,总体拥有成本(TCO)降低 40%。

此外,谷歌分布式云(GDC)使得 Gemini 和英伟达硬件(通过与戴尔的合作)能够在独立环境、本地环境,甚至是与外界隔绝的环境中运行。英伟达首席执行官黄仁勋称赞这一能力 “极其强大”,因为它能将最先进的人工智能技术应用于受监管的行业和国家。在 Next 大会上,黄仁勋称谷歌的基础设施是世界上最好的:“没有哪家公司在计算的各个层面都比谷歌和谷歌云做得更好。”

支柱三:集成全栈 —— 环环相扣

当考虑到谷歌如何将这些模型和基础设施组件整合到一个连贯的平台时,其战略优势就更加明显了。与通常依赖合作伙伴来填补技术空白的竞争对手不同,谷歌几乎掌控了每一个层面,实现了更紧密的集成和更快的创新周期。

那么,如果像微软这样的竞争对手可以简单地与 OpenAI 合作,在基础设施广度和大语言模型实力上实现匹配,这种集成还有什么重要意义呢?与我交谈过的谷歌员工表示,这有着巨大的差别,并且他们还举例加以证明。

以谷歌的企业数据库 BigQuery 的显著改进为例。据 VentureBeat 昨天报道,该数据库现在提供了知识图谱,使大语言模型能够更高效地搜索数据,其客户数量是 Snowflake 和 Databricks 等竞争对手的五倍多。谷歌云数据分析产品负责人亚斯明・艾哈迈德(Yasmeen Ahmad)表示,之所以能有如此巨大的改进,是因为谷歌的数据团队与 DeepMind 团队密切合作。他们攻克了许多难以解决的实际应用案例,艾哈迈德在接受 VentureBeat 采访时表示,至少根据谷歌的内部测试,这使得该数据库在处理常见查询时,获取正确数据的准确率比最接近的竞争对手高出 50%。艾哈迈德说,这种全栈深度集成正是谷歌 “超越” 行业的方式。

这种内部的紧密协作与微软的 “亦敌亦友” 模式形成了鲜明对比。虽然微软与 OpenAI 合作,在 Azure 云上分发其模型,但微软也在开发自己的模型。现在负责谷歌人工智能开发者项目的高管马特・韦洛索,就曾因试图协调 Windows Copilot 计划与 OpenAI 的模型产品而受挫,最终离开了微软。“你怎么能和一个实际上与你竞争的公司分享你的产品计划呢…… 这完全是自相矛盾的。” 他回忆道,“而在谷歌,我能与模型开发人员并肩工作。”

这种集成体现了谷歌领导者眼中的核心优势:从基础研究、模型构建,到 “全球规模” 的应用部署和基础设施设计,谷歌拥有在各个领域深度协作的独特能力。

Vertex AI 是谷歌企业人工智能工作的核心中枢。而且这种集成不仅限于谷歌自身的产品。Vertex 的模型库提供了 200 多种精选模型,包括谷歌的模型、Meta 的 Llama 4,以及众多开源选项。Vertex 还提供了用于模型调整、评估(包括由人工智能驱动的 Evals,格兰尼斯强调这是关键的加速器)、部署和监控的工具。它的基础能力不仅依托内部适用于人工智能的数据库,还与外部向量数据库兼容。此外,谷歌还推出了新功能,利用世界上最好的搜索引擎 —— 谷歌搜索来增强模型的基础能力。

这种集成还延伸到了谷歌 Workspace。在 2025 年 Next 大会上宣布的新功能,比如 Sheets 中的 “帮我分析”(没错,Sheets 现在有了 “=AI” 公式)、Docs 中的音频概述和 Workspace Flows,进一步将 Gemini 的能力融入日常工作流程,为谷歌提供了一个强大的反馈循环,用于改善用户体验。

在推进集成平台的同时,谷歌在有利于生态系统发展的方面倡导开放。在推动 Kubernetes 的应用之后,它现在又在推广用于人工智能框架的 JAX,以及用于智能体通信的开放协议(A2A),同时支持现有标准(MCP)。谷歌还