谷歌 Gemini 2.5 Flash 推出 “思考预算” 功能，调低设置可削减 600% AI 成本-AI行业动态-AI动态观点-AI人工智能-极客阿唐

摘要：谷歌称，Gemini 2.5 Flash 在关键基准测试中展现出了有竞争力的性能，而且相比其他竞品，其模型规模更小。...

谷歌推出了 Gemini 2.5 Flash，这是其人工智能产品线的一次重大升级，让企业和开发者史无前例地能够控制他们的人工智能进行 “思考” 的程度。这款新模型于今日通过谷歌人工智能工作室（Google AI Studio）和 Vertex AI 发布预览版，是谷歌在竞争日益激烈的人工智能市场中，为提升推理能力并保持价格竞争力而做出的战略举措。

该模型引入了谷歌所说的 “思考预算” 机制，开发者可以通过这一机制指定在生成回复前，分配多少计算能力用于推理复杂问题。这种方式旨在解决当前人工智能市场中的一个根本矛盾：更复杂的推理通常伴随着更高的延迟和成本。

确保超级碗赛事中的应用效果

谷歌 DeepMind 的 Gemini 模型产品总监图尔西・多西（Tulsee Doshi）在接受 VentureBeat 独家采访时表示：“我们知道成本和延迟对于许多开发者的应用场景至关重要，所以我们希望为开发者提供灵活性，让他们可以根据自身需求调整模型的思考量。”

随着人工智能越来越多地融入对成本可预测性要求极高的商业应用中，这种灵活性体现了谷歌在人工智能部署方面的务实态度。通过允许开启或关闭思考功能，谷歌打造出了它所说的 “首个完全混合推理模型”。

只为所需的智能付费：谷歌新型人工智能定价模式解析

新的定价结构凸显了当今人工智能系统中推理的成本。使用 Gemini 2.5 Flash 时，开发者每输入 100 万个令牌需支付 0.15 美元。输出成本则会因推理设置的不同而有很大差异：关闭思考功能时，每 100 万个令牌的输出成本为 0.60 美元；开启思考功能后，这一成本跃升至 3.50 美元。

这种因推理输出产生的近 6 倍价格差异，反映了 “思考” 过程所需的计算强度，模型在生成回复前需要评估多种潜在路径和因素。

多西告诉 VentureBeat：“客户需要为模型生成的所有思考和输出令牌付费。在人工智能工作室的用户界面中，你可以在看到回复前查看这些思考过程。目前通过 API 我们还不提供查看思考过程的功能，但开发者可以看到生成了多少令牌。”

思考预算的设置范围是 0 到 24,576 个令牌，它是一个上限而非固定分配值。谷歌表示，模型会根据任务的复杂程度智能地决定使用多少预算，在不需要复杂推理时节省资源。

Gemini 2.5 Flash 表现如何：与领先人工智能模型的基准测试对比结果

谷歌称，Gemini 2.5 Flash 在关键基准测试中展现出了有竞争力的性能，而且相比其他竞品，其模型规模更小。在 “人类终极测试”（Humanity’s Last Exam）中，这是一项用于评估推理和知识水平的严格测试，2.5 Flash 的得分是 12.1%，超过了 Anthropic 的 Claude 3.7 Sonnet（8.9%）和 DeepSeek R1（8.6%），不过略低于 OpenAI 最近推出的 o4-mini（14.3%）。

该模型在一些技术基准测试中也取得了不错的成绩，例如在 GPQA diamond 测试中得分 78.3%，在 AIME 数学考试（2025 年测试中得分 78.0%，2024 年测试中得分 88.0% ）中表现出色。

多西说：“企业应该选择 2.5 Flash，因为它在成本和速度方面性价比极高。与竞争对手相比，它在数学、多模态推理、长上下文处理以及其他几个关键指标上表现尤为突出。”

行业分析师指出，这些基准测试结果表明，谷歌在缩小与竞争对手性能差距的同时保持了价格优势，这一策略可能会吸引那些关注人工智能预算的企业客户。

追求智能还是速度：你的人工智能何时需要深度思考？

可调节推理功能的推出，标志着企业部署人工智能的方式有了重大变革。在传统模型中，用户几乎无法了解或控制模型的内部推理过程。

谷歌的这种方式让开发者可以针对不同场景进行优化。对于语言翻译或基本信息检索等简单查询，可以关闭思考功能以实现最高的成本效益。对于需要多步推理的复杂任务，比如数学问题求解或细致的分析，则可以开启并微调思考功能。

该模型的一项关键创新在于，它能够根据查询内容判断所需的推理程度。谷歌举例说明：像 “加拿大有多少个省？” 这样的简单问题，几乎不需要推理；而关于梁应力计算的复杂工程问题，则会自动触发更深入的思考过程。

多西表示：“将思考能力集成到我们的主流 Gemini 模型中，再加上各方面的改进，使得模型能够给出更高质量的答案。这些改进在各类学术基准测试中都有所体现，包括衡量事实性的 SimpleQA 测试。”

谷歌的人工智能周：免费向学生开放，视频生成功能与 2.5 Flash 一同发布

Gemini 2.5 Flash 发布的这一周，谷歌在人工智能领域动作频频。周一，该公司向 Gemini Advanced 订阅用户推出了 Veo 2 视频生成功能，用户可以通过文本提示创建 8 秒的视频片段。今日，在发布 2.5 Flash 的同时，谷歌宣布所有美国大学生可免费使用 Gemini Advanced 直至 2026 年春季。分析师认为，这一举措旨在培养未来知识工作者对谷歌的忠诚度。

这些消息反映出谷歌在竞争策略上的多管齐下，目前该市场由 OpenAI 的 ChatGPT 主导。据第三方分析，ChatGPT 每周用户超过 8 亿，而 Gemini 的月活跃用户估计为 2.5 亿至 2.75 亿。

Gemini 2.5 Flash 明确聚焦成本效益和性能定制，似乎是专门为那些需要在控制人工智能部署成本的同时，仍能使用先进功能的企业客户设计的。

多西说：“我们非常期待开发者能分享他们用 Gemini Flash 2.5 开发的成果，以及他们如何使用思考预算，我们已经迫不及待想要收集这些反馈了。”

预览版之后：Gemini 2.5 Flash 成熟后企业可期待什么

虽然此次发布的是预览版，但开发者已经可以基于该模型进行开发工作，不过谷歌尚未明确其全面可用的时间。该公司表示，在预览阶段，他们会根据开发者的反馈持续优化动态思考功能。

对于采用人工智能的企业来说，这次发布为他们提供了机会，去尝试更精细的人工智能部署方式，比如在高风险任务上分配更多计算资源，同时在常规应用中节省成本。

消费者也可以通过 Gemini 应用使用该模型，在模型下拉菜单中，它显示为 “2.5 Flash（实验版）”，取代了之前的 “2.0 Thinking（实验版）” 选项。面向消费者的这一部署方式表明，谷歌正借助应用生态系统收集更多关于其推理架构的反馈。

随着人工智能越来越深入地融入商业工作流程，谷歌这种可定制推理的方式反映出市场正在走向成熟，在这个市场中，成本优化和性能调整与原始能力同样重要，这标志着生成式人工智能技术商业化进入了一个新阶段。