今天,OpenAI 推出了两款具有开创性的人工智能模型,它们能够基于图像进行推理,还能独立使用工具,专家认为这代表着人工智能能力实现了阶段性的重大跨越。
这家总部位于旧金山的公司发布了 o3 和 o4-mini,这两款模型属于其 “o 系列” 推理模型的最新型号。OpenAI 宣称,它们是目前公司最智能、功能最强大的模型。这些系统能在单个任务流程中,直接将图像融入推理过程,还能进行网络搜索、运行代码、分析文件,甚至生成图像。
OpenAI 总裁格雷格・布罗克曼(Greg Brockman)在新品发布的新闻发布会上表示:“有些模型给人一种迈向未来的质变感,GPT-4 就是其中之一。今天发布的这些模型,同样具有这样的意义。顶尖科学家们告诉我们,这些模型能产生真正优秀且实用的新想法。”
OpenAI 新模型如何 “以图思考”,变革视觉问题解决方式
这些新模型最引人注目的特点,就是它们能够 “以图思考”—— 不仅仅是识别图像,还能在解决问题的过程中对图像进行处理和推理。
OpenAI 在发给 VentureBeat 的一份声明中提到:“它们不只是看到一幅图像,而是用图像进行思考。这开启了一种融合视觉和文本推理的全新问题解决方式。”
在新闻发布会的演示环节,一位研究人员展示了 o3 如何分析一张十年前实习期间的物理海报。o3 能自主解读海报上复杂的图表,甚至还能发现海报中并未给出最终结果。
OpenAI 从事多模态推理研究的布兰登・麦肯齐(Brandon McKenzie)在演示时说道:“我感觉它肯定在短短几秒内,至少研读了 10 篇不同的论文。要是换做我来做这项任务,仅仅是让自己重新熟悉项目,可能就需要好几天时间,之后再去查阅文献,估计又得花上好几天。”
人工智能在推理过程中处理图像的能力,比如放大细节、旋转图表或者裁剪掉不必要的元素,这是一种全新的方法。行业分析师认为,这种方法可能会给从科研到教育等多个领域带来革命性的变化。
超越传统 AI 模型:o3 和 o4-mini 如何作为集成先进工具的完整 AI 系统发挥作用
OpenAI 的高管们强调,此次发布的可不只是经过改进的模型,它们是完整的人工智能系统,在解决问题时能够独立使用多种工具,并将这些工具的使用串联起来。
该公司在发布内容中解释道:“我们通过强化学习训练它们使用工具,不仅教会它们如何使用,还让它们学会思考何时使用这些工具。”
格雷格・布罗克曼特别强调了这些模型强大的工具使用能力:“在尝试解决难题时,它们会在思维过程中实际运用这些工具。比如说,我们曾看到 o3 为了解决一项极具挑战性的任务,连续调用了 600 次工具。”
这种能力使得模型能够在无需人类持续指导的情况下,完成复杂的多步骤工作流程。例如,如果询问加利福尼亚州未来的能源使用模式,人工智能可以在网络上搜索公用事业数据,编写 Python 代码进行分析,生成可视化图表,并输出一份全面的报告,所有这些都能一气呵成。
OpenAI 凭借在关键 AI 基准测试中的破纪录表现,领先于竞争对手
OpenAI 称,o3 在衡量人工智能能力的关键指标上,包括 Codeforces、SWE-bench 和 MMMU 等基准测试,都创下了新的最先进成绩。据外部专家评估,在处理困难的实际任务时,o3 比上一代模型的重大错误率降低了 20%。
较小的 o4-mini 模型在保持强大推理能力的同时,针对速度和成本效率进行了优化。在 2025 年美国数学邀请赛(AIME)中,o4-mini 在可以使用 Python 解释器的情况下,得分达到了 99.5% 。
OpenAI 的研究主管马克・陈(Mark Chen)在新闻发布会上表示:“我真的相信,有了 o3 和 o4-mini 这两款模型,我们将会看到更多的进步。”
此次发布的时间点也很关键,就在两天前,OpenAI 刚刚推出了擅长编码任务的 GPT-4.1 模型。这一系列紧锣密鼓的发布,标志着竞争激烈的人工智能领域正在加速发展,OpenAI 也面临着来自谷歌 Gemini 模型、Anthropic 的 Claude 以及埃隆・马斯克(Elon Musk)的 xAI 越来越大的压力。
上个月,OpenAI 完成了堪称历史上规模最大的私人科技融资,融资 400 亿美元,公司估值达到 3000 亿美元。据报道,该公司还在考虑打造自己的社交网络,这可能是为了与埃隆・马斯克的 X 平台竞争,同时获取专有的训练数据来源。
o3 和 o4-mini 在编码方面能力超强,所以我们推出了一款新产品 Codex CLI,让大家能更便捷地使用它们。这是一款运行在你电脑上的编码智能体,完全开源,现在就可以使用;我们预计它会快速迭代优化。
OpenAI 新模型如何以前所未有的代码导航能力变革软件工程
新模型尤其擅长的一个领域是软件工程。布罗克曼在新闻发布会上提到:“o3 在浏览 OpenAI 代码库方面,比我还厉害,这真的非常实用。”
在发布这两款模型的同时,OpenAI 还推出了 Codex CLI,这是一款能直接在用户终端运行的轻量级编码智能体。这款开源工具能让开发者借助模型的推理能力完成编码任务,还支持使用截图和草图。
该公司宣布:“我们还带来了一项新尝试:Codex CLI,一款可以在终端运行的轻量级编码智能体。通过在命令行中向模型传入截图或低保真草图,并结合本地代码访问,你就能从命令行中获得多模态推理带来的便利。”
为了鼓励大家使用,OpenAI 发起了一项 100 万美元的计划,为使用 Codex CLI 和 OpenAI 模型的项目提供支持,以 2.5 万美元的 API 积分作为一笔笔资助。
OpenAI 强化安全协议解析:公司如何防范人工智能被滥用
OpenAI 称对新模型进行了大量安全测试,尤其关注它们拒绝有害请求的能力。该公司的安全措施包括彻底重建安全训练数据,以及开发系统级别的缓解措施来标记危险提示。
该公司表示:“我们用目前最严格的安全程序对这两款模型进行了压力测试。” 同时指出,o3 和 o4-mini 在生物、网络安全以及人工智能自我提升能力等方面的潜在风险,均未超过 OpenAI 设定的 “高风险” 阈值。
在新闻发布会上,OpenAI 的研究人员温达(Wenda)和阿南娅(Ananya)展示了详细的基准测试结果,并提到新模型为了获得这些能力,所经历的训练计算量是之前版本的 10 倍以上。
何时以及如何使用 o3 和 o4-mini:部署时间线和商业策略
ChatGPT Plus、Pro 和 Team 用户现在就可以使用这两款新模型,企业版和教育版用户将于下周获得使用权限。免费用户在提交查询前,选择 “思考” 选项,就能试用 o4-mini。
开发者可以通过 OpenAI 的聊天完成 API(Chat Completions API)和响应 API(Responses API)访问这两款模型,不过部分机构需要经过验证才能使用。
此次发布对 OpenAI 来说是一个重要的商业契机,因为这些模型相比之前的版本,能力更强且成本效率更高。该公司称:“例如,在 2025 年美国数学邀请赛中,o3 的性价比明显优于 o1,同样,o4-mini 的性价比也明显优于 o3-mini。”
人工智能的未来:OpenAI 如何为下一代系统融合推理和对话能力
行业分析师认为,这些模型的发布,是人工智能能力走向融合的一个体现。如今的模型越来越多地将专业推理能力,与自然对话能力以及工具使用能力结合起来。
OpenAI 在发布内容中提到:“今天发布的更新,反映了我们模型的发展方向:我们正在将 o 系列的专业推理能力,与 GPT 系列的自然对话和工具使用能力进一步融合。”
沃顿商学院研究人工智能应用的副教授伊桑・莫利克(Ethan Mollick)在发布会后的社交媒体上发文评价 o3:“这是一个非常强大的模型,但仍有一些不完善的地方。”
随着人工智能领域的竞争日益激烈,谷歌、Anthropic 等公司不断推出越来越强大的模型,OpenAI 对推理能力和实际工具使用的双重关注,表明其旨在通过兼具智能和实用性,维持自身的领先地位。
借助 o3 和 o4-mini,OpenAI 实现了一个重大突破:机器开始像人类一样感知图像,将处理视觉信息作为思考过程的一部分,而不只是单纯分析所看到的内容。从被动识别到主动视觉推理的转变,其意义或许最终会超过任何基准测试成绩,它标志着人工智能开始真正用 “会思考的眼睛” 去认识世界。