摘要:OpenAI 首席执行官山姆・奥特曼(Sam Altman)称此次发布是 创意自由的新标杆,强调用户将能创作海量视觉内容,公司会根据实际使用情况持续优化。...

距离 OpenAI 去年 5 月发布首个 "全能" 多模态模型 GPT-4o 已近一周年,但这个 "老将" 仍有新花样。今天,OpenAI 终于为 ChatGPT 的 Plus、Pro、团队及免费版用户开放了 GPT-4o 的原生多模态图像生成功能,企业版、教育版及 API 接口也将很快跟进。

不同于 ChatGPT 此前搭载的 DALL-E 3(经典扩散 Transformer 模型,通过消除像素噪声从文本提示重建图像),新图像生成器与文本 / 代码生成模块共享同一模型架构。OpenAI 总裁格雷格・布罗克曼(Greg Brockman)早在 2024 年 5 月就预告过这一原生能力,但直到谷歌 AI Studio 通过 Gemini 2 Flash 实验模型推出类似功能后,OpenAI 才选择此时发布。

这带来了质的飞跃:生成的图像更逼真、文字嵌入更精准,已让用户惊叹 "太疯狂了"。有用户评论:"如果告诉普通人这不是真实照片,他们绝对不会相信。"

图像生成深度整合 ChatGPT 与 Sora

OpenAI 正将图像生成打造为核心能力。在 ChatGPT 中,用户可直接生成图像并通过对话实时调整细节。该功能还深度整合至视频生成平台 Sora,进一步拓展多模态能力。

  • OpenAI 在 X 平台的公告显示,GPT-4o 图像生成具备以下特性:

  • 精准文字渲染:支持创建含文字的标识、菜单、邀请函等

  • 复杂提示处理:在精细构图中保持高保真度

  • 上下文连贯性:基于历史对话保持视觉一致性

  • 风格多样性:支持写实到插画等多种艺术风格

用户只需在 ChatGPT 中描述图像细节(如长宽比、十六进制颜色代码、透明度),模型将在一分钟内生成结果。独立 AI 顾问艾莉・K・米勒(Allie K. Miller)评价这是 "文本生成的巨大飞跃",并称其为 "见过最好的 AI 图像生成模型"。

相比 DALL-E 的关键升级

相较于前代模型,GPT-4o 实现了以下突破:

  • 文字整合能力:解决了传统模型文字模糊 / 错位问题

  • 上下文理解:支持通过对话迭代优化图像

  • 多物体处理:可同时处理 10-20 个独立物体

  • 风格适应性:支持手绘草图到高清写实等风格转换

已知局限与优化方向

尽管进步显著,GPT-4o 仍存在一些挑战:

  • 大尺寸图像可能出现裁剪过紧

  • 非拉丁文字符渲染可能异常

  • 小字体文字细节易丢失

  • 局部编辑可能影响其他元素

OpenAI 表示正在通过持续模型优化解决这些问题。

安全与伦理措施

所有生成图像均包含 C2PA 元数据用于溯源,内部搜索工具可检测 AI 生成内容。严格的安全机制禁止生成色情、欺诈或有害内容,涉及真实人物的图像受到额外限制。

OpenAI 首席执行官山姆・奥特曼(Sam Altman)称此次发布是 "创意自由的新标杆",强调用户将能创作海量视觉内容,公司会根据实际使用情况持续优化。随着 AI 图像生成走向精准化和大众化,GPT-4o 标志着文本到图像技术正成为沟通、创意与生产力的主流工具。