距离 OpenAI 去年 5 月发布首个 "全能" 多模态模型 GPT-4o 已近一周年,但这个 "老将" 仍有新花样。今天,OpenAI 终于为 ChatGPT 的 Plus、Pro、团队及免费版用户开放了 GPT-4o 的原生多模态图像生成功能,企业版、教育版及 API 接口也将很快跟进。
不同于 ChatGPT 此前搭载的 DALL-E 3(经典扩散 Transformer 模型,通过消除像素噪声从文本提示重建图像),新图像生成器与文本 / 代码生成模块共享同一模型架构。OpenAI 总裁格雷格・布罗克曼(Greg Brockman)早在 2024 年 5 月就预告过这一原生能力,但直到谷歌 AI Studio 通过 Gemini 2 Flash 实验模型推出类似功能后,OpenAI 才选择此时发布。
这带来了质的飞跃:生成的图像更逼真、文字嵌入更精准,已让用户惊叹 "太疯狂了"。有用户评论:"如果告诉普通人这不是真实照片,他们绝对不会相信。"
图像生成深度整合 ChatGPT 与 Sora
OpenAI 正将图像生成打造为核心能力。在 ChatGPT 中,用户可直接生成图像并通过对话实时调整细节。该功能还深度整合至视频生成平台 Sora,进一步拓展多模态能力。
OpenAI 在 X 平台的公告显示,GPT-4o 图像生成具备以下特性:
精准文字渲染:支持创建含文字的标识、菜单、邀请函等
复杂提示处理:在精细构图中保持高保真度
上下文连贯性:基于历史对话保持视觉一致性
风格多样性:支持写实到插画等多种艺术风格
用户只需在 ChatGPT 中描述图像细节(如长宽比、十六进制颜色代码、透明度),模型将在一分钟内生成结果。独立 AI 顾问艾莉・K・米勒(Allie K. Miller)评价这是 "文本生成的巨大飞跃",并称其为 "见过最好的 AI 图像生成模型"。
相比 DALL-E 的关键升级
相较于前代模型,GPT-4o 实现了以下突破:
文字整合能力:解决了传统模型文字模糊 / 错位问题
上下文理解:支持通过对话迭代优化图像
多物体处理:可同时处理 10-20 个独立物体
风格适应性:支持手绘草图到高清写实等风格转换
已知局限与优化方向
尽管进步显著,GPT-4o 仍存在一些挑战:
大尺寸图像可能出现裁剪过紧
非拉丁文字符渲染可能异常
小字体文字细节易丢失
局部编辑可能影响其他元素
OpenAI 表示正在通过持续模型优化解决这些问题。
安全与伦理措施
所有生成图像均包含 C2PA 元数据用于溯源,内部搜索工具可检测 AI 生成内容。严格的安全机制禁止生成色情、欺诈或有害内容,涉及真实人物的图像受到额外限制。
OpenAI 首席执行官山姆・奥特曼(Sam Altman)称此次发布是 "创意自由的新标杆",强调用户将能创作海量视觉内容,公司会根据实际使用情况持续优化。随着 AI 图像生成走向精准化和大众化,GPT-4o 标志着文本到图像技术正成为沟通、创意与生产力的主流工具。