摘要:此次发布被视为语音技术平民化的重要转折。OpenAI产品负责人奥利维尔·戈德蒙表示:我们正站在语音交互爆发的临界点,未来将开放自定义声纹功能。目前已有OPPO等厂商试点集成Azure语音技术,而微...

尽管OpenAI曾因语音模型被指模仿斯嘉丽·约翰逊声线陷入争议,这家公司仍在持续突破语音技术边界。今日凌晨,ChatGPT的缔造者突然开启产品发布会,重磅推出三款自研语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts。开发者可通过API接口快速集成这些模型,普通用户也可在OpenAI.fm限时体验。

模型功能亮点

gpt-4o-transcribe:单词识别错误率较两年前的Whisper模型显著降低,英语错误率仅2.46%,支持33种语言转录。新增噪音消除和语义语音检测技术,能精准识别用户发言结束点。定价每分钟0.006美元,与Whisper持平。

gpt-4o-mini-transcribe:轻量版转录模型,虽然错误率略高于完整版,但处理速度提升30%,适合资源有限场景。价格减半至每分钟0.003美元。gpt-4o-mini-tts:革命性文本转语音模型,开发者首次可自定义语音风格(如「专业客服」或「中世纪骑士」),甚至通过文字指令调节语调情感。每分钟仅需1美分,但需使用预设声库。

技术突破与价格战

新模型基于2024年5月发布的GPT-4o架构,通过语音专项训练强化能力。值得注意的是,此次定价策略极具侵略性——对比此前被吐槽「天价」的o1-pro模型(每百万token收费600美元),三款语音模型价格仅为行业平均水平。例如gpt-4o-mini-tts的输入/输出成本分别为0.6美元和12美元每百万token,较前代产品降幅达60-70%。

开发者赋能计划

OpenAI同步推出Agents SDK集成方案,声称开发者只需添加约9行代码即可为现有文本应用添加语音交互。例如电商平台改造后,用户可直接语音查询"我的最新订单状态",系统将调用语言模型解析指令,再通过语音模型播报物流信息。官方演示中,AI时尚顾问准确响应了"2月9日订购的Patagonia短裤已发货,订单号A.D.507"的语音查询。

行业影响与未来布局

此次发布被视为语音技术平民化的重要转折。OpenAI产品负责人奥利维尔·戈德蒙表示:"我们正站在语音交互爆发的临界点,未来将开放自定义声纹功能。"目前已有OPPO等厂商试点集成Azure语音技术,而微软也计划在Windows系统中深度整合GPT-4o语音模块。