Midjourney 作为领先的人工智能图像生成工具之一而广为人知。据第三方数据追踪机构显示,其在 Discord 频道上拥有近 2000 万用户,估计其网站上的用户数量更是远超于此。不过,它的野心正开始不断扩张。
自 2024 年夏末传出 Midjourney 正在打造自有计算和人工智能硬件的消息后,本周,该公司与纽约大学(NYU)的机器学习专家合作发布了一篇新研究论文。这篇论文聚焦于训练基于文本的大语言模型(LLMs),例如 Meta 的开源模型 Llama 和 Mistral 的同名开源模型,旨在让它们的写作更具创造性。
这项合作成果发表在人工智能代码社区 Hugging Face 上的一篇新研究论文中。论文介绍了两种新技术 —— 多样化直接偏好优化(DDPO)和多样化优势比偏好优化(DORPO),这两种技术旨在扩大可能的输出范围,同时保持内容的连贯性和可读性。
对于一家以扩散式人工智能图像生成模型而闻名的公司来说,Midjourney 对基于文本的大语言模型创造性的全新思考方式表明,它的目标并不局限于视觉领域,毕竟一张图片并不一定真的抵得上千言万语。
这家白手起家的小初创公司是否有可能推出自家原生的大语言模型,或者对现有大语言模型进行微调呢?我联系了 Midjourney 的创始人戴维・霍尔茨(David Holz),但目前尚未收到回复。
暂且不论 Midjourney 是否会推出第一方大语言模型产品,其新研究的意义已经超出了学术范畴。企业人工智能团队、产品开发者以及希望提升人工智能生成文本质量的内容创作者,都可以借助这项研究成果推动新一轮的大语言模型训练。
这也表明,尽管人工智能模型供应商近期对新的多模态和推理语言模型兴趣浓厚且投资不断,但从基于经典 Transformer 架构、专注于文本的大语言模型中,在认知和性能方面仍有很大的提升空间。
问题:人工智能生成的内容趋于同质化
在基于事实的问答或代码编写辅助等领域,大语言模型需要给出唯一的最佳答案。
然而,创意写作本质上是开放式的,这意味着针对一个提示可以有许多合理的回应。
以 Midjourney 研究人员给出的例子来说,对于 “写一个关于月球上的狗的故事” 这一提示,大语言模型可以从多个不同角度展开:
一只宇航员的宠物狗在月球任务结束后被意外留在了月球上。
一只狗发现自己身处未来的犬类太空殖民地。
一只被困在月球上的狗与外星物种成为了朋友。
尽管存在多种可能性,但经过指令调整的大语言模型往往会生成相似的故事情节和主题。出现这种情况的原因如下:
训练后的优化技术更注重用户偏好而非原创性,这使得那些受欢迎但重复的回答得到强化。
指令调整通常会减少内容的差异性,导致模型更倾向于给出 “稳妥” 的回答,而非独特的回答。
现有的促进多样性的技术(如温度调整)仅在推理时起作用,并没有融入到模型的学习过程中。
这就导致了人工智能生成的创意写作呈现同质化,内容显得重复,缺乏惊喜和深度。
解决方案:改进训练后方法以优先提升多样性
为了克服这些限制,研究人员引入了 DDPO 和 DORPO,这两种方法是对现有偏好优化方法的扩展。这些方法的核心创新在于使用 “偏差”(一种衡量某个回答与其他回答差异程度的指标)来指导训练。
具体工作原理如下:
在训练过程中,模型会收到一个写作提示以及多个可能的回答。
将针对同一提示的每个回答相互进行比较,并计算出偏差分数。
在训练时,那些罕见但高质量的回答会被赋予更高的权重,以此鼓励模型从多样化的示例中学习。
通过将偏差纳入直接偏好优化(DPO)和优势比偏好优化(ORPO)中,模型能够学会生成高质量且更加多样化的回答。
这种方法确保人工智能生成的故事不会局限于单一可预测的结构,而是像人类作家一样,探索更广泛的角色、场景和主题。
Midjourney 研究人员的实现过程
这项研究使用 Reddit 社区 r/writingPrompts 中的数据集,在创意写作任务上对大语言模型进行训练。在这个社区里,用户会发布写作提示,并以短篇故事作为回应。
研究人员在训练中使用了两个基础模型:
Meta 的 Llama-3.1-8B(Llama 3 系列中一个拥有 80 亿参数的模型)。
Mistral-7B-v0.3(Mistral AI 开发的一个拥有 70 亿参数的模型)。
然后,他们让这些模型经历以下过程:
监督微调(SFT):首先,研究人员使用低秩适应(LoRA)技术对模型进行高效微调,以调整参数。
偏好优化:
将 DPO 和 ORPO 作为基线方法 —— 这些标准方法主要基于用户偏好信号来提高回答质量。
随后应用 DDPO 和 DORPO,引入基于偏差的加权机制,鼓励模型生成更独特的回答。
评估:
自动评估:运用基于嵌入的技术来衡量语义和文体的多样性。
人工评估:评审人员将模型的输出与 GPT-4o 和 Claude 3.5 进行对比,评估其多样性和吸引力。
关键训练发现:
在保持质量的同时,DDPO 在输出多样性方面显著优于标准的 DPO。
经过 DDPO 优化的 Llama-3.1-8B 在质量和多样性之间达到了最佳平衡,生成的回答比 GPT-4o 更多样化,同时保持了连贯性。
当数据集规模缩小时,DDPO 模型仍能保持多样性,不过它们需要一定数量的多样化训练样本才能充分发挥效果。
对企业的影响:这对利用人工智能生成创意内容的企业意味着什么?
对于管理大语言模型部署的人工智能团队而言,在保持质量的同时提高输出的多样性是一项关键挑战。这些研究结果对在以下应用场景中依赖人工智能生成内容的组织具有重要意义:
对话式人工智能和聊天机器人(确保回复丰富多样且引人入胜)。
内容营销和故事创作工具(避免人工智能生成的文案重复)。
游戏开发和叙事设计(创造多样化的对话和分支故事情节)。
对于负责在企业环境中对模型进行微调并部署的专业人员来说,这项研究提供了:
一种新的大语言模型训练后优化方法,能够在不牺牲质量的前提下提高创造性。
一种将多样性融入学习过程的实用方法,可替代推理时的多样性调整(如温度调整)。
开发更具吸引力的人工智能应用的潜力,从人工智能辅助写作工具到能够动态调整回复的虚拟助手等。
对于那些负责人工智能模型编排和自动化的人员来说,这项研究凸显了:
在训练阶段对模型进行优化的重要性,这样可以减少部署时的后期处理调整工作。
为人工智能驱动的应用引入自适应叙事的方法,确保在保持高质量内容的同时具备多样性。
让大语言模型输出更具人性化的方式,这对于需要交互式叙事、客户互动或动态内容创作的应用至关重要。
人工智能生成创意项目的未来前景光明
DDPO 和 DORPO 的成功表明,以多样性为目标对大语言模型进行训练,能够显著提升创意写作能力。基于此,有以下一些设想:
将基于偏差的学习方法融入企业人工智能模型,以提高面向客户的应用程序中回复的多样性。
探索这些方法在其他生成任务中的应用,如人工智能写诗、剧本创作或游戏叙事。
开发混合训练方法,在人工智能助手的多样性和遵循指令能力之间取得平衡。
对于有兴趣应用这些技术的人,研究人员计划在这个 GitHub 代码库上公开他们的代码。
无论你是为商业应用微调大语言模型,还是优化大规模人工智能编排,这项研究都为如何让模型在创意任务中更具活力、吸引力和响应性提供了可行的思路。
通过采用这些技术,人工智能团队可以摆脱僵化、公式化的输出,构建出不仅智能而且真正富有想象力的人工智能系统。