这场竞争始于 2024 年 9 月 OpenAI 发布 o1 模型,不过真正掀起热潮的是 2025 年 1 月 DeepSeek 发布 R1 模型。如今,似乎大多数主要的人工智能模型供应商和研发团队都卷入了一场新的竞赛,竞相推出性能更优、速度更快、成本更低的 “推理” 人工智能语言模型。这类模型在回应人类用户时,可能需要多花一点时间,但理想情况下,它们给出的答案会更完善、更全面,也更具 “推理” 深度。这些模型通过 “思维链” 的方式得出答案,即在回应之前,会先反思自己的结论并检验其准确性。
中国网络媒体巨头、抖音、TikTok 的母公司字节跳动是最新加入这场竞赛的。它发布并公开了有关 Seed-Thinking-v1.5 的技术论文,这是一款即将推出的大语言模型(LLM),旨在提升在科学、技术、数学和工程(STEM)领域以及通用领域的推理性能。
目前,该模型还无法下载或使用,其许可条款也尚不明确 —— 不清楚它会是专有 / 闭源的,还是开源、供所有人免费使用和随意修改的,亦或是介于两者之间。不过,这篇技术论文提供了一些值得关注的细节,即便模型还未发布,现在提前了解一下也很有必要。
构建于日益流行的混合专家(MoE)架构之上
和 Meta 的新 Llama 4 以及之前 Mistral 的 Mixtral 一样,Seed-Thinking-v1.5 也是基于混合专家(MoE)架构构建的。
这种架构旨在提高模型的效率,它本质上是将多个模型的能力整合到一个模型中,每个模型专注于不同的领域。
在 Seed-Thinking-v1.5 中,MoE 架构意味着它一次仅使用 2000 亿参数中的 200 亿个。
字节跳动在发布到 GitHub 的技术论文中提到,Seed-Thinking-v1.5 注重结构化推理和经过深思熟虑的回复生成。
效果几乎有目共睹,在许多第三方基准测试评估中,Seed-Thinking-v1.5 的表现优于 DeepSeek R1,接近谷歌新发布的 Gemini 2.5 Pro 和 OpenAI 的 o3-mini-high reasoner。在衡量通用人工智能发展进程的 ARC-AGI 基准测试中,它的表现甚至超过了这两款模型。按照 OpenAI 的定义,通用人工智能被视为人工智能的目标或 “圣杯”,在大多数具有经济价值的任务上,这款模型的表现超越了人类。
作为一款小巧但功能强大的模型,Seed-Thinking-v1.5 可作为大型前沿模型的替代选择,在基准测试中取得了颇具竞争力的成绩。它在强化学习方面有所创新,还在训练数据管理和人工智能基础设施上做了不少工作。
性能基准测试与模型侧重点
Seed-Thinking-v1.5 在一系列具有挑战性的任务中表现出色,在 2024 年美国数学邀请赛(AIME 2024)中得分 86.7%,在 Codeforces 竞赛中通过率为 55.0%(8 次尝试内),在 GPQA 科学基准测试中得分 77.3%。这些成绩使其在特定推理指标上接近或与 OpenAI 的 o3-mini-high 和谷歌的 Gemini 2.5 Pro 相当。
在非推理任务方面,该模型通过人类偏好比较进行评估,其胜率比 DeepSeek R1 高出 8.0%,这表明它的优势不仅体现在逻辑或数学难题上,在其他方面同样突出。
为了解决像 AIME 这类标准基准测试中的饱和问题,字节跳动推出了 BeyondAIME,这是一个新的、难度更高的数学基准测试,其中的题目经过精心挑选,旨在避免模型单纯靠记忆答题,从而更准确地评估模型性能。预计这个测试和 Codeforces 评估集将向公众发布,以支持未来的研究。
数据策略
训练数据在该模型的开发过程中起着核心作用。在监督微调(SFT)阶段,团队整理了 40 万个样本,其中包括 30 万个可验证的(STEM、逻辑和编码任务)样本以及 10 万个不可验证的问题,如创意写作和角色扮演。
在强化学习训练中,数据被分为:
可验证问题:10 万个经过严格筛选的 STEM 问题和逻辑谜题,这些问题都有已知答案,来源于精英竞赛和专家评审。
不可验证任务:基于开放式提示的人类偏好数据集,通过成对奖励模型进行评估。
STEM 数据主要集中在高等数学领域,占问题集的 80% 以上。额外的逻辑数据包括数独和 24 点谜题等任务,难度可根据模型进展进行调整。
强化学习方法
Seed-Thinking-v1.5 中的强化学习由定制的演员 - 评论家(VAPO)和策略梯度(DAPO)框架驱动,这些框架是为解决强化学习训练中已知的不稳定性问题而开发的。这些技术减少了奖励信号的稀疏性,提高了训练的稳定性,尤其在长思维链(CoT)的情况下效果显著。
奖励模型在监督强化学习输出方面起着关键作用。字节跳动引入了两个重要工具:
Seed-Verifier:一种基于规则的大语言模型,用于检查生成的答案和参考答案在数学上是否等价。
Seed-Thinking-Verifier:一种基于逐步推理的评判器,它提高了评判的一致性,并且能够抵御奖励作弊行为。
这种两层奖励系统能够对简单和复杂任务进行细致评估。
基础设施与扩展
为了支持高效的大规模训练,字节跳动在其 HybridFlow 框架之上构建了一个系统。执行工作由 Ray 集群处理,训练和推理过程位于同一位置,以减少 GPU 的空闲时间。
流式部署系统(SRS)是一项引人注目的创新,它将模型演进与运行时执行分离。通过异步管理不同模型版本中部分完成的生成任务,它加快了迭代速度。据说这种架构能将强化学习周期加快 3 倍。
其他基础设施技术包括:
混合精度(FP8):用于节省内存。
专家并行和内核自动调优:提高 MoE 架构的效率。
ByteCheckpoint:用于实现可靠且灵活的检查点功能。
AutoTuner:用于优化并行性和内存配置。
人类评估与实际影响
为了评估模型是否符合以人类为中心的偏好,字节跳动在包括创意写作、人文知识和日常对话等多个领域进行了人类测试。
在各个测试环节中,Seed-Thinking-v1.5 的表现始终优于 DeepSeek R1,这进一步证明了它能够满足现实世界用户的需求。
开发团队指出,主要在可验证任务上训练的推理模型在创意领域也表现出了很强的通用性,这一成果归因于数学训练流程中所蕴含的结构和严谨性。
对技术领导者、数据工程师和企业决策者的意义
对于负责管理大语言模型从数据整理到部署整个生命周期的技术负责人来说,Seed-Thinking-v1.5 为他们提供了一个重新思考如何将推理能力整合到企业人工智能体系中的机会。
它的模块化训练过程,包括可验证的推理数据集和多阶段强化学习,尤其吸引那些希望在大规模开发大语言模型的同时,还能保持精细控制的团队。
字节跳动推出 Seed-Verifier 和 Seed-Thinking-Verifier,为构建更可靠的奖励模型提供了机制,这在将模型部署到面向客户或受监管的环境中时至关重要。
对于时间紧迫、资源有限的团队来说,借助 VAPO 和动态采样等创新技术,该模型在强化学习下的稳定性可以缩短迭代周期,简化特定任务的微调过程。
从编排和部署的角度来看,该模型的混合基础设施方法,包括流式部署系统(SRS)和对 FP8 优化的支持,意味着训练吞吐量和硬件利用率将显著提高。
对于负责在云和本地系统上扩展大语言模型操作的工程师来说,这些功能非常有价值。Seed-Thinking-v1.5 采用了根据运行时动态调整奖励反馈的训练机制,这直接应对了管理异构数据管道和跨领域保持一致性的挑战。
对于负责确保新工具的可靠性、可重复性和持续集成的团队来说,Seed-Thinking-v1.5 的系统级设计可以作为构建强大的多模态编排系统的蓝图。
对于数据工程专业人员来说,其结构化的训练数据处理方法,包括严格的筛选、增强和专家验证,进一步强调了数据质量对提升模型性能的重要性。这可能会启发人们在数据集开发和验证流程上采取更谨慎的方法。
未来展望
Seed-Thinking-v1.5 是字节跳动 Seed LLM Systems 团队合作的成果,该团队由吴永辉领导,长期从事人工智能研究的林海斌作为对外代表。
这个项目借鉴了之前的成果,比如豆包 1.5 Pro,并且整合了强化学习人类反馈(RLHF)和数据整理方面的技术。
该团队计划继续优化强化学习技术,重点关注训练效率和针对不可验证任务的奖励建模。像 BeyondAIME 这样的内部基准测试的公开发布,旨在推动以推理为核心的人工智能研究取得更广泛的进展。