工智能模型的表现,取决于用于训练或微调它们的数据质量。
在机器学习(ML)和生成式人工智能的发展历程中,带标签的数据一直是其基础要素。带标签的数据,就是经过标记的信息,能帮助人工智能模型在训练过程中理解上下文。
如今企业都在竞相部署人工智能应用,而隐藏其中的瓶颈往往并非技术问题,而是收集、整理和标记特定领域数据的过程,这一过程通常需要耗费数月时间。这种 “数据标记成本” 让技术负责人陷入两难:要么推迟应用部署,要么接受通用模型的欠佳表现。
Databricks 公司直接向这一挑战发起了冲击。
本周,该公司发布了一项关于新方法的研究成果,这种方法名为测试时自适应优化(Test-time Adaptive Optimization,简称 TAO)。该方法的核心思路是,企业只需使用现有的输入数据,无需数据标签,就能完成企业级大语言模型(LLM)的微调,而且其效果比用数千个带标签示例进行的传统微调还要好。Databricks 最初是一家数据湖仓平台供应商,近年来越来越专注于人工智能领域。该公司以 13 亿美元收购了 MosaicML,并且稳步推出各种工具,助力开发者快速创建人工智能应用。Databricks 旗下的 Mosaic 研究团队开发出了这种全新的 TAO 方法。
Databricks 的强化学习负责人兼高级研究科学家布兰登・崔(Brandon Cui)告诉 VentureBeat:“获取带标签的数据难度很大,而且标签质量差会直接导致输出结果不佳,这就是前沿实验室要找数据标注供应商购买昂贵的人工标注数据的原因。我们希望能满足客户的实际需求,数据标签曾是企业采用人工智能的一大障碍,但有了 TAO,这不再是问题。”
技术创新:TAO 如何重塑大语言模型微调方式
从本质上讲,TAO 改变了开发者针对特定领域定制模型的范式。
与传统的监督式微调方法不同,监督式微调需要成对的输入 - 输出示例,而 TAO 则利用强化学习和系统探索,仅通过示例查询来改进模型。
该技术流程由四种不同但协同工作的机制构成:
探索性响应生成:系统接收无标签的输入示例,并运用先进的提示工程技术,为每个示例生成多个可能的响应,以此探索解决方案空间。
企业校准奖励建模:生成的响应由 Databricks 奖励模型(DBRM)进行评估,该模型专门用于评估企业任务的执行情况,尤其注重结果的正确性。
基于强化学习的模型优化:然后,通过强化学习优化模型参数,这一过程实际上是教会模型直接生成高分响应。
持续数据飞轮:当用户与部署的系统进行交互时,新的输入会自动收集,从而形成一个自我改进的循环,且无需额外的人工标注工作。
测试时计算并不是一个新想法。OpenAI 曾利用测试时计算开发出 o1 推理模型,DeepSeek 也运用类似技术训练了 R1 模型。TAO 与其他测试时计算方法的不同之处在于,虽然它在训练过程中会使用额外计算资源,但最终微调后的模型推理成本与原始模型相同。这对于生产部署来说是一个关键优势,因为推理成本会随着使用量的增加而上升。
崔解释道:“TAO 仅在训练过程中使用额外计算资源,训练完成后不会增加模型的推理成本。从长远来看,我们认为 TAO 与 o1、R1 这类测试时计算方法是相辅相成的,两者可以同时使用。”
基准测试显示,TAO 性能远超传统微调
Databricks 的研究表明,TAO 不仅能与传统微调相媲美,甚至更胜一筹。在多个与企业相关的基准测试中,Databricks 称,尽管该方法耗费的人力明显更少,但表现却更优。
在 FinanceBench(一个金融文档问答基准测试)中,TAO 将 Llama 3.1 8B 模型的性能提升了 24.7 个百分点,将 Llama 3.3 70B 模型的性能提升了 13.4 个百分点。在使用适配 Databricks 方言的 BIRD-SQL 基准测试进行 SQL 生成任务时,TAO 分别实现了 19.1 和 8.7 个百分点的性能提升。
最值得注意的是,经过 TAO 微调的 Llama 3.3 70B 模型在这些基准测试中的表现,已经接近 GPT-4o 和 o3-mini 模型,而在生产环境中运行后两者的成本通常是前者的 10 - 20 倍。
这为技术决策者提供了极具吸引力的价值方案:企业可以部署更小、成本更低的模型,这些模型在特定领域任务中的表现与高端模型相当,同时还避免了传统方式下高昂的标注成本。
(此处原文包含一个图表,图表展示了不同模型在 FinanceBench、DB Enterprise Arena、BIRD-SQL 等基准测试中的得分对比,TAO - Llama 3.3 70B、Llama 3.3 70B、GPT-4o mini、Llama TAO(no labels)、Llama FT(with labels)、o3-mini 等模型在不同基准测试中的分数呈现出不同的高低差异。由于文本形式难以完整呈现图表信息,你可查看原文获取更直观的内容。)
TAO 为企业赢得上市时间优势
TAO 通过支持使用更小、更高效的模型,带来了明显的成本优势,但其最大的价值或许在于加快了人工智能项目的上市时间。
崔强调:“我们认为 TAO 为企业节省的不仅仅是金钱,更是时间。获取带标签的数据通常需要跨越不同部门,建立新流程,还要让领域专家进行标注和质量验证。企业没有几个月的时间来协调多个业务部门,只为了给一个人工智能用例做原型。”
这种时间上的压缩创造了战略优势。例如,一家金融服务公司在实施合同分析解决方案时,无需等待法律团队标记数千份文件,仅用样本合同就能开始部署和迭代。同样,医疗机构也可以仅依据医生的查询信息,在无需专家配对回复的情况下,改进临床决策支持系统。
崔表示:“我们的研究人员花了大量时间与客户交流,了解他们在构建人工智能系统时面临的实际挑战,并开发新技术来克服这些挑战。我们已经在许多企业应用中使用 TAO,帮助客户持续迭代和改进他们的模型。”
这对技术决策者意味着什么
对于希望在人工智能应用领域占据领先地位的企业来说,TAO 代表了部署专业人工智能系统方式上的一个潜在转折点。在无需大量带标签数据集的情况下,就能实现高质量的特定领域性能,这消除了广泛应用人工智能的一个重大障碍。
这种方法尤其适合那些拥有大量非结构化数据、有特定领域需求,但人工标注资源有限的组织,而这正是许多企业的现状。
随着人工智能在竞争优势中的地位日益重要,那些能够缩短从概念到部署的时间,同时提升性能的技术,将使领先企业与落后企业拉开差距。TAO 似乎有望成为这样的技术,它有可能让企业在几周内就实现专业人工智能能力的部署,而不是花费数月甚至几个季度的时间。
目前,TAO 仅在 Databricks 平台上可用,且处于内部测试阶段。