ARC奖推出史上最难AI基准测试ARC-AGI-2-AI技术突破-AI动态观点-AI人工智能-极客阿唐

摘要：ARC 奖推出了堪称史上最难的 AI 基准测试 ARC-AGI-2，同时宣布了 2025 年竞赛信息，该竞赛设有高达 100 万美元的奖金。随着人工智能从执行特定任务逐步向展现通用、自适应智能发展，A...

ARC 奖推出了堪称史上最难的 AI 基准测试 ARC-AGI-2，同时宣布了 2025 年竞赛信息，该竞赛设有高达 100 万美元的奖金。

随着人工智能从执行特定任务逐步向展现通用、自适应智能发展，ARC-AGI-2 的挑战目标在于找出人工智能能力上的差距，并积极引导创新。

ARC 奖团队表示：“优秀的通用人工智能基准测试能成为衡量进展的有效指标。更出色的通用人工智能基准测试可以清晰辨别能力高低。而最顶尖的通用人工智能基准测试不仅能做到这些，还能积极激发研究热情并引领创新。”ARC-AGI-2 正朝着成为 “最顶尖” 基准测试的方向努力。

超越记忆

自 2019 年创立以来，ARC 奖通过制定具有持续性的基准测试，为致力于实现通用人工智能的研究人员指明方向。

像 ARC-AGI-1 这类基准测试，主要衡量的是流体智力（即根据新的未知任务调整学习方法的能力）。它与那些仅考察记忆能力的数据集截然不同。

ARC 奖的使命具有前瞻性，旨在加快科学突破的进程。其基准测试的设计目的不仅是衡量进展，更是为了激发新的思路。

研究人员注意到，2024 年末 OpenAI 的 o3 模型问世后，人工智能领域发生了重大转变。通过 ARC-AGI-1 对 o3 进行评估发现，o3 将基于深度学习的大语言模型（LLMs）与推理合成引擎相结合，标志着人工智能超越了死记硬背的阶段，取得了突破性进展。

然而，尽管取得了这些进展，类似 o3 这样的系统仍存在效率不高的问题，并且在训练过程中需要大量的人力监督。为了检验这些系统是否真正具备适应性和高效性，ARC 奖推出了 ARC-AGI-2。

ARC-AGI-2：缩小人机差距

ARC-AGI-2 基准测试对人工智能来说难度颇高，但人类却能轻松应对。前沿的人工智能推理系统在 ARC-AGI-2 测试中的得分仍停留在个位数百分比，而人类完成其中的每项任务都只需不到两次尝试。

那么，ARC-AGI-2 的独特之处在哪里呢？其设计理念是选择那些 “人类做起来相对容易，但对人工智能而言却很难甚至无法完成” 的任务。

该基准测试包含具有不同可见性的数据集，具备以下特点：

符号解释：人工智能难以赋予符号语义意义，往往只关注如对称性检查这类表面的比较。
组合推理：当需要同时应用多个相互作用的规则时，人工智能就会陷入困境。
上下文规则应用：人工智能系统无法依据复杂的上下文灵活应用规则，常常执着于表面模式。

大多数现有的基准测试侧重于考察超人能力，测试的是大多数人难以企及的先进专业技能。

ARC-AGI-2 则反其道而行之，重点关注人工智能尚未具备的能力，尤其是体现人类智能的适应性。当那些人类觉得简单但人工智能觉得困难的任务之间的差距最终缩小为零时，就可以宣布实现了通用人工智能。

不过，实现通用人工智能并不仅仅取决于完成任务的能力，效率，即寻找解决方案所需的成本和资源，正逐渐成为一个关键的决定性因素。

效率的作用

按每项任务的成本来衡量性能，对于评估智能至关重要，因为这不仅关乎解决问题的能力，还关乎高效解决问题的能力。

现实中的例子已经凸显出人类与前沿人工智能系统在效率上的差距：

人类专家组效率：完成 ARC-AGI-2 任务的准确率为 100%，每项任务成本为 17 美元。
OpenAI o3：初步估计其成功率为 4%，而每项任务的成本却高达令人咋舌的 200 美元。

这些数据凸显了人类和人工智能在适应性及资源消耗方面的差异。ARC 奖承诺在未来的排行榜中，除了公布分数，还会报告效率数据。

对效率的关注避免了单纯依靠暴力计算得出的解决方案被视为 “真正的智能”。

ARC 奖认为，智能意味着用最少的资源找到解决方案，这是人类特有的能力，但对人工智能来说却仍然难以实现。

ARC 奖 2025

ARC 奖 2025 竞赛本周在 Kaggle 平台启动，总奖金高达 100 万美元，并设有展示开源突破成果的实时排行榜。此次竞赛旨在推动开发能够高效应对 ARC-AGI-2 挑战的系统。

与 2024 年相比，今年的奖项类别有所增加，具体包括：

大奖：在 Kaggle 规定的效率限制内，达到 85% 成功率的团队将获得 70 万美元奖金。

最高分奖：提交的成果得分最高的团队可获得 7.5 万美元奖金。

论文奖：提出对解决 ARC-AGI 任务有变革性思路的团队将获得 5 万美元奖金。

其他奖项：共计 17.5 万美元，具体细节将在竞赛期间公布。

这些奖励机制确保竞赛能公平地衡量有价值的进展，同时促进研究人员、实验室和独立团队之间的合作。

去年，ARC 奖 2024 竞赛吸引了 1500 支参赛队伍，产生了 40 篇在行业内广受赞誉且颇具影响力的论文。今年提高了奖金数额，旨在取得更大的成果。

ARC 奖认为，进步依赖于新颖的想法，而不仅仅是对现有系统进行扩展。下一个高效通用系统的突破可能并非来自当前的科技巨头，而是那些勇于探索复杂性、积极进行创新实验的大胆研究人员。

AI工具应用

AI动态观点

AI定制服务

ARC奖推出史上最难AI基准测试ARC-AGI-2

猜你喜欢

开源AI新王诞生？Nous Research发布Herme...

Meta战略大调整：解散AI超级智能实验室，重组为四大部门...

战略迷航还是孤注一掷？Meta半年内四度重组AI团队，剑指...

阅读排行

OpenAI全新语音AI模型gpt-4o-transcribe...

腾讯重磅开源混元-MT翻译模型系列，宣称性能全面超越谷歌翻译

Grok-4的“马斯克偏好”：xAI最新模型在争议话题上竟优先...

全新强化学习框架Cosmos-RL问世，剑指实体AI应用新前沿

微软联手Cloudflare发布革命性Web标准，欲用AI直达...

全部分类

推荐文章

青春该恋爱还是读书？张小娴《青春日子里的缺失...

周作人《什么是不道德的文学》：以道德扼杀艺术...

不只是用AI芯片，更是用AI造芯片：半导体产...

重磅独家：AWS下周将推出AI智能体市场，A...

绝境重生：Windsurf CEO详述被Co...

推荐阅读

重磅人事任命：前OpenAI关键人物赵升葭加盟Meta，出任超级智能实...

不得不服的精辟小故事：看懂人性弱点与商业头脑的底层逻辑

推荐文章

青春该恋爱还是读书？张小娴《青春日子里的缺失...

周作人《什么是不道德的文学》：以道德扼杀艺术...

不只是用AI芯片，更是用AI造芯片：半导体产...

重磅独家：AWS下周将推出AI智能体市场，A...

绝境重生：Windsurf CEO详述被Co...

猜你喜欢

推荐阅读

热门标签:

推荐文章