观点：当人工智能通过这一测试时，要小心了_家居_科学百科_爱云网

　　ta charset="UTF-8" />

　　旧金山：如果你正在寻找一个对人工智能感到紧张的新理由，那就试试这个：世界上一些最聪明的人正在努力创造人工智能系统无法通过的测试。

　　多年来，人工智能系统是通过给新模型进行各种标准化基准测试来衡量的。这些测试中有许多是具有挑战性的sat级别的问题，涉及数学、科学和逻辑等领域。比较模型在一段时间内的得分可以粗略衡量人工智能的进步。

　　但人工智能系统最终在这些测试中表现得太好了，所以创造了新的、更难的测试——通常是研究生在考试中可能遇到的问题类型。

　　这些测试也不是很好。OpenAI、b谷歌和Anthropic等公司推出的新模型在许多博士级别的挑战中都获得了高分，这限制了这些测试的实用性，并引发了一个令人不寒而寒的问题：人工智能系统是否变得过于聪明，以至于我们无法衡量？

　　本周，人工智能安全和规模人工智能中心的研究人员发布了一个可能的答案：一项名为“人类最后的考试”的新评估，他们声称这是有史以来对人工智能系统进行的最难的测试。

　　“人类的最后一次考试”是著名人工智能安全研究员、人工智能安全中心主任丹·亨德里克斯的创意。（该测试最初的名字是“人类的最后一站”，因过于戏剧化而被放弃。）

　　亨德里克斯与他担任顾问的人工智能公司Scale AI合作编写了测试，包括大约3000个选择题和简答题，旨在测试人工智能系统在分析哲学和火箭工程等领域的能力。

　　问题由这些领域的专家提交，包括大学教授和获奖数学家，他们被要求提出他们知道答案的极其困难的问题。

　　 The creators of a new test, dubbed ‘Humanity’s Last Exam’, argue we may soon lose the ability to create tests hard enough for AI models. — ?2025 The New York Times Company

　　在这里，试着从测试中找出一个关于蜂鸟解剖的问题：

　　apodiformae中的蜂鸟独特地具有双侧配对的卵圆形骨，籽状骨嵌入在m. depressor caudae插入的扩展的交叉腱膜的尾侧部分。有多少成对的肌腱由籽骨支撑？用一个数字回答。

　　或者，如果你更喜欢物理，试试这个：

　　一个块被放置在水平轨道上，它可以沿着水平轨道无摩擦地滑动。它附着在一根长度为r的刚性无质量杆的一端，另一端附着一个质量。两个物体的重量都是w，系统最初是静止的，质量在物体的正上方。物体受到与轨道平行的无限小的推力。假设系统的设计使抽油杆可以不间断地旋转360度。当杆水平时，其拉力为T1。当杆再次垂直时，质量在块的正下方，它承受张力T2。（这两个量都可以是负的，这表明杆处于压缩状态。）（T1?T2）/W等于多少？

　　(我会在这里打印答案，但这会破坏任何在本专栏接受训练的人工智能系统的测试。而且，我太笨了，无法自己验证答案。)

　　人类最后一次考试的问题经过了两步筛选过程。首先，将提交的问题交给领先的AI模型来解决。

　　如果模型不能回答问题（或者在选择题的情况下，模型比随机猜测做得更差），这些问题就会被交给一组人工审阅者，由他们对问题进行改进并验证正确答案。撰写高分试题的专家每道题的报酬在500美元到5000美元之间（2194令吉到21937令吉），并因对考试做出贡献而获得学分。

　　加州大学伯克利分校（University of California, Berkeley）理论粒子物理学博士后研究员周凯文（Kevin Zhou）在测试中提交了一些问题。他的三个问题被选中了，他告诉我，所有这些问题都是“在研究生考试中可能看到的最高范围”。

　　亨德里克斯帮助创建了一种被广泛使用的人工智能测试，即大规模多任务语言理解（MMLU）。他说，他是在与埃隆·马斯克的一次谈话中受到启发，创建了更难的人工智能测试。（亨德里克斯也是马斯克的人工智能公司xAI的安全顾问。）他说，马斯克对现有的人工智能模型测试提出了担忧，他认为这些测试太简单了。

　　“埃隆看了看MMLU的问题，然后说，‘这些都是本科生的水平。我想要世界级专家能做的事情，”亨德里克斯说。

　　还有其他测试试图衡量某些领域的高级人工智能能力，例如Epoch AI开发的FrontierMath测试，以及人工智能研究员franois Chollet开发的ARC-AGI测试。

　　但人类的最后一次考试旨在确定人工智能系统在回答各种学术科目的复杂问题方面有多好，给我们一个可能被认为是一般智力的分数。

　　亨德里克斯说：“我们正试图估计人工智能在多大程度上可以自动化许多非常困难的智力劳动。”

　　问题清单编制完成后，研究人员将人类的最后一次考试交给了六个领先的人工智能模型，包括谷歌的双子座1.5 Pro和Anthropic的克劳德3.5十四行诗。他们都失败得很惨。OpenAI的01系统得分最高，为8.3%。

　　(《纽约时报》起诉了OpenAI及其合作伙伴微软，指控他们侵犯了与人工智能系统相关的新闻内容的版权。OpenAI和微软否认了这些说法。)

　　亨德里克斯说，他预计这些分数会迅速上升，到今年年底可能会超过50%。他说，到那时，人工智能系统可能会被认为是“世界级的神谕”，能够比人类专家更准确地回答任何主题的问题。我们可能不得不寻找其他方法来衡量人工智能的影响，比如查看经济数据，或者判断它是否能在数学和科学等领域做出新的发现。

　　Scale AI的研究主管、此次考试的组织者Summer Yue表示：“你可以想象一个更好的版本，我们可以给出我们还不知道答案的问题，我们可以验证这个模型是否能够帮助我们解决问题。”

　　如今人工智能的进步令人困惑的部分原因是它的参差不齐。我们的人工智能模型能够比人类医生更有效地诊断疾病，在国际数学奥林匹克竞赛中获得银牌，在竞争激烈的编程挑战中击败顶尖的人类程序员。

　　但同样的模型有时会在基本任务上遇到困难，比如算术或写有韵律的诗。这给他们带来了在某些方面非常出色而在其他方面完全无用的声誉，并且它产生了AI改进速度的巨大不同印象，这取决于你看到的是最好的还是最差的输出。

　　这种参差不齐也使得测量这些模型变得困难。我去年写过，我们需要对人工智能系统进行更好的评估。我仍然相信这一点。但我也相信，我们需要更有创意的方法来追踪人工智能的进步，而不是依赖于标准化测试，因为人类所做的大部分事情——以及我们担心人工智能会比我们做得更好的事情——都无法通过笔试来捕捉。

　　向人类最后一次考试提交问题的理论粒子物理研究员周告诉我，虽然人工智能模型在回答复杂问题方面通常令人印象深刻，但他并不认为它们对他和他的同事构成威胁，因为他们的工作不仅仅是吐出正确答案。

　　“参加考试和成为一名实践物理学家和研究人员之间存在着巨大的鸿沟，”他说。“即使是能够回答这些问题的人工智能也可能还没有准备好帮助研究，因为研究本身就不那么结构化。“ ta charset=”UTF-8" /> - ta charset="UTF-8" />?2025纽约时报公司

观点：当人工智能通过这一测试时，要小心了

相关推荐