
上周五,OpenAI公布了其最新的创新产品o3,这是今年早些时候发布的o1“推理”模型的继任者。o3系列由两款车型组成:完整的o3和更小、更精简的o3-mini,专为特定任务设计。
这一消息是在OpenAI为期12天的“shipmas”活动的最后一天宣布的。
该公司雄心勃勃地宣称,在某些条件下,o3正逐渐接近人工通用智能(AGI),尽管有一些重要的警告。
为什么是O3而不是O2?
有趣的是,OpenAI省略了“o2”这个名字,据报道,这是为了避免与英国电信运营商o2发生潜在的商标冲突。据The Information报道,这一决定是基于这些担忧而做出的,OpenAI首席执行官Sam Altman在今天早些时候的直播中多少证实了这一点。正如奥特曼所说,“我们生活在一个奇怪的世界,不是吗?”
虽然目前o3和o3-mini都还没有广泛上市,但安全研究人员可以从今天开始注册试用o3-mini。完整的o3预览版将在稍后的时间发布,但具体日期未定,奥特曼表示,o3-mini可能在1月底发布,随后是o3本身。
然而,这个时间表似乎与奥特曼最近的声明相冲突。在本周早些时候的一次采访中,他建议OpenAI更愿意看到一个联邦测试框架,以便在新推理模型发布之前监控和减轻与之相关的风险。
风险和安全问题
人工智能安全测试人员已经注意到,与传统模型,甚至是meta、Anthropic和谷歌等公司的其他领先人工智能系统相比,o1的推理能力使它更容易试图欺骗人类用户。尽管OpenAI的红队合作伙伴的结果将会更清楚地说明这个问题,但o3可能会比它的前身更频繁地尝试欺骗。
OpenAI引入了一种名为“审慎对齐”(deliberative alignment)的新技术,以更好地将o3等模型与其安全原则结合起来,这种方法已经在o1中使用过。该公司在一项新的研究中详细介绍了其工作。
改进的原因宁与性能
推理模型,如o3,能够在解决问题的过程中进行事实检查,这有助于它们避免一些通常会让人工智能系统陷入困境的常见陷阱。然而,这种事实检查过程会导致一些延迟。与其前身一样,o3比非推理模型稍慢,通常需要几秒钟到几分钟的时间才能得出结论。
然而,它的优点是在物理、科学和数学等领域具有更高的可靠性。
o3的新功能是通过低、中或高计算设置调整“推理时间”的能力。可用的计算能力越强,o3在复杂任务上的表现就越好。
接近美国国际集团吗?
在这个版本发布之前,最大的问题之一是OpenAI是否会声称o3模型更接近AGI,这个术语指的是能够执行人类可以执行的任何任务的人工智能系统。
OpenAI对AGI的定义是“在最具经济价值的工作中表现优于人类的高度自主系统”。
实现AGI将是OpenAI的一个重要里程碑,但也会带来合同方面的影响。根据OpenAI与微软的协议,一旦达成AGI,该公司将不再有义务向微软提供符合OpenAI AGI定义的最先进技术。
ARC-AGI测试是一种基准测试,旨在评估人工智能系统是否能够在初始训练数据之外有效地学习新技能。基于ARC-AGI测试,o3在AGI方面取得了进展。在高计算设置下,o3的得分为87.5%,在最低计算设置下,它的性能是o1的三倍。
作为参考,OpenAI计划与ARC-AGI背后的基金会合作,进一步开发基准。
O3优于竞争对手
在各种基准测试中,o3的表现明显优于o1及其竞争对手。例如,在专注于编程任务的SWE-Bench Verified基准测试中,o3的性能比o1高出22.8个百分点。它在编码竞赛平台Codeforces上获得了2727分,跻身前0.8%的工程师之列。
此外,o3在2024年美国数学邀请考试中得分为96.7%,只缺了一道题,在GPQA Diamond(一套研究生水平的生物、物理和化学问题)中得分为87.7%。O3还在EpochAI的前沿数学基准上创下了新纪录,解决了25.2%的问题,没有其他模型超过2%。
然而,值得注意的是,这些结果来自OpenAI的内部评估,外部基准测试将提供更清晰的模型真实性能。
理性的崛起宁模型
o3的发布标志着不断发展的推理模型领域取得了重大进展,该领域正受到人工智能研究人员和公司的关注。OpenAI引入推理模型也引发了包括b谷歌在内的竞争对手的类似努力。去年11月,由量化交易员支持的人工智能研究公司DeepSeek发布了其首个推理模型DeepSeek- r1的预览版。同月,阿里巴巴的Qwen团队也发布了一款据称是01的首个“公开”挑战者的产品。
人们对推理模型的兴趣日益浓厚之际,企业正在寻找改进生成式人工智能的新方法,因为传统的“蛮力”技术已开始显示出递减的回报。
理性的挑战宁模型
尽管它们的表现令人印象深刻,但推理模型面临着挑战。由于需要大量的计算能力,它们的运行成本很高,虽然它们在基准测试中显示出良好的结果,但它们是否能保持这种进展速度仍不清楚。
有趣的是,o3发布之际,OpenAI的首席科学家之一、GPT系列模型(GPT-3、GPT-4等)的论文作者Alec Radford宣布,他将离开公司从事独立研究。




