克里斯·霍恩：人工智能90%是营销，10%是现实，其真正的商业影响尚未得到证实_澳洲_国际视野_爱云网

　　乔从电话亭打了个电话。他每分钟的通话费用是60美分。10分钟后，价格降至每分钟50美分。打一个30分钟的电话要多少钱？

　　像这样的问题是美国小学一套算术测试的一部分，通常针对10到11岁的孩子。数学推理是解决问题的关键。因此，它可以用来衡量人工智能（AI）系统的能力。

　　小学数学8k （GSM8K）套件已经成为各种人工智能大型语言模型（llm）的流行基准，例如ChatGPT。该套件包含8500个类似于上面的问题，分为训练法学硕士的问题和待解决的实际问题。ChatGPT的OpenAI的最新LLM——gpt - 40模型——在GSM8K套件上的得分为92.5%，而b谷歌的LLM Gemini 1.5 Pro的得分为91.7%。一个较小的、调优参数较少的LLM——微软的Phi-3-small——却达到了令人印象深刻的88.5%。

　　然而，苹果公司的六位研究人员最近发表的一篇论文揭示了22种不同的最先进的llm的推理能力的重大弱点，包括上面提到的那些。仅仅一个简单的名字改变——比如在上面的问题中从“Joe”到“Dave”——然后让测试问题的其余部分完全不变，可能会导致法学硕士的不同答案。这显然是令人惊讶的，这是不可能从一个真正理解数学的学生身上预料到的。

　　当测试问题中的数字发生变化时，而不是仅仅改变名字时，研究人员所检查的各种llm的脆弱性更为显著。

　　例如，在上面的测试中，将电话的基本费率从每分钟60美分更改为每分钟70美分，并且在其余测试问题中进行类似的数值更改，导致回答的准确性更大。研究人员得出结论，法学硕士没有进行形式推理，并假设他们正在尽最大努力在提供的培训问题集内匹配模式。

　　更有趣的是，减少或增加额外条款对法学硕士的表现有显著影响。例如，在上面的测试问题中，删除指定通话价格在10分钟后降低的条款，或者添加一个新条款，对费用超过10美元的通话给予5%的折扣，通常会导致结果的准确性发生变化。

　　研究人员注意到，随着测试问题的难度通过添加更多的条款而增加，llm的性能随着问题复杂性的增加而迅速恶化。他们假设，随着问题难度的增加，搜索和模式匹配对法学硕士来说变得更加困难，这加强了他们的观点，即真正的数学推理实际上并没有发生。

　　除了改变问题的特定值和复杂性外，研究人员还尝试添加表面上相关，但实际上完全无关紧要的条款。例如，上面的电话问题可能会添加一个不重要的条款，观察到去年的电话价格实际上便宜了10%，但问题仍然是乔今天的电话费用。然而，法学硕士通常会采用贴现率。在这些情况下，研究人员观察到所有被测试的法学硕士的表现都出现了灾难性的下降，他们认为这可能是由于法学硕士对特定训练问题集的过度依赖。

　　研究人员总结道：“最终，我们的工作强调了法学硕士在进行真正的数学推理能力方面的重大局限性。LLM在同一问题的不同版本上的表现差异很大，他们的表现大幅下降而难度略有增加，他们对无关紧要的信息的敏感性表明他们的推理是脆弱的。它可能更像是复杂的模式匹配，而不是真正的逻辑推理。”

　　ChatGPT和其他法学硕士的文本回复引起了公众和投资者的注意，因为他们给人的印象是他们真正了解世界。在实践中，他们似乎已经达到了这样的规模，他们从训练数据中吸收的信息比个人通常知道或回忆的要多，并将这些数据结合成各种组合。有了足够的输入数据和训练，需要大量的投入和精力，LLM可以给人一种智能的错觉，但实际上在高级推理方面本质上是有限的，没有智能的概念模型。

　　当今计算机界最有影响力的巨头之一是Linus Torvalds，他是广泛使用的Linux操作系统的创造者。他最近表示，虽然他发现人工智能非常有趣，但他现在基本上会忽略它。他观察到，围绕人工智能的整个科技行业90%是营销，10%是现实，“在5年的时间里，情况将发生变化，到那时，我们将看到人工智能每天被用于实际工作负载。”

　　我同意他的观点。当前一代的法学硕士在文本分析和搜索方面有一定的用处，也可以制作出色的图像和视频，但它们真正的商业影响尚未得到证实。

　　报名参加

　　商业推动lerts

　　并有最好的新闻，分析和评论直接发送到您的手机

　　找到

　　WhatsApp上的爱尔兰时报

　　保持与时俱进

　　我们的商业内幕播客每周发布-查找最新一期

　　在这里

克里斯·霍恩：人工智能90%是营销，10%是现实，其真正的商业影响尚未得到证实

相关推荐