科技公司使用18.3万本书来训练人工智能问题是……_美国_国际视野_爱云网

Tech Companies Using 183,000 Books To Train AI. The Problem is...

　　这本书包括情色小说和散文诗。(表征图像)

　　《大西洋月刊》的一篇报道称，一些最大的科技公司正在使用近20万本书来训练他们的生成式人工智能模型。包括J.K.罗琳、阿米塔夫·高希、鲁比·考尔和尼尔·盖曼在内的著名作家的书籍都被收录在名为Books3的盗版图书数据库中。然而，没有人告诉作者。

　　这本书包括情色小说和散文诗。报告称，这些书籍有助于生成式人工智能系统学习如何交流信息。

　　CNN报道称，一些人工智能训练文本可以从互联网上发布的文章中提取。Books3已经成为针对meta和其他使用该系统训练人工智能的公司的多起诉讼的对象。

　　许多作家在社交媒体上表达了他们的愤怒，并分享了他们的版权小说被列入名单的截图。

　　《紧急联络》的作者玛丽·h·k·崔在发现自己的作品被人工智能利用后，在社交媒体上发帖。“我完全被掏空了，元气大伤。我感到非常愤怒，同时也感到非常无助。”崔顺实是《纽约时报》畅销书作家。

　　图书馆的>

　　在与CNN的互动中，崔女士说:“一本书包含了无限的选择，无限的排列，甚至是作者当时的缺点。一想到所有的生命都可以被扔进一个巨大的搅拌池，然后被挤出一个巨大的算法，生成香肠机，就会很快减少很多，”她说。“这不仅给作者带来了经济上的困难，也让书商、图书管理员和读者失去了如此多的亲密关系。”

　　小说《弹珠哥》和《百万富翁的免费食物》的作者李敏镇也感到失望，称使用她的书是“盗窃”。

　　“我花了三十年的时间来写书，”她说。“人工智能大型语言模型并没有‘摄取’或‘刮取’‘数据’。所有公司都偷走了我的工作、时间和创造力。他们偷了我的故事。他们偷走了我的一部分。”

　　促销听最新的歌曲，只有在JioSaavn.com

　　彭博社的一位发言人告诉CNN，“该公司使用了许多不同的数据源”，包括Books3，来训练其最初的彭博ggpt模型，这是一种用于金融行业的人工智能模型。但是，根据发言人的说法，彭博社“不会将Books3数据集纳入用于训练未来商业版本Bloomberg ggpt的数据源中。”

　　然而，作者James Chappel并不在乎他的书在数据库中被使用。“我想让我的书被人读!”他写道。“我想用它来教育!”

科技公司使用18.3万本书来训练人工智能问题是……