科技公司使用18.3万本书来训练人工智能问题是……
2025-08-03 07:32

科技公司使用18.3万本书来训练人工智能问题是……

  

  

Tech Companies Using 183,000 Books To Train AI. The Problem is...

  这本书包括情色小说和散文诗。(表征图像)

  《大西洋月刊》的一篇报道称,一些最大的科技公司正在使用近20万本书来训练他们的生成式人工智能模型。包括J.K.罗琳、阿米塔夫·高希、鲁比·考尔和尼尔·盖曼在内的著名作家的书籍都被收录在名为Books3的盗版图书数据库中。然而,没有人告诉作者。

  这本书包括情色小说和散文诗。报告称,这些书籍有助于生成式人工智能系统学习如何交流信息。

  CNN报道称,一些人工智能训练文本可以从互联网上发布的文章中提取。Books3已经成为针对meta和其他使用该系统训练人工智能的公司的多起诉讼的对象。

  许多作家在社交媒体上表达了他们的愤怒,并分享了他们的版权小说被列入名单的截图。

  《紧急联络》的作者玛丽·h·k·崔在发现自己的作品被人工智能利用后,在社交媒体上发帖。“我完全被掏空了,元气大伤。我感到非常愤怒,同时也感到非常无助。”崔顺实是《纽约时报》畅销书作家。

  图书馆的>

  在与CNN的互动中,崔女士说:“一本书包含了无限的选择,无限的排列,甚至是作者当时的缺点。一想到所有的生命都可以被扔进一个巨大的搅拌池,然后被挤出一个巨大的算法,生成香肠机,就会很快减少很多,”她说。“这不仅给作者带来了经济上的困难,也让书商、图书管理员和读者失去了如此多的亲密关系。”

  小说《弹珠哥》和《百万富翁的免费食物》的作者李敏镇也感到失望,称使用她的书是“盗窃”。

  “我花了三十年的时间来写书,”她说。“人工智能大型语言模型并没有‘摄取’或‘刮取’‘数据’。所有公司都偷走了我的工作、时间和创造力。他们偷了我的故事。他们偷走了我的一部分。”

  促销听最新的歌曲,只有在JioSaavn.com

  彭博社的一位发言人告诉CNN,“该公司使用了许多不同的数据源”,包括Books3,来训练其最初的彭博ggpt模型,这是一种用于金融行业的人工智能模型。但是,根据发言人的说法,彭博社“不会将Books3数据集纳入用于训练未来商业版本Bloomberg ggpt的数据源中。”

  然而,作者James Chappel并不在乎他的书在数据库中被使用。“我想让我的书被人读!”他写道。“我想用它来教育!”

本内容为作者翻译自英文材料或转自网络,不代表本站立场,未经允许不得转载
如对本稿件有异议或投诉,请联系本站
想要了解世界的人,都在 爱云网

相关推荐