
今年4月的一场混乱暴露了人工智能革命中不那么令人喜欢的一面,当时市场领导者OpenAI面临着从数百万用户上传的YouTube视频中抓取文字来训练生成式人工智能模型的指控。事实上,这是一个故意的行为,据报道,OpenAI团队成员讨论了如何抓取可能违反YouTube的版权规则,使该公司因错误的原因而成为人们关注的焦点。更糟糕的是,据说YouTube的所有者谷歌自己也尝试过同样的伎俩。
现在看来,OpenAI和谷歌并不是唯一转向YouTube内容获取人工智能培训材料的公司,热门品牌Anthropic、人工智能芯片制造商英伟达(Nvidia),甚至以隐私为中心的苹果(Apple)都被指控收集数据。这里有一个借口因素在起作用,因为数据是从第三方公司获得的,但它只是显示了人工智能培训业务的复杂程度。
《连线》和Proof News(一个专门从事数据驱动报道和分析的网站)发现,苹果、Anthropic和英伟达等领先的人工智能公司一直在使用一个名为“YouTube字幕”的训练数据集,其中包括来自许多不同来源的17万多个YouTube视频的文本——包括像Beast这样的顶级影响力人物,甚至包括《华尔街日报》和《纽约时报》等报纸(实际上,《纽约时报》正在起诉OpenAI抓取其新闻档案)。这些数据显然来自一家名为EleutherAI的研究机构,该机构出于学术原因使用了从众多在线资源收集的信息。但伊莱瑟的数据也是公开发布的,这就是今天暴露出来的问题所在。
虽然看到像Anthropic和Nvidia这样的人工智能品牌参与这一发展并不令人惊讶,因为该行业的公司正因在版权规则上玩忽不定而获得声誉,但苹果的加入却令人惊讶。该公司长期以来一直标榜自己是用户隐私的坚定捍卫者,我们知道它之前曾为允许访问人工智能训练数据付费。更有针对性的是,当苹果公司最近公布了其预期中的拥抱人工智能技术的重大举措——苹果智能(Apple Intelligence)时,它煞有苦心地将自己与竞争对手区分开来,具体指出了它是如何防止用户数据被重新用于训练人工智能的——甚至是它的聊天机器人人工智能合作伙伴OpenAI。
对于苹果来说,用可能违反YouTube隐私规则的数据来训练人工智能是有问题的。新闻网站Quartz指出,训练数据中使用了苹果自己的视频,并引用了科技界知名人士马奎斯·布朗利的话说,“苹果在技术上避免了‘失误’”,因为他们不是“抓取数据的人”。不过,布朗利认为这将是“一个不断演变的问题”。
对于你的公司来说,这里有几个重要的经验教训,即使你只是刚刚开始玩弄人工智能技术可以给小团队带来的商业利益。
首先,不要相信你从人工智能工具中生成的数据——如果你发布了一款用人工智能制作的产品,明显侵犯了别人的知识产权,即使这不是“你的错”,那么情况很快就会变得复杂。其次,如果你是为了自己的目的而训练人工智能,请仔细检查所有数据的来源,以免你从可疑的来源中获取信息。








