苹果等科技公司未经授权运用17万条YouTube视频的字幕练习人工智能

09-04 789阅读 0评论

据科技新闻网站 Proof News 发布的音讯,包含苹果在内的多个科技公司运用的第三方数据为未经授权的,这些数据来历主要是 YouTube,这些公司运用 48,000 个频道的 173,536 个 YouTube 视频字幕文件用来练习人工智能模型。

触及的大型科技公司包含苹果、Anthropic、英伟达、Salesforce 等,不过并不是这些公司直接从 YouTube 偷视频,而是第三方数据供给商 EleutherAI 搜集并供给的。

EleutherAI 是一个非营利安排,该安排发布了一个名为 Pile 的数据集,该数据集的大部分内容敞开运用,任何有满足空间和核算才能的人都可以经过网络下载并拿来练习 AI。


                    苹果等科技公司未经授权运用17万条YouTube视频的字幕练习人工智能

该安排在论文中说到不少大型科技公司运用 Pile 数据集练习 AI,例如苹果运用该数据集练习 OpenELM 模型,这是苹果在 4 月份发布的一个新模型。

现在这种状况就牵涉到比较复杂的问题了,即比如苹果这类公司运用第三方供给的数据练习模型,但第三方的数据来历是不合规的,那运用这些数据练习模型的公司是否需求承当职责呢?

依据 YouTube 条款未经授权运用 YouTube 视频的任何内容包含但不限于字幕都是违背协议的,EleutherAI 的行为违背 YouTube 运用协议,一起也侵犯了 YouTube 视频创作者的版权。

当然这种状况现在现已十分常见,即不少人工智能公司会未经授权抓取互联网上的内容用于练习人工智能,这种操作一般都是悄然进行的,因而内容创作者很难发现自己的内容现已被未经授权的运用。

苹果、英伟达、Anthropic、EleutherAI 以及 YouTube 现在都还没有就此事发布声明,不过关于这种显着的违规行为,YouTube 可能会采纳法令办法。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,789人围观)

还没有评论,来说两句吧...

目录[+]