网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于博鱼电子

公司概况 核心优势 核心团队 发展历程

联系博鱼电子

官方微信 官方微博
博鱼·电子(中国)官方网站 > 新闻中心

没有数据训练大模型?Ope博鱼电子nAI 总裁带队转录YouTube视频谷歌、Meta 也想尽数据收割套路

发布时间:2024-04-09 21:13浏览次数: 来源于:网络

  博鱼电子知情人士指出,最终 OpenAI 团队还是转录了超过 100 万小时的 YouTube 视频。两位知情人士表示,这支团队包括 OpenAI 总裁 Greg Brockman,他还亲自协助收集了这些视频。整理出的文本随后被输入名为 GPT-4 的系统,这也是目前得到广泛认可的最强 AI 模型之一,也是最新版本 ChatGPT 聊天机器人的底层引擎。

  根据《》获得的内部会议记录,在坐拥 Facebook 和 Instagram 的 Meta 公司,经理、律师和工程师们去年曾讨论收购由 Simon & Schuster 出版社出版的长篇作品。他们还商定从互联网上收集受版权保护的数据,甚至愿意为此直面诉讼风险。与会者认为,逐个与出版商、艺术家、音乐家和新闻机构谈判授权许可恐将耗费过多时间。

  这些科技大厂的行动说明,在线信息——包括新闻故事、虚构作品、留言板帖子、文章、计算机程序、照片、播客及电影切片等——正在成为蓬勃发展的 AI 行业的根基与命脉。能否构建起强大的创新系统,往往取决于各方能否获得充足的数据来训练模型,进而生成与人类水平相当甚至更出色的文本、图像博鱼电子、声音与视频内容。

  多年以来,互联网(包括和 Reddit 等网站)似乎成为取之不尽、用之不竭的数据来源。但想在 AI 领域傲视同侪的科技企业们仍在寻求更大的资源池。谷歌和 Mtea 坐拥数十亿用户,每天都会产生大量搜索查询与社交媒体帖子;但受到隐私法及其自身政策的限制,理论上并不能将大部分内容用于 AI 训练。

  OpenAI 表示,其每套 AI 模型“都拥有我们精心设计的独特数据集,以帮助其了解世界并保持研究层面的领先竞争力。”谷歌也提到,其 AI 模型“接受了一部分 YouTube 内容的训练”,这种行为符合其与 YouTube 创作者达成的协议,且该公司不会在实验计划之外使用来自办公应用的数据。Meta 则指出,他们已经通过“积极投资”将 AI 技术整合至各项服务当中,并使用来自 Instagram 及 Facebook 的数十亿公开分享图像及视频进行模型训练。

  对于创作者来说,他们的作品正日益成为 AI 训练中的主要素材,由此引发的版权与许可诉讼也可谓此起彼伏。去年,《》起诉 OpenAI 与微软侵权,称其在未经许可的情况下使用受版权保护的新闻文章来训练 AI 聊天机器人。OpenAI 及微软则表示这些文章属于“合理使用”,或者说并不违反版权法,这在本质上属于正常的二创行为。

  2020 年 1 月,约翰·霍普金斯大学的理论物理学家、Anthropic 的首席科学官 Jared Kaplan 发表了一篇关于 AI 的开创性论文,激发了人们对于在线数据的高度关注。

  他的结论非常明确:训练大语言模型(驱动在线聊天机器人的底层技术)需要的数据越多,春性能就越好。正如学生们通过阅读更多书籍以汲取更多知识一样,大语言模型也能更好地提取文本中的模式,并通过更多信息将这种模式整理得更加准确。

  2022 年,谷歌旗下的 AI 实验室 DeepMind 又迈出了关键一步。他们测试了 400 种 AI 模型并调整其训练数据量及其他因素,发现表现最好的模型所使用的数量规模甚至比 Kaplan 博士论文中的预测还要更大。其中一套模型 Chinchilla 接受了 1.4 万亿个 tokens 的训练。

  知情人士称,OpenAI 的员工清楚知道自己涉足的是法律的灰色地带,但他们相信使用视频内容训练 AI 属于合理使用。OpenAI 公司总裁 Brockman 在一份研究论文中被列为 Whisper 的缔造者。据两位知情人士介绍,他曾亲自帮助收集 YouTube 视频并将转录结果输入 GPT 模型。

  两位了解内情的人士表示博鱼电子,部分谷歌员工已经知晓 OpenAI 在收集 YouTube 视频作为训练数据,但他们并没有出声阻止,是因为谷歌自己也在使用 YouTube 视频的文字记录训练其 AI 模型。谷歌的这种作法同样可能侵犯 YouTube 创作者的版权博鱼电子。知情人士还提到,一旦谷歌揪住 OpenAI 的作法不放,那公众很可能针对其同类作法提出强烈抗议。

  2022 年底,就在 OpenAI 发布 ChatGPT 并引发全行业竞赛之后,谷歌研究人员和工程师们讨论了利用其他用户数据的可能性。用户们的 Google Docs 文档及其他免费谷歌应用中蕴藏着数十亿单词量的文本。但三名了解谷歌内情的人士指出,该公司的隐私条款限制了他们使用这些数据的方式。

  Meta 公司首席执行官 Mark Zuckerberg 已经在 AI 领域投资多年,但随着 OpenAI 在 2020 年发布 ChatGPT,他猛然发现自己已经落后于时代。三位现任及前任员工(因未获发言授权而保持匿名)表示,Zuckerberg 决定立即迎头赶上并超越 ChatGPT。他连夜打电话给高管和工程师,敦促他们开发一款与之竞争的聊天机器人。

  但到去年初,Meta 遇到了与其竞争对手相同的困境:得不到足够的数据。

  没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路

  OpenAI投资的自动驾驶软件公司倒闭了:烧光15亿元交不出一款产品,CEO:成本太高,活不下去了

  ChatGPT免注册让官网挂了?沃顿教授:OpenAI 做了错误的决定

下一篇:AI视频生成狂飙 Runway Pika万博鱼电子兴科技等领跑
上一篇:快速了解AI博鱼电子视频生成的技术原理

咨询我们

输入您的疑问及需求发送邮箱给我们