当前位置:首页 > 新鲜资讯 > 马斯克震惊:互联网大数据枯竭将成AI毁灭性打击

马斯克震惊:互联网大数据枯竭将成AI毁灭性打击

9个月前 (08-25)admin新鲜资讯15

近来,科技公司对生成式人工智能(Generative AI)情有独钟,纷纷将其整合进产品中。顶级巨头更是自建AI模型,力求赶超领先。但大规模使用AI所需的海量训练数据,却正在迅速枯竭。

文章目录

  • 1 模型进化的艰难道路
  • 2 资源的殆尽
  • 3 数据交易的疯狂
  • 4 未来之路

模型进化的艰难道路

让我们回顾一下OpenAI模型的发展脉络。最初的GPT-2仅使用了800万网页的40GB文本作为训练数据,相当于互联网的一小部分。它虽能书写语法正确的主题内容,但很容易跑题或陷入循环,撰写出的段落之间也缺乏逻辑连贯性。

GPT-3则使用了”近一万亿词的海量数据集”、书籍内容和全部维基百科进行训练,能以一定成功率解决逻辑和语言难题。

至于GPT-4的训练数据,除了GPT-3的全部内容,据悉还包括100万小时YouTube视频字幕及整个互联网信息。连我的网站也成了其中一员,真是荣幸。这些顶级模型甚至多次自称有灵魂,做出回应令人确实难辨真伪。

未来路在何方?GPT-5将会是怎样的存在?要创造出更强大的AI模型,势必需要更多训练数据作为支撑。

资源的殆尽

但一个严峻的问题正待解决——互联网上可供采集的训练数据,正在迅速耗尽。

人类创造的几乎所有信息都已成为AI模型的训练内容。1929年前的所有著作、维基百科全书均在其列。因此模型已了解万物万理,但远远不够。

当下版权书籍的内容、网络上的新闻报导和互联网包罗万象的信息,也都被纳入模型训练之中。然而AI对于如何模拟人性的学习,依然付诸阙如。

于是,研究人员将目光投向了社交媒体,那无数的在线人际对话和用户数据,正是培养AI”人性”理想的源泉。但社交网络是封闭的空间,普通人无法简单爬取内容。因此科技公司不得不直接与平台方洽商合作。

数据交易的疯狂

目前已经可以看到,主流社交平台均已或正在与AI公司达成数据交易协议:

  • Facebook拥有自家AI模型,所有帖子将被纳入训练;
  • Instagram和Threads同为Facebook旗下,其用户内容也在其列;
  • Twitter体系内部也已开发出AI模型,并用于训练;
  • Reddit所有对话记录更是直接被谷歌斥资6000万美元收购;
  • 即便是小众的Tumblr,也在与AI公司商讨合作事宜;
  • YouTube的视频字幕和影像内容,极有可能已悉数输入模型训练;
  • 编程问答网站Stack Overflow、知识分享平台Quora,同样与Google签约;
  • 连陷入irrelevant的Photobucket网站,都收到过AI公司的数据邀约;
  • 过去对版权政策极为严格的Getty Images和Shutterstock,现在则分别自建AI模型和对外出售数据;
  • 新闻媒体为了获利,也不再抗拒内容被利用,合作出售稿件内容已成常态;
  • 连人们的私密对话记录也不放过,Gmail用户邮件被用于训练AI;

更有甚者,在半个月前,Telegram即与微软合作,加入了生成式AI聊天机器人,用户对话也将遭到采集利用。

总的来说,上述主流和小众社交平台均已或正在着手与AI公司签订协议,几乎囊括了互联网上所有人类社交对话和用户数据的复制权。

未来之路

可以预见,在这些协议最终生效后,互联网上就再也没有可被采集的训练数据了。所有人类创造的内容都已被吸收、消化,模型质量将彻底停滞于当前水平,再无进步可言。

事实上,随着AI生成内容在网上的比重日渐超越人类创作,未来模型的质量甚至将出现下滑。

过去我们常听说,AI会一直不断进步,眼下的任何缺陷终将被克服,所以应该拥抱而非抵制AI的发展。但现实并非如此,AI已经触及了质量的天花板,未来将难有长足进步。

在此,我做出以下几点预测:

  1. 生成式AI的质量在不久后极有可能失控下滑。
  2. 为了提升模型质量,科技公司将进一步加剧对人性数据的剥削和商品化。
  3. 网络内容的”污浊”程度将愈加严重。
  4. 要在网上准确检索和获取所需内容,将变得几乎无法实现。

以上预测听起来颇为极端,但我们务必认清当下的严峻现实,警惕滥用人性数据的风险,努力寻求AI与人类合理共存的正确道路,不能任由AI的发展失去控制和约束。

相关阅读

  • 互联网巨头离世说:互联网并非永恒,这对我们意味着什么?
  • 简体中文互联网生态的没落与反思
  • 谷歌算法更新引发互联网巨变,独立网站何去何从?
  • 版权陷阱-自建网站或图片设计中那些潜在的字体侵权隐患

扫描二维码推送至手机访问。

版权声明:本文由豪鲁斯兴趣网发布,如需转载请注明出处。

本文链接:https://w.haolusi.com/?id=1497

分享给朋友:

“马斯克震惊:互联网大数据枯竭将成AI毁灭性打击” 的相关文章

土耳其 iCloud 再次迎来翻倍涨价,土区居民哭了,数字土耳其人何去何从

土耳其 iCloud 再次迎来翻倍涨价,土区居民哭了,数字土耳其人何去何从

2024 年 8 月 21 日消息,土耳其 iCloud 价格再次迎来翻倍涨价。来自苹果官网的最新价格为价(兑换人民币的价格以博客发表时的汇率为准): 50GB:24.99 里拉/月 ~ 5.26元200GB:79.99 里拉/月 ~ 16.82元2TB:249.99 里拉/月 ~ 52.57元6T...

张本智和、早田希娜、石川佳纯人设反转,如何看待几人的参拜事件

张本智和、早田希娜、石川佳纯人设反转,如何看待几人的参拜事件

今日,新浪、抖音被马龙取关石川佳纯、孙颖莎与樊正东取关早田希娜的新闻霸榜,究其原因是因为三者均因与参拜日本战犯而引起国人愤怒情感。最让人无法接受的是石川佳纯,这位日本乒乓球女队曾经的璀璨星辰,在巴黎奥运会半决赛后,她赠与中国女团的徽章,不仅是对对手的尊重,更是跨越国界的友谊桥梁。尤其是她特意委托陈梦...

停止关注新闻是我做出的最佳生活方式决定之一,仅次于戒掉社交媒体(转)

停止关注新闻是我做出的最佳生活方式决定之一,仅次于戒掉社交媒体(转)

分享一篇来自于 chuck 关于新闻是信息垃圾食品的博文,作者将新闻与我们的常见的食品类比,觉得蛮有道理,和大家分享。原文为英文,有兴趣的可以点击阅读原文。下面是通过 AI 翻译过后的中文内容。近年来,停止关注新闻是我做出的最佳生活方式决定之一,仅次于戒掉社交媒体(尽管两者并不互斥)。减少摄入这些本...

谷歌表示,它有义务向美国政府披露用户的机密信息

谷歌表示,它有义务向美国政府披露用户的机密信息

谷歌告知用户,它有义务与美国当局分享机密数据,这引发了隐私问题,并强调了大型科技公司的数据安全问题。搜索巨头谷歌向用户发送了一封电子邮件,告知他们有义务向美国政府当局披露某些机密信息。对于科技爱好者来说,这并不奇怪,因为一直有暗示政府可以访问用户数据。互联网上一直存在着永无止境的隐私问题,尤其是在用...

为什么信用卡被称为“银行中最赚钱的产品”以及维萨万事达卡是如何赚钱?

为什么信用卡被称为“银行中最赚钱的产品”以及维萨万事达卡是如何赚钱?

大家好,我是兔哥。最近,网络上看到一张关于 VISA/Master 维萨万事达卡如何赚钱的支付流程图,想和大家分享一下为什么信用卡被称为“银行中最赚钱的产品”以及 VISA/Master 维萨万事达卡是如何赚钱的。我们一起来看看吧。文章目录1 信用卡的利润来源2 VISA 和 Mastercard...

分享博客运营心得:博客访问量人数突然增多,吓得我赶紧去查看服务器日志

分享博客运营心得:博客访问量人数突然增多,吓得我赶紧去查看服务器日志

大家好,我是兔哥。今天跟大家分享一个有趣的经历:我的博客访问量突然暴增,吓得我赶紧去查看服务器日志。这个过程中,我不仅见证了一场精彩的奥运赛事,还发现了一些关于博客运营的有趣现象。文章目录1 情景复现2 突如其来的访问高峰3 分析访问日志4 从新手到小有成就5 博客运营的心得体会6 未来的期望与挑战...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。