缩放定律并没有消亡!双子座核心总监透露谷歌已掌握颠覆性钥匙

新智慧报告主编:埃涅阿斯庆庆【新智慧入门】谷歌伟大的模式将被摧毁、更新!双子座代表透露了这一消息。长上下文的效率和持续时间的双重进步即将到来,注意力机制正在产生令人惊讶的发现。缩放定律并没有消亡,它正在加速进化!谷歌还会有新的突破吗?近日,谷歌 DeepMind Gemini 预训练总监 Sebastian Borgeau 在接受采访时透露了一个大消息。未来一年,大模型预训练领域将在两个方向上出现重大创新:处理长上下文的效率和上下文长度的扩展。与此同时,谷歌双子座三巨头Jeff Dean、Oriol VinyalsML和Noam Shazeer罕见同台。令人惊讶的是,谈话的内容与塞巴斯蒂安的内容一致。有很多富有远见和智慧的想法使得p人们深思。谷歌仍然是一个巨头并不奇怪。谷歌高管热情地预测,他们已经解开了大型模型的基本秘密。谷歌 DeepMind Gemini 预训练负责人 Sebastian Borgeau 在最近的采访中表示,预计明年预训练技术将出现重大创新,以提高长上下文处理的效率,并进一步扩展模型的上下文长度。此外,他最近透露,他在注意力机制方面取得了非常有趣的发现,这些发现可能会改变未来几个月的研究方向。我对此感到非常兴奋。随后他发表了令人震惊的言论。 “规模化并没有消亡,它只是在不断发展!” Sebastian Borgeaud 是 Gemini 3 预训练的总监。这是他在博客上的第一次采访,GemLe 深入了解了 ini 3 背后实验室的思考、变化发生在哪里,以及为什么当前的工作不再是“训练模型”而是构建一个完整的系统。 Gemini 3 幕后花絮:AI 的未来正在加速发展。经过一次意想不到的飞跃,一个系统诞生了。 “老实说,我认为我们……甚至比我们想象的还要走得更远。”塞巴斯蒂安·布尔日坐在麦克风前轻声说道,但他的话语就像扔进湖里的鹅卵石一样,激起了无尽的涟漪。 Gemini 3是如何实现如此大的性能提升的?塞巴斯蒂安的答案似乎很简单。 “之前更好,之后更好。”但这种低估的背后隐藏着根本性的认知变化。 “我们不再只是建立一个模型。我认为我们真正建立的基础是‘时刻是一个系统’,”他缓缓说道。而这正是 Gemini 3 毁灭性进步的关键。人们想象每一个版本的 Gemini 总有某种石头,一种令人震惊的“秘密武器”。但塞巴斯蒂安发现的事实是,进步来自于收集无数的小改进。这就是核心价值模型架构研究的模式。e从“努力创造奇迹”的广泛模型到“精心制作”的复杂模型。未来竞争的焦点将不再是“哪个数据中心更大”,而是“谁的学习算法更高效”、“谁的架构模型更复杂”、“谁能从有限的数据中成长”。 “我们能汲取尽可能多的智慧吗?” Gemini 3的大脑架构,即混合专家模型MoE,代表了LLM的清晰发展路径,从单纯追求“大”到追求“大而高效、大而智能”。人工智能的下一个目的地:长期背景、高效搜索和“成本革命”展望未来几年的技术前沿,塞巴斯蒂安指出了有趣的方向,这些方向将共同塑造下一代人工智能的能力和形态。 1、长上下文:从“短内存”到“大工作台”,Gemini提供的超长上下文能力1.5已经是一场革命。塞巴斯蒂安预测该领域的创新将继续加速。 “我认为明年我们将看到更多创新,这些创新将使长上下文更加高效,并进一步延长上下文的持续时间。”这不仅仅是“记住更多”。很长的上下文将您的模型变成真正的数字工作台。您可以同时加载整个代码库、多篇科学文章和长对话故事,并在其中执行一致的分析、推理和创建。它为复杂的多步骤任务、详细的探索和创建提供了前所未有的可能性,是迈向更强大的“智能代理”的关键基础设施。 2.注意力机制的演变 Sebastian 特别提到了注意力机制,并表示:“我们最近有了一个发现”,这是一个非常有趣的发展,我认为它将在未来几个月内塑造很多研究。”他“个人非常兴奋”这意味着被认为是当今大型模型基础的注意力机制仍然有很大的改进空间。更高效、更强大或者具有新属性的注意力机制有可能自下而上显着提高模型理解、推理和计算效率,是推动性能极限的重要工具。 3.搜索回归:训练模型“搜索数据”。Sebastian 一开始领导了“Retro”项目,模型记住了所有相反,我们研究了在训练和推理过程中搜索外部知识库的方法。他认为这个方向永远不会过时。长期的答案是以可微分的方式学习这项技能。”这意味着未来的模型可以将搜索和推理结合起来。它是从大量已知资源中动态检索信息的更原生组合思考的平台,而不是依赖后来“嫁接”的搜索工具。这可以使模型更加准确和及时,有可能突破参数尺度上知识容量的限制。 4. 效率和成本“革命” 一个日益重要的挑战是,随着用户数量的增加,模型和服务采用的成本变得越来越重要。未来的研究不应再仅仅关注最佳性能,而应关注如何使强大的模型“便宜且易于使用”。没有尽头。采访即将结束,在人工智能浪潮中,塞巴斯蒂安的回应透露出一种安静的乐观和真诚的热情。尽管讨论了数据瓶颈和成本挑战等实际问题,塞巴斯蒂安仍然对他对人工智能进步的总体判断充满信心。 “我已经说过很多次了,但是有太多不同的事情交织在一起,有太多有改进空间的方向。在这一点上,我真的看不到一个更好的方法。”这种信任不是盲目的。这一点从他作为一线领导者的经历中可以清楚地看出。改进的空间很大,虽小但很明显,整个领域的创造力还没有耗尽。在他看来,这种进步不会放缓,至少在未来几年内。规模不再是神话。Norm Shazer回归后的第一桶冷水。下一步是大人物之间的对话三人:Jeff Dean、Norm Shazer 和 Oriol Viñals。在会议中,Noem 不再是一个强硬的激进分子,他主动谈论“颠覆”,很少使用令人热血沸腾的夸张词汇,他还谈到了研发的节奏、系统的稳定性以及如何长期运作,作为《变形金刚》的创始人,他曾经从零开始经营过大型模型。更多前进,但他停下来警告。伟大的模型给出答案的速度太快,而且自我检查的力度太少。他多次在公开场合强调,当前的模型并不缺乏“智能”,但缺乏的是持续思考和迭代修改复杂任务的能力。因此,尽管大型模型的尺寸仍然很重要,但它不再是决定一切的唯一变量。 Noam在谈到推理时,明显将焦点从“我们能不能让它更快?又特?”转向“我们能不能让它更稳定?”这是他回归谷歌后第一次公开做出这样的决定。这并不是对过去的否定,而是听起来像是承认这样一个事实:通过简单的参数积累来不断进步的道路已经达到了极限。顶尖科学家一致认为:高分并不能决定AI的未来。Norm提到了“慢思考”这个词。这不仅仅是减慢研发速度,而且反复询问是否值得、是否昂贵以及是否可以大规模复制。此时,智能不再是一种抽象的能力,而是一种必须随着时间的推移而支付的工程费用,并与CPU和硬盘一起保留。一旦迈出了这一步,之前很多衡量人工智能的标准,比如基准测试,都将逐渐失效。三位顶尖科学家对这份榜单表示不感兴趣,或者用“谁打败了谁”来定义进步。列表适合衡量瞬时性能,但很难回答诸如“我可以永远运行这些吗?”之类的长期问题。诺姆和杰夫反复强调的正是后者。模型是否可靠,是否具有迁移能力,是否可以根据复杂任务不断修改?很难将这些特征压缩成漂亮的数字。 Gemini 被认为是一个系统,而不是一个模型。 “系统”在这次谈话中出现了很多次。显然这不是一个比喻。 Norm和Jeff在描述Gemini时,刻意回避了“最强大的模型”这个词,而是反复强调它是一个可以长时间运行、可以不断迭代的“系统”。虽然“系统”和“模型”相似,但其背后的逻辑却截然不同。 “模型”更像是一个单一的结果,是实验室中的瞬时表现。另一方面,“系统”更接近基础设施,强调稳定性、可扩展性以及发生错误后快速修复和继续运行的能力。对于像Noem这样重视架构设计、研发节奏和工程限制的人来说,他们自然更关心系统能否可靠运行10年或20年,而不是特定的响应速度。在他们眼里,双子座并不是胜利者的奖品,而是一种可以长期运用的智力。因此,在整个谈话过程中,并没有出现什么产品混乱的情况。公告或“对特定模型进行基准测试”的紧张局势。相反,它提醒外界,谷歌并不是在寻找一个昙花一现的成品,而是一套智能的、可重复使用的、不断发展的工业系统。参考文献: https://x.com/JeffDean/status/2001759657950667219 https://x.com/JeffDean/status/2001692889299206519 https://twitt er.com/i/spaces/1eaJbjvBOooJX/peekhttps://x.com/Hangsiin/status/2001780901982961944 4秒关注ASI ⭐点赞、进阶、一键观看⭐亮星挡新智元快推!
特别提示:以上内容(包括图片、视频,如有)由自媒体平台“网易号”用户上传。它将被加密并发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由用户上传并发布。网易号是一个社交媒体平台,仅提供信息存储服务s。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注