将您的推理令牌减少46%!缩短思想链和反复扣除再见的新方法

季节:来自Aofeisi量子位|官方帐户Qbitai Big Model总是采取自己的迭代步骤,什么导致链条更长?蒙特利尔大学和米拉·德·米拉·德普林斯顿学院的梅塔共同提出了一种元认知重复使用机制。简而言之,该模型回顾并总结了问题解决问题的想法,曲折的推理程序常用于更简洁的“动作”中,并将它们存储在“动作手册”中。如果您再次发现类似的问题,则该模型可以直接从手册中调用相应的行为而无需重新建立。实验结果表明,这种机制通过三种应用方案在数学参考测试(例如数学和AIME)中实现了关键的优化:行为条件的推理,自我对行为方向的自我信息以及行为行为条件的监督和调整。在保持精度而不改变的同时,使用推理令牌的使用可以减少多达46%。让我们仔细看看下面。简化碎片的重复。如今,大型语言模型广泛使用推理思想来解决复杂的任务,例如数学和编程。因此,每当他们发现新问题时,都需要反复推断一般物质。这扩大了令牌的使用,不仅增加了推理的延迟,而且还增加了上下文窗口的空间,从而降低了模型探索新路线的能力。同时,现有的LLM内存系统(例如抹布)无法解决重复推断的效率低下问题,因为它们仅存储声明性的知识“是什么”,并且缺乏重复使用“思想”程序知识的机制。在弥补上述问题时,研究小组提出了一种元认知重复使用机制。该模型面临问题,首先解决它,然后验证可以重复使用的整个推理过程,并最终ly用标准化的“行为”剪切了任何可执行指令:标准名称。这些“行为”包含在“可返回的行为手册”中,该手册在测试阶段直接通过上下文消息调用,或通过精心监视的细胞调整来内部化模型的唯一模型。首先,研究人员描述了整个“行为”结构过程。这是一个框架,模型可以在推理过程中扮演三个不同的角色。元认知策略(LLM A):从自己的推理轨迹中提取行动的责任。主(LLM B):有责任生成DatoS进行监视的精细调整培训(SFT)。 Student(LLM C):可以通过行为条件推理和行为条件SFT等行动来支持此推论过程。为了提取“行为”,元认知策略首先生成了特定问题的解决方案,例如推理 +最终响应的轨迹。接下来,我们e在可疑对中再次反映了扭矩,主要是为了评估推理在逻辑上是否严格,答案是否正确,以及是否可以提取可重复使用的新操作以简化解决问题的未来过程。最后,通过另一次咨询,目标识别,知识策略将问题,答案和反思转化为一组“动作输入(包括名称和指示)”,并将其添加到“动作手册”中。研究人员在三分化场景中测试了模型的推断性能,而令牌则较少。在第一种情况下,BCI的行为条件推断(BCI)用于两个数据集,即数学和AIME-24/25,其中DeepSeek-R1-Distill-Lalama-70b(R1-Llasa-70b)和Qwen3-32B使用候选学生的模型。 R1-LALA-70B用作元认知策略生成器。如您在上一图中所见,BCI可以通过减少令牌来实现可比的性能或更好的性能。另外,与令牌中的折痕,此方法的性能仍在改善,这表明它不会对模型的原始功能产生负面影响。个人克服行为,R1-llama-70B,是双重角色:元认知策略和学生。一种具体的方法是,该模型批评并修改了自己的推理轨迹以实现个人改进。此方法就像“修复任务”单独的大型模型。给模型一个问题。初步推理轨迹R1中的第一个音符。接下来,我们可以将问题Q和R1一起返回到模型,验证和改进它,并生成新的R2推理轨迹以纠正错误或完成丢失的步骤。从下图,即使没有更新参数,模型也可以使用从过去的问题解决过程中提取的行为模式来优化后续的推理效果。与简单的“临界校正”方法相比,该策略可以提高准确性up升至10%。动作条件的监督和对精细调整(BC-SFT)BC-SFT的监视旨在将高质量的行为直接整合到模型参数中。在这里,R1-LALAMA-70B是元认知策略师和教师模型,它需要QWEN2.5-32B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B-B- Qwen3-14b和Call-303-33-33-3.1-8B。与传统的SFT进行了比较,新方法允许对模型进行更有效的转换,而无需推断模型具有推理能力。值得一提的是,BC-SFT不仅在代币的使用方面更有效,而且在几乎所有情况下的两个参考模型都比这两个参考模型具有更高的精度。参考链接:[1] https://x.com/connordavis_ai/status/197193777775498160 [2] https://arxiv.org/abs/2509.132237
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有Res和包含照片的视频)将由社交网络平台NetEase Hao的用户加载和发布,并且仅提供信息存储服务。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注