Reasoning

Memory, Reasoning, and Planning of Language Agents

Language Agents have emerged as one of the most exciting research directions in AI over the past two years. This article explores three core components: long-term memory via HippoRAG, reasoning capabilities with Grokked Transformers, and world modeling through WebDreamer. Why Agents Again? Russell & Norvig in “Artificial Intelligence: A Modern Approach” define an agent as “anything that can perceive its environment through sensors and act upon that environment through actions.”（@ArtificialIntelligenceModern） ...

大语言模型的自我提升与推理能力进化(Jason Weston, Meta)

本文内容来自 Jason Weston (Meta) 在 UC Berkeley Advanced Large Language Model Agents 课程中的分享，探讨了大语言模型的推理能力提升。以下为讲座内容： AI 能力正在快速发展，如 O1、R1 等模型在推理基准测试中取得的突破性进展。本文将聚焦于模型的自我提升能力(self-improvement)。为了更好地理解AI的推理机制，我们首先需要区分两种基本的思维模式：System 1和 System 2： Fig.1: Hybrid Reasoning Framework: System 1 and System 2 Collaboration in LLMs System 1：快速直觉系统这是一种类似人类直觉反应的快速思维系统，主要依赖关联性思维。在LLM中，这种能力体现在transformer神经网络的基础运作机制上。其主要特征包括：每个token使用固定的计算资源；直接输出答案；局限性：容易学习到虚假关联，产生幻觉、迎合性回答、越界等问题； System 2: 深度思考系统这代表了一种更深层次的思维模式，目前主要通过CoT来实现。在生成最终答案之前，System 2会进行系统性的推理分析。它具有以下优势：能够执行规划、搜索和验证等复杂任务；具备动态计算能力，可以通过CoT、ToT等方式实现灵活推理；我们可以通过优化模型架构或权重来提升System 1的表现，也可以通过改进推理链的生成方式来增强System 2的表现；最终目标是让AI具备自我学习能力，这包括3个关键方面：能够自主设计具有挑战性的训练任务评估任务的完成质量，形成自我奖励机制根据理解和反馈，持续更新优化自身能力接下来，我们将分两个部分展开讨论：首先回顾语言模型的历史发展历程，然后深入探讨过去一年中的重要研究进展。 LLM Post-training：O1/R1 之前的优化之路 Instrcut GPT InstructGPT 是在 2022 年提出的一种语言模型优化方法[1]，它结合了监督学习和基于人类反馈的强化学习（RLHF），比单纯的监督微调更为先进。这种方法包含三个关键步骤(如图)： Fig.2: Reinforcement Learning from Human Feedback (RLHF) Training Pipeline 监督微调（SFT）阶段：通过收集人类标注的示范数据，对基础模型进行初步的行为调整；奖励模型训练阶段：根据人类对模型多个输出的排序评估，训练一个能够判断输出质量的奖励模型；强化学习优化阶段：利用奖励模型的反馈评分，通过 PPO 算法持续优化模型输出；这种训练方法通过引入人类反馈和自我优化机制，使模型能够持续改进其输出质量。这不仅提升了模型的性能，而是朝着自我训练的目标迈进。 ...

如何优化大语言模型（LLM）的推理能力？

2024年，大语言模型在推理能力方面取得了显著突破。以O系列模型为例，在ARC-AGI评估任务中展现了令人瞩目的性能【1】： O3模型达到了87.5%的准确率，尽管每个任务的计算成本较高（超过$1,000）相比之下，未采用特殊推理技术的传统LLMs准确率通常低于25% Fig.1: O-Series Performance 如何通过有效的Prompting 来激发大语言模型的深层次推理能力，一直是研究者和开发者关注的核心问题。以下是几种主要的触发方法：少量示例CoT提示（Few-shot CoT）：通过提供少量推理示例，引导模型学习推理模式并应用到新问题中。指令型提示（Instruction prompting）：明确指导模型逐步思考问题，避免直接跳至答案。指令微调（Instruction tuning）：针对多步思考的推理任务对模型进行微调，提升其在类似任务中生成连贯思维链的能力。强化学习（Reinforcement learning）：利用强化学习技术训练模型，使其能够生成更完整、更准确的推理链。本文重点：我们将深入探讨Inference-time techniques，特别关注如何通过扩展token预算来提升LLM的推理能力。主要包括三个维度：基本提示词技巧：使用更多的token预算来生成单一的解决方案。从多个候选中进行搜索和选择，增加推理的宽度。模型迭代自我改进，增加推理的深度，最终到达最优解。使用更多的Token生成单一解决方案优化提示词能显著提升模型在各类任务中的表现。本节将介绍一些提示词工程技术，帮助我们更好地完成复杂任务。下图对比了Standard Prompting和CoT Prompting两种方法【2】【3】： Standard Prompting：仅给出最终答案，没有推理过程，容易导致错误结果。 CoT Prompting：展示完整的推理过程，让模型清晰地说明从问题到答案的推导步骤。 Fig.2: Chain-of-thought prompting enables large language models to tackle complex arithmetic commonsense, and symbolic reasoning tasks. Chain-of-thought reasoning processes are highlighted. Zero-shot CoT Prompting：通过指令引导生成思维链推理 0-shot CoT 是一种通过简短指令引导LLM进行推理的方法，无需依赖任何示例。在这种方法中，模型不需要看到具体的示范或训练数据，仅通过一个简单的指令（如"Let’s think step by step."）（Fig.3）即可开始推理【4】。 Fig.3: Example inputs and outputs of GPT-3 优缺点： ...