Memory, Reasoning, and Planning of Language Agents

Language Agents have emerged as one of the most exciting research directions in AI over the past two years. This article explores three core components: long-term memory via HippoRAG, reasoning capabilities with Grokked Transformers, and world modeling through WebDreamer. Why Agents Again? Russell & Norvig in “Artificial Intelligence: A Modern Approach” define an agent as “anything that can perceive its environment through sensors and act upon that environment through actions.”(@ArtificialIntelligenceModern) ...

April 16, 2025 · 17 min · 3469 words · Mingrui Guo

大语言模型的自我提升与推理能力进化(Jason Weston, Meta)

本文内容来自 Jason Weston (Meta) 在 UC Berkeley Advanced Large Language Model Agents 课程中的分享,探讨了大语言模型的推理能力提升 。以下为讲座内容: AI 能力正在快速发展,如 O1、R1 等模型在推理基准测试中取得的突破性进展。本文将聚焦于模型的自我提升能力(self-improvement)。 为了更好地理解AI的推理机制,我们首先需要区分两种基本的思维模式:System 1和 System 2: Fig.1: Hybrid Reasoning Framework: System 1 and System 2 Collaboration in LLMs System 1:快速直觉系统 这是一种类似人类直觉反应的快速思维系统,主要依赖关联性思维。在LLM中,这种能力体现在transformer神经网络的基础运作机制上。其主要特征包括: 每个token使用固定的计算资源; 直接输出答案; 局限性:容易学习到虚假关联,产生幻觉、迎合性回答、越界等问题; System 2: 深度思考系统 这代表了一种更深层次的思维模式,目前主要通过CoT来实现。在生成最终答案之前,System 2会进行系统性的推理分析。它具有以下优势: 能够执行规划、搜索和验证等复杂任务; 具备动态计算能力,可以通过CoT、ToT等方式实现灵活推理; 我们可以通过优化模型架构或权重来提升System 1的表现,也可以通过改进推理链的生成方式来增强System 2的表现;最终目标是让AI具备自我学习能力,这包括3个关键方面: 能够自主设计具有挑战性的训练任务 评估任务的完成质量,形成自我奖励机制 根据理解和反馈,持续更新优化自身能力 接下来,我们将分两个部分展开讨论:首先回顾语言模型的历史发展历程,然后深入探讨过去一年中的重要研究进展。 LLM Post-training:O1/R1 之前的优化之路 Instrcut GPT InstructGPT 是在 2022 年提出的一种语言模型优化方法[1],它结合了监督学习和基于人类反馈的强化学习(RLHF),比单纯的监督微调更为先进。这种方法包含三个关键步骤(如图): Fig.2: Reinforcement Learning from Human Feedback (RLHF) Training Pipeline 监督微调(SFT)阶段:通过收集人类标注的示范数据,对基础模型进行初步的行为调整; 奖励模型训练阶段:根据人类对模型多个输出的排序评估,训练一个能够判断输出质量的奖励模型; 强化学习优化阶段:利用奖励模型的反馈评分,通过 PPO 算法持续优化模型输出; 这种训练方法通过引入人类反馈和自我优化机制,使模型能够持续改进其输出质量。这不仅提升了模型的性能,而是朝着自我训练的目标迈进。 ...

March 1, 2025 · 5 min · 867 words · Mingrui Guo

如何优化大语言模型(LLM)的推理能力?

2024年,大语言模型在推理能力方面取得了显著突破。以O系列模型为例,在ARC-AGI评估任务中展现了令人瞩目的性能【1】: O3模型达到了87.5%的准确率,尽管每个任务的计算成本较高(超过$1,000) 相比之下,未采用特殊推理技术的传统LLMs准确率通常低于25% Fig.1: O-Series Performance 如何通过有效的Prompting 来激发大语言模型的深层次推理能力,一直是研究者和开发者关注的核心问题。以下是几种主要的触发方法: 少量示例CoT提示(Few-shot CoT):通过提供少量推理示例,引导模型学习推理模式并应用到新问题中。 指令型提示(Instruction prompting):明确指导模型逐步思考问题,避免直接跳至答案。 指令微调(Instruction tuning):针对多步思考的推理任务对模型进行微调,提升其在类似任务中生成连贯思维链的能力。 强化学习(Reinforcement learning):利用强化学习技术训练模型,使其能够生成更完整、更准确的推理链。 本文重点: 我们将深入探讨Inference-time techniques,特别关注如何通过扩展token预算来提升LLM的推理能力。主要包括三个维度: 基本提示词技巧:使用更多的token预算来生成单一的解决方案。 从多个候选中进行搜索和选择,增加推理的宽度。 模型迭代自我改进,增加推理的深度,最终到达最优解。 使用更多的Token生成单一解决方案 优化提示词能显著提升模型在各类任务中的表现。本节将介绍一些提示词工程技术,帮助我们更好地完成复杂任务。 下图对比了Standard Prompting和CoT Prompting两种方法【2】【3】: Standard Prompting:仅给出最终答案,没有推理过程,容易导致错误结果。 CoT Prompting:展示完整的推理过程,让模型清晰地说明从问题到答案的推导步骤。 Fig.2: Chain-of-thought prompting enables large language models to tackle complex arithmetic commonsense, and symbolic reasoning tasks. Chain-of-thought reasoning processes are highlighted. Zero-shot CoT Prompting:通过指令引导生成思维链推理 0-shot CoT 是一种通过简短指令引导LLM进行推理的方法,无需依赖任何示例。在这种方法中,模型不需要看到具体的示范或训练数据,仅通过一个简单的指令(如"Let’s think step by step.")(Fig.3)即可开始推理【4】。 Fig.3: Example inputs and outputs of GPT-3 优缺点: ...

February 16, 2025 · 6 min · 1113 words · Mingrui Guo