Reasoning on Mig's Blog

Memory, Reasoning, and Planning of Language Agents

Wed, 16 Apr 2025 00:00:00 +0000

Language Agents have emerged as one of the most exciting research directions in AI over the past two years. This article explores three core components: long-term memory via HippoRAG, reasoning capabilities with Grokked Transformers, and world modeling through WebDreamer.

Why Agents Again?

Russell & Norvig in “Artificial Intelligence: A Modern Approach” define an agent as “anything that can perceive its environment through sensors and act upon that environment through actions.”（@ArtificialIntelligenceModern）

大语言模型的自我提升与推理能力进化(Jason Weston, Meta)

Sat, 01 Mar 2025 00:00:00 +0000

本文内容来自 Jason Weston (Meta) 在 UC Berkeley Advanced Large Language Model Agents 课程中的分享，探讨了大语言模型的推理能力提升。以下为讲座内容：

AI 能力正在快速发展，如 O1、R1 等模型在推理基准测试中取得的突破性进展。本文将聚焦于模型的自我提升能力(self-improvement)。

为了更好地理解AI的推理机制，我们首先需要区分两种基本的思维模式：System 1和 System 2：

Fig.1: Hybrid Reasoning Framework: System 1 and System 2 Collaboration in LLMs

System 1：快速直觉系统

这是一种类似人类直觉反应的快速思维系统，主要依赖关联性思维。在LLM中，这种能力体现在transformer神经网络的基础运作机制上。其主要特征包括：

每个token使用固定的计算资源；
直接输出答案；
局限性：容易学习到虚假关联，产生幻觉、迎合性回答、越界等问题；

System 2: 深度思考系统

这代表了一种更深层次的思维模式，目前主要通过CoT来实现。在生成最终答案之前，System 2会进行系统性的推理分析。它具有以下优势：

能够执行规划、搜索和验证等复杂任务；
具备动态计算能力，可以通过CoT、ToT等方式实现灵活推理；

我们可以通过优化模型架构或权重来提升System 1的表现，也可以通过改进推理链的生成方式来增强System 2的表现；最终目标是让AI具备自我学习能力，这包括3个关键方面：

能够自主设计具有挑战性的训练任务
评估任务的完成质量，形成自我奖励机制
根据理解和反馈，持续更新优化自身能力

接下来，我们将分两个部分展开讨论：首先回顾语言模型的历史发展历程，然后深入探讨过去一年中的重要研究进展。

LLM Post-training：O1/R1 之前的优化之路

Instrcut GPT

InstructGPT 是在 2022 年提出的一种语言模型优化方法[1]，它结合了监督学习和基于人类反馈的强化学习（RLHF），比单纯的监督微调更为先进。这种方法包含三个关键步骤(如图)：

Fig.2: Reinforcement Learning from Human Feedback (RLHF) Training Pipeline

监督微调（SFT）阶段：通过收集人类标注的示范数据，对基础模型进行初步的行为调整；
奖励模型训练阶段：根据人类对模型多个输出的排序评估，训练一个能够判断输出质量的奖励模型；
强化学习优化阶段：利用奖励模型的反馈评分，通过 PPO 算法持续优化模型输出；

这种训练方法通过引入人类反馈和自我优化机制，使模型能够持续改进其输出质量。这不仅提升了模型的性能，而是朝着自我训练的目标迈进。

如何优化大语言模型（LLM）的推理能力？

Sun, 16 Feb 2025 00:00:00 +0000

2024年，大语言模型在推理能力方面取得了显著突破。以O系列模型为例，在ARC-AGI评估任务中展现了令人瞩目的性能【1】：

O3模型达到了87.5%的准确率，尽管每个任务的计算成本较高（超过$1,000）
相比之下，未采用特殊推理技术的传统LLMs准确率通常低于25%

Fig.1: O-Series Performance

如何通过有效的Prompting 来激发大语言模型的深层次推理能力，一直是研究者和开发者关注的核心问题。以下是几种主要的触发方法：

少量示例CoT提示（Few-shot CoT）：通过提供少量推理示例，引导模型学习推理模式并应用到新问题中。
指令型提示（Instruction prompting）：明确指导模型逐步思考问题，避免直接跳至答案。
指令微调（Instruction tuning）：针对多步思考的推理任务对模型进行微调，提升其在类似任务中生成连贯思维链的能力。
强化学习（Reinforcement learning）：利用强化学习技术训练模型，使其能够生成更完整、更准确的推理链。

本文重点：

我们将深入探讨Inference-time techniques，特别关注如何通过扩展token预算来提升LLM的推理能力。主要包括三个维度：

基本提示词技巧：使用更多的token预算来生成单一的解决方案。
从多个候选中进行搜索和选择，增加推理的宽度。
模型迭代自我改进，增加推理的深度，最终到达最优解。

使用更多的Token生成单一解决方案

优化提示词能显著提升模型在各类任务中的表现。本节将介绍一些提示词工程技术，帮助我们更好地完成复杂任务。下图对比了Standard Prompting和CoT Prompting两种方法【2】【3】：

Standard Prompting：仅给出最终答案，没有推理过程，容易导致错误结果。
CoT Prompting：展示完整的推理过程，让模型清晰地说明从问题到答案的推导步骤。

Fig.2: Chain-of-thought prompting enables large language models to tackle complex arithmetic commonsense, and symbolic reasoning tasks. Chain-of-thought reasoning processes are highlighted.

Zero-shot CoT Prompting：通过指令引导生成思维链推理

0-shot CoT 是一种通过简短指令引导LLM进行推理的方法，无需依赖任何示例。在这种方法中，模型不需要看到具体的示范或训练数据，仅通过一个简单的指令（如"Let’s think step by step."）（Fig.3）即可开始推理【4】。

Fig.3: Example inputs and outputs of GPT-3

优缺点：