如何优化大语言模型（LLM）的推理能力？

Sun, 16 Feb 2025 00:00:00 +0000

2024年，大语言模型在推理能力方面取得了显著突破。以O系列模型为例，在ARC-AGI评估任务中展现了令人瞩目的性能【1】：

O3模型达到了87.5%的准确率，尽管每个任务的计算成本较高（超过$1,000）
相比之下，未采用特殊推理技术的传统LLMs准确率通常低于25%

Fig.1: O-Series Performance

如何通过有效的Prompting 来激发大语言模型的深层次推理能力，一直是研究者和开发者关注的核心问题。以下是几种主要的触发方法：

少量示例CoT提示（Few-shot CoT）：通过提供少量推理示例，引导模型学习推理模式并应用到新问题中。
指令型提示（Instruction prompting）：明确指导模型逐步思考问题，避免直接跳至答案。
指令微调（Instruction tuning）：针对多步思考的推理任务对模型进行微调，提升其在类似任务中生成连贯思维链的能力。
强化学习（Reinforcement learning）：利用强化学习技术训练模型，使其能够生成更完整、更准确的推理链。

本文重点：

我们将深入探讨Inference-time techniques，特别关注如何通过扩展token预算来提升LLM的推理能力。主要包括三个维度：

基本提示词技巧：使用更多的token预算来生成单一的解决方案。
从多个候选中进行搜索和选择，增加推理的宽度。
模型迭代自我改进，增加推理的深度，最终到达最优解。

使用更多的Token生成单一解决方案

优化提示词能显著提升模型在各类任务中的表现。本节将介绍一些提示词工程技术，帮助我们更好地完成复杂任务。下图对比了Standard Prompting和CoT Prompting两种方法【2】【3】：

Standard Prompting：仅给出最终答案，没有推理过程，容易导致错误结果。
CoT Prompting：展示完整的推理过程，让模型清晰地说明从问题到答案的推导步骤。

Fig.2: Chain-of-thought prompting enables large language models to tackle complex arithmetic commonsense, and symbolic reasoning tasks. Chain-of-thought reasoning processes are highlighted.

Zero-shot CoT Prompting：通过指令引导生成思维链推理

0-shot CoT 是一种通过简短指令引导LLM进行推理的方法，无需依赖任何示例。在这种方法中，模型不需要看到具体的示范或训练数据，仅通过一个简单的指令（如"Let’s think step by step."）（Fig.3）即可开始推理【4】。

Fig.3: Example inputs and outputs of GPT-3

优缺点：

Prompting on Mig's Blog

如何优化大语言模型（LLM）的推理能力？

使用更多的Token生成单一解决方案

Zero-shot CoT Prompting：通过指令引导生成思维链推理