<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Prompting on Mig&#39;s Blog</title>
    <link>https://mig217.github.io/tags/prompting/</link>
    <description>Recent content in Prompting on Mig&#39;s Blog</description>
    <generator>Hugo -- 0.147.7</generator>
    <language>en</language>
    <lastBuildDate>Sun, 16 Feb 2025 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://mig217.github.io/tags/prompting/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>如何优化大语言模型（LLM）的推理能力？</title>
      <link>https://mig217.github.io/post/2025-02-16-improving-llm-reasoning/</link>
      <pubDate>Sun, 16 Feb 2025 00:00:00 +0000</pubDate>
      <guid>https://mig217.github.io/post/2025-02-16-improving-llm-reasoning/</guid>
      <description>&lt;p&gt;2024年，大语言模型在推理能力方面取得了显著突破。以O系列模型为例，在ARC-AGI评估任务中展现了令人瞩目的性能【1】：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;O3模型达到了87.5%的准确率&lt;/strong&gt;，尽管每个任务的计算成本较高（超过$1,000）&lt;/li&gt;
&lt;li&gt;相比之下，&lt;strong&gt;未采用特殊推理技术的传统LLMs准确率通常低于25%&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;figure class=&#34;align-center&#34;&gt;
    &lt;img loading=&#34;lazy&#34; src=&#34;https://mig217.github.io/images/o-series-performance.jpg&#34; width=&#34;700px&#34;/&gt; &lt;figcaption&gt;
            Fig.1: O-Series Performance
        &lt;/figcaption&gt;
&lt;/figure&gt;

&lt;p&gt;如何通过有效的Prompting 来激发大语言模型的深层次推理能力，一直是研究者和开发者关注的核心问题。以下是几种主要的触发方法：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;少量示例CoT提示（Few-shot CoT）&lt;/strong&gt;：通过提供少量推理示例，引导模型学习推理模式并应用到新问题中。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;指令型提示（Instruction prompting）&lt;/strong&gt;：明确指导模型逐步思考问题，避免直接跳至答案。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;指令微调（Instruction tuning）&lt;/strong&gt;：针对多步思考的推理任务对模型进行微调，提升其在类似任务中生成连贯思维链的能力。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;强化学习（Reinforcement learning）&lt;/strong&gt;：利用强化学习技术训练模型，使其能够生成更完整、更准确的推理链。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;本文重点：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;我们将深入探讨Inference-time techniques，特别关注如何通过扩展token预算来提升LLM的推理能力。主要包括三个维度：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;基本提示词技巧：&lt;strong&gt;使用更多的token预算来生成单一的解决方案&lt;/strong&gt;。&lt;/li&gt;
&lt;li&gt;从多个候选中进行搜索和选择，增加推理的&lt;strong&gt;宽度&lt;/strong&gt;。&lt;/li&gt;
&lt;li&gt;模型迭代自我改进，增加推理的&lt;strong&gt;深度，最终到达最优解&lt;/strong&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用更多的token生成单一解决方案&#34;&gt;使用更多的Token生成单一解决方案&lt;/h2&gt;
&lt;p&gt;优化提示词能显著提升模型在各类任务中的表现。本节将介绍一些提示词工程技术，帮助我们更好地完成复杂任务。
下图对比了Standard Prompting和CoT Prompting两种方法【2】【3】：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Standard Prompting&lt;/strong&gt;：仅给出最终答案，没有推理过程，容易导致错误结果。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;CoT Prompting&lt;/strong&gt;：展示完整的推理过程，让&lt;strong&gt;模型清晰地说明从问题到答案的推导步骤&lt;/strong&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;figure class=&#34;align-center&#34;&gt;
    &lt;img loading=&#34;lazy&#34; src=&#34;https://mig217.github.io/images/CotvsSd.png&#34; width=&#34;700px&#34;/&gt; &lt;figcaption&gt;
            Fig.2: Chain-of-thought prompting enables large language models to tackle complex arithmetic commonsense, and symbolic reasoning tasks. Chain-of-thought reasoning processes are highlighted.
        &lt;/figcaption&gt;
&lt;/figure&gt;

&lt;h3 id=&#34;zero-shot-cot-prompting通过指令引导生成思维链推理&#34;&gt;Zero-shot CoT Prompting：通过指令引导生成思维链推理&lt;/h3&gt;
&lt;p&gt;0-shot CoT 是一种通过简短指令引导LLM进行推理的方法，无需依赖任何示例。在这种方法中，模型不需要看到具体的示范或训练数据，仅&lt;strong&gt;通过一个简单的指令（如&amp;quot;Let&amp;rsquo;s think step by step.&amp;quot;）（Fig.3）即可开始推理&lt;/strong&gt;【4】。&lt;/p&gt;
&lt;figure class=&#34;align-center&#34;&gt;
    &lt;img loading=&#34;lazy&#34; src=&#34;https://mig217.github.io/images/0-shot-cot.png&#34; width=&#34;700px&#34;/&gt; &lt;figcaption&gt;
            Fig.3: Example inputs and outputs of GPT-3
        &lt;/figcaption&gt;
&lt;/figure&gt;

&lt;p&gt;&lt;strong&gt;优缺点：&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
