生成式AI時代下的機器學習 — 大型語言模型推理能力

生成式AI時代下的機器學習 — 大型語言模型推理能力¶

現今，一系列先進的大型語言模型（LLM）展示了一種稱為「深度思考」或「推理」（Reasoning）的特定行為。這種能力標誌著LLM的重大進步，使其不僅能給出答案，還能展現出類似於「內心小劇場」的思考過程。

具有深度思考能力的模型包括CHGVT的O系列、Dic的R系列（例如DeepSeek-R1, d6R1）、GMI的Flash Thinking，以及Cloud 3.7S的extended thinking Mode。

什麼是深度思考（推理）？

LLM的深度思考行為通常表現為：在給出最終答案之前，模型會先提供一個很長的思考過程。

以d6R1為例，當你提問「1加1等於多少」時，它不僅會給出答案，還會在一個特定的框框內（通常由fink標籤界定）展示其思考內容。在這個思考過程中，模型可能會出現以下幾種行為：

需要注意的是，雖然我們稱此行為為「推理」（reasoning），但在機器學習領域，這與「推論」（inference）的意義截然不同；「推論」僅指使用模型產生答案的過程。此外，LLM展現的推理行為並不一定等同於人類的推理。

技術基礎：測試階段投入更多算力（Testing Time Compute）

LLM的推理能力屬於一種「測試階段運算」（Testing Time Compute）。這意味著在模型測試或使用階段投入更大的運算資源，藉此獲得更好的結果。

這種能力的背後體現了「測試階段規模化」（Test Time Scaling）的概念：。這也常被比喻為「深度不夠，長度來湊」。透過產生非常長的思考過程，模型能夠解決更困難的問題。

打造具備深度思考能力的LLM的四大方法

要讓LLM具備深度思考能力，主要可以歸納為四種不同類型的方法。前兩種方法不需要微調模型參數，後兩種則需要。

CoT 的核心是讓模型先列出解題過程，再給出答案，這與深度思考模型所做的事情非常相似。

• Zero-shot CoT：最簡單的方式是直接指示模型「let’s think step by step」（讓我們一步一步思考），模型就會自動列出計算過程。

• Supervised CoT：透過給予更複雜、更精確的指示（寫在提示詞Prompt中），引導模型進行冗長且結構化的思考（例如：先深度解析要求、訂定解題計畫、多次驗算等），藉此讓模型展現出部分深度思考的能力。現代長篇的思維鏈又稱為Long Chain of Thought (L-CoT)。

即使是較弱的模型，也可以透過明確的工作流程來大幅強化其推理能力。這類方法專注於生成多個推理結果並選出最佳答案：

• 多重嘗試與選擇：讓模型對同一個問題回答幾千幾萬次（類似「無限猴子」的概念），遲早能產生正確答案。

◦ 多數決（Majority Vote）/自洽性（Self-consistency）：在所有輸出的答案中，選擇出現次數最多的答案作為最終答案。

◦ 最佳N選一（Best of N）：訓練一個驗證器（Verifier）來判斷哪個答案最可能是正確的。

• 逐步驗證與搜索：更高效的做法是在模型解題的中間步驟就進行驗證，避免一步錯步步錯。

◦ 過程驗證器（Process Verifier）：這類驗證器可以根據解題過程中的部分步驟進行驗證。

◦ 集束搜索（Beam Search）：保留 Process Verifier 認為最好的 N 條路徑繼續探索，這能有效減少運算量。實驗顯示，透過 Beam Search 這種推理流程，1B的模型甚至有機會超越8B的模型。

這類方法需要微調參數。它透過提供包含推理過程的訓練資料，直接教導模型如何進行推理。

• 資料來源：由於很難取得大量的帶有推理過程的資料，通常會讓一個能力強大的「老師」模型（例如D6R1）先產生推理過程，然後再耗費人力修改，將其作為訓練資料，教導「學生」模型進行學習。這種方法即是知識蒸餾。

• 錯誤中學習（Journey Learning）：為了避免模型只學會「打順風球」，訓練資料中可以刻意包含一些錯誤的路徑，並教導模型如何修正錯誤、轉回正確的解題路徑，這被稱為 Journey Learning。

這是DeepSeek-R10 (D6R10) 等模型採用的方法。

• 以結果為獎勵：在RL的學習過程中，模型只根據最終答案是否正確來獲得獎勵（答對為Positive Reward，答錯為Negative Reward）。這完全不考慮推論過程的內容。

強化本能：即使RL的訓練只關注結果，它仍能強化模型原有的推理能力，激發模型自行發現錯誤並進行修正的能力（例如模型的「Aha moment」）。
• 整合應用：重要的是，這些方法並非互斥。例如，RL訓練出的模型（如D6R10）可以結合Majority Vote，進一步強化其推理能力。在實際打造D6R1的複雜過程中，上述三種方法（CoT、IL/Distillation、RL）其實都有被應用。

總結來說，LLM的深度思考能力是透過在測試階段投入更多運算資源，並結合了多種強化的訓練和推理策略（從簡單的指令如CoT，到複雜的搜索演算法如Beam Search，以及參數微調如IL和RL）所實現的。

參考資訊: