生成式AI時代下的機器學習 — 大型語言模型推理能力
生成式AI時代下的機器學習 — 大型語言模型推理能力¶
現今,一系列先進的大型語言模型(LLM)展示了一種稱為「深度思考」或「推理」(Reasoning)的特定行為。這種能力標誌著LLM的重大進步,使其不僅能給出答案,還能展現出類似於「內心小劇場」的思考過程。
具有深度思考能力的模型包括CHGVT的O系列、Dic的R系列(例如DeepSeek-R1, d6R1)、GMI的Flash Thinking,以及Cloud 3.7S的extended thinking Mode。
什麼是深度思考(推理)?
LLM的深度思考行為通常表現為:在給出最終答案之前,模型會先提供一個很長的思考過程。
以d6R1為例,當你提問「1加1等於多少」時,它不僅會給出答案,還會在一個特定的框框內(通常由fink標籤界定)展示其思考內容。在這個思考過程中,模型可能會出現以下幾種行為:
-
驗證答案(Checking): 檢視剛才想到的答案是否正確(例如,它可能會思考「讓我檢查一下我想的答案是不是對的」)。
-
探索可能性(Exploring): 嘗試考慮其他的可能性,例如在1+1=2的基礎上,考慮二進位中1+1=10的可能性。
-
規劃步驟(Planning): 規劃解決問題所需的步驟。
需要注意的是,雖然我們稱此行為為「推理」(reasoning),但在機器學習領域,這與「推論」(inference)的意義截然不同;「推論」僅指使用模型產生答案的過程。此外,LLM展現的推理行為並不一定等同於人類的推理。
技術基礎:測試階段投入更多算力(Testing Time Compute)
LLM的推理能力屬於一種「測試階段運算」(Testing Time Compute)。這意味著在模型測試或使用階段投入更大的運算資源,藉此獲得更好的結果。
這種能力的背後體現了「測試階段規模化」(Test Time Scaling)的概念:。這也常被比喻為「深度不夠,長度來湊」。透過產生非常長的思考過程,模型能夠解決更困難的問題。
打造具備深度思考能力的LLM的四大方法
要讓LLM具備深度思考能力,主要可以歸納為四種不同類型的方法。前兩種方法不需要微調模型參數,後兩種則需要。
- 更好的思維鏈(Chain of Thought, CoT)
CoT 的核心是讓模型先列出解題過程,再給出答案,這與深度思考模型所做的事情非常相似。
• Zero-shot CoT: 最簡單的方式是直接指示模型「let’s think step by step」(讓我們一步一步思考),模型就會自動列出計算過程。
• Supervised CoT: 透過給予更複雜、更精確的指示(寫在提示詞Prompt中),引導模型進行冗長且結構化的思考(例如:先深度解析要求、訂定解題計畫、多次驗算等),藉此讓模型展現出部分深度思考的能力。現代長篇的思維鏈又稱為Long Chain of Thought (L-CoT)。
- 直接賦予推理的工作流程(Exploration & Selection)
即使是較弱的模型,也可以透過明確的工作流程來大幅強化其推理能力。這類方法專注於生成多個推理結果並選出最佳答案:
• 多重嘗試與選擇: 讓模型對同一個問題回答幾千幾萬次(類似「無限猴子」的概念),遲早能產生正確答案。
◦ 多數決(Majority Vote)/自洽性(Self-consistency): 在所有輸出的答案中,選擇出現次數最多的答案作為最終答案。
◦ 最佳N選一(Best of N): 訓練一個驗證器(Verifier)來判斷哪個答案最可能是正確的。
• 逐步驗證與搜索: 更高效的做法是在模型解題的中間步驟就進行驗證,避免一步錯步步錯。
◦ 過程驗證器(Process Verifier): 這類驗證器可以根據解題過程中的部分步驟進行驗證。
◦ 集束搜索(Beam Search): 保留 Process Verifier 認為最好的 N 條路徑繼續探索,這能有效減少運算量。實驗顯示,透過 Beam Search 這種推理流程,1B的模型甚至有機會超越8B的模型。
- 模仿學習(Imitation Learning, IL)/知識蒸餾(Knowledge Distillation)
這類方法需要微調參數。它透過提供包含推理過程的訓練資料,直接教導模型如何進行推理。
• 資料來源: 由於很難取得大量的帶有推理過程的資料,通常會讓一個能力強大的「老師」模型(例如D6R1)先產生推理過程,然後再耗費人力修改,將其作為訓練資料,教導「學生」模型進行學習。這種方法即是知識蒸餾。
• 錯誤中學習(Journey Learning): 為了避免模型只學會「打順風球」,訓練資料中可以刻意包含一些錯誤的路徑,並教導模型如何修正錯誤、轉回正確的解題路徑,這被稱為 Journey Learning。
- 強化學習(Reinforcement Learning, RL)以結果為導向
這是DeepSeek-R10 (D6R10) 等模型採用的方法。
• 以結果為獎勵: 在RL的學習過程中,模型只根據最終答案是否正確來獲得獎勵(答對為Positive Reward,答錯為Negative Reward)。這完全不考慮推論過程的內容。
- 強化本能: 即使RL的訓練只關注結果,它仍能強化模型原有的推理能力,激發模型自行發現錯誤並進行修正的能力(例如模型的「Aha moment」)。
• 整合應用: 重要的是,這些方法並非互斥。例如,RL訓練出的模型(如D6R10)可以結合Majority Vote,進一步強化其推理能力。在實際打造D6R1的複雜過程中,上述三種方法(CoT、IL/Distillation、RL)其實都有被應用。
總結來說,LLM的深度思考能力是透過在測試階段投入更多運算資源,並結合了多種強化的訓練和推理策略(從簡單的指令如CoT,到複雜的搜索演算法如Beam Search,以及參數微調如IL和RL)所實現的。
參考資訊:
生成式影片: https://youtu.be/gsfuCbCgyms
Comments
Loading comments…
Leave a Comment