生成式AI時代下的機器學習 — 「預訓練–對齊」（Pretrain-Alignment）的強大與極限

生成式AI時代下的機器學習 — 「預訓練–對齊」（Pretrain-Alignment）的強大與極限¶

簡介：LLM 訓練的三大階段

當今訓練大型語言模型（LLM）的基本流程主要分為三個階段：

預訓練（Pretrain）：透過大量從網路爬取的資料，讓機器獲得基本的文字接龍能力。這一步是模型能力的基礎，是整個「龍」的主體。
對齊（Alignment）：此階段引入人類參與，目的是讓機器的輸出與人類的價值觀和需求對齊（aligned）。對齊通常包含以下兩個子階段：

◦ 監督式微調（Supervised Fine Tuning, SFT）：也被稱為指令微調（Instruction Fine Tuning）。這個階段是告訴模型，當看到某個輸入時，特定的輸出才是正確的。

◦ 人類回饋強化學習（RLHF）：由使用者提供回饋，告訴機器什麼樣的回答是比較好的，什麼樣的回答是不好的。

微調（Fine Tuning）：在課程中，「fine tune」這個術語通常指的是對齊（alignment）這個步驟，即基於預訓練已得到的參數進行微調。

第一部分：預訓練（Pretrain）的強大

預訓練是大型語言模型的基石，其強大之處在於它為模型提供了豐富的知識和潛力。

• 基礎能力的建立：預訓練讓模型具備了基本的知識，例如，只經過預訓練但未經對齊的 Base Model（通常模型名稱中帶有 base 字樣）已經知道「什麼是機器學習」（Machine Learning）。

• 規模的重要性：現今一個好的預訓練模型需要大量的資料。例如，Llama 3 使用了 15 兆（T）個 Token 進行預訓練，而 DBRX-v3 則使用了 14.8 T 個 Token。資料規模的快速增長甚至讓人擔心網路上的訓練資料可能很快就會耗盡。

• 資料品質與多樣性：預訓練資料的品質對模型的最終能力有極大的影響。研究顯示，應盡量讓模型接觸各式各樣、不重複的資料，而不是反覆複習同樣的內容。此外，資料的多樣化（例如，同一個實體有許多不同版本的介紹方式）有助於強化模型對知識的通用理解能力。

第二部分：對齊（Alignment）的化龍點睛效果

雖然預訓練奠定了模型的知識基礎，但對齊（Alignment）是大幅改變模型外部行為的關鍵步驟。

• 行為的巨大轉變：一個僅經過預訓練的 Base Model，回答問題時可能會暴走、不斷重複內容、無法停止。然而，經過對齊（例如模型名稱中帶有 chat 或 instruct 字樣）的模型，能夠提供像模像樣、有條理的回答。例如，Llama 3 70B 的 Base Model 在 NTbench 上的分數是 2.74（約 3 分），但經過對齊的 Instruct 版本則能獲得 8.63 分，表現差異巨大。

• 高效且精準：Alignment 步驟使用的資料量非常少，這是令人驚訝的。例如，Llama 2 在做 SFT 時僅使用了 27,540 筆資料。甚至有研究僅用 1,000 筆精挑細選的資料來微調模型，就獲得了非常好的效果。

◦ 這說明 Alignment 是化龍點睛的步驟：龍的主體是預訓練，但光畫身體沒用，必須把眼睛點上去（Alignment）龍才能飛起來。

• 品質至上：雖然資料量可以很少，但品質（Quality）極為重要。有時，即使是數量較少但品質極高的資料集（例如，某實驗中來自「弱智吧」但由 GPT-4 回答的 240 筆資料），其效果也遠勝過數量龐大的資料。

• 知識蒸餾（Knowledge Distillation）：一個常見的高品質資料來源是使用更強大的模型（如 ChatGPT 或 GPT-4）作為「老師」。讓老師模型回答問題，將其答案作為學生模型（即你的 Base Model）的訓練目標，模型的能力便能瞬間暴增。這種方法被稱為知識蒸餾。

預訓練/對齊與微調 (Fine Tuning) 的差異

在 LLM 的訓練流程中，「預訓練」、「對齊」和「微調」這三個概念關係密切，但扮演的角色不同。

關鍵差異與洞察：

角色定位的差異：

◦ 預訓練提供模型的核心能力和知識。如果沒有強大的預訓練基礎，後續的對齊效果將受到限制。

◦ 對齊（或微調）行為模式的調整。它是在模型的參數基礎上進行微小調整。

知識增長與行為塑造的差異：

◦ 對齊（Alignment）強化模型本來就知道或有潛力知道的能力，例如，教模型學會回答問題的格式、避免暴走、增加禮貌性詞彙 (如 “Thank you for asking”)。

◦ 對齊****很難讓模型學會新知識或新技能。實驗顯示，拿模型本來就不會的（Unknown）資料去訓練，反而可能會破壞模型的原有能力。

知識的潛藏性：

◦ 預訓練雖然讓模型學會了各種知識，包括不該有的知識（如髒話或不當內容）。對齊（Alignment）並不能真正抹除模型內部的知識。

◦ 對齊只是改變了模型輸出某些 Token 的機率，使其傾向於不激發那些與不當內容相關的內部參數或神經元。這些不當知識仍然潛藏在模型的參數中，就像給怪物帶上了面具，讓它看起來人模人樣。

總結來說，你可以將大型語言模型的訓練過程想像成是雕刻師傅製作一件精美玉雕：

• 預訓練就像是從深山中挖掘並提煉出一塊巨大且質地優良的玉石。玉石越大、越純淨，潛在的價值就越高。

對齊/微調則像是雕刻師傅在玉石上進行精細的拋光和雕飾。雖然只花費了少量時間和工具（資料），但正是這些點睛之筆，讓玉石（模型）的外部形態和功能（行為）變得符合人類的欣賞和需求，最終呈現出藝術品（實用 LLM）的價值。但玉石的本質（知識）並沒有被這些雕飾所改變，師傅無法用拋光技術將玉石變成鑽石。
資料來源:

【生成式AI時代下的機器學習(2025)】第五講：大型語言模型訓練方法「預訓練–對齊」(Pretrain-Alignment) 的強大與極限

生成式AI時代下的機器學習 — 「預訓練–對齊」（Pretrain-Alignment）的強大與極限

生成式AI時代下的機器學習 — 「預訓練–對齊」（Pretrain-Alignment）的強大與極限¶

Comments

Leave a Comment