生成式人工智慧與機器學習導論2025 — 從預訓練到人類價值對齊

生成式人工智慧與機器學習導論2025 — 從預訓練到人類價值對齊¶

像 ChatGPT、Gemini 這些每天在使用的 AI 助手，究竟是經歷了什麼樣的過程，才從一堆程式碼變成能言善道的智慧靈魂？在李宏毅教授的《大型語言模型的學習歷程》課程中，我們將深度解構 LLM 的標準三階段學習流程：預訓練 (Pre-training)、指令微調 (SFT) 以及強化學習 (RLHF)。

本課程不僅深入淺出地解釋技術原理，更透過生動的比喻與實證數據，帶你一窺 AI 學習的真相。

🎓 階段一：預訓練 (Pre-training) — — 漫無邊際的學齡前探索

預訓練是整個訓練的起點，讓模型熟悉人類語言的樣貌並累積「世界知識」。

• 數據的震撼：現代模型如 Llama 3 閱讀過高達 15T (15 兆) 的 token。若將這些資料印在 A4 紙上疊起來，高度可達 1500 公里，遠超聖母峰，甚至觸及低軌衛星的高度。

• 自督導學習：這個階段模型透過「文字接龍」自我學習，無需人工標註，這被稱為 Self-supervised Learning。

• 侷限性：雖然模型此時已具備龐大知識，但它還不會「回答問題」。你問它台灣最高的山，它可能會回你一張選題或問你誰知道答案，因為它只是在模擬網路資料的分佈。

🏫 階段二：指令微調 (SFT) — — 進入學校學習應對進退

為了讓 AI 成為有用的工具，我們需要透過 Supervised Fine-Tuning (SFT) 教導模型正確的應對方式。

• 高質量的引導：研究顯示，SFT 階段「品質勝過數量」。與其提供百萬筆低品質資料，不如精挑細選一萬筆甚至一千筆高品質的人工標註資料，就能讓模型產生脫胎換骨的變化。

• 激發潛能： SFT 的本質並非灌輸新知識（新知識主要來自預訓練），而是「化龍點睛」，教導模型如何根據人類的指令，從既有的知識庫中提取正確的回答風格。

🌍 階段三：強化學習 (RLHF) — — 走入社會的磨練與對齊

最後階段是 Reinforcement Learning with Human Feedback (RLHF)，目標是讓 AI 的行為符合人類價值觀，這稱為對齊 (Alignment)。

• 不需標準答案：在現實世界中，許多問題沒有唯一標準答案。透過人類點擊「讚」或「倒讚」的回饋，模型學習判斷哪些回答是人類偏好的。

• 整體的評價：不同於前兩階段逐字比對 Loss，RLHF 關注的是整個回答的品質。即使模型在過程中犯了微小錯誤，只要最終產出對人類有幫助，就能獲得正向回饋。

生成式人工智慧與機器學習導論2025 — 從預訓練到人類價值對齊

生成式人工智慧與機器學習導論2025 — 從預訓練到人類價值對齊¶

Comments

Leave a Comment