生成式人工智慧與機器學習導論2025 — 從預訓練到人類價值對齊

生成式人工智慧與機器學習導論2025 — 從預訓練到人類價值對齊

生成式人工智慧與機器學習導論2025 — 從預訓練到人類價值對齊

像 ChatGPT、Gemini 這些每天在使用的 AI 助手,究竟是經歷了什麼樣的過程,才從一堆程式碼變成能言善道的智慧靈魂?在李宏毅教授的《大型語言模型的學習歷程》課程中,我們將深度解構 LLM 的標準三階段學習流程:預訓練 (Pre-training)、指令微調 (SFT) 以及強化學習 (RLHF)。

本課程不僅深入淺出地解釋技術原理,更透過生動的比喻與實證數據,帶你一窺 AI 學習的真相。

🎓 階段一:預訓練 (Pre-training) — — 漫無邊際的學齡前探索

預訓練是整個訓練的起點,讓模型熟悉人類語言的樣貌並累積「世界知識」。

• 數據的震撼: 現代模型如 Llama 3 閱讀過高達 15T (15 兆) 的 token。若將這些資料印在 A4 紙上疊起來,高度可達 1500 公里,遠超聖母峰,甚至觸及低軌衛星的高度。

• 自督導學習: 這個階段模型透過「文字接龍」自我學習,無需人工標註,這被稱為 Self-supervised Learning。

• 侷限性: 雖然模型此時已具備龐大知識,但它還不會「回答問題」。你問它台灣最高的山,它可能會回你一張選題或問你誰知道答案,因為它只是在模擬網路資料的分佈。

🏫 階段二:指令微調 (SFT) — — 進入學校學習應對進退

為了讓 AI 成為有用的工具,我們需要透過 Supervised Fine-Tuning (SFT) 教導模型正確的應對方式。

• 高質量的引導: 研究顯示,SFT 階段「品質勝過數量」。與其提供百萬筆低品質資料,不如精挑細選一萬筆甚至一千筆高品質的人工標註資料,就能讓模型產生脫胎換骨的變化。

• 激發潛能: SFT 的本質並非灌輸新知識(新知識主要來自預訓練),而是「化龍點睛」,教導模型如何根據人類的指令,從既有的知識庫中提取正確的回答風格。

🌍 階段三:強化學習 (RLHF) — — 走入社會的磨練與對齊

最後階段是 Reinforcement Learning with Human Feedback (RLHF),目標是讓 AI 的行為符合人類價值觀,這稱為對齊 (Alignment)。

• 不需標準答案: 在現實世界中,許多問題沒有唯一標準答案。透過人類點擊「讚」或「倒讚」的回饋,模型學習判斷哪些回答是人類偏好的。

• 整體的評價: 不同於前兩階段逐字比對 Loss,RLHF 關注的是整個回答的品質。即使模型在過程中犯了微小錯誤,只要最終產出對人類有幫助,就能獲得正向回饋。

Comments

Loading comments…

Leave a Comment