生成式AI時代下的機器學習 -技術突破與未來發展

生成式AI時代下的機器學習 -技術突破與未來發展¶

隨著技術的快速發展，我們已進入生成式人工智慧（Generative AI）的時代，這使得機器不再受限於選擇題，而能夠自由發揮，展現出強大的創造力與想像力。本課程將快速帶領大家了解生成式 AI 近年來的發展現況，以及未來值得關注的技術。

一、生成式 AI 的基礎與運作原理

生成式 AI 讓機器具備想像力，能夠生成文字、圖像、影片，甚至是程式碼。其運作機制奠基於深度學習，從海量資料中進行學習。

萬物皆為 Token：生成複雜的物件（例如長篇大論、圖片或聲音）的背後，有一個共同的原理：它們都是由有限的基本單位所構成。這些基本單位在生成式 AI 中常被稱為 Token（代幣）。

• 對於文字而言，Token 是組成文字的符號（例如中文字）。

• 對於圖像而言，Token 可能是像素。

• Token 的選擇是有限的，但透過這些有限的選擇進行組合，可以產生近乎無窮的可能性。

Autoregressive Generation（自動迴歸生成）：不論是文字生文字、文字生圖，還是語音生文字，其背後的原理都是相似的：輸入一串 Token，然後依序決定下一個 Token 是什麼。這種策略稱為自動迴歸生成 (autoregressive generation)，俗稱文字接龍，只是這裡接的對象不一定是文字。

• 模型輸出的不是唯一的答案，而是一個 Token 的機率分佈，代表每個 Token 作為下一個 Token 的合適程度與機會。

• 由於有「擲骰子」的過程（按照機率分佈抽取 Token），即使輸入相同，每次產生的輸出也可能不同。

深度學習與 Transformer 架構：決定下一個 Token 的功能（函式 F）通常由類神經網路（Neural Network）實現。類神經網路將一個複雜的函式拆解成多個小的函式（Layer）串聯而成，因此也被稱為深度學習。Transformer 架構（通常包含 self attention layer）是當今語言模型（如 LaMA、ChatGPT、Doris）的基礎。

二、擴展 AI 的思考能力：Reasoning

傳統上，類神經網路的深度（Layer 數量）是有限的。但面對困難的問題，需要更多的思考步驟。現在許多生成式 AI 模型（如 ChatGPT-4o、Doris、Gemini Flash）展現了類似思考的能力，這個過程通常稱為 Reasoning（推理）。

• 當你問模型一個問題時，它不是直接給答案，而是會演一段「腦內小劇場」給你看，嘗試不同的解法並自我驗證，最後才給出答案。

• 讓機器思考、演腦內小劇場，可以視為從另一個方向擴展了類神經網路的深度，其核心理念是「深度不夠，長度來湊」。

三、 AI Agent：讓 AI 獨立執行複雜任務

現代的生成式 AI 往往是通才（Universal/General Model），能夠執行多種任務，不再像過去的專才只能做單一任務。當這些通用模型被用於解決需要多個步驟才能完成、且與環境有複雜互動的任務時，我們稱之為 AI Agent（AI 代理人）。

AI Agent 的目標不是給予明確的行為或指示，而是只給予一個最終目標，讓 AI 自行決定如何達成。為了達成目標，AI Agent 必須具備以下三個核心能力：

根據經驗調整行為 (Learning from Experience)： AI Agent 需要能從過去的互動經驗中學習，知道哪些行為有效，哪些無效。這需要一個記憶體（Memory）來儲存過去的經歷（例如長期記憶），以及一個 Read 模組（類似 RAG 技術）從記憶體中篩選出與當前問題最相關的經驗來輔助決策。
使用工具 (Tool Use/Function Calling)： AI Agent 可藉由呼叫外部的援助來解決原本無法處理的問題。常見的工具包括：搜尋引擎（Retrieval Augmented Generation, RAG）、程式執行器（讓 AI 執行自己寫的程式）、以及其他 AI 模型（例如讓文字模型呼叫語音辨識模型處理聲音）。

• 使用工具在技術上就是調用函式（Function Calling），AI Agent 只需要知道如何輸入和輸出，不需要管工具內部如何運作。

• AI Agent 並非總是完全相信工具的輸出。當外部知識（例如 RAG 搜尋結果）與模型本身的內在信念差距過大時，AI 可能會質疑工具的結果。

規劃與世界模型 (Planning and World Model)： AI Agent 需要有規劃能力，將目標分解成一系列可執行的步驟，形成一個 Plan（計畫）。由於真實環境充滿不可預測性，Agent 必須能夠靈活地調整計畫。

• 強化規劃能力的一個方法是讓 AI Agent 在「夢境」（腦內小劇場）中，利用 World Model 模擬環境的變化，嘗試不同的行動路徑並評估成功機率，找出最佳路徑後，再在現實中執行第一步。

四、賦予 AI 新的能力 (Lifelong Learning)

當基礎的通用模型（Foundation Model）具備基本能力後，開發者可以透過不同的方法賦予 AI 新的專門技能：

• 指令引導 (Prompting)：透過提供額外的知識和行為規範（例如 System Prompt），讓 AI 執行特定任務。這種方式不會永久改變模型行為，就像員工在公司遵守規範，回家後恢復原樣。

• 微調 (Fine-tuning)：調整基礎模型的參數量，使其永久具備新的技能（例如學習新的程式語言）。然而，微調具有挑戰性，可能破壞原有的能力，因此應作為讓 AI 執行特定任務的最後手段。

• 模型編輯 (Model Editing) 和模型合併 (Model Merging)：針對性地修改類神經網路中與特定知識相關的參數（模型編輯），或將兩個不同專長的模型參數直接合併（模型合併）。

總體而言，生成式 AI 的突破，特別是透過長度來模擬思考過程，為 AI Agent 的發展奠定了基礎，使其能夠結合記憶、工具和規劃能力，獨立完成複雜任務，標誌著機器進入了終身學習的時代。

參考資訊

【生成式AI時代下的機器學習(2025)】