生成式AI時代下的機器學習 -技術突破與未來發展

生成式AI時代下的機器學習 -技術突破與未來發展

生成式AI時代下的機器學習 -技術突破與未來發展

隨著技術的快速發展,我們已進入生成式人工智慧(Generative AI)的時代,這使得機器不再受限於選擇題,而能夠自由發揮,展現出強大的創造力與想像力。本課程將快速帶領大家了解生成式 AI 近年來的發展現況,以及未來值得關注的技術。

一、 生成式 AI 的基礎與運作原理

生成式 AI 讓機器具備想像力,能夠生成文字、圖像、影片,甚至是程式碼。其運作機制奠基於深度學習,從海量資料中進行學習。

  1. 萬物皆為 Token: 生成複雜的物件(例如長篇大論、圖片或聲音)的背後,有一個共同的原理:它們都是由有限的基本單位所構成。這些基本單位在生成式 AI 中常被稱為 Token(代幣)。

• 對於文字而言,Token 是組成文字的符號(例如中文字)。

• 對於圖像而言,Token 可能是像素。

• Token 的選擇是有限的,但透過這些有限的選擇進行組合,可以產生近乎無窮的可能性。

  1. Autoregressive Generation(自動迴歸生成): 不論是文字生文字、文字生圖,還是語音生文字,其背後的原理都是相似的:輸入一串 Token,然後依序決定下一個 Token 是什麼。這種策略稱為自動迴歸生成 (autoregressive generation),俗稱文字接龍,只是這裡接的對象不一定是文字。

• 模型輸出的不是唯一的答案,而是一個 Token 的機率分佈,代表每個 Token 作為下一個 Token 的合適程度與機會。

• 由於有「擲骰子」的過程(按照機率分佈抽取 Token),即使輸入相同,每次產生的輸出也可能不同。

  1. 深度學習與 Transformer 架構: 決定下一個 Token 的功能(函式 F)通常由類神經網路(Neural Network)實現。類神經網路將一個複雜的函式拆解成多個小的函式(Layer)串聯而成,因此也被稱為深度學習。Transformer 架構(通常包含 self attention layer)是當今語言模型(如 LaMA、ChatGPT、Doris)的基礎。

二、 擴展 AI 的思考能力:Reasoning

傳統上,類神經網路的深度(Layer 數量)是有限的。但面對困難的問題,需要更多的思考步驟。現在許多生成式 AI 模型(如 ChatGPT-4o、Doris、Gemini Flash)展現了類似思考的能力,這個過程通常稱為 Reasoning(推理)。

• 當你問模型一個問題時,它不是直接給答案,而是會演一段「腦內小劇場」給你看,嘗試不同的解法並自我驗證,最後才給出答案。

• 讓機器思考、演腦內小劇場,可以視為從另一個方向擴展了類神經網路的深度,其核心理念是「深度不夠,長度來湊」。

三、 AI Agent:讓 AI 獨立執行複雜任務

現代的生成式 AI 往往是通才(Universal/General Model),能夠執行多種任務,不再像過去的專才只能做單一任務。當這些通用模型被用於解決需要多個步驟才能完成、且與環境有複雜互動的任務時,我們稱之為 AI Agent(AI 代理人)。

AI Agent 的目標不是給予明確的行為或指示,而是只給予一個最終目標,讓 AI 自行決定如何達成。為了達成目標,AI Agent 必須具備以下三個核心能力:

  1. 根據經驗調整行為 (Learning from Experience): AI Agent 需要能從過去的互動經驗中學習,知道哪些行為有效,哪些無效。這需要一個記憶體(Memory)來儲存過去的經歷(例如長期記憶),以及一個 Read 模組(類似 RAG 技術)從記憶體中篩選出與當前問題最相關的經驗來輔助決策。

  2. 使用工具 (Tool Use/Function Calling): AI Agent 可藉由呼叫外部的援助來解決原本無法處理的問題。常見的工具包括:搜尋引擎(Retrieval Augmented Generation, RAG)、程式執行器(讓 AI 執行自己寫的程式)、以及其他 AI 模型(例如讓文字模型呼叫語音辨識模型處理聲音)。

• 使用工具在技術上就是調用函式(Function Calling),AI Agent 只需要知道如何輸入和輸出,不需要管工具內部如何運作。

• AI Agent 並非總是完全相信工具的輸出。當外部知識(例如 RAG 搜尋結果)與模型本身的內在信念差距過大時,AI 可能會質疑工具的結果。

  1. 規劃與世界模型 (Planning and World Model): AI Agent 需要有規劃能力,將目標分解成一系列可執行的步驟,形成一個 Plan(計畫)。由於真實環境充滿不可預測性,Agent 必須能夠靈活地調整計畫。

• 強化規劃能力的一個方法是讓 AI Agent 在「夢境」(腦內小劇場)中,利用 World Model 模擬環境的變化,嘗試不同的行動路徑並評估成功機率,找出最佳路徑後,再在現實中執行第一步。

四、 賦予 AI 新的能力 (Lifelong Learning)

當基礎的通用模型(Foundation Model)具備基本能力後,開發者可以透過不同的方法賦予 AI 新的專門技能:

• 指令引導 (Prompting): 透過提供額外的知識和行為規範(例如 System Prompt),讓 AI 執行特定任務。這種方式不會永久改變模型行為,就像員工在公司遵守規範,回家後恢復原樣。

• 微調 (Fine-tuning): 調整基礎模型的參數量,使其永久具備新的技能(例如學習新的程式語言)。然而,微調具有挑戰性,可能破壞原有的能力,因此應作為讓 AI 執行特定任務的最後手段。

• 模型編輯 (Model Editing) 和模型合併 (Model Merging): 針對性地修改類神經網路中與特定知識相關的參數(模型編輯),或將兩個不同專長的模型參數直接合併(模型合併)。

總體而言,生成式 AI 的突破,特別是透過長度來模擬思考過程,為 AI Agent 的發展奠定了基礎,使其能夠結合記憶、工具和規劃能力,獨立完成複雜任務,標誌著機器進入了終身學習的時代。

參考資訊

【生成式AI時代下的機器學習(2025)】

第一講:一堂課搞懂生成式人工智慧的技術突破與未來發展

第二講:一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)

https://youtu.be/_opsqMZ5TFI

Comments

Loading comments…

Leave a Comment