生成式人工智慧與機器學習導論2025 — 深入解剖大語言模型的內部運作

生成式人工智慧與機器學習導論2025 — 深入解剖大語言模型的內部運作

生成式人工智慧與機器學習導論2025 — 深入解剖大語言模型的內部運作

在生成式 AI 盛行的時代,我們每天都在與 ChatGPT 或 Llama 等模型對話。但你是否曾好奇過,當你輸入一個句子後,模型的內部究竟發生了什麼,才讓它能精準地預測出下一個字?本文將帶領你解剖這些強大的「函式」,一探其內部的運作機制。

一、 從文字到向量:模型的起點

語言模型在本質上是一個函式 f(x),輸入一段未完成的句子 x,輸出則是下一個 token 出現的機率分佈。在運作之初,模型會進行以下步驟:

  1. Tokenization(斷詞):將輸入句子切分成一個個 token,並對應到特定的 ID。

  2. Embedding Table(嵌入表):這是一張巨大的矩陣,每一列對應一個 token 的向量(Embedding)。模型會根據 ID 查表,將整數轉換成一排代表語義的數字向量。

  3. 位置資訊(Positional Embedding):由於單純的向量無法代表順序,模型會加上位置資訊(如使用 RoPE 技術),讓模型知道每個字在句子中的位置。

二、 核心運算:多層 Transformer 結構

大型語言模型通常由數十層相同的 Layer 組成(例如 Llama 3B 有 28 層,Gemma 4B 則有 34 層)。每一層都包含兩個關鍵組件:

• Self-Attention(自注意力機制):這是模型理解「上下文」的核心。它會計算 token 之間的關聯度。

◦ 模型為每個 token 產生 Query(查詢)、Key(鍵值) 與 Value(數值)。

◦ 透過 Query 與 Key 的運算,模型能決定「果」這個字應該多大程度關注前方的「青」與「平」。

◦ Multi-head Attention 則允許模型同時從多個面向(如語法、數量、形容詞)來分析句子。

• Feed-forward Network(前饋神經網路):在處理完上下文後,每個 token 獨立經過這個網路進行轉換。有研究指出,這部分可視為一種「鍵值記憶體(Key-Value Memory)」。

三、 輸出預測:機率的誕生

當向量通過所有層後,最後一層的輸出稱為 Hidden Representation。

  1. LM Head(解嵌入):模型將最終向量乘上一個矩陣(通常就是最初的 Embedding Table),將高維向量轉回對應各個 token 的分數,這些分數稱為 Logits。

  2. Softmax 與 Temperature:為了讓分數變為機率(總和為 1),會進行 Softmax 運算。此時,我們可以透過調整 Temperature(溫度) 參數來控制模型的「創意」:溫度越高,機率分佈越平坦,模型越容易選出罕見的字;溫度越低則越保守。

四、 如何「窺探」模型在想什麼?

研究人員開發了多種技術來理解模型的「思考過程」:

• Logit Lens:將每一層的中間輸出直接進行解碼。研究發現,模型在做翻譯時,內心可能先將法文轉成英文,最後才轉成中文輸出。

• Representation Engineering(表徵工程):透過找出特定的「拒絕向量」或「吹捧向量」,我們可以人為地干預模型行為。例如,減去拒絕向量後,模型可能會同意原本被禁止的要求。

• 視覺化分析:將高維向量投影到二維平面,可以觀察到模型如何對詞義進行分類。例如,模型能自動在空間中排列出類似世界地圖的地名分佈,或是在中間層展現出語法樹結構。

結語

雖然語言模型內部充滿了數十億個令人眼花繚亂的參數,但透過解剖與分析技術,我們正逐漸理解這個「神經元」集合體是如何模仿人類語言邏輯的。這不僅是數學運算的極致體現,更是 AI 腦科學研究的迷人領域

資源:

Colab 範例

李弘毅教學影片

Comments

Loading comments…

Leave a Comment