生成式AI時代下的機器學習 — 語言模型內部運作機制剖析

生成式AI時代下的機器學習 — 語言模型內部運作機制剖析¶

本講次深入探討了大型語言模型（LLM）內部的運作機制，特別是基於 Transformer 的網路。分析重點在於已訓練好的模型如何運作，而非訓練過程。

• 神經元的運作：在 Transformer 中，一個神經元（neuron）的輸出是前一層向量的加權總和（weighted sum），經過激活函數 (Activation Function)，例如 ReLU (將小於零的值設為 0) 處理後的結果。

• 啟動與功能：當神經元輸出大於零時，即代表被「啟動」。

◦ 相關性與因果性：僅觀察到神經元啟動與模型行為（如說髒話）同時發生，只能證明兩者相關，不能證明因果。

◦ 因果性驗證：若要驗證因果關係，需進行「割除」（移除）實驗，例如將神經元輸出永遠設為零或平均值，看是否影響模型的行為。

◦ 功能分級：若神經元的輸出數值與行為的程度相關（例如輸出值越大，髒話越髒），則可進一步確認其功能。

• 著名範例：

◦ 川普神經元：此研究是在 2021 年對 CLIP 影像模型進行的分析，發現某神經元專門對川普相關的圖片、文字或圖示高度啟動。

◦ 文法神經元：某些神經元可能專門管理文法概念，如單數或複數 (在 GPT-2 中被發現)。

• 單一神經元的限制：

◦ 多數情況下，一個任務的完成是由多個神經元共同管理，移除單一神經元通常對模型的最終輸出影響不大。

◦ 一個單一神經元可能同時管理多個不相關的任務，導致其用途難以單獨解釋。

研究人員假設 LLM 的行為是透過神經元的組合來驅動的，這種組合可以被視為高維空間中的一個特定方向，稱為功能向量 (Function Vector)。

• 功能向量的尋找方法（減法操作）：

• 激活工程（Activation Engineering）：透過對模型特定層的 Representation 加上或減去功能向量，可以直接操控模型的行為。

◦ 範例：

▪ 拒絕向量：加入拒絕向量會讓模型拒絕回答正常問題，減去拒絕向量則可能讓模型回答有害內容。

▪ 說真話向量：加入此向量會使模型誠實地回答問題，無視既有的迷信或諺語。

▪ In-context Vector：透過平均一組示範（demonstration）的 Representation，可以讓模型在沒有示範的情況下，執行類似的任務（如找反義詞）。

• 功能向量的自動發現 (Sparse Autoencoder, SAE)：

◦ SAE 技術可以自動地從 Representation 中分解出大量的稀疏功能向量 (V1 到 VK)。

◦ 這需要假設每個 Representation 都是由少數功能向量的線性組合所構成，目的是讓非功能向量部分最小化，並讓用於組合的權重 (α) 稀疏化（趨近於零），如果不讓組合的權重 (α) 稀疏化，會變成每個v會頃向稀疏化(一個v只去算其中一個值)。

◦ Cloud 3 Sonnet 案例：透過 SAE，找到了數百萬個功能向量，包括針對特定實體（如金門大橋）、複雜功能（如程式除錯），甚至關於模型自我認同（AI 意識）的向量。

• LLM 的簡化模型（Circuit）：為了理解 LLM 的複雜運作，研究人員會建構一個簡化模型，該模型必須在特定任務上保有與原 LLM 相同的輸入/輸出關係（fidelity）。

◦ 用途：簡化模型上的推論（如修改 Representation 以改變輸出）可以被應用到真實的 LLM 上，實現模型編輯。

◦ 建構方法：對原模型進行大量的 Pruning（剪枝），移除不影響特定任務表現的組件，直到模型結構變得簡潔、一目瞭然。例如上圖先用一個linear model去模仿LLM輸出後，

• 殘差連接（Residual Connection）與 Logic Lens：

◦ Transformer 結構的核心是一個「殘差串流 (Residual Stream)」，輸入的資訊像在高速公路上傳輸，每一層都向其中添加新的資訊。

◦ Logic Lens：利用模型最末端的 unembedding 模組，將其應用於殘差串流中每一層的輸出，可以解析出模型在該層次「正在思考」的 token 分佈。

◦ 跨語言思維：透過 Logic Lens 分析發現，模型在執行翻譯任務時，可能先將來源語言翻譯成訓練資料庫中佔比最高的語言（如英文），再翻譯成目標語言。

• Patch Scope：一種新的分析方法（2023），將一個輸入詞彙（例如「李奧納多」）的 Representation 替換到另一個輸入序列中的特定位置，然後讓模型繼續生成，從而解析該 Representation 的含義。

◦ 洞察多步推理（Multi-hop Reasoning）：分析顯示，LLM 在進行多步推理時，通常在較低的層次提取第一個實體（E2），在較高的層次（Layer 20–25）提取第二個實體（E3）。若 E2 提取太晚，則推理失敗

參考資訊: