生成式AI時代下的機器學習 — 語言模型內部運作機制剖析

生成式AI時代下的機器學習 — 語言模型內部運作機制剖析

生成式AI時代下的機器學習 — 語言模型內部運作機制剖析

本講次深入探討了大型語言模型(LLM)內部的運作機制,特別是基於 Transformer 的網路。分析重點在於已訓練好的模型如何運作,而非訓練過程。

  1. 單一神經元(Neuron)的分析

• 神經元的運作:在 Transformer 中,一個神經元(neuron)的輸出是前一層向量的加權總和(weighted sum),經過激活函數 (Activation Function),例如 ReLU (將小於零的值設為 0) 處理後的結果。

• 啟動與功能:當神經元輸出大於零時,即代表被「啟動」。

◦ 相關性與因果性:僅觀察到神經元啟動與模型行為(如說髒話)同時發生,只能證明兩者相關,不能證明因果。

◦ 因果性驗證:若要驗證因果關係,需進行「割除」(移除)實驗,例如將神經元輸出永遠設為零或平均值,看是否影響模型的行為。

◦ 功能分級:若神經元的輸出數值與行為的程度相關(例如輸出值越大,髒話越髒),則可進一步確認其功能。

• 著名範例:

◦ 川普神經元:此研究是在 2021 年對 CLIP 影像模型進行的分析,發現某神經元專門對川普相關的圖片、文字或圖示高度啟動。

◦ 文法神經元:某些神經元可能專門管理文法概念,如單數或複數 (在 GPT-2 中被發現)。

• 單一神經元的限制:

◦ 多數情況下,一個任務的完成是由多個神經元共同管理,移除單一神經元通常對模型的最終輸出影響不大。

◦ 一個單一神經元可能同時管理多個不相關的任務,導致其用途難以單獨解釋。

  1. 神經元層次的分析 — 功向量(Function Vector)

研究人員假設 LLM 的行為是透過神經元的組合來驅動的,這種組合可以被視為高維空間中的一個特定方向,稱為功能向量 (Function Vector)。

• 功能向量的尋找方法(減法操作):

  1. 收集模型執行特定功能(如拒絕請求)時,特定層次 Representation(輸出向量)的平均值。

  2. 收集模型未執行該功能時,Representation 的平均值。

  3. 兩者相減,抵消掉其他無關資訊,即可得到該功能的向量。

• 激活工程(Activation Engineering):透過對模型特定層的 Representation 加上或減去功能向量,可以直接操控模型的行為。

◦ 範例:

▪ 拒絕向量:加入拒絕向量會讓模型拒絕回答正常問題,減去拒絕向量則可能讓模型回答有害內容。

▪ 說真話向量:加入此向量會使模型誠實地回答問題,無視既有的迷信或諺語。

▪ In-context Vector:透過平均一組示範(demonstration)的 Representation,可以讓模型在沒有示範的情況下,執行類似的任務(如找反義詞)。

• 功能向量的自動發現 (Sparse Autoencoder, SAE):

◦ SAE 技術可以自動地從 Representation 中分解出大量的稀疏功能向量 (V1​ 到 VK​)。

◦ 這需要假設每個 Representation 都是由少數功能向量的線性組合所構成,目的是讓非功能向量部分最小化,並讓用於組合的權重 (α) 稀疏化(趨近於零),如果不讓組合的權重 (α) 稀疏化,會變成每個v會頃向稀疏化(一個v只去算其中一個值)。

◦ Cloud 3 Sonnet 案例:透過 SAE,找到了數百萬個功能向量,包括針對特定實體(如金門大橋)、複雜功能(如程式除錯),甚至關於模型自我認同(AI 意識)的向量。

  1. 跨層次分析與模型透明度

• LLM 的簡化模型(Circuit):為了理解 LLM 的複雜運作,研究人員會建構一個簡化模型,該模型必須在特定任務上保有與原 LLM 相同的輸入/輸出關係(fidelity)。

◦ 用途:簡化模型上的推論(如修改 Representation 以改變輸出)可以被應用到真實的 LLM 上,實現模型編輯。

◦ 建構方法:對原模型進行大量的 Pruning(剪枝),移除不影響特定任務表現的組件,直到模型結構變得簡潔、一目瞭然。例如上圖先用一個linear model去模仿LLM輸出後,

• 殘差連接(Residual Connection)與 Logic Lens:

◦ Transformer 結構的核心是一個「殘差串流 (Residual Stream)」,輸入的資訊像在高速公路上傳輸,每一層都向其中添加新的資訊。

◦ Logic Lens:利用模型最末端的 unembedding 模組,將其應用於殘差串流中每一層的輸出,可以解析出模型在該層次「正在思考」的 token 分佈。

◦ 跨語言思維:透過 Logic Lens 分析發現,模型在執行翻譯任務時,可能先將來源語言翻譯成訓練資料庫中佔比最高的語言(如英文),再翻譯成目標語言。

• Patch Scope:一種新的分析方法(2023),將一個輸入詞彙(例如「李奧納多」)的 Representation 替換到另一個輸入序列中的特定位置,然後讓模型繼續生成,從而解析該 Representation 的含義。

◦ 洞察多步推理(Multi-hop Reasoning):分析顯示,LLM 在進行多步推理時,通常在較低的層次提取第一個實體(E2),在較高的層次(Layer 20–25)提取第二個實體(E3)。若 E2 提取太晚,則推理失敗

參考資訊:

生成式AI時代下的機器學習(2025) 第三講:AI 的腦科學 — 語言模型內部運作機制剖析

學習影片 https://studio.youtube.com/video/bq7b2ot64mg/edit

Comments

Loading comments…

Leave a Comment