生成式AI時代下的機器學習 — 語言模型內部運作機制剖析
生成式AI時代下的機器學習 — 語言模型內部運作機制剖析¶
本講次深入探討了大型語言模型(LLM)內部的運作機制,特別是基於 Transformer 的網路。分析重點在於已訓練好的模型如何運作,而非訓練過程。
- 單一神經元(Neuron)的分析
• 神經元的運作:在 Transformer 中,一個神經元(neuron)的輸出是前一層向量的加權總和(weighted sum),經過激活函數 (Activation Function),例如 ReLU (將小於零的值設為 0) 處理後的結果。
• 啟動與功能:當神經元輸出大於零時,即代表被「啟動」。
◦ 相關性與因果性:僅觀察到神經元啟動與模型行為(如說髒話)同時發生,只能證明兩者相關,不能證明因果。
◦ 因果性驗證:若要驗證因果關係,需進行「割除」(移除)實驗,例如將神經元輸出永遠設為零或平均值,看是否影響模型的行為。
◦ 功能分級:若神經元的輸出數值與行為的程度相關(例如輸出值越大,髒話越髒),則可進一步確認其功能。
• 著名範例:
◦ 川普神經元:此研究是在 2021 年對 CLIP 影像模型進行的分析,發現某神經元專門對川普相關的圖片、文字或圖示高度啟動。
◦ 文法神經元:某些神經元可能專門管理文法概念,如單數或複數 (在 GPT-2 中被發現)。
• 單一神經元的限制:
◦ 多數情況下,一個任務的完成是由多個神經元共同管理,移除單一神經元通常對模型的最終輸出影響不大。
◦ 一個單一神經元可能同時管理多個不相關的任務,導致其用途難以單獨解釋。
- 神經元層次的分析 — 功向量(Function Vector)
研究人員假設 LLM 的行為是透過神經元的組合來驅動的,這種組合可以被視為高維空間中的一個特定方向,稱為功能向量 (Function Vector)。
• 功能向量的尋找方法(減法操作):
-
收集模型執行特定功能(如拒絕請求)時,特定層次 Representation(輸出向量)的平均值。
-
收集模型未執行該功能時,Representation 的平均值。
-
兩者相減,抵消掉其他無關資訊,即可得到該功能的向量。
• 激活工程(Activation Engineering):透過對模型特定層的 Representation 加上或減去功能向量,可以直接操控模型的行為。
◦ 範例:
▪ 拒絕向量:加入拒絕向量會讓模型拒絕回答正常問題,減去拒絕向量則可能讓模型回答有害內容。
▪ 說真話向量:加入此向量會使模型誠實地回答問題,無視既有的迷信或諺語。
▪ In-context Vector:透過平均一組示範(demonstration)的 Representation,可以讓模型在沒有示範的情況下,執行類似的任務(如找反義詞)。
• 功能向量的自動發現 (Sparse Autoencoder, SAE):
◦ SAE 技術可以自動地從 Representation 中分解出大量的稀疏功能向量 (V1 到 VK)。
◦ 這需要假設每個 Representation 都是由少數功能向量的線性組合所構成,目的是讓非功能向量部分最小化,並讓用於組合的權重 (α) 稀疏化(趨近於零),如果不讓組合的權重 (α) 稀疏化,會變成每個v會頃向稀疏化(一個v只去算其中一個值)。
◦ Cloud 3 Sonnet 案例:透過 SAE,找到了數百萬個功能向量,包括針對特定實體(如金門大橋)、複雜功能(如程式除錯),甚至關於模型自我認同(AI 意識)的向量。
- 跨層次分析與模型透明度
• LLM 的簡化模型(Circuit):為了理解 LLM 的複雜運作,研究人員會建構一個簡化模型,該模型必須在特定任務上保有與原 LLM 相同的輸入/輸出關係(fidelity)。
◦ 用途:簡化模型上的推論(如修改 Representation 以改變輸出)可以被應用到真實的 LLM 上,實現模型編輯。
◦ 建構方法:對原模型進行大量的 Pruning(剪枝),移除不影響特定任務表現的組件,直到模型結構變得簡潔、一目瞭然。例如上圖先用一個linear model去模仿LLM輸出後,
• 殘差連接(Residual Connection)與 Logic Lens:
◦ Transformer 結構的核心是一個「殘差串流 (Residual Stream)」,輸入的資訊像在高速公路上傳輸,每一層都向其中添加新的資訊。
◦ Logic Lens:利用模型最末端的 unembedding 模組,將其應用於殘差串流中每一層的輸出,可以解析出模型在該層次「正在思考」的 token 分佈。
◦ 跨語言思維:透過 Logic Lens 分析發現,模型在執行翻譯任務時,可能先將來源語言翻譯成訓練資料庫中佔比最高的語言(如英文),再翻譯成目標語言。
• Patch Scope:一種新的分析方法(2023),將一個輸入詞彙(例如「李奧納多」)的 Representation 替換到另一個輸入序列中的特定位置,然後讓模型繼續生成,從而解析該 Representation 的含義。
◦ 洞察多步推理(Multi-hop Reasoning):分析顯示,LLM 在進行多步推理時,通常在較低的層次提取第一個實體(E2),在較高的層次(Layer 20–25)提取第二個實體(E3)。若 E2 提取太晚,則推理失敗
參考資訊:
Comments
Loading comments…
Leave a Comment