生成式人工智慧與機器學習導論2025 — 能力檢定中的技術、挑戰與陷阱

生成式人工智慧與機器學習導論2025 — 能力檢定中的技術、挑戰與陷阱

生成式人工智慧與機器學習導論2025 — 能力檢定中的技術、挑戰與陷阱

在生成式人工智慧蓬勃發展的時代,無論是使用者尋找最合適的論文摘要工具,或是開發者在訓練過程中調整超參數、挑選最佳模型版本,「評估(Evaluation)」都是至關重要的核心環節。透過系統化的「基準測試(Benchmark)」,我們可以利用評估指標(Evaluation Matrix)來量化模型在特定任務上的表現,並在不同模型間進行公平的比較。然而,評估 AI 並非想像中簡單,來源指出其中存在許多可能導致誤導的「坑」。

一、 評估方法的演進:從硬性比對到語意理解

最直覺的評估方式是精確匹配(Exact Match),即輸出的文字必須與標準答案一模一樣。這在選擇題場景雖然可行,但對於具備生成能力的 AI 而言,過於僵化且難以衡量真正的理解力,例如將「3」判定為與「三」不同。

為了解決此問題,學界發展出多種指標:

  1. 詞彙重疊度: 如用於翻譯的 BLEU 或用於摘要的 ROUGE,計算輸出與答案間共同詞彙的多寡。

  2. 語意相似度: 如 BERTScore,利用語言模型的「嵌入向量(Embedding)」來判斷兩者語意是否接近,即便字面上完全不同也能正確評分。

  3. LLM 擔任裁判(LLM-as-a-judge): 直接利用強大的模型(如 GPT-4)來評價其他模型的表現,若要求模型先進行推理(Reasoning)再給分,其結果會更接近人類的判斷。

二、 評估中的「坑」:為什麼分數會騙人?

來源警告,我們不應過度迷信評估分數,因為模型可能在不具備真實能力的情況下「騙取」高分。

  • 古德哈特定律(Goodhart’s Law): 當一個指標被當作努力目標時,它就不再是好指標。來源舉出一個「鸚鵡模型」的案例:模型僅是原封不動複讀輸入,卻在某些語意指標上打敗了頂尖模型,這顯示指標可能無法區分真正的「換句話說」與單純的「複製」。
    • 資料洩露(Data Contamination): 許多模型在訓練時可能已經偷看過測試題。實測發現,若將數學題的人名或數字改掉,模型準確率會大幅下降,證明其只是在背誦答案而非理解邏輯。

• 提示詞(Prompt)的極大影響: 微小的格式變動(如大小寫或空格)都可能讓準確率產生天差地遠的變化。例如在「大海撈針」測試中,僅僅多加一句「請找出最相關的句子」,模型處理長文的能力就可能從失敗轉為起飛。

•人類極易受到風格影響: 有時候一樣的內容用不一樣的格式輸出,就可以得到人類的親賴

三、 幻覺與安全性:評估的深層挑戰

評估指標的設計還會影響模型的行為。例如,傳統評估中「答錯」與「說不知道」得分相同,導致模型寧可「瞎掰」也不願承認無知,這便是幻覺(Hallucination)倒扣機制,能有效引導模型在適當時機承認不知道。

在安全性方面,評估必須衡量模型對抗惡意攻擊的能力:

• 越獄(Jailbreak): 攻擊者可能透過邏輯說服(如宣稱是為了研究或法醫需求)或對文字進行擾動(如大小寫交雜、加入雜訊),騙過模型的防禦機制,使其產出有害內容(如酒駕建議或製作炸藥的方法)。

• 提示詞注入(Prompt Injection): 惡意指令可能隱藏在環境中(如網頁或 PDF 的白色微小文字),當 AI Agent 讀取資料時,可能會在潛意職中受影響而執行不當行為,例如給予特定論文不合理的高分。

四、 實務觀點:多維度的權衡

有效的評估不應只關注內容正確性。來源提醒,我們還需考量:

• 效能與體感: 包含「首字延遲時間(TTFT)」以及每秒產生的 token 數,這直接影響使用者的等待耐心。

• 成本: 為了獲得更好的推理結果(Reasoning),模型可能消耗大量 token,開發者需評估這額外的金錢與時間代價是否划算。

• 下限的重要性: 根據「木桶理論」,有時我們更在意模型在最差情況下的表現(是否會暴走或亂說話),而非其平均能力。

結語

評估生成式 AI 是一項充滿挑戰的工程。來源建議,在實務上我們不應只依賴單一指標或單一 Prompt,而應進行小規模的人類驗證,並對 LLM 裁判的偏見(如偏好長答案、特定風格或偏袒自家模型)保持警覺。唯有透過多維度且嚴謹的測試,我們才能真正理解 AI 的能力邊界並防範潛在陷阱。

資料來源

李弘毅 【生成式人工智慧與機器學習導論2025】第 4 講:評估生成式人工智慧能力時可能遇到的各種坑 https://youtu.be/dWQVY_h0YXU?list=TLGG61kb704UV5MwNjAyMjAyNg

Comments

Loading comments…

Leave a Comment