生成式人工智慧與機器學習導論2025 — 能力檢定中的技術、挑戰與陷阱

生成式人工智慧與機器學習導論2025 — 能力檢定中的技術、挑戰與陷阱¶

在生成式人工智慧蓬勃發展的時代，無論是使用者尋找最合適的論文摘要工具，或是開發者在訓練過程中調整超參數、挑選最佳模型版本，「評估（Evaluation）」都是至關重要的核心環節。透過系統化的「基準測試（Benchmark）」，我們可以利用評估指標（Evaluation Matrix）來量化模型在特定任務上的表現，並在不同模型間進行公平的比較。然而，評估 AI 並非想像中簡單，來源指出其中存在許多可能導致誤導的「坑」。

一、評估方法的演進：從硬性比對到語意理解

最直覺的評估方式是精確匹配（Exact Match），即輸出的文字必須與標準答案一模一樣。這在選擇題場景雖然可行，但對於具備生成能力的 AI 而言，過於僵化且難以衡量真正的理解力，例如將「3」判定為與「三」不同。

為了解決此問題，學界發展出多種指標：

詞彙重疊度：如用於翻譯的 BLEU 或用於摘要的 ROUGE，計算輸出與答案間共同詞彙的多寡。
語意相似度：如 BERTScore，利用語言模型的「嵌入向量（Embedding）」來判斷兩者語意是否接近，即便字面上完全不同也能正確評分。
LLM 擔任裁判（LLM-as-a-judge）：直接利用強大的模型（如 GPT-4）來評價其他模型的表現，若要求模型先進行推理（Reasoning）再給分，其結果會更接近人類的判斷。

二、評估中的「坑」：為什麼分數會騙人？

來源警告，我們不應過度迷信評估分數，因為模型可能在不具備真實能力的情況下「騙取」高分。

古德哈特定律（Goodhart’s Law）：當一個指標被當作努力目標時，它就不再是好指標。來源舉出一個「鸚鵡模型」的案例：模型僅是原封不動複讀輸入，卻在某些語意指標上打敗了頂尖模型，這顯示指標可能無法區分真正的「換句話說」與單純的「複製」。
• 資料洩露（Data Contamination）：許多模型在訓練時可能已經偷看過測試題。實測發現，若將數學題的人名或數字改掉，模型準確率會大幅下降，證明其只是在背誦答案而非理解邏輯。

• 提示詞（Prompt）的極大影響：微小的格式變動（如大小寫或空格）都可能讓準確率產生天差地遠的變化。例如在「大海撈針」測試中，僅僅多加一句「請找出最相關的句子」，模型處理長文的能力就可能從失敗轉為起飛。

•人類極易受到風格影響: 有時候一樣的內容用不一樣的格式輸出，就可以得到人類的親賴

三、幻覺與安全性：評估的深層挑戰

評估指標的設計還會影響模型的行為。例如，傳統評估中「答錯」與「說不知道」得分相同，導致模型寧可「瞎掰」也不願承認無知，這便是幻覺（Hallucination）倒扣機制，能有效引導模型在適當時機承認不知道。

在安全性方面，評估必須衡量模型對抗惡意攻擊的能力：

• 越獄（Jailbreak）：攻擊者可能透過邏輯說服（如宣稱是為了研究或法醫需求）或對文字進行擾動（如大小寫交雜、加入雜訊），騙過模型的防禦機制，使其產出有害內容（如酒駕建議或製作炸藥的方法）。

• 提示詞注入（Prompt Injection）：惡意指令可能隱藏在環境中（如網頁或 PDF 的白色微小文字），當 AI Agent 讀取資料時，可能會在潛意職中受影響而執行不當行為，例如給予特定論文不合理的高分。

四、實務觀點：多維度的權衡

有效的評估不應只關注內容正確性。來源提醒，我們還需考量：

• 效能與體感：包含「首字延遲時間（TTFT）」以及每秒產生的 token 數，這直接影響使用者的等待耐心。

• 成本：為了獲得更好的推理結果（Reasoning），模型可能消耗大量 token，開發者需評估這額外的金錢與時間代價是否划算。

• 下限的重要性：根據「木桶理論」，有時我們更在意模型在最差情況下的表現（是否會暴走或亂說話），而非其平均能力。

結語

評估生成式 AI 是一項充滿挑戰的工程。來源建議，在實務上我們不應只依賴單一指標或單一 Prompt，而應進行小規模的人類驗證，並對 LLM 裁判的偏見（如偏好長答案、特定風格或偏袒自家模型）保持警覺。唯有透過多維度且嚴謹的測試，我們才能真正理解 AI 的能力邊界並防範潛在陷阱。

資料來源

李弘毅【生成式人工智慧與機器學習導論2025】第 4 講：評估生成式人工智慧能力時可能遇到的各種坑 https://youtu.be/dWQVY_h0YXU?list=TLGG61kb704UV5MwNjAyMjAyNg

生成式人工智慧與機器學習導論2025 — 能力檢定中的技術、挑戰與陷阱

生成式人工智慧與機器學習導論2025 — 能力檢定中的技術、挑戰與陷阱¶

Comments

Leave a Comment