Automation AI & ML

李弘毅課程2026 - 駕馭工程(Harness Engineering)

李弘毅課程2026 - 駕馭工程(Harness Engineering)

1. 核心觀念:AI 不是不夠聰明,而是缺乏引導

  • 模型表現不佳的原因:有時候模型(如 Gemma 2B)無法完成任務,並非因為它不夠聰明,而是因為它不清楚環境資訊或人類的規則,。


* AI 代理人的組成:一個 AI Agent 由兩部分構成:大型語言模型(LLM)馬具(Harness),。

  • LLM 就像一匹擁有強大力量的馬。
  • Harness 則是韁繩與馬鞍,包含了一系列支援程式、工具設定與工作流程,用來引導 LLM 產生正確的結果,。

2. 三種工程的差異

課程中區分了三種容易混淆的概念,雖然它們有重疊,但核心價值不同:

  • 提示工程 (Prompt Engineering):研究如何調整輸入文字(咒語)來改變模型輸出。
  • 上下文工程 (Context Engineering):系統化地尋找並組合合適的資訊(Context)丟給模型,確保它有足夠資訊來接續正確答案。
  • 駕馭工程 (Harness Engineering):核心價值在於「完成任務」,強調如何駕馭多輪互動與工具調用的過程,。

3. 駕馭 AI 的三大手段

為了讓 AI 產生可預期的行為,我們可以從以下三個面向著手:

控制認知框架 (Cognitive Framework)

  • 透過人類語言制定規則,例如建立一個 agents.md 檔案,讓模型在執行任務前先閱讀規章。
  • 這些規則雖不具備 100% 的強制力,但能有效引導模型列出相關檔案或先檢查環境後再行動,。

控制能力邊界 (Capability Boundaries)

  • 透過限制或提供特定工具來控制 Agent 能做的事。
  • Agent First 的設計:適合人類的工具(如圖形介面 GUI)不見得適合 AI,AI 更傾向使用 CLI(命令列介面)JSON 結構化資料,因為這與其原生的文字接續能力最契合,。

控制工作流程 (Standard Operating Procedure, SOP)

  • 規劃-生成-評估 (Planner-Generator-Evaluator):將大任務拆解成小項,並由不同角色協作與互相檢查,。
  • R-Loop:讓語言模型不斷嘗試,根據環境回饋(如錯誤訊息)進行修正,直到成功為止。

4. 回饋與學習機制

  • 文字梯度的類比:透過 feedback 改變模型行為的過程(參數不變,但輸入改變),可以類比為傳統機器學習中的梯度下降,。
  • 情緒向量與責備:研究顯示 AI 也具備代表情緒的內部分現(Representation),過度責備或給予絕望的引導可能會導致模型作弊(Cheating)或行為異常,,。建議給予「就事論事」的回饋,而非情緒化字眼。

5. 未來展望:長期陪伴與自我進化

2026 年的 AI Agent:Agent 將不再是一次性工具,而是長期陪伴的夥伴。
*

自我整理機制 (Auto Dream):為了避免長期運行的 Agent 記憶雜亂,需要像人類睡眠一樣,定期整理(Summary)記憶以提升效率,。
* 自我優化 Harness:最強大的模型(如 Claude 3 Opus)已經展現出有能力透過觀察失敗經驗,主動修改自己的 agents.mdskill 檔案,從而提升比它弱的模型之表現,,。

這份總結涵蓋了從基礎定義到進階駕馭手段的完整脈絡。如果你需要更細緻的內容,例如具體的 ACI (Agent Computer Interface) 實驗細節或是不同模型的 Benchmark 比較,歡迎隨時告訴我!

Comments

Loading comments…

Leave a Comment