生成式人工智慧與機器學習導論2025 — 影像與聲音生成的雙線匯流

生成式人工智慧與機器學習導論2025 — 影像與聲音生成的雙線匯流¶

一、萬物皆可「接龍」：生成的本質與基本單位

生成式 AI 的核心思想在於將複雜的資料拆解為「基本單位」，再透過自回歸（Autoregressive, AR）的方式，像「接龍」一樣一個個產生。

• 影像的單位：傳統影像由像素（Pixel）構成，每個像素包含 RGB 三原色（數值 0–255）。現代模型則演進為使用 Token，將影像的小區域（如 8x8 像素）壓縮成特定編號或向量。

• 聲音的單位：聲音訊號由取樣點（Sampling Point）取樣率（Sampling Rate）解析度（Bit Resolution）。為了提高效率，AI 會將一段波形表示為一個聲音 Token。

二、影像生成的策略演進：打破順序的限制

傳統影像生成多遵循掃描式順序（Raster Order），即由左至右、由上而下地產生像素。然而，2025 年的技術正朝向更靈活的方向發展：

• Mask GIT（隨機/掩碼順序）：這類技術不拘泥於固定順序，而是隨機遮蓋部分 Token 並教導模型還原，讓模型能優先生成重要的物件（如先畫出狗的頭部），且能以更少的步數完成生成。

• 多尺度生成（VAR, Visual Autoregressive Modeling）：模擬人類繪畫「先畫草稿、再補細節」的過程，從極低解析度的小圖逐步接龍至高解析度大圖，甚至能由同一個模型跨尺度完成任務。

三、 Token 的進化：從離散到連續的跨越

Token 的品質決定了生成的極限。

• 離散 Token（Discrete Token）：將影像強制分類為有限的編號。雖然方便接龍，但常會造成資訊損失，導致生成的圖像細節失真，如蒙娜麗莎臉部的扭曲。

• 連續 Token（Continuous Token）：使用向量而非整數編號來代表 Token，能更精確地描述影像。

• MSE 陷阱與解決之道：直接用均方誤差（MSE）訓練連續向量接龍，會導致模型在面對多種可能結果時（如「奔跑的狗」可能在草地或城市），因取平均值而產生模糊或「雙頭怪」影像。

四、兩條世界線的匯流：接龍模型與生成頭（Generation Head）

為了解決連續向量生成的難題，2025 年的主流技術將 Autoregressive（接龍）與 Generative Models（生成式模型）結合。

• 核心分工：巨大的 Transformer 負責處理「接龍」邏輯，預測大方向；而一個輕量化的生成頭（Generation Head）則負責透過多輪迭代產生高品質的連續向量。

• 提升效率：透過將複雜的迭代過程限制在微小的生成頭中，可以大幅節省算力，同時兼顧接龍模型的語義理解能力。

五、 2025 的新標準：Flow-matching 技術

Flow-matching 是目前最受關注的前沿技術，已被應用於 Stable Diffusion 3、Flux 與 Meta 的 Movie Gen 等模型中。

• 向量場（Vector Field）導引：不同於傳統 Diffusion 較複雜的過程，Flow-matching 定義一個向量場，像嚮導一樣精準引領資料點從原始分佈（Source）移動到目標圖像分佈（Target）。

• 技術優勢：它能以更直觀的方式訓練模型，並在生成影像、聲音甚至影片時，展現出極高的精準度與效率。

六、應用實例與未來趨勢

這套技術框架已在多個領域取得突破：

• 多模態生成：如 Google 的 Nano Banana 能產生含有精確文字與邏輯的影像；Suno 能根據歌詞進行完整的詞曲創作。

• 影片與配音：Sora 展現了驚人的影片生成能力；AI 配音技術（如 Index-2）則能模仿特定音色進行跨語言演繹。

• 個人化（Personalization）：未來的生成將更強調客製化，讓 AI 能根據使用者的特定長相或需求進行精準創作。