生成式人工智慧與機器學習導論2025 — 影像與聲音生成的雙線匯流
生成式人工智慧與機器學習導論2025 — 影像與聲音生成的雙線匯流¶
一、 萬物皆可「接龍」:生成的本質與基本單位
生成式 AI 的核心思想在於將複雜的資料拆解為「基本單位」,再透過自回歸(Autoregressive, AR)的方式,像「接龍」一樣一個個產生。
• 影像的單位:傳統影像由像素(Pixel)構成,每個像素包含 RGB 三原色(數值 0–255)。現代模型則演進為使用 Token,將影像的小區域(如 8x8 像素)壓縮成特定編號或向量。
• 聲音的單位:聲音訊號由取樣點(Sampling Point)取樣率(Sampling Rate)解析度(Bit Resolution)。為了提高效率,AI 會將一段波形表示為一個聲音 Token。
二、 影像生成的策略演進:打破順序的限制
傳統影像生成多遵循掃描式順序(Raster Order),即由左至右、由上而下地產生像素。然而,2025 年的技術正朝向更靈活的方向發展:
• Mask GIT(隨機/掩碼順序):這類技術不拘泥於固定順序,而是隨機遮蓋部分 Token 並教導模型還原,讓模型能優先生成重要的物件(如先畫出狗的頭部),且能以更少的步數完成生成。
• 多尺度生成(VAR, Visual Autoregressive Modeling):模擬人類繪畫「先畫草稿、再補細節」的過程,從極低解析度的小圖逐步接龍至高解析度大圖,甚至能由同一個模型跨尺度完成任務。
三、 Token 的進化:從離散到連續的跨越
Token 的品質決定了生成的極限。
• 離散 Token(Discrete Token):將影像強制分類為有限的編號。雖然方便接龍,但常會造成資訊損失,導致生成的圖像細節失真,如蒙娜麗莎臉部的扭曲。
• 連續 Token(Continuous Token):使用向量而非整數編號來代表 Token,能更精確地描述影像。
• MSE 陷阱與解決之道:直接用均方誤差(MSE)訓練連續向量接龍,會導致模型在面對多種可能結果時(如「奔跑的狗」可能在草地或城市),因取平均值而產生模糊或「雙頭怪」影像。
四、 兩條世界線的匯流:接龍模型與生成頭(Generation Head)
為了解決連續向量生成的難題,2025 年的主流技術將 Autoregressive(接龍) 與 Generative Models(生成式模型) 結合。
• 核心分工:巨大的 Transformer 負責處理「接龍」邏輯,預測大方向;而一個輕量化的生成頭(Generation Head)則負責透過多輪迭代產生高品質的連續向量。
• 提升效率:透過將複雜的迭代過程限制在微小的生成頭中,可以大幅節省算力,同時兼顧接龍模型的語義理解能力。
五、 2025 的新標準:Flow-matching 技術
Flow-matching 是目前最受關注的前沿技術,已被應用於 Stable Diffusion 3、Flux 與 Meta 的 Movie Gen 等模型中。
• 向量場(Vector Field)導引:不同於傳統 Diffusion 較複雜的過程,Flow-matching 定義一個向量場,像嚮導一樣精準引領資料點從原始分佈(Source)移動到目標圖像分佈(Target)。
• 技術優勢:它能以更直觀的方式訓練模型,並在生成影像、聲音甚至影片時,展現出極高的精準度與效率。
六、 應用實例與未來趨勢
這套技術框架已在多個領域取得突破:
• 多模態生成:如 Google 的 Nano Banana 能產生含有精確文字與邏輯的影像;Suno 能根據歌詞進行完整的詞曲創作。
• 影片與配音:Sora 展現了驚人的影片生成能力;AI 配音技術(如 Index-2) 則能模仿特定音色進行跨語言演繹。
• 個人化(Personalization):未來的生成將更強調客製化,讓 AI 能根據使用者的特定長相或需求進行精準創作。
Comments
Loading comments…
Leave a Comment