Theoretical Perspectives on Flow Matching & Diffusion Models (1)
ODE & SDE in Generative Models
前言:
在上一阶段的 Image Inpainting 课题中,我主要将 Diffusion Model 作为工具应用,虽然完成了工程任务,但对其背后的机理尚存一知半解。恰逢项目告一段落,我决定重新梳理相关理论。
本文主要基于 MIT 课程 6.S184 的内容,结合个人的理解整理而成。如有偏颇之处,欢迎指正交流。
1. Flow Models:从直觉到定义
我们在图像生成领域对生成式模型(Generative Models)通常有一个直观的印象:模型从一个简单的先验分布(通常是高斯噪声,$x \sim \mathcal{N}(0, I)$)出发,经过逐步的去噪过程,将其转化为符合真实数据分布的样本(如下图粉色箭头所示)。
为了在 Flow Matching 的框架下严谨地讨论这个问题,我们首先对符号进行统一定义(注意:此处符号习惯遵循 Flow Matching 常用设定,与经典 DDPM 可能相反):
$$
\begin{align}
& t : \text{时间变量,} t \in [0, 1] \\
...

