Theoretical Perspectives on Flow Matching & Diffusion Models (2)
构建训练目标
前言:前文我们在假设向量场 $u_t(X_t)$ 已知的情况下,分别推导了 ODE 和 SDE 的前向过程。这一节我们将推导如何构建一个训练目标,让神经网络来学习。
假设神经网络 $u^{\theta}_{t}(x)$,我们有损失函数:
$$
\begin{align}
\mathcal{L}(\theta) = \mathbb{E}_{t, x} \left[ \| u^{\theta}_{t}(x) - \underbrace{u^{target}_{t}(x)}_\text{training target} \|^2 \right]
\end{align}
$$
条件概率路径和边缘概率路径如图所示,我们将初始分布(噪声)到目标分布(数字)做一个插值,就是一个概率路径。
在这个例子下,我们进一步描述:整个目标分布就是 0~9 的数字图像(MNIST)。假设我们采样了一张确切的图像 $z$(例如图中的数字 2)。
一个从初始分布到目标样本 $z$ 的插值路径,被称为一个条件概率路径 $p_t(\cdot | z)$。
一个从初始分布,到目标分布的所有条件路径的加 ...
Theoretical Perspectives on Flow Matching & Diffusion Models (1)
ODE & SDE in Generative Models
前言:在上一阶段的 Image Inpainting 课题中,我主要将 Diffusion Model 作为工具应用,虽然完成了工程任务,但对其背后的机理尚存一知半解。恰逢项目告一段落,我决定重新梳理相关理论。本文主要基于 MIT 课程 6.S184 的内容,结合个人的理解整理而成。如有偏颇之处,欢迎指正交流。
1. Flow Models:从直觉到定义我们在图像生成领域对生成式模型(Generative Models)通常有一个直观的印象:模型从一个简单的先验分布(通常是高斯噪声,$x \sim \mathcal{N}(0, I)$)出发,经过逐步的去噪过程,将其转化为符合真实数据分布的样本(如下图粉色箭头所示)。
为了在 Flow Matching 的框架下严谨地讨论这个问题,我们首先对符号进行统一定义(注意:此处符号习惯遵循 Flow Matching 常用设定,与经典 DDPM 可能相反):
$$
\begin{align}
& t : \text{时间变量,} t \in [0, 1] \\
& x_ ...

