Autoregressive vs Diffusion Video Models

two ways to factorize \(p(z_{1:T} \mid c)\) over a sequence of frame latents

step: 0 / 6

\(p(z_{1:T} \mid c) = \prod_{t=1}^{T} p_\theta(z_t \mid z_{

causal attention mask

frames generated step-by-step

\(p_\theta(z_{1:T} \mid c)\) via \(\tau\)-step joint denoising

full bidirectional attention

all frames denoised in parallel

	Autoregressive	Diffusion
factorization	causal: \(p(z_t \mid z_{	joint: denoise all \(z_{1:T}\) together
attention	causal mask (lower triangular)	full bidirectional
tokens	discrete (VQ-VAE)	continuous (VAE)
passes per sample	\(T\) (one per frame)	\(\tau_{\max}\) denoising steps
extending length	just sample more frames	re-condition on tail, denoise next chunk
examples	VideoGPT, MAGVIT-v2, VideoPoet	Sora, SVD, Cosmos-Predict, Wan