[Diffusion 2] Forward와 Reverse: Diffusion의 두 가지 여정

"The forward process is fixed to a Markov diffusion process that gradually adds Gaussian noise to the data, whereas the reverse process is learned."
Song et al., Score-Based Generative Modeling through Stochastic Differential Equations (2021)

1장에서 우리는 Diffusion Model이 이미지를 점진적으로 노이즈로 변환한 뒤, 그 과정을 역으로 추적하여 노이즈에서 이미지를 생성한다는 기본 원리를 살펴보았습니다. 이번 장에서는 이 두 과정 (Forward Process와 Reverse Process) 의 본질과 상호 관계를 더 깊이 탐구합니다. 아직 본격적인 수식 전개에 들어가기 전이지만, 두 과정이 왜 이러한 형태를 띠는지, 그리고 왜 이 접근법이 강력한 생성 모델을 가능케 하는지에 대한 직관적 이해를 구축하는 것이 이 장의 목표입니다.

2.1 두 과정의 개요: 파괴와 복원

Diffusion Model의 핵심 아이디어는 놀랍도록 단순합니다. 먼저 데이터를 체계적으로 파괴하는 과정을 정의하고, 그 다음 파괴를 되돌리는 방법을 학습합니다. 이 두 과정을 각각 Forward Process(순방향 과정)와 Reverse Process(역방향 과정)라 부릅니다.

Forward Process는 원본 이미지 $x_0$에서 시작하여 점진적으로 가우시안 노이즈를 주입함으로써, 최종적으로 순수한 노이즈 $x_T$에 도달합니다. 이 과정은 사전에 정의된 노이즈 스케줄에 따라 결정론적으로 진행되며, 학습이 필요하지 않습니다. 반면 Reverse Process는 순수한 노이즈 $x_T$에서 시작하여 점진적으로 노이즈를 제거해 나가며, 최종적으로 원본 데이터 분포를 따르는 샘플 $x_0$를 생성합니다. 이 역방향 과정이야말로 신경망이 학습해야 하는 핵심입니다.

핵심 통찰: Forward Process는 정보를 파괴하는 방법을 정의하고, Reverse Process는 그 파괴된 정보를 복원하는 방법을 학습합니다. 파괴가 체계적이고 점진적일수록, 복원도 더 정확하게 학습될 수 있습니다.

2.2 Forward Process: 체계적 파괴의 과정

2.2.1 점진적 노이즈 주입의 원리

Forward Process의 핵심은 점진성에 있습니다. 이미지를 단번에 완전한 노이즈로 변환하는 대신, 수백에서 수천 단계에 걸쳐 조금씩 노이즈를 더해갑니다. 각 시간 단계 $t$에서 이전 상태 $x_{t-1}$에 약간의 가우시안 노이즈를 추가하여 $x_t$를 만들어냅니다.

이 과정을 수학적으로 표현하면 다음과 같습니다:

$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t \mathbf{I})$$

여기서 $\beta_t$는 시간 단계 $t$에서의 노이즈 강도를 결정하는 노이즈 스케줄입니다. 일반적으로 $\beta_t$는 0.0001에서 0.02 사이의 작은 값으로 설정되며, 시간이 진행됨에 따라 점차 증가합니다. $\sqrt{1-\beta_t}$를 곱하는 것은 신호의 스케일을 조정하여 분산이 폭발하지 않도록 하기 위함입니다.

2.2.2 마르코프 체인으로서의 Forward Process

Forward Process는 마르코프 체인(Markov chain)의 구조를 따릅니다. 마르코프 성질이란 현재 상태 $x_t$가 오직 직전 상태 $x_{t-1}$에만 의존하고, 그 이전의 역사 $x_0, x_1, \ldots, x_{t-2}$와는 독립이라는 것을 의미합니다. 수학적으로 이는 다음과 같이 표현됩니다:

$$q(x_t | x_{t-1}, x_{t-2}, \ldots, x_0) = q(x_t | x_{t-1})$$

이 마르코프 성질 덕분에 전체 Forward Process의 결합 분포를 다음과 같이 분해할 수 있습니다:

$$q(x_{1:T} | x_0) = \prod_{t=1}^{T} q(x_t | x_{t-1})$$

마르코프 체인 구조는 단순히 수학적 편의성만을 제공하는 것이 아닙니다. 이는 Forward Process가 본질적으로 국소적(local)이라는 것을 의미합니다. 각 단계에서의 변환은 현재 상태에만 의존하므로, 과거의 복잡한 이력을 추적할 필요가 없습니다.

2.2.3 임의 시점으로의 직접 도달

Forward Process의 중요한 특성 중 하나는 중간 단계를 거치지 않고도 임의의 시점 $t$에서의 상태를 직접 계산할 수 있다는 것입니다. $\alpha_t = 1 - \beta_t$로 정의하고, $\bar{\alpha}_t = \prod_{s=1}^{t} \alpha_s$를 누적곱으로 정의하면:

$$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t) \mathbf{I})$$

이 공식은 원본 이미지 $x_0$에서 시간 단계 $t$의 노이즈 이미지 $x_t$를 한 번에 샘플링할 수 있게 해줍니다:

$$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I})$$

이 reparameterization은 학습 과정에서 매우 중요합니다. 모델을 학습시킬 때 매번 $t$ 단계의 순차적 연산을 수행할 필요 없이, 임의의 $t$를 샘플링하고 해당 시점의 노이즈 이미지를 직접 생성할 수 있기 때문입니다.

2.2.4 정보의 점진적 소멸

Forward Process가 진행됨에 따라 원본 이미지의 정보는 점진적으로 사라집니다. $t=0$에서는 원본 이미지의 모든 정보가 보존되어 있지만, $t=T$에 도달하면 원본에 대한 정보가 거의 완전히 소실됩니다.

시간 단계	$\bar{\alpha}_t$ (근사값)	신호 대 노이즈 비율	이미지 상태
$t = 0$	1.0	매우 높음	원본 이미지
$t = T/4$	~0.7	높음	약간의 노이즈가 추가된 이미지
$t = T/2$	~0.3	중간	구조는 보이지만 세부사항 손실
$t = 3T/4$	~0.05	낮음	희미한 윤곽만 존재
$t = T$	~0.0001	거의 0	순수한 가우시안 노이즈

정보 이론의 관점에서, Forward Process는 원본 이미지 $x_0$와 노이즈 이미지 $x_t$ 사이의 상호 정보량(mutual information) $I(x_0; x_t)$를 점진적으로 감소시킵니다. $t=T$에서 이 상호 정보량은 0에 가까워지며, 이는 $x_T$만으로는 $x_0$에 대해 거의 아무것도 알 수 없다는 것을 의미합니다.

2.3 Reverse Process: 복원의 과정

2.3.1 역방향 과정의 근본적 도전

Forward Process가 정보를 파괴했다면, Reverse Process는 이 파괴된 정보를 복원해야 합니다. 그러나 여기에 근본적인 문제가 있습니다. Forward Process에서 주입된 노이즈 $\epsilon$은 무작위이며, 각 이미지마다 다릅니다. $x_t$만 주어졌을 때, 원래 어떤 노이즈가 추가되었는지 알 방법이 없어 보입니다.

수학적으로, 우리가 알고 싶은 것은 역방향 전이 확률 $q(x_{t-1} | x_t)$입니다. 그러나 이 분포는 전체 데이터 분포 $q(x_0)$에 의존하며, 직접 계산하기가 매우 어렵습니다. 베이즈 정리를 적용하면:

$$q(x_{t-1} | x_t) = \frac{q(x_t | x_{t-1}) q(x_{t-1})}{q(x_t)}$$

여기서 $q(x_{t-1})$과 $q(x_t)$는 해당 시점의 주변 분포(marginal distribution)로, 이들을 정확히 계산하려면 모든 가능한 $x_0$에 대해 적분해야 합니다.

2.3.2 조건부 역방향 분포의 발견

놀랍게도, 원본 이미지 $x_0$가 주어졌을 때의 조건부 역방향 분포 $q(x_{t-1} | x_t, x_0)$는 닫힌 형태(closed form)로 계산될 수 있습니다. 이 분포는 다음과 같은 가우시안 형태를 띱니다:

$$q(x_{t-1} | x_t, x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t(x_t, x_0), \tilde{\beta}_t \mathbf{I})$$

여기서 평균 $\tilde{\mu}_t$와 분산 $\tilde{\beta}_t$는 다음과 같이 정의됩니다:

$$\tilde{\mu}_t(x_t, x_0) = \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} x_0 + \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t} x_t$$ $$\tilde{\beta}_t = \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} \beta_t$$

이 결과가 시사하는 바는 매우 중요합니다. 만약 우리가 $x_0$를 알고 있다면, 역방향 과정을 정확하게 수행할 수 있다는 것입니다. 물론 실제로 $x_0$를 모르기 때문에 이를 추정해야 하며, 이것이 바로 신경망의 역할입니다.

2.3.3 신경망의 역할: 노이즈 예측자

Reverse Process를 수행하기 위해 신경망 $\epsilon_\theta$를 도입합니다. 이 신경망의 임무는 노이즈가 추가된 이미지 $x_t$와 시간 단계 $t$가 주어졌을 때, Forward Process에서 추가된 노이즈 $\epsilon$을 예측하는 것입니다:

$$\hat{\epsilon} = \epsilon_\theta(x_t, t)$$

예측된 노이즈 $\hat{\epsilon}$을 사용하면 $x_0$를 추정할 수 있습니다:

$$\hat{x}_0 = \frac{x_t - \sqrt{1-\bar{\alpha}_t} \hat{\epsilon}}{\sqrt{\bar{\alpha}_t}}$$

이 추정된 $\hat{x}_0$를 앞서 도출한 조건부 역방향 분포에 대입하면, 역방향 전이를 수행할 수 있습니다. 모델이 학습하는 역방향 분포는 다음과 같이 정의됩니다:

$$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \sigma_t^2 \mathbf{I})$$

여기서 $\mu_\theta(x_t, t)$는 신경망이 예측한 노이즈를 사용하여 계산됩니다.

2.3.4 Reverse Process의 샘플링 알고리즘

학습된 모델을 사용한 샘플 생성 과정은 다음과 같습니다:

표준 가우시안 분포에서 $x_T \sim \mathcal{N}(0, \mathbf{I})$를 샘플링합니다.
$t = T, T-1, \ldots, 1$에 대해 다음을 반복합니다:
- 신경망을 사용하여 노이즈를 예측: $\hat{\epsilon} = \epsilon_\theta(x_t, t)$
- 예측된 노이즈로 평균 계산: $\mu_\theta(x_t, t)$
- $x_{t-1} \sim \mathcal{N}(\mu_\theta(x_t, t), \sigma_t^2 \mathbf{I})$를 샘플링 (단, $t=1$일 때는 노이즈 없이 평균만 사용)
최종적으로 $x_0$를 반환합니다.

이 과정에서 각 단계의 노이즈 제거는 "작은 denoising"에 해당합니다. 한 번에 모든 노이즈를 제거하는 것이 아니라, 조금씩 깨끗한 이미지에 가까워지는 것입니다.

2.4 두 과정의 대칭성과 비대칭성

2.4.1 구조적 대칭성

Forward Process와 Reverse Process는 흥미로운 대칭 구조를 가지고 있습니다. 둘 다 마르코프 체인이며, 각 단계에서 가우시안 전이를 수행합니다. 시간의 방향만 다를 뿐, 수학적 형식은 매우 유사합니다.

특성	Forward Process	Reverse Process
방향	$x_0 \rightarrow x_T$	$x_T \rightarrow x_0$
전이 분포	$q(x_t \| x_{t-1})$	$p_\theta(x_{t-1} \| x_t)$
분포 형태	가우시안	가우시안
마르코프 성질	예	예
학습 필요 여부	아니오 (고정됨)	예 (신경망)

2.4.2 시간 역전의 수학적 기초

확산 과정의 시간 역전에 대한 수학적 기초는 1982년 Anderson의 선구적인 연구에서 확립되었습니다. Anderson은 순방향 확산 방정식 모델로 정의된 대부분의 확률 과정이 대응되는 역방향 모델을 가진다는 것을 증명했습니다. 이 결과는 연속 시간에서 확산 과정을 기술하는 확률 미분 방정식(SDE)에 대해 성립하며, DDPM과 같은 이산 시간 모델의 이론적 토대가 됩니다.

연속 시간의 관점에서, Forward Process가 다음과 같은 SDE를 따른다면:

$$dx = f(x, t)dt + g(t)dw$$

여기서 $w$는 표준 위너 과정(Wiener process)입니다. 놀랍게도, 이 과정의 시간 역전도 SDE로 표현될 수 있습니다:

$$dx = [f(x, t) - g(t)^2 \nabla_x \log p_t(x)]dt + g(t)d\bar{w}$$

여기서 $\bar{w}$는 역방향 위너 과정이고, $\nabla_x \log p_t(x)$는 시간 $t$에서의 score function입니다. 이 수식이 말해주는 바는 심오합니다: 역방향 과정을 수행하기 위해서는 각 시점에서의 확률 분포의 기울기(score)를 알아야 한다는 것입니다.

Score Function의 중요성: Score function $\nabla_x \log p_t(x)$는 "현재 위치에서 데이터 분포의 확률 밀도가 가장 빠르게 증가하는 방향"을 가리킵니다. 이 방향을 따라가면 점점 더 "그럴듯한" 데이터에 가까워집니다. 이 개념은 6장에서 자세히 다룰 예정입니다.

2.4.3 왜 역방향도 가우시안인가?

Forward Process의 각 단계가 가우시안 전이라면, Reverse Process도 (근사적으로) 가우시안이 될 수 있을까요? 그 답은 "단계가 충분히 작다면 그렇다"입니다.

이를 직관적으로 이해해 봅시다. Forward Process의 각 단계에서 추가되는 노이즈가 매우 작다면, 역방향 단계에서 제거해야 할 노이즈도 매우 작습니다. 작은 섭동의 역변환은 원래 섭동과 유사한 형태를 가지므로, 순방향이 가우시안이면 역방향도 가우시안에 가깝습니다.

수학적으로, Forward 전이 $q(x_t | x_{t-1})$가 가우시안이고 $\beta_t$가 충분히 작을 때, 역방향 전이 $q(x_{t-1} | x_t)$도 근사적으로 가우시안입니다. 이 근사의 정확도는 $\beta_t$가 작을수록 좋아지며, 이것이 Diffusion Model이 수백에서 수천 단계를 사용하는 이유 중 하나입니다.

2.5 노이즈 스케줄의 역할

2.5.1 노이즈 스케줄이란?

노이즈 스케줄 $\{\beta_1, \beta_2, \ldots, \beta_T\}$는 Forward Process에서 각 단계마다 얼마나 많은 노이즈를 추가할지를 결정합니다. 이 스케줄의 선택은 모델의 성능에 큰 영향을 미칩니다.

2.5.2 선형 스케줄

Ho et al.(2020)의 원본 DDPM 논문에서는 선형 스케줄을 사용했습니다:

$$\beta_t = \beta_{\text{start}} + \frac{t-1}{T-1}(\beta_{\text{end}} - \beta_{\text{start}})$$

일반적으로 $\beta_{\text{start}} = 0.0001$, $\beta_{\text{end}} = 0.02$, $T = 1000$으로 설정됩니다. 이 스케줄에서 $\beta_t$는 시간에 따라 선형적으로 증가합니다.

2.5.3 코사인 스케줄

Nichol과 Dhariwal(2021)은 개선된 코사인 스케줄을 제안했습니다:

$$\bar{\alpha}_t = \frac{f(t)}{f(0)}, \quad f(t) = \cos\left(\frac{t/T + s}{1 + s} \cdot \frac{\pi}{2}\right)^2$$

여기서 $s$는 작은 오프셋(일반적으로 0.008)입니다. 코사인 스케줄의 장점은 $\bar{\alpha}_t$가 더 부드럽게 감소한다는 것입니다. 선형 스케줄에서는 마지막 단계들에서 $\bar{\alpha}_t$가 너무 빠르게 0에 가까워져 정보 손실이 급격히 일어나는 반면, 코사인 스케줄은 전체 과정에 걸쳐 더 균일한 정보 손실을 제공합니다.

2.5.4 스케줄 선택의 중요성

노이즈 스케줄은 다음과 같은 측면에서 중요합니다:

학습 효율성: 적절한 스케줄은 모든 시간 단계에서 의미 있는 학습 신호를 제공합니다.
샘플 품질: 너무 급격한 노이즈 증가는 중간 단계에서의 역방향 가우시안 근사를 부정확하게 만듭니다.
다양성과 충실도의 균형: 스케줄은 생성된 샘플의 다양성과 학습 데이터에 대한 충실도 사이의 균형에 영향을 미칩니다.

2.6 시간 단계의 의미

2.6.1 이산 시간과 연속 시간

지금까지 우리는 이산 시간 단계 $t \in \{0, 1, 2, \ldots, T\}$를 사용했습니다. 그러나 Diffusion Model은 연속 시간 $t \in [0, T]$로도 정식화될 수 있습니다. 연속 시간 관점은 확률 미분 방정식(SDE)의 언어로 Diffusion을 기술하며, 이는 7장에서 자세히 다룰 예정입니다.

이산 시간 모델은 연속 시간 SDE의 이산화(discretization)로 이해할 수 있습니다. 시간 단계 수 $T$가 증가할수록, 이산 모델은 연속 모델에 더 가깝게 근사합니다.

2.6.2 시간 임베딩

신경망 $\epsilon_\theta(x_t, t)$는 현재 시간 단계 $t$를 입력으로 받습니다. 하지만 정수 $t$를 그대로 신경망에 넣는 것은 효과적이지 않습니다. 대신, $t$를 고차원 벡터로 변환하는 시간 임베딩(time embedding)을 사용합니다.

가장 널리 사용되는 방식은 Transformer에서 사용되는 사인/코사인 위치 인코딩(positional encoding)과 유사한 형태입니다:

$$\text{PE}(t, 2i) = \sin\left(\frac{t}{10000^{2i/d}}\right), \quad \text{PE}(t, 2i+1) = \cos\left(\frac{t}{10000^{2i/d}}\right)$$

이러한 시간 임베딩은 신경망이 각 시간 단계에서 적절한 수준의 노이즈 제거를 수행할 수 있도록 돕습니다. 초기 단계(높은 $t$)에서는 대략적인 구조를 복원하고, 후기 단계(낮은 $t$)에서는 세밀한 디테일을 다듬는 식입니다.

2.7 학습 목표: 두 과정의 연결고리

2.7.1 변분 하한과 학습 목표

Diffusion Model의 학습은 데이터의 로그 가능도(log-likelihood)를 최대화하는 것을 목표로 합니다. 그러나 정확한 가능도 계산은 다루기 어려운(intractable) 적분을 포함하므로, 대신 변분 하한(variational lower bound, VLB 또는 ELBO)을 최대화합니다.

복잡한 수학적 전개(4장과 5장에서 자세히 다룸) 끝에, 학습 목표는 놀랍도록 단순한 형태로 귀결됩니다:

$$L_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\|\epsilon - \epsilon_\theta(x_t, t)\|^2\right]$$

이 손실 함수는 신경망이 예측한 노이즈 $\epsilon_\theta(x_t, t)$와 실제로 추가된 노이즈 $\epsilon$ 사이의 평균 제곱 오차를 최소화합니다.

2.7.2 학습의 직관적 이해

학습 과정을 직관적으로 이해해 봅시다:

학습 데이터에서 이미지 $x_0$를 샘플링합니다.
무작위로 시간 단계 $t$를 선택합니다.
표준 가우시안에서 노이즈 $\epsilon$을 샘플링합니다.
노이즈 이미지 $x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$을 계산합니다.
신경망에 $x_t$와 $t$를 입력하여 노이즈를 예측합니다.
예측된 노이즈와 실제 노이즈의 차이를 손실로 사용하여 신경망을 업데이트합니다.

이 과정이 반복되면서, 신경망은 다양한 노이즈 수준에서 노이즈를 정확하게 예측하는 방법을 학습합니다. 결과적으로, 신경망은 "이 정도로 노이즈가 낀 이미지에서, 이만큼의 노이즈를 제거하면 더 깨끗한 이미지가 된다"는 지식을 축적하게 됩니다.

2.8 역사적 발전: 세 가지 관점의 수렴

현대 Diffusion Model은 세 가지 독립적인 연구 흐름의 수렴으로 탄생했습니다.

2.8.1 비평형 열역학 관점

2015년 Sohl-Dickstein et al.은 비평형 열역학에서 영감을 받아 최초의 Diffusion Probabilistic Model을 제안했습니다. 이들의 핵심 아이디어는 데이터 분포의 구조를 점진적으로 파괴하는 확산 과정을 정의하고, 이 과정을 역으로 학습하는 것이었습니다. 이 연구는 이론적 기반을 제공했지만, 당시에는 실용적인 이미지 생성 품질을 달성하지 못했습니다.

2.8.2 Score Matching 관점

2019년 Song과 Ermon은 완전히 다른 접근법을 제시했습니다. 이들은 데이터 분포의 기울기(score)를 추정하고, Langevin dynamics를 사용하여 샘플을 생성하는 방법을 개발했습니다. 핵심 혁신은 다양한 수준의 노이즈로 데이터를 섭동시키고, 각 노이즈 수준에 대한 score를 동시에 학습하는 것이었습니다.

2.8.3 DDPM의 등장

2020년 Ho, Jain, Abbeel의 DDPM 논문은 이 두 관점을 실용적인 고품질 이미지 생성 모델로 통합했습니다. DDPM은 간단하면서도 효과적인 학습 목표(노이즈 예측)를 제시했고, 처음으로 GAN과 비견되는 이미지 생성 품질을 달성했습니다.

2.8.4 통합적 이해

2021년 Song et al.의 Score SDE 논문은 이 세 가지 관점이 실제로 동일한 프레임워크의 다른 측면이라는 것을 보여주었습니다. 확률 미분 방정식의 관점에서, DDPM과 Score-based 모델은 동일한 연속 시간 과정의 서로 다른 이산화임이 밝혀졌습니다. 이 통합적 관점은 새로운 샘플링 알고리즘, 정확한 가능도 계산, 그리고 다양한 조건부 생성 기법의 개발로 이어졌습니다.

2.9 요약

이번 장에서 우리는 Diffusion Model의 두 핵심 과정을 탐구했습니다:

Forward Process는 원본 이미지에 점진적으로 노이즈를 추가하여 순수한 가우시안 노이즈로 변환합니다. 이 과정은 마르코프 체인 구조를 따르며, 사전에 정의된 노이즈 스케줄에 의해 결정됩니다.
Reverse Process는 순수한 노이즈에서 시작하여 점진적으로 노이즈를 제거하며 이미지를 생성합니다. 신경망은 각 단계에서 추가된 노이즈를 예측하도록 학습됩니다.
두 과정은 시간 역전의 관계에 있으며, Forward Process가 가우시안이고 단계가 충분히 작으면, Reverse Process도 근사적으로 가우시안입니다.

다음 장부터는 이러한 개념들의 수학적 토대를 본격적으로 구축합니다. 3장에서는 Diffusion Model을 이해하기 위해 필요한 확률론적 배경 지식을 다루고, 4장과 5장에서는 DDPM 논문의 수학적 내용을 다룰 것입니다.

참고문헌

Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems, 33, 6840-6851. arXiv:2006.11239
Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., & Ganguli, S. (2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics. Proceedings of the 32nd International Conference on Machine Learning, PMLR 37:2256-2265. arXiv:1503.03585
Song, Y., & Ermon, S. (2019). Generative Modeling by Estimating Gradients of the Data Distribution. Advances in Neural Information Processing Systems, 32. arXiv:1907.05600
Song, Y., Sohl-Dickstein, J., Kingma, D. P., Kumar, A., Ermon, S., & Poole, B. (2021). Score-Based Generative Modeling through Stochastic Differential Equations. International Conference on Learning Representations. arXiv:2011.13456
Anderson, B. D. O. (1982). Reverse-time diffusion equation models. Stochastic Processes and their Applications, 12(3), 313-326.
Nichol, A. Q., & Dhariwal, P. (2021). Improved Denoising Diffusion Probabilistic Models. Proceedings of the 38th International Conference on Machine Learning, PMLR 139:8162-8171.

'인공지능 논문 정리 > Diffusiion' 카테고리의 다른 글

[Diffusion 6] Score Function이란 무엇인가: Score Matching에 대한 이해 (1)	2026.01.20
[Diffusion 5] DDPM 논문 완전 정복 (하): Reverse Process와 학습 (0)	2026.01.19
[Diffusion 4] DDPM 논문 완전 정복 (상): Forward Process (0)	2026.01.18
[Diffusion 3] Diffusion을 위한 확률론: 가우시안, 마르코프 체인, 그리고 베이즈 (0)	2026.01.18
[Diffusion 1] 노이즈에서 이미지로: Diffusion Model의 기본 원리 (0)	2026.01.18

먼지 가득한 창고

[Diffusion 2] Forward와 Reverse: Diffusion의 두 가지 여정

2.1 두 과정의 개요: 파괴와 복원

2.2 Forward Process: 체계적 파괴의 과정

2.2.1 점진적 노이즈 주입의 원리

2.2.2 마르코프 체인으로서의 Forward Process

2.2.3 임의 시점으로의 직접 도달

2.2.4 정보의 점진적 소멸

2.3 Reverse Process: 복원의 과정

2.3.1 역방향 과정의 근본적 도전

2.3.2 조건부 역방향 분포의 발견

2.3.3 신경망의 역할: 노이즈 예측자

2.3.4 Reverse Process의 샘플링 알고리즘

2.4 두 과정의 대칭성과 비대칭성

2.4.1 구조적 대칭성

2.4.2 시간 역전의 수학적 기초

2.4.3 왜 역방향도 가우시안인가?

2.5 노이즈 스케줄의 역할

2.5.1 노이즈 스케줄이란?

2.5.2 선형 스케줄

2.5.3 코사인 스케줄

2.5.4 스케줄 선택의 중요성

2.6 시간 단계의 의미

2.6.1 이산 시간과 연속 시간

2.6.2 시간 임베딩

2.7 학습 목표: 두 과정의 연결고리

2.7.1 변분 하한과 학습 목표

2.7.2 학습의 직관적 이해

2.8 역사적 발전: 세 가지 관점의 수렴

2.8.1 비평형 열역학 관점

2.8.2 Score Matching 관점

2.8.3 DDPM의 등장

2.8.4 통합적 이해

2.9 요약

참고문헌

'인공지능 논문 정리 > Diffusiion' 카테고리의 다른 글

티스토리툴바

[Diffusion 2] Forward와 Reverse: Diffusion의 두 가지 여정

2.1 두 과정의 개요: 파괴와 복원

2.2 Forward Process: 체계적 파괴의 과정

2.2.1 점진적 노이즈 주입의 원리

2.2.2 마르코프 체인으로서의 Forward Process

2.2.3 임의 시점으로의 직접 도달

2.2.4 정보의 점진적 소멸

2.3 Reverse Process: 복원의 과정

2.3.1 역방향 과정의 근본적 도전

2.3.2 조건부 역방향 분포의 발견

2.3.3 신경망의 역할: 노이즈 예측자

2.3.4 Reverse Process의 샘플링 알고리즘

2.4 두 과정의 대칭성과 비대칭성

2.4.1 구조적 대칭성

2.4.2 시간 역전의 수학적 기초

2.4.3 왜 역방향도 가우시안인가?

2.5 노이즈 스케줄의 역할

2.5.1 노이즈 스케줄이란?

2.5.2 선형 스케줄

2.5.3 코사인 스케줄

2.5.4 스케줄 선택의 중요성

2.6 시간 단계의 의미

2.6.1 이산 시간과 연속 시간

2.6.2 시간 임베딩

2.7 학습 목표: 두 과정의 연결고리

2.7.1 변분 하한과 학습 목표

2.7.2 학습의 직관적 이해

2.8 역사적 발전: 세 가지 관점의 수렴

2.8.1 비평형 열역학 관점

2.8.2 Score Matching 관점

2.8.3 DDPM의 등장

2.8.4 통합적 이해

2.9 요약

참고문헌

'인공지능 논문 정리 > Diffusiion' 카테고리의 다른 글

'인공지능 논문 정리/Diffusiion' Related Articles

티스토리툴바