Diffusion을 넘어서: Flow Matching이 바꾸는 비디오 생성의 미래

Diffusion 모델이 이미지 생성의 표준이 된 지금, 그 다음 패러다임은 이미 등장했습니다. Flow Matching(2023)은 기존 Diffusion의 복잡한 확률 과정을 직선 궤적으로 단순화하여 훈련 효율과 샘플링 속도를 동시에 개선했습니다. 그리고 OmniV2V(2025)는 이 기술을 비디오 도메인으로 확장하여, 생성과 편집을 하나의 프레임워크로 통합했습니다.

이 글에서는 이론(Flow Matching)에서 응용(OmniV2V)으로 이어지는 기술적 연결을 분석합니다.

Flow Matching: 시뮬레이션 프리 생성 모델의 등장

Flow Matching(FM)은 Continuous Normalizing Flows(CNFs)의 훈련 방식을 근본적으로 재설계한 방법론입니다.

핵심 혁신: ODE 시뮬레이션 제거

기존 CNF는 훈련 과정에서 고비용의 ODE 시뮬레이션이 필요했습니다. FM은 이를 **벡터 필드 직접 회귀(Vector Field Regression)**로 대체합니다.

손실 함수:

$$L_{FM}(\theta) = E_{t, p_t(x)} |v_t(x) - u_t(x)|^2$$

여기서 $v_t(x)$는 학습 네트워크, $u_t(x)$는 타겟 벡터 필드입니다.

조건부 유동 매칭(CFM)과 Optimal Transport

FM의 실용적 핵심은 Conditional Flow Matching입니다. 주변 확률 경로 대신 조건부 벡터 필드를 학습하여 최적해를 도출합니다. 여기에 Optimal Transport(OT) 경로 — 즉 직선 형태의 궤적 — 를 적용하면 샘플링 속도와 품질이 동시에 개선됩니다.

구분	훈련 방식	궤적 형태	샘플링 효율
기존 CNF	ODE 시뮬레이션 필요	임의의 곡선	낮음
Diffusion	SDE 기반	곡선 위주	중간
Flow Matching	시뮬레이션 프리	직선 (OT)	높음

실험 결과

ImageNet 64x64 기준, FM-OT 모델이 FID 14.45를 기록하여 DDPM(17.36) 및 Score Matching(19.74)을 상회합니다. 직선 궤적 덕분에 Diffusion 대비 약 **60% 수준의 NFE(Number of Function Evaluations)**만으로 동등한 품질을 달성합니다.

OmniV2V: Flow Matching 기반 비디오 생성/편집 통합

OmniV2V는 Flow Matching이 적용된 **HunyuanVideo(MM-DiT)**를 백본으로 삼아, 비디오 생성과 편집을 단일 프레임워크로 통합한 모델입니다.

아키텍처: Latent-Fusion Video Tokenizer

3D-VAE 기반의 Latent-Fusion Video Tokenizer로 마스크된 비디오와 소스 비디오를 결합합니다. Visual-Text Instruction Module(LLaVA 활용)이 지시어, 텍스트 프롬프트, 참조 이미지를 토큰화합니다.

특히 참조 이미지를 비디오의 -1번째 프레임으로 간주하여 배치하는 방식이 인상적입니다. 이를 통해 별도의 ControlNet 없이도 자연스러운 조건 주입이 가능해집니다.

성능: 기존 모델 상회

메트릭	OmniV2V	VACE 1.3B	Kling 1.6
FVD (낮을수록 좋음)	900.35	942.87	1012.54
Temporal Consistency	0.967	0.961	0.955
Face-sim	0.614	0.583	0.592

통합의 가치

이전에는 객체 교체, Inpainting, Pose-guided 생성 등이 각각 별도의 모델이 필요했습니다. OmniV2V는 이를 하나의 모델로 통합하여 파이프라인 복잡도를 크게 줄였습니다.

이론에서 응용으로: 왜 이 연결이 중요한가

Flow Matching이 제공한 수학적 효율성(훈련 시간 단축 + 직선 궤적 샘플링)은 OmniV2V 같은 대규모 비디오 모델이 실용적인 편집 도구로 기능할 수 있게 하는 핵심 엔진입니다.

기술적 시사점:

모델 구조의 단순화: 복잡한 확률 과정을 직선 경로로 단순화하는 것이 대규모 모델 훈련의 핵심입니다. Flow Matching → OmniV2V의 사례가 이를 증명합니다.
멀티모달 제어: OmniV2V의 시각-텍스트 정렬 방식은 비디오 업스케일링, 실시간 비디오 합성, VFX 포스트 프로덕션 등으로 확장될 수 있습니다.
경량화된 조건 주입: 복잡한 ControlNet 대신 FC 레이어 + Token Fusion 방식은 프로덕션 환경에서의 추론 속도를 크게 개선합니다.

VFX 파이프라인에서의 활용 전망

콘텐츠 제작 현장에서 Flow Matching 기반 비디오 모델의 등장은 직접적인 영향을 미칩니다:

포스트 프로덕션 자동화: 객체 교체, 배경 편집, 스타일 전환을 단일 모델로 처리하여 렌더 팜 의존도를 줄일 수 있습니다.
실시간 프리비즈: OT 경로의 빠른 샘플링을 활용하면, 촬영 현장에서의 실시간 비주얼 프리비주얼라이제이션이 가능해집니다.
에디터 네이티브 AI: NLE(비선형 편집기)에 직접 통합되는 AI 편집 기능의 기반 기술로 자리잡을 수 있습니다.

남은 과제

Flow Matching의 조건부 유동이 OT를 따르더라도, 전체 분포 관점의 Marginal Vector Field가 글로벌 OT 해라는 보장은 없습니다.
OmniV2V는 작은 객체 식별이나 복잡한 손동작 생성에서 여전히 한계를 보입니다.
비등방성 Gaussian 경로 설계 및 Super-resolution으로의 확장이 차기 연구 과제입니다.

2026년, Diffusion의 다음 단계는 이미 시작되었습니다. Flow Matching이 제공하는 수학적 우아함이 비디오 생성의 실용화를 가속하고 있습니다.

이 글은 personal knowledge system 볼트의 연구 노트를 기반으로 작성되었습니다.