DCARL: A Divide-and-Conquer Framework for Autoregressive Long-Trajectory Video Generation

분할정복(Divide-and-Conquer) 프레임워크로 자기회귀 장궤적 비디오 생성의 구조적 안정성과 고품질을 동시 달성. 32초 비디오에서 FID 19.2, FVD 203.7로 SOTA(SEVA 22.2/548.0) 대비 압도적 우위. 카메라 궤적 준수도(ATE 0.237)에서도 최고 성능.

연구 배경 및 동기

장시간 비디오 생성(Long Video Generation)은 현재 비디오 AI에서 가장 도전적인 문제 중 하나이다. 기존 자기회귀(Autoregressive) 방식은 이전 프레임을 조건으로 다음 프레임을 생성하는데, 시간이 길어질수록 **시각적 드리프트(visual drift)**가 누적된다. 색감이 서서히 변하고, 구조가 왜곡되며, 카메라 궤적이 의도와 달라지는 현상이다.

이 문제에 대한 접근법은 크게 두 가지가 있다:

순수 자기회귀(Pure AR): 이전 프레임만을 조건으로 순차 생성. 지역적 연속성은 좋지만 장기 일관성이 저하.
분할정복(Divide-and-Conquer): 먼저 희소한 키프레임을 생성하고, 그 사이를 보간. 전역 일관성은 좋지만 키프레임 간 전환이 부자연스러울 수 있음.

DCARL은 이 두 접근의 장점을 결합한다. 분할정복의 구조적 안정성과 자기회귀의 고품질 밀집 생성을 동시에 달성하는 프레임워크이다.

Figure: DCARL의 장궤적 비디오 생성 예시 — 32초에 걸친 일관된 카메라 궤적 비디오

방법론: 2단계 분할정복 파이프라인

아키텍처 개요

DCARL은 두 개의 독립적인 생성기로 구성된다. 각각은 Wan2.1-T2V-1.3B 아키텍처를 기반으로 한 DiT(Diffusion Transformer) 기반 플로우 매칭(flow matching) 모델이다.

Figure: DCARL 2단계 자기회귀 파이프라인 — Keyframe Generator와 Interpolation Generator의 구조

Stage 1: Keyframe Generator (키프레임 생성기)

키프레임 생성기의 핵심 설계 원칙은 **"공간-구조 보존(Spatial-Structural Preservation)"**이다. 기존 비디오 생성 모델들은 시간 축을 VAE로 압축(temporal compression)하여 연산 효율을 높이지만, 이 과정에서 프레임 간 정보가 혼합되어 구조적 디테일이 손실된다. DCARL의 키프레임 생성기는 이 시간 압축을 의도적으로 제거한다.

구체적 구현: 키프레임들을 시퀀스가 아닌 배치(batch-wise) 독립 이미지로 처리한다. 각 키프레임은 개별적으로 VAE 인코딩되며, 시간축 압축에 의한 정보 손실이 원천적으로 발생하지 않는다. 대신, 키프레임 간의 시간적 관계는 DiT의 attention 메커니즘을 통해 학습한다.

학습 시 키프레임 간격(temporal stride) $\Delta_k$는 {4, 8, 16}에서 랜덤 샘플링하여 다양한 시간 해상도에 대한 일반화를 확보하고, 추론 시에는 $\Delta_k = 8$을 고정 사용한다. 학습 데이터에서 키프레임 수는 $|K| = 21$로 설정된다.

Stage 2: Interpolation Generator (보간 생성기)

보간 생성기는 키프레임 사이의 밀집 프레임(dense frames)을 자기회귀적으로 합성한다. 이 과정에서 두 가지 핵심 기술이 적용된다:

1) Motion-Inductive Noisy Conditioning (움직임 유도 노이즈 컨디셔닝)

키프레임을 보간 조건으로 사용할 때, 깨끗한(clean) 키프레임을 그대로 제공하면 모델이 **복사 지름길(copy shortcut)**을 학습한다. 즉, 키프레임을 그대로 복사하고 사이 프레임을 대충 채우는 패턴이 발생한다. DCARL은 이를 방지하기 위해 키프레임 잠재 벡터에 의도적으로 노이즈를 추가한다:

혼합 계수: $\alpha_c = 0.7$, $\sigma_c = 0.3$
학습과 추론 모두에서 동일한 노이즈 수준 적용

이 설계는 모델이 키프레임의 구조적 정보(카메라 위치, 장면 레이아웃)만 활용하고, 픽셀 레벨의 디테일은 자체 생성하도록 유도한다.

2) Seamless Boundary Consistency (이음새 없는 경계 일관성)

자기회귀 보간 시 이전 세그먼트와의 경계에서 불연속이 발생할 수 있다. DCARL은 잠재 벡터 치환(latent substitution) 방식으로 이를 해결한다:

이전 세그먼트의 마지막 $p = 1$ 프레임의 노이즈-프리 잠재 벡터를 현재 세그먼트의 시작 부분에 직접 대입
이 프레임이 "앵커" 역할을 하여 시간적 연속성 보장

정량적 결과

ODV-YouTube 데이터셋 (32초 비디오)

방법	FID↓	FVD↓	ATE↓	ARE↓
DiffF	35.0	664.1	0.469	19.448
SelfF	58.0	2113.6	0.610	14.386
DeepF	42.3	1558.5	0.571	15.144
Vista	66.7	1550.0	0.641	19.332
SEVA	22.2	548.0	0.294	8.527
DCARL	19.2	203.7	0.237	7.669

DCARL은 FID에서 차선 방법(SEVA) 대비 13.5% 개선(22.2 → 19.2), FVD에서 62.8% 개선(548.0 → 203.7)을 달성했다. 특히 FVD의 극적인 개선은 시간적 일관성이 크게 향상되었음을 의미한다.

시간 구간별 성능 분석 (ODV-YouTube, 32초)

방법	0-8초 FID/FVD	8-16초 FID/FVD	16-24초 FID/FVD	24-32초 FID/FVD
DiffF	25.3/390.7	39.8/684.5	45.2/856.8	54.1/1067.1
SEVA	27.2/582.0	30.7/643.2	31.8/623.8	33.1/602.0
DCARL	19.6/191.4	25.1/255.8	27.3/276.0	28.6/313.8

이 시간 구간별 분석이 DCARL의 핵심 강점을 드러낸다. DiffF 같은 순수 AR 방법은 시간이 갈수록 FID가 25.3 → 54.1로 급격히 악화되지만, DCARL은 19.6 → 28.6으로 완만하게 증가한다. 이는 키프레임 앵커링이 장기 드리프트를 효과적으로 억제한다는 직접적 증거이다.

nuScenes 데이터셋 (16초, Zero-Shot Transfer)

방법	FID↓	FVD↓	ATE↓	ARE↓
DiffF	37.1	566.6	0.154	13.704
SEVA	35.9	487.9	0.117	6.289
DCARL	19.6	225.4	0.045	5.274

Zero-shot(학습에 사용하지 않은 데이터셋) 환경에서도 DCARL은 모든 메트릭에서 SOTA를 달성했다. 특히 ATE(카메라 궤적 오차)에서 0.045로, SEVA(0.117) 대비 61.5% 개선을 보여 카메라 제어 정밀도가 탁월하다.

Figure: 장궤적 비디오 생성 정성적 비교 — DCARL vs 기존 방법들

Ablation Study: 키프레임의 필요성

설정	FID↓	FVD↓	ATE↓	ARE↓
키프레임 없음 (순수 AR)	25.2	376.7	0.387	12.184
DCARL Full	19.2	203.7	0.237	7.669

키프레임을 제거하면 FVD가 203.7 → 376.7로 84.8% 악화되며, ATE도 0.237 → 0.387로 급증한다. 이는 키프레임이 장기 일관성 유지에 필수적임을 명확히 보여준다.

키프레임 설계 ablation (16초)

모델	FID↓	ATE↓	ARE↓
시간 압축 사용	19.6	0.155	7.276
DCARL (시간 압축 미사용)	16.3	0.100	3.999

시간 압축을 사용하면 ARE가 7.276으로 약 2배 악화되어, 시간 압축 제거가 카메라 궤적 정밀도에 결정적 영향을 미침을 확인할 수 있다.

Figure: Keyframe Generator 설계 비교 — 시간 압축 유무에 따른 생성 품질 차이

학습 상세

항목	값
베이스 모델	Wan2.1-T2V-1.3B
옵티마이저	AdamW (LR: 5e-5, weight decay: 0.01, beta: 0.9/0.95)
학습 스텝	30,000 (생성기당)
배치 크기	16 (effective, 8x H100 GPU)
데이터셋	OpenDV-YouTube 480시간, 10fps, 1분 클립
카메라 포즈	pi3로 0.5초 간격 재구성
키프레임 수	$

한계점 및 향후 연구 방향

해상도 제한: 현재 구현은 중간 해상도에서 동작하며, 4K 이상의 고해상도 장비디오 생성에 대한 확장은 검증되지 않았다.
컨텐츠 다양성: 주로 주행 비디오(driving video)로 학습되어, 실내·항공·수중 등 다양한 도메인에서의 일반화는 추가 검증이 필요하다.
텍스트 제어: 카메라 궤적 기반 생성에 특화되어 있으며, 세밀한 텍스트 프롬프트 기반 내용 제어(예: "비 오는 날씨로 변경")는 지원하지 않는다.
추론 속도: 두 단계 생성이 순차적으로 수행되므로, 단일 모델 대비 추론 시간이 길어질 수 있다.

Figure: 실패 사례 분석 — DCARL의 한계가 드러나는 극단적 시나리오

출처

플랫폼	링크
ArXiv	2603.24835
ArXiv HTML	전문 보기