VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding
VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding
저자: Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai 소속: Huazhong University of Science and Technology (HUST) 외 발표: arXiv:2603.19235 (March 19, 2026) / 코드+체크포인트 3월 25일 공개 프로젝트: h-embodvis.github.io/VEGA-3D
핵심 요약
MLLM(Multimodal LLM)은 뛰어난 시맨틱 능력을 보이지만 fine-grained 공간 추론(spatial reasoning)과 물리 역학 이해에서 "공간 맹점(spatial blindness)"을 보인다. 기존 해결책은 명시적 3D 모달리티나 복잡한 기하학적 스캐폴딩에 의존하여 데이터 희소성과 일반화 한계가 있다.
VEGA-3D는 사전학습된 비디오 디퓨전 모델을 "Latent World Simulator"로 재활용하는 플러그앤플레이 프레임워크다. 비디오 생성 모델이 시간적으로 일관된 영상을 합성하기 위해 내재적으로 3D 구조 프라이어와 물리 법칙을 학습한다는 통찰에 기반한다.
방법론
- Latent World Simulator: 사전학습된 비디오 디퓨전 모델(Wan2.1-T2V, Wan2.1-VACE, SD2.1 등)에서 중간 노이즈 레벨의 시공간(spatiotemporal) 피처를 추출
- Token-level Adaptive Gated Fusion: 추출된 기하학적 큐를 시맨틱 표현과 토큰 수준에서 적응적으로 융합 → MLLM에 dense geometric cues를 주입
- 명시적 3D 감독 불필요: 외부 3D 입력이나 복잡한 기하학적 감독 없이 비디오 생성 모델의 암묵적 프라이어만으로 작동
지원 백본
- Wan2.1-T2V-1.3B, Wan2.1-VACE-1.3B
- Stable Diffusion 2.1, Stable Video Diffusion
- LLaVA-Video-7B-Qwen2 (MLLM 기반)
- DINOv3, V-JEPA V2, VGGT-1B (비교 대상)
주요 결과
3D 장면 이해, 공간 추론, 체화된(embodied) 조작 벤치마크에서 SOTA 베이스라인을 일관되게 능가:
- 비디오 생성 모델의 암묵적 3D 프라이어가 명시적 3D 감독을 사용하는 방법들보다 우수한 성능
- Spatial Reasoning 체크포인트가 HuggingFace에 공개됨
- 5개 다운스트림 태스크에서 자동 평가 실행
실용성 체크
| 항목 | 상태 |
|---|---|
| 코드 | ✅ github.com/H-EmbodVis/VEGA-3D (Apache-2.0) |
| 모델 | ✅ HuggingFace에 Spatial Reasoning 체크포인트 공개 |
| 데이터 | ✅ Video-3D-LLM 구조 데이터 (EmbodiedScan, ScanNet 등) |
| 라이선스 | Apache-2.0 |
| 요구사양 | Flash Attention 2.7+ / CUDA 12.1 / PyTorch 2.4.0 / 대형 GPU 추정 (A100급) |
Practical Implications
our rendering research project 프로젝트에 직접 적용 가능한 핵심 인사이트: 비디오 생성 모델이 이미 3D 공간 구조를 내재적으로 학습하고 있다는 점. 이는 별도의 3D 재구성 파이프라인 없이도 비디오 모델로부터 3D 프라이어를 추출하여 장면 이해에 활용할 수 있음을 의미한다.
our video generation project 프로젝트와의 연결: 비디오 생성 워크플로우에서 3D 일관성을 확보하는 데 이 프레임워크의 Latent World Simulator 접근법을 참고할 수 있다. 생성된 비디오의 공간적 정합성을 자동 검증하는 모듈로 활용 가능.
our 3D automation project 프로젝트: 에이전틱 3D 파이프라인에서 비디오 모델을 3D 이해 백본으로 사용하는 아키텍처 패턴을 참고할 만하다. 명시적 3D 데이터 없이도 강건한 공간 추론이 가능하다는 점은 데이터 병목을 해소하는 실질적 방법이다.
코드+모델이 모두 공개되어 있어 즉시 실험 가능. Apache-2.0 라이선스로 상용 활용도 가능.