OIKBAS
← Back to Blog
by MinHanr

VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding

Research
AI_R&D_Papertech/3d-generationtech/attention

VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding

저자: Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai 소속: Huazhong University of Science and Technology (HUST) 외 발표: arXiv:2603.19235 (March 19, 2026) / 코드+체크포인트 3월 25일 공개 프로젝트: h-embodvis.github.io/VEGA-3D


핵심 요약

MLLM(Multimodal LLM)은 뛰어난 시맨틱 능력을 보이지만 fine-grained 공간 추론(spatial reasoning)과 물리 역학 이해에서 "공간 맹점(spatial blindness)"을 보인다. 기존 해결책은 명시적 3D 모달리티나 복잡한 기하학적 스캐폴딩에 의존하여 데이터 희소성과 일반화 한계가 있다.

VEGA-3D는 사전학습된 비디오 디퓨전 모델을 "Latent World Simulator"로 재활용하는 플러그앤플레이 프레임워크다. 비디오 생성 모델이 시간적으로 일관된 영상을 합성하기 위해 내재적으로 3D 구조 프라이어와 물리 법칙을 학습한다는 통찰에 기반한다.

방법론

  1. Latent World Simulator: 사전학습된 비디오 디퓨전 모델(Wan2.1-T2V, Wan2.1-VACE, SD2.1 등)에서 중간 노이즈 레벨의 시공간(spatiotemporal) 피처를 추출
  2. Token-level Adaptive Gated Fusion: 추출된 기하학적 큐를 시맨틱 표현과 토큰 수준에서 적응적으로 융합 → MLLM에 dense geometric cues를 주입
  3. 명시적 3D 감독 불필요: 외부 3D 입력이나 복잡한 기하학적 감독 없이 비디오 생성 모델의 암묵적 프라이어만으로 작동

지원 백본

  • Wan2.1-T2V-1.3B, Wan2.1-VACE-1.3B
  • Stable Diffusion 2.1, Stable Video Diffusion
  • LLaVA-Video-7B-Qwen2 (MLLM 기반)
  • DINOv3, V-JEPA V2, VGGT-1B (비교 대상)

주요 결과

3D 장면 이해, 공간 추론, 체화된(embodied) 조작 벤치마크에서 SOTA 베이스라인을 일관되게 능가:

  • 비디오 생성 모델의 암묵적 3D 프라이어가 명시적 3D 감독을 사용하는 방법들보다 우수한 성능
  • Spatial Reasoning 체크포인트가 HuggingFace에 공개됨
  • 5개 다운스트림 태스크에서 자동 평가 실행

실용성 체크

항목상태
코드github.com/H-EmbodVis/VEGA-3D (Apache-2.0)
모델✅ HuggingFace에 Spatial Reasoning 체크포인트 공개
데이터✅ Video-3D-LLM 구조 데이터 (EmbodiedScan, ScanNet 등)
라이선스Apache-2.0
요구사양Flash Attention 2.7+ / CUDA 12.1 / PyTorch 2.4.0 / 대형 GPU 추정 (A100급)

Practical Implications

our rendering research project 프로젝트에 직접 적용 가능한 핵심 인사이트: 비디오 생성 모델이 이미 3D 공간 구조를 내재적으로 학습하고 있다는 점. 이는 별도의 3D 재구성 파이프라인 없이도 비디오 모델로부터 3D 프라이어를 추출하여 장면 이해에 활용할 수 있음을 의미한다.

our video generation project 프로젝트와의 연결: 비디오 생성 워크플로우에서 3D 일관성을 확보하는 데 이 프레임워크의 Latent World Simulator 접근법을 참고할 수 있다. 생성된 비디오의 공간적 정합성을 자동 검증하는 모듈로 활용 가능.

our 3D automation project 프로젝트: 에이전틱 3D 파이프라인에서 비디오 모델을 3D 이해 백본으로 사용하는 아키텍처 패턴을 참고할 만하다. 명시적 3D 데이터 없이도 강건한 공간 추론이 가능하다는 점은 데이터 병목을 해소하는 실질적 방법이다.

코드+모델이 모두 공개되어 있어 즉시 실험 가능. Apache-2.0 라이선스로 상용 활용도 가능.