GaussFusion: Geometry 기반 Video Generator로 Wild 3DGS 복원 품질을 SOTA로 끌어올리다
한줄 요약
Stanford와 Zillow 공동 연구팀이 3D Gaussian Splatting(3DGS) 복원의 고질적 아티팩트(floater, flickering, blur)를 geometry 기반 video-to-video 생성 모델로 제거하는 GaussFusion을 발표했다. DL3DV와 RE10K 벤치마크에서 NVS SOTA를 달성하며, few-step distillation 변형은 15 FPS 실시간 인터랙티브 렌더링을 지원한다. CVPR 2026 메인 논문으로 채택.
연구 배경 및 동기
3D Gaussian Splatting은 NeRF 이후 실시간 3D 렌더링의 새로운 표준으로 부상했다. 그러나 현실 세계(in-the-wild) 환경에서의 3DGS 복원은 여전히 심각한 품질 문제를 안고 있다.
핵심 원인은 세 가지다:
- 카메라 포즈 오류 — COLMAP 등 SfM 파이프라인의 부정확한 포즈 추정이 Gaussian primitive 위치를 왜곡
- 불완전한 장면 커버리지 — 촬영 각도가 제한된 영역에서 hallucination 발생
- 노이즈 초기화 — 포인트 클라우드의 outlier가 floater(부유 아티팩트)로 렌더링
기존 후처리 방식은 RGB 기반으로 특정 파이프라인에 종속되어 범용성이 떨어졌다. 예를 들어 3DGS optimization 기반 모델에 최적화된 후처리기는 feed-forward 모델에 그대로 적용할 수 없었다.
GaussFusion의 핵심 통찰은 RGB가 아닌 geometry 정보를 조건으로 사용하면 파이프라인에 구애받지 않는(pipeline-agnostic) 범용 후처리가 가능하다는 것이다.

핵심 기술: Gaussian Primitives Video Buffer
GaussFusion의 아키텍처는 기존 3DGS 복원 → geometry buffer 렌더링 → V2V 정제의 3단계로 구성된다.
1단계: Gaussian Primitives Buffer 렌더링
기존 3DGS 복원 결과에서 RGB 외에 4가지 기하학적 속성을 추가 렌더링한다:
| Buffer Channel | 설명 | 역할 |
|---|---|---|
| Depth | 각 픽셀의 깊이값 | 공간적 구조 파악 |
| Normals | 표면 법선 벡터 | 표면 방향성 인코딩 |
| Opacity | Gaussian의 불투명도 | floater 식별 (낮은 opacity = 의심 영역) |
| Covariance | Gaussian 분포의 공분산 | 형상 불확실성 인코딩 |
이 5채널(RGB + 4 geometry) 비디오 버퍼가 핵심이다. RGB만 사용하는 기존 방법 대비, geometry 채널이 아티팩트의 원인을 직접 인코딩하므로 더 정확한 정제가 가능하다.
2단계: Geometry-Informed Video-to-Video Generator
Gaussian Primitives Buffer를 조건으로 받는 video diffusion 모델이 temporally coherent한 정제 프레임을 생성한다.
핵심 설계 결정:
- Video-level 생성 (이미지 단위 아님) → 프레임 간 시간적 일관성(temporal coherence) 보장
- Geometry conditioning → RGB 조건 대비 파이프라인 독립적
- 75,000+ 비디오 아티팩트 시뮬레이션 데이터셋 → 실제 복원에서 나타나는 다양한 열화 패턴을 합성하여 학습
3단계: Few-Step Distillation (실시간 변형)
Full 모델의 품질을 유지하면서 추론 속도를 극적으로 개선하는 distillation 레시피:
- 렌더링 중 on-the-fly refinement 가능
- 15 FPS 실시간 인터랙티브 3D 응용 지원
- 추론 환경: RTX 4090 단일 GPU
정량적 성능
Novel View Synthesis 품질 (Table 1)
| Method | PSNR ↑ | SSIM ↑ | LPIPS ↓ | FID ↓ |
|---|---|---|---|---|
| 3DGS (baseline) | 19.92 | 0.756 | 0.352 | 12.45 |
| GaussFusion (Full) | 22.55 | 0.832 | 0.278 | 3.93 |
| GaussFusion (Few-step) | 21.84 | 0.819 | 0.291 | 4.67 |
DL3DV 벤치마크 기준. GaussFusion은 PSNR +2.63dB, FID 68% 개선
RE10K 벤치마크
| Method | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|
| GaussFusion (Full) | 28.65 | 0.944 | 0.180 |
Feed-Forward 모델 호환성 (Table 2)
| Base Model | + GaussFusion | PSNR ↑ |
|---|---|---|
| DepthSplat | ✅ | 22.80 |
| MVSplat | ✅ | 19.76 |
핵심: optimization 기반뿐 아니라 feed-forward 모델에도 동일하게 적용 가능하다는 점이 pipeline-agnostic 설계의 실증.
Ablation: 입력 모달리티별 기여도 (Table 4)
| 입력 구성 | PSNR | FID |
|---|---|---|
| RGB만 | 19.12 | 11.82 |
| + Depth | 19.87 | 8.94 |
| + Normal | 20.21 | 7.65 |
| + Opacity + Covariance | 20.75 | 6.72 |
모든 geometry 채널이 기여하며, 특히 opacity와 covariance 추가가 FID를 12% 추가 개선. Floater 제거에 opacity 채널이, blur 제거에 covariance 채널이 핵심 역할.
실용성 체크
| 항목 | 상태 |
|---|---|
| 논문 | ✅ arXiv 2603.25053 |
| 코드 | ❌ 미공개 (프로젝트 페이지 존재) |
| 모델 | ❌ 미공개 |
| 데이터 | ⏳ 75K+ 비디오 데이터셋 공개 미확인 |
| 라이선스 | CC BY-NC-ND 4.0 |
| 요구사양 | A100/H100 (학습), RTX 4090 (추론, 15 FPS) |
| 학회 | CVPR 2026 Main |
VFX 실무 시사점
GaussFusion이 VFX/3D 프로덕션에 미치는 영향은 직접적이다:
1. 프로덕션 품질 격차 해소
Wild 3DGS의 최대 약점인 floater/flickering을 후처리로 제거하면, 드론 촬영 → SfM → 3DGS 파이프라인이 전통 CG에 근접하는 품질을 달성할 수 있다. Zillow가 이미 SkyTours에서 대규모 상용 배포 중인 점이 이를 증명한다.
2. Pipeline-Agnostic 후처리
특정 3DGS 백본에 종속되지 않으므로, 기존 파이프라인에 플러그인처럼 추가 가능. 실제 VFX 스튜디오의 다양한 도구 체인에 통합이 용이하다.
3. 계층적 품질 파이프라인
Few-step 변형(15 FPS)을 프리뷰에, Full 모델을 최종 렌더에 사용하는 2-tier 품질 파이프라인 설계가 현실적. 실시간 프리뷰 → 고품질 최종 렌더의 전통적 CG 워크플로우와 자연스럽게 매칭된다.
4. 데이터셋의 가치
75,000+ 비디오의 아티팩트 시뮬레이션 데이터셋이 공개되면, 3DGS 품질 개선 연구 전체의 벤치마크 표준이 될 가능성이 높다.
한계점
- 코드·모델 미공개 상태로 재현 불가 (Gordon Wetzstein 랩은 과거 비교적 빠른 공개 이력)
- CC BY-NC-ND 라이선스로 상업적 활용에 제약
- Few-step 변형도 15 FPS로, 게임 엔진의 60+ FPS 기준에는 미달
- 기하학적 오류가 극심한 경우(완전히 틀린 포즈) 정제 한계 존재