PromptVFX: 텍스트 한 줄로 3D 씬에 VFX를 입히는 시대 -- LLM이 Gaussian을 직접 조작한다

3D 씬에 불을 붙이고, 폭발시키고, 색을 바꾸려면 지금까지 어떤 선택지가 있었을까요?

하나는 물리 시뮬레이션입니다. Houdini나 Blender에서 파티클과 유체 시뮬레이션을 돌리는 전통적 방식. 정확하지만 느리고, 전문 지식이 필수입니다. 다른 하나는 최근 부상한 Diffusion 기반 방법. AI가 프레임 단위로 이미지를 생성하는 방식이지만, 오프라인 처리에 수십 분이 걸리고, 시간적 일관성을 보장하기 어렵습니다.

2025년 6월 발표된 PromptVFX는 이 두 패러다임 모두를 우회합니다. "make the vase glow orange, then explode"라는 텍스트 한 줄을, LLM이 파라메트릭 함수로 변환하고, 그 함수가 3D Gaussian을 직접 조작합니다. 결과? 30배 이상 빠른 속도, 웹 브라우저에서도 실행 가능한 실시간 VFX.

근본적 재정의: 애니메이션은 Field Prediction이다

PromptVFX의 핵심 통찰은 놀라울 만큼 단순합니다. 3D 애니메이션이란 결국 "시간에 따라 3D 포인트들의 속성이 어떻게 변하는가"를 정의하는 문제입니다. 이를 복잡한 물리 방정식이나 반복적 디노이징으로 풀 필요 없이, 시간 가변 4D flow field -- 즉, 각 Gaussian 프리미티브의 위치, 색상, 불투명도를 시간 함수로 정의하는 필드 -- 를 직접 추론하면 됩니다.

기존 3D Gaussian Splatting(3DGS)은 수만~수백만 개의 Gaussian 프리미티브로 씬을 표현합니다. 각 프리미티브는 3D 위치, 색상, 불투명도를 가집니다. PromptVFX는 이 속성들을 시간의 함수로 변환합니다:

위치 변화: 이동, 팽창, 수축, 부유, 낙하
색상 변화: 발광, 변색, 페이드인/아웃
불투명도 변화: 소멸, 출현, 투명화

새로운 메시를 추출하거나, 물리 엔진을 구동하거나, Diffusion 모델의 수십 스텝 디노이징을 돌릴 필요가 전혀 없습니다.

파이프라인: LLM이 코드를 쓰고, VLM이 검증한다

PromptVFX의 파이프라인은 4단계로 구성됩니다.

1단계: 프롬프트 분해

사용자의 자연어 입력을 구조화된 애니메이션 페이즈로 분해합니다. 예를 들어 "make the vase glow orange, then explode"는 두 페이즈로 나뉩니다:

Phase 1: vase의 색상을 orange glow로 전환
Phase 2: vase의 Gaussian들을 외부로 급격히 분산 + 불투명도 점진 감소

2단계: LLM 기반 파라메트릭 함수 생성

이것이 PromptVFX의 핵심 혁신입니다. LLM(대형 언어 모델)이 각 페이즈에 대해 Gaussian 속성을 시간 함수로 정의하는 코드를 직접 생성합니다. Diffusion 모델이 노이즈로부터 프레임을 반복 생성하는 대신, 단일 함수 평가로 모든 시점의 Gaussian 상태가 결정됩니다.

이 설계의 결과는 극적입니다. Diffusion 기반 방법이 각 프레임마다 수십 번의 디노이징 스텝을 돌려야 하는 반면, PromptVFX는 함수를 한 번 평가하면 끝입니다. 이것이 30배 속도 차이의 근본 원인입니다.

더 흥미로운 점은 이 접근이 **결정론적(deterministic)**이라는 것입니다. 동일한 함수에 동일한 입력을 넣으면 항상 같은 결과가 나옵니다. Diffusion 모델의 확률적 특성으로 인한 시간적 불일관성 -- 같은 프롬프트인데 프레임마다 미묘하게 다른 결과가 나오는 문제 -- 가 구조적으로 제거됩니다.

3단계: VLM 기반 가설 평가

텍스트 프롬프트는 본질적으로 모호합니다. "explode"가 산산이 부서지는 것인지, 팽창하여 터지는 것인지, 불꽃과 함께 폭발하는 것인지. PromptVFX는 이 모호성을 복수 가설 생성 + VLM 평가로 해결합니다.

LLM이 여러 가지 해석에 기반한 함수 변형을 생성하고, Vision-Language Model(VLM)이 다양한 뷰포인트에서 캡처한 스냅샷을 원본 텍스트 프롬프트와 비교 평가합니다. 가장 높은 텍스트-애니메이션 일치도를 보이는 가설이 선택됩니다.

4단계: 인터랙티브 리파인먼트

선택된 애니메이션은 자동 수정과 사용자 텍스트 피드백을 통해 정제됩니다. "폭발을 더 느리게" 또는 "색상을 더 강하게" 같은 추가 지시로 실시간 조정이 가능합니다.

기존 방법과의 비교

방법	유형	속도	실시간	새 지오메트리	Open-World
AutoVFX	물리 시뮬레이션	수십 분	불가	가능	제한적
Gaussians2Life	Diffusion 기반	수십 분	불가	제한적	제한적
PromptVFX	Field Prediction	수 초	가능	불가	완전 지원

속도 차이는 압도적입니다. 그러나 공정하게 말하면, PromptVFX에는 명확한 한계가 있습니다.

새로운 지오메트리를 생성하지 않습니다. 폭발 시 파편이 날아가는 것처럼 보일 수는 있지만(기존 Gaussian의 위치를 분산시키므로), 실제로 새로운 파편 메시를 생성하지는 않습니다. 유체 시뮬레이션이나 입자 생성이 필요한 VFX는 여전히 전통적 방법이 필요합니다.

또한 LLM이 생성하는 파라메트릭 함수의 표현력에 의존합니다. 매우 복잡한 물리적 상호작용은 함수로 근사적으로만 표현됩니다.

한편, 비교 대상인 Gaussians2Life와 AutoVFX는 각각 다른 강점을 가지고 있습니다. Gaussians2Life는 Diffusion 모델의 강력한 생성 능력을 활용하여 매우 사실적인 변환을 만들어내며, AutoVFX는 물리적으로 정확한 시뮬레이션으로 파편, 유체, 연기 등을 실제와 가깝게 재현합니다. PromptVFX는 이들과 경쟁하기보다 보완적 위치에 있으며, 각 방법이 적합한 용도가 다릅니다.

왜 중요한가: LLM-to-VFX 패러다임의 등장

PromptVFX의 진정한 의미는 속도 향상 자체가 아닙니다. LLM이 3D 그래픽스의 파라미터를 직접 제어하는 패러다임의 실현 가능성을 증명했다는 점입니다.

이 패턴을 일반화하면:

사용자 자연어 → LLM이 코드/파라미터 생성 → 3D 엔진이 실행 → VLM이 품질 검증

이것은 VFX에만 국한되지 않습니다. Houdini VEX 스크립트 생성, Blender Python 자동화, Unity Shader 파라미터 조정 등 -- 3D 그래픽스의 거의 모든 영역에서 동일한 에이전틱 패턴이 적용될 수 있습니다.

특히 주목할 점은 접근성의 민주화입니다. 웹 브라우저에서도 실행 가능하다는 것은, VFX 전문가가 아닌 기획자나 디렉터도 텍스트 지시만으로 3D 씬에 VFX를 적용할 수 있다는 의미입니다. 이는 프리프로덕션 단계에서의 빠른 VFX 프리뷰, 클라이언트 프레젠테이션, 교육 등에서 실질적 가치를 가집니다.

기술적 깊이: VLM Score라는 새로운 평가 프로토콜

기존 3D 애니메이션 평가는 대부분 사용자 연구(user study)에 의존했습니다. 정량적 메트릭이 부재했던 것입니다. PromptVFX는 이 문제를 해결하기 위해 VLM Score라는 새로운 평가 프로토콜을 제안합니다.

구체적으로, 생성된 애니메이션의 다양한 뷰포인트에서 스냅샷을 캡처하고, Vision-Language Model에 "이 스냅샷이 원본 텍스트 프롬프트를 얼마나 잘 반영하는가"를 질의합니다. 복수의 뷰포인트를 평가하므로, 특정 각도에서만 그럴듯하게 보이는 애니메이션(2D 트릭)은 낮은 점수를 받습니다.

이 프로토콜의 장점은 명확합니다:

자동화 가능: 사람이 직접 평가하지 않아도 됨
재현 가능: 동일한 VLM과 프롬프트로 누구나 동일한 평가 수행 가능
다뷰 일관성 검증: 3D 공간에서의 일관성까지 평가

이는 향후 3D 애니메이션/VFX 생성 연구의 표준 평가 방법으로 자리잡을 가능성이 있으며, 자동 QA 파이프라인 구축의 기반 기술로도 중요합니다.

실무 적용 시나리오

PromptVFX의 기술이 성숙하면, 다음과 같은 워크플로가 가능해집니다:

VFX 프리비즈(Pre-visualization): 촬영 전 VFX 컨셉을 텍스트로 빠르게 프로토타이핑. "이 건물에 불이 붙고, 10초 후 폭발"을 실시간으로 시각화. 감독과 VFX 수퍼바이저 간 커뮤니케이션 비용을 획기적으로 줄일 수 있습니다.
인터랙티브 VFX 편집: 편집 타임라인에서 텍스트 프롬프트를 수정하며 VFX를 실시간 조정. 렌더팜 대기 없이 즉각적 피드백. "불꽃을 더 크게", "폭발 타이밍을 0.5초 앞으로" 같은 반복적 수정이 초 단위로 가능해집니다.
게임 엔진 통합: 3DGS 기반 게임 씬에서 런타임 VFX 생성. 사전 제작된 파티클 이펙트 대신, 게임 컨텍스트에 따라 동적으로 VFX를 생성. 예를 들어 플레이어의 마법 주문 텍스트에 따라 다른 시각 효과를 실시간 생성하는 시나리오가 가능합니다.
에이전틱 VFX 파이프라인: LLM 에이전트가 씬 분석(어떤 객체에 어떤 VFX가 적합한지 판단) → VFX 계획(애니메이션 페이즈 설계) → 함수 생성(파라메트릭 코드 작성) → VLM 검증(품질 확인) → 피드백 반영까지 자동 수행하는 완전 자동화 워크플로. 인간은 최종 결과만 승인합니다.
교육 및 데모: VFX 원리를 설명할 때, 텍스트를 바꿔가며 실시간으로 다른 효과를 시연. "이것이 불이고, 이것이 용해이고, 이것이 투명화입니다"를 라이브로 보여줄 수 있습니다.

한계점: 무엇이 아직 불가능한가

공정한 평가를 위해 PromptVFX의 명확한 한계를 정리합니다:

새로운 지오메트리 생성 불가: 폭발 파편, 물방울, 연기 입자 등 새로운 3D 오브젝트를 생성하지 못합니다. 기존 Gaussian의 속성만 변환합니다. 이는 물리 시뮬레이션 기반 방법이 여전히 필요한 영역입니다.
LLM 함수 표현력의 한계: 파라메트릭 함수로 표현할 수 없는 복잡한 물리(유체 역학, 천 시뮬레이션 등)는 근사적 표현에 그칩니다.
Gaussian 품질 의존: 입력 3DGS 씬의 품질이 낮으면 VFX 결과도 저품질. garbage-in-garbage-out 원칙이 적용됩니다.
정량적 벤치마크 부족: VLM Score 외에 표준화된 정량 비교가 제한적. 분야 전체의 벤치마크 표준화가 필요합니다.

2026년, VFX의 패러다임이 바뀌고 있다

물리 시뮬레이션과 Diffusion 모델은 각자의 강점이 있고, 사라지지 않을 것입니다. 하지만 PromptVFX가 보여준 것은 모든 VFX가 물리적 정확성을 필요로 하지 않는다는 사실입니다. 프리뷰, 프로토타이핑, 인터랙티브 콘텐츠에서는 "충분히 그럴듯한" VFX를 "즉시" 생성하는 것이 "완벽한" VFX를 "수 시간 후" 얻는 것보다 가치 있습니다.

VFX 파이프라인의 미래는 단일 방법론의 승리가 아니라, 목적에 따른 다층 구조가 될 것입니다:

프리비즈/프리뷰: PromptVFX 계열 (초 단위, 텍스트 기반)
중간 품질 프로덕션: Diffusion 기반 VFX (분 단위, AI 생성)
최종 프로덕션: 물리 시뮬레이션 + 아티스트 수작업 (시간~일 단위, 정밀 제어)

LLM이 코드를 쓰고, Gaussian이 움직이고, VLM이 검증하는 -- 이 새로운 삼각 편대가 실시간 3D VFX의 미래를 열고 있습니다.

이 글은 personal knowledge system 볼트의 연구 노트를 기반으로 작성되었습니다.

Sources: