Blog
AI, VFX, Creative Technology 분야의 기술 리서치와 프로젝트 기록.
34 posts
Stanford + Zillow 공동 연구. 3DGS 렌더링의 floater·flickering·blur를 geometry-informed V2V 모델로 제거하여 NVS SOTA 달성. 실시간 변형 15 FPS. CVPR 2026 메인.
USTC + CityU HK 공동 연구. SMPL-X 표면에 3D Gaussian feature를 임베딩하여 비디오 헤드 스와핑의 3D 일관성·시간 연속성·아이덴티티 보존을 동시에 달성. RTX 4090 단일 GPU. TVCG 채택.
단일 스트림 Transformer로 오디오와 비디오를 동시에 생성하는 15B 파라미터 오픈소스 파운데이션 모델 daVinci-MagiHuman을 분석한다. Apache-2.0 라이선스로 6개 언어 음성 생성과 1080p 비디오를 지원하며, 기존 상용 모델 대비 80% 승률을 기록했다.
사전학습된 비디오 디퓨전 모델을 결정론적 깊이 추정기로 변환하는 DVD 프레임워크를 분석한다. 기존 SOTA 대비 163배 적은 데이터로 zero-shot 비디오 깊이 추정 최고 성능을 달성하며, Latent Manifold Rectification으로 기하학적 hallucination 문제를 근본적으로 해결했다.
Stability AI의 ReLi3D는 소수의 멀티뷰 이미지로부터 1초 미만에 geometry, PBR material, HDR 조명을 동시에 추론하는 relightable 3D 재구성 모델이다. ICLR 2026 채택, MIT 라이선스로 VFX 및 게임 파이프라인에 즉시 통합 가능하다.
비디오 디퓨전 모델의 암묵적 3D 프라이어를 활용해 명시적 3D 감독 없이 장면 이해를 수행하는 VEGA-3D 프레임워크를 분석한다. Latent World Simulator 접근법으로 MLLM의 공간 추론 능력을 획기적으로 향상시키며, Apache-2.0 라이선스로 코드와 모델이 모두 공개되었다.
2026년 AI 더빙/립싱크 시장이 130+ 언어 지원, 밀리초 단위 포네임-비짐 정렬, 오클루전 핸들링을 표준 기능으로 확립. FunCineForge 오픈소스 + Perso AI 상용 기술의 조합이 TaylorDub 파이프라인의 벤치마크 기준점을 제공.
CausVid는 Diagonal Forcing 기법으로 bidirectional DiT를 causal autoregressive 모델로 distill하여, 실시간 스트리밍 비디오 생성과 장시간 시퀀스 안정성을 동시에 달성한 ICLR 2026 논문 분석.
키프레임+보간 분할정복 방식으로 32초 장궤적 비디오를 안정적으로 생성. our video generation project에서 긴 영상 생성 시 visual drift 문제 해결에 직접 참조 가능.
시선 추적 기반 비균일 토큰 할당으로 디퓨전 생성 효율을 획기적으로 개선. our video generation project의 인터랙티브 비디오 생성이나 our rendering research project의 실시간 렌더링 목표에 효율화 전략으로 참조.
Khronos glTF + OpenUSD 26.03의 Gaussian Splatting 표준화는 our rendering research project의 3DGS 기반 실시간 렌더링 파이프라인에 산업 표준 호환성을 부여. Nuke 17.0 공식 지원으로 VFX 프로덕션 워크플로 직접 통합 경로 확보.
Houdini-MCP 통합과 SAGE/SceneAssistant의 에이전틱 3D 생성 패러다임은 our 3D automation project의 LLM→Houdini 코드 생성 파이프라인 설계에 직접적 아키텍처 참조. EPC 2026의 ML-in-Houdini 마스터클래스가 ONNX 기반 프로덕션 배포 경로를 제시.
Zero-shot 대변위 optical flow. our rendering research project VFX 모션벡터 추출, our video generation project 프레임간 대응점 매칭에 활용 가능. 범용 적용성이 핵심 강점.
Causal multi-shot 스트리밍 아키텍처가 our video generation project ReactFlow 노드 기반 인터랙티브 영상 편집에 직접 참조. next-shot generation 패러다임이 멀티 클립 시퀀싱의 핵심 레퍼런스.
Spectrum은 Chebyshev 다항식 기반 feature forecasting으로 DiT 모델의 추론을 최대 4.79배 가속하는 training-free 가속기로, FLUX.1과 Wan2.1-14B에서 SOTA 성능을 달성한 CVPR 2026 논문 분석.
Wan2.2의 MoE 아키텍처 도입과 Apache 2.0 오픈소스 공개는 our video generation project 멀티모델 라우팅의 핵심 오픈소스 백엔드 후보. 27B 파라미터 중 14B만 활성화하는 효율성은 RTX 4090급 컨슈머 하드웨어에서의 배포를 현실화.
AI/ML 면접에서 반드시 나오는 7가지 핵심 개념을 '왜 → 무엇을 → 어떻게 → 어디에' 구조로 정리합니다. 2026년 3월 기준 최신 발전 사항을 반영했습니다.
고비용 ODE 시뮬레이션 없이 직선 궤적으로 고품질 생성을 달성하는 Flow Matching, 그리고 이를 비디오 편집에 통합한 OmniV2V. 이론에서 응용까지의 연결을 분석합니다.
Feed-Forward 3D Gaussian Splatting의 해상도 스케일링 한계를 돌파한 LGTM. 컴팩트 기하 프리미티브 + per-primitive 텍스처 분리로 4K에서도 프리미티브 수가 일정한 혁신적 접근을 분석합니다.
3D 데이터 학습 없이 LLM 에이전트 팀이 Blender Python 코드를 작성하여 3D 에셋을 생성하는 LL3M. 코드 기반 3D 생성이라는 새로운 패러다임을 분석합니다.
2.8B 경량 통합 생성 모델 Ming-Omni와 30B 초저지연 대화 모델 Qwen3-Omni. 같은 'Omni'를 지향하지만 완전히 다른 두 접근을 비교 분석합니다.
물리 시뮬레이션도, Diffusion 반복도 없이 텍스트 프롬프트만으로 3D Gaussian Splatting 씬에 실시간 VFX를 적용하는 PromptVFX. LLM이 파라메트릭 함수를 생성하고, VLM이 품질을 검증하는 새로운 패러다임을 분석합니다.
기존 양방향 멀티샷 비디오 생성의 고지연과 비인터랙티브 한계를 돌파하는 ShotStream. Distribution Matching Distillation과 듀얼 캐시 메모리로 단일 GPU에서 16 FPS, sub-second latency를 달성한 인과적 스트리밍 아키텍처를 분석합니다.
66건의 기술 리서치 노트에서 발견한 5가지 교차 수렴 패턴. 3D 프록시 기반 제너레이티브 렌더링, 멀티모달 네이티브 생성, 에이전틱 3D 자동화, 스펙트럴 분해, LLM 코드 생성 기반 3D 제어가 하나의 파이프라인으로 수렴하고 있다.
NVIDIA AutoGaze는 비디오의 중복 패치를 자동 제거하여 시각 토큰을 최대 100배 압축하고, 3M 파라미터 경량 모듈로 1K프레임 4K 비디오 처리와 MLLM 19배 가속을 달성한다.
HiAR는 계층적 노이즈 매칭으로 오토리그레시브 비디오 생성의 temporal drift를 구조적으로 해결하여, 20초 영상에서 VBench 최고 점수(0.821)와 1.8배 추론 속도 향상을 달성한 논문 분석.
Anthropic의 Model Context Protocol(MCP)이 월 9,700만 다운로드를 돌파하며 AI 에이전트 도구 연결의 사실상 표준으로 자리잡은 현황과 생태계 분석.
62건의 기술 노트와 11개 프로젝트를 스캔하여 Diffusion 범용 백본, Generator-Critic 루프 등 5가지 기술 수렴 패턴과 관심사 간 교차점을 도출한 R&D 전략 분석.
AI/VFX 기술 리서치와 프로젝트 기록을 위한 블로그를 시작합니다.
Ming-Omni는 2.8B 활성 파라미터만으로 텍스트, 이미지, 오디오, 비디오의 지각과 생성을 동시에 수행하는 최초의 오픈소스 멀티모달 모델이다. 모달리티별 전용 라우터 MoE 설계로 7B급 성능을 달성하며, 이미지 생성에서 SDXL을 상회하는 FID 4.85를 기록했다.
Qwen3-Omni의 Thinker-Talker MoE 구조와 234ms 초저지연 실시간 음성 상호작용 설계를 심층 분석한다. 30B 규모로 텍스트, 이미지, 오디오, 비디오 전 모달리티에서 SOTA를 달성하며, 프로덕션급 멀티모달 모델의 새로운 기준을 제시한다.
생성 모델의 훈련 효율을 혁신한 Flow Matching과 비디오 생성/편집을 통합한 OmniV2V 프레임워크를 수학적 기초부터 실험 결과까지 심층 분석한 주간 리서치 노트.
Transformer, VAE, Diffusion 등 AI 핵심 모델의 원리와 2026년 최신 발전 사항을 면접 대비용으로 체계적으로 정리한 지식 노트.
AI 기술 면접 대비를 위한 핵심 모델 지식 정리. Transformer의 Self-Attention 메커니즘부터 VAE의 잠재공간 학습, 손실 함수 설계까지 주요 AI 아키텍처의 구조와 원리를 체계적으로 설명한다.