Blog

GSwap: 동적 뉴럴 가우시안 필드로 리얼리스틱 헤드 스와핑을 구현하다

USTC + CityU HK 공동 연구. SMPL-X 표면에 3D Gaussian feature를 임베딩하여 비디오 헤드 스와핑의 3D 일관성·시간 연속성·아이덴티티 보존을 동시에 달성. RTX 4090 단일 GPU. TVCG 채택.

gaussian-splattinghead-swappingface-generationSMPL-X

daVinci-MagiHuman: Single-Stream Audio-Video Generative Foundation Model

단일 스트림 Transformer로 오디오와 비디오를 동시에 생성하는 15B 파라미터 오픈소스 파운데이션 모델 daVinci-MagiHuman을 분석한다. Apache-2.0 라이선스로 6개 언어 음성 생성과 1080p 비디오를 지원하며, 기존 상용 모델 대비 80% 승률을 기록했다.

AI_R&D_Papertech/T2Vtech/attentiontech/video-editing

DVD: Deterministic Video Depth Estimation with Generative Priors

사전학습된 비디오 디퓨전 모델을 결정론적 깊이 추정기로 변환하는 DVD 프레임워크를 분석한다. 기존 SOTA 대비 163배 적은 데이터로 zero-shot 비디오 깊이 추정 최고 성능을 달성하며, Latent Manifold Rectification으로 기하학적 hallucination 문제를 근본적으로 해결했다.

AI_R&D_Papertech/depth-estimationtech/T2V

ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Stability AI의 ReLi3D는 소수의 멀티뷰 이미지로부터 1초 미만에 geometry, PBR material, HDR 조명을 동시에 추론하는 relightable 3D 재구성 모델이다. ICLR 2026 채택, MIT 라이선스로 VFX 및 게임 파이프라인에 즉시 통합 가능하다.

AI_R&D_Papertech/gaussian-splattingtech/3d-generation

VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding

비디오 디퓨전 모델의 암묵적 3D 프라이어를 활용해 명시적 3D 감독 없이 장면 이해를 수행하는 VEGA-3D 프레임워크를 분석한다. Latent World Simulator 접근법으로 MLLM의 공간 추론 능력을 획기적으로 향상시키며, Apache-2.0 라이선스로 코드와 모델이 모두 공개되었다.

AI_R&D_Papertech/3d-generationtech/attention

AI 더빙 & 립싱크 다국어 기술 — 2026년 3월 시장 현황과 기술 수렴

2026년 AI 더빙/립싱크 시장이 130+ 언어 지원, 밀리초 단위 포네임-비짐 정렬, 오클루전 핸들링을 표준 기능으로 확립. FunCineForge 오픈소스 + Perso AI 상용 기술의 조합이 TaylorDub 파이프라인의 벤치마크 기준점을 제공.

CausVid: Streaming Autoregressive Video Generation via Diagonal Distillation

CausVid는 Diagonal Forcing 기법으로 bidirectional DiT를 causal autoregressive 모델로 distill하여, 실시간 스트리밍 비디오 생성과 장시간 시퀀스 안정성을 동시에 달성한 ICLR 2026 논문 분석.

AI_R&D_Papertech/T2Vtech/attention

DCARL: A Divide-and-Conquer Framework for Autoregressive Long-Trajectory Video Generation

키프레임+보간 분할정복 방식으로 32초 장궤적 비디오를 안정적으로 생성. our video generation project에서 긴 영상 생성 시 visual drift 문제 해결에 직접 참조 가능.

Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation

시선 추적 기반 비균일 토큰 할당으로 디퓨전 생성 효율을 획기적으로 개선. our video generation project의 인터랙티브 비디오 생성이나 our rendering research project의 실시간 렌더링 목표에 효율화 전략으로 참조.

Gaussian Splatting 산업 표준화 — glTF 확장, OpenUSD 26.03, Nuke 17.0 공식 지원

Khronos glTF + OpenUSD 26.03의 Gaussian Splatting 표준화는 our rendering research project의 3DGS 기반 실시간 렌더링 파이프라인에 산업 표준 호환성을 부여. Nuke 17.0 공식 지원으로 VFX 프로덕션 워크플로 직접 통합 경로 확보.

LLM 기반 Houdini 에이전틱 프로시저럴 3D 생성 — MCP 통합과 에이전트 아키텍처의 수렴

Houdini-MCP 통합과 SAGE/SceneAssistant의 에이전틱 3D 생성 패러다임은 our 3D automation project의 LLM→Houdini 코드 생성 파이프라인 설계에 직접적 아키텍처 참조. EPC 2026의 ML-in-Houdini 마스터클래스가 ONNX 기반 프로덕션 배포 경로를 제시.

MegaFlow: Zero-Shot Large Displacement Optical Flow

Zero-shot 대변위 optical flow. our rendering research project VFX 모션벡터 추출, our video generation project 프레임간 대응점 매칭에 활용 가능. 범용 적용성이 핵심 강점.

ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

Causal multi-shot 스트리밍 아키텍처가 our video generation project ReactFlow 노드 기반 인터랙티브 영상 편집에 직접 참조. next-shot generation 패러다임이 멀티 클립 시퀀싱의 핵심 레퍼런스.

Spectrum: Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration

Spectrum은 Chebyshev 다항식 기반 feature forecasting으로 DiT 모델의 추론을 최대 4.79배 가속하는 training-free 가속기로, FLUX.1과 Wan2.1-14B에서 SOTA 성능을 달성한 CVPR 2026 논문 분석.

AI_R&D_Papertech/T2Itech/T2Vtech/attention

Wan2.2 — MoE 기반 오픈소스 비디오 생성 모델의 SOTA 달성

Wan2.2의 MoE 아키텍처 도입과 Apache 2.0 오픈소스 공개는 our video generation project 멀티모델 라우팅의 핵심 오픈소스 백엔드 후보. 27B 파라미터 중 14B만 활성화하는 효율성은 RTX 4090급 컨슈머 하드웨어에서의 배포를 현실화.

2026년 AI 모델 면접 완전정복 — Transformer부터 RAG까지 7대 핵심 개념

Tutorial

AI/ML 면접에서 반드시 나오는 7가지 핵심 개념을 '왜 → 무엇을 → 어떻게 → 어디에' 구조로 정리합니다. 2026년 3월 기준 최신 발전 사항을 반영했습니다.

ai-interviewtransformerdiffusionMoELoRA+3

Diffusion을 넘어서: Flow Matching이 바꾸는 비디오 생성의 미래

고비용 ODE 시뮬레이션 없이 직선 궤적으로 고품질 생성을 달성하는 Flow Matching, 그리고 이를 비디오 편집에 통합한 OmniV2V. 이론에서 응용까지의 연결을 분석합니다.

diffusionflow-matchingvideo-generationpaper-reviewOmniV2V

4K 실시간 렌더링의 돌파구 — LGTM: 기하-텍스처 분리로 Gaussian Splatting의 해상도 한계를 넘다

Feed-Forward 3D Gaussian Splatting의 해상도 스케일링 한계를 돌파한 LGTM. 컴팩트 기하 프리미티브 + per-primitive 텍스처 분리로 4K에서도 프리미티브 수가 일정한 혁신적 접근을 분석합니다.

gaussian-splatting3d-renderingreal-timepaper-review4K

LLM이 Blender 코드를 쓴다 — LL3M: 멀티에이전트 3D 모델링의 패러다임 전환

3D 데이터 학습 없이 LLM 에이전트 팀이 Blender Python 코드를 작성하여 3D 에셋을 생성하는 LL3M. 코드 기반 3D 생성이라는 새로운 패러다임을 분석합니다.

3d-generationllmmulti-agentblenderpaper-review

효율 vs 성능, 2026년 Omni 모델의 두 갈래 — Ming-Omni와 Qwen3-Omni 비교 분석

2.8B 경량 통합 생성 모델 Ming-Omni와 30B 초저지연 대화 모델 Qwen3-Omni. 같은 'Omni'를 지향하지만 완전히 다른 두 접근을 비교 분석합니다.

multimodalomni-modelMoEpaper-reviewai-trends

PromptVFX: 텍스트 한 줄로 3D 씬에 VFX를 입히는 시대 -- LLM이 Gaussian을 직접 조작한다

물리 시뮬레이션도, Diffusion 반복도 없이 텍스트 프롬프트만으로 3D Gaussian Splatting 씬에 실시간 VFX를 적용하는 PromptVFX. LLM이 파라메트릭 함수를 생성하고, VLM이 품질을 검증하는 새로운 패러다임을 분석합니다.

gaussian-splattingVFXLLM3d-animationpaper-review+1

ShotStream: 실시간 스트리밍으로 멀티샷 비디오를 생성하다 -- 인터랙티브 스토리텔링의 새 장을 열다

기존 양방향 멀티샷 비디오 생성의 고지연과 비인터랙티브 한계를 돌파하는 ShotStream. Distribution Matching Distillation과 듀얼 캐시 메모리로 단일 GPU에서 16 FPS, sub-second latency를 달성한 인과적 스트리밍 아키텍처를 분석합니다.

video-generationmulti-shotstreamingdiffusiondistillation+1

AI Video/VFX R&D에서 발견한 5가지 기술 수렴 패턴 — 2026년 13주차 분석

Analysis

66건의 기술 리서치 노트에서 발견한 5가지 교차 수렴 패턴. 3D 프록시 기반 제너레이티브 렌더링, 멀티모달 네이티브 생성, 에이전틱 3D 자동화, 스펙트럴 분해, LLM 코드 생성 기반 3D 제어가 하나의 파이프라인으로 수렴하고 있다.

AIVFXvideo-generationgaussian-splatting3D+4

2026-03-27

한줄 요약

NVIDIA AutoGaze는 비디오의 중복 패치를 자동 제거하여 시각 토큰을 최대 100배 압축하고, 3M 파라미터 경량 모듈로 1K프레임 4K 비디오 처리와 MLLM 19배 가속을 달성한다.

AI_Daily_Trend

2026-03-27

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

HiAR는 계층적 노이즈 매칭으로 오토리그레시브 비디오 생성의 temporal drift를 구조적으로 해결하여, 20초 영상에서 VBench 최고 점수(0.821)와 1.8배 추론 속도 향상을 달성한 논문 분석.

Anthropic의 Model Context Protocol(MCP)이 월 9,700만 다운로드를 돌파하며 AI 에이전트 도구 연결의 사실상 표준으로 자리잡은 현황과 생태계 분석.

AI_Daily_Trend

2026-03-27

260327 수렴 분석: 관심사 전체 지형도와 교차점

62건의 기술 노트와 11개 프로젝트를 스캔하여 Diffusion 범용 백본, Generator-Critic 루프 등 5가지 기술 수렴 패턴과 관심사 간 교차점을 도출한 R&D 전략 분석.

convergence_analysisAI_R&D_Paper

2026-03-24

personal knowledge system Lab 시작

AI/VFX 기술 리서치와 프로젝트 기록을 위한 블로그를 시작합니다.

project

2026-02-08

Ming-Omni - 지각과 생성을 통합한 경량 멀티모달 SOTA 모델 분석

Ming-Omni는 2.8B 활성 파라미터만으로 텍스트, 이미지, 오디오, 비디오의 지각과 생성을 동시에 수행하는 최초의 오픈소스 멀티모달 모델이다. 모달리티별 전용 라우터 MoE 설계로 7B급 성능을 달성하며, 이미지 생성에서 SDXL을 상회하는 FID 4.85를 기록했다.

Work

2026-02-01

Qwen3-Omni 분석 - 전방위 멀티모달 모델의 SOTA 달성 및 실시간 상호작용 설계

Qwen3-Omni의 Thinker-Talker MoE 구조와 234ms 초저지연 실시간 음성 상호작용 설계를 심층 분석한다. 30B 규모로 텍스트, 이미지, 오디오, 비디오 전 모달리티에서 SOTA를 달성하며, 프로덕션급 멀티모달 모델의 새로운 기준을 제시한다.

Work

2026-01-26

생성 모델의 수학적 기초(Flow Matching) 및 비디오 생성/편집 응용(OmniV2V) 분석

생성 모델의 훈련 효율을 혁신한 Flow Matching과 비디오 생성/편집을 통합한 OmniV2V 프레임워크를 수학적 기초부터 실험 결과까지 심층 분석한 주간 리서치 노트.

Transformer, VAE, Diffusion 등 AI 핵심 모델의 원리와 2026년 최신 발전 사항을 면접 대비용으로 체계적으로 정리한 지식 노트.

AI 기술 면접 대비를 위한 핵심 모델 지식 정리. Transformer의 Self-Attention 메커니즘부터 VAE의 잠재공간 학습, 손실 함수 설계까지 주요 AI 아키텍처의 구조와 원리를 체계적으로 설명한다.