[논문 리뷰] VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

2025. 7. 4. 15:59컴퓨터비전&AI

반응형
SMALL
아 멀티모달쪽은 처음 작정하고 건드려보는데 좀 어렵ㄴㅔ.........ㅠㅠㅠ 진짜 복잡함 하나도 어려븐데 여러개를 맏막막 합치노

넘 어려브니깐 나름 간단간단하게 정리해볼게여.... 복잡하게 안가기게 내 목표

1. Abstract
sota달성했고, 단일 이미지로 수 초만에 3d 생성 가능하다.  
 

2. Introduction

 

이미지랑 다르게 3d data는 다루기 어렵다.

데이터가 있어도 퀄리티적으로 사용이 어려울 가능성이 많다.

 

 

 


잠깐 여기서 EMU, LRM이 뭔지 알아보자

Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning

깃허브 자체가 없는 듯. Meta자체 demo 사이트는 있음.
 

TEXT->비디오

LRM: LARGE RECONSTRUCTION MODEL FOR SINGLE IMAGE TO 3D

[2311.04400] LRM: Large Reconstruction Model for Single Image to 3D ICLR2023

싱글 이미지 → 3D 표현/NeRF기반

 

 

1.Single Input Image(512×512 RGB 이미지)
2.Image Encoder (ViT - DINO): 패치 단위로 인코딩

3. Image-to-Triplane Decoder (Transformer Decoder): Cross-AttentionSelf-Attention으로 이미지 feature와 카메라 feature를 결합하고, 2D image feature3D triplane representation으로 변환

4. DeConv & Reshape: 해상도를 (3×64×64)업샘플링, 차원을 80으로 줄여 최종 triplane feature map 생성.

5. Triplane Representation: 3개의 평면(XY, YZ, XZ)으로 된 표현.

6. Point Query + MLP: 3D 공간의 샘플링 포인트를 각 평면에 투영해 featurebilinear interpolation으로 추출. RGB 색상과 density를 예측.

7. Volumetric Rendering: ground truth와 비교하며 학습(MSE, LPIPS)

 

 


3. Related Work

Text/Image-to-3D through Distillation or Reconstruction

텍스트 만으로 3D만들려면 데이터 부족.

2D 디퓨전 모델 + 3D 데이터 결합

이 논문도 비디오 디퓨전 모델로부터 3D Knowledge distillation함.

but, score  distillation sampling 아님. ->  explict한 방식 사용.

 

Feed-Forward 3D Generative Models.

LRM기반으로 제작했다.

 

 

데이터셋 

EMU Video의 사전 학습 데이터: EMU, VFusion3D 둘 다 META, GEN AI. 공개 X, 깃허브 일부만 공개(내 서칭결과)

문장 분류·필터링: Llama2-13B

3D 멀티뷰 이미지 캡션 생성:Cap3D

Cap3D 보완, 재검토 : Llama2-70B

 

=> 결론은  EMULRM을 어떻게 잘 사용했는지가  포인트인 거 같음.

 

 

 

 

아 생각보다 시각화 결과보다 표가 많네

반응형
LIST