2025. 7. 4. 15:59ㆍ컴퓨터비전&AI
Creative and Descriptive Paper Title.
Paper description.
junlinhan.github.io
https://junlinhan.github.io/projects/vfusion3d.html 2024 ECCV
넘 어려브니깐 나름 간단간단하게 정리해볼게여.... 복잡하게 안가기게 내 목표
2. Introduction
이미지랑 다르게 3d data는 다루기 어렵다.
데이터가 있어도 퀄리티적으로 사용이 어려울 가능성이 많다.
잠깐 여기서 EMU, LRM이 뭔지 알아보자
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning
LRM: LARGE RECONSTRUCTION MODEL FOR SINGLE IMAGE TO 3D
[2311.04400] LRM: Large Reconstruction Model for Single Image to 3D ICLR2023
싱글 이미지 → 3D 표현/NeRF기반
3. Image-to-Triplane Decoder (Transformer Decoder): Cross-Attention과 Self-Attention으로 이미지 feature와 카메라 feature를 결합하고, 2D image feature를 3D triplane representation으로 변환
4. DeConv & Reshape: 해상도를 (3×64×64)로 업샘플링, 차원을 80으로 줄여 최종 triplane feature map 생성.
5. Triplane Representation: 3개의 평면(XY, YZ, XZ)으로 된 표현.
6. Point Query + MLP: 3D 공간의 샘플링 포인트를 각 평면에 투영해 feature를 bilinear interpolation으로 추출. RGB 색상과 density를 예측.
7. Volumetric Rendering: ground truth와 비교하며 학습(MSE, LPIPS)
3. Related Work
Text/Image-to-3D through Distillation or Reconstruction
텍스트 만으로 3D만들려면 데이터 부족.
2D 디퓨전 모델 + 3D 데이터 결합
이 논문도 비디오 디퓨전 모델로부터 3D Knowledge distillation함.
but, score distillation sampling 아님. -> explict한 방식 사용.
Feed-Forward 3D Generative Models.
LRM기반으로 제작했다.
데이터셋
EMU Video의 사전 학습 데이터: EMU, VFusion3D 둘 다 META, GEN AI. 공개 X, 깃허브 일부만 공개(내 서칭결과)
문장 분류·필터링: Llama2-13B
3D 멀티뷰 이미지 캡션 생성:Cap3D
Cap3D 보완, 재검토 : Llama2-70B
=> 결론은 EMU랑 LRM을 어떻게 잘 사용했는지가 포인트인 거 같음.
아 생각보다 시각화 결과보다 표가 많네
'컴퓨터비전&AI' 카테고리의 다른 글
[논문리뷰] 1. MV-DUSt3R+: Single-Stage Scene Reconstructionfrom Sparse Views In 2 Seconds (0) | 2025.03.04 |
---|---|
[논문정리] 3. DUSt3R: Geometric 3D Vision Made Easy (0) | 2025.02.27 |
[논문정리] 1. DUSt3R: Geometric 3D Vision Made Easy (0) | 2025.02.23 |
논문 읽는 법 with 챗GPT (0) | 2025.02.12 |
[논문리뷰였던것] Deep learning-guided video compression for machine vision tasks 였지만 VVC 이론. (0) | 2025.02.12 |