분류 전체보기(44)
-
[논문 리뷰] InstructPix2Pix: Learning to Follow Image Editing Instructions
CVPR2023 ip2p만약 editing 한다면 그대로 사용하는 경우도 많으니 한 번 읽어보는 것도 좋을 듯 하다. Abstract GPT-3, Stable Diffusion을 이용하여 대규모 이미지 편집 예제 데이터셋을 생성.이 생성된 예제 데이터로 InstructPix2Pix 학습하며 실제 이미지와 사람이 쓴 지시문에도 적용 가능하다.노벨티: 별도의 fine-tuning이나 inversion 없이 forward pass로 editing 수행 가능(몇 초 내에) 1. Introduction사람이 작성한 지시문을 따라 이미지 편집을 수행하도록 생성 모델을 학습시키는 방법을 제안대규모 학습 데이터를 확보하는 것이 어렵기 때문에 GPT-3와 Stable Diffusion 사용해서 학습 데이터를 생성한..
2025.07.18 -
[논문리뷰] EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting
CVPR 2025에 발표된 내용이네. 한국인이라서 눈에 띄었고 개인적으로 Diffusion + 3DGS + 3D Editing에 관심이 생겨서 나름 안질리고 읽음. 근데 Diffusion에 대한 기본 지식 없음 이슈 + 걍 뭐지,,? 싶었음. 근데 막상 읽으면 또 괜춘하드라.(한 10번 읽으면..?ㅎ) +) 고마운 점은 이거 읽고 발표자료 만들었는데 바로 다음날 KCCV 발표 있는거 확인. 갈 이유가 생겼음 후후. 헤헤 뭐 사담은 요정도 만약 간다면 간 썰 풀겠음 근데 전 석사따리라서 못갈 가능성 다수 저자가 한국인이라서 일단 저자 정보부터. 최근에 (2025 CVPR) 나왔는데 인용 1회인거 실화?그동안 했던 논문 보니 3D, 딥러닝(생성모델) 쪽 하는 분인듯.근데 이분 연구실에서 C..
2025.07.10 -
[논문 리뷰] VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
Creative and Descriptive Paper Title.Paper description.junlinhan.github.io https://junlinhan.github.io/projects/vfusion3d.html 2024 ECCV아 멀티모달쪽은 처음 작정하고 건드려보는데 좀 어렵ㄴㅔ.........ㅠㅠㅠ 진짜 복잡함 하나도 어려븐데 여러개를 맏막막 합치노넘 어려브니깐 나름 간단간단하게 정리해볼게여.... 복잡하게 안가기게 내 목표1. Abstractsota달성했고, 단일 이미지로 수 초만에 3d 생성 가능하다. 2. Introduction 이미지랑 다르게 3d data는 다루기 어렵다.데이터가 있어도 퀄리티적으로 사용이 어려울 가능성이 많다. 잠깐 여기서 EMU, LRM이 뭔지 ..
2025.07.04 -
[논문리뷰] Gaussian Grouping: Segment and Edit Anything in 3D Scenes
ECCV 2024 1. Abstract & Introduction기존 문제점 :1. 객체 단위 인식 불가semantic / instance-level 분할 기능이 결여2. 3D 라벨 데이터 부족3D 장면에서 객체 단위 학습을 위해서는 GT 라벨링 데이터가 필요→ 수집과 라벨링에 시간·비용적 요구, 일반화 어려움3. NeRF 기반 편집의 한계 (Implicit)NeRF는 MLP 기반, 부분 편집을 위해 전체 네트워크 수정이 필요, 객체 단위 조작이나 분할이 어려움 가우시안을 사용하면 해결책:1. 객체 단위 인식 가능각 3D Gaussian에 Identity Encoding을 부여하여→ 같은 객체에 속한 Gaussian끼리 그룹핑 가능2. 3D 라벨 없이 학습SAM(Segment Anything Model..
2025.07.02 -
[논문리뷰] VGGT: Visual Geometry Grounded Transformer
DUSt3R이후 또 이상한 괴물같은게 나옴(Positive) CVPR best 논문이라든데 말이 안됨.(+dust3r뜰 줄 알았다.) dust3r : https://hyeone.tistory.com/41?category=686023 초록(Abstract)VGGT, a feed-forward neural network이다.g camera parameters, point maps, depth maps, and 3D point tracks 이미지를 1초 이내에 reconstructing. => DUSt3R은 2장끼리는 feed-forward neural network 이후 여러장 할 때는 후처리 필요. 1. Introduction 전통적으로 3D 재구성은 번들 조정(Bundle Adjustment, BA)..
2025.07.01 -
[논문리뷰] 1. MV-DUSt3R+: Single-Stage Scene Reconstructionfrom Sparse Views In 2 Seconds
1️⃣ 기존 문제 (DUSt3R & MASt3R의 한계)✅ 카메라 캘리브레이션이나 포즈 추정 없이 재구성하는 방식은 이미 DUSt3R, MASt3R에서 했음.✅ 그런데 한 번에 딱 두 개의 뷰(pair)만 처리하는 구조라, 뷰가 많아지면 문제가 심각해짐.뷰가 많아질수록 쌍(pair) 조합 수가 기하급수적으로 증가.뷰 쌍끼리 정렬할 때 생긴 오류들이 누적됨.그래서 나중에 Global Optimization (GO)라는 비싼 정합 과정이 필요.근데 이 GO가 에러를 완벽하게 잡아내지 못함.(뷰 쌍끼리 붙이는 거라, 전체적으로 일관된 정렬 유지가 어려움)2️⃣ 이 논문에서 제안하는 해결책✅ MV-DUSt3R:한 번에 여러 뷰를 동시에 처리할 수 있는 Single-Stage Feed-Forward 네트워크.핵심..
2025.03.04