PRO(4)
-
[논문 리뷰] InstructPix2Pix: Learning to Follow Image Editing Instructions
CVPR2023 ip2p만약 editing 한다면 그대로 사용하는 경우도 많으니 한 번 읽어보는 것도 좋을 듯 하다. Abstract GPT-3, Stable Diffusion을 이용하여 대규모 이미지 편집 예제 데이터셋을 생성.이 생성된 예제 데이터로 InstructPix2Pix 학습하며 실제 이미지와 사람이 쓴 지시문에도 적용 가능하다.노벨티: 별도의 fine-tuning이나 inversion 없이 forward pass로 editing 수행 가능(몇 초 내에) 1. Introduction사람이 작성한 지시문을 따라 이미지 편집을 수행하도록 생성 모델을 학습시키는 방법을 제안대규모 학습 데이터를 확보하는 것이 어렵기 때문에 GPT-3와 Stable Diffusion 사용해서 학습 데이터를 생성한..
2025.07.18 -
[논문리뷰] EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting
CVPR 2025에 발표된 내용이네. 한국인이라서 눈에 띄었고 개인적으로 Diffusion + 3DGS + 3D Editing에 관심이 생겨서 나름 안질리고 읽음. 근데 Diffusion에 대한 기본 지식 없음 이슈 + 걍 뭐지,,? 싶었음. 근데 막상 읽으면 또 괜춘하드라.(한 10번 읽으면..?ㅎ) +) 고마운 점은 이거 읽고 발표자료 만들었는데 바로 다음날 KCCV 발표 있는거 확인. 갈 이유가 생겼음 후후. 헤헤 뭐 사담은 요정도 만약 간다면 간 썰 풀겠음 근데 전 석사따리라서 못갈 가능성 다수 저자가 한국인이라서 일단 저자 정보부터. 최근에 (2025 CVPR) 나왔는데 인용 1회인거 실화?그동안 했던 논문 보니 3D, 딥러닝(생성모델) 쪽 하는 분인듯.근데 이분 연구실에서 C..
2025.07.10 -
[논문리뷰] Gaussian Grouping: Segment and Edit Anything in 3D Scenes
ECCV 2024 1. Abstract & Introduction기존 문제점 :1. 객체 단위 인식 불가semantic / instance-level 분할 기능이 결여2. 3D 라벨 데이터 부족3D 장면에서 객체 단위 학습을 위해서는 GT 라벨링 데이터가 필요→ 수집과 라벨링에 시간·비용적 요구, 일반화 어려움3. NeRF 기반 편집의 한계 (Implicit)NeRF는 MLP 기반, 부분 편집을 위해 전체 네트워크 수정이 필요, 객체 단위 조작이나 분할이 어려움 가우시안을 사용하면 해결책:1. 객체 단위 인식 가능각 3D Gaussian에 Identity Encoding을 부여하여→ 같은 객체에 속한 Gaussian끼리 그룹핑 가능2. 3D 라벨 없이 학습SAM(Segment Anything Model..
2025.07.02 -
[논문리뷰] VGGT: Visual Geometry Grounded Transformer
DUSt3R이후 또 이상한 괴물같은게 나옴(Positive) CVPR best 논문이라든데 말이 안됨.(+dust3r뜰 줄 알았다.) dust3r : https://hyeone.tistory.com/41?category=686023 초록(Abstract)VGGT, a feed-forward neural network이다.g camera parameters, point maps, depth maps, and 3D point tracks 이미지를 1초 이내에 reconstructing. => DUSt3R은 2장끼리는 feed-forward neural network 이후 여러장 할 때는 후처리 필요. 1. Introduction 전통적으로 3D 재구성은 번들 조정(Bundle Adjustment, BA)..
2025.07.01