컴퓨터비전&AI(17)
-
[논문 리뷰] VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
Creative and Descriptive Paper Title.Paper description.junlinhan.github.io https://junlinhan.github.io/projects/vfusion3d.html 2024 ECCV아 멀티모달쪽은 처음 작정하고 건드려보는데 좀 어렵ㄴㅔ.........ㅠㅠㅠ 진짜 복잡함 하나도 어려븐데 여러개를 맏막막 합치노넘 어려브니깐 나름 간단간단하게 정리해볼게여.... 복잡하게 안가기게 내 목표1. Abstractsota달성했고, 단일 이미지로 수 초만에 3d 생성 가능하다. 2. Introduction 이미지랑 다르게 3d data는 다루기 어렵다.데이터가 있어도 퀄리티적으로 사용이 어려울 가능성이 많다. 잠깐 여기서 EMU, LRM이 뭔지 ..
2025.07.04 -
[논문리뷰] 1. MV-DUSt3R+: Single-Stage Scene Reconstructionfrom Sparse Views In 2 Seconds
1️⃣ 기존 문제 (DUSt3R & MASt3R의 한계)✅ 카메라 캘리브레이션이나 포즈 추정 없이 재구성하는 방식은 이미 DUSt3R, MASt3R에서 했음.✅ 그런데 한 번에 딱 두 개의 뷰(pair)만 처리하는 구조라, 뷰가 많아지면 문제가 심각해짐.뷰가 많아질수록 쌍(pair) 조합 수가 기하급수적으로 증가.뷰 쌍끼리 정렬할 때 생긴 오류들이 누적됨.그래서 나중에 Global Optimization (GO)라는 비싼 정합 과정이 필요.근데 이 GO가 에러를 완벽하게 잡아내지 못함.(뷰 쌍끼리 붙이는 거라, 전체적으로 일관된 정렬 유지가 어려움)2️⃣ 이 논문에서 제안하는 해결책✅ MV-DUSt3R:한 번에 여러 뷰를 동시에 처리할 수 있는 Single-Stage Feed-Forward 네트워크.핵심..
2025.03.04 -
[논문정리] 3. DUSt3R: Geometric 3D Vision Made Easy
3.2. Training Objective (학습 목표) 정리이 논문에서는 3D 공간에서의 회귀(regression) 기반 손실(loss) 을 사용하여 네트워크를 학습합니다.핵심 목표:✅ 3D 위치를 예측하는 회귀 손실 사용✅ 스케일 차이를 보정(scale normalization)✅ 신뢰도(Confidence)를 고려하여 가중치를 부여한 학습 진행🔹 1. 3D 회귀 손실 (3D Regression Loss)네트워크가 예측한 3D 포인트맵을 정답(Ground Truth)과 비교하여 학습하는 방식픽셀 i 에 대한 손실(loss)은 단순히 유클리드 거리(Euclidean Distance) 로 정의됨.→ 스케일 차이(Scale Ambiguity) 문제 해결예측한 포인트맵과 실제 포인트맵이 크기가 다를 수 있..
2025.02.27 -
[논문정리] 1. DUSt3R: Geometric 3D Vision Made Easy
DUSt3R: 기하학적 3D 비전의 간편한 적용주어진 제약 없는 이미지 모음(즉, 카메라 자세 및 내부 매개변수가 알려지지 않은 사진 세트)을 입력으로 사용하면, 제안된 DUSt3R 방법은 상응하는 포인트맵(촘촘한 2D→3D 매핑)을 출력합니다.이를 통해 한 번에 추정하기 어려운 다양한 기하학적 요소를 쉽게 복원할 수 있습니다.복원 가능한 기하학적 요소카메라 보정(Camera calibration): 초점거리, 회전행렬, 이동벡터 등등깊이 추정(Depth estimation)픽셀 간 대응(Pixel correspondences): 서로 다른 이미지에서 같은 3D 점을 나타내는 픽셀을 찾아 연결하는 과정카메라 자세 추정(Camera pose estimation)밀집 3D 재구성(Dense 3D recons..
2025.02.23 -
논문 읽는 법 with 챗GPT
논문 읽으면서 논문 어케 읽는게 좋은거지 하면서 찾아봄 근데 gpt쨩이 정리왕이심 그래서 공유해봄 📌 논문 읽는 최적의 순서1️⃣ 제목 (Title) & 초록 (Abstract) 먼저 읽기🔹 목적: 논문의 핵심 주제와 연구 목표를 빠르게 이해하기 위함🔹 초점:연구가 어떤 문제를 해결하려고 하는지어떤 방법을 사용했는지어떤 성과를 거뒀는지✅ 예제 "딥러닝 기반 머신 비전용 비디오 압축 연구" → 머신 비전 영상 압축과 관련된 논문이구나!""제안된 방법이 BD-Rate를 최대 19.51% 개선했다" → 기존 압축 코덱보다 더 효율적인 기술을 연구했구나!"📌 이 단계에서 논문의 주제와 연구 가치가 내 관심사와 맞는지 판단.📌 이해가 안 되더라도 넘어가고, 전체적인 방향만 잡으면 됨.2️⃣ 결론 (Con..
2025.02.12 -
[논문리뷰였던것] Deep learning-guided video compression for machine vision tasks 였지만 VVC 이론.
VVC (Versatile Video Coding, 다목적 비디오 코딩): 비디오 압축 표준으로, 기존 HEVC(H.265) 대비 약 50% 더 높은 압축 효율을 제공 하는 최신 비디오 코덱. (2020년 7월)1. HEVC 대비 최대 50% 높은 압축률: 같은 화질에서 데이터 용량을 절반 수준으로 줄일 수 있음, 4K/8K 고화질 영상, VR, AR, 게임 스트리밍 등에 최적화2. 다양한 응용 분야 지원 (Versatile, 다목적): 기존 코덱보다 더 다양한 영상 형식 지원3. 복잡한 인코딩 알고리즘: 인코딩 속도가 HEVC보다 6~10배 느림 (디코딩 속도는 비슷) 🔹 VVC의 주요 기술더 정교한 블록 분할 (QT + MT + BT)기존 HEVC는 CTU(64x64) 크기로 고정된 블록을 사용.V..
2025.02.12