컴퓨터비전&AI(15)
-
[논문정리] 3. DUSt3R: Geometric 3D Vision Made Easy
3.2. Training Objective (학습 목표) 정리이 논문에서는 3D 공간에서의 회귀(regression) 기반 손실(loss) 을 사용하여 네트워크를 학습합니다.핵심 목표:✅ 3D 위치를 예측하는 회귀 손실 사용✅ 스케일 차이를 보정(scale normalization)✅ 신뢰도(Confidence)를 고려하여 가중치를 부여한 학습 진행🔹 1. 3D 회귀 손실 (3D Regression Loss)네트워크가 예측한 3D 포인트맵을 정답(Ground Truth)과 비교하여 학습하는 방식픽셀 i 에 대한 손실(loss)은 단순히 유클리드 거리(Euclidean Distance) 로 정의됨.→ 스케일 차이(Scale Ambiguity) 문제 해결예측한 포인트맵과 실제 포인트맵이 크기가 다를 수 있..
2025.02.27 -
[논문정리] 1. DUSt3R: Geometric 3D Vision Made Easy
DUSt3R: 기하학적 3D 비전의 간편한 적용주어진 제약 없는 이미지 모음(즉, 카메라 자세 및 내부 매개변수가 알려지지 않은 사진 세트)을 입력으로 사용하면, 제안된 DUSt3R 방법은 상응하는 포인트맵(촘촘한 2D→3D 매핑)을 출력합니다.이를 통해 한 번에 추정하기 어려운 다양한 기하학적 요소를 쉽게 복원할 수 있습니다.복원 가능한 기하학적 요소카메라 보정(Camera calibration): 초점거리, 회전행렬, 이동벡터 등등깊이 추정(Depth estimation)픽셀 간 대응(Pixel correspondences): 서로 다른 이미지에서 같은 3D 점을 나타내는 픽셀을 찾아 연결하는 과정카메라 자세 추정(Camera pose estimation)밀집 3D 재구성(Dense 3D recons..
2025.02.23 -
논문 읽는 법 with 챗GPT
논문 읽으면서 논문 어케 읽는게 좋은거지 하면서 찾아봄 근데 gpt쨩이 정리왕이심 그래서 공유해봄 📌 논문 읽는 최적의 순서1️⃣ 제목 (Title) & 초록 (Abstract) 먼저 읽기🔹 목적: 논문의 핵심 주제와 연구 목표를 빠르게 이해하기 위함🔹 초점:연구가 어떤 문제를 해결하려고 하는지어떤 방법을 사용했는지어떤 성과를 거뒀는지✅ 예제 "딥러닝 기반 머신 비전용 비디오 압축 연구" → 머신 비전 영상 압축과 관련된 논문이구나!""제안된 방법이 BD-Rate를 최대 19.51% 개선했다" → 기존 압축 코덱보다 더 효율적인 기술을 연구했구나!"📌 이 단계에서 논문의 주제와 연구 가치가 내 관심사와 맞는지 판단.📌 이해가 안 되더라도 넘어가고, 전체적인 방향만 잡으면 됨.2️⃣ 결론 (Con..
2025.02.12 -
[논문리뷰였던것] Deep learning-guided video compression for machine vision tasks 였지만 VVC 이론.
VVC (Versatile Video Coding, 다목적 비디오 코딩): 비디오 압축 표준으로, 기존 HEVC(H.265) 대비 약 50% 더 높은 압축 효율을 제공 하는 최신 비디오 코덱. (2020년 7월)1. HEVC 대비 최대 50% 높은 압축률: 같은 화질에서 데이터 용량을 절반 수준으로 줄일 수 있음, 4K/8K 고화질 영상, VR, AR, 게임 스트리밍 등에 최적화2. 다양한 응용 분야 지원 (Versatile, 다목적): 기존 코덱보다 더 다양한 영상 형식 지원3. 복잡한 인코딩 알고리즘: 인코딩 속도가 HEVC보다 6~10배 느림 (디코딩 속도는 비슷) 🔹 VVC의 주요 기술더 정교한 블록 분할 (QT + MT + BT)기존 HEVC는 CTU(64x64) 크기로 고정된 블록을 사용.V..
2025.02.12 -
NeRF: Neural Radiance Fields
NeRF: Neural Radiance Fields: 딥러닝 기반으로 3D 장면의 빛과 구조를 학습하여 새로운 시점 합성(novel view synthesis)을 제공객체의 3D 모델을 생성하는 기술이 아니라, 객체를 바라보는 모든 장면을 생성하는 Novel View Synthesis 기술실제로 존재하지 않는 시점에서의 새로운 이미지를 생성한다. => 3D 데이터를 미리 생성해 저장하지 않고, 필요할 때마다 계산해서 이미지를 만들어냄. 입력 데이터다양한 각도에서 객체를 촬영한 이미지 (RGB + Mask(물체와 배경 구분)의 4채널)카메라 파라미터 (카메라 위치 + 각도)출력 데이터 : 입력 이미지에 없던 새로운 view θ: 극각(polar angle), z축을 기준으로 방향과 이루는 각도.ϕ: 방..
2024.12.22 -
[배울랑교AI] 이미지 처리
이동 import cv2import numpy as npimg = cv2.imread('images/fish.jpg')rows, cols = img.shape[0:2]#2차원dx, dy = 100, 50# x로 100, y로 50만큼 이동mtrx = np.float32([[1, 0, dx], [0, 1, dy]])#행렬로 만들어줌move_basic = cv2.warpAffine(img, mtrx, (960, 540))# cv2.warpAffine(img, mtrx, dsize(화면 x축 길이, 화면 y축길이))move_constant = cv2.warpAffine(img, mtrx, (960, 540), None, None, cv2.BORDER_CONSTANT, (255,255,255)) # cv2.BO..
2024.11.27