[논문리뷰였던것] Deep learning-guided video compression for machine vision tasks 였지만 VVC 이론.

2025. 2. 12. 01:47컴퓨터비전&AI

반응형

 

VVC (Versatile Video Coding, 다목적 비디오 코딩)

: 비디오 압축 표준으로, 기존 HEVC(H.265) 대비 약 50% 더 높은 압축 효율을 제공 하는 최신 비디오 코덱. (2020년 7월)

1. HEVC 대비 최대 50% 높은 압축률

: 같은 화질에서 데이터 용량을 절반 수준으로 줄일 수 있음, 4K/8K 고화질 영상, VR, AR, 게임 스트리밍 등에 최적화

2. 다양한 응용 분야 지원 (Versatile, 다목적)

: 기존 코덱보다 더 다양한 영상 형식 지원

3. 복잡한 인코딩 알고리즘

: 인코딩 속도가 HEVC보다 6~10배 느림 (디코딩 속도는 비슷)

 

🔹 VVC의 주요 기술

  1. 더 정교한 블록 분할 (QT + MT + BT)
    • 기존 HEVC는 CTU(64x64) 크기로 고정된 블록을 사용.
    • VVC는 4×4에서 128×128까지 다양한 블록 크기를 지원하며, 블록 크기를 자동으로 조절해 영상의 특성에 맞게 최적화.
    • 단순한 배경은 큰 블록, 복잡한 객체는 작은블록
    • Quad-Tree + Binary Tree + Multi-Type Tree 구조를 활용한 분할
    • Quad-Tree: 블록을 4등분으로 나누는 방식.
    • Binary Tree: 블록을 가로 또는 세로로 분할.
    • Multi-Type Tree: Quad-Tree와 Binary Tree를 조합하여 더 유연하게 분할.
  2. 향상된 예측 기술
    • Intra Prediction (내부 예측) 67개 모드 지원 (HEVC: 35개)
    • 1. 다양한 각도(예: 대각선, 곡선 방향 등)까지 고려하여 더 정밀한 예측 가능.
    • 2. 복잡한 텍스처(예: 자연스러운 곡선이나 기울어진 패턴)도 더 잘 표현됨.
    • Inter Prediction (외부 예측)에서 향상된 모션 보상 기법 적용
    • 1. 1/4 픽셀 → 1/16 픽셀
      • HEVC에서는 모션 벡터의 정밀도가 1/4 픽셀 단위였음.
      • VVC에서는 1/16 픽셀까지 정밀하게 보정 가능, 더 부드러운 움직임 예측이 가능해짐.
    • 2. AMC (Affine Motion Compensation, 어파인 모션 보상) 추가
      • HEVC에서는 단순히 직선 이동하는 모션만 예측 가능했음.
      • VVC에서는 회전, 확대/축소, 왜곡된 움직임도 예측 가능하여 더 정확한 예측이 가능.
    • 3. Bi-Prediction(양방향 예측) 향상
      • 이전 및 이후 프레임을 동시에 참조하는 예측 방식이 개선됨.
    • 4. Adaptive Motion Compensation 추가
      • 블록 크기에 따라 최적의 모션 예측 방식을 적용하여 비트레이트 절감 효과를 극대화.
  3. 더 강력한 변환 및 필터링 기법
    • Adaptive Loop Filtering (ALF) 적용: 프레임 노이즈 제거
    • Luma Mapping and Chroma Scaling (LMCS) 적용: 색상 표현 개선
  4. ROI(Regions of Interest) 기반 압축 최적화
    • 머신 비전에서는 ROI(중요한 영역)만 고품질로 유지하고, 나머지 영역은 압축 가능

 

🔹 VVC가 중요한 이유

  1. 8K/UHD 영상 시대에 필수적인 고효율 압축 기술
    • 4K, 8K 영상은 데이터 크기가 매우 큼 → VVC는 효율적으로 압축하여 전송 부담 감소
  2. 스트리밍, VR/AR, 게임, 머신 비전 등 다양한 활용 가능
    • 넷플릭스, 유튜브, 실시간 게임 스트리밍, 자율주행 머신 비전 등에 적용 가능
  3. 머신 비전 및 AI 기반 영상 처리와 결합 가능
    • 기존 코덱은 사람이 보는 기준으로 설계됨 → VVC는 머신 비전용 영상 압축(VMC)에도 최적화

 

비디오 압축 코덱의 동작과정

 

전체 프로세스의 요약

  1. 입력 영상 데이터가 들어오면, 모션 추정과 예측(Intra/Inter Prediction)을 통해 압축 가능성 분석.
  2. 분석된 데이터는 변환, 양자화 과정을 거쳐 효율적으로 표현되고, 필요 시 필터링으로 품질을 개선합니다.
  3. 마지막으로 부호화를 통해 전송 가능한 형태의 압축 데이터(비트스트림)를 생성합니다.

🔹 압축 동작 과정

  1. Input Video Signal (입력 비디오 신호)
    • 입력 영상(프레임)을 처리하기 위해 블록 단위로 분할.
    • 이때, 프레임 내의 정적인 부분(배경)과 움직이는 부분(객체)을 구분.
  2. 예측 단계 (Intra/Inter Prediction)
    • Intra Prediction (내부 예측): 모션 추정을 사용하지 않고, 프레임 내부의 인접 블록을 참조해 데이터를 압축. 주로 정지된 장면이나 프레임 간의 변화가 적은 경우에 유용. (데이터 중복 제거)
    • Inter Prediction (상호 예측): 이전 프레임의 데이터를 참조해 움직임을 예측(모션 추정). 움직임이 큰 부분만 새로운 데이터를 저장하고 나머지는 재활용.
    • 이 과정에서 불필요한 중복 데이터를 제거.
  3. Transform, Scaling & Quantization
    • MTS (주변환): 변환 기법으로, 영상 데이터를 주파수 성분으로 변환해 고효율 압축을 지원합니다.
    • LFNST (이차변환): 더 정교한 변환을 적용해 데이터 표현 효율을 높이는 기술입니다.
    • SBT (분할 블록 변환): 블록을 분할하여 변환 효율을 극대화하는 방식입니다.
    • 변환된 데이터는 Quantization 과정을 거쳐 데이터 크기를 줄입니다.
  4. Scaling & Inverse Transform (스케일링 및 역변환)
    • Quantization된 데이터를 복원(디코딩)할 수 있도록 Inverse Transform을 적용합니다.
  5. In-Loop Filters(인루프 필터)
    • 복원된 영상 데이터의 품질을 향상시키기 위해 노이즈 제거 필터를 적용합니다.
    • 예: Deblocking Filter(블록 경계 제거), Sample Adaptive Offset(SAO) 필터 등.
    • SAO 필터는 Intra & Inter Prediction으로 인해 발생한 경계값 문제를 보정하는 데 기여
      색상 차이(Color Shift) Band Offset을 적용하여 색상 차이를 보정
      경계 불일치(Edge Mismatch) Edge Offset을 적용하여 경계를 자연스럽게 조정
      블록 간 뭉개짐(Blurring) SAO 필터가 부드러운 그라데이션을 적용하여 보정
      색 번짐(Color Bleeding) 엣지를 따라 픽셀 값을 조정하여 색상 왜곡 완화

6. Decoded Picture Buffer (복원된 프레임 버퍼)

참조된 이전 프레임 저장해두는 곳 Inter Prediction에 필요함.

 

7. Entropy Encoder (엔트로피 부호화기)

  • 최종적으로 압축된 데이터를 비트스트림(Bitstream)으로 변환하는 단계
  • CABAC (Context-Adaptive Binary Arithmetic Coding)방식 사용.
  • 문맥 기반(Context-Adaptive): 앞 데이터 패턴을 분석, 자주 등장하는 패턴을 짧은 코드로 할당하여 압축률을 높임.
  • 이진 부호화(Binary Arithmetic Coding): 데이터를 0과 1의 확률로 인코딩하여, 기존의 Huffman Coding보다 압축 효율이 높음.

8. General Coder Control (코덱 제어)

  • 전체 코덱의 동작을 제어하는 블록으로, 모드 선택, 압축 효율 조정, 품질 제어 등의 기능을 수행합니다.

 

 

 

 

반응형