OK ROCK

04-(2). Local Feature Detection 본문

대외활동/CV stduy

04-(2). Local Feature Detection

서졍 2024. 3. 27. 14:45

Computer Vision (오일석) Chapter 04

Contents

1. 지역 특징 검출의 기초

2. 이동과 회전에 불변한 특징점 검출 

3. 위치 찾기 알고리즘

4. 스케일에 불변한 특징점 검출


3. 위치 찾기(Localiztion) 알고리즘

지금까지 2절에서는 어떤 점(화소)이 ‘특징일 가능성’을 측정하는 과정에 대해 알아봤다.

Non Maximum Suppression

왼쪽 그림은 이전의 사슴 사진에서 헤리스 코너 방법을 이용해서 얻은 S맵이다.

  • 진하게 표시된 구역들이 지역 최대점이고, 코너에서 한 점만 큰 값을 갖는 것이 아니라 큰 값이 일정한 범위에 퍼져 있는 문제가 발생한다.
  • 해당 영역에서 퍼져있는 점 들 중에서 한 점만을 선택하는 방법 = 위치 찾기 = Localization
    • 지역 최대점(local maximum) 선택 : 자신이 이웃 화소들보다 크면 특징점이 되고, 그렇지 않으면(비최대이면) 억제된다(무시)

 

4. 스케일에 불변한 특징점 검출

이 절에서는 스케일 변화에도 불구하고, 물체의 같은 위치에서 특징을 검출할 수 있는 방법을 다룬다. + 스케일에 대한 정보까지 알아내어 제공해준다.

 

4-1. 스케일 공간(Scale Space)

Q> 서로 다른 두 스케일 공간에서의 같은 물체는 어떻게 하면 같은 특징을 얻어낼 수 있을까?

왼쪽과 같이 큰 스케일의 영상에는 큰 연산자, 작은 스케일의 영상에는 작은 연산자를 적용하여 특징을 검출하면

→  같은 물체가 서로 다른 두 영상에 다른 크기로 나타났지만 이 둘은 아주 비슷한 특징을 얻게 될 것이다.

But, 문제는 영상에서 어떤 스케일을 썼는지 모르기 때문에 해법 자체를 제공해주지 못한다.

  1. 연산자를 작은 크기부터 키워가면서 영상에 반복 적용하여 각각의 여러 스케일에 따른 특징적인 집합을 얻는 것.
  2. 영상의 해상도를 점점 줄여 다중 스케일 영상을 구축하고, 하나의 연산자를 여러 스케일에 적용하면서 특징 집합을 얻는 것.

⇒ 두 방법 모두 실제 상황에서 그리 잘 작동하지 않음

  • 솔루션 : 스케일에 불변한(Scale-Invariant) 특징을 찾자.

 

(1) 다중 스케일 영상 (Muti-Space Image)

[ 구축 방법 ]

  1. Gaussian 마스크에서 표준편차를 키워가면서 smoothing연산을 적용하기
    • 중심으로부터 거리가 멀어지면 물체의 세밀한 내용은 사라지고 윤곽은 점점 흐릿해지는 원리를 이용
  2. 영상의 해상도를 반씩 줄여나감으로써 피라미드 영상을 구축하기
    • 거리가 멀어지면 물체의 크기가 작아지는 효과를 모방

⇒ 주로 첫번째 방식(스무딩 방식)을 주로 사용

 

[ 스무딩 연산자 설계 방법 ]

 

가장 중요한 성질 = 원래 영상에 존재하는 구조 이외의 새로운 구조를 생성하지 말아야 한다는 것. ↔ 기존 구조를 부드럽게 만드는 효과만 있어야 함

▷ 이 관점에서 가우시안 마스크는 조건을 훌륭하게 만족할 뿐더러 연속 공간에서 정의되고, 유용한 수학적인 성질을 만족하기 때문에 가장 널리 쓰인다.

 

위의 (a)는 가우시안 마스크에서 표준편차(standard deviation)의 값을 점점 크게 하여 얻은 일련의 영상 집합(=다중 스케일 영상, multi-scale image)을 보여준다.

  표준편차 하나의 매개변수만으로 스무딩의 정도를 조절

스케일 공간(Scale Space) : 이러한 영상 집합들이 구성하는 3차원 공간(y,x,t), t는 표준편차^2(분산)

  • n-jet : 스케일 공간에 있는 영상들을 미분하여 얻은 n차까지의 도함수하지만, 각 미분 값으로부터 회전에 불변한 값들을 구할 수 있음
  • 각 원소는 우선적으로 회전에 공변함, 하지만, 각 미분 값으로부터 회전에 불변한 값들을 구할 수 있음

 

(2) 3차원 지역 극점(Local Maximum) 탐색

 

(a) 영상에서와 같이 서로 다른 크기의 블롭(blob)이 관측되었다고 가정하자. (왼쪽은 지름이 7, 오른쪽은 지름이 11)

이 두 블랍의 중점( (y,x)공간 상에서 극점 ) 은 이미 찾았다고 가정하고, 스케일 축t값만을 생각해보자.

(b)는 (a)영상의 다중 스케일 공간(multi-scale space)에서 정규 라플라시안을 적용한 결과이다.

 

  • 정규 라플라시안 (Normalized Laplacian)
    • 라플라시안(d_yy + d_xx)에 분산(표준편차 제곱)을 곱한 값
    • 정규화 하는 이유는 ? 스케일(표준편차)가 클수록 라플라시안을 구성하는 d_xx와 d_yy가 작아지기 때문에 보정하기 위해서

정규 라플라시안 수식
스케일 축에 따른 라플라시안 값의 변화

=> 위의 그래프를 보면 '물체의 스케일이 s배가 되면, 특징의 스케일을 나타내는 매개변수 t는 s^2 배에서 극점이 발생한다.

 

최종적으로 (1)을 통해 여러 크기의 스케일을 적용하여 scale-space (y, x, t)를 구성하고, (2)를 통해 그 공간에서 극점을 찾으면, 스케일에 불변하는 모든 공간에서 특징점을 찾을 가능성을 확보한 셈이다.

이렇게 찾은 극점은 영상 공간에서의 위치뿐 아니라 스케일 정보도 갖는다.

 

 

4-2. 해리스 라플라스 특징 검출

극점 탐색 과정에서 (y,x)-2차원 영상 공간 / t - 스케일 축을 구분하여 취급한다는 점이 색다르다.

 

[1] 영상 공간 (y,x)

  • 해리스의 식 사용

해리스 코너 검출에서 사용했던 수식 중 하나

- 라플라시안의 경우, 엣지에서도 잘 반응(극점 발생)하는 특성이 있어서 이런 현상을 피하기 위해서 사용

 

[2] 스케일 축 (t)

  • 정규 라플라시안 식 사용

t 축에서 정규 라플라시안이 가장 안정적으로 극점 생성

 

하지만, 해리스 코너에서 사용했던 2차 모멘트 행렬은 단일 스케일에서만 작동하기 때문에 같은 플로우로 다중 스케일에서 적용할 수 없다.

아래와 같이 해리스의 식을 다중 스케일 공간에서로 확장해서 해석해야 한다.

A행렬에서 해리스 코너에서와 마찬가지로 '특징 가능성'을 나타내는 식 C를 계산할 수 있다.

ex ) 식 (4.18)의 2x2행렬의 첫번째 원소 notation 의미 = 원래 영상을 $ σ_d 크기의 가우시안으로 스무딩한 후, y방향으로 한 번 미분한 것을 제곱한 영상

그 후, 앞에 있는 $ σ_1 크기의 가우시안으로 다시 스무딩 한 후, 결과에 $ σ_d ^2을 곱한다(정규화 의미)

구체적인 알고리즘

4-3. SIFT 검출⭐

  • Scale-Invariant Feature Transform
  • 성능이 뛰어나 현재 가장 널리 사용되며, 다양한 변형이 개발되어 있음
  • 지역 특징점의 특징 중의 하나였던 '반복성'이 여러 지역 특징들 중에서 최고 수준
  • 계산 시간이 단축

아래가 원래 영상, 위에가 반으로 다운샘플링한 영상

그림에서는 한 번의 down sampling만 진행한 두 층만 보여주었지만, 실제로는 4x4 정도가 될 때까지 계속 줄여나가기 때문에 여러 층으로 이루어진다.

 

SIFT에서의 Scale-Space는 한 층이 하나의 영상이 아니라, 6개 영상의 묶음으로 구성되어 있다.

  • 영상 묶음을 옥타브(octave)라고 부름
  • 옥타브 0 = 원래 영상 / 옥타브1, 2, ..., 6 = 다운샘플링된 영상에서 가우시안의 σi로 스무딩한 영상

1. [ 옥타브 0 (토대 영상) ]

맨 아래에 있는 첫 번째 영상은 스케일 공간 구성의 시작점이 되는 토대 영상 역할을 한다.

 

2. [ 옥타브 1~6 (다운샘플링된 영상집합 ]

 

옥타브의 영상은 σi 스무딩
=> σi+1=kσi (σ0=1.6, k=21/3)
 

 

3. [ 특징점 검출 방법 ]

Difference of Gaussian

  • 정규 라플라시안과 유사한 DOG 계산으로 대치
  • DOG는 단지 차영상을 계산하므로 매우 빠름

2023.2학기 패턴인식 교과목 중

= 한 옥타브(여섯개 세트)에는 다섯 장DOG 영상

  • 중간에 끼인 세 장의 DOG 맵에서 극점 검출
    • 주위 26개 이웃에 대해 최저 또는 최대인 점

  • 검출된 극점을 '키포인트'라 부름
  • 키포인트는 <y,x,o,i> 정보를 가짐 (옥타브 oi 번째 DOG 영상의 (y,x)에서 검출)

짧은 요약~

 

'대외활동 > CV stduy' 카테고리의 다른 글

05-(1). Image Segmentation  (1) 2024.04.04
04-(1). Local Feature Detection  (0) 2024.03.24
CV 스터디_02.영상처리  (0) 2024.03.18