지능신호처리 중 영상인식에 대해 이시우 2005/05/29 395
http://www.endi.co.kr/Home/news/영상인식/1.htm
http://www.endi.co.kr/Home/news/영상인식/2-1.htm
http://www.endi.co.kr/Home/news/영상인식/2-2.htm
http://www.endi.co.kr/Home/news/영상인식/2-3.htm
http://www.endi.co.kr/Home/news/영상인식/3.htm
http://www.endi.co.kr/Home/news/영상인식/4.htm
▶ 지능신호처리의 영역 중에서 영상인식에 관련된 주제들을 정리해 보았다.
특히 우리 연구실에서 실제로 수행하고 있는 연구주제들을 알기 쉽게 설명하도록 하겠다.
무인 주행 자동차(ALV)
영상 레이더 신호처리(SAR)
다중표적추적(Multi Target Tracking)
3차원 영상 인식(Stereo Vision)
에 대하여 그 원리와 현재의 기술수준을 살펴보도록 하자.
1. Autonomous Land Vehicle(ALV)
무인 자동차 혹은 무인 운송 수단의 개발에 대한 필요성은 국내외적으로 대두되고 있고, 제한적인 범위에서지만 실제로 산업현장에서 응용되고 있다.
그러나 이러한 응용은 주로 주어진 경로 혹은 경로 유도선을 따라가는 AGV(Automatic Guided Vehicle)의 수준이다.
사실상 대부분의 산업현장은 환경자체가 제한된 혹은 잘 구성된 환경(structured environment)으로서, AGV만으로도 충분히 원하는 일을 수행하게 할 수 있다. 그러나, 산업 환경이 점차 복잡해짐에 따라 그 자체로서 어느 정도의 사고 혹은 판단 능력을 가지는 이동 로봇의 필요성이 증대되고 있다.
이러한 추세로 AGV에서 소위 말하는 ALV(Autonomous Land Vehicle)로 연구의 관심이 옮겨가고 있는 것이다.
실외용의 경우는 실내용과는 달리 여러 가지 다른 환경에 안정되게 작동하는 시스템의 구현이 필요하다.
가장 간단한 예로 실내용의 경우는 최소한 조명의 안정성은 보장받을 수 있지만 실외용의 경우는 보장받을 수 없는 것이다.
그리고 실외용으로의 연구는 이제 관심의 초점이 공장이 아니라 일반인에게도 유용한 운송수단의 개발로 모아지고 있다. 무인 운송 수단은 위험지역이나 사람의 진입이 곤란한 지역, 예를 들면 화재 지역이나 전투지역으로의 물자나 인력 수송 등을 담당할 수도 있으며 무인 장갑차와 같은 무인 병기의 개발과도 밀접한 관련이 있다.
이러한 무인 자동차의 구현을 위해 우리 연구실에서는 컴퓨터 영상인식(computer vision)을 이용한 길 따라가기 알고리즘(road following algorithm) 및 실시간 처리를 연구하고 있다.
무인 자동차에서 사용되는 컴퓨터 시각 시스템은 주행로를 파악하고, 장애물이나 도로 설치물 등을 인식하는 등,주위의 환경 정보들을 수집하는 역할을 한다. 이러한 목적으로 카메라나 거리 측정기 등을 사용할 수 있다.
도로 주행에 필요한 정보들의 획득을 위하여 시각을 이용하면 물체의 거리와 관계없이 영상을 빠르고 쉽게 얻을 수 있고, 많은 공간의 정보를 한꺼번에 얻을 수 있는 장점이 있다.
무인 주행 자동차의 특성에 맞게 정보의 실시간 처리가 가능하며, 유동적인 환경 변화에 대하여 올바르게 대처할 수 있는 시스템의 구현이 필수적이다.
우리가 실제 사용하고 적용하고 있는 시스템의 구성은 [그림 1-1]과 같다.
[그림 1-1] ALV를 위한 비젼 시스템의 내부 구조
각 부분의 역할에 대해 간략히 설명해보면 다음과 같다.
㉮ 도로 영상 획득 및 사전 처리
이 부분에서 칼라 이미지가 획득되고, 다단계 영상 분할 알고리즘에 적합하도록 다단계 영상을 만든다.
각 영상의 픽셀들은 빨강, 녹색, 파랑(RGB)의 3가지 요소로 구성되어 있으며 선형 변환(linear transform)을 이용하여 도로 부분과 도로가 아닌 부분이 구분되도록 전처리 과정(preprocessing)을 거치게 된다. 단순한 예를 들면, 도로에 해당하는 부분은 빨강(R) 성분이 강하고 도로가 아닌 영역은 파랑(B) 성분이 강하다는 특징을 이용하는 방법이 있을 수 있다. 하지만, 당연히 이런 식의 단순한 방식으로는 도로와 도로 바깥부분을 구분할 수 없을 것이다.
왜냐하면 이 세상에 모든 도로는 빨간 색이고 도로가 아닌 곳은 파란 색이지 않기 때문이다.
바로 이러한 문제에 지능신호처리 기법들이 필요해진다.
그러므로 다음 단계에서 서서히 지능적으로 도로를 인식해 내게 된다.
㉯ 특징 추출
영상 획득 및 사전 처리부에서 만들어진 피라미드 영상을 기반으로 신경망 알고리듬을 사용하여서 대략적인 도로와 비도로 영역이 구분되어진 흑백(gray) 이미지를 얻어낸다.
신경망은 다층 퍼셉트론(MLP; multi-layer perceptron) 구조를 이용하였고, 학습방법은 기본적인 오류 역전파(BP; error back-propagation) 알고리즘을 이용하였다.
㉰ 예측 도로 영역
도로 영상은 공간적으로 갑작스럽게 변화하지 않으며(smooth), 시간적으로 연속적이라는 가정(natural constraint, prior domain knowledge)에 의하여 시스템은 현재 시간에 처리되는 영상은 이전 처리 결과에 의존할 것이라고 생각하고 동작하게 된다.
이러한 방식은 인간이 영상인식을 하며 운전을 할 때 자연스럽게 취하는 방법으로서, 시스템의 계산량을 획기적으로 줄여주면서도, 성능이 우수하게 할 수 있게 된다. 이전에 처리된 도로의 외곽선 정보는 칼만 필터(Kalman filter)의 입력이 되어, 다음 도로 외곽선(edge)을 예측하게 된다.
도로 영역 예측(prediction)은 초기모드에서는 사용하지 않고 연속적으로 주행하는 모드에서 이용하게 된다.
㉱ 피라미드 이미지 분류
도로의 영상 이미지를 줄여나가면 도로의 전체적인(global) 특징을 얻을 수 있고 그것을 다시 확대해 가면서 원 이미지에 대해 역전파시키게 되면 최종적인 영상분할이 이루어진다.
그러한 과정에서 국부적인 노이즈(local noise)들은 거의 제거된다.
㉲ 도로 외곽선 추출
초기 모드에서는 도로 영역의 외곽선을 모르는 상태인데, 도로 영역의 일반적인 특징은 영상아래서 위로 갈수록 도로 폭이 좁아지므로 이를 이용해 영상의 최하위 행에서 도로 경계열을 찾아내고 그 위의 행에서는 바로 밑에서
찾은 도로 경계의 근처에서 찾아 나간다.
주행 모드에서는 이전에 처리된 도로 외곽선이 있기 때문에 이 정보를 이용하여 도로 외곽선을 찾게 된다.
㉳ 도로 모델 계산
도로 모델이란 주행에 필요한 차의 속도,핸들 및 브레이크 등의 제어에 필요한 요소들을 말하는 것이다.
도로 외곽선 정보를 바탕으로 도로의 곡률, 방향, 폭등을 알아내어 핸들의 조향각을 얻어서 핸들을 제어하게 되며, 도로의 곡률에 따라 속도와 브레이크를 제어한다.
이제까지 ALV 시스템의 개념과 그 필요성에 대해 소개하였고, 이를 위해 실제로 우리가 연구에 적용하고 있는 시스템에 대해 간략히 설명하였다.
앞으로의 보완 사항에는, 연속적으로 들어오는 도로의 이미지는 급작스럽게 변화하지 않는다는 것을 기반으로 다음에 들어오게 될 도로영역을 예측하여 만일의 경우에 도로영상이 잘못 들어오게 되는 경우라도 대처할 수 있는 좀 더 안정적인 시스템으로 만들어 나갈 수 있을 것이다. 또한 계속적인 학습을 통하여 실제도로에서 발생하는 상황들에 대해서도 계속적인 피드백을 받으면서 수정해 나가는(adaptive) 메커니즘이 필요하다.
[그림 1-2] 카메라로 들어오는 원래 이미지
[그림 1-3] 특징 추출 처리후의 이미지
http://www.endi.co.kr/Home/news/영상인식/2-1.htm
2. 개구 합성 레이더(SAR) 란 무엇인가
개구 합성 레이더(SAR: Synthetic Aperture Radar)는 원래 복합 원격탐사 시스템의 일부로서, 실개구면(real aperture) SLAR와 함께, 소위 영상 레이더(imaging radar)라 불리는 것이다.
2.1. SAR의 탄생배경
제2차 세계대전 때부터 인식되기 시작한 관측용 레이더의
전천후 목표 획득 능력이 전후에도 여러 가지 민간목적의
원격탐사용 및 군용으로 사용되고 있으며,그후 꾸준한 성능향상으로 SLAR와 SAR를 포함한 여러 가지 항공기 탑재용
원격탐사 레이더가 개발되어, 사용되어 왔다.
그러나 인공위성 탑재용 mapping 레이더가 처음 사용된 것은 비교적 최근인 1978년으로서 미국의해양탐사 인공위성인
Seasat에서 비롯되었고, 그후 Space Shuttle 탑재용 레이더인 SIR(Shuttle Imaging Radar)가 개발되어 계속 향상되고 있다. 이후 유럽, 일본, 캐나다 등지에서 원격탐사 또는 군용목적의 인공위성 탑재 영상 레이더를 운용 중이거나 발사예정이며 호주에서도 유사한 항공기 탑재형을 발표한 바 있다.
마이크로웨이브 레이더를 이용한 원격탐사는 오랜 역사를 지니고 있으며, 해양에서의 풍속 및 풍향측정, 공해측정, 국토이용도 및 경작물의 관측, 홍수 또는 눈사태의 예측 및 관찰,
극지역에서의 얼음의 종류, 두께, 이동 등의 관찰, 지질학
및 자원탐사 등에 유용한 정보를 줄 수 있음이 밝혀져 있고 또 실제 사용되고 있다.
사용자들이 원하는 것은 레이더 신호와 목표물 특성과의 정량적인 상호 연관성이며, 많은 목표물에 대해서는 이미 연관성이 알려져 있으나, 사용 주파수나 편향에 따른 연구는 앞으로 더 수행되어야 하며, 또한 각 국가별로 관심의 대상 또는 중점 목표물이 다르므로, 데이터 및 연구결과가 없는 부분이 있고 특히 아시아 및 러시아지역에서의 정보는 거의 알려진 결과가 없는 상태이다.
국내에서는 영상레이더를 사용한 원격탐사는 아직 시도되지 않고 있으나, 최근 해양연구소나 자원연구소 등에서 많은 관심을 가지고 있다. 미래에 우리 나라의 탐사위성에 탑재할 시스템의 설계에는 여러 가지 목적에 따라 정말로 필요한 최소의 분해능과 Swath의 크기 사이에 타협이 이루어져야 할 것이며 또한 최적의 주파수와 입사각, 편향 등도 결정되어야 한다.
시스템 측면에서 보는 기술의 발전추세는 분배요소 레이더와 디지털 신호처리로 크게 나타난다고 볼 수 있다.
종래의 레이더에서는 병렬로 연결된 solid state 단일 증폭기를 사용하여 고출력 신호를 안테나까지 전달시켜 3-4db까지의 전송손실을 보고 있으나, 최근의 경향은 안테나 소자의 바로 뒤 또는 옆에 송수신 모듈들을 장착시키고 여기까지는 저출력 신호를 보냄으로써 여러 가지 손실을 줄이고, 시스템의 신뢰성을 높이며, 또한 전자빔 조종(electronic beam steering)을 가능케 함으로써 목적에 따라 입사각을 변경시키거나, 분해능을 약간 희생시켜 커다란 범위(Swath)를 관찰 가능하게 하고 있다.
또한 종래의 SAR에서는 엄청난 양의 데이터를 처리하기 위해 특수렌즈를 사용하여 광학적 신호처리방식을 채택하였으나, 최근에는 디지털 신호처리기술의 발달로 많은 새로운 SAR 신호처리기법이 발견되고, 디지털 프로세서 또는 하이브리드(hybrid) 프로세서들을 사용하고 있다,
고속의 DSP 칩과 이를 병렬로 연결하는 병렬 컴퓨팅 기술의 발전으로 대량의 데이터를 실시간으로 처리하려는 시도가 두드러지고 있으며 특히 DSP가 프로그래밍이 가능하므로 기본 하드웨어의 변경 없이 필요에 따라 알고리즘의 변경만으로 다양한 기능을 수행할 수 있을 뿐 아니라 구조의 모듈화를 꾀함으로써 하드웨어의 복잡성을 줄이는 추세이다.
또한 레이더 주변환경의 변화에 능동적으로 적응하고 레이더의 기능과 임무를 필요에 따라 바꿀 수 있는 적응 신호처리기법(adaptive signal processing)이 두드러지고 있다.
표적정보분야를 비롯하여 미국의 경우 미시건 대학의 TSAC(Target Signature Analysis Center)를 비롯하여 오하이오주립대학, 조지아공대 등에서 Compact Range를 이용하여 각종 항공기, 선박 빛 탱크 등의 scale 모델에 대한 RSC 측정장치를 보유하고 이를 표적 인식 기법 등의 데이터 뱅크로 활용하고 있다.
측정의 전 과정이 자동화되고 있으며, 측정 가능한 주파수대역의 증가로 임펄스 반응(impulse response) 등의 순시 신호(transient signature)가 표적인식의 실제적인 도구가 되어가고 있다.
NCTR의 경우 활발한 연구가 진행되고 있으나, K-펄스, E-펄스, CNR 방식 등 기본적인 방법을 제외하고는 현재의 기술수준을 파악하기 어려운 실정이다. RCS 계산분야에서는 컴퓨터 용량 및 처리속도의 증가로 MM, FEM, FDTD 등 저주파 산란해석방법들의 해석영역이 확대되어 가고 있고, 실제 응용가능 한 GTD/UTD 등을 사용한 산란해석방법들의 해석영역이 확대되어 가고 있다.
ISAR Imaging에서는 신호처리기술의 발달 및 이미징 도구(imaging tool)의 개발 등으로 처리속도 및 해상도가 증가되어 가고 있으며, 최대 엔트로피 방식(Maximum Entropy Method) 및 자기회귀 모델 방식(Autoregressive Model Method) 등의 방법으로 제한된 스캔 각도(scan angle)와 주파수 폭(bandwidth)의 데이터로부터 영상의 해상도를 증가시키는 연구 등이 진행되고 있다.
http://www.endi.co.kr/Home/news/영상인식/2-2.htm
2.2. 위성 탑재 SAR시스템의 Raw 데이터를 얻는 과정
[그림 2-1]은 위성 탑재 SAR 시스템을 보여주고 있다.
SAR 시스템에서 Raw 데이터를 얻는 과정을 보여 주고 있다.
그럼 간단히 원시(Raw) 데이터를 얻는 과정에 대해 살펴보자.
분석을 용이하도록 하기 위해 [그림 2-2]를 사용하도록 하자.
SAR 시스템을 탑재한 위성이 고도 H의 높이에서 X축 방향(Azimuth 방향)으로 비행하고 있고, X-Y 평면 위의 Y축 방향(Range 방향)으로 펄스를 송수신하고 있다고 가정하며, 분석을 간략히 하기 위해
(RC, XC)의 지점에 위치한 점 표적(Point Target)만을 고려한다.
여기서, RC는 레이더와 목표점 사이(Slant Range)의 거리이다.
SAR에서 주로 쓰는 선형 FM신호의 일종인 Chirp 신호를 송신 파형으로 가정하면, n번째 송신 신호 P(t, sn)는 다음과 같다.
—— [수식 2-1]
[수식 2-1]에서 a는 Chirp Rate이고, TP는 송신 펄스의 반복주기, tp는 송신 펄스 폭이다.
이러한 송신 신호는 고유의 복소 반사 계수값을 가지는 목표물을 맞고 반사되어 레이더의 수신안테나로 되돌아온다. n번째 송신 펄스가 (RC, XC)의 좌표에 위치한 목표점에 맞고 수신될 때, 수신 신호의 식은 다음과 같다.
—— [수식 2-2]
[수식 2-2]에서 r는 목표점의 반사계수, Rn은 n번째 펄스를 송신할 때의 레이더와 목표점 사이의 거리, 2Rn/c는 레이더와 목표점 사이의 펄스 왕복 지연 시간, sn은 방위각 방향의 시간이다. 수신 신호의 거리방향 시간 t-nTP를 t`로 정의하면, 복소 복조 과정을 거친 기저대역 수신 신호는 다음의 식과 같다.
—— [수식 2-3]
이산 방위각 시간 단위인 sn을 연속된 방위각 시간 변수 s로 바꾸면 [수식 2-3]은 다음 식과 같이 쓸 수 있다.
—— [수식 2-4]
[수식 2-4]에서 S는 방위각 방향으로의 합성시간(Azimuth Integration Time)이고, sc는 목표점이 레이더 빔의 중심에 있을 때의 방위각 시간이며, R(s)는 방위각 시간 s에서의 레이더로부터 목표점까지의 거리이다.
http://www.endi.co.kr/Home/news/영상인식/2-3.htm
2.3. 고속 상관기(Correlator) 구현을 위한 FIR 필터 알고리즘.
수신 신호와 기준 신호의 정합 필터링을 통해 거리 방향과 방위각 방향의 펄스 압축을 수행함으로서 영상에 대한 정보를 얻을 수 있다. 이런 정합 필터링을 수행하는 상관기(Correlator)는 전형적인 FIR 필터와 같은 구조를 가지고 있다.
디지털 샘플링(sampling)된 SAR 수신 신호가 필터의 입력 데이터가 되고, 거리 방향과 방위각 방향의 기준 신호가 입력 데이터와 곱해지는 필터 계수가 된다. SAR 신호처리에 사용되는 상관기(Correlator)는 그 특성상 충격파 응답의 길이가 매우 길어서아주 많은 탭을 가지는 FIR 필터를 필요로 한다.
또한 SAR 신호처리에서는 입력 신호의 비트 수는 작고, 정합 필터의 계수 즉,기준 신호의 비트 수와 출력 비트 수는 큰 특성을 가지고 있다. 이와 같은 SAR 신호처리의 특성 때문에 기존의 FIR 필터보다는 SAR 신호처리에 효율적인 필터 구조를 설계하여야 한다. FIR 필터의 필터링 방법은 입력 신호와 필터 계수를 곱하고 각 입력에 대한 곱셈 결과를 더하는 것이다.
곱셈기(multiplier)는 회로가 복잡하고, 처리 시간이 덧셈기(adder)보다 길다.
따라서 일반적인 FIR 필터처럼 곱셈을 수행하기 위해 곱셈기를 사용하는 것은 칩으로 구현했을 때 칩의 크기가 커지고 속도가 느려져 데이터 처리 시간이 길어지는 단점이 생긴다.
그래서 고안된 고속 상관기(Correlator)에서는 덧셈기만을 사용하여FIR 필터를 구현하였다.
SAR 신호를 실시간(real time)으로 처리하는 것을 목표로 하고 있으므로, 덧셈기를 사용한 FIR 필터가 Correlator로서 적합하다
[그림 2-3] 고속 SAR 신호 처리를 위해 우리 연구실에서
개발한 고속 상관기(Correlator)칩과 보드의 모습
[그림 2-3]은 고속 상관기(Correlator)를 구현한 PCI 보드와 보드 위의 칩을 보여주고 있다.보드의 오른쪽에 보이는 알테라 FPGA칩이 상관기 칩이다. 그리고 PCI 보드 위의 라인은 PC를 통하여 VHDL 코드를 컴파일하여 FPGA칩으로 다운로드를 하기 위해 사용된다.일단 다운로드가 되고 나면 상관기 칩과 PC의 SAR 신호처리 애플리케이션은 PCI 버스를 통하여 데이터를 주고 받게 된다.
SAR 신호는 방대한 양의 데이터를 처리하므로 상관기(Correlator)를 프로그램으로 구현하면 실시간 신호처리가 불가능하다. 그러므로 우리는 빠른 데이터 처리를 위해 상관기 전용칩을 구현하게 된 것이다.
이제 마지막으로 우리의 고속 상관기 보드를 사용하여 처리된 SAR 영상을 보도록 하자.
[그림 2-4] 고속 상관기로 들어가는 원시데이터의 모습
[그림 2-5] 고속 상관기에서의 처리후의 모습
위의 두 영상을 보면 원시(Raw) 데이터에 비해 처리 후의 데이터가 더 많은 정보를
포함하고 있다는 것을 알 수 있다. 하지만, 처리 후의 영상도 전문가들 보아야 알 수 있을
정도로 일반인들은 영상이 무엇을 나타내고 있는지 알 수 없다. 요즘 영화에서 인공위성을 통해
순식간에 차의 번호를 인식하거나 사람의 얼굴을 알아보는 것은 현재의 기술로는 사실상 불가능한 것이다.
즉, 되기는 되지만 시간이 너무 많이 걸린다. 즉, 인공위성이 찍고 나서, 한달 후에 차를 인식하더라도
그 차는 이미 어디 있는지 알 수 없을 것이다. 하지만 우리 연구실과 같은 연구들에 의하여
조만간에 점차적으로 실시간 처리가 될 것임은 분명한 사실이다.
http://www.endi.co.kr/Home/news/영상인식/3.htm
3. 다중표적추적(Multiple Target Tracking)이란 무엇인가
다중표적추적 기술은 레이더(RADAR)나 수중음파탐지기(SONAR)에 컴퓨터를 연결하여 탐지 신호로부터 동시에 여러 개의 표적을 추적하여 표적의 예상 경로를 추정한다.
레이더나 음파탐지기이외에 가시광선 카메라나 적외선 카메라 등 다른 센서가 사용되기도 한다.
[그림 3-1]에 다중표적추적의 기본 원리를 나타내었다.
x 표시가 측정 데이터를 나타내는데 표적이외의 다른 데이터들이 있다.
이것은 다음과 같은 원인으로 측정 데이터가 표적이 없는 경우에도 발생하기 때문이다.
1. 오 경보(False Alarm)
2. 클러터(Clutter)
3. 표적간의 간섭현상
4. 디코이(Decoy)나 교란(Counter Measure)
표적의 예상 위치에 추적 게이트를 만들고 이 게이트 내에 들어오는 측정 데이터를 수집한다.
표적의 예상 위치에서 멀리 떨어진 측정 데이터는 표적과 상관이 없는 신호이므로 이 것을 제거하여 표적 추적을 쉽게 하는데 게이트를 사용하는 것이다.
그림에는 현재 추적 게이트 내에 측정 데이터가 2개 있고, 다른 2개는 게이트 외부에 있어서 제거되는 상황이 그려져 있다.
추적 게이트 내에 있는 측정 데이터 중에서 어느 것이 표적으로부터 발생한 신호인지 알 수 있다면 표적의 예상 위치와 측정 데이터로부터 현재의 위치를 추정하는 칼만 필터(Kalman Filter)를 사용하면 된다.
현재의 위치를 추정한 후에는 다음 시간의 표적 위치를 예상하고 그 곳에 추적 게이트를 생성하여 연속적인 표적 추적을 하게 된다.
그러나, 어느 측정 데이터가 표적으로 발생했는지를 명백하게 알 수 없는 경우에는 칼만 필터에 공급할 측정 데이터를 선택할 수 없기 때문에 문제가 된다. 또한, 잡음의 영향 때문에 표적의 탐지 확률이 1 보다 작고, 표적으로부터 발생한 신호를 탐지하지 못하는 경우도 발생한다.
이와 같이 측정 데이터가 여러 개 존재하는 상황에서 실제로 표적에서 발생한 데이터를 가려내는 것을 데이터 정합(Data Association) 과정이라고 한다. 다중표적추적에서 가장 어려운 점은 데이터 정합(Data Association) 과정이다.
특히 [그림 3-2]와 같이 2개의 표적이 근접한 경우에는 추적 게이트의 겹침이 생기고, 이 부분에 위치하는 측정 데이터의 데이터 정합은 복잡하게 된다.
데이터 정합 과정에는 다음과 같은 방법이 있다.
1. 가까운 이웃(NN; Nearest Neighbor) 방식 :
표적의 예상 위치에 가장 가까운 측정 데이터를 선택하는 방식이다.
이 방식은 계산이 간단하고 효율적이어서 많이 쓰이고 있다.
그러나, 클러터(clutter)가 많은 경우에는 표적을 놓치는 확률이 커지게 되어서 신뢰성이 떨어지므로 사용할 수가 없다.
2. 조인트 확률 데이터 결합(JPDA; Joint Probabilistic Data Association) 방식 :
이 방식은 모든 가능한 데이터 결합에 대한 확률을 계산하고, 이 것의 가중 평균을 데이터 결합에 사용하는 확률적인 방법이다.
클러터가 많은 경우에 NN 방식 보다 좋은 성능을 보인다.
그러나, 확률적인 방법을 쓰기 때문에 추적하는 표적들이 근접하게 되면 표적들 사이에 지속적인 간섭 현상이 데이터 결합에 반영되어 추정 경로의 오차가 증가하는 경향을 보인다.
그리고, 모든 가능한 데이터 결합의 확률을 계산해야 하기 때문에 표적과 측정 데이터의 증가에 대한 계산량의 증가가 지수 함수적이다.
3. 다중 가정 추적(MHT; Multiple Hypotheses Tracking) 방식 :
이 방식은 여러 스캔의 측정 데이터를 저장해두고, 여기에서 표적의 경로를 찾아내는 다중 스캔(Multiple Scan) 방식이다. 이 방식은 여러 스캔의 데이터를 저장하기 위해서 메모리가 많이 소요되고, 가능한 경로의 조합이 지수 함수적으로 발생하므로 계산량이 많다.
4. 기대치-최대화(EM; Expectation-Maximization) 방식 :
이 방식은 데이터 정합(Data Association) 관계를 숨겨진 상태(Hidden State)로 설정하고, 확률이론의 기대치-최대화(Expectation-Maximization) 방식을 이용하여 표적 추적을 하면서 동시에 숨겨진 상태의 추정을 하는 방식이다.
우리 연구실에서는 EM 방식에 의한 다중표적추적 알고리즘을 연구하고 있다.
이 알고리즘을 자바 언어로 프로그래밍(programming)하여 컴퓨터로 시뮬레이션(simulation)을 하는 화면이 [그림 3-3]이다.
자바 언어는 객체 지향 언어로서 프로그램 작성이 용이하고, 플랫폼 독립적(Platform Independent)이기 때문에 X 윈도우를 사용하는 유닉스 워크스테이션(Unix Workstation)이나 MS 윈도우에서 자유롭게 실행시킬 수 있다.
시뮬레이션(simulation) 결과는 [그림 3-3]과 같다. 레이더의 전방 1Km 지역을 교차하여 지나가는 두 개의 표적을 추적한 것이다.
[그림 3-3] 다중 표적 추적기의 시뮬레이션 모습
http://www.endi.co.kr/Home/news/영상인식/4.htm
4. 3차원 영상인식(stereo matching)이란 무엇인가
우리가 보는 이미지는 3차원 실세계를 두 개의 이차원 평면에 투영시킨 모습이다.
이러한 변환을 원근적 변환(perspective transformation), 또는 이미징 변환(imaging transformation)이라고 부르며, 이것은 다-대-일(many-to-one) 변환이라서 일반적으로 하나의 이미지만 가지고는 원래의 삼차원 세계를 복원하는 것은 불가능하다.
그러나, 우리 인간이 두 개의 눈으로 3차원을 인식하듯이, 공간적으로 떨어진 위치에 있는 두 개의 카메라를 가지고 동일한 장면으로부터 이미지 쌍(pair)을 만들어낸다면, 두 이미지에서 볼 수 있는 삼차원 세계의 부분들은 다시 복원할 수 있다.
이러한 과정(process)을 스테레오 비전(stereo vision)이라고 한다.
그러나, 스테레오 비전을 컴퓨터로 구현하는 일은 지난 30년간 많은 연구들에도 불구하고 쉽게 해결되지 않고 있다.
스테레오 비전은 인간의 시각 시스템과 같이 보행, 항해등에 사용할 수 있음은 물론이고, 다른 많은 응용분야에 적용할 수 있다.
우리 연구실에서는 인간이 3차원을 인식하는 원리인 자연적인 제약조건들(natural constraints)을 이용하는 스테레오 비전 구현을 위한 병렬 알고리즘을 연구하고 있다.
스테레오 매칭은 공간적으로 다른 평면으로부터 얻어진 이차원 이미지 쌍(pair)으로부터 삼차원 세계를 복원하는 과정(process)이다.
만약 [그림 4-1]과 같이 삼차원 공간의 동일한 점에 해당하는 각각 이미지의 점들이 서로 매칭(matching)된다면, 간단한 기하학적 모델을 이용하여 스테레오 매칭을 실현할 수 있을 것이다. 그러나 지금까지 진행되어온 많은 연구들에도 불구하고 매칭은 간단한 문제가 아니다.
[그림 4-1] 3차원 영상인식의 기하학적 구조
스테레오 매칭의 기법은 크게 두 가지로 분리되며, 특성중심의 매칭(feature-based matching)과 영역중심의 매칭(area-based matching)이 있다. 특성중심 매칭방법은 밝기정보(intensity)의 이미지로부터 매칭 기본단위(primitive, instance, edge) 집합을 추출하고, 만족할 만한 기본단위를 가지고 매칭을 수행하는 방법이다. 양안차(disparity)를 나타내는 결과가 드문드문 나타나므로 완전한 양안차 지도(full disparity map)을 얻기 위해 표면 맞추기(surface fitting)라고도 불리는 보간법(interpolation)을 취해야만 한다.
영역중심(Area-based) 방법은 매칭 기본단위(primitive) 표면 전체를 매칭(matching)시키려는 방법이며, 대개 밝기 이미지(intensity image)자체를 기본단위로 쓴다.
이러한 방법들은 완전한 양안차 지도(full disparity map)를 한 번(1 step)만에 얻게 된다. 따라서, 요구되는 계산량이 매우 높으며, 잡음에 더욱 민감하게 된다.
우리 연구실에서는 수년동안 스테레오 비전을 연구하고 있으며, 현재는 최적 불일치(disparity) 경로를 찾기 위해 동적 프로그래밍(dynamic programming)기법을 사용하는 방법을 연구중이다. 이 알고리즘은 [그림 4-2]에서 설명하고 있다.
여기서 탐색 영역은 투사 기하(projection geometry), 대상의 구성 상태, 카메라 기하(geometry) 등의 요소들 때문에 발생하는 많은 제약 조건(constraints)에 의해 탐색할 영역이 줄어들게 된다. 이러한 알고리즘은 PC를 이용했을 때, 깊이 정보(depth)를 찾는데 몇 초의 시간이 걸린다.
우리는 또한 깊이 정보(depth)를 찾기 위해 대상 표면(object surface)의 마르코프 확률장 (MRF; Markov random field) 모델을 사용하는 기법도 연구중이며, 이 방법은 계산량이 많아서 현재로서는 수 십 분의 시간에 걸리게 되지만 보다 완벽한 계산 결과를 낼 수 있으므로, MRF 방식에서의 계산량을 줄이는 연구를 수행 중이다.
[그림 4-2] 3차원 복원 가능한 점들의 공간 구조
스테레오 이미지에 대한 실험 결과들 중 몇 가지 예를 [그림 4-3]과 [그림 4-4]에 두었다. [그림 4-3]은 기울어진 판자 위에 구(sphere)가 위치하고 있는 합성 이미지에 대해 쌍(pair)을 보여주고 있다.
계산된 심도(depth)는 [그림 4-3c]에 흑백 명암 (gray-scale) 이미지로 나와 있으며, 여기서 검은색은 카메라로부터 가장 먼 곳을 하얀색은 카메라로부터 가장 가까운 곳을 나타낸다. [그림 4-3d]는 깊이정보(depth)의 삼차원 모양을 보여주고 있다. 미 국방성 건물을 찍은 두 장의 항공 사진이 또한 [그림 4-4]에 나타나 있다.
[그림 4-3a] 왼쪽에서 본 구의 모습
[그림 4-3b] 오른쪽에서 본 구의 모습
[그림 4-3c] 왼쪽 그림과 오른쪽 그림을 이용하여 3차원 복원한 모습
[그림 4-3d] 깊이 정보를 보다 명확하게 표현한 그림
[그림 4-4a] 왼쪽에서 본
미국방성 모습
[그림 4-4b] 오른쪽에서 본
미국방성 모습
[그림 4-4c] 왼쪽 그림과 오른쪽
그림을 이용하여 복원한 3차원 모습
[그림 4-5]스테레오 칩을 항해 시스템에 적용한 예
우리 연구실에서는 또한 고속 병렬 프로세싱 구조(architecture)를 이용한 VLSI 스테레오 비전 칩을 연구중이며, 30 ms 미만의 계산 속도를 예상하고 있다. 이 칩이 개발되면 비디오 이미지의 실시간 스테레오 비전 프로세싱이 가능하게 되며, 차량이나 로봇을 위한 자동 항해 시스템(autonomous navigation system)의 중요한 부분을 이루게 된다. 대상 물체까지의 거리 정보는 당연히 항해에 중요한 것이며, 스테레오 비전 칩은 이러한 정보를 항해 경로 결정을 담당하는 상위 항해 컴퓨터에 실시간으로 제공하는 역할을 하게 된다.
이러한 메커니즘을 [그림 4-5]에 두었다.
이상으로 세 달간의 지능신호처리 연재를 마감하려한다.
본 연재에서 소개된 지능신호처리 분야에 관심이 있으신 독자 분들은 포항공대 지능신호처리 연구실의 홈페이지에 방문하시거나 저자에게 메일을 주시면 성실히 답해드리겠습니다. 감사합니다.
http://isp.postech.ac.kr
ighton@postech.ac.kr