컴퓨터 비전 작업에는 디지털 이미지를 획득, 처리, 분석, 이해하는 방법과 현실 세계에서 고차원 데이터를 추출하여 수치적 또는 기호적 정보, 예를 들어 의사결정의 형태로 산출하는 방법이 포함된다. 여기서 '이해'란 시각 이미지를 사고 과정에 의미 있고 적절한 행동을 이끌어낼 수 있는 세계의 기술(記述)로 변환하는 것을 의미한다. 이러한 이미지 이해는 기하학, 물리학, 통계학, 학습 이론의 도움으로 구축된 모델을 사용하여 이미지 데이터에서 기호적 정보를 분리해내는 것으로 볼 수 있다.

컴퓨터 비전이라는 과학 분야는 이미지에서 정보를 추출하는 인공 시스템의 이론을 다룬다. 이미지 데이터는 비디오 시퀀스, 다중 카메라의 뷰, 3D 스캐너의 다차원 데이터, 라이다(LiDAR) 센서의 3D 포인트 클라우드, 의료 스캐닝 장치 등 다양한 형태를 취할 수 있다. 기술 분야로서의 컴퓨터 비전은 이론과 모델을 컴퓨터 비전 시스템 구축에 적용하고자 한다.

컴퓨터 비전의 하위 분야로는 장면 재구성, 객체 탐지, 이벤트 탐지, 활동 인식, 비디오 추적, 객체 인식, 3D 자세 추정, 학습, 인덱싱, 움직임 추정, 비주얼 서보잉, 3D 장면 모델링, 이미지 복원 등이 있다.

정의

컴퓨터 비전은 디지털 이미지나 비디오에서 컴퓨터가 어떻게 고수준의 이해를 얻을 수 있는지를 다루는 학제간 분야이다. 공학의 관점에서 보면, 인간의 시각 시스템이 수행할 수 있는 작업을 자동화하는 것을 목표로 한다. "컴퓨터 비전은 단일 이미지 또는 연속 이미지에서 유용한 정보를 자동으로 추출, 분석, 이해하는 것을 다룬다. 이는 자동 시각 이해를 달성하기 위한 이론적·알고리즘적 기반을 개발하는 것을 수반한다." 과학 분야로서의 컴퓨터 비전은 이미지에서 정보를 추출하는 인공 시스템의 이론을 다룬다. 이미지 데이터는 비디오 시퀀스, 다중 카메라의 뷰, 의료 스캐너의 다차원 데이터 등 다양한 형태를 취할 수 있다. 기술 분야로서의 컴퓨터 비전은 컴퓨터 비전 시스템 구축을 위해 이론과 모델을 적용하고자 한다. 머신 비전은 특히 공장 자동화 맥락에서의 시스템 공학 분야를 지칭한다. 최근에는 컴퓨터 비전과 머신 비전이라는 용어가 상당 부분 수렴하는 추세이다.

역사

1960년대 후반, 컴퓨터 비전은 인공지능을 선도하던 대학들에서 시작되었다. 로봇에 지능적 행동을 부여하기 위한 디딤돌로서 인간의 시각 시스템을 모방하려는 것이 목적이었다. 1966년에는 카메라를 컴퓨터에 연결하고 "보이는 것을 설명"하게 하는 학부생 여름 프로젝트를 통해 이를 달성할 수 있을 것이라고 믿었다.

당시 주류였던 디지털 이미지 처리 분야와 컴퓨터 비전을 구별한 것은 완전한 장면 이해 달성을 목표로 이미지에서 3차원 구조를 추출하려는 열망이었다. 1970년대의 연구들은 오늘날 존재하는 많은 컴퓨터 비전 알고리즘의 초기 기반을 형성했는데, 여기에는 이미지에서의 에지 추출, 선분 라벨링, 비다면체 및 다면체 모델링, 객체를 작은 구조의 상호연결로 표현하는 방법, 광학 흐름(옵티컬 플로우), 움직임 추정 등이 포함된다.

그 다음 10년간은 보다 엄밀한 수학적 분석과 컴퓨터 비전의 정량적 측면에 기반한 연구가 이루어졌다. 여기에는 스케일 공간의 개념, 음영·질감·초점 등 다양한 단서로부터의 형상 추론, 스네이크(snakes)로 알려진 윤곽선 모델 등이 포함된다. 연구자들은 또한 이러한 수학적 개념의 상당수가 정규화 및 마르코프 랜덤 필드와 동일한 최적화 프레임워크 내에서 처리될 수 있다는 것을 깨달았다.

1990년대에 이르러 이전의 일부 연구 주제들이 다른 것들보다 더 활발해졌다. 투영 3D 재구성 연구는 카메라 캘리브레이션에 대한 더 나은 이해로 이어졌다. 카메라 캘리브레이션을 위한 최적화 방법이 등장하면서, 많은 아이디어가 이미 사진측량 분야의 번들 조정(bundle adjustment) 이론에서 탐구되었음이 밝혀졌다. 이는 여러 이미지로부터 장면의 희소 3D 재구성 방법으로 이어졌다. 밀집 스테레오 대응 문제와 추가적인 다시점 스테레오 기법에서도 진전이 이루어졌다. 동시에 그래프 컷의 변형이 이미지 분할 문제를 해결하는 데 사용되었다. 이 시기는 또한 통계적 학습 기법이 이미지에서 얼굴을 인식하는 데 실용적으로 처음 사용된 때이기도 하다(고유얼굴(Eigenface) 참조). 1990년대 말에 가까워지면서 컴퓨터 그래픽스와 컴퓨터 비전 분야 간의 상호작용이 증가하며 중요한 변화가 일어났다. 여기에는 이미지 기반 렌더링, 이미지 모핑, 뷰 보간, 파노라마 이미지 스티칭, 초기 라이트 필드 렌더링이 포함되었다.

최근의 연구에서는 머신 러닝 기법 및 복잡한 최적화 프레임워크와 결합하여 사용되는 특징 기반 방법의 부활이 나타났다.

딥러닝 기법의 발전은 컴퓨터 비전 분야에 새로운 활력을 가져왔다. 분류, 분할, 옵티컬 플로우에 이르는 다양한 작업에서 여러 벤치마크 컴퓨터 비전 데이터셋에 대한 딥러닝 알고리즘의 정확도는 이전 방법들을 능가하였다.

관련 분야

고체물리학

고체물리학은 컴퓨터 비전과 밀접하게 관련된 또 다른 분야이다. 대부분의 컴퓨터 비전 시스템은 전자기 복사를 감지하는 이미지 센서에 의존하며, 이는 일반적으로 가시광선, 적외선 또는 자외선의 형태이다. 센서는 양자물리학을 사용하여 설계된다. 빛이 표면과 상호작용하는 과정은 물리학으로 설명된다. 물리학은 대부분의 이미징 시스템의 핵심 부분인 광학의 거동을 설명한다. 정교한 이미지 센서는 이미지 형성 과정에 대한 완전한 이해를 제공하기 위해 양자역학까지 필요로 한다. 또한 물리학의 다양한 측정 문제, 예를 들어 유체의 움직임 등을 컴퓨터 비전을 사용하여 해결할 수 있다.

신경생물학

신경생물학은 컴퓨터 비전 알고리즘의 발전에 큰 영향을 미쳤다. 지난 세기에 걸쳐 인간과 다양한 동물에서 시각 자극 처리에 관여하는 눈, 뉴런, 뇌 구조에 대한 광범위한 연구가 이루어졌다. 이는 자연 시각 시스템이 특정 시각 관련 작업을 해결하기 위해 어떻게 작동하는지에 대한 대략적이면서도 복잡한 설명으로 이어졌다. 이러한 결과는 컴퓨터 비전 내에서 다양한 복잡도 수준에서 생물학적 시스템의 처리와 행동을 모방하도록 인공 시스템을 설계하는 하위 분야를 탄생시켰다. 또한 컴퓨터 비전 내에서 개발된 일부 학습 기반 방법(예: 신경망 및 딥러닝 기반 이미지·특징 분석과 분류)은 신경생물학에 그 배경을 두고 있다. 1970년대에 후쿠시마 구니히코가 개발한 신경망인 네오코그니트론(Neocognitron)은 컴퓨터 비전이 신경생물학, 특히 일차 시각 피질에서 직접 영감을 받은 초기 사례이다.

컴퓨터 비전 연구의 일부 갈래는 생물학적 시각 연구와 밀접하게 관련되어 있다. 실제로 AI 연구의 많은 갈래가 인간 지능에 대한 연구 및 저장된 지식을 활용한 시각 정보의 해석, 통합, 활용과 밀접하게 연결되어 있는 것과 마찬가지이다. 생물학적 시각 분야는 인간과 다른 동물의 시각 인지 이면의 생리학적 과정을 연구하고 모델링한다. 반면에 컴퓨터 비전은 인공 시각 시스템 이면의 소프트웨어와 하드웨어에 구현되는 알고리즘을 개발하고 기술한다. 생물학적 시각과 컴퓨터 비전 간의 학제간 교류는 양 분야 모두에 유익한 것으로 입증되었다.

신호 처리

컴퓨터 비전과 관련된 또 다른 분야는 신호 처리이다. 단일 변수 신호를 처리하는 많은 방법은