KR20160063083A

KR20160063083A - 카메라 시스템 및 카메라 시스템 동작 방법

Info

Publication number: KR20160063083A
Application number: KR1020140166632A
Authority: KR
Inventors: 오재윤
Original assignee: 한화테크윈 주식회사
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2016-06-03
Also published as: US9875410B2; US20160148057A1; KR101990370B1

Abstract

본 발명의 일 실시 예에 관한 카메라 시스템은 영상을 촬영하는 카메라, 소정 간격으로 배치된 복수의 마이크들로 구성된 마이크 어레이, 상기 영상에서 피사체의 위치를 분석하고, 상기 피사체가 상기 영상의 중앙에 위치하기 위한 카메라 회전 각도를 산출하는 비디오 처리부, 상기 카메라 회전 각도에 기초하여 상기 카메라를 회전시키고, 마이크 어레이 회전 각도에 기초하여 상기 마이크 어레이를 회전시키는 구동 제어부 및 상기 카메라의 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하고, 상기 피사체까지의 거리에 기초하여 상기 마이크 어레이 회전 각도를 산출하고, 상기 마이크 어레이가 수신한 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 빔포밍부를 포함한다.

Description

카메라 시스템 및 카메라 시스템 동작 방법{camera system and operating method for the same}

본 발명의 실시 예들은 카메라 시스템 및 카메라 시스템 동작 방법에 관한 것이다.

최근 들어, 방범, 보안, 매장 관리 등 다양한 목적으로 건물 내부나 외부, 길거리 등에 카메라 시스템을 설치하는 경우가 증가하고 있다.

감시 목적에 따라, 특정 음원의 오디오 신호를 선택적으로 검출하는 기능, 및 특정 피사체를 향해 오디오 신호를 선택적으로 전달하는 기능을 수행할 수 있는 카메라 시스템이 요구된다.

한국공개특허공보 제 2011-0026753

본 발명의 실시 예들이 해결하고자 하는 기술적 과제는 오디오 신호를 송수신하는 카메라 시스템 및 카메라 시스템 동작 방법을 제공하는 것이다.

상기 카메라 시스템은 소정 간격으로 배치되어 각각 오디오 출력 신호를 전송하는 복수의 스피커들로 구성된 스피커 어레이를 더 포함하고, 상기 빔포밍부는 상기 마이크 어레이의 회전 각도를 기초로 상기 스피커 어레이의 회전 각도를 결정하고, 상기 구동 제어부는 상기 스피커 어레이를 상기 피사체 방향으로 회전시킬 수 있다.

상기 카메라 시스템은 상기 피사체 방향의 오디오 입력 신호를 분석하고, 상기 비디오 처리부에 의해 상기 영상으로부터 인식된 상기 피사체의 입 모양과 상기 분석된 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 오디오 출력 신호를 생성하는 오디오 처리부를 더 포함하고, 상기 빔포밍부는 상기 오디오 출력 신호를 상기 피사체 방향에 대응시켜 상기 스피커 어레이로 출력할 수 있다.

상기 카메라 시스템은 상기 마이크 어레이는, 복수의 피사체들 각각의 오디오 입력 신호를 수신하고, 상기 오디오 처리부는, 상기 복수의 피사체들 각각의 오디오 입력 신호를 분석하고, 상기 비디오 처리부에서 인식된 상기 영상 내 복수의 피사체들 각각의 입 모양과, 상기 분석된 복수의 피사체들 각각의 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 복수의 오디오 출력 신호들을 생성하고, 상기 빔포밍부는, 상기 복수의 오디오 출력 신호들을 상기 복수의 피사체들 각각의 방향들로 대응시켜 상기 스피커 어레이로 출력할 수 있다.

본 발명의 다른 실시 예에 관한 카메라 시스템 동작 방법은 영상을 촬영하는 단계, 피사체가 상기 영상의 중앙에 위치하도록 카메라를 회전시키는 단계, 상기 카메라의 줌트랙 정보를 추출하는 단계, 상기 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하는 단계, 상기 피사체까지의 거리에 기초하여 마이크 어레이를 피사체 방향으로 회전시키는 단계 및 상기 마이크 어레이를 통해 오디오 입력 신호를 수신하는 단계, 상기 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 단계를 포함한다.

상기 카메라 시스템 동작 방법은 스피커 어레이를 상기 피사체 방향으로 회전시키는 단계 및 상기 스피커 어레이를 통해 상기 피사체 방향으로 오디오 출력 신호를 전송하는 단계를 더 포함할 수 있다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

본 발명의 실시 예들에 따르면, 오디오 신호를 송수신하는 카메라 시스템 및 카메라 시스템 동작 방법을 제공할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 카메라 시스템의 구성을 나타내는 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 마이크 어레이를 나타내는 도면이다.
도 3은 본 발명의 일 실시 예에 따른 스피커 어레이를 나타내는 도면이다.
도 4는 본 발명의 일 실시 예에 따른 오디오 어레이를 나타내는 도면이다.
도 5는 본 발명의 일 실시 예에 따른 오디오 비디오 블록을 나타내는 도면이다.
도 6은 본 발명의 일 실시 예에 따른 오디오 어레이 구동을 설명하기 위한 도면이다.
도 7은 본 발명의 다른 실시 예에 따른 오디오 어레이 구동을 설명하기 위한 도면이다.
도 8은 본 발명의 실시 예들에 따른 카메라 시스템의 오디오 수신을 위한 동작 방법을 설명하기 위한 도면이다.
도 9는 본 발명의 실시 예들에 따른 카메라 시스템의 오디오 전송을 위한 동작 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시 예에 따른 카메라 시스템의 피사체 지정 방법을 설명하는 흐름도이다.
도 11은 본 발명의 일 실시 예에 따른 카메라 시스템의 마이크 어레이 구동 방법을 설명하는 흐름도이다.
도 12는 본 발명의 일 실시 예에 따른 카메라 시스템의 지정된 피사체의 오디오 입력 신호 검출 방법을 설명하는 흐름도이다.
도 13은 본 발명의 일 실시 예에 따른 카메라 시스템의 오디오 출력 신호 전송 방법을 설명하는 흐름도이다.
도 14는 본 발명의 일 실시 예에 따른 카메라 시스템의 음성 인식을 통한 오디오 출력 신호 생성 방법을 설명하는 흐름도이다.
도 15는 본 발명의 일 실시 예에 따른 카메라 시스템의 복수의 피사체들 각각에 대한 오디오 신호 송수신 방법을 설명하는 흐름도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

이하, 본 발명에 따른 실시 예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시 예에 따른 카메라 시스템의 구성을 나타내는 블록도이다.

도 1을 참조하면, 발명의 일 실시 예에 따른 카메라 시스템(1)은 오디오 비디오 블록(10), 줌 구동부(20), 팬/틸트 구동부(30), 구동 제어부(40), 빔포밍부(50), 오디오 처리부(60), 비디오 처리부(70)를 포함한다.

오디오 비디오 블록(10)은 카메라(11), 마이크 어레이(13), 마이크 어레이 구동부(15), 스피커 어레이(17), 스피커 어레이 구동부(19)를 포함한다.

카메라(11)는 감시 영역의 영상을 촬영한다. 도시되지 않았지만, 카메라(11)는 렌즈, 렌즈로 입력되는 광 신호를 전기 신호로 변환하는 이미지 센서, 이미지 센서에서 출력된 전기 신호를 디지털 신호로 변환하는 A/D(Analog/Digital) 변환부, 디지털 신호로부터 화질을 보상하고 미리 정해진 규격으로 휘도 신호 및 색차 신호를 합성한 영상을 출력하는 영상 처리부, 촬영된 영상을 전송하기 위한 코덱부 및 전송부 등을 포함할 수 있다. 이하에서, 비디오 신호는 카메라(11)로부터 출력되는 영상을 의미하고, 영상 신호와 비디오 신호는 혼용될 수 있다.

렌즈는 줌렌즈, 고정 초점 렌즈(fixed focal length lens)일 수 있으나, 이에 한정되지 않는다.

마이크 어레이(13)는 소정 간격으로 배치되어 각각 오디오 입력 신호를 수신하는 복수의 마이크들로 구성된다. 복수의 마이크들은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있으며, 이에 한정되지 않는다. 복수의 마이크들은 대칭 또는 비대칭으로 배치될 수 있다.

마이크 어레이(13)를 구성하는 마이크는 지향성일 수 있으나, 이에 한정되지 않는다.

마이크 어레이 구동부(15)는 마이크 어레이(13)의 중심축과 카메라(11)의 광축 사이의 각도를 설정한다. 마이크 어레이 구동부(15)는 마이크 어레이(13)를 구성하는 복수의 마이크들 각각과 결합할 수 있는 복수의 마이크 구동부들을 포함할 수 있다. 복수의 마이크 구동부들은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있고, 대칭 또는 비대칭으로 배치될 수도 있으며, 이에 한정되지 않는다.

이하에서, 도 2를 참조하여 카메라(11)와의 사이에 각도 설정이 가능한 마이크 어레이(13)에 대하여 상세하게 설명한다.

도 2는 본 발명의 일 실시 예에 따른 마이크 어레이를 나타내는 도면이다.

도 2를 참조하면, 평면형으로 배열된 복수의 마이크들을 포함하는 마이크 어레이(13)는 평면형으로 배열된 복수의 마이크 구동부들을 포함하는 마이크 어레이 구동부(15)와 결합할 수 있다.

마이크 구동부(A)는 마이크(a)의 오디오 신호 수신부가 카메라(11)의 렌즈와 동일한 방향을 바라보도록 카메라(11)에 연결될 수 있다. 마이크 구동부(A)는 마이크(a)를 회전시켜 마이크 어레이(13)의 중심축과 카메라(11)의 광축 사이의 각도를 설정할 수 있다.

다시 도 1을 설명한다.

스피커 어레이(17)는 소정 간격으로 배치되어 각각 오디오 출력 신호를 전송하는 복수의 스피커들로 구성된다. 복수의 스피커들은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있으며, 이에 한정되지 않는다. 복수의 스피커들은 대칭 또는 비대칭으로 배치될 수 있다.

스피커 어레이(17)는 마이크 어레이(13)와 겹쳐질 수도 있고, 겹쳐지지 않고 완전히 분리될 수도 있다. 스피커 어레이(17)에 포함된 복수의 스피커들은 예컨대, 마이크 어레이에 포함된 복수의 마이크들 사이에 배치되는 형태로 겹쳐질 수 있다.

스피커 어레이 구동부(19)는 스피커 어레이(17)의 중심축과 카메라(11)의 광축 사이의 각도를 설정한다. 스피커 어레이 구동부(19)는 스피커 어레이(17)를 구성하는 복수의 스피커들 각각과 결합할 수 있는 복수의 스피커 구동부들을 포함할 수 있다. 복수의 스피커 구동부들은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있고, 대칭 또는 비대칭으로 배치될 수도 있으며, 이에 한정되지 않는다.

이하에서, 도 3를 참조하여 카메라(11)와의 사이에 각도 설정이 가능한 스피커 어레이(17)에 대하여 상세하게 설명한다.

도 3은 본 발명의 일 실시 예에 따른 스피커 어레이를 나타내는 도면이다.

도 3을 참조하면, 평면형으로 배열된 복수의 스피커들을 포함하는 스피커 어레이(17)는 평면형으로 배열된 복수의 스피커 구동부들을 포함하는 스피커 어레이 구동부(19)와 결합할 수 있다.

스피커 구동부(B)는 스피커(b)의 오디오 신호 전송부가 카메라(11)의 렌즈와 동일한 방향을 바라보도록 카메라(11)에 연결될 수 있다. 스피커 구동부(B)는 스피커(b)를 회전시켜 스피커 어레이(17)의 중심축과 카메라(11)의 광축 사이의 각도를 설정할 수 있다.

이하에서, 도 4를 참조하여 복수의 마이크들과 복수의 스피커들로 구성된 오디오 어레이에 대하여 상세하게 설명한다.

도 4는 본 발명의 일 실시 예에 따른 오디오 어레이를 나타내는 도면이다.

도 4를 참조하면, 평면형으로 배열된 복수의 마이크들 및 복수의 스피커들을 포함하는 오디오 어레이(C)는 평면형으로 배열된 복수의 마이크 구동부들 및 복수의 스피커 구동부들을 포함하는 오디오 어레이 구동부(D)와 결합할 수 있다.

오디오 어레이 구동부(D)는 마이크(a)의 오디오 신호 수신부 및 스피커(b)의 오디오 신호 전송부 각각이 카메라(11)의 렌즈와 동일한 방향을 바라보도록 카메라(11)에 연결될 수 있다.

비디오 오디오 블록(E)은 오디오 어레이(C), 오디오 어레이 구동부(D), 및 카메라(11)를 포함할 수 있다. 비디오 오디오 블록(E)에서 카메라(11)는 오디오 어레이(C)의 중심 또는 오디오 어레이(C)의 옆에 배치될 수 있으나, 이에 한정되지 않는다.

다시 도 1을 설명한다.

줌 구동부(20)는 카메라(11)를 구성하는 렌즈가 줌 동작을 수행하도록 한다. 예컨대, 줌 구동부(20)는 경통(미도시됨)에 있어서의 줌렌즈의 위치를 이동시킴으로써, 초점 거리를 변경할 수 있다.

팬/틸트 구동부(30)는 카메라(11)를 구성하는 렌즈, 마이크 어레이(13), 및 스피커 어레이(17) 중 적어도 하나가 팬회전, 틸트회전 중 적어도 하나의 동작을 수행하도록 한다.

예를 들어, 팬/틸트 구동부(30)는 렌즈, 마이크 어레이(13), 및 스피커 어레이(17) 중 적어도 하나가 팬회전, 틸트회전 중 적어도 하나의 동작을 수행하도록 카메라(11)를 구동시킬 수 있다.

이하에서, 도 5를 참조하여 오디오 비디오 블록에 대하여 상세하게 설명한다.

도 5는 본 발명의 일 실시 예에 따른 오디오 비디오 블록을 나타내는 도면이다.

도 5를 참조하면, 비디오 오디오 블록(E)은 팬/틸트 블록(F)과 결합하여 비디오 오디오 PTZ(pan/tilt/zoom) 블록(G)을 구성한다. 비디오 오디오 PTZ 블록(G)은 도 5에 도시된 바와 같이, 2개의 팬/틸트 구동부(30, 도 1 참조) 사이에 비디오 오디오 블록(E)을 결합하는 형태일 수 있으나, 이에 제한되지 않는다.

다시 도 1을 설명한다.

구동 제어부(40)는 마이크 어레이 구동부(15), 스피커 어레이 구동부(19), 줌 구동부(20), 및 팬/틸트 구동부(30)의 구동을 제어한다.

구동 제어부(40)는 피사체가 영상의 중앙에 위치하도록 렌즈를 회전시킬 수 있다. 예를 들면, 카메라(11)가 영상을 촬영하면, 비디오 처리부(70)가 피사체 지정 모드를 판단한다. 피사체 지정 모드가 자동 지정 모드인 경우, 비디오 처리부(70)는 피사체가 영상의 중앙에 위치하는지 여부를 판단한다. 피사체가 영상의 중앙에 위치하지 않는 경우, 비디오 처리부(70)는 피사체의 위치를 분석하고, 피사체가 영상의 중앙에 위치하기 위한 렌즈의 회전 각도를 산출한다. 구동 제어부(40)는 비디오 처리부(70)에서 산출된 렌즈의 회전 각도에 기초하여, 카메라(11)가 렌즈를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어한다.

구동 제어부(40)는 마이크 어레이(13)를 피사체 방향으로 회전시킬 수 있다. 예를 들면, 빔 포밍부(50)는 구동 제어부(4)로부터 줌 구동부(20)에서 구동한 렌즈의 줌배율에 해당하는 줌트랙 정보를 추출하고, 줌트랙 정보를 이용하여 피사체까지의 거리를 산출한다. 빔 포밍부(50)가 피사체까지의 거리에 기초하여 마이크 어레이(13)의 회전 각도를 산출하면, 구동 제어부(40)는 마이크 어레이(13)의 회전 각도에 기초하여, 마이크 어레이 구동부(15)가 마이크 어레이(13)를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어한다.

구동 제어부(40)는 스피커 어레이(17)를 피사체 방향으로 회전시킬 수 있다. 예를 들면, 빔 포밍부(50)가 마이크 어레이(13)의 회전 각도를 기초로 스피커 어레이(17)의 회전 각도를 결정하면, 구동 제어부(40)는 스피커 어레이(17)의 회전 각도에 기초하여, 스피커 어레이 구동부(19)가 스피커 어레이(17)를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어한다.

빔포밍부(50)는 하드웨어 빔포밍(beamforming)과 소프트웨어 빔포밍을 수행한다.

하드웨어 빔포밍은 구동 제어부(40)를 이용하여 마이크 어레이 구동부(15), 스피커 어레이 구동부(19), 줌 구동부(20), 및 팬/틸트 구공부(30) 중 적어도 하나를 구동하여, 마이크 어레이(13), 및 스피커 어레이(17) 중 적어도 하나가 특정한 방향을 향하는 동작을 의미할 수 있다.

소프트웨어 빔포밍은 마이크 어레이(13)를 구성하는 복수의 마이크들에 각기 다른 가중치를 부여하거나, 스피커 어레이(17)를 구성하는 복수의 스피커들에 각기 다른 가중치를 부여함으로써, 원하는 방향의 신호만을 선택하면서 원하지 않는 방향의 음원 또는 잡음을 제거하는 동작을 의미할 수 있다.

예를 들면, 빔포밍부(50)는 마이크 어레이(13)가 수신한 복수의 오디오 입력 신호들을 증폭, 및 아날로그-디지털 변환할 수 있다. 빔포밍부(50)는 복수의 오디오 입력 신호들을 주파수 변환(FFT, Fast Fourier Transform)하여 주파수별로 분해할 수 있다. 이어서, 빔포밍부(50)는 주파수별로 분해된 복수의 오디오 입력 신호들 각각에 복소 가중치를 적용하고, 역주파수 변환(IFFT, Inverse Fast Fourier Transform)을 실행할 수 있다. 빔포밍부(50)는 역주파수 변환된 복수의 오디오 입력 신호들에 디지털-아날로그 변환을 수행하여 소정의 오디오 입력 신호를 필터링할 수 있다.

빔포밍부(50)는 오디오 입력 신호를 신호 처리하여 소정의 음원으로부터 발생한 오디오 입력 신호를 출력하고, 다수의 피사체들 중에서 소정의 피사체를 향하여 오디오 출력 신호를 전송하기 위한 필터링을 수행한다. 예를 들어, 빔포밍부(50)는 렌즈의 줌트랙 정보를 이용하여 피사체까지의 거리를 산출할 수 있다. 줌트랙 정보는 광학 줌배율 정보를 포함할 수 있다. 빔포밍부(50)는 피사체까지의 거리에 기초하여 마이크 어레이(13)의 회전 각도를 산출할 수 있다. 빔포밍부(50)는 피사체 방향으로 회전된 마이크 어레이(13)가 수신한 오디오 입력 신호를 신호 처리하여 피사체 방향의 오디오 입력 신호를 출력할 수 있다. 다른 예를 들어, 빔포밍부(50)는 마이크 어레이(13)의 회전 각도에 기초하여 스피커 어레이(17)의 회전 각도를 산출할 수 있다. 빔포밍부(50)는 스피커 어레이(17)를 구성하는 복수의 스피커들 각각을 통해 크기 및 위상 중 적어도 하나가 각기 다른 복수의 오디오 출력 신호들을 출력함으로써, 피사체 방향의 오디오 출력 신호를 전송할 수 있다.

빔포밍부(50)는 시분할 처리를 통해 다수의 피사체들 각각을 향하여 다수의 오디오 출력 신호들을 전송을 수행한다. 예를 들어, 빔포밍부(50)는 제1 피사체 방향의 제1 오디오 출력 신호와 제2 피사체 방향의 제2 오디오 출력 신호를 시분할 방식으로 전송할 수 있다. 빔포밍부(50)는 제1 시간 동안 스피커 어레이(17)를 구성하는 복수의 스피커들 각각을 통해 크기 및 위상 중 적어도 하나가 각기 다른 복수의 제1 오디오 출력 신호들을 출력함으로써, 제1 피사체 방향의 오디오 출력 신호를 전송할 수 있다. 이어서, 빔포밍부(50)는 제2 시간 동안 스피커 어레이(17)를 구성하는 복수의 스피커들 각각을 통해 크기 및 위상 중 적어도 하나가 각기 다른 복수의 제2 오디오 출력 신호들을 출력함으로써, 제2 피사체 방향의 오디오 출력 신호를 전송할 수 있다. 제1 시간과 제2 시간은 예컨대, 0.5초로 피사체가 신호 출력의 단절을 느낄 수 없을 정도의 시간일 수 있고, 제1 시간 구간과 제2 시간 구간이 번갈아 가며 반복될 수 있다.

빔포밍부(50)는 시간 영역, 및 주파수 영역 중 적어도 하나의 영역에서 필터링을 수행할 수 있다.

이하에서, 도 6 및 도 7을 참조하여, 본 발명의 실시 예들에 따른 오디오 어레이 구동을 상세하게 설명한다.

도 6은 본 발명의 일 실시 예에 따른 오디오 어레이 구동을 설명하기 위한 도면이다.

도 6의 (a)를 참조하면, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 제1 피사체(H1)로부터 발생된 오디오 입력 신호를 수신하고, 제1 피사체(H1)를 향하여 오디오 출력 신호를 전송한다.

도 6의 (b)를 참조하면, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 제2 피사체(H2)로부터 발생된 오디오 입력 신호를 수신하고, 제2 피사체(H2)를 향하여 오디오 출력 신호를 전송한다.

이때, 비디오 오디오 PTZ 블록(G)은 오디오 어레이를 팬회전 또는 틸트회전시킴으로써, 오디오 신호 송수신 대상을 제1 피사체(H1)에서 제2 피사체(H2)로 변경할 수 있다.

도 7은 본 발명의 다른 실시 예에 따른 오디오 어레이 구동을 설명하기 위한 도면이다.

이하에서, 피사체(H)가 카메라(11)의 광축(J)에 해당하는 지점에 위치하는 경우를 전제로 설명한다.

도 7의 (a)와 같이, 오디오 어레이(C)가 오디오 신호를 송수신하는 송수신 영역(I)이, 카메라(11)의 광축(J)에 해당하는 지점을 향하지 않는다면, 원거리의 피사체(H)와의 오디오 신호 송수신은 비효율적이다.

도 7의 (b)와 같이, 본 발명의 일 실시 예에 따라, 오디오 어레이(C)가 카메라(11)의 광축(J)을 향하도록 구동되면, 송수신 영역(I)은 카메라(11)의 광축(J)에 해당하는 지점을 향하게 되어 실질적으로 오디오 주밍(audio zooming)이 가능하게 되므로, 원거리의 피사체(H)와의 오디오 신호 송수신이 보다 효율적일 수 있다.

다시 도 1을 설명한다.

오디오 처리부(60)는 오디오 입력 신호를 분석한다. 오디오 처리부(60)는, 비디오 처리부(70)에 의해 인식된 피사체의 얼굴 인식, 행동 패턴 분석, 및 상황 분석 중 적어도 하나와, 분석된 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 오디오 출력 신호를 생성할 수 있다. 예를 들어, 오디오 처리부(60)는, 비디오 처리부(70)에 의해 인식된 피사체의 입모양과 분석된 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 오디오 출력 신호를 생성할 수 있다. 오디오 처리부(60)는 분석된 오디오 입력 신호와 비디오 처리부(70)에서 분석된 비디오 신호를 매칭하여 음성을 보다 정확하게 인식할 수 있다. 인식된 음성에 대응되는 오디오 출력 신호는 사전에 녹음된 음성, 경고음 등일 수 있다. 오디오 처리부(60)는 인식된 음성에 대응되는 오디오 출력 신호를 스피커 어레이(17)로 전달할 수 있다.

오디오 처리부(60)는 비디오 처리부(70)에서 인식된 영상 내 복수의 피사체들 각각의 입 모양과, 분석된 오디오 입력 신호를 매칭하여 음성들을 인식하고, 인식된 음성들에 대응되는 복수의 오디오 출력 신호들을 생성할 수 있다.

비디오 처리부(70)는 비디오 신호를 분석한다.

비디오 처리부(70)는 영상에서 피사체의 위치를 분석한다. 피사체 지정 모드가 자동 지정 모드인 경우, 비디오 처리부(70)는 피사체가 영상의 중앙에 위치하는지 여부를 판단할 수 있다. 피사체가 영상의 중앙에 위치하지 않는 경우, 비디오 처리부(70)는 영상의 중앙을 기준으로 피사체의 위치를 분석하고, 피사체가 영상의 중앙에 위치하기 위한 렌즈의 회전 각도를 산출할 수 있다. 피사체가 영상의 중앙에 위치하는 경우, 비디오 처리부(70)는 피사체를 지정할 수 있다.

비디오 처리부(70)는 피사체의 얼굴 인식, 행동 패턴 분석, 및 상황 분석 중 적어도 하나를 수행한다. 예를 들어, 비디오 처리부(70)는 비디오 신호로부터 피사체의 입 모양을 인식할 수 있다. 비디오 처리부(70)는 비디오 신호로부터 복수의 피사체들을 각각을 식별한다. 비디오 처리부(70)는 식별된 복수의 피사체들 각각에 대한 얼굴 인식, 행동 패턴 분석, 및 상황 분석 중 적어도 하나를 수행할 수 있다.

도 8은 본 발명의 실시 예들에 따른 카메라 시스템의 오디오 수신을 위한 동작 방법을 설명하기 위한 도면이다.

도 8의 (a)와 같이, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 카메라 시스템으로부터 소정 거리에 있는 피사체(H)를 지정하고, 지정된 피사체(H)로부터 발생하는 오디오 입력 신호를 수신할 수 있다. 비디오 오디오 PTZ 블록(G)을 구성하는 마이크가 지향성인 경우, 원거리에 위치하는 피사체(H)로부터 발생한 오디오 입력 신호를 보다 효율적으로 검출할 수 있다. 비디오 오디오 PTZ 블록(G)은 소프트웨어 빔포밍을 수행함으로써 오디오 검출 범위를 조절할 수 있고, 하드웨어 빔포밍을 수행함으로써 오디오 검출 거리를 조절할 수 있다.

도 8의 (b)와 같이, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 복수의 피사체들 예컨대, 제1 피사체(H1), 제2 피사체(H2), 및 제3 피사체(H3)를 각각 지정하고, 다중화 방식을 통해 제1 피사체(H1), 제2 피사체(H2), 및 제3 피사체(H3) 각각으로부터 발생하는 복수의 오디오 입력 신호를 한꺼번에 수신할 수 있다. 비디오 오디오 PTZ 블록(G)은 영상에 복수의 피사체들이 위치하도록 하드웨어 빔포밍을 수행하여 복수의 피사체들에 대한 오디오 검출 거리를 조절할 수 있고, 복수의 피사체들 각각을 위한 소프트웨어 빔포밍을 수행하여 복수의 피사체들 각각에 대한 오디오 검출 범위를 조절할 수 있다.

도 9는 본 발명의 실시 예들에 따른 카메라 시스템의 오디오 전송을 위한 동작 방법을 설명하기 위한 도면이다.

도 9의 (a)와 같이, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 카메라 시스템으로부터 소정 거리에 있는 피사체(H)를 지정하고, 지정된 피사체(H)를 향하여 오디오 출력 신호를 전송할 수 있다. 비디오 오디오 PTZ 블록(G)을 구성하는 스피커가 지향성인 경우, 원거리에 위치하는 피사체(H)를 향하여 오디오 출력 신호를 보다 효율적으로 전송할 수 있다. 비디오 오디오 PTZ 블록(G)은 소프트웨어 빔포밍을 수행함으로써 오디오 전송 범위를 조절할 수 있고, 하드웨어 빔포밍을 수행함으로써 오디오 전송 거리를 조절할 수 있다.

도 9의 (b)와 같이, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 복수의 피사체들 예컨대, 제1 피사체(H1), 제2 피사체(H2), 및 제3 피사체(H3)를 각각 지정하고, 다중화 방식을 통해 제1 피사체(H1), 제2 피사체(H2), 및 제3 피사체(H3) 각각을 향하여 복수의 오디오 출력 신호를 한꺼번에 전송할 수 있다. 비디오 오디오 PTZ 블록(G)은 비디오 오디오 PTZ 블록(G)은 영상에 복수의 피사체들이 위치하도록 하드웨어 빔포밍을 수행하여 복수의 피사체들에 대한 오디오 전송 거리를 조절할 수 있고, 복수의 피사체들 각각을 위한 소프트웨어 빔포밍을 수행하여 복수의 피사체들 각각에 대한 오디오 전송 범위를 조절할 수 있다.

이하에서, 카메라 시스템의 구성 요소에 대한 도면 부호는 도 1을 참조한다.

도 10은 본 발명의 일 실시 예에 따른 카메라 시스템의 피사체 지정 방법을 설명하는 흐름도이다.

도 10을 참조하면, 카메라(11)가 감시 영역의 영상을 촬영하면(S101), 비디오 처리부(70)가 피사체 지정 모드가 자동 지정 모드인지 여부를 판단한다(S103).

피사체 지정 모드가 자동 지정 모드인 경우, 비디오 처리부(70)는 피사체가 영상의 중앙에 위치하는지 여부를 판단한다(S105).

피사체가 영상의 중앙에 위치하지 않는 경우, 비디오 처리부(70)는 피사체의 위치를 분석한다(S107). 비디오 처리부(70)는 피사체가 영상의 중앙에 위치하기 위한 렌즈의 회전 각도를 산출할 수 있다.

구동 제어부(40)는 렌즈의 팬/틸트를 구동한다(S109). 구동 제어부(40)는 카메라(11)가 렌즈를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어할 수 있다. 구동 제어부(40)는 비디오 처리부(70)에서 산출된 렌즈의 회전 각도에 기초하여, 렌즈의 팬/틸트를 구동함으로써, 피사체를 영상의 중앙에 위치시킬 수 있다.

피사체 지정 모드가 수동 지정 모드인 경우, 구동 제어부(40)는 관리자 입력에 따라 렌즈의 팬/틸트를 구동한다(S111).

피사체가 영상의 중앙에 위치하는 경우, 비디오 처리부(70)는 해당 피사체를 지정한다(S113). 본 발명의 실시 예들에 따른 카메라 시스템은 지정된 피사체 방향의 오디오 입력 신호를 검출하고, 지정된 피사체 방향으로 오디오 출력 신호를 전송할 수 있다.

도 11은 본 발명의 일 실시 예에 따른 카메라 시스템의 마이크 어레이 구동 방법을 설명하는 흐름도이다.

도 11을 참조하면, 빔포밍부(50)는 렌즈의 줌트랙 정보를 추출한다(S301). 빔포밍부(50)는 구동 제어부(40)를 통해 줌 구동부(20)의 줌트랙 정보를 추출할 수 있다.

빔포밍부(50)는 마이크 어레이(13)의 구동 각도를 산출한다(S303). 빔포밍부(50)는 렌즈의 줌트랙 정보를 이용하여 피사체까지의 거리를 산출하고, 피사체까지의 거리에 기초하여 마이크 어레이(13)의 회전 각도를 산출할 수 있다.

구동 제어부(40)는 마이크 어레이(13)의 구동을 제어한다(S305). 구동 제어부(40)는 빔포밍부(50)에서 산출된 마이크 어레이(13)의 회전 각도에 기초하여, 마이크 어레이 구동부(15)가 마이크 어레이(13)를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어할 수 있다.

이와 같이, 빔포밍부(50)는 구동 제어부(40), 마이크 어레이 구동부(15)를 이용하여, 마이크 어레이(13)가 지정된 피사체를 향하도록 할 수 있다.

도 12는 본 발명의 일 실시 예에 따른 카메라 시스템의 지정된 피사체의 오디오 입력 신호 검출 방법을 설명하는 흐름도이다.

도 12를 참조하면, 마이크 어레이(13)는 오디오 입력 신호를 수신한다(S501). 지정된 피사체 방향으로 회전된 마이크 어레이(13)는 지정된 피사체로부터 발생된 오디오 입력 신호를 수신할 수 있다.

빔포밍부(50)는 마이크 어레이(13)에서 오디오 입력 신호를 수신하면, 빔포밍 알고리즘을 수행하여(S503), 지정된 피사체의 오디오 입력 신호를 출력한다(S505). 빔포밍부(50)는 빔포밍 알고리즘을 수행함으로써, 마이크 어레이(13)를 통해 수신된 오디오 입력 신호를 신호 처리하여 지정된 피사체에서 발생한 오디오 입력 신호를 출력할 수 있다. 마이크 어레이(13)는 정지 또는 이동하는 피사체에서 발생하는 오디오 입력 신호뿐만 아니라 잡음이 혼합된 음장(sound field)에서 소정 방향의 음압을 측정할 수 있다. 빔포밍부(50)는 소정 방향에서 측정된 음압으로부터 잡음을 제외하기 위하여 앞서 설명한 소프트웨어 빔포밍을 수행할 수 있다.

도 13은 본 발명의 일 실시 예에 따른 카메라 시스템의 오디오 출력 신호 전송 방법을 설명하는 흐름도이다.

도 13을 참조하면, 비디오 처리부(70)가 피사체를 지정하면(S701), 빔포밍부(50)는 렌즈의 줌트랙 정보를 추출한다(S703).

빔포밍부(50)는 스피커 어레이(17)의 구동 각도를 산출한다(S705). 빔포밍부(50)는 앞서 도 11의 도면 부호 S303 단계에서 산출된 마이크 어레이(13)의 회전 각도를 기초로 스피커 어레이(17)의 회전 각도를 결정할 수 있다.

구동 제어부(40)는 스피커 어레이(17)의 구동을 제어한다(S707). 구동 제어부(40)는 빔포밍부(50)에서 산출된 스피커 어레이(17)의 회전 각도에 기초하여, 스피커 어레이 구동부(19)가 스피커 어레이(17)를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어할 수 있다.

빔포밍부(50)는 빔포밍 알고리즘을 수행한다(S709). 빔포밍 알고리즘을 통해 오디오 출력 신호가 다중화되어 크기 및 위상 중 적어도 하나가 다른 복수의 오디오 출력 신호들이 생성될 수 있다.

스피커 어레이(17)는 오디오 출력 신호를 전송한다(S711). 지정된 피사체 방향으로 회전된 스피커 어레이(17)는 지정된 피사체를 향하여 오디오 출력 신호를 출력할 수 있다. 스피커 어레이(17)를 구성하는 복수의 스피커들 각각이 크기 및 위상 중 적어도 하나가 다른 복수의 오디오 출력 신호들을 출력함으로써, 방향성을 가진 오디오 출력 신호를 출력할 수 있다.

도 14는 본 발명의 일 실시 예에 따른 카메라 시스템의 음성 인식을 통한 오디오 출력 신호 생성 방법을 설명하는 흐름도이다.

도 14를 참조하면, 카메라(11)가 영상을 촬영하면(S901), 비디오 처리부(70)가 피사체를 지정한다(S903).

구동 제어부(40)는 마이크 어레이(13)가 지정된 피사체를 향하도록 마이크 어레이(13)의 구동을 제어한다(S905).

마이크 어레이(13)가 지정된 피사체에서 발생하는 오디오 입력 신호를 수신하면(미도시됨), 빔포밍부(50)는 빔포밍 알고리즘을 수행하여(S907), 지정된 피사체의 오디오 입력 신호를 출력한다(미도시됨).

오디오 처리부(60)는 오디오 입력 신호를 분석하고(S909), 비디오 처리부(70)는 도면 부호 S901 단계에서 촬영된 비디오 신호를 분석한다(S911).

오디오 처리부(60)는 분석된 오디오 입력 신호 및 분석된 비디오 신호를 이용하여 오디오 출력 신호를 생성한다(S913). 오디오 처리부(60)는 비디오 신호 분석 결과인 피사체의 얼굴 인식 결과, 행동 패턴 분석 결과, 및 상황 분석 결과 중 적어도 하나를, 오디오 입력 신호와 매칭하여 음성을 인식할 수 있다. 비디오 신호 분석 결과와 매칭되는 오디오 입력 신호는 비디오 신호와 동시에 수신된 오디오 입력 신호를 의미할 수 있다. 이어서, 오디오 처리부(60)는 인식된 음성에 대응되는 오디오 출력 신호를 생성할 수 있다.

구동 제어부(40)는 스피커 어레이(17)가 지정된 피사체 방향으로 회전하도록 스피커 어레이(17)의 구동을 제어한다(S915).

빔포밍부(50)는 빔포밍 알고리즘을 수행하여(S917), 지정된 피사체를 향해 오디오 출력 신호를 전송한다(S919). 이때, 빔포밍부(50)에 의해 스피커 어레이(17)가 지정된 피사체를 향해 빔포밍되어 있으므로, 지정된 피사체에게만 정확한 오디오 출력 신호가 전송될 수 있다. 오디오 출력 신호는 미리 녹음된 음성, 경고음 등일 수 있고, 관리자 입력에 의한 음성, 경고음 등일 수 있으나, 이에 한정되지 않는다.

도 15는 본 발명의 일 실시 예에 따른 카메라 시스템의 복수의 피사체들 각각에 대한 오디오 신호 송수신 방법을 설명하는 흐름도이다.

도 15를 참조하면, 카메라(11)가 복수의 피사체들이 포함된 영상을 촬영한다(S1101). 카메라(11)가 촬영하는 영상에 복수의 피사체들이 위치하도록, 구동 제어부(40)는 렌즈의 팬/틸트를 구동할 수 있다.

빔포밍부(50)는 렌즈의 줌트랙 정보를 추출하고(S1103), 렌즈의 줌트랙 정보를 이용하여 피사체까지의 거리를 산출한다(S1105). 빔포밍부(50)는 피사체까지의 거리에 기초하여 마이크 어레이(13) 및 스피커 어레이(17)의 회전 각도를 산출할 수 있다.

빔포밍부(50)는 마이크 어레이(13) 및 스피커 어레이(17)의 구동을 제어한다(S1107). 빔포밍부(50)는 산출된 마이크 어레이(13) 및 스피커 어레이(17)의 회전 각도에 기초하여 마이크 어레이(13) 및 스피커 어레이(17)의 구동을 제어할 수 있다.

카메라(11)가 복수의 피사체들이 포함된 영상을 촬영하면(S1101), 비디오 처리부(70)는 촬영된 비디오 신호를 분석한다(S1109).

비디오 처리부(70)는 비디오 신호로부터 복수의 피사체들을 검출하고(S1111), 복수의 피사체들 각각을 레이블링한다(S1113).

빔포밍부(50)는 복수의 피사체들 각각에 대한 빔포밍 알고리즘을 수행한다(S1115). 빔포밍부(50)는 레이블링된 복수의 피사체들 각각의 영상 내 위치 정보를 이용하여, 다중화 방식의 소프트웨어 빔포밍을 수행할 수 있다.

마이크 어레이(13)가 복수의 피사체들 각각의 오디오 입력 신호를 수신하면(S1117). 오디오 처리부(60)가 복수의 피사체들 각각의 오디오 입력 신호를 검출한다(S1119). 오디오 처리부(60)는 검출된 복수의 오디오 입력 신호 각각을 레이블링된 복수의 피사체들 각각과 대응시킬 수 있다. 예를 들어, 오디오 처리부(60)는 복수의 피사체들 각각의 음성을 인식할 수 있다.

이어서 오디오 처리부(60)는 복수의 피사체들 각각에 대한 오디오 출력 신호를 생성한다(S1121). 오디오 처리부(60)는 인식된 음성들 각각에 대응되는 오디오 출력 신호들을 생성할 수 있다.

빔포밍부(50)는 복수의 피사체들 각각에 대한 시분할 방식의 빔포밍 알고리즘을 수행하여(S1123), 복수의 피사체들 각각을 향해 복수의 오디오 출력 신호들을 전송한다(S1125).

본 발명의 실시 예들에 따르면, 오디오 어레이가 항상 피사체를 향하도록 제어되기 때문에 최적화된 지향성을 제공할 수 있고, 실질적으로 오디오 주밍이 가능하기 때문에 3차원적인 빔포밍을 수행할 수 있다.

본 발명의 실시 예들에 따르면, 음원이 이동하는 경우에도 오디오 어레이의 팬회전 또는 틸트 회전이 구동되어 음원과 오디오 어레이의 방향을 일치시킬 수 있기 때문에 상대 운동 때문에 발생하는 도플러 효과를 제거할 수 있다.

본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

1: 카메라 시스템
10: 오디오 비디오 블록
11: 카메라
13: 마이크 어레이
15: 마이크 어레이 구동부
17: 스피커 어레이
19: 스피커 어레이 구동부
20: 줌 구동부
30: 팬/틸트 구동부
40: 구동 제어부
50: 빔포밍부
60: 오디오 처리부
70: 비디오 처리부

Claims

영상을 촬영하는 카메라;
소정 간격으로 배치된 복수의 마이크들로 구성된 마이크 어레이;
상기 영상에서 피사체의 위치를 분석하고, 상기 피사체가 상기 영상의 중앙에 위치하기 위한 카메라 회전 각도를 산출하는 비디오 처리부;
상기 카메라 회전 각도에 기초하여 상기 카메라를 회전시키고, 마이크 어레이 회전 각도에 기초하여 상기 마이크 어레이를 회전시키는 구동 제어부; 및
상기 카메라의 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하고, 상기 피사체까지의 거리에 기초하여 상기 마이크 어레이 회전 각도를 산출하고, 상기 마이크 어레이가 수신한 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 빔포밍부를 포함하는 카메라 시스템.
제1항에 있어서,
소정 간격으로 배치되어 각각 오디오 출력 신호를 전송하는 복수의 스피커들로 구성된 스피커 어레이를 더 포함하고,
상기 빔포밍부는 상기 마이크 어레이의 회전 각도를 기초로 상기 스피커 어레이의 회전 각도를 결정하고,
상기 구동 제어부는 상기 스피커 어레이를 상기 피사체 방향으로 회전시키는 카메라 시스템.
제2항에 있어서,
상기 피사체 방향의 오디오 입력 신호를 분석하고, 상기 비디오 처리부에 의해 상기 영상으로부터 인식된 상기 피사체의 입 모양과 상기 분석된 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 오디오 출력 신호를 생성하는 오디오 처리부를 더 포함하고,
상기 빔포밍부는 상기 오디오 출력 신호를 상기 피사체 방향에 대응시켜 상기 스피커 어레이로 출력하는 카메라 시스템.
제3항에 있어서,
상기 마이크 어레이는, 복수의 피사체들 각각의 오디오 입력 신호를 수신하고,
상기 오디오 처리부는, 상기 복수의 피사체들 각각의 오디오 입력 신호를 분석하고, 상기 비디오 처리부에서 인식된 상기 영상 내 복수의 피사체들 각각의 입 모양과, 상기 분석된 복수의 피사체들 각각의 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 복수의 오디오 출력 신호들을 생성하고,
상기 빔포밍부는, 상기 복수의 오디오 출력 신호들을 상기 복수의 피사체들 각각의 방향들로 대응시켜 상기 스피커 어레이로 출력하는 카메라 시스템.
영상을 촬영하는 단계;
피사체가 상기 영상의 중앙에 위치하도록 카메라를 회전시키는 단계;
상기 카메라의 줌트랙 정보를 추출하는 단계;
상기 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하는 단계;
상기 피사체까지의 거리에 기초하여 마이크 어레이를 피사체 방향으로 회전시키는 단계; 및
상기 마이크 어레이를 통해 오디오 입력 신호를 수신하는 단계;
상기 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 단계를 포함하는 카메라 시스템 동작 방법.
제5항에 있어서,
스피커 어레이를 상기 피사체 방향으로 회전시키는 단계; 및
상기 스피커 어레이를 통해 상기 피사체 방향으로 오디오 출력 신호를 전송하는 단계를 더 포함하는 카메라 시스템 동작 방법.