KR20160063083A - 카메라 시스템 및 카메라 시스템 동작 방법 - Google Patents

카메라 시스템 및 카메라 시스템 동작 방법 Download PDF

Info

Publication number
KR20160063083A
KR20160063083A KR1020140166632A KR20140166632A KR20160063083A KR 20160063083 A KR20160063083 A KR 20160063083A KR 1020140166632 A KR1020140166632 A KR 1020140166632A KR 20140166632 A KR20140166632 A KR 20140166632A KR 20160063083 A KR20160063083 A KR 20160063083A
Authority
KR
South Korea
Prior art keywords
subject
audio
camera
microphone array
array
Prior art date
Application number
KR1020140166632A
Other languages
English (en)
Other versions
KR101990370B1 (ko
Inventor
오재윤
Original Assignee
한화테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화테크윈 주식회사 filed Critical 한화테크윈 주식회사
Priority to KR1020140166632A priority Critical patent/KR101990370B1/ko
Priority to US14/940,988 priority patent/US9875410B2/en
Publication of KR20160063083A publication Critical patent/KR20160063083A/ko
Application granted granted Critical
Publication of KR101990370B1 publication Critical patent/KR101990370B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • H04N7/186Video door telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • H04R29/002Loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Abstract

본 발명의 일 실시 예에 관한 카메라 시스템은 영상을 촬영하는 카메라, 소정 간격으로 배치된 복수의 마이크들로 구성된 마이크 어레이, 상기 영상에서 피사체의 위치를 분석하고, 상기 피사체가 상기 영상의 중앙에 위치하기 위한 카메라 회전 각도를 산출하는 비디오 처리부, 상기 카메라 회전 각도에 기초하여 상기 카메라를 회전시키고, 마이크 어레이 회전 각도에 기초하여 상기 마이크 어레이를 회전시키는 구동 제어부 및 상기 카메라의 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하고, 상기 피사체까지의 거리에 기초하여 상기 마이크 어레이 회전 각도를 산출하고, 상기 마이크 어레이가 수신한 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 빔포밍부를 포함한다.

Description

카메라 시스템 및 카메라 시스템 동작 방법{camera system and operating method for the same}
본 발명의 실시 예들은 카메라 시스템 및 카메라 시스템 동작 방법에 관한 것이다.
최근 들어, 방범, 보안, 매장 관리 등 다양한 목적으로 건물 내부나 외부, 길거리 등에 카메라 시스템을 설치하는 경우가 증가하고 있다.
감시 목적에 따라, 특정 음원의 오디오 신호를 선택적으로 검출하는 기능, 및 특정 피사체를 향해 오디오 신호를 선택적으로 전달하는 기능을 수행할 수 있는 카메라 시스템이 요구된다.
한국공개특허공보 제 2011-0026753
본 발명의 실시 예들이 해결하고자 하는 기술적 과제는 오디오 신호를 송수신하는 카메라 시스템 및 카메라 시스템 동작 방법을 제공하는 것이다.
본 발명의 일 실시 예에 관한 카메라 시스템은 영상을 촬영하는 카메라, 소정 간격으로 배치된 복수의 마이크들로 구성된 마이크 어레이, 상기 영상에서 피사체의 위치를 분석하고, 상기 피사체가 상기 영상의 중앙에 위치하기 위한 카메라 회전 각도를 산출하는 비디오 처리부, 상기 카메라 회전 각도에 기초하여 상기 카메라를 회전시키고, 마이크 어레이 회전 각도에 기초하여 상기 마이크 어레이를 회전시키는 구동 제어부 및 상기 카메라의 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하고, 상기 피사체까지의 거리에 기초하여 상기 마이크 어레이 회전 각도를 산출하고, 상기 마이크 어레이가 수신한 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 빔포밍부를 포함한다.
상기 카메라 시스템은 소정 간격으로 배치되어 각각 오디오 출력 신호를 전송하는 복수의 스피커들로 구성된 스피커 어레이를 더 포함하고, 상기 빔포밍부는 상기 마이크 어레이의 회전 각도를 기초로 상기 스피커 어레이의 회전 각도를 결정하고, 상기 구동 제어부는 상기 스피커 어레이를 상기 피사체 방향으로 회전시킬 수 있다.
상기 카메라 시스템은 상기 피사체 방향의 오디오 입력 신호를 분석하고, 상기 비디오 처리부에 의해 상기 영상으로부터 인식된 상기 피사체의 입 모양과 상기 분석된 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 오디오 출력 신호를 생성하는 오디오 처리부를 더 포함하고, 상기 빔포밍부는 상기 오디오 출력 신호를 상기 피사체 방향에 대응시켜 상기 스피커 어레이로 출력할 수 있다.
상기 카메라 시스템은 상기 마이크 어레이는, 복수의 피사체들 각각의 오디오 입력 신호를 수신하고, 상기 오디오 처리부는, 상기 복수의 피사체들 각각의 오디오 입력 신호를 분석하고, 상기 비디오 처리부에서 인식된 상기 영상 내 복수의 피사체들 각각의 입 모양과, 상기 분석된 복수의 피사체들 각각의 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 복수의 오디오 출력 신호들을 생성하고, 상기 빔포밍부는, 상기 복수의 오디오 출력 신호들을 상기 복수의 피사체들 각각의 방향들로 대응시켜 상기 스피커 어레이로 출력할 수 있다.
본 발명의 다른 실시 예에 관한 카메라 시스템 동작 방법은 영상을 촬영하는 단계, 피사체가 상기 영상의 중앙에 위치하도록 카메라를 회전시키는 단계, 상기 카메라의 줌트랙 정보를 추출하는 단계, 상기 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하는 단계, 상기 피사체까지의 거리에 기초하여 마이크 어레이를 피사체 방향으로 회전시키는 단계 및 상기 마이크 어레이를 통해 오디오 입력 신호를 수신하는 단계, 상기 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 단계를 포함한다.
상기 카메라 시스템 동작 방법은 스피커 어레이를 상기 피사체 방향으로 회전시키는 단계 및 상기 스피커 어레이를 통해 상기 피사체 방향으로 오디오 출력 신호를 전송하는 단계를 더 포함할 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명의 실시 예들에 따르면, 오디오 신호를 송수신하는 카메라 시스템 및 카메라 시스템 동작 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 카메라 시스템의 구성을 나타내는 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 마이크 어레이를 나타내는 도면이다.
도 3은 본 발명의 일 실시 예에 따른 스피커 어레이를 나타내는 도면이다.
도 4는 본 발명의 일 실시 예에 따른 오디오 어레이를 나타내는 도면이다.
도 5는 본 발명의 일 실시 예에 따른 오디오 비디오 블록을 나타내는 도면이다.
도 6은 본 발명의 일 실시 예에 따른 오디오 어레이 구동을 설명하기 위한 도면이다.
도 7은 본 발명의 다른 실시 예에 따른 오디오 어레이 구동을 설명하기 위한 도면이다.
도 8은 본 발명의 실시 예들에 따른 카메라 시스템의 오디오 수신을 위한 동작 방법을 설명하기 위한 도면이다.
도 9는 본 발명의 실시 예들에 따른 카메라 시스템의 오디오 전송을 위한 동작 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시 예에 따른 카메라 시스템의 피사체 지정 방법을 설명하는 흐름도이다.
도 11은 본 발명의 일 실시 예에 따른 카메라 시스템의 마이크 어레이 구동 방법을 설명하는 흐름도이다.
도 12는 본 발명의 일 실시 예에 따른 카메라 시스템의 지정된 피사체의 오디오 입력 신호 검출 방법을 설명하는 흐름도이다.
도 13은 본 발명의 일 실시 예에 따른 카메라 시스템의 오디오 출력 신호 전송 방법을 설명하는 흐름도이다.
도 14는 본 발명의 일 실시 예에 따른 카메라 시스템의 음성 인식을 통한 오디오 출력 신호 생성 방법을 설명하는 흐름도이다.
도 15는 본 발명의 일 실시 예에 따른 카메라 시스템의 복수의 피사체들 각각에 대한 오디오 신호 송수신 방법을 설명하는 흐름도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명에 따른 실시 예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 카메라 시스템의 구성을 나타내는 블록도이다.
도 1을 참조하면, 발명의 일 실시 예에 따른 카메라 시스템(1)은 오디오 비디오 블록(10), 줌 구동부(20), 팬/틸트 구동부(30), 구동 제어부(40), 빔포밍부(50), 오디오 처리부(60), 비디오 처리부(70)를 포함한다.
오디오 비디오 블록(10)은 카메라(11), 마이크 어레이(13), 마이크 어레이 구동부(15), 스피커 어레이(17), 스피커 어레이 구동부(19)를 포함한다.
카메라(11)는 감시 영역의 영상을 촬영한다. 도시되지 않았지만, 카메라(11)는 렌즈, 렌즈로 입력되는 광 신호를 전기 신호로 변환하는 이미지 센서, 이미지 센서에서 출력된 전기 신호를 디지털 신호로 변환하는 A/D(Analog/Digital) 변환부, 디지털 신호로부터 화질을 보상하고 미리 정해진 규격으로 휘도 신호 및 색차 신호를 합성한 영상을 출력하는 영상 처리부, 촬영된 영상을 전송하기 위한 코덱부 및 전송부 등을 포함할 수 있다. 이하에서, 비디오 신호는 카메라(11)로부터 출력되는 영상을 의미하고, 영상 신호와 비디오 신호는 혼용될 수 있다.
렌즈는 줌렌즈, 고정 초점 렌즈(fixed focal length lens)일 수 있으나, 이에 한정되지 않는다.
마이크 어레이(13)는 소정 간격으로 배치되어 각각 오디오 입력 신호를 수신하는 복수의 마이크들로 구성된다. 복수의 마이크들은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있으며, 이에 한정되지 않는다. 복수의 마이크들은 대칭 또는 비대칭으로 배치될 수 있다.
마이크 어레이(13)를 구성하는 마이크는 지향성일 수 있으나, 이에 한정되지 않는다.
마이크 어레이 구동부(15)는 마이크 어레이(13)의 중심축과 카메라(11)의 광축 사이의 각도를 설정한다. 마이크 어레이 구동부(15)는 마이크 어레이(13)를 구성하는 복수의 마이크들 각각과 결합할 수 있는 복수의 마이크 구동부들을 포함할 수 있다. 복수의 마이크 구동부들은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있고, 대칭 또는 비대칭으로 배치될 수도 있으며, 이에 한정되지 않는다.
이하에서, 도 2를 참조하여 카메라(11)와의 사이에 각도 설정이 가능한 마이크 어레이(13)에 대하여 상세하게 설명한다.
도 2는 본 발명의 일 실시 예에 따른 마이크 어레이를 나타내는 도면이다.
도 2를 참조하면, 평면형으로 배열된 복수의 마이크들을 포함하는 마이크 어레이(13)는 평면형으로 배열된 복수의 마이크 구동부들을 포함하는 마이크 어레이 구동부(15)와 결합할 수 있다.
마이크 구동부(A)는 마이크(a)의 오디오 신호 수신부가 카메라(11)의 렌즈와 동일한 방향을 바라보도록 카메라(11)에 연결될 수 있다. 마이크 구동부(A)는 마이크(a)를 회전시켜 마이크 어레이(13)의 중심축과 카메라(11)의 광축 사이의 각도를 설정할 수 있다.
다시 도 1을 설명한다.
스피커 어레이(17)는 소정 간격으로 배치되어 각각 오디오 출력 신호를 전송하는 복수의 스피커들로 구성된다. 복수의 스피커들은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있으며, 이에 한정되지 않는다. 복수의 스피커들은 대칭 또는 비대칭으로 배치될 수 있다.
스피커 어레이(17)는 마이크 어레이(13)와 겹쳐질 수도 있고, 겹쳐지지 않고 완전히 분리될 수도 있다. 스피커 어레이(17)에 포함된 복수의 스피커들은 예컨대, 마이크 어레이에 포함된 복수의 마이크들 사이에 배치되는 형태로 겹쳐질 수 있다.
스피커 어레이 구동부(19)는 스피커 어레이(17)의 중심축과 카메라(11)의 광축 사이의 각도를 설정한다. 스피커 어레이 구동부(19)는 스피커 어레이(17)를 구성하는 복수의 스피커들 각각과 결합할 수 있는 복수의 스피커 구동부들을 포함할 수 있다. 복수의 스피커 구동부들은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있고, 대칭 또는 비대칭으로 배치될 수도 있으며, 이에 한정되지 않는다.
이하에서, 도 3를 참조하여 카메라(11)와의 사이에 각도 설정이 가능한 스피커 어레이(17)에 대하여 상세하게 설명한다.
도 3은 본 발명의 일 실시 예에 따른 스피커 어레이를 나타내는 도면이다.
도 3을 참조하면, 평면형으로 배열된 복수의 스피커들을 포함하는 스피커 어레이(17)는 평면형으로 배열된 복수의 스피커 구동부들을 포함하는 스피커 어레이 구동부(19)와 결합할 수 있다.
스피커 구동부(B)는 스피커(b)의 오디오 신호 전송부가 카메라(11)의 렌즈와 동일한 방향을 바라보도록 카메라(11)에 연결될 수 있다. 스피커 구동부(B)는 스피커(b)를 회전시켜 스피커 어레이(17)의 중심축과 카메라(11)의 광축 사이의 각도를 설정할 수 있다.
이하에서, 도 4를 참조하여 복수의 마이크들과 복수의 스피커들로 구성된 오디오 어레이에 대하여 상세하게 설명한다.
도 4는 본 발명의 일 실시 예에 따른 오디오 어레이를 나타내는 도면이다.
도 4를 참조하면, 평면형으로 배열된 복수의 마이크들 및 복수의 스피커들을 포함하는 오디오 어레이(C)는 평면형으로 배열된 복수의 마이크 구동부들 및 복수의 스피커 구동부들을 포함하는 오디오 어레이 구동부(D)와 결합할 수 있다.
오디오 어레이 구동부(D)는 마이크(a)의 오디오 신호 수신부 및 스피커(b)의 오디오 신호 전송부 각각이 카메라(11)의 렌즈와 동일한 방향을 바라보도록 카메라(11)에 연결될 수 있다.
비디오 오디오 블록(E)은 오디오 어레이(C), 오디오 어레이 구동부(D), 및 카메라(11)를 포함할 수 있다. 비디오 오디오 블록(E)에서 카메라(11)는 오디오 어레이(C)의 중심 또는 오디오 어레이(C)의 옆에 배치될 수 있으나, 이에 한정되지 않는다.
다시 도 1을 설명한다.
줌 구동부(20)는 카메라(11)를 구성하는 렌즈가 줌 동작을 수행하도록 한다. 예컨대, 줌 구동부(20)는 경통(미도시됨)에 있어서의 줌렌즈의 위치를 이동시킴으로써, 초점 거리를 변경할 수 있다.
팬/틸트 구동부(30)는 카메라(11)를 구성하는 렌즈, 마이크 어레이(13), 및 스피커 어레이(17) 중 적어도 하나가 팬회전, 틸트회전 중 적어도 하나의 동작을 수행하도록 한다.
예를 들어, 팬/틸트 구동부(30)는 렌즈, 마이크 어레이(13), 및 스피커 어레이(17) 중 적어도 하나가 팬회전, 틸트회전 중 적어도 하나의 동작을 수행하도록 카메라(11)를 구동시킬 수 있다.
이하에서, 도 5를 참조하여 오디오 비디오 블록에 대하여 상세하게 설명한다.
도 5는 본 발명의 일 실시 예에 따른 오디오 비디오 블록을 나타내는 도면이다.
도 5를 참조하면, 비디오 오디오 블록(E)은 팬/틸트 블록(F)과 결합하여 비디오 오디오 PTZ(pan/tilt/zoom) 블록(G)을 구성한다. 비디오 오디오 PTZ 블록(G)은 도 5에 도시된 바와 같이, 2개의 팬/틸트 구동부(30, 도 1 참조) 사이에 비디오 오디오 블록(E)을 결합하는 형태일 수 있으나, 이에 제한되지 않는다.
다시 도 1을 설명한다.
구동 제어부(40)는 마이크 어레이 구동부(15), 스피커 어레이 구동부(19), 줌 구동부(20), 및 팬/틸트 구동부(30)의 구동을 제어한다.
구동 제어부(40)는 피사체가 영상의 중앙에 위치하도록 렌즈를 회전시킬 수 있다. 예를 들면, 카메라(11)가 영상을 촬영하면, 비디오 처리부(70)가 피사체 지정 모드를 판단한다. 피사체 지정 모드가 자동 지정 모드인 경우, 비디오 처리부(70)는 피사체가 영상의 중앙에 위치하는지 여부를 판단한다. 피사체가 영상의 중앙에 위치하지 않는 경우, 비디오 처리부(70)는 피사체의 위치를 분석하고, 피사체가 영상의 중앙에 위치하기 위한 렌즈의 회전 각도를 산출한다. 구동 제어부(40)는 비디오 처리부(70)에서 산출된 렌즈의 회전 각도에 기초하여, 카메라(11)가 렌즈를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어한다.
구동 제어부(40)는 마이크 어레이(13)를 피사체 방향으로 회전시킬 수 있다. 예를 들면, 빔 포밍부(50)는 구동 제어부(4)로부터 줌 구동부(20)에서 구동한 렌즈의 줌배율에 해당하는 줌트랙 정보를 추출하고, 줌트랙 정보를 이용하여 피사체까지의 거리를 산출한다. 빔 포밍부(50)가 피사체까지의 거리에 기초하여 마이크 어레이(13)의 회전 각도를 산출하면, 구동 제어부(40)는 마이크 어레이(13)의 회전 각도에 기초하여, 마이크 어레이 구동부(15)가 마이크 어레이(13)를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어한다.
구동 제어부(40)는 스피커 어레이(17)를 피사체 방향으로 회전시킬 수 있다. 예를 들면, 빔 포밍부(50)가 마이크 어레이(13)의 회전 각도를 기초로 스피커 어레이(17)의 회전 각도를 결정하면, 구동 제어부(40)는 스피커 어레이(17)의 회전 각도에 기초하여, 스피커 어레이 구동부(19)가 스피커 어레이(17)를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어한다.
빔포밍부(50)는 하드웨어 빔포밍(beamforming)과 소프트웨어 빔포밍을 수행한다.
하드웨어 빔포밍은 구동 제어부(40)를 이용하여 마이크 어레이 구동부(15), 스피커 어레이 구동부(19), 줌 구동부(20), 및 팬/틸트 구공부(30) 중 적어도 하나를 구동하여, 마이크 어레이(13), 및 스피커 어레이(17) 중 적어도 하나가 특정한 방향을 향하는 동작을 의미할 수 있다.
소프트웨어 빔포밍은 마이크 어레이(13)를 구성하는 복수의 마이크들에 각기 다른 가중치를 부여하거나, 스피커 어레이(17)를 구성하는 복수의 스피커들에 각기 다른 가중치를 부여함으로써, 원하는 방향의 신호만을 선택하면서 원하지 않는 방향의 음원 또는 잡음을 제거하는 동작을 의미할 수 있다.
예를 들면, 빔포밍부(50)는 마이크 어레이(13)가 수신한 복수의 오디오 입력 신호들을 증폭, 및 아날로그-디지털 변환할 수 있다. 빔포밍부(50)는 복수의 오디오 입력 신호들을 주파수 변환(FFT, Fast Fourier Transform)하여 주파수별로 분해할 수 있다. 이어서, 빔포밍부(50)는 주파수별로 분해된 복수의 오디오 입력 신호들 각각에 복소 가중치를 적용하고, 역주파수 변환(IFFT, Inverse Fast Fourier Transform)을 실행할 수 있다. 빔포밍부(50)는 역주파수 변환된 복수의 오디오 입력 신호들에 디지털-아날로그 변환을 수행하여 소정의 오디오 입력 신호를 필터링할 수 있다.
빔포밍부(50)는 오디오 입력 신호를 신호 처리하여 소정의 음원으로부터 발생한 오디오 입력 신호를 출력하고, 다수의 피사체들 중에서 소정의 피사체를 향하여 오디오 출력 신호를 전송하기 위한 필터링을 수행한다. 예를 들어, 빔포밍부(50)는 렌즈의 줌트랙 정보를 이용하여 피사체까지의 거리를 산출할 수 있다. 줌트랙 정보는 광학 줌배율 정보를 포함할 수 있다. 빔포밍부(50)는 피사체까지의 거리에 기초하여 마이크 어레이(13)의 회전 각도를 산출할 수 있다. 빔포밍부(50)는 피사체 방향으로 회전된 마이크 어레이(13)가 수신한 오디오 입력 신호를 신호 처리하여 피사체 방향의 오디오 입력 신호를 출력할 수 있다. 다른 예를 들어, 빔포밍부(50)는 마이크 어레이(13)의 회전 각도에 기초하여 스피커 어레이(17)의 회전 각도를 산출할 수 있다. 빔포밍부(50)는 스피커 어레이(17)를 구성하는 복수의 스피커들 각각을 통해 크기 및 위상 중 적어도 하나가 각기 다른 복수의 오디오 출력 신호들을 출력함으로써, 피사체 방향의 오디오 출력 신호를 전송할 수 있다.
빔포밍부(50)는 시분할 처리를 통해 다수의 피사체들 각각을 향하여 다수의 오디오 출력 신호들을 전송을 수행한다. 예를 들어, 빔포밍부(50)는 제1 피사체 방향의 제1 오디오 출력 신호와 제2 피사체 방향의 제2 오디오 출력 신호를 시분할 방식으로 전송할 수 있다. 빔포밍부(50)는 제1 시간 동안 스피커 어레이(17)를 구성하는 복수의 스피커들 각각을 통해 크기 및 위상 중 적어도 하나가 각기 다른 복수의 제1 오디오 출력 신호들을 출력함으로써, 제1 피사체 방향의 오디오 출력 신호를 전송할 수 있다. 이어서, 빔포밍부(50)는 제2 시간 동안 스피커 어레이(17)를 구성하는 복수의 스피커들 각각을 통해 크기 및 위상 중 적어도 하나가 각기 다른 복수의 제2 오디오 출력 신호들을 출력함으로써, 제2 피사체 방향의 오디오 출력 신호를 전송할 수 있다. 제1 시간과 제2 시간은 예컨대, 0.5초로 피사체가 신호 출력의 단절을 느낄 수 없을 정도의 시간일 수 있고, 제1 시간 구간과 제2 시간 구간이 번갈아 가며 반복될 수 있다.
빔포밍부(50)는 시간 영역, 및 주파수 영역 중 적어도 하나의 영역에서 필터링을 수행할 수 있다.
이하에서, 도 6 및 도 7을 참조하여, 본 발명의 실시 예들에 따른 오디오 어레이 구동을 상세하게 설명한다.
도 6은 본 발명의 일 실시 예에 따른 오디오 어레이 구동을 설명하기 위한 도면이다.
도 6의 (a)를 참조하면, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 제1 피사체(H1)로부터 발생된 오디오 입력 신호를 수신하고, 제1 피사체(H1)를 향하여 오디오 출력 신호를 전송한다.
도 6의 (b)를 참조하면, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 제2 피사체(H2)로부터 발생된 오디오 입력 신호를 수신하고, 제2 피사체(H2)를 향하여 오디오 출력 신호를 전송한다.
이때, 비디오 오디오 PTZ 블록(G)은 오디오 어레이를 팬회전 또는 틸트회전시킴으로써, 오디오 신호 송수신 대상을 제1 피사체(H1)에서 제2 피사체(H2)로 변경할 수 있다.
도 7은 본 발명의 다른 실시 예에 따른 오디오 어레이 구동을 설명하기 위한 도면이다.
이하에서, 피사체(H)가 카메라(11)의 광축(J)에 해당하는 지점에 위치하는 경우를 전제로 설명한다.
도 7의 (a)와 같이, 오디오 어레이(C)가 오디오 신호를 송수신하는 송수신 영역(I)이, 카메라(11)의 광축(J)에 해당하는 지점을 향하지 않는다면, 원거리의 피사체(H)와의 오디오 신호 송수신은 비효율적이다.
도 7의 (b)와 같이, 본 발명의 일 실시 예에 따라, 오디오 어레이(C)가 카메라(11)의 광축(J)을 향하도록 구동되면, 송수신 영역(I)은 카메라(11)의 광축(J)에 해당하는 지점을 향하게 되어 실질적으로 오디오 주밍(audio zooming)이 가능하게 되므로, 원거리의 피사체(H)와의 오디오 신호 송수신이 보다 효율적일 수 있다.
다시 도 1을 설명한다.
오디오 처리부(60)는 오디오 입력 신호를 분석한다. 오디오 처리부(60)는, 비디오 처리부(70)에 의해 인식된 피사체의 얼굴 인식, 행동 패턴 분석, 및 상황 분석 중 적어도 하나와, 분석된 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 오디오 출력 신호를 생성할 수 있다. 예를 들어, 오디오 처리부(60)는, 비디오 처리부(70)에 의해 인식된 피사체의 입모양과 분석된 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 오디오 출력 신호를 생성할 수 있다. 오디오 처리부(60)는 분석된 오디오 입력 신호와 비디오 처리부(70)에서 분석된 비디오 신호를 매칭하여 음성을 보다 정확하게 인식할 수 있다. 인식된 음성에 대응되는 오디오 출력 신호는 사전에 녹음된 음성, 경고음 등일 수 있다. 오디오 처리부(60)는 인식된 음성에 대응되는 오디오 출력 신호를 스피커 어레이(17)로 전달할 수 있다.
오디오 처리부(60)는 비디오 처리부(70)에서 인식된 영상 내 복수의 피사체들 각각의 입 모양과, 분석된 오디오 입력 신호를 매칭하여 음성들을 인식하고, 인식된 음성들에 대응되는 복수의 오디오 출력 신호들을 생성할 수 있다.
비디오 처리부(70)는 비디오 신호를 분석한다.
비디오 처리부(70)는 영상에서 피사체의 위치를 분석한다. 피사체 지정 모드가 자동 지정 모드인 경우, 비디오 처리부(70)는 피사체가 영상의 중앙에 위치하는지 여부를 판단할 수 있다. 피사체가 영상의 중앙에 위치하지 않는 경우, 비디오 처리부(70)는 영상의 중앙을 기준으로 피사체의 위치를 분석하고, 피사체가 영상의 중앙에 위치하기 위한 렌즈의 회전 각도를 산출할 수 있다. 피사체가 영상의 중앙에 위치하는 경우, 비디오 처리부(70)는 피사체를 지정할 수 있다.
비디오 처리부(70)는 피사체의 얼굴 인식, 행동 패턴 분석, 및 상황 분석 중 적어도 하나를 수행한다. 예를 들어, 비디오 처리부(70)는 비디오 신호로부터 피사체의 입 모양을 인식할 수 있다. 비디오 처리부(70)는 비디오 신호로부터 복수의 피사체들을 각각을 식별한다. 비디오 처리부(70)는 식별된 복수의 피사체들 각각에 대한 얼굴 인식, 행동 패턴 분석, 및 상황 분석 중 적어도 하나를 수행할 수 있다.
도 8은 본 발명의 실시 예들에 따른 카메라 시스템의 오디오 수신을 위한 동작 방법을 설명하기 위한 도면이다.
도 8의 (a)와 같이, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 카메라 시스템으로부터 소정 거리에 있는 피사체(H)를 지정하고, 지정된 피사체(H)로부터 발생하는 오디오 입력 신호를 수신할 수 있다. 비디오 오디오 PTZ 블록(G)을 구성하는 마이크가 지향성인 경우, 원거리에 위치하는 피사체(H)로부터 발생한 오디오 입력 신호를 보다 효율적으로 검출할 수 있다. 비디오 오디오 PTZ 블록(G)은 소프트웨어 빔포밍을 수행함으로써 오디오 검출 범위를 조절할 수 있고, 하드웨어 빔포밍을 수행함으로써 오디오 검출 거리를 조절할 수 있다.
도 8의 (b)와 같이, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 복수의 피사체들 예컨대, 제1 피사체(H1), 제2 피사체(H2), 및 제3 피사체(H3)를 각각 지정하고, 다중화 방식을 통해 제1 피사체(H1), 제2 피사체(H2), 및 제3 피사체(H3) 각각으로부터 발생하는 복수의 오디오 입력 신호를 한꺼번에 수신할 수 있다. 비디오 오디오 PTZ 블록(G)은 영상에 복수의 피사체들이 위치하도록 하드웨어 빔포밍을 수행하여 복수의 피사체들에 대한 오디오 검출 거리를 조절할 수 있고, 복수의 피사체들 각각을 위한 소프트웨어 빔포밍을 수행하여 복수의 피사체들 각각에 대한 오디오 검출 범위를 조절할 수 있다.
도 9는 본 발명의 실시 예들에 따른 카메라 시스템의 오디오 전송을 위한 동작 방법을 설명하기 위한 도면이다.
도 9의 (a)와 같이, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 카메라 시스템으로부터 소정 거리에 있는 피사체(H)를 지정하고, 지정된 피사체(H)를 향하여 오디오 출력 신호를 전송할 수 있다. 비디오 오디오 PTZ 블록(G)을 구성하는 스피커가 지향성인 경우, 원거리에 위치하는 피사체(H)를 향하여 오디오 출력 신호를 보다 효율적으로 전송할 수 있다. 비디오 오디오 PTZ 블록(G)은 소프트웨어 빔포밍을 수행함으로써 오디오 전송 범위를 조절할 수 있고, 하드웨어 빔포밍을 수행함으로써 오디오 전송 거리를 조절할 수 있다.
도 9의 (b)와 같이, 본 발명의 일 실시 예에 따른 비디오 오디오 PTZ 블록(G)은 복수의 피사체들 예컨대, 제1 피사체(H1), 제2 피사체(H2), 및 제3 피사체(H3)를 각각 지정하고, 다중화 방식을 통해 제1 피사체(H1), 제2 피사체(H2), 및 제3 피사체(H3) 각각을 향하여 복수의 오디오 출력 신호를 한꺼번에 전송할 수 있다. 비디오 오디오 PTZ 블록(G)은 비디오 오디오 PTZ 블록(G)은 영상에 복수의 피사체들이 위치하도록 하드웨어 빔포밍을 수행하여 복수의 피사체들에 대한 오디오 전송 거리를 조절할 수 있고, 복수의 피사체들 각각을 위한 소프트웨어 빔포밍을 수행하여 복수의 피사체들 각각에 대한 오디오 전송 범위를 조절할 수 있다.
이하에서, 카메라 시스템의 구성 요소에 대한 도면 부호는 도 1을 참조한다.
도 10은 본 발명의 일 실시 예에 따른 카메라 시스템의 피사체 지정 방법을 설명하는 흐름도이다.
도 10을 참조하면, 카메라(11)가 감시 영역의 영상을 촬영하면(S101), 비디오 처리부(70)가 피사체 지정 모드가 자동 지정 모드인지 여부를 판단한다(S103).
피사체 지정 모드가 자동 지정 모드인 경우, 비디오 처리부(70)는 피사체가 영상의 중앙에 위치하는지 여부를 판단한다(S105).
피사체가 영상의 중앙에 위치하지 않는 경우, 비디오 처리부(70)는 피사체의 위치를 분석한다(S107). 비디오 처리부(70)는 피사체가 영상의 중앙에 위치하기 위한 렌즈의 회전 각도를 산출할 수 있다.
구동 제어부(40)는 렌즈의 팬/틸트를 구동한다(S109). 구동 제어부(40)는 카메라(11)가 렌즈를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어할 수 있다. 구동 제어부(40)는 비디오 처리부(70)에서 산출된 렌즈의 회전 각도에 기초하여, 렌즈의 팬/틸트를 구동함으로써, 피사체를 영상의 중앙에 위치시킬 수 있다.
피사체 지정 모드가 수동 지정 모드인 경우, 구동 제어부(40)는 관리자 입력에 따라 렌즈의 팬/틸트를 구동한다(S111).
피사체가 영상의 중앙에 위치하는 경우, 비디오 처리부(70)는 해당 피사체를 지정한다(S113). 본 발명의 실시 예들에 따른 카메라 시스템은 지정된 피사체 방향의 오디오 입력 신호를 검출하고, 지정된 피사체 방향으로 오디오 출력 신호를 전송할 수 있다.
도 11은 본 발명의 일 실시 예에 따른 카메라 시스템의 마이크 어레이 구동 방법을 설명하는 흐름도이다.
도 11을 참조하면, 빔포밍부(50)는 렌즈의 줌트랙 정보를 추출한다(S301). 빔포밍부(50)는 구동 제어부(40)를 통해 줌 구동부(20)의 줌트랙 정보를 추출할 수 있다.
빔포밍부(50)는 마이크 어레이(13)의 구동 각도를 산출한다(S303). 빔포밍부(50)는 렌즈의 줌트랙 정보를 이용하여 피사체까지의 거리를 산출하고, 피사체까지의 거리에 기초하여 마이크 어레이(13)의 회전 각도를 산출할 수 있다.
구동 제어부(40)는 마이크 어레이(13)의 구동을 제어한다(S305). 구동 제어부(40)는 빔포밍부(50)에서 산출된 마이크 어레이(13)의 회전 각도에 기초하여, 마이크 어레이 구동부(15)가 마이크 어레이(13)를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어할 수 있다.
이와 같이, 빔포밍부(50)는 구동 제어부(40), 마이크 어레이 구동부(15)를 이용하여, 마이크 어레이(13)가 지정된 피사체를 향하도록 할 수 있다.
도 12는 본 발명의 일 실시 예에 따른 카메라 시스템의 지정된 피사체의 오디오 입력 신호 검출 방법을 설명하는 흐름도이다.
도 12를 참조하면, 마이크 어레이(13)는 오디오 입력 신호를 수신한다(S501). 지정된 피사체 방향으로 회전된 마이크 어레이(13)는 지정된 피사체로부터 발생된 오디오 입력 신호를 수신할 수 있다.
빔포밍부(50)는 마이크 어레이(13)에서 오디오 입력 신호를 수신하면, 빔포밍 알고리즘을 수행하여(S503), 지정된 피사체의 오디오 입력 신호를 출력한다(S505). 빔포밍부(50)는 빔포밍 알고리즘을 수행함으로써, 마이크 어레이(13)를 통해 수신된 오디오 입력 신호를 신호 처리하여 지정된 피사체에서 발생한 오디오 입력 신호를 출력할 수 있다. 마이크 어레이(13)는 정지 또는 이동하는 피사체에서 발생하는 오디오 입력 신호뿐만 아니라 잡음이 혼합된 음장(sound field)에서 소정 방향의 음압을 측정할 수 있다. 빔포밍부(50)는 소정 방향에서 측정된 음압으로부터 잡음을 제외하기 위하여 앞서 설명한 소프트웨어 빔포밍을 수행할 수 있다.
도 13은 본 발명의 일 실시 예에 따른 카메라 시스템의 오디오 출력 신호 전송 방법을 설명하는 흐름도이다.
도 13을 참조하면, 비디오 처리부(70)가 피사체를 지정하면(S701), 빔포밍부(50)는 렌즈의 줌트랙 정보를 추출한다(S703).
빔포밍부(50)는 스피커 어레이(17)의 구동 각도를 산출한다(S705). 빔포밍부(50)는 앞서 도 11의 도면 부호 S303 단계에서 산출된 마이크 어레이(13)의 회전 각도를 기초로 스피커 어레이(17)의 회전 각도를 결정할 수 있다.
구동 제어부(40)는 스피커 어레이(17)의 구동을 제어한다(S707). 구동 제어부(40)는 빔포밍부(50)에서 산출된 스피커 어레이(17)의 회전 각도에 기초하여, 스피커 어레이 구동부(19)가 스피커 어레이(17)를 팬회전 또는 틸트회전 시킬 수 있도록 팬/틸트 구동부(30)를 제어할 수 있다.
빔포밍부(50)는 빔포밍 알고리즘을 수행한다(S709). 빔포밍 알고리즘을 통해 오디오 출력 신호가 다중화되어 크기 및 위상 중 적어도 하나가 다른 복수의 오디오 출력 신호들이 생성될 수 있다.
스피커 어레이(17)는 오디오 출력 신호를 전송한다(S711). 지정된 피사체 방향으로 회전된 스피커 어레이(17)는 지정된 피사체를 향하여 오디오 출력 신호를 출력할 수 있다. 스피커 어레이(17)를 구성하는 복수의 스피커들 각각이 크기 및 위상 중 적어도 하나가 다른 복수의 오디오 출력 신호들을 출력함으로써, 방향성을 가진 오디오 출력 신호를 출력할 수 있다.
도 14는 본 발명의 일 실시 예에 따른 카메라 시스템의 음성 인식을 통한 오디오 출력 신호 생성 방법을 설명하는 흐름도이다.
도 14를 참조하면, 카메라(11)가 영상을 촬영하면(S901), 비디오 처리부(70)가 피사체를 지정한다(S903).
구동 제어부(40)는 마이크 어레이(13)가 지정된 피사체를 향하도록 마이크 어레이(13)의 구동을 제어한다(S905).
마이크 어레이(13)가 지정된 피사체에서 발생하는 오디오 입력 신호를 수신하면(미도시됨), 빔포밍부(50)는 빔포밍 알고리즘을 수행하여(S907), 지정된 피사체의 오디오 입력 신호를 출력한다(미도시됨).
오디오 처리부(60)는 오디오 입력 신호를 분석하고(S909), 비디오 처리부(70)는 도면 부호 S901 단계에서 촬영된 비디오 신호를 분석한다(S911).
오디오 처리부(60)는 분석된 오디오 입력 신호 및 분석된 비디오 신호를 이용하여 오디오 출력 신호를 생성한다(S913). 오디오 처리부(60)는 비디오 신호 분석 결과인 피사체의 얼굴 인식 결과, 행동 패턴 분석 결과, 및 상황 분석 결과 중 적어도 하나를, 오디오 입력 신호와 매칭하여 음성을 인식할 수 있다. 비디오 신호 분석 결과와 매칭되는 오디오 입력 신호는 비디오 신호와 동시에 수신된 오디오 입력 신호를 의미할 수 있다. 이어서, 오디오 처리부(60)는 인식된 음성에 대응되는 오디오 출력 신호를 생성할 수 있다.
구동 제어부(40)는 스피커 어레이(17)가 지정된 피사체 방향으로 회전하도록 스피커 어레이(17)의 구동을 제어한다(S915).
빔포밍부(50)는 빔포밍 알고리즘을 수행하여(S917), 지정된 피사체를 향해 오디오 출력 신호를 전송한다(S919). 이때, 빔포밍부(50)에 의해 스피커 어레이(17)가 지정된 피사체를 향해 빔포밍되어 있으므로, 지정된 피사체에게만 정확한 오디오 출력 신호가 전송될 수 있다. 오디오 출력 신호는 미리 녹음된 음성, 경고음 등일 수 있고, 관리자 입력에 의한 음성, 경고음 등일 수 있으나, 이에 한정되지 않는다.
도 15는 본 발명의 일 실시 예에 따른 카메라 시스템의 복수의 피사체들 각각에 대한 오디오 신호 송수신 방법을 설명하는 흐름도이다.
도 15를 참조하면, 카메라(11)가 복수의 피사체들이 포함된 영상을 촬영한다(S1101). 카메라(11)가 촬영하는 영상에 복수의 피사체들이 위치하도록, 구동 제어부(40)는 렌즈의 팬/틸트를 구동할 수 있다.
빔포밍부(50)는 렌즈의 줌트랙 정보를 추출하고(S1103), 렌즈의 줌트랙 정보를 이용하여 피사체까지의 거리를 산출한다(S1105). 빔포밍부(50)는 피사체까지의 거리에 기초하여 마이크 어레이(13) 및 스피커 어레이(17)의 회전 각도를 산출할 수 있다.
빔포밍부(50)는 마이크 어레이(13) 및 스피커 어레이(17)의 구동을 제어한다(S1107). 빔포밍부(50)는 산출된 마이크 어레이(13) 및 스피커 어레이(17)의 회전 각도에 기초하여 마이크 어레이(13) 및 스피커 어레이(17)의 구동을 제어할 수 있다.
카메라(11)가 복수의 피사체들이 포함된 영상을 촬영하면(S1101), 비디오 처리부(70)는 촬영된 비디오 신호를 분석한다(S1109).
비디오 처리부(70)는 비디오 신호로부터 복수의 피사체들을 검출하고(S1111), 복수의 피사체들 각각을 레이블링한다(S1113).
빔포밍부(50)는 복수의 피사체들 각각에 대한 빔포밍 알고리즘을 수행한다(S1115). 빔포밍부(50)는 레이블링된 복수의 피사체들 각각의 영상 내 위치 정보를 이용하여, 다중화 방식의 소프트웨어 빔포밍을 수행할 수 있다.
마이크 어레이(13)가 복수의 피사체들 각각의 오디오 입력 신호를 수신하면(S1117). 오디오 처리부(60)가 복수의 피사체들 각각의 오디오 입력 신호를 검출한다(S1119). 오디오 처리부(60)는 검출된 복수의 오디오 입력 신호 각각을 레이블링된 복수의 피사체들 각각과 대응시킬 수 있다. 예를 들어, 오디오 처리부(60)는 복수의 피사체들 각각의 음성을 인식할 수 있다.
이어서 오디오 처리부(60)는 복수의 피사체들 각각에 대한 오디오 출력 신호를 생성한다(S1121). 오디오 처리부(60)는 인식된 음성들 각각에 대응되는 오디오 출력 신호들을 생성할 수 있다.
빔포밍부(50)는 복수의 피사체들 각각에 대한 시분할 방식의 빔포밍 알고리즘을 수행하여(S1123), 복수의 피사체들 각각을 향해 복수의 오디오 출력 신호들을 전송한다(S1125).
본 발명의 실시 예들에 따르면, 오디오 어레이가 항상 피사체를 향하도록 제어되기 때문에 최적화된 지향성을 제공할 수 있고, 실질적으로 오디오 주밍이 가능하기 때문에 3차원적인 빔포밍을 수행할 수 있다.
본 발명의 실시 예들에 따르면, 음원이 이동하는 경우에도 오디오 어레이의 팬회전 또는 틸트 회전이 구동되어 음원과 오디오 어레이의 방향을 일치시킬 수 있기 때문에 상대 운동 때문에 발생하는 도플러 효과를 제거할 수 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
1: 카메라 시스템
10: 오디오 비디오 블록
11: 카메라
13: 마이크 어레이
15: 마이크 어레이 구동부
17: 스피커 어레이
19: 스피커 어레이 구동부
20: 줌 구동부
30: 팬/틸트 구동부
40: 구동 제어부
50: 빔포밍부
60: 오디오 처리부
70: 비디오 처리부

Claims (6)

  1. 영상을 촬영하는 카메라;
    소정 간격으로 배치된 복수의 마이크들로 구성된 마이크 어레이;
    상기 영상에서 피사체의 위치를 분석하고, 상기 피사체가 상기 영상의 중앙에 위치하기 위한 카메라 회전 각도를 산출하는 비디오 처리부;
    상기 카메라 회전 각도에 기초하여 상기 카메라를 회전시키고, 마이크 어레이 회전 각도에 기초하여 상기 마이크 어레이를 회전시키는 구동 제어부; 및
    상기 카메라의 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하고, 상기 피사체까지의 거리에 기초하여 상기 마이크 어레이 회전 각도를 산출하고, 상기 마이크 어레이가 수신한 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 빔포밍부를 포함하는 카메라 시스템.
  2. 제1항에 있어서,
    소정 간격으로 배치되어 각각 오디오 출력 신호를 전송하는 복수의 스피커들로 구성된 스피커 어레이를 더 포함하고,
    상기 빔포밍부는 상기 마이크 어레이의 회전 각도를 기초로 상기 스피커 어레이의 회전 각도를 결정하고,
    상기 구동 제어부는 상기 스피커 어레이를 상기 피사체 방향으로 회전시키는 카메라 시스템.
  3. 제2항에 있어서,
    상기 피사체 방향의 오디오 입력 신호를 분석하고, 상기 비디오 처리부에 의해 상기 영상으로부터 인식된 상기 피사체의 입 모양과 상기 분석된 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 오디오 출력 신호를 생성하는 오디오 처리부를 더 포함하고,
    상기 빔포밍부는 상기 오디오 출력 신호를 상기 피사체 방향에 대응시켜 상기 스피커 어레이로 출력하는 카메라 시스템.
  4. 제3항에 있어서,
    상기 마이크 어레이는, 복수의 피사체들 각각의 오디오 입력 신호를 수신하고,
    상기 오디오 처리부는, 상기 복수의 피사체들 각각의 오디오 입력 신호를 분석하고, 상기 비디오 처리부에서 인식된 상기 영상 내 복수의 피사체들 각각의 입 모양과, 상기 분석된 복수의 피사체들 각각의 오디오 입력 신호를 매칭하여 음성을 인식하고, 인식된 음성에 대응되는 복수의 오디오 출력 신호들을 생성하고,
    상기 빔포밍부는, 상기 복수의 오디오 출력 신호들을 상기 복수의 피사체들 각각의 방향들로 대응시켜 상기 스피커 어레이로 출력하는 카메라 시스템.
  5. 영상을 촬영하는 단계;
    피사체가 상기 영상의 중앙에 위치하도록 카메라를 회전시키는 단계;
    상기 카메라의 줌트랙 정보를 추출하는 단계;
    상기 줌트랙 정보를 이용하여 상기 피사체까지의 거리를 산출하는 단계;
    상기 피사체까지의 거리에 기초하여 마이크 어레이를 피사체 방향으로 회전시키는 단계; 및
    상기 마이크 어레이를 통해 오디오 입력 신호를 수신하는 단계;
    상기 오디오 입력 신호를 신호 처리하여 상기 피사체 방향의 오디오 입력 신호를 출력하는 단계를 포함하는 카메라 시스템 동작 방법.
  6. 제5항에 있어서,
    스피커 어레이를 상기 피사체 방향으로 회전시키는 단계; 및
    상기 스피커 어레이를 통해 상기 피사체 방향으로 오디오 출력 신호를 전송하는 단계를 더 포함하는 카메라 시스템 동작 방법.
KR1020140166632A 2014-11-26 2014-11-26 카메라 시스템 및 카메라 시스템 동작 방법 KR101990370B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140166632A KR101990370B1 (ko) 2014-11-26 2014-11-26 카메라 시스템 및 카메라 시스템 동작 방법
US14/940,988 US9875410B2 (en) 2014-11-26 2015-11-13 Camera system for transmitting and receiving an audio signal and operating method of the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140166632A KR101990370B1 (ko) 2014-11-26 2014-11-26 카메라 시스템 및 카메라 시스템 동작 방법

Publications (2)

Publication Number Publication Date
KR20160063083A true KR20160063083A (ko) 2016-06-03
KR101990370B1 KR101990370B1 (ko) 2019-06-18

Family

ID=56010548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140166632A KR101990370B1 (ko) 2014-11-26 2014-11-26 카메라 시스템 및 카메라 시스템 동작 방법

Country Status (2)

Country Link
US (1) US9875410B2 (ko)
KR (1) KR101990370B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200104181A (ko) * 2019-02-26 2020-09-03 주식회사 큐버 Uhd 방송을 위한 어레이 스피커와 어레이 마이크 기반의 ai 음성비서 장치
CN111818240A (zh) * 2020-08-06 2020-10-23 Oppo(重庆)智能科技有限公司 视频拍摄辅助装置及视频拍摄装置

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US10257637B2 (en) * 2015-06-30 2019-04-09 Harman International Industries, Incorporated Shoulder-mounted robotic speakers
US20170070668A1 (en) * 2015-09-09 2017-03-09 Fortemedia, Inc. Electronic devices for capturing images
EP3151534A1 (en) * 2015-09-29 2017-04-05 Thomson Licensing Method of refocusing images captured by a plenoptic camera and audio based refocusing image system
US20170188140A1 (en) * 2015-12-24 2017-06-29 Intel Corporation Controlling audio beam forming with video stream data
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
EP3804356A1 (en) 2018-06-01 2021-04-14 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
JP6971942B2 (ja) * 2018-09-12 2021-11-24 株式会社東芝 撮像装置、撮像システム、及び撮像方法
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN208836368U (zh) * 2018-10-17 2019-05-07 北京耘科科技有限公司 一种可扩展的便携式矩形伪随机mems数字麦克风阵列
US10915796B2 (en) * 2018-10-30 2021-02-09 Disney Enterprises, Inc. ID association and indoor localization via passive phased-array and computer vision motion correlation
US10897672B2 (en) * 2019-03-18 2021-01-19 Facebook, Inc. Speaker beam-steering based on microphone array and depth camera assembly input
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
EP3973716A1 (en) 2019-05-23 2022-03-30 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
EP4018680A1 (en) 2019-08-23 2022-06-29 Shure Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
CN111522074B (zh) * 2020-05-29 2023-04-25 深圳市燕麦科技股份有限公司 麦克风检测设备及麦克风检测方法
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11403496B2 (en) 2020-11-04 2022-08-02 Silicon Laboratories Inc. Detecting anomalous events in a discriminator of an embedded device
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
WO2022259768A1 (ja) * 2021-06-11 2022-12-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響アクティブセンサ装置
CN113938792B (zh) * 2021-09-27 2022-08-19 歌尔科技有限公司 音频播放优化方法、设备和可读存储介质
JP2023053804A (ja) * 2021-10-01 2023-04-13 キヤノン株式会社 信号処理装置、信号処理方法
CN118101856A (zh) * 2024-03-25 2024-05-28 荣耀终端有限公司 图像处理方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060050680A (ko) * 2004-08-27 2006-05-19 소니 가부시끼 가이샤 음향 생성 방법, 음향 생성 장치, 음향 재생 방법 및 음향재생 장치
KR20110012354A (ko) * 2009-07-30 2011-02-09 (주)이지엔에스 지향성 스피커를 이용한 감시 시스템
KR20110026753A (ko) 2009-09-08 2011-03-16 삼성테크윈 주식회사 영상 감시 시스템 및 그의 동작 방법
KR101335428B1 (ko) * 2012-12-12 2013-11-29 우승한 음향감지를 이용한 지능형 감시 시스템, 감시장치, 및 그 제공방법
KR101421700B1 (ko) * 2013-11-01 2014-07-22 주식회사 휴먼시스템 감시카메라의 지능형 분석기능을 이용한 실시간 위치추적 시스템 및 그 위치추적방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6731334B1 (en) * 1995-07-31 2004-05-04 Forgent Networks, Inc. Automatic voice tracking camera system and method of operation
KR100873000B1 (ko) 2007-03-28 2008-12-09 경상대학교산학협력단 마이크 어레이를 이용한 방향성 음원 필터링 시스템 및 그방법
US8749609B2 (en) * 2009-09-03 2014-06-10 Samsung Electronics Co., Ltd. Apparatus, system and method for video call
JP2012029209A (ja) 2010-07-27 2012-02-09 Hitachi Ltd 音処理システム
KR101232216B1 (ko) 2010-12-08 2013-02-12 주식회사 나무가 양방향 동시대화 방법 및 양방향 동시대화가 가능한 화상회의시스템
US20150088515A1 (en) * 2013-09-25 2015-03-26 Lenovo (Singapore) Pte. Ltd. Primary speaker identification from audio and video data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060050680A (ko) * 2004-08-27 2006-05-19 소니 가부시끼 가이샤 음향 생성 방법, 음향 생성 장치, 음향 재생 방법 및 음향재생 장치
KR20110012354A (ko) * 2009-07-30 2011-02-09 (주)이지엔에스 지향성 스피커를 이용한 감시 시스템
KR20110026753A (ko) 2009-09-08 2011-03-16 삼성테크윈 주식회사 영상 감시 시스템 및 그의 동작 방법
KR101335428B1 (ko) * 2012-12-12 2013-11-29 우승한 음향감지를 이용한 지능형 감시 시스템, 감시장치, 및 그 제공방법
KR101421700B1 (ko) * 2013-11-01 2014-07-22 주식회사 휴먼시스템 감시카메라의 지능형 분석기능을 이용한 실시간 위치추적 시스템 및 그 위치추적방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200104181A (ko) * 2019-02-26 2020-09-03 주식회사 큐버 Uhd 방송을 위한 어레이 스피커와 어레이 마이크 기반의 ai 음성비서 장치
CN111818240A (zh) * 2020-08-06 2020-10-23 Oppo(重庆)智能科技有限公司 视频拍摄辅助装置及视频拍摄装置
CN111818240B (zh) * 2020-08-06 2023-04-18 Oppo(重庆)智能科技有限公司 视频拍摄辅助装置及视频拍摄装置

Also Published As

Publication number Publication date
US9875410B2 (en) 2018-01-23
US20160148057A1 (en) 2016-05-26
KR101990370B1 (ko) 2019-06-18

Similar Documents

Publication Publication Date Title
KR101990370B1 (ko) 카메라 시스템 및 카메라 시스템 동작 방법
US20150281832A1 (en) Sound processing apparatus, sound processing system and sound processing method
JP2017521902A5 (ko)
KR101491354B1 (ko) 음성인식 장치 및 방법
JP6135880B2 (ja) 音声処理方法、音声処理システム、及び記憶媒体
US20170280235A1 (en) Creating an audio envelope based on angular information
EP3032848A1 (en) Directional sound modification
TW200740209A (en) Surveillance system and method of performing video and audio surveillance
JP6145736B2 (ja) 指向性制御方法、記憶媒体及び指向性制御システム
JP2017067666A5 (ko)
JP2017067666A (ja) 物体検出装置、物体検出システム、及び物体検出方法
US20200152215A1 (en) Audio processing device, image processing device, microphone array system, and audio processing method
KR101793942B1 (ko) 음향 수신부를 이용한 음원 추적 장치 및 방법
WO2014174737A1 (ja) 監視装置、監視方法および監視用プログラム
JP3632099B2 (ja) ロボット視聴覚システム
KR100970609B1 (ko) 소리감지를 통한 카메라 위치 제어장치
JP2005252660A (ja) 撮影システム及び撮影制御方法
EP3195618B1 (en) A method for operating a hearing system as well as a hearing system
KR20200020590A (ko) 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템 및 그 동작 방법
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
WO2015151130A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
JP2015166854A (ja) 投影装置の投影制御装置、投影装置の投影制御方法、投影システム、投影システムの投影制御方法及びプログラム
JP4175180B2 (ja) 監視通報システム
KR101159239B1 (ko) 음향필터장치
KR100470437B1 (ko) 감시시스템에서의 음원 탐지 및 위치 제어방법

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant