KR20150087017A

KR20150087017A - 시선 추적에 기반한 오디오 제어 장치 및 이를 이용한 화상통신 방법

Info

Publication number: KR20150087017A
Application number: KR1020140007373A
Authority: KR
Inventors: 김회율; 한세희; 배현주; 나문수
Original assignee: 한양대학교 산학협력단
Priority date: 2014-01-21
Filing date: 2014-01-21
Publication date: 2015-07-29

Abstract

시선 추적 기반 오디오 제어 장치 및 이를 이용한 화상통신 방법이 개시된다. 시선 추적 기반 오디오 제어 장치는, 통신 장비의 사용자를 촬영한 이미지로부터 동공 영역의 위치 좌표를 검출하고, 검출된 동공 영역의 위치 좌표에 기반하여 시선 추적 정보를 생성하는 시선 추적부와, 시선 추적 정보에 기반하여 디스플레이 내 복수의 대화자 중 한 명의 대화자를 식별하는 대화자 식별부와, 복수의 대화자 측에 설치된 마이크로폰으로부터 전달된 각각의 오디오 신호 중, 식별한 한 명의 대화자를 제외한 나머지 대화자 측에 설치된 마이크로폰으로부터 전달된 오디오 신호에 소정의 임계 계수를 적용하는 임계 계수 적용부와, 소정의 임계 계수 적용 여부에 기반하여 각각의 오디오 신호에 음향 필터를 적용하는 음향 필터 적용부를 포함하여 구성될 수 있다.

Description

시선 추적에 기반한 오디오 제어 장치 및 이를 이용한 화상통신 방법{AUDIO CONTROL DEVICE BASED ON EYE-TRACKING AND METHOD FOR VISUAL COMMUNICATIONS USING THE DEVICE}

본 발명은 인간과 컴퓨터 상호작용(HCI, Human-Computer Interface)에 관한 것으로, 더욱 자세하게는 음향 시스템을 이용한 사운드 이미지 기법, 사용자의 시선을 보정하는 기법, 시선을 추적하는 기법을 이용하여 현장감 있는 화상통신 시스템을 구현하는 기술에 관한 것이다.

이를 위하여 디스플레이 상의 대화자에 대한 가상 위치에 따라 실제로 음원(sound source)이 없는 방향에 소리가 존재하는 것처럼 느껴지도록 디스플레이 상의 대화자들의 오디오 신호에 시선 추적 정보를 적용하여 제어하는 기술에 관한 것이다.

컴퓨터가 인류의 역사에 등장한 제1세대에는 논리소자로 진공관(일부는 릴레이)이 이용되었다. 그 이후로 컴퓨터는 비약적인 발전을 거듭하여 현재는 제4세대까지 이르렀으며, IC(Integrated Circuit)의 집적도가 더욱 진보한 형태인 VLSI(최대규모 집적회로, Very Large Scale Integration)로 되었다.

컴퓨터는 PC(Personal Computer)뿐만 아니라 서버(server), 휴대용 단말기의 형태로도 급속한 발전을 이루었고, 관련된 기술 또한 동반 발달하여 그 보급이 확산되어 컴퓨터는 개인의 필수품이 되고　있다. 컴퓨터의 보급이 일반화되면서 사용자들의 욕구를 충족시키기 위한 다양한 서비스를 제공하고 있다.

다양한 서비스 중 가장 중요한 분야는 데이터 통신이라고 말할 수 있다. 특히, 통신의 응용분야가 넓어짐에 따라 화면상의 시각 정보를 전송하는 통신, 즉 화상통신에 대한 요구 또한 크게 증가하고 있는 현실이다. 화상통신은 크게 두 가지로 나뉘는데, 그 첫 번째는 팩스와 같이 종이를 이용하여 화상정보를 전달하는 하드카피 화상통신이고, 두 번째는 모니터를 이용한 소프트카피 화상통신이다. 통상적인 화상통신의 개념은 소프트카피 화상통신을 의미한다.

기존의 음성통신은 음성신호만을 전송하는 통신방법임에 비하여 화상통신은 음성신호와 화상신호를 동시에 전송하는 통신방법이다. 이와 같이 화상정보까지 통신의 상대방에게 전달하게 되면, 그만큼 전달되는 정보의 양과 질이 풍부해질 수 있다. 인간의 다섯 가지 감각 중 시각이 인간의 감지정보의 60~80%를 차지한다고 하므로 시각과 청각을 활용한 정보의 교환은 청각만을 활용한 경우보다 훨씬 효과적일 수 있다.

화상통신은 먼 거리에 있는 상대와 서로의 모습을 보면서 대화를 할 수 있게 하므로, 글로벌화되어 가는 현재의 사회환경에서, 점점 수요가 증가하고 있는 것이 사실이다. 먼 거리에 떨어져 있는 가족 또는 친구들과의 사적인 대화뿐만 아니라, 비즈니스 미팅, 원격 진료 등 실로 다양한 수요가 예상된다.

실제 대화에서는 대화하는 상대방의 모습을 서로 보면서 대화를 하게 되므로 상대방의 감정이나 분위기 등을 그대로 느낄 수 있으며, 특히 대화자 간에 들려오는 음성은 각각 지향성(directivity)을 가지므로 현장감 있는 대화가 이루어질 수 있다. 그러나 화상통신에서는 실제 대화에서만큼 그러한 감정이나 분위기, 현장감 등을 느끼게 하기란 쉬운 일이 아니다. 화상통신에서 실제 대화와 같은 감정이나 분위기를 느끼게 하는 요소 중 가장 중요한 것은 오디오의 현장감이라 할 수 있다.

시간의 절약과 효율적인 공간 활용, 편리성 등의 이유로 화상 회의 기술이 개발되고 발전되어 온 시점에서, 현재의 단순한 영상 및 음성이 교환되는 화상 회의 시스템만으로는 위와 같은 오디오의 현장감은 느낄 수가 없으며, 이를 개선하기 위해 화상 회의의 현장감을 높여 회의의 몰입도를 증가시키려는 사용자들의 욕구가 생겨나고 있다.

한편, 시선 위치 추적 기술은, 컴퓨터 모니터 등과 같은 스크린 장치에서 사용자가 어느 위치를 응시하고 있는지를 파악하는 방법이다. 즉, 시선 위치 추적은 기존 마우스 작동 프로토콜과 같이 사용자가 응시하는 곳을 포인팅하여, 손이 불편한 사용자에게 입력 장치 역할을 수행하며, 가상현실 환경의 사용자에게 높은 몰입감을 제공하는 기능을 수행한다.

단순히 오디오의 현장감을 높이는 기술은 여러 채널의 마이크로폰으로부터 녹음된 오디오 신호를 편집하여 다채널의 스피커를 통하여 출력하는 녹음 및 편집 기술로써 가능할 것이다. 이에 덧붙여 화상회의 시스템 사용자의 시선 추적 정보를 가미하여 보다 더 현장감 있는 오디오를 구현할 수 있는 기술에 관한 연구가 필요한 시점이다.

이러한 종래의 문제점을 해결하기 위한 본 발명의 목적은 사운드 이미지 기법과 시선 보정 기법을 이용하여 음향뿐만 아니라 영상의 현장감을 높이고, 시선 추적 기술을 이용하여 현장감을 높이느라 오히려 대화 내용이 잘 전달되지 못하는 부분에 대해 보정하는 방법을 제공하는데 있다.

또한 본 발명의 다른 목적은 사운드 이미지 기법을 이용하여 마치 실제로 회의 참가자들이 모여있는 듯한 효과를 내어 현장감을 높이는 것이다. 현장감 있는 오디오를 제공하는 것에서 더 나아가 회의 참가자들의 시선 불일치를 해결하기 위해 시선 보정 기법을 이용하여 이질감을 제거하는 것 또한 본 발명의 또 다른 목적이다.

상술한 본 발명의 목적을 달성하기 위한 일 측면에 따른 시선 추적 기반 오디오 제어 장치는, 디스플레이(display)를 구비한 통신 장비의 오디오(audio)를 제어하는 장치에 있어서, 통신 장비의 사용자를 촬영한 이미지(image)로부터 동공 영역의 위치 좌표를 검출하고, 검출된 동공 영역의 위치 좌표에 기반하여 시선 추적 정보를 생성하는 시선 추적부와, 시선 추적 정보에 기반하여 디스플레이 내 복수의 대화자 중 한 명의 대화자를 식별하는 대화자 식별부와, 복수의 대화자 측에 설치된 마이크로폰(microphone)으로부터 전달된 각각의 오디오 신호 중, 식별한 한 명의 대화자를 제외한 나머지 대화자 측에 설치된 마이크로폰으로부터 전달된 오디오 신호에 소정의 임계 계수를 적용하는 임계 계수 적용부와, 소정의 임계 계수 적용 여부에 기반하여 각각의 오디오 신호에 음향 필터(sound filter)를 적용하는 음향 필터 적용부를 포함하여 구성될 수 있다.

여기에서, 상기 시선 추적부는, 디스플레이 상단과 하단의 카메라(camera)가 촬영한 이미지를 결합하여 시선 보정 정보를 생성하고, 시선 보정 정보에 기반하여 이미지를 보정한 시선 보정 이미지를 복수의 대화자 측의 통신 장비로 전송할 수 있다.

나아가, 상기 시선 보정 이미지는, 디스플레이 상단과 하단의 카메라가 촬영한 이미지로부터 검출된 눈 영역에 알파 블렌딩(alpha blending) 기법을 적용하여 이미지를 보정할 수 있다.

여기에서, 시선 추적 기반 오디오 제어 장치는, 복수의 대화자의 디스플레이 내 위치에 기반하여 복수의 대화자에 대한 3차원 공간 상의 가상 위치를 결정하고, 결정된 가상 위치를 가상 음원(sound source)이 되도록 사용자 측에 설치된 스피커(speaker)를 제어하는 가상 위치 결정부를 더 포함하여 구성될 수 있다.

나아가, 상기 가상 위치 결정부는, 사운드 이미지(sound image) 기법을 적용하여 가상 음원을 생성함으로써 스피커를 제어할 수 있다.

상술한 본 발명의 목적을 달성하기 위한 다른 측면에 따른 리얼리스틱 오디오(realistic audio)를 위한 화상통신 시스템은, 시선 추적 기반 오디오 제어 장치를 구비한 화상통신 시스템에 있어서, 디스플레이 상단과 하단에 각각 적어도 하나의 카메라를 구비하여, 화상통신 시스템의 사용자를 촬영하는 촬영 장치와, 촬영 장치가 촬영한 이미지로부터 시선 추적 정보를 생성하고, 시선 추적 정보에 기반하여 디스플레이 내 복수의 대화자 중 한 명의 대화자를 식별한 후, 식별 결과에 따라 복수의 대화자 측에 설치된 마이크로폰으로부터 전달된 각각의 대화자 오디오 신호에 소정의 임계 계수 및 음향 필터를 적용하는 사용자 측에 설치된 시선 추적 기반 오디오 제어 장치를 포함하여 구성될 수 있다.

여기에서, 상기 시선 추적 기반 오디오 제어 장치는, 상단과 하단의 카메라가 촬영한 이미지를 결합하여 시선 보정 정보를 생성하고, 시선 보정 정보에 기반하여 이미지를 보정한 시선 보정 이미지를 복수의 대화자 측의 통신 장비로 전송할 수 있다.

나아가, 상기 시선 보정 이미지는, 상단과 하단의 카메라가 촬영한 이미지로부터 검출된 눈 영역에 알파 블렌딩 기법을 적용하여 상기 이미지를 보정할 수 있다.

여기에서, 상기 시선 추적 기반 오디오 제어 장치는, 복수의 대화자의 디스플레이 내 위치에 기반하여 복수의 대화자에 대한 3차원 공간 상의 가상 위치를 결정하고, 결정된 가상 위치를 가상 음원이 되도록 사용자 측에 설치된 스피커를 제어할 수 있다.

나아가, 상기 시선 추적 기반 오디오 제어 장치는, 사운드 이미지 기법을 적용하여 가상 음원을 생성함으로써 스피커를 제어할 수 있다.

여기에서, 리얼리스틱 오디오를 위한 화상통신 시스템은, 사용자로부터 발생되는 사용자 오디오를 수신하여 복수의 대화자 측에 설치된 스피커로 출력되도록, 사용자 오디오 신호를 시선 추적 기반 오디오 제어 장치에 전달하는 스테레오 마이크로폰을 더 포함하여 구성될 수 있다.

여기에서, 리얼리스틱 오디오를 위한 화상통신 시스템은, 시선 추적 기반 오디오 제어 장치로부터 임계 계수 및 음향 필터가 적용된 오디오 신호를 수신하여 출력하는 스테레오 스피커를 더 포함하여 구성될 수 있다.

상술한 본 발명의 목적을 달성하기 위한 또 다른 측면에 따른 리얼리스틱 오디오를 위한 화상통신 방법은, 시선 추적 기반 오디오 제어 장치를 구비한 화상통신 시스템에서 리얼리스틱 오디오를 구현하는 방법에 있어서, 통신 장비의 사용자를 촬영한 이미지로부터 안구의 위치 좌표를 검출하고, 검출된 안구의 위치 좌표에 기반하여 시선 추적 정보를 생성하는 단계와, 시선 추적 정보에 기반하여 디스플레이 내 복수의 대화자 중 한 명의 대화자를 식별하는 단계와, 복수의 대화자 측에 설치된 마이크로폰으로부터 전달된 각각의 오디오 신호 중 식별한 한 명의 대화자를 제외한 나머지 대화자 측에 설치된 마이크로폰으로부터 전달된 오디오 신호에 소정의 임계 계수를 적용하는 단계와, 소정의 임계 계수 적용 여부에 기반하여 각각의 오디오 신호에 음향 필터를 적용하는 단계를 포함하여 구성될 수 있다.

여기에서, 리얼리스틱 오디오를 위한 화상통신 방법은, 시선 추적 정보를 생성하는 단계 이전에, 디스플레이 상단과 하단의 카메라가 촬영한 이미지를 결합하여 시선 보정 정보를 생성하고, 시선 보정 정보에 기반하여 이미지를 보정한 시선 보정 이미지를 복수의 대화자 측의 통신 장비로 전송하는 단계를 더 포함하여 구성될 수 있다.

나아가, 상기 시선 보정 이미지는, 디스플레이 상단과 하단의 카메라가 촬영한 이미지로부터 검출된 눈 영역에 알파 블렌딩 기법을 적용하여 이미지를 보정할 수 있다.

여기에서, 리얼리스틱 오디오를 위한 화상통신 방법은, 대화자를 식별하는 단계와 임계 계수를 적용하는 단계 사이에, 복수의 대화자의 디스플레이 내 위치에 기반하여 복수의 대화자에 대한 3차원 공간 상의 가상 위치를 결정하고, 결정된 가상 위치를 가상 음원이 되도록 사용자 측에 설치된 스피커를 제어하는 가상 위치 결정 단계를 더 포함하여 구성될 수 있다.

나아가, 상기 가상 위치 결정 단계는, 사운드 이미지 기법을 적용하여 가상 음원을 생성함으로써 스피커를 제어할 수 있다.

여기에서, 리얼리스틱 오디오를 위한 화상통신 방법은, 사용자로부터 발생되는 사용자 오디오를 수신하여 복수의 대화자 측에 설치된 스피커로 출력되도록, 사용자 오디오 신호를 시선 추적 기반 오디오 제어 장치에 전달하는 단계를 더 포함하여 구성될 수 있다.

여기에서, 리얼리스틱 오디오를 위한 화상통신 방법은, 음향 필터를 적용하는 단계 이후에, 시선 추적 기반 오디오 제어 장치로부터 임계 계수 및 음향 필터가 적용된 오디오 신호를 수신하여 출력하는 단계를 더 포함하여 구성될 수 있다.

상기와 같은 본 발명에 따른 시선 추적에 기반한 오디오 제어 장치 및 이를 이용한 화상통신 방법을 사용하면, 회의의 현장감이 배가되기 때문에 보다 사실적인 회의로 몰입도가 높아져 회의의 질이 향상될 수 있다. 또한 시선 추적 기술로 보다 명확한 의사소통이 이루어진다는 장점이 있다. 현장감을 높이는 방법은 회의 참가자들마다 임계 계수를 달리하여 스테레오 음성에 임계 계수를 곱한 후에 음성을 재생하는 것이다.

또한 시선 보정 기법을 이용하여 음성뿐만 아니라 영상의 현장감도 높일 수 있고, 시선 추적 기법을 이용하여 사용자가 바라보고 있는 회의 참가자를 식별하고 상기 회의 참가자의 음성이 보다 또렷이 들릴 수 있도록 한다는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 화상통신 시스템의 전체적인 구성과 바람직한 실시예를 나타낸 예시도이다.
도 2는 본 발명의 일 실시예에 따른 시선 추적 기반 오디오 제어 장치와 그 세부 구성요소를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 화상회의 시스템의 사용자와 대화자에 대한 3차원 공간 상의 가상 위치를 설정하는 것을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 리얼리스틱 오디오를 위한 화상통신 시스템과 그 세부 구성요소를 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시예에 따른 시선 추적 기반 오디오 제어 장치를 이용한 리얼리스틱 오디오를 위한 화상통신 방법과 그 세부 단계를 설명하기 위한 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

먼저, 본 출원에서 사용되는 용어를 간략히 설명하면 다음과 같다.

본 출원에서 임계 계수란 오디오 신호의 세기를 조절하기 위해 오디오 출력 장치로 오디오가 출력되기 전에 오디오 신호에 곱해주는 계수값을 말한다. 예를 들어 오디오 출력장치로 출력되는 출력값이 한계값을 넘지 않도록 감쇠하는 것일 수 있다. 일반적으로 오디오 출력 장치의 증폭기에는 임계 레벨을 넘지 않도록 출력을 감쇠시키기 위한 기구가 내장되어 있을 수 있다. 또한 임계 계수는 인간의 청각 특성을 반영하기 위하여 사용될 수도 있다.

필터는 어떤 주파수대는 쉽게 통과하고 다른 주파수대는 통과하기 힘들게 만든 회로이다. 통과시킨 영역의 경계가 되는 주파수를 컷오프 주파수(cutoff frequency)라고 부르며 fc라고 줄여서 표기한다. 주파수 특성의 커브에 따라 몇 개의 종류로 나눌 수 있다. 다음은 대표적인 것을 설명하고 있다.

하이 패스 필터(HPF, High Pass Filter)는 컷오프 주파수(fc)보다 위에 있는 주파수대를 통과하기 쉬운 특성을 가진다. 로 패스 필터(LPF, Low Pass Filter)는 컷오프 주파수(fc)보다 아래 주파수대를 통과하기 쉬운 특성을 가진다. 밴드 패스 필터(BPF, Band Pass Filter)는 하나의 주파수 영역만을 통과하기 쉬운 특성을 가진다. 통과하기 쉬운 주파수의 상한과 하한의 두 가지 컷오프 주파수(fcH, fcL)를 가진다. 주파수 영역이 좁은 경우는 그 중심 주파수만을 표시하는 경우도 있다. 밴드 리젝트 필터(BRF, Band Reject Filter)는 비교적 좁은 주파수 영역만을 통과하기가 어렵다. 컷오프 주파수의 표시는 BPF 와 같아서 영역의 상하 한계를 별도로 나타내는 경우와 컷하는 영역의 중심 주파수만을 나타나는 경우가 있다. 다르게 밴드 엘리미네이트 필터(BEF, Band Eliminate Filter)라고 부른다. 노치 필터(notch filter)는 특정 주파수 포인트만을 통과하기 어려운 특성을 가진다. BRF에서 영역이 좁은 극단 부분으로 생각해도 좋다. 컷오프 주파수의 표시는 통과시킬 수 없는 주파수 포인트로 나타낸다. 올 패스 필터(all pass filter)는 주파수 특성이 아니라 위상 특성을 변화시키는 필터다. 주파수 특성은 평범하지만 한 주파수를 경계로 위상이 180도 변한다(반대가 된다). 특수한 특성이지만 필터의 일종이다.

필터에는 이 밖에도 여러 종류가 있어, 회로 설계로 어떠한 특성도 만들어 낼 수 있다. 필터의 요소로서는 컷오프 주파수만이 아니라 차단 특성도 문제가 된다. 차단 특성이란 하이 패스 필터라고 한다면 fc 이하의 주파수를 어느 정도 비율로 저지하는가가 예민한 특성을 나타내는 요소다. 이것은 보통 fc보다 한 옥타브 아래 주파수 성분이 fc에 비교해서 어느 정도 약한가를 dB로 표시한다. 예를 들면 fc의 반을 통과량으로 한다면 6dB/oct.로 표기하고, 통과량이 1/4라면 12dB/oct.가 된다. 또 한 가지 표시법으로서 한 옥타브 아래가 아니라 fc의 1/10의 주파수에서 통과량을 fc의 통과량과 비로 나타내는 방법도 있으며, 이것은 dB/dec.로 표시한다(dec.는 디케이드의 약식 표기).

알파 블렌딩(alpha blending) 기법이란 일반 이미지 데이터에 투명도를 나타내는 변수 α를 추가하여 투과 이미지를 표현하는 기법이다. 특히 연기와 같은 3D 이미지에서 표현력을 높이는 데 효과적이다.

사운드 이미지란 스테레오 상에서 실제로 음원이 없는 방향에 소리가 존재하는 것 같이 느껴지는 소리의 형태를 의미한다. 사운드 이미지 기법은 그렇게 느끼도록 만드는 기법 중의 하나이다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 화상통신 시스템(10)의 전체적인 구성과 바람직한 실시예를 나타낸 예시도이고, 도 2는 시선 추적 기반 오디오 제어 장치(200)와 그 세부 구성요소를 설명하기 위한 블록도이다. 도 1 내지 도 2를 참조하여 시선 추적 기반 오디오 제어 장치(200)와 그 세부 구성요소의 동작을 설명하면 다음과 같다.

시선 추적 기반 오디오 제어 장치(200)는, 디스플레이(300)를 구비한 통신 장비의 오디오(audio)를 제어하는 장치에 있어서, 통신 장비의 사용자를 촬영한 이미지(image)로부터 동공 영역의 위치 좌표를 검출하고, 검출된 동공 영역의 위치 좌표에 기반하여 시선 추적 정보를 생성하는 시선 추적부(210)와, 시선 추적 정보에 기반하여 디스플레이(300) 내 복수의 대화자 중 한 명의 대화자를 식별하는 대화자 식별부(220)와, 복수의 대화자 측에 설치된 마이크로폰으로부터 전달된 각각의 오디오 신호 중, 식별한 한 명의 대화자를 제외한 나머지 대화자 측에 설치된 마이크로폰으로부터 전달된 오디오 신호에 소정의 임계 계수를 적용하는 임계 계수 적용부(240)와, 소정의 임계 계수 적용 여부에 기반하여 각각의 오디오 신호에 음향 필터(sound filter)를 적용하는 음향 필터 적용부(250)를 포함하여 구성될 수 있다.

시선 추적부(210)는, 디스플레이(300) 상단과 하단의 카메라(camera)가 촬영한 이미지를 결합하여 시선 보정 정보를 생성하고, 시선 보정 정보에 기반하여 이미지를 보정한 시선 보정 이미지를 복수의 대화자 측의 통신 장비로 전송할 수 있다. 시선 보정 이미지는, 디스플레이(300) 상단과 하단의 카메라가 촬영한 이미지로부터 검출된 눈 영역에 알파 블렌딩(alpha blending) 기법을 적용하여 이미지를 보정할 수 있다.

도 1을 참조하면, 사용자 1이 카메라를 장착한 PC를 이용하여 일대 다수의 화상 회의를 한다고 가정할 수 있다. 이때 사용자 1은 디스플레이(300)를 통해 다른 사용자, 즉 대화자 3, 대화자 4, 대화자 5와 화상 회의를 할 수 있다. 만약 사용자 1이 대화자 4를 보며 말하고 있다면 사용자 1이 보고 있는 대상은 시선 추적 기술을 이용하여 사용자4임을 찾아낼 수 있다. 그리고 사용자1의 음성은 스테레오 마이크를 통해 들어오게 되고 대화자 4는 대화자 4 측에 설치된 스테레오 스피커를 통해 사용자 1이 한 말을 현장감 있게 들을 수 있다. 이러한 방식은 대화자 3 및 대화자 5, 또는 다대다의 회의에도 똑같이 적용될 수 있다.

회의 참가자들은 도 2와 같은 시선 추적 기반 오디오 제어 장치(200)를 구비할 수 있다. 먼저 촬영 장치(100)를 구동하여 사용자를 촬영할 수 있다. 촬영된 영상을 각 회의 참가자 3, 4, 5에게 전송하고 각 회의 참가자 3, 4, 5들로부터 전송 받은 영상을 디스플레이(300)에 표시할 수 있다. 이 때 전송 받은 영상은 시선 추적부(210)를 통하여 시선 보정 과정을 거칠 수 있다. 영상이 전송되기 전에 이 과정을 거치게 되는데 디스플레이(300) 하단에 설치된 카메라에서 촬영된 사용자 1의 동공 영역을 디스플레이(300) 상단에 설치된 카메라에서 검출된 동공 영역에 알파 블렌딩 기법을 이용하여 덮으면 시선이 보정될 수 있다.

도 3은 본 발명의 일 실시예에 따른 화상회의 시스템의 사용자와 대화자에 대한 3차원 공간 상의 가상 위치를 설정하는 것을 설명하기 위한 예시도이다. 도 3을 참조하여 화상회의 시스템의 사용자와 대화자에 대한 3차원 공간 상의 가상 위치를 설정하는 과정을 설명하면 다음과 같다.

복수의 대화자의 디스플레이(300) 내 위치에 기반하여 복수의 대화자에 대한 3차원 공간 상의 가상 위치를 결정하고, 결정된 가상 위치를 가상 음원(sound source)이 되도록 사용자 측에 설치된 스피커(500)를 제어하는 가상 위치 결정부(230)를 더 포함하여 구성될 수 있다. 가상 위치 결정부(230)는, 사운드 이미지(sound image) 기법을 적용하여 가상 음원을 생성함으로써 스피커(500)를 제어할 수 있다.

디스플레이(300)에 대화자 3, 4, 5의 영상이 표시된 후에 영상이 표시된 위치에 따라 도3과 같이 가상 고안을 생성할 수 있다. 이때 가상 고안에서 각 꼭지점을 이루는 대화자 3, 4, 5와 사용자 1 중 인접한 참가자들 간의 거리는 모두 동일한 것으로 간주할 수 있다. 이 가상 위치를 바탕으로 사운드 이미지 기법에 따라 스테레오 음향에 임계 계수를 곱하여 회의 참가자들의 음성을 사용자 1에게 스피커(500)를 통해 재생할 수 있다.

이 때 현장감을 높이면서 명확한 대화의 질 및 효율을 높이기 위해 시선 추적 기술을 이용하여 사용자 1이 현재 바라보고 있는 대화자를 식별하고 해당 대화자의 오디오(음성)에는 임계 계수를 곱하지 않고, 음성 강조 필터를 적용하여 대화자의 음성이 보다 또렷이 들릴 수 있게 할 수 있다.

도 4는 본 발명의 일 실시예에 따른 리얼리스틱 오디오를 위한 화상통신 시스템(10)과 그 세부 구성요소를 설명하기 위한 블록도이다. 도 4를 참조하여 리얼리스틱 오디오를 위한 화상통신 시스템(10)과 그 세부 구성요소를 설명하면 다음과 같다.

리얼리스틱 오디오(realistic audio)를 위한 화상통신 시스템(10)은, 시선 추적 기반 오디오 제어 장치(200)를 구비한 화상통신 시스템(10)에 있어서, 디스플레이(300) 상단과 하단에 각각 적어도 하나의 카메라를 구비하여, 화상통신 시스템(10)의 사용자를 촬영하는 촬영 장치(100)와, 촬영 장치(100)가 촬영한 이미지로부터 시선 추적 정보를 생성하고, 시선 추적 정보에 기반하여 디스플레이(300) 내 복수의 대화자 중 한 명의 대화자를 식별한 후, 식별 결과에 따라 복수의 대화자 측에 설치된 마이크로폰으로부터 전달된 각각의 대화자 오디오 신호에 소정의 임계 계수 및 음향 필터를 적용하는 사용자 측에 설치된 시선 추적 기반 오디오 제어 장치(200)를 포함하여 구성될 수 있다.

시선 추적 기반 오디오 제어 장치(200)는, 상단과 하단의 카메라가 촬영한 이미지를 결합하여 시선 보정 정보를 생성하고, 시선 보정 정보에 기반하여 이미지를 보정한 시선 보정 이미지를 복수의 대화자 측의 통신 장비로 전송할 수 있다. 시선 보정 이미지는, 상단과 하단의 카메라가 촬영한 이미지로부터 검출된 눈 영역에 알파 블렌딩 기법을 적용하여 이미지를 보정할 수 있다.

시선 추적 기반 오디오 제어 장치(200)는, 복수의 대화자의 디스플레이(300) 내 위치에 기반하여 복수의 대화자에 대한 3차원 공간 상의 가상 위치를 결정하고, 결정된 가상 위치를 가상 음원이 되도록 사용자 측에 설치된 스피커(500)를 제어할 수 있다. 시선 추적 기반 오디오 제어 장치(200)는, 사운드 이미지 기법을 적용하여 가상 음원을 생성함으로써 스피커(500)를 제어할 수 있다.

리얼리스틱 오디오를 위한 화상통신 시스템(10)은, 사용자로부터 발생되는 사용자 오디오를 수신하여 복수의 대화자 측에 설치된 스피커(500)로 출력되도록, 사용자 오디오 신호를 시선 추적 기반 오디오 제어 장치(200)에 전달하는 스테레오 마이크로폰(400)을 더 포함하여 구성될 수 있고, 시선 추적 기반 오디오 제어 장치(200)로부터 임계 계수 및 음향 필터가 적용된 오디오 신호를 수신하여 출력하는 스테레오 스피커(500)를 더 포함하여 구성될 수 있다.

리얼리스틱 오디오를 위한 화상통신 시스템(10)과 그 세부 구성요소에 대한 설명은 앞서 설명한 시선 추적 기반 오디오 제어 장치(200)에 대한 설명에서 상술한 바 있으므로 중복하여 기재하지는 않는다.

일반적인 스피커(500)에서 나오는 음성은 실제 만나서 대화를 나누는 것과는 다른 느낌을 낸다. 대화를 나누기보다는 강의를 듣는 것 같은 느낌을 받는다. 하지만 스테레오 음향 시스템을 이용하여 대화를 나누는 상대가 바로 앞에서 얘기하는 것과 같은 느낌을 줄 수 있다면 회의에 대한 몰입도도 올라가고 한결 긴장감이 완화된 상태에서 회의가 진행될 수 있다.

도 5는 본 발명의 일 실시예에 따른 시선 추적 기반 오디오 제어 장치(200)를 이용한 리얼리스틱 오디오를 위한 화상통신 방법과 그 세부 단계를 설명하기 위한 흐름도이다. 도 5를 참조하여 시선 추적 기반 오디오 제어 장치(200)를 이용한 리얼리스틱 오디오를 위한 화상통신 방법과 그 세부 단계를 설명하면 다음과 같다.

리얼리스틱 오디오를 위한 화상통신 방법은, 시선 추적 기반 오디오 제어 장치(200)를 구비한 화상통신 시스템(10)에서 리얼리스틱 오디오를 구현하는 방법에 있어서, 통신 장비의 사용자를 촬영한(S505) 이미지로부터 안구의 위치 좌표를 검출하고, 검출된 안구의 위치 좌표에 기반하여 시선 추적 정보를 생성하는 단계(S520)와, 시선 추적 정보에 기반하여 디스플레이(300) 내 복수의 대화자 중 한 명의 대화자를 식별하는 단계(S525)와, 복수의 대화자 측에 설치된 마이크로폰으로부터 전달된 각각의 오디오 신호(S540) 중 식별한 한 명의 대화자를 제외한 나머지 대화자 측에 설치된 마이크로폰으로부터 전달된 오디오 신호에 소정의 임계 계수를 적용하는 단계(S550)와, 소정의 임계 계수 적용 여부에 기반하여 각각의 오디오 신호에 음향 필터를 적용하는 단계(S555)를 포함하여 구성될 수 있다.

리얼리스틱 오디오를 위한 화상통신 방법은, 시선 추적 정보를 생성하는 단계(S520) 이전에, 디스플레이(300) 상단과 하단의 카메라가 촬영한 이미지를 결합하여 시선 보정 정보를 생성하고(S515), 시선 보정 정보에 기반하여 이미지를 보정한 시선 보정 이미지를 복수의 대화자 측의 통신 장비로 전송하는 단계를 더 포함하여 구성될 수 있다. 시선 보정 이미지는, 디스플레이(300) 상단과 하단의 카메라가 촬영한 이미지로부터 검출된 눈 영역에 알파 블렌딩 기법을 적용하여 이미지를 보정할 수 있다.

리얼리스틱 오디오를 위한 화상통신 방법은, 대화자를 식별하는 단계(S525)와 임계 계수를 적용하는 단계(S550) 사이에, 복수의 대화자의 디스플레이(300) 내 위치에 기반하여 복수의 대화자에 대한 3차원 공간 상의 가상 위치를 결정하고, 결정된 가상 위치를 가상 음원이 되도록 사용자 측에 설치된 스피커(500)를 제어하는 가상 위치 결정 단계(S545)를 더 포함하여 구성될 수 있다. 가상 위치 결정 단계(S545)는, 사운드 이미지 기법을 적용하여 가상 음원을 생성함으로써 스피커(500)를 제어할 수 있다.

리얼리스틱 오디오를 위한 화상통신 방법은, 사용자로부터 발생되는 사용자 오디오를 수신하여 복수의 대화자 측에 설치된 스피커로 출력되도록, 사용자 오디오 신호를 시선 추적 기반 오디오 제어 장치(200)에 전달하는 단계(S535)를 더 포함할 수 있고, 음향 필터를 적용하는 단계(S555) 이후에, 시선 추적 기반 오디오 제어 장치(200)로부터 임계 계수 및 음향 필터가 적용된 오디오 신호를 수신하여 출력하는 단계(S560)를 더 포함하여 구성될 수 있다.

리얼리스틱 오디오를 위한 화상통신 방법에 대한 설명은 앞서 설명한 시선 추적 기반 오디오 제어 장치(200)와 리얼리스틱 오디오를 위한 화상통신 시스템(10)에 대한 설명에서 상술한 바 있으므로 중복하여 기재하지는 않는다.

비록 몇몇의 측면들은 장치의 관점에서 설명되었지만, 이러한 측면들은 상응하는 방법의 설명을 나타내는 것이 명확하며, 여기서 방법의 단계는 장치에 대응한다. 특정 구현 요구들에 따르면, 발명의 실시예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 본 발명의 실시예들은 프로그램 코드, 방법들 중 하나의 수행을 위해 동작하는 프로그램 코드를 가지는 컴퓨터 프로그램 제품으로서 수행될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10: (사용자측) 화상통신 시스템 20: (대화자측) 화상통신 시스템
100: 촬영 장치
200: 시선 추적 기반 오디오 제어 장치
210: 시선 추적부 220: 대화자 식별부
230: 가상 위치 결정부 240: 임계 계수 적용부
250: 음향 필터 적용부 300: 디스플레이
400: 마이크로폰 500: 스피커

Claims

디스플레이(display)를 구비한 통신 장비의 오디오(audio)를 제어하는 장치에 있어서,
상기 통신 장비의 사용자를 촬영한 이미지(image)로부터 동공 영역의 위치 좌표를 검출하고, 상기 검출된 동공 영역의 위치 좌표에 기반하여 시선 추적 정보를 생성하는 시선 추적부; 및
상기 시선 추적 정보에 기반하여 상기 디스플레이 내 복수의 대화자 중 한 명의 대화자를 식별하는 대화자 식별부;
상기 복수의 대화자 측에 설치된 마이크로폰(microphone)으로부터 전달된 각각의 오디오 신호 중, 상기 식별한 한 명의 대화자를 제외한 나머지 대화자 측에 설치된 마이크로폰으로부터 전달된 오디오 신호에 소정의 임계 계수를 적용하는 임계 계수 적용부; 및
상기 소정의 임계 계수 적용 여부에 기반하여 상기 각각의 오디오 신호에 음향 필터(sound filter)를 적용하는 음향 필터 적용부를 포함하는 시선 추적 기반 오디오 제어 장치.
청구항 1에 있어서,
상기 시선 추적부는,
상기 디스플레이 상단과 하단의 카메라(camera)가 촬영한 이미지를 결합하여 시선 보정 정보를 생성하고, 상기 시선 보정 정보에 기반하여 상기 이미지를 보정한 시선 보정 이미지를 상기 복수의 대화자 측의 통신 장비로 전송하는 것을 특징으로 하는 시선 추적 기반 오디오 제어 장치.
청구항 2에 있어서,
상기 시선 보정 이미지는,
상기 디스플레이 상단과 하단의 카메라가 촬영한 이미지로부터 검출된 눈 영역에 알파 블렌딩(alpha blending) 기법을 적용하여 상기 이미지를 보정하는 것을 특징으로 하는 시선 추적 기반 오디오 제어 장치.
청구항 1에 있어서,
상기 복수의 대화자의 상기 디스플레이 내 위치에 기반하여 상기 복수의 대화자에 대한 3차원 공간 상의 가상 위치를 결정하고, 상기 결정된 가상 위치를 가상 음원(sound source)이 되도록 상기 사용자 측에 설치된 스피커(speaker)를 제어하는 가상 위치 결정부를 더 포함하는 것을 특징으로 하는 시선 추적 기반 오디오 제어 장치.
청구항 4에 있어서,
상기 가상 위치 결정부는,
사운드 이미지(sound image) 기법을 적용하여 가상 음원을 생성함으로써 스피커를 제어하는 것을 특징으로 하는 시선 추적 기반 오디오 제어 장치.
시선 추적 기반 오디오 제어 장치를 구비한 화상통신 시스템에서 리얼리스틱 오디오를 구현하는 방법에 있어서,
상기 통신 장비의 사용자를 촬영한 이미지로부터 안구의 위치 좌표를 검출하고, 상기 검출된 안구의 위치 좌표에 기반하여 시선 추적 정보를 생성하는 단계;
상기 시선 추적 정보에 기반하여 상기 디스플레이 내 복수의 대화자 중 한 명의 대화자를 식별하는 단계;
상기 복수의 대화자 측에 설치된 마이크로폰으로부터 전달된 각각의 오디오 신호 중 상기 식별한 한 명의 대화자를 제외한 나머지 대화자 측에 설치된 마이크로폰으로부터 전달된 오디오 신호에 소정의 임계 계수를 적용하는 단계; 및
상기 소정의 임계 계수 적용 여부에 기반하여 상기 각각의 오디오 신호에 음향 필터를 적용하는 단계를 포함하는 리얼리스틱 오디오를 위한 화상통신 방법.
청구항 6에 있어서,
상기 디스플레이 상단과 하단의 카메라(camera)가 촬영한 이미지를 결합하여 시선 보정 정보를 생성하고, 상기 시선 보정 정보에 기반하여 상기 이미지를 보정한 시선 보정 이미지를 상기 복수의 대화자 측의 통신 장비로 전송하는 단계를 더 포함하는 것을 특징으로 하는 리얼리스틱 오디오를 위한 화상통신 방법.
청구항 7에 있어서,
상기 시선 보정 이미지는,
상기 디스플레이 상단과 하단의 카메라가 촬영한 이미지로부터 검출된 눈 영역에 알파 블렌딩 기법을 적용하여 상기 이미지를 보정하는 것을 특징으로 하는 리얼리스틱 오디오를 위한 화상통신 방법.
청구항 6에 있어서,
상기 대화자를 식별하는 단계와 상기 임계 계수를 적용하는 단계 사이에,
상기 복수의 대화자의 상기 디스플레이 내 위치에 기반하여 상기 복수의 대화자에 대한 3차원 공간 상의 가상 위치를 결정하고, 상기 결정된 가상 위치를 가상 음원이 되도록 상기 사용자 측에 설치된 스피커를 제어하는 가상 위치 결정 단계를 더 포함하는 것을 특징으로 하는 리얼리스틱 오디오를 위한 화상통신 방법.
청구항 9에 있어서,
상기 가상 위치 결정 단계는,
사운드 이미지 기법을 적용하여 가상 음원을 생성함으로써 스피커를 제어하는 것을 특징으로 하는 리얼리스틱 오디오를 위한 화상통신 방법.
청구항 6에 있어서,
상기 사용자로부터 발생되는 사용자 오디오를 수신하여 상기 복수의 대화자 측에 설치된 스피커로 출력되도록, 상기 사용자 오디오 신호를 상기 시선 추적 기반 오디오 제어 장치에 전달하는 단계를 더 포함하는 것을 특징으로 하는 리얼리스틱 오디오를 위한 화상통신 방법.
청구항 6에 있어서,
상기 음향 필터를 적용하는 단계 이후에,
상기 시선 추적 기반 오디오 제어 장치로부터 상기 임계 계수 및 음향 필터가 적용된 오디오 신호를 수신하여 출력하는 단계를 더 포함하는 것을 특징으로 하는 리얼리스틱 오디오를 위한 화상통신 방법.