KR20210118820A

KR20210118820A - 오디오 시스템, 오디오 재생 장치, 서버 장치, 오디오 재생 방법 및 오디오 재생 프로그램

Info

Publication number: KR20210118820A
Application number: KR1020217020945A
Authority: KR
Inventors: 히로유키 혼마; 도루 치넨; 요시아키 오이카와
Original assignee: 소니그룹주식회사
Priority date: 2019-01-24
Filing date: 2019-12-11
Publication date: 2021-10-01
Also published as: DE112019006727T5; WO2020153027A1; JPWO2020153027A1; CN113302950A; US20220086587A1; US11937069B2

Abstract

입력되는 화상 데이터에 기초하여 얼굴 데이터를 검출하는 얼굴 데이터 검출부와, 얼굴 데이터 검출부로부터 출력된 얼굴 데이터에 대응하는 음향 계수를 출력하는 음향 계수 취득부와, 음향 계수 취득부에서 취득한 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용부를 구비하는.

Description

오디오 시스템, 오디오 재생 장치, 서버 장치, 오디오 재생 방법 및 오디오 재생 프로그램

본 개시는, 오디오 시스템, 오디오 재생 장치, 서버 장치, 오디오 재생 방법 및 오디오 재생 프로그램에 관한 것이다.

현재, 복수의 스피커를 이용하여, 원하는 음장을 재현하는 기법이 알려져 있다. 이러한 음장 재현의 기법에 의해, 입체적인 음향 공간을 실현하는 것이 가능해진다. 특허 문헌 1에는, 두부 전달 함수를 사용하여, 원하는 음향 효과를 달성할 수 있는 음향 제어 장치가 개시되어 있다.

일본 특허 공개 제2015-228571호 공보

이러한 분야에서는, 유저에게 적합한 음장을 실현할 것이 요망되고 있다. 본 개시는, 유저에게 적합한 음장을 실현하는 오디오 시스템, 오디오 재생 장치, 서버 장치, 오디오 재생 방법 및 오디오 재생 프로그램을 제공하는 것을 목적의 하나로 한다.

본 개시는, 예를 들어

입력되는 화상 데이터에 기초하여 얼굴 데이터를 검출하는 얼굴 데이터 검출부와,

얼굴 데이터 검출부로부터 출력된 얼굴 데이터에 대응하는 음향 계수를 출력하는 음향 계수 취득부와,

음향 계수 취득부에서 취득한 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용부를 구비하는

오디오 시스템이다.

본 개시는, 예를 들어

얼굴 데이터에 대응하는 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용부를 구비하는

오디오 재생 장치이다.

본 개시는, 예를 들어

오디오 재생 장치로부터 송신된 얼굴 데이터를 수신하는 수신부와,

수신한 얼굴 데이터에 대응하는 음향 계수를 출력하는 음향 계수 취득부와,

음향 계수 취득부에서 출력된 음향 계수를, 오디오 재생 장치에 송신하는

서버 장치이다.

본 개시는, 예를 들어

입력되는 화상 데이터에 기초하여 얼굴 데이터를 검출하는 얼굴 데이터 검출 처리와,

얼굴 데이터에 대응하는 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용 처리를 행하는

오디오 재생 방법이다.

본 개시는, 예를 들어

얼굴 데이터에 대응하는 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용 처리를 정보 처리 장치에 실행시키는

오디오 재생 프로그램이다.

도 1은 일반적인 재생 장치의 구성을 나타내는 블록도이다.
도 2는 패닝 처리의 1종인 3차원 VBAP를 설명하기 위한 도면이다.
도 3은 본 실시 형태에 관한 오디오 시스템을 나타내는 블록도이다.
도 4는 본 실시 형태에 관한 개인화 음향 계수 설정 처리를 나타내는 흐름도이다.
도 5는 본 실시 형태에 관한 개인화 음향 계수 취득 처리를 나타내는 흐름도이다.
도 6은 본 실시 형태에 관한 개인화 음향 계수 재계산 처리를 표시하는 흐름도이다.
도 7은 테스트 신호 정보의 표시 상태를 나타내는 도면이다.

이하, 본 개시의 실시 형태 등에 대해 도면을 참조하면서 설명한다. 또한, 설명은 이하의 순서로 행한다.

<1. 일반 기술의 설명>

<2.1 실시 형태>

이하에 설명하는 실시 형태 등은 본 개시의 적합한 구체예이며, 본 개시의 내용이 이들 실시 형태에 한정되는 것은 아니다.

<1. 일반 기술의 설명>

영화나 게임 등에 오브젝트 오디오 기술이 사용되고, 오브젝트 오디오를 취급할 수 있는 부호화 방식도 개발되고 있다. 예를 들어, 국제 표준 규격인 MPEG 규격 등이 알려져 있다.

이러한 부호화 방식에서는, 종래의 2채널 스테레오 방식이나 5.1채널 등의 멀티 채널 스테레오 방식과 함께, 이동하는 음원 등을 독립한 오디오 오브젝트로서 취급할 수 있고, 오디오 오브젝트의 신호 데이터와 함께 오브젝트의 위치 정보를 메타 데이터로서 부호화할 수 있다. 이렇게 함으로써, 스피커의 수, 배치가 다른 다양한 시청 환경에서 재생을 행할 수 있고, 또한, 종래의 부호화 방식에서는 곤란하였던 특정 음원을 재생 시에 가공(예를 들어, 음량의 조정이나, 이펙트의 추가 등)하는 것이 용이하게 가능해지고 있다.

도 1에는, 일반적인 재생 장치(100)의 구성을 나타내는 블록도가 도시되어 있다. 재생 장치(100)는, 코어 디코딩 처리부(101), 렌더링 처리부(102), 두부 전달 함수 처리부(103)를 구비하여 구성되어 있다. 코어 디코딩 처리부(101)는, 외부로부터 입력되는 입력 비트 스트림을 복호하고, 오디오 오브젝트 신호와, 오브젝트 위치 정보 등을 포함하는 메타 데이터를 출력한다. 여기서, 오브젝트란, 재생되는 오디오 신호를 구성하는 1 내지 복수의 음원이며, 오디오 오브젝트 신호는, 음원으로부터 발해지는 오디오 신호에 상당하고, 오브젝트 위치 정보는, 음원이 되는 오브젝트의 위치에 상당한다.

렌더링 처리부(102)는, 디코딩된 오디오 오브젝트 신호와, 오브젝트 위치 정보에 기초하여, 가상 공간 중에 배치된 스피커에 렌더링 처리를 행하고, 가상 공간에 있어서의 음장을 재현한 가상 스피커 신호를 출력한다. 두부 전달 함수 처리부(103)는, 가상 스피커 신호에 대해, 일반적인 두부 전달 함수를 적용하여, 헤드폰 혹은 스피커 재생을 위한 오디오 신호를 출력한다.

여기서, 렌더링 처리부(102)에서는, 3차원 VBAP(Vector Based Amplitude Panning)라고 불리는 방식이 사용되는 것이 알려져 있다. 이것은 일반적으로 패닝이라고 불리는 렌더링 방법의 하나이며, 시청 위치를 원점으로 하는 구 표면 상에 존재하는 스피커 중, 동일하게 구 표면 상에 존재하는 오디오 오브젝트에 가장 가까운 3개의 스피커에 대해 게인을 분배함으로써 렌더링을 행하는 방식이다.

도 2는, 3차원 VBAP를 설명하기 위한 도면이다. 시청 위치 U11을 원점 O로 하고, 3차원 공간 중의 구 표면에 있는 오디오 오브젝트 VSP2로부터 소리를 출력하는 것을 생각해 본다. 오디오 오브젝트 VSP2의 위치를, 원점 O(시청 위치 U11)를 개시점으로 하는 벡터 P라 하면, 벡터 P는, 오디오 오브젝트 VSP2와 같은 구 표면에 있는 스피커 SP1, SP2, SP3에 대해 게인을 분배함으로써 나타낼 수 있다. 그래서, 벡터 P는, 각 스피커 SP1, SP2, SP3의 위치를 나타내는 벡터 L1, L2 및 L3을 사용하여 식 (1)과 같이 표시할 수 있다.

여기서, 각각 g1, g2, 및 g3은, 스피커 SP1, SP2 및 SP3에 대한 게인을 표시하고, g123=[g1 g2 g3], L123=[L1 L2 L3]이라 하면, 식 (1)은, 이하의 식 (2)로 표시할 수 있다.

이와 같이 하여 구해진 게인을 사용하여, 오디오 오브젝트 신호를 각 스피커 SP1, SP2, SP3에 분배함으로써, 렌더링을 행할 수 있다. 스피커 SP1, SP2, SP3의 배치는 고정되어 있고 기지의 정보이기 때문에, 역행렬 L123^-1은 사전에 구해둘 수 있고, 비교적 평이한 계산량으로 처리를 행할 수 있다.

이러한 패닝 방식에서는 스피커를 공간 중에 다수 배치함으로써 공간 해상도를 높일 수 있다. 그러나, 영화관과는 달리 일반적인 가정에서는 다수의 스피커를 공간 내에 배치하기는 곤란한 경우가 많다. 이러한 경우에, 두부 전달 함수를 이용한 트랜스오럴 처리에 의해, 공간 중에 배치한 다수의 가상 스피커의 재생 신호를, 실공간 상에 배치한 소수의 스피커로 청각 근사적으로 재현할 수 있음이 알려져 있다.

한편, 트랜스오럴 처리에 사용되는 두부 전달 함수는, 헤드부나 귀의 형상에 의해 크게 변화된다. 따라서, 현재 시장에 존재하는 트랜스오럴 처리나 헤드폰용 바이너럴 처리에 사용되는 두부 전달 함수는, 인간의 평균적인 얼굴 형상을 갖는 더미헤드의 귓속에 마이크로 폰을 삽입해 임펄스 응답을 측정함으로써 작성되고 있다. 그러나, 실제로는, 개인별로 다른 얼굴, 귀 등의 형상, 배치에 의해 좌우되기 때문에, 평균적인 두부 전달 함수로는 불충분하며, 음장을 충실하게 재생하기는 곤란하였다.

본 실시 형태에 관한 오디오 시스템은, 이러한 상황을 감안하여 이루어진 것이며, 카메라에 의해 취득된 화상으로부터 얼굴 인식 기술을 이용하여 얼굴 데이터를 취득하고, 취득된 얼굴 데이터에 대응하는 개인화 두부 전달 함수를 사용함으로써, 각 개인에 따라, 음장을 충실하게 재현하는 것을 하나의 목적으로 하는 것이다. 이하에, 본 실시 형태에 관한 오디오 시스템의 각종 실시 형태를 설명한다.

<2.1 실시 형태>

도 3은, 본 실시 형태에 관한 오디오 시스템을 나타내는 블록도이다. 오디오 시스템은, 오디오 신호를 출력하는 재생 장치(300)와, 서버 장치(200)를 갖고 구성된다. 재생 장치(300)와 서버 장치(200)는, 인터넷 등, 각종 통신 회선을 통하여 통신 접속되어 있다. 우선, 재생 장치(300)의 오디오 재생 기능에 대해 설명한다.

재생 장치(300)에 있어서의 오디오 재생 기능은, 코어 디코딩 처리부(301), 렌더링 처리부(302), 음향 계수 적용부(303)에 의해 실현된다. 코어 디코딩 처리부(301)는, 도 1에서 설명한 코어 디코딩 처리부(101)와 마찬가지 기능을 갖고, 입력되는 입력 비트 스트림을 디코딩하고, 오디오 오브젝트 신호와, 오브젝트 위치 정보(메타 정보)를 출력한다. 렌더링 처리부(302)는, 도 1에서 설명한 렌더링 처리부(102)와 마찬가지 기능을 갖는다. 렌더링 처리부(302)에서는, 예를 들어 상기에서 설명한 VBAP와 같은 패닝 처리를 실행하고, 가상 스피커 신호를 출력한다. 음향 계수 적용부(303)는, 입력되는 가상 스피커 신호에 각종 음향 계수를 적용함으로써, 오디오 신호를 출력한다.

다음에, 음향 계수 적용부(303)에서 적용하는 각종 음향 계수를 취득하는 방법에 대해 설명한다. 본 실시 형태의 재생 장치(300)는, 청취하는 유저를 촬영한 화상 데이터를 취득하는 것이 가능하게 되어 있다. 화상 데이터는, 재생 장치(300)에 통신 접속된 각종 정보 기기, 예를 들어 텔레비전, 스마트 스피커, PC 등으로부터 취득하는 것이 가능하다. 이들 정보 기기에는 카메라가 탑재되어 있고, 재생 장치(300)로 재생되는 오디오 신호를 청취하는 유저의 모습을 촬상하는 것이 가능하게 되어 있다. 또한, 재생 장치(300)에 카메라를 탑재한 정보 기기를 통신 접속하는 것을 대신해, 재생 장치(300)에 카메라를 직접, 통신 접속하여, 화상 데이터를 취득하는 형태를 채용해도 된다.

또한, 본 실시 형태의 재생 장치(300)에는, 각종 정보를 표시하기 위한 표시 장치를 접속하는 것이 가능하게 되어 있다. 재생 장치(300)는, 각종 정보를 표시함으로써, 유저에게 음향 계수를 선택시키는 것이 가능하게 되어 있다. 또한, 재생 장치(300)에는, 음향 계수를 선택시키기 위한 입력 장치도 접속된다. 입력 장치로서는, 리모컨 장치, 키보드, 마우스와 같은 형태 이외에, 유저가 소지하는 스마트 폰을 통신 접속하여 사용하는 것도 가능하다.

다음에, 재생 장치(300)에서 사용되는 개인화 음향 계수를 얻는 방법에 대해, 도 4의 흐름도를 사용하여 설명을 행한다. 도 4는, 재생 장치(300)에서 사항되는 개인화 음향 계수 설정 처리를 나타내는 흐름도이다.

재생 장치(300)에서 사항되는 개인화 음향 계수 설정 처리에서는, 우선, 얼굴 데이터 검출부(304)에 화상 데이터가 입력되고(S11), 얼굴 데이터 검출부(304)는, 화상 데이터에 기초하여 얼굴 인식 처리를 실행한다(S12). 얼굴 데이터 검출부(304)는, 인식 결과에 기초하여 얼굴 데이터를 검출, 출력한다. 얼굴 인식 처리에 대해서는 일반적으로 사용되고 있는 기술을 적용할 수 있다. 또한, 얼굴 데이터는, 화상 데이터로부터 추출한 얼굴 부분이어도 되고, 얼굴의 윤곽이나 눈, 귀, 코의 위치, 크기와 같은 얼굴의 특징량 등, 각종 형태를 채용할 수 있다. 또한, 얼굴 데이터에는, 청취 공간에 있어서의 유저의 위치, 혹은 향하는 방향을 포함해도 된다.

인식 결과로서의 얼굴 데이터는 서버 장치(200)로 송신된다(S13). 이것은 얼굴 데이터 송신부(305)에 의해 행해진다. 서버 장치(200)로의 송신에 관하여, 물리적으로는 유선, 무선에 한정하지 않고 모든 매체를 사용할 수 있다. 또한, 논리적인 포맷은 로스리스 압축 및 비압축 포맷 외에도, 서버 장치(200) 상의 다수의 얼굴 데이터로부터 대조 가능한 정도의 경도(輕度)의 비가역 압축 방법도 사용하는 것이 가능하다.

여기서, 서버 장치(200) 상에 있어서 수신된 얼굴 데이터로부터 개인화 음향 계수를 출력하는 방법에 대해서는 별도 후술하고, 여기서는 서버 장치(200)로부터 개인화 음향 계수가 송신된 것으로 하여 설명을 계속한다. 재생 장치(300)에서는, 서버 장치(200)로부터 하나 이상의 음향 계수를 수신하였는지 여부를 확인한다(S14). 이것은 개인화 음향 계수 수신부(306)에 의해 행해진다. 얼굴 데이터를 송신하고 나서 일정 기간 동안에 개인화 음향 계수를 수신하지 못한 경우는, 타임 아웃되어 개인화 음향 계수 설정 처리를 종료한다.

한편, 서버 장치(200)로부터 개인화 음향 계수가 수신된 경우(S14: "예"), 유저는, 수신한 개인화 음향 계수를 선택하는 것이 가능하게 되어 있다. 이 처리는 개인화 음향 계수 선택부(307)에 의해 실행된다. 유저의 선택은, 재생 장치(300)에 접속된 입력 장치에 의해 행해진다. 본 실시 형태에서는, 서버 장치(200)는, 디폴트의 개인화 음향 계수 이외에도, 적어도 하나의 개인화 음향 계수의 후보를 송신한다. 따라서, 유저는, 디폴트의 개인화 음향 계수를 사용하거나, 개인화 음향 계수의 후보를 사용하는지를 선택하는 것이 가능하게 되어 있다. 유저가 개인화 음향 계수를 선택하는 경우(S15: "예"), 재생 장치(300)는, 테스트 신호를 재생(S16)함과 함께, 테스트 신호 정보를 표시 장치에 표시시킨다(S17). 유저는, 개인화 음향 계수를 전환하면서, 테스트 신호를 재생하고, 스피커로부터 출력되는 오디오 신호를 청취한다.

도 7은, 표시 장치 상에 표시된 테스트 신호 정보의 일례이다. 화상 표시부(308)는, 표시 장치에 대해, 테스트 신호 정보에 기초하는 영상을 표시시킨다. 본 실시 형태에서는, 원점 O를 중심으로 하고, 위치 정보에 기초하여 이동 음원 A를 표시시킨다. 그때, 재생 장치(300)는, 유저의 시청 위치를 원점 O로 하여, 이동 음원 A의 위치 정보에 정위하도록 테스트 신호에 기초하는 오디오 신호를 출력한다. 여기서, 유저는 X축 정의 방향을 향하고 있는 것으로 하자. 그때, 음향 계수 적용부(303)에는, 수신한 개인화 음향 계수가 사용된다. 유저는, 표시 장치에 표시되는 이동 음원 A의 위치와, 자신이 듣고 있는 소리(특히 정위)를 근거로 하여 개인화 음향 계수가 적절하였는지 여부를 결정한다. 도 7에는 화살표로 이동 음원 A의 궤적을 나타내고 있다. 도면으로부터 알 수 있는 바와 같이, 이 예에서는, 이동 음원 A는, 원점 O의 둘레를 주회(周回)하면서 상승하는 궤적을 취하고 있다. 이 경우, 유저는, 자기의 둘레를 주회하면서 상승하는 소리의 정위를 청취하게 된다.

본 실시 형태에서는, 디폴트의 개인화 음향 계수와, 적어도 하나의 개인화 음향 계수의 후보를 사용함으로써, 유저에게 적합한 개인화 음향 계수를 선택시키는 것을 가능하게 하고 있다. 유저는 입력 장치를 사용하여, 후보가 되는 개인화 음향 계수를 적절하게 선택하여, 적절한 개인화 음향 계수를 결정한다(S18). 한편, 개인화 음향 계수를 선택하지 않는 경우(S15: "아니오")에는, 수신한 디폴트의 개인화 음향 계수가 사용된다(S18). 개인화 음향 계수의 선택 결과는, 서버 장치(200)에 송신된다(S19). 그리고, 재생 장치(300)는, 결정한 개인화 음향 계수를 음향 계수 적용부(303)에 설정한다(S20).

이상이 재생 장치(300)에서 실행되는 개인화 음향 계수 설정 처리의 내용이다. 본 실시 형태에서는, 송신한 얼굴 데이터에 대응하여, 서버 장치(200)로부터 수신한 개인화 음향 계수를 사용함으로써, 얼굴 데이터에 적합한 개인화 음향 계수로 음장을 재현하여, 음장을 충실하게 재생하는 것이 가능하게 되어 있다. 또한, 유저에 대해서도 개인화 음향 계수를 선택시킴으로써 더 적합한 개인화 음향 계수를 사용하는 것이 가능해진다. 그리고, 유저의 결정 결과를 서버 장치(200)측에 송신함으로써, 서버 장치(200)측에서는, 결정 결과를 사용하여 학습 처리를 행하여, 더 정밀도가 높은 개인화 음향 계수를 제공하는 것이 가능해진다.

다음에, 서버 장치(200)측의 처리에 대해, 도 5 및 도 6의 흐름도를 사용하여 설명을 행한다. 도 5는, 서버 장치(200)로 실행되는 개인화 음향 계수 취득 처리를 나타내는 흐름도이다. 서버 장치(200)는, 재생 장치(300)로부터 송신된 얼굴 데이터를 수신함으로써, 개인화 음향 계수 취득 처리를 개시한다. 여기서, 본 실시 형태의 개인화 음향 계수에는, 두부 전달 함수를 사용하고 있다. 얼굴 데이터에 기초하는 각종 개인의 특징량에 따른 두부 전달 함수를 사용함으로써, 각 개인에게 적합한 음장을 재현하는 것이 가능하게 되어 있다. 또한, 얼굴 데이터의 수신 및 개인화 음향 계수의 송신은, 개인화 음향 계수 취득부(201)에 의해 실행된다. 개인화 음향 계수 취득 처리가 개시되면, 수신한 얼굴 데이터가 기억부(204) 내에 존재하는지 여부가 판정된다(S21).

얼굴 데이터가 존재하지 않는 경우(S21: "아니오")에는, 두부 전달 함수를 사용하지 않는 다운믹스 처리와 등가인 계수를 개인화 음향 계수로서 송신한다(S22). 또한, 여기서 말하는 다운믹스 처리란, 예를 들어 스테레오로부터 모노럴로 변환하는 경우에, 스테레오의 각 채널에 0.5를 곱하고 가산해 모노럴 신호를 얻는 처리를 의미하고 있다. 개인화 음향 계수를 송신한(S22) 후, 개인화 음향 계수 취득 처리를 종료한다.

한편, 얼굴 데이터가 존재하는 경우(S21: "예"), 얼굴 데이터가 복수 존재하는지 여부의 판정이 행해진다(S23). 여기서 얼굴 데이터가 복수 존재한다는 것은, 재생 장치(300)를 사용하여 청취를 행하는 유저가 복수인 있다는 것과 등가이다. 얼굴 데이터가 복수 존재하는 경우(S23: "예"), S24의 처리에 있어서 리스닝 에어리어의 넓은 일반화된 두부 전달 함수를 사용한 계수를 개인화 음향 계수로서 송신한다(S24). 또한, 리스닝 에어리어를 확장하는 처리는, 기존의 기술을 이용할 수 있다. 또한, 여기서 일반화된 두부 전달 함수란, 일반적인 사람의 얼굴이나 귀의 형상을 모의한 더미헤드라고 불리는 모형의 귓속에 마이크로 폰을 삽입하여 측정하여 얻어지는 것을 의미한다. 개인화 음향 계수를 송신한(S24) 후, 개인화 음향 계수 취득 처리를 종료한다. 또한, 얼굴 데이터에 각각의 유저의 위치 정보가 포함되는 경우, 모든 유저의 위치를 리스닝 에어리어로서 설정하고, 개인화 음향 계수로서 결정하는 것이 가능하다.

다음에, 얼굴 데이터가 복수 존재하지 않는 경우(S23: "아니오"), 서버 장치(200)는, 기억부(204) 내에 등록된 얼굴 데이터가 존재하는지 여부의 판정을 행한다(S25). 구체적으로는, 개인화 음향 계수 취득부(201)가 기억부(204)에 액세스하고, 입력된 얼굴 데이터가 등록 완료인지 판정을 행한다. 얼굴 데이터가 존재하는 경우(S25: "예"), 얼굴 데이터와 관련지어진 개인화 음향 계수를 디폴트의 개인화 음향 계수로서 송신한다. 또한, 본 실시 형태에서는, 디폴트의 개인화 음향 계수와 함께, 적어도 하나의 개인화 음향 계수의 후보를 송신한다. 따라서, 재생 장치(300)에 대해서는, 디폴트의 개인화 음향 계수를 포함하고, 복수의 개인화 음향 계수가 송신된다(S26). 여기서, 후보가 되는 개인화 음향 계수는, 디폴트의 개인화 음향 계수와는, 다른 개인화 음향 계수이며, 수신한 얼굴 데이터에 기초하여 결정되는, 혹은 디폴트의 개인화 음향 계수를 조정하는 등의 방법으로 결정된다.

한편, 얼굴 데이터가 기억부(204)에 존재하지 않는 경우(S25: "아니오"), 입력된 얼굴 데이터를 분석함으로써, 복수의 개인화 음향 계수를 결정하여 송신한다(S27). 얼굴 데이터의 분석 방법으로는, 기계 학습에 의해 얻어진 학습 계수를 갖는 뉴럴 네트워크에 대해, 얼굴 데이터를 입력하고, 복수의 개인화 음향 계수의 후보를 우도순으로 송신하는 것 등이 고려된다. 재생 장치(300)에서는, 우도순의 가장 높은 개인화 음향 계수가 디폴트로서 설정된다. 또한, 이 미지의 얼굴 데이터에 대한 개인화 음향 계수의 취득은, S26에 있어서, 등록된 개인화 음향 계수 이외의 후보를 송신할 때도 사용된다.

다음에, 도 6의 흐름도를 사용하여 개인화 음향 계수 재계산 처리에 대해 설명을 행한다. 개인화 음향 계수 재계산 처리는, 서버 장치(200)에서 행해지는 처리이며, 재생 장치(300)로부터 송신된 개인화 음향 계수의 선택 결과에 기초하여 실행되는 처리이다. 서버 장치(200)는, 재생 장치(300)로부터 송신된 개인화 음향 계수의 선택 결과를 수신한다(S31). 이 처리는, 도 3의 개인화 음향 계수 선택 결과 수신부(202)에 있어서 행해진다.

도 4에서 설명한 개인화 음향 계수 설정 처리에 있어서, 서버 장치(200)는, 얼굴 데이터와 함께 선택 결과를 수신한다. 서버 장치(200)는, 개인화 음향 계수 설정 처리에서 수신한 개인화 음향 계수와 얼굴 데이터의 페어를 기억부(204)에 기록한다(S32). 그 후, 기억부(204)에 기억하고 있는 개인화 음향 계수와 얼굴 데이터의 페어를 사용하여 학습 처리를 실행한다(S33). 여기서, 학습 처리는, 얼굴 데이터에 기초하는 개인화 음향 계수의 결정 알고리즘을 갱신하는 기계 학습 처리이며, 기계 학습 처리로서는, 딥 뉴럴 네트워크로서 알려진 CNN(Convolution Neural Network)이나, RNN(Recurrent Neural Network) 등, 기존의 방법을 적용할 수 있다. 갱신된 개인화 음향 계수의 결정 알고리즘은, 도 5에서 설명한 개인화 음향 계수의 후보를 작성할 때 사용된다.

이상, 개인화 음향 계수 재계산 처리에서는, 얼굴 데이터에 기초하여 개인화 음향 계수를 복수 송신하여, 유저에게 선택시킴으로써, 유저에게 적합한 개인화 음향 계수를 사용하는 것이 가능하게 되어 있다. 또한, 선택 결과에 기초하여, 얼굴 데이터와 개인화 음향 계수의 관계를 학습함으로써, 보다 적합한 개인화 음향 계수를 제공하는 것이 가능하게 되어 있다.

또한, 본 실시 형태에서는, 디폴트의 개인화 음향 계수와, 후보가 되는 개인화 음향 계수를 송신하고 있지만, 이와 같은 형태에 대신하여, 이하에 설명하는 형태를 채용할 수도 있다. 이 형태에서는, 서버 장치(200)는, 디폴트의 개인화 음향 계수만을 송신한다. 재생 장치(300)측에서는, 유저는, 입력 장치를 사용하여, 수신한 디폴트의 개인화 음향 계수를 조정하는 것이 가능하게 되어 있다. 개인화 음향 계수 설정 처리에서는, 조정된 결과를 선택 결과로서, 서버 장치(200)에 송신한다. 서버 장치(200)에서는, 선택 결과와 얼굴 데이터의 페어에 기초하여, 학습 처리를 실행함으로써, 개인화 음향 계수의 결정 알고리즘을 결정한다. 또한, 이 개인화 음향 계수의 조정은, 전술한 복수의 개인화 음향 계수 중으로부터의 선택과 병용하는 것도 가능하다.

본 개시의 적어도 실시 형태에 의하면, 청취하는 유저의 얼굴 데이터에 따른 음향 계수를 오디오 신호에 적용함으로써, 유저에게 적합한 음장을 형성하는 것이 가능하다. 또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 효과여도 된다. 또한, 예시된 효과에 의해 본 개시의 내용이 한정되어 해석되는 것은 아니다.

본 개시는, 장치, 방법, 프로그램, 시스템 등에 의해 실현할 수도 있다. 예를 들어, 상술한 실시 형태에서 설명한 기능을 행하는 프로그램을 다운로드 가능하게 하고, 실시 형태에서 설명한 기능을 갖지 않는 장치가 당해 프로그램을 다운로드함으로써, 당해 장치에 있어서 실시 형태에서 설명한 제어를 행하는 것이 가능해진다. 본 개시는, 이러한 프로그램을 배포하는 서버에 의해 실현하는 것도 가능하다. 또한, 각 실시 형태, 변형예에서 설명한 사항은, 적절하게 조합하는 것이 가능하다.

본 개시는, 이하의 구성도 채용할 수 있다.

(1)

상기 얼굴 데이터 검출부로부터 출력된 얼굴 데이터에 대응하는 음향 계수를 출력하는 음향 계수 취득부와,

상기 음향 계수 취득부에서 취득한 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용부를 구비하는

오디오 시스템.

(2)

상기 음향 계수는, 두부 전달 함수인

(1)에 기재된 오디오 시스템.

(3)

상기 음향 계수 취득부는, 입력된 얼굴 데이터에 대응하는 개인이 등록되어 있는 경우, 당해 개인에 대응하는 음향 계수를, 음향 계수로서 출력하는

(1) 또는 (2)에 기재된 오디오 시스템.

(4)

상기 음향 계수 취득부는, 입력된 얼굴 데이터에 대응하는 개인이 등록되지 않은 경우, 입력된 얼굴 데이터의 분석 결과에 기초하여, 음향 계수를 출력하는

(1) 내지 (3) 중 어느 하나에 기재된 오디오 시스템.

(5)

상기 음향 계수 취득부는, 복수의 음향 계수를 출력하는

(1) 내지 (4) 중 어느 하나에 기재된 오디오 시스템.

(6)

상기 음향 계수 취득부는, 입력된 얼굴 데이터에 대응하는 개인이 등록되어 있는 경우, 당해 개인에 대응하는 음향 계수와, 적어도 하나의 후보가 되는 음향 계수를 출력하는

(5)에 기재된 오디오 시스템.

(7)

상기 음향 계수 취득부는, 입력된 얼굴 데이터에 대응하는 개인이 등록되지 않은 경우, 복수의 후보가 되는 음향 계수를 출력하는

(5) 또는 (6)에 기재된 오디오 시스템.

(8)

상기 음향 계수 취득부는, 상기 얼굴 데이터 검출부가 복수의 얼굴 데이터를 검출한 경우, 넓은 청취 범위의 음향 계수를 출력하는

(1) 내지 (7) 중 어느 하나에 기재된 오디오 시스템.

(9)

상기 음향 계수 취득부는, 검출한 얼굴 데이터의 위치에 기초하여, 상기 넓은 청취 범위의 음향 계수를 출력하는

(8)에 기재된 오디오 시스템.

(10)

출력된 복수의 음향 계수를 유저가 선택 가능한 선택부와,

상기 선택부에 있어서의 선택 결과와, 상기 음향 계수 취득부에서 사용한 얼굴 데이터에 기초하여, 학습 처리를 실행하는 음향 계수 재계산부를 구비하는

(5) 내지 (9) 중 어느 하나에 기재된 오디오 시스템.

(11)

출력된 복수의 음향 계수를 유저가 선택 가능한 선택부와,

위치 정보에 기초하여, 오브젝트를 표시하는 화상 표시부를 구비하고,

상기 음향 계수 적용부는, 표시되는 오브젝트의 위치 정보에 기초하여, 음상 정위되어 오디오 신호를 출력하는

(5) 내지 (10) 중 어느 하나에 기재된 오디오 시스템.

(12)

오디오 재생 장치.

(13)

검출한 얼굴 데이터를 서버 장치에 송신하는 송신부와,

얼굴 데이터에 대응하는 음향 계수를 수신하는 수신부를 구비한

(12)에 기재된 오디오 재생 장치.

(14)

음향 계수 취득부에서 출력된 음향 계수를, 상기 오디오 재생 장치에 송신하는

서버 장치.

(15)

오디오 재생 방법.

(16)

오디오 재생 프로그램.

100: 재생 장치
101: 코어 디코딩 처리부
102: 렌더링 처리부
103: 두부 전달 함수 처리부
200: 서버 장치
201: 개인화 음향 계수 취득부
202: 개인화 음향 계수 선택 결과 수신부
204: 기억부
300: 재생 장치
301: 코어 디코딩 처리부
302: 렌더링 처리부
303: 음향 계수 적용부
304: 얼굴 데이터 검출부
305: 얼굴 데이터 송신부
306: 개인화 음향 계수 수신부
307: 개인화 음향 계수 선택부
308: 화상 표시부

Claims

입력되는 화상 데이터에 기초하여 얼굴 데이터를 검출하는 얼굴 데이터 검출부와,
상기 얼굴 데이터 검출부로부터 출력된 얼굴 데이터에 대응하는 음향 계수를 출력하는 음향 계수 취득부와,
상기 음향 계수 취득부에서 취득한 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용부를 구비하는
오디오 시스템.
제1항에 있어서, 상기 음향 계수는, 두부 전달 함수인
오디오 시스템.
제1항에 있어서, 상기 음향 계수 취득부는, 입력된 얼굴 데이터에 대응하는 개인이 등록되어 있는 경우, 당해 개인에 대응하는 음향 계수를, 음향 계수로서 출력하는
오디오 시스템.
제1항에 있어서, 상기 음향 계수 취득부는, 입력된 얼굴 데이터에 대응하는 개인이 등록 되지 않은 경우, 입력된 얼굴 데이터의 분석 결과에 기초하여, 음향 계수를 출력하는
오디오 시스템.
제1항에 있어서, 상기 음향 계수 취득부는, 복수의 음향 계수를 출력하는
오디오 시스템.
제5항에 있어서, 상기 음향 계수 취득부는, 입력된 얼굴 데이터에 대응하는 개인이 등록되어 있는 경우, 당해 개인에 대응하는 음향 계수와, 적어도 하나의 후보가 되는 음향 계수를 출력하는
오디오 시스템.
제5항에 있어서, 상기 음향 계수 취득부는, 입력된 얼굴 데이터에 대응하는 개인이 등록되지 않은 경우, 복수의 후보가 되는 음향 계수를 출력하는
오디오 시스템.
제1항에 있어서, 상기 음향 계수 취득부는, 상기 얼굴 데이터 검출부가 복수의 얼굴 데이터를 검출한 경우, 넓은 청취 범위의 음향 계수를 출력하는
오디오 시스템.
제8항에 있어서, 상기 음향 계수 취득부는, 검출한 얼굴 데이터의 위치에 기초하여, 상기 넓은 청취 범위의 음향 계수를 출력하는
오디오 시스템.
제5항에 있어서, 출력된 복수의 음향 계수를 유저가 선택 가능한 선택부와,
상기 선택부에 있어서의 선택 결과와, 상기 음향 계수 취득부에서 사용한 얼굴 데이터에 기초하여, 학습 처리를 실행하는 음향 계수 재계산부를 구비하는
오디오 시스템.
제5항에 있어서, 출력된 복수의 음향 계수를 유저가 선택 가능한 선택부와,
위치 정보에 기초하여, 오브젝트를 표시하는 화상 표시부를 구비하고,
상기 음향 계수 적용부는, 표시되는 오브젝트의 위치 정보에 기초하여, 음상 정위되어 오디오 신호를 출력하는
오디오 시스템.
입력되는 화상 데이터에 기초하여 얼굴 데이터를 검출하는 얼굴 데이터 검출부와,
얼굴 데이터에 대응하는 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용부를 구비하는
오디오 재생 장치.
제12항에 있어서, 검출한 얼굴 데이터를 서버 장치에 송신하는 송신부와,
얼굴 데이터에 대응하는 음향 계수를 수신하는 수신부를 구비한
오디오 재생 장치.
오디오 재생 장치로부터 송신된 얼굴 데이터를 수신하는 수신부와,
수신한 얼굴 데이터에 대응하는 음향 계수를 출력하는 음향 계수 취득부와,
음향 계수 취득부에서 출력된 음향 계수를, 상기 오디오 재생 장치에 송신하는
서버 장치.
입력되는 화상 데이터에 기초하여 얼굴 데이터를 검출하는 얼굴 데이터 검출 처리와,
얼굴 데이터에 대응하는 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용 처리를 행하는
오디오 재생 방법.
입력되는 화상 데이터에 기초하여 얼굴 데이터를 검출하는 얼굴 데이터 검출 처리와,
얼굴 데이터에 대응하는 음향 계수에 기초하는 음향 처리를, 오디오 신호에 실시하는 음향 계수 적용 처리를 정보 처리 장치에 실행시키는
오디오 재생 프로그램.