KR20210043565A

KR20210043565A - 신호 처리 장치 및 방법, 그리고 프로그램

Info

Publication number: KR20210043565A
Application number: KR1020217002890A
Authority: KR
Inventors: 게이이치 오사코; 유우키 미츠후지; 마사후미 다카하시; 유카라 이케미야
Original assignee: 소니 주식회사
Priority date: 2018-08-13
Filing date: 2019-07-30
Publication date: 2021-04-21
Also published as: WO2020036058A1; JPWO2020036058A1; US20210241746A1; US11462200B2; EP3839941A4; CN112513977A; EP3839941A1

Abstract

본 기술은, 간단히 누출음이 들리기 어렵게 할 수 있도록 하는 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다. 신호 처리 장치는, 스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 제1 영역과 제2 영역 사이의 영역에 있어서 들리는 제1 콘텐츠의 소리 및 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음을 생성하는 마스킹음 생성부를 구비한다. 본 기술은 콘텐츠 재생 시스템에 적용할 수 있다.

Description

신호 처리 장치 및 방법, 그리고 프로그램

본 기술은 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이며, 특히 간단히 누출음이 들리기 어렵게 할 수 있도록 한 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.

근년, 파면 합성 기술을 이용한 멀티존 재생이 알려져 있다. 멀티존 재생에서는, 복수로 구획된 에어리어(영역)별로 재생 음압을 임의로 바꿈으로써, 들리는 소리의 공간 분할이 실현되어 있다.

이와 같은 멀티존 재생을 이용하면, 예를 들어 미술관의 회화 앞의 영역에서만 그 회화에 관한 음성 가이드가 들리도록 하고, 그 이외의 영역에서는 아무런 소리도 들리지 않도록 할 수 있다.

또한, 예를 들어 공항이나 역 등의 공공 시설에 있어서, 복수의 영역별로 시설 이용자를 위하여 서로 다른 언어로의 음성 정보의 제시를 행하는 것도 가능하다.

그런데 멀티존 재생에 있어서는, 수청자가, 소정의 영역에서 제시되고 있는 소리를 듣고 있을 때 다른 영역의 소리가 새어나 들려오면, 수청자에 의한 소리 정보의 취득이 현저히 곤란해져 버리기 때문에, 대상으로 하는 영역 내에서만 소리가 들리는 것이 중요하다. 달리 말하면, 대상으로 하는 영역의 경계 주변에 있어서 소리가 새어나 들리지 않도록 할 것이 요구되고 있다.

그래서 예를 들어 1쌍의 스피커를, 그들 스피커 사이의 거리가 방사 음파의 8분의 1파장 내지 1파장으로 되도록 배치하여, 그들 스피커로부터의 음파끼리를 간섭시킴으로써 소리를 취소하는 기술이 제안되어 있다(예를 들어 특허문헌 1 참조).

특허문헌 1에서는, 스피커 쌍의 전방에 마련한 마이크로폰의 검지 출력에 기초하여, 소리를 취소하기 위하여 이용하는 필터가 조정된다. 그리고 얻어진 필터에 의하여 필터링 처리한 음향 신호에 기초하여 스피커 쌍으로부터 음파를 출력함으로써, 마이크로폰이 배치된 제어점에 있어서 음파의 간섭에 의한 취소가 실현된다.

또한 센서를 이용하여, 미리 정해진 안내 영역 내에서의 이용자의 이동을 인식하여, 이용자가 안내 영역 내에 들어가면, 소정의 필터에 의하여 필터링 처리된 음향 신호에 기초하여 안내 영역에 대응하는 음성을 재생하는 기술도 제안되어 있다(예를 들어 특허문헌 2 참조).

특허문헌 2에서는, 복수의 제어점에 있어서의 관측 신호가, 원하는 평면파로 되도록 필터를 생성함으로써, 퍼짐이 억제된 평면파를 발생시켜 안내 영역 내에서의 음성 재생을 실현할 수 있다.

일본 특허 공개 제2000-295697호 공보 일본 특허 공개 제2017-161448호 공보

그러나 상술한 기술에서는, 대상으로 하는 영역 외로 누출되어 오는 누출음이 간단히 들리기 어렵게 하는 것은 곤란하였다.

예를 들어 특허문헌 1에 기재된 기술에서는, 마이크로폰이 설치되는 제어점에 있어서는 소리가 취소되지만, 제어점 이외의 위치에서는 소리의 누출이 생겨 버린다. 특히 제어점으로부터 멀어질수록 음의 누출이 커져 버린다.

또한, 예를 들어 특허문헌 2에 기재된 기술에서는, 하나의 안내 영역을 형성하는 것에 다수의 제어점이 필요해지지만, 원리상 창출할 수 있는 제어점의 수는, 음성 재생에 이용하는 스피커 어레이를 구성하는 스피커의 수보다 1 이상 적은 수로 된다. 그 때문에, 하나의 안내 영역을 형성하기 위해서는 대량의 스피커가 필요해져 버린다.

본 기술은 이와 같은 상황을 감안하여 이루어진 것이며, 간단히 누출음이 들리기 어렵게 할 수 있도록 하는 것이다.

본 기술의 일 측면의 신호 처리 장치는, 스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 상기 제1 영역과 상기 제2 영역 사이의 영역에 있어서 들리는 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음을 생성하는 마스킹음 생성부를 구비한다.

본 기술의 일 측면의 신호 처리 방법 또는 프로그램은, 스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 상기 제1 영역과 상기 제2 영역 사이의 영역에 있어서 들리는 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음을 생성하는 스텝을 포함한다.

본 기술의 일 측면에 있어서는, 스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 상기 제1 영역과 상기 제2 영역 사이의 영역에 있어서 들리는 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음이 생성된다.

본 기술의 일 측면에 따르면, 간단히 누출음이 들리기 어렵게 할 수 있다.

또한 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 효과여도 된다.

도 1은 멀티존 재생에 대하여 설명하는 도면이다.
도 2는 콘텐츠음과 암소음의 음압 분포에 대하여 설명하는 도면이다.
도 3은 콘텐츠 재생 시스템의 구성예를 도시하는 도면이다.
도 4는 파라미터 테이블의 예를 나타내는 도면이다.
도 5는 분할 영역과 마스킹음의 재생 범위에 대하여 설명하는 도면이다.
도 6은 콘텐츠음과 마스킹음의 음압 분포에 대하여 설명하는 도면이다.
도 7은 콘텐츠 재생 처리를 설명하는 흐름도이다.
도 8은 콘텐츠 재생 시스템의 구성예를 도시하는 도면이다.
도 9는 분할 영역과 마스킹 영역에 대하여 설명하는 도면이다.
도 10은 콘텐츠음과 마스킹음의 음압 분포에 대하여 설명하는 도면이다.
도 11은 콘텐츠 재생 처리를 설명하는 흐름도이다.
도 12는 콘텐츠 재생 시스템의 구성예를 도시하는 도면이다.
도 13은 콘텐츠 재생 처리를 설명하는 흐름도이다.
도 14는 콘텐츠 재생 시스템의 구성예를 도시하는 도면이다.
도 15는 파라미터 테이블의 예를 나타내는 도면이다.
도 16은 콘텐츠 재생 처리를 설명하는 흐름도이다.
도 17은 파라미터 테이블의 예를 나타내는 도면이다.
도 18은 콘텐츠 재생 시스템의 구성예를 도시하는 도면이다.
도 19는 콘텐츠 재생 처리를 설명하는 흐름도이다.
도 20은 콘텐츠 재생 시스템의 구성예를 도시하는 도면이다.
도 21은 컴퓨터의 구성예를 도시하는 도면이다.

이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.

<제1 실시 형태>

<본 기술에 대하여>

본 기술은, 서로 다른 영역에서 다른 콘텐츠의 소리를 재생하는 경우에, 그들 영역 사이에 있는 영역에 있어서, 소정 레벨의 마스킹음에 의하여 각 콘텐츠의 소리를 마스킹함으로써 간단히 누출음이 들리기 어렵게 할 수 있도록 하는 것이다.

먼저, 멀티존 재생에 있어서의 누출음에 대하여 설명한다.

예를 들어 도 1에 도시한 바와 같이 스피커 어레이 SP11을 이용하여 멀티존 재생을 행하는 것을 생각하자. 또한 여기서는, 설명을 간단히 하기 위하여 소리를 취소하는 위치, 즉 무음으로 하는 위치인 제어점은 그려져 있지 않다.

지금, 파면 합성에 의하여 영역 A에 있어서 콘텐츠 A, 즉 콘텐츠 A의 소리를 재생하고 영역 B에 있어서 콘텐츠 B를 재생하는 것으로 하자.

여기서는 분할 영역 R11이, 콘텐츠 A를 들려주고자 하는 수청 에어리어로 되는 영역 A로 되어 있고, 분할 영역 R12가, 콘텐츠 B를 들려주고자 하는 수청 에어리어로 되는 영역 B로 되어 있다. 이하에서는, 콘텐츠를 들려주고자 하는 영역, 즉 콘텐츠의 수청 에어리어를 특별히 분할 영역이라고도 칭하기로 한다.

또한 콘텐츠 A와 콘텐츠 B는 서로 다른 음악이나 음성 등으로 된다. 또한 이하, 소정의 콘텐츠의 소리를 콘텐츠음이라고도 칭하기로 한다.

예를 들어 콘텐츠 A와 콘텐츠 B가 동시에 재생되고 있는 경우, 도면 중의 직선 L11에 의하여 나타나는 x축 상에 있어서의 음압 분포는, 도 2에 나타낸 것처럼 된다. 또한 도 2에 있어서 횡축은, x축 방향에 있어서의 위치를 나타내고 있고, 종축은, 각 위치에 있어서의 음압을 나타내고 있다.

도 2에 나타내는 예에서는, 곡선 L21은, 콘텐츠 A의 소리의 음압 분포를 나타내고 있고, 곡선 L22는, 콘텐츠 B의 소리의 음압 분포를 나타내고 있다.

또한 직선 L23은, 스피커 어레이 SP11의 주위에 있어서의 암소음의 음압 레벨을 나타내고 있다. 암소음에는, 예를 들어 스피커 어레이 SP11 근방, 즉 주위의 환경을 오가는 사람들의 말소리나 발소리, 공조의 소리 등, 주위에 있는 모든 음원으로부터의 소리가 포함되는 것으로 한다.

통상, 영역 A나 영역 B에 있어서는, 콘텐츠 A나 콘텐츠 B의 소리는, 수청자가 알아듣기 쉬운 레벨로 하기 위하여 암소음 레벨보다도 큰 음압으로 재생된다.

구체적으로는, 예를 들어 암소음이 60㏈ 정도인 경우에는, 콘텐츠 A나 콘텐츠 B의 소리는 80㏈ 등으로 재생된다.

이때, 분할 영역으로부터의 누출음이, 그 분할 영역의 경계 부근에서 발생한다.

또한 여기서 말하는 누출음이란, 분할 영역으로부터 누출되어 들려 버리는 콘텐츠음이다. 즉, 분할 영역 외에 있어서 들려 버리는 콘텐츠음이 누출음이다.

예를 들어 도 2의 예에서는, 점선 CR11로 둘러싸이는 부분에 있어서의 콘텐츠 A나 콘텐츠 B의 소리가, 분할 영역인 영역 A와 영역 B 사이에 있는 영역, 즉 분할 영역 외의 영역에 있어서 들리는 누출음으로 된다.

특히 점선 CR11로 둘러싸이는 부분에 있어서는, 콘텐츠 A나 콘텐츠 B의 음압은, 직선 L23에 의하여 나타나는 암소음 레벨보다도 커서, 그들의 콘텐츠음이 분할 영역 외에 있는 사람에게도 들려 버리게 된다.

또한 도 2의 예에서는, 점선 CR12로 둘러싸이는 부분은 영역 A의 내부의 영역인데, 이 영역에서는 콘텐츠 B의 음압이 암소음 레벨보다도 크게 되어 있다. 그 때문에, 영역 A 내에 있어서의 영역 B측의 경계 부근에서는, 콘텐츠 A뿐 아니라 콘텐츠 B의 소리도 수청자에게 누출되어 들려 버린다. 즉, 콘텐츠 B의 소리가 영역 A에 새어들어 버린다.

마찬가지로 점선 CR13으로 둘러싸이는 부분은 영역 B의 내부의 영역인데, 이 영역에서는 콘텐츠 A의 음압이 암소음 레벨보다도 크게 되어 있어, 콘텐츠 A의 소리가 영역 B에 있어서 새어나 들려 버린다.

이와 같은 누출음은, 분할 영역에서의 콘텐츠음이 작거나 무음 구간이거나 하는 경우에 다른 분할 영역에서의 콘텐츠음이 크면 수청자에 들려 버린다.

일반적으로 새어나 들리는 소리가 음성이나 음악인 경우, 사람의 청각은 그들 소리에 대하여 주의가 쏠리므로, 누출음이 어중간하게 들려 버리면 불쾌하게 느끼게 된다.

이와 같이 멀티존 재생에 있어서는, 분할 영역 사이에서의 콘텐츠음의 새어듦이나 분할 영역 외의 영역에서의 콘텐츠음의 새어남을 작게 하거나 하여 사람이 누출음을 지각할 수 없도록 할 필요가 있으며, 그 때문에 상술한 특허문헌 1이나 특허문헌 2가 제안되어 있다.

그러나 기존의 기술에서는, 복수 스피커를 이용한 멀티존 재생에 있어서 간단히 누출음이 들리기 어렵게 하는 것은 곤란하였다.

예를 들어 특허문헌 1에서는, 소리를 취소하는 위치인 제어점 이외의 영역에서는 누출음으로 되는 콘텐츠음을 취소할 수 없어서, 제어점 주변에 있어서 의도치 않은 콘텐츠음이 새어나 들려 버린다.

또한 특허문헌 1에서는, 제어점을 증가시키는 것은 가능하지만, 분할 영역 외에서 누출음이 들리기 어렵게 하기 위해서는 방대한 수의 스피커와 마이크로폰이 필요해져 버린다. 게다가 제어점에 마이크로폰을 설치해야만 하기 때문에 제어점의 증가는, 실 공간에서의 운용 시에 마이크로폰 등의 레이아웃의 저해 요인으로 된다.

또한 특허문헌 2에 있어서도, 콘텐츠음의 새어듦을 작게 하기 위해서는 방대한 수의 스피커가 필요해져 버린다.

그래서 본 기술에서는, 파면 합성 기술을 이용하여 멀티존 재생을 행하는 경우, 즉 재생 공간을 복수의 분할 영역으로 분할하고 그들 분할 영역에서 다른 콘텐츠를 재생하는 경우에, 콘텐츠음뿐 아니라 마스킹음도 동시에 출력하도록 하였다. 이것에 의하여, 스피커 수를 증가시키거나 방대한 수의 마이크로폰을 이용하거나 하는 일 없이 간단히 누출음이 들리기 어렵게 할 수 있다.

또한 마스킹음의 재생 레벨을 결정하는 데에 있어서는, 예를 들어 외부 정보나 외부 센서 등을 이용하는 것이 가능하다.

예를 들어 외부 정보로서, 콘텐츠의 재생을 행하는 시설이나 회장의 방문자 수(입장자 수)를 나타내는 방문자 수 정보나, 콘텐츠의 재생을 행하는 시간대를 나타내는 시간대 정보, 콘텐츠 재생 시의 날씨(천후)를 나타내는 천후 정보 등을 이용할 수 있다.

이와 같은 외부 정보를 이용하면, 콘텐츠 재생 시에 있어서의 사람의 수나 시간대, 천후 등에 따른 적절한 레벨의 마스킹음을 출력하여, 누출음으로 된 콘텐츠음을 마스킹할 수 있다. 즉, 마스킹음에 의하여 누출음이 들리기 어렵게 할 수 있다.

또한 마스킹음의 재생 레벨의 결정에 이용하는 외부 센서로서, 예를 들어 마이크로폰이나 카메라 등을 채용할 수 있다.

예를 들어 마이크로폰을 이용하면 주위의 암소음의 레벨을 추정할 수 있으므로, 그 암소음의 레벨에 따라 마스킹음의 재생 레벨을 적절히 결정할 수 있다.

마찬가지로 카메라를 이용하면 주위에 있는 사람의 수를 추정할 수 있으므로, 그 추정 결과에 따라 마스킹음의 재생 레벨을 적절히 결정할 수 있다.

또한 외부 정보나 외부 센서는, 마스킹음의 재생 레벨의 결정뿐 아니라 마스킹음의 주파수 특성 등의 특성의 결정에도 이용하는 것이 가능하다.

또한 분할 영역 내에 있어서의 콘텐츠음의 재생 레벨의 변동에 따라 마스킹음의 재생 레벨도 변동시키도록 해도 된다.

예를 들어 외부 센서로서 마이크로폰을 이용하는 경우, 마이크로폰을 이용하여 주위의 암소음의 레벨을 검지할 수 있다. 그래서 암소음의 레벨의 검지 결과에 따라 콘텐츠음의 재생 레벨을 변화시킴과 함께, 그 콘텐츠음의 재생 레벨의 변화분에 따라 마스킹음의 재생 레벨을 결정하면 된다.

구체적으로는, 예를 들어 콘텐츠음의 재생 레벨이 클 때는 마스킹음의 재생 레벨도 크게 하고, 반대로 콘텐츠음의 재생 레벨이 작을 때는 마스킹음의 재생 레벨도 작게 하는 것을 생각할 수 있다.

또한 콘텐츠음의 재생 레벨과 암소음의 레벨의 차가 클 때는 마스킹음의 재생 레벨을 크게 하고, 반대로 콘텐츠음의 재생 레벨과 암소음의 레벨의 차가 작을 때는 마스킹음의 재생 레벨을 작게 하는 것도 생각할 수 있다.

이는, 콘텐츠음의 재생 레벨과 암소음의 레벨의 차가 클 때는 콘텐츠음이 크게 들리므로, 그만큼 마스킹음의 재생 레벨도 크게 하면 보다 누출음이 들리기 어려워지기 때문이다.

또한 주파수 대역별로 콘텐츠음과 암소음의 레벨을 비교하거나 하여, 각 주파수 대역에 있어서 콘텐츠음이 암소음을 초과하여 누출되는 레벨을 추정하고, 그 추정 결과에 따라, 누출음을 청각 특성 상에서 마스킹할 수 있도록 주파수 대역별로 마스킹음의 재생 레벨을 결정해도 된다.

그 외에, 외부 센서로서의 마이크로폰을 이용하여 주위의 암소음의 레벨을 검지하고, 그 검지 결과에 기초하여 마스킹음의 재생 레벨을 결정하도록 해도 된다. 이 경우, 콘텐츠음의 재생 레벨은 특별히 변화시키지 않도록 할 수 있다.

구체적으로는, 예를 들어 암소음의 레벨이 클 때는 누출음은 들리기 어려우므로 마스킹음의 재생 레벨을 작게 하고, 반대로 암소음의 레벨이 작을 때는 마스킹음의 재생 레벨을 크게 하는 것을 생각할 수 있다.

또한 상술한 외부 정보를 이용한 마스킹음의 재생 레벨 제어나, 외부 센서를 이용한 마스킹음의 재생 레벨 제어, 콘텐츠음의 재생 레벨에 따른 마스킹음의 재생 레벨 제어 등을 임의로 조합하여 마스킹음의 재생 레벨이나 특성을 결정해도 된다.

그와 같은 경우, 예를 들어 외부 정보나, 외부 센서를 이용하여 얻어지는 정보 등의 조합과, 그들 각 조합에 대한 콘텐츠음의 재생 레벨 및 마스킹음의 재생 레벨을 대응지은 파라미터 테이블을 미리 준비해 둘 수도 있다. 그렇게 하면, 예를 들어 파라미터 테이블을 이용하여 콘텐츠음의 재생 레벨과 마스킹음의 재생 레벨을 간단하고도 적절히 결정하는 것이 가능하다.

그 외에, 콘텐츠음이나 마스킹음의 재생 레벨의 결정에는, 예를 들어 외부 정보나, 외부 센서를 이용하여 얻어지는 정보 등을 입력으로 하고, 그 입력에 대하여 적절한 콘텐츠음의 재생 레벨 및 마스킹음의 재생 레벨을 출력하는 예측기를 이용해도 된다. 그와 같은 예측기는, 예를 들어 뉴럴 네트워크로 대표되는 기계 학습에 의하여 미리 생성해 두면 된다.

또한 누출음이 작아서 청감 상 사람이 누출음을 검지할 수 없을 것 같은 상황에서는 마스킹음을 재생(출력)하지 않도록 해도 된다.

또한 암소음의 레벨을 고려하면 마스킹음의 재생 레벨을 보다 적절히 결정할 수 있다. 이는, 누출음을 마스킹하기 위해서는 마스킹음의 재생 레벨을 암소음의 레벨보다도 크게 하는 것이 좋기 때문이다.

예를 들어 마스킹음의 재생 레벨의 결정에 외부 정보를 이용하는 경우, 그 외부 정보로부터 암소음의 레벨을 추정할 수 있다. 그래서 예를 들어 주어진 외부 정보에 대하여 미리 정해진 재생 레벨을 마스킹음의 재생 레벨로서 이용하도록 하면, 외부 정보에 대하여 추정되는 암소음의 레벨 이상의 레벨로 마스킹음을 재생할 수 있다.

또한 외부 센서로서 카메라를 이용하는 경우, 예를 들어 카메라에 의하여 촬영된 화상에 대하여 얼굴 인식이나 인물 검출을 행하여, 콘텐츠를 재생하는 스피커의 근처에 있는 사람의 수를 추정함과 함께, 그 추정 결과에 대하여 미리 정해진 레벨을 암소음의 레벨로 할 수 있다. 그와 같은 경우, 암소음의 레벨에 대하여 적절히 마스킹음의 재생 레벨을 결정할 수 있게 된다.

또한 외부 센서로서 마이크로폰을 이용하는 경우에는, 그 마이크로폰에 의하여 주위의 소리를 수음할 수 있다. 이와 같은 수음에 의하여 얻어진 소리에는 적어도 암소음이 포함되어 있는데, 수음의 타이밍에 따라서는 콘텐츠음도 포함되어 버린다.

그래서 콘텐츠음의 무음 구간에만 마이크로폰에 의한 수음을 행하고, 수음에 의하여 얻어진 소리를 암소음으로 함으로써, 암소음의 레벨을 보다 정확히 추정할 수 있다.

그 외에, 외부 센서로서 마이크로폰을 이용하는 경우, 에코 캔슬을 이용하여, 수음된 소리로부터 재생 중인 콘텐츠음을 캔슬하여 암소음만을 추출해도 된다. 이 경우에 있어서도 정확히 암소음의 레벨을 추정할 수 있다.

또한 누출음을 마스킹하기 위한 마스킹음의 주파수 특성 등의 특성은, 군중 노이즈나 버블 노이즈, 핑크 노이즈 등과 같은 특성으로 할 수 있다. 이와 같이 함으로써, 위화감을 생기게 하지 않고 누출음을 마스킹할 수 있다.

그 외에, 마스킹음의 주파수 특성은, 외부 센서로서의 마이크로폰에 의하여 수음된 소리와 동일한 주파수 특성으로 하도록 해도 된다. 또한 마스킹음의 특성은, 콘텐츠음의 특징을 지우는 특성, 즉 콘텐츠음을 알아듣기 어렵게 하는 특성으로 해도 된다.

또한 마스킹음을 재생하는 영역은, 콘텐츠를 재생하는 시스템이 소리를 재생하는 것이 가능한 영역 전체로 해도 된다.

또한 파면 합성을 이용하여 지향성을 갖는 음향 빔을 마스킹음의 음향 빔(파면)으로서 생성함으로써, 복수의 분할 영역 사이의 영역에 있어서만 마스킹음이 재생되도록 하거나, 복수의 분할 영역 사이의 영역과, 각 분할 영역 내에 있어서의 경계 근방의 영역에서 마스킹음이 재생되도록 하거나 해도 된다.

또한 외부 센서로서 마이크로폰을 사용하는 경우에는, 기본적으로는 마이크로폰은 어느 곳에 설치해도 되지만, 예를 들어 파면 합성에 의하여 형성되는 분할 영역 외에 마이크로폰을 설치하면 암소음과 누출음의 레벨을 직접 추정할 수 있다.

<콘텐츠 재생 시스템의 구성예>

다음으로, 이상에 있어서 설명한 본 기술의 보다 구체적인 실시 형태에 대하여 설명한다.

도 3은, 본 기술을 적용한 콘텐츠 재생 시스템의 일 실시 형태의 구성예를 도시하는 도면이다.

도 3에 도시하는 콘텐츠 재생 시스템은 신호 처리 장치(11) 및 스피커 어레이(12)를 갖고 있다.

신호 처리 장치(11)는, 콘텐츠음과 마스킹음을 재생하기 위한 출력음, 보다 상세하게는 출력음의 음향 신호를 생성하여 스피커 어레이(12)에 공급한다.

스피커 어레이(12)는, 예를 들어 복수의 스피커에 의하여 구성되는 직선 스피커 어레이, 환형 스피커 어레이, 구형 스피커 어레이 등을 포함한다. 또한 스피커 어레이(12)는 어떠한 형상의 스피커 어레이여도 된다.

스피커 어레이(12)는, 신호 처리 장치(11)로부터 공급된 출력음을 출력함으로써 복수의 콘텐츠음과, 각 위치에 있어서 목적으로 하지 않는 콘텐츠음, 즉 누출음을 마스킹하기 위한 마스킹음을 재생한다.

이것에 의하여, 파면 합성에 의하여 재생 공간 내의 각 분할 영역에서 그들 분할 영역에 대응하는 콘텐츠음이 멀티존 재생됨과 함께, 재생 공간의 전역에서 마스킹음이 재생된다. 멀티존 재생에서는, 스피커 어레이(12)가 출력음을 출력함으로써, 재생 공간에 있어서의 분할 영역에 콘텐츠음의 파면이 형성된다.

또한 이하에서는, 스피커 어레이(12)에 의하여 소리를 재생 가능한 공간 전체를 재생 공간이라 칭하기로 한다. 또한 여기서는, 재생 공간에서 재생되는 콘텐츠나, 각 콘텐츠음이 재생되는 분할 영역의 위치 및 크기는 미리 정해져 있는 것으로 한다. 그러나 재생되는 콘텐츠나 분할 영역의 위치 및 크기가 미리 정해져 있지 않고 동적으로 변화하도록 해도 된다.

신호 처리 장치(11)는 마스킹음 생성부(21), 파면 합성 필터부(22), 재생 레벨 조정부(23), 증폭부(24), 증폭부(25), 가산부(26) 및 DA(Digital to Analog) 변환부(27)를 갖고 있다.

마스킹음 생성부(21)는, 외부로부터 공급된 외부 정보에 기초하여 마스킹음을 생성하여 증폭부(24)에 공급한다.

파면 합성 필터부(22)는, 예를 들어 파면 합성에 의하여 콘텐츠를 분할 영역에서만 재생하기 위한 파면 합성 필터를 미리 갖고 있다.

또한 파면 합성 필터부(22)가 파면 합성 필터를 생성하도록 해도 된다.

파면 합성 필터의 생성 시에는, 예를 들어 콘텐츠음을 재생하는 분할 영역의 위치나 크기를 나타내는 좌표 정보, 스피커 어레이(12)를 구성하는 각 스피커의 배치 위치 등에 기초하는 연산에 의하여 파면 합성 필터가 생성된다.

이와 같은 파면 합성 필터를 이용한 파면 합성에서는, 파면 합성 필터에 의한 필터링 처리에 의하여, 스피커 어레이(12)를 구성하는 각 스피커로부터 출력하는 출력음의 진폭과 위상을 제어함으로써, 재생 공간 내에 있어서의 소리의 파면이 물리적으로 재현된다. 즉, 분할 영역에서만 콘텐츠음의 파면이 형성된다.

파면 합성에 대해서는, 예를 들어 일본 특허 공개 제2013-102389호 공보나 「Berkhout, Augustinus J., Diemer de Vries, and Peter Vogel. "Acoustic control by wave field synthesis." The Journal of the Acoustical Society of America 93.5 (1993): 2764-2778.」 등에 상세히 기재되어 있다. 예를 들어 파면 합성 필터부(22)에서는, 이들 문헌에 기재된 기술 등을 이용하면 된다.

파면 합성 필터부(22)는, 공급된 콘텐츠음 데이터, 즉 콘텐츠음을 재생하기 위한 음향 신호에 대하여 파면 합성 필터에 의한 필터링 처리를 행하고, 그 결과 얻어진, 스피커 어레이(12)를 구성하는 각 스피커에 대응하는 각 채널의 출력음을 증폭부(25)에 공급한다.

보다 상세하게는, 파면 합성 필터부(22)는 콘텐츠별로 파면 합성 필터를 갖고 있으며, 각 콘텐츠에 대하여 파면 합성 필터에 의한 콘텐츠음 데이터의 필터링 처리를 행한다. 그리고 파면 합성 필터부(22)는 채널별로, 필터링 처리에 의하여 얻어진 각 콘텐츠의 콘텐츠음을 가산하여, 각 콘텐츠음을 포함하는 출력음으로 한다. 즉, 동일한 채널에 대하여 얻어진 각 콘텐츠음의 음향 신호가 가산되어 그 채널의 출력음의 음향 신호로 된다.

재생 레벨 조정부(23)는, 외부로부터 공급된 외부 정보, 및 공급된 콘텐츠음 데이터 중 적어도 어느 한 쪽에 기초하여, 마스킹음과 콘텐츠음의 재생 레벨의 조정을 제어한다.

즉, 재생 레벨 조정부(23)는, 외부 정보와 콘텐츠음 데이터 중 적어도 어느 한 쪽에 기초하여 마스킹음의 재생 레벨을 결정하고, 결정된 재생 레벨로 마스킹음을 재생시키기 위한 마스킹음용 게인 계수를 증폭부(24)에 공급한다.

마찬가지로 재생 레벨 조정부(23)는, 외부 정보와 콘텐츠음 데이터 중 적어도 어느 한 쪽에 기초하여 콘텐츠음의 재생 레벨을 결정하고, 결정된 재생 레벨로 콘텐츠음을 재생시키기 위한 콘텐츠음용 게인 계수를 증폭부(25)에 공급한다.

증폭부(24)는 증폭기를 포함하며, 마스킹음 생성부(21)로부터 공급된 마스킹음에 대하여, 재생 레벨 조정부(23)로부터 공급된 마스킹음용 게인 계수를 승산함으로써 마스킹음의 레벨 조정(게인 조정)을 행한다. 증폭부(24)는 레벨 조정 후의 마스킹음을 가산부(26)에 공급한다.

증폭부(25)는, 예를 들어 스피커 어레이(12)를 구성하는 각 스피커에 대응하는 채널별로 마련된 증폭기를 포함한다.

증폭부(25)는, 파면 합성 필터부(22)로부터 공급된 각 채널의 출력음에 대하여, 재생 레벨 조정부(23)로부터 공급된 콘텐츠음용 게인 계수를 승산함으로써 출력음, 즉 콘텐츠음의 레벨 조정(게인 조정)을 행한다. 증폭부(25)는 레벨 조정 후의 출력음을 가산부(26)에 공급한다.

가산부(26)는, 예를 들어 스피커 어레이(12)를 구성하는 각 스피커에 대응하는 채널별로 마련된 가산기를 포함한다.

가산부(26)는, 증폭부(25)로부터 공급된 각 채널의 출력음에 대하여, 증폭부(24)로부터 공급된 마스킹음을 가산함으로써, 최종적인 각 채널의 출력음을 생성하여 DA 변환부(27)에 공급한다.

DA 변환부(27)는, 가산부(26)로부터 공급된 각 채널의 출력음에 대하여 DA 변환을 행하고, 그 결과 얻어진 각 채널의 아날로그 신호인 출력음의 음향 신호를, 스피커 어레이(12)를 구성하는 각 채널에 대응하는 스피커에 공급하여 출력음을 출력(재생)시킨다. 따라서 DA 변환부(27)는, 콘텐츠음과 함께 마스킹음을 스피커 어레이(12)로부터 출력시키는 출력부로서 기능한다고 할 수 있다.

<마스킹음의 생성 및 재생 레벨의 조정에 대하여>

여기서, 신호 처리 장치(11)에 있어서의 마스킹음의 생성이나 재생 레벨의 조정에 대하여 설명한다.

마스킹음 생성부(21) 및 재생 레벨 조정부(23)에 공급되는 외부 정보는, 예를 들어 상술한 방문자 수 정보, 시간대 정보, 콘텐츠의 재생을 행하는 요일을 나타내는 요일 정보, 및 천후 정보 중의 적어도 어느 하나 등으로 할 수 있다.

마스킹음 생성부(21)는 공급된 외부 정보에 따라 마스킹음을 생성하고, 재생 레벨 조정부(23)는 외부 정보에 따라 마스킹음과 콘텐츠음의 재생 레벨을 조정시킨다.

구체적으로는, 외부 정보로서 요일 정보와 시간대 정보가 이용되는 경우, 마스킹음 생성부(21) 및 재생 레벨 조정부(23)에는, 예를 들어 도 4에 나타내는 파라미터 테이블이 미리 유지되어 있다.

도 4에 있어서 문자 「요일」 및 「시간대」는 각각 요일 정보 및 시간대 정보를 나타내고 있다.

또한 문자 「콘텐츠음 재생 레벨」 및 「마스킹음 재생 레벨」은 각각 콘텐츠음의 재생 레벨 및 마스킹음의 재생 레벨, 즉 콘텐츠음용 게인 계수 및 마스킹음용 게인 계수를 나타내고 있다. 또한 문자 「마스킹음 파라미터」는, 마스킹음의 주파수 특성을 나타내는 정보인 마스킹음 파라미터를 나타내고 있다.

마스킹음 생성부(21)에서는 파라미터 테이블이 참조되어, 공급된 외부 정보로서의 요일 정보 및 시간대 정보의 조합에 대하여 미리 정해진 마스킹음 파라미터에 의하여 나타나는 마스킹음이 생성된다.

예를 들어 마스킹음 파라미터 「공조」는, 공조의 소리가 갖는 주파수 특성을 나타내고 있으며, 이 마스킹음 파라미터 「공조」에 기초하여 생성되는 마스킹음은, 공조음과 마찬가지의 주파수 특성을 갖는 소리로 된다. 따라서 그와 같은 마스킹음을 재생한 경우에는, 그것을 듣고 있는 사람에게는 공조음이 울리고 있는 것처럼 들리게 된다.

또한 마스킹음 파라미터 「군중+공조」는, 군중음과 공조음의 혼합음이 갖는 주파수 특성을 나타내고 있다. 따라서 마스킹음 파라미터 「군중+공조」에 기초하여 생성되는 마스킹음을 재생하면, 그것을 듣고 있는 사람에게는 군중음과 공조음이 울리고 있는 것처럼 들리게 된다.

마스킹음 생성부(21)에는 이와 같은 파라미터 테이블과 함께 각 마스킹음 파라미터가 미리 유지되어 있다.

재생 레벨 조정부(23)에서는 파라미터 테이블이 참조되어, 공급된 외부 정보로서의 요일 정보 및 시간대 정보의 조합에 대하여 미리 정해진 콘텐츠음용 게인 계수 및 마스킹음용 게인 계수가 증폭부(25) 및 증폭부(24)에 공급된다.

재생 레벨 조정부(23)에는 파라미터 테이블과 함께 콘텐츠음용 게인 계수 및 마스킹음용 게인 계수가 미리 유지되어 있다.

예를 들어 외부 정보로서 요일 정보 「일요일」과 시간대 정보 「8:00-12:00」이 공급된 경우, 콘텐츠음이 25㏈로 재생되고, 공조음과 마찬가지의 마스킹음이 3㏈로 재생되게 된다.

도 4에 나타내는 예에서는, 예를 들어 일요일의 오전 중 등, 방문자가 적을 요일 및 시간대에는 재생 공간은 비교적 조용할 것으로 예측되기 때문에 콘텐츠음의 재생 레벨이 비교적 작게 되고, 그에 따른 마스킹음의 재생 레벨도 작게 되어 있다. 또한 이 경우, 재생 공간은 비교적 조용할 것으로 예측되므로, 마스킹음은 공조음만으로 되어 있다.

이에 대하여, 예를 들어 일요일의 오후 등에 있어서는, 방문자가 많을 것으로 예측되기 때문에 콘텐츠음의 재생 레벨이 크게 되고, 그에 따른 마스킹음의 재생 레벨도 크게 되어 있으며, 마스킹음도 군중음과 공조음으로 되어 있다.

그 외에, 외부 정보로서 방문자 수 정보가 이용되는 경우, 예를 들어 방문자 수가 많을 때는 콘텐츠음이나 마스킹음의 재생 레벨이 크게 됨과 함께, 마스킹음이 군중음과 공조음으로 되도록 해도 된다.

또한, 예를 들어 콘텐츠 재생 시스템이, 지붕 구비의 옥외에서 이용되고, 외부 정보로서 천후 정보가 이용되는 경우, 천후 정보에 의하여 나타나는 천후가 우천일 때는, 암소음에 포함되는 빗소리에 의하여 누출음이 어느 정도 마스킹된다.

따라서 그와 같은 경우에는, 콘텐츠음의 재생 레벨은 크게 되고 마스킹음의 재생 레벨은 작게 되도록 할 수 있다. 또한 이 경우, 마스킹음은 재생되지 않도록 해도 된다. 또한 마스킹음이 빗소리로 되도록 해도 된다.

이상과 같이 신호 처리 장치(11)에서는, 외부 정보와 콘텐츠음용 게인 계수와 마스킹음용 게인 계수와 마스킹음 파라미터가 대응지어진 파라미터 테이블이 이용되어 마스킹음의 생성이나, 콘텐츠음과 마스킹음의 재생 레벨의 조정이 제어된다.

이와 같은 제어는, 외부 정보에 따라 콘텐츠음의 재생 레벨을 변동시키고, 또한 그 콘텐츠음의 재생 레벨의 변동에 따라 마스킹음의 재생 레벨을 변동시키는 제어라고 할 수 있다.

특히 도 4에 나타낸 예에서는, 콘텐츠음의 재생 레벨이 클 때는 마스킹음의 재생 레벨도 크게 되고, 반대로 콘텐츠음의 재생 레벨이 작을 때는 마스킹음의 재생 레벨도 작게 되어 있다.

또한 마스킹음 생성부(21)에 미리 유지되어 있는 마스킹음 파라미터는, 예를 들어 콘텐츠 재생 시스템의 가동 장소의 공조나, 사람이 왕래할 때의 군중 등의 암소음을 미리 계측함으로써 생성된다. 예를 들어 마스킹음 생성부(21)에서는, 이와 같은 마스킹음 파라미터에 의하여 나타나는 암소음의 주파수 특성을 갖는 가우시안 노이즈 등이 마스킹음으로서 생성되게 된다.

또한 마스킹음은 가우시안 노이즈에 한해지지 않으며, 핑크 노이즈나 백색 노이즈, 군중 노이즈, 버블 노이즈 등의 일반적인 노이즈 등 다른 어떠한 노이즈여도 된다.

또한 마스킹음 생성부(21)에 있어서, 콘텐츠음이 이용되어, 그 콘텐츠음의 특징을 지우는 특성의 마스킹음이 생성되도록 해도 된다. 즉, 콘텐츠음의 주파수 특성에 따라 마스킹음의 주파수 특성을 변화시키도록 해도 된다. 그와 같은 경우, 마스킹음 생성부(21)에 콘텐츠음 데이터가 공급된다.

구체적으로는, 예를 들어 콘텐츠음이 음성인 경우, 마스킹음 생성부(21)는, 콘텐츠음으로서의 음성의 포먼트를 해석함으로써, 콘텐츠음의 주파수의 골을 메우는 주파수 특성을 갖는 마스킹음을 생성한다. 즉, 각 주파수 중, 콘텐츠음에서 레벨이 작은 주파수에 있어서, 마스킹음의 레벨이 커지는 주파수 특성의 마스킹음이 생성된다.

이와 같은 마스킹음을 콘텐츠음과 함께 재생하면, 분할 영역으로부터 누출되는 콘텐츠음으로서의 음성 특유의 특징을 지울 수 있어서 마스킹 효과를 향상시킬 수 있다. 즉, 누출음이 사람의 음성인 것을 지각시키기 어렵게 할 수 있다.

또한 재생 레벨 조정부(23)에 있어서, 공급된 콘텐츠음에 대한 주파수 해석을 행하고, 그 해석 결과에 기초하여 주파수 대역별로 마스킹음의 재생 레벨을 결정해도 된다. 그와 같은 경우, 주파수 대역별로 콘텐츠음이 암소음을 초과하여 누출되는 레벨이 추정되고, 누출음이 청각 특성 상에서 마스킹되도록 주파수 대역별로 마스킹음의 재생 레벨이 결정되게 된다.

그 외에, 파라미터 테이블 이외에도, 미리 기계 학습에 의하여 생성된 뉴럴 네트워크 등의 예측기가 이용되도록 해도 된다.

그와 같은 경우, 예를 들어 마스킹음 생성부(21)는, 미리 유지하고 있는 예측기에 외부 정보를 입력하여 연산함으로써 출력으로서 마스킹음 파라미터를 얻고, 얻어진 마스킹음 파라미터에 기초하여 마스킹음을 생성한다.

또한 이 경우, 재생 레벨 조정부(23)는, 미리 유지하고 있는 예측기에 외부 정보나 콘텐츠음을 입력하여 연산함으로써 출력으로서 콘텐츠음용 게인 계수 및 마스킹음용 게인 계수를 얻는다.

<마스킹음의 재생 범위에 대하여>

또한 도 3에 도시한 구성의 신호 처리 장치(11)에서는, 예를 들어 재생 공간 전체를 마스킹음의 재생 범위로 할 수 있다.

구체적으로는, 예를 들어 도 5에 도시한 바와 같이 스피커 어레이(12)의 전방에 있는 영역 R21이 재생 공간이라고 하자.

이 예에서는, 재생 공간의 전체 영역인 영역 R21 내에, 콘텐츠음이 재생되는 2개의 분할 영역 R22 및 분할 영역 R23이 형성된다. 즉, 상술한 영역 A에 대응하는 분할 영역 R22에서는 콘텐츠 A가 재생되고, 영역 B에 대응하는 분할 영역 R23에서는 콘텐츠 B가 재생된다.

또한 여기서는, 설명을 간단히 하기 위하여 분할 영역이 2개인 경우에 대하여 설명하지만, 분할 영역은 3개 이상이어도 물론 된다.

도 5의 예에서는, 분할 영역 R22 및 분할 영역 R23을 포함하는 영역 R21 전체에서 마스킹음이 재생되게끔 되어 있다.

이 경우, 도 5 중의 직선 L31에 의하여 나타나는 x축 상에 있어서의 음압 분포는, 도 6에 나타내는 것처럼 된다. 또한 도 6에 있어서 횡축은, x축 방향에 있어서의 위치를 나타내고 있고, 종축은, 각 위치에 있어서의 음압을 나타내고 있다.

도 6에 나타내는 예에서는, 곡선 L41은, 콘텐츠 A의 소리의 음압 분포를 나타내고 있고, 곡선 L42는, 콘텐츠 B의 소리의 음압 분포를 나타내고 있다.

또한 직선 L43은 마스킹음의 음압 분포를 나타내고 있고, 직선 L44는, 스피커 어레이(12)의 주위에 있어서의 암소음의 음압 레벨을 나타내고 있다.

이 예에서는, 마스킹음은 재생 공간 내의 각 위치에 있어서 동일한 음압(재생 레벨)으로 되어 있고, 또한 마스킹음의 재생 레벨은 암소음의 레벨보다도 크게 되도록 이루어져 있다.

이것에 의하여, 재생 공간의 각 위치에 있어서 암소음보다도 큰 누출음을 알아듣기 어렵게 할 수 있다. 특히 여기서는, 분할 영역 R22와 분할 영역 R23 사이의 영역뿐 아니라 분할 영역 R22이나 분할 영역 R23 내부에 있어서의 경계 부분에 있어서도, 누출음으로 되는 콘텐츠음보다 마스킹음의 레벨이 크게 되어 있어서 누출음이 마스킹되어 있는 것을 알 수 있다.

예를 들어 외부 정보를 이용하면, 실제로 암소음의 레벨을 측정하지 않더라도 외부 정보로부터 대강의 암소음 레벨을 추정할 수 있다. 따라서 외부 정보와 파라미터 테이블에 기초하여 마스킹음의 재생 레벨을 결정하는 방법에서는, 마스킹음의 재생 레벨을, 외부 정보에 대하여 정해진 재생 레벨로 함으로써, 암소음 레벨보다도 큰 재생 레벨로 마스킹음을 재생하는 것이 가능하다. 암소음에 의해서도 작은 누출음은 마스킹되지만, 암소음 레벨보다도 큰 재생 레벨로 마스킹음을 재생함으로써, 마스킹음에 의하여 보다 큰 누출음도 마스킹되게끔 되어서 누출음이 들리기 어렵게 할 수 있다.

<콘텐츠 재생 처리의 설명>

계속해서, 콘텐츠 재생 시스템에 의하여 행해지는 콘텐츠 재생 처리에 대하여 설명한다. 즉, 이하, 도 7의 흐름도를 참조하여, 콘텐츠 재생 시스템에 의한 콘텐츠 재생 처리에 대하여 설명한다. 이 콘텐츠 재생 처리는, 복수의 콘텐츠가 지정되고 그들 콘텐츠의 재생이 지시되면 개시된다.

스텝 S11에 있어서 마스킹음 생성부(21)는, 외부로부터 공급된 외부 정보와, 미리 유지하고 있는 파라미터 테이블에 기초하여 마스킹음을 생성하여 증폭부(24)에 공급한다.

예를 들어 스텝 S11에서는 파라미터 테이블이 참조되어, 외부 정보에 대응지어져 있는 마스킹음 파라미터에 기초하여 마스킹음이 생성된다.

스텝 S12에 있어서 파면 합성 필터부(22)는, 공급된 콘텐츠음 데이터에 대하여 파면 합성 필터에 의한 필터링 처리를 행하고, 그 결과 얻어진 각 채널의 출력음을 증폭부(25)에 공급한다.

예를 들어 콘텐츠 A와 콘텐츠 B가 재생 대상의 콘텐츠로서 지정되었다고 하면, 도 5에 도시한 예와 같이 파면 합성에 의하여, 콘텐츠 A가 분할 영역 R22 내에서만 재생되고 또한 콘텐츠 B가 분할 영역 R23 내에서만 재생되는 출력음이 생성된다.

스텝 S13에 있어서 재생 레벨 조정부(23)는, 공급된 외부 정보 및 콘텐츠음 데이터 중 적어도 어느 한 쪽과, 유지하고 있는 파라미터 테이블에 기초하여, 마스킹음과 콘텐츠음의 재생 레벨을 결정한다.

예를 들어 스텝 S13에서는 파라미터 테이블이 참조되어, 외부 정보에 대응지어져 있는 게인 계수를 특정함으로써 콘텐츠음과 마스킹음의 재생 레벨이 결정된다. 재생 레벨 조정부(23)는, 결정된 마스킹음용 게인 계수를 증폭부(24)에 공급함과 함께 콘텐츠음용 게인 계수를 증폭부(25)에 공급한다.

스텝 S14에 있어서 증폭부(24) 및 증폭부(25)는 레벨 조정을 행한다.

즉, 증폭부(24)는, 마스킹음 생성부(21)로부터 공급된 마스킹음에 대하여, 재생 레벨 조정부(23)로부터 공급된 마스킹음용 게인 계수를 승산함으로써 레벨 조정을 행하고, 레벨 조정 후의 마스킹음을 가산부(26)에 공급한다.

또한 증폭부(25)는, 파면 합성 필터부(22)로부터 공급된 각 채널의 출력음에 대하여, 재생 레벨 조정부(23)로부터 공급된 콘텐츠음용 게인 계수를 승산함으로써 레벨 조정을 행하고, 레벨 조정 후의 각 채널의 출력음을 가산부(26)에 공급한다.

스텝 S15에 있어서 가산부(26)는, 증폭부(25)로부터 공급된 각 채널의 출력음에 대하여, 증폭부(24)로부터 공급된 마스킹음을 가산하는 가산 처리를 행하고, 그 결과 얻어진 최종적인 각 채널의 출력음을 DA 변환부(27)에 공급한다.

스텝 S16에 있어서 DA 변환부(27)는, 가산부(26)로부터 공급된 각 채널의 출력음에 대하여 DA 변환을 행하고, 그 결과 얻어진 각 채널의 출력음을, 스피커 어레이(12)의 각 채널에 대응하는 스피커에 공급하여 콘텐츠음을 재생시킨다.

스피커 어레이(12)의 각 스피커는, DA 변환부(27)로부터 공급된 출력음을 출력함으로써 콘텐츠음을 재생함과 동시에 마스킹음도 재생한다.

이것에 의하여, 예를 들어 도 5의 분할 영역 R22 내에서는 콘텐츠 A가 재생되고 분할 영역 R23 내에서는 콘텐츠 B가 재생되는 멀티존 재생이 파면 합성에 의하여 실현된다. 동시에 재생 공간 전체의 영역 R21에서는, 각 위치에서 균일한 음압(재생 레벨)으로 마스킹음이 재생되게 된다.

이와 같이 하여 콘텐츠음이 재생되면 콘텐츠 재생 처리는 종료된다.

이상과 같이 하여 콘텐츠 재생 시스템은 외부 정보에 기초하여 마스킹음을 생성하여, 콘텐츠음과 함께 마스킹음도 재생한다. 이와 같이 함으로써, 스피커 수를 증가시키거나 방대한 수의 마이크로폰을 이용하거나 하는 일 없이 간단히 누출음이 들리기 어렵게 할 수 있다.

<제2 실시 형태>

<콘텐츠 재생 시스템의 구성예>

또한 이상에 있어서는, 재생 공간의 전체에서 균일한 음압(레벨)으로 마스킹음이 재생되는 예에 대하여 설명하였다. 그러나 그에 한해지지 않으며, 마스킹음에 대해서도 파면 합성을 이용하여 특정 영역에서만 재생되도록 해도 된다.

그와 같은 경우, 콘텐츠 재생 시스템은, 예를 들어 도 8에 도시한 바와 같이 구성된다. 또한 도 8에 있어서, 도 3에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있으며, 그 설명은 적절히 생략한다.

도 8에 도시하는 콘텐츠 재생 시스템은 신호 처리 장치(11)와 스피커 어레이(12)를 갖고 있다. 또한 도 8에 도시하는 신호 처리 장치(11)의 구성은, 새로이 파면 합성 필터부(51)가 마련되고, 또한 도 3에 도시한 증폭부(24) 대신 증폭부(52)가 마련되어 있는 점에 있어서, 도 3에 도시한 신호 처리 장치(11)의 구성과 달라져 있으며, 그 외의 점에서는 도 3의 신호 처리 장치(11)와 동일한 구성으로 되어 있다.

파면 합성 필터부(51)는, 예를 들어 파면 합성에 의하여 마스킹음을 소정의 마스킹 영역에서만 재생하기 위한 파면 합성 필터를 미리 갖고 있다. 또한 파면 합성 필터부(51)가 파면 합성 필터를 생성하도록 해도 된다.

여기서 마스킹 영역이란, 콘텐츠음, 즉 누출음의 마스킹을 행하고자 하는 영역이며, 예를 들어 복수의 분할 영역 사이의 영역이 마스킹 영역으로 된다.

파면 합성 필터부(51)는, 마스킹음 생성부(21)로부터 공급된 마스킹음, 보다 상세하게는 마스킹음의 음향 신호에 대하여 파면 합성 필터에 의한 필터링 처리를 행하고, 그 결과 얻어진 각 채널의 마스킹음을 증폭부(52)에 공급한다.

이와 같이 하여 얻어지는 각 채널의 마스킹음을 스피커 어레이(12)의 각 스피커로부터 출력하면, 목적으로 하는 마스킹 영역에서만 마스킹음이 재생되도록 파면 합성에 의하여 마스킹음의 파면이 형성된다.

달리 말하면, 각 채널의 마스킹음을 스피커 어레이(12)의 각 스피커로부터 출력하면, 파면 합성에 의하여 지향성을 갖는 음향 빔이 마스킹음의 음향 빔으로서 생성되며, 결과로서 마스킹 영역에서만 마스킹음이 재생되게 된다.

이와 같이 파면 합성용의 각 채널의 마스킹음을 생성함으로써 마스킹 영역을 구획할 수 있어서, 목적으로 하는 마스킹 영역에서만 콘텐츠의 누출음을 마스킹할 수 있다. 달리 말하면, 누출음이 생기는 영역을 마스킹 영역으로 함으로써 누출음만을 마스킹할 수 있게 된다.

증폭부(52)는, 예를 들어 스피커 어레이(12)를 구성하는 각 스피커에 대응하는 채널별로 마련된 증폭기를 포함한다.

증폭부(52)는, 파면 합성 필터부(51)로부터 공급된 각 채널의 마스킹음에 대하여, 재생 레벨 조정부(23)로부터 공급된 마스킹음용 게인 계수를 승산함으로써 마스킹음의 레벨 조정을 행하고, 레벨 조정 후의 마스킹음을 가산부(26)에 공급한다.

가산부(26)는, 증폭부(25)로부터 공급된 각 채널의 출력음에 대하여, 증폭부(52)로부터 공급된 각 채널의 마스킹음을 가산함으로써, 최종적인 각 채널의 출력음을 생성하여 DA 변환부(27)에 공급한다. 가산부(26)에서는, 동일한 채널의 마스킹음과 출력음이 가산된다.

<마스킹 영역에 대하여>

도 8에 도시한 구성의 신호 처리 장치(11)에서는, 재생 공간 전체가 아니라 마스킹 영역이 마스킹음의 재생 범위로 된다.

구체적으로는, 예를 들어 도 9에 도시한 바와 같이 스피커 어레이(12)의 전방에 있는 영역이 재생 공간이라고 하자. 또한 도 9에 있어서, 도 5에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있으며, 그 설명은 적절히 생략한다.

도 9의 예에서는, 재생 공간의 2개의 분할 영역 R22 및 분할 영역 R23이 형성되고, 또한 그들 분할 영역 R22와 분할 영역 R23 사이의 영역이 마스킹 영역 R31로 되어 있다. 따라서 이 예에서는, 마스킹 영역 R31 내에 있어서만 마스킹음이 재생되어 누출음의 마스킹이 행해지고, 마스킹 영역 R31 외에서는 마스킹음은 재생되지 않아서 누출음의 마스킹은 행해지지 않는다.

이 경우, 도 9 중의 직선 L31에 의하여 나타나는 x축 상에 있어서의 음압 분포는, 도 10에 나타낸 것처럼 된다. 또한 도 10에 있어서 횡축은, x축 방향에 있어서의 위치를 나타내고 있고, 종축은, 각 위치에 있어서의 음압을 나타내고 있다. 또한 도 10에 있어서, 도 6에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있으며, 그 설명은 적절히 생략한다.

도 10에 도시하는 예에서는, 곡선 L51은 마스킹음의 음압 분포를 나타내고 있다.

곡선 L51로 나타낸 바와 같이 마스킹음의 음압은, 분할 영역 R22와 분할 영역 R23 사이의 영역, 즉 마스킹 영역 R31 내에서만 암소음 레벨보다도 크게 되어 있고, 마스킹 영역 R31 외에서는 암소음 레벨보다도 작게 되어 있는 것을 알 수 있다. 달리 말하면, 파면 합성이 이용되어 마스킹 영역 R31에 있어서만 마스킹음에 의한 누출음의 마스킹이 행해지고 있는 것을 알 수 있다.

<콘텐츠 재생 처리의 설명>

이상과 같은 도 8에 도시한 콘텐츠 재생 시스템에서는, 도 11에 도시하는 콘텐츠 재생 처리가 행해진다. 즉, 이하, 도 11의 흐름도를 참조하여, 도 8에 도시한 콘텐츠 재생 시스템에 의한 콘텐츠 재생 처리에 대하여 설명한다.

콘텐츠 재생 처리가 개시되면 스텝 S41의 처리가 행해지는데, 스텝 S41의 처리는 도 7의 스텝 S11의 처리와 마찬가지이므로 그 설명은 생략한다.

스텝 S42에 있어서 파면 합성 필터부(51)는, 마스킹음 생성부(21)로부터 공급된 마스킹음에 대하여 파면 합성 필터에 의한 필터링 처리를 행하고, 그 결과 얻어진 각 채널의 마스킹음을 증폭부(52)에 공급한다.

예를 들어 콘텐츠 A와 콘텐츠 B가 재생 대상의 콘텐츠로서 지정되었다고 하면, 도 9에 도시한 예와 같이 파면 합성에 의하여, 마스킹 영역 R31 내에 있어서만 마스킹음이 재생되도록 각 채널의 마스킹음이 생성된다.

스텝 S42의 처리가 행해지면, 그 후 스텝 S43 내지 스텝 S47의 처리가 행해져서 콘텐츠 재생 처리가 종료되는데, 이들 처리는 도 7의 스텝 S12 내지 스텝 S16의 처리와 마찬가지이므로 그 설명은 생략한다.

단, 스텝 S45에서는, 증폭부(52)에 있어서 각 채널의 마스킹음의 레벨 조정이 행해짐과 함께 증폭부(25)에서 각 채널의 출력음의 레벨 조정이 행해지고, 스텝 S46에서는 채널별로 마스킹음과 출력음의 가산 처리가 행해진다.

스피커 어레이(12)에 있어서 각 채널의 출력음이 출력되면, 예를 들어 도 9에 도시한 바와 같이 분할 영역 R22에서 콘텐츠 A가 재생되고, 분할 영역 R23에서는 콘텐츠 B가 재생되고, 마스킹 영역 R31에서는 마스킹음이 재생된다.

이상과 같이 하여 콘텐츠 재생 시스템은 외부 정보에 기초하여 마스킹음을 생성하여, 파면 합성에 의하여 콘텐츠음과 함께 마스킹음도 재생한다. 이와 같이 함으로써 간단히 누출음이 들리기 어렵게 할 수 있다. 게다가, 원하는 마스킹 영역만을 대상으로 하여 누출음의 마스킹을 행할 수 있다.

<제3 실시 형태>

<콘텐츠 재생 시스템의 구성예>

또한 이상에 있어서는 마스킹음의 생성에 외부 정보를 이용하는 예에 대하여 설명하였지만, 외부 센서의 출력을 이용하여 마스킹음을 생성하도록 해도 된다.

예를 들어 외부 센서로서 카메라를 이용하는 경우, 콘텐츠 재생 시스템은, 도 12에 도시한 바와 같이 구성된다. 또한 도 12에 있어서, 도 8에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있으며, 그 설명은 적절히 생략한다.

도 12에 도시하는 콘텐츠 재생 시스템은 카메라(81), 신호 처리 장치(11) 및 스피커 어레이(12)를 갖고 있다.

또한 도 12에 도시하는 신호 처리 장치(11)의 구성은, 도 8에 도시한 신호 처리 장치(11)의 구성에 더해, 새로이 인식부(91)가 마련된 구성으로 되어 있으며, 그 외의 점에서는 도 8의 신호 처리 장치(11)와 동일한 구성으로 되어 있다.

외부 센서로서 마련된 카메라(81)는, 예를 들어 재생 공간 내에 배치되어 있으며, 재생 공간 전체 또는 분할 영역의 주변 영역을 피사체로서 촬영하고, 그 결과 얻어진 촬영 화상을 인식부(91)에 공급한다. 예를 들어 촬영 화상에는 적어도 분할 영역의 주위의 영역이 피사체로서 포함되어 있다.

인식부(91)는, 카메라(81)로부터 공급된 촬영 화상에 대하여 얼굴 인식이나 인물 인식을 행하여 촬영 화상으로부터 사람을 검출함으로써, 콘텐츠 재생 시스템의 주위, 즉 재생 공간 전체나 분할 영역 주위에 있는 사람의 수(인원수)를 추정한다. 달리 말하면 인식부(91)는, 촬영 화상으로부터 사람을 검출하는 검출부로서 기능한다. 인식부(91)는, 콘텐츠 재생 시스템의 주위에 있는 사람의 인원수의 추정 결과로서 얻어진, 인원수를 나타내는 인원수 정보를 마스킹음 생성부(21) 및 재생 레벨 조정부(23)에 공급한다.

마스킹음 생성부(21)는, 인식부(91)로부터 공급된 인원수 정보에 기초하여 마스킹음을 생성하여 파면 합성 필터부(51)에 공급한다.

구체적으로는, 예를 들어 인원수 정보에 의하여 나타나는 인원수가 소정의 역치 이상인 경우, 즉 주위에 사람이 많이 있는 경우, 주위에는 노이즈원이 많으므로 마스킹음 생성부(21)는 가우시안 노이즈를 마스킹음으로서 생성한다. 이는, 노이즈원이 많을수록, 그들 노이즈원의 소리를 포함하는 암소음은 가우시안 노이즈에 접근하기 때문이다.

이에 대하여, 예를 들어 인원수 정보에 의하여 나타나는 인원수가 역치 미만인 경우, 즉 주위에 사람이 적은 경우, 마스킹음 생성부(21)는 슈퍼 가우시안 노이즈를 마스킹음으로서 생성한다. 이는, 노이즈원이 적으면, 그들 노이즈원의 소리를 포함하는 암소음의 주파수 특성의 첨도가 커지기 때문이다.

또한 인원수 정보에 의하여 나타나는 인원수에 따른 첨도의 주파수 특성을 갖는 노이즈가 마스킹음으로서 생성되도록 해도 된다. 그 외에, 뉴럴 네트워크 등의 예측기에 인원수 정보를 입력하여 연산을 행함으로써 그 출력으로서 얻어지는 주파수 특성을 갖는 마스킹음을 생성하도록 해도 되고, 외부 정보와 인원수 정보를 조합하여 마스킹음을 생성하도록 해도 된다.

이와 같이 주위에 있는 사람의 수에 따라 마스킹음을 생성함으로써, 암소음이 갖는 특성에 가까운 특성의 마스킹음을 생성할 수 있다.

재생 레벨 조정부(23)는, 인식부(91)로부터 공급된 인원수 정보에 기초하여 콘텐츠음용 게인 계수 및 마스킹음용 게인 계수를 결정하여 증폭부(25) 및 증폭부(52)에 공급한다.

구체적으로는, 예를 들어 인원수 정보에 의하여 나타나는 인원수가 많을수록 콘텐츠음의 재생 레벨이 커지도록 콘텐츠음용 게인 계수가 결정된다. 이는, 주위에 사람이 많을수록 콘텐츠음을 알아듣기 어려워지기 때문이다.

이에 대하여, 예를 들어 인원수 정보에 의하여 나타나는 인원수가 많을수록 마스킹음의 재생 레벨이 작아지도록 마스킹음용 게인 계수가 결정된다. 이는, 주위에 사람이 많을수록 암소음의 레벨이 커져서 누출음이 들리기 어려워지기 때문이다. 또한 인원수 정보에 의하여 나타나는 인원수가 소정 인원수 이상이어서 암소음 레벨이 클 것으로 추정되는 경우에는 마스킹음은 재생(생성)되지 않도록 해도 된다.

그 외에, 마스킹 영역에만 사람이 있는 경우에는, 콘텐츠음의 재생 레벨은 통상 정도의 크기로 되고 마스킹음의 재생 레벨은 크게 되도록 해도 된다.

이와 같은 인원수 정보를 이용한 마스킹음의 재생 레벨의 조정은, 인원수 정보로부터 추정되는 암소음의 레벨에 대하여 적절한 마스킹음의 재생 레벨을 결정하는 처리라고 할 수 있다.

또한 재생 레벨 조정부(23)에 있어서, 제1 실시 형태에 있어서의 경우와 마찬가지로 인원수 정보뿐 아니라 콘텐츠음 데이터도 이용되어 콘텐츠음용 게인 계수나 마스킹음용 게인 계수가 결정되도록 해도 된다.

또한 뉴럴 네트워크 등의 예측기에 인원수 정보나 콘텐츠음 데이터를 입력하여 연산을 행함으로써 그 출력으로서 콘텐츠음이나 마스킹음의 재생 레벨의 결정 결과가 얻어지도록 해도 되고, 외부 정보와 인원수 정보를 조합하여 콘텐츠음이나 마스킹음의 재생 레벨이 결정되도록 해도 된다.

<콘텐츠 재생 처리의 설명>

이상과 같은 도 12에 도시한 콘텐츠 재생 시스템에서는, 도 13에 도시하는 콘텐츠 재생 처리가 행해진다. 즉, 이하, 도 13의 흐름도를 참조하여, 도 12에 도시한 콘텐츠 재생 시스템에 의한 콘텐츠 재생 처리에 대하여 설명한다.

스텝 S71에 있어서 인식부(91)는, 카메라(81)로부터 공급된 촬영 화상에 기초하여 인식 처리를 행하고, 그 결과 얻어진 인원수 정보를 마스킹음 생성부(21) 및 재생 레벨 조정부(23)에 공급한다.

스텝 S72에 있어서 마스킹음 생성부(21)는, 인식부(91)로부터 공급된 인원수 정보에 기초하여 마스킹음을 생성하여 파면 합성 필터부(51)에 공급한다.

예를 들어 스텝 S72에서는 인원수 정보에 따라 가우시안 노이즈 또는 슈퍼 가우시안 노이즈가 마스킹음으로서 생성된다.

마스킹음이 생성되면, 그 후 스텝 S73에 있어서 마스킹음에 대한 필터링 처리가 행해지고, 스텝 S74에 있어서 콘텐츠음에 대한 필터링 처리가 행해진다. 또한 이들 처리는 도 11의 스텝 S42 및 스텝 S43의 처리와 마찬가지이므로 그 설명은 생략한다.

스텝 S75에 있어서 재생 레벨 조정부(23)는, 인식부(91)로부터 공급된 인원수 정보에 기초하여 콘텐츠음의 재생 레벨 및 마스킹음의 재생 레벨을 결정한다.

예를 들어 스텝 S75에서는, 인원수 정보에 의하여 나타나는 인원수가 많을수록 콘텐츠음의 재생 레벨이 커지고 또한 마스킹음의 재생 레벨이 작아지도록 콘텐츠음용 게인 계수 및 마스킹음용 게인 계수가 결정된다.

콘텐츠음과 마스킹음의 재생 레벨, 즉 게인 계수가 결정되면, 그 후 스텝 S76 내지 스텝 S78의 처리가 행해져서 콘텐츠 재생 처리는 종료되는데, 이들 처리는 도 11의 스텝 S45 내지 스텝 S47의 처리와 마찬가지이므로 그 설명은 생략한다.

이상과 같이 하여 콘텐츠 재생 시스템은 인원수 정보에 기초하여 마스킹음을 생성함과 함께, 콘텐츠음이나 마스킹음의 재생 레벨을 조정하고 파면 합성에 의하여 콘텐츠음과 마스킹음을 재생한다. 이와 같이 함으로써 간단히 누출음이 들리기 어렵게 할 수 있다.

<제4 실시 형태>

<콘텐츠 재생 시스템의 구성예>

또한 외부 센서로서 마이크로폰을 이용하도록 해도 된다. 그와 같은 경우, 콘텐츠 재생 시스템은, 예를 들어 도 14에 도시한 바와 같이 구성된다. 또한 도 14에 있어서, 도 8에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있으며, 그 설명은 적절히 생략한다.

도 14에 도시하는 콘텐츠 재생 시스템은 마이크로폰(121), 신호 처리 장치(11) 및 스피커 어레이(12)를 갖고 있다.

또한 도 14에 도시하는 신호 처리 장치(11)의 구성은, 도 8에 도시한 신호 처리 장치(11)의 구성에 더해, 새로이 AD(Analog to Digital) 변환부(131) 및 암소음 해석부(132)가 마련된 구성으로 되어 있으며, 그 외의 점에서는 도 8의 신호 처리 장치(11)와 동일한 구성으로 되어 있다.

외부 센서로서의 마이크로폰(121)은, 예를 들어 재생 공간 내의 임의의 위치에 배치되어 재생 공간 내, 예를 들어 분할 영역 주위의 영역의 암소음을 취득한다. 즉, 마이크로폰(121)은 주위의 소리(이하, 수록음이라고 칭함)를 수음하여 AD 변환부(131)에 공급한다. 또한 마이크로폰(121)은 하나여도 되지만, 복수의 마이크로폰(121)이 배치되도록 해도 물론 된다.

AD 변환부(131)는, 마이크로폰(121)으로부터 공급된 수록음을 AD 변환하고, 그 결과 얻어진 디지털의 수록음을 암소음 해석부(132)에 공급한다.

암소음 해석부(132)는, 외부로부터 공급된 콘텐츠음 데이터에 기초하여, AD 변환부(131)로부터 공급된 수록음의 레벨 등의 해석, 즉 주위의 암소음의 특성의 해석을 행하고, 그 해석 결과를 마스킹음 생성부(21) 및 재생 레벨 조정부(23)에 공급한다.

예를 들어 스피커 어레이(12)에 의하여 출력음이 출력되고 있는 상태에서는, 마이크로폰(121)에서 얻어진 수록음에는 주위의 암소음뿐 아니라 콘텐츠음이나 마스킹음도 포함되어 있다.

그래서 암소음 해석부(132)는, 공급된 콘텐츠음 데이터에 기초하여, 콘텐츠음이 무음으로 되어 있는 무음 구간, 즉 콘텐츠가 재생되고 있지 않은 구간에 수음된 수록음을 암소음으로 간주한다. 그리고 암소음 해석부(132)는, 암소음으로 간주한 구간의 수록음에 대하여 해석 처리를 행한다. 또한 콘텐츠음이 무음인 구간에서는 마스킹음도 재생되고 있지 않은 것으로 한다.

구체적으로는, 예를 들어 해석 처리로서 암소음의 레벨인 암소음 레벨이 산출되거나, 암소음의 주파수 특성이 주파수 분석(주파수 해석)에 의하여 구해지거나, 암소음의 진폭 특성이 구해지거나 한다. 이와 같이 하여 얻어진 암소음 레벨이나 주파수 특성이 암소음의 해석 결과로서 암소음 해석부(132)로부터 출력된다.

마스킹음 생성부(21)는, 암소음 해석부(132)로부터 공급된 해석 결과에 기초하여 마스킹음을 생성하여 파면 합성 필터부(51)에 공급한다.

예를 들어 마스킹음 생성부(21)에서는, 제1 실시 형태와 마찬가지로 파라미터 테이블에 기초하여 마스킹음을 생성해도 되고, 뉴럴 네트워크 등의 예측기를 이용하여 마스킹음을 생성해도 된다.

재생 레벨 조정부(23)는, 암소음 해석부(132)로부터 공급된 해석 결과, 및 공급된 콘텐츠음 데이터 중 적어도 어느 한 쪽에 기초하여, 마스킹음과 콘텐츠음의 재생 레벨의 조정을 제어한다.

즉, 재생 레벨 조정부(23)는, 해석 결과와 콘텐츠음 데이터 중 적어도 어느 한 쪽에 기초하여 마스킹음의 재생 레벨, 즉 마스킹음용 게인 계수를 결정하고, 결정된 게인 계수를 증폭부(52)에 공급한다.

마찬가지로 재생 레벨 조정부(23)는, 해석 결과와 콘텐츠음 데이터 중 적어도 어느 한 쪽에 기초하여 콘텐츠음의 재생 레벨, 즉 콘텐츠음용 게인 계수를 결정하고, 결정된 게인 계수를 증폭부(25)에 공급한다.

예를 들어 재생 레벨 조정부(23)에서는, 제1 실시 형태와 마찬가지로 파라미터 테이블에 기초하여 게인 계수를 결정해도 되고, 뉴럴 네트워크 등의 예측기를 이용하여 게인 계수를 결정해도 된다.

여기서, 구체예로서 파라미터 테이블에 기초하여 마스킹음의 생성이나 게인 계수의 결정이 행해지는 경우에 대하여 설명한다. 그와 같은 경우, 예를 들어 마스킹음 생성부(21)나 재생 레벨 조정부(23)에는, 도 15에 나타내는 파라미터 테이블이 미리 유지되어 있다.

도 15에 있어서 문자 「암소음 음압」은, 암소음 해석부(132)에서의 해석 결과로서 얻어진 암소음 레벨, 즉 측정된 암소음의 음압을 나타내고 있다.

또한 문자 「콘텐츠음 재생 레벨」 및 「마스킹음 재생 레벨」은 각각 콘텐츠음의 재생 레벨 및 마스킹음의 재생 레벨, 즉 콘텐츠음용 게인 계수 및 마스킹음용 게인 계수를 나타내고 있다. 또한 문자 「마스킹음 파라미터」는 마스킹음 파라미터를 나타내고 있다.

예를 들어 마스킹음 파라미터 「공조」는, 도 4에 있어서의 경우와 마찬가지로 공조음의 주파수 특성을 나타내고 있고, 마스킹음 파라미터 「마이크 취득음의 주파수 특성」은 암소음으로서의 수록음의 주파수 특성을 나타내고 있다.

또한 마스킹음 생성부(21)에는 마스킹음 파라미터 「마이크 취득음의 주파수 특성」은 미리 유지되어 있지 않으며, 암소음 해석부(132)로부터 해석 결과로서 공급된 암소음의 주파수 특성이 마스킹음 파라미터 「마이크 취득음의 주파수 특성」으로서 이용된다.

이 경우, 마스킹음 파라미터로서의 암소음의 주파수 특성에 따른 가우시안 노이즈가 마스킹음으로서 생성되도록 해도 된다.

이와 같은 마스킹음 파라미터 「마이크 취득음의 주파수 특성」에 기초하여 마스킹음을 생성하면, 실제의 암소음과 동일한 주파수 특성을 갖는 마스킹음을 얻을 수 있어서, 위화감을 생기게 하지 않고 보다 자연스레 누출음을 마스킹할 수 있다.

또한 콘텐츠음과 마스킹음의 재생 레벨에 주목하면, 암소음 레벨이 커질수록 콘텐츠음의 재생 레벨도 마스킹음의 재생 레벨도 크게 되어 있다.

도 15에 나타내는 예에서는, 예를 들어 암소음의 해석 결과로서 암소음 레벨, 즉 암소음 음압 「60㏈A」가 얻어진 경우, 콘텐츠음이 10㏈로 재생되고, 공조음과 마찬가지의 마스킹음이 3㏈로 재생되게 된다.

이와 같은 도 15에 나타내는 파라미터 테이블을 이용하는 경우에는, 암소음 레벨에 따라 콘텐츠음의 재생 레벨이 변화되고, 또한 그 콘텐츠음의 재생 레벨의 변화분에 따라 마스킹음의 재생 레벨이 결정되는 제어가 행해지게 된다.

또한 파라미터 테이블을 이용하여 마스킹음 파라미터나 게인 계수(재생 레벨)를 결정하는 경우, 암소음의 해석 결과 등의, 외부 센서의 출력으로부터 얻어지는 정보뿐 아니라, 외부 정보도 조합하여 이용하도록 해도 된다.

그와 같은 경우, 예를 들어 암소음의 해석 결과와 외부 정보의 조합에 대하여, 콘텐츠음이나 마스킹음의 재생 레벨(게인 계수)과 마스킹음 파라미터가 대응지어진 파라미터 테이블을 이용하도록 할 수 있다. 달리 말하면, 암소음의 해석 결과와 외부 정보에 기초하여 콘텐츠음이나 마스킹음의 게인 계수와 마스킹음 파라미터가 결정되게 할 수 있다.

<콘텐츠 재생 처리의 설명>

이상과 같은 도 14에 도시한 콘텐츠 재생 시스템에서는, 도 16에 도시하는 콘텐츠 재생 처리가 행해진다. 즉, 이하, 도 16의 흐름도를 참조하여, 도 14에 도시한 콘텐츠 재생 시스템에 의한 콘텐츠 재생 처리에 대하여 설명한다.

스텝 S101에 있어서 암소음 해석부(132)는, 공급된 콘텐츠음 데이터에 기초하여, 콘텐츠음이 무음으로 되어 있는 무음 구간에 있어서 AD 변환부(131)로부터 공급된 수록음, 즉 암소음의 해석 처리를 행하고, 그 해석 결과를 마스킹음 생성부(21) 및 재생 레벨 조정부(23)에 공급한다. 여기서는 암소음의 해석 결과로서, 예를 들어 암소음 레벨이나 주파수 특성, 진폭 특성 등이 얻어진다.

스텝 S102에 있어서 마스킹음 생성부(21)는, 암소음 해석부(132)로부터 공급된 해석 결과와, 미리 유지하고 있는 파라미터 테이블에 기초하여 마스킹음을 생성하여, 파면 합성 필터부(51)에 공급한다.

예를 들어 스텝 S102에서는 파라미터 테이블이 참조되어, 암소음의 해석 결과에 대하여 대응지어져 있는 마스킹음 파라미터에 기초하여 마스킹음이 생성된다.

마스킹음이 생성되면, 그 후 스텝 S103에 있어서 마스킹음에 대한 필터링 처리가 행해지고, 스텝 S104에 있어서 콘텐츠음에 대한 필터링 처리가 행해진다. 또한 이들 처리는 도 11의 스텝 S42 및 스텝 S43의 처리와 마찬가지이므로 그 설명은 생략한다.

스텝 S105에 있어서 재생 레벨 조정부(23)는, 공급된 콘텐츠음 데이터 및 암소음 해석부(132)로부터 공급된 해석 결과 중 적어도 어느 한 쪽과, 유지하고 있는 파라미터 테이블에 기초하여, 마스킹음과 콘텐츠음의 재생 레벨을 결정한다.

예를 들어 스텝 S105에서는 파라미터 테이블을 참조하여, 암소음의 해석 결과에 대응지어져 있는 게인 계수를 특정함으로써, 콘텐츠음과 마스킹음의 재생 레벨, 즉 게인 계수가 결정된다.

재생 레벨 조정부(23)는, 결정된 마스킹음용 게인 계수를 증폭부(52)에 공급함과 함께 콘텐츠음용 게인 계수를 증폭부(25)에 공급한다.

재생 레벨이 결정되면, 그 후 스텝 S106 내지 스텝 S108의 처리가 행해져서 콘텐츠 재생 처리는 종료되는데, 이들 처리는 도 11의 스텝 S45 내지 스텝 S47의 처리와 마찬가지이므로 그 설명은 생략한다.

이상과 같이 하여 콘텐츠 재생 시스템은 암소음의 해석 결과에 기초하여 마스킹음을 생성함과 함께, 콘텐츠음이나 마스킹음의 재생 레벨을 조정하고 파면 합성에 의하여 콘텐츠음과 마스킹음을 재생한다. 이와 같이 함으로써 간단히 누출음이 들리기 어렵게 할 수 있다.

<제4 실시 형태의 변형예 1>

<파라미터 테이블의 다른 예>

또한 외부 센서로서 마이크로폰(121)을 이용하는 경우, 마이크로폰(121)을 복수의 분할 영역 사이의 영역에 배치할 수도 있다. 그렇게 하면, 각 분할 영역에서 재생된 콘텐츠음과 암소음과 마스킹음이 섞인 소리를 마이크로폰(121)에 의하여 수록음으로서 얻을 수 있다.

이 경우, 수록음을 해석함으로써, 누출음을 확실히 마스킹하기 위하여 얼마큼 더 마스킹음을 부가하면 될지, 즉 마스킹음의 재생 레벨을 얼마나 증가시키면 될지를 계산에 의하여 구할 수 있다.

구체적으로는, 예를 들어 암소음 해석부(132)는 콘텐츠음을 S(시그널)라 하고, 암소음과 마스킹음의 혼합음을 N(노이즈)이라 한다. 즉, 암소음 해석부(132)는, 콘텐츠음이 재생되고 있을 때의 수록음의 음압과, 콘텐츠음이 재생되고 있지 않을 때의 수록음의 음압의 차를 SN비로서 구한다.

그리고 암소음 해석부(132)는, 구한 SN비가 0㏈보다도 큰 경우에는 콘텐츠음의 레벨이 우위, 즉 누출음이 발생하고 있으므로 마스킹음을 더 부가한다고 판정하여 마스킹음의 재생 레벨을 증가시킨다.

이에 대하여 암소음 해석부(132)는, 구한 SN비가 0㏈보다도 작은 경우에는 마스킹음과 암소음의 혼합음의 레벨이 우위, 즉 누출음은 이미 들리지 않는 상태라고 판정하여 마스킹음의 재생 레벨을 감소시킨다.

이와 같이 하여 마스킹음의 재생 레벨을 동적으로 변화시켜 가면, 주위의 환경 등에 따라 적절한 재생 레벨로 마스킹음을 재생할 수 있다.

이상과 같은 마스킹음의 재생 레벨의 조정 제어는, 예를 들어 도 17에 나타내는 파라미터 테이블을 이용함으로써 실현할 수 있다.

도 17에 있어서 문자 「SN비」는, 암소음 해석부(132)에서의 해석 결과로서 얻어진 수록음의 음압에 기초하여 산출된 상술한 SN비를 나타내고 있다.

또한 문자 「콘텐츠음 재생 레벨」은 콘텐츠음의 재생 레벨, 즉 콘텐츠음용 게인 계수를 나타내고 있다.

또한 문자 「마스킹음 재생 레벨의 변동」은 마스킹음의 재생 레벨의 증감값을 나타내고 있고, 문자 「마스킹음 파라미터」는 마스킹음 파라미터를 나타내고 있다.

예를 들어 마스킹음 재생 레벨의 변동 「-6㏈」는, 마스킹음의 재생 레벨을 현재의 레벨로부터 -6㏈만큼 감소시키는 것을 나타내고 있다. 도 17에 나타내는 예에서는, SN비에 따라 마스킹음의 재생 레벨이 증감하며, SN비가 0㏈인 경우에는, 현시점의 마스킹음의 재생 레벨이 적절한 레벨인 것으로 되어서 그 재생 레벨이 유지된다. 즉 증감값이 0㏈로 된다.

따라서 재생 레벨 조정부(23)는 파라미터 테이블을 참조하여, 암소음 해석부(132)로부터 공급된 SN비에 대응하는 증감값만큼 마스킹음의 재생 레벨을 증감시킨다. 즉 재생 레벨 조정부(23)는, 마스킹음의 재생 레벨의 증감값에 따라 새로운 마스킹음용 게인 계수를 결정하고, 그 새로운 게인 계수를 증폭부(52)에 공급한다.

이와 같은 도 17에 나타내는 파라미터 테이블이 마스킹음 생성부(21) 및 재생 레벨 조정부(23)에 유지되어 있는 경우, 도 16을 참조하여 설명한 콘텐츠 재생 처리의 스텝 S101에서는 SN비가 산출된다.

즉, 암소음 해석부(132)는 암소음 해석으로서, 콘텐츠음이 재생되고 있지 않은 타이밍에 얻어진 수록음과, 콘텐츠음이 재생되고 있는 타이밍에 얻어진 수록음에 기초하는 SN비의 산출을 행하고, 얻어진 SN비를 마스킹음 생성부(21) 및 재생 레벨 조정부(23)에 공급한다.

그러면 스텝 S102에서는, 마스킹음 생성부(21)는, 암소음 해석부(132)로부터 공급된 SN비와, 유지하고 있는 파라미터 테이블에 기초하여 마스킹음 파라미터를 결정하고, 그 결정 결과에 따라 마스킹음을 생성한다.

또한 스텝 S105에서는, 재생 레벨 조정부(23)는, 암소음 해석부(132)로부터 공급된 SN비와, 유지하고 있는 파라미터 테이블에 기초하여 콘텐츠음과 마스킹음의 재생 레벨, 즉 게인 계수를 결정한다.

예를 들어 도 17에 나타낸 예에서는, 콘텐츠음의 재생 레벨이 항시 20㏈로 되도록 콘텐츠음용 게인 계수가 결정된다. 또한 마스킹음에 대해서는, 마스킹음의 현시점에서의 재생 레벨과, SN비에 대응하는 증감값에 대하여 정해지는 재생 레벨에 대응하는 게인 계수로 결정된다.

이와 같이 SN비, 즉 콘텐츠음과, 암소음 및 마스킹음의 혼합음의 음압의 관계에 따라 마스킹음의 재생 레벨을 변동시킴으로써, 보다 적절한 재생 레벨로 마스킹음을 재생하여 확실히 누출음을 마스킹할 수 있다.

이상과 같은 SN비에 기초하는 마스킹음의 재생 레벨의 제어는, 암소음 레벨, 보다 상세하게는 암소음과 마스킹음의 레벨과 콘텐츠음의 재생 레벨의 차에 따라 마스킹음의 재생 레벨을 증감시키는 제어라고 할 수 있다.

또한 여기서는, SN비와 파라미터 테이블을 이용하여 마스킹음 파라미터나 마스킹음의 재생 레벨을 결정하는 예에 대하여 설명하였지만, 미리 기계 학습에 의하여 생성된 뉴럴 네트워크 등의 예측기가 이용되도록 해도 된다.

그 외에, 수록음의 해석에 의하여 암소음의 레벨이 얻어지는 경우, 암소음 해석부(132)가 주파수 대역별로 콘텐츠음과 암소음의 레벨을 비교하고, 그 비교 결과에 따라 재생 레벨 조정부(23)가 주파수 대역별로 마스킹음의 재생 레벨을 결정해도 된다. 이 경우, 주파수 대역별로 콘텐츠음이 암소음을 초과하여 누출되는 레벨을 추정할 수 있으므로, 보다 확실히 누출음을 청각 특성 상에서 마스킹할 수 있게 된다.

<제5 실시 형태>

<콘텐츠 재생 시스템의 구성예>

그런데, 예를 들어 상술한 제4 실시 형태나, 제4 실시 형태의 변형예 1에서는, 무음 구간으로 되는 타이밍의 수록음으로부터 암소음 레벨을 산출하거나, 콘텐츠음이 혼입된 수록음을 해석에 이용하거나 하고 있었다.

그러나, 예를 들어 콘텐츠가 음악인 경우 등, 콘텐츠음이 지속되고, 무음 구간이 없거나 또는 무음 구간이 적은 경우에는, 암소음만을 수록음으로서 취득하는 것은 곤란하다. 또한 마이크로폰(121)을 분할 영역 사이의 위치에 설치할 수 없을 경우도 상정된다.

그래서 콘텐츠음도 포함하는 수록음에 대하여 에코 캔슬을 행함으로써, 콘텐츠음이 포함되어 있지 않은 수록음, 즉 암소음만을 취득할 수 있도록 해도 된다.

그와 같은 경우, 콘텐츠 재생 시스템은, 예를 들어 도 18에 도시한 바와 같이 구성된다. 또한 도 18에 있어서, 도 14에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있으며, 그 설명은 적절히 생략한다.

도 18에 도시하는 콘텐츠 재생 시스템은 마이크로폰(121), 신호 처리 장치(11) 및 스피커 어레이(12)를 갖고 있다.

또한 도 18에 도시하는 신호 처리 장치(11)의 구성은, 도 14에 도시한 신호 처리 장치(11)의 구성에 더해, 새로이 에코 캔슬부(161)가 마련된 구성으로 되어 있으며, 그 외의 점에서는 도 14의 신호 처리 장치(11)와 동일한 구성으로 되어 있다.

도 18에 도시하는 신호 처리 장치(11)에서는 AD 변환부(131)와 암소음 해석부(132) 사이에 에코 캔슬부(161)가 마련되어 있다.

에코 캔슬부(161)는, 공급된 콘텐츠음 데이터에 기초하여, AD 변환부(131)로부터 공급된 수록음에 대하여 에코 캔슬을 행하고, 에코 캔슬 후의 수록음을 암소음 해석부(132)에 공급한다.

에코 캔슬부(161)에서는, 에코 캔슬 필터에 의하여 수록음에 대하여 필터링 처리를 행함으로써, 수록음으로부터 콘텐츠음을 캔슬하는 에코 캔슬이 실현된다.

이때, 에코 캔슬부(161)는, 마이크로폰(121)에서 수음된 수록음과 콘텐츠음을 입력으로 하고, 수록음으로부터 콘텐츠음을 캔슬(소거)하여 암소음만을 출력하도록 내부의 에코 캔슬 필터를 갱신한다.

에코 캔슬 필터의 갱신 알고리즘은, 예를 들어 일반적인 LMS(Least Mean Square)나 NLMS(Normalized LMS) 등으로 할 수 있다.

암소음 해석부(132)는, 에코 캔슬부(161)로부터 공급된 수록음의 레벨 등의 해석을 행하고, 그 해석 결과를 마스킹음 생성부(21) 및 재생 레벨 조정부(23)에 공급한다.

마스킹음 생성부(21)는, 암소음 해석부(132)로부터 공급된 해석 결과에 기초하여 마스킹음을 생성하여 파면 합성 필터부(51)에 공급한다. 예를 들어 마스킹음 생성부(21)에서는, 도 15에 나타낸 파라미터 테이블을 이용하거나, 미리 학습에 의하여 얻어진 예측기를 이용하거나 하여 마스킹음을 생성한다.

예를 들어 재생 레벨 조정부(23)는, 암소음 해석부(132)로부터 공급된 해석 결과로서의 암소음 레벨과, 미리 유지하고 있는, 도 15에 나타낸 파라미터 테이블에 기초하여, 콘텐츠음의 재생 레벨 및 마스킹음의 재생 레벨을 결정한다.

<콘텐츠 재생 처리의 설명>

이상과 같은 도 18에 도시한 콘텐츠 재생 시스템에서는, 도 19에 도시하는 콘텐츠 재생 처리가 행해진다. 즉, 이하, 도 19의 흐름도를 참조하여, 도 18에 도시한 콘텐츠 재생 시스템에 의한 콘텐츠 재생 처리에 대하여 설명한다.

스텝 S131에 있어서 에코 캔슬부(161)는, 공급된 콘텐츠음 데이터에 기초하여, AD 변환부(131)로부터 공급된 수록음에 대하여 에코 캔슬을 행하고, 그 결과 얻어진 에코 캔슬 후의 수록음을 암소음 해석부(132)에 공급한다.

스텝 S131에서는, 임의의 타이밍에 마이크로폰(121)에 의하여 수음된 수록음에 대하여 에코 캔슬이 행해진다. 이것에 의하여 수록음으로부터 콘텐츠음이 캔슬되어 암소음이 취득(추출)된다.

이와 같이 하여 암소음이 얻어지면, 그 후 스텝 S132 내지 스텝 S139의 처리가 행해져서 콘텐츠 재생 처리는 종료되는데, 이들 처리는 도 16의 스텝 S101 내지 스텝 S108의 처리와 마찬가지이므로 그 설명은 생략한다.

이상과 같이 하여 콘텐츠 재생 시스템은, 에코 캔슬을 행함으로써 암소음을 취득하고, 암소음의 해석 결과에 기초하여 마스킹음을 생성함과 함께, 콘텐츠음이나 마스킹음의 재생 레벨을 조정한다. 또한 콘텐츠 재생 시스템은, 적절히 레벨 조정이 행해진 콘텐츠음과 마스킹음을 파면 합성에 의하여 재생한다. 이와 같이 함으로써 간단히 누출음이 들리기 어렵게 할 수 있다.

<그 외의 변형예>

<콘텐츠 재생 시스템의 구성예>

또한 이상에 있어서 설명한 제1 실시 형태 내지 제5 실시 형태에 있어서는, 콘텐츠음과 마스킹음이 하나의 스피커 어레이(12)에 의하여 재생되는 예에 대하여 설명하였다. 그러나 마스킹음과 콘텐츠음은 서로 다른 스피커나 스피커 어레이에서 재생되도록 해도 되고, 마스킹음만을 재생하는 스피커나 스피커 어레이가 마련되도록 해도 된다.

예를 들어 도 3에 도시한 예에 있어서, 스피커 어레이(12)에 더해, 마스킹음만을 재생하기 위한 스피커를 새로이 마련한 경우, 콘텐츠 재생 시스템은, 도 20에 도시한 바와 같이 구성된다. 또한 도 20에 있어서, 도 3에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있으며, 그 설명은 적절히 생략한다.

도 20에 도시하는 콘텐츠 재생 시스템은 신호 처리 장치(11), 스피커 어레이(12) 및 스피커(191)를 갖고 있다.

이 콘텐츠 재생 시스템은, 도 3에 도시한 콘텐츠 재생 시스템의 구성에 더해, 새로이 스피커(191)가 마련된 구성으로 되어 있다.

또한 도 20에 도시하는 신호 처리 장치(11)의 구성은, 도 3에 도시한 신호 처리 장치(11)의 구성에 더해, 새로이 LPF(Low Pass Filter)(201) 및 DA 변환부(202)가 마련된 구성으로 되어 있으며, 그 외의 점에서는 도 3의 신호 처리 장치(11)와 동일한 구성으로 되어 있다.

도 20에 도시하는 신호 처리 장치(11)에서는, 증폭부(24)로부터 출력된 마스킹음은 가산부(26)뿐 아니라 LPF(201)에도 공급된다.

LPF(201)는 LPF(저역 통과 필터)이며, 증폭부(24)로부터 공급된 마스킹음에 대하여 저역 통과 필터에 의한 필터링 처리를 행함으로써 마스킹음의 저역 성분만을 추출하여 DA 변환부(202)에 공급한다.

DA 변환부(202)는, LPF(201)로부터 공급된 마스킹음, 보다 상세하게는 마스킹음의 저역 성분에 대하여 DA 변환을 행하고, 그 결과 얻어진 아날로그 신호인 마스킹음을 스피커(191)에 공급하여 재생시킨다. 이 경우, DA 변환부(202)는, 마스킹음을 스피커(191)로부터 출력시키는 출력부로서 기능한다.

스피커(191)는, 예를 들어 스피커 어레이(12)를 구성하는 스피커와 비교하여 직경이 큰 저역 재생용 스피커 등을 포함하며, DA 변환부(202)로부터 공급된 마스킹음을 출력(재생)한다.

특히 이 예에서는, 스피커 어레이(12)를 구성하는 스피커의 직경은 스피커(191)의 직경보다도 작게 되어 있어서, 스피커 어레이(12)에서는 마스킹음의 저역 성분을 충분한 음압으로 재생하는 것이 곤란하다. 그래서 콘텐츠 재생 시스템에서는, 스피커 어레이(12)에 의하여 마스킹음의 중고역 성분을 재생하고 스피커(191)에서 마스킹음의 저역 성분을 재생하도록 되어 있다.

또한 스피커 어레이(12)에서는, 마스킹음의 재생은 행하지 않고 스피커(191)에서만 마스킹음을 재생하도록 해도 물론 된다. 이와 같이 마스킹음의 적어도 저역 성분을, 콘텐츠음의 재생용의 스피커 어레이(12)와는 상이한 다른 스피커(191)로 재생함으로써, 마스킹음을, 원하는 주파수 특성으로 재생할 수 있다.

이상과 같이 제1 실시 형태 내지 그 외의 변형예에 있어서 설명한 본 기술에 따르면, 적절한 재생 레벨의 마스킹음을 재생함으로써 간단히 누출음이 들리기 어렵게 할 수 있다.

게다가 본 기술에서는, 각 분할 영역에 있어서, 다른 분할 영역으로부터의 누설음이 들리기 어려워지므로 콘텐츠음의 청감 상의 분리도를 향상시킬 수 있다. 이것에 의하여 콘텐츠의 내용, 즉 콘텐츠에 의하여 제공되는 정보를 보다 취득하기 쉽게 할 수 있다.

일반적으로 사람의 청각은, 작은 소리이더라도 그것이 음성이나 음악이면 민감하게 반응한다. 그 때문에, 누출음이 그와 같은 음성이나 음악인 경우에는, 분할 영역 내에 있는 수청자나 분할 영역 근방에 있는 사람에게는 의식하지 않더라도 누출음이 들려 버려 불쾌하게 느껴 버린다. 그래서 본 기술에서는, 그와 같은 누출음을 마스킹함으로써 청각이, 누출음으로 된 콘텐츠음에 반응하는 일이 없게 되도록 하여, 사람이 불쾌하게 느끼는 일이 없도록 하였다.

또한 기존의 기술에서는, 누출음을 적게 하기 위하여 스피커 수를 많게 할 필요가 있었지만, 본 기술에서는 적은 스피커 수라도 누출음이 들리기 어렵게 할 수 있으므로, 스피커 수를 적게 하여 비용을 삭감할 수 있다.

또한 본 기술에서는, 기존의 기술과 같이 소리를 취소하는 제어점에 마이크로폰을 설치할 필요가 없고, 또한 외부 센서로서 마이크로폰을 이용하는 경우에도 마이크로폰수는 적어도 된다. 따라서 콘텐츠 재생 시스템의 운용 장소의 레이아웃에 자유도를 갖게 할 수 있을 뿐 아니라 마이크로폰 등의 기기의 비용도 삭감할 수 있다.

그 외에 본 기술에서는, 콘텐츠음 등을 재생하는 스피커의 제조 변동이나 경년 열화, 재생 환경에 있어서의 소리의 반사 및 흡음에 의하여 스피커의 음향 빔의 방사 특성에 어긋남을 생기게 한 경우에도, 그 어긋남에 의하여 생기는 영향을, 마스킹음을 재생함으로써 억제(커버)할 수 있다. 따라서 콘텐츠 재생 시스템의 메인터넌스를 위한 시간이나 비용을 삭감할 수 있다.

<컴퓨터의 구성예>

그런데 상술한 일련의 처리는 하드웨어에 의하여 실행할 수도 있고 소프트웨어에 의하여 실행할 수도 있다. 일련의 처리를 소프트웨어에 의하여 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써 각종 기능을 실행하는 것이 가능한, 예를 들어 범용 퍼스널 컴퓨터 등이 포함된다.

도 21은, 상술한 일련의 처리를 프로그램에 의하여 실행하는 컴퓨터의 하드웨어의 구성예를 도시하는 블록도이다.

컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은 버스(504)에 의하여 상호 접속되어 있다.

버스(504)에는 또한, 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.

입력부(506)는 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는 디스플레이, 스피커 어레이 등을 포함한다. 기록부(508)는 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(509)는 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기 디스크, 광 디스크, 광 자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.

이상과 같이 구성되는 컴퓨터에서는 CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을 입출력 인터페이스(505) 및 버스(504)를 통하여 RAM(503)에 로드하여 실행함으로써 상술한 일련의 처리가 행해진다.

컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은 유선 또는 무선 전송 매체를 통하여 제공할 수 있다.

컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써 입출력 인터페이스(505)을 통하여 기록부(508)에 인스톨할 수 있다. 또한 프로그램은, 유선 또는 무선 전송 매체를 통하여 통신부(509)에서 수신하여 기록부(508)에 인스톨할 수 있다. 그 외에, 프로그램은 ROM(502)이나 기록부(508)에 미리 인스톨해 둘 수 있다.

또한 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.

또한 본 기술의 실시 형태는 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.

예를 들어 본 기술은, 하나의 기능을 네트워크를 통하여 복수의 장치에서 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.

또한 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 것 외에 복수의 장치에서 분담하여 실행할 수 있다.

또한 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 것 외에 복수의 장치에서 분담하여 실행할 수 있다.

또한 본 기술은, 이하의 구성으로 하는 것도 가능하다.

(1)

스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 상기 제1 영역과 상기 제2 영역 사이의 영역에 있어서 들리는 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음을 생성하는 마스킹음 생성부를 구비하는

신호 처리 장치.

(2)

상기 스피커 어레이로부터 상기 마스킹음을 출력시키는 출력부를 더 구비하는,

(1)에 기재된 신호 처리 장치.

(3)

상기 스피커 어레이와는 다른 스피커로부터 상기 마스킹음을 출력시키는 출력부를 더 구비하는,

(1) 또는 (2)에 기재된 신호 처리 장치.

(4)

상기 마스킹음의 재생 레벨은 암소음의 레벨보다도 큰,

(1) 내지 (3) 중 어느 한 항에 기재된 신호 처리 장치.

(5)

상기 마스킹음 생성부에 의하여 생성된 상기 마스킹음에 대하여 필터링 처리를 행함으로써, 파면 합성에 의하여 상기 제1 영역과 상기 제2 영역 사이의 마스킹 영역에서 상기 마스킹음을 재생하기 위한 복수의 각 채널의 소리를 생성하는 파면 합성 필터부를 더 구비하는,

(1) 내지 (4) 중 어느 한 항에 기재된 신호 처리 장치.

(6)

상기 마스킹음 생성부는 외부 정보에 기초하여 상기 마스킹음을 생성하는,

(1) 내지 (5) 중 어느 한 항에 기재된 신호 처리 장치.

(7)

상기 외부 정보는, 시간대, 요일, 방문자 수 및 천후 중의 적어도 어느 하나를 나타내는 정보인,

(6)에 기재된 신호 처리 장치.

(8)

적어도 상기 제1 영역 및 상기 제2 영역의 주위의 영역을 피사체로서 포함하는 화상으로부터 사람을 검출하는 검출부를 더 구비하고,

상기 마스킹음 생성부는, 상기 검출부에 의한 사람의 검출 결과에 기초하여 상기 마스킹음을 생성하는,

(1) 내지 (5) 중 어느 한 항에 기재된 신호 처리 장치.

(9)

주위의 암소음의 특성을 해석하는 해석부를 더 구비하고,

상기 마스킹음 생성부는, 상기 특성의 해석 결과에 기초하여 상기 마스킹음을 생성하는,

(1) 내지 (5) 중 어느 한 항에 기재된 신호 처리 장치.

(10)

상기 마스킹음 생성부는, 상기 특성의 해석 결과에 따른 주파수 특성의 상기 마스킹음을 생성하는,

(9)에 기재된 신호 처리 장치.

(11)

상기 특성의 해석 결과에 기초하여 상기 마스킹음의 재생 레벨을 조정시키는 재생 레벨 조정부를 더 구비하는,

(9) 또는 (10)에 기재된 신호 처리 장치.

(12)

수음된 주위의 소리에 대하여, 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리에 기초하는 에코 캔슬을 행함으로써, 상기 암소음을 추출하는 에코 캔슬부를 더 구비하는,

(9) 내지 (11) 중 어느 한 항에 기재된 신호 처리 장치.

(13)

상기 마스킹음 생성부는, 상기 제1 콘텐츠 및 상기 제2 콘텐츠의 주파수 특성에 따라 상기 마스킹음의 주파수 특성을 변화시키는,

(1) 내지 (12) 중 어느 한 항에 기재된 신호 처리 장치.

(14)

상기 제1 콘텐츠 및 상기 제2 콘텐츠의 재생 레벨에 따라 상기 마스킹음의 재생 레벨을 변화시키는 재생 레벨 조정부를 더 구비하는,

(1) 내지 (13) 중 어느 한 항에 기재된 신호 처리 장치.

(15)

신호 처리 장치가,

스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 상기 제1 영역과 상기 제2 영역 사이의 영역에 있어서 들리는 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음을 생성하는

신호 처리 방법.

(16)

스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

11: 신호 처리 장치
12: 스피커 어레이
21: 마스킹음 생성부
22: 파면 합성 필터부
23: 재생 레벨 조정부
24: 증폭부
25: 증폭부
51: 파면 합성 필터부
91: 인식부
121: 마이크로폰
132: 암소음 해석부
161: 에코 캔슬부

Claims

스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 상기 제1 영역과 상기 제2 영역 사이의 영역에 있어서 들리는 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음을 생성하는 마스킹음 생성부를 구비하는
신호 처리 장치.
제1항에 있어서,
상기 스피커 어레이로부터 상기 마스킹음을 출력시키는 출력부를 더 구비하는
신호 처리 장치.
제1항에 있어서,
상기 스피커 어레이와는 다른 스피커로부터 상기 마스킹음을 출력시키는 출력부를 더 구비하는
신호 처리 장치.
제1항에 있어서,
상기 마스킹음의 재생 레벨은 암소음의 레벨보다도 큰
신호 처리 장치.
제1항에 있어서,
상기 마스킹음 생성부에 의하여 생성된 상기 마스킹음에 대하여 필터링 처리를 행함으로써, 파면 합성에 의하여 상기 제1 영역과 상기 제2 영역 사이의 마스킹 영역에서 상기 마스킹음을 재생하기 위한 복수의 각 채널의 소리를 생성하는 파면 합성 필터부를 더 구비하는
신호 처리 장치.
제1항에 있어서,
상기 마스킹음 생성부는 외부 정보에 기초하여 상기 마스킹음을 생성하는
신호 처리 장치.
제6항에 있어서,
상기 외부 정보는, 시간대, 요일, 방문자 수 및 천후 중의 적어도 어느 하나를 나타내는 정보인
신호 처리 장치.
제1항에 있어서,
적어도 상기 제1 영역 및 상기 제2 영역의 주위의 영역을 피사체로서 포함하는 화상으로부터 사람을 검출하는 검출부를 더 구비하고,
상기 마스킹음 생성부는, 상기 검출부에 의한 사람의 검출 결과에 기초하여 상기 마스킹음을 생성하는
신호 처리 장치.
제1항에 있어서,
주위의 암소음의 특성을 해석하는 해석부를 더 구비하고,
상기 마스킹음 생성부는, 상기 특성의 해석 결과에 기초하여 상기 마스킹음을 생성하는
신호 처리 장치.
제9항에 있어서,
상기 마스킹음 생성부는, 상기 특성의 해석 결과에 따른 주파수 특성의 상기 마스킹음을 생성하는
신호 처리 장치.
제9항에 있어서,
상기 특성의 해석 결과에 기초하여 상기 마스킹음의 재생 레벨을 조정시키는 재생 레벨 조정부를 더 구비하는
신호 처리 장치.
제9항에 있어서,
수음된 주위의 소리에 대하여, 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리에 기초하는 에코 캔슬을 행함으로써, 상기 암소음을 추출하는 에코 캔슬부를 더 구비하는
신호 처리 장치.
제1항에 있어서,
상기 마스킹음 생성부는, 상기 제1 콘텐츠 및 상기 제2 콘텐츠의 주파수 특성에 따라 상기 마스킹음의 주파수 특성을 변화시키는
신호 처리 장치.
제1항에 있어서,
상기 제1 콘텐츠 및 상기 제2 콘텐츠의 재생 레벨에 따라 상기 마스킹음의 재생 레벨을 변화시키는 재생 레벨 조정부를 더 구비하는
신호 처리 장치.
신호 처리 장치가,
스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 상기 제1 영역과 상기 제2 영역 사이의 영역에 있어서 들리는 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음을 생성하는
신호 처리 방법.
스피커 어레이를 이용한 파면 합성에 의하여 제1 영역에서 제1 콘텐츠를 재생하고 제2 영역에서 제2 콘텐츠를 재생하는 경우에, 상기 제1 영역과 상기 제2 영역 사이의 영역에 있어서 들리는 상기 제1 콘텐츠의 소리 및 상기 제2 콘텐츠의 소리를 마스킹하기 위한 마스킹음을 생성하는
스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.