KR102548644B1

KR102548644B1 - 신호 처리 장치 및 방법, 그리고 프로그램

Info

Publication number: KR102548644B1
Application number: KR1020207011318A
Authority: KR
Inventors: 미노루 츠지; 도루 치넨; 미츠유키 하타나카
Original assignee: 소니그룹주식회사
Priority date: 2017-11-14
Filing date: 2018-10-31
Publication date: 2023-06-28
Also published as: CN113891233A; US20210176581A1; EP3713255A4; JP7192786B2; WO2019098022A1; US20230336935A1; EP3713255A1; JPWO2019098022A1; CN111316671A; CN113891233B; US11722832B2; CN111316671B; RU2020114250A; RU2020114250A3; KR20200087130A

Abstract

본 기술은, 음상의 정위 위치를 용이하게 결정할 수 있도록 하는 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다. 신호 처리 장치는, 청취 위치에서 본 청취 공간이 표시되어 있는 상태에서 지정된 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보를 취득하는 취득부와, 정위 위치에 관한 정보에 기초하여 비트 스트림을 생성하는 생성부를 구비한다. 본 기술은 신호 처리 장치에 적용할 수 있다.

Description

신호 처리 장치 및 방법, 그리고 프로그램

본 기술은, 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것으로, 특히 음상의 정위 위치를 용이하게 결정할 수 있도록 한 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.

근년, 오브젝트 베이스의 오디오 기술이 주목받고 있다.

오브젝트 베이스 오디오에서는, 오디오 오브젝트에 대한 파형 신호와, 소정의 기준이 되는 청취 위치로부터의 상대 위치에 의해 표시되는 오디오 오브젝트의 정위 정보를 나타내는 메타 정보에 의해 오브젝트 오디오의 데이터가 구성되고 있다.

그리고 오디오 오브젝트의 파형 신호가, 메타 정보에 기초하여 예를 들어 VBAP(Vector Based Amplitude Panning)에 의해 원하는 채널 수의 신호로 렌더링되어, 재생된다(예를 들어, 비특허문헌 1 및 비특허문헌 2 참조).

오브젝트 베이스 오디오에서는, 오디오 콘텐츠의 제작에 있어서, 오디오 오브젝트를 3차원 공간 상의 다양한 방향으로 배치하는 것이 가능하다.

예를 들어 Dolby Atoms Panner plus-in for Pro Tools(예를 들어 비특허문헌 3 참조)에서는, 3D 그래픽의 유저 인터페이스 상에서 오디오 오브젝트의 위치를 지정하는 것이 가능하다. 이 기술에서는, 유저 인터페이스 상에 표시된 가상 공간의 화상 상의 위치를 오디오 오브젝트의 위치로서 지정함으로써, 오디오 오브젝트의 소리의 음상을 3차원 공간 상의 임의의 방향으로 정위시킬 수 있다.

한편, 종래 2채널 스테레오에 대한 음상의 정위는, 패닝이라고 불리는 방법에 의해 조정된다. 예를 들어 소정의 오디오 트랙에 대한, 좌우 2채널로의 안분 비율을 UI(User Interface)에 따라서 변경함으로써 음상을 좌우 방향 중 어느 위치에 정위시키느냐가 결정된다.

ISO/IEC 23008-3 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3:3D audio Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997 Dolby Laboratories, Inc., "Authoring for Dolby Atmos(R) Cinema Sound Manual", [online], [2017년 10월 31일 검색], 인터넷<https://www.dolby.com/us/en/technologies/dolby-atmos/authoring-for-dolby-atmos-cinema-sound-manual.pdf >

그러나 상술한 기술에서는 음상의 정위 위치를 용이하게 결정하는 것이 곤란하였다.

즉, 오브젝트 베이스 오디오와 2채널 스테레오의 어느 경우에 있어서도, 오디오 콘텐츠의 제작자는 콘텐츠의 소리의 실제의 청취 위치에 대한 음상의 정위 위치를 직감적으로 지정할 수 없었다.

예를 들어 dolby Atoms Panner plus-in for Pro Tools에서는, 3차원 공간 상의 임의의 위치를 음상의 정위 위치로서 지정할 수는 있지만, 그 지정된 위치가 실제의 청취 위치에서 보았을 때에 어느 위치에 있는지를 알 수 없다.

마찬가지로, 2채널 스테레오에 있어서의 경우에 있어서도 안분 비율을 지정할 때, 그 안분 비율과 음상의 정위 위치의 관계를 직감적으로 파악하는 것은 곤란하다.

그 때문에, 제작자는 음상의 정위 위치의 조정과, 그 정위 위치에서의 소리의 시청을 반복하여 행하여 최종적인 정위 위치를 결정하게 되고, 그러한 정위 위치의 조정 횟수를 적게 하려면 경험에 기초하는 감각이 필요했다.

특히, 예를 들어 스크린 상에 비치는 인물의 입가의 위치에, 그 인물의 목소리를 정위시켜, 마치 영상의 입으로부터 목소리가 나오고 있는 것처럼 하는 등, 영상에 대해 소리의 정위 위치를 맞추고자 하는 경우에, 그 정위 위치를 정확하면서 직감적으로 유저 인터페이스 상에서 지정하는 것은 곤란했다.

본 기술은, 이러한 상황에 비추어 이루어진 것이며, 음상의 정위 위치를 용이하게 결정할 수 있도록 하는 것이다.

본 기술의 일 측면의 신호 처리 장치는, 청취 위치에서 본 청취 공간이 표시되어 있는 상태에서 지정된 상기 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보를 취득하는 취득부와, 상기 정위 위치에 관한 정보에 기초하여 비트 스트림을 생성하는 생성부를 구비한다.

본 기술의 일 측면의 신호 처리 방법 또는 프로그램은, 청취 위치에서 본 청취 공간이 표시되어 있는 상태에서 지정된 상기 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보를 취득하고, 상기 정위 위치에 관한 정보에 기초하여 비트 스트림을 생성하는 스텝을 포함한다.

본 기술의 일 측면에 있어서는, 청취 위치에서 본 청취 공간이 표시되어 있는 상태에서 지정된 상기 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보가 취득되고, 상기 정위 위치에 관한 정보에 기초하여 비트 스트림이 생성된다.

본 기술의 일 측면에 따르면, 음상의 정위 위치를 용이하게 결정할 수 있다.

또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 내에 기재된 어느 효과여도 된다.

도 1은 편집 화상과 음상 정위 위치의 결정에 대해 설명하는 도면이다.
도 2는 게인값의 산출에 대해 설명하는 도면이다.
도 3은 신호 처리 장치의 구성예를 나타내는 도면이다.
도 4는 정위 위치 결정 처리를 설명하는 흐름도다.
도 5는 설정 파라미터의 예를 나타내는 도면이다.
도 6은 POV 화상과 부감 화상의 표시예를 나타내는 도면이다.
도 7은 정위 위치 마크의 배치 위치의 조정에 대해 설명하는 도면이다.
도 8은 정위 위치 마크의 배치 위치의 조정에 대해 설명하는 도면이다.
도 9는 스피커의 표시예를 나타내는 도면이다.
도 10은 위치 정보의 보간에 대해 설명하는 도면이다.
도 11은 정위 위치 결정 처리를 설명하는 흐름도다.
도 12는 컴퓨터의 구성예를 나타내는 도면이다.

이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대해 설명한다.

<제1 실시 형태>

<본 기술에 대해>

본 기술은, 청취 위치로부터의 시점 샷(Point of View Shot)(이하, 단순히 POV라고 칭함)에 의해 콘텐츠를 재생하는 청취 공간을 시뮬레이트한 GUI(Graphical User Interface) 상에서 음상의 정위 위치를 지정함으로써, 음상의 정위 위치를 용이하게 결정할 수 있도록 하는 것이다.

이에 의해, 예를 들어 오디오 콘텐츠의 제작 툴에 있어서, 소리의 정위 위치를 용이하게 결정할 수 있도록 하는 유저 인터페이스를 실현할 수 있다. 특히 오브젝트 베이스 오디오에 있어서의 경우에 있어서는, 오디오 오브젝트의 위치 정보를 용이하게 결정할 수 있는 유저 인터페이스를 실현할 수 있게 된다.

먼저, 콘텐츠가 정지 화상 또는 동화상인 영상과, 그 영상에 부수되는 좌우 2채널의 소리로 이루어지는 콘텐츠인 경우에 대해 설명한다.

이 경우, 예를 들어 콘텐츠 제작에 있어서, 영상에 맞춘 소리의 정위를, 시각적이면서 직감적인 유저 인터페이스에 의해 용이하게 결정할 수 있다.

여기서, 구체적인 예로서, 콘텐츠의 오디오 데이터, 즉 오디오 트랙으로서 드럼, 일렉트릭 기타, 및 두 어쿠스틱 기타의 합계 넷의 각 악기의 오디오 데이터 트랙이 있다고 하자. 또한, 콘텐츠의 영상으로서, 그 악기들과, 악기의 연주자가 피사체로서 나오는 것이 있다고 하자.

또한, 좌측 채널의 스피커가, 청취자에 의한 콘텐츠의 소리의 청취 위치에서 보아 수평 각도가 30도인 방향에 있고, 우측 채널의 스피커가 청취 위치에서 보아 수평 각도가 -30도인 방향에 있다고 하자.

또한, 여기서 말하는 수평 각도란, 청취 위치에 있는 청취자로부터 본 수평 방향, 즉 좌우 방향의 위치를 나타내는 각도이다. 예를 들어 수평 방향에 있어서의, 청취자의 바로 정면 방향의 위치를 나타내는 수평 각도는 0도이다. 또한, 청취자로부터 보아 좌측 방향의 위치를 나타내는 수평 각도는 양의 각도로 하고, 청취자로부터 보아 우측 방향의 위치를 나타내는 수평 각도는 음의 각도로 한다고 하자.

이제, 좌우 채널의 출력을 위한 콘텐츠의 소리의 음상의 정위 위치의 결정에 대해 고려한다.

이러한 경우, 본 기술에서는, 콘텐츠 제작 툴의 표시 화면 상에, 예를 들어 도 1에 나타내는 편집 화상 P11이 표시된다.

이 편집 화상 P11은, 청취자가 콘텐츠의 소리를 청취하면서 보는 화상(영상)으로 되어 있고, 예를 들어 편집 화상 P11로서 콘텐츠의 영상을 포함하는 화상이 표시된다.

이 예에서는, 편집 화상 P11에는 콘텐츠의 영상 상에 악기의 연주자가 피사체로서 표시되어 있다.

즉, 여기서는 편집 화상 P11에는, 드럼의 연주자 PL11과, 일렉트릭 기타의 연주자 PL12와, 첫 번째 어쿠스틱 기타의 연주자 PL13과, 두 번째 어쿠스틱 기타의 연주자 PL14가 표시되어 있다.

또한, 편집 화상 P11에는, 그들 연주자 PL11 내지 연주자 PL14에 의한 연주에 사용되고 있는 드럼이나 일렉트릭 기타, 어쿠스틱 기타와 같은 악기도 표시되어 있다. 이 악기들은, 오디오 트랙에 기초하는 소리의 음원이 되는 오디오 오브젝트라고 할 수 있다.

또한, 이하에서는, 두 어쿠스틱 기타를 구별할 때에는, 특히 연주자 PL13이 사용하고 있는 것을 어쿠스틱 기타 1이라고도 칭하고, 연주자 PL14가 사용하고 있는 것을 어쿠스틱 기타 2라고도 칭하기로 한다.

이러한 편집 화상 P11은 유저 인터페이스, 즉 입력 인터페이스로서도 기능하고 있고, 편집 화상 P11 상에는 각 오디오 트랙의 소리의 음상의 정위 위치를 지정하기 위한 정위 위치 마크 MK11 내지 정위 위치 마크 MK14도 표시되어 있다.

여기서는, 정위 위치 마크 MK11 내지 정위 위치 마크 MK14 각각은, 드럼, 일렉트릭 기타, 어쿠스틱 기타 1, 및 어쿠스틱 기타 2의 오디오 트랙의 소리의 음상 정위 위치 각각을 나타내고 있다.

특히, 정위 위치의 조정 대상으로서 선택되어 있는 일렉트릭 기타의 오디오 트랙의 정위 위치 마크 MK12는 하이라이트 표시되어 있고, 다른 선택 상태로 되어 있지 않은 오디오 트랙의 정위 위치 마크와는 다른 표시 형식으로 표시되어 있다.

콘텐츠 제작자는, 선택된 오디오 트랙의 정위 위치 마크 MK12를 편집 화상 P11 상의 임의의 위치로 이동시킴으로써, 그 정위 위치 마크 MK12의 위치에 오디오 트랙의 소리의 음상이 정위되도록 할 수 있다. 바꾸어 말하면, 콘텐츠의 영상 상, 즉 청취 공간 상의 임의의 위치를 오디오 트랙의 소리의 음상의 정위 위치로서 지정할 수 있다.

이 예에서는, 연주자 PL11 내지 연주자 PL14의 악기의 위치에, 그 악기들에 대응하는 오디오 트랙의 소리의 정위 위치 마크 MK11 내지 정위 위치 마크 MK14가 배치되고, 각 악기의 소리의 음상이 연주자의 악기의 위치에 정위되도록 되어 있다.

콘텐츠 제작 툴에서는, 정위 위치 마크의 표시 위치의 지정에 의해, 각 오디오 트랙의 소리에 대한 정위 위치가 지정되면, 정위 위치 마크의 표시 위치에 기초하여, 오디오 트랙(오디오 데이터)에 대한 좌우 각 채널의 게인값이 산출된다.

즉, 편집 화상 P11 상에 있어서의 정위 위치 마크의 위치를 나타내는 좌표에 기초하여, 오디오 트랙의 좌우 채널로의 안분율이 결정되고, 그 결정 결과로부터 좌우 각 채널의 게인값이 구해진다. 또한, 여기서는, 좌우 2채널로의 안분이 행해지기 때문에, 편집 화상 P11 상에 있어서의 좌우 방향(수평 방향)만이 고려되고, 정위 위치 마크의 상하 방향의 위치에 대해서는 고려되지 않는다.

구체적으로는, 예를 들어 도 2에 나타내는 바와 같이 청취 위치에서 본 각 정위 위치 마크의 수평 방향의 위치를 나타내는 수평 각도에 기초하여 게인값이 구해진다. 또한, 도 2에 있어서 도 1에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고, 그 설명은 적절하게 생략한다. 또한, 도 2에서는, 도면을 보기 쉽게 하기 위해 정위 위치 마크의 도시는 생략되어 있다.

이 예에서는, 청취 위치 O의 정면의 위치가 편집 화상 P11, 즉 편집 화상 P11이 표시된 스크린의 중심 위치 O'으로 되어 있고, 그 스크린의 좌우 방향의 길이, 즉 편집 화상 P11의 좌우 방향의 영상 폭이 L로 되어 있다.

또한, 편집 화상 P11 상에 있어서의 연주자 PL11 내지 연주자 PL14의 위치, 즉 각 연주자에 의한 연주에 사용되는 악기의 위치가 위치 PJ1 내지 위치 PJ4로 되어 있다. 특히, 이 예에서는 각 연주자의 악기의 위치에 정위 위치 마크가 배치되어 있기 때문에, 정위 위치 마크 MK11 내지 정위 위치 마크 MK14의 위치는, 위치 PJ1 내지 위치 PJ4가 된다.

또한 편집 화상 P11이 표시된 스크린에 있어서의 도면에서, 좌측의 끝의 위치가 위치 PJ5로 되어 있고, 스크린에 있어서의 도면에서, 우측 끝의 위치가 위치 PJ6으로 되어 있다. 이들 위치 PJ5 및 위치 PJ6은, 좌우 스피커가 배치되는 위치이기도 하다.

도면에서, 좌우 방향에 있어서의 중심 위치 O'에서 본 위치 PJ1 내지 위치 PJ4의 각 위치를 나타내는 좌표를 X₁ 내지 X₄라고 한다. 특히 여기서는, 중심 위치 O'에서 보아 위치 PJ5의 방향이 양의 방향이고, 중심 위치 O'에서 보아 위치 PJ6의 방향이 음의 방향인 것으로 한다.

따라서, 예를 들어 중심 위치 O'으로부터 위치 PJ1까지의 거리가, 그 위치 PJ1을 나타내는 좌표 X₁이 된다.

또한, 청취 위치 O에서 본 위치 PJ1 내지 위치 PJ4의 수평 방향, 즉 도면에서, 좌우 방향의 위치를 나타내는 각도가 수평 각도 θ₁ 내지 수평 각도 θ₄인 것으로 한다.

예를 들어 수평 각도 θ₁은, 청취 위치 O 및 중심 위치 O'을 연결하는 직선과, 청취 위치 O 및 위치 PJ1을 연결하는 직선이 이루는 각도이다. 특히, 여기서는 청취 위치 O에서 보아 도면에서 좌측 방향이 수평 각도의 양의 각도의 방향이고, 청취 위치 O에서 보아 도면에서 우측 방향이 수평 각도의 음의 각도의 방향인 것으로 한다.

또한, 상술한 바와 같이 좌측 채널의 스피커의 위치를 나타내는 수평 각도가 30도이고, 우측 채널의 스피커의 위치를 나타내는 수평 각도가 -30도이기 때문에, 위치 PJ5의 수평 각도는 30도이고, 위치 PJ6의 수평 각도는 -30도이다.

좌우 채널의 스피커는 스크린의 좌우 끝의 위치에 배치되어 있기 때문에, 편집 화상 P11의 시야각, 즉 콘텐츠의 영상의 시야각도 ±30도가 된다.

이러한 경우, 각 오디오 트랙(오디오 데이터)의 안분율, 즉 좌우 각 채널의 게인값은, 청취 위치 O에서 보았을 때의 음상의 정위 위치의 수평 각도에 의해 정해진다.

예를 들어 드럼의 오디오 트랙에 대한 위치 PJ1을 나타내는 수평 각도 θ₁은, 중심 위치 O'에서 본 위치 PJ1을 나타내는 좌표 X₁과, 영상 폭 L로부터 다음 식 (1)에 나타내는 계산에 의해 구할 수 있다.

따라서, 수평 각도 θ₁에 의해 표시되는 위치 PJ1에 드럼의 오디오 데이터(오디오 트랙)에 기초하는 소리의 음상을 정위시키기 위한 좌우 채널의 게인값 GainL₁ 및 게인값 GainR₁은, 이하의 식 (2) 및 식 (3)에 의해 구할 수 있다. 또한, 게인값 GainL₁은 좌측 채널의 게인값이고, 게인값 GainR₁은 우측 채널의 게인값이다.

콘텐츠의 재생 시에는, 게인값 GainL₁이 드럼의 오디오 데이터에 승산되고, 그 결과 얻어진 오디오 데이터에 기초하여 좌측 채널의 스피커로부터 소리가 출력된다. 또한, 게인값 GainR₁이 드럼의 오디오 데이터에 승산되고, 그 결과 얻어진 오디오 데이터에 기초하여 우측 채널의 스피커로부터 소리가 출력된다.

그러면, 드럼의 소리의 음상이 위치 PJ1, 즉 콘텐츠의 영상에 있어서의 드럼(연주자 PL11)의 위치에 정위된다.

드럼의 오디오 트랙뿐만 아니라, 다른 일렉트릭 기타, 어쿠스틱 기타 1, 및 어쿠스틱 기타 2에 대해서도 상술한 식 (1) 내지 식 (3)과 마찬가지의 계산이 행해져, 좌우 각 채널의 게인값이 산출된다.

즉, 좌표 X₂와 영상 폭 L에 기초하여, 일렉트릭 기타의 오디오 데이터의 좌우 채널의 게인값 GainL₂ 및 게인값 GainR₂가 구해진다.

또한, 좌표 X₃과 영상 폭 L에 기초하여, 어쿠스틱 기타 1의 오디오 데이터의 좌우 채널의 게인값 GainL₃ 및 게인값 GainR₃이 구해지고, 좌표 X₄와 영상 폭 L에 기초하여, 어쿠스틱 기타 2의 오디오 데이터의 좌우 채널의 게인값 GainL₄ 및 게인값 GainR₄가 구해진다.

또한, 좌우 채널의 스피커가 스크린의 끝보다도 외측의 위치에 있음을 상정하고 있는 경우, 즉 좌우 스피커 사이의 거리 L_spk가 영상 폭 L보다도 큰 경우, 식 (1)에 있어서는 영상 폭 L을 거리 L_spk로 치환하여 계산을 행하면 된다.

이상과 같이 함으로써 좌우 2채널의 콘텐츠 제작에 있어서, 콘텐츠의 영상에 맞춘 소리의 음상 정위 위치를, 직감적인 유저 인터페이스에 의해 용이하게 결정할 수 있다.

<신호 처리 장치의 구성예>

다음으로, 이상에서 설명한 본 기술을 적용한 신호 처리 장치에 대해 설명한다.

도 3은, 본 기술을 적용한 신호 처리 장치의 일 실시 형태의 구성예를 나타내는 도면이다.

도 3에 나타내는 신호 처리 장치(11)는, 입력부(21), 기록부(22), 제어부(23), 표시부(24), 통신부(25), 및 스피커부(26)를 갖고 있다.

입력부(21)는, 스위치나 버튼, 마우스, 키보드, 표시부(24)에 중첩되어 마련된 터치 패널 등으로 이루어지고, 콘텐츠의 제작자인 유저의 입력 조작에 따른 신호를 제어부(23)에 공급한다.

기록부(22)는, 예를 들어 하드 디스크 등의 불휘발성 메모리로 이루어지고, 제어부(23)로부터 공급된 오디오 데이터 등을 기록하거나, 기록되어 있는 데이터를 제어부(23)에 공급하거나 한다. 또한, 기록부(22)는, 신호 처리 장치(11)에 대해 착탈 가능한 리무버블 기록 매체여도 된다.

제어부(23)는, 신호 처리 장치(11) 전체의 동작을 제어한다. 제어부(23)는, 정위 위치 결정부(41), 게인 산출부(42), 및 표시 제어부(43)를 갖고 있다.

정위 위치 결정부(41)는, 입력부(21)로부터 공급된 신호에 기초하여, 각 오디오 트랙, 즉 각 오디오 데이터의 소리의 음상의 정위 위치를 결정한다.

바꾸어 말하면, 정위 위치 결정부(41)는, 표시부(24)에 표시된 청취 공간 내에 있어서의 청취 위치에서 본 악기 등의 오디오 오브젝트의 소리의 음상의 정위 위치에 관한 정보를 취득하고, 그 정위 위치를 결정하는 취득부로서 기능한다고 할 수 있다.

여기서 음상의 정위 위치에 관한 정보란, 예를 들어 청취 위치에서 본 오디오 오브젝트의 소리의 음상의 정위 위치를 나타내는 위치 정보나, 그 위치 정보를 얻기 위한 정보 등이다.

게인 산출부(42)는, 정위 위치 결정부(41)에 의해 결정된 정위 위치에 기초하여, 오디오 오브젝트마다, 즉 오디오 트랙마다, 오디오 데이터에 대한 각 채널의 게인값을 산출한다. 표시 제어부(43)는, 표시부(24)를 제어하여, 표시부(24)에 있어서의 화상 등의 표시를 제어한다.

또한, 제어부(23)는, 정위 위치 결정부(41)에 의해 취득된 정위 위치에 관한 정보나, 게인 산출부(42)에 의해 산출된 게인값에 기초하여, 적어도 콘텐츠의 오디오 데이터를 포함하는 출력 비트 스트림을 생성하여 출력하는 생성부로서도 기능한다.

표시부(24)는, 예를 들어 액정 표시 패널 등으로 이루어지고, 표시 제어부(43)의 제어에 따라서 POV 화상 등의 각종 화상 등을 표시한다.

통신부(25)는, 인터넷 등의 유선 또는 무선의 통신망을 통해 외부의 장치와 통신한다. 예를 들어 통신부(25)는, 외부의 장치로부터 송신되어 온 데이터를 수신하여 제어부(23)에 공급하거나, 제어부(23)로부터 공급된 데이터를 외부의 장치로 송신하거나 한다.

스피커부(26)는, 예를 들어 소정의 채널 구성의 스피커 시스템의 각 채널의 스피커로 이루어지고, 제어부(23)로부터 공급된 오디오 데이터에 기초하여 콘텐츠의 소리를 재생(출력)한다.

<정위 위치 결정 처리의 설명>

계속해서, 신호 처리 장치(11)의 동작에 대해 설명한다.

즉, 이하, 도 4의 흐름도를 참조하여, 신호 처리 장치(11)에 의해 행해지는 정위 위치 결정 처리에 대해 설명한다.

스텝 S11에서 표시 제어부(43)는, 표시부(24)에 편집 화상을 표시시킨다.

예를 들어 콘텐츠 제작자에 의한 조작에 따라서, 입력부(21)로부터 제어부(23)에 대해 콘텐츠 제작 툴의 기동을 지시하는 신호가 공급되면, 제어부(23)는 콘텐츠 제작 툴을 기동시킨다. 이때 제어부(23)는, 콘텐츠 제작자에 의해 지정된 콘텐츠의 영상의 화상 데이터와, 그 영상에 부수되는 오디오 데이터를 필요에 따라서 기록부(22)로부터 판독한다.

그리고 표시 제어부(43)는, 콘텐츠 제작 툴의 기동에 따라서, 편집 화상을 포함하는 콘텐츠 제작 툴의 표시 화면(윈도우)을 표시시키기 위한 화상 데이터를 표시부(24)에 공급하여, 표시 화면을 표시시킨다. 여기서는 편집 화상은, 예를 들어 콘텐츠의 영상에 대해, 각 오디오 트랙에 기초하는 소리의 음상 정위 위치를 나타내는 정위 위치 마크가 중첩된 화상 등으로 된다.

표시부(24)는, 표시 제어부(43)로부터 공급된 화상 데이터에 기초하여, 콘텐츠 제작 툴의 표시 화면을 표시시킨다. 이에 의해, 예를 들어 표시부(24)에는, 콘텐츠 제작 툴의 표시 화면으로서 도 1에 나타낸 편집 화상 P11을 포함하는 화면이 표시된다.

편집 화상을 포함하는 콘텐츠 제작 툴의 표시 화면이 표시되면, 콘텐츠 제작자는 입력부(21)를 조작하여, 콘텐츠의 오디오 트랙(오디오 데이터) 중에서, 음상의 정위 위치의 조정을 행할 오디오 트랙을 선택한다. 그러면, 입력부(21)로부터 제어부(23)에는, 콘텐츠 제작자의 선택 조작에 따른 신호가 공급된다.

오디오 트랙의 선택은, 예를 들어 표시 화면에 편집 화상과는 별도로 표시된 오디오 트랙의 타임 라인 상 등에서, 원하는 재생 시각에 있어서의 원하는 오디오 트랙을 지정하도록 해도 되고, 표시되어 있는 정위 위치 마크를 직접 지정하도록 해도 된다.

스텝 S12에서, 정위 위치 결정부(41)는, 입력부(21)로부터 공급된 신호에 기초하여, 음상의 정위 위치의 조정을 행할 오디오 트랙을 선택한다.

정위 위치 결정부(41)에 의해 음상의 정위 위치의 조정 대상이 될 오디오 트랙이 선택되면, 표시 제어부(43)는, 그 선택 결과에 따라서 표시부(24)를 제어하고, 선택된 오디오 트랙에 대응하는 정위 위치 마크를, 다른 정위 위치 마크와는 다른 표시 형식으로 표시시킨다.

선택된 오디오 트랙에 대응하는 정위 위치 마크가 다른 정위 위치 마크와 다른 표시 형식으로 표시되면, 콘텐츠 제작자는 입력부(21)를 조작하여, 대상이 되는 정위 위치 마크를 임의의 위치로 이동시킴으로써, 음상의 정위 위치를 지정한다.

예를 들어 도 1에 나타낸 예에서는, 콘텐츠 제작자는 정위 위치 마크 MK12의 위치를 임의의 위치로 이동시킴으로써, 일렉트릭 기타의 소리의 음상 정위 위치를 지정한다.

그러면, 입력부(21)로부터 제어부(23)에는 콘텐츠 제작자의 입력 조작에 따른 신호가 공급되기 때문에, 표시 제어부(43)는, 입력부(21)로부터 공급된 신호에 따라서 표시부(24)를 제어하고, 정위 위치 마크의 표시 위치를 이동시킨다.

또한, 스텝 S13에서, 정위 위치 결정부(41)는, 입력부(21)로부터 공급된 신호에 기초하여, 조정 대상인 오디오 트랙의 소리의 음상의 정위 위치를 결정한다.

즉, 정위 위치 결정부(41)는, 입력부(21)로부터, 콘텐츠 제작자의 입력 조작에 따라서 출력된, 편집 화상에 있어서의 정위 위치 마크의 위치를 나타내는 정보(신호)를 취득한다. 그리고 정위 위치 결정부(41)는, 취득한 정보에 기초하여 편집 화상 상, 즉 콘텐츠의 영상 상에 있어서의 대상이 되는 정위 위치 마크에 의해 표시되는 위치를 음상의 정위 위치로서 결정한다.

또한, 정위 위치 결정부(41)는 음상의 정위 위치의 결정에 따라서, 그 정위 위치를 나타내는 위치 정보를 생성한다.

예를 들어 도 2에 나타낸 예에 있어서, 정위 위치 마크 MK12가 위치 PJ2로 이동되었다고 하자. 그러한 경우, 정위 위치 결정부(41)는, 취득한 좌표 X₂에 기초하여 상술한 식 (1)과 마찬가지의 계산을 행하여, 일렉트릭 기타의 오디오 트랙에 대한 음상의 정위 위치를 나타내는 위치 정보, 바꾸어 말하면 오디오 오브젝트로서의 연주자 PL12(일렉트릭 기타)의 위치를 나타내는 위치 정보로서 수평 각도 θ₂를 산출한다.

스텝 S14에서, 게인 산출부(42)는 스텝 S13에 있어서의 정위 위치의 결정 결과로서 얻어진 위치 정보로서의 수평 각도에 기초하여, 스텝 S12에서 선택된 오디오 트랙에 대한 좌우 채널의 게인값을 산출한다.

예를 들어 스텝 S14에서는, 상술한 식 (2) 및 식 (3)과 마찬가지의 계산이 행해져 좌우 각 채널의 게인값이 산출된다.

스텝 S15에서, 제어부(23)는, 음상의 정위 위치의 조정을 종료할지 여부를 판정한다. 예를 들어 콘텐츠 제작자에 의해 입력부(21)가 조작되어, 콘텐츠의 출력, 즉 콘텐츠의 제작 종료가 지시된 경우, 스텝 S15에서 음상의 정위 위치의 조정을 종료한다고 판정된다.

스텝 S15에서, 아직 음상의 정위 위치의 조정을 종료하지 않는다고 판정된 경우, 처리는 스텝 S12로 돌아가, 상술한 처리가 반복하여 행해진다. 즉, 새롭게 선택된 오디오 트랙에 대해 음상의 정위 위치의 조정이 행해진다.

이에 비해, 스텝 S15에서 음상의 정위 위치의 조정을 종료한다고 판정된 경우, 처리는 스텝 S16으로 진행한다.

스텝 S16에서, 제어부(23)는, 각 오브젝트의 위치 정보에 기초하는 출력 비트 스트림, 바꾸어 말하면 스텝 S14의 처리에서 얻어진 게인값에 기초하는 출력 비트 스트림을 출력하고, 정위 위치 결정 처리는 종료한다.

예를 들어 스텝 S16에서는, 제어부(23)는 스텝 S14의 처리에서 얻어진 게인값을 오디오 데이터에 승산함으로써, 콘텐츠의 오디오 트랙마다, 좌우 각 채널의 오디오 데이터를 생성한다. 또한, 제어부(23)는 얻어진 동일한 채널의 오디오 데이터를 가산하여, 최종적인 좌우 각 채널의 오디오 데이터로 하고, 그와 같이 하여 얻어진 오디오 데이터를 포함하는 출력 비트 스트림을 출력한다. 여기서, 출력 비트 스트림에는 콘텐츠의 영상의 화상 데이터 등이 포함되어 있어도 된다.

또한, 출력 비트 스트림의 출력처는, 기록부(22)나 스피커부(26), 외부의 장치 등, 임의의 출력처로 할 수 있다.

예를 들어 콘텐츠의 오디오 데이터와 화상 데이터로 이루어지는 출력 비트 스트림이 기록부(22)나 리무버블 기록 매체 등에 공급되어 기록되어도 되고, 출력 비트 스트림으로서의 오디오 데이터가 스피커부(26)에 공급되어 콘텐츠의 소리가 재생되어도 된다. 또한, 예를 들어 콘텐츠의 오디오 데이터와 화상 데이터로 이루어지는 출력 비트 스트림이 통신부(25)에 공급되어, 통신부(25)에 의해 출력 비트 스트림이 외부의 장치로 송신되도록 해도 된다.

이때, 예를 들어 출력 비트 스트림에 포함되는 콘텐츠의 오디오 데이터와 화상 데이터는 소정의 부호화 방식에 의해 부호화되어 있어도 되고, 부호화되어 있지 않아도 된다. 또한, 예를 들어 각 오디오 트랙(오디오 데이터)과, 스텝 S14에서 얻어진 게인값과, 콘텐츠의 영상의 화상 데이터를 포함하는 출력 비트 스트림이 생성되도록 해도 물론 된다.

이상과 같이 하여 신호 처리 장치(11)는, 편집 화상을 표시시킴과 함께, 유저(콘텐츠 제작자)의 조작에 따라서 정위 위치 마크를 이동시키고, 그 정위 위치 마크에 의해 표시되는 위치, 즉 정위 위치 마크의 표시 위치에 기초하여 음상의 정위 위치를 결정한다.

이와 같이 함으로써, 콘텐츠 제작자는, 편집 화상을 보면서 정위 위치 마크를 원하는 위치로 이동시킨다고 하는 조작을 행하기만 하면, 적절한 음상의 정위 위치를 용이하게 결정(지정)할 수 있다.

<제2 실시 형태>

그런데, 제1 실시 형태에서는, 콘텐츠의 오디오(소리)가 좌우 2채널의 출력인 예에 대해 설명하였다. 그러나 본 기술은, 이것에 한정되지 않고, 3차원 공간의 임의의 위치에 음상을 정위시키는 오브젝트 베이스 오디오에도 적용 가능하다.

이하에서는, 본 기술을, 3차원 공간의 음상 정위를 타깃으로 한 오브젝트 베이스 오디오(이하, 단순히 오브젝트 베이스 오디오라고 칭함)에 적용한 경우에 대해 설명을 행한다.

여기서는, 콘텐츠의 소리로서 오디오 오브젝트의 소리가 포함되어 있고, 오디오 오브젝트로서, 상술한 예와 마찬가지로 드럼, 일렉트릭 기타, 어쿠스틱 기타 1, 및 어쿠스틱 기타 2가 있다고 하자. 또한, 콘텐츠가, 각 오디오 오브젝트의 오디오 데이터와, 그들 오디오 데이터에 대응하는 영상의 화상 데이터로 이루어진다고 하자. 여기서, 콘텐츠의 영상은 정지 화상이어도 되고, 동화상이어도 된다.

오브젝트 베이스 오디오에서는, 3차원 공간의 모든 방향으로 음상을 정위시킬 수 있기 때문에, 영상을 수반하는 경우에 있어서도 영상이 있는 범위 밖의 위치, 즉 영상에서는 보이지 않는 위치에도 음상을 정위시키는 것이 상정된다. 바꾸어 말하면, 음상의 정위의 자유도가 높기 때문에, 영상에 맞추어 음상 정위 위치를 정확하게 결정하는 것은 곤란하고, 영상이 3차원 공간 상의 어디에 있는지를 알고 난 후에, 음상의 정위 위치를 지정할 필요가 있다.

그래서 본 기술에서는, 오브젝트 베이스 오디오의 콘텐츠에 대해서는, 콘텐츠 제작 툴에 있어서, 먼저 콘텐츠의 재생 환경의 설정이 행해진다.

여기서, 재생 환경이란, 예를 들어 콘텐츠 제작자가 상정하고 있는, 콘텐츠의 재생이 행해지는 방 등의 3차원 공간, 즉 청취 공간이다. 재생 환경의 설정 시에는, 방(청취 공간)의 크기나, 콘텐츠를 시청하는 시청자, 즉 콘텐츠의 소리의 청취자의 위치인 청취 위치, 콘텐츠의 영상이 표시되는 스크린의 형상이나 스크린의 배치 위치 등이 파라미터에 의해 지정된다.

예를 들어 재생 환경의 설정 시에 지정되는, 재생 환경을 지정하는 파라미터(이하, 설정 파라미터라고도 칭함)로서, 도 5에 나타내는 것이 콘텐츠 제작자에 의해 지정된다.

도 5에 나타내는 예에서는, 설정 파라미터로서 청취 공간인 방의 사이즈를 결정하는 「깊이」, 「폭」 및 「높이」가 나타나 있고, 여기서는 방의 깊이는 「6.0m」이고, 방의 폭은 「8.0m」이고, 방의 높이는 「3.0m」로 되어 있다.

또한, 설정 파라미터로서 방(청취 공간) 내에 있어서의 청취자의 위치인 「청취 위치」가 나타나 있고, 그 청취 위치는 「방의 중앙」으로 되어 있다.

또한, 설정 파라미터로서 방(청취 공간) 내에 있어서의, 콘텐츠의 영상이 표시되는 스크린(표시 장치)의 형상, 즉 표시 화면의 형상을 결정하는 「사이즈」와 「애스펙트비」가 나타나 있다.

설정 파라미터 「사이즈」는, 스크린의 크기를 나타내고 있고, 「애스펙트비」는 스크린(표시 화면)의 애스펙트비를 나타내고 있다. 여기서는, 스크린의 사이즈는 「120인치」로 되어 있고, 스크린의 애스펙트비는 「16:9」로 되어 있다.

그 밖에, 도 5에서는, 스크린에 관한 설정 파라미터로서, 스크린의 위치를 결정하는 「전후」, 「좌우」, 및 「상하」가 나타나 있다.

여기서, 설정 파라미터 「전후」는, 청취 공간(방) 내에 있어서의 청취 위치에 있는 청취자가 기준이 되는 방향을 보았을 때의, 청취자로부터 스크린까지의 전후 방향의 거리이며, 이 예에서는 설정 파라미터 「전후」의 값은 「청취 위치의 전방 2m」이다. 즉, 스크린은 청취자의 전방 2m의 위치에 배치된다.

또한, 설정 파라미터 「좌우」는, 청취 공간(방) 내에 있어서의 청취 위치에서 기준이 되는 방향을 향하고 있는 청취자로부터 본 스크린의 좌우 방향의 위치이며, 이 예에서는 설정 파라미터 「좌우」의 설정(값)은 「중앙」이다. 즉, 스크린의 중심의 좌우 방향의 위치가 청취자의 바로 정면의 위치가 되도록 스크린이 배치된다.

설정 파라미터 「상하」는, 청취 공간(방) 내에 있어서의 청취 위치에서 기준이 되는 방향을 향하고 있는 청취자로부터 본 스크린의 상하 방향 위치이며, 이 예에서는 설정 파라미터 「상하」의 설정(값)은 「스크린 중심이 청취자의 귀의 높이」이다. 즉, 스크린의 중심의 상하 방향의 위치가 청취자의 귀의 높이의 위치가 되도록 스크린이 배치된다.

콘텐츠 제작 툴에서는, 이상과 같은 설정 파라미터에 따라서 POV 화상 등이 표시 화면에 표시된다. 즉, 표시 화면 상에는 설정 파라미터에 의해 청취 공간을 시뮬레이트한 POV 화상이 3D 그래픽 표시된다.

예를 들어 도 5에 나타낸 설정 파라미터가 지정된 경우, 콘텐츠 제작 툴의 표시 화면으로서 도 6에 나타내는 화면이 표시된다. 또한, 도 6에 있어서 도 1에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고, 그 설명은 적절하게 생략한다.

도 6에서는, 콘텐츠 제작 툴의 표시 화면으로서 윈도우 WD11이 표시되어 있고, 이 윈도우 WD11 내에 청취자의 시점으로부터 본 청취 공간의 화상인 POV 화상 P21과, 청취 공간을 부감적으로 본 화상인 부감 화상 P22가 표시되어 있다.

POV 화상 P21에서는, 청취 위치에서 본, 청취 공간인 방의 벽 등이 표시되어 있고, 방에 있어서의 청취자 전방의 위치에는, 콘텐츠의 영상이 중첩 표시된 스크린 SC11이 배치되어 있다. POV 화상 P21에서는, 실제의 청취 위치에서 본 청취 공간이 거의 그대로 재현되어 있다.

특히, 이 스크린 SC11은, 도 5의 설정 파라미터에 의해 지정된 바와 같이, 애스펙트비가 16:9이고, 사이즈가 120인치인 스크린이다. 또한, 스크린 SC11은, 도 5에 나타낸 설정 파라미터 「전후」, 「좌우」, 및 「상하」에 의해 정해지는 청취 공간 상의 위치에 배치되어 있다.

스크린 SC11 상에는, 콘텐츠의 영상 내의 피사체인 연주자 PL11 내지 연주자 PL14가 표시되어 있다.

또한, POV 화상 P21에는, 정위 위치 마크 MK11 내지 정위 위치 마크 MK14도 표시되어 있고, 이 예에서는, 이들 정위 위치 마크가 스크린 SC11 상에 위치하고 있다.

또한, 도 6에서는, 청취자의 시선 방향이 미리 정해진 기준이 되는 방향, 즉 청취 공간의 정면의 방향(이하, 기준 방향이라고도 칭함)인 경우에 있어서의 POV 화상 P21이 표시되어 있는 예를 나타내고 있다. 그러나 콘텐츠 제작자는, 입력부(21)를 조작함으로써, 청취자의 시선 방향을 임의의 방향으로 변경할 수 있다. 청취자의 시선 방향이 변경되면, 윈도우 WD11에는 변경 후의 시선 방향의 청취 공간의 화상이 POV 화상으로서 표시된다.

또한, 보다 상세하게는, POV 화상의 시점 위치는 청취 위치뿐만 아니라, 청취 위치 근방의 위치로 하는 것도 가능하다. 예를 들어 POV 화상의 시점 위치가 청취 위치 근방의 위치로 되는 경우에는, POV 화상의 앞쪽에는 반드시 청취 위치가 표시되게 된다.

이에 의해, 시점 위치가 청취 위치와는 다른 경우라고 하더라도, POV 화상을 보고 있는 콘텐츠 제작자는, 표시되어 있는 POV 화상이 어느 위치를 시점 위치로 한 화상인지를 용이하게 파악할 수 있다.

한편, 부감 화상 P22는 청취 공간인 방 전체의 화상, 즉 청취 공간을 부감적으로 본 화상이다.

특히, 청취 공간의 도면에서, 화살표 RZ11에 의해 표시되는 방향의 길이가, 도 5에 나타낸 설정 파라미터 「깊이」에 의해 표시되는 청취 공간의 깊이의 길이로 되어 있다. 마찬가지로, 청취 공간의 화살표 RZ12에 의해 표시되는 방향의 길이가, 도 5에 나타낸 설정 파라미터 「폭」에 의해 표시되는 청취 공간의 횡폭의 길이로 되어 있고, 청취 공간의 화살표 RZ13에 의해 표시되는 방향의 길이가, 도 5에 나타낸 설정 파라미터 「높이」에 의해 표시되는 청취 공간의 높이로 되어 있다.

또한, 부감 화상 P22 상에 표시된 점 O는, 도 5에 나타낸 설정 파라미터 「청취 위치」에 의해 표시되는 위치, 즉 청취 위치를 나타내고 있다. 이하, 점 O를 특히 청취 위치 O라고도 칭하기로 한다.

이와 같이, 청취 위치 O나 스크린 SC11, 정위 위치 마크 MK11 내지 정위 위치 마크 MK14가 표시된 청취 공간 전체의 화상을 부감 화상 P22로서 표시시킴으로써, 콘텐츠 제작자는, 청취 위치 O나 스크린 SC11, 연주자 및 악기(오디오 오브젝트)의 위치 관계를 적절하게 파악할 수 있다.

콘텐츠 제작자는, 이와 같이 하여 표시된 POV 화상 P21과 부감 화상 P22를 보면서 입력부(21)를 조작하여, 각 오디오 트랙에 대한 정위 위치 마크 MK11 내지 정위 위치 마크 MK14를 원하는 위치로 이동시킴으로써, 음상의 정위 위치를 지정한다.

이와 같이 함으로써, 도 1에 있어서의 경우와 마찬가지로, 콘텐츠 제작자는, 적절한 음상의 정위 위치를 용이하게 결정(지정)할 수 있다.

도 6에 나타내는 POV 화상 P21 및 부감 화상 P22는, 도 1에 나타낸 편집 화상 P11에 있어서의 경우와 마찬가지로, 입력 인터페이스로서도 기능하고 있고, POV 화상 P21이나 부감 화상 P22가 임의의 위치를 지정함으로써, 각 오디오 트랙의 소리의 음상의 정위 위치를 지정할 수 있다.

예를 들어 콘텐츠 제작자가 입력부(21) 등을 조작하여, POV 화상 P21 상의 원하는 위치를 지정하면, 그 위치에 정위 위치 마크가 표시된다.

도 6에 나타내는 예에서는, 도 1에 있어서의 경우와 마찬가지로, 정위 위치 마크 MK11 내지 정위 위치 마크 MK14가 스크린 SC11 상의 위치, 즉 콘텐츠의 영상상의 위치에 표시되어 있다. 따라서, 각 오디오 트랙의 소리의 음상이, 그 소리에 대응하는 영상의 각 피사체(오디오 오브젝트)의 위치에 정위되게 됨을 알 수 있다. 즉, 콘텐츠의 영상에 맞춘 음상 정위가 실현됨을 알 수 있다.

또한, 신호 처리 장치(11)에서는, 예를 들어 정위 위치 마크의 위치는 청취 위치 O를 원점(기준)으로 하는 좌표계의 좌표에 의해 관리된다.

예를 들어 청취 위치 O를 원점으로 하는 좌표계가 극좌표인 경우, 정위 위치 마크의 위치는, 청취 위치 O에서 본 수평 방향, 즉 좌우 방향의 위치를 나타내는 수평 각도와, 청취 위치 O에서 본 수직 방향, 즉 상하 방향의 위치를 나타내는 수직 각도와, 청취 위치 O로부터 정위 위치 마크까지의 거리를 나타내는 반경에 의해 표시된다.

또한, 이하에서는, 정위 위치 마크의 위치는, 수평 각도, 수직 각도, 및 반경에 의해 표시되는 것, 즉 극좌표에 의해 표시되는 것으로서 설명을 계속하지만, 정위 위치 마크의 위치는, 청취 위치 O를 원점으로 하는 3차원 직교 좌표계 등의 좌표에 의해 표시되도록 해도 된다.

이와 같이 정위 위치 마크가 극좌표에 의해 표시되는 경우, 청취 공간 상에 있어서의 정위 위치 마크의 표시 위치의 조정은, 예를 들어 이하와 같이 행할 수 있다.

즉, 콘텐츠 제작자가 입력부(21) 등을 조작하여, POV 화상 P21 상의 원하는 위치를 클릭 등에 의해 지정하면, 그 위치에 정위 위치 마크가 표시된다. 구체적으로는, 예를 들어 청취 위치 O를 중심으로 하는 반경 1의 구면 상에 있어서의 콘텐츠 제작자에 의해 지정된 위치에 정위 위치 마크가 표시된다.

또한, 이때, 예를 들어 도 7에 나타내는 바와 같이 청취 위치 O로부터, 청취자의 시선 방향으로 연장되는 직선 L11이 표시되고, 그 직선 L11 상에 처리 대상의 정위 위치 마크 MK11이 표시된다. 또한, 도 7에 있어서 도 6에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고, 그 설명은 적절하게 생략한다.

도 7에 나타내는 예에서는, 드럼의 오디오 트랙에 대응하는 정위 위치 마크 MK11이 처리 대상, 즉 음상의 정위 위치의 조정 대상으로 되어 있고, 이 정위 위치 마크 MK11이 청취자의 시선 방향으로 연장되는 직선 L11 상에 표시되어 있다.

콘텐츠 제작자는, 예를 들어 입력부(21)로서의 마우스에 대한 휠 조작 등을 행함으로써, 정위 위치 마크 MK11을 직선 L11 상의 임의의 위치로 이동시킬 수 있다. 바꾸어 말하면, 콘텐츠 제작자는, 청취 위치 O로부터 정위 위치 마크 MK11까지의 거리, 즉 정위 위치 마크 MK11의 위치를 나타내는 극좌표의 반경을 조정할 수 있다.

또한, 콘텐츠 제작자는, 입력부(21)를 조작함으로써 직선 L11의 방향도 임의의 방향으로 조정하는 것이 가능하다.

이러한 조작에 의해, 콘텐츠 제작자는, 청취 공간 상의 임의의 위치로 정위 위치 마크 MK11을 이동시킬 수 있다.

따라서, 예를 들어 콘텐츠 제작자는 정위 위치 마크의 위치를, 콘텐츠의 영상의 표시 위치, 즉 오디오 오브젝트에 대응하는 피사체의 위치인 스크린 SC11의 위치보다도, 청취자로부터 보아 안쪽으로도 앞쪽으로도 이동시킬 수 있다.

예를 들어 도 7에 나타내는 예에서는, 드럼의 오디오 트랙의 정위 위치 마크 MK11은, 청취자로부터 보아 스크린 SC11의 안쪽에 위치하고 있고, 일렉트릭 기타의 오디오 트랙의 정위 위치 마크 MK12는, 청취자로부터 보아 스크린 SC11의 앞쪽에 위치하고 있다.

또한, 어쿠스틱 기타 1의 오디오 트랙의 정위 위치 마크 MK13, 및 어쿠스틱 기타 2의 오디오 트랙의 정위 위치 마크 MK14는, 스크린 SC11 상에 위치하고 있다.

이와 같이, 본 기술을 적용한 콘텐츠 제작 툴에서는, 예를 들어 스크린 SC11의 위치를 기준으로 하여, 그 위치보다도 청취자로부터 보아 앞쪽이나 안쪽 등, 깊이 방향의 임의의 위치에 음상을 정위시켜 거리감을 제어할 수 있다.

예를 들어 오브젝트 베이스 오디오에 있어서는, 청취자의 위치(청취 위치)를 원점으로 한 극좌표에 의한 위치 좌표가 오디오 오브젝트의 메타 정보로서 취급되고 있다.

도 6이나 도 7을 참조하여 설명한 예에서는, 각 오디오 트랙은, 오디오 오브젝트의 오디오 데이터이며, 각 정위 위치 마크는 오디오 오브젝트의 위치라고 할 수 있다. 따라서, 정위 위치 마크의 위치를 나타내는 위치 정보를, 오디오 오브젝트의 메타 정보로서의 위치 정보로 할 수 있다.

그리고 콘텐츠의 재생 시에는, 오디오 오브젝트의 메타 정보인 위치 정보에 기초하여, 오디오 오브젝트(오디오 트랙)의 렌더링을 행하면, 그 위치 정보에 의해 표시되는 위치, 즉 정위 위치 마크에 의해 표시되는 위치에 오디오 오브젝트의 소리의 음상을 정위시킬 수 있다.

렌더링에서는, 예를 들어 위치 정보에 기초하여 VBAP 방법에 의해, 재생에 사용하는 스피커 시스템의 각 스피커 채널로 안분하는 게인값이 산출된다. 즉, 게인 산출부(42)에 의해 오디오 데이터의 각 채널의 게인값이 산출된다.

그리고 산출된 각 채널의 게인값 각각이 승산된 오디오 데이터가, 그 채널들의 오디오 데이터가 된다. 또한, 오디오 오브젝트가 복수 있는 경우에는, 그 오디오 오브젝트들에 대해 얻어진 동일한 채널의 오디오 데이터가 가산되어, 최종적인 오디오 데이터가 된다.

이와 같이 하여 얻어진 각 채널의 오디오 데이터에 기초하여 스피커가 소리를 출력함으로써, 오디오 오브젝트의 소리의 음상이, 메타 정보로서의 위치 정보, 즉 정위 위치 마크에 의해 표시되는 위치에 정위되게 된다.

따라서, 특히 정위 위치 마크의 위치로서, 스크린 SC11 상의 위치가 지정되었을 때에는, 실제의 콘텐츠의 재생 시에는, 콘텐츠의 영상 상의 위치에 음상이 정위되게 된다.

또한, 도 7에 나타낸 바와 같이 정위 위치 마크의 위치로서, 스크린 SC11 상의 위치와는 다른 위치 등, 임의의 위치를 지정할 수 있다. 따라서, 메타 정보로서의 위치 정보를 구성하는, 청취자로부터 오디오 오브젝트까지의 거리를 나타내는 반경은, 콘텐츠의 소리의 재생 시에 있어서의 거리감 제어를 위한 정보로서 사용할 수 있다.

예를 들어, 신호 처리 장치(11)에 있어서 콘텐츠를 재생하는 경우에, 드럼의 오디오 데이터의 메타 정보로서의 위치 정보에 포함되는 반경이, 기준이 되는 값(예를 들어, 1)의 2배의 값이라고 하자.

이러한 경우, 예를 들어 제어부(23)가 드럼의 오디오 데이터에 대해, 게인값 「0.5」를 승산하여 게인 조정을 행하면, 드럼의 소리가 작아져, 그 드럼의 소리가 기준이 되는 거리의 위치보다도 보다 먼 위치로부터 들리는 것처럼 느끼게 하는 거리감 제어를 실현할 수 있다.

또한, 게인 조정에 의한 거리감 제어는, 어디까지나 위치 정보에 포함되는 반경을 사용한 거리감 제어의 일례이며, 거리감 제어는 다른 어떠한 방법에 의해 실현되어도 된다. 이러한 거리감 제어를 행함으로써, 예를 들어 오디오 오브젝트의 소리의 음상을, 재생 스크린의 앞쪽이나 안쪽 등, 원하는 위치에 정위시킬 수 있다.

그 밖에, 예를 들어 MPEG(Moving Picture Experts Group)-H 3D Audio 규격에 있어서는, 콘텐츠 제작측의 재생 스크린 사이즈를 메타 정보로 하여 유저측, 즉 콘텐츠 재생측으로 보낼 수 있다.

이 경우, 콘텐츠 제작측의 재생 스크린의 위치나 크기가, 콘텐츠 재생측의 재생 스크린의 것과는 다를 때, 콘텐츠 재생측에 있어서 오디오 오브젝트의 위치 정보를 수정하여, 오디오 오브젝트의 소리의 음상을 재생 스크린의 적절한 위치에 정위시킬 수 있다. 그래서 본 기술에 있어서도, 예를 들어 도 5에 나타낸 스크린의 위치나 크기, 배치 위치 등을 나타내는 설정 파라미터를, 오디오 오브젝트의 메타 정보로 하도록 해도 된다.

또한, 도 7을 참조하여 행한 설명에서는, 정위 위치 마크의 위치를 청취자의 전방에 있는 스크린 SC11의 앞쪽이나 안쪽의 위치, 스크린 SC11 상의 위치로 하는 예에 대해 설명하였다. 그러나 정위 위치 마크의 위치는, 청취자의 전방에 한정되지 않고, 청취자의 측방이나 후방, 상방, 하방 등, 스크린 SC11 밖의 임의의 위치로 할 수 있다.

예를 들어 정위 위치 마크의 위치를, 청취자로부터 보아 스크린 SC11의 프레임의 외측의 위치로 하면, 실제로 콘텐츠를 재생하였을 때, 오디오 오브젝트의 소리의 음상이, 콘텐츠의 영상이 있는 범위 밖의 위치에 정위되게 된다.

또한, 콘텐츠의 영상이 표시되는 스크린 SC11이 청취 위치 O에서 보아 기준 방향에 있는 경우를 예로 들어 설명하였다. 그러나 스크린 SC11은 기준 방향에 한정되지 않고, 기준 방향을 보고 있는 청취자로부터 보아 후방이나 상방, 하방, 좌측, 우측방 등, 어느 방향으로 배치되어도 되고, 청취 공간 내에 복수의 스크린이 배치되어도 된다.

상술한 바와 같이 콘텐츠 제작 툴에서는, POV 화상 P21의 시선 방향을 임의의 방향으로 바꾸는 것이 가능하다. 바꾸어 말하면, 청취자가 청취 위치 O를 중심으로 하여 주위를 둘러볼 수 있도록 되어 있다.

따라서, 콘텐츠 제작자는, 입력부(21)를 조작하여, 기준 방향을 정면 방향으로 하였을 때의 측방이나 후방 등의 임의의 방향을 POV 화상 P21의 시선 방향으로서 지정하고, 각 방향의 임의의 위치에 정위 위치 마크를 배치할 수 있다.

따라서, 예를 들어 도 8에 나타내는 바와 같이, POV 화상 P21의 시선 방향을 스크린 SC11의 우측 끝보다도 외측의 방향으로 변화시켜, 그 방향으로 새로운 오디오 트랙의 정위 위치 마크 MK21을 배치하는 것이 가능하다. 또한, 도 8에 있어서 도 6 또는 도 7에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고, 그 설명은 적절하게 생략한다.

도 8의 예에서는, 새로운 오디오 트랙으로서, 오디오 오브젝트로서의 보컬의 오디오 데이터가 추가되어 있고, 그 추가된 오디오 트랙에 기초하는 소리의 음상 정위 위치를 나타내는 정위 위치 마크 MK21이 표시되어 있다.

여기서는, 정위 위치 마크 MK21은, 청취자로부터 보아 스크린 SC11 밖의 위치에 배치되어 있다. 그 때문에, 콘텐츠의 재생 시에는, 청취자에게는 보컬의 소리는 콘텐츠의 영상에서는 보이지 않는 위치로부터 들려오는 것처럼 지각된다.

또한, 기준 방향을 보고 있는 청취자로부터 보아 측방이나 후방의 위치에 스크린 SC11을 배치하는 것이 상정되어 있는 경우에는, 그들 측방이나 후방의 위치에 스크린 SC11이 배치되고, 그 스크린 SC11 상에 콘텐츠의 영상이 표시되는 POV 화상이 표시되게 된다. 이 경우, 각 정위 위치 마크를 스크린 SC11 상에 배치하면, 콘텐츠의 재생 시에는, 각 오디오 오브젝트(악기)의 소리의 음상이 영상의 위치에 정위되게 된다.

이와 같이 콘텐츠 제작 툴에서는, 스크린 SC11 상에 정위 위치 마크를 배치하기만 하면, 콘텐츠의 영상에 맞춘 음상 정위를 용이하게 실현할 수 있다.

또한, 도 9에 나타내는 바와 같이 POV 화상 P21이나 부감 화상 P22 상에 있어서, 콘텐츠의 재생에 사용하는 스피커의 레이아웃 표시를 행하도록 해도 된다. 또한, 도 9에 있어서 도 6에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고, 그 설명은 적절하게 생략한다.

도 9에 나타내는 예에서는, POV 화상 P21 상에 있어서, 청취자의 전방 좌측의 스피커 SP11, 청취자의 전방 우측의 스피커 SP12, 및 청취자의 전방 상측의 스피커 SP13을 포함하는 복수의 스피커가 표시되어 있다. 마찬가지로, 부감 화상 P22 상에 있어서도 스피커 SP11 내지 스피커 SP13을 포함하는 복수의 스피커가 표시되어 있다.

이 스피커들은, 콘텐츠 제작자가 상정하고 있는, 콘텐츠 재생 시에 사용되는 스피커 시스템을 구성하는 각 채널의 스피커로 되어 있다.

콘텐츠 제작자는, 입력부(21)를 조작함으로써, 7.1채널이나 22.2채널 등, 스피커 시스템의 채널 구성을 지정함으로써, 지정된 채널 구성의 스피커 시스템의 각 스피커를 POV 화상 P21 상 및 부감 화상 P22 상에 표시시킬 수 있다. 즉, 지정된 채널 구성의 스피커 레이아웃을 청취 공간에 중첩 표시시킬 수 있다.

오브젝트 베이스 오디오에서는, VBAP 방법에 의해 각 오디오 오브젝트의 위치 정보에 기초한 렌더링을 행함으로써, 다양한 스피커 레이아웃에 대응할 수 있다.

콘텐츠 제작 툴에서는, POV 화상 P21 및 부감 화상 P22에 스피커를 표시시킴으로써, 콘텐츠 제작자는, 그 스피커들과, 정위 위치 마크, 즉 오디오 오브젝트와, 콘텐츠의 영상 표시 위치, 즉 스크린 SC11과, 청취 위치 O의 위치 관계를 시각적으로 용이하게 파악할 수 있다.

따라서, 콘텐츠 제작자는, POV 화상 P21이나 부감 화상 P22에 표시된 스피커를, 오디오 오브젝트의 위치, 즉 정위 위치 마크의 위치를 조정할 때의 보조 정보로서 이용하고, 보다 적절한 위치에 정위 위치 마크를 배치할 수 있다.

예를 들어, 콘텐츠 제작자가 상업용 콘텐츠를 제작할 때에는, 콘텐츠 제작자는 레퍼런스로서 22.2채널과 같은 스피커가 밀하게 배치된 스피커 레이아웃을 사용하고 있는 경우가 많다. 이 경우, 예를 들어 콘텐츠 제작자는, 채널 구성으로서 22.2채널을 선택하고, 각 채널의 스피커를 POV 화상 P21이나 부감 화상 P22에 표시시키면 된다.

이에 비해, 예를 들어 콘텐츠 제작자가 일반 유저인 경우, 콘텐츠 제작자는 7.1채널과 같은, 스피커가 성기게 배치된 스피커 레이아웃을 사용하는 경우가 많다. 이 경우, 예를 들어 콘텐츠 제작자는, 채널 구성으로서 7.1채널을 선택하고, 각 채널의 스피커를 POV 화상 P21이나 부감 화상 P22에 표시시키면 된다.

예를 들어 7.1채널과 같은, 스피커가 성기게 배치된 스피커 레이아웃이 사용되는 경우, 오디오 오브젝트의 소리의 음상을 정위시키는 위치에 따라서는, 그 위치 근방에 스피커가 없어, 음상의 정위가 흐려져 버리는 경우가 있다. 음상을 확실하게 정위시키기 위해서는, 정위 위치 마크 위치는 스피커의 근방에 배치되는 것이 바람직하다.

상술한 바와 같이, 콘텐츠 제작 툴에서는 스피커 시스템의 채널 구성으로서 임의의 것을 선택하고, 선택한 채널 구성의 스피커 시스템의 각 스피커를 POV 화상 P21이나 부감 화상 P22에 표시시킬 수 있도록 이루어져 있다.

따라서, 콘텐츠 제작자는, 자신이 상정하는 스피커 레이아웃에 맞추어 POV 화상 P21이나 부감 화상 P22에 표시시킨 스피커를 보조 정보로서 사용하여, 정위 위치 마크를 스피커 근방의 위치 등, 보다 적절한 위치에 배치할 수 있게 된다. 즉, 콘텐츠 제작자는, 오디오 오브젝트의 음상 정위에 대한 스피커 레이아웃에 의한 영향을 시각적으로 파악하여, 영상이나 스피커의 위치 관계를 고려하면서, 정위 위치 마크의 배치 위치를 적절하게 조정할 수 있다.

또한, 콘텐츠 제작 툴에서는, 각 오디오 트랙에 대해, 오디오 트랙(오디오 데이터)의 재생 시각마다 정위 위치 마크를 지정할 수 있다.

예를 들어 도 10에 나타내는 바와 같이, 소정의 재생 시각 t1과, 그 후의 재생 시각 t2에서 정위 위치 마크 MK12의 위치가, 일렉트릭 기타의 연주자 PL12의 이동에 맞추어 변화되었다고 하자. 또한, 도 10에 있어서 도 6에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고, 그 설명은 적절하게 생략한다.

도 10에서는, 연주자 PL12' 및 정위 위치 마크 MK12'은, 재생 시각 t2에 있어서의 연주자 PL12 및 정위 위치 마크 MK12를 나타내고 있다.

예를 들어 콘텐츠의 영상 상에 있어서, 소정의 재생 시각 t1에서는 일렉트릭 기타의 연주자 PL12가 화살표 Q11로 나타내는 위치에 있고, 콘텐츠 제작자가 연주자 PL12와 동일한 위치에 정위 위치 마크 MK12를 배치하였다고 하자.

또한, 재생 시각 t1 후의 재생 시각 t2에서는, 콘텐츠의 영상 상에서 일렉트릭 기타의 연주자 PL12가 화살표 Q12로 나타내는 위치로 이동하였고, 재생 시각 t2에서는 콘텐츠 제작자가 연주자 PL12'과 동일한 위치에 정위 위치 마크 MK12'을 배치하였다고 하자.

여기서, 재생 시각 t1과 재생 시각 t2 사이의 다른 재생 시각에 대해서는, 콘텐츠 제작자는, 특히 정위 위치 마크 MK12의 위치를 지정하지 않은 것으로 한다.

이러한 경우, 정위 위치 결정부(41)는, 보간 처리를 행하여, 재생 시각 t1과 재생 시각 t2 사이의 다른 재생 시각에 있어서의 정위 위치 마크 MK12의 위치를 결정한다.

보간 처리 시에는, 예를 들어 재생 시각 t1에 있어서의 정위 위치 마크 MK12의 위치를 나타내는 위치 정보와, 재생 시각 t2에 있어서의 정위 위치 마크 MK12'의 위치를 나타내는 위치 정보에 기초하여, 위치 정보로서의 수평 각도, 수직 각도, 및 반경의 세 성분마다 선형 보간에 의해 대상이 되는 재생 시각의 정위 위치 마크 MK12의 위치를 나타내는 위치 정보의 각 성분의 값이 구해진다.

또한, 상술한 바와 같이, 위치 정보가 3차원 직교 좌표계의 좌표에 의해 표시되는 경우에 있어서도, 위치 정보가 극좌표로 표시되는 경우와 마찬가지로, x 좌표, y 좌표, 및 z 좌표 등의 좌표 성분마다 선형 보간이 행해진다.

이와 같이 하여 재생 시각 t1과 재생 시각 t2 사이의 다른 재생 시각에 있어서의 정위 위치 마크 MK12의 위치 정보를 보간 처리에 의해 구하면, 콘텐츠 재생 시에는, 영상 상에 있어서의 일렉트릭 기타의 연주자 PL12의 위치의 이동에 맞추어, 일렉트릭 기타의 소리, 즉 오디오 오브젝트의 소리의 음상의 정위 위치도 이동해 가게 된다. 이에 의해, 원활하게 음상 위치가 이동해 가는 위화감이 없는 자연스러운 콘텐츠를 얻을 수 있다.

<정위 위치 결정 처리의 설명>

다음으로, 도 6 내지 도 10을 참조하여 설명한 바와 같이, 본 기술을 오브젝트 베이스 오디오에 적용한 경우에 있어서의 신호 처리 장치(11)의 동작에 대해 설명한다. 즉, 이하, 도 11의 흐름도를 참조하여, 신호 처리 장치(11)에 의한 정위 위치 결정 처리에 대해 설명한다.

스텝 S41에서, 제어부(23)는 재생 환경의 설정을 행한다.

예를 들어 콘텐츠 제작 툴이 기동되면, 콘텐츠 제작자는 입력부(21)를 조작하여, 도 5에 나타낸 설정 파라미터를 지정한다. 그러면, 제어부(23)는, 콘텐츠 제작자의 조작에 따라서 입력부(21)로부터 공급된 신호에 기초하여, 설정 파라미터를 결정한다.

이에 의해, 예를 들어 청취 공간의 크기나, 청취 공간 내에 있어서의 청취 위치, 콘텐츠의 영상이 표시되는 스크린의 사이즈나 애스펙트비, 청취 공간에 있어서의 스크린의 배치 위치 등이 결정된다.

스텝 S42에서, 표시 제어부(43)는, 스텝 S41에서 결정된 설정 파라미터, 및 콘텐츠의 영상의 화상 데이터에 기초하여 표시부(24)를 제어하고, 표시부(24)에 POV 화상을 포함하는 표시 화면을 표시시킨다.

이에 의해, 예를 들어 도 6에 나타낸 POV 화상 P21 및 부감 화상 P22를 포함하는 윈도우 WD11이 표시된다.

이때, 표시 제어부(43)는, 스텝 S41에서 설정된 설정 파라미터에 따라서, POV 화상 P21 및 부감 화상 P22에 있어서의 청취 공간(방)의 벽 등을 묘화하거나, 설정 파라미터에 의해 정해지는 위치에, 설정 파라미터에 의해 정해지는 크기의 스크린 SC11을 표시시키거나 한다. 또한, 표시 제어부(43)는, 스크린 SC11의 위치에 콘텐츠의 영상을 표시시킨다.

또한 콘텐츠 제작 툴에서는, POV 화상 및 부감 화상에 스피커 시스템을 구성하는 스피커, 보다 상세하게는 스피커를 모방한 화상을 표시시킬지 여부나, 스피커를 표시시키는 경우에 있어서의 스피커 시스템의 채널 구성을 선택할 수 있다. 콘텐츠 제작자는, 필요에 따라서 입력부(21)를 조작하여, 스피커를 표시시킬지 여부를 지시하거나, 스피커 시스템의 채널 구성을 선택하거나 한다.

스텝 S43에서, 제어부(23)는, 콘텐츠 제작자의 조작에 따라서 입력부(21)로부터 공급된 신호 등에 기초하여, POV 화상 및 부감 화상에 스피커를 표시시킬지 여부를 판정한다.

스텝 S43에서, 스피커를 표시시키지 않는다고 판정된 경우, 스텝 S44의 처리는 행해지지 않고, 그 후, 처리는 스텝 S45로 진행한다.

이에 비해, 스텝 S43에서 스피커를 표시시킨다고 판정된 경우, 그 후, 처리는 스텝 S44로 진행한다.

스텝 S44에서, 표시 제어부(43)는 표시부(24)를 제어하여, 콘텐츠 제작자에 의해 선택된 채널 구성의 스피커 시스템의 각 스피커를, 그 채널 구성의 스피커 레이아웃으로 POV 화상 상 및 부감 화상 상에 표시시킨다. 이에 의해, 예를 들어 도 9에 나타낸 스피커 SP11이나 스피커 SP12가 POV 화상 P21 및 부감 화상 P22에 표시된다.

스텝 S44의 처리에 의해 스피커가 표시되었거나, 또는 스텝 S43에서 스피커를 표시시키지 않는다고 판정되면, 스텝 S45에 있어서, 정위 위치 결정부(41)는, 입력부(21)로부터 공급된 신호에 기초하여, 음상의 정위 위치의 조정을 행할 오디오 트랙을 선택한다.

예를 들어 스텝 S45에서는, 도 4의 스텝 S12와 마찬가지의 처리가 행해져, 원하는 오디오 트랙에 있어서의 소정의 재생 시각이, 음상 정위의 조정 대상으로서 선택된다.

음상 정위의 조정 대상을 선택하면, 계속해서 콘텐츠 제작자는 입력부(21)를 조작함으로써, 청취 공간 내에 있어서의 정위 위치 마크의 배치 위치를 임의의 위치로 이동시켜, 그 정위 위치 마크에 대응하는 오디오 트랙의 소리의 음상의 정위 위치를 지정한다.

이때, 표시 제어부(43)는, 콘텐츠 제작자의 입력 조작에 따라서 입력부(21)로부터 공급된 신호에 기초하여 표시부(24)를 제어하여, 정위 위치 마크의 표시 위치를 이동시킨다.

스텝 S46에서, 정위 위치 결정부(41)는, 입력부(21)로부터 공급된 신호에 기초하여, 조정 대상인 오디오 트랙의 소리의 음상의 정위 위치를 결정한다.

즉, 정위 위치 결정부(41)는, 청취 공간 상에 있어서의 청취 위치에서 본 정위 위치 마크의 위치를 나타내는 정보(신호)를 입력부(21)로부터 취득하고, 취득한 정보에 의해 표시되는 위치를 음상의 정위 위치로 한다.

스텝 S47에서, 정위 위치 결정부(41)는, 스텝 S46의 결정 결과에 기초하여, 조정 대상인 오디오 트랙의 소리의 음상의 정위 위치를 나타내는 위치 정보를 생성한다. 예를 들어 위치 정보는, 청취 위치를 기준으로 하는 극좌표에 의해 표시되는 정보 등이다.

이와 같이 하여 생성된 위치 정보는, 조정 대상인 오디오 트랙에 대응하는 오디오 오브젝트의 위치를 나타내는 위치 정보이다. 즉, 스텝 S47에서 얻어진 위치 정보는, 오디오 오브젝트의 메타 정보이다.

또한, 메타 정보로서의 위치 정보는, 상술한 바와 같이 극좌표, 즉 수평 각도, 수직 각도 및 반경이어도 되고, 직교 좌표여도 된다. 그 밖에, 스텝 S41에서 설정된, 스크린의 위치나 크기, 배치 위치 등을 나타내는 설정 파라미터도 오디오 오브젝트의 메타 정보여도 된다.

스텝 S48에서, 제어부(23)는, 음상의 정위 위치의 조정을 종료할지 여부를 판정한다. 예를 들어 스텝 S48에서는, 도 4의 스텝 S15에 있어서의 경우와 마찬가지의 판정 처리가 행해진다.

스텝 S48에서, 아직 음상의 정위 위치의 조정을 종료하지 않는다고 판정된 경우, 처리는 스텝 S45로 돌아가, 상술한 처리가 반복하여 행해진다. 즉, 새롭게 선택된 오디오 트랙에 대해 음상의 정위 위치의 조정이 행해진다. 또한, 이 경우, 스피커를 표시시킬지 여부의 설정이 변경된 경우에는, 그 변경에 따라서 스피커가 표시되거나, 스피커가 표시되지 않게 되거나 한다.

이에 비해, 스텝 S48에 있어서 음상의 정위 위치의 조정을 종료한다고 판정된 경우, 처리는 스텝 S49로 진행한다.

스텝 S49에서, 정위 위치 결정부(41)는, 각 오디오 트랙에 대해 적절하게 보간 처리를 행하고, 음상의 정위 위치가 지정되지 않은 재생 시각에 대해, 그 재생 시각에 있어서의 음상의 정위 위치를 구한다.

예를 들어 도 10을 참조하여 설명한 바와 같이, 소정의 오디오 트랙에 대해, 재생 시각 t1과 재생 시각 t2의 정위 위치 마크의 위치는 콘텐츠 제작자에 의해 지정되었지만, 그들 재생 시각 사이의 다른 재생 시각에 대해서는 정위 위치 마크의 위치가 지정되지 않았다고 하자. 이 경우, 스텝 S47의 처리에 의해, 재생 시각 t1과 재생 시각 t2에 대해서는 위치 정보가 생성되었지만, 재생 시각 t1과 재생 시각 t2 사이의 다른 재생 시각에 대해서는 위치 정보가 생성되지 않은 상태로 되어 있다.

그래서 정위 위치 결정부(41)는, 소정의 오디오 트랙에 대해, 재생 시각 t1에 있어서의 위치 정보와, 재생 시각 t2에 있어서의 위치 정보에 기초하여 선형 보간 등의 보간 처리를 행하고, 다른 재생 시각에 있어서의 위치 정보를 생성한다. 오디오 트랙마다 이러한 보간 처리를 행함으로써, 모든 오디오 트랙의 모든 재생 시각에 대해 위치 정보가 얻어지게 된다. 또한, 도 4를 참조하여 설명한 정위 위치 결정 처리에 있어서도, 스텝 S49와 마찬가지의 보간 처리가 행해져, 지정되지 않은 재생 시각의 위치 정보가 구해져도 된다.

스텝 S50에 있어서, 제어부(23)는, 각 오디오 오브젝트의 위치 정보에 기초하는 출력 비트 스트림, 즉 스텝 S47이나 스텝 S49의 처리에서 얻어진 위치 정보에 기초하는 출력 비트 스트림을 출력하고, 정위 위치 결정 처리는 종료한다.

예를 들어 스텝 S50에서는, 제어부(23)는 오디오 오브젝트의 메타 정보로서 얻어진 위치 정보와, 각 오디오 트랙에 기초하여 VBAP 방법에 의해 렌더링을 행하고, 소정의 채널 구성의 각 채널의 오디오 데이터를 생성한다.

그리고 제어부(23)는, 얻어진 오디오 데이터를 포함하는 출력 비트 스트림을 출력한다. 여기서, 출력 비트 스트림에는 콘텐츠의 영상 화상 데이터 등이 포함되어 있어도 된다.

도 4를 참조하여 설명한 정위 위치 결정 처리에 있어서의 경우와 마찬가지로, 출력 비트 스트림의 출력처는, 기록부(22)나 스피커부(26), 외부의 장치 등, 임의의 출력처로 할 수 있다.

즉, 예를 들어 콘텐츠의 오디오 데이터와 화상 데이터로 이루어지는 출력 비트 스트림이 기록부(22)나 리무버블 기록 매체 등에 공급되어 기록되어도 되고, 출력 비트 스트림으로서의 오디오 데이터가 스피커부(26)에 공급되어 콘텐츠의 소리가 재생되어도 된다.

또한, 렌더링 처리는 행해지지 않고, 스텝 S47이나 스텝 S49에서 얻어진 위치 정보를 오디오 오브젝트의 위치를 나타내는 메타 정보로 하여, 콘텐츠의 오디오 데이터, 화상 데이터, 및 메타 정보 중 적어도 오디오 데이터를 포함하는 출력 비트 스트림이 생성되어도 된다.

이때, 오디오 데이터나 화상 데이터, 메타 정보가 적절하게, 제어부(23)에 의해 소정의 부호화 방식에 의해 부호화되고, 부호화된 오디오 데이터나 화상 데이터, 메타 정보가 포함되는 부호화 비트 스트림이 출력 비트 스트림으로서 생성되어도 된다.

특히, 이 출력 비트 스트림은, 기록부(22) 등에 공급되어 기록되도록 해도 되고, 통신부(25)에 공급되어, 통신부(25)에 의해 출력 비트 스트림이 외부의 장치로 송신되도록 해도 된다.

이상과 같이 하여 신호 처리 장치(11)는, POV 화상을 표시시킴과 함께, 콘텐츠 제작자의 조작에 따라서 정위 위치 마크를 이동시키고, 그 정위 위치 마크의 표시 위치에 기초하여, 음상의 정위 위치를 결정한다.

이와 같이 함으로써, 콘텐츠 제작자는, POV 화상을 보면서 정위 위치 마크를 원하는 위치로 이동시킨다고 하는 조작을 행하기만 하면, 적절한 음상의 정위 위치를 용이하게 결정(지정)할 수 있다.

이상과 같이, 본 기술에 의하면 좌우 2채널의 오디오 콘텐츠나, 특히 3차원 공간의 음상 정위를 타깃으로 하는 오브젝트 베이스 오디오의 콘텐츠에 대해, 콘텐츠 제작 툴에 있어서, 예를 들어 영상 상의 특정 위치에 음상이 정위되는 패닝이나 오디오 오브젝트의 위치 정보를 용이하게 설정할 수 있다.

<컴퓨터의 구성예>

그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.

도 12는, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도다.

컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.

버스(504)에는 또한, 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509), 및 드라이브(510)가 접속되어 있다.

입력부(506)는, 키보드, 마우스, 마이크로폰, 촬상 소자 등으로 이루어진다. 출력부(507)는, 디스플레이, 스피커 등으로 이루어진다. 기록부(508)는, 하드 디스크나 불휘발성 메모리 등으로 이루어진다. 통신부(509)는, 네트워크 인터페이스 등으로 이루어진다. 드라이브(510)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.

이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해, RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.

컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.

컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해, 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해, 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(502)이나 기록부(508)에, 미리 인스톨해 둘 수 있다.

또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서에 따라 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.

또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능하다.

예를 들어, 본 기술은, 하나의 기능을, 네트워크를 통해 복수의 장치에서 분담, 공동하여 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.

또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.

(1)

청취 위치에서 본 청취 공간이 표시되어 있는 상태에서 지정된 상기 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보를 취득하는 취득부와,

상기 정위 위치에 관한 정보에 기초하여 비트 스트림을 생성하는 생성부를

구비하는 신호 처리 장치.

(2)

상기 생성부는, 상기 정위 위치에 관한 정보를 상기 오디오 오브젝트의 메타 정보로 하여 상기 비트 스트림을 생성하는

(1)에 기재된 신호 처리 장치.

(3)

상기 비트 스트림에는, 상기 오디오 오브젝트의 오디오 데이터 및 상기 메타 정보가 포함되어 있는

(2)에 기재된 신호 처리 장치.

(4)

상기 정위 위치에 관한 정보는, 상기 청취 공간에 있어서의 상기 정위 위치를 나타내는 위치 정보인

(1) 내지 (3) 중 어느 한 항에 기재된 신호 처리 장치.

(5)

상기 위치 정보에는, 상기 청취 위치로부터 상기 정위 위치까지의 거리를 나타내는 정보가 포함되어 있는

(4)에 기재된 신호 처리 장치.

(6)

상기 정위 위치는, 상기 청취 공간에 배치된 영상을 표시하는 스크린 상의 위치인

(4) 또는 (5)에 기재된 신호 처리 장치.

(7)

상기 취득부는, 제1 시각에 있어서의 상기 위치 정보와, 제2 시각에 있어서의 상기 위치 정보에 기초하여, 상기 제1 시각과 상기 제2 시각 사이의 제3 시각에 있어서의 상기 위치 정보를 보간 처리에 의해 구하는

(4) 내지 (6) 중 어느 한 항에 기재된 신호 처리 장치.

(8)

상기 청취 위치 또는 상기 청취 위치 근방의 위치에서 본 상기 청취 공간의 화상의 표시를 제어하는 표시 제어부를 추가로 구비하는

(1) 내지 (7) 중 어느 한 항에 기재된 신호 처리 장치.

(9)

상기 표시 제어부는, 상기 화상 상에 소정의 채널 구성의 스피커 시스템의 각 스피커를, 상기 소정의 채널 구성의 스피커 레이아웃으로 표시시키는

(8)에 기재된 신호 처리 장치.

(10)

상기 표시 제어부는, 상기 화상 상에 상기 정위 위치를 나타내는 정위 위치 마크를 표시시키는

(8) 또는 (9)에 기재된 신호 처리 장치.

(11)

상기 표시 제어부는, 입력 조작에 따라서, 상기 정위 위치 마크의 표시 위치를 이동시키는

(10)에 기재된 신호 처리 장치.

(12)

상기 표시 제어부는, 상기 청취 공간에 배치된, 상기 오디오 오브젝트에 대응하는 피사체를 포함하는 영상이 표시된 스크린을 상기 화상 상에 표시시키는

(8) 내지 (11) 중 어느 한 항에 기재된 신호 처리 장치.

(13)

상기 화상은 POV 화상인

(8) 내지 (12) 중 어느 한 항에 기재된 신호 처리 장치.

(14)

신호 처리 장치가,

청취 위치에서 본 청취 공간이 표시되어 있는 상태에서 지정된 상기 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보를 취득하고,

상기 정위 위치에 관한 정보에 기초하여 비트 스트림을 생성하는

신호 처리 방법.

(15)

스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

11: 신호 처리 장치
21: 입력부
23: 제어부
24: 표시부
25: 통신부
26: 스피커부
41: 정위 위치 결정부
42: 게인 산출부
43: 표시 제어부

Claims

청취 위치 또는 상기 청취 위치 근방의 위치에서 본 청취 공간의 화상의 표시 및 상기 청취 공간을 부감적으로 본 화상인 부감 화상의 표시를 제어하는 표시 제어부와
상기 청취 위치 또는 상기 청취 위치 근방의 위치에서 본 상기 청취 공간이 표시되어 있는 상태에서 지정된 상기 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보를 취득하는 취득부와
상기 정위 위치에 관한 정보에 기초하여 비트 스트림을 생성하는 생성부를 구비하는 신호 처리 장치로서,
상기 표시 제어부는, 상기 청취 공간에 배치된, 상기 오디오 오브젝트에 대응하는 피사체를 포함하는 영상이 표시된 스크린을 상기 청취 공간의 화상 및 상기 부감 화상에 표시시키는, 신호 처리 장치.
제1항에 있어서,
상기 생성부는, 상기 정위 위치에 관한 정보를 상기 오디오 오브젝트의 메타 정보로 하여 상기 비트 스트림을 생성하는
신호 처리 장치.
제2항에 있어서,
상기 비트 스트림에는, 상기 오디오 오브젝트의 오디오 데이터 및 상기 메타 정보가 포함되어 있는
신호 처리 장치.
제1항에 있어서,
상기 정위 위치에 관한 정보는, 상기 청취 공간에 있어서의 상기 정위 위치를 나타내는 위치 정보인
신호 처리 장치.
제4항에 있어서,
상기 위치 정보에는, 상기 청취 위치로부터 상기 정위 위치까지의 거리를 나타내는 정보가 포함되어 있는
신호 처리 장치.
제4항에 있어서,
상기 정위 위치는, 상기 청취 공간에 배치된 영상을 표시하는 스크린 상의 위치인
신호 처리 장치.
제4항에 있어서,
상기 취득부는, 제1 시각에 있어서의 상기 위치 정보와, 제2 시각에 있어서의 상기 위치 정보에 기초하여, 상기 제1 시각과 상기 제2 시각 사이의 제3 시각에 있어서의 상기 위치 정보를 보간 처리에 의해 구하는
신호 처리 장치.
삭제
제1항에 있어서,
상기 표시 제어부는, 상기 청취 공간의 화상 또는 상기 부감 화상 상에 소정의 채널 구성의 스피커 시스템의 각 스피커를, 상기 소정의 채널 구성의 스피커 레이아웃으로 표시시키는
신호 처리 장치.
제1항에 있어서,
상기 표시 제어부는, 상기 청취 공간의 화상 또는 상기 부감 화상 상에 상기 정위 위치를 나타내는 정위 위치 마크를 표시시키는
신호 처리 장치.
제10항에 있어서,
상기 표시 제어부는, 입력 조작에 따라서, 상기 정위 위치 마크의 표시 위치를 이동시키는
신호 처리 장치.
삭제
제1항에 있어서,
상기 청취 공간의 화상은 POV 화상인
신호 처리 장치.
신호 처리 장치가,
청취 위치 또는 상기 청취 위치 근방의 위치에서 본 청취 공간의 화상의 표시 및 상기 청취 공간을 부감적으로 본 화상인 부감 화상의 표시를 제어하고,
상기 청취 위치 또는 상기 청취 위치 근방의 위치에서 본 상기 청취 공간이 표시되어 있는 상태에서 지정된 상기 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보를 취득하고,
상기 정위 위치에 관한 정보에 기초하여 비트 스트림을 생성하고,
상기 청취 공간에 배치된, 상기 오디오 오브젝트에 대응하는 피사체를 포함하는 영상이 표시된 스크린을 상기 청취 공간의 화상 및 상기 부감 화상에 표시시키는,
신호 처리 방법.
청취 위치 또는 상기 청취 위치 근방의 위치에서 본 청취 공간의 화상의 표시 및 상기 청취 공간을 부감적으로 본 화상인 부감 화상의 표시를 제어하고,
상기 청취 위치 또는 상기 청취 위치 근방의 위치에서 본 상기 청취 공간이 표시되어 있는 상태에서 지정된 상기 청취 공간 내의 오디오 오브젝트의 음상의 정위 위치에 관한 정보를 취득하고,
상기 정위 위치에 관한 정보에 기초하여 비트 스트림을 생성하고,
상기 청취 공간에 배치된, 상기 오디오 오브젝트에 대응하는 피사체를 포함하는 영상이 표시된 스크린을 상기 청취 공간의 화상 및 상기 부감 화상에 표시시키는,
프로그램이 저장된 컴퓨터 판독 가능한 기록 매체.