JP2017212548A - 音声信号処理装置、音声信号処理方法、及びプログラム - Google Patents

音声信号処理装置、音声信号処理方法、及びプログラム Download PDF

Info

Publication number
JP2017212548A
JP2017212548A JP2016103595A JP2016103595A JP2017212548A JP 2017212548 A JP2017212548 A JP 2017212548A JP 2016103595 A JP2016103595 A JP 2016103595A JP 2016103595 A JP2016103595 A JP 2016103595A JP 2017212548 A JP2017212548 A JP 2017212548A
Authority
JP
Japan
Prior art keywords
audio
sound
audio signal
sound source
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016103595A
Other languages
English (en)
Inventor
北島 周
Shu Kitajima
周 北島
大出 訓史
Norifumi Oide
訓史 大出
岳大 杉本
Takehiro Sugimoto
岳大 杉本
小森 智康
Tomoyasu Komori
智康 小森
一穂 小野
Kazuo Ono
一穂 小野
陽 佐々木
Akira Sasaki
陽 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016103595A priority Critical patent/JP2017212548A/ja
Publication of JP2017212548A publication Critical patent/JP2017212548A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

【課題】音声の再生時に、音声の再現性を向上させること。【解決手段】音声信号に対応する位置に係る第1情報を取得する第1取得部と、前記音声を出力可能な複数の音声出力部に係る第2情報を取得する第2取得部と、少なくとも1つの仮想的な前記音声出力部を含む複数の前記音声出力部のうち、前記音声を出力する音声出力部を、前記第1情報と前記第2情報とに基づいて選択する出力制御部と、を備える音声信号処理装置。【選択図】図2

Description

本発明は、音声信号処理に関する。
近年、多数の音声チャンネル(マルチチャンネル)を用いることにより、高い臨場感の音響再生を実現する音響システムが提案されている(例えば、被特許文献1)。例えば、8K(水平7680画素×垂直4320画素)超高精細放送サービスでは、22.2chのマルチチャンネル音響が採用される(例えば、非特許文献2)。また、例えば、DOLBY ATMOS(登録商標)等、音声オブジェクトを用いたオブジェクトベース方式による音響システムが提案されている。また、例えば、サウンドバーシステム等による仮想的なサラウンド音響システムが提案されている。この仮想的なサラウンド音響システムでは、音波の壁面反射、音波の合成等を利用して、物理的な実体を有する音源(例えば、スピーカ装置)から出力した音声を、あたかも、実際にはスピーカ装置が存在しない位置から出力されたように、すなわち、仮想的な音源から音声が出力されたように、ユーザに知覚させることができる。また、ベースマネージメント等、異なる複数のスピーカ装置で1ch分の信号を再生するシステムが提案されている。ベースマネージメントでは、音声信号を周波数帯域で分割して異なる音源で再生したり、スピーカ装置(音源)をアレイ状に配置したりすることで音源の出力レベルや周波数特性の不足を補うことができる。
ところで、音声再生時の音響システム(以下、「再生側システム」と称する)の構成(スピーカ装置の数、配置)と、コンテンツ制作時に想定された音響システム(以下、「制作側システム」と称する。)の構成とが、常に一致するとは限らない。そこで、レンダリング、ダウンミックス等により、音声信号を、再生側システムの構成に合わせて分配することが行われている。レンダリングとしては、ベクトルベース振幅パンニング(Vector Based Audio Panning、VBAP)に基づく手法が提案されており、この手法では、例えば、音源の位置情報を用いて、各スピーカに供給される音声信号が算出される(例えば、非特許文献3、4)。ダウンミックスでは、音声信号にダウンミックス係数を乗じ、各チャンネルの音声信号を加算することでチャンネル数の変換が行われる。ダウンミックスについては、例えば、制作側システムにおける音源の位置と、再生側システムにおける音源の位置との差(例えば、システムの中心と各位置とを結ぶ2つの線分の交差角)に基づいてダウンミックス係数を算出する方法、制作側システムの音源に対して、その近傍に位置する再生側システムの音源に音声信号を均等に分配する方法等が提案されている。
Rec. ITU-R BS.2051-0, "Advanced sound system for programme production", International Telecommunication Union, 02/2014 「デジタル放送における映像符号化、音声符号化及び多重化方式 標準規格 ARIB STD−B32 3.5版」、一般社団法人 電波産業会、平成27年12月3日 ISO/IEC CD 23008-3:2014, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, 2014年4月4日 V. Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc. Vol. 45, No.6, pp. 456-466, 1997
ところで、仮想的な音源は、一般的に、物理的(実体的)な音源に比して音の明瞭性等の音質、音源の位置精度等、音声の再現性が劣る。そのため、コンテンツの制作時の音源の位置が、再生時の仮想的な音源の位置に近い場合であっても、物理的な音源から音声を出力した方が好ましい場合がある。また、仮想的な音源を用いて振幅パンニングを行うと、合成音声の音質が低下したり、音声の位置の精度が低下したりしてしまう場合がある。
しかしながら、従来は、レンダリングやダウンミックス等において、仮想的な音源と物理的な音源とを区別して処理することは行われてこなかった。従って、音声の再生において、音声の再現性を向上させられない可能性があった。
本発明のいくつかの態様は、音声の再生時に、音声の再現性を向上させることができる音声信号処理装置、音声信号処理方法、及びプログラムを提供することを目的の一つとする。
また、本発明の他の態様は、後述する実施形態に記載した作用効果を奏することを可能にする音声信号処理装置、音声信号処理方法、及びプログラムを提供することを目的の一つとする。
上述した課題を解決するために、本発明の一態様は、音声信号に対応する位置に係る第1情報を取得する第1取得部と、前記音声信号が示す音声を出力可能な複数の音声出力部に係る第2情報を取得する第2取得部と、少なくとも1つの仮想的な前記音声出力部を含む複数の前記音声出力部のうち、前記音声を出力する音声出力部を、前記第1情報と前記第2情報とに基づいて選択する出力制御部と、を備える音声信号処理装置である。
また、本発明の一態様は、前記第2情報は、前記音声出力部による前記音声の出力方向に係る情報を含む。
また、本発明の一態様は、前記第2情報は、複数の前記音声出力部のうち、仮想的な音声出力部の実現方法を示す情報を含む。
また、本発明の一態様は、前記第2情報は、前記音声出力部による音声の出力周波数帯域と、音圧レベルと、指向特性とのうちの少なくとも1つを示す情報を含む。
また、本発明の一態様は、前記第2情報は、複数の前記音声出力部間の関連性を示す情報である。
また、本発明の一態様は、前記出力制御部は、前記音声がダイアログである場合に、複数の前記音声出力部のうち、実体的な音声出力部を、前記音声を出力する音声出力部として選択する。
また、本発明の一態様は、前記出力制御部は、複数の前記音声出力部の内、前記音声を出力する音声出力部の候補を、前記第1情報に基づいて複数特定し、前記候補の全てが仮想的な前記音声出力部である場合には、前記候補のうちの1つのみを前記音声を出力する音声出力部として選択する。
また、本発明の一態様は、前記出力制御部は、複数の前記音声出力部の内、前記音声を出力する音声出力部の候補を、前記第1情報に基づいて複数特定し、前記候補に実体的な前記音声出力部が含まれる場合には、実体的な前記音声出力部のみを、前記音声を出力する音声出力部として選択する。
また、本発明の一態様は、前記第1情報は、少なくともMPEG規格により規定される情報を含む。
また、本発明の一態様は、音声信号処理装置が、音声信号に対応する位置に係る第1情報を取得する第1ステップと、前記音声信号処理装置が、前記音声信号が示す音声を出力可能な複数の音声出力部に係る第2情報を取得する第2ステップと、前記音声信号処理装置が、少なくとも1つの仮想的な前記音声出力部を含む複数の前記音声出力部のうち、前記音声を出力する音声出力部を、前記第1情報と前記第2情報とに基づいて選択する第3ステップと、を含む音声信号処理方法である。
また、本発明の一態様は、コンピュータに、音声信号に対応する位置に係る第1情報を取得する第1ステップと、前記音声信号が示す音声を出力可能な複数の音声出力部に係る第2情報を取得する第2ステップと、少なくとも1つの仮想的な前記音声出力部を含む複数の前記音声出力部のうち、前記音声を出力する音声出力部を、前記第1情報と前記第2情報とに基づいて選択する第3ステップと、を実行させるためのプログラムである。
本発明の実施形態によれば、音声の再生時に、音声の再現性を向上させることができる。
本発明の第1の実施形態に係る再生側システムの概要を示す模式図である。 同実施形態に係る再生側システムの構成を示すブロック図である。 同実施形態に係る音声信号処理装置による処理の流れの一例を示すフローチャートである。 同実施形態に係る音源選択処理の一例を示す第1図である。 同実施形態に係る音源選択処理の一例を示す第2図である。 同実施形態に係る音源選択処理の一例を示す第3図である。 同実施形態に係る音源選択処理の一例を示す第4図である。
以下、本発明の一実施形態について、図面を参照して説明する。
[第1の実施形態]
本発明の第1の実施形態について説明する。まず、再生側システム1の概要について説明する。
図1は、本実施形態に係る再生側システム1の概要を示す模式図である。
再生側システム1は、マルチチャンネル音響システムであり、複数の音源を備える。再生側システム1は、制作側システムにより集音された音声の音声信号に基づいて、音声を出力する。ここで、再生側システム1が備える音源の数、配置は、制作側システムの音源の数、配置と、異なっていてもよいし、同じであってもよい。具体的には、再生側システム1の音源の数は、2.1ch、5.1ch、7.1ch、22.2ch等であってよい。また、各音源の配置は、任意に定められてよい。
音源とは、音の出力元である。音源は、物理的な実体を有する装置であってもよいし、物理的な実態を有さない仮想的なものであってもよい。以下では、音源のうち、物理的な実体を有する音源を物理音源と称し、物理的な実体を有さない仮想的な音源を仮想音源と称して区別する場合がある。物理音源とは、例えばスピーカ装置である。仮想音源とは、例えば、物理音源が音声を出力することにより、物理音源が配置された空間内に形成される音源である。仮想音源の実現には、公知の任意の手法を採用してよい。例えば、仮想音源は、壁面反射を使用する方法、波面合成法、バイノーラル法等により実現することができる。
図1に示す例において、再生側システム1は、音源として、サウンドバーSBと、仮想スピーカLR、RRと、を備える。
サウンドバーSBとは、アレイ状に並べられた複数の物理スピーカL1〜L3、C1〜C4、R1〜R3を備える装置である。各物理スピーカL1〜L3、C1〜C4、R1〜R3は、それぞれ、スピーカ装置である。各物理スピーカL1〜L3、C1〜C4、R1〜R3は、それぞれ、独立して異なる音声を出力することもできるし、グループとして同じ音声を出力することもできる。具体的には、物理スピーカL1〜L3、物理スピーカC1〜C4、物理スピーカR1〜R3の3つのグループにおいて、各グループを構成する物理スピーカは、同じ音声を出力してもよい。この場合、物理スピーカL1〜L3、C1〜C4、R1〜R3は、3つのスピーカ装置であるように動作する。
仮想スピーカLR、RRは、それぞれ、サウンドバーSBにより形成される仮想音源である。
再生側システム1は、サウンドバーSBと、仮想スピーカLR、RRとから音声を出力して、音場SS内のユーザUに音声を知覚させることができる。なお、以下では、説明を簡単にするため、一例として、ユーザUは、音場SSの中心に位置しているものとして説明する。また、各音源は、ユーザU、すなわち音場SSの中心に向けて音声を出力可能であるとして説明する。つまり、音源の位置とは、音源が出力する音声の出力方向の軸上の一点に対応している。これは、制作側システムにおいても同様である。
制作側システムにおいて音源(以下、「原音源OS」と称する。)から収録した音声を、再生側システム1において再生しようとした場合、再生側システム1には、対応する位置の音源が存在していないことがある。これは、オブジェクトベース方式のように、各音声信号について、音声の出力方向が予め定められている場合、すなわち、所望の再生方向(目標再生方向)がある場合も同様である。以下では、説明を簡単にするため、一例として、原音源OSから収録した音声を再生する場合について説明する。
ここで、再生側システム1は、自システムにおける音源の配置(位置)に関する情報と、各音源の種別(物理スピーカであるか、仮想スピーカであるか)とを示す情報とを管理している。そのため、再生側システム1は、いずれの音源から音声を出力すれば、制作時と同じ方向から音声が出力されたように知覚されるかを適切に判定することができる。
例えば、図1に示す例では、原音源OSは、物理スピーカL1と仮想スピーカLRとの間に位置しており、原音源OSに対応する音源が再生側システム1に存在していない。ここで、仮想スピーカLRが仮想音源であることを認識できないシステムの場合は、物理スピーカL1と、仮想スピーカLRとの2つを用いた振幅パンニングにより、原音源OSに対応する音声を出力することが考えられる。しかしながら、仮想スピーカLRは、仮想音源であるため、物理音源に比較すると、音質や音源の定位精度が劣る。そのため、物理スピーカL1と、仮想スピーカLRとの振幅パンニングにより原音源OSに対応する音声を出力すると相対的に再生品質が低下してしまう可能性がある。この点、再生側システム1は、上述したように、自システムが備える各音源の種別を管理している。そこで、再生側システム1は、仮想スピーカLRよりも物理スピーカL1を優先し、物理スピーカL1のみから原音源OSに対応する音声を出力する。これにより、ユーザUは、原音源OSに対応する音を、相対的に高い再生品質で聞くことができる。
以上のように、再生側システム1は、原音源OSの位置(予め想定される音声の出力方向)と、自システムの音源の種別とに基づいて、原音源OSに対応する音声を出力する音源を選択するため、仮想音源を利用可能な場合に、音声の再現性をさらに向上させることができる。
以上が、本実施形態の概要についての説明である。
次に、再生側システム1の構成について説明する。
図2は、再生側システム1の構成を示すブロック図である。
再生側システム1は、音声信号処理装置10と、複数の音声出力部30−1、30−2、…、30−N(Nは、2以上の整数)と、を備える。以下では、複数の音声出力部30−1、30−2、…、30−Nを特に区別しない場合には、音声出力部30と称する。
音声信号処理装置10とは、制作側システムから受信した音声信号を処理し、音声出力部30から音声を出力させる電子機器である。
音声出力部30とは、音源であり、例えば、上述したサウンドバーSB、仮想スピーカLR、RR等である。複数の音声出力部30−1、30−2、…、30−Nは、少なくとも1つの仮想音源を含む。複数の音声出力部30−1、30−2、…、30−Nは、物理音源を含んでもよい。複数の音声出力部30−1、30−2、…、30−Nは、トランスオーラルのように、仮想音源のみであってもよい。
次に、音声信号処理装置10の構成について説明する。
音声信号処理装置10は、記憶部11と、受信部12と、制御部13と、を備える。
記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)等を備える。また、記憶部11は、HDD(Hard Disc Drive)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ等を備えてもよい。記憶部11は、音声信号処理装置10が備えるCPU(Central Processing Unit、不図示)が実行するための各種プログラムやCPUが実行した処理の結果などを記憶する。例えば、記憶部11は、再生側設定情報を記憶する。再生側設定情報については、後述する。
受信部12は、制作側システムから出力された各種情報を受信する。例えば、受信部12は、原信号属性情報、原音声信号等を受信する。原信号属性情報については、後述する。原音声信号とは、制作側システムにより制作・送出された音声信号である。受信部12は、各種情報を、放送を介して取得してもよいし、通信を介して取得してもよい。
制御部13は、音声信号処理装置10が備える各種構成(例えば、記憶部11、受信部12)、音声信号処理装置10と通信する各種構成(例えば、音声出力部30)等を制御する。制御部13が備える機能の一部又は全ては、例えば、音声信号処理装置10が備えるCPUが記憶部11に記憶されたプログラムを実行することにより実現される。なお、制御部13は、ASIC(Application Specific Integrated Circuit)等の集積回路として実現されてもよい。
制御部13は、再生側設定情報取得部131と、原信号属性情報取得部132と、音声信号取得部133と、出力制御部134と、を備える。
再生側設定情報取得部131は、記憶部11から再生側設定情報を読み出して取得する。再生側設定情報取得部131は、取得した再生側設定情報を、出力制御部134に出力する。再生側設定情報とは、再生側システム1が備える音声出力部30に関する情報である。再生側設定情報には、例えば、音声出力部30の位置(音声の出力方向)、再生周波数帯域、音圧レベル、指向特性(音波の拡がりの程度等)、種別、音声出力部30が仮想音源である場合の実現方法、グルーピング等を示す情報等を含む。グルーピングを示す情報とは、1つのグループとして制御される音源の組を示す情報である。これらの情報は、例えば、メタデータとして記述される。
原信号属性情報取得部132は、受信部12を介して、原信号属性情報を取得する。原信号属性情報取得部132は、取得した原信号属性情報を、出力制御部134に出力する。原信号属性情報とは、受信部12が受信する原音声信号の属性を示す情報である。例えば、原信号属性情報は、原音声信号に対応する位置、種別等を示す情報を含む。原音声信号に対応する位置とは、聴取位置からの方向と距離との両方あるいは一方を示すものであり、例えば、チャンネルの識別情報等である。原音声信号の種別には、例えば、ダイアログ、サラウンド等がある。ダイアログとは、セリフ、ナレーション等の人物の声である。ダイアログは、主演、助演、解説等にさらに詳細に区別されてもよい。なお、ここでいうダイアログとは、対話の音声に限られない。主に人の声を表す音声信号をダイアログ音声信号としてよい。サラウンドとは、環境音である。サラウンドは、背景音、効果音、さらにはその内容(例えば、自然音、機械音等)に応じて、さらに詳細に区別されてもよい。原信号属性情報は、例えば、メタデータとして記述される。具体的には、原信号属性情報は、MPEG Audioのチャンネルコンフィグレーションとして記述されてもよい。
音声信号取得部133は、受信部12を介して、原音声信号を取得する。音声信号取得部133は、取得した原音声信号を、出力制御部134に出力する。
出力制御部134は、音声信号取得部133から取得した原音声信号を処理し、音声出力部30を介して、原音声信号に対応する音声を再生する。出力制御部134は、選択部135と、信号変換部136と、を備える。
選択部135は、再生側設定情報取得部131から再生側設定情報を取得する。選択部135は、原信号属性情報取得部132から原信号属性情報を取得する。選択部135は、再生側設定情報と原信号属性情報とに基づいて、複数の音声出力部30の中から再生用音源を選択する。再生用音源とは、各原音声信号の音声を再生させるために用いる音源である。つまり、選択部135は、各原音声信号の音声の再生において、音声を出力する音源を選択する。換言すると、選択部135は、音声の再生方法を選択する。選択部135は、原音声信号ごとの再生用音源の選択結果を、信号変換部136に通知する。
信号変換部136は、音声信号取得部133から原音声信号を取得する。信号変換部136は、選択部135が選択した音声出力部30に応じて、原音声信号を変換する。例えば、信号変換部136は、2つの音声出力部30を再生用音源として選択し、振幅パンニングにより各音声出力部30から音声を再生する場合には、各音源に供給する音声信号を生成する。また、例えば、信号変換部136は、仮想音源の音声出力部30を、再生用音源として選択した場合には、当該仮想音源が形成されるように、物理音源の音声出力部30に供給する音声信号を生成する。また、例えば、信号変換部136は、1つの物理音源の音声出力部30を選択した場合には、原音声信号を変換しなくてもよい。信号変換部136は、生成した音声信号を、音声出力統合部137に出力する。なお、原音声信号を変換しない場合には、信号変換部136は、原音声信号をそのまま音声出力統合部137に出力する。
音声出力統合部137は、信号変換部136から音声信号を取得し、音声出力部30ごとに音声信号を統合(合成)する。ここで、仮想音源は、実際には、物理音源により形成される。従って、仮想音源に供給される音声信号は、実際には、当該仮想音源を形成する物理音源に供給される。音声出力統合部137は、各音声出力部30に対して、統合した音声信号を出力する。これにより、音声出力部30から音声が出力され、制作側システムで制作された音声が再生される。
以上が、音声信号処理装置10の構成についての説明である。
次に、音声信号処理装置10の動作について説明する。
図3は、音声信号処理装置10による処理の流れの一例を示すフローチャートである。
(ステップS1)原信号属性情報取得部132は、原信号属性情報を、受信部12を介して取得する。音声信号取得部133は、原音声信号を、受信部12を介して取得する。その後、制御部13は、ステップS3に処理を進める。
(ステップS3)再生側設定情報取得部131は、記憶部11に予め記憶された再生側設定情報を取得する。その後、制御部13は、ステップS5に処理を進める。なお、再生側設定情報は、例えば、音声信号処理装置10の製造元が予め記憶させておいてもよいし、再生側システム1のユーザによる入力に基づいて、記憶されてもよい。
(ステップS5)出力制御部134は、各チャンネルの原音声信号に対応する音声を出力させる音声出力部30を、原信号属性情報と、再生側設定情報とを参照して選択する音源選択処理を実行する。その後、制御部13は、ステップS7に処理を進める。
(ステップS7)出力制御部134は、ステップS5による選択結果に応じて、音声信号を変換する。その後、出力制御部134は、ステップS9に処理を進める。
(ステップS9)出力制御部134は、変換後の音声信号を、音声出力部30ごとに統合する。その後、制御部13は、ステップS11に処理を進める。
(ステップS11)出力制御部134は、統合後の音声信号を、音声出力部30に供給する。そして、音声出力部30は、供給された音声信号に応じて、音声を再生する。その後、制御部13は、図3に示す処理を終了する。
ここで、ステップS5における音源選択処理の具体例について説明する。ここでは、図1、図4〜図7を参照して、音源選択処理の具体例について説明する。
音原選択処理の第1例は、再生用音源の候補が、仮想音源と物理音源である場合の再生用音源の選択に関する。ここで、再生用音源の候補とは、原音源OSの最も近くに位置する第1音源と、原音源OSを挟んで第1音源の反対側に位置する音源のうち、原音源OSの最も近くに位置する第2音源とである。第1例では、物理音源と、仮想音源とがある場合に、物理音源のみを再生用音源の候補とする。図1に示す例において、原音源OSの近くに位置する音源、すなわち音声の出力方向が近い音源は、仮想スピーカLR及び物理スピーカL1である。ここで、音声信号処理装置10は、仮想音源である仮想スピーカLRを、再生用音源の候補から除外し、物理スピーカL1、又は、物理スピーカL1〜L3(すなわち、物理スピーカL1を含む物理音源のグループ)を再生用音源として選択する。換言すると、物理スピーカL1〜L3、C1〜C4、R1〜R3を候補とし、原音源OSに最も近い物理スピーカL1、又は、物理スピーカL1〜L3を再生用音源として選択する。
ここで、仮想音源と物理音源との振幅パンニングでは、合成音像の定位精度が低く、仮想音源を含むため、音質も高くない。この点、音声信号処理装置10は、仮想音源を再生用音源とせず、仮想音源と物理音源との振幅パンニングを行わない。このように、音声信号処理装置10は、物理音源から音声を再生するため、音質の低下を防ぐことができる。この場合、原音源OSとは音声の出力方向が異なることになるが、仮想音源と物理音源との振幅パンニングを行っても合成音像の定位精度は高くないため、音声の出力方向が異なることによる影響は大きくない。つまり、音声信号処理装置10は、音源の位置よりも音質を優先し、総合的に、音声の再現性を向上させることができる。
音源選択処理の第2例、第3例は、再生用音源の候補が仮想音源のみである場合の再生用音源の選択に関する。図4に示す第2例、図5に示す第3例では、音声信号処理装置10は、仮想音源の実現方法に基づいて再生用音源を選択する。図4に示す例では、仮想スピーカLR、RRは、それぞれ、バイノーラル法により実現されている。バイノーラル法では、振幅パンニングによる合成音像の定位精度が比較的低い。そこで、音声信号処理装置10は、再生用音源の候補がいずれも仮想音源であり、これらの仮想音源のいずれか又は全部がバイノーラル法で実現されている場合には、原音源OSに最も近い仮想音源を再生用音源として選択する。これにより、音声信号処理装置10は、音源の位置よりも音質を優先し、総合的に、音声の再現性を向上させることができる。
これに対して、壁面反射法では、振幅パンニングによる合成音像の定位精度、音質が高くなる場合がある。そこで、音声信号処理装置10は、図5に示す例のように、再生用音源の候補がいずれも仮想音源であり、これらの仮想音源のいずれか又は全部が壁面反射法で実現されている場合には、原音源OSを挟む仮想音源による振幅パンニングを再生法として選択する。
このように、音声信号処理装置10は、再生用音源の候補が仮想音源を含む場合に、仮想音源の実現方法に応じて再生用音源を選択する。これにより、音声信号処理装置10は、音質を大きく低下させることなく音源の定位精度を向上させるため、総合的に、音声の再現性を向上させることができる。
音源選択処理の第4例は、仮想音源の位置を変更可能である場合の再生用音源の選択に関する。図6に示す第4例では、音声信号処理装置10は、空間内の所定範囲において、任意の位置に仮想音源を生成することができる。そこで、音声信号処理装置10は、原音源OSの位置が物理音源から所定距離以上離れている場合には、原音源OSの位置に仮想音源を生成する。そして、音声信号処理装置10は、形成した仮想音源を再生用音源として選択する。図6に示す例では、ユーザUの後方に、原音源OSが位置している。そこで、音声信号処理装置10は、原音源OSの位置に仮想スピーカRを生成し、生成した仮想スピーカRから音声を出力する。このように、音声信号処理装置10は、原音源OSの位置が物理音源に近い場合には、物理音源を再生用音源とし、原音源OSの位置が物理音源から遠い場合には、仮想音源を再生用音源とするため、音質を大きく低下させることなく、音源の位置精度を保つことができる。従って、音声信号処理装置10は、総合的に、音声の再現性を向上させることができる。
音源選択処理の第5例は、原音源OSの属性に応じた再生用音源の選択に関する。図7に示す第5例では、図1に示す例と同様に、原音源OSは、物理スピーカL1と仮想スピーカLRとの間に位置している。ここで、原音源OSの原音声信号は、ダイアログである。ダイアログの場合、ユーザUにとって、音声の出力元の位置よりも、音声の内容が明瞭に聞き取れることが重要である。そこで、音声信号処理装置10は、原音源OSがダイアログである場合には、物理音源である物理スピーカL1を再生用音源として選択する。これに対して、ダイアログ以外の背景音の場合、ユーザUにとって、音声の明瞭性は、それほど重要ではないことが多い。そこで、音声信号処理装置10は、原音源OSがダイアログ以外の背景音である場合には、仮想音源を再生用音源の候補から除外しない。このように、原音源OSの属性に応じて再生用音源を選択することにより、音声信号処理装置10は、総合的に、音声の再現性を向上させることができる。
なお、音声信号処理装置10は、上述した以外にも、任意の情報を参照して、再生用音源を選択してよい。例えば、音声信号処理装置10は、音源の出力周波数帯域、音圧レベル、指向特性、グルーピング等に基づいて再生用音源を選択してよい。出力周波数帯域を参照することにより、音声信号処理装置10は、原音声信号の周波数に近い音源を選択することができる。また、音圧レベルを参照することにより、音声信号処理装置10は、1つの音源に複数の原音声信号を割当てる際に、音圧の割当てを適切に判定することができる。また、指向特性を参照することにより、音声信号処理装置10は、例えば、仮想音源の定位精度を把握して、再生用音源を適切に選択することができる。また、音源のグルーピングを参照することにより、音声信号処理装置10は、複数の音源のグループを特定することができる。従って、例えば、原音声信号の音圧レベルに応じて、音源のグループを、再生用音源として選択したり、グループのうちの一部を再生用音源として選択したりすることができる。
以上説明してきたように、本実施形態に係る音声信号処理装置10は、音声信号に対応する位置に係る第1情報(例えば、原信号属性情報)を取得する原信号属性情報取得部132と、前記音声信号が示す音声を出力可能な複数の音声出力部30に係る第2情報(例えば、再生側設定情報)を取得する再生側設定情報取得部131と、少なくとも1つの仮想的な音声出力部30(例えば、仮想音源)を含む複数の音声出力部30のうち、音声を出力する音声出力部30(例えば、再生用音源)を、第1情報と第2情報とに基づいて選択する出力制御部134と、を備える。
従来は、再生側システムの音源については、位置の情報のみを用いていたため、複数の仮想音源に音声信号を分配して音質の劣化が大きくなったり、原音源の位置の近傍に物理音源が存在するにもかかわらず、物理音源を用いずに再生してしまったりして、音声の再現性が低下する可能性があった。この点、音声信号処理装置10は、第2情報を参照して、仮想的な音声出力部30を含む複数の音声信号処理装置10のうち、音声を出力する音声出力部30を選択する。従って、音声信号処理装置10は、仮想的な音声出力部30が含まれる場合であっても、音声の再生時において、音声の再現性を向上させることができる。
[変形例]
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、上述の実施形態において説明した各構成は、任意に分離して別々の装置に備えることができる。また、例えば、上述の実施形態において説明した各構成は、任意に組み合わせることができる。例えば、音声信号処理装置10は、上述した任意の音声選択処理を組み合わせて用いてもよい。この場合は、音声選択処理の各方法に対して優先順位を設定しておき、優先順位の高い順に音声選択処理を適用して、原音声信号に対して音声出力部30のリソースを割当てる。このとき、原音声信号に対しても、優先順位が設定されていてもよい。この場合、優先順位が高い原音声信号から順に音声選択処理を行う。具体的には、ダイアログは、相対的に優先順位が高く、背景音は、相対的に優先順位が低い。これにより、重要な音声から順に品質の高い音声出力部30のリソースを割当てることができるため、総合的に音声の再現性を向上させることができる。
また、上述の制御部13の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより制御部13としての処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD−ROM等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。配信サーバの記録媒体に記憶されるプログラムのコードは、端末装置で実行可能な形式のプログラムのコードと異なるものでもよい。すなわち、配信サーバからダウンロードされて端末装置で実行可能な形でインストールができるものであれば、配信サーバで記憶される形式は問わない。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末装置で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、上述した制御部13の機能の一部または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1…再生側システム、10…音声信号処理装置、30…音声出力部、11…記憶部、12…受信部、13…制御部、131…再生側設定情報取得部、132…原信号属性情報取得部、133…音声信号取得部、134…出力制御部、135…選択部、136…信号変換部、137…音声出力統合部

Claims (11)

  1. 音声信号に対応する位置に係る第1情報を取得する第1取得部と、
    前記音声信号が示す音声を出力可能な複数の音声出力部に係る第2情報を取得する第2取得部と、
    少なくとも1つの仮想的な前記音声出力部とを含む複数の前記音声出力部のうち、前記音声を出力する音声出力部を、前記第1情報と前記第2情報とに基づいて選択する出力制御部と、
    を備える音声信号処理装置。
  2. 前記第2情報は、前記音声出力部の位置に係る情報を含む
    請求項1に記載の音声信号処理装置。
  3. 前記第2情報は、複数の前記音声出力部のうち、仮想的な音声出力部の実現方法を示す情報を含む
    請求項1又は請求項2に記載の音声信号処理装置。
  4. 前記第2情報は、前記音声出力部による音声の出力周波数帯域と、音圧レベルと、指向特性とのうちの少なくとも1つを示す情報を含む
    請求項1から請求項3のいずれか一項に記載の音声信号処理装置。
  5. 前記第2情報は、複数の前記音声出力部間の関連性を示す情報を含む
    請求項1から請求項4のいずれか一項に記載の音声信号処理装置。
  6. 前記出力制御部は、前記音声がダイアログである場合に、複数の前記音声出力部のうち、実体的な音声出力部を、前記音声を出力する音声出力部として選択する
    請求項1から請求項5のいずれか一項に記載の音声信号処理装置。
  7. 前記出力制御部は、複数の前記音声出力部の内、前記音声を出力する音声出力部の候補を、前記第1情報に基づいて複数特定し、前記候補の全てが仮想的な前記音声出力部である場合には、前記候補のうちの1つのみを前記音声を出力する音声出力部として選択する
    請求項1から請求項6のいずれか一項に記載の音声信号処理装置。
  8. 前記出力制御部は、複数の前記音声出力部の内、前記音声を出力する音声出力部の候補を、前記第1情報に基づいて複数特定し、前記候補に実体的な前記音声出力部が含まれる場合には、実体的な前記音声出力部のみを、前記音声を出力する音声出力部として選択する
    請求項1から請求項7のいずれか一項に記載の音声信号処理装置。
  9. 前記第1情報は、少なくともMPEG規格により規定される情報を含む
    請求項1から請求項8のいずれか一項に記載の音声信号処理装置。
  10. 音声信号処理装置が、音声信号に対応する位置に係る第1情報を取得する第1ステップと、
    前記音声信号処理装置が、前記音声信号が示す音声を出力可能な複数の音声出力部に係る第2情報を取得する第2ステップと、
    前記音声信号処理装置が、少なくとも1つの仮想的な前記音声出力部を含む複数の前記音声出力部のうち、前記音声を出力する音声出力部を、前記第1情報と前記第2情報とに基づいて選択する第3ステップと、
    を含む音声信号処理方法。
  11. コンピュータに、
    音声信号に対応する位置に係る第1情報を取得する第1ステップと、
    前記音声信号が示す音声を出力可能な複数の音声出力部に係る第2情報を取得する第2ステップと、
    少なくとも1つの仮想的な前記音声出力部を含む複数の前記音声出力部のうち、前記音声を出力する音声出力部を、前記第1情報と前記第2情報とに基づいて選択する第3ステップと、
    を実行させるためのプログラム。
JP2016103595A 2016-05-24 2016-05-24 音声信号処理装置、音声信号処理方法、及びプログラム Pending JP2017212548A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016103595A JP2017212548A (ja) 2016-05-24 2016-05-24 音声信号処理装置、音声信号処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016103595A JP2017212548A (ja) 2016-05-24 2016-05-24 音声信号処理装置、音声信号処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2017212548A true JP2017212548A (ja) 2017-11-30

Family

ID=60476797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016103595A Pending JP2017212548A (ja) 2016-05-24 2016-05-24 音声信号処理装置、音声信号処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2017212548A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7313211B2 (ja) 2019-07-03 2023-07-24 株式会社Fuji 組付機

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015126359A (ja) * 2013-12-26 2015-07-06 ヤマハ株式会社 スピーカ装置
JP2015530824A (ja) * 2012-08-31 2015-10-15 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトに基づくオーディオのための反射音レンダリング

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015530824A (ja) * 2012-08-31 2015-10-15 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトに基づくオーディオのための反射音レンダリング
JP2015126359A (ja) * 2013-12-26 2015-07-06 ヤマハ株式会社 スピーカ装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7313211B2 (ja) 2019-07-03 2023-07-24 株式会社Fuji 組付機

Similar Documents

Publication Publication Date Title
US20240055007A1 (en) Encoding device and encoding method, decoding device and decoding method, and program
JP7517500B2 (ja) 再生装置、再生方法、およびプログラム
KR102294767B1 (ko) 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
KR20160140971A (ko) 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
JP2016501472A (ja) 空間オーディオ信号の異なる再生スピーカ設定に対するセグメント毎の調整
US10271156B2 (en) Audio signal processing method
EP3332557A1 (en) Processing object-based audio signals
JP2018201224A (ja) オーディオ信号レンダリング方法及び装置
US20230254655A1 (en) Signal processing apparatus and method, and program
JP5338053B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
CN112823534B (zh) 信号处理设备和方法以及程序
JP2017212548A (ja) 音声信号処理装置、音声信号処理方法、及びプログラム
JP5743003B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
RU2677597C2 (ru) Способ и устройство кодирования, способ и устройство декодирования и программа
JP7222668B2 (ja) 音響処理装置及びプログラム
JP5590169B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
EP3488623A1 (en) Audio object clustering based on renderer-aware perceptual difference
WO2018017394A1 (en) Audio object clustering based on renderer-aware perceptual difference
JP6630599B2 (ja) アップミックス装置及びプログラム
KR20090066190A (ko) 대화형 오디오 송/수신 장치 및 그 방법
CN117119369A (zh) 音频生成方法、计算机设备和计算机可读存储介质
KR20200017969A (ko) 오디오 장치 및 그 제어방법
WO2019185743A1 (en) Reverberation technique for 3d audio objects

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201013