JP2021081533A

JP2021081533A - 音信号変換プログラム、音信号変換方法、及び、音信号変換装置

Info

Publication number: JP2021081533A
Application number: JP2019207622A
Authority: JP
Inventors: 洋平岸; Yohei Kishi; 鈴木　政直; Masanao Suzuki; 政直鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2021-05-27
Also published as: US11463806B2; US20210152927A1

Abstract

【課題】ＭＳ方式マイクロフォンによって収音した音の音源方向の判定精度を向上させることを可能とすることを目的とする。【解決手段】ＭＳ方式マイクのＭチャネルの音信号の位相、または、ＭＳ方式マイクのＳチャネルの正チャネルの音信号の位相とＳチャネルの負チャネルの音信号の位相とに基づいて、Ｍチャネル及び正チャネルへの音の到達距離の差による位相差を解消する第１シフト信号、及びＭチャネル及び負チャネルへの音の到達距離の差による位相差を解消する第２シフト信号を生成する。第１シフト信号または第２シフト信号を、ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する。【選択図】図６

Description

本発明は、音信号変換プログラム、音信号変換方法、及び、音信号変換装置に関する。

医療現場で音声翻訳システムを利用する場合、医療者の両手が塞がっている状態である場合が多く、例えば、手を使用するボタン操作などを行うことは困難であるため、音声で操作を行う機能が求められている。音声で操作を行う機能では、音声に基づいて、医療者と患者との何れが発話しているのか判別し、発話部分の検出、切り出し、及び音声翻訳が自動で行われることが所望される。

音声の入力にチャネルを複数もつマイクロフォンを使用することで、どの話者が発話しているのか判別することが可能となる。チャネルを複数もつマイクロフォンには、例えば、ＭＳ方式マイクロフォンが存在する。

しかしながら、ＭＳ方式マイクロフォンを使用する場合、ＭＳ方式マイクロフォンと音源との間の仰角によって音源方向の判定が適切に行えない場合がある。

本発明は、１つの側面として、ＭＳ方式マイクロフォンによって収音した音の音源方向の判定精度を向上させることを可能とすることを目的とする。

１つの実施形態では、ＭＳ方式マイクのＭチャネルの音信号の位相、または、ＭＳ方式マイクのＳチャネルの正チャネルの音信号の位相とＳチャネルの負チャネルの音信号の位相とに基づいて、第１シフト信号及び第２シフト信号を生成する。第１シフト信号は、Ｍチャネル及び正チャネルへの音の到達距離の差による位相差を解消し、第２シフト信号は、Ｍチャネル及び負チャネルへの音の到達距離の差による位相差を解消する。第１シフト信号または第２シフト信号を、ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する。

本発明は、１つの側面として、ＭＳ方式マイクロフォンによって収音した音の音源方向の判定精度を向上させることを可能とする。

本実施形態の音声認識システムのハードウェア構成図の一例である。ＭＳ方式マイクロフォンの機能を説明するための概念図の一例である。ＸＹ方式マイクロフォンの機能を説明するための概念図の一例である。ＭチャネルマイクロフォンとＳチャネルマイクロフォンとの音信号の位相差を説明するための概念図の一例である。ＭチャネルマイクロフォンとＳチャネルマイクロフォンとの音信号の位相差を説明するための概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの仰角を例示するための概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの仰角と音の判定方向との関係を例示する概念図の一例である。ＭＳ方式マイクロフォンに対する音源の位置と、ＭチャネルマイクロフォンとＳチャネルマイクロフォンとの音信号の位相差との関係を説明するための概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの仰角及び水平角と、ＭチャネルマイクロフォンとＳチャネルマイクロフォンとの音信号の位相差との関係を説明するための概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの水平角と、ＭチャネルマイクロフォンとＳチャネルマイクロフォンとの音信号の位相差との関係を説明するための概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの水平角と、ＭチャネルマイクロフォンとＳチャネルマイクロフォンとの音信号の位相差との関係を説明するための概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの仰角と、ＭチャネルマイクロフォンとＳチャネルマイクロフォンとの音信号の位相差との関係を説明するための概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの仰角と、ＭチャネルマイクロフォンとＳチャネルマイクロフォンとの音信号の位相差との関係を説明するための概念図の一例である。Ｍチャネルマイクロフォンの音信号とＳチャネル及び−Ｓチャネルの音信号との類似について説明するための概念図の一例である。本実施形態の音信号変換装置の補正部のハードウェア構成図の一例である。Ｍチャネルマイクロフォンの音信号の位相の補正を説明するための概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの仰角及び水平角によるＭチャネルマイクロフォンの音信号の位相の遅延を説明するための概念図の一例である。Ｍチャネル及びＳチャネルの音信号を使用して近似変換されたＬチャネル及びＲチャネルの音信号を表す概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの仰角及び水平角によるＭチャネルマイクロフォンの音信号の位相の遅延の補正を説明するための概念図の一例である。Ｍチャネル及びＳチャネルの音信号を使用して近似変換されたＬチャネル及びＲチャネルの音信号を表す概念図の一例である。ＭＳ方式マイクロフォンに対する音源からの仰角と音の判定方向との関係を例示する概念図の一例である。本実施形態の音信号変換装置のハードウェア構成図の一例である。第１実施形態の音信号変換処理の流れを示すフローチャートの一例である。Ｍチャネルマイクロフォンの音信号の位相の補正を説明するための概念図の一例である。Ｍチャネルマイクロフォンの音信号の位相の補正を説明するための概念図の一例である。Ｍチャネルマイクロフォンの音信号の位相の補正を説明するための概念図の一例である。Ｍチャネルマイクロフォンの音信号の位相の補正を説明するための概念図の一例である。第２実施形態の音信号変換処理の流れを示すフローチャートの一例である。Ｍチャネルマイクロフォンの音信号とＳチャネルマイクロフォンの音信号との位相差と仰角との関係を説明するための概念図の一例である。Ｍチャネルマイクロフォンの音信号とＳチャネルマイクロフォンの音信号との位相差と仰角との関係を説明するための概念図の一例である。第２実施形態の音信号変換処理の流れを示すフローチャートの一例である。

［第１実施形態］
以下、図面を参照して第１実施形態の一例を詳細に説明する。

図１に例示する音声認識システム１は、ＭチャネルとＳチャネルとを含むＭＳ方式マイクロフォン（Mid-Side Microphone、以下、ＭＳマイクという。また、マイクロフォンをマイクという。）１０、音信号変換装置２０、音声処理装置３０、及び音声認識装置４０を含む。

ＭＳマイクは、図２に例示するように、正面方向ＭＯの指向性を有する単一指向性マイクであるＭチャネルマイクと、左右方向ＳＰＯ及びＳＮＯの指向性を有する双指向性マイクであるＳチャネルマイクと、を含み、正面方向の音と左右方向の音とを収音する。双指向性マイクは、左右２つの方向から収音するマイクであり、一方の方向からの音信号は正相、他方の方向からの音信号は逆相である。ここでは、正相の音信号を収音する方を正チャネルと呼び、逆相の音信号を収音する方を負チャネルと呼ぶ。

音信号変換装置２０は、生成部及び選択部の一例である補正部２１及び変換部２２を含む。補正部２１は、Ｍチャネル及びＳチャネルで収音した音の音信号の何れか一方の位相を他方の位相に合わせるように補正する。変換部２２は、補正部２１で補正された音信号を使用して、Ｍチャネル及びＳチャネルで収音された音の音信号をＬチャネル及びＲチャネルで収音された音の音信号に近似変換する。Ｌチャネルとは、ＸＹ方式マイクの正面左側の音を収音するチャネルであり、Ｒチャネルとは、ＸＹ方式マイクの正面右側の音を収音するチャネルである。

音声処理装置３０は、バッファ３１、音圧差算出部３２、方向判定部３３、発話検出部３４Ｌ及び３４Ｒ、及び音声処理部３５を含む。バッファ３１は、音信号変換装置２０から受信したＬチャネル及びＲチャネルの音信号を一時的に記憶し、音圧差算出部３２、発話検出部３４Ｌ及び３４Ｒに送信する。

音圧差算出部３２は、Ｌチャネルの音信号とＲチャネルの音信号との音圧差を算出し、方向判定部３３は、音圧差算出部３２から受信した音圧差に基づいて音源が存在する方向を判定する。発話検出部３４Ｌは、Ｌチャネルの音信号における発話区間を検出し、発話検出部３４Ｒは、Ｒチャネルの音信号における発話区間を検出する。音声処理部３５は、方向判定部３３により判定された音源、即ち、話者が存在する方向と、発話検出部３４Ｌまたは３４Ｒで検出された発話区間を使用して、認識する音声の切り出しを行う。例えば、話者が存在する方向がＭＳマイク１０の正面右側である場合、Ｒチャネルの音信号だけを音声認識装置４０に送信する。

音声認識装置４０は、音声処理装置３０から受信した音声及び情報を使用して、音声認識を行う。例えば、話者が存在する方向がＭＳマイク１０の正面右側であれば、音声を第１言語として認識し、話者が存在する方向がＭＳマイク１０の正面左側であれば、音声を第２言語として認識する。第１言語は、例えば、英語であってよく、第２言語は、例えば、日本語であってよい。

次に、音信号変換装置２０の動作を説明する。ＸＹ方式マイク（以下、ＸＹマイクという。）は、図３に例示するように、左方向ＬＯの指向性を有する単一指向性マイクであるＬチャネルマイクと、右方向ＲＯの指向性を有する単一指向性マイクであるＲチャネルマイクと、を含む。ＸＹマイクは、左方向の音と右方向の音とを収音する。

（１）式を使用して、ＭＳマイクのＭチャネルで収音された音の音信号Ｖ_Ｍ、及び、Ｓチャネルで収音された音の音信号Ｖ_Ｓを、Ｌチャネルで収音された音の音信号Ｖ_Ｌ、及びＲチャネルで収音された音の音信号Ｖ_Ｒに近似的に変換することができる。変換の際に、Ｓチャネルで収音された音の音信号Ｖ_Ｓの係数ｋを調整することで音の広がり感を調整する。係数ｋが大きいほど、広がり感が生じる。
Ｖ_Ｌ＝（Ｖ_Ｍ＋ｋＶ_Ｓ）／２
Ｖ_Ｒ＝（Ｖ_Ｍ−ｋＶ_Ｓ）／２ …（１）

Ｍチャネルの音信号のスペクトルＦ_Ｍ及びＳチャネルの音信号のスペクトルＦ_Ｓは、（２）式を使用して表すことができる。
Ｆ_Ｍ＝Ｖ_Ｍｒｅ＋ｉＶ_Ｍｉｍ
Ｆ_Ｓ＝Ｖ_Ｓｒｅ＋ｉＶ_Ｓｉｍ …（２）

Ｖ_Ｍｒｅは音信号Ｖ_Ｍの実数部を表す実数であり、Ｖ_Ｍｉｍは音信号Ｖ_Ｍの虚数部を表す実数であり、Ｖ_Ｓｒｅは音信号Ｖ_Ｓの実数部を表す実数であり、Ｖ_Ｓｉｍは音信号Ｖ_Ｓの虚数部を表す実数である。

Ｌチャネルの音圧｜Ｖ_Ｌ｜及びＲチャネルの音圧｜Ｖ_Ｒ｜は、（３）式を使用して算出することができる。
｜Ｖ_Ｌ｜＝１０ｌｏｇ_１０｛（Ｖ_Ｍｒｅ＋ｋＶ_Ｓｒｅ）^２＋（Ｖ_Ｍｉｍ＋ｋＶ_Ｓｉｍ）^２｝
＝１０ｌｏｇ_１０｛（Ｖ_Ｍｒｅ ^２＋Ｖ_Ｍｉｍ ^２）＋ｋ^２（Ｖ_Ｓｒｅ ^２＋Ｖ_Ｓｉｍ ^２）
＋２ｋ（Ｖ_ＭｒｅＶ_Ｓｒｅ＋Ｖ_ＭｉｍＶ_Ｓｉｍ）｝
｜Ｖ_Ｒ｜＝１０ｌｏｇ_１０｛（Ｖ_Ｍｒｅ−ｋＶ_Ｓｒｅ）^２＋（Ｖ_Ｍｉｍ−ｋＶ_Ｓｉｍ）^２｝
＝１０ｌｏｇ_１０｛（Ｖ_Ｍｒｅ ^２＋Ｖ_Ｍｉｍ ^２）＋ｋ^２（Ｖ_Ｓｒｅ ^２＋Ｖ_Ｓｉｍ ^２）
＋２ｋ（Ｖ_Ｍｒｅ・（−Ｖ_Ｓｒｅ）＋Ｖ_Ｍｉｍ・（−Ｖ_Ｓｉｍ））｝ …（３）

即ち、Ｌチャネルの音圧は、Ｍチャネルの音圧Ｖ_Ｍｒｅ ^２＋Ｖ_Ｍｉｍ ^２、Ｓチャネルの音圧Ｖ_Ｓｒｅ ^２＋Ｖ_Ｓｉｍ ^２、及び、Ｍチャネルの音とＳの正チャネルの音の内積Ｖ_ＭｒｅＶ_Ｓｒｅ＋Ｖ_ＭｉｍＶ_Ｓｉｍの合計で近似される。一方、Ｒチャネルの音圧は、Ｍチャネルの音圧Ｖ_Ｍｒｅ ^２＋Ｖ_Ｍｉｍ ^２、Ｓチャネルの音圧Ｖ_Ｓｒｅ ^２＋Ｖ_Ｓｉｍ ^２、及び、Ｍチャネルの音とＳの負チャネルの音の内積Ｖ_Ｍｒｅ・（−Ｖ_Ｓｒｅ）＋Ｖ_Ｍｉｍ・（−Ｖ_Ｓｉｍ）の合計で近似される。

したがって、Ｍチャネルの音信号とＳの正チャネルの音信号の内積Ｖ_ＭｒｅＶ_Ｓｒｅ＋Ｖ_ＭｉｍＶ_Ｓｉｍが大きいほど、即ち、Ｍチャネルの音信号とＳの正チャネルの音信号とが類似していると、Ｌチャネルの音圧が大きくなる。一方、Ｍチャネルの音信号とＳの負チャネルの音信号の内積Ｖ_Ｍｒｅ・（−Ｖ_Ｓｒｅ）＋Ｖ_Ｍｉｍ・（−Ｖ_Ｓｉｍ）が大きいほど、即ち、Ｍチャネルの音信号とＳの負チャネルの音信号とが類似していると、Ｒチャネルの音圧が大きくなる。

図４に例示するように、ＭＳマイクの正面右側に音源ＳＳが存在する場合、ＭチャネルとＳの負チャネル（以下、−Ｓチャネルともいう。）とで類似した音が収音される。しかしながら、音源ＳＳとＭＳマイクまでの距離がＭチャネルではＤ_Ｍ１であり、−ＳチャネルではＤ_Ｓ１であるため、Ｍチャネルの音信号と−Ｓチャネルの音信号とは位相が異なる。即ち、Ｍチャネルの音信号は、距離｜Ｄ_Ｍ１−Ｄ_Ｓ１｜の分だけ位相が遅延する。

但し、距離｜Ｄ_Ｍ１−Ｄ_Ｓ１｜は短い。したがって、図５に例示するように、遅延量Ｄ１も小さいため、Ｍチャネルの音信号と−Ｓチャネルの音信号との類似度は、Ｍチャネルの音信号と−Ｓチャネルの音信号を反転した音信号であるＳチャネルの音信号との類似度よりも大きい。したがって、Ｍチャネルの音信号及び−Ｓチャネルの音信号から算出されるＲチャネルの音圧は大きく、Ｍチャネルの音信号及びＳチャネルの音信号から算出されるＬチャネルの音圧は小さいため、音源ＳＳがＭＳマイクの正面右側に存在する、と判定される。なお、図５では、動作の理解を容易にするため、音信号を正弦波で表している。

ＭＳマイクを使用する場合に、図６に例示する仰角ＥＡが大きくなると、音圧差の算出精度が低下し、音源が存在する方向の判定が困難となる。仰角とは、ＭＳマイクを含む水平面とＭＳマイクと音源とをつなぐ直線とがなす角度であり、音源がユーザである場合、ユーザの背の高さ、及び、ユーザとＭＳマイクとの距離によって変動する。

図７に、音源の位置をＭＳマイクの正面左側９０°、４５°、正面即ち０°、正面右側４５°、９０°に設定し、各々で、音源の位置を仰角が０°（ＥＡ０）及び９０°（ＥＡ９０）とし、音源から同じ音を発生させて音圧差を測定した結果を示す。音源がＭＳマイクの正面左側９０°、正面、及び、正面右側９０°の位置に存在する場合は、仰角が０°（ＥＡ０）であっても、９０°（ＥＡ９０）であっても、音源の位置が適切に判定されている。

また、音源がＭＳマイクの正面左側４５°及び正面右側４５°に存在する場合、仰角が０°（ＥＡ０）であれば、音源の位置は適切に判定されている。しかしながら、音源がＭＳマイクの正面左側４５°及び正面右側４５°に存在する場合、仰角が９０°（ＥＡ９０）であると、音源の方向が適切に判定されていない。

図８に例示するように、ＭチャネルマイクがＳチャネルマイクの上に配置されている場合に、仰角の角度が大きいと、仰角によっても距離｜Ｄ_Ｍ２−Ｄ_Ｓ２｜の分だけ音信号の位相差が発生する。ＭチャネルマイクとＳチャネルマイクとを左右に配置する場合、水平角によって同様の問題が発生する。

図９に例示するように、水平角による位相の遅延Ｄ１と、仰角による位相の遅延Ｄ２の合計が音源からの音信号の半波長に近付くと、Ｍチャネルの音信号と、−Ｓチャネルの反転信号であるＳチャネルの音信号との類似度が大きくなる。これにより、Ｌチャネルの音圧が大きくなり、ＭＳマイクの左側に音源が存在すると誤判定される。一方、−Ｓチャネルの音信号とＭチャネルの音信号との類似度は、Ｍチャネルの音信号の遅延により低くなり、Ｒチャネルの音圧は小さくなる。

なお、図１０及び図１１に例示するように、上方向から見た場合、ＭチャネルマイクとＳチャネルマイクとは中心位置が近い。したがって、左右のずれ、即ち、水平角θ_Ｈの大きさに拘わらず、音源ＳＳとＭチャネルマイクとの距離Ｄ_Ｍと、音源ＳＳとＳチャネルマイクとの距離Ｄ_Ｓと、の差｜Ｄ_Ｍ−Ｄ_Ｓ｜は小さい。

一方、図１２及び図１３に例示するように、横方向から見た場合、上方向から見た場合と比較して、Ｍチャネルマイクの中心位置とＳチャネルマイクの中心位置とは遠い。したがって、音源ＳＳとＭチャネルマイクとの距離Ｄ_Ｍと、音源ＳＳとＳチャネルマイクとの距離Ｄ_Ｓと、の差｜Ｄ_Ｍ−Ｄ_Ｓ｜は大きい。差｜Ｄ_Ｍ−Ｄ_Ｓ｜は、仰角θ_Ｅが大きくなるほど大きくなるため、通常、大きい仰角でのＭＳマイクの使用は推奨されない。

例えば、図１４の例では、ＭＳマイクの正面右側に音源があり、Ｍチャネルの音信号と−Ｓチャネルの音信号とが類似している。例えば、Ｍチャネルの極値ＰＭと−Ｓチャネルの極値ＰＳ２とが対応し、Ｓチャネルの極値ＰＳ１は、極値ＰＳ２を反転した値をもつ。しかしながら、Ｍチャネルの音信号は遅延しているため、Ｍチャネルの音信号と−Ｓチャネルの音信号から近似されるＲチャネルの音圧は小さくなる。一方、破線ＢＬで示すように、極大値だけを比較すると、Ｍチャネルの音信号とＳチャネルの音信号とは見かけ上類似し、Ｍチャネルの音信号とＳチャネルの音信号から近似されるＬチャネルの音圧が大きくなる。

図１５に例示するように、補正部２１は、反転部５１、位相シフト部５３、類似度算出部５４、及び信号選択部５５を含む。本実施例では、適切なチャネルの音圧が大きくなるように、Ｓチャネルの音信号及び−Ｓチャネルの音信号の位相を基準としてＭチャネルの音信号の位相を補正する。反転部５１は、Ｓチャネルの音信号を反転して−Ｓチャネルの音信号を生成する。

位相シフト部５３は、Ｍチャネルの音信号の位相を第１所定量ずつシフトする。類似度算出部５４は、シフトしたＭチャネルの音信号と、Ｓチャネル及び−Ｓチャネルの音信号との類似度を算出する。信号選択部５５は、類似度が最大となる補正シフト量を選択し、Ｓチャネル及び−Ｓチャネルのうち、類似度が最大となるチャネルを選択する。図１６に、Ｍチャネルの音信号の位相を進み方向にシフトしたシフト信号Ｖ_Ｍ＋及び遅れ方向にシフトしたシフト信号Ｖ_Ｍ−を例示する。

（４）式は、音信号Ｖ_Ｍの位相、ここでは、デジタル信号である音信号Ｖ_Ｍにおけるサンプルをシフトした信号であるシフト信号Ｖ_ＭＨを示す。Ｖ_ＭＨ（ｔ，ｐ）はサンプルｔの信号Ｖ_Ｍの位相をｐサンプル分シフトした信号であり、ｔは何番目のサンプルであるかを表し、ｐはシフトするサンプル数を表す。シフトするサンプル数の範囲は、例えば、−ｎｎ≦ｐ≦ｎｎであってよく、ｎｎは、例えば、７であってよい。
Ｖ_ＭＨ（ｔ，ｐ）＝Ｖ_Ｍ（ｔ＋ｐ） …（４）

対話音声を認識する場合、音声の取得にタブレットなどの小型端末を使用することが多い。タブレットで使用されるＭＳマイクは小型であるため、ＭチャネルマイクとＳチャネルマイクとの間の距離は、一般に５ｃｍよりも短い。マイク間の音の到達時間差は、例えば、（５）式で算出される。
マイク間の音の到達時間差＝最大マイク間距離／音速 …（５）

マイク間の距離を５ｃｍであると仮定すると、音信号の位相差は、例えば、（６）式で算出されるように、７．２５サンプルとなる。
マイク間の到達時間差＝５［ｃｍ］／３３１［ｍ／ｓ］
＝０．０５［ｍ］／３３１［ｍ／ｓ］
＝１．５１×１０^−４［ｓ］ …（６）

サンプリング周波数が４８［ｋＨｚ］である場合、位相差サンプル数は、例えば、（７）式で算出される。
位相差［サンプル］＝４８０００×１．５１×１０^−４≒７．２５［サンプル］
…（７）

類似度算出部５４は、類似度として、例えば、音信号Ｖ_ＭＨとＶ_Ｓとの２信号間の相互相関係数及び音信号Ｖ_ＭＨとＶ_−Ｓとの２信号間の相互相関係数を算出する。音信号Ｖ_ＭＨとＶ_Ｓとの２信号間の相互相関係数は、例えば、（８）式を使用して算出することができ、相互相関係数は、２信号が類似している程度を表す。相互相関係数が１に近いほど２信号は類似しており、０に近いほど２信号は類似していない。

Ｃ_＋は音信号Ｖ_ＭＨとＶ_Ｓとの相互相関係数であり、Ｃ_＋（ｐ，ｔ）はシフトするサンプル数がｐであり、サンプル時点がｔである場合の相互相関係数であり、Ｖ_ＭＨは位相シフトした音信号Ｖ_Ｍである。Ｎは相互相関の計算範囲長さであり、Ｖ_ＭＨバーは、信号Ｖ_ＭＨ（ｔ−ｎ，ｐ）のｎ＝０〜Ｎ−１における平均値であり、Ｖ_Ｓバーは、信号Ｖ_Ｓ（ｔ−ｎ）のｎ＝０〜Ｎ−１における平均値である。ｓｄ（Ｖ_ＭＨ）は、信号Ｖ_ＭＨ（ｔ−ｎ，ｐ）のｎ＝０〜Ｎ−１における標準偏差であり、ｓｄ（Ｖ_Ｓ）は、信号Ｖ_Ｓ（ｔ−ｎ）のｎ＝０〜Ｎ−１における標準偏差である。

Ｎは、例えば、０．１秒に相当するサンプル数であってよい。Ｃ₋（ｐ，ｔ）＝−Ｃ_＋（ｐ，ｔ）であり、Ｃ₋（ｐ，ｔ）は、シフトするサンプル数がｐであるサンプル時点ｔにおける音信号Ｖ_ＭＨとＶ_−Ｓとの相互相関係数である。

信号選択部５５は、算出した相互相関係数Ｃ_＋（ｐ，ｔ）及びＣ₋（ｐ，ｔ）のうち、最大の値を選択し、最大の値の相互相関係数に応じて、Ｓチャネルまたは−Ｓチャネルの何れかを選択信号として選択し、Ｍチャネルの音信号をシフトするサンプル数を選択する。（９）式に例示するように、ｐｐサンプル分シフトしたＭチャネルの音信号Ｖ_ＭＨと、選択されたＳチャネルまたは−Ｓチャネルの音信号とを、近似的にＬチャネルの音信号とＲチャネルの音信号とに変換する。
Ｖ_Ｌ＝（Ｖ_ＭＨ＋ｋＶ_Ｓ）／２
Ｖ_Ｒ＝（Ｖ_ＭＨ−ｋＶ_Ｓ）／２ …（９）
ここでは、音の広がり感を調整しなくてよいため、左右の違いが最も顕著となるようにｋ＝１．０であってよい。

図１７では、音信号の波形が正弦波であると仮定する。この場合、Ｍチャネルの音信号がＤ１＋Ｄ２分遅延した状態でＬチャネルの音信号とＲチャネルの音信号とに近似変換すると、図１８に例示するように、Ｌチャネル及びＲチャネル共に音圧が小さくなる。一方、図１９に例示するように、Ｍチャネルの音信号の位相を類似度が大きい方のチャネルと合うように補正した後、即ち、−Ｓチャネルとの位相差が０となるように補正した後、Ｌチャネルの音信号とＲチャネルの音信号とに近似変換する。この場合、図２０に例示するように、Ｒチャネルの音圧が大きくなり、一方、Ｌチャネルの音圧は小さくなる。Ｍチャネルの音信号と−Ｓチャネルの音信号とが同相となり、Ｍチャネルの音信号とＳチャネルの音信号とが逆相となるためである。

Ｍチャネルの音信号Ｖ_ＭとＳチャネルの音信号Ｖ_Ｓとが、違いが位相差のみである正弦波であると仮定すると、Ｍチャネルの音信号Ｖ_ＭとＳチャネルの音信号Ｖ_Ｓは、（１０）式で表される。音信号Ｖ_Ｍの振幅をＡ_Ｍ、音信号Ｖ_Ｓの振幅をＡ_Ｓとし、ωは角周波数を表し、ｔは時間を表し、ｄは位相の遅延量を表す。
Ｖ_Ｍ＝Ａ_Ｍｃｏｓωｔ
Ｖ_Ｓ＝Ａ_Ｓｃｏｓω（ｔ−ｄ） …（１０）

ｋ＝１とした場合、音信号Ｖ_Ｌ及びＶ_Ｒは（１１）式で算出される。（１１）式において、ψ_１及びψ_２は、（１２）式を満たす角度である。

（１１）式で表されるように、音信号Ｖ_Ｌ及びＶ_Ｒの角周波数は元の音信号Ｖ_Ｍ及びＶ_Ｓと同様であり、位相及び振幅が変化する。音信号Ｖ_Ｓの位相がＶ_Ｍの位相に合うように補正し、振幅の差が最大となるＶ_Ｌ及びＶ_Ｒは、（１３）式で算出される（ｄ＝０）。
Ｖ_Ｌ＝（Ａ_Ｍ＋Ａ_Ｓ）／２ｃｏｓ（ωｔ）
Ｖ_Ｒ＝（Ａ_Ｍ−Ａ_Ｓ）／２ｃｏｓ（ωｔ） …（１３）

音信号Ｖ_−Ｓの位相がＶ_Ｍの位相に合うように補正し、振幅の差が最大となるＶ_Ｌ及びＶ_Ｒは、（１４）式で算出される（ｄ＝π／ω）。
Ｖ_Ｌ＝（Ａ_Ｍ−Ａ_Ｓ）／２ｃｏｓ（ωｔ）
Ｖ_Ｒ＝（Ａ_Ｍ＋Ａ_Ｓ）／２ｃｏｓ（ωｔ） …（１４）

（１３）式及び（１４）式で表されるように、位相差を補正することで、Ｌチャネルの音信号とＲチャネルの音信号との音圧差が適切に現れるようになる。図２１に例示するように、音源がＭＳマイクの正面右側４５°、仰角が９０°であって、位相差を補正しない場合、音源が右側に存在することを適切に判定していない（ＥＡ９０ＲＡ）。しかしながら、位相差を補正すると、音源が右側に存在することを、仰角が０°である場合（ＥＡ０）と同程度に適切に判定する（ＥＡ９０（ＴＡ））。

なお、類似度は、相互相関係数でなくてもよい。例えば、Ｍチャネルの音信号、Ｓチャネル、及び−Ｓチャネルの音信号を各々周波数領域信号に変換する。Ｍチャネルの周波数領域信号とＳチャネルの周波数領域信号とから算出される位相差、及び、Ｍチャネルの周波数領域信号と−Ｓチャネル信号の周波数領域信号とから算出される位相差、を類似度として使用してもよい。

音信号変換装置１０は、一例として、図２２に示すように、ＣＰＵ（Central Processing Unit）６１、一次記憶部６２、二次記憶部６３、及び、外部インターフェイス６４を含む。ＣＰＵ６１は、ハードウェアであるプロセッサの一例である。ＣＰＵ６１、一次記憶部６２、二次記憶部６３、及び、外部インターフェイス６４は、バス６９を介して相互に接続されている。

一次記憶部６２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部６３は、例えば、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

二次記憶部６３は、プログラム格納領域６３Ａ及びデータ格納領域６３Ｂを含む。プログラム格納領域６３Ａは、一例として、音信号変換プログラムなどのプログラムを記憶している。データ格納領域６３Ｂは、一例として、ＭＳマイク１０で収音される音に対応する音信号及び音信号変換プログラムを実行している間に生成される中間データなどを記憶する。

ＣＰＵ６１は、プログラム格納領域６３Ａから音信号変換プログラムを読み出して一次記憶部６２に展開する。ＣＰＵ６１は、音信号変換プログラムをロードして実行することで、図１の補正部２１及び変換部２２として動作する。詳細には、ＣＰＵ６１は、図１５の反転部５１、位相シフト部５３、類似度算出部５４及び信号選択部５５として動作する。

なお、音信号変換プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部６２に展開されてもよい。また、音信号変換プログラムなどのプログラムは、ＤＶＤ（Digital Versatile Disc）などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部６２に展開されてもよい。

外部インターフェイス６４には外部装置が接続され、外部インターフェイス６４は、外部装置とＣＰＵ６１との間の各種情報の送受信を司る。図２２では、外部インターフェイス６４に、ＭＳマイク１０及び音声処理装置３０が接続され、音声処理装置３０に音声認識装置４０が接続されている例を示している。

しかしながら、ＭＳマイク１０、音声処理装置３０及び音声認識装置４０は、音信号変換装置２０に内蔵されていてもよい。また、ＭＳマイク１０、音声処理装置３０及び音声認識装置４０の１つまたは２つが、音信号変換装置２０に内蔵されていてもよい。

また、音信号変換装置２０は、例えば、専用装置であってもよいし、ワークステーション、パーソナルコンピュータ、またはタブレットであってもよい。ＭＳマイク１０、音信号変換装置２０、音声処理装置３０及び音声認識装置４０は、無線または有線で接続されていてもよい。また、音信号変換装置２０は、クラウド上に存在していてもよい。

次に、音信号変換処理の作用の概要を説明する。図２３は、音信号変換処理の流れを例示する。ＣＰＵ６１は、ステップ１０１で、ＭＳマイク１０で収音された音に対応する音信号を取得し、ステップ１０２で、Ｓチャネルで取得された音に対応する音信号を反転して−Ｓチャネルの音信号を生成する。

ＣＰＵ６１は、ステップ１０３で、変数ｐに−ｎｎを設定する。ｎｎは、例えば、７であってよい。ＣＰＵ６１は、ステップ１０４で、Ｍチャネルの音信号Ｖ_Ｍの位相を変数ｐの値のサンプル分シフトする。ＣＰＵ６１は、ステップ１０５で、シフトしたＭチャネルの音信号Ｖ_ＭとＳチャネルの音信号Ｖ_Ｓとの類似度及び音信号Ｖ_Ｍと−Ｓチャネルの音信号Ｖ_−Ｓとの類似度を算出する。

ＣＰＵ６１は、ステップ１０６で、変数ｐに１を加算し、ステップ１０７で、変数ｐの値がｎｎを超えたか否か判定する。変数ｐに加算される値は、第１所定量の一例であるサンプル数であり、１に限定されず、例えば、２であってもよい。ステップ１０７の判定が否定された場合、ＣＰＵ６１はステップ１０４に戻る。

ステップ１０７の判定が肯定されると、ＣＰＵ６１は、ステップ１０８で、Ｓチャネル及び−Ｓチャネルのうち、算出した類似度のうち最大の類似度に対応するチャネルを、音変換に使用する音信号として選択する。また、ＣＰＵ６１は、最大の類似度に対応するサンプル分位相をシフトした音信号Ｖ_Ｍを、音変換に使用する音信号として選択する。ＣＰＵ６１は、ステップ１０９で、選択した音信号を使用して、Ｌチャネル及びＲチャネルの音信号への近似変換を行う。

本実施形態では、ＭＳ方式マイクロフォンのＭチャネル及び正チャネルへの音の到達距離の差による位相差を解消する第１シフト信号、及びＭチャネル及び負チャネルへの音の到達距離の差による位相差を解消する第２シフト信号を生成する。第１シフト信号及び第２シフト信号の生成は、Ｍチャネルの音信号の位相、または、ＭＳマイクのＳチャネルの正チャネルの音信号の位相とＳチャネルの負チャネルの音信号の位相とに基づいて行われる。

第１シフト信号及び第２シフト信号の各々が正チャネル及び負チャネルの音信号の位相に基づいて生成される場合、第１シフト信号との類似度及び第２シフト信号との類似度のうち、類似度が大きい方のチャネルの音信号を第１選択信号として選択する。かつ、第１シフト信号及び第２シフト信号がＭチャネルの位相に基づいて生成される場合、第１シフト信号及び第２シフト信号のうち、Ｍチャネルの音信号との類似度が大きい方のシフト信号を第２選択信号として選択する。

第１及び第２シフト信号の各々が正チャネル及び負チャネルの音信号の位相に基づいて生成され、第１選択信号が正チャネルの音信号である場合、第１シフト信号と第１選択信号とを、ＸＹ方式マイクロフォンのＬチャネル及びＲチャネルの音信号に近似変換する。ＸＹ方式マイクロフォンは、以下、ＸＹマイクという。第１選択信号が負チャネルの音信号である場合、第２シフト信号と第１選択信号とを、ＸＹマイクのＬチャネル及びＲチャネルの音信号に近似変換する。第１シフト信号及び第２シフト信号がＭチャネルの音信号の位相に基づいて生成される場合、Ｍチャネルの音信号と第２選択信号とを、ＸＹマイクのＬチャネル及びＲチャネル信号に近似変換する。

本実施形態では、Ｍチャネルの音信号と、位相を所定範囲内で第１所定量ずつシフトした位相毎に正チャネルの音信号との類似度を算出し、類似度が最大となる位相の位相量だけ正チャネルの音信号をシフトさせて、第１シフト信号を生成する。または、Ｍチャネルの音信号と、位相を所定範囲内で第１所定量ずつシフトした位相毎に負チャネルの音信号との類似度を算出し、類似度が最大となる位相量だけ負チャネルの音信号をシフトさせて、第２シフト信号を生成する。また、正チャネルの音信号と、位相を所定範囲内で第１所定量ずつシフトした位相毎にＭチャネルの音信号との類似度を算出する。類似度が最大となる位相量だけＭチャネルの音信号をシフトさせて、第１シフト信号を生成する。負チャネルの音信号と、位相を所定範囲内で第１所定量ずつシフトした位相毎にＭチャネルの音信号との類似度を算出し、類似度が最大となる位相量だけＭチャネルの音信号をシフトさせて、第２シフト信号を生成する。

本実施形態によれば、ＭＳ方式マイクロフォンに対する音源の仰角が大きい場合であっても、ＭＳ方式マイクロフォンによって収音した音の音源方向の判定精度を向上させることを可能とする。

本実施形態によれば、ＭＳ方式マイクロフォンによって取得した音の音源方向の判定精度を向上させることを可能とする。

［第２実施形態］
以下、図面を参照して第２実施形態の一例を詳細に説明する。第１実施形態と同様の構成及び作用については、説明を省略する。

第２実施形態では、まず、Ｍチャネルの音信号Ｖ_Ｍの位相を微小シフトさせて、Ｓチャネルの正チャネルの音信号Ｖ_Ｓ及び負チャネルの音信号Ｖ_−Ｓとの類似度を算出する。これにより、類似度に基づいて音信号Ｖ_Ｍの適切なシフト方向を判定し、適切な方向に音信号Ｖ_Ｍの位相をシフトさせることで計算量を削減する。

図２４に例示するように、第２実施形態では、まず、例えば、（１５）式を使用して、音信号Ｖ_Ｍの位相を微小量ｄｄシフトした信号Ｖ_Ｍ＋’、Ｖ_Ｍ−’を生成する。微小量ｄｄは、第２所定量の一例であり、例えば、１サンプルであってよい。
Ｖ_Ｍ＋’（ｔ）＝Ｖ_Ｍ（ｔ−ｄｄ）
Ｖ_Ｍ−’（ｔ）＝Ｖ_Ｍ（ｔ＋ｄｄ） …（１５）

図２５に例示するように、Ｖ_Ｍの微小量シフト信号であるＶ_Ｍ＋’とＳチャネルの音信号Ｖ_Ｓとの類似度Ｃ１（ｔ）、及び、Ｖ_Ｍ＋’と−Ｓチャネルの音信号Ｖ_−Ｓとの類似度Ｃ２（ｔ）を算出する。また、Ｖ_Ｍの微小量シフト信号であるＶ_Ｍ−’と音信号Ｖ_Ｓとの類似度Ｃ３（ｔ）、及びＶ_Ｍ−’と音信号Ｖ_−Ｓとの類似度Ｃ４（ｔ）を算出する。類似度は、上記相互相関係数であってよい。

Ｃ１（ｔ）〜Ｃ４（ｔ）の中で最大である類似度に対応する音信号Ｖ_Ｍのシフト方向を判定し、当該類似度がＳチャネルに対応するか−Ｓチャネルに対応するかを判定する。類似度Ｃ１（ｔ）またはＣ２（ｔ）が最大である場合、位相を進み方向にシフトし、類似度Ｃ３（ｔ）またはＣ４（ｔ）が最大である場合、位相を遅れ方向にシフトさせる。また、類似度Ｃ１（ｔ）またはＣ３（ｔ）が最大である場合、Ｓチャネルを選択し、類似度Ｃ２（ｔ）またはＣ４（ｔ）が最大である場合、−Ｓチャネルを選択する。

図２６に例示するように、選択した方向、ここでは、遅れ方向へ音信号Ｖ_Ｍの位相を所定サンプル数ずつシフトする。所定サンプル数は１であってよい。図２７に例示するようにシフト信号と−Ｓチャネルの音信号との類似度が値ＭＶの極大点ＥＰをとる際にシフトしたサンプル数を補正シフト量ＳＨとし、音信号Ｖ_Ｍの位相を当該補正シフト量ＳＨシフトしたシフト信号を生成する。図２５の例では、シフト信号Ｖ_Ｍ−’と−Ｓチャネルの音信号の類似度であるＣ４が最も大きいため、音信号Ｖ_Ｍの位相を遅らせる方向に少しずつシフトする。生成したシフト信号及び−Ｓチャネルの音信号を使用して、Ｌチャネル及びＲチャネルの音信号に変換する。

次に、音信号変換処理の作用の概要を説明する。図２８は、音信号変換処理の流れを例示する。ステップ１０１及びステップ１０２は、図２３のステップ１０１及び１０２と同様であるため、説明を省略する。

ＣＰＵ６１は、ステップ１４１で、Ｍチャネルの音信号Ｖ_Ｍの位相を進める方向と位相を遅らせる方向とに微小量シフトし、ステップ１４２で、シフトした音信号Ｖ_Ｍ＋’及びＶ_Ｍ−’とＳチャネル及び−Ｓチャネルの音信号との類似度Ｃ１〜Ｃ４を算出する。ＣＰＵ６１は、ステップ１４３で、類似度Ｃ１〜Ｃ４のうち最大の類似度に対応するように、音信号Ｖ_Ｍの位相をシフトするシフト方向を決定し、Ｓチャネルの音信号を使用するか、−Ｓチャネルの音信号を使用するかを決定する。

ＣＰＵ６１は、ステップ１４４で、変数ｐｐに１を設定する。ＣＰＵ６１は、ステップ１４５で、Ｍチャネルの音信号Ｖ_Ｍの位相を変数ｐｐの値のサンプル分、シフト方向にシフトする。ＣＰＵ６１は、ステップ１４６で、シフトしたＭチャネルの音信号Ｖ_ＭＨとＳチャネルの音信号Ｖ_Ｓとの類似度、または、音信号Ｖ_ＭＨと−Ｓチャネルの音信号Ｖ_−Ｓとの類似度を算出する。何れの類似度を算出するかは、ステップ１４３の決定に従う。

本実施形態では、ステップ１４７で、類似度が極大値であると判定した場合、即ち、１つ前の位相のシフトから類似度が低下した場合、ステップ１４９に進み、変数ｐｐから１を減算し、ステップ１５０に進む。１つ前の補正シフト量が、類似度が極大値を示す補正シフト量であるためである。ＣＰＵ６１は、ステップ１５０で、Ｓチャネル及び−Ｓチャネルのうち、ステップ１４３で決定されたチャネルを、音変換に使用する選択信号として選択する。ＣＰＵ６１は、変数ｐｐの値に対応するサンプル分位相を、ステップ１４３で決定された方向にシフトした音信号Ｖ_ＭＨを、音変換に使用する選択信号として選択する。

ステップ１４５の判定が否定された場合、ＣＰＵ６１は、ステップ１４５に戻る。ステップ１０９は、図２３のステップ１０９と同様であるため、説明を省略する。なお、本実施形態では、類似度の極大値を検出した時点で、ステップ１４９に進むようにしているが、変数ｐｐの値が所定値を超えても極大値が検出できない場合、エラーとして処理を中止するようにしてもよい。また、変数ｐｐの値が所定値を超えたときに、類似度のうち、最大値を極大値としてもよい。

本実施形態では、Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした正チャネルの音信号との類似度、及び、Ｍチャネルの音信号と位相を遅れ方向に第２所定量シフトした正チャネルの音信号との類似度を算出する。類似度が大きい方向に正チャネルの音信号を第１所定量ずつシフトさせる。また、Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした負チャネルの音信号との類似度、及び、Ｍチャネルの音信号と位相を遅れ方向に第２所定量シフトした負チャネルの音信号との類似度を算出する。類似度が大きい方向に負チャネルの音信号を第１所定量ずつシフトさせる。もしくは、正チャネルの音信号と位相を進み方向に第２所定量シフトしたＭチャネルの音信号との類似度、及び、正チャネルの音信号と位相を遅れ方向に第２所定量シフトしたＭチャネルの音信号との類似度を算出する。類似度が大きい方向にＭチャネルの音信号を第１所定量ずつシフトさせる。また、負チャネルの音信号と位相を進み方向に第２所定量シフトしたＭチャネルの音信号との類似度、及び、負チャネルの音信号と位相を遅れ方向に第２所定量シフトしたＭチャネルの音信号との類似度を算出する。類似度が大きい方向にＭチャネルの音信号を第１所定量ずつシフトさせる。

第２実施形態では、位相のシフト方向を決定することで、計算回数を低減し、処理の負荷を低減することが可能となる。

［第３実施形態］
以下、図面を参照して第３実施形態の一例を詳細に説明する。第１実施形態及び第２実施形態と同様の構成及び作用については、説明を省略する。

第３実施形態では、音信号の位相の補正シフト量から音源のＭＳマイクに対する仰角を推定し、仰角が所定角度以内である場合のみ、音信号の位相の補正を行う。

図２９に例示するように、Ｍチャネルマイクの位置をＰ_Ｍ、Ｓチャネルマイクの位置をＰ_Ｓ、音源の位置をＰ_Ａ、ＭＳマイクの中心位置をＰ_Ｏとする。Ｐ_Ｓから直線Ｐ_ＡＰ_Ｏに降ろした垂線との交点をＰ_Ｓ’、Ｐ_Ｍから直線Ｐ_ＡＰ_Ｏの延長線上に降ろした垂線との交点をＰ_Ｍ’とする。

仰角θ_Ｅは、例えば、（１６）式で算出される。
θ_Ｅ＝ａｒｃｓｉｎ[ｐ_Ｄ×ｖｓ／｛ＦＳ×（Δｓ＋Δｍ）｝］ …（１６）
ここで、ｐ_Ｄは、音信号Ｖ_ＭとＶ_Ｓまたは音信号Ｖ_ＭとＶ_−Ｓの位相を一致させるために、シフトした位相のサンプル数である補正シフト量であり、ＦＳはサンプリング周波数「Ｈｚ］である。Δｓは予め測定した距離｜Ｐ_ＳＰ_Ｏ｜であり、Δｍは予め測定した距離｜Ｐ_ＭＰ_Ｏ｜でありｖｓは音速［ｍ／ｓｅｃ］である。

通常、ＭチャネルマイクとＳチャネルマイクとの間の距離｜Ｐ_ＳＰ_Ｍ｜よりもＭＳマイクと音源ＳＳとの間の距離｜Ｐ_ＡＰ_Ｏ｜の方が長いため、θ_Ｓ及びθ_Ｍは微小となる。θ_Ｓ及びθ_Ｍは微小なため、ｃｏｓθ_Ｓ≒１、ｃｏｓθ_Ｍ≒１であり、（１７）式で示すように近似することができる。
｜Ｐ_ＡＰ_Ｓ’｜＝｜Ｐ_ＡＰ_Ｓ｜ｃｏｓθ_Ｓ≒｜Ｐ_ＡＰ_Ｓ｜
｜Ｐ_ＡＰ_Ｍ’｜＝｜Ｐ_ＡＰ_Ｍ｜ｃｏｓθ_Ｍ≒｜Ｐ_ＡＰ_Ｍ｜ …（１７）

Ｍチャネルマイクと音源ＳＳとの距離と、Ｓチャネルマイクと音源ＳＳとの距離と、の差は、（１８）式で算出される。
｜Ｐ_ＡＰ_Ｍ｜−｜Ｐ_ＡＰ_Ｓ｜≒｜Ｐ_ＡＰ_Ｍ’｜−｜Ｐ_ＡＰ_Ｓ’｜
＝｜Ｐ_Ｍ’Ｐ_Ｏ｜＋｜Ｐ_Ｓ’Ｐ_Ｏ｜
＝Δｍｓｉｎθ_Ｅ＋Δｓｓｉｎθ_Ｅ
＝（Δｍ＋Δｓ）ｓｉｎθ_Ｅ …（１８）

Ｍチャネルマイクと音源ＳＳとの距離と、Ｓチャネルマイクと音源ＳＳとの距離と、の差と、補正シフト量ｐ_Ｄとの関係は、（１９）式で表される。
ｐ_Ｄ＝（｜Ｐ_ＡＰ_Ｍ｜−｜Ｐ_ＡＰ_Ｓ｜）×ＦＳ／ｖｓ
＝（Δｍ＋Δｓ）ｓｉｎθ_Ｅ×ＦＳ／ｖｓ …（１９）

本実施形態では、ＭチャネルマイクとＳチャネルマイクとが上下に配置されている場合に、仰角が予め定めた範囲内であるか否かを判定する。仰角が予め定めた範囲内である場合に、音信号変換に、Ｓチャネルまたは−Ｓチャネルの音信号の位相と合うように、位相をシフトして補正したＭチャネルの音信号Ｖ_ＭＨを使用する。即ち、ＭチャネルマイクとＳチャネルマイクとが上下に配置され、かつ、仰角が所定範囲内である場合、音信号Ｖ_ＭＨ及びＳチャネルのうち選択された正チャネルまたは負チャネルの音信号を使用して、Ｌチャネル及びＲチャネルの音信号への近似変換を行う。一方、仰角が所定範囲外である場合、補正していない元の音信号Ｖ_Ｍ及び、Ｖ_Ｓ及びＶ_−Ｓを使用して、Ｌチャネル及びＲチャネルの音信号への近似変換を行う。

音声以外の雑音が大きい場合などに、Ｍチャネルの音信号の補正シフト量を適切に決定できない場合があり得る。ＭＳマイクの使用方法で仰角が取り得る範囲を予め知ることができるので、取り得る範囲から仰角が外れている場合は、補正シフト量が誤っていると判断し、補正していない信号を使用する。

例えば、図３０に例示するハンズフリー音声翻訳の場合、ＭＳマイク１０の高さＨＴ１が１００ｃｍ、ＭＳマイク１０から話者までの距離ＤＰが３０ｃｍ〜１００ｃｍ、話者の口までの高さＨＴ２が１００ｃｍ〜２００ｃｍであるとする。この場合、仰角が取り得る範囲は、０°〜７３°である。０°は話者の口までの高さＨＴ２が１００ｃｍである場合、７３°は、ＭＳマイク１０から話者までの距離ＤＰが３０ｃｍであり、かつ、話者の口までの高さＨＴ２が２００ｃｍである場合である。

図３０に示す例では、仰角が０°〜７３°の範囲内である場合、音信号Ｖ_ＭＨ及びＳチャネルのうち選択された正チャネルまたは負チャネルの音信号を使用して、Ｌチャネル及びＲチャネルの音信号への近似変換を行う。一方、仰角が０°〜７３°の範囲内ではない場合、補正していないＭチャネル及びＳチャネルの音信号Ｖ_Ｍ、Ｖ_Ｓ及びＶ_−Ｓを使用して、Ｌチャネル及びＲチャネルの音信号に変換する。

次に、音信号変換処理の作用の概要を説明する。図３１は、音信号変換処理の流れを例示する。ステップ１０１〜ステップ１０９は、図２３のステップ１０１〜１０９と同様であるため、説明を省略する。ＣＰＵ６１は、ステップ１２１で、補正シフト量を使用して仰角を推定する。

ＣＰＵ６１は、ステップ１２２で、推定された仰角が所定範囲内であるか否か判定する。ステップ１２２の判定が肯定された場合、即ち、仰角が所定範囲内である場合、補正シフト量は適切であると判定し、Ｌチャネル及びＲチャネルの音信号に近似変換するために位相が補正された音信号を使用する。ステップ１２２の判定が否定された場合、即ち、仰角が所定範囲内でない場合、補正シフト量は適切でないと判定し、Ｌチャネル及びＲチャネルの音信号に近似変換するために補正されていない元の音信号を使用する。

第３実施形態では、推定された仰角が所定範囲内でない場合、音信号の位相の補正シフト量の決定が適切に行われなかったと判定し、音信号の位相の補正を行わない。これにより、誤った位相の補正が行われた音信号で、不適切な音源方向の判定が行われることを防ぐことができる。

なお、第１〜第３実施形態では、Ｓチャネル及び−Ｓチャネルの音信号の位相に対してＭチャネルの音信号の位相をシフトする例について説明したが、Ｍチャネルの音信号の位相に対してＳチャネル及び−Ｓチャネルの音信号の位相をシフトするようにしてもよい。

本実施形態では、第１実施形態に適用する例について説明したが、本実施形態は、第２実施形態に適用されてもよい。図２３、２８及び３１のフローチャートは、例示であり、処理の順序は適宜入れ替えることができる。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
ＭＳ方式マイクのＭチャネルの音信号の位相、または、前記ＭＳ方式マイクのＳチャネルの正チャネルの音信号の位相と前記Ｓチャネルの負チャネルの音信号の位相とに基づいて、前記Ｍチャネル及び前記正チャネルへの音の到達距離の差による位相差を解消する第１シフト信号、及び前記Ｍチャネル及び前記負チャネルへの音の到達距離の差による位相差を解消する第２シフト信号を生成し、
前記第１シフト信号または前記第２シフト信号を、ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する、
音信号変換処理をコンピュータに実行させるプログラム。
（付記２）
前記第１シフト信号及び前記第２シフト信号の各々が前記正チャネルの音信号の位相及び前記負チャネルの音信号の位相に基づいて生成される場合、前記第１シフト信号との類似度及び前記第２シフト信号との類似度のうち、類似度が大きい方のチャネルの音信号を第１選択信号として選択し、
前記第１選択信号が前記正チャネルの音信号である場合、前記第１シフト信号と前記第１選択信号とを、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換し、
前記第１選択信号が前記負チャネルの音信号である場合、前記第２シフト信号と前記第１選択信号とを、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換し、
前記第１シフト信号及び前記第２シフト信号が前記Ｍチャネルの位相に基づいて生成される場合、前記第１シフト信号及び前記第２シフト信号のうち、前記Ｍチャネルの音信号との類似度が大きい方のシフト信号を第２選択信号として選択し、
前記Ｍチャネルの音信号と前記第２選択信号とを、前記ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する、
付記１のプログラム。
（付記３）
前記Ｍチャネルの音信号と、位相を所定範囲内で第１所定量ずつシフトした位相毎に前記正チャネルの音信号との類似度を算出し、前記類似度が最大となる位相の位相量だけ前記正チャネルの音信号をシフトさせて、前記第１シフト信号を生成し、前記Ｍチャネルの音信号と、前記位相を前記所定範囲内で前記第１所定量ずつシフトした位相毎に前記負チャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記負チャネルの音信号をシフトさせて、前記第２シフト信号を生成するか、
前記正チャネルの音信号と、位相を前記所定範囲内で第１所定量ずつシフトした位相毎に前記Ｍチャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記Ｍチャネルの音信号をシフトさせて、前記第１シフト信号を生成し、前記負チャネルの音信号と、前記位相を前記所定範囲内で第１所定量ずつシフトした位相毎に前記Ｍチャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記Ｍチャネルの音信号をシフトさせて、前記第２シフト信号を生成する、
付記２のプログラム。
（付記４）
前記Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした前記正チャネルの音信号との類似度、及び、前記Ｍチャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記正チャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記正チャネルの音信号を前記第１所定量ずつシフトさせ、前記Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした前記負チャネルの音信号との類似度、及び、前記Ｍチャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記負チャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記負チャネルの音信号を前記第１所定量ずつシフトさせるか、
前記正チャネルの音信号と位相を進み方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度、及び、前記正チャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記Ｍチャネルの音信号を前記第１所定量ずつシフトさせ、前記負チャネルの音信号と位相を進み方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度、及び、前記負チャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記Ｍチャネルの音信号を前記第１所定量ずつシフトさせる、
付記３のプログラム。
（付記５）
前記類似度は、相互相関係数である、付記２〜付記４の何れかのプログラム。
（付記６）
前記第１シフト信号及び第２シフト信号を生成する際の位相のシフト量から推定される、前記ＭＳ方式マイクに対する音源の仰角が所定範囲内である場合に前記近似変換を行う、
付記２〜付記５の何れかのプログラム。
（付記７）
コンピュータが、
ＭＳ方式マイクのＭチャネルの音信号の位相、または、前記ＭＳ方式マイクのＳチャネルの正チャネルの音信号の位相と前記Ｓチャネルの負チャネルの音信号の位相とに基づいて、前記Ｍチャネル及び前記正チャネルへの音の到達距離の差による位相差を解消する第１シフト信号、及び前記Ｍチャネル及び前記負チャネルへの音の到達距離の差による位相差を解消する第２シフト信号を生成し、
前記第１シフト信号または前記第２シフト信号を、ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する、
音信号変換方法。
（付記８）
前記第１シフト信号及び前記第２シフト信号の各々が前記正チャネルの音信号の位相及び前記負チャネルの音信号の位相に基づいて生成される場合、前記第１シフト信号との類似度及び前記第２シフト信号との類似度のうち、類似度が大きい方のチャネルの音信号を第１選択信号として選択し、
前記第１選択信号が前記正チャネルの音信号である場合、前記第１シフト信号と前記第１選択信号とを、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換し、
前記第１選択信号が前記負チャネルの音信号である場合、前記第２シフト信号と前記第１選択信号とを、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換し、
前記第１シフト信号及び前記第２シフト信号が前記Ｍチャネルの位相に基づいて生成される場合、前記第１シフト信号及び前記第２シフト信号のうち、前記Ｍチャネルの音信号との類似度が大きい方のシフト信号を第２選択信号として選択し、
前記Ｍチャネルの音信号と前記第２選択信号とを、前記ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する、
付記７の音声信号変換方法。
（付記９）
前記Ｍチャネルの音信号と、位相を所定範囲内で第１所定量ずつシフトした位相毎に前記正チャネルの音信号との類似度を算出し、前記類似度が最大となる位相の位相量だけ前記正チャネルの音信号をシフトさせて、前記第１シフト信号を生成し、前記Ｍチャネルの音信号と、前記位相を前記所定範囲内で前記第１所定量ずつシフトした位相毎に前記負チャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記負チャネルの音信号をシフトさせて、前記第２シフト信号を生成するか、
前記正チャネルの音信号と、位相を前記所定範囲内で第１所定量ずつシフトした位相毎に前記Ｍチャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記Ｍチャネルの音信号をシフトさせて、前記第１シフト信号を生成し、前記負チャネルの音信号と、前記位相を前記所定範囲内で第１所定量ずつシフトした位相毎に前記Ｍチャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記Ｍチャネルの音信号をシフトさせて、前記第２シフト信号を生成する、
付記８の音信号変換方法。
（付記１０）
前記Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした前記正チャネルの音信号との類似度、及び、前記Ｍチャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記正チャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記正チャネルの音信号を前記第１所定量ずつシフトさせ、前記Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした前記負チャネルの音信号との類似度、及び、前記Ｍチャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記負チャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記負チャネルの音信号を前記第１所定量ずつシフトさせるか、
前記正チャネルの音信号と位相を進み方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度、及び、前記正チャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記Ｍチャネルの音信号を前記第１所定量ずつシフトさせ、前記負チャネルの音信号と位相を進み方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度、及び、前記負チャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記Ｍチャネルの音信号を前記第１所定量ずつシフトさせる、
付記９の音信号変換方法。
（付記１１）
前記類似度は、相互相関係数である、付記８〜付記１０の何れかの音信号変換方法。
（付記１２）
前記第１シフト信号及び第２シフト信号を生成する際の位相のシフト量から推定される、前記ＭＳ方式マイクに対する音源の仰角が所定範囲内である場合に前記近似変換を行う、
付記８〜付記１１の何れかの音信号変換方法。
（付記１３）
ＭＳ方式マイクのＭチャネルの音信号の位相、または、前記ＭＳ方式マイクのＳチャネルの正チャネルの音信号の位相と前記Ｓチャネルの負チャネルの音信号の位相とに基づいて、前記Ｍチャネル及び前記正チャネルへの音の到達距離の差による位相差を解消する第１シフト信号、及び前記Ｍチャネル及び前記負チャネルへの音の到達距離の差による位相差を解消する第２シフト信号を生成する生成部と、
前記第１シフト信号または前記第２シフト信号を、ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する変換部と、
を含む音信号変換装置。
（付記１４）
選択部をさらに含み、
前記選択部は、前記第１シフト信号及び前記第２シフト信号の各々が前記正チャネルの音信号の位相及び前記負チャネルの音信号の位相に基づいて生成される場合、前記第１シフト信号との類似度及び前記第２シフト信号との類似度のうち、類似度が大きい方のチャネルの音信号を第１選択信号として選択し、
前記変換部は、前記第１選択信号が前記正チャネルの音信号である場合、前記第１シフト信号と前記第１選択信号とを、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換し、前記第１選択信号が前記負チャネルの音信号である場合、前記第２シフト信号と前記第１選択信号とを、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換し、
前記選択部は、前記第１シフト信号及び前記第２シフト信号が前記Ｍチャネルの位相に基づいて生成される場合、前記第１シフト信号及び前記第２シフト信号のうち、前記Ｍチャネルの音信号との類似度が大きい方のシフト信号を第２選択信号として選択し、
前記変換部は、前記Ｍチャネルの音信号と前記第２選択信号とを、前記ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する、
付記１３の音声信号変換装置。
（付記１５）
前記生成部は、
前記Ｍチャネルの音信号と、位相を所定範囲内で第１所定量ずつシフトした位相毎に前記正チャネルの音信号との類似度を算出し、前記類似度が最大となる位相の位相量だけ前記正チャネルの音信号をシフトさせて、前記第１シフト信号を生成し、前記Ｍチャネルの音信号と、前記位相を前記所定範囲内で前記第１所定量ずつシフトした位相毎に前記負チャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記負チャネルの音信号をシフトさせて、前記第２シフト信号を生成するか、
前記正チャネルの音信号と、位相を前記所定範囲内で第１所定量ずつシフトした位相毎に前記Ｍチャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記Ｍチャネルの音信号をシフトさせて、前記第１シフト信号を生成し、前記負チャネルの音信号と、前記位相を前記所定範囲内で第１所定量ずつシフトした位相毎に前記Ｍチャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記Ｍチャネルの音信号をシフトさせて、前記第２シフト信号を生成する、
付記１４の音信号変換装置。
（付記１６）
前記生成部は、
前記Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした前記正チャネルの音信号との類似度、及び、前記Ｍチャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記正チャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記正チャネルの音信号を前記第１所定量ずつシフトさせ、前記Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした前記負チャネルの音信号との類似度、及び、前記Ｍチャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記負チャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記負チャネルの音信号を前記第１所定量ずつシフトさせるか、
前記正チャネルの音信号と位相を進み方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度、及び、前記正チャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記Ｍチャネルの音信号を前記第１所定量ずつシフトさせ、前記負チャネルの音信号と位相を進み方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度、及び、前記負チャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記Ｍチャネルの音信号を前記第１所定量ずつシフトさせる、
付記１５に記載の音信号変換装置。
（付記１７）
前記類似度は、相互相関係数である、付記１４〜付記１６の何れかの音信号変換装置。
（付記１８）
前記変換部は、
前記第１シフト信号及び第２シフト信号を生成する際の位相のシフト量から推定される、前記ＭＳ方式マイクに対する音源の仰角が所定範囲内である場合に前記近似変換を行う、
付記１４〜付記１７の何れかの音信号変換装置。

１０ＭＳ方式マイクロフォン
２０音信号変換装置
２１補正部
２２変換部
５３位相シフト部
５４類似度算出部
５５信号選択部
６１ＣＰＵ
６２一次記憶部
６３二次記憶部

Claims

ＭＳ方式マイクのＭチャネルの音信号の位相、または、前記ＭＳ方式マイクのＳチャネルの正チャネルの音信号の位相と前記Ｓチャネルの負チャネルの音信号の位相とに基づいて、前記Ｍチャネル及び前記正チャネルへの音の到達距離の差による位相差を解消する第１シフト信号、及び前記Ｍチャネル及び前記負チャネルへの音の到達距離の差による位相差を解消する第２シフト信号を生成し、
前記第１シフト信号または前記第２シフト信号を、ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する、
音信号変換処理をコンピュータに実行させるプログラム。
前記第１シフト信号及び前記第２シフト信号の各々が前記正チャネルの音信号の位相及び前記負チャネルの音信号の位相に基づいて生成される場合、前記第１シフト信号との類似度及び前記第２シフト信号との類似度のうち、類似度が大きい方のチャネルの音信号を第１選択信号として選択し、
前記第１選択信号が前記正チャネルの音信号である場合、前記第１シフト信号と前記第１選択信号とを、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換し、
前記第１選択信号が前記負チャネルの音信号である場合、前記第２シフト信号と前記第１選択信号とを、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換し、
前記第１シフト信号及び前記第２シフト信号が前記Ｍチャネルの位相に基づいて生成される場合、前記第１シフト信号及び前記第２シフト信号のうち、前記Ｍチャネルの音信号との類似度が大きい方のシフト信号を第２選択信号として選択し、
前記Ｍチャネルの音信号と前記第２選択信号とを、前記ＸＹ方式マイクのＬチャネル及びＲチャネル信号に近似変換する、
請求項１に記載のプログラム。
前記Ｍチャネルの音信号と、位相を所定範囲内で第１所定量ずつシフトした位相毎に前記正チャネルの音信号との類似度を算出し、前記類似度が最大となる位相の位相量だけ前記正チャネルの音信号をシフトさせて、前記第１シフト信号を生成し、前記Ｍチャネルの音信号と、前記位相を前記所定範囲内で前記第１所定量ずつシフトした位相毎に前記負チャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記負チャネルの音信号をシフトさせて、前記第２シフト信号を生成するか、
前記正チャネルの音信号と、位相を前記所定範囲内で第１所定量ずつシフトした位相毎に前記Ｍチャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記Ｍチャネルの音信号をシフトさせて、前記第１シフト信号を生成し、前記負チャネルの音信号と、前記位相を前記所定範囲内で第１所定量ずつシフトした位相毎に前記Ｍチャネルの音信号との類似度を算出し、前記類似度が最大となる位相量だけ前記Ｍチャネルの音信号をシフトさせて、前記第２シフト信号を生成する、
請求項２に記載のプログラム。
前記Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした前記正チャネルの音信号との類似度、及び、前記Ｍチャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記正チャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記正チャネルの音信号を前記第１所定量ずつシフトさせ、前記Ｍチャネルの音信号と位相を進み方向に第２所定量シフトした前記負チャネルの音信号との類似度、及び、前記Ｍチャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記負チャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記負チャネルの音信号を前記第１所定量ずつシフトさせるか、
前記正チャネルの音信号と位相を進み方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度、及び、前記正チャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記Ｍチャネルの音信号を前記第１所定量ずつシフトさせ、前記負チャネルの音信号と位相を進み方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度、及び、前記負チャネルの音信号と位相を遅れ方向に前記第２所定量シフトした前記Ｍチャネルの音信号との類似度を算出し、前記類似度が大きい方向に前記Ｍチャネルの音信号を前記第１所定量ずつシフトさせる、
請求項３に記載のプログラム。
前記類似度は、相互相関係数である、請求項２〜請求項４の何れか１項に記載のプログラム。
前記第１シフト信号及び第２シフト信号を生成する際の位相のシフト量から推定される、前記ＭＳ方式マイクに対する音源の仰角が所定範囲内である場合に前記近似変換を行う、
請求項２〜請求項５の何れか１項に記載のプログラム。
コンピュータが、
ＭＳ方式マイクのＭチャネルの音信号の位相、または、前記ＭＳ方式マイクのＳチャネルの正チャネルの音信号の位相と前記Ｓチャネルの負チャネルの音信号の位相とに基づいて、前記Ｍチャネル及び前記正チャネルへの音の到達距離の差による位相差を解消する第１シフト信号、及び前記Ｍチャネル及び前記負チャネルへの音の到達距離の差による位相差を解消する第２シフト信号を生成し、
前記第１シフト信号または第２シフト信号を、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換する、
音信号変換方法。
ＭＳ方式マイクのＭチャネルの音信号の位相、または、前記ＭＳ方式マイクのＳチャネルの正チャネルの音信号の位相と前記Ｓチャネルの負チャネルの音信号の位相とに基づいて、前記Ｍチャネル及び前記正チャネルへの音の到達距離の差による位相差を解消する第１シフト信号、及び前記Ｍチャネル及び前記負チャネルへの音の到達距離の差による位相差を解消する第２シフト信号を生成する生成部と、
前記第１シフト信号または第２シフト信号を、ＸＹ方式マイクのＬチャネル及びＲチャネルの音信号に近似変換する変換部と、
を含む音信号変換装置。