WO2023105778A1

WO2023105778A1 - 音声信号の処理方法、音声信号処理装置、およびプログラム

Info

Publication number: WO2023105778A1
Application number: PCT/JP2021/045610
Authority: WO
Inventors: 宏佐藤; 翼落合; マークデルクロア; 慶介木下; 直之加茂; 崇史森谷
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2023-06-15

Abstract

音声認識性能を向上させる。本発明の実施の形態の音声信号の処理方法は、目的話者の音声に別の話者の音声または雑音が重複する観測信号に対して音声強調を行うべきか否か、または音声強調を行うべき度合を示した出力値を取得する。取得された出力値を用いて観測信号と音声強調により生成された強調信号との割合を所定条件下で判定して音声認識に使用される入力信号を決定する。

Description

音声信号の処理方法、音声信号処理装置、およびプログラム

　本発明は音声認識技術に関し、特に強調信号と観測信号との切り替え技術に関する。

　近年、深層学習技術の発達により音声認識の性能は向上した。しかし、それでも音声認識が困難な状況の例として複数人の混合音声（オーバーラップ発話）が挙げられる。これに対処するため、以下のような技術が考案されている。

　ブラインド音源分離は、混合音声のままでは音声認識が困難な音声を、各話者の音声に分離することで音声認識を可能にする（例えば、非特許文献１参照）。

　目的話者抽出は、目的話者が事前登録した発話を補助的な情報として利用し、事前登録された話者の音声のみを混合音声から取得する（例えば、非特許文献２参照）。抽出した音声は目的話者の声だけを含むことから音声認識が可能である。但し、望ましくない音を除去する際に目的話者音声を歪ませてしまうことがある。つまり音声強調を行うことによって却って音声認識性能を劣化させてしまう場合がある。

　オーバーラップ発話の生じていない区間に対し、音声強調の強度を弱める手法が提案されている（例えば、非特許文献３参照）。音声強調はオーバーラップ発話に効果的であるものの、非オーバーラップ発話（目的話者の単独発話）に対して音声強調を施すと却って音声認識を劣化させる可能性が高いからである。

Yu, Dong, et al. "Permutation invariant training of deep models for speaker-independent multi-talker speech separation." 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017. Zmolikova, Katerina, et al. "SpeakerBeam: Speaker aware neural network for target speaker extraction in speech mixtures." IEEE Journal of Selected Topics in Signal Processing 13.4 (2019): 800-814. Wang, Quan, et al. "VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition." arXiv preprint arXiv:2009.04323 (2020).

　しかしながら、音声強調の効果はオーバーラップ発話の有無のみで決まるものではない。例えばオーバーラップ発話区間であっても目的話者の音量と、他の話者である干渉話者との間に音量の大きな差があれば音声認識は音量の大きい目的話者の音声のみを認識する傾向にある。この場合、音声強調を行わず観測信号をそのまま音声認識した方が高い音声認識率の結果が得られると考えられる。同様に非オーバーラップ発話の区間においても音声強調を施した入力の方が高い音声認識率の結果が得られる場合も考えられる。本発明の目的は、上記のような課題に鑑みて、音声認識性能を向上させることができる技術を提供することである。

　上記課題を解決するために、本発明の一態様の音声信号の処理方法は、目的話者の音声に別の話者の音声または雑音が重複する観測信号に対して音声強調を行うべきか否か、または音声強調を行うべき度合を示した出力値を取得し、取得された出力値を用いて観測信号と音声強調により生成された強調信号との割合を所定条件下で判定して音声認識に使用される入力信号を決定する。

　本発明によれば音声認識性能を向上させることができる。

本発明の一実施の形態に係る音声信号処理装置の機能構成例を示した図。本発明の一実施の形態に係る音声信号処理装置における音声信号の処理方法の処理フロー例を示した図。音声認識入力決定部１３の機能構成例を示した図。音声認識入力決定部１３における音声認識入力の決定方法の処理フロー例を示した図。スイッチングモデル学習装置の機能構成例を示した図。スイッチングモデル学習装置における学習済みモデルの作成方法の処理フロー例を示した図。スイッチングラベル作成装置の機能構成例を示した図。スイッチングラベル作成装置におけるスイッチングラベルの作成方法の処理フロー例を示した図。音声信号処理装置１を利用した音声認識の性能結果の一例を示した図。コンピュータの機能構成を例示する図。

　はじめに、この明細書における表記方法について説明する。

　＜表記方法＞
　文中で使用する記号「~」（上付きチルダ）は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「~S」は数式中では次式で表される。

　また本文で使用する記号「^」（上付きハット）も、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「^k」は数式中では次式で表される。

　以下、本発明の実施の形態について詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　図１に本発明の一実施の形態に係る音声信号処理装置の機能構成例を示した図を示す。図１に示した音声信号処理装置１は、音声強調部１１と、スイッチングモデル部１２と、音声認識入力決定部１３と、音声認識部１４を備えている。音声信号処理装置１が、図２に例示する各ステップの処理を行うことにより、実施形態の音声信号処理方法が実現される。音声信号処理装置１の一態様は、後述するように、観測信号と強調信号のうちいずれを音声認識の入力として利用するかを学習済みのスイッチングモデル部１２の出力結果を用いて切り替える。これにより常に音声強調を行ってから音声認識を行う場合や常に観測信号を認識する場合と比較して音声認識性能を向上させることができる。

　以下、図２を参照して、実施形態の音声信号処理装置１が実行する音声信号処理方法について説明する。

　ステップＳ１１において、音声強調部１１は音声強調処理を行う。即ち、音声強調部１１は、入力として観測信号を取得し、公知の音声強調技術を用いて、取得した観測信号から、所望の音声のみを抽出し、音声強調処理を実行する。所望の音声を抽出する手法としては、例えば公知の目的話者抽出技術を利用することができる。目的話者抽出技術とは、図１に示すように、音声強調部１１が、観測信号の取得に加え、目的話者に関する補助情報を取得することにより、目的話者の音声のみを観測信号から抽出する技術である。目的話者に関する補助情報は、例えば目的話者が事前に登録した発話等を用いることができる。なお、音声強調部１１が取得する入力信号としては、観測信号から得られる音声波形そのものを用いることもできるし、観測信号から抽出された特徴量等を用いることもできる。音声強調部１１は音声強調処理が施された音声信号（以下、「強調信号」ともいう。）をスイッチングモデル部１２へ出力する。

　ステップＳ１２において、スイッチングモデル部１２は、強調信号を音声強調部１１から受け取る。また、スイッチングモデル部１２は、音声強調部１１の音声強調処理が施されていない音声信号である観測信号も受け取る。観測信号は、図１に示すように音声強調部１１への入力と同様に、直接にスイッチングモデル部１２に入力されるように構成する。ステップＳ１１において音声強調部１１は観測信号を取得することから、音声強調部１１から音声強調処理を施していない観測信号をスイッチングモデル部１２に出力するように構成してもよい。

　スイッチングモデル部１２は、公知のディープニューラルネットワークなどの技術を用いて学習された学習済みモデルである。スイッチングモデル部１２が入力として受け取る信号は、波形領域の信号とすることができる。また、信号に対して特徴抽出が施されたものとすることもできる。スイッチングモデル部１２は、観測信号と強調信号の少なくとも一方の信号を入力とし、音声認識性能の観点で音声強調を行うべきかどうか、あるいは行うべき度合を出力する。スイッチングモデル部１２の出力である^kはスイッチングモデル部１２が算出した値（推定値）であり、例えば次式で定義される０から１の範囲をとるスカラー値とすることができる。

　スイッチングモデル部１２は、出力である^kを時系列のベクトルとして算出するように構成してもよい。出力である^kが時系列のベクトルとして算出されることにより、各時刻毎に異なる重みを採用することができ、音声認識の入力の決定を、よりきめ細かく行うことが可能となる。

　スイッチングモデル部１２は、算出した結果である^kを音声認識入力決定部１３へ出力する。なお、スイッチングモデル部１２の学習方法については後述する。

　ステップＳ１３において、音声認識入力決定部１３は、スイッチングモデル部１２から受け取った出力値^kと音声強調部１１から^Sを受け取り、音声認識の入力を決定する。

ここで、音声認識部１４への入力を~Sとすると、次式で定義されるように、音声認識部１４への入力~Sは強調信号^Sあるいは観測信号Yのどちらか一方に決定される。式（２）において、λは例えば0.5など、０＜λ＜１の範囲で予め設定した値である。本実施の形態では、このように強調信号^Sあるいは観測信号Yのいずれか一方の信号を音声認識部１４への入力である~Sとして決定する手法を「ハード手法」と言うこととする。

　音声認識の入力である~Sは、次式で定義されるように強調信号^Sと観測信号Yをスイッチングモデル部１２の出力値^kを用いて重みづけして加算することにより決定してもよい。本実施の形態では、強調信号^Sと観測信号Yを出力値^kを用いて重みづけして加算することにより音声認識部１４への入力である~Sを決定する手法を「ソフト手法」と言うこととする。

　音声認識入力決定部１３は、ハード手法、あるいはソフト手法により決定された~Sを音声認識部１４へ出力する。

　ステップＳ１４において、音声認識部１４は、音声認識入力決定部１３から受け取った信号~Sに対して音声認識処理を実行する。また、音声認識部１４は、音声強調部１１で得た強調信号^Sと、他の話者の発話や雑音等を含む観測信号Yを受け取り、それぞれに対して音声認識処理を施すようにしてもよい。音声認識部１４は各音声信号に対応する音声認識結果であるテキスト情報を出力する。音声認識部１４は公知の音声認識技術を利用することができる。

＜音声認識入力決定部１３の処理について＞
　本発明の実施形態における音声認識入力決定部１３における音声認識入力決定処理（図２、ステップＳ１３）の具体的な処理の流れについて説明する。図３は音声認識入力決定部１３の機能構成例を示した図である。音声認識入力決定部１３は、出力取得部１３１と、判定部１３２と、決定部１３３とを有する。音声認識入力決定部１３が、図４に例示する各ステップの処理を行うことにより、音声認識の入力の決定を行う。以下、図４を参照して、音声認識入力決定部１３が実行する音声認識入力の決定方法について説明する。

　ステップＳ１３１において、出力取得部１３１は、スイッチングモデル部１２から出力値^kを受け取る。出力取得部１３１は、受け取った出力値^kを判定部１３２に送出する。ステップＳ１３２において、判定部１３２は、受け取った出力値^kを用いて所定の判定を行い、判定した結果を決定部１３３に出力する。所定の判定とは、例えばハード手法を採用する場合は、^kの大きさを判定し、上記式（１）と式（２）を用いた判定により^SあるいはYの一方の信号のみを決定部１３３へ出力する。また、ソフト手法を採用する場合は、^kの値に加え、^SとYの信号を決定部１３３へ出力する。他の例としては、ソフト手法とハード手法のいずれの手法を採用するかを示した情報と、^kの値、^S及びYの信号を決定部１３３へ出力するように構成してもよい。ステップＳ１３３において、決定部１３３は、判定部１３２から受け取った情報および、上記式（１）から式（３）を用いて入力信号~Sを決定する。

＜スイッチングモデルの学習方法＞
　本発明の実施形態におけるスイッチングモデル部１２の学習方法は、図５で例示したスイッチングモデル学習装置を用いて行う。スイッチングモデル学習装置２は、スイッチングモデル部２１と、最適化部２２とを有する。スイッチングモデル学習装置２は、スイッチングモデル部２１により作成されたモデルが最適化部２２にて最適化処理が施されることにより学習を行う。スイッチングモデル部２１はスイッチングモデル学習装置２による学習により、音声信号処理装置１で使用される学習済みモデルとしてのスイッチングモデル部１２として使用されることとなる。スイッチングモデル学習装置２が、図６に例示する各ステップの処理を行うことにより、スイッチングモデルの学習処理が実現される。以下、図６を参照して、実施形態のスイッチングモデルの学習方法について説明する。

　ステップＳ２１において、スイッチングモデル部２１は、学習用の観測信号と強調信号とを受け取り、スイッチングモデルの基本構成が構築され、このモデル（学習中のスイッチングモデル）が最適化部２２へと出力される。

　ステップＳ２２において、最適化部２２は、スイッチングモデル部２１から受け取ったモデルと、後述するスイッチングラベル作成装置３で作成されたスイッチングラベルを受け取りモデルのパラメータを最適化し、スイッチングモデル部２１へと戻す。スイッチングモデル部２１によるモデル構築と、最適化部２２によるパラメータの最適化の間の処理はループ処理により、それらの処理を繰り返すことで最適化を完成するように構成してもよい。いずれの場合であっても、最適化が完了してパラメータが確定するとその内容が、スイッチングモデル部２１に反映され、スイッチングモデルが完成する。

　最適化部２２による最適化の具体的手法は以下の通りである。最適化部２２は、後述するスイッチングラベル作成装置３により生成されたスイッチングラベルkと、スイッチングモデル部２１が算出した出力値^kとの間の損失関数を算出し、その損失関数の最小化を図ることで、スイッチングモデル部２１に含まれるモデルパラメータの最適化を行う。

　損失関数としては、例えば次式で定義される公知のクロスエントロピー損失を用いることができる。

　ここで、スイッチングモデル部２１（及びスイッチングモデル部１２）は、^kの算出に加え、音声認識部１４の音声認識の識別性能を高めるために、観測信号のSIRおよびSNRを同時に推定する機能を採用してもよい。SIRとはSignal to Interference Ratioの略称であり目的話者の音声と別の話者の音声との比率の真値である。SNRとはSignal to Noise Ratioの略称であり、目的話者の音声と雑音との比率の真値である。SIRは目的話者信号と干渉話者信号の比を示すことから音声強調の効果と関連が深い。またSNRは非音声雑音は音声認識に対する悪影響が小さい一方で音声強調による除去が比較的困難であることから、音声強調の効果と関連が深い。

　スイッチングモデル部２１による観測信号のSIRおよびSNRの推定値をそれぞれ^SIRおよび^SNRと定義する。即ち、＾SIRは観測信号としてSIRを入力した場合のスイッチングモデル部２１の出力値であり、＾SNRは観測信号としてSNRを入力した場合のスイッチングモデル部２１の出力値である。目的話者の音声をＳとし、干渉話者の音声をＩとし、雑音をＮとすると、SIR及びSNRは次式で定義される。

　スイッチングモデル部２１が、観測信号のSIRおよびSNRを同時に推定する場合には、SIRおよびSNRの推定誤差に関する損失関数と、上記のスイッチングラベルkに対する損失関数を重みづけ加算した損失関数を最小化する学習（以下、「マルチタスク学習」ともいう）を行う。例えばSIRおよびSNR推定の損失関数は次式で定義するように二乗誤差を用いることができる。

　ここでマルチタスクによる損失関数L_multiはパラメータα、βを用いると次式で定義される。

　以上、スイッチングモデル部２１と最適化部２２の処理により、スイッチングモデル部２１の学習方法について説明した。完成されたスイッチングモデル部２１は、音声信号処理装置１におけるスイッチングモデル部１２として利用される。

＜スイッチングラベルの作成方法＞
　本発明の実施形態におけるスイッチングラベルの作成方法は、図７で例示したスイッチングラベル作成装置を用いて行う。スイッチングラベル作成装置３は、学習済みの音声強調部３１と、学習済みの音声認識部３２と、認識性能算出部３３と、スイッチングラベル生成部３４とを有する。音声強調部３１は、図１の音声強調部１１と同じ機能を有する。音声認識部３２は、図１の音声認識部１４と同じ機能を有する。スイッチングラベル作成装置３は、観測信号、目的話者に関する補助情報、目的話者音声のトランスクリプションのペアデータを用いてスイッチングラベルを生成する。スイッチングラベル作成装置３が、図８に例示する各ステップの処理を行うことにより、実施形態のスイッチングラベル作成方法が実現される。以下、図８を参照して、スイッチングモデル学習装置２で使用されるマッチングラベルの作成方法について説明する。

　ステップＳ３１において、音声強調部３１は音声強調処理を行う。即ち、音声強調部３１は、入力として観測信号を取得し、公知の音声強調技術を用いて、取得した観測信号から、所望の音声のみを抽出し、音声強調処理を実行する。この際、目的話者に関する補助情報は、例えば目的話者が事前に登録した発話等を用いることができる。音声強調部３１は音声強調処理が施された強調信号を音声認識部３２へ出力する。

　ステップＳ３２において、音声認識部３２は、音声強調部３１から得た強調信号に加え、他の話者の音声や雑音等を含む観測信号を受け取る。受け取った観測信号のそれぞれに対して音声認識処理を施すことで、各音声信号に対応する音声認識結果であるテキスト情報を認識性能算出部３３へ出力する。

　ステップＳ３３において、認識性能算出部３３は、音声認識部３２から受け取った強調信号に対応する音声認識結果と、観測信号に対する音声認識結果に加え、目的話者音声のトランスクリプションを受け取る。目的話者音声のトランスクリプションは、音声認識の対象となる音声信号の正解の情報に当たる。認識性能算出部３３は、２つの音声認識結果と、トランスクリプションを用いて、音声認識の性能を算出する。音声認識性能の算出方法としては、文字誤り率などの公知の音声認識性能評価基準を用いることができる。認識性能算出部３３は算出した音声認識の性能結果をスイッチングラベル生成部３４へ出力する。

　ステップＳ３４において、スイッチングラベル生成部３４は、認識性能算出部３３から取得した、強調信号に対する音声認識性能と、観測信号に対する音声認識性能を元に、図５に示した最適化部２２がスイッチングモデル部２１の最適化のために教師ラベルとして用いるスイッチングラベルkを生成する。スイッチングラベルkは、観測信号と強調信号のいずれが、音声認識性能が高かったかを示すラベルであり、例えば次式で定義される。

　ここでCER_obsは観測信号の文字誤り率基準での音声認識性能を示し、CER_enhは強調信号の文字誤り率基準での音声認識性能を示す。上記の式（４）で示したスイッチングラベルkの場合は、観測信号の音声認識性能であるCER_obsの方が強調信号の音声認識性能であるCER_enhよりも文字誤り率が低い場合（換言すれば、CER_obsの方が音声認識性能が良い場合）には、スイッチングラベルkを０（ゼロ）と設定する。また、強調信号の音声認識性能であるCER_enhの方が観測信号の音声認識性能であるCER_obsよりも文字誤り率が低い場合（換言すれば、CER_enhの方が音声認識性能が良い場合）には、スイッチングラベルkを１（イチ）と設定する。即ち、スイッチングラベルkは、０か１の２値ラベルとなる。

　スイッチングラベルkは、以下のように２値ラベルではなく、より柔軟に決定できるようにしてもよい。即ち、観測信号と強調信号の夫々の音声認識性能を比較し、その性能差に基づき算出してもよい。例えば、Tを温度パラメータとし、次式の定義式を用いて、スイッチングラベルkを2値ラベルよりも柔軟に決定してもよい。

　スイッチングラベルkの決定手法は、以下でもよい。即ち、観測信号と強調信号を重み付け平均した音声を認識させた際に、最も音声認識性能を高くするような重みとしてもよい。これを実現する一つの方法として、音声認識部３２において、観測信号と強調信号を様々な比率で重み付け加算した音声に対する認識結果を得て、認識性能算出部３３において、夫々に対して認識性能を算出し、スイッチングラベル生成部３４にて最も高い認識性能を実現した重みをスイッチングラベルkとしてもよい。

　以上の処理によって、観測信号、目的話者に関する補助情報、強調信号、スイッチングラベルの４種類の情報についてのペアデータを生成する。

＜性能結果について＞
　図９は音声信号処理装置１を利用した音声認識の性能結果の一例を示した図である。図９では、音声認識部１４への入力対象として条件(a)から条件(e)の５つの場合の結果を示している。ここで、条件(a)は観測信号、条件(b)は強調信号、条件(c)は本実施の形態のハード手法、かつマルチタスク学習なしのモデルを使用した場合、条件(d)は本実施の形態のハード手法、かつマルチタスク学習ありのモデルを使用した場合、条件(e)は、本実施の形態のソフト手法、かつマルチタスク学習ありのモデルを使用した場合を示す。図９では、条件(a)から条件(e)の夫々に対して、それぞれSIRとSNRを各3段階に振って評価をしている。即ち、SIRを0,10,20、SNRも0,10,20と夫々三段階に変化させて音声認識処理を施した場合の結果を示している。各条件における音声認識の性能結果は、条件(f)の場合を除き、文字誤率（Character Error Rate）基準を用いて示しており、数字が小さいほど、音声認識の性能としては高いことを示している。図９では同一の音声認識部を使用し音声認識を行っていることから、各条件同士の文字認識結果を直接比較することが可能である。図９(f)には、条件(e)の結果において、条件(b)の結果に対する性能向上率を示している。また、図９では、条件(c)から条件(e)の結果には、条件(b)の結果と比較して、条件(b)の性能結果よりも優秀な結果の場合には丸「〇」で囲み、条件(b)の性能結果と同等な結果の場合には三角「△」で囲み、条件(b)の性能結果よりも劣る結果の場合には四角「□」で囲んで表記している。

　図９に示す通り、本実施の形態における条件(c)のハード手法、かつマルチタスク学習なしのモデルを使用した場合、条件(b)の強調信号よりも劣る結果になったのは、SIR=0でSNR=0の場合のみであり、同等の結果になったのはSIR=0と10におけるSNR=10と20の場合の４ケースであり、残りの４ケースは、条件(b)の強調信号よりも優秀な性能結果になった。平均値（Avg.）は、条件(b)の強調信号よりも1.7%優秀な性能となった。

　本実施の形態における条件(d)のハード手法、かつマルチタスク学習ありのモデルを使用した場合、条件(b)の強調信号よりも劣る結果になったのは、SIR=0でSNR=0の場合のみであり、同等の結果になったのはSIR=0におけるSNR=10と20の２ケースであり、残りの６ケースは、条件(b)の強調信号よりも優秀な結果になった。平均値は、条件(b)の強調信号よりも1.9%優秀な結果となった。

　本実施の形態における条件(e)のソフト手法、かつマルチタスク学習ありのモデルを使用した場合、条件(b)の強調信号よりも劣る結果になったのは、SIR=0でSNR=10,20の２ケースであり、同等の結果になったケースはなく、残りの７ケースは、条件(b)の強調信号よりも優秀な結果になった。平均値は、条件(b)の強調信号よりも2.6%優秀な性能結果となった。

　図９(f)に示した、条件(b)の結果に対する条件(e)の性能向上率は、SIR=0でSNRが10、20のときはいずれも3%の性能低下がみられたものの、他の７ケースは条件(b)よりも優秀な性能結果となった。具体的にはSIRが10のときは8%から32%の向上が見られ、SIRが20のときは25％から42%向上した。全体の平均値も19%の認識率の向上が見られた。このように、強調信号を用いた音声認識の性能と比較して、本実施の形態の音声認識入力決定部１３を使用した場合は、音声認識の性能が向上していることが分かる。

　以上、本発明の実施の形態による音声信号の処理方法を説明した。本実施形態の手法を用いることにより、本発明では、スイッチングモデル部１２が出力する^kを用いることにより、強調信号と観測信号を使い分けることで音声強調による性能劣化を防ぐことができ、音声認識性能を向上させることができる。これにより、オーバーラップ発話の生じている区間においても音声強調が必要のない場合や、オーバーラップ発話の生じていない区間であっても音声強調が必要な場合に、適切に音声強調の有無の判断を行うことが可能となる。これにより適切に強調信号と観測信号を切り替えることが可能となり、結果として音声認識性能を向上させることができる。

　加えて、本実施形態で示したSIRとSNRを推定するマルチタスク学習ありのモデルでは、音声強調との関連が深いSIRやSNRを考慮することにより、より高い識別性能が得られる。

　さらに、スイッチングモデル部１２の出力である^kを用いて、強調信号と観測信号を重みづけして加算することにより、識別モデルの不確かさを考慮した入力音声の決定が可能になる。

　なお、上述の各種の処理は、記載に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

［プログラム、記録媒体］
　上述の各種の処理は、図１０に示すコンピュータ２０００の記録部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０、表示部２０５０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１　音声信号処理装置
１１，３１　音声強調部
１２，２１　スイッチングモデル部
１３　音声認識入力決定部
１４，３２　音声認識部
２　スイッチングラベル作成装置
３　スイッチングモデル学習装置
２２　最適化部
３３　認識性能算出部
３４　スイッチングラベル生成部
１３１　出力取得部
１３２　判定部
１３３　決定部

Claims

　目的話者の音声に別の話者の音声または雑音が重複する観測信号に対して音声強調を行うべきか否か、または前記音声強調を行うべき度合を示した出力値を取得し、
　取得された前記出力値を用いて前記観測信号と前記音声強調により生成された強調信号との割合を所定条件下で判定して音声認識に使用される入力信号を決定する、
音声信号の処理方法
　前記所定条件とは、前記出力値を^k、前記強調信号を^S、前記観測信号をY、前記入力信号を~S、λを０＜λ＜１の範囲で予め設定した値とすると、次式で定義される請求項１に記載の音声信号の処理方法。
　前記所定条件とは、前記出力値を^k、前記強調信号を^S、前記観測信号をY、前記入力信号を~Sとすると、次式で定義される請求項１に記載の音声信号の処理方法。
　前記出力値は学習済みモデルによって出力された出力値であって、前記学習済みモデルは、前記観測信号と前記強調信号の少なくとも一方の信号を入力とし、音声認識性能の観点で前記音声強調を行うべきか否か、または前記音声強調を行うべき度合を出力する請求項１から３に記載の音声信号の処理方法。
　前記学習済みモデルは、損失係数をLとし、前記学習済みモデルのモデル生成に用いられた教師ラベルをkとした場合、次式で定義された算出結果であるLを最小化するように学習された請求項４に記載の音声信号の処理方法。
　前記観測信号において、前記目的話者の音声と前記別の話者の音声との比率の真値をSIRとし、前記目的話者の音声と前記雑音との比率の真値をSNRとし、前記SIRを入力した場合の前記学習済みモデルの出力値を^SIRとし、前記SNRを入力した場合の前記学習済みモデルの出力値を^SNRとした場合、パラメータα、βを用いて、次式で定義された算出結果であるL_multiを前記損失係数として使用する請求項５に記載の音声信号の処理方法。
　目的話者の音声に別の話者の音声または雑音が重複している観測信号に対して音声強調を行うべきか否か、または前記音声強調を行うべき度合を示した出力値を取得する取得部と、
　前記取得部により取得された出力値を用いて前記観測信号と前記音声強調により生成された強調信号との割合を所定条件下で判定して音声認識に使用される入力信号を決定する決定部と、
を有する音声信号処理装置。
　請求項１から６のいずれかに記載の信号処理方法をコンピュータに機能させるためのプログラム。