JP6800946B2

JP6800946B2 - 音声区間の認識方法、装置及び機器

Info

Publication number: JP6800946B2
Application number: JP2018244352A
Authority: JP
Inventors: チャオリ、; ウェイシンジュー、
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-05-24
Filing date: 2018-12-27
Publication date: 2020-12-16
Anticipated expiration: 2038-12-27
Also published as: US20190362741A1; JP2019204073A; CN108766418A; CN108766418B; US10847179B2

Description

本発明は、音声認識分野に関し、特に音声区間の認識方法、装置及び機器に関する。

音声検索サービスの継続的な普及に伴い、ますます多くの人々が対話の手段として自分の声を使い始めている。ユーザがモバイル端末を介して入力したオーディオをサーバにアップロードして、サーバが該オーディオに基づいて音声認識を行う。音声対話では、音声の開始点及び終了点を正確に認識することは音声認識の重要な部分である。

従来技術では、音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｏｒ、略称ＶＡＤ）モデルを用いて音声の開始点及び終了点を判断する。音声認識において、音声開始点の検出精度ができるだけ高く、音声終了点の遅延ができるだけ短いことが求められる。従来のＶＡＤモデルでは、開始点及び終了点について完全に同様な処理モデルを用いて認識を行うため、開始点の認識が不正確で、開始点の誤検出や検出漏れを発生させて、システム性能の低下を招いたり、終了点認識の遅延時間が長すぎることにより、ユーザに対する応答遅延が過度に長くなったりする。

本発明は、音声区間の認識方法、装置及び機器を提供し、従来のＶＡＤモデルでは、開始点及び終了点について完全に同様な処理モデルを用いて認識を行うため、開始点の認識が不正確で、開始点の誤検出や検出漏れを発生させて、システム性能の低下を招いたり、終了点認識の遅延時間が長すぎることにより、ユーザに対する応答遅延が過度に長くなったりするという問題を解決する。

本発明の一態様にて提供される音声区間の認識方法は、
検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出するステップと、
前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識するステップと、
前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識するステップと
を含む。

本発明の別の態様にて提供される音声区間の認識装置は、
検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出するための特徴抽出モジュールと、
前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識するための開始点認識モジュールと、
前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識するための終了点認識モジュールと
を備える。

本発明の別の態様にて提供されるコンピュータ機器は、
メモリと、プロセッサと、前記メモリに記憶され且つ前記プロセッサにおいて実行可能なコンピュータプログラムとを備え、
前記プロセッサは、前記コンピュータプログラムを実行すると、上記の音声区間の認識方法を実現する。

本発明の別の態様にて提供されるコンピュータ読み取り可能な記憶媒体は、コンピュータプログラムが記憶されており、
前記コンピュータプログラムは、プロセッサにより実行されると、上記の音声区間の認識方法を実現する。

本発明による音声区間の認識方法、装置及び機器は、それぞれ開始点訓練セット及び終了点訓練セットを用いて、リカレントニューラルネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得て、前記各オーディオフレームの音響的特徴及び開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識し、それによって、終了点フレームの認識遅延時間に影響することなく、開始点フレームの認識精度をできるだけ高く確保することができ、前記各オーディオフレームの音響的特徴及び終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識し、それによって、開始点フレームの認識精度に影響することなく、終了点フレームの認識遅延をできるだけ短く確保することができ、それにより、開始点フレームの認識精度を向上させると同時に、終了点フレームの認識遅延時間を短縮できる。

ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、本発明に合致する実施例を示し、明細書とともに本発明の原理を解釈することに用いられる。
本発明の実施例１による音声区間の認識方法のフローチャートである。本発明の実施例２による音声区間の認識方法のフローチャートである。本発明の実施例３による開始点訓練セットを決定するときのフローチャートである。本発明の実施例３による終了点訓練セットを決定するときのフローチャートである。本発明の実施例４による音声区間の認識装置の構造概略図である。本発明の実施例６による音声区間の認識装置の構造概略図である。本発明の実施例７によるコンピュータ機器の構造概略図である。

上記図面には、本発明の明確な実施例が示されているが、以下、より詳細に説明する。これらの図面及びテキストによる説明は、何らかの方法で本発明の構想の範囲を制限するものではなく、特定の実施例を参照しながら当業者のために本発明の概念を説明するためである。

ここで例示的な実施例について詳細に説明し、その例は図面で示している。以下の説明が図面について言及する場合、特に断りのない限り、異なる図面の同じ数字は同じ又は類似する要素を示す。以下の例示的な実施例に記載される実施形態は、本発明に一致するすべての実施形態を表すものではない。逆に、それらは添付の特許請求の範囲に詳述される、本発明の一部の態様に一致する装置及び方法の例にすぎない。

まず、本発明に係る用語を解釈する。

音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｏｒ、略称ＶＡＤ）：音声活動検出、音声区間検出、音声境界検出とも呼ばれ、オーディオ信号ストリームから長いサイレントセグメントを認識して除去する技術である。

事後確率（ＡＰｏｓｔｅｒｉｏｒｉＰｒｏｂａｂｉｌｉｔｙ）：調査又はほかの方式で新しい付加情報を取得して、ベイズ式で事前確率を修正して、確率を得る。事後確率とは、「結果」情報を得た後に改めて修正した確率であり、「結果から原因を検索する」問題における「結果」となる。

事前確率（ＡＰｒｉｏｒｉＰｒｏｂａｂｉｌｉｔｙ）：従来の経験及び分析に基づいて得られた確率であり、たとえば完全確率式が挙げられ、それは、一般的に、「原因から結果を求める」問題における「原因」として現れる。事前確率は、古典確率モデルにより定義されるため、古典確率とも呼ばれる。

音響的特徴の抽出：音声認識の重要なプロセスである。音響的特徴の抽出は、情報を大幅に圧縮するプロセスでありながら、信号デコンボリューションプロセスであり、パターン分類が好適に分類できるようにすることを目的とする。音声信号の時変特性のため、特徴抽出は小さなセグメントの音声信号において行わなければならず、すなわち、短時間分析を行わなければならない。このセグメントはフレームと呼ばれる安定的な分析区間と見なされ、フレームとフレームとの間のシフトは通常フレーム長の１／２又は１／３とされる。通常、高周波数をブーストするために信号をプリエンファシスし、短期間の音声セグメントエッジの影響を避けるために信号を窓掛けする必要がある。

また、用語「第１」、「第２」などは、目的を説明するためのものであり、相対的な重要性を指示又は示唆するもの、又は、指示された技術的特徴の数を意図するものとして解釈されるべきではない。以下の各実施例の説明において、特に断りがない限り、「複数」は、２つ以上である。

以下の具体的な実施例は互いに組み合わせてもよく、同じ又は類似する概念又はプロセスは、いくつかの実施例では説明されないことがある。以下、図面を参照して本発明の実施例について説明する。

図１は、本発明の実施例１による音声区間の認識方法のフローチャートである。本発明の実施例は、従来のＶＡＤモデルでは開始点及び終了点について完全に同様な処理モデルを用いて認識を行うため、開始点の認識が不正確で、開始点の誤検出や検出漏れを発生させて、システム性能の低下を招いたり、終了点認識の遅延時間が長すぎることにより、ユーザに対する応答遅延が過度に長くなったりするという問題に対して、音声区間の認識方法を提供する。図１に示されるように、該方法は、具体的には、ステップＳ１０１〜ステップＳ１０３を含む。

ステップＳ１０１では、検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出する。

本実施例では、好ましくは、検出対象となるオーディオの各オーディオフレームを取得して、それぞれ各オーディオフレームの音響的特徴を抽出する。

そのうち、該音響的特徴は、メル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ、略称ＭＦＣＣ）、知覚線形予測（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ、略称ＰＬＰ）などであってもよい。

ステップＳ１０２では、各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識する。

本実施例では、開始点訓練セットは、１つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも１組の開始点訓練データを含む。終了点訓練セットは、１つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも１組の終了点訓練データを含む。

実際に使用されるとき、本実施例は、訓練段階と検出段階の２つの段階を含む。

訓練段階は、検出対象となるオーディオの区間を認識する前に、訓練して開始点認識モデル及び終了点認識モデルを得る過程である。訓練段階は具体的には、
音声認識のための訓練コーパスを予め取得して、訓練コーパスは、実際に使用される本物の音声素材であり、複数のサンプルオーディオを含む。たとえば、訓練コーパスは、ユーザが入力した１万個のオーディオを含み、各オーディオの長さは約数秒である。訓練コーパスにおける各サンプルオーディオについてフレーミング処理を行って、複数のオーディオフレームを得て、所定の特徴抽出方法で各オーディオフレームの音響的特徴を抽出し、各オーディオフレームのアノテーション情報を取得する。

該サンプルオーディオの音声開始点を含む該サンプルオーディオの前の第１の期間の第１のオーディオセグメントを切り取り、該第１のオーディオセグメントを１つの開始点訓練オーディオとし、該第１のオーディオセグメントにおける各オーディオフレームの音響的特徴及びアノテーション情報を該開始点訓練オーディオに対応する１組の開始点訓練データとして、開始点訓練セットに追加する。

該サンプルオーディオの音声終了点を含む該サンプルオーディオの最後の第２の期間の第２のオーディオセグメントを切り取り、該第２のオーディオセグメントを１つの終了点訓練オーディオとし、該第２のオーディオセグメントにおける各オーディオフレームの音響的特徴及びアノテーション情報を該終了点訓練オーディオに対応する１組の終了点訓練データとして、終了点訓練セットに追加する。

ここで使用される開始点認識モデル及び終了点認識モデルは、異なる訓練データセットを用いてリカレントニューラルネットワークを訓練して得られたものである。開始点訓練セットを用いてリカレントニューラルネットワークモデルを訓練して、開始点認識モデルを得て、終了点訓練セットを用いてリカレントニューラルネットワークモデルを訓練して、終了点認識モデルを得ることができる。

開始点訓練セットを用いてニューラルネットワークを訓練して、開始点認識モデルを得て、終了点訓練セットを用いてニューラルネットワークを訓練して、終了点認識モデルを得る。

検出段階では、ステップＳ１０１〜Ｓ１０３によって、検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出し、検出対象となるオーディオの各オーディオフレームの音響的特徴及び開始点認識モデルと終了点認識モデルに基づいて、それぞれ検出対象となるオーディオの音声開始点フレーム及び音声終了点フレームを認識し、それにより検出対象となるオーディオの音声開始点及び音声終了点を決定する。

各オーディオフレームの音響的特徴を取得した後、該ステップでは、各オーディオフレームの音響的特徴及び開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識する。

場合によっては、各オーディオフレームの音響的特徴を開始点認識モデルに順次入力して、開始点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、現在のオーディオフレームが音声開始点フレームではない場合、続いて次のフレームを開始点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、音声開始点フレームが決定されると、後続のオーディオフレームの開始点認識モデルへの入力を停止する。

ステップＳ１０３では、各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識する。

各オーディオフレームの音響的特徴を取得した後、該ステップでは、各オーディオフレームの音響的特徴及び終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識する。

場合によっては、音声開始点フレームを認識した後、検出対象となるオーディオの音声開始点フレーム以降の各オーディオフレームを終了点認識モデルに順次入力して、終了点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、現在のオーディオフレームが音声終了点フレームではない場合、続いて次のフレームを終了点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、音声終了点フレームが決定されると、後続のオーディオフレームの終了点認識モデルへの入力を停止する。

さらに、本実施例の別の実施形態では、各オーディオフレームを時系列順に逆順に終了点認識モデルに順次入力して、まず、検出対象となるオーディオの音声終了点フレームを認識し、次に音声終了点フレーム前のオーディオフレームを開始点認識モデルに順次入力し続け、検出対象となるオーディオの音声開始点フレームを認識してもよく、本実施例では、音声開始点フレーム及び音声終了点フレームの認識順番について特に限定しない。

本発明の実施例では、それぞれ開始点訓練セット及び終了点訓練セットを用いて、リカレントニューラルネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得て、各オーディオフレームの音響的特徴及び開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識し、それによって、終了点フレームの認識遅延時間に影響することなく、開始点フレームの認識精度をできるだけ高く確保することができ、各オーディオフレームの音響的特徴及び終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識し、それによって、開始点フレームの認識精度に影響することなく、終了点フレームの認識遅延をできるだけ短く確保することができ、それにより、開始点フレームの認識精度を向上させると同時に、終了点フレームの認識遅延時間を短縮できる。

図２は、本発明の実施例２による音声区間の認識方法のフローチャートである。上記実施例１に基づいて、本実施例では、各オーディオフレームの音響的特徴を開始点認識モデルに順次入力して、開始点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、現在のオーディオフレームが音声開始点フレームではない場合、続いて次のフレームを開始点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、音声開始点フレームが決定されると、後続のオーディオフレームの開始点認識モデルへの入力を停止し、音声開始点フレームを認識した後、検出対象となるオーディオの音声開始点フレーム以降の各オーディオフレームを終了点認識モデルに順次入力して、終了点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、現在のオーディオフレームが音声終了点フレームではない場合、続いて次のフレームを終了点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、音声終了点フレームが決定されると、後続のオーディオフレームの終了点認識モデルへの入力を停止する。図２に示されるように、該方法は、具体的には、ステップＳ２０１〜ステップＳ２１０を含む。

ステップＳ２０１では、検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出する。

該ステップは上記ステップＳ１０１に一致するため、ここで詳細な説明を省略する。

ステップＳ２０２では、第１のターゲットフレームを取得する。

本実施例では、検出対象となるオーディオのうちの各オーディオフレームの時系列に従って、オーディオフレームを順次第１のターゲットフレームとして、ステップＳ２０３〜Ｓ２０６によって、第１のターゲットフレームに対して開始点認識処理を行う。

ステップＳ２０３では、第１のターゲットフレームの音響的特徴を開始点認識モデルに入力して、第１のターゲットフレームが有効音声である確率値を算出する。

開始点認識モデルはリカレントニューラルネットワークモデルであり、入力した第１のターゲットフレームの音響的特徴に基づいて、第１のターゲットフレームが有効音声である確率値を算出して出力する。

場合によっては、第１のターゲットフレームが有効音声である確率値は、第１のターゲットフレームが有効音声である事後確率値である。

ステップＳ２０４では、第１のターゲットフレームが有効音声である確率値及び第１の閾値の大きさに基づいて、第１のターゲットフレームが有効音声であるか否かを決定する。

該ステップは、具体的には、下記方式で実現できる。

第１のターゲットフレームが有効音声である確率値と第１の閾値の大きさとを比較して、第１のターゲットフレームが有効音声である確率値が第１の閾値より大きいと、該第１のターゲットフレームが有効音声であると決定し、第１のターゲットフレームが有効音声である確率値が第１の閾値以下であると、該第１のターゲットフレームが有効音声ではないと決定する。

第１の閾値は、技術者により必要に応じて設定され得、本実施例ではそれについて特に限定しない。

ステップＳ２０５では、第１のターゲットフレームが有効音声である場合、第１のターゲットフレームを音声開始点フレームとして決定する。

該ステップでは、第１のターゲットフレームが有効音声である場合、第１のターゲットフレームが検出対象となるオーディオにおいて現れる有効音声である最初のオーディオフレームであることを示し、第１のターゲットフレームを音声開始点フレームとする。

場合によっては、第１のターゲットフレームを音声開始点フレームとして決定した後、音声開始点フレームの開始時点を検出対象となるオーディオの音声開始点としてもよい。

該ステップでは、音声開始点フレームを決定した後、ステップＳ２０７〜Ｓ２１１を実行し続け、後続の各オーディオフレームから音声終了点フレームを決定する。

ステップＳ２０６では、第１のターゲットフレームが有効音声ではない場合、次のフレームを新しい第１のターゲットフレームとする。

第１のターゲットフレームが有効音声ではない場合、検出対象となるオーディオにおいて有効音声である最初のオーディオフレームが現れていないことを示し、次のオーディオフレームを新しい第１のターゲットフレームとして、新しい第１のターゲットフレームに対してステップＳ２０３〜Ｓ２０６を実行し続け、新しい第１のターゲットフレームに対して開始点認識処理を行う。

ステップＳ２０７では、第２のターゲットフレームを取得する。

音声開始点フレームを決定した後、音声開始点フレーム以降のオーディオフレームを順次第２のターゲットフレームとして、後続のステップＳ２０７〜Ｓ２１１によって、第２のターゲットフレームに対して終了点認識処理を行う。

ステップＳ２０８では、第２のターゲットフレームの音響的特徴を終了点認識モデルに入力して、第２のターゲットフレームが有効音声である確率値を算出する。

終了点認識モデルはリカレントニューラルネットワークモデルであり、入力した第２のターゲットフレームの音響的特徴に基づいて、第２のターゲットフレームが有効音声である確率値を算出して出力する。

場合によっては、第２のターゲットフレームが有効音声である確率値は、第２のターゲットフレームが有効音声である事後確率値である。

ステップＳ２０９では、第２のターゲットフレームが有効音声である確率値及び第１の閾値より小さい第２の閾値の大きさに基づいて、第２のターゲットフレームが有効音声であるか否かを決定する。

該ステップは、具体的には、下記方式で実現できる。

第２のターゲットフレームが有効音声である確率値と第２の閾値の大きさとを比較して、第２のターゲットフレームが有効音声である確率値が第２の閾値より大きい場合、該第２のターゲットフレームが有効音声であると決定し、第２のターゲットフレームが有効音声である確率値が第２の閾値以下である場合、該第２のターゲットフレームが有効音声ではないと決定する。

第２の閾値は第１の閾値より小さい。たとえば、第１の閾値は０．６、第２の閾値は０．４である。

第２の閾値は、技術者により必要に応じて設定され得、本実施例ではそれについて特に限定しない。

ステップＳ２１０では、第２のターゲットフレームが有効音声ではない場合、第２のターゲットフレームを音声終了点フレームとして決定する。

該ステップでは、第２のターゲットフレームが有効音声ではない場合、第２のターゲットフレームが検出対象となるオーディオにおいて開始点オーディオフレーム以降に現れる有効音声ではない最初のオーディオフレームであることを示し、第２のターゲットフレームを音声終了点フレームとして決定する。

場合によっては、第２のターゲットフレームを音声終了点フレームとして決定した後、音声終了点フレームの開始時点を検出対象となるオーディオの音声終了点としてもよい。

ステップＳ２１１では、第２のターゲットフレームが有効音声である場合、次のフレームを新しい第２のターゲットフレームとする。

第２のターゲットフレームが有効音声である場合、検出対象となるオーディオにおいて音声開始点フレーム以降に有効音声ではないオーディオフレームが現れていないことを示し、次のオーディオフレームを新しい第２のターゲットフレームとして、新しい第２のターゲットフレームに対してステップＳ２０８〜Ｓ２１１を実行し続け、新しい第２のターゲットフレームに対して終了点認識処理を行う。

ステップＳ２０８〜Ｓ２１１によって、新しい第２のターゲットフレームに対して終了点認識処理を行う。

本発明の実施例では、各オーディオフレームの音響的特徴を開始点認識モデルに順次入力して、開始点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、現在のオーディオフレームが音声開始点フレームではない場合、続いて次のフレームを開始点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、音声開始点フレームが決定されると、後続のオーディオフレームの開始点認識モデルへの入力を停止し、音声開始点フレームを認識した後、検出対象となるオーディオの音声開始点フレーム以降の各オーディオフレームを終了点認識モデルに順次入力して、終了点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、現在のオーディオフレームが音声終了点フレームではない場合、続いて次のフレームを終了点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、音声終了点フレームが決定されると、後続のオーディオフレームの終了点認識モデルへの入力を停止し、それによって、音声区間認識効率を向上できる。

図３は、本発明の実施例３による開始点訓練セットを決定するときのフローチャートであり、図４は、本発明の実施例３による終了点訓練セットを決定するときのフローチャートである。上記実施例１又は実施例２に基づいて、本実施例では、検出対象となるオーディオの区間を認識する前に、開始点訓練セット及び終了点訓練セットを予め取得して、開始点訓練セット及び終了点訓練セットを用いて、それぞれリカレントニューラルネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得て、この段階をモデルの訓練段階とし、具体的には、訓練データの準備、開始点訓練セット及び終了点訓練セットの決定及びモデル訓練の３つの段階を含む。

アノテーション情報は第１の属性値又は第２の属性値であり、該サンプルが有効音声であるか否かをアノテーションする。アノテーション情報が第１の属性値であると、オーディオフレームが無効音声であることを示し、アノテーション情報が第２の属性値であると、オーディオフレームが有効音声であることを示し、第２の属性値は第１の属性値と異なる。

たとえば、第１の属性値は０、第２の属性値は１であり、又は、第１の属性値は「Ｎ」、第２の属性値は「Ｙ」などである。本実施例では、第１の属性値及び第２の属性値の具体的なデータ構造について特に限定しない。

場合によっては、１つの開始点訓練オーディオに対応する１組の開始点訓練データは｛Ｘ、Ｙ｝の構造で記憶されてもよく、Ｘは、該組の開始点訓練データにおける各オーディオフレームの音響的特徴を時系列に従って配列してなるシーケンスであり、該組の開始点訓練データの特徴シーケンスと呼ばれてもよく、Ｙは、該組の開始点訓練データにおける各オーディオフレームのアノテーションを特徴シーケンスに一致する順番に従って配列してなるシーケンスであり、該組の開始点訓練データのアノテーションシーケンスと呼ばれてもよい。

場合によっては、オーディオフレームのアノテーション情報は、人工アノテーション、又は音声認識における機器強制アライメントの方式で取得され、本実施例では、オーディオフレームのアノテーション方法について特に限定しない。

訓練データの準備段階は、音声認識のための訓練コーパスを予め取得することを含み、訓練コーパスは実際に使用される本物の音声素材であり、複数のサンプルオーディオを含む。たとえば、訓練コーパスは、ユーザが入力した１万個のオーディオを含み、各オーディオの長さは約数秒である。訓練コーパスにおける各サンプルオーディオについてフレーミング処理を行って、複数のオーディオフレームを得て、所定の特徴抽出方法で各オーディオフレームの音響的特徴を抽出し、各オーディオフレームのアノテーション情報を取得する。

訓練段階において、オーディオフレームの音響的特徴の抽出は、検出段階における検出対象となるオーディオの各オーディオフレームの音響的特徴の抽出と同様な特徴抽出方法で行え、それにより、オーディオフレームに対する認識精度を向上させる。

場合によっては、訓練コーパス中のあるオーディオセグメントに対するフレーミング処理方法は、検出段階における検出対象となるオーディオのフレーミング処理と同様な方式で行え、それにより、オーディオフレームに対する認識精度を向上させる。

音声信号の時変特性のため、音響的特徴の抽出は小さなセグメントの音声信号において行わなければならず、すなわち、短時間分析を行わなければならない。このセグメントはフレームと呼ばれる安定的な分析区間と見なされ、フレームとフレームとの間のシフトは通常フレーム長の１／２又は１／３程度とされる。訓練コーパス中のあるオーディオセグメントについては、所定期間おきに所定フレーム長の１フレームを抽出してもよく、該オーディオセグメントに対してフレーミング処理を行って、複数のオーディオフレームを得る。

たとえば、所定期間おきに、所定フレーム長の１フレームを抽出して、オーディオセグメントに対して、フレーミング処理を行って、複数のオーディオフレームを得る。場合によっては、所定期間は１０ミリ秒、所定フレーム長は２５ミリ秒である。

開始点訓練セット及び終了点訓練セットの決定段階は、訓練コーパスにおけるいずれか１つのサンプルオーディオについて、該サンプルオーディオの音声開始点を含む該サンプルオーディオの前の第１の期間の第１のオーディオセグメントを切り取り、該第１のオーディオセグメントを１つの開始点訓練オーディオとして、該第１のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該開始点訓練オーディオに対応する１組の開始点訓練データとして、開始点訓練セットに追加する。該サンプルオーディオの音声終了点を含む該サンプルオーディオの最後の第２の期間の第２のオーディオセグメントを切り取り、該第２のオーディオセグメントを１つの終了点訓練オーディオとして、該第２のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該終了点訓練オーディオに対応する１組の終了点訓練データとして、終了点訓練セットに追加する。

本実施例では、図３に示されるように、開始点訓練セットの決定は、具体的には、ステップＳ３０１〜ステップＳ３０５によって行われる。

ステップＳ３０１では、サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得する。

ステップＳ３０２では、サンプルオーディオの各フレームのアノテーション情報に基づいて、サンプルオーディオにおける音声開始時点を決定し、音声開始時点以降の第１の所定期間内におけるオーディオセグメントを有効音声セグメントとする。

第１の所定期間は、音声開始点を決定するときに、音声開始点の信頼区間を確保するための遅延時間である。第１の所定期間は、技術者により必要に応じて設定され得、本実施例では、第１の所定期間の値について特に限定しない。たとえば、第１の所定期間は２０フレームの期間である。

各フレームのアノテーション情報に基づいて、サンプルオーディオにおいて現れるアノテーション情報が第２の属性値である最初のフレームを決定し、該フレームが有効音声フレームであることを決定できる。通常、サンプルオーディオにはノイズ変動があるので、直接該フレームの開始時点をサンプルオーディオの音声開始時点とするのではなく、第１の所定期間の時間遅延を予め設定しておき、該フレーム開始時点以降の第１の所定期間内におけるフレームがすべて有効音声であり、すなわち第１の所定期間の有効音声が連続的に表れると、該フレームの開始時点をサンプルオーディオの音声開始時点とすることができる。

ステップＳ３０３では、音声開始時点＋第１の所定期間であるサンプルオーディオの第１の時点前のフレームのアノテーション情報を第１の属性値として設定する。

音声開始点の十分な信頼区間を確保するために、音声開始時点以降の第１の所定期間の終了時点を該サンプルオーディオの音声開始点とし、すなわち、第１の時点をサンプルオーディオの音声開始点とする。該ステップでは、サンプルオーディオの第１の時点前のフレームのアノテーション情報を第１の属性値として設定して、すなわち、サンプルオーディオの音声開始点前のフレームを無効音声としてアノテーションする。

ステップＳ３０４では、サンプルオーディオの第１の時点と第２の時点との間のフレームのアノテーション情報を第２の属性値として設定する。

第２の所定時点は、第１の時点以降であり、第２の時点及び第１の時点は、少なくとも第１の所定期間の間隔を有する。

場合によっては、第２の時点＝第１の時点＋第１の所定期間である。

音声開始点の十分な信頼区間を確保するために、音声開始時点以降の第１の所定期間の終了時点を該サンプルオーディオの音声開始点とし、すなわち、第１の時点をサンプルオーディオの音声開始点とする。このようにして、音声開始点の誤通知を防止できる。

該ステップでは、サンプルオーディオの第１の時点以降のフレームのアノテーション情報を第２の属性値として設定し、すなわち、サンプルオーディオの音声開始点後のフレームを有効音声としてアノテーションする。

音声開始点モデルの精度を向上させるために、該サンプルオーディオの前の第１の期間の第１のオーディオセグメントを１つの開始点訓練オーディオとして切り取る。当該開始点訓練オーディオは、該サンプルオーディオの開始時点から第２の時点までのオーディオセグメントである。

ステップＳ３０５では、サンプルオーディオの第２の時点前のフレームの音響的特徴及びアノテーション情報を１組の開始点訓練データとして、開始点訓練セットに追加する。

本実施例では、図４に示されるように、終了点訓練セットの決定は、具体的には、ステップＳ４０１〜ステップＳ４０５によって行われる。

ステップＳ４０１では、サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得する。

ステップＳ４０２では、サンプルオーディオの各フレームの音響的特徴及びアノテーション情報に基づいて、サンプルオーディオにおける音声終了時点を決定し、音声終了時点以降の第１の所定期間より小さい第２の所定期間内におけるオーディオセグメントを無効音声セグメントとする。

第２の所定期間は、音声終了点を決定するときに、音声終了点の信頼区間を確保するための遅延時間である。第２の所定期間は第１の所定期間より小さい。第２の所定期間は、技術者により必要に応じて設定され得、本実施例では、第２の所定期間の値について特に限定しない。

さらに、音声開始時点では、ユーザが話していて、システムからの応答を必要としないため、第１の所定期間が長いほど、開始点認識モデルの信頼区間が高いが、音声終了時点以降では、ユーザがシステムによるタイムリーな応答を期待するため、音声終了点を認識するにはモデルの信頼区間と応答速度を両立させる必要があり、従って、第１の所定期間をより長く設定して、第２の所定期間をより短く設定することができる。たとえば、第１の所定期間は２０フレームの期間、第２の所定期間は１０フレームの期間である。

各フレームのアノテーション情報に基づいて、サンプルオーディオにおいて現れるアノテーション情報が第２の属性値である最後のフレームを決定し、該フレームが有効音声であり、該フレーム後のフレームが無効音声であることを決定できる。サンプルフレームの音声開始点の決定と同様に、第２の所定期間の時間遅延を予め設定しておき、該フレームの終了時点以降の第２の所定期間内におけるフレームがすべて無効音声であり、すなわち、第２の所定期間の無効音声が連続的に現われると、該フレームの終了時点をサンプルオーディオの音声終了時点とすることができる。

ステップＳ４０３では、音声終了時点＋第２の所定期間であるサンプルオーディオの第３の時点以降のフレームのアノテーション情報を第１の属性値として設定する。

音声開始点の信頼区間を確保するために、音声終了時点以降の第２の所定期間の終了時点を該サンプルオーディオの音声終了点、すなわち、第３の時点をサンプルオーディオの音声終了点とする。該ステップでは、サンプルオーディオの第３の時点以降のフレームのアノテーション情報を第２の属性値として設定し、すなわち、サンプルオーディオの音声終了点後のフレームを無効音声としてアノテーションする。

ステップＳ４０４では、第３の時点−第２の所定期間であるサンプルオーディオの第４の時点と、第３の時点との間のフレームのアノテーション情報を第１の属性値として設定する。

第４の所定時点は、第３の時点以前であり、第４の時点及び第３の時点は、少なくとも第２の所定期間の間隔を有する。

音声終了点の信頼区間を確保するために、音声終了時点以降の第２の所定期間の終了時点を該サンプルオーディオの音声終了点とし、すなわち、第３の時点をサンプルオーディオの音声終了点とする。このようにして、音声終了点の誤通知を防止できる。

該ステップでは、サンプルオーディオの第３の時点前のフレームのアノテーション情報を第２の属性値として設定し、すなわち、サンプルオーディオの音声終了点前のフレームを有効音声としてアノテーションする。

音声終了点モデルの精度を向上させるために、該サンプルオーディオの最後の第２の期間の第２のオーディオセグメントを１つの終了点訓練オーディオとして切り取る。当該終了点訓練オーディオは、該サンプルオーディオの第４の時点から終了時点までのオーディオセグメントである。

ステップＳ４０５、サンプルオーディオの第４の時点以降のフレームの音響的特徴及びアノテーション情報を１組の終了点訓練データとして、終了点訓練セットに追加する。

開始点訓練セット及び終了点訓練セットを決定した後、モデル訓練段階において、開始点訓練セットを用いてリカレントニューラルネットワークモデルを訓練して、開始点認識モデルを得て、終了点訓練セットを用いてリカレントニューラルネットワークモデルを訓練して、終了点認識モデルを得ることができる。

場合によっては、使用されるリカレントニューラルネットワークは、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍ）ネットワーク、又はＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）ネットワークであってもよいし、又はほかのリカレントニューラルネットワークであってもよい。

場合によっては、開始点認識モデル及び終了点認識モデルは、同一タイプのリカレントニューラルネットワークを訓練して得られてもよいし、２つの異なるタイプのリカレントニューラルネットワークを訓練して得られてもよい。

好ましくは、開始点訓練セット及び終了点訓練セットを用いて、それぞれＧＲＵネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得ることによって、開始点認識モデル及び終了点認識モデルの計算効率を向上させる。

場合によっては、リカレントニューラルネットワークモデルを訓練するときに、それぞれ開始点訓練セット及び終了点訓練セットを用いて、ソフトマックス関数をアクティベーション関数、クロスエントロピーをコスト関数としてリカレントニューラルネットワークモデルを訓練する。

本実施例では、リカレントニューラルネットワークモデルの出力層は２つの出力ノードを含み、一方の出力ノードの値は、オーディオフレームが有効音声である確率情報を示し、他方の出力ノードの値は、オーディオフレームが無効音声である確率情報を示す。

さらに、本実施例の別の実施形態では、検出対象となるオーディオの音声開始点フレーム及び音声終了点フレームを認識した後、音声開始点フレームの開始時点を検出対象となるオーディオの音声開始点、音声終了点フレームの開始時点を検出対象となるオーディオの音声終了点とし、検出対象となるオーディオの音声開始点と音声終了点との間の第１のオーディオセグメントを切り取り、第１のオーディオセグメントを音声認識機器に送信してもよく、それにより、有効音声セグメントだけを音声認識機器に送信し、さらに音声認識機器の処理効率を向上させる。

場合によっては、検出対象となるオーディオの音声開始点と音声終了点との間の第１のオーディオセグメントを切り取った後、音声開始点前の第１の所定期間より大きい第３の所定期間の第２のオーディオセグメントを取得して、第２のオーディオセグメント及び第１のオーディオセグメントを音声認識機器に送信してもよく、それによって、第１の所定期間の遅延による影響を解消する。

場合によっては、音声開始点フレームを決定した後、検出対象となるオーディオにおける音声開始点フレーム前の第３の所定期間内のオーディオフレームをキャッシュできる。たとえば、第１の所定期間は２０フレームの期間、第３の所定期間は４０フレーム的期間である。

本発明の実施例では、訓練コーパスにおけるいずれか１つのサンプルオーディオについて、第１の所定期間を予め設定することにより、サンプルオーディオにおける音声開始時点以降の第１の所定期間の第１の時点をサンプルオーディオの音声開始点として決定し、該サンプルオーディオの前の第１の期間の第１のオーディオセグメントを切り取り、該サンプルオーディオの音声開始点を含む第１のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該開始点訓練オーディオに対応する１組の開始点訓練データとして、開始点訓練セットに追加し、開始点訓練セットで訓練して得られた開始点認識モデルは、信頼区間が高く、音声開始点認識の精度を向上できる。同様に、第２の所定期間を予め設定することにより、サンプルオーディオにおける音声終了時点以降の第２の所定期間の第３の時点をサンプルオーディオの音声終了点として決定し、該サンプルオーディオの音声終了点を含む最後の第２のオーディオセグメントを切り取り、該第２のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該終了点訓練オーディオに対応する１組の終了点訓練データとして、終了点訓練セットに追加し、第２の所定期間を第１の所定期間より小さく設定することで、終了点認識モデルの信頼区間と応答時間を両立させることができる。

図５は、本発明の実施例４による音声区間の認識装置の構造概略図である。本発明の実施例による音声区間の認識装置は、音声区間の認識方法の実施例による処理プロセスを実行できる。図５に示されるように、該装置５０は、特徴抽出モジュール５０１と、開始点認識モジュール５０２と、終了点認識モジュール５０３とを備える。

具体的には、特徴抽出モジュール５０１は、検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出する。

開始点認識モジュール５０２は、各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識する。

終了点認識モジュール５０３は、各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識する。

開始点訓練セットは、１つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも１組の開始点訓練データを含む。

終了点訓練セットは、１つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも１組の終了点訓練データを含む。

アノテーション情報は、フレームを無効音声としてアノテーションするための第１の属性値又はフレームを有効音声としてアノテーションするための第２の属性値である。

本発明の実施例による装置は、具体的には、上記実施例１による方法例を実行でき、具体的な機能については、ここで詳細な説明を省略する。

上記実施例４に基づいて、本実施例では、開始点認識モジュールはさらに、
オーディオフレームを順次第１のターゲットフレームとして、第１のターゲットフレームに対して、開始点認識処理として、第１のターゲットフレームの音響的特徴を開始点認識モデルに入力して、第１のターゲットフレームが有効音声である確率値を算出することと、第１のターゲットフレームが有効音声である確率値及び第１の閾値の大きさに基づいて、第１のターゲットフレームが有効音声であるか否かを決定することと、第１のターゲットフレームが有効音声ではない場合、次のオーディオフレームを新しい第１のターゲットフレームとして、新しい第１のターゲットフレームに対して開始点認識処理を行うことと、第１のターゲットフレームが有効音声である場合、第１のターゲットフレームを音声開始点フレームとして決定することとを行う。

終了点認識モジュールはさらに、
音声開始点フレーム以降のオーディオフレームを順次第２のターゲットフレームとして、第２のターゲットフレームに対して、終了点認識処理として、第２のターゲットフレームの音響的特徴を終了点認識モデルに入力して、第２のターゲットフレームが有効音声である確率値を算出することと、第２のターゲットフレームが有効音声である確率値及び第１の閾値より小さい第２の閾値の大きさに基づいて、第２のターゲットフレームが有効音声であるか否かを決定することと、第２のターゲットフレームが有効音声である場合、次のオーディオフレームを新しい第２のターゲットフレームとして、新しい第２のターゲットフレームに対して終了点認識処理を行うことと、第２のターゲットフレームが有効音声ではない場合、第２のターゲットフレームを音声終了点フレームとして決定することとを行う。

本発明の実施例による装置は、具体的には、上記実施例２による方法例を実行でき、具体的な機能については、ここで詳細な説明を省略する。

本発明の実施例では、オーディオフレームを開始点認識モデルに順次入力して、開始点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、現在のオーディオフレームが音声開始点フレームではない場合、続いて次のフレームを開始点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、音声開始点フレームが決定されると、後続のオーディオフレームの開始点認識モデルへの入力を停止し、音声開始点フレームを認識した後、検出対象となるオーディオの音声開始点フレーム以降の各オーディオフレームを終了点認識モデルに順次入力して、終了点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、現在のオーディオフレームが音声終了点フレームではない場合、続いて次のフレームを終了点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、音声終了点フレームが決定されると、後続のオーディオフレームの終了点認識モデルへの入力を停止し、それによって、音声区間認識効率を向上できる。

図６は、本発明の実施例６による音声区間の認識装置の構造概略図である。上記実施例５に基づいて、本実施例では、図６に示されるように、該装置５０は、訓練セット決定モジュール５０４をさらに備える。

具体的には、訓練セット決定モジュール５０４は、
サンプルオーディオの各フレームのアノテーション情報に基づいて、サンプルオーディオにおける音声開始時点を決定し、音声開始時点以降の第１の所定期間内におけるオーディオセグメントを有効音声セグメントとし、音声開始時点＋第１の所定期間であるサンプルオーディオの第１の時点前のフレームのアノテーション情報を第１の属性値として設定し、第１の時点と、第１の時点＋第１の所定期間であるサンプルオーディオの第２の時点との間のフレームのアノテーション情報を第２の属性値として設定し、サンプルオーディオの第２の時点前のフレームの音響的特徴及びアノテーション情報を１組の開始点訓練データとして、開始点訓練セットに追加する。

訓練セット決定モジュール５０４はさらに、
サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得し、サンプルオーディオの各フレームのアノテーション情報に基づいて、サンプルオーディオにおける音声終了時点を決定し、音声終了時点以降の第１の所定期間より小さい第２の所定期間内におけるオーディオセグメントを無効音声セグメントとし、音声終了時点＋第２の所定期間であるサンプルオーディオの第３の時点以降のフレームのアノテーション情報を第１の属性値として設定し、第３の時点−第２の所定期間であるサンプルオーディオの第４の時点と、第３の時点との間のフレームのアノテーション情報を第２の属性値として設定し、サンプルオーディオの第４の時点以降のフレームの音響的特徴及びアノテーション情報を１組の終了点訓練データとして、終了点訓練セットに追加する。

場合によっては、該装置５０はさらに、提出モジュールを備えてもよい。

提出モジュールは、音声開始点フレームの開始時点を検出対象となるオーディオの音声開始点とし、音声終了点フレームの開始時点を検出対象となるオーディオの音声終了点とし、検出対象となるオーディオの音声開始点と音声終了点との間の第１のオーディオセグメントを切り取り、第１のオーディオセグメントを音声認識機器に送信する。

場合によっては、提出モジュールはさらに、
音声開始点前の第１の所定期間より大きい第３の所定期間の第２のオーディオセグメントを取得して、第２のオーディオセグメント及び第１のオーディオセグメントを音声認識機器に送信する。

本発明の実施例による装置は、具体的には、上記実施例３による方法例を実行でき、具体的な機能については、ここで詳細な説明を省略する。

図７は、本発明の実施例７によるコンピュータ機器の構造概略図である。図７に示されるように、該装置７０は、プロセッサ７０１、メモリ７０２、及びメモリ７０２に記憶され且つプロセッサ７０１により実行されるコンピュータプログラムを備える。

プロセッサ７０１は、メモリ７０２に記憶されたコンピュータプログラムを実行すると、上記いずれかの方法実施例による音声区間の認識方法を実現する。

本発明の実施例では、それぞれ開始点訓練セットと終了点訓練セットを用いて、リカレントニューラルネットワークを訓練して、開始点認識モデルと終了点認識モデルを得て、各オーディオフレームの音響的特徴と開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識し、それによって、終了点フレームの認識遅延時間に影響することなく、開始点フレームの認識精度をできるだけ高く確保し、各オーディオフレームの音響的特徴と終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識し、それによって、開始点フレームの認識精度に影響することなく、終了点フレームの認識遅延をできるだけ短く確保し、それにより、開始点フレームの認識精度を向上させると同時に、終了点フレームの認識遅延時間を短縮できる。

さらに、本発明の実施例はさらに、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されると、上記いずれかの方法実施例による音声区間の認識方法を実現する、コンピュータ読み取り可能な記憶媒体を提供する。

なお、本発明によるいくつかの実施例に開示されている装置及び方法は、その他の形態により実施することもできる。例えば、以上に説明された装置の実施例は例示的なものにすぎない。例えば、上記ユニットの分割は、論理機能上の分割にすぎず、実施する際に別の形態で分割することもでき、例えば、複数のユニット又は部品を別のシステムに組み合わせもしくは集積させたり、又は一部の特徴を反映させず、実行しなかったりしてもよい。また、説明又は検討した互いの結合又は直接的な結合又は通信接続は、いくつかのインタフェース、装置又はユニットを用いる間接的接続又は通信接続とすることもでき、電気的形態、機械的形態又はその他の形態とすることもできる。

前記分離される部品として説明されるユニットは、物理的に分離されるものでもよければ、分離されないものであってもよい。ユニットとして示される部品は、物理的なユニットであってもよいが、物理的なユニットでなくてもよい。すなわち、同一の場所に設けられるものであってもよいが、複数のネットワークユニットに配置されるものであってもよい。必要に応じて、一部のユニットだけを用いるか、又はすべてのユニットを使用して本実施例に係る発明の目的を達成することができる。

また、本発明の各実施例において、各機能ユニットが１つの処理ユニットに集積されてもよいが、各ユニットが単独で物理的な部品として存在するか、又は２つ以上のユニットが１つのユニットに集積されてもよい。上記集積ユニットはハードウェアの形態として実現されてもよいし、ハードウェアとソフトウェアを組み合わせた機能ユニットの形態として実現されてもよい

ソフトウェアの機能ユニットの形で実現された上記集積ユニットは、コンピュータ読み取り可能な記憶媒体に記憶することができる。上記ソフトウェアの機能ユニットは、記憶媒体に記憶され、コンピュータ機器（パソコン、サーバ、又はネットワーク機器など）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施例による前記方法の一部のステップを実行させるためのいくつかのコマンドを含む。前記記憶媒体は、ＵＳＢフラッシュドライブ、モバイルハードディスク、読み出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、略称ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、略称ＲＡＭ）、磁気ディスク又はコンパクトディスクなど、プロクラムコードを記憶可能なさまざまな媒体を含む。

当業者に自明なように、説明の利便さ及び簡素化から、上記各機能モジュールの分割を例にして説明したが、実際に使用されるとき、必要に応じて、上記機能を異なる機能モジュールで完了してもよく、すなわち、装置の内部構造を異なる機能モジュールに分割して、以上に説明したすべての機能又はその部分を完成する。上記説明された装置の具体的な作動過程については、前述方法実施例における対応過程を参照すればよいため、ここで詳細な説明を省略する。

当業者が明細書に基づいて、又は、ここで開示されている発明を実施すると、本発明のほかの実施形態を容易に想到し得る。本発明は、本発明のいずれかの変形、用途又はアダプティブな変更を含むことを意図し、これらの変形、用途又はアダプティブな変更は、本発明の一般的な原理に従っており、本発明に開示されていない本技術分野における周知常識又は慣用技術手段を含む。明細書と実施例は例示的なものにすぎず、本発明の真の範囲及び精神は、添付の特許請求の範囲によって限定される。

なお、本発明は、以上に説明され且つ図面中に示される詳細な構造に制限されず、その範囲を逸脱することなく、様々な修正と変化を行うことができる。本発明の範囲は添付の特許請求の範囲だけによって限定される。

Claims

音声区間の認識方法であって、
検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出するステップと、
前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識するステップと、
前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識するステップと、
を含み、
前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識する前記ステップは、
前記オーディオフレームを順次第１のターゲットフレームとして、前記第１のターゲットフレームに対して、開始点認識処理を行うことを含み、
前記開始点認識処理は、
前記第１のターゲットフレームの音響的特徴を前記開始点認識モデルに入力して、前記第１のターゲットフレームが有効音声である確率値を算出することと、
前記第１のターゲットフレームが有効音声である確率値及び第１の閾値の大きさに基づいて、前記第１のターゲットフレームが有効音声であるか否かを決定することと、
を含み、
前記第１のターゲットフレームが有効音声ではない場合、次のオーディオフレームを新しい第１のターゲットフレームとして、前記新しい第１のターゲットフレームに対して前記開始点認識処理を行い、
前記第１のターゲットフレームが有効音声である場合、前記第１のターゲットフレームを音声開始点フレームとして決定する、
ことを特徴とする音声区間の認識方法。
前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識する前記ステップは、
前記音声開始点フレーム以降のオーディオフレームを順次第２のターゲットフレームとして、前記第２のターゲットフレームに対して、終了点認識処理を行うことを含み、
前記終了点認識処理は、
前記第２のターゲットフレームの音響的特徴を前記終了点認識モデルに入力して、前記第２のターゲットフレームが有効音声である確率値を算出することと、
前記第２のターゲットフレームが有効音声である確率値及び前記第１の閾値より小さい第２の閾値の大きさに基づいて、前記第２のターゲットフレームが有効音声であるか否かを決定することと、
を含み、
前記第２のターゲットフレームが有効音声である場合、次のオーディオフレームを新しい第２のターゲットフレームとして、前記新しい第２のターゲットフレームに対して前記終了点認識処理を行い、
前記第２のターゲットフレームが有効音声ではない場合、前記第２のターゲットフレームを音声終了点フレームとして決定する、
ことを特徴とする請求項１に記載の方法。
前記開始点訓練セットは、１つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも１組の開始点訓練データを含み、
前記終了点訓練セットは、１つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも１組の終了点訓練データを含み、
アノテーション情報は、フレームを無効音声としてアノテーションするための第１の属性値又はフレームを有効音声としてアノテーションするための第２の属性値である、
ことを特徴とする請求項１〜２のいずれか１項に記載の方法。
前記方法は、
サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得するステップと、
前記サンプルオーディオの各フレームのアノテーション情報に基づいて、前記サンプルオーディオにおける音声開始時点を決定し、前記音声開始時点以降の第１の所定期間内におけるオーディオセグメントを有効音声セグメントとするステップと、
前記サンプルオーディオの第１の時点前のフレームのアノテーション情報を第１の属性値として設定するステップと、
前記サンプルオーディオの前記第１の時点と第２の時点との間のフレームのアノテーション情報を第２の属性値として設定するステップと、
前記サンプルオーディオの前記第２の時点前のフレームの音響的特徴及びアノテーション情報を１組の開始点訓練データとして、前記開始点訓練セットに追加するステップと、
をさらに含み、
前記第１の時点＝前記音声開始時点＋前記第１の所定期間であり、
前記第２の時点＝前記第１の時点＋前記第１の所定期間である
ことを特徴とする請求項３に記載の方法。
前記方法は、
前記サンプルオーディオの各フレームのアノテーション情報に基づいて、前記サンプルオーディオにおける音声終了時点を決定し、前記音声終了時点以降の前記第１の所定期間より小さい第２の所定期間内におけるオーディオセグメントを無効音声セグメントとするステップと、
前記サンプルオーディオの第３の時点以降のフレームのアノテーション情報を第１の属性値として設定するステップと、
前記サンプルオーディオの第４の時点と前記第３の時点との間のフレームのアノテーション情報を第２の属性値として設定するステップと、
前記サンプルオーディオの前記第４の時点以降のフレームの音響的特徴及びアノテーション情報を１組の終了点訓練データとして、前記終了点訓練セットに追加するステップと、
をさらに含み、
前記第３の時点＝前記音声終了時点＋前記第２の所定期間であり、
前記第４の時点＝前記第３の時点−前記第２の所定期間である、
ことを特徴とする請求項４に記載の方法。
前記検出対象となるオーディオの音声開始点フレーム及び音声終了点フレームを決定した後、さらに、
前記音声開始点フレームの開始時点を前記検出対象となるオーディオの音声開始点とするステップと、
前記音声終了点フレームの開始時点を前記検出対象となるオーディオの音声終了点とするステップと、
前記検出対象となるオーディオの音声開始点と音声終了点との間の第１のオーディオセグメントを切り取るステップと、
前記第１のオーディオセグメントを音声認識機器に送信するステップと、
を含むことを特徴とする請求項４に記載の方法。
前記検出対象となるオーディオの音声開始点と音声終了点との間の第１のオーディオセグメントを切り取った後、さらに、
前記音声開始点前の前記第１の所定期間より大きい第３の所定期間の第２のオーディオセグメントを取得して、前記第２のオーディオセグメント及び前記第１のオーディオセグメントを音声認識機器に送信するステップを含む、
ことを特徴とする請求項６に記載の方法。
音声区間の認識装置であって、
検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出するための特徴抽出モジュールと、
前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識するための開始点認識モジュールと、
前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識するための終了点認識モジュールと、
を備え、
前記開始点認識モジュールはさらに、
前記オーディオフレームを順次第１のターゲットフレームとして、前記第１のターゲットフレームに対して、開始点認識処理を行うのに用いられ、
前記開始点認識処理は、
前記第１のターゲットフレームの音響的特徴を前記開始点認識モデルに入力して、前記第１のターゲットフレームが有効音声である確率値を算出することと、
前記第１のターゲットフレームが有効音声である確率値及び第１の閾値の大きさに基づいて、前記第１のターゲットフレームが有効音声であるか否かを決定することと、
を含み、
前記第１のターゲットフレームが有効音声ではない場合、次のオーディオフレームを新しい第１のターゲットフレームとして、前記新しい第１のターゲットフレームに対して前記開始点認識処理を行い、
前記第１のターゲットフレームが有効音声である場合、前記第１のターゲットフレームを音声開始点フレームとして決定するのに用いられる、
ことを特徴とする音声区間の認識装置。
前記終了点認識モジュールはさらに、
前記音声開始点フレーム以降のオーディオフレームを順次第２のターゲットフレームとして、前記第２のターゲットフレームに対して、終了点認識処理を行うのに用いられ、
前記終了点認識処理は、
前記第２のターゲットフレームの音響的特徴を前記終了点認識モデルに入力して、前記第２のターゲットフレームが有効音声である確率値を算出することと、
前記第２のターゲットフレームが有効音声である確率値及び前記第１の閾値より小さい第２の閾値の大きさに基づいて、前記第２のターゲットフレームが有効音声であるか否かを決定することと、
を含み、
前記第２のターゲットフレームが有効音声である場合、次のオーディオフレームを新しい第２のターゲットフレームとして、前記新しい第２のターゲットフレームに対して前記終了点認識処理を行い、
前記第２のターゲットフレームが有効音声ではない場合、前記第２のターゲットフレームを音声終了点フレームとして決定するのに用いられる、
ことを特徴とする請求項８に記載の装置。
前記開始点訓練セットは、１つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも１組の開始点訓練データを含み、
前記終了点訓練セットは、１つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも１組の終了点訓練データを含み、
アノテーション情報は、フレームを無効音声としてアノテーションするための第１の属性値又はフレームを有効音声としてアノテーションするための第２の属性値である、
ことを特徴とする請求項８〜９のいずれか１項に記載の装置。
前記装置は、訓練セット決定モジュールをさらに備え、
前記訓練セット決定モジュールは、
サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得し、
前記サンプルオーディオの各フレームのアノテーション情報に基づいて、前記サンプルオーディオにおける音声開始時点を決定し、前記音声開始時点以降の第１の所定期間内におけるオーディオセグメントを有効音声セグメントとし、
前記サンプルオーディオの第１の時点前のフレームのアノテーション情報を第１の属性値として設定し、
前記サンプルオーディオの前記第１の時点と第２の時点との間のフレームのアノテーション情報を第２の属性値として設定し、
前記サンプルオーディオの前記第２の時点前のフレームの音響的特徴及びアノテーション情報を１組の開始点訓練データとして、前記開始点訓練セットに追加するのに用いられ、
前記第１の時点＝前記音声開始時点＋前記第１の所定期間であり、
前記第２の時点＝前記第１の時点＋前記第１の所定期間である
ことを特徴とする請求項１０に記載の装置。
前記訓練セット決定モジュールはさらに、
前記サンプルオーディオの各フレームのアノテーション情報に基づいて、前記サンプルオーディオにおける音声終了時点を決定し、前記音声終了時点以降の前記第１の所定期間より小さい第２の所定期間内におけるオーディオセグメントを無効音声セグメントとし、
前記サンプルオーディオの第３の時点以降のフレームのアノテーション情報を第１の属性値として設定し、
前記サンプルオーディオの第４の時点と前記第３の時点との間のフレームのアノテーション情報を第２の属性値として設定し、
前記サンプルオーディオの前記第４の時点以降のフレームの音響的特徴及びアノテーション情報を１組の終了点訓練データとして、前記終了点訓練セットに追加するのに用いられ、
前記第３の時点＝前記音声終了時点＋前記第２の所定期間であり、
前記第４の時点＝前記第３の時点−前記第２の所定期間である、
ことを特徴とする請求項１１に記載の装置。
前記装置は、提出モジュールをさらに備え
前記提出モジュールは、
前記音声開始点フレームの開始時点を前記検出対象となるオーディオの音声開始点とし、
前記音声終了点フレームの開始時点を前記検出対象となるオーディオの音声終了点とし、
前記検出対象となるオーディオの音声開始点と音声終了点との間の第１のオーディオセグメントを切り取り、
前記第１のオーディオセグメントを音声認識機器に送信するのに用いられる、
ことを特徴とする請求項１１に記載の装置。
前記提出モジュールはさらに、
前記音声開始点前の前記第１の所定期間より大きい第３の所定期間の第２のオーディオセグメントを取得して、前記第２のオーディオセグメント及び前記第１のオーディオセグメントを音声認識機器に送信するのに用いられる、
ことを特徴とする請求項１３に記載の装置。
コンピュータ機器であって、
メモリと、プロセッサと、前記メモリに記憶され且つ前記プロセッサにおいて実行可能なコンピュータプログラムとを備え、
前記プロセッサは、前記コンピュータプログラムを実行すると、請求項１〜７のいずれか１項に記載の方法を実現する、
ことを特徴とするコンピュータ機器。
コンピュータ読み取り可能な記憶媒体であって、
コンピュータプログラムが記憶されており、
前記コンピュータプログラムは、プロセッサにより実行されると、請求項１〜７のいずれか１項に記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。