JP7258182B2

JP7258182B2 - 音声処理方法、装置、電子機器及びコンピュータプログラム

Info

Publication number: JP7258182B2
Application number: JP2021560990A
Authority: JP
Inventors: 燕南王; 俊黄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-05
Filing date: 2020-07-13
Publication date: 2023-04-14
Anticipated expiration: 2040-07-13
Also published as: WO2021042870A1; EP3933829B1; US11948552B2; EP3933829A4; CN110379412A; JP2022529641A; US20240169975A1; CN110379412B; EP3933829A1; US20210390946A1

Description

本願は、２０１９年９月５日に中国特許局に提出された、出願番号が第２０１９１０８３８１９２．６号であり、名称が「音声処理方法、装置、電子機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照によって本願に組み込まれる。

本願はコンピュータ技術分野に関し、具体的には、本願は、音声処理方法、装置、電子機器及びコンピュータ可読記憶媒体に関する。

雑音付き音声情報から雑音を除去するプロセスにおいて、通常、テキストツースピーチ（ＴｅｘｔＴｏＳｐｅｅｃｈ：ＴＴＳと略称）におけるテキスト情報の抽出方法を用いて、対応するテキスト情報を抽出して雑音付き音声の特徴に結合し、雑音低減ネットワークモデルに送ってトレーニングを行う。

本願の実施例は、電子機器によって実行される音声処理方法を提供し、音声処理方法は、
処理対象である音声情報を収集するステップと、
処理対象である音声情報に基づき、第１音声特徴及び第１テキストボトルネック特徴を決定するステップと、
第１音声特徴及び第１テキストボトルネック特徴に基づき、第１組み合わせ特徴ベクトルを決定するステップと、
第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるステップと、を含む。

いくつかの実施例において、処理対象である音声情報に基づき、第１音声特徴を決定するステップは、
処理対象である音声情報に対してフレーム分割処理及び窓掛け処理を行うステップと、
フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、前記第１音声特徴を抽出するステップであって、第１音声特徴は、対数パワースペクトル特徴、メル周波数ケプストラム係数（ＭＦＣＣ）特徴の少なくとも一つを含む、ステップと、を含む。

いくつかの実施例において、処理対象である音声情報に基づき、第１テキストボトルネック特徴を決定するステップは、
処理対象である音声情報から、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出するステップであって、Ｎ及びＭは共に正の整数である、ステップと、
Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴とＭ次元のｐｉｔｃｈ特徴を結合し、第２音声特徴を得るステップと、
第２音声特徴をトレーニング済みの自動音声認識（ＡＳＲ）ネットワークに入力し、トレーニング済みのＡＳＲネットワークのボトルネックの線形層から、第１テキストボトルネック特徴を抽出するステップと、を含む。

いくつかの実施例において、第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得るステップは、
トレーニング済みの単一方向ＬＳＴＭモデルによって、第１組み合わせ特徴ベクトルに対して音声強調処理を行うステップと、
処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、前記雑音低減後の音声情報を得るステップと、を含む。

いくつかの実施例において、ＡＳＲネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル（ＧＭＭ）によって、コーパスに含まれるテキストアノテーションとテキストアノテーションに対応するオーディオファイルをアライメントし、第１テキスト特徴を得て、前記コーパスはＡＳＲネットワークをトレーニングするために用いられ、
オーディオファイルから、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出し、
Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴とＭ次元のｐｉｔｃｈ特徴を結合し、第３音声特徴を得て、
第３音声特徴をＡＳＲネットワークに入力してＡＳＲネットワークをトレーニングし、ＡＳＲネットワークの出力層から出力される第２テキスト特徴を得て、
第１テキスト特徴の値及び第２テキスト特徴の値に基づき、ＡＳＲネットワークのクロスエントロピー（ＣＥ）の値を決定する、トレーニングステップと、
トレーニングステップを繰り返して実行し、ＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値と前回のＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値との差が第１閾値範囲内に収まる場合、トレーニング済みのＡＳＲネットワークを得るステップと、を含む。

いくつかの実施例において、単一方向ＬＳＴＭモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
雑音付き音声から第４音声特徴及び第２テキストボトルネック特徴を抽出し、雑音を含まない音声から第５音声特徴を抽出するステップと、
第４音声特徴と第２テキストボトルネック特徴を組み合わせて、第２組み合わせ特徴ベクトルを得るステップと、
第２組み合わせ特徴ベクトルを単一方向ＬＳＴＭモデルに入力し、単一方向ＬＳＴＭモデルをトレーニングし、単一方向ＬＳＴＭモデルから出力される参考値と第５音声特徴値との間の最小平均二乗誤差が第２閾値以下になる場合、トレーニング済みの単一方向ＬＳＴＭモデルを得るステップと、を含む。

いくつかの実施例において、ＡＳＲネットワークは、入力層としての４層の隠れ層のディープニューラルネットワーク（ＤＮＮ）、１つのｂｏｔｔｌｅｎｅｃｋの線形層、及び出力層としての確率分布層（ｓｏｆｔｍａｘ層）を含む。

本願の実施例は、音声処理装置をさらに提供し、音声処理装置は、
処理対象である音声情報を収集するように構成される第１処理モジュールと、
処理対象である音声情報に基づき、第１音声特徴及び第１テキストボトルネック特徴を決定するように構成される第２処理モジュールと、
第１音声特徴及び第１テキストボトルネック特徴に基づき、第１組み合わせ特徴ベクトルを決定するように構成される第３処理モジュールと、
第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるように構成される第４処理モジュールと、を含む。

本願の実施例は、電子機器をさらに提供し、電子機器は、プロセッサ、メモリ及びバスを含み、
バスはプロセッサとメモリを接続するために用いられ、
メモリは動作命令を記憶するために用いられ、
プロセッサは、動作命令を呼び出すことで、本願の実施例に記載の音声処理方法を実行するために用いられる。

本願の実施例は、本願の実施例に記載の音声処理方法を実行するためのコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。

本願の実施例により提供される音声処理方法が適用されるシステムの構成図である。本願の実施例により提供される音声処理方法のフローチャートである。本願の実施例により提供されるＡＳＲネットワークの模式図である。本願の実施例により提供される別の音声処理方法のフローチャートである。本願の実施例により提供される音声特徴抽出の模式図である。本願の実施例により提供される組み合わせ特徴ベクトルの模式図である。本願の実施例により提供される会議システムの模式図である。本願の実施例により提供される音声処理装置の構成図である。本願の実施例により提供される電子機器の構成図である。

本願の実施例における技術的解決手段をより明確に説明するために、上記において、本願の実施例の記載のための図面について簡単に説明した。

本願の発明の目的、特徴及び利点をより明確且つ分かりやすくするために、以下において、本願の実施例における図面を参照し、本願の実施例の技術的解決手段を明確に、完全に説明するが、当然ながら、説明される実施例は本願の実施例の一部に過ぎず、全ての実施例ではない。本願における実施例に基づき、当業者が創造的労力を要することなく得られる他の全ての実施例は、いずれも本願の保護範囲に属する。

以下において、本願の実施例を詳しく説明するが、該実施例の例が図面に示されており、図面全体にわたって同じ又は類似の符号は同じ又は類似の要素、或いは、同じ又は類似の機能を有する要素を表す。以下に図面を参照して説明する実施例は例示的なものであり、単に本願を解釈するためのものであり、本願に対する制限と解釈すべきものではない。

当業者であれば理解できるように、特別な説明がない限り、ここで使用される単数形「一」、「一つ」、及び「該」は複数形を含んでもよい。なお、本願の明細書に記載される「含む」という語句とは、特徴、整数、ステップ、動作、要素及び／又はコンポーネントを有することを指しているが、一つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント及び／又はそれらの群の存在又は追加を除外することを意味しないとさらに理解すべきである。そして、要素が別の要素に「接続」又は「カップリング」されることが記載されている場合、それは他の要素に直接接続又はカップリングされてもよく、又は中間素子が存在してもよいと理解すべきである。また、ここで使用される「接続」又は「カップリング」は無線接続又は無線カップリングを含んでもよい。ここで使用される「及び／又は」という語句は、一つ又は複数の関連する列記項目の全てもしくは任意のユニット及びあらゆる組み合わせを含む。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：ＡＩと略称）は、デジタルコンピュータ又はデジタルコンピュータに制御される機械を用いて人間の知能をシミュレーション、延長及び拡張し、環境を知覚し、知識を取得して使用することで最善の結果を得る理論、方法、技術及び応用システムである。言い換えれば、人工知能はコンピュータ科学の総合技術であり、知能の本質を理解し、人間知能と同様な方式で反応できる新たな知能機械を創出することを意図するものである。つまり、人工知能は様々な知能機械の設計原理と実現方法を研究し、機械に知覚、推論及び意思決定の機能を備えるものである。

人工知能技術は総合学科であり、広範な技術が関連し、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能の基本的技術は一般的にセンサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータの処理技術、操作／インタラクションシステム、電気機械一体化等の技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習等の研究方向がある。

音声技術（ＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙ）には自動音声認識技術（ＡＳＲ）、音声合成技術（ＴＴＳ）及び声紋認識技術という重要な技術がある。コンピュータが聞く、見る、話す、感じることを可能にすることは、将来ヒューマンマシンインタラクションの発展方向であり、そのうち、音声は将来性が最も高いヒューマンマシンインタラクションの一つと見られている。

本願の実施例の解決手段をより良く理解及び説明するために、以下に本願の実施例に係るいくつかの技術用語を簡単に説明する。

ニューラルネットワーク
動物ニューラルネットワーク行動特徴を擬似し、分散型並列情報処理を行うアルゴリズム数学モデルである。このようなネットワークは、システムの複雑さに依存して内部の多くのノード間の相互接続関係を調整することにより、情報を処理する目的を達成する。

ディープニューラルネットワーク
ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ディープニューラルネットワーク）とは、少なくとも一つの隠れ層を有し、活性化関数で非線形化を行い、クロスエントロピーを損失関数として使用し、逆伝播最適化アルゴリズム（例えば、確率的勾配降下法、バッチ勾配降下法）を用いて学習やトレーニングを行う（ニューロン間の重みを調整して更新する）フィードフォワードニューラルネットワークである。

自動音声認識
ＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：自動音声認識）技術は、コンピュータが様々な人から話した連続的な音声をディクテーションできるようにすること、つまり、一般的に知られているディクテーションマシンを実現することを目標としており、音声からテキストへの変換を可能にするための技術である。自動音声認識は、音声認識（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）又はコンピュータ音声認識（ＣｏｍｐｕｔｅｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）とも呼ばれる。

メル周波数ケプストラム係数
ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ：メル周波数ケプストラム係数）は、人間の聴覚特徴を考慮し、線性スペクトルを聴覚感知に基づくメルＭｅｌ非線形スペクトルにマッピングしてからケプストラム上に変換したものである。メル周波数は、耳の聴覚特性に基づいて提案されたものであり、Ｈｚ周波数と非線形対応関係を呈しており、メル周波数ケプストラム係数は、それらの間のこのような関係を利用して算出したＨｚスペクトル特徴であり、主に音声データ特徴の抽出及び計算次元の削減に用いられる。

確率分布ｓｏｆｔｍａｘ層
ｓｏｆｔｍａｘ層の出力は、合計が１になる一連の正数であり、つまり、ｓｏｆｔｍａｘ層から得られる出力は確率分布と見なすことができる。ｓｏｆｔｍａｘ層はニューラルネットワークの出力を確率分布に変換する。

音声強調
音声信号が様々な雑音により干渉され、ひいては埋もれた場合、雑音背景から有用な音声信号を抽出し、雑音干渉を抑制し、低減する技術であり、雑音付き音声から可能な限りクリーンなオリジナル音声を抽出するものである。

クロスエントロピー
ＣＥ（ＣｒｏｓｓＥｎｔｒｏｐｙ：クロスエントロピー）は、確率分布ｑ（ｘ）によって確率分布ｐ（ｘ）を表す難易度と見なすことができる。クロスエントロピーは二つの確率分布ｑ（ｘ）とｐ（ｘ）の距離を表し、つまり、クロスエントロピーの値が小さいほど（相対エントロピーの値が小さいほど）、二つの確率分布ｑ（ｘ）とｐ（ｘ）が近い。クロスエントロピー損失関数は、分類課題、特にニューラルネットワークの分類課題によく用いられ、クロスエントロピーは、各カテゴリの確率の計算に関するため、ニューラルネットワークにおいて、ｓｏｆｔｍａｘ関数と密に関連している。

長短期記憶（ＬＳＴＭ）
ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）長短期記憶ネットワークは、時系列における間隔と遅延が相対的に長い重要なイベントの処理や予測に適する時間回帰ニューラルネットワークであり、ＬＳＴＭは、回帰型ニューラルネットワークＲＮＮの構造に存在する勾配減少の問題を解決するために提案される特別な回帰型ニューラルネットワークである。ＬＳＴＭはＬＳＴＭブロック（ｂｌｏｃｋｓ）を含有する人工ニューラルネットワークであり、ＬＳＴＭブロックは、インテリジェントネットワークユニットであってよく、非固定時間長の値を記憶することができるものであり、且つ、入力ｉｎｐｕｔが記憶できるほど重要であるか否か、及び出力ｏｕｔｐｕｔできるか否かを決定可能なゲートｇａｔｅが存在しているものである。

ガウス混合モデル
ガウスモデルとは、ガウス確率密度関数（正規分布曲線）で事物を正確に定量化し、一つの事物をガウス確率密度関数（正規分布曲線）に基づいて形成される複数のモデルに分解するものである。画像背景に対してガウスモデルを確立する原理及びプロセスにおいて、画像階調ヒストグラムは画像に特定の階調値が現れる頻度を表すものであり、画像階調確率密度に対する推定と考えられてもよい。ＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ：ガウス混合モデル）はＫ個のガウスモデルを使用して画像内の各画素点の特徴を表し、Ｋは正の整数であり、新たな１フレームの画像を取得すると、ガウス混合モデルを更新し、現在の画像内の各画素点をガウス混合モデルとマッチングさせ、成功すれば、この点を背景点として判定し、そうでなければ前景点と判定する。ガウスモデル全体から見れば、それは主に分散と平均値の二つのパラメータによって決められ、平均値と分散への学習に採用する学習メカニズムにより、モデルの安定性、精度及び収束性に直接影響が及ぼされる。

テキストツースピーチ（ＴｅｘｔＴｏＳｐｅｅｃｈ：ＴＴＳと略称）におけるテキスト情報抽出方法を利用してテキスト情報を抽出するプロセスにおいて、テキスト情報を抽出する雑音低減ネットワークモデルには、テスト時、テキスト情報を必要とするため、実際に応用しにくく、そして、テキスト情報と雑音付き音声特徴をアライメントする必要があるため、リアルタイムに動作しにくく、且つアライメント精度が雑音低減結果に影響を与えることがあり、また、相応するテキストアノテーションを有するトレーニング用雑音低減音声が求められるため、実際にトレーニング用コーパスを多く得ることは困難であるという欠点が存在している。

これに鑑み、本願の実施例は音声処理方法を提供する。本願の実施例により提供される技術的解決手段は人工知能の音声技術に関し、以下において図面を参照し、具体例によって本願の技術的解決手段及び本願の技術的解決手段が上記技術的課題をどのように解決するかについて詳しく説明する。

図１Ａは本願の実施例により提供される音声処理方法が適用されるシステムの構成図である。図１Ａを参照し、該システムの構成図はサーバ１１、ネットワーク１２及びユーザ端末１３を含み、サーバ１１はネットワーク１２を介してユーザ端末１３に接続される。

本願のいくつかの実例では、サーバ１１は処理対象である音声情報を処理するためのバックグラウンドサーバである。サーバ１１はユーザ端末１３とともにユーザにサービスを提供し、例えば、サーバ１１は処理対象である音声情報を処理した後、処理後の音声情報を、ユーザが使用できるように、ユーザ端末１３に送信し、ここで、サーバ１１は独立のサーバであっても複数のサーバからなるクラスタサーバであってもよい。

ネットワーク１２は有線ネットワークと無線ネットワークを含むことができる。図１Ａに示すように、アクセスインターネット側において、ユーザ端末１３は無線の形態又は有線の形態でネットワーク１２にアクセスすることができるが、コアネットワーク側において、サーバ１１は、一般的に、有線の形態でネットワーク１２に接続される。当然ながら、上記サーバ１１は無線の形態でネットワーク１２に接続してもよい。

上記ユーザ端末１３は、データ算出処理機能を有するスマートデバイスであってよく、例えば、サーバから提供される処理後の音声情報を再生するか、或いは、処理対象である音声情報を処理した後、処理後の音声情報を直接再生したり、他のユーザ端末に送信して再生させたりすることができるものである。ユーザ端末１３は（通信モジュールが装着された）スマートフォン、パーソナルデジタルアシスタント、タブレットコンピュータ等を含むが、それらに限定されない。ユーザ端末１３には、オペレーティングシステムがインストールされており、オペレーティングシステムは、Ａｎｄｒｏｉｄ（登録商標）オペレーティングシステム、Ｓｙｍｂｉａｎ（登録商標）オペレーティングシステム、Ｗｉｎｄｏｗｓ（登録商標）ｍｏｂｉｌｅオペレーティングシステム、及びアップルｉＰｈｏｎｅ（登録商標）ＯＳオペレーティングシステム等を含むが、それらに限定されない。

図１Ａに示すシステムの構成図に基づき、本願の実施例は音声処理方法を提供し、図１Ａ中のサーバ１１であっても、図１Ａ中のユーザ端末１３であってもよい。電子機器によって実行され、該方法のフローチャートは図１Ｂに示すとおりであり、該方法は以下のステップを含む。

Ｓ１０１では、処理対象である音声情報を取得する。

いくつかの実施例では、処理対象である音声情報は会議システムの通話音声である。

Ｓ１０２では、処理対象である音声情報に基づき、第１音声特徴及び第１テキストボトルネック（ｂｏｔｔｌｅｎｅｃｋ）特徴を決定する。

いくつかの実施例では、第１音声特徴は、対数パワースペクトル又はＭＦＣＣ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ：メル周波数ケプストラム係数）特徴であってよい。

いくつかの実施例では、ボトルネック（ｂｏｔｔｌｅｎｅｃｋ）の線形層から第１テキストｂｏｔｔｌｅｎｅｃｋ特徴を抽出する。該ボトルネック（ｂｏｔｔｌｅｎｅｃｋ）の線形層はボトルネック層であり、ボトルネック層は多層パーセプトロン（ｍｕｌｔｉｐｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）の真ん中にある層にあり、そのニューロンの個数が他の層のニューロンの個数に対して大幅に少なく、このため、ニューラルネットワーク全体はボトルネックのようなものであり、ボトルネック層から抽出された特徴は、ボトルネック特徴である。

Ｓ１０３では、第１音声特徴及び第１テキストｂｏｔｔｌｅｎｅｃｋ特徴に基づき、第１組み合わせ特徴ベクトルを決定する。

いくつかの実施例では、第１音声特徴と第１テキストｂｏｔｔｌｅｎｅｃｋ特徴を結合して第１組み合わせ特徴ベクトルを得て、第１組み合わせ特徴ベクトルの次元は、第１音声特徴の１フレームあたりの次元と第１テキストｂｏｔｔｌｅｎｅｃｋ特徴の次元との和である。

Ｓ１０４では、第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルの音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させる。

いくつかの実施例では、音声処理は音声強調（ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔ）であり、音声強調は実質的には音声の雑音を低減することであり、マイクが収集した音声は通常、様々な雑音付き音声であり、音声強調は雑音付き音声から雑音を含まない音声を回復することを主な目的としている。音声強調により、様々な干渉信号を効果的に抑制し、目標音声信号を強調することができ、音声の明確度と品質が高まるだけでなく、音声認識精度の向上にもつながる。

本願の実施例では、処理対象である音声情報を収集し、処理対象である音声情報に基づき、第１音声特徴及び第１テキストボトルネック（ｂｏｔｔｌｅｎｅｃｋ）特徴を決定し、第１音声特徴及び第１テキストｂｏｔｔｌｅｎｅｃｋ特徴に基づき、第１組み合わせ特徴ベクトルを決定し、そして第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得る。本願の実施例の解決手段は、第１テキストボトルネック（ｂｏｔｔｌｅｎｅｃｋ）特徴に基づく音声処理を可能にし、音声雑音低減の効率と音声の品質を高める。

いくつかの実施例では、処理対象である音声情報に基つき、第１音声特徴を決定するステップは、
処理対象である音声情報のフレーム分割処理及び窓掛け処理を行うステップと、フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、第１音声特徴を抽出するステップであって、第１音声特徴は、対数パワースペクトル特徴、メル周波数ケプストラム係数（ＭＦＣＣ）特徴の少なくとも一つを含むステップと、を含む。

いくつかの実施例では、フレーム分割処理は、処理対象である音声情報に含まれる不定長のオーディオを固定長の区切りに切り分けるものであり、それは、後続のフーリエ変換が安定信号の解析に適するためであり、それに対して、オーディオ信号が急速に変化するものであり、窓境界による信号欠落を回避するために、フレームをオフセットする時、フレーム間で重畳する必要があり、フレームとフレームの間で一部重ねる必要がある。一般的には、フレーム長は２５ｍｓとし、フレームオフセットは１０ｍｓとし、フレーム間の時間差は１０ｍｓとし、この場合、フレーム間に重なりが生じる。

いくつかの実施例では、フーリエ変換に安定の入力信号が求められているが、オーディオ信号は、全体的に言えば、安定的なものではなく、窓掛け処理では、一般的に、各フレームの信号を一つの平滑化の窓関数と乗算し、フレームの両端を滑らかにゼロに減衰させ、このようにして、フーリエ変換を行った後のサイドローブの強度を低減し、より高い品質のスペクトルを得ることができる。時間領域で、メインローブ以外に、現れるべきではないサイドローブが現れてしまい、即ちスペクトル漏れが発生し、それの切り捨ては窓関数によって実施され、実際に、窓関数は、いずれも、ある程度の振幅のサイドローブが生じ得るため、畳み込み時、離散点の周波数上に振幅成分が存在する以外、隣接する二つの周波数点間にも異なる程度の振幅が存在する。

いくつかの実施例では、処理対象である音声情報に基づき、第１テキストｂｏｔｔｌｅｎｅｃｋ特徴を決定するステップは、
処理対象である音声情報から、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出するステップであって、Ｎ及びＭは共に正の整数であるステップと、
Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴とＭ次元のｐｉｔｃｈ特徴を結合し、第２音声特徴を得るステップと、
第２音声特徴をトレーニング済みの自動音声認識（ＡＳＲ）ネットワークに入力し、トレーニング済みのＡＳＲネットワークのボトルネック（ｂｏｔｔｌｅｎｅｃｋ）の線形層から、第１テキストｂｏｔｔｌｅｎｅｃｋ特徴を抽出するステップと、を含む。

いくつかの実施例では、処理対象である音声情報から、４０次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及び３次元のピッチ（ｐｉｔｃｈ）特徴を抽出し、ここで、Ｎは４０であり、Ｍは３であり、ｐｉｔｃｈは音声の基本周波数（ｆｕｎｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙ（Ｆ０））と関連性があり、音高に関する情報、即ちトーンを表す。フィルタバンクは１組のフィルタであり、１組のフィルタはＦ個のフィルタを含み、Ｆは正の整数であり、同一の信号をフィルタリングして、Ｆ個の同期信号を出力するものであり、各フィルタに異なる応答関数、中心周波数、ゲイン、帯域幅を指定することができ、一つのフィルタバンクでは、各フィルタの周波数が昇順に並べられ、それぞれ異なる周波数に集中し、且つフィルタの数が十分に多く、異なる時刻での各出力信号の短期間エネルギーを決定し、サウンドスペクトログラムＳｐｅｃｔｒｏｇｒａｍを得ることができる。

いくつかの実施例では、第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得るステップは、
トレーニング済みの単一方向ＬＳＴＭモデルによって、第１組み合わせ特徴ベクトルに対して音声強調処理を行うステップと、
処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、処理後の音声情報を得るステップと、を含む。

本願の実施例では、テキストと関連するＬＳＴＭモデルを使用して第１組み合わせ特徴ベクトルの音声処理を実現し、音声雑音低減性能を向上させる。

いくつかの実施例では、ＡＳＲネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル（ＧＭＭ）によって、ＡＳＲネットワークをトレーニングするためのコーパスに含まれるテキストアノテーションとテキストアノテーションに対応するオーディオファイルとをアライメントし、第１テキスト特徴を得て、
オーディオファイルから、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出し、
Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴とＭ次元のｐｉｔｃｈ特徴を結合し、第３音声特徴を得て、
第３音声特徴をＡＳＲネットワークに入力してＡＳＲネットワークをトレーニングし、ＡＳＲネットワークの出力層から出力される第２テキスト特徴を得て、
第１テキスト特徴値及び第２テキスト特徴の値に基づき、ＡＳＲネットワークのクロスエントロピー（ＣＥ）の値を決定する、トレーニングステップと、
トレーニングステップを繰り返して実行し、ＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値と前回のＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値との差が第１閾値範囲内に収まる場合、トレーニング済みのＡＳＲネットワークを得るステップと、を含む。

いくつかの実施例では、ＡＳＲネットワークの出力層はｓｏｆｔｍａｘ層であり、ｓｏｆｔｍａｘ層は一つの確率分布を出力して損失関数を実現し、該損失関数はクロスエントロピーであり、現在出力された各値の正規化値を算出し、最大の値を１とし、他の値を０とする。損失関数は前方伝播出力と所望値のフィッティング程度を表すために用いられ、典型的な分類損失関数はクロスエントロピーであり、ネットワーク出力確率分布と所望の出力確率分布の間の距離（類似度）を表すために用いられ、分類課題に使用される損失関数の一つである。

本願の実施例では、ＡＳＲをトレーニングするためのコーパスと雑音低減トレーニング用コーパスは別々のものであり、雑音低減音声は相応するテキストアノテーションを必要とせず、一方で、ＡＳＲをトレーニングするためのコーパスが容易に入手でき、ＡＳＲネットワークをトレーニングする時、後向き情報が利用されないため、リアルタイムな処理を実現することができる。

いくつかの実施例では、単一方向ＬＳＴＭモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
雑音付き音声から、第４音声特徴及び第２テキストｂｏｔｔｌｅｎｅｃｋ特徴を抽出し、雑音を含まない音声から第５音声特徴を抽出するステップと、
第４音声特徴と第２テキストｂｏｔｔｌｅｎｅｃｋ特徴を組み合わせて、第２組み合わせ特徴ベクトルを得るステップと、
第２組み合わせ特徴ベクトルを単一方向ＬＳＴＭモデルに入力し、単一方向ＬＳＴＭモデルをトレーニングし、単一方向ＬＳＴＭモデルから出力される参考値と第５音声特徴値との間の最小平均二乗誤差が第２閾値以下になる場合、トレーニング済みの単一方向ＬＳＴＭモデルを得るステップと、を含む。

いくつかの実施例では、図２に示すように、ＡＳＲネットワークは、入力層としての４層の隠れ層のディープニューラルネットワーク（ＤＮＮ）、１つのｂｏｔｔｌｅｎｅｃｋの線形層、及び出力層としての確率分布層（ｓｏｆｔｍａｘ層）を含む。ｘ_ｔはＡＳＲネットワークの入力であり、ｙ_ｔはＡＳＲネットワークの出力であり、ここで、ｘ_ｔはＡＳＲネットワークの第１隠れ層の入力であり、ＡＳＲネットワークの第１隠れ層の出力はＡＳＲネットワークの第２隠れ層の入力であり、ＡＳＲネットワークの第２隠れ層の出力はＡＳＲネットワークの第３隠れ層の入力であり、ＡＳＲネットワークの第３隠れ層の出力はＡＳＲネットワークのｂｏｔｔｌｅｎｅｃｋの線形層の入力であり、ＡＳＲネットワークのｂｏｔｔｌｅｎｅｃｋの線形層の出力はＡＳＲネットワークの第４隠れ層の入力であり、ＡＳＲネットワークの第４隠れ層の出力はＡＳＲネットワークのｓｏｆｔｍａｘ層の入力であり、ｓｏｆｔｍａｘ層の出力はｙ_ｔである。

本願の実施例は別の音声処理方法を提供し、図１Ａ中のサーバ１１であっても図１Ａ中のユーザ端末１３であってもよい電子機器によって実行され、該方法のフローチャートは図３に示すとおりであり、該方法は以下のステップを含む。

Ｓ２０１では、雑音付き音声を取得し、収集された音声に対してフレーム分割処理及び窓掛け処理を行い、音声特徴を抽出する。

説明すべきこととして、雑音付き音声は処理対象である音声情報であり、音声特徴は第１音声特徴である。

いくつかの実施例では、抽出された音声特徴は、対数パワースペクトル又はＭＦＣＣ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ：メル周波数ケプストラム係数）特徴であってよい。

いくつかの実施例では、図４に示すように、音声に対してフレーム分割処理及び窓掛け処理を行ってから、フレームごとにＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ：高速フーリエ変換）をそれぞれ行い、ＦＦＴを行った後の離散パワースペクトルを決定し、得られた離散パワースペクトルに対して対数を求め、対数パワースペクトルを得ると、音声特徴が得られる。

Ｓ２０２では、収集された雑音付き音声からテキストｂｏｔｔｌｅｎｅｃｋ特徴を抽出する。

説明すべきこととして、テキストｂｏｔｔｌｅｎｅｃｋ特徴は第１テキストｂｏｔｔｌｅｎｅｃｋ特徴である。

いくつかの実施例では、収集された雑音付き音声から、４０次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及び３次元のピッチ（ｐｉｔｃｈ）特徴を抽出し、４０次元のｆｉｌｔｅｒ－ｂａｎｋ特徴と３次元のｐｉｔｃｈ特徴を結合し、第２音声特徴を得て、そして第２音声特徴をトレーニング済みの自動音声認識（ＡＳＲ）ネットワークに入力し、トレーニング済みのＡＳＲネットワークのボトルネック（ｂｏｔｔｌｅｎｅｃｋ）の線形層からテキストｂｏｔｔｌｅｎｅｃｋ特徴を抽出する。

Ｓ２０３では、抽出された音声特徴とテキストｂｏｔｔｌｅｎｅｃｋ特徴を組み合わせて、組み合わせ特徴ベクトルを得る。

説明すべきこととしては、組み合わせ特徴ベクトルは第１組み合わせ特徴ベクトルである。

いくつかの実施例では、音声特徴とテキストｂｏｔｔｌｅｎｅｃｋ特徴を結合し、組み合わせ特徴ベクトルを得て、組み合わせ特徴ベクトルの次元は、音声特徴の１フレームあたりの次元とテキストｂｏｔｔｌｅｎｅｃｋ特徴の次元の和である。図５に示すように、音声特徴の１フレームあたりの次元は２５７であり、テキストｂｏｔｔｌｅｎｅｃｋ特徴の次元は１００であり、組み合わせ特徴ベクトルの次元は、音声特徴の１フレームあたりの次元とテキストｂｏｔｔｌｅｎｅｃｋ特徴の次元の和であり、即ち、組み合わせ特徴ベクトルの次元は３５７である。

Ｓ２０４では、組み合わせ特徴ベクトルをトレーニング済みの単一方向ＬＳＴＭモデルに入力して音声強調を行う。

Ｓ２０５では、トレーニング済みの単一方向ＬＳＴＭモデルを経由してから、雑音を含まない音声信号を得る。

いくつかの実施例では、トレーニング済みの単一方向ＬＳＴＭモデルによって、入力された組み合わせた特徴ベクトルに対して音声強調処理を行い、続いて単一方向ＬＳＴＭモデルの出力結果に対して特徴逆変換を行い、それによって、単一方向ＬＳＴＭモデルの出力結果の周波数領域から時間領域への変換を実現し、強調後の時間領域音声を得る。

いくつかの実施例では、ＡＳＲをトレーニングするためのコーパスは音声（雑音付き音声及び／又はクリーン音声）及びテキストを含み、雑音低減トレーニング用コーパスは雑音付き音声及びクリーン音声（雑音を含まない音声）を含む。

本願の実施例では、雑音付き音声のテキスト情報を必要とせずに、リアルタイムな雑音低減を実現し、ＡＳＲをトレーニングするためのコーパスと雑音低減トレーニング用コーパスは別々のものであり、雑音低減音声は相応するテキストアノテーションを必要とせず、一方で、ＡＳＲをトレーニングするためのコーパスが容易に入手でき、ＡＳＲネットワークをトレーニングする時、後向き情報を利用していないため、リアルタイムな処理を実現することができる。単一方向ＬＳＴＭモデルをトレーニングする時、テキスト特徴を入力として追加するため、トレーニングして得られた単一方向ＬＳＴＭモデルは、実験結果的に、無音である区切りの雑音を基本的に完全に除去でき、音声を有する区切りの雑音成分を抑制するという有益な結果が得られ、雑音低減性能を効果的に向上させる。

本願の実施例により提供される方法をより明確に理解するために、以下に具体的な応用シーンの例により本願の実施例の解決手段をさらに詳しく説明する。

図６に示すように、会議システムの音声通話シーンにおいて、会議に参加する両方は端末の会議ソフトウェアによって音声通話に参加し、例えば、図１Ａに示すユーザ端末によって音声通話に参加し、会議に参加する両方は会議ソフトウェアによって音声通話を可能にする。音声通話プロセスにおいて、音声処理は、自動ゲイン制御モジュール、オーディオ符号化モジュール、オーディオ復号化モジュール、エコー除去モジュール、音声雑音低減モジュール、及びハウリング抑圧モジュール等のモジュールによって実現され、そのうち、音声雑音低減モジュールは通話品質を左右する重要なモジュールである。音声雑音低減モジュールは、まず、ｂｏｔｔｌｅｎｅｃｋの線形層を有する共通の自動音声認識ＡＳＲネットワークをトレーニングし、次に、話者の雑音付き音声をトレーニング済みのＡＳＲネットワークのｂｏｔｔｌｅｎｅｃｋの線形層に入力し、ＡＳＲネットワークのｂｏｔｔｌｅｎｅｃｋの線形層によってテキストｂｏｔｔｌｅｎｅｃｋ特徴を抽出する。音声雑音低減モジュールは、話者の雑音付き音声に対してフレーム分割処理及び窓掛け処理を行い、続いて、フレームごとに高速フーリエ変換ＦＦＴをそれぞれ行い、ＦＦＴを行った離散パワースペクトルを決定し、得られた離散パワースペクトルに対して対数を求め、音声特徴である対数パワースペクトルを得る。音声雑音低減モジュールは、抽出されたテキストｂｏｔｔｌｅｎｅｃｋ特徴を音声特徴とともに組み合わせ、組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、トレーニング済みの単一方向ＬＳＴＭモデルによって音声強調処理を行い、トレーニング済みの単一方向ＬＳＴＭモデルの出力に対して特徴逆変換を行い、時間領域の雑音を含まない話者の音声を出力する。

音声雑音低減モジュールは、話者の通話音声のテキストｂｏｔｔｌｅｎｅｃｋ特徴を導入することにより、雑音低減性能を最適化し、テキストｂｏｔｔｌｅｎｅｃｋ特徴に基づき、どの音声フレームが有効なものであるか、どの音声フレームに雑音を除去する必要があるかを効果的に判定することができ、それによって、より多くの音声を残させ、雑音低減効果をさらに高め、通話をより明確にし、且つ音声を誤って削除した従来の問題を軽減する。例えば、会議を行う場合、話者が「これで会議を開始する」との言葉を話すと、音声認識ネットワークＡＳＲはこの音声のテキスト内容を得て、この音声が人の話しであり、削除してはならないと確認することができる。トレーニング済みのＡＳＲネットワークによって雑音低減を補助するための通話音声のテキストｂｏｔｔｌｅｎｅｃｋ特徴を得ることで、雑音低減性能がさらに向上し、全体的な体験がより高くなり、また、雑音低減により一部の有効音声が誤って削除されるという問題が大幅に改善され、通話が滑らかになり、通話の品質が高められる。

同様の発明構想に基づき、本願の実施例は音声処理装置をさらに提供し、該装置の構成図は図７に示すとおりであり、音声処理装置６０は、第１処理モジュール６０１、第２処理モジュール６０２、第３処理モジュール６０３及び第４処理モジュール６０４を含む。

第１処理モジュール６０１は、処理対象である音声情報を取得するように構成され、
第２処理モジュール６０２は、処理対象である音声情報に基づき、第１音声特徴及び第１テキストボトルネック（ｂｏｔｔｌｅｎｅｃｋ）特徴を決定するように構成され、
第３処理モジュール６０３は、第１音声特徴及び第１テキストｂｏｔｔｌｅｎｅｃｋ特徴に基づき、第１組み合わせ特徴ベクトルを決定するように構成され、
第４処理モジュール６０４は、第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルの音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるように構成される。

いくつかの実施例では、第２処理モジュール６０２は、具体的に、処理対象である音声情報に対してフレーム分割処理及び窓掛け処理を行うステップと、フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、第１音声特徴を抽出するステップであって、第１音声特徴は、対数パワースペクトル特徴、メル周波数ケプストラム係数（ＭＦＣＣ）特徴の少なくとも一つを含むステップと、を実行するように構成される。

いくつかの実施例では、第２処理モジュール６０２は、具体的に、処理対象である音声情報から、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出するステップであって、Ｎ及びＭは共に正の整数であるステップと、Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴とＭ次元のｐｉｔｃｈ特徴を結合し、第２音声特徴を得るステップと、第２音声特徴をトレーニング済みの自動音声認識（ＡＳＲ）ネットワークに入力し、トレーニング済みのＡＳＲネットワークのボトルネック（ｂｏｔｔｌｅｎｅｃｋ）の線形層から第１テキストｂｏｔｔｌｅｎｅｃｋ特徴を抽出するステップと、を実行するように構成される。

いくつかの実施例では、第４処理モジュール６０４は、具体的に、トレーニング済みの単一方向ＬＳＴＭモデルによって第１組み合わせ特徴ベクトルに対して音声処理を行うステップと、処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、処理後の音声情報を得るステップと、を実行するように構成される。

いくつかの実施例では、ＡＳＲネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル（ＧＭＭ）によって、ＡＳＲネットワークをトレーニングするためのコーパスに含まれるテキストアノテーションとテキストアノテーションに対応するオーディオファイルをアライメントし、第１テキスト特徴を得て、
オーディオファイルから、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出し、
Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴とＭ次元のｐｉｔｃｈ特徴を結合し、第３音声特徴を得て、
第３音声特徴をＡＳＲネットワークに入力してＡＳＲネットワークをトレーニングし、ＡＳＲネットワークの出力層から出力される第２テキスト特徴を得て、
第１テキスト特徴値及び第２テキスト特徴の値に基づき、ＡＳＲネットワークのクロスエントロピー（ＣＥ）の値を決定する、トレーニングステップと、
トレーニングステップを繰り返して実行し、ＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値と前回のＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値との差が第１閾値範囲内に収まる場合、トレーニング済みのＡＳＲネットワークを得るステップと、を含む。

いくつかの実施例では、ＡＳＲネットワークは、入力層としての４層の隠れ層のディープニューラルネットワーク（ＤＮＮ）、１つのｂｏｔｔｌｅｎｅｃｋの線形層、及び出力層としての確率分布層（ｓｏｆｔｍａｘ層）を含む。

本願の実施例により提供される音声処理装置において詳しく説明していない内容については、上記実施例１により提供される音声処理方法を参照すればよく、本願の実施例により提供される音声処理装置が達成可能な有益な効果は、上記実施例１により提供される音声処理方法と同じであり、ここで詳細な説明を省略する。

本願の実施例を適用すると、少なくとも下記の有益な効果が得られる。

処理対象である音声情報を収集し、処理対象である音声情報に基つき、第１音声特徴及び第１テキストボトルネック（ｂｏｔｔｌｅｎｅｃｋ）特徴を決定し、第１音声特徴及び第１テキストｂｏｔｔｌｅｎｅｃｋ特徴に基づき、第１組み合わせ特徴ベクトルを決定し、そして第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得る。本願の実施例の解決手段は、第１テキストボトルネック（ｂｏｔｔｌｅｎｅｃｋ）特徴に基づく音声処理を可能にし、音声雑音低減の効率と音声の品質を高める。

同様の発明構想に基づき、本願の実施例は電子機器をさらに提供し、該電子機器の構成図は図８に示すとおりであり、該電子機器６０００は、少なくとも一つのプロセッサ６００１、メモリ６００２、及びバス６００３を含み、少なくとも一つのプロセッサ６００１はいずれもメモリ６００２に電気的に接続され、メモリ６００２は少なくとも一つのコンピュータ実行可能命令を記憶するように構成され、プロセッサ６００１は、該少なくとも一つのコンピュータ実行可能命令を実行し、それによって、本願の実施例１における任意の実施例又は選択的実施形態により提供される任意の音声処理方法のステップを実行するように構成される。

さらに、プロセッサ６００１は、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：フィールドプログラマブルゲートアレイ）、又は、例えばＭＣＵ（ＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＵｎｉｔ：マイクロコントローラユニット）、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓＵｎｉｔ：中央処理装置）のような論理処理性能を有する他のデバイスであってよい。

処理対象である音声情報を収集し、処理対象である音声情報に基づき、第１音声特徴及び第１テキストボトルネック（ｂｏｔｔｌｅｎｅｃｋ）特徴を決定し、第１音声特徴及び第１テキストｂｏｔｔｌｅｎｅｃｋ特徴に基づき、第１組み合わせ特徴ベクトルを決定し、そして第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、第１組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得る。本願の実施例の解決手段は、第１テキストボトルネック（ｂｏｔｔｌｅｎｅｃｋ）特徴に基づく音声処理を可能にし、音声雑音低減の効率と音声の品質を高める。

同様の発明構想に基づき、本願の実施例は、プロセッサにより実行されると、本願の実施例１における任意の実施例又は選択的実施形態により提供される任意のデータ音声処理のステップを実現するためのコンピュータプログラムが記憶されている別のコンピュータ可読記憶媒体をさらに提供する。

本願の実施例により提供されるコンピュータ可読記憶媒体は、あらゆるタイプのディスク（フロッピー（登録商標）ディスク、ハードディスク、光ディスク、ＣＤ－ＲＯＭや磁気光ディスクを含む）、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：読み取り専用メモリ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：消去可能プログラマブル読み取り専用メモリ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：電気的消去可能なプログラマブル読み取り専用メモリ）、フラッシュメモリ、磁気カード又は光線カードを含むが、それらに限定されない。つまり、可読記憶媒体は、機器（例えば、コンピュータ）が読み取り可能な形態で情報を記憶又は伝送するための任意の媒体を含む。

当業者であれば、これらの構成図及び／又はブロック図及び／又はフローチャートにおけるそれぞれのブロック、並びにこれらの構成図及び／又はブロック図及び／又はフローチャートにおけるブロックの組み合わせは、コンピュータプログラム命令によって実現可能であることを理解することができる。また、当業者であれば理解できるように、これらのコンピュータプログラム命令を共通コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理方法用のプロセッサへ提供することで、コンピュータ又は他のプログラマブルデータ処理方法用のプロセッサによって、本願に開示される構成図及び／又はブロック図及び／又はフローチャートにおける一つのブロック又は複数のブロックに指定される解決手段を実行することができる。

本願に検討した様々な操作、方法、フローにおけるステップ、措置、解決手段が切り替え、変更、組み合わせ又は削除可能なものであることは当業者であれば理解することができる。さらに、本願で検討した様々な操作、方法、フローにおける他のステップ、措置、解決手段を有するものも、切り替え、変更、並べ替え、分解、組み合わせ又は削除可能なものである。さらに、関連技術における本願に開示される様々な操作、方法、フローにおけるステップ、措置、解決手段を有するものも切り替え、変更、並べ替え、分解、組み合わせ又は削除可能なものである。

以上は本願の一部の実施形態に過ぎず、なお、当業者にとって、本願の原理から逸脱することなく、さらにいくつかの改良や修飾を行うことができ、これらの改良や修飾は本願の保護範囲に含まれるものと見なすべきであることに注意されたい。

１１サーバ
１２ネットワーク
１３ユーザ端末
６０音声処理装置
６０１第１処理モジュール
６０２第２処理モジュール
６０３第３処理モジュール
６０４第４処理モジュール
６０００電子機器
６００１プロセッサ
６００２メモリ
６００３バス

Claims

電子機器が実行する、音声処理方法であって、
処理対象である音声情報を取得するステップと、
前記処理対象である音声情報に基づき、第１音声特徴及び第１テキストボトルネック特徴を決定するステップと、
前記第１音声特徴及び前記第１テキストボトルネック特徴に基づき、第１組み合わせ特徴ベクトルを決定するステップと、
前記第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、前記第１組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるステップと、を含み、
前記処理対象である音声情報に基づき、第１テキストボトルネック特徴を決定するステップは、
前記処理対象である音声情報から、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出するステップであって、Ｎ及びＭは共に正の整数である、ステップと、
前記Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴と前記Ｍ次元のｐｉｔｃｈ特徴を結合し、第２音声特徴を得るステップと、
前記第２音声特徴をトレーニング済みの自動音声認識（ＡＳＲ）ネットワークに入力し、前記トレーニング済みのＡＳＲネットワークのボトルネックの線形層から前記第１テキストボトルネック特徴を抽出するステップと、を含み、
前記ＡＳＲネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル（ＧＭＭ）によって、コーパスに含まれるテキストアノテーションと前記テキストアノテーションに対応するオーディオファイルとをアライメントし、第１テキスト特徴を得るステップであって、前記コーパスは前記ＡＳＲネットワークをトレーニングするために用いられる、ステップと、
前記オーディオファイルから、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出するステップと、
前記Ｍ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴と前記Ｍ次元のｐｉｔｃｈ特徴を結合し、第３音声特徴を得るステップと、
前記第３音声特徴を前記ＡＳＲネットワークに入力し、前記ＡＳＲネットワークをトレーニングし、前記ＡＳＲネットワークの出力層から出力される第２テキスト特徴を得るステップと、
前記第１テキスト特徴の値及び前記第２テキスト特徴の値に基づき、前記ＡＳＲネットワークのクロスエントロピー（ＣＥ）の値を決定するステップと、を含むトレーニングステップと、
前記トレーニングステップを繰り返して実行し、前記ＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値と、前回の前記ＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値との差が第１閾値範囲内に収まる場合、前記トレーニング済みのＡＳＲネットワークを得るステップと、を含む、ことを特徴とする方法。
前記処理対象である音声情報に基づき、第１音声特徴を決定するステップは、
前記処理対象である音声情報に対してフレーム分割処理及び窓掛け処理を行うステップと、
フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、前記第１音声特徴を抽出するステップであって、前記第１音声特徴は、対数パワースペクトル特徴、メル周波数ケプストラム係数（ＭＦＣＣ）特徴の少なくとも一つを含む、ステップと、を含むことを特徴とする
請求項１に記載の方法。
前記ＡＳＲネットワークは、入力層としての４層の隠れ層のディープニューラルネットワーク（ＤＮＮ）、１層のボトルネックの線形層、及び出力層としての確率分布層（ｓｏｆｔｍａｘ層）を含むことを特徴とする
請求項１に記載の方法。
前記第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、前記第１組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得るステップは、
前記トレーニング済みの単一方向ＬＳＴＭモデルによって前記第１組み合わせ特徴ベクトルに対して音声強調処理を行うステップと、
処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、前記雑音低減後の音声情報を得るステップと、を含むことを特徴とする
請求項１に記載の方法。
前記単一方向ＬＳＴＭモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
前記雑音付き音声から第４音声特徴及び第２テキストボトルネック特徴を抽出し、前記雑音を含まない音声から第５音声特徴を抽出するステップと、
前記第４音声特徴と前記第２テキストボトルネック特徴を組み合わせて、第２組み合わせ特徴ベクトルを得るステップと、
前記第２組み合わせ特徴ベクトルを前記単一方向ＬＳＴＭモデルに入力し、前記単一方向ＬＳＴＭモデルをトレーニングし、前記単一方向ＬＳＴＭモデルから出力される参考値と前記第５音声特徴の値との間の最小平均二乗誤差が第２閾値以下になる場合、前記トレーニング済みの単一方向ＬＳＴＭモデルを得るステップと、を含むことを特徴とする
請求項１に記載の方法。
音声処理装置であって、
処理対象である音声情報を取得するように構成される第１処理モジュールと、
前記処理対象である音声情報に基づき、第１音声特徴及び第１テキストボトルネック特徴を決定するように構成される第２処理モジュールと、
前記第１音声特徴及び前記第１テキストボトルネック特徴に基づき、第１組み合わせ特徴ベクトルを決定するように構成される第３処理モジュールと、
前記第１組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶（ＬＳＴＭ）モデルに入力し、前記第１組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるように構成される第４処理モジュールと、を含み、
前記第２処理モジュールは、
前記処理対象である音声情報から、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出ステップであって、Ｎ及びＭは共に正の整数である、ステップと、
前記Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴と前記Ｍ次元のｐｉｔｃｈ特徴を結合し、第２音声特徴を得るステップと、
前記第２音声特徴をトレーニング済みの自動音声認識（ＡＳＲ）ネットワークに入力し、前記トレーニング済みのＡＳＲネットワークのボトルネックの線形層から前記第１テキストボトルネック特徴を抽出するステップと、を実行するようにも構成され、
前記第２処理モジュールは、前記ＡＳＲネットワークをトレーニングするようにも構成され、前記ＡＳＲネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル（ＧＭＭ）によって、コーパスに含まれるテキストアノテーションと前記テキストアノテーションに対応するオーディオファイルとをアライメントし、第１テキスト特徴を得るステップであって、前記コーパスは前記ＡＳＲネットワークをトレーニングするために用いられる、ステップと、
前記オーディオファイルから、Ｎ次元のフィルタバンク（ｆｉｌｔｅｒ－ｂａｎｋ）特徴及びＭ次元のピッチ（ｐｉｔｃｈ）特徴を抽出するステップと、
前記Ｎ次元のｆｉｌｔｅｒ－ｂａｎｋ特徴と前記Ｍ次元のｐｉｔｃｈ特徴を結合し、第３音声特徴を得るステップと、
前記第３音声特徴を前記ＡＳＲネットワークに入力し、前記ＡＳＲネットワークをトレーニングし、前記ＡＳＲネットワークの出力層から出力される第２テキスト特徴を得るステップと、
前記第１テキスト特徴の値及び前記第２テキスト特徴の値に基づき、前記ＡＳＲネットワークのクロスエントロピー（ＣＥ）の値を決定するステップと、を含むトレーニングステップと、
前記トレーニングステップを繰り返して実行し、前記ＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値と、前回の前記ＡＳＲネットワークをトレーニングして得られたＡＳＲネットワークのクロスエントロピー（ＣＥ）の値との差が第１閾値範囲内に収まる場合、前記トレーニング済みのＡＳＲネットワークを得るステップと、を含む、ことを特徴とする装置。
前記第２処理モジュールは、
前記処理対象である音声情報に対してフレーム分割処理及び窓掛け処理を行うステップと、
フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、前記第１音声特徴を抽出するステップであって、前記第１音声特徴は対数パワースペクトル特徴、メル周波数ケプストラム係数（ＭＦＣＣ）特徴の少なくとも一つを含む、ステップと、を実行するようにも構成される
請求項６に記載の装置。
前記第４処理モジュールは、
前記トレーニング済みの単一方向ＬＳＴＭモデルによって前記第１組み合わせ特徴ベクトルの音声強調処理を行うステップと、
処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、処理後の音声情報を得るステップと、を実行するようにも構成される
請求項６に記載の装置。
前記第４処理モジュールは、前記単一方向ＬＳＴＭモデルをトレーニングするようにも構成され、前記単一方向ＬＳＴＭモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
前記雑音付き音声から第４音声特徴及び第２テキストボトルネック特徴を抽出し、前記雑音を含まない音声から第５音声特徴を抽出するステップと、
前記第４音声特徴と前記第２テキストボトルネック特徴を組み合わせて、第２組み合わせ特徴ベクトルを得るステップと、
前記第２組み合わせ特徴ベクトルを前記単一方向ＬＳＴＭモデルに入力し、前記単一方向ＬＳＴＭモデルをトレーニングし、前記単一方向ＬＳＴＭモデルから出力される参考値と前記第５音声特徴の値との間の最小平均二乗誤差が第２閾値以下になる場合、前記トレーニング済みの単一方向ＬＳＴＭモデルを得るステップと、を含む
請求項６に記載の装置。
プロセッサ及びメモリを含み、
前記メモリは、コンピュータプログラムを記憶するために用いられ、
前記プロセッサは、前記コンピュータプログラムを呼び出して、請求項１から５のいずれか一項に記載の方法を実行するために用いられる、電子機器。
コンピュータに、請求項１から５のいずれか一項に記載の方法を実行させるコンピュータプログラム。