JP6889698B2

JP6889698B2 - 音声を増幅する方法及び装置

Info

Publication number: JP6889698B2
Application number: JP2018247789A
Authority: JP
Inventors: リー，チャオ; スン，チエンウェイ
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-04-23
Filing date: 2018-12-28
Publication date: 2021-06-18
Anticipated expiration: 2038-12-28
Also published as: US10891967B2; CN108564963B; JP2019191558A; CN108564963A; US20190325889A1

Description

本願実施例は、コンピュータ技術分野に関し、具体的に音声を増幅する方法及び装置に関する。

近代科学の急速な発展に従って、通信又は情報交換は既に人類社会の存在に必要な条件になっている。音声は言語の音響学の表現として、人類による情報交流に対して最も自然で効果的かつ便利な手段の一つである。

ところが、音声通信において、周囲の環境、マスコミ媒体によるノイズ、室内残響、ひいては他の発言者からの干渉を受けることが回避不可である。これらのノイズにより音声の品質及び分かり易さに影響されるため、多くの通話応用において、効果的な音声増幅処理を行うことにより、ノイズを抑制し、室内残響を除去し、音声の明瞭度、分かり易さ及び快適性を向上する必要がある。

いままで常用的な音声増幅方法は、遅延−加算（ｄｅｌａｙ−ｓｕｍ）に基づく音声増幅方法である。複数のマイクで音声信号を受信し、遅延−加算方法を採用して遅延補償を行い、指向性のある空間ビームを形成し、指定された方向における音声を増幅する。

本願実施例は、音声を増幅する方法及び装置を提出した。

第一局面として、本願実施例は、マイクアレイで採集された複数のチャンネルの時間領域音声を取得することと、複数のチャンネルの時間領域音声に基づいて、少なくとも一つのチャンネルの周波数領域音声を生成することと、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することと、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得することと、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得すること、を含む音声を増幅する方法を提供する。

幾つかの実施例において、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成することは、複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得することと、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得すること、を含む。

幾つかの実施例において、複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得することは、複数のチャンネルのうちチャンネルと他のチャンネルとの距離の和を算出することと、算出された和に基づいて複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得すること、を含む。

幾つかの実施例において、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得することは、少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング／フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する、ことを含む。

幾つかの実施例において、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することは、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得することと、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成することと、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して、少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得することと、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得すること、を含む。

幾つかの実施例において、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得することは、少なくとも一つのチャンネルの周波数領域音声を、予めトレーニングされた、周波数領域音声のマスク閾値を推定するマスク閾値推定モデルに順に入力して、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する、ことを含む。

幾つかの実施例において、マスク閾値推定モデルには、二つの一次元畳み込み層、二つのゲート付き回帰ユニット及び一つの全結合層が含まれる。

幾つかの実施例において、マスク閾値推定モデルは、周波数領域音声サンプルと周波数領域音声サンプルのマスク閾値が含まれるトレーニングサンプルのセットを取得するステップと、トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力として、トレーニングによりマスク閾値推定モデルを取得するステップと、に従ってトレーニングして得られた。

第二局面として、本願実施例は、マイクアレイで採集された複数のチャンネルの時間領域音声を取得するように配置される取得ユニットと、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成するように配置される変換ユニットと、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される解析ユニットと、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得するように配置される増幅ユニットと、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得するように配置される逆変換ユニットと、を備える音声を増幅する装置を提供する。

幾つかの実施例において、変換ユニットは、複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタサブユニットと、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得するように配置される変換サブユニットと、を備える。

幾つかの実施例において、フィルタサブユニットは、複数のチャンネルのうちチャンネルと他のチャンネルとの距離の和を算出するように配置される算出モジュールと、算出された和に基づいて複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタモジュールと、を備える。

幾つかの実施例において、変換サブユニットは更に、少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング／フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する、ように配置される。

幾つかの実施例において、解析ユニットは、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得するように配置される推定サブユニットと、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成するように配置される解析サブユニットと、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して、少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得するように配置される最小化サブユニットと、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される正規化サブユニットと、を備える。

幾つかの実施例において、推定サブユニットは更に、少なくとも一つのチャンネルの周波数領域音声を、予めトレーニングされた、周波数領域音声のマスク閾値を推定するマスク閾値推定モデルに順に入力して、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する、ように配置される。

幾つかの実施例において、マスク閾値推定モデルは、周波数領域音声サンプルと周波数領域音声サンプルのマスク閾値とが含まれるトレーニングサンプルのセットを取得するステップと、トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力として、トレーニングによりマスク閾値推定モデルを取得するステップと、に従って、トレーニングして得られた。

第三局面として、本願実施例は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶される記憶装置と、を備え、一つ又は複数のプログラムが一つ又は複数のプロセッサにより実行されると、一つ又は複数のプロセッサに第一局面の何れか一つの実現方式に記載の方法を実現させる電子デバイスを提供した。

第四局面として、本願実施例は、コンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサにより実行されると、第一局面の何れか一つの実現方式に記載の方法が実現されるコンピュータ読取可能な媒体を提供した。

本願実施例により提供された音声を増幅する方法及び装置は、マイクアレイで採集された複数のチャンネルの時間領域音声を変換して少なくとも一つのチャンネルの周波数領域音声を取得し、その後に少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得し、その後に少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得し、最後に少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得する。これにより、対応性に優れた音声増幅を実現でき、音声におけるノイズ及び室内残響の除去と音声認識の正確度の向上に寄与している。
以下の図面を参照してなされた制限的でない実施形態に対する詳細的な説明により、本出願の他の特徴、目的及び利点はより明らかになる。

本願を適用可能な例示的なシステムアーキテクチャである。本願の音声を増幅する方法による一つの実施例のフローチャートである。図２により提供された音声を増幅する方法の一つの応用シナリオのフローチャートである。本願の音声を増幅する方法による他の実施例のフローチャートである。本願の音声を増幅する装置による一つの実施例の構成模式図である。本願実施例の電子デバイスの実現に適するコンピュータシステムの構成模式図である。

以下、図面及び実施例を参照しながら、本出願をより詳細に説明する。ここで説明する具体的な実施例は、関連の発明を説明するものに過ぎず、当該発明を限定するものではないことは理解される。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。

なお、矛盾が生じない限り、本願の実施例及び実施例における特徴は相互に組み合せることができるものとする。以下、図面を参照しながら、実施例を併せて本出願を詳しく説明する。

図１は、本願の音声を増幅する方法或いは音声を増幅する装置の実施例を適用可能な例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末デバイス１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを備えても良い。ネットワーク１０４は、端末デバイス１０１、１０２、１０３とサーバ１０５との間に通信リンクの媒体を提供する。ネットワーク１０４は、各種の接続タイプ、例えば有線、無線通信リンク又はファイバ、ケーブルなどを含んでも良い。

端末デバイス１０１、１０２、１０３は、ネットワーク１０４を介してサーバ１０５とやりとりしてメッセージなどを送受信することができる。端末デバイス１０１、１０２、１０３は、ハードウェアであっても良く、ソフトウェアであっても良い。端末デバイス１０１、１０２、１０３は、ハードウェアである場合に、マイクアレイが内蔵された各種の電子デバイスであっても良く、スマートサウンドボックス、スマートフォン、タブレット、ノードパソコン及びデスクトップコンピュータなどを含むが、それらに限定されない。端末デバイス１０１、１０２、１０３は、ソフトウェアである場合に、前記列挙された電子デバイスにインストールされても良い。それは、複数のソフトウェア又はソフトウェアモジュールとして実現されても良く、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここでは具体的に限定されない。

サーバ１０５は、各種のサービスを提供するサーバ、例えば端末デバイス１０１、１０２、１０３からアップロードされた音声を増幅する音声増幅サーバであっても良い。音声増幅サーバは、受信されたマイクアレイで採集された複数のチャンネルの時間領域音声などに対して解析などの処理を行って処理結果（例えば少なくとも一つのチャンネルの増幅時間領域音声）を生成することができる。

なお、サーバ１０５はハードウェアであっても良く、ソフトウェアであっても良い。サーバ１０５は、ハードウェアである場合に、複数のサーバからなる分散的なサーバグループとして実現されても良く、単一のサーバとして実現されても良い。サーバ１０５は、ソフトウェアである場合に、複数のソフトウェア又はソフトウェアモジュール（例えば分散的なサービスを提供する）として実現されても良く、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここでは具体的に限定されない。

なお、本願実施例により提供される音声を増幅する方法は一般的にサーバ１０５により実行される。それに応じて、音声を増幅する装置は一般的にサーバ１０５に設置される。特別な場合に、本願実施例により提供される音声を増幅する方法は更に端末デバイス１０１、１０２、１０３により実行されても良い。それに応じて、音声を増幅する装置は端末デバイス１０１、１０２、１０３に設置される。この場合に、システムアーキテクチャ１００においてサーバ１０５が設置されなくても良い。

図１における端末デバイス、ネットワーク及びサーバの数は例示的なものに過ぎないことを理解すべきである。実現の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを具備しても良い。

続いて図２を参照する。図２は、本願の音声を増幅する方法による一つの実施例の手順２００を示す。当該音声を増幅する方法は、以下のステップを含む。

ステップ２０１において、マイクアレイで採集された複数のチャンネルの時間領域音声を取得する。

本実施例において、音声を増幅する方法の実行主体（例えば図１に示されたサーバ１０５）は、有線接続方式又は無線接続方式により端末デバイス（例えば図１に示された端末デバイス１０１、１０２、１０３）からその内蔵のマイクアレイで採集された複数のチャンネルの時間領域音声を取得することができる。なお、マイクアレイ（ＭｉｃｒｏｐｈｏｎｅＡｒｒａｙ）は、一定の数の音響学センサ（一般的にマイクである）で構成され、サウンドフィールドの空間特徴に対しサンプリングして処理するためのシステムであっても良い。一般的に、一つのマイクは一つのチャンネルの時間領域音声を採集することができる。時間領域音声は、時間に対する音声信号の関係を示すことができる。例えば、一つの音声信号の時間領域波形は、時間に従う音声信号の変化を示すことができる。

ステップ２０２において、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成する。

本実施例において、前記実行主体は、ステップ２０１において取得された複数のチャンネルの時間領域音声信号に基づいて、少なくとも一つのチャンネルの周波数領域音声を生成することができる。ここで、前記実行主体は、まず複数のチャンネルの時間領域音声から効果の良くないチャンネルの時間領域音声をフィルタ・アウトし、その後に保留されたチャンネルの時間領域音声に対してフーリエ変換を行うことにより、保留されたチャンネルの周波数領域音声を生成しても良い。勿論、前記実行主体は、複数のチャンネルの時間領域信号に対してそのままフーリエ変換を行うことにより、複数のチャンネルの周波数領域音声を生成しても良い。ただし、一つのチャンネルの時間領域音声は、一つのチャンネルの周波数領域音声へ変換することができる。周波数領域音声は、音声信号の周波数特性を示す場合に用いられる座標系である。音声信号は、時間領域から周波数領域への変換が主にフーリエ級数及びフーリエ変換により実現される。周期信号の場合はフーリエ級数により実現され、非周期信号の場合は、フーリエ変換により実現される。一般的に、音声信号は、時間領域が広いほど、周波数領域が短くなる。

ステップ２０３において、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得する。

本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することができる。例えば、前記実行主体は、少なくとも一つのチャンネルのそれぞれの周波数領域音声の周波数、振幅、位相などを解析して各チャンネルの周波数領域音声に具備される特徴を特定し、各チャンネルの周波数領域音声に具備される特徴を解析して音源の方位を特定し、音源の方位とマイクアレイにおけるマイクの方位との相対的な位置関係に基づいて、各チャンネルの周波数領域音声の正規化増幅係数を確定することができる。一般的な状況において、チャンネルの周波数領域音声の正規化増幅係数は、当該チャンネルの時間領域音声を採集するマイクの方位と一定の関係にある。例えば、マイクの方位が音源の方位の真向きにあると、当該マイクに対応するチャンネルの周波数領域音声の正規化増幅係数が大きくなる一方、マイクの方位が音源の方位の後向きにあると、当該マイクに対応するチャンネルの周波数領域音声の正規化増幅係数が小さくなる。

ステップ２０４において、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得する。

本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域を取得することができる。例示として、少なくとも一つのチャンネルのそれぞれについて、前記実行主体は、当該チャンネルの周波数領域音声の正規化増幅係数を当該チャンネルの周波数領域音声に作用させて（例えば正規化増幅係数×周波数領域音声）、当該チャンネルの増幅周波数領域音声を取得しても良い。

ステップ２０５において、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得する。

本実施例において、少なくとも一つのチャンネルのそれぞれの増幅周波数領域音声に対して逆フーリエ変換を行って各チャンネルの増幅時間領域音声を取得する。なお、一つのチャンネルの周波数領域音声は、一つのチャンネルの時間領域音声へ変換することができる。音声信号は、周波数領域から時間領域への変換が主に逆フーリエ変換により実現される。

続いて図３を参照する。図３は、本実施例の音声を増幅する方法による応用シナリオの手順３００を示した。図３の応用シナリオにおいて、３０１に示すように、ユーザは部屋内においてスマートサウンドボックスに音声として「曲名が《ＡＡ》の歌を再生する」を言い出す。３０２に示すように、スマートサウンドボックスに内蔵されたマイクアレイは、ユーザから発した音声を採集して複数のチャンネルの時間領域音声へ変換する。３０３に示すように、スマートサウンドボックスは、複数のチャンネルの時間領域音声に対してフーリエ変換を行って複数のチャンネルの周波数領域音声を取得する。３０４に示すように、スマートサウンドボックスは、複数のチャンネルの周波数領域音声に具備される特徴を解析して複数のチャンネルの周波数領域音声の正規化増幅係数を取得する。３０５に示すように、スマートサウンドボックスは、複数のチャンネルの周波数領域音声の正規化増幅係数を利用して複数のチャンネルの周波数領域音声に対して増幅処理を行って複数のチャンネルの増幅周波数領域音声を取得する。３０６に示すように、スマートサウンドボックスは、複数のチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って複数のチャンネルの増幅時間領域音声を取得する。３０７に示すように、スマートサウンドボックスは、複数のチャンネルの増幅時間領域音声に対して音声認識を行うことにより、ユーザから言い出された音声、即ち「曲名が《ＡＡ》の歌を再生する」を正確に認識する。３０８に示すように、スマートサウンドボックスは、曲名が《ＡＡ》の歌を再生する。

本願実施例により提供される音声を増幅する方法及び装置は、マイクアレイで採集された複数のチャンネルの時間領域音声を変換して少なくとも一つのチャンネルの周波数領域音声を取得し、それから、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得し、その後、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得し、最後に、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得する。これにより、対応性に優れた音声増幅を実現し、音声におけるノイズと室内の残響の除去、音声認識の正確度の向上に寄与した。

続いて図４を参照する。図４は、本願の音声を増幅する方法による他の実施例の手順４００を示した。当該音声を増幅する方法は、以下のステップを含む。

ステップ４０１において、マイクアレイで採集された複数のチャンネルの時間領域音声を取得する。

本実施例において、ステップ４０１の具体的な操作は図２に示された実施例におけるステップ２０１の操作とほぼ同じであるため、ここでは詳しく説明しない。

ステップ４０２において、複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得する。

本実施例において、音声を増幅する方法の実行主体（例えば図１に示されたサーバ１０５）は、マイクアレイで採集された複数のチャンネルの時間領域音声をフィルタリングして効果の良くないチャンネルの時間領域音声をフィルタ・アウトし、効果の良い少なくとも一つのチャンネルの時間領域音声を保留しても良い。ここで、フィルタリング（Ｗａｖｅｆｉｌｔｅｒｉｎｇ）は、信号における特定の周波数領域を除去する操作であり、干渉を抑制し防止する重要な手段である。一般的に、特定の周波数領域にないチャンネルの時間領域音声が効果の良くないチャンネルの時間領域音声であり、特定の周波数領域にあるチャンネルの時間領域音声が効果の良いチャンネルの時間領域音声である。

本実施例の幾つかの選択的な実現方式において、前記実行主体は、複数のチャンネルの時間領域音声をウィーナーフィルタに入力することにより、少なくとも一つのチャンネルの時間領域音声を出力しても良い。ここで、ウィーナーフィルタ（ｗｉｅｎｅｒｆｉｌｔｅｒ）は、最小二乗を最適な基準とするリニアフィルタである。このようなフィルタは、出力が所望出力との平均二乗誤差が最も小さいため、最適なフィルタシステムである。このようなフィルタは、定常ノイズにより汚染された信号の抽出に用いることができる。一般的に、平均二乗誤差を最も小さくするために、インパルス応答を求めることが肝心である。ウィーナー−ホフの方程式を満たしていれば、ウィーナーフィルタを最適にすることができる。ウィーナー−ホフの方程式によれば、最適なウィーナーフィルタのインパルス応答は、完全に入力の自己相関関数及び入力と所望出力との相互相関関数により決定される。例示として、前記実行主体は、まず二つのチャンネルの間の距離を相互相関関数として定義し、その後に複数のチャンネルのうち任意の二つのチャンネルの間の距離を算出し、その後に複数のチャンネルのうち各チャンネルと他のチャンネルとの間の距離の和を算出し、最後に算出された和に基づいて複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得しても良い。一般的に、一つのチャンネルと他のチャンネルの間の距離の和が大きいほど、当該チャンネルの時間領域音声の品質が高くなる。従って、フィルタ・アウトされる必要のあるチャンネルの数を予め設定し、そして算出された和の大きさに基づいて複数のチャンネルの時間領域音声をソートし、最後に算出された和の小さい側から予め定められた数のチャンネルの時間領域音声を削除して少なくとも一つのチャンネルの時間領域音声を保留しても良い。

ステップ４０３において、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する。

本実施例において、前記実行主体は、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得することができる。

本実施例の幾つかの選択的な実現方式において、少なくとも一つのチャンネルの時間領域音声のそれぞれについて、前記実行主体は、まず当該チャンネルの時間領域音声に対してウィンドウイング／フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、その後、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得しても良い。例えば、フレームサイズとして４００個のサンプル、ステップサイズとして１６０個のサンプルでフレーミング処理を行っても良く、ハミング窓（ｈａｍｍｉｎｇ）を利用してウィンドウイング処理を行っても良い。

ステップ４０４において、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する。

本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値（ｍａｓｋ）を取得しても良い。ここでは、前記実行主体は、周波数領域音声の聴覚マスキング効果を解析することにより、周波数領域音声のマスク閾値を確定することができる。なお、マスキング効果は、同一の種類（例えば音、画像）に属する複数の刺激が出現したため、被験者に全ての刺激の情報を完全に受けられないことを指す。聴覚におけるマスキング効果は、人間の耳は、顕著な音に対する反応が敏感であり、顕著ではない音に対する反応が敏感ではないことを指す。聴覚マスキング効果は、主にノイズ、人間の耳、周波数領域、時間領域及び時間マスキング効果を含む。

本実施例の幾つかの選択的な実現方式において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声を順に予めトレーニングされたマスク閾値推定モデルに入力して少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得しても良い。ここで、マスク閾値推定モデルは、周波数領域音声のマスク閾値の推定に用いることができる。一般的に、マスク閾値推定モデルは、各種のマシントレーニング方法とトレーニングサンプルを利用して既存のニューラルネットワークに対して監督的な訓練を行って得られたものであっても良い。ニューラルネットワークを利用して信号とノイズを区別することにより、ローブスト性を増加している。例えば、マスク閾値推定モデルには、二つの一次元畳み込み層（Ｃｏｎｖ１Ｄ）、二つのゲート付き回帰ユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、ＧＲＵ）及び一つの全結合層（Ｆｕｌｌ−ｃｏｎｎｅｃｔ）が含まれても良い。具体的に、前記実行主体は、まずトレーニングサンプルのセットを取得し、そしてトレーニングサンプルのセットのうち周波数領域音声サンプルを入力し、入力された周波数領域音声サンプルのマスク閾値を出力とし、初期のマスク閾値推定モデルをトレーニングしてマスク閾値推定モデルを取得しても良い。ここで、トレーニングサンプルのセットにおいて、各トレーニングサンプルは、周波数領域音声サンプルと周波数領域音声サンプルのマスク閾値を含んでも良い。初期のマスク閾値推定モデルは、トレーニングされていない、或いはトレーニングが未完成のマスク閾値推定モデルであっても良い。

ステップ４０５において、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成する。

本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックス（ｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙ、ＰＳＤ）を生成することができる。ここで、パワースペクトル密度マトリックスはマトリックスであり、N（Nが正整数）個のチャンネルの周波数領域音声のマスク閾値を解析する場合に、生成されたN個のチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスはN行N列のマトリックスである。

例えば、前記実行主体は、下記の式でパワースペクトル密度マトリックスを算出することができる。

ただし、ｔは時間領域音声のタイミング、Tは時間領域音声のトータルのタイミング、且つ１≦ｔ≦T、Mは周波数領域音声のマスク閾値、ｆは周波数領域音声の周波数、Y(ｔ，ｆ)は音声のスペクトル、Y(ｔ，ｆ)^HはY(ｔ，ｆ)の共役転置である。

ステップ４０６において、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得する。

本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得することができる。

例えば、前記実行主体は、以下の式で最適化係数Cを算出して少なくとも一つのチャンネルの周波数領域音声の増幅係数Fを取得することができる。

ただし、maxは最大値を求める関数、F^HはFの共役転置、

は信号のパワースペクトル密度マトリックス、

はノイズのパワースペクトル密度マトリックスである。

ステップ４０７において、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得する。

本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することができる。なお、正規化は演算を簡略にする手段であり、即ち次元持ちの表現式を無次元の表現式へ変換してスカラーを形成する。

ステップ４０８において、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得する。

ステップ４０９において、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得する。

本実施例において、ステップ４０８〜４０９の具体的な操作は図２に示された実施例におけるステップ２０４〜２０５の操作とほぼ同じであるため、ここでは詳しく説明しない。

図４からわかるように、図２に対応する実施例と比べて、本実施例において音声を増幅する方法の手順４００は、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を生成するステップを強調した。これにより、本実施例に説明された技術案において、マスク閾値により生成されたパワースペクトル密度マトリックスを利用して周波数領域音声における信号対雑音比を最適化することにより、音源の方位を推定するため、音源の情報をより着目し、ノイズの干渉により角度に対する感度が高すぎる問題を回避する。

続いて図５を参照する。前記各図に示された方法の実現例として、本願は音声を増幅する装置の実施例を提供する。当該装置の実施例は、図２に示された方法の実施例に対応する。当該装置は、具体的に各種の電子デバイスに適用可能である。

図５に示されたように、本実施例における音声を増幅する装置５００は、取得ユニット５０１と、変換ユニット５０２と、解析ユニット５０３と、増幅ユニット５０４と、逆変換ユニット５０５とを備えても良い。なお、取得ユニット５０１は、マイクアレイで採集された複数のチャンネルの時間領域音声を取得するように配置される。変換ユニット５０２は、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成するように配置される。解析ユニット５０３は、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される。増幅ユニット５０４は、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得するように配置される。逆変換ユニット５０５は、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得するように配置される。

本実施例において、音声を増幅する装置５００において、取得ユニット５０１、変換ユニット５０２、解析ユニット５０３、増幅ユニット５０４及び逆変換ユニット５０５の具体的な処理、及びそれらの処理による技術効果は、図２に対応する実施例におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４及びステップ２０５の関連説明をそれぞれ参照できるため、ここでは詳しく説明しない。

本実施例の幾つかの選択的な実現方式において、変換ユニット５０２は、複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタサブユニットと（未図示）、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得するように配置される変換サブユニットと（未図示）、を備えても良い。

本実施例の幾つかの選択的な実現方式において、フィルタサブユニットは、複数のチャンネルのうちチャンネルと他のチャンネルとの間の距離の和を算出するように配置される算出モジュールと（未図示）、算出された和に基づいて複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタモジュールと（未図示）、を備えても良い。

本実施例の幾つかの選択的な実現方式において、変換サブユニットは、更に、少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング／フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得するように配置されても良い。

本実施例の幾つかの選択的な実現方式において、解析ユニット５０３は、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得するように配置される推定サブユニットと（未図示）、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成するように配置される解析サブユニットと（未図示）、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得するように配置される最小化サブユニットと（未図示）、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される正規化サブユニットと（未図示）、を備えても良い。

本実施例の幾つかの選択的な実現方式において、推定サブユニットは、更に、少なくとも一つのチャンネルの周波数領域音声を順に予めトレーニングされた、周波数領域音声のマスク閾値を推定するためのマスク閾値推定モデルに入力して少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得するように配置されても良い。

本実施例の幾つかの選択的な実現方式において、マスク閾値推定モデルは、二つの一次元畳み込み層、二つのゲート付き回帰ユニット、一つの全結合層を備えても良い。

本実施例の幾つかの選択的な実現方式において、マスク閾値推定モデルは、それぞれに周波数領域音声サンプルと周波数領域音声サンプルのマスク閾値を含むトレーニングサンプルのセットを取得し、トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力とし、トレーニングによりマスク閾値推定モデルを得るようにトレーニングされた。

以下に図６を参照する。図６は、本願実施例の電子デバイス（例えば図１に示されたサーバ１０５又は端末デバイス１０１、１０２、１０３）の実現に適するコンピュータシステム６００の構成模式図を示した。図６に示された電子デバイスは例示に過ぎず、本出願の実施例の機能及び使用範囲に対する如何なる制限をしない。

図６に示されたように、コンピュータシステム６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているプログラム、又は記憶部６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに基づいて、様々な適当な動作および処理を実行することができる中央処理装置（ＣＰＵ）６０１を備える。ＲＡＭ６０３には、システム６００の操作に必要な様々なプログラムおよびデータがさらに記憶されている。ＣＰＵ６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

キーボード、マウスなどを含む入力部６０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、およびスピーカなどを含む出力部６０７、ハードディスクなどを含む記憶部６０８、およびＬＡＮカード、モデムなどを含むネットワークインターフェースカードの通信部６０９は、Ｉ／Ｏインターフェース６０５に接続されている。通信部６０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ６１０は、必要に応じてＩ／Ｏインターフェース６０５に接続される。リムーバブル媒体６１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ６１０に取り付けられることにより、ドライバ６１０から読み出されたコンピュータプログラムが必要に応じて記憶部６０８にインストールされる。

特に，本開示の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムとして現実化されても良い。例えば、本開示の実施例はコンピュータ読取可能な媒体に搭載されているコンピュータプログラムを備えるコンピュータプログラム製品を含む。当該コンピュータプログラムは、フローチャートに示される方法を実行させるためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部６０９を介してネットワークからダウンロードしてインストールされ、及び／又はリムーバブル媒体６１１からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット（ＣＰＵ）６０１により実行されると、本願の方法に限定される前記機能が実行される。なお、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは前記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、装置又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ（ＣＤ−ＲＯＭ）、光学記憶素子、磁気記憶素子、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンド実行システム、装置又は部品に使用され、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードが搭載されたデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式であっても良く、電磁気信号、光信号又は前記の任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンド実行システム、装置又は部品に使用され又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、無線、電線、光ケーブル、ＲＦなど、或いは前記の任意の適当の組み合わせを含む任意の適当の媒体で伝送されても良く、それらに限定されない。

一つ又は複数種のプログラミング言語又はそれらの組み合わせで本出願の操作を実行するためのコンピュータプログラムコードをプログラミングしても良い。前記プログラミング言語には、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語が含まれ、更にＣ言語又は類似のプログラミング言語のような通常の手続き型プログラミング言語が含まれる。プログラムコードは、全体がユーザコンピュータに実行されても良く、一部がユーザコンピュータに実行されても良く、一つの独立なパッケージとして実行されても良く、一部がユーザコンピュータに実行され且つ一部がリモートコンピュータに実行されても良く、或いは全体がリモートコンピュータ又はサーバに実行されても良い。リモートコンピュータに関する場合に、リモートコンピュータはローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークによりユーザコンピュータに接続されても良く、或いは外部のコンピュータ（例えばインターネットサービスプロバイダを介してインターネットにより接続する）に接続されても良い。

図面のうち、フローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示す。この点に関して、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表しても良い。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。ちなみに、幾つかの置換としての実現例において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、接続して表示される二つのブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、これは、関連の機能に従って決定される。ちなみに、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行させる専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。

本願実施例において説明したユニットは、ソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明されたユニットはプロセッサに設置されても良い。例えば、取得ユニットと、変換ユニットと、解析ユニットと、増幅ユニットと、逆変換ユニットとを備えるプロセッサとして説明されても良い。なお、これらのユニットの名称は場合によって当該ユニットの自身に対する限定とされない。例えば、取得ユニットは、「マイクアレイで採集された複数のチャンネルの時間領域音声を取得するユニット」として記載されても良い。

他の局面として、本出願はコンピュータ読取可能な媒体を更に提供した。当該コンピュータ読取可能な媒体は、前記実施例に説明された電子デバイスに含まれたものであっても良く、当該電子デバイスに実装されずに別途に存在するものであっても良い。前記コンピュータ読取可能な媒体に一つ又は複数のプログラムが搭載され、前記一つ又は複数のプログラムが当該電子デバイスにより実行されると、当該電子デバイスに、マイクアレイで採集された複数のチャンネルの時間領域音声を取得し、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成し、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得し、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得し、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得するように実行させる。

以上の記載は、本出願の好適な実施例及び使われている技術原理に対する説明にすぎない。当業者は、本出願にかかる発明範囲が、前記技術特徴の特定の組み合わせからなる技術案に限定されるものではなく、前記の発明の趣旨を逸脱しない範囲で、前記技術特徴又は均等の特徴による任意の組み合わせからなる他の技術案も含まれることを理解すべきである。例えば、前記特徴と本出願に開示された類似の機能を具備する技術特徴（それらに限定されない）とを互いに置き換えてなる技術案も含まれる。

Claims

音声を増幅する方法であって、
マイクアレイで採集された複数のチャンネルの時間領域音声を取得することと、
前記複数のチャンネルの時間領域音声に基づいて、少なくとも一つのチャンネルの周波数領域音声を生成することと、
前記少なくとも一つのチャンネルのそれぞれの周波数領域音声に対してマスク閾値の推定を行って、前記少なくとも一つのチャンネルのそれぞれの周波数領域音声のマスク閾値を取得することと、
前記それぞれのチャンネルの周波数領域音声のマスク閾値を解析して、前記少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成することと、
前記少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して、前記複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して、前記少なくとも一つのチャンネルのそれぞれの周波数領域音声の増幅係数を取得することと、
前記それぞれのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って、当該チャンネルの周波数領域音声の正規化増幅係数を取得することと、
前記それぞれのチャンネルの周波数領域音声に対して、当該チャンネルの周波数領域音声の正規化増幅係数を利用して増幅処理を行って当該チャンネルの増幅周波数領域音声を取得することと、
前記それぞれのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って当該チャンネルの増幅時間領域音声を取得すること、
を含む方法。
前記複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成することは、
前記複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得することと、
前記少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得すること、
を含む請求項１に記載の方法。
前記複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得することは、
前記複数のチャンネルのうちチャンネルと他のチャンネルとの距離の和を算出することと、
算出された和に基づいて前記複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得すること、
を含む請求項２に記載の方法。
前記少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得することは、
前記少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング／フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する、ことを含む請求項２に記載の方法。
前記少なくとも一つのチャンネルのそれぞれの周波数領域音声に対してマスク閾値の推定を行って前記少なくとも一つのそれぞれのチャンネルの周波数領域音声のマスク閾値を取得することは、
前記少なくとも一つのチャンネルの周波数領域音声を、予めトレーニングされた、周波数領域音声のマスク閾値を推定するマスク閾値推定モデルに順に入力して、前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する、ことを含む請求項１に記載の方法。
前記マスク閾値推定モデルには、二つの一次元畳み込み層、二つのゲート付き回帰ユニット及び一つの全結合層が含まれる、請求項５に記載の方法。
前記マスク閾値推定モデルは、
周波数領域音声サンプルと前記周波数領域音声サンプルのマスク閾値が含まれるトレーニングサンプルのセットを取得するステップと、
前記トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力として、トレーニングにより前記マスク閾値推定モデルを取得するステップと、
に従ってトレーニングして得られた、請求項５又は６に記載の方法。
音声を増幅する装置であって、
マイクアレイで採集された複数のチャンネルの時間領域音声を取得するように配置される取得ユニットと、
前記複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成するように配置される変換ユニットと、
前記少なくとも一つのチャンネルのそれぞれの周波数領域音声を解析して前記少なくとも一つのチャンネルのそれぞれの周波数領域音声の正規化増幅係数を取得するように配置される解析ユニットと、
前記それぞれのチャンネルの周波数領域音声に対して、当該チャンネルの周波数領域音声の正規化増幅係数を利用して増幅処理を行って当該チャンネルの増幅周波数領域音声を取得するように配置される増幅ユニットと、
前記それぞれのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って当該チャンネルの増幅時間領域音声を取得するように配置される逆変換ユニットと、を備え、
前記解析ユニットは、
前記少なくとも一つのチャンネルのそれぞれの周波数領域音声に対してマスク閾値の推定を行って前記少なくとも一つのチャンネルのそれぞれの周波数領域音声のマスク閾値を取得するように配置される推定サブユニットと、
前記少なくとも一つのチャンネルのそれぞれの周波数領域音声のマスク閾値を解析して、前記少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成するように配置される解析サブユニットと、
前記それぞれのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して当該チャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して、前記少なくとも一つのチャンネルのそれぞれの周波数領域音声の増幅係数を取得するように配置される最小化サブユニットと、
前記それぞれのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って当該チャンネルの周波数領域音声の正規化増幅係数を取得するように配置される正規化サブユニットと、を備える装置。
前記変換ユニットは、
前記複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタサブユニットと、
前記少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得するように配置される変換サブユニットと、を備える請求項８に記載の装置。
前記フィルタサブユニットは、
前記複数のチャンネルのうちチャンネルと他のチャンネルとの距離の和を算出するように配置される算出モジュールと、
算出された和に基づいて前記複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタモジュールと、を備える請求項９に記載の装置。
前記変換サブユニットは更に、
前記少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング／フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する、ように配置される請求項９に記載の装置。
前記推定サブユニットは更に、
前記少なくとも一つのチャンネルの周波数領域音声を、予めトレーニングされた、周波数領域音声のマスク閾値を推定するマスク閾値推定モデルに順に入力して、前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する、ように配置される請求項８に記載の装置。
前記マスク閾値推定モデルには、二つの一次元畳み込み層、二つのゲート付き回帰ユニット及び一つの全結合層が含まれる、請求項１２に記載の装置。
前記マスク閾値推定モデルは、
周波数領域音声サンプルと前記周波数領域音声サンプルのマスク閾値とが含まれるトレーニングサンプルのセットを取得するステップと、
前記トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力として、トレーニングにより前記マスク閾値推定モデルを取得するステップと、
に従ってトレーニングして得られた、請求項１２又は１３に記載の装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項１〜７の何れか一つに記載の方法を実現させる電子デバイス。
コンピュータプログラムが記憶されており、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜７の何れか一つに記載の方法を実現されるコンピュータ読取可能な媒体。