JP7011075B2

JP7011075B2 - マイク・アレイに基づく対象音声取得方法及び装置

Info

Publication number: JP7011075B2
Application number: JP2020542484A
Authority: JP
Inventors: シュ，ドンヤン; ワン，ハイクン; ワン，チグォ; フー，グォピン
Original assignee: アイフライテックカンパニー，リミテッド
Priority date: 2017-10-23
Filing date: 2018-07-16
Publication date: 2022-01-26
Anticipated expiration: 2038-07-16
Also published as: EP3703053A1; US20200342887A1; JP2021500634A; US11081123B2; ES2967132T3; EP3703053C0; CN107742522A; KR102469516B1; EP3703053B1; CN107742522B; WO2019080553A1; PL3703053T3; HUE065302T2; EP3703053A4; KR20200066366A

Description

本出願は２０１７年１０月２３日に中国特許局へ提出した出願番号２０１７１０９９４２１１．５、出願名称「マイク・アレイに基づく対象音声取得方法及び装置」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。

本出願は音声信号処理分野に関し、具体的にマイク・アレイに基づく対象音声取得方法及び装置に関する。

情報技術の急速な発展に伴い、より多くのインテリジェントなインタラクティブ製品が登場しており、音声は最も自然で便利なインタラクティブな方法の1つとして、今日のイ
ンテリジェントなインタラクティブ製品の主流となるインタラクティブ手段である。実際の音声インタラクションプロセスでは、インタラクション効果が音声の品質の直接的な影響を受け、それに実際の環境は複雑で変化し、音声の品質に影響を与えるさまざまなノイズが存在するため、どのようにしてノイズを除去し対象音声の品質を向上させるのかはインタラクティブシナリオで非常に重要である。

従来主流となる対象音声のノイズ軽減方法は、マイク・アレイに基づくノイズ軽減であり、それは複数のマイクで得られた音声信号の空間情報を使用し、目的方向の対象信号に対して音声強調を行い、目的方向以外のノイズを抑制することである。当該方法は、マイクの数が多い場合に有効であるが、実際の応用で、機器のコストやレイアウトの制約を考慮すると、マイクは望ましい数を実現しにくい。この場合、各ビーム方向の収音ゾーンが大きく、目的方向の信号に対応するビームには、対象音声と非対象音声の両方が含まれている可能性があり、目的方向の信号強調プロセスで、ノイズを十分に除去して強力なノイズ抑制を実現しようとすれば、対象音声が歪み、その後の対象音声処理に不可逆的な影響をもたらす可能性がある。したがって、従来技術において一般的に強力なノイズ抑制は行われず、現時点ではノイズの残留が必然的である。またノイズの残留により端点検出が不正確になり、その後の音声認識などの対象音声処理において正確でない端点検出によるさまざまな挿入または欠落エラーが発生することで、ユーザーエクスペリエンスに影響する。

本出願の実施例では、正確で信頼できる対象音声信号が得られて、その後の対象音声処理に対する対象音声の品質の悪影響を回避するためのマイク・アレイに基づく対象音声取得方法及び装置を提供する。

従って、本出願は以下の技術案を提供する。
マイク・アレイに基づく対象音声取得方法であり、
マイク・アレイで収集された音声信号を受信することと、
予め選択された対象音声信号及びその方向を決定することと、
前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることと、
前記強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を得ることと、
前記端点検出結果により、前記弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得ることとを含む。

好ましくは、予め選択された対象音声信号及びその方向を決定することは、
音源の位置決めにより予め選択された対象音声信号及びその方向を決定することを含む。

好ましくは、予め選択された対象音声信号及びその方向を決定することは、
前記音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得ることと、
前記さまざまな方向のビームの中から、予め設定された条件を満たすビームを選択し、選択されたビームにより、対象音声信号及びその方向を決定することとを含む。

好ましくは、前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることは、
前記強指向性ゲインの収音ゾーン角度が前記弱指向性ゲインの収音ゾーン角度よりも小さく、前記強指向性ゲインの遷移ゾーン角度が前記弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定することと、
前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、前記予め選択された対象音声信号の方位角を意味する音源の方位角に基づいた弱指向性ゲインを決定することと、
それぞれ前記音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得ることとを含む。

好ましくは、前記強指向性ゲインの収音ゾーン角度は前記予め選択された対象音声信号のビームメインローブの角度よりも小さい。

好ましくは、前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることは、
前記予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算することと、
前記平滑化エネルギー比率γ、予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定することと、
前記ゲイン調整係数によりそれぞれ前記強指向性ゲイン及び弱指向性ゲインを調整することとをさらに含む。

好ましくは、前記平滑化エネルギー比率γ、予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定することは、
前記平滑化エネルギー比率γは前記高エネルギー比率閾値よりも大きい場合、前記ゲイン調整係数を１に設定することと、前記平滑化エネルギー比率γは前記低エネルギー比率閾値よりも小さい場合、前記ゲイン調整係数をＫ_０に設定することと、前記平滑化エネルギー比率γは前記低エネルギー比率閾値以上、前記高エネルギー比率閾値以下である場合、前記ゲイン調整係数をＫ_１に設定することとを含み、ここで、Ｋ_１＞Ｋ_０とする。

好ましくは、
予め設定された条件を満たすビームにより、予め選択された対象音声信号及びその方向を決定する前に、各ビームに対して適応フィルターを用いたノイズ軽減を行うことと、又は
予め選択された対象音声信号及びその方向を決定した後、前記予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うこととをさらに含む。

マイク・アレイに基づく対象音声取得装置であり、信号受信モジュールと、事前選択モ
ジュールと、ゲイン処理モジュールと、端点検出モジュールと、対象音声抽出モジュールとを含む。ここで、
前記信号受信モジュールは、マイク・アレイで収集された音声信号を受信し、前記音声信号を前記事前選択モジュールに出力し、
前記事前選択モジュールは、予め選択された対象音声信号及びその方向を決定するために使用され、
前記ゲイン処理モジュールは、前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得て、前記強指向性ゲイン信号を前記端点検出モジュールに出力し、前記弱指向性ゲイン信号を前記対象音声抽出モジュールに出力し、
前記端点検出モジュールは、前記強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を前記対象音声抽出モジュールに出力し、
前記対象音声抽出モジュールは、前記端点検出結果により前記弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る。

好ましくは、前記事前選択モジュールは音源の位置決めにより予め選択された対象音声信号及びその方向を決定する。

好ましくは、前記事前選択モジュールは、
前記音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得るビーム形成ユニットと、
前記ビーム形成ユニットから得られたさまざまな方向のビームの中から予め設定された条件を満たすビームを選択し、選択されたビームにより、前記予め選択された対象音声信号及びその方向を決定する決定ユニットとを含む。

好ましくは、前記ゲイン処理モジュールは、
強指向性ゲインの収音ゾーン角度が弱指向性ゲインの収音ゾーン角度よりも小さく、強指向性ゲインの遷移ゾーン角度が弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定する角度設定ユニットと、
前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、前記予め選択された対象音声信号の方位角を意味する音源の方位角に基づいた弱指向性ゲインを決定するゲイン計算ユニットと、
それぞれ前記音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、前記強指向性ゲイン信号及び前記弱指向性ゲイン信号を得るゲイン信号生成ユニットとを含む。

好ましくは、前記ゲイン処理モジュールは、
高エネルギー比率閾値及び低エネルギー比率閾値を設定するエネルギー比率閾値設定ユニットと、
前記予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算するエネルギー比率計算ユニットと、
前記平滑化エネルギー比率γ、前記高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定するゲイン調整係数決定ユニットと、
前記ゲイン調整係数によりそれぞれ前記ゲイン計算ユニットで得られた前記強指向性ゲイン及び弱指向性ゲインを調整するゲイン補正ユニットとをさらに含む。

好ましくは、前記事前選択モジュールは、
前記ビーム形成ユニットと前記決定ユニットの間に設置され、前記ビーム形成ユニットで得られた各ビームに対して適応フィルターを用いたノイズ軽減を行うノイズ軽減ユニットをさらに含み、
又は、
前記事前選択モジュールとゲインモジュールの間に設置され、前記事前選択モジュールによって決定された予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うノイズ軽減モジュールをさらに含む。

コンピュータ読取可能な記憶媒体であり、コンピュータプログラムコードを格納し、当該コンピュータプログラムコードは1つのコンピュータユニットにより、当該コンピュー
タユニットに前述のマイク・アレイに基づく対象音声取得方法のステップを実行させる。

マイク・アレイに基づく対象音声取得装置であり、プロセッサと、メモリと、システムバスとを含み、
前記プロセッサ及び前記メモリは、前記システムバスを介して接続される。

前記メモリは命令を含む1つ又は複数のプログラムを格納し、前記命令は前記プロセッ
サによって実行された時に、前述のマイク・アレイに基づく対象音声取得方法のステップを実行させる。

コンピュータプログラム製品であり、端末装置で実行された時に、前記端末装置に前述のマイク・アレイに基づく対象音声取得方法のステップを実行させる。

本出願の実施例に係るマイク・アレイに基づく対象音声取得方法及び装置は、マイク・アレイで収集された音声信号を受信し、予め選択された対象音声信号及びその方向を決定し、つぎに前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得る。強い指向性でゲインアップした音声信号に残されたノイズ信号は少ないため、前記強指向性ゲイン信号に基づき端点検出を行い、正確な端点検出結果が得られる。また弱い指向性でゲインアップした音声信号のうち、対象音声の歪みが小さいため、当該端点検出結果により、前記弱指向性ゲイン信号に対して端点処理を行い、信頼性のより高い対象音声信号が得られる。

本出願の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例に使用される図面を簡単に説明する。明らかに、下記の図面は、本出願に記載される実施例の一部に過ぎず、当業者であれば、これらの図面から他の図面を得ることができる。
本出願の実施例におけるマイク・アレイに基づく対象音声取得方法のフローチャートである。本出願の実施例における音源の方位角に基づいて設計されるゲイン模式図である。本出願の実施例におけるマイク・アレイに基づく対象音声取得装置の構造ブロック図である。本出願の装置実施例におけるゲイン処理モジュールの構造模式図である。本出願の装置実施例におけるゲイン処理モジュールの別の構造模式図である。本出願の実施例におけるマイク・アレイに基づく対象音声取得装置の別の構造ブロック図である。

当業者が本出願の実施例の解決案をよりよく理解するため、以下の図面及び実施形態を合わせて本出願の実施例を詳細に説明する。

音声の強化は、対象音声の構造を損なわないという前提で、受信信号に含まれるノイズを低減しさらにそれを除去し、音声の明瞭度を向上させることを目的とする。このために、本出願の実施例ではマイク・アレイに基づく対象音声取得方法及び装置を提供し、マイク・アレイで受信された音声信号に基づき、予め選択された対象音声信号及びその方向を決定し、予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を取得し、強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を取得し、端点検出結果により、弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る。

図１に示すように、本出願の実施例におけるマイク・アレイに基づく対象音声取得方法のフローチャートであり、下記のステップを含む。

ステップ１０１：マイク・アレイで収集された音声信号を受信する。

具体的な応用において、音声信号を受信した後、それを前処理しなければならない。

音声信号ｘ_ｍ（ｔ）を受信するＭ個のマイクを備えるマイク・アレイを例として取り上げると、音声信号を前処理することは、受信された音声信号を時間領域から周波数領域に変換し、周波数領域の音声信号

を得ることを意味し、ここでｘ_ｍ（ｋ，ｌ）はｍ個目のマイクで受信された周波数領域の音声信号、ｋは信号の周波数、ｌは音声フレームの番号である。

ステップ１０２：予め選択された対象音声信号及びその方向を決定する。

本出願の実施例において、予め選択された対象音声信号は、特定の命令語の音声信号及び／又は特定の話者の音声信号、有効な音声信号など、どのような音声信号であっても、音源の位置決め方式を用いて予め選択された対象音声信号及びその方向を決定することができる。音源の位置決めの具体的なプロセスは従来技術と同様であるため、ここでは省略する。

音源の位置決め方式を用いて予め選択された対象音声信号及びその方向を決定する前に、当該音声信号に対してノイズ軽減処理を行うこともでき、具体的には、従来技術のある特定のノイズ軽減方式を使用でき、これに対し、本出願の実施例で限定されない。

また、予め選択された対象音声信号及びその方向を決定する時に、まず音声信号にビームフォーミングを行い、さまざまな方向のビームを得てから、さまざまな方向のビームの中から予め設定された条件を満たすビームを選択し、選択されたビームにより対象音声信号及びその方向を決定する。

ビームフォーミングは具体的に従来技術（例えば、方向推定に基づく適応アルゴリズム、信号構造に基づくビーム形成方法など）を使用でき、ここで本出願の実施例で限定されない。

マイクの固定ビームフォーミングのプロセスは次の通りである。
仮にＭ個のマイクからＮ個の固定ビームを形成し、各マイクに対応するビーム形成係数は
、

ここで、ｋは信号の周波数、ｌは音声フレームの番号とすると、固定ビームの出力は次の通りである。

上述の固定ビーム形成係数は、所望方向の信号に歪みがなく、他の方向の出力信号のパワーが十分小さいという原則に基づいて算出されたものであってもよい。

説明すべき点については、実際の応用において、各ビームが得られた後も、それに対して適応フィルターを用いたノイズ軽減を行うことができる。適応フィルターを用いたノイズ軽減は、マルチチャネルの残響除去、一般化サイドローブ除去などの処理を含み、従来の他のノイズ軽減方法も採用できるため、これに対し限定されない。以下、一般化サイドローブ除去を例として説明する。

一般化サイドローブ除去の目的は非目的方向の信号を抑制することであり、具体的な実現プロセスは次の通りである。

まず、ノイズ参照信号を取得する。

ここで、

は（Ｍ－１）×１ベクトル、

は（Ｍ－１）×１のブロッキング行列であり、所望方向の信号を最大限に抑制するという原則に基づいて得られ、当該行列は、対象信号を除去したノイズ参考信号を取得するために使用される。

その後、固定ビーム信号からノイズ信号を除去し、固定ビーム信号のノイズ信号は、ノイズ参照信号に係数をかけて得られ、最終な所望ビーム信号は次の通りである。

ここで、

はフィルター係数であり、正規化線形最小平均二乗誤差（ＬＭＳ）アルゴリズムにより更新して得られる。

上述したように、本出願の実施例において、予め選択された対象音声信号は、特定の命令語の音声信号及び／又は特定の話者の音声信号であってもよい。この場合は、各ビームに対して、特定の命令語及び／又は声紋認識を行い、特定の命令語及び／又は特定の話者を識別した後、予め設定された条件を満たす識別結果を選別する。例えば、予め選択された対象音声信号として点数が一番高いビームを選別し、それに対し、当該ビームの方向を、予め選択された対象音声信号の方向とする。予め選択された対象音声信号が有効な音声信号である場合、各ビームに対して設定基準に基づいて予め選択された対象音声を選別してその対応方向を決定することができる。設定基準は、「エネルギーが一番高い」及び「信号対雑音比が一番高い」のいずれかの１つ又はそれらの組み合わせであってもよい。

説明すべき点については、上述の音声信号の適応フィルターを用いたノイズ軽減におけるマルチチャネルの残響除去、一般化サイドローブ除去などのステップは、方位の決定精度が許容される場合、対象音声方向を決定した後に行われ、すなわち、予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うことができ、これについては、本出願の実施例で限定されない。

ステップ１０３：予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得る。

ＧＳＣ（Generalized Sidelobe Canceller、一般化サイドローブキャンセラ）は目的方向でないノイズを抑制する時に通常、目的方向でない一部のノイズだけを抑制し、指向性ゲイン処理によりノイズをさらに抑制することができる。

このために、本出願の実施例において、２つの強度の指向性ゲインにより、それぞれ強い指向性でゲイン処理をした音声信号（すなわち、強指向性ゲイン信号）及び弱い指向性でゲイン処理をした音声信号（すなわち、弱指向性ゲイン信号）が得られる。ゲイン処理で得られた強指向性ゲイン信号に残されたノイズ信号は少ないが、対象音声信号に比較的に大きな歪みがあり、一方、弱指向性ゲイン信号の属性は逆である。

ゲイン処理は次の通りである。

１）強指向性ゲインの収音ゾーン角度が、弱指向性ゲインの収音ゾーン角度よりも小さく、強指向性ゲインの遷移ゾーン角度が、弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定する。

２）強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、予め選択された対象音声信号の方位角を意味する音源の方位角に基づいた弱指向性ゲインを決定する。

３）それぞれ音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得る。

異なる干渉状況において予め選択された対象音声信号への影響を考慮し、上述のステップ２とステップ３の間で、音源の方位角に基づく強指向性ゲイン及び弱指向性ゲインを調整するステップをさらに含むこともでき、それに対し、ステップ３において調整された強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得る。

指向性ゲインは次の式で表される。

ここで、ｇ_ｉ（θ，ｌ）は音源の方位角θに基づいて設計されたゲインである。図２に示すように、θは音源の方位角、すなわち、予め選択された対象音声信号の方位角である。－Ｔ１からＴ１までの領域は収音ゾーン、Ｔ１からＴ２までの領域、及び－Ｔ２から－Ｔ１までの領域は遷移ゾーン、Ｔ２より大きい領域と－Ｔ２より小さい領域とは非収音ゾー
ンである。

説明すべき点については、強指向性ゲイン及び弱指向性ゲインの区別はＴ１とＴ２の数値である。

強指向性ゲインの場合は、遷移ゾーンをできるだけ狭くし、非収音ゾーンのゲインをできるだけ小さくして０に近づけるよう、Ｔ１は小さい値を取り（一般的に、目的ビームメインローブの角度よりも小さい。実際の応用状況によって決定する）、Ｔ２はＴ１にできるだけ近い値を取る。収音ゾーンが小さく、その同時に遷移ゾーンが狭くするように設計される場合、対象音声の歪みが発生しやすくなるが、強い指向性でゲイン処理をして得られた強指向性ゲイン信号はその後の対象音声の開始点と終了点での検出に使用され、歪みによる影響がない。

弱指向性ゲインの場合は、音源を間違って推定する時に、対象音声の成分が過度に抑圧されないように、Ｔ１は強指向性ゲインより大きい値を取り、一般的に目的ビームメインローブの角度（実際の応用状況によって決定する）以下とするが、Ｔ２はできるだけ大きく設計される。

さらに、異なる干渉状況において予め選択された対象音声信号への影響を考慮し、音源の方位角に基づく強指向性ゲイン及び弱指向性ゲインを調整することができる。ゲインの調整処理は次の通りである。

まず、予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算し、平滑化エネルギー比率γ及び予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定する。このため、平滑化エネルギー比率によってゲイン調整係数が与えられ、その後にゲイン調整係数により、それぞれ強指向性ゲイン及び弱指向性ゲインを調整する。

平滑化エネルギー比率γは、通常の平滑化方法により計算される。例えば、次の式で算出する。

ここで、∂とβは重み係数であり、∂＋β＝１とし、その値は実際の応用状況によって決定され、例えば、それぞれ０．９と０．１とする。Ｙ_{ｔａｒｇｅｔ}（ｋ，ｌ）は予め選択された対象信号、Ｙ_{ｉｎｔｅｒｆｅｒｅ}（ｋ，ｌ）は干渉信号である。

平滑化エネルギー比率γは高エネルギー比率閾値よりも大きい場合、ゲイン調整係数を１に設定する。平滑化エネルギー比率γは低エネルギー比率閾値よりも小さい場合、ゲイン調整係数をＫ_０に設定する。平滑化エネルギー比率γは低エネルギー比率閾値以上、高エネルギー比率閾値以下である場合、ゲイン調整係数をＫ_１に設定する。ここで、Ｋ_１＞Ｋ_０とする。

例えば、強指向性ゲイン及び弱指向性ゲインの具体的な調整式は次の通りである。

ここで、

はそれぞれ強指向性ゲイン及び弱指向性ゲインとする。γ（ｋ，ｌ）は周波数がｋのｌ番目のフレームにおける予め選択された対象信号及び干渉信号の平滑化エネルギーの比率であり、干渉信号は他のビームのうち、エネルギーが一番大きなビームを選択できる。γ_ｈｉｇｈ、γ_ｌｏｗはそれぞれ高エネルギー比率の閾値、低エネルギー比率の閾値であり、その値は実際の応用状況によって決定され、例えば、それぞれ４と０．４とする。Ｋ_０は補正係数であり、主に弱指向性でゲインアップする時に、ｄｏｕｂｌｅ－ｔａｌｋ（双方向通話）がある場合、ゲインを補正する。一般的に、０．２のような小さい値を取る。

強指向性ゲインと弱指向性ゲインを決定した後、ゲインアップした２つの信号（すなわち、強指向性ゲイン信号及び弱指向性ゲイン信号）を得る。

ここで、Ｙ（ｋ，ｌ）は予め選択された対象音声信号であり、Ｙ_１（ｋ，ｌ）とＹ_２（ｋ，ｌ）はそれぞれ強指向性ゲイン信号及び弱指向性ゲイン信号である。

ステップ１０４：強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を得る。

端点検出は、音声を含む信号から音声の開始点と終了点を正確的に決定し、さらに音声と非音声信号を決定する。有効な端点検出は、音声識別、処理などの応用でデータの収集量を減らすだけではなく、無音声区間とノイズ区間の干渉を除去し、有効な音声信号を得る。具体的な端点検出は、短時間エネルギーと短時間平均ゼロクロス率に基づく端点検出、ケプストラム特徴に基づく端点検出、エントロピーに基づく端点検出などの従来技術を採用することができる。

ステップ１０５：端点検出結果により、弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る。

つまり、ステップ１０５で得られた音声の開始点と終了点の位置により、弱指向性ゲイン信号から最終対象音声信号を得る。

本出願の実施例に係るマイク・アレイに基づく対象音声取得方法は、マイク・アレイで収集された音声信号を受信し、予め選択された対象音声信号及びその方向を決定し、予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得る。強い指向性でゲインアップした音声信号に残されたノイズ信号が少ないため、強指向性ゲイン信号に基づき端点検出を行い、正確な端点検出結果が得られる。また弱い指向性でゲインアップした音声信号のうち、対象音声の歪みが小さいため、当該端点検出結果により、弱指向性ゲイン信号に対して端点処理を行い、信頼性のより高い対象音声信号が得られる。

それに対応し、本出願の実施例では、コンピュータプログラムコードを格納するコンピュータ読取可能な記憶媒体も提供し、当該コンピュータプログラムコードは１つのコンピュータユニットにより、当該コンピュータユニットに本出願の実施例におけるマイク・アレイに基づく対象音声取得方法の各ステップを実行させる。

それはマイク・アレイに基づく対象音声取得装置であり、プロセッサと、メモリと、システムバスとを含み、
プロセッサ及びメモリは、システムバスを介して接続される。

メモリは命令を含む１つ又は複数のプログラムを格納し、命令はプロセッサによって、プロセッサに本出願の実施例におけるマイク・アレイに基づく対象音声取得方法の各ステップを実行させる。

それに対応し、本出願の実施例では、コンピュータプログラム製品も提供し、当該コンピュータプログラム製品は端末装置で実行された時に、当該端末装置に本出願の実施例におけるマイク・アレイに基づく対象音声取得方法の各ステップを実行させる。

それに対応し、本出願の実施例では、マイク・アレイに基づく対象音声取得装置も提供する。図３は当該装置の構造ブロック図であり、信号受信モジュール３０１、事前選択モジュール３０２、ゲイン処理モジュール３０３、端点検出モジュール３０４、対象音声抽出モジュール３０５を含む。ここで、
信号受信モジュール３０１は、マイク・アレイで収集された音声信号を受信し、当該音声信号を事前選択モジュール３０２に出力し、
事前選択モジュール３０２は、当該音声信号により予め選択された対象音声信号及びその方向を決定し、
ゲイン処理モジュール３０３は、予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得て、当該強指向性ゲイン信号を端点検出モジュール３０４に出力し、当該弱指向性ゲイン信号を対象音声抽出モジュール３０５に出力し、
端点検出モジュール３０４は、当該強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を対象音声抽出モジュール３０５に出力し、
対象音声抽出モジュール３０５は、端点検出結果により当該弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る。

実際の応用において、信号受信モジュール３０１は、受信する音声信号をさらに前処理しなければならない。音声信号を前処理することは、主に受信された音声信号を時間領域から周波数領域に変換し、周波数領域の音声信号を得ることである。

本出願の一実施例において、事前選択モジュール３０２は、音源の位置決めにより、予め選択された対象音声信号及びその方向を決定することができる。

本出願の別の実施例において、事前選択モジュール３０２は、まず音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得た後、予め設定された条件を満たすビームを選択し、選択されたビームにより対象音声信号及びその方向を決定することができる。それに対応し、当該実施例において、事前選択モジュール３０２は以下２つのユニットを含むことができる。

ビーム形成ユニット：音声信号に対してビームフォーミング（例えば、方向推定に基づく適応アルゴリズム、信号構造に基づくビーム形成方法などの従来技術を採用できる）を行い、さまざまな方向のビームを得る。

決定ユニット：ビーム形成ユニットから得られたさまざまな方向のビームの中から予め設定された条件を満たすビームを選択し、選択されたビームにより、予め選択された対象音声信号及びその方向を決定する。

例えば、予め選択された対象音声信号は、特定の命令語の音声信号及び／又は特定の話者の音声信号であってもよい。この場合は、決定ユニットは、各ビームに対して、特定の命令語及び／又は声紋認識を行うことができ、特定の命令語及び／又は特定の話者を識別した後、予め設定された条件を満たす識別結果を選別する。例えば、予め選択された対象音声信号として点数が一番高いビームを選別し、それに対応し、当該ビームの方向を、予め選択された対象音声信号の方向とする。

他の例として、予め選択された対象音声信号は有効な音声信号であり、この場合、決定ユニットは各ビームに対して設定基準に基づいて予め選択された対象音声を選別してその対応方向を決定することができる。設定基準は、「エネルギーが一番高い」及び「信号対雑音比が一番高い」のいずれかの１つ又はそれらの組み合わせであってもよい。

説明すべき点については、上述のビーム形成ユニットと決定ユニットの間にノイズ軽減ユニットを設置することもでき、ビーム形成ユニットで得られた各ビームに対して適応フィルターを用いたノイズ軽減を行い、適応フィルターを用いたノイズ軽減は、マルチチャネルの残響除去及び一般化サイドローブ除去のいずれかの１つ又は複数を含む。

図４は本出願の装置実施例におけるゲイン処理モジュールの構造模式図である。

当該実施例において、ゲイン処理モジュールは、
強指向性ゲインの収音ゾーン角度が弱指向性ゲインの収音ゾーン角度よりも小さく、強指向性ゲインの遷移ゾーン角度が弱指向性ゲインの遷移ゾーン角度よりも小さく、強指向性ゲインの収音ゾーン角度は予め選択された対象音声信号のビームメインローブの角度よりも小さくなるように、強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定する角度設定ユニット４１と、
強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、予め選択された対象音声信号の方位角を意味する音源の方位角に基づいた弱指向性ゲインを決定するゲイン計算ユニット４２と、
それぞれ音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得るゲイン信号生成ユニット４３とを含む。

図５は本出願の装置実施例におけるゲイン処理モジュールの別の構造模式図である。

図４に示す実施例と比べ、当該実施例において、ゲイン処理モジュールは、
高エネルギー比率閾値及び低エネルギー比率閾値を設定するエネルギー比率閾値設定ユニット５１と、
予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算するエネルギー比率計算ユニット５２と、
平滑化エネルギー比率γ、高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定するゲイン調整係数決定ユニット５３と、
ゲイン調整係数によりそれぞれゲイン計算ユニット４２で得られた強指向性ゲイン及び弱指向性ゲインを調整するゲイン補正ユニット５４とをさらに含む。

それに対応し、当該実施例において、ゲイン信号生成ユニット４３は、ゲイン補正ユニット５４で調整された強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得る必要がある。

もちろん、実際の応用において、上述の角度設定ユニット４１とエネルギー比率閾値設定ユニット５１は独立したもの及び一体化したもののいずれもよく、これに対し、本出願
の実施例で限定されない。

図６は当該装置の別の構造ブロック図であり、図３に示す実施例と比べ、当該実施例において、当該装置は、事前選択モジュール３０２とゲインモジュール３０３の間に設置され、事前選択モジュール３０２によって決定された予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うノイズ軽減モジュール３０６をさらに含む。上記の適応フィルターを用いたノイズ軽減処理はマルチチャネル残響除去、一般化サイドローブキャンセラなどの処理が挙げられ、もちろん、従来技術の他のノイズ軽減処理を含むことができ、これに対し、本出願の実施例で限定されない。

本出願の実施例に係るマイク・アレイに基づく対象音声取得装置は、マイク・アレイで収集された音声信号に基づき、予め選択された対象音声信号及びその方向を決定し、つぎに予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得る。強い指向性でゲインアップした音声信号に残されたノイズ信号が少ないため、当該強指向性ゲイン信号に基づき端点検出を行い、正確な端点検出結果が得られる。また弱い指向性でゲインアップした音声信号のうち、対象音声の歪みが小さいため、当該端点検出結果により、当該弱指向性ゲイン信号に対して端点処理を行い、信頼性のより高い対象音声信号が得られる。

本明細書の各実施例はプログレッシブな方式で記載し、各実施例間の同一・類似する部分は互いに参照でき、各実施例はその他の実施例との相違点について重点を置いて記載される。また、以上のように記載される装置の実施例は例示的なものであり、ここで、分割部品として述べられたユニットは物理的な分割であっても、なくてもよい。ユニットとして示される部品は物理的なユニットであっても、なくてもよい。また、１つの箇所に位置するか、複数のネットワークユニットに分散する場合がある。実際のニーズに応じて、その一部又は全部のモジュールを選択して、本実施例の解決案の目的を果たすことができる。当業者であれば、創造的な労働をせずに容易に理解して実施することができる。

以上、本出願の実施例を詳細に説明し、本文では具体的な実施形態を用い本出願を説明し、以上の実施例の説明は本出願を理解するための方法及び装置である。また、当業者にとっては、本出願のアイデアに基づき具体的な実施形態及び応用範囲を変更することができ、以上のころから、本明細書の内容は本出願への制限と理解すべきではない。

Claims

マイク・アレイに基づく対象音声取得方法であって、
マイク・アレイで収集された音声信号を受信することと、
予め選択された対象音声信号及びその方向を決定することと、
前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることと、
前記強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を得ることと、
前記端点検出結果により、前記弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得ることとを含む、
ことを特徴とする方法。
前記予め選択された対象音声信号及びその方向を決定することは、
音源の位置決めにより予め選択された対象音声信号及びその方向を決定することを含む、
ことを特徴とする請求項１記載の方法。
前記予め選択された対象音声信号及びその方向を決定することは、
前記音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得ることと、
前記さまざまな方向のビームの中から、予め設定された条件を満たすビームを選択し、選択されたビームにより、対象音声信号及びその方向を決定することとを含む、
ことを特徴とする請求項１記載の方法。
前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることは、
強指向性ゲインの収音ゾーン角度が弱指向性ゲインの収音ゾーン角度よりも小さく、前記強指向性ゲインの遷移ゾーン角度が前記弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定することと、
強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、前記音源の方位角に基づいた弱指向性ゲインを決定し、前記音源の方位角とは、前記予め選択
された対象音声信号の方位角であることと、
それぞれ前記音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得ることとを含む、
ことを特徴とする請求項１記載の方法。
前記強指向性ゲインの収音ゾーン角度は前記予め選択された対象音声信号のビームメインローブの角度よりも小さい、
ことを特徴とする請求項４に記載の方法。
前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることは、
前記予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算することと、前記平滑化エネルギー比率γ、予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定することと、
前記ゲイン調整係数によりそれぞれ前記強指向性ゲイン及び弱指向性ゲインを調整することとをさらに含む、
ことを特徴とする請求項４記載の方法。
前記平滑化エネルギー比率γ、予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定することは、
前記平滑化エネルギー比率γは前記高エネルギー比率閾値よりも大きい場合、前記ゲイン調整係数を１に設定することと、前記平滑化エネルギー比率γは前記低エネルギー比率閾値よりも小さい場合、前記ゲイン調整係数をＫ_０に設定することと、前記平滑化エネルギー比率γは前記低エネルギー比率閾値以上、前記高エネルギー比率閾値以下である場合、前記ゲイン調整係数をＫ_１に設定することとを含み、Ｋ_１＞Ｋ_０とする、
ことを特徴とする請求項６に記載の方法。
予め設定された条件を満たすビームにより、予め選択された対象音声信号及びその方向を決定する前に、各ビームに対して適応フィルターを用いたノイズ軽減を行うこと、
又は、
予め選択された対象音声信号及びその方向を決定した後、前記予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うことをさらに含む、
ことを特徴とする請求項３に記載の方法。
マイク・アレイに基づく対象音声取得装置であって、信号受信モジュールと、事前選択モジュールと、ゲイン処理モジュールと、端点検出モジュールと、対象音声抽出モジュールとを含み、
前記信号受信モジュールは、マイク・アレイで収集された音声信号を受信し、前記音声信号を前記事前選択モジュールに出力し、
前記事前選択モジュールは、予め選択された対象音声信号及びその方向を決定するために使用され、
前記ゲイン処理モジュールは、前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得て、前記強指向性ゲイン信号を前記端点検出モジュールに出力し、前記弱指向性ゲイン信号を前記対象音声抽出モジュールに出力し、
前記端点検出モジュールは、前記強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を前記対象音声抽出モジュールに出力し、
前記対象音声抽出モジュールは、前記端点検出結果により前記弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る、
ことを特徴とする装置。
前記事前選択モジュールは、音源の位置決めにより予め選択された対象音声信号及びその方向を決定する、
ことを特徴とする請求項９に記載の装置。
前記事前選択モジュールは、
前記音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得るビーム形成ユニットと、
前記ビーム形成ユニットから得られたさまざまな方向のビームの中から予め設定された条件を満たすビームを選択し、選択されたビームにより、前記予め選択された対象音声信号及びその方向を決定する決定ユニットとを含む、
ことを特徴とする請求項９に記載の装置。
前記ゲイン処理モジュールは、
強指向性ゲインの収音ゾーン角度が弱指向性ゲインの収音ゾーン角度よりも小さく、強指向性ゲインの遷移ゾーン角度が弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定する角度設定ユニットと、
前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、前記音源の方位角に基づいた弱指向性ゲインを決定するゲイン計算ユニットであって、前記音源の方位角とは、前記予め選択された対象音声信号の方位角であるゲイン計算ユニットと、
それぞれ前記音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、前記強指向性ゲイン信号及び前記弱指向性ゲイン信号を得るゲイン信号生成ユニットとを含む、
ことを特徴とする請求項９に記載の装置。
前記強指向性ゲインの収音ゾーン角度は前記予め選択された対象音声信号のビームメインローブの角度よりも小さい、
ことを特徴とする請求項１２に記載の装置。
前記ゲイン処理モジュールは、
高エネルギー比率閾値及び低エネルギー比率閾値を設定するエネルギー比率閾値設定ユニットと、
前記予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算するエネルギー比率計算ユニットと、
前記平滑化エネルギー比率γ、前記高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定するゲイン調整係数決定ユニットと、
前記ゲイン調整係数によりそれぞれ前記ゲイン計算ユニットで得られた前記強指向性ゲイン及び弱指向性ゲインを調整するゲイン補正ユニットとをさらに含む、
ことを特徴とする請求項１２に記載の装置。
前記事前選択モジュールは、
前記ビーム形成ユニットと前記決定ユニットの間に設置され、前記ビーム形成ユニットで得られた各ビームに対して適応フィルターを用いたノイズ軽減を行うノイズ軽減ユニットをさらに含み、
又は、
前記事前選択モジュールとゲインモジュールの間に設置され、前記事前選択モジュールによって決定された予め選択された対象音声信号に対して適応フィルターを用いたノイズ
軽減を行うノイズ軽減モジュールをさらに含む、
ことを特徴とする請求項１１に記載の装置。
１つのコンピュータユニットによって実行されることで、当該コンピュータユニットに請求項１ないし８のいずれかの１項に記載のマイク・アレイに基づく対象音声取得方法のステップを実行させるコンピュータプログラムコードを格納する、
ことを特徴とするコンピュータ読取可能な記憶媒体。
マイク・アレイに基づく対象音声取得装置であって、プロセッサと、メモリと、システムバスとを含み、
前記プロセッサ及び前記メモリは、前記システムバスを介して接続され、
前記メモリは、命令を含む１つ又は複数のプログラムを格納し、前記命令は前記プロセッサによって実行された時に、前記プロセッサに請求項１ないし８のいずれかの１項に記載の方法を実行させる、
ことを特徴とする対象音声取得装置。
コンピュータプログラムであって、端末装置で実行される時に、前記端末装置に請求項１ないし８のいずれかの１項に記載の方法を実行させる、
ことを特徴とするコンピュータプログラム。