JP7011075B2 - マイク・アレイに基づく対象音声取得方法及び装置 - Google Patents

マイク・アレイに基づく対象音声取得方法及び装置 Download PDF

Info

Publication number
JP7011075B2
JP7011075B2 JP2020542484A JP2020542484A JP7011075B2 JP 7011075 B2 JP7011075 B2 JP 7011075B2 JP 2020542484 A JP2020542484 A JP 2020542484A JP 2020542484 A JP2020542484 A JP 2020542484A JP 7011075 B2 JP7011075 B2 JP 7011075B2
Authority
JP
Japan
Prior art keywords
gain
signal
audio signal
weak
strong
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020542484A
Other languages
English (en)
Other versions
JP2021500634A (ja
Inventor
シュ,ドンヤン
ワン,ハイクン
ワン,チグォ
フー,グォピン
Original Assignee
アイフライテック カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイフライテック カンパニー,リミテッド filed Critical アイフライテック カンパニー,リミテッド
Publication of JP2021500634A publication Critical patent/JP2021500634A/ja
Application granted granted Critical
Publication of JP7011075B2 publication Critical patent/JP7011075B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本出願は2017年10月23日に中国特許局へ提出した出願番号201710994211.5、出願名称「マイク・アレイに基づく対象音声取得方法及び装置」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
本出願は音声信号処理分野に関し、具体的にマイク・アレイに基づく対象音声取得方法及び装置に関する。
情報技術の急速な発展に伴い、より多くのインテリジェントなインタラクティブ製品が登場しており、音声は最も自然で便利なインタラクティブな方法の1つとして、今日のイ
ンテリジェントなインタラクティブ製品の主流となるインタラクティブ手段である。実際の音声インタラクションプロセスでは、インタラクション効果が音声の品質の直接的な影響を受け、それに実際の環境は複雑で変化し、音声の品質に影響を与えるさまざまなノイズが存在するため、どのようにしてノイズを除去し対象音声の品質を向上させるのかはインタラクティブシナリオで非常に重要である。
従来主流となる対象音声のノイズ軽減方法は、マイク・アレイに基づくノイズ軽減であり、それは複数のマイクで得られた音声信号の空間情報を使用し、目的方向の対象信号に対して音声強調を行い、目的方向以外のノイズを抑制することである。当該方法は、マイクの数が多い場合に有効であるが、実際の応用で、機器のコストやレイアウトの制約を考慮すると、マイクは望ましい数を実現しにくい。この場合、各ビーム方向の収音ゾーンが大きく、目的方向の信号に対応するビームには、対象音声と非対象音声の両方が含まれている可能性があり、目的方向の信号強調プロセスで、ノイズを十分に除去して強力なノイズ抑制を実現しようとすれば、対象音声が歪み、その後の対象音声処理に不可逆的な影響をもたらす可能性がある。したがって、従来技術において一般的に強力なノイズ抑制は行われず、現時点ではノイズの残留が必然的である。またノイズの残留により端点検出が不正確になり、その後の音声認識などの対象音声処理において正確でない端点検出によるさまざまな挿入または欠落エラーが発生することで、ユーザーエクスペリエンスに影響する。
本出願の実施例では、正確で信頼できる対象音声信号が得られて、その後の対象音声処理に対する対象音声の品質の悪影響を回避するためのマイク・アレイに基づく対象音声取得方法及び装置を提供する。
従って、本出願は以下の技術案を提供する。
マイク・アレイに基づく対象音声取得方法であり、
マイク・アレイで収集された音声信号を受信することと、
予め選択された対象音声信号及びその方向を決定することと、
前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることと、
前記強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を得ることと、
前記端点検出結果により、前記弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得ることとを含む。
好ましくは、予め選択された対象音声信号及びその方向を決定することは、
音源の位置決めにより予め選択された対象音声信号及びその方向を決定することを含む。
好ましくは、予め選択された対象音声信号及びその方向を決定することは、
前記音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得ることと、
前記さまざまな方向のビームの中から、予め設定された条件を満たすビームを選択し、選択されたビームにより、対象音声信号及びその方向を決定することとを含む。
好ましくは、前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることは、
前記強指向性ゲインの収音ゾーン角度が前記弱指向性ゲインの収音ゾーン角度よりも小さく、前記強指向性ゲインの遷移ゾーン角度が前記弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定することと、
前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、前記予め選択された対象音声信号の方位角を意味する音源の方位角に基づいた弱指向性ゲインを決定することと、
それぞれ前記音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得ることとを含む。
好ましくは、前記強指向性ゲインの収音ゾーン角度は前記予め選択された対象音声信号のビームメインローブの角度よりも小さい。
好ましくは、前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることは、
前記予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算することと、
前記平滑化エネルギー比率γ、予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定することと、
前記ゲイン調整係数によりそれぞれ前記強指向性ゲイン及び弱指向性ゲインを調整することとをさらに含む。
好ましくは、前記平滑化エネルギー比率γ、予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定することは、
前記平滑化エネルギー比率γは前記高エネルギー比率閾値よりも大きい場合、前記ゲイン調整係数を1に設定することと、前記平滑化エネルギー比率γは前記低エネルギー比率閾値よりも小さい場合、前記ゲイン調整係数をKに設定することと、前記平滑化エネルギー比率γは前記低エネルギー比率閾値以上、前記高エネルギー比率閾値以下である場合、前記ゲイン調整係数をKに設定することとを含み、ここで、K>Kとする。
好ましくは、
予め設定された条件を満たすビームにより、予め選択された対象音声信号及びその方向を決定する前に、各ビームに対して適応フィルターを用いたノイズ軽減を行うことと、又は
予め選択された対象音声信号及びその方向を決定した後、前記予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うこととをさらに含む。
マイク・アレイに基づく対象音声取得装置であり、信号受信モジュールと、事前選択モ
ジュールと、ゲイン処理モジュールと、端点検出モジュールと、対象音声抽出モジュールとを含む。ここで、
前記信号受信モジュールは、マイク・アレイで収集された音声信号を受信し、前記音声信号を前記事前選択モジュールに出力し、
前記事前選択モジュールは、予め選択された対象音声信号及びその方向を決定するために使用され、
前記ゲイン処理モジュールは、前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得て、前記強指向性ゲイン信号を前記端点検出モジュールに出力し、前記弱指向性ゲイン信号を前記対象音声抽出モジュールに出力し、
前記端点検出モジュールは、前記強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を前記対象音声抽出モジュールに出力し、
前記対象音声抽出モジュールは、前記端点検出結果により前記弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る。
好ましくは、前記事前選択モジュールは音源の位置決めにより予め選択された対象音声信号及びその方向を決定する。
好ましくは、前記事前選択モジュールは、
前記音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得るビーム形成ユニットと、
前記ビーム形成ユニットから得られたさまざまな方向のビームの中から予め設定された条件を満たすビームを選択し、選択されたビームにより、前記予め選択された対象音声信号及びその方向を決定する決定ユニットとを含む。
好ましくは、前記ゲイン処理モジュールは、
強指向性ゲインの収音ゾーン角度が弱指向性ゲインの収音ゾーン角度よりも小さく、強指向性ゲインの遷移ゾーン角度が弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定する角度設定ユニットと、
前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、前記予め選択された対象音声信号の方位角を意味する音源の方位角に基づいた弱指向性ゲインを決定するゲイン計算ユニットと、
それぞれ前記音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、前記強指向性ゲイン信号及び前記弱指向性ゲイン信号を得るゲイン信号生成ユニットとを含む。
好ましくは、前記強指向性ゲインの収音ゾーン角度は前記予め選択された対象音声信号のビームメインローブの角度よりも小さい。
好ましくは、前記ゲイン処理モジュールは、
高エネルギー比率閾値及び低エネルギー比率閾値を設定するエネルギー比率閾値設定ユニットと、
前記予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算するエネルギー比率計算ユニットと、
前記平滑化エネルギー比率γ、前記高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定するゲイン調整係数決定ユニットと、
前記ゲイン調整係数によりそれぞれ前記ゲイン計算ユニットで得られた前記強指向性ゲイン及び弱指向性ゲインを調整するゲイン補正ユニットとをさらに含む。
好ましくは、前記事前選択モジュールは、
前記ビーム形成ユニットと前記決定ユニットの間に設置され、前記ビーム形成ユニットで得られた各ビームに対して適応フィルターを用いたノイズ軽減を行うノイズ軽減ユニットをさらに含み、
又は、
前記事前選択モジュールとゲインモジュールの間に設置され、前記事前選択モジュールによって決定された予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うノイズ軽減モジュールをさらに含む。
コンピュータ読取可能な記憶媒体であり、コンピュータプログラムコードを格納し、当該コンピュータプログラムコードは1つのコンピュータユニットにより、当該コンピュー
タユニットに前述のマイク・アレイに基づく対象音声取得方法のステップを実行させる。
マイク・アレイに基づく対象音声取得装置であり、プロセッサと、メモリと、システムバスとを含み、
前記プロセッサ及び前記メモリは、前記システムバスを介して接続される。
前記メモリは命令を含む1つ又は複数のプログラムを格納し、前記命令は前記プロセッ
サによって実行された時に、前述のマイク・アレイに基づく対象音声取得方法のステップを実行させる。
コンピュータプログラム製品であり、端末装置で実行された時に、前記端末装置に前述のマイク・アレイに基づく対象音声取得方法のステップを実行させる。
本出願の実施例に係るマイク・アレイに基づく対象音声取得方法及び装置は、マイク・アレイで収集された音声信号を受信し、予め選択された対象音声信号及びその方向を決定し、つぎに前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得る。強い指向性でゲインアップした音声信号に残されたノイズ信号は少ないため、前記強指向性ゲイン信号に基づき端点検出を行い、正確な端点検出結果が得られる。また弱い指向性でゲインアップした音声信号のうち、対象音声の歪みが小さいため、当該端点検出結果により、前記弱指向性ゲイン信号に対して端点処理を行い、信頼性のより高い対象音声信号が得られる。
本出願の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例に使用される図面を簡単に説明する。明らかに、下記の図面は、本出願に記載される実施例の一部に過ぎず、当業者であれば、これらの図面から他の図面を得ることができる。
本出願の実施例におけるマイク・アレイに基づく対象音声取得方法のフローチャートである。 本出願の実施例における音源の方位角に基づいて設計されるゲイン模式図である。 本出願の実施例におけるマイク・アレイに基づく対象音声取得装置の構造ブロック図である。 本出願の装置実施例におけるゲイン処理モジュールの構造模式図である。 本出願の装置実施例におけるゲイン処理モジュールの別の構造模式図である。 本出願の実施例におけるマイク・アレイに基づく対象音声取得装置の別の構造ブロック図である。
当業者が本出願の実施例の解決案をよりよく理解するため、以下の図面及び実施形態を合わせて本出願の実施例を詳細に説明する。
音声の強化は、対象音声の構造を損なわないという前提で、受信信号に含まれるノイズを低減しさらにそれを除去し、音声の明瞭度を向上させることを目的とする。このために、本出願の実施例ではマイク・アレイに基づく対象音声取得方法及び装置を提供し、マイク・アレイで受信された音声信号に基づき、予め選択された対象音声信号及びその方向を決定し、予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を取得し、強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を取得し、端点検出結果により、弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る。
図1に示すように、本出願の実施例におけるマイク・アレイに基づく対象音声取得方法のフローチャートであり、下記のステップを含む。
ステップ101:マイク・アレイで収集された音声信号を受信する。
具体的な応用において、音声信号を受信した後、それを前処理しなければならない。
音声信号x(t)を受信するM個のマイクを備えるマイク・アレイを例として取り上げると、音声信号を前処理することは、受信された音声信号を時間領域から周波数領域に変換し、周波数領域の音声信号
Figure 0007011075000001
を得ることを意味し、ここでx(k,l)はm個目のマイクで受信された周波数領域の音声信号、kは信号の周波数、lは音声フレームの番号である。
ステップ102:予め選択された対象音声信号及びその方向を決定する。
本出願の実施例において、予め選択された対象音声信号は、特定の命令語の音声信号及び/又は特定の話者の音声信号、有効な音声信号など、どのような音声信号であっても、音源の位置決め方式を用いて予め選択された対象音声信号及びその方向を決定することができる。音源の位置決めの具体的なプロセスは従来技術と同様であるため、ここでは省略する。
音源の位置決め方式を用いて予め選択された対象音声信号及びその方向を決定する前に、当該音声信号に対してノイズ軽減処理を行うこともでき、具体的には、従来技術のある特定のノイズ軽減方式を使用でき、これに対し、本出願の実施例で限定されない。
また、予め選択された対象音声信号及びその方向を決定する時に、まず音声信号にビームフォーミングを行い、さまざまな方向のビームを得てから、さまざまな方向のビームの中から予め設定された条件を満たすビームを選択し、選択されたビームにより対象音声信号及びその方向を決定する。
ビームフォーミングは具体的に従来技術(例えば、方向推定に基づく適応アルゴリズム、信号構造に基づくビーム形成方法など)を使用でき、ここで本出願の実施例で限定されない。
マイクの固定ビームフォーミングのプロセスは次の通りである。
仮にM個のマイクからN個の固定ビームを形成し、各マイクに対応するビーム形成係数は

Figure 0007011075000002
ここで、kは信号の周波数、lは音声フレームの番号とすると、固定ビームの出力は次の通りである。
Figure 0007011075000003
上述の固定ビーム形成係数は、所望方向の信号に歪みがなく、他の方向の出力信号のパワーが十分小さいという原則に基づいて算出されたものであってもよい。
説明すべき点については、実際の応用において、各ビームが得られた後も、それに対して適応フィルターを用いたノイズ軽減を行うことができる。適応フィルターを用いたノイズ軽減は、マルチチャネルの残響除去、一般化サイドローブ除去などの処理を含み、従来の他のノイズ軽減方法も採用できるため、これに対し限定されない。以下、一般化サイドローブ除去を例として説明する。
一般化サイドローブ除去の目的は非目的方向の信号を抑制することであり、具体的な実現プロセスは次の通りである。
まず、ノイズ参照信号を取得する。
Figure 0007011075000004
ここで、
Figure 0007011075000005
は(M-1)×1ベクトル、
Figure 0007011075000006
は(M-1)×1のブロッキング行列であり、所望方向の信号を最大限に抑制するという原則に基づいて得られ、当該行列は、対象信号を除去したノイズ参考信号を取得するために使用される。
その後、固定ビーム信号からノイズ信号を除去し、固定ビーム信号のノイズ信号は、ノイズ参照信号に係数をかけて得られ、最終な所望ビーム信号は次の通りである。
Figure 0007011075000007
ここで、
Figure 0007011075000008
はフィルター係数であり、正規化線形最小平均二乗誤差(LMS)アルゴリズムにより更新して得られる。
上述したように、本出願の実施例において、予め選択された対象音声信号は、特定の命令語の音声信号及び/又は特定の話者の音声信号であってもよい。この場合は、各ビームに対して、特定の命令語及び/又は声紋認識を行い、特定の命令語及び/又は特定の話者を識別した後、予め設定された条件を満たす識別結果を選別する。例えば、予め選択された対象音声信号として点数が一番高いビームを選別し、それに対し、当該ビームの方向を、予め選択された対象音声信号の方向とする。予め選択された対象音声信号が有効な音声信号である場合、各ビームに対して設定基準に基づいて予め選択された対象音声を選別してその対応方向を決定することができる。設定基準は、「エネルギーが一番高い」及び「信号対雑音比が一番高い」のいずれかの1つ又はそれらの組み合わせであってもよい。
説明すべき点については、上述の音声信号の適応フィルターを用いたノイズ軽減におけるマルチチャネルの残響除去、一般化サイドローブ除去などのステップは、方位の決定精度が許容される場合、対象音声方向を決定した後に行われ、すなわち、予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うことができ、これについては、本出願の実施例で限定されない。
ステップ103:予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得る。
GSC(Generalized Sidelobe Canceller、一般化サイドローブキャンセラ)は目的方向でないノイズを抑制する時に通常、目的方向でない一部のノイズだけを抑制し、指向性ゲイン処理によりノイズをさらに抑制することができる。
このために、本出願の実施例において、2つの強度の指向性ゲインにより、それぞれ強い指向性でゲイン処理をした音声信号(すなわち、強指向性ゲイン信号)及び弱い指向性でゲイン処理をした音声信号(すなわち、弱指向性ゲイン信号)が得られる。ゲイン処理で得られた強指向性ゲイン信号に残されたノイズ信号は少ないが、対象音声信号に比較的に大きな歪みがあり、一方、弱指向性ゲイン信号の属性は逆である。
ゲイン処理は次の通りである。
1)強指向性ゲインの収音ゾーン角度が、弱指向性ゲインの収音ゾーン角度よりも小さく、強指向性ゲインの遷移ゾーン角度が、弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定する。
2)強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、予め選択された対象音声信号の方位角を意味する音源の方位角に基づいた弱指向性ゲインを決定する。
3)それぞれ音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得る。
異なる干渉状況において予め選択された対象音声信号への影響を考慮し、上述のステップ2とステップ3の間で、音源の方位角に基づく強指向性ゲイン及び弱指向性ゲインを調整するステップをさらに含むこともでき、それに対し、ステップ3において調整された強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得る。
指向性ゲインは次の式で表される。
Figure 0007011075000009
ここで、g(θ,l)は音源の方位角θに基づいて設計されたゲインである。図2に示すように、θは音源の方位角、すなわち、予め選択された対象音声信号の方位角である。-T1からT1までの領域は収音ゾーン、T1からT2までの領域、及び-T2から-T1までの領域は遷移ゾーン、T2より大きい領域と-T2より小さい領域とは非収音ゾー
ンである。
説明すべき点については、強指向性ゲイン及び弱指向性ゲインの区別はT1とT2の数値である。
強指向性ゲインの場合は、遷移ゾーンをできるだけ狭くし、非収音ゾーンのゲインをできるだけ小さくして0に近づけるよう、T1は小さい値を取り(一般的に、目的ビームメインローブの角度よりも小さい。実際の応用状況によって決定する)、T2はT1にできるだけ近い値を取る。収音ゾーンが小さく、その同時に遷移ゾーンが狭くするように設計される場合、対象音声の歪みが発生しやすくなるが、強い指向性でゲイン処理をして得られた強指向性ゲイン信号はその後の対象音声の開始点と終了点での検出に使用され、歪みによる影響がない。
弱指向性ゲインの場合は、音源を間違って推定する時に、対象音声の成分が過度に抑圧されないように、T1は強指向性ゲインより大きい値を取り、一般的に目的ビームメインローブの角度(実際の応用状況によって決定する)以下とするが、T2はできるだけ大きく設計される。
さらに、異なる干渉状況において予め選択された対象音声信号への影響を考慮し、音源の方位角に基づく強指向性ゲイン及び弱指向性ゲインを調整することができる。ゲインの調整処理は次の通りである。
まず、予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算し、平滑化エネルギー比率γ及び予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定する。このため、平滑化エネルギー比率によってゲイン調整係数が与えられ、その後にゲイン調整係数により、それぞれ強指向性ゲイン及び弱指向性ゲインを調整する。
平滑化エネルギー比率γは、通常の平滑化方法により計算される。例えば、次の式で算出する。
Figure 0007011075000010
ここで、∂とβは重み係数であり、∂+β=1とし、その値は実際の応用状況によって決定され、例えば、それぞれ0.9と0.1とする。Ytarget(k,l)は予め選択された対象信号、Yinterfere(k,l)は干渉信号である。
平滑化エネルギー比率γは高エネルギー比率閾値よりも大きい場合、ゲイン調整係数を1に設定する。平滑化エネルギー比率γは低エネルギー比率閾値よりも小さい場合、ゲイン調整係数をKに設定する。平滑化エネルギー比率γは低エネルギー比率閾値以上、高エネルギー比率閾値以下である場合、ゲイン調整係数をKに設定する。ここで、K>Kとする。
例えば、強指向性ゲイン及び弱指向性ゲインの具体的な調整式は次の通りである。
Figure 0007011075000011
ここで、
Figure 0007011075000012
はそれぞれ強指向性ゲイン及び弱指向性ゲインとする。γ(k,l)は周波数がkのl番目のフレームにおける予め選択された対象信号及び干渉信号の平滑化エネルギーの比率であり、干渉信号は他のビームのうち、エネルギーが一番大きなビームを選択できる。γhigh、γlowはそれぞれ高エネルギー比率の閾値、低エネルギー比率の閾値であり、その値は実際の応用状況によって決定され、例えば、それぞれ4と0.4とする。Kは補正係数であり、主に弱指向性でゲインアップする時に、double-talk(双方向通話)がある場合、ゲインを補正する。一般的に、0.2のような小さい値を取る。
強指向性ゲインと弱指向性ゲインを決定した後、ゲインアップした2つの信号(すなわち、強指向性ゲイン信号及び弱指向性ゲイン信号)を得る。
Figure 0007011075000013
ここで、Y(k,l)は予め選択された対象音声信号であり、Y(k,l)とY(k,l)はそれぞれ強指向性ゲイン信号及び弱指向性ゲイン信号である。
ステップ104:強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を得る。
端点検出は、音声を含む信号から音声の開始点と終了点を正確的に決定し、さらに音声と非音声信号を決定する。有効な端点検出は、音声識別、処理などの応用でデータの収集量を減らすだけではなく、無音声区間とノイズ区間の干渉を除去し、有効な音声信号を得る。具体的な端点検出は、短時間エネルギーと短時間平均ゼロクロス率に基づく端点検出、ケプストラム特徴に基づく端点検出、エントロピーに基づく端点検出などの従来技術を採用することができる。
ステップ105:端点検出結果により、弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る。
つまり、ステップ105で得られた音声の開始点と終了点の位置により、弱指向性ゲイン信号から最終対象音声信号を得る。
本出願の実施例に係るマイク・アレイに基づく対象音声取得方法は、マイク・アレイで収集された音声信号を受信し、予め選択された対象音声信号及びその方向を決定し、予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得る。強い指向性でゲインアップした音声信号に残されたノイズ信号が少ないため、強指向性ゲイン信号に基づき端点検出を行い、正確な端点検出結果が得られる。また弱い指向性でゲインアップした音声信号のうち、対象音声の歪みが小さいため、当該端点検出結果により、弱指向性ゲイン信号に対して端点処理を行い、信頼性のより高い対象音声信号が得られる。
それに対応し、本出願の実施例では、コンピュータプログラムコードを格納するコンピュータ読取可能な記憶媒体も提供し、当該コンピュータプログラムコードは1つのコンピュータユニットにより、当該コンピュータユニットに本出願の実施例におけるマイク・アレイに基づく対象音声取得方法の各ステップを実行させる。
それはマイク・アレイに基づく対象音声取得装置であり、プロセッサと、メモリと、システムバスとを含み、
プロセッサ及びメモリは、システムバスを介して接続される。
メモリは命令を含む1つ又は複数のプログラムを格納し、命令はプロセッサによって、プロセッサに本出願の実施例におけるマイク・アレイに基づく対象音声取得方法の各ステップを実行させる。
それに対応し、本出願の実施例では、コンピュータプログラム製品も提供し、当該コンピュータプログラム製品は端末装置で実行された時に、当該端末装置に本出願の実施例におけるマイク・アレイに基づく対象音声取得方法の各ステップを実行させる。
それに対応し、本出願の実施例では、マイク・アレイに基づく対象音声取得装置も提供する。図3は当該装置の構造ブロック図であり、信号受信モジュール301、事前選択モジュール302、ゲイン処理モジュール303、端点検出モジュール304、対象音声抽出モジュール305を含む。ここで、
信号受信モジュール301は、マイク・アレイで収集された音声信号を受信し、当該音声信号を事前選択モジュール302に出力し、
事前選択モジュール302は、当該音声信号により予め選択された対象音声信号及びその方向を決定し、
ゲイン処理モジュール303は、予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得て、当該強指向性ゲイン信号を端点検出モジュール304に出力し、当該弱指向性ゲイン信号を対象音声抽出モジュール305に出力し、
端点検出モジュール304は、当該強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を対象音声抽出モジュール305に出力し、
対象音声抽出モジュール305は、端点検出結果により当該弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る。
実際の応用において、信号受信モジュール301は、受信する音声信号をさらに前処理しなければならない。音声信号を前処理することは、主に受信された音声信号を時間領域から周波数領域に変換し、周波数領域の音声信号を得ることである。
本出願の一実施例において、事前選択モジュール302は、音源の位置決めにより、予め選択された対象音声信号及びその方向を決定することができる。
本出願の別の実施例において、事前選択モジュール302は、まず音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得た後、予め設定された条件を満たすビームを選択し、選択されたビームにより対象音声信号及びその方向を決定することができる。それに対応し、当該実施例において、事前選択モジュール302は以下2つのユニットを含むことができる。
ビーム形成ユニット:音声信号に対してビームフォーミング(例えば、方向推定に基づく適応アルゴリズム、信号構造に基づくビーム形成方法などの従来技術を採用できる)を行い、さまざまな方向のビームを得る。
決定ユニット:ビーム形成ユニットから得られたさまざまな方向のビームの中から予め設定された条件を満たすビームを選択し、選択されたビームにより、予め選択された対象音声信号及びその方向を決定する。
例えば、予め選択された対象音声信号は、特定の命令語の音声信号及び/又は特定の話者の音声信号であってもよい。この場合は、決定ユニットは、各ビームに対して、特定の命令語及び/又は声紋認識を行うことができ、特定の命令語及び/又は特定の話者を識別した後、予め設定された条件を満たす識別結果を選別する。例えば、予め選択された対象音声信号として点数が一番高いビームを選別し、それに対応し、当該ビームの方向を、予め選択された対象音声信号の方向とする。
他の例として、予め選択された対象音声信号は有効な音声信号であり、この場合、決定ユニットは各ビームに対して設定基準に基づいて予め選択された対象音声を選別してその対応方向を決定することができる。設定基準は、「エネルギーが一番高い」及び「信号対雑音比が一番高い」のいずれかの1つ又はそれらの組み合わせであってもよい。
説明すべき点については、上述のビーム形成ユニットと決定ユニットの間にノイズ軽減ユニットを設置することもでき、ビーム形成ユニットで得られた各ビームに対して適応フィルターを用いたノイズ軽減を行い、適応フィルターを用いたノイズ軽減は、マルチチャネルの残響除去及び一般化サイドローブ除去のいずれかの1つ又は複数を含む。
図4は本出願の装置実施例におけるゲイン処理モジュールの構造模式図である。
当該実施例において、ゲイン処理モジュールは、
強指向性ゲインの収音ゾーン角度が弱指向性ゲインの収音ゾーン角度よりも小さく、強指向性ゲインの遷移ゾーン角度が弱指向性ゲインの遷移ゾーン角度よりも小さく、強指向性ゲインの収音ゾーン角度は予め選択された対象音声信号のビームメインローブの角度よりも小さくなるように、強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定する角度設定ユニット41と、
強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、予め選択された対象音声信号の方位角を意味する音源の方位角に基づいた弱指向性ゲインを決定するゲイン計算ユニット42と、
それぞれ音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得るゲイン信号生成ユニット43とを含む。
図5は本出願の装置実施例におけるゲイン処理モジュールの別の構造模式図である。
図4に示す実施例と比べ、当該実施例において、ゲイン処理モジュールは、
高エネルギー比率閾値及び低エネルギー比率閾値を設定するエネルギー比率閾値設定ユニット51と、
予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算するエネルギー比率計算ユニット52と、
平滑化エネルギー比率γ、高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定するゲイン調整係数決定ユニット53と、
ゲイン調整係数によりそれぞれゲイン計算ユニット42で得られた強指向性ゲイン及び弱指向性ゲインを調整するゲイン補正ユニット54とをさらに含む。
それに対応し、当該実施例において、ゲイン信号生成ユニット43は、ゲイン補正ユニット54で調整された強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得る必要がある。
もちろん、実際の応用において、上述の角度設定ユニット41とエネルギー比率閾値設定ユニット51は独立したもの及び一体化したもののいずれもよく、これに対し、本出願
の実施例で限定されない。
図6は当該装置の別の構造ブロック図であり、図3に示す実施例と比べ、当該実施例において、当該装置は、事前選択モジュール302とゲインモジュール303の間に設置され、事前選択モジュール302によって決定された予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うノイズ軽減モジュール306をさらに含む。上記の適応フィルターを用いたノイズ軽減処理はマルチチャネル残響除去、一般化サイドローブキャンセラなどの処理が挙げられ、もちろん、従来技術の他のノイズ軽減処理を含むことができ、これに対し、本出願の実施例で限定されない。
本出願の実施例に係るマイク・アレイに基づく対象音声取得装置は、マイク・アレイで収集された音声信号に基づき、予め選択された対象音声信号及びその方向を決定し、つぎに予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得る。強い指向性でゲインアップした音声信号に残されたノイズ信号が少ないため、当該強指向性ゲイン信号に基づき端点検出を行い、正確な端点検出結果が得られる。また弱い指向性でゲインアップした音声信号のうち、対象音声の歪みが小さいため、当該端点検出結果により、当該弱指向性ゲイン信号に対して端点処理を行い、信頼性のより高い対象音声信号が得られる。
本明細書の各実施例はプログレッシブな方式で記載し、各実施例間の同一・類似する部分は互いに参照でき、各実施例はその他の実施例との相違点について重点を置いて記載される。また、以上のように記載される装置の実施例は例示的なものであり、ここで、分割部品として述べられたユニットは物理的な分割であっても、なくてもよい。ユニットとして示される部品は物理的なユニットであっても、なくてもよい。また、1つの箇所に位置するか、複数のネットワークユニットに分散する場合がある。実際のニーズに応じて、その一部又は全部のモジュールを選択して、本実施例の解決案の目的を果たすことができる。当業者であれば、創造的な労働をせずに容易に理解して実施することができる。
以上、本出願の実施例を詳細に説明し、本文では具体的な実施形態を用い本出願を説明し、以上の実施例の説明は本出願を理解するための方法及び装置である。また、当業者にとっては、本出願のアイデアに基づき具体的な実施形態及び応用範囲を変更することができ、以上のころから、本明細書の内容は本出願への制限と理解すべきではない。

Claims (18)

  1. マイク・アレイに基づく対象音声取得方法であって、
    マイク・アレイで収集された音声信号を受信することと、
    予め選択された対象音声信号及びその方向を決定することと、
    前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることと、
    前記強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を得ることと、
    前記端点検出結果により、前記弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得ることとを含む、
    ことを特徴とする方法。
  2. 前記予め選択された対象音声信号及びその方向を決定することは、
    音源の位置決めにより予め選択された対象音声信号及びその方向を決定することを含む、
    ことを特徴とする請求項1記載の方法。
  3. 前記予め選択された対象音声信号及びその方向を決定することは、
    前記音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得ることと、
    前記さまざまな方向のビームの中から、予め設定された条件を満たすビームを選択し、選択されたビームにより、対象音声信号及びその方向を決定することとを含む、
    ことを特徴とする請求項1記載の方法。
  4. 前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることは、
    強指向性ゲインの収音ゾーン角度が弱指向性ゲインの収音ゾーン角度よりも小さく、前記強指向性ゲインの遷移ゾーン角度が前記弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定することと、
    強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、前記音源の方位角に基づいた弱指向性ゲインを決定し、前記音源の方位角とは、前記予め選択
    された対象音声信号の方位角であることと、
    それぞれ前記音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、強指向性ゲイン信号及び弱指向性ゲイン信号を得ることとを含む、
    ことを特徴とする請求項1記載の方法。
  5. 前記強指向性ゲインの収音ゾーン角度は前記予め選択された対象音声信号のビームメインローブの角度よりも小さい、
    ことを特徴とする請求項4に記載の方法。
  6. 前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得ることは、
    前記予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算することと、前記平滑化エネルギー比率γ、予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定することと、
    前記ゲイン調整係数によりそれぞれ前記強指向性ゲイン及び弱指向性ゲインを調整することとをさらに含む、
    ことを特徴とする請求項4記載の方法。
  7. 前記平滑化エネルギー比率γ、予め設定された高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定することは、
    前記平滑化エネルギー比率γは前記高エネルギー比率閾値よりも大きい場合、前記ゲイン調整係数を1に設定することと、前記平滑化エネルギー比率γは前記低エネルギー比率閾値よりも小さい場合、前記ゲイン調整係数をKに設定することと、前記平滑化エネルギー比率γは前記低エネルギー比率閾値以上、前記高エネルギー比率閾値以下である場合、前記ゲイン調整係数をKに設定することとを含み、K>Kとする、
    ことを特徴とする請求項6に記載の方法。
  8. 予め設定された条件を満たすビームにより、予め選択された対象音声信号及びその方向を決定する前に、各ビームに対して適応フィルターを用いたノイズ軽減を行うこと、
    又は、
    予め選択された対象音声信号及びその方向を決定した後、前記予め選択された対象音声信号に対して適応フィルターを用いたノイズ軽減を行うことをさらに含む、
    ことを特徴とする請求項3に記載の方法。
  9. マイク・アレイに基づく対象音声取得装置であって、信号受信モジュールと、事前選択モジュールと、ゲイン処理モジュールと、端点検出モジュールと、対象音声抽出モジュールとを含み、
    前記信号受信モジュールは、マイク・アレイで収集された音声信号を受信し、前記音声信号を前記事前選択モジュールに出力し、
    前記事前選択モジュールは、予め選択された対象音声信号及びその方向を決定するために使用され、
    前記ゲイン処理モジュールは、前記予め選択された対象音声信号を、強指向性ゲイン処理及び弱指向性ゲイン処理をして、それぞれ強指向性ゲイン信号及び弱指向性ゲイン信号を得て、前記強指向性ゲイン信号を前記端点検出モジュールに出力し、前記弱指向性ゲイン信号を前記対象音声抽出モジュールに出力し、
    前記端点検出モジュールは、前記強指向性ゲイン信号に基づき端点検出を行い、端点検出結果を前記対象音声抽出モジュールに出力し、
    前記対象音声抽出モジュールは、前記端点検出結果により前記弱指向性ゲイン信号に対して端点処理を行い、最終対象音声信号を得る、
    ことを特徴とする装置。
  10. 前記事前選択モジュールは、音源の位置決めにより予め選択された対象音声信号及びその方向を決定する、
    ことを特徴とする請求項9に記載の装置。
  11. 前記事前選択モジュールは、
    前記音声信号に対してビームフォーミングを行い、さまざまな方向のビームを得るビーム形成ユニットと、
    前記ビーム形成ユニットから得られたさまざまな方向のビームの中から予め設定された条件を満たすビームを選択し、選択されたビームにより、前記予め選択された対象音声信号及びその方向を決定する決定ユニットとを含む、
    ことを特徴とする請求項9に記載の装置。
  12. 前記ゲイン処理モジュールは、
    強指向性ゲインの収音ゾーン角度が弱指向性ゲインの収音ゾーン角度よりも小さく、強指向性ゲインの遷移ゾーン角度が弱指向性ゲインの遷移ゾーン角度よりも小さくなるように、前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度、及び前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度を設定する角度設定ユニットと、
    前記強指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、音源の方位角に基づいた強指向性ゲインを決定し、前記弱指向性ゲインの収音ゾーン角度と遷移ゾーン角度により、前記音源の方位角に基づいた弱指向性ゲインを決定するゲイン計算ユニットであって、前記音源の方位角とは、前記予め選択された対象音声信号の方位角であるゲイン計算ユニットと、
    それぞれ前記音源の方位角に基づいた強指向性ゲイン及び弱指向性ゲインにより、前記強指向性ゲイン信号及び前記弱指向性ゲイン信号を得るゲイン信号生成ユニットとを含む、
    ことを特徴とする請求項9に記載の装置。
  13. 前記強指向性ゲインの収音ゾーン角度は前記予め選択された対象音声信号のビームメインローブの角度よりも小さい、
    ことを特徴とする請求項12に記載の装置。
  14. 前記ゲイン処理モジュールは、
    高エネルギー比率閾値及び低エネルギー比率閾値を設定するエネルギー比率閾値設定ユニットと、
    前記予め選択された対象信号及び干渉信号の平滑化エネルギー比率γを計算するエネルギー比率計算ユニットと、
    前記平滑化エネルギー比率γ、前記高エネルギー比率閾値及び低エネルギー比率閾値によりゲイン調整係数を決定するゲイン調整係数決定ユニットと、
    前記ゲイン調整係数によりそれぞれ前記ゲイン計算ユニットで得られた前記強指向性ゲイン及び弱指向性ゲインを調整するゲイン補正ユニットとをさらに含む、
    ことを特徴とする請求項12に記載の装置。
  15. 前記事前選択モジュールは、
    前記ビーム形成ユニットと前記決定ユニットの間に設置され、前記ビーム形成ユニットで得られた各ビームに対して適応フィルターを用いたノイズ軽減を行うノイズ軽減ユニットをさらに含み、
    又は、
    前記事前選択モジュールとゲインモジュールの間に設置され、前記事前選択モジュールによって決定された予め選択された対象音声信号に対して適応フィルターを用いたノイズ
    軽減を行うノイズ軽減モジュールをさらに含む、
    ことを特徴とする請求項11に記載の装置。
  16. 1つのコンピュータユニットによって実行されることで、当該コンピュータユニットに請求項1ないし8のいずれかの1項に記載のマイク・アレイに基づく対象音声取得方法のステップを実行させるコンピュータプログラムコードを格納する、
    ことを特徴とするコンピュータ読取可能な記憶媒体。
  17. マイク・アレイに基づく対象音声取得装置であって、プロセッサと、メモリと、システムバスとを含み、
    前記プロセッサ及び前記メモリは、前記システムバスを介して接続され、
    前記メモリは、命令を含む1つ又は複数のプログラムを格納し、前記命令は前記プロセッサによって実行された時に、前記プロセッサに請求項1ないし8のいずれかの1項に記載の方法を実行させる、
    ことを特徴とする対象音声取得装置。
  18. コンピュータプログラムであって、端末装置で実行される時に、前記端末装置に請求項1ないし8のいずれかの1項に記載の方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2020542484A 2017-10-23 2018-07-16 マイク・アレイに基づく対象音声取得方法及び装置 Active JP7011075B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710994211.5A CN107742522B (zh) 2017-10-23 2017-10-23 基于麦克风阵列的目标语音获取方法及装置
CN201710994211.5 2017-10-23
PCT/CN2018/095765 WO2019080553A1 (zh) 2017-10-23 2018-07-16 基于麦克风阵列的目标语音获取方法及装置

Publications (2)

Publication Number Publication Date
JP2021500634A JP2021500634A (ja) 2021-01-07
JP7011075B2 true JP7011075B2 (ja) 2022-01-26

Family

ID=61238104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020542484A Active JP7011075B2 (ja) 2017-10-23 2018-07-16 マイク・アレイに基づく対象音声取得方法及び装置

Country Status (9)

Country Link
US (1) US11081123B2 (ja)
EP (1) EP3703053B1 (ja)
JP (1) JP7011075B2 (ja)
KR (1) KR102469516B1 (ja)
CN (1) CN107742522B (ja)
ES (1) ES2967132T3 (ja)
HU (1) HUE065302T2 (ja)
PL (1) PL3703053T3 (ja)
WO (1) WO2019080553A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742522B (zh) 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN108735227B (zh) * 2018-06-22 2020-05-19 北京三听科技有限公司 对麦克风阵列拾取的语音信号进行声源分离的方法及***
CN108962226B (zh) * 2018-07-18 2019-12-20 百度在线网络技术(北京)有限公司 用于检测语音的端点的方法和装置
CN110875056B (zh) * 2018-08-30 2024-04-02 阿里巴巴集团控股有限公司 语音转录设备、***、方法、及电子设备
CN109243457B (zh) * 2018-11-06 2023-01-17 北京如布科技有限公司 基于语音的控制方法、装置、设备及存储介质
CN109545242A (zh) * 2018-12-07 2019-03-29 广州势必可赢网络科技有限公司 一种音频数据处理方法、***、装置及可读存储介质
CN111627425B (zh) * 2019-02-12 2023-11-28 阿里巴巴集团控股有限公司 一种语音识别方法及***
CN110310625A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 语音断句方法及***
CN112216298B (zh) * 2019-07-12 2024-04-26 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备
CN110517677B (zh) * 2019-08-27 2022-02-08 腾讯科技(深圳)有限公司 语音处理***、方法、设备、语音识别***及存储介质
CN110415718B (zh) * 2019-09-05 2020-11-03 腾讯科技(深圳)有限公司 信号生成的方法、基于人工智能的语音识别方法及装置
CN110517702B (zh) * 2019-09-06 2022-10-04 腾讯科技(深圳)有限公司 信号生成的方法、基于人工智能的语音识别方法及装置
CN110619895A (zh) * 2019-09-06 2019-12-27 Oppo广东移动通信有限公司 定向发声控制方法及装置、发声设备、介质和电子设备
CN111243615B (zh) * 2020-01-08 2023-02-10 环鸿电子(昆山)有限公司 麦克风阵列信号处理方法及手持式装置
CN113141285B (zh) * 2020-01-19 2022-04-29 海信集团有限公司 一种沉浸式语音交互方法及***
CN111161748B (zh) * 2020-02-20 2022-09-23 百度在线网络技术(北京)有限公司 一种双讲状态检测方法、装置以及电子设备
CN113393856B (zh) * 2020-03-11 2024-01-16 华为技术有限公司 拾音方法、装置和电子设备
CN111429905B (zh) * 2020-03-23 2024-06-07 北京声智科技有限公司 语音信号处理方法、装置、语音智能电梯、介质和设备
CN113496708B (zh) * 2020-04-08 2024-03-26 华为技术有限公司 拾音方法、装置和电子设备
CN111627456B (zh) * 2020-05-13 2023-07-21 广州国音智能科技有限公司 噪音排除方法、装置、设备及可读存储介质
USD958435S1 (en) * 2020-07-17 2022-07-19 Aiping GUO Motion sensor ceiling light
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN112333602B (zh) * 2020-11-11 2022-08-26 支付宝(杭州)信息技术有限公司 信号处理方法、信号处理设备、计算机可读存储介质及室内用播放***
CN112562681B (zh) * 2020-12-02 2021-11-19 腾讯科技(深圳)有限公司 语音识别方法和装置、存储介质
CN112735461B (zh) * 2020-12-29 2024-06-07 西安讯飞超脑信息科技有限公司 拾音方法以及相关装置、设备
CN112908310A (zh) * 2021-01-20 2021-06-04 宁波方太厨具有限公司 一种智能电器中的语音指令识别方法及识别***
CN113053406B (zh) * 2021-05-08 2024-06-18 北京小米移动软件有限公司 声音信号识别方法及装置
WO2023085749A1 (ko) * 2021-11-09 2023-05-19 삼성전자주식회사 빔포밍을 제어하는 전자 장치 및 이의 동작 방법
CN114245266B (zh) * 2021-12-15 2022-12-23 苏州蛙声科技有限公司 小型麦克风阵列设备的区域拾音方法及***
CN116168719A (zh) * 2022-12-26 2023-05-26 杭州爱听科技有限公司 一种基于语境分析的声音增益调节方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005520211A (ja) 2002-03-05 2005-07-07 アリフコム ノイズ抑制システムと共に用いるための発声活動検出(vad)デバイスおよび方法
JP2007086554A (ja) 2005-09-26 2007-04-05 Toshiba Tec Corp 音声認識装置及び音声認識処理用プログラム
JP2011244232A (ja) 2010-05-19 2011-12-01 Fujitsu Ltd マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP2011257627A (ja) 2010-06-10 2011-12-22 Murata Mach Ltd 音声認識装置と認識方法
JP2014514794A (ja) 2011-03-03 2014-06-19 クゥアルコム・インコーポレイテッド 可聴音と超音波とを用いたソース特定のためのシステム、方法、装置、およびコンピュータ可読媒体
US20200342887A1 (en) 2017-10-23 2020-10-29 Iflytek Co., Ltd. Microphone array-based target voice acquisition method and device

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
EP1923866B1 (en) * 2005-08-11 2014-01-01 Asahi Kasei Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program
JP4096104B2 (ja) * 2005-11-24 2008-06-04 国立大学法人北陸先端科学技術大学院大学 雑音低減システム及び雑音低減方法
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
CN101510426B (zh) * 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及***
CN102196109B (zh) * 2010-03-01 2013-07-31 联芯科技有限公司 一种残留回声检测方法和***
JP2012150237A (ja) 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
US9100735B1 (en) * 2011-02-10 2015-08-04 Dolby Laboratories Licensing Corporation Vector noise cancellation
CN103248992B (zh) * 2012-02-08 2016-01-20 中国科学院声学研究所 一种基于双麦克风的目标方向语音活动检测方法及***
KR20130101943A (ko) * 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
CN102800325A (zh) * 2012-08-31 2012-11-28 厦门大学 一种超声波辅助麦克风阵列语音增强装置
CN102969002B (zh) 2012-11-28 2014-09-03 厦门大学 一种可抑制移动噪声的麦克风阵列语音增强装置
JP6107151B2 (ja) * 2013-01-15 2017-04-05 富士通株式会社 雑音抑圧装置、方法、及びプログラム
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
CN104103277B (zh) * 2013-04-15 2017-04-05 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN103426440A (zh) 2013-08-22 2013-12-04 厦门大学 利用能量谱熵空间信息的语音端点检测装置及其检测方法
CN103544959A (zh) * 2013-10-25 2014-01-29 华南理工大学 一种基于无线定位麦克风阵列语音增强的通话***及方法
CN104091593B (zh) * 2014-04-29 2017-02-15 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN104038880B (zh) * 2014-06-26 2017-06-23 南京工程学院 一种双耳助听器语音增强方法
CN105489224B (zh) * 2014-09-15 2019-10-18 讯飞智元信息科技有限公司 一种基于麦克风阵列的语音降噪方法及***
WO2016076237A1 (ja) * 2014-11-10 2016-05-19 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
CN104936091B (zh) * 2015-05-14 2018-06-15 讯飞智元信息科技有限公司 基于圆形麦克风阵列的智能交互方法及***
KR102444061B1 (ko) * 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN106255026A (zh) * 2016-08-08 2016-12-21 浙江大学 基于语音模式识别和振动反馈的助残装置及交互方法
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107146614B (zh) * 2017-04-10 2020-11-06 北京猎户星空科技有限公司 一种语音信号处理方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005520211A (ja) 2002-03-05 2005-07-07 アリフコム ノイズ抑制システムと共に用いるための発声活動検出(vad)デバイスおよび方法
JP2007086554A (ja) 2005-09-26 2007-04-05 Toshiba Tec Corp 音声認識装置及び音声認識処理用プログラム
JP2011244232A (ja) 2010-05-19 2011-12-01 Fujitsu Ltd マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP2011257627A (ja) 2010-06-10 2011-12-22 Murata Mach Ltd 音声認識装置と認識方法
JP2014514794A (ja) 2011-03-03 2014-06-19 クゥアルコム・インコーポレイテッド 可聴音と超音波とを用いたソース特定のためのシステム、方法、装置、およびコンピュータ可読媒体
US20200342887A1 (en) 2017-10-23 2020-10-29 Iflytek Co., Ltd. Microphone array-based target voice acquisition method and device

Also Published As

Publication number Publication date
EP3703053A1 (en) 2020-09-02
US20200342887A1 (en) 2020-10-29
JP2021500634A (ja) 2021-01-07
US11081123B2 (en) 2021-08-03
ES2967132T3 (es) 2024-04-26
EP3703053C0 (en) 2023-10-18
CN107742522A (zh) 2018-02-27
KR102469516B1 (ko) 2022-11-21
EP3703053B1 (en) 2023-10-18
CN107742522B (zh) 2022-01-14
WO2019080553A1 (zh) 2019-05-02
PL3703053T3 (pl) 2024-03-11
HUE065302T2 (hu) 2024-05-28
EP3703053A4 (en) 2021-07-21
KR20200066366A (ko) 2020-06-09

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US8891785B2 (en) Processing signals
CN102164328B (zh) 一种用于家庭环境的基于传声器阵列的音频输入***
CN112424863B (zh) 语音感知音频***及方法
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
CN108766456B (zh) 一种语音处理方法及装置
WO2015196760A1 (zh) 一种麦克风阵列语音检测方法及装置
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN111435598B (zh) 语音信号处理方法、装置、计算机可读介质及电子设备
CN111063366A (zh) 降低噪声的方法、装置、电子设备及可读存储介质
CN106031196B (zh) 信号处理装置、方法以及程序
CN112242148B (zh) 一种基于头戴式耳机的风噪抑制方法及装置
CN110660404B (zh) 基于零陷滤波预处理的语音通信和交互应用***、方法
CN115457971A (zh) 一种降噪方法、电子设备及存储介质
CN112735370B (zh) 一种语音信号处理方法、装置、电子设备和存储介质
US11483646B1 (en) Beamforming using filter coefficients corresponding to virtual microphones
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN114724574A (zh) 一种期望声源方向可调的双麦克风降噪方法
CN111048096B (zh) 一种语音信号处理方法、装置及终端
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
US10692514B2 (en) Single channel noise reduction
CN112785997B (zh) 一种噪声估计方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210427

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220113

R150 Certificate of patent or registration of utility model

Ref document number: 7011075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150