JP2017129860A

JP2017129860A - 音声ウェイクアップ方法及び装置

Info

Publication number: JP2017129860A
Application number: JP2017005092A
Authority: JP
Inventors: タン，リリァン; Liliang Tang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2016-01-20
Filing date: 2017-01-16
Publication date: 2017-07-27
Anticipated expiration: 2037-01-16
Also published as: US20170206895A1; US10482879B2; CN105741838B; KR20170087390A; KR101922776B1; JP6453917B2; CN105741838A

Abstract

【課題】処理過程を最適化し、正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる音声ウェイクアップ方法及び装置を提供する。【解決手段】ユーザーが入力した音声を取得するステップと、フレームスキップ策略を使用して音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムによりデータフレームに対して音声アクティビティ検出を行うステップと、音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて音声学特徴に対して音声認識を行うステップと、音声が認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行うステップと、を含む。【選択図】図１

Description

本出願は、音声認識処理技術に関し、特に音声ウェイクアップ方法及び装置に関する。

音声ウェイクアップ技術は、音声認識技術の重要な分岐であり、音声ウェイクアップ技術は、ユーザーの音声を傍受することにより、ユーザーが指定ウェイクアップワードを語るか否かを判断して、設備を作動させる。現在、車載、ナビゲーション、スマートホーム等の方面で重要な応用があり、声でプログラムまたはサービスを作動させる。

現在の音声ウェイクアップ手段は、主にジャンクワードネットワークに依存して音声ウェイクアップし、即ち一部のジャンクワード及びウェイクアップワードを選定して認識ネットワークを構築し、最終認識結果を得る。

但し、音声ウェイクアップ技術は、音声に対する長期的な傍受を必要とし、録音設備をつけ、且つ設備を長い期間運算状態に処させるべきである。然しながら、現在の音声ウェイクアップ技術の認識ネットワーク及びウェイクアップネットワークは、構造が複雑であり、音声アクティビティ検出、デコーディング等の過程における計算量が大きい。従って、設備の電力消耗が大きくさせ、音声に対する長期的な傍受を満たすことができなく、処理性能を下げる。

本出願は、相関技術における技術問題のうち一つを少なくともある程度解決しようとする。

このため、本出願の第一の目的は、音声ウェイクアップ方法を提供することであり、当該方法は音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。

本出願の第二の目的は、音声ウェイクアップ装置を提供することである。

上記の目的を達成するために、本出願の第１の方面の実施例が提供する音声ウェイクアップ方法は、ユーザーが入力した音声を取得するステップと、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行うステップと、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行うステップと、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行うステップと、を含む。

本出願の実施例の音声ウェイクアップ方法は、ユーザーが入力した音声を取得することにより、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出し、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識し、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。

前記目的を達成するために、本出願の第２の方面の実施例が提供する音声ウェイクアップ装置は、ユーザーが入力した音声を取得する取得モジュールと、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行う音声アクティビティ検出モジュールと、前記音声の音声学特徴を抽出する抽出モジュールと、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行う認識モジュールと、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う処理モジュールと、を含む。

本出願の実施例の音声ウェイクアップ装置は、ユーザーが入力した音声を取得することにより、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行い、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行い、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。

本発明において、上記の及び/又は付加された方面及び利点は、下記図面を結合して実施例について説明しながら明らかになり、理解されることが容易になる。その中で、

本出願の一つの実施例の音声ウェイクアップ方法のフローチャートである。本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。本出願の一つの実施例の音声ウェイクアップ装置の構造図である。本出願のもう一つの実施例の音声ウェイクアップ装置の構造図である。本出願のもう一つの実施例の音声ウェイクアップ装置の構造図である。本出願のもう一つの実施例の音声ウェイクアップ装置の構造図である。

以下に、本出願の実施例を詳細に説明する。前記実施例の例示が図面において示されるが、一貫して同一または類似する符号は、同一又は類似の部品、または、同一又は類似の機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示性のものであり、本出願を解釈するためだけに用いられるものであって、本発明を限定するように理解されてはならない。

いかに、図面を参照しながら本出願の実施例の音声ウェイクアップ方法及び装置を詳細に説明する。

図１は、本出願の一つの実施例の音声ウェイクアップ方法のフローチャートである。

図１に示すように、当該音声ウェイクアップ方法は、下記のステップ１０１〜１０４を含む。

ステップ１０１：ユーザーが入力した音声を取得する。

具体的には、本発明の実施例が提供する音声ウェイクアップ方法は、音声認識システムに応用され、ユーザーが入力した音声に対する認識を行い、認識ネットワークでの予め設定されたウェイクアップワードであるか否かを決定して、対応する処理操作を行うようにする。

ユーザーは、音声対話型インタフェースを介して音声を入力してから、最適化された音声アクティビティ検出技術（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｈ、ＶＡＤ）を使用して入力した音声を検出する。

まず、音声の平穏且つ連続的な特性を利用して、フレームスキップ策略を使用して前記音声のデータフレームを処理することにより、従来技術に比べ、半分の計算量を減らすことができる。

説明すべきことは、異なる活用シナリオで異なるフレームスキップ策略を使用して音声のデータフレームを処理することができ、例えば、下記の二種の例示を含む。

第１例示：奇数フレーム処理
音声の第（２ｎ-１）のフレームの特徴を抽出することにより、音声の第２ｎのフレームの特徴が第（２ｎ-１）のフレームの処理結果を使用し、ここで、ｎは正の整数である。

または、
第２例示：偶数フレーム処理
前記音声の第２ｎのフレームの特徴を抽出することにより、音声の第（２ｎ-１）のフレームの特徴が第２ｎのフレームの処理結果を使用し、ここで、ｎは正の整数である。

次に、時間領域エネルギーアルゴリズムにより前記データフレームに対する音声アクティビティ検出を行う。

従来技術に比べ、周波数領域アルゴリズムを使用しなく、即ちＦＦＴを行わなく、時間領域エネルギーアルゴリズムだけを使用して、ＦＦＴ計算量を減らし、ＶＡＤ処理の電力消耗を大きく最適化する。

ステップ１０３：前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルによって前記音声学特徴に対する音声認識を行う。

ステップ１０４：前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。

具体的には、ユーザーが入力した音声に対する音声アクティビティ検出を行った後、検出できた音声情報に対する音声の音声学特徴を抽出する。

次に、予め構築した認識ネットワーク及び音声学モデルによってユーザーの音声の音声学特徴に対する音声認識を行う。

説明すべきことは、音声認識ウェイクアップ処理の電力消耗を更に減らすために、応用需要によって予め構築した認識ネットワーク及び音声学モデルを最適化でき、具体的な認識処理アルゴリズムも更に最適化できるが、後で重点的に説明することにする。音声処理アルゴリズムの方式は様々であり、例えば、予め設定された認識ネットワーク及び音声学モデルによって、ビタビアルゴリズムを使用して前記音声学特徴に対する音声認識を行う。

ひいては、認識結果に基づいて対応する操作処理を行う。即ち、ユーザーが入力した音声がウェイクアップワードである場合、対応するウェイクアップ操作を行い、ユーザーが入力した音声がウェイクアップワードでない場合、対応するウェイクアップ操作を行わない。

本実施例の音声ウェイクアップ方法は、ユーザーが入力した音声を取得することにより、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行い、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行い、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。

図２は、本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。

図２に示すように、図１におけるステップ１０３に関して、下記のようなステップ２０１〜ステップ２０５を含むことができる。

ステップ２０１：フィルタバンクを使用して抽出した第１次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数（ｍｆｃｃ）の第２次元特徴を取得する。

ステップ２０２：前記音声の振幅を取得して第３次元特徴とする。

ステップ２０３：前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第４次元特徴とする。

ステップ２０４：前記第２次元特徴、前記第３次元特徴、及び前記第４次元特徴によって前記音声の音声学特徴を決定する。

ステップ２０５：予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対する音声認識を行う。

具体的には、本実施例は前記実施例における音声の音声学特徴の抽出に対する最適化処理であり、従って予め設定された認識ネットワーク及び音声学モデルによって音声学特徴に対する音声認識を行う過程を簡素化する。

ユーザーが入力した音声に対する音声学特徴抽出を行う過程で、普通フィルタ特徴を抽出することは、次元が高く、計算量が大きい。

本実施例は、ＦｉｔｅｒＢａｎｋ特徴に対する離散コサイン変換を行い、メル周波数ケプストラム係数（ｍｆｃｃ）の次元特徴を取得し、前記音声の振幅の次元特徴を抽出し、及び音声をハイパスフィルタに通過させ、高周波信号を取得し、前記高周波信号の次元特徴を抽出する。

従って、前記処理を経た後、入力した音声の音声学特徴を抽出する。本実施例が提供する音声学特徴抽出方法を更に明らかに説明するために、下記のように例を挙げて、説明する。

音声に対する特徴抽出処理を行った後、４０次元のｆｉｔｅｒｂａｎｋ特徴を抽出すると仮定すると、現在次元は４０次元であり、本発明が使用するｍｆｃｃ＋他の特徴（１３＋２）の特徴取得過程は、具体的に下記の通りである。

１．４０次元のｆｉｔｅｒｂａｎｋ特徴に対するｄｃｔ変換（離散コサイン変換）を行い、ひいては、１３次元のｍｆｃｃ特徴を取得する。
２．次に、他の二つの特徴を得るべきであり、先に声のボリューム（振幅）を第１４次元特徴とする。
３．その後、声をｈｐｆ（ハイパスフィルタ）に通過させ、残るものが高周波信号だと思えられるが、人間の言語情報も殆どが高周波に集中され、ｈｐｆを通過した信号の絶対値のlog値を第１５次元特徴とする。

このことから分かることは、特徴の数を減らす手段により、特徴抽出運算の計算量を減らす同時に、後続のベクトルと行列の積の計算量を減らすことである。

前記実施例に基づいて、本実施例の音声ウェイクアップ方法は、ひいては、フィルタバンクを使用して抽出した第１次元特徴に対して離散コサイン変換を行うことにより、メル周波数ケプストラム係数の第２次元特徴を取得し、前記音声の振幅を取得して第３次元特徴とし、前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第４次元特徴とし、前記第２次元特徴、前記第３次元特徴、及び前記第４次元特徴に基づいて前記音声の音声学特徴を決定し、予め設定された認識ネットワーク及び音声学モデルによって前記音声学特徴に対する音声認識を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。ひいては、特徴の数を減らす手段により、特徴抽出運算の計算量を減らす同時に、後続のベクトルと行列の積の計算量を減らすことにより、更に処理電力消耗を減らす。

図３は、本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。

図３に示すように、図１におけるステップ１０１の前に、下記ステップを更に含むことができる。

ステップ３０２：前記ジャンクワード及び予め設定したウェイクアップワードに基づいて前記認識ネットワークを構築する。

具体的には、上記の実施例に基づいて、音声認識を行う前に、音声認識を行う認識ネットワーク及び音声学モデルを構築すべきである。

その中で、認識ネットワークは、ウェイクアップワードと、ジャンクワードとを含む並列ネットワークであり、現在のジャンクワードの数は簡素化でないため、本実施例は、編集距離を利用してクラスタリングするアルゴリズムにより認識ネットワークのジャンクワードを簡素化し、更に計算量を減らし、処理電力消耗を減らす。具体的には、

全ての音節序列を一つの認識ネットワークに並列連結させるステップと、
前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第１閾値より大きい認識結果を取得するステップと、
前記認識結果から出現確率が一番高い音節Ａを取得し、残りの音節はＢ１〜ＢＮであり、ＡとＢ１〜ＢＮとの間の編集距離Ｅをぞれぞれ計算し、編集距離が一番大きいＢｋを保留し、保留した音節数が予め設定された第２閾値を満たすまで残った音節を逐一計算するステップと、
ひいては、保留した音節の数を前記認識ネットワークのジャンクワードとするステップと、
を含む。

上記のジャンクワードに対する最適化過程をより明らかに説明するために、編集距離を利用してクラスタリングするアルゴリズムにより最初５０個のジャンクワードを１０個に最適化し、構築するデコーディングネットワークの大きさを減らし、効率を最適化することとして、下記のように例を挙げて、説明する。

最初の５０個のジャンクワードを１０に最適化し、且つ効果がほぼ変わらないように維持させるプロセスは、下記の通りである。

ステップ１：全ての音節序列を一つの認識ネットワークに並列連結させてから、大量の音声入力を通じて、認識結果を取得し、ここで、認識結果の数が一番多いｔｏｐ２０がちょうど一番常用される２０個のジャンクワードを表し、この２０個のジャンクワードで全部の発音音節序列を代表できる。
ステップ２：上の２０個のジャンクワードを得るだけでは足りなく、更に簡素化すべきであり、出現確率が一番高いワードＡを選択すべきであり、残りはＢ１、Ｂ２……Ｂ１９であり、編集距離Ｅ（ＡＢ１）、Ｅ（ＡＢ２）……Ｅ（ＡＢi）を別々に計算し、ここで、編集距離が一番大きい一つのＢｋは保留する。
それから、ＡとＢｋは保留することに決定し、残りの１８個及びＢｋに対しては編集距離を計算してから、Ｂｋとの編集距離が一番大きいＢｊを保留したあと、残りの１７個及びＢｊに対しては編集距離を計算する。

このように類推すると、こんなアルゴリズムで十回運算すると、毎回編集距離が一番大きいポイント、即ち分散が一番良好なポイントを得ることができ、それからこの１０個のジャンクワードを用いてテストした効果は５０個のジャンクワードの効果と大きな差異がなかった。

従って、最初の５０個のジャンクワードとウェイクアップワードとを並列連結させたデコーディングネットワークの代わりに、簡素化を通じた、ただ１０個のジャンクワードとウェイクアップワードとを並列連結させたデコーディングネットワークにより、後続のビタビ運算の計算量を減らすことができる。

ステップ３０３：深層ニューラルネットワークの音声学モデルを構築し、前記深層ニューラルネットワークの次元Ｍが予め設定された閾値以下である。

具体的には、本実施例は、深層ニューラルネットワークＤＮＮの音声学モデルを構築し、且つ深層ニューラルネットワークの次元Ｍに対する閾値を設定し、Ｍが予め設定された閾値以下であるべきである。ひいては、最適化した後の音声学モデルをローディングし、即ちＤＮＮネットワークの次元を減らし、ＤＮＮ尤度計算の原理はマトリック運算である。下記のように例を挙げて、説明する。

入力した特徴が次元がＡであるベクトルだと仮定すると、ニューラルネットワークは、マトリックＢ１、Ｂ２、Ｂ３……ＢＮであり、
そうすると、計算過程はＡ*Ｂ１*Ｂ２*Ｂ３……ＢＮであり、出力結果は、尤度であり、
そうすると、Ｎの数及びそのうち各マトリックの大きさを減らすことにより、尤度計算の計算量を効果的に減らすことができる。
ひいては、最適化した後のジャンクワードネットワークにビタビデコーディングを行い、この時点で刈り込み強度を増やして、即ち、同時に存在するアクティビティノードの数を減らすことにより、電力消耗を減らす。

前記実施例に基づいて、本実施例の音声ウェイクアップ方法は、更に認識ネットワークに対するジャンクワードの数及び音声学モデルの次元を減らし、更に認識ネットワークを簡素化し、後続のビタビ運算の計算量を減らすことができる。

前記実施例に基づいて、前記予め設定された認識ネットワーク及び音声学モデルによって前記音声学特徴に対する音声認識を行った後、下記のステップを更に含む。

予め設定された拒絶策略に基づいて音声認識を停止することにより、すぐにウェイクアップ失敗を判定し、ビタビデコーディング実行を停止し、計算量を大きく減らす。

説明すべきことは、異なる活用シナリオによって異なる拒絶策略を設定でき、図４に示す実施例を通じて下記のように説明する。

図４は、本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。

図４に示すように、図１におけるステップ１０３以後に、下記のステップを更に含むことができる。

ステップ４０１：音声アクティビティ検出の音声の長さとジャンクワードを認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断する。

ステップ４０２：前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。

具体的には、本実施例は、ＶＡＤ判断の音声の長さ及び認識されたジャンクワードの数の加重和を拒絶根拠とし、即ち音声の長さ及び認識されたジャンクワードの数の加重和がある閾値より大きい場合、ウェイクアップ失敗であると判定し、ビタビデコーディング実行を停止し、計算量を大きく減らす。使用可能な式は下記の通りである。

Ｓｃｏｒｅ＝Ｍ * Ｌｅｎｇｔｈ＋Ｎ * ＧｂｇＣｎｔ（Ｌｅｎｇｔｈは、音声の長さであり、ＧｂｇＣｎｔは、認識結果におけるジャンクワードの数であり、両者に係数を掛け算してから、足し算し、Ｍ及びＮは、実験数値である。）

若しＳｃｏｒｅ >Ｔｈｒｅｓｈｏｌｄである場合、認識を停止する。

上記の実施例に基づいて、本実施例の音声ウェイクアップ方法は、ひいては、音声アクティビティ検出の音声の長さ及び認識されたジャンクワードの数の加重和が予め設定された閾値より大きいか否かを判断することにより、前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。更にデコーディングの計算量を減らし、処理効率を向上させ、電力消耗を節約できる。

前記実施例を実現するために、本出願は音声ウェイクアップ装置を更に提供する。

図５は、本出願の一つの実施例の音声ウェイクアップ装置の構造図である。

図５に示すように、当該音声ウェイクアップ装置は、取得モジュール１１と、音声アクティビティ検出モジュール１２と、抽出モジュール１３と、認識モジュール１４と、処理モジュール１５と、を含む。

取得モジュール１１は、ユーザーが入力した音声を取得する。

音声アクティビティ検出モジュール１２は、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行う。

ここで、前記音声アクティビティ検出モジュール１２は、

前記音声の第（２ｎ-１）のフレームの特徴を抽出して、前記音声の第２ｎのフレームの特徴が第（２ｎ-１）のフレームの処理の結果を使用するようにするのに用いられ、ｎは正の整数であり、または、
前記音声の第２ｎのフレームの特徴を抽出して、前記音声の第（２ｎ-１）のフレームの特徴が第２ｎのフレームの処理結果を使用するようにするのに用いられ、ここで、ｎは正の整数である。

抽出モジュール１３は、前記音声の音声学特徴を抽出する。

認識モジュール１４は、予め設定された認識ネットワーク及び音声学モデルによって、前記音声学特徴に対する音声認識を行う。

具体的には、前記認識モジュール１４は、
予め設定された認識ネットワーク及び音声学モデルによって、ビタビアルゴリズムを使用して前記音声学特徴に対する音声認識を行う。

処理モジュール１５は、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。

説明すべきことは、前述された音声ウェイクアップ方法実施例に対する解釈説明は、当該実施例の音声ウェイクアップ装置にも使用され、ここで更に詳細に記述しないことにする。

図６は、本出願のもうひとつの実施例の音声ウェイクアップ装置の構造図であり、図６に示すように、図５に示す実施例に基づいて、前記抽出モジュール１３は、第１取得ユニット１３１、第２取得ユニット１３２、第３取得ユニット１３３、決定ユニット１３４を含む。

第１取得ユニット１３１は、フィルタバンクを使用して抽出した第１次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数（ｍｆｃｃ）の第２次元特徴を取得する。
第２取得ユニット１３２は、前記音声の振幅を取得して第３次元特徴とする。
第３取得ユニット１３３は、前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第４次元特徴とする。
決定ユニット１３４は、前記第２次元特徴、前記第３次元特徴、及び前記第４次元特徴に基づいて、前記音声の音声学特徴を決定する。

説明すべきことは、前述された音声ウェイクアップ方法実施例に対する解釈及び説明は、当該実施例の音声ウェイクアップ装置にも使用され、ここで更に詳細に記述しないことにする。

本出願の実施例の音声ウェイクアップ装置は、ひいては、フィルタバンクを使用して抽出した第１次元特徴に対して離散コサイン変換を行うことにより、メル周波数ケプストラム係数の第２次元特徴を取得し、前記音声の振幅を取得して第３次元特徴とし、前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第４次元特徴とし、前記第２次元特徴、前記第３次元特徴、及び前記第４次元特徴に基づいて、前記音声の音声学特徴を決定し、予め設定された認識ネットワーク及び音声学モデルに基づいて、前記音声学特徴に対する音声認識を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。ひいては、特徴の数を減らす手段により、特徴抽出運算の計算量を減らす同時に、後続のベクトルと行列の積の計算量を減らすことにより、更に処理電力消耗を減らす。

図７は、本出願のもう一つの実施例の音声ウェイクアップ装置の構造図であり、図７に示すように、前記実施例に基づいて、図５に示す実施例を例として、決定モジュール１６と、第１構築モジュール１７と、第２構築モジュール１８と、を更に含む。

決定モジュール１６は、編集距離を利用してクラスタリングするアルゴリズムにより前記認識ネットワークのジャンクワードを決定する。

一つの実施例において、前記決定モジュール１６は、
全ての音節序列を一つの認識ネットワークに並列連結させ、前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第１閾値より大きい認識結果を取得し、
前記認識結果から出現確率が一番高い音節Ａを取得し、残りの音節はＢ１〜ＢＮであり、ＡとＢ１〜ＢＮの編集距離Ｅをそれぞれ計算し、編集距離が一番大きいＢｋを保留し、保留した音節の数が予め設定された第２閾値を満たすまで残った音節を逐一に計算し、
保留した音節数を前記認識ネットワークのジャンクワードとする。

第１構築モジュール１７は、前記ジャンクワード及び予め設定したウェイクアップワードによって前記認識ネットワークを構築する。

第２構築モジュール１８は、深層ニューラルネットワークの音声学モデルを構築し、前記深層ニューラルネットワークの次元Ｍが予め設定された閾値以下である。

本出願の実施例の音声ウェイクアップ装置は、更に認識ネットワークに対するジャンクワードの数及び音声学モデルの次元を減らし、更に認識ネットワークを簡素化し、後続のビタビ運算の計算量を減らすことができる。

図８は、本出願のもう一つの実施例の音声ウェイクアップ装置の構造図であり、図８に示すように、前記実施例に基づいて、図５を例として、予め設定された拒絶策略によって音声認識を停止する拒絶モジュール１９を更に含む。

一つの実施例において、前記拒絶モジュール１９は、
音声アクティビティ検出の音声の長さとジャンクワードを認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断し、
前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。

本出願の実施例の音声ウェイクアップ装置は、ひいては、音声アクティビティ検出の音声の長さとジャンクワードを認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断することにより、前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。更にデコーディングｃの計算量を減らし、処理効率を向上させ、電力消耗を節約できる。

本明細書の説明において、参照用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的な例示」、または「いくつかの例示」などの説明は、当該実施例や例示を結合して説明する具体的特徴、構造、材料、または特点が本出願の少なくとも一つの実施例や例示に含まれることを意味する。本明細書において、上記の用語に対する黙示的な記述が必ずしも同じ実施例や例示に対することではない。また、説明された具体的な特徴または特点は、任意の一つのまたは複数の実施例または例示にて適当な方式で結合されることができる。また、相互に矛盾しない前提で、当業者は、本明細書において説明される異なる実施例または例示及び異なる実施例または例示の特徴に対する結合及び組み合わせを行うことができる。

なお、用語である「第一」、「第二」は、説明のためだけに用いられるものであり、比較的な重要性を指示又は暗示するか、または示された技術特徴の数を黙示的に明示すると理解してはいけない。従って、「第１」、「第２」で限定された特徴は、少なくとも一つの当該特徴を明示又は黙示的に含むことができる。本出願の説明において、別途に明確に具体的な限定をしない限り、「複数の」の意味は少なくとも二つであり、例えば、二つ、三つ等である。

フローチャートまたはここで他の方式で説明されたいかなる過程や方法説明は、一つのまたは複数の、特定ロジック機能または過程のステップの実行できるコマンドのコードのモジュール、セクターまたは部分を含む。また、本出願の望ましい実施形態の範囲は、他の実現を含み、ここで提示または討論された順序に従わなくてもよい。述べられた機能に基づいて基本的に同様な方式または逆の順序でその機能を実行することができる。これは、本出願の実施例の当業者に理解される。

フローチャート中で表され、又はその他の方式で説明されたロジック及び／又はステップは、例えば、ロジック機能を実現するための命令実行可能な順序リストであると考えられてよく、具体的には、いかなるコンピュータ読取可能媒体中でも実現することができ、それによって指令実行システム、装置、若しくは設備（例えばコンピュータに基づくシステム、プロセッサを含むシステム又は他の指令実行システム、装置又は設備から指令を取得して指令を実行することができるシステム等）に使用され、又はこれらの指令実行システム、装置、若しくは設備を結合して使用される。本明細書について言えば、「コンピュータ読取可能媒体」は、プログラムを含み、保存し、通信し、伝播し又は伝送して、指令実行システム、装置若しくは設備又はこれらの指令実行システム、装置若しくは設備に使用されるいかなる装置であってもよい。コンピュータ読取可能媒体のさらに具体的な例示（非網羅的リスト）には、１つ以上の配線を有する電気接続部（電子装置）、ポータブル型コンピュータディスク（磁気装置）、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＣＯＭ又はフラッシュメモリ）、光ファイバ、及びコンパクト光ディスク読み出し専用メモリ（ＣＤＲＯＭ）が含まれる。また、コンピュータ読取可能媒体は、その上に前述のプログラムを印刷した紙又はその他適当な媒質であってもよい。なぜなら、例えば、紙又はその他の媒質に対して光学スキャニングを行い、続いて編集、解釈又は必要ならその他適当な方式で処理を行って、電子方式によってプログラムを取得し、その後、それをコンピュータメモリ中に保存することができるからである。

理解すべきことは、本発明の各部分は、ハードウェア、ソフトウェア、ファームウエアまたはそれらの組み合わせで実現できる。上記の実施形態において、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたはファームウエアで実現できる。例えば、ハードウェアで実現する場合、他の実施形態と同じように、本領域周知の下記の任意一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する離散ロジック回路、ロジックゲート回路を組み合わせた適当な専用ＩＣ、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などである。

実施例の方法における全部または一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、本技術領域の普通の技術者に理解される。前記プログラムは一つの計算機の読み出し書き込み可能な記憶メディアに記憶される。当該プログラムを実行するとき、実施例方法のステップの一つまたはそれらの組み合わせを含む。

この他、本発明の各実施例の各機能ユニットは、一つの処理モジュールに集積され、または、各ユニットの単独的な物理存在であり、あるいは、二つまたは二つ以上のユニットが一つのモジュールに集積されることができる。前記集積されたモジュールは、ハードウェアの形式、または、ソフトウェアの形式で実現できる。前記集積されたモジュールが、ソフトウェアの形式で実現され、独立の製品として販売または使用される場合、コンピューターの読み出し書き込み可能な記憶メディアに記憶されることができる。

上記の記憶メディアは、読み出し専用メモリ、ディスク、または、ＣＤなどである。本出願の実施例を示して説明したが、当業者にとって理解できるのは、上記の実施例は例示性のものであり、本発明に対する限定と理解されてはいけない。本出願の範囲で上記の実施例に対して変化、補正、切り替え及び変形を行うことができる。

Claims

ユーザーが入力した音声を取得するステップと、
フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行うステップと、
前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行うステップと、
前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行うステップと、を含む、
ことを特徴とする音声ウェイクアップ方法。
前記フレームスキップ策略を使用して前記音声のデータフレームを処理するステップは、
前記音声の第（２ｎ-１）のフレームの特徴を抽出して、前記音声の第２ｎのフレームの特徴が第（２ｎ-１）のフレームの処理結果を使用するようにし、ここで、ｎは正の整数であるステップ、または、
前記音声の第２ｎのフレームの特徴を抽出して、前記音声の第（２ｎ-１）のフレームの特徴が第２ｎのフレームの処理結果を使用するようにし、ここで、ｎは正の整数であるステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記音声の音声学特徴を抽出するステップは、
フィルタバンクを使用して抽出した第１次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数の第２次元特徴を取得するステップと、
前記音声の振幅を取得して第３次元特徴とするステップと、
前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第４次元特徴とするステップと、
前記第２次元特徴、前記第３次元特徴、及び前記第４次元特徴に基づいて前記音声の音声学特徴を決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行うステップは、
予め設定された認識ネットワーク及び音声学モデルに基づいて、ビタビアルゴリズムを使用して前記音声学特徴に対して音声認識を行うステップを含む、
ことを特徴とする請求項１に記載の方法。
前記ユーザーが入力した音声を取得する前に、
編集距離を利用してクラスタリングするアルゴリズムにより前記認識ネットワークのジャンクワードを決定するステップと、
前記ジャンクワード及び予め設定したウェイクアップワードに基づいて、前記認識ネットワークを構築するステップと、を更に含む、
ことを特徴とする請求項１に記載の方法。
前記編集距離を利用してクラスタリングするアルゴリズムにより前記認識ネットワークのジャンクワードを決定するステップは、
全ての音節序列を一つの認識ネットワークに並列連結させるステップと、
前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第１閾値より大きい認識結果を取得するステップと、
前記認識結果から出現確率が一番高い音節Ａを取得し、残りの音節はＢ１〜ＢＮであり、ＡとＢ１〜ＢＮとの間の編集距離Ｅをそれぞれ計算し、編集距離が一番大きいＢｋを保留し、保留した音節の数が予め設定された第２閾値を満たすまで残った音節を逐一に計算するステップと、
保留した音節の数を前記認識ネットワークのジャンクワードとするステップと、を含む、
ことを特徴とする請求項５に記載の方法。
前記ユーザーが入力した音声を取得する前に、
深層ニューラルネットワークの音声学モデルを構築し、前記深層ニューラルネットワークの次元Ｍは予め設定された閾値以下であるステップを更に含む、
ことを特徴とする請求項１に記載の方法。
前記予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行った後、
予め設定された拒絶策略に基づいて音声認識を停止するステップ、を更に含む、
ことを特徴とする請求項１〜７のいずれか一項に記載の方法。
前記予め設定された拒絶策略に基づいて音声認識を停止するステップは、
音声アクティビティ検出の音声の長さと認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断するステップと、
前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止するステップと、を含む、
ことを特徴とする請求項８に記載の方法。
ユーザーが入力した音声を取得する取得モジュールと、
フレームスキップ策略を使用して前記音声のデータフレームを処理し、時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行う音声アクティビティ検出モジュールと、
前記音声の音声学特徴を抽出する抽出モジュールと、
予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行う認識モジュールと、
前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う処理モジュールと、を含む、
ことを特徴とする音声ウェイクアップ装置。
前記音声アクティビティ検出モジュールは、
前記音声の第（２ｎ-１）のフレームの特徴を抽出して、前記音声の第２ｎのフレームの特徴が第（２ｎ-１）のフレームの処理結果を使用するようにし、ここで、ｎは正の整数である、または、
前記音声の第２ｎのフレームの特徴を抽出して、前記音声の第（２ｎ-１）のフレームの特徴が第２ｎのフレームの処理結果を使用するようにし、ここで、ｎは正の整数である、
ことを特徴とする請求項１０に記載の装置。
前記抽出モジュールは、
フィルタバンクを使用して抽出した第１次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数の第２次元特徴を取得する第１取得ユニットと、
前記音声の振幅を取得して第３次元特徴とする第２取得ユニットと、
前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第４次元特徴とする第３取得ユニットと、
前記第２次元特徴、前記第３次元特徴、及び前記第４次元特徴に基づいて前記音声の音声学特徴を決定する決定ユニットと、を含む、
ことを特徴とする請求項１０に記載の装置。
前記認識モジュールは、
予め設定された認識ネットワーク及び音声学モデルに基づいて、ビタビアルゴリズムを使用して前記音声学特徴に対して音声認識を行う、
ことを特徴とする請求項１０に記載の装置。
編集距離を利用してクラスタリングするアルゴリズムにより、前記認識ネットワークのジャンクワードを決定する決定モジュールと、
前記ジャンクワード及び予め設定されたウェイクアップワードに基づいて前記認識ネットワークを構築する第１構築モジュールと、を更に含む、
ことを特徴とする請求項１０に記載の装置。
前記決定モジュールは、
全ての音節序列を一つの認識ネットワークに並列連結させ、前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識して、数が予め設定された第１閾値より大きい認識結果を取得し、
前記認識結果から出現確率が一番高い音節Ａを取得し、残りの音節は、Ｂ１〜ＢＮであり、ＡとＢ１〜ＢＮとの編集距離Ｅをそれぞれ計算し、編集距離が一番大きいＢｋを保留し、保留した音節の数が予め設定された第２閾値を満たすまで残った音節を逐一に計算し、保留した音節の数を前記認識ネットワークのジャンクワードとする、
ことを特徴とする請求項１４に記載の装置。
深層ニューラルネットワークの音声学モデルを構築する第２構築モジュールを更に含み、前記深層ニューラルネットワークの次元Ｍは予め設定された閾値以下である、
ことを特徴とする請求項１０に記載の装置。
予め設定された拒絶策略に基づいて音声認識を停止する拒絶モジュールを更に含む、
ことを特徴とする請求項１０〜１６のいずれか一項に記載の装置。
前記拒絶モジュールは、
音声アクティビティ検出の音声の長さと認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断し、
前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する、
ことを特徴とする請求項１７に記載の装置。