JP2019525233A

JP2019525233A - 音声認識方法及び装置

Info

Publication number: JP2019525233A
Application number: JP2019501963A
Authority: JP
Inventors: 科丁; 兵 ▲蒋▼; 先▲剛▼ 李
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2016-07-22
Filing date: 2017-01-25
Publication date: 2019-09-05
Anticipated expiration: 2037-01-25
Also published as: US20190287514A1; US10997966B2; CN106228976A; CN106228976B; WO2018014537A1; JP6778811B2

Abstract

【課題】埋め込み音声認識に適用することができる音声認識方法、および、音声認識装置を提供することである。【解決手段】音声認識方法及び装置であって、当該音声認識方法は、入力された音声の音響特徴を抽出して、音響特徴を取得するステップ（Ｓ１１）と、パラメータが２値化パラメータである音響モデルを取得するステップ（Ｓ１２）と、音響特徴及び音響モデルに基づいて音声認識を行うステップ（Ｓ１３）と、を含む。当該方法は、埋め込み音声認識に適用することができる。【選択図】図１

Description

［関連書類の相互参照］
本出願は、バイドォウオンラインネットテクノロジー（ベイジン）カンパニーリミテッドによって２０１６年７月２２日付けに提出された、発明の名称が「音声認識方法及び装置」で、中国特許出願番号が「２０１６１０５８６６９８.９」である特許出願の優先権を主張するものである。

本出願は、音声処理技術に関し、特に音声認識方法及び装置に関する。

スマートフォンやタブレットなどのモバイル機器の普及に伴い、人間とコンピュータとのインタラクションの自然な手段としての音声は、人々の日常生活及び仕事においてますます重要な役割を果たしている。音声認識は、音声をテキストとして認識する。

音声認識は、ネットワーク音声認識と埋め込み音声認識とに分けることができる。ネットワーク音声認識とは、ユーザがネットワークを介してサーバに音声信号をアップロードし、サーバによって音声認識を行って、認識結果をユーザに返すことである。埋め込み音声認識とは、ユーザがスマート端末内に埋め込まれた音声認識装置を介して音声認識を行うことである。
音声認識の重要な部分は音響モデルであり、現在、生成された音響モデルは比較的大きい。したがって、サーバが使用する音響モデルをスマート端末に直接適用することはできず、埋め込み音声認識に適用する解決策が必要である。

本出願は、従来の技術における少なくとも１つの技術的課題をある程度で解決することを目的とする。

そのため、本出願の１つの目的は、埋め込み音声認識に適用することができる音声認識方法を提供することである。

本出願のもう１つの目的は、音声認識装置を提供することである。

上記目的を達成するために、本出願の第１側面の実施例は、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、パラメータが２値化パラメータである音響モデルを取得するステップと、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、を含む音声認識方法を提供する。

本出願の第１側面の実施例によって提供された音声認識方法は、パラメータが２値化パラメータである音響モデルを採用することにより、音響モデルのサイズを大幅に小さくし、必要な記憶スペースを減らすことができるため、埋め込み音声認識に適用することができる。

上記目的を達成するために、本出願の第２側面の実施例は、入力された音声の音響特徴を抽出して、音響特徴を取得する特徴抽出モジュールと、パラメータが２値化パラメータである音響モデルを取得する取得モジュールと、前記音響特徴及び前記音響モデルに基づいて音声認識を行う認識モジュールと、を含む音声認識装置を提供する。

本出願の第２側面の実施例によって提供された音声認識装置は、パラメータが２値化パラメータである音響モデルを採用することにより、音響モデルのサイズを大幅に小さくし、必要な記憶スペースを減らすことができるため、埋め込み音声認識に適用することができる。

本出願の実施例は本出願の第１側面の実施例のいずれかに記載の方法を実行するように構成されるプロセッサと、プロセッサによって実行可能な命令を記憶するためのメモリとを含む機器をさらに提供する。

本出願の実施例は非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記記憶媒体における命令がプロセッサによって実行される場合、プロセッサが、第１側面の実施例のいずれかに記載の方法を実行可能である。

本出願の実施例はコンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合、プロセッサが、第１側面の実施例のいずれかに記載の方法を実行可能である。

本出願の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本出願の実践により理解される。

本出願の上記及び／又は付加的な方面と利点は、下記の図面を参照して実施例を説明することにより、明らかになり、理解しやすくなる。
本出願の一実施例によって提供される音声認識方法の概略フローチャートである。本出願の他の実施例によって提供される音声認識方法の概略フローチャートである。本出願の実施例における２値化活性化関数の概略図である。本出願の実施例における２値化ネットワークの概略図である。本出願の一実施例によって提供される音声認識装置の概略構成図である。本出願の一実施例によって提供される音声認識装置の概略構成図である。

以下に、本出願の実施例を詳細に説明する。前記実施例の例が図面に示されるが、同一又は類似する符号は、常に同一又は類似する部品、又は、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示するものであり、本出願を解釈するためだけのものであって、本出願を限定するものでると理解してはいけない。むしろ、本出願の実施例は、添付の特許請求の範囲の趣旨及び範囲に入っている全ての変更、修正及び同等物を含む。

本出願は、埋め込み音声認識を説明する。しかしながら、本実施例の方法は、埋め込み音声認識に限定されず、ネットワーク音声認識にも適用可能である。すなわち、サーバは、以下の方式も採用することができる。

サーバと比較して、スマート端末の記憶空間、計算能力及びリソースは比較的貧弱であるため、サーバによって採用される音響モデルは、そのまま埋め込み音声認識に適用することができない。

埋め込み音声認識に適用するためには、音響モデルのサイズを小さくする必要がある。

現在、一般的には、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＤＮＮ）と隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ，ＨＭＭ）とのハイブリッドモデリングを採用して音響モデルを生成する。

音響モデルのサイズを効果的に小さくするために、本出願は、音響モデルのパラメータを変更すること、及び浮動小数点の表現から２値化の表現に変更すること、という主なアイデアに基づくものである。さらに、音響特性がＤＮＮを通過した場合、出力も２値化に変換される。

なお、以上により、主なアイデアを説明したが、具体的な技術案は上記の主なアイデアに限定されず、他の特徴と組み合わせてもよく、これらの様々な特徴の組み合わせは、依然として本出願の保護範囲に属する。

なお、上記の内容には主に解決しようとする技術的課題が記載されているが、本出願は上記の技術的課題を解決することに限定されず、本出願の技術案を適用して解決できる他の技術的課題も本出願の保護範囲に属する。

なお、本出願の各実施例は、すべての技術的問題を完全完璧に解決することに限定されず、少なくとも1つの技術的問題を少なくともある程度で解決することである。

なお、上記の内容には本出願の主なアイデアが記載されているが、以下の実施例ではいくつかの特別な点について説明する。しかし、本出願のイノベーションポイントは、上記の主なアイデア及び特別な点に関する内容に限定されず、本出願における特に説明されていない内容も本出願のイノベーションポイントを含むことを排除するものではない。

なお、上述にはいくつかの説明が行われているが、他の可能な技術案が排除されないので、本出願の下記の実施例と同じ、類似、等価である技術案も依然として本出願の保護範囲に属する。

以下、具体的な実施例を組み合わせて本出願の技術案を説明する。

本出願に係るスマート端末は、スマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、車載端末、インテリジェントロボット、スマート家電などの音声認識技術を適用可能な様々な端末を含むことができる。

図１は本出願の一実施例によって提供される音声認識方法の概略フローチャートである。

図１に示すように、本実施例の方法は、ステップＳ１１と、ステップＳ１２と、ステップＳ１３とを含む。

ステップＳ１１において、入力された音声の音響特徴を抽出して、音響特徴を取得する。
ここで、既存の又は将来に現れる音響特徴抽出プロセスを採用して音響特徴を抽出してもよい。音響特性は、例えば、メル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ，ＭＦＣＣ）などを含む。

ステップＳ１２において、パラメータが２値化パラメータである音響モデルを取得する。
ここで、音響モデルは訓練段階で生成することができ、認識段階では、訓練して生成された音響モデルを直接取得する。

一般的に、音響モデルのパラメータが浮動小数点数であるので、各パラメータは通常１６又は３２ビット（ｂｉｔ）を占める。

本実施例において、音響モデルのパラメータは２値化パラメータであり、２値化パラメータとは、各パラメータが決定された２つの値のいずれかであることを意味する。たとえば、決定された２つの値が＋１及び−１で表される場合、各パラメータは＋１又は−１である。

音響モデルのパラメータが２値化パラメータであるため、各パラメータは１ビット（ｂｉｔ）で表すことができる。各パラメータが１６ビット又は３２ビットを占める場合と比較して、音響モデルのサイズを大幅に小さくすることができ、必要な記憶スペースを減らすことができる。

ステップＳ１３において、前記音響特徴及び前記音響モデルに基づいて音声認識を行う。
ここで、音響モデルは、音声と音響状態確率との関係を示すことができるため、音響特徴が取得された後、音響モデルに基づいて音響状態確率を取得することができる。なお、音声認識を行う時に、他のプロセスを含んでもよく、例えば、音響状態概念が取得された後、言語モデルや発音辞書などに基づいてテキストに変換して最終的な音声認識を完成させてもよい。本出願は、主に音響モデルに関連する内容を説明し、音声認識の残りのプロセスは、従来の技術又は将来の技術によって実現することができる。

本実施例では、パラメータが２値化パラメータである音響モデルを採用することにより、音響モデルのサイズを大幅に小さくし、必要な記憶スペースを減らすことができ、これにより埋め込み音声認識に適用することができる。

以下、解決する課題が比較的に包括的な技術案を挙げるが、本出願はこの実施例に限定されるものではなく、異なる技術的課題を解決するための技術的特徴を単独に技術案に構成したり、異なる技術的特徴を他の方式の任意の数で任意に組み合わせて、新しい技術案を取得することもできる。

図２は本出願の他の実施例によって提供される音声認識方法の概略フローチャートである。

図２を参照すると、本実施例の方法は、以下のステップＳ２１と、ステップＳ２２と、ステップＳ２３とを含む。

ステップＳ２１において、訓練によってパラメータが２値化パラメータである音響モデルを生成し、訓練プロセスは、誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である。

訓練段階において、大量の音声サンプルを収集することができ、各音声サンプルの音響特徴を抽出した後、これらの音響特徴に基づいて訓練して音響モデルを生成する。

音響モデルを訓練するとき、多くの方法を採用できるが、本実施例では、ＤＮＮ＋ＨＭＭハイブリッドモデリング法の訓練により、音響モデルを生成することができる。

一般的なＤＮＮとＨＭＭのハイブリッドモデリングと異なり、本実施例において、音響モデルのパラメータは２値化パラメータを採用する。

上記の誤差を計算する時、誤差逆伝播法を採用することができる。誤差逆伝播法は、概略的に、誤差の出力（何らかの形式）→隠れ層（層ごとに）→入力層を含む。主な目的は、出力された誤差を逆伝播することにより、誤差を各層のすべてのユニットに割り当てて、各層ユニットの誤差信号を取得し、各ユニットの重みを修正する（そのプロセスは、重みを調整するプロセスである）。

また、精度を確保するために、誤差を計算する時に、採用される音響モデルのパラメータは２値化パラメータであるが、誤差の精度は浮動小数点数の精度である。例えば、誤差を計算する時に、音響モデルのパラメータ以外の値はいずれも浮動小数点数を採用する。

上記のステップＳ２１は訓練段階で完成することができ、取得された音響モデルは、その後の音声認識に使用することができる。

音声認識段階では、以下のステップを実行することができる。

ステップＳ２２において、入力された音声の音響特徴を抽出して、音響特徴を取得する。
当該ステップは上記の実施例の関連する内容を参照することができ、ここでは詳しく説明しない。

ステップＳ２３において、音響特徴をＤＮＮの入力層とし、且つＤＮＮの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得する。ここで、次の隠れ層が存在する出力値を２値化して、次の隠れ層の入力値とする。
ここで、全体が２値化数値の演算になるために、音響モデルのパラメータとして２値化数値を採用できるだけでなく、他のパラメータも２値化数値を採用することができる。

上記のプロセスにおいて、入力層に接続された第１の隠れ層の入力も２値化数値であるように、音響特徴を２値化してもよい。

さらに、音響モデルの安定性を確保するために、出力値を２値化する前に、まず線形変換を行ってもよい。線形変換の式は、式（1）に示すものであってもよい。
Ｙ＝ａ*Ｘ＋ｂ (1)
ただし、Ｘは出力値の最初値であり、Ｙは線形変換後の出力値であり、ａ及びｂは２つの一定のパラメータであり、予め設定することができる。

さらに、データを２値化する時に、２値化活性化関数を採用して処理することができる。例えば、２値化活性化関数は図３に示すものある。図３に示す活性化関数に基づいて、１つのデータの最初値が０より大きい場合、２値化された値は＋１であり、データの最初値が０より大きい場合、２値化された値は−１である。

上記では２値化された値が＋１又は−１であることを例としたが、なお、例えば１又は０のような他の数を用いることもできる。
従って、上記の２値化パラメータ、線形変換及び２値化活性化関数を経て、音声認識する時に、図４に示す２値化ネットワークを含むことができる。

さらに、数値間の演算を行う場合、２値化数値間の演算であるため、通常の行列操作の代わりにビット操作を採用することができる。

具体的には、ビット演算（ＸＯＲ）で乗算演算を置き換え、各２値化数値の数で加算演算を置き換えることができる。
例えば、ａとｂは演算する２つの数値を示し、ａとｂはいずれも２値化数値である場合、表１に示すように、ＸＯＲでａとｂ（ａ*ｂ）の乗算を置き換えることができる。ビット演算では、１つの値を０にコードし、もう１つの値を１にコードし、例えば、＋１を０にコードし、−１を１にコードすることができる。また、累積演算は、設定された（ｓｅｔ）ビットの数と設定されていない（ｕｎｓｅｔ）ビットの数を計算することによって、完成することができる。ここで、設定されたビットと設定されていないビットはそれぞれ２値化数値のうちの１つを示し、例えば、１つは＋１であり、もう１つは−１である。

上記のプロセスにおいて、特別なハードウェアによって実現することができるし、ＣＰＵやＧＰＵなどの一般的なハードウェアによって実現することもできる。

本実施例において、音響モデルのパラメータとして２値化パラメータを選択することにより、音響モデルのサイズを小さくし、必要な記憶スペースを減らすことができる。訓練段階で浮動小数点精度を誤差として選択することにより、音響モデルの性能を保証し、音声認識の性能を保証することができる。演算プロセスの全体において、２値化された数値を採用し、且つ演算中にビット操作で行列演算を置き換えることにより、演算量を減らし、演算能力やリソースに対する需要を減らすことができ、ＤＳＰやＦＰＧＡなどのハードウェアの演算能力を十分に活用することができる。本実施例は、演算の複雑さが減るため、ＣＰＵやＧＰＵのような従来のハードウェアに応用することもできる。

図５は本出願の実施例によって提供される音声認識装置の概略構成図である。

本実施例の装置は、埋め込み音声認識装置に配置されてもよいし、サーバ内で使用されてもよい。

図５に示すように、本実施例の装置５０は、特徴抽出モジュール５１、取得モジュール５２及び認識モジュール５３を含む。

特徴抽出モジュール５１は、入力された音声の音響特徴を抽出して、音響特徴を取得する。
取得モジュール５２は、パラメータが２値化パラメータである音響モデルを取得する。
認識モジュール５３は、前記音響特徴及び前記音響モデルに基づいて音声認識を行う。

いくつかの実施例において、図６を参照すると、本実施例の装置５０は、訓練によって前記音響モデルを生成する訓練モジュール５４を更に含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である。

いくつかの実施例において、前記認識モジュール５３は、具体的には、
前記音響モデルがＤＮＮを含む場合、前記音響特徴を前記ＤＮＮの入力層とし、且つ前記ＤＮＮの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得し、次の隠れ層が存在する出力値を２値化して、次の隠れ層の入力値とする。

いくつかの実施例において、前記認識モジュール５３は、さらに、
出力値を線形変換して、変換された出力値を２値化する。

いくつかの実施例において、前記認識モジュール５３は、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得することは、
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得することを含む。

なお、本実施例の装置は、上記方法の実施例に対応するものである。具体的な内容は、方法の実施例に関連する説明を参照し、ここでは詳しく説明しない。

本実施例において、パラメータが２値化パラメータである音響モデルを採用することにより、音響モデルのサイズを大幅に小さくし、必要な記憶スペースを減らすことができるため、埋め込み音声認識に適用することができる。

なお、上記実施例において同一又は類似の部分は、相互に参照することができ、一部の実施例において詳細に記載されていない内容は、他の実施例において同一又は類似の内容を参照することができる。

本出願の実施例は機器をさらに提供し、当該機器は、プロセッサと、プロセッサによって実行可能な命令を記憶するためのメモリとを含み、ここで、前記プロセッサが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、パラメータが２値化パラメータである音響モデルを取得するステップと、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、を実行するように構成される。

本出願の実施例は非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記記憶媒体における命令がプロセッサによって実行される場合、プロセッサが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、パラメータが２値化パラメータである音響モデルを取得するステップと、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、を実行するように構成される。

本出願の実施例はコンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合、プロセッサが、入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、パラメータが２値化パラメータである音響モデルを取得するステップと、前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、を実行するように構成される。

なお、本出願の説明において、「第１」、「第２」の用語は単に説明するためのものであり、比較的な重要性を指示又は暗示すると理解してはいけない。また、本出願の説明において、別途の説明がない限り、「複数」とは、少なくとも２つを意味する。

フローチャートにおける、又はここで他の形態で記載された任意のプロセス又は方法は、特定ロジック機能又はプロセスのステップを実現するための１つ又は複数の実行可能な命令コードを含むモジュール、セグメント又は一部を表すと理解されてもよい。また、本発明の好ましい実施形態の範囲は、ここで、示された又は論議された順番ではなく、係る機能に応じてほぼ同時の形態又は逆の順番で機能を実行することができる他の実現を含むことができる。これは、当業者であれば理解すべきのものである。

理解すべきことは、本出願の各部分は、ハードウェア、ソフトウェア、ファームウエア又はそれらの組み合わせで実現できる。上記の実施形態において、複数のステップ又は方法がメモリに記憶され、且つ適当なコマンド実行システムのソフトウェア又はファームウエアで実現できる。例えば、ハードウェアで実現する場合、他の実施形態と同じように、本領域周知の下記の任意１つ又はそれらの組み合わせで実現できる。すなわち、デジタル信号のロジック機能を実現するロジックゲート回路を有する離散ロジック回路、ロジックゲート回路を組み合わせた適当な専用ＩＣ、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などである。

実施例の方法における全部又は一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、本技術領域の普通の技術者に理解される。前記プログラムは１つのコンピューター読取り可能な媒体に記憶されることができる。当該プログラムを実行するとき、実施例方法のステップの１つ又はそれらの組み合わせを含む。

この他、本出願の各実施例における各機能ユニットは、１つの処理モジュールに集積され、又は、各ユニットの単独的な物理存在であり、あるいは、２つ又は２つ以上のユニットが１つのモジュールに集積されることができる。上記の集積されたモジュールは、ハードウェアの形式、又は、ソフトウェア機能モジュールの形式で実現できる。前記集積されたモジュールが、ソフトウェア機能モジュールの形式で実現され、且つ独立の製品として販売又は使用される場合、コンピューター読取り可能媒体に記憶されることができる。

上記の記憶メディアは、読み出し専用メモリ、ディスク、又はＣＤなどであって可能である。

本発明の説明において、「一実施例」、「一部の実施例」、「例示的な実施例」、「具体的な実施例」、又は「一部の実施例」などの用語を参照した説明とは、該実施例又は実施例に結合して説明された具体的な特徴、構成、材料又は特徴が、本発明の少なくとも一実施例又は実施例に含まれることを意味する。本明細書において、上記用語に対する例示的な記述は、必ずしも同一の実施例又は実施例を示すことではない。又、説明された具体的な特徴、構成、材料又は特徴は、いずれか１つ又は複数の実施例又は実施例において適切に組み合わせることができる。

本出願の実施例を示して説明したが、当業者にとって理解できるのは、上記の実施例は例示性のものであり、本出願に対する限定と理あ解されてはいけない。本出願の範囲で上記の実施例の変化、補正、切り替え及び変形を行うことができる。

Claims

入力された音声の音響特徴を抽出して、音響特徴を取得するステップと、
パラメータが２値化パラメータである音響モデルを取得するステップと、
前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップと、
を含む、
ことを特徴とする音声認識方法。
前記方法は、訓練によって前記音響モデルを生成するステップを更に含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である、
ことを特徴とする請求項１に記載の方法。
前記音響特徴及び前記音響モデルに基づいて音声認識を行うステップは、
前記音響モデルがＤＮＮを含む場合、前記音響特徴を前記ＤＮＮの入力層とし、且つ前記ＤＮＮの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得するステップと、
次の隠れ層が存在する出力値を２値化して、次の隠れ層の入力値とするステップと、を含む、
ことを特徴とする請求項１又は２に記載の方法。
前記方法は、出力値を線形変換して、変換された出力値を２値化するステップをさらに含む、
ことを特徴とする請求項３に記載の方法。
音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得するステップは、
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得するステップを含む、
ことを特徴とする請求項３又は４に記載の方法。
入力された音声の音響特徴を抽出して、音響特徴を取得する特徴抽出モジュールと、
パラメータが２値化パラメータである音響モデルを取得する取得モジュールと、
前記音響特徴及び前記音響モデルに基づいて音声認識を行う認識モジュールと、
を含む、
ことを特徴とする音声認識装置。
前記装置は、訓練によって前記音響モデルを生成する訓練モジュールをさらに含み、ここで、訓練プロセスは、誤差逆伝播法を利用して誤差を計算することを含み、且つ誤差の精度は浮動小数点数の精度である、
ことを特徴とする請求項６に記載の装置。
前記認識モジュールは、具体的には、
前記音響モデルがＤＮＮを含む場合、前記音響特徴を前記ＤＮＮの入力層とし、且つ前記ＤＮＮの各隠れ層において、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得し、次の隠れ層が存在する出力値を２値化して、次の隠れ層の入力値とする、
ことを特徴とする請求項６又は７に記載の装置。
前記認識モジュールは、さらに、
出力値を線形変換して、変換された出力値を２値化する、
ことを特徴とする請求項８に記載の装置。
前記認識モジュールが、音響モデルのパラメータと入力値とを採用して演算することにより出力値を取得することは、
音響モデルのパラメータと入力値とに基づいてビット操作して、出力値を取得することを含む、
ことを特徴とする請求項８又は９に記載の装置。
プロセッサと、
プロセッサによって実行可能な命令を記憶するためのメモリとを含む機器であって、
前記プロセッサは、請求項１〜５のいずれかに記載の方法を実行するように構成される、
ことを特徴とする機器。
非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体における命令がプロセッサによって実行される場合、プロセッサが、請求項１〜５のいずれかに記載の方法を実行可能である、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラム製品であって、
前記コンピュータプログラム製品における命令がプロセッサによって実行される場合、プロセッサが、請求項１〜５のいずれかに記載の方法を実行可能である、
ことを特徴とするコンピュータプログラム製品。