WO2021166129A1

WO2021166129A1 - 音声認識装置、制御方法、及びプログラム

Info

Publication number: WO2021166129A1
Application number: PCT/JP2020/006578
Authority: WO
Inventors: 秀治古明地; 玲司吉田; 山本　仁
Original assignee: 日本電気株式会社
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2021-08-26
Also published as: JPWO2021166129A1; JP7367839B2; US20230046763A1

Abstract

音声認識装置（２０００）は、第１モデル（６０）及び第２モデル（７０）を有する。第１モデル（６０）は、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習される。第２モデル（７０）は、入力された文字列データを圧縮文字列データに変換するエンコーダ（４２）と、エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダ（４４）とで構成されるオートエンコーダ（４０）を学習することによって得られる、学習されたデコーダ（４４）である。音声認識装置（２０００）は、音声フレームを第１モデル（６０）に入力し、第１モデル（６０）から出力された圧縮文字列データを第２モデル（７０）に入力することで、音声フレームに対応する文字列データを生成する。

Description

音声認識装置、制御方法、及びプログラム

　本発明は音声認識に関する。

　音声を文字列に変換する技術が開発されている。例えばこのような技術は、録音データをテキストデータに自動変換したり、音声検索を実現したりするために利用されている。例えば特許文献１は、End-to-End 型ニューラルネットワークに基づく音響モデルを用いて音声認識を行う技術を開示している。

特開２０１７－２１９７６９号公報

　本発明者は、音声認識を行う新たな技術を見出した。本願発明の目的の１つは新たな音声認識の技術を提供することである。

　本発明の音声認識装置は、１）音声フレームを圧縮文字列データに変換する第１モデルに対し、取得した音声フレームを入力することで、取得した音声フレームに対応する圧縮文字列データを生成する第１変換部と、２）圧縮文字列データを文字列データに変換する第２モデルに対し、第１変換部によって生成された圧縮文字列データを入力することで、取得した音声フレームに対応する文字列データを生成する第２変換部と、を有する。
　圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さい。
　第１モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルである。
　第２モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習されたデコーダである。

　本発明の制御方法はコンピュータによって実行される。当該制御方法は、１）音声フレームを圧縮文字列データに変換する第１モデルに対し、取得した音声フレームを入力することで、取得した音声フレームに対応する圧縮文字列データを生成する第１変換ステップと、２）圧縮文字列データを文字列データに変換する第２モデルに対し、第１変換部によって生成された圧縮文字列データを入力することで、取得した音声フレームに対応する文字列データを生成する第２変換ステップと、を有する。
　圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さい。
　第１モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルである。
　第２モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習されたデコーダである。

　本発明のプログラムは、本発明の制御方法をコンピュータに実行させる。

　本発明によれば、新たな音声認識の技術が提供される。

実施形態１に係る音声認識装置の動作を概念的に例示する図である。第１モデルと第２モデルの学習方法を概念的に例示する図である。音声認識装置の機能構成を例示するブロック図である。音声認識装置を実現するための計算機を例示する図である。実施形態１の音声認識装置によって実行される処理の流れを例示するフローチャートである。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。以下の説明において、特に説明しない限り、各種所定の値（閾値など）は、その値を利用する機能構成部からアクセス可能な記憶装置に予め記憶させておく。

［実施形態１］
＜概要＞
　図１は、実施形態１に係る音声認識装置２０００の動作を概念的に例示する図である。ここで、図１を用いて説明する音声認識装置２０００の動作は、音声認識装置２０００の理解を容易にするための例示であり、音声認識装置２０００の動作を限定するものではない。音声認識装置２０００の動作の詳細やバリエーションについては後述する。

　音声認識装置２０００は、音声を文字列に変換するために利用される。より具体的には、音声認識装置２０００は、音声フレームを文字列データに変換する。音声フレームとは、例えば、人の発言が記録された音声データ（以下、ソースデータ）から、一部の時間区間の音声信号を抽出することで得られた音声データである。音声データは、例えば、音声信号の波形を表すベクトルデータなどである。ソースデータは、例えば、会話やスピーチの録音データや、音声検索のために入力された検索ワードの音声データなどである。

　なお、ソースデータから一部の時間区間の音声信号を抽出することで得られた音声データについて、音声特徴量の抽出を行い、その音声特徴量を表すデータを音声フレームとして扱ってもよい。音声特徴量としては、ケプストラム特徴量などといった種々の特徴量を用いることができる。

　文字列データは、１つ以上の文字の列を表すデータである。例えば文字列データは、文字ベクトルの列である。例えば文字ベクトルは、表現可能な文字の種類の数と同じ長さの one-hot ベクトルである。例えば文字列データによって N 種類（N は自然数）の文字を扱え、文字列データを構成する各文字が１つの one-hot ベクトルで表されるとする。この場合、文字列データは、長さ N の one-hot ベクトルの列となる。具体的には、文字ベクトルの各ビットに対し、それぞれ異なる文字が予め割り当てられる。そして、文字列データを構成する各文字ベクトルにおいて、その文字ベクトルで表現する文字に対応するビットのみに１が設定され、その他のビットには０が設定される。ただし、文字列データは、表現したい文字列を表現可能な形式のデータであればよく、必ずしも one-hot ベクトルを利用して実現される必要はない。また、文字ベクトルの代わりに、単語ベクトルを利用してもよい。すなわち、文字列データを構成する各ベクトルで、１つの文字ではなく１つの単語を表せるようにしてもよい。

　音声認識装置２０００は、音声フレームを文字列データに変換する際、まず、音声フレームを圧縮文字列データに変換する。そして、音声認識装置２０００は、音声フレームから得られた圧縮文字列データを文字列データに変換することで、音声フレームに対応する文字列データを生成する。

　圧縮文字列データは、文字列データよりも小さいデータサイズで、文字列データによって表されている文字列を表すことができるデータである。例えば文字列データを構成する文字ベクトルが長さ N の one-hot ベクトル（N ビットのベクトル）である場合、圧縮文字列データを構成する文字ベクトルは N ビットより小さいサイズのベクトルである。例えば、文字列データと圧縮文字列データがいずれも漢字を含む文字列を表しており、かつ、圧縮文字列データで扱える漢字の種類が文字列データで扱える漢字の種類よりも少ないというケースが考えられる。この場合、圧縮文字列データを構成する文字ベクトルの次元数が、文字列データを構成する文字ベクトルの次元数よりも少なくなる。

　ここで、音声フレームから圧縮文字列データへの変換は、第１モデル１０を用いて行われる。また、圧縮文字列データから文字列データへの変換は、第２モデル２０を用いて行われる。

　図２は、第１モデル１０と第２モデル２０の学習方法を概念的に例示する図である。第１モデル１０は、入力された音声フレームを圧縮文字列データに変換するように学習された、学習済みモデルである。第１モデル１０の学習は、「音声フレーム、正解の圧縮文字列データ（その音声フレームによって表される文字列をエンコードすることで得られる圧縮文字列データ）」というペアを含む教師データを用いて行われる。具体的には、第１モデル１０が音声フレームの入力に応じて出力した圧縮文字列データと、その音声フレームに対応付けられている正解の圧縮文字列データとの誤差を小さくするように、学習が行われる。

　第２モデル２０は、入力された圧縮文字列データを文字列データに変換するように学習された、学習済みモデルである。第２モデル２０の学習は、図１に示すオートエンコーダ４０の学習によって実現できる。オートエンコーダ４０は、エンコーダ４２とデコーダ４４を有する。エンコーダ４２は、オートエンコーダ４０へ入力された文字列データをエンコードすることにより、文字列データを圧縮文字列データに変換する。一方、デコーダ４４は、エンコーダ４２によって出力された圧縮文字列データをデコードすることにより、圧縮文字列データを文字列データに変換する。そして、デコーダ４４によって得られた文字列データが、オートエンコーダ４０から出力される。

　オートエンコーダ４０は、入力された文字列データと出力された文字列データとの誤差がちいさくなるように学習される。オートエンコーダ４０の学習が行われた結果、デコーダ４４は、圧縮文字列データを元の文字列データに復元できるようになる。これは、文字列データを、よりサイズが小さい圧縮文字列データで表すことができるようになったことを意味する。また、オートエンコーダ４０の学習により、文字列データを圧縮文字列データに変換できるエンコーダと、圧縮文字列データを文字列データに変換できるデコーダが得られる。第２モデル２０としては、このようにして得られた学習済みのデコーダ４４が用いられる。

＜作用効果の一例＞
　音声認識装置２０００によれば、音声フレームを圧縮文字列データに変換するように学習された第１モデル１０と、圧縮文字列データを文字列データに変換するように学習された第２モデル２０とを用いて、音声フレームを文字列データが変換される。少なくとも第２モデル２０は、ニューラルネットワークで実現される。このように、本発明によれば、ニューラルネットワークを用いて音声認識を行う新たな技術が提供される。

　また、第１モデル１０の出力を通常の文字列データではなく、圧縮文字列データとすることで、モデルのパラメタ数を減らすことができる。これにより、学習と推論の双方において処理速度を向上できる。

　以下、音声認識装置２０００についてより詳細に説明する。

＜機能構成の例＞
　図３は、音声認識装置２０００の機能構成を例示するブロック図である。音声認識装置２０００は、第１変換部２０２０及び第２変換部２０４０を有する。第１変換部２０２０は第１モデル１０を有する。第１変換部２０２０は、音声フレームを取得し、その音声フレームを第１モデル１０に入力することで、その音声フレームを圧縮文字列データに変換する。第２変換部２０４０は第２モデル２０を有する。第２変換部２０４０は、第１変換部２０２０を利用して得られた圧縮文字列データ（第１変換部２０２０が取得した音声フレームに対応する圧縮文字列データ）を第２モデル２０に入力することで、その圧縮文字列データを文字列データに変換する。これにより、取得した音声フレームに対応する文字列データが得られる。

＜ハードウエア構成の例＞
　音声認識装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、音声認識装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

　図４は、音声認識装置２０００を実現するための計算機１０００を例示する図である。計算機１０００は、任意の計算機である。例えば計算機１０００は、PC（Personal Computer）やサーバマシンなどといった、据え置き型の計算機である。その他にも例えば、計算機１０００は、スマートフォンやタブレット端末などといった可搬型の計算機である。

　計算機１０００は、音声認識装置２０００を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。後者の場合、例えば、計算機１０００に対して所定のアプリケーションをインストールすることにより、計算機１０００で、音声認識装置２０００の各機能が実現される。上記アプリケーションは、音声認識装置２０００の機能構成部を実現するためのプログラムで構成される。

　計算機１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。

　プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

　入出力インタフェース１１００は、計算機１０００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース１１００には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

　ネットワークインタフェース１１２０は、計算機１０００を通信網に接続するためのインタフェースである。この通信網は、例えば LAN（Local Area Network）や WAN（Wide Area Network）である。

　ストレージデバイス１０８０は、音声認識装置２０００の各機能構成部を実現するプログラム（前述したアプリケーションを実現するプログラム）を記憶している。プロセッサ１０４０は、このプログラムをメモリ１０６０に読み出して実行することで、音声認識装置２０００の各機能構成部を実現する。

　ここで、音声認識装置２０００は、１つの計算機１０００で実現されてもよいし、複数の計算機１０００で実現されてもよい。後者の場合、例えば音声認識装置２０００は、第１変換部２０２０を実現する１つ以上の計算機１０００と、第２変換部２０４０を実現する１つ以上の計算機１０００とを有する分散システムとして実現される。

＜処理の流れ＞
　図５は、実施形態１の音声認識装置２０００によって実行される処理の流れを例示するフローチャートである。第１変換部２０２０は音声フレームを取得する（Ｓ１０２）。第１変換部２０２０は音声フレームを第１モデル１０に入力することで、音声フレームを圧縮文字列データに変換する（Ｓ１０４）。第２変換部２０４０は、Ｓ１０４で得られた圧縮文字列データを第２モデル２０に入力することで、圧縮文字列データを文字列データに変換する（Ｓ１０６）。

＜オートエンコーダ４０について＞
　図２に示したように、オートエンコーダ４０はエンコーダ４２とデコーダ４４で構成される。オートエンコーダ４０は、例えば、ニューラルネットワークで実現される。エンコーダ４２は、入力された文字列データを圧縮文字列データに変換（エンコード）するモデルである。デコーダ４４は、エンコーダ４２から出力された圧縮文字列データを文字列データに変換（デコード）するモデルである。

　ここで、オートエンコーダ４０は、圧縮文字列データのデータサイズが文字列データのデータサイズよりも小さくなるように構成されている。そのため、エンコーダ４２は、出力されるデータのサイズが入力されるデータのサイズよりも小さくなるように構成されている。このような構成は、例えば、エンコーダ４２において、出力層のノード数を入力層のノード数よりも少なくすることで実現できる。また、デコーダ４４は、入力されるデータのサイズがエンコーダ４２から出力されるデータのサイズと等しい（すなわち、圧縮文字列データのサイズである）ように構成され、かつ、出力されるデータのサイズがエンコーダ４２に入力されるデータのサイズと等しい（すなわち、文字列データのサイズである）ように構成される。このような構成は、例えば、デコーダ４４の入力層のノード数をエンコーダ４２の出力層のノードの数と等しくし（あるいは、エンコーダ４２の出力層をデコーダ４４の入力層として用い）、かつ、デコーダ４４の出力層のノード数をエンコーダ４２の入力層のノード数と等しくすることで実現できる。

　オートエンコーダ４０の学習は、任意の複数種類の文字列を利用して行うことができる。オートエンコーダ４０の学習を行う具体的な技術には、既存の技術を利用することができる。

　ただし、圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さいため、１つのオートエンコーダ４０において圧縮文字列データで表すことができる文字列の種類の数、すなわち、１つのオートエンコーダ４０で扱うことができる文字列の種類の数は、文字列データで表現可能な文字列の種類の数よりも少なくなる。例えば文字列データが 3,000 種類の文字列を表すことができる一方で、圧縮文字列データは 1,000 種類の文字列しか表すことができないとする。この場合、１つのオートエンコーダ４０で扱うことができる文字列の種類の数は 1,000 種類となる。

　そこで、オートエンコーダ４０の学習には、音声認識装置２０００で解析したいソースデータに含まれている蓋然性が高い文字列を利用することが好適である。例えば音声認識装置２０００が、ソフトウエア開発会社などのようなコンピュータ分野の会社において、会議を録音したファイルを文書ファイルに変換するために利用されるとする。この場合、音声認識装置２０００に入力される音声フレームには、コンピュータ分野の専門用語が多く含まれている蓋然性が高い。そこでこのケースでは、オートエンコーダ４０の学習に、コンピュータ分野の専門用語を表す文字列を多く利用することが好適である。

　なお、後述するように、複数のオートエンコーダ４０を用意することで、モデルのセット（第１モデル１０、第２モデル２０（＝エンコーダ４２）、及びデコーダ４４のセット）を分野ごと等に複数用意してもよい。このようにモデルのセットを複数用意する形態については後述する。

＜第１モデル１０について＞
　第１モデル１０は、入力された音声フレームを圧縮文字列データに変換するように学習された、学習済みモデルである。モデルの種類には、ニューラルネットワークやサポートベクトルマシンなどといった任意のものを利用できる。

　前述したように、第１モデル１０の学習は、「音声フレーム、正解の圧縮文字列データ」というペアを含む複数の教師データを用いて行われる。なお、入力データとそれに対応する正解データのペアを用いてモデルの学習を行う技術には、既存の技術を利用することができる。

　前述した教師データは、同一の文字列に対応する音声フレームと圧縮文字列データである。そこで、或る文字列に対応する音声フレームと圧縮文字列データをそれぞれ生成し、これらを対応付けることにより、教師データを生成することができる。

　特定の文字列に対応する圧縮文字列データは、例えば、学習済みのエンコーダ４２を利用して生成することができる。前述したように、エンコーダ４２は、文字列データを圧縮文字列データに変換する。そのため、特定の文字列に対応する圧縮文字列データは、その文字列をエンコーダ４２に入力することで得ることができる。例えば、「雨」という文字列に対応する圧縮文字列データは、「雨」という文字列を表す文字列データを用意し、その文字列データを学習済みのエンコーダ４２に入力することで得ることができる。

　特定の文字列に対応する音声フレームは、種々の既存の手法を利用して得ることができる。例えば、特定の文字列を実際に人に発言させてその発言を録音することで、その文字列に対応する音声信号を表す音声フレームを得ることできる。その他にも例えば、文字列データを音声データに変換する既存のソフトウエアを利用することにより、特定の文字列に対応する音声信号を表す音声フレームを得ることができる。例えば、「雨」という文字列に対応する音声フレームは、「雨」という言葉を発言した音声を録音したり、文字列データを音声に変換するソフトウエアに対して「雨」という文字列データを入力したりすることで得ることができる。なお、特定の文字列に対応する音声特徴量を表す音声フレームは、特定の文字列に対応する音声信号を表すデータを得た後、そのデータを特徴量に変換することで生成することができる。

　第１モデル１０の学習に利用する教師データには、任意の文字列に対応する音声フレームと圧縮文字列データのペアを利用することができる。ただし、前述したように、オートエンコーダ４０で扱える文字列の種類の数は、文字列データで表現可能な文字列の種類の数よりも少なくなる。そこで、教師データには、オートエンコーダ４０で扱うことができる文字列（すなわち、オートエンコーダ４０の学習に利用された文字列）に対応する音声フレームと圧縮文字列データのペアを利用することが好適である。言い換えれば、オートエンコーダ４０の学習に利用した文字列を利用して教師データを生成することが好適である。

＜音声フレームの取得＞
　第１変換部２０２０は音声フレームを取得する（Ｓ１０２）。音声フレームは、ソースデータの一部の時間区間を切り出した音声信号を表す音声データ、又は、その音声データから得られる特徴量である。ソースデータから音声フレームを生成する処理は、音声認識装置２０００によって行われてもよいし、音声認識装置２０００以外の装置によって行われてもよい。前者の場合、音声認識装置２０００は、ソースデータを取得し、ソースデータから複数の音声フレームを生成し、各音声フレームを文字列データに変換する。一方、後者の場合、音声認識装置２０００は、他の装置によってソースデータから得られた複数の音声フレームを取得し、各音声フレームを文字列データに変換する。

　なお、音声を文字列に変換する処理を行う際に、録音データなどのソースデータから複数の音声フレームを生成する技術には、既存の技術を利用することができる。例えば、音声フレームを生成する処理は、ソースデータから音声区間（音声が存在する区間）を検出し、所定長のタイムウインドウを音声区間の先頭から一定の時間幅で移動させながら、タイムウインドウに含まれる音声信号を順に抽出していく処理となる。このようにして抽出された各音声信号や、その音声信号から得られる特徴量が、音声フレームとして利用される。

＜文字列データの出力＞
　音声認識装置２０００は、生成した文字列データを出力する（Ｓ１０６）。生成した文字列データの出力先は任意である（例えば、記憶装置やディスプレイ装置など）。

　なお、音声認識装置２０００を利用することで得られる文字列データの利用方法は様々である。例えば、音声認識装置２０００を利用して得られる文字列データは、ソースデータによって表される会議やスピーチの発言内容を表すテキストデータを生成するため（いわゆる文字起こし）に利用される。この場合、音声認識装置２０００は、ソースデータから抽出される時系列の複数の音声フレームを順に文字列データに変換していく。これにより、時系列の複数の文字列データが得られる。このようにして得られた時系列の複数の文字列データを利用することで、テキストデータが生成される。ここで、時系列の複数の音声フレームから得られた時系列の複数の文字列データを利用して、会議等の発言内容を表すテキストデータを生成する技術には、既存の技術を利用することができる。

＜利用シーンに応じたモデルの選択＞
　前述したように、圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さいため、１つのオートエンコーダ４０で扱うことができる文字列の種類の数は、文字列データで表現可能な文字列の種類の数よりも少なくなる。このことから、「第１モデル１０、第２モデル２０（＝デコーダ４４）」という学習済みモデルのセット１つで扱える文字列の種類は、文字列データで表現可能な文字列の種類の数よりも小さくなる。

　そこで例えば、学習済みモデルのセットを利用シーンごとに用意し、音声認識装置２０００の利用シーンに応じて、音声認識装置２０００が利用するモデルを選択できるようにすることが好適である。例えば音声認識装置２０００が、会議の録音データをテキストファイルに変換するために利用されるとする。この場合、会議の中に現れる文字列のバリエーションには、どの分野の人たちの会議なのかによって偏りが生じる。例えば、コンピュータ分野の人たちの会議ではコンピュータ分野の専門用語が多く現れる一方、医学分野の人たちの会議では医学分野の専門用語が多く現れる。

　そこでこのような場合、分野ごとに学習済みモデルのセットを用意しておく。具体的には、コンピュータ分野の録音データに利用されるモデルのセットは、コンピュータ分野の専門用語を多く含む複数の文字列を利用して学習される。一方、医学分野の録音データに利用される学習済みモデルのセットは、医学分野の専門用語を多く含む複数の文字列を利用して学習される。

　利用シーンごとにモデルのセットを選択する方法には、様々な方法を採用できる。例えば、１つの音声認識装置２０００において、モデルのセットを切り替えられるようにしておく。この場合、音声認識装置２０００からアクセス可能な記憶装置に、利用シーン（例えば分野）の識別情報と学習済みモデルのセットとを対応付けて、予め格納しておく。音声認識装置２０００は、ユーザに対し、利用シーンを選択する画面を提供する。音声認識装置２０００は、ユーザによって選択された利用シーンに対応する学習済みモデルのセットを記憶装置から読み出す。そして、第１変換部２０２０と第２変換部２０４０はそれぞれ、読み出したモデルのセットに含まれる第１モデル１０と第２モデル２０を利用する。これにより、ユーザによって選択された利用シーンに適した学習済みモデルを利用して、音声フレームから文字列データへの変換が行われる。

その他にも例えば、音声認識装置２０００を複数用意し、各音声認識装置２０００にそれぞれ異なるモデルのセットを設定しておいてもよい。この場合、利用シーンに対応した音声認識装置２０００が利用されるようにする。例えば、ユーザからリクエストを受け付けるフロントエンドのマシンを用意し、そのマシンが前述した選択画面を提供するようにする。ユーザが選択画面で利用シーンを選択すると、選択された利用シーンに対応する音声認識装置２０００を利用して、音声データから文字列データを得る処理が行われる。

　上述したように利用シーンごとにモデルのセットを用意するためには、各利用シーンに対応するモデルの学習を行う。例えば、コンピュータ分野の音声を扱うためのモデルのセットと、医学分野の音声を扱うためのモデルのセットを用意するとする。この場合、前者のモデルのセットは、コンピュータ分野の音声に対応する音声フレームと文字列データを利用して学習する。例えば、コンピュータ分野の会話に出てくる各文字列を表す文字列データを利用してオートエンコーダ４０の学習を行うことで、コンピュータ分野の音声を扱うためのエンコーダ４２とデコーダ４４を得ることができる。また、コンピュータ分野の会話に出てくる各文字列について、「その文字列を表す音声フレーム、その文字列をエンコーダ４２に入力することで得られる圧縮文字列データ」のペアを用意し、用意した各ペアを利用して第１モデル１０の学習を行う。これにより、コンピュータ分野の音声を扱うための第１モデル１０を得ることができる。そして、第１変換部２０２０と第２変換部２０４０がそれぞれ、このようにして得られた第１モデル１０と第２モデル２０（デコーダ４４）を利用するようにすることで、音声認識装置２０００がコンピュータ分野の音声を扱うことができるようになる。

　他の分野の音声についても同様のことをすることにより、様々な分野の音声に対応するモデルのセットを得ることができる。そのため、音声認識装置２０００で様々な分野の音声を扱うことができるようになる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
１．　音声フレームを圧縮文字列データに変換する第１モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第１変換部と、
　前記圧縮文字列データを文字列データに変換する第２モデルに対し、前記第１変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第２変換部と、を有し、
　前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
　前記第１モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
　前記第２モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、音声認識装置。
２．　前記音声フレームは音声信号から得られた音声特徴量である、１．に記載の音声認識装置。
３．　前記正解データとして利用される前記圧縮文字列データは、その正解データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、１．又は２．に記載の音声認識装置。
４．　コンピュータによって実行される制御方法であって、
　音声フレームを圧縮文字列データに変換する第１モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第１変換ステップと、
　前記圧縮文字列データを文字列データに変換する第２モデルに対し、前記第１変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第２変換ステップと、を有し、
　前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
　前記第１モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
　前記第２モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、制御方法。
５．　前記音声フレームは音声信号から得られた音声特徴量である、４．に記載の制御方法。
６．　前記正解データとして利用される前記圧縮文字列データは、その正解データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、４．又は５．に記載の制御方法。
７．　４．から６いずれか一つに記載の制御方法をコンピュータに実行させるプログラム。

１０　第１モデル
２０　第２モデル
４０　オートエンコーダ
４２　エンコーダ
４４　デコーダ
１０００　計算機
１０２０　バス
１０４０　プロセッサ
１０６０　メモリ
１０８０　ストレージデバイス
１１００　入出力インタフェース
１１２０　ネットワークインタフェース
２０００　音声認識装置
２０２０　第１変換部
２０４０　第２変換部

Claims

　音声フレームを圧縮文字列データに変換する第１モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第１変換部と、
　前記圧縮文字列データを文字列データに変換する第２モデルに対し、前記第１変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第２変換部と、を有し、
　前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
　前記第１モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
　前記第２モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、音声認識装置。
　前記音声フレームは音声信号から得られた音声特徴量である、請求項１に記載の音声認識装置。
　前記正解データとして利用される前記圧縮文字列データは、その正解データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、請求項１又は２に記載の音声認識装置。
　コンピュータによって実行される制御方法であって、
　音声フレームを圧縮文字列データに変換する第１モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第１変換ステップと、
　前記圧縮文字列データを文字列データに変換する第２モデルに対し、前記第１変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第２変換ステップと、を有し、
　前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
　前記第１モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
　前記第２モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、制御方法。
　請求項４に記載の制御方法をコンピュータに実行させるプログラム。