JP7170287B2

JP7170287B2 - 音声認識装置、音声認識方法、及びプログラム

Info

Publication number: JP7170287B2
Application number: JP2020518987A
Authority: JP
Inventors: 夏樹佐伯
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-05-18
Filing date: 2019-02-19
Publication date: 2022-11-14
Anticipated expiration: 2039-02-19
Also published as: EP3796309A1; EP3796309A4; US11756552B2; WO2019220725A1; US20210043213A1; JPWO2019220725A1

Description

本開示は、発話を音声認識する音声認識装置、音声認識方法、及びプログラムに関する。

特許文献１は、話者の音声を音声認識する音声認識装置を開示している。この音声認識装置は、商品単価の桁毎の数を記述した音声認識リソースを生成し、音声に含まれる桁毎の数を、音声認識リソース内の桁毎の数から抽出して認識している。これにより、音声認識リソースの記憶量を減少させるとともに、音声の数値の誤認識を防止している。

特開２０００－３５６９９８号公報

本開示は、音声認識誤りを低減する音声認識装置、音声認識方法、及びプログラムを提供する。

本開示の音声認識装置は、発話の音声認識結果である発話文を取得する取得部と、最大桁数を示す桁数情報を格納する記憶部と、発話文に含まれる第１の数詞が示す第１の数値の桁数が最大桁数よりも大きいときに、発話文内の第１の数詞を、桁数が最大桁数以下の第２の数値を示す第２の数詞に置き換える制御部と、を備え、制御部は、第１の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第２の数値を算出する。

これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

本開示の音声認識装置、音声認識方法、及びプログラムは、発話文に含まれる第１の数詞が示す第１の数値の桁数が最大桁数よりも大きいときに、発話文内の第１の数詞を最大桁数以下の第２の数値を示す第２の数詞に置き換える。これにより、数詞の音声認識誤りを低減することができる。

音声認識装置の外観を示す図音声認識システムの電気的な構成を示すブロック図数詞補正の一例を示す図音声認識の全体動作を説明するためのフローチャート結果リストの生成の具体例１を示す図結果リストの生成の具体例２を示す図結果リストの生成動作を説明するためのフローチャート処理Ｐを説明するためのフローチャート処理Ｄを説明するためのフローチャート図５Ａの具体例１における処理の流れを示す図図５Ｂの具体例２における処理の流れを示す図結果値の選択を説明するためのフローチャート結果値の選択画面の一例を示す図

（本開示の基礎となった知見）
話者が、間を空けて又はゆっくり、数詞を発話した場合、音声認識において数詞が誤認識される場合がある。例えば、話者が「１２３」を「百、二十、三」のように、「百」と「二十」の間と「二十」と「三」との間をそれぞれ空けて発話した場合、「１２３」が「１００２０３」と誤認識される。

本開示の音声認識装置は、誤認識された数詞を補正する。誤認識された数詞とは、予め設定された最大桁数よりも大きな数値を示す数詞のことを指す。音声認識装置は、発話の音声認識結果である発話文内の数詞が示す数値が最大桁数よりも大きいときに、最大桁数以下の数値を示すように、発話文内の数詞を変更する。最大桁数は、音声認識装置が使用される場所に応じて予め設定される。例えば、音声認識装置がホテルのフロントで使用される場合、最大桁数は、ホテル内の部屋番号の最大桁数に設定される。音声認識装置が空港又は航空機内で使用される場合、最大桁数は、便名の最大桁数に設定される。例えば、音声認識装置は、最大桁数が「３」の場合において、音声認識結果として数詞「１００２０３」を含む発話文を音声認識サーバから取得したときは、数詞「１００２０３」を最大桁数３桁以下の「１２３」に補正する。すなわち、発話文内の数詞が最大桁数以下の数値を示すように、発話文内の数詞を補正する。これにより、数詞の音声認識誤りを低減する。

（実施形態）
以下、実施形態について、図面を参照しながら説明する。

１．構成
１－１．音声認識装置の外観
図１は、本実施形態にかかる音声認識装置の外観の一例を示している。音声認識装置１は、例えばタブレットタイプである。例えば、第１の言語を話すホストと第２の言語を話すゲストが、音声認識装置１を介して、対面で会話する。音声認識装置１は、例えば、言語が異なる２人のユーザの会話を音声認識して翻訳する。

音声認識装置１は、マイク１２と、タッチパネル１３と、ディスプレイ１４と、スピーカ１５とを備える。マイク１２及びスピーカ１５は、例えば、音声認識装置１の側面の開口近傍に配置されている。タッチパネル１３及びディスプレイ１４は、音声認識装置１の主面に配置されている。ディスプレイ１４の長手方向の一方側であるホスト側の領域には、発話アイコン１４１ｈ及び表示領域１４２ｈが配置される。ディスプレイ１４の長手方向の他方側であるゲスト側の領域には、発話アイコン１４１ｇ及び表示領域１４２ｇが配置される。各発話アイコン１４１ｈ、１４１ｇに対して、ユーザによるタッチ操作により操作がなされる。

発話アイコン１４１ｈは、ホストが発話を行うときに、すなわち、第１の言語の発話を音声認識装置１に入力するときに、ホスト本人がホストの発話の開始時点及び終了時点を指定するための操作アイコンである。発話アイコン１４１ｇは、ゲストが発話を行うときに、すなわち、第２の言語の発話を入力するときに、ゲスト本人がゲストの発話の開始時点及び終了時点を指定するための操作アイコンである。表示領域１４２ｈ、１４２ｇは、発話文及び翻訳文を文字列として表示するための領域である。

１－２．音声認識装置及びサーバの構成
図２は、音声認識システムの電気的な構成を示すブロック図である。音声認識システム１００は、図１に示す音声認識装置１、音声認識サーバ３、翻訳サーバ４、及び音声合成サーバ５を有する。音声認識装置１は、インターネットのようなネットワーク２を介して、音声認識サーバ３、翻訳サーバ４、及び音声合成サーバ５のそれぞれとデータ通信を行う。

音声認識装置１は、マイク１２と、タッチパネル１３と、ディスプレイ１４と、スピーカ１５とに加えて、制御部１１と、記憶部１６と、通信部１７とを備える。

制御部１１は、ＣＰＵ、ＭＰＵ等で構成され、記憶部１６に格納された各種プログラムを実行することにより、音声認識装置１の全体の動作を制御する。制御部１１は、記憶部１６に格納されたデータやプログラムを読み出して種々の演算処理を行うことで、所定の機能を実現する。本実施形態では、制御部１１の機能は、ハードウェアとソフトウェアの協同により実現するが、制御部１１を所定の機能を実現するように専用に設計されたハードウェア回路のみで実現してもよい。すなわち、制御部１１は、ＣＰＵ、ＭＰＵのみならず、ＤＳＰ、ＦＰＧＡ、ＡＳＩＣ等で構成することができる。

マイク１２は、入力した音声をデジタル音声データに変換する装置である。具体的には、マイク１２は、音声をアナログ電気信号である音声信号に変換し、さらに、ＡＤ変換器により音声信号をデジタル音声データに変換する。

タッチパネル１３はディスプレイ１４に重畳して配置されている。タッチパネル１３は、ユーザからの指示を受け付ける。

マイク１２及びタッチパネル１３は、外部から音声認識装置１への入力を行う、例えば、ユーザの音声及びユーザの指示を受け付ける入力部の一例である。音声認識装置１は、入力部として、マイク１２及びタッチパネル１３に限らず、キーボード、ボタン、スイッチ、カメラ、及びこれらの組み合わせを備えてもよい。

ディスプレイ１４は、画像を表示する表示部であり、液晶表示デバイスまたは有機ＥＬ表示デバイスで構成される。ディスプレイ１４は、発話アイコン１４１ｈ、１４１ｇを表示する。ディスプレイ１４は、表示領域１４２ｈ、１４２ｇにおいて、発話文及び翻訳文のテキストデータが示す画像を表示する。

スピーカ１５は、電気信号である音声信号を音声に変換する装置である。スピーカ１５は、音声信号に基づいた音声を出力する。

ディスプレイ１４及びスピーカ１５は、音声認識装置１から外部への出力を行う、例えば、発話文及び翻訳文、及び翻訳文に対応する音声を外部に出力する、出力部の一例である。

記憶部１６は、フラッシュメモリ、強誘電体メモリ、ＨＤＤ、ＳＳＤ、ＲＡＭ、及びこれらの組み合わせなどで構成される記録媒体である。記憶部１６は、制御部１１のための各種プログラムを格納している。記憶部１６は、デジタル音声データ、発話文のテキストデータ、及び翻訳文のテキストデータを格納する。

本実施形態において、記憶部１６は、最大桁数情報１６１と数値候補情報１６２を格納する。最大桁数情報１６１は最大桁数を示す。数値候補情報１６２は１つ以上の数値候補を示す。例えば、音声認識装置１が空港又は航空機内で使用される場合、最大桁数情報１６１は便名の数値部分の最大桁数（例えば、４桁）を示し、数値候補情報１６２は便名の数値部分を示す。例えば、音声認識装置１がホテルで使用される場合は、最大桁数情報１６１はホテル内の部屋番号の数値部分の最大桁数（例えば、３桁）を示し、数値候補情報１６２はホテル内の部屋番号の数値部分を示す。

通信部１７は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、３Ｇ、ＬＴＥ（登録商標）、ＩＥＥＥ８０２．１１等の通信方式に従って、ネットワーク２を介して音声認識サーバ３、翻訳サーバ４、及び音声合成サーバ５とデータ通信を行う通信モジュールである。通信部１７は、音声認識サーバ３から発話文のテキストデータを取得する取得部の一例である。

音声認識サーバ３は、音声認識装置１からネットワーク２を介してデジタル音声データを受信すると、受信したデジタル音声データを音声認識する。音声認識サーバ３は、音声認識結果である発話文のテキストデータを生成する。

翻訳サーバ４は、翻訳及び逆翻訳を行う。具体的には、翻訳サーバ４は、音声認識装置１からネットワーク２を介して、発話文のテキストデータを受信すると、発話文を翻訳して、翻訳文のテキストデータを生成する。翻訳サーバ４は、音声認識装置１からネットワーク２を介して、翻訳文のテキストデータを受信すると、翻訳文を逆翻訳して、逆翻訳文のテキストデータを生成する。

音声合成サーバ５は、音声認識装置１からネットワーク２を介して、翻訳文のテキストデータを受信すると、受信した翻訳文のテキストデータを音声合成して、音声信号を生成する。

２．動作
２－１．数詞補正の概要
図３は、数詞補正の一例を示している。音声認識装置１は、ユーザの発話をマイク１２から取得すると、発話に対応するデジタル音声データを音声認識サーバ３に送信する。これにより、音声認識装置１は、音声認識サーバ３から発話文のテキストデータを取得する。発話文のテキストデータは、ユーザの音声に基づいて生成された文字列のデータである。

ユーザが、数詞を発話するときに間をあけて、例えば、「あなたの部屋は、百、二十、三号室です。」と発話してしまうと、音声認識サーバ３において、「百、二十、三」が正しく認識されず、音声認識サーバ３から得られる発話文が「あなたの部屋は、１００２０３号室です。」となる場合がある。このような場合に、本実施形態の音声認識装置１は、発話文内の数詞「１００２０３」を桁数が最大桁数以下（３桁以下）の数値「１２３」を示す数詞に補正する。

２－２．音声認識の全体動作
図４は、音声認識装置１の制御部１１が行う音声認識の全体動作を示している。制御部１１は、マイク１２を介して、話者の音声に応じたデジタル音声データを入力する（Ｓ１）。

制御部１１は、音声認識処理により発話文を取得する（Ｓ２）。具体的には、制御部１１は、デジタル音声データを、ネットワーク２を介して音声認識サーバ３に送信する。音声認識サーバ３は、受信したデジタル音声データを音声認識して、発話文のテキストデータを生成する。制御部１１は、音声認識サーバ３からネットワーク２を介して、発話文のテキストデータを受信する。

制御部１１は、発話文から数詞を抽出する（Ｓ３）。例えば、発話文から０～９までの数字を含む数詞を抽出する。制御部１１は、抽出した数詞が示す数値の桁数を、最大桁数情報１６１が示す最大桁数と比較する（Ｓ４）。抽出した数詞が示す数値を入力値とも称する。制御部１１は、入力値の桁数が最大桁数よりも大きいか否かを判断し（Ｓ５）、入力値の桁数が最大桁数よりも大きければステップＳ６に進む。入力値の桁数が最大桁数以下であれば、ステップＳ６～Ｓ９に示す数詞補正を行わずに、図４に示す処理を終了する。

入力値の桁数が最大桁数よりも大きい場合（Ｓ５でＹｅｓ）、制御部１１は、発話文内の数詞に基づいて、結果リストを生成する（Ｓ６）。結果リストは、最大桁数以下の数値である結果値を含む。

制御部１１は、結果リストに２つ以上の結果値が含まれているか否かを判断する（Ｓ７）。結果リストに結果値が１つしか含まれていない場合（Ｓ７でＮｏ）、ステップＳ９に進む。２つ以上の結果値が結果リストに含まれている場合（Ｓ７でＹｅｓ）、制御部１１は結果値を１つ選択する（Ｓ８）。

制御部１１は、発話文内の数詞を、結果値を示す数詞に変更する（Ｓ９）。

発話文を翻訳する場合、音声認識装置１は、ステップＳ９の後に、発話文のテキストデータを翻訳サーバ４に送信し、翻訳サーバ４から翻訳文のテキストデータを受信する。音声認識装置１は、受信した翻訳文をディスプレイ１４に表示する。翻訳結果を音声で出力する場合、音声認識装置１は、翻訳文のテキストデータを音声合成サーバ５に送信し、翻訳文に対応する音声信号を受信する。音声認識装置１は、スピーカ１５から翻訳文に対応する音声を出力する。

２－３．結果リストの生成の具体例
図５Ａ及び図５Ｂを参照して、結果リストの生成（図４のステップＳ６）の具体例について説明する。

図５Ａは、発話文から抽出した数詞が「１００２０３」であり、最大桁数が「３」である場合の、結果リストの生成の具体例１を示している。この場合、制御部１１は、数詞「１００２０３」を、複数の数詞「１００」，「２０」，「３」に分割して、各数詞が示す数値を加算する。すなわち、「１００＋２０＋３」を計算する。これにより、結果値「１２３」を含む結果リストが生成される。

図５Ｂは、発話文から抽出した数詞が「３０００５０６」であり、最大桁数が「４」である場合の、結果リストの生成の具体例２を示している。この場合、制御部１１は、数詞「３０００５０６」を、複数の数詞「３０００」，「５０６」に分割して、各数詞が示す数値を加算する。すなわち、「３０００＋５０６」を計算する。さらに、数詞「３０００５０６」を、複数の数詞「３０００」，「５０」，「６」に分割して、「３０００＋５０＋６」を計算する。これにより、結果値「３５０６」と「３０５６」を含む結果リストが生成される。

２－４．結果リストの生成
発話文から抽出した数詞から結果リストを生成するときの具体的な動作について、図６～図８を参照して説明する。図６は、結果リストの生成、すなわち、図４のステップＳ６の詳細を示すフローチャートである。図７は、処理Ｐ、すなわち、図６のステップＳ６３の詳細を説明するためのフローチャートである。図８は、処理Ｄ、すなわち、図７のステップＳ６０６の詳細を説明するためのフローチャートである。

図６において、制御部１１は、対象文字列ｓ＿ｎｕｍと桁数ｄの初期値を設定する（Ｓ６１）。対象文字列ｓ＿ｎｕｍは、処理対象の文字列を入れるための変数である。ステップＳ６１において、制御部１１は、対象文字列ｓ＿ｎｕｍに、発話文から抽出した数詞を代入する。桁数ｄは、桁数を入れるための変数である。ステップＳ６１において、制御部１１は、桁数ｄに、最大桁数情報１６１が示す最大桁数を代入する。

制御部１１は、桁数ｄが１より小さいか否かを判断する（Ｓ６２）。桁数ｄが１以上であれば（Ｓ６２でＮｏ）は、制御部１１は、図７に示す処理Ｐ（ｓ＿ｎｕｍ，ｄ）を実行する（Ｓ６３）。処理Ｐ（ｓ＿ｎｕｍ，ｄ）は、対象文字列ｓ＿ｎｕｍから、桁数がｄ以下の数値を算出する処理である。処理Ｐ（ｓ＿ｎｕｍ，ｄ）の実行とは、例えば、対象文字列ｓ＿ｎｕｍと桁数ｄとを引数とする関数Ｐ（ｓ＿ｎｕｍ，ｄ）を呼び出すことである。制御部１１は、桁数ｄをデクリメントして（Ｓ６４）、ステップＳ６２に戻る。

制御部１１は、桁数ｄが１より小さくなると（Ｓ６２でＹｅｓ）、図６に示す処理を終了する。これにより、桁数ｄが最大桁数から１になるまで、処理Ｐ（ｓ＿ｎｕｍ，ｄ）が繰り返し実行される。

２－５．最大桁数以下の数値の算出（処理Ｐ）
図７に示す処理Ｐ（図６のステップＳ６３）について説明する。制御部１１は、桁数ｄが１以上か否かを判断する（Ｓ６０１）。桁数ｄが１よりも小さければ（Ｓ６０１でＮｏ）、図７に示す処理を終了する。

桁数ｄが１以上であれば（Ｓ６０１でＹｅｓ）、制御部１１は、対象文字列ｓ＿ｎｕｍが示す整数値ｉ＿ｎｕｍが１０^ｄよりも小さいか否かを判断する（Ｓ６０２）。整数値ｉ＿ｎｕｍは、対象文字列ｓ＿ｎｕｍを整数に変換した値が入れられた変数である。

整数値ｉ＿ｎｕｍが１０^ｄよりも小さければ（Ｓ６０２でＹｅｓ）、整数値ｉ＿ｎｕｍを変数ａｄｄの値に加算して得られた値を変数ｒｅｓｕｌｔに代入する（Ｓ６０３）。変数ａｄｄは、計算中の数値を入れるための変数である。変数ａｄｄの初期値はゼロである。変数ｒｅｓｕｌｔは、結果値を入れるための変数である。制御部１１は、変数ｒｅｓｕｌｔの値を結果リストに追加する（Ｓ６０４）。制御部１１は、桁数ｄをデクリメントして（Ｓ６０５）、ステップＳ６０１に戻る。

整数値ｉ＿ｎｕｍが１０^ｄ以上であれば（Ｓ６０２でＮｏ）、制御部１１は、図８に示す処理Ｄ（ｓ＿ｎｕｍ，ｄ）を実行し、得られた返り値を変数ｒｖＤ、ｒｖＬ、ｒｖＲ、ｒｖＩＮＦにそれぞれ代入する（Ｓ６０６）。処理Ｄは、対象文字列ｓ＿ｎｕｍを、桁数ｄ以下の整数値と文字列とに分割する処理である。処理Ｄ（ｓ＿ｎｕｍ，ｄ）の実行とは、例えば、対象文字列ｓ＿ｎｕｍと桁数ｄとを引数とする関数Ｄ（ｓ＿ｎｕｍ，ｄ）を呼び出すことである。変数ｒｖＤ、ｒｖＬ、ｒｖＲ、ｒｖＩＮＦには、図８のステップＳ６７０又はステップＳ６７１に示す返り値が代入される。

変数ｒｖＤは、次に処理すべき桁数を示す。変数ｒｖＤには、変数ｎｅｘｔＤの値又は「ｄ－１」が代入される。変数ｒｖＬは、対象文字列ｓ＿ｎｕｍから抽出された整数値を示す。変数ｒｖＬには、変数ｅｘｔＬの値又は「０」が代入される。変数ｒｖＲは、次に処理すべき文字列を示す。変数ｒｖＲには、変数ｅｘｔＲ又は変数ｓ＿ｎｕｍが示す文字列が代入される。変数ｒｖＩＮＦは加算処理をスキップさせるか否か、換言すると、変数ａｄｄの値に変数ｒｖＬの値を加算する処理をするか否かを示す。変数ｒｖＩＮＦには、返り値「Ｎｏｔｓｋｉｐ」又は「Ｓｋｉｐ」が代入される。

制御部１１は、変数ｒｖＤの値を桁数ｄに代入する（Ｓ６０７）。制御部１１は、変数ｒｖＩＮＦが処理をスキップさせることを示すか否かを判断する（Ｓ６０８）。変数ｒｖＩＮＦがスキップさせることを示す場合（Ｓ６０８でＹｅｓ）、制御部１１はステップＳ６０９～Ｓ６１１を実行せずに、ステップＳ６０１に戻る。

変数ｒｖＩＮＦがスキップさせることを示さなければ（Ｓ６０８でＮｏ）は、制御部１１は、変数ａｄｄの値に変数ｒｖＬの値を加算して得られた値を、変数ａｄｄの新たな値とする（Ｓ６０９）。

制御部１１は、桁数ｘが「ｒｖＤ－１」から「１」になるまで、処理Ｐ（ｒｖＲ，ｘ）を実行する（Ｓ６１０）。すなわち、次に処理すべき文字列ｒｖＲと桁数ｘとを引数とする関数Ｐ（ｒｖＲ，ｘ）を再帰的に呼び出す。

制御部１１は、対象文字列ｓ＿ｎｕｍに次に処理すべき文字列ｒｖＲを代入して（Ｓ６１１）、ステップＳ６０１に戻る。

以上の処理により、対象文字列ｓ＿ｎｕｍの整数値ｉ＿ｎｕｍの桁数が桁数ｄよりも大きいとき（Ｓ６０２でＮｏ）は、処理Ｄにおいて、対象文字列ｓ＿ｎｕｍから抽出された数値、すなわち変数ｒｖＬの値が変数ａｄｄの値に加算される（Ｓ６０９）。整数値ｉ＿ｎｕｍの桁数が桁数ｄ以下のときに（Ｓ６０２でＹｅｓ）、整数値ｉ＿ｎｕｍが変数ａｄｄの値に加算され（Ｓ６０３）、変数ｒｅｓｕｌｔが示す結果値が結果リストに追加される（Ｓ６０４）。桁数ｄが最大桁数から１より小さくなるまで、計算する度に桁数ｄを減らしていき（Ｓ６０５，Ｓ６０７）、桁数ｄが１より小さくなると図７に示す処理Ｐを終了する。

桁数ｄが最大桁数から１になるまで処理Ｐ（ｓ＿ｎｕｍ，ｄ）を繰り返し実行し（Ｓ６３）、且つ処理Ｐ（ｓ＿ｎｕｍ，ｄ）内において処理Ｐ（ｒｖＲ，ｘ）を再帰的に実行する（Ｓ６１０）ことによって、対象文字列ｓ＿ｎｕｍから、最大桁数以下の可能性のある結果値を全て算出することができる。

２－６．文字列の分割（処理Ｄ）
図８に示す処理Ｄ（ステップＳ６０６の詳細）について説明する。制御部１１は、変数ｆａｃに１０^ｄ－１を代入する（Ｓ６６１）。変数ｆａｃは、ステップ６６４及びＳ６６５の計算に使用するための数値を示す。制御部１１は、ステップＳ６６２及びステップＳ６６３において、対象文字列ｓ＿ｎｕｍを２つに分割する。具体的には、制御部１１は、数値ｌｅｆｔに、対象文字列ｓ＿ｎｕｍの始端すなわち左端からｄ文字目までの数字を、整数値として代入する（Ｓ６６２）。数値ｌｅｆｔは、対象文字列ｓ＿ｎｕｍから抽出した整数値を入れるための変数である。制御部１１は、文字列ｒｉｇｈｔに、対象文字列ｓ＿ｎｕｍの「ｄ＋１」文字目から終端すなわち右端までの数字を、文字列として代入する（Ｓ６６３）。文字列ｒｉｇｈｔは、対象文字列ｓ＿ｎｕｍから抽出した文字列を入れるための変数である。制御部１１は、「ｌｅｆｔ÷ｆａｃ」により、商ｄｉｖを算出する（Ｓ６６４）。制御部１１は、「ｌｅｆｔ÷ｆａｃ」の余りｍｏｄを算出する（Ｓ６６５）。商ｄｉｖ及び余りｍｏｄは、数値を入れるための変数である。

制御部１１は、対象文字列ｓ＿ｎｕｍからの数値ｌｅｆｔと文字列ｒｉｇｈｔへの分割が、音声認識結果として正しいか否かを判断する（Ｓ６６６）。具体的には、「文字列ｒｉｇｈｔが空でなく且つ数値ｌｅｆｔが１０で割り切れない」、又は「文字列ｒｉｇｈｔの始端又は左端が０である」ときに、音声認識結果として不正であると判断する。

音声認識結果として正しい場合（ステップＳ６６６でＹｅｓ）、ステップＳ６６７～Ｓ６６９において、返り値を入れるための変数ｎｅｘｔＤ，ｅｘｔＬ，ｅｘｔＲの値を設定する。具体的には、余りｍｏｄが０であれば、変数ｎｅｘｔＤに「ｄ－１」を代入し、余りｍｏｄが０でなければ変数ｎｅｘｔＤに余りｍｏｄの桁数を代入する（Ｓ６６７）。制御部１１は、「ｄｉｖ×ｆａｃ」によって得られた値を変数ｅｘｔＬに代入する（Ｓ６６８）。制御部１１は、余りｍｏｄが０であれば文字列ｒｉｇｈｔを変数ｅｘｔＲに代入し、余りｍｏｄが０でなければ、「余りｍｏｄの文字列＋文字列ｒｉｇｈｔ」を変数ｅｘｔＲに代入する（Ｓ６６９）。制御部１１は、ｎｅｘｔＤ，ｅｘｔＬ，ｅｘｔＲ，"Ｎｏｔｓｋｉｐ"を返す（Ｓ６７０）。これにより、変数ｎｅｘｔＤが示す数値，変数ｅｘｔＬが示す数値，変数ｅｘｔＲが示す文字列，"Ｎｏｔｓｋｉｐ"が、図７のステップＳ６０６において、変数ｒｖＤ、ｒｖＬ、ｒｖＲ、ｒｖＩＮＦに、それぞれ代入される。

音声認識結果として正しくない場合（Ｓ６６６でＮｏ）は、ｄ－１，０，ｓ＿ｎｕｍ，"Ｓｋｉｐ"を返す（Ｓ６７１）。これにより、返り値ｄ－１，０，変数ｓ＿ｎｕｍが示す文字列，"Ｓｋｉｐ"が、図７のステップＳ６０６において、変数ｒｖＤ、ｒｖＬ、ｒｖＲ、ｒｖＩＮＦに、それぞれ代入される。

２－７．処理の流れの具体例１
図９Ａは、図５Ａの具体例１における、図６～図８に対応した処理の流れを示している。図９Ａの例では、発話文から抽出した数詞が「１００２０３」であり、最大桁数が「３」であるため、Ｐ（"１００２０３"，３）、Ｐ（"１００２０３"，２）、Ｐ（"１００２０３"，１）が順に実行される（Ｓ６３）。

処理Ｐ（"１００２０３"，３）は、工程９１Ａ、９２Ａ、及び９３Ａと、再帰呼び出し工程９１１Ａとを含む。工程９１Ａ及び９２Ａは、図７のステップ６０２においてＮｏのときの処理に相当する。工程９３Ａは、図７のステップ６０２においてＹｅｓのときの処理に相当する。再帰呼び出し工程９１１Ａは図７のステップＳ６１０に相当する。

処理Ｐ（"１００２０３"，３）は、工程９１Ａから開始される。工程９１Ａでは、対象文字列「１００２０３」と桁数「３」についての処理が行われる。整数値「１００２０３」が１０^３よりも大きいため、処理Ｄ（"１００２０３"，３）が実行される（Ｓ６０６）。

処理Ｄ（"１００２０３"，３）において、ｆａｃ＝１０^２、ｌｅｆｔ＝１００、ｒｉｇｈｔ＝"２０３"、ｄｉｖ＝１（＝１００／１０^２）、ｍｏｄ＝０となる。この場合、音声認識結果として正しいと判断される（Ｓ６６６でＹｅｓ）。ｎｅｘｔＤ＝２（＝３－１）、ｅｘｔＬ＝１００（＝１×１０^２）、ｅｘｔＲ＝"２０３"となり、「２、１００、"２０３"、"Ｎｏｔｓｋｉｐ"」が返される。

これにより、文字列「１００２０３」が整数値「１００」と文字列「２０３」に分割される。整数値「１００」が、変数ａｄｄの初期値「０」に加算されて、変数ａｄｄの値は「１００」になる（Ｓ６０９）。

再帰呼び出し工程９１１Ａに示すように、処理Ｐ（"１００２０３"，３）において、残りの文字列「２０３」について、処理Ｐ（２０３，１）が再帰的に呼び出される（ステップＳ６１０）。

工程９１Ａが終了すると、桁数ｄが減算されて、工程９２Ａに進む。工程９２Ａでは、残りの文字列「２０３」と桁数「２」についての処理が行われる。整数値「２０３」が１０^２よりも大きいため、処理Ｄ（"２０３"，２）が実行される（Ｓ６０６）。

処理Ｄ（"２０３"，２）において、ｆａｃ＝１０、ｌｅｆｔ＝２０、ｒｉｇｈｔ＝"３"、ｄｉｖ＝２（＝２０／１０）、ｍｏｄ＝０となる。この場合、音声認識結果として正しいと判断される（Ｓ６６６でＹｅｓ）。ｎｅｘｔＤ＝１（＝２－１）、ｅｘｔＬ＝２０（＝２×１０）、ｅｘｔＲ＝"３"となり、「１、２０、"３"、"Ｎｏｔｓｋｉｐ"」が返される。

これにより、文字列「２０３」が整数値「２０」と文字列「３」に分割される。整数値「２０」が変数ａｄｄの値「１００」に加算されて、変数ａｄｄの値は「１２０」になる（Ｓ６０９）。

工程９２Ａが終了すると、桁数ｄが減算されて、工程９３Ａに進む。工程９３Ａでは、残りの文字列「３」と桁数「１」についての処理が行われる。整数値「３」は１０よりも小さいため、整数値「３」を変数ａｄｄの値「１２０」に加算して得られた値「１２３」が変数ｒｅｓｕｌｔに代入される（Ｓ６０３）。この変数ｒｅｓｕｌｔの値「１２３」が結果リストに追加される（Ｓ６０４）。

処理Ｐ（"１００２０３"，３）が終わると、処理Ｐ（"１００２０３"，２）が実行される。処理Ｐ（"１００２０３"，２）において、「１００２０３」が１０^２よりも大きいため、処理Ｄ（"１００２０３"，２）が実行される（Ｓ６０６）。

処理Ｄ（"１００２０３"，２）において、ｆａｃ＝１０、ｌｅｆｔ＝１０、ｒｉｇｈｔ＝"０２０３"、ｄｉｖ＝１（＝１０／１０）、ｍｏｄ＝０となる。この場合、ｒｉｇｈｔが「０」で始まるため、音声認識結果として不正と判断される（Ｓ６６６でＮｏ）。よって、「１（＝２－１）、０、"１００２０３"、"Ｓｋｉｐ"」が返される。

次に、「１００２０３」が１０よりも大きいため、処理Ｄ（"１００２０３"，１）が実行される（Ｓ６０６）。

処理Ｄ（"１００２０３"，１）において、ｆａｃ＝１、ｌｅｆｔ＝１、ｒｉｇｈｔ＝"００２０３"、ｄｉｖ＝１（＝１／１）、ｍｏｄ＝０となる。この場合、ｒｉｇｈｔが「０」で始まるため、音声認識結果として不正と判断される（Ｓ６６６でＮｏ）。よって、「０（＝１－１）、０、"１００２０３"、"Ｓｋｉｐ"」が返される。

処理Ｐ（"１００２０３"，２）が終わると、処理Ｐ（"１００２０３"，１）が実行される。処理Ｐ（"１００２０３"，１）では、「１００２０３」が１０よりも大きいため、処理Ｄ（"１００２０３"，１）が実行されて、上述したように「Ｓｋｉｐ」が返される。

以上により、発話文内の数詞「１００２０３」からは、結果値「１２３」のみが含まれる結果リストが生成される。

２－８．処理の流れの具体例２
図９Ｂは、図５Ｂの具体例２における、図６～図８に対応した処理の流れを示している。図９Ｂの例では、発話文から抽出した数詞が「３０００５０６」であり、最大桁数が「４」であるため、Ｐ（"３０００５０６"，４）、Ｐ（"３０００５０６"，３）、Ｐ（"３０００５０６"，２）、Ｐ（"３０００５０６"，１）が順に実行される（Ｓ６３）。

処理Ｐ（"３０００５０６"，４）は、工程９１Ｂ、９２Ｂ、９３Ｂ、及び９４Ｂと、再帰呼び出し工程９１１Ｂとを含む。工程９１Ｂ及び９３Ｂは、図７のステップ６０２においてＮｏの処理に相当する。工程９２Ｂ及び９４Ｂは、図７のステップ６０２においてＹｅｓのときの処理に相当する。再帰呼び出し工程９１１Ｂは図７のステップＳ６１０に相当する。

処理Ｐ（"３０００５０６"，４）は、工程９１Ｂから開始される。工程９１Ｂでは、対象文字列「３０００５０６」と桁数「４」についての処理が行われる。整数値「３０００５０６」が１０^４よりも大きいため、処理Ｄ（"３０００５０６"，４）が実行される（Ｓ６０６）。

処理Ｄ（"３０００５０６"，４）において、ｆａｃ＝１０^３、ｌｅｆｔ＝３０００、ｒｉｆｈｔ＝"５０６"、ｄｉｖ＝３（＝３０００／１０^３）、ｍｏｄ＝０となる。この場合、音声認識結果として正しいと判断される（Ｓ６６６でＹｅｓ）。よって、ｎｅｘｔＤ＝３（＝４－１）、ｅｘｔＬ＝３０００（＝３×１０^３）、ｅｘｔＲ＝"５０６"となり、「３、３０００、"５０６"、"Ｎｏｔｓｋｉｐ"」が返される。

これにより、文字列「３０００５０６」が整数値「３０００」と文字列「５０６」に分割される。整数値「３０００」が変数ａｄｄの初期値「０」に加算されて、変数ａｄｄの値は「３０００」になる（Ｓ６０９）。

再帰呼び出し工程９１１Ｂに示すように、処理Ｐ（"３０００５０６"，４）において、残りの文字列「５０６」について、処理Ｐ（５０６，２）及び処理Ｐ（５０６，１）が再帰的に呼び出される（ステップＳ６１０）。

工程９１Ｂが終了すると、桁数ｄが減算されて、工程９２Ｂに進む。工程９２Ｂでは、残りの文字列「５０６」と桁数「３」についての処理が行われる。整数値「５０６」が１０^３よりも小さいため、整数値「５０６」を変数ａｄｄの値「３０００」に加算して得られた値「３５０６」が変数ｒｅｓｕｌｔに代入される（Ｓ６０３）。この変数ｒｅｓｕｌｔの値「３５０６」が結果リストに追加される（Ｓ６０４）。

工程９２Ｂが終了すると、桁数ｄが減算されて、工程９３Ｂに進む。工程９３Ｂでは、残りの文字列「５０６」と桁数「２」についての処理が行われる。整数値「５０６」は１０^２よりも大きいため、処理Ｄ（"５０６"，２）が実行される（Ｓ６０６）。

処理Ｄ（"５０６"，２）において、ｆａｃ＝１０、ｌｅｆｔ＝５０、ｒｉｇｈｔ＝"６"、ｄｉｖ＝５（＝５０／１０）、ｍｏｄ＝０となる。この場合、音声認識結果として正しいと判断される（Ｓ６６６でＹｅｓ）。よって、ｎｅｘｔＤ＝１（＝２－１）、ｅｘｔＬ＝５０（＝５×１０）、ｅｘｔＲ＝"６"となり、「１、５０、"６"、"Ｎｏｔｓｋｉｐ"」が返される。

これにより、文字列「５０６」が、整数値「５０」と文字列「６」に分割される。整数値「５０」が変数ａｄｄの値「３０００」に加算されて、変数ａｄｄの値は「３０５０」になる（Ｓ６０９）。

工程９３Ｂが終了すると、桁数ｄが減算されて、工程９４Ｂに進む。工程９４Ｂでは、残りの文字列「６」と桁数「１」についての処理が行われる。整数値「６」は１０よりも小さいため、整数値「６」を変数ａｄｄの値「３０５０」に加算して得られた値「３０５６」が変数ｒｅｓｕｌｔに代入される（Ｓ６０３）。この変数ｒｅｓｕｌｔの値「３０５６」が結果リストに追加される（Ｓ６０４）。

処理Ｐ（"３０００５０６"，４）が終わると、処理Ｐ（"３０００５０６"，３）が実行される。処理Ｐ（"３０００５０６"，３）では、整数値「３０００５０６」が１０^３よりも大きいため、処理Ｄ（"３０００５０６"，３）が実行される。

処理Ｄ（"３０００５０６"，３）において、ｆａｃ＝１０^２、ｌｅｆｔ＝３００、ｒｉｇｈｔ＝"０５０６"、ｄｉｖ＝３（＝３００／１０^２）、ｍｏｄ＝０となる。この場合、ｒｉｇｈｔが「０」で始まるため、音声認識結果として不正と判断される（Ｓ６６６でＮｏ）。よって、「２（＝３－１）、０、"３０００５０６"，"Ｓｋｉｐ"」が返される。

次に、整数値「３０００５０６」が１０^２よりも大きいため、処理Ｄ（"３０００５０６"，２）が実行される。

処理Ｄ（"３０００５０６"，２）において、ｆａｃ＝１０、ｌｅｆｔ＝３０、ｒｉｇｈｔ＝"００５０６"、ｄｉｖ＝３（＝３０／１０）、ｍｏｄ＝０となる。この場合、ｒｉｇｈｔが「０」で始まるため、音声認識結果として不正と判断される（Ｓ６６６でＮｏ）。よって、「１（＝２－１）、０、"３０００５０６"，"Ｓｋｉｐ"」が返される。

次に、整数値「３０００５０６」が１０よりも大きいため、処理Ｄ（"３０００５０６"，１）が実行される。

処理Ｄ（"３０００５０６"，１）において、ｆａｃ＝１、ｌｅｆｔ＝３、ｒｉｇｈｔ＝"０００５０６"、ｄｉｖ＝３（＝３／１）、ｍｏｄ＝０となる。この場合、ｒｉｇｈｔが「０」で始まるため、音声認識結果として不正と判断される（Ｓ６６６でＮｏ）。よって、「０、０、"３０００５０６"，"Ｓｋｉｐ"」が返される。

処理Ｐ（"３０００５０６"，３）が終わると、処理Ｐ（"３０００５０６"，２）が実行される。処理Ｐ（"３０００５０６"，２）が終わると、処理Ｐ（"３０００５０６"，１）が実行される。処理Ｐ（"３０００５０６"，２）及び処理Ｐ（"３０００５０６"，１）では、上述した処理Ｄ（"３０００５０６"，２）及び処理Ｄ（"３０００５０６"，１）が実行され、「Ｓｋｉｐ」が返される。

以上により、発話文内の数詞「３０００５０６」からは、結果値「３５０６」と「３０５６」を含む結果リストが生成される。

２－９．結果値の選択
図１０は、結果値の選択の動作（図４のＳ８の詳細）を示している。制御部１１は、記憶部１６から数値候補情報１６２を読み出す（Ｓ８１）。制御部１１は、結果リストに含まれる結果値を、数値候補情報１６２に含まれる数値候補と比較する（Ｓ８２）。制御部１１は、数値候補と一致している結果値を選択する（Ｓ８３）。これにより、ステップＳ９において、選択された結果値を示すように発話文内の数詞が変更される。なお、数値候補情報１６２は、数値候補を示す数字を、数値として含んでもよいし、文字列として含んでもよい。数値又は文字列の型に応じて、結果値を数値候補と比較すればよい。

３．効果及び補足等
音声認識装置１は、発話の音声認識結果である発話文を取得する取得部の一例である通信部１７と、最大桁数を示す最大桁数情報１６１を格納する記憶部１６と、発話文に含まれる第１の数詞が示す第１の数値の桁数が最大桁数よりも大きいときに、発話文内の第１の数詞を、桁数が最大桁数以下の第２の数値を示す第２の数詞に置き換える制御部１１と、を備える。制御部１１は、第１の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第２の数値を算出する。第２の数値は、上記結果値に相当する。

これにより、発話に含まれる数詞が誤認識された場合に、誤認識された数詞を、発話の音声に応じて算出された最大桁数以下の数値を示すように補正することができる。よって、数詞の音声認識誤りを低減することができる。

記憶部１６は、１つ以上の数値候補を示す数値候補情報１６２を格納し、制御部１１は、第１の数詞から複数の第２の数値が得られた場合、発話文内の第１の数詞を、数値候補と一致する第２の数値を示す第２の数詞に置き換える。

これにより、複数の第２の数値が算出された場合であっても、発話文内の数詞を精度良く補正することができる。

（他の実施形態）
以上のように、本出願において開示する技術の例示として、上記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。そこで、以下、他の実施形態を例示する。

上記実施形態では、結果リストに複数の結果値が含まれる場合、音声認識装置１が、複数の結果値を数値候補情報１６２に含まれる数値候補と比較して、結果値を一つ選択する例について説明した。しかし、複数の結果値の中からいずれか一つをユーザに選択させてもよい。図１１は、結果値の選択画面の一例を示す。選択画面は、複数の結果値の中からいずれか一つを選択させるための画面である。例えば、音声認識装置１は、図４のステップＳ６において生成した結果リストに含まれる複数の結果値のそれぞれを示すように、発話文の数詞を一時的に置き換えて、複数の補正後の発話文を生成する。音声認識装置１は、図１１に示すように、複数の補正後の発話文を含む選択画面をディスプレイ１４に表示する。音声認識装置１は、タッチパネル１３を介して、ユーザによるいずれか一つの発話文の選択を受け付ける。すなわち、複数の結果値のそれぞれを示す数詞の中から、いずれか一つの数詞の選択を受け付ける。音声認識装置１は、図４のステップＳ９において、ユーザが選択した補正後の発話文を、発話に対応する発話文として決定する。なお、選択画面において、複数の補正後の発話文を表示することに代えて、結果値を示す数詞のみを表示してもよい。この場合、図４のステップＳ９において、ユーザが選択した数詞に基づいて、発話文を補正する。

上記実施形態では、音声認識を音声認識サーバ３で行い、翻訳を翻訳サーバ４で行い、音声合成を音声合成サーバ５で行ったが、本開示はこれに限定されない。音声認識、翻訳及び音声合成の少なくとも一つの処理を音声認識装置１内で行ってもよい。例えば、音声認識装置１に、音声認識サーバ３と同一の機能を搭載してもよい。音声認識装置１に、音声認識サーバ３、翻訳サーバ４、及び音声合成サーバ５と同一の機能を全て搭載してもよい。この場合、音声認識装置１は、通信部１７を有さなくてもよい。

（実施形態の概要）
（１）本開示の音声認識装置は、発話の音声認識結果である発話文を取得する取得部と、最大桁数を示す桁数情報を格納する記憶部と、発話文に含まれる第１の数詞が示す第１の数値の桁数が最大桁数よりも大きいときに、発話文内の第１の数詞を、桁数が最大桁数以下の第２の数値を示す第２の数詞に置き換える制御部と、を備え、制御部は、第１の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第２の数値を算出する。

これにより、発話に含まれる数詞が誤認識された場合であっても、誤認識された数詞を、発話の音声に応じて算出された数値を示すように補正することができる。よって、数詞の音声認識誤りを低減することができる。

（２）（１）の音声認識装置において、記憶部は、１つ以上の数値候補を示す候補情報を格納し、制御部は、第１の数詞から複数の第２の数値が得られた場合、発話文内の第１の数詞を、数値候補と一致する第２の数値を示す第２の数詞に置き換えてもよい。

（３）（１）の音声認識装置は、第１の数詞から複数の第２の数値が得られた場合に、複数の第２の数値を示す複数の第２の数詞を表示する表示部と、複数の第２の数詞の中からいずれか１つを選択するユーザの操作を受け付ける入力部と、をさらに備え、制御部は、発話文内の第１の数詞を、ユーザが選択した第２の数詞に置き換えてもよい。

（４）本開示の音声認識方法は、演算部により、発話の音声認識結果である発話文を取得するステップと、最大桁数を示す桁数情報を取得するステップと、発話文に含まれる第１の数詞が示す第１の数値の桁数が最大桁数よりも大きいときに、発話文内の第１の数詞を、桁数が最大桁数以下の第２の数値を示す第２の数詞に置き換えるステップと、を含み、第１の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第２の数値を算出する。

本開示の全請求項に記載の音声認識装置及び音声認識方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。

本開示は、話者の音声を音声認識する音声認識装置に適用可能である。

１音声認識装置
２ネットワーク
３音声認識サーバ
４翻訳サーバ
５音声合成サーバ
１１制御部
１２マイク
１３タッチパネル
１４ディスプレイ
１５スピーカ
１６記憶部
１７通信部
１００音声認識システム

Claims

発話の音声認識結果である発話文を取得する取得部と、
最大桁数を示す桁数情報を格納する記憶部と、
前記発話文に含まれる第１の数詞が示す第１の数値の桁数が前記最大桁数よりも大きいときに、前記発話文内の前記第１の数詞を、桁数が前記最大桁数以下の第２の数値を示す第２の数詞に置き換える制御部と、
を備え、
前記制御部は、前記第１の数詞を複数の数詞に分割し、前記複数の数詞がそれぞれ示す数値を加算することによって、前記第２の数値を算出する、
音声認識装置。
前記記憶部は、１つ以上の数値候補を示す候補情報を格納し、
前記制御部は、前記第１の数詞から複数の第２の数値が得られた場合、前記発話文内の前記第１の数詞を、前記数値候補と一致する第２の数値を示す第２の数詞に置き換える、
請求項１に記載の音声認識装置。
前記第１の数詞から複数の第２の数値が得られた場合に、前記複数の第２の数値を示す複数の第２の数詞を表示する表示部と、
前記複数の第２の数詞の中からいずれか１つを選択するユーザの操作を受け付ける入力部と、
をさらに備え、
前記制御部は、前記発話文内の前記第１の数詞を、前記ユーザが選択した第２の数詞に置き換える、
請求項１に記載の音声認識装置。
演算部により、
発話の音声認識結果である発話文を取得するステップと、
最大桁数を示す桁数情報を取得するステップと、
前記発話文に含まれる第１の数詞が示す第１の数値の桁数が前記最大桁数よりも大きいときに、前記発話文内の前記第１の数詞を、桁数が前記最大桁数以下の第２の数値を示す第２の数詞に置き換えるステップと、
を含み、
前記第１の数詞を複数の数詞に分割し、前記複数の数詞がそれぞれ示す数値を加算することによって、前記第２の数値を算出する、
音声認識方法。
請求項４に記載の音声認識方法をコンピュータに実行させるプログラム。