JP7170287B2 - 音声認識装置、音声認識方法、及びプログラム - Google Patents
音声認識装置、音声認識方法、及びプログラム Download PDFInfo
- Publication number
- JP7170287B2 JP7170287B2 JP2020518987A JP2020518987A JP7170287B2 JP 7170287 B2 JP7170287 B2 JP 7170287B2 JP 2020518987 A JP2020518987 A JP 2020518987A JP 2020518987 A JP2020518987 A JP 2020518987A JP 7170287 B2 JP7170287 B2 JP 7170287B2
- Authority
- JP
- Japan
- Prior art keywords
- digits
- speech recognition
- numerals
- numeral
- numerical value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 27
- 238000013519 translation Methods 0.000 description 18
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
本開示は、発話を音声認識する音声認識装置、音声認識方法、及びプログラムに関する。
特許文献1は、話者の音声を音声認識する音声認識装置を開示している。この音声認識装置は、商品単価の桁毎の数を記述した音声認識リソースを生成し、音声に含まれる桁毎の数を、音声認識リソース内の桁毎の数から抽出して認識している。これにより、音声認識リソースの記憶量を減少させるとともに、音声の数値の誤認識を防止している。
本開示は、音声認識誤りを低減する音声認識装置、音声認識方法、及びプログラムを提供する。
本開示の音声認識装置は、発話の音声認識結果である発話文を取得する取得部と、最大桁数を示す桁数情報を格納する記憶部と、発話文に含まれる第1の数詞が示す第1の数値の桁数が最大桁数よりも大きいときに、発話文内の第1の数詞を、桁数が最大桁数以下の第2の数値を示す第2の数詞に置き換える制御部と、を備え、制御部は、第1の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第2の数値を算出する。
これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
本開示の音声認識装置、音声認識方法、及びプログラムは、発話文に含まれる第1の数詞が示す第1の数値の桁数が最大桁数よりも大きいときに、発話文内の第1の数詞を最大桁数以下の第2の数値を示す第2の数詞に置き換える。これにより、数詞の音声認識誤りを低減することができる。
(本開示の基礎となった知見)
話者が、間を空けて又はゆっくり、数詞を発話した場合、音声認識において数詞が誤認識される場合がある。例えば、話者が「123」を「百、二十、三」のように、「百」と「二十」の間と「二十」と「三」との間をそれぞれ空けて発話した場合、「123」が「100203」と誤認識される。
話者が、間を空けて又はゆっくり、数詞を発話した場合、音声認識において数詞が誤認識される場合がある。例えば、話者が「123」を「百、二十、三」のように、「百」と「二十」の間と「二十」と「三」との間をそれぞれ空けて発話した場合、「123」が「100203」と誤認識される。
本開示の音声認識装置は、誤認識された数詞を補正する。誤認識された数詞とは、予め設定された最大桁数よりも大きな数値を示す数詞のことを指す。音声認識装置は、発話の音声認識結果である発話文内の数詞が示す数値が最大桁数よりも大きいときに、最大桁数以下の数値を示すように、発話文内の数詞を変更する。最大桁数は、音声認識装置が使用される場所に応じて予め設定される。例えば、音声認識装置がホテルのフロントで使用される場合、最大桁数は、ホテル内の部屋番号の最大桁数に設定される。音声認識装置が空港又は航空機内で使用される場合、最大桁数は、便名の最大桁数に設定される。例えば、音声認識装置は、最大桁数が「3」の場合において、音声認識結果として数詞「100203」を含む発話文を音声認識サーバから取得したときは、数詞「100203」を最大桁数3桁以下の「123」に補正する。すなわち、発話文内の数詞が最大桁数以下の数値を示すように、発話文内の数詞を補正する。これにより、数詞の音声認識誤りを低減する。
(実施形態)
以下、実施形態について、図面を参照しながら説明する。
以下、実施形態について、図面を参照しながら説明する。
1. 構成
1-1. 音声認識装置の外観
図1は、本実施形態にかかる音声認識装置の外観の一例を示している。音声認識装置1は、例えばタブレットタイプである。例えば、第1の言語を話すホストと第2の言語を話すゲストが、音声認識装置1を介して、対面で会話する。音声認識装置1は、例えば、言語が異なる2人のユーザの会話を音声認識して翻訳する。
1-1. 音声認識装置の外観
図1は、本実施形態にかかる音声認識装置の外観の一例を示している。音声認識装置1は、例えばタブレットタイプである。例えば、第1の言語を話すホストと第2の言語を話すゲストが、音声認識装置1を介して、対面で会話する。音声認識装置1は、例えば、言語が異なる2人のユーザの会話を音声認識して翻訳する。
音声認識装置1は、マイク12と、タッチパネル13と、ディスプレイ14と、スピーカ15とを備える。マイク12及びスピーカ15は、例えば、音声認識装置1の側面の開口近傍に配置されている。タッチパネル13及びディスプレイ14は、音声認識装置1の主面に配置されている。ディスプレイ14の長手方向の一方側であるホスト側の領域には、発話アイコン141h及び表示領域142hが配置される。ディスプレイ14の長手方向の他方側であるゲスト側の領域には、発話アイコン141g及び表示領域142gが配置される。各発話アイコン141h、141gに対して、ユーザによるタッチ操作により操作がなされる。
発話アイコン141hは、ホストが発話を行うときに、すなわち、第1の言語の発話を音声認識装置1に入力するときに、ホスト本人がホストの発話の開始時点及び終了時点を指定するための操作アイコンである。発話アイコン141gは、ゲストが発話を行うときに、すなわち、第2の言語の発話を入力するときに、ゲスト本人がゲストの発話の開始時点及び終了時点を指定するための操作アイコンである。表示領域142h、142gは、発話文及び翻訳文を文字列として表示するための領域である。
1-2. 音声認識装置及びサーバの構成
図2は、音声認識システムの電気的な構成を示すブロック図である。音声認識システム100は、図1に示す音声認識装置1、音声認識サーバ3、翻訳サーバ4、及び音声合成サーバ5を有する。音声認識装置1は、インターネットのようなネットワーク2を介して、音声認識サーバ3、翻訳サーバ4、及び音声合成サーバ5のそれぞれとデータ通信を行う。
図2は、音声認識システムの電気的な構成を示すブロック図である。音声認識システム100は、図1に示す音声認識装置1、音声認識サーバ3、翻訳サーバ4、及び音声合成サーバ5を有する。音声認識装置1は、インターネットのようなネットワーク2を介して、音声認識サーバ3、翻訳サーバ4、及び音声合成サーバ5のそれぞれとデータ通信を行う。
音声認識装置1は、マイク12と、タッチパネル13と、ディスプレイ14と、スピーカ15とに加えて、制御部11と、記憶部16と、通信部17とを備える。
制御部11は、CPU、MPU等で構成され、記憶部16に格納された各種プログラムを実行することにより、音声認識装置1の全体の動作を制御する。制御部11は、記憶部16に格納されたデータやプログラムを読み出して種々の演算処理を行うことで、所定の機能を実現する。本実施形態では、制御部11の機能は、ハードウェアとソフトウェアの協同により実現するが、制御部11を所定の機能を実現するように専用に設計されたハードウェア回路のみで実現してもよい。すなわち、制御部11は、CPU、MPUのみならず、DSP、FPGA、ASIC等で構成することができる。
マイク12は、入力した音声をデジタル音声データに変換する装置である。具体的には、マイク12は、音声をアナログ電気信号である音声信号に変換し、さらに、AD変換器により音声信号をデジタル音声データに変換する。
タッチパネル13はディスプレイ14に重畳して配置されている。タッチパネル13は、ユーザからの指示を受け付ける。
マイク12及びタッチパネル13は、外部から音声認識装置1への入力を行う、例えば、ユーザの音声及びユーザの指示を受け付ける入力部の一例である。音声認識装置1は、入力部として、マイク12及びタッチパネル13に限らず、キーボード、ボタン、スイッチ、カメラ、及びこれらの組み合わせを備えてもよい。
ディスプレイ14は、画像を表示する表示部であり、液晶表示デバイスまたは有機EL表示デバイスで構成される。ディスプレイ14は、発話アイコン141h、141gを表示する。ディスプレイ14は、表示領域142h、142gにおいて、発話文及び翻訳文のテキストデータが示す画像を表示する。
スピーカ15は、電気信号である音声信号を音声に変換する装置である。スピーカ15は、音声信号に基づいた音声を出力する。
ディスプレイ14及びスピーカ15は、音声認識装置1から外部への出力を行う、例えば、発話文及び翻訳文、及び翻訳文に対応する音声を外部に出力する、出力部の一例である。
記憶部16は、フラッシュメモリ、強誘電体メモリ、HDD、SSD、RAM、及びこれらの組み合わせなどで構成される記録媒体である。記憶部16は、制御部11のための各種プログラムを格納している。記憶部16は、デジタル音声データ、発話文のテキストデータ、及び翻訳文のテキストデータを格納する。
本実施形態において、記憶部16は、最大桁数情報161と数値候補情報162を格納する。最大桁数情報161は最大桁数を示す。数値候補情報162は1つ以上の数値候補を示す。例えば、音声認識装置1が空港又は航空機内で使用される場合、最大桁数情報161は便名の数値部分の最大桁数(例えば、4桁)を示し、数値候補情報162は便名の数値部分を示す。例えば、音声認識装置1がホテルで使用される場合は、最大桁数情報161はホテル内の部屋番号の数値部分の最大桁数(例えば、3桁)を示し、数値候補情報162はホテル内の部屋番号の数値部分を示す。
通信部17は、Bluetooth(登録商標)、Wi-Fi(登録商標)、3G、LTE(登録商標)、IEEE802.11等の通信方式に従って、ネットワーク2を介して音声認識サーバ3、翻訳サーバ4、及び音声合成サーバ5とデータ通信を行う通信モジュールである。通信部17は、音声認識サーバ3から発話文のテキストデータを取得する取得部の一例である。
音声認識サーバ3は、音声認識装置1からネットワーク2を介してデジタル音声データを受信すると、受信したデジタル音声データを音声認識する。音声認識サーバ3は、音声認識結果である発話文のテキストデータを生成する。
翻訳サーバ4は、翻訳及び逆翻訳を行う。具体的には、翻訳サーバ4は、音声認識装置1からネットワーク2を介して、発話文のテキストデータを受信すると、発話文を翻訳して、翻訳文のテキストデータを生成する。翻訳サーバ4は、音声認識装置1からネットワーク2を介して、翻訳文のテキストデータを受信すると、翻訳文を逆翻訳して、逆翻訳文のテキストデータを生成する。
音声合成サーバ5は、音声認識装置1からネットワーク2を介して、翻訳文のテキストデータを受信すると、受信した翻訳文のテキストデータを音声合成して、音声信号を生成する。
2. 動作
2-1. 数詞補正の概要
図3は、数詞補正の一例を示している。音声認識装置1は、ユーザの発話をマイク12から取得すると、発話に対応するデジタル音声データを音声認識サーバ3に送信する。これにより、音声認識装置1は、音声認識サーバ3から発話文のテキストデータを取得する。発話文のテキストデータは、ユーザの音声に基づいて生成された文字列のデータである。
2-1. 数詞補正の概要
図3は、数詞補正の一例を示している。音声認識装置1は、ユーザの発話をマイク12から取得すると、発話に対応するデジタル音声データを音声認識サーバ3に送信する。これにより、音声認識装置1は、音声認識サーバ3から発話文のテキストデータを取得する。発話文のテキストデータは、ユーザの音声に基づいて生成された文字列のデータである。
ユーザが、数詞を発話するときに間をあけて、例えば、「あなたの部屋は、百、二十、三号室です。」と発話してしまうと、音声認識サーバ3において、「百、二十、三」が正しく認識されず、音声認識サーバ3から得られる発話文が「あなたの部屋は、100203号室です。」となる場合がある。このような場合に、本実施形態の音声認識装置1は、発話文内の数詞「100203」を桁数が最大桁数以下(3桁以下)の数値「123」を示す数詞に補正する。
2-2. 音声認識の全体動作
図4は、音声認識装置1の制御部11が行う音声認識の全体動作を示している。制御部11は、マイク12を介して、話者の音声に応じたデジタル音声データを入力する(S1)。
図4は、音声認識装置1の制御部11が行う音声認識の全体動作を示している。制御部11は、マイク12を介して、話者の音声に応じたデジタル音声データを入力する(S1)。
制御部11は、音声認識処理により発話文を取得する(S2)。具体的には、制御部11は、デジタル音声データを、ネットワーク2を介して音声認識サーバ3に送信する。音声認識サーバ3は、受信したデジタル音声データを音声認識して、発話文のテキストデータを生成する。制御部11は、音声認識サーバ3からネットワーク2を介して、発話文のテキストデータを受信する。
制御部11は、発話文から数詞を抽出する(S3)。例えば、発話文から0~9までの数字を含む数詞を抽出する。制御部11は、抽出した数詞が示す数値の桁数を、最大桁数情報161が示す最大桁数と比較する(S4)。抽出した数詞が示す数値を入力値とも称する。制御部11は、入力値の桁数が最大桁数よりも大きいか否かを判断し(S5)、入力値の桁数が最大桁数よりも大きければステップS6に進む。入力値の桁数が最大桁数以下であれば、ステップS6~S9に示す数詞補正を行わずに、図4に示す処理を終了する。
入力値の桁数が最大桁数よりも大きい場合(S5でYes)、制御部11は、発話文内の数詞に基づいて、結果リストを生成する(S6)。結果リストは、最大桁数以下の数値である結果値を含む。
制御部11は、結果リストに2つ以上の結果値が含まれているか否かを判断する(S7)。結果リストに結果値が1つしか含まれていない場合(S7でNo)、ステップS9に進む。2つ以上の結果値が結果リストに含まれている場合(S7でYes)、制御部11は結果値を1つ選択する(S8)。
制御部11は、発話文内の数詞を、結果値を示す数詞に変更する(S9)。
発話文を翻訳する場合、音声認識装置1は、ステップS9の後に、発話文のテキストデータを翻訳サーバ4に送信し、翻訳サーバ4から翻訳文のテキストデータを受信する。音声認識装置1は、受信した翻訳文をディスプレイ14に表示する。翻訳結果を音声で出力する場合、音声認識装置1は、翻訳文のテキストデータを音声合成サーバ5に送信し、翻訳文に対応する音声信号を受信する。音声認識装置1は、スピーカ15から翻訳文に対応する音声を出力する。
2-3. 結果リストの生成の具体例
図5A及び図5Bを参照して、結果リストの生成(図4のステップS6)の具体例について説明する。
図5A及び図5Bを参照して、結果リストの生成(図4のステップS6)の具体例について説明する。
図5Aは、発話文から抽出した数詞が「100203」であり、最大桁数が「3」である場合の、結果リストの生成の具体例1を示している。この場合、制御部11は、数詞「100203」を、複数の数詞「100」,「20」,「3」に分割して、各数詞が示す数値を加算する。すなわち、「100+20+3」を計算する。これにより、結果値「123」を含む結果リストが生成される。
図5Bは、発話文から抽出した数詞が「3000506」であり、最大桁数が「4」である場合の、結果リストの生成の具体例2を示している。この場合、制御部11は、数詞「3000506」を、複数の数詞「3000」,「506」に分割して、各数詞が示す数値を加算する。すなわち、「3000+506」を計算する。さらに、数詞「3000506」を、複数の数詞「3000」,「50」,「6」に分割して、「3000+50+6」を計算する。これにより、結果値「3506」と「3056」を含む結果リストが生成される。
2-4. 結果リストの生成
発話文から抽出した数詞から結果リストを生成するときの具体的な動作について、図6~図8を参照して説明する。図6は、結果リストの生成、すなわち、図4のステップS6の詳細を示すフローチャートである。図7は、処理P、すなわち、図6のステップS63の詳細を説明するためのフローチャートである。図8は、処理D、すなわち、図7のステップS606の詳細を説明するためのフローチャートである。
発話文から抽出した数詞から結果リストを生成するときの具体的な動作について、図6~図8を参照して説明する。図6は、結果リストの生成、すなわち、図4のステップS6の詳細を示すフローチャートである。図7は、処理P、すなわち、図6のステップS63の詳細を説明するためのフローチャートである。図8は、処理D、すなわち、図7のステップS606の詳細を説明するためのフローチャートである。
図6において、制御部11は、対象文字列s_numと桁数dの初期値を設定する(S61)。対象文字列s_numは、処理対象の文字列を入れるための変数である。ステップS61において、制御部11は、対象文字列s_numに、発話文から抽出した数詞を代入する。桁数dは、桁数を入れるための変数である。ステップS61において、制御部11は、桁数dに、最大桁数情報161が示す最大桁数を代入する。
制御部11は、桁数dが1より小さいか否かを判断する(S62)。桁数dが1以上であれば(S62でNo)は、制御部11は、図7に示す処理P(s_num,d)を実行する(S63)。処理P(s_num,d)は、対象文字列s_numから、桁数がd以下の数値を算出する処理である。処理P(s_num,d)の実行とは、例えば、対象文字列s_numと桁数dとを引数とする関数P(s_num,d)を呼び出すことである。制御部11は、桁数dをデクリメントして(S64)、ステップS62に戻る。
制御部11は、桁数dが1より小さくなると(S62でYes)、図6に示す処理を終了する。これにより、桁数dが最大桁数から1になるまで、処理P(s_num,d)が繰り返し実行される。
2-5. 最大桁数以下の数値の算出(処理P)
図7に示す処理P(図6のステップS63)について説明する。制御部11は、桁数dが1以上か否かを判断する(S601)。桁数dが1よりも小さければ(S601でNo)、図7に示す処理を終了する。
図7に示す処理P(図6のステップS63)について説明する。制御部11は、桁数dが1以上か否かを判断する(S601)。桁数dが1よりも小さければ(S601でNo)、図7に示す処理を終了する。
桁数dが1以上であれば(S601でYes)、制御部11は、対象文字列s_numが示す整数値i_numが10dよりも小さいか否かを判断する(S602)。整数値i_numは、対象文字列s_numを整数に変換した値が入れられた変数である。
整数値i_numが10dよりも小さければ(S602でYes)、整数値i_numを変数addの値に加算して得られた値を変数resultに代入する(S603)。変数addは、計算中の数値を入れるための変数である。変数addの初期値はゼロである。変数resultは、結果値を入れるための変数である。制御部11は、変数resultの値を結果リストに追加する(S604)。制御部11は、桁数dをデクリメントして(S605)、ステップS601に戻る。
整数値i_numが10d以上であれば(S602でNo)、制御部11は、図8に示す処理D(s_num,d)を実行し、得られた返り値を変数rvD、rvL、rvR、rvINFにそれぞれ代入する(S606)。処理Dは、対象文字列s_numを、桁数d以下の整数値と文字列とに分割する処理である。処理D(s_num,d)の実行とは、例えば、対象文字列s_numと桁数dとを引数とする関数D(s_num,d)を呼び出すことである。変数rvD、rvL、rvR、rvINFには、図8のステップS670又はステップS671に示す返り値が代入される。
変数rvDは、次に処理すべき桁数を示す。変数rvDには、変数nextDの値又は「d-1」が代入される。変数rvLは、対象文字列s_numから抽出された整数値を示す。変数rvLには、変数extLの値又は「0」が代入される。変数rvRは、次に処理すべき文字列を示す。変数rvRには、変数extR又は変数s_numが示す文字列が代入される。変数rvINFは加算処理をスキップさせるか否か、換言すると、変数addの値に変数rvLの値を加算する処理をするか否かを示す。変数rvINFには、返り値「Notskip」又は「Skip」が代入される。
制御部11は、変数rvDの値を桁数dに代入する(S607)。制御部11は、変数rvINFが処理をスキップさせることを示すか否かを判断する(S608)。変数rvINFがスキップさせることを示す場合(S608でYes)、制御部11はステップS609~S611を実行せずに、ステップS601に戻る。
変数rvINFがスキップさせることを示さなければ(S608でNo)は、制御部11は、変数addの値に変数rvLの値を加算して得られた値を、変数addの新たな値とする(S609)。
制御部11は、桁数xが「rvD-1」から「1」になるまで、処理P(rvR,x)を実行する(S610)。すなわち、次に処理すべき文字列rvRと桁数xとを引数とする関数P(rvR,x)を再帰的に呼び出す。
制御部11は、対象文字列s_numに次に処理すべき文字列rvRを代入して(S611)、ステップS601に戻る。
以上の処理により、対象文字列s_numの整数値i_numの桁数が桁数dよりも大きいとき(S602でNo)は、処理Dにおいて、対象文字列s_numから抽出された数値、すなわち変数rvLの値が変数addの値に加算される(S609)。整数値i_numの桁数が桁数d以下のときに(S602でYes)、整数値i_numが変数addの値に加算され(S603)、変数resultが示す結果値が結果リストに追加される(S604)。桁数dが最大桁数から1より小さくなるまで、計算する度に桁数dを減らしていき(S605,S607)、桁数dが1より小さくなると図7に示す処理Pを終了する。
桁数dが最大桁数から1になるまで処理P(s_num,d)を繰り返し実行し(S63)、且つ処理P(s_num,d)内において処理P(rvR,x)を再帰的に実行する(S610)ことによって、対象文字列s_numから、最大桁数以下の可能性のある結果値を全て算出することができる。
2-6. 文字列の分割(処理D)
図8に示す処理D(ステップS606の詳細)について説明する。制御部11は、変数facに10d-1を代入する(S661)。変数facは、ステップ664及びS665の計算に使用するための数値を示す。制御部11は、ステップS662及びステップS663において、対象文字列s_numを2つに分割する。具体的には、制御部11は、数値leftに、対象文字列s_numの始端すなわち左端からd文字目までの数字を、整数値として代入する(S662)。数値leftは、対象文字列s_numから抽出した整数値を入れるための変数である。制御部11は、文字列rightに、対象文字列s_numの「d+1」文字目から終端すなわち右端までの数字を、文字列として代入する(S663)。文字列rightは、対象文字列s_numから抽出した文字列を入れるための変数である。制御部11は、「left÷fac」により、商divを算出する(S664)。制御部11は、「left÷fac」の余りmodを算出する(S665)。商div及び余りmodは、数値を入れるための変数である。
図8に示す処理D(ステップS606の詳細)について説明する。制御部11は、変数facに10d-1を代入する(S661)。変数facは、ステップ664及びS665の計算に使用するための数値を示す。制御部11は、ステップS662及びステップS663において、対象文字列s_numを2つに分割する。具体的には、制御部11は、数値leftに、対象文字列s_numの始端すなわち左端からd文字目までの数字を、整数値として代入する(S662)。数値leftは、対象文字列s_numから抽出した整数値を入れるための変数である。制御部11は、文字列rightに、対象文字列s_numの「d+1」文字目から終端すなわち右端までの数字を、文字列として代入する(S663)。文字列rightは、対象文字列s_numから抽出した文字列を入れるための変数である。制御部11は、「left÷fac」により、商divを算出する(S664)。制御部11は、「left÷fac」の余りmodを算出する(S665)。商div及び余りmodは、数値を入れるための変数である。
制御部11は、対象文字列s_numからの数値leftと文字列rightへの分割が、音声認識結果として正しいか否かを判断する(S666)。具体的には、「文字列rightが空でなく且つ数値leftが10で割り切れない」、又は「文字列rightの始端又は左端が0である」ときに、音声認識結果として不正であると判断する。
音声認識結果として正しい場合(ステップS666でYes)、ステップS667~S669において、返り値を入れるための変数nextD,extL,extRの値を設定する。具体的には、余りmodが0であれば、変数nextDに「d-1」を代入し、余りmodが0でなければ変数nextDに余りmodの桁数を代入する(S667)。制御部11は、「div×fac」によって得られた値を変数extLに代入する(S668)。制御部11は、余りmodが0であれば文字列rightを変数extRに代入し、余りmodが0でなければ、「余りmodの文字列+文字列right」を変数extRに代入する(S669)。制御部11は、nextD,extL,extR,"Notskip"を返す(S670)。これにより、変数nextDが示す数値,変数extLが示す数値,変数extRが示す文字列,"Notskip"が、図7のステップS606において、変数rvD、rvL、rvR、rvINFに、それぞれ代入される。
音声認識結果として正しくない場合(S666でNo)は、d-1,0,s_num,"Skip"を返す(S671)。これにより、返り値d-1,0,変数s_numが示す文字列,"Skip"が、図7のステップS606において、変数rvD、rvL、rvR、rvINFに、それぞれ代入される。
2-7. 処理の流れの具体例1
図9Aは、図5Aの具体例1における、図6~図8に対応した処理の流れを示している。図9Aの例では、発話文から抽出した数詞が「100203」であり、最大桁数が「3」であるため、P("100203",3)、P("100203",2)、P("100203",1)が順に実行される(S63)。
図9Aは、図5Aの具体例1における、図6~図8に対応した処理の流れを示している。図9Aの例では、発話文から抽出した数詞が「100203」であり、最大桁数が「3」であるため、P("100203",3)、P("100203",2)、P("100203",1)が順に実行される(S63)。
処理P("100203",3)は、工程91A、92A、及び93Aと、再帰呼び出し工程911Aとを含む。工程91A及び92Aは、図7のステップ602においてNoのときの処理に相当する。工程93Aは、図7のステップ602においてYesのときの処理に相当する。再帰呼び出し工程911Aは図7のステップS610に相当する。
処理P("100203",3)は、工程91Aから開始される。工程91Aでは、対象文字列「100203」と桁数「3」についての処理が行われる。整数値「100203」が103よりも大きいため、処理D("100203",3)が実行される(S606)。
処理D("100203",3)において、fac=102、left=100、right="203"、div=1(=100/102)、mod=0となる。この場合、音声認識結果として正しいと判断される(S666でYes)。nextD=2(=3-1)、extL=100(=1×102)、extR="203"となり、「2、100、"203"、"Notskip"」が返される。
これにより、文字列「100203」が整数値「100」と文字列「203」に分割される。整数値「100」が、変数addの初期値「0」に加算されて、変数addの値は「100」になる(S609)。
再帰呼び出し工程911Aに示すように、処理P("100203",3)において、残りの文字列「203」について、処理P(203,1)が再帰的に呼び出される(ステップS610)。
工程91Aが終了すると、桁数dが減算されて、工程92Aに進む。工程92Aでは、残りの文字列「203」と桁数「2」についての処理が行われる。整数値「203」が102よりも大きいため、処理D("203",2)が実行される(S606)。
処理D("203",2)において、fac=10、left=20、right="3"、div=2(=20/10)、mod=0となる。この場合、音声認識結果として正しいと判断される(S666でYes)。nextD=1(=2-1)、extL=20(=2×10)、extR="3"となり、「1、20、"3"、"Notskip"」が返される。
これにより、文字列「203」が整数値「20」と文字列「3」に分割される。整数値「20」が変数addの値「100」に加算されて、変数addの値は「120」になる(S609)。
工程92Aが終了すると、桁数dが減算されて、工程93Aに進む。工程93Aでは、残りの文字列「3」と桁数「1」についての処理が行われる。整数値「3」は10よりも小さいため、整数値「3」を変数addの値「120」に加算して得られた値「123」が変数resultに代入される(S603)。この変数resultの値「123」が結果リストに追加される(S604)。
処理P("100203",3)が終わると、処理P("100203",2)が実行される。処理P("100203",2)において、「100203」が102よりも大きいため、処理D("100203",2)が実行される(S606)。
処理D("100203",2)において、fac=10、left=10、right="0203"、div=1(=10/10)、mod=0となる。この場合、rightが「0」で始まるため、音声認識結果として不正と判断される(S666でNo)。よって、「1(=2-1)、0、"100203"、"Skip"」が返される。
次に、「100203」が10よりも大きいため、処理D("100203",1)が実行される(S606)。
処理D("100203",1)において、fac=1、left=1、right="00203"、div=1(=1/1)、mod=0となる。この場合、rightが「0」で始まるため、音声認識結果として不正と判断される(S666でNo)。よって、「0(=1-1)、0、"100203"、"Skip"」が返される。
処理P("100203",2)が終わると、処理P("100203",1)が実行される。処理P("100203",1)では、「100203」が10よりも大きいため、処理D("100203",1)が実行されて、上述したように「Skip」が返される。
以上により、発話文内の数詞「100203」からは、結果値「123」のみが含まれる結果リストが生成される。
2-8. 処理の流れの具体例2
図9Bは、図5Bの具体例2における、図6~図8に対応した処理の流れを示している。図9Bの例では、発話文から抽出した数詞が「3000506」であり、最大桁数が「4」であるため、P("3000506",4)、P("3000506",3)、P("3000506",2)、P("3000506",1)が順に実行される(S63)。
図9Bは、図5Bの具体例2における、図6~図8に対応した処理の流れを示している。図9Bの例では、発話文から抽出した数詞が「3000506」であり、最大桁数が「4」であるため、P("3000506",4)、P("3000506",3)、P("3000506",2)、P("3000506",1)が順に実行される(S63)。
処理P("3000506",4)は、工程91B、92B、93B、及び94Bと、再帰呼び出し工程911Bとを含む。工程91B及び93Bは、図7のステップ602においてNoの処理に相当する。工程92B及び94Bは、図7のステップ602においてYesのときの処理に相当する。再帰呼び出し工程911Bは図7のステップS610に相当する。
処理P("3000506",4)は、工程91Bから開始される。工程91Bでは、対象文字列「3000506」と桁数「4」についての処理が行われる。整数値「3000506」が104よりも大きいため、処理D("3000506",4)が実行される(S606)。
処理D("3000506",4)において、fac=103、left=3000、rifht="506"、div=3(=3000/103)、mod=0となる。この場合、音声認識結果として正しいと判断される(S666でYes)。よって、nextD=3(=4-1)、extL=3000(=3×103)、extR="506"となり、「3、3000、"506"、"Notskip"」が返される。
これにより、文字列「3000506」が整数値「3000」と文字列「506」に分割される。整数値「3000」が変数addの初期値「0」に加算されて、変数addの値は「3000」になる(S609)。
再帰呼び出し工程911Bに示すように、処理P("3000506",4)において、残りの文字列「506」について、処理P(506,2)及び処理P(506,1)が再帰的に呼び出される(ステップS610)。
工程91Bが終了すると、桁数dが減算されて、工程92Bに進む。工程92Bでは、残りの文字列「506」と桁数「3」についての処理が行われる。整数値「506」が103よりも小さいため、整数値「506」を変数addの値「3000」に加算して得られた値「3506」が変数resultに代入される(S603)。この変数resultの値「3506」が結果リストに追加される(S604)。
工程92Bが終了すると、桁数dが減算されて、工程93Bに進む。工程93Bでは、残りの文字列「506」と桁数「2」についての処理が行われる。整数値「506」は102よりも大きいため、処理D("506",2)が実行される(S606)。
処理D("506",2)において、fac=10、left=50、right="6"、div=5(=50/10)、mod=0となる。この場合、音声認識結果として正しいと判断される(S666でYes)。よって、nextD=1(=2-1)、extL=50(=5×10)、extR="6"となり、「1、50、"6"、"Notskip"」が返される。
これにより、文字列「506」が、整数値「50」と文字列「6」に分割される。整数値「50」が変数addの値「3000」に加算されて、変数addの値は「3050」になる(S609)。
工程93Bが終了すると、桁数dが減算されて、工程94Bに進む。工程94Bでは、残りの文字列「6」と桁数「1」についての処理が行われる。整数値「6」は10よりも小さいため、整数値「6」を変数addの値「3050」に加算して得られた値「3056」が変数resultに代入される(S603)。この変数resultの値「3056」が結果リストに追加される(S604)。
処理P("3000506",4)が終わると、処理P("3000506",3)が実行される。処理P("3000506",3)では、整数値「3000506」が103よりも大きいため、処理D("3000506",3)が実行される。
処理D("3000506",3)において、fac=102、left=300、right="0506"、div=3(=300/102)、mod=0となる。この場合、rightが「0」で始まるため、音声認識結果として不正と判断される(S666でNo)。よって、「2(=3-1)、0、"3000506","Skip"」が返される。
次に、整数値「3000506」が102よりも大きいため、処理D("3000506",2)が実行される。
処理D("3000506",2)において、fac=10、left=30、right="00506"、div=3(=30/10)、mod=0となる。この場合、rightが「0」で始まるため、音声認識結果として不正と判断される(S666でNo)。よって、「1(=2-1)、0、"3000506","Skip"」が返される。
次に、整数値「3000506」が10よりも大きいため、処理D("3000506",1)が実行される。
処理D("3000506",1)において、fac=1、left=3、right="000506"、div=3(=3/1)、mod=0となる。この場合、rightが「0」で始まるため、音声認識結果として不正と判断される(S666でNo)。よって、「0、0、"3000506","Skip"」が返される。
処理P("3000506",3)が終わると、処理P("3000506",2)が実行される。処理P("3000506",2)が終わると、処理P("3000506",1)が実行される。処理P("3000506",2)及び処理P("3000506",1)では、上述した処理D("3000506",2)及び処理D("3000506",1)が実行され、「Skip」が返される。
以上により、発話文内の数詞「3000506」からは、結果値「3506」と「3056」を含む結果リストが生成される。
2-9. 結果値の選択
図10は、結果値の選択の動作(図4のS8の詳細)を示している。制御部11は、記憶部16から数値候補情報162を読み出す(S81)。制御部11は、結果リストに含まれる結果値を、数値候補情報162に含まれる数値候補と比較する(S82)。制御部11は、数値候補と一致している結果値を選択する(S83)。これにより、ステップS9において、選択された結果値を示すように発話文内の数詞が変更される。なお、数値候補情報162は、数値候補を示す数字を、数値として含んでもよいし、文字列として含んでもよい。数値又は文字列の型に応じて、結果値を数値候補と比較すればよい。
図10は、結果値の選択の動作(図4のS8の詳細)を示している。制御部11は、記憶部16から数値候補情報162を読み出す(S81)。制御部11は、結果リストに含まれる結果値を、数値候補情報162に含まれる数値候補と比較する(S82)。制御部11は、数値候補と一致している結果値を選択する(S83)。これにより、ステップS9において、選択された結果値を示すように発話文内の数詞が変更される。なお、数値候補情報162は、数値候補を示す数字を、数値として含んでもよいし、文字列として含んでもよい。数値又は文字列の型に応じて、結果値を数値候補と比較すればよい。
3.効果及び補足等
音声認識装置1は、発話の音声認識結果である発話文を取得する取得部の一例である通信部17と、最大桁数を示す最大桁数情報161を格納する記憶部16と、発話文に含まれる第1の数詞が示す第1の数値の桁数が最大桁数よりも大きいときに、発話文内の第1の数詞を、桁数が最大桁数以下の第2の数値を示す第2の数詞に置き換える制御部11と、を備える。制御部11は、第1の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第2の数値を算出する。第2の数値は、上記結果値に相当する。
音声認識装置1は、発話の音声認識結果である発話文を取得する取得部の一例である通信部17と、最大桁数を示す最大桁数情報161を格納する記憶部16と、発話文に含まれる第1の数詞が示す第1の数値の桁数が最大桁数よりも大きいときに、発話文内の第1の数詞を、桁数が最大桁数以下の第2の数値を示す第2の数詞に置き換える制御部11と、を備える。制御部11は、第1の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第2の数値を算出する。第2の数値は、上記結果値に相当する。
これにより、発話に含まれる数詞が誤認識された場合に、誤認識された数詞を、発話の音声に応じて算出された最大桁数以下の数値を示すように補正することができる。よって、数詞の音声認識誤りを低減することができる。
記憶部16は、1つ以上の数値候補を示す数値候補情報162を格納し、制御部11は、第1の数詞から複数の第2の数値が得られた場合、発話文内の第1の数詞を、数値候補と一致する第2の数値を示す第2の数詞に置き換える。
これにより、複数の第2の数値が算出された場合であっても、発話文内の数詞を精度良く補正することができる。
(他の実施形態)
以上のように、本出願において開示する技術の例示として、上記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。そこで、以下、他の実施形態を例示する。
以上のように、本出願において開示する技術の例示として、上記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。そこで、以下、他の実施形態を例示する。
上記実施形態では、結果リストに複数の結果値が含まれる場合、音声認識装置1が、複数の結果値を数値候補情報162に含まれる数値候補と比較して、結果値を一つ選択する例について説明した。しかし、複数の結果値の中からいずれか一つをユーザに選択させてもよい。図11は、結果値の選択画面の一例を示す。選択画面は、複数の結果値の中からいずれか一つを選択させるための画面である。例えば、音声認識装置1は、図4のステップS6において生成した結果リストに含まれる複数の結果値のそれぞれを示すように、発話文の数詞を一時的に置き換えて、複数の補正後の発話文を生成する。音声認識装置1は、図11に示すように、複数の補正後の発話文を含む選択画面をディスプレイ14に表示する。音声認識装置1は、タッチパネル13を介して、ユーザによるいずれか一つの発話文の選択を受け付ける。すなわち、複数の結果値のそれぞれを示す数詞の中から、いずれか一つの数詞の選択を受け付ける。音声認識装置1は、図4のステップS9において、ユーザが選択した補正後の発話文を、発話に対応する発話文として決定する。なお、選択画面において、複数の補正後の発話文を表示することに代えて、結果値を示す数詞のみを表示してもよい。この場合、図4のステップS9において、ユーザが選択した数詞に基づいて、発話文を補正する。
上記実施形態では、音声認識を音声認識サーバ3で行い、翻訳を翻訳サーバ4で行い、音声合成を音声合成サーバ5で行ったが、本開示はこれに限定されない。音声認識、翻訳及び音声合成の少なくとも一つの処理を音声認識装置1内で行ってもよい。例えば、音声認識装置1に、音声認識サーバ3と同一の機能を搭載してもよい。音声認識装置1に、音声認識サーバ3、翻訳サーバ4、及び音声合成サーバ5と同一の機能を全て搭載してもよい。この場合、音声認識装置1は、通信部17を有さなくてもよい。
(実施形態の概要)
(1)本開示の音声認識装置は、発話の音声認識結果である発話文を取得する取得部と、最大桁数を示す桁数情報を格納する記憶部と、発話文に含まれる第1の数詞が示す第1の数値の桁数が最大桁数よりも大きいときに、発話文内の第1の数詞を、桁数が最大桁数以下の第2の数値を示す第2の数詞に置き換える制御部と、を備え、制御部は、第1の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第2の数値を算出する。
(1)本開示の音声認識装置は、発話の音声認識結果である発話文を取得する取得部と、最大桁数を示す桁数情報を格納する記憶部と、発話文に含まれる第1の数詞が示す第1の数値の桁数が最大桁数よりも大きいときに、発話文内の第1の数詞を、桁数が最大桁数以下の第2の数値を示す第2の数詞に置き換える制御部と、を備え、制御部は、第1の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第2の数値を算出する。
これにより、発話に含まれる数詞が誤認識された場合であっても、誤認識された数詞を、発話の音声に応じて算出された数値を示すように補正することができる。よって、数詞の音声認識誤りを低減することができる。
(2)(1)の音声認識装置において、記憶部は、1つ以上の数値候補を示す候補情報を格納し、制御部は、第1の数詞から複数の第2の数値が得られた場合、発話文内の第1の数詞を、数値候補と一致する第2の数値を示す第2の数詞に置き換えてもよい。
これにより、複数の第2の数値が算出された場合であっても、発話文内の数詞を精度良く補正することができる。
(3)(1)の音声認識装置は、第1の数詞から複数の第2の数値が得られた場合に、複数の第2の数値を示す複数の第2の数詞を表示する表示部と、複数の第2の数詞の中からいずれか1つを選択するユーザの操作を受け付ける入力部と、をさらに備え、制御部は、発話文内の第1の数詞を、ユーザが選択した第2の数詞に置き換えてもよい。
これにより、複数の第2の数値が算出された場合であっても、発話文内の数詞を精度良く補正することができる。
(4)本開示の音声認識方法は、演算部により、発話の音声認識結果である発話文を取得するステップと、最大桁数を示す桁数情報を取得するステップと、発話文に含まれる第1の数詞が示す第1の数値の桁数が最大桁数よりも大きいときに、発話文内の第1の数詞を、桁数が最大桁数以下の第2の数値を示す第2の数詞に置き換えるステップと、を含み、第1の数詞を複数の数詞に分割し、複数の数詞がそれぞれ示す数値を加算することによって、第2の数値を算出する。
本開示の全請求項に記載の音声認識装置及び音声認識方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。
本開示は、話者の音声を音声認識する音声認識装置に適用可能である。
1 音声認識装置
2 ネットワーク
3 音声認識サーバ
4 翻訳サーバ
5 音声合成サーバ
11 制御部
12 マイク
13 タッチパネル
14 ディスプレイ
15 スピーカ
16 記憶部
17 通信部
100 音声認識システム
2 ネットワーク
3 音声認識サーバ
4 翻訳サーバ
5 音声合成サーバ
11 制御部
12 マイク
13 タッチパネル
14 ディスプレイ
15 スピーカ
16 記憶部
17 通信部
100 音声認識システム
Claims (5)
- 発話の音声認識結果である発話文を取得する取得部と、
最大桁数を示す桁数情報を格納する記憶部と、
前記発話文に含まれる第1の数詞が示す第1の数値の桁数が前記最大桁数よりも大きいときに、前記発話文内の前記第1の数詞を、桁数が前記最大桁数以下の第2の数値を示す第2の数詞に置き換える制御部と、
を備え、
前記制御部は、前記第1の数詞を複数の数詞に分割し、前記複数の数詞がそれぞれ示す数値を加算することによって、前記第2の数値を算出する、
音声認識装置。 - 前記記憶部は、1つ以上の数値候補を示す候補情報を格納し、
前記制御部は、前記第1の数詞から複数の第2の数値が得られた場合、前記発話文内の前記第1の数詞を、前記数値候補と一致する第2の数値を示す第2の数詞に置き換える、
請求項1に記載の音声認識装置。 - 前記第1の数詞から複数の第2の数値が得られた場合に、前記複数の第2の数値を示す複数の第2の数詞を表示する表示部と、
前記複数の第2の数詞の中からいずれか1つを選択するユーザの操作を受け付ける入力部と、
をさらに備え、
前記制御部は、前記発話文内の前記第1の数詞を、前記ユーザが選択した第2の数詞に置き換える、
請求項1に記載の音声認識装置。 - 演算部により、
発話の音声認識結果である発話文を取得するステップと、
最大桁数を示す桁数情報を取得するステップと、
前記発話文に含まれる第1の数詞が示す第1の数値の桁数が前記最大桁数よりも大きいときに、前記発話文内の前記第1の数詞を、桁数が前記最大桁数以下の第2の数値を示す第2の数詞に置き換えるステップと、
を含み、
前記第1の数詞を複数の数詞に分割し、前記複数の数詞がそれぞれ示す数値を加算することによって、前記第2の数値を算出する、
音声認識方法。 - 請求項4に記載の音声認識方法をコンピュータに実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018096486 | 2018-05-18 | ||
JP2018096486 | 2018-05-18 | ||
PCT/JP2019/006085 WO2019220725A1 (ja) | 2018-05-18 | 2019-02-19 | 音声認識装置、音声認識方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019220725A1 JPWO2019220725A1 (ja) | 2021-05-27 |
JP7170287B2 true JP7170287B2 (ja) | 2022-11-14 |
Family
ID=68540061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020518987A Active JP7170287B2 (ja) | 2018-05-18 | 2019-02-19 | 音声認識装置、音声認識方法、及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11756552B2 (ja) |
EP (1) | EP3796309A4 (ja) |
JP (1) | JP7170287B2 (ja) |
WO (1) | WO2019220725A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002533789A (ja) | 1998-12-29 | 2002-10-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略 |
JP2006113269A (ja) | 2004-10-14 | 2006-04-27 | Mitsubishi Electric Corp | 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム |
WO2018047436A1 (ja) | 2016-09-09 | 2018-03-15 | パナソニックIpマネジメント株式会社 | 翻訳装置及び翻訳方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
US5129002A (en) * | 1987-12-16 | 1992-07-07 | Matsushita Electric Industrial Co., Ltd. | Pattern recognition apparatus |
JPH07261792A (ja) * | 1994-03-18 | 1995-10-13 | Fujitsu Ltd | 桁付き数値音声認識装置 |
KR100241901B1 (ko) * | 1997-08-28 | 2000-02-01 | 윤종용 | 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법 |
US6298131B1 (en) * | 1998-03-30 | 2001-10-02 | Lucent Technologies Inc. | Automatic speed dial updating |
JP2000356998A (ja) | 1999-06-15 | 2000-12-26 | Toshiba Tec Corp | 音声認識装置 |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
EP1262954A1 (en) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for verbal entry of digits or commands |
JP4964873B2 (ja) * | 2005-05-13 | 2012-07-04 | ノキア コーポレイション | 電子デバイスへの文字入力方法 |
JP2008083410A (ja) * | 2006-09-27 | 2008-04-10 | Toshiba Corp | 音声認識装置及びその方法 |
US8055502B2 (en) * | 2006-11-28 | 2011-11-08 | General Motors Llc | Voice dialing using a rejection reference |
WO2012123621A1 (en) * | 2011-03-16 | 2012-09-20 | Nokia Corporation | Method, device and system for user interface adaptation |
US10976922B2 (en) * | 2013-02-17 | 2021-04-13 | Benjamin Firooz Ghassabian | Data entry systems |
US10216646B2 (en) * | 2015-08-19 | 2019-02-26 | Board Of Regents, The University Of Texas System | Evicting appropriate cache line using a replacement policy utilizing belady's optimal algorithm |
CN107094199A (zh) * | 2016-02-17 | 2017-08-25 | 纬创资通(中山)有限公司 | 在通话中分享连串数字的方法与通信装置 |
KR102045618B1 (ko) * | 2016-05-25 | 2019-11-18 | 최창준 | 기수법에 맞춘 통신 id 입력 방식의 통신 장치 |
US10776355B1 (en) * | 2016-09-26 | 2020-09-15 | Splunk Inc. | Managing, storing, and caching query results and partial query results for combination with additional query results |
US10276185B1 (en) * | 2017-08-15 | 2019-04-30 | Amazon Technologies, Inc. | Adjusting speed of human speech playback |
US10504514B2 (en) * | 2017-09-29 | 2019-12-10 | Visteon Global Technologies, Inc. | Human machine interface system and method for improving user experience based on history of voice activity |
-
2019
- 2019-02-19 EP EP19802810.2A patent/EP3796309A4/en not_active Withdrawn
- 2019-02-19 WO PCT/JP2019/006085 patent/WO2019220725A1/ja active Application Filing
- 2019-02-19 JP JP2020518987A patent/JP7170287B2/ja active Active
-
2020
- 2020-10-29 US US17/083,962 patent/US11756552B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002533789A (ja) | 1998-12-29 | 2002-10-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略 |
JP2006113269A (ja) | 2004-10-14 | 2006-04-27 | Mitsubishi Electric Corp | 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム |
WO2018047436A1 (ja) | 2016-09-09 | 2018-03-15 | パナソニックIpマネジメント株式会社 | 翻訳装置及び翻訳方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3796309A1 (en) | 2021-03-24 |
EP3796309A4 (en) | 2021-07-07 |
US11756552B2 (en) | 2023-09-12 |
WO2019220725A1 (ja) | 2019-11-21 |
US20210043213A1 (en) | 2021-02-11 |
JPWO2019220725A1 (ja) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202059B (zh) | 机器翻译方法以及机器翻译装置 | |
JP6875572B2 (ja) | 音声合成方法、装置、電子デバイス、及びプログラム | |
EP2485212A1 (en) | Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device | |
KR20210106397A (ko) | 음성 전환 방법, 장치 및 전자 기기 | |
JP2019121241A (ja) | 翻訳装置、翻訳方法、及びプログラム | |
US9196253B2 (en) | Information processing apparatus for associating speaker identification information to speech data | |
CN111339788B (zh) | 交互式机器翻译方法、装置、设备和介质 | |
JPWO2018055983A1 (ja) | 翻訳装置、翻訳システム、および評価サーバ | |
CN105279259A (zh) | 一种搜索结果的确定方法及装置 | |
CN113808576A (zh) | 语音转换方法、装置及计算机*** | |
JP7170287B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
KR101562222B1 (ko) | 발음의 정확도 평가 장치 및 그 방법 | |
JP7117629B2 (ja) | 翻訳装置 | |
WO2019225028A1 (ja) | 翻訳装置、システム、方法及びプログラム並びに学習方法 | |
JP2012159969A (ja) | 機械翻訳装置、方法およびプログラム | |
US10671814B2 (en) | Translation device and program recording medium | |
JP6190984B1 (ja) | 質問回答支援装置、及び質問回答支援システム | |
JP2013050742A (ja) | 音声認識装置および音声認識方法 | |
JP2002221989A (ja) | テキスト入力方法及びその装置 | |
JP4027357B2 (ja) | 文字列入力装置およびその制御方法 | |
JP6899558B2 (ja) | 対話制御装置、対話エンジン、管理端末、対話装置、対話制御方法、およびプログラム | |
JP2021125164A (ja) | 情報処理装置、チャットボットアシストプログラム及びチャットボットアシスト方法 | |
JP2015143866A (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
CN117271751B (zh) | 交互方法、装置、设备和存储介质 | |
JP7406921B2 (ja) | 情報処理装置、情報処理方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221024 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7170287 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |