JP2014016402A - 音声入力装置 - Google Patents

音声入力装置 Download PDF

Info

Publication number
JP2014016402A
JP2014016402A JP2012152250A JP2012152250A JP2014016402A JP 2014016402 A JP2014016402 A JP 2014016402A JP 2012152250 A JP2012152250 A JP 2012152250A JP 2012152250 A JP2012152250 A JP 2012152250A JP 2014016402 A JP2014016402 A JP 2014016402A
Authority
JP
Japan
Prior art keywords
text
mode
voice
input
input mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012152250A
Other languages
English (en)
Inventor
Hidehiko Mitomo
秀彦 三友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2012152250A priority Critical patent/JP2014016402A/ja
Publication of JP2014016402A publication Critical patent/JP2014016402A/ja
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識されたテキストに対する音声を用いた多種多様な編集を行える「音声入力装置」を提供する。
【解決手段】音声認識エンジン2の音声認識処理の開始時にテキスト入力モードに設定する(702)。テキスト入力モードでは、ユーザが発生した音声を認識した認識結果テキストをテキストデータに書き込み(703-708)と共に、モードをコマンド入力モードに切り替える(711)。コマンド入力モードでは、ユーザが発生した音声を認識した認識結果テキストに対応する編集操作コマンドに従ったテキストデータの編集操作を行う(712-728)。また、コマンド入力モードにおいて、ユーザがモード切替を指示するテキストが認識結果テキストとして得られたならば(731-732)、モードをテキスト入力モードに復帰する(741)。
【選択図】図7

Description

本発明は、音声による入力を受け付ける音声入力の技術に関するものである。
音声による入力を受け付ける音声入力の技術としては、ユーザの発声した音声が表すテキストを音声認識する音声認識装置において、ユーザの第1回目の発声の後の所定期間内に第2回目の発声が行われた場合に、第2回目の発声は第1回目の発声の言い直しとみなし、第1回目の発声に対して音声認識したテキストを破棄し、第2回目の発声に対して音声認識したテキストを最終的な音声認識結果とする技術が知られている(たとえば、特許文献1)。
特開平8-190398号公報
前述した第1回目の発声に対して音声認識したテキストを破棄し、第2回目の発声に対して音声認識したテキストを最終的な音声認識結果とする技術によれば、ユーザは音声を用いて、音声認識されたテキストの全体を置換する編集を行うことができる。
しかしながら、音声認識されたテキストの全体を置換する編集以外の、たとえば、部分削除や、部分修正などの、その他の多種多様な編集を音声を用いて行うことはできない。
そこで、本発明は、音声を用いた、音声認識されたテキストに対する多種多様な編集を可能とすることを課題とする。
前記課題達成のために、本発明は、ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置に、ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を行う音声認識手段と、モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを備え、前記モード切替手段において、前記音声認識手段が音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、前記テキスト入力モードが設定されている期間中に、前記テキスト書出手段による前記認識結果テキストの前記出力テキストへの書き出しが行われたならば、前記モードをコマンド入力モードに切り替えるようにしたものである。
また、本発明は、前記課題達成のために、ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置に、ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を行う音声認識手段と、モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを備え、前記モード切替手段において、音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、前記テキスト入力モードが設定されている期間中において、前記音声認識手段が音声を音声認識した後、所定期間以内に、前記ユーザの発声が発生した場合に、前記モードをコマンド入力モードに切り替えるようにしたものである。
ここで、このような音声入力装置は、前記モード切替手段において、前記コマンド入力モードが設定されている期間中に前記テキスト編集手段による前記出力テキストに対する編集操作が行われたならば、前記モードを前記テキスト入力モードに切り替えるように構成してもよい。
また、このような音声入力装置は、前記モード切替手段において、前記コマンド入力モードが設定されている期間中に、前記音声認識手段が生成した認識結果テキストが、予め定めておいたモード切替を指示するテキストと一致した場合に、前記モードを前記テキスト入力モードに切り替えるように構成してもよい。
また、本発明は、前記課題達成のために、ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置に、トークスイッチと、前記トークスイッチの操作に応答して、ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を開始する音声認識手段と、モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを備え、前記モード切替手段において、前記音声認識手段が音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、以降、前記音声認識手段が音声認識処理を行っている期間中、前記トークスイッチの操作の発生の度に、前記モードをテキスト入力モードとコマンド入力モードとの間で交互に切り替えるようにしたものである。
これらのような音声入力装置によれば、テキスト入力モードにおいて、ユーザは音声を用いて出力テキストへ書き込むテキストの入力を行えるのみならず、コマンド入力モードにおいて、音声を用いて編集操作コマンドを入力して出力テキストに対する編集操作を行うことができる。また、テキスト入力モードとコマンド入力モードの切り替えを、自動、または、モード切替を指示する音声の入力、所定のタイミングでの音声の入力、または、トークスイッチの操作によって、ユーザに特段の負担をかけることのない形態で行うことができる。
そして、ここで、編集操作コマンドとしては、たとえば、部分削除や、部分修正、入力位置変更、文節選択、改行挿入などの、多種多様な編集操作に対応するコマンドを設定することができるので、本発明によれば、音声を用いた、音声認識されたテキストに対する多種多様な編集が可能となる。
以上のように、本発明によれば、音声を用いた、音声認識されたテキストに対する多種多様な編集を可能とすることができる。
本発明の実施形態に係る音声入力装置の構成を示すブロック図である。 本発明の実施形態に係る音声入力装置のモード切替処理と入力処理を示すフローチャートである。 本発明の実施形態に係る音声入力装置のモード切替処理において用いるイベントを示す図である。 本発明の実施形態に係る音声入力装置の動作例を示す図である。 本発明の実施形態に係る音声入力装置の動作例を示す図である。 本発明の実施形態に係る音声入力装置の動作例を示す図である。 本発明の実施形態に係る音声入力装置の動作例を示す図である。
以下、本発明の実施形態について説明する。
図1に、本実施形態に係る音声入力装置の構成を示す。
図示するように、音声入力装置は、マイクロフォン1、音声認識エンジン2、入力制御部3、テキスト編集処理部4、テキスト表示部5、メモリ6、トークスイッチ7、以上各部を制御する制御部8を備えている。
ただし、このような音声入力装置は、ハードウエア的には、マイクロプロセッサや、メモリや、その他の周辺デバイスを有する一般的な構成を備えたコンピュータを用いて構成してよく、この場合、以上に示した音声入力装置のマイクロフォン1を除く各部、または、その一部は、マイクロプロセッサが予め用意されたプログラムを実行することにより具現化するプロセス、資源としてコンピュータ上に実現されるものであって良い。
さて、本音声入力装置は、ユーザの発声した音声に応じて、メモリ6に格納されたテキストデータを編集するものである。
すなわち、マイクロフォン1はユーザの発声した音声をピックアップする。
また、音声認識エンジン2は、トークスイッチ7のオン操作の発生が制御部8から通知されたならば、マイクロフォン1がピックアップした音声の音声認識を行って、当該音声が表すテキストを認識結果テキストとして出力する音声認識を、ユーザの発声音声の発生の度にくり返す音声認識処理を、音声認識終了イベントが発生するまで行う。音声認識終了イベントとしては、たとえば、所定期間以上のユーザの発声無しなどの事象を用いることができる。
また、音声認識エンジン2は、音声認識辞書を備え、備えた音声認識辞書を用いて音声認識を行う機能を備えたものであっても、音声認識サービスを提供する外部の音声認識サーバに、マイクロフォン1がピックアップした音声を送信し、送信した音声の音声認識結果を音声認識サーバから取得する機能を備えたものであっても、上記二つの機能を両方備えたものであっても良い。
次に、入力制御部3は、後述するモード切替処理と入力処理とを行って、音声認識エンジン2が音声認識を行う度に、認識結果テキストを入力テキストとしてテキスト編集処理部4に出力する処理と、認識結果テキストが表す編集操作コマンドをテキスト編集処理部4に出力する処理とのいずれかを行う。
そして、テキスト編集処理部4は、メモリ6に格納されたテキストデータに、入力制御部3から入力テキストして出力されたテキストを書き込んだり、メモリ6に格納されたテキストデータに、入力制御部3から出力された編集操作コマンドに従った編集操作を施す処理を行う。
また、テキスト表示部5は、メモリ6に格納されたテキストデータが表すテキストを表示する。
以下、このような音声入力装置において入力制御部3が、音声認識エンジン2の音声認識処理を行っている期間中に行う上述のモード切替処理と入力処理について説明する。
まず、モード切替処理について説明する。
図2aに、モード切替処理の手順を示す。
図示するように、この処理では、まず、テキスト入力モードを設定した上で(ステップ202)、コマンド入力モード切替イベントの発生を監視する(ステップ204)。
そして、コマンド入力モード切替イベントが発生したならば(ステップ204)、コマンド入力モードを設定し(ステップ206)、テキスト入力モード切替イベントの発生を監視する(ステップ208)。
そして、テキスト入力モード切替イベントが発生したならば(ステップ208)、ステップ202からの処理を同様に行う。
ここで、以上のモード切替処理において用いるコマンド入力モード切替イベントとテキスト入力モード切替イベントとについては後述する。
次に、図2bに入力処理の手順を示す。
図示するように、この処理では、音声認識エンジン2の音声認識の終了を監視し(ステップ252)、音声認識の終了が発生したならば、以下の処理を行う。
すなわち、テキスト入力モードが設定されている場合には(ステップ254)、音声認識エンジン2から出力される認識結果テキストを入力テキストとしてテキスト編集処理部4に出力し(ステップ256)、ステップ252の監視に戻る。
一方、テキスト入力モードが設定されていない場合(ステップ254)、すなわち、コマンド入力モードが設定されている場合には、音声認識エンジン2から出力される認識結果テキストがモード切替指示を表すテキストであるかどうかを調べる(ステップ258)。
そして、モード切替指示を表すテキストであれば、そのままステップ252の監視に戻り、モード切替指示を表すテキストでなければ、認識結果テキストが表す編集操作コマンドをテキスト編集処理部4に出力し(ステップ260)、ステップ252の監視に戻る。なお、テキスト編集処理部4の各編集操作コマンドと、当該編集操作コマンドを表すテキストとの対応は、予め、入力制御部3に登録しておく。
以上、入力制御部3が行うモード切替処理と、入力処理について説明した。
次に、上述のように、モード切替処理において用いるコマンド入力モード切替イベントとテキスト入力モード切替イベントとについて説明する。
テキスト入力モード切替イベントとコマンド入力モード切替イベントの組み合わせとしては図3に示すパターン1からパターン4の組み合わせのいずれかを用いることができる。
ここで、パターン1では、コマンド入力モード切替イベントとテキスト入力モード切替イベントとして、トークスイッチ7のオン操作の発生を用いる。なお、トークスイッチ7のオン操作は、制御部8によって入力制御部3に通知される。また、パターン1を用いる場合、上述したモード切替指示を表すテキストは設定しない。
次に、パターン2では、音声認識エンジン2がユーザの発声音声の音声認識を行った後の所定期間中に新たなユーザの発声音声が発生しない場合に認識終了後タイムアウトが発生するものとして、コマンド入力モード切替イベントとしては、音声認識エンジン2の最後の音声認識完了後における認識終了後タイムアウトの発生前におけるユーザの発声音声の発生を用いる。また、テキスト入力モード切替イベントとしては、認識終了後タイムアウトの発生と、モード切替指示音声の入力とを用いる。ここで、音声認識エンジン2が出力する認識結果テキストと、上述した予め設定したモード切替指示を表すテキスト、たとえば、「入力モード切替」とが一致した場合に、入力制御部3に対するコマンドであるモード切替指示音声の入力が発生したものとする。
次に、パターン3では、コマンド入力モード切替イベントとしては、テキスト入力モードが設定されているときに発生した入力制御部3の認識結果テキストの処理終了、すなわち、入力テキストのテキスト編集処理部4への出力完了を用い、テキスト入力モード切替イベントとしては、コマンド入力モードが設定されているときに発生した入力制御部3の認識結果テキストの処理終了、すなわち、編集操作コマンドのテキスト編集処理部4への出力完了と、モード切替指示音声の入力とを用いる。
そして、パターン4では、コマンド入力モード切替イベントとしては、テキスト入力モードが設定されているときに発生した入力制御部3の認識結果テキストの処理終了を用い、テキスト入力モード切替イベントとしては、モード切替指示音声の入力を用いる。
以下、図3の各パターンを採用した場合における音声入力装置の動作例を示す。
まず、図4に、パターン1を採用した場合の動作例を示す。
図示するように、この場合、ユーザがトークスイッチ7をオンに設定すると(401)、音声認識エンジン2の音声認識処理が開始されると共に、モード切替処理によってテキスト入力モードが設定される(402)。
そして、ユーザが、「これから向かいます」と発声すると(403)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「これから買います」(404)が、入力制御部3によって、入力テキストとしてテキスト編集処理部4に出力される(405)。入力テキスト「これから買います」を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの初期編集ポイントである先頭位置から、入力テキストを書き込み(406)、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから買います」となる(407)。
そして、テキストデータが表すテキスト「これから買います」はテキスト表示部5により表示され、当該表示より、「向かいます」の「買います」の誤認識が生じたことを認知したユーザは、以下のようにテキストデータの修正を行う。
すなわち、ユーザはまず、誤認識の文節「買います」を削除する編集操作コマンド入力を行うために再度トークスイッチ7をオンと(411)すると、コマンド入力モード切替イベント発生となり、モード切替処理によってコマンド入力モードが設定される(412)。そして、ユーザが、「削除」と発声すると(413)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「削除」(414)に対応する編集操作コマンド“削除”が、入力制御部3によって、テキスト編集処理部4に出力される(415)。編集操作コマンド“削除”を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの現在の編集ポイント(「これから買います」の末尾)直前の文節「買います」を削除し(416)、編集ポイントを削除した文節の直前の文字の後に移動する。この結果、テキストデータが表すテキストは「これから」となる(417)。
そして、テキスト表示部5の表示より、文節「買います」の削除が完了したことを認知したならば、正しい文節「向かいます」を入力するために、ユーザが再度トークスイッチ7をオンにすると(421)、テキスト入力モード切替イベント発生となり、モード切替処理によってテキスト入力モードが設定される(422)。
そして、ユーザが、「向かいます」と発声すると(423)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「向かいます」(424)が、入力制御部3によって、入力テキストとしてテキスト編集処理部4に出力される(425)。入力テキスト「向かいます」を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの現在の編集ポイント(「これから」の末尾)に、入力テキストを書き込み(426)、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから向かいます」と(427)修正される。
次に、図5に、パターン2を採用した場合の動作例を示す。
図示するように、この場合、ユーザがトークスイッチ7をオンに設定すると(501)、音声認識エンジン2の音声認識処理が開始されると共に、モード切替処理によってテキスト入力モードが設定される(502)。
そして、ユーザが、「これから向かいます」と発声すると(503)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「これから買います」(504)が、入力制御部3によって、入力テキストとしてテキスト編集処理部4に出力される(505)。入力テキスト「これから買います」を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの初期編集ポイントである先頭位置から、入力テキストを書き込み(506)、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから買います」となる(507)。
そして、テキストデータが表すテキスト「これから買います」はテキスト表示部5により表示され、当該表示より、「向かいます」の「買います」の誤認識が生じたことを認知したユーザは、以下のようにテキストデータの修正を行う。
すなわち、ユーザはまず、誤認識の文節「買います」を削除する編集操作コマンド入力を行うために、認識終了後タイムアウト(511)が生じる前に、すみやかに、「削除」と発声すると(512)、コマンド入力モード切替イベント発生となりモード切替処理によってコマンド入力モードが設定される(513)。一方、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「削除」(514)に対応する編集操作コマンド“削除”が、入力制御部3によって、テキスト編集処理部4に出力される(515)。編集操作コマンド“削除”を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの現在の編集ポイント(「これから買います」の末尾)直前の文節「買います」を削除し(516)、編集ポイントを削除した文節の直前の文字の後に移動する。この結果、テキストデータが表すテキストは「これから」となる(517)。
そして、テキスト表示部5の表示より、文節「買います」の削除が完了したことを認知したならば、ユーザが、正しい文節「向かいます」を入力するために、「入力モード切替」と発声すると(521)、音声認識エンジン2が認識した認識結果テキスト「入力モード切替」(522)は、モード切替指示を表すテキストであるので、テキスト入力モード切替イベント発生となり、モード切替処理によって、テキスト入力モードが設定される(532)。なお、ユーザは、「入力モード切替」と発声する代わりに、所定期間発声を行わず、認識終了後タイムアウトが生させることによって(531)、テキスト入力モード切替イベントを発生し、テキスト入力モード(532)にモードを切り替えることもできる。
さて、このようにしてテキスト入力モード(532)を設定したユーザが、「向かいます」と発声すると(533)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「向かいます」(534)が、入力制御部3によって、入力テキストとしてテキスト編集処理部4に出力される(535)。入力テキスト「向かいます」を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの現在の編集ポイント(「これから」の末尾)に、入力テキストを書き込み(536)、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから向かいます」と(537)修正される。
次に、図6に、パターン3を採用した場合の動作例を示す。
図示するように、この場合、ユーザがトークスイッチ7をオンに設定すると(601)、音声認識エンジン2の音声認識処理が開始されると共に、モード切替処理によってテキスト入力モードが設定される(602)。
そして、ユーザが、「これから向かう予定です」と発声すると(603)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「これから買う予定です」(604)が、入力制御部3によって、入力テキストとしてテキスト編集処理部4に出力される(605)。入力テキスト「これから買う予定です」を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの初期編集ポイントである先頭位置から、入力テキストを書き込み(606)、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから買う予定です」となる(607)。
そして、テキスト表示部5は、テキストデータが表すテキスト「これから買う予定です」を表示する(608)。また、このとき、テキスト編集処理部4は、テキスト表示部5に、テキスト「これから買う予定です」を、文節毎にラベル(番号)を付した形態で表示させる。ユーザは、当該表示より、「向かう」を「買う」とする誤認識が生じたことと、誤認識が生じた文節「買う」のラベル“2”を認知する。
一方、この時点、入力制御部3の入力テキストのテキスト編集処理部4への出力完了(605)により、コマンド入力モード切替イベント発生となり、モードは自動的にコマンド入力モード(611)に切り替わっている。
そこで、ユーザは、修正対象の文節を選択状態とするために、認識が生じた文節「買う」のラベルである「2」を発声すると(612)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「2」(613)に対応する編集操作コマンド“2”が、入力制御部3によってテキスト編集処理部4に出力される(614)。編集操作コマンド“2”を受け取ったテキスト編集処理部4は、テキストデータが表すテキスト「これから買う予定です」(616)のラベルが2の文節「買う」を選択状態に設定する(615)。
そして、テキスト表示部5は、テキストデータが表すテキストを選択状態とされた文節「買う」が識別可能な形態で表示する(617)。
一方、この時点、入力制御部3の編集操作コマンドのテキスト編集処理部4への出力完了(614)に伴い、テキスト入力モード切替イベント発生となり、モードは自動的にテキスト入力モード(621)に切り替わっている。
そこで、ユーザが、選択状態とした文節「買う」を修正するために「向かう」と発声すると(622)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「向かう」(623)が、入力制御部3によって、入力テキストとしてテキスト編集処理部4に出力される(624)。また、入力テキスト「向かう」を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの選択状態となっている文節「買う」の範囲に、入力テキスト「向かう」を上書きことにより(625)、文節「買う」を「向かう」に置換する。
この結果、テキストデータが表すテキストは「これから向かう予定です」(626)に修正され、修正後のテキストがテキスト表示部5によって表示される(627)。
なお、以上の動作において、コマンド入力モードが設定されているときに、入力すべき編集操作コマンドが存在しない場合には、ユーザは、「入力モード切替」と発声することにより、図5の521、522、532と同様の手順によって、モードをテキスト入力モードに着替えることができる。
次に、図7に、パターン4を採用した場合の動作例を示す。
図示するように、この場合、ユーザがトークスイッチ7をオンに設定すると(701)、音声認識エンジン2の音声認識処理が開始されると共に、モード切替処理によってテキスト入力モードが設定される(702)。
そして、ユーザが、「これから向かう予定です」と発声すると(703)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「これから買う予定です」(704)が、入力制御部3によって、入力テキストとしてテキスト編集処理部4に出力される(705)。入力テキスト「これから買う予定です」を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの初期編集ポイントである先頭位置から、入力テキストを書き込み(706)、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから買う予定です」となる(707)。
ここで、テキスト表示部5は、テキストデータが表すテキスト「これから買う予定です」に文節毎にラベル(番号)を付した形態で表示する(708)。ユーザは、当該表示より、「向かう」を「買う」とする誤認識が生じたことと、誤認識が生じた文節「買う」のラベル“2”を認知する。
一方、この時点、入力制御部3の入力テキストのテキスト編集処理部4への出力完了(705)に伴い、コマンド入力モード切替イベント発生となり、モードは自動的にコマンド入力モード(711)に切り替わっている。
そこで、ユーザは、修正対象の文節を選択するために、認識が生じた文節「買う」のラベルである「2」を発声すると(712)、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「2」(713)に対応する編集操作コマンド“2”が、入力制御部3によって、テキスト編集処理部4に出力される(714)。編集操作コマンド“2”を受け取ったテキスト編集処理部4は、テキストデータが表すテキスト「これから買う予定です」(716)のラベルが2の文節「買う」を選択状態に設定する(715)。
そして、テキスト表示部5は、テキストデータが表すテキスト(716)を選択状態とされた文節が識別可能な形態で表示する(717)。また、このとき、テキスト編集処理部4は、テキスト表示部5に、選択された文節の置換候補をリスト形式で、各置換候補のラベルを付して表示させる。ここで、図では、選択された文節「買う」の置換候補として、ラベルAの「合う」、ラベルBの「向かう」を表示している。なお、置換候補の算出は、音声認識エンジン2において選択された文節「買う」の「買う」以外の認識候補となった文節を音声認識エンジン2から取得して置換候補とすることによりおこなうようにしてもよいし、各語句に対して当該語句と誤音声認識し易い語句を登録した類似辞書を予め備えて、当該類似辞書を用いて置換候補を選定することにより行うようにしてもよい。
次に、ユーザは置換候補を選択するために、「B」を発声する(721)。ここで、この時点ではコマンド入力モードが維持されている。すると、当該発声に対して音声認識エンジン2が認識した認識結果テキスト「B」(722)に対応する編集操作コマンド“B”が、入力制御部3によって、テキスト編集処理部4に出力される(723)。編集操作コマンド“B”を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの選択状態となっている文節「買う」の範囲に、ラベルBの置換候補「向かう」を上書きことにより(724)、文節「買う」を「向かう」に置換すると共に、編集ポイントをテキストの末尾に移動する。
この結果、テキストデータが表すテキストは「これから向かう予定です」(725)に修正され、修正後のテキストがテキスト表示部5によって表示される(726)。
次に、ユーザはテキストデータへのテキストの追加入力を行うために、「入力モード切替」と発声すると(731)、音声認識エンジン2が認識した認識結果テキスト「入力モード切替」(732)は、モード切替指示を表すテキストであるので、テキスト入力モード切替イベント発生となり、モード切替処理によって、テキスト入力モードが設定される(741)。
そして、その後、ユーザが「よろしく」と発声すると(742)、発声した当該発声に対して音声認識エンジン2が認識した認識結果テキスト「よろしく」(743)が、入力制御部3によって、入力テキストとしてテキスト編集処理部4に出力される(744)。入力テキスト「よろしく」を受け取ったテキスト編集処理部4は、テキストデータが表すテキストの編集ポイントである末尾位置から、入力テキストを書き込み(745)、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから向かう予定です よろしく」となり(746)、テキスト表示部5の表示が更新される(747)。
以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、テキスト入力モードにおいて、ユーザは音声を用いて出力テキストへ書き込むテキストの入力操作を行えるのみならず、コマンド入力モードにおいて、音声を用いて編集操作コマンドを入力して出力テキストの編集操作を行うことができる。また、テキスト入力モードとコマンド入力モードの切り替えを、自動、または、モード切替を指示する音声の入力、所定のタイミングでの音声の入力、または、トークスイッチ7の操作によって、ユーザに特段の負担をかけることのない形態で行うことができる。
そして、ここで、編集操作コマンドとしては、以上に示してきたように多種多様な編集に対応するコマンドを設定することができるので、本実施形態によれば、音声を用いた、音声認識されたテキストに対する多種多様な編集が可能となる。
なお、以上の実施形態は、音声認識エンジン2を、上述のように音声認識辞書を備え、備えた音声認識辞書を用いて音声認識を行う機能と、音声認識サービスを提供する外部の音声認識サーバに、マイクロフォン1がピックアップした音声を送信し、送信した音声の音声認識結果を音声認識サーバから取得する機能とを備えたものとする場合には、テキスト入力モードでは音声認識エンジン2に音声認識サーバを用いた音声認識を行わせ、コマンド入力モードでは音声認識辞書を用いた音声認識を行わせるようにしてもよい。
また、コマンド入力モードで音声認識すべき音声は編集操作コマンドとモード切替を指示する音声に限定されるので、音声認識エンジン2におけるコマンド入力モードにおける音声認識辞書を用いた音声認識結果を編集操作コマンドとモード切替を指示する音声を表すテキストに絞り込むようにしてもよい。このようにすることにより、コマンド入力モードにおける認識精度を向上することができる。
また、テキスト入力モード切替イベントとコマンド入力モード切替イベントの組み合わせとしては、図3に示した4つのパターンのうちの、異なるパターンのテキスト入力モード切替イベントとコマンド入力モード切替イベントとを組み合わせたパターンを用いるようにしてもよい。
また、以上の実施形態は、さらに、コマンド入力モードにおいて、音声認識処理の終了指示をユーザから音声によって受け付け、当該音声の受け付けをもって、音声認識エンジン2における音声認識処理の終了するようにしてもよい。すなわち、コマンド入力モードにおいて発生した認識結果テキストが、予め定めた音声認識処理の終了指示を表すテキストに一致したとき、入力制御部3において音声認識エンジン2の音声認識処理を終了する処理を行うようにしてもよい。
1…マイクロフォン、2…音声認識エンジン、3…入力制御部、4…テキスト編集処理部、5…テキスト表示部、6…メモリ、7…トークスイッチ、8…制御部。

Claims (6)

  1. ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置であって、
    ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を行う音声認識手段と、
    モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、
    前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、
    前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを有し、
    前記モード切替手段は、前記音声認識手段が音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、前記テキスト入力モードが設定されている期間中に、前記テキスト書出手段による前記認識結果テキストの前記出力テキストへの書き出しが行われたならば、前記モードをコマンド入力モードに切り替えることを特徴とする音声入力装置。
  2. ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置であって、
    ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を行う音声認識手段と、
    モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、
    前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、
    前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを有し、
    前記モード切替手段は、音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、前記テキスト入力モードが設定されている期間中において、前記音声認識手段が音声を音声認識した後、所定期間以内に、前記ユーザの発声が発生した場合に、前記モードをコマンド入力モードに切り替えることを特徴とする音声入力装置。
  3. 請求項1または2記載の音声入力装置であって、
    前記モード切替手段は、前記コマンド入力モードが設定されている期間中に前記テキスト編集手段による前記出力テキストに対する編集操作が行われたならば、前記モードを前記テキスト入力モードに切り替えることを特徴とする音声入力装置。
  4. 請求項1、2または3記載の音声入力装置であって、
    前記モード切替手段は、前記コマンド入力モードが設定されている期間中に、前記音声認識手段が生成した認識結果テキストが、予め定めておいたモード切替を指示するテキストと一致した場合に、前記モードを前記テキスト入力モードに切り替えることを特徴とする音声入力装置。
  5. ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置であって、
    トークスイッチと、
    前記トークスイッチの操作に応答して、ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を開始する音声認識手段と、
    モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、
    前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、
    前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを有し、
    前記モード切替手段は、前記音声認識手段が音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、以降、前記音声認識手段が音声認識処理を行っている期間中、前記トークスイッチの操作の発生の度に、前記モードをテキスト入力モードとコマンド入力モードとの間で交互に切り替えることを特徴とする音声入力装置。
  6. コンピュータによって読み取られ実行されるコンピュータプログラムであって、
    当該コンピュータを請求項1、2、3、4または5記載の音声入力装置として機能させることを特徴とするコンピュータプログラム。
JP2012152250A 2012-07-06 2012-07-06 音声入力装置 Pending JP2014016402A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012152250A JP2014016402A (ja) 2012-07-06 2012-07-06 音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012152250A JP2014016402A (ja) 2012-07-06 2012-07-06 音声入力装置

Publications (1)

Publication Number Publication Date
JP2014016402A true JP2014016402A (ja) 2014-01-30

Family

ID=50111163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012152250A Pending JP2014016402A (ja) 2012-07-06 2012-07-06 音声入力装置

Country Status (1)

Country Link
JP (1) JP2014016402A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152200A1 (ja) * 2015-03-23 2016-09-29 ソニー株式会社 情報処理システムおよび情報処理方法
JP2020012954A (ja) * 2018-07-18 2020-01-23 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152200A1 (ja) * 2015-03-23 2016-09-29 ソニー株式会社 情報処理システムおよび情報処理方法
US10747499B2 (en) 2015-03-23 2020-08-18 Sony Corporation Information processing system and information processing method
JP2020012954A (ja) * 2018-07-18 2020-01-23 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
JP7000268B2 (ja) 2018-07-18 2022-01-19 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP3662780B2 (ja) 自然言語を用いた対話システム
US9236045B2 (en) Methods and apparatus for proofing of a text input
US8676582B2 (en) System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2008203559A (ja) 対話装置及び方法
US10304457B2 (en) Transcription support system and transcription support method
CN105161097A (zh) 语音交互方法及装置
JP2011504624A (ja) 自動同時通訳システム
KR102527107B1 (ko) 음성에 기반하여 기능을 실행하기 위한 방법 및 이를 지원하는 사용자 전자 장치
WO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2017167247A (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
JP2016126294A (ja) 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
JP2014016402A (ja) 音声入力装置
JP5818753B2 (ja) 音声対話システム及び音声対話方法
JP2014134640A (ja) 文字起こし装置およびプログラム
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
CN212907066U (zh) 优化语音控制的***
JP2012008375A (ja) 音声記録装置、そのデータ処理方法、およびプログラム
JP2018128577A (ja) 要約文表示装置、要約文表示方法、及びプログラム
JP5357321B1 (ja) 音声認識システムおよび音声認識システムの制御方法
WO2019146586A1 (ja) ロボットの教示装置
KR20200053242A (ko) 차량용 음성 인식 시스템 및 그 제어 방법
CN113544772A (zh) 编辑支持程序、编辑支持方法和编辑支持装置
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム