JP2014016402A

JP2014016402A - 音声入力装置

Info

Publication number: JP2014016402A
Application number: JP2012152250A
Authority: JP
Inventors: Hidehiko Mitomo; 秀彦三友
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2012-07-06
Filing date: 2012-07-06
Publication date: 2014-01-30

Abstract

【課題】音声認識されたテキストに対する音声を用いた多種多様な編集を行える「音声入力装置」を提供する。
【解決手段】音声認識エンジン２の音声認識処理の開始時にテキスト入力モードに設定する（７０２）。テキスト入力モードでは、ユーザが発生した音声を認識した認識結果テキストをテキストデータに書き込み（７０３-７０８）と共に、モードをコマンド入力モードに切り替える（７１１）。コマンド入力モードでは、ユーザが発生した音声を認識した認識結果テキストに対応する編集操作コマンドに従ったテキストデータの編集操作を行う（７１２-７２８）。また、コマンド入力モードにおいて、ユーザがモード切替を指示するテキストが認識結果テキストとして得られたならば（７３１-７３２）、モードをテキスト入力モードに復帰する（７４１）。
【選択図】図７

Description

本発明は、音声による入力を受け付ける音声入力の技術に関するものである。

音声による入力を受け付ける音声入力の技術としては、ユーザの発声した音声が表すテキストを音声認識する音声認識装置において、ユーザの第１回目の発声の後の所定期間内に第２回目の発声が行われた場合に、第２回目の発声は第１回目の発声の言い直しとみなし、第１回目の発声に対して音声認識したテキストを破棄し、第２回目の発声に対して音声認識したテキストを最終的な音声認識結果とする技術が知られている（たとえば、特許文献１）。

特開平8-190398号公報

前述した第１回目の発声に対して音声認識したテキストを破棄し、第２回目の発声に対して音声認識したテキストを最終的な音声認識結果とする技術によれば、ユーザは音声を用いて、音声認識されたテキストの全体を置換する編集を行うことができる。
しかしながら、音声認識されたテキストの全体を置換する編集以外の、たとえば、部分削除や、部分修正などの、その他の多種多様な編集を音声を用いて行うことはできない。
そこで、本発明は、音声を用いた、音声認識されたテキストに対する多種多様な編集を可能とすることを課題とする。

前記課題達成のために、本発明は、ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置に、ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を行う音声認識手段と、モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを備え、前記モード切替手段において、前記音声認識手段が音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、前記テキスト入力モードが設定されている期間中に、前記テキスト書出手段による前記認識結果テキストの前記出力テキストへの書き出しが行われたならば、前記モードをコマンド入力モードに切り替えるようにしたものである。

また、本発明は、前記課題達成のために、ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置に、ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を行う音声認識手段と、モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを備え、前記モード切替手段において、音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、前記テキスト入力モードが設定されている期間中において、前記音声認識手段が音声を音声認識した後、所定期間以内に、前記ユーザの発声が発生した場合に、前記モードをコマンド入力モードに切り替えるようにしたものである。

ここで、このような音声入力装置は、前記モード切替手段において、前記コマンド入力モードが設定されている期間中に前記テキスト編集手段による前記出力テキストに対する編集操作が行われたならば、前記モードを前記テキスト入力モードに切り替えるように構成してもよい。

また、このような音声入力装置は、前記モード切替手段において、前記コマンド入力モードが設定されている期間中に、前記音声認識手段が生成した認識結果テキストが、予め定めておいたモード切替を指示するテキストと一致した場合に、前記モードを前記テキスト入力モードに切り替えるように構成してもよい。

また、本発明は、前記課題達成のために、ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置に、トークスイッチと、前記トークスイッチの操作に応答して、ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を開始する音声認識手段と、モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを備え、前記モード切替手段において、前記音声認識手段が音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、以降、前記音声認識手段が音声認識処理を行っている期間中、前記トークスイッチの操作の発生の度に、前記モードをテキスト入力モードとコマンド入力モードとの間で交互に切り替えるようにしたものである。

これらのような音声入力装置によれば、テキスト入力モードにおいて、ユーザは音声を用いて出力テキストへ書き込むテキストの入力を行えるのみならず、コマンド入力モードにおいて、音声を用いて編集操作コマンドを入力して出力テキストに対する編集操作を行うことができる。また、テキスト入力モードとコマンド入力モードの切り替えを、自動、または、モード切替を指示する音声の入力、所定のタイミングでの音声の入力、または、トークスイッチの操作によって、ユーザに特段の負担をかけることのない形態で行うことができる。

そして、ここで、編集操作コマンドとしては、たとえば、部分削除や、部分修正、入力位置変更、文節選択、改行挿入などの、多種多様な編集操作に対応するコマンドを設定することができるので、本発明によれば、音声を用いた、音声認識されたテキストに対する多種多様な編集が可能となる。

以上のように、本発明によれば、音声を用いた、音声認識されたテキストに対する多種多様な編集を可能とすることができる。

本発明の実施形態に係る音声入力装置の構成を示すブロック図である。本発明の実施形態に係る音声入力装置のモード切替処理と入力処理を示すフローチャートである。本発明の実施形態に係る音声入力装置のモード切替処理において用いるイベントを示す図である。本発明の実施形態に係る音声入力装置の動作例を示す図である。本発明の実施形態に係る音声入力装置の動作例を示す図である。本発明の実施形態に係る音声入力装置の動作例を示す図である。本発明の実施形態に係る音声入力装置の動作例を示す図である。

以下、本発明の実施形態について説明する。
図１に、本実施形態に係る音声入力装置の構成を示す。
図示するように、音声入力装置は、マイクロフォン１、音声認識エンジン２、入力制御部３、テキスト編集処理部４、テキスト表示部５、メモリ６、トークスイッチ７、以上各部を制御する制御部８を備えている。
ただし、このような音声入力装置は、ハードウエア的には、マイクロプロセッサや、メモリや、その他の周辺デバイスを有する一般的な構成を備えたコンピュータを用いて構成してよく、この場合、以上に示した音声入力装置のマイクロフォン１を除く各部、または、その一部は、マイクロプロセッサが予め用意されたプログラムを実行することにより具現化するプロセス、資源としてコンピュータ上に実現されるものであって良い。

さて、本音声入力装置は、ユーザの発声した音声に応じて、メモリ６に格納されたテキストデータを編集するものである。
すなわち、マイクロフォン１はユーザの発声した音声をピックアップする。
また、音声認識エンジン２は、トークスイッチ７のオン操作の発生が制御部８から通知されたならば、マイクロフォン１がピックアップした音声の音声認識を行って、当該音声が表すテキストを認識結果テキストとして出力する音声認識を、ユーザの発声音声の発生の度にくり返す音声認識処理を、音声認識終了イベントが発生するまで行う。音声認識終了イベントとしては、たとえば、所定期間以上のユーザの発声無しなどの事象を用いることができる。

また、音声認識エンジン２は、音声認識辞書を備え、備えた音声認識辞書を用いて音声認識を行う機能を備えたものであっても、音声認識サービスを提供する外部の音声認識サーバに、マイクロフォン１がピックアップした音声を送信し、送信した音声の音声認識結果を音声認識サーバから取得する機能を備えたものであっても、上記二つの機能を両方備えたものであっても良い。

次に、入力制御部３は、後述するモード切替処理と入力処理とを行って、音声認識エンジン２が音声認識を行う度に、認識結果テキストを入力テキストとしてテキスト編集処理部４に出力する処理と、認識結果テキストが表す編集操作コマンドをテキスト編集処理部４に出力する処理とのいずれかを行う。

そして、テキスト編集処理部４は、メモリ６に格納されたテキストデータに、入力制御部３から入力テキストして出力されたテキストを書き込んだり、メモリ６に格納されたテキストデータに、入力制御部３から出力された編集操作コマンドに従った編集操作を施す処理を行う。

また、テキスト表示部５は、メモリ６に格納されたテキストデータが表すテキストを表示する。
以下、このような音声入力装置において入力制御部３が、音声認識エンジン２の音声認識処理を行っている期間中に行う上述のモード切替処理と入力処理について説明する。
まず、モード切替処理について説明する。
図２ａに、モード切替処理の手順を示す。
図示するように、この処理では、まず、テキスト入力モードを設定した上で（ステップ２０２）、コマンド入力モード切替イベントの発生を監視する（ステップ２０４）。
そして、コマンド入力モード切替イベントが発生したならば（ステップ２０４）、コマンド入力モードを設定し（ステップ２０６）、テキスト入力モード切替イベントの発生を監視する（ステップ２０８）。
そして、テキスト入力モード切替イベントが発生したならば（ステップ２０８）、ステップ２０２からの処理を同様に行う。
ここで、以上のモード切替処理において用いるコマンド入力モード切替イベントとテキスト入力モード切替イベントとについては後述する。
次に、図２ｂに入力処理の手順を示す。
図示するように、この処理では、音声認識エンジン２の音声認識の終了を監視し（ステップ２５２）、音声認識の終了が発生したならば、以下の処理を行う。
すなわち、テキスト入力モードが設定されている場合には（ステップ２５４）、音声認識エンジン２から出力される認識結果テキストを入力テキストとしてテキスト編集処理部４に出力し（ステップ２５６）、ステップ２５２の監視に戻る。
一方、テキスト入力モードが設定されていない場合（ステップ２５４）、すなわち、コマンド入力モードが設定されている場合には、音声認識エンジン２から出力される認識結果テキストがモード切替指示を表すテキストであるかどうかを調べる（ステップ２５８）。

そして、モード切替指示を表すテキストであれば、そのままステップ２５２の監視に戻り、モード切替指示を表すテキストでなければ、認識結果テキストが表す編集操作コマンドをテキスト編集処理部４に出力し（ステップ２６０）、ステップ２５２の監視に戻る。なお、テキスト編集処理部４の各編集操作コマンドと、当該編集操作コマンドを表すテキストとの対応は、予め、入力制御部３に登録しておく。

以上、入力制御部３が行うモード切替処理と、入力処理について説明した。
次に、上述のように、モード切替処理において用いるコマンド入力モード切替イベントとテキスト入力モード切替イベントとについて説明する。
テキスト入力モード切替イベントとコマンド入力モード切替イベントの組み合わせとしては図３に示すパターン１からパターン４の組み合わせのいずれかを用いることができる。
ここで、パターン１では、コマンド入力モード切替イベントとテキスト入力モード切替イベントとして、トークスイッチ７のオン操作の発生を用いる。なお、トークスイッチ７のオン操作は、制御部８によって入力制御部３に通知される。また、パターン１を用いる場合、上述したモード切替指示を表すテキストは設定しない。

次に、パターン２では、音声認識エンジン２がユーザの発声音声の音声認識を行った後の所定期間中に新たなユーザの発声音声が発生しない場合に認識終了後タイムアウトが発生するものとして、コマンド入力モード切替イベントとしては、音声認識エンジン２の最後の音声認識完了後における認識終了後タイムアウトの発生前におけるユーザの発声音声の発生を用いる。また、テキスト入力モード切替イベントとしては、認識終了後タイムアウトの発生と、モード切替指示音声の入力とを用いる。ここで、音声認識エンジン２が出力する認識結果テキストと、上述した予め設定したモード切替指示を表すテキスト、たとえば、「入力モード切替」とが一致した場合に、入力制御部３に対するコマンドであるモード切替指示音声の入力が発生したものとする。

次に、パターン３では、コマンド入力モード切替イベントとしては、テキスト入力モードが設定されているときに発生した入力制御部３の認識結果テキストの処理終了、すなわち、入力テキストのテキスト編集処理部４への出力完了を用い、テキスト入力モード切替イベントとしては、コマンド入力モードが設定されているときに発生した入力制御部３の認識結果テキストの処理終了、すなわち、編集操作コマンドのテキスト編集処理部４への出力完了と、モード切替指示音声の入力とを用いる。

そして、パターン４では、コマンド入力モード切替イベントとしては、テキスト入力モードが設定されているときに発生した入力制御部３の認識結果テキストの処理終了を用い、テキスト入力モード切替イベントとしては、モード切替指示音声の入力を用いる。
以下、図３の各パターンを採用した場合における音声入力装置の動作例を示す。
まず、図４に、パターン１を採用した場合の動作例を示す。
図示するように、この場合、ユーザがトークスイッチ７をオンに設定すると（４０１）、音声認識エンジン２の音声認識処理が開始されると共に、モード切替処理によってテキスト入力モードが設定される（４０２）。
そして、ユーザが、「これから向かいます」と発声すると（４０３）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「これから買います」（４０４）が、入力制御部３によって、入力テキストとしてテキスト編集処理部４に出力される（４０５）。入力テキスト「これから買います」を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの初期編集ポイントである先頭位置から、入力テキストを書き込み（４０６）、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから買います」となる（４０７）。

そして、テキストデータが表すテキスト「これから買います」はテキスト表示部５により表示され、当該表示より、「向かいます」の「買います」の誤認識が生じたことを認知したユーザは、以下のようにテキストデータの修正を行う。
すなわち、ユーザはまず、誤認識の文節「買います」を削除する編集操作コマンド入力を行うために再度トークスイッチ７をオンと（４１１）すると、コマンド入力モード切替イベント発生となり、モード切替処理によってコマンド入力モードが設定される（４１２）。そして、ユーザが、「削除」と発声すると（４１３）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「削除」（４１４）に対応する編集操作コマンド“削除”が、入力制御部３によって、テキスト編集処理部４に出力される（４１５）。編集操作コマンド“削除”を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの現在の編集ポイント（「これから買います」の末尾）直前の文節「買います」を削除し（４１６）、編集ポイントを削除した文節の直前の文字の後に移動する。この結果、テキストデータが表すテキストは「これから」となる（４１７）。

そして、テキスト表示部５の表示より、文節「買います」の削除が完了したことを認知したならば、正しい文節「向かいます」を入力するために、ユーザが再度トークスイッチ７をオンにすると（４２１）、テキスト入力モード切替イベント発生となり、モード切替処理によってテキスト入力モードが設定される（４２２）。

そして、ユーザが、「向かいます」と発声すると（４２３）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「向かいます」（４２４）が、入力制御部３によって、入力テキストとしてテキスト編集処理部４に出力される（４２５）。入力テキスト「向かいます」を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの現在の編集ポイント（「これから」の末尾）に、入力テキストを書き込み（４２６）、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから向かいます」と（４２７）修正される。

次に、図５に、パターン２を採用した場合の動作例を示す。
図示するように、この場合、ユーザがトークスイッチ７をオンに設定すると（５０１）、音声認識エンジン２の音声認識処理が開始されると共に、モード切替処理によってテキスト入力モードが設定される（５０２）。
そして、ユーザが、「これから向かいます」と発声すると（５０３）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「これから買います」（５０４）が、入力制御部３によって、入力テキストとしてテキスト編集処理部４に出力される（５０５）。入力テキスト「これから買います」を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの初期編集ポイントである先頭位置から、入力テキストを書き込み（５０６）、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから買います」となる（５０７）。

そして、テキストデータが表すテキスト「これから買います」はテキスト表示部５により表示され、当該表示より、「向かいます」の「買います」の誤認識が生じたことを認知したユーザは、以下のようにテキストデータの修正を行う。
すなわち、ユーザはまず、誤認識の文節「買います」を削除する編集操作コマンド入力を行うために、認識終了後タイムアウト（５１１）が生じる前に、すみやかに、「削除」と発声すると（５１２）、コマンド入力モード切替イベント発生となりモード切替処理によってコマンド入力モードが設定される（５１３）。一方、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「削除」（５１４）に対応する編集操作コマンド“削除”が、入力制御部３によって、テキスト編集処理部４に出力される（５１５）。編集操作コマンド“削除”を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの現在の編集ポイント（「これから買います」の末尾）直前の文節「買います」を削除し（５１６）、編集ポイントを削除した文節の直前の文字の後に移動する。この結果、テキストデータが表すテキストは「これから」となる（５１７）。

そして、テキスト表示部５の表示より、文節「買います」の削除が完了したことを認知したならば、ユーザが、正しい文節「向かいます」を入力するために、「入力モード切替」と発声すると（５２１）、音声認識エンジン２が認識した認識結果テキスト「入力モード切替」（５２２）は、モード切替指示を表すテキストであるので、テキスト入力モード切替イベント発生となり、モード切替処理によって、テキスト入力モードが設定される（５３２）。なお、ユーザは、「入力モード切替」と発声する代わりに、所定期間発声を行わず、認識終了後タイムアウトが生させることによって（５３１）、テキスト入力モード切替イベントを発生し、テキスト入力モード（５３２）にモードを切り替えることもできる。

さて、このようにしてテキスト入力モード（５３２）を設定したユーザが、「向かいます」と発声すると（５３３）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「向かいます」（５３４）が、入力制御部３によって、入力テキストとしてテキスト編集処理部４に出力される（５３５）。入力テキスト「向かいます」を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの現在の編集ポイント（「これから」の末尾）に、入力テキストを書き込み（５３６）、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから向かいます」と（５３７）修正される。

次に、図６に、パターン３を採用した場合の動作例を示す。
図示するように、この場合、ユーザがトークスイッチ７をオンに設定すると（６０１）、音声認識エンジン２の音声認識処理が開始されると共に、モード切替処理によってテキスト入力モードが設定される（６０２）。
そして、ユーザが、「これから向かう予定です」と発声すると（６０３）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「これから買う予定です」（６０４）が、入力制御部３によって、入力テキストとしてテキスト編集処理部４に出力される（６０５）。入力テキスト「これから買う予定です」を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの初期編集ポイントである先頭位置から、入力テキストを書き込み（６０６）、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから買う予定です」となる（６０７）。

そして、テキスト表示部５は、テキストデータが表すテキスト「これから買う予定です」を表示する（６０８）。また、このとき、テキスト編集処理部４は、テキスト表示部５に、テキスト「これから買う予定です」を、文節毎にラベル（番号）を付した形態で表示させる。ユーザは、当該表示より、「向かう」を「買う」とする誤認識が生じたことと、誤認識が生じた文節「買う」のラベル“２”を認知する。

一方、この時点、入力制御部３の入力テキストのテキスト編集処理部４への出力完了（６０５）により、コマンド入力モード切替イベント発生となり、モードは自動的にコマンド入力モード（６１１）に切り替わっている。
そこで、ユーザは、修正対象の文節を選択状態とするために、認識が生じた文節「買う」のラベルである「２」を発声すると（６１２）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「２」（６１３）に対応する編集操作コマンド“２”が、入力制御部３によってテキスト編集処理部４に出力される（６１４）。編集操作コマンド“２”を受け取ったテキスト編集処理部４は、テキストデータが表すテキスト「これから買う予定です」（６１６）のラベルが２の文節「買う」を選択状態に設定する（６１５）。

そして、テキスト表示部５は、テキストデータが表すテキストを選択状態とされた文節「買う」が識別可能な形態で表示する（６１７）。
一方、この時点、入力制御部３の編集操作コマンドのテキスト編集処理部４への出力完了（６１４）に伴い、テキスト入力モード切替イベント発生となり、モードは自動的にテキスト入力モード（６２１）に切り替わっている。
そこで、ユーザが、選択状態とした文節「買う」を修正するために「向かう」と発声すると（６２２）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「向かう」（６２３）が、入力制御部３によって、入力テキストとしてテキスト編集処理部４に出力される（６２４）。また、入力テキスト「向かう」を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの選択状態となっている文節「買う」の範囲に、入力テキスト「向かう」を上書きことにより（６２５）、文節「買う」を「向かう」に置換する。

この結果、テキストデータが表すテキストは「これから向かう予定です」（６２６）に修正され、修正後のテキストがテキスト表示部５によって表示される（６２７）。
なお、以上の動作において、コマンド入力モードが設定されているときに、入力すべき編集操作コマンドが存在しない場合には、ユーザは、「入力モード切替」と発声することにより、図５の５２１、５２２、５３２と同様の手順によって、モードをテキスト入力モードに着替えることができる。

次に、図７に、パターン４を採用した場合の動作例を示す。
図示するように、この場合、ユーザがトークスイッチ７をオンに設定すると（７０１）、音声認識エンジン２の音声認識処理が開始されると共に、モード切替処理によってテキスト入力モードが設定される（７０２）。
そして、ユーザが、「これから向かう予定です」と発声すると（７０３）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「これから買う予定です」（７０４）が、入力制御部３によって、入力テキストとしてテキスト編集処理部４に出力される（７０５）。入力テキスト「これから買う予定です」を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの初期編集ポイントである先頭位置から、入力テキストを書き込み（７０６）、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから買う予定です」となる（７０７）。

ここで、テキスト表示部５は、テキストデータが表すテキスト「これから買う予定です」に文節毎にラベル（番号）を付した形態で表示する（７０８）。ユーザは、当該表示より、「向かう」を「買う」とする誤認識が生じたことと、誤認識が生じた文節「買う」のラベル“２”を認知する。
一方、この時点、入力制御部３の入力テキストのテキスト編集処理部４への出力完了（７０５）に伴い、コマンド入力モード切替イベント発生となり、モードは自動的にコマンド入力モード（７１１）に切り替わっている。
そこで、ユーザは、修正対象の文節を選択するために、認識が生じた文節「買う」のラベルである「２」を発声すると（７１２）、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「２」（７１３）に対応する編集操作コマンド“２”が、入力制御部３によって、テキスト編集処理部４に出力される（７１４）。編集操作コマンド“２”を受け取ったテキスト編集処理部４は、テキストデータが表すテキスト「これから買う予定です」（７１６）のラベルが２の文節「買う」を選択状態に設定する（７１５）。

そして、テキスト表示部５は、テキストデータが表すテキスト（７１６）を選択状態とされた文節が識別可能な形態で表示する（７１７）。また、このとき、テキスト編集処理部４は、テキスト表示部５に、選択された文節の置換候補をリスト形式で、各置換候補のラベルを付して表示させる。ここで、図では、選択された文節「買う」の置換候補として、ラベルＡの「合う」、ラベルＢの「向かう」を表示している。なお、置換候補の算出は、音声認識エンジン２において選択された文節「買う」の「買う」以外の認識候補となった文節を音声認識エンジン２から取得して置換候補とすることによりおこなうようにしてもよいし、各語句に対して当該語句と誤音声認識し易い語句を登録した類似辞書を予め備えて、当該類似辞書を用いて置換候補を選定することにより行うようにしてもよい。

次に、ユーザは置換候補を選択するために、「Ｂ」を発声する（７２１）。ここで、この時点ではコマンド入力モードが維持されている。すると、当該発声に対して音声認識エンジン２が認識した認識結果テキスト「Ｂ」（７２２）に対応する編集操作コマンド“Ｂ”が、入力制御部３によって、テキスト編集処理部４に出力される（７２３）。編集操作コマンド“Ｂ”を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの選択状態となっている文節「買う」の範囲に、ラベルＢの置換候補「向かう」を上書きことにより（７２４）、文節「買う」を「向かう」に置換すると共に、編集ポイントをテキストの末尾に移動する。
この結果、テキストデータが表すテキストは「これから向かう予定です」（７２５）に修正され、修正後のテキストがテキスト表示部５によって表示される（７２６）。

次に、ユーザはテキストデータへのテキストの追加入力を行うために、「入力モード切替」と発声すると（７３１）、音声認識エンジン２が認識した認識結果テキスト「入力モード切替」（７３２）は、モード切替指示を表すテキストであるので、テキスト入力モード切替イベント発生となり、モード切替処理によって、テキスト入力モードが設定される（７４１）。

そして、その後、ユーザが「よろしく」と発声すると（７４２）、発声した当該発声に対して音声認識エンジン２が認識した認識結果テキスト「よろしく」（７４３）が、入力制御部３によって、入力テキストとしてテキスト編集処理部４に出力される（７４４）。入力テキスト「よろしく」を受け取ったテキスト編集処理部４は、テキストデータが表すテキストの編集ポイントである末尾位置から、入力テキストを書き込み（７４５）、編集ポイントを書き込んだテキストの末尾に移動する。この結果、テキストデータが表すテキストは「これから向かう予定ですよろしく」となり（７４６）、テキスト表示部５の表示が更新される（７４７）。

以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、テキスト入力モードにおいて、ユーザは音声を用いて出力テキストへ書き込むテキストの入力操作を行えるのみならず、コマンド入力モードにおいて、音声を用いて編集操作コマンドを入力して出力テキストの編集操作を行うことができる。また、テキスト入力モードとコマンド入力モードの切り替えを、自動、または、モード切替を指示する音声の入力、所定のタイミングでの音声の入力、または、トークスイッチ７の操作によって、ユーザに特段の負担をかけることのない形態で行うことができる。

そして、ここで、編集操作コマンドとしては、以上に示してきたように多種多様な編集に対応するコマンドを設定することができるので、本実施形態によれば、音声を用いた、音声認識されたテキストに対する多種多様な編集が可能となる。
なお、以上の実施形態は、音声認識エンジン２を、上述のように音声認識辞書を備え、備えた音声認識辞書を用いて音声認識を行う機能と、音声認識サービスを提供する外部の音声認識サーバに、マイクロフォン１がピックアップした音声を送信し、送信した音声の音声認識結果を音声認識サーバから取得する機能とを備えたものとする場合には、テキスト入力モードでは音声認識エンジン２に音声認識サーバを用いた音声認識を行わせ、コマンド入力モードでは音声認識辞書を用いた音声認識を行わせるようにしてもよい。

また、コマンド入力モードで音声認識すべき音声は編集操作コマンドとモード切替を指示する音声に限定されるので、音声認識エンジン２におけるコマンド入力モードにおける音声認識辞書を用いた音声認識結果を編集操作コマンドとモード切替を指示する音声を表すテキストに絞り込むようにしてもよい。このようにすることにより、コマンド入力モードにおける認識精度を向上することができる。

また、テキスト入力モード切替イベントとコマンド入力モード切替イベントの組み合わせとしては、図３に示した４つのパターンのうちの、異なるパターンのテキスト入力モード切替イベントとコマンド入力モード切替イベントとを組み合わせたパターンを用いるようにしてもよい。

また、以上の実施形態は、さらに、コマンド入力モードにおいて、音声認識処理の終了指示をユーザから音声によって受け付け、当該音声の受け付けをもって、音声認識エンジン２における音声認識処理の終了するようにしてもよい。すなわち、コマンド入力モードにおいて発生した認識結果テキストが、予め定めた音声認識処理の終了指示を表すテキストに一致したとき、入力制御部３において音声認識エンジン２の音声認識処理を終了する処理を行うようにしてもよい。

１…マイクロフォン、２…音声認識エンジン、３…入力制御部、４…テキスト編集処理部、５…テキスト表示部、６…メモリ、７…トークスイッチ、８…制御部。

Claims

ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置であって、
ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を行う音声認識手段と、
モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、
前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、
前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを有し、
前記モード切替手段は、前記音声認識手段が音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、前記テキスト入力モードが設定されている期間中に、前記テキスト書出手段による前記認識結果テキストの前記出力テキストへの書き出しが行われたならば、前記モードをコマンド入力モードに切り替えることを特徴とする音声入力装置。
ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置であって、
ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を行う音声認識手段と、
モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、
前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、
前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを有し、
前記モード切替手段は、音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、前記テキスト入力モードが設定されている期間中において、前記音声認識手段が音声を音声認識した後、所定期間以内に、前記ユーザの発声が発生した場合に、前記モードをコマンド入力モードに切り替えることを特徴とする音声入力装置。
請求項１または２記載の音声入力装置であって、
前記モード切替手段は、前記コマンド入力モードが設定されている期間中に前記テキスト編集手段による前記出力テキストに対する編集操作が行われたならば、前記モードを前記テキスト入力モードに切り替えることを特徴とする音声入力装置。
請求項１、２または３記載の音声入力装置であって、
前記モード切替手段は、前記コマンド入力モードが設定されている期間中に、前記音声認識手段が生成した認識結果テキストが、予め定めておいたモード切替を指示するテキストと一致した場合に、前記モードを前記テキスト入力モードに切り替えることを特徴とする音声入力装置。
ユーザからの音声入力に基づいて、出力テキストを生成する音声入力装置であって、
トークスイッチと、
前記トークスイッチの操作に応答して、ユーザが発声した音声を音声認識したテキストを認識結果テキストとして生成する音声認識処理を開始する音声認識手段と、
モードをテキスト入力モードとコマンド入力モードとの間で切り替えるモード切替手段と、
前記テキスト入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストを、前記出力テキストに書き出すテキスト書出手段と、
前記コマンド入力モードが設定されている期間中に前記音声認識手段が生成した認識結果テキストが表す編集操作コマンドに従って、前記出力テキストに対する編集操作を行うテキスト編集手段とを有し、
前記モード切替手段は、前記音声認識手段が音声認識処理を開始する際に前記モードをテキスト入力モードに設定し、以降、前記音声認識手段が音声認識処理を行っている期間中、前記トークスイッチの操作の発生の度に、前記モードをテキスト入力モードとコマンド入力モードとの間で交互に切り替えることを特徴とする音声入力装置。
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータを請求項１、２、３、４または５記載の音声入力装置として機能させることを特徴とするコンピュータプログラム。