JP3762300B2

JP3762300B2 - テキスト入力処理装置及び方法並びにプログラム

Info

Publication number: JP3762300B2
Application number: JP2001401299A
Authority: JP
Inventors: 浩平桃崎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-12-28
Filing date: 2001-12-28
Publication date: 2006-04-05
Anticipated expiration: 2021-12-28
Also published as: JP2003202886A

Description

【０００１】
【発明の属する技術分野】
本発明は、広くは自然言語処理に関し、特に、音声でテキスト（文章）の入力を行うディクテーション機能を提供する音声認識技術を利用したテキスト入力処理装置及び方法並びにプログラムに関する。
【０００２】
【従来の技術】
音声認識技術を利用したテキスト入力処理装置の従来例では、単純な漢字仮名混じり表記のテキスト形式で音声認識結果を表示するようにしている。このような音声認識に基づく入力テキストを修正する際、修正対象を選択して候補表示する操作を行うと、従来例では、表記が違う候補や発音が違う候補などが全て表示されるものとなっていた。このような従来例では、音声認識結果に基づいて表示された入力テキストがユーザの想定していたものと異なる場合に、それが同音語内の表記の違いなのか、それとも音の違いなのか、あるいは単語等の分割単位の違いなのか、といったことの判別が難しいという問題点がある。特に、ユーザが知らない単語や読めない単語が表示されてしまい、それがテキスト修正を困難にするということは、キーボード等によるテキスト入力とは違った音声認識に基づくテキスト入力に特有の問題点である。
【０００３】
また、修正候補の選択において、表記が違う候補や発音が違う候補など複数の要因による認識候補が全て表示されるので、目的の候補を見つけだすのに時間がかかり、操作が煩雑になるという問題点もある。また、候補選択状態に移行した後に、新たな操作ステップを経て初めて表示がなされるよう構成されている場合なども、ユーザが目的とする候補が得られるまでの操作が煩雑になる。
【０００４】
このように、音声認識技術を利用したテキスト入力処理装置の従来例には、入力音声テキストの修正（広義には編集）操作を容易に行えるようなユーザインターフェースが提供されることが望まれている。
【０００５】
【発明が解決しようとする課題】
本発明は、かかる事情を考慮してなされたものであり、音声認識結果に基づく入力テキストの編集をユーザが適切且つ容易に行えるユーザインタフェースを備えたテキスト入力装置、方法、及びプログラムを提供することを目的とする。
【０００６】
【課題を解決するための手段】
上記課題を解決し目的を達成するために本発明は次のように構成されている。
【０００７】
本発明に係る第１のテキスト入力処理装置は、音声認識を利用してテキストを入力処理するテキスト入力処理装置であって、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補を有する音声認識結果を記憶する記憶手段と、前記複数の文節のそれぞれの発音文字列を組み合わせて表示する表示手段と、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する候補表示手段と、一覧表示された前記候補のなかから、いずれか一つの異音語をユーザに選択させるための選択手段と、を具備することを特徴とするテキスト入力処理装置である。
【０００８】
また、本発明に係る第２のテキスト入力処理装置は、音声認識を利用してテキストを入力処理するテキスト入力処理装置であって、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含む漢字仮名混じり文字列の候補を有する音声認識結果を記憶する記憶手段と、前記複数の文節のそれぞれの発音文字列の一つを組み合わせて表示する第１表示手段と、前記複数の文節のそれぞれの漢字仮名混じり文字列の一つを組み合わせて表示する第２表示手段と、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する第１候補表示手段と、前記いずれか一つの文節について、前記漢字仮名混じり文字列の候補を一覧表示する第２候補表示手段と、一覧表示された前記発音文字列の候補のなかから、いずれか一つの異音語をユーザに選択させるための第１選択手段と、一覧表示された前記漢字仮名混じり文字列の候補のなかから、いずれか一つの同音語をユーザに選択させるための第２選択手段と、を具備することを特徴とするテキスト入力処理装置である。
【０００９】
本発明に係る第１のテキスト入力処理方法は、音声認識を利用してテキストを入力処理するテキスト入力処理方法であって、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補を有する音声認識結果を記憶する記憶ステップと、前記複数の文節のそれぞれの発音文字列を組み合わせて表示する表示ステップと、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する候補表示ステップと、一覧表示された前記候補のなかから、いずれか一つの異音語をユーザに選択させるための選択ステップと、具備することを特徴とするテキスト入力処理方法である。
【００１０】
また、本発明に係る第２のテキスト入力処理方法は、音声認識を利用してテキストを入力処理するテキスト入力処理方法であって、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含む漢字仮名混じり文字列の候補を有する音声認識結果を記憶する記憶ステップと、前記複数の文節のそれぞれの発音文字列の一つを組み合わせて表示する第１表示ステップと、前記複数の文節のそれぞれの漢字仮名混じり文字列の一つを組み合わせて表示する第２表示ステップと、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する第１候補表示ステップと、前記いずれか一つの文節について、前記漢字仮名混じり文字列の候補を一覧表示する第２候補表示ステップと、一覧表示された前記発音文字列の候補のなかから、いずれか一つの異音語をユーザに選択させるための第１選択ステップと、一覧表示された前記漢字仮名混じり文字列の候補のなかから、いずれか一つの同音語をユーザに選択させるための第２選択ステップと、を具備することを特徴とするテキスト入力処理方法である。
【００１１】
本発明に係る第１のプログラムは、音声認識を利用したテキストの入力を処理するプログラムであって、コンピュータを、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補を有する音声認識結果を記憶する記憶手段、前記複数の文節のそれぞれの発音文字列を組み合わせて表示する表示手段、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する候補表示手段、一覧表示された前記候補のなかから、いずれか一つの異音語をユーザに選択させるための選択手段、として機能させるためのプログラムである。
【００１２】
また、本発明に係る第２のプログラムは、音声認識を利用したテキストの入力を処理するプログラムであって、コンピュータを、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含む漢字仮名混じり文字列の候補を有する音声認識結果を記憶する記憶手段、前記複数の文節のそれぞれの発音文字列の一つを組み合わせて表示する第１表示手段、前記複数の文節のそれぞれの漢字仮名混じり文字列の一つを組み合わせて表示する第２表示手段、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する第１候補表示手段、前記いずれか一つの文節について、前記漢字仮名混じり文字列の候補を一覧表示する第２候補表示手段、一覧表示された前記発音文字列の候補のなかから、いずれか一つの異音語をユーザに選択させるための第１選択手段、一覧表示された前記漢字仮名混じり文字列の候補のなかから、いずれか一つの同音語をユーザに選択させるための第２選択手段、として機能させるためのプログラムである。
【００１３】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施形態を説明する。
【００１４】
図１は、本発明に係るテキスト入力装置の一実施形態の概略構成を示すブロック図である。本実施形態のテキスト入力装置は、例えば汎用のコンピュータに、音声認識に係るデバイスを設けたものをベースとして構成することができ、マイクロホン等の音声入力デバイスに結合され、ユーザが発した音声を入力する音声入力部１１と、音声入力部１１に入力された音声を認識する音声認識部１２と、音声認識部１２による音声認識結果を保持する候補情報保持部１３と、キーボードやマウス等の入力デバイスに結合され、ユーザが行った候補選択操作についての情報を入力する候補選択操作部１４と、選択的な候補表示の制御を司る本実施形態の主要部であって、候補選択操作部１４から入力される操作情報に従い、候補情報保持部１３が保持する認識結果の情報から、適切な候補表示情報を作成する候補表示制御部１５と、候補表示制御部１５において作成された候補表示情報をディスプレイ上に表示する表示部１６と、から構成されている。
【００１５】
本発明に対応する主要な構成要素は、候補情報保持部１３、候補表示制御部１５、および候補選択操作部１４であり、これらの構成要素は例えばコンピュータソフトウェアによって実現することができる。
【００１６】
図２は、図１における音声認識部１２の概略構成を示すブロック図である。図２に示すように、音声認識部１２は、音声データを入力する音声入力部２１と、音声入力部２１を介して入力された音声データに対して、信号処理及び分析を行い、発声部分を検出して切り出したり、特徴量を抽出してパラメータ化する等の音響的な処理を行う音響処理部２２と、音響処理部２２によってパラメータ化された音声情報を、単語辞書２６に登録されている単語で構成される単語列と照合する照合部２３と、照合部２３における照合処理において参照され、ＨＭＭ（隠れマルコフモデル）等から構成される音響辞書２４と、同じく照合部２３における照合処理において参照され、統計的言語モデル（ｎ−ｇｒａｍ）等から構成される言語辞書２５と、照合部２３における照合処理の結果として得られる単語列を解析し、これを文節単位に再構成したり、同音語の展開を行ったりする言語処理部２７と、言語処理部２７における言語処理において参照され、単語についての種々の情報を格納してなる単語辞書２８と、言語処理部２７における言語処理結果についての履歴を管理し、候補出力を行う候補出力部２９と、によって構成されている。
【００１７】
以上のように構成された本実施形態において、ユーザが発声した音声が音声入力部１１に入力され、発声終了直後に音声認識部１２においてその一回の発声が認識されたとする。ここで、音声認識部１２により図３又は図４のような候補情報が出力され、候補情報保持部１３に格納された場合を例に挙げて説明する。
【００１８】
認識結果の候補情報を候補情報保持部１３から受け取ると、候補表示制御部１５は、直ちに、最も適切と判定された読み（発音）と見出しの組を使用し、表示部１６に図５に示すような「読み（発音）」を併記した候補表示を行わせる。かかる「読み」は、いわゆる「ルビ（読み仮名）」と同様の情報である。
【００１９】
ここで、候補選択操作部１４は、表示部１６の表示に対し、ユーザがキーボードやマウス等で候補選択の対象とする部分を選択指定したり、候補表示を実行する操作を行ったり、表示された複数候補の中から別の候補を選択指定したりするための操作インターフェースを提供する。その詳細については後述する。
【００２０】
次に、音声認識部１２が出力する候補情報について説明する。
【００２１】
図３は、音声認識部１２が出力する候補情報の一例を示している。候補情報には、音声認識部１２により複数得られた音声認識結果について、最も適切と判定された（一位）系列のほか、文節の境界が同じになる複数の候補が格納される。各々の候補は、読み（発音文字列）と見出し（漢字仮名混じりの表記）の情報を有する。また、候補情報には、同一の読み（発音）で異なる表記の（同音語）候補や、読み（発音）の異なる（異音語、異なり語）候補も格納される。
【００２２】
図３に示すように、文節番号１として、音声中の位置０から４０までの区間で認識された「こころから」の発音の候補が同音語を含めて２つ格納されている。この中で最も適切と判定されている表記は「心から」である。
【００２３】
また、文節番号２として、文節番号１に続く位置４０から６０までの区間で認識された「あつく」「あつくも」の２つの発音の候補が同音語を含めて計１０個格納されている。この中では「熱く」が最も適切と判定されている。同音語としては「厚く」などがある。
【００２４】
さらに、文節番号３として、文節番号２に続く位置６０から８８までの区間で認識された「おれい」「おんれい」「おんで」「おれへ」の４つの発音の候補が同音語を含めて計１１個格納されている。この中で「お礼」が最も適切と判定されている。同じ区間の異音語の各々の発音の候補中では、「御礼（おんれい）」「恩で（おんで）」「俺へ（おれへ）」が最も適切と判定されている。
【００２５】
図４は、音声認識部１２が出力する候補情報の他の例を示している。この候補情報は、文節番号１乃至３は図３のものと同様である。そして、文節番号４として、音声中の位置０から３６までの区間で認識された「ここのか」が格納され、文節番号７として、これに続く位置３６から５２までの区間で認識された「だす」が格納され、文節番号９として、これに続く位置５２から８８までの区間で認識された「こんれい」が、各々、同音語を含めて格納されている。これらの候補中では「９日」「出す」「婚礼」が最も適切と判定されている。
【００２６】
さらにこの図４の候補情報では、文節番号５として、音声中の位置０から３２までの区間で認識された「ここも」、文節番号６として、これに続く位置３２から４６までの区間で認識された「ただ」、文節番号８として、これに続く位置４６から８８までの区間で認識された「すっとんで」が、各々、同音語を含めて格納されている。これらの候補中では「ここも」「ただ」「すっ飛んで」が最も適切と判定されている。
【００２７】
すなわち、文節番号１乃至３の「心から」「熱く」「お礼」が一位系列であり、文節の境界が異なる他の系列として、文節番号４及び７並びに９の「９日（ここのか）」「出す」「婚礼」や、文節番号５及び６並びに８の「ここも」「ただ」「すっ飛んで」が格納されている。
【００２８】
ここで、候補選択操作部１４及び候補表示制御部１５並びに表示部１６の動作について説明する。
【００２９】
表示部１６では、初期状態では図５に示すように、「こころから／心から」「あつく／熱く」「おれい／お礼」「もうしあげます／申し上げます」が表示されているとする。
【００３０】
先ず、ユーザにより、「見出し」に対する候補表示指示が行われた場合、例えば「熱く」を選択して候補表示指示が行われた場合について説明する。かかる操作が行われると、その操作情報が候補選択操作部１４を通じて候補表示制御部１５に与えられる。候補表示制御部１５は、候補情報保持部１３に保持されている候補情報中の「熱く」に対応する候補のうち、「熱く」の同音語である候補を図６のように表示部１６に表示させる。
【００３１】
ここで、本実施形態は、候補表示制御部１５に所定のモード切替操作が与えられると、候補表示制御部１５は、図６に示した表示情報に代えて、図７のように、読み（発音）の異なる候補（異音語、異なり語）までをも含めた候補表示を行うよう構成される。図６及び図７の候補表示は、上記モード切替操作に応じて相互に切り替え可能に構成されることが好ましい。
【００３２】
さらに、ここで、図６（又は図７）の表示候補のうち、「厚く」を選択指定する操作が行われると、表示部１６は選択された「厚く」を図８のように表示する。また、図７で表示された候補のうち、「厚くも」を選択指定する操作を行うと、表示部１６は選択された「厚くも」とその読み（発音）「あつくも」を図９のように表示する。
【００３３】
次に、ユーザにより「読み」に対する候補表示指示が行われた場合、例えば「おれい」選択して候補表示の指示が与えられた場合について説明する。かかる操作が行われた場合は、候補情報の中の「お礼」に対応する候補のうち、「おれい」と異なる読み（発音）を図１０のように表示する。このとき、図１１のように、読み（発音）の他に表記を合わせて表示するモードとの切り替えを可能にしておくことが好ましい。表記は、その読み（発音）に対応する候補の中で最も適切と判定された表記を表示するとよい。
【００３４】
ここで、図１０の表示候補のうち、「おんれい」を選択指定する操作が行われると、表示部１６は選択された「おんれい」と、それに対応する表記「御礼」を図１２のように表示する。なお、図１１で表示された候補のうち、「おんれい／御礼」を選択する操作を行った場合も同様である。
【００３５】
以上のような本実施形態によれば、ユーザは、「見出し」及び「読み」についての選択的な候補表示に基づき、読み（発音）及び表記の適切な組み合わせを容易に得て、所望のテキストを入力処理（修正など）することができる。
【００３６】
ここで、上述した構成に基づく他の候補表示処理について説明する。他の候補表示処理は、見出しの表示を行わず、「読み」のみの表示を行うというものである。
【００３７】
候補表示制御部１５は、最も適切と判定された読み（発音）のみを使用して、表示部１６に、図１３に示すような読み（発音）のみの候補表示を行わせる。
【００３８】
この場合、「おれい」の読み（発音）を選択して候補表示する指示が候補選択操作部１４を介してユーザから与えられた場合には、候補情報の中の「お礼」に対応する候補のうち、「おれい」と異なる読み（発音）を含めて図１４のように表示する。このとき、図１５のように、読み（発音）の他に、対応する最も適切な表記を合わせて表示するモードとの切り替えを可能にしてくことが好ましい。
【００３９】
さらにここで、図１４で表示された候補のうち、「おんれい」を選択指定する操作がユーザにより行われると、表示部１６は、選択された「おんれい」を図１６のように表示する。図１５で表示された候補のうち、「おんれい／御礼」を選択する操作を行った場合についても同様である。
【００４０】
次に、候補表示制御部１５における処理内容について、図１７のフローチャートを参照して説明する。
【００４１】
候補表示制御部１５では、音声認識部１２から候補情報が入力されると、候補情報保持部１３にその候補情報を保持する（ステップＳ３１）。
【００４２】
次に、候補情報の中で最も適切と判定されている一位系列の候補情報を候補情報保持部１３から取得し（ステップＳ３２）、見出しを表示するか否かの設定情報を判定する（ステップＳ３３）。この設定情報を、ユーザが設定できるよう構成してもよい。
【００４３】
見出しを表示する設定の場合は、読み（発音）と見出しの組を使用した表示情報を作成する（ステップＳ３４）。一方、見出しを表示しない設定の場合は、読み（発音）のみを使用した表示情報を作成し（ステップＳ３５）、表示部１６における表示を行わせる（ステップＳ３６）。なお、ステップＳ３６における表示は、一位系列の候補情報の表示である。
【００４４】
その後、候補表示制御部１５は、ユーザからの候補表示指示を受け付けるための待機状態に移行する（ステップＳ３７）。
【００４５】
ここで、候補表示の指示がユーザから与えられると、候補選択用候補の表示情報が作成（ステップＳ３８）され、表示部１６により表示が行われる。同ステップＳ３８の処理内容については後述する。この候補表示動作に続いて、ユーザからの候補選択操作を受け入れるための待機状態に移行する（ステップＳ３９）。
【００４６】
ここで、候補選択する操作が行われると、指定された候補の読み（発音）と見出しの組を使用して、表示部１６の表示を更新し（ステップＳ４０）、再びユーザからの候補表示操作を受け入れるための待機状態に入る（ステップＳ３７）。
【００４７】
次に、候補表示制御部１５における候補選択用の候補表示処理（ステップＳ３８）の詳細について、図１８のフローチャートを参照して説明する。
【００４８】
先ず、候補表示する旨のユーザからの指示操作（例えばマウスクリックなど）を検知すると、指定された箇所が見出しであるか、読み（発音）であるかを判定する（ステップＳ４１）。見出しが指定された場合は、全候補を表示するか否かについての所定の設定内容を参照する（ステップＳ４２）。全候補を表示しない設定の場合は、候補情報保持部１３から例えば同音語の候補のみを抽出する（ステップＳ４３）。全候補を表示する設定の場合は、同じ区間内の全ての候補を抽出する（ステップＳ４４）。これら設定に応じて抽出された候補は、ステップＳ４５において表示部１６に表示される。
【００４９】
一方、上記ステップＳ４１において、指定箇所が読み（発音）であった旨判定された場合は、候補情報保持部１３から、異なる読み（発音）の候補であって、読み（発音）ごとに最も適切と判定された表記の候補をステップＳ４６において抽出する。さらに、見出し表示を併用するか否かについての所定の設定内容を参照する（ステップＳ４７）。かかる設定内容に応じて、読み（発音）のみを候補表示する（ステップＳ４８）か、読み（発音）と表記（見出し）を合わせて候補表示する（ステップＳ４９）かについて、処理動作が選択される。かかる動作ののち、ステップＳ４５において、表示部１６に候補表示がなされる。
【００５０】
ここで、上記実施形態の変形例について説明する。
【００５１】
上記実施形態では、見出しと組み合わせて表示される発音文字列として平仮名の「読み」を使用したが、片仮名やローマ字を使用してもよい。また、「お礼」に対して「おれい」ではなく「おれー」というような実際の発音に近い表記を使用してもよい。さらにアクセント型を表す表示を付加してもよい。
【００５２】
また、上記実施形態では、日本語を対象としているが、他の言語でもよい。例えば中国語を対象とし、発音文字列としてピンインや注音符号を使用してもよい。また、声調の表示を付加してもよい。
【００５３】
また、上記実施形態では、候補表示を文節単位で行っているが、単語その他の単位で行ってもよい。
【００５４】
また、候補選択操作の方法については、キーボードやマウスのほか、ペン、音声操作等を利用して行ってもよく、選択対象を指定して実行を指示することのできる任意のデバイスについて、本発明は適用可能である。
【００５５】
また、上記実施形態は、いわゆるポップアップウィンドウによって候補表示しているが、画面の下端などの別領域に列挙表示するなどの方法としてもよい。
【００５６】
また、上記実施形態では、同一の読み（発音）で異なる表記の候補を、予め音声認識処理の中で生成しているが、音声認識処理の中では読み（発音）の異なるものを扱い、異なる表記の候補に展開する言語処理を別途行うように構成してもよい。異なる表記の候補展開は、例えば候補表示操作がなされたときに行えばよい。
【００５７】
また、上記実施形態では、音声認識部１２中に言語処理部２７が含まれる構成としているが、同処理部２７に代えて、主にキーボード入力を処理する仮名漢字変換等の言語処理部を使用することとし、音声認識部１２に外付けする構成としてもよい。
【００５８】
なお、本発明は上述した実施形態及び変形例に限定されず、さらに種々変形して実施可能である。本発明は、各種情報処理装置におけるテキスト入力のための手段の構成方法として有効であり、パーソナルコンピュータのソフトウェア、ワードプロセッサ装置、携帯情報機器等に幅広く利用可能である。
【００５９】
【発明の効果】
以上説明したように、本発明によれば、音声認識結果に基づく入力テキストの編集をユーザが適切且つ容易に行えるユーザインタフェースを備えたテキスト入力装置、方法、およびプログラムを提供できる。
【図面の簡単な説明】
【図１】本発明に係るテキスト入力装置の一実施形態の概略構成を示すブロック図
【図２】図１に示す音声認識部１２の概略構成を示すブロック図
【図３】音声認識部１２が出力する候補情報の一例を示す図
【図４】音声認識部１２が出力する候補情報の他の例を示す図
【図５】初期状態における音声入力テキストを示す図
【図６】「見出し」に対する候補表示指示が行われた場合を説明するための図
【図７】図６の表示内容に加え、読み（発音）の異なる候補（異音語、異なり語）までをも含めた候補表示を行う場合を示す図
【図８】図６の表示候補に対する選択操作後を示す図
【図９】図７の表示候補に対する選択操作後を示す図
【図１０】「読み」に対する候補表示指示が行われた場合を説明するための図
【図１１】読み（発音）の他に、表記を合わせて候補表示する場合を説明するための図
【図１２】図１０の表示候補に対する選択操作後を示す図
【図１３】見出しの表示を行わず、「読み」のみの表示を行う実施形態を説明するための図
【図１４】図１３の表示に対して、ある「読み」に対して候補表示する旨の指示がなされた場合を説明するための図
【図１５】読み（発音）の他に、対応する最も適切な表記を合わせて候補表示する場合を説明するための図
【図１６】図１４の表示候補に対する選択操作後を示す図
【図１７】候補表示制御部１５における処理内容の一例を示すフローチャート
【図１８】図１７のフローチャートにおける候補選択用表示処理（ステップＳ３８）の内容を示すフローチャート
【符号の説明】
１１…音声入力部
１２…音声認識部
１３…候補情報保持部
１４…候補選択操作部
１５…候補表示制御部
１６…表示部
２１…音声入力部
２２…音響処理部
２３…照合部
２４…音響辞書（ＨＭＭ）
２５…言語辞書（ｎ−ｇｒａｍ）
２６…単語辞書
２７…言語処理部
２８…単語辞書
２９…候補出力部

Claims

音声認識を利用してテキストを入力処理するテキスト入力処理装置において、
複数の文節情報からなる音声認識結果であって、同一文節の文節情報が複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含み、かつ前記発音文字列の候補に対応する見出し文字列の候補を有する音声認識結果を記憶する記憶手段と、
同一文節における複数の発音文字列の候補のいずれか一つを文節毎に並べて表示する制御を行う第１表示制御手段と、
前記第１表示制御手段による制御によって表示された文節毎の発音文字列のいずれか１つが入力手段を用いて指定されると、いずれか１つの文節が選択されるように制御を行う第１文節選択手段と、
前記第１文節選択手段により選択された文節について、前記文節情報に基づく複数の発音文字列の候補を一覧表示する制御を行う第１候補表示制御手段と、
一覧表示された前記発音文字列の候補のなかから、いずれか１つの異音語を前記入力手段により選択できるように制御を行う第１選択手段と、
前記第１表示制御手段による制御によって表示され又は前記第１選択手段によって選択された発音文字列の候補に対応する見出し文字列の候補を該発音文字列の候補とともに並べて表示する制御を行う第２表示制御手段と、
前記第２表示制御手段による制御によって表示された文節毎の見出し文字列のいずれか１つが前記入力手段を用いて指定されると、いずれか１つの文節が選択されるように制御を行う第２文節選択手段と、
前記第２文節選択手段により選択された文節について、前記文節情報に基づく複数の見出し文字列の候補のうち、前記第１表示制御手段による制御によって表示され又は前記第１選択手段により選択された発音文字列の候補に対応するものを一覧表示する制御を行う第２候補表示制御手段と、
一覧表示された前記見出し文字列の候補のなかから、いずれか１つの同音語を前記入力手段により選択できるように制御を行う第２選択手段と、
を具備することを特徴とするテキスト入力処理装置。
前記音声認識は日本語を対象とし、前記発音文字列は、平仮名、片仮名、ローマ字のいずれかであり、前記見出し文字列は漢字仮名混じり文字列であることを特徴とする請求項１に記載のテキスト入力処理装置。
前記第１候補表示制御手段は、発音文字列の候補の一覧において発音文字列の候補とともに対応する漢字仮名混じり文字列を表示する制御を行う請求項１に記載のテキスト入力処理装置。
音声認識を利用してテキストを入力処理するテキスト入力処理方法において、
複数の文節情報からなる音声認識結果であって、同一文節の文節情報が複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含み、かつ前記発音文字列の候補に対応する見出し文字列の候補を有する音声認識結果を記憶する記憶ステップと、
同一文節における複数の発音文字列の候補のいずれか一つを文節毎に並べて表示する制御を行う第１表示制御ステップと、
前記第１表示制御ステップによる制御によって表示された文節毎の発音文字列のいずれか１つが入力手段を用いて指定されると、いずれか１つの文節が選択されるように制御を行う第１文節選択テップと、
前記第１文節選択ステップにより選択された文節について、前記文節情報に基づく複数の発音文字列の候補を一覧表示する制御を行う第１候補表示制御ステップと、
一覧表示された前記発音文字列の候補のなかから、いずれか１つの異音語を前記入力手段により選択できるように制御を行う第１選択ステップと、
前記第１表示制御ステップによる制御によって表示され又は前記第１選択ステップによって選択された発音文字列の候補に対応する見出し文字列の候補を該発音文字列の候補とともに並べて表示する制御を行う第２表示制御ステップと、
前記第２表示制御ステップによる制御によって表示された文節毎の見出し文字列のいずれか１つが前記入力手段を用いて指定されると、いずれか１つの文節が選択されるように制御を行う第２文節選択ステップと、
前記第２文節選択ステップにより選択された文節について、前記文節情報に基づく複数の見出し文字列の候補のうち、前記第１表示制御ステップによる制御によって表示され又は前記第１選択ステップにより選択された発音文字列の候補に対応するものを一覧表示する制御を行う第２候補表示制御ステップと、
一覧表示された前記見出し文字列の候補のなかから、いずれか１つの同音語を前記入力手段により選択できるように制御を行う第２選択ステップと、
を具備することを特徴とするテキスト入力処理方法。
音声認識を利用したテキストの入力を処理するプログラムであって、
コンピュータを、
複数の文節情報からなる音声認識結果であって、同一文節の文節情報が複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含み、かつ前記発音文字列の候補に対応する見出し文字列の候補を有する音声認識結果を記憶する記憶手段、
同一文節における複数の発音文字列の候補のいずれか一つを文節毎に並べて表示する制御を行う第１表示制御手段、
前記第１表示制御手段による制御によって表示された文節毎の発音文字列のいずれか１つが入力手段を用いて指定されると、いずれか１つの文節が選択されるように制御を行う第１文節選択手段、
前記第１文節選択手段により選択された文節について、前記文節情報に基づく複数の発音文字列の候補を一覧表示する制御を行う第１候補表示制御手段、
一覧表示された前記発音文字列の候補のなかから、いずれか１つの異音語を前記入力手段により選択できるように制御を行う第１選択手段、
前記第１表示制御手段による制御によって表示され又は前記第１選択手段によって選択された発音文字列の候補に対応する見出し文字列の候補を該発音文字列の候補とともに並べて表示する制御を行う第２表示制御手段、
前記第２表示制御手段による制御によって表示された文節毎の見出し文字列のいずれか１つが前記入力手段を用いて指定されると、いずれか１つの文節が選択されるように制御を行う第２文節選択手段、
前記第２文節選択手段により選択された文節について、前記文節情報に基づく複数の見出し文字列の候補のうち、前記第１表示制御手段による制御によって表示され又は前記第１選択手段により選択された発音文字列の候補に対応するものを一覧表示する制御を行う第２候補表示制御手段、
一覧表示された前記見出し文字列の候補のなかから、いずれか１つの同音語を前記入力手段により選択できるように制御を行う第２選択手段、として機能させるためのプログラム。