JP3762300B2 - テキスト入力処理装置及び方法並びにプログラム - Google Patents

テキスト入力処理装置及び方法並びにプログラム Download PDF

Info

Publication number
JP3762300B2
JP3762300B2 JP2001401299A JP2001401299A JP3762300B2 JP 3762300 B2 JP3762300 B2 JP 3762300B2 JP 2001401299 A JP2001401299 A JP 2001401299A JP 2001401299 A JP2001401299 A JP 2001401299A JP 3762300 B2 JP3762300 B2 JP 3762300B2
Authority
JP
Japan
Prior art keywords
phrase
candidate
character string
control
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001401299A
Other languages
English (en)
Other versions
JP2003202886A (ja
Inventor
浩平 桃崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001401299A priority Critical patent/JP3762300B2/ja
Publication of JP2003202886A publication Critical patent/JP2003202886A/ja
Application granted granted Critical
Publication of JP3762300B2 publication Critical patent/JP3762300B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、広くは自然言語処理に関し、特に、音声でテキスト(文章)の入力を行うディクテーション機能を提供する音声認識技術を利用したテキスト入力処理装置及び方法並びにプログラムに関する。
【0002】
【従来の技術】
音声認識技術を利用したテキスト入力処理装置の従来例では、単純な漢字仮名混じり表記のテキスト形式で音声認識結果を表示するようにしている。このような音声認識に基づく入力テキストを修正する際、修正対象を選択して候補表示する操作を行うと、従来例では、表記が違う候補や発音が違う候補などが全て表示されるものとなっていた。このような従来例では、音声認識結果に基づいて表示された入力テキストがユーザの想定していたものと異なる場合に、それが同音語内の表記の違いなのか、それとも音の違いなのか、あるいは単語等の分割単位の違いなのか、といったことの判別が難しいという問題点がある。特に、ユーザが知らない単語や読めない単語が表示されてしまい、それがテキスト修正を困難にするということは、キーボード等によるテキスト入力とは違った音声認識に基づくテキスト入力に特有の問題点である。
【0003】
また、修正候補の選択において、表記が違う候補や発音が違う候補など複数の要因による認識候補が全て表示されるので、目的の候補を見つけだすのに時間がかかり、操作が煩雑になるという問題点もある。また、候補選択状態に移行した後に、新たな操作ステップを経て初めて表示がなされるよう構成されている場合なども、ユーザが目的とする候補が得られるまでの操作が煩雑になる。
【0004】
このように、音声認識技術を利用したテキスト入力処理装置の従来例には、入力音声テキストの修正(広義には編集)操作を容易に行えるようなユーザインターフェースが提供されることが望まれている。
【0005】
【発明が解決しようとする課題】
本発明は、かかる事情を考慮してなされたものであり、音声認識結果に基づく入力テキストの編集をユーザが適切且つ容易に行えるユーザインタフェースを備えたテキスト入力装置、方法、及びプログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
上記課題を解決し目的を達成するために本発明は次のように構成されている。
【0007】
本発明に係る第1のテキスト入力処理装置は、音声認識を利用してテキストを入力処理するテキスト入力処理装置であって、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補を有する音声認識結果を記憶する記憶手段と、前記複数の文節のそれぞれの発音文字列を組み合わせて表示する表示手段と、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する候補表示手段と、一覧表示された前記候補のなかから、いずれか一つの異音語をユーザに選択させるための選択手段と、を具備することを特徴とするテキスト入力処理装置である。
【0008】
また、本発明に係る第2のテキスト入力処理装置は、音声認識を利用してテキストを入力処理するテキスト入力処理装置であって、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含む漢字仮名混じり文字列の候補を有する音声認識結果を記憶する記憶手段と、前記複数の文節のそれぞれの発音文字列の一つを組み合わせて表示する第1表示手段と、前記複数の文節のそれぞれの漢字仮名混じり文字列の一つを組み合わせて表示する第2表示手段と、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する第1候補表示手段と、前記いずれか一つの文節について、前記漢字仮名混じり文字列の候補を一覧表示する第2候補表示手段と、一覧表示された前記発音文字列の候補のなかから、いずれか一つの異音語をユーザに選択させるための第1選択手段と、一覧表示された前記漢字仮名混じり文字列の候補のなかから、いずれか一つの同音語をユーザに選択させるための第2選択手段と、を具備することを特徴とするテキスト入力処理装置である。
【0009】
本発明に係る第1のテキスト入力処理方法は、音声認識を利用してテキストを入力処理するテキスト入力処理方法であって、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補を有する音声認識結果を記憶する記憶ステップと、前記複数の文節のそれぞれの発音文字列を組み合わせて表示する表示ステップと、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する候補表示ステップと、一覧表示された前記候補のなかから、いずれか一つの異音語をユーザに選択させるための選択ステップと、具備することを特徴とするテキスト入力処理方法である。
【0010】
また、本発明に係る第2のテキスト入力処理方法は、音声認識を利用してテキストを入力処理するテキスト入力処理方法であって、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含む漢字仮名混じり文字列の候補を有する音声認識結果を記憶する記憶ステップと、前記複数の文節のそれぞれの発音文字列の一つを組み合わせて表示する第1表示ステップと、前記複数の文節のそれぞれの漢字仮名混じり文字列の一つを組み合わせて表示する第2表示ステップと、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する第1候補表示ステップと、前記いずれか一つの文節について、前記漢字仮名混じり文字列の候補を一覧表示する第2候補表示ステップと、一覧表示された前記発音文字列の候補のなかから、いずれか一つの異音語をユーザに選択させるための第1選択ステップと、一覧表示された前記漢字仮名混じり文字列の候補のなかから、いずれか一つの同音語をユーザに選択させるための第2選択ステップと、を具備することを特徴とするテキスト入力処理方法である。
【0011】
本発明に係る第1のプログラムは、音声認識を利用したテキストの入力を処理するプログラムであって、コンピュータを、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補を有する音声認識結果を記憶する記憶手段、前記複数の文節のそれぞれの発音文字列を組み合わせて表示する表示手段、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する候補表示手段、一覧表示された前記候補のなかから、いずれか一つの異音語をユーザに選択させるための選択手段、として機能させるためのプログラムである。
【0012】
また、本発明に係る第2のプログラムは、音声認識を利用したテキストの入力を処理するプログラムであって、コンピュータを、前記テキストを構成する複数の文節のいずれか一つが、複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含む漢字仮名混じり文字列の候補を有する音声認識結果を記憶する記憶手段、前記複数の文節のそれぞれの発音文字列の一つを組み合わせて表示する第1表示手段、前記複数の文節のそれぞれの漢字仮名混じり文字列の一つを組み合わせて表示する第2表示手段、前記いずれか一つの文節について、前記発音文字列の候補を一覧表示する第1候補表示手段、前記いずれか一つの文節について、前記漢字仮名混じり文字列の候補を一覧表示する第2候補表示手段、一覧表示された前記発音文字列の候補のなかから、いずれか一つの異音語をユーザに選択させるための第1選択手段、一覧表示された前記漢字仮名混じり文字列の候補のなかから、いずれか一つの同音語をユーザに選択させるための第2選択手段、として機能させるためのプログラムである。
【0013】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施形態を説明する。
【0014】
図1は、本発明に係るテキスト入力装置の一実施形態の概略構成を示すブロック図である。本実施形態のテキスト入力装置は、例えば汎用のコンピュータに、音声認識に係るデバイスを設けたものをベースとして構成することができ、マイクロホン等の音声入力デバイスに結合され、ユーザが発した音声を入力する音声入力部11と、音声入力部11に入力された音声を認識する音声認識部12と、音声認識部12による音声認識結果を保持する候補情報保持部13と、キーボードやマウス等の入力デバイスに結合され、ユーザが行った候補選択操作についての情報を入力する候補選択操作部14と、選択的な候補表示の制御を司る本実施形態の主要部であって、候補選択操作部14から入力される操作情報に従い、候補情報保持部13が保持する認識結果の情報から、適切な候補表示情報を作成する候補表示制御部15と、候補表示制御部15において作成された候補表示情報をディスプレイ上に表示する表示部16と、から構成されている。
【0015】
本発明に対応する主要な構成要素は、候補情報保持部13、候補表示制御部15、および候補選択操作部14であり、これらの構成要素は例えばコンピュータソフトウェアによって実現することができる。
【0016】
図2は、図1における音声認識部12の概略構成を示すブロック図である。図2に示すように、音声認識部12は、音声データを入力する音声入力部21と、音声入力部21を介して入力された音声データに対して、信号処理及び分析を行い、発声部分を検出して切り出したり、特徴量を抽出してパラメータ化する等の音響的な処理を行う音響処理部22と、音響処理部22によってパラメータ化された音声情報を、単語辞書26に登録されている単語で構成される単語列と照合する照合部23と、照合部23における照合処理において参照され、HMM(隠れマルコフモデル)等から構成される音響辞書24と、同じく照合部23における照合処理において参照され、統計的言語モデル(n−gram)等から構成される言語辞書25と、照合部23における照合処理の結果として得られる単語列を解析し、これを文節単位に再構成したり、同音語の展開を行ったりする言語処理部27と、言語処理部27における言語処理において参照され、単語についての種々の情報を格納してなる単語辞書28と、言語処理部27における言語処理結果についての履歴を管理し、候補出力を行う候補出力部29と、によって構成されている。
【0017】
以上のように構成された本実施形態において、ユーザが発声した音声が音声入力部11に入力され、発声終了直後に音声認識部12においてその一回の発声が認識されたとする。ここで、音声認識部12により図3又は図4のような候補情報が出力され、候補情報保持部13に格納された場合を例に挙げて説明する。
【0018】
認識結果の候補情報を候補情報保持部13から受け取ると、候補表示制御部15は、直ちに、最も適切と判定された読み(発音)と見出しの組を使用し、表示部16に図5に示すような「読み(発音)」を併記した候補表示を行わせる。かかる「読み」は、いわゆる「ルビ(読み仮名)」と同様の情報である。
【0019】
ここで、候補選択操作部14は、表示部16の表示に対し、ユーザがキーボードやマウス等で候補選択の対象とする部分を選択指定したり、候補表示を実行する操作を行ったり、表示された複数候補の中から別の候補を選択指定したりするための操作インターフェースを提供する。その詳細については後述する。
【0020】
次に、音声認識部12が出力する候補情報について説明する。
【0021】
図3は、音声認識部12が出力する候補情報の一例を示している。候補情報には、音声認識部12により複数得られた音声認識結果について、最も適切と判定された(一位)系列のほか、文節の境界が同じになる複数の候補が格納される。各々の候補は、読み(発音文字列)と見出し(漢字仮名混じりの表記)の情報を有する。また、候補情報には、同一の読み(発音)で異なる表記の(同音語)候補や、読み(発音)の異なる(異音語、異なり語)候補も格納される。
【0022】
図3に示すように、文節番号1として、音声中の位置0から40までの区間で認識された「こころから」の発音の候補が同音語を含めて2つ格納されている。この中で最も適切と判定されている表記は「心から」である。
【0023】
また、文節番号2として、文節番号1に続く位置40から60までの区間で認識された「あつく」「あつくも」の2つの発音の候補が同音語を含めて計10個格納されている。この中では「熱く」が最も適切と判定されている。同音語としては「厚く」などがある。
【0024】
さらに、文節番号3として、文節番号2に続く位置60から88までの区間で認識された「おれい」「おんれい」「おんで」「おれへ」の4つの発音の候補が同音語を含めて計11個格納されている。この中で「お礼」が最も適切と判定されている。同じ区間の異音語の各々の発音の候補中では、「御礼(おんれい)」「恩で(おんで)」「俺へ(おれへ)」が最も適切と判定されている。
【0025】
図4は、音声認識部12が出力する候補情報の他の例を示している。この候補情報は、文節番号1乃至3は図3のものと同様である。そして、文節番号4として、音声中の位置0から36までの区間で認識された「ここのか」が格納され、文節番号7として、これに続く位置36から52までの区間で認識された「だす」が格納され、文節番号9として、これに続く位置52から88までの区間で認識された「こんれい」が、各々、同音語を含めて格納されている。これらの候補中では「9日」「出す」「婚礼」が最も適切と判定されている。
【0026】
さらにこの図4の候補情報では、文節番号5として、音声中の位置0から32までの区間で認識された「ここも」、文節番号6として、これに続く位置32から46までの区間で認識された「ただ」、文節番号8として、これに続く位置46から88までの区間で認識された「すっとんで」が、各々、同音語を含めて格納されている。これらの候補中では「ここも」「ただ」「すっ飛んで」が最も適切と判定されている。
【0027】
すなわち、文節番号1乃至3の「心から」「熱く」「お礼」が一位系列であり、文節の境界が異なる他の系列として、文節番号4及び7並びに9の「9日(ここのか)」「出す」「婚礼」や、文節番号5及び6並びに8の「ここも」「ただ」「すっ飛んで」が格納されている。
【0028】
ここで、候補選択操作部14及び候補表示制御部15並びに表示部16の動作について説明する。
【0029】
表示部16では、初期状態では図5に示すように、「こころから/心から」「あつく/熱く」「おれい/お礼」「もうしあげます/申し上げます」が表示されているとする。
【0030】
先ず、ユーザにより、「見出し」に対する候補表示指示が行われた場合、例えば「熱く」を選択して候補表示指示が行われた場合について説明する。かかる操作が行われると、その操作情報が候補選択操作部14を通じて候補表示制御部15に与えられる。候補表示制御部15は、候補情報保持部13に保持されている候補情報中の「熱く」に対応する候補のうち、「熱く」の同音語である候補を図6のように表示部16に表示させる。
【0031】
ここで、本実施形態は、候補表示制御部15に所定のモード切替操作が与えられると、候補表示制御部15は、図6に示した表示情報に代えて、図7のように、読み(発音)の異なる候補(異音語、異なり語)までをも含めた候補表示を行うよう構成される。図6及び図7の候補表示は、上記モード切替操作に応じて相互に切り替え可能に構成されることが好ましい。
【0032】
さらに、ここで、図6(又は図7)の表示候補のうち、「厚く」を選択指定する操作が行われると、表示部16は選択された「厚く」を図8のように表示する。また、図7で表示された候補のうち、「厚くも」を選択指定する操作を行うと、表示部16は選択された「厚くも」とその読み(発音)「あつくも」を図9のように表示する。
【0033】
次に、ユーザにより「読み」に対する候補表示指示が行われた場合、例えば「おれい」選択して候補表示の指示が与えられた場合について説明する。かかる操作が行われた場合は、候補情報の中の「お礼」に対応する候補のうち、「おれい」と異なる読み(発音)を図10のように表示する。このとき、図11のように、読み(発音)の他に表記を合わせて表示するモードとの切り替えを可能にしておくことが好ましい。表記は、その読み(発音)に対応する候補の中で最も適切と判定された表記を表示するとよい。
【0034】
ここで、図10の表示候補のうち、「おんれい」を選択指定する操作が行われると、表示部16は選択された「おんれい」と、それに対応する表記「御礼」を図12のように表示する。なお、図11で表示された候補のうち、「おんれい/御礼」を選択する操作を行った場合も同様である。
【0035】
以上のような本実施形態によれば、ユーザは、「見出し」及び「読み」についての選択的な候補表示に基づき、読み(発音)及び表記の適切な組み合わせを容易に得て、所望のテキストを入力処理(修正など)することができる。
【0036】
ここで、上述した構成に基づく他の候補表示処理について説明する。他の候補表示処理は、見出しの表示を行わず、「読み」のみの表示を行うというものである。
【0037】
候補表示制御部15は、最も適切と判定された読み(発音)のみを使用して、表示部16に、図13に示すような読み(発音)のみの候補表示を行わせる。
【0038】
この場合、「おれい」の読み(発音)を選択して候補表示する指示が候補選択操作部14を介してユーザから与えられた場合には、候補情報の中の「お礼」に対応する候補のうち、「おれい」と異なる読み(発音)を含めて図14のように表示する。このとき、図15のように、読み(発音)の他に、対応する最も適切な表記を合わせて表示するモードとの切り替えを可能にしてくことが好ましい。
【0039】
さらにここで、図14で表示された候補のうち、「おんれい」を選択指定する操作がユーザにより行われると、表示部16は、選択された「おんれい」を図16のように表示する。図15で表示された候補のうち、「おんれい/御礼」を選択する操作を行った場合についても同様である。
【0040】
次に、候補表示制御部15における処理内容について、図17のフローチャートを参照して説明する。
【0041】
候補表示制御部15では、音声認識部12から候補情報が入力されると、候補情報保持部13にその候補情報を保持する(ステップS31)。
【0042】
次に、候補情報の中で最も適切と判定されている一位系列の候補情報を候補情報保持部13から取得し(ステップS32)、見出しを表示するか否かの設定情報を判定する(ステップS33)。この設定情報を、ユーザが設定できるよう構成してもよい。
【0043】
見出しを表示する設定の場合は、読み(発音)と見出しの組を使用した表示情報を作成する(ステップS34)。一方、見出しを表示しない設定の場合は、読み(発音)のみを使用した表示情報を作成し(ステップS35)、表示部16における表示を行わせる(ステップS36)。なお、ステップS36における表示は、一位系列の候補情報の表示である。
【0044】
その後、候補表示制御部15は、ユーザからの候補表示指示を受け付けるための待機状態に移行する(ステップS37)。
【0045】
ここで、候補表示の指示がユーザから与えられると、候補選択用候補の表示情報が作成(ステップS38)され、表示部16により表示が行われる。同ステップS38の処理内容については後述する。この候補表示動作に続いて、ユーザからの候補選択操作を受け入れるための待機状態に移行する(ステップS39)。
【0046】
ここで、候補選択する操作が行われると、指定された候補の読み(発音)と見出しの組を使用して、表示部16の表示を更新し(ステップS40)、再びユーザからの候補表示操作を受け入れるための待機状態に入る(ステップS37)。
【0047】
次に、候補表示制御部15における候補選択用の候補表示処理(ステップS38)の詳細について、図18のフローチャートを参照して説明する。
【0048】
先ず、候補表示する旨のユーザからの指示操作(例えばマウスクリックなど)を検知すると、指定された箇所が見出しであるか、読み(発音)であるかを判定する(ステップS41)。見出しが指定された場合は、全候補を表示するか否かについての所定の設定内容を参照する(ステップS42)。全候補を表示しない設定の場合は、候補情報保持部13から例えば同音語の候補のみを抽出する(ステップS43)。全候補を表示する設定の場合は、同じ区間内の全ての候補を抽出する(ステップS44)。これら設定に応じて抽出された候補は、ステップS45において表示部16に表示される。
【0049】
一方、上記ステップS41において、指定箇所が読み(発音)であった旨判定された場合は、候補情報保持部13から、異なる読み(発音)の候補であって、読み(発音)ごとに最も適切と判定された表記の候補をステップS46において抽出する。さらに、見出し表示を併用するか否かについての所定の設定内容を参照する(ステップS47)。かかる設定内容に応じて、読み(発音)のみを候補表示する(ステップS48)か、読み(発音)と表記(見出し)を合わせて候補表示する(ステップS49)かについて、処理動作が選択される。かかる動作ののち、ステップS45において、表示部16に候補表示がなされる。
【0050】
ここで、上記実施形態の変形例について説明する。
【0051】
上記実施形態では、見出しと組み合わせて表示される発音文字列として平仮名の「読み」を使用したが、片仮名やローマ字を使用してもよい。また、「お礼」に対して「おれい」ではなく「おれー」というような実際の発音に近い表記を使用してもよい。さらにアクセント型を表す表示を付加してもよい。
【0052】
また、上記実施形態では、日本語を対象としているが、他の言語でもよい。例えば中国語を対象とし、発音文字列としてピンインや注音符号を使用してもよい。また、声調の表示を付加してもよい。
【0053】
また、上記実施形態では、候補表示を文節単位で行っているが、単語その他の単位で行ってもよい。
【0054】
また、候補選択操作の方法については、キーボードやマウスのほか、ペン、音声操作等を利用して行ってもよく、選択対象を指定して実行を指示することのできる任意のデバイスについて、本発明は適用可能である。
【0055】
また、上記実施形態は、いわゆるポップアップウィンドウによって候補表示しているが、画面の下端などの別領域に列挙表示するなどの方法としてもよい。
【0056】
また、上記実施形態では、同一の読み(発音)で異なる表記の候補を、予め音声認識処理の中で生成しているが、音声認識処理の中では読み(発音)の異なるものを扱い、異なる表記の候補に展開する言語処理を別途行うように構成してもよい。異なる表記の候補展開は、例えば候補表示操作がなされたときに行えばよい。
【0057】
また、上記実施形態では、音声認識部12中に言語処理部27が含まれる構成としているが、同処理部27に代えて、主にキーボード入力を処理する仮名漢字変換等の言語処理部を使用することとし、音声認識部12に外付けする構成としてもよい。
【0058】
なお、本発明は上述した実施形態及び変形例に限定されず、さらに種々変形して実施可能である。本発明は、各種情報処理装置におけるテキスト入力のための手段の構成方法として有効であり、パーソナルコンピュータのソフトウェア、ワードプロセッサ装置、携帯情報機器等に幅広く利用可能である。
【0059】
【発明の効果】
以上説明したように、本発明によれば、音声認識結果に基づく入力テキストの編集をユーザが適切且つ容易に行えるユーザインタフェースを備えたテキスト入力装置、方法、およびプログラムを提供できる。
【図面の簡単な説明】
【図1】本発明に係るテキスト入力装置の一実施形態の概略構成を示すブロック図
【図2】図1に示す音声認識部12の概略構成を示すブロック図
【図3】音声認識部12が出力する候補情報の一例を示す図
【図4】音声認識部12が出力する候補情報の他の例を示す図
【図5】初期状態における音声入力テキストを示す図
【図6】「見出し」に対する候補表示指示が行われた場合を説明するための図
【図7】図6の表示内容に加え、読み(発音)の異なる候補(異音語、異なり語)までをも含めた候補表示を行う場合を示す図
【図8】図6の表示候補に対する選択操作後を示す図
【図9】図7の表示候補に対する選択操作後を示す図
【図10】「読み」に対する候補表示指示が行われた場合を説明するための図
【図11】読み(発音)の他に、表記を合わせて候補表示する場合を説明するための図
【図12】図10の表示候補に対する選択操作後を示す図
【図13】見出しの表示を行わず、「読み」のみの表示を行う実施形態を説明するための図
【図14】図13の表示に対して、ある「読み」に対して候補表示する旨の指示がなされた場合を説明するための図
【図15】読み(発音)の他に、対応する最も適切な表記を合わせて候補表示する場合を説明するための図
【図16】図14の表示候補に対する選択操作後を示す図
【図17】候補表示制御部15における処理内容の一例を示すフローチャート
【図18】図17のフローチャートにおける候補選択用表示処理(ステップS38)の内容を示すフローチャート
【符号の説明】
11…音声入力部
12…音声認識部
13…候補情報保持部
14…候補選択操作部
15…候補表示制御部
16…表示部
21…音声入力部
22…音響処理部
23…照合部
24…音響辞書(HMM)
25…言語辞書(n−gram)
26…単語辞書
27…言語処理部
28…単語辞書
29…候補出力部

Claims (5)

  1. 音声認識を利用してテキストを入力処理するテキスト入力処理装置において、
    複数の文節情報からなる音声認識結果であって、同一文節の文節情報が複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含み、かつ前記発音文字列の候補に対応する見出し文字列の候補を有する音声認識結果を記憶する記憶手段と、
    同一文節における複数の発音文字列の候補のいずれか一つを文節毎に並べて表示する制御を行う第1表示制御手段と、
    前記第1表示制御手段による制御によって表示された文節毎の発音文字列のいずれか1つが入力手段を用いて指定されると、いずれか1つの文節が選択されるように制御を行う第1文節選択手段と、
    前記第1文節選択手段により選択された文節について、前記文節情報に基づく複数の発音文字列の候補を一覧表示する制御を行う第1候補表示制御手段と、
    一覧表示された前記発音文字列の候補のなかから、いずれか1つの異音語を前記入力手段により選択できるように制御を行う第1選択手段と、
    前記第1表示制御手段による制御によって表示され又は前記第1選択手段によって選択された発音文字列の候補に対応する見出し文字列の候補を該発音文字列の候補とともに並べて表示する制御を行う第2表示制御手段と、
    前記第2表示制御手段による制御によって表示された文節毎の見出し文字列のいずれか1つが前記入力手段を用いて指定されると、いずれか1つの文節が選択されるように制御を行う第2文節選択手段と、
    前記第2文節選択手段により選択された文節について、前記文節情報に基づく複数の見出し文字列の候補のうち、前記第1表示制御手段による制御によって表示され又は前記第1選択手段により選択された発音文字列の候補に対応するものを一覧表示する制御を行う第2候補表示制御手段と、
    一覧表示された前記見出し文字列の候補のなかから、いずれか1つの同音語を前記入力手段により選択できるように制御を行う第2選択手段と、
    を具備することを特徴とするテキスト入力処理装置。
  2. 前記音声認識は日本語を対象とし、前記発音文字列は、平仮名、片仮名、ローマ字のいずれかであり、前記見出し文字列は漢字仮名混じり文字列であることを特徴とする請求項1に記載のテキスト入力処理装置。
  3. 前記第1候補表示制御手段は、発音文字列の候補の一覧において発音文字列の候補とともに対応する漢字仮名混じり文字列を表示する制御を行う請求項1に記載のテキスト入力処理装置。
  4. 音声認識を利用してテキストを入力処理するテキスト入力処理方法において、
    複数の文節情報からなる音声認識結果であって、同一文節の文節情報が複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含み、かつ前記発音文字列の候補に対応する見出し文字列の候補を有する音声認識結果を記憶する記憶ステップと、
    同一文節における複数の発音文字列の候補のいずれか一つを文節毎に並べて表示する制御を行う第1表示制御ステップと、
    前記第1表示制御ステップによる制御によって表示された文節毎の発音文字列のいずれか1つが入力手段を用いて指定されると、いずれか1つの文節が選択されるように制御を行う第1文節選択テップと、
    前記第1文節選択ステップにより選択された文節について、前記文節情報に基づく複数の発音文字列の候補を一覧表示する制御を行う第1候補表示制御ステップと、
    一覧表示された前記発音文字列の候補のなかから、いずれか1つの異音語を前記入力手段により選択できるように制御を行う第1選択ステップと、
    前記第1表示制御ステップによる制御によって表示され又は前記第1選択ステップによって選択された発音文字列の候補に対応する見出し文字列の候補を該発音文字列の候補とともに並べて表示する制御を行う第2表示制御ステップと、
    前記第2表示制御ステップによる制御によって表示された文節毎の見出し文字列のいずれか1つが前記入力手段を用いて指定されると、いずれか1つの文節が選択されるように制御を行う第2文節選択ステップと、
    前記第2文節選択ステップにより選択された文節について、前記文節情報に基づく複数の見出し文字列の候補のうち、前記第1表示制御ステップによる制御によって表示され又は前記第1選択ステップにより選択された発音文字列の候補に対応するものを一覧表示する制御を行う第2候補表示制御ステップと、
    一覧表示された前記見出し文字列の候補のなかから、いずれか1つの同音語を前記入力手段により選択できるように制御を行う第2選択ステップと、
    を具備することを特徴とするテキスト入力処理方法。
  5. 音声認識を利用したテキストの入力を処理するプログラムであって、
    コンピュータを、
    複数の文節情報からなる音声認識結果であって、同一文節の文節情報が複数の異音語を含む発音文字列の候補、および、表記が異なる複数の同音語を含み、かつ前記発音文字列の候補に対応する見出し文字列の候補を有する音声認識結果を記憶する記憶手段、
    同一文節における複数の発音文字列の候補のいずれか一つを文節毎に並べて表示する制御を行う第1表示制御手段、
    前記第1表示制御手段による制御によって表示された文節毎の発音文字列のいずれか1つが入力手段を用いて指定されると、いずれか1つの文節が選択されるように制御を行う第1文節選択手段、
    前記第1文節選択手段により選択された文節について、前記文節情報に基づく複数の発音文字列の候補を一覧表示する制御を行う第1候補表示制御手段、
    一覧表示された前記発音文字列の候補のなかから、いずれか1つの異音語を前記入力手段により選択できるように制御を行う第1選択手段、
    前記第1表示制御手段による制御によって表示され又は前記第1選択手段によって選択された発音文字列の候補に対応する見出し文字列の候補を該発音文字列の候補とともに並べて表示する制御を行う第2表示制御手段、
    前記第2表示制御手段による制御によって表示された文節毎の見出し文字列のいずれか1つが前記入力手段を用いて指定されると、いずれか1つの文節が選択されるように制御を行う第2文節選択手段、
    前記第2文節選択手段により選択された文節について、前記文節情報に基づく複数の見出し文字列の候補のうち、前記第1表示制御手段による制御によって表示され又は前記第1選択手段により選択された発音文字列の候補に対応するものを一覧表示する制御を行う第2候補表示制御手段、
    一覧表示された前記見出し文字列の候補のなかから、いずれか1つの同音語を前記入力手段により選択できるように制御を行う第2選択手段、として機能させるためのプログラム。
JP2001401299A 2001-12-28 2001-12-28 テキスト入力処理装置及び方法並びにプログラム Expired - Fee Related JP3762300B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001401299A JP3762300B2 (ja) 2001-12-28 2001-12-28 テキスト入力処理装置及び方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001401299A JP3762300B2 (ja) 2001-12-28 2001-12-28 テキスト入力処理装置及び方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2003202886A JP2003202886A (ja) 2003-07-18
JP3762300B2 true JP3762300B2 (ja) 2006-04-05

Family

ID=27640108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001401299A Expired - Fee Related JP3762300B2 (ja) 2001-12-28 2001-12-28 テキスト入力処理装置及び方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP3762300B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036438A1 (en) * 2004-07-13 2006-02-16 Microsoft Corporation Efficient multimodal method to provide input to a computing device
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP5004863B2 (ja) * 2008-04-30 2012-08-22 三菱電機株式会社 音声検索装置および音声検索方法
JP5701327B2 (ja) * 2013-03-15 2015-04-15 ヤフー株式会社 音声認識装置、音声認識方法、およびプログラム
CN106251869B (zh) * 2016-09-22 2020-07-24 浙江吉利控股集团有限公司 语音处理方法及装置

Also Published As

Publication number Publication date
JP2003202886A (ja) 2003-07-18

Similar Documents

Publication Publication Date Title
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
US6490563B2 (en) Proofreading with text to speech feedback
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
KR20060037228A (ko) 음성인식을 위한 방법, 시스템 및 프로그램
JP2002117026A (ja) 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム
JP2004046807A (ja) 表意文字言語のマルチモーダル入力
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP2002091492A (ja) 音声補完方法、装置および記録媒体
JP2008268477A (ja) 韻律調整可能な音声合成装置
JP2010198241A (ja) 中国語入力装置およびプログラム
JP2004259269A (ja) 中国語表意文字をローマ字化する方法及びステム、及び、中国語表意文字をローマ字化するソフトウェアコードを有するコンピュータ記録媒体
JP5701327B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP2010152874A (ja) 電子機器および電子機器の制御方法
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2003288098A (ja) ディクテーション装置、方法及びプログラム
JP4797307B2 (ja) 音声認識装置及び音声認識方法
JP3069532B2 (ja) かな漢字変換方法およびその装置並びにかな漢字変換方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPH10143503A (ja) 音声ワードプロセッサ
JP2021128222A (ja) 情報処理装置及びプログラム
JPH06103457B2 (ja) 音声タイプライタ
JPH08221095A (ja) 文章読み上げ方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060112

R151 Written notification of patent or utility model registration

Ref document number: 3762300

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100120

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110120

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120120

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130120

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130120

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140120

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees