JP4574390B2 - 音声認識方法 - Google Patents

音声認識方法 Download PDF

Info

Publication number
JP4574390B2
JP4574390B2 JP2005045618A JP2005045618A JP4574390B2 JP 4574390 B2 JP4574390 B2 JP 4574390B2 JP 2005045618 A JP2005045618 A JP 2005045618A JP 2005045618 A JP2005045618 A JP 2005045618A JP 4574390 B2 JP4574390 B2 JP 4574390B2
Authority
JP
Japan
Prior art keywords
recognition result
voice
command
commands
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005045618A
Other languages
English (en)
Other versions
JP2006234907A (ja
JP2006234907A5 (ja
Inventor
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005045618A priority Critical patent/JP4574390B2/ja
Priority to US11/352,661 priority patent/US20060190255A1/en
Publication of JP2006234907A publication Critical patent/JP2006234907A/ja
Publication of JP2006234907A5 publication Critical patent/JP2006234907A5/ja
Application granted granted Critical
Publication of JP4574390B2 publication Critical patent/JP4574390B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声認識の結果の修正を簡便な操作で実現しうる方法に関するものである。
連続音声認識を実用化する際の重要な課題の一つとして、簡便な操作による誤認識の訂正がある。例えば、機器操作における複数コマンドの設定は、複数コマンドを連続音声入力することにより可能となるが、ここで、「A、B」という2つのコマンドを発声した際に、「C、B」や、「A、B、C」という誤った認識結果が得られた際に、どのようにしてCの部分を指示し、言い直すもしくは削除するかという課題である。こういった訂正は、視覚障害者や視覚が利用できない利用者に対して、あるいは画面表示が行えない機器を利用する場合には、とりわけ大きな困難を伴う。
この課題に対して、簡便な方法によって音声認識の結果を修正する方法がいくつか開示されている。特許文献1では、入力ボタンとは別の修正ボタンを用意することにより、発声が過去の発声の修正か、新たな発話の認識かが判断できるようにしている。この方法では、修正位置の指定は利用者ではなく装置側が行っているため、修正すべき部分の同定を誤ってしまうという問題がある。また、修正ボタンを用いずに、音声によって修正コマンドを入力する方法(例えば、「違う、会議」の「違う」の部分が修正コマンド)も開示されているが、修正コマンド自体が誤認識してしまうという問題がある。
また、特許文献2では、認識結果を認識単位区切りで表示し、例えば「F5」を押下すると5番目の単位の修正候補(Nベスト)が表示されるという方法が開示されている。しかしながら、この方法は、認識誤りとして置換誤りのみを扱っており、挿入誤りや脱落誤りの修正ができないといった問題がある。また、認識結果は修正候補を表示し、この中から選択する、もしくはこれらの修正候補を音声で読み上げ、正解がある場合にこれを指示するという方法を用いているため、視覚障害者に対しては必ずしも使い勝手のよい方法であるとは言えない。
また、特許文献3では、認識結果の文字列(ひらがな)の各文字に異なる符号(数字)を付けて表示し、利用者が符号を指定して修正用音声を発声して置換する方法が開示されている。しかしながら、この方法も認識誤りとして置換誤りのみを扱っており、挿入誤りや脱落誤りの修正ができないといった問題がある。また、訂正単位が文字単位であるため、単語を訂正する場合には訂正に時間を要するため操作性が悪いといった問題がある。さらに、認識結果は表示装置によって利用者に提示されるため、視覚障害者は操作できないといった問題もある。
特開平11−338493号公報 特開2000−259178号公報 特開2004−93698号公報
本発明は上述の問題を鑑みてなされたもので、連続音声認識の認識結果の出力に対して、利用者は誤認識の位置を物理ボタンを用いて指示することによって、視覚障害者や視覚が利用できないユーザに対して、あるいは画面表示が行えない機器を利用する場合においても、簡便な操作で認識結果の修正が行える手段を提供することを目的としている。ここで、連続音声認識結果としては、置換誤りの他、脱落、挿入誤りも生じ得るため、これら全ての誤りに対して、統一的な操作感で修正を行える手段を提供することも目的としている。
上記目的を達成するために、本発明は以下のような構成を備える。すなわち、第1、第2のボタンを備え、受信した音声を認識してコマンドを得る音声認識装置の音声認識方法であって、第1の音声を受信する第1の受信工程と、前記第1の音声を認識し、第1の認識結果として1つまたは2つのコマンドを得る第1の音声認識工程と、前記第1の認識結果として得られたコマンドを出力する認識結果出力工程と、前記第1の認識結果が出力された後、第2の音声を受信する第2の受信工程と、前記認識結果出力工程で1つまたは2つのコマンドが出力され、前記第1、第2のボタンのいずれも押下されなかった場合、前記第1の認識結果として得られたコマンドを正解と確定し、前記認識結果出力工程で1つまたは2つのコマンドが出力され、前記第1のボタンが2回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを不正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、前記認識結果出力工程で1つまたは2つのコマンドが出力され、前記第2のボタンが2回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを不正解と確定し、前記第2の音声から第2の認識結果として2つのコマンドを認識し、前記認識結果出力工程で1つのコマンドが出力され、前記第2のボタンが押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、前記認識結果出力工程で2つのコマンドが出力され、前記第1のボタンが1回押下され、前記第2の音声が受信されなかった場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを不正解と確定し、2番目のコマンドを正解と確定し、前記認識結果出力工程で2つのコマンドが出力され、前記第2のボタンが1回押下され、前記第2の音声が受信されなかった場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを正解と確定し、2番目のコマンドを不正解と確定し、前記認識結果出力工程で2つのコマンドが出力され、前記第1のボタンが1回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを不正解と確定し、2番目のコマンドを正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、前記認識結果出力工程で2つのコマンドが出力され、前記第2のボタンが1回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを正解と確定し、2番目のコマンドを不正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識する第2の音声認識工程とを備える。
本発明によれば、簡便な操作によって、連続音声認識の誤認識を訂正する手段が提供できる。
以下、図面を参照しながら本発明の好適な実施例について説明していく。
図1は、本発明の第1の実施形態に係る音声認識装置の構成を示すブロック図である。101はCPUで、ROM102に記憶された制御プログラム或いは外部記憶装置104からRAM103にロードされた制御プログラムに従って、本実施形態の音声認識装置における各種制御を行う。ROM102は各種パラメータやCPU101が実行する制御プログラムなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供するとともに、CPU101により実行される制御プログラムを記憶する。104はハードディスク、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、メモリカード等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、CD−ROMやフロッピー(登録商標)ディスク等からインストールされた各種プログラムが記憶されている。105はマイクロフォンなどによる音声入力装置であり、取り込まれた音声に対して音声認識が実行される。106はCRT、液晶ディスプレイなどの表示装置であり、処理内容の設定・入力に関する表示・出力を行う。107はボタン、テンキー、キーボード、マウス、ペンなどの補助入力装置であり、これらの入力装置を用いて利用者が発声する音声の取り込みを開始するための指示を与える。108はスピーカなどの補助出力装置であり、音声認識結果を音声で確認する場合などに用いる。109は上記各部を接続するバスである。
図2は、音声認識結果修正方法のモジュール構成を示したブロック図である。201は音声入力部であり、105から音声信号を受信する。202は201で入力された音声を認識する音声認識部であり、入力音声の分析、参照パターンとの距離計算、探索処理などを行う。203は認識結果出力部であり、202で認識された結果を106もしくは108に出力し利用者に対して出力する。204は認識結果修正部であり、203で出力された認識結果の中に含まれる正解部分を107で指定した後、認識誤りに対する言い直しを音声によって行い105から入力する。
図3は、1発声で2つまでのコマンドを同時に認識可能な場合の入力されるコマンド(音声入力コマンド)と出力されるコマンド(認識コマンド)の正誤の全組み合わせを示す図である。図中のCは正解(Correct)、Sは置換誤り(Substitution)、Dは脱落誤り(Deletion)、Iは挿入誤り(Insertion)を表わし、例えば、(C,S)は203で認識結果を2つ出力し、そのうちの一つが正解であり、もう一方は置換誤りであったことを表わしている。ここで、最初のコマンドが正解であるか、2番目のコマンドが正解であるかは、この図の表記上は区別していない。いま、コピー操作のコマンド入力を音声によって行うタスクを考える。認識対象語彙は、出力用紙サイズに関するコマンド(A4、A3、B4、B5の4単語)と部数に関するコマンド(1部から100部)であるとする。また、同時に2コマンドまで(1コマンドもしくは2コマンド)の認識が可能であるとする。また、コマンドの発声順序は自由であるとする。この場合の発声例としては、「A4、5部」、「80部、B5」、「4部」、「A3」などとなる。なお、出力用紙サイズもしくは部数に関する入力が行われなかった場合には、デフォルト値(例えば、出力用紙サイズは「自動」、部数は「1部」)が設定される。この場合、「A4、5部」という音声入力(音声入力コマンド数2)に対して、「A4、15部」という認識結果(認識コマンド数2)が得られた場合、「5部」が「15部」に誤っている(置換誤り)ため、図3の正誤パターンの(C,S)に当たる。同様に、「A4、15部」(音声入力コマンド数2)という音声入力に対して、「A4」という認識結果(認識コマンド数1)が得られた場合、「15部」が認識されない(脱落誤り)であるため、図3の正誤パターンの(C,D)に当たる。また、「A4」(音声入力コマンド数1)という音声入力に対して、「A4、4部」という認識結果(認識コマンド数2)が得られた場合、「4部」が余計に認識された(挿入誤り)であるため、図3の正誤パターンの(C,I)に当たる。本実施例では、図3で示される全ての組み合わせに対して、物理キーを用いて利用者が正解部分を指定することによって正解部分を確定する。図4は、この指定に用いる物理キーの一例であり、一般的な数字キーである。
図5は、図3の組み合わせに対して認識結果の正解部分を指定する際の物理キーの押下例を示した図である。「(C):1」は、音声入力コマンド数と認識コマンド数がともに1で、かつ正解(C)であった場合に、数字キーの「1」を押下することを表わしている。この「1」は、認識結果として出力される「1番目」の認識コマンドが正解であるという意味である。同様に、「(C,C):1,2」は、音声入力コマンド数と認識コマンド数がともに2で、かつともに正解であった場合に、「1番目」および「2番目」の認識コマンドが正解であるため、数字キーの「1」と「2」を押下する。
また、「(C,I):m」は、前述の「A4」(音声入力コマンド数1)という音声入力に対して、「A4、4部」という認識結果(認識コマンド数2)が得られた例に当たり、この例では、「1番目」の認識コマンドが正解であるため、「1」を押下する(m=1)。なお、仮に「4部、A4」という認識結果が得られたとすると、「2番目」の認識コマンドが正解であるため、「2」を押下する(m=2)。このように、mは1または2のいずれかの値を取る。
また、「(S):R」は、音声入力コマンド数と認識コマンド数がともに1で、かつ誤り(S)であった場合である。この場合は、正解がないため、正解部分の指定は行わず、認識誤りを音声で言い直すための再発声R(Respeak)を行う。ここで、再発声する場合には、何らかのボタンを押下した後に発声を行ってもよいし、ボタンの押下なく発声を開始してもよい。同様に、「(S,D):R」、「(S,I):R」、「(S,S):R」の場合も正解がないため、正解部分の指定は行わず、認識誤りを音声で言い直すための再発声Rを行う。
また、「(C,S):m,R」は、前述の「A4、5部」という音声入力(音声入力コマンド数2)に対して、「A4、15部」という認識結果(認識コマンド数2)が得られた例に当たり、この例では、「1番目」の認識コマンドが正解であるため、「1」を押下し(m=1)、その後、再発声Rを行う。なお、仮に「B4、5部」という認識結果が得られたとすると、「2番目」の認識コマンドが正解であるため、「2」を押下し(m=2)、その後、再発声Rを行う。このように、mは1または2のいずれかの値を取る。
また、「(C,D):1,R」は、前述の「A4、15部」という音声入力(音声入力コマンド数2)に対して、「A4」という認識結果(認識コマンド数1)が得られた例に当たり、この例では、「1番目」の認識コマンドが正解であるため、「1」を押下し、その後、再発声Rを行う。
図6は、認識結果の正解部分を指定する際の音声認識結果修正方法の全体の処理を示したフローチャートであり、この図を用いて全体の処理を更に詳細に説明する。まず、S301で音声入力を行う。次に、S302では、S301で入力された音声を音声分析し、音声の特徴パラメータを求めた後、310の認識文法もしくは言語モデルに基づいて探索処理を行う(その他、音響モデルや発音辞書なども用いるが図には示していない)。S303では、S302で認識された結果を利用者に対して提示する。提示の方法の例としては、106の表示装置を用いた画面表示や108の補助出力装置としてスピーカを用いた音声出力などがある。音声出力は、認識結果の文字情報(表記や読みなど)を音声合成することによって実現できる。ここで、正解部分が何番目であるかを利用者が正確に指定するためには、認識対象単位を正確に利用者へ伝える必要がある。具体的には、「A4、4部」という結果に対して、「A4」が1番目、「4部」が2番目であるという提示である。画面表示を行う場合には、認識対象単位の区切りが分かるように、「、」などの区切り記号を挿入して表示する、1つのボックス(矩形窓)の中に1つの認識対象単位を入れるなどの方法を用いればよい。また、音声出力を行う場合には、区切りが分かるような聴覚信号を挿入すればよい。聴覚信号の例としては、無音(認識対象後間に無音区間を挿入する)、「ピッ」といった報知音、「1.(イチ)A4、2.(ニ)4部」といった数字の読み上げ音声などがある。これらの手段で認識対象単位を利用者へ伝えることによって、例えば、拡大・縮小のコマンドとして、「A4からB5」があった場合に、「A4」と「B5」が別々なのか、「A4からB5」で一つのいずれであるかを利用者へ正確に伝えることが可能となる。
次に、S304において、正解部分を指定するキー入力が行われるか否かを判定する。キー入力がある場合、すなわち、(C)、(C,I)、(C,D)、(C,C)、(C,S)の場合、S305で再発声が行われるか否かを判定する。ここで再発声がある場合、すなわち、(C,D)、(C,S)の場合、S306において、正解部分の認識結果を確定する。ここで、(C,D)の場合は、利用者は2つのコマンドを入力し、そのうち1つは正解で、もう1つは認識結果として出力されていなかったことが分かる。同様に、(C,S)の場合は、利用者は2つのコマンドを入力し、そのうち1つは正解で、もう1つは誤っていたことが分かる。つまり、これらの場合の再発声は、1つのコマンドが発声されると期待できる。また、例えば、コピー部数が正解であれば、再発声は出力用紙サイズに関するものであることも期待できる。すなわち、これらの場合には、再発声の認識を行う際に、2コマンドまでの連続発声を認識する音声認識を行うのではなく、出力用紙サイズのみに関する1コマンドの音声認識を行えばよい。つまり、再発声の音声認識を行う際に、制約を追加することが可能となる。S307はこのような認識制約の追加を行う処理であり、具体的には、再発声の音声を認識する際に310の認識文法や言語モデルに制約をかけてS301に戻る(もしくは、S303で再発声の音声認識結果から制約を満たす結果のみを出力するといった処理を行うことも可能である)。なお、キー入力の有無、もしくは再発声の有無は、タイマを用いて所定の時間内にこれらのイベント入力があるか否かで判定することができる。S305で再発声がないと判定された場合、すなわち、(C)、(C,I)、(C,C)の場合(あるいは(C,D)もしくは(C,S)でタイムアウトとなった場合)、正解部分は確定されているため、S309で正解部分を確定し、処理を終える。また、S304でキー入力が無い場合には、次にS308で再発声が行われるか否かを判定する。ここで再発声が無いと判定された場合(これは図5のいずれにも当たらない)、何も確定せずに処理を終了する。また、S308で再発声が行われた場合、すなわち、(S)、(S,I)、(S,D)、(S,S)の場合、正解部分が何も指定されていないため、S307で行ったような認識制約追加は行えないため、そのままS301へ戻る。
前述の実施例では、1発声で2つまでのコマンドを同時に認識可能な場合の正誤の全組み合わせについて述べたが、本発明はこれに限らず、任意のコマンド数に対して適用することができる。図14は、1発声で3つまでのコマンドを同時に認識可能な場合の入力されるコマンド(音声入力コマンド)と出力されるコマンド(認識コマンド)の正誤の全組み合わせを示す図である。図中のC、S、D、Iは図5と同じ意味である。この図において、例えば、(C,S,I)は、2つの音声入力コマンドに対して認識結果が3つ出力され、そのうちの1つが正解であり、残りの2つは誤り(1つは置換誤り、もう1つは挿入誤り)であったことを表わしている。図5の場合と同様に、これらの表記は、組み合わせを示しており、順序は区別していない。
図15は、図14の組み合わせに対して認識結果の正解部分を指定する際の物理キーの押下例を示した図である。(音声入力コマンド数,認識コマンド数)のペアが、(1,1)、(1,2)、(2,1)、(2,2)の部分は、前述の図5と全く同じであるため説明は省略する。また、残りのペアについても図5の場合と同様であるが、図中のj、kは1から3の値を取り、また、jとkは異なる値を取る(j!=k)。例えば、(C,I,I)は、音声入力コマンド数が1で認識コマンド数が3である場合で、かつ音声入力コマンドは正解であった場合である。この場合、出力される1番目から3番目の中のいずれかが正解であるため、「1番目」の場合は「1」(j=1)を、「2番目」の場合は「2」(j=2)を、「3番目」の場合は「3」(j=3)を押下する。このように、jは1から3のいずれかの値を取る。また、(C,C,S)は、音声入力コマンド数と認識コマンド数がともに3であったときに、2つは正解であり、1つは置換誤りであった場合である。この場合、出力される1番目から3番目の中の2箇所が正解であるため、その2箇所j、k(j,k={1,2,3},j!=k)を押下する。
以上のような構成をとることにより、簡便かつ統一的な操作によって、連続音声認識の誤認識を訂正する手段が提供でき、視覚障害者や視覚が利用できないユーザに対して、あるいは画面表示が行えない機器に対して、実用に耐え得る音声認識装置を提供することが可能となる。
前記実施例では、図3もしくは図14の組み合わせに対して認識結果の正解部分を指定していたが、誤り部分を指定してもよい。図7は、図3の組み合わせに対して認識結果の誤り部分を指定する際の物理キーの押下例を示した図である。ここで、N/Aは、全てが正解で誤りがないため、誤り部分を指定する必要がないことを示している。その他については、図5と同様であり、違いは正解部分の代わりに誤り部分を指定する。
図8は、認識結果の誤り部分を指定する際の音声認識結果修正方法の全体の処理を示したフローチャートであり、この図を用いて全体の処理を更に詳細に説明する。ここで、S401〜S403はS301〜S303と、413は310と同じであるため説明は省略する。S404において、誤り部分を指定するキー入力が行われるか否かを判定する。キー入力がある場合、すなわち、(S)、(C,I)、(S,I)、(S,D)、(C,S)、(S,S)の場合、S405で再発声が行われるか否かを判定する。ここで再発声がある場合、すなわち、(S)、(S,D)、(S,I)、(C,S)、(S,S)の場合、S406において、正解部分が確定できる場合に関して、すなわち、(C,S)のCに対して認識結果を確定する(その他の場合は確定処理を行わない)。ここで、(C,S)の場合は、利用者は2つのコマンドを入力し、そのうち1つは正解で、もう1つは置換誤りであることが分かる。つまり、これらの場合の再発声は、1つのコマンドが発声されると期待できる。よって、前記実施例におけるS307と同様、再発声の音声認識を行う際に、制約を追加することが可能となる。S407はこのような認識制約の追加を行う処理であり、具体的には、再発声の音声を認識する際に413の認識文法や言語モデルに制約をかけてS401に戻る(もしくは、S403で再発声の音声認識結果から制約を満たす結果のみを出力するといった処理を行うことも可能である)。ここで、制約がかけられない場合は認識制約追加処理を行わない。なお、キー入力の有無、もしくは再発声の有無の判定は、前記実施例と同様にすればよい。S405で再発声がないと判定された場合、すなわち、(C,I)の場合(あるいは、(S)、(S,D)、(S,I)、(C,S)、(S,S)でタイムアウトとなった場合)、正解部分が確定できるものについては、S409で正解部分を確定し、処理を終える。また、S404でキー入力が無い場合には、次にS408で再発声が行われるか否かを判定する。ここで再発声が無いと判定された場合、すなわち、(C)、(C,C)の場合、S412で認識結果を正解と確定して処理を終了する。また、S408で再発声が行われた場合、すなわち、(C,D)の場合、S410で認識結果を正解と確定し、S411で認識制約追加を行い、S401へ戻る。
前述の実施例では、1発声で2つまでのコマンドを同時に認識可能な場合の正誤の全組み合わせについて述べたが、前記実施例と同様に、任意のコマンド数に対して適用することができる。
図16は、図14の組み合わせに対して認識結果の誤り部分を指定する際の物理キーの押下例を示した図である。(音声入力コマンド数,認識コマンド数)のペアが、(1,1)、(1,2)、(2,1)、(2,2)の部分は、前述の図7と全く同じであるため説明は省略する。また、残りのペアについても図7の場合と同様であるが、図中のj、kは、図15と同じであり、1から3の値を取り、また、jとkは異なる値を取る(j!=k)。
前記実施例では、図3もしくは図14の組み合わせに対して認識結果の正解部分もしくは誤り部分を指定していたが、全ての認識結果に対してそれぞれ正誤を指定してもよい。正誤の指定は様々な方法が考えられるが、以下の例では、正解の場合には「1」を、誤りの場合には「2」を押下する場合について説明する。図9は、図3の組み合わせに対して認識結果の正誤を指定する際の物理キーの押下例を示す図である。
「(C):1」は、音声入力コマンド数と認識コマンド数がともに1で、かつ正解(C)であった場合に、数字キーの「1」を押下することを表わしている。この「1」は、認識結果として出力される認識コマンドが「正解」であるという意味である。同様に、「(C,C):1,1」は、音声入力コマンド数と認識コマンド数がともに2で、かつともに正解であった場合に、1番目および2番目の認識コマンドが「ともに正解」であるため「1」と「1」を押下する。
また、「(S):2,R」は、音声入力コマンド数と認識コマンド数がともに1で、かつ誤り(S)であった場合である。この場合は、誤りであるため「2」を押下した後、認識誤りを音声で言い直すための再発声Rを行う。同様に、「(S,D):2,R」、「(S,I):2,2,R」、「(S,S):2,2,R」の場合も正解がないため、認識結果に対する認識誤りの回数だけ「2」を押下した後、再発声Rを行う。
また、「(C,D):1,R」は、音声入力コマンド数が2で、認識コマンド数が1で、1つは正解で、もう1つは脱落誤り(D)であった場合である。この場合は、認識コマンドとして出力される結果は正解であるため「1」を押下した後、脱落誤りとなったコマンドを入力するために再発声Rを行う。
また、「(C,I):1,2」は、音声入力コマンド数が1で、認識コマンド数が2の場合で、1つは正解で、もう1つは挿入誤り(I)であった場合である。この場合は、Cに対応する部分は正解であるため「1」を押下し、挿入誤りに対応する部分は誤りであるため「2」を押下する。なお、「1」と「2」の押下順序は、結果出力の順序に従うとする。つまり、1番目が正解(C)、2番目が挿入誤り(I)の場合は、「1」、「2」の順で押下し、1番目が挿入誤り(I)、2番目が正解(C)の場合は、「2」、「1」の順で押下する。同様に、「(C,S):1,2,R」は、正解部分に対して「1」を、置換誤り部分に対して「2」を押下した後、置換誤りとなったコマンドを入力するために再発声Rを行う。
図10は、認識結果の正誤を指定する際の音声認識結果修正方法の全体の処理を示したフローチャートであり、この図を用いて全体の処理を更に詳細に説明する。ここで、S501〜S503はS301〜S303と、509は310と同じであるため説明は省略する。S504において、正誤を指定するキー入力の取り込みを行う。次に、S505で再発声が行われるか否かを判定する。ここで再発声がある場合、すなわち、(S)、(C,D)、(S,D)、(S,I)、(C,S)、(S,S)の場合、S506において、正解部分の認識結果を確定する。ここで、例えば、(C,D)の場合は、利用者は2つのコマンドを入力し、そのうち1つは正解で、もう1つは脱落誤りであることが分かる。つまり、これらの場合の再発声は、1つのコマンドが発声されると期待できる。よって、前記実施例におけるS307と同様、再発声の音声認識を行う際に、制約を追加することが可能となる。S507はこのような認識制約の追加を行う処理であり、具体的には、再発声の音声を認識する際に509の認識文法や言語モデルに制約をかけてS501に戻る(もしくは、S503で再発声の音声認識結果から制約を満たす結果のみを出力するといった処理を行うことも可能である)。ここで、制約がかけられない場合は認識制約追加処理を行わない。なお、再発声の有無の判定は、前記実施例と同様にすればよい。S505で再発声がないと判定された場合、すなわち、(C)、(C,I)、(C,C)の場合(あるいは、(S)、(C,D)、(S,D)、(S,I)、(C,S)、(S,S)でタイムアウトとなった場合)、正解部分が確定できるものについては、S508で正解部分を確定し、処理を終える。
前述の実施例では、認識結果を全て出力した後、正誤の指定を行う方法について述べたが、認識対象単位ごとに1つずつ結果を出力し、逐次正誤を指定していくこともできる。図11は、認識結果の正誤を認識単位ごとに逐次的に指定する際の音声認識結果修正方法の全体の処理を示したフローチャートである。ここで、S601、S602、S612、S608〜S611は、それぞれS501、S502、S509、S505〜S508と同じであるため説明は省略する。S603では、S602で得られる認識結果から認識単位の結果数をNに、カウンタiを1にセットする。次に、S604で、i番目の認識結果を出力する。次にS605でキー入力の取り込み(前記実施例では、正解の場合は「1」、誤りの場合は「2」のいずれか1つ)を行う。次に、S606でカウンタiに1を加える。S607でiがN以下であるかを判定し、N以下の場合にはS604へ戻り、Nより大きい場合にはS608へ進む。
前述の実施例では、1発声で2つまでのコマンドを同時に認識可能な場合の正誤の全組み合わせについて述べたが、前記実施例と同様に、任意のコマンド数に対して適用することができる。
図17は、図14の組み合わせに対して認識結果の正誤を指定する際の物理キーの押下例を示した図である。(音声入力コマンド数,認識コマンド数)のペアが、(1,1)、(1,2)、(2,1)、(2,2)の部分は、前述の図9と全く同じであり、残りのペアについても図9の場合と同様である。
前記実施例2では、図3もしくは図14の組み合わせに対して認識結果の誤り部分を指定していたが、例えば、図7において、「1,R」は、出力された1つの認識結果が誤りであることは判定できるが、入力された音声コマンド数は1つであるか、2つであるかは分からない。すなわち、認識誤りの組み合わせが、(S)であるか(S,D)であるかの区別をすることができない。同様に、「1,2,R」の場合も(S,I)か(S,S)かの区別ができない。よって、これらの場合には、再発声を認識する際に、何の制約もかけることができないため、同様の誤りを生じる可能性があり、なかなか正解が得られない場合がある。
本実施例は、このような問題を鑑みてなされたもので、認識結果の誤り部分に加え、誤りの種類を直接的あるいは間接的な方法で指定することによって、全ての組み合わせに対して、再発声を認識する際に、制約をかけることを可能とするものである。
いま、以下に示すような物理キーの押下規則を適用することを考える。すなわち、音声入力コマンドに対する認識コマンドが、全て誤りの場合は発声単語数を2回押下し(規則1)、誤りはないが正解が不足している場合は追加対象となる位置を押下し(規則2)、音声入力コマンドは全てもしくは一部認識されたが誤りも含まれている場合は誤り部分の認識コマンド位置を押下する(規則3)。これらの規則を図3の組み合わせに対して適用すると、図12のようになる(N/Aは、全てが正解で誤りがないため、誤り部分を指定する必要がないことを示している)。このとき、(S)、(S,D)、(S,I)、(S,S)の押下例は規則1が、(C,D)は規則2が、(C,I)、(C,S)は規則3がそれぞれ適用される。ここで、(C,I):mは、認識コマンドの1番目が挿入誤りである場合は「1」を押下し(m=1)、2番目が挿入誤りである場合は「2」を押下する(m=2)ことを表している。同様に、(C,S):m,Rは、認識コマンドの1番目が置換誤りである場合は「1」を押下し(m=1)、2番目が置換誤りである場合は「2」を押下した後(m=2)、再発声を行うことを表している。このようなキー押下を適用すれば、誤りの部分が特定できることに加え、同じ認識コマンド数の組み合わせにおけるボタン押下のパタンが全て異なるため、図12のいずれの誤りパタンであるかが一意に同定できる。すなわち、図12に示したボタン押下を用いれば、誤り部分と誤りの種類(置換誤り、挿入誤り、脱落誤り)が直接的もしくは間接的に指定されることになる。このような指定方法を用いれば、再発声時に常に認識に制約をかけられるため、再発声が正しく認識される可能性を高めることができる。
図13は、認識結果の誤り部分と誤りの種類を指定する際の音声認識結果修正方法の全体の処理を示したフローチャートであり、この図を用いて全体の処理を更に詳細に説明する。ここで、S701〜S703はS301〜S303と、710は310と同じであるため説明は省略する。S704において、誤り部分と誤りの種類を指定するキー入力が行われるか否かを判定する。キー入力がある場合、すなわち、(C)、(C,C)以外の場合、S705で再発声が行われるか否かを判定する。ここで再発声がある場合、すなわち、(S)、(C,D)、(S,D)、(S,I)、(C,S)、(S,S)の場合、S706において、正解部分が確定できる場合に関して、すなわち、(C,D)、(C,S)のCに対して認識結果を確定する(その他の場合は確定処理を行わない)。ここで、再発声の音声入力コマンド数は、(S)、(C,D)、(S,I)、(C,S)の場合は1、(S,D)、(S,S)の場合は2であると確定することが可能である。よって、再発声の音声認識を行う際に、これらの制約を追加することが可能となる。S707はこのような認識制約の追加を行う処理であり、具体的には、再発声の音声を認識する際に710の認識文法や言語モデルに制約をかけてS701に戻る(もしくは、S703で再発声の音声認識結果から制約を満たす結果のみを出力するといった処理を行うことも可能である)。なお、キー入力の有無、もしくは再発声の有無の判定は、前記実施例と同様にすればよい。S705で再発声がないと判定された場合、すなわち、(C,I)の場合(あるいは、(S)、(C,D)、(S,D)、(S,I)、(C,S)、(S,S)でタイムアウトとなった場合)、正解部分が確定できるものについては、S708で正解部分を確定し、処理を終える。また、S704でキー入力が無い場合、すなわち、(C)、(C,C)の場合、S709で認識結果を正解と確定して処理を終了する。
前述の実施例では、1発声で2つまでのコマンドを同時に認識可能な場合の正誤の全組み合わせについて述べたが、前記実施例と同様に、任意のコマンド数に対して適用することができる。図18は、図14の組み合わせに対して認識結果の誤り部分と誤りの種類を指定する際の物理キーの押下例を示す図である。(音声入力コマンド数,認識コマンド数)のペアが、(1,1)、(1,2)、(2,1)、(2,2)の部分は、前述の図12と全く同じであるため説明は省略する。また、残りのペアについても前述の規則1〜規則3を適用したキー押下のパタンとなっているが、正解と2種類の誤りが混在する場合、すなわち(C,S,D)および(C,S,I)の場合は(他に(C,D,I)も考えられるが、これは(C,S)と見なす)、規則3を適用することも可能であるが、図18のいずれの誤りパタンであるかを一意に同定するために、以下の規則3の変形規則を用いる。すなわち、音声入力コマンドは正解と誤りが混在して、音声入力コマンド数よりも認識コマンド数が少ない場合は誤り部分の認識コマンド位置に続いて3を押下する(規則3−1)。また、音声入力コマンドは正解と誤りが混在して、音声入力コマンド数よりも認識コマンド数が多い場合は誤り部分の認識コマンド位置に続いて3を押下する(規則3−2)。図中のj、kは、図15と同じであり、1から3の値を取り、また、jとkは異なる値を取る(j!=k)。
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
実施例に係る音声認識結果修正方法を搭載した情報機器のハードウェア構成を示したブロック図である。 実施例に係る音声認識結果修正方法のモジュール構成を示したブロック図である。 1発声で2つまでのコマンドを同時に認識可能な場合の入力されるコマンド(音声入力コマンド)と出力されるコマンド(認識コマンド)の正誤の全組み合わせを示す図である。 認識結果を修正する物理キーの一例である。 図3の組み合わせに対して認識結果の正解部分を指定する際の物理キーの押下例を示す図である。 認識結果の正解部分を指定する際の音声認識結果修正方法の全体の処理を示したフローチャートである。 図3の組み合わせに対して認識結果の誤り部分を指定する際の物理キーの押下例を示す図である。 認識結果の誤り部分を指定する際の音声認識結果修正方法の全体の処理を示したフローチャートである。 図3の組み合わせに対して認識結果の正誤を指定する際の物理キーの押下例を示す図である。 認識結果の正誤を指定する際の音声認識結果修正方法の全体の処理を示したフローチャートである。 認識結果の正誤を認識単位ごとに逐次的に指定する際の音声認識結果修正方法の全体の処理を示したフローチャートである。 図3の組み合わせに対して認識結果の誤り部分と誤りの種類を指定する際の物理キーの押下例を示す図である。 認識結果の誤り部分と誤りの種類を指定する際の音声認識結果修正方法の全体の処理を示したフローチャートである。 1発声で3つまでのコマンドを同時に認識可能な場合の入力されるコマンド(音声入力コマンド)と出力されるコマンド(認識コマンド)の正誤の全組み合わせを示す図である。 図14の組み合わせに対して認識結果の正解部分を指定する際の物理キーの押下例を示す図である。 図14の組み合わせに対して認識結果の誤り部分を指定する際の物理キーの押下例を示す図である。 図14の組み合わせに対して認識結果の正誤を指定する際の物理キーの押下例を示す図である。 図14の組み合わせに対して認識結果の誤り部分と誤りの種類を指定する際の物理キーの押下例を示す図である。

Claims (3)

  1. 第1、第2のボタンを備え、受信した音声を認識してコマンドを得る音声認識装置の音声認識方法であって、
    第1の音声を受信する第1の受信工程と、
    前記第1の音声を認識し、第1の認識結果として1つまたは2つのコマンドを得る第1の音声認識工程と、
    前記第1の認識結果として得られたコマンドを出力する認識結果出力工程と、
    前記第1の認識結果が出力された後、第2の音声を受信する第2の受信工程と、
    前記認識結果出力工程で1つまたは2つのコマンドが出力され、前記第1、第2のボタンのいずれも押下されなかった場合、前記第1の認識結果として得られたコマンドを正解と確定し、
    前記認識結果出力工程で1つまたは2つのコマンドが出力され、前記第1のボタンが2回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを不正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、
    前記認識結果出力工程で1つまたは2つのコマンドが出力され、前記第2のボタンが2回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを不正解と確定し、前記第2の音声から第2の認識結果として2つのコマンドを認識し、
    前記認識結果出力工程で1つのコマンドが出力され、前記第2のボタンが押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、
    前記認識結果出力工程で2つのコマンドが出力され、前記第1のボタンが1回押下され、前記第2の音声が受信されなかった場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを不正解と確定し、2番目のコマンドを正解と確定し、
    前記認識結果出力工程で2つのコマンドが出力され、前記第2のボタンが1回押下され、前記第2の音声が受信されなかった場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを正解と確定し、2番目のコマンドを不正解と確定し、
    前記認識結果出力工程で2つのコマンドが出力され、前記第1のボタンが1回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを不正解と確定し、2番目のコマンドを正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、
    前記認識結果出力工程で2つのコマンドが出力され、前記第2のボタンが1回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを正解と確定し、2番目のコマンドを不正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識する第2の音声認識工程とを備えた音声認識方法。
  2. 請求項1に記載の音声認識方法をコンピュータに実行させるための制御プログラム。
  3. 第1、第2のボタンと、
    第1の音声を受信する第1の受信手段と、
    前記第1の音声を認識し、第1の認識結果として1つまたは2つのコマンドを得る第1の音声認識手段と、
    前記第1の認識結果として得られたコマンドを出力する認識結果出力手段と、
    前記第1の認識結果が出力された後、第2の音声を受信する第2の受信手段と、
    前記認識結果出力手段によって1つまたは2つのコマンドが出力され、前記第1、第2のボタンのいずれも押下されなかった場合、前記第1の認識結果として得られたコマンドを正解と確定し、
    前記認識結果出力手段によって1つまたは2つのコマンドが出力され、前記第1のボタンが2回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを不正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、
    前記認識結果出力手段によって1つまたは2つのコマンドが出力され、前記第2のボタンが2回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを不正解と確定し、前記第2の音声から第2の認識結果として2つのコマンドを認識し、
    前記認識結果出力手段によって1つのコマンドが出力され、前記第2のボタンが押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドを正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、
    前記認識結果出力手段によって2つのコマンドが出力され、前記第1のボタンが1回押下され、前記第2の音声が受信されなかった場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを不正解と確定し、2番目のコマンドを正解と確定し、
    前記認識結果出力手段によって2つのコマンドが出力され、前記第2のボタンが1回押下され、前記第2の音声が受信されなかった場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを正解と確定し、2番目のコマンドを不正解と確定し、
    前記認識結果出力手段によって2つのコマンドが出力され、前記第1のボタンが1回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを不正解と確定し、2番目のコマンドを正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識し、
    前記認識結果出力手段によって2つのコマンドが出力され、前記第2のボタンが1回押下され、前記第2の音声が受信された場合、前記第1の認識結果として得られたコマンドのうち1番目のコマンドを正解と確定し、2番目のコマンドを不正解と確定し、前記第2の音声から第2の認識結果として1つのコマンドを認識する第2の音声認識手段とを備えた音声認識装置。
JP2005045618A 2005-02-22 2005-02-22 音声認識方法 Expired - Fee Related JP4574390B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005045618A JP4574390B2 (ja) 2005-02-22 2005-02-22 音声認識方法
US11/352,661 US20060190255A1 (en) 2005-02-22 2006-02-13 Speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005045618A JP4574390B2 (ja) 2005-02-22 2005-02-22 音声認識方法

Publications (3)

Publication Number Publication Date
JP2006234907A JP2006234907A (ja) 2006-09-07
JP2006234907A5 JP2006234907A5 (ja) 2008-04-03
JP4574390B2 true JP4574390B2 (ja) 2010-11-04

Family

ID=36913913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005045618A Expired - Fee Related JP4574390B2 (ja) 2005-02-22 2005-02-22 音声認識方法

Country Status (2)

Country Link
US (1) US20060190255A1 (ja)
JP (1) JP4574390B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
US8661029B1 (en) * 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
JP2009169139A (ja) * 2008-01-17 2009-07-30 Alpine Electronics Inc 音声認識装置
CN103957235B (zh) * 2011-02-21 2018-10-23 北京奇虎科技有限公司 一种拖动图像的传输显示方法和***
JP5396426B2 (ja) * 2011-04-21 2014-01-22 株式会社Nttドコモ 音声認識装置、音声認識方法及び音声認識プログラム
US9188456B2 (en) 2011-04-25 2015-11-17 Honda Motor Co., Ltd. System and method of fixing mistakes by going back in an electronic device
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR101330671B1 (ko) 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和***
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107221328B (zh) * 2017-05-25 2021-02-19 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
US10832678B2 (en) * 2018-06-08 2020-11-10 International Business Machines Corporation Filtering audio-based interference from voice commands using interference information
US10811007B2 (en) * 2018-06-08 2020-10-20 International Business Machines Corporation Filtering audio-based interference from voice commands using natural language processing

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01154100A (ja) * 1987-12-10 1989-06-16 Ricoh Co Ltd 音声認識結果確認方式
JPH01189699A (ja) * 1988-01-26 1989-07-28 Toshiba Corp 入力装置
JPH0214000A (ja) * 1988-07-01 1990-01-18 Hitachi Ltd 音声認識装置
JPH0863185A (ja) * 1994-08-24 1996-03-08 Ricoh Co Ltd 音声認識装置
JPH103295A (ja) * 1996-06-18 1998-01-06 Brother Ind Ltd 音声認識装置
JP2002140094A (ja) * 2000-11-01 2002-05-17 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2003029779A (ja) * 2001-07-18 2003-01-31 Nec Corp 自動通訳システム及びその方法並びにプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5131045A (en) * 1990-05-10 1992-07-14 Roth Richard G Audio-augmented data keying
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
US20030020760A1 (en) * 2001-07-06 2003-01-30 Kazunori Takatsu Method for setting a function and a setting item by selectively specifying a position in a tree-structured menu
US20040210437A1 (en) * 2003-04-15 2004-10-21 Aurilab, Llc Semi-discrete utterance recognizer for carefully articulated speech
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01154100A (ja) * 1987-12-10 1989-06-16 Ricoh Co Ltd 音声認識結果確認方式
JPH01189699A (ja) * 1988-01-26 1989-07-28 Toshiba Corp 入力装置
JPH0214000A (ja) * 1988-07-01 1990-01-18 Hitachi Ltd 音声認識装置
JPH0863185A (ja) * 1994-08-24 1996-03-08 Ricoh Co Ltd 音声認識装置
JPH103295A (ja) * 1996-06-18 1998-01-06 Brother Ind Ltd 音声認識装置
JP2002140094A (ja) * 2000-11-01 2002-05-17 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2003029779A (ja) * 2001-07-18 2003-01-31 Nec Corp 自動通訳システム及びその方法並びにプログラム

Also Published As

Publication number Publication date
US20060190255A1 (en) 2006-08-24
JP2006234907A (ja) 2006-09-07

Similar Documents

Publication Publication Date Title
JP4574390B2 (ja) 音声認識方法
JP4416643B2 (ja) マルチモーダル入力方法
US8160881B2 (en) Human-assisted pronunciation generation
US6735565B2 (en) Select a recognition error by comparing the phonetic
JP4867804B2 (ja) 音声認識装置及び会議システム
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
JP2007264471A (ja) 音声認識装置および音声認識方法
KR20080063471A (ko) 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2013050742A (ja) 音声認識装置および音声認識方法
KR101111487B1 (ko) 영어 학습장치 및 방법
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP2010204442A (ja) 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体
US7761731B2 (en) Information processing apparatus and information processing method
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
JP2015099335A (ja) 情報処理装置およびその方法
US20080256071A1 (en) Method And System For Selection Of Text For Editing
JPH0863185A (ja) 音声認識装置
KR102449962B1 (ko) 스마트폰 케이스 기반 점자 키보드 시스템
JP2000047683A (ja) セグメンテーション補助装置及び媒体
CN118098290A (zh) 朗读评测方法、装置、设备、存储介质及计算机程序产品
JP2020118872A (ja) 情報入力システム及び方法
CN113920803A (zh) 一种错误反馈方法、装置、设备及可读存储介质
JP5152016B2 (ja) 音声認識用辞書作成装置及び音声認識用辞書作成方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080220

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100525

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100817

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100818

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees