JP4438028B2 - 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 - Google Patents
情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 Download PDFInfo
- Publication number
- JP4438028B2 JP4438028B2 JP20152899A JP20152899A JP4438028B2 JP 4438028 B2 JP4438028 B2 JP 4438028B2 JP 20152899 A JP20152899 A JP 20152899A JP 20152899 A JP20152899 A JP 20152899A JP 4438028 B2 JP4438028 B2 JP 4438028B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- information
- prediction
- result
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 139
- 230000010365 information processing Effects 0.000 title claims description 31
- 238000012545 processing Methods 0.000 claims description 127
- 230000008569 process Effects 0.000 claims description 104
- 238000004458 analytical method Methods 0.000 claims description 57
- 238000012937 correction Methods 0.000 claims description 22
- 241000282414 Homo sapiens Species 0.000 claims description 14
- 238000003672 processing method Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 29
- 230000009471 action Effects 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識を行なう情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体に関するものである。
【0002】
【従来の技術】
音声認識には、大きく分けて単語音声認識と文節音声認識とがある。単語音声認識は、入力された音声波形を分析し、特徴抽出して特徴量の時系列を作り、特徴時系列で表わされた単語辞書との類似度を計算し、認識結果として出力する。文節音声認識は入力音声を音素記号列に変換し、単語列に置き換える。これを構文解析し、文字列に変換する。さらに論理解析や意味解析し、文生成を行って文章として出力する。単語にも同音異義語があるために品詞情報を付したり、複合名詞化、単文節変換する方法なども研究されているが、極めて難易度が高い。
【0003】
【発明が解決しようとする課題】
人間は会話の中では、殆どの場合、相手の声を一つの意味として理解を行っている。そして、話している途中でも、その前後の話題や常識によって、相手の話す内容をある程度予測して自分の理解を助けているので、少し位の言い誤りは問題にならないし、会話の中の単語に同音異義語が多数存在したとしても相手の意図する単語はどれであるかを判断できる。
【0004】
それに対して、従来の音声認識装置では、パターンマッチングにより、入力音声の波形の任意の部分にマッチする単語の候補を、装置の持つ辞書からいくつか検索出力し、その中から良い候補を選択するという処理が行われているため、途中の部分の認識に失敗してしまうと、それ以降の処理がうまく行かなくなってしまう。
【0005】
また、従来の音声認識では、認識対象の入力音声がある言語の構文を満たすものであるとして、音声認識モジュールの中で様々な判定を行い、結果を次の処理(別のモジュール)に渡すものが多い。具体的には、音声認識モジュール内部において、音声情報を構文解析というフィルタによってシステムのコマンドとして一意に決めるのである。間投詞や言い直しなどの不要語の処理や、倒置・助詞落ちなどの非文法的な発話に関しても、言語処理(単語や文法のDBとの照合)によって対処している。
【0006】
しかしながら、構文解析の目的は構文の構造を解析することにあるため、構文情報以外は排除してしまうことになる。また、得られた単語が構文解析の結果有効な単語であると判定されたときにも、一般あるいは特定分野の知識を考慮していない。
【0007】
図47に従来の音声認識装置の例を示す。同図に示すように、入力における処理の流れが一方向であるため、音声認識モジュールの処理結果が誤っていたとしても、システムの処理はそのまま次に進む。例えば、音声認識の結果、構文的には正しくてもシステム全体としては処理できないような入力も受け付けることになり、その場合、結局はエラーとなって返ってくるだけである。つまり、音声認識部とシステム全体の処理とが連動せずバラバラに処理を行っているために、簡単な処理しか実現できないと考えられる。従って、音声認識の結果がシステム全体の性能に大きく影響することになってしまう。
【0008】
【課題を解決するための手段】
上記課題を解決するために、本発明によれば、情報処理装置に、認識対象についての予測情報を記憶する記憶手段と、前記予測情報に基づいて音声情報を認識する認識手段と、音声情報の種類に関する知識を記憶する知識ベースと、該知識ベースに記憶された知識を参照し、前記認識手段による先の認識対象の認識結果に基づいて、当該認識手段における次の認識対象となる音声情報について予測を行なう予測手段と、該予測手段による予測結果に基づいて、前記記憶手段に記憶された予測情報を更新する更新手段と、前記認識手段による認識結果として得られた情報の妥当性を判断する判断手段と、前記判断手段による判断結果に基づいて、前記認識手段により認識結果として得られた情報を修正する修正手段とを備え、前記予測手段が、前記認識手段による認識結果に基づいて予測を行ない、前記修正手段による当該認識結果の修正結果に基づいて再度予測を行なうことを特徴とする。
【0009】
また、本発明の他の態様によれば、情報処理方法に、認識対象について記憶部に記憶された予測情報に基づいて音声情報を認識する認識工程と、音声情報の種類に関する知識を記憶する知識ベースに記憶された知識を参照し、前記認識工程による先の認識対象の認識結果に基づいて、当該認識工程における次の認識対象となる音声情報について予測を行なう予測工程と、該予測工程による予測結果に基づいて前記記憶部に記憶された予測情報を更新する更新工程と、前記認識工程による認識結果として得られた情報の妥当性を判断する判断工程と、前記判断工程による判断結果に基づいて、前記認識工程により認識結果として得られた情報を修正する修正工程とを備え、前記予測工程では、前記認識工程による認識結果に基づいて予測を行ない、前記修正工程による当該認識結果の修正結果に基づいて再度予測を行なうことを特徴とする。
【0010】
更に、本発明の他の態様によれば、記憶媒体に、認識対象について記憶部に記憶された予測情報に基づいて音声情報を認識する認識工程と、音声情報の種類に関する知識を記憶する知識ベースに記憶された知識を参照し、前記認識工程による先の認識対象の認識結果に基づいて、当該認識工程における次の認識対象となる音声情報について予測を行なう予測工程と、該予測工程による予測結果に基づいて前記記憶部に記憶された予測情報を更新する更新工程と、前記認識工程による認識結果として得られた情報の妥当性を判断する判断工程と、前記判断工程による判断結果に基づいて、前記認識工程により認識結果として得られた情報を修正する修正工程とを備え、前記予測工程では、前記認識工程による認識結果に基づいて予測を行ない、前記修正工程による当該認識結果の修正結果に基づいて再度予測を行なうことを特徴とするコンピュータ読み取り可能な情報処理プログラムを格納する。
【0011】
【発明の実施の形態】
<実施形態1>
以下、図面を用いて本発明の1実施形態を詳細に説明する。
【0012】
はじめに、本実施形態に係るハードウェアの構成について説明する。図1は本発明にかかる自然言語処理装置の1実施形態のハードウェア構成を示すプロック図である。
【0013】
同図において、101は、自然言語により情報を入力するための入力部である。この入力情報は一定の規則的な構造を有していれば、文法的に完全な文章でなくとも処理対象とすることが出来る。
【0014】
入力部101は、音声を入力・認識する音声認識装置に加えて、文字をキー入力するためのキーボード、書類から光学的に文字を読み取って認識する文字認識装置、オンライン/オフラインの手書き文字認識装置、他のシステムより情報を受信する受信装置、例えば、文字認識システムにより生成された情報を受信して、ここでの入力としても良い。更にこれらのうちの2以上を併設して、選択的に利用しても良い。
【0015】
102はCPUであり、各種処理のための演算、論理判断等を行い、バス106に接続された各構成要素を制御する。
【0016】
103は分析されたデータ出力情報を出力する出力部であり、例えば、文字情報を音声合成して出力する音声合成装置、CRTや液晶表示器などの表示装置、書類上に文字を印刷出力するためのプリンタ、さらには、データベースのようなほかの装置への情報を送信する送信装置であっても良く、ここでの出力を同一装置内のほか出力部、例えば、概念解析部などへの入力としてもよい。更に、これらのうちの2以上を具え、選択的に利用するようにしても良い。
【0017】
104はプログラムメモリであり、フローチャートにつき後述する処理手順を含むCPUによる制御のためのプログラムを格納するメモリである。プログラムメモリはROMであっても良いし外部記憶装置などからプログラムがロードされるRAMであっても良い。
【0018】
105は、データメモリであり、各種処理で生じたデータを格納するほか、後述する知識ベースの知識を格納する。データメモリはたとえばRAMとするが、知識ベースの知識は、不揮発な外部記憶媒体から、処理に先立ってロードしておく、あるいは必要がある毎に参照するものとする。
【0019】
106は、CPUの制御の対象とする構成要素を指示するアドレス信号、各構成機器相互間でやり取りされるデータ転送を行うためのバスである。
【0020】
図2は、本実施形態に係る情報処理装置の基本構成を示す機能ブロック図である。本装置は知識ベースの知識を用いて処理を行っており、この知識を用いた処理の流れを示している。
【0021】
201は入力処理部であり、各入力信号に対しての処理を行い入力情報を得る。
【0022】
202はコンテキスト構築 ・ゴール推論部であり、入力部101から入力された自然言語情報の内容を、知識ベース208の知識を利用して概念解析し、意味を理解・把握する。
【0023】
203はプランニング部であり、コンテキスト構築ゴール推論部202によって推論されたゴールを達成するために、コンテキストベース207、知識ベース208の知識を用いてプランニングを行う。
【0024】
204は実行部であり、プランニング部203における処理の結果に基づいて、アプリケーション、データベースやシステムに接続されたプリンタなどによる処理の実行をメインアプリケーション部205へ依頼する。
【0025】
205はメインアプリケーション部であり、システムに具わっているアプリケーションやデータベース、プリンタなどによる処理を実行する。
【0026】
206は応答決定部であり、実行部204の処理の結果をうけて、ユーザに出力するべき応答を決定する。ここではコンテキストベース207、知識ベース208の知識を利用して、出力を分析し、応答が必要であれば、応答を生成し、最終的にどのような方法で応答出力を行うかという方法の選択を行う。
【0027】
207はコンテキストベースであり、コンテキスト構築・ゴール推論部202、プランニング部203、応答決定部206などで必要とする知識を供与すると共に、コンテキスト構築・ゴール推論部202、プランニング部203、応答決定部206の処理の過程で生じた新たな知識を記憶する。
【0028】
208は知識ベースであり、ゴール推論部202、応答決定部206に必要な知識を供与するとともに、ゴール推論部202、プランニング部203、応答決定部206における処理の過程で生じた新たな知識を記憶する。
【0029】
図3は本実施形態に係る情報処理装置の処理の流れを示す図である。入力認識部301は、図2における入力処理部201に相当する部分であり、入力された情報に対して認識を行う。
【0030】
概念解析部302は、コンテキスト構築部202、プランニング部203、実行部204に相当する部分であり、入力認識部301における情報に対する認識処理の結果から、システム内に存在する知識306を利用して入力情報の意味を解析する。解析の結果、次に入力される情報を予測したり、メインアプリケーション部303に実行を依頼したりする。
【0031】
メインアプリケーション部303は、メインアプリケーション部204にあたる部分であり、概念解析部302に依頼された処理を実行し、実行の結果を応答生成部304に渡す。
【0032】
応答生成部304は、応答決定部206の処理を行う部分であり、メインアプリケーション部303による実行の結果を分析し、ユーザに対する応答を生成して、最適な出力方法を選択する。
【0033】
実際の出力は、出力合成部305へ依頼する。出力合成部305は、応答生成部304により生成された応答を、選択された方法で出力する。応答生成部304、出力合成部305のそれぞれの処理においても、システムの知識306が使用される。
【0034】
本情報処理装置構成を音声認識に応用することで、人間の音声認識処理の優れている点を実現する。以下に、人間が実際にはどのように音声を認識しているかの例を示す。例として、「Send mail to May」という入力音声を処理する場合を説明する。
【0035】
図4に、人間が他人の発声を理解する概要を示す。人間は他人の発声をほとんどの場合一通りの意味に理解し、現状の音声認識装置で行われているように、ある部分の音声波形に近い単語候補の中から順に選択しながら理解するようなことは行なわない。これは、音声情報だけでなく、その前後の文脈や一般常識などからある程度の予測を行った上で音声情報に対する認識、理解を行っているためであると考えられる。
【0036】
システムとして人間の動作を実現するためには、入力情報に対してあらかじめ予測を立てておくことが考えられる。つまり、音声入力として"Send mail to May !"という入力が入ったとき、直前に“send ”という音声を認識したならば、言語知識からObjectが予測され、さらにドメインの知識によって“mail ”という音声が予測されている。
【0037】
このため、普通の音声認識では"male"、 "mai"、 "may"、 "mate"という候補があがるかもしれないが、"mai"は言語知識から、通常の単語としては辞書に存在せず、また人名とすると"send"の直後にくることは考えにくいので、予測されていない。また"send to"という決まりきった言い回しが言語知識から予測されるため、"mate"という音の固まりで認識される可能性は低くされる。更に、"to"の同音異義語である"too"は知識ベースの予測からは候補としてあがらない。最後に、概念知識から"send to XXX"のXXXにはObjectがくると予測され、またドメインの知識から"send"する方向/場所は人間(人名)であるという予測が成り立ち、アドレス帳や人名辞典などから"May"が予測されることが考えられる。
【0038】
図4のような人間の音声認識処理と、従来の音声認識装置の処理とを比較する。図47は従来の情報入力処理を示す図である。
【0039】
従来の入力処理方法では、認識モジュールの中で様々な判定を行い、結果を次の処理(別のモジュール)に渡すものが多い。入力された情報は、認識処理によって認識されアプリケーションが受け入れる形に整形して処理を行う。この処理の流れは一方向で、各処理は孤立したモジュールとなっており、連動していない。
【0040】
特に音声入力の場合には、音声認識部4701において音声認識した結果を、音声処理部4702において、構文解析というフィルタによってシステムのコマンドとして一意に決める方法が多く行われている。間投詞や言い直しなどの不要語の処理や、倒置・助詞落ちなどの非文法的な発話に関しても、言語処理(単語や文法のDBとの照合)によって音声処理部4702において対処する。構文解析の目的は構文の構造を解析することにあるため、構文情報以外は排除してしまうことになる。また、処理の流れが一方向であるため、音声認識モジュールの処理結果が誤っていたとしても、システムの処理はそのまま音声部4703のブロックを終了し、次のアプリケーション部4707に進む。キーボード入力やイメージ入力部4706(OCR部4704、画像処理部4705)においても同様の処理が行われる。
【0041】
この方法ではシステム全体としては処理できないような入力も受け付けることになり、結局はアプリケーション部4707からエラーとなって返ってくるだけである。つまり音声やイメージに対する入力処理部4703、4706とシステム全体の処理とが連動せずバラバラに処理を行っているために、簡単な処理しか実現できないと考えられる。音声認識の結果が機械全体の性能に大きく影響することになってしまう。
【0042】
これに対して、図5は、本実施形態による入力処理の方法を示す図である。入力情報が音声の場合は音声認識部501において、イメージの場合はOCR502において認識されると、その結果は解析部503において一般常識・知識に基づいて解析され、次の入力を予測したり、解析した結果をシステムのアプリケーション504に渡す。
【0043】
特に音声操作の入力処理部分においては、従来のような音声認識を孤立させた形ではなく、他の知識と音声情報とを総合的に判断することによって音声認識を実現する方法を理想とする。音声を処理した結果をシステム全体の知識として蓄え、システムに存在する他の知識と兼ねあわせて判断し、その音声の構造ではなく、意味を認識する事が必要であると考える。つまり、矢印505、506のような処理の流れにより、解析の結果からフィードバックをかけることによって、認識結果と解析結果の処理を連動させることによって入力処理の性能を向上させたり、矢印507、508のような処理の流れにより、解析結果とシステムのアプリケーションとの処理を連動させることによって実行処理の性能を向上させたりする。このことによりシステム全体の性能が向上することになると考えられる。
【0044】
本実施形態では、図5のような入力処理、図2のようなシステムアーキテクチャを実現し、人間の音声認識処理と同様な処理を実現する。具体的に図6は図3で示されるような実装方法で音声認識システムを構築する際のシステムの全体図を示す。
【0045】
音声が入力されると、音声認識部601によって、予め行われた予測や、知識ベース及びコンテキストベース606の情報を基に音声認識がなされる。ここで、音声情報に対する処理のために、知識ベースは、情報の種類に関わらず処理において有効な共通知識のほかに、音声情報に関する知識を持ちあわせている。この認識結果が概念解析部602において、再び知識ベース及びコンテキストベース606におけるシステムの常識や知識を利用して、概念解析され、認識結果の意味が解析される。
【0046】
メインアプリケーション603においては、次の音声入力を予測したり、目的に応じた処理を行ったりする。メインアプリケーション603による処理の結果、ユーザに対して応答することが必要となる場合には、応答生成部604において応答が生成され、音声で応答することが最も適切であると判断される場合には、音声合成部605において、応答が音声に変換されて出力される。これらの処理においても、システムの知識606が用いられる。
【0047】
予測の方法には大きく分けて2種類あり、その詳細は図46に示される。予測を行う段階には2段階あり、一つは音声を認識する段階で次に入力信号を予測する方法、もう一つは音声認識エンジンが出力する結果を内部処理に用いる段階で、次に入力される結果を予測する方法である。
【0048】
前者の方法では、これまでの入力や常識から知識ベースを用いて次に入力される単語を予測する。この予測された単語から、更に次に入力される音(音素や音節など)を予測し、音声認識率を向上させるために利用する。後者の方法においても、これまでの入力や常識から知識ベースを用いて次に入力される単語を予測し、以後の処理をスムーズに行うために使用する。
【0049】
例えば、ドメインが文書やメールなどを送信する装置である場合には、図43に示すような、コンテキストの状態遷移が予測される。このような装置の初期予測は次のように行われる。まず、“装置を操作するために、ユーザは何らかのアクションを起こすのではないか”という一般的な知識から、動詞が入力されるのではないかという予測が成り立つ。そこで、特にこの装置が受け付けるような動詞を特にActというカテゴリとして、そのカテゴリに属する動詞の入力を予測して、装置は音声の入力を待つようにする。
【0050】
Actカテゴリに属する動詞の入力を認識した後は、“何を”というObjectカテゴリに属する音声を予測するといった、予測カテゴリの状態遷移が起こる。ここで、Actのようなカテゴリの分類は、例えば図44、45に示される。具体的にはその装置が扱うObjectにはmailやdocumentがあるといったようなカテゴリ分けである。
【0051】
図8は装置全体の処理の概要を示すフローチャートである。情報に関する知識を記憶する記憶する知識ベースをもとに次の認識対象を予測する。
【0052】
まず、ステップS800においてシステムが起動すると、ステップS801において初期予測を設定する。図48は、この初期予測の設定処理手順を示すフローチャートである。初期予測では、まだ認識すべき入力がなされていないので、先の動作に基づいて後の動作を予測し、それに基づいて入力情報を予測する。
【0053】
まず、ステップS4801において、直前のシステムの処理の状態またはユーザの指示要求内容を参照し、前の動作を取得する。システムが起動した直後のように前の動作が存在しない場合など、ステップS4802において、前の動作の取得に失敗すると、ステップS4808において、その装置における初期予測が設定される。ここでは、例えばユーザは何らかのActionを依頼するに違いないと判断し、音声認識器の認識対象コンテキストとして、動詞単語をアクティブにしたりする。
【0054】
一方、前の動作取得に成功すると、ステップS4803において、それに関連する動作を参照する。これは、知識ベースの中の一般知識を参照することによって行われたり、この装置のドメイン知識を参照することによって行われたりする。そして、ステップS4804において、ステップS4803で参照された関連する動作の中から、次の動作として可能性の高いものを予測する。次の動作として予測できる動作があれば、ステップS4805の判定によりステップS4806へ進み、その予測された動作に関係する情報を知識ベースから取得し、その情報をもとに、ステップS4807において入力される情報を予測する。
【0055】
ここでは、例えば、前の動作が「文書を3部印刷する」という動作であった場合には、ステップS4803において、知識ベースからは、「印刷すること」に関係する動作として、「印刷状況を知りたい」とか「もう一部印刷する」とかいった動作が参照される。続いて、ステップS4804において、前の動作が「3部印刷する」という動作であったことから、これら参照された動作の中では、「もう一部印刷する」という動作よりも、「印刷状況を知りたい」という動作の方がより起こりやすいと予測できる。さらにステップS4806において「印刷状況を知る」という動作から、ドメイン知識を参照すると、「プリンタステータス」などのキーワードのような、関連する情報を得ることが出来る。この様な得られた情報を使用して、ステップS4807において次の入力情報を予測する。
【0056】
また、前の動作が「ジョブをすべて削除する」という動作であった場合には、ステップS4803、S4804においては次の動作を予測することに失敗し、ステップS4805の判定はNoとなり、ステップS4808において、次の入力の予測は、装置の初期予測となる。
【0057】
図8に戻り、ステップS802において入力が取得されると、ステップS803において入力が有効であるかを判断し、有効な場合、ステップS804で、入力はどの情報として認識されるかという判断がなされる。このとき認識される情報の区分は、音声・文字・イメージなどが考えられる。ステップS804で判定された区分に従って、ステップS805において予測に基づいた認識を行う。このとき、認識対象が言語情報か非言語情報か、また言語情報であれば音節か音素かといった単位を判断して認識が実行される。
【0058】
認識された結果は、ステップS806の結果の分析処理の中で、次の認識対象を予測するために用いられる。図9は、処理結果の分析手順を示すフローチャートである。この処理における予測(ステップS904)は、認識結果のみからではなく、認識結果の解析処理(ステップS901)、正当性判断処理(ステップS902)、結果修正処理(ステップS903)などからも予測されることが考えられる。上記ステップS901〜903の処理は、すべてが一度に行われても良いし、解析処理のみ、正当性判断処理のみ、正当性判断+結果修正処理の組み合わせ、解析処理+正当性判断処理の組み合わせなどで行われても良い。生成された予測により、次の認識のため予測が更新される(ステップS905)。
【0059】
このステップS806の認識結果の分析のブロック全体において、様々な知識を参照した処理が実行される。たとえば、知識として言語知識を使用する場合には、一般的な辞書の利用が考えられる。それにより、信号波形として"flint"と認識されたとしても、結果解析処理において、"flint"という言葉は辞書にないため、"print"であると判断することが出来る。
【0060】
ドメイン知識を使用する場合には、そのドメインがメールを送信できるアプリケーションであると想定すると、予測としては、"male"ではなく"mail"の方が相応しいと予測できる。また、一般知識(常識)を用いると、例えば、一つ前のコマンドとして印刷が実行された場合には、次の動作はプリンタのステータスを表示することかもしれないと予測できる。
【0061】
このように知識を用いて処理を進めた後、ステップS807においてシステムが処理を実行すべきであるかを判断する。例えば、入力文の認識が終了し、認識された入力文がシステムに対する処理命令であった場合には、対応する処理を実行すべきであると判断する。実行すべきであると判断した場合には、ステップS808において、処理を実行し、ステップS809において、必要ならばユーザに対して応答を行う。ステップS807において、更に次の入力がなされると判断する場合には、次の入力に対しての予測がすでに更新されているので、ステップS802に戻り、次の入力を取得しようとする。また、一つの処理が終了すると、ステップS810において、システム自体が終了するのか、それとも継続的に使用されるのかの判断がなされ、継続的に使用される場合には、ステップS802に戻り、終了した動作に基づいて初期予測を行なう。システムが終了する場合には、ステップS812においてシステムをシャットダウンして終了する。
【0062】
図8のような処理を行うことによって、本実施形態の音声認識システムにおいて、実際に入力された音声がどのように処理されるかというユーザの発声に対するシステム処理の流れの概要を図7に示す。
【0063】
まず、このようなシステムでは、ユーザが何らかのアクションを起こすのではないかと推測がなされ、アクションはほとんどの場合動詞からはじまることが多いので、音声認識器に動詞が入力されることを待つ。そして、「send」が入力されると、次は何を送信するのかが入力されると推測し、送信対象となるobjectが入力されると予測する。
【0064】
このように、音声入力を予測しながら理解していき、概念解析を行うことによって実行が可能と判断すると、実際に実行を行う。実行結果からユーザに対して何らかの応答が必要であると判断される場合には、適切な応答を生成し、文章を作成し、最も適切であると考えられる方法でユーザに出力する。最適な方法が音声合成である場合には、作成された文章は音声としてユーザに出力される。例えば、無事にメールをMayさんに送信した場合には、「I sent mail to may@xxx, Successfully!」という応答が返されたりする。
【0065】
以下では具体的な例を用いて、本実施形態装置の処理手順を説明する。
【0066】
ここでは、予測を利用した認識により「send mail to may」という音声が認識され、概念解析を用いた解析により対応する適切な処理が実行される例を説明する。ここで、本実施形態の装置のドメインは、電子メールを使用して、メールや文書を送信することとする。
【0067】
まず、システムが起動すると図8のステップS801においてユーザの入力を待つための初期予測が設定される。ここでは、例えばユーザは何らかのActionを依頼するに違いないと判断し、音声認識器の認識対象コンテキストとして、動詞単語をアクティブにしたりする。次にステップS802においてユーザの入力情報が取得される。この場合、ユーザの発声を認識し、その音声情報を取得する。
【0068】
その音声情報が音のレベルなどの基準に対して有効な入力であるかどうかをステップS803において判断し、入力が有効でない場合には有効な入力が入るまで待つ。ステップS803において有効な入力であると判断された場合には、ステップS804においてその入力のタイプが判定され、この場合は音声であることが分かる。
【0069】
音声と判定された場合には、ステップS805の各種入力情報認識処理において、具体的に図10に示す音声認識処理がおこなわれる。まずステップS1001において音声認識が行われる。その詳細は、図11に示すように、まず音声が入力されると、ステップS1101において音声情報が処理され、その音声情報が言語情報であるか、非言語情報であるかという判断がステップS1108においてなされる。この判断は、たとえば、知識ベースとして、言語情報のDB、非言語情報のDBを持たせてもよいし、音声情報の周波数などで判断してもよい。
【0070】
このステップS1108の判断処理の例を図12に示す。まず始めにステップS1201において、装置に設定されている、人間の音声であるかどうかを分類するための周波数の基準を取得する。その基準にしたがって、ステップS1202において入力が人間の音声であると判断される場合には、ステップS1208に進む。ここで、人間の音声の周波数に含まれていたとしても、一般的な言語音声ではないもの、たとえば笑い声や冗長語などとして、装置の知識として登録されている“特別な音声”についての情報を取得する。
【0071】
その後ステップS1209において、現在の入力が特別な音声であるかどうかを判断し、もし、特別な音声と判断された場合には、ステップS1210においてその種類を取得し、ステップS1211において入力音声は非言語情報であることを示すFlagをセットする。ステップS1209において、人間の音声の周波数で、特別な音声でもないと判断された音声は、ステップS1212において言語情報であることを示すFlagをセットする。
【0072】
一方、ステップS1202において、入力音声の周波数が人間の音声の周波数範囲内にない場合には、ステップS1203において入力音声は非言語情報であることを示すFlagをセットし、非言語情報のなかでも特別に処理しなければならない音声、たとえば、緊急時を示す警報音や電話音に関する情報をステップS1204において取得する。ステップS1205において、入力された音声が非言語情報の中でも特別に処理されるべきものであると判断された場合には、ステップS1206においてその音声の種類を取得してセットする。一方、非言語情報であり、特別に処理する必要のないものはステップS1207において入力音声の種類として、雑音であるとセットする。
【0073】
以上のように判断された、その音声のタイプがステップS1102において判定される。「send mail to may」という入力の場合、音声のタイプとして言語情報と判定される。このとき、ステップS1106においてさらに言語情報の単位が判定される。
【0074】
この言語情報の単位は、たとえばユーザの話す速さ、ピッチが早い場合には、より長い単位、音素よりも単語と判定してもよいし、単語単位の認識がそれまであまりうまく行っていないといった履歴がある場合には、その装置の音声認識がもっとも精度良く行われると判断されるならば、音素などの短い単位としてもよい。この判定は装置によって自発的に認識率が上がるように行われてもよいし、ユーザが、「単語単位で認識をして欲しい」と希望する場合には、ユーザによって、認識単位が設定されてもよい。
【0075】
ステップS1106で、仮に単語と判定された場合には、ステップS1103において単語認識処理が行われる。この処理のフローチャートを図17に示す。ステップS1701において音声認識器を用いて単語単位で音声認識を行う。「send mail to may」という入力に対しては、音声認識器の持つ単語辞書の中から入力された音声情報に最も近い単語「send」を選び出すような方法で単語音声認識が実現される。ステップS1702では、ステップS1701における単語認識の結果「send」を、辞書単語「send」と入力音声との類似度(例えば92%の類似度など)とともに取得し、ステップS1703においてこの単語音声認識の結果を採用するかどうかの判定を行う。
【0076】
ステップS1106で、音声のタイプが音節と判定された場合には、ステップS1104において音節認識処理が行われる。この処理のフローチャートを図18に示す。ステップS1801において音声認識器を用いて音節単位で音声認識を行う。この例では音声認識器の持つ音節辞書のなかから入力された音声情報に類似した上位N個の音節を選び出すような方法で音節音声認識が実現される。ステップS1802ではステップS1801における音節認識の結果を、類似度ととともに取得し、ステップS1803において、音節単位の認識結果からシステムが扱う単語「send」として認識される。結果として単語全体と音声入力との類似度を出力する。具体的にはステップS1901において音節単位の認識結果「se」を取得し、その結果を用いて、ステップS1902において単語を判定する。この処理の中で、単語音声認識の結果を採用するかどうかの判定も行う。
【0077】
ステップS1106で、音声のタイプがそれ以外であった場合には、ステップS1105においてそのタイプに適した音声認識が行われる。ここでそれ以外のタイプとは、例えば、音節よりも短い単位、音素で認識することも考えられるし、単語よりも長い単位、文章などの決まりきった言い回しなども考えられる。このような入力情報を認識する単位は、あるユーザの一連の操作が終了するまでに、複数種の単位で認識が行われてもよいし、一定の単位で認識が行われてもよい。
【0078】
このように入力情報を認識した結果をステップS1002において処理する。具体的には、最終的にユーザの入力として受け入れるかという採否を判断するための処理を上述したステップS1703、ステップS1902において行う。詳細な手順を図37に示す。まず、ステップS3701において認識結果を決定するための処理を行う。例えば音声認識の類似度に閾値を設けて採否を判定する。仮に類似度80%以上と設定した場合に、「send:類似度85」という結果が出力されているとすると、ステップS3702において採否を判定し、「send」が採用となり、ステップS3703において「send」を認識結果とすることを通知する。一方、「send:類似度70」の場合には不採用となり、ユーザの次の入力を処理するために、ステップS3704において入力音声の認識が不採用となったことを通知する。
【0079】
図8に戻り、ステップS805の各種入力情報認識処理の後、認識結果「send」がステップS806において分析される。この処理は主として「send」の概念を解析することによって行われる。大まかな流れは図9に示されるようなものである。認識された結果はステップS904において次の認識対象を予測するために用いられる。またこの予測は、認識結果のみからではなく、ステップS901の認識結果の解析処理、ステップS902の正当性判断処理、ステップS903の結果修正処理からも予測されることが考えられる。上記の処理はすべてが一度に行われても良いし、どれか解析処理のみ、正当性判断処理のみ、正当性判断+結果修正処理の組み合わせ、解析処理+正当性判断処理の組み合わせで行われても良い。生成された予測はステップS905において次の認識のために更新される。
【0080】
具体的には、図38に示すように、まずステップS3801で、認識結果「send」の認識結果カテゴリ検索を行うことによって、その単語の属性や現在アクティブとされている単語のコンテキストなどの情報を取得する。次に、ステップS3802において、例えば、図29のような言語辞書から「send」の言語知識を参照し、ステップS3803において、例えば、図30のような概念辞書から概念知識を参照し、情報を得る。ステップS3804においては、装置のドメインから、「send」という動作やその対象について参照する。ステップS3805においては、例えば図31のようなルール表を参照して、「send」という単語の出現に関するシステムのルールを参照し、ステップS3806でこれらの各知識を利用した意味解析を行う。
【0081】
ステップS3806における意味解析の処理は、具体的には、ステップS3802〜S3805において得た「send」に関する知識を用いて、ステップS3901において概念解析を行うことによって実現される。ステップS3802において、例えば図29に示されるような言語辞書を参照し、「send」が動詞であり、次に来る言葉としては対象物であったり、装置の名前であったりするということが分かる。ステップS3803においては図30のような概念辞書を参考として、「send」が物理的な移動を意味することがわかったりする。
【0082】
また、ステップS3805においては、「send」の対象がmailやdocumentであることがわかる。この概念解析の結果、音声認識処理によって得た「send」という結果が意味的、常識的に正しいかどうか、また、現在の入力に対する予測を満たしているかという判定をステップS3902において行う。
【0083】
ドメインがプリンタなどである場合、「send」という動詞はおそらく、初期予測としてあげられており、結果が正しいと判断できるので、ステップS3903において、システム内部の各知識を利用して、「send」の次に来ると予測される入力を推測し、次の入力に対する予測を生成する。この場合、「send」という単語認識から、「何を送信するのか」という指定をユーザが行うだろうということが推測されるため、次の入力はObjectであるという予測が行われる。このように生成された予測をステップS3904において更新する。
【0084】
具体的に予測の更新によって行われることは、例えば音声認識器に持たせる単語辞書を更新することであったりする。次に概念解析の結果をもとに、ステップS3905においてユーザの目的に応じたシステムの処理が決定される。この場合「send」だけでは実行することが出来ないため、ステップS807の分析結果の判定により、次の入力を待つことになる。
【0085】
続いて、ユーザによって「mail」という音声が入力されると、同様の流れで処理が行われる。このとき、音声認識処理の結果として、“次に出現する音声はObjectすなわち名詞である”という予測から、「mail」ではなく「mall」という結果が返されたとする。ステップS3701の認識結果決定処理において、ステップS3801からステップS3805の各知識を用いたステップS3806における意味解析を行なうと、ステップS3805におけるドメインの知識を参照した結果から、「mall」はドメインの知識としてはあまり適切でないと考えられる。そこでステップS3902の判定において、結果「mall」をステップS3906における結果修正処理を行って修正する必要が出てくる。
【0086】
そこで認識結果を再判定するために、ステップS4001の結果再判定処理が行われる。この処理は図41に示される。ステップS4210において、これまでの認識結果を再判定し、ステップS4102において結果を修正すべきときにはステップS4103において前入力予測再生成の処理をおこなう。その後ステップS4104において単語認識判定処理を行い、改めて再判定する。この場合、これまでの認識結果「send」には修正の必要がないため、修正は行わない。以前の結果は「send」のまま、ステップS4002において現入力に対する予測を再生成する。再生成された予測をステップS4003において更新し、ステップS4004において、別の知識を利用して現入力に対して再度、認識処理をおこなう。
【0087】
ここで、ステップS4003における予測の更新とは、以前の予測に加えて、新しく生成された予測をマージする作業にあたる。このため、予測が複数生成され、候補列が膨大になるということではない。反対に、予測がより詳細になっていくため、候補は絞られていくと考えられる。例えば、システムのドメインから考えると「mall」よりも「mail」が入力される可能性が高いとの予測をステップS4003において更新し、ステップS4004において現在の認識結果を再度検討すると、「male」よりも「mail」が適切であるといった処理が行われる。
【0088】
このように、「send mail to may」までの単語の認識が終了すると、ステップS807の分析結果判定において、実行すべきであると判定され、ステップS808において、「mayさんに、mailを送信する」というコマンドが実行される。実行時においても、システム中に存在するスケジュール帳などからmayさんのメールアドレスを参照し、適切にmailを送るといった実行がなされる。
【0089】
実行の後、ユーザに応答が必要な場合には、ステップS809において出力の処理が行われる。具体的には、ステップS4201において、実行結果のステータスを取得し、ステップS4202において出力すべき事柄を分析する。ステップS4203では実際にユーザへの応答をシステムの知識を用いて応答を生成し、ステップS4204で実際の文章を作成する。ステップS4205では、最も適切な方法を選択し、ステップS4206で、実際に押送を出力する。
【0090】
例えば、「mayさんにメールを送信しました」といった確認のメッセージを音声合成によって音声で出力することが考えられる。
【0091】
<実施形態2>
音節辞書、単語辞書、言語辞書、概念辞書が図25、26、27、28、29、30のように与えられている場合の「send mail to may」という音声入力に対する処理の流れを示す。同時に認識におけるパラメータの設定手順についても示す。
【0092】
単語辞書は図32のようにM個の単語が登録されており、単語はR[i]個の音節に区切られているものとする。
【0093】
まず、システムが起動すると、図24のような画面が表示され、はじめにステップS2301において音声認識エンジンの設定パラメータ、Garbageのレベル、Reaction Time、Minimum Speech Durationなどを表示し、ステップS2302において認識結果を判定するために条件として、類似度の基準を表示する。その後、ステップS2303において現在アクティブとなっているコンテキストの内容を表示する。
【0094】
「send mail to may」という音声入力に対して、音節認識の結果から単語を認識し、全体の音声認識を実現する方法では、まず、「send」という音声が入力され、ステップS1101において処理された音声情報がステップS1102において音節であると判定されると、ステップS1103において音節認識処理が行われる。ステップS1801において音声認識エンジンにより、音声認識が行われるとN番目までの認識結果が返される。ここで、表示の処理としてはステップS2304では音声認識エンジンによる認識結果とその類似度取得し、ステップS2305で取得した情報を順番に表示する。表示されるものは、音節単位の認識結果をその類似度である。ステップS2306においては音声認識エンジンから出力された結果について判定をおこなう。表示処理はこの判定処理を待つ。
【0095】
判定処理では音声エンジンの認識結果をステップS1802において取得する。「send」という音声入力に対して例えば図33のような結果が得られる。この結果を用いてステップS1803において単語マッチング処理が行われる。ステップS1901において音節から単語へのマッチングが行われる。ここではこの単語マッチング方法としてDPマッチングを用いる場合について説明する。DPマッチングは図34に示すようなアルゴリズムにより、単語辞書と入力音声のマッチングを行うものである。
【0096】
DPマッチング処理の流れは図20に示される通りである。まず、ステップS2001において取得した結果に挙げられた候補数Nとこれまでに認識した音節の数T(認識時刻)を取得する。図35の結果より、N=5、T=0である。つぎにステップS2002において、システムに登録されている単語数Mとその音節区切り情報R[i]を取得する。図36よりM=3、R[1]=2、R[2]=2、R[3]=4である。ステップS2003においてi=1としてステップS2004の判定で、i<=Mが満たされている間、以下の処理を繰り返す。まず、i=1でステップS2005においてW[1]="send"を取得する。ステップS2006においてj=1として、ステップS2007の判定においてj<R[1](=2)の間、sendを構成する音節を取得する処理を行う。ステップS2008においてs[1][1]="se"を取得する。
【0097】
ステップS2101においてk=1として、ステップS2102の判定においてk<=N(=5)の間、s[1][1]が音節認識の結果候補として返されているかどうかを調べる。k=1のときステップS2103においてC[k]、A[k]を取得するとC[1]="nd"、A[1]=60.4である。ステップS2105における判定において、s[1][1]<>c[1]であるので、ステップS2104においてkを1増やし、次の認識結果候補を取得し、判定を行う。C[3]="se"、A[3]=38.9でステップS2105における判定がtrueとなるのでステップS2106において、s[1][1]の類似度D[1][1]=A[3]=38.9となる。ステップS2108において対象単語W[1]=sendの類似度CD[1][1]を計算する。
【0098】
ステップS2201においてT=0であるので、図34に示す式より、ステップS2211においてP1=0、P2=2*60.4=120.8、P3=0と設定される。ステップS2212において最適パスを決定すると、この場合P2=120.8が最適であると決定される。ステップS2213において累積類似度の計算、累積パスの計算を行う。
【0099】
この場合、最適パス=2であるので、累積類似度はCD[1][1]=120.8、累積パス=2である。つぎにステップS2109においてjを1増やしj=2にすると、ステップS2102でC[1]="nd"、A[1]=61.0を取得したとき、ステップS2105における判定がtrueとなり、上記と同様に計算を行うとCD[1][2]=122.0となる。さらにステップS2109においてjを1増やしj=3にするとステップS2007 における判定がfalseとなるため、ステップS2009においてiを1増やしi=2にする。このようにしてi=3まで求めると、CD[1][1]=120.8、CD[1][2]=122.0、CD[2][1]=107.4、CD[2][2]=41.2、CD[3][1]=58.2、CD[3][2]=0、CD[3][3]=0、CD[3][4]=0になる。ステップS2009においてi=4になるとステップS2004における判定がfalseになり、処理は終了する。続いてステップS1902において単語判定処理が行われる。
【0100】
ここで、現在T=0における音節認識と単語マッチングの結果が判定される。今回の計算では、まだどの単語とも判定が出来ないため、次の入力を待つことになる。次の入力がなされるとステップS1102によって音声のタイプが判定される。このとき、一つ前の入力が音節で、しかもまだ単語として認識されていないことから、次に入力される音声のタイプは同じく音節であると判定される。ステップS1104において音節認識がなされ、ステップS1801において音節認識の結果が返される。この結果が図35のように返されたとする。
【0101】
音声認識の結果をステップS1802において取得し、ステップS1803において、単語マッチング処理がなされる。ステップS2001においてN、Tを取得すると、N=1、T=1である。T=0のときと同様にステップS2002〜S2109の処理を行う。結果として、CD[1][1]=120.8、CD[1][2]=322.0、CD[2][1]=107.4、CD[2][2]=41.2、CD[3][1]=58.2、CD[3][2]=0、CD[3][3]=0、CD[3][4]=0という計算結果が得られる。ステップS2009においてi=4になるとステップS2004における判定がfalseになり、ステップS1902単語判定処理が行われる。
【0102】
この結果、音声認識の結果として"send"という単語をステップS805情報認識処理の結果とする。この結果"send"の採否については、以降のステップS806処理結果の分析などを経て最終的に入力として採用する。このように、"send mail to may"という音声入力を処理し、最終的にmayさんにmailを送信し、ユーザに応答を出力して全体の処理を終了する。
【0103】
ここで、音節などの短い音声単位での予測の効果としては、音声認識処理で、音声単位のすべてを認識できなかった際に発揮される。例えば単語を構成する音の全てが認識されなかったとしても、各単位の生起確率と状態間の遷移確率に知識ベースを用いた予測を加えれば、より精度の高い認識を行える点があげられる。
【0104】
表示処理においては、ステップS2307において採用判定ステップS806の処理を待ち、認識結果"send"が採用される場合には、採用された結果をステップS2308において最終的な認識結果として出力し、次の入力に関して以上のことを繰り返す。もし、図24において、各種パラメータが変更された場合には、逐次そのパラメータを有効にして、判定を行う。
【0105】
<実施形態3>
ここでは予測を利用した認識により日本語文「芽衣さんにメールを送信して」という音声が認識され、概念解析を用いた解析により対応する適切な処理が実行される例を説明する。
【0106】
現在までに「芽衣さんに」という認識結果を得ており、次の音声認識の結果として、ステップS805において「めーる」という認識結果を得たとする。ここでシステムのドメインの知識から「滅入る」ではなく、「メール」という単語が予測として成り立っており、この予測から、「芽衣さんに滅入る」ではなく、「芽衣さんにメール」という認識を得ることができる。
【0107】
次に、予測を利用した認識により「芽衣さんにメールを送信して」という音声が認識され、概念解析を用いた解析により、認識結果に修正が行われ、対応する適切な処理が実行される例を説明する。
【0108】
現在までに「めいさんに」という音声の入力が行われ、単語認識の結果、「メール3に」という認識結果を得ており、次の入力音声としてObjectを予測していたとする。このときステップS805において「メール」と単語認識した場合、ステップS806の処理結果の分析において「メール3にメール」という入力の意味解析の結果、次の入力音声に対する予測生成ステップS3903が困難になる。
【0109】
ここで、ステップS3902において、修正が必要と判断し、ステップS3906においてこれまでの予測を振り返り、概念解析を再度行った結果、「メール3」ではなく、「芽衣さん」という送信相手が入力されることが適切であると判断し、これまでの認識結果を「芽衣さんにメール」と修正して、ステップS3903において予測を生成し、ステップS3905において。予測を更新する。
【0110】
このようにして「芽衣さんにメールを送信して」という音声入力を受け付け、その指示を適切に実行することが可能となる。このように、言語情報は辞書として与えられており、概念解析は言語に依存しないため、日本語、英語などの言語相違は概念解析を用いた音声認識には影響を与えることはない。
【0111】
<実施形態4>
音声情報として電話音が入力・認識され、概念解析を用いた解析により対応する適切な処理が実行される例を説明する。
【0112】
この場合、ステップS1101において音声情報が処理され、ステップS1102においてその音声のタイプが非言語情報であると判断される。ステップS1107において非言語情報に対する認識が行われる。具体的には図13に示すような処理が行われる。図13は非言語情報の認識における処理の流れを示すフローチャートである。
【0113】
非言語音声としては電話音、警報音、笑い声などが考えられる。電話音の場合には、周りに人がいない時、または電話音が一定時間以上なり続けている時にはシステム装置が代わりに電話に出て伝言を受け取るという、電話応答処理を行う。警報音を認識した場合には、緊急処理として、システムを正常に終了するといった処理が考えられる。また、笑い声や第三者の声などを認識した場合には、雑音として処理し、システムに影響を与えないようにすることが考えられる。
【0114】
この例では、入力音は電話音声であるので、ステップS1301において、非言語情報の種類は電話の音と判断され、ステップS1302の電話応答処理に進む。具体的な処理は図14に示される。ここで、電話が鳴っているので、現在合成音が生成されている場合には、ステップS1401において、ユーザが電話が鳴っていることに気づけるように、合成音声を中止または音量を小さくする。それでもステップS1402において、ユーザが電話に応答していない場合には、ステップS1403に進み、電話が鳴っていることを表示などによりユーザに通知する。ステップS1404において、それでもなお応答がない場合は、ユーザが不在であると判断し、ステップS1405において、ユーザの代わりにシステムが応答するべきだと判断される。
【0115】
また、入力音が電話音声であったことに基づいて、システムは、電話に対するユーザの行動の知識等から、例えば、誰かに連絡を取る、スケジュールを変更するといったユーザの次の行動を予測し、それに伴うユーザからの新たな入力、例えば、アドレス帳やスケジュールの表示要求などを予測するようにしてもよい。
【0116】
更に、電話によりユーザからの入力が中断された場合には、中断された入力の中止や変更を予測してもよいし、その後電話が終ったことを認識して、再開を予測してもよい。
【0117】
<実施形態5>
音声情報として警報器の音が入力・認識され、概念解析を用いた解析により対応する適切な処理が実行される例を説明する。
【0118】
この場合、図11のステップS1101において、音声情報が処理され、ステップS1102において、その音声のタイプが非言語情報であると判断される。そして、ステップS1107において、非言語情報に対する認識が行われる。ステップS1301において非言語情報の種類は警報器の音であり、ステップS1303の緊急処理に進む。
【0119】
具体的には、図15に示されるような処理が行われる。ステップS1501において緊急時の通知をユーザに対して行い、ステップS1502においてユーザがシャットダウンを実行した場合には処理はそこで終了する。それでもシャットダウンしない場合には、緊急にシステムの保護、シャットダウンを行う必要があると判断される。ステップS1503においてシャットダウンすることをユーザに通知し、ステップS1504においてユーザが新たな処理を実行した場合には、ステップS1505においてユーザの処理を待って、ステップS1506においてユーザがシャットダウンした場合には、そのまま終了する。それでもシャットダウンしない場合、またはステップS1504において新たにユーザが処理を行わないと判定された場合には、ステップS1507において装置自身が正常終了する。
【0120】
また、上述の場合も、入力音が警報器の音声であったことに基づいて、システムは、ユーザからの次の入力を、例えば、シャットダウンやデータのセーブなどに関連すると予測しながら処理するようにしてもよい。
【0121】
なお、上述した電話や警報器に限らず、非言語情報がチャイムやブザー、メロディーなどの場合にも、それぞれの種類に対応した処理を実行するようにしてもよい。
【0122】
<実施形態6>
音声情報として笑い声が入力・認識され、概念解析を用いた解析により対応する適切な処理が実行される例を説明する。
【0123】
この場合、ステップS1101において音声情報が処理され、ステップS1102においてその音声のタイプが非言語情報であると判断される。ステップS1107において非言語情報に対する認識が行われる。ステップS1301において非言語情報の種類は笑い声であり、ステップS1304雑音処理に進む。
【0124】
ステップS1601においてユーザBの発声のレベルを確認し、そのレベルが大きい場合には、ステップS1602において応答方法を調整する。この結果、ステップS1603において、調整した応答方法が音声合成と判断される場合には、ステップS1604において、合成音を大きくして出力し直す必要性があると考えられる。また、応答方法が音声合成でない場合には、ステップS1603において、最適な方法で再応答するべきであると考えられる。ステップS1603の判定において再応答が必要であるとされた場合には、ステップS1605において、再度最適な方法でユーザに応答する。再応答が必要でないとされていない場合には、何もしない。
【0125】
<実施形態7>
図46における予測においては、次の入力として、出現する可能性の高い情報だけでなく、出現する可能性がほとんどない情報も予測を行う。
【0126】
例えば、入力情報として、全く同じ情報は続けて出現しないという事実などを予測として使用することによって、情報の認識の性能が上がる。。
【0127】
尚、本発明は、単一の機器からなる装置に適用しても、複数の機器から構成されるシステムに適用してもよい。また、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、装置あるいはシステムに供給し、装置あるいはシステム内のコンピュータが記憶媒体に格納されたプログラムコードを読み出して実行することによって達成してもよい。
【0128】
更に、装置あるいはシステム内のコンピュータが記憶媒体に格納されたプログラムコードを読み出して実行することによって、上述した実施形態の機能を直接実現するばかりでなく、そのプログラムコードの指示に基づいて、コンピュータ上で稼動しているOSなどの処理により、上述の機能を実現される場合も含まれる。
【0129】
これらの場合、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0130】
【発明の効果】
以上説明したように、本発明によれば、音声認識対象を予測して認識するようにしたので、認識の精度を高めることができるという効果がある。
【図面の簡単な説明】
【図1】自然言語処理装置の1実施形態のハードウェア構成を示す図である。
【図2】システムアーキテクチャを示す図である。
【図3】音声認識における実装の形態を示す図である。
【図4】発声された音声に対する人間の理解を示す図である。
【図5】入力処理を示す図である。
【図6】システムの構成を示す図である。
【図7】システムの処理の概要を示す図である。
【図8】全体の処理の流れを示すフローチャートである。
【図9】処理結果の分析の流れ概要を示すフローチャートである。
【図10】認識処理に予測情報を反映させる処理手順を示すフローチャートである。
【図11】音声認識における処理の流れを示すフローチャートである。
【図12】入力音声の音声タイプ判断処理の流れを示すフローチャートである。
【図13】非言語情報の認識における処理の流れを示すフローチャートである。
【図14】電話音声応答処理の流れを示すフローチャートである。
【図15】警報機音声応答処理の流れを示すフローチャートである。
【図16】雑音処理の流れを示すフローチャートである。
【図17】単語認識処理の処理の流れを示すフローチャートである。
【図18】音節認識処理の処理の流れを示すフローチャートである。
【図19】音節単位の認識結果とシステムの単語とのマッチング処理の流れを示すフローチャートである。
【図20】音節単位の類似度を調べる処理の流れを示すフローチャートである。
【図21】音節単位の類似度を調べる処理の流れを示すフローチャートである。
【図22】音節単位の類似度と時刻を用いて対象辞書単語の類似度を計算する処理の流れを示すフローチャートである。
【図23】各種表示処理の流れを示すフローチャートである。
【図24】各種パラメータ設定・結果表示画面を示す図である。
【図25】音節辞書の例(English) を示す図である。
【図26】単語辞書の例(English) を示す図である。
【図27】音節辞書の例(Japanese) を示す図である。
【図28】単語辞書の例(Japanese) を示す図である。
【図29】言語辞書の例を示す図である。
【図30】概念辞書の例を示す図である。
【図31】ルールの例を示す図である。
【図32】単語辞書の例(配列記号の例)を示す図である。
【図33】音節認識結果の例(配列記号の例)を示す図である。
【図34】 DPマッチングアルゴリズムを説明する図である。
【図35】単語辞書の例を示す図である。
【図36】音節認識結果の例を示す図である。
【図37】認識結果決定処理と認識結果採用判定の処理の流れを示すフローチャートである。
【図38】結果分析処理の流れを示すフローチャートである。
【図39】概念解析と概念解析の結果判定の処理の流れを示すフローチャートである。
【図40】結果の修正処理の流れを示すフローチャートである。
【図41】以前の認識結果の再判定処理の流れを示すフローチャートである。
【図42】ユーザへの応答生成処理の流れを示すフローチャートである。
【図43】次入力予測のためのコンテキストの状態遷移図である。
【図44】単語のカテゴリ分けを示す図である。
【図45】単語のカテゴリ分けを示す図である。
【図46】二つの予測の方法を示す図である。
【図47】従来の入力処理を示す図である。
【図48】予測設定処理の流れを示すフローチャートである。
Claims (23)
- 認識対象についての予測情報を記憶する記憶手段と、
前記予測情報に基づいて音声情報を認識する認識手段と、
音声情報の種類に関する知識を記憶する知識ベースと、
該知識ベースに記憶された知識を参照し、前記認識手段による先の認識対象の認識結果に基づいて、当該認識手段における次の認識対象となる音声情報について予測を行なう予測手段と、
該予測手段による予測結果に基づいて、前記記憶手段に記憶された予測情報を更新する更新手段と、
前記認識手段による認識結果として得られた情報の妥当性を判断する判断手段と、
前記判断手段による判断結果に基づいて、前記認識手段により認識結果として得られた情報を修正する修正手段とを有し、
前記予測手段が、前記認識手段による認識結果に基づいて予測を行ない、前記修正手段による当該認識結果の修正結果に基づいて再度予測を行なうことを特徴とする情報処理装置。 - 前記予測手段が、前記認識手段における次の認識対象となる情報の種類について予測することを特徴とする請求項1に記載の情報処理装置。
- 前記認識手段により認識結果として得られた情報を解析する解析手段を有し、先の認識対象の認識結果を当該該解析手段により解析した結果に基づいて前記予測手段が予測を行なうことを特徴とする請求項1に記載の情報処理装置。
- 前記認識手段が、認識結果として複数の候補を出力可能であり、前記予測手段は、先の認識対象の認識結果として複数の候補が出力された場合には、当該複数の候補のそれぞれに対する次の認識対象について予測することを特徴とする請求項1に記載の情報処理装置。
- 前記予測手段は、次の認識対象として入力される可能性の高い候補を予測し、前記認識手段は、前記予測手段により入力される可能性が高いと予測された候補の中から認識結果を選出することを特徴とする請求項1に記載の情報処理装置。
- 前記予測手段は、次の認識対象として入力される可能性の低い候補を予測し、前記認識手段は、前記予測手段により入力される可能性が低いと予測された候補を認識候補から除外することを特徴とする請求項1に記載の情報処理装置。
- 音声情報を入力する入力手段と、
該入力手段より入力された音声情報の属性を判別する判別手段とを有し、
該判別手段の判別結果に基づいて、前記認識手段が特定の属性の音声情報を認識することを特徴とする請求項1に記載の情報処理装置。 - 前記判別手段は、前記音声情報が言語情報か非言語情報かを判別することを特徴とする請求項7に記載の情報処理装置。
- 前記非言語情報は、笑い声を含むことを特徴とする請求項8に記載の情報処理装置。
- 前記非言語情報は、電話の音または警報音を含むことを特徴とする請求項8に記載の情報処理装置。
- 前記判別手段は、機械の音と人間の声とを判別することを特徴とする請求項7に記載の情報処理装置。
- 前記判別手段は、周波数の違いに基づいて、機械の音と人間の声とを判別することを特徴とする請求項11に記載の情報処理装置。
- 前記認識手段は、単語、音節、または音素を認識単位として自然言語の音声情報を認識することを特徴とする請求項1に記載の情報処理装置。
- 前記認識手段が音節または音素を認識単位とする場合、前記予測手段は、次の認識対象となる音節または音素を含む単語を予測し、当該予測された単語に基づいて、次の認識対象となる音節または音素を予測することを特徴とする請求項13に記載の情報処理装置。
- 前記認識単位を以前の認識結果の良否に基づいて選択する選択手段を有することを特徴とする請求項13に記載の情報処理装置。
- 前記知識ベースが、自然言語の情報における叙述の規則を含む言語知識を有することを特徴とした請求項1に記載の情報処理装置。
- 前記知識ベースが、ドメインに関する知識を有し、前記予測手段が、前記ドメインに関する知識に基づいて、特定のドメインに属する情報を次の認識対象となる音声情報として予測することを特徴とした請求項1に記載の情報処理装置。
- 前記認識手段による認識結果が処理命令である場合に、当該処理命令に対応する処理を実行する処理手段を備えたことを特徴とした請求項1に記載の情報処理装置。
- 前記予測手段は、先の動作に基づいて次の認識対象となる音声情報について予測を行なうことを特徴とした請求項1に記載の情報処理装置。
- 前記予測手段は、先の動作に基づいて次の動作を予測し、次の動作に基づいて次の認識対象となる音声情報について予測を行なうことを特徴とした請求項19に記載の情報処理装置。
- 前記予測手段は、先の動作に基づいて次の動作が予測できない場合、特定の動作を次の動作として予測することを特徴とした請求項19に記載の情報処理装置。
- 認識対象について記憶部に記憶された予測情報に基づいて音声情報を認識する認識工程と、
音声情報の種類に関する知識を記憶する知識ベースに記憶された知識を参照し、前記認識工程による先の認識対象の認識結果に基づいて、当該認識工程における次の認識対象となる音声情報について予測を行なう予測工程と、
該予測工程による予測結果に基づいて前記記憶部に記憶された予測情報を更新する更新工程と、
前記認識工程による認識結果として得られた情報の妥当性を判断する判断工程と、
前記判断工程による判断結果に基づいて、前記認識工程により認識結果として得られた情報を修正する修正工程とを有し、
前記予測工程では、前記認識工程による認識結果に基づいて予測を行ない、前記修正工程による当該認識結果の修正結果に基づいて再度予測を行なうことを特徴とする情報処理方法。 - 認識対象について記憶部に記憶された予測情報に基づいて音声情報を認識する認識工程と、
音声情報の種類に関する知識を記憶する知識ベースに記憶された知識を参照し、前記認識工程による先の認識対象の認識結果に基づいて、当該認識工程における次の認識対象となる音声情報について予測を行なう予測工程と、
該予測工程による予測結果に基づいて前記記憶部に記憶された予測情報を更新する更新工程と、
前記認識工程による認識結果として得られた情報の妥当性を判断する判断工程と、
前記判断工程による判断結果に基づいて、前記認識工程により認識結果として得られた情報を修正する修正工程とを備え、
前記予測工程では、前記認識工程による認識結果に基づいて予測を行ない、前記修正工程による当該認識結果の修正結果に基づいて再度予測を行なうことを特徴とするコンピュータ読み取り可能な情報処理プログラムを記憶した記憶媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20152899A JP4438028B2 (ja) | 1998-07-27 | 1999-07-15 | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
US09/356,691 US6598017B1 (en) | 1998-07-27 | 1999-07-20 | Method and apparatus for recognizing speech information based on prediction |
EP99305887A EP0977175B1 (en) | 1998-07-27 | 1999-07-26 | Method and apparatus for recognizing speech using a knowledge base |
DE69928181T DE69928181T2 (de) | 1998-07-27 | 1999-07-26 | Verfahren und Vorrichtung zur Spracherkennung unter Verwendung einer Wissensbasis |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21097998 | 1998-07-27 | ||
JP10-210979 | 1998-07-27 | ||
JP20152899A JP4438028B2 (ja) | 1998-07-27 | 1999-07-15 | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2000105596A JP2000105596A (ja) | 2000-04-11 |
JP2000105596A5 JP2000105596A5 (ja) | 2006-09-07 |
JP4438028B2 true JP4438028B2 (ja) | 2010-03-24 |
Family
ID=26512842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20152899A Expired - Fee Related JP4438028B2 (ja) | 1998-07-27 | 1999-07-15 | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6598017B1 (ja) |
EP (1) | EP0977175B1 (ja) |
JP (1) | JP4438028B2 (ja) |
DE (1) | DE69928181T2 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60132821T2 (de) * | 2000-05-29 | 2009-03-05 | Saora K.K. | System und verfahren zum speichern von navigierten daten |
US6741963B1 (en) * | 2000-06-21 | 2004-05-25 | International Business Machines Corporation | Method of managing a speech cache |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
US20020147775A1 (en) * | 2001-04-06 | 2002-10-10 | Suda Aruna Rohra | System and method for displaying information provided by a provider |
JP4581290B2 (ja) * | 2001-05-16 | 2010-11-17 | パナソニック株式会社 | 音声認識装置および音声認識方法 |
JP2003337699A (ja) * | 2002-03-13 | 2003-11-28 | Saora Inc | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
US20030195896A1 (en) * | 2002-04-15 | 2003-10-16 | Suda Aruna Rohra | Method and apparatus for managing imported or exported data |
JP4056298B2 (ja) * | 2002-05-28 | 2008-03-05 | 独立行政法人理化学研究所 | 言語コンピュータ、言語処理方法、ならびに、プログラム |
EP1630692A4 (en) * | 2003-05-19 | 2007-04-11 | Saora Kabushiki Kaisha | ASSOCIATED INFORMATION PROCESSING METHOD, APPARATUS AND PROGRAM |
JP4012143B2 (ja) * | 2003-12-16 | 2007-11-21 | キヤノン株式会社 | 情報処理装置およびデータ入力方法 |
US7689404B2 (en) * | 2004-02-24 | 2010-03-30 | Arkady Khasin | Method of multilingual speech recognition by reduction to single-language recognizer engine components |
US7505906B2 (en) * | 2004-02-26 | 2009-03-17 | At&T Intellectual Property, Ii | System and method for augmenting spoken language understanding by correcting common errors in linguistic performance |
JP2006053745A (ja) * | 2004-08-11 | 2006-02-23 | Saora Inc | データ処理方法及びその装置、及びそのプログラム |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
JP4613284B2 (ja) * | 2005-03-25 | 2011-01-12 | 株式会社国際電気通信基礎技術研究所 | コミュニケーションロボットおよびそれを用いた動作識別システム |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9961442B2 (en) | 2011-11-21 | 2018-05-01 | Zero Labs, Inc. | Engine for human language comprehension of intent and command execution |
WO2013078401A2 (en) * | 2011-11-21 | 2013-05-30 | Liveweaver, Inc. | Engine for human language comprehension of intent and command execution |
US20130307855A1 (en) * | 2012-05-16 | 2013-11-21 | Mathew J. Lamb | Holographic story telling |
US9070366B1 (en) * | 2012-12-19 | 2015-06-30 | Amazon Technologies, Inc. | Architecture for multi-domain utterance processing |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10873545B2 (en) * | 2017-06-12 | 2020-12-22 | Microsoft Technology Licensing, Llc | Automatic action responses |
US11556548B2 (en) | 2017-08-08 | 2023-01-17 | Microsoft Technology Licensing, Llc | Intelligent query system for attachments |
US11763821B1 (en) | 2018-06-27 | 2023-09-19 | Cerner Innovation, Inc. | Tool for assisting people with speech disorder |
JP2021131472A (ja) * | 2020-02-20 | 2021-09-09 | ソニーグループ株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4896358A (en) * | 1987-03-17 | 1990-01-23 | Itt Corporation | Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems |
JPS6488600A (en) * | 1987-09-30 | 1989-04-03 | Toshiba Corp | Word voice recognition equipment based on monosyllabic enunciation |
JP2955297B2 (ja) | 1988-05-27 | 1999-10-04 | 株式会社東芝 | 音声認識システム |
US4937870A (en) | 1988-11-14 | 1990-06-26 | American Telephone And Telegraph Company | Speech recognition arrangement |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
JPH0580793A (ja) * | 1991-09-20 | 1993-04-02 | Kokusai Denshin Denwa Co Ltd <Kdd> | 単語予測機能付き対話理解装置 |
US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
US5233681A (en) * | 1992-04-24 | 1993-08-03 | International Business Machines Corporation | Context-dependent speech recognizer using estimated next word context |
JPH0689302A (ja) * | 1992-09-08 | 1994-03-29 | Hitachi Ltd | 辞書メモリ |
US5764852A (en) * | 1994-08-16 | 1998-06-09 | International Business Machines Corporation | Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events |
JPH08137842A (ja) | 1994-11-08 | 1996-05-31 | Canon Inc | 言語情報処理システム及びその方法 |
JPH08167006A (ja) * | 1994-12-13 | 1996-06-25 | Canon Inc | 自然言語処理装置及びその方法 |
EP0720090A2 (en) | 1994-12-28 | 1996-07-03 | Canon Kabushiki Kaisha | Information processing system for completing or resolving ambiguity of input information and method therefor |
US5903864A (en) * | 1995-08-30 | 1999-05-11 | Dragon Systems | Speech recognition |
-
1999
- 1999-07-15 JP JP20152899A patent/JP4438028B2/ja not_active Expired - Fee Related
- 1999-07-20 US US09/356,691 patent/US6598017B1/en not_active Expired - Lifetime
- 1999-07-26 DE DE69928181T patent/DE69928181T2/de not_active Expired - Lifetime
- 1999-07-26 EP EP99305887A patent/EP0977175B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0977175A3 (en) | 2000-08-09 |
EP0977175A2 (en) | 2000-02-02 |
EP0977175B1 (en) | 2005-11-09 |
DE69928181D1 (de) | 2005-12-15 |
JP2000105596A (ja) | 2000-04-11 |
DE69928181T2 (de) | 2006-07-13 |
US6598017B1 (en) | 2003-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4438028B2 (ja) | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 | |
US8909529B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
US8180647B2 (en) | Automated sentence planning in a task classification system | |
Kitano | Phi DM-Dialog: an experimental speech-to-speech dialog translation system | |
AU2005285108B2 (en) | Machine learning | |
JP3454897B2 (ja) | 音声対話システム | |
EP0384584A2 (en) | A chart parser for stochastic unification grammar | |
US20050137868A1 (en) | Biasing a speech recognizer based on prompt context | |
US20200286471A1 (en) | System to convert phonemes into phonetics-based words | |
Rabiner et al. | Speech recognition: Statistical methods | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
US20060136195A1 (en) | Text grouping for disambiguation in a speech application | |
US6735560B1 (en) | Method of identifying members of classes in a natural language understanding system | |
Di Fabbrizio et al. | AT&t help desk. | |
Seide et al. | Towards an automated directory information system. | |
Kitano | ΦDmDialog: A speech-to-speech dialogue translation system | |
JPH07261793A (ja) | 対話処理装置 | |
De Mori et al. | A probabilistic approach to person-robot dialogue | |
Koumpis | Automatic voicemail summarisation for mobile messaging | |
Niesler et al. | Natural language understanding in the DACST-AST dialogue system | |
Bharthi et al. | Unit selection based speech synthesis for converting short text message into voice message in mobile phones | |
Żelasko et al. | Towards Better Understanding of Spontaneous Conversations: Overcoming Automatic Speech Recognition Errors With Intent Recognition | |
Yan et al. | Context directed speech recognition in dialogue systems | |
Rahmathulla et al. | BMAC DLA-A Novel Approach to SpeechH Recognition | |
Lamont et al. | A unified stochastic architecture for Spoken Dialogue Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060718 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091222 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091226 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140115 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |