JP4901155B2 - 音声認識装置が使用するのに適した文法を生成するための方法、媒体、およびシステム - Google Patents

音声認識装置が使用するのに適した文法を生成するための方法、媒体、およびシステム Download PDF

Info

Publication number
JP4901155B2
JP4901155B2 JP2005231245A JP2005231245A JP4901155B2 JP 4901155 B2 JP4901155 B2 JP 4901155B2 JP 2005231245 A JP2005231245 A JP 2005231245A JP 2005231245 A JP2005231245 A JP 2005231245A JP 4901155 B2 JP4901155 B2 JP 4901155B2
Authority
JP
Japan
Prior art keywords
grammar
generating
representation
rules
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005231245A
Other languages
English (en)
Other versions
JP2006085160A (ja
JP2006085160A5 (ja
Inventor
アセロ アレハンドロ
アラン コリンズ レオナルド
エル.セシイス マーク
イエ−イ ワン
ユン−チェン ジュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006085160A publication Critical patent/JP2006085160A/ja
Publication of JP2006085160A5 publication Critical patent/JP2006085160A5/ja
Application granted granted Critical
Publication of JP4901155B2 publication Critical patent/JP4901155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Display Devices Of Pinball Game Machines (AREA)

Description

本発明は、音声認識(speech recognition)に関する。より詳細には、本発明は、アルファニューメリック概念のための音声認識文法を自動的に作成することに関する。
音声認識システムは、会社および組織によってコストを低減し、顧客サービスを改善し、かつ/またはタスクを完全または部分的に自動化するためにますます使用されるようになりつつある。かかるシステムは、スタンドアロンデスクトップマシンから、ネットワークデバイス、およびモバイルハンドヘルドコンピューティングデバイスに至るまで種々様々なコンピューティングデバイス上で使用されてきている。音声認識は、アプリケーション開発者のための自然のユーザインターフェースを実現する。例えば、ハンドヘルドモバイルデバイスなどのコンピューティングデバイスでは、完備したアルファニューメリックキーボードは、コンピューティングデバイスのサイズをかなり大きくすることなしには非現実的である。したがって、音声認識により、小型のデバイスのための便利な入力方法がもたらされ、またユーザは、単なる電話を介してなどリモートにコンピュータにアクセスすることができるようになる。
もし必要でないにしても、音声認識がより広く受け入れられるとともに、柔軟な、正確な、音声機能可能なアプリケーションを速やかに効率的に作成する必要が存在している。かかるシステムでは、このシステムとユーザの間の混合主導対話(mixed initiative dialog)が可能になるので、話し言葉理解モデル(spoken language understanding model)を対象とする研究では、柔軟性が実現されてきている。かかるシステムおよび研究では、複数のフレーズ意味ユニット(phrasal semantic unit)(スロット)、例えば、飛行機旅行情報システム(Air Travel Information System)のドメインにおける「$400以下の費用のシアトルからボストンへの火曜日のフライトをリストアップする」のような「ショーフライト(ShowFlight)」コマンドを含むコマンドのモデリングにおいて精度が達成されてきているが、そこでは、日付、時間、クレジットカード番号、フライト番号などのような低レベルの概念についてのフレーズモデルの獲得は、ほとんど研究されていない。その代わりに、これらのシステムおよび研究では、解決方法についての文法ライブラリおよびデータベース入力(例えば、アプリケーションデータベースからの都市名)に頼ってきた。
W3C, "XML Schema Part 2: Datatypes W3C Recommendation 02 May 2001" available at www.w3.org/TR/xmlschema-2/
それにもかかわらず、これまで展開されている大多数の話し言葉システムは、システム主導指向の対話システムである。かかるシステムにおいては、文法開発努力のほとんどが、この低レベル概念に向けられている。文法ライブラリおよびデータベース入力は、実行可能な解決方法であるが、これらでは、この問題が完全に解決されなかった。例えば、文法ライブラリ開発者は、これらにとってのすべての可能性のあるドメイン特有の概念およびあらかじめ構築された文法を予測することはできない。さらに、このデータベース入力の綴りの正しい形式では、この音声認識文法としての役割を果たすのに十分でないことがしばしばある。例えば、適切な音声認識文法では、アルファニューメリックストリングについての様々な代替発話表現をモデル化する必要がある。アプリケーションが、部品番号を認識する必要があり、「ABB123」は、この部品番号の1つであると仮定する。この音声機能可能システムは、たとえこの部品番号が、「A B B one two three」や「A double B one twenty three」など異なる方法で発話されるとしても、この部品番号を認識できる必要がある。
したがって、部品番号および運転免許番号のようなアルファニューメリック概念についての文法開発は、これらの最も困難なタスクの1つであることがよく認識されよう。1つの試みは、1状態有限状態モデルに基づいた簡単な文法を使用することであった。かかるモデルは、各キャラクタ(A〜Z)および各ディジット(0〜9)についてのループを有する。しかし、このモデルは、一般にこの文法がこのターゲット部分言語の特異性を捕捉しないことを含む理由から、あまり良好に機能しない。したがって、このモデルの混乱は、必要以上にずっと大きくなってしまう。例えば、部品番号が、文字「B」から常に開始されることが分かっている場合、この文法は、この制約条件を明示的にモデル化し、その結果、「E」を「D」、「E」、「G」、および「P」と混同する認識エラーが決して起こらないようにする必要がある。
さらに、この簡単な文法は、多くのタイプのストリングについての言語表現の多様性をモデル化してはいない。以上の実施例においては、「ABB123」の一部分「ABB」も一部分「123」も共に、その多くが簡単な文法によってモデル化されない、異なるけれども非常に一般的な方法で提供することができる。
さらに、「−」、「*」などのような特殊キャラクタが、部品番号のようなアルファニューメリックシーケンス中にしばしば現れることがある。これにより、一般的なアルファニューメリック文法が、かかるケースではカスタマイズされる必要があるはずである。
前述の問題の観点から、開発者はしばしば、特定のアルファニューメリック概念についての開発者自身の文法を書くように強いられることがある。このプロセスは、退屈で間違いを起こしやすい。文法ライブラリとは違って、あまり経験のない開発者が書く文法は、しばしば最適化されていないことがあり、したがってデコーダ(decoder)が使用するときのパフォーマンスが悪くなる。
したがって、前述の必要性の1つ、一部、または全部に対処するアルファニューメリック文法を生成するためのシステムまたは方法は、有益となるはずである。
音声認識装置で使用するのに適した文法を生成する方法およびシステムは、アルファニューメリック表現の表現を受け取るステップを含んでいる。例えば、この表現は、正規表現またはマスクの形式を取ることができる。この文法は、この表現に基づいて生成される。このようにして、開発者は、例えば、このアルファニューメリック表現についての正規表現を提供することが可能であり、このシステムは、自動的にこの文法を構築する。
さらなる実施形態においては、この文法は、代替的なキャラクタ発話表現(例えば、共に「0」について発することができる「zero」または「oh」)、および/または代替的なキャラクタシーケンス発話表現(例えば、共に「AA」について発することができる「A A」または「double A」)の認識についてのルールに適したものにすることができる。かかるケースにおいては、この文法を修正して正規化情報を提供し、その結果音声認識装置がこの文法を使用して正規化出力を出力できるようにすることも可能である。さらに他の実施形態においては、この文法は、プレフィックス(prefix)最適化を用いて構築される。
この文法の品質は、最終的にはこの表現が提供される方法によって決まるが、本明細書中で説明している方法およびシステムでは、特に特定のアプリケーションに特有となり得るアルファニューメリック表現についての文法開発の困難なタスクからこれらの開発者が解放される。このようにして、アルファニューメリック表現のための文法は、より速く文法開発者の特有の専門知識なしに開発することができる。
本発明は、アルファニューメリック概念またはアルファニューメリック表現についての文法を生成するためのシステム、モジュールおよび方法に関する。しかし、本発明をより詳細に説明するのに先立って、本発明を使用することができる例示の一環境についてまず説明することにする。
例示の動作環境
図1は本発明を実装することができる適切なコンピューティングシステム環境100の一実施例を示している。このコンピューティングシステム環境100は、適切なコンピューティング環境の一実施例にすぎず、本発明の用途または機能の範囲についてどのような限定を示唆することも意図してはいない。また、コンピューティング環境100は、例示の動作環境100中に示されるコンポーネントの任意の1つまたは組合せに関連したどのような依存性または要件を有するものとも解釈すべきではない。
本発明は、非常に多くの他の汎用または専用のコンピューティングシステムの環境またはコンフィギュレーションを用いて、動作することが可能である。本発明と共に使用するのに適したものとすることができるよく知られているコンピューティングシステム、コンピューティング環境、および/またはコンピューティングコンフィギュレーションの実施例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルな大衆消費電子製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのうちの任意のものを含む分散コンピューティング環境などが含まれる。
本発明は、コンピュータが実行する、プログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールは、個々のタスクを実施し、または個々の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含んでいる。当業者なら、本明細書中の説明および/または図面をコンピュータ実行可能命令として実装することができ、これらの命令については、以下で説明する任意の形態のコンピュータ読取り可能媒体上で実施することができる。
本発明はまた、タスクが、通信ネットワークを介してリンクされるリモート処理デバイスによって実施される分散コンピューティング環境において実施することもできる。分散コンピューティング環境においては、プログラムモジュールは、メモリストレージデバイスを含めて、ローカルコンピュータストレージ媒体中にもリモートコンピュータストレージ媒体中にも配置することができる。
図1を参照すると、本発明を実装する例示のシステムは、コンピュータ110の形態の汎用コンピューティングデバイスを含んでいる。コンピュータ110のコンポーネントは、それだけには限定されないが、処理装置120、システムメモリ130、およびこのシステムメモリを含めて様々なシステムコンポーネントを処理装置120に結合するシステムバス121を含むことができる。システムバス121は、メモリバスまたはメモリコントローラ、ペリフェラルバス、および様々なバスアーキテクチャのうちのどれかを使用したローカルバスを含めて、いくつかのタイプのバス構造のうちのどれにすることもできる。実施例として、限定するものではないが、かかるアーキテクチャは、ISA(Industry Standard Architecture業界標準アーキテクチャ)バス、MCA(Micro Channel Architectureマイクロチャネルアーキテクチャ)バス、EISA(Enhanced ISA拡張ISA)バス、VESA(Video Electronics Standards Associationビデオエレクトロニクス規格協会)ローカルバス、およびメザニン(Mezzanine)バスとしても知られているPCI(Peripheral Component Interconnectペリフェラルコンポーネント相互接続)バスを含んでいる。
コンピュータ110は、一般的に様々なコンピュータ読取り可能媒体を含んでいる。コンピュータ読取り可能媒体は、コンピュータ110がアクセスすることができる使用可能な任意の媒体とすることができ、揮発性媒体も不揮発性媒体も、着脱可能媒体も着脱不能媒体も含んでいる。実施例として、限定するものではないが、コンピュータ読取り可能媒体は、コンピュータストレージ媒体および通信媒体を含むことができる。コンピュータストレージ媒体は、コンピュータ読取り可能命令、データ構造、プログラムモジュール、他のデータなどの情報の記憶のための任意の方法または技術で実装される揮発性媒体も不揮発性媒体も、着脱可能媒体も着脱不能媒体も含んでいる。コンピュータストレージ媒体は、それだけには限定されないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、DVD(digital versatile diskデジタル多用途ディスク)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは所望の情報を記憶するために使用することができ、コンピュータ110によってアクセスすることができる他の任意の媒体を含んでいる。通信媒体は、一般的に搬送波WAVや他の搬送メカニズムなどの被変調データ信号の形のコンピュータ読取り可能命令、データ構造、プログラムモジュールまたは他のデータを実施し、任意の情報配信媒体を含んでいる。この用語「被変調データ信号」は、その1つまたは複数の特性が、その信号中の情報を符号化するようにして設定または変更されている信号を意味する。実施例として、限定するものではないが、通信媒体は、有線ネットワークや直接配線接続などの有線媒体と、音響、RF、赤外線、他の無線媒体などの無線媒体を含んでいる。以上のうちの任意の組合せもまた、コンピュータ読取り可能媒体の範囲内に含められるべきである。
システムメモリ130は、ROM(read only memory読取り専用メモリ)131やRAM(random access memoryランダムアクセスメモリ)132など、揮発性メモリおよび/または不揮発性メモリの形態のコンピュータストレージ媒体を含んでいる。起動中などにコンピュータ110内のエレメント間で情報を転送する助けをする基本ルーチンを含むBIOS(basic input/output system基本入出力システム)133は、一般的にROM131に記憶される。RAM132は一般的に、処理装置120にとって直接にアクセス可能であり、または処理装置120によって現在動作させられており、あるいはその両方が行われるデータおよび/またはプログラムモジュールを含んでいる。実施例として、限定するものではないが、図1は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示している。
コンピュータ110は、他の着脱可能/着脱不能な、揮発性/不揮発性のコンピュータストレージ媒体を含むこともできる。実施例にすぎないが、図1は、着脱不能な不揮発性磁気媒体から情報を読み取り、それに情報を書き込むハードディスクドライブ141、着脱可能な不揮発性磁気ディスク152から情報を読み取り、それに情報を書き込む磁気ディスクドライブ151、ならびにCD−ROMや他の光媒体など着脱可能な不揮発性光ディスク156から情報を読み取り、またはそれに情報を書き込む光ディスクドライブ155を示している。この例示の動作環境中で使用することができる他の着脱可能/着脱不能な、揮発性/不揮発性のコンピュータストレージ媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は、一般的にインターフェース140などの着脱不能メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、一般的にインターフェース150など着脱可能なメモリインターフェースによってシステムバス121に接続される。
前述の図1に示すこれらのドライブおよびこれらに関連するコンピュータストレージ媒体は、コンピュータ110のためのコンピュータ読取り可能命令、データ構造、プログラムモジュール、および他のデータのストレージを提供する。図1において、例えばハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を記憶するものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じまたは異なるものとすることが可能であることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147には、少なくともこれらが異なるコピーであることを示すためにここでは異なる番号が付与されている。
ユーザは、キーボード162、マイクロフォン163や、マウス、トラックボール、タッチパッドなどのポインティングデバイス161などの入力デバイスを介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)は、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどを含むことができる。これらおよび他の入力デバイスはしばしば、このシステムバスに結合されるユーザ入力インターフェース160を介して処理装置120に接続されるが、これらは、パラレルポート、ゲームポート、USB(universal serial busユニバーサルシリアルバス)など他のインターフェースおよびバス構造によって接続することもできる。モニタ191または他のタイプのディスプレイデバイスもまた、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。このモニタに追加して、コンピュータはまた、スピーカ197やプリンタ196など他のペリフェラル出力デバイスを含むこともでき、これらの出力デバイスは、出力ペリフェラルインターフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータに対する論理接続を使用してネットワーク環境中で動作することもできる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の共通ネットワークノードとすることができ、一般的にコンピュータ110に関連して以上で説明したエレメントの多くまたはすべてを含んでいる。図1に示す論理接続は、LAN(local area networkローカルエリアネットワーク)171およびWAN(wide area networkワイドエリアネットワーク)173を含んでいるが、他のネットワークを含むこともできる。かかるネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいて、一般的なものである。
LANネットワーキング環境中で使用されるときには、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境中で使用されるときには、コンピュータ110は、一般的にインターネットなどのWAN173上で通信を確立するためのモデム172または他の手段を含んでいる。モデム172は、内蔵または外付けとすることができるが、ユーザ入力インターフェース160または他の適切なメカニズムを介してシステムバス121に接続することができる。ネットワーク環境においては、コンピュータ110に関連して示すプログラムモジュール、またはその一部分は、このリモートメモリストレージデバイスに記憶することもできる。実施例として限定するものではないが、図1は、リモートアプリケーションプログラム185をリモートコンピュータ180上に存在するものとして示している。図に示すこれらのネットワーク接続は、例示的なものであり、コンピュータ間で通信リンクを確立する他の手段を使用することもできることが理解されよう。
本発明は、図1に関して説明しているようなコンピュータシステム上で実行することができることに留意されたい。しかし、本発明は、サーバ上、メッセージハンドリング専用のコンピュータ上、あるいは本発明の異なる部分がこの分散コンピューティングシステムの異なる部分上で実行される分散システム上でも実行することができる。
文法生成システム
以上で指摘したように、本発明の一態様は、文法オーサリング経験がほとんどない開発者が、部品番号、運転免許などのアルファニューメリック概念またはアルファニューメリック表現のための高いパフォーマンスの音声文法を構築することを可能にするためのシステムおよび方法を含んでいる。これらのタイプの表現は、多くのタイプのアプリケーションにおいて存在している。しかし、これらの表現は、一般的にそのアプリケーションに特有であり、したがって、多くのタイプのアプリケーションにまたがって使用されるライブラリ文法の形であらかじめ構築しておける可能性はあまりない。
図2は、例えば前述の動作環境の形態のうちのどの上でも動作することが可能な文法生成モジュール200を示している。一般に、文法生成モジュール200は、認識すべきアルファニューメリック概念またはアルファニューメリック表現のタイプを示す表現を受け取る。この表現は一般に、認識すべきアルファニューメリック表現が含み得るキャラクタおよびそれらキャラクタのお互いの相対的なロケーションを指定する。別の言い方をすれば、この表現は、認識すべきアルファニューメリック表現についての制約条件を指定する。この表現は、それだけには限定されないが、例えばW3Cによって定義される「正規表現」(例えば、非特許文献1参照)など、この情報を表現する多数の形式を取ることができ、この正規表現については、以下で実施例として使用することになる。他の形態においては、この表現は、「マスク」の形式を取ることができ、このマスクにより、このユーザは、認識すべきアルファニューメリック表現についてのパターンを詳細に定義することができるようになる。
文法生成モジュール200は、この表現を受け取り、この表現を処理して所望のアルファニューメリック表現を認識するのに適した文法202を作成する。文法生成モジュール200は、1つまたは複数の形式の表現を処理するのに適したものとすることができる。しかし、認識すべきアルファニューメリック表現が取ることができる一般的に明確な形式を考慮して、表現の1つまたは複数の形式を受け入れ、文法生成モジュール200が受け取るように設計された1つの形式へとすべての形式の表現を変換するオプションのコンバータ204を使用することが可能である。
実施例として、文法生成モジュール200については、W3Cによって定義された正規表現を処理するものとして説明することにする。この規格の簡単なレビューが、助けになる可能性がある。W3C規格は、正規表現についての以下の形式的定義を有する。
regExp ::= branch ( '|' branch )*
branch ::= pieces*
piece ::= atom quantifier?
atom ::= char|charClass|('(' regExp ')')
この定義によれば、正規表現は、1つまたは複数のオルタネート(alternate)(ブランチ)から構成され、ここで、オルタネートは、「|」によって区切られる。各ブランチは、ピース(piece)のシーケンスから構成される。各ピースは、オプションとして定量化されるアトム(atom)である。この数量詞(quantifier)は、このアトムの反復を指定する。この数量詞は、数字(例えば、{3})、数字の範囲(例えば、{0−3})、または予約キャラクタ(例えば、複数回についての「+」、または0回以上についての「*」)とすることが可能である。このアトムは、キャラクタ、キャラクタクラス(例えば、すべての大文字英字についての[A−Z]、または10ディジット[0−9]についての\d)、または再帰的に挿入された正規表現とすることができる。
再帰的正規表現アトムを有する正規表現は、再帰的アトムのない正規表現に変換することができることに留意されたい。例えば、「(\d{3}|[A−Z]){2}C」は、「\d{3}[A−Z]C|\d{6}C|[A−Z]\d{3}C|[A−Z]{2}C」が定義するのと同じ言語を定義する。以下で説明するアルゴリズムは、再帰的正規表現アトムのない正規表現を処理する。したがって、再帰的正規表現がこの表現中に存在する場合には、適切な変換が必要になるはずである。
また、本説明の目的であり、以下の変換アルゴリズム中において使用するためではないが、「ブランチ」および「ピース」はまた、マスクの形式の表現の処理にも適用されることになる。例えば、部品番号についてのマスクが「&##−###−&&&」の形式であり、ここで「&」が集合{A−Z}のうちの任意のキャラクタを表し、「#」がディジット{0−9}のうちの任意のディジットを表すものと仮定すると、この「ピース」は、「&##」、「###」および「&&&」を含んでおり、一方この「アトム」は、任意の「&」、「#」または「−」を含んでいることになる。
変換アルゴリズム
以下の擬似コードは、正規表現(regexp)が定義する所望のアルファニューメリック表現の認識について適合化された文法「gram」を取得するための表現(本明細書中では、正規表現、すなわち「regexp」)を処理するための例示の実施形態である。この擬似コード中に含まれるモジュール、および図2におけるその対応する表現については、限定的であると考えるべきではない。擬似コードも図2のブロック図も共に、処理概念を説明するために部分的に提供されており、これらの形式は、限定的であると考えるべきではない。当業者なら理解されるように、処理は、最終結果に影響を与えることなく、異なるステップまたは順序の変更を使用して実施することができる。さらに、図2のモジュールが実施する処理は、本発明の態様を逸脱することなく、他のモジュールへと分離し、または図に示すモジュールまたは他のモジュールと結合し、あるいはその両方を行うことができる。
Figure 0004901155
Figure 0004901155
Figure 0004901155
Figure 0004901155
前述の擬似コードは、この正規表現解析モジュール(regular expression parsing module)206が、そのコンポーネントにアクセスするメソッドを有することを想定していることに留意されたい。例えば、メソッドbranches( )は、この正規表現中のブランチのリストを戻すが、メソッドpieces( )は、正規表現におけるブランチのブランチ中のピースのリストを戻す。この擬似コードはまた、rule_tokenのアレイとしてのルールの右辺を表す。各rule_tokenは、シンボルが、その書換えルールにおいて最小回から最大回まで反復することを指定するタプル(シンボル、最小、最大)である。
また、表現を処理するための方法300を示す図3を参照すると、処理が、ステップ302から開始され、文法生成モジュール200がこの表現を受け取る。次いでステップ304において、この表現が、解析モジュール206によって解析されて、この表現のサブグループ(すなわち、ブランチ)が識別される。一般的に、ブランチは、「|」などの分離キャラクタによって決定される。
これらのブランチが識別されると共に、この例示の実施形態において、各ブランチを処理して文法202についてのルールが生成され、ここで各ブランチの各ピースが、特に処理される。このステップは、図3の306中に示されているが、ブランチ処理は、図2におけるブランチルール生成モジュール(branch rule generator module)208によってもたらされ、ピース処理は、ピースルール生成モジュール(piece rule generator module)210によってもたらされる。さらに広い専門用語で述べれば、ブランチルール生成モジュール208は、この表現の識別されたブランチについての代替ルールを生成するが、ピースルール生成モジュール210は、最初に述べた各ブランチのより小さな部分(ピース)についてのルールを生成する。一般的に、この正規表現解析モジュールは、区切り記号「−」、「/」、空白スペースなどによって分離されるピースを識別する。
図2において、ブランチルール生成モジュール208およびピースルール生成モジュール210からの処理結果は、文法202にルールを追加するルール追加モジュール212に提供される。
以上のこの変換アルゴリズムに関して、第1の(主要な)ファンクションcreate_regexp_grammar(ライン1〜9)は、第2のファンクションcreate_branch_grammar(ライン10〜21)を呼び出して、この入力正規表現の各ブランチについてのルールを作成し、このルールを追加しており、このルールは、これらのブランチについての(このアルゴリズムが生成する)「シンボル」にこのルートシンボルを再書込みする。この第2のファンクションcreate_branch_grammarは、第3のファンクションcreate_piece_grammar(ライン22〜41)を呼び出して、ブランチ中の各ピースについてのルールを作成し、このルールを追加しており、このルールは、このブランチシンボルをこのピースシーケンスに再書込みする(すなわち、これらのピースを一緒に連結する)。ある表現が、「−」またはピース区切り記号として使用される他のキャラクタを含んでいる場合、この表現はまた、ピースと考えられ、特にこれらのピースが一緒に連結されるときには、一般的にオプションのピースと考えられることに留意されたい。したがって、「AXD−134」を含む部品番号については、ユーザは、「A X D dash one two three」または「A X D one two three」(すなわち、ダッシュは、発話されない)と言う可能性もあるが、この文法は、これらの発話を同等に考えることになる。ダッシュ、スラッシュなどのキャラクタは、これらの文法ルールにおいてはオプションとして実施されることに留意されたい。
この第3のファンクションcreate_piece_grammarは、ピースについてのルールを作成する。ルールは、ファンクションgram.add.rule(LHS,RHS)によって追加され、ここでLHSおよびRHSは、ルールの左辺および右辺を示す。
ピース処理は、オプションとして、アルファニューメリック表現の多数の形式中に存在することもある一部の類似性を利用することができる。例えば、1つまたは複数のディジットシーケンスの発話変化の認識が、よく理解される。したがって、「AXD−134」を含む部品番号では、ユーザは、「A X D one three four」、「A X D one thirty four」、「A X D one hundred and thirty four」などと言う可能性もある。「\d3」としての正規表現中で、ピースとして表される数字シーケンスまたはディジットセット「134」は、この場合にピースルール生成モジュール210で識別することができ、ここでピースルール生成モジュール210は、文法ルールの記憶済みのライブラリ214にアクセスして、このタイプのディジットセットを認識するために使用される文法ルールを取得する。この記憶済みのライブラリ214はまた、例えば「\d{1−3}」などの範囲によって定義されるオプションの長さのディジットセットを認識するための文法ルールを含むこともできる。この記憶済みのライブラリ214は、ディジットセットについての文法ルールだけに限定されることはない。しかし、それが最も一般的な可能性もある。変換アルゴリズムにおいて、ライン26〜34は、このライブラリからルールを取得することによって、ディジットセットを識別し、処理する。
ピース処理が、ライブラリ中の記憶済み文法ルールを有するピースを識別せず、あるいは、処理中のピースがライブラリ214中の記憶済み文法ルールを有するタイプのものでない場合には、このピースの特徴が識別されて、このピースについての文法ルールの豊富な1組がもたらされる。この変換アルゴリズム中では、この処理は、ライン36〜41において制御される。
実施例として、ピース正規表現「[A−C]{1−3}」を使用して、ピースルール生成モジュール210は、このピース中の個々のキャラクタを識別し、対応するルールを生成することができる。しかし、さらに、ピースルール生成モジュールは、これらの各キャラクタについての適切な代替発話表現を識別し、これらの代替キャラクタ発話表現のそれぞれについての文法202中の対応するルールを含むことができる。この変換アルゴリズムにおいて、ライン36〜37で呼び出され、ライン83〜96で指定されるファンクションcreate_charset_grammarは、このキャラクタセットのすべてのエレメントをカバーする文法ルールを作成し、ここで、各キャラクタについてのすべてのキャラクタ表現は、「ケース(case)」ステートメント中で定義され、このケースステートメントについては、実施例として「case‘0’」が提供されている。
ライン88〜92に示すように、ルールが、「0」の発音について「zero」ならびに「oh」としてこの文法に追加される。図に示していない別の実施例では、キャラクタ「A」の発音について「a」または「alpha」として文法ルールが提供されるはずである。図2において、代替キャラクタ発話表現に関連するデータは、216に示されており、ライブラリに記憶し、またはピースルール生成モジュール210中で符号化することができる。
前述のような代替キャラクタ発話表現についてのルールを識別し生成するのに追加して、ピースルール生成モジュール210は、代替キャラクタシーケンス発話表現も識別することができる。以上の実施例「[A−C]{1−3}」を使用して、「A B」、「A」、「A B C」などの表現に加えて、ユーザは、「AA」についての「double A」、または「BBB」についての「triple B」を提供することもできる。この変換アルゴリズムにおいて、ライン42〜82で定義され、ライン39で最初に呼び出され、もし必要ならピース表現に応じて再帰的に呼び出されるファンクションcreate−repeatsは、0回の出現(ライン48〜52)、1回の出現(ライン54〜57)、複数回の出現(ライン58〜80)についてのプレフィックス付き文法ルールを作成する(このファンクションが、ライン64〜70における「double zero」および3回以上の出現(ライン72〜80)のような表現をどのようにモデル化するかについて留意されたい)。もちろん、かかる「4重部」のような代替キャラクタシーケンス発話表現、またはキャラクタシーケンスについての他の任意の発話表現についての他の変形も含めることができる。図2において、代替キャラクタシーケンス発話表現に関連するデータは、218に示されており、ライブラリに記憶し、またはピースルール生成モジュール210中で符号化することができる。
一部のアルファニューメリック表現においては、同一となる一部のピースが存在する。これらのピースが、ディジットセットなど記憶済み文法ライブラリ214中に見出されるような記憶済みの文法ルールセットを有するピースに対応する場合、これらのピースを文法202に追加することができる。しかし、たとえこのピースがライブラリ214中の文法ルールに対応しないとしても、これらのピースは、この表現内で同一になる可能性がある。例えば、表現「[A−Z]{1−2}−\d{2}−[A−Z]{1−2}」において、「[A−Z]{1−2}」は2回出現する。したがって、さらなる実施形態において、ピースルール生成モジュール210は、このピースについてのルールの生成を再び反復する必要がないように、同一のピースを識別し、そのピースの以前の処理から生成された文法ルールを使用するようになっている。この変換アルゴリズムにおいて、この表現が処理されるときに、ハッシュテーブル(ライン43〜46)をメカニズムとして使用して、各ピース部分を追跡するが、他のメカニズムも使用することもできる。この表現のさらなる処理中に同一のピースに出合った場合には、以前に生成済みのルールをコピーすることができる。図2において、この態様は、処理済みのピース部分についてのルールを記憶するライブラリ220によって示されている。
以上で指摘したように、文法202の認識ルールの生成は、「0」についての「zero」および「oh」、「AA」についての「double A」、「23」についての「twenty three」のような代替発話表現についての文法ルールの生成を含んでいる。さらなる実施形態においては、この音声認識装置からの出力が一貫しており、その結果この音声認識装置からの出力を受け取るアプリケーションが、「AA」と「double A」が同等であると見分ける必要がないように正規化も行われる。
第1の実施形態において、正規化は、文法202についてのルールを符号化しまたは書いている間に行うことができる。特に、ルールを生成するピースを処理する際に、ピースルール生成モジュール210を符号化して代替キャラクタ発話表現および代替キャラクタシーケンス発話表現を識別することが好ましいので、このピースルール生成モジュールは、必要に応じて文法202中の正規化情報を提供することができる。実施例として、文法202がXML意味解釈タグを使用してW3CのSRGS(Speech Recognition Grammar Specification音声認識文法仕様)で書かれる場合には、この文法中のタグが、正規化をもたらす。実施例として、このW3C SRGSフォーマットで書かれた「AA」の認識についてのルールは、以下の形式を取ることができる。
Figure 0004901155
式中で、
Figure 0004901155
は、この正規化された出力を示している。この変換アルゴリズムに特に示してはいないが、このアルゴリズムでは、ルールトークンが生成されるときに、意味解釈タグをこのルールトークンに付けることができ、その結果この文法に基づいて取得される認識出力は適切に正規化されるようになる。キャラクタシーケンスについての正規化については、以上で示してきたが、単一キャラクタ、ならびにディジットシーケンスについての正規化も同様にして行うことができる。
図2の例示の実施形態においては、ディジットセットまたはシーケンスについての文法ルールが、開発され、ライブラリ214に記憶されている。したがって、ディジットセットまたは他のピースについての正規化もこれらの文法ルールと共に記憶することができる。
代替実施形態においては、正規化ルールは、文法202とは別に記憶することができる。例えば、正規化は、文法202に関連する正規化マップデータベース226に正規化マッピング(例えば、「A A」「AA」、「double A」「AA」)を記憶することによって実現することができる。この適切な正規化マッピングは、ピース処理中にピースルール生成モジュール210によって実現されるか、あるいは適切なマッピングは、ディジットセットについてなど、対応する記憶済みの文法ルールについてライブラリ214から取得することができる。この形式の正規化では、この文法は、「double A」など、このユーザの実際の発話を示す。しかし、この音声認識装置がこの結果を戻す前に、この音声認識装置は、正規化された形式がこの結果について存在するかどうかを検査して調べ、それが存在する場合にはこの結果を正規化結果で置き換える。この音声認識装置の実装または動作は、これらの各技法によって変化するが、この開発者は、このアルファニューメリック表現の表現を提供する必要があるにすぎず、この場合には、このシステムでは、この開発者が提供する表現が指定するフォーマットに適切に正規化することができる代替発話表現が考慮される。
一実施形態においては、文法202は、プレフィックス最適化を用いて作成される。これにより、認識中に代替仮説を最小限にすることによって、音声認識装置で効率的に機能する文法が実現される。プレフィックス最適化なしでは、文法は別々のルールを含む可能性があり、これについては、図4Aにも図示されている。
S→aB
S→aC
しかし、以上で指摘したように、この音声認識装置が「a」を認識する場合には、この音声認識装置では、2つの仮説「aB」および「aC」を考慮する必要がある。
対照的に、プレフィックス最適化文法においては、これらのルールは、以下の形式の、図4Bに示されるものとなるはずである。
S→aD
D→B
D→C
このようにして、「a」の認識に際しては、この音声認識装置では、1つの仮説、「aD」を考慮する必要があるだけである。
以上の変換アルゴリズムにおいて、この文法を形成するルールは、左辺「LHS」を含む最上位ノード、および右辺「RHS」を形成するアレイとして記憶される他のノードを有する(例えば、図4Bの図表現によって示される形式の)プレフィックスツリーとして記憶される。このようにして、図4Aのルールのようなルールがこの文法に追加されるとき、プレフィックス最適化は、すでに図4Bにおけるプレフィックスツリーを用いて実装されている。この変換アルゴリズムにおいては、ファンクションgram.add.rule( )がこの文法に対してこれらの各ルールを加え、または後に追加しており、これについては図2においてルール追加モジュール212によって示されている。この変換アルゴリズムにおけるように、ルールが最初にプレフィックスツリーとして記憶される場合には、XMLを使用したW3C SRGSフォーマットなど任意の形式の文法への適切な変換を、ルール追加モジュール212によって実装することもできる。
要約すれば、本発明の態様により、アルファニューメリック概念について正規表現やマスクなどの適切な表現から高品質音声認識文法を自動的に構築することができるようになる。自動的文法作成により、開発者は、アプリケーション特有のアルファニューメリック概念について効率的に正確に機能する文法を作成する困難なタスクから解放される。さらなる特徴により、この作成される文法は、プレフィックス構造を使用することによって最適化し、または例えば適切な意味解釈タグを割り当てることによって正規化を行い、あるいはその両方を行うことができるようになる。このようにして、本明細書中で説明するこの方法およびシステムでは、音声認識文法オーサリング経験のほとんどない開発者のための文法開発が非常にスピードアップされる。
特定の実施形態に関して本発明を説明してきたが、本発明の趣旨および範囲を逸脱することなく、形態および詳細において変更を行うことができることが、当業者には理解されよう。
本発明を実施することができる一般的なコンピューティング環境のブロック図である。 アルファニューメリック概念またはアルファニューメリック表現の表現に基づいて文法を生成するためのシステムを概略的に示すブロック図である。 文法を作成するための流れ図である。 プレフィックス最適化が行われていない文法の一部分の図表現である。 プレフィックス最適化が行われた文法の一部分の図表現である。
符号の説明
120 処理装置
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 着脱不能不揮発性メモリインターフェース
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 着脱可能不揮発性メモリインターフェース
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロフォン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力ペリフェラルインターフェース
196 プリンタ
197 スピーカ
200 文法生成モジュール
202 文法
204 オプションのコンバータ
206 解析モジュール
208 ブランチルール生成モジュール
210 ピースルール生成モジュール
212 ルール追加モジュール
214 記憶済み文法ライブラリ
216 代替キャラクタ発話表現
218 代替キャラクタシーケンス発話表現
220 処理済みピースについての記憶済みルール
226 正規化マップデータベース

Claims (21)

  1. 音声認識装置が使用するのに適した文法をコンピュータに生成させる方法であって、
    アルファニューメリック表現の表現を複数のブランチへと解析するステップであって、当該表現は、アルファニューメリック表現とは別であり、アルファニューメリック表現内の1つまたは複数のキャラクタおよび当該1つまたは複数のキャラクタのお互いの相対的なロケーションを指定し、W3Cによって定義される正規表現の形式である、解析するステップと、
    前記ブランチの各々の1つまたは複数のより小さい部分を識別し、前記より小さい部分の各々についての文法ルールを生成するステップとを含み、
    前記より小さい部分の各々についての文法ルールを生成するステップは、より小さい部分の各々に対応するライブラリに記憶した1つまたは複数のルールを識別するステップと、前記ライブラリに記憶した1つまたは複数のルールに基づいて文法ルールを生成するステップとを有し、
    より小さい部分に対応する1つまたは複数のルールが前記ライブラリにおいて識別されない場合、前記より小さい部分の各々についての文法ルールを生成するステップは、代替キャラクタ発話表現および前記より小さい部分についての代替キャラクタシーケンス発話表現の少なくとも一方についての文法ルールを生成するステップを有することを特徴とする方法。
  2. 前記代替キャラクタ発話表現についての文法を生成するステップは、代替キャラクタ発話表現を認識するために音声認識装置からの正規化出力を提供するメカニズムを使用するステップを含むことを特徴とする請求項1に記載の方法
  3. 前記文法を生成するステップは、代替キャラクタ発話表現を認識するために、前記文法中において正規化情報を提供して、音声認識装置からの正規化出力を提供するステップを含むことを特徴とする請求項2に記載の方法
  4. 前記文法を生成するステップは、前記文法に関連する、正規化情報を有するデータベースを生成するステップを含むことを特徴とする請求項3に記載の方法
  5. 前記代替キャラクタシーケンス音声表現についての文法を生成するステップは、代替キャラクタシーケンス発話表現を認識するために音声認識装置からの正規化出力を提供するメカニズムを使用するステップを含むことを特徴とする請求項1に記載の方法
  6. 前記文法を生成するステップは、代替キャラクタシーケンス発話表現を認識するために、前記文法中において正規化情報を提供して、音声認識装置からの正規化出力を提供するステップを含むことを特徴とする請求項5に記載の方法
  7. 前記文法を生成するステップは、前記文法に関連する、正規化情報を有するデータベースを生成するステップを含むことを特徴とする請求項6に記載の方法
  8. 前記のより小さい各部分についての文法ルールを生成するステップは、文法ルールが以前に基づいていた前記表現中の第2のより小さな部分と同一の第1のより小さな部分を識別するステップと、前記第2のより小さな部分に基づいた前記ルールを使用することにより、前記第1のより小さな部分に基づいたルールを生成するステップとを含むことを特徴とする請求項1に記載の方法
  9. 前記文法ルールを生成するステップは、プレフィックス最適化文法ルールを生成するステップを含むことを特徴とする請求項1に記載の方法
  10. 前記表現は、正規表現またはマスクの形式であることを特徴とする請求項1に記載の方法
  11. コンピュータに音声認識装置が使用するのに適した文法を生成するための方法を実行させるためのコンピュータ上で動作可能な命令を格納したコンピュータ読取り可能媒体であって、前記方法は、
    アルファニューメリック表現の表現を複数のブランチへと解析するステップであって、当該表現は、アルファニューメリック表現とは別であり、アルファニューメリック表現内の1つまたは複数のキャラクタおよび当該1つまたは複数のキャラクタのお互いの相対的なロケーションを指定し、W3Cによって定義される正規表現の形式である、解析するステップと、
    前記ブランチの各々の1つまたは複数のより小さい部分を識別し、前記より小さい部分の各々についての文法ルールを生成するステップとを含み、
    前記より小さい部分の各々についての文法ルールを生成するステップは、より小さい部分の各々に対応するライブラリに記憶した1つまたは複数のルールを識別するステップと、前記ライブラリに記憶した1つまたは複数のルールに基づいて文法ルールを生成するステップとを有し、
    より小さい部分に対応する1つまたは複数のルールが前記ライブラリにおいて識別されない場合、前記より小さい部分の各々についての文法ルールを生成するステップは、代替キャラクタ発話表現および前記より小さい部分についての代替キャラクタシーケンス発話表現の少なくとも一方についての文法ルールを生成するステップを有することを特徴とするコンピュータ読取り可能媒体。
  12. 前記表現は、正規表現またはマスクを含むことを特徴とする請求項11に記載のコンピュータ読取り可能媒体。
  13. 前記代替キャラクタ音声表現についての文法を生成するステップは、代替キャラクタシーケンス発話表現を認識するために音声認識装置からの正規化出力を提供するメカニズムを使用するステップを含むことを特徴とする請求項11に記載のコンピュータ読取り可能媒体。
  14. 前記文法を生成するステップは、代替キャラクタ発話表現を認識するために、前記文法中において正規化情報を提供して、音声認識装置からの正規化出力を提供するステップを含むことを特徴とする請求項13に記載のコンピュータ読取り可能媒体。
  15. 前記文法を生成するステップは、前記文法に関連する、正規化情報を有するデータベースを生成するステップを含むことを特徴とする請求項14に記載のコンピュータ読取り可能媒体。
  16. 前記代替キャラクタシーケンス音声表現についての文法を生成するステップは、代替キャラクタシーケンス発話表現を認識するために音声認識装置からの正規化出力を提供するメカニズムを使用するステップを含むことを特徴とする請求項11に記載のコンピュータ読取り可能媒体。
  17. 前記文法を生成するステップは、代替キャラクタシーケンス発話表現を認識するために、前記文法中において正規化情報を提供して、音声認識装置からの正規化出力を提供するステップを含むことを特徴とする請求項16に記載のコンピュータ読取り可能媒体。
  18. 前記文法を生成するステップは、前記文法に関連する、正規化情報を有するデータベースを生成するステップを含むことを特徴とする請求項17に記載のコンピュータ読取り可能媒体。
  19. 音声認識装置が使用するのに適した文法を生成するコンピュータシステムであって、
    1つまたは複数の処理装置であって、
    アルファニューメリック表現の表現を複数のブランチへと解析する解析モジュールであって、当該表現は、アルファニューメリック表現とは別であり、アルファニューメリック表現内の1つまたは複数のキャラクタおよび当該1つまたは複数のキャラクタのお互いの相対的なロケーションを指定し、W3Cによって定義される正規表現の形式を取る解析モジュールと、
    前記ブランチに基づいて前記文法についてのルールを生成するブランチルール生成モジュールと、
    前記ブランチの各々のピースを識別し、前記ピースの各々に基づいて前記文法についてのルールを生成するピースルール生成モジュールと
    を有する1つまたは複数の処理装置と、
    ピースに基づいて文法ルールを記憶するためのライブラリを有する、1つまたは複数のメモリ装置とを備え、
    前記ピースルール生成モジュールは、前記ライブラリに記憶したルールを有するピースに対応する前記表現のピースを識別し、かつ前記ライブラリにあるルールに基づいて前記文法についてのルールを生成し、
    ピースに対応する1つまたは複数のルールが前記ライブラリにおいて識別されない場合、前記ピースルール生成モジュールは、代替キャラクタ発話表現および前記ピースについての代替キャラクタシーケンス発話表現の少なくとも一方についてのルールを生成することを特徴とするコンピュータシステム。
  20. 前記ピースルール生成モジュールは、処理されている、前記表現の第1のピースについて前記ライブラリにルールを記憶し、前記ピースルール生成モジュールは、前記表現の前記第1のピースと同一な、前記表現の第2のピースを識別し、前記表現の前記第1のピースについて前記ライブラリ中のルールに基づいて前記表現の前記第2のピースについてのルールを生成することを特徴とする請求項19に記載のコンピュータシステム。
  21. 前記ピースルール生成モジュールは、代替キャラクタ発話表現および代替キャラクタシーケンス発話表現のうちの少なくとも一方について前記文法中で正規化情報を提供することを特徴とする請求項20に記載のコンピュータシステム。
JP2005231245A 2004-09-15 2005-08-09 音声認識装置が使用するのに適した文法を生成するための方法、媒体、およびシステム Active JP4901155B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/941,439 US7599837B2 (en) 2004-09-15 2004-09-15 Creating a speech recognition grammar for alphanumeric concepts
US10/941,439 2004-09-15

Publications (3)

Publication Number Publication Date
JP2006085160A JP2006085160A (ja) 2006-03-30
JP2006085160A5 JP2006085160A5 (ja) 2008-09-25
JP4901155B2 true JP4901155B2 (ja) 2012-03-21

Family

ID=35414949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005231245A Active JP4901155B2 (ja) 2004-09-15 2005-08-09 音声認識装置が使用するのに適した文法を生成するための方法、媒体、およびシステム

Country Status (7)

Country Link
US (1) US7599837B2 (ja)
EP (1) EP1638081B1 (ja)
JP (1) JP4901155B2 (ja)
KR (1) KR101130351B1 (ja)
CN (1) CN1750119A (ja)
AT (1) ATE405920T1 (ja)
DE (1) DE602005009091D1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR0108142B1 (pt) * 2000-02-11 2009-01-13 aparelho para tratamento controlado da impotência.
US7634720B2 (en) * 2003-10-24 2009-12-15 Microsoft Corporation System and method for providing context to an input method
US8229745B2 (en) * 2005-10-21 2012-07-24 Nuance Communications, Inc. Creating a mixed-initiative grammar from directed dialog grammars
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US8065147B2 (en) * 2006-09-21 2011-11-22 Nuance Communications, Inc. Gramma generation for password recognition
US8417511B2 (en) * 2006-12-28 2013-04-09 Nuance Communications Dynamic grammars for reusable dialogue components
US8812323B2 (en) * 2007-10-11 2014-08-19 Agency For Science, Technology And Research Dialogue system and a method for executing a fully mixed initiative dialogue (FMID) interaction between a human and a machine
US8010465B2 (en) * 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
JP2009229529A (ja) * 2008-03-19 2009-10-08 Toshiba Corp 音声認識装置及び音声認識方法
JP5718084B2 (ja) * 2010-02-16 2015-05-13 岐阜サービス株式会社 音声認識用文法作成支援プログラム
US20110202338A1 (en) * 2010-02-18 2011-08-18 Philip Inghelbrecht System and method for recognition of alphanumeric patterns including license plate numbers
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
CN103400579B (zh) * 2013-08-04 2015-11-18 徐华 一种语音识别***和构建方法
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US11551674B2 (en) * 2020-08-18 2023-01-10 Bank Of America Corporation Multi-pipeline language processing platform

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642519A (en) 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
US6973429B2 (en) * 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
US7257529B2 (en) 2001-09-10 2007-08-14 Intel Corporation Apparatus and method for an automated grammar file expansion tool

Also Published As

Publication number Publication date
US7599837B2 (en) 2009-10-06
JP2006085160A (ja) 2006-03-30
KR20060048800A (ko) 2006-05-18
KR101130351B1 (ko) 2012-07-02
CN1750119A (zh) 2006-03-22
US20060069547A1 (en) 2006-03-30
EP1638081A1 (en) 2006-03-22
DE602005009091D1 (de) 2008-10-02
EP1638081B1 (en) 2008-08-20
ATE405920T1 (de) 2008-09-15

Similar Documents

Publication Publication Date Title
JP4901155B2 (ja) 音声認識装置が使用するのに適した文法を生成するための方法、媒体、およびシステム
JP5162697B2 (ja) 情報検索手法による統一化されたタスク依存の言語モデルの生成
KR101120858B1 (ko) 슬롯에 대한 규칙 기반 문법, 및 프리터미널에 대한 통계 모델을 위한 자연 언어 이해 시스템 및 자연 언어 이해 모델 트레이닝 방법
US11776533B2 (en) Building a natural language understanding application using a received electronic record containing programming code including an interpret-block, an interpret-statement, a pattern expression and an action statement
US8515733B2 (en) Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language
US6374224B1 (en) Method and apparatus for style control in natural language generation
JP3741156B2 (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
US7630892B2 (en) Method and apparatus for transducer-based text normalization and inverse text normalization
US7529657B2 (en) Configurable parameters for grammar authoring for speech recognition and natural language understanding
US7636657B2 (en) Method and apparatus for automatic grammar generation from data entries
US20070219798A1 (en) Training system for a speech recognition application
JP2001519043A (ja) コンテキスト・フリー・グラマーを使用するテキスト正規化
JPH0855122A (ja) 文脈タガー
WO2022121179A1 (zh) 语音合成方法、装置、设备及存储介质
JP2004334193A (ja) 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
JP4738753B2 (ja) 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決
Dahl Natural language processing: past, present and future
Rouhe et al. An equal data setting for attention-based encoder-decoder and HMM/DNN models: A case study in Finnish ASR
JP2023033160A (ja) コンピュータ実装方法、システムおよびコンピュータプログラム(順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング)
Noormamode et al. A speech engine for mauritian creole
JP5881157B2 (ja) 情報処理装置、およびプログラム
JP2003162524A (ja) 言語処理装置
JP4206253B2 (ja) 自動音声応答装置及び自動音声応答方法
US7617089B2 (en) Method and apparatus for compiling two-level morphology rules

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080811

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110802

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20110818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110818

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111128

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111227

R150 Certificate of patent or registration of utility model

Ref document number: 4901155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250