JP2003510662A - 音声認識器における綴りモード - Google Patents
音声認識器における綴りモードInfo
- Publication number
- JP2003510662A JP2003510662A JP2001527267A JP2001527267A JP2003510662A JP 2003510662 A JP2003510662 A JP 2003510662A JP 2001527267 A JP2001527267 A JP 2001527267A JP 2001527267 A JP2001527267 A JP 2001527267A JP 2003510662 A JP2003510662 A JP 2003510662A
- Authority
- JP
- Japan
- Prior art keywords
- spelling
- word
- dictation
- letter
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 9
- 238000013518 transcription Methods 0.000 claims description 16
- 230000035897 transcription Effects 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 12
- 230000001419 dependent effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000010183 spectrum analysis Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 241001442654 Percnon planissimum Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N ***e Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
受け取る入力と、信号を認識し、認識された信号を単語として表現する認識ユニ
ットとを具備する。認識ユニットは、信号の一部を、複数の綴り方リファレンス
単語の表現を含む綴り方一覧表と比較し、信号の一部に対し、綴り方リファレン
ス単語の中の最大尤度単語と関連した単一綴り文字を識別することにより、音声
信号の少なくとも一部を認識する綴りモード認識器を含む。
グラムに関する。
名で販売されている。このシステムによれば、単語を綴るユーザーは、たとえば
、単語が有効な辞書に存在しない場合、若しくは、誤認識されたときに生ずる認
識問題を解決することが可能である。ユーザーは、アルファベットの一文字を発
声することにより綴ることができる。発声された単一文字の認識は難しいので(
発話は短く、音声学的に詰まっている場合がある)、従来のシステムは、ユーザ
ーが、国際スペル・アルファベット"Alpha, Bravo, Charlie, …"からの綴り単
語を用いて綴ることができる。綴りのため使用される辞書において、国際アルフ
ァベットのそれぞれの綴り単語は、綴り単語の先頭文字に対応したテキスト的表
現と関連付けられる。一例として、綴り単語"alpha"は、テキスト上の表現"A"に
リンクされる。ユーザーによって発声された綴り単語のシーケンスの各綴り単語
の先頭文字は、綴られた単語を形成するため組み合わされる。たとえば、名前"P
hilips"は、認識器が綴りモードの場合に、単語のシーケンス"Papa Hotel India
Lima India Papa Sierra"を発声することによって綴ることができる。
になり、正確な綴り方が可能になるが、殆どの人はこの綴り方用アルファベット
に習熟していない。
ステム及び方法を提供することである。
文字と関連した少なくとも二つの多重文字綴り方リファレンス単語を含むことを
特徴とする。これにより、ユーザーは、文字を綴るため使用される単語に選択の
幅が与えられる。綴りモードにおいて、システムは、単一の文字を発声すること
により綴りを行える可能性を依然として提供することが理解されるであろう。単
一文字単語を認識するため、多重文字綴り単語を認識するのに適した認識器の他
に、最適化された単一文字認識器を使用する。
述一覧表から取り出されるか、又は、綴り方一覧表と口述一覧表の間で共用され
る。綴り単語の一覧表は、口述一覧表の部分集合でもよい。綴り方一覧表が口述
一覧表よりも非常に制限されている場合、綴り単語の認識精度は増大する。或い
は、両方の一覧表の単語の集合は実質的に同一でもよい。これにより、ユーザー
は、綴りの際に殆ど全ての単語を完全に自由に使用することができるようになる
。綴り方一覧表は、"Sierra"及び"Lima"のような、実際の口述一覧表には存在し
ないある種の単語(又は、個別の綴り文字)を含む場合がある。
御の下で選択される。このように、ユーザーは、好ましい(かつ、覚え易い)綴
りアルファベットを作成することができる。これにより、ユーザーは、綴り方一
覧表の中の少なくとも一部の単語を選択することができる。システムは、ユーザ
ーが追加使用としている単語が、既に綴り方一覧表に存在し別の文字から始まる
他の単語から十分に区別できるかどうかを検査する。十分に区別できない場合、
システムは、警告を発するか、或いは、そのような単語の追加を拒否する。
、共用される単語は、同じ音響的表現を共用する。したがって、重複した管理や
訓練は不要である。
語であるとしても)単一文字テキスト的転写と関連付けられる。これにより、最
大尤度単語の識別によって、直ちに綴りの単一文字結果が得られる。
綴り文字から始まる。このため、ユーザーは、綴り単語を容易に記憶できる。そ
の上、より大規模の綴り単語の集合をユーザーに与え、同時に、綴りモードで要
求される高レベルの認識精度を満たすことができる。通常は、"cars"と"car's"
、或いは、"two"と"to"と"too"のような単語を識別することが困難であるが、こ
のような単語は同じ文字で始まるので、綴りモードで正確に識別する必要はない
。有利的には、発話された可能性が最も高い単語の中(いわゆるN最良リスト)
で、最も頻繁に出現する先頭文字はどれであるか、及び/又は、最大尤度を有す
る先頭文字はどれであるかが検査され、この文字が選択される。
モードで使用されるような、対応した多重文字テキスト的転写と関連付けられる
(テキスト的転写の共有化が実現できる)。
識された単語の完全なテキスト的表現を生成する)通常の方式で使用されると共
に、綴りモードでも使用され、システムを簡単化する。後処理手順だけにおいて
、単語の完全なテキスト的表現(単語モード)を使用するか、又は、先頭文字だ
け(綴りモード)を使用するかが判定される。
モードで動作するよう制限される。これにより、認識精度が上昇する。
て明らかにされ、解明される。
まりを使用する。たとえば、音響的モデル及び語彙が単語を認識するため使用さ
れ、言語モデルは基本認識結果を改良するため使用される。小語彙若しくは大語
彙認識、及び、孤立若しくは連続認識のような多様な形式の音声認識技術が知ら
れている。図1には、大語彙連続音声認識システム100の典型的な構造が示さ
れている。システム100は、スペクトル分析サブシステム(SAS)110及
びユニット照合サブシステム120とを含む。スペクトル分析サブシステム11
0において、音声入力信号(SIS)は、代表的な特徴ベクトル(観測ベクトル
OV)スペクトル的及び/又は時間的に分析される。典型的に、音声信号はマイ
クロホンを介して受信され、デジタル化され(たとえば、6.67kHzのレー
トでサンプリングされ)、たとえば、プレ・エンファシスを適用することにより
前処理される。連続的なサンプルは、たとえば、32ミリ秒の音声信号に対応し
たフレームに分類される(ブロック化される)。順次的なフレームは、部分的に
、たとえば、16ミリ秒ずつ重なり合う。屡々、線形予測符号化(LPC)スペ
クトル分析法が、フレーム毎に、代表的な特徴ベクトル(観測ベクトル)を計算
するため使用される。特徴ベクトルは、たとえば、24、32又は63個の成分
を有する。大語彙連続音声認識のための標準的な手法は、音声プロダクションの
確立モデルを仮定することである。これにより、指定された単語系列W=w1w 2 w3...wpは、音響的観測ベクトルY=y1y2y3...yTの系列を
生成する。認識誤差は、音響的観測ベクトルy1y2y3...yT(時間t=
1,...,Tに関して)の系列を生じた可能性が最も高い単語系列w1w2w 3 ...wpを決定することにより統計的に最小化される。ここで、観測ベクト
ルはスペクトル分析サブシステム110の出力結果である。これにより、全ての
可能性のある単語系列Wに対し、最大事後確率: maxP(W|Y) が得られる。ベイズの条件付き確率の定理を適用することにより、P(W|Y)
は、 P(W|Y)=P(Y|W)・P(W)/P(Y) によって与えられる。P(Y)はWとは独立であるため、最大尤度単語系列は、 全ての単語系列Wに対し、 arg maxP(Y|W)・P(W) (1) で与えられる。
項を与える。音響的モデルは、所与の単語系列Wに対する観測ベクトルYの系列
の確率P(Y|W)を推定するため使用される。大語彙システムの場合、この推
定は、通常、観測ベクトルを音声認識ユニットの一覧表と対照することにより行
われる。音声認識ユニットは、音響的リファレンスの系列によって表現される。
種々の形態の音声認識ユニットが使用される。一例として、完全な単語、又は、
単語のグループが1個の音声認識ユニットによって表現される。単語モデル(W
M)は、所与の語彙の各単語に、音響的リファレンスの系列内への転写を与える
。殆どの小語彙音声認識システムの場合、完全な単語は、音声認識ユニットによ
って表現され、この場合、単語モデルと音声認識ユニットとの間に直接的な関係
が存在する。たとえば、比較的多数(たとえば、数百個)の単語を認識するため
使用されるその他の小語彙システムの場合、又は、大語彙システムの場合、単音
、複音又は音節のような言語的ベースの副単語ユニット、並びに、フェネン(fen
enes)及びフェノン(fenones)のような派生的なユニットが使用される。このよう
なシステムの場合、単語モデルは、語彙の単語に関係した副単語ユニットの系列
を記述する辞書(LEX)134と、関連した音声認識ユニットの音響的リファ
レンスの系列を記述する副単語モデル(SW)132とによって与えられる。単
語モデル作成器(WMC)136は、副単語モデル132及び辞書134に基づ
いて単語モデルを作成する。
示す図であり、単語の音声認識ユニットが10個の音響的リファレンス(S1乃
至S10)201,...,210の系列を使用してモデル化される。図2bは
、副単語ユニットに基づくシステムの単語モデル220を示す図であり、単語は
、3個の副単語モデル250、260及び270の系列によってモデル化され、
各副単語モデルは、4個の音響的リファレンス(S1,1〜S1,4、S2,1 〜S2,4、S3,1〜S3,4)251〜254、261〜264、271〜
274を含む。図2に示された単語モデルは、音声信号を確率論的にモデル化す
るため使用される隠れマルコフモデル(HMM)に基づくモデルである。このモ
デルを使用することにより、各認識ユニット(単語モデル又は副単語モデル)は
、典型的にHMMによって表現され、HMMのパラメータは、訓練用データセッ
トから推定される。大語彙音声認識システムの場合、通常,使用される副単語ユ
ニットのセットは、たとえば、40個に制限される。その理由は、多数のユニッ
トに対しHMMを適切に訓練するためには、多数の訓練用データを必要とするか
らである。リファレンスをモデル化するため、離散確率密度又は連続確率密度を
含む多数の技術が知られている。一つの特定の発声に関係した音響的リファレン
スの各系列は、発声の音響的転写(トランスクリプション)と呼ばれる。HMM
以外の認識技術が使用される場合、音響的転写の細部は異なると考えられる。
識の全系列と照合し、ベクトルと系列の間の照合の尤度を与える。副単語ユニッ
トが使用される場合、副単語ユニットの系列候補を辞書134内の系列に限定す
るため、辞書134を使用することによって照合に制約が加えられる。これによ
り、出力結果は可能性のある単語の系列に縮小される。
づいて、照合に更なる制約を加え、言語モデルによって適切な系列であるとして
指定された単語系列に対応したパスが調べられる。言語モデルは、式(1)の第
2項を与える。音響的モデルの結果を言語モデルの結果と組み合わせることによ
り、ユニット照合サブシステム120の結果、すなわち、認識された文(RS)
152が得られる。パターン認識で使用される言語モデルは、言語及び認識タス
クの統語的及び/又は意味的構造(SEM)142を含み得る。統語的構造に基
づく言語モデルは、一般的に文法(GR)144と呼ばれる。減のモデルによっ
て使用される文法144は、単語系列W=w1w2w3...wqの確率を与え
、この確率は、原理的に、 P(W)=P(w1)P(w2|w1)P(w3|w1w2)...P(wq |w1w2w3...wq) で与えられる。原理的に、所与の言語の全単語及び全系列長さに対し条件付き単
語確率を高信頼性で推定することは実施不可能であるため、N−グラム単語モデ
ルが一般的に使用される。N−グラムモデルの場合、項P(wj|w1w2w3 ...wj−1)はP(wj|wj−N+1wj−1)で近似される。実際には
、2−グラム又は3−グラムが使用される。3−グラムの場合、項項P(wj|
w1w2w3...wj−1)はP(wj|wj−2wj−1)で近似される。
は、非常に制限された(簡単な)システムであり、綴りモードだけで動作する。
すなわち、ユーザーは、発話された全ての入力をシステムに対し綴らなければな
らない。このようなシステムの出力は、発話された綴り単語の個別の先頭文字で
あるか、或いは、発話された綴り単語の個別の先頭文字により形成された単語で
ある。綴り単語の数が比較的少ない場合には、認識は小語彙認識に基づく。認識
性能を高めるため、孤立単語認識が使用される。
このようなモードは、単語モード認識と呼ばれる。単語モードにおいて、一般的
に、発話された単語は、対応した完全テキスト的表現で表される。場合によって
は、別のテキスト的表現が使用される。たとえば、発話された数字(たとえば、
"ten")は、数字("10")で表現される。同様に、発話された入力(たとえば、"e
l aye")は短縮形式("LA")若しくは拡張形式("Los Angeles")のように表現
される。通常、単語モード認識器は、特に、認識システムが口述目的(音声から
テキストへの変換)のため使用される場合、発話された入力のテキスト的表現を
出力する。ある種の別のアプリケーションの場合、認識された完全単語を識別す
るだけで十分であり、完全なテキスト的表現を出力しなくてもよい。たとえば、
特定の対話システムの場合、識別結果(たとえば、単語候補のリスト中のインデ
ックスとして使用される数字)を出力するだけで十分であり、同じ識別結果が(
たとえば、識別結果と関連したデータベース内の情報を獲得することにより)対
話を完成させるために使用される。単語モード認識の場合、近年は、一般的に、
語彙のサイズの大小に依存して、連続型の音声認識が使用される。
ドは、典型的に、完全単語認識が発話された完全単語の正確な識別を行わなかっ
た場合に使用される。このような綴りモードは、一般的には、たとえば、自動口
述システム、及び、自動対話システムにおいて使用される。綴りモード認識器は
、発話された綴り単語の系列を、(1綴り単語毎に1文字の)対応した文字の系
列に翻訳する。文字列は、ユーザーが最初に発声しようとした単語を識別するた
め使用される(通常、文字列は、最初に発声された単語の完全なテキスト的表現
として簡単に獲得される)。綴りモード及び単語モードの両方を備えたシステム
において、典型的に、認識は、デフォルトとして単語モードで始まる。ユーザー
が認識結果の良くないことに気付いたとき、ユーザーは、システムが綴りモード
に切り替るようシステムへトリガーをかけることができる。綴りが終了した後、
認識は単語モードで継続する。システム自体も、認識精度が良くない(たとえば
、スコアが低い、信頼度が低い、或いは、会話の進行が遅い)ことを検出し、自
動的に綴りモードへ切り替る(勿論、綴りモードへの切替をユーザーに通知する
)。ある種の状況では、単語モードと綴りモードが並行して動作する。たとえば
、多重文字綴り語と、口述一覧表内の単語との間に重なり合いが無い場合、シス
テムは、綴り単語が認識された場合に単一の文字を自動的に提示し、さもなけれ
ば、完全単語を提示する。重なり合いがある場合、ユーザーは、その時点で、望
ましい単一の文字又は完全単語転写を指示するように要求される。
声認識システムのブロック図である。このため、認識エンジン(REC)120
は、二組のデータセットを切り替え得る。第1のセット(SM)300は、綴り
モード用の関連データを含み、第2のセット(WM)310は、単語モード用の
関連データを含む。データは、たとえば、単語モデル(音響的表現、テキスト的
転写)及び言語モデルのような認識のため使用されるモデルを指定する。特に、
単語モデルは多数の面を共用することができる。
関して既に説明した副単語モデル(SW)132及び単語モデル作成器(WMC
)136を共用する例を示すブロック図である。両モード用の単語モデルは、対
応した辞書(SL)400及び辞書(WL)410が異なる。図示された例の場
合、綴りモード用の言語モデル(SLM)420と、単語モード用の言語モデル
(WLM)430の別々の言語モデルが使用される。たとえば、単語モード用言
語モデル430は、2−グラムを使用して連続大語彙音声用に最適化され、綴り
モード用単語モデルは、1−グラムを使用して孤立音声認識用に最適化される。
きるように、綴り方可能な文字毎に少なくとも1個の綴り方リファレンス単語と
共に使用される。少なくとも1個の綴り方可能な文字毎に、綴り方一覧表は、単
一の綴り方可能な文字と関連した少なくとも2個の多重文字綴り方リファレンス
単語を含む。たとえば、利用者は、多重文字単語"Alpha"又は"Amsterdam"を発声
することにより、文字"a"を綴ることが可能である。勿論、綴りは、単一文字単
語"a"を発声することにより行うことができる。動揺に、綴り文字"b"は、多重文
字単語"Bravo"及び"Bernard"と関連付けられ、ユーザーはどちらの単語を発声し
てもよい。3個以上の多重文字単語を同一の綴り文字に関連付けてもよい。当業
者は、2個以上の単語が同一の綴り文字に関連付けられることを容易に認めるで
あろう。図5には、図1に示されたシステムと共に使用される辞書構造の一例が
示されている。この辞書は、テーブルにより構成され、各テーブルのエントリー
(行)は、発声可能な綴り文字と対応する。単語毎に、第1のフィールド500
は、綴り文字を収容し、第2のフィールド510は、綴り文字の音響的転写を指
定する。図1において、音響的転写は、副単語ユニットの系列(SW seq
1、SW seq 2、SW seq 3)として与えられる。第2のフィール
ド510は、関連した副単語ユニットへのポインタの系列を収容してもよい。
語は、単語モード認識用に使用される口述一覧表から選択される。共通した単語
は、口述一覧表(辞書)から綴り方一覧表へ複写されるが、テキスト的転写は異
なる(単一文字対完全転写)。かくして、共通した部分(たとえば、音響的転写
)は、指定する必要が無く、1回だけ訓練すればよい。共通部分は、たとえば、
(たとえば、副単語系列のような)共用される転写を指示する両方のコピーによ
って共用される。
して使用するためにも利用可能でなければならない単語を選択し得る。このため
、システム100は、ユーザー入力に応答して、口述一覧表から少なくとも一つ
の多重文字綴り方リファレンス単語を選択するよう動作的である綴りアルファベ
ット作成手段(SACM)440を含む。作成手段440は、図4の例示的なシ
ステムに表されている。
テキスト的表現と関連付けられる。或いは、綴り方リファレンス単語は、対応し
た多重単語テキスト的表現と関連付けてもよい。このように、同じ辞書が使用さ
れ、辞書の中の可能性のある一部分だけが綴り方のため使用される。辞書の中で
綴りのため使用できる単語だけが簡単に指定される。たとえば、辞書は二つの部
分に分けられ、つづりモードでは一方の部分だけが使用され、単語モード認識で
は、両方の部分が使用される。或いは、(たとえば、1ビットの識別子を使用し
て)どちらのモードで認識される単語であるかを個別の単語に指定してもよい。
その結果として、単語モデルは、綴りモード認識と単語モード認識の間で高度に
共用される。
から始まる。これにより、単語モード認識を用いて(場合によっては、単語数が
制限された特定の綴りモード辞書を用いて)、綴りモード認識を容易に実行でき
るようになり、後処理では、認識された単語のテキスト的転写から先頭文字を抽
出する抽出手段を使用する。抽出された文字は、綴り単語を表現する単一文字と
して使用される。
ンピュータ上に実現される。徐々に、PDA、ラップトップ、又は、電話機のよ
うな携帯型機器にも音声認識機能が装備されている。本発明によって提案された
機能性は、典型的に、アナログマイクロホン信号をデジタルデータストリームに
変換するオーディオカードのような通例的なハードウエアを使用する装置のプロ
セッサを使用して実行される。必要に応じて、DSPのような最適化されたハー
ドウエアが音声認識を実行するため使用される。PC型プロセッサ、マイクロコ
ントローラ、又は、DSP様式のプロセッサのようなプロセッサは、本発明によ
る手順を実行するためのプログラムがロードされる。このプログラムは、一般的
に、ハードディスク若しくはROMのようなバックグラウンド記憶装置からロー
ドされる。コンピュータプログラム製品は、たとえば、最初にプログラムをバッ
クグラウンド記憶装置に記憶させるため使用される。このような製品は、たとえ
ば、CD−ROMのような記録媒体であり、インターネットのようなネットワー
クを介して配布される場合もある。
である。
Claims (12)
- 【請求項1】 音声を表す信号を受け取る入力と、 信号を認識し、認識された信号を単語として表現する認識ユニットとを有し、 認識ユニットは、 音声信号の一部を、複数の綴り方リファレンス単語の表現を含む綴り方一覧表
と比較し、 音声信号の一部に対し、綴り方リファレンス単語の中の最大尤度綴り方リファ
レンス単語と関連付けられた単一綴り文字を識別することにより、 音声信号の少なくとも一部を認識する綴りモード認識器を有する、 音声認識システムであって、 綴り方一覧表が同じ単一綴り文字と関連付けられた少なくとも二つの多重文字
綴り方リファレンス単語を含むことを特徴とする、音声認識システム。 - 【請求項2】 認識ユニットは、 音声信号の更なる一部を、複数の口述リファレンス単語の表現を含む口述一覧
表と比較し、 音声信号の更なる一部に対し、口述リファレンス単語の中の最大尤度単語を識
別することにより、 音声信号の更なる一部を認識する単語モード認識器を更に有し、 少なくとも一部の多重文字綴り方リファレンス単語は口述一覧表から選択され
る、 請求項1記載の音声認識システム。 - 【請求項3】 ユーザー入力に応答して、口述一覧表から少なくとも一つの
多重文字綴り方リファレンス単語を選択するよう動作する綴りアルファベット作
成手段を更に有する請求項2記載の音声認識システム。 - 【請求項4】 綴り方一覧表内の綴り方リファレンス単語の組は、口述一覧
表内の口述リファレンス単語の組に対応する、請求項2記載の音声認識システム
。 - 【請求項5】 口述一覧表から選択された各綴り方リファレンス単語は口述
一覧表内の対応した口述リファレンス単語と音響的表現を共用する、請求項2記
載の音声認識システム。 - 【請求項6】 各綴り方リファレンス単語は単語の単一文字テキスト的表現
と関連付けられている、請求項1記載の音声認識システム。 - 【請求項7】 各多重文字綴り方リファレンス単語は関連付けられた単一綴
り方文字から始まる、請求項1記載の音声認識システム。 - 【請求項8】 各多重文字綴り方リファレンス単語は対応した多重文字テキ
スト的表現と関連付けられている、請求項1記載の音声認識システム。 - 【請求項9】 各多重文字綴り方リファレンス単語は関連付けられた単一綴
り方文字から始まり、 各多重文字綴り方リファレンス単語は対応した多重文字テキスト的表現と関連
付けられ、 認識ユニットは、 音声信号の更なる一部を、各口述リファレンス単語がその単語のテキスト的表
現と関連付けられている複数の口述リファレンス単語の表現を含む口述一覧表と
比較し、 音声信号の更なる一部に対し、口述リファレンス単語の中の最大尤度口述リフ
ァレンス単語を識別することにより、 音声信号の少なくとも更なる一部を認識する単語モード認識器を更に有し、 綴りモード認識器は、信号の一部を最大尤度口述リファレンス単語のテキスト
的転写に転写するため単語モード認識器を使用するよう動作し、 綴りモード認識器は、関連付けられたテキスト的転写から先頭文字を抽出し、
抽出された先頭文字を、音声信号の一部を表現する単一文字として使用する抽出
手段を有する、 請求項1記載の音声認識システム。 - 【請求項10】 綴りモード認識器は孤立単語認識モードで動作するため単
語モード認識器を使用するよう動作する、請求項9記載の音声認識システム。 - 【請求項11】 音声を表す信号を受け取る手順と、 音声信号の一部を、複数の綴り方リファレンス単語の表現を含む綴り方一覧表
と比較し、 音声信号の一部に対し、綴り方リファレンス単語の中の最大尤度綴り方リファ
レンス単語と関連付けられた単一綴り文字を識別することにより、 綴りモードで音声信号の少なくとも一部を認識する手順と、 を有し、 綴り方一覧表が同じ単一綴り文字と関連付けられた少なくとも二つの多重文字
綴り方リファレンス単語を含むことを特徴とする、音声認識方法。 - 【請求項12】 コンピュータに請求項11記載の音声認識方法を実現させ
るプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99203177 | 1999-09-29 | ||
EP99203177.3 | 1999-09-29 | ||
PCT/EP2000/009385 WO2001024161A1 (en) | 1999-09-29 | 2000-09-25 | Spell mode in a speech recognizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003510662A true JP2003510662A (ja) | 2003-03-18 |
JP4790956B2 JP4790956B2 (ja) | 2011-10-12 |
Family
ID=8240685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001527267A Expired - Fee Related JP4790956B2 (ja) | 1999-09-29 | 2000-09-25 | 音声認識器における綴りモード |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1135768B1 (ja) |
JP (1) | JP4790956B2 (ja) |
DE (1) | DE60037870T2 (ja) |
WO (1) | WO2001024161A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832675B2 (en) | 2018-08-24 | 2020-11-10 | Denso International America, Inc. | Speech recognition system with interactive spelling function |
CN111681647B (zh) * | 2020-06-10 | 2023-09-05 | 北京百度网讯科技有限公司 | 用于识别词槽的方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02272498A (ja) * | 1989-03-02 | 1990-11-07 | Internatl Business Mach Corp <Ibm> | 音声認識方法 |
JPH07507880A (ja) * | 1992-03-06 | 1995-08-31 | ドラゴン システムズ インコーポレイテッド | 複合ワードを有する言語のための音声認識装置 |
JPH09179578A (ja) * | 1995-12-26 | 1997-07-11 | Nec Corp | 単音節認識装置 |
JPH09266510A (ja) * | 1996-03-28 | 1997-10-07 | Mitsubishi Electric Corp | ページャへのメッセージ作成方式 |
JPH10274996A (ja) * | 1997-03-31 | 1998-10-13 | Toshiba Corp | 音声認識装置 |
JPH1115493A (ja) * | 1997-03-10 | 1999-01-22 | Daimler Benz Ag | 実時間動作において目標案内システムに目標アドレスを音声入力する方法及び装置 |
JPH11184495A (ja) * | 1997-12-24 | 1999-07-09 | Toyota Motor Corp | 音声認識装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
JPH11167393A (ja) * | 1997-12-04 | 1999-06-22 | Hitachi Eng & Service Co Ltd | 音声認識装置および音声認識装置用辞書 |
-
2000
- 2000-09-25 JP JP2001527267A patent/JP4790956B2/ja not_active Expired - Fee Related
- 2000-09-25 WO PCT/EP2000/009385 patent/WO2001024161A1/en active IP Right Grant
- 2000-09-25 EP EP00967788A patent/EP1135768B1/en not_active Expired - Lifetime
- 2000-09-25 DE DE60037870T patent/DE60037870T2/de not_active Expired - Lifetime
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02272498A (ja) * | 1989-03-02 | 1990-11-07 | Internatl Business Mach Corp <Ibm> | 音声認識方法 |
JPH07507880A (ja) * | 1992-03-06 | 1995-08-31 | ドラゴン システムズ インコーポレイテッド | 複合ワードを有する言語のための音声認識装置 |
JPH09179578A (ja) * | 1995-12-26 | 1997-07-11 | Nec Corp | 単音節認識装置 |
JPH09266510A (ja) * | 1996-03-28 | 1997-10-07 | Mitsubishi Electric Corp | ページャへのメッセージ作成方式 |
JPH1115493A (ja) * | 1997-03-10 | 1999-01-22 | Daimler Benz Ag | 実時間動作において目標案内システムに目標アドレスを音声入力する方法及び装置 |
JPH10274996A (ja) * | 1997-03-31 | 1998-10-13 | Toshiba Corp | 音声認識装置 |
JPH11184495A (ja) * | 1997-12-24 | 1999-07-09 | Toyota Motor Corp | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1135768A1 (en) | 2001-09-26 |
WO2001024161A1 (en) | 2001-04-05 |
EP1135768B1 (en) | 2008-01-23 |
JP4790956B2 (ja) | 2011-10-12 |
DE60037870T2 (de) | 2009-01-22 |
DE60037870D1 (de) | 2008-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9812122B2 (en) | Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium | |
Zissman et al. | Automatic language identification | |
US7162423B2 (en) | Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system | |
JP4481035B2 (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
US6243680B1 (en) | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances | |
JP3126985B2 (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
US6208964B1 (en) | Method and apparatus for providing unsupervised adaptation of transcriptions | |
US7275034B2 (en) | Word-specific acoustic models in a speech recognition system | |
EP0965979A1 (en) | Position manipulation in speech recognition | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JP2002520664A (ja) | 言語に依存しない音声認識 | |
US6868382B2 (en) | Speech recognizer | |
JPH06214587A (ja) | 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法 | |
CA2613154A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
Hieronymus et al. | Spoken language identification using large vocabulary speech recognition | |
Hieronymus et al. | Robust spoken language identification using large vocabulary speech recognition | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
JP4790956B2 (ja) | 音声認識器における綴りモード | |
JP4163207B2 (ja) | 多言語話者適応方法、装置、プログラム | |
Raj et al. | Design and implementation of speech recognition systems | |
JP2000242295A (ja) | 音声認識装置および音声対話装置 | |
Sugamura et al. | Speech processing technologies and telecommunications applications at NTT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070921 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110628 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110721 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140729 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4790956 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |