JP3252815B2 - 連続音声認識装置及び方法 - Google Patents

連続音声認識装置及び方法

Info

Publication number
JP3252815B2
JP3252815B2 JP34515398A JP34515398A JP3252815B2 JP 3252815 B2 JP3252815 B2 JP 3252815B2 JP 34515398 A JP34515398 A JP 34515398A JP 34515398 A JP34515398 A JP 34515398A JP 3252815 B2 JP3252815 B2 JP 3252815B2
Authority
JP
Japan
Prior art keywords
hypothesis
arc
speech
storage unit
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP34515398A
Other languages
English (en)
Other versions
JP2000172293A (ja
Inventor
孝 友枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP34515398A priority Critical patent/JP3252815B2/ja
Priority to US09/453,153 priority patent/US6484141B1/en
Publication of JP2000172293A publication Critical patent/JP2000172293A/ja
Application granted granted Critical
Publication of JP3252815B2 publication Critical patent/JP3252815B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連続音声認識装置
及び方法に関し、特に認識の速度と精度の向上を図る連
続音声認識装置及び方法に関する。
【0002】
【従来の技術】従来の連続音声認識装置の一例として、
アイシーエスエルピー1996(ICSLP1996)に掲載され
た、S・ オルトマン(S.Ortmanns)による、ランゲージモ
デル・ルックアヘッド・フォー・ラージ・ボキャブラリ
ー・スピーチ・レコグニション(LANGUAGE-MODEL LOOK-
AHEAD FOR LARGE VOCABULARY SPEECH RECOGNITIO
N)と題された論文が参照される。
【0003】図5を参照すると、従来の音声認識装置
は、仮説記憶部1と、仮説展開部3と、木構造辞書記憶
部4と、言語モデル部7と、音響モデル部8と、を備え
て構成されている。従来の音声認識装置は次のように動
作する。
【0004】仮説記憶部1は、仮説を記憶し、木構造辞
書記憶部4は、認識対象となる単語を木構造辞書(図2
参照)として記憶し、音響モデル部8は、各フレ−ム毎
の音響モデルスコアを計算し、言語モデル部7は、言語
モデルスコアを計算する。
【0005】仮説展開部3は、各フレ−ムで、音響モデ
ル部8からの音響モデルスコアと言語モデル部7からの
言語モデルスコアを考慮して、木構造辞書記憶部4から
ア−クの構造を取得し、ア−ク上にある仮説を後続ア−
クへと展開する。図2を参照すると、木構造辞書におい
ては、ルート(根)からツリー構造で分岐する各アーク
をリーフ(終端アーク)まで辿ることで単語に到る構造
とされている。
【0006】認識対象となる音声を、所定期間の短時間
フレームに分割し、音声始端フレームから音声終端フレ
ームまで、上記の展開(すなわち木構造辞書のア−ク上
にある仮説を後続ア−クへの展開)を繰り返し、最終的
に最もスコアのよい仮説が過去に通った単語(木構造辞
書の終端)を、認識結果とする。
【0007】ここで、仮説とは、木構造辞書上のアーク
の位置情報と、そこへ至るまでの履歴とスコアを有す
る。
【0008】複数の単語を一つの木構造辞書(図2参照)
として表した連続音声認識方式では、終端アーク以外で
は、現在仮説が展開されている単語が何であるかを特定
できない。
【0009】そのため、音響モデルスコアは毎フレーム
毎に計算されるが、本来、言語モデルスコアは、仮説が
木構造辞書の終端アークに到達した時にしかかけられな
い。
【0010】そこで、なるべく早く言語モデルスコアを
加算するために、ユニグラム言語モデルスコアの先読み
と、バイグラム言語モデルスコアの先読みという方法
が、上記文献に記載されている。
【0011】ユニグラム言語モデルスコアの先読みと
は、木構造辞書中の終端アークで確定する単語のユニグ
ラム言語モデルスコアのうち、最もスコアの良いものを
前のアークに付与し、該アーク上に存在する仮説の言語
モデルスコアとして、一時的に、該アークに付与された
ユニグラム言語モデルスコアを加算しておき、仮説が木
構造辞書の終端アークに到達して単語が確定した時に、
それまで使用していたユニグラム言語モデルスコアを捨
て、確定したバイグラム言語モデルスコアを加算する、
というものである。
【0012】一方、バイグラム言語モデルスコアの先読
みとは、コンテクストが決定し、新しい木構造辞書が作
成される際に、コンテクストに対する全ての単語につい
てのバイグラム言語モデルスコアを計算し、最も良いス
コアを有する言語モデルスコアを木構造辞書中の前の方
のアークに付与して、あるアーク上に存在する仮説の言
語モデルスコアとして、該アーク上に付与されたバイグ
ラム言語モデルスコアを加算する、というものである。
【0013】
【発明が解決しようとする課題】しかしながら、従来の
音声認識方式は、下記記載の問題点を有している。
【0014】第一の問題点は、バイグラム言語モデルス
コアの先読みを行った場合、膨大なメモリと計算量が必
要とされる、ということである。
【0015】その理由は、バイグラム言語モデルスコア
の先読みを行う場合、新しくコンテクストが発生して木
構造辞書が作成される際に、木構造辞書の一部ではな
く、木構造辞書の全体を作成し、コンテクストに対する
全てのバイグラム言語モデルスコアを計算し、単語の確
定する木構造辞書中の全ての終端アークの言語モデルス
コアを前のアークに付与する、という処理を繰り返し、
全ての前のアークに言語モデルスコアを伝播させなくて
はならないため、である。
【0016】第二の問題点は、ユニグラム言語モデルス
コアの先読みを行った場合、無駄な計算を行ってしま
う、ということである。
【0017】その理由は、ユニグラム言語モデルスコア
の先読みを行う場合、木構造辞書のアーク中には、コン
テクストに言語的に接続が許されない単語にしか発展し
ないものも存在し、仮説がそのようなアークにも展開さ
れてしまうため、無駄な計算を行ってしまうためであ
る。
【0018】第三の問題点は以下の通りである。フレー
ム同期ビームサーチ(このフレーム同期ビームサーチに
ついては、例えばアイトリプルイー・トランザクション
ズ・オン・シグナル・プロセッシング1992年2月掲
載(IEEE TRANSACTIONS ON SIGNAL PROCESSING FEBRUARY
1992)の、ヘルマン・ネイ(Hermann Ney)による、「デ
ータ ドリブン サーチ オーガナイゼーション フォー
コンティニュアス スピーチ リコグニション(Data Driv
en Search Organization for Continuous Speech Recog
nition)」と題する論文等の記載が参照される)を用い
て、厳密なバイグラム以上の言語モデルスコアの先読み
を行わなかった場合、すなわちコンテクストと木構造辞
書中の単語との言語的制約による接続可能性が先読みさ
れなかった場合、第二の問題点で説明したように、言語
的にコンテクストに接続が許されない単語に発展するア
ーク上にも仮説は展開される。
【0019】そして、この仮説のスコアが他のものより
非常に良かった場合、言語的にコンテクストと接続が許
される単語に発展するアーク上の仮説が、全てビームか
ら外れて除去されてしまうということがある。
【0020】この結果、コンテクストに言語的に接続が
許されない後続単語しか持たないアーク上(図2の11
参照)にのみ仮説が存在し、これらの仮説が展開されて
単語が確定した際に、言語的にコンテクストとの接続が
許されないために、ビームから外れることとなる。
【0021】このため、以後のフレームにおいて、決し
て次の単語に接続できず、これ以降に発声された音声に
対する認識処理が不可能となる。つまり、認識処理を行
うことができなくなり、認識結果を出力することができ
なくなってしまう。
【0022】したがって本発明では、上記問題点に鑑み
てなされたものであって、その主たる目的は、連続音声
認識の認識速度と認識率を向上する連続音声認識装置及
び方法を提供することにある。
【0023】
【課題を解決するための手段】前記目的を達成する本発
明の連続音声認識装置は、仮説を記憶する仮説記憶部
と、仮説を後続アークに展開してもよいか否かを判断す
る仮説展開判断手段と、仮説を展開し展開結果で前記仮
説記憶部に記憶させる仮説展開手段と、木構造辞書及び
その先行コンテクストを保持する木構造辞書記憶部と、
前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、品詞同士の接続
情報を記憶する品詞接続情報記憶部と、仮説に言語モデ
ルスコアを付与する手段と、仮説に音響モデルスコアを
付与する手段とを備える。
【0024】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明の連続音声認識装置は、その好まし
い実施の形態において、木構造辞書中の各アークに、該
アークの全ての後続単語の品詞情報を保持する後続単語
品詞情報記憶手段と、木構造辞書のコンテクストと各ア
−クの後続単語との接続が可能かどうかを判断し、判断
結果によって、仮説を展開するか否かを判断して仮説展
開手段に指示する仮説展開判断手段と、を備え、仮説展
開手段では、仮説展開判断手段からの展開指示を受け、
音響モデルスコアと言語モデルスコアを考慮して、木構
造辞書記憶部からア−クの構造を取得し、該ア−ク上に
ある仮説を後続ア−クへと展開し展開結果を仮説記憶部
に記憶させる。
【0025】本発明の実施の形態においては、コンテク
ストと(言語的に)接続しない単語へのアークには仮説
が展開されないように抑制し、不必要に仮説数を増加さ
せないため、連続音声認識の速度を向上する。また言語
的に接続しない単語への仮説のスコアが他のスコアに比
べて良い、という状況を発生させないようにしたため、
連続音声認識の認識率を向上している。
【0026】
【実施例】本発明の実施例について図面を参照して詳細
に説明する。図1は、本発明の一実施例の構成を示す図
であり、フレーム同期ビームサーチを用いた連続音声認
識装置の構成を示す図である。以下の説明では、フレ−
ム同期ビ−ムサ−チにおける1フレ−ム分の仮説の展開
の動作のみを示す。その他の動作はフレ−ム同期ビ−ム
サ−チに従うものとする。
【0027】図1を参照すると、仮説記憶部1は、連続
音声認識のサ−チにおける仮説を記憶する。木構造辞書
記憶部4は、コンテクストと、認識対象とする全ての単
語を木構造辞書(図2参照)として記憶する。木構造辞書
は、コンテクスト毎に別々に記憶される。
【0028】後続単語品詞情報記憶部5は、木構造辞書
の各ア−クの全ての後続単語の品詞情報を記憶する。品
詞情報の記憶の仕方として、例えば、品詞の出現頻度順
に、後続にその品詞が存在する(1)/存在しない(0)と
いうビット列として記憶するようにしてもよい。品詞が
256種類あるなら、各アークに対して256ビット記憶容量
が必要となる。なお、後続単語品詞情報は、全てのアー
クについて記憶する必要はない。
【0029】後続単語品詞情報は、図2において12で
示すような、分岐直後のアークについてのみ記憶すれば
よい。なぜなら、分岐直後でないアークは、その直前の
アークと全く同じ後続単語品詞情報をもつはずだからで
ある。
【0030】このように、後続単語品詞情報記憶部5
に、分岐直後のアークについての後続単語品詞情報のみ
を記憶することによって、必要なメモリ量を削減するこ
とができる。
【0031】木構造辞書の各アークの後続単語品詞情報
は、認識処理を実行する前に一度だけ作成して記憶して
おくだけでよい。なぜなら、認識処理実行時には、アー
クの後続単語が増加したり、減少したり、変化すること
はないからである。
【0032】また、単語の追加登録を行い、木構造辞書
に単語が追加されたときにも、各アークの後続単語品詞
情報は、一度だけ作成し直して記憶しておくだけでよ
い。
【0033】これに比べ、バイグラムの先読みをする場
合には、コンテクストが決まり木構造辞書が生成される
度に、コンテクストに対する全てのバイグラム言語モデ
ルの計算と前のアークへの言語モデルスコアの付与の伝
播を行なわなくてはならないため、膨大な計算量が必要
となる。
【0034】後続単語品詞情報は、コンテクスト毎に別
々に記憶される木構造辞書とは異なり、各アークについ
て一つずつ記憶しておくだけでよい。
【0035】木構造辞書上の各アークについての後続単
語品詞情報が必要となったときには、一つだけ記憶され
ている当該アークについての後続単語品詞情報を参照す
ればよいからである。
【0036】バイグラムの先読みをする場合、全ての木
構造辞書に対して、各アークにバイグラム言語モデルス
コアを記憶することが必要とされているため、膨大な容
量のメモリが必要となるが、本発明の一実施例では、一
つ分の木構造辞書に対して、品詞の数だけのビット列を
記憶させるだけであるため、必要なメモリ容量が大幅に
削減される。
【0037】品詞の出現頻度が、高い順に、“助詞”、
“名詞”、“動詞”、“形容詞”である場合、後続単語
の品詞情報の第1ビットが助詞がある(1)/ない(0)、
第2ビットが名詞がある(1)/ない(0)、・・・、等と
いう順序のビット列が記憶される。
【0038】なお、後続単語品詞情報は、必ずしも品詞
の出現頻度順に記憶する必要はないが、以下では、出現
頻度順に記憶した場合について説明する。
【0039】図3は、品詞の出現頻度が高い順に、助
詞、名詞、動詞、形容詞となる場合の、あるア−クの後
続単語に、“助詞”、“名詞”、“形容詞”があり、
“動詞”がないとしたときの、後続単語品詞情報のビッ
ト列の例を示す図である。
【0040】品詞接続情報記憶部6は、各品詞毎にその
右側に接続が可能な全ての品詞の情報を記憶する。品詞
情報の記憶の仕方としては、例えば、後続単語品詞情報
記憶部5と同様に、品詞の出現頻度の高い順に、接続可
能(1)/接続不可能(0)というビット列として記憶す
る。
【0041】図4は、品詞の出現頻度が、高い順に、
“助詞”、“名詞”、“動詞”、“形容詞”となる場合
の“助詞”の右側に、“助詞”、“動詞”が接続し、
“名詞”、“形容詞”が接続しないとしたときの、“助
詞”の品詞接続情報ビット列の例を示す図である。
【0042】仮説展開判断部2は、木構造辞書記憶部4
から、ある仮説の存在する木構造辞書のコンテクストを
受け取り、後続単語品詞情報記憶部5から、該仮説を有
するア−クの直後のア−クの後続単語品詞情報を受け取
り、品詞接続情報記憶部6から、先に受け取ったコンテ
クストが属する品詞の右側に接続可能な品詞接続情報を
受け取り、後続単語品詞情報と品詞接続情報から、該仮
説を後続ア−クに展開してもよいかどうかを判断する。
【0043】後続単語品詞情報と品詞接続情報が、それ
ぞれ図3、図4に示すようなものである場合、その仮説
を後続ア−クに展開しても良いかどうかの判断は、図3
に示すビット列と、図4に示すビット列とのビット単位
での論理積(AND)をとり、その演算結果が“0”で
あるかどうかを調べればよい。
【0044】演算結果が“0”でなければ、これは、後
続ア−クへ仮説を展開してもよい、ということを意味
し、演算結果が“0”である場合、後続ア−クへ仮説を
展開してはならない、ということを意味する。
【0045】その理由は、品詞接続情報のN番目(Nは
0以上の整数)のビットが“1”のとき、後続単語品詞
情報のN番目のビットが“1”のときにのみ、接続の許
された品詞の単語が、そのアークの後ろに存在するとい
うことを意味し、論理積が、“0”とならないからであ
る。
【0046】例えば、品詞が全部で256個に分類され
ており、計算機が32ビットのCPUを持つなら、全て
の後続単語品詞情報と品詞接続情報の論理積をとるため
には、256/32=8回の演算が必要となる。
【0047】これに対して、品詞の記憶する順序を、品
詞の出現頻度の高い順にしておくことによって、論理積
が“0”でない結果を得るための演算回数の期待値を、
8以下に抑えることができる。
【0048】このように、品詞の出現頻度の高い順序
で、後続単語品詞情報と、品詞接続情報とを記憶してお
くことは高速化に寄与する。なお、品詞の出現頻度の高
い順序以外の順序で、後続単語品詞情報と品詞接続情報
を記憶しておき、互いに対応する品詞同士の接続チェッ
クを行うようにしてもよいことは勿論である。
【0049】なお、仮説の属するア−クの直後のア−ク
に既に仮説が展開されている場合には、過去において接
続が可能と判断されたはずであるため、無条件にその後
続ア−クに仮説を展開してもよい。
【0050】上記した判定基準により、仮説展開判断部
2は、後続ア−クへの仮説の展開の可/不可を仮説展開
部に指示する。
【0051】仮説展開部3は、仮説展開判断部2から、
後続ア−クへの仮説の展開の指示を受け、言語モデル部
7及び音響モデル部8から与えられたスコアを考慮し
て、木構造辞書記憶部4から後続アークへのアークの構
造を取得し、仮説を展開してもよいア−クへのみ、フレ
−ム同期ビ−ムサ−チに従って仮説を展開する。なお、
自分自身のアークに対する仮説の展開は無条件に行なっ
てよい。
【0052】何となれば、あるアークに仮説が存在する
ということは、過去においてそのアークへの仮説の展開
が許可されたということを意味するからである。
【0053】以上説明したように、本発明の一実施例に
よれば、言語的なコンテクストと木構造辞書中の単語と
の接続可能性の先読みを行なう。
【0054】コンテクストと木構造辞書中の単語との接
続可能性を先読みできる、バイグラム以上の厳密な言語
モデルスコアの先読みをしない限り、本発明は有効であ
り、バイグラム言語モデルスコアの先読みをするための
膨大な計算や、メモリ容量は必要ではない。
【0055】図6は、フレ−ム同期ビ−ムサ−チの1フ
レ−ム分の仮説の展開の動作についてのフロ−チャ−ト
である。
【0056】ステップS1では、あるフレ−ム時刻に存
在する全ての仮説についてのル−プ(繰り返し処理)を
開始する。
【0057】ステップS2では、仮説の属する木構造辞
書のコンテクストを、木構造辞書記憶部4から取得す
る。
【0058】ステップS3では、品詞接続情報記憶部6
からコンテクストの品詞の品詞接続情報を取得する。
【0059】ステップS4では、仮説の属する木構造辞
書中のア−クを仮説記憶部1から取得する。このとき取
得したア−クを、“ア−ク1”とする。
【0060】ステップS5では、“ア−ク1”の全ての
直後の後続ア−クについてのル−プを開始する。今選ば
れている直後の後続ア−クを、“ア−ク2”とする。
【0061】ステップS6では、“ア−ク2”の後続単
語品詞情報を、後続単語品詞情報記憶部5から取得す
る。
【0062】ステップS7では、ステップS3で取得し
た品詞接続情報と、ステップS6で取得した後続単語品
詞情報とから、仮説を“ア−ク1”から“ア−ク2”へ
展開しても良いか否か判断する。もし、品詞接続情報に
記されている接続可能な品詞が“ア−ク2”の後ろにな
い場合、仮説は、“ア−ク2”へ展開してはならないと
判断され、ステップS9に分岐する。そうでなければ、
仮説は“ア−ク2”へ展開してもよいと判断され、次の
ステップS8に移る。
【0063】ステップS8(仮説展開部3の処理)では、
ステップS7の判断に従って、仮説が“ア−ク2”へ展
開される。
【0064】ステップS9では、全ア−クについてル−
プが終了した場合、ステップS10へ移り、そうでない
場合には、ステップS5へ行く。
【0065】ステップS10では、全仮説についてル−
プが終了した場合、フレ−ム同期ビ−ムサ−チにおける
このフレ−ムの仮説の展開処理を終える。全仮説につい
てループが終了していない場合はステップS1に戻る。
なお、図5を参照して説明した各処理ステップは、音声
認識装置を構成するコンピュータ(CPU)のメモリ上
に格納された音声認識用プログラム(ソフトウェア)を
実行することで実現するようにしてもよい。この場合、
該プログラムをFD、CD−ROM、不揮発性メモリ等
の記憶媒体から読み出してメモリ上にロードしてCPU
で実行することで、本発明を実施することができる。
【0066】
【発明の効果】以上説明したように、本発明によれば、
連続音声認識の認識率と速度とを向上する、という効果
を奏する。
【0067】その理由は、本発明においては、言語的に
接続しない単語への仮説の展開を抑制し、不必要に仮説
数を増加させないためであり、また言語的に接続しない
単語への仮説のスコアが他のスコアに比べて良い、とい
う状況を発生させないようにしたためである。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示す図である。
【図2】木構造辞書の例を模式的に示す図である。
【図3】本発明の一実施例における続単語品詞情報の例
を示す図である。
【図4】本発明の一実施例における品詞接続情報の例
(助詞の場合)を示す図である。
【図5】本発明の一実施例の動作を説明するためのフロ
−チャ−トである。
【図6】従来のフレ−ム同期ビ−ムサ−チの構成を示す
図である。
【符号の説明】
1 仮説記憶部 2 仮説展開判断部 3 仮説展開部 4 木構造辞書記憶部 5 後続単語品詞情報記憶部 6 品詞接続情報記憶部 7 言語モデル部 8 音響モデル部 11 コンテクストに言語的に接続が許されない後続単
語のみを持つアークの例 12 木構造辞書中の分岐直後のアークの例

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】木構造辞書及びその先行コンテクストを記
    憶する第1の記憶部と、 木構造辞書中の各アークについて、該アークの全ての後
    続単語の品詞情報を保持する第2の記憶部と、品詞同士の接続情報を記憶する第3の記憶部と、 仮説を展開中の木構造辞書のコンテクストの品詞情報を
    前記第1の記憶部から受け取り、前記仮説を有するア−
    クの直後のア−クの全ての後続単語の品詞情報を、前記
    第2の記憶部から受け取り、これらの情報から前記コン
    テクストと後続単語が接続可能か否かについて、前記第
    3の記憶部を参照して判断し、後続単語の一つでも接続
    可能である場合には該後続アークへ仮説を展開するよう
    に指示を出し、前記アークの後続の全ての単語が接続不
    可能であるなら該後続アークへ仮説の展開を行わずに、
    仮説を展開しないように指示を出す 仮説展開判断手段
    と、 前記仮説展開判断手段から展開の指示を受けて仮説の展
    開を行なう仮説展開手段と、を備え、 コンテクストと接続しない単語へのアークには仮説が展
    開されないように制御することを特徴とする連続音声認
    識装置。
  2. 【請求項2】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
    説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
    辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
    後に存在する全ての後続単語について品詞の有無の情報
    を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と、 仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と 前記仮説展開判断手段からの展開指示を受け、前記音響
    モデルスコアと前記言語モデルスコアを考慮して、前記
    木構造辞書記憶部からア−クの構造を取得し、該ア−ク
    上にある仮説を後続ア−クへと展開し展開結果を前記仮
    説記憶部に記憶させる仮説展開手段と、 を備え 前記品詞接続情報記憶部が、品詞同士の接続情報を品詞
    の出現頻度順に記憶する ことを特徴とする連続音声認識
    装置。
  3. 【請求項3】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
    説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
    辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
    後に存在する全ての後続単語について品詞の有無の情報
    を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
    モデルスコアと前記言語モデルスコアを考慮して、前記
    木構造辞書記憶部からア−クの構造を取得し、該ア−ク
    上にある仮説を後続ア−クへと展開し展開結果を前記仮
    説記憶部に記憶させる仮説展開手段と、 を備え、 前記後続単語品詞情報記憶部が、前記木構造辞書中のア
    ークにおいて、該アークより後に存在する全ての後続単
    語について、各品詞の有無の情報を、品詞の出現頻度順
    に記憶することを特徴とする連続音声認識装置。
  4. 【請求項4】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
    説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
    辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
    後に存在する全ての後続単語について品詞の有無の情報
    を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
    モデルスコアと前記言語モデルスコアを考慮して、前記
    木構造辞書記憶部からア−クの構造を取得し、該ア−ク
    上にある仮説を後続ア−クへと展開し展開結果を前記仮
    説記憶部に記憶させる仮説展開手段と、 を備え、 前記後続単語品詞情報記憶部が、前記木構造辞書中のア
    ークにおいて、分岐直後のアークについての後続単語品
    詞情報だけを記憶することを特徴とする連続音声認識装
    置。
  5. 【請求項5】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
    説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
    辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
    後に存在する全ての後続単語について品詞の有無の情報
    を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
    モデルスコアと前記言語モデルスコアを考慮して、前記
    木構造辞書記憶部からア−クの構造を取得し、該ア−ク
    上にある仮説を後続ア−クへと展開し展開結果を前記仮
    説記憶部に記憶させる仮説展開手段と、 を備え、 前記仮説展開判断手段が、仮説を展開中の木構造辞書の
    コンテクストの品詞情報を前記木構造辞書記憶部から受
    け取り、前記仮説を有するア−クの直後のア−クの全て
    の後続単語の品詞情報を、前記後続単語品詞情報記憶部
    から受け取り、これらの情報から前記コンテクストと後
    続単語が接続可能か否かについて、前記品詞接続情報記
    憶部を参照して判断し、後続単語の一つでも接続可能で
    ある場合には該後続アークへ仮説を展開するよう前記仮
    説展開手段へ指示を出し、 前記アークの後続の全ての単語が接続不可能であるなら
    該後続アークへ仮説の展開を行わずに、仮説を展開しな
    いよう前記仮説展開手段へ指示を出す、ことを特徴とす
    る連続音声認識装置。
  6. 【請求項6】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
    説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
    辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
    後に存在する全ての後続単語について品詞の有無の情報
    を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
    モデルスコアと前記言語モデルスコアを考慮して、前記
    木構造辞書記憶部からア−クの構造を取得し、該ア−ク
    上にある仮説を後続ア−クへと展開し展開結果を前記仮
    説記憶部に記憶させる仮説展開手段と、 を備え、 前記仮説展開判断手段が、仮説が展開されようとしてい
    る後続アークに、既に仮説が存在する場合には、品詞同
    士の接続ルールを参照する処理を省略して、前記後続ア
    ークに仮説を展開するように前記仮説展開手段に指示を
    出す、ことを特徴とする連続音声認識装置。
  7. 【請求項7】木構造辞書及びその先行コンテクストを記
    憶する第1の記憶部と、 木構造辞書中の各アークについて、該アークの全ての後
    続単語の品詞情報を保持する第2の記憶部と、 品詞同士の接続情報を記憶する第3の記憶部と、を備え
    た音声認識装置の連続音声認識方法であって、 仮説を展開中の木構造辞書のコンテクストの品詞情報を
    前記第1の記憶部から受け取り、前記仮説を有するア−
    クの直後のア−クの全ての後続単語の品詞情報 を、前記
    第2の記憶部から受け取り、これらの情報から前記コン
    テクストと後続単語が接続可能か否かについて、前記第
    3の記憶部を参照して判断し、後続単語の一つでも接続
    可能である場合には該後続アークへ仮説を展開するよう
    に仮説展開処理に指示を出し、 前記アークの後続の全ての単語が接続不可能であるなら
    該後続アークへ仮説の展開を行わずに、仮説を展開しな
    いように前記仮説展開処理に指示を出し、 前記仮説展開処理では、前記展開の指示を受けて仮説の
    展開を行い、 コンテクストと接続しない単語へのアーク
    には仮説が展開されないように制御することを特徴とす
    る連続音声認識方法。
  8. 【請求項8】仮説を記憶する仮説記憶部と、 木構造辞書及びその先行コンテクストを保持する木構造
    辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
    後に存在する全ての後続単語について品詞の有無の情報
    を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を品詞の出現頻度順に記憶する品詞
    接続情報記憶部と、を備えた音声認識装置の連続音声認
    識方法であって、 あるフレ−ム時刻に存在する全ての仮説について以下の
    (a)〜(g)のステップを繰り返し、すなわち、 (a)前記仮説の属する木構造辞書のコンテクストを前
    記木構造辞書記憶部から取得するステップ、 (b)前記品詞接続情報記憶部からコンテクストの品詞
    の品詞接続情報を取得するステップ、 (c)仮説の属する木構造辞書中のア−クを前記仮説記
    憶部から取得するステップ、 前記ア−クの全ての直後の後続ア−クについて以下の
    (d)〜(f)のステップを繰り返し、すなわち、 (d)現在選択されている第1アークの直後の後続ア−
    クを第2ア−クとし、第2ア−ク2の後続単語品詞情報
    を前記後続単語品詞情報記憶部から取得するステップ、 (e)前記取得した品詞接続情報と、前記取得した後続
    単語品詞情報とから、前記仮説を、第1ア−クから第2
    ア−クへ展開しても良いか否か判断し、その際、前記品
    詞接続情報に記されている接続可能な品詞が第2ア−ク
    の後ろにない場合、前記仮説は前記第2ア−クへ展開し
    てはならないと判断し、そうでなければ、前記仮説は第
    2ア−クへ展開してもよいと判断するステップ、 (f)前記仮説が第2ア−クへ展開されるステップ、 (g)前記全ての仮説についてル−プが終了したか否か
    判別し、終了した場合、フレ−ム同期ビ−ムサ−チにお
    ける前記フレ−ムの仮説の展開処理を終えるように制御
    するステップ、 を含む、ことを特徴とする連続音声認識方法。
  9. 【請求項9】前記後続単語品詞情報記憶部が、前記木構
    造辞書中のアークにおいて、該アークより後に存在する
    全ての後続単語について、各品詞の有無の情報を、品詞
    の出現頻度順に記憶することを特徴とする請求項8記載
    の連続音声認識方法。
  10. 【請求項10】仮説を記憶する仮説記憶部と、 木構造辞書及びその先行コンテクストを保持する木構造
    辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
    後に存在する全ての後続単語について品詞の有無の情報
    を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を品詞の出現頻度順に記憶する品詞
    接続情報記憶部と、を備えた音声認識装置において、 あるフレ−ム時刻に存在する全ての仮説について以下の
    (a)〜(g)の処理を繰り返し、 (a)前記仮説の属する木構造辞書のコンテクストを前
    記木構造辞書記憶部から取得する処理、 (b)前記品詞接続情報記憶部からコンテクストの品詞
    の品詞接続情報を取得する処理、 (c)仮説の属する木構造辞書中のア−クを前記仮説記
    憶部から取得する処理、 前記ア−クの全ての直後の後続ア−クについて以下の
    (d)〜(f)の処理を行い、 (d)現在選択されている第1アークの直後の後続ア−
    クを第2ア−クとし、第2ア−ク2の後続単語品詞情報
    を前記後続単語品詞情報記憶部から取得する処理、 (e)前記取得した品詞接続情報と、前記取得した後続
    単語品詞情報とから、前記仮説を、第1ア−クから第2
    ア−クへ展開しても良いか否か判断し、その際、前記品
    詞接続情報に記されている接続可能な品詞が第2ア−ク
    の後ろにない場合、前記仮説は前記第2ア−クへ展開し
    てはならないと判断し、そうでなければ、前記仮説は第
    2ア−クへ展開してもよいと判断する処理、 (f)仮説展開処理では、前記仮説を第2ア−クへ展開
    する処理、 (g)前記全ての仮説についてル−プが終了した場合、
    フレ−ム同期ビ−ムサ−チにおけるこのフレ−ムの仮説
    の展開処理を終えるように制御する処理、 の上記(a)〜(g)の各処理を前記音声認識装置を構
    成するコンピュータで実行させるためのプログラムを記
    録した記録媒体。
JP34515398A 1998-12-04 1998-12-04 連続音声認識装置及び方法 Expired - Fee Related JP3252815B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP34515398A JP3252815B2 (ja) 1998-12-04 1998-12-04 連続音声認識装置及び方法
US09/453,153 US6484141B1 (en) 1998-12-04 1999-12-02 Continuous speech recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34515398A JP3252815B2 (ja) 1998-12-04 1998-12-04 連続音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2000172293A JP2000172293A (ja) 2000-06-23
JP3252815B2 true JP3252815B2 (ja) 2002-02-04

Family

ID=18374650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34515398A Expired - Fee Related JP3252815B2 (ja) 1998-12-04 1998-12-04 連続音声認識装置及び方法

Country Status (2)

Country Link
US (1) US6484141B1 (ja)
JP (1) JP3252815B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704553B1 (en) * 1997-10-08 2004-03-09 Thomas M. Eubanks System and method for providing automatic tuning of a radio receiver and for providing automatic control of a CD/tape player
US7881935B2 (en) * 2000-02-28 2011-02-01 Sony Corporation Speech recognition device and speech recognition method and recording medium utilizing preliminary word selection
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
JP3581881B2 (ja) * 2000-07-13 2004-10-27 独立行政法人産業技術総合研究所 音声補完方法、装置および記録媒体
JP4215418B2 (ja) * 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US20040190687A1 (en) * 2003-03-26 2004-09-30 Aurilab, Llc Speech recognition assistant for human call center operator
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8306810B2 (en) * 2008-02-12 2012-11-06 Ezsav Inc. Systems and methods to enable interactivity among a plurality of devices
CN102027534B (zh) * 2008-05-16 2013-07-31 日本电气株式会社 语言模型得分前瞻值赋值方法及设备
US8359192B2 (en) * 2008-11-19 2013-01-22 Lemi Technology, Llc System and method for internet radio station program discovery
CN103903619B (zh) * 2012-12-28 2016-12-28 科大讯飞股份有限公司 一种提高语音识别准确率的方法及***
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
WO2021015319A1 (ko) * 2019-07-22 2021-01-28 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
JP3425165B2 (ja) 1992-09-22 2003-07-07 富士通株式会社 連続文音声認識装置
JPH06308994A (ja) 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 日本語音声認識方法
JP2905674B2 (ja) 1993-10-04 1999-06-14 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者連続音声認識方法
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US5615299A (en) * 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features
US5610812A (en) * 1994-06-24 1997-03-11 Mitsubishi Electric Information Technology Center America, Inc. Contextual tagger utilizing deterministic finite state transducer
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language

Also Published As

Publication number Publication date
US6484141B1 (en) 2002-11-19
JP2000172293A (ja) 2000-06-23

Similar Documents

Publication Publication Date Title
JP3252815B2 (ja) 連続音声認識装置及び方法
CN108305634B (zh) 解码方法、解码器及存储介质
JP3414735B2 (ja) 複合ワードを有する言語のための音声認識装置
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
EP0867857B1 (en) Enrolment in speech recognition
US8639507B2 (en) Voice recognition system, voice recognition method, and program for voice recognition
US5875426A (en) Recognizing speech having word liaisons by adding a phoneme to reference word models
WO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JPH11249677A (ja) 音声合成装置の韻律制御方法
US6980954B1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
KR101747873B1 (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
JP2002221984A (ja) 異種環境音声データの音声検索方法及び装置
JPH08248980A (ja) 音声認識装置
US6772116B2 (en) Method of decoding telegraphic speech
JP3027557B2 (ja) 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体
Zheng A syllable-synchronous network search algorithm for word decoding in Chinese speech recognition
Lau Subword lexical modelling for speech recognition
JP2004151527A (ja) 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム
JP3525999B2 (ja) 言語理解方法及び言語理解装置
JP2905686B2 (ja) 音声認識装置
JP2002311982A (ja) 韻律情報設定方法及び装置並びにプログラム及び記録媒体
JP2002258884A (ja) 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3573889B2 (ja) 音声出力装置
JPH0695684A (ja) 音声認識システム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011023

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071122

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081122

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081122

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091122

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131122

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees