JP2008058341A - 単語分類装置及び音声認識装置及び単語分類プログラム - Google Patents

単語分類装置及び音声認識装置及び単語分類プログラム Download PDF

Info

Publication number
JP2008058341A
JP2008058341A JP2006231471A JP2006231471A JP2008058341A JP 2008058341 A JP2008058341 A JP 2008058341A JP 2006231471 A JP2006231471 A JP 2006231471A JP 2006231471 A JP2006231471 A JP 2006231471A JP 2008058341 A JP2008058341 A JP 2008058341A
Authority
JP
Japan
Prior art keywords
word
context
class
classes
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006231471A
Other languages
English (en)
Other versions
JP4820240B2 (ja
Inventor
Akio Kobayashi
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2006231471A priority Critical patent/JP4820240B2/ja
Publication of JP2008058341A publication Critical patent/JP2008058341A/ja
Application granted granted Critical
Publication of JP4820240B2 publication Critical patent/JP4820240B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】本発明は、同じ表記で異なる意味を持つ単語の取り扱いができ、言語モデルにおける確率値の計算時間を短縮することができる単語分類装置及び音声認識装置及び単語分類プログラムを提供することを目的とする。
【解決手段】単語リストとして与えられた複数の単語について、学習テキストにおいて前記単語の文脈の異なりに応じて複数の文脈クラスを設定する文脈クラス設定手段と、任意の単語が所属する文脈クラスと他の文脈クラスとを併合したときの尤度を計算して最適の組み合わせの文脈クラスを併合する文脈クラス併合手段と、前記文脈クラスに基づいて割り当てた単語クラスを用いて統計的手順により言語モデルを生成する言語モデル生成手段を有する。
【選択図】図5

Description

本発明は、単語分類装置及び音声認識装置及び単語分類プログラムに関し、単語が所属するクラスを統計的に分類する単語分類装置及び音声認識装置及び単語分類プログラムに関する。
音声認識においては、入力音声を音響モデルとマッチングすることで文字列を得て、この文字列を統計的言語モデルとマッチングすることで文字列の構成する文章を認識する。この統計的言語モデルは、予め用意された学習テキストの単語を分類することで作成される。
統計的言語モデルなどでは、学習データが少ない場合、ある単語履歴(文脈)から単語を予測する際の精度が劣化する。この際、単語をあるクラスで代表させることにより、学習テキストにおけるデータスパースネスを回避し、単語の予測精度が改善されることが分かっている。
単語を統計的に適切なクラスにクラスタリング(分類)する単語分類手法は、これまでに多く提案されているが、代表的な手法として非特許文献1や非特許文献1に記載の方法がある。
非特許文献1に記載の方法は、単語は1つのクラスに所属するものとし、学習テキストに現れる単語の頻度のみに基づいて単語の分類を行う。非特許文献2に記載の方法は、クラスの総数を予め定めておき、単語が複数のクラスすべてに所属するものとして単語の分類を行う。
R.Kneser and H.Ney,"Improved Clustering Techniques for Class−based Statistical Language Modeing,"Eurospeech93,PP.993−996,1993. L.Saul and F.Pereira,"Aggregate and Mixed−order Markov Models for Statistical Language Processing,"Proceedings of the 2nd International Conference on Empirical Methods in Natural Language Processing,pp.81−89,1997 北研二,"確率的言語モデル"東京大学出版,pp.57−62,1999 伊藤秀一ほか,"モデル選択"岩波書店,pp.108−113,2005 下平英寿ほか,"モデル選択"岩波書店,pp.24−25,2005
非特許文献1に記載の方法は、学習テキストに現れる単語の頻度のみに基づいて単語の分類を行っている。このため、単語の所属するクラスは単一であり、同じ表記でありながら異なる意味を持つ単語の取り扱いが困難であるという問題があった。
非特許文献2に記載の方法は、単語が複数のクラスに所属することを許しているが、単語は規定されたクラスのすべてに所属することを前提としているため、リアルタイム性を要求されるアプリケーションでは、クラスの総数が増加すると、言語モデルにおける確率値の計算が煩雑となり膨大な時間がかかる。また、非特許文献2における分類アルゴリズムは、所属クラスの総数が予め定められているため、学習テキストと語彙に最適なクラス数を設計することは困難であるという問題があった。
本発明は、上記の点に鑑みなされたもので、同じ表記で異なる意味を持つ単語の取り扱いができ、言語モデルにおける確率値の計算時間を短縮することができる単語分類装置及び音声認識装置及び単語分類プログラムを提供することを目的とする。
本発明の単語分類装置は、
単語リストとして与えられた複数の単語について、学習テキストにおいて前記単語の文脈の異なりに応じて複数の文脈クラスを設定する文脈クラス設定手段と、
任意の単語が所属する文脈クラスと他の文脈クラスとを併合したときの尤度を計算して最適の組み合わせの文脈クラスを併合する文脈クラス併合手段と、
前記文脈クラスに基づいて割り当てた単語クラスを用いて統計的手順により言語モデルを生成する言語モデル生成手段を有することにより、同じ表記で異なる意味を持つ単語の取り扱いができ、言語モデルにおける確率値の計算時間を短縮することができる。
前記単語分類装置において、
前記文脈クラスに基づいて割り当てた単語クラスのうち、任意の単語クラスと他の単語クラスとを併合したときの尤度を計算して最適の組み合わせの単語クラスを併合して前記言語モデル生成手段に供給する単語クラス併合手段を有することができる。
前記単語分類装置において、
前記文脈は、単語リストとして与えられた単語の前後の単語列であることができる。
本発明の音声認識装置は、前記単語分類装置で生成した言語モデルを用いて音声認識を行う音声認識手段を有することができる。
本発明の単語分類プログラムは、コンピュータを、
単語リストとして与えられた複数の単語について、学習テキストにおいて前記単語の文脈の異なりに応じて複数の文脈クラスを設定する文脈クラス設定手段、
任意の単語が所属する文脈クラスと他の文脈クラスとを併合したときの尤度を計算して最適の組み合わせの文脈クラスを併合する文脈クラス併合手段、
前記文脈クラスに基づいて割り当てた単語クラスを用いて統計的手順により言語モデルを生成する言語モデル生成手段、として機能させることができる。
本発明によれば、同じ表記で異なる意味を持つ単語の取り扱いができ、言語モデルにおける確率値の計算時間を短縮することができる。
以下、図面を参照して本発明の実施の形態について詳細に説明する。
<本発明の原理>
本発明では、学習テキストと予め定められた語彙を用いて、
(1)単語を文脈にしたがって分類し、文脈クラスを統計的に推定する。
(2)上記にしたがって文脈分類されたクラスをマージし、単語クラスを統計的に推定する。
上記2つの推定を行い、音声認識で用いられる統計的言語モデルの予測精度を向上させる。
例えば、「森」という単語について考える。図1(A)に示す「森前総理大臣」の「森」と、図1(B)に示す「森に住む動物」の「森」では表記は同じであるが、単語の指し示す品詞、あるいは意味が異なっている。前者の「森」は人名を指す固有名詞であるのに対し、後者の「森」は「木々が集まった場所を指す普通名詞である。
固有名詞「森」の場合は文脈から後続する単語は「総理」「首相」などが期待される一方、普通名詞「森」の場合は文脈から助詞が後続すると考えられる。
一方、図1(C)に示す固有名詞「小泉」は固有名詞「森」と同様の文脈、すなわち、後続する単語として「首相」「総理」を取るものとする。
このとき、単語の分類として尤もらしいと考えられるのは、固有名詞「小泉」と固有名詞「森」を同一クラスに分類することである。また、普通名詞「森」は、固有名詞「森」と同じクラスではなく、他のふさわしい単語、例えば普通名詞「林」と同一のクラスに分類されるべきである。
上記の単語「森」のように、同一表記を持つ単語を文脈に応じて分類するために、文脈クラスを導入する。文脈クラスの導入により、単語を分類する際の同一表記の取り扱いの問題を解決することができる。さらに、文脈クラスによる分類と、単語クラスによる分類の2段階のクラスタリングを導入し、学習テキストに最適化された単語分類を可能とする。
<単語分類装置のハードウェア構成>
図2は、本発明の単語分類装置を含む音声認識装置のハードウェア構成を示す一実施形態のブロック図を示す。音声認識装置は、専用の装置構成とすることもできるが、例えば、汎用のパーソナルコンピュータ、ワークステーション等を適用することができる。
図2において、音声認識装置は、入力装置11と、出力装置12と、ドライブ装置13と、補助記憶装置14と、メモリ装置15と、演算処理装置16と、データベース17から構成されており、これらはシステムバス18で相互に接続されている。
入力装置11は、使用者が操作するキーボード及びマウス、音声入力用のマイクロホンを有しており、各種信号を入力する。出力装置12は、単語分類及び音声認識処理のプログラムを操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、実行プログラムに基づいて表示される。
ここで、本発明において、音声認識装置にインストールされる単語分類及び音声認識処理の実行プログラムは、例えば、CD−ROM等の記録媒体19等により提供される。プログラムを記録した記録媒体19はドライブ装置13に装着され、記憶媒体19に格納された実行プログラムが、記録媒体19からドライブ装置13を介して補助記憶装置14にインストールされる。
演算処理装置16は、補助記憶装置14から少しずつ読み出されてメモリ装置15に格納されている実行プログラムに基づいて、各種演算や後述する各処理を含む音声認識装置全体の処理を制御する。また、プログラムの実行中に必要な各種情報は、データベース17から取得することができ、また格納することもできる。
<音声認識装置の機能構成>
図3は、本発明の音声認識装置の一実施形態の機能構成図を示す。同図中、学習テキスト21は予め補助記憶装置14に格納されており、補助記憶装置14からメモリ装置15内の所定領域に転送される。また、入力装置11から音声認識させたい語彙及び文脈クラスを求めたい単語リストが入力されメモリ装置15内の所定領域に格納される。演算処理装置16で実行されるプログラムである分類部22すなわち本発明の単語分類装置によって所定領域の学習テキスト21が演算処理装置16内で処理されて適切な単語クラスに分類され、分類された単語クラスが当該単語に属性として付与され、言語モデル23としてデータベース17に格納される。
音響モデル24は予めデータベース17に格納されている。演算処理装置16で実行されるプログラムである音声認識部25が実行されるとき、言語モデル23及び音響モデル24はデータベース17からメモリ装置15内の所定領域に転送される。
入力装置11からの入力音声は、メモリ装置15内のバッファ領域に一時格納され、音声認識部25によって言語モデル23及び音響モデル24とマッチングされ、最も尤度の高い単語が認識された単語列27として出力され、単語列27は補助記憶装置14に格納されると共に、出力装置12のディスプレイに表示される。
図4は、音声認識部25の一実施形態の機能構成図を示す。同図中、学習テキスト21は、例えばニュース原稿あるいはニュース書き起こしなどのテキストデータである。また、学習テキスト21は、事前に形態素解析により形態素(単語)単位に分割されているものとする。学習テキスト21に対し、文脈分類部30において所望の単語(単語リスト)に対し、文脈クラス31を求める。
単語分類部32は、学習テキスト21及び文脈クラス31から単語クラス33を求める。言語モデル学習部34は、単語クラス33に基づく統計的な処理により言語モデル23を作成する。統計的な言語モデルについては、例えば非特許文献3に記載されているNグラムモデルがある。
図5は、文脈分類部30が実行する処理の一実施形態のフローチャートを示す。同図中、ステップS11で学習テキスト21と単語リストが与えられ、メモリ装置15内の所定領域に格納される。
単語リストとは、音声認識させたい単語である語彙νのうち、文脈クラスを求めたい単語をリストにしたものであり、これをLとする。例えば、語彙νに含まれる名詞のみの文脈クラスを求めたい場合、語彙νに含まれる単語のうち名詞のみを単語リストとして与える。なお、語彙の総数を|ν|、リスト中の単語の総数を|L|とする。
ステップS12では、単語リストに存在するすべての単語について学習テキスト21から文脈クラスを求めたか否かを判定し、すべての文脈クラスを求めていなければステップS13に進み、すべての文脈クラスを求めていれば、この処理を終了する。
ステップS13(初期化)では、単語リストから単語ω(ω∈L)を1つ取り出す。いま、学習テキスト21中で単語ωが文脈xを伴って観測されたとする。ここで、文脈xは単語ωの前後の単語列、または、形態素解析等の適当な手段により付与された品詞列、分類語彙表等のシソーラスから得られた意味分類番号、係り受け解析により得られた単語ωに係る文節の主辞等とする。
単語ωとして図1(A),(B)に示す「森」を例に取って説明する。簡便のため、単語「森」の文脈を後続する1単語とする。このとき「森」は「前」「総理」「首相」「の」「から」「に」の6種類の後続単語を文脈xとして持っていることになる。
ステップS13では、単語ωについて、文脈xの異なりに応じて文脈クラスを定める。図1(A)に示す後続単語「前」を持つ「森」を文脈クラス0に割り当て、後続単語「総理」を持つ「森」を文脈クラス1に割り当て、図1(B)に示す後続単語「の」を持つ「森」を文脈クラス2に割り当て、後続単語「に」を持つ「森」を文脈クラス3に割り当て、図7に示すような合計6つの文脈クラスをメモリ装置15内の文脈クラス領域に格納する。さらに、図1(C)に示す単語「小泉」についても3つの文脈クラスをメモリ装置15内の文脈クラス領域に格納する。
ステップS14(仮分類)では、単語ωの所属する文脈クラスy(k=0,1,2,…)としたとき、すべての文脈クラスyの組み合わせについて、文脈クラスyと文脈クラスyk’(k’=0,1,2,…)を併合したときにおける尤度を演算処理装置16で計算する。
ここで、尤度は、MDL原理(Minimum Description Length)やAIC(赤池情報量基準)などの統計的な基準に基づいて計算される値である。MDL原理であれば、尤度L’MDLは(1)式で表される。AICであれば、尤度L’AICは(2)式で表される。
Figure 2008058341

ただし、d’は併合による分類後の文脈クラス数、Nは学習テキスト21の総単語数である。P(y|x)は文脈xが与えられたときの文脈クラスyの条件付き確率を表し、(1),(2)式の右辺第1項は対数尤度であり、右辺第2項は併合したことによるペナルティである。また、尤度L’MDL,L’AICは値が小さいほど尤もらしいことを表す。
なお、MDL原理については、例えば非特許文献4に記載されており、AICについては、例えば非特許文献5に記載されている。
以下ではMDL原理にしたがって説明する。ステップS15では、ある文脈クラス同士を併合したときの尤度L’MDLと併合前の尤度LMDLを比較し、(3)式にて差分を求める。
ΔMDL=LMDL−L’MDL …(3)
この差分△MDLが最大となる併合を最適とする。
例えば、「総理」を文脈とする文脈クラス1の単語「森」、「の」を文脈とする文脈クラス2の単語「森」、「に」を文脈とする文脈クラス3の単語「森」に対し、ΔMDL1を「総理」を文脈とする「森」と、「の」を文脈とする「森」を併合したときの差分とし、ΔMDL2を「の」を文脈とする「森」と、「に」を文脈とする「森」を併合したときの差分として、(1)式と(3)式からΔMDL1とΔMDL2をそれぞれ計算する。
このとき、「の」「に」が共に助詞であるという情報が条件付き確率P(y|x)に反映されていれば、ΔMDL2の方がΔMDL1より大きくなると期待され、「の」を文脈とする「森」と、「に」を文脈とする「森」を併合することが妥当であると見なされる。
したがって、「の」を文脈とする「森」と、「に」を文脈とする「森」を併合した「の」を文脈とする「森」の文脈クラス2と、「に」を文脈とする「森」の文脈クラス3が併合されることとなり、「総理」を文脈とする「森」(文脈クラス1)は併合されないままとなる。
もし、△MDLが予め定められた閾値を下回ったときは、ステップS15からステップS17に進んで、単語ωに対する文脈クラス31を出力し、ステップS12に戻る。
一方、△MDLが予め定められた閾値以上の場合はステップS15からステップS16(分類)に進んで、ステップS15で最適とされた、併合した文脈クラスを採用(更新)しステップS14に進んで処理を繰り返す。
上記手順により、最適な文脈クラスとして、「前」「総理」「首相」を文脈とする文脈クラス1と、「の」「に」「から」を文脈とする文脈クラス2が得られる。すなわち表記が同一の単語「森」であっても異なる2つの文脈クラスが得られる。このようにして、類似する文脈クラスどうしが同一の文脈クラスに併合される。図8に併合された文脈クラス31を示す。この文脈クラス31はメモリ装置15内の文脈クラス領域に格納される。
図6は、単語分類部32が実行する処理の一実施形態のフローチャートを示す。同図中、ステップS21で学習テキスト21と文脈クラス31が与えられ、メモリ装置15内の所定領域に格納される。ここでは、学習テキスト21における単語ωについて、文脈クラス31としてy(i=0,1,2,…)が求められているものとする。
ステップS22(初期化)では、文脈クラスyにしたがって、単語を独立した単語クラスに割り当てる。例えば、「森」は2つの文脈クラスを持つので、「森(文脈クラス1)」を単語クラスcに割り当てて単語ωとし、「森(文脈クラス2)」は単語クラスcに割り当てて単語クラスωとする。
一方、図1(C)では、「小泉」は1つの文脈クラスを持ち、例えば単語クラスcに割り当てて単語ωとする。この様子を図9に示す。
ステップS23(仮分類)では、任意の単語クラスのペアについて、これらを併合したときのMDL原理の尤度L’MDLを演算処理装置16で(4)式により計算する。
Figure 2008058341
ここで、G(ω)は文脈クラスyを持つ単語ωを単語クラスc(j=0,1,2,…)に変換する関数である。なお、右辺第1項は単語クラスバイグラムの対数尤度を示している。右辺第2項は併合したことによるペナルティである。
ステップS24では、併合したときの尤度L’MDLと併合前の尤度LMDLを比較し、(5)式にて差分を求める。
ΔMDL=LMDL−L’MDL …(5)
(5)式をすべての単語クラスの併合に対して計算し、ΔMDLが最大となる併合を最適とする。もし、ΔMDLが予め定められた閾値を下回ったときは、ステップS24からステップS26に進んで、単語クラス33を結果として出力する。
一方、△MDLが予め定められた閾値以上の場合はステップS24からステップS25(分類)に進んで、ステップS24で最適とされた、併合した単語クラスを採用(更新)しステップS23に進んで処理を繰り返す。
上記の手順を図1に基づいて説明すると、「総理」などを文脈とする「森」(単語ω)が単語クラスcに所属し、「の」などを文脈とする「森」(単語ω)が単語クラスcに所属し、「総理」などを文脈とする「小泉」(単語ω)が単語クラスcに所属しているとする。
ここでも、ΔMDL1を単語クラスcと単語クラスcを併合したときの差分とし、ΔMDL2を単語クラスcと単語クラスcを併合したときの差分とする。単語クラスcと単語クラスcを比べると、「総理」「首相」が共通の文脈であるため、ΔMDL2の方がΔMDL1よりも大きくなることが期待される。したがって、単語クラスcが単語クラスcに併合され、固有名詞の「森」と「小泉」が同じ単語クラスcに所属することになる。これに対して、単語クラスcは併合されないままとなる。
このようにして、類似する文脈を持つ単語どうしが同一の単語クラスに併合されることで単語クラスの数は減少し、最適な単語クラスが得られる。図10に併合された単語クラス33を示す。この単語クラス33はメモリ装置15内の単語クラス領域に格納される。
学習テキスト21では単語「森」は、「前」「総理」「首相」を文脈とし、「大臣」を文脈としていないため、従来の非特許文献1に記載の方法では、単語「森」に続いて単語「大臣」が生成される確率は非常に小さかったのに対し、本実施形態では、固有名詞の「森」と「小泉」が同じ単語クラスcに所属するため、単語「森」に続いて単語「大臣」が生成される確率は大きくなる。
上記処理の終了後、得られた図10に示すような単語クラス33を用いて、図4に示す言語モデル学習部34は統計的手順により言語モデル23を作成する。言語モデル学習部34は演算処理装置16で実行されるプログラムである。
ここで、ある単語列ωの生起確率を表わす際、単語の出現確率に、ある単語の出現は直前の数単語に依存するというマルコフ性を仮定すると、(6a)式のようになる。この式は単語ωの出現が直前の単語ωi−2,ωi−1に依存するという単語トライグラムの積で単語列ωの生起確率を表わしたことになる。
Figure 2008058341
メモリ装置15内に格納された学習テキスト21に含まれる単語列ωの第i番目の単語ωについて、単語ωの出現確率をクラストライグラムの確率P(ω)により(6b)式で表す。ここで、cは単語ωに対する単語クラスであり、P(c|ci−2,ci−1)がマルコフ性を表わし、P(ω|c)がクラスからの単語の出現確率を表わす。なお、クラストライグラムの代りにクラスバイグラムの確率を用いても良い。
P(ω)=P(ω|c)P(c|ci−2,ci−1) …(6b)
ここで、クラストライグラムは(6a)式の単語トライグラムに対して、マルコフ性を単語ではなく単語クラスで表現し、単語は所属する単語クラスの出現確率に依存するとしたもので、(6c)式のようになる。本実施形態では、単語ωに対応する単語クラスは複数存在する。このため、単語列ωの確率P(ω)を(6c)式が最大となるような単語クラス列c^を演算処理装置16で求める。
Figure 2008058341
すなわち、(7)式を満たすcを単語クラス列c^として求める。そして、単語クラス列c^から得られる確率値Ps(ω)を(8)式により演算処理装置16で求め、この確率値Ps(ω)を言語モデルのスコアとする言語モデル23を作成し、データベース17に格納する。
Figure 2008058341
ここでは、単語「森」に対応する単語クラスは図10に示すクラスc,cが存在するが、単語列ωの確率値P(ω)が最大となるクラスc,cのいずれかが選択され、単語クラス列c^に入れられる。
これは、音声認識する際には単語の表記のみが与えられる。すなわち、「森」という表記のみが既知であり、これがクラスc,cのいずれのクラスであるかが分かっていないために、確率値P(ω)が最大となるクラスを選択しているのである。
図3に示す音声認識部60では、データベース17からメモリ装置15内の所定領域に転送された言語モデル23のスコアPs(ω)、及び音響モデル24から求められる入力音声zに対するスコアP(z|ω)を用いて、両者のスコアの積が最も高くなるような単語列ω^を(9)式で求め、正解の単語列27として補助記憶装置14に格納すると共に、出力装置12から出力する。
Figure 2008058341
上記のスコアPs(ω)は(8)式により求めた単語クラス列の確率値を表しており、スコアP(Z/ω)は単語列の音響的な尤度を与えている。そして、(9)式は両スコアの積を最大化する単語列ω^を求めることを表している。
本実施形態では、単語の単語クラスが文脈によって分類され、同じ表記でありながら異なる意味を持つ単語を取り扱うことが可能となる。また、単語はすべての単語クラスに所属する必要はないので言語モデルにおける確率値の計算量は従来の非特許文献2に記載の方法ほど多くはならず、確率値の計算にかかる時間を短縮できる。つまり、文脈に応じた詳細な単語の分類結果を得ることができる。また、統計的言語モデルとして利用した場合、音声認識装置の単語認識率が向上する。
なお、ステップS13が請求項記載の文脈クラス設定手段に相当し、ステップS14,S16が文脈クラス併合手段に相当し、言語モデル学習部34が言語モデル生成手段に相当し、ステップS23,S25が単語クラス併合手段に相当し、音声認識部25が音声認識手段に相当する。
単語の分類を説明するための図である。 本発明の単語分類装置を含む音声認識装置のハードウェア構成を示す一実施形態のブロック図である。 本発明の音声認識装置の一実施形態の機能構成図である。 音声認識部の一実施形態の機能構成図である。 文脈分類部が実行する処理の一実施形態のフローチャートである。 単語分類部が実行する処理の一実施形態のフローチャートである。 文脈クラスを示す図である。 併合された文脈クラスを示す図である。 単語の単語クラスへの割り当てを示す図である。 併合された単語クラスを示す図である。
符号の説明
11 入力装置
12 出力装置
13 ドライブ装置
14 補助記憶装置
15 メモリ装置
16 演算処理装置
17 データベース
18 システムバス
19 記憶媒体
21 学習テキスト
22 分類部
23 言語モデル
24 音響モデル
25 音声認識部
26 入力音声
27 単語列
30 文脈分類部
31 文脈クラス
32 単語分類部
33 単語クラス
34 言語モデル学習部

Claims (5)

  1. 単語リストとして与えられた複数の単語について、学習テキストにおいて前記単語の文脈の異なりに応じて複数の文脈クラスを設定する文脈クラス設定手段と、
    任意の単語が所属する文脈クラスと他の文脈クラスとを併合したときの尤度を計算して最適の組み合わせの文脈クラスを併合する文脈クラス併合手段と、
    前記文脈クラスに基づいて割り当てた単語クラスを用いて統計的手順により言語モデルを生成する言語モデル生成手段を
    有することを特徴とする単語分類装置。
  2. 請求項1記載の単語分類装置において、
    前記文脈クラスに基づいて割り当てた単語クラスのうち、任意の単語クラスと他の単語クラスとを併合したときの尤度を計算して最適の組み合わせの単語クラスを併合して前記言語モデル生成手段に供給する単語クラス併合手段を
    有することを特徴とする単語分類装置。
  3. 請求項1または2記載の単語分類装置において、
    前記文脈は、単語リストとして与えられた単語の前後の単語列であることを特徴とする単語分類装置。
  4. 請求項1乃至3のいずれか1項記載の単語分類装置で生成した言語モデルを用いて音声認識を行う音声認識手段を
    有することを特徴とする音声認識装置。
  5. コンピュータを、
    単語リストとして与えられた複数の単語について、学習テキストにおいて前記単語の文脈の異なりに応じて複数の文脈クラスを設定する文脈クラス設定手段、
    任意の単語が所属する文脈クラスと他の文脈クラスとを併合したときの尤度を計算して最適の組み合わせの文脈クラスを併合する文脈クラス併合手段、
    前記文脈クラスに基づいて割り当てた単語クラスを用いて統計的手順により言語モデルを生成する言語モデル生成手段、
    として機能させるための単語分類プログラム。
JP2006231471A 2006-08-29 2006-08-29 単語分類装置及び音声認識装置及び単語分類プログラム Expired - Fee Related JP4820240B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006231471A JP4820240B2 (ja) 2006-08-29 2006-08-29 単語分類装置及び音声認識装置及び単語分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006231471A JP4820240B2 (ja) 2006-08-29 2006-08-29 単語分類装置及び音声認識装置及び単語分類プログラム

Publications (2)

Publication Number Publication Date
JP2008058341A true JP2008058341A (ja) 2008-03-13
JP4820240B2 JP4820240B2 (ja) 2011-11-24

Family

ID=39241197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006231471A Expired - Fee Related JP4820240B2 (ja) 2006-08-29 2006-08-29 単語分類装置及び音声認識装置及び単語分類プログラム

Country Status (1)

Country Link
JP (1) JP4820240B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237351A (ja) * 2009-03-31 2010-10-21 Nec Corp ユーザ辞書作成システム、方法、及び、プログラム
JP2011053312A (ja) * 2009-08-31 2011-03-17 Nippon Hoso Kyokai <Nhk> 適応化音響モデル生成装置及びプログラム
CN102256125A (zh) * 2011-07-14 2011-11-23 北京工业大学 面向高效视频编码hevc基于上下文的自适应算数编码方法
WO2014106979A1 (ko) * 2013-01-02 2014-07-10 포항공과대학교 산학협력단 통계적 음성 언어 이해 방법
JP2015141253A (ja) * 2014-01-27 2015-08-03 日本放送協会 音声認識装置、及びプログラム
WO2023073886A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143875A (ja) * 1997-11-10 1999-05-28 Nec Corp 単語自動分類装置及び単語自動分類方法
JP2001516903A (ja) * 1997-09-17 2001-10-02 シーメンス アクチエンゲゼルシヤフト コンピュータによる言語認識の際に少なくとも2つの単語から成るシーケンスの発生する確率を求める方法
JP2006003413A (ja) * 2004-06-15 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 音声自動応答方法、この方法を実施する装置、音声自動応答プログラムおよびその記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001516903A (ja) * 1997-09-17 2001-10-02 シーメンス アクチエンゲゼルシヤフト コンピュータによる言語認識の際に少なくとも2つの単語から成るシーケンスの発生する確率を求める方法
JPH11143875A (ja) * 1997-11-10 1999-05-28 Nec Corp 単語自動分類装置及び単語自動分類方法
JP2006003413A (ja) * 2004-06-15 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 音声自動応答方法、この方法を実施する装置、音声自動応答プログラムおよびその記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237351A (ja) * 2009-03-31 2010-10-21 Nec Corp ユーザ辞書作成システム、方法、及び、プログラム
JP2011053312A (ja) * 2009-08-31 2011-03-17 Nippon Hoso Kyokai <Nhk> 適応化音響モデル生成装置及びプログラム
CN102256125A (zh) * 2011-07-14 2011-11-23 北京工业大学 面向高效视频编码hevc基于上下文的自适应算数编码方法
WO2014106979A1 (ko) * 2013-01-02 2014-07-10 포항공과대학교 산학협력단 통계적 음성 언어 이해 방법
US9489942B2 (en) 2013-01-02 2016-11-08 Postech Academy-Industry Foundation Method for recognizing statistical voice language
JP2015141253A (ja) * 2014-01-27 2015-08-03 日本放送協会 音声認識装置、及びプログラム
WO2023073886A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Also Published As

Publication number Publication date
JP4820240B2 (ja) 2011-11-24

Similar Documents

Publication Publication Date Title
US10134388B1 (en) Word generation for speech recognition
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
JP2001101187A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2004362584A (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2002287787A (ja) 明確化言語モデル
JP2007115145A (ja) 会話制御装置
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP2002041080A (ja) 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
JP5799733B2 (ja) 認識装置、認識プログラムおよび認識方法
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
US20220310067A1 (en) Lookup-Table Recurrent Language Model
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP2001075964A (ja) 情報処理装置および情報処理方法、並びに記録媒体
Rudzionis et al. Web services based hybrid recognizer of Lithuanian voice commands
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JPH11143493A (ja) 音声言語理解装置及び音声言語理解システム
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110809

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110902

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4820240

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees