JP5914054B2 - 言語モデル作成装置、音声認識装置、およびそのプログラム - Google Patents
言語モデル作成装置、音声認識装置、およびそのプログラム Download PDFInfo
- Publication number
- JP5914054B2 JP5914054B2 JP2012048231A JP2012048231A JP5914054B2 JP 5914054 B2 JP5914054 B2 JP 5914054B2 JP 2012048231 A JP2012048231 A JP 2012048231A JP 2012048231 A JP2012048231 A JP 2012048231A JP 5914054 B2 JP5914054 B2 JP 5914054B2
- Authority
- JP
- Japan
- Prior art keywords
- appearance frequency
- text
- language model
- frequency information
- adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006978 adaptation Effects 0.000 claims description 55
- 238000007781 pre-processing Methods 0.000 claims description 46
- 238000004458 analytical method Methods 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 40
- 238000003860 storage Methods 0.000 claims description 38
- 238000010276 construction Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 34
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 79
- 238000012545 processing Methods 0.000 description 17
- 238000012986 modification Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)学習テキストにおいて、「特徴」という単語の次に「は」が出現する確率
(2)学習テキストにおいて、「は」という単語の次に「糖分」が出現する確率
(3)学習テキストにおいて、「糖分」という単語の次に「です」が出現する確率
また、事前に認識対象がわからない場合には、認識対象に合致した学習テキストを得ることができない。
また、事前に認識対象に関するテキスト(例えば、講演に対してはその概要を表わすテキスト、放送番組に対してはその番組の予告情報のテキスト)が得られたとしても、そこから明確な話題を正しく読み取れない場合には、たとえ人手に頼っても、話題に合致した学習テキストを適切に選択することは困難である。
また、特許文献2に記載されている技術では、話題が多数の場合には言語モデルを記憶するために要する記憶容量が多く必要となる。また、話題ごとの言語モデルに正確に話題性が反映されていない場合には、言語モデルの性能向上は限定的である。
また、非特許文献1に記載されている技術では、すべての学習テキストを用いて構築した単一の言語モデルに対して、事前に入手し得る講義スライドのテキストと学習テキストとの間の話題の関連性を単語の出現確率に基づく尺度で計算して、その結果得られた値に応じて前記言語モデルの確率値を増減させている。この技術で効果を得るためには、各学習テキストに共通する単語や単語列を効果的に表現できる、確率統計的な手法を必要とする。
[A2]言語モデル構築部は、一態様として、生成された適応後出現頻度情報の値を元に変換を行うことによって、当該適応後出現頻度情報が表わす言語要素列の次数(K)よりも小さい次数(N)を有するNグラム言語モデルを構築する。
[A3]言語モデル構築部は、一態様として、[A2]で構築されたNグラム言語モデルと、学習テキスト全体から構築される言語モデル(Nグラムモデル)とを線形補間する。
[A4]言語モデル構築部は、一態様として、[A2]において、複数の次数Kの各々により適応後出現頻度情報を算出し、それらに基づいてNグラム言語モデルを構築する。
また、本発明によれば、K=1の場合(適応用テキストの単語の統計量を用いる場合)も、K>1の場合(単語列の統計量を用いる場合)も、実装するアプリケーションの規模に応じて、適応用テキストの話題により良く適応した言語モデルを構築することができる。
また、本発明によれば、適応用テキストへの過適応の問題を避けることができる。
また、本発明によれば、人の判断により話題を分類したり特定したりすることなく、言語モデルの適応化を行うことができる。
以下、図面を参照しながら、本発明の実施形態について説明する。特に示さない限りは、以下で述べることは第1実施形態から第4実施形態までに共通の事項である。第1〜第4実施形態の各々に特有の技術事項は、言語モデル構築部12における言語モデルの構築のしかたに関するものであり、それについては下で実施形態ごとに個別に説明する。
認識結果出力部6は、正解単語探索部3によって求められた単語列(正解であると判定された最尤単語列)を、認識結果として出力する。
まず、そのための、テキスト前処理部8bによる処理から説明する。テキスト前処理部8bは、適応用テキスト記憶部11から適応用テキストを読み出す。そして、この適応用テキストに対応する、K単語組の出現確率値ベクトルp(t|d´)を算出する。テキスト前処理部8bがこの出現確率値ベクトルを作成する方法は、ステップS1においてテキスト前処理部8aが個々の学習テキストに対する出現確率値ベクトルp(t|dn)を求めた方法と同様である。
ステップS4では、不等式で表わされる条件「K<N」の真偽によって処理を分岐する。ここで、Nは、構築するNグラム言語モデルの連鎖数である。なお、KおよびNの各々の値は、装置において固定的に設定するようにしても良く、また動的に設定可能としても良い。条件「K<N」が真であるとき(ステップS4:YES)にはステップS7へ進み、偽であるとき(ステップS4:NO)にはステップS5へ進む。
ステップS7に進んだ場合、即ちK<Nの場合、つまり学習テキストから得られた適応後ベクトルが表わす単語組の連鎖数よりも構築しようとするNグラム言語モデルの単語連鎖数のほうが大きい場合、学習テキスト全体でNグラム言語モデル(ベース言語モデル)を構築し(ステップS7)、そのNグラム言語モデルの単語確率値を、適応後ベクトルの値に応じて増減させる(ステップS8)。その具体的処理は、次の通りである。
ステップS5に進んだ場合、即ちK≧Nの場合、つまり学習テキストから得られた適応後ベクトルが表わす単語組の連鎖数よりも構築しようとするNグラム言語モデルの単語連鎖数のほうが小さい場合、あるいは両者が等しい場合、適応後ベクトルWh´が有する出現確率値をN単語組の出現確率を求め、言語モデルを構築する。つまり、この場合に言語モデル構築部12が求めるNグラム言語モデルは、下の式(7)で表わされる。
第3実施形態では、言語モデル構築部12による言語モデルの構築のしかたのみが異なり、その他の技術事項は、第2実施形態と同様である。
ここで述べる第3実施形態は、上記の第2実施形態のいずれかで得られた言語モデルを、さらに学習テキスト全体から構築される言語モデルとの間で線形補間するものである。本実施形態で作成する言語モデルは、下の式(8)で表わされる。
第4実施形態では、以下で述べる事項が第2実施形態と異なり、その他の技術事項は、第2実施形態と同様である。
上記の第1〜第4実施形態の各々では、フローチャート(図2)のステップS3の処理において、式(4)を用いることによって適応後ベクトルWh´を求めた。これは、行列Wに含まれるR個の基底ベクトル全ての積和(sum of products)の最適解を探索している処理である。その代わりに、本変形例では、行列Wに含まれるR個の基底ベクトルのうち、適応用テキストを元に得られたベクトルp(t|d´)に最も近いものを選択して、それを適応後ベクトルとする。この選択の際、例えば、カルバック・ライブラー情報量や何らかの距離尺度を、尺度として用いる。本変形例では、適応後ベクトルを求めるための計算量が少なく済む。別の見方では、本変形例は、ベクトルh´の非零要素が1個だけであるような解Wh´を適応後ベクトルとして選ぶことと同等である。
上記の変形例1では行列Wに含まれるR個の基底ベクトルのうち1個を選択して適応後ベクトルとしたのに対して、本変形例では、R個の基底ベクトルのうち、適応用テキストを元に得られたベクトルp(t|d´)に比較的近いR´個(1<R´<R)を選び、選ばれたR´個のベクトルを並べてなる行列W´を形成し、行列Wの代わりにこの行列W´を用いて、式(4)と同様の探索を行なうことによって、適応後ベクトルW´h´を求める。本変形例では、上記の変形例1よりは精度の良い適応後ベクトルを得られる場合が多い。別の見方では、本変形例は、ベクトルh´に値がゼロである要素をいくつか含むような解Wh´を適応後ベクトルとして選ぶことと同等である。
上記の第1〜第4実施形態の各々では、音声認識装置52を構成する一部分として言語モデル作成装置51を組み込んだ。その代わりに、言語モデル作成装置51のみを独立させて構成しても良い。このような独立構成の言語モデル作成装置51は、様々な用途の言語モデルを作成することができる。
音声認識装置52を構成する一部分としてではなく、機械翻訳装置や、テキスト変換装置や、テキスト検索装置(例えば、ウェブ検索エンジンなど)などを構成する一部分として言語モデル作成装置51を組み込む構成としても良い。
上記の第1〜第4実施形態の各々では、単語を言語要素とし、所定の長さの単語組を言語要素列として、その出現頻度に基づく言語モデルの構築を行なうようにした。変形例5では、単語の代わりに、その他の言語要素の列の出現頻度を解析し、それに基づく言語モデルを構築するように構成する。単語以外の言語要素の一例は、文字である。なお、対象とする言語は、日本語に限らず、他の言語(英語、仏語、中国語等)であっても良い。
第1実施形態および第3実施形態のそれぞれによって実際に言語モデルを作成し、そのテストセット・パープレキシティ(test-set perplexity,平均単語分岐数)を評価した。テストセット・パープレキシティは、Nグラム言語モデルの評価基準として用いられる値である。評価テキスト集合に対する1単語あたりのエントロピーをH(L)とすると、テストセット・パープレキシティは2のH(L)乗で与えられる。つまり、テストセット・パープレキシティは、確率分布によるエントロピーを考慮したときの1単語の分岐場合数と言える。パープレキシティが低いことは、エントロピーを考慮したときの単語の分岐数が少なく評価テキスト集合をうまくモデリングできていることを、一般的には意味する。
2 音響分析部
3 正解単語探索部
4 音響モデル記憶部
5 言語モデル記憶部
6 認識結果出力部
7−1〜7−D 学習テキスト記憶部
8a テキスト前処理部(学習テキスト前処理部,学習テキスト前処理手段)
8b テキスト前処理部(適応用テキスト前処理部,適応用テキスト前処理手段)
9 テキスト解析部(テキスト解析手段)
10 テキスト解析結果記憶部
11 適応用テキスト記憶部
12 言語モデル構築部(言語モデル構築手段)
51 言語モデル作成装置
52 音声認識装置
Claims (5)
- 複数の学習テキストそれぞれについて、言語要素列ごとの出現頻度を表わす出現頻度情報を算出する学習テキスト前処理部と、
目的とする話題を表わす適応用テキストについて、言語要素列ごとの出現頻度を表わす適応用出現頻度情報を算出する適応用テキスト前処理部と、
前記学習テキスト前処理部が算出した前記学習テキストごとの前記出現頻度情報を因子分解して、複数の出現頻度情報基底を算出するテキスト解析部と、
前記テキスト解析部が算出した前記複数の出現頻度情報基底のうちの少なくとも一を用いて、前記適応用テキスト前処理部が算出した前記適応用出現頻度情報との類似度に基づく適応後出現頻度情報を生成し、前記適応後出現頻度情報が表わす言語要素列ごとの出現頻度から言語モデルを構築する言語モデル構築部と、
を具備することを特徴とする言語モデル作成装置。 - 前記出現頻度情報は、前記学習テキストごとの次元および前記言語要素列ごとの次元を有する出現頻度値の行列の情報であり、
前記テキスト解析部は、前記前記出現頻度情報について非負値行列因子分解の処理をすることにより、前記複数の出現頻度情報基底を算出する、
ことを特徴とする請求項1に記載の言語モデル作成装置。 - 前記言語モデル構築部は、前記複数の出現頻度情報基底のそれぞれに重み付けした線形和と前記適応用出現頻度情報と間の所定尺度により前記類似度を算出するとともに、前記類似度がより良い方向に前記線形和にかかる重みを探索することによって、得られた前記線形和を適応後出現頻度情報として生成する、
ことを特徴とする請求項1または請求項2に記載の言語モデル作成装置。 - 請求項1から3までのいずれか一項に記載の言語モデル作成装置と、
入力された音声を音響分析して音響特徴量を出力する音響分析部と、
音響特徴量と音素との統計的関係を表わすデータを記憶する音響モデル記憶部と、
前記音響分析部によって出力される前記音響特徴量の時系列に関して、前記音響モデル記憶部から読み出した前記統計的関係と、前記言語モデル作成装置の前記言語モデル構築部によって構築された前記言語モデルとを用いて、前記音声に対応する言語要素列の正解候補を探索し、前記正解候補の尤度を算出する、正解候補探索部と、
を具備することを特徴とする音声認識装置。 - コンピューターを、
複数の学習テキストそれぞれについて、言語要素列ごとの出現頻度を表わす出現頻度情報を算出する学習テキスト前処理手段、
目的とする話題を表わす適応用テキストについて、言語要素列ごとの出現頻度を表わす適応用出現頻度情報を算出する適応用テキスト前処理手段、
前記学習テキスト前処理手段が算出した前記学習テキストごとの前記出現頻度情報を因子分解して、複数の出現頻度情報基底を算出するテキスト解析手段、
前記テキスト解析手段が算出した前記複数の出現頻度情報基底のうちの少なくとも一を用いて、前記適応用テキスト前処理手段が算出した前記適応用出現頻度情報との類似度に基づく適応後出現頻度情報を生成し、前記適応後出現頻度情報が表わす言語要素列ごとの出現頻度から言語モデルを構築する言語モデル構築手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012048231A JP5914054B2 (ja) | 2012-03-05 | 2012-03-05 | 言語モデル作成装置、音声認識装置、およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012048231A JP5914054B2 (ja) | 2012-03-05 | 2012-03-05 | 言語モデル作成装置、音声認識装置、およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013182260A JP2013182260A (ja) | 2013-09-12 |
JP5914054B2 true JP5914054B2 (ja) | 2016-05-11 |
Family
ID=49272905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012048231A Active JP5914054B2 (ja) | 2012-03-05 | 2012-03-05 | 言語モデル作成装置、音声認識装置、およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5914054B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5921507B2 (ja) * | 2013-09-26 | 2016-05-24 | 日本電信電話株式会社 | 対話傾向得点化装置、方法及びプログラム |
JP6353408B2 (ja) * | 2015-06-11 | 2018-07-04 | 日本電信電話株式会社 | 言語モデル適応装置、言語モデル適応方法、プログラム |
KR102386863B1 (ko) | 2015-09-09 | 2022-04-13 | 삼성전자주식회사 | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 |
CN109036378A (zh) * | 2018-09-03 | 2018-12-18 | 广东美的厨房电器制造有限公司 | 家电语音识别测试方法、装置、***及存储介质 |
CN114492450A (zh) * | 2021-12-22 | 2022-05-13 | 马上消费金融股份有限公司 | 文本匹配方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6477488B1 (en) * | 2000-03-10 | 2002-11-05 | Apple Computer, Inc. | Method for dynamic context scope selection in hybrid n-gram+LSA language modeling |
WO2008001485A1 (fr) * | 2006-06-26 | 2008-01-03 | Nec Corporation | système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue |
WO2008004666A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif, procédé et programme de reconnaissance vocale |
US9223850B2 (en) * | 2009-04-16 | 2015-12-29 | Kabushiki Kaisha Toshiba | Data retrieval and indexing method and apparatus |
-
2012
- 2012-03-05 JP JP2012048231A patent/JP5914054B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013182260A (ja) | 2013-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210475B2 (en) | Enhanced attention mechanisms | |
KR102167719B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
EP2727103B1 (en) | Speech recognition using variable-length context | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP5541035B2 (ja) | 音声検索装置及び音声検索方法 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
JP5982297B2 (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
CN111145718A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
JP7072178B2 (ja) | 自然言語処理のための装置、方法及びプログラム | |
Mousa et al. | Morpheme-based feature-rich language models using deep neural networks for LVCSR of Egyptian Arabic | |
EP2133868A1 (en) | Weight coefficient learning system and audio recognition system | |
JP5914054B2 (ja) | 言語モデル作成装置、音声認識装置、およびそのプログラム | |
Lugosch et al. | Donut: Ctc-based query-by-example keyword spotting | |
JP2022158735A (ja) | 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム | |
WO2022148176A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
Seki et al. | Diversity-based core-set selection for text-to-speech with linguistic and acoustic features | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
JP5976037B2 (ja) | モデル学習装置、ランキング装置、方法、及びプログラム | |
KR20040055417A (ko) | 대화체 연속음성인식 장치 및 방법 | |
KR20200120595A (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5914054 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |