JP2015187684A - N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム - Google Patents

N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム Download PDF

Info

Publication number
JP2015187684A
JP2015187684A JP2014065470A JP2014065470A JP2015187684A JP 2015187684 A JP2015187684 A JP 2015187684A JP 2014065470 A JP2014065470 A JP 2014065470A JP 2014065470 A JP2014065470 A JP 2014065470A JP 2015187684 A JP2015187684 A JP 2015187684A
Authority
JP
Japan
Prior art keywords
gram
language model
corpus
gram language
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014065470A
Other languages
English (en)
Other versions
JP5932869B2 (ja
Inventor
岳人 倉田
Takehito Kurata
岳人 倉田
伸泰 伊東
Nobuyasu Ito
伸泰 伊東
雅史 西村
Masafumi Nishimura
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2014065470A priority Critical patent/JP5932869B2/ja
Priority to US14/643,316 priority patent/US9536518B2/en
Priority to US14/748,597 priority patent/US9601110B2/en
Publication of JP2015187684A publication Critical patent/JP2015187684A/ja
Application granted granted Critical
Publication of JP5932869B2 publication Critical patent/JP5932869B2/ja
Priority to US15/286,747 priority patent/US9747893B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

【課題】N-gram言語モデルの教師無し学習方法を改善する。
【解決手段】コンピュータは、音声データを音声認識して得られた認識結果を読み出し、該認識結果の各々に対する信頼度を取得する。続いてコンピュータは、上記認識結果とその信頼度とを参照してN-gramエントリを選択し、選択した1以上のN-gramエントリについて、全認識結果を用いてN-gram言語モデルを学習する。
【選択図】図4

Description

本発明は、N-gram言語モデルの教師無し学習方法を改善する技術に関する。
今日、音声認識や自動翻訳、情報検索など様々な分野で言語モデルが使用されている。言語モデルとは単語列や文字列に対し、それらが起こる確率を与える統計モデルである。言語モデルとしては、N-gramモデル、隠れマルコフモデル、最大エントロピーモデルなどがあるが、最もよく利用されているのはN-gramモデルである。
言語モデルは、学習用データから統計的に学習することによって構築される。しかしながら、ユーザの使用する表現は日々変化し、新しい表現は、古い学習用データで学習された言語モデルにとって未知となる。そのため学習用データと言語モデルの定期的な更新が必要となる。
学習用データと言語モデルの人手による更新は現実的ではない。しかし近年、音声検索サービスやコールセンター向け音声認識サービスなどを提供するクラウド型音声認識システムやサーバ型音声認識システムの出現により、大量の発話データ(以下、フィールドデータという)が入手可能となっている。これらフィールドデータを教師なしで自動認識した結果は、言語モデルの学習データを補完するのに役立つ。以下、言語モデルの構築及び自動音声認識結果の言語モデル又は音響モデル構築への利用に関する従来技術について説明する。
非特許文献1は、大学の講義データを言語モデル適応に活用する際に、音声認識結果の信頼度が閾値以上の内容語の割合が多い発話単位から言語モデルを構築する技術を開示する。
特許文献1は、音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う際に、相対的に信頼尺度が高い適応用データについてはそのまま用いて教師なし適応を行い、相対的に信頼尺度が低い適応用データのうち信頼尺度が高い適応用データに含まれない音素環境を持つデータについては優先的に人手による音声認識テキストの修正を施して教師あり適応を行い、相対的に信頼尺度が低くかつテキストの修正を施さないデータについては他のデータより低い重みをかけて教師なし適応を行う技術を開示する。
特許文献2は、アプリケーションに適したサイズに言語モデルを枝刈りできる言語モデルの枝刈り手法として、n−グラム言語モデルM0から全ての最上位のグラム(n−グラム)とそのそれぞれの確率を削除することにより、初期のベースモデルを生成し、この初期のベースモデルにいくつかの最も重要なバイグラム確率を追加して、これを枝刈りされた言語モデルとする技術を開示する。
非特許文献2は、自動音声認識による認識結果の信頼度を示す尺度として利用可能な指標を3つのカテゴリに分類して紹介する。本文献は、本発明において利用可能な信頼度の例を示す参考文献として挙げたものである。
特開2011−75622号公報 特開2008−234657号公報
勝丸 徳浩、外3名、"大学講義のノートテイク支援のための音声認識用言語モデルの適応"、情報処理学会研究報告.SLP、音声言語情報処理、vol.2008、no.68、pp.25-30、2008 Hui Jiang、"Confidence measures for speechrecognition : A survey"、Speech Communication 45、pp455-470、2005
非特許文献1が示すように、音声認識結果の信頼度が閾値以上である部分のみを言語モデル構築に利用することで、認識誤りの可能性の高い部分の利用を避けることができる。しかし信頼度の高い部分のみを抽出してN-gram言語モデルを構築した場合、算出されるN-gramエントリの確率にひずみが生じる。また特許文献1が示すように、一部のデータのみを対象とするのであっても、人による判断を必要とするのは、自動化の妨げとなり好ましくない。更に特許文献2が示す言語モデルの枝刈りは、残すべきN-gramエントリの選択の問題であり、N-gramエントリの確率は枝刈り前の言語モデルのものが利用可能であるため、N-gram言語モデルの教師無し学習方法に適用できない。
本発明は、上記従来技術における問題点に鑑みてなされたものであり、人手による修正を必要とせず、またN-gramエントリの確率のひずみもない、改善されたN-gram言語モデルの教師無し学習方法、学習システム、及び学習プログラムを提供することを目的とする。
本発明は、上記従来技術の課題を解決するために以下の特徴を有するN-gram言語モデルの教師無し学習方法を提供する。本発明の学習方法は、(a)前記コンピュータが、音声データを音声認識して得られた認識結果を読み出すステップと、(b)前記コンピュータが、読み出した前記認識結果の各々に対する信頼度を取得するステップと、(c)前記コンピュータが、前記認識結果と取得した前記信頼度とを参照してN-gramエントリを選択するステップと、(d)前記コンピュータが、全認識結果を用いて、選択された1以上の前記N-gramエントリについて前記N-gram言語モデルを学習するステップとを含む。
好ましくは、ステップ(c)は、前記コンピュータが、前記信頼度が所定の閾値以上である前記認識結果に出現する出現回数が所定の回数を超える前記N-gramエントリを選択するステップを含む。
上記構成に代えて、ステップ(c)は、前記コンピュータが、前記認識結果に出現する出現回数が所定の回数を超える前記N-gramエントリを選択するステップであって、前記出現回数は前記信頼度に応じた重みで重み付けされる、上記選択するステップであってもよい。
あるいは、ステップ(c)は、前記コンピュータが、前記全認識結果の集合である第1コーパスに出現する第1出現回数と、前記信頼度が所定の閾値以上である前記認識結果の集合である第2コーパスに出現する第2出現回数との合計が、所定の回数を超える前記N-gramエントリを選択するステップを含んでもよい。
または、ステップ(c)は、前記コンピュータが、前記全認識結果の集合である第1コーパスに出現する第1出現回数と、前記信頼度が所定の閾値以上である前記認識結果の集合である第2コーパスに出現する第2出現回数と、前記N-gram言語モデルのベースラインとなる第3コーパスに出現する第3出現回数との合計が、所定の回数を超える前記N-gramエントリを第1コーパス及び第3コーパスの中から選択するステップであって、前記第1出現回数、前記第2出現回数、前記第3出現回数の各々は互いに異なる重みで重み付けされる、上記選択するステップであってもよい。
ここで、前記第1出現回数、前記第2出現回数、前記第3出現回数の各々を重み付けする各重みは、前記第1コーパス、前記第2コーパス、及び前記第3コーパスの各々のサブセットから推定される言語モデルを用いてEMアルゴリズムにより事前に推定されてよい。
好ましくは、ステップ(d)は、前記コンピュータが、前記全認識結果を用いて、選択された1以上の前記N-gramエントリを学習し、選択された前記1以上のN-gramエントリと学習の結果得られた対応するN-gramエントリの確率とを、ベースラインのN-gram言語モデルに追加するステップを含む。
好ましくは、読み出す前記音声データの前記認識結果は、クラウド型音声認識システム又はサーバ型音声認識システムにおいて自動音声認識された認識結果である。
好ましくは、ステップ(b)において、前記音声データを音声認識する際に得られる文章単位の事後確率を前記信頼度として利用する。
以上、N-gram言語モデルの教師無し学習方法として本発明を説明した。しかし本発明は、そのような学習方法の各ステップをコンピュータに実行させるN-gram言語モデルの教師無し学習プログラム、及び該学習プログラムをコンピュータにインストールして実現されるN-gram言語モデルの教師無し学習システムとして把握することもできる。
本発明では、音声データを音声認識して得られた認識結果を利用してN-gram言語モデルを学習する。その際に、本発明によれば、認識結果の信頼度を参照して認識結果の一部からN-gramエントリを選択しつつも、選択したN-gramエントリを学習する際には全認識結果を用いるので、N-gramエントリの確率にひずみが生じることがない。本発明のその他の効果については、各実施の形態の記載から理解される。
本発明の実施形態によるN-gram言語モデルの教師無し学習システムを実現するのに好適なコンピュータ100のハードウェア構成の一例を示す。 本発明の実施形態によるN-gram言語モデルの教師無し学習システムの一例の概要を示した図である。 本発明の実施形態によるN-gram言語モデルの教師無し学習システムの他の例の概要を示した図である。 本発明の実施形態によるN-gram言語モデルの教師無し学習システム300の機能ブロック図である。 本発明の実施形態によるN-gram言語モデルの教師無し学習処理の流れの一例を示すフローチャートある。
以下、本発明を実施するための形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。
図1は、本発明を実施するためのコンピュータ100の例示的なハードウェア構成を示す。図1において外部記憶装置114やROM106は、オペレーティング・システムと協働してCPU102に命令を与え、本発明を実施するためのN-gram言語モデルの教師無し学習プログラムのコードや各種データを記録することができる。そして外部記憶装置114やROM106に格納された複数のコンピュータ・プログラムは各々RAM104にロードされることによってCPU102により実行される。なお、外部記憶装置114は、SCSIコントローラなどのコントローラ(図示しない)を経由してバス108へ接続されている。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。
コンピュータ100はまた、視覚データをユーザに提示するための表示装置116を含む。表示装置116は、グラフィックスコントローラ(図示しない)を経由してバス108へ接続されている。コンピュータ100は、通信インタフェース118を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。
上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。同様に本発明を実施するためのコンピュータ100は、キーボードやマウスのような入力デバイス、スピーカー等の他の構成要素を含むことも可能であることは言うまでもない。
以上の説明により、コンピュータ100は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、又は、これらの組み合わせによって実現されることが容易に理解されるであろう。
ここで、最初に、本発明により生成される言語モデルについてその概要を説明する。
本発明において生成するN-gram言語モデルは、単純なモデルでありながら効果が大きいことから現在の大語彙連続音声認識で最もよく用いられている。言語モデルP(W)によるn単語からなる単語列w1w2…wnの生起確率は、次式で表すことができる。
Figure 2015187684
しかし、式(1)の確率を推定するのは一般に困難であるため、N-gram言語モデルでは、ある単語の生起は直前の(N-1)単語の生起にのみに依存するという仮定がなされる。すると式(1)は次のように近似することができる。
Figure 2015187684

N=1のときのモデルをユニグラム(unigram)、N=2のときをバイグラム(bigram)、N=3のときをトライグラム(trigram)と呼ぶ。Nとしては、音声認識では2または3、4程度がよく用いられている。
上式(2)の条件付き確率は、コーパス中に出現するN個の単語列と(N-1)個の単語列の出現回数から、最尤推定により推定することによって求めることができる。単語列wi-N+1…wiの出現回数をC(wi-N+1…wi)で表すと、条件付き確率P(wi|wi-N+1…wi-1)は、次式により表される。
Figure 2015187684

しかしこの計算方法では、コーパスにたまたま出現しなかったN個の単語列の生起確率がゼロになってしまう。これを防ぐために、確率の平滑化(smoothing)が行われる。N-gram確率に対する代表的な平滑化手法としてはバックオフ平滑化(back-off smoothing)がある。これは、出現しなかったN個の単語列の生起確率を、(N-1)個の単語列の生起確率によって求める手法である。なお、上記方法は一例であり、本発明を適用するのに他の方法を利用可能であることはいうまでもない。本発明ではこのようなN-gram言語モデルを、音声認識結果を用いて教師無しで学習する。
図2Aは、本発明の実施形態によるN-gram言語モデルの教師無し学習システムの一例の概要を示した図である。図2Aに示すN-gram言語モデルの教師無し学習システム200は、音声データを自動で音声認識した認識結果のうち、信頼性の高い部分から出現頻度の高いN-gramエントリを選択する。その一方N-gramエントリの確率を求めるにあたっては、学習システム200は認識結果全体を用いてN-gram言語モデルの学習を行う。選択したN-gramエントリとそのN-gramエントリ確率は、一からN-gram言語モデルを構築するのに用いてもよく、或いは、構築済みのN-gram言語モデルを更新するのに用いてもよい。
図2Bは、本発明の実施形態によるN-gram言語モデルの教師無し学習システムの他の一例の概要を示した図である。図2Bに示すN-gram言語モデルの教師無し学習システム202は、ベースラインのコーパスと、音声データを自動で音声認識した認識結果のうち信頼性の高い部分とから、それぞれ出現頻度の高いN-gramエントリを選択する。そして学習システム202は、選択したN-gramエントリについて、ベースラインのコーパスと認識結果全体とを用いてN-gram言語モデルを学習する。図2Aに示したシステム200と同様に、選択したN-gramエントリと学習の結果得られたそのN-gramエントリの確率は、一からN-gram言語モデルを構築するのに用いてもよく、或いは、構築済みのN-gram言語モデルを更新するのに用いてもよい。
このように本発明の実施形態によるN-gram言語モデルの教師無し学習システムでは、信頼性の高い認識結果を参照してN-gramエントリを選択しつつも、N-gram言語モデルの学習時には信頼性の低い部分も含めて認識結果全体を用いる。これは次の理由による。即ち、信頼性の高い部分は認識結果が正しいものの、認識結果全体のサブセットであるため、本来の単語分布とは異なる分布を有するサブセットとなる。例えば、「コンピュータ」という単語が非常に認識されやすい単語であるとする。フィールドデータ全体で10000単語を含み、その中に単語「コンピュータ」が100回出現すると仮定する。すると、その1-gram確率は0.01である。しかしながら信頼性の高い部分として1000単語が選択され、単語「コンピュータ」が認識されやすいことから100個全てその1000単語の中に含まれるとすると、その1-gram確率は0.1となってしまう。このようなひずみをなくすために、本発明では、認識結果全体を用いてN-gram言語モデルの学習を行う。
以下、図3及び図4を参照して、N-gram言語モデルの教師無し学習システム300について詳細に説明する。図3は、本発明の実施形態によるN-gram言語モデルの教師無し学習システム300の機能ブロック図である。図4は、本発明の実施形態によるN-gram言語モデルの教師無し学習処理の流れの一例を示すフローチャートある。
図3に示すN-gram言語モデルの教師無し学習システム300は、コーパスA302と、コーパスB304と、信頼度取得部306と、言語モデル生成部308とを含み、言語モデル生成部308は更に、選択部310と確率算出部312とを含む。
コーパスA302は、N-gram言語モデルの基礎となる部分を構築するのに使用されるベースラインのコーパスである。一例としてコーパスA302は、ターゲットアプリケーションに合致したドメイン及びスタイルを持つコーパスであってよい。他の一例として、コーパスA302は、オープンドメイン及びスタイルを持つコーパスであってもよい。また、第1コーパス302は、雑誌、新聞、インターネット上などの書き言葉を対象としたコーパスであってよく、或いは、音声を人手で書き起こした話し言葉のテキストデータを対象としたコーパスであってもよい。コーパスA302はまた、書き言葉と話し言葉の両方を対象としたコーパスであってもよい。
コーパスB304は、音声データを人手によらず自動音声認識した認識結果からなるコーパスである。そのような認識結果は、例えば、音声検索サービスやコールセンター向け音声認識サービスなどを提供するクラウド型音声認識システムやサーバ型音声認識システムから入手してよい。あるいは、TVニュースやWeb上にある音声データを、自ら用意する音声認識システムにおいて自動音声認識して取得してもよい。なお、音声認識は単語単位で動作するため、認識結果も単語分割された形で取得できることに留意されたい。
信頼度取得部306は、コーパスB304に含まれる認識結果の各文章に対し、認識結果がどの程度信頼できるものかを示す信頼度を、自ら算出することによって、あるいは外部から、取得する。取得する信頼度は、信頼度を表す指標として現在知られているもの(非特許文献2を参照)に限らず、将来新たに導出されるものも利用可能である。具体的には、音響尤度と言語尤度の論理和として算出される信頼度や、音声認識時に得られる文章単位の事後確率を利用した信頼度、複数の音声認識システムの出力の共通部分が正解であるとして正解単語の再現率又は適合率によって算出される信頼度などがある。ここでは、音声認識時に得られる文章単位の事後確率を利用するものとする。文章単位の事後確率は、音素などの認識時の単位で得られる事後確率を対数化して足し合わせることで算出される。
Wが認識結果の文章、Xが観測される音声信号として、文書単位の事後確率は次式(5)からargmaxを除外した形で表される。Σは全ての仮説の集合を表す。
Figure 2015187684

なお、音声認識実行時にはp(X)は算出されないが、信頼度を算出する際にはp(X)による正規化を行う。P(X)は、音声認識時の仮説をHとして、次式により表される。
Figure 2015187684

すべての仮説について和をとることは困難であるため、P(X)を近似的に求める種々の方法が提案されている。例えば多くの音素にマッチするモデル(バックグランドモデル)を用いて仮説を計算した上で、P(X)を算出する方法がある。
信頼度算出部306により算出された又は取得された信頼度は、コーパスB304に含まれる認識結果の各文章に対応付けて、同じコーパスB304内に、或いは他の記憶場所に格納される。なお、上記では文章単位で信頼度を算出したが、信頼度の算出は単語単位で行ってもよい。また、音声認識結果をクラウド型音声認識システムやサーバ型音声認識システムなどの外部から入手する場合、信頼度若しくは信頼度の計算に必要な情報(例えば音声認識時に得られる文章単位の事後確率)もあわせて入手するものとする。
言語モデル生成部308は、コーパスA302及びコーパスB304の両コーパスを学習用テキストとして使用してN-gram言語モデルを構築する。より具体的には、言語モデル生成部308は、N-gram言語モデルを構成するN-gramエントリを選択する選択部310と、選択した各N-gramエントリの確率を求める確率算出部312を含む。なお、以下では、コーパスB304に含まれる認識結果のうち、対応する信頼度が所定の閾値以上である認識結果の部分集合をコーパスbとも呼称する。
一例として、選択部310は、コーパスA302及びコーパスB304の中から、コーパスA302に出現する出現回数Cと、コーパスB304に出現する出現回数Cと、コーパスbに出現する出現回数Cとの合計が所定の回数を超えるN-gramエントリを選択する。ここで選択部310は、出現回数C、出現回数C、出現回数Cの各々を、互いに異なる重み(順に、w、w、w)で重み付けする。各重みw、w、wは、コーパスA302、コーパスB304、及びコーパスbの各々のサブセットから言語モデルを推定し、推定した言語モデルを用いて、対象となる分野の開発用テキストに対する生成確率が最大となるように、EMアルゴリズムにより最適化することで求めることができる。これに代えて、各重みw、w、wは、経験から得られる値を予め設定しておいてもよい。
コーパスbはコーパスB304のサブセットであるため、コーパスbに出現するN-gramエントリの出現回数にはw+wの重みが付与される。結果としてコーパスbに出現するN-gramエントリは、コーパスB304にのみ出現する他のN-gramエントリよりも積極的に選択されることになる
なお、コーパスA302の利用はオプションであり、これを使用することなくN-gramエントリを選択してもよい。即ち、選択部310は、コーパスB304に含まれる認識結果の各々と対応する信頼度とを参照して、N-gramエントリを選択してもよい。より具体的には、選択部310は、コーパスbに出現する出現回数が、所定の回数を超えるN-gramエントリを選択してよい。
上記構成に代えて、選択部310は、コーパスB304に出現するN-gramエントリの出現回数を、信頼度に応じた重みで重み付けをしてカウントしてもよい。選択部310は、そのようにカウントした出現回数が所定の回数を超えるN-gramエントリを選択してよい。
更に、選択部310は、コーパスB304に出現する出現回数とコーパスbに出現する出現回数との合計が、所定の回数を超えるN-gramエントリを選択してもよい。
上記いずれの構成においても、選択部310は、信頼度の高い認識結果から積極的にN-gramエントリを選択することになる。
確率算出部312は、コーパスA302及びコーパスB304に含まれる全認識結果を用いて、選択部310により選択された1以上のN-gramエントリについてN-gram言語モデルを学習する。或いは学習用データとしてコーパスBのみが使用される場合、確率算出部312は、選択された1以上のN-gramエントリについて、コーパスBに含まれる全認識結果を用いてN-gram言語モデルを学習する。確率の算出方法はN-gram言語モデルの概要で説明した通りである。また、SRIインターナショナル社の言語モデルツールキット(SRILM-The SRI LanguageModeling Toolkit, http://www.speech.sri.com/projects/srilm/)など学習ツールも利用可能である。
言語モデル生成部308は、選択された1以上のN-gramエントリと学習の結果得られたその確率とを、ベースとなるN-gram言語モデルに追加してもよく、或いはN-gram言語モデルを1から構築してもよい。
次に図4を参照して、本発明の実施形態によるN-gram言語モデルの教師無し学習システムの動作を説明する。N-gram言語モデルの教師無し学習処理はステップ400で開始し、信頼度算出部306は、音声データを自動音声認識した認識結果からなるコーパスB304から認識結果を読み出し、認識結果の各々に対する信頼度を、自ら算出することにより、または外部より取得する(ステップ402)。取得した信頼度は対応する認識結果に対応付けて格納される。
続いて言語モデル生成部308の選択部310は、ベースラインのコーパスであるコーパスA302と音声データを自動音声認識した認識結果からなるコーパスB304から、N-gram言語モデルの少なくとも1部を構成するN-gramエントリを選択する(ステップ404)。ここで選択部310は、ステップ402で算出した信頼度を参照し、音声データを自動音声認識した認識結果については、信頼度の低い認識結果よりも信頼度の高い認識結果に出現するN-gramエントリを積極的に選択する。
続いて言語モデル生成部308の確率算出部312は、ステップ404において選択された1以上のN-gramエントリについて、コーパスA302と、コーパスB304、即ち全認識結果とを用いて、N-gram言語モデルを学習する(ステップ406)。そして処理は終了する。
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えることが可能であることが当業者に明らかである。従って、そのような変更又は改良を加えた形態も当然に本発明の技術的範囲に含まれる。
なお、特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り任意の順序で実現しうることに留意すべきである。また、前の処理の出力を後の処理で用いる場合でも、前の処理と後の処理の間に他の処理が入ることは可能である場合があること、又は間に他の処理が入るように記載されていても前の処理を後の処理の直前に行うよう変更することも可能である場合があることも留意されたい。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」、「続いて、」等を用いて説明したとしても、この順で実施することが必須であることを必ずしも意味するとは限らない。

Claims (11)

  1. コンピュータによる、N-gram言語モデルの教師無し学習方法であって、
    (a)前記コンピュータが、音声データを音声認識して得られた認識結果を読み出すステップと、
    (b)前記コンピュータが、読み出した前記認識結果の各々に対する信頼度を取得するステップと、
    (c)前記コンピュータが、前記認識結果と取得した前記信頼度とを参照してN-gramエントリを選択するステップと、
    (d)前記コンピュータが、全認識結果を用いて、選択された1以上の前記N-gramエントリについて前記N-gram言語モデルを学習するステップと、
    を含むN-gram言語モデルの教師無し学習方法。
  2. ステップ(c)は、前記コンピュータが、前記信頼度が所定の閾値以上である前記認識結果に出現する出現回数が所定の回数を超える前記N-gramエントリを選択するステップを含む、請求項1に記載のN-gram言語モデルの教師無し学習方法。
  3. ステップ(c)は、前記コンピュータが、前記認識結果に出現する出現回数が所定の回数を超える前記N-gramエントリを選択するステップであって、前記出現回数は前記信頼度に応じた重みで重み付けされる、請求項1に記載のN-gram言語モデルの教師無し学習方法。
  4. ステップ(c)は、前記コンピュータが、前記全認識結果の集合である第1コーパスに出現する第1出現回数と、前記信頼度が所定の閾値以上である前記認識結果の部分集合である第2コーパスに出現する第2出現回数との合計が、所定の回数を超える前記N-gramエントリを選択するステップを含む、請求項1に記載のN-gram言語モデルの教師無し学習方法。
  5. ステップ(c)は、前記コンピュータが、前記全認識結果の集合である第1コーパスに出現する第1出現回数と、前記信頼度が所定の閾値以上である前記認識結果の部分集合である第2コーパスに出現する第2出現回数と、前記N-gram言語モデルのベースラインである第3コーパスに出現する第3出現回数との合計が、所定の回数を超える前記N-gramエントリを第1コーパス及び第3コーパスの中から選択するステップであって、前記第1出現回数、前記第2出現回数、前記第3出現回数の各々は互いに異なる重みで重み付けされる、請求項1に記載のN-gram言語モデルの教師無し学習方法。
  6. 前記第1出現回数、前記第2出現回数、前記第3出現回数の各々を重み付けする各重みは、前記第1コーパス、前記第2コーパス、及び前記第3コーパスの各々のサブセットから推定される言語モデルを用いてEMアルゴリズムにより事前に推定される、請求項5に記載のN-gram言語モデルの教師無し学習方法。
  7. ステップ(d)は、前記コンピュータが、前記全認識結果を用いて、選択された1以上の前記N-gramエントリを学習し、前記1以上のN-gramエントリと学習の結果得られたその確率とを、ベースとなるN-gram言語モデルに追加するステップを含む、請求項1に記載のN-gram言語モデルの教師無し学習方法。
  8. 取得する前記音声データの前記認識結果は、クラウド型音声認識システム又はサーバ型音声認識システムにおいて自動音声認識された認識結果である、請求項1に記載のN-gram言語モデルの教師無し学習方法。
  9. ステップ(b)において、前記音声データを音声認識する際に得られる文章単位の事後確率を前記信頼度として利用する、請求項1に記載のN-gram言語モデルの教師無し学習方法。
  10. 請求項1乃至9のいずれか一項に記載の方法の各ステップを、前記コンピュータに実行させるN-gram言語モデルの教師無し学習プログラム。
  11. 請求項1乃至9のいずれか一項に記載の方法の各ステップを実行するように適合された手段を備えるN-gram言語モデルの教師無し学習システム。
JP2014065470A 2014-03-27 2014-03-27 N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム Expired - Fee Related JP5932869B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014065470A JP5932869B2 (ja) 2014-03-27 2014-03-27 N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US14/643,316 US9536518B2 (en) 2014-03-27 2015-03-10 Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability
US14/748,597 US9601110B2 (en) 2014-03-27 2015-06-24 Unsupervised training method for an N-gram language model based upon recognition reliability
US15/286,747 US9747893B2 (en) 2014-03-27 2016-10-06 Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014065470A JP5932869B2 (ja) 2014-03-27 2014-03-27 N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム

Publications (2)

Publication Number Publication Date
JP2015187684A true JP2015187684A (ja) 2015-10-29
JP5932869B2 JP5932869B2 (ja) 2016-06-08

Family

ID=54191270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014065470A Expired - Fee Related JP5932869B2 (ja) 2014-03-27 2014-03-27 N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム

Country Status (2)

Country Link
US (3) US9536518B2 (ja)
JP (1) JP5932869B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126141A (ja) * 2019-02-05 2020-08-20 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法、プログラム
CN111951788A (zh) * 2020-08-10 2020-11-17 百度在线网络技术(北京)有限公司 一种语言模型的优化方法、装置、电子设备及存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015118645A1 (ja) * 2014-02-06 2015-08-13 三菱電機株式会社 音声検索装置および音声検索方法
JP5932869B2 (ja) 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US10748528B2 (en) * 2015-10-09 2020-08-18 Mitsubishi Electric Corporation Language model generating device, language model generating method, and recording medium
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN111164676A (zh) * 2017-11-15 2020-05-15 英特尔公司 经由环境语境采集进行的语音模型个性化
US10372737B2 (en) * 2017-11-16 2019-08-06 International Business Machines Corporation Automatic identification of retraining data in a classifier-based dialogue system
CN112711943B (zh) * 2020-12-17 2023-11-24 厦门市美亚柏科信息股份有限公司 一种维吾尔文语种识别方法、装置及存储介质
US20220229985A1 (en) * 2021-01-21 2022-07-21 Apple Inc. Adversarial discriminative neural language model adaptation
US20230115271A1 (en) * 2021-10-13 2023-04-13 Hithink Royalflush Information Network Co., Ltd. Systems and methods for speech recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1055227B1 (en) * 1998-12-21 2004-09-01 Koninklijke Philips Electronics N.V. Language model based on the speech recognition history
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7533019B1 (en) * 2003-12-23 2009-05-12 At&T Intellectual Property Ii, L.P. System and method for unsupervised and active learning for automatic speech recognition
US8818808B2 (en) * 2005-02-23 2014-08-26 At&T Intellectual Property Ii, L.P. Unsupervised and active learning in automatic speech recognition for call classification
US8898052B2 (en) * 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
JP5319141B2 (ja) 2007-03-19 2013-10-16 株式会社東芝 言語モデルの枝刈り方法及び装置
JP5459214B2 (ja) * 2008-08-20 2014-04-02 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8145484B2 (en) * 2008-11-11 2012-03-27 Microsoft Corporation Speech processing with predictive language modeling
US8229743B2 (en) * 2009-06-23 2012-07-24 Autonomy Corporation Ltd. Speech recognition system
JP5161183B2 (ja) 2009-09-29 2013-03-13 日本電信電話株式会社 音響モデル適応装置、その方法、プログラム、及び記録媒体
US9069755B2 (en) * 2010-03-11 2015-06-30 Microsoft Technology Licensing, Llc N-gram model smoothing with independently controllable parameters
EP2721608B1 (en) * 2011-06-19 2019-03-13 MModal IP LLC Speech recognition using context-aware recognition models
WO2013006215A1 (en) * 2011-07-01 2013-01-10 Nec Corporation Method and apparatus of confidence measure calculation
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US8903714B2 (en) * 2011-12-21 2014-12-02 Nuance Communications, Inc. Concept search and semantic annotation for mobile messaging
US9009025B1 (en) 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
JP6019604B2 (ja) * 2012-02-14 2016-11-02 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
US9224383B2 (en) * 2012-03-29 2015-12-29 Educational Testing Service Unsupervised language model adaptation for automated speech scoring
US8996371B2 (en) * 2012-03-29 2015-03-31 Nice-Systems Ltd. Method and system for automatic domain adaptation in speech recognition applications
US20140267045A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Adaptive Language Models for Text Predictions
US9508346B2 (en) * 2013-08-28 2016-11-29 Verint Systems Ltd. System and method of automated language model adaptation
US9633650B2 (en) * 2013-08-28 2017-04-25 Verint Systems Ltd. System and method of automated model adaptation
US9842592B2 (en) * 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
JP5932869B2 (ja) 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016006129; 梶浦泰智、外3名: '話し言葉向け言語モデル教師なし適応法に関する検討' 平成17年度電気関係学会東北支部連合大会 , 200508, p.216 *
JPN6016006130; Scott Novotney, et al: 'UNSUPERVISED ACOUSTIC AND LANGUAGE MODEL TRAINING WITH SMALL AMOUNTS OF LABELLED DATA' Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on , 20090419, pp. 4297-4300 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126141A (ja) * 2019-02-05 2020-08-20 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法、プログラム
JP7036054B2 (ja) 2019-02-05 2022-03-15 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法、プログラム
CN111951788A (zh) * 2020-08-10 2020-11-17 百度在线网络技术(北京)有限公司 一种语言模型的优化方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20150294665A1 (en) 2015-10-15
US20150279353A1 (en) 2015-10-01
US20170025118A1 (en) 2017-01-26
US9747893B2 (en) 2017-08-29
US9601110B2 (en) 2017-03-21
US9536518B2 (en) 2017-01-03
JP5932869B2 (ja) 2016-06-08

Similar Documents

Publication Publication Date Title
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
Schuster et al. Japanese and korean voice search
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
WO2017127296A1 (en) Analyzing textual data
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
WO2017061027A1 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
US20150199340A1 (en) System for translating a language based on user's reaction and method thereof
JP6047364B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP2015141253A (ja) 音声認識装置、及びプログラム
Jyothi et al. Improved hindi broadcast ASR by adapting the language model and pronunciation model using a priori syntactic and morphophonemic knowledge.
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN113096667A (zh) 一种错别字识别检测方法和***
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP2001109491A (ja) 連続音声認識装置および方法
Ikegami et al. High performance personal adaptation speech recognition framework by incremental learning with plural language models
JP2023007014A (ja) 応答システム、応答方法、および応答プログラム
KR101729972B1 (ko) 타국인 발화 음성을 위한 음성 인식 장치
KR20200015100A (ko) 대어휘 연속 음성 인식 방법 및 그 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160112

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160122

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160428

R150 Certificate of patent or registration of utility model

Ref document number: 5932869

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees