JP5218052B2 - 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム - Google Patents

言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム Download PDF

Info

Publication number
JP5218052B2
JP5218052B2 JP2008522290A JP2008522290A JP5218052B2 JP 5218052 B2 JP5218052 B2 JP 5218052B2 JP 2008522290 A JP2008522290 A JP 2008522290A JP 2008522290 A JP2008522290 A JP 2008522290A JP 5218052 B2 JP5218052 B2 JP 5218052B2
Authority
JP
Japan
Prior art keywords
topic
language model
language
history
model generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008522290A
Other languages
English (en)
Other versions
JPWO2008001485A1 (ja
Inventor
清一 三木
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008522290A priority Critical patent/JP5218052B2/ja
Publication of JPWO2008001485A1 publication Critical patent/JPWO2008001485A1/ja
Application granted granted Critical
Publication of JP5218052B2 publication Critical patent/JP5218052B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラムに関し、特に認識対象の話題が変化する場合にその変化傾向を考慮して適切に動作する言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラムに関する。
従来の言語モデル生成システムの一例が、音声認識システムに組み込まれた形で特許文献1に記載されている。図4に示すように、この従来の音声認識システムは、音声入力手段901と、音響分析手段902と、音節認識手段(第一段階認識)904と、話題遷移候補点設定手段905と、言語モデル設定手段906と、単語列探索手段(第二段階認識)907と、音響モデル記憶手段903と、差分モデル908と、言語モデル1記憶手段909−1と、言語モデル2記憶手段909−2、…、言語モデルn記憶手段909−nとから構成されている。
このような構成を有する従来の音声認識システムは特に複数の話題を含む発話に対してつぎのように動作する。
すなわち、一発話中に所定の数の話題が存在すると仮定し、可能なあらゆる境界(例えば全ての音節間)を話題境界の候補として発話を分割し、それぞれの区間に対して、言語モデルk記憶手段(k=1〜n)に記憶されたn個の話題別言語モデルをそれぞれ全て適用し、最もスコアの高かった話題境界・言語モデルの組み合わせを選択し、その時得られた認識結果を最終的な認識結果とする。選択された言語モデルの組み合わせは発話に応じて新たな言語モデルを生成したと考えることができる。これにより、一発話に複数の話題が含まれる場合にも最適な認識結果を出力することができる。
特開2002−229589号公報 (第8頁、図1)
第1の問題点は、従来の言語モデル生成システムでは認識対象となる発話に対し当該発話を話題毎に分割し、それぞれ分割された区間毎に最適な言語モデルを用いるのみで、複数区間の話題同士の関連を考慮した言語モデルを生成できておらず、必ずしも最適な認識結果が得られないということである。例えば、ある話題Aに引き続き話題Bの発話がなされたときに、それに続く発話は話題A及びB及びその順序に影響される可能性が高いが、従来の言語モデル生成システムではそのような話題の変化を反映した言語モデルの生成を行えない。
その理由は、従来の言語モデル生成システムでは所定の発話に対し決められた話題毎に決められた区間数に分割し、それぞれに対して最適な言語モデルを選択するのみであり、話題そのものの履歴を有効に用いて次の発話を予測する言語モデルを生成していないためである。
本発明の目的は、これまで認識対象においてなされた話題の履歴に応じた適切な言語モデルを生成できる言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラムを提供することにある。
本発明によれば、話題履歴依存言語モデル記憶手段と、話題履歴蓄積手段と、言語スコア計算手段とを備えた言語モデル生成システムであって、前記話題履歴蓄積手段に蓄積された発話における話題の履歴と、前記話題履歴依存言語モデル記憶手段に記憶された言語モデルを用い、前記言語スコア計算手段によって話題の履歴に応じた言語スコアを計算することを特徴とする言語モデル生成システムが提供される。
上記の言語モデル生成システムにおいて、前記話題履歴依存言語モデル記憶手段は、直近n話題のみに依存する話題履歴依存言語モデルを記憶するようにしてもよい。
上記の言語モデル生成システムにおいて、前記話題履歴蓄積手段は、直近n話題のみを蓄積するようにしてもよい。
上記の言語モデル生成システムにおいて、前記話題履歴依存言語モデル記憶手段は話題別の言語モデルを記憶し、前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題履歴によって前記話題別言語モデルから言語モデルを選択し、前記選択された言語モデルを混合することによって生成された新たな言語モデルを用いて言語スコアを計算するようにしてもよい。
上記の言語モデル生成システムにおいて、前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題に対応する話題別言語モデルを選択するようにしてもよい。
上記の言語モデル生成システムにおいて、前記言語スコア計算手段は選択された話題別言語モデルの確率パラメータを線形結合するようにしてもよい。
上記の言語モデル生成システムにおいて、さらに前記言語スコア計算手段は線形結合の際に話題履歴において古い話題に対して小さくなるような係数を用いるようにしてもよい。
上記の言語モデル生成システムにおいて、前記話題履歴依存言語モデル記憶手段は言語モデル間に距離が定義できる話題別言語モデルを記憶し、前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題に対応する話題別言語モデル及び、前記話題に対応する話題別言語モデルと距離の小さい別の話題別言語モデルを選択するようにしてもよい。
上記の言語モデル生成システムにおいて、前記言語スコア計算手段は選択された話題別言語モデルの確率パラメータを線形結合するようにしてもよい。
上記の言語モデル生成システムにおいて、さらに前記言語スコア計算手段は線形結合の際に話題履歴において古い話題に対して小さくなるような係数を用いるようにしてもよい。
上記の言語モデル生成システムにおいて、さらに前記言語スコア計算手段は線形結合の際に話題履歴に出現した話題の話題別言語モデルからの距離が遠い話題別言語モデルに対して小さくなるような係数を用いるようにしてもよい。
また、本発明によれば、話題履歴依存言語モデル記憶手段と、話題履歴蓄積手段と、言語スコア計算手段とを備えた言語モデル生成システムにおける言語モデル生成方法であって、話題履歴蓄積手段に蓄積された発話における話題の履歴と、話題履歴依存言語モデル記憶手段に記憶された言語モデルを用い、言語スコア計算手段によって話題の履歴に応じた言語スコアを計算することを特徴とする言語モデル生成方法が提供される。
また、本発明によれば、コンピュータを上記に記載の言語モデル生成システムとして機能させるためのプログラムが提供される。
また、本発明によれば、上記に記載の言語モデル生成システムにおいて生成された言語モデルを参照して音声認識を行う音声認識手段を備えることを特徴とする音声認識システムが提供される。
また、本発明によれば、上記に記載の言語モデル生成方法において生成された言語モデルを参照して音声認識を行う音声認識手段を備えることを特徴とする音声認識方法が提供される。
また、本発明によれば、コンピュータを上記に記載の音声認識システムとして機能させるためのプログラムが提供される。
本発明の効果は、話題が変化する認識対象に対して適切に動作する言語モデルの生成を行えることにある。
その理由は、これまで認識対象において生じた話題の履歴を蓄積し、蓄積された話題の履歴を情報として用いることで、話題の変化を次に用いる言語モデルに適切に反映できるためである。
本発明によれば、音声を認識する音声認識装置や、音声認識をコンピュータで実現するためのプログラムといった用途に適用できる。また、音声だけでなく、文字を認識する用途にも適用できる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1の実施の形態の構成を示すブロック図である。 第1の実施の形態の動作を示す流れ図である。 第2の実施の形態の構成を示すブロック図である。 従来技術の構成を示すブロック図である。
以下、図面を参照して本発明を実施するための最良の形態について詳細に説明する。
本発明の言語モデル生成システムは、話題履歴蓄積手段109と、話題履歴依存言語モデル記憶手段105と、言語スコア計算手段110とを備え、時間順序を伴う認識対象における話題の履歴が話題履歴蓄積手段109に蓄積される。言語スコア計算手段110において、話題履歴依存言語モデル記憶手段105に記憶された話題履歴依存言語モデルと、話題履歴蓄積手段109に蓄積された話題履歴とを同時に用いて認識で用いる言語スコアを計算する。
このような構成を採用し、次に入力される認識対象に対し、これまでの話題の履歴に応じた言語モデルを生成することができ本発明の目的を達成することができる。
図1を参照すると、本発明の第1の実施の形態は、音声入力手段101と、音響分析手段102と、探索手段103と、音響モデル記憶手段104と、話題履歴依存言語モデル記憶手段105と、認識結果出力手段106と、認識結果蓄積手段107と、テキスト分割手段108と、話題履歴蓄積手段109と、言語スコア計算手段110とから構成されている。
これらの手段はそれぞれ概略つぎのように動作する。
音声入力手段101は、音声信号を入力する。具体的には例えばマイクから入力された電気信号をサンプリングしてデジタル化して入力する。音響分析手段102は入力された音声信号を音声認識に適した特徴量に変換するために音響分析を行う。特徴量としては具体的には例えばLPC(Linear Predictive Coding)やMFCC(Mel Frequency Cepstrum Coefficient)等がよく用いられる。探索手段103は音響モデル記憶手段104で記憶されている音響モデルと言語スコア計算手段110から与えられる言語スコアに従い、音響分析手段102から得られる音声特徴量の中から認識結果を探索する。音響モデル記憶手段104は特徴量で表現された音声の標準パターンを記憶している。具体的には例えばHMM(Hidden Markov Model)やニューラルネットといったモデルがよく用いられる。言語スコア計算手段110は話題履歴蓄積手段109に蓄積された話題の履歴と話題履歴依存言語モデル記憶手段105に記憶された話題履歴依存言語モデルを用いて言語スコアを計算する。話題履歴依存言語モデル記憶手段105は話題の履歴に応じてスコアが変化するような言語モデルを記憶する。話題とは例えば発話における主題の属する分野であり、政治・経済・スポーツのように人間が分類するものや、クラスタリング等でテキストから自動的に得られるものを含む。例えば単語単位に定義される言語モデルにおいて、過去n話題に依存する話題履歴依存言語モデルは以下のように表現される。
Figure 0005218052
ここでtは話題を示し、サフィックスは時間順序を示す。hは話題以外のコンテキストを示す。例えばN−gram言語モデルであれば過去N単語である。このような言語モデルは学習コーパスが話題毎に分割され、各区間に話題の種類が付与されていれば例えば最尤推定等を用いて推定できる。
また、次のように表現される話題履歴依存言語モデルも考えられる。
Figure 0005218052
これはすなわち次の発話が属すると考えられる話題tk+1を直接的に予測するモデルとなっている。コンテキストに用いる話題履歴の単位は話題の切り替わり点毎としてもよいし、一定時間毎、一定単語数毎、一定発話数毎、例えば無音により音響的に区切られる音声区間毎としてもよい。話題履歴依存言語モデルを得る手法として先に述べた以外に例えば、話題の継続時間の分布をモデルに組み込むことや、先験的な知識を組み込んでもよい。先験的な知識としては例えば、話題の変化が少ない時には同じ話題が続く可能性が高いということや、話題の変化が大きい時には異なる話題に変わる可能性が高いということ等である。コンテキストとして必ずしも過去n話題全てを用いる必要はなく、必要なコンテキストのみ用いることもできる。例えば予め定めた話題の重要度が小さい話題は用いないことや、継続時間が一定以下の話題は用いないこと、当該話題がコンテキストに出現した延べ回数が一定以下の話題は用いないこと等が考えられる。認識結果出力手段106は探索手段103により得られた認識結果を出力する。例えば認識結果テキストを画面に表示したりすることが考えられる。認識結果蓄積手段107は探索手段103により得られた認識結果を時系列に従い蓄積する。認識結果蓄積手段107は全ての認識結果を蓄積してもよいし、最近の一定量の結果を蓄積してもよい。
テキスト分割手段108は、認識結果蓄積手段107に蓄積された認識結果テキストを話題に応じて分割する。この場合、これまで認識が行われた発話を話題に従って分割することとなる。テキストを話題に応じて分割する手段は具体的には例えば「T.Koshinaka et al.,"AN HMM−BASED TEXT SEGMENTATION METHOD USING VARIATIONAL BAYES APPROACH AND ITS APPLICATION TO LVCSR FOR BROADCAST NEWS,"Proceedings of ICASSP 2005,pp.I−485−488,2005.」等を用いて実現される。話題履歴蓄積手段109はテキスト分割手段108から得られる話題の時系列を発話と対応して蓄積する。話題履歴蓄積手段109は全ての話題の履歴を蓄積してもよいし、最近の一定量の履歴を蓄積してもよい。特に前述の過去n話題に依存する話題履歴依存言語モデルの場合には最近n話題を蓄積しておけば十分である。話題履歴蓄積手段109に蓄積された話題履歴は言語スコア計算手段110において話題履歴依存言語モデル記憶手段105に記憶された言語モデルを用いて言語スコアを計算する際に使用される。
次に、図1及び図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、音声入力手段101において音声データが入力される(図2のステップA1)。次に、入力された音声データを音響分析手段102によって音声認識に適した特徴量に変換する(ステップA2)。探索手段103で音声認識を行うため、言語スコア計算手段110は話題履歴蓄積手段109に蓄積された話題履歴を取得する(ステップA3)。話題履歴蓄積手段109において、何も蓄積されていない状態を初期状態としてもよいし、事前に話題が予想できる場合にはその話題を蓄積した状態を初期状態としてもよい。次に、探索手段103において音響モデル記憶手段104に記憶された音響モデルと、言語スコア計算手段110によって計算された言語スコアとを用いて、取得された音声特徴量に対して探索を行う(ステップA4)。これにより得られた認識結果は認識結果出力手段106によって適切に出力され、認識結果蓄積手段107に時間順に従って蓄積される(ステップA5)。
認識結果蓄積手段107において、何も蓄積されていない状態を初期状態としてもよいし、事前に発話に関する話題のテキストが得られる場合にはそのテキストを蓄積した状態を初期状態としてもよい。次に、テキスト分割手段108によって認識結果蓄積手段107に蓄積された認識結果を話題毎に分割する(ステップA6)。この時、蓄積された認識結果を全て対象として処理を行ってもよいし、新規に追加された認識結果のみ対象として処理を行ってもよい。最後に、テキスト分割手段108によって得られた分割に従い話題の履歴を時間順に従って話題履歴蓄積手段109に蓄積する(ステップA7)。以後、音声が入力される度に上記の処理が繰り返される。分かり易さのため、入力される音声を動作の単位として全体の動作を説明したが、実際には各処理が並列にパイプライン処理で動作していてもよいし、複数の音声に対して一度処理を行うように動作してもよい。本システムでは話題履歴を用いて認識するが、話題の履歴に、これまで認識した発話だけでなく、現在認識対象となっている発声の話題を加えてもよい。その場合、現在の発声の話題を推定する必要があり、例えば話題非依存の言語モデル等を用いて一度認識を行い話題を推定し、再度同じ発声に対して話題履歴依存言語モデルを用いて認識を行う。
次に、本実施の形態の効果について説明する。
本実施の形態では、話題履歴蓄積手段を持ち、それに蓄積された話題履歴をコンテキストとして話題依存言語モデルを用いて言語スコアを行うよう構成されているため、話題の変化を伴う発話に対して精度良く認識できる言語モデルを生成することができる。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
図3を参照すると、第1の実施の形態と比べ話題履歴依存言語モデル記憶手段105の代わりに話題別言語モデル記憶手段210、言語スコア計算手段110の代わりに話題別言語モデル選択手段211、話題別言語モデル混合手段212が追加されている。
これらの手段はそれぞれ概略つぎのように動作する。
話題別言語モデル記憶手段210は話題毎に作成された複数の言語モデルを記憶する。このような言語モデルは例えば前述のテキスト分割方法を用いて学習コーパスを分割し、それぞれ話題毎に言語モデルを作成することで得られる。話題別言語モデル選択手段211は話題履歴蓄積手段109に蓄積された話題履歴に従い話題別言語モデル記憶手段210に記憶された話題別言語モデルから適切な言語モデルを選択する。例えば、話題履歴から得られる最近n話題に関する言語モデルを選択することができる。話題別言語モデル混合手段212は話題別言語モデル選択手段211によって選択された言語モデルを混合して一つの話題履歴依存言語モデルを生成する。例えば最近n話題に依存する言語モデルとして、最近n話題のそれぞれの言語モデルを用いて以下のような過去n話題に依存する話題履歴依存言語モデルを生成することができる。
Figure 0005218052
ここで、tは話題、hは話題以外のコンテキストである。λは話題履歴に出現する話題毎に与えられる混合係数である。λは例えば1/n(一様)であったり、最近の話題であれば大きく、より過去の話題であれば小さくなるよう設定できる。右辺において、コンテキストtが一つの例を挙げているが、tが複数である場合も同様に考えられる。話題別言語モデル記憶手段210に記憶される言語モデル同士に距離が定義できる場合には話題別言語モデル選択手段211において話題履歴に出現した話題に関する言語モデルだけでなく、その言語モデルと近い言語モデルを合わせて選択することができる。このような距離には言語モデル間の語彙の重なり度合いや、言語モデルが確率分布で表現される場合には分布間の距離、言語モデルの元となった学習コーパスの類似度等を用いることができる。このような場合に話題別言語モデル混合手段212において、例えば最近n話題に依存する言語モデルとして、最近n話題の言語モデル及びその近傍の言語モデルを用いて以下のような過去n話題に依存する話題履歴依存言語モデルを生成できる。
Figure 0005218052
ここで、tは話題、hは話題以外のコンテキストである。λは話題履歴に出現する話題毎に与えられる混合係数である。ωはある話題の近傍の言語モデル毎に与えられる混合係数、d(t1,t2)は話題t1の言語モデルと話題t2の言語モデルの距離、θは定数である。ωは例えばdに反比例するような値を設定できる。
次に、本発明を実施するための最良の形態の効果について説明する。
本発明を実施するための最良の形態では、複数の話題毎に作成された話題別言語モデル記憶手段を持ち、話題履歴に従いそれらを適切に組み合わせて話題履歴依存言語モデルを生成するよう構成されているため、事前に話題履歴依存言語モデルを準備することなく、話題の変化を伴う音声に対して精度良く認識できる言語モデルの生成を行うことができる。
なお、図1、図3に示す装置はハードウェア、ソフトウェア又はこれらの組合せにより実現できる。ソフトウェアにより実現するとは、コンピュータが、コンピュータを当該装置として機能させるためのプログラムを実行することによって実現することをいう。
(付記1)
話題履歴依存言語モデル記憶手段と、話題履歴蓄積手段と、言語スコア計算手段とを備えた言語モデル生成システムであって、
前記話題履歴蓄積手段に蓄積された発話における話題の履歴と、前記話題履歴依存言語モデル記憶手段に記憶された言語モデルを用い、前記言語スコア計算手段によって話題の履歴に応じた言語スコアを計算することを特徴とする言語モデル生成システム。
(付記2)
前記話題履歴依存言語モデル記憶手段は、直近n話題のみに依存する話題履歴依存言語モデルを記憶することを特徴とする付記1記載の言語モデル生成システム。
(付記3)
前記話題履歴蓄積手段は、直近n話題のみを蓄積することを特徴とする付記1または2記載の言語モデル生成システム。
(付記4)
前記話題履歴依存言語モデル記憶手段は話題別の言語モデルを記憶し、前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題履歴によって前記話題別言語モデルから言語モデルを選択し、前記選択された言語モデルを混合することによって生成された新たな言語モデルを用いて言語スコアを計算することを特徴とする付記1ないし3のいずれか1つ記載の言語モデル生成システム。
(付記5)
前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題に対応する話題別言語モデルを選択することを特徴とする付記4記載の言語モデル生成システム。
(付記6)
前記言語スコア計算手段は選択された話題別言語モデルの確率パラメータを線形結合することを特徴とする付記4または5記載の言語モデル生成システム。
(付記7)
さらに前記言語スコア計算手段は線形結合の際に話題履歴において古い話題に対して小さくなるような係数を用いることを特徴とする付記6記載の言語モデル生成システム。
(付記8)
前記話題履歴依存言語モデル記憶手段は言語モデル間に距離が定義できる話題別言語モデルを記憶し、前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題に対応する話題別言語モデル及び、前記話題に対応する話題別言語モデルと距離の小さい別の話題別言語モデルを選択することを特徴とする付記4記載の言語モデル生成システム。
(付記9)
前記言語スコア計算手段は選択された話題別言語モデルの確率パラメータを線形結合することを特徴とする付記8記載の言語モデル生成システム。
(付記10)
さらに前記言語スコア計算手段は線形結合の際に話題履歴において古い話題に対して小さくなるような係数を用いることを特徴とする付記9記載の言語モデル生成システム。
(付記11)
さらに前記言語スコア計算手段は線形結合の際に話題履歴に出現した話題の話題別言語モデルからの距離が遠い話題別言語モデルに対して小さくなるような係数を用いることを特徴とする付記9または10記載の言語モデル生成システム。
(付記12)
付記1ないし11のいずれか1つに記載の言語モデル生成システムにおいて生成された言語モデルを参照して音声認識を行う音声認識手段を備えることを特徴とする音声認識システム。
(付記13)
話題履歴依存言語モデル記憶手段と、話題履歴蓄積手段と、言語スコア計算手段とを備えた言語モデル生成システムにおける言語モデル生成方法であって、
前記話題履歴蓄積手段に蓄積された発話における話題の履歴と、前記話題履歴依存言語モデル記憶手段に記憶された言語モデルを用い、前記言語スコア計算手段によって話題の履歴に応じた言語スコアを計算することを特徴とする言語モデル生成方法。
(付記14)
前記話題履歴依存言語モデル記憶手段は、直近n話題のみに依存する話題履歴依存言語モデルを記憶することを特徴とする付記13記載の言語モデル生成方法。
(付記15)
前記話題履歴蓄積手段は、直近n話題のみを蓄積することを特徴とする付記13または14記載の言語モデル生成方法。
(付記16)
前記話題履歴依存言語モデル記憶手段は話題別の言語モデルを記憶し、前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題履歴によって前記話題別言語モデルから言語モデルを選択し、前記選択された言語モデルを混合することによって生成された新たな言語モデルを用いて言語スコアを計算することを特徴とする付記13ないし15のいずれか1つ記載の言語モデル生成方法。
(付記17)
前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題に対応する話題別言語モデルを選択することを特徴とする付記16記載の言語モデル生成方法。
(付記18)
前記言語スコア計算手段は選択された話題別言語モデルの確率パラメータを線形結合することを特徴とする付記16または17記載の言語モデル生成方法。
(付記19)
さらに前記言語スコア計算手段は線形結合の際に話題履歴において古い話題に対して小さくなるような係数を用いることを特徴とする付記18記載の言語モデル生成方法。
(付記20)
前記話題履歴依存言語モデル記憶手段は言語モデル間に距離が定義できる話題別言語モデルを記憶し、前記言語スコア計算手段は前記話題履歴蓄積手段に蓄積された話題に対応する話題別言語モデル及び、前記話題に対応する話題別言語モデルと距離の小さい別の話題別言語モデルを選択することを特徴とする付記16記載の言語モデル生成方法。
(付記21)
前記言語スコア計算手段は選択された話題別言語モデルの確率パラメータを線形結合することを特徴とする付記20記載の言語モデル生成方法。
(付記22)
さらに前記言語スコア計算手段は線形結合の際に話題履歴において古い話題に対して小さくなるような係数を用いることを特徴とする付記21記載の言語モデル生成方法。
(付記23)
さらに前記言語スコア計算手段は線形結合の際に話題履歴に出現した話題の話題別言語モデルからの距離が遠い話題別言語モデルに対して小さくなるような係数を用いることを特徴とする付記21または22記載の言語モデル生成方法。
(付記24)
付記13ないし23のいずれか1つに記載の言語モデル生成方法において生成された言語モデルを参照して音声認識を行う音声認識手段を備えることを特徴とする音声認識方法。
(付記25)
コンピュータを付記1乃至11の何れか1つに記載の言語モデル生成システムとして機能させるためのプログラム。
(付記26)
コンピュータを付記12に記載の音声認識システムとして機能させるためのプログラム。

Claims (18)

  1. 話題履歴依存言語モデル記憶手段と、話題履歴蓄積手段と、言語スコア計算手段とを備えた言語モデル生成システムであって、
    前記話題履歴依存言語モデル記憶手段は、話題別言語モデルを記憶し、
    前記話題履歴蓄積手段は、発話における話題の履歴を蓄積し、
    前記言語スコア計算手段は、前記話題履歴蓄積手段に蓄積された話題に対応する話題別言語モデルを選択し、選択した話題別言語モデルによって算出される確率と混合係数とを掛け合わせた値を線形結合することで、前記選択された話題別言語モデルを混合した新たな言語モデルを生成し、前記新たな言語モデルを用いることで、話題の履歴に応じた言語スコアを計算し、
    前記混合係数は、該混合係数と掛け合わせる前記確率の算出に用いる話題別言語モデルが、話題履歴における古い話題に対応する話題別言語モデルであるほど、小さい値であることを特徴とする言語モデル生成システム。
  2. 話題履歴依存言語モデル記憶手段と、話題履歴蓄積手段と、言語スコア計算手段とを備えた言語モデル生成システムであって、
    前記話題履歴依存言語モデル記憶手段は、言語モデル間に距離が定義できる話題別言語モデルを記憶し、
    前記話題履歴蓄積手段は、発話における話題の履歴を蓄積し、
    前記言語スコア計算手段は、前記話題履歴蓄積手段に蓄積された話題に対応する前記話題別言語モデル、及び前記話題に対応する話題別言語モデルとの距離が小さい別の話題別言語モデルを選択し、選択した話題別言語モデルを混合することによって生成された新たな言語モデルを用いて、話題に応じた言語スコアを計算することを特徴とする言語モデル生成システム。
  3. 前記言語スコア計算手段は、選択した話題別言語モデルによって算出される確率と混合係数とを掛け合わせた値を線形結合することで、前記新たな言語モデルを生成することを特徴とする請求項記載の言語モデル生成システム。
  4. 前記混合係数は、該混合係数と掛け合わせる前記確率の算出に用いる話題別言語モデルが、話題履歴における古い話題に対応する話題別言語モデルであるほど、小さい値であることを特徴とする請求項記載の言語モデル生成システム。
  5. 前記混合係数は、該混合係数と掛け合わせる前記確率の算出に用いる話題別言語モデルと、話題履歴に出現した話題の話題別言語モデルとの距離が遠いほど、小さい値であることを特徴とする請求項または記載の言語モデル生成システム。
  6. 前記話題履歴依存言語モデル記憶手段は、直近n話題のみに依存する話題履歴依存言語モデルを記憶することを特徴とする請求項1ないし5いずれか1項に記載の言語モデル生成システム。
  7. 前記話題履歴蓄積手段は、直近n話題のみを蓄積することを特徴とする請求項1ないし6いずれか1項に記載の言語モデル生成システム。
  8. 請求項1ないしのいずれか1項に記載の言語モデル生成システムにおいて生成された言語モデルを参照して音声認識を行う音声認識手段を備えることを特徴とする音声認識システム。
  9. 話題別言語モデルを記憶する話題履歴依存言語モデル記憶手段と、発話における話題の履歴を蓄積する話題履歴蓄積手段と、言語スコア計算手段とを備えた言語モデル生成システムにおける言語モデル生成方法であって、
    前記言語スコア計算手段が、前記話題履歴蓄積手段に蓄積された話題に対応する話題別言語モデルを選択し、前記選択した話題別言語モデルによって算出される確率と混合係数とを掛け合わせた値を線形結合することで、前記選択された話題別言語モデルを混合した新たな言語モデルを生成し、前記新たな言語モデルを用いることで、話題の履歴に応じた言語スコアを計算する言語モデル生成方法であり、
    前記混合係数は、該混合係数と掛け合わせる前記確率の算出に用いる話題別言語モデルが、話題履歴における古い話題に対応する話題別言語モデルであるほど、小さい値であることを特徴とする言語モデル生成方法。
  10. 言語モデル間に距離が定義できる話題別言語モデルを記憶する話題履歴依存言語モデル記憶手段と、発話における話題の履歴を蓄積する話題履歴蓄積手段と、言語スコア計算手段とを備えた言語モデル生成システムにおける言語モデル生成方法であって、
    前記言語スコア計算手段が、前記話題履歴蓄積手段に蓄積された話題に対応する前記話題別言語モデル、及び前記話題に対応する話題別言語モデルとの距離が小さい別の話題別言語モデルを選択し、選択した話題別言語モデルを混合することによって生成された新たな言語モデルを用いて、話題に応じた言語スコアを計算することを特徴とする言語モデル生成方法。
  11. 前記言語スコア計算手段は、前記選択した話題別言語モデルによって算出される確率と混合係数とを掛け合わせた値を線形結合することで、前記新たな言語モデルを生成することを特徴とする請求項10記載の言語モデル生成方法。
  12. 前記混合係数は、該混合係数と掛け合わせる前記確率の算出に用いる話題別言語モデルが、話題履歴における古い話題に対応する話題別言語モデルであるほど、小さい値であることを特徴とする請求項11記載の言語モデル生成方法。
  13. 前記混合係数は、該混合係数と掛け合わせる前記確率の算出に用いる話題別言語モデルと、話題履歴に出現した話題の話題別言語モデルとの距離が遠いほど、小さい値であることを特徴とする請求項11または12記載の言語モデル生成方法。
  14. 前記話題履歴依存言語モデル記憶手段は、直近n話題のみに依存する話題履歴依存言語モデルを記憶することを特徴とする請求項9ないし13いずれか1項に記載の言語モデル生成方法。
  15. 前記話題履歴蓄積手段は、直近n話題のみを蓄積することを特徴とする請求項9ないし14いずれか1項に記載の言語モデル生成方法。
  16. 請求項ないし15のいずれか1項に記載の言語モデル生成方法において生成された言語モデルを参照して音声認識を行う音声認識手段を備えることを特徴とする音声認識方法。
  17. コンピュータを請求項1ないし7の何れか1項に記載の言語モデル生成システムとして機能させるためのプログラム。
  18. コンピュータを請求項に記載の音声認識システムとして機能させるためのプログラム。
JP2008522290A 2006-06-26 2007-06-18 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム Active JP5218052B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008522290A JP5218052B2 (ja) 2006-06-26 2007-06-18 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006175101 2006-06-26
JP2006175101 2006-06-26
JP2008522290A JP5218052B2 (ja) 2006-06-26 2007-06-18 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
PCT/JP2007/000641 WO2008001485A1 (fr) 2006-06-26 2007-06-18 système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue

Publications (2)

Publication Number Publication Date
JPWO2008001485A1 JPWO2008001485A1 (ja) 2009-11-26
JP5218052B2 true JP5218052B2 (ja) 2013-06-26

Family

ID=38845260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008522290A Active JP5218052B2 (ja) 2006-06-26 2007-06-18 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム

Country Status (3)

Country Link
US (1) US20110077943A1 (ja)
JP (1) JP5218052B2 (ja)
WO (1) WO2008001485A1 (ja)

Families Citing this family (158)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010061507A1 (ja) * 2008-11-28 2010-06-03 日本電気株式会社 言語モデル作成装置
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US9442933B2 (en) 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US11531668B2 (en) 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP2013050605A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 言語モデル切替装置およびそのプログラム
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
JP5914054B2 (ja) * 2012-03-05 2016-05-11 日本放送協会 言語モデル作成装置、音声認識装置、およびそのプログラム
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US9812130B1 (en) * 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9502032B2 (en) 2014-10-08 2016-11-22 Google Inc. Dynamically biasing language models
JP2015092286A (ja) * 2015-02-03 2015-05-14 株式会社東芝 音声認識装置、方法及びプログラム
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) * 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
WO2020056236A1 (en) * 2018-09-14 2020-03-19 Aondevices, Inc. System architecture and embedded circuit to locate a lost portable device using voice command
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US20200257856A1 (en) * 2019-02-07 2020-08-13 Clinc, Inc. Systems and methods for machine learning based multi intent segmentation and classification
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268677A (ja) * 2001-03-07 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104989A (en) * 1998-07-29 2000-08-15 International Business Machines Corporation Real time detection of topical changes and topic identification via likelihood based methods
US6529902B1 (en) * 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
US7200635B2 (en) * 2002-01-09 2007-04-03 International Business Machines Corporation Smart messenger

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268677A (ja) * 2001-03-07 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JPN6012057998; 高橋力矢 他: '文脈適応による複数N-gramの動的補間を用いた言語モデル' 情報処理学会研究報告 Vol.2003,No.57,2003-NL-155(18), 20030527, p.107-112 *
JPN6012057999; 高橋力矢 他: '複数のバックオフN-gramを動的補間する言語モデルの高精度化' 電子情報通信学会技術研究報告 Vol.103,No.519,SP2003-123, 20031211, p.61-66 *
JPN6012058000; 佐古淳 他: 'PLSAに基づくトピックHMMを用いた言語モデル構築の検討' 日本音響学会2006年春季研究発表会講演論文集CD-ROM 1-P-23, 20060307, p.189-190 *
JPN6012058001; 山本博史 他: '話題と文型の違いを同時に考慮した言語モデル適応' 電子情報通信学会論文誌D-II Vol.J85-D-II,No.8, 20020725, p.1284-1290 *
JPN6012058002; 神田直之 他: '複数ドメイン音声対話システムにおける対話履歴を利用したドメイン選択の高精度化' 情報処理学会研究報告 Vol.2006,No.12,2006-SLP-60(11), 20060204, p.55-60 *
JPN6012058003; 栗山直人 他: 'PLSA言語モデルの学習最適化と語彙分割に関する検討' 情報処理学会研究報告 Vol.2006,No.12,2006-SLP-60(8), 20060203, p.37-42 *
JPN6012058004; 三品拓也 他: '確率的LSAに基づくngramモデルへの変分ベイズ学習を利用した文脈適応化' 電子情報通信学会論文誌D-II Vol.J87-D-II,No.7, 20040625, p.1409-1417 *

Also Published As

Publication number Publication date
WO2008001485A1 (fr) 2008-01-03
JPWO2008001485A1 (ja) 2009-11-26
US20110077943A1 (en) 2011-03-31

Similar Documents

Publication Publication Date Title
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
US11514901B2 (en) Anchored speech detection and speech recognition
US9934777B1 (en) Customized speech processing language models
US11061644B2 (en) Maintaining context for voice processes
US10121467B1 (en) Automatic speech recognition incorporating word usage information
US9972318B1 (en) Interpreting voice commands
US20210312914A1 (en) Speech recognition using dialog history
US8914286B1 (en) Speech recognition with hierarchical networks
CN114097026A (zh) 语音识别的上下文偏置
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
US11823655B2 (en) Synthetic speech processing
US10199037B1 (en) Adaptive beam pruning for automatic speech recognition
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
US11437026B1 (en) Personalized alternate utterance generation
JP2008046633A (ja) 平方根ディスカウンティングを使用した統計的言語による音声認識
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
US11282495B2 (en) Speech processing using embedding data
CN110189750B (zh) 词语检测***、词语检测方法以及记录介质
JPH1185188A (ja) 音声認識方法及びそのプログラム記録媒体
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5218052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150