WO2020035998A1

WO2020035998A1 - 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム

Info

Publication number: WO2020035998A1
Application number: PCT/JP2019/024799
Authority: WO
Inventors: 亮増村; 智大田中
Original assignee: 日本電信電話株式会社
Priority date: 2018-08-17
Filing date: 2019-06-21
Publication date: 2020-02-20
Also published as: JP6965846B2; US20210174788A1; JP2020027224A

Abstract

リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語ｗ_ｉの予測確率を算出する言語モデルスコア算出装置であって、前記単語ｗ_ｉの直前に観測された単語ｗ_ｉ－１を単語ベクトルΦ（ｗ_ｉ－１）に変換する単語ベクトル表現手段と、前記単語ｗ_ｉ－１に対応する話者ラベルｒ_ｉ－１と前記単語ｗ_ｉに対応する話者ラベルｒ_ｉとをそれぞれ話者ベクトルΨ（ｒ_ｉ－１）と話者ベクトルΨ（ｒ_ｉ）とに変換する話者ベクトル表現手段と、前記単語ベクトルΦ（ｗ_ｉ－１）と、前記話者ベクトルΨ（ｒ_ｉ－１）と、前記単語ｗ_ｉ－１の予測確率を算出する際に得られた単語履歴ベクトルｓ_ｉ－１とを用いて、単語履歴ベクトルｓ_ｉを算出する単語履歴ベクトル表現手段と、前記単語履歴ベクトルｓ_ｉ－１と、前記話者ベクトルΨ（ｒ_ｉ）とを用いて、前記単語ｗ_ｉの予測確率を算出する予測確率算出手段と、を有することを特徴とする。

Description

言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム

　本発明は、言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラムに関する。

　音声認識や機械翻訳等では、言語的な予測のために言語モデルが必要である。言語モデルは、言語らしさを表す言語モデルスコア（例えば、単語の予測確率等）を算出可能なものであり、その性能が音声認識や機械翻訳等の性能を左右するものである。これまで様々な種類の言語モデルが提案されているが、近年、リカレントニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）に基づく言語モデルが注目されている（例えば、非特許文献１及び２を参照）。リカレントニューラルネットワークに基づく言語モデルは非常に高い言語予測性能を持ち、音声認識や機械翻訳等で積極的に利用されている。

　リカレントニューラルネットワークに基づく言語モデルは、テキストデータから学習することができる。このとき、対象とするタスクに適合したテキストデータからリカレントニューラルネットワークに基づく言語モデルを学習することで、高い言語予測性能を実現するこができる。なお、リカレントニューラルネットワークに基づく言語モデルの学習とは、モデルパラメータ（すなわち、リカレントニューラルネットワークのパラメータ）を学習によって更新することである。

　リカレントニューラルネットワークに基づく言語モデルでは、単語系列ｗ_１，・・・，ｗ_ｉ－１が観測された条件下で現在の単語ｗ_ｉを予測する場合、直前の単語ｗ_ｉ－１と中間層の直前の出力ｓ_ｉ－１とを入力として、現在の単語ｗ_ｉの予測確率Ｐ（ｗ_ｉ｜ｗ_ｉ－１，ｓ_ｉ－１，θ）の確率分布を出力する。ここで、θはリカレントニューラルネットワークに基づく言語モデルのモデルパラメータである。この予測確率Ｐが言語モデルスコアである。

　中間層の出力ｓ_ｉ－１にはｉ－２番目までの全ての単語の単語系列ｗ_１，・・・，ｗ_ｉ－２が埋め込まれているため、リカレントニューラルネットワークに基づく言語モデルでは、長距離の単語履歴情報を陽に利用して現在の単語ｗ_ｉの予測確率Ｐ（ｗ_ｉ｜ｗ_ｉ－１，ｓ_ｉ－１，θ）、つまり言語モデルスコアを算出することができる。以降では、中間層の出力ｓ_ｉを「単語履歴ベクトル」とも表す。なお、リカレントニューラルネットワークに基づく言語モデルに利用可能なリカレントニューラルネットワークは様々に存在し、例えば、ＬＳＴＭ（Long Short-Term Memory）やＧＲＵ（Gated Recurrent Unit）等の種々のリカレントニューラルネットワークが利用可能である。

Mikolov Tomas, Karafiat Martin, Burget Lukas, Cernocky Jan, Khudanpur Sanjeev, "Recurrent neural network based language model", INTERSPEECH 2010, pp. 1045-1048, 2010. Martin Sundermeyer, Ralf Schluter, and Hermann Ney, "LSTM Neural Networks for Language Modeling", INTERSPEECH 2012.

　しかしながら、従来のリカレントニューラルネットワークに基づく言語モデルは、話者を考慮しないモデルであるため、例えば単一話者の音声認識等に利用することを想定したモデルであった。したがって、従来のリカレントニューラルネットワークに基づく言語モデルでは、例えば、複数人間での会話等において、これまで誰が何を話してきて、これから誰が話すのか、といった情報を陽に活用して、現在の単語の予測確率（すなわち、リカレントニューラルネットワークに基づく言語モデルの言語モデルスコア）を算出することができなかった。

　本発明の実施の形態は、上記の点に鑑みてなされたもので、話者を考慮した言語モデルスコアを算出することを目的とする。

　上記目的を達成するため、本発明の実施の形態は、リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語ｗ_ｉの予測確率を算出する言語モデルスコア算出装置であって、前記単語ｗ_ｉの直前に観測された単語ｗ_ｉ－１を単語ベクトルΦ（ｗ_ｉ－１）に変換する単語ベクトル表現手段と、前記単語ｗ_ｉ－１に対応する話者ラベルｒ_ｉ－１と前記単語ｗ_ｉに対応する話者ラベルｒ_ｉとをそれぞれ話者ベクトルΨ（ｒ_ｉ－１）と話者ベクトルΨ（ｒ_ｉ）とに変換する話者ベクトル表現手段と、前記単語ベクトルΦ（ｗ_ｉ－１）と、前記話者ベクトルΨ（ｒ_ｉ－１）と、前記単語ｗ_ｉ－１の予測確率を算出する際に得られた単語履歴ベクトルｓ_ｉ－１とを用いて、単語履歴ベクトルｓ_ｉを算出する単語履歴ベクトル表現手段と、前記単語履歴ベクトルｓ_ｉ－１と、前記話者ベクトルΨ（ｒ_ｉ）とを用いて、前記単語ｗ_ｉの予測確率を算出する予測確率算出手段と、を有することを特徴とする。

　話者を考慮した言語モデルスコアを算出することができる。

本発明の実施の形態における言語モデルスコア算出装置の機能構成の一例を示す図である。本発明の実施の形態におけるモデルパラメータ算出装置の機能構成の一例を示す図である。本発明の実施の形態における予測確率分布の算出処理の一例を示すフローチャートである。本発明の実施の形態におけるモデルパラメータの学習処理の一例を示すフローチャートである。本発明の実施の形態における言語モデルスコア算出装置及びモデルパラメータ学習装置のハードウェア構成の一例を示す図である。

　以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態では、リカレントニューラルネットワークに基づく言語モデルにおいて、話者を考慮した言語モデルスコアを算出する言語モデルスコア算出装置１０について説明する。また、本発明の実施の形態では、話者を考慮した言語モデルスコアを算出可能な、リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習するモデルパラメータ学習装置２０について説明する。

　ここで、一般に、発話する内容は話者の性別や役割等の違いによって異なると考えられる。例えば、コールセンターにおけるオペレータとカスタマーとの対話において次に発話する単語の予測確率を算出する場合、オペレータとカスタマーとの各々がこれまでどのような単語系列を発話したかを陽に観測でき、これから予測したい対象がオペレータであるか又はカスタマーであるかが分かっていれば、次に発話する単語の予測がより精緻に行えることが期待できる。

　すなわち、オペレータが次に発話する単語を予測する場合は、例えば、これまでオペレータが話していた発話スタイルの単語を発話すると共に、直前のカスタマーの単語に応対するような単語を発話することが考えられる。このため、話者を考慮した言語モデルスコアを算出することで、より精緻な単語予測を行うことができる。

　そこで、本発明の実施の形態における言語モデルスコア算出装置１０は、リカレントニューラルネットワークに基づく言語モデルに対して話者情報を陽に導入することで、話者を考慮した言語モデルスコアを算出する。ここで、話者情報とは、単語を発話した話者又はこれから単語を発話する話者を表す話者ラベルのことである。以降では、単語ｗ_ｉを発話した話者又はこれから発話する話者の話者ラベルをｒ_ｉと表す。例えば、ｉ番目の単語ｗ_ｉの予測確率を算出する場合に、これまで観測された単語系列ｗ_１，・・・，ｗ_ｉ－１をそれぞれ発話した話者の話者ラベル系列はｒ_１，・・・，ｒ_ｉ－１と表され、これから発話される単語ｗ_ｉの話者ラベルはｒ_ｉと表される。

　＜言語モデルスコア算出装置１０の機能構成＞
　まず、本発明の実施の形態における言語モデルスコア算出装置１０の機能構成について、図１を参照しながら説明する。図１は、本発明の実施の形態における言語モデルスコア算出装置１０の機能構成の一例を示す図である。

　図１に示すように、本発明の実施の形態における言語モデルスコア算出装置１０は、リカレントニューラルネットワークに基づく言語モデル１００を有する。この言語モデル１００は、１以上のリカレントニューラルネットワークにより実現される。なお、リカレントニューラルネットワークとしては、例えば、ＬＳＴＭやＧＲＵ等の種々のリカレントニューラルネットワークを利用することができる。

　言語モデル１００は、単語ｗ_ｉ－１と、単語ｗ_ｉ－１に対応する話者ラベルｒ_ｉ－１と、単語ｗ_ｉに対応する話者ラベルｒ_ｉと、単語履歴ベクトルｓ_ｉ－１と、モデルパラメータθとを入力として、単語ｗ_ｉの予測確率Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）の確率分布（すなわち、単語ｗ_ｉの予測確率分布）を出力する。このとき、言語モデルスコア算出装置１０の言語モデル１００は、モデルパラメータ学習装置２０により学習されたモデルパラメータθを用いる。なお、この予測確率Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）が言語モデル１００の言語モデルスコアである。ただし、これに限られず、この予測確率Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）に基づく値（例えば、予測確率Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）の自然対数をとった値等）を言語モデルスコアとしても良い。

　ここで、話者ラベルｒ_ｉの値は、音声入力のチャネル等から決定することができる。例えば、チャネルＡとチャネルＢとの２つのチャネルがある場合に、チャネルＡから入力された音を構成する単語ｗ_ｉの話者ラベルｒ_ｉの値を「１」、チャネルＢから入力された音を構成する単語ｗ_ｉの話者ラベルｒ_ｉの値を「２」と決定することができる。これ以外にも、例えば、言語モデル１００に単語ｗ_ｉを入力する前の前処理として、任意の話者ラベル判定器によって話者ラベルｒ_ｉを獲得しても良い。

　言語モデル１００は、機能部として、単語ベクトル表現部１０１と、話者ベクトル表現部１０２と、単語履歴ベクトル表現部１０３と、予測確率算出部１０４とを有する。

　単語ベクトル表現部１０１は、単語ｗ_ｉの予測確率分布を算出する場合に、単語ｗ_ｉ－１と、モデルパラメータθとを入力として、単語ベクトルΦ（ｗ_ｉ－１）を出力する。すなわち、単語ベクトル表現部１０１は、モデルパラメータθに従って、単語ｗ_ｉ－１を単語ベクトルΦ（ｗ_ｉ－１）に変換する。

　単語ベクトルΦ（ｗ_ｉ－１）としては、例えば、単語ｗ_ｉ－１に対応する次元の要素のみを１、それ以外の要素を０とする１－ｈｏｔベクトルを採用することができる。１－ｈｏｔベクトルについては、例えば、上記の非特許文献１を参照されたい。なお、これ以外にも、例えば、１－ｈｏｔベクトルに対して線形変換を行う方法等を採用することもできる。１－ｈｏｔベクトルに対して線形変換を行う例については、例えば、上記の非特許文献２を参照されたい。

　話者ベクトル表現部１０２は、単語ｗ_ｉの予測確率分布を算出する場合に、話者ラベルｒ_ｉ－１と、モデルパラメータθとを入力として、話者ベクトルΨ（ｒ_ｉ－１）を出力する。また、話者ベクトル表現部１０２は、話者ラベルｒ_ｉと、モデルパラメータθとを入力として、話者ベクトルΨ（ｒ_ｉ）を出力する。すなわち、話者ベクトル表現部１０２は、モデルパラメータθに従って、話者ラベルｒ_ｉ－１及びｒ_ｉをそれぞれ話者ベクトルΨ（ｒ_ｉ－１）及びΨ（ｒ_ｉ）に変換する。

　話者ベクトルΨ（ｒ_ｉ－１）としては、例えば、話者ラベルｒ_ｉ－１に対応する次元の要素のみを１、それ以外の要素を０とする１－ｈｏｔベクトルを採用することができる。話者ベクトルΨ（ｒ_ｉ）についても同様である。１－ｈｏｔベクトルについては、例えば、上記の非特許文献１を参照されたい。なお、これ以外にも、例えば、１－ｈｏｔベクトルに対して線形変換を行う方法等を採用することもできる。１－ｈｏｔベクトルに対して線形変換を行う例については、例えば、上記の非特許文献２を参照されたい。

　単語履歴ベクトル表現部１０３は、単語ｗ_ｉの予測確率分布を算出する場合に、単語ベクトルΦ（ｗ_ｉ－１）と、話者ベクトルΨ（ｒ_ｉ－１）と、過去の単語履歴ベクトルｓ_ｉ－１と、モデルパラメータθとを入力として、単語履歴ベクトルｓ_ｉを出力する。すなわち、単語履歴ベクトル表現部１０３は、モデルパラメータθに従って、単語ベクトルΦ（ｗ_ｉ－１）と、話者ベクトルΨ（ｒ_ｉ－１）と、過去の単語履歴ベクトルｓ_ｉ－１とを単語履歴ベクトルｓ_ｉに変換する。このとき、単語履歴ベクトル表現部１０３は、単語ベクトルΦ（ｗ_ｉ－１）と話者ベクトルΨ（ｒ_ｉ－１）とを結合したベクトル（以降、「結合ベクトル」とも表す。）を構成した上で、この結合ベクトルに対してリカレントニューラルネットワークに基づく変換処理を実施することで、単語履歴ベクトルｓ_ｉを出力する。リカレントニューラルネットワークに基づく変換処理については、例えば、上記の非特許文献１や非特許文献２を参照されたい。

　なお、結合ベクトルは、例えば、単語ベクトルΦ（ｗ_ｉ－１）の次元数が２００、話者ベクトルΨ（ｒ_ｉ－１）の次元数が６４である場合、２６４次元のベクトルとして表される。また、過去の単語履歴ベクトルｓ_ｉ－１は、単語履歴ベクトル表現部１０３の再帰的な処理により計算されたものである。単語ｗ_１の予測確率分布を算出する場合に用いる過去の単語履歴ベクトルｓ_０としては、全ての要素が０であるベクトルとすれば良い。

　予測確率算出部１０４は、過去の単語履歴ベクトルｓ_ｉ－１と、話者ベクトルΨ（ｒ_ｉ）と、モデルパラメータθとを入力として、単語ｗ_ｉの予測確率分布を出力する。すなわち、予測確率算出部１０４は、モデルパラメータθに従って、過去の単語履歴ベクトルｓ_ｉ－１と、話者ベクトルΨ（ｒ_ｉ）とから、単語ｗ_ｉの予測確率Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）の確率分布を出力する。予測確率算出部１０４は、例えば、ソフトマックス関数を用いた変換により、単語ｗ_ｉの予測確率分布を得ることができる。ソフトマックス関数を用いた変換については、例えば、上記の非特許文献１や非特許文献２を参照されたい。

　なお、上記で出力された単語ｗ_ｉの予測確率分布は、例えば、音声認識等で利用することができる。具体的には、例えば、音声認識システムから出力される音声認識仮説のうちの上位Ｍ（≧１）個に対して、単語ｗ_ｉの予測確率に基づきスコアリングを行い、音声認識仮説をリスコアリングする。例えば、音声認識システムが出力するスコアと、この予測確率の自然対数をとったスコアとを足し合わせたスコアで、リスコアリングを行う。

　＜モデルパラメータ学習装置２０の機能構成＞
　次に、本発明の実施の形態におけるモデルパラメータ学習装置２０の機能構成について、図２を参照しながら説明する。図２は、本発明の実施の形態におけるモデルパラメータ学習装置２０の機能構成の一例を示す図である。

　図２に示すように、本発明の実施の形態におけるモデルパラメータ学習装置２０は、言語モデル１００と、モデルパラメータ学習部２００とを有する。ここで、言語モデル１００は、上述した通りであるため、その詳細な説明は省略する。ただし、モデルパラメータ学習装置２０の言語モデル１００は、学習済みでないモデルパラメータθを用いて、単語ｗ_ｉの予測確率分布を出力する。

　言語モデル１００は、学習済みでないモデルパラメータθを用いて、単語系列ｗ_１，・・・，ｗ_Ｎと、話者ラベル系列ｒ_１，・・・，ｒ_Ｎとを入力として、単語ｗ_ｉの予測確率分布を出力する。すなわち、言語モデル１００は、ｉ＝１からＮまで順に、単語ｗ_ｉ－１と、話者ラベルｒ_ｉと、話者ラベルｒ_ｉ－１とを入力として、単語ｗ_ｉの予測確率分布を出力する。これにより、単語ｗ_１から単語ｗ_Ｎまでの予測確率分布が得られる。なお、単語系列ｗ_１，・・・，ｗ_Ｎ及び話者ラベル系列ｒ_１，・・・，ｒ_Ｎは、例えば、複数人間での会話データが作成された単語系列及び話者ラベル系列である。

　モデルパラメータ学習部２００は、単語系列ｗ_１，・・・，ｗ_Ｎと、言語モデル１００から出力された各単語ｗ_ｉの予測確率分布とを入力として、モデルパラメータθを更新した上で、更新後のモデルパラメータθを出力する。これにより、モデルパラメータθが学習される。

　このとき、モデルパラメータ学習部２００は、以下の式（１）に示す尤度関数Ｌ（θ）が最大となるようにモデルパラメータθを更新する。

　ここで、Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）は、入力された単語系列ｗ_１，・・・，ｗ_Ｎのうちの単語ｗ_ｉの予測確率である。例えば、単語ｗ_ｉが「ｗｏｒｄ１」、「ｗｏｒｄ２」、「ｗｏｒｄ３」を取り得る場合であって、入力された単語系列中のｉ番目の単語ｗ_ｉが「ｗｏｒｄ２」である場合、Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）は、単語「ｗｏｒｄ２」の予測確率、つまりＰ（ｗｏｒｄ２｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）である。したがって、上記の式（１）に示す尤度関数Ｌ（θ）が最大化させるモデルパラメータθとは、正解単語ｗ_ｉ（つまり、入力された単語系列中のｉ番目の単語ｗ_ｉ）の予測確率Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）が最大となるモデルパラメータを意味する。

　このため、モデルパラメータ学習部２００は、ａｒｇｍａｘＬ（θ）を推定した上で、この推定値を、更新後のモデルパラメータθとすれば良い。尤度関数Ｌ（θ）が最大となるモデルパラメータθを推定する方法としては、様々な手法を利用することができる。このような手法としては、例えば、誤差逆伝播法等が挙げられる。

　なお、本発明の実施の形態では、言語モデルスコア算出装置１０とモデルパラメータ学習装置２０とが異なる装置であるもとしたが、これに限られず、例えば、言語モデルスコア算出装置１０とモデルパラメータ学習装置２０とが同一の装置であっても良い。

　＜予測確率分布の算出処理＞
　次に、本発明の実施の形態における言語モデルスコア算出装置１０が予測確率分布を算出する処理について、図３を参照しながら説明する。図３は、本発明の実施の形態における予測確率分布の算出処理の一例を示すフローチャートである。なお、図３のステップＳ１０１～ステップＳ１０５の処理は、単語のインデックスを表すｉ毎に、ｉ＝１から順に繰り返し実行される。以降では、或る単語ｗ_ｉの予測確率分布を算出する場合について説明する。また、モデルパラメータθは予め学習済みであるものとする。

　ステップＳ１０１：単語ベクトル表現部１０１は、１つ前の単語ｗ_ｉ－１と、モデルパラメータθとを入力として、単語ベクトルΦ（ｗ_ｉ－１）を得る。すなわち、単語ベクトル表現部１０１は、モデルパラメータθに従って、単語ｗ_ｉ－１を単語ベクトルΦ（ｗ_ｉ－１）に変換する。

　ステップＳ１０２：話者ベクトル表現部１０２は、話者ラベルｒ_ｉ－１と、モデルパラメータθとを入力として、話者ベクトルΨ（ｒ_ｉ－１）を得る。すなわち、話者ベクトル表現部１０２は、モデルパラメータθに従って、話者ラベルｒ_ｉ－１を話者ベクトルΨ（ｒ_ｉ－１）に変換する。

　ステップＳ１０３：話者ベクトル表現部１０２は、話者ラベルｒ_ｉと、モデルパラメータθとを入力として、話者ベクトルΨ（ｒ_ｉ）を得る。すなわち、話者ベクトル表現部１０２は、モデルパラメータθに従って、話者ラベルｒ_ｉを話者ベクトルΨ（ｒ_ｉ）に変換する。

　なお、上記のステップＳ１０１～ステップＳ１０３の処理は順不同である。また、上記のステップＳ１０１の処理と、上記のステップＳ１０２又はステップＳ１０３のいずれかの処理とが並列で実行されても良い。また、上記のステップＳ１０３の処理は、後述するステップＳ１０４の処理の後に実行されても良い。

　ステップＳ１０４：単語履歴ベクトル表現部１０３は、単語ベクトルΦ（ｗ_ｉ－１）と、話者ベクトルΨ（ｒ_ｉ－１）と、過去の単語履歴ベクトルｓ_ｉ－１と、モデルパラメータθとを入力として、単語履歴ベクトルｓ_ｉを得る。すなわち、単語履歴ベクトル表現部１０３は、単語ベクトルΦ（ｗ_ｉ－１）と話者ベクトルΨ（ｒ_ｉ－１）とを結合した結合ベクトルを構成した上で、モデルパラメータθに従って、結合ベクトルと、過去の単語履歴ベクトルｓ_ｉ－１とを単語履歴ベクトルｓ_ｉに変換する。

　ステップＳ１０５：予測確率算出部１０４は、過去の単語履歴ベクトルｓ_ｉ－１と、話者ベクトルΨ（ｒ_ｉ）と、モデルパラメータθとを入力として、単語ｗ_ｉの予測確率分布を得る。すなわち、予測確率算出部１０４は、モデルパラメータθに従って、過去の単語履歴ベクトルｓ_ｉ－１と、話者ベクトルΨ（ｒ_ｉ）とから、単語ｗ_ｉの予測確率Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）の確率分布を得る。

　これにより、言語モデル１００の言語モデルスコアとして、例えば、各単語ｗ_ｉそれぞれの予測確率Ｐ（ｗ_ｉ｜ｒ_ｉ，ｗ_ｉ－１，ｒ_ｉ－１，ｓ_ｉ－１，θ）が得られる。これらの予測確率Ｐは話者を考慮した言語モデルスコアであるため、この言語モデルスコアによってより精緻な単語予測を行うことができるようになる。

　＜モデルパラメータの学習処理＞
　次に、本発明の実施の形態におけるモデルパラメータ学習装置２０によりモデルパラメータを学習する処理について、図４を参照しながら説明する。図４は、本発明の実施の形態におけるモデルパラメータの学習処理の一例を示すフローチャートである。以降では、モデルパラメータθは、例えば、適切な初期値に初期化されているものとする。

　ステップＳ２０１：言語モデル１００は、学習済みでないモデルパラメータθを用いて、単語系列ｗ_１，・・・，ｗ_Ｎと、話者ラベル系列ｒ_１，・・・，ｒ_Ｎとを入力として、単語ｗ_ｉの予測確率分布を出力する。すなわち、言語モデル１００は、ｉ＝１からＮまで順に、単語ｗ_ｉ－１と、話者ラベルｒ_ｉと、話者ラベルｒ_ｉ－１とを入力として、上記のステップＳ１０１～ステップＳ１０５の処理により単語ｗ_ｉの予測確率分布を出力する。これにより、単語ｗ_１から単語ｗ_Ｎまでの予測確率分布が得られる。

　ステップＳ２０２：次に、モデルパラメータ学習部２００は、単語系列ｗ_１，・・・，ｗ_Ｎと、言語モデル１００から出力された各単語ｗ_ｉの予測確率分布とを入力として、モデルパラメータθを更新した上で、更新後のモデルパラメータθを出力する。このとき、モデルパラメータ学習部２００は、上記の式（１）に示す尤度関数Ｌ（θ）が最大となるようにモデルパラメータθを更新する。これにより、モデルパラメータθが学習される。

　なお、上記のステップＳ２０１～ステップＳ２０２の処理は、例えば、単語系列ｗ_１，・・・，ｗ_Ｎと話者ラベル系列ｒ_１，・・・，ｒ_Ｎとの組が複数与えられた場合に、この組毎に繰り返し実行されても良い。

　＜言語モデルスコア算出装置１０及びモデルパラメータ学習装置２０のハードウェア構成＞
　次に、本発明の実施の形態における言語モデルスコア算出装置１０及びモデルパラメータ学習装置２０のハードウェア構成について、図５を参照しながら説明する。図５は、本発明の実施の形態における言語モデルスコア算出装置１０及びモデルパラメータ学習装置２０のハードウェア構成の一例を示す図である。なお、言語モデルスコア算出装置１０及びモデルパラメータ学習装置２０は略同様のハードウェア構成を有しているため、以降では、主に、言語モデルスコア算出装置１０のハードウェア構成について説明する。

　図５に示すように、本発明の実施の形態における言語モデルスコア算出装置１０は、入力装置３０１と、表示装置３０２と、外部Ｉ／Ｆ３０３と、ＲＡＭ（Random Access Memory）３０４と、ＲＯＭ（Read Only Memory）３０５と、プロセッサ３０６と、通信Ｉ／Ｆ３０７と、補助記憶装置３０８とを有する。これら各ハードウェアは、それぞれがバス３０９を介して通信可能に接続されている。

　入力装置３０１は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置３０２は、例えばディスプレイ等であり、言語モデルスコア算出装置１０の処理結果を表示する。なお、言語モデルスコア算出装置１０及びモデルパラメータ学習装置２０は、入力装置３０１及び表示装置３０２のうちの少なくとも一方を有していなくても良い。

　外部Ｉ／Ｆ３０３は、外部装置とのインタフェースである。外部装置には、記録媒体３０３ａ等がある。言語モデルスコア算出装置１０は、外部Ｉ／Ｆ３０３を介して、記録媒体３０３ａ等の読み取りや書き込みを行うことができる。記録媒体３０３ａには、言語モデル１００やモデルパラメータ学習部２００を実現する１以上のプログラム、モデルパラメータθ等が記録されていても良い。

　記録媒体３０３ａとしては、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

　ＲＡＭ３０４は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＲＯＭ３０５は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ３０５には、例えば、ＯＳ（Operating System）に関する設定情報や通信ネットワークに関する設定情報等が格納されている。

　プロセッサ３０６は、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等であり、ＲＯＭ３０５や補助記憶装置３０８等からプログラムやデータをＲＡＭ３０４上に読み出して処理を実行する演算装置である。言語モデル１００やモデルパラメータ学習部２００は、例えば、補助記憶装置３０８に格納されている１以上のプログラムがプロセッサ３０６に実行させる処理により実現される。なお、言語モデルスコア算出装置１０及びモデルパラメータ学習装置２０は、プロセッサ３０６としてＣＰＵとＧＰＵとの両方を有していても良いし、ＣＰＵ又はＧＰＵのいずれか一方のみを有していても良い。

　通信Ｉ／Ｆ３０７は、言語モデルスコア算出装置１０を通信ネットワークに接続するためのインタフェースである。言語モデル１００やモデルパラメータ学習部２００を実現する１以上のプログラムは、通信Ｉ／Ｆ３０７を介して、所定のサーバ等から取得（ダウンロード）されても良い。

　補助記憶装置３０８は、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置３０８に格納されているプログラムやデータには、例えば、ＯＳ、アプリケーションプログラム、言語モデル１００やモデルパラメータ学習部２００を実現する１以上のプログラム、モデルパラメータθ等が挙げられる。

　本発明の実施の形態における言語モデルスコア算出装置１０及びモデルパラメータ学習装置２０は、図５に示すハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、図５では、言語モデルスコア算出装置１０が１台のコンピュータで実現される場合のハードウェア構成例を示したが、これに限られず、言語モデルスコア算出装置１０及びモデルパラメータ学習装置２０は複数台のコンピュータで実現されていても良い。

　＜まとめ＞
　以上のように、本発明の実施の形態における言語モデルスコア算出装置１０は、１つ前の単語ｗ_ｉ－１に対応する話者ラベルｒ_ｉ－１と、現在の単語ｗ_ｉに対応する話者ラベルｒ_ｉとを用いることで、リカレントニューラルネットワークに基づく言語モデル１００の言語モデルスコアとして、話者を考慮した単語ｗ_ｉの予測確率を算出することができるようになる。これにより、本発明の実施の形態における言語モデルスコア算出装置１０によって算出された言語モデルスコアを用いることで、より精緻な単語予測を行うことができるようになる。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

　１０　　　　言語モデルスコア算出装置
　２０　　　　モデルパラメータ学習装置
　１００　　　言語モデル
　１０１　　　単語ベクトル表現部
　１０２　　　話者ベクトル表現部
　１０３　　　単語履歴ベクトル表現部
　１０４　　　予測確率算出部
　２００　　　モデルパラメータ学習部

Claims

　リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語ｗ_ｉの予測確率を算出する言語モデルスコア算出装置であって、
　前記単語ｗ_ｉの直前に観測された単語ｗ_ｉ－１を単語ベクトルΦ（ｗ_ｉ－１）に変換する単語ベクトル表現手段と、
　前記単語ｗ_ｉ－１に対応する話者ラベルｒ_ｉ－１と前記単語ｗ_ｉに対応する話者ラベルｒ_ｉとをそれぞれ話者ベクトルΨ（ｒ_ｉ－１）と話者ベクトルΨ（ｒ_ｉ）とに変換する話者ベクトル表現手段と、
　前記単語ベクトルΦ（ｗ_ｉ－１）と、前記話者ベクトルΨ（ｒ_ｉ－１）と、前記単語ｗ_ｉ－１の予測確率を算出する際に得られた単語履歴ベクトルｓ_ｉ－１とを用いて、単語履歴ベクトルｓ_ｉを算出する単語履歴ベクトル表現手段と、
　前記単語履歴ベクトルｓ_ｉ－１と、前記話者ベクトルΨ（ｒ_ｉ）とを用いて、前記単語ｗ_ｉの予測確率を算出する予測確率算出手段と、
　を有することを特徴とする言語モデルスコア算出装置。
　前記単語履歴ベクトル表現手段は、
　前記単語ベクトルΦ（ｗ_ｉ－１）と前記話者ベクトルΨ（ｒ_ｉ－１）とを結合した結合ベクトルを構成した上で、前記結合ベクトルと前記単語履歴ベクトルｓ_ｉ－１とから前記単語履歴ベクトルｓ_ｉを算出する、ことを特徴とする請求項１に記載の言語モデルスコア算出装置。
　前記話者ラベルｒ_ｉ－１は、前記単語ｗ_ｉ－１を発話した話者を表す情報であり、
　前記話者ラベルｒ_ｉは、前記単語ｗ_ｉをこれから発話する話者を表す情報である、ことを特徴とする請求項１又は２に記載の言語モデルスコア算出装置。
　リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習する学習装置であって、
　単語系列ｗ_１，・・・，ｗ_Ｎと、前記単語ｗ_１，・・・，ｗ_Ｎに含まれる各単語の話者を表す話者ラベル系列ｒ_１，・・・，ｒ_Ｎとを入力として、前記言語モデルにより、前記単語系列ｗ_１，・・・，ｗ_Ｎに含まれる単語ｗ_ｉ毎に、該単語ｗ_ｉの予測確率分布を算出する算出手段と、
　前記単語系列ｗ_１，・・・，ｗ_Ｎと、前記単語ｗ_ｉ毎の予測確率分布とを用いて、前記言語モデルのモデルパラメータθを更新するパラメータ更新手段と、
　を有することを特徴とする学習装置。
　前記パラメータ更新手段は、
　前記単語系列ｗ_１，・・・，ｗ_Ｎに含まれる各単語を正解単語として、各予測確率分布における正解単語の予測確率が最大となるように前記モデルパラメータθを更新する、ことを特徴とする請求項４に記載の学習装置。
　リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語ｗ_ｉの予測確率を算出する言語モデルスコア算出装置が、
　前記単語ｗ_ｉの直前に観測された単語ｗ_ｉ－１を単語ベクトルΦ（ｗ_ｉ－１）に変換する単語ベクトル表現手順と、
　前記単語ｗ_ｉ－１に対応する話者ラベルｒ_ｉ－１と前記単語ｗ_ｉに対応する話者ラベルｒ_ｉとをそれぞれ話者ベクトルΨ（ｒ_ｉ－１）と話者ベクトルΨ（ｒ_ｉ）とに変換する話者ベクトル表現手順と、
　前記単語ベクトルΦ（ｗ_ｉ－１）と、前記話者ベクトルΨ（ｒ_ｉ－１）と、前記単語ｗ_ｉ－１の予測確率を算出する際に得られた単語履歴ベクトルｓ_ｉ－１とを用いて、単語履歴ベクトルｓ_ｉを算出する単語履歴ベクトル表現手順と、
　前記単語履歴ベクトルｓ_ｉ－１と、前記話者ベクトルΨ（ｒ_ｉ）とを用いて、前記単語ｗ_ｉの予測確率を算出する予測確率算出手順と、
　を実行することを特徴とする言語モデルスコア算出方法。
　リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習する学習装置が、
　単語系列ｗ_１，・・・，ｗ_Ｎと、前記単語ｗ_１，・・・，ｗ_Ｎに含まれる各単語の話者を表す話者ラベル系列ｒ_１，・・・，ｒ_Ｎとを入力として、前記言語モデルにより、前記単語系列ｗ_１，・・・，ｗ_Ｎに含まれる単語ｗ_ｉ毎に、該単語ｗ_ｉの予測確率分布を算出する算出手順と、
　前記単語系列ｗ_１，・・・，ｗ_Ｎと、前記単語ｗ_ｉ毎の予測確率分布とを用いて、前記言語モデルのモデルパラメータθを更新するパラメータ更新手順と、
　を実行することを特徴とする学習方法。
　コンピュータを、請求項１乃至３の何れか一項における言語モデルスコア算出装置における各手段、又は、請求項４又は５における学習装置における各手段として機能させるためのプログラム。