JP2017117045A - 言語確率算出方法、言語確率算出装置および言語確率算出プログラム - Google Patents

言語確率算出方法、言語確率算出装置および言語確率算出プログラム Download PDF

Info

Publication number
JP2017117045A
JP2017117045A JP2015249375A JP2015249375A JP2017117045A JP 2017117045 A JP2017117045 A JP 2017117045A JP 2015249375 A JP2015249375 A JP 2015249375A JP 2015249375 A JP2015249375 A JP 2015249375A JP 2017117045 A JP2017117045 A JP 2017117045A
Authority
JP
Japan
Prior art keywords
vector
activity
activity vector
layer
intermediate layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015249375A
Other languages
English (en)
Other versions
JP6495814B2 (ja
Inventor
貴明 堀
Takaaki Hori
貴明 堀
具治 岩田
Tomoharu Iwata
具治 岩田
哲則 小林
Tetsunori Kobayashi
哲則 小林
幹 森岡
Miki Morioka
幹 森岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Nippon Telegraph and Telephone Corp
Original Assignee
Waseda University
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Nippon Telegraph and Telephone Corp filed Critical Waseda University
Priority to JP2015249375A priority Critical patent/JP6495814B2/ja
Publication of JP2017117045A publication Critical patent/JP2017117045A/ja
Application granted granted Critical
Publication of JP6495814B2 publication Critical patent/JP6495814B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】長い文脈の情報、すなわち文章の話題やスタイル、話者に特有の単語や話し方等を効果的に利用して次の単語を適切に予測する。
【解決手段】言語確率算出装置1は、記号を表すベクトルを順次読み込み、そのたびに入力層の活性度ベクトルを算出し、入力層の活性度ベクトルが算出されるたびに、中間層において前回算出された活性度ベクトルと、入力層の活性度ベクトルとを基に中間層の活性度ベクトルを算出する。このとき、言語確率算出装置1は、中間層の活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出し、中間層の活性度ベクトルが算出されるたびに、中間層の活性度ベクトルと、中間層の平均活性度ベクトルとを基に出力層の活性度ベクトルを算出し、出力層の活性度ベクトルを基に記号の出現確率を算出する。
【選択図】図4

Description

本発明は、言語モデルを用いた言語確率算出方法、言語確率算出装置および言語確率算出プログラムに関する。
従来、文字や単語の列である記号列が、ある対象の言語においてどの程度もっともらしいかを言語確率として与えるモデルである言語モデルが知られている。言語モデルは様々な目的に利用されている。例えば音声認識においては、ある入力音声信号に対して任意の単語列の発音と音響的に類似している度合を示す音響確率と、単語の並びとして言語的に妥当である度合を表す言語確率とを併せて考慮することで、音響的にも言語的にももっともらしい単語列を多数の認識候補の中から選ぶことができる。
一般的に広く用いられる言語モデルとしてNグラム言語モデルがある。Nグラム言語モデルは、ある単語の出現確率はその単語の前にあるN−1単語にのみ依存するという仮定を置く。つまり、N単語の連鎖確率を個々の単語の言語確率として推定し、その累積値を単語列に対する言語確率とする。一般にNには2〜4程度の値が用いられる。
一方、Nグラム言語モデル以外の言語モデルとして、RNN(リカレントニューラルネットワーク:Recurrent Neural Network)言語モデルがある(例えば非特許文献1を参照)。RNNは多層ニューラルネットワークの一種であり、中間層のニューロンに再帰的な結合を持つ。この再帰的な結合により、入力単語列の頭から直前に読み込んだ単語までの全文脈を中間層の活性度ベクトルに蓄えることができ、より長い文脈に依存する言語確率を算出することができる。
T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, S. Khudanpur,"Recurrent neural network based language model," 国際会議Interspeech 2010予稿集, pp. 1045-1048, 2010.
しかしながら、従来の言語モデルには、長い文脈の情報、すなわち文章の話題やスタイル、話者に特有の単語や話し方等を効果的に利用して次の単語を適切に予測することができないという問題があった。
例えば、Nグラム言語モデルを用いて単語を予測する場合、前述の通り単語数個分の情報しか単語の予測に利用することができないため、長い文脈の情報を効果的に利用して次の単語を適切に予測することができない場合がある。
また、RNN言語モデルを用いて単語を予測する場合、より新しく出現した単語の影響が大きくなり、ある程度過去の単語の影響は非常に小さくなるため、長い文脈の情報を効果的に利用して次の単語を適切に予測することができない場合がある。これは、再帰的な結合によって伝えられる成分が活性度関数により0と1の間に正規化されることにより、活性度ベクトルに蓄えられる過去に読み込まれた記号に対する成分が、新たな記号を読み込むごとに指数的に減少するためである。
本発明の言語確率算出方法は、入力層と、再帰結合したニューロンを有する中間層と、出力層と、を有するニューラルネットワークモデルを用いて言語確率を算出する言語確率算出方法であって、記号を表すベクトルを順次読み込む記号ベクトル読込工程と、前記記号ベクトル読込工程によって前記ベクトルが読み込まれるたびに、前記ベクトルを基に前記入力層における活性度ベクトルを算出する入力層活性度ベクトル算出工程と、前記入力層活性度ベクトル算出工程によって前記入力層における活性度ベクトルが算出されるたびに、前記中間層において前回算出された活性度ベクトルと、前記入力層における活性度ベクトルとを基に前記中間層における活性度ベクトルを算出する中間層活性度ベクトル算出工程と、前記中間層における活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出する平均活性度ベクトル算出工程と、前記中間層活性度ベクトル算出工程によって前記中間層における活性度ベクトルが算出されるたびに、前記中間層における活性度ベクトルと、前記中間層における前記平均活性度ベクトルとを基に前記出力層における活性度ベクトルを算出する出力層活性度ベクトル算出工程と、前記出力層における活性度ベクトルを基に所定の記号の出現確率を算出する記号出現確率算出工程と、を含んだことを特徴とする。
また、本発明の言語確率算出装置は、入力層と、再帰結合したニューロンを有する中間層と、出力層と、を有するニューラルネットワークモデルを用いて言語確率を算出する言語確率算出装置であって、記号を表すベクトルを順次読み込む記号ベクトル読込部と、前記記号ベクトル読込部によって前記ベクトルが読み込まれるたびに、前記ベクトルを基に前記入力層における活性度ベクトルを算出する入力層活性度ベクトル算出部と、前記入力層活性度ベクトル算出部によって前記入力層における活性度ベクトルが算出されるたびに、前記中間層において前回算出された活性度ベクトルと、前記入力層における活性度ベクトルとを基に前記中間層における活性度ベクトルを算出する中間層活性度ベクトル算出部と、前記中間層における活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出する平均活性度ベクトル算出部と、前記中間層活性度ベクトル算出部によって前記中間層における活性度ベクトルが算出されるたびに、前記中間層における活性度ベクトルと、前記中間層における前記平均活性度ベクトルとを基に前記出力層における活性度ベクトルを算出する出力層活性度ベクトル算出部と、前記出力層における活性度ベクトルを基に所定の記号の出現確率を算出する記号出現確率算出部と、を有することを特徴とする。
本発明によれば、長い文脈の情報、すなわち文章の話題やスタイル、話者に特有の単語や話し方等を効果的に利用して次の単語を適切に予測することができる。
図1は、RNN言語モデルの一例を示す図である。 図2は、RNN言語モデルにおける活性度を算出する方法の一例を示すフローチャートである。 図3は、RNN言語モデルにおける言語確率算出方法の一例を説明するための図である。 図4は、第1の実施形態に係る言語確率算出装置の構成の一例を示す図である。 図5は、第1の実施形態に係る言語確率算出装置における処理の一例を示すフローチャートである。 図6は、第1の実施形態に係る言語確率算出装置における言語確率算出方法の一例を説明するための図である。 図7は、第2の実施形態に係る音声認識装置の構成の一例を示す図である。 図8は、第2の実施形態に係る音声認識装置における処理の一例を示すフローチャートである。 図9は、プログラムが実行されることにより、言語確率算出装置もしくは音声認識装置が実現されるコンピュータの一例を示す図である。
以下に、本願に係る言語確率算出方法、言語確率算出装置および言語確率算出プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本願に係る言語確率算出方法、言語確率算出装置および言語確率算出プログラムが限定されるものではない。
[RNN言語モデルの概要]
まず、RNN言語モデルの概要について説明する。RNNは、1つの入力層、1つ以上の中間層、および1つの出力層を持ち、少なくとも1つの中間層の中でニューロンが相互に結合された再帰結合を持つ。そして、RNN言語モデルのRNNには入力記号列の各記号が順次入力され、現在の1つ前の記号を表すベクトルと、その時の中間層の各ニューロンの活性度とを用いて、現在の記号の出現確率を算出する。
RNNにおける各層には複数のニューロンがあり、それぞれ上位や下位、もしくは同じ層にあるニューロンと結合されている。各ニューロンは、発火している度合を表す活性度(実数値)を持ち、結合されたニューロン間には結合の強さを表す結合重み(実数値)が割り当てられる。各ニューロンの活性度に結合重みを掛けた値が結合先のニューロンに伝播される。また同じ層に含まれるニューロンの活性度はまとめて活性度ベクトルとして表現される。
図1は、RNN言語モデルの一例を示す図である。図1は、入力層、中間層、出力層を各1層ずつ持つRNNを表している。図1に示すように、中間層は同じ層に戻る再帰的な結合を持っている。入力層には入力ベクトルの値が活性度として与えられる。
前述のように、RNN言語モデルでは、入力される記号は0または1の値からなるベクトルとして表現される。例えば、考慮する全ての記号の数(語彙サイズ)と同じだけのニューロンを入力層に用意しておき、入力記号に対応するニューロンだけが1、他のニューロンは0を取るように活性度を設定することができる。この場合、仮に考慮する記号の種類をA、B、Cとすると、入力層のニューロンは3つ必要であり、記号A、記号B、記号Cに対応する入力ベクトルは、例えば式(1)のように表される。ただし、ベクトルの1次元目が記号A、2次元目が記号B、3次元目が記号Cに対応するものとする。
Figure 2017117045
また、図1では入力層のニューロンの上から順にベクトルの1、2、3次元目の要素が活性度になるように対応している。中間層においては再帰的な結合を考慮して活性度を算出する。ただし、最初の記号を読み込んだとき、すなわちt=1のときは活性度を0と仮定する。また、出力層のニューロンの活性度ベクトルはソフトマックス関数等を用いて算出する。なお、出力層のニューロンも入力層と同様に上から順に記号A、記号B、記号Cに対応している。
次に、図2を用いて活性度を算出する方法について説明する。図2は、RNN言語モデルにおける活性度を算出する方法の一例を示すフローチャートである。ここで、活性度の算出には、L層からなるRNNであって、第1層が入力層、第2〜第L−1層が中間層(L≧3)、第L層が出力層であるRNNを用いる。また、RNNの第n層(1≦n≦L)にはH個のニューロンが含まれる。また、第m層のj番目のニューロンから第n層のk番目のニューロンへの結合重みwm,n[k,j]を要素とする行列をwm,nで表す。ただし、1≦m≦n≦L、1≦j≦H、1≦k≦Hとする。また、第n層(1<n≦L)の時刻tにおけるニューロンの活性度ベクトルをh (t)と表す。
まず、tを1に設定する(ステップS101)。次に、t番目の入力記号xを入力層の活性度ベクトルh (t)に代入し(ステップS102)、nを2に初期化する(ステップS103)。ここで、RNNの第n層が再帰接続のある中間層である場合(ステップS104、Yes)、再帰的に伝搬される成分wn,n・h (t−1)をzに代入する(ステップS105)。一方、RNNの第n層が再帰接続のある中間層でない場合(ステップS104、No)、zは0ベクトルに設定する(ステップS106)。
そして、第n−1層から伝搬される成分wn−1,n・hn−1 (t)をzに加える(ステップS107)。次に、zに活性化関数f(・)を適用し、第n層の活性度ベクトルh (t)を得る(ステップS108)。ここで、Lを層の数としたときに、n<Lの場合(ステップS109、Yes)、nを1だけ増加させ(ステップS110)、ステップS104へ戻り処理を繰り返す。また、n<Lでない場合(ステップS109、No)、t<Tであれば(ステップS111、Yes)tを1だけ増加させ(ステップS112)、ステップS102へ戻り処理を繰り返す。t<Tでなければ(ステップS111、No)処理を終了する。
図3を用いてRNN言語モデルにおける言語確率算出方法について説明する。図3は、RNN言語モデルにおける言語確率算出方法の一例を説明するための図である。なお、図3の例ではL=3であり、中間層は1層のみとする。
図3に示すように、順に入力された記号x,x,…,xに対して、中間層の活性度ベクトルh (t)は、現在の記号に対する入力層の活性度ベクトルh (t)と1つ前の記号に対する中間層の活性度ベクトルh (t−1)とから算出される(図2のステップS105、S106、S107、S108)。また、h (t)に基づいて出力層の活性度ベクトルh (t)が算出される。そして、出力層活性度ベクトルに基づいて記号の出現確率が算出される。
このように、RNNの中間層のニューロンの活性度は再帰的な結合により再び中間層のニューロンへ伝搬されることから、中間層のニューロンの活性度には、現在までに読み込んだ入力系列の特徴が記憶される。したがって、RNN言語モデルは入力記号列の最初から現在までの履歴に依存した記号出現確率を求めることができる。
これにより、RNN言語モデルは、過去のN−1個の記号のみから次の記号を予測するNグラムモデル(Nは高々3か4)よりも長い文脈を考慮した記号出現確率を求めることが可能なモデルとなっている。しかしながら、前述の通り、より新しく出現した単語の影響が大きくなり、ある程度過去の単語の影響は非常に小さくなる。そのため、ある程度過去の単語が、単語の予測に効果的に利用されていない。
[第1の実施形態]
以下の実施形態では、第1の実施形態に係る言語確率算出装置の構成、および言語確率算出装置によって実行される言語確率算出方法を説明し、さらに第1の実施形態による効果を説明する。また、以降の説明において「RNN言語モデル」は本発明の実施形態におけるRNN言語モデルを示すが、「従来のRNN言語モデル」はこれまで図1〜3を用いて説明したRNN言語モデルを示すものとする。
[第1の実施形態の構成]
まず、図4を用いて第1の実施形態に係る言語確率算出装置の構成について説明する。図4は、第1の実施形態に係る言語確率算出装置の構成の一例を示す図である。図4に示すように、言語確率算出装置1は、予測部10、学習部11および記憶部12を有する。
また、予測部10は記号ベクトル読込部101、入力層活性度ベクトル算出部102、中間層活性度ベクトル算出部103、平均活性度ベクトル算出部104、出力層活性度ベクトル算出部105および記号出現確率算出部106を有する。また、学習部11は損失関数定義部111およびパラメータ推定部112を有する。また、記憶部12は予測部10等で用いられるRNN言語モデルを記憶するRNN言語モデル記憶部121を有する。
まず、予測部10の各部について詳細に説明するとともに、言語確率算出装置1によって実行される言語確率算出方法について説明する。ここで、言語確率算出装置1は、L層からなるRNNであって、第1層が入力層、第2〜第L−1層が中間層(L≧3)、第L層が出力層であるRNNを用いて言語確率の算出を行う。また、RNNの第n層(1≦n≦L)にはH個のニューロンが含まれる。また、第m層のj番目のニューロンから第n番層のk番目のニューロンへの結合重みwm,n[k,j]を要素とする行列をwm,nで表す。ただし、1≦m≦n≦L、1≦j≦H、1≦k≦Hとする。また、第n層(1<n≦L)の時刻tにおけるニューロンの活性度ベクトルをh (t)と表す。
記号ベクトル読込部101は記号を表すベクトルを順次読み込む。個々の記号は、1つのベクトルの次元に対応し、対応する次元の要素のみを1、対応しない次元の要素を0とすることで固有の記号を表現する。
入力層活性度ベクトル算出部102は、記号ベクトル読込部101によってベクトルが読み込まれるたびに、ベクトルを基に入力層における活性度ベクトルを算出する。第1の実施形態においては、入力層活性度ベクトル算出部102は入力記号のベクトルの各次元の値を入力層のニューロンの活性度に決定する。したがって、入力記号のベクトルの次元数は出現する可能性のある入力記号の種類数および入力層のニューロンの数に等しい。ここで、入力記号列X=x,x,…,x,…,xの1番目から順にt番目の記号xが読み込まれたとき、入力層の各ニューロンの活性度を表す活性度ベクトルh (t)は、式(2)のようになる。
Figure 2017117045
中間層活性度ベクトル算出部103は、入力層活性度ベクトル算出部102によって入力層における活性度ベクトルが算出されるたびに中間層における活性度ベクトルを算出する。中間層活性度ベクトル算出部103は、式(3)に示すように、第n層(1<n≦L)のニューロンの活性度ベクトルh (t)を、当該ニューロンに結合されたニューロンの活性度に結合重みを掛けた値の集合、すなわち結合重み行列と活性度ベクトルの積を求め、求めたベクトルの積を活性化関数によって0と1の間に正規化することによって算出する。なお、中間層が1層の場合、hn−1 (t)は入力層における活性度ベクトルである。
Figure 2017117045
ここで、活性化関数としては式(4)に示すシグモイド関数が用いられる。ただし、xはベクトルの各要素を表すものとする。
Figure 2017117045
一方、中間層において同じ層内のニューロンとの再帰的な結合がある場合は、式(5)に示すように、中間層において前回算出された活性度ベクトル、すなわちt−1番目の記号xt−1を読み込んだ時の中間層における活性度ベクトルを基にh (t)を算出する。式(5)の右辺のf(・)内の第2項には、添え字(t−1)が付いた活性度ベクトルh (t−1)が同じ層内のニューロンの活性度にwn,nの重み付きで加算される。
Figure 2017117045
平均活性度ベクトル算出部104は、中間層における活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出する。すなわち、平均活性度ベクトル算出部104は、時刻tまでに読み込んだ記号列x,x,…,xに対して第n−1層の中間層の活性度ベクトルhn−1 (1),hn−1 (2),…,hn−1 (t−1),hn−1 (t)が中間層活性度ベクトル算出部103によって算出されているとき、算出された中間層の活性度ベクトルの過去A個分の平均である平均活性度ベクトルを式(6)によって算出する。
Figure 2017117045
このとき、Aの値を大きくすることで、従来よりも長い文脈情報が平均活性度ベクトルに保持される。さらに、平均活性度ベクトル算出部104は、所定回数を変化させて複数の平均活性度ベクトルを算出するようにしてもよい。この場合、平均活性度ベクトル算出部104は、異なるAの値A(1),A(2),…,A(m),…,A(M)を設定し、複数の平均活性度ベクトルを算出する。ここで、Mは任意の定数とし、A(m)は整数を返すmの関数とする。このとき、m=1,2,…,Mに対する平均活性度ベクトルを式(7)によって算出する。
Figure 2017117045
ここで、wn−1,n (m)はA(m)個分の平均活性度ベクトルを算出するための結合重み行列である。なお、M=1、A(1)=1、wn−1,n (1)=wn−1,nとした場合は、平均活性度ベクトルは中間層活性度ベクトル算出部103によって算出される活性度ベクトルと等しくなる。また、第n層が再帰的な結合を持つ場合は、平均活性度ベクトル算出部104は中間層活性度ベクトル算出部103と同様に、式(8)によってt−1の活性度ベクトルh (t−1)を結合重みwn,nを掛けて加える。
Figure 2017117045
出力層活性度ベクトル算出部105は、中間層活性度ベクトル算出部103によって中間層における活性度ベクトルが算出されるたびに、出力層における活性度ベクトルを算出する。出力層活性度ベクトル算出部105は、出力層に最も近い中間層である第L−1層の活性度ベクトルもしくは平均活性度ベクトルに基づいて、第L層すなわち出力層における活性度ベクトルの算出を行う。このとき、出力層活性度ベクトル算出部105は、活性度を確率と見なすために、活性化関数として式(9)に示すソフトマックス関数を用いて出力層における活性度ベクトルを算出する。
Figure 2017117045
ここで、式(9)の分母は活性度を確率と見なすための正規化項であり、z[i]は、式(10)に示すn−1層目から重み付きで伝搬された活性度ベクトルzのi次元目の要素を表す。
Figure 2017117045
RNN言語モデルでは、出力層の個々のニューロンは固有の記号に対応しており、予測される次の記号の出現確率は、その記号に対応するニューロンの活性度として求められる。そこで、記号出現確率算出部106は、入力記号列x,x,…,xを読み込んだ後で出力層における活性度ベクトルh (t)を基に記号vが出現する確率を、式(11)によって算出する。ただし、記号vは出力層のk番目のニューロンに対応する記号を表す。
Figure 2017117045
なお、平均活性度ベクトル算出部104が所定回数を変化させて複数の平均活性度ベクトルを算出する場合、出力層活性度ベクトル算出部105は、中間層における活性度ベクトルおよび中間層における複数の平均活性度ベクトルのそれぞれの重み付きの和を出力層における活性度ベクトルとして算出する。この場合、出力層活性度ベクトル算出部105はnをLに設定した式(7)または式(8)を用いる。
中間層活性度ベクトル算出部103および平均活性度ベクトル算出部104は、第n−1層および第n層に再帰接続があるか否かによって、これまで説明した方法を使い分けて活性度の算出を行う。
まず、第n層および第n−1層のいずれにも再帰接続がない場合は、式(3)によって算出される活性度ベクトルが第n層の活性度ベクトルとなる。また、第n−1層に再帰接続があり第n層に再帰接続がない場合は、式(5)によって算出される活性度ベクトルが第n層の活性度ベクトルとなる。また、第n−1層に再帰接続がなく第n層に再帰接続がある場合は、式(7)によって算出される活性度ベクトルが第n層の活性度ベクトルとなる。また、第n層および第n−1層のいずれにも再帰接続がある場合は、式(8)によって算出される活性度ベクトルが第n層の活性度ベクトルとなる。
次に、学習部11の各部について詳細に説明するとともに、活性度ベクトル算出のための結合重みの設定方法について説明する。まず、基本的にはRNNのパラメータである結合重みは、記号列の学習データを用いて誤差逆伝搬法を用いて推定される。
例として、L=3すなわち3層のRNN言語モデルを作成する場合を例に挙げて結合重みの設定方法について説明する。この場合、第1層が入力層、第2層が中間層、第3層が出力層である。まず、結合重み行列w1,2、w2,2、w2,3は、BPTT(通時的誤差逆伝搬:Back Propagation Through Time)等の既知の方法によって設定することができる(参考文献:Williams,R.J.,and Zipser,D. A learning algorithm for continually running fully recurrent neural networks. Neural Computation. 1(2),270, 1989.)。
一方、学習部20は、平均活性度ベクトル算出部104における結合重みw2,3 (1),…,w2,3 (M)を次のように設定する。まず、学習部20は、予測部10の機能を利用すること等により行列w1,2およびw2,2を用いて学習データの記号列x,x,…,xに対する中間層の活性度ベクトル系列h (1),h (2),…,h (t),…,h (T)を求める。そして、損失関数定義部111は学習データを用いて、重み付きの和における重みをパラメータとする損失関数を定義する。すなわち損失関数定義部111は、式(12)に示すパラメータの集合に対して、式(13)に示す負の対数尤度に基づく損失関数を定義する。
Figure 2017117045
Figure 2017117045
そして、パラメータ推定部112は損失関数が最小となるようにパラメータを推定する。パラメータ推定部112は、式(13)のE(V)が最小になるようにVを推定する。ここで、式(14)に示すように、y[k]は学習データのベクトル表現された個々の記号xの次、すなわち時刻t+1に出現する記号yの第k次元目の要素を表す。
Figure 2017117045
また、h (t)は出力層の活性度ベクトルであり、予測された次の記号の確率分布を表す。つまり、E(V)は、実際に次に出現した記号に対してRNN言語モデルがより高い確率を付けるほど小さくなる。そのため、パラメータ推定部112はE(V)が最小になるようなVを求めれば良い。ただし、右辺第2項は、Vの個々の要素w2,3 (m)[k,j]が大きくなり過ぎないように制御するための正則化項であり、βは正則化項に対する重み係数を表す正の定数である。
パラメータ推定部112は、例えば勾配法を用いてE(V)の最小値を求める。例えば、式(15)に示すように、パラメータ推定部112は、E(V)の個々の要素w2,3 (m)[k,j]に対する偏微分を求める。
Figure 2017117045
そして、パラメータ推定部112は式(16)に示すように新しいパラメータを求め、求めた新しいパラメータを用いてさらに偏微分計算およびパラメータ更新を繰り返す。ここで、ηは学習率を表す。
Figure 2017117045
また、パラメータ推定部112は、学習データをいくつかの小さなブロック(もしくは個々の単語等)に分割し、分割されたブロックを順に読み込んで偏微分計算およびパラメータ更新を繰り返す確率的勾配法を用いることで、損失関数の収束を速くすることができる。
[第1の実施形態の処理]
次に、図5を用いて言語確率算出装置1の処理について説明する。図5は、第1の実施形態に係る言語確率算出装置における処理の一例を示すフローチャートである。図5に示すように、まず、記号ベクトル読込部101はtを1に設定し(ステップS201)、記号列を読み込む。そして、入力層活性度ベクトル算出部102は記号xを入力層の活性度ベクトルh (t)に設定し(ステップS202)、nを2に設定する(ステップS203)。
ここで、第n層が再帰接続のある中間層である場合(ステップS204、Yes)、中間層活性度ベクトル算出部103は再帰的に伝搬される成分wn,n・h (t−1)をzに代入する(ステップS205)。一方、第n層が再帰接続のある中間層でない場合(ステップS204、No)、中間層活性度ベクトル算出部103はzを0ベクトルに設定する(ステップS206)。
さらに、第n−1層が再帰接続のある中間層である場合(ステップS207、Yes)、平均活性度ベクトル算出部104は平均活性度ベクトルの算出を行う。このとき、まず平均活性度ベクトル算出部104はmを1に設定する(ステップS209)。そして、平均活性度ベクトル算出部104は過去A(m)個分の平均活性度ベクトルを算出し(ステップS210)、重みを掛けてzに加える(ステップS211)。
ここで、m<Mである場合(ステップS212、Yes)、平均活性度ベクトル算出部104はmを1だけ増加させ(ステップS213)、ステップS209に戻り処理を繰り返す。また、m<Mでない場合(ステップS212、No)、平均活性度ベクトル算出部104は平均活性度ベクトルの算出を終了する。
一方、第n−1層が再帰接続のある中間層でない場合(ステップS207、No)、中間層活性度ベクトル算出部103は第n−1層から伝搬される成分wn−1,n・hn−1 (t)をzに加える(ステップS208)。
次に、平均活性度ベクトル算出部104は、zに活性化関数f(・)を適用し、第n層の活性度ベクトルh (t)を得る(ステップS214)。なお、n=Lの場合は出力層活性度ベクトル算出部105が活性化関数の適用を行う。ここで、n<Lの場合(ステップS215、Yes)、nを1だけ増加させ(ステップS216)、ステップS204へ戻り処理を繰り返す。また、n<Lでない場合(ステップS215、No)、t<Tであれば(ステップS217、Yes)tを1だけ増加させ(ステップS218)、ステップS202へ戻り処理を繰り返す。t<Tでなければ(ステップS217、No)処理を終了する。
図6を用いて言語確率算出装置1における言語確率算出方法について説明する。図6は、第1の実施形態に係る言語確率算出装置における言語確率算出方法の一例を説明するための図である。なお、図6の例ではL=3であり、中間層は1層のみとする。
図6に示すように、順に入力された記号x,x,…,xに対して、中間層活性度ベクトル算出部103は、nを2として、現在の記号に対する入力層の活性度ベクトルh (t)と1つ前の記号に対する中間層の活性度ベクトルh (t−1)とから中間層の活性度ベクトルh (t)を算出する(図5のステップS205、S206、S208、S214)。
次に、平均活性度ベクトル算出部104は、nを3として、過去2個分の中間層の活性度ベクトルの平均、過去4個分の中間層の活性度ベクトルの平均、および過去8個分の中間層の活性度ベクトルの平均を算出する(図5のステップS210、S211)。なお、このとき中間層の活性度ベクトルh (t)は過去1回分の中間層の活性度ベクトルの平均とみなされる。
出力層活性度ベクトル算出部105は、過去1回分、2回分、4回分、8回分の平均活性度ベクトルに活性化関数を適用し、出力層における活性度ベクトルh (t)を算出する(図5のステップS214)。なお、過去何個分までの平均活性度ベクトルの算出対象の活性度ベクトルが過去何個分であるかは、定数Mおよび関数A(m)の設定による。
[第1の実施形態の効果]
実際のデータを用いて言語確率算出装置1の評価を行った結果を用いて第1の実施形態の効果について説明する。まず、RNN言語モデルのパラメータを求めるため「日本語話し言葉コーパス」に含まれる学会講演を人が書き起こした文章を学習データとして使用した。
また、RNN言語モデルは、学習データに出現している単語(語彙サイズ52,564)に対し、入力層(H=52,564)、中間層(H=400)、出力層(H=52,564)からなる3層(L=3)のRNNとして構成した。また、第1の実施形態におけるRNN言語モデルのパラメータ(w2,3 (m)[k,j])の推定には確率的勾配法を用い、M=6、A(m)=2(m−1)、学習率η=0.1、β=10−5とした。
第1の実施形態におけるRNN言語モデルおよび従来のRNN言語モデルに学習データを学習させ、学習データとは異なる学会講演の書き起こしデータ10講演分を評価データとして、それぞれのRNN言語モデルのテストセットパープレキシティを計算した結果を表1に示す。
Figure 2017117045
なお、テストセットパープレキシティは言語モデルの性能を表す指標として知られている。テストセットパープレキシティは、評価データx,x,…xτ,…,xが与えられたとき、言語モデルを用いて式(17)に示すエントロピーで2を累乗した値、すなわち2として定義される。テストセットパープレキシティが小さいほど言語モデルの性能が高いことを意味するため、表1より第1の実施形態におけるRNN言語モデルの方が従来のRNN言語モデルより高い性能を示すことが分かる。
Figure 2017117045
言語確率算出装置1では、まず記号ベクトル読込部101は記号を表すベクトルを順次読み込む。次に、入力層活性度ベクトル算出部102は、記号ベクトル読込部101によってベクトルが読み込まれるたびに、ベクトルを基に入力層における活性度ベクトルを算出する。そして、中間層活性度ベクトル算出部103は、入力層活性度ベクトル算出部102によって入力層における活性度ベクトルが算出されるたびに、中間層において前回算出された活性度ベクトルと、入力層における活性度ベクトルとを基に中間層における活性度ベクトルを算出する。
ここで、平均活性度ベクトル算出部104は、中間層における活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出する。そして、出力層活性度ベクトル算出部105は、中間層活性度ベクトル算出部103によって中間層における活性度ベクトルが算出されるたびに、中間層における活性度ベクトルと、中間層における平均活性度ベクトルとを基に出力層における活性度ベクトルを算出する。そして、記号出現確率算出部106は、出力層における活性度ベクトルを基に所定の記号の出現確率を算出する。
このように、平均活性度ベクトル算出部104によって、任意の回数前までに算出された活性度ベクトルの影響を、最終的な記号の出現確率の算出に十分に与えることが可能となる。よって、第1の実施形態によれば、長い文脈の情報、すなわち文章の話題やスタイル、話者に特有の単語や話し方等を効果的に利用して次の単語を適切に予測することができる。
また、平均活性度ベクトル算出部104は、所定回数を変化させて複数の平均活性度ベクトルを算出するようにしてもよい。このとき、出力層活性度ベクトル算出部105は、中間層における活性度ベクトルおよび中間層における複数の平均活性度ベクトルのそれぞれの重み付きの和を出力層における活性度ベクトルとして算出する。さらに、損失関数定義部111は学習データを用いて、重み付きの和における重みをパラメータとする損失関数を定義する。そして、パラメータ推定部112は損失関数が最小となるようにパラメータを推定する。
このように、複数の平均活性度ベクトルを用い、学習により予測精度を向上させることができるため、長い文脈の情報をより効果的に利用できるようになる。
[第2の実施形態]
次に、第2の実施形態として、本発明の言語確率算出方法を音声認識装置に適用した場合について説明する。音声認識装置においては、音響的な妥当性および言語的な妥当性の両方を考慮して認識結果を出力する。第2の実施形態においては、言語的な妥当性の判定に本発明の言語確率算出方法を用いる。
[第2の実施形態の構成]
図7を用いて、第2の実施形態に係る音声認識装置の構成について説明する。図7は、第2の実施形態に係る音声認識装置の構成の一例を示す図である。図7に示すように、音声認識装置2は、音声信号入力部21、候補文作成部22、音響スコア算出部23、言語確率算出部24、言語スコア算出部25および認識結果抽出部26を有する。
音声信号入力部21には、認識対象となる音声信号が入力される。候補文作成部22が入力された音声信号に合致する文の候補である複数の候補文を作成する。ここで、候補文作成部22はQ個の候補文X,X,…,Xを作成する。
音響スコア算出部23は候補文ごとの音声信号との音響的な一致度を表す音響スコアを算出する。音響スコア算出部23は、Q個の候補文それぞれに対し、音響スコアamscore(X)を算出する。なお、音響スコア算出部23は既知の方法を用いて音響スコアを算出するようにしてよい。
ここで、従来のNグラム言語モデルを用いる場合、言語スコアをlmscore(X)とすると、式(18)に示すようにscore(X)が算出される。
Figure 2017117045
なお、言語スコアlmscore(X)はNグラムの言語確率を基に、式(19)によって算出される。ここで、候補文Xの記号列xq,1,q,τ−1における記号xq,τのNグラムによって算出された出現確率はPngram(xq,τ|xq,τ−N+1…xq,τ−1)と表される。このとき、Nは3〜4程度である。
Figure 2017117045
音声認識装置2においては、Nグラム言語モデルの代わりに第1の実施形態の言語確率算出方法におけるRNN言語モデルが用いられる。言語確率算出部24は、第1の実施形態と同様の言語確率算出方法により、候補文ごとに記号の出現確率を算出する。すなわち、言語確率算出部24は、候補文Xの記号列xq,1,q,τ−1における記号xq,τの出現確率Prnn(xq,τ|xq,1…xq,τ−1)を算出する。
また、言語スコア算出部25は出現確率を基に候補文ごとの言語スコアを算出する。言語スコア算出部25は、言語確率算出部24が算出した記号の出現確率を基に、各候補文の言語スコアを式(20)によって算出する。
Figure 2017117045
認識結果抽出部26は、候補文のうち、音響スコアと言語スコアとの合計が最も大きい候補文を音声信号に合致する文として抽出する。認識結果抽出部26は、音響スコアおよび言語スコアを基に、式(21)によって各候補文のscore(X)を算出し、score(X)が最大となる候補文を認識結果として抽出する。ここで、λは対数確率に対するスケーリング係数を表す正の定数である。
Figure 2017117045
[第2の実施形態の処理]
図8を用いて第2の実施形態の処理について説明する。図8は、第2の実施形態に係る音声認識装置における処理の一例を示すフローチャートである。図8に示すように、まず音声信号入力部21に音声信号が入力される(ステップS301)。次に、候補文作成部22は、音声認識結果の候補文を作成する(ステップS302)。そして、音響スコア算出部23は各候補文の音響スコアを算出する(ステップS303)。
ここで、言語確率算出部24は言語確率を算出する(ステップS304)。そして、言語スコア算出部25は言語確率を基に言語スコアを算出する(ステップS305)。認識結果抽出部26は、音響スコアおよび言語スコアにスケーリング係数を掛けた値の和が最大となる候補文を抽出し(ステップS306)、認識結果として出力する(ステップS307)。
[第2の実施形態の効果]
Nグラム言語モデル、従来のRNN言語モデルおよび第2の実施形態におけるRNN言語モデルを用いて音声認識を行った場合のそれぞれの単語誤り率を表2に示す。ただし、初めに出力する候補の数Qは500に設定した。また、単語誤り率は、実際に話された単語の中で誤って認識した単語の割合を表しており、小さいほど音声認識の精度が高いことを表す。
Figure 2017117045
表2に示すように、Nグラム言語モデルを用いる音声認識では単語誤り率が14.8%であった。また、従来のRNN言語モデルを用いる音声認識では単語誤り率は13.9%であった。また、第2の実施形態におけるRNN言語モデルを用いる音声認識では単語誤り率は13.5%となった。これより、第2の実施形態におけるRNN言語モデルは、Nグラム言語モデルおよび従来のRNN言語モデルよりも高い精度の音声認識を実現することが示された。
音声認識装置2では、まず候補文作成部22が入力された音声信号に合致する文の候補である複数の候補文を作成する。そして、音響スコア算出部23は候補文ごとの音声信号との音響的な一致度を表す音響スコアを算出する。
また、言語確率算出部24は、第1の実施形態と同様の言語確率算出方法により、候補文ごとに記号の出現確率を算出する。そして、言語スコア算出部25は出現確率を基に候補文ごとの言語スコアを算出する。そして、認識結果抽出部26は、候補文のうち、音響スコアと言語スコアとの合計が最も大きい候補文を音声信号に合致する文として抽出する。
[その他の実施形態]
図6等においては、中間層が1層である場合を例として説明したが、本発明における中間層は1層に限られず複数であってもよい。その場合、言語確率算出装置1の中間層活性度ベクトル算出部103は、入力層活性度ベクトル算出部102によって入力層における活性度ベクトルが算出されるたびに、中間層において前回算出された活性度ベクトルおよび入力層における活性度ベクトルだけでなく、中間層の下の中間層における活性度ベクトルも基にして中間層における活性度ベクトルを算出する。
また、言語確率算出装置1には、中間層活性度ベクトル算出部103によって中間層における活性度ベクトルが算出されるたびに、中間層活性度ベクトル算出部103によって算出された活性度ベクトルと、中間層における平均活性度ベクトルとを基に中間層の上の中間層における活性度ベクトルを算出する層間活性度ベクトル算出部がさらに設けられる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図9は、プログラムが実行されることにより、言語確率算出装置または音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、言語確率算出装置または音声認識装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、言語確率算出装置または音声認識装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
1 言語確率算出装置
10 予測部
11 学習部
12 記憶部
101 記号ベクトル読込部
102 入力層活性度ベクトル算出部
103 中間層活性度ベクトル算出部
104 平均活性度ベクトル算出部
105 出力層活性度ベクトル算出部
106 記号出現確率算出部
111 損失関数定義部
112 パラメータ推定部
121 RNN言語モデル記憶部

Claims (7)

  1. 入力層と、再帰結合したニューロンを有する中間層と、出力層と、を有するニューラルネットワークモデルを用いて言語確率を算出する言語確率算出方法であって、
    記号を表すベクトルを順次読み込む記号ベクトル読込工程と、
    前記記号ベクトル読込工程によって前記ベクトルが読み込まれるたびに、前記ベクトルを基に前記入力層における活性度ベクトルを算出する入力層活性度ベクトル算出工程と、
    前記入力層活性度ベクトル算出工程によって前記入力層における活性度ベクトルが算出されるたびに、前記中間層において前回算出された活性度ベクトルと、前記入力層における活性度ベクトルとを基に前記中間層における活性度ベクトルを算出する中間層活性度ベクトル算出工程と、
    前記中間層における活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出する平均活性度ベクトル算出工程と、
    前記中間層活性度ベクトル算出工程によって前記中間層における活性度ベクトルが算出されるたびに、前記中間層における活性度ベクトルと、前記中間層における前記平均活性度ベクトルとを基に前記出力層における活性度ベクトルを算出する出力層活性度ベクトル算出工程と、
    前記出力層における活性度ベクトルを基に所定の記号の出現確率を算出する記号出現確率算出工程と、
    を含んだことを特徴とする言語確率算出方法。
  2. 前記平均活性度ベクトル算出工程は、前記所定回数を変化させて複数の平均活性度ベクトルを算出し、
    前記出力層活性度ベクトル算出工程は、前記中間層における活性度ベクトルおよび前記中間層における前記複数の平均活性度ベクトルのそれぞれの重み付きの和を前記出力層における活性度ベクトルとして算出することを特徴とする請求項1に記載の言語確率算出方法。
  3. 学習データを用いて、前記重み付きの和における重みをパラメータとする損失関数を定義する損失関数定義工程と、
    前記損失関数が最小となるように前記パラメータを推定するパラメータ推定工程と、
    をさらに含んだことを特徴とする請求項2に記載の言語確率算出方法。
  4. 複数の中間層を有し、
    前記中間層活性度ベクトル算出工程は、前記入力層活性度ベクトル算出工程によって前記入力層における活性度ベクトルが算出されるたびに、前記中間層において前回算出された活性度ベクトルと、前記中間層の下の中間層における活性度ベクトルと、該中間層における前記平均活性度ベクトルとを基に前記中間層における活性度ベクトルを算出することを特徴とする請求項1から3のいずれか1項に記載の言語確率算出方法。
  5. 入力された音声信号に合致する文の候補である複数の候補文を作成する候補文作成工程と、
    前記候補文ごとの前記音声信号との音響的な一致度を表す音響スコアを算出する音響スコア算出工程と、をさらに含み、
    前記記号ベクトル読込工程は、前記候補文を構成する単語を表すベクトルを順次読み込み、
    記号出現確率算出工程によって算出された前記出現確率を基に前記候補文ごとの言語スコアを算出する言語スコア算出工程と、
    前記候補文のうち、前記音響スコアと前記言語スコアとの合計が最も大きい候補文を前記音声信号に合致する文として抽出する認識結果抽出工程と、
    をさらに含んだことを特徴とする請求項1から4のいずれか1項に記載の言語確率算出方法。
  6. 入力層と、再帰結合したニューロンを有する中間層と、出力層と、を有するニューラルネットワークモデルを用いて言語確率を算出する言語確率算出装置であって、
    記号を表すベクトルを順次読み込む記号ベクトル読込部と、
    前記記号ベクトル読込部によって前記ベクトルが読み込まれるたびに、前記ベクトルを基に前記入力層における活性度ベクトルを算出する入力層活性度ベクトル算出部と、
    前記入力層活性度ベクトル算出部によって前記入力層における活性度ベクトルが算出されるたびに、前記中間層において前回算出された活性度ベクトルと、前記入力層における活性度ベクトルとを基に前記中間層における活性度ベクトルを算出する中間層活性度ベクトル算出部と、
    前記中間層における活性度ベクトルのうち、所定回数前までに算出された活性度ベクトルの平均である平均活性度ベクトルを算出する平均活性度ベクトル算出部と、
    前記中間層活性度ベクトル算出部によって前記中間層における活性度ベクトルが算出されるたびに、前記中間層における活性度ベクトルと、前記中間層における前記平均活性度ベクトルとを基に前記出力層における活性度ベクトルを算出する出力層活性度ベクトル算出部と、
    前記出力層における活性度ベクトルを基に所定の記号の出現確率を算出する記号出現確率算出部と、
    を有することを特徴とする言語確率算出装置。
  7. コンピュータを、請求項6に記載の言語確率算出装置として機能させるための言語確率算出プログラム。
JP2015249375A 2015-12-22 2015-12-22 言語確率算出方法、言語確率算出装置および言語確率算出プログラム Active JP6495814B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015249375A JP6495814B2 (ja) 2015-12-22 2015-12-22 言語確率算出方法、言語確率算出装置および言語確率算出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015249375A JP6495814B2 (ja) 2015-12-22 2015-12-22 言語確率算出方法、言語確率算出装置および言語確率算出プログラム

Publications (2)

Publication Number Publication Date
JP2017117045A true JP2017117045A (ja) 2017-06-29
JP6495814B2 JP6495814B2 (ja) 2019-04-03

Family

ID=59234814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015249375A Active JP6495814B2 (ja) 2015-12-22 2015-12-22 言語確率算出方法、言語確率算出装置および言語確率算出プログラム

Country Status (1)

Country Link
JP (1) JP6495814B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019035936A (ja) * 2017-08-14 2019-03-07 三星電子株式会社Samsung Electronics Co.,Ltd. ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法及び電子装置
WO2020035998A1 (ja) * 2018-08-17 2020-02-20 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
WO2020162240A1 (ja) * 2019-02-08 2020-08-13 日本電信電話株式会社 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP2020135546A (ja) * 2019-02-21 2020-08-31 京セラドキュメントソリューションズ株式会社 情報処理装置および不具合推定方法
CN111768756A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04117560A (ja) * 1990-09-07 1992-04-17 Fujitsu Ltd 節/句境界抽出方式
JPH04156660A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 過去の履歴保存機能を有するニューラルネットワーク学習装置
JPH05174051A (ja) * 1991-12-26 1993-07-13 Fujitsu Ltd つづり−発音記号変換処理方式と例外語辞書管理データ登録処理方式
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04117560A (ja) * 1990-09-07 1992-04-17 Fujitsu Ltd 節/句境界抽出方式
JPH04156660A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 過去の履歴保存機能を有するニューラルネットワーク学習装置
JPH05174051A (ja) * 1991-12-26 1993-07-13 Fujitsu Ltd つづり−発音記号変換処理方式と例外語辞書管理データ登録処理方式
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019035936A (ja) * 2017-08-14 2019-03-07 三星電子株式会社Samsung Electronics Co.,Ltd. ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法及び電子装置
JP7170405B2 (ja) 2017-08-14 2022-11-14 三星電子株式会社 ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法
WO2020035998A1 (ja) * 2018-08-17 2020-02-20 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
JP2020027224A (ja) * 2018-08-17 2020-02-20 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
WO2020162240A1 (ja) * 2019-02-08 2020-08-13 日本電信電話株式会社 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP2020129061A (ja) * 2019-02-08 2020-08-27 日本電信電話株式会社 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP7120064B2 (ja) 2019-02-08 2022-08-17 日本電信電話株式会社 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP2020135546A (ja) * 2019-02-21 2020-08-31 京セラドキュメントソリューションズ株式会社 情報処理装置および不具合推定方法
JP7314526B2 (ja) 2019-02-21 2023-07-26 京セラドキュメントソリューションズ株式会社 情報処理装置および不具合推定方法
CN111768756A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN111768756B (zh) * 2020-06-24 2023-10-20 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质

Also Published As

Publication number Publication date
JP6495814B2 (ja) 2019-04-03

Similar Documents

Publication Publication Date Title
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
JP6495814B2 (ja) 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US10580432B2 (en) Speech recognition using connectionist temporal classification
JP2017228160A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP2019537809A (ja) ポインタセンチネル混合アーキテクチャ
WO2015079885A1 (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
EP0313975A2 (en) Design and construction of a binary-tree system for language modelling
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
JP2017058877A (ja) 学習装置、音声検出装置、学習方法およびプログラム
CN113435208B (zh) 学生模型的训练方法、装置及电子设备
US20220382978A1 (en) Training masked language models based on partial sequences of tokens
JP2019095600A (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
US20220067280A1 (en) Multi-token embedding and classifier for masked language models
CN114626518A (zh) 使用深度聚类的知识蒸馏
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
Tan et al. Towards implicit complexity control using variable-depth deep neural networks for automatic speech recognition
JP2020095732A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
US11954448B2 (en) Determining position values for transformer models
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Tascini Al-Chatbot: elderly aid

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20180309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190307

R150 Certificate of patent or registration of utility model

Ref document number: 6495814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150