JP2019091172A

JP2019091172A - 句構造学習装置、句構造解析装置、方法、及びプログラム

Info

Publication number: JP2019091172A
Application number: JP2017218449A
Authority: JP
Inventors: 英剛上垣外; Hidetaka Kamigaito; 平尾　努; Tsutomu Hirao; 努平尾; 林　克彦; Katsuhiko Hayashi; 克彦林; 学奥村; Manabu Okumura; 大也高村; Daiya Takamura
Original assignee: Nippon Telegraph and Telephone Corp; Tokyo Institute of Technology NUC
Current assignee: Nippon Telegraph and Telephone Corp; Tokyo Institute of Technology NUC
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2019-06-13
Anticipated expiration: 2037-11-13
Also published as: JP6830602B2

Abstract

【課題】注意機構が精度よく対応付けを出力するように学習するための学習データを生成する句構造学習装置、句構造解析装置、方法、及びプログラムを提供する。【解決手段】句構造学習装置２００は、注意機構が精度よく対応付けを出力するように学習するための学習データを生成できるように、入力文と入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて、句構造解析器に含まれる句構造ラベルに対する入力文の各単語の重みを出力する注意機構を学習するための、単語と句構造ラベルの対応付けからなる学習データを生成する。【選択図】図１５

Description

本発明は、句構造学習装置、方法、及びプログラムに係り、特に、文の句構造を解析するための句構造学習装置、句構造解析装置、方法、及びプログラムに関する。

句構造解析は、入力された文の句構造木を計算機によって解析して出力する技術である。図１に句構造木の例を示す。句構造木は句と、その句の階層的な構造によって構成される。

これらの句は、句構造ラベルと、その句を構成する単語集合からなる。句を構成する単語集合は、句構造木における当該句構造ラベルの下位の葉ノードに含まれる単語の集合によって構成される。

ニューラルネットワークを用いた系列に基づく句構造解析法として、非特許文献１等がある。非特許文献１は、明示的な木構造を仮定せず、句構造木を句構造ラベルの系列として解析を行い出力する。非特許文献１をはじめとする従来技術においては、図１に示す句構造木は図２に示すような系列として表現される。系列として表現された句構造木では全ての葉ノードの単語と品詞(句構造ラベルのうち、単語の最も近くにあるラベル。図１ではＷＰ、ＶＢＺ、ＪＪを指す。)は図２に示すＸＸのようにすべて同一のラベルに置換される。また、ＸＸを除くすべてのラベルが句構造ラベルである。このような系列として表現された句構造木を、以後「正規化された句構造木」と呼ぶ。図３に従来技術に基づく句構造解析法の構成図を示す。系列に基づく句構造解析法は、人手によるルールや遷移規則を必要とせず、線形時間で句構造木を出力することが可能である。

Vinyals, O., Kaiser, L ., Koo, T., Petrov, S., Sutskever,I., and Hinton, G. (2015). "Grammar as a foreign language.". In Advancesin Neural Information Processing Systems (pp. 2773-2781).

非特許文献１において、入力される単語列と出力する句構造ラベルの関係は、句構造解析器に含まれる、句構造ラベルに対する、入力文の各単語の重みを出力する注意機構によって計算される分布によって捉えられる。図４に注意機構が出力する各重みの分布の例を示す。各セルは入力単語と出力された句構造ラベルの対応を、黒いセルは注意機構がその対応に高い確率を割り当てたことをそれぞれ表している。注意機構は入力文字列中のどの文字列が重要であるかを解析中に判断する。解析機はその結果を利用して解析結果を出力する。注意機構の出力する分布は明示的な句構造ラベルを与えられることなく、教師なしで学習される。そのために、注意機構が入力文字列と出力文字列の対応関係を正しく学習するとは限らない。この結果、注意機構が出力する誤った対応関係によって、出力される句構造木に誤りが生じる可能性がある。

本発明は、上記問題点を解決するために成されたものであり、注意機構が精度よく対応付けを出力するように学習するための学習データを生成できる句構造学習装置、方法、及びプログラムを提供することを目的とする。

また、本発明は、上記問題点を解決するために成されたものであり、精度よく、句構造解析を行うことができる、句構造解析装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために本発明に係る句構造学習装置は、入力文に対する句構造ラベル列を出力する句構造解析器を学習する句構造学習装置であって、前記入力文と、前記入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて、前記句構造解析器に含まれる、前記句構造ラベルに対する、前記入力文の各単語の重みを出力する注意機構を学習するための、前記単語と前記句構造ラベルの対応付けからなる学習データを生成する学習データ生成部、を含んで構成されている。

また、本発明に係る句構造解析装置は、入力文に対する句構造ラベル列を出力する予め学習された句構造解析器であって、句構造ラベルに対する、前記入力文の各単語の重みを出力する注意機構を含む句構造解析器を用いて、前記入力文を入力とし、前記入力文に対する前記句構造ラベル列を出力する句構造解析部、を含む句構造解析装置であって、前記注意機構は、学習用入力文と、前記学習用入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて生成された、前記単語と前記句構造ラベルの対応付けからなる学習データに基づいて予め学習されたものとすることを特徴とする。

本発明に係るプログラムは、コンピュータを、句構造学習装置、又は句構造解析装置の各部として機能させるためのプログラムである。

本発明の句構造学習装置、方法、及びプログラムによれば、入力文と、入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて、句構造解析器に含まれる、句構造ラベルに対する、入力文の各単語の重みを出力する注意機構を学習するための、単語と句構造ラベルの対応付けからなる学習データを生成することにより、注意機構が精度よく対応付けを出力するように学習するための学習データを生成できる、という効果が得られる。

また、本発明の句構造解析装置、方法、及びプログラムによれば、注意機構を含む句構造解析器を用いて、句構造解析を行い、句構造解析器に含まれる注意機構は、学習用入力文と、学習用入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて生成された、単語と句構造ラベルの対応付けからなる学習データに基づいて予め学習されたものとすることにより、精度よく、句構造解析を行うことができる、という効果が得られる。

句構造解析によって出力される句構造木の一例を示す図である。句構造木の句構造ラベルの系列の一例を示す図である。従来の句構造解析法の構成図の一例を示す図である。注意機構３が出力する各重みの分布の一例を示す図である。学習フェーズにおける句構造解析器２４０を構成するニューラルネットワークの一例を示す図である。実行フェーズにおける句構造解析器４０を構成するニューラルネットワークの一例を示す図である。本発明の実施の形態で用いる入出力の内容を示す図である。本発明の実施の形態に係る句構造解析装置１００の構成を示すブロック図である。句構造解析器４０を構成するニューラルネットワークの構成を示す図である。ニューラルネットワークを構成するエンコード部１の詳細の一例を示す図である。ニューラルネットワークを構成するデコード部２の詳細の一例を示す図である。ニューラルネットワークを構成する注意機構３の詳細の一例を示す図である。本発明の実施の形態に係る句構造解析装置１００における句構造解析処理ルーチンを示すフローチャートである。句構造解析器４０のニューラルネットワークにおける処理ルーチンの詳細の一例を示す図である。本発明の実施の形態に係る句構造学習装置２００の構成を示すブロック図である。本発明の実施の形態の学習の概要を示す図である。学習用入力文Ｘと正解系列Ｌの一例を示す図である。学習用入力文を構成する単語と、句構造ラベルとの対応付けの一例を示す図である。学習用入力文を構成する単語と、句構造ラベルとの対応付けの一例を示す図である。学習データ生成部２３０の処理結果として得られた学習データの一例を示す図である。本発明の実施の形態に係る句構造学習装置２００における句構造学習処理ルーチンを示すフローチャートである。学習データの生成処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

まず、本発明の実施の形態における概要を説明する。

本発明の実施の形態では非特許文献１のような、ニューラルネットワークを用いた系列に基づく句構造解析器において、注意機構に対し、入力文を構成する単語と出力する句構造ラベルの関係を明示的に与えて学習を行う。

注意機構の学習のための学習データは、句構造解析のための学習データをもとに、所定のルールを用いて作成する。具体的には、学習データの句構造木を構成する各句構造ラベルについて、句構造ラベルと、当該句構造ラベルのノードより下位の葉ノードに含まれる単語の集合を、所定のルールにより対応付けることで作成する。出力しようとする句構造ラベルと、その句構造ラベルを頂点とする句に含まれる単語とが対応付くことを正しい対応であると規定し、注意機構を学習するための学習データとする。

このような学習データを用いて注意機構を学習することにより、注意機構が誤った対応関係を含む分布を出力することを防ぎ、句構造解析の精度を向上させることができる。また、注意機構は句構造解析器の内部の処理であり、注意機構のための学習データを別途作成するのはコストが高いが、本手法により句構造解析器の学習データから注意機構のための学習データが作成できる。

以下の本発明の実施の形態の説明では、学習フェーズと、実行フェーズとに分けて説明する。学習フェーズでは、図５に示す句構造解析器２４０を構成するニューラルネットワークのパラメータを、学習データに基づき決定する。実行フェーズでは、学習フェーズで定義された図６に示す句構造解析器４０を構成するニューラルネットワークに基づき入力を処理し、出力は学習済みのパラメータに依存して決定する。

以下、本実施の形態で用いる入出力の例として、図７を用いる。入力文Ｘにおける各単語の位置をｉとし、ｉ＝{１,…,ｎ}、本例ではｎ＝６である。出力系列Ｙにおける各句構造ラベルの位置をｔとし、ｔ＝{１, …,ｍ}、本例ではｍ＝１５である。

＜本発明の実施の形態に係る句構造解析装置の構成＞

次に、本発明の実施の形態に係る句構造解析装置の構成について説明する。なお、句構造解析装置において、実行フェーズを処理する。

本発明の実施の形態における句構造解析器４０は、処理対象となる文ｘを入力とし、句構造ラベルｙ_ｔを出力する。次に出力したｙ_ｔを入力とし、ｙ_ｔ＋１を出力する逐次処理を繰り返し、出力するｙ_ｔが文末記号である</s>となったときに処理を終了する。

図８に示すように、本発明の実施の形態に係る句構造解析装置１００は、ＣＰＵと、ＲＡＭと、後述する句構造解析処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この句構造解析装置１００は、機能的には図８に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、入力文を受け付ける。入力文は、文を分割し、文頭と文末記号を付与したものが与えられる。

演算部２０は、句構造解析部３０と、句構造解析器４０とを含んで構成されている。

句構造解析器４０は、単語からなる入力文に対する句構造ラベル列を先頭から順に出力する予め学習された句構造解析器であり、ニューラルネットワークにより構成されるものである。また、句構造解析器４０は、句構造ラベルに対する、入力文の各単語の重みを出力する注意機構３を含む句構造解析器である。句構造解析器４０の学習については、後述する句構造学習装置において説明する。

ここで句構造解析器４０のニューラルネットワークの構成について説明する。図９に示すように句構造解析器４０を構成するニューラルネットワークは、エンコード部１と、デコード部２と、注意機構３と、出力部４とを含んで構成されている。

エンコード部１は入力文を隠れ状態へと変換する。

デコード部２は、前回出力したラベルｙ_ｔ−１を隠れ状態へと変換する。

注意機構３は、エンコード部１とデコード部２によって変換された隠れ状態を組み合わせて重みづけを行い、入力文の各単語の重みへと変換する。

出力部４は、エンコード部１の隠れ状態を、注意機構３により出力された入力文の各単語の重みに基づき重み付けし、デコード部２の隠れ状態と結合した上で、出力すべきラベルを決定する。

１文の処理につき、エンコード部１での処理は最初の１回のみでよいが、それ以外の部はｍ−１回処理を繰り返すこととなる。

以下、句構造解析器４０を構成するニューラルネットワークの各部の詳細な説明を行う。

図１０にエンコード部１の詳細を示す。エンコード部１は入力として１文を受け取り、１文に含まれる単語の系列ｘ＝{ｘ_１,…,ｘ_ｉ,…,ｘ_ｎ}を、各単語ｘ_ｉごとに、実数値の所定次元からなるベクトルｈ_ｉへと変換する。

具体的には、まず入力された単語の系列をｉ＝１からｎへ前向きに走査する順方向の再帰型ニューラルネットワークによってｌ番目の入力単語を隠れ状態ベクトル

に変換する。同様に、入力された単語の系列をｉ＝ｎから１へと後ろ向きに走査する逆方向の再帰型ニューラルネットによりｌ番目の入力単語を隠れ状態ベクトル

に変換する。最終的に、

と

を結合し，ｈ_ｉとする．この処理により、ｈ_ｉは前方及び後方の単語の変換結果であるｈ_１,…,ｈ_ｉ−１及び、ｈ_ｉ＋１,…,ｈ_ｎに依存したものとなる。

各単語ｘ_ｉをベクトル

または

に変換する際には、予め作成された(単語、単語ベクトル)の組からなるコードブックを用いる。単語ベクトルは、組となる単語の特徴を所定次元からなる空間上の座標として示したものであり、単語分散表現とも呼ばれるものである。本実施の形態では、全入力単語（<s>,</s>を含む）をＷとして、次の条件を満たすベクトルを用いるが、非特許文献２に記載の方法等を用い、予め作成されたものを用いてもよい。

条件１：１次元がひとつの単語に対応する、全Ｗ次元からなる。
条件２：組となる単語に対応する次元の要素を１に、それ以外の次元の要素を０としたOne-hotベクトルとする。

[非特許文献２]:Tomas Mikolov, Ilya Sutskever, Kai Chen,Greg Corrado, and Jeffrey Dean.Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.

本実施の形態では、単語ベクトルの各要素の値は、ニューラルネットワークのパラメータにより重みづけされる。パラメータは、後述する句構造学習装置の学習により更新される。

図１１にデコード部２の詳細を示す。デコード部２は出力部４が前回出力した句構造ラベルｙ_ｔ−１及びｅｎｃ^ｔ−１を入力とし、順方向の再帰型ニューラルネットワークによって、入力情報と

とを、実数値の所定次元からなる隠れ状態ベクトル

へと変換して出力する。逐次的に句構造ラベルが入力されるため、変換の結果は以前の句構造ラベルの変換結果である隠れ状態ベクトルの集合

と、エンコード部１の隠れ状態ベクトルｈ_１,…,ｈ_ｎに注意機構３が重みづけをしたｅｎｃ^ｔ−１に依存する。ｅｎｃ^ｔの詳細は後述する。

句構造ラベルｙ_ｔ−１をベクトルに変換する際には、予め作成された(句構造ラベル,句構造ベクトル)の組からなるコードブックを用いる。全句構造ラベル数をＶとしたとき、句構造ベクトルとして次の条件を満たすベクトルを用いる。

条件１：１次元がひとつの句構造ラベルに対応する、全Ｖ次元からなる。
条件２：組となる句構造ラベルに対応する次元の要素を１に、それ以外の次元の要素を０としたOne-hotベクトルとする。

デコード部２はｔ＝２より処理を開始することとし、その際の入力としてｔ＝１の句構造ラベルｙ_１には<s>を、ｅｎｃ^１には後述する初期値を、デコード部２の初期状態

にはエンコード部１の隠れ状態

を使用する。

図１２に注意機構３の詳細を示す。注意機構３は、デコード部２の句構造ラベルの隠れ状態への変換結果

と、エンコード部１の各単語の隠れ状態への変換結果ｈ_１,…,ｈ_ｎを入力として受け取り、各対応の総和が１となるように正規化された重みα_ｉ ^ｔをニューラルネットワークにより計算し、分布α^ｔとして出力する。注意機構３の初期値α^１（ｔ＝１）は、α_１ ^１＝１、それ以外の要素が０のベクトルとしておく。

出力部４では、注意機構３が出力した分布、エンコード部１の各単語の隠れ状態への変換結果ｈ_１,…,ｈ_ｎ、デコード部２の句構造ラベルの隠れ状態への変換結果

を受け取り、各句構造ラベルの出力確率を出力する。初めに出力部４は注意機構３が出力した分布α^ｔに従い、エンコード部１の変換結果に重み付けを行った総和を以下（１）式により計算する。

…（１）

（１）式の総和とデコード部２の句構造ラベルの変換結果を連結したベクトル

をソフトマックス層に入力し、各句構造ラベルの出力確率を決定する。句構造ラベル数がＶの際の句構造ラベルｙ_ｔの出力確率Ｐ(ｙ_ｔ|ｘ_１,…,ｘ_ｎ,ｙ_１,…,ｙ_ｔ−１)は、重み行列Ｗ_ｖとバイアス項ｂを用いて以下（２）式で計算される。

…（２）

で計算される。重み行列Ｗ_ｖ及びバイアス項ｂは、ニューラルネットワークのパラメータである。

最も高い出力確率Ｐとなるｙ_ｔを句構造解析器４０が出力するｔ番目の句構造ラベルとする。

以上の処理により逐次的に句構造ラベルｙ_ｔを出力し、出力するｙ_ｔが文末記号である</s>となったとき（本実施の形態ではｔ＝１４のとき）に処理を終了する。

出力部の初期値として、

は<s>とする。α^１は注意機構３の初期値を利用する。

以上が、句構造解析器４０を構成するニューラルネットワークの各部についての説明である。

句構造解析部３０は、句構造解析器４０を用いて、入力部１０で受け付けた入力文を入力とし、入力文に対する句構造ラベル列を出力する。ここで、句構造解析器に含まれる注意機構３は、学習用入力文と、学習用入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列であって、正規化された句構造ラベル列とに基づいて生成された、単語と句構造ラベルの対応付けからなる学習データに基づいて予め学習されたものとする。ここで、正規化された句構造ラベル列とは、上記図２について説明したように、葉ノードの単語と品詞について置換を行った後の句構造木の句構造ラベルの系列である。

＜本発明の実施の形態に係る句構造解析装置の作用＞

次に、本発明の実施の形態に係る句構造解析装置１００の作用について説明する。句構造解析装置１００は、図１３に示す句構造解析処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において入力文を受け付ける。

ステップＳ１０２では、句構造解析器４０を用いて、入力部１０で受け付けた入力文を入力とし、入力文に対する句構造ラベル列を出力する。

次に、句構造解析器４０のニューラルネットワークにおける処理ルーチンの詳細について図１４を参照して説明する。

ステップＳ１０００では、ｔ＝１とする。

ステップＳ１００２では、エンコード部１において、入力文を受け付け、入力文を隠れ状態へと変換する。

ステップＳ１００４では、ニューラルネットワークの各部における初期値を設定する。

ステップＳ１００６では、ｔ＝２とする。

ステップＳ１００８では、デコード部２において、初期ラベル、又は前回出力したラベルｙ_ｔ−１を隠れ状態へと変換する。

ステップＳ１０１０では、注意機構３において、エンコード部１とデコード部２によって変換された隠れ状態を組み合わせて重みづけを行い、入力文の各単語の重みへと変換する。

ステップＳ１０１２では、出力部４において、エンコード部１の隠れ状態を、注意機構３により出力された入力文の各単語の重みに基づき重み付けし、デコード部２の隠れ状態と結合した上で、出力すべきラベルを決定する。

ステップＳ１０１４では、ステップＳ１０１２の出力が文末記号</s>ではないかを判定し、文末記号</s>であれば処理を終了し、文末記号</s>でなければステップＳ１０１６でｔ＝ｔ＋１とカウントアップして処理を繰り返す。なお、ｔをカウントアップすることをｔ＝ｔ＋１と表記する。

以上説明したように、本発明の実施の形態に係る句構造解析装置１００によれば、注意機構３を含む句構造解析器４０を用いて、句構造解析を行い、句構造解析器４０に含まれる注意機構３は、学習用入力文と、学習用入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列であって、正規化された句構造ラベル列とに基づいて生成された、単語と句構造ラベルの対応付けからなる学習データに基づいて予め学習されたものとすることにより、精度よく、句構造解析を行うことができる。

＜本発明の実施の形態に係る句構造学習装置の構成＞

次に、本発明の実施の形態に係る句構造学習装置の構成について説明する。なお、句構造学習装置において、学習フェーズを処理する。また、本実施の形態において、ニューラルネットワークのエンコード部１、デコード部２、注意機構３、出力部４は、同時に学習を行うこととするが、別々に学習を行ってもよい。

図１５に示すように、本発明の実施の形態に係る句構造学習装置２００は、ＣＰＵと、ＲＡＭと、後述する句構造学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この句構造学習装置２００は、機能的には図１５に示すように入力部２１０と、演算部２２０とを備えている。

図１６に本実施の形態の学習の概要図を示す。図１６は、学習データ生成部の学習データ生成処理と、ニューラルネットワークの学習処理に分けられる。

入力部２１０は、学習用入力文と、正規化された句構造木とを受け付ける。学習フェーズにおける入力となる学習用入力文は、句構造解析の対象となる文と、その解析結果として正解である句構造ラベル系列の組が複数集められたものとする。本実施の形態では、学習データの一組として図１７で提示する学習用入力文Ｘと正解系列Ｌ（正規化された句構造木）の組を例として用い、説明を行う。ここでいう正規化とは、原稿冒頭で述べた、全ての葉ノードの単語と品詞をＸＸ等の同一のラベルにより置換することであり、正規化された句構造木とは、系列として表現され、かつ、正規化された句構造木を指す。

学習用入力文Ｘにおける各単語の位置をｉとし、ｉ＝{１,…,ｎ}、本実施の形態ではｎ＝６である。正解系列Ｌにおける各句構造ラベルの位置をｔとし、ｔ＝{１,…,ｍ}、本実施の形態ではｍ＝１５である。

演算部２２０は、学習データ生成部２３０と、学習部２３２と、句構造解析器２４０と、を含んで構成されている。なお、句構造解析器２４０は、上記句構造解析装置１００の句構造解析器４０と同様のものであり、句構造学習装置２００で学習される句構造解析器を句構造解析器２４０と表記する。

学習データ生成部２３０は、学習用入力文と、学習用入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列であって、正規化された句構造ラベル列とに基づいて、句構造解析器に含まれる、句構造ラベルに対する、学習用入力文の各単語の重みを出力する注意機構３を学習するための、単語と句構造ラベルの対応付けからなる学習データを生成する。

学習データ生成部２３０における、正解α_ｉ ^ｔの作成方法について、以下に詳細に説明する。

学習データ生成部２３０は、学習用入力文Ｘと正規化された句構造木Ｌをもとに、正解の対応付けαを出力する。α_ｉ ^ｔは単語ｘ_ｉと句構造ラベルｌ_ｔに対応が存在する場合に１を、存在しない場合に０を返す変数である。

学習データ生成部２３０では正解α_ｉ ^ｔを求めるにあたって、学習用入力文を構成する単語と、正規化された句構造木を構成する句構造ラベルとの対応付けを行う。対応付けの例を図１８、図１９に示す。

正解系列Ｌにおける、単語とそれに対応する品詞の存在を表す非終端記号ＸＸは、学習用入力文Ｘ中の単語と対応付けられる。正解系列Ｌの、最初と最後を表す<s>，</s>についてはそれぞれ入力文Ｘ中の<s>，</s>に対応付けられる。正解系列Ｌの、非終端記号ＸＸ、<s>，</s>以外の句構造ラベルが対応する単語は、木構造を仮定した際に当該句構造ラベルを頂点とする句構造木に含まれる、学習用入力文中の単語の集合から選択される。すわなち、当該句構造ラベルのノードに対する下位の葉ノードである学習用入力文の単語の集合から選択される。選択にあたっては次のいずれかの方法を用いる。

１：当該句構造ラベルを頂点とする句構造木の主辞となる単語を選択
２：当該句構造ラベルを頂点とする句構造木に含まれる単語の集合のうち、最も左の単語を選択
３：当該句構造ラベルを頂点とする句構造木に含まれる単語の集合のうち、最も右の単語を選択
４：句構造ラベルが”("を含む場合、そのラベルを頂点とする句を構成する単語の集合のうち最も左の単語を選択する。句構造ラベルが”)"を含む場合、当該句構造ラベルを頂点とする句構造木に含まれる単語の集合のうち最も右の単語を選択

上記方法１においては、どの単語が句構造木の主辞となるかについて、予め学習データにヘッドルール等から人手でその情報を付与しておくか、別途解析をして付与する必要がある。方法４は、方法２と３を組み合わせたものとなる。

学習データ生成部２３０では、このように正規化された句構造ラベル列に含まれる句構造ラベルの各々について、句構造ラベルのノードに対する下位の葉ノードである学習用入力文の単語を対応付けることにより学習データを生成する。

本実施の形態では上記４の方法を取ることとし、処理結果を図２０に示す。

学習部２３２は、学習データ生成部２３０で生成された学習データに基づいて、正解句構造ラベルｌ_ｔを出力部の出力ｙ_ｔの正解データとして、注意機構３を含む句構造解析器２４０について学習を行う。学習方法はニューラルネットワークの学習方法として一般的なものを用いればよい。本実施の形態では、確率的勾配降下法により学習可能なパラメータの最適化を行うこととする。

注意機構３の学習については、学習用入力文の各単語に対応する隠れ状態ベクトルの各々と、一つ前に出力された句構造ラベルに対する隠れ状態ベクトルとを入力として、学習データ生成部２３０の作成する正解α_ｉ ^ｔと、注意機構３の出力する推定α_ｉ ^ｔが等しくなるように学習を行う。学習方法はニューラルネットワークの学習方法として一般的なものを用いればよい。本実施の形態では、確率的勾配降下法により学習可能なパラメータの最適化を行うこととする。

＜本発明の実施の形態に係る句構造学習装置の作用＞

次に、本発明の実施の形態に係る句構造学習装置２００の作用について説明する。句構造学習装置２００は、図２１に示す句構造学習処理ルーチンを実行する。

まず、ステップＳ２００では、学習用入力文と、正規化された句構造木とを受け付ける。

ステップＳ２０２では、学習用入力文と、学習用入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列であって、正規化された句構造ラベル列とに基づいて、句構造解析器２４０に含まれる、句構造ラベルに対する、学習用入力文の各単語の重みを出力する注意機構３を学習するための、単語と句構造ラベルの対応付けからなる学習データを生成する。

ステップＳ２０４では、学習データ生成部２３０で生成された学習データに基づいて、注意機構３を含む句構造解析器２４０について、正解句構造ラベルｌ_ｔを出力部の出力ｙ_ｔの正解データとして学習を行い、処理を終了する。なお、句構造解析器２４０のニューラルネットワークにおける処理ルーチンは上記図１４と同様であるため説明を省略する。

次に、ステップＳ２０２における学習データの生成処理ルーチンの詳細について図２２を参照して説明する。

ステップＳ２０００では、ｔ＝１とする。

ステップＳ２００２では、ｉ＝１とする。

ステップＳ２００４では、正規化された句構造木の句構造ラベルｌ_ｔが<s>(または</s>)であるかを判定し、条件を満たす場合はステップＳ２００６へ移行し、条件を満たさない場合はステップＳ２００８へ移行する。

ステップＳ２００６では、学習用入力文の単語ｘ_ｉが<s>(または</s>であるかを判定し、条件を満たす場合はステップＳ２０１８へ移行し、条件を満たさない場合はステップＳ２０２０へ移行する。

ステップＳ２００８では、正規化された句構造木のｌ_ｔがＸＸであるかを判定し、条件を満たす場合はステップＳ２０１０へ移行し、条件を満たさない場合はステップＳ２０１２へ移行する。

ステップＳ２０１０では、学習用入力文の単語ｘ_ｉが、ｌ_ｔのＸＸに対応するかを判定し、条件を満たす場合はステップＳ２０１８へ移行し、条件を満たさない場合はステップＳ２０２０へ移行する。

ステップＳ２０１２では、ｌ_ｔが"("を含むかを判定し、含む場合はステップＳ２０１４へ移行し、含まない場合はステップＳ２０１６へ移行する。

ステップＳ２０１４では、学習用入力文の単語ｘ_ｉが、ｌ_ｔを頂点とする句構造木に含まれ、かつ最も右であるかを判定し、条満たす場合はステップＳ２０１８へ移行し、条件を満たさない場合はステップＳ２０２０へ移行する。

ステップＳ２０１６では、学習用入力文の単語ｘ_ｉが、ｌ_ｔを頂点とする句構造木に含まれ、かつ最も左であるかを判定し、条満たす場合はステップＳ２０１８へ移行し、条件を満たさない場合はステップＳ２０２０へ移行する。

ステップＳ２０１８では、α_i ^t＝１とする。

ステップＳ２０２０では、α_i ^t＝０とする。

ステップＳ２０２２では、ｉ＝ｉ＋１とする。なお、ｉをカウントアップすることをｉ＝ｉ＋１と表記する。

ステップＳ２０２４では、ｉ＞ｎかを判定し、条満たす場合はステップＳ２０２６へ移行し、条件を満たさない場合はステップＳ２００４へ移行する。

ステップＳ２０２６では、ｔ＜ｍかを判定し、条満たす場合はステップＳ２０２６へ移行し、条件を満たさない場合は処理を終了する。

以上説明したように、本発明の実施の形態に係る句構造学習装置２００によれば、入力文と、入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列であって、正規化された句構造ラベル列とに基づいて、句構造解析器２４０に含まれる、句構造ラベルに対する、入力文の各単語の重みを出力する注意機構３を学習するための、単語と句構造ラベルの対応付けからなる学習データを生成することにより、注意機構３のための学習データを用いて、精度よく句構造を解析するための句構造解析器２４０を学習することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、句構造学習装置２００は、学習データ生成部２３０により学習データを生成し、学習部２３２により注意機構３を含む句構造解析器２４０を学習する場合を例に説明したが、これに限定されるものではなく、学習データ生成部２３０の学習データの生成、及び学習部２３２による注意機構３を含む句構造解析器２４０の学習をそれぞれ別の装置により実現するようにしてもよい。

１エンコード部
２デコード部
３注意機構
４出力部
１０、２１０入力部
２０、２２０演算部
３０句構造解析部
４０、２４０句構造解析器
１００句構造解析装置
２００句構造学習装置
２３０学習データ生成部
２３２学習部

Claims

入力文に対する句構造ラベル列を出力する句構造解析器を学習する句構造学習装置であって、
前記入力文と、前記入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて、前記句構造解析器に含まれる、前記句構造ラベルに対する、前記入力文の各単語の重みを出力する注意機構を学習するための、前記単語と前記句構造ラベルの対応付けからなる学習データを生成する学習データ生成部、
を含む句構造学習装置。
前記学習データ生成部は、前記句構造ラベル列に含まれる前記句構造ラベルの各々について、前記句構造ラベルの前記ノードに対する下位の葉ノードである前記入力文の前記単語を対応付けることにより前記学習データを生成する請求項１に記載の句構造学習装置。
前記句構造解析器は、前記句構造ラベルを先頭から順に出力するものであって、
前記注意機構は、前記入力文の各単語に対応する隠れ状態ベクトルの各々と、一つ前に出力された前記句構造ラベルに対する隠れ状態ベクトルとを入力として、前記句構造ラベルに対する、前記入力文の各単語の重みを出力し、
前記生成された学習データに基づいて、前記注意機構を学習する学習部、を更に含む請求項１又は請求項２に記載の句構造学習装置。
入力文に対する句構造ラベル列を出力する予め学習された句構造解析器であって、句構造ラベルに対する、前記入力文の各単語の重みを出力する注意機構を含む句構造解析器を用いて、前記入力文を入力とし、前記入力文に対する前記句構造ラベル列を出力する句構造解析部、
を含む句構造解析装置であって、
前記注意機構は、
学習用入力文と、前記学習用入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて生成された、前記単語と前記句構造ラベルの対応付けからなる学習データに基づいて予め学習されたものとする
句構造解析装置。
入力文に対する句構造ラベル列を出力する句構造解析器を学習する句構造学習装置における句構造学習方法であって、
学習データ生成部が、前記入力文と、前記入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて、前記句構造解析器に含まれる、前記句構造ラベルに対する、前記入力文の各単語の重みを出力する注意機構を学習するための、前記単語と前記句構造ラベルの対応付けからなる学習データを生成するステップ、
を含む句構造学習方法。
句構造解析部が、入力文に対する句構造ラベル列を出力する予め学習された句構造解析器であって、句構造ラベルに対する、前記入力文の各単語の重みを出力する注意機構を含む句構造解析器を用いて、前記入力文を入力とし、前記入力文に対する前記句構造ラベル列を出力するステップ、
を含む句構造解析方法であって、
前記注意機構は、
学習用入力文と、前記学習用入力文を表す句構造木の各ノードの句構造ラベルからなる句構造ラベル列とに基づいて生成された、前記単語と前記句構造ラベルの対応付けからなる学習データに基づいて予め学習されたものとする
句構造解析方法。
コンピュータを、請求項１〜請求項３のいずれか１項に記載の句構造学習装置、又は請求項４に記載の句構造解析装置の各部として機能させるためのプログラム。