JP2021174557A

JP2021174557A - ナレッジグラフを決定するための装置及び方法

Info

Publication number: JP2021174557A
Application number: JP2021076267A
Authority: JP
Inventors: アーデル−ヴーハイケ; Adel-Vu Heike; シュトレートゲンヤニク; Stroetgen Jannik; ランゲルーカス; Lange Lukas
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-04-30
Filing date: 2021-04-28
Publication date: 2021-11-01
Also published as: US20210342716A1; EP3905097A1

Abstract

【課題】ナレッジグラフを決定する単語用のモデルを用いたクラス分類決定方法及び装置を提供する。【解決手段】方法は、単語のための第１の埋め込みのために、関数を用いて第２の埋め込みを決定し、第２の埋め込みのために、第１のクラス分類器を用いて、単語がナレッジグラフのためのエンティティであるかどうか又はナレッジグラフのためのどのエンティティ若しくはどのタイプのエンティティに、ナレッジグラフの単語が割り当てられているかを定義する第１のクラス分類を決定し、第２の埋め込みのために、第２のクラス分類器を用いて、複数のタイプの埋め込みからどのタイプの埋め込みに第２の埋め込みが割り当てられているかを定義する第２のクラス分類を決定する。関数用の少なくとも１つのパラメータは、第１のクラス分類器のトレーニング用の少なくとも１つの勾配に依存し、かつ、第２のクラス分類器のトレーニング用の少なくとも１つの勾配に依存する。【選択図】なし

Description

本発明は、ナレッジグラフを決定するための装置及び方法に関する。

背景技術
ナレッジグラフとは、知識に基づくシステムにおいて、知識をグラフ形式に構造化して蓄積したものを指すものと理解される。ナレッジグラフには複数のエンティティが含まれ、これらのエンティティ間の関係が再現される。エンティティは、ナレッジグラフのノードを定めている。関係性は、２つのノード間のエッジとして定義される。

ナレッジグラフを首尾よく埋める手段を達成することが望まれている。

発明の開示
この課題は、独立請求項によるナレッジグラフを決定するための装置及び方法によって達成される。ナレッジグラフは、エンティティと関係性とを含む。ナレッジグラフを決定するために、単語用のモデルを用いて、クラス分類決定が、どのエンティティをナレッジグラフに書き込むべきか、又は、この目的のためにエンティティをナレッジグラフに書き込むべきかどうかに関して行われる。

ナレッジグラフを決定するための方法においては、単語用の第１の埋め込みのために、関数を用いて第２の埋め込みが決定され、第２の埋め込みのために、第１のクラス分類器を用いて、単語がナレッジグラフのためのエンティティであるかどうか、又は、ナレッジグラフのためのどのエンティティ若しくはどのタイプのエンティティにナレッジグラフの単語が割り当てられているかを定義する第１のクラス分類が決定され、第２の埋め込みのために、第２のクラス分類器を用いて、複数のタイプの埋め込みからどのタイプの埋め込みに第２の埋め込みが割り当てられているかを定義する第２のクラス分類が決定され、関数用の少なくとも１つのパラメータは、第１のクラス分類器用の少なくとも１つのパラメータに依存して、かつ、第２のクラス分類器用の少なくとも１つのパラメータに依存して定義されることが想定されている。関数は、第１の埋め込みのための第２の埋め込みを生成するジェネレータを含む。関数用のパラメータは、ジェネレータを定義する。それにより、複数の埋め込みを巧みに組み合わせることができ、これにより、第１のクラス分類器の所要のパラメータが、埋め込みの連結と比較して低減される。第２の埋め込みのための第１のクラス分類は、単語がナレッジグラフのエンティティであるかどうか、又は、どのエンティティに若しくはどのタイプのエンティティに単語が割り当てられているかを示す。第２のクラス分類は、第２の埋め込みのためのタイプを示す。複数の第２の埋め込みのために決定されるタイプに依存して、関数によるマッピングが、共通の空間内において複数の単語用の第２の埋め込みの埋め込み型クラスタに結び付くかどうかを識別することができる。関数のパラメータが、分類のパラメータに依存して定義されることにより、埋め込み型クラスタを形成せず、それゆえ第１のクラス分類について特に良好に適している第２の埋め込みが決定される。

トレーニングのために複数の単語を提供することができ、第１のクラス分類器を用いて第２の埋め込みの第１のクラス分類が、複数の単語の少なくとも一部について決定され、第２のクラス分類器を用いて第２の埋め込みの第２のクラス分類が、複数の単語の少なくとも一部について決定され、複数の単語の少なくとも一部に依存して、第１のクラス分類器用の第１の関数が第１の条件を満たす第１のクラス分類器用のパラメータが決定され、第１のクラス分類器用の当該パラメータ及び複数の単語の少なくとも一部に依存して第２のクラス分類器用の第２の関数が第２の条件を満たす第２のクラス分類器用のパラメータが決定され、第１の関数は、第１のクラス分類器用のパラメータ及び第１のクラス分類に依存して定義され、第２の関数は、第２のクラス分類器用のパラメータ及び第２のクラス分類に依存して定義される。好適には、分類器のパラメータを決定するために、勾配降下法による敵対的学習が使用される。第２のクラス分類器は、ここでは、第２の埋め込みに含まれている可能性のある埋め込み型クラスタを識別するようにトレーニングされた弁別器を表す。関数は、ここでは、埋め込み型クラスタを弁別器に識別しにくくさせるようにトレーニングされたジェネレータを含む。

関数のパラメータ、ひいてはジェネレータのパラメータは、好適には、第１のクラス分類器用の勾配と第２のクラス分類器用の勾配との間の差分に依存して決定される。それにより、ジェネレータのパラメータは、弁別器からの第２のクラス分類器の勾配に関して、反対方向において、即ち、逆の符号において決定される。

好適には、複数の第２の埋め込みが決定され、ここでは、複数の異なる単語からの単語ごとに、異なる第１の埋め込みを有するグループが決定され、当該グループが、第２の埋め込みのグループにマッピングされる。それにより、文からの単語が、共に第１のクラス分類器用の入力を形成し得る第２の埋め込みに並列にマッピングすることができる。

単語のために、種々の形式の第１の埋め込みを決定することが想定されるものとしてよく、ここでは、種々の形式の第１の埋め込みは、単語ベースの埋め込み、文字ベースの埋め込み、部分的な単語ベースの埋め込み、及び／又は、ドメイン固有の、特に生物医学又は材料科学のドメイン用の埋め込みを含む。種々のタイプの第１の埋め込みのグループが想定されるものとしてもよい。これらは、例えば、単語ベース又は文字ベースなど種々の形式を含み得る。ジェネレータは、この場合、グループからの各第１の埋め込みを第２の埋め込みにマッピングする。それにより、第２の埋め込みのグループが生成される。第１のクラス分類器は、第２の埋め込みごとに重みを計算し、それによって、第２の埋め込みから重み付けされた組合せ、この例においては合計を形成する。これに基づいて、第１のクラス分類器は、自身のクラス分類決定を行う。第２のクラス分類器、弁別器は、第２の埋め込みのために、埋め込みがどのタイプによるものかを見出すことを試みる。

関数は、複数の第１の埋め込みの少なくとも１つの第１の埋め込みが、マッピングにより、予め定められた次元の第２の埋め込みにマッピングされるように想定されるものとしてよい。それにより、異なる単語の埋め込みが、有意に、即ち、識別可能な埋め込み型クラスタなしで、第１のクラス分類器用の入力として共通の空間にマッピングされる。

第２の埋め込みと、少なくとも１つの他の第２の埋め込みとの組合せ用の重みは、上記第２の埋め込みに依存して決定することができ、組合せは、重みにより重み付けされた第２の埋め込みに依存して決定される。それにより、組合せ用の埋め込みの特に良好な重み付けが達成される。

この組合せは、第２の埋め込みと重みとの積に依存して決定される。それにより、特に良好に適した組合せが決定される。

単語のために、複数の第２の埋め込みを決定することができ、複数の第２の埋め込みのために、複数の積が決定され、組合せは、積の合計に依存して決定される。それにより、連結と比較して、第１のクラス分類器における所要のパラメータ数が低減される。

重みは、単語のプロパティを特徴付ける特徴に依存して決定することができる。これは、共通の空間内において埋め込みの組合せの位置付けをさらに改善する単語の特徴を考慮することを可能にさせる。

重みは、Ｓｏｆｔｍａｘ関数を用いて、０乃至１の間の値にマッピングされるものとしてよく、特にここでは、重みが、単語用の予め定められた次元の異なる埋め込みのために値１まで加算される。

ベクトルは、埋め込みを定義することができ、単語の種々の第１の埋め込みのための異なるベクトルが、マッピングによって同一の次元のベクトルにマッピングされる。

関数は、パラメータによって定義されるジェネレータを用いて第２の埋め込みを決定することができる。ジェネレータは、パラメータによって定義される人工ニューラルネットワークであるものとしてよい。

ナレッジグラフを決定するための装置は、本方法を実施するように構成されている。

さらなる好適な実施形態は、以下の説明及び図面から明らかとなる。

ナレッジグラフを決定するための装置の概略図である。ナレッジグラフを決定するためのクラス分類デバイスをトレーニングするためのコンポーネントの概略図である。クラス分類デバイスの部品の概略図である。ナレッジグラフを決定するための方法の各ステップを示す図である。

知識データベース、即ち、ナレッジグラフをコンテンツにより自動的に埋めるために、例えば、エンティティと概念とをテキストから抽出することができる。従って、これらは、ナレッジグラフのノードである。

エンティティ又は概念の識別には、ニューラルネットワークを用いて取り組むことができる。ここでは主に、単語ごとに、それがエンティティ／概念であるかどうか、及び、そうである場合には、どのクラスにこれが割り当てられているかを個別に決定するために、モデル、即ち、ニューラルネットワークが使用される。クラスは、例えば、人、場所、組織である。単語は、それに対して、例えばベクトルなどの埋め込み、即ち、単語の埋め込みによって表される。

埋め込みは、種々の言語であるものとしてもよく、又は、異なるタイプであるものとしてもよく、又は、種々のドメインのテキストによってトレーニングされた関数に基づくものとしてもよい。タイプの例には、単語ベース、文字ベース、文脈依存性、ドメイン依存性（例えば、生物医学又は材料科学など）のものがある。本発明は、異なるタイプ又は異なるドメインの例で説明される。異なる言語は、さらなる可能性の適用分野である。

好適には、組み合わせるべき異なる埋め込みが、共通の空間内において有意に配置されており、即ち、特に、共通の空間内においてそれらの意味論に基づいて配置されており、例えば埋め込み型クラスタを形成しない。

図１には、ナレッジグラフ１０２を決定するための装置１００の概略図が示されている。この装置１００は、ナレッジグラフ１０２を記憶するための第１のメモリ１０４を含む。

装置１００は、少なくとも１つのプロセッサ１０６を含む。このプロセッサ１０６は、以下において説明する方法を実行するように構成されている。少なくとも１つのプロセッサ１０６用の命令を含む第２のメモリ１０８が設けられるものとしてもよい。これらの命令が少なくとも１つのプロセッサ１０６によって実行されるときに本方法が実行される。プロセッサ１０６は、第１のデータ線路１１０を介して第１のメモリ１０４と通信し、及び／又は、第２のデータ線路１１２を介して第２のメモリと通信するように構成されるものとしてよい。

図２は、ナレッジグラフを決定するためのトレーニング用のコンポーネント２０２の概略図を示している。トレーニング用の入力は、単語用の種々の埋め込みｅ_ｉによって定義される。埋め込みは、この例においては、ベクトル空間内のベクトルによって定義される。種々の埋め込みｅ_ｉは、種々のベクトル空間において定義されるものとしてよい。

割り当てデバイス２０４は、種々の第１の埋め込みｅ_ｉをマッピングＱ_ｉによって第２の埋め込みχ_ｉにマッピングするように構成されている。この例においては、複数の第１の埋め込みｅ_ｉ用のベクトルが、共通のベクトル空間内において第２の埋め込みχ_ｉ用の複数のベクトルにマッピングされる。

クラス分類デバイス２０６は、第２の埋め込みχ_ｉを、第２の埋め込みχ_ｉの重みα_ｉに依存して組合せｅ^ＡＴＴに組み合わせるように構成されている。

それにより、クラス分類デバイス２０６の精度も高められる。以下において説明する敵対的トレーニングは、精度のさらなる向上に結び付く。なぜなら、第１の埋め込みｅ_ｉは、第２の埋め込みχ_ｉにマッピングされ、この第２の埋め込みχ_ｉが、第１の埋め込みｅ_ｉの連結によって可能である場合よりも有意に共通の空間内に配置された、クラス分類デバイス２０６の入力を形成するからである。

クラス分類デバイス２０６は、第２の埋め込みχ_ｉを、ナレッジグラフ用のクラス分類２０８においてクラス分けするように構成されている。例えば、クラス分類デバイス２０６は、第２の埋め込みχ_ｉの重み付けされた組合せを、第２の埋め込みχ_ｉを基礎とする単語がナレッジグラフのエンティティであるかどうかに関してクラス分類するように構成されている。例えば、クラス分類デバイス２０６は、第２の埋め込みχ_ｉを、第２の埋め込みχ_ｉを基礎とする単語がナレッジグラフにおいてどのエンティティ又はどのタイプのエンティティに割り当てられているかに関してクラス分類するように構成されている。

トレーニングのために弁別器２１０が設けられている。この弁別器２１０は、この例においてはクラス分類ネットワークである。弁別器２１０は、第２の埋め込みのために埋め込みタイプを識別するように構成されている。

トレーニングのために、例えば、異なるタイプの第１の埋め込みｅ_ｉのグループが提供され、これらは、種々の形式、例えば、単語ベース、文字ベースを含み得る。

割り当てデバイス２０４は、この例においてはジェネレータＧを含む。このジェネレータＧは、例えばマッピングＱ_ｉによって、グループからの各第１の埋め込みｅ_ｉを第２の埋め込みχ_ｉにマッピングする。これにより、第２の埋め込みχ_ｉのグループが生成される。

クラス分類デバイス２０６は、例えば、第２の埋め込みχ_ｉごとに、重みα_ｉ及び自身の各重みα_ｉにより重み付けされた総ての第２の埋め込みχ_ｉからの組合せｅ^ＡＴＴを計算する。クラス分類デバイス２０６は、クラス分類器Ｃを用いて組合せｅ^ＡＴＴに基づきクラス分類決定を、即ち、この例においてはナレッジグラフ用のクラス分類２０８を行う。

弁別器２１０は、第２の埋め込みχ_ｉごとに、異なるタイプのどれが第１の埋め込みｅ_ｉであったか、それにより第２の埋め込みχ_ｉが決定されたかを見出すことを試みる。

トレーニングのために、複数の第２の埋め込みχ_ｉが決定される。例えば、単語ごとに、異なる複数の単語から、異なる第１の埋め込みｅ_ｉを有するグループが決定され、このグループが、第２の埋め込みχ_ｉのグループにマッピングされる。

トレーニング中に、この例においては、割り当てデバイス２０４、弁別器２１０及びクラス分類デバイス２０６がトレーニングされる。弁別器２１０は、この目的のためにトレーニングされ、基礎となる第１の埋め込みｅ_ｉがどの埋め込みタイプに属するかを識別するための複数の第２の埋め込みχ_ｉが与えられる。弁別器２１０は、埋め込み型クラスタを識別するように構成されている。

例えば、第２の埋め込みがどの埋め込みタイプに属するかを識別することが弁別器２１０にとって可及的に困難になる割り当てデバイス２０４によるマッピングが勾配反転技法によって学習される。この学習は、以下において説明する。それにより、弁別器２１０は、埋め込み型クラスタをもはや識別することができなくなる。勾配反転技法は、例えば、Yaroslav Ganin、Evgeniya Ustinova、Hana Ajakan、Pascal Germain、Hugo Larochelle、Francois Laviolette、Mario Marchand及びVictor Lempitskyらによる文献「2016. Domain-adversarial training of neural networks. Journal of Machine Learning Research, 17」に記載されている。

割り当てデバイス２０４による結果として生じるマッピングは、もはや埋め込み型クラスタを形成しない。なぜなら、そのようなクラスタは、容易に弁別することができるはずだからである。

以下においては、これがテキスト内のエンティティ及び概念の自動識別に使用される。これに基づき、エンティティを自動的に抽出し、例えば、データベースに又はナレッジグラフのノードとして保存して処理することができる。

入力は、トレーニング用のトレーニングデータが存在する限り、総ての言語及びドメインの単語によって定義されるものとしてよい。

適用は、エンティティ識別に限定されるものではない。入力表現としての埋め込みは、自然言語処理の非常に多くの分野において主要な役割を果たす（例えば、解析、関係性の抽出、テキストの自動要約など）。これらの総ての分野について適用が可能である。

そのようにトレーニングされたクラス分類デバイス２０６は、エンティティ及び概念の自動識別のために構成されている。そのようにトレーニングされた割り当てデバイス２０４は、異なる埋め込みタイプを、それらが組み合わせられる前に、有意な方法により、共通の空間内にマッピングするように構成されている。

そのようにトレーニングされた割り当てデバイス２０４と、そのようにトレーニングされたクラス分類デバイス２０６とは、本文書の各単語を、予め定められた量のクラスに属するかどうかとしてクラス分類する。

割り当てデバイス２０４は、線形又は非線形マッピングとして、即ち、フィードフォワードネットワークとして、実装されるものとしてよい。クラス分類デバイス２０６は、リカレントニューラルネットワークとして実装されるものとしてよい。単語は、埋め込みによって単語ベクトルとして表されるものとしてよい。リカレントニューラルネットワークは、フィードバック人工ニューラルネットワークであり、これは、異なる層のニューロン間にフィードフォワード接続を有する人工ニューラルネットワークとは対照的に、ある層のニューロンから同一の層又は先行する層のニューロンへの接続も有する。

図３は、割り当てデバイス２０４及びクラス分類デバイス２０６の部品の概略図を示している。割り当てデバイス２０４は、この例においては、入力側３０２及び出力側３０４を含む。入力側３０２は、Ｎ個の第１の埋め込みｅ_ｉを決定するように構成されている。単語３０６用の第１の埋め込みｅ_ｉには、図３においては、ｅ_１、ｅ_２、…ｅ_Ｎが付されている。

ここでは、種々の形式の第１の埋め込みｅ_ｉ、例えば、単語ベースの埋め込み、文字ベースの埋め込み、部分的な単語ベースの埋め込みなどを使用することができる。これらは、例えば、ニュースやインターネット記事などの大量のデータによりトレーニングされるものとしてよい。特別なドメイン、例えば、生物医学又は材料科学などのドメインについては、ドメイン固有の埋め込み、即ち、対応するドメインのデータでトレーニングされた埋め込みも使用することができる。決定可能であり得る第１の埋め込みｅ_ｉの例には、文字埋め込み、Ｃｈａｒ、ＢｙｔｅＰａｉｒＥｎｃｏｄｉｎｇ埋め込み、ＢＰＥｍｂ、ＦａｓｔＴｅｘｔ埋め込み、ｆａｓｔＴｅｘｔ、ＦＬＡＩＲ埋め込み、ＦＬＡＩＲ、ＢＥＲＴ埋め込み、ＢＥＲＴなどがある。

既に第１の埋め込みｅ_ｉが、例えばデータベースから提供されている限り、割り当てデバイス２０４は、入力側３０２を含まない。この例においては、Ｎ個の第１の埋め込みｅ_ｉが、異なる次元を有し得るＮ個のベクトル空間内において定義される。

割り当てデバイス２０４は、入力側３０２と出力側３０４との間に配置された関数３０８を含む。この関数３０８は、第１の埋め込みｅ_ｉごとに、出力側３０４から出力される第２の埋め込みを決定するように構成されている。関数３０８は、第１の埋め込みｅ_１、ｅ_２、…ｅ_Ｎに対して第２の埋め込みχ_１、χ_２、…χ_Ｎを決定するように構成されている。

この例においては、関数３０８によって、Ｎ個の第１の埋め込みｅ_ｉが、マッピングによって同一のサイズＥのＮ個の埋め込みにマッピングされる。この例においては、単語３０６用のｅ_１、ｅ_２、…ｅ_Ｎが付されたＮ個の第１の埋め込みｅ_ｉに対してＮ個のマッピングＱ_１、Ｑ_２、…Ｑ_Ｎが定義される。各埋め込みｅ_ｉは、マッピングＱ_ｉによって第２の埋め込みχ_ｉにマッピングされ、ここでは、以下の関係式、

が成り立つ。これらのマッピングは、この例においては、トレーニング中に学習される。これらのマッピングＱ_ｉは、埋め込みタイプｉごとに、複数のパラメータからなるマトリックスによって定義される。これらのパラメータは、ランダムに初期化され、次いで、トレーニング中に学習される。関数３０８は、ジェネレータＧを含み得る。このジェネレータＧは、関数用のパラメータに依存して定義される人工ニューラルネットワークを含み得る。

一態様においては、関数３０８用の付加的入力として以下の単語特徴

が使用される。この目的のために、割り当てデバイス２０４は、さらなる入力側３１０を備えることができる。単語特徴ｆは、埋め込みχ_１の各々に連結される即ち付加される大きさＦのベクトルであるものとしてよい。単語特徴ｆの例は、長さ、頻度又は単語形式である。長さは、例えば単語３０６を、当該単語３０６を形成する文字の数に依存して次元Ｆのベクトルにマッピングすることによって考慮される。例えば、この目的のために、ワンホットエンコーディングが使用される。例えば、次元Ｆ＝２０については、単語はその長さを示すベクトルにマッピングされる。１９を超える文字を含む単語は、長さを２０として示す同一のベクトルにマッピングすることができる。単語３０６の頻度は、例えば、テキスト内の単語の出現に従って分類されたリスト内のそのランクに反比例して決定される。この目的のために、例えば、単語２ｖｅｃの埋め込みが使用され評価される。単語形式は、例えば、ＳｐａＣｙｓ形状特徴と称される方法によって決定され得る。

複数の単語特徴ｆを、それらを単一のベクトルに連結することによって考慮することが想定されるものとしてもよい。

クラス分類デバイス２０６は、埋め込みχ_ｉごとに重みα_ｉを決定するように構成されている。この目的のために、以下のパラメータ

を有する変数Ｈのリカレントニューラルネットワークの完全に接続された隠れ層が想定されるものとしてもよい。この場合、前記パラメータは埋め込みχ_ｉを定義し、単語特徴ｆはこの層の入力を定義し、重みα_ｉは、以下の関係式、

によって決定される。

クラス分類デバイス２０６は、例えば、以下の関係式、

によって、埋め込みχ_ｉを重みα_ｉにより重み付けして組み合わせるように構成されている。この場合、組合せｅ^ＡＴＴは、例えば、総和ベクトルである。

それがエンティティであるかどうかを決定すべき単語３０６ごとに、異なる単語ベクトルの重み付けされた組合せｅ^ＡＴＴが計算され、かつ、エンティティである場合には、どの単語であるかが決定され、この場合、異なる第１の埋め込みｅ_ｉが、マッピングχ_ｉ＝Ｑ_ｉｅ_ｉによって同一の次元にマッピングされる。異なる重みα_ｉは、異なる埋め込みχ_ｉのために、埋め込みχ_ｉ自体及び単語特徴ｆを用いて決定される。Ｎ個の重みα_１、α_２…、α_Ｎは、例えば、Ｓｏｆｔｍａｘ関数を用いて０乃至１の間の値にマッピングされる。それにより、Ｎ個の重みα_１、α_２…、α_Ｎが値１まで加算される。

異なる埋め込みχ_ｉは、この例においては、自身の各重みα_ｉで乗算されて加算される。総和ベクトルは、単語３０６用の表現として使用される。

クラス分類すべき単語３０６用の表現を決定する割り当てデバイス２０４が設けられるものとしてよい。この例においては、割り当てデバイス２０４によって、異なる単語３０６に相前後して異なる第２の埋め込みχ_ｉが、クラス分類デバイス２０６用の入力として決定される。

クラス分類デバイス２０６は、単語３０６用の表現、即ち、組合せｅ^ＡＴＴをクラス分類するように構成されている。クラス分類デバイス２０６は、異なる単語用の異なる組合せｅ^ＡＴＴをクラス分類するように構成されるものとしてもよい。

クラス分類デバイス２０６は、この例においては、入力層、双方向のlong-short termメモリ、ＢｉＬＳＴＭ、及び、conditional random field output layer；ＣＲＦを有する人工ニューラルネットワークを含む。ＢｉＬＳＴＭネットワークは、例えば、Sepp Hochreiter及びJuergen Schmidhuberらによる文献「1997. Long short-term memory. Neural computation, 9(8):1735-1780」に記載され定義されている。ＣＲＦは、例えば、John D. Lafferty、Andrew McCallum及びFernando C. N.Pereiraらによる、文献「2001. Conditional random fields:Probabilistic models for segmenting and labeling sequence data」、「the Eighteenth International Conference on Machine Learning, ICML ’01, pages 282-289, San Francisco, CA, USA」の議事録、Morgan Kaufmann Publishers Inc. Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, 及び Chris Dyerらによる文献「2016. Neural architectures for named entity recognition. In Proc. of NAACL」に記載され定義されている。

クラス分類デバイス２０６は、エンティティ識別のために構成されている。クラス分類デバイス２０６は、重み付けされた単語ベクトル、即ち、異なる組合せｅ^ＡＴＴをクラス分類する。

トレーニング中に、関数３０８用及びクラス分類デバイス２０６用のパラメータが学習される。

弁別器２１０は、この例においてはクラス分類ネットワークであり、これは、相互相関に基づく損失関数Ｌ_Ｄを有する対数多項線形クラス分類器Ｄを表す。

クラス分類デバイス２０６は、クラス分類器Ｃ用の損失関数Ｌ_Ｃによって、単語３０６の適正なクラス分類の対数確率を改善又は最大化するようにトレーニングされる。この例においては、クラス分類器Ｃは、ＣＲＦによって定義される。割り当てデバイス２０４からのジェネレータＧ用のパラメータθ_Ｇ、弁別器２１０からのクラス分類器Ｄ用のパラメータθ_Ｄ、及び、クラス分類デバイス２０６からのクラス分類器Ｃ用のパラメータθ_Ｃを用いて、この例においては、パラメータが、クラス分類器Ｄ用の勾配δＬ_Ｄ／δθ_Ｇ及びδＬ_Ｄ／δθ_Ｄと、クラス分類器Ｃ用の勾配δＬ_Ｃ／δθ_Ｇ及びδＬ_Ｃ／δθ_Ｃとを用いて、以下の関係式
θ_Ｄ＝θ_Ｄ−ηλ（δＬ_Ｄ／δθ_Ｄ）
θ_Ｃ＝θ_Ｃ−ηλ（δＬ_Ｃ／δθ_Ｃ）
θ_Ｇ＝θ_Ｇ−η｛（δＬ_Ｃ／δθ_Ｇ）−λ（δＬ_Ｄ／δθ_Ｇ）｝
に従って更新される。ここで、ηは、学習率であり、λは、弁別器２１０の作用に影響を与えるためのハイパーパラメータである。

それゆえ、ジェネレータＧのパラメータθ_Ｇは、弁別器２１０からのクラス分類器Ｄ用の損失関数Ｌ_Ｄからの勾配の反対方向に決定される。それによって、異なる埋め込みタイプ用の第２の埋め込みは、共通の埋め込み空間においてクラスタを形成することができない。

以下においては、人工ニューラルネットワークにおける１つの実装例を、各方向において２５６個のノードを伴う隠れ層を有するＢｉＬＳＴＭについて説明する。

このトレーニングは、この例においては、バッチによるエポックにおける監視トレーニングを想定している。１つのバッチは、１６個の文のサイズを含むことが可能であり、ここでは、単語とラベルとの対が定義される。トレーニング中は、例えば、学習率η＝０．２の確率的勾配降下法が想定されている。

学習率ηを、順次連続する３つのエポックの後で半分にすることが想定されるものとしてもよい。弁別器２１０からのクラス分類器Ｄは、ＢｉＬＳＴＭのトレーニングのそれぞれｋ＝１０のバッチに従ってトレーニングすることができる。

文字の埋め込みについては、例えば、単語３０６の文字がランダムに初期化された埋め込みによって表される。これらは、各方向に２５個の隠れ層を有するＢｉＬＳＴＭ用の入力であり、ここでは、順方向の伝搬の際の最後の隠れ層の状態と、それに続く逆方向の伝搬の際のこの層の状態とが、単語３０６を第１の埋め込みｅ_ｉとして表すために次元５０のベクトルに連結される。

ＦａｓｔＴｅｘｔ埋め込みについては、例えば、ｎ−ｇｒａｍ埋め込みが決定され、ここでは、単語３０６は、単語３０６用のｎ−ｇｒａｍの埋め込みの標準化された合計によって決定される。ＦａｓｔＴｅｘｔ埋め込みは、例えば、Piotr Bojanowski、Edouard Grave、Armand Joulin、Tomas_Mikolovらによる、文献「2017. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5:135-146」に記載されている。

ＢＰＥｍｂについては、例えば、ＢｙｔｅＰａｉｒＥｎｃｏｄｉｎｇ埋め込みが単語ベクトルの生成のために使用され、ここでは、単語３０６のコンポーネント用のベクトルが決定される。単語３０６は、この目的のためにこの例においては、重複しないコンポーネントに分割される。重複しないコンポーネントは、それらの頻度に依存して決定される。次いで、単語自体用のベクトルが、組合せとして、例えば、コンポーネントベクトルからの平均として決定される。ＢＰＥｍｂは、例えば、Benjamin Heinzerling及びMichael Strubeらによる、文献「2018. BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275 Languages」、「the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA)」の議事録に記載されている。

ＢＥＲＴ埋め込み及びＦＬＡＩＲ埋め込みについては、この例においては、事前にトレーニングされたモデルが使用され、単語３０６についてベクトルが、例えば、単語３０６を含む文又はテキストの文脈における総ての単語に依存して決定される。ＢＥＲＴ埋め込みは、例えば、Jacob Devlin、Ming-Wei Chang、Kenton Lee及びKristinaToutanovaらによる、文献「2019. BERT: Pre-training of deep bidirectional transformers for language understanding」、「the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171-4186.」の議事録に記載されている。

ＦＬＡＩＲ埋め込みは、例えば、Alan Akbik, Duncan Blythe, 及び Roland Vollgraf.らによる文献「2018. Contextual string embeddings for sequence labeling.」、「the 27th International Conference on Computational Linguistics, pages 1638-1649」の議事録、Alan Akbik, Tanja Bergmann, 及び Roland Vollgraf.らによる文献「2019. Pooled contextualized embeddings for named entity recognition.」、「the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 724-728」の議事録に記載されている。

ドメイン固有の埋め込みは、例えば、事前にトレーニングされたモデルによって決定される。

ナレッジグラフを決定するための方法は、以下において、図４を参照して説明される。本方法は、それがエンティティであるかどうかを決定すべき単語３０６ごとに実施することができ、かつ、エンティティである場合には、どの単語であるかを決定することができる。

任意のステップ４０１においては、単語３０６に対して、種々の形式の埋め込みｅ_ｉ、例えば、単語ベースの埋め込み、文字ベースの埋め込み、部分的な単語ベースの埋め込みが決定される。例えば、生物医学又は材料科学のドメインなどの特別なドメインのアドレス指定のために、このステップにおいては、対応するドメインのデータでトレーニングされたドメイン固有の埋め込みｅ_ｉを使用することもできる。

この例においては、単語ベクトルが第１の埋め込みｅ_ｉを定義する。この例においては、単語３０６について、複数の第１の埋め込みｅ_ｉが決定される。

ステップ４０２においては、単語３０６について第１の埋め込みｅ_ｉに依存して第２の埋め込みχ_ｉが決定される。

ａ．異なる第１の埋め込みｅ_ｉが、マッピングＱによって同一の次元の第２の埋め込みχ_ｉにマッピングされる。

ｂ．単語３０６について、第２の埋め込みからの組合せｅ^ＡＴＴが決定される。この組合せｅ^ＡＴＴは、この例においては、複数の第２の埋め込みχ_ｉの重み付けされた組合せである。組合せｅ^ＡＴＴは、この例においては、複数の第２の埋め込みχ_ｉ用の異なる単語ベクトルの重み付けされた組合せである。

関数３０８は、埋め込みχ_ｉ自体を用いて異なる埋め込みχ_ｉ用の重みα_ｉを計算する。ここでは、異なる第２の埋め込みχ_ｉ用の重みα_ｉを、第２の埋め込みχ_ｉ自体及び上記の付加的特徴、例えば単語特徴ｆを用いて決定することが想定されるものとしてもよい。

ここでは、重みα_ｉを、Ｓｏｆｔｍａｘ関数を用いて０乃至１の間の値にマッピングすることが想定されるものとしてよく、この場合、重みα_ｉは、値１まで加算される。

ｃ．異なる第２の埋め込みχ_ｉは、自身の重みα_ｉで乗算されて加算される。異なる第２の埋め込みχ_ｉは、この例においては、単語３０６用の重み付けされた単語ベクトルである。

そのように決定された総和ベクトル、即ち、組合せｅ^ＡＴＴは、単語３０６用の表現を定義する。

ステップ４０３においては、クラス分類デバイス２０６によって、第１のクラス分類、特に、単語３０６用のエンティティ識別が、表現を用いて、即ち、組合せｅ^ＡＴＴを用いて実行される。例えば、第２の埋め込みχ_ｉからの組合せｅ^ＡＴＴに依存して、単語３０６がナレッジグラフのエンティティであるかどうかが決定される。任意選択的に、単語３０６がナレッジグラフのエンティティである場合、この単語がエンティティのどのクラスに属するかを決定することができる。

トレーニング中に、ステップ４０２から４０３までは、エポックにおいてトレーニングデータのバッチを用いて実行され、この場合、ステップ４０５においては、クラス分類器Ｃ用の損失関数Ｌ_Ｃを伴うクラス分類器Ｃ用のパラメータθ_Ｃが決定される。このクラス分類器Ｃは、クラス分類器Ｃ用の損失関数Ｌ_Ｃによって、特に、単語３０６の適正なクラス分類の対数確率を改善又は最大化するようにトレーニングされる。

ジェネレータＧ用のパラメータθ_Ｇは、クラス分類器Ｃ用のパラメータθ_Ｃ及び弁別器２１０からのクラス分類器Ｄ用のパラメータθ_Ｄに依存して決定される。

さらに、ステップ４０４においては、特に、クラス分類器Ｃのトレーニング用の複数のバッチが実行された後に、弁別器２１０からのクラス分類器Ｄ用のパラメータθ_Ｄのトレーニングを実施することが想定されるものとしてもよい。クラス分類器Ｄは、第２の埋め込みχ_ｉが複数のタイプの埋め込みからの１つのタイプの埋め込みに割り当てられているかどうかを示す複数の第２の埋め込みχ_ｉ用の第２の分類を決定する。

トレーニングのために、複数の単語３０６が提供される。少なくとも１つの単語３０６について、第２の埋め込みχ_ｉを定義する複数の第１の埋め込みｅ_ｉが決定される。

第１のクラス分類器Ｃを用いて、単語３０６の少なくとも１つ用の第２の埋め込みχ_ｉの第１のクラス分類が決定される。

第２のクラス分類器Ｄを用いて、単語３０６の少なくとも１つ用の第２の埋め込みχ_ｉの第２のクラス分類が決定される。

複数の単語３０６の少なくとも１つに依存して、第１のクラス分類器Ｃ用の第１の関数、損失関数Ｌ_Ｃが第１の条件を満たす第１のクラス分類器Ｃ用のパラメータθ_Ｃが決定される。例えば、損失関数Ｌ_Ｃの値は、低減又は最小化すべきである。

第１のクラス分類器Ｃ用のこれらのパラメータθ_Ｃ及び複数の単語３０６の少なくとも１つに依存して、第２のクラス分類器Ｄ用の第２の関数、損失関数Ｌ_Ｄが第２の条件を満たす第２のクラス分類器Ｄ用のパラメータθ_Ｄが決定される。例えば、損失関数Ｌ_Ｄの値は、低減又は最小化すべきである。

第１の関数Ｌ_Ｃは、第１のクラス分類器Ｃ用のパラメータθ_Ｃ及び第１のクラス分類に依存して定義される。

第２の関数Ｌ_Ｄは、第２のクラス分類器Ｄ用のパラメータθ_Ｄ及び第２のクラス分類に依存して定義される。

トレーニングは、この例においては、複数の反復を含み、例えば、予め定められた数のエポックの後で終了する。

Claims

ナレッジグラフを決定するための方法において、
単語（３０６）のための第１の埋め込みのために、関数（３０８）を用いて第２の埋め込み（χ_ｉ）が決定され（ステップ４０２）、
前記第２の埋め込み（χ_ｉ）のために、第１のクラス分類器（Ｃ）を用いて、前記単語（３０６）が前記ナレッジグラフのためのエンティティであるかどうか、又は、前記ナレッジグラフのためのどのエンティティ又はどのタイプのエンティティに、前記ナレッジグラフの前記単語（３０６）が割り当てられているかを定義する第１のクラス分類が決定され（ステップ４０３）、
前記第２の埋め込み（χ_ｉ）のために、第２のクラス分類器（Ｄ）を用いて、複数のタイプの埋め込みからどのタイプの埋め込みに前記第２の埋め込み（χ_ｉ）が割り当てられているかを定義する第２のクラス分類が決定され（ステップ４０４）、
トレーニングにおいて、前記関数（３０８）用の少なくとも１つのパラメータ（θ_Ｇ）が、前記第１のクラス分類器（Ｃ）のトレーニング用の少なくとも１つの勾配に依存して、かつ、前記第２のクラス分類器（Ｄ）のトレーニング用の少なくとも１つの勾配に依存してトレーニングされる、
ことを特徴とする方法。
前記トレーニングのために、複数の単語（３０６）が提供され、前記第１のクラス分類器（Ｃ）を用いて、前記第２の埋め込み（χ_ｉ）の前記第１のクラス分類が、前記複数の単語（３０６）の少なくとも一部について決定され、前記第２のクラス分類器（Ｄ）を用いて、前記第２の埋め込み（χ_ｉ）の前記第２のクラス分類が、前記複数の単語（３０６）の少なくとも一部について決定され、前記複数の単語（３０６）の少なくとも一部に依存して、前記第１のクラス分類器（Ｃ）用の第１の関数（Ｌ_Ｃ）が第１の条件を満たす前記第１のクラス分類器（Ｃ）用のパラメータ（θ_Ｃ）が決定され（ステップ４０３）、前記第１のクラス分類器（Ｃ）用の前記パラメータ（θ_Ｃ）及び前記複数の単語（３０６）の少なくとも一部に依存して、前記第２のクラス分類器（Ｄ）用の第２の関数（Ｌ_Ｄ）が第２の条件を満たす前記第２のクラス分類器（Ｄ）用のパラメータ（θ_Ｄ）が決定され（ステップ４０４）、前記第１の関数（Ｌ_Ｃ）は、前記第１のクラス分類器（Ｃ）用の前記パラメータ（θ_Ｃ）及び前記第１のクラス分類に依存して定義され、前記第２の関数（Ｌ_Ｄ）は、前記第２のクラス分類器（Ｄ）用の前記パラメータ（θ_Ｄ）及び前記第２のクラス分類に依存して定義される、請求項１に記載の方法。
前記関数（３０８）のパラメータ（θ_Ｇ）は、前記第１のクラス分類器（Ｃ）用の勾配と前記第２のクラス分類器（Ｄ）用の勾配との間の差分に依存して決定される、請求項２に記載の方法。
前記複数の第２の埋め込み（χ_ｉ）が決定され（ステップ４０２）、複数の異なる単語からの前記単語（３０６）ごとに、異なる第１の埋め込み（ｅ_ｉ）を有するグループが決定され（ステップ４０１）、前記グループが、前記第２の埋め込み（χ_ｉ）のグループにマッピングされる、請求項１乃至３のいずれか一項に記載の方法。
単語（３０６）のために、種々の形式の第１の埋め込み（ｅ_ｉ）が決定され（ステップ４０１）、前記種々の形式の第１の埋め込み（ｅ_ｉ）は、単語ベースの埋め込み、文字ベースの埋め込み、部分的な単語ベースの埋め込み、及び／又は、ドメイン固有の、特に生物医学又は材料科学のドメイン用の埋め込みを含む、請求項１乃至４のいずれか一項に記載の方法。
前記関数（３０８）は、複数の第１の埋め込み（ｅ_ｉ）からの少なくとも１つの第１の埋め込み（ｅ_ｉ）を、マッピング（Ｑ）により、予め定められた次元の第２の埋め込み（χ_ｉ）にマッピングする（ステップ４０２）、請求項１乃至５のいずれか一項に記載の方法。
第２の埋め込み（χ_ｉ）と、少なくとも１つの他の第２の埋め込みとの組合せ（ｅ^ＡＴＴ）用の重み（α_ｉ）が、前記第２の埋め込み（χ_ｉ）に依存して決定され（ステップ４０２）、前記組合せ（ｅ^ＡＴＴ）は、前記重み（α_ｉ）により重み付けされた第２の埋め込み（ｘ_ｉ）に依存して決定される、請求項６に記載の方法。
前記組合せ（ｅ^ＡＴＴ）は、前記第２の埋め込み（χ_ｉ）と前記重み（α_ｉ）との積に依存して決定される（ステップ４０２）、請求項７に記載の方法。
単語（３０６）のために、複数の第２の埋め込み（χ_ｉ）が決定され（ステップ４０２）、前記複数の第２の埋め込み（χ_ｉ）のために、複数の積が決定され、前記組合せ（ｅ^ＡＴＴ）は、前記積の合計に依存して決定される（ステップ４０２）、請求項８に記載の方法。
前記重み（α_ｉ）は、前記単語（３０６）のプロパティを特徴付ける特徴（ｆ）に依存して決定される（ステップ４０２）、請求項７乃至９のいずれか一項に記載の方法。
前記重み（α_ｉ）は、Ｓｏｆｔｍａｘ関数を用いて、０乃至１の間の値にマッピングされ（ステップ４０１）、特に、前記重み（α_ｉ）は、前記単語（３０６）のための予め定められた次元の異なる埋め込み（χ_ｉ）のために値１まで加算される（ステップ４０２）、請求項７乃至１０のいずれか一項に記載の方法。
ベクトル（ｅ_ｉ）が、埋め込みを定義し、前記単語（３０６）の種々の第１の埋め込み（ｅ_ｉ）のための異なるベクトル（ｅ_ｉ）が、マッピング（Ｑ）によって同一の次元のベクトル（χ_ｉ）にマッピングされる（ステップ４０２）、請求項１乃至１１のいずれか一項に記載の方法。
前記関数（３０８）は、パラメータ（θ_Ｇ）によって定義されるジェネレータ（Ｇ）を用いて前記第２の埋め込み（χ_ｉ）を決定する（ステップ４０２）、請求項１乃至１２のいずれか一項に記載の方法。
ナレッジグラフを決定するための装置（１００）であって、
請求項１乃至１３のいずれか一項に記載の方法を実施するように構成されていることを特徴とする装置（１００）。
コンピュータ可読命令を含むコンピュータプログラムであって、前記コンピュータ可読命令がコンピュータによって実行されるときに、請求項１乃至１３のいずれか一項に記載の方法が実施されることを特徴とするコンピュータプログラム。