JP2021128779A

JP2021128779A - データ拡張の方法及び装置、機器、記憶媒体

Info

Publication number: JP2021128779A
Application number: JP2021049353A
Authority: JP
Inventors: ホアン、ピンピン; Pingping Huang; ワン、チュアン; Quan Wang; チアン、ウェンピン; Wenbin Jiang; ユアン、ポンチョン; Pengcheng Yuan
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-08
Filing date: 2021-03-24
Publication date: 2021-09-02
Anticipated expiration: 2041-03-24
Also published as: JP7229291B2; KR20210040886A; CN111506623A; EP3846050A2; CN111506623B; US20210216885A1; EP3846050A3

Abstract

【課題】本発明の実施例は、データ拡張の方法及び装置、機器、記憶媒体を開示し、ナレッジグラフ技術の分野に関する。
【解決手段】当該方法の一具体的な実施形態は、ナレッジグラフからトリプルを取得することと、前記ナレッジグラフから前記トリプルにおける関係と等価な関係パスをマイニングし、ここで、前記関係パスは、前記トリプルのうちのサブジェクトおよびオブジェクトをそれぞれ始点及び終点とすることと、前記関係パスに基づいて前記トリプルを展開することにより、展開トリプルを生成することと、を含む。当該実施形態は、ナレッジグラフにおけるトリプルに対する拡張を実現し、トリプルのうちのサブジェクトおよびオブジェクトのより大きな文脈における関連付けを強化し、トリプルのうちのサブジェクトとオブジェクトとの間の関連付けをより大域的になるようにする。
【選択図】図２

Description

本発明の実施例は、コンピュータ技術の分野に関し、具体的にはナレッジグラフ技術の分野に関する。

ナレッジグラフは、ナレッジドメイン可視化またはナレッジ領域マッピングマップとも呼ばれ、ナレッジ発展プロセスと構造関係を示す一連の様々な異なるグラフであり、可視化技術でナレッジリソースおよびそのキャリアを説明し、ナレッジおよびそれらの間の相互関係をマイニング、分析、構築、描画、表示する。

ナレッジグラフは、世界の現実的なナレッジを説明する有向グラフ構造のナレッジベースであり、その基本的な構成は、トリプル（Ｓ、Ｐ、Ｏ）である。ここで、Ｓ（ｓｕｂｊｅｃｔ）およびＯ（ｏｂｊｅｃｔ）は、ナレッジグラフにおけるノードであり、エンティティを表す。Ｓは、具体的にサブジェクトを表し、Ｏは、具体的にオブジェクトを表す。Ｐ（ｐｒｅｄｉｃａｔｉｏｎ）は、ナレッジグラフにおける２つのエンティティ（ＳとＯ）を結ぶエッジであり、２つのエンティティ間の関係を表す。従来のナレッジグラフでは、２つのエンティティ間の関連付けは、この２つのエンティティを直接に結ぶエッジＰによって表され、表される関連付けは、比較的局所的である。

本発明の実施例では、データ拡張の方法及び装置、機器、記憶媒体を提案する。

第１の態様において、本発明の実施例は、ナレッジグラフからトリプルを取得することと、ナレッジグラフからトリプルにおける関係と等価な関係パスをマイニングし、ここで、関係パスは、トリプルのうちのサブジェクトおよびオブジェクトをそれぞれ始点及び終点とすることと、関係パスに基づいてトリプルを展開することにより、展開トリプルを生成することと、を含むデータ拡張の方法に関する。

第２の態様において、本発明の実施例は、ナレッジグラフからトリプルを取得するように構成される第１の取得モジュールと、ナレッジグラフからトリプルにおける関係と等価な関係パスをマイニングするように構成され、ここで、関係パスは、トリプルのうちのサブジェクトおよびオブジェクトをそれぞれ始点及び終点とするマイニングモジュールと、関係パスに基づいてトリプルを展開することにより、展開トリプルを生成するように構成される展開モジュールと、を含むデータ拡張の装置に関する。

第３の態様において、本発明の実施例は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信接続されたメモリと、を含み、ここで、メモリには、少なくとも１つのプロセッサによって実行可能な指令が記憶され、指令が少なくとも１つのプロセッサによって実行されることにより、第１の態様のいずれかの実施形態で説明された方法を少なくとも１つのプロセッサに実行させる電子機器に関する。

第４の態様において、本発明の実施例は、コンピュータ指令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は、第１の態様のいずれかの実施形態で説明された方法をコンピュータに実行させるために使用される非一時的コンピュータ可読記憶媒体に関する。

第５の態様において、本発明の実施例は、コンピュータプログラムであって、プロセッサにより実行されると、第１の態様のいずれかの実施形態で説明された方法をコンピュータに実行させるコンピュータプログラムに関する。

本発明の実施例によるデータ拡張の方法及び装置、機器、記憶媒体は、まず、ナレッジグラフからトリプルを取得し、次に、ナレッジグラフからトリプルにおける関係と等価な関係パスをマイニングし、最後に、関係パスに基づいてトリプルを展開することにより、展開トリプルを生成する。ナレッジグラフにおけるトリプルに対する拡張を実現し、トリプルのうちのサブジェクトおよびオブジェクトのより大きな文脈における関連付けを強化し、トリプルのうちのサブジェクトとオブジェクトとの間の関連付けをより大域的になるようにする。

本明細書で記載された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図したものではなく、本開示の範囲を制限するものでもないことを理解すべきである。本開示の他の特徴は、以下の説明によって容易に理解される。

本発明のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。図面は、本技術案をよりよく理解するために使用され、本発明に対する限定を構成しない。
本発明が適用可能な例示的なシステムアーキテクチャ図である。本発明によるデータ拡張の方法の一実施例のフローチャートである。本発明の実施例のデータ拡張の方法を実現することができるシーン図である。本発明によるデータ拡張の方法の別の実施例のフローチャートである。本発明によるデータ拡張の装置の一実施例の概略構成図である。本発明の実施例のデータ拡張の方法を実現するための電子機器のブロック図である。

以下、図面に関連して本発明の例示的な実施例を説明し、理解を容易にするための本発明の実施例の様々な詳細を含み、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲および精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明確かつ簡明にするために、以下の説明では、公知の機能および構造に対する説明が省略される。

なお、矛盾しない場合には、本発明の実施例及び実施例における特徴が互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本発明を詳細に説明する。

図１には、本発明が適用され得る、データ拡張の方法又はデータ拡張の装置の実施例の例示的なシステムアーキテクチャ１００が示されている。

図１に示すように、システムアーキテクチャ１００は、データベースサーバー１０１、ネットワーク１０２およびサーバー１０３を含むことができる。ネットワーク１０２は、データベースサーバー１０１とサーバー１０３との間に通信リンクの媒体を提供するために使用される。ネットワーク１０２は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

データベースサーバー１０１は、ナレッジグラフを記憶し、ネットワーク１０２を介してナレッジグラフをサーバー１０３に提供することができる。

サーバー１０３は、様々なサービスを提供するものであってもよい。例えば、サーバー１０３は、データベースサーバー１０１から取得されたナレッジグラフなどのデータに対し分析などの処理を行い、処理結果（例えば展開トリプル）を生成することができる。

なお、サーバー１０３は、ハードウェアでもソフトウェアでもよい。サーバー１０３がハードウェアである場合、複数のサーバーからなる分散型サーバークラスターとして実現されてもよく、単一のサーバーとして実現されてもよい。サーバー１０３がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供する）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

なお、本発明の実施例によるデータ拡張の方法は、一般的にサーバー１０３によって実行され、これに対応して、データ拡張の装置は、一般的にサーバー１０３に配置されている。

図１のデータベースサーバー、ネットワーク、およびサーバーの数は単なる例示であることを理解すべきである。必要に応じて、任意の数のデータベースサーバー、ネットワーク、およびサーバーを備えることができる。サーバー１０３にナレッジグラフが記憶された場合、システムアーキテクチャ１００には、データベースサーバー１０１およびネットワーク１０２を設けなくてもよい。

続けて図２を参照すると、本発明によるデータ拡張の方法の一実施例のフロー２００が示されている。当該データ拡張の方法は、以下のステップを含む。

ステップ２０１において、ナレッジグラフからトリプルを取得する。

本実施例において、データ拡張の方法の実行主体（例えば図１に示されたサーバー１０３）は、ナレッジグラフからトリプルを取得することができる。ここで取得されたトリプルは、ナレッジグラフにおける任意のトリプルであることができる。

通常、ナレッジグラフは、世界の現実的なナレッジを説明する有向グラフ構造のナレッジベースであり、その基本的な構成は、トリプル（Ｓ、Ｐ、Ｏ）である。ここで、ＳおよびＯは、ナレッジグラフにおけるノードであり、エンティティを表す。Ｓは、具体的にサブジェクトを表し、Ｏは、具体的にオブジェクトを表す。Ｐは、ナレッジグラフにおける２つのエンティティ（ＳとＯ）を結ぶエッジであり、２つのエンティティ間の関係を表す。例えば、トリプル（Ａ、娘、Ｂ）に対して、Ａはサブジェクトであり、Ｂはオブジェクトであり、娘はＡとＢとの間の関係であり、ＢがＡの娘であることを表す。

ステップ２０２において、ナレッジグラフからトリプルにおける関係と等価な関係パスをマイニングする。

本実施例において、上記実行主体は、ナレッジグラフからトリプルにおける関係と等価な関係パスをマイニングすることができる。ここで、関係パスは、ナレッジグラフにおける少なくとも１つのエッジで接続されたパスであってもよく、且つ関係パスは、トリプルのうちのサブジェクトおよびオブジェクトをそれぞれ始点及び終点とする。

通常、関係パスは、様々なマイニングツールによってマイニングされることができる。例えば、統計共起に基づくルールマイニングツールａｍｉｅＰｌｕｓが挙げられる。そのマイニングプロセスは、以下の通りである。まず、ナレッジグラフからトリプル（Ｓ、Ｐ、Ｏ）におけるサブジェクトおよびオブジェクトと統計共起する他のトリプルシーケンスをマイニングし、次に、他のトリプルシーケンスにおける関係を順序的に組み合わせることにより、関係パスｐａｔｈを生成する。ここで、他のトリプルシーケンスにおける関係に対応するエッジは、端と端とがつながり、且つ他のトリプルシーケンスにおける最初の他のトリプルのうちのエンティティは、トリプル（Ｓ、Ｐ、Ｏ）のうちのサブジェクトＳを含み、最後の他のトリプルのうちのエンティティは、トリプル（Ｓ、Ｐ、Ｏ）のうちのオブジェクトＯを含む。例えば、ナレッジグラフには、（Ａ、娘、Ｂ）、（Ｂ、母、Ｃ）、（Ｃ、夫、Ａ）の複数のトリプルがある。ここで、（Ａ、娘、Ｂ）は、ＢがＡの娘であることを表し、（Ｂ、母、Ｃ）は、ＣがＢの母であることを表し、（Ｃ、夫、Ａ）は、ＡがＣの夫であることを表す。トリプル（Ａ、娘、Ｂ）に対して、ＡおよびＢと統計共起するトリプルシーケンスは、（Ｃ、夫、Ａ）→（Ｂ、母、Ｃ）であり、関係「娘」と関係パスは、「夫^-1→母^-1」と等価である。ここで、上付き文字「^-1」が付いている関係の方向は、上付き文字「^-1」が付いていない関係の方向と反対である。

ステップ２０３において、関係パスに基づいてトリプルを展開することにより、展開トリプルを生成する。

本実施例において、上記実行主体は、関係パスに基づいてトリプルを展開することにより、展開トリプルを生成することができる。通常、展開トリプルは、トリプルのうちの少なくとも１つのエンティティと同じである。例えば、展開トリプルは、トリプルのうちのサブジェクトと同じである。

本実施例のいくつかの選択可能な実施形態において、上記実行主体は、関係パスｐａｔｈを利用してトリプル（Ｓ、Ｐ、Ｏ）における関係Ｐを置き換えることにより、展開トリプル（Ｓ、ｐａｔｈ、Ｏ）を生成することができる。例えば、関係パス「夫^-1→母^-1」を利用してトリプル（Ａ、娘、Ｂ）における関係「娘」を置き換えることにより、展開トリプル（Ａ、夫^-1→母^-1、Ｂ）を生成する。

本実施例のいくつかの選択可能な実施形態において、上記実行主体は、まず、トリプル（Ｓ、Ｐ、Ｏ）のうちのサブジェクトＳを起点として関係パスｐａｔｈを巡回することにより、トリプル（Ｓ、Ｐ、Ｏ）のうちのオブジェクトＯと異なる他のオブジェクトＯ’を得て、次に、関係パスｐａｔｈを利用してトリプル（Ｓ、Ｐ、Ｏ）における関係Ｐを置き換え、且つ他のオブジェクトＯ’を利用してトリプル（Ｓ、Ｐ、Ｏ）のうちのオブジェクトＯを置き換えることにより、展開トリプル（Ｓ、ｐａｔｈ、Ｏ’）を生成する。例えば、ナレッジグラフにはトリプル（Ａ、娘、Ｅ）、（Ｅ、母、Ｃ）も存在する。トリプル（Ａ、娘、Ｂ）のうちのサブジェクトＡを起点として関係パス「夫^-1→母^-1」を巡回する場合、トリプル（Ａ、娘、Ｂ）のうちのオブジェクトＢと異なる他のオブジェクトＥを得ることもできる。関係パス「夫^-1→母^-1」を利用してトリプル（Ａ、娘、Ｂ）における関係「娘」を置き換えると同時に、オブジェクトを利用してトリプル（Ａ、娘、Ｂ）のうちのオブジェクトＢを置き換えることにより、展開トリプル（Ａ、夫^-1→母^-1、Ｅ）を生成する。

理解を容易にするために、以下、本発明の実施例のデータ拡張の方法を実現することができるシーンを提供する。図３に示すように、ナレッジグラフには、（Ａ、娘、Ｂ）、（Ｂ、母、Ｃ）、（Ｃ、夫、Ａ）、（Ｄ、国王、Ａ）、（Ｄ、皇后、Ｃ）の複数のトリプルがある。ここで、（Ａ、娘、Ｂ）は、ＢがＡの娘であることを表し、（Ｂ、母、Ｃ）は、ＣがＢの母であることを表し、（Ｃ、夫、Ａ）は、ＡがＣの夫であることを表し、（Ｄ、国王、Ａ）は、ＡがＤの国王であることを表し、（Ｄ、皇后、Ｃ）は、ＣがＤの皇后であることを表す。トリプル（Ｃ、夫、Ａ）に対して、関係「夫」と関係パスは、「母^-1→娘^-1」と等価であり、トリプル（Ｃ、夫、Ａ）に対応する展開トリプルは、（Ｃ、母^-1→娘^-1、Ａ）である。トリプル（Ｄ、皇后、Ｃ）に対して、関係「皇后」と関係パスは、「国王→夫^-1」と等価であり、トリプル（Ｄ、皇后、Ｃ）に対応する展開トリプルは、（Ｄ、国王→夫^-1、Ｃ）である。トリプル（Ｂ、母、Ｃ）に対して、関係「母」と関係パスは、「娘^-1」と等価であり、トリプル（Ｂ、母、Ｃ）に対応する展開トリプルは、（Ｂ、娘^-1、Ｃ）である。ここで、上付き文字「^-1」が付いている関係の方向は、上付き文字「^-1」が付いていない関係の方向と反対である。

さらに図４を参照すると、本発明によるデータ拡張の方法の別の実施例のフロー４００が示されている。当該データ拡張の方法は、以下のステップを含む。

ステップ４０１において、ナレッジグラフからトリプルを取得する。

ステップ４０２において、ナレッジグラフからトリプルにおける関係と等価な関係パスをマイニングする。

ステップ４０３において、関係パスに基づいてトリプルを展開することにより、展開トリプルを生成する。

本実施例において、ステップ４０１〜４０３の具体的な動作は、図２に示された実施例のステップ２０１〜２０３において詳細に説明され、ここで説明を省略する。

ステップ４０４において、トリプルと展開トリプルをそれぞれ訓練サンプルとして、訓練サンプルセットに追加する。

本実施例において、データ拡張の方法の実行主体（例えば図１に示されたサーバー１０３）は、ナレッジグラフにおける大部分のトリプルと対応する展開トリプルをそれぞれ訓練サンプルとして、訓練サンプルセットに追加することができる。ここで、トリプルは訓練サンプルであり、拡張トリプルも訓練サンプルである。従来技術ではナレッジグラフにおけるトリプルのみを訓練サンプルとするのに対し、訓練サンプルセットの内容を豊かにする。ちなみに、拡張トリプルも訓練サンプルとすることにより、訓練サンプルセットにおける関係パスと関係との対応関係が強化され、訓練サンプルにおけるサブジェクトとオブジェクトとの間の関連付けをより大域的になるようにする。

ステップ４０５において、訓練サンプルセットにおける訓練サンプルについて、サブジェクトまたはオブジェクトが欠落している当該訓練サンプルを入力として、欠落しているサブジェクトまたはオブジェクトを出力として、訓練を監督することにより、予測モデルを得る。

本実施例において、上記実行主体は、トリプルと拡張トリプルの両方を含む訓練サンプルセットを利用して訓練待ちのモデルに対して訓練を監督することにより、予測モデルを得る。具体的に、訓練サンプルセットにおける訓練サンプルについて、上記実行主体は、訓練サンプルセットにおける訓練サンプルについて、サブジェクトまたはオブジェクトが欠落している当該訓練サンプルを入力として、欠落しているサブジェクトまたはオブジェクトを出力として、訓練待ちのモデルに対して訓練を監督することにより、予測モデルを得る。例えば、訓練サンプルセットにおける（Ｓ、Ｐ、Ｏ）と拡張トリプル（Ｓ、ｐａｔｈ、Ｏ）、（Ｓ、ｐａｔｈ、Ｏ’）について、（Ｓ、Ｐ、？）を入力とし、Ｏを出力とし、（Ｓ、ｐａｔｈ、？）を入力とし、ＯまたはＯ’を出力とし、（？、Ｐ、Ｏ）、（？、ｐａｔｈ、Ｏ）および（？、ｐａｔｈ、Ｏ’）を入力とし、Ｓを出力とし、訓練待ちのモデルに対して訓練を監督することにより、予測モデルを得る。ここで、訓練待ちのモデルは、例えばｐａｔｈＲＮＮモデル、ＣｏｍｐＴａｎｓＥモデルなどの様々な関係をサポートするシーケンスデータの任意のモデルであってもよい。

トリプルと拡張トリプルを利用して予測モデルを訓練することにより、予測モデルが表現学習を行う際に学習した関係と関係パスとの間の対応関係、及びより大きなコンテキストにおける遠いサブジェクトＳとオブジェクトＯ’との間の関連関係が強化される。

ステップ４０６において、予測トリプルを取得する。

本実施例において、上記実行主体は、予測トリプルを取得することができる。ここで、予測トリプルは、サブジェクトまたはオブジェクトが欠落し、例えば（Ｓ、Ｐ、？）または（？、Ｐ、Ｏ）が挙げられている。予測トリプルは、ナレッジグラフにおけるごく一部のトリプルであってもよい。通常、予測トリプルは、訓練サンプルセットにおけるトリプルと異なる。

ステップ４０７において、ナレッジグラフに基づいて、予測トリプルに対応する予測展開トリプルを確定する。

本実施例において、上記実行主体は、ナレッジグラフに基づいて、予測トリプルに対応する予測展開トリプルを確定することができる。通常、予測展開トリプルは、データ拡張の方法により予測トリプルを展開することで取得されることもできる。例えば、予測トリプル（Ｓ、Ｐ、？）または（？、Ｐ、Ｏ）について、その対応する予測展開トリプルは、（Ｓ、ｐａｔｈ、？）または（？、ｐａｔｈ、Ｏ）であってもよい。

ステップ４０８において、予測トリプルと予測展開トリプルをそれぞれ予測モデルに入力することにより、予測トリプルと予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度を得る。

本実施例において、上記実行主体は、予測トリプルと予測展開トリプルをそれぞれ予測モデルに入力することにより、予測トリプルと予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度を得ることができる。通常、予測トリプルを予測モデルに入力することにより、予測トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度を出力することができる。即ち、予測トリプルに欠落したサブジェクトまたはオブジェクトが各エンティティに属する信頼度である。同様に、予測展開トリプルを予測モデルに入力することにより、予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度を出力することができる。即ち、予測展開トリプルに欠落したサブジェクトまたはオブジェクトが各エンティティに属する信頼度である。

ステップ４０９において、予測トリプルと予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度の平均値を計算し、予測トリプルの欠落しているサブジェクトまたはオブジェクトを確定する。

本実施例において、上記実行主体は、予測トリプルと予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度の平均値を計算し、予測トリプルの欠落しているサブジェクトまたはオブジェクトを確定することができる。通常、上記実行主体は、予測トリプルと予測展開トリプルに欠落したサブジェクトまたはオブジェクトが各エンティティに属する平均信頼度を計算することにより、欠落したサブジェクトまたはオブジェクトを確定することができる。

予測モデルの訓練と予測の両方にナレッジグラフによって拡張されたデータセットを使用する。従来の技術では、単一のトリプル（Ｓ、Ｐ、Ｏ）粒度のモデルに基づいて訓練し、判別関数ｆ（Ｓ、Ｐ、Ｏ）を最適化することだけを目標として、（Ｓ、Ｐ、Ｏ）が成立している事実（ｆ（Ｓ、Ｐ、Ｏ）＝１）であるか、成立していない事実（ｆ（Ｓ、Ｐ、Ｏ）＝０）であるかをモデルに判断させることができることに比べて、予測モデルの分類結果をより解釈可能にすることで、関係パスを介してトリプルが成立するかどうかをテストする推論の中間論理の解釈を容易にすることができる。例えば、拡張された訓練サンプルセットを利用して訓練された予測モデルは、トリプル（Ｓ、Ｐ、Ｏ）が成立しているかどうかを判断するだけでなく、トリプル（Ｓ、Ｐ、Ｏ）における関係Ｐに対応する関係パスｐａｔｈに基づいて、トリプル（Ｓ、Ｐ、Ｏ）を解釈することができる。

予測モデルの訓練と予測の際に、離散記号で表されたトリプルまたは展開トリプルを入力するとき、予測モデルは、入力されたエンティティと関係を連続ベクトルに変換して、ナレッジグラフ表現を得ることができる。予測モデルは、まず、エンティティに対応する連続ベクトルと関係に対応する連続ベクトルに基づいて、欠落したエンティティの連続ベクトルを予測し、次に、予測された欠落したエンティティの連続ベクトルに基づいて、欠落したエンティティを確定する。ここで、ナレッジグラフ表現は、ナレッジグラフにおける離散記号のエンティティと関係を連続ベクトルの形で表現するものである。連続ベクトルは、ナレッジグラフにおけるエンティティの構造上のキー情報を保持することができる一方、下流のアプリケーションタスクによる知識の利用に便利であることを示している。現在、情報抽出、問答、読解などの任務において、ナレッジグラフは、ベクトルの形で適用され、役割を果たしている。展開トリプルを用いて訓練サンプルセットを拡張することで、ナレッジグラフ表現学習の効果を向上させ、予測モデルによるナレッジグラフの利用に有利である。

図４から分かるように、図２に対応する実施例と比較して、本実施例におけるデータ拡張の方法のフロー４００には、モデルを訓練するステップ及びモデルを予測するステップを追加する。したがって、本実施例で説明された技術案では、第１の態様において、展開トリプルを用いて訓練サンプルセットを拡張することで、訓練サンプルセットにおける内容を豊かにする。ちなみに、拡張トリプルも訓練サンプルとすることにより、訓練サンプルセットにおける関係パスと関係との対応関係が強化され、訓練サンプルにおけるサブジェクトとオブジェクトとの間の関連付けをより大域的になるようにする。第２の態様において、拡張された訓練サンプルセットを用いて予測モデルを訓練することで、予測モデルが表現学習を行う際に学習した関係と関係パスとの間の対応関係が強化され、複数の関係間の相関が強くなり、この結果、予測モデルの効果を向上させる。第３の態様において、モデルテストの際に、トリプルをテストすることに対し対応する関係パスを展開し、分類結果の計算に一緒に参加して、予測モデルの分類結果をより解釈可能にすることで、関係パスを介してトリプルが成立するかどうかをテストする推論の中間論理の解釈を容易にする。

さらに図５を参照して、上記の各図に示された方法の実現として、本開示はデータ拡張の装置の一実施例を提供し、当該装置の実施例は、図２に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。

図５に示すように、本実施例に係るデータ拡張の装置５００は、第１の取得モジュール５０１と、マイニングモジュール５０２と、展開モジュール５０３とを含む。ここで、第１の取得モジュール５０１は、ナレッジグラフからトリプルを取得するように構成される。マイニングモジュール５０２は、ナレッジグラフからトリプルにおける関係と等価な関係パスをマイニングするように構成され、ここで、関係パスは、トリプルのうちのサブジェクトおよびオブジェクトをそれぞれ始点及び終点とする。展開モジュール５０３は、関係パスに基づいてトリプルを展開することにより、展開トリプルを生成するように構成される。

本実施例において、データ拡張の装置５００において、第１の取得モジュール５０１、マイニングモジュール５０２、及び展開モジュール５０３の具体的な処理およびそれによる技術的効果について、図２の対応する実施例におけるステップ２０１〜２０３の関連説明をそれぞれ参照することができ、ここでは説明を省略する。

本実施例のいくつかの選択可能な実施形態において、マイニングモジュール５０２は、さらに、ナレッジグラフから、トリプルのうちのサブジェクトおよびオブジェクトと統計共起する他のトリプルシーケンスをマイニングし、他のトリプルシーケンスにおける関係を順序的に組み合わせることにより、関係パスを生成するように構成される。

本実施例のいくつかの選択可能な実施形態において、展開モジュール５０３は、さらに、関係パスを利用してトリプルにおける関係を置き換えることにより、展開トリプルを生成するように構成される。

本実施例のいくつかの選択可能な実施形態において、展開モジュール５０３は、さらに、トリプルのうちのサブジェクトを起点として関係パスを巡回することにより、トリプルのうちのオブジェクトと異なる他のオブジェクトを得て、関係パスを利用してトリプルにおける関係を置き換え、且つ他のオブジェクトを利用してトリプルのうちのオブジェクトを置き換えることにより、展開トリプルを生成するように構成される。

本実施例のいくつかの選択可能な実施形態において、データ拡張の装置５００は、トリプルと展開トリプルをそれぞれ訓練サンプルとして、訓練サンプルセットに追加するように構成される追加モジュール（図示せず）と、訓練サンプルセットにおける訓練サンプルについて、サブジェクトまたはオブジェクトが欠落している当該訓練サンプルを入力として、欠落しているサブジェクトまたはオブジェクトを出力として、訓練を監督することにより、予測モデルを得るように構成される訓練モジュール（図示せず）と、をさらに含む。

本実施例のいくつかの選択可能な実施形態において、データ拡張の装置５００は、予測トリプルを取得するように構成され、ここで、予測トリプルは、サブジェクトまたはオブジェクトが欠落している第２の取得モジュール（図示せず）と、ナレッジグラフに基づいて、予測トリプルに対応する予測展開トリプルを確定するように構成される確定モジュール（図示せず）と、予測トリプルと予測展開トリプルをそれぞれ予測モデルに入力することにより、予測トリプルと予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度を得るように構成される予測モジュール（図示せず）と、予測トリプルと予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度の平均値を計算し、予測トリプルの欠落しているサブジェクトまたはオブジェクトを確定するように構成される計算モジュール（図示せず）と、をさらに含む。

本発明の実施例によると、本発明は、電子機器及び可読記憶媒体をさらに提供する。

図６に示すように、本発明の実施例のデータ拡張の方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバー、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の類似のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すこともできる。本明細書に示された部品、それらの接続および関係、およびそれらの機能は、単なる例にすぎ、本明細書で説明されおよび/または要求されている本発明の実現を制限することを意図しない。

図６に示すように、当該電子機器は、少なくとも１つのプロセッサ６０１と、メモリ６０２と、高速インターフェースと低速インターフェースを含む各部品を接続するためのインターフェースとを含む。各部品は、異なるバスを利用して互いに接続され、共通マザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、ＧＵＩのグラフィカル情報を外部入力／出力装置（例えば、インタフェースにカップリングされた表示装置）に表示するためのメモリ内またはメモリ上に記憶された命令を含む、電子機器内で実行された指令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子機器を接続してもよく、各機器は、部分的に必要な動作（例えば、サーバアレイ、１組のブレードサーバ、またはマルチプロセッサシステムとして）を提供する。図６では、１つのプロセッサ６０１を例にとる。

メモリ６０２は、本発明による非一時的コンピュータ可読記憶媒体である。ここで、前記メモリは、少なくとも１つのプロセッサによって実行され得る指令を記憶することにより、本発明によるデータ拡張の方法を前記少なくとも１つのプロセッサに実行させる。本発明の非一時的コンピュータ可読記憶媒体は、コンピュータ指令を記憶し、当該コンピュータ指令は、本発明によるデータ拡張の方法をコンピュータに実行させるために使用される。

メモリ６０２は、非一時的コンピュータ可読記憶媒体として、本発明の実施例におけるデータ拡張の方法に対応するプログラム指令／モジュール（例えば、図５に示された第１の取得モジュール５０１、マイニングモジュール５０２、及び展開モジュール５０３）のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、およびモジュールを記憶するために使用されることができる。プロセッサ６０１は、メモリ６０２に記憶された非一時的ソフトウェアプログラム、指令およびモジュールを実行することにより、サーバーの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上述した方法の実施例におけるデータ拡張の方法が実現される。

メモリ６０２は、プログラム記憶領域およびデータ記憶領域を含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、データ拡張の方法による電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ６０２は、高速ランダムアクセスメモリを含むことができ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的固体記憶装置などの非一時的メモリを含むこともできる。いくつかの実施例では、選択肢の一つとして、メモリ６０２は、プロセッサ６０１に対して遠隔的に配置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してデータ拡張の方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。

データ拡張の方法の電子機器は、入力装置６０３および出力装置６０４をさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３および出力装置６０４は、バスまたは他の方法で接続されることができ、図６では、バスで接続されることを例にとる。

入力装置６０３は、入力された数字または文字メッセージを受信し、データ拡張の方法の電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置６０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施例では、表示装置は、タッチスクリーンであってもよい。

ここで説明されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせにおいて実現されることができる。これらの様々な実施形態は、以下の内容を含むことができ、即ち、１つ以上のコンピュータプログラムに実施され、当該１つ以上のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび指令を受信し、且つデータおよび指令を当該記憶システム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に送信することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれ）は、プログラマブルプロセッサのマシン指令を含み、高度なプロセスおよび／またはオブジェクトに向けたプログラミング言語、および／またはアセンブリ／マシン言語を利用してこれらの計算プログラムを実行することができる。本明細書で使用されたような用語「機械可読媒体」および「コンピュータ可読媒体」とは、機械指令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械可読信号である機械指令を受信する機械可読媒体を含む。用語「機械可読信号」とは、機械指令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクティブを提供するために、ここで説明されたシステムおよび技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）を備え、ユーザーは、当該キーボードおよび当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するために使用されることもできる。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形態（声入力、音声入力、または触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステムおよび技術を、バックグラウンド部品を含む計算システム（例えば、データサーバー）、またはミドルウエア部品を含む計算システム（例えば、アプリケーションサーバー）、またはフロントエンド部品を含む計算システム（例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザーは、当該グラフィカルユーザインタフェースまたは当該ネットワークブラウザを介してここで説明されたシステムおよび技術の実施形態とインタラクティブすることができ）、またはこのようなバックグラウンド部品、ミドルウエア部品、またはフロントエンド部品の任意の組合せを含む計算システム上で実施することができる。システムの部品は、任意の形態またはメディアのデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントとサーバーとを含むことができる。クライアントとサーバーは、一般に互いに離れ、通常は通信ネットワークを介してインタラクティブする。クライアントとサーバーとの関係は、対応するコンピュータ上で実行され、且つ互いにクライアントーサーバー関係を有するコンピュータプログラムによって生成される。

本発明の技術案によると、まず、ナレッジグラフからトリプルを取得し、次に、ナレッジグラフからトリプルにおける関係と等価な関係パスをマイニングし、最後に、関係パスに基づいてトリプルを展開することにより、展開トリプルを生成する。ナレッジグラフにおけるトリプルに対する拡張を実現し、トリプルのうちのサブジェクトおよびオブジェクトのより大きな文脈における関連付けを強化し、トリプルのうちのサブジェクトとオブジェクトとの間の関連付けをより大域的になるようにする。

以上で示された様々な形態のフローを用いて、ステップを並べ替え、追加、または削除できることを理解すべきである。例えば、本発明に記載された各ステップは、並列的に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望の結果が達成される限り、本明細書では制限しない。

上記具体的な実施形態は、本発明の保護範囲に対する制限を構成するものではない。当業者は、設計要件とその他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、および代替を行うことが可能であることを理解すべきである。本発明の精神及び原則内でなされたいかなる修正、均等置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims

ナレッジグラフからトリプルを取得することと、
前記ナレッジグラフから前記トリプルにおける関係と等価な関係パスをマイニングし、ここで、前記関係パスは、前記トリプルのうちのサブジェクトおよびオブジェクトをそれぞれ始点及び終点とすることと、
前記関係パスに基づいて前記トリプルを展開することにより、展開トリプルを生成することと、
を含む、
データ拡張の方法。
前記前記ナレッジグラフから前記トリプルにおける関係と等価な関係パスをマイニングすることは、
前記ナレッジグラフから、前記トリプルのうちのサブジェクトおよびオブジェクトと統計共起する他のトリプルシーケンスをマイニングすることと、
前記他のトリプルシーケンスにおける関係を順序的に組み合わせることにより、前記関係パスを生成することと、
を含む、
請求項１に記載の方法。
前記前記関係パスに基づいて前記トリプルを展開することにより、展開トリプルを生成することは、
前記関係パスを利用して前記トリプルにおける関係を置き換えることにより、前記展開トリプルを生成することを含む、
請求項１に記載の方法。
前記前記関係パスに基づいて前記トリプルを展開することにより、展開トリプルを生成することは、
前記トリプルのうちのサブジェクトを起点として前記関係パスを巡回することにより、前記トリプルのうちのオブジェクトと異なる他のオブジェクトを得ることと、
前記関係パスを利用して前記トリプルにおける関係を置き換え、且つ前記他のオブジェクトを利用して前記トリプルのうちのオブジェクトを置き換えることにより、前記展開トリプルを生成することと、
を含む、
請求項１に記載の方法。
前記トリプルと前記展開トリプルをそれぞれ訓練サンプルとして、訓練サンプルセットに追加することと、
前記訓練サンプルセットにおける訓練サンプルについて、サブジェクトまたはオブジェクトが欠落している当該訓練サンプルを入力として、欠落しているサブジェクトまたはオブジェクトを出力として、訓練を監督することにより、予測モデルを得ることと、
をさらに含む、
請求項１から４のいずれか１項に記載の方法。
予測トリプルを取得し、ここで、前記予測トリプルは、サブジェクトまたはオブジェクトが欠落していることと、
前記ナレッジグラフに基づいて、前記予測トリプルに対応する予測展開トリプルを確定することと、
前記予測トリプルと前記予測展開トリプルをそれぞれ前記予測モデルに入力することにより、前記予測トリプルと前記予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度を得ることと、
前記予測トリプルと前記予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度の平均値を計算し、前記予測トリプルの欠落しているサブジェクトまたはオブジェクトを確定することと、
をさらに含む、
請求項５に記載の方法。
ナレッジグラフからトリプルを取得するように構成される第１の取得モジュールと、
前記ナレッジグラフから前記トリプルにおける関係と等価な関係パスをマイニングするように構成され、ここで、前記関係パスは、前記トリプルのうちのサブジェクトおよびオブジェクトをそれぞれ始点及び終点とするマイニングモジュールと、
前記関係パスに基づいて前記トリプルを展開することにより、展開トリプルを生成するように構成される展開モジュールと、
を含む、
データ拡張の装置。
前記マイニングモジュールは、さらに、
前記ナレッジグラフから、前記トリプルのうちのサブジェクトおよびオブジェクトと統計共起する他のトリプルシーケンスをマイニングし、
前記他のトリプルシーケンスにおける関係を順序的に組み合わせることにより、前記関係パスを生成するように構成される、
請求項７に記載の装置。
前記展開モジュールは、さらに、
前記関係パスを利用して前記トリプルにおける関係を置き換えることにより、前記展開トリプルを生成するように構成される、
請求項７に記載の装置。
前記展開モジュールは、さらに、
前記トリプルのうちのサブジェクトを起点として前記関係パスを巡回することにより、前記トリプルのうちのオブジェクトと異なる他のオブジェクトを得て、
前記関係パスを利用して前記トリプルにおける関係を置き換え、且つ前記他のオブジェクトを利用して前記トリプルのうちのオブジェクトを置き換えることにより、前記展開トリプルを生成するように構成される、
請求項７に記載の装置。
前記トリプルと前記展開トリプルをそれぞれ訓練サンプルとして、訓練サンプルセットに追加するように構成される追加モジュールと、
前記訓練サンプルセットにおける訓練サンプルについて、サブジェクトまたはオブジェクトが欠落している当該訓練サンプルを入力として、欠落しているサブジェクトまたはオブジェクトを出力として、訓練を監督することにより、予測モデルを得るように構成される訓練モジュールと、
をさらに含む、
請求項７から１０のいずれか１項に記載の装置。
予測トリプルを取得するように構成され、ここで、前記予測トリプルは、サブジェクトまたはオブジェクトが欠落している第２の取得モジュールと、
前記ナレッジグラフに基づいて、前記予測トリプルに対応する予測展開トリプルを確定するように構成される確定モジュールと、
前記予測トリプルと前記予測展開トリプルをそれぞれ前記予測モデルに入力することにより、前記予測トリプルと前記予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度を得るように構成される予測モジュールと、
前記予測トリプルと前記予測展開トリプルに対応する予測サブジェクトまたはオブジェクトの信頼度の平均値を計算し、前記予測トリプルの欠落しているサブジェクトまたはオブジェクトを確定するように構成される計算モジュールと、
をさらに含む、
請求項１１に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリと、
を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも１つのプロセッサによって実行されることにより、請求項１から６のいずれか１項に記載の方法を前記少なくとも１つのプロセッサに実行させる、
電子機器。
コンピュータ指令が記憶された非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は、請求項１から６のいずれか１項に記載の方法を前記コンピュータに実行させるために使用される、
非一時的コンピュータ可読記憶媒体。
コンピュータプログラムであって、
プロセッサにより実行されると、請求項１から６のいずれか１項に記載の方法を前記コンピュータに実行させる、コンピュータプログラム。