JP2020064626A

JP2020064626A - 生体エンティティの特性を推測するコンピュータにより実施される方法及び機器

Info

Publication number: JP2020064626A
Application number: JP2019186293A
Authority: JP
Inventors: 豊光石; Yutaka Mitsuishi; ノヴァチェク・ヴィート; Novacek Vit; ヴァンデンブッシェ・ピエール−イヴ; Vandenbussche Pierre-Yves
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-10-18
Filing date: 2019-10-09
Publication date: 2020-04-23
Anticipated expiration: 2039-10-09
Also published as: EP3640864A1; JP7400319B2

Abstract

【課題】生体エンティティの特性を推測する方法を提供する。【解決手段】頂点及びエッジの形式の異なるアリティを有する生体エンティティに関連する知識グラフを入力する。知識グラフのうちの少なくとも１つは有向性又はラベル付きである。知識グラフの各々をユニークなエッジ識別子のリストとしてハイパーエッジ表現に変換する。エッジ識別子の各々はソース及びターゲット頂点を有する。頂点はエッジにより無方向接続され、ラベルはエッジに関連付けられ、ハイパーエッジ表現を２部グラフに変換する。２部グラフは一方のセットの中に頂点及びラベルを有し、他方のセットの中にエッジを有し、頂点及びラベルはハイパーエッジ表現のとおりにエッジにリンクされる。２部グラフをサンプリングして、２部グラフを、頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、特徴行列を用いて、結合知識グラフの中の生体エンティティの特性を推定する。【選択図】図１

Description

本発明の技術分野は、知識グラフの分析（ノイズの多い不完全な知識の大規模ロバスト表現のためのグラフに基づく手段）である。特定の適用は、タンパク質及びタンパク質相互作用、特に人間及び動物のタンパク質のような生物学又は生物医学的エンティティの説明である。ますます膨大な量の人間の知識が機械可読グラフデータセットとして表現されている。グラフ表現は、現実の知識の便利な且つロバストなモデル化を可能にするが、データ表現の関係型及び多変数の特性に立ち向かう必要のような、特定の計算上の課題をもたらす。大部分の有望な近年のアプローチのうちの１つは、知識グラフ埋め込み-知識グラフエンティティ及び／又は関係の低ランク連続ベクトル表現を計算することであり、これは、広範な知識発見技術の効率的実装のためのプロキシとして使用されてよい。埋め込み（Embeddings）は、グラフトラバースにより生成されてよく、知識グラフ慣性又はパターン発見のようなタスクにおいて効率的な計算を促進し得る。

知識グラフの埋め込みを計算する特定の方法は、つい最近に研究され始めたばかりであり、依然として多くの改良の余地がある。知識グラフ埋め込みの緊急の分野において幾つかの課題がある。近年、２つより多くのノード（ここでは頂点とも呼ばれる）及び該ノードの間のそれらの間の関係／リンクの混合方向性（幾つかは有向関係であり、幾つかは無向関係である）を含み得る、関係／関連（グラフ内のエッジ）を有する知識グラフが、利用可能になっている。従来の埋め込み技術は、このようなグラフを効率的に管理できない。

生物情報学では、この問題は特に存在感がある。例えば、タンパク質相互作用（２つのノードのみを接続する無向性２項関係）を表すデータベースと一緒に、経路のコンテキスト内にタンパク質相互作用の指示を有する幾つかのより複雑な経路データベースを置く（２つのタンパク質及びコンテキスト独立変数としてそれらの関係をラベル付けする経路を含む３項関係）。同様に、遺伝的病気（遺伝子と病気とを接続する有向２項関係）のような他のデータベースは、生物医学文献から抽出された来歴（provenance、起源、出所）との共起関係により並置される（科学出版物のコンテキストの中の２つの遺伝子又は１つの遺伝子、及び病気を含む３項無向関係）。この異種（混合アリティ及び混合方向性）情報から知識グラフ埋め込みを計算することが主な課題である。

本発明の第１の態様の実施形態によると、生体エンティティの特性を推測する、コンピュータにより実施される方法であって、頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する２以上の知識グラフを入力するステップであって、前記知識グラフのうちの少なくとも１つは有向であり、前記知識グラフのうちの少なくとも１つはラベル付きである、ステップと、前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点（vertices）を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられる、ステップと、前記ハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされる、ステップと、前記２部グラフをサンプリングして、前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込むステップと、前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中の生体エンティティの特性を推定するステップと、を含む方法が提供される。

用語「生体エンティティ」は、本願明細書において、物理的生体エンティティ及びそれらの状態、及びモジュレータをカバーするために使用される。それらは、生体分子、細胞、ウイルス、有機的組織体、病状、調合薬、等のようなサブグループに分けられてよい。

分子に関し、実施形態は、例えば、物理的生成物のような「変異DNA分子」に、又は抽象概念若しくはDNA分子の特性として「変異株」に関連してよい。

生体分子は、例えば、以下を含んでよい：
・核酸(DNA,RNAを含む)
・アミノ酸
・ポリペプチド
・タンパク質（アミノ酸の連鎖である１つ以上のポリペプチドからなる）
有機的組織体は以下を含んでよい：
・バクテリア
・植物
・動物
病状は以下を含んでよい：
・病気
・物理的傷
・生理的状態（妊娠、等）
調合薬は、任意の種類の化学薬品又は背得仏学的薬物を含んでよい。

生体エンティティは、代替として、生体プロセスに関連する任意のものとして見られてよい。

生体エンティティはタンパク質であってよい。特にタンパク質及び特に人間のタンパク質は、多くの異なる知識グラフの中に現れる。それらは、本発明の実施形態で使用されるグラフの幾つか又は全部の中の頂点及び／又はエッジであってよい。実施形態に従い異なるグラフを結合することは、（代謝、遺伝子発現、又はシグナリング経路のような、同じ生体経路内における相互関係又は存在のような）タンパク質特性を推測するために使用され得るタンパク質相互作用に関する追加情報を提供する埋め込みの生成を可能にする。

一方の知識グラフ入力は、例えば、タンパク質相互作用データのような２項のみの関係を有する有向ラベルグラフであってよく、他方の知識グラフ入力は、経路データベースのような３項関係を有する混合有向／一方向ラベルグラフであってよい。

任意の適切な埋め込み方法が用いられてよい。したがって、グラフサンプラは、（任意の知られている方法を用いて）グラフをサンプリングし、頂点、ラベル、及びエッジの行列の形式での埋め込みの生成を可能にする。該埋め込みは、タンパク質のような生体エンティティの特性を推測するために使用される。

本発明の実施形態では、２部グラフをサンプリングするステップは、セットの間のリンクに沿って可能なシーケンスを提供するために、２部グラフをトラバースするステップを含む。２部グラフを埋め込むステップは、特徴行列の各セル内の行列エントリを形成する共起スコアにより、シーケンスから頂点、ラベル、及びエッジの特徴行列を生成するステップを含んでよい。この場合、特徴行列は、共起スコアに基づき知識グラフ内の生体エンティティの特性を推測するために使用されてよい。

（２以上の入力グラフの）ハイパーエッジ表現は、２部グラフへの変換の前に、同じ頂点と同じ名称を有する頂点を考慮することにより、結合されてよい。同じ頂点に対して代替名称が存在する場合、それらは、マッピングツールを用いてグループ化されてよい。

各エッジ識別子は、以下の形式を有してよい。

(e,S,T,U)^l
ここで、eはユニークなエッジ識別子であり、S、Tはそれぞれ前記エッジにより有向接続されるソース及びターゲット頂点のセットであり、Uは前記エッジにより無向接続される頂点のセットであり、lはエッジラベルである。

補助エッジAは、（元の入力グラフ内の）各頂点と該頂点が参加するエッジとの間に形成されてよく、２つの補助エッジを含む２つの頂点とエッジとの間の関係を有する。つまり、補助エッジ（これは、エッジが有向か否かに従い、有向又は無向であってよい）は、第１頂点及びエッジ、並びにエッジ及び第２頂点の間にある。

補助エッジは、エッジのラベルとエッジ自体の間に形成されてよい。本例では、補助エッジは有向である必要はない。

２部グラフのトラバースは、頂点又はエッジラベルと、ハイパーエッジ表現（補助エッジに沿って移動するが、シーケンス内に現れない）のエッジとの間で交互に現れるシーケンスを生成してよい。したがって、元のグラフのエッジ、エッジラベル、及び頂点は、２部グラフ内のエンティティ（頂点）になる。シーケンスは、任意の適切な最大長であってよい。

前記特徴行列は、例えば、前記シーケンスの中の２つのエンティティの間のシーケンスにおける距離を考慮して共起スコアを生成し、共起スコアを各シーケンスの前記特徴行列に加算することにより入力される。

この手順は、シーケンス内の最後ではない各点で開始するコンテキストウインドウを用いてよく、コンテキストシーケンスを与え、各開始点と前記コンテキストシーケンス内の後のエンティティとの間の前記共起スコアは、前記コンテキストシーケンス内の前記エンティティ間の距離を考慮して計算され、前記特徴行列に追加される。したがって、行列は、シーケンス毎に、累積的に構築されてよい。

最後のステップは、特徴行列から情報を推測するステップである。考慮されるタンパク質の特性は、２つ以上のタンパク質の類似性の計算により、例えば（２つのタンパク質についての特徴行列の表の）コサイン類似性を用いて、推測されてよい。

本発明の第２の態様の実施形態によると、生体エンティティの特性を推測する機器であって、メモリとプロセッサとを含み、前記プロセッサは、２部変換器と、グラフサンプラと、分布解析器と、を提供し、前記２部変換器は、頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する２以上の知識グラフを受信し、前記知識グラフのうちの少なくとも１つは有向であり、前記知識グラフのうちの少なくとも１つはラベル付きであり、前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられ、前記ハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされ、前記グラフサンプラは、前記２部グラフをサンプリングし、前記分布解析器は、前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、前記特徴行列をメモリに格納し、前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中の生体エンティティの特性を推定する、機器が提供される。

多くの実施形態で、生体エンティティはタンパク質であり、関係知識グラフは全て直接又は間接的にタンパク質に関連する。

読者は、上述のグラフ技術が、他の情報に等しく適用されてよく、生体エンティティ及び情報に限定されないことを理解する。入力グラフは、任意の形式の情報を表してよい。元のグラフの頂点又はエッジにより表現される任意のものの特性が推測されてよい。一般的意味で、アイテム、及びそれらの間の関係は、グラフ内で表現されてよく、該アイテム及び関係は、任意の種類：生体的、化学的、物理的、概念的、数学的、財務的、等であってよい。

より一般的な実施形態の態様によると、アイテムの特性を推測する、コンピュータにより実施される方法であって、頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する２以上の知識グラフを入力するステップであって、前記知識グラフのうちの少なくとも１つは有向であり、前記知識グラフのうちの少なくとも１つはラベル付きである、ステップと、前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられる、ステップと、前記ハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされる、ステップと、前記２部グラフをサンプリングして、前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込むステップと、前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中のアイテムの特性を推定するステップと、を含む方法が提供される。

さらに、更により一般的な実施形態の態様によると、アイテムの特性を推測する機器であって、メモリとプロセッサとを含み、前記プロセッサは、２部変換器と、グラフサンプラと、分布解析器と、を提供し、前記２部変換器は、頂点及びエッジの形式の、異なるアリティを有する、アイテムに関連する２以上の知識グラフを受信し、前記知識グラフのうちの少なくとも１つは有向であり、前記知識グラフのうちの少なくとも１つはラベル付きであり、前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられ、前記ハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされ、前記グラフサンプラは、前記２部グラフをサンプリングし、前記分布解析器は、前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、前記特徴行列をメモリに格納し、前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中のアイテムの特性を推定する、機器が提供される。

より一般的な実施形態の下位態様は、上述の生物学的実施形態の下位態様に対応する。

また、本発明の単一グラフの実施形態は、単一グラフが入力され処理され得る状況に関連する。このような実施形態は、ハイパーエッジ表現及び２部グラフへの変更を含むグラフ処理の利点を保持し、必ずしも１つより多くのグラフを入力する必要がない。グラフは、タンパク質のような生体エンティティ、又は他のアイテムに関連してよい。

この単一グラフの態様によると、アイテムの特性を推測する、コンピュータにより実施される方法であって、頂点及びエッジの形式のアイテムに関連する１つ以上の知識グラフを入力するステップと、前記１つ以上の知識グラフの各々を、ユニークなエッジ識別子のリストとして、１つ以上のハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点（vertices）を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられる、ステップと、前記１つ以上のハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記１つ以上のハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされる、ステップと、前記２部グラフをサンプリングして、前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込むステップと、前記特徴行列を用いて、前記行列エントリに基づき前記１つ以上の知識グラフの中のアイテムの特性を推定するステップと、を含む方法が提供される。

さらに、更なる単一グラフの実施形態の態様によると、アイテムの特性を推測する機器であって、メモリとプロセッサとを含み、前記プロセッサは、２部変換器と、グラフサンプラと、分布解析器と、を提供し、前記２部変換器は、頂点及びエッジの形式のアイテムに関連する１つ以上の知識グラフを受信し、前記１つ以上の知識グラフを、ユニークなエッジ識別子のリストとして、１つ以上のハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無向接続され、ラベルは前記エッジに関連付けられ、前記１つ以上のハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされ、前記グラフサンプラは、前記２部グラフをサンプリングし、前記分布解析器は、前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、前記特徴行列をメモリに格納し、前記特徴行列を用いて、前記行列エントリに基づき前記１つ以上の知識グラフの中の生体エンティティの特性を推定する、機器が提供される。

本発明の好適な実施形態による機器又はコンピュータプログラムは、方法の態様の任意の組合せを有してよい。同等に、上述の方法のうちの任意のものは、結合されてよい。更なる実施形態による方法又はコンピュータプログラムは、それらが処理及びメモリ容量を必要とする点で、コンピュータにより実施されるとして記載され得る。

好適な実施形態による機器は、特定の機能を実行するよう構成され又は配置される、又は単に実行するとして記載される。この構成又は配置は、ハードウェア又はミドルウェア又は任意の他の適切なシステムの使用による。好適な実施形態では、構成又は配置は、ソフトウェアによる。機器は、グラフの処理において実行される異なる機能の間を区別するために、２部変換器、グラフサンプラ、及び分布解析器に分けられてよい。

したがって、ある態様によると、少なくとも１つのコンピュータにロードされると、該コンピュータを、前述の機器定義のいずれか又はそれらの任意の組合せに従う機器になるよう構成する、プログラムが提供される。

更なる態様によると、少なくとも１つのコンピュータにロードされると、該少なくとも１つのコンピュータを、前述の方法の定義のいずれか又はそれらの任意の組合せに従う方法のステップを実行させるよう構成する、プログラムが提供される。

概して、コンピュータは、定められた機能を提供するよう構成される又は配置されるとして列挙された要素を有してよい。例えば、このコンピュータは、メモリ、処理、及び任意で知識グラフを受信するためにネットワークインタフェースを有してよい。

本発明は、デジタル電子回路で、又はコンピュータハードウェア、ファームウェア、ソフトウェア又はそれらの組合せで実装されてよい。本発明は、例えば１又は複数のハードウェアモジュールによる実行のための若しくはその動作の制御のための、コンピュータプログラム又はコンピュータプログラム製品、つまり非一時的情報担体に例えば機械可読記憶媒体に有形に若しくは伝搬信号に具現化されたコンピュータプログラムとして実施され得る。

コンピュータプログラムは、単独型プログラム、コンピュータプログラム部分又は１より多いコンピュータプログラムの形式であり、コンパイル済み若しくはインタープリット済み言語を含む任意の形式のプログラミング言語で記述されてよく、単独型プログラムとして又はモジュール、コンポーネント、サブルーチン若しくはデータ処理環境で使用するのに適切な他の単位を含む任意の形式で展開されてよい。コンピュータプログラムは、１つのモジュールで又は１箇所若しくは複数箇所に分散して置かれ通信ネットワークにより相互接続される複数のモジュールで実行されるよう配置されてよい。

本発明の方法のステップは、入力データに対して作用し出力を生成することにより本発明の機能を実行するためにコンピュータプログラムを実行する１又は複数のプログラマブルプロセッサにより実行されてよい。本発明の装置は、プログラミングされたハードウェアとして実装されてよく、又は特定目的論理回路、例えばFPGA（field programmable gate array）又はASIC（application-specific integrated circuit）を含み得る。

コンピュータプログラムの実行に適したプロセッサは、例えば、汎用及び特定目的プロセッサの両方、及び任意の種類のデジタルコンピュータの１又は複数のプロセッサを含む。概して、プロセッサは、命令及びデータを読み出し専用メモリ又はランダムアクセスメモリ又はそれらの両方から受信する。コンピュータの基本要素は、命令及びデータを格納する１又は複数のメモリ装置に結合され命令を実行するプロセッサである。

本発明は、特定の実施形態の観点から記載される。他の実施形態も添付の請求の範囲に包含される。例えば、本発明のステップは、異なる順序で実行されてよく、依然として所望の結果を達成する。

本発明の要素は、用語「プロセッサ」、「メモリ等を用いて記載される。当業者は、このような機能的用語及びそれらの等価物が、空間的に離れているが定められた機能を提供するために結合するシステムの部分を表し得ることを理解する。同様に、システムの同じ物理的部分は、２以上の定められた機能を提供してよい。例えば、別個に定められた機能は、適切な場合には同じメモリ及び／又はプロセッサを用いて実装されてよい。

本発明の好適な特徴は、単なる例として添付の図面を参照して以下に説明される。

本発明の実施形態の概略フローチャートである。本発明の実施形態のブロック図である。入力及び幾つかの出力を有する方法の概略である。グラフ構造表現の一例である。マージのための標準グラフ及び複数グラフの図である。図５のグラフをマージした結果である。経路Pgを有する標準グラフである（直接且つ２部表現）。経路Phを有するハイパーグラフである（２部表現）。特定の実施形態の概略フローチャートである。グラフ及びリスト形式の標準グラフである。グラフ及びリスト形式のハイパーグラフである。２部グラフへの変換のフローチャートである。グラフ及びリスト形式のハイパーグラフである。グラフ及びリスト形式の、図１３のハイパーグラフの２部バージョンである。グラフサンプリングのフローチャートである。図１３及び１４のグラフから生成された全部のシーケンスの表現である。グラフ及びリスト形式の、エッジラベルCoを有しない図１３のハイパーグラフである。グラフ及びリスト形式の、図１７のハイパーグラフの２部バージョンである。図１６及び１７のグラフから生成された全部のシーケンスの表現である。グラフ及びリスト形式の、方向を有しない図１３のハイパーグラフである。グラフ及びリスト形式の、図２０のハイパーグラフの２部バージョンである。図２０及び２１のグラフから生成された幾つかのシーケンスの表現である。図２０及び２１のグラフから生成された幾つかのシーケンスの表現である。図２０及び２１のグラフから生成された幾つかのシーケンスの表現である。図２０及び２１のグラフから生成された幾つかのシーケンスの表現である。図２０及び２１のグラフから生成された残りのシーケンスの表現である。図２０及び２１のグラフから生成された残りのシーケンスの表現である。分布解析のフローチャートである。ゼロにされた特徴行列である。本発明の実施形態による、第１シーケンスが埋め込まれた後の特徴行列である。第２シーケンスが埋め込まれた後の特徴行列である。第３シーケンスが埋め込まれた後の特徴行列である。完成した特徴行列である。従来技術に対応する第２の例からの特徴行列である。従来技術に対応する第３の例からの特徴行列である。本発明の実施形態と共に使用するための機器のブロック図である。

近年、２つより多くのノード及び該ノード間の混合方向性を含み得る関係を有する知識グラフが利用可能になっている（例は、経路知識グラフ又は来歴（provenance）を有する共起ネットワークである）。従来技術では、任意のアリティ及び方向性のステートメントを有するこれらの知識グラフを処理するためのロバストな方法が欠如している。

このような構造のための埋め込みを生成する知られている方法は存在しない。理想的な埋め込み方法は、有向関係と無向関係との間を区別し、１つのハイパーエッジの中の有向接続及び無向接続の両方をサポートすべきである。これは、上述のデータセットにおけるコンテキスト依存有向２項関係のモデル化のために、特に重要である。ここで、コンテキスト独立変数（argument）（例えば、主として関係により接続される、ノードが他のノードに接続できる経路）は、標準的に、主独立変数（ノード）に関して有意義な方向性を有しない。

従来技術は、混合アリティ及び方向性のグラフを効率的に解決できない。実施形態は、この問題に対する解決策：他の分野から知られている埋め込み計算技術（例えば、Jeffrey Pennington, Richard Socher,及びChristopher D Manning、「Glove: Global Vectors for Word Representation」、EMNLP. Vol. １４. ２０１４, pp.１５３２-４３、及びTomas Mikolov et al. 「Distributed representations of words and phrases and their compositionality」、Advances in neural information processing systems、２０１３, pp.３１１１-３１１９）により直ちに処理され得る、様々な複雑性レベルの知識グラフの構造（つまりシーケンス及び特徴行列）への一様な変換のための技術、を提示する。

（知識）グラフ埋め込みの既存の方法は、Qiong Yang, Mo Chen,及びXiaoou Tang、「Directed graph embedding」、Proceedings of IJCAI’０７、IJCAI, ２００７,Node２Vec (Aditya Grover and Jure Leskovec、「Node２Vec: Scalable Feature Learning for Networks」、Proceedings of the ２２Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、KDD’１６、San Francisco, California, USA: ACM, ２０１６, pp. ８５５-８６４、ISBN:９７８-１-４５０３-４２３２-２、DOI:１０.１１４５/２９３９６７２.２９３９７５４、URL:http://doi.acm.org/１０.１１４５/２９３９６７２.２９３９７５４)又はRDF２vec (Petar Ristoski and Heiko Paulheim、「RDF２vec: RDF graph embeddings for data mining」、International Semantic Web Conference、Springer. ２０１６, pp. ４９８-５１４)、純粋なグラフ又はラベル付けされた関係を有する複数グラフに焦点を当てている（つまり、RDFにおける主語-述語-目的語ステートメント）、等である。それらは、２方向及び３方向の両方又は更に多くのアリティ関係を表すステートメントを有する知識グラフに立ち向かうことができない。このような場合が多くの領域において共通であるにも拘わらずである（例えば、生命科学では、関連データは、タンパク質相互作用グラフ及び経路ハイパーグラフのような異なるアリティの知識ベースに由来してよい）。

非常に最近の方法（Jianfeng Wen etal. 「On the Representation and Embedding of Knowledge Bases Beyond Binary Relations」、Proceedings of IJCAI’１６、IJCAI/AAAI Press, ２０１６, pp.１３００-１３０７）は、任意のアリティの関係を有する知識グラフの埋め込みを計算できるが、全ての可能なn-ary関係のうちの部分集合のみであるFreebaseデータセット内のn-ary関係のセマンティクスのみを対象としているので、限られた表現しか有しない。本発明に関連するJianfeng et alの他の制限は、関係の方向性に関する。これは、基本的には、学習段階で、k方向関係を無方向として扱う。しかしながら、理想的な方法は、有向関係と無向関係との間を区別し、１つのハイパーエッジの中の有向接続及び無向接続の両方をサポートすべきである。

この文脈における１つの課題は、ハイパーアリティ構造（例えば、型付き（typed）複数エッジを有するグラフ又はハイパーグラフ）の複雑性である。それらの実装は、表現能力と計算効率とのバランスを慎重にとらなければならない。混合方向のエッジが表現され及び処理される場合、必要なソリューションの技術的複雑性は一層増す。目下、標準的アプローチが存在しないので、数学的基礎は慎重に定められなければならない。また、これらの基礎の技術的実装は、（標準グラフと比べて）素直な自明ではない方法で表現オーバヘッドを処理しなければならない。

本発明の実施形態へ、（２項より多くの）より高いアリティ（arity）及び混合方向性知識グラフを以下により一様な方法で表し得る。

（ａ）全ての（任意の）入力知識グラフの、ハイパーグラフ表現への変換。ハイパーグラフ表現は、１より多くの任意の数のノードの間の有向及び無向加重ラベル付けエッジの両方を有してよい。これは、扱うことのある任意の種類の知識グラフに対応し得る最も一般的なグラフ構造である。これは、異なるハイパーエッジ候補も、したがって不均一知識グラフもサポートし、技術的問題の主要点を解決する。

（ｂ）部分が頂点及びハイパーエッジにそれぞれ対応する２部グラフのようなハイパーグラフの表現。本発明の実施形態は、共通の明確な基礎構造を用いて異種知識グラフの一様なサンプリングを可能にする表現の主目的を満たすコンピュータプログラムの形式でこの構造の効率的実装を可能にする原理のセットの定義を含み得る。

したがって、本発明の実施形態は以下のための方法を提供する。

（ａ）更に詳しく後述するように、トラバース（例えば、横型検索、ランダムウォーク、又はA^*検索）を用いる、知識グラフの２部／ハイパーグラフ表現のサンプリング。２部表現は、様々なグラフ様構造（標準グラフ、複数グラフ、又はハイパーグラフ、詳細については後の正式な定義を参照する）に対するトラバースの一様な実装を可能にする。これは、２部表現について定められた特定の原理により可能になり及びそれに依存する。これらの原理は、２部表現に対して実行されるトラバースが元の知識グラフ表現における同じ特性を有する有効なトラバースに対応することを保証する。

（ｂ）トラバースからの、頂点及びエッジシーケンスの生成。これは、エンティティ（頂点）及び関係（エッジ）表現がサンプルの中で区別されることを保証する。

最後に、本発明の実施形態は、知識グラフの中のエンティティ及び関係のベクトル表現を計算する。これを行うために、シーケンスの中の分布パターンが以下により分析されてよい。

ａ．コンテキストウインドウを被サンプリングシーケンスに渡りスライドし、局所的エンティティ-エンティティ、エンティティ関係、及び関係-関係の共起スコアをウインドウ内の距離に基づき計算する。

ｂ．グローバル共起スコアを更新する。

ｃ．任意的な頻度に基づく特徴選択。

これらのステップは、知識グラフ内の全てのエンティティ及び関係の分布特徴をエンコードする行列を生成する。複数のこのような特徴行列は、サンプリングのために使用されるトラバース方針を単に調整することにより、同じ知識グラフから生成され得る。中間シーケンスセットは、word２vec (Tomas Mikolov etal. 「Distributed representations of words and phrases and their compositionality」、Advances in neural information processing systems. ２０１３, pp.３１１１-３１１９)のようなアルゴリズムにより処理されてよい。分布特徴行列は、埋め込み自体として取り扱われ、又はGloVe (Jeffrey Pennington, Richard Socher, and Christopher D Manning、「Glove: Global Vectors for Word Representation」、EMNLP. Vol. １４. ２０１４, pp.１５３２-４３)のようなより高度な埋め込み学習モデルにより直接的に処理されてよい。この柔軟性は、究極の効果である本発明の実施形態にとって有用である。つまり、異なる既存の埋め込み技術を、様々なアリティ及び混合方向性を有する知識グラフ構造に容易に調整する能力。

計算した特徴行列は、元の知識グラフの複雑な構造がグラフサンプリングの良く理解されたメカニズムに基づくので、それらを明確に表現する。エンティティ及び関係のセマンティクスは、サンプリングプロセスで当然に保存される。行列は、ベクトル空間表現を利用する従来の又は新たに開発される技術を用いて、エンティティ及び／又は関係埋め込みを生成するために直接使用されてよい。

図１は、本発明の実施形態の概略フローチャートである。ステップＳ１０は、異なるアリティを有する、頂点及びエッジの形式で、タンパク質に関する２以上の知識グラフを入力する。知識グラフのうちの少なくとも１つは有向であり、知識グラフのうちの少なくとも１つはラベル付きである。１又は複数の有向グラフは、部分的に有向であってよい（幾つかのエッジのみが方向を有する）。同じグラフが有向且つラベル付きの両方であってよい。グラフは、頂点及び関連エッジのリストの形式のような、任意の機械可読形式で入力されてよい。実施形態は、CSV入力、又は代替としてRDFフォーマットのトリプル若しくはクワッド、又は構造化データを表現するフォーマット（GraphMLのような）を使用してよい。

ステップＳ１２は、知識グラフの各々をハイパーエッジ表現に変換する。これは、ユニークなエッジ識別子のリストであってよい。ユニークなエッジ識別子の各々は、ソース及びターゲット頂点（vertices）を有し、任意の頂点はエッジにより無方向接続され、任意のラベル若しくは重みはエッジに関連付けられる。ここで、本表現では、各グラフは、リスト内の多くのユニークなエッジ識別子で構成されてよい。

ステップＳ１４は、ハイパーエッジ表現を、１つのセットの中のエンティティとして頂点及びラベルを有し且つ抽象的補助エッジAにより他のセットの中のエンティティとしてエッジにリンクされる２部グラフに変換する。各抽象的補助エッジは、頂点又はラベルを、ハイパーエッジ表現に加えられる／適用されるグラフのエッジにリンクする。したがって、２部グラフでは（及び以下の処理では）、各エッジ及びラベル、並びに各頂点は、エッジAにより加えられる、グラフ内のエンティティである。

ハイパーエッジ表現は、変換前に１つに結合されてよい。代替として、各ハイパーエッジ表現は、２部グラフ及び後に加えられる２部グラフへと生成されてよい。いずれの場合にも、結合のために、同じ名称を有するノード（又はマッピングツールを用いて同じ名称を有すると考えられるノード）は、同じノードと見なされる。

ステップＳ１６は、セット間のリンクに沿って可能なシーケンスを提供するために、２部グラフをトラバースする。例えば、１つの方針は、グラフ内のパスを見付けてよい。この方針は、各ノードで順に（又はランダムノードで）開始し、指定長又はパス全長の２部グラフに沿って可能なパスを探索してよい。様々な知られているメカニズムが、縦型、横型、又は最良優先探索のように、グラフ全体を探索するために使用されてよい。最終結果では、及び重み付けパラメータが存在しないとき、頂点からの２つ以上のエッジが存在する場合、結果として生じたパスは、これらのエッジの間を均等に分けられるべきである。パスは、シーケンスとして使用される。

ステップＳ１８は、頂点、ラベル、及びエッジの特徴行列を生成する。特徴行列の各セルには、共起スコアのようなスコアがある。この特徴行列は、ゼロに初期化される全てのエンティティの正方行列であってよい。これは、シーケンスを用いて投入されてよい。例えば、シーケンスから導出された値は、例えば少なくとも部分的にシーケンス内のエンティティ（元の入力グラフからのノード及びエッジ）の近接性に基づき、シーケンス毎に行列に追加されてよい。コンテキストウインドウ（パス長より短い）は、（パスは２つのエンティティを最小値として必要とするので）シーケンス内の最後ではない各点／エンティティで開始して、コンテキストシーケンスを与える。各開始点とコンテキストシーケンス内の後続のエンティティとの間の共起スコアが、次に、コンテキストシーケンス内のエンティティ間の距離を考慮して、計算される。特徴行列は、各シーケンスの共起スコアが追加されるとき、生成される。

最後に、ステップＳ２０は、特徴行列を用いて、（共起）スコアに基づき、タンパク質（又は他の生物医学的エンティティ／グラフアイテム）特性又は知識グラフ内のシーケンスを推測する。例えば、（入力グラフの結合の中の全てのノード及び頂点に基づき計算された）２つのタンパク質のコサイン類似性が推測されてよい。

図２は、実行される上述の機能のための計算ユニット：２部変換器１０、グラフサンプラ２０、及び分布解析器３０、を示す。これらは、全てプロセッサ及びメモリブロックに示される。２部変換器は、異なるアリティを有する、頂点及びエッジの形式で、タンパク質に関する２以上の知識グラフを（例えば、知識グラフデータベース又はＤＢ４０から）受信する。知識グラフのうちの少なくとも１つは有向であり、知識グラフのうちの少なくとも１つはラベル付きである。入力は、任意の適切な形式であってよい。２部変換器は、先ず、知識グラフの各々をハイパーエッジ表現に変換する。これは、ユニークなエッジ識別子のリストであってよい。ユニークなエッジ識別子の各々は、ソース及びターゲット頂点（vertices）を有し、任意の頂点はエッジにより無方向接続され、任意のラベルはエッジに関連付けられる。ハイパーエッジ表現から、一方のセットの中に頂点及びラベルを有し、他方のセットの中にエッジを有する、２部グラフへの変換がある。頂点及びラベルは、補助エッジAにより、ハイパーエッジ表現毎にエッジにリンクされる。この２部グラフは、２部グラフDB５０に、及び／又はローカルメモリに保存されてよい。

グラフサンプラ２０は、更に詳細に後述するように、２部グラフをトラバースして、セット間のリンクに沿って可能なシーケンスを提供する。グラフを探索するために充分なシーケンスが生成される。生成されたシーケンスは、シーケンスDB６０に、及び／又はローカルメモリに保存されてよい。

分布解析器３０は、シーケンスから、頂点、ラベル、及びエッジの特徴行列を生成し、ここで特徴行列の各セルには共起スコアがあり、並びに、特徴行列を用いて、共起スコアに基づき知識グラフ内のタンパク質の特性を推測する。共起行列及び更なる結果は、ローカルメモリに、及び共起行列DB７０にも格納されてよい。

一実施形態によるシステム全体及びその入力は、図３に示される。２部変換器１０は、（様々なアリティ及び方向性の）知識グラフを取り込み、対応する２部表現を出力する。これは、次に、グラフサンプラ２０によりトラバースに基づくサンプリングアルゴリズムを実行するために使用されてよい。このステップの結果は、知識グラフ内のエンティティ及び関係のシーケンスである。これらは、外部ツールにより埋め込みを生成するために使用され、又は内部分布解析モジュール３０に渡されてよい。このコンポーネントは、知識グラフ内のエンティティ及び関係のベクトル空間表現（つまり分布特徴行列）を計算する。これは、基本埋め込みとして使用され、又は更に外部埋め込みツールにより処理されてよい。同じモジュールが特性を推測するために使用されてよい。

特定の高レベルモジュールの詳細は、以下の章で記載される。

＜２部変換＞
本章は、先ず、拡張可能表現のために使用されるコア構造を紹介し、次に選択されたグラフ構造を普遍表現に変換するためのルールを記載する。最後に、選択されたグラフ構造及びそれらの変換された表現の説明のための例が提供される。

＜グラフ様構造の２部表現＞
グラフ構造の表現のための基礎（特に、標準グラフ、複数グラフ、及びハイパーグラフ）として、発明者等は以下のように定義される２部グラフを選択した。
(V,E,A)
ここで、V、Eは、それぞれ、２部グラフにより表現されるグラフ構造内の頂点及び（ハイパー）エッジに対応するノード部分である。

A⊆V×O×Eは、V、E部分の中のノード間の有向又は無向補助エッジのセットである。ここで、O＝{←,→,<->}は、可能なエッジ方位（それぞれ、VからEへ、EからVへ、又は無方向）のセットである。Aの中のエッジは、実際のエッジ又は表現されているグラフ構造内のハイパーエッジをエミュレートする。

基本２部表現の表現力を向上するために、２部グラフノード部分に関連付けられた幾つかのマッピングは、以下のように定義されてよい。

ここで、Lv、Leは、それぞれ、頂点及びエッジラベルのセットである。マッピングは、主に、特定頂点及びエッジノードを、汎用の可能なラベル付けされ重み付けされたグラフ構造の適切な表現のために必要な種類及び重みに関連付けることを意味する。特に断りのない場合、ラベルの以下のデフォルト設定が定義される。

ここで、Ov、Oeは、それぞれ、実数集合からの頂点及びエッジノードのデフォルト単一ラベル（１つの値のみ）である。２部表現は、異なる表現及び複雑性レベルの様々なグラフ構造の均一な表現を可能にする。しかしながら、２部表現を介して実行される標準グラフ演算の空間及び時間的複雑性を増大するという点で、これに対する対価がある。この増大は、概して線形であり、したがって、別の複雑性クラスへのシフトを意味しないが、線形因子の増大さえも、大規模データについての多くのアプリケーションでは困難な場合がある。したがって、２部表現の以下の特定の最適化が導入されてよい。
・全てのエンティティ及び関係ラベルの整数符号化。その結果、２部グラフの頂点は、より効率的に格納できる（つまり、可変サイズのストリング型ではなく、固定サイズの整数を用いる）。
・疎ブール（sparse Boolean）行列を用いるA内のエッジの表現。これは、最適化行列演算により、後続、先行、及び隣接ノードの効率的検索を可能にする。

この分野における主に関心のある３種類のグラフ構造は、標準グラフ、エッジラベル付き複数グラフ、及びハイパーグラフである。これらの各々について、それらの２部表現に対する特定の制限が、以下の段落で概説されるように課され得る。

標準グラフ。
(I)全てのe∈Eについて、d(e)は２である。ここで、d(u)は、２部表現の中のノードuの次数である。表現されているグラフが有向性である場合、全てのe∈Eについてdi(e)＝do(e)＝１である。ここで、di(e)及びdo(e)は、それぞれ、２部表現の中のノードuの入次数（in-degree）及び出次数（out-degree）である（ハイパーエッジは無い；「入り込む（sink）」又は「湧き出る（spring）」ノードは無い）。
(II)(vi,ea),(vj,ea)∈A且つ(vi,eb),(vj,eb)∈Aの場合、ea＝ebである（複数エッジは無い）。
(III)Aは集合である（ループは無い）。

エッジラベル付け複数グラフ。
(I)全てのe∈Eについて、d(e)は２である。表現されているグラフが有向である場合、全てのe∈Eについて、di(e)＝do(e)＝１である（ハイパーエッジは無い；「入り込む（sink）」又は「湧き出る（spring）」エッジは無い）。
(II)Aは複数集合であり得る（ループが可能である）。
(III)(vi,ea),(vj,ea)∈A且つ(vi,eb),(vj,eb)∈Aの場合、λe(ea)≠λe(eb)である（同じラベルを共有する複数エッジは無い）。

ハイパーグラフ。
(I)全てのe∈Eについて、d(e)＞１である。表現されているグラフが有向関係を有する場合、全てのe∈Eについて、di(e)＞０,do(e)＞０である（「入り込む（sink）」又は「湧き出る（spring）」ハイパーエッジは無い）。
(II)Aは複数集合であり得る（ループが可能である）。
(III)(vi,ea),(vj,ea)∈A且つ(vi,eb),(vj,eb)∈Aの場合、λe(ea)≠λe(eb)である（同じラベルを共有するハイパーエッジは無い）。

有向ループはAが集合である場合でも表現できるので、複数グラフ及びハイパーグラフの複数集合の可能性は、無向関係についてのみ意味を成すことに留意する。頂点ノードラベルの解釈はグラフ構造を処理するアルゴリズムに任されるので、これらのラベルとしてのλvラベルマッピングには特定の制限は課されない。

＜グラフ様構造の２部表現への変換＞
変換のための極めて重要な手段は、タプルとして定義される汎用（ハイパー）エッジである。(e,S,T,U)
ここで、eはユニークなエッジ識別子であり、S、Tはそれぞれ、エッジにより有向接続されるソース及びターゲットノードのセットである。Uは、エッジにより無向接続されるノードのセットである。S、T、Uセットは、以下の条件を満たす：
(I)｜S∪T∪U｜＞１（単項又は空配列（nullary）関係は無い）、
(II)

（ユニークな頂点の役割）、
(III)

（ハイパーグラフのみが混合有向性であり得る）。

この定義を説明するために、標準グラフ内のノードa、bを接続する無向エッジeを検討する。このようなエッジは以下のように表現される。

aからbへと向かう有向エッジは、以下のように表現され得る。

ハイパーエッジは、当然に(_,S,T,U)と表現でき、ここで｜S∪T∪U｜＞２である。重み付けされた型付き（ラベル付けされた）エッジは、対応するマッピングをエッジセット及び／又はユニークなエッジ識別子に導入することにより表現できる。

元のグラフ構造表現が頂点Vバー及びエッジEバーで構成されると仮定すると、対応する２部表現(V,E,A)は以下のように構成される。
・VはVバーに等しい。
・全ての（ハイパー）エッジ(e,S,T,U)∈Eバーについて、ノードe∈Eが存在する。
・全ての（ハイパー）エッジ(e,S,T,U)∈Eバーは、A内に以下のエッジに対応する：

・元の表現に関連付けられた任意のマッピング（又はラベル／重み）がある場合、それらは相応してλ_v、λ_e、λ_wマッピングに保存される。

＜例＞
図４は、標準無向グラフ、有向複数グラフ、及び混合重み付けハイパーグラフを符号化するステートメントセット、並びに対応する２部表現の単純な例を示す。参考のため、グラフ及び複数グラフの直接グラフ表現が示される。より高次のアリティ関係の描写が比較的複雑なので、例を簡潔且つ分かり易く保つために、ハイパーグラフの直接グラフ表現はここでは与えられない。

ステートメントは、グラフ構造の中の関係（つまり、エッジ、複数エッジ、又はハイパーエッジ）に対応し、以前に紹介した表記で表現される。ステートメントは、任意的に、関係種類及び／又は実数重みに関連付けられてよい。これらは、適用可能な対応するエッジ表現のサブスクリプト内で与えられる。

例１のステートメントは、無ラベル無向標準グラフに対応する。V、Eノードは、それぞれ{a,b,c,d}及び{e,f,g,h}である。A内のエッジは、E内の１つのノードを通じてV内の２つのノードを接続する２ホップパスにより、V内のノード間にあるエッジをエミュレートする。例えば、元のグラフの中の(a,b)エッジは、(a,e,b)パスに対応する。例２は、２項関係のグラフである、有向複数グラフを表す。ここで、関係はそれらの種類によりラベル付けされ、より多くの異なる種類の関係が同じ２ノード間に存在し得る。前の例と同様に、元の構造の中のエッジは、E内の１つのノードを通じてV内の２つのノードを接続する２ホップパスによりエミュレートされる。違いは、A内のエッジがここでは有向性であり、元の関係の方向の表現を可能にすることである。さらに、Eノードを対応する述語（predicate）ラベル、つまり関係種類に関連付けるλ_eラベルも存在する。

例３は、最も表現力のあるグラフ構造、つまりハイパーグラフを表す。ここで、２より多くのノードが、重み付きエッジにより接続されてよく、ノード及びエッジ種類のラベルの両方が存在する。λe,λwラベルは、２部表現の中でEノード内のエッジマッピングペアにより反映される。例えば、ステートメントeが述語（ラベル／種類）r及び重み０．５を有するという」事実は、対応するEノードラベルの中の(r,０.５)ペアにより反映される。関係の１次独立変数(P)及びコンテキスト独立変数(C)の間を区別するために、ノードも同様に本例でラベル付けされる。１次独立変数は、例えば、文書内の関係において生じる、タンパク質、遺伝子、化学物質、等であってよい。文書自体は、コンテキスト独立変数であってよい。２部表現の方向性が混合される。これは、１次及びコンテキスト独立変数の意味の間の差をモデル化するため（コンテキスト独立変数のような文書は、１次独立変数に対して任意の特定の方向性にほとんど関連付けられない）、並びに、同じモデル内で有向及び無向関係の両方を可能にするためである。

異なるアリティ及びエッジの混合方向性を有するグラフ構造をマージすることに関して、図５に示される２つの構造が仮定される。一方は標準無向グラフであり、他方は種類関係を有する２項複数グラフである。標準グラフ及び複数グラフのハイパーエッジ表現はそれぞれ以下であると仮定する。

及び

次に、これらの構造のマージ及びその対応するハイパーグラフ表現が、図６のように示される。

＜一様なサンプリング＞
本章は、先ず、元のグラフ構造の中のパスと２部表現との間の対応を記載する。これは、次に、構造をサンプリングするために使用され得るトラバースを定義するために使用される。サンプリングの例が次に与えられる。

＜パス（path）＞
検討されるグラフ構造のいずれかにおいて（つまり、標準グラフ、複数グラフ、及びハイパーグラフ）、パスは、Adrian Bondy and Uppaluri SR Murty. Graph Theory (Graduate Texts in Mathematics ２４４) Springer, ２００８において紹介された表記を用いて定義されてよい。パスは、２つのノードがシーケンス内で連続する場合にそれらが隣接するように、ノードの線形シーケンスの中で順序付けられてよい単純なグラフ（ループ又は複数エッジを有しない２項グラフ）である。

したがって、長さkの（つまりk個のノードを有する）パスは、シーケンスとして表現され得る。

ここで、vi,ej,i∈{１,...,k},j∈{１,...,k-１}は、対応するグラフ構造の中のノード及び（ハイパー）エッジである。明らかに、エッジezは、vx,vyがそれぞれezエッジのソース及びターゲットノードである場合且つその場合にのみ、ノードvxとvyとの間のパスシーケンスの中に現れてよい。

元のグラフ構造表現の中の長さkの全てのパスは、２部表現の中の長さ２k-１のパスに対応する。以下のパス

の２部表現は、以下のシーケンスである：

ここで、x∈{１,...,k},y∈{１,...,k-１},z∈{１,...,２k-１}について、vx∈A,ey∈E,az∈Aである。パスシーケンス内の任意のサブパスvi,aj,ek,al,vmについて、以下が満たされなければならない。
aj=(vi,o１,ek),al=(vm,o２,ek),ここで、o１∈{→,<->}且つo２∈{←,<->}
元の構造の中のパスとそれらの２部表現との間の直接対応により、参照は、特に断りのない限り、V,E要素からのみ構成されるより単純な表記に向かう。しかしながら、ノードの特性の観点から、特に断りのない限り、私達は２部表現を参照する。

次の段落は、グラフ構造をそれらの２部表現を用いて一様にトラバースするための幾つかの可能なオプションを概説する。提案される特別な２部表現を用いるランダムウォークの実装は正式な仕様を必要とするので、ランダムウォークに特別な注意が払われる。

検索に基づくトラバース。縦型、横型、又は最良優先探索に基づくトラバースは、全て、２部表現と独立である特定の発見的問題解決（heuristic）を用いるノード間の遷移に基づく。しかしながら、遷移自体は、以下の方法で影響される。グラフ構造の中の、ノードuからノードvへのエッジeを介する遷移(u,e,v)は、対応する２部表現の中の遷移(u,a_u,e,e,a_e,v,v)に対応する。

ここで、a_u,e、a_e,vは、u、vエンティティ及びe関係に対応する２部ノードを接続する補助エッジである。検索に基づくトラバースにより生成されたシーケンスは、検索から生じるパスの隣接サブパスとして直接取得されてよい。

ランダムウォーク。ランダムウォークは、グラフデータをサンプリングするための効率的且つ普遍的に適用可能なトラバースに基づく方法として確認されている（Jure Leskovec and Christos Faloutsos、「Sampling from large graphs」、Proceedings of the １２th ACM SIGKDD international conference on Knowledge discovery and datamining. ACM. ２００６, pp.６３１-６３６を参照）。検討されるグラフ構造のいずれかにおけるランダムウォークは、好都合なことに、対応する２部表現の中で定義され得る。ランダムウォークは、パス（場合によっては無限）として定義される。該パス内では、シーケンス内の遷移が、現在ノードの特性及び（２部表現内の）それに関連付けられた出エッジに基づき、ランダムに決定される。

頂点ノードvxからvx+１へのエッジノードexを介する単一の遷移(vx,ex,vx+１)を検討する。この遷移の確率p[(vx,ex,vx+１)]は、以下の２つのイベントの同時確率である。
１．頂点ノードvxからエッジノードexへの確率p(ex|vx)。
２．エッジノードexから頂点ノードvx+１への確率p(vx+１|ex)。
これら２つのイベントは独立なので、遷移確率はp[(vx,ex,vx+１)]=p(ex|vx)p(vx+１|ex)である。

p(ex|vx)確率は、以下の通りである。

ここで、

はvxに関する出エッジノードの集合である。p(vx+１|ex)確率は以下の場合ゼロである。

の場合、p(vx+１|ex)確率は以下の通りである。

つまり、遷移の開始ノードを除いて、エッジノードexの出次数に比例する。したがって、同時遷移確率は、次の通りである。

ランダムウォークトラバースにより生成されたシーケンスは、ランダムウォークの隣接サブパスとして直接取得されてよい。

＜例＞
パス及びトラバースの考えを説明するために、図４の例＃１及び＃３及びランダムウォークによるトラバースを取り上げる（おそらく、前の段落で検討された可能性のうち最も自明でないものである）。例＃１は、図７に与えられる直接且つ２部グラフ表現による標準グラフＧを表す。

グラフＧ内のパスは例えばシーケンスPg=(b,g,c,f,a,h,d)である。

W(u,k,G)は、グラフＧのノードuで開始する長さkのランダムウォークであるとする。Ｇ内のノードbで開始する長さ４のランダムウォークがパスPgと等価である確率p[Pg=W(b,４,G)]は、以下の通りである。

つまり、bで開始した後にランダムにP_gを生成する遷移の確率の積である。定義されたエッジ重みがないので、デフォルト重み１が使用され、したがって、遷移確率はパスに沿った（エッジ）ノードの次数に事実上依存することに留意する。

図４の例＃３は、図８に与えられる２部グラフ表現により表現されたハイパーグラフHを表す。

H内のパスの一例は、Ph=(a,f,D１,e,b)である。

H内のノードaで開始する長さ３のランダムウォークがパスP_hと等価である確率p[Ph=W(a,３,H)]は、以下の通りである。

上述の例で生成された全てのランダムウォークは、対応するグラフ構造のサンプルシーケンスとして直接使用されてよい。

＜分布ベクトル化＞
本章は、グラフ構造をサンプリングすることにより生成されたシーケンスが、エンティティ及び関係の分布特徴ベクトルを構成するためにどのように使用され得るかを記載する。サンプルの例が次に与えられる。

＜シーケンスからベクトルへ＞
ノードV及び（ハイパー）エッジEを有するグラフ構造Gに対応する、|E|+|V|の行及び列を有する空の（つまり、ゼロの）特徴行列Fを仮定する。行s∈E∪V及び列s'∈E∪Vに対応する要素を、F(s,s')として示す。

各シーケンス内の分布パターンは以下の形式である。

これはグラフ構造G（長さsは２k-１である）からサンプリングされ、次に、以下の通り特徴行列Fを更新するために使用される。
・局所的共起重みマッピング

を初期化して、鍵値全てについてゼロにする。
・サイズcの各コンテキストウインドウについて、以下の開始位置s_i∈{s_１,s_２,...,s_２k-２}に渡り完全に繰り返す。

シーケンスs内で、以下を行う：
-局所的な共起重みが計算される軸（pivot）としてs_iを用いる。
-各j∈{i+１,i+２,...,max(c,２k-１)}について、局所的共起を以下のように更新する：
＋j-i≦αの場合、w_cooc(s_i,s_j)←w_cooc(s_i,s_j)+１；
＋その他の場合、w_cooc(s_i,s_j)←w_cooc(s_i,s_j)+(j-i-α+１)^-β
各s、s'∈E∪Vついて、特徴行列Fを以下のように更新する：

本処理の結果は、サンプリングされたシーケンス内の他のエンティティ及び関係との共起を反映する重みのベクトルとして、各エンティティ及び関係を符号化する対称正方行列である。共起重みが計算される方法は、３つのパラメータにより影響されてよい。
・ｃ：コンテキストウインドウサイズを定めるパラメータであり、非ゼロ共起重みについて、一度にどれだけ多くの連続要素が考慮されるかを定める。これは、自然言語テキストについての共起計算における自然な文の境界の類似体として理解され得る。
・α：直接の近隣を定めるパラメータである。つまり、要素が非常に密接に関連していると考えられる距離範囲である（可能な最も高い１の局所的共起重みを受信する）。これは、主に、２つのエンティティが関係により直接リンクされる場合、（それらの間のリンク関係により）それらがサンプリングされたシーケンス内で２つの離れた位置にある場合でも、直感的に強力に関連付けられるべきであることを反映するためである。
・β：軸（pivot）からの距離の関数として、局所的共起重みのダンピングを定めるパラメータである。これは、更に離れている要素があまり強力に関連付けられるべきでないことを反映するためである。

任意的な特徴選択は、伝統的なテキストマイニングと類似の方法で、分布特徴行列を計算し、及びそれらの頻度又は特徴行列に適用可能な他の特徴を格納し、及びそれらの頻度又は特徴選択に適用可能な他の特徴を格納する前に、シーケンスを前処理することにより達成され得る。格納すべき特徴の例は、シーケンス内の要素の相対頻度又はそれらの逆シーケンス頻度（テキスト処理における逆文書頻度に類似する）である。特徴の値は、次に、スライディングコンテキストウインドウの中で遭遇したとき、共起スコアを更新するために特定の要素が考慮されるべきか否かを決定数ｒために使用されてよい。例えば、全てのシーケンス内で５回より少なく発生する又は全てのシーケンス内で発生する要素との共起を反映しないことと決定してよい。

＜例＞
前の例からの経路Pg=(b,g,c,f,a,h,d)を、サンプリングされたシーケンスと考える。

さらに、以下のパラメータ値：c=５、α=２、β=１を仮定する。次に、Pgシーケンスに対応する共起スコアは、以下のように計算される。６個のコンテキストウインドウがある：
(b,g,c,f,a),
(g,c,f,a,h),
(c,f,a,h,d),
(f,a,h,d),
(a,h,d),
(h,d)
シーケンス内の要素間の距離が２以下（αパラメータ）なので、(b,g)、(b,c)のw_cooc値は１に等しい。

(b,f)、(b,a)の値は、したがって、以下である：

全てのコンテキストウインドウからのペアは、以下の通りである：

a,b,c,d,e,f,g,h要素に対応する行及び列を仮定すると、結果として生じる共起特徴行列は以下の通りである：

＜具体例＞
図４中のエンティティ及び関係の特定のインスタンス化、例＃３は以下の通りである。
a：AKT
b：FOX０１
c：BIM
d：XIAP
関係r：抑制（Inhibition）
関係s：活性化（activation）
コンテキストD１：アポトーシス（aptoptosis）経路の抑制
コンテキストD２：生存経路の活性化
無向関係は：タンパク質相互作用である。

ノードe,f,g,hは、関係を実体化するために２部表現の中で生成されるノードである。

本例では、可能なタンパク質の類似性が、関係エンティティ及びコンテキストに基づき発見される。これは、拮抗（antagonist）経路、等のような新しい生体機能の発見をもたらすデータ内の類似シーケンスパターンを発見するためでもあってよい。後述の例で説明されるようにコサイン類似性が使用されてよい。

＜作業例＞
第１作業例は、２段階：図９のＳ１０１に示すような２部グラフへの変換、及び図９のステップＳ１０２に示すようなグラフサンプリング、のうちの第１部分を考える。

図１０及び１１に示す２つのグラフは、開始点である。

図１０の標準グラフは、タンパク質相互作用のセットとして考えられてよく、例えば「タンパク質u１はタンパク質u５と相互作用する」と読める。

タンパク質u１〜u８のより良好な埋め込みは、類似タンパク質の識別、次に、入力グラフから失われているが、特定疾病に影響し得る全ての相互作用をモデル化しようとする生物学者に関連のある、幾つかの相互作用、の推測を可能にする。

図１１のハイパーグラフは、経路コンテキストの中で生じるタンパク質相互作用のセットと考えられてよく、「タンパク質u０は、経路c０のコンテキストの中でタンパク質u１と相互作用する」と読める。

タンパク質u０〜u４の及び経路c０及びc１のより良好な埋め込みを得ることは、（それらの相互作用コンテキストの追加情報を用いて）類似タンパク質の識別、次に、入力グラフから失われているが、特定疾病に影響し得る全ての相互作用をモデル化しようとする生物学者に関連のある、幾つかの相互作用、の推測を可能にする。

グラフは図１２に示されるように処理される。

ステップＳ１１１で、図１０ａ及び図１１ａの２つの知識グラフが入力される。図１０ａは標準グラフである。本例では、グラフは４つの部分で構成されるが、グラフは接続されてよく、及び１部分のみで構成されてよい。グラフは、任意のフォーマット（例えば、ノードペアのリスト）で表されてよい。これは、次のステップで導入されるハイパーエッジ表現により直接表されてよい。図１１ａはハイパーグラフである。各ハイパーエッジは、ソースノード、ターゲットノード、及び追加ノードを無向接続する。例えば、最も左のハイパーエッジは、u０（ソースノード）、u１（ターゲットノード）、及びc０（追加ノード）を接続する。ハイパーグラフは、任意のフォーマットで表現されてよい。これは、次のステップで導入されるハイパーエッジ表現により直接表されてよい。

ステップＳ１１２で、図１０ａ及び図１１ａは、図１０ｂ及び図１１ｂにそれぞれ変換される。各線は、ハイパーエッジ表現(e,S,T,U)に対応する。図１０ａの最も左のエッジは、u１をソースノードとして及びu５をターゲットノードとして接続するので、S={u１}及びT={u５}である。無向接続されたノードが存在しないので、U={ }である。ハイパーエッジはf１５と命名される。結果として、図１０ｂの(f１５,{u１},{u５},{})が得られる。他のタプルは同様に得られる。

図１１ａ中の最も左のハイパーエッジはu０をソースノードとして、u１をターゲットノードとして、及びc０を無向接続されたノードとして接続するので（エッジラベルはノードとして考えられる）、S={u０}、T={u１}、及びU={c０}である。ハイパーエッジはf０１と命名される。結果として、図１１ｂの(f０１,{u０},{u１},{c０})が得られる。他のタプルは同様に得られる。

ステップＳ１１３で、図１０ｂ及び図１１ｂ中の２つのハイパーエッジ表現は、図１３ｂへと結合される。図１３ａは、図１３ｂの視覚的に理解しやすいバージョンである。ここで、異なる表現内の同じ名称を有するノードは、単に同じノードと考えられる。異なる名称を有するノードは、例えばノードマッピングテーブルを用いることにより、同じノードと考えられてよい。結合動作は、ハイパーエッジ表現のために実行される。これは、知識グラフのために実行されてよく、又はステップＳ１１４で導入される２部グラフのために実行されてよい。

図１３のハイパーグラフは、経路コンテキストの中で生じるタンパク質相互作用のセットと考えられてよく、例えば「タンパク質u０は、経路c０のコンテキストの中でタンパク質u１と相互作用する」と読める。

図１２のＳ１１４で、図１３ｂは図１４ｂの２部グラフ(V,E,A)へと変換される。図１４ａは、視覚的に理解しやすいバージョンである（必ずしも実施形態における機械処理のためではない）。

先ず、VをV^-（Vバー）と同一にすることによりV^-からVが生成される。次に、E^-（Eバー）内のエントリの全ての第１要素から、Eが生成される。次に、E^-内の各エントリから１つ以上のエッジを生成することにより、Aが生成される。

例えば、図１３ａ内の(f０１,{u０},{u１},{c０})から、３つのエッジ(u０,→,f０１)、(u１,→,f０１)、及び(c０<->,f０１)が以下の方法で生成される。
(f０１,{u０},{u１},{c０})の第２要素の各メンバについて、該メンバからエッジ「→」が生成され、及び(f０１,{u０},{u１},{c０})の第１要素が生成される。第２要素はu０のみであり、第１要素はf０１なので、(u０,→,f０１)が生成される。
(f０１,{u０},{u１},{c０})の第３要素の各メンバについて、該メンバからエッジ「←」が生成され、及び(f０１,{u０},{u１},{c０})の第１要素が生成される。第３要素はu１のみであり、第１要素はf０１なので、(u０,←,f０１)が生成される。
(f０１,{u０},{u１},{c０})の第４要素の各メンバについて、該メンバからエッジ「<->」が生成され、及び(f０１,{u０},{u１},{c０})の第１要素が生成される。第４要素はc０のみであり、第１要素はf０１なので、(u０,<->,f０１)が生成される。

次の段階は、図１４に示されるようにグラフサンプリングである。

ステップＳ１２１で、２部グラフが入力される。ここで、私達は、図１４のグラフが入力されると仮定する。所定終了条件が満たされるまで、ステップＳ１２２、ステップＳ１２３、及びステップＳ１２４のループが繰り返される。ステップＳ１２２は、終了条件が満たされることを調べる。終了条件は、生成されたシーケンスの数であってよい。ここで、該数は１６８であると仮定する。ステップＳ１２３及びステップＳ１２４は、ランダム性を含んでよく、一般的に変動により影響されるが、ここでは、ランダム選択の各候補はその正確な確率により選択されると仮定する。

ステップＳ１２３で、シードノードが選択される。ここで、シードノードはV内のエントリから選択されると仮定する。シードノードは、V及びE内のエントリから選択されてよい。また、出エッジ（→又は<->）を有しないノードは選択されないと仮定する。

V内のU３、u５、u６及びu８の各々は、出エッジを有しないので、V内の他の７個のノード（u０,u１,u２,u４,u７,c０,c１）が候補である。各ノードは、２４（＝１６８／７）回、選択される。

図１５のステップＳ１２４で、ランダムウォークが実行される。ランダムウォークは、任意の条件が満たされるとき、停止されてよい。ランダムウォークは、長さが３に達すると、又は次候補が見付からないとき、停止されると仮定する。また、λw(.)=１と仮定する。したがって、p(e_x|v_x)の式は、p(e_x|v_x)=１/|E_o(v_x)|に簡略化される。

u０から開始する。つまりv_１=u０である。E_o(u０)は、A内の(u０,→,e)又は(u０,<->,e)を満たすエッジノードのセットである。(u０,→,f０１)、(u０,→,f０２)、(u０,→,f０３)及び(u０,→,f０４)がA内に存在するので、E_o(u０)={f０１,f０２,f０３,f０４}及びp(f０１|u０)=p(f０２|u０)=p(f０３|u０)=p(f０４|u０)=１/４である。

f０３をE_o(u０)からe_１として選択する。つまりe_１=f０３である。V_o(f０３)は、A内の(v,←,f０３)又は(v,<->,f０３)を満たす頂点ノードのセットである。A内に(u３,←,f０３)及び(c０,<->,f０３)が存在するので、V_o(f０３)={u３,c０}及びV_o(f０３)＼{u０}={u３,c０}である。したがって、p(u３|f０３)=p(c０|f０３)=１/２である。

第１遷移の確率は、以下の通り計算される。
u３がu２として選択されるとき、p[(u０,f０３,u３)]=p(f０３|u０)*p(u３|f０３)=(１/４)*(１/２)=１/８。
c０がu２として選択されるとき、p[(u０,f０３,c０)]=p(f０３|u０)*p(c０|f０３)=(１/４)*(１/２)=１/８。

次に、第２遷移が説明される。
（１）第１遷移は(u０,f０３,u３)である。つまりv_２=u３である。E_o(u３)は、A内の(u３,→,e)又は(u３,<->,e)を満たすエッジノードのセットである。A内にこのようなeが存在しないので、E_o(u３)は空である。この場合、次候補が見付からないので、ランダムウォークはここで停止する。したがって、経路(u０,f０３,u３)が、２４*p[(u０,f０３,c０)]=２４*(１/８)=３回、生成される。
（２）第１遷移は(u０,f０３,c０)である。つまりv_２=c０である。E_o(c０)は、A内の(u３,→,e)又は(u３,<->,e)を満たすエッジノードのセットである。(c０<->,,f０１)、(c０,<->,f０２)及び(c０,<->,f０３)がA内に存在するので、E_o(c０)={f０１,f０２,f０３}及びp(f０１|c０)=p(f０２|c０)=p(f０３|c０)=１/３である。
f０１をE_o(c０)からe_２として選択する。つまりe_２=f０１である。
V_o(f０１)は、A内の(v,←,f０１)又は(v,<->,f０１)を満たす頂点ノードのセットである。A内に(u１,←,f０１)及び(c０,<->,f０１)が存在するので、V_o(f０１)={u１,c０}及びV_o(f０１)＼{c０}={u１}である。したがって、p{u１}=１である。u１がv_２の候補ではないことに留意する。

第２遷移の確率は、以下の通り計算される。
u１のみがv_３として選択されるとき、p[(c０,f０１,u１)]=p(f０１|c０)*p(u３|f０３)=(１/３)*１=１/３。
したがって、経路(u０,f０３,c０,f０１,u１)が、２４*p[(u０,f０３,c０)]*p[(c０,f０１,u１)]=２４*(１/８)*(１/３)=１回、生成される。

同様に、他の経路が生成される。ループが１６８回（所定回数）繰り返した後に、処理はステップ１２２においてYesに出る。

図１６は、生成された経路の纏めである。長方形は、頂点ノード又はエッジノードを示す。２つの長方形を接続する線に付加された数字は、確率p(e_x|v_x)又はp(v_x+１|e_x)を示す。左から右への接続された長方形のシリーズは、経路に対応する。経路に付加された数字は、経路が生成された回数を示す。これは、１６８＊経路上の全ての確率により計算される。例えば、第１の線は、(u０,f０１,u１,f１５,u５)が３回生成されることを示す。第２の線は、(u０,f０１,c０,f０１,u１)が１回生成されることを示す。

従来技術では、２つより多くのノードを接続するハイパーエッジは、効率的に処理できない。正規グラフ表現により、図１３ａは、c０及びc１を無視することにより、図１７ａのように表現できる。このグラフでは、（Grover and Leskovec-２０１６）及び（Ristoski and Paulheim-２０１６）のような様々なランダムウォーク技術が適用できる。本発明の実施形態では、このような方法は以下のように模倣され得る。

＜作業例パート１：比較効果＞
先ず、図１７ａは、図１３におけるように図１７ｂのように表現できる。２部変換器は、図１３を図１４に変換するのと同様の方法で、図１７を図１８に変換する。図１８により、グラフサンプラは、生成されたシーケンスの数２０で、図１６に示すシーケンスを生成するのと同様の方法で、図１９に示すシーケンスを生成する。

明らかに、図１８はc０又はc１を含まないので、c０又はc１を含むパスは、図１９に示すように決して生成されない。これは、本発明の実施形態が、c０又はc１を含むパスを生成するので、優れていることを意味する。

「On the Representation and Embedding of Knowledge Bases Beyond Binary Relations」、２０１３（Wen et al. ２０１６）のような方向性を無視する方法は、望ましくないパスを生成する。本発明の実施形態では、このような方法はまた以下のように模倣され得る。

方向性を無視するとき、図１３を図２０になる。２部変換器は、図１３を図１４に変換するのと同様の方法で、図２０を図２１に変換する。図２１により、グラフサンプラは、生成されたシーケンスの想定数１０５６で、図１６に示すシーケンスを生成するのと同様の方法で、図２２、図２３、及び図２４に示すシーケンスを生成する。

図２４で、シーケンス(c０,f０３,u３)は更に継続し、(c０,f０３,u３,f０３,u０)、(c０,f０３,u０３,f０３,c０)、及び(c０,f０３,u３,f３７,u７)が生成される。その間に、図１６では、シーケンス(c０,f０３,u３)はu３で停止し、(c０,f０３,u３)のみが生成される。これは、本発明の実施形態が、望ましくないパスの生成を直接考慮し及び防ぐので、優れていることを示す。

第２作業例は、図９のステップＳ１０３に示すように、分布解析の追加を考慮する。

上述のように、分布解析器への入力は、本発明の実施形態では図１５であり、正規グラフバージョンでは図１９であり、無向性バージョンでは図２２、図２３、及び図２４である。

分布解析器で行われる処理は図２５に示される。

ステップＳ１３１で、シーケンスのリストが入力される。ここで、図１６のシーケンスが入力される。リスト内のシーケンスが生成される回数は、右側に示された数である。例えば、リストは、(u０,f０１,u１,f１５,u５)の３個のシーケンスを含む。

ステップＳ１３２で、共起行列は図２６に示すように初期化される（完全にゼロにされる）。

（ステップＳ１３３で尋ねられるように）図１６内の全てのシーケンスが処理されるまで、ステップＳ１３３、ステップＳ１３４、及びステップＳ１３５のループが繰り返される。

ステップＳ１３５で、行列は、例えば「分布ベクトル化」と題された章の式に従い更新される。簡単のために、より複雑さの少ない変形が以下に示される。

シーケンス内の２つの要素で構成される各々の可能なペア(s_i,s_j)について（注：s_i=s_jであるペアを除く）、
F(s_i,s_j):=F(s_i,s_j)+１及びF(s_j,s_i):=F(s_j,s_i)+１
（１回目の反復）ステップ１３４で、３つのうちの第１シーケンス(u０,f０１,u１,f１５,u５)が選択されると想定する。ステップ１３５で、可能なペアは(u０,f０１)、(u０,u１)、(u０,f１５)、(u０,u５)、(f０１,u１)、(f０１,f１５)、(f０１,u５)、(u１,f１５)、(u１,u５)、及び(f１５,u５)なので、各ペアに対応するF内のセルは１だけ増大され、Fは図２７へと更新される（更新された要素は影付きである）。

（２回目及び３回目の反復）３つのうちの第２及び第３シーケンス(u０,f０１,u１,f１５,u５)が選択されると想定する。３回目の反復の後に、Fは同様の計算により図２８へと更新される。

（４回目の反復）ステップ１３４で、(u０,f０１,c０,f０１,u１)が選択されると想定する。ステップ１３５で、可能なペアは(u０,f０１)、(u０,c０)、(u０,f０１)、(u０,u１)、(f０１,c０)、(f０１,u１)、(c０,f０１)、(c０,u１)、及び(f０１,u１)なので（注：(f０１,f０１)は除かれる）、各ペアに対応するF内のセルは１だけ増大され、Fは図２９へと更新される。

図１６内の他の全てのシーケンスが同様に処理される。

最終的に共起行列は図３０になる。

＜作業例パート２：比較効果＞
正規グラフ表現を有する方法と比較するために、分布解析器は図１９に適用される。図１６から図３０を生成するのと同様の方法で、図３１の共起行列が得られる。

本発明の実施形態（図３０）：
u５の埋め込みは、図３０のu５行に対応するベクトルである。つまり、
u５=(３,３５,０,０,０,０,０,０,０,８,０,１１,０,０,０,３５,０,０,０)
同様に、
u６=(３,０,３５,０,０,０,０,０,０,８,０,０,１１,０,０,０,３５,０,０)、
u８=(３,０,０,０,５１,０,０,０,０,０,２４,０,０,０,２７,０,０,０,５１)
u５及びu６の、並びにu５及びu８の、コサイン類似性を計算する。

正規グラフ表現を有する方法（図３１）：
同様に、
u５=(１,５,０,０,０,０,０,０,０,１,０,０,０,５,０,０,０)、
u６=(１,０,５,０,０,０,０,０,０,０,１,０,０,０,５,０,０)、
u８=(１,０,０,０,５,０,０,０,０,０,０,０,１,０,０,０,５)
及び

本発明の実施形態では、u５はu８よりもu６に類似し、他の方法では、u５はu６及びu８に同等に類似する。図１３で、u５、u６及びu８は、同様の構造「u０→（別のノード）→（接続されたノード）」を有する。したがって、u５がu８よりu６に類似すると考えることは自然である。これは、本発明の実施形態は示すが、他の方法は示さない。

図１５及び図１９で生成されたシーケンスを比較する。図１９では、シーケンスはu５、u６及びu８に関して対称である。しかし、図１５では、例えばc０及びc１から開始するシーケンスを探すと、c０はu５を含むシーケンス及びu６を含むシーケンス内に現れ、c１はc８を含むシーケンス内に現れる。これは、u５がu７よりもu６に類似することを示唆する。

この観察は、ハイパーエッジを適切に取り扱う効果である。

方向性を無視する方法と比較すると、分布解析器は、図２２、図２３、及び図２４に適用される。図１５から図３０を生成するのと同様の方法で、図３２の共起行列が得られる。

本発明の実施形態（図３０）：
u５の埋め込みは、図３０のu５行に対応するベクトルである。つまり、
u５=(３,３５,０,０,０,０,０,０,０,８,０,１１,０,０,０,３５,０,０,０)
同様に、
u６=(３,０,３５,０,０,０,０,０,０,８,０,０,１１,０,０,０,３５,０,０)、
u７=(０,０,０,２４,０,０,０,０,０,０,０,０,０,０,０,０,０,２４,０)
u５及びu６の、並びにu５及びu８の、コサイン類似性を計算する。

正規グラフ表現を有する方法（図F１）：
同様に、
u５=(３０,２５４,０,０,０,０,０,０,０,３２,０,６２,０,０,０,３５０,０,０,０)、
u６=(３０,０,２５４,０,０,０,０,０,０,３２,０,０,６２,０,０,０,３５０,０,０)、
u７=(３０,０,０,２５４,０,０,０,０,０,３２,０,０,０,６２,０,０,０,３５０,０)
及び

本発明の実施形態では、u５はu７よりもu６に類似し、他の方法では、u５はu６及びu７に同等に類似する。図１３で、u５、u６及びu７は、同様の構造「u０→（別のノード）-？-（接続されたノード）」を有するが、第２エッジはu５及びu６への順方向エッジであり、u７については逆方向エッジである。したがって、u５がu７よりu６に類似すると考えることは自然である。これは、本発明が達成するが、他の方法は達成しない。

図１５及び図２２〜図２４で生成されたシーケンスの比較を試みる。図２２〜図２４では、シーケンスはu５、u６及びu７に関して対称である。しかし、図１５では、例えばc０から開始するシーケンスを探すと、u５はc０から開始するシーケンス内に現れ、u６はc０から開始する別のシーケンス内に現れ、一方で、u７はc０から開始するどのシーケンスにも現れない。これは、u５がu７よりもu６に類似することを示唆する。この観察は、方向性を適切に取り扱う効果である。

ドメインにおける具体的なインスタンス化は以下の通りである。

生物学では、セルアポトーシス（細胞死）を担い、通常、拮抗作用細胞生存及び増殖も引き起こし得るMST/Hippo経路がある。この例では、結合グラフ（例えば図１３に示される）内の各エンティティ及びコンテキストの実際のインスタンス化は、以下の通りであってよい。

C０：プロアポトーシス（Pro-apoptotic）
C１：抗アポトーシス（Anti-apoptotic）
U０：LATS１/２
U１：TAZ
U２：FOXO
U３：BAX
U４：YAP
U５：P７３
U６：AIF１
U７：PUMA
U８：TEAD
全ての関係（fxx）は、リン酸化反応であり、キナーゼから基質を指す。

作業例の効果：パート２は以下の通りである。本発明の実施形態におけるコンテキスト情報（プロ／抗アポトーシス）の使用は、u５（P７３）がu８（TEAD）よりもu６（AIF１）に近いという推測を可能にする。実際に、AIF１及びP７３の両者は経路のプロアポトーシス部分の一部であり、一方で、TEADは抗アポトーシスに含まれる。これは、癌細胞では増殖しないことが、他の細胞では死ぬことが有利であるので、、癌研究において非常に重要である。

また、タンパク質の接続に基づき、幾つかのタンパク質の生物学的機能が推測されてよい（コンテキストC０及びC１、プロ／抗アポトーシスは、生物学的機能として考えられてよい）。特に、この小さな例から、TEADタンパク質（U８）が、抗アポトーシスに、より関連する可能性がある（C０よりもC１に近い）ことが分かる。この情報は、生物学的実験者に新薬ターゲットの開発のためにどの実験を実行すべきかの指示を与えるので、生物学的実験者にとって重要である。

GUI（Graphical User Interface）は、ここに記載された方法を用いて結合されるべき知識グラフを選択するために、及び例えば２つのタンパク質の類似性からタンパク質の特性を導出可能にするために、関心のあるタンパク質のようなデータを入力するために、ユーザに提供され及びユーザに表示されてよい。例えば、１つのウインドウは、関心のあるタンパク質を入力又は選択するためのフィールドを表示してよく、同じ又は別のウインドウは、入力についての知識グラフの表示及び／又は選択を可能にしてよい。また、同じ又は別のウインドウは、タンパク質類似性などのような結果を表示してよい。

図３３は、本発明を実現しタンパク質の特性を推測する方法を実施するために使用され得る、データ記憶サーバのようなコンピューティング装置のブロック図である。コンピューティング装置は、プロセッサ９９３、及びメモリ９９４を有する。任意で、コンピューティング装置は、他のコンピューティング装置、例えば本発明の実施形態の他のコンピューティング装置と通信するためのネットワークインタフェース９９７も有する。

例えば、一実施形態は、このようなコンピューティング装置のネットワークで構成されてよい。任意で、コンピューティング装置は、キーボード及びマウスのような１つ以上の入力メカニズム９９６、及び１つ以上のモニタのようなディスプレイユニット９９５も有する。コンポーネントは、バス９９２を介して互いに接続可能である。

メモリ９９４は、コンピュータ実行可能命令を実行する又は格納されたデータ構造を有するよう構成される単一の媒体又は複数の媒体（例えば、集中型又は分散型データベース及び／又は関連するキャッシュ及びサーバ）を表し得るコンピュータ可読媒体を有してよい。コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定目的コンピュータ又は特定目的処理装置（例えば、１又は複数のプロセッサ）によりアクセス可能であり及び１又は複数の機能又は工程を実行させる命令及びデータを有してよい。したがって、用語「コンピュータ可読記憶媒体」は、機械による実行のために命令セットを格納しエンコードし又は持ち運ぶことが可能であり、機械に本開示の方法のうち任意の１又は複数を実行させる任意の媒体も含み得る。用語「コンピュータ可読記憶媒体」は、固体メモリ、光学媒体及び磁気媒体を含むと考えられるが、これらに限定されない。例として且つ限定ではなく、このようなコンピュータ可読媒体は、RAM（Random Access Memory）、ROM（Read-Only Memory）、EEPROM（Electrically Erasable Programmable Read-Only Memory）、CD-ROM（Compact Disc Read-Only Memory）又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置を含む非一時的若しくは有形コンピュータ可読記憶媒体、又は他の媒体、フラッシュメモリ装置（例えば、固体メモリ装置）を有し得る。

プロセッサ９９３は、コンピューティング装置を制御し、処理工程を実行し、例えば本願明細書及び請求の範囲に記載される２部変換器、グラフサンプラ、及び分布解析器の様々な異なる機能を実施するためにメモリに格納されたコードを実行するよう構成される。メモリ９９４は、プロセッサ９９３によりリード及びライトされるデータを格納する。本願明細書で参照されるとき、プロセッサは、マイクロプロセッサ、中央処理ユニット、等のような１又は複数の汎用処理装置を含み得る。プロセッサは、CISC（complex instruction set computing）マイクロプロセッサ、ＲＩＳＣ（reduced instruction set computing）マイクロプロセッサ、VLIW（very long instruction word）マイクロプロセッサ、又は他の命令セットを実施するプロセッサ、若しくは命令セットの組合せを実施するプロセッサを含み得る。プロセッサは、ASIC（application specific integrated circuit）、FPGA（field programmable gate array）、DSP（digital signal processor）、ネットワークプロセッサ、等のような１又は複数の特定目的処理装置も含み得る。１又は複数の実施形態では、プロセッサは、本願明細書で議論する工程又はステップを実行する命令を実行するよう構成される。

ディスプレイユニット９９７は、コンピューティング装置により格納されたデータの提示を表示してよく、ユーザとプログラムとコンピューティング装置に格納されたデータとの間の相互作用を可能にするカーソル及びダイアログボックス及びスクリーンも表示してよい。入力メカニズム９９６は、ユーザがデータ及び命令をコンピューティング装置に入力することを可能にし得る。例えば、ユーザは、どのグラフを入力し結合するか、及びどの特性を完成した特徴行列に基づき比較するかを、コンピューティング装置に指示してよい。

ネットワークインタフェース（ネットワークI/F）９９７は、インターネットのようなネットワークに接続され、ネットワークを介して他のこのようなコンピューティング装置に接続可能であってよい。例えば、入力は、ネットワークからの知識グラフであってよい。ネットワークI/F９９７は、ネットワークを介して他の機器からのデータ入力／へのデータ出力を制御してよい。マイクロフォン、スピーカ、プリンタ、電源ユニット、ファン、筐体、スキャナ、トラックボール等のような他の周辺装置は、コンピューティング装置に含まれてもよい。

２部変換器は、メモリ９９４の一部に格納された処理命令、該処理命令を実行するためのプロセッサ９９３、及び該処理命令の実行中にグラフを格納するためのメモリ９９４の一部を有してよい。２部変換器の出力は、メモリ９９４に及び／又は２部グラフDB５０のような接続された記憶ユニットに、格納されてよい。

グラフサンプラは、メモリ９９４の一部に格納された処理命令、該処理命令を実行するためのプロセッサ９９３、及び該処理命令の実行中にシーケンスを格納するためのメモリ９９４の一部を有してよい。グラフサンプラの出力は、メモリ９９４に及び／又はシーケンスDB６０のような接続された記憶ユニットに、格納されてよい。

分布解析器は、メモリ９９４の一部に格納された処理命令、該処理命令を実行するためのプロセッサ９９３、及び該処理命令の実行中に特徴行列及びコサイン類似性を格納するためのメモリ９９４の一部を有してよい。分布解析器の出力は、メモリ９９４に及び／又は共起行列DB７０のような接続された記憶ユニットに、格納されてよい。

本発明を実現する方法は、図３３に示されたようなコンピューティング装置で実行されてよい。このようなコンピューティング装置は、図３３に示した全てのコンポーネントを有する必要はなく、これらのコンポーネントのうちの部分集合で構成されてよい。本発明を具現化する方法は、ネットワークを介して１又は複数のデータ記憶サーバと通信する単一のコンピューティング装置により実行されてよい。コンピューティング装置は、グラフ／特徴行列を格納するデータ記憶装置自体であってよい。

本発明を実現する方法は、互いに協働して動作する複数のコンピューティング装置により実行されてよい。複数のコンピューティング装置のうちの１つ以上は、グラフ又は行列の少なくとも一部を格納するデータ記憶サーバであってよい。

＜範囲及び限定＞
システムの主な範囲は、生体情報コンテキストに依存する経路ネットワーク又は刊行物から抽出された２項ステートメント、及び生体情報コンテキストに依存する経路ネットワーク又は刊行物及びそれらの出所から抽出された２項ステートメントのようなそれらの出所、の異なるアリティ及び方向の関係を符号化する知識グラフに特に焦点を当てた、グラフ構造の直ぐに使用可能な且つ効率的な表現の生成である。

主な正弦波、基礎にある２部表現により引き起こされるオーバヘッドである。これは、任意のグラフ構造の汎用的表現を可能にする一方で、トリプルで構成される標準２項グラフ又は知識グラフの表現は、標準グラフ及び関係データ構造を用いる表現より、本来、効率が劣る。

＜機能、効果＞
本発明の実施形態は、同型ではない知識グラフが一緒に処理されなけれなならない使用例において（例えば、経路データベースの中のコンテキストに依存するn-ary関係と一緒にタンパク質相互作用ネットワークの中の２項関係を分析する）、特に有利である。多様なデータセットを一緒に処理する今までに例のない能力は、基本的に不可能であった自動発見をもたらし得る。

システム生物学癌研究は、本発明が特に好ましい効果を有し得る一例である。システム生物学の作業の一態様は、シグナリング経路のモデル化を含む（癌を一緒に説明する１又は複数の経路のコンテキストの中で生じるタンパク質相互作用のセット）。失われたタンパク質相互作用を発見できることは、したがって、非常に重要である。本発明の実施形態により、システムは、タンパク質相互作用の２項関係だけでなく、経路のコンテキスト情報からも計算されたタンパク質埋め込みに基づき、及び２つのエンティティの共起の出所の科学論文を考慮して、このような予測を行い得る。実施形態の例において説明したように、混合アリティ及び混合方向性を処理できることは、システムが、より豊かな情報を利用でき、及び結果としてより正確な埋め込みを構築できるようにする。

本アプローチの柔軟性は、また、より少ない計算実施回数をもたらす。本発明の実施形態は、（混合アリティ及び方向性関係を含む）任意の種類及び歩行性のグラフ構造から分布表現を計算することを可能にする。分布表現は、それ自体への埋め込みであり、また、他のより低いランクの埋め込みを計算するために直接使用されてよい。

したがって、実施形態は、混合関係アリティ及び方向性を有するグラフ構造の効率的表現及び該グラフ構造からの推測を可能にする以下の実際の効果を有する。利益を得る重要な使用例が存在する場合でも、従来技術は、現在のところ、このような構造を処理できない。

実施形態は、以下の有利な特徴のいずれかを提供し得る。

エッジの可能な混合方向性を有する任意のグラフ構造（標準グラフ、複数グラフ、ハイパーグラフ）を取り入れ、及びそれをノード及びエッジシーケンスのリスト及び／又は特徴行列に変換し得る、上述のようなシステム／方法。これは、エンティティと関係セマンティックとの間を区別し、並びに、結果としてグラフ構造埋め込みを計算するために使用され、又は埋め込み自体として使用されてよい。

変換が、２部グラフに基づくグラフ構造の汎用的表現を利用する、上述のようなシステム／方法。

基礎にある汎用的２部グラフ表現が、メモリ効率のためにノード及びエッジの整数符号化を、及び高速グラフ演算のためにブール疎行列を利用する、上述のようなシステム／方法。

変換方法が、ノード及びエッジシーケンスを生成するために、トラバースに基づくサンプリング（例えば、縦型、横型、最良優先探索、又はランダムウォーク）を利用する、上述のようなシステム／方法。

特徴行列が、分布原理（つまり、共起解析）を用いてノード及びエッジシーケンスから生成される、上述のようなシステム／方法。

ノード及びエッジシーケンス内で生じる要素の頻度特性に基づく特徴選択が、特徴行列を構成するときに適用され得る、上述のようなシステム／方法。

＜用語集＞
Arity、アリティ：エッジにより接続されたノードの最大数を示す、グラフの特性。
Knowledge Graph、知識グラフ：（ノード／頂点により表される）アイテムの集合。アイテムのうちの任意のものは、それらの間の（型付き２項関係のような）リンクにより接続され得る。それらは、グラフ構造知識ベースとして理解できる。２つより多くのノードを接続する構造への一般化が可能であり、幾つかの用途で要求される。
Embedding、埋め込み：１つの構造の要素（例えば、グラフ内のノード又は関係、又は自然言語文のセットの中のフレーズ）の、（標準的に低次数の）連続ベクトル空間内のベクトルへのマッピング。主に構造化情報の使い勝手の良い（線形）表現のために使用される。その結果、幾つかの関心パターンがその中で発見できる。
Graph、グラフ：エンティティ（ノード又は頂点）のペアの間の関係（エッジ）を表す数学的構造。有向又は無向グラフは、標準的に区別される（有向グラフでは、ノードAからノードBへのエッジは、ノードBからノードAへのエッジと何かが異なることを意味し、一方で、無向グラフではこれは同じことを意味する）。標準的に、エッジ又はノードラベルは考慮されない。また、同じ２つのノード（複数エッジ）の間の複数の接続、及びループ（ノードをそれ自体に「接続する」エッジ）は、標準グラフでは禁止される。
Labelled Graph、ラベル付きグラフ：ラベルをノード及び／又はエッジに関連付けることのできる、グラフの一般化。
Weighted Graph、重み付きグラフ：重みの相対的重要度を反映するために、重みをそのエッジに関連付けることのできる、グラフの一般化。
Multigraph、複数グラフ：ループ及び複数エッジ（例えば、同じ２個の頂点／ノードの間にある２個のエッジ）を含むことのできる、グラフの一般化。
Hypergraph、ハイパーグラフ：２つより多くのノードをリンクするハイパーエッジを含むことのできる、グラフの一般化。
Bipartite Graph、２部グラフ：ノードのセットU、V内のノードを接続するエッジが存在しないように、U、Vを区別しなければならないグラフ。言い換えると、UからのノードをVからのノードに接続するエッジのみが許可される。
Graph Structure、グラフ構造：グラフ又はその一般化の任意の種類（例えば、複数グラフ又はハイパーグラフ）。
Graph Path、グラフパス：グラフ構造G内の長さ２k-１の、ノードux及びエッジeyのシーケンス(u１,e１,u２,e２,..,ek-１,uk)。ここで、kはパス内のノードの数であり、パス内の任意のui,ei,ui+１について、eiはuiとui+１との間のエッジを符号化する。パス内で生じるノードの数は、無限である可能性がある。
Graph Traversal、グラフトラバース：ノード間の各遷移が特定の原理を用いて選択される、グラフパス。
Depth-First Search、縦型検索：グラフトラバースの種類。グラフの包括的検索を試みるグラフパス（つまり、全てのノードを訪問する）。ノード間の各遷移は、グラフの中へより深く行こうと試みる。訪問できる新しいノードが無い場合、トラバースは最後の訪問されていないノードへ後戻りする。
Breadth-First Search、横型検索：グラフトラバースの種類。グラフの包括的検索を試みるグラフパス（つまり、全てのノードを訪問する）。ノード間の各遷移は、より深く行く前に、前のノードの全ての近隣を包括的に訪問しようと試みる。訪問できる新しいノードが無い場合、トラバースは最後の訪問されていないノードへ後戻りする。
Best-First Search、最良優先探索：グラフトラバースの種類。ノード間の各遷移が、最も効率的な検索のための次ノード候補の「見込み（promise）」を決定する、アプリケーションに依存する経験則（heuristics）に基づき選択される、グラフパス。
Random Walk、ランダムウォーク：グラフトラバースの種類。ノード間の各遷移がランダムに選択される、グラフパス。選択は、利用可能エッジの間で同様である、又は重み付きグラフ構造の中のエッジ重みに基づいてよい。
Distributional Representation、分布表現：頻繁に共起する他の要素に基づく要素の、構造の中の該要素の表現（例えば、グラフ内のノード又は関係、又はテキストコーパスの中のフレーズ）。標準的に、データ内の他の要素に関する特定の共起スコアを反映する連続ベクトルを用いて、符号化される。

以上の実施形態に加えて、更に以下の付記を開示する。
（付記１）
生体エンティティの特性を推測する、コンピュータにより実施される方法であって、
頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する２以上の知識グラフを入力するステップであって、前記知識グラフのうちの少なくとも１つは有向であり、前記知識グラフのうちの少なくとも１つはラベル付きである、ステップと、
前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無方向接続され、ラベルは前記エッジに関連付けられる、ステップと、
前記ハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされる、ステップと、
前記２部グラフをサンプリングするステップであって、前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込む、ステップと、
前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中の生体エンティティの特性を推測するステップと、
を含む方法。
（付記２）前記生体エンティティはタンパク質であり、前記知識グラフはタンパク質に関連する、付記１に記載の方法。
（付記３）一方の知識グラフ入力は、タンパク質相互作用データのような２項のみの関係を有する有向ラベルグラフであり、他方の知識グラフ入力は、経路データベースのような３項関係を有する混合有向／一方向ラベルグラフである、付記１又は２に記載の方法。
（付記４）前記２部グラフをサンプリングするステップは、
前記２部グラフをトラバースするステップであって、前記セットの間の前記リンクに沿って可能なシーケンスを提供する、ステップを含み、
前記２部グラフを埋め込むステップは、
前記シーケンスから、前記頂点、ラベル、及びエッジの特徴行列を生成するステップであって、共起スコアが前記特徴行列の各セルの中の行列エントリを形成する、ステップを含み、
前記特徴行列は、前記共起スコアに基づき前記知識グラフの中の生体エンティティの特性を推測するために使用される、付記１乃至３のいずれか一項に記載の方法。
（付記５）前記ハイパーエッジ表現は、２部グラフへの変換の前に、同じ頂点と同じ名称を有する頂点を考慮することにより結合される、付記１乃至４のいずれか一項に記載の方法。
（付記６）同じ頂点の選択的名称を一緒にグループ化するために、マッピングツールが使用される、付記５に記載の方法。
（付記７）各エッジ識別子は、(e,S,T,U)^lの形式を有し、
eはユニークなエッジ識別子であり、S、Tはそれぞれ前記エッジにより有向接続されるソース及びターゲット頂点のセットであり、Uは前記エッジにより無方向接続される頂点のセットであり、lはエッジラベルである、付記１乃至６のいずれか一項に記載の方法。
（付記８）補助エッジＡは、各頂点と該頂点の結合されるエッジとの間に形成され、２つの頂点の間の関係は、２つの補助エッジ及び前記エッジを含む、付記１乃至７のいずれか一項に記載の方法。
（付記９）補助エッジが有向エッジと頂点との間にあるとき、前記補助エッジは、前記有向エッジと同じ方向を向いている、付記８に記載の方法。
（付記１０）補助エッジは、エッジをラベル付けするラベルと前記エッジとの間に形成される、付記１乃至９のいずれか一項に記載の方法。
（付記１１）前記２部グラフのトラバースは、頂点又はエッジラベルと前記ハイパーエッジ表現のエッジとの間で交互に現れるシーケンスを生成する、付記１乃至１０のいずれか一項に記載の方法。
（付記１２）前記特徴行列は、シーケンスの中の２つのエンティティの間の前記シーケンス内の距離を考慮して共起スコアを生成し、共起スコアを各シーケンスの前記特徴行列に加算することにより入力される、付記１乃至１１のいずれか一項に記載の方法。
（付記１３）シーケンス内の最後ではない各点で開始するコンテキストウインドウを用いて、コンテキストシーケンスを与えるステップ、を更に含み、
各開始点と前記コンテキストシーケンス内の後のエンティティとの間の前記共起スコアは、前記コンテキストシーケンス内の前記エンティティ間の距離を考慮して計算され、前記特徴行列に追加される、付記１２に記載の方法。
（付記１４）前記生体エンティティの前記特性は、例えばコサイン類似性を用いて、２以上の生体エンティティの類似性を計算することにより推測される、付記１乃至１３のいずれか一項に記載の方法。
（付記１５）コンピュータ機器上で実行すると、該コンピュータ機器に付記１乃至１４のいずれか一項に記載の方法を実行させるコンピュータプログラム。
（付記１６）タンパク質の特性を推測する機器であって、メモリとプロセッサとを含み、
前記プロセッサは、２部変換器と、グラフサンプラと、分布解析器と、を提供し、
前記２部変換器は、頂点及びエッジの形式の、異なるアリティを有する、タンパク質に関連する２以上の知識グラフを受信し、前記知識グラフのうちの少なくとも１つは有向であり、前記知識グラフのうちの少なくとも１つはラベル付きであり、
前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無方向接続され、ラベルは前記エッジに関連付けられ、
前記ハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされ、
前記グラフサンプラは、前記２部グラフをサンプリングし、
前記分布解析器は、
前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、
前記特徴行列をメモリに格納し、
前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中のタンパク質の特性を推測する、機器。

１０２部変換器
２０グラフサンプラ
３０分布解析器
４０知識グラフDB
５０２部グラフDB
６０シーケンスDB
７０共起行列DB

Claims

生体エンティティの特性を推測する、コンピュータにより実施される方法であって、
頂点及びエッジの形式の、異なるアリティを有する、生体エンティティに関連する２以上の知識グラフを入力するステップであって、前記知識グラフのうちの少なくとも１つは有向であり、前記知識グラフのうちの少なくとも１つはラベル付きである、ステップと、
前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換するステップであって、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無方向接続され、ラベルは前記エッジに関連付けられる、ステップと、
前記ハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされる、ステップと、
前記２部グラフをサンプリングするステップであって、前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込む、ステップと、
前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中の生体エンティティの特性を推測するステップと、
を含む方法。
前記生体エンティティはタンパク質であり、前記知識グラフはタンパク質に関連する、請求項１に記載の方法。
一方の知識グラフ入力は、タンパク質相互作用データのような２項のみの関係を有する有向ラベルグラフであり、他方の知識グラフ入力は、経路データベースのような３項関係を有する混合有向／一方向ラベルグラフである、請求項１又は２に記載の方法。
前記２部グラフをサンプリングするステップは、
前記２部グラフをトラバースするステップであって、前記セットの間の前記リンクに沿って可能なシーケンスを提供する、ステップを含み、
前記２部グラフを埋め込むステップは、
前記シーケンスから、前記頂点、ラベル、及びエッジの特徴行列を生成するステップであって、共起スコアが前記特徴行列の各セルの中の行列エントリを形成する、ステップを含み、
前記特徴行列は、前記共起スコアに基づき前記知識グラフの中の生体エンティティの特性を推測するために使用される、請求項１乃至３のいずれか一項に記載の方法。
前記ハイパーエッジ表現は、２部グラフへの変換の前に、同じ頂点と同じ名称を有する頂点を考慮することにより結合される、請求項１乃至４のいずれか一項に記載の方法。
同じ頂点の選択的名称を一緒にグループ化するために、マッピングツールが使用される、請求項５に記載の方法。
各エッジ識別子は、(e,S,T,U)^lの形式を有し、
eはユニークなエッジ識別子であり、S、Tはそれぞれ前記エッジにより有向接続されるソース及びターゲット頂点のセットであり、Uは前記エッジにより無方向接続される頂点のセットであり、lはエッジラベルである、請求項１乃至６のいずれか一項に記載の方法。
補助エッジＡは、各頂点と該頂点の結合されるエッジとの間に形成され、２つの頂点の間の関係は、２つの補助エッジ及び前記エッジを含む、請求項１乃至７のいずれか一項に記載の方法。
補助エッジが有向エッジと頂点との間にあるとき、前記補助エッジは、前記有向エッジと同じ方向を向いている、請求項８に記載の方法。
補助エッジは、エッジをラベル付けするラベルと前記エッジとの間に形成される、請求項１乃至９のいずれか一項に記載の方法。
前記２部グラフのトラバースは、頂点又はエッジラベルと前記ハイパーエッジ表現のエッジとの間で交互に現れるシーケンスを生成する、請求項１乃至１０のいずれか一項に記載の方法。
前記特徴行列は、シーケンスの中の２つのエンティティの間の前記シーケンス内の距離を考慮して共起スコアを生成し、共起スコアを各シーケンスの前記特徴行列に加算することにより入力される、請求項１乃至１１のいずれか一項に記載の方法。
シーケンス内の最後ではない各点で開始するコンテキストウインドウを用いて、コンテキストシーケンスを与えるステップ、を更に含み、
各開始点と前記コンテキストシーケンス内の後のエンティティとの間の前記共起スコアは、前記コンテキストシーケンス内の前記エンティティ間の距離を考慮して計算され、前記特徴行列に追加される、請求項１２に記載の方法。
前記生体エンティティの前記特性は、例えばコサイン類似性を用いて、２以上の生体エンティティの類似性を計算することにより推測される、請求項１乃至１３のいずれか一項に記載の方法。
コンピュータ機器上で実行すると、該コンピュータ機器に請求項１乃至１４のいずれか一項に記載の方法を実行させるコンピュータプログラム。
タンパク質の特性を推測する機器であって、メモリとプロセッサとを含み、
前記プロセッサは、２部変換器と、グラフサンプラと、分布解析器と、を提供し、
前記２部変換器は、頂点及びエッジの形式の、異なるアリティを有する、タンパク質に関連する２以上の知識グラフを受信し、前記知識グラフのうちの少なくとも１つは有向であり、前記知識グラフのうちの少なくとも１つはラベル付きであり、
前記知識グラフの各々を、ユニークなエッジ識別子のリストとして、ハイパーエッジ表現に変換し、前記ユニークなエッジ識別子の各々はソース及びターゲット頂点を有し、頂点は前記エッジにより無方向接続され、ラベルは前記エッジに関連付けられ、
前記ハイパーエッジ表現を、２部グラフに変換するステップであって、前記２部グラフは一方のセットの中に前記頂点及びラベルを有し、他方のセットの中に前記エッジを有し、前記頂点及びラベルは前記ハイパーエッジ表現のとおりに補助エッジＡにより前記エッジにリンクされ、
前記グラフサンプラは、前記２部グラフをサンプリングし、
前記分布解析器は、
前記２部グラフを、前記頂点、ラベル、及びエッジの特徴行列の中の行列エントリとして埋め込み、
前記特徴行列をメモリに格納し、
前記特徴行列を用いて、前記行列エントリに基づき結合知識グラフの中のタンパク質の特性を推測する、機器。