JP7423998B2 - 二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム - Google Patents

二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム Download PDF

Info

Publication number
JP7423998B2
JP7423998B2 JP2019208500A JP2019208500A JP7423998B2 JP 7423998 B2 JP7423998 B2 JP 7423998B2 JP 2019208500 A JP2019208500 A JP 2019208500A JP 2019208500 A JP2019208500 A JP 2019208500A JP 7423998 B2 JP7423998 B2 JP 7423998B2
Authority
JP
Japan
Prior art keywords
missing
links
link
bipartite network
missing links
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019208500A
Other languages
English (en)
Other versions
JP2020098585A (ja
Inventor
ジアン ジャオ
チェン フランシーン
チィーウ パトリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2020098585A publication Critical patent/JP2020098585A/ja
Application granted granted Critical
Publication of JP7423998B2 publication Critical patent/JP7423998B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は一般にデータ分析、より詳細には二部ネットワーク内のミッシングリンクを決定し視覚化するためのデータ分析に関する。
多数の実世界の複雑なシステムは、二部(bipartite)ネットワーク(二モードネットワーク)としてモデリングされることできる。二部ネットワークは、一つのネットワーク内に二つの種別のノードがあり異なるノード種別の間にしかリンクが存在しないネットワークである。二部関係の分析は、出席調べ投票記録に基づく有権者投票ネットワークによる政治的傾向の研究や生物情報学における遺伝子発現ネットワークの調査などの様々な応用領域でのデータ分析に使用されている。
そのようなネットワークの分析の一つの問題点は、現在観察されているリンクに基づくノード間の新しい関係の存在を推測するリンク予測(例えば、ミッシングリンクの検出)である。実世界のデータは場合によってノイズを含むか又は不完全であることから、そのようなリンク予測は有用である。但し、通常はリンク予測アルゴリズムの出力は全ての予測されたミッシングリンクのスコア又は確率の解釈困難なリストを含むだけであり、その結果は不正確なものになる可能性がある。
(先行技術文献)
(非特許文献)
(非特許文献1)CARRUBBA, C., et al., Legislative Voting Behaviour, Seen and Unseen: A Theory of Roll-Call Vote Selection, Legislative Studies Quarterly, 33(4), November 2008, pp. 543-572.
(非特許文献2)CHANG, Y-J., et al., Link Prediction in a Bipartite Network Using Wikipedia Revision Information, In 2012 Conference on Technologies and Applications of Artificial Intelligence, IEEE, November 15-16, 2012, Tainan, Taiwan.
(非特許文献3)FIAUX, P., et al., Blxpolar Visual Analytics with Biclusters, Computer, August 2013, pp. 90-94.
(非特許文献4)GHONIEM, M., et al., On the Readability of Graphs Using Node-Link and Matrix-Based Representations: A Controlled Experiment and Statistical Analysis, Information Visualization, 4, 2005, pp. 114-135.
(非特許文献5)GROTHAUS, G. A., et al., Automatic Layout and Visualization of Biclusters, Algorithms for Molecular Biology, 2006,1 (15), 11pgs.
(非特許文献6)HECKERMAN, D., el al., Probabilistic Entity-Relationship Models, PRMs and Plate Models, Proceedings of the 21st International Conference on Machine Learning, 2004, Banff, Canada, 6 pgs.
(非特許文献7)HEINRICH, J., et al., Bicluster Viewer: A Visualization Tool for Analyzing Gene Expression Data, Advances in Visual Computing, July 2011, pp. 641-652.
(非特許文献8)HENRY, N., et al., NodeTrix: A Hybrid Visualization of Social Networks, IEEE Transactions on Visualization and Computer Graphics, 13(6), 2007, pp. 1302-1309.
(非特許文献9)HUANG, Z., et al., Link Prediction Approach to Collaborative Filtering, JCDL '05 Proceedings of the 5th ACM/IEEE Joint Conference on Digital Libraries, June 7-11, 2005, Denver, Colorado, pp. 141-142.
(非特許文献10)ISENBERG, P., et al., Visualization Publications Dataset, IEEE Transactions on Visualization and Computer Graphics 23(9), September 2017, pp. 2199-2206, [online] [retrieved 2018] URL: https://sites.***.com/site/vispubdata/home
(非特許文献11)KAPUSHESKY, M., et al., Expression Profiler: Next Generation-An Online Platform for Analysis of Microarray Data, Nucleic Acids Research, 32, 2004, pp. W465-W470.
(非特許文献12)KELLER, R., et al., Matrices or Node-Link Diagrams: Which Visual Representation is Better for Visualising Connectivity Models?, Information Visualization 2006, 5, pp. 62-76.
(非特許文献13)LIBEN-NOWELL, D., et al., The Link-Prediction Problem for Social Networks, Journal of the American Society for Information Science and Technology, 58(7), 2007, pp. 1019-1031.
(非特許文献14)LICHTENWALTER, R. Y., et al., Vertex Collocation Profiles: Subgraph Counting for Link Analysis and Prediction, In Proceedings of the 21st international Conference on Word Wide Web, WWW '12, Lyon, France, pp. 1019-1028.
(非特許文献15)MADEIRA, S. C., et al., Biclustering Algorithms for Biological Data Analysis: A Survey, IEEE Transactions on Computational Biology and Bioinformatics, 1(1), January-March 2004, pp. 24-45.
(非特許文献16)MARTINEZ, V., et al., A Survey of Link Prediction in Complex Networks, ACM Computing Surveys, December 2016 49 (4), 34 pgs.
(非特許文献17)SANTAMARIA, R., et al., BicOverlapper 2.0: Visual Analysis for Gene Expression, Bioinformatics, 2014, 30(12), pp. 1785-1786.
(非特許文献18)SCELLATO, S. et al., Exploiting Place Features in Link Prediction on Location-Based Social Networks, In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD '11, San Diego, California, August 21-24,2011, pp. 1046-1054.
(非特許文献19)STASKO, J., et al., Jigsaw: Supporting Investigative Analysis Through Interactive Visualization, Information Visualization, 2008, 7, pp. 118-132.
(非特許文献20)STREIT, M,, et al., Furby: Fuzzy Force-Directed Bicluster Visualization, BMC Bioinformatics, 2014,15 (Suppl 6); S4, 13pgs.
(非特許文献21)SUN, M., et al., BiSet: Semantic Edge Bundling with Biclusters for Sensemaking, IEEE Transactions on Visualization and Computer Graphics, 22(1), January 2016, pp. 310-319.
(非特許文献22)TONG, H., et al., Fast Random Walk with Restart and Its Applications, In Proceedings of International Conference on Data Mining, IEEE, December 2006,12 pgs.
(非特許文献23)WANG, P., et al., Link Prediction in Social Networks; the State-of-the-Art, Science China Information Sciences, January 2015, 58(1), 38 pgs.
(非特許文献24)YU, K , et al., Gaussian Process Models for Link Analysis and Transfer Learning, Advances in Neural Information Processing Systems, 2008, pp. 1657-1664.
(非特許文献25)ZHANG, Y., et al., On Finding Bicliques In Bipartite Graphs: A Novel Algorithm and its Application to the Integration of Diverse Biological Data Types, BMC Bioinformatics, 2014,15(1): 110,18 pgs.
(非特許文献26)WOHLFARTH, T., et al., Semantic and Event-Based Approach for Link Prediction, Practical Aspects of Knowledge of Management, Springer Berlin-Heidelberg, 2008, pp. 50-61.
(非特許文献27)XlA, S., et al., Link Prediction for Bipartite Social Networks; The Role of Structural Holes, 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, August 2012, pp. 153-157.
実際、分析者は自分の領域知識を応用してアルゴリズムの出力を調べる必要がある。関連技術の諸問題を扱うために、本開示において二部ネットワーク内のミッシングリンクを検出し調べるための汎用の視覚分析フレームワークを提案する。第一に、前記フレームワークはネットワーク内のバイクリックの情報を活用するアンサンブル法である二部ネットワークの新規のリンク予測手法を提供する。第二に、対話型視覚化を用いて、検出したミッシングリンクを提示し、指標ベースの手法(例えば、ノード媒介性の計算)及びモチーフベースの手法(例えば、クリックの検出)という二つの最も一般的なネットワーク分析手法によって、前記ミッシングリンクの意味と影響との理解を深めることができる。
さらに、ミッシングリンクの検出及び視覚化の問題を扱った関連技術は存在しない。より具体的には、一つの例示的な実施態様では、リンクが本発明者らのフレームワークにおける着目点であって視覚的に強調される必要があるため、行列ベースの設計が採用される。
さらに、ネットワークの一般的なリンク予測アルゴリズムは二つの大きいカテゴリ、すなわち、学習ベース及び類似性ベースのアルゴリズムに大別される。学習ベースの方法はリンク予測をバイナリ分類問題として処理し、機械学習モデルを訓練して各々の非接続ノード対のクラスラベル(すなわち、ポテンシャルリンキングに対してポジティブ(Positive)な)を予測する。一つの関連技術の手法は特徴ベースの分類で、これはノード属性、トポロジー構造、社会理論、又はそれらの組み合わせに基づいて特徴を抽出する。また別の手法はリレーショナルモデルを含む確率的グラフモデル、エンティティ関係モデルなどに基づく。これらの技法は、有効であるとはいえ、あまり一般的ではなく、観察されたネットワーク構造に加えて、ある程度の追加の情報(例えば、セマンチックノード属性)を必要とすることが多い。但し、訓練された機械学習モデルはある種の特性を備えたネットワーク上でのみ良好に動作する(訓練の組に応じて)可能性がある。
他方、類似性ベースの方法は全ての非接続ノード対に基づいて類似性スコアを計算し、それら全ての潜在的リンクをランク付けしようと試みる。類似性指標の計算方法はランダムウォークベースのシミュレーションと、共通隣接ノード、ジャッカード(Jaccard)係数、アダミック-アダール(Adamic-Adar)係数、及び優先的アタッチメントなどの隣接ノードベースの測定とを含む。類似性指標のいくつかを二部ネットワークシナリオに拡張している研究者がいる。例示的な諸実施態様は一ステップ進めて、二部ネットワーク内の重要なタイプの構造情報、すなわち、バイクリックを統合して予測性能を改良することによるアンサンブル法のファミリをさらに提案している。
本開示の第1態様は、二部ネットワークとして表されるデータ及び前記二部ネットワーク内のミッシングリンク(missing link)の組(非接続ノード間に存在する潜在的なリンク)について、前記二部ネットワークのバイクリック(biclique(サブネットワーク))に基づいて前記組内の前記ミッシングリンクの各々の重みを計算することと、前記ミッシングリンクの各々の前記重みを組み込むように構成されたリンク予測アルゴリズムを実行することと、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供することとを含んでもよい方法を含む。
本開示の第2態様は、第1態様において、前記二部ネットワークのバイクリックに基づいて前記組内の前記ミッシングリンクの各々の前記重みを計算することが、バイクリックの各対のしきい値を満足する重畳ノードの数とサイズとに基づくスコアを有するバイクリックの各対について、バイクリックの対の間のミッシングリンクの前記組のミッシングリンクの前記重みを計算すること、を含む。
本開示の第3態様は、第2態様において、バイクリックの各対の間のミッシングリンクの前記組のミッシングリンクの前記重みを前記計算することがバイクリックの各対の重畳ノードの前記数と前記サイズとに基づく。
本開示の第4態様は、第1態様において、前記二部ネットワーク内の第一のタイプのノードを表す行と、第二のタイプのネットワークの行を表す列とを含み、行列内のエントリの各々が前記第一のタイプのノードと第二のタイプのノードとの間のリンクを表す双隣接行列として前記二部ネットワークを提示することをさらに含み、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして前記提供することが前記エントリを前記リンク予測アルゴリズムによって提供されたスコアによる色相として表すこと、を含む。
本開示の第5態様は、第4態様において、前記二部ネットワークを前記提示することが選択された判定基準に従って前記双隣接行列の前記行及び列を配置するように構成されたインタフェースを提供すること、を含む。
本開示の第6態様は、第1態様において、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして提供することが前記予測されたミッシングリンクを確率によって直線的に提示すること、を含む。
本開示の第7態様は、二部ネットワークとして表されるデータ及び前記二部ネットワーク内のミッシングリンクの組について、前記二部ネットワークのバイクリックに基づいて前記組内の前記ミッシングリンクの各々の重みを計算することと、前記ミッシングリンクの各々の前記重みを組み込むように構成されたリンク予測アルゴリズムを実行することと、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供することとをコンピュータに実行させる。
本開示の第8態様は、第7態様において、前記二部ネットワークのバイクリックに基づいて前記組内の前記ミッシングリンクの前記各々の前記重みを前記計算することが、バイクリックの各対のしきい値を満足する重畳ノードの数とサイズとに基づくスコアを有するバイクリックの各対について、バイクリックの対の間のミッシングリンクの前記組のミッシングリンクの前記重みを計算すること、を含む。
本開示の第9態様は、第8態様において、バイクリックの各対の間のミッシングリンクの前記組のミッシングリンクの前記重みを前記計算することがバイクリックの各対の重畳ノードの前記数と前記サイズとに基づく。
本開示の第10態様は、第7態様において、前記二部ネットワーク内の第一のタイプのノードを表す行と、第二のタイプのネットワークの行を表す列とを含み、行列内のエントリの各々が前記第一のタイプのノードと第二のタイプのノードとの間のリンクを表す双隣接行列として前記二部ネットワークを提示することをさらに含み、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして前記提供することが前記エントリを前記リンク予測アルゴリズムによって提供されたスコアによる色相として表すこと、を含む。
本開示の第11態様は、第10態様において、前記二部ネットワークを前記提示することが選択された判定基準に従って前記双隣接行列の前記行及び列を配置するように構成されたインタフェースを提供すること、を含む。
本開示の第12態様は、第7態様において、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして提供することが前記予測されたミッシングリンクを確率によって直線的に提示すること、を含む。
本開示の第13態様は、二部ネットワークとして表されるデータ及び前記二部ネットワーク内のミッシングリンクの組について、前記二部ネットワークのバイクリックに基づいて前記組内の前記ミッシングリンクの各々の重みを計算し、前記ミッシングリンクの各々の前記重みを組み込むように構成されたリンク予測アルゴリズムを実行し、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供するように構成されたプロセッサを含んでいてもよい装置を含む。
本開示の第14態様は、第13態様において、前記プロセッサが、バイクリックの各対のしきい値を満足する重畳ノードの数とサイズとに基づくスコアを有するバイクリックの各対について、バイクリックの対の間のミッシングリンクの前記組のミッシングリンクの前記重みを計算することによって、前記二部ネットワークのバイクリックに基づく前記組内の前記ミッシングリンクの前記重みを計算するように構成された。
本開示の第15態様は、第14態様において、前記プロセッサがバイクリックの各対の重畳ノードの前記数と前記サイズとに基づいてバイクリックの各対の間のミッシングリンクの前記組のミッシングリンクの前記重みを計算するように構成された。
本開示の第16態様は、第13態様において、前記プロセッサが、前記二部ネットワーク内の第一のタイプのノードを表す行と、第二のタイプのネットワークの行を表す列とを含み、行列内のエントリの各々が前記第一のタイプのノードと第二のタイプのノードとの間のリンクを表す双隣接行列として前記二部ネットワークを提示するように構成され、前記プロセッサが前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを、前記エントリを前記リンク予測アルゴリズムによって提供されたスコアによる色相として表すことによって、前記二部ネットワークの前記予測されたミッシングリンクとして提供するように構成された。
本開示の第17態様は、第16態様において、前記プロセッサが、選択された判定基準に従って前記双隣接行列の前記行及び列を配置するように構成されたインタフェースを提供することによって、前記二部ネットワークを提示するように構成された。
本開示の第18態様は、第13態様において、前記プロセッサが、前記予測されたミッシングリンクを確率によって直線的に提示することによって、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして提供するように構成された。
本開示の第19態様は、第13態様において、前記プロセッサが、インタフェース上での前記予測されたミッシングリンクの一つの選択に応答して、前記予測されたミッシングリンクの前記一つを前記二部ネットワーク内に追加することによって前記予測されたミッシングリンクの選択された一つについてのモチーフ分析又は指標分析の少なくとも一方を実行し、前記予測されたミッシングリンクの前記選択された一つについての前記モチーフ分析又は前記指標分析の少なくとも一方の結果を提供するように構成された。
本開示の第20態様は、二部ネットワークとして表されるデータ及び前記二部ネットワーク内のミッシングリンクの組について、前記二部ネットワークのバイクリックに基づいて前記組内の前記ミッシングリンクの各々の重みを計算する手段と、前記ミッシングリンクの各々の前記重みを組み込むように構成されたリンク予測アルゴリズムを実行する手段と、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供する手段とを含んでいてもよいシステムを含む。
図1は、例示的な一つの実施態様による例示的なシステム概略図である。
図2は、例示的な一つの実施態様によるバイクリックを示す図である。
図3は、例示的な一つの実施態様によるミッシングリンクの視覚的調査を容易にする例示的なインタフェースを示す図である。
図4(a)は、例示的な一つの実施態様による例示的な流れ図である。 図4(b)は、例示的な一つの実施態様による例示的な流れ図である。
図5は、大量の実験結果の各条件の平均性能を示す図である。
図6は、例示的な諸実施態様で使用するのに適した例示的なコンピュータデバイスを備えた例示的なコンピュータ環境を示す図である。
以下の詳細な説明において、本出願の図及び例示的な諸実施態様について詳述する。図にまたがって繰り返される要素の参照番号及び説明は図が見やすいように省略される。明細書を通して使用される用語は例として提供されたものであって、限定的なものではない。例えば、「自動的」という用語の使用は、本出願の諸実施態様を実施する当業者の所望の実施態様に応じて、前記実施態様の一定の諸態様に対するユーザ又はアドミニストレータの制御を含む全自動又は半自動の諸実施態様を含んでいてもよい。選択は、ユーザによってユーザインタフェース又はその他の入力手段を通して実行されてもよく、又は所望のアルゴリズムを通して実施されてもよい。本明細書に記載の例示的な諸実施態様は単独で、又は組み合わせて使用でき、前記例示的な諸実施態様の機能は所望の諸実施態様による手段によって実施することができる。
本明細書に記載の「非接続ノード対」という用語は、元のネットワーク内で接続されていないノードとして定義される。「ミッシングリンクの組」という用語は、非接続ノード間に存在する潜在的なリンクとして定義される。「予測されたミッシングリンク」という用語は、本明細書に記載の例示的な諸実施態様のアルゴリズムによって生成される確率を有するミッシングリンクとして定義される。
図1は、例示的な一つの実施態様による例示的なシステム概略図である。本明細書に記載の例示的な諸実施態様では、データ100は分析モジュール及び視覚化モジュールを含むフレームワークによって処理される。前記分析モジュールは二部ネットワーク内のミッシングリンク予測101と、ノード指標計算103及びサブネットワークモチーフ検出102を含むネットワーク観察の最も一般的な二つの方法とをサポートする。本明細書に記載のリンク予測方法は、ネットワーク内のバイクリックの構造情報を活用でき、この情報を任意の関連技術の類似性ベースのリンク予測アルゴリズムと統合することができる。前記視覚化モジュールは前記分析モジュールの全ての出力を表示し、分析者が充実したユーザ対話によってデータを調査することを可能にする。分析者は識別されたミッシングリンク104、ネットワークモチーフ105、及びノード指標106を視覚的に調査し、元のネットワークと追加されたリンクを備えたネットワークとに関する分析結果を比較することで特定のリンクの影響をさらに調べることができる。
正式には、二部ネットワークはG=(X,Y,E)として定義でき、ここでX及びYは重ならないノードの組、EはXとYとの間にのみ存在するリンクの組である、すなわち、e=(x,y)∈E、ここでx∈X及びy∈Yである。二部ネットワークの場合、全ての可能なリンクの数は|X|・|Y|であり、本発明者らはこれらのリンクをUで表す。したがって、リンク予測問題とは組U-E内でどのリンクが確かに行方不明であるかを識別することである。
リンク予測アルゴリズム、特に、各々の非接続ノード対の類似性を最初に計算する類似性ベースの方法が使用される。類似性の値に基づいて、この方法は、推奨のため減少するスコアと共にミッシングリンクのランク付けされたリストを生成できる。複数のノード対間の類似性を計算する一つの方法は、ランダムウォークである。類似性を測定する別の方法は、共通隣接ノード、ジャッカード(Jaccard)係数、アダミック/アダール(Adamic/Adar)係数、及び優先的アタッチメントを含む二つのノードの隣接ノードの比較に基づく。
上記アルゴリズムに基づいて、本明細書に記載の例示的な諸実施態様は二部ネットワーク内の一つの重要なタイプの構造、すなわち、バイクリック(別名:完全二部グラフ)を統合する新規の手法を提供する。正式には、バイクリックはサブネットワーク、G’=(X’,Y,E’)として定義され、ここでX’⊆X,Y’⊆Y、E’⊆Eで、どのノード対の間にもリンクe=(x,y)∈E’が存在する(ここでx∈X、y∈Y)。ネットワーク内の全てのバイクリックを効率的に検出するための多数のアルゴリズムが提案されており、本明細書に記載の例示的な一つの実施態様では、最大バイクリック列挙アルゴリズム(MBEA(Maximal Biclique Enumeration Algorithm))が試験される。
図2は、例示的な一つの実施態様によるバイクリックを示す図である。いくつかのノードを共有する二つのコミュニティとしての二つのバイクリックを考えてみる。二つのコミュニティの非重畳ノードの間の各ミッシングリンクは全てのノードにとって有益であるより大きいコミュニティの形成に寄与する。二つのコミュニティが多数のノードを共有する場合、追加できる少数のミッシングリンクの各々は、より大きいバイクリックがかなり容易に形成できることからより大きい値を有する。他方、二つのコミュニティが共有するノードがより少ない場合、二つのバイクリックをより大きいバイクリックに統合するためにそれだけさらに多くのリンクを追加する必要があり、ミッシングリンクの各々の値は小さくなる。
この直感に従い、例示的な諸実施態様は上記類似性ベースの方法によって生成されるミッシングリンクリストを再度ランク付けするアルゴリズムを含む。例示的な諸実施態様では、提案されたアルゴリズムはネットワーク内のバイクリックの情報に基づいて全てのミッシングリンクについて重みWを計算する(図2のMで)。リンクの重みはバイクリックの各対を処理するときに計算される全ての値の総和であり、各対において値は二つのバイクリックの差とその重なりとのサイズによって決定される。直感的には、図2に示すように、繰り返しにおいて計算される値は交差部M1の面積をミッシング部分Mの面積で除算した値に相当する。次いで、重み及び類似性スコアはそれらの最大値によって正規化され、s’(x,y)=w(x,y)・x(x,y)により新しいスコアで新たにランク付けされたリストを生成する。上記の手法を任意の既存の一般的な類似性ベースのリンク予測と併用してアルゴリズムのファミリを作成することができる。
但し、アルゴリズムは完璧ではない。ミッシングリンク予測が誤っていることもある。これはリアルワールドのシナリオがはるかに複雑であり、アルゴリズム設計の全領域であらゆるニュアンスを考慮することは困難であることによる。アルゴリズムからの出力をさらに調査するためには分析者の事前の知識が必要であり、それによって人間の柔軟性と機械のスケーラビリティとが組み合わされる。
例示的な諸実施態様は、分析者が二部ネットワーク内で上記方法によって識別されたミッシングリンクの理解を深める手助けになる視覚インタフェースを含む。この視覚化モジュールは五つの対話型調整ビュー、すなわち、ミッシングリンクの調査をサポートするネットワークビュー及びリンクリストビュー、モチーフの分析を提供するモチーフオーバービュー及び詳細ビュー、並びに図3に示すノードベースの指標を表示する指標ビューを含む。これらのビューは分析モジュールの出力を視覚形式で提示して分析者がミッシングリンクに関する何、なぜ、どのようにという質問に効率的に答えることを可能にする。
図3は、例示的な一つの実施態様によるミッシングリンクの視覚的調査を容易にする例示的なインタフェースを示す図である。図3の例示的なインタフェースには、いくつかのビューがある。第一に、インタフェースペイン(a)内に示すネットワークビュー300は二部ネットワークの双隣接行列を表示する。ここで行及び列はそれぞれ二つの異なるタイプのノードを表す。各リンクは行と列との交差部における正方形で表すことができる。前記ネットワーク内の既存のリンクは第一の色スケール(例えば、黄色-緑)で表示でき、ここで色相はリンクの重みを反映する。これが重みなしネットワークの場合、全てのリンクは最も暗い色相(例えば、緑)で表示される。予測されたミッシングリンクは第二の色スケール(例えば、白-紫)で表示でき、ここでより暗い色はリンク予測アルゴリズムによって決定されたより高い確率又はスコアを反映する。
さらに、インタフェースペイン(b)内に示すリンクリストビュー301は確率又はスコアによってミッシングリンクを直線的に提示するように構成され、ここで各リンクはネットワークビュー300と同様に視覚化される。リンクのランク及び接続ノードなどの追加情報が提供される。リンクリストビュー301はネットワークビュー300と協働し、分析者は別の観点からミッシングリンク予測の理解を深めることができる。
例示的な諸実施態様では、様々なインタフェース機能が提供される。ネットワークビュー300では、分析者はノードラベル、平均予測スコア、及び検出されたミッシングリンクの総数などの一定の判定基準を用いて行列の行と列とを並べ替えることができる。また、分析者は、例えば、アルゴリズムによって提案された最も確実と思えるミッシングリンクを明らかにするために、予測スコアに基づいて行列をフィルタリングすることもできる。さらに、別の数種類のリンク予測アルゴリズムを適用し視覚化で表示して結果を容易に比較することができる。
さらに、分析者はリンク予測結果を調査してある種のミッシングリンクを追加し、以下に記載するモチーフ及び指標の視覚分析によってその影響を調べることができる。追加されたリンクは行列上に印が付けられて(例えば、黒い十字の)リストの最上部にも表示される。個々の複数のリンク又はリンクのグループを行列から選択して一度に追加することができる。
モチーフ分析はネットワークのトポロジーを理解する一つの主要な手法である。二部ネットワークでは、バイクリックが最も重要な構造パターンの一つである。インタフェースペイン(c)内には詳細ビュー302があり、モチーフを異なるスケールで閲覧するためのオーバービュー303がインタフェースペイン(d)内に提供されている。これらの二つのビューは前記ネットワーク内で検出された全てのバイクリックの視覚的調査と、ある種のミッシングリンクが追加された場合の結果の変更の調査を提供する。モチーフ詳細ビュー302では、バイクリックがネットワークビュー300と同様に視覚コード化された行列の小さい倍数として示されている。本質的に、バイクリックはネットワーク全体の双隣接行列の一部である。さらに、モチーフオーバービュー303は全てのバイクリックを多次元尺度構成法(MDS)による投影に基づいて二次元空間内の点として表示する。二つのバイクリックは各タイプのノードの組の間のジャッカード(Jaccard)距離の総和で測定される。
追加リンクを用いて、又は用いずに分析者がネットワーク内で検出したバイクリックの二つの組の比較をサポートするために、モチーフ詳細ビュー302はバイクリックを三つの列、すなわち、削除されたバイクリック、新たに追加されたバイクリック、及び変更がないバイクリックの列に編成して元のネットワークのバイクリックの組と対比させる。それらの列は異なる色(例えば、赤、緑、及び灰色)で表される境界内にある。各列内で、バイクリックのデフォルトの配置はサイズ別であるが、これは別の並べ替え基準に変更できる。同様に、モチーフオーバービュー303はこれらのバイクリックを三つの異なる色でコード化する。
さらに、ジャッカード(Jaccard)距離を用いて、削除されたバイクリックと追加されたバイクリックとの間の類似性を計算して、構造の変化とミッシングリンクの影響との理解を容易に深めることができる。モチーフ詳細ビュー302で、分析者がバイクリック上でホバーするとき、この情報が関連するバイクリックを接続するリンクとして示され、リンクの厚さがその対類似性値に対応付けられる。
ノード指標の計算は社会科学その他の領域におけるネットワークの特性の輪郭をつかむための方法である。インタフェースペイン(e)内の指標ビュー304は、ある種のミッシングリンクの追加前後の次数、近接性、及び媒介中心性を含むいくつかの指標を従来の表形式ビュー内に提示することでこの種の分析をサポートする。指標値の変化は強調表示される(例えば、赤で)。またこの表は他のビューと対話形式でリンクされている。例えば、ある行の上でホバーするとネットワークビュー301内の対応するノードが強調される。多数のノード(行)がある可能性があるため、検索機能を提供することもでき、他のビュー内のノード上でホバーすると前記表内の対応する行が自動的に表示される。
提案されたミッシングリンク予測手法の正確度の妥当性検査を行うために、アトランティックストーム(Atlantic Storm)コーパスから抽出された重み付き人物-場所ネットワーク、スラック(Slack)コミュニケーションメッセージから検出された重み付きユーザ-会話二部ネットワーク、及びIEEE VIS出版物コーパスの著者と論文とをつなぐ重みなし二部ネットワークを含む三つの二部ネットワークで定量的実験が実施された。
ミッシングリンクのグランドトゥルース(ground truth)は存在しないため、試験では元のネットワークから一定数のリンクをランダムに削除し、この新しいネットワークにリンク予測アルゴリズムを適用し、検出されたミッシングリンクを削除された(実際に行方不明である)リンクと比較することで性能を測定した。これがグランドトゥルース(ground truth)である。アンサンブル手法の妥当性検査を行うため、共通隣接ノード、ジャッカード(Jaccard)係数、アダミック/アダール(Adamic/Adar)係数、優先的アタッチメント、及びランダムウォーク法を含む5つの既存のリンク予測アルゴリズムが前記手法に統合された。各アルゴリズムについてその性能を様々な状況下で試験するために、試験では入力ネットワークからランダムに1%、2%、5%、10%及び15%のリンクを削除した。これらの条件の各々で、標本の偏りを取り除くためにランダムなリンク削除を五回行って前記実験を実施した。
図4(a)は、例示的な一つの実施態様による提案されたアルゴリズムの例示的な流れ図である。
400で、フローは二部ネットワークG=<X,Y,E>(X及びYは各々前記二部ネットワーク内のノードの組で、Eは前記二部ネットワーク内に存在するリンクを表す)内のバイクリックを検出し、それらをリストL={C=<X,Y,E>}内に組み込む。バイクリックは所望の実施態様に応じて任意の方法で検出できる。
401で、は全てのミッシングリンクe∈U-E,U={∀<x,y>;x∈X,y∈Y}の重みを初期化する。ここでUは前記二部ネットワーク内に存在し得る全てのリンクの組である。例示的な一つの実施態様では、フローはW←0を設定するか又は所望の実施態様に応じてその他の基線値を設定する。
402で、バイクリックの各対の重畳ノードの数とサイズとに基づく、しきい値を満足するスコアoを有するリストLから得たバイクリックの各対(C,C)について、フローは403に記載のミッシングリンクの重みの計算を実施する。例示的な一つの実施態様では、前記スコアはバイクリックの前記各対のしきい値を満足する重畳ノードの数とサイズとに基づいていてもよく、したがって、しきい値を所望の実施態様に設定してもよい。前記スコアoを計算する例示的な式は以下の通りである。
oがしきい値を満たさない場合、バイクリックの前記対は捨てられ、次のバイクリックの対が考慮される。そうでなければ、フローは403へ進んで、バイクリックの前記対の間のミッシングリンクの重みを計算する。例示的な計算は前記バイクリックの対の間の重畳ノードの前記数と、リンクが前記ノードの対応する値(例えば、前記バイクリックの対のサイズ)に基づいていた可能性の影響とに基づいて増分方式で行ってもよい。例示的な一つの実施態様では、そのような計算を行う式は以下を含んでいてもよい。
404で、フローは進行し、全てのバイクリックの対が処理されるまで403のフローにループバックする。
図4(b)は、例示的な一つの実施態様による例示的な全体流れ図である。二部ネットワークとして表されるデータと前記二部ネットワーク内のミッシングリンクの組を考慮すると、410で、図4(a)のアルゴリズムが実行されて前記二部ネットワークのバイクリックに基づいて前記組内の前記ミッシングリンクの各々の重みが計算される。
411で、フローは前記ミッシングリンクの各々の重みを組み込むように構成されたリンク予測アルゴリズムを実行する。本明細書に記載のアルゴリズムなどの当技術分野で周知の任意のリンク予測アルゴリズムをこのために利用することができる。
412で、図3に示すように、フローは前記リンク測定アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供する。これは、図3に示すように、前記二部ネットワーク内の第一のタイプのノードを表す行と、第二のタイプのネットワークのノードを表す列とを含み、行列内のエントリの各々が前記第一のタイプのノードと第二のタイプのノードとの間のリンクを表す双隣接行列として前記二部ネットワークを提示することを含んでいてもよい。前記リンク予測アルゴリズムはしきい値を満足する特定のリンクのための前記リンク予測アルゴリズムによって得られたスコアに基づいて前記予測されたミッシングリンクを選択でき、又は全てのミッシングリンクを所望の実施態様に応じて前記双隣接行列内に表示できる。図3に示すように、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして提供することは、前記エントリを前記リンク予測アルゴリズムによって提供されたスコアによる色相として表すことを含んでいてもよい。さらに図3に記載するように、前記二部ネットワークを提示することは、選択された判定基準(ノードのタイプ、平均スコアなど)に従って前記双隣接行列の行及び列を配置するように構成されたインタフェースを提供することを含んでいてもよい。さらに図3に示すように、前記リンク測定アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして提供することは、前記予測されたミッシングリンクを確率によって直線的に提示することを含んでいてもよい。
図5は、前記実験結果の各条件の平均性能を数字で示す図である。各条件(すなわち、表のセル内の)について、三つの数字が(1)基準値の平均指標、(2)提案された方法の平均指標、及び(3)五回にわたる提案された方法の改良(元のデータセットから異なる数のリンクを削除する作業に関して)を示す。最高の性能及び改良は各データセット内の各指標について太字で強調表示されている。性能指標(R適合率(R-Precision)又は曲線下部面積-適合率・再現率(Area Under Curve-Precision Recall (AUC PR))が各回ごとに計算され、リンクの一定の割合を削除することで入力ネットワークが構築される。
この結果から、前記提案されたバイクリック指向方法は、R適合率及びAUC PRの両方を様々なレベルで改良することにより全ての条件における基準値を広げている。性能向上の幾分かは大きく、最大の改良が重みなしアトランティックストーム(Atlantic Storm)データセットの優先的アタッチメントアルゴリズムで出現した(R適合率が0.564、AUC PRが0.557)。したがって、図4A及び4Bに記載するアルゴリズムの諸実施態様を用いて関連技術のアルゴリズムの改良を達成でき、関連技術のリンク予測アルゴリズムを強化してより正確にミッシングリンクを検出することができる。
そのような例示的な諸実施態様は、特に、大量のデータが存在し前記データが場合によってノイズが多いリアルワールドのデータを含むビッグデータ分析に適用できる。例えば、遺伝子発現の決定に利用されるデータの場合、遺伝子は様々な条件に関連し、前記二部ネットワークは第一のタイプのノード(遺伝子)と第二のタイプのノード(発生し得る状態/疾患)とを含む。実際、状態及び遺伝子の数があまりに多いため、あらゆるタイプの遺伝子の組み合わせについて実験を行うことは非現実的である。例示的な諸実施態様によって、そのような二部ネットワークを分析して、ミッシングリンクの検出によって遺伝子のどの組み合わせがどの状態を確実に引き起こしそうかを突き止めることができ、ユーザはそれらの特定の遺伝子/状態の実験に的を絞ることができる。
創薬を含む別の例示的な実施態様では、前記二部ネットワークは様々なタイプの分子と様々なタイプの状態(例えば、副作用、疾患治療効能)を含んでいてもよい。ユーザが関心を抱く分子及び状態のタイプがあまりにも多岐にわたるため、創薬は法外な実験量を含む可能性がある。本明細書に記載のアルゴリズムを適用することで、関連技術のリンク予測アルゴリズムと比較して、薬物分子の組み合わせと状態との間の因果関係をより正確に決定することができる。これによりユーザはそのような状態をこの方法で試験する薬物実験に集中することができる。
図6は、例示的な諸実施態様で使用するのに適した例示的なコンピュータデバイスを備えた例示的なコンピュータ環境を示す図である。コンピュータ環境600内のコンピュータデバイス605は1又は複数の処理装置、コア、又はプロセッサ610、メモリ615(例えば、RAM、ROM、及び/又は同種のもの)、内部記憶装置620(例えば、磁気、光学、固体記憶装置、及び/又は有機記憶装置)、及び/又はI/Oインタフェース625を含んでいてもよく、そのいずれも情報通信のために通信機構又はバス630に接続でき、又は前記コンピュータデバイス605内に内蔵されていてもよい。
コンピュータデバイス605は入力/ユーザインタフェース635及び出力デバイス/インタフェース640に通信可能に接続できる。入力/ユーザインタフェース635及び出力デバイス/インタフェース640の一方又は両方は有線又は無線インタフェースであってもよく、着脱可能であってもよい。入力/ユーザインタフェース635は、入力を提供するために使用できる物理的又は仮想の任意のデバイス、コンポーネント、センサ、又はインタフェース(例えば、ボタン、タッチスクリーンインタフェース、キーボード、ポインティング/カーソル制御、マイクロフォン、カメラ、点字、人感センサ、光学読み取り装置、及び/又は同種のもの)を含んでいてもよい。出力デバイス/インタフェース640は、ディスプレイ、テレビジョン、モニタ、プリンタ、スピーカ、点字又は同種のものを含んでいてもよい。いくつかの例示的な実施態様では、入力/ユーザインタフェース635及び出力デバイス/インタフェース640は前記コンピュータデバイス605に内蔵されていてもよく、物理的に接続されていてもよい。その他の例示的な諸実施態様では、他のコンピュータデバイスはコンピュータデバイス605のための入力/ユーザインタフェース635及び出力デバイス/インタフェース640の機能として機能するか又は前記機能を提供してもよい。タッチスクリーンディスプレイ、テレビジョンディスプレイ、又はその他の任意の形態のディスプレイを含む例示的な諸実施態様では、前記ディスプレイは例えば図3に示すユーザインタフェースを提供するように構成されている。
コンピュータデバイス605の例は、これに限定されないが、高度モバイルデバイス(例えば、スマートフォン、車両及びその他の機械内のデバイス、人間及び動物が携帯するデバイス、及び同種のもの)、モバイルデバイス(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビジョン、ラジオ、及び同種のもの)、及びモビリティを目的に設計されていないデバイス(例えば、デスクトップコンピュータ、その他のコンピュータ、情報キオスク、1又は複数の内蔵且つ/又は接続されたプロセッサを備えたテレビジョン、ラジオ、及び同種のもの)を含んでいてもよい。
コンピュータデバイス605は、同じ又は異なるなる構成の1又は複数のコンピュータデバイスを含む任意の数のネットワーク接続されたコンポーネント、デバイス、及びシステムとの通信のために、外部記憶装置645及びネットワーク650に通信可能に接続(例えば、I/Oインタフェース625を介して)できる。コンピュータデバイス605又は接続されたいずれかのコンピュータデバイスは、サーバ、クライアント、シンサーバ、汎用マシン、特殊用途向けマシン、又はその他の識別名のサービスを提供するものとして機能でき、又はそれらの名前で呼ぶことができる。
I/Oインタフェース625は、これに限定されないが、コンピュータ環境600内の少なくとも全ての接続されたコンポーネント、デバイス、及びネットワークとの間で情報通信を行うために、任意の通信又はI/Oプロトコル又は標準(例えば、イーサネット(登録商標)、802.11x、ユニバーサルシステムバス、WiMax、モデム、セルラネットワークプロトコル、及び同種のもの)を用いる有線及び/又は無線インタフェースを含んでいてもよい。ネットワーク650は任意のネットワーク又はネットワークの組み合わせ(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話網、セルラネットワーク、衛星ネットワーク、及び同種のもの)であってもよい。
コンピュータデバイス605は、一時的及び非一時的媒体を含むコンピュータで使用可能な又はコンピュータ可読媒体を使用でき、且つ/又はこれを用いて通信することができる。一時的媒体は伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波、及び同種のものを含む。非一時的媒体は磁気媒体(例えば、ディスク及びテープ)、光学媒体(例えば、CD ROM,デジタルビデオディスク、ブルーレイディスク)、固体媒体(例えば、RAM、ROM,フラッシュメモリ、固体記憶装置)、及びその他の不揮発性記憶装置又はメモリを含む。
いくつかの例示的なコンピュータ環境では、コンピュータデバイス605は、技法、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実施するために使用できる。コンピュータ実行可能命令は一時的媒体から取り出して非一時的媒体に記憶して取り出すことができる。実行可能命令は任意のプログラミング、スプリプト、及び機械言語(例えば、C、C++、C#、Java(登録商標)、Visual Basic、Python、Perl、JavaScript(登録商標)、その他)の1又は複数から生成できる。
メモリ615は、処理するデータと共に、例えば図4A及び4Bのフローに記載するように、プロセッサ610によって実行されるアルゴリズムを記憶又は管理するように構成できる。本明細書に記載の例示的な諸実施態様は、所望の実施態様に応じで単独で又は互いに任意の組み合わせで実施してもよく、特定の例示的な実施態様に限定されない。
プロセッサ610は、自然又は仮想環境において任意のオペレーティングシステム(OS)(図示せず)で実行できる。論理ユニット660、アプリケーションプログラミングインタフェース(API)ユニット665、入力ユニット670、出力ユニット675、及び異なるユニットが相互に、OSと、さらに他のアプリケーション(図示せず)と通信するためのユニット間通信機構695を含む1又は複数のアプリケーションを配備することができる。上記のユニット及び要素は設計、機能、構成、又は実施態様が異なっていてもよく、上記の説明に限定されない。プロセッサ610はメモリ615から読み込んだ命令を実行するように構成された物理プロセッサ又は中央処理装置(CPU)の形態をとることができる。
いくつかの例示的な実施態様では、APIユニット665によって受信された情報又は実行命令は1又は複数の他のユニット(例えば、論理ユニット660、入力ユニット670、出力ユニット675)へ送信できる。上記のいくつかの実施態様では、場合によって、論理ユニット660は前記ユニット間で情報フローを制御し、APIユニット665、入力ユニット670、出力ユニット675によって提供されるサービスを方向付けるように構成されていてもよい。例えば、1又は複数のプロセス又は実施態様のフローは論理ユニット660単独で、又はAPIユニット665と連携して制御できる。入力ユニット670は前記例示的な実施態様に記載の計算に用いる入力を得るように構成されていてもよく、出力ユニット675は前記例示的な諸実施態様に記載の計算に基づいて出力を提供するように構成されていてもよい。
詳細な説明の一部はコンピュータ内部の動作のアルゴリズム及び記号的表現で提示されている。これらのアルゴリズムによる説明及び記号的表現は、データ処理分野の当業者がその革新的な手法のエッセンスを他の当業者に伝えるための手段である。アルゴリズムは所望の終了状態又は結果に導く一連の定義されたステップである。例示的な諸実施態様では、実行される前記ステップは、実体的な結果を達成するための実体的な量を物理的に操作することを必要とする。
特に断りのない限り、前記説明から明らかなように、前記説明では一貫して、「処理する」、「計算する」、「決定する」、「表示する」、又は同種のものを含む用語を使用する記述は、コンピュータシステムのレジスタ及びメモリ内部の物理(電子)量として表されるデータを操作して、前記コンピュータシステムのメモリ又はその他の情報記憶装置、伝送又は表示デバイス内の物理量として同様に表される他のデータに変換する前記コンピュータシステム又はレジスタその他の情報処理デバイスの動作及びプロセスを含むことが理解されよう。
また、例示的な諸実施態様は本明細書に記載の動作を実行するための装置に関していてもよい。この装置は要求される目的専用に構成されていてもよく、又は1又は複数のコンピュータプログラムによって選択的に起動又は再構成される1又は複数の汎用コンピュータを含んでいてもよい。そのようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体内に記憶してもよい。コンピュータ可読記憶媒体は、これに限定されないが、光学ディスク、磁気ディスク、読み出し専用メモリ、ランダムアクセスメモリ、固体デバイス及びドライブ、又は電子情報を記憶するのに好適なその他の任意のタイプの有形又は非一時的媒体を含んでいてもよい。コンピュータ可読信号媒体は搬送波などの媒体を含んでいてもよい。本明細書に提示されたアルゴリズム及び表示は本質的にいかなる特定のコンピュータ又はその他の装置にも関連しない。コンピュータプログラムは所望の実施態様の動作を実行する命令を含む純粋なソフトウェアの諸実施態様を含んでいてもよい。
本明細書に記載の実施例に応じて、様々な汎用システムをプログラム及びモジュールと併用してもよく、又は所望の方法ステップを実行するより専門的な装置を構築することが好都合であると判明することもあろう。さらに、前記例示的な諸実施態様はいかなる特定のプログラミング言語にも関連して記述されていない。様々なプログラミング言語を用いて本明細書に記載の前記例示的な諸実施態様の教示を実施してもよいことが理解されよう。前記プログラミング言語の命令は1又は複数の処理デバイス、例えば、中央処理装置(CPU)、プロセッサ、又は制御装置によって実行することができる。
当技術分野で周知のように、上記の動作はハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの何らかの組み合わせによって実施できる。前記例示的な諸実施態様の様々な態様は回路及び論理デバイス(ハードウェア)を用いて実施してもよく、他方、プロセッサによって実行されると本出願の諸実施態様を実行する方法を前記プロセッサに実行させる機械可読媒体に格納された命令(ソフトウェア)を用いて実施してもよい他の諸態様もある。さらに、本出願のいくつかの例示的な諸実施態様はもっぱらハードウェアで実行してもよいが、もっぱらソフトウェアで実行してもよい他の例示的な諸実施態様もある。さらに、前述した前記様々な機能は単一のユニットで実行でき、又は任意の数の方法でいくつかのコンポーネントにまたがって存在していてもよい。ソフトウェアによって実行されると、前記方法はコンピュータ可読媒体に記憶された命令に基づいて汎用コンピュータなどのプロセッサによって実行できる。所望であれば、前記命令を圧縮及び/又は暗号化フォーマットで前記媒体に記憶することができる。
さらに、本出願のその他の諸実施態様は、本出願の明細書及び教示の実施を検討することで当業者には明らかであろう。前述の例示的な諸実施態様の様々な態様及び/又は構成要素を単独で、又は任意の組み合わせで用いることができる。本明細書及び例示的な諸実施態様は例としてのみ考慮されるものであり、本出願の真の範囲及び趣旨は以下の特許請求の範囲に記載される。

Claims (17)

  1. 二部ネットワークとして表されるデータ及び前記二部ネットワーク内のミッシングリンクの組について、
    コンピュータが、
    前記データを処理して前記二部ネットワーク内に存在する複数のバイクリックを検出し、前記複数のバイクリックから生成したバイクリックの各対における重畳ノードの数と対内のミッシングリンクの数とに基づいて、前記組内の前記ミッシングリンクの各々の重みを計算することと、
    類似性ベースのリンク予測アルゴリズムにより得られる前記ミッシングリンクの各々の重み又はスコアを、前記ミッシングリンクの各々の計算された前記重みで修正するように構成されたリンク予測アルゴリズムを実行することと、
    前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供することと、
    を含む、方法。
  2. バイクリックの対における重畳ノードの数が、対内の可能な全リンク数に占める割合を表すスコアが、予め定めた閾値以上のバイクリックの対についてだけ、前記組内の前記ミッシングリンクの各々の前記重みを計算する、請求項1に記載の方法。
  3. コンピュータが、
    前記二部ネットワーク内の第一のタイプのノードを表す行と、第二のタイプのノードを表す列とを含み、行列内のエントリの各々が前記第一のタイプのノードと第二のタイプのノードとの間のリンクを表す双隣接行列として前記二部ネットワークを提示することをさらに含み、
    前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして前記提供することが、前記エントリを前記リンク予測アルゴリズムによって提供されたスコアによる色相として表すこと、を含む、請求項1に記載の方法。
  4. コンピュータが、
    前記二部ネットワークを前記提示することが選択された判定基準に従って前記双隣接行列の前記行及び列を配置するように構成されたインタフェースを提供すること、を含む、請求項3に記載の方法。
  5. コンピュータが、
    前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして提供することが前記予測されたミッシングリンクを確率に応じたランク付けで一列に並べて提示すること、を含む、請求項1に記載の方法。
  6. コンピュータに、
    二部ネットワークとして表されるデータ及び前記二部ネットワーク内のミッシングリンクの組について、
    前記データを処理して前記二部ネットワーク内に存在する複数のバイクリックを検出し、前記複数のバイクリックから生成したバイクリックの各対における重畳ノードの数と対内のミッシングリンクの数とに基づいて、前記組内の前記ミッシングリンクの各々の重みを計算することと、
    類似性ベースのリンク予測アルゴリズムにより得られる前記ミッシングリンクの各々の重み又はスコアを、前記ミッシングリンクの各々の計算された前記重みで修正するように構成されたリンク予測アルゴリズムを実行することと、
    前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供することと、
    を実行させるプログラム。
  7. バイクリックの対における重畳ノードの数が、対内の可能な全リンク数に占める割合を表すスコアが、予め定めた閾値以上のバイクリックの対についてだけ、前記組内の前記ミッシングリンクの各々の前記重みを計算する、
    請求項6に記載のプログラム。
  8. 前記二部ネットワーク内の第一のタイプのノードを表す行と、第二のタイプのノードを表す列とを含み、行列内のエントリの各々が前記第一のタイプのノードと第二のタイプのノードとの間のリンクを表す双隣接行列として前記二部ネットワークを提示することをさらに含み、
    前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして前記提供することが前記エントリを前記リンク予測アルゴリズムによって提供されたスコアによる色相として表すこと、を含む、請求項6に記載のプログラム。
  9. 前記二部ネットワークを前記提示することが選択された判定基準に従って前記双隣接行列の前記行及び列を配置するように構成されたインタフェースを提供すること、を含む、請求項8に記載のプログラム。
  10. 前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして提供することが前記予測されたミッシングリンクを確率に応じたランク付けで一列に並べて提示すること、を含む、請求項6に記載のプログラム。
  11. 二部ネットワークとして表されるデータ及び前記二部ネットワーク内のミッシングリンクの組について、
    前記データを処理して前記二部ネットワーク内に存在する複数のバイクリックを検出し、前記複数のバイクリックから生成したバイクリックの各対における重畳ノードの数と対内のミッシングリンクの数とに基づいて、前記組内の前記ミッシングリンクの各々の重みを計算し、
    類似性ベースのリンク予測アルゴリズムにより得られる前記ミッシングリンクの各々の重み又はスコアを、前記ミッシングリンクの各々の計算された前記重みで修正するように構成されたリンク予測アルゴリズムを実行し、
    前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供するように構成されたプロセッサ、を含む、装置。
  12. 前記プロセッサが、
    バイクリックの対における重畳ノードの数が、対内の可能な全リンク数に占める割合を表すスコアが、予め定めた閾値以上のバイクリックの対についてだけ、前記組内の前記ミッシングリンクの各々の前記重みを計算するように構成された、請求項11に記載の装置。
  13. 前記プロセッサが、
    前記二部ネットワーク内の第一のタイプのノードを表す行と、第二のタイプのノードを表す列とを含み、行列内のエントリの各々が前記第一のタイプのノードと第二のタイプのノードとの間のリンクを表す双隣接行列として前記二部ネットワークを提示するように構成され、
    前記プロセッサが前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを、前記エントリを前記リンク予測アルゴリズムによって提供されたスコアによる色相として表すことによって、前記二部ネットワークの前記予測されたミッシングリンクとして提供するように構成された、請求項11に記載の装置。
  14. 前記プロセッサが、選択された判定基準に従って前記双隣接行列の前記行及び列を配置するように構成されたインタフェースを提供することによって、前記二部ネットワークを提示するように構成された、請求項13に記載の装置。
  15. 前記プロセッサが、前記予測されたミッシングリンクを確率に応じたランク付けで一列に並べて提示することによって、前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの前記予測されたミッシングリンクとして提供するように構成された、
    請求項11に記載の装置。
  16. 前記プロセッサが、
    インタフェース上での前記予測されたミッシングリンクの一つの選択に応答して、
    前記予測されたミッシングリンクの前記一つを前記二部ネットワーク内に追加することによって前記予測されたミッシングリンクの選択された一つが追加された場合の、前記バイクリックの構造パターンの変化を分析するモチーフ分析、及び(少なくとも次数、近接性、及び媒介中心性を含む)ノードに関する指標の変化を分析する指標分析の少なくとも一方を実行し、
    前記予測されたミッシングリンクの前記選択された一つについての前記モチーフ分析又は前記指標分析の少なくとも一方の結果を提供するように構成された、請求項11に記載の装置。
  17. 二部ネットワークとして表されるデータ及び前記二部ネットワーク内のミッシングリンクの組について、
    前記データを処理して前記二部ネットワーク内に存在する複数のバイクリックを検出し、前記複数のバイクリックから生成したバイクリックの各対における重畳ノードの数と対内のミッシングリンクの数とに基づいて、前記組内の前記ミッシングリンクの各々の重みを計算する手段と、
    類似性ベースのリンク予測アルゴリズムにより得られる前記ミッシングリンクの各々の重み又はスコアを、前記ミッシングリンクの各々の計算された前記重みで修正するように構成されたリンク予測アルゴリズムを実行する手段と、
    前記リンク予測アルゴリズムによって選択されたミッシングリンクの前記組から得たミッシングリンクを前記二部ネットワークの予測されたミッシングリンクとして提供する手段と
    を含むシステム。
JP2019208500A 2018-11-19 2019-11-19 二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム Active JP7423998B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/194,877 2018-11-19
US16/194,877 US11176460B2 (en) 2018-11-19 2018-11-19 Visual analysis framework for understanding missing links in bipartite networks

Publications (2)

Publication Number Publication Date
JP2020098585A JP2020098585A (ja) 2020-06-25
JP7423998B2 true JP7423998B2 (ja) 2024-01-30

Family

ID=70727288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019208500A Active JP7423998B2 (ja) 2018-11-19 2019-11-19 二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム

Country Status (3)

Country Link
US (1) US11176460B2 (ja)
JP (1) JP7423998B2 (ja)
CN (1) CN111198905B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11228505B1 (en) * 2021-01-29 2022-01-18 Fujitsu Limited Explanation of graph-based predictions using network motif analysis
CN113434756B (zh) * 2021-06-18 2022-05-27 山东省人工智能研究院 基于图双向聚合网络链接预测模型的个性化评论推荐方法
CN114884565B (zh) * 2022-05-30 2023-05-09 南京大学 一种基于通信性能约束的大规模低轨卫星网络拓扑优化方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100205057A1 (en) * 2009-02-06 2010-08-12 Rodney Hook Privacy-sensitive methods, systems, and media for targeting online advertisements using brand affinity modeling
US20130245959A1 (en) * 2012-03-14 2013-09-19 Board Of Regents, The University Of Texas System Computer-Implementable Algorithm for Biomarker Discovery Using Bipartite Networks
US10643135B2 (en) * 2016-08-22 2020-05-05 International Business Machines Corporation Linkage prediction through similarity analysis
US20180089318A1 (en) * 2016-09-23 2018-03-29 Linkedin Corporation Two-sided network growth optimization in social networks
AU2018220752A1 (en) * 2017-02-17 2019-08-29 Kyndi, Inc. Method and apparatus of machine learning using a network with software agents at the network nodes and then ranking network nodes
US10361926B2 (en) * 2017-03-03 2019-07-23 Nec Corporation Link prediction with spatial and temporal consistency in dynamic networks
CN107506480B (zh) * 2017-09-13 2020-05-05 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107833142A (zh) * 2017-11-08 2018-03-23 广西师范大学 学术社交网络科研合作者推荐方法
CN108108854B (zh) * 2018-01-10 2021-08-10 中南大学 城市路网链路预测方法、***及存储介质
US10650559B2 (en) * 2018-04-30 2020-05-12 Robert Bosch Gmbh Methods and systems for simplified graphical depictions of bipartite graphs
CN108811028B (zh) * 2018-07-23 2021-07-16 南昌航空大学 一种机会网络链路的预测方法、装置及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Shuang Xia 他4名,Link Prediction for Bipartite Social Networks: The Role of Structural Holes,2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining,2012年08月,IEEE Xplore(URL:https://ieeexplore.ieee.org/document/6425770)より入手
中島諒 他2名,無限関係モデルを用いたツイッターにおけるユーザ属性推定,第58回システム制御情報学会 研究発表講演会講演論文集[CD-ROM],システム制御情報学会,2014年05月21日

Also Published As

Publication number Publication date
JP2020098585A (ja) 2020-06-25
US11176460B2 (en) 2021-11-16
CN111198905B (zh) 2024-02-13
US20200160188A1 (en) 2020-05-21
CN111198905A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
Ermiş et al. Link prediction in heterogeneous data via generalized coupled tensor factorization
JP7423998B2 (ja) 二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム
JP6404889B2 (ja) マルチセンサビジュアルアナリティクスのためのプロセッサ実装方法、マルチセンサデータを要約するシステム、及びマルチセンサビジュアルアナリティクスのための方法を実行するためのコンピュータプログラムを具現化した非一時的なコンピュータ可読媒体
Brohée et al. Network Analysis Tools: from biological networks to clusters and pathways
Li et al. Node-coupling clustering approaches for link prediction
Adcock et al. Tree decompositions and social graphs
CN110515986B (zh) 一种社交网络图的处理方法、装置及存储介质
US20210174906A1 (en) Systems And Methods For Prioritizing The Selection Of Targeted Genes Associated With Diseases For Drug Discovery Based On Human Data
Salter-Townshend et al. Role analysis in networks using mixtures of exponential random graph models
EP3731239A1 (en) Polypharmacy side effect prediction with relational representation learning
CN110990624B (zh) 一种视频推荐方法、装置、设备及存储介质
US11631205B2 (en) Generating a data visualization graph utilizing modularity-based manifold tearing
US11321885B1 (en) Generating visualizations of analytical causal graphs
Lathabai et al. Contextual productivity assessment of authors and journals: a network scientometric approach
Li et al. Towards perturbation prediction of biological networks using deep learning
Cui et al. Bounded link prediction in very large networks
Castelletti et al. Network structure learning under uncertain interventions
Fu et al. Functional random forests for curve response
Agami Comparison of persistence diagrams
Kattis et al. Modeling epidemics on adaptively evolving networks: a data-mining perspective
Tao et al. Boosting computational effectiveness in big spatial flow data analysis with intelligent data reduction
Firat et al. Pcp-ed: Parallel coordinate plots for ensemble data
Arnold et al. Likelihood-based approach to discriminate mixtures of network models that vary in time
US20230086327A1 (en) Systems and methods of interactive visual graph query for program workflow analysis
WO2022200624A2 (en) Systems and methods for end-to-end machine learning with automated machine learning explainable artificial intelligence

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240101

R150 Certificate of patent or registration of utility model

Ref document number: 7423998

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150