JP2018206343A - データ内の同格化した関係を視覚的に調査するためのシステム、関係のデータを視覚化する方法、プログラム、及びコンピュータ装置 - Google Patents

データ内の同格化した関係を視覚的に調査するためのシステム、関係のデータを視覚化する方法、プログラム、及びコンピュータ装置 Download PDF

Info

Publication number
JP2018206343A
JP2018206343A JP2017240432A JP2017240432A JP2018206343A JP 2018206343 A JP2018206343 A JP 2018206343A JP 2017240432 A JP2017240432 A JP 2017240432A JP 2017240432 A JP2017240432 A JP 2017240432A JP 2018206343 A JP2018206343 A JP 2018206343A
Authority
JP
Japan
Prior art keywords
type
entities
bicluster
entity
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017240432A
Other languages
English (en)
Other versions
JP6988430B2 (ja
Inventor
ジアン ジャオ
Zhiqiang Zhao
ジアン ジャオ
チェン フランシーン
Francine Chen
チェン フランシーン
パトリック チィーウ
Patrick Chiu
チィーウ パトリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2018206343A publication Critical patent/JP2018206343A/ja
Application granted granted Critical
Publication of JP6988430B2 publication Critical patent/JP6988430B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本開示の技術は、双クラスタを直感的に明らかにする。
【解決手段】関係データを視覚化する方法が説明される。本方法は、第1のタイプのエンティティ、第2のタイプのエンティティ、及び、第1のタイプのエンティティと第2のタイプのエンティティとの間の関係を示すデータを含む関係データを受け取ることと、関係を示すデータに基づき、第1のタイプのエンティティを第2のタイプのエンティティに繋げる双クラスタを生成することと、生成された双クラスタに基づいて視覚化を生成することであって、視覚化には、第1のタイプのエンティティを示す第1の列、及び、第2のタイプのエンティティを示す第2の列が含まれ、視覚化の各列が、生成された双クラスタに対応する、視覚化を生成することと、を含む。
【選択図】図2

Description

本開示はデータ視覚化システムに関し、より詳細には、同格関係を分析するためのデータ視覚化システムのシステム及び方法に関する。
同格化された関係を発見及び分析することは、現実世界の多くの用途において、重要な作業である場合がある。同格化された関係は、異なるタイプのエンティティ(entity(実体))のセット間で密に共有された関係(たとえば、一緒に、又は一定の時間領域内の異なる時間に、全員が4つの場所を訪問した3人の人によって形成されたコネクション)のグループである。たとえば、事業のメッセージの分析のシナリオでは、従業員間の同格化された関係、及び、従業員の会話(たとえば、一定のタイムウィンドウ内のメッセージ)により、会社内の有機的ワークグループが示される場合がある。知的分析の分野においては、関係が、ドキュメント内の(たとえば、人及び場所としての)エンティティの共起から構築され得、また、同格化された関係は、共謀の証拠に繋がり得る。生物情報学の分野では、科学者が、遺伝子の発現及び相互作用のデータセットからの同格化された関係を調査して、一般に、表現されたか、統制された条件及び種である、遺伝子/タンパク質のセットを発見する場合がある。
いくつかの関連技術のコンピュータによる方法により、同格化された関係に関するいくつかの初期の洞察が与えられる場合があるが、アルゴリズムのアウトプットの複雑さに起因して、理解が困難である場合がある。そのような関連技術のシステムでは、同格化された関係の分析は、双クラスタリング(biclustering)のデータマイニング技術の適用に基づく場合がある。さらに、双クラスタリングが適用されると、関連技術の表示が生じる場合がある。図1A及び図1Bは、エンティティの双クラスタリングの関係の、関連技術の表示を示している。図1Aは、従業員(縦軸105に沿って示されたA1〜A7)と、従業員(横軸110に沿って示されたB1〜B5)間の会話(たとえば、email、インスタントメッセンジャなど)のマトリクスベースの表示を示している。図1Bは、従業員(列115に沿って示されたA1〜A7)と、従業員(列120に沿って示されたB1〜B5)間の会話(たとえば、email、インスタントメッセンジャなど)のリストベースの表示を示している。図1A及び図1Bは、以下により詳細に論じる。
関連技術の双クラスタリングアルゴリズムは、エンティティの2つのセット間の関係から発見された、最大の双クラスタ(最小サイズの要件を満たす)を出力する場合がある。たとえば、図1Aでは、(従業員{A4、A5}と、会話{B3、B4、B5}とで形成された)双クラスタ125は、双クラスタリングアルゴリズムによって検出され得る。双クラスタ125は、3つの会話({B3、B4、B5})すべてに参加していた2人の従業員({A4、A5})を示している。したがって、双クラスタ125は、潜在的なワークグループを示す場合があり、また、サイズを増大させるように従業員−会話の関係が双クラスタに追加され得ないことから、最大である。
関連技術の双クラスタリングアルゴリズムが、分析者が同格化された関係を発見することの助けになる場合があるが、出力は、複雑であり、図式的ではない形態の調査には、あまりにも大きすぎて、実用にはならない場合がある。さらに、多くの現実世界の用途では、双クラスタチェーン(たとえば、従業員と会話とを繋ぐ双クラスタの第1のセット、及び、会話とトピックとを繋ぐ双クラスタの第2のセット)を形成することによって調査されることになる2つ以上のペアのエンティティのタイプが必要である場合がある。関連技術の視覚化技術により、検出された双クラスタから同格化された関係の理解が助けられる場合がある。関連性のデータを視覚化する、2つの主な関連技術のアプローチは、マトリクスベースの表示(図1Aに示されている)と、リストベースの表示(図1Bに示されている)とである。しかし、これらの両方は、顕著な欠点を有している。図1Aのマトリクスベースの表示は、すべての双クラスタを直感的に明らかにすることができない(たとえば、双クラスタ130{A1、A4、A5}×{B3、B5}は、認識することが容易ではない)。さらに、図1Bのリストベースの表示は、エンティティの数が増大すると、視覚的に乱雑になる(たとえば、従業員(列115に沿って示されているA1〜A7)と従業員(列120に沿って示されているB1〜B5))。
いくつかの向上した関連技術の視覚化技術が、図1Aと図1Bとに示された2つの基本的アプローチに基づいて提案されてきたが、多数の双クラスタ又はエンティティの表示の拡張性は、関連技術の視覚化技術の、コンピュータのリソースの要件に起因して、依然として課題である。さらに、関連技術の視覚化技術は、重み付けが双クラスタの視覚化において有し得る影響を見落としている。
P. Fiaux, M. Sun, L. Bradel, C. North, N. Ramakrishnan and A. Endert. Bixplorer: Visual Analytics with Biclusters. Computer, vol. 46, no. 8, pp. 90-94, 2013. doi: 10.1109/MC.2013.269 G. Grothaus, A. Mufti and TM Murali. Automatic layout and visualization of biclusters.Algorithms for Molecular Biology, 1:15, 2006. DOI: 10.1186/1748-7188-1-15 J. Heinrich, R. Seifert, M. I Burch, and D. Weiskopf. BiCluster Viewer: A Visualization Tool for Analyzing Gene Expression Data. Advances in Visual Computing, pp. 641-652. Springer, 2011. C. Partl, A. Lex, M. Streit, H. Strobelt, A. M. Wassermann, H. Pfister, and D. Schmalstieg. Con Tour: Data-Driven Exploration of Multi-Relational Datasets for Drug Discovery. IEEE Transactions on Visualization and Computer Graphics, vol. 20, no. 12, pp. 1883-1892, 2014. Doi: 10.1109/TVCG.2014.2346752 J. Stasko, C. Gorg, Z. Liu and K. Singhal. Jigsaw: Supporting investigative Analysis through interactive Visualization. IEEE Symposium on Visual Analytics Science and Technology, pp. 131-138, 2007. doi: 10.1109/VAST.2007.4389006 M. Sun, C. North and N. Ramakrishnan. A Five-Level Design Framework for Bicluster Visualizations. IEEE Transactions on Visualization and Computer Graphics, vol. 20, no.12, pp. 1713-1722, 2014. doi: 10.1109/TVCG.2014.2346665 M. Sun, P. Mi, C. North and N. Ramakrishnan. BiSet: Semantic Edge Bundling with Biclusters for Sensemaking. IEEE Transactions on Visualization and Computer Graphics, Vol. 22, no. 1, pp. 310- 319, 2016. doi: 10.1109/ TVCG. 2015.2467813 T. Uno, T. Asai, Y. Uchida, and H. Arimura. An efficient algorithm for enumerating closed patterns in transaction databases. Discovery Science, pages 16-31. Springer, 2004.
本開示の技術は、双クラスタを直感的に明らかにすることを目的とする。
本開示の態様は、関係のデータを視覚化する方法を含み得る。本方法は、第1のタイプのエンティティ、第2のタイプのエンティティ、及び、第1のタイプのエンティティと第2のタイプのエンティティとの間の関係を示すデータを含む関係データを受け取ることと、関係を示すデータに基づき、第1のタイプのエンティティを第2のタイプのエンティティに繋げる双クラスタを生成することと、生成された双クラスタに基づいて視覚化を生成することであって、視覚化には、第1のタイプのエンティティを示す第1の列、及び、第2のタイプのエンティティを示す第2の列が含まれ、視覚化の各行が、生成された双クラスタに対応する、視覚化を生成することと、を含んでいる。
1又は複数の実施形態では、前記生成された視覚化がさらに、前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係の、重み付けされた視覚表示を含む。
1又は複数の実施形態では、前記関係を示すデータが、前記第1のタイプの複数のエンティティと前記第2のタイプの複数のエンティティとの間の、少なくとも1つの関係を示すデータを含んでおり、前記生成された双クラスタが、前記第1のタイプの前記複数のエンティティの各々を、前記第2のタイプの前記複数のエンティティの各々に繋ぎ、前記生成された視覚化がさらに、前記第1のタイプの前記複数のエンティティを示す第1の列、及び、前記第2のタイプの前記複数のエンティティを示す第2の列を含み、前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に配置されている。
1又は複数の実施形態では、少なくとも1つの前記関係を示すデータが、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の複数の関係を示し、前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に、第1の方向に延びる第1のタイプの視覚要素と、前記第1のタイプの視覚要素の上に配置され、前記第1の方向と直交する第2の方向に延びる、第2のタイプの視覚要素であって、前記第2のタイプの複数の視覚要素が、前記第1のタイプの視覚要素の上に配置され、前記複数の視覚要素の各々が、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の前記複数の関係の1つに関連付けられている、第2のタイプの視覚要素と、を含む。
1又は複数の実施形態では、前記第1のタイプのエンティティ、第3のタイプのエンティティ、及び、前記第1のタイプの別の複数のエンティティと前記第3のタイプの複数のエンティティとの間の関係を示す追加のデータとを含む追加の関係データを受け取ることと、関係を示す前記追加のデータに基づき、前記別の複数の第1のタイプのエンティティの各々を、前記複数の第3のタイプのエンティティの各々に繋げる別の双クラスタを生成することと、前記双クラスタを、前記生成された別の双クラスタに繋げる双クラスタチェーンを生成することと、前記生成された別の双クラスタ及び前記生成された双クラスタチェーンに基づき、別の視覚化を生成することであって、前記別の視覚化が、他の複数の前記第1のタイプのエンティティと前記複数の前記第3のタイプのエンティティとの間の関係の、重み付けされた視覚表示と、前記双クラスタと前記別の双クラスタとの間の関係の、重み付けされた視覚表示と、を含む、別の視覚化を生成することと、をさらに含む。
1又は複数の実施形態では、前記双クラスタチェーンを前記生成することには、前記双クラスタの前記複数の第1のタイプのエンティティと前記別の双クラスタの他の複数の第1のタイプのエンティティとの間の類似性の値を計算することと、前記計算された類似性の値が、閾値以上であるかを判定することと、前記計算された類似性の値が前記閾値以上であるかの判定に応じて、前記双クラスタを、前記複数の第1のタイプのエンティティ及び前記他の複数の第1のタイプのエンティティに基づき、前記別の双クラスタに繋げることと、を含む。
1又は複数の実施形態では、前記計算された類似性の値が前記閾値未満であることの判定に応じて、別の複数の前記第3のタイプのエンティティとの関係を有する前記第1のタイプの追加の複数のエンティティを選択することと、前記追加の複数の第1のタイプのエンティティの各々を、前記別の複数の第3のタイプのエンティティの各々に繋ぐ追加の双クラスタを生成することと、前記双クラスタを、前記生成された追加の双クラスタに繋げる双クラスタチェーンを生成することと、をさらに含む。
1又は複数の実施形態では、前記閾値の値は、ユーザが設定した閾値である。
本開示の追加の態様は、コンピュータに、関係データの視覚化の方法を実行させるプログラムである。本方法は、第1のタイプのエンティティ、第2のタイプのエンティティ、及び、第1のタイプのエンティティと第2のタイプのエンティティとの間の関係を示すデータを含む関係データを受け取ることと、関係を示すデータに基づき、第1のタイプのエンティティを第2のタイプのエンティティに繋げる双クラスタを生成することと、生成された双クラスタに基づいて視覚化を生成することであって、視覚化には、第1のタイプのエンティティを示す第1の列、及び、第2のタイプのエンティティを示す第2の列が含まれ、視覚化の各行が、生成された双クラスタに対応する、視覚化を生成することと、を含んでいる。
1又は複数の実施形態では、前記生成された視覚化がさらに、前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係の、重み付けされた視覚表示を含む。
1又は複数の実施形態では、前記関係を示すデータが、前記第1のタイプの複数のエンティティと前記第2のタイプの複数のエンティティとの間の、少なくとも1つの関係を示すデータを含んでおり、前記生成された双クラスタが、前記第1のタイプの前記複数のエンティティの各々を、前記第2のタイプの前記複数のエンティティの各々に繋ぎ、前記生成された視覚化がさらに、前記第1のタイプの前記複数のエンティティを示す第1の列、及び、前記第2のタイプの前記複数のエンティティを示す第2の列を含み、前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に配置されている。
1又は複数の実施形態では、前記少なくとも1つの前記関係を示すデータが、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の複数の関係を示し、前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に、第1の方向に延びる第1のタイプの視覚要素と、前記第1のタイプの視覚要素の上に配置され、前記第1の方向と直交する第2の方向に延びる、第2のタイプの視覚要素であって、前記第2のタイプの複数の視覚要素が、前記第1のタイプの視覚要素の上に配置され、前記複数の視覚要素の各々が、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の前記複数の関係の1つに関連付けられている、第2のタイプの視覚要素とを含む。
1又は複数の実施形態では、前記第1のタイプのエンティティ、第3のタイプのエンティティ、及び、前記第1のタイプの別の複数のエンティティと前記第3のタイプの複数のエンティティとの間の関係を示す追加のデータとを含む追加の関係データを受け取ることと、関係を示す前記追加のデータに基づき、前記別の複数の第1のタイプのエンティティの各々を、前記複数の第3のタイプのエンティティの各々に繋げる別の双クラスタを生成することと、前記双クラスタを、前記生成された別の双クラスタに繋げる双クラスタチェーンを生成することと、前記生成された別の双クラスタ及び前記生成された双クラスタチェーンに基づき、別の視覚化を生成することであって、前記別の視覚化が、他の複数の前記第1のタイプのエンティティと前記複数の前記第3のタイプのエンティティとの間の関係の、重み付けされた視覚表示と、前記双クラスタと前記別の双クラスタとの間の関係の、重み付けされた視覚表示とを含む、別の視覚化を生成することと、をさらに含む。
1又は複数の実施形態では、前記双クラスタチェーンを前記生成することには、前記双クラスタの前記複数の第1のタイプのエンティティと前記別の双クラスタの他の複数の第1のタイプのエンティティとの間の類似性の値を計算することと、前記計算された類似性の値が、閾値以上であるかを判定することと、前記計算された類似性の値が前記閾値以上であるかの判定に応じて、前記双クラスタを、前記複数の第1のタイプのエンティティ及び前記他の複数の第1のタイプのエンティティに基づき、前記別の双クラスタに繋げることと、が含まれる。
1又は複数の実施形態では、前記計算された類似性の値が前記閾値未満であることの判定に応じて、別の複数の前記第3のタイプのエンティティとの関係を有する前記第1のタイプの追加の複数のエンティティを選択することと、前記追加の複数の第1のタイプのエンティティの各々を、前記別の複数の第3のタイプのエンティティの各々に繋ぐ追加の双クラスタを生成することと、前記双クラスタを、前記生成された追加の双クラスタに繋げる双クラスタチェーンを生成することと、をさらに含む。
本開示の追加の態様には、関係データを視覚化するように構成されたコンピュータ装置も含まれ得る。コンピュータ装置には、第1のタイプのエンティティ、第2のタイプのエンティティ、及び、第1のタイプのエンティティと第2のタイプのエンティティとの間の関係を示すデータを含む関係データを記憶するメモリと、プロセッサ及び表示デバイスとが含まれ得る。本プロセッサは、関係を示すデータに基づき、第1のタイプのエンティティを第2のタイプのエンティティに繋げる双クラスタを生成することと、生成された双クラスタに基づいて視覚化を生成することであって、視覚化には、第1のタイプのエンティティを示す第1の列、及び、第2のタイプのエンティティを示す第2の列が含まれ、視覚化の各行が、生成された双クラスタに対応する、視覚化を生成することと、を含むプロセスを実行し得る。ディスプレイデバイスは、生成された視覚化を表示するように構成され得る。
1又は複数の実施形態では、前記生成された視覚化がさらに、前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係の、重み付けされた視覚表示を含む。
1又は複数の実施形態では、前記関係を示すデータが、前記第1のタイプの複数のエンティティと前記第2のタイプの複数のエンティティとの間の、少なくとも1つの関係を示すデータを含んでおり、前記生成された双クラスタが、前記第1のタイプの前記複数のエンティティの各々を、前記第2のタイプの前記複数のエンティティの各々に繋ぎ、前記生成された視覚化がさらに、前記第1のタイプの前記複数のエンティティを示す第1の列、及び、前記第2のタイプの前記複数のエンティティを示す第2の列を含み、前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に配置されている。
1又は複数の実施形態では、前記少なくとも1つの関係を示すデータが、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の複数の関係を示し、前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に、第1の方向に延びる第1のタイプの視覚要素と、前記第1のタイプの視覚要素の上に配置され、前記第1の方向と直交する第2の方向に延びる、第2のタイプの視覚要素であって、前記第2のタイプの複数の視覚要素が、前記第1のタイプの視覚要素の上に配置され、前記複数の視覚要素の各々が、前記第1のタイプの前記複数のエンティティと、前記第2のタイプの前記複数のエンティティとの間の前記複数の関係の1つに関連付けられている、第2のタイプの視覚要素とを含む。
1又は複数の実施形態では、前記プロセスがさらに、前記第1のタイプのエンティティ、第3のタイプのエンティティ、及び、前記第1のタイプの別の複数のエンティティと前記第3のタイプの複数のエンティティとの間の関係を示す追加のデータとを含む追加の関係データを受け取ることと、関係を示す前記追加のデータに基づき、前記別の複数の第1のタイプのエンティティの各々を、前記第3のタイプの複数のエンティティの各々に繋げる別の双クラスタを生成することと、前記双クラスタを、前記生成された別の双クラスタに繋げる双クラスタチェーンを生成することと、前記生成された別の双クラスタ及び前記生成された双クラスタチェーンに基づき、別の視覚化を生成することであって、前記別の視覚化が、他の複数の前記第1のタイプのエンティティと前記複数の前記第3のタイプのエンティティとの間の関係の、重み付けされた視覚表示と、前記双クラスタと前記別の双クラスタとの間の関係の、重み付けされた視覚表示と、を含む、別の視覚化を生成することと、をさらに含む。
1又は複数の実施形態では、前記双クラスタチェーンを前記生成することには、前記双クラスタの前記複数の第1のタイプのエンティティと前記別の双クラスタの他の複数の第1のタイプのエンティティとの間の類似性の値を計算することと、前記計算された類似性の値が、閾値以上であるかを判定することと、前記計算された類似性の値が前記閾値以上であるかの判定に応じて、前記双クラスタを、前記複数の第1のタイプのエンティティ及び前記他の複数の第1のタイプのエンティティに基づき、前記別の双クラスタに繋げることと、が含まれる。
1又は複数の実施形態では、前記プロセスがさらに、前記計算された類似性の値が前記閾値未満であることの判定に応じて、別の複数の前記第3のタイプのエンティティとの関係を有する前記第1のタイプの追加の複数のエンティティを選択することと、前記追加の複数の第1のタイプのエンティティの各々を、前記別の複数の第3のタイプのエンティティの各々に繋ぐ追加の双クラスタを生成することと、前記双クラスタを、前記生成された追加の双クラスタに繋げる双クラスタチェーンを生成することと、を含む。
本開示の追加の態様には、関係データを視覚化するように構成されたコンピュータ装置も含まれ得る。コンピュータ装置は、第1のタイプのエンティティ、第2のタイプのエンティティ、及び、第1のタイプのエンティティと第2のタイプのエンティティとの間の関係を示すデータを含む関係データを記憶するための手段と、関係を示すデータに基づき、第1のタイプのエンティティを第2のタイプのエンティティに繋げる双クラスタを生成する手段と、生成された双クラスタに基づいて視覚化を生成する手段であって、視覚化には、第1のタイプのエンティティを示す第1の列、及び、第2のタイプのエンティティを示す第2の列が含まれ、視覚化の各行が、生成された双クラスタに対応する、視覚化を生成する手段と、生成された視覚化を表示するための手段と、を含んでいる。
エンティティの双クラスタリングの関係の、関連技術の表示を示す図である。 エンティティの双クラスタリングの関係の、関連技術の表示を示す図である。 本出願の例示的実施態様に係る視覚化プロセスのプロセス図を示す図である。 本出願の例示的実施態様に係る双クラスタリングアルゴリズムの出力の最初の視覚化を示す図である。 本出願の例示的実施態様に係る双クラスタリングアルゴリズムの出力の最初の視覚化を示す図である。 本出願の例示的実施態様に係る双クラスタリングアルゴリズムの出力の最初の視覚化を示す図である。 本出願の例示的実施態様の操作機能に基づいて生成された、アップデートされた視覚化を示す図である。 本出願の例示的実施態様の操作機能に基づいて生成された、アップデートされた視覚化を示す図である。 本出願の例示的実施態様のビュー操作オプションを使用して生成され得るさらなる視覚化を示す図である。 本出願の例示的実施態様のビュー操作オプションを使用して生成され得るさらなる視覚化を示す図である。 本出願の例示的実施態様に係る視覚化の操作のプロセスのフローチャートを示す図である。 本出願の例示的実施態様に係る双クラスタチェーンの視覚化の例示的実施態様を示す図である。 本出願の例示的実施態様に係る双クラスタチェーンの視覚化の例示的実施態様を示す図である。 本出願の例示的実施態様に係る、双クラスタチェーンを計算するための例示的プロセスを示す図である。 本出願の例示的実施態様に係る視覚化システムのパラメータ調整を制御し得るユーザインターフェース(「UI」)を示す図である。 本出願の例示的実施態様に係る、別の双クラスタの視覚化100を示す図である。 本出願のいくつかの例示的実施態様における使用に適切な例示的コンピュータデバイスの例示的コンピュータ環境を示す図である。
以下の詳細な説明は、本出願の図及び例示的実施態様をさらに詳細に示している。各図間における重複する要素の参照符号及び記載は、明確化のために省略している。本記載を通して使用される用語は、例として提供されるものであり、限定を意図するものではない。たとえば、「自動(automatic)」との用語の使用は、本出願の実施態様を実行する当業者の所望の実施態様に応じて、完全に自動であるか、一定の実施の態様にわたるユーザ又はオペレータの制御を伴う半自動である実施態様を伴ってもよい。
例示的実施態様は、分析者が、双クラスタアルゴリズムを使用して生成された双クラスタに基づき、同格化された関係を相互作用的に調査することを可能にする、視覚化システムに関連し得る。2つのドメイン(エンティティのタイプ、たとえば、遺伝子と条件、又は、機関と人)間の関係から、双クラスタリングの目的は、各ドメインから、対応するエンティティのサブセットを、各サブセット内のエンティティが同様の特性(たとえば、生物情報学における遺伝子−条件の関係に関し、同じように振る舞う遺伝子)を共有している制限を伴って識別することである。クラスタリングに比べ、双クラスタリングにより、2つのドメインから一致するサブセットを同時に見つけるアイデアが一般化される。このことは、双クラスタが、より一般的である同格化された関係を分析することのベースとしての役割を果たす場合があることの理由でもある(たとえば、複数の関連する双クラスタ又は双クラスタの部分から発見された洞察)。
例示的実施態様では、本システムは、よりコンパクトで、双クラスタを中心とする方式で双クラスタをエンコードして、多数のエンティティの拡張可能な視覚化を可能にする場合がある。さらに、いくつかの例示的実施態様では、本システムは、より多数の双クラスタの柔軟で動的な分析を可能にするために、動的分析ツールを提供する場合もある。さらに、いくつかの例示的実施態様では、視覚化システムは、双クラスタリング内に生成された、重み付けがされた関係に対するデータセットの重み付けツールでもある。多くの現実世界の用途では、関係は、しばしば、異なるレベルの強度と関連付けられる。たとえば、従業員と会話との間のコネクションには、各従業員がどの程度会話に参加しているかの情報が含まれ得る。また、ドキュメントとトピックとの間のリンクは、トピックの可能性を示す場合がある。この情報を組み込むことにより、分析的な洞察が可能であり、また、容易に明らかにならない場合がある関係を識別することができる。
例示的実施態様の一態様は、双クラスタ中心の方式で双クラスタの出力を示し得る視覚化であり、ここでは、双クラスタは、分析者が操作できる視覚対象として表示される。このことは、エンティティを中心とし、(双クラスタのエンティティのオーバーラップに起因して)すべての双クラスタ、又はその関係を示していない、ほとんどの既存のアプローチ(図1A及び図1Bを参照)と異なっている。視覚化システムの重要な態様は、本明細書に詳細に記載されている。入力を、重み付けされた関連性のデータの双クラスタリングアルゴリズムの結果と解する。ここで、結果の中の各双クラスタは、エンティティの2つのセットと、その関係(重み付けの値を伴う)で構成されている。
図2は、本出願の例示的実施態様に係る、視覚化システム200によって実施される視覚化プロセス202のプロセス図を示す図である。視覚化プロセス202は、本開示の技術のプログラムの一例を示す。図示のように、プロセス202では、システム200が1又は複数のデータベースから関係データ205を受け取る。データベースのタイプは、特に限定されておらず、また、emailデータ、トラベルデータ、電話データ、インスタント・メッセージ・データ、イベントデータ、又は、当業者に明らかである場合があるその他のタイプのデータを含む、任意のタイプのデータレコードを含み得る。さらに、関係データ205は、特に限定されておらず、また、データベースのデータレコードに関連付けられた態様のエンティティ間、又は、ドメイン間の任意の関係を示し得る。たとえば、関係データ205は、作者情報、コンテンツ情報、時間情報、日付情報、位置情報、又は、当業者には明らかである場合があるその他の情報の任意の組合せの間の関係を示す場合がある。エンティティの2つの異なるタイプ間の関係を記憶している関係データ205の各セットに関し、双クラスタは、ユーザによって特定されたパラメータのセットに基づき、双クラスタリングエンジン210によって個別に適用される双クラスタリングアルゴリズムを使用して、215で生成される。双クラスタリングの出力は、双クラスタ・マッチング・モジュールに供給されて、220において、双クラスタチェーンを識別及び発見する、マッチするエンティティを伴う双クラスタを識別する双クラスタマッチングが実施される。双クラスタチェーンの生成のプロセス900は、図9を参照して以下により詳細に論じられる。
双クラスタマッチング220の後に、出力は、230において、視覚化を生成するために、フロントエンドの視覚化ジェネレータに入力される。視覚化に伴い、分析者は、235において、ビュー操作エンジンを使用して、視覚表示を相互作用的に操作することにより、データの洞察を発見することができる。ビュー操作の様々な態様を、以下により詳細に論じる。さらに、分析者は、パラメータ調整エンジンを使用してパラメータのセットを構成することにより、225において、バックエンドの双クラスタリングプロセスを動的に調整することができる。
これらサブプロセスの各々は、視覚化の例示的実施態様を参照して、以下により詳細に論じられる。各構成要素は、次の順番で以下に論じる。最初に、要約データ(双クラスタ又は双クラスタチェーン)を具体的な視覚資料に変換することによる視覚化の生成230を論じる。235において、視覚化の表示を動的に変更するために、ビュー操作エンジンによって行われるビュー操作を論じる。次に、双クラスタリングエンジン210の、215における双クラスタリング生成プロセスの出力からの視覚化のための入力を準備するための、220における双クラスタマッチングが論じられる。最後に、視覚化に関する入力を変更するための双クラスタリングアルゴリズムに関するパラメータを調整するための、225におけるパラメータの調整のインターフェースを論じる。
生成された視覚化の一態様は、双クラスタ中心の方式で双クラスタの出力を示すためのものであり、ここでは、双クラスタが、分析者が操作できる視覚対象として表示される。このことは、エンティティを中心とする(たとえば、エンティティを表示することに集中し、双クラスタを間接的に表示するのみである)、すべての双クラスタ又はその関係を(双クラスタのエンティティのオーバーラップに起因して)示していない、(図1A及び図1Bに示す)関連する既存のアプローチとは異なっている。視覚化システムの各態様を詳細に記載する際に、例示的入力データが使用される。例示的入力データは、215における、1又は複数の双クラスタ生成操作の結果である場合がある。ここで、結果の中の各双クラスタは、エンティティとその関係との、2つのセットで構成されている。いくつかの例示的実施態様では、215における1又は複数の双クラスタ生成操作は、(関連付けられた重み付けの値を伴う)エンティティとその関係との2つのセットで構成された結果の各双クラスタとの、重み付けされた関連性データを使用して実施され得る。
図3Aは、例示的実施態様に係る双クラスタリングアルゴリズムの出力の最初の視覚化300を示す図である。図3Aでは、双クラスタリングアルゴリズムは、団体のメッセージシステムから抽出された従業員−会話の関係のデータに適用されている。視覚化300の頂部305は、データの概観を示しており、視覚化の底部310は、各双クラスタを行として示している(たとえば、315、320など)。
基本的な双クラスタの視覚化:底部310では、各行(たとえば、315、320など)が双クラスタを示している。この中で、2つのタイプのエンティティ(会話325とユーザ335)がグレーの円で(特定のエンティティを識別するために提供されたパターンを伴って)示されている。また、その関係は、矩形330内の小さい半透明の線332として示されている。矩形330内の各線332の位置は、その関連性の重みに対応している(たとえば、0から1、左から右)。このため、矩形330及び線332は、各双クラスタに関連付けられた関係の重みの分布を示している(たとえば、行315、320)。たとえば、図3Aの行320は、3×2の双クラスタを示しており、その6つの関係のいくつかは、類似の重みを有し、このため、相互にオーバーラップしている。さらに、各エンティティの円(325、335)の色の勾配は、そのエンティティが属する双クラスタの数に対応する場合がある(すなわち、双クラスタのメンバーシップ)。たとえば、より暗い色は、そのエンティティがメンバーである双クラスタがより多いことに対応している。例示的行320に関し、「users」の下の第1のエンティティ335Aと第3のエンティティ335Bは、より暗い色を有し、それらエンティティが多くの別の双クラスタ(たとえば、行)によって共有されていることを示している。この態様により、分析者が、どのエンティティをさらに調査するかを選択することを可能にし得る。
概観の視覚化:視覚化300の頂部305により、双クラスタリングアルゴリズムへのオリジナルの入力に関する双クラスタリングの結果の概観が提供される。頂部では、円のセット(340、345)が、双クラスタリングに関する最小サイズの要件を示すために、各エンティティのタイプに関して提供され得る(ユーザ用の340、及び、会話用の345)。いくつかの例示的実施態様では、最小サイズの要件は、215における双クラスタ生成操作のパラメータである場合があり、また、図2の225におけるパラメータの調整の間に設定され得る。たとえば、図3Aでは、分析者は、サイズが少なくとも3×2である双クラスタを見つけることを望んでいる。頂部305の中間の2つのバー(350、355)は、双クラスタリングのアウトプットに含まれているデータ内のエンティティの総数のパーセンテージを示している。各バー350、355では、より暗い部分が、含まれるエンティティのパーセンテージを示している。バー350、355の下では、チャート360が、データ内の関係すべて(より明るい色)、及び、双クラスタ内に含まれる関係すべて(より暗い色)の、重み付けされた分布を示している。このチャート360は、下の双クラスタ内の矩形330と、同じ軸を共有している(たとえば、左から右に0から1)。さらに、黒い線365は、重み付けの値に関する閾値を示している。たとえば、この線365の下の重みは、無視される場合がある。いくつかの例示的実施態様では、黒い線365の値は、215における双クラスタの生成の間に使用される双クラスタリングアルゴリズムのパラメータである場合があり、また、図2の225におけるパラメータの調整の間に設定され得る。
視覚化300が提供されると、視覚化システム200による、235におけるビューの操作により、ユーザが視覚化300を操作するための、相互作用領域又は操作機能が提供され得る。いくつかの例示的実施態様では、以下に論じるビューの操作機能は、図10において下に示されているユーザインターフェースなどのユーザインターフェースのツールバーの制御によって、又は、視覚化を直接操作することによって、アクセス可能である場合がある。図4及び図5は、ユーザによって選択された操作機能に基づいて生成された、アップデートされた視覚化400、500を示す図である。
ピンニング:ユーザ又は分析者が、双クラスタ内の特定のエンティティ及びそのメンバーシップをさらに調査することを決めた場合、ユーザは、エンティティ(335B)を(ダブルクリックなどによって)選択して、外に出し(ピンニング)、個別の列405を形成することができる。この列405は、エンティティ(335B)の双クラスタ(たとえば、行315、320など)すべてに対するメンバーシップをよりよく表示する。たとえば、図4では、「Smith」、より暗いグレーの円(エンティティ335B)が分析者によってピンニングされている。
ピンニングの後に、エンティティ335Bは、ボーダライン410によって分けられた別の列405を取り、分析者は、どの双クラスタ(たとえば、行315、320など)がこのエンティティ335Bを含んでいるかを明確に見ることができる。さらに、ピンニングされたエンティティ(たとえば、行315、320など)からなる双クラスタすべては、分析者に関心を持たれていると見なされ得る。このため、これら双クラスタに属するエンティティすべては、グレーにされている場合がある残りのエンティティとは対照的に、異なる色が付けられる(たとえば、暗くされる)場合がある。同様に、色の濃度も、関心があると見なされている双クラスタすべての、そのエンティティのメンバーシップのカウントにマッピングされる場合がある。この視覚的エンコーディングは、分析者が、ピンニングされたエンティティ335Bに関連する双クラスタにおいて、その次にもっとも共有されているエンティティが何なのかをさらに識別する助けになる場合がある。たとえば、図4Aでは、第1の双クラスタのユーザドメイン内のエンティティ335A(「john」としても知られている)は、より暗いトーンであり、「Smith」(エンティティ335B)が参加している会話にもっとも頻繁に現れていることを示している。分析者はこのため、このエンティティをピンニングすることができ、視覚コーディングは、したがって、図5を参照して以下に論じるように、関心があると見なされている双クラスタ(すなわち、「Smith」と「John」との両方を含む双クラスタ)の新たなセットに基づいてアップデートされ得る。同様に、分析者は、関心のあるエンティティを選択することにより、右(エンティティ325「会話」)の他のドメインを調査することができる。エンティティに関する他の色のコーディングスキームが、同じ相互作用性を維持しつつ、適用可能であることに留意されたい。
順序付け:いくつかの例示的実施態様では、視覚化により、双クラスタを、特定のピンニングされたエンティティのメンバーシップによって順序付けすることができるようになり得る。たとえば、いくつかの例示的実施態様では、エンティティラベル「Smith」(列405に示されている)をクリックすることにより、すべての関連付けられた双クラスタをトップに押し上げ得、また、視覚化のアニメーションが、双クラスタの順序の変化を容易にするために、プレイされ得る。さらに、いくつかの例示的実施態様では、ラベルを再びクリックすることにより、この効果をキャンセルする場合がある。さらに、双クラスタは、サイズ、平均の関係性の重み、関係性の重みの変化、又は、当業者には明らかである場合があるその他の変数など、多くの他の特性によってソートすることができる。図3B及び図3Cは、異なる特性によってソートされた最初の視覚化を示している。たとえば、図3Bは、双クラスタのサイズに基づいてソートされた最初の視覚化を示している。また、図3Cは、各双クラスタの関係に関連付けられた重みの変化に基づいてソートされた最初の視覚化を示している。
視覚リンク:図5では、アップデートされた視覚化500が提供される。アップデートされた視覚化500では、エンティティ335A(「John」)及び325A(会話「C264」)がさらに選択されるとともにピンニングされている。図示のように、選択されたエンティティは、列505及び515内の表示された箱330にシフトされており、また、分割線510、520によって残りのエンティティから分割されている。ポインタ525又は他の制御要素を使用して、分析者は、特定のエンティティ(たとえば、列405と行320との間で共有されているエンティティ335B(「Smith」))又は関係を浮き上がらせて、そのクラスタのメンバーシップをその場で見ることができる。このことにより、分析者が、そのアイテムが双クラスタ内の他のエンティティ及び関係にどのように関連しているかに関して迅速に知ることを可能にする。たとえば、図5では、列405と行320との間で共有されているエンティティ335B(「Smith」)が浮き上がっており、2つのリボン530と535とが、調査を容易にするために、行320と列405とをそれぞれハイライトしている。同時に、浮き上がっているエンティティに関連付けられたすべての視覚対象が視覚化において強調されている。別の双クラスタにおける同じエンティティを示す円は、暗いアウトラインで示されており、また、すべてのクラスタ内のこのエンティティに繋げられた関係は、ハイライトされ得る。
図6A及び図6Bは、235におけるビュー操作の間に提供されるビュー操作オプションを使用して生成され得るさらなる視覚化600、605を示す図である。
フィルタリング:図6Aは、フィルタリングが適用されている視覚化600を示している。たとえば、分析者は、データの調査の前後関係を失うことなく、視覚の複雑さを低減するために、特定のエンティティ又は関係(たとえば、エンティティ610)をフィルタリングして除くように選択することができる。図示のように、フィルタリングされたエンティティは、中空の円として示され、それらの繋がった関係612は、関係のバー330上に半透明のグレーで示されている。分析者は、視覚化内の他の対象に注目するためにフィルタを動的に変更することができる。
グループ化:図6Bは、類似性のグループ化アルゴリズムが適用されている視覚化605を示している。いくつかの場合では、双クラスタの数が大きく増大している場合、分析者が、調査のために、関心のある特定の双クラスタを選択することが困難である場合がある。このことに対処するために、視覚化システム200は、類似性のメトリックに基づき、双クラスタのグループ化をさらにサポートする場合がある。たとえば、いくつかの例示的実施態様では、視覚化システムが、第1のドメインのエンティティの類似性、第2のドメインのエンティティの類似性、及び、第1のドメインのエンティティと第2のドメインのエンティティとの間の関係の類似性を含む様々なメトリックを使用して、2つの双クラスタがどのぐらい近いかを測定する場合がある。各ドメインに関するエンティティの類似性は、ジャカール距離を計算することによって判定され得、また、エンティティ間の関係の類似性は、計算された、重み付けされたジャカール距離に基づくものである場合がある。図6Bは、双クラスタグループ620を示しており、双クラスタグループ620は、黒い線625で分割されている。分析者は、グループの平均双クラスタサイズ、関係の重みなどに基づき、グループ620をさらに順序付けることができる。やはり、各グループ620内の双クラスタは、それら比較基準で別々に順序付けすることができる。
図7は、上述の様々な操作を実施するように、視覚化を操作するためのプロセス700のフローチャートを提供している。いくつかの例示的実施態様では、プロセス700は、上述の相互作用又は操作の各々を組み込み、また、図示のために、各操作が相互にどのように影響するかを示している。いくつかの例示的実施態様では、プロセス700の一部(図7の上部70)は、視覚化の生成230の間に実施され得ると共に、別の部分(図7の下部75)は、プロセス700の上部70の部分を調整するために、視覚化の生成230とのビュー操作235の相互作用の間に実施され得る。図示のように、プロセス700は、705における入力である双クラスタリングアルゴリズム715を使用して検出された双クラスタで開始される。双クラスタが入力された後に、双クラスタは、710における視覚化のY軸に沿って図3から図5、図6A及び図6Bに示したように、行に配置される。最初に双クラスタをY軸に沿ってレイアウトする特定のプロセスは、視覚化システム200のデフォルトの構成に基づいて実施され得る。たとえば、双クラスタは、各双クラスタ内のエンティティの数に基づく、アルファベット順、数字の順番、及びサイズの順番で配置され得る。以下に論じるように、双クラスタのレイアウトは、ユーザによって実施されるグループ化操作730及び順序付け操作735によって影響され得る。
双クラスタがY軸に沿って配置されると、各双クラスタに関連付けられたエンティティ及び関係の情報は、たとえば715において視覚化のX軸に沿って、横に表示され得る。最初に双クラスタの関係をX軸に沿ってレイアウトする特定のプロセスは、視覚化システム200のデフォルトの構成に基づいて実施され得る。たとえば、各双クラスタのエンティティは、各双クラスタ内のエンティティの数に基づく、アルファベット順、数字の順番、及びサイズの順番で配置され得る。以下に論じるように、双クラスタのエンティティ及び関係のレイアウトは、ユーザによって実施されるピンニング操作740によって影響され得る。
各双クラスタのエンティティ及び関係がレイアウトされた後に、エンティティ及び関係の情報が、720において、検出された関係に対応して色付けされ、影が付けられ、又は、別様に視覚的に識別され得る。色付け、影付けなどの例示的実施態様は、ピンニング操作740、フィルタリング操作745、及び選択/浮上操作750に基づいて実施され得る。
720において視覚化にカラーコードが付された後は、視覚表示725がユーザに出力され得、また、プロセス700は、操作の要求が受信されるまで終了され得る。操作の要求が受信されると、235において、図7の下部の処理が、ビュー操作の間に実施され得る。図示のように、235におけるビュー操作の各操作は、プロセスの上部70の様々な態様に影響し得る。たとえば、「グループ化」操作730又は「順序付け」操作735は、プロセス700の上部70の双クラスタレイアウト710の段階に影響し得る。同様に、「フィルタリング」操作745並びに「選択及び浮上」操作750は、プロセス700の上部70のカラーコード付け720の段階に影響し得る。さらに、「ピンニング」操作740は、プロセス700の上部70の、エンティティ及び関係のレイアウト段階715と、カラーコード付け段階との両方に影響し得る。
図7は、プロセスの下部75の異なる操作間の作用関係をも示している。たとえば、「グループ化」操作735は、分析者が、グループ内の双クラスタをソートするか、グループを全体的にソートすることを望む場合、「順序付け」操作735に影響するか引き起こす場合がある。同様に、「ピンニング」操作740は、分析者が、ピンニングされたエンティティをアンカとして選択した場合に、「順序付け操作」735に影響するか引き起こす場合があり、また、フィルタリング操作745にも影響し得る。さらに、「順序付け」操作735は、「グループ化」操作730と「ピンニング」操作740との両方に影響する場合がある。さらに、「フィルタリング」操作745は、「ピンニング」操作740と「選択及び浮上」操作750との両方に影響する場合がある。
双クラスタチェーンの視覚化及び計算:多くの現実世界のシナリオでは、分析者は、3つ以上の異なるタイプのエンティティ間の同格化された関係を調査し、複数の関係性のデータセットに双クラスタリングを実施する必要がある場合がある。たとえば、第1の双クラスタリング分析に基づき、従業員−会話の関係は、我々に、有機的ワークグループと、それらワークグループ間でしばしば共有される会話を示す場合がある。さらに、第2の、会話−トピックの関係に基づく、繋がった双クラスタリング分析により、我々に、ワークグループ内でしばしば話されるトピックがさらに示される場合がある。双クラスタチェーン内のこれら別々の双クラスタ分析の結果を合わせることにより、データのより深い洞察を明らかにすることができる場合がある。図8A及び図8Bは、この合わせられた分析において使用される、双クラスタチェーンの視覚化800、802の例示的実施態様を示す図である。
双クラスタチェーンの視覚化:図8A及び図8Bに示すように、視覚化システムは、異なる双クラスタリングプロセスによって生成された同じタイプのエンティティのセットをマッチさせることにより、多次元のシナリオにおける双クラスタの調査をサポートする場合がある。図8Aは、2つの双クラスタの視覚化805と810とを繋げる双クラスタチェーンの視覚化800を示しており、各双クラスタの視覚化は、図3〜図6を参照して上述した双クラスタの視覚化に類似である。図示のように、第1の双クラスタの視覚化805は、ドキュメントのエンティティ815を、このドキュメントに関連付けられたトピックのエンティティ820に繋げる双クラスタを示す視覚化である場合がある。さらに、第2の双クラスタの視覚化810は、トピックのエンティティ820を、ドキュメントに関連付けられた作者のエンティティ825に繋げる双クラスタを示す視覚化である場合がある。このため、双クラスタチェーンの視覚化800により、公表コーパスからのトピックのモデリングに基づいて計算された、ドキュメント−トピックの双クラスタリング805及びトピック−作者の双クラスタリング810の関係の結果が視覚化される。この例示的実施態様では、共通のエンティティのタイプ(たとえば、「トピック」820)のトピックが、両側(805、810)から双クラスタをマッチさせるために使用される。行内の、マッチングされた各双クラスタペア(たとえば、双クラスタチェーン830、835)に関し、同じトピックのエンティティは、水平線840、845で接続され得る。図示のように、水平線840は、共通のエンティティのタイプ(たとえば、「トピック」820)のただ1つのエンティティ855が、第1の双クラスタの視覚化805と第2の双クラスタの視覚化810との間で共有されている場合、より細い場合がある。さらに、水平線845は、共通のエンティティのタイプ(たとえば、「トピック」820)の2つ以上のエンティティ(たとえば、860、865、870)が、第1の双クラスタの視覚化805と第2の双クラスタの視覚化810との間で共有されている場合、より太い場合がある。
さらに、いくつかの例示的実施態様では、水平バー875、880が、各双クラスタチェーン830、835を形成する2つの双クラスタ間のマッチングスコアを表示するために、第1の双クラスタの視覚化805と第2の双クラスタの視覚化810との間に提供され得る。たとえば、バー875、880は、第1の双クラスタの視覚化805内の双クラスタと第2の双クラスタの視覚化の双クラスタとの間のジャカール距離に基づいて計算されたマッチングスコアに対応する長さを有する場合がある。図8Aでは、双クラスタチェーン835に関連付けられたバー875は、双クラスタチェーン830に関連付けられたバー880よりも短く、双クラスタチェーン830に関するマッチングスコアよりも低い、双クラスタ835に関するマッチングスコアを示している。このため、分析者は、双クラスタチェーン830が、より強い相関を示していることを判定する場合がある。
図8Bは、上述の2つの双クラスタの視覚化805と810とを繋げる、アップデートされた双クラスタチェーンの視覚化802を示している。図8Bに示すように、分析者は、ユーザ・インプット・デバイスを使用してエンティティ885を浮上させて、ハイライト効果を引き起こす場合がある。このことは、そのエンティティ885のすべての例が、別々の、ハイライトされた列887にピンニングされることの引き金となり得る。さらに、選択されたエンティティ885が選択されている特定の双クラスタチェーン889は、やはりハイライトされ得る。さらに、第1の双クラスタの視覚化805内の双クラスタを、第2の双クラスタの視覚化内の双クラスタに繋げる線891は、同じリンクするエンティティ885を含む別の双クラスタチェーンでハイライト又はオフセットしている場合がある。これらプロセスを使用して、分析者は、上の図3から図6を参照して上述した単一の双クラスタグループの操作に類似の、第1又は第2の双クラスタリングの結果の量(たとえば、サイズ、平均関係長さなど)により、双クラスタチェーンを順序付けることができる場合がある。さらに、いくつかの例示的実施態様では、双クラスタチェーンの視覚化802により、分析者に、データのコーパス内の選択されたエンティティ899に関連付けられたキーワード又は特性が提供される場合もある。
双クラスタチェーンの計算:図9は、例示的実施態様に係る、双クラスタチェーンを計算するための例示的プロセスを示す図である。双クラスタチェーンの計算に基づく異なる双クラスタリングプロセスから生成された双クラスタのグループは、図9に示すプロセス900を経る。プロセス900では、双クラスタの連続したグループが、以下に示すアルゴリズム(アルゴリズム1)などのアルゴリズムを使用して、ともにマッチされる。図示のように、類似性のスコアは、905において、チェーン内でともにマッチされることになる双クラスタの各対に関して計算される。いくつかの例示的実施態様では、類似性のスコアは、ジャカール距離、又は、当業者に明らかである場合があるその他の類似性の計算によって計算され得る。
双クラスタの各ペアに関して類似性のスコアが計算された後は、双クラスタのペアが、910において、類似性のスコアによって降順でソートされる。次いで、各双クラスタペアに関し、類似性のスコアが、915において、閾値と比較される。いくつかの例示的実施態様では、分析者により、閾値が設定又は調整されて、生成される双クラスタチェーンの数が増大又は減少され得る。閾値より下の類似性のスコアを有する任意の双クラスタのペアは、マッチしないものと分類され得、また、920において、表示のための分析から除去されるか、排除される場合がある。マッチしない双クラスタは、視覚化800、802の行のいずれかの側で空の空間として表示される場合がある。
閾値より下の類似性の値を有する双クラスタのペアすべてが除去されるか排除されると、925において、残りの双クラスタのペアが、リンクするエンティティ(又は、複数のエンティティが任意の所与の双クラスタのペアに共有されている場合は、複数のリンクするエンティティ)を使用して、ともに繋げられて、図8A及び図8Bに示す視覚化800、802などの視覚化が形成される。いくつかの例示的実施態様では、双クラスタのペアは、以下に示すアルゴリズム(アルゴリズム2)などのアルゴリズムを使用して、ともに繋げられ得る。

アルゴリズム1:双クラスタマッチング

アルゴリズム2:双クラスタチェイニング
動的なパラメータ調整:いくつかの例示的実施態様では、分析者は、双クラスタリングエンジン210を生成するのに使用された様々なパラメータを調整することにより、双クラスタリングの結果を調査することを望む場合がある。たとえば、分析者は、生成されることになる様々な関係又は双クラスタの最小サイズに適用される最小の重みの閾値を動的に調整することを望む場合がある。このため、いくつかの例示的実施態様では、視覚化システム200により、225において、パラメータの調整が提供される。このパラメータの調整により、これらパラメータの動的な調整、双クラスタリングエンジン210及び双クラスタマッチング220による、バックエンド上の双クラスタリングの実施、及び、視覚化の生成230によって提供されたフロントエンドの視覚化のアップデートが、リアルタイムで可能になる。
図10は、視覚化システム200の225におけるパラメータ調整を制御し得るユーザインターフェース(「UI」)を1000示す図である。図示のように、UI1000は、視覚化エリア1005及び、この視覚化エリア1005の上のツールバーエリア1007を含んでいる。視覚化エリア1005は、図8Aを参照して上述した双クラスタチェーンの視覚化800など、繋げられた双クラスタの視覚化を表示する。ツールバーエリア1007は、分析者が、双クラスタリングアルゴリズム(たとえば、図2の双クラスタリングエンジン210の双クラスタリングアルゴリズム)及び視覚化エリア1005を管理し、視覚化エリア1005との一定の相互作用(順序付け及びフィルタリングなど)を実施するパラメータを構成することを可能にするための様々な制御を提供し得る。ツールバーエリア1007は、視覚化エリア1015に表示された2つの双クラスタ視覚化のサマリを提供する、情報フィールド1010及び1015を含み得る。ツールバーエリア1007は、双クラスタリングアルゴリズムのパラメータを制御するためのコントロール1020、1025、1030をも提供し得る。たとえば、コントロール1020は、エンティティをマッチさせて、双クラスタを形成するのに使用されるマッチングパラメータ(たとえば、「0.1」)を調整することを可能にし得る。さらに、コントロール1025は、分析者が、双クラスタアルゴリズムによって提供されることになる双クラスタの最小サイズを判定することを可能にし得る。さらに、コントロール1030は、双クラスタチェーンを計算するのに使用される類似性の閾値の調整を可能にし得る。
ツールバーエリア1007は、表示されることになる双クラスタのグループ化の数を選択するためのコントロール1035と、双クラスタがどのように視覚化エリア1005内でソートされることになるかを選択するための別のコントロール1040をも提供し得る。ツールバーエリアは、エンティティをフィルタリングして外すことを可能にするフィルタコントロール1045と、視覚化エリアに表示される視覚化とをも提供し得る。
潜在的な用途:本出願の視覚化システムの例示的実施態様は、ドメインの領域に適用され得、ここでは、分析者は、データ内の同格化された関係を調査することに関心がある場合がある。
たとえば、機関内の通信パターンを分析する前後関係においては、図3から図5は、機関の内部のメッセージシステムから収集されたデータを使用して計算されたものである。これら例示的視覚化において、「John」及び「Smith」は、彼らがほとんどの双クラスタ(たとえば、従業員−会話のグループ)内に現れていることから、影響力のある人物と見なされる場合がある。彼らは、彼らが多くの双クラスタに共存することから、一貫した、密な協力者でもある。さらに、この視覚化は、(図5の赤線510の左の)ピンニングされていないエンティティを見ることにより、他の誰が彼らと作業しているかを識別するための興味深い情報をも提供する場合がある。このことは、(右の会話グループによって反映される)プロジェクト毎の差異を示す場合がある。さらに、それら人々のどのサブグループから来たかを知ることにより、サブグループのメンバーシップがプロジェクトに適切であるかが推論される場合がある。同様に、会話の共起は、密に関連しているコンテンツを発見するために、調査され得る。さらに、図8及び図9を参照して論じた双クラスタチェーンの視覚化及び計算を使用して、会話のコンテンツのより多くのパターンが、たとえば、従業員−会話の双クラスタと、会話−トピックの双クラスタとを統合することにより、見つかる場合がある。
同様に、視覚化システムの例示的実施態様は、文献−トピックの関係を分析するために適用さる場合がある。たとえば、双クラスタ内のトピックの共起は、しばしばともに研究される態様を示す場合があり、また、多くの双クラスタ内に現れる、影響力の大きいトピックを識別するのにも使用され得る。ドキュメント−トピック、及び、トピック−作者の関係の双クラスタを繋げることにより、共著パターンも識別され得る。同様に、上の事業のメッセージの分析のシナリオに関し、ポスト−トピック、及び、トピック−ユーザの関係も、調査され得る。
著者−会話の関係、及び、文献−トピックの関係の調査が本明細書に論じられているが、例示的実施態様は、それらタイプの関係に限定されず、他のタイプの関係に適用される場合がある。たとえば、人−場所の共起関係、又は、当業者には明らかである場合があるその他の関係が調査され得る。
さらに、本出願の例示的実施態様は、アプリケーションドメインに基づくエンティティの様々な視覚エンコーディングに適用され得る。図11は、代替的な構成に係る双クラスタの視覚化1100を示している。図示のように、従業員−会話の関係を分析するケースでは、従業員の円が、セクション1110において従業員の写真と相関される場合があり、また、会話は、セクション1115のトップのキーワードに相関され得る。一方、セクション1105においては、レイアウトと相互作用は同じままである。やはり、円のサイズは、セクション1120の人々の影響など、他の量をエンコードするために使用され得る。このため、いくつかの例示的実施態様では、視覚化システムは、同格化された関係の調査のための、高レベルのパラダイムを提供する場合がある。
例示的コンピュータ環境
図12は、いくつかの例示的実施態様における使用に適切な例示的コンピュータデバイス1205の例示的コンピュータ環境1200を示す図である。コンピュータ環境1200におけるコンピュータデバイス1205は、1又は複数の処理ユニット、コア、又はプロセッサ1210、メモリ1215(たとえば、RAM、ROMなど)、内部ストレージ1220(たとえば、磁気ストレージ、光学ストレージ、固形ストレージ、及び/若しくは有機ストレージ)、並びに/又はI/Oインターフェース1225を含むことができる。これらのうちの任意のものは、情報通信のために通信機構又はバス1230上に結合するか、コンピュータデバイス1205に埋め込むことができる。
コンピュータデバイス1205は、通信するように入力/ユーザインターフェース1235及び出力デバイス/インターフェース1240に結合することができる。入力/ユーザインターフェース1235と出力デバイス/インターフェース1240とのいずれか一方又は両方は、有線又は無線インターフェースとすることができ、取外し可能とすることができる。入力/ユーザインターフェース1235は、入力を提供するのに使用することができる任意のデバイス、構成要素、センサ、又は、物理若しくは仮想インターフェース(たとえば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソルコントロール、マイク、カメラ、点字、モーションセンサ、光学リーダなど)を含んでもよい。出力デバイス/インターフェース1240は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでもよい。いくつかの例示的実施態様では、入力/ユーザインターフェース1235及び出力デバイス/インターフェース1240は、コンピュータデバイス1205に埋め込むことができるか、物理的に結合することができる。他の例示的実施態様では、他のコンピュータデバイスが、コンピュータデバイス1205に関して、入力/ユーザインターフェース1235及び出力デバイス/インターフェース1240として機能するか、入力/ユーザインターフェース1235及び出力デバイス/インターフェース1240の機能を提供する場合がある。
コンピュータデバイス1205の例には、限定ではないが、高度に移動性のデバイス(たとえば、スマートフォン、自動車及び他の機械のデバイス、人間又は動物に運ばれるデバイスなど)、移動デバイス(たとえば、タブレット、ノート、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、並びに、移動用には設計されていないデバイス(たとえば、デスクトップコンピュータ、サーバデバイス、他のコンピュータ、情報キオスク、1又は複数のプロセッサが内部に埋め込まれ、且つ/又は結合されたテレビ、ラジオなど)が含まれ得る。
コンピュータデバイス1205は、同じ又は異なる構成の1又は複数のコンピュータデバイスを含む、ネットワーク化された任意の数の構成要素、デバイス、及びシステムと通信するために、外部ストレージ1245及びネットワーク1250に(たとえばI/Oインターフェース1225を介して)通信するように結合することができる。コンピュータデバイス1205又は任意の接続されたコンピュータデバイスは、サーバ、クライアント、シンサーバ、汎用機械、特定用途の機械、又は別のラベルとして機能するか、サービスを提供するか、又は呼ばれる場合がある。
I/Oインターフェース1225は、限定ではないが、少なくとも、コンピュータ環境1200において接続された構成要素、デバイス、及びネットワークすべてに情報を通信し、且つ/又はこれらから情報を通信するための、任意の通信若しくはI/Oプロトコル、又は規格(たとえば、イーサネット(登録商標)、802.11x、ユニバーサル・システム・バス、WiMAX、modem、セルラ・ネットワーク・プロトコルなど)を使用する有線及び/又は無線インターフェースを含み得る。ネットワーク1250は、任意のネットワーク又はネットワークの組合せ(たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、電話ネットワーク、セルラネットワーク、衛星ネットワークなど)とすることができる。
コンピュータデバイス1205は、一時的媒体及び非一時的媒体を含み、コンピュータで使用可能であるか、又はコンピュータで読取り可能な媒体を使用し、且つ/又は使用して通信することができる。一時的媒体には、伝達媒体(たとえば、金属ケーブル、光ファイバ)、信号、搬送波などが含まれる。非一時的媒体には、磁気媒体(たとえば、ディスク及びテープ)、光学媒体(たとえば、CD ROM、デジタル・ビデオ・ディスク、ブルーレイディスク)、固形媒体(たとえば、RAM、ROM、フラッシュメモリ、固形ストレージ)、並びに、他の不揮発性ストレージ又はメモリが含まれる。
コンピュータデバイス1205は、いくつかの例示的なコンピュータ環境において、技術、方法、アプリケーション、プロセス、又はコンピュータで実行可能な命令を実施するのに使用することができる。コンピュータで実行可能な命令には、一時的媒体から検索することができるか、非一時的媒体に記憶するか、検索することができる。実行可能な命令は、任意のプログラミング言語、スクリプト言語、及び機械言語(たとえば、C、C++、C#、Java(登録商標)、Visual Basic、Python、Perl、JavaScript(登録商標)など)の1又は複数を元にすることができる。
プロセッサ(複数の場合もある)1210は、ネイティブであるか、仮想の環境で、任意のオペレーティングシステム(OS)(図示せず)の下で実行することができる。論理ユニット1255、アプリケーション・プログラミング・インターフェース(API)ユニット1260、入力ユニット1265、出力ユニット1270、双クラスタリングエンジン1275、双クラスタ・マッチング・エンジン1280、視覚化ジェネレータ1285、パラメータ/ビュー調整エンジン1290、並びに、様々なユニットが互いと、OSと、及び他のアプリケーション(図示せず)と通信するためのユニット間通信機構1295を含み、1又は複数のアプリケーションを展開することができる。たとえば、双クラスタリングエンジン1275、双クラスタ・マッチング・エンジン1280、視覚化ジェネレータ1285、及びパラメータ/ビュー調整エンジン1290は、図2、図7、及び図9に示す1又は複数のプロセスを実施し得る。記載のユニット及び要素は、設計、機能、構成、又は実施態様を変更することができ、提供された記載には限定されない。
いくつかの例示的実施態様では、情報又は実施命令がAPIユニット1260によって受信されると、APIユニット1260は、1又は複数の他のユニット(たとえば、論理ユニット1255、入力ユニット1265、双クラスタリングエンジン1275、双クラスタ・マッチング・エンジン1280、視覚化ジェネレータ1285、及びパラメータ/ビュー調整エンジン1290)に通信する場合がある。たとえば、双クラスタリングエンジン1275は、入力ユニット1265を介して関係データを受信するとともに、生成された双クラスタを双クラスタ・マッチング・エンジン1280に提供する場合がある。双クラスタ・マッチング・エンジン1280が、共有されたエンティティに基づいて双クラスタをマッチさせると、マッチした双クラスタは、視覚化を生成するために、視覚化ジェネレータ1285に提供され得る。さらに、パラメータ/ビュー調整エンジン1230は、視覚化ジェネレータ1285及び双クラスタリングエンジン1275を制御して、視覚化をアップデート及び変更する場合がある。
いくつかの例では、論理ユニット1255は、上述のいくつかの例示的実施態様において、各ユニット間で情報フローを制御し、APIユニット1260、入力ユニット1265、出力ユニット1270、双クラスタリングエンジン1275、双クラスタ・マッチング・エンジン1280、視覚化ジェネレータ1285、及びパラメータ/ビュー調整エンジン1290によって提供されるサービスを向けるように構成され得る。たとえば、1又は複数のプロセス又は実施態様のフローは、論理ユニット1255単独か、APIユニット1260との組合せによって制御される場合がある。
いくつかの例示的実施態様が示され、記載されてきたが、これら例示的実施態様は、この分野に詳しい人々に、本明細書に記載の主題を伝えるために提供されたものである。本明細書に記載の主題は、記載の例示的実施態様に限定されることなく、様々な形態で実装され得ることを理解されたい。本明細書に記載の主題は、これら具体的に規定若しくは記載された成分なしで、又は、記載されていない他の、若しくは異なる要素若しくは成分とともに実施することができる。当業者は、変更が、添付の特許請求の範囲、及びその均等物の中に規定された、本明細書に記載の主題から逸脱することなく、これら例示的実施態様の中で行われ得ることを理解するであろう。

Claims (22)

  1. 第1のタイプのエンティティ、第2のタイプのエンティティ、及び、前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係を示すデータを含む関係データを受け取ることと、
    前記関係を示すデータに基づき、前記第1のタイプのエンティティを前記第2のタイプのエンティティに繋げる双クラスタを生成することと、
    生成された前記双クラスタに基づいて視覚化を生成することであって、
    前記視覚化は、
    前記第1のタイプのエンティティを示す第1の列、及び、
    前記第2のタイプのエンティティを示す第2の列を含み、前記視覚化の各行が、前記生成された双クラスタに対応する、
    視覚化を生成することと、
    を含む、関係のデータを視覚化する方法。
  2. 前記生成された視覚化がさらに、
    前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係の、重み付けされた視覚表示を含む、請求項1に記載の方法。
  3. 前記関係を示すデータが、前記第1のタイプの複数のエンティティと前記第2のタイプの複数のエンティティとの間の、少なくとも1つの関係を示すデータを含んでおり、
    前記生成された双クラスタが、前記第1のタイプの前記複数のエンティティの各々を、前記第2のタイプの前記複数のエンティティの各々に繋ぎ、
    前記生成された視覚化がさらに、
    前記第1のタイプの前記複数のエンティティを示す第1の列、及び、
    前記第2のタイプの前記複数のエンティティを示す第2の列を含み、
    前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に配置されている、
    請求項2に記載の方法。
  4. 少なくとも1つの前記関係を示すデータが、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の複数の関係を示し、
    前記重み付けされた視覚表示が、
    前記第1の列と前記第2の列との間に、第1の方向に延びる第1のタイプの視覚要素と、
    前記第1のタイプの視覚要素の上に配置され、前記第1の方向と直交する第2の方向に延びる、第2のタイプの視覚要素であって、
    前記第2のタイプの複数の視覚要素が、前記第1のタイプの視覚要素の上に配置され、前記複数の視覚要素の各々が、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の前記複数の関係の1つに関連付けられている、第2のタイプの視覚要素と、
    を含む、請求項3に記載の方法。
  5. 前記第1のタイプのエンティティ、第3のタイプのエンティティ、及び、前記第1のタイプの別の複数のエンティティと前記第3のタイプの複数のエンティティとの間の関係を示す追加のデータとを含む追加の関係データを受け取ることと、
    関係を示す前記追加のデータに基づき、前記別の複数の第1のタイプのエンティティの各々を、前記複数の第3のタイプのエンティティの各々に繋げる別の双クラスタを生成することと、
    前記双クラスタを、前記生成された別の双クラスタに繋げる双クラスタチェーンを生成することと、
    前記生成された別の双クラスタ及び前記生成された双クラスタチェーンに基づき、別の視覚化を生成することであって、
    前記別の視覚化が、
    他の複数の前記第1のタイプのエンティティと前記複数の前記第3のタイプのエンティティとの間の関係の、重み付けされた視覚表示と、
    前記双クラスタと前記別の双クラスタとの間の関係の、重み付けされた視覚表示と、
    を含む、
    別の視覚化を生成することと、
    をさらに含む、請求項3に記載の方法。
  6. 前記双クラスタチェーンを前記生成することには、
    前記双クラスタの前記複数の第1のタイプのエンティティと前記別の双クラスタの他の複数の第1のタイプのエンティティとの間の類似性の値を計算することと、
    前記計算された類似性の値が、閾値以上であるかを判定することと、
    前記計算された類似性の値が前記閾値以上であるかの判定に応じて、前記双クラスタを、前記複数の第1のタイプのエンティティ及び前記他の複数の第1のタイプのエンティティに基づき、前記別の双クラスタに繋げることと、が含まれる、請求項5に記載の方法。
  7. 前記計算された類似性の値が前記閾値未満であることの判定に応じて、
    別の複数の前記第3のタイプのエンティティとの関係を有する前記第1のタイプの追加の複数のエンティティを選択することと、
    前記追加の複数の第1のタイプのエンティティの各々を、前記別の複数の第3のタイプのエンティティの各々に繋ぐ追加の双クラスタを生成することと、
    前記双クラスタを、前記生成された追加の双クラスタに繋げる双クラスタチェーンを生成することと、をさらに含む、請求項6に記載の方法。
  8. 前記閾値の値は、ユーザが設定した閾値である、請求項6に記載の方法。
  9. コンピュータに、関係データの視覚化の方法を実行させるプログラムであって、
    前記方法が、
    第1のタイプのエンティティ、第2のタイプのエンティティ、及び、前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係を示すデータを含む関係データを受け取ることと、
    前記関係を示すデータに基づき、前記第1のタイプのエンティティを前記第2のタイプのエンティティに繋げる双クラスタを生成することと、
    生成された前記双クラスタに基づいて視覚化を生成することであって、
    前記視覚化には、
    前記第1のタイプのエンティティを示す第1の列、及び、
    前記第2のタイプのエンティティを示す第2の列を含み、前記視覚化の各列が、前記生成された双クラスタに対応する、
    視覚化を生成することと、
    を含む、プログラム。
  10. 前記生成された視覚化がさらに、
    前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係の、重み付けされた視覚表示を含む、請求項9に記載のプログラム。
  11. 前記関係を示すデータが、前記第1のタイプの複数のエンティティと前記第2のタイプの複数のエンティティとの間の、少なくとも1つの関係を示すデータを含んでおり、
    前記生成された双クラスタが、前記第1のタイプの前記複数のエンティティの各々を、前記第2のタイプの前記複数のエンティティの各々に繋ぎ、
    前記生成された視覚化がさらに、
    前記第1のタイプの前記複数のエンティティを示す第1の列、及び、
    前記第2のタイプの前記複数のエンティティを示す第2の列を含み、
    前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に配置されている、請求項10に記載のプログラム。
  12. 前記少なくとも1つの前記関係を示すデータが、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の複数の関係を示し、
    前記重み付けされた視覚表示が、
    前記第1の列と前記第2の列との間に、第1の方向に延びる第1のタイプの視覚要素と、
    前記第1のタイプの視覚要素の上に配置され、前記第1の方向と直交する第2の方向に延びる、第2のタイプの視覚要素であって、
    前記第2のタイプの複数の視覚要素が、前記第1のタイプの視覚要素の上に配置され、前記複数の視覚要素の各々が、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の前記複数の関係の1つに関連付けられている、第2のタイプの視覚要素とを含む、請求項11に記載のプログラム。
  13. 前記第1のタイプのエンティティ、第3のタイプのエンティティ、及び、前記第1のタイプの別の複数のエンティティと前記第3のタイプの複数のエンティティとの間の関係を示す追加のデータとを含む追加の関係データを受け取ることと、
    関係を示す前記追加のデータに基づき、前記別の複数の第1のタイプのエンティティの各々を、前記複数の第3のタイプのエンティティの各々に繋げる別の双クラスタを生成することと、
    前記双クラスタを、前記生成された別の双クラスタに繋げる双クラスタチェーンを生成することと、
    前記生成された別の双クラスタ及び前記生成された双クラスタチェーンに基づき、別の視覚化を生成することであって、前記別の視覚化が、
    他の複数の前記第1のタイプのエンティティと前記複数の前記第3のタイプのエンティティとの間の関係の、重み付けされた視覚表示と、
    前記双クラスタと前記別の双クラスタとの間の関係の、重み付けされた視覚表示とを含む、別の視覚化を生成することと、をさらに含む、請求項11に記載のプログラム。
  14. 前記双クラスタチェーンを前記生成することには、
    前記双クラスタの前記複数の第1のタイプのエンティティと前記別の双クラスタの他の複数の第1のタイプのエンティティとの間の類似性の値を計算することと、
    前記計算された類似性の値が、閾値以上であるかを判定することと、
    前記計算された類似性の値が前記閾値以上であるかの判定に応じて、前記双クラスタを、前記複数の第1のタイプのエンティティ及び前記他の複数の第1のタイプのエンティティに基づき、前記別の双クラスタに繋げることと、が含まれる、請求項13に記載のプログラム。
  15. 前記計算された類似性の値が前記閾値未満であることの判定に応じて、
    別の複数の前記第3のタイプのエンティティとの関係を有する前記第1のタイプの追加の複数のエンティティを選択することと、
    前記追加の複数の第1のタイプのエンティティの各々を、前記別の複数の第3のタイプのエンティティの各々に繋ぐ追加の双クラスタを生成することと、
    前記双クラスタを、前記生成された追加の双クラスタに繋げる双クラスタチェーンを生成することと、をさらに含む、請求項14に記載のプログラム。
  16. 関係データを視覚化するように構成されたコンピュータ装置であって、
    第1のタイプのエンティティ、第2のタイプのエンティティ、及び、前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係を示すデータを含む関係データを記憶するメモリと、
    前記関係を示すデータに基づき、前記第1のタイプのエンティティを前記第2のタイプのエンティティに繋げる双クラスタを生成することと、
    生成された前記双クラスタに基づいて視覚化を生成することであって、
    前記視覚化には、
    前記第1のタイプのエンティティを示す第1の列、及び、
    前記第2のタイプのエンティティを示す第2の列が含まれ、
    前記視覚化の各列が、前記生成された双クラスタに対応する、
    視覚化を生成することと、
    を含む、プロセスを実行するプロセッサと、
    前記生成された視覚化を表示するように構成されたディスプレイデバイスと、
    を備えた、コンピュータ装置。
  17. 前記生成された視覚化がさらに、
    前記第1のタイプのエンティティと前記第2のタイプのエンティティとの間の関係の、重み付けされた視覚表示を含む、請求項16に記載のコンピュータ装置。
  18. 前記関係を示すデータが、前記第1のタイプの複数のエンティティと前記第2のタイプの複数のエンティティとの間の、少なくとも1つの関係を示すデータを含んでおり、
    前記生成された双クラスタが、前記第1のタイプの前記複数のエンティティの各々を、前記第2のタイプの前記複数のエンティティの各々に繋ぎ、
    前記生成された視覚化がさらに、
    前記第1のタイプの前記複数のエンティティを示す第1の列、及び、
    前記第2のタイプの前記複数のエンティティを示す第2の列を含み、
    前記重み付けされた視覚表示が、前記第1の列と前記第2の列との間に配置されている、請求項17に記載のコンピュータ装置。
  19. 前記少なくとも1つの関係を示すデータが、前記第1のタイプの前記複数のエンティティと前記第2のタイプの前記複数のエンティティとの間の複数の関係を示し、
    前記重み付けされた視覚表示が、
    前記第1の列と前記第2の列との間に、第1の方向に延びる第1のタイプの視覚要素と、
    前記第1のタイプの視覚要素の上に配置され、前記第1の方向と直交する第2の方向に延びる、第2のタイプの視覚要素であって、
    前記第2のタイプの複数の視覚要素が、前記第1のタイプの視覚要素の上に配置され、前記複数の視覚要素の各々が、前記第1のタイプの前記複数のエンティティと、前記第2のタイプの前記複数のエンティティとの間の前記複数の関係の1つに関連付けられている、第2のタイプの視覚要素とを含む、請求項18に記載のコンピュータ装置。
  20. 前記プロセスがさらに、
    前記第1のタイプのエンティティ、第3のタイプのエンティティ、及び、前記第1のタイプの別の複数のエンティティと前記第3のタイプの複数のエンティティとの間の関係を示す追加のデータとを含む追加の関係データを受け取ることと、
    関係を示す前記追加のデータに基づき、前記別の複数の第1のタイプのエンティティの各々を、前記第3のタイプの複数のエンティティの各々に繋げる別の双クラスタを生成することと、
    前記双クラスタを、前記生成された別の双クラスタに繋げる双クラスタチェーンを生成することと、
    前記生成された別の双クラスタ及び前記生成された双クラスタチェーンに基づき、別の視覚化を生成することであって、
    前記別の視覚化が、
    他の複数の前記第1のタイプのエンティティと前記複数の前記第3のタイプのエンティティとの間の関係の、重み付けされた視覚表示と、
    前記双クラスタと前記別の双クラスタとの間の関係の、重み付けされた視覚表示と、
    を含む、
    別の視覚化を生成することと、
    をさらに含む、請求項18に記載のコンピュータ装置。
  21. 前記双クラスタチェーンを前記生成することには、
    前記双クラスタの前記複数の第1のタイプのエンティティと前記別の双クラスタの他の複数の第1のタイプのエンティティとの間の類似性の値を計算することと、
    前記計算された類似性の値が、閾値以上であるかを判定することと、
    前記計算された類似性の値が前記閾値以上であるかの判定に応じて、前記双クラスタを、前記複数の第1のタイプのエンティティ及び前記他の複数の第1のタイプのエンティティに基づき、前記別の双クラスタに繋げることと、が含まれる、請求項20に記載のコンピュータ装置。
  22. 前記プロセスがさらに、
    前記計算された類似性の値が前記閾値未満であることの判定に応じて、
    別の複数の前記第3のタイプのエンティティとの関係を有する前記第1のタイプの追加の複数のエンティティを選択することと、
    前記追加の複数の第1のタイプのエンティティの各々を、前記別の複数の第3のタイプのエンティティの各々に繋ぐ追加の双クラスタを生成することと、
    前記双クラスタを、前記生成された追加の双クラスタに繋げる双クラスタチェーンを生成することと、を含む、請求項21に記載のコンピュータ装置。
JP2017240432A 2017-06-01 2017-12-15 データ内の同格化した関係を視覚的に調査するためのシステム、関係のデータを視覚化する方法、プログラム、及びコンピュータ装置 Active JP6988430B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/611602 2017-06-01
US15/611,602 US10521445B2 (en) 2017-06-01 2017-06-01 System for visually exploring coordinated relationships in data

Publications (2)

Publication Number Publication Date
JP2018206343A true JP2018206343A (ja) 2018-12-27
JP6988430B2 JP6988430B2 (ja) 2022-01-05

Family

ID=64459869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017240432A Active JP6988430B2 (ja) 2017-06-01 2017-12-15 データ内の同格化した関係を視覚的に調査するためのシステム、関係のデータを視覚化する方法、プログラム、及びコンピュータ装置

Country Status (2)

Country Link
US (1) US10521445B2 (ja)
JP (1) JP6988430B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271622A (ja) * 2002-01-31 2003-09-26 Requisite Technology Inc データベース中のレコードを対話型で比較すること
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム
JP2010218353A (ja) * 2009-03-18 2010-09-30 Oki Electric Ind Co Ltd クラスタリング装置およびクラスタリング方法
US20110246537A1 (en) * 2010-03-31 2011-10-06 International Business Machines Corporation Matrix re-ordering and visualization in the presence of data hierarchies
JP2014081899A (ja) * 2012-10-18 2014-05-08 Panasonic Corp 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
US20170185668A1 (en) * 2015-12-28 2017-06-29 Informatica Llc Method, apparatus, and computer-readable medium for visualizing relationships between pairs of columns

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249847A1 (en) * 2003-06-04 2004-12-09 International Business Machines Corporation System and method for identifying coherent objects with applications to bioinformatics and E-commerce
US20060259475A1 (en) * 2005-05-10 2006-11-16 Dehlinger Peter J Database system and method for retrieving records from a record library
EP2563014A3 (en) * 2007-02-21 2013-03-06 Nds Limited Method for content presentation
US20110246409A1 (en) * 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
US9043326B2 (en) * 2011-01-28 2015-05-26 The Curators Of The University Of Missouri Methods and systems for biclustering algorithm
US9495641B2 (en) * 2012-08-31 2016-11-15 Nutomian, Inc. Systems and method for data set submission, searching, and retrieval
US10395215B2 (en) * 2012-10-19 2019-08-27 International Business Machines Corporation Interpretation of statistical results
WO2014179724A1 (en) * 2013-05-02 2014-11-06 New York University System, method and computer-accessible medium for predicting user demographics of online items
US10152557B2 (en) * 2014-01-31 2018-12-11 Google Llc Efficient similarity ranking for bipartite graphs
US20160098519A1 (en) * 2014-06-11 2016-04-07 Jorge S. Zwir Systems and methods for scalable unsupervised multisource analysis
US10061816B2 (en) * 2015-05-11 2018-08-28 Informatica Llc Metric recommendations in an event log analytics environment
US10599700B2 (en) * 2015-08-24 2020-03-24 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for narrative detection and frame detection using generalized concepts and relations
US9851959B2 (en) * 2016-02-17 2017-12-26 Qualcomm Innovation Center, Inc. Semantically sensitive code region fingerprint calculation for programming languages

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271622A (ja) * 2002-01-31 2003-09-26 Requisite Technology Inc データベース中のレコードを対話型で比較すること
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム
JP2010218353A (ja) * 2009-03-18 2010-09-30 Oki Electric Ind Co Ltd クラスタリング装置およびクラスタリング方法
US20110246537A1 (en) * 2010-03-31 2011-10-06 International Business Machines Corporation Matrix re-ordering and visualization in the presence of data hierarchies
JP2014081899A (ja) * 2012-10-18 2014-05-08 Panasonic Corp 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
US20170185668A1 (en) * 2015-12-28 2017-06-29 Informatica Llc Method, apparatus, and computer-readable medium for visualizing relationships between pairs of columns

Also Published As

Publication number Publication date
JP6988430B2 (ja) 2022-01-05
US20180349448A1 (en) 2018-12-06
US10521445B2 (en) 2019-12-31

Similar Documents

Publication Publication Date Title
US11132604B2 (en) Nested machine learning architecture
US20190073580A1 (en) Sparse Neural Network Modeling Infrastructure
CN109923568B (zh) 用于数据分析的移动数据洞察平台
von Landesberger et al. Interaction taxonomy for tracking of user actions in visual analytics applications
Migut et al. Visualizing multi-dimensional decision boundaries in 2D
NL2011729A (en) System and method for sharing investigation result data.
US20090319940A1 (en) Network of trust as married to multi-scale
Murugan et al. Detecting spams in social networks using ML algorithms-a review
Ni et al. Learning epidemic threshold in complex networks by convolutional neural network
Schwarz et al. Design of professional laboratory exercises for effective state-of-the-Art OSINT investigation tools-Part 3: Maltego
Costa et al. GraphDDP: a graph-embedding approach to detect differentiation pathways in single-cell-data using prior class knowledge
Tidke et al. A comprehensive review and open challenges of stream big data
US11068121B2 (en) System and method for visual exploration of subnetwork patterns in two-mode networks
JP6988430B2 (ja) データ内の同格化した関係を視覚的に調査するためのシステム、関係のデータを視覚化する方法、プログラム、及びコンピュータ装置
Sun et al. Interactive bicluster aggregation in bipartite graphs
Du et al. OpinionRings: Inferring and visualizing the opinion tendency of socially connected users
US11048713B2 (en) System and method for visual exploration of search results in two-mode networks
Qian et al. Generative image inpainting for link prediction
Schaffer et al. Interactive interfaces for complex network analysis: An information credibility perspective
CN117349126B (zh) 一种基于大数据的实时信息网络日志分析方法及***
Christiyana ArulSelvi et al. Identifying trusted similar users using stochastic model and next-closure based knowledge model in online social networks
Malang et al. Analyzing community structure based on topology potential over complex network system
Estivill-Castro et al. Interpretable decisions trees via human-in-the-loop-learning
Jin et al. The cross-cultural differences of network user behavior of new media technology platform using deep learning
Maçãs et al. Visualisation of Random Forest classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6988430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150