JP2009176072A - System, method and program for extracting element group - Google Patents

System, method and program for extracting element group Download PDF

Info

Publication number
JP2009176072A
JP2009176072A JP2008014310A JP2008014310A JP2009176072A JP 2009176072 A JP2009176072 A JP 2009176072A JP 2008014310 A JP2008014310 A JP 2008014310A JP 2008014310 A JP2008014310 A JP 2008014310A JP 2009176072 A JP2009176072 A JP 2009176072A
Authority
JP
Japan
Prior art keywords
layer
cluster
nodes
layers
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008014310A
Other languages
Japanese (ja)
Inventor
Hidenori Kawai
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008014310A priority Critical patent/JP2009176072A/en
Publication of JP2009176072A publication Critical patent/JP2009176072A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system for extracting element groups capable of performing clustering on a multilayered element group graph while taking information about both interlayer edges and edges within edges into consideration. <P>SOLUTION: The system includes a layer order determining unit 21 for determining the order of layers where clustering of nodes is performed according to predetermined data in the multilayered element group graph; a clustering unit 22 for extracting clusters for nodes belonging to a top layer determined by the layer order determining unit 21; and a mapping unit 23 for extracting, as one group, a cluster in a certain layer and another cluster composed of nodes forming the former cluster and nodes of a lower layer linked by interlayer edges. Further, the apparatus may include a cluster correcting unit for changing whether the nodes of the lower layer will be included in the cluster according to edges within the lower layer. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は要素集団抽出システム、要素集団抽出方法および要素集団抽出用プログラムに関する。より詳しくは、属性のマルチレイヤー構造に対応した要素集団抽出システム、要素集団抽出方法および要素集団抽出用プログラムに関する。   The present invention relates to an element group extraction system, an element group extraction method, and an element group extraction program. More specifically, the present invention relates to an element group extraction system, an element group extraction method, and an element group extraction program corresponding to a multi-layer structure of attributes.

近年、ソーシャルネットワークサービス(SNS)やブログなど、個人のプロフィールや日記等をインターネット上に公開し、同じ趣味をもつ未知の人間同士がネットワーク上でコミュニケーションをやりとりし、実生活で交流したりすることが盛んに行われてきている。このような、個人の属性を元に発見される出会いによる人のつながりは、新しいイノベーションやブレイクスルーをもたらす可能性を秘めているため、個人と個人をコミュニティとしてうまく結びつける技術は今後も重要になってくると考えられる。   In recent years, personal profiles and diaries, such as social network services (SNS) and blogs, have been published on the Internet, and unknown people with the same hobbies can communicate on the network and interact in real life. Has been actively conducted. Since the connection of people discovered through encounters based on the attributes of individuals has the potential to bring about new innovations and breakthroughs, technology that successfully links individuals and individuals as a community will continue to be important. It is thought that it will come.

ブログに現れるコンテンツなどからコミュニティを抽出する技術として、例えば特許文献3、6、7がある。そのうち、特許文献6の技術は、Weblogコンテンツを収集し、頻繁な相互コミュニケーションを行っている複数Weblogから構成されるWeblogコミュニティを抽出する。   For example, Patent Documents 3, 6, and 7 are techniques for extracting a community from content appearing on a blog. Among them, the technique of Patent Document 6 collects Weblog contents and extracts a Weblog community composed of a plurality of Weblogs that frequently perform mutual communication.

関連する技術として、特許文献2には、データの集合をそのデータの集合に適した形で空間上へ分類配置して表示する技術が記載されている。特許文献2の技術は、行列で表現されるデータの組において、行か列の、より少ないデータの方を空間上に自己組織化手法などにより配置し、この配置結果のみを用いて他方のデータを配置する。   As a related technique, Patent Document 2 describes a technique for classifying and displaying a set of data on a space in a form suitable for the set of data. In the technique of Patent Document 2, in a data set represented by a matrix, less data in rows or columns is arranged in space by a self-organization method or the like, and the other data is used by using only this arrangement result. Deploy.

また、特許文献5は、ウェブログコンテンツを収集し、知人関係にあると共に共通のカテゴリー情報を持つウェブログの集合を各カテゴリーに詳しい人脈として抽出する。さらに、同意語を含む検索対象カテゴリーに属するウェブログコンテンツを、検索対象カテゴリーに詳しい人脈に属するウェブログコンテンツから検索し、カテゴリー毎の人脈や各ウェブログ毎、あるいは時系列や相互のコメント関係、相互のトラックバック関係等で分類することが記載されている。   Further, Patent Document 5 collects web log contents, and extracts a set of web logs that have acquaintance relationships and have common category information as detailed personal connections to each category. Furthermore, weblog content belonging to the search target category including synonyms is searched from the weblog content belonging to the personal network familiar with the search target category, and the personal network for each category and each weblog, or time series and mutual comment relationship, The classification is based on the mutual trackback relationship.

その他、要素(ノード)間の関係にもとづいて、要素ごとの何らかの評価(スコア、ランキング)を算出することが、特許文献1、3、4に記載されている。特許文献1では、ディレクトリ情報アクセス手段で取得した情報を元にカテゴリの優先度を決めるスコアを付与し、検索結果の表示順または表示件数を、カテゴリに付与されたスコアを元に決定する。特許文献3では、コミュニティに属するユーザのアクセス頻度に基づいて、コミュニティに属するWWWページを順位付ける。特許文献4では、ページの重要性と、そのページに関連付けられたノードの重要性とを使用して、ページ重要性ランキングを計算する。
特開2003−016112号公報 特開2003−288352号公報 特開2004−259083号公報 特開2006−127529号公報 特開2006−164086号公報 特開2006−331292号公報 特開2007−094552号公報
In addition, Patent Documents 1, 3, and 4 describe that some evaluation (score, ranking) for each element is calculated based on the relationship between elements (nodes). In Patent Document 1, a score for determining the priority of a category is assigned based on information acquired by the directory information access means, and the display order or the number of display results of the search result is determined based on the score assigned to the category. In Patent Document 3, WWW pages belonging to a community are ranked based on the access frequency of users belonging to the community. In Patent Document 4, a page importance ranking is calculated using the importance of a page and the importance of a node associated with the page.
JP 2003-016112 A JP 2003-288352 A JP 2004-259083 A JP 2006-127529 A JP 2006-164086 A JP 2006-331292 A JP 2007-094552 A

インターネット上のコンテンツの集合や、推薦システムにおけるユーザ集合から、共通の話題に関連したテキスト群やユーザ群のクラスタをコミュニティとして抽出する技術として、大きく、(A)属性ベクトルクラスタリング方式、(B)グラフクラスタリング方式が挙げられる。(A)属性ベクトルクラスタリング方式としては、属性ベクトル間の距離が近いもの同士をコミュニティとして抽出するk-meansアルゴリズムなどがある(参考文献1:神嶌敏弘、"データマイニング分野のクラスタリング手法(1) - クラスタリングを使ってみよう! -"、人工知能学会誌、Vol. 18、No. 1、pp. 59-65 (2003)参照)。   As a technique for extracting a text group and a cluster of user groups related to a common topic as a community from a set of contents on the Internet and a set of users in a recommendation system, (A) attribute vector clustering method, (B) graph There is a clustering method. (A) As an attribute vector clustering method, there exists a k-means algorithm which extracts the thing where the distance between attribute vectors is near as a community (reference literature 1: Toshihiro Kamisu, "clustering method of the data mining field (1) -Let's use clustering!-"Journal of the Japanese Society for Artificial Intelligence, Vol. 18, No. 1, pp. 59-65 (2003)).

参考文献1に示された方法によれば、N個のクラスタリングの対象x_i(1≦i≦N)はそれぞれd個の属性からなる属性ベクトル(x_i1, x_i2, x_i3, ..., x_id)として表現される。これを以下のステップを繰り返し行うことによって、k個のクラスタに分割することができる。   According to the method shown in Reference Document 1, N clustering targets x_i (1 ≦ i ≦ N) are respectively represented as attribute vectors (x_i1, x_i2, x_i3,..., X_id) having d attributes. Expressed. This can be divided into k clusters by repeating the following steps.

ステップ1:N個の属性ベクトルx_1, x_2, ..., x_Nの中から、k個の代表点c_1, c_2, ..., c_kをランダムに選択する。
ステップ2:全ての属性ベクトルx_1, x_2, ..., x_Nについて、それぞれ、代表点c_1, c_2, ..., c_kとの間のユークリッド距離を計算し、距離が最小となる代表点c_iと同一のクラスタとして割り当てる。
ステップ3:もし、代表点c_1, c_2,..., c_kへの各属性ベクトルの割り当てに変化がなければ処理を終了し、その時点での各代表点への割り当てをクラスタとして出力する。変化があった場合は、各クラスタのセントロイドを新たな代表点c_1, c_2, ..., c_kとしてステップ2に戻る。
Step 1: k representative points c_1, c_2,..., C_k are randomly selected from N attribute vectors x_1, x_2,.
Step 2: For all the attribute vectors x_1, x_2, ..., x_N, the Euclidean distances between the representative points c_1, c_2, ..., c_k are calculated, respectively. Assign as the same cluster.
Step 3: If there is no change in the assignment of each attribute vector to the representative points c_1, c_2,..., C_k, the process is terminated, and the assignment to each representative point at that time is output as a cluster. If there is a change, the centroid of each cluster is set as a new representative point c_1, c_2,.

例えば、参考文献1に示される方法を文書集合T={t_1, t_2, ..., t_N}に対して適用する場合、文書集合全体に含まれる単語集合W={w_1, w_2, ..., w_d}を使って各文書を属性ベクトルとして表現すれば、文書集合をクラスタリングすることが可能である。   For example, when the method shown in Reference 1 is applied to the document set T = {t_1, t_2,..., T_N}, the word set W = {w_1, w_2,. , w_d} to represent each document as an attribute vector, the document set can be clustered.

また、参考文献1に示される方法をブログのユーザ集合U={u_1, u_2, ..., u_N}に対して適用する場合、ユーザの属性情報として全ユーザが記述したブログに使われている単語集合W={w_1, w_2, ..., w_d}を使って各ユーザを属性ベクトルとして表現すれば、ブログのユーザ集合をクラスタリングすることも可能である。   When the method shown in Reference 1 is applied to a blog user set U = {u_1, u_2, ..., u_N}, it is used for blogs described by all users as user attribute information. If each user is expressed as an attribute vector using the word set W = {w_1, w_2,..., W_d}, the user set of the blog can be clustered.

(B)グラフクラスタリング方式としては、グラフ構造上密な関係を持つノード同士をクラスタとして抽出する方法が挙げられる(参考文献2:田村慶一、高木允、森康真、黒木進、北上始、"タブーサーチを用いたモジュール性による無向グラフのクラスタリングアルゴリズム"、電子情報通信学会 第18回データ工学ワークショップ論文集、(2007)参照)。   (B) As a graph clustering method, there is a method of extracting nodes having a close relationship in a graph structure as a cluster (reference 2: Keiichi Tamura, Jun Takagi, Yasumasa Mori, Susumu Kuroki, Hajime Kitakami, “Taboo” "Clustering algorithm of undirected graph by modularity using search", IEICE 18th Data Engineering Workshop Proceedings, (2007)).

参考文献2に示された方法によれば、クラスタリングの対象となるN個のノード集合X={x_1, x_2, ..., x_N}と、ノード間の接続関係を表すエッジ集合Eを用いてグラフG=(X, E)が与えられた場合、以下のステップを繰り返し行うことによって、グラフ構造上関係性の深いノード同士をクラスタに分割することができる。   According to the method shown in Reference Document 2, N node sets X = {x_1, x_2,..., X_N} to be clustered and an edge set E representing a connection relation between nodes are used. When the graph G = (X, E) is given, nodes having deep relationships in the graph structure can be divided into clusters by repeating the following steps.

ステップ1:初期状態として、各ノードを1つのクラスタとするN個のクラスタを生成する。
ステップ2:各クラスタについて「クラスタ内に含まれるエッジの数に対するクラスタ外に出ているエッジの数の割合」をモジュール性として計算し、その値をQとする。
ステップ3:クラスタiとクラスタjを一つのクラスタとみなした場合のモジュール性をQ_ijとし、ΔQ = Q_ij−Qが最大となるクラスタi、jの組合せを求める。
ステップ4:もし、ΔQが正の場合、クラスタi、jを一つのクラスタに統合し、ステップ3に戻る。ΔQが0以下の場合、処理を終了し、その時点でのクラスタを出力する。
Step 1: As an initial state, N clusters having each node as one cluster are generated.
Step 2: For each cluster, “the ratio of the number of edges outside the cluster to the number of edges included in the cluster” is calculated as modularity, and the value is set as Q.
Step 3: The modularity when the cluster i and the cluster j are regarded as one cluster is Q_ij, and a combination of the clusters i and j that maximizes ΔQ = Q_ij−Q is obtained.
Step 4: If ΔQ is positive, the clusters i and j are integrated into one cluster, and the process returns to Step 3. If ΔQ is 0 or less, the process is terminated and the cluster at that time is output.

例えば、参考文献2に示される方法を論文集合P={p_1, p_2, ..., p_N}に対して適用する場合、論文間の引用関係をエッジ集合Eとして表現することによって、論文集合をクラスタリングすることが可能である。同様に、ブログ集合B={B_1, B_2, ..., B_N}に対して適用する場合、ブログ間の引用関係やトラックバック関係をエッジ集合Eとして表現することによって、ブログ集合をクラスタリングすることが可能である。   For example, when the method shown in Reference 2 is applied to the paper set P = {p_1, p_2,..., P_N}, the paper set is expressed by expressing the citation relationship between papers as an edge set E. Clustering is possible. Similarly, when applied to the blog set B = {B_1, B_2,..., B_N}, the blog set may be clustered by expressing the citation relationship or the trackback relationship between the blogs as the edge set E. Is possible.

関連する技術の問題点は、図1に示すような属性のマルチレイヤー構造に対応できないことである。図1ではキーワード間の関係、論文間の引用関係、著者間の人脈の3つの属性間のネットワーク関係がマルチレイヤー構造として与えられている。図1では、異なるレイヤーのノードを結ぶレイヤー間エッジ(点線)と、同一レイヤーのノードを結ぶレイヤー内エッジ(実線)の2種類がある。例えば図1では、「著者N31と著者N32が論文N22を執筆した」「論文N23はキーワードN11、N13、N14を含む」という情報はレイヤー間エッジで表現されている。また、「キーワードN11とキーワードN12、N13、N14は関連がある」「論文N22は、論文N21、N23、N24から引用されている」「著者N33と著者N34、N35は共同研究者である」といった情報は、レイヤー内エッジで表現されている。この場合、関連する技術ではレイヤー間エッジとレイヤー内エッジの両方の情報を活用して、クラスタリングを行うことが困難である。   A problem of the related technology is that it cannot cope with a multi-layer structure of attributes as shown in FIG. In FIG. 1, the relationship between keywords, the citation relationship between papers, and the network relationship between the three attributes of the connection between authors are given as a multilayer structure. In FIG. 1, there are two types, an edge between layers (dotted line) connecting nodes of different layers and an inner edge (solid line) connecting nodes of the same layer. For example, in FIG. 1, information that “the author N31 and the author N32 wrote the paper N22” and “the paper N23 includes the keywords N11, N13, and N14” is expressed by an edge between layers. "Keyword N11 and keywords N12, N13, and N14 are related" "Paper N22 is cited from papers N21, N23, and N24" "Authors N33, N34, and N35 are collaborators" Information is represented by an edge in the layer. In this case, it is difficult to perform clustering using the information of both the inter-layer edge and the intra-layer edge with the related technology.

例えば、各著者が書いた論文とその論文に含まれるキーワードをそれぞれ属性として使えば、参考文献1に示される属性ベクトル方式で著者をクラスタリングすることはできる。しかし、そこで利用される情報は図1の点線で示されるレイヤー間エッジだけであり、レイヤーL1内のキーワード間の関係、レイヤーL2内の論文間の引用関係、レイヤーL3内の人脈関係などが考慮されない結果になってしまう。   For example, if an article written by each author and a keyword included in the article are used as attributes, the authors can be clustered by the attribute vector method shown in Reference 1. However, the information used there is only the edge between layers indicated by the dotted line in FIG. 1, and the relationship between keywords in layer L1, the citation relationship between papers in layer L2, and the personal relationship in layer L3 are considered. The result will not be.

また、著者間の人脈関係のデータを使えば、参考文献2に示されるグラフクラスタリング方式で著者をクラスタリングすることはできる。しかし、その場合に利用される情報は図1のレイヤーL3に実践で示されたレイヤー内エッジだけであり、同じトピックに興味があるがお互いに人脈が構築されていないような研究グループを見つけることは困難である。   In addition, if the data on the relationship between the authors is used, the authors can be clustered by the graph clustering method shown in Reference 2. However, the only information used in this case is the edge in the layer shown in practice in layer L3 in Fig. 1. Find research groups that are interested in the same topic but have no personal connections to each other. It is difficult.

さらに、図1に示される全てのノードとエッジを利用して、参考文献2に示されるグラフクラスタリング方式を適用することも可能ではあるが、計算量が膨大になってしまい効率が悪い。なぜなら、グラフクラスタリング方式は、ノード数の2乗に比例した計算時間がかかるからである。   Furthermore, although it is possible to apply the graph clustering method shown in Reference 2 using all the nodes and edges shown in FIG. 1, the calculation amount becomes enormous and the efficiency is poor. This is because the graph clustering method requires a calculation time proportional to the square of the number of nodes.

本発明の目的は、マルチレイヤー構造を有する要素集合グラフに対して、レイヤー間エッジとレイヤー内エッジの両方の情報を考慮したクラスタリングを行うことが可能な要素集団抽出システムを提供することにある。   An object of the present invention is to provide an element group extraction system capable of clustering an element set graph having a multi-layer structure in consideration of information on both inter-layer edges and intra-layer edges.

本発明の第1の観点に係る要素集団抽出システムは、
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする。
An element group extraction system according to a first aspect of the present invention includes:
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
Mapping means for extracting a cluster in a certain layer and a cluster composed of a node constituting the cluster and a node in a lower layer linked by an edge between the layers as one group;
It is characterized by providing.

本発明の第2の観点に係る要素集団抽出方法は、
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出方法であって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定ステップと、
前記層順序決定ステップで決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリングステップと、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピングステップと、
を備えることを特徴とする。
The element group extraction method according to the second aspect of the present invention is:
An element group extraction method for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. A layer order determining step for determining the order of the layers for clustering the nodes based on predetermined data in a multi-layer element set, which is a set of nodes that are distinguished from an inner edge and an edge between layers;
A clustering step of extracting a cluster for the nodes belonging to the layer to be clustered determined in the layer order determination step;
A mapping step of extracting a cluster in a certain layer, and a cluster composed of nodes constituting the cluster and nodes in a lower layer linked by an edge between the layers, as one group;
It is characterized by providing.

本発明の第3の観点に係るプログラムは、
共通の属性を有するノードのクラスタを集団として抽出するためのプログラムあって、コンピュータを、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段
として機能させることを特徴とする。
The program according to the third aspect of the present invention is:
A program for extracting a cluster of nodes having common attributes as a group comprising:
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
It functions as a mapping means for extracting a cluster in a certain layer and a cluster composed of nodes constituting the cluster and nodes in a lower layer linked by an edge between the layers as one group. .

本発明の第4の観点に係る要素集団抽出システムは、
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが第1の層および第2の層を含む層に分類されて、前記ノード間のエッジが前記第1または第2の層内のエッジと、前記第1と第2の層の間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う層を決定する層順序決定手段と、
前記層順序決定手段で決定されるクラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
前記クラスタリング手段で抽出したクラスタと、そのクラスタを構成するノードと前記第1と第2の層の間のエッジでリンクされるノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする。
An element group extraction system according to a fourth aspect of the present invention is:
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside a computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into layers including a first layer and a second layer. , Predetermined data in a multi-layer element set in which an edge between the nodes is distinguished from an edge in the first or second layer and an edge between the first and second layers A layer order determining means for determining a layer on which clustering of the nodes is performed based on:
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
Mapping means for extracting a cluster extracted by the clustering means, and a cluster constituted by nodes constituting the cluster and nodes linked by edges between the first and second layers, as one group; ,
It is characterized by providing.

本発明の第5の観点に係る要素集団抽出システムは、
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが3以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
前記層間のノードが存在する任意の2つの層において、一方の層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる他方の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする。
An element group extraction system according to a fifth aspect of the present invention is:
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into three or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
In any two layers in which the nodes between the layers exist, a cluster in one layer, and a cluster composed of the nodes constituting the cluster and the nodes of the other layer linked at the edge between the layers are 1 Mapping means to extract as one group,
It is characterized by providing.

本発明によれば、レイヤー間エッジとレイヤー内エッジの両方を使ったきめ細かいクラスタリングで要素集団の抽出を行うことができる。その理由は、マッピング手段によりレイヤー間エッジを考慮して複数の層にまたがるクラスタを要素集団として抽出するからである。   According to the present invention, it is possible to extract an element group by fine clustering using both an inter-layer edge and an intra-layer edge. This is because a cluster that spans a plurality of layers is extracted as an element group in consideration of the edge between layers by the mapping means.

本発明では、グラフ理論の用語を用いて異なるカテゴリ、例えば、著者、論文およびキーワードのそれぞれに含まれる要素をノードとし、要素間の関係をエッジとして、要素の関係をグラフ(要素集合グラフ)で表す。特に、異なるカテゴリに対応して要素を階層に分類し、2以上の層で表現される複層要素集合グラフを対象とする。要素集合グラフは、エッジに値(関係度)が付いた重み付きグラフの場合がある。また、通常、ループや多重エッジを含まない単純グラフで表される。   In the present invention, using terms in graph theory, elements included in different categories, for example, authors, papers, and keywords, are nodes, and the relationship between elements is an edge, and the relationship of elements is a graph (element set graph). To express. In particular, a multi-layer element set graph expressed by two or more layers is provided, with elements classified into hierarchies corresponding to different categories. The element set graph may be a weighted graph with values (relationships) at the edges. Also, it is usually represented by a simple graph that does not include loops or multiple edges.

本発明の要素集団抽出システムは、複層要素集合グラフから共通の属性を有するノードのクラスタを集団として抽出する。本発明は特に、社会的・文化的属性で関連づけられる要素の集合から、共通の属性を有する要素の集団を抽出するシステムおよび方法である。要素として個別の人の属性を表す情報を含む要素集合グラフから抽出される要素集団は、一種のコミュニティである。本発明では、「コミュニティ」を一般の要素集合グラフに一般化して、要素集団という。   The element group extraction system of the present invention extracts a cluster of nodes having common attributes from a multilayer element set graph as a group. In particular, the present invention is a system and method for extracting a group of elements having a common attribute from a group of elements associated with social and cultural attributes. An element group extracted from an element set graph including information representing individual person attributes as elements is a kind of community. In the present invention, “community” is generalized to a general element set graph and is referred to as an element group.

以下の実施の形態では、図1のマルチレイヤーネットワーク構造(複層)の要素集合グラフを用いて説明する。図1ではキーワード間の関係、論文間の引用関係、著者間の人脈の3つの属性間のネットワーク関係がマルチレイヤー構造として与えられている。   In the following embodiment, description will be made using the element set graph of the multi-layer network structure (multi-layer) of FIG. In FIG. 1, the relationship between keywords, the citation relationship between papers, and the network relationship between the three attributes of the connection between authors are given as a multilayer structure.

図1のレイヤーL1は、例えば、キーワード間の共起度をエッジとするキーワードの関係を表すグラフである。共起度とは、2つのキーワードが同一文書で出現する度合いである。レイヤーL2は、例えば、論文の引用関係を表すグラフである。レイヤーL3は、著者間の人脈、例えば、直接電子メールを交換したことがある関係を表すグラフである。レイヤーL1とレイヤーL2の間は、論文にキーワードが出現することを示す。レイヤーL2とレイヤーL3の間は、著者とその論文の関係である。   The layer L1 in FIG. 1 is a graph representing the relationship between keywords having, for example, the co-occurrence between keywords as an edge. The co-occurrence degree is a degree that two keywords appear in the same document. The layer L2 is, for example, a graph representing the citation relationship of papers. The layer L3 is a graph showing a relationship between the authors, for example, a relationship in which an e-mail is directly exchanged. Between the layer L1 and the layer L2, a keyword appears in the paper. Between layer L2 and layer L3 is the relationship between the author and the paper.

図1に示すようなノードとエッジおよびレイヤー構造が、計算機内部にデータとして表現されている。計算機内部のデータ表現の方法について制約はないが、例えば、ノード、エッジおよびレイヤーをそれぞれ表形式のデータで表すことができる。例えばノードの表は、ノード識別子と属性を含む。エッジの表は例えば、エッジ識別子、エッジの種類(属するレイヤーまたはレイヤー間)、両端のノード識別子、エッジの値を含む。レイヤーの表は例えば、レイヤーの識別子、そのレイヤーに含まれるノードの識別子を含む。   Nodes, edges, and layer structures as shown in FIG. 1 are represented as data in the computer. Although there is no restriction on the data representation method inside the computer, for example, nodes, edges, and layers can be represented by tabular data. For example, the node table includes node identifiers and attributes. The table of edges includes, for example, edge identifiers, edge types (belonging layers or layers), node identifiers at both ends, and edge values. The layer table includes, for example, a layer identifier and a node identifier included in the layer.

図1に示すような{著者、論文、キーワード}の組み合わせに限らず、マルチレイヤーネットワーク構造の要素集合グラフであれば、本発明の要素集団抽出方法を適用することができる。例えば、{ブログ、コンテンツ作成者、コンテンツ、キーワード}、{食材、レシピー、調理法}、{監督、映画、俳優}、{作曲者、曲の属性、楽器}、{作者、絵画、題材}、{社会人、出身校、職業}等々、要素の間にマルチレイヤーネットワーク構造が想定できて、計算機内部にデータで表現できるものは対象になり得る。   The element group extraction method of the present invention can be applied to any element set graph having a multilayer network structure as well as a combination of {author, paper, keyword} as shown in FIG. For example, {blog, content creator, content, keyword}, {foodstuff, recipe, cooking method}, {director, movie, actor}, {composer, song attributes, instrument}, {author, painting, subject}, {Society, school of origin, profession}, etc., which can assume a multi-layer network structure between elements and can be represented by data inside the computer, can be targeted.

(実施の形態1)
以下、本発明に係る要素集団抽出システムについて図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。図2は、本発明の実施の形態1に係る要素集団抽出システム100の構成例を示すブロック図である。
(Embodiment 1)
Hereinafter, an element group extraction system according to the present invention will be described in detail with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals, and description thereof will not be repeated. FIG. 2 is a block diagram showing a configuration example of the element group extraction system 100 according to Embodiment 1 of the present invention.

図2を参照すると、実施の形態1に係る要素集団抽出システム100は、記憶装置1と、処理装置2と、キーボード等の入力部3と、ディスプレイやプリンタ等の出力部4を含む。記憶装置1は、さらに、レイヤーデータ記憶部11を含む。また、処理装置2は、さらに、レイヤー順序決定部21、クラスタリング部22、マッピング部23とを含む。   Referring to FIG. 2, an element group extraction system 100 according to the first embodiment includes a storage device 1, a processing device 2, an input unit 3 such as a keyboard, and an output unit 4 such as a display and a printer. The storage device 1 further includes a layer data storage unit 11. Further, the processing device 2 further includes a layer order determining unit 21, a clustering unit 22, and a mapping unit 23.

入力部3は、クラスタリングを行う分析者などの指示を入力する。分析者は分析する要素集合グラフのデータと、その要素集合グラフの最上位の階層、すなわちどの階層に着目してクラスタリングを行うかを入力することができる。レイヤー順序決定部21は、クラスタリングを行う分析者からの入力を元にクラスタリング処理すべきレイヤーの順序を決定する。   The input unit 3 inputs an instruction from an analyst performing clustering. The analyst can input data of the element set graph to be analyzed and the highest hierarchy of the element set graph, that is, which hierarchy is focused on. The layer order determination unit 21 determines the order of layers to be clustered based on an input from an analyst who performs clustering.

クラスタリング部22は、最上位のレイヤー内のノードのみを対象としたクラスタリングを行う。マッピング部23は、i番目のレイヤーLiにおいてクラスタを構成する各ノードと、レイヤー間エッジでリンクされている1階層下のレイヤーLi+1のノード群を1つのクラスタとしてまとめる。そして、すべての階層についてこのように1つにまとめたクラスタを要素集団(コミュニティ)として抽出する。   The clustering unit 22 performs clustering for only the node in the highest layer. The mapping unit 23 collects each node constituting the cluster in the i-th layer Li and a node group of the layer Li + 1 one layer below linked at the edge between layers as one cluster. Then, the clusters that are combined into one for all layers are extracted as element groups (communities).

図3は、要素集団抽出システム100の動作の一例を示す流れ図である。はじめに、クラスタリングを行う分析者が、入力部3を介してレイヤー順序決定部21に、要素集団を抽出する要素集合グラフと、クラスタリング処理するレイヤーの順序を入力する(図3のステップS11)。このレイヤーの順序は、最下位のレイヤーにクラスタリングの対象となる属性を選択し、重要なレイヤーほど上位に順序付けることが望ましい。例えば、図1に示されるデータで、キーワードを重視して著者をクラスタリングしたい場合、L1→L2→L3の順で処理することになる。   FIG. 3 is a flowchart showing an example of the operation of the element group extraction system 100. First, an analyst performing clustering inputs an element set graph for extracting an element group and the order of layers to be clustered into the layer order determination unit 21 via the input unit 3 (step S11 in FIG. 3). As for the order of the layers, it is desirable to select an attribute to be clustered as the lowest layer, and to order the more important layers higher. For example, in the data shown in FIG. 1, when it is desired to cluster authors with emphasis on keywords, processing is performed in the order of L1 → L2 → L3.

次に、クラスタリング部22は、最上位のレイヤー内のノードのみを対象としたクラスタリングを行う(図3のステップS12)。ここで、すべてのノード同士が互いにエッジで結ばれているグラフを完全グラフ(クリーク)という。例えば、図1のL1に含まれる N11〜N17の7つのノードの集合から、クリークを構成する部分集合をクラスタとして抽出したとすると、結果として、 C11={N11, N12, N13, N14}と、C12={N15, N16, N17}の2つのクラスタが抽出される。   Next, the clustering unit 22 performs clustering for only the node in the highest layer (step S12 in FIG. 3). Here, a graph in which all nodes are connected to each other by an edge is called a complete graph (clique). For example, if a subset constituting a clique is extracted as a cluster from a set of seven nodes N11 to N17 included in L1 in FIG. 1, as a result, C11 = {N11, N12, N13, N14} Two clusters of C12 = {N15, N16, N17} are extracted.

なお、ここでは説明を簡潔にするために、クリークを用いるクラスタリングを例に説明したが、クラスタを抽出する方法には他に、各キーワードについて、キーワードが含まれる論文を属性ベクトルとして、属性ベクトルクラスタリング方式を適用する方法や、レイヤーL1内のエッジをグラフ構造としてグラフクラスタリングを適用する方法なども考えられ、本実施の形態に述べた方法に限定されない。   Here, for the sake of brevity, clustering using cliques has been described as an example. However, in addition to the method of extracting clusters, for each keyword, an attribute vector clustering is performed using the article containing the keyword as an attribute vector. A method of applying a method and a method of applying graph clustering with edges in the layer L1 as a graph structure are also conceivable, and the method is not limited to the method described in the present embodiment.

次に、マッピング部23は、最上位のレイヤーL1においてクラスタを構成する各ノードと、レイヤー間エッジでリンクされている1階層下のレイヤーL2 のノード群を1つのクラスタとしてまとめる(図3のステップS13)。例えば、最上位のレイヤーL1でC11={N11, N12, N13, N14}と、C12={N15, N16, N17}の2つのクラスタが生成された場合、クラスタC11に含まれる各ノードとレイヤー間エッジでリンクされているレイヤーL2上のノード{N21、N23、 N24}がクラスタC21に、クラスタC12に含まれる各ノードとレイヤー間エッジでリンクされているレイヤーL2上のノード{N25, N26, N27, N28}がクラスタC22となる。   Next, the mapping unit 23 combines each node constituting the cluster in the uppermost layer L1 and the node group of the layer L2 one layer below linked by the edge between layers into one cluster (step in FIG. 3). S13). For example, when two clusters of C11 = {N11, N12, N13, N14} and C12 = {N15, N16, N17} are generated in the top layer L1, between each node included in the cluster C11 and the layer Nodes {N21, N23, N24} on the layer L2 linked by the edge are connected to the cluster C21, and nodes {N25, N26, N27 on the layer L2 linked to each node included in the cluster C12 by the edge between layers. , N28} becomes cluster C22.

現在のクラスタリング処理が最下層に到達していなければ(図3のステップS15;NO)、再度マッピング処理(図3のステップS13)に戻り、さらに下の層へクラスタを拡張していく。例えば、マッピング部23をレイヤーL2に適用することで、クラスタC21={N21, N23, N24}とレイヤー間エッジでリンクしているレイヤーL3上のクラスタとしてクラスタC31={N33, N34, N35}が得られ、クラスタC22={N25, N26, N27, N28}とレイヤー間エッジでリンクしているレイヤーL3上のクラスタとしてクラスタC32={N36, N37}が得られる。ここで、クラスタリング処理が最下層に到達しているので(ステップS15;YES)、クラスタC31={N33, N34, N35}とクラスタC32={N36, N37}の2つのクラスタをコミュニティとして出力して処理を終了する。   If the current clustering process has not reached the lowest layer (step S15 in FIG. 3; NO), the process returns to the mapping process (step S13 in FIG. 3) again, and the cluster is further expanded to the lower layer. For example, by applying the mapping unit 23 to the layer L2, the cluster C31 = {N33, N34, N35} is obtained as a cluster on the layer L3 linked to the cluster C21 = {N21, N23, N24} at the edge between layers. As a result, a cluster C32 = {N36, N37} is obtained as a cluster on the layer L3 linked to the cluster C22 = {N25, N26, N27, N28} at the edge between layers. Here, since the clustering process has reached the lowest layer (step S15; YES), two clusters of cluster C31 = {N33, N34, N35} and cluster C32 = {N36, N37} are output as a community. The process ends.

ここで、計算量について考察しておく。与えられたレイヤーの数をL、各レイヤーにおけるノード数をN1、 N2、...、NLとする。関連技術の方式を単純にマルチレイヤーに適用し、全ノードをクラスタリングの対象とすると、トータルの計算量は
(N1+N2+...+NL)
のオーダーとなってしまい、膨大な計算量が必要になる。一方、本実施の形態においては、最上位のレイヤーにおけるクラスタリングの計算量はN1のオーダーである。また、レイヤーLiからLi+1にマッピングする処理の計算量は、レイヤー間エッジの最大次数をsとすると、Ni×sのオーダーである。
Here, the amount of calculation is considered. The number of layers given is L, and the number of nodes in each layer is N1, N2,. . . , NL. If the method of the related technology is simply applied to the multi-layer and all nodes are subject to clustering, the total amount of calculation is (N1 + N2 + ... + NL) 2
Order, and a huge amount of calculation is required. On the other hand, in the present embodiment, the calculation amount of clustering in top layer is of the order of N1 2. Further, the amount of calculation for mapping from the layer Li to Li + 1 is on the order of Ni × s, where s is the maximum degree of the inter-layer edge.

通常、レイヤー数L、レイヤー間エッジの最大次数s、レイヤー内エッジの最大次数tは最上位のノード数N1よりもずっと小さい。そのため、トータルの計算量はN1のオーダーで済む。また、例えば図1 のデータに対して、さらに所属機関に関するレイヤーが追加され、それを考慮したクラスタリングを行ったとしても、計算量の増加はN1のオーダーに比べて小さく抑えることができる。 Usually, the number L of layers, the maximum order s of the edges between layers, and the maximum order t of the edges in the layer are much smaller than the number N1 of the highest nodes. Therefore, the calculation amount of total requires only N1 2 orders. Further, for example, for the data of FIG. 1, and further additional layer about institution it is, even when subjected to clustering considering it an increase in calculation amount can be reduced as compared with the order of N1 2.

なお、ここでは、説明を簡単にするため、図1のエッジはすべて同じ重みとし、エッジの本数のみでクラスタ補正を行うものとして説明したが、各エッジに重みをつけ、エッジの本数の代わりに重みの合計を使ってクラスタリング補正を行う方法も考えられ、本実施の形態で述べた方法に限定されない。   Here, in order to simplify the description, the edges in FIG. 1 are all assumed to have the same weight and the cluster correction is performed only by the number of edges. However, each edge is weighted in place of the number of edges. A method of performing clustering correction using the sum of weights is also conceivable, and is not limited to the method described in this embodiment.

また、ここでは、キーワード、論文、著者の3つの属性のレイヤーからなるレイヤーデータについて説明したが、レイヤーが複数であればよく、2レイヤーや4以上のレイヤーのレイヤーデータに対しても同様に適用可能である。例えば、図9に示すような2つのレイヤーからなるレイヤーデータの場合、レイヤーL1 内のキーワードをクラスタリングした後、マッピング処理とクラスタ補正処理によってレイヤーL2の論文のクラスタを形成し、同一トピックに関連する論文のコミュニティとして抽出することが可能である。この場合も、本実施の形態によれば、レイヤーL1およびレイヤーL2内のレイヤー内エッジ、レイヤーL1およびレイヤーL2間のレイヤー間エッジの全ての情報を考慮したクラスタリングを行うことができる。   In addition, here, the layer data consisting of the three layers of keywords, papers, and authors has been explained, but it is sufficient if there are multiple layers, and the same applies to layer data of two layers or four or more layers. Is possible. For example, in the case of layer data consisting of two layers as shown in FIG. 9, after clustering the keywords in layer L1, a cluster of layer L2 papers is formed by mapping processing and cluster correction processing, and related to the same topic It can be extracted as a community of articles. Also in this case, according to the present embodiment, it is possible to perform clustering in consideration of all information on the intra-layer edges in the layers L1 and L2 and the inter-layer edges between the layers L1 and L2.

以上、説明したように、本実施の形態では、レイヤー間エッジとレイヤー内エッジの両方を使ったクラスタリングを行う。そのため、より多くの情報を使ったきめ細かいコミュニティ(要素集団)の抽出が可能である。   As described above, in the present embodiment, clustering using both the inter-layer edge and the intra-layer edge is performed. Therefore, it is possible to extract a detailed community (element group) using more information.

また、本実施の形態では、計算量の多いクラスタリング処理は最上位のレイヤーのノードに限られている。そのため、計算量を節約でき、また、クラスタリングに使えるレイヤーが増えたとしても、計算量の増加を抑えることができる。   In the present embodiment, clustering processing with a large amount of calculation is limited to the node of the highest layer. Therefore, the amount of calculation can be saved, and even if the number of layers that can be used for clustering increases, the increase in the amount of calculation can be suppressed.

(実施の形態2)
図4は、本発明の実施の形態2に係る要素集団抽出システム100の構成例を示すブロック図である。実施の形態2の要素集団抽出システム100は、実施の形態1の構成に加えて、クラスタ補正部24を備える。クラスタ補正部24以外は、実施の形態1と同様である。
(Embodiment 2)
FIG. 4 is a block diagram showing a configuration example of the element group extraction system 100 according to Embodiment 2 of the present invention. The element group extraction system 100 according to the second embodiment includes a cluster correction unit 24 in addition to the configuration of the first embodiment. Except for the cluster correction unit 24, the second embodiment is the same as the first embodiment.

すなわち、レイヤー順序決定部21は、クラスタリング処理すべきレイヤーの順序を決定し、クラスタリング部22は、最上位のレイヤー内のノードのみを対象としたクラスタリングを行う。そして、マッピング部23は、i番目のレイヤーLiにおいてクラスタを構成する各ノードと、レイヤー間エッジでリンクされている1階層下のレイヤーLi+1のノード群を1つのクラスタ(要素集団)として抽出する。   That is, the layer order determination unit 21 determines the order of layers to be clustered, and the clustering unit 22 performs clustering for only the nodes in the highest layer. Then, the mapping unit 23 extracts each node constituting the cluster in the i-th layer Li and a node group of the layer Li + 1 that is one layer below the edge linked between the layers as one cluster (element group). To do.

クラスタ補正部24は、レイヤーLi+1に形成されたクラスタについて、レイヤー内エッジの情報を元にクラスタの補正を行う。具体的には、例えば、あるクラスタから閾値α本以上エッジがリンクしている同一レイヤーのノードをそのクラスタに含める。また、あるクラスタ内のノードと閾値β本未満のエッジしかリンクしていない同一レイヤーのノードをそのクラスタから排除する。   The cluster correction unit 24 corrects the cluster based on the information on the edge in the layer for the cluster formed in the layer Li + 1. Specifically, for example, nodes in the same layer in which edges of a threshold value α or more are linked from a certain cluster are included in the cluster. Also, nodes in the same layer that are linked to nodes in a cluster and only edges less than the threshold β are excluded from the cluster.

図5は、実施の形態2に係る要素集団抽出システム100の動作の一例を示す流れ図である。実施の形態2の要素集団抽出システム100では、マッピング部23で、上位のレイヤーL1においてクラスタを構成する各ノードと、レイヤー間エッジでリンクされている1階層下のレイヤーL2 のノード群を1つのクラスタとしてまとめるステップ(図5のステップS13)までは、実施の形態1の動作と同様である。   FIG. 5 is a flowchart showing an example of the operation of the element group extraction system 100 according to the second embodiment. In the element group extraction system 100 according to the second embodiment, the mapping unit 23 sets each node constituting the cluster in the upper layer L1 and the node group of the layer L2 one layer below that is linked by the edge between layers. The operations up to the step of clustering (step S13 in FIG. 5) are the same as those in the first embodiment.

クラスタ補正部24は、レイヤーL2に形成されたクラスタC21、C22について、レイヤー内エッジの情報を元にクラスタに対するノードの追加または削除の補正処理を行う(図5のステップS14)。例えば、閾値α=2とした場合、クラスタC21={N21、N23、N24}からノードN22に3本のエッジがリンクしているので、クラスタC21はノードN22を含めてクラスタC21'={N21, N22, N23, N24}となる。また、閾値β=1とした場合、クラスタC22={N25, N26, N27, N28}内のノードN25は他のノードとリンクされていないので除外され、クラスタC22'={N26, N27, N28}が新たなクラスタとなる。さらに、排除されたノードN25は単独でクラスタC23を形成する。   The cluster correction unit 24 performs correction processing for adding or deleting a node from the cluster based on the information on the edge in the layer for the clusters C21 and C22 formed in the layer L2 (step S14 in FIG. 5). For example, when threshold α = 2, since three edges are linked from cluster C21 = {N21, N23, N24} to node N22, cluster C21 includes node N22 and cluster C21 ′ = {N21, N22, N23, N24}. When the threshold β = 1, the node N25 in the cluster C22 = {N25, N26, N27, N28} is excluded because it is not linked to other nodes, and the cluster C22 ′ = {N26, N27, N28} Becomes a new cluster. Further, the excluded node N25 alone forms a cluster C23.

現在のクラスタリング処理が最下層に到達していなければ(図5のステップS15;NO)、再度マッピング処理(図5のステップS13)に戻り、さらに下の層へクラスタを拡張していく。例えば、マッピング部23をレイヤーL2に適用することで、クラスタC21'={N21, N22, N23, N24}とレイヤー間エッジでリンクしているレイヤーL3上のクラスタとしてクラスタC31'={N31, N32, N33, N34, N35}が得られ、クラスタC22'={N26, N27, N28}とレイヤー間エッジでリンクしているレイヤーL3上のクラスタとしてクラスタC32'={N36, N37}が得られる。また、このレイヤーL3でクラスタ補正部24を再度適用しても(図5のステップS14)、新たに追加または削除するノードはない。ここで、クラスタリング処理が最下層に到達しているので(ステップS15;YES)、クラスタC31'={N31, N32, N33, N34, N35}とクラスタC32'={N36, N37}の2つのクラスタをコミュニティとして出力して処理を終了する。   If the current clustering process has not reached the lowest layer (step S15 in FIG. 5; NO), the process returns to the mapping process (step S13 in FIG. 5) again, and the cluster is further expanded to the lower layer. For example, by applying the mapping unit 23 to the layer L2, the cluster C31 ′ = {N31, N32 as a cluster on the layer L3 linked to the cluster C21 ′ = {N21, N22, N23, N24} at the edge between layers. , N33, N34, N35}, and cluster C32 ′ = {N36, N37} is obtained as a cluster on the layer L3 linked with the cluster C22 ′ = {N26, N27, N28} at the edge between layers. Even if the cluster correction unit 24 is applied again in this layer L3 (step S14 in FIG. 5), there is no node to be newly added or deleted. Here, since the clustering process has reached the lowest layer (step S15; YES), two clusters of cluster C31 ′ = {N31, N32, N33, N34, N35} and cluster C32 ′ = {N36, N37} Is output as a community and the process ends.

実施の形態2の計算量についても、最上位のレイヤーにおけるクラスタリングの計算量はN1のオーダーである。レイヤーLiからLi+1にマッピングする処理の計算量は、レイヤー間エッジの最大次数をsとすると、Ni×sのオーダーである。また、レイヤー Li内でクラスタ補正を行う処理の計算量は、レイヤー内エッジの最大次数をtとすると、Ni×tのオーダーである。通常、レイヤー数L、レイヤー間エッジの最大次数s、レイヤー内エッジの最大次数tは最上位のノード数N1よりもずっと小さい。そのため、トータルの計算量はN1のオーダーで済む。また、例えば図1 のデータに対して、さらに所属機関に関するレイヤーが追加され、それを考慮したクラスタリングを行ったとしても、計算量の増加はN1のオーダーに比べて小さく抑えることができる。 For even computational complexity of the second embodiment, the calculation amount of clustering in top layer is of the order of N1 2. The amount of calculation for mapping from the layer Li to Li + 1 is on the order of Ni × s, where s is the maximum degree of the edge between layers. Also, the amount of calculation for performing cluster correction in the layer Li is on the order of Ni × t, where t is the maximum degree of the edge in the layer. Usually, the number L of layers, the maximum order s of the edges between layers, and the maximum order t of the edges in the layer are much smaller than the number N1 of the highest nodes. Therefore, the calculation amount of total requires only N1 2 orders. Further, for example, for the data of FIG. 1, and further additional layer about institution it is, even when subjected to clustering considering it an increase in calculation amount can be reduced as compared with the order of N1 2.

なお、ここでは、説明を簡単にするため、図1のエッジはすべて同じ重みとし、エッジの本数のみでクラスタ補正を行うものとして説明したが、各エッジに重みをつけ、エッジの本数の代わりに重みの合計を使ってクラスタリング補正を行う方法も考えられ、本実施の形態で述べた方法に限定されない。   Here, in order to simplify the description, the edges in FIG. 1 are all assumed to have the same weight and the cluster correction is performed only by the number of edges. However, each edge is weighted in place of the number of edges. A method of performing clustering correction using the sum of weights is also conceivable, and is not limited to the method described in this embodiment.

また、ここでは、キーワード、論文、著者の3つの属性のレイヤーからなるレイヤーデータについて説明したが、レイヤーが複数であればよく、2レイヤーや4以上のレイヤーのレイヤーデータに対しても同様に適用可能である。例えば、図9に示すような2つのレイヤーからなるレイヤーデータの場合、レイヤーL1 内のキーワードをクラスタリングした後、マッピング処理とクラスタ補正処理によってレイヤーL2の論文のクラスタを形成し、同一トピックに関連する論文のコミュニティとして抽出することが可能である。この場合も、本実施の形態によれば、レイヤーL1およびレイヤーL2内のレイヤー内エッジ、レイヤーL1およびレイヤーL2間のレイヤー間エッジの全ての情報を考慮したクラスタリングを行うことができる。   In addition, here, the layer data consisting of the three layers of keywords, papers, and authors has been explained, but it is sufficient if there are multiple layers, and the same applies to layer data of two layers or four or more layers. Is possible. For example, in the case of layer data consisting of two layers as shown in FIG. 9, after clustering the keywords in layer L1, a cluster of layer L2 papers is formed by mapping processing and cluster correction processing, and related to the same topic It can be extracted as a community of articles. Also in this case, according to the present embodiment, it is possible to perform clustering in consideration of all information on the intra-layer edges in the layers L1 and L2 and the inter-layer edges between the layers L1 and L2.

本実施の形態では、下位レイヤー内のエッジ情報によって、クラスタリングを補正する。そのため、より多くの情報を使ったきめ細かいコミュニティの抽出が可能である。   In this embodiment, clustering is corrected based on edge information in the lower layer. Therefore, it is possible to extract a detailed community using more information.

(実施の形態3)
図6は、本発明の実施の形態3に係る要素集団抽出システム100の構成例を示すブロック図である。実施の形態3の要素集団抽出システム100は、実施の形態2の構成に加えて、処理装置2にランキング演算部25が追加されている点で異なる。
(Embodiment 3)
FIG. 6 is a block diagram showing a configuration example of the element group extraction system 100 according to Embodiment 3 of the present invention. The element group extraction system 100 of the third embodiment is different in that a ranking calculation unit 25 is added to the processing device 2 in addition to the configuration of the second embodiment.

ランキング演算部25は、クラスタ補正部24によって最終的に得られたクラスタについて、レイヤー間エッジおよびレイヤー内エッジを用いて同一クラスタ内のノードの重要度に応じてランキングする。   The ranking calculation unit 25 ranks the clusters finally obtained by the cluster correction unit 24 using the inter-layer edge and the intra-layer edge according to the importance of the nodes in the same cluster.

図7は、実施の形態3に係る要素集団抽出システム100の動作の一例を示す流れ図である。図7におけるステップS11〜S15における、レイヤー順序決定部21、クラスタリング部22、マッピング部23、クラスタ補正部24の動作は、図5に示す実施の形態2における動作と同一のため、説明は省略する。ただし、クラスタ補正部24は、図7のステップS15の後、処理が最下層に達した場合はクラスタ補正処理の結果をそのままランキング演算部25に渡すものとする。   FIG. 7 is a flowchart showing an example of the operation of the element group extraction system 100 according to the third embodiment. The operations of the layer order determination unit 21, the clustering unit 22, the mapping unit 23, and the cluster correction unit 24 in steps S11 to S15 in FIG. 7 are the same as those in the second embodiment shown in FIG. . However, the cluster correction unit 24 passes the result of the cluster correction process to the ranking calculation unit 25 as it is when the process reaches the lowest layer after step S15 of FIG.

ランキング演算部25は、各クラスタに含まれるノードNiのスコアSC(Ni)を、各ノードから出ているレイヤー内エッジ数Ea、および、レイヤー間エッジ数Ebを元に
SC(Ni) = ρ×Ea + (1−ρ)×Eb
として求める。ここで、ρはスコア重みであり、0≦ρ≦1である。ρの値を大きくするほど、レイヤー内エッジを重視することになる。例えば、図1のマルチレイヤーネットワークをクラスタリングした結果、C31={N31, N32, N33, N34, N35}とC32={N36, N37}の2つのクラスタが得られたとする。ρ=0.8とした場合、クラスタC31={N31, N32, N33, N34, N35}の各ノードのスコアは
SC(N31) = 0.8×1 + 0.2×1 = 1.0
SC(N32) = 0.8×1 + 0.2×1 = 1.0
SC(N33) = 0.8×2 + 0.2×2 = 2.0
SC(N34) = 0.8×2 + 0.2×1 = 1.8
SC(N35) = 0.8×2 + 0.2×1 = 1.8
のように計算できる。この場合、ρの値を大きく設定するほど、人脈関係が豊富な著者を重視し、ρの値を小さく設定するほど、多くの論文を書いている著者を重視したランキングを行うことができる。
The ranking calculation unit 25 calculates the score SC (Ni) of the node Ni included in each cluster based on the number of edge Ea in the layer and the number of edge Eb between the layers that are output from each node.
SC (Ni) = ρ × Ea + (1−ρ) × Eb
Asking. Here, ρ is a score weight, and 0 ≦ ρ ≦ 1. The larger the value of ρ, the more important the edge in the layer. For example, it is assumed that as a result of clustering the multilayer network of FIG. 1, two clusters of C31 = {N31, N32, N33, N34, N35} and C32 = {N36, N37} are obtained. When ρ = 0.8, the score of each node of cluster C31 = {N31, N32, N33, N34, N35} is
SC (N31) = 0.8 × 1 + 0.2 × 1 = 1.0
SC (N32) = 0.8 × 1 + 0.2 × 1 = 1.0
SC (N33) = 0.8 × 2 + 0.2 × 2 = 2.0
SC (N34) = 0.8 × 2 + 0.2 × 1 = 1.8
SC (N35) = 0.8 × 2 + 0.2 × 1 = 1.8
It can be calculated as follows. In this case, the higher the value of ρ, the more important the authors who have a lot of personal relationships, and the smaller the value of ρ, the more important the authors who write articles can be ranked.

本実施の形態の要素集団抽出システム100によれば、クラスタ内の各ノードについて、レイヤー内エッジとレイヤー間エッジの両方を使ったランキングを行う。そのため、コミュニティ内で注目すべき重要な人物を発見するというようなことが可能である。   According to the element group extraction system 100 of the present embodiment, ranking using both the intra-layer edge and the inter-layer edge is performed for each node in the cluster. Therefore, it is possible to find an important person to notice in the community.

実施の形態1ないし3では、図1のレイヤーL1を最上位の層として説明したが、例えば、レイヤーL2を最上位の層としてクラスタリングを行ってもよい。すなわち、階層構造が、木構造であると考えるのである。その場合、レイヤーL2→レイヤーL1と、レイヤーL2→レイヤーL3の2方向のマッピングを行う。そして、クラスタ補正はレイヤーL1とレイヤーL3のそれぞれで行う。最終的に知りたい対象が、レイヤーL3(著者)のクラスタであるとしても、そのクラスタがどのようなキーワードで結びつくのかを参考情報として、知ることができる。   In the first to third embodiments, the layer L1 in FIG. 1 has been described as the uppermost layer. However, for example, clustering may be performed with the layer L2 as the uppermost layer. That is, the hierarchical structure is considered to be a tree structure. In that case, the mapping in the two directions of layer L2 → layer L1 and layer L2 → layer L3 is performed. Cluster correction is performed in each of the layer L1 and the layer L3. Even if the object you want to know finally is a cluster of layer L3 (author), you can know as a reference information what keywords the cluster is connected to.

さらに、要素集合グラフの階層構造がループを含む場合もあり得る。その場合、ある階層からマッピングを始めて、どこかの階層でマッピング処理が出会うことになる。マッピング処理が出会った階層では、2つのマッピングの結果を調整してもよいし、そのまま別のものとして抽出してもよい。なお、一般にどのレイヤーを最上位とするかによって、最終的に抽出される要素集団の構成は異なる。   Furthermore, the hierarchical structure of the element set graph may include a loop. In such a case, mapping is started from a certain level and the mapping process is encountered at some level. In the hierarchy where the mapping process meets, the results of the two mappings may be adjusted, or may be extracted as they are as they are. In general, the composition of the element group finally extracted differs depending on which layer is the highest.

またさらに、要素集合グラフの階層構造が網構造(ネットワーク)の場合もあり得る。その場合、レイヤー順序決定部21では、クラスタリングを始める層とマッピング処理を行う順序を指定する。層間のエッジに向きが定義された有向グラフの場合は、マッピング処理を行う順序をエッジの向きで定まる順序としてもよい。   Furthermore, the hierarchical structure of the element set graph may be a network structure (network). In this case, the layer order determination unit 21 designates the layer for starting clustering and the order for performing the mapping process. In the case of a directed graph in which the direction is defined at the edge between layers, the order of performing the mapping process may be determined by the direction of the edge.

なお、要素集団を抽出するのは、要素集合グラフの全体を対象としない場合もあり得る。要素集合グラフのうち、層間エッジで接続される層を選択して要素集団を抽出してもよい。その場合、レイヤー順序決定部21では、要素集団を抽出する層の選択と、選択した層のうちクラスタリングを行う層、およびマッピングを行う順序を指定する。   Note that the element group may not be extracted for the entire element set graph. An element group may be extracted by selecting a layer connected by an interlayer edge from the element set graph. In this case, the layer order determination unit 21 selects a layer from which an element group is extracted, specifies a layer for clustering among the selected layers, and an order for performing mapping.

図8は、図2、図4または図6に示す要素集団抽出システム100のハードウェア構成の一例を示すブロック図である。要素集団抽出システム100は、図8に示すように、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35を備える。主記憶部32、外部記憶部33、操作部34および表示部35はいずれも内部バス30を介して制御部31に接続されている。   FIG. 8 is a block diagram showing an example of a hardware configuration of the element group extraction system 100 shown in FIG. 2, FIG. 4, or FIG. As illustrated in FIG. 8, the element group extraction system 100 includes a control unit 31, a main storage unit 32, an external storage unit 33, an operation unit 34, and a display unit 35. The main storage unit 32, the external storage unit 33, the operation unit 34, and the display unit 35 are all connected to the control unit 31 via the internal bus 30.

制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている要素集団抽出用プログラム500に従って、前述の要素集団抽出システム100の処理を実行する。   The control unit 31 includes a CPU (Central Processing Unit) and the like, and executes the above-described element group extraction system 100 according to the element group extraction program 500 stored in the external storage unit 33.

主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている要素集団抽出用プログラム500をロードし、制御部31の作業領域として用いられる。   The main storage unit 32 is composed of a RAM (Random-Access Memory) or the like, loads an element group extraction program 500 stored in the external storage unit 33, and is used as a work area of the control unit 31.

外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、前記の処理を制御部31に行わせるための要素集団抽出用プログラム500を予め記憶し、また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図2、図4または図6のレイヤーデータ記憶部11は、外部記憶部33に構成される。要素集団抽出処理を行っているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いる。   The external storage unit 33 includes a non-volatile memory such as a flash memory, a hard disk, a DVD-RAM (Digital Versatile Disc Random-Access Memory), a DVD-RW (Digital Versatile Disc ReWritable), etc. An element group extraction program 500 to be executed is stored in advance, and data stored in the program is supplied to the control unit 31 according to an instruction from the control unit 31, and the data supplied from the control unit 31 is stored. The layer data storage unit 11 of FIG. 2, FIG. 4 or FIG. 6 is configured in the external storage unit 33. When element group extraction processing is performed, part of the data is stored in the main storage unit 32 and used for the operation of the control unit 31.

操作部34はキーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス30に接続するインターフェース装置から構成されている。操作部34を介して、分析する要素集合グラフのデータと、その要素集合グラフの最上位の階層を指定する情報が入力され、制御部31に供給される。操作部34は、図2、図4または図6の入力部3に相当する。   The operation unit 34 includes a pointing device such as a keyboard and mouse, and an interface device that connects the keyboard and pointing device to the internal bus 30. The data of the element set graph to be analyzed and information specifying the highest hierarchy of the element set graph are input via the operation unit 34 and supplied to the control unit 31. The operation unit 34 corresponds to the input unit 3 in FIG. 2, 4, or 6.

表示部35は、CRT(Cathode Ray Tube)又はLCD(Liquid Crystal Display)などから構成され、要素集団抽出対象のレイヤーデータ(要素集合グラフ)、クラスタリングを行うレイヤー、要素集団抽出結果などを表示する。表示部35は、図2、図4または図6の出力部4の例である。その他、出力部4として、プリンタなどを備えてもよい。   The display unit 35 is composed of a CRT (Cathode Ray Tube) or LCD (Liquid Crystal Display) or the like, and displays layer data (element set graph) as an element group extraction target, a layer for clustering, an element group extraction result, and the like. The display unit 35 is an example of the output unit 4 in FIG. 2, 4, or 6. In addition, a printer or the like may be provided as the output unit 4.

その他、要素集団抽出システム100は、ネットワークに接続する送受信部(図示せず)を備えて、ネットワークを経由して要素集合グラフに関するデータを検索、収集してもよい。   In addition, the element group extraction system 100 may include a transmission / reception unit (not shown) connected to the network, and search and collect data regarding the element group graph via the network.

図2、図4または図6のレイヤー順序決定部21、クラスタリング部22、マッピング部23、クラスタ補正部24およびランキング演算部25の処理は、要素集団抽出用プログラム500が、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35などを資源として用いて処理することによって実行する。   The processing of the layer order determination unit 21, the clustering unit 22, the mapping unit 23, the cluster correction unit 24, and the ranking calculation unit 25 in FIG. 2, FIG. 4, or FIG. The processing is executed by using the unit 32, the external storage unit 33, the operation unit 34, the display unit 35, and the like as resources.

その他、本発明の好適な変形として、以下の構成が含まれる。   Other suitable modifications of the present invention include the following configurations.

本発明の第1の観点に係る要素集団抽出システムについて、好ましくは、前記ある層におけるクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタについて、該下位の層の前記層内のエッジに基づいて、その層のノードが該下位の層のクラスタに含まれるか否かを変更するクラスタ補正手段を備える。   The element group extraction system according to the first aspect of the present invention is preferably configured such that a lower layer of a cluster composed of nodes constituting a cluster in a certain layer and a node of a lower layer linked by an edge between the layers. Cluster correction means is provided for changing whether or not a node of the layer is included in a cluster of the lower layer based on an edge in the layer of the layer.

さらに、前記層内のエッジと前記層間のエッジに基づいて、前記マッピング手段で抽出した集団に含まれるノードの所定の評価値を計算するランキング手段を備えてもよい。   Furthermore, a ranking unit that calculates a predetermined evaluation value of a node included in the group extracted by the mapping unit based on the edge in the layer and the edge between the layers may be provided.

好ましくは、前記クラスタ補正手段は、
ある層におけるクラスタに含まれるノードと所定の閾値以上の値を有するエッジでリンクしているその層内のノードを、そのクラスタに追加するクラスタ追加手段、
および/または
ある層におけるクラスタに含まれるノードと所定の閾値未満の値を有するエッジでしかリンクしていないその層内のノードを、そのクラスタから除加するクラスタ除外手段、
を含む。
Preferably, the cluster correction means includes
Cluster addition means for adding a node in the layer linked to a node included in the cluster in a layer by an edge having a value equal to or greater than a predetermined threshold, to the cluster;
And / or a cluster exclusion means for adding, from the cluster, a node in the layer that is linked only with an edge having a value less than a predetermined threshold to a node included in the cluster in the layer.
including.

本発明の第2の観点に係る要素集団抽出方法について、好ましくは、前記ある層におけるクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタについて、該下位の層の前記層内のエッジに基づいて、その層のノードが該下位の層のクラスタに含まれるか否かを変更するクラスタ補正ステップを備える。   With regard to the element group extraction method according to the second aspect of the present invention, preferably, for a cluster composed of nodes constituting a cluster in the certain layer and nodes in a lower layer linked by an edge between the layers, A cluster correction step of changing whether a node of the layer is included in a cluster of the lower layer based on an edge in the layer of the layer.

さらに、前記層内のエッジと前記層間のエッジに基づいて、前記マッピングステップで抽出した集団に含まれるノードの所定の評価値を計算するランキングステップを備えてもよい。   Furthermore, a ranking step of calculating a predetermined evaluation value of a node included in the group extracted in the mapping step based on an edge in the layer and an edge between the layers may be provided.

好ましくは、前記クラスタ補正ステップは、
ある層におけるクラスタに含まれるノードと所定の閾値以上の値を有するエッジでリンクしているその層内のノードを、そのクラスタに追加するクラスタ追加ステップ、
および/または
ある層におけるクラスタに含まれるノードと所定の閾値未満の値を有するエッジでしかリンクしていないその層内のノードを、そのクラスタから除加するクラスタ除外ステップ、
を含む。
Preferably, the cluster correction step includes:
A cluster addition step of adding, to the cluster, a node in the layer linked to an edge having a value equal to or greater than a predetermined threshold with a node included in the cluster in the layer;
And / or a cluster exclusion step of adding nodes in the layer that are linked only with edges having a value less than a predetermined threshold to nodes included in the cluster in the layer from the cluster;
including.

以上、説明したように、本発明の第1の効果は、レイヤー間エッジとレイヤー内エッジの両方を使ったきめ細かいクラスタリングを行うことができることである。その理由は、マッピング手段によりレイヤー間エッジを考慮したクラスタを形成でき、さらに、クラスタ補正手段によりレイヤー内エッジを考慮してクラスタの補正が可能であるからである。   As described above, the first effect of the present invention is that fine clustering using both the inter-layer edge and the intra-layer edge can be performed. This is because the clustering means can form a cluster considering the edge between layers, and the cluster correction means can correct the cluster considering the edge in the layer.

第2の効果は、コミュニティ抽出に必要な計算量を節約でき、また、クラスタリングに使えるレイヤーが増えたとしても、計算量の増加を抑えることができることである。その理由は、計算量の多いクラスタリング処理は最上位のレイヤーのノードに限られているからである。   The second effect is that the amount of calculation required for community extraction can be saved, and even if the number of layers that can be used for clustering increases, the increase in the amount of calculation can be suppressed. The reason is that clustering processing with a large amount of calculation is limited to the node of the highest layer.

その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。   In addition, the hardware configuration and the flowchart described above are merely examples, and can be arbitrarily changed and modified.

制御部31、主記憶部32、外部記憶部33、操作部34及び内部バス30などから構成される要素集団抽出システム100の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するための要素集団抽出用プログラム500を、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する要素集団抽出システム100を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで要素集団抽出システム100を構成してもよい。   The central part that performs processing of the element group extraction system 100 including the control unit 31, the main storage unit 32, the external storage unit 33, the operation unit 34, the internal bus 30, and the like does not depend on a dedicated system, but is a normal one. It can be realized using a computer system. For example, the element group extraction program 500 for executing the above operation is stored and distributed in a computer-readable recording medium (flexible disk, CD-ROM, DVD-ROM, etc.), and the computer program is distributed to the computer. The element group extraction system 100 that executes the above-described processing may be configured by installing the above. Alternatively, the element group extraction system 100 may be configured by storing the computer program in a storage device included in a server device on a communication network such as the Internet and downloading it by a normal computer system.

また、要素集団抽出システム100の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。   Further, when the function of the element group extraction system 100 is realized by sharing an OS (operating system) and an application program, or by cooperation between the OS and the application program, only the application program portion is stored in a recording medium or a storage device. It may be stored.

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に要素集団抽出用プログラム500を掲示し、ネットワークを介して要素集団抽出用プログラム500を配信してもよい。そして、要素集団抽出用プログラム500を起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。   It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, the element group extraction program 500 may be posted on a bulletin board (BBS: Bulletin Board System) on a communication network, and the element group extraction program 500 may be distributed via the network. Then, the element group extraction program 500 may be activated and executed in the same manner as other application programs under the control of the OS, so that the above processing can be executed.

本発明によれば、ソーシャルネットワークサービス、ブログ、論文、メーリングリスト、メールマガジンなどの様々な情報源から、同一トピックに興味を持った人間同士のコミュニティを抽出することができる。   According to the present invention, it is possible to extract a community of people who are interested in the same topic from various information sources such as social network services, blogs, papers, mailing lists, and mail magazines.

本発明の実施の形態におけるレイヤーデータ記憶部に格納されるデータの例を示す図である。It is a figure which shows the example of the data stored in the layer data storage part in embodiment of this invention. 本発明の実施の形態1に係る要素集団抽出システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the element group extraction system which concerns on Embodiment 1 of this invention. 実施の形態1に係る要素集団抽出システムの動作の一例を示す流れ図である。5 is a flowchart showing an example of the operation of the element group extraction system according to the first embodiment. 本発明の実施の形態2に係る要素集団抽出システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the element group extraction system which concerns on Embodiment 2 of this invention. 実施の形態2に係る要素集団抽出システムの動作の一例を示す流れ図である。10 is a flowchart showing an example of the operation of the element group extraction system according to the second embodiment. 本発明の実施の形態3に係る要素集団抽出システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the element group extraction system which concerns on Embodiment 3 of this invention. 実施の形態3に係る要素集団抽出システムの動作の一例を示す流れ図である。10 is a flowchart showing an example of the operation of the element group extraction system according to Embodiment 3. 要素集団抽出システムのハードウェア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of an element group extraction system. レイヤーデータ記憶部に格納されるデータの別の例を示す図である。It is a figure which shows another example of the data stored in a layer data storage part.

符号の説明Explanation of symbols

1 記憶装置
2 処理装置
3 入力部
4 出力部
11 レイヤーデータ記憶部
21 レイヤー順序決定部
22 クラスタリング部
23 マッピング部
24 クラスタ補正部
25 ランキング演算部
100 要素集団抽出システム
500 要素集団抽出用プログラム
DESCRIPTION OF SYMBOLS 1 Storage device 2 Processing apparatus 3 Input part 4 Output part 11 Layer data storage part 21 Layer order determination part 22 Clustering part 23 Mapping part 24 Cluster correction part 25 Ranking calculation part 100 Element group extraction system 500 Element group extraction program

Claims (11)

共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする要素集団抽出システム。
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
Mapping means for extracting a cluster in a certain layer and a cluster composed of a node constituting the cluster and a node in a lower layer linked by an edge between the layers as one group;
An element group extraction system comprising:
前記ある層におけるクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタについて、該下位の層の前記層内のエッジに基づいて、その層のノードが該下位の層のクラスタに含まれるか否かを変更するクラスタ補正手段を備えることを特徴とする請求項1に記載の要素集団抽出システム。   For a cluster composed of nodes constituting a cluster in the certain layer and nodes in a lower layer linked by the edge between the layers, the node in the layer is determined based on the edge in the layer of the lower layer. 2. The element group extraction system according to claim 1, further comprising cluster correction means for changing whether or not the cluster is included in a lower layer cluster. 前記層内のエッジと前記層間のエッジに基づいて、前記マッピング手段で抽出した集団に含まれるノードの所定の評価値を計算するランキング手段を備えることを特徴とする請求項1または2に記載の要素集団抽出システム。   The ranking means for calculating a predetermined evaluation value of a node included in the group extracted by the mapping means based on an edge in the layer and an edge between the layers is provided. Element group extraction system. 前記クラスタ補正手段は、
ある層におけるクラスタに含まれるノードと所定の閾値以上の値を有するエッジでリンクしているその層内のノードを、そのクラスタに追加するクラスタ追加手段、
および/または
ある層におけるクラスタに含まれるノードと所定の閾値未満の値を有するエッジでしかリンクしていないその層内のノードを、そのクラスタから除加するクラスタ除外手段、
を含むことを特徴とする請求項2または3に記載の要素集団抽出システム。
The cluster correction means includes
Cluster addition means for adding a node in the layer linked to a node included in the cluster in a layer by an edge having a value equal to or greater than a predetermined threshold, to the cluster;
And / or a cluster exclusion means for adding, from the cluster, a node in the layer that is linked only with an edge having a value less than a predetermined threshold to a node included in the cluster in the layer.
The element group extraction system according to claim 2 or 3, characterized by comprising:
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出方法であって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定ステップと、
前記層順序決定ステップで決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリングステップと、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピングステップと、
を備えることを特徴とする要素集団抽出方法。
An element group extraction method for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. A layer order determining step for determining the order of the layers for clustering the nodes based on predetermined data in a multi-layer element set, which is a set of nodes that are distinguished from an inner edge and an edge between layers;
A clustering step of extracting a cluster for the nodes belonging to the layer to be clustered determined in the layer order determination step;
A mapping step of extracting a cluster in a certain layer, and a cluster composed of nodes constituting the cluster and nodes in a lower layer linked by an edge between the layers, as one group;
An element group extraction method comprising:
前記ある層におけるクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタについて、該下位の層の前記層内のエッジに基づいて、その層のノードが該下位の層のクラスタに含まれるか否かを変更するクラスタ補正ステップを備えることを特徴とする請求項5に記載の要素集団抽出方法。   For a cluster composed of nodes constituting a cluster in the certain layer and nodes in a lower layer linked by the edge between the layers, the node in the layer is determined based on the edge in the layer of the lower layer. The element group extraction method according to claim 5, further comprising a cluster correction step of changing whether or not it is included in a lower layer cluster. 前記層内のエッジと前記層間のエッジに基づいて、前記マッピングステップで抽出した集団に含まれるノードの所定の評価値を計算するランキングステップを備えることを特徴とする請求項5または6に記載の要素集団抽出方法。   The ranking step of calculating a predetermined evaluation value of a node included in the group extracted in the mapping step based on an edge in the layer and an edge between the layers is provided. Element group extraction method. 前記クラスタ補正ステップは、
ある層におけるクラスタに含まれるノードと所定の閾値以上の値を有するエッジでリンクしているその層内のノードを、そのクラスタに追加するクラスタ追加ステップ、
および/または
ある層におけるクラスタに含まれるノードと所定の閾値未満の値を有するエッジでしかリンクしていないその層内のノードを、そのクラスタから除加するクラスタ除外ステップ、
を含むことを特徴とする請求項6または7に記載の要素集団抽出方法。
The cluster correction step includes:
A cluster addition step of adding, to the cluster, a node in the layer linked to an edge having a value equal to or greater than a predetermined threshold with a node included in the cluster in the layer;
And / or a cluster exclusion step of adding nodes in the layer that are linked only with edges having a value less than a predetermined threshold to nodes included in the cluster in the layer from the cluster;
The element group extraction method according to claim 6 or 7, characterized by comprising:
共通の属性を有するノードのクラスタを集団として抽出するためのプログラムあって、コンピュータを、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段
として機能させることを特徴とするプログラム。
A program for extracting a cluster of nodes having common attributes as a group comprising:
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
It functions as a mapping means for extracting a cluster in a certain layer and a cluster composed of nodes constituting the cluster and nodes in a lower layer linked by an edge between the layers as one group. program.
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが第1の層および第2の層を含む層に分類されて、前記ノード間のエッジが前記第1または第2の層内のエッジと、前記第1と第2の層の間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う層を決定する層順序決定手段と、
前記層順序決定手段で決定されるクラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
前記クラスタリング手段で抽出したクラスタと、そのクラスタを構成するノードと前記第1と第2の層の間のエッジでリンクされるノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする要素集団抽出システム。
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside a computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into layers including a first layer and a second layer. , Predetermined data in a multi-layer element set in which an edge between the nodes is distinguished from an edge in the first or second layer and an edge between the first and second layers A layer order determining means for determining a layer on which clustering of the nodes is performed based on:
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
Mapping means for extracting a cluster extracted by the clustering means, and a cluster constituted by nodes constituting the cluster and nodes linked by edges between the first and second layers, as one group; ,
An element group extraction system comprising:
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが3以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
前記層間のノードが存在する任意の2つの層において、一方の層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる他方の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする要素集団抽出システム。
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into three or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
In any two layers in which the nodes between the layers exist, a cluster in one layer, and a cluster composed of the nodes constituting the cluster and the nodes of the other layer linked at the edge between the layers are 1 Mapping means to extract as one group,
An element group extraction system comprising:
JP2008014310A 2008-01-24 2008-01-24 System, method and program for extracting element group Pending JP2009176072A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008014310A JP2009176072A (en) 2008-01-24 2008-01-24 System, method and program for extracting element group

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008014310A JP2009176072A (en) 2008-01-24 2008-01-24 System, method and program for extracting element group

Publications (1)

Publication Number Publication Date
JP2009176072A true JP2009176072A (en) 2009-08-06

Family

ID=41031082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008014310A Pending JP2009176072A (en) 2008-01-24 2008-01-24 System, method and program for extracting element group

Country Status (1)

Country Link
JP (1) JP2009176072A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314565A (en) * 2010-07-02 2012-01-11 日电(中国)有限公司 Data anonymization device and method
US9720959B2 (en) 2013-07-16 2017-08-01 Fujitsu Limited Data output method, computer-readable recording medium storing data output program and data output system
US9727662B2 (en) 2013-07-16 2017-08-08 Fujitsu Limited Data output method, computer-readable recording medium storing data output program and data output system
JP2019040285A (en) * 2017-08-23 2019-03-14 富士ゼロックス株式会社 Information processing apparatus and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505378A (en) * 2000-07-28 2004-02-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Context and content based information processing for multimedia segmentation and indexing
JP2005302043A (en) * 2004-04-15 2005-10-27 Microsoft Corp Reinforced clustering of multi-type data object for search term suggestion
JP2005316998A (en) * 2004-04-15 2005-11-10 Microsoft Corp Mining service request for product support

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505378A (en) * 2000-07-28 2004-02-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Context and content based information processing for multimedia segmentation and indexing
JP2005302043A (en) * 2004-04-15 2005-10-27 Microsoft Corp Reinforced clustering of multi-type data object for search term suggestion
JP2005316998A (en) * 2004-04-15 2005-11-10 Microsoft Corp Mining service request for product support

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314565A (en) * 2010-07-02 2012-01-11 日电(中国)有限公司 Data anonymization device and method
JP2012022315A (en) * 2010-07-02 2012-02-02 Nec (China) Co Ltd Method and device for anonymizing data
CN102314565B (en) * 2010-07-02 2014-08-27 日电(中国)有限公司 Data anonymization device and method
US9720959B2 (en) 2013-07-16 2017-08-01 Fujitsu Limited Data output method, computer-readable recording medium storing data output program and data output system
US9727662B2 (en) 2013-07-16 2017-08-08 Fujitsu Limited Data output method, computer-readable recording medium storing data output program and data output system
JP2019040285A (en) * 2017-08-23 2019-03-14 富士ゼロックス株式会社 Information processing apparatus and program

Similar Documents

Publication Publication Date Title
US20220035827A1 (en) Tag selection and recommendation to a user of a content hosting service
Frolov et al. Tensor methods and recommender systems
US7809705B2 (en) System and method for determining web page quality using collective inference based on local and global information
US8825672B1 (en) System and method for determining originality of data content
CN109255586B (en) Online personalized recommendation method for e-government affairs handling
US10157218B2 (en) Author disambiguation and publication assignment
CN107291792B (en) Method and system for determining related entities
US10133807B2 (en) Author disambiguation and publication assignment
AU2016225947A1 (en) System and method for multimedia document summarization
CN111191466B (en) Homonymous author disambiguation method based on network characterization and semantic characterization
US9760622B2 (en) System and method for computerized batching of huge populations of electronic documents
Kalaivani et al. Feature reduction based on genetic algorithm and hybrid model for opinion mining
Zul et al. Social media sentiment analysis using K-means and naïve bayes algorithm
US20120046937A1 (en) Semantic classification of variable data campaign information
US11308146B2 (en) Content fragments aligned to content criteria
CN101639837A (en) Method and system for automatically classifying objects
Tran et al. Hetegraph: graph learning in recommender systems via graph convolutional networks
Li et al. Heterogeneous graph embedding for cross-domain recommendation through adversarial learning
Song et al. Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media
JP2009176072A (en) System, method and program for extracting element group
JP2010182267A (en) Content classification apparatus, content classification method, and program
US11886809B1 (en) Identifying templates based on fonts
Camastra et al. Semantic maps for knowledge management of web and social information
Park et al. Document classification model using Web documents for balancing training corpus size per category
US8819023B1 (en) Thematic clustering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130205