JP2009176072A - System, method and program for extracting element group - Google Patents
System, method and program for extracting element group Download PDFInfo
- Publication number
- JP2009176072A JP2009176072A JP2008014310A JP2008014310A JP2009176072A JP 2009176072 A JP2009176072 A JP 2009176072A JP 2008014310 A JP2008014310 A JP 2008014310A JP 2008014310 A JP2008014310 A JP 2008014310A JP 2009176072 A JP2009176072 A JP 2009176072A
- Authority
- JP
- Japan
- Prior art keywords
- layer
- cluster
- nodes
- layers
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は要素集団抽出システム、要素集団抽出方法および要素集団抽出用プログラムに関する。より詳しくは、属性のマルチレイヤー構造に対応した要素集団抽出システム、要素集団抽出方法および要素集団抽出用プログラムに関する。 The present invention relates to an element group extraction system, an element group extraction method, and an element group extraction program. More specifically, the present invention relates to an element group extraction system, an element group extraction method, and an element group extraction program corresponding to a multi-layer structure of attributes.
近年、ソーシャルネットワークサービス(SNS)やブログなど、個人のプロフィールや日記等をインターネット上に公開し、同じ趣味をもつ未知の人間同士がネットワーク上でコミュニケーションをやりとりし、実生活で交流したりすることが盛んに行われてきている。このような、個人の属性を元に発見される出会いによる人のつながりは、新しいイノベーションやブレイクスルーをもたらす可能性を秘めているため、個人と個人をコミュニティとしてうまく結びつける技術は今後も重要になってくると考えられる。 In recent years, personal profiles and diaries, such as social network services (SNS) and blogs, have been published on the Internet, and unknown people with the same hobbies can communicate on the network and interact in real life. Has been actively conducted. Since the connection of people discovered through encounters based on the attributes of individuals has the potential to bring about new innovations and breakthroughs, technology that successfully links individuals and individuals as a community will continue to be important. It is thought that it will come.
ブログに現れるコンテンツなどからコミュニティを抽出する技術として、例えば特許文献3、6、7がある。そのうち、特許文献6の技術は、Weblogコンテンツを収集し、頻繁な相互コミュニケーションを行っている複数Weblogから構成されるWeblogコミュニティを抽出する。
For example,
関連する技術として、特許文献2には、データの集合をそのデータの集合に適した形で空間上へ分類配置して表示する技術が記載されている。特許文献2の技術は、行列で表現されるデータの組において、行か列の、より少ないデータの方を空間上に自己組織化手法などにより配置し、この配置結果のみを用いて他方のデータを配置する。
As a related technique,
また、特許文献5は、ウェブログコンテンツを収集し、知人関係にあると共に共通のカテゴリー情報を持つウェブログの集合を各カテゴリーに詳しい人脈として抽出する。さらに、同意語を含む検索対象カテゴリーに属するウェブログコンテンツを、検索対象カテゴリーに詳しい人脈に属するウェブログコンテンツから検索し、カテゴリー毎の人脈や各ウェブログ毎、あるいは時系列や相互のコメント関係、相互のトラックバック関係等で分類することが記載されている。 Further, Patent Document 5 collects web log contents, and extracts a set of web logs that have acquaintance relationships and have common category information as detailed personal connections to each category. Furthermore, weblog content belonging to the search target category including synonyms is searched from the weblog content belonging to the personal network familiar with the search target category, and the personal network for each category and each weblog, or time series and mutual comment relationship, The classification is based on the mutual trackback relationship.
その他、要素(ノード)間の関係にもとづいて、要素ごとの何らかの評価(スコア、ランキング)を算出することが、特許文献1、3、4に記載されている。特許文献1では、ディレクトリ情報アクセス手段で取得した情報を元にカテゴリの優先度を決めるスコアを付与し、検索結果の表示順または表示件数を、カテゴリに付与されたスコアを元に決定する。特許文献3では、コミュニティに属するユーザのアクセス頻度に基づいて、コミュニティに属するWWWページを順位付ける。特許文献4では、ページの重要性と、そのページに関連付けられたノードの重要性とを使用して、ページ重要性ランキングを計算する。
インターネット上のコンテンツの集合や、推薦システムにおけるユーザ集合から、共通の話題に関連したテキスト群やユーザ群のクラスタをコミュニティとして抽出する技術として、大きく、(A)属性ベクトルクラスタリング方式、(B)グラフクラスタリング方式が挙げられる。(A)属性ベクトルクラスタリング方式としては、属性ベクトル間の距離が近いもの同士をコミュニティとして抽出するk-meansアルゴリズムなどがある(参考文献1:神嶌敏弘、"データマイニング分野のクラスタリング手法(1) - クラスタリングを使ってみよう! -"、人工知能学会誌、Vol. 18、No. 1、pp. 59-65 (2003)参照)。 As a technique for extracting a text group and a cluster of user groups related to a common topic as a community from a set of contents on the Internet and a set of users in a recommendation system, (A) attribute vector clustering method, (B) graph There is a clustering method. (A) As an attribute vector clustering method, there exists a k-means algorithm which extracts the thing where the distance between attribute vectors is near as a community (reference literature 1: Toshihiro Kamisu, "clustering method of the data mining field (1) -Let's use clustering!-"Journal of the Japanese Society for Artificial Intelligence, Vol. 18, No. 1, pp. 59-65 (2003)).
参考文献1に示された方法によれば、N個のクラスタリングの対象x_i(1≦i≦N)はそれぞれd個の属性からなる属性ベクトル(x_i1, x_i2, x_i3, ..., x_id)として表現される。これを以下のステップを繰り返し行うことによって、k個のクラスタに分割することができる。
According to the method shown in
ステップ1:N個の属性ベクトルx_1, x_2, ..., x_Nの中から、k個の代表点c_1, c_2, ..., c_kをランダムに選択する。
ステップ2:全ての属性ベクトルx_1, x_2, ..., x_Nについて、それぞれ、代表点c_1, c_2, ..., c_kとの間のユークリッド距離を計算し、距離が最小となる代表点c_iと同一のクラスタとして割り当てる。
ステップ3:もし、代表点c_1, c_2,..., c_kへの各属性ベクトルの割り当てに変化がなければ処理を終了し、その時点での各代表点への割り当てをクラスタとして出力する。変化があった場合は、各クラスタのセントロイドを新たな代表点c_1, c_2, ..., c_kとしてステップ2に戻る。
Step 1: k representative points c_1, c_2,..., C_k are randomly selected from N attribute vectors x_1, x_2,.
Step 2: For all the attribute vectors x_1, x_2, ..., x_N, the Euclidean distances between the representative points c_1, c_2, ..., c_k are calculated, respectively. Assign as the same cluster.
Step 3: If there is no change in the assignment of each attribute vector to the representative points c_1, c_2,..., C_k, the process is terminated, and the assignment to each representative point at that time is output as a cluster. If there is a change, the centroid of each cluster is set as a new representative point c_1, c_2,.
例えば、参考文献1に示される方法を文書集合T={t_1, t_2, ..., t_N}に対して適用する場合、文書集合全体に含まれる単語集合W={w_1, w_2, ..., w_d}を使って各文書を属性ベクトルとして表現すれば、文書集合をクラスタリングすることが可能である。
For example, when the method shown in
また、参考文献1に示される方法をブログのユーザ集合U={u_1, u_2, ..., u_N}に対して適用する場合、ユーザの属性情報として全ユーザが記述したブログに使われている単語集合W={w_1, w_2, ..., w_d}を使って各ユーザを属性ベクトルとして表現すれば、ブログのユーザ集合をクラスタリングすることも可能である。
When the method shown in
(B)グラフクラスタリング方式としては、グラフ構造上密な関係を持つノード同士をクラスタとして抽出する方法が挙げられる(参考文献2:田村慶一、高木允、森康真、黒木進、北上始、"タブーサーチを用いたモジュール性による無向グラフのクラスタリングアルゴリズム"、電子情報通信学会 第18回データ工学ワークショップ論文集、(2007)参照)。 (B) As a graph clustering method, there is a method of extracting nodes having a close relationship in a graph structure as a cluster (reference 2: Keiichi Tamura, Jun Takagi, Yasumasa Mori, Susumu Kuroki, Hajime Kitakami, “Taboo” "Clustering algorithm of undirected graph by modularity using search", IEICE 18th Data Engineering Workshop Proceedings, (2007)).
参考文献2に示された方法によれば、クラスタリングの対象となるN個のノード集合X={x_1, x_2, ..., x_N}と、ノード間の接続関係を表すエッジ集合Eを用いてグラフG=(X, E)が与えられた場合、以下のステップを繰り返し行うことによって、グラフ構造上関係性の深いノード同士をクラスタに分割することができる。
According to the method shown in
ステップ1:初期状態として、各ノードを1つのクラスタとするN個のクラスタを生成する。
ステップ2:各クラスタについて「クラスタ内に含まれるエッジの数に対するクラスタ外に出ているエッジの数の割合」をモジュール性として計算し、その値をQとする。
ステップ3:クラスタiとクラスタjを一つのクラスタとみなした場合のモジュール性をQ_ijとし、ΔQ = Q_ij−Qが最大となるクラスタi、jの組合せを求める。
ステップ4:もし、ΔQが正の場合、クラスタi、jを一つのクラスタに統合し、ステップ3に戻る。ΔQが0以下の場合、処理を終了し、その時点でのクラスタを出力する。
Step 1: As an initial state, N clusters having each node as one cluster are generated.
Step 2: For each cluster, “the ratio of the number of edges outside the cluster to the number of edges included in the cluster” is calculated as modularity, and the value is set as Q.
Step 3: The modularity when the cluster i and the cluster j are regarded as one cluster is Q_ij, and a combination of the clusters i and j that maximizes ΔQ = Q_ij−Q is obtained.
Step 4: If ΔQ is positive, the clusters i and j are integrated into one cluster, and the process returns to
例えば、参考文献2に示される方法を論文集合P={p_1, p_2, ..., p_N}に対して適用する場合、論文間の引用関係をエッジ集合Eとして表現することによって、論文集合をクラスタリングすることが可能である。同様に、ブログ集合B={B_1, B_2, ..., B_N}に対して適用する場合、ブログ間の引用関係やトラックバック関係をエッジ集合Eとして表現することによって、ブログ集合をクラスタリングすることが可能である。
For example, when the method shown in
関連する技術の問題点は、図1に示すような属性のマルチレイヤー構造に対応できないことである。図1ではキーワード間の関係、論文間の引用関係、著者間の人脈の3つの属性間のネットワーク関係がマルチレイヤー構造として与えられている。図1では、異なるレイヤーのノードを結ぶレイヤー間エッジ(点線)と、同一レイヤーのノードを結ぶレイヤー内エッジ(実線)の2種類がある。例えば図1では、「著者N31と著者N32が論文N22を執筆した」「論文N23はキーワードN11、N13、N14を含む」という情報はレイヤー間エッジで表現されている。また、「キーワードN11とキーワードN12、N13、N14は関連がある」「論文N22は、論文N21、N23、N24から引用されている」「著者N33と著者N34、N35は共同研究者である」といった情報は、レイヤー内エッジで表現されている。この場合、関連する技術ではレイヤー間エッジとレイヤー内エッジの両方の情報を活用して、クラスタリングを行うことが困難である。 A problem of the related technology is that it cannot cope with a multi-layer structure of attributes as shown in FIG. In FIG. 1, the relationship between keywords, the citation relationship between papers, and the network relationship between the three attributes of the connection between authors are given as a multilayer structure. In FIG. 1, there are two types, an edge between layers (dotted line) connecting nodes of different layers and an inner edge (solid line) connecting nodes of the same layer. For example, in FIG. 1, information that “the author N31 and the author N32 wrote the paper N22” and “the paper N23 includes the keywords N11, N13, and N14” is expressed by an edge between layers. "Keyword N11 and keywords N12, N13, and N14 are related" "Paper N22 is cited from papers N21, N23, and N24" "Authors N33, N34, and N35 are collaborators" Information is represented by an edge in the layer. In this case, it is difficult to perform clustering using the information of both the inter-layer edge and the intra-layer edge with the related technology.
例えば、各著者が書いた論文とその論文に含まれるキーワードをそれぞれ属性として使えば、参考文献1に示される属性ベクトル方式で著者をクラスタリングすることはできる。しかし、そこで利用される情報は図1の点線で示されるレイヤー間エッジだけであり、レイヤーL1内のキーワード間の関係、レイヤーL2内の論文間の引用関係、レイヤーL3内の人脈関係などが考慮されない結果になってしまう。
For example, if an article written by each author and a keyword included in the article are used as attributes, the authors can be clustered by the attribute vector method shown in
また、著者間の人脈関係のデータを使えば、参考文献2に示されるグラフクラスタリング方式で著者をクラスタリングすることはできる。しかし、その場合に利用される情報は図1のレイヤーL3に実践で示されたレイヤー内エッジだけであり、同じトピックに興味があるがお互いに人脈が構築されていないような研究グループを見つけることは困難である。
In addition, if the data on the relationship between the authors is used, the authors can be clustered by the graph clustering method shown in
さらに、図1に示される全てのノードとエッジを利用して、参考文献2に示されるグラフクラスタリング方式を適用することも可能ではあるが、計算量が膨大になってしまい効率が悪い。なぜなら、グラフクラスタリング方式は、ノード数の2乗に比例した計算時間がかかるからである。
Furthermore, although it is possible to apply the graph clustering method shown in
本発明の目的は、マルチレイヤー構造を有する要素集合グラフに対して、レイヤー間エッジとレイヤー内エッジの両方の情報を考慮したクラスタリングを行うことが可能な要素集団抽出システムを提供することにある。 An object of the present invention is to provide an element group extraction system capable of clustering an element set graph having a multi-layer structure in consideration of information on both inter-layer edges and intra-layer edges.
本発明の第1の観点に係る要素集団抽出システムは、
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする。
An element group extraction system according to a first aspect of the present invention includes:
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
Mapping means for extracting a cluster in a certain layer and a cluster composed of a node constituting the cluster and a node in a lower layer linked by an edge between the layers as one group;
It is characterized by providing.
本発明の第2の観点に係る要素集団抽出方法は、
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出方法であって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定ステップと、
前記層順序決定ステップで決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリングステップと、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピングステップと、
を備えることを特徴とする。
The element group extraction method according to the second aspect of the present invention is:
An element group extraction method for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. A layer order determining step for determining the order of the layers for clustering the nodes based on predetermined data in a multi-layer element set, which is a set of nodes that are distinguished from an inner edge and an edge between layers;
A clustering step of extracting a cluster for the nodes belonging to the layer to be clustered determined in the layer order determination step;
A mapping step of extracting a cluster in a certain layer, and a cluster composed of nodes constituting the cluster and nodes in a lower layer linked by an edge between the layers, as one group;
It is characterized by providing.
本発明の第3の観点に係るプログラムは、
共通の属性を有するノードのクラスタを集団として抽出するためのプログラムあって、コンピュータを、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段
として機能させることを特徴とする。
The program according to the third aspect of the present invention is:
A program for extracting a cluster of nodes having common attributes as a group comprising:
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
It functions as a mapping means for extracting a cluster in a certain layer and a cluster composed of nodes constituting the cluster and nodes in a lower layer linked by an edge between the layers as one group. .
本発明の第4の観点に係る要素集団抽出システムは、
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが第1の層および第2の層を含む層に分類されて、前記ノード間のエッジが前記第1または第2の層内のエッジと、前記第1と第2の層の間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う層を決定する層順序決定手段と、
前記層順序決定手段で決定されるクラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
前記クラスタリング手段で抽出したクラスタと、そのクラスタを構成するノードと前記第1と第2の層の間のエッジでリンクされるノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする。
An element group extraction system according to a fourth aspect of the present invention is:
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside a computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into layers including a first layer and a second layer. , Predetermined data in a multi-layer element set in which an edge between the nodes is distinguished from an edge in the first or second layer and an edge between the first and second layers A layer order determining means for determining a layer on which clustering of the nodes is performed based on:
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
Mapping means for extracting a cluster extracted by the clustering means, and a cluster constituted by nodes constituting the cluster and nodes linked by edges between the first and second layers, as one group; ,
It is characterized by providing.
本発明の第5の観点に係る要素集団抽出システムは、
共通の属性を有するノードのクラスタを集団として抽出する要素集団抽出システムであって、
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが3以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
前記層間のノードが存在する任意の2つの層において、一方の層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる他方の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする。
An element group extraction system according to a fifth aspect of the present invention is:
An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into three or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
In any two layers in which the nodes between the layers exist, a cluster in one layer, and a cluster composed of the nodes constituting the cluster and the nodes of the other layer linked at the edge between the layers are 1 Mapping means to extract as one group,
It is characterized by providing.
本発明によれば、レイヤー間エッジとレイヤー内エッジの両方を使ったきめ細かいクラスタリングで要素集団の抽出を行うことができる。その理由は、マッピング手段によりレイヤー間エッジを考慮して複数の層にまたがるクラスタを要素集団として抽出するからである。 According to the present invention, it is possible to extract an element group by fine clustering using both an inter-layer edge and an intra-layer edge. This is because a cluster that spans a plurality of layers is extracted as an element group in consideration of the edge between layers by the mapping means.
本発明では、グラフ理論の用語を用いて異なるカテゴリ、例えば、著者、論文およびキーワードのそれぞれに含まれる要素をノードとし、要素間の関係をエッジとして、要素の関係をグラフ(要素集合グラフ)で表す。特に、異なるカテゴリに対応して要素を階層に分類し、2以上の層で表現される複層要素集合グラフを対象とする。要素集合グラフは、エッジに値(関係度)が付いた重み付きグラフの場合がある。また、通常、ループや多重エッジを含まない単純グラフで表される。 In the present invention, using terms in graph theory, elements included in different categories, for example, authors, papers, and keywords, are nodes, and the relationship between elements is an edge, and the relationship of elements is a graph (element set graph). To express. In particular, a multi-layer element set graph expressed by two or more layers is provided, with elements classified into hierarchies corresponding to different categories. The element set graph may be a weighted graph with values (relationships) at the edges. Also, it is usually represented by a simple graph that does not include loops or multiple edges.
本発明の要素集団抽出システムは、複層要素集合グラフから共通の属性を有するノードのクラスタを集団として抽出する。本発明は特に、社会的・文化的属性で関連づけられる要素の集合から、共通の属性を有する要素の集団を抽出するシステムおよび方法である。要素として個別の人の属性を表す情報を含む要素集合グラフから抽出される要素集団は、一種のコミュニティである。本発明では、「コミュニティ」を一般の要素集合グラフに一般化して、要素集団という。 The element group extraction system of the present invention extracts a cluster of nodes having common attributes from a multilayer element set graph as a group. In particular, the present invention is a system and method for extracting a group of elements having a common attribute from a group of elements associated with social and cultural attributes. An element group extracted from an element set graph including information representing individual person attributes as elements is a kind of community. In the present invention, “community” is generalized to a general element set graph and is referred to as an element group.
以下の実施の形態では、図1のマルチレイヤーネットワーク構造(複層)の要素集合グラフを用いて説明する。図1ではキーワード間の関係、論文間の引用関係、著者間の人脈の3つの属性間のネットワーク関係がマルチレイヤー構造として与えられている。 In the following embodiment, description will be made using the element set graph of the multi-layer network structure (multi-layer) of FIG. In FIG. 1, the relationship between keywords, the citation relationship between papers, and the network relationship between the three attributes of the connection between authors are given as a multilayer structure.
図1のレイヤーL1は、例えば、キーワード間の共起度をエッジとするキーワードの関係を表すグラフである。共起度とは、2つのキーワードが同一文書で出現する度合いである。レイヤーL2は、例えば、論文の引用関係を表すグラフである。レイヤーL3は、著者間の人脈、例えば、直接電子メールを交換したことがある関係を表すグラフである。レイヤーL1とレイヤーL2の間は、論文にキーワードが出現することを示す。レイヤーL2とレイヤーL3の間は、著者とその論文の関係である。 The layer L1 in FIG. 1 is a graph representing the relationship between keywords having, for example, the co-occurrence between keywords as an edge. The co-occurrence degree is a degree that two keywords appear in the same document. The layer L2 is, for example, a graph representing the citation relationship of papers. The layer L3 is a graph showing a relationship between the authors, for example, a relationship in which an e-mail is directly exchanged. Between the layer L1 and the layer L2, a keyword appears in the paper. Between layer L2 and layer L3 is the relationship between the author and the paper.
図1に示すようなノードとエッジおよびレイヤー構造が、計算機内部にデータとして表現されている。計算機内部のデータ表現の方法について制約はないが、例えば、ノード、エッジおよびレイヤーをそれぞれ表形式のデータで表すことができる。例えばノードの表は、ノード識別子と属性を含む。エッジの表は例えば、エッジ識別子、エッジの種類(属するレイヤーまたはレイヤー間)、両端のノード識別子、エッジの値を含む。レイヤーの表は例えば、レイヤーの識別子、そのレイヤーに含まれるノードの識別子を含む。 Nodes, edges, and layer structures as shown in FIG. 1 are represented as data in the computer. Although there is no restriction on the data representation method inside the computer, for example, nodes, edges, and layers can be represented by tabular data. For example, the node table includes node identifiers and attributes. The table of edges includes, for example, edge identifiers, edge types (belonging layers or layers), node identifiers at both ends, and edge values. The layer table includes, for example, a layer identifier and a node identifier included in the layer.
図1に示すような{著者、論文、キーワード}の組み合わせに限らず、マルチレイヤーネットワーク構造の要素集合グラフであれば、本発明の要素集団抽出方法を適用することができる。例えば、{ブログ、コンテンツ作成者、コンテンツ、キーワード}、{食材、レシピー、調理法}、{監督、映画、俳優}、{作曲者、曲の属性、楽器}、{作者、絵画、題材}、{社会人、出身校、職業}等々、要素の間にマルチレイヤーネットワーク構造が想定できて、計算機内部にデータで表現できるものは対象になり得る。 The element group extraction method of the present invention can be applied to any element set graph having a multilayer network structure as well as a combination of {author, paper, keyword} as shown in FIG. For example, {blog, content creator, content, keyword}, {foodstuff, recipe, cooking method}, {director, movie, actor}, {composer, song attributes, instrument}, {author, painting, subject}, {Society, school of origin, profession}, etc., which can assume a multi-layer network structure between elements and can be represented by data inside the computer, can be targeted.
(実施の形態1)
以下、本発明に係る要素集団抽出システムについて図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。図2は、本発明の実施の形態1に係る要素集団抽出システム100の構成例を示すブロック図である。
(Embodiment 1)
Hereinafter, an element group extraction system according to the present invention will be described in detail with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals, and description thereof will not be repeated. FIG. 2 is a block diagram showing a configuration example of the element
図2を参照すると、実施の形態1に係る要素集団抽出システム100は、記憶装置1と、処理装置2と、キーボード等の入力部3と、ディスプレイやプリンタ等の出力部4を含む。記憶装置1は、さらに、レイヤーデータ記憶部11を含む。また、処理装置2は、さらに、レイヤー順序決定部21、クラスタリング部22、マッピング部23とを含む。
Referring to FIG. 2, an element
入力部3は、クラスタリングを行う分析者などの指示を入力する。分析者は分析する要素集合グラフのデータと、その要素集合グラフの最上位の階層、すなわちどの階層に着目してクラスタリングを行うかを入力することができる。レイヤー順序決定部21は、クラスタリングを行う分析者からの入力を元にクラスタリング処理すべきレイヤーの順序を決定する。
The
クラスタリング部22は、最上位のレイヤー内のノードのみを対象としたクラスタリングを行う。マッピング部23は、i番目のレイヤーLiにおいてクラスタを構成する各ノードと、レイヤー間エッジでリンクされている1階層下のレイヤーLi+1のノード群を1つのクラスタとしてまとめる。そして、すべての階層についてこのように1つにまとめたクラスタを要素集団(コミュニティ)として抽出する。
The
図3は、要素集団抽出システム100の動作の一例を示す流れ図である。はじめに、クラスタリングを行う分析者が、入力部3を介してレイヤー順序決定部21に、要素集団を抽出する要素集合グラフと、クラスタリング処理するレイヤーの順序を入力する(図3のステップS11)。このレイヤーの順序は、最下位のレイヤーにクラスタリングの対象となる属性を選択し、重要なレイヤーほど上位に順序付けることが望ましい。例えば、図1に示されるデータで、キーワードを重視して著者をクラスタリングしたい場合、L1→L2→L3の順で処理することになる。
FIG. 3 is a flowchart showing an example of the operation of the element
次に、クラスタリング部22は、最上位のレイヤー内のノードのみを対象としたクラスタリングを行う(図3のステップS12)。ここで、すべてのノード同士が互いにエッジで結ばれているグラフを完全グラフ(クリーク)という。例えば、図1のL1に含まれる N11〜N17の7つのノードの集合から、クリークを構成する部分集合をクラスタとして抽出したとすると、結果として、 C11={N11, N12, N13, N14}と、C12={N15, N16, N17}の2つのクラスタが抽出される。
Next, the
なお、ここでは説明を簡潔にするために、クリークを用いるクラスタリングを例に説明したが、クラスタを抽出する方法には他に、各キーワードについて、キーワードが含まれる論文を属性ベクトルとして、属性ベクトルクラスタリング方式を適用する方法や、レイヤーL1内のエッジをグラフ構造としてグラフクラスタリングを適用する方法なども考えられ、本実施の形態に述べた方法に限定されない。 Here, for the sake of brevity, clustering using cliques has been described as an example. However, in addition to the method of extracting clusters, for each keyword, an attribute vector clustering is performed using the article containing the keyword as an attribute vector. A method of applying a method and a method of applying graph clustering with edges in the layer L1 as a graph structure are also conceivable, and the method is not limited to the method described in the present embodiment.
次に、マッピング部23は、最上位のレイヤーL1においてクラスタを構成する各ノードと、レイヤー間エッジでリンクされている1階層下のレイヤーL2 のノード群を1つのクラスタとしてまとめる(図3のステップS13)。例えば、最上位のレイヤーL1でC11={N11, N12, N13, N14}と、C12={N15, N16, N17}の2つのクラスタが生成された場合、クラスタC11に含まれる各ノードとレイヤー間エッジでリンクされているレイヤーL2上のノード{N21、N23、 N24}がクラスタC21に、クラスタC12に含まれる各ノードとレイヤー間エッジでリンクされているレイヤーL2上のノード{N25, N26, N27, N28}がクラスタC22となる。
Next, the
現在のクラスタリング処理が最下層に到達していなければ(図3のステップS15;NO)、再度マッピング処理(図3のステップS13)に戻り、さらに下の層へクラスタを拡張していく。例えば、マッピング部23をレイヤーL2に適用することで、クラスタC21={N21, N23, N24}とレイヤー間エッジでリンクしているレイヤーL3上のクラスタとしてクラスタC31={N33, N34, N35}が得られ、クラスタC22={N25, N26, N27, N28}とレイヤー間エッジでリンクしているレイヤーL3上のクラスタとしてクラスタC32={N36, N37}が得られる。ここで、クラスタリング処理が最下層に到達しているので(ステップS15;YES)、クラスタC31={N33, N34, N35}とクラスタC32={N36, N37}の2つのクラスタをコミュニティとして出力して処理を終了する。
If the current clustering process has not reached the lowest layer (step S15 in FIG. 3; NO), the process returns to the mapping process (step S13 in FIG. 3) again, and the cluster is further expanded to the lower layer. For example, by applying the
ここで、計算量について考察しておく。与えられたレイヤーの数をL、各レイヤーにおけるノード数をN1、 N2、...、NLとする。関連技術の方式を単純にマルチレイヤーに適用し、全ノードをクラスタリングの対象とすると、トータルの計算量は
(N1+N2+...+NL)2
のオーダーとなってしまい、膨大な計算量が必要になる。一方、本実施の形態においては、最上位のレイヤーにおけるクラスタリングの計算量はN12のオーダーである。また、レイヤーLiからLi+1にマッピングする処理の計算量は、レイヤー間エッジの最大次数をsとすると、Ni×sのオーダーである。
Here, the amount of calculation is considered. The number of layers given is L, and the number of nodes in each layer is N1, N2,. . . , NL. If the method of the related technology is simply applied to the multi-layer and all nodes are subject to clustering, the total amount of calculation is (N1 + N2 + ... + NL) 2
Order, and a huge amount of calculation is required. On the other hand, in the present embodiment, the calculation amount of clustering in top layer is of the order of N1 2. Further, the amount of calculation for mapping from the layer Li to Li + 1 is on the order of Ni × s, where s is the maximum degree of the inter-layer edge.
通常、レイヤー数L、レイヤー間エッジの最大次数s、レイヤー内エッジの最大次数tは最上位のノード数N1よりもずっと小さい。そのため、トータルの計算量はN12のオーダーで済む。また、例えば図1 のデータに対して、さらに所属機関に関するレイヤーが追加され、それを考慮したクラスタリングを行ったとしても、計算量の増加はN12のオーダーに比べて小さく抑えることができる。 Usually, the number L of layers, the maximum order s of the edges between layers, and the maximum order t of the edges in the layer are much smaller than the number N1 of the highest nodes. Therefore, the calculation amount of total requires only N1 2 orders. Further, for example, for the data of FIG. 1, and further additional layer about institution it is, even when subjected to clustering considering it an increase in calculation amount can be reduced as compared with the order of N1 2.
なお、ここでは、説明を簡単にするため、図1のエッジはすべて同じ重みとし、エッジの本数のみでクラスタ補正を行うものとして説明したが、各エッジに重みをつけ、エッジの本数の代わりに重みの合計を使ってクラスタリング補正を行う方法も考えられ、本実施の形態で述べた方法に限定されない。 Here, in order to simplify the description, the edges in FIG. 1 are all assumed to have the same weight and the cluster correction is performed only by the number of edges. However, each edge is weighted in place of the number of edges. A method of performing clustering correction using the sum of weights is also conceivable, and is not limited to the method described in this embodiment.
また、ここでは、キーワード、論文、著者の3つの属性のレイヤーからなるレイヤーデータについて説明したが、レイヤーが複数であればよく、2レイヤーや4以上のレイヤーのレイヤーデータに対しても同様に適用可能である。例えば、図9に示すような2つのレイヤーからなるレイヤーデータの場合、レイヤーL1 内のキーワードをクラスタリングした後、マッピング処理とクラスタ補正処理によってレイヤーL2の論文のクラスタを形成し、同一トピックに関連する論文のコミュニティとして抽出することが可能である。この場合も、本実施の形態によれば、レイヤーL1およびレイヤーL2内のレイヤー内エッジ、レイヤーL1およびレイヤーL2間のレイヤー間エッジの全ての情報を考慮したクラスタリングを行うことができる。 In addition, here, the layer data consisting of the three layers of keywords, papers, and authors has been explained, but it is sufficient if there are multiple layers, and the same applies to layer data of two layers or four or more layers. Is possible. For example, in the case of layer data consisting of two layers as shown in FIG. 9, after clustering the keywords in layer L1, a cluster of layer L2 papers is formed by mapping processing and cluster correction processing, and related to the same topic It can be extracted as a community of articles. Also in this case, according to the present embodiment, it is possible to perform clustering in consideration of all information on the intra-layer edges in the layers L1 and L2 and the inter-layer edges between the layers L1 and L2.
以上、説明したように、本実施の形態では、レイヤー間エッジとレイヤー内エッジの両方を使ったクラスタリングを行う。そのため、より多くの情報を使ったきめ細かいコミュニティ(要素集団)の抽出が可能である。 As described above, in the present embodiment, clustering using both the inter-layer edge and the intra-layer edge is performed. Therefore, it is possible to extract a detailed community (element group) using more information.
また、本実施の形態では、計算量の多いクラスタリング処理は最上位のレイヤーのノードに限られている。そのため、計算量を節約でき、また、クラスタリングに使えるレイヤーが増えたとしても、計算量の増加を抑えることができる。 In the present embodiment, clustering processing with a large amount of calculation is limited to the node of the highest layer. Therefore, the amount of calculation can be saved, and even if the number of layers that can be used for clustering increases, the increase in the amount of calculation can be suppressed.
(実施の形態2)
図4は、本発明の実施の形態2に係る要素集団抽出システム100の構成例を示すブロック図である。実施の形態2の要素集団抽出システム100は、実施の形態1の構成に加えて、クラスタ補正部24を備える。クラスタ補正部24以外は、実施の形態1と同様である。
(Embodiment 2)
FIG. 4 is a block diagram showing a configuration example of the element
すなわち、レイヤー順序決定部21は、クラスタリング処理すべきレイヤーの順序を決定し、クラスタリング部22は、最上位のレイヤー内のノードのみを対象としたクラスタリングを行う。そして、マッピング部23は、i番目のレイヤーLiにおいてクラスタを構成する各ノードと、レイヤー間エッジでリンクされている1階層下のレイヤーLi+1のノード群を1つのクラスタ(要素集団)として抽出する。
That is, the layer
クラスタ補正部24は、レイヤーLi+1に形成されたクラスタについて、レイヤー内エッジの情報を元にクラスタの補正を行う。具体的には、例えば、あるクラスタから閾値α本以上エッジがリンクしている同一レイヤーのノードをそのクラスタに含める。また、あるクラスタ内のノードと閾値β本未満のエッジしかリンクしていない同一レイヤーのノードをそのクラスタから排除する。
The
図5は、実施の形態2に係る要素集団抽出システム100の動作の一例を示す流れ図である。実施の形態2の要素集団抽出システム100では、マッピング部23で、上位のレイヤーL1においてクラスタを構成する各ノードと、レイヤー間エッジでリンクされている1階層下のレイヤーL2 のノード群を1つのクラスタとしてまとめるステップ(図5のステップS13)までは、実施の形態1の動作と同様である。
FIG. 5 is a flowchart showing an example of the operation of the element
クラスタ補正部24は、レイヤーL2に形成されたクラスタC21、C22について、レイヤー内エッジの情報を元にクラスタに対するノードの追加または削除の補正処理を行う(図5のステップS14)。例えば、閾値α=2とした場合、クラスタC21={N21、N23、N24}からノードN22に3本のエッジがリンクしているので、クラスタC21はノードN22を含めてクラスタC21'={N21, N22, N23, N24}となる。また、閾値β=1とした場合、クラスタC22={N25, N26, N27, N28}内のノードN25は他のノードとリンクされていないので除外され、クラスタC22'={N26, N27, N28}が新たなクラスタとなる。さらに、排除されたノードN25は単独でクラスタC23を形成する。
The
現在のクラスタリング処理が最下層に到達していなければ(図5のステップS15;NO)、再度マッピング処理(図5のステップS13)に戻り、さらに下の層へクラスタを拡張していく。例えば、マッピング部23をレイヤーL2に適用することで、クラスタC21'={N21, N22, N23, N24}とレイヤー間エッジでリンクしているレイヤーL3上のクラスタとしてクラスタC31'={N31, N32, N33, N34, N35}が得られ、クラスタC22'={N26, N27, N28}とレイヤー間エッジでリンクしているレイヤーL3上のクラスタとしてクラスタC32'={N36, N37}が得られる。また、このレイヤーL3でクラスタ補正部24を再度適用しても(図5のステップS14)、新たに追加または削除するノードはない。ここで、クラスタリング処理が最下層に到達しているので(ステップS15;YES)、クラスタC31'={N31, N32, N33, N34, N35}とクラスタC32'={N36, N37}の2つのクラスタをコミュニティとして出力して処理を終了する。
If the current clustering process has not reached the lowest layer (step S15 in FIG. 5; NO), the process returns to the mapping process (step S13 in FIG. 5) again, and the cluster is further expanded to the lower layer. For example, by applying the
実施の形態2の計算量についても、最上位のレイヤーにおけるクラスタリングの計算量はN12のオーダーである。レイヤーLiからLi+1にマッピングする処理の計算量は、レイヤー間エッジの最大次数をsとすると、Ni×sのオーダーである。また、レイヤー Li内でクラスタ補正を行う処理の計算量は、レイヤー内エッジの最大次数をtとすると、Ni×tのオーダーである。通常、レイヤー数L、レイヤー間エッジの最大次数s、レイヤー内エッジの最大次数tは最上位のノード数N1よりもずっと小さい。そのため、トータルの計算量はN12のオーダーで済む。また、例えば図1 のデータに対して、さらに所属機関に関するレイヤーが追加され、それを考慮したクラスタリングを行ったとしても、計算量の増加はN12のオーダーに比べて小さく抑えることができる。 For even computational complexity of the second embodiment, the calculation amount of clustering in top layer is of the order of N1 2. The amount of calculation for mapping from the layer Li to Li + 1 is on the order of Ni × s, where s is the maximum degree of the edge between layers. Also, the amount of calculation for performing cluster correction in the layer Li is on the order of Ni × t, where t is the maximum degree of the edge in the layer. Usually, the number L of layers, the maximum order s of the edges between layers, and the maximum order t of the edges in the layer are much smaller than the number N1 of the highest nodes. Therefore, the calculation amount of total requires only N1 2 orders. Further, for example, for the data of FIG. 1, and further additional layer about institution it is, even when subjected to clustering considering it an increase in calculation amount can be reduced as compared with the order of N1 2.
なお、ここでは、説明を簡単にするため、図1のエッジはすべて同じ重みとし、エッジの本数のみでクラスタ補正を行うものとして説明したが、各エッジに重みをつけ、エッジの本数の代わりに重みの合計を使ってクラスタリング補正を行う方法も考えられ、本実施の形態で述べた方法に限定されない。 Here, in order to simplify the description, the edges in FIG. 1 are all assumed to have the same weight and the cluster correction is performed only by the number of edges. However, each edge is weighted in place of the number of edges. A method of performing clustering correction using the sum of weights is also conceivable, and is not limited to the method described in this embodiment.
また、ここでは、キーワード、論文、著者の3つの属性のレイヤーからなるレイヤーデータについて説明したが、レイヤーが複数であればよく、2レイヤーや4以上のレイヤーのレイヤーデータに対しても同様に適用可能である。例えば、図9に示すような2つのレイヤーからなるレイヤーデータの場合、レイヤーL1 内のキーワードをクラスタリングした後、マッピング処理とクラスタ補正処理によってレイヤーL2の論文のクラスタを形成し、同一トピックに関連する論文のコミュニティとして抽出することが可能である。この場合も、本実施の形態によれば、レイヤーL1およびレイヤーL2内のレイヤー内エッジ、レイヤーL1およびレイヤーL2間のレイヤー間エッジの全ての情報を考慮したクラスタリングを行うことができる。 In addition, here, the layer data consisting of the three layers of keywords, papers, and authors has been explained, but it is sufficient if there are multiple layers, and the same applies to layer data of two layers or four or more layers. Is possible. For example, in the case of layer data consisting of two layers as shown in FIG. 9, after clustering the keywords in layer L1, a cluster of layer L2 papers is formed by mapping processing and cluster correction processing, and related to the same topic It can be extracted as a community of articles. Also in this case, according to the present embodiment, it is possible to perform clustering in consideration of all information on the intra-layer edges in the layers L1 and L2 and the inter-layer edges between the layers L1 and L2.
本実施の形態では、下位レイヤー内のエッジ情報によって、クラスタリングを補正する。そのため、より多くの情報を使ったきめ細かいコミュニティの抽出が可能である。 In this embodiment, clustering is corrected based on edge information in the lower layer. Therefore, it is possible to extract a detailed community using more information.
(実施の形態3)
図6は、本発明の実施の形態3に係る要素集団抽出システム100の構成例を示すブロック図である。実施の形態3の要素集団抽出システム100は、実施の形態2の構成に加えて、処理装置2にランキング演算部25が追加されている点で異なる。
(Embodiment 3)
FIG. 6 is a block diagram showing a configuration example of the element
ランキング演算部25は、クラスタ補正部24によって最終的に得られたクラスタについて、レイヤー間エッジおよびレイヤー内エッジを用いて同一クラスタ内のノードの重要度に応じてランキングする。
The ranking
図7は、実施の形態3に係る要素集団抽出システム100の動作の一例を示す流れ図である。図7におけるステップS11〜S15における、レイヤー順序決定部21、クラスタリング部22、マッピング部23、クラスタ補正部24の動作は、図5に示す実施の形態2における動作と同一のため、説明は省略する。ただし、クラスタ補正部24は、図7のステップS15の後、処理が最下層に達した場合はクラスタ補正処理の結果をそのままランキング演算部25に渡すものとする。
FIG. 7 is a flowchart showing an example of the operation of the element
ランキング演算部25は、各クラスタに含まれるノードNiのスコアSC(Ni)を、各ノードから出ているレイヤー内エッジ数Ea、および、レイヤー間エッジ数Ebを元に
SC(Ni) = ρ×Ea + (1−ρ)×Eb
として求める。ここで、ρはスコア重みであり、0≦ρ≦1である。ρの値を大きくするほど、レイヤー内エッジを重視することになる。例えば、図1のマルチレイヤーネットワークをクラスタリングした結果、C31={N31, N32, N33, N34, N35}とC32={N36, N37}の2つのクラスタが得られたとする。ρ=0.8とした場合、クラスタC31={N31, N32, N33, N34, N35}の各ノードのスコアは
SC(N31) = 0.8×1 + 0.2×1 = 1.0
SC(N32) = 0.8×1 + 0.2×1 = 1.0
SC(N33) = 0.8×2 + 0.2×2 = 2.0
SC(N34) = 0.8×2 + 0.2×1 = 1.8
SC(N35) = 0.8×2 + 0.2×1 = 1.8
のように計算できる。この場合、ρの値を大きく設定するほど、人脈関係が豊富な著者を重視し、ρの値を小さく設定するほど、多くの論文を書いている著者を重視したランキングを行うことができる。
The ranking
SC (Ni) = ρ × Ea + (1−ρ) × Eb
Asking. Here, ρ is a score weight, and 0 ≦ ρ ≦ 1. The larger the value of ρ, the more important the edge in the layer. For example, it is assumed that as a result of clustering the multilayer network of FIG. 1, two clusters of C31 = {N31, N32, N33, N34, N35} and C32 = {N36, N37} are obtained. When ρ = 0.8, the score of each node of cluster C31 = {N31, N32, N33, N34, N35} is
SC (N31) = 0.8 × 1 + 0.2 × 1 = 1.0
SC (N32) = 0.8 × 1 + 0.2 × 1 = 1.0
SC (N33) = 0.8 × 2 + 0.2 × 2 = 2.0
SC (N34) = 0.8 × 2 + 0.2 × 1 = 1.8
SC (N35) = 0.8 × 2 + 0.2 × 1 = 1.8
It can be calculated as follows. In this case, the higher the value of ρ, the more important the authors who have a lot of personal relationships, and the smaller the value of ρ, the more important the authors who write articles can be ranked.
本実施の形態の要素集団抽出システム100によれば、クラスタ内の各ノードについて、レイヤー内エッジとレイヤー間エッジの両方を使ったランキングを行う。そのため、コミュニティ内で注目すべき重要な人物を発見するというようなことが可能である。
According to the element
実施の形態1ないし3では、図1のレイヤーL1を最上位の層として説明したが、例えば、レイヤーL2を最上位の層としてクラスタリングを行ってもよい。すなわち、階層構造が、木構造であると考えるのである。その場合、レイヤーL2→レイヤーL1と、レイヤーL2→レイヤーL3の2方向のマッピングを行う。そして、クラスタ補正はレイヤーL1とレイヤーL3のそれぞれで行う。最終的に知りたい対象が、レイヤーL3(著者)のクラスタであるとしても、そのクラスタがどのようなキーワードで結びつくのかを参考情報として、知ることができる。 In the first to third embodiments, the layer L1 in FIG. 1 has been described as the uppermost layer. However, for example, clustering may be performed with the layer L2 as the uppermost layer. That is, the hierarchical structure is considered to be a tree structure. In that case, the mapping in the two directions of layer L2 → layer L1 and layer L2 → layer L3 is performed. Cluster correction is performed in each of the layer L1 and the layer L3. Even if the object you want to know finally is a cluster of layer L3 (author), you can know as a reference information what keywords the cluster is connected to.
さらに、要素集合グラフの階層構造がループを含む場合もあり得る。その場合、ある階層からマッピングを始めて、どこかの階層でマッピング処理が出会うことになる。マッピング処理が出会った階層では、2つのマッピングの結果を調整してもよいし、そのまま別のものとして抽出してもよい。なお、一般にどのレイヤーを最上位とするかによって、最終的に抽出される要素集団の構成は異なる。 Furthermore, the hierarchical structure of the element set graph may include a loop. In such a case, mapping is started from a certain level and the mapping process is encountered at some level. In the hierarchy where the mapping process meets, the results of the two mappings may be adjusted, or may be extracted as they are as they are. In general, the composition of the element group finally extracted differs depending on which layer is the highest.
またさらに、要素集合グラフの階層構造が網構造(ネットワーク)の場合もあり得る。その場合、レイヤー順序決定部21では、クラスタリングを始める層とマッピング処理を行う順序を指定する。層間のエッジに向きが定義された有向グラフの場合は、マッピング処理を行う順序をエッジの向きで定まる順序としてもよい。
Furthermore, the hierarchical structure of the element set graph may be a network structure (network). In this case, the layer
なお、要素集団を抽出するのは、要素集合グラフの全体を対象としない場合もあり得る。要素集合グラフのうち、層間エッジで接続される層を選択して要素集団を抽出してもよい。その場合、レイヤー順序決定部21では、要素集団を抽出する層の選択と、選択した層のうちクラスタリングを行う層、およびマッピングを行う順序を指定する。
Note that the element group may not be extracted for the entire element set graph. An element group may be extracted by selecting a layer connected by an interlayer edge from the element set graph. In this case, the layer
図8は、図2、図4または図6に示す要素集団抽出システム100のハードウェア構成の一例を示すブロック図である。要素集団抽出システム100は、図8に示すように、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35を備える。主記憶部32、外部記憶部33、操作部34および表示部35はいずれも内部バス30を介して制御部31に接続されている。
FIG. 8 is a block diagram showing an example of a hardware configuration of the element
制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている要素集団抽出用プログラム500に従って、前述の要素集団抽出システム100の処理を実行する。
The
主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている要素集団抽出用プログラム500をロードし、制御部31の作業領域として用いられる。
The
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、前記の処理を制御部31に行わせるための要素集団抽出用プログラム500を予め記憶し、また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図2、図4または図6のレイヤーデータ記憶部11は、外部記憶部33に構成される。要素集団抽出処理を行っているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いる。
The external storage unit 33 includes a non-volatile memory such as a flash memory, a hard disk, a DVD-RAM (Digital Versatile Disc Random-Access Memory), a DVD-RW (Digital Versatile Disc ReWritable), etc. An element
操作部34はキーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス30に接続するインターフェース装置から構成されている。操作部34を介して、分析する要素集合グラフのデータと、その要素集合グラフの最上位の階層を指定する情報が入力され、制御部31に供給される。操作部34は、図2、図4または図6の入力部3に相当する。
The
表示部35は、CRT(Cathode Ray Tube)又はLCD(Liquid Crystal Display)などから構成され、要素集団抽出対象のレイヤーデータ(要素集合グラフ)、クラスタリングを行うレイヤー、要素集団抽出結果などを表示する。表示部35は、図2、図4または図6の出力部4の例である。その他、出力部4として、プリンタなどを備えてもよい。
The
その他、要素集団抽出システム100は、ネットワークに接続する送受信部(図示せず)を備えて、ネットワークを経由して要素集合グラフに関するデータを検索、収集してもよい。
In addition, the element
図2、図4または図6のレイヤー順序決定部21、クラスタリング部22、マッピング部23、クラスタ補正部24およびランキング演算部25の処理は、要素集団抽出用プログラム500が、制御部31、主記憶部32、外部記憶部33、操作部34および表示部35などを資源として用いて処理することによって実行する。
The processing of the layer
その他、本発明の好適な変形として、以下の構成が含まれる。 Other suitable modifications of the present invention include the following configurations.
本発明の第1の観点に係る要素集団抽出システムについて、好ましくは、前記ある層におけるクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタについて、該下位の層の前記層内のエッジに基づいて、その層のノードが該下位の層のクラスタに含まれるか否かを変更するクラスタ補正手段を備える。 The element group extraction system according to the first aspect of the present invention is preferably configured such that a lower layer of a cluster composed of nodes constituting a cluster in a certain layer and a node of a lower layer linked by an edge between the layers. Cluster correction means is provided for changing whether or not a node of the layer is included in a cluster of the lower layer based on an edge in the layer of the layer.
さらに、前記層内のエッジと前記層間のエッジに基づいて、前記マッピング手段で抽出した集団に含まれるノードの所定の評価値を計算するランキング手段を備えてもよい。 Furthermore, a ranking unit that calculates a predetermined evaluation value of a node included in the group extracted by the mapping unit based on the edge in the layer and the edge between the layers may be provided.
好ましくは、前記クラスタ補正手段は、
ある層におけるクラスタに含まれるノードと所定の閾値以上の値を有するエッジでリンクしているその層内のノードを、そのクラスタに追加するクラスタ追加手段、
および/または
ある層におけるクラスタに含まれるノードと所定の閾値未満の値を有するエッジでしかリンクしていないその層内のノードを、そのクラスタから除加するクラスタ除外手段、
を含む。
Preferably, the cluster correction means includes
Cluster addition means for adding a node in the layer linked to a node included in the cluster in a layer by an edge having a value equal to or greater than a predetermined threshold, to the cluster;
And / or a cluster exclusion means for adding, from the cluster, a node in the layer that is linked only with an edge having a value less than a predetermined threshold to a node included in the cluster in the layer.
including.
本発明の第2の観点に係る要素集団抽出方法について、好ましくは、前記ある層におけるクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタについて、該下位の層の前記層内のエッジに基づいて、その層のノードが該下位の層のクラスタに含まれるか否かを変更するクラスタ補正ステップを備える。 With regard to the element group extraction method according to the second aspect of the present invention, preferably, for a cluster composed of nodes constituting a cluster in the certain layer and nodes in a lower layer linked by an edge between the layers, A cluster correction step of changing whether a node of the layer is included in a cluster of the lower layer based on an edge in the layer of the layer.
さらに、前記層内のエッジと前記層間のエッジに基づいて、前記マッピングステップで抽出した集団に含まれるノードの所定の評価値を計算するランキングステップを備えてもよい。 Furthermore, a ranking step of calculating a predetermined evaluation value of a node included in the group extracted in the mapping step based on an edge in the layer and an edge between the layers may be provided.
好ましくは、前記クラスタ補正ステップは、
ある層におけるクラスタに含まれるノードと所定の閾値以上の値を有するエッジでリンクしているその層内のノードを、そのクラスタに追加するクラスタ追加ステップ、
および/または
ある層におけるクラスタに含まれるノードと所定の閾値未満の値を有するエッジでしかリンクしていないその層内のノードを、そのクラスタから除加するクラスタ除外ステップ、
を含む。
Preferably, the cluster correction step includes:
A cluster addition step of adding, to the cluster, a node in the layer linked to an edge having a value equal to or greater than a predetermined threshold with a node included in the cluster in the layer;
And / or a cluster exclusion step of adding nodes in the layer that are linked only with edges having a value less than a predetermined threshold to nodes included in the cluster in the layer from the cluster;
including.
以上、説明したように、本発明の第1の効果は、レイヤー間エッジとレイヤー内エッジの両方を使ったきめ細かいクラスタリングを行うことができることである。その理由は、マッピング手段によりレイヤー間エッジを考慮したクラスタを形成でき、さらに、クラスタ補正手段によりレイヤー内エッジを考慮してクラスタの補正が可能であるからである。 As described above, the first effect of the present invention is that fine clustering using both the inter-layer edge and the intra-layer edge can be performed. This is because the clustering means can form a cluster considering the edge between layers, and the cluster correction means can correct the cluster considering the edge in the layer.
第2の効果は、コミュニティ抽出に必要な計算量を節約でき、また、クラスタリングに使えるレイヤーが増えたとしても、計算量の増加を抑えることができることである。その理由は、計算量の多いクラスタリング処理は最上位のレイヤーのノードに限られているからである。 The second effect is that the amount of calculation required for community extraction can be saved, and even if the number of layers that can be used for clustering increases, the increase in the amount of calculation can be suppressed. The reason is that clustering processing with a large amount of calculation is limited to the node of the highest layer.
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。 In addition, the hardware configuration and the flowchart described above are merely examples, and can be arbitrarily changed and modified.
制御部31、主記憶部32、外部記憶部33、操作部34及び内部バス30などから構成される要素集団抽出システム100の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するための要素集団抽出用プログラム500を、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する要素集団抽出システム100を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで要素集団抽出システム100を構成してもよい。
The central part that performs processing of the element
また、要素集団抽出システム100の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
Further, when the function of the element
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に要素集団抽出用プログラム500を掲示し、ネットワークを介して要素集団抽出用プログラム500を配信してもよい。そして、要素集団抽出用プログラム500を起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, the element
本発明によれば、ソーシャルネットワークサービス、ブログ、論文、メーリングリスト、メールマガジンなどの様々な情報源から、同一トピックに興味を持った人間同士のコミュニティを抽出することができる。 According to the present invention, it is possible to extract a community of people who are interested in the same topic from various information sources such as social network services, blogs, papers, mailing lists, and mail magazines.
1 記憶装置
2 処理装置
3 入力部
4 出力部
11 レイヤーデータ記憶部
21 レイヤー順序決定部
22 クラスタリング部
23 マッピング部
24 クラスタ補正部
25 ランキング演算部
100 要素集団抽出システム
500 要素集団抽出用プログラム
DESCRIPTION OF
Claims (11)
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする要素集団抽出システム。 An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
Mapping means for extracting a cluster in a certain layer and a cluster composed of a node constituting the cluster and a node in a lower layer linked by an edge between the layers as one group;
An element group extraction system comprising:
ある層におけるクラスタに含まれるノードと所定の閾値以上の値を有するエッジでリンクしているその層内のノードを、そのクラスタに追加するクラスタ追加手段、
および/または
ある層におけるクラスタに含まれるノードと所定の閾値未満の値を有するエッジでしかリンクしていないその層内のノードを、そのクラスタから除加するクラスタ除外手段、
を含むことを特徴とする請求項2または3に記載の要素集団抽出システム。 The cluster correction means includes
Cluster addition means for adding a node in the layer linked to a node included in the cluster in a layer by an edge having a value equal to or greater than a predetermined threshold, to the cluster;
And / or a cluster exclusion means for adding, from the cluster, a node in the layer that is linked only with an edge having a value less than a predetermined threshold to a node included in the cluster in the layer.
The element group extraction system according to claim 2 or 3, characterized by comprising:
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定ステップと、
前記層順序決定ステップで決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリングステップと、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピングステップと、
を備えることを特徴とする要素集団抽出方法。 An element group extraction method for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. A layer order determining step for determining the order of the layers for clustering the nodes based on predetermined data in a multi-layer element set, which is a set of nodes that are distinguished from an inner edge and an edge between layers;
A clustering step of extracting a cluster for the nodes belonging to the layer to be clustered determined in the layer order determination step;
A mapping step of extracting a cluster in a certain layer, and a cluster composed of nodes constituting the cluster and nodes in a lower layer linked by an edge between the layers, as one group;
An element group extraction method comprising:
ある層におけるクラスタに含まれるノードと所定の閾値以上の値を有するエッジでリンクしているその層内のノードを、そのクラスタに追加するクラスタ追加ステップ、
および/または
ある層におけるクラスタに含まれるノードと所定の閾値未満の値を有するエッジでしかリンクしていないその層内のノードを、そのクラスタから除加するクラスタ除外ステップ、
を含むことを特徴とする請求項6または7に記載の要素集団抽出方法。 The cluster correction step includes:
A cluster addition step of adding, to the cluster, a node in the layer linked to an edge having a value equal to or greater than a predetermined threshold with a node included in the cluster in the layer;
And / or a cluster exclusion step of adding nodes in the layer that are linked only with edges having a value less than a predetermined threshold to nodes included in the cluster in the layer from the cluster;
The element group extraction method according to claim 6 or 7, characterized by comprising:
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが2以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
ある層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる下位の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段
として機能させることを特徴とするプログラム。 A program for extracting a cluster of nodes having common attributes as a group comprising:
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into two or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
It functions as a mapping means for extracting a cluster in a certain layer and a cluster composed of nodes constituting the cluster and nodes in a lower layer linked by an edge between the layers as one group. program.
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが第1の層および第2の層を含む層に分類されて、前記ノード間のエッジが前記第1または第2の層内のエッジと、前記第1と第2の層の間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う層を決定する層順序決定手段と、
前記層順序決定手段で決定されるクラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
前記クラスタリング手段で抽出したクラスタと、そのクラスタを構成するノードと前記第1と第2の層の間のエッジでリンクされるノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする要素集団抽出システム。 An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside a computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into layers including a first layer and a second layer. , Predetermined data in a multi-layer element set in which an edge between the nodes is distinguished from an edge in the first or second layer and an edge between the first and second layers A layer order determining means for determining a layer on which clustering of the nodes is performed based on:
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
Mapping means for extracting a cluster extracted by the clustering means, and a cluster constituted by nodes constituting the cluster and nodes linked by edges between the first and second layers, as one group; ,
An element group extraction system comprising:
計算機内部にデータで表現されて、要素相互の間に所定の関係であるエッジが定義されたノードの集合であって、前記ノードが3以上の層に分類されて、前記ノード間のエッジが層内のエッジと層間のエッジに区別されるノードの集合である複層要素集合において、所定のデータに基づいて前記ノードのクラスタリングを行う前記層の順序を決定する層順序決定手段と、
前記層順序決定手段で決定される前記クラスタリングを行う層に属する前記ノードを対象として、クラスタを抽出するクラスタリング手段と、
前記層間のノードが存在する任意の2つの層において、一方の層におけるクラスタと、そのクラスタを構成するノードと前記層間のエッジでリンクされる他方の層のノードから構成されるクラスタと、を1つの集団として抽出するマッピング手段と、
を備えることを特徴とする要素集団抽出システム。 An element group extraction system for extracting a cluster of nodes having common attributes as a group,
A set of nodes represented by data inside the computer and defined as edges having a predetermined relationship between elements, wherein the nodes are classified into three or more layers, and the edges between the nodes are layers. In a multi-layer element set, which is a set of nodes distinguished from an edge within and an edge between layers, layer order determining means for determining the order of the layers for clustering the nodes based on predetermined data;
Clustering means for extracting clusters for the nodes belonging to the layer to be clustered determined by the layer order determining means;
In any two layers in which the nodes between the layers exist, a cluster in one layer, and a cluster composed of the nodes constituting the cluster and the nodes of the other layer linked at the edge between the layers are 1 Mapping means to extract as one group,
An element group extraction system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008014310A JP2009176072A (en) | 2008-01-24 | 2008-01-24 | System, method and program for extracting element group |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008014310A JP2009176072A (en) | 2008-01-24 | 2008-01-24 | System, method and program for extracting element group |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009176072A true JP2009176072A (en) | 2009-08-06 |
Family
ID=41031082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008014310A Pending JP2009176072A (en) | 2008-01-24 | 2008-01-24 | System, method and program for extracting element group |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009176072A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314565A (en) * | 2010-07-02 | 2012-01-11 | 日电(中国)有限公司 | Data anonymization device and method |
US9720959B2 (en) | 2013-07-16 | 2017-08-01 | Fujitsu Limited | Data output method, computer-readable recording medium storing data output program and data output system |
US9727662B2 (en) | 2013-07-16 | 2017-08-08 | Fujitsu Limited | Data output method, computer-readable recording medium storing data output program and data output system |
JP2019040285A (en) * | 2017-08-23 | 2019-03-14 | 富士ゼロックス株式会社 | Information processing apparatus and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004505378A (en) * | 2000-07-28 | 2004-02-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Context and content based information processing for multimedia segmentation and indexing |
JP2005302043A (en) * | 2004-04-15 | 2005-10-27 | Microsoft Corp | Reinforced clustering of multi-type data object for search term suggestion |
JP2005316998A (en) * | 2004-04-15 | 2005-11-10 | Microsoft Corp | Mining service request for product support |
-
2008
- 2008-01-24 JP JP2008014310A patent/JP2009176072A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004505378A (en) * | 2000-07-28 | 2004-02-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Context and content based information processing for multimedia segmentation and indexing |
JP2005302043A (en) * | 2004-04-15 | 2005-10-27 | Microsoft Corp | Reinforced clustering of multi-type data object for search term suggestion |
JP2005316998A (en) * | 2004-04-15 | 2005-11-10 | Microsoft Corp | Mining service request for product support |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314565A (en) * | 2010-07-02 | 2012-01-11 | 日电(中国)有限公司 | Data anonymization device and method |
JP2012022315A (en) * | 2010-07-02 | 2012-02-02 | Nec (China) Co Ltd | Method and device for anonymizing data |
CN102314565B (en) * | 2010-07-02 | 2014-08-27 | 日电(中国)有限公司 | Data anonymization device and method |
US9720959B2 (en) | 2013-07-16 | 2017-08-01 | Fujitsu Limited | Data output method, computer-readable recording medium storing data output program and data output system |
US9727662B2 (en) | 2013-07-16 | 2017-08-08 | Fujitsu Limited | Data output method, computer-readable recording medium storing data output program and data output system |
JP2019040285A (en) * | 2017-08-23 | 2019-03-14 | 富士ゼロックス株式会社 | Information processing apparatus and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220035827A1 (en) | Tag selection and recommendation to a user of a content hosting service | |
Frolov et al. | Tensor methods and recommender systems | |
US7809705B2 (en) | System and method for determining web page quality using collective inference based on local and global information | |
US8825672B1 (en) | System and method for determining originality of data content | |
CN109255586B (en) | Online personalized recommendation method for e-government affairs handling | |
US10157218B2 (en) | Author disambiguation and publication assignment | |
CN107291792B (en) | Method and system for determining related entities | |
US10133807B2 (en) | Author disambiguation and publication assignment | |
AU2016225947A1 (en) | System and method for multimedia document summarization | |
CN111191466B (en) | Homonymous author disambiguation method based on network characterization and semantic characterization | |
US9760622B2 (en) | System and method for computerized batching of huge populations of electronic documents | |
Kalaivani et al. | Feature reduction based on genetic algorithm and hybrid model for opinion mining | |
Zul et al. | Social media sentiment analysis using K-means and naïve bayes algorithm | |
US20120046937A1 (en) | Semantic classification of variable data campaign information | |
US11308146B2 (en) | Content fragments aligned to content criteria | |
CN101639837A (en) | Method and system for automatically classifying objects | |
Tran et al. | Hetegraph: graph learning in recommender systems via graph convolutional networks | |
Li et al. | Heterogeneous graph embedding for cross-domain recommendation through adversarial learning | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
JP2009176072A (en) | System, method and program for extracting element group | |
JP2010182267A (en) | Content classification apparatus, content classification method, and program | |
US11886809B1 (en) | Identifying templates based on fonts | |
Camastra et al. | Semantic maps for knowledge management of web and social information | |
Park et al. | Document classification model using Web documents for balancing training corpus size per category | |
US8819023B1 (en) | Thematic clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130205 |