JP4931114B2 - Data display device, data display method, and data display program - Google Patents

Data display device, data display method, and data display program Download PDF

Info

Publication number
JP4931114B2
JP4931114B2 JP2006178922A JP2006178922A JP4931114B2 JP 4931114 B2 JP4931114 B2 JP 4931114B2 JP 2006178922 A JP2006178922 A JP 2006178922A JP 2006178922 A JP2006178922 A JP 2006178922A JP 4931114 B2 JP4931114 B2 JP 4931114B2
Authority
JP
Japan
Prior art keywords
document
keyword
cluster
keywords
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006178922A
Other languages
Japanese (ja)
Other versions
JP2008009671A (en
Inventor
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2006178922A priority Critical patent/JP4931114B2/en
Publication of JP2008009671A publication Critical patent/JP2008009671A/en
Application granted granted Critical
Publication of JP4931114B2 publication Critical patent/JP4931114B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ表示技術に関し、特に、文書の大凡の内容を一見して把握できるような表示を行うデータ表示装置、データ表示方法及びデータ表示プログラムに関する。   The present invention relates to a data display technique, and more particularly, to a data display device, a data display method, and a data display program for performing display so that the general contents of a document can be grasped at a glance.

従来から、文書中に含まれるキーワードの頻度を算出し、算出された頻度を表示する技術は存在した。   Conventionally, there has been a technique for calculating the frequency of keywords included in a document and displaying the calculated frequency.

また、例えば、データを表形式で表示する技術について、下記の非特許文献1に記載されている。
知りたい操作がすぐわかる 標準 Excel全機能Bible 2003,村田吉徳著,技術評論社,2004.2.1発行
Further, for example, a technique for displaying data in a tabular format is described in Non-Patent Document 1 below.
Standard Excel all functions Bible 2003, Yoshinori Murata, Technical Review, 2004.2.1 published

しかし、上記従来技術は、文書群中に含まれるキーワードをキーワード群(クラスター)毎にクラスタリングし、当該クラスターに属するキーワードのうちの文書群を構成する文書に含まれるキーワード、又は、各文書中における当該クラスターに属するキーワードの有無を示す情報を、当該各文書と当該クラスターとに対応付けて画面表示することを行っていない。   However, the above-described conventional technique clusters keywords included in a document group for each keyword group (cluster), and includes keywords included in a document constituting the document group among keywords belonging to the cluster, or in each document. Information indicating the presence or absence of a keyword belonging to the cluster is not displayed on the screen in association with the document and the cluster.

従って、従来技術では、画面表示された各文書データが含むキーワードを参照して、当該文書データを持つ文書の大凡の内容を一見して把握することは困難である。   Therefore, with the conventional technology, it is difficult to grasp at a glance the general contents of a document having the document data by referring to the keyword included in each document data displayed on the screen.

本発明は、文書の大凡の内容を一見して把握できるような表示を行うデータ表示装置、データ表示方法及びデータ表示プログラムの提供を目的とする。   It is an object of the present invention to provide a data display device, a data display method, and a data display program for performing display so that the general contents of a document can be grasped at a glance.

本発明のデータ表示装置は、複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と、前記抽出されたキーワードを各キーワードが属するクラスターにクラスタリングするクラスタリング手段と、前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記各文書と前記クラスターとに対応付けて画面表示する表示手段とを備える。   The data display apparatus according to the present invention includes a keyword extraction unit that extracts a keyword included in a document group composed of a plurality of documents, a clustering unit that clusters the extracted keyword into a cluster to which each keyword belongs, and the cluster Among the keywords belonging to, the keywords included in the documents constituting the document group or the information indicating the presence or absence of the keywords belonging to the cluster in each document are displayed on the screen in association with the respective documents and the clusters. Display means.

好ましくは、本発明のデータ表示装置において、前記クラスタリング手段は、前記各キーワードのベクトル空間上の位置を示す位置ベクトルを生成し、生成された前記位置ベクトルが示す前記各キーワードの位置情報に基づいて、前記各キーワードが属するクラスターを決定する。   Preferably, in the data display device of the present invention, the clustering unit generates a position vector indicating a position of each keyword in a vector space, and based on the position information of each keyword indicated by the generated position vector. The cluster to which each keyword belongs is determined.

好ましくは、本発明のデータ表示装置において、前記表示手段は、予め定められた順序に基づいて、前記各クラスターを並び替えて画面表示する。   Preferably, in the data display device of the present invention, the display means rearranges the clusters and displays the screen based on a predetermined order.

好ましくは、本発明のデータ表示装置において、前記表示手段は、各クラスターに属するキーワード又は前記各クラスターに属するキーワードが出現する文書の分布に基づいて、前記各クラスターを並び替えて画面表示する。   Preferably, in the data display device of the present invention, the display means rearranges the clusters and displays the screens based on the distribution of documents in which the keywords belonging to the clusters or the keywords belonging to the clusters appear.

好ましくは、本発明のデータ表示装置において、表示手段は、各クラスターに属するキーワードが出現する文書数について昇順又は降順に前記各クラスターを並び替えて画面表示する。   Preferably, in the data display device of the present invention, the display means rearranges the clusters and displays the screens in ascending or descending order with respect to the number of documents in which the keywords belonging to the clusters appear.

好ましくは、本発明のデータ表示装置において、前記クラスタリング手段は、前記各キーワードの位置ベクトルの平均を前記各キーワードが属するクラスターの位置ベクトルとし、各クラスターの位置ベクトルに基づいて、クラスター同士の距離を求め、求めた距離が近いクラスター同士が近い位置に並び、求めた距離が遠いクラスター同士が離れた位置に並ぶように、前記各クラスターを並び替え、前記表示手段は、前記並び替えられた各クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記並び替えられた各クラスターに属するキーワードの有無を示す情報を、前記各文書と前記並び替えられた各クラスターとに対応付けて画面表示する。   Preferably, in the data display device of the present invention, the clustering means uses an average of the position vectors of the keywords as the position vector of the cluster to which the keywords belong, and calculates the distance between the clusters based on the position vectors of the clusters. The obtained clusters are arranged so that the clusters having a short distance are arranged in a close position, and the clusters having a long distance are arranged in a separated position, and the display means arranges each of the rearranged clusters. Information indicating whether or not there is a keyword included in a document that constitutes the document group of keywords belonging to or a keyword belonging to each of the sorted clusters in each document, and the sorted documents The screen is displayed in association with each cluster.

好ましくは、本発明のデータ表示装置において、前記クラスタリング手段は、ベクトル空間上に並んで配置された複数の基準の位置ベクトルを予め定義し、前記各クラスターの位置ベクトルを、前記各クラスターの位置ベクトルとの距離が最も近い基準の位置ベクトルの近くに配置することにより、前記各クラスターを並び替える。   Preferably, in the data display device of the present invention, the clustering means predefines a plurality of reference position vectors arranged side by side in a vector space, and the position vector of each cluster is represented by the position vector of each cluster. The clusters are rearranged by being arranged near the reference position vector having the closest distance to.

好ましくは、本発明のデータ表示装置において、前記クラスタリング手段は、前記各文書がどのクラスターのどの単語を何個含んでいるかの情報を求め、求めた情報に基づいて、前記各文書のベクトル空間上の位置を示す位置ベクトルを求め、求めた前記各文書の位置ベクトルに基づいて、文書同士の距離を求め、求めた距離が近い文書同士が近い位置に並び、求めた距離が遠い文書同士が離れた位置に並ぶように、各文書を並び替える。   Preferably, in the data display device of the present invention, the clustering unit obtains information on which words in which clusters each document includes and how many words, and on the vector space of each document based on the obtained information. The position vector indicating the position of the document is obtained, the distance between the documents is obtained based on the obtained position vector of each document, the documents having the short distance are arranged at close positions, and the documents having the long distance are separated from each other. Rearrange each document so that it is lined up.

好ましくは、本発明のデータ表示装置において、前記表示手段は、並ぶ順序がより上位のクラスターに属するキーワードを含む文書の順に、前記文書に含まれるキーワード、又は、前記文書中における前記クラスターに属するキーワードの有無を示す情報を画面表示する。   Preferably, in the data display device of the present invention, the display means includes a keyword included in the document or a keyword belonging to the cluster in the document in order of a document including a keyword belonging to a higher-order cluster. The information indicating the presence or absence of is displayed on the screen.

好ましくは、本発明のデータ表示装置において、前記表示手段は、前記クラスタリング手段によってクラスタリングされたクラスターを選択し、選択されたクラスターに対応付けて、前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を画面表示する。   Preferably, in the data display device of the present invention, the display unit selects a cluster clustered by the clustering unit, and configures the document group of keywords belonging to the cluster in association with the selected cluster. Information indicating whether or not there is a keyword included in the document to be processed or a keyword belonging to the cluster in each document is displayed on the screen.

好ましくは、本発明のデータ表示装置において、前記クラスタリング手段は、前記各キーワードのベクトル空間上の位置を示す位置ベクトルを生成し、生成された前記位置ベクトルが示す前記各キーワードの位置情報に基づいて、キーワード同士の距離を求め、求めた距離が近いキーワード同士が近い位置に並び、求めた距離が遠いキーワード同士が離れた位置に並ぶように、各キーワードを並び替え、前記表示手段は、並び替えられたキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記並び替えられたキーワードの有無を示す情報を、前記各文書に対応付けて画面表示する。   Preferably, in the data display device of the present invention, the clustering unit generates a position vector indicating a position of each keyword in a vector space, and based on the position information of each keyword indicated by the generated position vector. The keywords are rearranged so that the keywords whose distances are close to each other are arranged at close positions, and the keywords whose distant distances are found are arranged at positions apart from each other, and the display means Among the keywords, the keywords included in the documents constituting the document group or information indicating the presence / absence of the rearranged keywords in each document is displayed on the screen in association with each document.

好ましくは、本発明のデータ表示装置において、前記表示手段は、各クラスターを画面上に並ばせる順序を選択し、前記選択された順序がより上位のクラスターに属するキーワードを含む文書の順に、前記文書に含まれるキーワード、又は、前記文書中における前記クラスターに属するキーワードの有無を示す情報を画面表示する。   Preferably, in the data display device according to the present invention, the display means selects an order in which the clusters are arranged on the screen, and the documents are arranged in the order of documents including keywords that belong to a higher cluster. Is displayed on the screen, or information indicating the presence or absence of a keyword belonging to the cluster in the document.

また、本発明のデータ表示装置は、複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と、前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、前記各キーワードを前記各キーワードが属するクラスターにクラスタリングするクラスタリング手段と、前記算出された頻度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするデータソート手段と、前記データソート手段によってソートされた文書データに対応付けて、前記クラスターに属するキーワードのうち前記ソートされた文書データを持つ文書が含むキーワードを、前記クラスター毎に画面表示する表示手段とを備える。   Further, the data display device of the present invention calculates a keyword extracting means for extracting a keyword included in a document group composed of a plurality of documents, and a frequency at which each of the extracted keywords appears in the document group. Sorting the document data of the documents constituting the document group in the order of the clustering means for clustering the keywords into clusters to which the keywords belong, and the documents including the keywords with the higher calculated frequencies. A data sorting means for displaying the keywords included in the documents having the sorted document data among the keywords belonging to the cluster in association with the document data sorted by the data sorting means for each cluster. Means.

好ましくは、本発明のデータ表示装置において、前記データソート手段は、さらに、前記クラスターを前記クラスターに属するキーワードの数について降順又は昇順にソートする。   Preferably, in the data display device of the present invention, the data sorting means further sorts the clusters in descending order or ascending order with respect to the number of keywords belonging to the clusters.

また、本発明のデータ表示方法は、複数の文書から構成される文書群中に含まれるキーワードを抽出し、前記各キーワードを前記各キーワードが属するクラスターにクラスタリングし、前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記クラスター毎に画面表示する。   Further, the data display method of the present invention extracts keywords included in a document group composed of a plurality of documents, clusters the keywords into clusters to which the keywords belong, Information indicating the presence or absence of a keyword included in a document constituting the document group or a keyword belonging to the cluster in each document is displayed on the screen for each cluster.

また、本発明のデータ表示プログラムは、コンピュータに、複数の文書から構成される文書群中に含まれるキーワードを抽出する処理と、前記各キーワードを前記各キーワードが属するクラスターにクラスタリングする処理と、前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記クラスター毎に画面表示する処理とを実行させる。   Further, the data display program of the present invention includes a computer for extracting a keyword included in a document group composed of a plurality of documents, a process for clustering each keyword into a cluster to which each keyword belongs, Processing for displaying a keyword included in a document constituting the document group among keywords belonging to a cluster or information indicating the presence or absence of a keyword belonging to the cluster in each document for each cluster is executed.

本発明のデータ表示装置、データ表示方法及びデータ表示プログラムは、複数の文書から構成される文書群中に含まれるキーワードを抽出し、上記各キーワードを上記各キーワードが属するクラスターにクラスタリングし、当該クラスターに属するキーワードのうちの上記文書群を構成する文書に含まれるキーワード、又は、各文書中における当該クラスターに属するキーワードの有無を示す情報を、当該各文書と当該クラスターとに対応付けて画面表示する。従って、本発明によれば、文書の大凡の内容を一見して把握できるような表示を行うことが可能となる。   A data display device, a data display method, and a data display program of the present invention extract keywords included in a document group composed of a plurality of documents, cluster the keywords into clusters to which the keywords belong, Among the keywords belonging to, the keywords included in the documents constituting the document group or the information indicating the presence or absence of the keywords belonging to the cluster in each document are displayed on the screen in association with each document and the cluster. . Therefore, according to the present invention, it is possible to display such that the general contents of the document can be grasped at a glance.

以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明のシステム構成の一例を示す図である。データ表示装置1は、文書群中の文書の文書データをソートして画面表示する処理装置である。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an example of a system configuration of the present invention. The data display device 1 is a processing device that sorts document data of documents in a document group and displays them on a screen.

データ表示装置1は、キーワード抽出部11、頻度算出部12、クラスタリング部13、データソート部14、表示部15、クラスターソート指定部16、書誌データデータベース(DB)17を備える。   The data display device 1 includes a keyword extraction unit 11, a frequency calculation unit 12, a clustering unit 13, a data sort unit 14, a display unit 15, a cluster sort designation unit 16, and a bibliographic data database (DB) 17.

キーワード抽出部11は、書誌データDB17に蓄積されている文書群に含まれるキーワードを抽出する。キーワード抽出部11によるキーワードの抽出手法については、後述する。   The keyword extraction unit 11 extracts keywords included in the document group stored in the bibliographic data DB 17. A keyword extraction method by the keyword extraction unit 11 will be described later.

頻度算出部12は、キーワード抽出部11によって抽出された各キーワードの、書誌データDB17に蓄積されている文書群中に出現した頻度を算出する。ここで、キーワードの頻度とは、例えば、キーワードが出現する文書の数を意味する。例えば、キーワード「本塁打記録」を含む文書数が20である場合には、算出されるキーワード「本塁打記録」の頻度は20である。また、本発明の実施の形態においては、文書群でのキーワードの出現回数をキーワードの頻度とする構成を採ることもできる。   The frequency calculation unit 12 calculates the frequency at which each keyword extracted by the keyword extraction unit 11 appears in the document group stored in the bibliographic data DB 17. Here, the keyword frequency means, for example, the number of documents in which the keyword appears. For example, when the number of documents including the keyword “home run record” is 20, the frequency of the calculated keyword “home run record” is 20. Further, in the embodiment of the present invention, it is possible to adopt a configuration in which the frequency of keywords appears in the document group.

クラスタリング部13は、キーワード抽出部11によって抽出されたキーワードを、1又は複数のクラスターにクラスタリング(分類)する。ここで、クラスターとは、1又は複数のキーワードで構成されるキーワード群である。クラスタリング部13は、例えば、後述するように、各キーワードの位置(ベクトル空間における位置)を示すベクトル(位置ベクトル)を生成する。そして、クラスタリング部13は、生成されたベクトルが示す各キーワードの位置情報に基づいて、各キーワードが属するクラスターを決定する。例えば、キーワード「リーグ」、「米大リーグ」、「大リーグ」をあるクラスターに属するキーワードとしてクラスタリングし、キーワード「試合」、「チーム」、「スタジアム」を、他のクラスターに属するキーワードとしてクラスタリングする。   The clustering unit 13 clusters (classifies) the keywords extracted by the keyword extracting unit 11 into one or a plurality of clusters. Here, a cluster is a keyword group composed of one or a plurality of keywords. For example, as described later, the clustering unit 13 generates a vector (position vector) indicating the position (position in the vector space) of each keyword. And the clustering part 13 determines the cluster to which each keyword belongs based on the positional information on each keyword which the produced | generated vector shows. For example, the keywords “league”, “US major league”, “major league” are clustered as keywords belonging to one cluster, and the keywords “game”, “team”, “stadium” are clustered as keywords belonging to another cluster. .

データソート部14は、書誌データDB17に蓄積されている文書から、文書データ(例えば、文書中のテキストデータ、文書のタイトル、著者名等)を抽出し、抽出した文書データをソートする。   The data sorting unit 14 extracts document data (for example, text data in the document, document title, author name, etc.) from the document stored in the bibliographic data DB 17 and sorts the extracted document data.

すなわち、データソート部14は、まず、抽出した文書データを図示しないバッファ中に格納する。そして、データソート部14は、頻度算出部12によって算出された各キーワードの頻度がより高いキーワードを多く含む文書の順に、上記バッファ中に格納された文書の文書データをソートする。データソート部14は、後述するクラスターソート指定部16によって指示された、各クラスター(キーワード群)のソート内容に従って、各クラスターをソートするようにしてもよい。   That is, the data sorting unit 14 first stores the extracted document data in a buffer (not shown). Then, the data sorting unit 14 sorts the document data of the documents stored in the buffer in the order of documents including many keywords having a higher frequency of each keyword calculated by the frequency calculating unit 12. The data sort unit 14 may sort each cluster according to the sort contents of each cluster (keyword group) designated by the cluster sort designation unit 16 described later.

なお、本発明の一実施形態によれば、データソート部14は、書誌データDB17から抽出した各文書から各文書に関連する日付(例えば、発行日)のデータを抽出し、文書データ(例えば、文書のテキストデータ、文書のタイトル、著者名等)を日付について降順又は昇順にソートする構成を採ってもよい。   According to an embodiment of the present invention, the data sorting unit 14 extracts data on dates (for example, issue dates) associated with each document from each document extracted from the bibliographic data DB 17, and document data (for example, Document text data, document title, author name, etc.) may be sorted in descending or ascending order with respect to date.

表示部15は、データソート部14によってソートされた文書データに対応付けて、上記クラスター中のキーワードのうち当該ソートされた文書データを持つ文書が含むキーワードを、クラスター毎に画面表示する。表示部15は、データソート部14によってソートされた文書データに対応付けて、データソート部14によってソートされたクラスター中のキーワードのうち当該ソートされた文書データを持つ文書が含むキーワードを、データソート部14によってソートされた各クラスター毎に画面表示するようにしてもよい。   The display unit 15 displays the keyword included in the document having the sorted document data among the keywords in the cluster in association with the document data sorted by the data sorting unit 14 for each cluster. The display unit 15 sorts the keywords included in the document having the sorted document data among the keywords in the cluster sorted by the data sorting unit 14 in association with the document data sorted by the data sorting unit 14. The screen may be displayed for each cluster sorted by the unit 14.

クラスターソート指定部16は、データソート部14による各クラスターのソート内容を指定する。例えば、クラスターソート指定部16は、各クラスターを、クラスター中のキーワードの数について降順にソートすることを指示する制御情報をデータソート部14に対して送出する。クラスターソート指定部16は、各クラスターを、クラスター中のキーワードの数について昇順にソートすることを指示する制御情報をデータソート部14に対して送出するようにしてもよい。また、クラスターソート指定部16は、例えば、後述する各クラスター間の距離に基づいて各クラスターをソートすることを指示する制御情報をデータソート部14に対して送出するようにしてもよい。例えば、クラスターソート指定部16は、後述する各クラスター間の距離が近いクラスター同士が直線上に結合するように各クラスターをソートすることを指示する制御情報をデータソート部14に対して送出する。当該制御情報を受けたデータソート部14は、例えば、距離が最も近いクラスター同士をまず結合し、結合したクラスターによって構成される、複数のクラスター群を作成する。そして、データソート部14は、例えば、あるクラスター群におけるクラスターのいずれかと距離が最も近い他のクラスター群のクラスターを、当該距離が最も近いクラスターと結合する処理を繰り返して、クラスターを直線上に結合する。   The cluster sort designation unit 16 designates the sort contents of each cluster by the data sort unit 14. For example, the cluster sort specification unit 16 sends control information that instructs to sort each cluster in descending order with respect to the number of keywords in the cluster, to the data sort unit 14. The cluster sort designation unit 16 may send control information to the data sort unit 14 instructing to sort each cluster in ascending order with respect to the number of keywords in the cluster. Further, the cluster sort specifying unit 16 may send control information for instructing sorting of the clusters based on the distance between the clusters, which will be described later, to the data sorting unit 14, for example. For example, the cluster sort specifying unit 16 sends control information for instructing sorting of the clusters so that the clusters having short distances between the clusters, which will be described later, are combined on a straight line, to the data sorting unit 14. The data sorting unit 14 that has received the control information first joins clusters having the shortest distance, and creates a plurality of cluster groups configured by the joined clusters. Then, for example, the data sorting unit 14 repeats the process of combining the cluster of the other cluster group having the closest distance to one of the clusters in the cluster group with the cluster having the closest distance, thereby combining the clusters on a straight line. To do.

書誌データDB17には、大量の文書(書誌データ)が蓄積されている。   A large amount of documents (bibliographic data) are accumulated in the bibliographic data DB 17.

本発明の一実施形態によれば、頻度算出部12は、キーワード抽出部11が抽出した各キーワードについて算出した頻度と、各キーワードの文字数とに基づいて、各キーワードのスコアを算出するようにしてもよい。各キーワードのスコアは、例えば、各キーワードの文字数に頻度を乗じた値として算出される。   According to one embodiment of the present invention, the frequency calculation unit 12 calculates the score of each keyword based on the frequency calculated for each keyword extracted by the keyword extraction unit 11 and the number of characters of each keyword. Also good. The score of each keyword is calculated as, for example, a value obtained by multiplying the number of characters of each keyword by the frequency.

本発明の実施の形態においては、頻度算出部12が、キーワード抽出部11によって抽出された各キーワードの文字数を用いずに、各キーワードについて算出された頻度に基づいて、所定の計算式を用いて、各キーワードのスコアを算出する構成を採ってもよい。   In the embodiment of the present invention, the frequency calculation unit 12 uses a predetermined calculation formula based on the frequency calculated for each keyword without using the number of characters of each keyword extracted by the keyword extraction unit 11. A configuration may be adopted in which the score of each keyword is calculated.

例えば、頻度算出部12は、以下に示すような、TF/IDF法を用いたスコアの算出方法又はOkapiのウェイティング法を用いて、各キーワードのスコアを算出する。   For example, the frequency calculation unit 12 calculates the score of each keyword using a score calculation method using the TF / IDF method or an Okapi weighting method as described below.

(TF/IDF法を用いたスコアの算出方法)
一般に、重要なキーワードを含む文書の検索には、主にTF/IDF法が用いられる。ここで、TFとは、一般に、ある文書でのあるキーワードの出現回数を意味し、IDFとは、一般に、予め用意された多数の文書のうち、上記キーワードが出現する文書数の逆数を意味する。
(Score calculation method using TF / IDF method)
In general, the TF / IDF method is mainly used for searching for documents containing important keywords. Here, TF generally means the number of occurrences of a keyword in a document, and IDF generally means the reciprocal of the number of documents in which the keyword appears among a number of documents prepared in advance. .

一般に、TF/IDF法では、以下の式で算出されるScore(D)が高い文書を検索結果として出力する。   In general, in the TF / IDF method, a document having a high Score (D) calculated by the following formula is output as a search result.

Score(D)=Σ(tf(w,D)×log(N/df(w)))
上記の式において、wは、ユーザが入力するキーワード、Σは、tf(w,D)×log(N/df(w))をw∈Wで加算することを意味する。また、tf(w,D)は、文書Dでのwの出現回数であり、df(w)は、全文書においてwが出現した文書の数であり、Nは、文書の総数である。
Score (D) = Σ (tf (w, D) × log (N / df (w)))
In the above formula, w is a keyword input by the user, and Σ means that tf (w, D) × log (N / df (w)) is added by w∈W. Tf (w, D) is the number of occurrences of w in the document D, df (w) is the number of documents in which w appears in all documents, and N is the total number of documents.

TF/IDF法の本発明への適用に当たっては、例えば、上記文書Dを、書誌データDB17に蓄積されている文書群として、tf(w,D)を算出する。また、例えば、書誌データDB17とは別のデータベース(図示を省略)に蓄積されている大量の文書群を、上記df(w)の意味の説明において記述した「全文書」として、df(w)を算出する。   In applying the TF / IDF method to the present invention, for example, tf (w, D) is calculated using the document D as a document group stored in the bibliographic data DB 17. In addition, for example, a large number of documents stored in a database (not shown) different from the bibliographic data DB 17 is defined as “all documents” described in the description of the meaning of df (w) as df (w). Is calculated.

そして、算出されたtf(w,D)とlog(N/df(w))との積を、各キーワードwのスコアとして算出する。   Then, the product of the calculated tf (w, D) and log (N / df (w)) is calculated as the score of each keyword w.

(Okapiのウェイティング法を用いたスコアの算出方法)
一般に、Okapiのウェイティング法(下記の文献(1)参照)では、以下の式で算出されるScore(D)が高い文書を検索結果として出力する。
(Score calculation method using Okapi's weighting method)
In general, in the Okapi weighting method (see the following document (1)), a document having a high Score (D) calculated by the following equation is output as a search result.

文献(1):村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均,位置情報と分野情報を用いた情報検索,自然言語処理(言語処理学会誌),2000年4月,7巻,2号,p.141〜p.160   Reference (1): Masaki Murata, Mao, Kiyotaka Uchimoto, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara, Information Retrieval using Location Information and Field Information, Natural Language Processing (Journal of the Language Processing Society), April 2000 , Vol. 7, No. 2, p. 141-p. 160

Figure 0004931114
Figure 0004931114

ここで、wは、ユーザが入力するキーワード、Wは、ユーザが入力するキーワードの集合を意味する。また、tf(w,D)は、文書Dでのwの出現回数であり、df(w)は、全文書においてwが出現した文書の数であり、Nは、文書の総数である。また、length(D)は、文書Dの長さ(文字列単位)である。Δは、全文書における文書の長さの平均である。   Here, w is a keyword input by the user, and W is a set of keywords input by the user. Tf (w, D) is the number of occurrences of w in the document D, df (w) is the number of documents in which w appears in all documents, and N is the total number of documents. Also, length (D) is the length of document D (character string unit). Δ is the average of the document lengths in all documents.

Okapiのウェイティング法の本発明への適用に当たっては、例えば、上記文書Dを、書誌データDB17に蓄積されている文書群として、   In applying Okapi's weighting method to the present invention, for example, the document D is set as a document group stored in the bibliographic data DB 17.

Figure 0004931114
Figure 0004931114

を算出する。算出された値をtf項とする。 Is calculated. Let the calculated value be the term tf.

また、例えば、書誌データDB17とは別のデータベース(図示を省略)に蓄積されている大量の文書群を、上記df(w)の意味の説明において記述した「全文書」として、log(N/df(w))を算出する。算出されたlog(N/df(w))をidf項とする。そして、算出されたtf項とidf項との積を、各キーワードwのスコアとして算出する。   Further, for example, a large group of documents stored in a database (not shown) different from the bibliographic data DB 17 is log (N / N) as “all documents” described in the explanation of the meaning of df (w). df (w)) is calculated. The calculated log (N / df (w)) is defined as an idf term. Then, the product of the calculated tf term and idf term is calculated as the score of each keyword w.

また、本発明の一実施形態によれば、データソート部14は、頻度算出部12によって算出された各キーワードのスコアがより高いキーワードを多く含む文書の順に、各文書の文書データをソートするようにしてもよい。   In addition, according to the embodiment of the present invention, the data sorting unit 14 sorts the document data of each document in the order of the document including many keywords having a higher score of each keyword calculated by the frequency calculating unit 12. It may be.

次に、クラスタリング部13による、キーワードのクラスタリング処理について具体的に説明する。クラスタリングには、以下に示すような様々な方法がある。
(階層クラスタリング(ボトムアップクラスタリング) による方法)
距離が最も近い成員同士を結合していき、クラスターを作る。そして、距離が最も近いクラスター同士を結合する。成員とは、クラスタリングの対象となるキーワード(単語)であって、あるクラスターに属するキーワード(単語)である。クラスター間の距離の定義は様々ある。例えば、クラスターAとクラスターBとの距離を、クラスターAの成員(すなわち、クラスターAに属するキーワード)とクラスターBの成員(すなわち、クラスターBに属するキーワード)との距離の中で最も小さいものとしてもよい。ここで、成員と成員との距離とは、ベクトルで表現される後述する成員の位置間の距離である。また、例えば、クラスターAとクラスターBとの距離を、クラスターAの成員とクラスターBの成員との距離の中で最も大きいものとしてもよい。また、例えば、クラスターAとクラスターBとの距離を、全てのクラスターAの成員とクラスターBの成員との距離の平均としてもよい。また、全てのクラスターAの成員の位置の平均をクラスターAの位置とし、全てのクラスターBの成員の位置の平均をクラスターBの位置とし、当該クラスターAの位置とクラスターBの位置との距離をクラスターAとクラスターBとの距離としてもよい。
Next, keyword clustering processing by the clustering unit 13 will be described in detail. There are various methods for clustering as shown below.
(Method using hierarchical clustering (bottom-up clustering))
Join members with the shortest distance to create a cluster. Then, the clusters having the shortest distance are combined. A member is a keyword (word) to be clustered and belongs to a certain cluster. There are various definitions of the distance between clusters. For example, the distance between cluster A and cluster B may be the smallest of the distances between members of cluster A (ie, keywords belonging to cluster A) and members of cluster B (ie, keywords belonging to cluster B). Good. Here, the distance between the members is a distance between the positions of the members described later represented by a vector. For example, the distance between cluster A and cluster B may be the largest of the distances between members of cluster A and cluster B. Further, for example, the distance between the cluster A and the cluster B may be an average of the distances between all the members of the cluster A and the members of the cluster B. Also, the average of the positions of all the members of cluster A is the position of cluster A, the average of the positions of all the members of cluster B is the position of cluster B, and the distance between the position of cluster A and the position of cluster B is It may be the distance between cluster A and cluster B.

(ウォード法による方法)
以下に示すWを定義する。
W = ΣΣ(x(i,j)−ave_x(i))^2
^は指数を意味する。例えば、上記の式における1つ目のΣは、i=1からi=gまでの加算、2つ目のΣは、j=1からj=niまでの加算を意味する。また、x(i,j)は、i番目のクラスターのj番目の成員の位置、ave_x(i)は、i番目のクラスターの全ての成員の位置の平均を意味する。クラスター同士を結合していくと、Wの値が増加するが、ウォード法では、Wの値がなるべく大きくならないようにクラスター同士を結合していく。
(Method by Ward method)
The following W is defined.
W = ΣΣ (x (i, j) −ave_x (i)) ^ 2
^ Means exponent. For example, the first Σ in the above equation means the addition from i = 1 to i = g, and the second Σ means the addition from j = 1 to j = ni. Further, x (i, j) means the position of the j-th member of the i-th cluster, and ave_x (i) means the average of the positions of all the members of the i-th cluster. When the clusters are joined together, the value of W increases, but in the Ward method, the clusters are joined together so that the value of W does not become as large as possible.

(クラスタリングの終了条件)
予めクラスターの個数を決めておいて、クラスターの個数が当該予め決められた数になったときに、クラスター同士を結合するのをやめるようにしてもよい。また、予め距離の閾値を決めておいて、その閾値数以上離れているクラスター同士を結合するのをやめるようにしてもよい。
(Ending condition for clustering)
The number of clusters may be determined in advance, and when the number of clusters reaches the predetermined number, it is possible to stop joining the clusters. Alternatively, a distance threshold may be determined in advance, and it may be possible to stop joining clusters that are more than the threshold number.

(各成員の位置)
各成員(単語)の位置は、後述するように、各成員に関する種々の情報(例えば、各成員の属性情報)を用いて求める。上記各成員に関する種々の情報に基づいて、ベクトルの次元を決定する。そして、各成員に関する種々の情報に基づいて、上記決定された次元を持つベクトルの要素の値を求めてベクトル(位置ベクトル)を生成する。生成したベクトルは、各成員の位置を示している。各成員(単語)に関する種々の情報としては、例えば、以下に示すものがある。
・単語に含まれる文字の種類(例えば、ひらがな、カタカナ、漢字、それ以外が、それぞれあるかないか)
・単語の長さ
・単語の語義
・単語の共起語
・単語の共起データ
(1)単語に含まれる文字の種類(例えば、ひらがな、カタカナ、漢字、それ以外が、それぞれあるかないか)
例えば、ある成員の文字の種類を表すために、ひらがなのみからなる単語か否か、カタカナのみからなる単語か否か、漢字のみからなる単語か否か、ひらがなのみ、又は、カタカナのみ、又は、漢字のみからなる単語以外の単語か否かという、4次元のベクトルの要素を用意(例えば、設定)し、当該ベクトルの要素に設定される値(例えば、1又は0)によって決まるベクトルを作成する。成員がひらがなのみからなる単語に該当すれば1の値を、該当しなければ0の値を対応するベクトルの要素に設定する。また、成員がカタカナのみからなる単語に該当すれば1の値を、該当しなければ0の値を対応するベクトルの要素に設定する。また、成員が漢字のみからなる単語に該当すれば1の値を、該当しなければ0の値を対応するベクトルの要素に設定する。また、成員がひらがなのみ、又は、カタカナのみ、又は、漢字のみからなる単語以外の単語に該当すれば1の値を、該当しなければ0の値を対応するベクトルの要素に設定する。
(2)単語の長さ
例えば、1次元のベクトルの要素を用意し、成員(単語)の文字の個数をカウントし、カウントされた成員(単語)の文字の個数を当該ベクトルの要素に設定して、単語の長さの情報を表現してもよい。
(3)単語の語義
例えば、予め記憶手段内に記憶された、以下のような分類語彙表を用意する。
あ, あ,4.310,1,10,*,
あ, 亜,1.104,2,40,,
あ, 亜,3.100,10,40,,
ああ, ああ,3.100,3,40,*,
ああ, ああ,4.310,1,20,*,
ああくとう, アーク燈,1.460,2,70,,
ああす, アース,1.462,6,10,,
ああち, アーチ,1.442,2,20,,
ああむほおる, アームホール,1.184,5,30,,
あある, アール,1.1961,4,10,,
あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,
上記の"," で区切ってある情報は、それぞれ、単語の読み、単語の見出し語、単語の分類番号、単語の分類番号の下位番号1、単語の分類番号の下位番号2、標本使用頻度が7以上の単語かどうかを示す情報である。
(Position of each member)
As will be described later, the position of each member (word) is obtained by using various information relating to each member (for example, attribute information of each member). The dimension of the vector is determined based on various information regarding each member. Then, based on various information regarding each member, the value of the vector element having the determined dimension is obtained to generate a vector (position vector). The generated vector indicates the position of each member. Examples of various information regarding each member (word) include the following.
・ Types of characters included in words (for example, whether there are hiragana, katakana, kanji, and others)
-Word length-Word meaning-Word co-occurrence words-Word co-occurrence data (1) Types of characters included in words (for example, whether there are hiragana, katakana, kanji, and others)
For example, in order to represent the character type of a certain member, whether it is a word consisting only of hiragana, whether it is a word consisting only of katakana, whether it is a word consisting only of kanji, only hiragana, or only katakana, or Prepare (for example, set) a four-dimensional vector element indicating whether or not a word other than a word consisting only of kanji and create a vector determined by a value (for example, 1 or 0) set in the vector element . If the member corresponds to a word consisting only of hiragana, a value of 1 is set to the element of the corresponding vector, and if not, a value of 0 is set to the corresponding vector element. If the member corresponds to a word consisting only of katakana, a value of 1 is set to the corresponding vector element, and if not, a value of 0 is set to the corresponding vector element. If the member corresponds to a word consisting only of kanji, a value of 1 is set to the corresponding vector element, and if not, a value of 0 is set to the corresponding vector element. If the member corresponds to a word other than a word consisting only of hiragana, only katakana, or only kanji, a value of 1 is set as a corresponding vector element.
(2) Word length For example, a one-dimensional vector element is prepared, the number of characters of the member (word) is counted, and the counted number of characters of the member (word) is set as the element of the vector. Thus, information on the length of the word may be expressed.
(3) Word meanings For example, the following classification vocabulary table stored in advance in the storage means is prepared.
Ah, Ah, 4.310, 1,10, *,
Ah, A, 1.104,2,40,
Ah, A, 3.100, 10, 40,
Oh, oh, 3.100, 3,40, *,
Oh, oh, 4.310,1,20, *,
Oh, Toku, 1.460, 2,70 ,,
Ah, earth, 1.462, 6, 10,
Ah, arch, 1.442, 2, 20,
Ahmuhooru, Armhole, 1.184,5,30,
Aal, Earl, 1.1961,4,10,
Love, 1.3020,9,10, *,
Ai, Phase, 3.112,1,10, *,
Ai, indigo, 1.502,6,40 ,,
Love, love, 1.3642,1,40,
Ain, love drinking, 1.3332, 3, 60 ,,
Good, sign, 1.3114,1,30, Y,
Aiuchi, Aiuchi, 1.357, 4, 30,
Aikagi, joint key, 1.454, 8, 50 ,,
As always, 3.165,2,10, *,
Akan, sorrow, 1.3011,4,60 ,,
Aigan, pleading, 1.366,1,100 ,,
Aigan, Atago, 1.3852, 2, 10,
Aigi, coalescence, 1.421,4,40 ,,
Aikiyo, Aisato, 1.3020,11,170 ,,
Aikiyo, Atago, 1.3030, 4, 40 ,,
The information separated by the above "," includes the word reading, the word headword, the word classification number, the lower classification number 1 of the word classification number, the lower classification number 2 of the word classification number, and the sample usage frequency. It is information indicating whether the word is 7 or more.

上記の分類語彙表中の"," で区切ってある情報を各桁とし、例えば、上位3桁を意味分類と仮定して、その上位3桁の種類の数だけベクトルの次元を用意する。そして、各成員について、当該意味分類と合致したベクトルの要素の値を1に、それ以外を0に設定することによって、各成員の位置を示すベクトルを作成する。上述した分類語彙表中の情報を利用して各成員のベクトルを作成する方法では、上位3桁を意味分類としたが、他の桁を意味分類にしてもよいし、当該上位3桁と上記他の桁とをあわせた複数の桁の種類の数だけベクトルの次元を用意し、各成員について、当該意味分類と合致したベクトルの要素の値を1に、それ以外を0に設定することによって、各成員の位置を示すベクトルを作成するようにしてもよい。   In the classification vocabulary table, information separated by “,” is assumed to be each digit. For example, assuming that the upper three digits are semantic classification, vector dimensions are prepared for the number of types of the upper three digits. For each member, a vector indicating the position of each member is created by setting the value of the element of the vector that matches the semantic classification to 1 and setting the others to 0. In the method for creating each member vector using the information in the classification vocabulary table described above, the upper three digits are used as the semantic classification, but other digits may be used as the semantic classification, By preparing vector dimensions for the number of types of multiple digits combined with other digits, and setting the value of the element of the vector that matches the semantic classification to 1 for each member and set the others to 0 A vector indicating the position of each member may be created.

各成員(単語)に関する種々の情報として、単語に含まれる文字の種類、単語の長さ、単語の語義を説明したが、本発明の一実施例によれば、各成員に関する他の情報も追加で利用して、各成員の位置を示すベクトルを生成してもよい。また、逆に、上述した情報(単語に含まれる文字の種類、単語の長さ、単語の語彙)の全てを用いるのではなく、それらの情報の一部を用いてベクトルを作成するようにしてもよい。例えば、単語の長さの情報を用いずに、ベクトルを作成するようにしてもよい。また、例えば、単語に含まれる文字の種類と単語の語義のみを用いて、ベクトルを作成するようにしてもよい。
(4)単語の共起語
成員(単語)の共起語を求めて、単語の種類の情報に基づいて決まるベクトルの次元を用意する。そして、当該単語の共起語に合致したベクトルの要素に1を、当該単語の共起語に合致しないベクトルの要素に0を設定する。単語の共起語としては、例えば、図1に示す書誌データDB17中に格納されている書誌データのうち、同じ書誌データ中に成員と共起して出現する単語を当該成員の共起語とする。本発明の一実施形態によれば、例えば、書誌データDB17中に格納されている書誌データとは異なるデータを用意し、当該データにおいて、成員が出現する領域と同一の領域(例えば、同一文、又は,同一段落、又は、同一データレコード等)に出現する単語を、当該成員の共起語とするようにしてもよい。
As the various information about each member (word), the type of character included in the word, the length of the word, and the meaning of the word have been described. However, according to one embodiment of the present invention, other information about each member is also added. May be used to generate a vector indicating the position of each member. On the other hand, instead of using all of the above-mentioned information (type of characters included in word, word length, word vocabulary), a vector is created using a part of the information. Also good. For example, a vector may be created without using word length information. Further, for example, a vector may be created using only the type of characters included in a word and the meaning of the word.
(4) Co-occurrence words of words The co-occurrence words of the members (words) are obtained, and a vector dimension determined based on the word type information is prepared. Then, 1 is set to a vector element that matches the co-occurrence word of the word, and 0 is set to a vector element that does not match the co-occurrence word of the word. As a word co-occurrence word, for example, among the bibliographic data stored in the bibliographic data DB 17 shown in FIG. 1, a word that appears together with a member in the same bibliographic data is a co-occurrence word of the member. To do. According to an embodiment of the present invention, for example, data different from the bibliographic data stored in the bibliographic data DB 17 is prepared, and in the data, the same area (for example, the same sentence, Alternatively, a word appearing in the same paragraph or the same data record) may be a co-occurrence word of the member.

また、上述した単語の共起語を用いてベクトルを作成する方法では、共起語として出現していれば、ベクトルの要素に1を、共起語として出現していない場合に、ベクトルの要素に0を設定するが、ベクトルの要素には、共起語として出現した回数の値を設定するようにしてもよい。
(5)単語の共起データ
例えば、書誌データ17DB中に格納された書誌データの行数だけのベクトルの次元を用意し、成員(単語)がその書誌データのある行に出現した場合、当該行に対応するベクトルの要素に1を、出現しない場合に、当該行に対応するベクトルの要素に0を入れる。
In the method of creating a vector using the co-occurrence word of the word described above, if it appears as a co-occurrence word, the vector element is 1 when it does not appear as a co-occurrence word. Is set to 0, but the value of the number of appearances as a co-occurrence word may be set in the vector element.
(5) Co-occurrence data of words For example, when the number of vector dimensions corresponding to the number of lines of the bibliographic data stored in the bibliographic data 17DB is prepared and the member (word) appears in a line of the bibliographic data, 1 is entered in the vector element corresponding to, and 0 is entered in the vector element corresponding to the row if it does not appear.

単語の語義、単語の共起語、単語の共起データについては,意味分類、共起語、共起データの数が多い場合もあるので、本発明の一実施形態によれば、既存のLSI(Latent semantic index )などの次元圧縮の技術を使って、ベクトルの次元を減らすようにしてもよい。   Since there may be a large number of semantic classification, co-occurrence words, and co-occurrence data for word meaning, word co-occurrence words, and word co-occurrence data, according to an embodiment of the present invention, an existing LSI You may make it reduce the dimension of a vector using dimensional compression techniques, such as (Latent semantic index).

次にトップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
(最大距離アルゴリズムによるクラスタリング)
ある成員と、当該成員と距離が最も離れた成員を求め、これらの成員をそれぞれのクラスターの中心とする。次に、それぞれのクラスターの中心と各成員との距離の最小値を各成員の距離とし、その距離が最も大きい成員を新たなクラスターの中心とする。当該クラスターの中心を求める処理を繰り返す。例えば、予め定めた数のクラスターになったときに、当該クラスターの中心を求める処理の繰り返しをやめる。また、例えば、クラスター間の距離が予め定めた数以下になったときに、当該クラスターの中心を求める処理の繰り返しをやめる。
Next, a method of top-down clustering (non-hierarchical clustering) will be described.
(Clustering with maximum distance algorithm)
Find a member and the member farthest away from the member, and make these members the center of each cluster. Next, the minimum value of the distance between the center of each cluster and each member is set as the distance of each member, and the member having the largest distance is set as the center of the new cluster. The process for obtaining the center of the cluster is repeated. For example, when the number of clusters reaches a predetermined number, the process for obtaining the center of the cluster is not repeated. Further, for example, when the distance between the clusters is equal to or less than a predetermined number, the process of obtaining the center of the cluster is stopped.

また、クラスターの良さを例えばAIC情報量基準などで評価して、評価によって求まった値と予め定めた閾値との比較結果に基づいて、当該クラスターの中心を求める処理の繰り返しをやめるようにしてもよい。上記の最大距離アルゴリズムによるクラスタリングによれば、各成員は、各成員と最も近いクラスター中心を持つクラスターの成員となる。
(k平均法)
例えば、以下に示すk平均法によって、予め定めた個数(k個)にクラスタリングする。まず、k個の成員をランダムに選択し、選択されたk個の成員をクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。
In addition, the goodness of the cluster is evaluated based on, for example, an AIC information amount standard, and the repetition of the process of obtaining the center of the cluster is stopped based on the comparison result between the value obtained by the evaluation and a predetermined threshold value. Good. According to the clustering by the above maximum distance algorithm, each member becomes a member of a cluster having a cluster center closest to each member.
(K-average method)
For example, clustering is performed to a predetermined number (k) by the following k-average method. First, k members are selected at random, and the selected k members are set as the center of the cluster. Each member is a member of a cluster having a cluster center closest to each member.

次に、クラスター内の各成員の平均の位置に最も近い成員を、それぞれのクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。また、クラスター内の各成員の平均の位置に最も近い成員をそれぞれのクラスターの中心とする。上記のクラスターの中心を求める処理を繰り返し、クラスターの中心が移動しなくなったときに、クラスターの中心を求める処理の繰り返しをやめる。本発明の一実施形態によれば、予め定めた回数だけクラスターの中心を求める処理を繰り返してやめるようにしてもよい。そして、最終的なクラスター中心を持つクラスターを決定する。そして、各成員を、当該各成員が最も近いクラスター中心を持つクラスターの成員とする。上記の手法によって、成員のクラスタリングをする。本発明において用いるクラスタリングの方法は、上述した方法に限定されるものではない。本発明に係るデータ表示装置1は、上述したクラスタリングの方法以外の様々な方法を用いて、キーワードのクラスタリングをするようにしてもよい。例えば、本発明の一実施形態によれば、例えば、距離の近い成員を直線上に順に結合する。すなわち、距離が最も近い成員同士をまず結合し、結合した成員によって構成される、複数の成員群を作成する。ある成員群における成員のいずれかと距離が最も近い他の成員群の成員を、当該距離が最も近い成員と結合する処理を繰り返して、成員を直線上に結合する。そして、直線上に結合された成員からなるリストを、予め定めた数の成員毎に区切って、各成員のクラスタリングをするようにしてもよい。   Next, the member closest to the average position of each member in the cluster is set as the center of each cluster. Each member is a member of a cluster having a cluster center closest to each member. The member closest to the average position of each member in the cluster is set as the center of each cluster. The process for obtaining the center of the cluster is repeated, and when the center of the cluster stops moving, the process for obtaining the center of the cluster is stopped. According to an embodiment of the present invention, the process for obtaining the center of the cluster may be repeated for a predetermined number of times. Then, the cluster having the final cluster center is determined. Each member is a member of a cluster having the closest cluster center. Cluster members by the above method. The clustering method used in the present invention is not limited to the method described above. The data display device 1 according to the present invention may perform keyword clustering using various methods other than the above-described clustering method. For example, according to an embodiment of the present invention, for example, members having close distances are sequentially joined on a straight line. That is, members having the shortest distance are first joined together, and a plurality of member groups configured by the joined members are created. The member is joined on a straight line by repeating the process of joining the member of the other member group having the closest distance to one of the members in the member group with the member having the closest distance. Then, a list of members joined on a straight line may be divided into a predetermined number of members to cluster each member.

また、本発明の一実施形態によれば、予めデータ表示装置1内の記憶手段(図示を省略)内に、単語と単語が属する分類(クラスター)との対応情報を予め記憶させておき、クラスタリング部13が、当該記憶手段内の、単語と単語が属する分類(クラスター)との対応情報に基づいて、各単語をクラスタリングするようにしてもよい。   Further, according to one embodiment of the present invention, correspondence information between words and classifications (clusters) to which the words belong is stored in advance in storage means (not shown) in the data display device 1, and clustering is performed. The unit 13 may cluster each word based on correspondence information between the word and the classification (cluster) to which the word belongs in the storage unit.

次に、データソート部14による、抽出した文書の文書データのソート処理について、具体的に説明する。上述したように、データソート部14は、例えば、頻度算出部12によって算出された頻度がより高いキーワードを含む文書の順に、各文書の文書データをソートする。   Next, the sorting process of the document data of the extracted document by the data sorting unit 14 will be specifically described. As described above, the data sorting unit 14 sorts the document data of each document, for example, in the order of documents including a keyword having a higher frequency calculated by the frequency calculating unit 12.

例えば、文書Aが、頻度が最も高いキーワード「本塁打記録」と、頻度が2番目に高いキーワード「本塁打」と、頻度が3番目に高いキーワード「リーグ」とを含んでいるものとし、また、例えば、文書Bが、頻度が最も高いキーワード「本塁打記録」と頻度が3番目に高いキーワード「リーグ」と、頻度が4番目に高いキーワード「マグワイア」とを含んでいるものとする。文書Aは、文書Bに含まれない、頻度が2番目に高いキーワードを含んでいる。この場合、文書Aは、文書Bに比べて、頻度がより高いキーワードを含んでいる。   For example, it is assumed that the document A includes a keyword “home run record” having the highest frequency, a keyword “home run” having the second highest frequency, and a keyword “league” having the third highest frequency. It is assumed that the document B includes the keyword “home run record” having the highest frequency, the keyword “league” having the third highest frequency, and the keyword “magwire” having the fourth highest frequency. The document A includes a keyword that is not included in the document B and has the second highest frequency. In this case, the document A includes keywords having a higher frequency than the document B.

頻度がより高いキーワードを含んでいるということを、さらに具体的に説明する。例えば、各キーワードを頻度について降順に並べ、文書があるキーワードを含む場合に、そのキーワードにビット論理「1」を割り当て、文書があるキーワードを含まない場合に、そのキーワードにビット論理「0」を割り当てる。そして、各キーワードに割り当てられたビット論理によって構成される2進数を求める。   The fact that a keyword with a higher frequency is included will be described more specifically. For example, when each keyword is arranged in descending order with respect to frequency and the document includes a certain keyword, bit logic “1” is assigned to the keyword, and when the document does not include any keyword, bit logic “0” is assigned to the keyword. assign. Then, a binary number constituted by the bit logic assigned to each keyword is obtained.

例えば、「本塁打記録」、「本塁打」、「リーグ」、「マグワイア」、・・・の順にキーワードが並ぶとすると、上記の文書Aについて求められる2進数は、「1110・・・」であり、文書Bについて求められる2進数「1011・・・」より大きな数となる。   For example, if the keywords are arranged in the order of “Home run record”, “Home run”, “League”, “Mugwire”,..., The binary number required for the document A is “1110. The number is larger than the binary number “1011...” Required for the document B.

ある文書が、頻度がより高いキーワードを含んでいるということは、上記のように、例えば、頻度について降順に並んだ各キーワードを2進数の各桁とし、文書に含まれるキーワードにビット論理「1」を、文書に含まれないキーワードにビット論理「0」を割り当てた場合に構成される2進数が、より大きい数であることを意味している。   The fact that a certain document includes a keyword having a higher frequency means that, as described above, for example, the keywords arranged in descending order with respect to the frequency are each binary digit, and the bit logic “1” is included in the keyword included in the document. ”Means that the binary number formed when bit logic“ 0 ”is assigned to a keyword not included in the document is a larger number.

以下に、キーワード抽出部11によるキーワードの抽出方法について説明する。
(1)形態素解析を用いた単語の認識による手法
まず、キーワード抽出部11は、書誌データDB17に蓄積されている文書について、形態素解析を行い、単語の認識を行う。そして、特定の名詞の単語をキーワードとして取り出す。例えば、名詞だけをキーワードとして取り出す。但し、「こと」、「もの」などの一般的な名詞は、予め収集しておき、それらの名詞がキーワードとしては取り出されないようにしておく。キーワードとしては、名詞だけでなく、動詞などの他の品詞も取り出すこととしてもよい。
Below, the keyword extraction method by the keyword extraction part 11 is demonstrated.
(1) Method based on word recognition using morphological analysis First, the keyword extraction unit 11 performs morphological analysis on a document stored in the bibliographic data DB 17 to recognize a word. And the word of a specific noun is taken out as a keyword. For example, only nouns are extracted as keywords. However, general nouns such as “things” and “things” are collected in advance so that these nouns are not extracted as keywords. As keywords, not only nouns but also other parts of speech such as verbs may be taken out.

形態素解析には、例えば、奈良先端大で開発されている形態素解析システムである ChaSen (下記の文献(2)参照)を用いる。   For morphological analysis, for example, ChaSen (see the following document (2)), which is a morphological analysis system developed at Nara Institute of Technology, is used.

文献(2):形態素解析システム茶筌(http://chasen.aist-nara.ac.jp/index.html.ja )
ChaSen は、日本語文を分割し、さらに、各単語の品詞も推定してくれる。
Reference (2): Morphological analysis system tea bowl (http://chasen.aist-nara.ac.jp/index.html.ja)
ChaSen splits the Japanese sentence and also estimates the part of speech for each word.

例えば、「学校へ行く」を入力すると、以下の結果を得る。   For example, if “go to school” is entered, the following result is obtained.

学校 ガッコウ 学校 名詞− 一般
へ ヘ へ 助詞- 格助詞− 一般
行く イク 行く 動詞- 自立 五段・カ行促音便 基本形
EOS
このように、各行に一個の単語が入るように分割され,各単語に読みや品詞の情報が付与される。
School Gakkou School Noun-General To He To Particle-Case Particle-General Go Iku Go Verb-Independence
EOS
In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.

また、英語の品詞タグつけシステムとしては、 Brill(下記の文献(3)参照)のものが有名である。このシステムを用いれば、英語文の各単語の品詞を推定することができる。   As a part-of-speech tagging system in English, Brill (see reference (3) below) is famous. If this system is used, the part of speech of each word of an English sentence can be estimated.

文献(3): Eric Brill, Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging,Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
(2)TF/IDF法などを利用した方法
書誌データDB17に蓄積されている文書について、形態素解析を行い、例えば、名詞だけを取り出す。そして、取り出された各名詞について、前述したTF/IDF法に基づいて算出される所定のスコアを求め、求まったスコアが所定の値よりも大きいものか、スコアが所定の値よりも大きいものから順に所定の値の個数だけ取り出したものをキーワードとする。なお、上記のスコアは、前述したOkapiのウェイティング法を用いて算出されるスコアを用いてもよい。
(3)高精度な既存のキーワード抽出のツールを利用する方法
一般に文書中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文書の内容が専門的な事項に特化すれば、その傾向はさらに顕著なものとなる。そこで、例えば、(a)形態素解析プログラムによる単語分割、(b)複合語の作成、(c)文書中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文書中から抽出することができる。
Reference (3): Eric Brill, Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
(2) Method using TF / IDF method etc. For documents stored in the bibliographic data DB 17, morphological analysis is performed, for example, only nouns are extracted. Then, for each extracted noun, a predetermined score calculated based on the above-described TF / IDF method is obtained, and the obtained score is greater than a predetermined value or from a score greater than the predetermined value. A keyword that is sequentially extracted by a predetermined number is set as a keyword. Note that the score calculated using the above-described Okapi weighting method may be used.
(3) Method of using existing high-accuracy keyword extraction tools In general, there are many cases where a complex concept is represented by a combination of multiple words in a document. The trend is even more pronounced. Therefore, for example, a complex concept is expressed by a compound word by taking three steps: (a) word division by a morphological analysis program, (b) creation of a compound word, and (c) calculation of importance in a document. Technical terms that are often used can be extracted from the document as keywords.

例えば、下記の文献(4)に記載されている手法は、文書から取り出した単名詞について、単名詞の左右に連接する単語の種類数あるいは頻度を用いたスコアを算出し、これら左右のスコアを組み合わせて、単名詞のスコアを算出する。単名詞のスコアに基づいて、単名詞から生成される複合名詞のスコアを算出する。そして、算出された複合名詞のスコアが所定の値より大きいものを、キーワードとして取り出す。本発明においても、文献(4)に記載された手法を用いて、キーワードを抽出する構成を採ることができる。   For example, the technique described in the following document (4) calculates a score using the number or frequency of words connected to the left and right of a single noun for a single noun extracted from a document, and calculates the left and right scores. In combination, the score of a single noun is calculated. Based on the score of the single noun, the score of the compound noun generated from the single noun is calculated. Then, those having a calculated compound noun score greater than a predetermined value are extracted as keywords. Also in the present invention, it is possible to adopt a configuration in which keywords are extracted using the technique described in Document (4).

文献(4):中川裕志、森辰則、湯本紘彰: " 出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月
なお、本発明の実施の形態において、キーワード抽出部11によるキーワードの抽出方法は、上述した3つの方法に限定されるものではない。キーワード抽出部11は、他の任意のキーワードの抽出方法を用いてキーワードを抽出することができる。
Reference (4): Hiroshi Nakagawa, Masanori Mori, Yasuaki Yumoto: "Extraction of technical terms based on appearance frequency and connection frequency", Natural Language Processing, Vol.10 No.1, pp. 27-45, January 2003 In the embodiment of the present invention, the keyword extraction method by the keyword extraction unit 11 is not limited to the three methods described above. The keyword extraction unit 11 can extract keywords using any other keyword extraction method.

本発明の一実施形態によれば、キーワード抽出部11が、以下に述べる固有表現抽出技術を用いてキーワードを抽出してもよい。固有表現とは、人名、地名、組織名などの固有名詞、金額などの数値表現といった、特定の事物・数量を意味する言語表現のことで、固有表現抽出とは、そういった固有表現を文章中から計算機で自動で抽出する技術である。例えば、「日本の首相は小泉純一郎である」という文に対して固有表現抽出を行なうと、固有表現の「日本」と「小泉純一郎」が地名、人名として、抽出される。キーワード抽出部11は、抽出された固有表現をキーワードとして出力する。   According to an embodiment of the present invention, the keyword extraction unit 11 may extract keywords using the specific expression extraction technique described below. A specific expression is a linguistic expression that means a specific thing / quantity, such as a numerical name such as a name, a place name, or an organization name, and a numerical expression such as a monetary amount. This is a technology for automatic extraction by a computer. For example, if a specific expression is extracted for a sentence “the Japanese prime minister is Junichiro Koizumi”, the specific expressions “Japan” and “Junichiro Koizumi” are extracted as place names and personal names. The keyword extraction unit 11 outputs the extracted unique expression as a keyword.

そして、本発明の一実施形態によれば、例えば、予めデータ表示装置1内の記憶手段(図示を省略)内に、キーワード(地名、人名等の固有表現)と当該キーワードが属する分類(クラスター)との対応情報を予め記憶させておき、クラスタリング部13が、キーワード抽出部11によって抽出されたキーワード(固有表現)と、当該記憶手段内の、キーワードと当該キーワードが属する分類(クラスター)との対応情報に基づいて、各キーワードをクラスタリングするようにしてもよい。   According to one embodiment of the present invention, for example, keywords (proprietary expressions such as place names and personal names) and classifications (clusters) to which the keywords belong in advance in storage means (not shown) in the data display device 1. Is previously stored, and the clustering unit 13 associates the keyword (specific expression) extracted by the keyword extraction unit 11 with the keyword and the classification (cluster) to which the keyword belongs in the storage unit. Each keyword may be clustered based on the information.

以下に、固有表現抽出の一般的な手法の例について説明する。
(1)機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の参考文献(1)参照)。
Hereinafter, an example of a general technique for extracting a specific expression will be described.
(1) A method using machine learning There is a method of extracting a specific expression using machine learning (for example, see the following reference (1)).

参考文献(1):浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
小 B−PERSON
泉 I−PERSON
さ O
ん O
で O
す O
。 O
上記において、B −???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B−LOCATIONは、地名という固有表現の始まりを意味しており、 B−PERSONは、人名という固有表現の始まりを意味している。また、I −???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
Reference (1): Masayuki Asahara, Yuji Matsumoto, Use of redundant morphological analysis in Japanese proper expression extraction Information Processing Society of Japan NL153-7 2002
First, for example, the sentence “Japan's prime minister is Mr. Koizumi” is divided into each character, and the correct characters such as B-LOCATION and I-LOCATION are assigned to the divided characters as follows. Set the correct answer. The first column below is each divided character, and the correct tag of each character is the second column.
Sun B-LOCATION
I-LOCATION
O
Neck O
Phase O
Is O
Small B-PERSON
Izumi I-PERSON
O
N
At O
O
. O
In the above, B-? ? ? Is a tag that signifies the start of the type of proper expression below the hyphen. For example, B-LOCATION means the beginning of a unique expression called place name, and B-PERSON means the beginning of a unique expression called person name. I-? ? ? Is a tag that means something other than the beginning of the type of proper expression below the hyphen, and O is something else. Therefore, for example, the character “day” is a character that corresponds to the beginning of the unique name “place name”, and the character “book” is the unique name “place name”.

このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。   In this way, the correct answer of each character is set, learned from such data, this correct answer is estimated with new data, and from this correct answer tag, the beginning of each proper expression and how far it is. Is recognized and the proper expression is estimated.

この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−B は、日本という単語の先頭を意味し、名詞−B は、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChaSenによる形態素解析を用いる。ChaSenを用いれば、入力された日本語を単語に分割することができる。例えば、ChaSenは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
When learning from the correct data set for each character, the system uses various information in the form of features. For example,
Sun B-LOCATION
Part of
Japan-B Noun-B
Such information is used. Japan-B means the beginning of the word Japan, and noun-B means the beginning of the noun. For recognition of words and parts of speech, for example, morphological analysis by ChaSen described above is used. If ChaSen is used, the input Japanese can be divided into words. For example, ChaSen divides a Japanese sentence and estimates the part of speech of each word as described above. For example, if “go to school” is entered, the following results can be obtained.

学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
School Gacco School Noun-General To He To particle-Case particle-General Go Iku Go Verb-independence
In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.

なお、例えば、上記の参考文献(1)では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「 B−PERSON」等)を利用している。   For example, in the above-mentioned reference (1), as features, the characters constituting the input sentence itself (for example, “small”), the character type (for example, hiragana and katakana), part-of-speech information, Tag information (for example, “B-PERSON” or the like) is used.

これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。   Learning using these features. Investigate what features appear in the characters that estimate the tag and the surrounding characters, learn what features are likely to appear when the features appear, and use the learning results to create new data Perform tag estimation. For machine learning, for example, a support vector machine is used.

固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(参考文献(2)参照)。   In addition to the above-described method, there are various methods for extracting the proper expression. For example, there is a technique of extracting a specific expression using a maximum entropy model and a rewrite rule (see reference (2)).

参考文献(2):内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000
また、例えば、以下の参考文献(3)に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。
Reference (2): Kiyochi Uchimoto, Mao Aoi, Maki Murata, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara, Named Expression Extraction Based on Maximum Entropy Model and Rewriting Rules, Journal of the Language Processing Society, Vol.7, No.2 , 2000
Further, for example, the following reference (3) describes a technique for extracting Japanese proper expressions using a support vector machine.

参考文献(3):山田寛康,工藤拓,松本裕治,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43, No.1", 2002
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
Reference (3): Hiroyasu Yamada, Taku Kudo, Yuji Matsumoto, Japanese Named Expression Extraction using Support Vector Machine, Journal of Information Processing Society of Japan, Vol.43, No.1 ", 2002
(2) A method using a created rule There is also a method of manually creating a rule to extract a specific expression.

例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
For example,
Noun + “san” is the name of the person + “prime” is the name of the person + “town” is the name of the place + “city” is the place of name.

本発明の一実施形態によれば、データ表示装置1は、キーワード抽出部11を用いない構成を採ることもできる。例えば、文書と文書に含まれるキーワードとが対応付けられたデータを所定のデータベース(図1では図示を省略)内に蓄積しておき、上記データベース内に蓄積されているデータから、頻度算出部12が、各キーワードの、上記データベース中の文書群中に出現した頻度を算出する構成を採ることもできる。   According to one embodiment of the present invention, the data display device 1 can adopt a configuration that does not use the keyword extraction unit 11. For example, data in which a document and a keyword included in the document are associated is accumulated in a predetermined database (not shown in FIG. 1), and the frequency calculation unit 12 is obtained from the data accumulated in the database. However, it is also possible to adopt a configuration in which the frequency of each keyword appearing in the document group in the database is calculated.

本発明の一実施形態によれば、キーワード抽出部11が、書誌データDB17に蓄積されている文書群から、単位表現を抽出し、抽出された単位表現が上記文書群において出現する箇所を特定し、特定された箇所において、当該単位表現と隣接して出現している数値を抽出する。そして、キーワード抽出部11は、抽出された数値と当該単位表現とから構成される数値情報をキーワードとして抽出する。例えば、40号等といった数値情報がキーワードとして抽出される。そして、クラスタリング部13が、抽出された数値情報をクラスタリングするようにしてもよい。   According to one embodiment of the present invention, the keyword extraction unit 11 extracts a unit expression from the document group stored in the bibliographic data DB 17 and specifies a place where the extracted unit expression appears in the document group. In the specified location, a numerical value that appears adjacent to the unit representation is extracted. Then, the keyword extraction unit 11 extracts numerical information composed of the extracted numerical values and the unit expressions as keywords. For example, numerical information such as No. 40 is extracted as a keyword. Then, the clustering unit 13 may cluster the extracted numerical information.

本発明の一実施形態によれば、データ表示装置1は、頻度算出部12、データソート部14、クラスターソート指定部16が省略された構成を採ってもよい。例えば、キーワード抽出部11が、書誌データDB17中の文書群中に含まれるキーワードを抽出し、クラスタリング部13が、抽出されたキーワードを各キーワードが属するクラスターにクラスタリングし、表示部15が、当該クラスターに属するキーワードのうちの上記文書群を構成する文書に含まれるキーワード、又は、各文書中における当該クラスターに属するキーワードの有無を示す情報(例えば、符号)を、当該各文書と当該クラスターとに対応付けて画面表示するようにしてもよい。また、データ表示装置1が上記の構成を採る場合において、クラスタリング部13が、各キーワードのベクトル空間上の位置を示す位置ベクトルを生成し、生成された当該位置ベクトルが示す各キーワードの位置情報に基づいて、各キーワードが属するクラスターを決定するようにしてもよい。   According to the embodiment of the present invention, the data display device 1 may adopt a configuration in which the frequency calculation unit 12, the data sort unit 14, and the cluster sort designation unit 16 are omitted. For example, the keyword extraction unit 11 extracts keywords included in a document group in the bibliographic data DB 17, the clustering unit 13 clusters the extracted keywords into clusters to which each keyword belongs, and the display unit 15 The keywords included in the documents constituting the document group among the keywords belonging to, or information (for example, code) indicating the presence or absence of the keywords belonging to the cluster in each document correspond to each document and the cluster It may also be displayed on the screen. When the data display device 1 adopts the above configuration, the clustering unit 13 generates a position vector indicating the position of each keyword in the vector space, and the position information of each keyword indicated by the generated position vector is used. Based on this, the cluster to which each keyword belongs may be determined.

また、データ表示装置1が上記の構成を採る場合において、表示部15は、予め定められた順序に基づいて、各クラスターを並び替えて画面表示するようにしてもよい。また、表示部15が、各クラスターに属するキーワード又は各クラスターに属するキーワードが出現する文書の分布に基づいて、各クラスターを画面表示するようにしてもよい。ここで、各クラスターに属するキーワードの分布とは、例えば、各クラスターに属するキーワードが出現する文書数の分布、各クラスターに属するキーワード数の分布、又は、各クラスターに属するキーワードが出現する文書数を各クラスターに属する全てのキーワードについて合計した数の分布である。また、表示部15は、各クラスターに属するキーワードが出現する文書数について昇順又は降順に各クラスターを並び替えて画面表示するようにしてもよい。   Further, when the data display device 1 adopts the above-described configuration, the display unit 15 may rearrange the clusters and display the screen based on a predetermined order. Further, the display unit 15 may display each cluster on the screen based on the distribution of documents in which the keywords belonging to each cluster or the keywords belonging to each cluster appear. Here, the distribution of keywords belonging to each cluster is, for example, the distribution of the number of documents in which the keywords belonging to each cluster appear, the distribution of the number of keywords belonging to each cluster, or the number of documents in which the keywords belonging to each cluster appear. This is a distribution of the total number of all keywords belonging to each cluster. Further, the display unit 15 may rearrange the clusters in the ascending order or descending order for the number of documents in which the keywords belonging to the clusters appear and display the screens.

また、データ表示装置1において、クラスタリング部13が、各キーワードの位置ベクトルの平均を各キーワードが属するクラスターの位置ベクトルとし、各クラスターの位置ベクトルに基づいて、クラスター同士の距離を求め、求めた距離が近いクラスター同士が近い位置に並び、求めた距離が遠いクラスター同士が離れた位置に並ぶように、各クラスターを並び替え、表示部15が、並び替えられた各クラスターに属するキーワードのうちの書誌データDB17中の文書群を構成する文書に含まれるキーワード、又は、各文書中における上記並び替えられた各クラスターに属するキーワードの有無を示す情報を、各文書と当該並び替えられた各クラスターとに対応付けて画面表示するようにしてもよい。   Further, in the data display device 1, the clustering unit 13 uses the average of the position vectors of the respective keywords as the position vector of the cluster to which each keyword belongs, obtains the distance between the clusters based on the position vector of each cluster, and obtains the obtained distance. Each cluster is rearranged so that clusters that are close to each other are arranged close to each other and clusters that are far from each other are arranged apart from each other, and the display unit 15 is a bibliography of keywords belonging to the rearranged clusters. Information indicating the presence or absence of a keyword included in a document constituting the document group in the data DB 17 or a keyword belonging to each of the rearranged clusters in each document is provided for each document and each rearranged cluster. The screen may be displayed in association with each other.

本発明の一実施形態によれば、クラスタリング部13は、例えば、以下に述べる手法によって、各クラスターを並び替えるようにしてもよい。すなわち、クラスタリング部13は、距離が最も近いクラスター同士を結合し、結合したクラスターのリストの端のクラスターのいずれかと距離が最も近いクラスターを、当該リストの端のクラスターと結合する。そして、クラスタリング部13は、さらに、当該クラスターの結合によって得られるリストの端のクラスターのいずれかと距離が最も近いクラスターを結合する。クラスタリング部13は、上記の処理を繰り返すことによって得られるリストにおけるクラスターの並び順に、各クラスターを並び替える。   According to an embodiment of the present invention, the clustering unit 13 may rearrange the clusters by, for example, the method described below. That is, the clustering unit 13 joins the clusters having the shortest distances, and joins the cluster having the closest distance to one of the end clusters in the list of joined clusters to the end cluster of the list. Then, the clustering unit 13 further joins the cluster having the shortest distance from one of the end clusters in the list obtained by joining the clusters. The clustering unit 13 rearranges the clusters in the order of clusters in the list obtained by repeating the above processing.

また、クラスタリング部13が、ベクトル空間上に並んで配置された複数の基準の位置ベクトルを予め定義し、各クラスターの位置ベクトルを、各クラスターの位置ベクトルとの距離が最も近い基準の位置ベクトルの近くに配置することにより、各クラスターを並び替えるようにしてもよい。すなわち、クラスタリング部13は、例えば基準ベクトルA、B、Cの順に並んで配置された3つの基準ベクトルを定義し、あるクラスターの位置ベクトルとの距離が最も近い基準ベクトルが基準ベクトルAである場合、当該クラスターの位置ベクトルを基準ベクトルAの近くに配置する。同様にして、他のクラスターの位置ベクトルを、距離が最も近い基準ベクトルの近くに配置する。そして、クラスタリング部13は、各クラスターの位置ベクトルが上記配置後の位置ベクトルとなるように各クラスターを並び替える。   In addition, the clustering unit 13 predefines a plurality of reference position vectors arranged side by side in the vector space, and the position vector of each cluster is the reference position vector whose distance from the position vector of each cluster is the closest. The clusters may be rearranged by arranging them close to each other. That is, the clustering unit 13 defines, for example, three reference vectors arranged in the order of reference vectors A, B, and C, and the reference vector that is closest to the position vector of a certain cluster is the reference vector A The position vector of the cluster is arranged near the reference vector A. Similarly, the position vectors of other clusters are arranged near the reference vector having the shortest distance. Then, the clustering unit 13 rearranges the clusters so that the position vectors of the clusters become the position vectors after the placement.

また、データ表示装置1において、クラスタリング部13は、各文書がどのクラスターのどの単語を何個含んでいるかの情報を求め、求めた情報に基づいて、各文書のベクトル空間上の位置を示す位置ベクトルを求め、求めた各文書の位置ベクトルに基づいて、文書同士の距離を求め、求めた距離が近い文書同士が近い位置に並び、求めた距離が遠い文書同士が離れた位置に並ぶように、各文書を並び替えるようにしてもよい。例えば、クラスタリング部13は、各文書がどのクラスターのどの単語を何個含んでいるかの情報に基づいて、当該各文書の位置ベクトルの次元数と、当該位置ベクトルのベクトル要素の値を求めることによって、各文書の位置ベクトルを求める。   In the data display device 1, the clustering unit 13 obtains information on which words in each cluster each document includes, and based on the obtained information, a position indicating the position of each document in the vector space. Find the vector, find the distance between the documents based on the obtained position vector of each document, arrange the documents with the calculated distance close to each other, and arrange the documents with the calculated distance farther apart Each document may be rearranged. For example, the clustering unit 13 obtains the number of dimensions of the position vector of each document and the value of the vector element of the position vector based on the information of how many words in which cluster each document includes. The position vector of each document is obtained.

本発明の一実施形態によれば、クラスタリング部13は、例えば、以下に述べる手法によって、各文書を並び替えるようにしてもよい。すなわち、クラスタリング部13は、距離が最も近い文書同士を結合し、結合した文書のリストの端の文書のいずれかと距離が最も近い文書を、当該リストの端の文書と結合する。そして、クラスタリング部13は、さらに、当該文書の結合によって得られるリストの端の文書のいずれかと距離が最も近い文書を結合する。クラスタリング部13は、上記の処理を繰り返すことによって得られるリストにおける文書の並び順に、各文書を並び替える。   According to an embodiment of the present invention, the clustering unit 13 may rearrange the documents by, for example, the method described below. That is, the clustering unit 13 combines the documents with the shortest distance, and combines the document with the closest distance to one of the end documents in the list of combined documents with the end document of the list. Then, the clustering unit 13 further combines the documents that are closest in distance to one of the documents at the end of the list obtained by combining the documents. The clustering unit 13 rearranges each document in the document arrangement order in the list obtained by repeating the above processing.

また、表示部15は、並ぶ順序がより上位のクラスターに属するキーワードを含む文書の順に、当該文書に含まれるキーワード、又は、当該文書中における上記クラスターに属するキーワードの有無を示す情報(例えば、符号)を画面表示するようにしてもよい。例えば、クラスターA、クラスターB、クラスターCの順にクラスターが並ぶ場合、文書AがクラスターAに属するキーワードとクラスターBに属するキーワードとクラスターCに属するキーワードを含み、文書BがクラスターAに属するキーワードとクラスターBに属するキーワードとを含むがクラスターCに属するキーワードを含まないとき、表示部15は、文書Aに含まれるキーワード、文書Bに含まれるキーワードの順に画面表示する。   In addition, the display unit 15 displays, in the order of documents including keywords belonging to a higher-order cluster, information indicating whether there are keywords included in the document or keywords belonging to the cluster in the document (for example, code ) May be displayed on the screen. For example, when clusters are arranged in the order of cluster A, cluster B, and cluster C, document A includes a keyword that belongs to cluster A, a keyword that belongs to cluster B, and a keyword that belongs to cluster C, and a keyword and cluster that document B belongs to cluster A. When the keyword belonging to B is included but the keyword belonging to cluster C is not included, the display unit 15 displays the keyword included in document A and the keyword included in document B in that order.

また、表示部15は、クラスタリング部13によってクラスタリングされたクラスターを、ユーザの指定入力に従って選択し、選択されたクラスターに対応付けて、当該クラスターに属するキーワードのうちの、文書群を構成する文書に含まれるキーワード、又は、各文書中における当該クラスターに属するキーワードの有無を示す情報を画面表示するようにしてもよい。すなわち、表示部15は、例えば、選択されないクラスターについては、当該クラスターに属するキーワードのうちの、文書群を構成する文書に含まれるキーワード、又は、各文書中における当該クラスターに属するキーワードの有無を示す情報を画面表示しないようにしてもよい。   In addition, the display unit 15 selects clusters clustered by the clustering unit 13 according to a user's designated input, associates the selected clusters with the selected clusters, and creates a document constituting a document group among keywords belonging to the cluster. You may make it display the information which shows the presence or absence of the keyword contained or the keyword which belongs to the said cluster in each document. That is, for example, for a non-selected cluster, the display unit 15 indicates whether or not there is a keyword included in a document constituting the document group among keywords belonging to the cluster or a keyword belonging to the cluster in each document. Information may not be displayed on the screen.

また、データ表示装置1において、クラスタリング部13は、各キーワードのベクトル空間上の位置を示す位置ベクトルを生成し、生成された当該位置ベクトルが示す各キーワードの位置情報に基づいて、キーワード同士の距離を求め、求めた距離が近いキーワード同士が近い位置に並び、求めた距離が遠いキーワード同士が離れた位置に並ぶように、各キーワードを並び替え、表示部15は、並び替えられたキーワードのうちの当該文書群を構成する文書に含まれるキーワード、又は、各文書中における当該並び替えられたキーワードの有無を示す情報を、各文書に対応付けて画面表示するようにしてもよい。   In the data display device 1, the clustering unit 13 generates a position vector indicating the position of each keyword in the vector space, and based on the position information of each keyword indicated by the generated position vector, the distance between the keywords. Each keyword is rearranged so that keywords whose distances are close to each other are arranged close to each other, and keywords whose distances are long are obtained are arranged away from each other, and the display unit 15 The keywords included in the documents constituting the document group or information indicating the presence or absence of the rearranged keywords in each document may be displayed on the screen in association with each document.

本発明の一実施形態によれば、クラスタリング部13は、例えば、以下に述べる手法によって、各キーワードを並び替えるようにしてもよい。すなわち、クラスタリング部13は、距離が最も近いキーワード同士を結合し、結合したキーワードのリストの端のキーワードのいずれかと距離が最も近いキーワードを、当該リストの端のキーワードと結合する。そして、クラスタリング部13は、さらに、当該キーワードの結合によって得られるリストの端のキーワードのいずれかと距離が最も近いキーワードを結合する。クラスタリング部13は、上記の処理を繰り返すことによって得られるリストにおけるキーワードの並び順に、各キーワードを並び替える。   According to an embodiment of the present invention, the clustering unit 13 may rearrange the keywords by, for example, the method described below. That is, the clustering unit 13 combines the keywords having the closest distance, and combines the keyword having the closest distance to one of the keywords at the end of the combined keyword list with the keyword at the end of the list. Then, the clustering unit 13 further combines the keyword having the closest distance with one of the keywords at the end of the list obtained by combining the keywords. The clustering unit 13 rearranges the keywords in the order of the keywords in the list obtained by repeating the above processing.

また、表示部15は、各クラスターを画面上に並ばせる順序を、ユーザの指定入力に従って選択し、選択された順序がより上位のクラスターに属するキーワードを含む文書の順に、文書に含まれるキーワード、又は、文書中における当該クラスターに属するキーワードの有無を示す情報を画面表示するようにしてもよい。   In addition, the display unit 15 selects the order in which the clusters are arranged on the screen according to the designation input by the user, and the keywords included in the document in the order of the document including the keywords belonging to the higher order cluster in the selected order, Alternatively, information indicating the presence or absence of keywords belonging to the cluster in the document may be displayed on the screen.

図2は、データ表示処理フローの一例を示す図である。まず、キーワード抽出部11が、書誌データDB17に蓄積されている文書群に含まれるキーワードを抽出する(ステップS1)。例えば、キーワード「本塁打記録」、「本塁打」、「リーグ」、「マグワイア」、「カージナルス」、「米大リーグ」、「大リーグ」、「試合」、「ロジャー」、「単独トップ」、・・・といったキーワードを抽出する。   FIG. 2 is a diagram illustrating an example of a data display processing flow. First, the keyword extraction unit 11 extracts keywords included in a document group stored in the bibliographic data DB 17 (step S1). For example, the keywords “Home run record”, “Home run”, “League”, “Maguire”, “Cardinals”, “US major league”, “Major league”, “Game”, “Roger”, “Single top”, ... Extract keywords such as

次に、頻度算出部12が、キーワード抽出部11によって抽出された各キーワードの、書誌データDB17に蓄積されている文書群中に出現した頻度を算出する(ステップS2)。   Next, the frequency calculation unit 12 calculates the frequency at which each keyword extracted by the keyword extraction unit 11 appears in the document group stored in the bibliographic data DB 17 (step S2).

例えば、図3の表に示すように、算出されるキーワード「本塁打記録」の頻度は20、キーワード「本塁打」の頻度は15、キーワード「リーグ」の頻度は12、キーワード「マグワイア」の頻度は10、キーワード「カージナルス」の頻度は9、キーワード「米大リーグ」の頻度は8、キーワード「大リーグ」の頻度は7、キーワード「試合」の頻度は6、キーワード「ロジャー」の頻度は5、キーワード「単独トップ」の頻度は4である。なお、図3中に示す頻度は、各キーワードが出現する文書の数である。また、図3中では、頻度が4であるキーワードまでしか示していないが、本発明の実施の形態では、ステップS2において、例えば、頻度3、頻度2、頻度1についても算出され得る。   For example, as shown in the table of FIG. 3, the calculated frequency of the keyword “home run record” is 20, the frequency of the keyword “home run” is 15, the frequency of the keyword “league” is 12, and the frequency of the keyword “magwire” is 10. The frequency of the keyword “Cardinals” is 9, the frequency of the keyword “US Major League” is 8, the frequency of the keyword “Major League” is 7, the frequency of the keyword “match” is 6, the frequency of the keyword “Roger” is 5, The frequency of “single top” is four. The frequency shown in FIG. 3 is the number of documents in which each keyword appears. In FIG. 3, only keywords having a frequency of 4 are shown, but in the embodiment of the present invention, for example, frequency 3, frequency 2, and frequency 1 can also be calculated in step S2.

次に、データソート部14が、書誌データDB17に蓄積されている各文書の文書データを抽出し、バッファ中に格納する(ステップS3)。例えば、文書データとして、文書のテキストデータが抽出され、バッファ中に格納される。   Next, the data sorting unit 14 extracts the document data of each document accumulated in the bibliographic data DB 17 and stores it in the buffer (step S3). For example, text data of a document is extracted as document data and stored in a buffer.

また、データソート部14が、頻度算出部12によって算出された各キーワードの頻度がより高いキーワードを多く含む文書の順に、バッファ中に格納された文書の文書データをソートする(ステップS4)。ステップS4においては、例えば、データソート部14は、各キーワードをステップS2において算出された頻度について降順又は昇順にソートし、ソートした各キーワードの情報をバッファ中に保持するようにしてもよい。ステップS4の処理によって、例えば、各文書と各文書に含まれるキーワードとの対応情報がバッファ中に保持される。   In addition, the data sorting unit 14 sorts the document data of the documents stored in the buffer in the order of the documents including many keywords having a higher frequency of each keyword calculated by the frequency calculating unit 12 (step S4). In step S4, for example, the data sorting unit 14 may sort each keyword in descending order or ascending order with respect to the frequency calculated in step S2, and hold the information of each sorted keyword in the buffer. By the processing in step S4, for example, correspondence information between each document and a keyword included in each document is held in the buffer.

図4は、データソート部14によってバッファ中に保持される、各文書と各文書に含まれるキーワードとの対応情報の例を示す図である。図4中において、矩形の枠で囲ったキーワードは、データソート部14によって、例えば上記頻度について降順にソートされたキーワードである。   FIG. 4 is a diagram illustrating an example of correspondence information between each document and a keyword included in each document held in the buffer by the data sorting unit 14. In FIG. 4, keywords surrounded by a rectangular frame are keywords sorted by the data sorting unit 14 in descending order, for example, with respect to the frequency.

例えば、論文名が「A」である文書は、図3中に示される頻度が最も高いキーワード「本塁打記録」と、頻度が2番目に高いキーワード「本塁打」と、頻度が3番目に高いキーワード「リーグ」と、頻度が4番目に高いキーワード「マグワイア」と、頻度が5番目に高いキーワード「カージナルス」と、頻度が6番目に高いキーワード「米大リーグ」とを含んでいるものとする。   For example, a document whose paper name is “A” has a keyword “home run record” with the highest frequency shown in FIG. 3, a keyword “home run” with the second highest frequency, and a keyword “home run with the third highest frequency”. “League”, the keyword “Maguire” with the fourth highest frequency, the keyword “Cardinals” with the fifth highest frequency, and the keyword “US League” with the sixth highest frequency.

また、例えば、論文名が「B」である文書は、頻度が最も高いキーワード「本塁打記録」と、頻度が2番目に高いキーワード「本塁打」と、頻度が3番目に高いキーワード「リーグ」と、頻度が4番目に高いキーワード「マグワイア」と、頻度が5番目に高いキーワード「カージナルス」とを含んでいるが、頻度が6番目に高いキーワード「米大リーグ」を含んでいないものとする。   Further, for example, a document whose paper name is “B” has a keyword “home run record” with the highest frequency, a keyword “home run” with the second highest frequency, a keyword “league” with the third highest frequency, It is assumed that the keyword “Maguire” having the fourth highest frequency and the keyword “Cardinals” having the fifth highest frequency are included, but the keyword “US Major League” having the sixth highest frequency is not included.

また、例えば、論文名が「C」である文書は、頻度が最も高いキーワード「本塁打記録」と、頻度が2番目に高いキーワード「本塁打」と、頻度が3番目に高いキーワード「リーグ」と、頻度が4番目に高いキーワード「マグワイア」とを含んでいるが、頻度が5番目に高いキーワード「カージナルス」を含んでいないものとする。   For example, a document whose paper name is “C” has a keyword “home run record” with the highest frequency, a keyword “home run” with the second highest frequency, a keyword “league” with the third highest frequency, It is assumed that the keyword “Maguire” having the fourth highest frequency is included, but the keyword “Cardinals” having the fifth highest frequency is not included.

上記ステップS4において、データソート部14は、例えば、論文名が「A」という文書のテキストデータ、論文名が「B」という文書のテキストデータ、論文名が「C」という文書のテキストデータの順に並ぶようにソートする。ステップS4における処理の結果、例えば図4中に示すような順番で、各文書のテキストデータがソートされる。なお、図4中の、各論文名が記述された行と同一の行に記述されたキーワードは、各論文名を持つ文書が含むキーワードを示している。また、図4中に示す日付は、各文書の発行日を示す情報である。   In step S4, the data sorting unit 14 performs, for example, text data of a document whose paper name is “A”, text data of a paper whose paper name is “B”, and text data of a paper whose paper name is “C”. Sort to line up. As a result of the processing in step S4, for example, the text data of each document is sorted in the order as shown in FIG. In FIG. 4, keywords described in the same line as the line in which each paper name is described indicate keywords included in the document having each paper name. The date shown in FIG. 4 is information indicating the issue date of each document.

次に、クラスタリング部13が、キーワード抽出部11によって抽出された各キーワードをクラスター毎にクラスタリングする(ステップS5)。例えば、クラスタリング部13は、図4中の矩形の枠で囲った各キーワードに含まれるキーワードのうち、キーワード「本塁打記録」、「本塁打」、「年間最多本塁打記録」、「年間ホームラン数」、「年間ホームラン」、「号本塁打」、「ホームラン」、「46本」、「50本」、「54本」、「47号」、「50号」、「51号」、「52号」、「54号」(本塁打記録、本塁打以外のキーワードは、図示を省略)を、クラスターAとしてクラスタリングする。また、クラスタリング部13は、例えば、キーワード「リーグ」、「米大リーグ」、「大リーグ」を、クラスターBとしてクラスタリングする。また、クラスタリング部13は、例えば、キーワード「マグワイア」、「マグワイア一塁手」、「マーク」、「ロジャー」、「ソーサ」、「ソーサ外野手」、「サミー」(マグワイア一塁手、マーク、ソーサ、ソーサ外野手、サミーについては、図示を省略)を、クラスターCとしてクラスタリングする。また、クラスタリング部13は、例えば、キーワード「カージナルス」、「ヤンキース」(ヤンキースについては、図示を省略)を、クラスターDとしてクラスタリングする。また、クラスタリング部13は、例えば、キーワード「試合」、「チーム」、「スタジアム」(チーム、スタジアムについては、図示を省略)を、クラスターEとしてクラスタリングする。また、クラスタリング部13は、例えば、キーワード「単独トップ」、「トップ」、「9位タイ」(トップ、9位タイについては、図示を省略)を、クラスターFとしてクラスタリングする。   Next, the clustering unit 13 clusters each keyword extracted by the keyword extracting unit 11 for each cluster (step S5). For example, the clustering unit 13 includes the keywords “home run record”, “home run record”, “annual home run record”, “annual home run number”, “ “Annual Home Run”, “No. Home Strike”, “Home Run”, “46”, “50”, “54”, “47”, “50”, “51”, “52”, “54 "No." (keywords other than home runs and keywords other than home runs are not shown) are clustered as cluster A. Further, the clustering unit 13 clusters the keywords “league”, “US major league”, and “major league” as cluster B, for example. In addition, the clustering unit 13 may include, for example, the keywords “Mgwihr”, “Mgwier first baseball”, “Mark”, “Roger”, “Sosa”, “Sosa outfielder”, “Sammy” (Maguire first baseball, Mark, Sosa Clustering of Sosa outfielder and Sammy is omitted as cluster C). Further, the clustering unit 13 clusters the keywords “Cardinals” and “Yankees” (the Yankees are not shown) as the cluster D, for example. Further, the clustering unit 13 clusters, for example, the keywords “game”, “team”, and “stadium” (team and stadium are not shown) as cluster E. In addition, the clustering unit 13 clusters the keywords “single top”, “top”, and “9th tie” (the top and 9th tie are not shown) as the cluster F, for example.

そして、表示部15が、データソート部14によってソートされた文書データに対応付けて、上記クラスター中のキーワードのうち当該ソートされた文書データを持つ文書が含むキーワードを、クラスター毎に画面表示する(ステップS6)。   Then, the display unit 15 displays the keyword included in the document having the sorted document data among the keywords in the cluster in association with the document data sorted by the data sorting unit 14 for each cluster (screen display). Step S6).

例えば、図5に示す表示画面に示すように、表示部15は、各文書(図5では論文名が「A」である文書〜論文名が「E」である文書)のテキストデータと、太線の矩形の枠で囲ったクラスター(図5では、クラスターA〜クラスターF)とを画面表示する。また、図5に示す表示画面が、例えばセルで構成されている場合を想定すると、表示部15は、例えば、論文名が「A」である文書のテキストデータ(「米大リーグ、カージナルスのマーク・マグワイア一塁手が・・・」)が表示されるセルに対応する行とクラスターAが表示されるセルに対応する列とが交差するセルの位置に、当該クラスターA中のキーワードのうち、当該文書が含むキーワード(「本塁打記録、本塁打、年間最多本塁打記録、号本塁打、46本、47号)を画面表示する。また、表示部15は、例えば、論文名が「A」である文書のテキストデータが表示されるセルに対応する行とクラスターBが表示されるセルに対応する列とが交差するセルの位置に、当該クラスターB中のキーワードのうち、当該文書が含むキーワード(「リーグ」、「米大リーグ」、「大リーグ」)を画面表示する。また、表示部15は、例えば、論文名が「A」である文書のテキストデータが表示されるセルに対応する行とクラスターCが表示されるセルに対応する列とが交差するセルの位置に、当該クラスターC中のキーワードのうち、当該文書が含むキーワード(「マグワイア」、「マグワイア一塁手」、「マーク」、「ロジャー」、「ソーサ」、「ソーサ外野手」、「サミー」)を画面表示する。また、表示部15は、例えば、論文名が「A」である文書のテキストデータが表示されるセルに対応する行とクラスターDが表示されるセルに対応する列とが交差するセルの位置に、当該クラスターD中のキーワードのうち、当該文書が含むキーワード(「カージナルス」、「ヤンキース」)を画面表示する。また、表示部15は、例えば、論文名が「A」である文書のテキストデータが表示されるセルに対応する行とクラスターEが表示されるセルに対応する列とが交差するセルの位置に、当該クラスターE中のキーワードのうち、当該文書が含むキーワード(「試合」、「チーム」、「スタジアム」)を画面表示する。また、表示部15は、例えば、論文名が「A」である文書のテキストデータが表示されるセルに対応する行とクラスターFが表示されるセルに対応する列とが交差するセルの位置に、当該クラスターF中のキーワードのうち、当該文書が含むキーワード(「単独トップ」)を画面表示する。   For example, as shown in the display screen shown in FIG. 5, the display unit 15 includes text data of each document (in FIG. 5, a document whose paper name is “A” to a document whose paper name is “E”), and bold lines. Clusters surrounded by a rectangular frame (cluster A to cluster F in FIG. 5) are displayed on the screen. Further, assuming that the display screen shown in FIG. 5 is composed of, for example, cells, the display unit 15 displays, for example, text data of a document whose paper name is “A” (“US League, Cardinals mark”).・ The keyword corresponding to the cell in which cluster A is displayed intersects the column corresponding to the cell in which the row corresponding to the cell where cluster A is displayed intersects the column corresponding to the cell where cluster A is displayed. The keywords included in the document (“Home run record, Home run, Annual home run record, Issue home run, 46, 47”) are displayed on the screen. The display unit 15 also displays the text of the document whose paper name is “A”, for example. The keyword included in the document among the keywords in the cluster B is placed at the cell position where the row corresponding to the cell in which the data is displayed intersects with the column corresponding to the cell in which the cluster B is displayed. De ( "League", "Major League Baseball rice," "Major League") to the screen display. In addition, the display unit 15 has, for example, a cell position where a row corresponding to a cell displaying text data of a document whose paper name is “A” and a column corresponding to a cell displaying cluster C intersect. , Of the keywords in the cluster C, the keywords included in the document (“Mugwire”, “McGear First Base”, “Mark”, “Roger”, “Sosa”, “Sosa Outfielder”, “Sammy”) indicate. In addition, the display unit 15 may be, for example, at a cell position where a row corresponding to a cell in which text data of a document whose paper name is “A” is displayed and a column corresponding to a cell in which the cluster D is displayed intersect. Of the keywords in the cluster D, the keywords (“cardinals” and “yankees”) included in the document are displayed on the screen. In addition, the display unit 15 has, for example, a cell position where a row corresponding to a cell in which text data of a document whose paper name is “A” is displayed and a column corresponding to a cell in which the cluster E is displayed intersect. Among the keywords in the cluster E, keywords (“game”, “team”, “stadium”) included in the document are displayed on the screen. In addition, the display unit 15 has, for example, a cell position where a row corresponding to a cell in which text data of a document whose paper name is “A” is displayed and a column corresponding to a cell in which the cluster F is displayed intersect. Of the keywords in the cluster F, the keyword included in the document (“single top”) is displayed on the screen.

同様にして、表示部15は、論文名が「B」という文書、論文名が「C」という文書についてのテキストデータに対応付けて、クラスター中のキーワードのうち各文書が含むキーワードを、クラスター毎に画面表示する。   Similarly, the display unit 15 associates the keywords included in each cluster among the keywords in the cluster with the text data of the document whose paper name is “B” and the paper whose paper name is “C”. Display on the screen.

本発明の一実施形態によれば、例えば上記ステップS6の処理の後に、クラスターソート指定部16が、各クラスターのソート内容をデータソート部14に対して指示し、データソート部14が、指示されたソート内容に従って各クラスターをソートし、表示部15が、データソート部14によってソートされた文書データに対応付けて、データソート部14によってソートされたクラスター中のキーワードのうち当該ソートされた文書データを持つ文書が含むキーワードを、データソート部14によってソートされた各クラスター毎に画面表示するようにしてもよい。   According to one embodiment of the present invention, for example, after the process of step S6, the cluster sort designation unit 16 instructs the sort contents of each cluster to the data sort unit 14, and the data sort unit 14 is instructed. Each cluster is sorted according to the sorted contents, and the display unit 15 associates the document data sorted by the data sorting unit 14 with the sorted document data among the keywords in the cluster sorted by the data sorting unit 14. The keywords included in the document having “” may be displayed on the screen for each cluster sorted by the data sorting unit 14.

図5に示す表示画面を参照すれば、例えば、論文名が「A」という文書は、米大リーグの試合における本塁打記録に関する文書であることを把握することができる。従って、本発明によれば、文書の大凡の内容を一見して把握できるような表示を行うことが可能となる。   Referring to the display screen shown in FIG. 5, for example, it can be understood that a document whose paper name is “A” is a document relating to a home run record in a game of the US Major League. Therefore, according to the present invention, it is possible to display such that the general contents of the document can be grasped at a glance.

なお、本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。   The present invention can also be implemented as a program that is read and executed by a computer. The program for realizing the present invention can be stored in an appropriate recording medium such as a portable medium memory, a semiconductor memory, and a hard disk, which can be read by a computer, provided by being recorded in these recording media, or communication. It is provided by transmission / reception using a network via an interface.

本発明のシステム構成の一例を示す図である。It is a figure which shows an example of the system configuration | structure of this invention. データ表示処理フローの一例を示す図である。It is a figure which shows an example of a data display processing flow. 各キーワードの頻度を示す図である。It is a figure which shows the frequency of each keyword. 各文書と各文書に含まれるキーワードとの対応情報を示す図である。It is a figure which shows the correspondence information of each document and the keyword contained in each document. 画面表示例を示す図である。It is a figure which shows the example of a screen display.

符号の説明Explanation of symbols

1 データ表示装置
11 キーワード抽出部
12 頻度算出部
13 クラスタリング部
14 データソート部
15 表示部
16 クラスターソート指定部
17 書誌データDB
DESCRIPTION OF SYMBOLS 1 Data display apparatus 11 Keyword extraction part 12 Frequency calculation part 13 Clustering part 14 Data sort part 15 Display part 16 Cluster sort designation | designated part 17 Bibliographic data DB

Claims (4)

データ表示装置であって、
複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と、
前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、
前記抽出されたキーワードを各キーワードが属するクラスターにクラスタリングするクラスタリング手段と、
前記算出された各キーワードの頻度の値の高いものから降順に前記各キーワードを並べ、各キーワードが文書に存在するとビット1、存在しないとビット0を割り当てて、各文書について前記並べた降順にキーワードの存否を表す複数ビットから成る2進数で表し、前記文書群を構成する各文書の文書データを頻度が高いキーワードを含む文書の順にするため、各文書を表す前記2進数の大きい数値の順にソートするデータソート手段と、
前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記各文書と前記クラスターとに対応付けて画面表示する表示手段とを備え
前記表示手段は、さらに、各クラスターに属するキーワードが出現する文書数について昇順又は降順に前記各クラスターを並び替えて画面表示するとともに、前記データソート手段でもとめた文書の順に画面表示する
ことを特徴とするデータ表示装置。
A data display device,
A keyword extracting means for extracting a keyword included in a document group composed of a plurality of documents;
A frequency calculating means for calculating a frequency at which each of the extracted keywords appears in the document group;
Clustering means for clustering the extracted keywords into clusters to which each keyword belongs;
The keywords are arranged in descending order from the highest frequency value of the calculated keywords. If each keyword exists in the document, bit 1 is assigned, and if it does not exist, bit 0 is assigned. In order to arrange the document data of each document constituting the document group in order of the document including the keyword with high frequency, the binary data representing each document is sorted in order of the numerical value with the large binary number. Data sorting means to perform,
Of the keywords belonging to the cluster, a keyword included in a document constituting the document group, or information indicating the presence / absence of a keyword belonging to the cluster in each document is displayed in association with each document and the cluster. Display means for displaying ,
The display means further displays the screen by rearranging the clusters in ascending or descending order with respect to the number of documents in which the keywords belonging to the clusters appear, and displaying the screen in the order of the documents stopped by the data sorting means. Data display device.
請求項1に記載のデータ表示装置において、
前記クラスタリング手段は、前記各キーワードのベクトル空間上の位置を示す位置ベクトルを生成し、生成された前記位置ベクトルが示す前記各キーワードの位置情報に基づいて、前記各キーワードが属するクラスターを決定する
ことを特徴とするデータ表示装置。
The data display device according to claim 1, wherein
The clustering means generates a position vector indicating a position of each keyword in a vector space, and determines a cluster to which each keyword belongs based on position information of each keyword indicated by the generated position vector. A data display device characterized by the above.
データ表示方法であって、
キーワード抽出手段で複数の文書から構成される文書群中に含まれるキーワードを抽出し、
頻度算出手段で前記抽出された各キーワードの、前記文書群中に出現する頻度を算出し、
クラスタリング手段で前記各キーワードを前記各キーワードが属するクラスターにクラスタリングし、
データソート手段で前記算出された各キーワードの頻度の値の高いものから降順に前記各キーワードを並べ、各キーワードが文書に存在するとビット1、存在しないとビット0を割り当てて、各文書について前記並べた降順にキーワードの存否を表す複数ビットから成る2進数で表し、前記文書群を構成する各文書の文書データを頻度が高いキーワードを含む文書の順にするため、各文書を表す前記2進数の大きい数値の順にソートし、
表示手段で前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記各文書と前記クラスターとに対応付けて画面表示し、
前記表示手段で、さらに、各クラスターに属するキーワードが出現する文書数について昇順又は降順に前記各クラスターを並び替えて画面表示するとともに、前記データソート手段でもとめた文書の順に画面表示する
ことを特徴とするデータ表示方法。
A data display method,
The keyword extraction means extracts keywords included in a document group composed of a plurality of documents,
The frequency calculation means calculates the frequency of each of the extracted keywords appearing in the document group,
Clustering each keyword into a cluster to which each keyword belongs by clustering means ,
The keywords are arranged in descending order from the highest frequency value of the keywords calculated by the data sorting means, bit 1 is assigned if each keyword is present in the document, and bit 0 is assigned if the keyword is not present. In order of descending order, a binary number consisting of a plurality of bits representing the presence / absence of a keyword is used, and the document data of each document constituting the document group is ordered in the order of the document including the keyword with a high frequency. Sort in numerical order,
The keywords included in the documents constituting the document group among the keywords belonging to the cluster in the display means , or information indicating the presence / absence of the keywords belonging to the cluster in each document correspond to each document and the cluster To display on the screen ,
The display means further displays the screen by rearranging the clusters in ascending or descending order with respect to the number of documents in which the keywords belonging to the clusters appear, and displaying the screen in the order of the documents stopped by the data sorting means. Data display method.
データ表示プログラムであって、
コンピュータに、
複数の文書から構成される文書群中に含まれるキーワードを抽出する処理と、
前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する処理と、
前記各キーワードを前記各キーワードが属するクラスターにクラスタリングする処理と、
前記算出された各キーワードの頻度の値の高いものから降順に前記各キーワードを並べ、各キーワードが文書に存在するとビット1、存在しないとビット0を割り当てて、各文書について前記並べた降順にキーワードの存否を表す複数ビットから成る2進数で表し、前記文書群を構成する各文書の文書データを頻度が高いキーワードを含む文書の順にするため、各文書を表す前記2進数の大きい数値の順にソートする処理と、
前記クラスターに属するキーワードのうちの前記文書群を構成する文書に含まれるキーワード、又は、各文書中における前記クラスターに属するキーワードの有無を示す情報を、前記各文書と前記クラスターとに対応付けて画面表示する処理とを実行させるデータ表示プログラムであって、
前記画面表示する処理は、さらに、各クラスターに属するキーワードが出現する文書数について昇順又は降順に前記各クラスターを並び替えて画面表示するとともに、前記ソートする処理でもとめた文書の順に画面表示する
ことを特徴とするデータ表示プログラム。
A data display program,
On the computer,
A process of extracting a keyword included in a document group composed of a plurality of documents;
Processing for calculating the frequency of each of the extracted keywords appearing in the document group;
Clustering the keywords into clusters to which the keywords belong;
The keywords are arranged in descending order from the highest frequency value of the calculated keywords. If each keyword exists in the document, bit 1 is assigned, and if it does not exist, bit 0 is assigned. In order to arrange the document data of each document constituting the document group in order of the document including the keyword with high frequency, the binary data representing each document is sorted in order of the numerical value with the large binary number. Processing to
Of the keywords belonging to the cluster, a keyword included in a document constituting the document group, or information indicating the presence / absence of a keyword belonging to the cluster in each document is displayed in association with each document and the cluster. a Lud over data display program to execute the processing for displaying,
The screen display process further includes displaying the screen by rearranging the clusters in ascending or descending order with respect to the number of documents in which the keywords belonging to each cluster appear, and displaying the screen in the order of the documents determined in the sorting process. A data display program characterized by
JP2006178922A 2006-06-29 2006-06-29 Data display device, data display method, and data display program Expired - Fee Related JP4931114B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006178922A JP4931114B2 (en) 2006-06-29 2006-06-29 Data display device, data display method, and data display program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006178922A JP4931114B2 (en) 2006-06-29 2006-06-29 Data display device, data display method, and data display program

Publications (2)

Publication Number Publication Date
JP2008009671A JP2008009671A (en) 2008-01-17
JP4931114B2 true JP4931114B2 (en) 2012-05-16

Family

ID=39067837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006178922A Expired - Fee Related JP4931114B2 (en) 2006-06-29 2006-06-29 Data display device, data display method, and data display program

Country Status (1)

Country Link
JP (1) JP4931114B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5384884B2 (en) * 2008-09-03 2014-01-08 日本電信電話株式会社 Information retrieval apparatus and information retrieval program
JP6495124B2 (en) * 2015-07-09 2019-04-03 日本電信電話株式会社 Term semantic code determination device, term semantic code determination model learning device, method, and program
CN111382340A (en) * 2020-03-20 2020-07-07 北京百度网讯科技有限公司 Information identification method, information identification device and electronic equipment
JPWO2022130579A1 (en) * 2020-12-17 2022-06-23
JP7487797B2 (en) 2020-12-17 2024-05-21 富士通株式会社 Similarity determination program, similarity determination device, and similarity determination method
CN115098690B (en) * 2022-08-24 2023-02-24 中信天津金融科技服务有限公司 Multi-data document classification method and system based on cluster analysis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128872A (en) * 2003-10-24 2005-05-19 Toshiba Solutions Corp Document retrieving system and document retrieving program
JP4325370B2 (en) * 2003-11-13 2009-09-02 日本電信電話株式会社 Document-related vocabulary acquisition device and program

Also Published As

Publication number Publication date
JP2008009671A (en) 2008-01-17

Similar Documents

Publication Publication Date Title
CN106844658B (en) Automatic construction method and system of Chinese text knowledge graph
CN109219811B (en) Related paragraph retrieval system
Van Ham et al. Mapping text with phrase nets
Meadow et al. Text information retrieval systems
Kowalski Information retrieval architecture and algorithms
US7295967B2 (en) System and method of analyzing text using dynamic centering resonance analysis
US9639609B2 (en) Enterprise search method and system
US20090300046A1 (en) Method and system for document classification based on document structure and written style
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
JP2005526317A (en) Method and system for automatically searching a concept hierarchy from a document corpus
JP2005157524A (en) Question response system, and method for processing question response
WO2009094586A1 (en) Phrase based snippet generation
JP5273735B2 (en) Text summarization method, apparatus and program
US20080168343A1 (en) System and Method of Automatically Mapping a Given Annotator to an Aggregate of Given Annotators
JP4931114B2 (en) Data display device, data display method, and data display program
JP4849596B2 (en) Question answering apparatus, question answering method, and question answering program
CN113032552A (en) Text abstract-based policy key point extraction method and system
JP2007047974A (en) Information extraction device and information extraction method
Jones Text and context: document storage and processing
JP2008243024A (en) Information acquisition device, program therefor and method
JP4719921B2 (en) Data display device and data display program
Eggi Afaan oromo text retrieval system
JPH09319767A (en) Synonym dictionary registering method
Agosti Information access through search engines and digital libraries
NASSR et al. Generate a list of stop words in Moroccan dialect from social network data using word embedding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110920

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120210

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees