JP2001101227A - Document sorter and document sorting method - Google Patents

Document sorter and document sorting method

Info

Publication number
JP2001101227A
JP2001101227A JP28201499A JP28201499A JP2001101227A JP 2001101227 A JP2001101227 A JP 2001101227A JP 28201499 A JP28201499 A JP 28201499A JP 28201499 A JP28201499 A JP 28201499A JP 2001101227 A JP2001101227 A JP 2001101227A
Authority
JP
Japan
Prior art keywords
document
feature vector
feature
classification
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP28201499A
Other languages
Japanese (ja)
Other versions
JP4143234B2 (en
Inventor
Eiji Kenmochi
栄治 剣持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP28201499A priority Critical patent/JP4143234B2/en
Publication of JP2001101227A publication Critical patent/JP2001101227A/en
Application granted granted Critical
Publication of JP4143234B2 publication Critical patent/JP4143234B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a document sorter, etc., capable of comprehensively analyzing a document set by extracting many document subsets with different sorting standards. SOLUTION: This document sorter to sort the document set according to the contents of a document is provided with a document analyzing part 2 to analyze words of each piece of document data in the document set, a characteristic vector generating part 3 to calculate a document characteristic vector based on an analysis result by the document analyzing part 2, a characteristic vector correcting part 4 to correct the document characteristic vector by operating characteristic dimension of the document characteristic vector based on a specified standard, a document sorting part 5 to sort the document set into plural document subsets based on degrees of similarity among the document characteristic vectors including the corrected document characteristic vector and is constituted so as to repeat operation to correct the document characteristic vector by the characteristic vector correcting part 4 and operation to sort the document set into the document subsets by the document sorting part 5 according to a specified repeating condition after the analysis result is stored in a sorting result storage part 6 by the document sorting part 5.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書群を文書の内
容に従って複数の文書部分集合に自動分類する文書群分
類装置などに係わり、特に、分類基準の異なる部分文書
集合を多数抽出することができる文書分類装置などに関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document grouping apparatus for automatically classifying a document group into a plurality of document subsets according to the contents of the document, and more particularly to extracting a large number of partial document sets having different classification criteria. The present invention relates to a document classification device that can be used.

【0002】[0002]

【従来の技術】近年、インターネットなどの普及により
大量の文書情報へのアクセスが可能になったことなどに
伴い、収集した大量の文書情報を意味のあるグループに
(例えば話題毎に)分類することにより、所望の文書情
報へのアクセスを効率的に行えるようにしたり、大量の
文書集合の分析作業を効率的に行えるようにする必要性
が高まっている。しかし、大量の文書情報を利用者が手
動で分類するのでは、人的/時間的コストが膨大なもの
になる。そのため、近年では、文書集合を文書の内容に
より自動分類できる装置が提供されるに至っている。そ
のような自動分類においては、例えば、日本語形態素解
析などの自然言語処理を用いて文書からそれらを構成す
る複数の単語を抽出することにより、文書を複数の単語
の出現頻度のベクトル(文書特徴ベクトル)として空間
表現する。この技術は文書のベクトル空間モデルと呼ば
れ、広く用いられている。このようなベクトル空間モデ
ルでは、空間内における任意の2つの文書特徴ベクトル
間の距離、内積、余弦等を算出することでベクトル間の
類似度を定義できるので、統計的手法を用いて文書の内
容による自動分類をおこなうことが可能となり、種々の
文書自動分類方法が提供されている(例えば、特開平7-
114572号公報記載の発明など)。これらの方法の多く
は、生成する部分文書集合の質の向上を目指したもので
ある(例えば、特開平11-45247号公報記載の発明)。生
成された部分文書集合を単位としてさまざまな作業を効
率的に行おうというわけであるから、確かに生成する部
分文書集合の質は重要な課題である。しかし、それと同
時に、分類対象の文書集合に内在している様々な話題を
分類された部分文書集合がいかに多く抽出することがで
きるかということも同様に重要な課題である。しかしな
がら、この課題を直接的に扱っている方法は見当たらな
い。
2. Description of the Related Art In recent years, with the spread of the Internet and the like, it has become possible to access a large amount of document information, and the collected large amount of document information is classified into meaningful groups (for example, for each topic). Accordingly, there is an increasing need to enable efficient access to desired document information and efficient analysis of a large set of documents. However, if a user manually classifies a large amount of document information, human / time costs become enormous. Therefore, in recent years, apparatuses capable of automatically classifying a set of documents according to the contents of the documents have been provided. In such automatic classification, for example, by extracting a plurality of words constituting them from a document using natural language processing such as Japanese morphological analysis, the document is classified into a vector of the frequency of occurrence of the plurality of words (document feature). Vector). This technique is called a vector space model of a document, and is widely used. In such a vector space model, the similarity between vectors can be defined by calculating the distance, inner product, cosine, and the like between any two document feature vectors in the space. It is possible to perform automatic classification according to various documents, and various document automatic classification methods are provided (for example, Japanese Patent Laid-Open No.
No. 114572). Many of these methods aim at improving the quality of the generated partial document set (for example, the invention described in JP-A-11-45247). In order to efficiently perform various tasks in units of the generated partial document set, the quality of the generated partial document set is certainly an important issue. However, at the same time, it is also an important issue how much a partial document set in which various topics included in the document set to be classified are classified can be extracted. However, there is no way to address this issue directly.

【0003】[0003]

【発明が解決しようとする課題】前記のように、従来技
術においては、部分文書集合への分類に際して、文書集
合に含まれる話題の一部分しか抽出できないため、文書
集合に対する包括的な分析をすることができないという
問題がある。本発明の課題は、このような従来技術の問
題を解決し、特定の基準に基づき文書特徴ベクトルの特
徴次元を動的に操作し、文書自動分類を繰り返し行うこ
とにより、分類時に用いられる特徴ベクトル間の類似度
が動的に異なる、つまり分類基準が異なる部分文書集合
を多数、自動抽出することができるようにして、文書集
合に対する包括的な分析を行うことができる文書分類装
置などを提供することにある。
As described above, in the prior art, when classifying a document into partial document sets, only a part of a topic included in the document set can be extracted. There is a problem that can not be. An object of the present invention is to solve such a problem of the prior art, dynamically operate a feature dimension of a document feature vector based on a specific criterion, and repeatedly perform automatic document classification to obtain a feature vector used at the time of classification. Provided is a document classifier that can automatically extract a large number of partial document sets having different dynamic similarities, that is, different classification criteria, and perform a comprehensive analysis of the document sets. It is in.

【0004】[0004]

【課題を解決するための手段】前記の課題を解決するた
めに、請求項1記載の発明では、文書の内容に従って文
書集合を自動的に分類する文書分類装置において、複数
の文書から成る文書集合のそれぞれの文書データ中の単
語を解析する文書解析手段と、前記文書解析手段による
解析結果に基づいて文書特徴ベクトルを求める特徴ベク
トル生成手段と、所定の基準に基づき前記文書特徴ベク
トルの特徴次元を操作して前記文書特徴ベクトルを修正
する特徴ベクトル修正手段と、修正された文書特徴ベク
トルを含む文書特徴ベクトル間の類似度に基づいて文書
集合を複数の部分文書集合に分類し分類結果を分類結果
記憶手段に記憶させる文書分類手段とを備え、前記文書
分類手段が分類結果を記憶させた後、所定のくり返し条
件を用いた判定に従い、くり返しと判定された場合、前
記特徴ベクトル修正手段が文書特徴ベクトルを修正する
動作、および文書分類手段が部分文書集合に分類し結果
を記憶する動作をくり返す構成にした。また、請求項2
記載の発明では、請求項1記載の発明において、特徴ベ
クトル生成手段が、生成される文書特徴ベクトルの特徴
次元を所定の基準に従って順序付けし、特徴ベクトル修
正手段が、操作する特徴次元を前記特徴ベクトル生成手
段により順序付けされた順序に従って決定する構成にし
た。また、請求項3記載の発明では、請求項1または請
求項2記載の発明において、特徴ベクトル生成手段によ
り求められた文書特徴ベクトルを記憶しておく特徴ベク
トル記憶手段を備え、特徴ベクトル修正手段が文書特徴
ベクトルをくり返し修正する際、前記特徴ベクトル記憶
手段に記憶されている特徴ベクトルを修正する構成にし
た。また、請求項4記載の発明では、請求項1、請求項
2、または請求項3記載の発明において、分類結果記憶
手段に記憶された分類結果から統計情報を算出し、算出
された統計情報を用いて操作する特徴次元を決定する構
成にした。また、請求項5記載の発明では、請求項4記
載の発明において、統計情報を、それぞれの部分文書集
合における特徴次元の分散値とする構成にした。
According to the first aspect of the present invention, there is provided a document classification apparatus for automatically classifying a document set according to the contents of the document. Document analysis means for analyzing words in the respective document data, feature vector generation means for obtaining a document feature vector based on the analysis result by the document analysis means, and a feature dimension of the document feature vector based on a predetermined criterion. A feature vector correcting means for operating to correct the document feature vector; and classifying a set of documents into a plurality of partial document sets based on a similarity between the document feature vectors including the corrected document feature vector, and classifying the classification result. Document classification means for storing in the storage means, after the document classification means stores the classification result, the determination using a predetermined repetition condition There, when it is determined To repeatedly, and the feature operation vector correction means corrects the document feature vector, and a document classification means repeating the operation for storing the results were classified into the partial document set configuration. Claim 2
According to the invention described in claim 1, in the invention described in claim 1, the feature vector generating means orders the feature dimensions of the generated document feature vector according to a predetermined criterion, and the feature vector correcting means assigns the feature dimension to be operated to the feature vector. The configuration is such that it is determined according to the order determined by the generating means. According to a third aspect of the present invention, in the first or second aspect of the present invention, there is provided a feature vector storage unit for storing a document feature vector obtained by the feature vector generation unit. When the document feature vector is repeatedly corrected, the feature vector stored in the feature vector storage unit is corrected. According to a fourth aspect of the present invention, in the first, second, or third aspect of the invention, statistical information is calculated from the classification result stored in the classification result storage means, and the calculated statistical information is calculated. It is configured to determine the feature dimension to be operated using. According to a fifth aspect of the invention, in the fourth aspect of the invention, the statistical information is configured to be a variance value of a feature dimension in each partial document set.

【0005】また、請求項6記載の発明では、文書の内
容に従って文書集合を自動的に分類する文書分類方法に
おいて、複数の文書から成る文書集合のそれぞれの文書
データ中の単語を解析し、その解析結果に基づいて文書
特徴ベクトルを求め、文書特徴ベクトル間の類似度に基
づいて文書集合を複数の部分文書集合に分類し分類結果
を記憶させ、その後、所定のくり返し条件を用いた判定
に従い、くり返しと判定された場合、所定の基準に基づ
き前記文書特徴ベクトルの特徴次元を操作して前記文書
特徴ベクトルを修正し、修正された文書特徴ベクトルを
含む文書特徴ベクトル間の類似度に基づいて文書集合を
複数の部分文書集合に分類し分類結果を記憶させ、さら
に、前記所定のくり返し条件を用いた判定に従い、くり
返しと判定された場合、文書特徴ベクトルを修正する動
作、および部分文書集合に分類し結果を記憶する動作を
くり返す方法にした。また、請求項7記載の発明では、
請求項6記載の発明において、生成される文書特徴ベク
トルの特徴次元を所定の基準に従って順序付けし、操作
する特徴次元を順序付けされた順序に従って決定する方
法にした。また、請求項8記載の発明では、請求項6ま
たは請求項7記載の発明において、最初に求められた文
書特徴ベクトルを記憶しておき、文書特徴ベクトルをく
り返し修正する際、記憶されている最初に求められた特
徴ベクトルを修正する方法にした。また、請求項9記載
の発明では、請求項6、請求項7、または請求項8記載
の発明において、記憶された分類結果から統計情報を算
出し、算出された統計情報を用いて操作する特徴次元を
決定する方法にした。また、請求項10記載の発明では、
請求項9記載の発明において、統計情報を、それぞれの
部分文書集合における特徴次元の分散値とした。また、
請求項11記載の発明では、プログラムを記憶した記憶媒
体において、請求項6乃至請求項10記載の文書分類方法
に従ってプログラミングしたプログラムを記憶する構成
にした。
According to a sixth aspect of the present invention, in a document classification method for automatically classifying a document set according to the contents of the document, a word in each document data of the document set including a plurality of documents is analyzed, and A document feature vector is obtained based on the analysis result, the document set is classified into a plurality of partial document sets based on the similarity between the document feature vectors, the classification result is stored, and then, according to the determination using a predetermined repeated condition, When it is determined to be repeated, the document feature vector is modified based on a predetermined criterion by manipulating the feature dimension of the document feature vector, and the document is determined based on the similarity between the document feature vectors including the corrected document feature vector. The set is classified into a plurality of partial document sets, the classification result is stored, and further, according to the determination using the predetermined repetition condition, the repetition is determined. If the operation to correct the document feature vector, and classifies the partial document set and to a method of repeating the operation for storing the results. In the invention according to claim 7,
According to a sixth aspect of the present invention, the method is arranged such that the feature dimensions of the generated document feature vector are ordered according to a predetermined standard, and the feature dimensions to be operated are determined according to the ordered order. According to an eighth aspect of the present invention, in the sixth or seventh aspect of the present invention, the first determined document feature vector is stored, and when the document feature vector is repeatedly corrected, the first stored document feature vector is stored. The method of correcting the feature vector calculated in the above was adopted. According to the ninth aspect of the present invention, in the sixth, seventh, or eighth aspect, statistical information is calculated from the stored classification results, and the operation is performed using the calculated statistical information. The method of determining the dimension was used. In the invention according to claim 10,
According to the ninth aspect, the statistical information is a variance value of a feature dimension in each of the partial document sets. Also,
According to an eleventh aspect of the present invention, a storage medium storing a program stores a program programmed according to the document classification method according to the sixth to tenth aspects.

【0006】前記のような手段にしたので、請求項1お
よび請求項6記載の発明では、複数の文書から成る文書
集合のそれぞれの文書データ中の単語が解析され、その
解析結果に基づいて文書特徴ベクトルが求められ、文書
特徴ベクトル間の類似度に基づいて文書集合が複数の部
分文書集合に分類され、その後、条件によってくり返し
が選択されると、所定の基準に基づき前記文書特徴ベク
トルの特徴次元が修正され、修正された文書特徴ベクト
ルを含む文書特徴ベクトル間の類似度に基づいて文書集
合が複数の部分文書集合に分類され、さらに、前記条件
によってくり返しが選択されると、文書特徴ベクトルを
修正する動作、および部分文書集合に分類し結果を記憶
する動作がくり返される。請求項2および請求項7記載
の発明では、請求項1または請求項6記載の発明におい
て、生成される文書特徴ベクトルの特徴次元が所定の基
準に従って順序付けされ、操作する特徴次元が順序付け
された順序に従って決定される。請求項3および請求項
8記載の発明では、請求項6または請求項7記載の発明
において、最初に求められた文書特徴ベクトルが記憶し
ておかれ、文書特徴ベクトルをくり返し修正する際、記
憶されている最初に求められた特徴ベクトルが修正され
る。請求項4および請求項9記載の発明では、請求項1
乃至請求項3または請求項6乃至請求項8記載の発明に
おいて、記憶された分類結果から統計情報が算出され、
算出された統計情報を用いて操作する特徴次元が決定さ
れる。請求項5および請求項10記載の発明では、請求項
4または請求項9記載の発明において、記憶された分類
結果からそれぞれの部分文書集合における特徴次元の分
散値が算出され、算出された分散値を用いて操作する特
徴次元が決定される。請求項11記載の発明では、請求項
6乃至請求項10記載の文書分類方法に従ってプログラミ
ングしたプログラムが例えば着脱可能な記憶媒体に記憶
される。
According to the first and sixth aspects of the present invention, a word in each document data of a document set composed of a plurality of documents is analyzed, and a document is analyzed based on the analysis result. A feature vector is determined, the document set is classified into a plurality of partial document sets based on the similarity between the document feature vectors, and then, if repetition is selected according to a condition, the feature of the document feature vector is determined based on a predetermined criterion. When the dimension is corrected, the document set is classified into a plurality of partial document sets based on the similarity between the document feature vectors including the corrected document feature vector, and when the above-mentioned condition is repeated, the document feature vector And the operation of classifying the document into partial document sets and storing the result are repeated. According to the second and seventh aspects of the invention, in the first or the sixth aspect of the invention, the feature dimensions of the generated document feature vector are ordered according to a predetermined criterion, and the feature dimensions to be operated are ordered. Is determined according to According to the third and eighth aspects of the present invention, in the invention of the sixth or seventh aspect, the document feature vector obtained first is stored and stored when the document feature vector is repeatedly corrected. The first determined feature vector is modified. According to the invention described in claim 4 and claim 9, claim 1
In the invention of claims 3 or 6 to 8, statistical information is calculated from the stored classification results,
The feature dimension to be operated is determined using the calculated statistical information. According to the fifth and tenth aspects of the present invention, in the fourth or ninth aspect of the present invention, a variance value of a feature dimension in each partial document set is calculated from the stored classification results, and the calculated variance value is calculated. Is used to determine a feature dimension to be operated. According to the eleventh aspect, a program programmed according to the document classification method according to the sixth to tenth aspects is stored in, for example, a removable storage medium.

【0007】[0007]

【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。図1は本発明の第1の実施形態
を示す文書分類装置の構成ブロック図である。図示した
ように、この実施形態の文書分類装置は、複数の文書か
ら成る文書集合のそれぞれの文書データを入力する文書
入力部1、前記文書入力部1により入力されたそれぞれ
の文書データ中の単語を解析する文書解析手段である文
書解析部2、前記文書解析部2による解析結果に基づい
て文書特徴ベクトルを求める特徴ベクトル生成手段であ
る特徴ベクトル生成部3、所定の基準に基づき前記文書
特徴ベクトルの特徴次元を操作して前記文書特徴ベクト
ルを修正する特徴ベクトル修正手段である特徴ベクトル
修正部4、修正された文書特徴ベクトルを含む文書特徴
ベクトル間の類似度に基づいて文書集合を複数の部分文
書集合に分類する文書分類手段である文書分類部5、前
記文書分類部5により分類された分類結果を記憶してお
く分類結果記憶手段である分類結果記憶部6、所定のく
り返し条件に従って文書特徴ベクトル修正から後の動作
をくり返させるくり返し判定部7などを備えている。な
お、前記文書解析部2、特徴ベクトル生成部3、特徴ベ
クトル修正部4、文書分類部5、くり返し判定部7は、
プログラムやデータを記憶しておく共有のメモリ(例え
ばRAM)およびそのプログラムに従って動作する共有
または専有のCPUを有する。以下、前記各部について
さらに説明する。まず、文書入力部1であるが、キーボ
ード、OCR装置、着脱可能な記憶媒体、ネットワーク
インタフェース部などを備え、それらを用いて文書デー
タ群を入力し、文書記憶部(図示していない)に格納す
る。また、文書解析部2は、入力された文書データのそ
れぞれに対して自然言語解析を行い、単語やその品詞な
どを抽出する。さらに、文書データ内での単語の出現順
序、および文書の作成者や作成日など文書のメタ情報
(属性情報)などを含めた文書解析を行うこともでき
る。単語を抽出した後は、文書群中に出現した単語に対
して一意な単語識別符号(ID)を付与し、文書毎に単語
出現回数を計数する。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a configuration block diagram of a document classification device according to the first embodiment of the present invention. As shown in the figure, a document classification device of this embodiment includes a document input unit 1 for inputting respective document data of a document set including a plurality of documents, and a word in each document data input by the document input unit 1. A document analysis unit that is a document analysis unit that analyzes a document; a feature vector generation unit that is a feature vector generation unit that obtains a document feature vector based on an analysis result by the document analysis unit 2; A feature vector correcting unit 4 for correcting the document feature vector by manipulating the feature dimension of the document set. The document set is divided into a plurality of parts based on the similarity between the document feature vectors including the corrected document feature vector. A document classifying unit 5 serving as a document classifying unit for classifying documents into a set of documents; A storage means the classification result storing unit 6, and a like repetition determining unit 7 causes repeated operation after a document feature vector correction according to a predetermined repetition condition. The document analysis unit 2, the feature vector generation unit 3, the feature vector correction unit 4, the document classification unit 5, and the repetition determination unit 7
It has a shared memory (for example, RAM) for storing programs and data, and a shared or dedicated CPU that operates according to the programs. Hereinafter, each of the components will be further described. First, the document input unit 1 includes a keyboard, an OCR device, a detachable storage medium, a network interface unit, and the like. A document data group is input using these components and stored in a document storage unit (not shown). I do. In addition, the document analysis unit 2 performs a natural language analysis on each of the input document data, and extracts words and their parts of speech. Further, it is also possible to perform document analysis including document meta information (attribute information) such as the order in which words appear in the document data and the creator and date of creation of the document. After the words are extracted, a unique word identification code (ID) is assigned to the words appearing in the document group, and the number of appearances of the words is counted for each document.

【0008】特徴ベクトル生成部3では、文書解析部2
で生成した単語、単語ID、単語出現回数、品詞情報など
の文書解析データを基に、行成分が文書ID、列成分が単
語IDであり、行列要素が前記各文書IDの文書の含む前記
各単語IDの単語の出現回数となるような文書-単語行列
データを生成する。そして、この文書-単語行列の各行
ベクトルを文書特徴ベクトルとする。文書-単語行列デ
ータと文書特徴ベクトルの例を図2に示す。なお、この
文書特徴ベクトルに対して正規化処理を行うこともでき
る。また、単語が有する多義性・同義性の問題に対処す
るために、生成した文書-単語行列に対して因子分析、
数量化III類、および特異値分解などの多次元尺度手法
を適用することにより文書特徴ベクトルを生成すること
もできる。例えば、特異値分解を用いて文書-単語行列
から文書特徴ベクトルを生成する方法では、大きさd×t
(dは文書数,tは単語数)の文書-単語行列(文書特徴
ベクトル)Xを式(1)のように複数の行列に分解す
る。なお、式(1)において、svd ( )は行列へ特異値
分解を適用する演算子である。また、特異値とは、特異
値分解により生成される値であり、例えば、多数の文書
に共通して出現する単語を多数含む文書が、特異値から
成る行列Lの特異値の高い次元で高い値になる。 式(1) X = svd(X) = ALUT [Tは行列の転置を示す] 式(1)において、A,L,Uはいずれも行列であり、行列
Aは大きさd×k(kはtより小さい)の行列となる。つま
り、大きさd×kの行列Aにおける各行ベクトルが文書特
徴ベクトルとなる。ここで、kは1≦k≦rの整数で、rは
dとtの小さい方より小さく、行列Xのランクを示す。ま
た、行列Lは特異値からなる大きさk×kの対角行列であ
り、行列Uはt×kの行列で、任意の単語をk次元の潜在構
造空間へ写像したものと考えることができる。なお、文
書特徴ベクトルを効率的に管理するために、特徴ベクト
ル生成部3は、文書-単語行列データに付随する付加的
な情報、たとえば、文書-単語行列データの列成分であ
る単語IDとその単語との対応関係を記述した単語-単語I
D対応マップデータや、各単語について単語IDとその単
語の有する品詞情報との対応関係を記述した単語ID-品
詞対応マップデータなども同時に生成する。
The feature vector generation unit 3 includes a document analysis unit 2
Based on the document analysis data such as the word, the word ID, the number of appearances of the word, and the word class information, the row component is the document ID, the column component is the word ID, and the matrix element includes the document of the document ID. Generate document-word matrix data that is the number of occurrences of the word with the word ID. Then, each row vector of the document-word matrix is set as a document feature vector. FIG. 2 shows an example of the document-word matrix data and the document feature vector. Note that a normalization process can be performed on the document feature vector. In addition, to deal with the problem of polysemy and synonymity of words, factor analysis,
A document feature vector can also be generated by applying a multidimensional scaling method such as quantification type III and singular value decomposition. For example, in a method of generating a document feature vector from a document-word matrix using singular value decomposition, a size d × t
A document-word matrix (document feature vector) X (where d is the number of documents and t is the number of words) is decomposed into a plurality of matrices as in equation (1). In equation (1), svd () is an operator that applies singular value decomposition to a matrix. Further, the singular value is a value generated by singular value decomposition. Value. Equation (1) X = svd (X) = ALU T [T indicates transposition of matrix] In Equation (1), A, L, and U are all matrices, and matrix A has a size d × k (k Is smaller than t). That is, each row vector in the matrix A of size d × k is a document feature vector. Here, k is an integer of 1 ≦ k ≦ r, and r is
Indicates the rank of matrix X, which is smaller than the smaller of d and t. Further, the matrix L is a diagonal matrix of size k × k composed of singular values, and the matrix U is a matrix of t × k, and can be considered as mapping any word to a k-dimensional latent structure space. . In order to efficiently manage the document feature vector, the feature vector generation unit 3 adds additional information accompanying the document-word matrix data, for example, a word ID which is a column component of the document-word matrix data and its information. Word-word I describing correspondence with word
At the same time, D correspondence map data, word ID-part of speech correspondence map data describing the correspondence between the word ID and the part of speech information of the word for each word, and the like are also generated.

【0009】また、特徴ベクトル修正部4では、前記文
書特徴ベクトルの特徴次元(ベクトルの次元であり、そ
れぞれの次元は近似的に文書集合において振る舞いの似
た複数の単語から構成されるものと考えることができ
る)を所定の基準に基づき逐次的に操作することにより
文書特徴ベクトルを修正する。なお、特徴次元の操作と
てしては、次元の重み付け、削除、および線形変換など
を行うことができる。例えば、文書特徴ベクトルから特
定の次元を削除する場合では、文書特徴ベクトルをd×k
の大きさの行列Aとし、削除する特徴次元に対応する列
を大きさk×kの単位行列から削除した結果生成されるk
×k'の大きさの修正行列をPk'とすると、修正された文
書特徴ベクトルA'は式(2)のように求めることができ
る(この式は、前記特異値分解の場合に限定していない
一般的な表現をしている)。 式(2) A' = A Pk' また、修正行列として大きさk×kの単位行列から削除す
る特徴次元に対応する対角要素を0にした結果生成され
る行列を用いても特徴次元の削除を行えるが、この場合
は修正された文書特徴ベクトルの次元数は修正前と同じ
になる。なお、くり返し実行の際には、式(2)に示す
修正が逐次的に実行される。特徴次元を削除する順序
は、特徴次元の1番目から整列順であってもよいし、1
から特徴次元数までの乱数を発生させることで決めても
よい。このようにして、逐次削除した特徴次元の表現し
ていた特徴を排除した特徴空間での文書分類が可能とな
り、最も中心的な話題(特徴)の陰に隠れてしまってい
る他の話題が分類のための視点になってくるのである。
特に、前記の特異値分解を用いて文書特徴ベクトルを生
成した場合には、文書特徴ベクトルの各次元は対応する
特異値の大きさで順位付けされるので、特異値の大きな
特徴次元から徐々に削除していくことにより、逐次主要
な話題の影響を排除した特徴空間で文書分類を行うこと
が可能となる。つまり、各特徴次元のそれぞれは、近似
的にいくつかの振る舞いの似た単語で構成されるものと
考えることができるため、文書データ内に内在するそれ
ぞれの話題と解釈することができ、各特徴次元に対応す
る特異値の大きさは、文書データ内での話題の主要性を
あらわすものと考えられ、特異値が大きい程、対応する
特徴次元は文書データ内での主要な話題を示すものと解
釈することができるので、くり返し実行の際に、特異値
の大きな特徴次元から徐々に削除していくことにより、
逐次主要な話題の影響を排除した特徴空間で文書分類を
行うことが可能となるのである。なお、特徴ベクトル修
正部4はくり返し実行の初回にはバイパスされる。ま
た、文書分類部5は、生成した文書特徴ベクトルに統計
的手法を適用することで文書分類を行う。文書特徴ベク
トル値が近い文書は似た文書であるので、文書特徴ベク
トル値の近い文書同志を集めて複数の部分文書集合を生
成するのである。適用する統計的手法としては判別分析
の手法やクラスタ分析の手法などの分類手法を適用する
ことができるが、ここではベクトルデータが適用できる
分類手法であれば、その手法は問わない。
The feature vector correction unit 4 considers that the feature dimension of the document feature vector (the dimension of the vector, and that each dimension is approximately composed of a plurality of words having similar behavior in a document set. ) Can be sequentially operated based on a predetermined criterion to correct the document feature vector. As the operation of the feature dimension, dimension weighting, deletion, linear transformation, and the like can be performed. For example, when deleting a specific dimension from the document feature vector, the document feature vector is set to d × k
Is a matrix A of size k, and k is generated as a result of deleting the column corresponding to the feature dimension to be deleted from the unit matrix of size k × k.
Assuming that a correction matrix having a size of × k ′ is Pk ′, a corrected document feature vector A ′ can be obtained as in Expression (2) (this expression is limited to the case of the singular value decomposition). There is no general expression). Equation (2) A ′ = A Pk ′ Also, a matrix generated as a result of setting the diagonal element corresponding to the feature dimension to be deleted from the unit matrix of size k × k to 0 as a correction matrix can be used. Although deletion can be performed, in this case, the number of dimensions of the corrected document feature vector becomes the same as before the correction. At the time of repetitive execution, the correction shown in Expression (2) is sequentially performed. The order in which the feature dimensions are deleted may be an arrangement order from the first feature dimension, or 1
Alternatively, it may be determined by generating a random number from to the number of feature dimensions. In this way, it is possible to classify documents in the feature space excluding the features represented by the sequentially deleted feature dimensions, and to classify other topics hidden behind the most central topic (feature). It becomes a viewpoint for.
In particular, when a document feature vector is generated using the above singular value decomposition, each dimension of the document feature vector is ranked according to the size of the corresponding singular value. By deleting, it becomes possible to perform document classification in a feature space in which the influence of a main topic is sequentially eliminated. In other words, since each feature dimension can be considered to be composed of words having approximately similar behaviors, each feature dimension can be interpreted as a topic inherent in the document data. The magnitude of the singular value corresponding to the dimension is considered to indicate the mainity of the topic in the document data, and as the singular value increases, the corresponding feature dimension indicates the main topic in the document data. Because it can be interpreted, by repeatedly removing from the feature dimension with a large singular value at the time of repeated execution,
This makes it possible to classify documents in a feature space in which the influence of major topics is eliminated. Note that the feature vector correction unit 4 is bypassed in the first iteration. Further, the document classifying unit 5 classifies the document by applying a statistical method to the generated document feature vector. Since documents having similar document characteristic vector values are similar documents, a plurality of partial document sets are generated by collecting documents having similar document characteristic vector values. As a statistical method to be applied, a classification method such as a discriminant analysis method or a cluster analysis method can be applied. However, any classification method can be used here as long as vector data can be applied.

【0010】図3に、第1の実施形態の動作フローを示
す。以下、図3などに従って、この実施形態の動作を説
明する。まず、文書入力部1により、キーボード、OC
R装置、着脱可能な記憶媒体、またはネットワークイン
タフェース部などを介して分類対象の文書データ群(文
書集合)を入力し、それらを文書記憶部(図示していな
い)に格納する(ステップS1)。次に、文書解析部2
が、入力されたそれぞれの文書データに対して自然言語
解析を行い、単語やその品詞などを抽出する(ステップ
S2)。そして、文書データ群中に出現した単語に対し
て一意な単語識別符号(ID)を付与し、文書毎に単語出
現回数を計数する(ステップS2)。続いて、特徴ベク
トル生成部3が、文書解析部2で生成した単語、単語I
D、単語出現回数、品詞情報などの文書解析データを基
に、行成分が文書ID、列成分が単語IDであり、行列要素
が前記各文書IDの文書の含む前記各単語IDの単語の出現
回数となるような文書-単語行列データを生成する(ス
テップS3)。そして、この文書-単語行列の各行ベク
トルを文書特徴ベクトルとする(図2参照)。さらに、
文書分類部5が、生成した文書特徴ベクトルに統計的手
法を適用することで文書分類を行う(ステップS5)。
文書特徴ベクトル値が近い文書は似た文書であるので、
文書特徴ベクトル値の近い文書同志を集めて複数の部分
文書集合を生成するのである。この後は、文書分類部5
が、生成した文書分類結果を分類結果記憶部6に記憶さ
せ(ステップS6)、くり返し判定部7が、文書特徴ベ
クトルを修正させて文書分類をくり返すかどうかを所定
のくり返し条件を用いて判定する(ステップS7)。な
お、前記判定を行うための所定のくり返し条件として
は、予め設定されたくり返し回数を用いることができる
し、文書特徴ベクトルの次元数などを参考にして決定す
ることもできる。また、分類結果を見て、利用者がくり
返すか否かを指示することも可能である。そして、くり
返すと判定されたならば(ステップS7でYes)、前記
のようにして文書特徴ベクトルを修正する(ステップS
4)。例えば、文書特徴ベクトルを構成する一つの特徴
次元を所定の基準で選択し、その特徴次元を削除するの
である。続いて、文書分類部5が修正された特徴ベクト
ルを用いて再び文書分類を行い(ステップS5)、分類
結果を分類結果記憶部6に記憶させる(ステップS
6)。こうして、前記のように、例えば特異値分解を用
いて文書特徴ベクトルを生成した場合、文書特徴ベクト
ルの各次元は対応する特異値の大きさで順位付けされ、
特異値の大きな特徴次元から逐次削除され、逐次主要な
話題の影響を排除した特徴空間で文書分類を行うことが
可能となる。
FIG. 3 shows an operation flow of the first embodiment. Hereinafter, the operation of this embodiment will be described with reference to FIG. First, the document input unit 1 uses a keyboard, an OC,
A document data group (document set) to be classified is input via an R device, a removable storage medium, a network interface unit, or the like, and stored in a document storage unit (not shown) (step S1). Next, the document analysis unit 2
Performs natural language analysis on each of the input document data, and extracts words and their parts of speech (step S2). Then, a unique word identification code (ID) is assigned to the word appearing in the document data group, and the number of word appearances is counted for each document (step S2). Subsequently, the feature vector generation unit 3 generates the word, word I generated by the document analysis unit 2.
Based on document analysis data such as D, the number of appearances of words, part of speech information, etc., the row component is a document ID, the column component is a word ID, and the matrix element is the occurrence of the word of each word ID included in the document of each document ID The document-word matrix data is generated as the number of times (step S3). Then, each row vector of the document-word matrix is set as a document feature vector (see FIG. 2). further,
The document classifying unit 5 classifies documents by applying a statistical method to the generated document feature vector (step S5).
Since documents with similar document feature vector values are similar documents,
Documents having similar document feature vector values are collected to generate a plurality of partial document sets. Thereafter, the document classification unit 5
Causes the generated document classification result to be stored in the classification result storage unit 6 (step S6), and the repetition determination unit 7 determines whether to correct the document feature vector and repeat the document classification using a predetermined repetition condition. (Step S7). As the predetermined repetition condition for performing the determination, a predetermined number of repetitions can be used, or can be determined with reference to the number of dimensions of the document feature vector and the like. In addition, it is also possible to instruct whether or not the user repeats by seeing the classification result. If it is determined that the process is repeated (Yes in step S7), the document feature vector is corrected as described above (step S7).
4). For example, one feature dimension constituting the document feature vector is selected based on a predetermined criterion, and the feature dimension is deleted. Subsequently, the document classifying unit 5 classifies the document again using the corrected feature vector (step S5), and stores the classification result in the classification result storage unit 6 (step S5).
6). Thus, as described above, when a document feature vector is generated using, for example, singular value decomposition, each dimension of the document feature vector is ranked by the magnitude of the corresponding singular value,
Documents can be classified in a feature space that is sequentially deleted from the feature dimension having a large singular value, and the influence of a main topic is sequentially removed.

【0011】図4は本発明の第2の実施形態を示す文書
分類装置の構成ブロック図である。第1の実施形態(図
1参照)と同一のものに関しては同じ番号を付してあ
る。図示したように、この実施形態では、第1の実施形
態の構成に加えて、特徴ベクトル生成部3により求めら
れた文書特徴ベクトルを記憶しておく特徴ベクトル記憶
手段である特徴ベクトル記憶部8を備えている。なお、
この特徴ベクトル記憶部8には、文書特徴ベクトルを効
率的に管理するために特徴ベクトル生成部3が生成し
た、文書-単語行列データに付随する付加的な情報、た
とえば、文書-単語行列データの列成分である単語IDと
その単語との対応関係を記述した単語-単語ID対応マッ
プデータや、各単語について単語IDとその単語が有する
品詞情報との対応関係を記述した単語ID-品詞対応マッ
プデータなども記憶される。このような特徴ベクトル記
憶部8を追加したことにより、この実施形態では、特徴
ベクトル修正部4は、文書特徴ベクトル修正の都度、こ
の特徴ベクトル記憶部8に記憶されている文書特徴ベク
トルを操作(修正)される文書特徴ベクトルとすること
が可能になる。そして、これより、文書特徴ベクトルに
施す操作(例えば一つの次元の削除)の効果(結果)を
継承しない文書特徴ベクトルを用いて文書分類を行うこ
とが可能になる。例えば、文書特徴ベクトルが特異値分
解により生成されており、n回目の繰り返し時に第n次元
の特徴次元を削除する場合、そのときの修正行列をPn、
特徴ベクトル記憶部8に記憶されている文書特徴ベクト
ルをA0とし、修正された文書特徴ベクトルをAnとする
と、 式(3) An = A0Pn となる。なお、第1の実施形態の場合には、 式(4) An = A0Pn Pn-1・・・P0 となる。つまり、第2の実施形態では、削除する特徴次
元の表現する話題のみを除いた特徴空間で文書分類を行
うことが可能となるのである。
FIG. 4 is a block diagram showing the configuration of a document classification apparatus according to a second embodiment of the present invention. The same components as those in the first embodiment (see FIG. 1) are denoted by the same reference numerals. As shown in the figure, in this embodiment, in addition to the configuration of the first embodiment, a feature vector storage unit 8 which is a feature vector storage unit for storing a document feature vector obtained by the feature vector generation unit 3 is provided. Have. In addition,
The feature vector storage unit 8 stores additional information associated with the document-word matrix data generated by the feature vector generation unit 3 for efficiently managing the document feature vector, for example, the document-word matrix data. Word-word ID correspondence map data describing the correspondence between word IDs as column components and the words, and word ID-speech correspondence maps describing the correspondence between word IDs and part-of-speech information of each word for each word Data and the like are also stored. With the addition of such a feature vector storage unit 8, in this embodiment, the feature vector correction unit 4 operates the document feature vector stored in the feature vector storage unit 8 every time the document feature vector is corrected ( (Corrected) document feature vector. This makes it possible to perform document classification using a document feature vector that does not inherit the effect (result) of an operation (for example, one-dimensional deletion) performed on the document feature vector. For example, if the document feature vector is generated by singular value decomposition and the n-th feature dimension is deleted at the n-th iteration, the correction matrix at that time is Pn,
Assuming that the document feature vector stored in the feature vector storage unit 8 is A0 and the modified document feature vector is An, Expression (3) An = A0Pn. Note that, in the case of the first embodiment, Expression (4) An = A0Pn Pn-1... P0. That is, in the second embodiment, it is possible to perform document classification in a feature space excluding only the topic represented by the feature dimension to be deleted.

【0012】図5は本発明の第3の実施形態を示す文書
分類装置の構成ブロック図である。図5において、第1
の実施形態(図1参照)および第2の実施形態(図4参
照)と同一のものに関しては同じ番号を付してある。図
示したように、第3の実施形態では、第2の実施形態の
構成に加えて、記憶されている分類結果から各部分文書
集合に所属する文書特徴ベクトルを抽出する部分文書集
合抽出部9、抽出された各部分文書集合における各文書
特徴ベクトル間での各特徴次元の分散値を算出する部分
文書集合分散算出部10、算出された各特徴次元の分散値
など統計情報を用いて操作する特徴次元を決定する操作
対象特徴次元決定部11を備える。このような構成で、こ
の実施形態では、分類結果記憶部6に記憶された分類結
果から統計情報として例えばそれぞれの部分文書集合に
おける特徴次元の分散値を算出し、算出された特徴次元
の分散値を用いて操作する特徴次元を決定する。なお、
このような決定方法の根拠は、部分文書集合における特
徴次元の分散の大きさがその特徴次元の部分文書集合を
群化させる寄与率を示すものと考えることができること
にある。つまり、分散の小さな特徴次元は部分文書集合
を密にしていると考えられるため、群化の寄与率は高い
ものと考えることができる。したがって、各部分文書集
合について、分散の小さな特徴次元はその部分文書集合
の表現する話題と強く関連しているものと考えられるた
め、例えば、この特徴次元を削除した特徴ベクトル空間
で文書分類を行うことにより、前記の部分文書集合が表
現する話題以外の話題を表現する部分文書集合を抽出で
きるものと考えられるのである。以下、この実施形態に
おいて追加した前記各部について、さらに説明する。ま
ず、部分文書集合抽出部9であるが、これは、分類結果
記憶部6に記憶されている分類結果から、生成された部
分文書集合すべてについてそれぞれに所属する文書特徴
ベクトルを抽出する。なお、対象とする部分文書集合は
直前に生成された部分文書集合だけでもよいし、生成さ
れている全部分文書集合でもよい。
FIG. 5 is a block diagram showing the configuration of a document classification apparatus according to a third embodiment of the present invention. In FIG. 5, the first
The same numbers are given to the same components as those of the embodiment (see FIG. 1) and the second embodiment (see FIG. 4). As illustrated, in the third embodiment, in addition to the configuration of the second embodiment, a partial document set extraction unit 9 that extracts a document feature vector belonging to each partial document set from the stored classification results, A partial document set variance calculator 10 for calculating a variance of each feature dimension between each document feature vector in each extracted partial document set, a feature operated using statistical information such as the calculated variance of each feature dimension An operation target feature dimension determination unit 11 that determines a dimension is provided. With such a configuration, in this embodiment, for example, a variance value of a feature dimension in each partial document set is calculated as statistical information from the classification result stored in the classification result storage unit 6, and the variance value of the calculated feature dimension is calculated. Is used to determine a feature dimension to be operated. In addition,
The basis of such a determination method is that the magnitude of the variance of the feature dimension in the partial document set can be considered to indicate the contribution rate for grouping the partial document set of the feature dimension. In other words, since the feature dimension having a small variance is considered to make the partial document set dense, the contribution ratio of the grouping can be considered to be high. Therefore, for each partial document set, a feature dimension having a small variance is considered to be strongly related to the topic represented by the partial document set. For example, document classification is performed in a feature vector space from which this feature dimension has been deleted. Thus, it is considered that a partial document set expressing a topic other than the topic expressed by the partial document set can be extracted. Hereinafter, the respective units added in this embodiment will be further described. First, the partial document set extraction unit 9 extracts, from the classification result stored in the classification result storage unit 6, the document feature vectors belonging to each of all the generated partial document sets. The target partial document set may be only the partial document set generated immediately before, or may be the entire partial document set generated.

【0013】また、部分文書集合分散算出部10は、部分
文書集合抽出部9が抽出した全部分文書集合について、
それぞれに所属する各文書特徴ベクトル間での各特徴次
元の分散値を算出する。この際、各部分文書集合につい
て、各特徴次元の分散値の大きさの順位を算出すると共
に、各特徴次元の分散値について、各部分文書集合の順
位も合わせて算出する。また、操作対象特徴次元決定部
11は、部分文書集合分散算出部11が算出した各部分文書
集合における各特徴次元の分散値、各部分文書集合おけ
る各特徴次元の分散値の大きさの順位、および各特徴次
元の分散値についての各部分文書集合の順位の情報を基
にして特徴ベクトル修正部4の操作する特徴次元を決定
する。例えば、全部分文書集合における特徴次元の分散
値が一定値以下のものを操作対象の特徴次元として選択
したり、全部分文書集合における特徴次元の分散値の大
きさの順位が常に一定順位以下(分散が小さい)ものを
操作対象の特徴次元として選択したりするのである。な
お、直前に生成された部分文書集合だけを抽出した場合
には、その部分文書集合における各特徴次元の分散値、
およびその部分文書集合おける各特徴次元の分散値の大
きさの順位を基にして特徴ベクトル修正部4の操作する
特徴次元を決定する。こうして、この実施形態では、選
択された特徴次元を削除した特徴ベクトル空間で文書分
類を行い、前記の部分文書集合が表現する話題以外の話
題を表現する部分文書集合を抽出することができる。以
上、図1、図4、および図5に示した構成の文書分類装
置の場合について説明したが、各実施形態で説明したよ
うな本発明の文書分類方法に従ってプログラミングした
プログラムを、例えば、着脱可能な記憶媒体に記憶さ
せ、その記憶媒体をこれまで本発明によった方法の文書
分類を行えなかったパーソナルコンピュータなど情報処
理装置に装填することにより、その情報処理装置におい
て前記文書分類を行うこともできる。
The partial document set variance calculation unit 10 calculates the partial document set extracted by the partial document set extraction unit 9
The variance value of each feature dimension among the document feature vectors belonging to each is calculated. At this time, for each partial document set, the order of the magnitude of the variance value of each feature dimension is calculated, and for the variance value of each feature dimension, the order of each partial document set is also calculated. In addition, the operation target feature dimension determination unit
11 is the variance value of each feature dimension in each partial document set calculated by the partial document set variance calculation unit 11, the order of the magnitude of the variance value of each feature dimension in each partial document set, and the variance value of each feature dimension The feature dimension operated by the feature vector correction unit 4 is determined based on the information on the rank of each partial document set. For example, a variance value of the feature dimension in the entire partial document set may be selected as a feature dimension to be operated, or a rank of the variance value of the feature dimension in the entire partial document set may always be equal to or less than a certain order ( For example, one having a small variance) is selected as the feature dimension of the operation target. If only the partial document set generated immediately before is extracted, the variance of each feature dimension in the partial document set,
Further, the feature dimension operated by the feature vector correction unit 4 is determined based on the order of the magnitude of the variance value of each feature dimension in the partial document set. Thus, in this embodiment, document classification is performed in the feature vector space from which the selected feature dimension has been deleted, and a partial document set expressing a topic other than the topic represented by the partial document set can be extracted. In the above, the case of the document classifying apparatus having the configuration shown in FIGS. 1, 4 and 5 has been described. However, a program programmed according to the document classifying method of the present invention as described in each embodiment is, for example, detachable. It is also possible to perform the above-described document classification in the information processing apparatus by loading the storage medium into an information processing apparatus such as a personal computer that has not been able to perform the document classification according to the method of the present invention. it can.

【0014】[0014]

【発明の効果】以上説明したように、本発明によれば、
請求項1および請求項6記載の発明では、複数の文書か
ら成る文書集合のそれぞれの文書データ中の単語が解析
され、その解析結果に基づいて文書特徴ベクトルが求め
られ、文書特徴ベクトル間の類似度に基づいて文書集合
が複数の部分文書集合に分類され、その後、所定のくり
返し条件を用いた判定に従い、くり返しと判定された場
合、所定の基準に基づき前記文書特徴ベクトルの特徴次
元が修正され、修正された文書特徴ベクトルを含む文書
特徴ベクトル間の類似度に基づいて文書集合が複数の部
分文書集合に分類され、さらに、前記所定のくり返し条
件を用いた判定に従い、くり返しと判定された場合、文
書特徴ベクトルを修正する動作、および部分文書集合に
分類し結果を記憶する動作がくり返されるので、分類対
象の文書集合中に内在している異なる話題の部分文書集
合を多数、自動抽出することができ、したがって、文書
集合に対する包括的な分析を行うことができる。また、
請求項2および請求項7記載の発明では、請求項1また
は請求項6記載の発明において、生成される文書特徴ベ
クトルの特徴次元が所定の基準に従って順序付けされ、
操作する特徴次元が順序付けされた順序に従って決定さ
れるので、請求項1または請求項6記載の発明の効果に
加え、特徴次元の操作を効率的に行うことができる。ま
た、請求項3および請求項8記載の発明では、請求項
1、請求項2、請求項6または請求項7記載の発明にお
いて、最初に求められた文書特徴ベクトルが記憶してお
かれ、文書特徴ベクトルをくり返し修正する際、記憶さ
れている最初に求められた特徴ベクトルが修正されるの
で、逐次行われる文書特徴ベクトルの特徴次元の操作の
効果がその直後に行われる文書分類のみに有効になる。
つまり、逐次行われる特徴次元の操作の効果が継承され
ない部分文書集合を生成することができ、したがって、
請求項1、請求項2、請求項6または請求項7記載の発
明とは異なる話題も抽出できる。
As described above, according to the present invention,
According to the first and sixth aspects of the present invention, a word in each document data of a document set including a plurality of documents is analyzed, and a document feature vector is obtained based on the analysis result. The document set is classified into a plurality of partial document sets based on the degree, and thereafter, according to the determination using a predetermined repetition condition, if it is determined that the repetition is performed, the feature dimension of the document feature vector is corrected based on a predetermined criterion. In the case where the document set is classified into a plurality of partial document sets based on the similarity between the document feature vectors including the corrected document feature vector, and further determined to be repeated according to the determination using the predetermined repeated condition, The operation of correcting the document feature vector and the operation of classifying the document into partial document sets and storing the results are repeated. The partial document set of different topics that Mashimashi number can be automatically extracted, therefore, it is possible to perform a comprehensive analysis of the document set. Also,
According to the second and seventh aspects of the present invention, in the first or sixth aspect, the feature dimensions of the generated document feature vector are ordered according to a predetermined criterion,
Since the feature dimensions to be operated are determined in accordance with the ordered order, in addition to the effects of the first or sixth aspect of the invention, the operation of the feature dimensions can be performed efficiently. According to the third and eighth aspects of the present invention, in the first, second, sixth or seventh aspect of the present invention, the document feature vector obtained first is stored and the document feature vector is stored. When the feature vector is repeatedly modified, the first stored feature vector that is stored is modified, so that the effect of the sequential operation of the feature dimension of the document feature vector is effective only for the document classification performed immediately thereafter. Become.
In other words, it is possible to generate a partial document set in which the effect of the successive operation of the feature dimension is not inherited.
A topic different from the invention described in claim 1, claim 2, claim 6, or claim 7 can also be extracted.

【0015】また、請求項4および請求項9記載の発明
では、請求項1乃至請求項3または請求項6乃至請求項
8記載の発明において、記憶された分類結果から統計情
報が算出され、算出された統計情報を用いて操作する特
徴次元が決定されるので、請求項1または請求項6記載
の発明とは異なった方法で異なる話題の部分文書集合を
多数、自動抽出することができ、したがって、請求項1
または請求項6記載の発明の効果をさらに向上させるこ
とができる。また、請求項5および請求項10記載の発明
では、請求項4または請求項9記載の発明において、記
憶された分類結果からそれぞれの部分文書集合における
特徴次元の分散値が算出され、算出された分散値を用い
て操作する特徴次元が決定されるので、請求項4または
請求項9記載の発明の効果を容易に実現することができ
る。また、請求項11記載の発明では、請求項6乃至請求
項10記載の文書分類方法に従ってプログラミングしたプ
ログラムを例えば着脱可能な記憶媒体に記憶させ、その
記憶媒体をこれまで請求項6乃至請求項10記載の文書分
類を行えなかったパーソナルコンピュータなど情報処理
装置に装填することにより、その情報処理装置において
請求項6乃至請求項10記載の発明の効果を得ることがで
きる。
According to the fourth and ninth aspects of the present invention, in the first to third or sixth to eighth aspects of the present invention, statistical information is calculated from the stored classification results. Since the feature dimension to be operated is determined using the statistical information thus obtained, a large number of partial document sets of different topics can be automatically extracted by a method different from that of the first or sixth aspect of the present invention. , Claim 1
Alternatively, the effect of the invention described in claim 6 can be further improved. According to the fifth and tenth aspects of the present invention, the variance value of the feature dimension in each partial document set is calculated from the stored classification result in the fourth or ninth aspect. Since the feature dimension to be operated is determined using the variance value, the effect of the invention described in claim 4 or claim 9 can be easily realized. According to the eleventh aspect of the present invention, a program programmed according to the document classification method according to the sixth to tenth aspects is stored in, for example, a removable storage medium, and the storage medium is stored in the storage medium. By loading the information processing apparatus such as a personal computer that cannot perform the document classification described above, the effects of the inventions described in claims 6 to 10 can be obtained in the information processing apparatus.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態を示す文書分類装置の
構成ブロック図である。
FIG. 1 is a configuration block diagram of a document classification device according to a first embodiment of the present invention.

【図2】本発明の第1の実施形態を示す文書分類方法の
説明図である。
FIG. 2 is an explanatory diagram of a document classification method according to the first embodiment of the present invention.

【図3】本発明の第1の実施形態を示す文書分類方法の
動作フロー図である。
FIG. 3 is an operation flowchart of a document classification method according to the first embodiment of the present invention.

【図4】本発明の第2の実施形態を示す文書分類装置の
構成ブロック図である。
FIG. 4 is a configuration block diagram of a document classification device according to a second embodiment of the present invention.

【図5】本発明の第3の実施形態を示す文書分類装置の
構成ブロック図である。
FIG. 5 is a configuration block diagram of a document classification device according to a third embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 文書入力部 2 文書解析部 3 特徴ベクトル生成部 4 特徴ベクトル修正部 5 文書分類部 6 分類結果記憶部 7 くり返し判定部 8 特徴ベクトル記憶部 9 部分文書集合抽出部 10 部分文書集合分散算出部 11操作対象特徴次元決定部 REFERENCE SIGNS LIST 1 document input unit 2 document analysis unit 3 feature vector generation unit 4 feature vector correction unit 5 document classification unit 6 classification result storage unit 7 repetition determination unit 8 feature vector storage unit 9 partial document set extraction unit 10 partial document set dispersion calculation unit 11 Operation target feature dimension determination unit

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 文書の内容に従って文書集合を自動的に
分類する文書分類装置において、複数の文書から成る文
書集合のそれぞれの文書データ中の単語を解析する文書
解析手段と、前記文書解析手段による解析結果に基づい
て文書特徴ベクトルを求める特徴ベクトル生成手段と、
所定の基準に基づき前記文書特徴ベクトルの特徴次元を
操作して前記文書特徴ベクトルを修正する特徴ベクトル
修正手段と、修正された文書特徴ベクトルを含む文書特
徴ベクトル間の類似度に基づいて文書集合を複数の部分
文書集合に分類し分類結果を分類結果記憶手段に記憶さ
せる文書分類手段とを備え、前記文書分類手段が分類結
果を記憶させた後、所定のくり返し条件を用いた判定に
従い、くり返しと判定された場合、前記特徴ベクトル修
正手段が文書特徴ベクトルを修正する動作、および文書
分類手段が部分文書集合に分類し結果を記憶する動作を
くり返す構成にしたことを特徴とする文書分類装置。
1. A document classification apparatus for automatically classifying a document set according to the contents of the document, wherein the document analysis means analyzes words in each document data of the document set including a plurality of documents. Feature vector generating means for obtaining a document feature vector based on the analysis result;
A feature vector modification unit configured to modify the document feature vector by manipulating a feature dimension of the document feature vector based on a predetermined criterion; and forming a document set based on a similarity between the document feature vectors including the corrected document feature vector. Document classification means for classifying the document into a plurality of partial document sets and storing the classification result in the classification result storage means, and after the document classification means stores the classification result, according to the determination using a predetermined repetition condition, A document classifying device, characterized in that, if determined, the feature vector correcting means repeats the operation of correcting the document feature vector and the document classifying means repeats the operation of classifying the document into partial document sets and storing the result.
【請求項2】 請求項1記載の文書分類装置において、
特徴ベクトル生成手段が、生成される文書特徴ベクトル
の特徴次元を所定の基準に従って順序付けし、特徴ベク
トル修正手段が、操作する特徴次元を前記特徴ベクトル
生成手段により順序付けされた順序に従って決定する構
成にしたことを特徴とする文書分類装置。
2. The document classification device according to claim 1, wherein
The feature vector generation unit orders the feature dimensions of the generated document feature vector according to a predetermined standard, and the feature vector correction unit determines the feature dimensions to be operated in accordance with the order ordered by the feature vector generation unit. Document classification apparatus characterized by the above-mentioned.
【請求項3】 請求項1または請求項2記載の文書分類
装置において、特徴ベクトル生成手段により求められた
文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段
を備え、特徴ベクトル修正手段が文書特徴ベクトルをく
り返し修正する際、前記特徴ベクトル記憶手段に記憶さ
れている特徴ベクトルを修正する構成にしたことを特徴
とする文書分類装置。
3. The document classification device according to claim 1, further comprising: a feature vector storage unit configured to store a document feature vector obtained by the feature vector generation unit; A document classification device configured to correct a feature vector stored in the feature vector storage means when repeatedly correcting.
【請求項4】 請求項1、請求項2、または請求項3記
載の文書分類装置において、分類結果記憶手段に記憶さ
れた分類結果から統計情報を算出し、算出された統計情
報を用いて操作する特徴次元を決定する構成にしたこと
を特徴とする文書分類装置。
4. The document classification device according to claim 1, wherein statistical information is calculated from the classification results stored in the classification result storage means, and an operation is performed using the calculated statistical information. A document classification apparatus characterized in that a feature dimension to be determined is determined.
【請求項5】 請求項4記載の文書分類装置において、
統計情報を、それぞれの部分文書集合における特徴次元
の分散値とする構成にしたことを特徴とする文書分類装
置。
5. The document classification device according to claim 4, wherein
A document classification apparatus, wherein statistical information is configured to be a variance value of a feature dimension in each partial document set.
【請求項6】 文書の内容に従って文書集合を自動的に
分類する文書分類方法において、複数の文書から成る文
書集合のそれぞれの文書データ中の単語を解析し、その
解析結果に基づいて文書特徴ベクトルを求め、文書特徴
ベクトル間の類似度に基づいて文書集合を複数の部分文
書集合に分類し分類結果を記憶させ、その後、所定のく
り返し条件を用いた判定に従い、くり返しと判定された
場合、所定の基準に基づき前記文書特徴ベクトルの特徴
次元を操作して前記文書特徴ベクトルを修正し、修正さ
れた文書特徴ベクトルを含む文書特徴ベクトル間の類似
度に基づいて文書集合を複数の部分文書集合に分類し分
類結果を記憶させ、さらに、前記所定のくり返し条件を
用いた判定に従い、くり返しと判定された場合、文書特
徴ベクトルを修正する動作、および部分文書集合に分類
し結果を記憶する動作をくり返すことを特徴とする文書
分類方法。
6. A document classification method for automatically classifying a document set according to the content of the document, analyzing words in each document data of the document set including a plurality of documents, and based on the analysis result, a document feature vector. Is determined, the document set is classified into a plurality of partial document sets based on the similarity between the document feature vectors, the classification result is stored, and then, according to the determination using a predetermined repetition condition, if the repetition is determined, a predetermined The document feature vector is modified by manipulating the feature dimension of the document feature vector based on the criterion, and the document set is divided into a plurality of partial document sets based on the similarity between the document feature vectors including the corrected document feature vector. Classify and store the classification result. Further, according to the determination using the predetermined repetition condition, when the repetition is determined, the document feature vector is corrected. A document classification method characterized by repeating an operation of classifying a document into a set of partial documents and an operation of storing the result.
【請求項7】 請求項6記載の文書分類方法において、
生成される文書特徴ベクトルの特徴次元を所定の基準に
従って順序付けし、操作する特徴次元を順序付けされた
順序に従って決定することを特徴とする文書分類方法。
7. The document classification method according to claim 6, wherein
A document classification method characterized by ordering feature dimensions of a generated document feature vector according to a predetermined criterion, and determining a feature dimension to be operated according to the ordered order.
【請求項8】 請求項6または請求項7記載の文書分類
方法において、最初に求められた文書特徴ベクトルを記
憶しておき、文書特徴ベクトルをくり返し修正する際、
記憶されている最初に求められた特徴ベクトルを修正す
ることを特徴とする文書分類方法。
8. The document classification method according to claim 6, wherein a document feature vector obtained first is stored, and when the document feature vector is repeatedly corrected,
A document classification method characterized by correcting a stored first obtained feature vector.
【請求項9】 請求項6、請求項7、または請求項8記
載の文書分類方法において、記憶された分類結果から統
計情報を算出し、算出された統計情報を用いて操作する
特徴次元を決定することを特徴とする文書分類方法。
9. The document classification method according to claim 6, wherein statistical information is calculated from the stored classification results, and a feature dimension to be operated is determined using the calculated statistical information. A document classification method.
【請求項10】 請求項9記載の文書分類方法におい
て、統計情報を、それぞれの部分文書集合における特徴
次元の分散値としたことを特徴とする文書分類方法。
10. The document classification method according to claim 9, wherein the statistical information is a variance value of a feature dimension in each partial document set.
【請求項11】 プログラムを記憶した記憶媒体におい
て、請求項6乃至請求項10記載の文書分類方法に従って
プログラミングしたプログラムを記憶したことを特徴と
する記憶媒体。
11. A storage medium storing a program, wherein the program programmed according to the document classification method according to claim 6 is stored.
JP28201499A 1999-10-01 1999-10-01 Document classification apparatus, document classification method, and storage medium Expired - Fee Related JP4143234B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28201499A JP4143234B2 (en) 1999-10-01 1999-10-01 Document classification apparatus, document classification method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28201499A JP4143234B2 (en) 1999-10-01 1999-10-01 Document classification apparatus, document classification method, and storage medium

Publications (2)

Publication Number Publication Date
JP2001101227A true JP2001101227A (en) 2001-04-13
JP4143234B2 JP4143234B2 (en) 2008-09-03

Family

ID=17647041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28201499A Expired - Fee Related JP4143234B2 (en) 1999-10-01 1999-10-01 Document classification apparatus, document classification method, and storage medium

Country Status (1)

Country Link
JP (1) JP4143234B2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341948A (en) * 2003-05-16 2004-12-02 Ricoh Co Ltd Concept extraction system, concept extraction method, program therefor, and storing medium thereof
US8645826B2 (en) 2001-10-15 2014-02-04 Apple Inc. Graphical multidimensional file management system and method
US8984417B2 (en) 2008-09-12 2015-03-17 9224-5489 Quebec Inc. Method of associating attributes with documents
US9058093B2 (en) 2011-02-01 2015-06-16 9224-5489 Quebec Inc. Active element
US9251643B2 (en) 2001-10-15 2016-02-02 Apple Inc. Multimedia interface progression bar
US9262381B2 (en) 2007-08-22 2016-02-16 9224-5489 Quebec Inc. Array of documents with past, present and future portions thereof
US9519693B2 (en) 2012-06-11 2016-12-13 9224-5489 Quebec Inc. Method and apparatus for displaying data element axes
US9613167B2 (en) 2011-09-25 2017-04-04 9224-5489 Quebec Inc. Method of inserting and removing information elements in ordered information element arrays
US9646080B2 (en) 2012-06-12 2017-05-09 9224-5489 Quebec Inc. Multi-functions axis-based interface
US9652438B2 (en) 2008-03-07 2017-05-16 9224-5489 Quebec Inc. Method of distinguishing documents
US9690460B2 (en) 2007-08-22 2017-06-27 9224-5489 Quebec Inc. Method and apparatus for identifying user-selectable elements having a commonality thereof
US10671266B2 (en) 2017-06-05 2020-06-02 9224-5489 Quebec Inc. Method and apparatus of aligning information element axes

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251643B2 (en) 2001-10-15 2016-02-02 Apple Inc. Multimedia interface progression bar
US8893046B2 (en) 2001-10-15 2014-11-18 Apple Inc. Method of managing user-selectable elements in a plurality of directions
US8904281B2 (en) 2001-10-15 2014-12-02 Apple Inc. Method and system for managing multi-user user-selectable elements
US8954847B2 (en) 2001-10-15 2015-02-10 Apple Inc. Displays of user select icons with an axes-based multimedia interface
US9454529B2 (en) 2001-10-15 2016-09-27 Apple Inc. Method of improving a search
US8645826B2 (en) 2001-10-15 2014-02-04 Apple Inc. Graphical multidimensional file management system and method
JP2004341948A (en) * 2003-05-16 2004-12-02 Ricoh Co Ltd Concept extraction system, concept extraction method, program therefor, and storing medium thereof
US9262381B2 (en) 2007-08-22 2016-02-16 9224-5489 Quebec Inc. Array of documents with past, present and future portions thereof
US10430495B2 (en) 2007-08-22 2019-10-01 9224-5489 Quebec Inc. Timescales for axis of user-selectable elements
US9690460B2 (en) 2007-08-22 2017-06-27 9224-5489 Quebec Inc. Method and apparatus for identifying user-selectable elements having a commonality thereof
US9348800B2 (en) 2007-08-22 2016-05-24 9224-5489 Quebec Inc. Method of managing arrays of documents
US10282072B2 (en) 2007-08-22 2019-05-07 9224-5489 Quebec Inc. Method and apparatus for identifying user-selectable elements having a commonality thereof
US11550987B2 (en) 2007-08-22 2023-01-10 9224-5489 Quebec Inc. Timeline for presenting information
US10719658B2 (en) 2007-08-22 2020-07-21 9224-5489 Quebec Inc. Method of displaying axes of documents with time-spaces
US9652438B2 (en) 2008-03-07 2017-05-16 9224-5489 Quebec Inc. Method of distinguishing documents
US8984417B2 (en) 2008-09-12 2015-03-17 9224-5489 Quebec Inc. Method of associating attributes with documents
US9733801B2 (en) 2011-01-27 2017-08-15 9224-5489 Quebec Inc. Expandable and collapsible arrays of aligned documents
US9588646B2 (en) 2011-02-01 2017-03-07 9224-5489 Quebec Inc. Selection and operations on axes of computer-readable files and groups of axes thereof
US9529495B2 (en) 2011-02-01 2016-12-27 9224-5489 Quebec Inc. Static and dynamic information elements selection
US9189129B2 (en) 2011-02-01 2015-11-17 9224-5489 Quebec Inc. Non-homogeneous objects magnification and reduction
US9122374B2 (en) 2011-02-01 2015-09-01 9224-5489 Quebec Inc. Expandable and collapsible arrays of documents
US10067638B2 (en) 2011-02-01 2018-09-04 9224-5489 Quebec Inc. Method of navigating axes of information elements
US9058093B2 (en) 2011-02-01 2015-06-16 9224-5489 Quebec Inc. Active element
US9613167B2 (en) 2011-09-25 2017-04-04 9224-5489 Quebec Inc. Method of inserting and removing information elements in ordered information element arrays
US10289657B2 (en) 2011-09-25 2019-05-14 9224-5489 Quebec Inc. Method of retrieving information elements on an undisplayed portion of an axis of information elements
US10558733B2 (en) 2011-09-25 2020-02-11 9224-5489 Quebec Inc. Method of managing elements in an information element array collating unit
US11080465B2 (en) 2011-09-25 2021-08-03 9224-5489 Quebec Inc. Method of expanding stacked elements
US11281843B2 (en) 2011-09-25 2022-03-22 9224-5489 Quebec Inc. Method of displaying axis of user-selectable elements over years, months, and days
US10845952B2 (en) 2012-06-11 2020-11-24 9224-5489 Quebec Inc. Method of abutting multiple sets of elements along an axis thereof
US11513660B2 (en) 2012-06-11 2022-11-29 9224-5489 Quebec Inc. Method of selecting a time-based subset of information elements
US9519693B2 (en) 2012-06-11 2016-12-13 9224-5489 Quebec Inc. Method and apparatus for displaying data element axes
US10180773B2 (en) 2012-06-12 2019-01-15 9224-5489 Quebec Inc. Method of displaying axes in an axis-based interface
US9646080B2 (en) 2012-06-12 2017-05-09 9224-5489 Quebec Inc. Multi-functions axis-based interface
US10671266B2 (en) 2017-06-05 2020-06-02 9224-5489 Quebec Inc. Method and apparatus of aligning information element axes

Also Published As

Publication number Publication date
JP4143234B2 (en) 2008-09-03

Similar Documents

Publication Publication Date Title
US7099819B2 (en) Text information analysis apparatus and method
Bouguila Clustering of count data using generalized Dirichlet multinomial distributions
US7139695B2 (en) Method for categorizing documents by multilevel feature selection and hierarchical clustering based on parts of speech tagging
US7567954B2 (en) Sentence classification device and method
US20120095952A1 (en) Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
US20060036640A1 (en) Information processing apparatus, information processing method, and program
CN108228541B (en) Method and device for generating document abstract
JP4143234B2 (en) Document classification apparatus, document classification method, and storage medium
CN105808581B (en) Data clustering method and device and Spark big data platform
CN110647995A (en) Rule training method, device, equipment and storage medium
Pavlov et al. Collaborative filtering with maximum entropy
CN112860850B (en) Man-machine interaction method, device, equipment and storage medium
JP5463873B2 (en) Multimedia classification system and multimedia search system
JP4359075B2 (en) Concept extraction system, concept extraction method, concept extraction program, and storage medium
JP2004086262A (en) Visual information classification method, visual information classification device, visual information classification program, and recording medium storing the program
JPH11213000A (en) Interactive information retrieval method/device and storage medium storing interactive information retrieval program
CN113159211B (en) Method, computing device and computer storage medium for similar image retrieval
JPH08287086A (en) Method and device for emphasizing and displaying image in order of adaptability
CN107491417A (en) A kind of document structure tree method under topic model based on particular division
JP2001117930A (en) Device and method for sorting documents and recording medium
CN107622129B (en) Method and device for organizing knowledge base and computer storage medium
CN112380342A (en) Electric power document theme extraction method and device
CN113392124B (en) Structured language-based data query method and device
WO2022107229A1 (en) Data processing device, data processing method, and data processing program
CN113407746B (en) Method and system for searching pictures by pictures

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050111

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080603

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080616

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130620

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees