JP2000268040A - Information classifying system - Google Patents

Information classifying system

Info

Publication number
JP2000268040A
JP2000268040A JP11067765A JP6776599A JP2000268040A JP 2000268040 A JP2000268040 A JP 2000268040A JP 11067765 A JP11067765 A JP 11067765A JP 6776599 A JP6776599 A JP 6776599A JP 2000268040 A JP2000268040 A JP 2000268040A
Authority
JP
Japan
Prior art keywords
information
document
category
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11067765A
Other languages
Japanese (ja)
Inventor
Osamu Dousaka
修 道坂
Osamu Iwaki
修 岩城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP11067765A priority Critical patent/JP2000268040A/en
Publication of JP2000268040A publication Critical patent/JP2000268040A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To classify information while paying attention to both the content and form of information to be classified. SOLUTION: As a sample document to be provided to a document managing server 1, there are text document, document file and document image. Each document is transformed to a formatted document by medium transformation. Content features and form features are extracted from the formatted document. In the extraction of content features, the frequency vector of a weighted word is generated from the kind or appearance frequency of a word to appear in the text document and defined as the content feature of a category. In the extraction of form features, common attribute area information in a page is generated and defined as the form feature of the category. The content feature and the form feature are verified again and a feature vector is calculated for determining whether the category depends on the content feature or on the form feature. Similarly to category learning, the medium transformation is performed to the document of a classification object and the document is transformed to a formatted document. The content features and the form features are extracted from the formatted document and the content features of respective categories and respective documents and the form features of respective categories and respective documents are respectively compared.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、情報分類方式、及
び情報分類方法の改良に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information classification method and an information classification method.

【0002】[0002]

【従来の技術】従来、文書管理システムが自動的に分類
する文書は、特許のIPCコード付与や新聞記事等のテ
キスト文書と、業務に応じて設計される帳票文書とに限
られていた。テキスト文書の分類では、分類する文書の
メディアがテキスト文書に限られており、テキストに含
まれる単語の種類と出現頻度とより分類を行う手法であ
るTF/IDF法(ターム・フリーケンシィ/インバー
スド・ドキュメント・フリーケンシィ法)を用いる。帳
票文書の分類では、分類する文書のメディアが紙文書
(スキャナでイメージ文書として取込む)に限られてお
り、帳票のイメージから頁内の属性領域(文字枠等)位
置の共通性より分類を行う手法を用いる。
2. Description of the Related Art Conventionally, documents automatically classified by a document management system have been limited to text documents such as IPC codes assigned to patents and newspaper articles, and form documents designed according to business. In the classification of text documents, the media of the documents to be classified is limited to text documents, and the TF / IDF method (term frequency / inverse), which is a method of performing classification based on the type and appearance frequency of words included in the text. Document frequency method). In the classification of a form document, the medium of the document to be classified is limited to a paper document (taken as an image document by a scanner), and the classification is performed based on the commonality of the attribute area (character frame, etc.) position on a page from the image of the form. The method used is used.

【0003】[0003]

【発明が解決しようとする課題】ところで、上述したT
F/IDF法は、分類する文書の内容に着目した分類手
法であるが、印刷イメージを持つレイアウト付き文書
(市販のワードプロセッサで作成した文書)や申請書類
や帳票文書等のような定型文書の体裁に着目して分類を
行うことができないという問題がある。一方、帳票のイ
メージに基づいて分類を行う手法は、分類する文書の体
裁に着目した分類手法であるが、テキスト文書などのレ
イアウト情報を持たない文書を分類対象に含めることが
できないという問題や、文書の内容に着目した分類がで
きないという問題がある。
The above-mentioned T
The F / IDF method is a classification method that focuses on the contents of a document to be classified. The F / IDF method is used to format a document with a layout having a print image (a document created by a commercially available word processor) or a fixed document such as an application document or a form document. There is a problem that it is not possible to perform classification by focusing on. On the other hand, a method of performing classification based on the image of a form is a classification method that focuses on the appearance of a document to be classified, but a problem that a document having no layout information such as a text document cannot be included in a classification target. There is a problem that it is not possible to perform classification focusing on the contents of the document.

【0004】また、上記いずれの分類手法をも用いない
場合には、分類の自動化を確実に行うために、文書の構
造化を行ってその属性に応じた分類を行う工夫か、或い
は文書作成者が分類コードを直接付与する等の工夫が行
われる。前者の代表的な例には、テキスト文書としてS
GML(スタンダード・ゼネラライズド・マークアップ
・ランゲージ)文書を採用し、例えばタグ内のテキスト
列に分類を行う等の、文書内のタグ情報より構造化を行
う方法がある。後者の例には、予め分類するカテゴリを
決め、カテゴリに応じてその分類コードを付与する方法
がある。この方法に属するシステムとして、CALS
(コマース・アト・ライト・スピード)システムと、F
ax OCRシステムとが、文書分類を行うシステムと
して現在稼働中である。
[0004] When neither of the above classification methods is used, in order to surely perform the classification automatically, the document is structured and classified according to its attribute, or the document creator. Is devised to directly assign a classification code. A typical example of the former is S as a text document.
There is a method of adopting a GML (Standard Generalized Markup Language) document and performing structuring based on tag information in the document, for example, classifying text strings in tags. In the latter example, there is a method in which a category to be classified is determined in advance, and the classification code is assigned according to the category. As a system belonging to this method, CALS
(Commerce at Light Speed) system and F
The ax OCR system is currently operating as a system for classifying documents.

【0005】しかし、文書内のタグ情報より構造化を行
う方法は、SGMLのDTD(ドキュメント・タイプ・
ディフィニション)設計などの構造化ルールを設計する
必要があるという問題や、全ての文書に対し運用時に構
造化を強要することで運用コストが増大してしまう虞が
ある。
However, a method of structuring based on tag information in a document is a DTD (document type type) of SGML.
There is a problem that it is necessary to design a structuring rule such as (definition) design, and there is a possibility that the operation cost may increase due to the structuring of all the documents at the time of operation.

【0006】また、CALSシステムは、SGML文書
に対し、分類されるべき分類コードのタグ〈CATEG
ORY〉などを用意し、SGML文書作成者が〈CAT
EGORY〉フィールドに“000047”などの分類
コードを挿入し、文書を集計する際に上記分類コードに
基づいて分類を行う。更に、Fax OCRシステム
は、帳票文書の右上に帳票ID(バーコード、印字)な
どを印刷し、帳票処理を行う前に上記帳票IDを認識
し、帳票IDに応じた帳票処理を行う。
Also, the CALS system uses a tag <CATEG> of a classification code to be classified for an SGML document.
ORY> etc., and the SGML document creator
A classification code such as “000047” is inserted in the <EGORY> field, and when documents are totaled, classification is performed based on the classification code. Further, the Fax OCR system prints a form ID (barcode, print) or the like on the upper right of the form document, recognizes the form ID before performing the form processing, and performs the form processing according to the form ID.

【0007】しかし、上記いずれのシステムにおいて
も、分類処理を確実に行うことができる反面、事前に分
類コードを定義する必要があるため、分類されるカテゴ
リが既知でない場合には、有効でない。
However, in any of the above systems, the classification process can be performed reliably, but the classification code must be defined in advance, so that it is not effective if the category to be classified is not known.

【0008】上述した内容から明らかなように、TF/
IDF法、又は帳票のイメージに基づいて分類を行う手
法のいずれを採用した場合にも、分類する文書のメディ
アが限定されるので、上記いずれの手法も文書メディア
が混在する文書管理システムには適用できない。
As is apparent from the above description, TF /
When either the IDF method or the method of performing classification based on the image of a form is adopted, the media of the document to be classified is limited. Therefore, any of the above methods is applied to a document management system in which document media are mixed. Can not.

【0009】また、文書管理システムで管理したい文書
が、それらのカテゴライズの観点から、内容に着目する
文書と、体裁に着目する文書との双方に分かれていて、
しかもそれらが混在している場合には、上記いずれの手
法を採用しても、内容に着目する文書及び体裁に着目す
る文書の双方をサポートすることはできない。特に、オ
フィス等において、文書の体裁が重視されるような場合
には、TF/IDF法は明らかに不適当である。
In addition, documents to be managed by the document management system are divided into a document focusing on the content and a document focusing on the format from the viewpoint of categorization.
In addition, when these are mixed, neither of the above methods can support both a document focused on the content and a document focused on the style. In particular, in offices and the like, where the appearance of a document is emphasized, the TF / IDF method is clearly inappropriate.

【0010】更に、上述した自動分類手法のいずれも採
用しなかったときには、文書の構造化を行ってその属性
に応じた分類を行う工夫か、或いは文書作成者が分類コ
ードを直接付与する等の工夫が行われる。しかし、文書
作成時に固定フィールド(上述した〈CATEGOR
Y〉フィールド)に情報(分類コード“00004
7”)を埋め込む手間や、文書作成者に予め定義した文
書ファイル構造に変換して貰う手間が掛かる。そのた
め、文書作成者の文書作成のコストが掛かり、実務の変
化に応じて文書ファイルの構造を再定義する等のシステ
ム設計のコストも掛かる。
Further, when none of the above-mentioned automatic classification methods is adopted, a method of structuring a document and classifying it according to its attribute, or a method of directly assigning a classification code by a document creator, etc. A device is devised. However, when a document is created, a fixed field (<CATEGOR
Y> field) contains information (classification code “00004”).
7 "), and the document creator must convert the document file into a predefined document file structure. Therefore, the document creator's document creation cost is increased, and the document file structure is changed in accordance with a change in practice. The cost of system design, such as redefining, is also required.

【0011】従って本発明の目的は、分類する情報の内
容、及び体裁の双方に着目して情報分類を行えるように
することにある。
Accordingly, it is an object of the present invention to perform information classification by focusing on both the contents of information to be classified and the appearance.

【0012】[0012]

【課題を解決するための手段】本発明の第1の側面に従
う情報分類方式は、任意のカテゴリに属する1又は複数
の情報の特徴を学習することにより、上記カテゴリの特
徴を定義する手段と、分類の対象として与えられた情報
を解析することにより、その情報の特徴を抽出する手段
と、定義されたカテゴリの特徴と、抽出された情報の特
徴とに所定の処理を施すことにより、その情報がそのカ
テゴリに属するか否か判定する手段とを備える。
An information classification method according to a first aspect of the present invention is a means for defining characteristics of one or more information belonging to an arbitrary category by learning the characteristics of the category, Means for extracting the characteristics of the information by analyzing the information given as the object of the classification, and performing predetermined processing on the characteristics of the defined category and the characteristics of the extracted information to obtain the information. Means for determining whether the category belongs to the category.

【0013】上記構成によれば、定義されたカテゴリの
特徴と、抽出された情報の特徴とに所定の処理を施すこ
とにより、その情報がそのカテゴリに属するか否か判定
することとしたので、分類する情報の内容、及び体裁の
双方に着目して情報分類を行える。
According to the above configuration, by performing a predetermined process on the characteristics of the defined category and the characteristics of the extracted information, it is determined whether or not the information belongs to the category. The information classification can be performed by focusing on both the content of the information to be classified and the appearance.

【0014】本発明の第1の側面に係る好適な実施形態
では、上述したカテゴリは、複数存在し、上記情報は、
テキスト文書、文書ファイル、文書イメージ等の文書情
報であり、その文書情報はメディア変換によって書式付
き文書情報に変換されるようになっている。また、カテ
ゴリの特徴の定義は、文書情報の内容的特徴の抽出と、
文書情報の体裁的特徴の抽出とを経て得られた文書情報
の内容的特徴及び体裁的特徴を加味して行われる。文書
情報の内容的特徴の抽出は、TF/IDF法により、テ
キスト文書に出現する単語の種類・頻度から重みを加え
た単語の頻度ベクトルを生成させることにより行われ
る。文書情報の体裁的特徴の抽出は、文書情報を構成す
る各頁内の属性領域の位置的な重なりを求める手法を用
いてその頁内の共通属性領域を生成させることにより行
われる。文書情報の内容的特徴及び体裁的特徴の加味
は、内容的特徴及び体裁的特徴を再検証し、カテゴリが
内容的特徴及び体裁的特徴のいずれに依存するかを決定
付けるための特徴ベクトルを算出することにより行われ
る。特徴ベクトルは、内容的特徴及び体裁的特徴によっ
て定義される2次元空間をカテゴリ空間として、そのカ
テゴリ空間内にマッピングされた文書情報の特徴と、内
容的特徴及び体裁的特徴との比較値をクラスタリングす
ることにより求められる。
In a preferred embodiment according to the first aspect of the present invention, there are a plurality of categories described above, and the information is
Document information such as a text document, a document file, and a document image, and the document information is converted into formatted document information by media conversion. In addition, the definition of the feature of the category includes extraction of the content feature of the document information,
This is performed in consideration of the content features and the format features of the document information obtained through the extraction of the format features of the document information. The extraction of the content feature of the document information is performed by generating a frequency vector of the word, which is weighted based on the type and frequency of the word appearing in the text document, by the TF / IDF method. The extraction of the formative features of the document information is performed by generating a common attribute area in each page using a method of obtaining a positional overlap of the attribute areas in each page constituting the document information. In consideration of the content features and style features of the document information, the content features and style features are re-examined, and a feature vector for determining whether the category depends on the content features or style features is calculated. It is done by doing. The feature vector is a two-dimensional space defined by the content features and the formative features as a category space, and the feature values of the document information mapped in the category space and the comparison values between the content features and the formative features are clustered. It is required by doing.

【0015】分類の対象として与えられた情報は、文書
情報であり、分類の対象として与えられた情報の特徴
は、文書情報から夫々抽出される内容的特徴及び体裁的
特徴により決まる。
The information given as the object of classification is document information, and the characteristics of the information given as the object of classification are determined by the content characteristics and the appearance characteristics extracted from the document information, respectively.

【0016】判定手段は、定義されたカテゴリの内容的
特徴を表すベクトルと、抽出された文書情報の内容的特
徴を表すベクトルとの内積を求め、各カテゴリの体裁的
特徴を示す共通領域と、抽出された文書情報の体裁的特
徴との一致度を求め、内積とカテゴリの内容的特徴との
比較値、及び一致度とカテゴリの体裁的特徴との比較値
を文書情報のベクトルとして、このベクトルと各カテゴ
リの特徴ベクトルとの内積を求め、内積が最大値を取る
カテゴリを、その文書情報の属するカテゴリと判定す
る。
The determining means obtains an inner product of a vector representing the content characteristic of the defined category and a vector representing the content characteristic of the extracted document information, and a common area indicating the appearance characteristic of each category; The degree of coincidence between the extracted document information and the formative features is obtained, and the comparison value between the inner product and the content feature of the category, and the comparison value between the degree of match and the formative features of the category are defined as a vector of document information. And the feature vector of each category is obtained, and the category having the maximum inner product is determined as the category to which the document information belongs.

【0017】本発明の第2の側面に従う情報分類方法
は、任意のカテゴリに属する1又は複数の情報の特徴を
学習することにより、そのカテゴリの特徴を定義する第
1の過程と、分類の対象として与えられた情報を解析す
ることにより、その情報の特徴を抽出する第2の過程
と、定義されたカテゴリの特徴と、抽出された情報の特
徴とに所定の処理を施すことにより、その情報がそのカ
テゴリに属するか否か判定する第3の過程とを備える。
An information classification method according to a second aspect of the present invention comprises: a first step of defining characteristics of one or more information items belonging to an arbitrary category by learning the characteristics of the category; A second process of extracting the characteristics of the information by analyzing the information given as, and performing predetermined processing on the characteristics of the defined category and the characteristics of the extracted information to obtain the information. And a third step of determining whether or not the category belongs to the category.

【0018】本発明の第3の側面に従うプログラム媒体
は、任意のカテゴリに属する1又は複数の情報の特徴を
学習することにより、そのカテゴリの特徴を定義する手
段と、分類の対象として与えられた情報を解析すること
により、その情報の特徴を抽出する手段と、定義された
カテゴリの特徴と、抽出された情報の特徴とに所定の処
理を施すことにより、その情報がそのカテゴリに属する
か否か判定する手段とを備える情報分類方式における上
述した各手段としてコンピュータを動作させるためのコ
ンピュータプログラムをコンピュータ読取可能に担持す
る。
The program medium according to the third aspect of the present invention is provided with means for defining characteristics of one or more information belonging to an arbitrary category by learning the characteristics of the category, and a classification target. Means for extracting the characteristics of the information by analyzing the information; and performing predetermined processing on the characteristics of the defined category and the characteristics of the extracted information to determine whether the information belongs to the category. A computer program for causing a computer to operate as each of the above-described units in the information classification method including a unit for determining whether the computer is readable.

【0019】[0019]

【発明の実施の形態】以下、本発明の実施の形態を、図
面により詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0020】図1は、本発明の一実施形態に係る情報分
類方式が適用される文書管理システムの全体構成を示す
ブロック図である。
FIG. 1 is a block diagram showing the overall configuration of a document management system to which an information classification system according to one embodiment of the present invention is applied.

【0021】上記システムは、図1に示すように、文書
管理サーバ(サーバ)1と、LAN(社内ネットワー
ク)3を通じてサーバ1に接続される複数台の文書作成
クライアント(クライアント)(自席端末ともいう)5
1〜5nとから構成される。
As shown in FIG. 1, the system includes a document management server (server) 1 and a plurality of document creation clients (clients) connected to the server 1 via a LAN (in-house network) 3 (also referred to as an in-seat terminal). ) 5
1 to 5n.

【0022】サーバ1は、各クライアント51〜5nから
文書ファイルを定期的に収集するためのファイル収集プ
ログラムを内蔵する。サーバ1内の各ディレクトリに
は、夫々カテゴリ学習による特徴が設定されている。サ
ーバ1において、上記プログラムの実行により各クライ
アント51〜5nから収集され、自動的に分類された各々
の文書ファイルが、上記各ディレクトリに移動させられ
る。
The server 1 has a built-in file collection program for periodically collecting document files from the clients 51 to 5n. Each directory in the server 1 has a feature set by category learning. In the server 1, the document files collected from the clients 51 to 5n and automatically classified by the execution of the program are moved to the directories.

【0023】本実施形態では、サーバ1における文書自
動分類の手順は、分類対象になる文書のカテゴリの学習
過程と、各文書の分類過程とに大別される。前者は、分
類対象になる文書の内容的特徴の抽出過程と、分類対象
になる文書の体裁的特徴の抽出過程と、上記文書の内容
及び体裁を加味した特徴を定義する過程とから成る。後
者は、各文書の内容的特徴を比較する過程と、各文書の
体裁的特徴を比較する過程と、各カテゴリと各文書の内
容的特徴とを比較する過程、及び各カテゴリと各文書の
体裁的特徴とを比較する過程とから成る。
In the present embodiment, the procedure for automatically classifying documents in the server 1 is roughly classified into a process of learning the category of a document to be classified and a process of classifying each document. The former includes a process of extracting a content feature of a document to be classified, a process of extracting a formative feature of the document to be classified, and a process of defining a feature in consideration of the content and format of the document. The latter includes a process of comparing the content characteristics of each document, a process of comparing the formative features of each document, a process of comparing each category with the content features of each document, and a format of each category and each document. Comparing with the characteristic feature.

【0024】上記構成において、サーバ1が上記プログ
ラムを実行することによって、上記システム上に、社内
における文書共有及び情報共有が実現される状況(文書
作成・共有環境)が形成される。
In the above configuration, when the server 1 executes the above-described program, a situation (document creation / sharing environment) in which document sharing and information sharing within the company are realized is formed on the system.

【0025】図2は、本発明の一実施形態に係る分類対
象になる文書のカテゴリの学習手順を示す説明図であ
る。
FIG. 2 is an explanatory diagram showing a learning procedure of a category of a document to be classified according to an embodiment of the present invention.

【0026】分類対象になる文書のカテゴリの学習で
は、そのカテゴリに属する文書(即ち、そのカテゴリに
分類されるべき文書、或いはそのカテゴリに当てはまる
典型的な文書)をサンプルとしてサーバ1に与え、サー
バ1がその文書の特徴を学習することによってそのカテ
ゴリの特徴を定義する(所謂教師有り分類)。
In learning a category of a document to be classified, a document belonging to the category (that is, a document to be classified into the category or a typical document applicable to the category) is provided to the server 1 as a sample. 1 defines the characteristics of the category by learning the characteristics of the document (so-called supervised classification).

【0027】上記学習手順は、図2に示すように、サン
プル文書を与える過程(ステップS11)と、それをメ
ディア変換する過程(ステップS12)と、メディア変
換して得た書式付き文書から特徴抽出する過程(ステッ
プS13)と、その特徴を学習することでカテゴリの特
徴を定義する過程(ステップS14)とから成る。ここ
で、ステップS13で示す特徴抽出する過程は、上述し
た分類対象になる文書の内容的特徴の抽出過程と、分類
対象になる文書の体裁的特徴の抽出過程とを含んでい
る。また、ステップS14で示すカテゴリの特徴を定義
する過程は、上述したように、文書の内容及び体裁を加
味した特徴を定義する過程である。
As shown in FIG. 2, the learning procedure includes a process of providing a sample document (step S11), a process of converting the sample document into media (step S12), and a process of extracting features from a formatted document obtained by media conversion. (Step S13), and a step of defining the category feature by learning the feature (Step S14). Here, the feature extraction process shown in step S13 includes the above-described process of extracting the content feature of the document to be classified and the process of extracting the formative feature of the document to be classified. Further, the process of defining the characteristics of the category shown in step S14 is a process of defining the characteristics in consideration of the contents and appearance of the document, as described above.

【0028】ステップS11で、サーバ1に提供される
サンプル文書には、例えばテキスト文書を始め、市販の
ワードプロセッサにより生成された文書ファイルや、ス
キャナにより取込まれた文書イメージ等が挙げられる。
これら各文書におけるメディアの違いは、次のステップ
S12でメディア変換を行って、各文書を書式付き文書
に変換することにより吸収される。なお、フォーマット
情報を持たないテキスト文書などのメディアを変換する
場合は、テキスト文書をそのまま紙に印刷するものとし
て書式を定義することとなる。このようにして生成した
書式付き文書より、次のステップS13で上述した内容
的特徴及び体裁的特徴の抽出を行う。
The sample documents provided to the server 1 in step S11 include, for example, a text document, a document file generated by a commercially available word processor, a document image captured by a scanner, and the like.
The difference in media between these documents is absorbed by performing media conversion in the next step S12 to convert each document into a formatted document. When a medium such as a text document having no format information is converted, the format is defined as if the text document is to be printed on paper as it is. In the next step S13, the above-described content features and appearance features are extracted from the formatted document thus generated.

【0029】ステップS13において、内容的特徴の抽
出では、例えば前述のTF/IDF法などを用いてテキ
スト文書中に出現する単語の種類や出現頻度から重みを
加えた単語の頻度ベクトルを生成させ、これを上記カテ
ゴリの内容的特徴とする。一方、体裁的特徴の抽出で
は、例えば前述の頁内の属性領域の位置的な重なりを求
める手法を用いて頁内の共通属性領域情報を生成させ、
これを上記カテゴリの体裁的特徴とする。
In step S13, in extracting the content features, a frequency vector of the word is generated by adding a weight from the type and frequency of the word appearing in the text document using, for example, the TF / IDF method described above. This is the content characteristic of the above category. On the other hand, in the extraction of the appearance features, for example, the common attribute area information in the page is generated by using the above-described method of obtaining the positional overlap of the attribute areas in the page,
This is the appearance characteristic of the above category.

【0030】更に、ステップS14で、別々に抽出した
上記内容的特徴及び体裁的特徴を再検証し、カテゴリが
内容的特徴に依存するものか、或いは体裁的特徴に依存
するものかを決定付けるための特徴ベクトルVを算出す
る。
Further, in step S14, the above-mentioned separately extracted content features and appearance features are re-examined to determine whether the category depends on the content features or on the appearance features. Is calculated.

【0031】次に、文書を分類する手順を説明する。Next, a procedure for classifying documents will be described.

【0032】上述したカテゴリ学習におけると同様に、
分類対象になる文書のメディア変換を行うことにより、
上記文書を書式付き文書に変換する。次に、その書式付
き文書に対し、カテゴリ学習におけると同様の処理を行
うことにより、その書式付き文書から内容的特徴及び体
裁的特徴を抽出し、各カテゴリと各文書の内容的特徴、
及び各カテゴリと各文書の体裁的特徴を夫々比較する。
As in the category learning described above,
By performing media conversion of documents to be classified,
Convert the above document to a formatted document. Next, by performing the same processing as in the category learning on the formatted document, the content features and the appearance features are extracted from the formatted document, and the content features of each category and each document are extracted.
Then, the formative features of each category and each document are compared.

【0033】上述したカテゴリの学習手順に含まれる体
裁的特徴の抽出過程では、サンプル文書全ての頁イメー
ジに対し、図領域・表領域・テキスト領域夫々における
共通領域を求め、フォーマットファイルを作成する。
In the process of extracting the appearance features included in the above-described category learning procedure, a common area in each of the figure area, the table area, and the text area is obtained for each page image of the sample document, and a format file is created.

【0034】図3は、上述したカテゴリの学習手順に含
まれる体裁的特徴の抽出過程において、文書の図領域・
表領域・テキスト領域夫々における共通領域導出基準を
示す説明図である。
FIG. 3 shows a diagram area of a document in the process of extracting the appearance features included in the above-described category learning procedure.
It is explanatory drawing which shows the common area | region derivation reference | standard in each of a table area | region and a text area.

【0035】文書の図領域・表領域については、図3に
示すように、同一の属性(図又は表)を持つ領域Ri、
Rj同士の重なり具合を求め、重なる領域(共通領域)
Rの面積とその領域Rを包含する領域(Ri又はRj)の
面積との比が所定の領域一致閾値trを超える領域を体
裁的特徴として抽出する。
As shown in FIG. 3, with respect to the figure area and table area of the document, areas Ri,
Find the degree of overlap between Rj and overlap area (common area)
A region where the ratio of the area of R to the area of the region (Ri or Rj) including the region R exceeds a predetermined region coincidence threshold tr is extracted as a formal feature.

【0036】換言すれば、共通領域Rが体裁的特徴とな
るための条件は、下記の(1)式で示される。
In other words, the condition for the common region R to have the appearance feature is expressed by the following equation (1).

【0037】 S(R)/S(Ri)≦trで、且つS(R)/S(Ri)≦tr……(1)S (R) / S (Ri) ≦ tr, and S (R) / S (Ri) ≦ tr (1)

【0038】図4は、上述したカテゴリの学習手順に含
まれる体裁的特徴の抽出過程において、文書のテキスト
領域における共通領域導出基準を示す説明図である。
FIG. 4 is an explanatory diagram showing a common area derivation criterion in the text area of the document in the process of extracting the appearance features included in the above-described category learning procedure.

【0039】文書のテキスト領域については、上記図3
で示した条件に加えて、更に、各サンプル文書21、2
3、25中の各々のテキスト領域211、231、251
同士における部分一致文字列を求め、求めた部分一致文
字列の文字列長と、その領域(211、231、251)
に含まれる文字列の文字列長が所定の文字列一致閾値t
tを超える領域を体裁的特徴として抽出する。上述した
過程を経ることにより、符号27で示すように、図領域
とテキスト領域とが体裁的特徴として抽出される。
For the text area of the document, see FIG.
In addition to the conditions shown in FIG.
Each text area 211, 231, 251 in 3, 25
Character string lengths of the obtained partial match character strings and their areas (211, 231 and 251)
The character string length of the character string included in the
The region exceeding t is extracted as a formal feature. Through the above-described process, as shown by reference numeral 27, the figure region and the text region are extracted as the formal features.

【0040】図5は、上述したカテゴリの学習手順に含
まれる内容的特徴及び体裁的特徴を加味したカテゴリの
特徴ベクトル算出の過程を示す説明図である。
FIG. 5 is an explanatory diagram showing a process of calculating a feature vector of a category in consideration of the content features and the style features included in the above-described category learning procedure.

【0041】特徴ベクトルVは、上述した過程を経て抽
出した内容的特徴Vc、及び体裁的特徴Vfを夫々成分と
する2次元ベクトルである。
The feature vector V is a two-dimensional vector having the content feature Vc and the style feature Vf extracted through the above-described process as components.

【0042】即ち、特徴ベクトルVは、図5に示すよう
に、横軸に内容的特徴Vcを、縦軸に体裁的特徴Vfを夫
々設定することによって定義される2次元空間をカテゴ
リ空間とし、与えられたサンプル文書の特徴と内容的特
徴Vcとの比較値、及び体裁的特徴Vfとの比較値を、夫
々三角印で示すようにマッピングする。次に、上記カテ
ゴリ空間において、クラスタリング手法を用いて上記各
々のサンプル文書のクラスタリングを行い、そのクラス
タリングによって得られたX印で示すクラスタを、カテ
ゴリの特徴ベクトル(V=(Vc=m、Vf=m))とす
る。
That is, as shown in FIG. 5, the feature vector V is a two-dimensional space defined by setting a content feature Vc on the horizontal axis and a formative feature Vf on the vertical axis, and a category space. The comparison value between the feature of the given sample document and the content feature Vc and the comparison value with the formal feature Vf are mapped as indicated by triangles, respectively. Next, in the category space, each of the sample documents is clustered using a clustering technique, and a cluster indicated by an X mark obtained by the clustering is classified into a feature vector (V = (Vc = m, Vf = m)).

【0043】なお、上述したように、文書を分類する手
順においても、カテゴリ学習におけると同様の処理を行
うことにより、各カテゴリと各文書の内容的特徴、及び
各カテゴリと各文書の体裁的特徴を夫々比較する。内容
的特徴を比較するためには、各分類対象カテゴリと内容
的特徴との内積を求める必要がある。また、体裁的特徴
を比較するためには、各分類対象カテゴリの共通領域と
体裁的特徴との一致度を求める必要がある。内容的特徴
の比較、及び体裁的特徴の比較のいずれにおいても、特
徴抽出方式が相違すれば、特徴量の比較方法も相違す
る。内容的特徴の比較値(Vc=dc)、及び体裁的特徴
の比較値(Vf=df)を、文書の特徴ベクトルD=(V
c=dc、Vf=df)として、各分類対象カテゴリの特徴
ベクトルVi(i=1、2、…、n、ここで、nは分類対象カ
テゴリ数)との内積を求め、内積値が最大のものを該当
カテゴリとし、そのカテゴリへの分類を実行する。
As described above, in the procedure for classifying the documents, the same processing as in the category learning is performed, so that the content characteristics of each category and each document and the appearance characteristics of each category and each document are obtained. Are compared. In order to compare the content features, it is necessary to find the inner product of each category to be classified and the content features. Further, in order to compare the appearance features, it is necessary to find the degree of coincidence between the common area of each category to be classified and the appearance features. In both the comparison of the content features and the comparison of the style features, if the feature extraction method is different, the feature amount comparison method is also different. The comparison value of the content feature (Vc = dc) and the comparison value of the formal feature (Vf = df) are converted into the feature vector D = (V
As c = dc, Vf = df), the inner product of each classification target category with the feature vector Vi (i = 1, 2,..., n, where n is the number of classification target categories) is obtained, and the inner product value is the largest. The object is set as a corresponding category, and classification into the category is executed.

【0044】図6は、サーバ1内に構築されるカテゴリ
体系の一例を示すブロック図である。
FIG. 6 is a block diagram showing an example of a category system constructed in the server 1.

【0045】図6に示すカテゴリ体系の構築には、本実
施形態に係るシステムの管理者(システム管理者)が、
分類先ディレクトリのカテゴリ学習を行うことにより分
類実行の準備をする手順と、上述したファイル収集プロ
グラムによって各クライアント51〜5nから収集される
文書ファイルを自動分類する手順とが必要である。
To construct the category system shown in FIG. 6, a system administrator (system administrator) of the present embodiment
It is necessary to have a procedure for preparing for the execution of the classification by learning the category of the classification destination directory and a procedure for automatically classifying the document files collected from the clients 51 to 5n by the above-mentioned file collection program.

【0046】まず、システム管理者によるカテゴリ学習
の手順を説明する。
First, the procedure of category learning by the system administrator will be described.

【0047】収集される文書ファイルを自動分類する場
合、システム管理者は、図6に示すカテゴリ(分類)体
系を構成する末端のカテゴリである「外部発表許可願」
や、「国際会議原稿」や、「デジタルドキュメント」
や、「情報学基礎」についてカテゴリ学習を行う。
When automatically classifying the collected document files, the system administrator sets "category (classification)" shown in FIG.
And "international conference manuscripts" and "digital documents"
And, learn the category about "Informatics basics".

【0048】このカテゴリ学習では、図2のステップS
12で示したように、文書メディアを書式付き文書に変
換する。書式付き文書の形式は、頁内の図表の位置、テ
キストの位置及びテキストコードを取得できることが前
提条件となるため、例えばRTF(マイクロソフト社の
リッチ・テキスト・フォーマット)や、PDF(アドー
ビシステム社のポータブル・ドキュメント・フォーマッ
ト)などを採用する。書式付き文書にRTFを使用する
場合、クライアント51〜5n内に搭載される文書作成ソ
フトがファイル保存形式としてRTFをサポートしてい
る必要があり、VBA(ビジュアル・ベーシック・フォ
ー・アプリケーション)によって文書作成ソフトから直
接RTF形式を出力させることができる。また、PDF
を使用する場合には、ファイル保存形式の他、プリンタ
ドライバを経由して、アドービシステム社のアクロバッ
トPDFライタ3.0により、PDFを生成させること
ができる。
In this category learning, step S in FIG.
As shown at 12, the document media is converted to a formatted document. The format of a formatted document is based on the premise that the positions of figures and tables within a page, the position of text, and the text code can be acquired. For example, RTF (Microsoft's Rich Text Format) or PDF (Adobe Systems Inc.'s (Portable Document Format). When RTF is used for a formatted document, the document creation software installed in the clients 51 to 5n needs to support RTF as a file storage format, and the document is created by VBA (Visual Basic for Application). RTF format can be directly output from software. Also, PDF
Is used, a PDF can be generated by an Adobe PDF writer, an Acrobat PDF writer 3.0, via a printer driver in addition to a file storage format.

【0049】次に、上記書式付き文書をサンプルとして
カテゴリの学習を行う。例えば、上記カテゴリにおい
て、「デジタルドキュメント」に相当するサンプル文書
を10個ほど用意するか、或いは既に「デジタルドキュ
メント」に分類されている文書中より典型的な文書を1
0個ほど指定して、それらを「デジタルドキュメント」
の学習条件とする。カテゴリの学習においては、上述し
たように(図2において、ステップS13で示したよう
に)、内容的特徴抽出及び体裁的特徴抽出を行い、両者
の重み値を求める。内容的特徴については、例えば「茶
筅」などの形態素解析ツールにより名詞を抽出した後、
サンプル文書中の出現頻度tfに、その単語が出現する
文書数の逆数idfを重みとして与えた特徴ベクトルC
を作成する。
Next, category learning is performed using the above-mentioned formatted document as a sample. For example, in the above category, about ten sample documents corresponding to “digital documents” are prepared, or one more typical document among documents already classified as “digital documents” is selected.
Specify about 0 and specify them as "digital documents"
Learning conditions. In the category learning, as described above (as shown in step S13 in FIG. 2), the content feature extraction and the style feature extraction are performed, and the weight value of both is obtained. As for the content features, for example, after extracting nouns using a morphological analysis tool such as "cha sen",
A feature vector C in which the reciprocal idf of the number of documents in which the word appears is given as a weight to the occurrence frequency tf in the sample document.
Create

【0050】この特徴ベクトルCは、各単語Wi(i=
0、1、2、…、n)に対し、下記の(2)式で示す要素C
i(i=0、1、2、…、n)を持つ。
The feature vector C is calculated for each word Wi (i =
0, 1, 2,..., N), the element C represented by the following equation (2)
i (i = 0, 1, 2,..., n).

【0051】[0051]

【数1】 更に、識別時の他特徴ベクトルとの内積値を一様に比較
するため、下記の(3)式を用いて、大きさが1になる
ように特徴ベクトルCを正規化する。
(Equation 1) Further, in order to uniformly compare the inner product value with another feature vector at the time of identification, the feature vector C is normalized so that the size becomes 1 using the following equation (3).

【0052】[0052]

【数2】 次に、体裁的特徴においては、サンプル文書全ての頁イ
メージに対し、図領域、表領域、テキスト領域夫々の共
通領域を求め、フォーマットファイルを作成する(これ
については、図3及び図4で詳述した)。内容的特徴及
び体裁的特徴を抽出すると、それらの特徴とサンプル文
書との比較を行い、図3で説明したように、比較値を内
容的特徴及び体裁的特徴から成る2次元空間にマッピン
グし、クラスタリングを行う。ここで、クラスタリング
の手法として、近傍値nを与えてやり、各ノードからの
距離値の合計が最短となるクラスタを求める方法を採用
する。このクラスタの座標値を、カテゴリの特徴ベクト
ルとしてシステムに登録する。
(Equation 2) Next, in the appearance features, for each page image of the sample document, a common area of a figure area, a table area, and a text area is obtained, and a format file is created (this is described in detail in FIGS. 3 and 4). Described). When the content features and the formative features are extracted, those features are compared with the sample document, and the comparison value is mapped to a two-dimensional space composed of the content features and the formative features as described in FIG. Perform clustering. Here, as a clustering method, a method is used in which a neighborhood value n is given and a cluster in which the sum of distance values from each node is the shortest is obtained. The coordinate value of this cluster is registered in the system as a category feature vector.

【0053】上述した過程を経て作成した各ディレクト
リの特徴ベクトルを例えばoracleなどのリレーシ
ョナルデータベースに登録し、カテゴリの学習は完了す
る。
The feature vector of each directory created through the above-described process is registered in a relational database such as oracle, and the learning of the category is completed.

【0054】次に、文書分類の手順を説明する。Next, the procedure of document classification will be described.

【0055】収集された文書ファイルを格納するための
サーバ1内のインポート用ディレクトリに、監視プロセ
スを設け、監視プロセスにより、新規に収集された文書
ファイルの有無をチェックする。このチェックの結果、
新規文書ファイルを見付け出したときには、その文書フ
ァイルを、本実施形態に係る文書分類方式を採用した文
書分類プログラムに入力する。文書分類プログラムで
は、上記文書ファイルの内容的特徴及び体裁的特徴を抽
出し、それにより文書特徴ベクトルDを得る。この文書
特徴ベクトルDと、データベースから得た各分類対象デ
ィレクトリの特徴ベクトルVとの内積を求め、内積値が
最大になるカテゴリ(ディレクトリ)に対して、上記新
規文書ファイルの移動処理を行うこととなる。
A monitoring process is provided in an import directory in the server 1 for storing the collected document files, and the monitoring process checks whether there is any newly collected document file. As a result of this check,
When a new document file is found, the document file is input to a document classification program adopting the document classification method according to the present embodiment. The document classification program extracts the content features and the appearance features of the document file, thereby obtaining a document feature vector D. Calculating the inner product of the document feature vector D and the feature vector V of each directory to be categorized obtained from the database, and performing the process of moving the new document file to the category (directory) having the largest inner product value; Become.

【0056】以上説明したように、本発明の一実施形態
によれば、文書メディアに依存しない文書分類方式を用
いることにより、文書管理システムの対象メディアを拡
大することができる。また、文書管理システムのマルチ
メディア化に伴い、各クライアント51〜5n間での情報
共有の促進を図ることができる。また、文書の内容的特
徴や体裁的特徴を加味した文書分類方式を採用すること
により、文書管理システムにおける運用コストの低減
や、システム管理者の負担軽減や、文書作成者における
文書作成作業の負担軽減を図ることができる。例えば、
従来にあっては、ファイル収集プログラムによって収集
された文書ファイルはサーバ1内の1つのインポート用
ディレクトリに置かれ、システム管理者がそれらを個別
に分類した上、各文書ファイルを1個ずつ閲覧して該当
するディレクトリに移動していた。しかし、本実施形態
ではシステム管理者がそのような作業を行う必要は全く
ない。また、文書分類の自動化により、定型文書の自動
処理を図ることができる。更に、ユーザが情報収集した
い文書をシステムに学習させ、ユーザ定義のカテゴリを
作成することにより、システムに入力される文書のう
ち、そのカテゴリに該当する文書が自動的に分類・通知
されることで、関連文書通知サービスを実現することが
できる。これにより、情報収集の支援や知的生産性の向
上が期待できる。
As described above, according to the embodiment of the present invention, the target media of the document management system can be expanded by using the document classification method independent of the document media. Further, with the use of multimedia in the document management system, information sharing among the clients 51 to 5n can be promoted. In addition, by adopting a document classification method that takes into account the document's content characteristics and appearance characteristics, the operation cost of the document management system can be reduced, the burden on the system administrator can be reduced, and the burden of document creation work on the document creator can be reduced. Reduction can be achieved. For example,
Conventionally, document files collected by the file collection program are placed in one import directory in the server 1, and the system administrator classifies them individually and browses each document file one by one. Was moved to the appropriate directory. However, in the present embodiment, there is no need for the system administrator to perform such work at all. In addition, automatic processing of fixed documents can be achieved by automating document classification. Furthermore, the system allows the user to learn the documents that the user wants to collect information and creates a user-defined category, whereby the documents corresponding to the category among the documents input to the system are automatically classified and notified. A related document notification service can be realized. As a result, support for information collection and improvement in intellectual productivity can be expected.

【0057】なお、上述した内容は、あくまで本発明の
一実施形態に関するものであって、本発明が上記内容の
みに限定されることを意味するものでないのは勿論であ
る。
It should be noted that the above-described contents are merely related to one embodiment of the present invention, and do not mean that the present invention is limited to only the above-described contents.

【0058】[0058]

【発明の効果】以上説明したように、本発明によれば、
分類する情報の内容、及び体裁の双方に着目して情報分
類を行えるようにすることができる。
As described above, according to the present invention,
The information classification can be performed by focusing on both the content of the information to be classified and the appearance.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係る情報分類方式が適用
される文書管理システムの全体構成を示すブロック図。
FIG. 1 is a block diagram showing the overall configuration of a document management system to which an information classification method according to an embodiment of the present invention is applied.

【図2】本発明の一実施形態に係る分類対象になる文書
のカテゴリの学習過程を示す説明図。
FIG. 2 is an explanatory diagram showing a learning process of a category of a document to be classified according to an embodiment of the present invention.

【図3】カテゴリの学習手順に含まれる体裁的特徴の抽
出過程において、文書の図領域・表領域・テキスト領域
夫々における共通領域導出基準を示す説明図。
FIG. 3 is an explanatory diagram showing a common area derivation criterion in each of a figure area, a table area, and a text area in a process of extracting a formative feature included in a category learning procedure.

【図4】カテゴリの学習手順に含まれる体裁的特徴の抽
出過程において、文書のテキスト領域における共通領域
導出基準を示す説明図。
FIG. 4 is an explanatory diagram showing a common area derivation criterion in a text area of a document in a process of extracting a style feature included in a category learning procedure.

【図5】カテゴリの学習手順に含まれる内容的特徴及び
体裁的特徴を加味したカテゴリの特徴ベクトル算出の過
程を示す説明図。
FIG. 5 is an explanatory diagram showing a process of calculating a feature vector of a category in consideration of a content feature and a style feature included in a category learning procedure.

【図6】文書管理サーバ内に構築されるカテゴリ体系の
一例を示すブロック図。
FIG. 6 is a block diagram showing an example of a category system constructed in the document management server.

【符号の説明】[Explanation of symbols]

1 文書管理サーバ(サーバ) 3 LAN(社内ネットワーク) 51〜5n 文書作成クライアント(クライアント)(自
席端末) 21、23、25 サンプル文書 211、231、251 テキスト領域
DESCRIPTION OF SYMBOLS 1 Document management server (server) 3 LAN (in-house network) 51-5n Document creation client (client) (self-terminal) 21, 23, 25 Sample documents 211, 231, 251 Text area

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 任意のカテゴリに属する1又は複数の情
報の特徴を学習することにより、前記カテゴリの特徴を
定義する手段と、 分類の対象として与えられた情報を解析することによ
り、その情報の特徴を抽出する手段と、 前記定義されたカテゴリの特徴と、前記抽出された情報
の特徴とに所定の処理を施すことにより、前記情報が前
記カテゴリに属するか否か判定する手段と、 を備える情報分類方式。
1. A means for defining characteristics of one or a plurality of pieces of information belonging to an arbitrary category, and means for defining the characteristics of the category. Means for extracting a feature; and means for performing a predetermined process on the feature of the defined category and the feature of the extracted information to determine whether the information belongs to the category. Information classification method.
【請求項2】 請求項1記載の情報分類方式において、 前記カテゴリが、複数存在し、前記情報が、テキスト文
書、文書ファイル、文書イメージ等の文書情報であり、
前記文書情報がメディア変換によって書式付き文書情報
に変換されることを特徴とする情報分類方式。
2. The information classification method according to claim 1, wherein the plurality of categories exist, and the information is document information such as a text document, a document file, and a document image;
An information classification method, wherein the document information is converted into formatted document information by media conversion.
【請求項3】 請求項2記載の情報分類方式において、 前記カテゴリの特徴の定義が、前記文書情報の内容的特
徴の抽出と、前記文書情報の体裁的特徴の抽出とを経て
得られた前記文書情報の内容的特徴及び体裁的特徴を加
味して行われることを特徴とする情報分類方式。
3. The information classification method according to claim 2, wherein the definition of the feature of the category is obtained through extraction of a content feature of the document information and extraction of a formative feature of the document information. An information classification method characterized by taking into account the content characteristics and appearance characteristics of document information.
【請求項4】 請求項3記載の情報分類方式において、 前記文書情報の内容的特徴の抽出が、TF/IDF法に
より、テキスト文書に出現する単語の種類・頻度から重
みを加えた単語の頻度ベクトルを生成させることにより
行うことを特徴とする情報分類方式。
4. The information classification method according to claim 3, wherein the extraction of the content feature of the document information is performed by using a TF / IDF method to add a weight to the word type obtained by adding a weight to the type and frequency of the word appearing in the text document. An information classification method characterized by performing by generating a vector.
【請求項5】 請求項3記載の情報分類方式において、 前記文書情報の体裁的特徴の抽出が、文書情報を構成す
る各頁内の属性領域の位置的な重なりを求める手法を用
いて前記頁内の共通属性領域を生成させることにより行
うことを特徴とする情報分類方式。
5. The information classification method according to claim 3, wherein the formative feature of the document information is extracted by using a method of obtaining a positional overlap of attribute regions in each page constituting the document information. An information classification method characterized by performing by generating a common attribute area in a group.
【請求項6】 請求項3記載の情報分類方式において、 前記文書情報の内容的特徴及び体裁的特徴の加味が、前
記内容的特徴及び前記体裁的特徴を再検証し、前記カテ
ゴリが内容的特徴及び体裁的特徴のいずれに依存するか
を決定付けるための特徴ベクトルを算出することにより
行われることを特徴とする情報分類方式。
6. The information classification method according to claim 3, wherein the content features and the appearance features of the document information are re-examined for the content features and the appearance features, and the category is a content feature. And an information classification method which is performed by calculating a feature vector for deciding which of the above and the appearance features to rely on.
【請求項7】 請求項6記載の情報分類方式において、 前記特徴ベクトルが、内容的特徴及び体裁的特徴によっ
て定義される2次元空間をカテゴリ空間として、そのカ
テゴリ空間内にマッピングされた前記文書情報の特徴
と、前記内容的特徴及び体裁的特徴との比較値をクラス
タリングすることにより求まることを特徴とする情報分
類方式。
7. The information classification method according to claim 6, wherein the feature information is mapped in a two-dimensional space defined by a content feature and a formative feature as a category space. An information classification method characterized in that a comparison value between the above-mentioned feature and the content feature and the appearance feature is obtained by clustering.
【請求項8】 請求項1記載の情報分類方式において、 前記分類の対象として与えられた情報が、文書情報であ
り、前記分類の対象として与えられた情報の特徴が、前
記文書情報から夫々抽出される内容的特徴及び体裁的特
徴により決まることを特徴とする情報分類方式。
8. The information classification method according to claim 1, wherein the information provided as a target of the classification is document information, and characteristics of the information provided as a target of the classification are respectively extracted from the document information. An information classification method characterized by being determined by the content characteristics and appearance characteristics to be performed.
【請求項9】 請求項1又は請求項2記載の情報分類方
式において、 前記判定手段が、前記定義されたカテゴリの内容的特徴
を表すベクトルと、前記抽出された文書情報の内容的特
徴を表すベクトルとの内積を求め、前記各カテゴリの体
裁的特徴を示す共通領域と、前記抽出された文書情報の
体裁的特徴との一致度を求め、前記内積と前記カテゴリ
の内容的特徴との比較値、及び前記一致度と前記カテゴ
リの体裁的特徴との比較値を前記文書情報のベクトルと
して、このベクトルと前記各カテゴリの特徴ベクトルと
の内積を求め、内積が最大値を取るカテゴリを、前記文
書情報の属するカテゴリと判定することを特徴とする情
報分類方式。
9. The information classification method according to claim 1, wherein the determination unit indicates a vector representing a content feature of the defined category and a content feature of the extracted document information. Finding the inner product of the vector and the common area indicating the appearance characteristics of each category and the degree of coincidence with the appearance characteristics of the extracted document information, and comparing the inner product with the content characteristics of the category And a comparison value between the degree of coincidence and the formative feature of the category as a vector of the document information, find an inner product of this vector and a feature vector of each category, and define the category whose inner product takes the maximum value in the document. An information classification method characterized by determining a category to which information belongs.
【請求項10】 任意のカテゴリに属する1又は複数の
情報の特徴を学習することにより、前記カテゴリの特徴
を定義する第1の過程と、 分類の対象として与えられた情報を解析することによ
り、その情報の特徴を抽出する第2の過程と、 前記定義されたカテゴリの特徴と、前記抽出された情報
の特徴とに所定の処理を施すことにより、前記情報が前
記カテゴリに属するか否か判定する第3の過程と、 を備える情報分類方法。
10. A first step of defining features of one or more information belonging to an arbitrary category by learning features of the category, and analyzing information given as an object of classification by A second process of extracting features of the information; and performing predetermined processing on the features of the defined category and the features of the extracted information to determine whether the information belongs to the category. And a third step of performing the information classification method.
【請求項11】 任意のカテゴリに属する1又は複数の
情報の特徴を学習することにより、前記カテゴリの特徴
を定義する手段と、 分類の対象として与えられた情報を解析することによ
り、その情報の特徴を抽出する手段と、 前記定義されたカテゴリの特徴と、前記抽出された情報
の特徴とに所定の処理を施すことにより、前記情報が前
記カテゴリに属するか否か判定する手段と、 を備える情報分類方式における前記各手段としてコンピ
ュータを動作させるためのコンピュータプログラムを担
持したコンピュータ読取可能なプログラム媒体。
11. A means for defining characteristics of one or a plurality of information belonging to an arbitrary category, and means for defining the characteristics of the category; Means for extracting a feature; and means for performing a predetermined process on the feature of the defined category and the feature of the extracted information to determine whether the information belongs to the category. A computer-readable program medium carrying a computer program for operating a computer as each of the means in the information classification method.
JP11067765A 1999-03-15 1999-03-15 Information classifying system Pending JP2000268040A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11067765A JP2000268040A (en) 1999-03-15 1999-03-15 Information classifying system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11067765A JP2000268040A (en) 1999-03-15 1999-03-15 Information classifying system

Publications (1)

Publication Number Publication Date
JP2000268040A true JP2000268040A (en) 2000-09-29

Family

ID=13354369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11067765A Pending JP2000268040A (en) 1999-03-15 1999-03-15 Information classifying system

Country Status (1)

Country Link
JP (1) JP2000268040A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080263A (en) * 2005-09-09 2007-03-29 Xerox Corp Method for document clustering based on page layout attributes
CN100393096C (en) * 2004-07-07 2008-06-04 佳能株式会社 Image processing system and image processing method
JP2009199302A (en) * 2008-02-21 2009-09-03 Netstar Inc Program, device, and method for analyzing document
JP2010026750A (en) * 2008-07-18 2010-02-04 Hitachi Software Eng Co Ltd Automatic definition system for data retrieval item information in electronic business form system
JP2011258215A (en) * 2005-01-11 2011-12-22 Xerox Corp Method for automatically selecting document
JP2012043285A (en) * 2010-08-20 2012-03-01 Kddi Corp Document classification program, server and method based on sentence features and physical features of document information

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100393096C (en) * 2004-07-07 2008-06-04 佳能株式会社 Image processing system and image processing method
JP2011258215A (en) * 2005-01-11 2011-12-22 Xerox Corp Method for automatically selecting document
JP2007080263A (en) * 2005-09-09 2007-03-29 Xerox Corp Method for document clustering based on page layout attributes
JP2009199302A (en) * 2008-02-21 2009-09-03 Netstar Inc Program, device, and method for analyzing document
JP2010026750A (en) * 2008-07-18 2010-02-04 Hitachi Software Eng Co Ltd Automatic definition system for data retrieval item information in electronic business form system
JP2012043285A (en) * 2010-08-20 2012-03-01 Kddi Corp Document classification program, server and method based on sentence features and physical features of document information

Similar Documents

Publication Publication Date Title
JP3703157B2 (en) Form processing method and apparatus
US6243501B1 (en) Adaptive recognition of documents using layout attributes
US7860312B2 (en) System and method for identifying and labeling fields of text associated with scanned business documents
US6694053B1 (en) Method and apparatus for performing document structure analysis
US7917850B2 (en) Document managing system and method thereof
JP3940491B2 (en) Document processing apparatus and document processing method
JP2005182730A (en) Automatic document separation
CN105912684B (en) The cross-media retrieval method of view-based access control model feature and semantic feature
JP2007095102A (en) Document processor and document processing method
CN108197119A (en) The archives of paper quality digitizing solution of knowledge based collection of illustrative plates
JP2000268040A (en) Information classifying system
CN111079709B (en) Electronic document generation method and device, computer equipment and storage medium
JP2000259669A (en) Document classification device and its method
JP2002157262A (en) Classification rule definition supporting method
CN115630636A (en) Text recognition method and device
CN113806368A (en) System and method for identifying document and automatically establishing database
JP3879810B2 (en) Reading support device
CN116340259A (en) Document management method, document management system and computing device
JP2002342343A (en) Document managing system
JP7255585B2 (en) Information processing device, information processing method, and program
JP2002342342A (en) Document managing method, execution system therefor, processing program and recording medium therefor
KR101769528B1 (en) Electronic document classification and standardized method for a wide range of information
KR20190076302A (en) Apparatus for document classification processing using the machine learning and publishing apparatus using the same
JPH08161467A (en) Electronic file device and electronic file system
CN111079708B (en) Information identification method and device, computer equipment and storage medium

Legal Events

Date Code Title Description
RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20040903