JP2000250919A - 文書処理装置及びそのプログラム記憶媒体 - Google Patents

文書処理装置及びそのプログラム記憶媒体

Info

Publication number
JP2000250919A
JP2000250919A JP11049501A JP4950199A JP2000250919A JP 2000250919 A JP2000250919 A JP 2000250919A JP 11049501 A JP11049501 A JP 11049501A JP 4950199 A JP4950199 A JP 4950199A JP 2000250919 A JP2000250919 A JP 2000250919A
Authority
JP
Japan
Prior art keywords
word
category
principal component
factor
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11049501A
Other languages
English (en)
Inventor
Tadashi Hoshiai
忠 星合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11049501A priority Critical patent/JP2000250919A/ja
Publication of JP2000250919A publication Critical patent/JP2000250919A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明は、文書処理装置及びそのプログラム記
憶媒体に関し、電子化文書の検索や分類等の処理のため
のカテゴリ因子を抽出することを目的とする。 【解決手段】 文書処理装置は、主成分単位分解部5
は、カテゴリ毎に抽出された特徴語11とこれに基づい
て求められた特徴語相関行列12とを用いた当該カテゴ
リの主成分分析により抽出された主成分係数13と、前
記特徴語11とを用いて、特徴語の出現傾向を表す座標
系に基づいて主成分の各々に対応する特徴語の群を求
め、特徴語の群の多い主成分を選択して主成分因子14
とする。また、当該特徴語の群と主成分の各々との相関
の強さを用いて、主成分因子14との相関が高い特徴語
を選択して因子特徴語15とする。これにより、主成分
因子14と因子特徴語15とからなるカテゴリ因子20
を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書処理装置及び
そのプログラム記憶媒体に関し、特に、電子化文書につ
いての検索や分類等の処理を正確に行うための因子を正
確に抽出する文書処理装置及びそのプログラム記憶媒体
に関する。
【0002】
【従来の技術】近年、インターネットが普及し、この上
で公開される文書を数多く利用できるようになった。ま
た、CD−ROM、CD−R等が普及し、電子出版物も
多く利用できるようになった。このような電子化文書
は、それが電子化(コード化)されていることを利用し
て、情報検索や文書の自動分類を行うことができる。
【0003】そこで、このような文書の電子化に伴い、
企業の有する文書資産、情報資産やインターネット上で
公開されている文書資産、情報資産を更に深いレベルで
活用したいという機運が出てきている。このためには、
情報検索技術や文書の自動分類等の情報利用技術の一層
の進展が望まれる。
【0004】
【発明が解決しようとする課題】現在の情報検索技術や
自動分類技術は、高速で情報検索や文書分類を自動的に
行うことができる。しかし、検索結果の適合率や文書の
分類精度が未だに満足できる程度に達していない。例え
ば、情報検索においては、検索結果を基に再検索する場
合の絞り込みの支援等が必要である。即ち、検索の絞り
込みにあたって、追加のキーワードの候補をオペレータ
が示すと言う支援が必要である。
【0005】また、電子化文書の利用のツールとして、
情報検索ツールや自動分類ツール、特徴語抽出ツール等
がある。しかし、これらは個別のアプリケーション(プ
ログラム)になっている場合が多い。従って、情報利用
への統合的アプローチとして、検索や分類等に共通の統
計的特徴量を基盤とするオントロジー的特徴語ベースへ
の発展の可能性を探る必要がある。
【0006】更に、文書処理にあたり、文字列レベル/
形態素レベルの統計処理にとどまらず、対象領域に関す
る情報内容のレベルで処理するための要約技術、機械学
習、テキストデータマイニング等の知識獲得関連技術が
盛んになっている。このため、自然言語処理技術も要求
されるようになってきており、知識処理、文脈処理のた
めの文脈同定、対話状況認識のための基礎技術を探るこ
とも重要である。
【0007】本発明者の検討によれば、以上の課題は、
文字列レベルの文書処理技術と理想とされる意味レベル
の文書処理技術との間のギャップに関連すると考えられ
る。意味レベルの文書処理技術は理想ではあるが種々の
理由から未だに実現されておらず、現状では文字列レベ
ルの文書処理技術が殆どである。本発明は、文書処理の
因子として、文字列レベルと意味レベルとの中間レベル
である文書の分類(カテゴリ)の因子(カテゴリ因子)
のレベルを新たに想定し、この因子の抽出を自動的に行
う。カテゴリ因子は、文字列レベルより詳細で、かつ、
意味レベルに近い文書処理を可能とする。
【0008】本発明は、電子化文書の検索や分類等の処
理のためのカテゴリ因子を抽出する文書処理装置を提供
することを目的とする。
【0009】また、本発明は、電子化文書の検索や分類
等の処理のためのカテゴリ因子を抽出する文書処理装置
を実現するプログラムを記憶するプログラム記憶媒体を
提供することを目的とする。
【0010】
【課題を解決するための手段】図1は本発明の原理構成
図であり、本発明による文書処理装置の構成を示す。文
書処理装置は、カテゴリ因子20を当該カテゴリから抽
出する主成分単位分解部5を備える。主成分単位分解部
5は、カテゴリ毎に抽出された特徴語11とこれに基づ
いて求められた特徴語相関行列12とを用いた当該カテ
ゴリの主成分分析により抽出された主成分係数13と、
前記特徴語11とを用いて、特徴語の出現傾向を表す座
標系に基づいて主成分の各々に対応する特徴語の群を求
め、特徴語の群の多い主成分を選択して主成分因子14
とする。また、当該特徴語の群と主成分の各々との相関
の強さを用いて、主成分因子14との相関が高い特徴語
を選択して因子特徴語15とする。これにより、主成分
因子14と因子特徴語15とからなるカテゴリ因子20
を抽出する。
【0011】本発明の文書処理装置によれば、文書から
その分類の因子として適切な主成分因子14と因子特徴
語15とからなるカテゴリ因子20を自動的に抽出する
ことができる。この結果、文字列レベルの文書処理技術
と理想とされる意味レベルの文書処理技術との中間に位
置するカテゴリ因子20による文書処理が可能となり、
意味レベル程まで理想ではないが、これに近くかつ実現
性のある文書処理が可能となる。これにより、検索結果
の適合率や文書の分類精度をある程度満足できる水準に
保つことが可能な情報検索や文書分類を行うことができ
る。例えば、情報検索においては、検索結果を基に再検
索する回数を減らすことができ、再検索の場合の絞り込
みの支援においてもその指針を与えることができる。ま
た、統合的な情報利用のために、検索や分類等に共通の
統計的特徴量として特徴語を基礎においたカテゴリ因子
20を採用することができる。更に、文書処理にあた
り、文字列レベル/形態素レベルの統計処理にとどまら
ず、特徴語を基礎においたカテゴリ因子20の採用によ
り情報内容のレベルで処理できるので、知識処理、文脈
処理のための文脈同定、対話状況認識の補助とすること
ができる。
【0012】
【発明の実施の形態】最初に、本発明により得られる情
報カテゴリ及びカテゴリ因子20について、簡単に説明
する。
【0013】前述のように、意味レベルの文書処理技術
は未だに実現されておらず、現状では文字列レベル/形
態素(又は、単語)レベルの文書処理技術が殆どであ
る。ここで、文字列とは文字の羅列を意味し、形態素と
は略単語を意味し、単語とは一定の意味を有する文字列
をまとめたものを意味し、意味とは文書(即ち情報)の
持つ正しい意味を言う。従って、文字列レベルでの文書
処理とは文書を単なるコード(文字)の羅列とのみ捉え
て、文字列を含むとか文字列の出現頻度が高いと言うよ
うな結果を得る文書処理を言う。形態素(又は、単語)
レベルでの文書処理とは文書に含まれる単語を自動的に
抽出してこれに着目して、単語の出現頻度が高いと言う
ような結果を得る文書処理を言う。意味レベルでの文書
処理とは専門知識を有する人間が行うのと同等の文書処
理、即ち、複数の単語の意味(知識)を組み合わせた処
理を行う知識処理を言う。知識処理のため(知識処理に
近づくため)には、その基礎となる知識(意味)が正確
かつ詳細に分類されていなければならない。そして、文
書処理装置には、この分類を自動的に行うことが求めら
れる。
【0014】そこで、本発明は、文字列レベルと意味レ
ベルとの中間レベルとしての情報カテゴリ及びカテゴリ
因子20なる概念を導入し、このレベルでの文書処理
(情報処理)を行う。ここで、情報カテゴリとはその文
書(即ち、情報)が属する分類(カテゴリ)を言う。例
えば、「新聞記事」と言うカテゴリ内において「政
治」、「経済」等のカテゴリが存在し、「経済」と言う
カテゴリ内において「国内経済」、「国際経済」等のカ
テゴリが存在する。即ち、ここで言うカテゴリとは分類
(分類した結果、又は、分類した結果に則した入れ物)
の意味である。カテゴリには階層が存在する。カテゴリ
因子20とは、カテゴリ内における更に細分化した分類
を言い、上位のカテゴリから見た場合における下位のカ
テゴリを指す。カテゴリ及びカテゴリ因子20による文
書の処理は単語レベルと意味レベルとの中間での処理で
ある。
【0015】文書の検索や自動分類等の統計的アプロー
チにおいては、文書の対象分野(本発明における情報カ
テゴリ)の語彙の統計的特性を利用している。例えば、
検索は語と文書(群)との相関、分類は分野と語の相
関、語のクラスタリングは語と語の相関を分析対象とす
る。本発明では、これらの相関の分析に加えて、更に、
カテゴリとカテゴリ因子20の相関や、カテゴリ因子2
0と語(単語)の相関を分析対象に加える。これによ
り、カテゴリと語の相関と、文書(群)と語の相関との
中間にあって、これらの媒介的な役割をカテゴリ因子2
0が果たすことができる。即ち、カテゴリ因子20は様
々な情報カテゴリを識別するための弁別的素性を有す
る。
【0016】本発明では、あるカテゴリの文書(群)を
分析して、その分類の細分化や弁別的素性(カテゴリ因
子20)への分解する場合、直接的には直ぐ下の階層の
カテゴリ因子20へ分解する。更に、その下位について
は、集合論的に客観的分析や演算により詳細に分解す
る。このような全体的なカテゴリによる文書の体系化
は、統一的な情報利用基盤としての特徴語パラメータセ
ット生成や知識ベース構築の準備としての多観点カテゴ
リ体系等へ応用できる。例えば、カテゴリ「新聞」から
カテゴリ因子20への分解では、「経済」や「スポー
ツ」等のカテゴリ(因子)の記事データへ分解し、「経
済」記事からは「景気」「企業活動」「金融市場動向」
等のようなカテゴリ因子20に分解する。本発明では、
与えられたカテゴリにおけるカテゴリ因子20を自動的
にかつ高精度で得るために、多変量解析における主成分
分析を用い、これを基礎として、特徴語単位での主成分
分解、主成分内での分解、主成分の冗長性の除去を行
う。
【0017】図2は文書処理装置構成図であり、本発明
の文書処理装置の構成を示す。
【0018】入力部1は予めオペレータにより分類され
たカテゴリ毎に文書(情報)を読み込む。ここでの入力
対象は、これに制限はされないが、予めカテゴリに分類
された電子化文書群である。従って、入力される文書は
「新聞」「特許公開公報」等の極めて大きな又は最も上
位のカテゴリに分類されている。
【0019】単語出現頻度計数部2は、入力部1からカ
テゴリ毎に入力された文書の単語毎の出現確率を算出す
る。具体的には、単語出現頻度計数部2は、単語の各々
について、出現頻度を当該単語の属するカテゴリ毎及び
それまでに入力された全カテゴリの全文書について計数
する。これらの計数値を用いて、単語出現頻度計数部2
は、単語の各々について、その単語の計数値のカテゴリ
毎の総単語数及び全文書の総単語数に対する比率を単語
出現確率(データ)10として算出し、格納する。な
お、単語の計数の前処理としての単語分かち書き処理
は、周知の単語辞書9(及び単語接続表等)を用いた通
常の形態素解析処理により行われる。また、単語辞書9
として同義語辞書を用いて同種の単語を1つのエントリ
ーとして計数することにより、以下の統計処理における
精度を向上することができる。
【0020】特徴語抽出部3は、単語出現頻度計数部2
により計数された単語毎の出現確率10に基づいて、入
力された文書においてカテゴリ毎に特徴的に出現する単
語を特徴語として抽出する。特徴語抽出は、周知のいず
れの方法によっても良いが、例えば本願出願人の出願に
よる特開平10−111869号公報(情報分類装置と
その方法)に示すように、Kullback-Leiblerの情報量の
数式Σp(wi,cj)log(p(wi,cj)/q(wi)) を利用する。ここ
で、p(wi,cj)はカテゴリcjにおける単語wiの出現確率で
あり、q(wi) は全てのカテゴリの文書における単語wiの
出現確率である。特徴語抽出部3は、上記数式のΣの部
分を除いた式(値)を用いる。この数式により算出され
る値は、「カテゴリcjにおける単語wiの特徴度」を示す
値であり、その値が大きい程当該単語が特徴的であるこ
とを示す。特徴度は特徴語の抽出又は定義に用いられ
る。
【0021】即ち、特徴語抽出部3は、当該カテゴリcj
における当該単語の出現確率が全文書における出現確率
に比べて特徴的に大きくなっている語を求め、更に、そ
れらの語の中からカテゴリcj毎に上位n位までの語を抽
出する。ここで、nの値は予め定められ、例えば100
乃至200程度の適当な自然数である。また、カテゴリ
(対象分野)cjの特徴をよく表す単語として、名詞類
や、内容語(名詞、動詞、形容詞、形容動詞)を優先し
て用いるようにしても良い。特徴語抽出部3は、この抽
出の結果をカテゴリcj毎の特徴語(データ)11として
格納する。
【0022】主成分分析部4は特徴語抽出部3により抽
出された特徴語11を用いて当該カテゴリの主成分分析
を行うことにより、主成分を抽出し、主成分係数13を
算出する。主成分分析は、周知のいずれの方法によって
も良いが、例えば本願出願人の出願による特開平10−
111869号公報に示す方法による。即ち、主成分分
析部4は特徴語11の出現の傾向を座標系として選択す
る。具体的には、カテゴリcj毎の特徴語を全てマージし
て、これをj次元(jはカテゴリcの数、例えば、10
00程度)の多次元座標系の上に分布させる。単語wiの
座標上の値としては、前述のカテゴリcjにおける単語wi
の特徴度を用いる。これにより、この多次元座標系の上
に各文書(即ち、カテゴリ)及びその各単語がマッピン
グされる。この全文書の座標値を用いて、周知の主成分
分析を行う。主成分分析は、周知の多変量解析の手法で
あり、入力としての相関行列(又は、分散共分散行列)
12の固有値問題を解くことに相当する。主成分分析の
結果は、複数の固有値と固有ベクトルの組(主成分)と
して、固有値(即ち、情報量)の大きい順に、第1主成
分、第2主成分、・・・の順に得られる。
【0023】主成分分析部4は、更に、主成分分析の結
果の中から、最大の第1主成分から十分大きい固有値に
相当する主成分(例えば、300個程度)までを採用
し、残りの情報量の少ない主成分のデータを捨象する。
捨てられた主成分のデータの内容も残された主成分に反
映されているので、全体の情報量をあまり落とさずに座
標軸の数を減らして(空間の次元数を落として)、計算
量の軽減を図ることができる。主成分分析部4は、この
結果、特徴語の相関行列(データ)12と、最初の座標
系から新しい座標系への座標変換を意味する主成分係数
(データ)13を算出し、格納する。
【0024】主成分単位分解部5は、主成分因子14と
因子特徴語15とからなるカテゴリ因子20を、当該カ
テゴリから抽出する。具体的には、主成分単位分解部5
は、カテゴリ毎に抽出された特徴語11とこれに基づい
て求められた特徴語相関行列12とを用いた当該カテゴ
リの主成分分析により抽出された主成分係数13と、前
記特徴語11とを用いて、特徴語11の出現傾向を表す
座標系に基づいて主成分の各々に対応する特徴語11の
群を求め、特徴語11の群の多い主成分を選択してなる
主成分因子14とし、また、当該特徴語11の群と主成
分の各々との相関の強さを用いて、主成分因子14との
相関が高い特徴語11を選択してなる因子特徴語15と
する。
【0025】このように、主成分単位分解部5は当初の
カテゴリを主成分という観点から更に詳細に分解する。
上位の主成分には最初の座標系での1本の座標軸よりも
多くの情報量が集約されており、かつ、1本の主成分
(座標軸)には文書群の統計的特徴が集約されていると
考えられるので、これを単位として分類カテゴリとの関
連を分析することができる。即ち、主成分(座標軸)を
カテゴリ因子20(実際には、主成分因子14に相当す
る)と考え、当初の分類カテゴリにどのカテゴリ因子2
0が含まれるか(どの主成分得点が大きいか)を分析す
る。上位のカテゴリ因子20は当該カテゴリに相関が強
いので、これらのカテゴリ因子20が当該カテゴリの部
分的特徴を良く表現していると考えられる。例えば、各
カテゴリ毎に上位m位のカテゴリ因子20に分解でき
る。ここでは、mは、5、10、・・等の適切な自然数
である。
【0026】抽出した各々のカテゴリ因子20は主成分
(座標軸)なので、そのままではカテゴリ因子20の表
す意味が読み取れない。そこで、主成分単位分解部5
は、次に、当該の主成分に対応する特徴語群(即ち、因
子特徴語15)を求めることにより、カテゴリ因子20
の実世界上での対象範囲(存在範囲、対象分野等)を推
定する。即ち、特徴語11から、カテゴリ毎の特徴語群
を求め、これらの特徴語群と分類カテゴリと相関の強い
主成分との相関の強さから、特徴語群を細分化する。な
お、特徴語群と分類カテゴリと相関の強い主成分との相
関の強さは、主成分係数13から求めればよい。この結
果、カテゴリを主成分の観点から分解したカテゴリ因子
20は主成分因子(データ)14として格納し、カテゴ
リ因子20と相関の強い特徴語群は因子特徴語(デー
タ)15として格納する。
【0027】主成分内分解部6は、主成分単位分解部5
により分解された複数の主成分からなるカテゴリ因子2
0について、当該複数の主成分の各々とこれらに対応す
る特徴語の群との相関の強さを用いて、当該カテゴリ因
子20を1又は複数の主成分からなるクラスタに分解す
る。これは、主成分を単位としたカテゴリ因子20への
分解を行った後でも、当該のカテゴリ因子20が1つで
はなく、未だ分解の余地の残ることがあるためである。
【0028】主成分内分解部6は、特徴語同士の出現傾
向の相関の強さにより、主成分単位のカテゴリ因子20
に対応する特徴語群をクラスタリングすることにより、
主成分内カテゴリ因子20へ分解する。即ち、特徴語相
関行列12から特徴語対の相関の大きい順にグルーピン
グを行い、クラスターを成長させる。クラスターにする
か否かの境界は、例えば、相関の有無に関する検定で危
険率5%程度の有為性を持つ特徴語対の条件の周知の簡
易検定法等を用いる。この結果は、細分化されたカテゴ
リ因子20のデータを主成分内因子(データ)16に格
納し、この主成分内因子16に対応する(相関の強い)
特徴語を因子特徴語(データ)15’として格納する。
【0029】冗長度除去部7は、複数の主成分からなる
カテゴリ因子20又はクラスタにおける重複する主成分
を除去する。具体的には、冗長度除去部7は、同一分類
カテゴリに対する主成分因子や主成分内因子の重複部分
を除去し、ほぼ独立なカテゴリ因子20のみによりカテ
ゴリを分解する。そして、冗長度除去部7は、同一のカ
テゴリと相関の強い主成分内因子16に対応する特徴語
群を、因子特徴語15から読み出し、同一の単語を共有
するようなカテゴリ因子20があるか否かを全ての特徴
語群について調べる。閾値をα%とし、共有する特徴語
がこの閾値を越えるようなカテゴリ因子20の組が見つ
かれば、それを記録しどちらか一方をカテゴリ因子20
から削除する。これにより、重複部分が除去される。閾
値αとしては、例えば80%,90%等の適当な実数値
(1以下)を用いる。抽出されたカテゴリ因子20の組
の内どちらを削除するかは、同一カテゴリに関する全て
のカテゴリ因子20の組について、特徴語11の冗長性
を調べた後に、全体として捨て去られる特徴語11の数
が少なくなるように選択する。
【0030】なお、以下のようにして冗長性除去の処理
を行っても良い。即ち、カテゴリ因子20の組に共通す
る特徴語(群)11が見つかった場合には、それらの特
徴語11をどちらかのカテゴリ因子20の特徴語リスト
からまとめて外す。そして、1つのカテゴリ因子20に
最終的に残った特徴語11の数がβ個以下に減少したも
のについては、カテゴリ因子20から外すようにしても
良い。
【0031】出力部8は、主成分単位分解部5、主成分
内分解部6及び冗長度除去部7における処理の結果に基
づいて、カテゴリ因子20又はクラスタ毎に、当該カテ
ゴリ因子20又はクラスタを構成する主成分に対応する
特徴語を出力する。即ち、主成分単位分解部5によりカ
テゴリ因子20が求まるが、主成分因子14は座標軸で
あり、それのみでは意味が不明であるので、因子特徴語
15が出力される。主成分内分解部6は主成分内因子1
6を出力する。冗長度除去部7は因子特徴語15の冗長
部分の簡略化により求めた因子特徴語15’を出力す
る。
【0032】図3は、本発明の文書処理装置が実行する
情報カテゴリ因子分解処理フローである。
【0033】入力部1がカテゴリに分類された文書を読
み込む(ステップS1)。
【0034】単語出現頻度計数部2が、単語辞書9を用
いて、入力部1から読み込まれた文書について、形態素
解析を行い、この結果に基づいて単語の出現頻度を求
め、更に、これに基づいて単語の出現確率10を求める
(ステップS2)。これは周知の処理である。
【0035】特徴語抽出部3が、単語の出現確率10に
基づいて、当該文書についての特徴語11を抽出する
(ステップS3)。これは周知の処理である。
【0036】主成分分析部4が、特徴語11に基づいて
予め特徴語相関行列12を求め、更に、特徴語11及び
特徴語相関行列12に基づいて主成分分析を行うことに
より主成分係数13を求める(ステップS4)。これは
周知の処理である。
【0037】主成分単位分解部5が、特徴語11及び主
成分係数13に基づいて、カテゴリ因子20、即ち、主
成分因子14及び因子特徴語15を求める(ステップS
5)。これについては図4及び図5を参照して後述す
る。
【0038】主成分内分解部6が、特徴語相関行列12
及び因子特徴語15に基づいて、特徴語相関による詳細
な分解を行うことにより、主成分内因子16を求める
(ステップS6)。これについては図6乃至図9を参照
して後述する。
【0039】冗長度除去部7が、因子特徴語15及び主
成分内因子16に基づいて、因子特徴語15の冗長部分
の簡略化を行うことにより、因子特徴語15’を求める
(ステップS7)。これについては図10乃至図13を
参照して後述する。
【0040】次に、本発明のカテゴリ因子分解における
特徴的処理である主成分単位分解処理、主成分内分解処
理及び冗長度除去処理について、各々、フローチャート
を参照して詳細に説明するが、これに先立って、以下の
説明において用いる定数等について、ここでまとめて説
明する。 〔定数〕 Ndoc: 全文書数、 Nword :全特徴語数(Nkeyword)、 Ncat: カテゴリ数、 Ncatw :カテゴリ当たり上位特徴語数(NcutCatKw) 、 Npca: 主成分数、 Npcaw :主成分当たり上位特徴語探索数(NcutPcaKw) 、 Ncatpca :主成分因子数、 Ncommon :2つの主成分相関因子に共通する特徴語数の
閾値、 μ1: 主成分得点寄与分の閾値パラメータ、 μ2: 共通部分離語の主成分得点寄与分の閾値パラメ
ータ、 〔変数、配列、繰り返し変数、変数定数〕 Ci: カテゴリ;Category(i=1,・・,Ncat:カテゴ
リ) 、 Ww: 全特徴語数;(w=1,・・,Nword :特徴語識別
子) 、 WCil: カテゴリCi中の特徴語;Word of Category(i:
カテゴリ、l =1,・・,Ncatw :特徴語) 、 PWiw: カテゴリCiにおける特徴語Wwの平均出現確率;
(i:カテゴリ、w :特徴語識別子) 、 rab: 語Waと語Wbとの相関係数〔相関行列のa 行b 列
要素〕、 αjw: 主成分係数〔主成分係数行列のj 行w 列要
素〕、 PVih: 主成分得点;(i:カテゴリ、h =1,・・,Npc
a:第h 主成分) 、 PFij: 主成分因子;Principai components Factor
(i:カテゴリ、j =1,・・,Ncatpca :主成分因子数)
、 WPijk :主成分因子中の特徴語;Word of Principai co
mponents Factor(i:カテゴリ、j :主成分因子、k =
1,・・,Kij :特徴語) 、 RFip: 主成分相関因子;Principai components coRel
ation Factor(i:カテゴリ、p =1,・・,Pi:主成分相
関因子) Pi:カテゴリCiの主成分相関因子数、 WRipq :主成分相関因子数中の特徴語;Word of Princi
pai componentscoRelation Factor(i:カテゴリ、p :
主成分相関因子、q =1,・・,Qip :特徴語) Qip :カテゴリCiの主成分相関因子RFipの特徴語数、 SFis: 冗長性除去後の因子:Simplified Factor (s=
1,・・,Si) 、 COR(c):相関語群:CORelated word group(c=1,・・,
Nc:相関語群) 有意な正の相関関数 (rab>rTHR[n]) による弱連結グラ
フ、 SINGLETON :孤立した特徴語:singleton word、 SINGLETON(s):(s=1,・・,Ns:孤立した特徴語) 、 FCOR(f) :相関語群∪孤立した特徴語(f=1,・・,Nc,
Nc+1,・・,Nc+Ns) 、 TFict :Temporary Factor(t=1,・・,Tic)、 〔関数〕 rTHR[n] :相関の有無の閾値;THReshold value for coR
elation approval test(n: データ数、自由度大の場合
は危険率約5%の境界) 、 Z[RFip] :主成分相関因子RFip中の特徴語による主成分
得点の寄与分=Σαjw・PWiw、 words[x]:因子x と相関のある特徴語群( 例えば、{WP
ijk |k =1,・・,Kij }=words[PFij])。
【0041】図4及び図5は、主成分単位分解部5が実
行する主成分単位分解処理フローであり、合わせて1つ
の処理フローを示す。
【0042】図4において、予め定められたカテゴリ数
をNcatに代入する(ステップS8)。
【0043】パラメータiに1を代入する(ステップS
9) 。
【0044】特徴語11と主成分係数13とから、カテ
ゴリCiと相関の強い主成分を求め、特徴語を対応付ける
(ステップS10)。この主成分が主成分因子14であ
り、この特徴語が因子特徴語15である。即ち、この処
理がカテゴリ因子20を求める直接の処理であり、図5
を参照して後述する。
【0045】iにi+1を代入する(ステップS1
1)。
【0046】iがNcatより大きいかを調べる(ステップ
S12)。大きい場合処理を終了し、大きくない場合ス
テップS10以下を繰り返す。これにより、全てのカテ
ゴリについて、主成分因子14及び因子特徴語15が求
まる。
【0047】図5において、図4のステップS9に続い
て、主成分数をNpcaに代入し、主成分因子数をNcatpca
に代入し、カテゴリ当たり特徴語数をNpcaw に代入する
(ステップS13)。これらの値は予め定められる。
【0048】特徴語11から当該カテゴリCiの特徴語WC
ilを読み込む(ステップS14)。ここで、l (エル)
=1,・・,Ncatw である。
【0049】カテゴリCiの重心の主成分得点PVihを読み
込む(ステップS15)。ここで、h =1,・・,Npcaで
ある。なお、カテゴリCi中の任意の文書の座標値(主成
分得点)は、元の座標系での当該文書の座標値と主成分
係数(行列)13とにより求まる。従って、カテゴリCi
中の全文書の座標値の重心の座標がカテゴリCiの重心で
ある。この座標値が、(PVi1、PVi2、・・, PViNpca )
である。これについては、前述の本願出願人の出願によ
る特開平10−111869号公報に詳細に示されてい
る。カテゴリCiの重心の主成分得点PVihは主成分分析部
4により予め求められる。
【0050】カテゴリCiの重心の主成分得点PVihの中の
上位Ncatpca 位までを求めて、これらを主成分因子PFij
とする(ステップS16)。ここで、j =1,・・,Ncat
pcaである。これにより、情報量が多い順にNcatpca 個
の主成分因子PFijが得られる。即ち、Ncatpca 本の座標
軸(Ncatpca 次元)が得られる。主成分因子14は座標
軸である。
【0051】パラメータjに1を代入する(ステップS
17)。
【0052】カテゴリCiの特徴語WCilの中で、主成分因
子PFijとの相関が上位Npcaw 位以内の特徴語WPijk を求
める(ステップS18)。ここで、k =1,・・,Fij で
ある。なお、特徴語WCi1と主成分因子PFijとの相関は、
主成分分析の入力が相関行列12の時、因子負荷量j1=
SQRT(固有値j )×固有ベクトルj1で求まる。同一
主成分に対して固有値は一定であるから、固有ベクトル
の成分値を比較すれば、相関の上位が求まる。更に、主
成分分析の入力が相関行列12の時、固有ベクトルから
なる行列と主成分係数行列13とは等しいから、主成分
分析の処理において得た主成分係数行列13のデータを
用いて、相関の大小を比較する。
【0053】jにj+1を代入する(ステップS1
9)。
【0054】jがNcatpca より大きいかを調べる(ステ
ップS20)。大きくない場合ステップS18以下を繰
り返す。
【0055】大きい場合、カテゴリCi中の全ての主成分
因子PFij(主成分因子14)及びこれに対応する特徴語
WPijk (因子特徴語15)を出力し(ステップS2
1)、この後、図4のステップS11に戻る。これによ
り、ステップS16で定めた全ての主成分因子PFijにつ
いて、相関の上位Npcaw 個の因子特徴語15が求められ
る。即ち、Ncatpca 本の座標軸毎に特徴的なNpcaw 個の
単語が抽出される。カテゴリ因子2020は、その実体
である特徴的な因子特徴語15と、その分類(箱)であ
る情報量の多い座標軸である主成分因子14とからな
る。
【0056】図6乃至図9は、主成分内分解部6が実行
する主成分内分解処理フローであり、合わせて1つの処
理フローを示す。特に、図6及び図7は、主成分内分解
処理の内の相関語群の分割処理フローを示し、図8及び
図9は、主成分内分解処理の内の主成分因子の細分割処
理フローを示す。
【0057】図6において、全特徴語数Nword を用いて
1≦a≦Nword と定義し、相関語群分割数Ncを用いて1
≦c≦Ncと定義し、相関語群をCOR(c)と定義し、語Waと
語Wbとの相関係数をrabとし、相関の有無の閾値rTHR
[n] を2/SQRT(n+2)と定義する(ステップS
22)。
【0058】全ての特徴語の集合をRESTに代入し、空集
合ΦをSINGLETON に代入し、Ncに0に代入する(ステッ
プS23)。
【0059】集合RESTの要素である語Waであるa が存在
するとし、RESTにREST−{Wa}を代入し、パラメータc
に1を代入し、CORRELATE に0を代入する(ステップS
24)。
【0060】c がNc以下かを調べる(ステップS2
5)。Nc以下でない場合、図7のステップS31へ進
む。これにより、全特徴語数Nword が相関語群分割数Nc
にまで分割される。
【0061】Nc以下である場合、特徴語Waと有意に正の
相関がある語がCOR(c)中に存在するかを調べる(ステッ
プS26)。存在しない場合、ステップS30へ進む。
【0062】存在する場合、更に、CORRELATE が0かを
調べる(ステップS27)。0でない場合、ステップS
29へ進む。
【0063】0である場合、COR(c)にCOR(c)∪{Wa}を
代入し、CORRELATE にc を代入する(ステップS2
8)。
【0064】ステップS27において、0でない場合、
COR(CORRELATE)にCOR(CORRELATE)∪COR(c)を代入し、CO
R(c)にCOR(Nc) を代入し、NcにNc−1を代入する(ステ
ップS29)。
【0065】c にc +1を代入し(ステップS30)、
ステップS25以下を繰り返す。
【0066】図7において、TEMPにREST∩語Waと正の相
関が有意である語の集合(語Waを含まず)を代入する
(ステップS31)。
【0067】CORRELATE が0かを調べる(ステップS3
2)。
【0068】0でない場合、COR(CORRELATE)にCOR(CORR
ELATE)∪TEMPを代入し、RESTにREST−TEMPを代入し(ス
テップS33)、ステップS37へ進む。
【0069】0である場合、TEMPが空集合Φでないかを
調べる(ステップS34)。
【0070】Φでない場合、SINGLETON にSINGLETON ∪
{Wa}を代入し(ステップS35)、ステップS37へ
進む。
【0071】Φである場合、NcにNc+1を代入し、COR
(c)に{Wa}∪TEMPを代入し、RESTにREST−TEMPを代入
する(ステップS36)。
【0072】RESTが空集合Φであるかを調べる(ステッ
プS37)。Φでない場合図6に戻ってステップS24
以下を繰り返し、Φである場合図8のステップS38に
進む。これにより、全ての特徴語の集合RESTが空集合Φ
になるまで、相関が有意である語の集合への分割が行わ
れる。
【0073】図8において、パラメータiに1を代入す
る(ステップS38)。
【0074】パラメータjに1を代入する(ステップS
39)。
【0075】主成分因子PFijを、特徴語の相関語群で分
割する(ステップS40)。この処理については図9を
参照して後述する。
【0076】jにj+1を代入する(ステップS4
1)。
【0077】jが主成分因子数Ncatpca より大きいかを
調べる(ステップS42)。大きくない場合、ステップ
S40以下を繰り返す。
【0078】大きい場合、iにi+1を代入する(ステ
ップS43)。
【0079】iがカテゴリ数Ncatより大きいかを調べる
(ステップS44)。大きくない場合、ステップS39
以下を繰り返す。
【0080】大きい場合、主成分相関因子RFipを出力し
て(ステップS45)、処理を終了する。これにより、
全てのカテゴリの全ての主成分因子について、相関語群
による分割が行われる。
【0081】図9において、図8のステップS39に続
いて、主成分相関因子の仕分け用にFCOR(f) を定義し、
SINGLETON の数Nsを用いて、1≦f ≦Nc+Nsと定義する
(ステップS46)。
【0082】全てのf に対してFCOR(f) に空集合Φを代
入し、k に1を代入する(ステップS47)。
【0083】パラメータc に1を代入する(ステップS
48)。
【0084】WPijk がCOR(c)の要素であるかを調べる
(ステップS49)。
【0085】要素である場合、FCOR(c) にFCOR(c) ∪
{WPijk }を代入し(ステップS50)、ステップS5
8に進む。
【0086】要素でない場合、c にc +1を代入する
(ステップS51)。
【0087】c がNsより大きいかを調べる(ステップS
52)。大きくない場合、ステップS49以下を繰り返
す。
【0088】大きい場合、パラメータs に1を代入する
(ステップS53)。
【0089】WPijk がSINGLETON(s)に等しいかを調べる
(ステップS54)。
【0090】等しい場合、FCOR (Nc+s)に{WPijk }を
代入し(ステップS55)、ステップS58に進む。
【0091】等しくない場合、s にs +1を代入する
(ステップS56)。
【0092】s がNsより大きいかを調べる(ステップS
57)。大きくない場合、ステップS54以下を繰り返
す。
【0093】大きい場合、k にk +1を代入する(ステ
ップS58)。
【0094】k がKij より大きいかを調べる(ステップ
S59)。大きくない場合、ステップS48以下を繰り
返す。
【0095】大きい場合、Piに空でないFCOR(f) の個数
を代入し(ステップS60)、図8のステップS41に
戻る。ここで、P はP =1,・・,Piであり、全てのP に
対してFCOR(fp)がPFipに代入される。
【0096】図10乃至図14は、冗長性除去部7が実
行する冗長性除去処理フローであり、合わせて1つの処
理フローを示す。
【0097】図10において、パラメータiに1を代入
する(ステップS61)。
【0098】パラメータpに1を代入する(ステップS
62)。
【0099】主成分相関因子RFipの主成分得点寄与分を
計算する(ステップS63)。この処理については図1
4を参照して後述する。
【0100】pにp+1を代入する(ステップS6
4)。
【0101】pがpi より大きいかを調べる(ステップ
S65)。大きくない場合、ステップS63以下を繰り
返す。これにより、全ての主成分相関因子PFipについ
て、主成分得点寄与分Z[RFip] が求まる。
【0102】大きい場合、図11において、Zmaxにpに
ついての max{Z[RFip] }を代入する(ステップS6
6)。
【0103】RESTに{x |x ∈{RFip},Z[x] ≧μ1・
Zmax}を代入する(ステップS67)。
【0104】RESTS に{RFip|RFip∈REST,words[RFip]
⊂SINGLETON }を代入し、RESTにREST−RESTS を代入す
る(ステップS68)。
【0105】UNUSEDに{RFip|∀RFip, ∀RFip' ∈RES
T, {WRipq }⊃{WRipq'}}を代入し、RESTにREST−U
NUSEDを代入する(ステップS69)。
【0106】次に、図12において、パラメータsに0
を代入する(ステップS70)。
【0107】パラメータcに1を代入する(ステップS
71)。
【0108】RESTC(c)に{RFip|RFip∈REST,words[RFi
p]⊂COR(c)}を代入し、Tic にRESTC(c)の要素数(≧
0)を代入する(ステップS72)。
【0109】RESTC(c)の各要素TFict を主成分得点寄与
分の順にソートする、即ち、t<t'ならZ[TFict]≧[TFic
t']とする(ステップS73)。
【0110】Tic が0より大きいかを調べる(ステップ
S74)。大きくない場合、ステップS81に進む。
【0111】大きい場合、Tic が1に等しいかを調べる
(ステップS75)。
【0112】等しい場合、sにs+1を代入し、words
[SFis] にwords[TFic1]を代入し(ステップS76)、
ステップS81に進む。
【0113】等しくない場合、パラメータmに0を代入
し、パラメータtに1を代入し、COMMONに空集合Φを代
入する(ステップS77)。
【0114】words[TFict]が空集合Φに等しくないかを
調べる(ステップS78)。等しくない場合、直ちに次
のステップS79に進む。等しい場合、図13のステッ
プS83に進む。
【0115】tにt+1を代入を代入する(ステップS
79)。
【0116】tがTic −1より大きいかを調べる(ステ
ップS80)。大きくない場合、ステップS78以下を
繰り返す。
【0117】大きい場合、cにc+1を代入する(ステ
ップS81)。
【0118】cがNcより大きいかを調べる(ステップS
82)。大きくない場合、ステップS72以下を繰り返
す。大きい場合、図10のステップS96に進む。
【0119】ステップS78から図13に進んだ場合、
パラメータuにt+1を代入する(ステップS83)。
【0120】words[TFicu]にwords[TFicu]−COMMONを代
入する(ステップS84)。
【0121】words[TFicu]が空集合Φに等しくないかを
調べる(ステップS85)。等しくない場合、ステップ
S93に進む。
【0122】等しい場合、words[TFict]∩words[TFicu]
の要素数がNcommon 以上かを調べる(ステップS8
6)。Ncommon 以上でない場合、ステップS93に進
む。
【0123】Ncommon 以上である場合、sにs+1を代
入する(ステップS87)。
【0124】words[SFis] にwords[TFict]∩words[TFic
u]を代入し、words[TFict]にwords[TFict]−words[TFic
u]を代入し、words[TFicu]にwords[TFicu]−words[TFic
t]を代入し、COMMONにCOMMON∪words[SFis] を代入する
(ステップS88)。
【0125】Z[words[TFicu]] がμ2 ・Zmaxより小さい
かを調べる(ステップS89)。小さくない場合、ステ
ップS91に進む。
【0126】小さい場合、words[TFicu]に空集合Φを代
入する(ステップS90)。
【0127】Z[words[TFict]] がμ2 ・Zmaxより小さい
かを調べる(ステップS91)。小さくない場合、ステ
ップS93に進む。
【0128】小さい場合、words[TFict]に空集合Φを代
入し(ステップS92)、図12のステップS79以下
を繰り返す。
【0129】uにu+1を代入する(ステップS9
3)。
【0130】uがTic より大きいかを調べる(ステップ
S94)。大きくない場合、ステップS84以下を繰り
返す。
【0131】大きい場合、sにs+1を代入し、words
[SFis] にwords[TFict]を代入し(ステップS95)、
図12のステップS79以下を繰り返す。
【0132】図10に戻って、図12のステップS82
に続いて、iにi+1を代入する(ステップS96)。
【0133】iがNcatより大きいかを調べる(ステップ
S97)。大きくない場合、ステップS62以下を繰り
返す。
【0134】大きい場合、冗長性除去済因子SFisを出力
して(ステップS98)、処理を終了する。これによ
り、全てのカテゴリについて、冗長性除去済因子SFisが
求まる。
【0135】図14は、図10のステップS63におけ
る処理の詳細を示す。
【0136】WRipq を主成分相関因子数RFip中の特徴語
とする(ステップS99)。ここで、1≦p≦Pi、1≦
q≦Qip である。
【0137】jに主成分相関因子数RFipに対応する主成
分因子の番号を代入する(ステップS100)。
【0138】パラメータqに1を代入する(ステップS
101)。
【0139】wにRFip中の特徴語WRipq に対応する特徴
語の識別子を代入する(ステップS102)。
【0140】主成分係数αjwを主成分係数13から読み
込み、カテゴリCiにおける特徴語Wwの平均出現確率PWiw
を単語出現確率10から算出する(ステップS10
3)。
【0141】qにq+1を代入する(ステップS10
4)。
【0142】qがQip より大きいかを調べる(ステップ
S105)。大きくない場合、ステップS102以下を
繰り返す。これにより、カテゴリCiにおける特徴語Wwの
全てについて、主成分係数αjwと平均出現確率PWiwとが
用意される。
【0143】大きい場合、演算によりΣαjw・PWiwを算
出し、これをRFipの主成分得点寄与分Z[RFip] に代入す
る(ステップS106)。但し、ΣはWw=WRipq, q=1,
・・,Qip なるw に関する。これにより、1個のRFipの
主成分得点寄与分Z[RFip] が求まる。
【0144】図15は、本発明による情報カテゴリ因子
分解の例を示す図である。一般に公開されている文書の
一例として特許公報を用いて、本発明によるカテゴリの
因子分解を行った。特許公報としては、カテゴリG08
G(交通制御システム)の分類が予め付与されている
(カテゴリに分類されている)特許公開公報の中から、
約800件の特許公開公報を任意に抽出して用いた。
【0145】この約800件の特許公開公報についての
本発明による情報カテゴリ因子分解の結果は、以下の通
りである。(近年の)カテゴリG08G(交通制御シス
テム)は2つの下位のカテゴリ因子20、即ち、「障害
物回避を行う自動走行制御システム等」と「カーナビゲ
ーションシステム等」とに分解できる。更に、各カテゴ
リ因子20内において、「車」「障害物」「GPS」
「ナビゲーション」等の因子特徴語が抽出できる。な
お、カテゴリ因子20の名前は自動的には与えられない
ので、因子特徴語15’から、例えばオペレータにより
類推され命名される。これらの因子特徴語15’は、例
えば検索時の絞り込みに使う検索式のキーワード候補と
して利用することができる。
【0146】
【発明の効果】以上説明したように、本発明によれば、
文書処理装置において、特徴語の出現傾向を表す座標系
に基づいて主成分の各々に対応する特徴語の群を求め、
当該特徴語の群と主成分の各々との相関の強さを求める
ことにより、特徴語の群の多い主成分を選択してなる主
成分因子と、主成分因子との相関が高い特徴語を選択し
てなる因子特徴語とからなるカテゴリ因子を自動的に自
動的に抽出することができるので、文字列レベルの文書
処理技術と理想とされる意味レベルの文書処理技術との
中間に位置するカテゴリ因子による文書処理が可能とな
り、検索結果の適合率や文書の分類精度をある程度満足
できる水準に保つことが可能な情報検索や文書分類を行
うことができる。また、複数の文書に共通する情報要素
としてのカテゴリ因子を統合的な情報利用のために採用
することができ、情報分類の自動下位分類、上位カテゴ
リ間の共通するカテゴリ因子(最大公約数的因子)の同
定、各カテゴリ因子に固有の特徴語の抽出が可能とな
り、情報の知識化に寄与することができる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】文書処理装置構成図である。
【図3】情報カテゴリ因子分解処理フローである。
【図4】主成分単位分解処理フローである。
【図5】主成分単位分解処理フローである。
【図6】主成分内分解処理フローである。
【図7】主成分内分解処理フローである。
【図8】主成分内分解処理フローである。
【図9】主成分内分解処理フローである。
【図10】冗長性除去処理フローである。
【図11】冗長性除去処理フローである。
【図12】冗長性除去処理フローである。
【図13】冗長性除去処理フローである。
【図14】冗長性除去処理フローである。
【図15】情報カテゴリ因子分解の例を示す図である。
【符号の説明】
1 入力部 2 単語出現頻度計数部 3 特徴語抽出部 4 主成分分析部 5 主成分単位分解部 6 主成分内分解部 7 冗長度除去部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 カテゴリ毎に抽出された特徴語とこれに
    基づいて求められた特徴語相関行列とを用いた当該カテ
    ゴリの主成分分析により抽出された主成分係数と、前記
    特徴語とを用いて、特徴語の出現傾向を表す座標系に基
    づいて主成分の各々に対応する特徴語の群を求め、当該
    特徴語の群と主成分の各々との相関の強さを用いて、特
    徴語の群の多い主成分を選択してなる主成分因子と、主
    成分因子との相関が高い特徴語を選択してなる因子特徴
    語とからなるカテゴリ因子を、当該カテゴリから抽出す
    る主成分単位分解部を備えることを特徴とする文書処理
    装置。
  2. 【請求項2】 前記文書処理装置が、更に、前記主成分
    単位分解部により分解された複数の主成分からなるカテ
    ゴリ因子について、当該複数の主成分の各々とこれらに
    対応する特徴語の群との相関の強さを用いて、当該カテ
    ゴリ因子を1又は複数の主成分からなるクラスタに分解
    する主成分内分解部を備えることを特徴とする請求項1
    に記載の文書処理装置。
  3. 【請求項3】 前記文書処理装置が、更に、 カテゴリ毎に入力された文書の単語毎の出現確率を算出
    する単語出現頻度計数部と、 前記単語出現頻度計数部により算出された単語毎の出現
    確率に基づいて、カテゴリ毎に特徴的に出現する単語を
    特徴語として抽出する特徴語抽出部と、 前記特徴語抽出部により抽出された特徴語を用いて当該
    カテゴリの主成分分析を行い主成分を抽出し、主成分係
    数を算出する主成分分析部とを備えることを特徴とする
    請求項1又は請求項2のいずれかに記載の文書処理装
    置。
  4. 【請求項4】 カテゴリ毎に入力された文書の単語毎の
    出現確率を算出する単語出現頻度計数処理と、 算出された単語毎の出現確率に基づいて、カテゴリ毎に
    特徴的に出現する単語を特徴語として抽出する特徴語抽
    出処理と、 抽出された特徴語を用いて当該カテゴリの主成分分析を
    行い主成分を抽出し、主成分係数を算出する主成分分析
    処理と、 カテゴリ毎に抽出された特徴語とこれに基づいて求めら
    れた特徴語相関行列とを用いた当該カテゴリの主成分分
    析により抽出された主成分係数と、前記特徴語とを用い
    て、特徴語の出現傾向を表す座標系に基づいて主成分の
    各々に対応する特徴語の群を求め、当該特徴語の群と主
    成分の各々との相関の強さを用いて、特徴語の群の多い
    主成分を選択してなる主成分因子と、主成分因子との相
    関が高い特徴語を選択してなる因子特徴語とからなるカ
    テゴリ因子を、当該カテゴリから抽出する主成分単位分
    解処理と、 抽出されたカテゴリ因子について、当該複数の主成分の
    各々とこれらに対応する特徴語の群との相関の強さを用
    いて、当該カテゴリ因子を1又は複数の主成分からなる
    クラスタに分解する主成分内分解処理と、 複数の主成分からなるカテゴリ因子又はクラスタにおけ
    る重複する主成分を除去する冗長性除去処理とを、 コンピュータである文書処理装置に実行させるプログラ
    ムを記憶することを特徴とするプログラム記憶媒体。
JP11049501A 1999-02-26 1999-02-26 文書処理装置及びそのプログラム記憶媒体 Withdrawn JP2000250919A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11049501A JP2000250919A (ja) 1999-02-26 1999-02-26 文書処理装置及びそのプログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11049501A JP2000250919A (ja) 1999-02-26 1999-02-26 文書処理装置及びそのプログラム記憶媒体

Publications (1)

Publication Number Publication Date
JP2000250919A true JP2000250919A (ja) 2000-09-14

Family

ID=12832898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11049501A Withdrawn JP2000250919A (ja) 1999-02-26 1999-02-26 文書処理装置及びそのプログラム記憶媒体

Country Status (1)

Country Link
JP (1) JP2000250919A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259411A (ja) * 2001-03-06 2002-09-13 Nec Corp 文章情報変換システム、文章情報変換方法および文章情報変換プログラム
JP2002297659A (ja) * 2001-03-30 2002-10-11 Just Syst Corp 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2007249412A (ja) * 2006-03-14 2007-09-27 Toshiba Corp 空間データ分析装置、方法およびプログラム
WO2008053949A1 (fr) * 2006-11-01 2008-05-08 Intellectual Property Bank Corp. Dispositif d'analyse de groupe de documents
JP2008529173A (ja) * 2005-01-31 2008-07-31 テキストディガー,インコーポレイテッド 電子文書の意味検索および取り込みのための方法およびシステム
US8862573B2 (en) 2006-04-04 2014-10-14 Textdigger, Inc. Search system and method with text function tagging
US9245029B2 (en) 2006-01-03 2016-01-26 Textdigger, Inc. Search system with query refinement and search method
US9400838B2 (en) 2005-04-11 2016-07-26 Textdigger, Inc. System and method for searching for a query
JP2016217945A (ja) * 2015-05-22 2016-12-22 株式会社エヌ・ティ・ティ・データ 位置特定支援装置、位置特定方法、および位置特定プログラム
CN113792141A (zh) * 2021-08-20 2021-12-14 西安理工大学 基于协方差度量因子的特征选择方法
JP7101349B1 (ja) 2021-05-28 2022-07-15 株式会社医療情報技術研究所 分類システム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259411A (ja) * 2001-03-06 2002-09-13 Nec Corp 文章情報変換システム、文章情報変換方法および文章情報変換プログラム
JP2002297659A (ja) * 2001-03-30 2002-10-11 Just Syst Corp 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム
JP4712221B2 (ja) * 2001-03-30 2011-06-29 株式会社ジャストシステム 主観的特徴要素生成装置、主観的特徴要素生成方法、及び主観的特徴要素生成プログラム
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2008529173A (ja) * 2005-01-31 2008-07-31 テキストディガー,インコーポレイテッド 電子文書の意味検索および取り込みのための方法およびシステム
US9400838B2 (en) 2005-04-11 2016-07-26 Textdigger, Inc. System and method for searching for a query
US9928299B2 (en) 2006-01-03 2018-03-27 Textdigger, Inc. Search system with query refinement and search method
US9245029B2 (en) 2006-01-03 2016-01-26 Textdigger, Inc. Search system with query refinement and search method
JP2007249412A (ja) * 2006-03-14 2007-09-27 Toshiba Corp 空間データ分析装置、方法およびプログラム
US10540406B2 (en) 2006-04-04 2020-01-21 Exis Inc. Search system and method with text function tagging
US8862573B2 (en) 2006-04-04 2014-10-14 Textdigger, Inc. Search system and method with text function tagging
WO2008053949A1 (fr) * 2006-11-01 2008-05-08 Intellectual Property Bank Corp. Dispositif d'analyse de groupe de documents
JP2016217945A (ja) * 2015-05-22 2016-12-22 株式会社エヌ・ティ・ティ・データ 位置特定支援装置、位置特定方法、および位置特定プログラム
JP7101349B1 (ja) 2021-05-28 2022-07-15 株式会社医療情報技術研究所 分類システム
WO2022249927A1 (ja) * 2021-05-28 2022-12-01 株式会社医療情報技術研究所 分類システム
JP2022182806A (ja) * 2021-05-28 2022-12-08 株式会社医療情報技術研究所 分類システム
CN113792141A (zh) * 2021-08-20 2021-12-14 西安理工大学 基于协方差度量因子的特征选择方法

Similar Documents

Publication Publication Date Title
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US7444279B2 (en) Question answering system and question answering processing method
Viola et al. Learning to extract information from semi-structured text using a discriminative context free grammar
US7296009B1 (en) Search system
US8024331B2 (en) Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US7444325B2 (en) Method and system for information extraction
US20040049499A1 (en) Document retrieval system and question answering system
NZ524988A (en) A document categorisation system
JP5160312B2 (ja) 文書分類装置
CN112633011B (zh) 融合词语义与词共现信息的研究前沿识别方法及设备
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和***
JP2000250919A (ja) 文書処理装置及びそのプログラム記憶媒体
Gopan et al. Comparative study on different approaches in keyword extraction
JPH10254883A (ja) 文書自動分類方法
JP4426041B2 (ja) カテゴリ因子による情報検索方法
Islam et al. Hybrid text summarizer for Bangla document
JP2001312501A (ja) 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
KR102524691B1 (ko) 뉴스에 관련된 후보 기업을 결정하는 방법 및 이러한 방법을 수행하는 장치
KR102519763B1 (ko) 스코어링을 기반으로 뉴스에 관련된 기업을 결정하는 방법 및 이러한 방법을 수행하는 장치
KR102524690B1 (ko) 뉴스 티커 매핑 방법 및 이러한 방법을 수행하는 장치
KR102458989B1 (ko) 센텐스 티커를 기반으로 뉴스에 대한 뉴스 티커를 결정하는 방법 및 이러한 방법을 수행하는 장치

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060509