JP2000348041A - 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 - Google Patents

文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体

Info

Publication number
JP2000348041A
JP2000348041A JP11156423A JP15642399A JP2000348041A JP 2000348041 A JP2000348041 A JP 2000348041A JP 11156423 A JP11156423 A JP 11156423A JP 15642399 A JP15642399 A JP 15642399A JP 2000348041 A JP2000348041 A JP 2000348041A
Authority
JP
Japan
Prior art keywords
attribute
document
documents
classifying
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11156423A
Other languages
English (en)
Inventor
Takahiro Ikeda
崇博 池田
Kenji Sato
研治 佐藤
Akitoshi Okumura
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11156423A priority Critical patent/JP2000348041A/ja
Priority to US09/587,358 priority patent/US6505195B1/en
Publication of JP2000348041A publication Critical patent/JP2000348041A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 文書検索装置において、検索された多数の文
書を、検索対象文書が属する分野に応じた観点で分類す
ることにより、ユーザが必要とする文書を容易に選別で
きるようにする。 【解決手段】 文書記憶部21には、或る分野に属する複
数の文書が格納されている。ホスト側装置1の管理者
は、分類属性選択手段34を用いて、候補記憶部23に格納
されている、分類キーとすることができる属性の種類の
中から、文書記憶部21に格納されている分野の文書を分
類するのに適した属性の種類を選択して分類属性記憶部
22に格納する。属性解析手段32は、文書検索手段31で検
索された各文書に、分類属性記憶部22に格納されている
属性の種類の内の、どの属性の種類に属する属性要素が
存在するのかを解析し、属性分類手段33は、検索された
各文書を、属性解析手段32の解析結果に従って、その文
書が含む属性要素の種類毎に分類する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大量の文書から、
指定した条件に適合するものを検索する文書検索技術に
関し、特に、検索結果を自動的に分類して出力する文書
検索技術に関する。
【0002】
【従来の技術】従来より、大量の文書の中から目的の文
書を検索する方法として、入力されたキーワードすべ
て、あるいは、その一部を含む文書を検索する方法があ
る。このような検索方法は、インターネットやパソコン
通信サービスなどで公開されている各種の文書を検索す
るサービスや、ハードディスクに置かれた文書を検索す
るソフトウェアとして実現されている。しかしながら、
キーワードによる条件指定では、大量の文書から、ユー
ザが必要とする文書だけに絞り込むことが難しく、検索
結果の中に、条件に適合しながらも不要な文書が多く混
入してしまうという問題があった。インターネット上の
文書を検索するサービスなどでは、キーワードを追加す
ることで、検索結果を順次絞り込むことができるように
なっているが、それでも不要な文書を完全に排除するこ
とはできない。
【0003】この問題を解決するために、検索結果をキ
ーワードによる条件で絞るのではなく、検索結果を他の
観点から分類してユーザに提示する方法が存在する。例
えば、特開平8−235160号公報や、特開平9−2
31238号公報に、検索結果を分類する方法が開示さ
れている。
【0004】特開平8−235160号公報に記載の文
書検索方法及び装置では、検索結果の件数が所定値より
大きい場合に、各文書に予め付与されている、文書名,
文書登録日などの属性データによって検索結果を分類し
てユーザに提示する。
【0005】特開平9−231238号公報に記載のテ
キスト検索結果表示方法及び装置では、検索結果の各テ
キストの主題を分析し、主題を複数のグループに分割す
ることにより、検索結果を分類して表示する。
【0006】一方、複数の文書を分類する方法として
は、特開平10−320411号公報に、各文書から5
W1H属性付きのキーワードを抽出し、抽出された5W
1H属性付きのキーワードによって文書を2次元マトリ
ックス上に分類する方法が開示されている。
【0007】
【発明が解決しようとする課題】従来例の文書検索方法
では、ユーザに対して適切な文書の絞り込み、あるい
は、適切な分類を提供できていない場合があった。
【0008】例えば、あるホテル「Xホテル」に宿泊し
たいと考えているユーザが、「Xホテル」に宿泊するた
めに必要な情報を得る目的で、「Xホテル」というキー
ワードを含む文書を検索したとする。この場合、ユーザ
にとって必要な情報は、「Xホテル」の連絡先や、「X
ホテル」の所在地などであり、ユーザにとって必要な文
書とは、それらの情報が記述されている文書である。し
かしながら、「Xホテル」というキーワードを含むとい
う条件だけでは、大量の文書の中から、「Xホテル」の
連絡先や所在地が記述されている文書だけに絞り込むこ
とができない。例えば、Xホテルで新製品の発表会が行
われたことを報じるニュースや、Xホテルのレストラン
で食事をしたという内容の日記風のWeb文書は、この
場合、ユーザにとって不要であるにもかかわらず、検索
結果に含まれる。文書内に連絡先や所在地についての情
報が記述されているという条件は、キーワードで表現す
ることができないため、キーワードをさらに追加するこ
とで、検索結果を絞り込み、不要な文書を排除すること
はできない。
【0009】特開平8−235160号公報に記載の文
書検索方法及び装置では、文書に付けられた属性によっ
て、検索結果を分類することができるが、分類のために
必要な属性が、文書に予め付与されていなければならな
い。このため、予め、連絡先や所在地についての情報が
存在するかどうかを文書の属性として記録しておかない
限り、検索結果を、それらの情報が存在する文書と存在
しない文書に分類することができない。特に、インター
ネットで公開されているWeb文書に対しては、対応す
ることが困難である。
【0010】特開平9−231238号公報に記載のテ
キスト検索結果表示方法及び装置では、文書の内容に応
じて検索結果を分類できるが、分類の基準は、各文書の
主題である。したがって、連絡先や所在地についての情
報が主題として書かれている文書と、主題として書かれ
ていない文書を分けて分類することができる。しかしな
がら、連絡先や所在地についての情報が主題として書か
れていない文書の中にも、連絡先や所在地についての情
報が書かれている場合がある。例えば、Xホテルが新館
を増築したということを主題として伝えているニュース
に、Xホテルの連絡先や所在地が書かれていることがあ
りうる。したがって、この分類により、必ずしも、ユー
ザにとって必要な文書と不要な文書を分けられるとはい
えない。
【0011】特開平10−320411号公報に記載の
文書分類装置、方法及び文書分類プログラムを記録した
記録媒体では、文書中から抽出した5W1H属性付きの
キーワードによって文書を分類できるが、分類のキーと
する5W1Hの種類は、分類を行う度にユーザが指定し
なければならない。また、5W1Hの単位で分類するた
めに、住所や最寄り駅、電話番号、E−mailアドレ
スのような細かい単位での分類を行うことができない。
【0012】そこで、本発明の目的は、検索された多数
の文書を、検索対象文書が属する分野に応じた観点で分
類することにより、ユーザが必要とする文書を容易に選
別できるようにすることにある。
【0013】
【課題を解決するための手段】本発明の第1の文書検索
装置は、特定の属性(概念)に関する具体的な内容を表
す属性要素が文書中に含まれているかどうかによって、
検索結果の文書を分類すると共に、上記特定の属性につ
いての属性要素を含む文書については、上記特定の属性
の種類毎に分類する。属性要素とは、具体的には文書中
で、住所、電話番号、最寄り駅、価格、日付、時間、E
−mailアドレス、URL、会社名、製品名、型番な
どの特定の属性の内容を具体的に表している要素を表
す。例えば住所の属性を表す属性要素としては、「東京
都千代田区」などがあり、価格の属性を表す属性要素と
しては、「¥12,000」などがある。
【0014】本発明の第1の文書検索装置は、より具体
的には、文書を分類する際に使用可能な複数の属性の種
類の内の、指定された属性の種類のみが格納された分類
属性記憶部(図1の22)と、分類属性記憶部(図1の
22)に記憶されている各属性の種類に対応する属性要
素が検索結果の文書中に含まれているかどうかを解析す
る属性解析手段(図1の32)と、同一種類の属性要素
を含む文書どうしが、同一の範疇となり、且つ属性要素
を含まない文書が独立した範疇となるように、検索結果
を分類する属性分類手段(図1の33)を有する。
【0015】属性解析手段(図1の32)は、検索結果
の各文書を解析し、どの文書が分類属性記憶部(図1の
22)に記憶されているどの属性の種類に対応する属性
要素を含むかという情報を、属性分類手段に送る(図1
の33)。属性分類手段(図1の33)は、属性解析手
段(図1の32)より送られる情報に基づき、検索結果
の各文書について、それが分類属性記憶部(図1の2
2)に記憶されている何れかの種類の属性要素を含むか
どうか判定し、含む場合には、その属性要素の種類に対
応する範疇にその文書を分類する。分類属性記憶部(図
1の22)に記憶されている何れの種類の属性要素も含
まない文書は、そのような文書に対応する1つの範疇に
分類する。
【0016】本発明の第2の文書検索装置は、特定の種
類の属性要素に関して、各文書が同一の属性要素を含む
かどうかによって、検索結果の文書を分類する。より具
体的には、文書を分類する際に使用可能な複数の属性の
種類の内の、指定された属性の種類のみが格納された分
類属性記憶部(図3の22)と、分類属性記憶部(図3
の22)に記憶されている属性の種類の内の、検索要求
元のユーザによって指定された種類の属性要素を検索結
果の文書から抽出する属性要素抽出手段(図3の35)
と、同一の属性要素を含む文書どうしが、同一の範疇と
なるように検索結果を分類する属性要素分類手段(図3
の36)を有する。
【0017】属性要素抽出手段(図3の35)は、分類
属性記憶部(図3の22)に記憶されている属性の種類
のうち、検索要求元のユーザが指定した種類の属性要素
を、検索結果の各文書から抽出し、どの文書にどの属性
要素が含まれているかという情報を、属性要素分類手段
(図3の36)に送る。属性要素分類手段(図3の3
6)は、属性要素抽出手段(図3の35)より送られる
情報に基づき、検索結果の各文書について、それがユー
ザが指定した種類の属性要素を含むかどうか判定し、含
む場合には、その属性要素に対応する範疇にその文書を
分類する。ユーザが指定した種類の属性要素を含まない
文書は、そのような文書に対応する1つの範疇に分類す
る。
【0018】本発明の第3の文書検索装置は、特定の種
類の属性要素に関して、意味的に近い属性要素を含む文
書を1つの範疇にまとめるように、検索結果を分類す
る。より具体的には、文書を分類する際に使用可能な複
数の属性の種類の内の、指定された属性の種類のみが格
納された分類属性記憶部(図5の22)と、各単語の上
位概念に当たる単語を保持するシソーラス記憶部(図5
の24)と、分類属性記憶部(図5の22)に記憶され
ている属性の種類の内の、検索要求元のユーザが指定し
た種類の属性要素を検索結果の文書から抽出する属性要
素抽出手段(図5の35)と、抽出された属性要素の、
ユーザが指定したレベルの上位概念に当たる単語が同一
である文書どうしが、同一の範疇となるように検索結果
を分類する属性要素シソーラス分類手段(図5の37)
を有する。
【0019】シソーラス記憶部(図5の24)は、単語
間の上位概念、下位概念の関係によって、単語が階層構
造をなしており、各階層に対して、絶対的なレベルが付
与されている。属性要素抽出手段(図5の35)は、分
類属性記憶部(図5の22)に記憶されている属性の種
類のうち、ユーザが指定した種類の属性要素を、検索結
果の各文書から抽出し、どの文書にどの属性要素が含ま
れているかという情報を、属性要素シソーラス分類手段
(図5の37)に送る。属性要素シソーラス分類手段
(図5の37)は、属性要素抽出手段(図5の35)よ
り送られる情報に基づき、検索結果の各文書について、
それがユーザが指定した種類の属性要素を含むかどうか
判定し、含む場合には、シソーラス記憶部(図5の2
4)を参照して、その属性要素のユーザが指定したレベ
ルの上位概念の語を求め、その上位概念の語に対応する
範疇にその文書を分類する。ユーザが指定した種類の属
性要素を含まない文書は、そのような文書に対応する1
つの範疇に分類する。
【0020】
【発明の実施の形態】次に本発明の実施の形態について
図面を参照して詳細に説明する。
【0021】図1を参照すると、本発明の第1の実施の
形態は、ホスト側装置1と、端末装置5と、両者を接続
するネットワーク6とを含む。
【0022】端末装置5は、キーボード,マウス等の入
力装置51と、ディスプレイ装置等の出力装置52とを
含む。
【0023】ホスト側装置1は、記憶装置2と、処理装
置3と、キーボード,マウス等の入力装置41と、ディ
スプレイ装置等の出力装置42と、記録媒体K1とを含
む。
【0024】記憶装置2は、文書記憶部21と、分類属
性記憶部22と、候補記憶部23とを備える。
【0025】文書記憶部21には、或る分野に属する、
検索対象となる複数の文書が格納される。候補記憶部2
3には、文書を分類する際に使用可能な複数の属性の種
類が格納される。分類属性記憶部22には、検索結果の
文書を分類するときに分類キーとして実際に用いる属性
の種類が格納される。
【0026】属性要素とは、住所、電話番号、最寄り
駅、価格、日付、時間、E−mailアドレス、UR
L、会社名、製品名、型番の具体的な内容のように、文
書中で特定の概念の内容を具体的に表している要素を表
す。このときの、住所、電話番号などの概念の種類が属
性の種類である。なお、以下では、住所の属性を表す属
性要素を住所要素などと記述することにする。例えば、
「A社は、標準価格2,000円で商品Xを発売す
る。」という文においては、「A社」が会社名要素、
「2,000円」が価格要素、「商品X」が製品名要素
である。
【0027】分類属性記憶部22には、候補記憶部23
に格納されている複数の属性の種類の内、分類のキーと
して実際に用いるものが格納される。ここに格納する属
性の種類を、文書記憶部21に格納されている文書が属
する分野に応じたものにしておくことにより、有効な分
類キーだけによる分類結果を端末装置5のユーザに提示
できる。例えば、飲食店情報を検索するユーザにとっ
て、製品名、型番等が文書に含まれているかどうかは検
索結果を選別する上での基準になりえない。ホスト側装
置1が、文書記憶部21に飲食店情報に関する文書を記
憶するものである場合、分類属性記憶部22に、属性の
種類として住所、電話番号、最寄り駅、価格を設定して
おくことで、住所、電話番号、最寄り駅、価格の観点か
ら検索結果を分類することができる。
【0028】処理装置3は、文書検索手段31と、属性
解析手段32と、属性分類手段33と、分類属性選択手
段34とを備える。
【0029】文書検索手段31は、端末装置5のユーザ
が入力装置51を用いて入力した検索条件をネットワー
ク6を介して受け取り、その条件に適合する文書を文書
記憶部21から検索し、検索文書の文書名,文書番号等
の識別子を属性解析手段32と属性分類手段33に送
る。検索条件としては、例えば、1個以上のキーワード
を受け取り、そのすべてのキーワード含む文書を検索す
るようにする。
【0030】属性解析手段32は、分類属性記憶部22
を参照して、分類に用いる属性の種類を読み込み、文書
記憶部21を参照して、文書検索手段31より送られて
くる識別子によって示される文書それぞれについて、分
類属性記憶部22に記憶されている属性の種類に対応す
る属性要素が含まれているかどうかを解析し、どの文書
にどの種類の属性要素が出現したかという情報を属性分
類手段33に送る。
【0031】属性分類手段33は、文書検索手段31か
ら受け取った検索結果の文書識別子を、属性解析手段3
2によって解析された、各文書の属性要素の含有状況に
関する情報に従って分類し、出力装置52に出力する。
すなわち、ある種類の属性要素を含む文書は、その属性
要素の種類に対応する範疇に分類し、どの属性要素も含
まない文書は、そのような文書に対応する1つの範疇に
分類する。2種類以上の属性要素を含む文書は、2つ以
上の範疇に分類されることになる。分類の結果として
は、各範疇に分類された文書のリストを出力してもよい
し、各範疇に分類された文書の件数を出力してもよい。
【0032】分類属性選択手段34は、候補記憶部23
に格納されている属性の種類を出力装置42に表示し、
この表示を見たホスト管理者が入力装置41を用いて選
択した属性の種類のみを分類属性記憶部22に格納す
る。
【0033】なお、本実施の形態では、文書検索手段3
1、属性解析手段32、属性分類手段33、分類属性選
択手段34は、処理装置3に備え付けられている必要は
なく、コンピュータからなる処理装置3を制御するため
のプログラムとして、CD−ROMやフロッピーディス
クなどの記録媒体K1に格納して提供され、処理装置3
に読み込まれて実行されるものとしてもよい。
【0034】次に、図1および図2を参照して、本発明
の第1の実施の形態の動作について説明する。
【0035】ホスト管理者は、ホスト側装置1を文書検
索装置として運用する際、その運用開始に先立って、分
類属性選択手段34を用いて分類属性記憶部22に、分
類キーとして用いる属性の種類を格納しておく。このと
きの分類属性選択手段34の動作は、次のようになる。
分類属性選択手段34は、ホスト管理者によって起動さ
れると、候補記憶部23に格納されている全ての属性の
種類を出力装置42に表示する。そして、ホスト管理者
は、表示された属性の種類の中から、ユーザが検索結果
を選別する上で有効な分類キーになり得る属性の種類を
入力装置41を用いて選択する。例えば、文書記憶部2
1に、飲食店情報に関する文書が格納されている場合に
は、多数表示される属性の種類の中から、住所、電話番
号、最寄り駅、価格等を選択する。分類属性選択手段3
4は、ホスト管理者によって選択された属性の種類を分
類記憶部22に格納する。
【0036】次に、文書検索時の動作について説明す
る。文書検索手段31は、まず、端末装置5のユーザが
入力装置51を用いて入力した検索条件を読み込む(図
2,ステップA1)。次に、文書記憶部21より、検索
条件に適合する文書を検索し、検索条件に適合する文書
すべての文書識別子を属性解析手段32、および、属性
分類手段33に送る(ステップA2)。
【0037】続いて、属性解析手段32が、分類属性記
憶部22を参照し、分類キーとして使用する属性の種類
を読み込む(ステップA3)。次に、属性解析手段32
は、文書記憶部21を参照し、文書検索手段31より文
書識別子が送られてきている各文書それぞれについて、
ステップA3で読み込んだ属性の種類の内の、どの属性
の種類に属する属性要素を含んでいるかを解析し、その
結果を属性分類手段33に送る(ステップA4)。尚、
ステップA3で読み込んだ属性の種類に属する属性要素
が存在しない文書については、そのことを示す解析結果
を属性分類手段33に送る。
【0038】文書中に含まれる属性要素は、例えば、文
書に対して形態素解析処理を行い、ある特定のパターン
に適合する単語等の条件により検出あるいは抽出するこ
とができる。例えば、「〜県〜市」等のパターンに適合
する単語を住所要素に、「〜月〜日」等のパターンに適
合する単語を日付要素に、「http://〜」等のパ
ターンに適合する単語をURL要素に、「(株)〜」等
のパターンに適合する単語を会社名要素にすることがで
きる。このほかにも、会社名や製品名を表す単語等を予
め収集しておき、各単語とそれらを照合して、一致する
ものをそれぞれ会社名要素、製品名要素とする方法等も
ある。
【0039】次に、属性分類手段33が、文書検索手段
31より文書識別子が送られてきた1つの文書につい
て、その文書が分類属性記憶部22に格納されている属
性の種類に対応する属性要素を含むかどうかを、属性解
析手段32から送られた情報に従って判定する(ステッ
プA5)。そして、その文書が何れかの属性要素を含ん
でいる場合には、その属性要素の種類に対応する範疇に
その文書を分類する。複数の属性要素を含む場合には、
複数の範疇に分類する(ステップA6)。これに対し
て、その文書が何れの属性要素も含んでいない場合に
は、属性要素を含まない文書の範疇にその文書を分類す
る(ステップA7)。
【0040】属性分類手段33は、文書検索手段31で
検索されたすべての文書について分類が完了したかどう
かを確認し(ステップA8)、完了していれば、分類の
結果を出力して処理を終了する(ステップA9)。完了
していなければ、ステップA5に戻って処理を繰り返
す。
【0041】次に、本発明の第1の実施の形態の効果に
ついて説明する。
【0042】本発明の第1の実施の形態は、検索結果の
文書を、それに含まれる属性要素の種類に従って分類す
る。また、属性要素を含まない文書を、1つの独立した
範疇に分類する。これにより、検索結果の中から、住
所、電話番号、最寄り駅、価格、日付、時間、E−ma
ilアドレス、URL、会社名、製品名、型番などの属
性が記述されている文書だけを選択することができるよ
うになる。
【0043】また、本発明の第1の実施の形態は、候補
記憶部23に格納されている属性の種類の内のいくつか
を分類属性選択手段34を用いて分類属性記憶部22に
格納しておき、分類属性記憶部22に格納されている属
性の種類だけを用いて検索結果の文書の分類を行う。こ
れにより、分類属性記憶部22に設定する属性の種類を
検索対象の文書に合ったものにすることができるため、
検索対象の文書に合わせた分類の観点で検索結果を分類
することができるようになる。検索対象の文書に合わせ
て、分類に用いる属性の種類を設定すれば、ユーザは、
有効な分類キーのみにより分類された結果を得ることが
できる。
【0044】次に、本発明の第2の実施の形態につい
て、図面を参照して詳細に説明する。
【0045】図3を参照すると、本発明の第2の実施の
形態は、ホスト側装置1aの処理装置3aが、図1に示
された第1の実施の形態の処理装置3の構成における属
性解析手段32に代わり属性要素抽出手段35を有し、
属性分類手段33に代わり属性要素分類手段36を有す
る点で異なる。
【0046】属性要素抽出手段35は、分類属性記憶部
22を参照して、分類に用いる属性の種類を読み込み、
その中からユーザが指定する属性の種類を、入力装置5
1,ネットワーク6を通して受け取り、文書記憶部21
を参照して、文書検索手段31より送られてくる検索結
果の各文書から、その文書に含まれる属性要素のうち、
ユーザによって指定された種類のものを抽出する。さら
に、どの文書からどの属性要素が抽出されたかという情
報を属性要素分類手段36に送る。
【0047】属性要素分類手段36は、文書検索手段3
1から受け取った検索結果の文書を、属性要素抽出手段
35によって抽出された、各文書中の特定の種類の属性
要素に従って、同一の属性要素を含むものが同一の範疇
になるように分類し、出力装置52に出力する。なお、
属性要素抽出手段35によってユーザが指定した種類の
属性要素が抽出されなかった文書は、そのような文書に
対応する1つの範疇に分類する。2つ以上の異なる属性
要素を含む文書は、2つ以上の範疇に分類されることに
なる。第1の実施の形態と同様に、分類の結果として
は、各範疇に分類された文書のリストを出力してもよい
し、各範疇に分類された文書の件数を出力してもよい。
【0048】なお、本実施の形態では、文書検索手段3
1、分類属性選択手段34、属性要素抽出手段35、属
性要素分類手段36は、処理装置3aに備え付けられて
いる必要はなく、コンピュータからなる処理装置3aを
制御するためのプログラムとして、CD−ROMやフロ
ッピーディスクなどの記録媒体K2に格納して提供さ
れ、処理装置3aに読み込まれて実行されるものとして
もよい。
【0049】次に、図3および図4を参照して、本発明
の第2の実施の形態の文書検索時の動作について説明す
る。
【0050】図4のステップA1、A2で示される、第
2の実施の形態における文書検索手段31の動作は、第
1の実施の形態における文書検索手段31の動作と同一
のため、説明は省略する。
【0051】文書検索手段31でステップA1、A2の
処理が行われた後、属性要素抽出手段35は、分類属性
記憶部22に格納されている属性の種類を全て読み出
し、それを検索要求元の端末装置5へ送る(ステップB
1)。
【0052】端末装置5の出力装置52は、送られてき
た属性の種類を表示し、その表示を見た端末装置5のユ
ーザは、入力装置51を用いて、表示されている属性の
種類の中から、文書中に含まれている必要がある属性の
種類を選択する。選択された属性の種類は、ネットワー
ク6を介してホスト側装置1aに送られる。
【0053】属性要素抽出手段35は、ネットワーク6
を介して送られてくるユーザが選択した属性の種類を読
み込むと(ステップB2)、文書記憶部21を参照し、
文書検索手段31から文書識別子が送られてきている各
文書について、その文書中に含まれている、ステップB
2で指定された種類の属性要素を抽出し、その結果を属
性要素分類手段36に送る(ステップB3)。
【0054】次に、属性要素分類手段36が、文書検索
手段31から文書識別子が送られてきている1つの文書
について、その文書からユーザが指定した種類の属性要
素が抽出されたかどうかを、属性要素抽出手段35から
送られた情報に従って判定する(ステップB4)。そし
て、その文書がユーザが指定した種類の属性要素を含ん
でいる場合には、その属性要素に対応する範疇にその文
書を分類する。複数の属性要素を含む場合には、複数の
範疇に分類する(ステップB5)。これに対して、その
文書がユーザが指定した種類の属性要素を1つも含んで
いない場合には、属性要素を含まない文書の範疇にその
文書を分類する(ステップB6)。
【0055】属性要素分類手段36は、すべての文書に
ついて分類が完了したかどうかを確認し(ステップB
7)、完了していれば、分類の結果を出力して処理を終
了する(ステップB8)。完了していなければ、ステッ
プB4に戻って処理を繰り返す。
【0056】次に、本発明の第2の実施の形態の効果に
ついて説明する。
【0057】本発明の第2の実施の形態は、文書中に出
現する、ユーザが指定した種類の属性要素ごとに、検索
結果の文書を分類する。検索結果が、文書中に記述され
ている、ユーザーが指定した種類の属性要素に従って分
類されるため、ある特定の種類の属性が記述されている
文書が必要なユーザは、自分が必要としている種類の属
性に関する文書中の内容によって分類された検索結果を
得ることができ、検索結果を絞り込むことが容易にな
る。
【0058】次に、本発明の第3の実施の形態につい
て、図面を参照して詳細に説明する。
【0059】図5を参照すると、本発明の第3の実施の
形態は、ホスト側装置1bの記憶装置2bが、図3に示
された第2の実施の形態の記憶装置2の構成に加え、シ
ソーラス記憶部24を備え、処理装置3bが、図3に示
された第2の実施の形態の処理装置3aの構成における
属性要素分類手段36に代わり、属性要素シソーラス分
類手段37を有する点で異なる。
【0060】シソーラス記憶部24は、各単語に対し
て、その上位概念に相当する単語にリンクを張ったシソ
ーラスを記憶している。例えば、A社、B社、C社が、
何れも電機メーカーである場合、シソーラスでは、「A
社」、「B社」、「C社」という語から、それらの共通
の上位概念に相当する「電機メーカー」という単語にリ
ンクを張るようにすることができる。
【0061】ある単語の上位概念に当たる単語に対し
て、さらにその上位概念に当たる単語が再帰的に存在し
うるため、単語とその上位概念に当たる単語との関係
は、階層構造を成している。シソーラス記憶部24で
は、その各階層に対し、絶対的なレベルが付与されてい
る。例えば、「港区」の上位概念として「東京都」が、
「東京都」の上位概念として「日本」があるとき、「港
区」のレベルを2、「東京都」のレベルを1、「日本」
のレベルを0などとする。
【0062】属性要素シソーラス分類手段37は、入力
装置51を通してユーザが指定するレベルを読み取り、
文書検索手段31から受け取った検索結果の文書を、属
性要素抽出手段35によって抽出された、各文書中の特
定の種類の属性要素に従い、その属性要素に対する指定
したレベルの上位概念の単語が同一のものが同一の範疇
になるように分類し、出力装置52に出力する。例え
ば、「PC−ABC」と「XYZ−PC」の上位概念が
共に「パソコン」であり、「PC−ABC」、「XYZ
−PC」のレベルが1、「パソコン」のレベルが0であ
るとき、ユーザによって指定されたレベルが1であれ
ば、「PC−ABC」を含む文書と「XYZ−PC」を
含む文書が異なる範疇に分類されるが、ユーザによって
指定されたレベルが0であれば、「PC−ABC」を含
む文書と「XYZ−PC」を含む文書は同一の範疇に分
類される。
【0063】属性要素シソーラス分類手段37は、属性
要素抽出手段35によってユーザが指定した種類の属性
要素が何も抽出されなかった文書は、そのような文書に
対応する1つの範疇に分類する。一方、2つ以上の異な
る属性要素を含む文書は、2つ以上の範疇に分類される
こともある。分類の結果としては、第2の実施の形態と
同様に、各範疇に分類された文書のリストを出力しても
よいし、各範疇に分類された文書の件数を出力してもよ
い。
【0064】属性要素シソーラス分類手段37が、各単
語の指定されたレベルの上位概念の単語を求める際に
は、シソーラス記憶部24を参照する。ただし、ユーザ
が指定した属性要素の種類が、日付、時間、価格等の値
を表す属性の場合には、上位概念として一定の範囲の値
を採用してもよい。例えば、1999年6月20日の上
位概念として1999年の6月1カ月間を採用し、さら
にその上位概念として1999年1年間を採用すること
ができる。どの範囲の値をどのレベルの階層にするかは
予め定めておけばよい。このように上位概念を定義する
場合は、シソーラス記憶部22を参照する必要はない。
【0065】なお、本実施の形態では、文書検索手段3
1、分類属性選択手段34、属性要素抽出手段35、属
性要素シソーラス分類手段37は、処理装置3bに備え
付けられている必要はなく、コンピュータからなる処理
装置3bを制御するためのプログラムとして、CD−R
OMやフロッピーディスクなどの記録媒体K3に格納し
て提供され、処理装置3bに読み込まれて実行されるも
のとしてもよい。
【0066】次に、図5および図6を参照して、本発明
の第3の実施の形態の動作について説明する。
【0067】図6のステップA1、A2、B1、B2、
B3で示される、第3の実施の形態における文書検索手
段31、および、属性要素抽出手段35の動作は、第2
の実施の形態における文書検索手段31、および、属性
要素抽出手段35の動作と同一のため、説明は省略す
る。
【0068】ステップA1、A2、B1、B2、B3の
処理の後、属性要素シソーラス分類手段37が、入力装
置51を通して、ユーザが指定する、分類時のシソーラ
ス中での概念のレベルを読み込む(ステップC1)。続
いて、属性要素シソーラス分類手段37は、文書検索手
段31から文書識別子が送られてきている1つの文書に
ついて、その文書からユーザが指定した種類の属性要素
が抽出されたかどうかを、属性要素抽出手段35から送
られてきた情報に従って判定する(ステップC2)。
【0069】もし、その文書がユーザが指定した種類の
属性要素を含んでいる場合には、その文書が含むすべて
の属性要素について、シソーラス記憶部24を参照し、
ユーザが指定するレベルの上位概念に当たる単語を求め
る(ステップC3)。そして、求めた上位概念に対応す
る範疇にその文書を分類する。その文書が複数の属性要
素を含む場合には、求められた上位概念が複数になるこ
とがあるが、その場合には、文書を複数の範疇に分類す
る(ステップC4)。
【0070】これに対して、その文書がユーザが指定し
た種類の属性要素を1つも含んでいない場合には、属性
要素を含まない文書の範疇にその文書を分類する(ステ
ップC5)。
【0071】属性要素シソーラス分類手段37は、すべ
ての文書について分類が完了したかどうかを確認し(ス
テップC6)、完了していれば、分類の結果を出力装置
52出力して処理を終了する(ステップC7)。完了し
ていなければ、ステップC2に戻って処理を繰り返す。
【0072】次に、本発明の第3の実施の形態の効果に
ついて説明する。
【0073】本発明の第3の実施の形態は、文書中に出
現する、ユーザが指定した種類の属性要素に応じて検索
結果の文書を分類する。特に、このとき、シソーラス中
のユーザが指定したレベルにおいて同一の概念に対応す
る属性要素を含む文書どうしが、同一の範疇に分類され
るようにする。このため、検索結果が多く、検索結果の
文書に含まれる、ユーザが指定した種類の属性要素が多
岐に渡る場合でも、ユーザが適当なシソーラスのレベル
を指定することにより、範疇の数をより少なくすること
ができる。また、ユーザがシソーラスのレベルを自由に
設定できるため、ユーザが必要とするレベルでの分類を
提供することが可能になる。
【0074】なお、本発明の第2、第3の実施の形態に
おいて、属性要素ごと、あるいは、その上位概念の単語
ごとに範疇を設けることにより、範疇の数が多くなりす
ぎる場合には、代表的な属性要素、あるいは、上位概念
の単語についてのみ範疇を設け、それに対応しない属性
要素を有する文書は「その他」の範疇に分類し、ユーザ
から指定された場合に、「その他」に分類された文書を
対象に再帰的に分類を行うようにしてもよい。
【0075】また、本発明の第3の実施の形態におい
て、ユーザが指定したシソーラスのレベルでの分類結果
に対して、ユーザから指定された場合に、その範疇の1
つに対して、その範疇に分類された文書を、現在とは異
なるシソーラスのレベルで再帰的に分類するようにして
もよい。このとき、再帰的に分類を行う際のシソーラス
のレベルは、再度ユーザが指定するようにしてもよい
し、前回よりも1つ上、あるいは、1つ下のレベルを採
用することにしてもよい。
【0076】〔実施例〕本発明の第一の実施の形態の一
実施例の動作を詳細に説明する。
【0077】例えば、本発明の文書検索装置を用いて
「焼肉」というキーワードを含む文書を検索するものと
する。
【0078】なお、この装置が分類に用いる属性の種類
(分類属性記憶部22に格納されている属性の種類)
は、「住所」と「価格」のみであるものとして動作を説
明する。
【0079】まず、文書検索手段31が、入力装置51
から入力されたキーワード「焼肉」を読み込む(ステッ
プA1)。そして、文書記憶部21から、キーワード
「焼肉」を含む文書を検索する(ステップA2)。これ
により、図7に示す文書識別子#1〜#10の10件の
文書が検索結果として得られたとする。
【0080】属性解析手段32は、まず、分類属性記憶
部22を参照して、分類に用いる属性の種類「住所」,
「価格」を読み込む(ステップA3)。属性解析手段3
2は、次に、検索結果の文書#1〜#10のすべてに対
して、ステップA3で読み込んだ各種類の属性要素がそ
れぞれの文書中に含まれているかを解析する(ステップ
A4)。今、ステップA3では、「住所」,「価格」の
2種類の属性が読み込まれているため、属性解析手段3
2は、各文書中に住所要素と価格要素が含まれているか
どうかを検査する。ここで、属性解析手段32が、「〜
都」、「〜道」、「〜府」、「〜県」というパターンに
当てはまる単語を住所要素とみなし、「〜円」というパ
ターンに当てはまる単語を価格要素とみなすものとす
る。文書#1〜#10に含まれるこれらのパターンに当
てはまる単語を表にすると図8のようになっている。従
って、属性解析手段32は、文書#1、#4、#5、#
6、#7、#10の6つが住所要素を含み、文書#1、
#3、#4の3つが価格要素を含み、文書#2、#8、
#9の3つはステップA3で読み込んだ種類の属性要素
を含まないと判断する。
【0081】属性分類手段33は、この結果を受け取
り、検索結果の文書#1〜#10を分類する。まず、文
書#1について、それが分類属性記憶部22に記憶され
ている種類の属性要素を含むかどうかを判定する(ステ
ップA5)。この例では、文書#1は、住所要素と価格
要素を含んでいるため、属性要素を含むと判定し、文書
#1を住所要素を含む文書の範疇と価格要素を含む文書
の範疇の2つの範疇に分類する(ステップA6)。
【0082】次に、属性分類手段33は、すべての文書
について分類が完了したかどうかを判定する(ステップ
A8)。この例では、まだ9文書残っているので、完了
していないと判定し、ステップA5に戻って、次の文書
の処理を行う。
【0083】文書#2は、分類属性記憶部22に記憶さ
れている種類のどの属性要素も含んでいないため、属性
分類手段33は、文書#2を属性要素を含まない文書と
判定し(ステップA5)、属性要素を含まない文書の範
疇に文書#2を分類する(ステップA7)。
【0084】以下、文書#3〜#10について、ステッ
プA5、A6、もしくは、ステップA5、A7の処理を
繰り返し、最終的な分類結果を出力して、処理を終了す
る(ステップA9)。出力結果は、例えば、図9のよう
になる。
【0085】次に、本発明の第2の実施の形態の一実施
例の動作を詳細に説明する。
【0086】この例でも、本発明の文書検索装置を用い
て「焼肉」というキーワードを含む文書を検索するもの
とする。また、分類属性記憶部22には、属性の種類と
して「住所」,「価格」が格納されているとする。本実
施の形態の文書検索手段31のステップA1、A2の動
作は、第1の実施の形態の文書検索手段31の動作と同
一のため、説明は省略する。また、ステップA2におけ
る文書の検索で、図7に示す文書識別子#1〜#10の
10件の文書が検索結果として得られたとする。
【0087】文書検索手段31でステップA1、A2の
処理が行われた後、属性要素抽出手段35は、分類属性
記憶部22に格納されている全ての属性の種類「住
所」,「価格」を読み出し、それを検索要求元の端末装
置5へ送る(ステップB1)。端末装置5の出力装置5
2は、属性の種類「住所」,「価格」が送られてくる
と、それらを表示する。この表示を見た端末装置5のユ
ーザは、入力装置51を用いて、表示されている属性の
種類「住所」,「価格」の中から、文書中に含まれてい
る必要がある属性の種類を指定する。今、例えば、「住
所」を指定したとすると、それがネットワーク6を介し
てホスト側装置1aに送られる。
【0088】ホスト側装置1a内の属性要素抽出手段3
5は、端末装置5から送られてくるユーザが指定した属
性の種類「住所」を読み込むと(ステップB2)、検索
結果の文書#1〜#10のすべてに対して、それぞれの
文書中に含まれる住所要素を抽出する(ステップB
3)。今、属性要素抽出手段35が、第一の実施の形態
の実施例における属性解析手段32と同様の基準で、住
所要素の判定を行うとすると、図10に示す住所要素の
みがステップB3で抽出される。
【0089】属性要素分類手段36は、この結果を受け
取り、検索結果の文書#1〜#10を分類する。まず、
文書#1について、その文書から住所要素が抽出された
かどうかを判定する(ステップB4)。この例では、文
書#1からは、「東京都」という住所要素が抽出されて
いるため、住所要素が抽出されたと判定し、文書#1を
「東京都」という範疇に分類する(ステップB5)。
【0090】次に、属性要素分類手段36は、すべての
文書#1〜#10について分類が完了したかどうかを判
定する(ステップB7)。この例では、まだ9文書残っ
ているので、完了していないと判定し、ステップB4に
戻って、次の文書の処理を行う。
【0091】文書#2は、住所要素を含んでいないた
め、属性要素分類手段36は、文書#2からは住所要素
が抽出されなかったと判定し(ステップB4)、住所要
素を含まない文書の範疇に文書#2を分類する(ステッ
プB6)。
【0092】以下、文書#3〜#10について、ステッ
プB4,B5、もしくは、ステップB4,B6の処理を
繰り返し、最終的な分類結果を出力して、処理を終了す
る(ステップB8)。出力結果は、例えば、図11のよ
うになる。
【0093】次に、本発明の第3の実施の形態の一実施
例の動作を詳細に説明する。
【0094】この例で、シソーラス記憶部24は、地名
に関するシソーラスとして、図12に示すような階層関
係を保持しているとする。図12の例は、例えば、「東
京都」、「神奈川県」、「千葉県」、「埼玉県」等の上
位概念を表す単語が「関東地方」であり、「関東地
方」、「近畿地方」等の上位概念を表す単語が「日本」
であることを示している。また、「東京都」、「神奈川
県」、「千葉県」、「埼玉県」等のレベルが2、「関東
地方」、「近畿地方」等のレベルが1、「日本」のレベ
ルが0となっている。
【0095】このとき、本発明の文書検索装置を用いて
「焼肉」というキーワードを含む文書を検索するものと
する。本実施の形態の文書検索手段31のステップA
1、A2の動作、および、属性要素抽出手段35のステ
ップB1、B2、B3の動作は、第2の実施の形態の文
書検索手段31、および、属性要素抽出手段35の動作
と同一のため、説明は省略する。ここでは、ステップA
1、A2、B1、B2、B3において、第2の実施の形
態の一実施例の説明と同様に処理が進んだものとし、そ
の続きの処理について説明する。すなわち、ステップA
1の処理で、図7に示す10件の文書#1〜#10が検
索結果として得られ、ステップB2の処理で、ユーザが
指定する属性要素の種類として「住所」を読み込み、ス
テップB3において、図10に示す住所要素が各文書か
ら抽出されている。
【0096】属性要素シソーラス分類手段37は、ま
ず、ユーザが入力装置51を用いて指定したシソーラス
のレベルを読み込む(ステップC1)。ここでは、ユー
ザがシソーラスのレベルとして「1」を指定したとす
る。
【0097】続いて、属性要素シソーラス分類手段37
は、属性要素抽出手段35による属性要素の抽出結果を
受け取り、検索結果の文書#1〜#10を分類する。ま
ず、文書#1について、その文書から住所要素が抽出さ
れたかどうかを判定する(ステップC2)。この例で
は、文書#1からは、「東京都」という住所要素が抽出
されているため、住所要素が抽出されたと判定し、シソ
ーラス記憶部24を参照して、「東京都」の上位概念に
あたる単語で、ユーザより指定されたレベル1にあるも
のを求める(ステップC3)。この例では、ステップC
3において、「関東地方」という単語が求められ、属性
要素シソーラス分類手段37は、「関東地方」という範
疇に文書#1を分類する(ステップC4)。
【0098】次に、属性要素シソーラス分類手段37
は、すべての文書#1〜#10について分類が完了した
かどうかを判定する(ステップC6)。この例では、ま
だ9文書残っているので、完了していないと判定し、ス
テップC2に戻って、次の文書の処理を行う。
【0099】文書#2は、住所要素を含んでいないた
め、属性要素シソーラス分類手段37は、文書#2から
は住所要素が抽出されなかったと判定し(ステップC
2)、住所要素を含まない文書の範疇に文書#2を分類
する(ステップC5)。
【0100】以下、文書#3〜#10について、ステッ
プC2,C3,C4もしくは、ステップC2,C5の処
理を繰り返し、最終的な分類結果を出力して、処理を終
了する(ステップC7)。出力結果は、例えば、図13
のようになる。
【0101】
【発明の効果】本発明の第1の効果は、検索要求元のユ
ーザが、検索された多数の文書の中から、必要としてい
る種類の属性要素が含有されている文書を、容易に選択
することが可能になるという点である。
【0102】その理由は、住所、電話番号、最寄り駅、
価格、日付、時間、E−mailアドレス、URL、会
社名、製品名、型番など多数存在する、分類キーとなり
得る属性の種類の中から、検索された文書を分類する際
に実際に使用する属性の種類を選択して分類属性記憶部
に格納しておき、この分類属性記憶部に格納されている
属性の種類のみを用いて検索された文書を分類するよう
にしているからである。つまり、検索対象とする文書が
属する分野毎に、有効な分類キー(分類の観点)が異な
るものとなるので、従来技術のように、分類キーを5W
1Hに固定して分類を行うと、ユーザが選別しやすい形
で分類が行われない場合があるが、本発明によれば、多
数の属性の種類の中から、検索対象とする文書が属する
分野に応じた属性の種類を選択して分類キーにすること
ができるので、ユーザが選別しやすい形で分類を行うこ
とができる。
【0103】本発明の第2の効果は、検索結果を、着目
すべき属性要素が含まれる文書と含まれない文書に分け
ることができることである。この結果、着目すべき属性
が記述されていない文書が不要な場合には、その不要な
文書を検索結果から容易に除外することができるように
なる。
【0104】その理由は、属性解析手段が、分類属性記
憶部に記憶されている各種類の属性について、検索結果
の各文書にどの種類の属性要素が含まれているかを解析
し、属性分類手段が、分類属性記憶部に記憶されている
種類の属性要素が含まれていない文書を独立した範疇に
分類するからである。
【0105】第3の効果は、文書中の特定の種類の属性
要素に従って、検索結果の文書を分類できることであ
る。この結果、ある特定の種類の属性が記述されている
文書が必要なユーザは、その具体的な内容、すなわち、
自分にとって必要な事項に対応する内容によって分類さ
れた検索結果を得ることができるようになる。これによ
り、検索結果をさらに絞り込むことが容易になる。
【0106】その理由は、属性要素抽出手段が、ユーザ
が指定した種類の属性要素を検索結果の各文書中から抽
出し、属性要素分類手段が、同一の属性要素を含む文書
どうしが、同一の範疇となるように検索結果を分類する
からである。
【0107】第4の効果は、検索結果を分類する際の範
疇の区分が詳細になりすぎないように、意味的に近い属
性要素を含む文書を1つの範疇にまとめて分類できるこ
とである。この結果、まとめ上げるレベルを指定するこ
とで、ユーザは、必要とする詳細度の分類結果を得るこ
とができる。
【0108】その理由は、シソーラス記憶部が、各単語
の上位概念に当たる単語を保持しており、属性要素シソ
ーラス分類手段が、各文書から抽出された属性要素か
ら、ユーザが指定したレベルの上位概念の単語を求め、
求められた単語が同一になる文書どうしが、同一の範疇
となるように検索結果を分類するからである。
【0109】第5の効果は、検索結果を分類する際の範
疇が多くなりすぎないように、範疇の数を抑えることが
可能なことである。
【0110】その理由は、第4の効果の理由と同一であ
る。すなわち、シソーラスを参照して、意味的に近い属
性要素を含む文書を1つの範疇にまとめて分類すること
で、範疇の数を減らすことができるからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成例を表すブロ
ック図である。
【図2】本発明の第1の実施の形態の動作例を表すフロ
ーチャートである。
【図3】本発明の第2の実施の形態の構成例を表すブロ
ック図である。
【図4】本発明の第2の実施の形態の動作例を表すフロ
ーチャートである。
【図5】本発明の第3の実施の形態の構成例を表すブロ
ック図である。
【図6】本発明の第3の実施の形態の動作例を表すフロ
ーチャートである。
【図7】本発明の実施の形態の実施例において、文書検
索手段31によって検索された検索結果の文書を示す図
である。
【図8】本発明の第1の実施の形態の実施例において、
検索結果の各文書中に含まれている属性要素を示す図で
ある。
【図9】本発明の第1の実施の形態の実施例において、
出力される結果を示す図である。
【図10】本発明の第2、および、第3の実施の形態の
実施例において、検索結果の各文書中から抽出された住
所要素を示す図である。
【図11】本発明の第2の実施の形態の実施例におい
て、出力される結果を示す図である。
【図12】本発明の第3の実施の形態の実施例における
シソーラス記憶部24の内容を示す図である。
【図13】本発明の第3の実施の形態の実施例におい
て、出力される結果を示す図である。
【符号の説明】
1,1a.1b…ホスト側装置 2,2b…記憶装置 21…文書記憶部 22…分類属性記憶部 23…候補記憶部 24…シソーラス記憶部 3,3a,3b…処理装置 31…文書検索手段 32…属性解析手段 33…属性分類手段 34…分類属性選択手段 35…属性要素抽出手段 36…属性要素分類手段 37…属性要素シソーラス分類手段 41…入力装置 42…出力装置 5…端末装置 51…入力装置 52…出力装置 6…ネットワーク K1,K2,K3…記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 奥村 明俊 東京都港区芝五丁目7番1号 日本電気株 式会社内 Fターム(参考) 5B009 SA00 SA12 SA14 VA02 VA09 5B075 KK07 KK40 ND20 NK02 NR02 NR12 PP02 PP03 PP12 PP22 PQ02 PQ20 QS20 UU40

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 指定された条件に適合する文書を複数の
    文書から検索し、 文書を分類する際に使用可能な複数の属性の種類の中か
    ら、文書を分類する際に使用する属性の種類を選択して
    分類属性記憶部に格納し、 前記検索した各文書に、前記分類属性記憶部に格納され
    ている属性の種類の内の、どの属性の種類に属する属性
    要素が存在するのかを解析し、 その解析結果に基づいて、前記検索した各文書を、その
    文書が含有する属性要素の種類毎に分類することを特徴
    とする文書検索方法。
  2. 【請求項2】 請求項1記載の文書検索方法において、 前記検索した各文書を分類する際、前記分類属性記憶部
    に格納されている属性の種類に属する属性要素を含有し
    ない文書を、独立した範疇に分類することを特徴とする
    文書検索方法。
  3. 【請求項3】 指定された条件に適合する文書を複数の
    文書から検索し、 文書を分類する際に使用可能な複数の属性の種類の中か
    ら、文書を分類する際に使用する属性の種類を選択して
    分類属性記憶部に格納し、 前記検索した各文書から、前記分類属性記憶部に格納さ
    れている属性の種類の内の、検索要求元のユーザによっ
    て指定された属性の種類に属する属性要素を抽出し、 その抽出結果に基づいて、前記検索した各文書を、その
    文書が含有する属性要素毎に分類することを特徴とする
    文書検索方法。
  4. 【請求項4】 請求項3記載の文書検索方法において、 前記検索した各文書を分類する際、前記ユーザによって
    指定された属性の種類に属する属性要素を含有しない文
    書を、独立した範疇に分類することを特徴とする文書検
    索方法。
  5. 【請求項5】 指定された条件に適合する文書を複数の
    文書から検索し、 文書を分類する際に使用可能な複数の属性の種類の中か
    ら、文書を分類する際に使用する属性の種類を選択して
    分類属性記憶部に格納し、 前記検索した各文書から、前記分類属性記憶部に格納さ
    れている属性の種類の内の、検索要求元のユーザによっ
    て指定された属性の種類に属する属性要素を抽出し、 前記検索した各文書を、その文書が含有する前記抽出し
    た属性要素に対する上位概念に当たる単語であって、各
    単語の上位概念に当たる単語を階層的に保持するシソー
    ラスにおいて検索要求元のユーザによって指定された階
    層レベルに存在する単語毎に分類することを特徴とする
    文書検索方法。
  6. 【請求項6】 請求項5記載の文書検索方法において、 前記検索した文書を分類する際、前記ユーザによって指
    定された属性の種類に属する属性要素を含有しない文書
    を、独立した範疇に分類することを特徴とする文書検索
    方法。
  7. 【請求項7】 複数の文書が格納された文書記憶部と、 指定された条件に適合する文書を前記文書記憶部から検
    索する文書検索手段と、 文書を分類する際に使用可能な複数の属性の種類の内
    の、指定された属性の種類のみが格納された分類属性記
    憶部と、 前記文書検索手段で検索された各文書に、前記分類属性
    記憶部に格納されている属性の種類の内の、どの属性の
    種類に属する属性要素が存在するのかを解析する属性解
    析手段と、 前記文書検索手段で検索された各文書を、前記属性解析
    手段の解析結果に基づいて、その文書が含有する属性要
    素の種類毎に分類する属性分類手段とを備えたことを特
    徴とする文書検索装置。
  8. 【請求項8】 請求項7記載の文書検索装置において、 文書を分類する際に使用可能な複数の属性の種類が格納
    された候補記憶部と、 該候補記憶部に格納されている属性の種類の内の、文書
    検索装置の管理者によって指定された属性の種類のみを
    前記分類属性記憶部に格納する分類属性選択手段とを備
    えたことを特徴とする文書検索装置。
  9. 【請求項9】 請求項8記載の文書検索装置において、 前記属性分類手段は、前記分類属性記憶部に格納されて
    いる属性の種類に属する属性要素を含有しない文書を、
    独立した範疇に分類する構成を有することを特徴とする
    文書検索装置。
  10. 【請求項10】 複数の文書が格納された文書記憶部
    と、 指定された条件に適合する文書を前記文書記憶部から検
    索する文書検索手段と、 文書を分類する際に使用可能な複数の属性の種類の内
    の、指定された属性の種類のみが格納された分類属性記
    憶部と、 前記文書検索手段が検索した各文書から、前記分類属性
    記憶部に格納されている属性の種類の内の、検索要求元
    のユーザによって指定された属性の種類に属する属性要
    素を抽出する属性要素抽出手段と、 前記文書検索手段が検索した各文書を、前記属性要素抽
    出手段の抽出結果に基づいて、文書が含有する属性要素
    毎に分類する属性要素分類手段とを備えたことを特徴と
    する文書検索装置。
  11. 【請求項11】 請求項10記載の文書検索装置におい
    て、 文書を分類する際に使用可能な複数の属性の種類が格納
    された候補記憶部と、 該候補記憶部に格納されている属性の種類の内の、文書
    検索装置の管理者によって指定された属性の種類のみを
    前記分類属性記憶部に格納する分類属性選択手段とを備
    えたことを特徴とする文書検索装置。
  12. 【請求項12】 請求項11記載の文書検索装置におい
    て、 前記属性要素分類手段は、前記ユーザによって指定され
    た属性の種類に属する属性要素を含有しない文書を、独
    立した範疇に分類する構成を有することを特徴とする文
    書検索装置。
  13. 【請求項13】 複数の文書が格納された文書記憶部
    と、 指定された条件に適合する文書を前記文書記憶部から検
    索する文書検索手段と、 文書を分類する際に使用可能な複数の属性の種類の内
    の、指定された属性の種類のみが格納された分類属性記
    憶部と、 前記文書検索手段が検索した各文書から、前記分類属性
    記憶部に格納されている属性の種類の内の、検索要求元
    のユーザによって指定された属性の種類に属する属性要
    素を抽出する属性要素抽出手段と、 各単語の上位概念に当たる単語を階層的に保持するシソ
    ーラス記憶部と、 前記文書検索手段で検索された各文書を、その文書が含
    有する前記属性要素抽出手段で抽出した属性要素に対す
    る上位概念に当たる単語であって、前記シソーラス記憶
    部において検索要求の要求元によって指定された階層レ
    ベルに存在する単語毎に分類する属性要素シソーラス分
    類手段とを備えたことを特徴とする文書検索装置。
  14. 【請求項14】 請求項13記載の文書検索装置におい
    て、 文書を分類する際に使用可能な複数の属性の種類が格納
    された候補記憶部と、 該候補記憶部に格納されている属性の種類の内の、文書
    検索装置の管理者によって指定された属性の種類のみを
    前記分類属性記憶部に格納する分類属性選択手段とを備
    えたことを特徴とする文書検索装置。
  15. 【請求項15】 請求項14記載の文書検索装置におい
    て、 前記属性要素シソーラス分類手段は、前記ユーザが指定
    した属性の種類に属する属性要素を含有しない文書を、
    独立した範疇に分類することを特徴とする文書検索装
    置。
  16. 【請求項16】 コンピュータに、 指定された条件に適合する文書を複数の文書から検索す
    る文書検索処理と、 文書を分類する際に使用可能な複数の属性の種類の中か
    ら、文書を分類する際に使用する属性の種類を選択して
    分類属性記憶部に格納する分類属性選択処理と、 前記検索した各文書に、前記分類属性記憶部に格納され
    ている属性の種類の内の、どの属性の種類に属する属性
    要素が存在するのかを解析する属性解析処理と、 その解析結果に基づいて、前記検索した各文を、その文
    書が含有する属性要素の種類毎に分類する属性分類処理
    とを実行させるためのプログラムを記録した機械読み取
    り可能な記録媒体。
  17. 【請求項17】 コンピュータに、 指定された条件に適合する文書を複数の文書から検索す
    る文書検索処理と、 文書を分類する際に使用可能な複数の属性の種類の中か
    ら、文書を分類する際に使用する属性の種類を選択して
    分類属性記憶部に格納する分類属性選択処理と、 前記検索した各文書から、前記分類属性記憶部に格納さ
    れている属性の種類の内の、検索要求元のユーザによっ
    て指定された属性の種類に属する属性要素を抽出する属
    性要素抽出処理と、 その抽出結果に基づいて、前記検索した各文書を、その
    文書が含有する属性要素毎に分類する属性要素分類処理
    とを実行させるためのプログラムを記録した機械読み取
    り可能な記録媒体。
  18. 【請求項18】 コンピュータに、 指定された条件に適合する文書を複数の文書から検索す
    る文書検索処理と、 文書を分類する際に使用可能な複数の属性の種類の中か
    ら、文書を分類する際に使用する属性の種類を選択して
    分類属性記憶部に格納する分類属性選択処理と、 前記検索した各文書から、前記分類属性記憶部に格納さ
    れている属性の種類の内の、検索要求元のユーザによっ
    て指定された属性の種類に属する属性要素を抽出する属
    性要素抽出処理と、 前記検索した各文書を、その文書が含有する前記抽出し
    た属性要素に対する上位概念に当たる単語であって、各
    単語の上位概念に当たる単語を階層的に保持するシソー
    ラスにおいて検索要求元のユーザによって指定された階
    層レベルに存在する単語毎に分類する属性要素シソーラ
    ス分類処理とを実行させるためのプログラムを記録した
    機械読み取り可能な記録媒体。
JP11156423A 1999-06-03 1999-06-03 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 Pending JP2000348041A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11156423A JP2000348041A (ja) 1999-06-03 1999-06-03 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
US09/587,358 US6505195B1 (en) 1999-06-03 2000-06-02 Classification of retrievable documents according to types of attribute elements

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11156423A JP2000348041A (ja) 1999-06-03 1999-06-03 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2000348041A true JP2000348041A (ja) 2000-12-15

Family

ID=15627435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11156423A Pending JP2000348041A (ja) 1999-06-03 1999-06-03 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US6505195B1 (ja)
JP (1) JP2000348041A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288220A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書分類装置、文書分類方法ならびに、プログラム
JP2008527505A (ja) * 2004-12-30 2008-07-24 グーグル インコーポレイテッド 信頼性のある文書の識別
WO2009004930A1 (ja) * 2007-07-02 2009-01-08 Nec Corporation 検索システム、検索方法およびプログラム
JP2009093646A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 検索結果のインテリジェント分類のための方法、ソフトウェア及び装置
JP2009134378A (ja) * 2007-11-29 2009-06-18 Hitachi Systems & Services Ltd 文書群提示装置および文書群提示プログラム
WO2017158812A1 (ja) * 2016-03-18 2017-09-21 株式会社日立製作所 データ分類方法及びデータ分類装置

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3494590B2 (ja) * 1999-06-18 2004-02-09 富士通株式会社 送受信システムおよび送信装置
JP2001202466A (ja) * 2000-01-18 2001-07-27 Hitachi Ltd 帳票種別判別装置
JP2002132663A (ja) * 2000-10-20 2002-05-10 Nec Corp 情報通信システムとその通信方法、及び通信プログラムを記録した記録媒体
US20020087532A1 (en) * 2000-12-29 2002-07-04 Steven Barritz Cooperative, interactive, heuristic system for the creation and ongoing modification of categorization systems
US7197506B2 (en) * 2001-04-06 2007-03-27 Renar Company, Llc Collection management system
US7885987B1 (en) * 2001-08-28 2011-02-08 Lee Eugene M Computer-implemented method and system for managing attributes of intellectual property documents, optionally including organization thereof
DE10235548B4 (de) * 2002-03-25 2012-06-28 Agere Systems Guardian Corp. Verfahren und Vorrichtung für die Prädiktion einer Textnachrichteneingabe
GB0316806D0 (en) * 2003-07-17 2003-08-20 Ivis Group Ltd Improved search engine
US7769759B1 (en) * 2003-08-28 2010-08-03 Biz360, Inc. Data classification based on point-of-view dependency
US7162692B2 (en) * 2003-12-11 2007-01-09 International Business Machines Corporation Differential dynamic content delivery
US9378187B2 (en) * 2003-12-11 2016-06-28 International Business Machines Corporation Creating a presentation document
US20050132271A1 (en) * 2003-12-11 2005-06-16 International Business Machines Corporation Creating a session document from a presentation document
US20050132274A1 (en) * 2003-12-11 2005-06-16 International Business Machine Corporation Creating a presentation document
US20050132273A1 (en) * 2003-12-11 2005-06-16 International Business Machines Corporation Amending a session document during a presentation
US7890848B2 (en) 2004-01-13 2011-02-15 International Business Machines Corporation Differential dynamic content delivery with alternative content presentation
US7571380B2 (en) * 2004-01-13 2009-08-04 International Business Machines Corporation Differential dynamic content delivery with a presenter-alterable session copy of a user profile
US7430707B2 (en) 2004-01-13 2008-09-30 International Business Machines Corporation Differential dynamic content delivery with device controlling action
US8499232B2 (en) * 2004-01-13 2013-07-30 International Business Machines Corporation Differential dynamic content delivery with a participant alterable session copy of a user profile
FR2868036B1 (fr) * 2004-03-24 2006-06-02 Eca Societe Par Actions Simpli Dispositif de mise a l'eau et de recuperation d'un vehicule submersible
US7519683B2 (en) * 2004-04-26 2009-04-14 International Business Machines Corporation Dynamic media content for collaborators with client locations in dynamic client contexts
US7827239B2 (en) * 2004-04-26 2010-11-02 International Business Machines Corporation Dynamic media content for collaborators with client environment information in dynamic client contexts
US8185814B2 (en) * 2004-07-08 2012-05-22 International Business Machines Corporation Differential dynamic delivery of content according to user expressions of interest
US7519904B2 (en) * 2004-07-08 2009-04-14 International Business Machines Corporation Differential dynamic delivery of content to users not in attendance at a presentation
US7921362B2 (en) * 2004-07-08 2011-04-05 International Business Machines Corporation Differential dynamic delivery of presentation previews
US7487208B2 (en) * 2004-07-08 2009-02-03 International Business Machines Corporation Differential dynamic content delivery to alternate display device locations
US9167087B2 (en) 2004-07-13 2015-10-20 International Business Machines Corporation Dynamic media content for collaborators including disparate location representations
US7426538B2 (en) 2004-07-13 2008-09-16 International Business Machines Corporation Dynamic media content for collaborators with VOIP support for client communications
US7475340B2 (en) * 2005-03-24 2009-01-06 International Business Machines Corporation Differential dynamic content delivery with indications of interest from non-participants
US7493556B2 (en) * 2005-03-31 2009-02-17 International Business Machines Corporation Differential dynamic content delivery with a session document recreated in dependence upon an interest of an identified user participant
US20060248456A1 (en) * 2005-05-02 2006-11-02 Ibm Corporation Assigning a publication date for at least one electronic document
JP4647442B2 (ja) * 2005-09-14 2011-03-09 独立行政法人情報通信研究機構 データ表示装置、データ表示方法およびデータ表示プログラム
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US7747495B2 (en) * 2005-10-24 2010-06-29 Capsilon Corporation Business method using the automated processing of paper and unstructured electronic documents
JP2007133808A (ja) * 2005-11-14 2007-05-31 Canon Inc 情報処理装置、コンテンツ処理方法、記憶媒体およびプログラム
US7529748B2 (en) * 2005-11-15 2009-05-05 Ji-Rong Wen Information classification paradigm
US7971137B2 (en) * 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
US20080021900A1 (en) * 2006-07-14 2008-01-24 Ficus Enterprises, Llc Examiner information system
EP1927936B1 (en) * 2006-11-29 2016-08-17 Brother Kogyo Kabushiki Kaisha Image scanning device
US8082248B2 (en) * 2008-05-29 2011-12-20 Rania Abouyounes Method and system for document classification based on document structure and written style
US8918369B2 (en) * 2008-06-05 2014-12-23 Craze, Inc. Method and system for classification of venue by analyzing data from venue website
US8650198B2 (en) * 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
JP5389130B2 (ja) * 2011-09-15 2014-01-15 株式会社東芝 文書分類装置、方法およびプログラム
US9542391B1 (en) 2013-11-11 2017-01-10 Amazon Technologies, Inc. Processing service requests for non-transactional databases
US10599753B1 (en) 2013-11-11 2020-03-24 Amazon Technologies, Inc. Document version control in collaborative environment
US10540404B1 (en) * 2014-02-07 2020-01-21 Amazon Technologies, Inc. Forming a document collection in a document management and collaboration system
US11336648B2 (en) 2013-11-11 2022-05-17 Amazon Technologies, Inc. Document management and collaboration system
US10691877B1 (en) 2014-02-07 2020-06-23 Amazon Technologies, Inc. Homogenous insertion of interactions into documents
US9807073B1 (en) 2014-09-29 2017-10-31 Amazon Technologies, Inc. Access to documents in a document management and collaboration system
JP6511954B2 (ja) 2015-05-15 2019-05-15 富士ゼロックス株式会社 情報処理装置及びプログラム
US10162850B1 (en) * 2018-04-10 2018-12-25 Icertis, Inc. Clause discovery for validation of documents
US10936974B2 (en) 2018-12-24 2021-03-02 Icertis, Inc. Automated training and selection of models for document analysis
US10726374B1 (en) 2019-02-19 2020-07-28 Icertis, Inc. Risk prediction based on automated analysis of documents
CN112631525A (zh) * 2020-12-30 2021-04-09 安徽鸿程光电有限公司 存储及显示方法、装置、设备及介质
US11361034B1 (en) 2021-11-30 2022-06-14 Icertis, Inc. Representing documents using document keys

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319905A (ja) * 1994-05-25 1995-12-08 Fujitsu Ltd 情報検索装置
JPH10283366A (ja) * 1997-04-09 1998-10-23 Matsushita Electric Ind Co Ltd 情報分類装置
JPH10289236A (ja) * 1997-04-11 1998-10-27 Matsushita Electric Ind Co Ltd 情報受信表示方法およびその装置
JPH10320441A (ja) * 1997-05-21 1998-12-04 Hitachi Ltd 構造最適化システム
JPH10320411A (ja) * 1997-05-21 1998-12-04 N Ii C Joho Syst:Kk 文書分類装置、方法及び文書分類プログラムを記録した記録媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04190423A (ja) 1990-11-26 1992-07-08 Fujitsu Ltd 機能別ポインタを用いた情報管理支援装置
JPH08235160A (ja) 1995-02-22 1996-09-13 Canon Inc 文書検索方法及び装置
JPH09231238A (ja) 1996-02-20 1997-09-05 Omron Corp テキスト検索結果表示方法及び装置
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
DE69712835T2 (de) 1996-07-18 2002-09-19 Matsushita Electric Industrial Co., Ltd. Gerät zur Unterstützung des Wiederauffindens von Daten
JP4084445B2 (ja) 1996-07-18 2008-04-30 松下電器産業株式会社 データ検索支援装置、データ検索支援方法及びプログラムを記憶した媒体
JP3001047B2 (ja) 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6393427B1 (en) * 1999-03-22 2002-05-21 Nec Usa, Inc. Personalized navigation trees

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319905A (ja) * 1994-05-25 1995-12-08 Fujitsu Ltd 情報検索装置
JPH10283366A (ja) * 1997-04-09 1998-10-23 Matsushita Electric Ind Co Ltd 情報分類装置
JPH10289236A (ja) * 1997-04-11 1998-10-27 Matsushita Electric Ind Co Ltd 情報受信表示方法およびその装置
JPH10320441A (ja) * 1997-05-21 1998-12-04 Hitachi Ltd 構造最適化システム
JPH10320411A (ja) * 1997-05-21 1998-12-04 N Ii C Joho Syst:Kk 文書分類装置、方法及び文書分類プログラムを記録した記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288220A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書分類装置、文書分類方法ならびに、プログラム
JP2008527505A (ja) * 2004-12-30 2008-07-24 グーグル インコーポレイテッド 信頼性のある文書の識別
JP4708436B2 (ja) * 2004-12-30 2011-06-22 グーグル インコーポレイテッド 信頼性のある文書の識別
US8650197B2 (en) 2004-12-30 2014-02-11 Google Inc. Authoritative document identification
WO2009004930A1 (ja) * 2007-07-02 2009-01-08 Nec Corporation 検索システム、検索方法およびプログラム
JP2009093646A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 検索結果のインテリジェント分類のための方法、ソフトウェア及び装置
JP2009134378A (ja) * 2007-11-29 2009-06-18 Hitachi Systems & Services Ltd 文書群提示装置および文書群提示プログラム
WO2017158812A1 (ja) * 2016-03-18 2017-09-21 株式会社日立製作所 データ分類方法及びデータ分類装置
JPWO2017158812A1 (ja) * 2016-03-18 2018-06-07 株式会社日立製作所 データ分類方法及びデータ分類装置

Also Published As

Publication number Publication date
US6505195B1 (en) 2003-01-07

Similar Documents

Publication Publication Date Title
JP2000348041A (ja) 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
US6523025B1 (en) Document processing system and recording medium
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
US7912868B2 (en) Advertisement placement method and system using semantic analysis
US20020099685A1 (en) Document retrieval system; method of document retrieval; and search server
JP5249074B2 (ja) 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
WO2011105606A1 (ja) 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体
JP2005182817A (ja) クエリレコグナイザ
US20090204588A1 (en) Method and apparatus for determining key attribute items
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP2003518664A (ja) パーソナライズされた結果セットを構成する方法およびシステム
US8359307B2 (en) Method and apparatus for building sales tools by mining data from websites
US9552415B2 (en) Category classification processing device and method
JPH09101991A (ja) 情報フィルタリング装置
EP1556788A2 (en) Intelligent classification system
JP4962980B2 (ja) クリックログを用いた検索結果分類装置及び方法
JPWO2003042869A1 (ja) 情報検索支援装置、コンピュータプログラム、プログラム格納媒体
JPWO2003060764A1 (ja) 情報検索システム
Sanderson et al. Nrt-news retrieval tool
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
JP2000339330A (ja) 座標付きホームページ情報収集提供方法、記録媒体及び装置
JP2002041572A (ja) インターネット版企業・店舗情報提供サービス方法
JP2002014994A (ja) ウェブページ属性管理装置およびウェブページ属性管理方法
JP2007148741A (ja) Web検索支援サーバ
KR100312430B1 (ko) 인터넷 쇼핑몰 상품정보 학습 시스템 및 그 방법