JP2001014326A - 構造指定による類似文書の検索装置及び検索方法 - Google Patents

構造指定による類似文書の検索装置及び検索方法

Info

Publication number
JP2001014326A
JP2001014326A JP11183349A JP18334999A JP2001014326A JP 2001014326 A JP2001014326 A JP 2001014326A JP 11183349 A JP11183349 A JP 11183349A JP 18334999 A JP18334999 A JP 18334999A JP 2001014326 A JP2001014326 A JP 2001014326A
Authority
JP
Japan
Prior art keywords
document
similarity
specified
seed
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11183349A
Other languages
English (en)
Inventor
Tadataka Matsubayashi
忠孝 松林
Katsumi Tada
勝己 多田
Natsuko Sugaya
菅谷  奈津子
Yasuhiko Inaba
靖彦 稲場
Akihiko Yamaguchi
明彦 山口
Yosuke Gochi
陽介 後地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11183349A priority Critical patent/JP2001014326A/ja
Publication of JP2001014326A publication Critical patent/JP2001014326A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 種文書に類似する文書を検索するに際して、
検索条件に検索対象構造の指定を付加し、もって検索精
度の向上を図る。 【解決手段】 検索条件式解析プログラム130は、検
索条件として種文書の指定と検索対象構造の入力を受け
る。特徴文字列抽出プログラム150は、指定された種
文書のテキストから特徴文字列を抽出する。検索対象構
造ID取得プログラム151は、指定された構造をその
IDに変換する。類似度算出プログラム152は、出現
頻度ファイル181を検索して特徴文字列と構造IDが
一致する文書の出現頻度を取得し、類似文書の種文書を
基とする類似度を計算する。検索結果出力プログラム1
32は、検索結果の類似文書の識別子とその類似度を表
示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索条件として指
定された文書(種文書)に類似する文書を検索する装置
及び方法に係わり、特に構造化文書の構造を対象として
検索を行う装置及び方法に関する。
【0002】
【従来の技術】近年、パーソナルコンピュータやインタ
ーネット等の普及に伴い、データベースに蓄積される電
子化文書の数が増大しており、膨大な電子化文書の中か
らユーザが所望する情報を含んだ文書を検索精度よく、
高速かつ効率的に検索したいという要求が高まってい
る。
【0003】このような要求に対して種々の検索技術が
提案されている。例えば特開平10−240752号公
報によれば、文書を構成する個々の論理的な構造要素が
識別できる文書(以下、構造化文書と呼ぶ)を対象とし
て、論理構造に関する条件を検索条件中に付加した検索
を行うことにより、精度の高い検索を行うことができ
る。
【0004】また特開平11−143902号公報は、
ユーザが自分の所望する内容の文書あるいは文章(以
下、種文書と呼ぶ)を指定し、その文書と類似する文書
を検索する類似文書検索技術を開示する。この技術によ
れば、サンプル文書を示すだけで目的の文書を簡単に検
索でき、ユーザが複雑な検索条件式を考えたり入力する
手間が省け、効率的な検索ができる。
【0005】
【発明が解決しようとする課題】上記の特開平11−1
43902号公報の技術によれば、ユーザは使い勝手が
よく効率的な検索ができるが、以下に例示するように検
索精度の問題を残している。
【0006】図3は、従来の類似文書検索システムの処
理手順を示す図である。検索条件取得プログラムは、検
索条件を入力するためのガイダンス画面を表示装置上に
表示する。例えば種文書を含む複数の候補文書の文書番
号や見出しなどの一覧情報を表示する。検索条件として
種文書が指定されると、特徴n−gram抽出プログラ
ムが起動され、文書ファイルから種文書のテキスト全文
を取り出し、テキスト中から特徴文字列を抽出する。次
に類似度算出プログラムが起動され、特徴文字列に対応
して文書番号とその特徴文字列の出現回数が登録してあ
る出現頻度ファイルを参照し、種文書の特徴文字列に基
づいて同じ特徴文字列を使用する関連文書の種文書に対
する類似度を算出して候補文書の文書番号、類似度、見
出しなどの一覧情報を検索結果として表示する。
【0007】図3の検索結果によれば、種文書とよく類
似する文書は文書4であるにもかかわらず、特徴文字列
の出現頻度がより高いために関連の薄い文書1の類似度
がより高くなり、優先的に表示されるという問題があ
る。
【0008】本発明の目的は、複雑な検索条件の入力を
避けるが検索精度のよい類似文書の検索装置及び検索方
法を提供することにある。
【0009】
【課題を解決するための手段】本発明は、計算機を利用
して種文書に類似する構造化文書を検索する方法であっ
て、類似度計算の検索条件として種文書と構造化文書に
属する少なくとも1つの構造の指定を受けるステップ
と、類似度計算の後、類似度のより高い対象文書を優先
して表示するステップとを有する構造指定による類似文
書の検索方法を特徴とする。
【0010】また本発明は、構造化された種文書に類似
する文書を検索する方法であって、種文書とその種文書
に属する少なくとも1つの構造の指定を受けるステップ
と、類似度計算の後、類似度のより高い対象文書を優先
して表示するステップとを有する構造指定による類似文
書の検索方法を特徴とする。
【0011】さらに本発明は、上記の機能を備える検索
装置を特徴とする。
【0012】なおここで構造を指定するとは、文書を構
成する論理的な構造要素の名称を指定することを意味す
る。
【0013】
【発明の実施の形態】以下、本発明の実施形態について
図面を用いて説明する。
【0014】図1は、第1の実施形態の類似文書検索シ
ステムの構成図である。本システムを実現する計算機ハ
ードウェアは、表示装置100、入力装置101、中央
処理装置(CPU)102、外部記憶装置103、フロ
ッピィディスクドライブ(FDD)104、主メモリ1
06とこれら装置間を接続するバス107から構成され
る。
【0015】外部記憶装置103は、テキスト180、
出現頻度ファイル181及び構造インデクス182を格
納する。テキスト180は、構造化文書ファイルあるい
は構造化されていない文書ファイルの集合を格納する。
ここで構造化文書とは、SGML,XMLなどの標準形
式に準拠した論理構造をもつ文書、あるいは各論理構造
ごとに抽出された複数のフラットテキストから構成され
るものである。FDD104を介してフロッピィディス
ク105に格納されている文書が主メモリ106を経由
してテキスト180に登録される。
【0016】主メモリ106に格納されるシステム制御
プログラム110は、オペレーティングシステム、グラ
フィカル・ユーザインタフェースを提供するプログラム
などを含む。文書登録制御プログラム111は、文書登
録用のプログラムの実行を制御する。登録プログラムに
は、テキスト登録プログラム120、出現頻度計数プロ
グラム140を含む出現頻度ファイル作成プログラム1
21及び構造インデクス作成プログラム122がある。
テキスト登録プログラム120は、フロッピィディスク
105上の文書をテキスト180に登録するプログラム
である。
【0017】検索制御プログラム112は、類似文書の
検索に係わるプログラムの実行を制御するプログラムで
ある。検索用のプログラムには、検索条件式解析プログ
ラム130、類似文書検索プログラム131及び検索結
果出力プログラム132がある。類似文書検索プログラ
ム131には、特徴文字列抽出プログラム150、検索
対象構造ID取得プログラム151及び類似度算出プロ
グラム152が含まれる。これら検索用プログラムの機
能については、以下の検索処理手順の説明の中で説明す
る。検索制御プログラム112及び検索用プログラムを
記憶媒体に格納し、駆動装置を介して主メモリ106に
読み込み、CPU102によって実行することが可能で
ある。
【0018】主メモリ106中に格納される共有ライブ
ラリ160として、構造化文書解析プログラム170が
ある。またワークエリア161は、テキスト180、出
現頻度ファイル181、構造インデクス182から読み
込んだデータ等の一時記憶領域や作業用領域として使用
される領域である。
【0019】出現頻度ファイル181は、図2の一部に
示すように文字列又は単語に対応して、文書番号、その
文字列が含まれる論理構造のID及びその論理構造中の
出現回数を格納する。出現頻度ファイル181に登録さ
れる対象文書は、構造化文書または構造化していない文
書である。出現頻度ファイル作成プログラム121は、
テキスト180中の文書を1つずつ読み込み、テキスト
中から特徴文字列を抽出し、出現頻度計数プログラム1
40によって各論理構造ごとの特徴文字列の出現回数を
計数し、出現頻度ファイル181を作成して外部記憶装
置103に登録する。構造化していない文書について
は、論理構造の区分が指定されると、その指定に従って
特徴文字列と論理構造IDとを対応づける。例えば特開
平11−143902号公報は出現頻度ファイル作成プ
ログラムの処理手順を開示する。
【0020】構造インデクス182は、図2の一部に示
すように論理構造とそのIDの対応関係を格納する。構
造インデクス作成プログラム122は、構造化文書解析
プログラム170を呼び出し、テキスト180から読み
込んだ文書テキストの論理構造を解析して各論理構造に
IDを付与して外部記憶装置103に登録する。例えば
特開平10−240752号公報は、構造インデクス作
成プログラムの処理手順を開示する。
【0021】図2は、第1の実施形態の処理手順を示す
図である。第1の実施形態では、種文書が構造化されて
いない文書、検索対象文書が出現頻度ファイル181に
登録済みの文書(構造化文書又は構造化されていない文
書)とする。検索条件式解析プログラム130は、表示
装置100上にガイダンス画面を表示し、検索条件式の
入力を受け付ける。
【0022】ここで検索条件式は、種文書及び少なくと
も1つの検索対象構造である。種文書はすでに見出し等
が表示された複数の文書候補のうちの1つを選択するこ
とが可能であるし、入力装置101から直接入力するこ
とも可能であるし、FDD104やCD−ROM装置
(図には示していない)、ネットワーク(図には示して
いない)等を介して入力することも可能である。
【0023】さらに図12に示すように、表示装置10
0に種文書入力用領域1200、検索対象構造入力用領
域1201および検索実行ボタン1202を備えた画面
インタフェースを介して検索条件式が入力されるものと
してもよい。種文書入力用領域1200には、入力装置
101より種文書を直接入力することも可能であるし、
あるいは検索結果表示画面(図には示していない)上の
テキストを種文書入力用領域1200にコピーすること
も可能である。あるいは種文書はこのようなテキストの
うちの指示された部分であってもよい。
【0024】また検索対象構造は、表示されるドロップ
ダウンメニューから少なくとも1つを選択することが可
能である。複数の検索対象構造が指定された場合の検索
条件では、各構造に対して重みを付与することが可能で
ある。ここで重みは、重み入力用領域(図には示してい
ない)を介して入力されるものでもよいし、システム定
義ファイル(図には示していない)で定義されるものと
してもよい。
【0025】入力装置101を介して種文書及び検索対
象構造が入力されると、検索条件式解析プログラム13
0は指定された検索条件から種文書のテキストを取得す
る。なお検索対象とする構造を指定する代わりに、検索
対象としない構造(検索対象から除外する構造)を指定
してもよい。その場合には、検索条件式解析プログラム
130は、残りの構造を検索対象構造とする。また検索
対象構造を検索条件式の1つとして入力装置101を介
して入力する代わりにあらかじめシステム定義ファイル
(図には示していない)に設定された検索対象構造を用
いてもよい。
【0026】検索対象構造ID取得プログラム151
は、構造インデクス182を参照して指定された構造に
対応する識別子を検索対象構造IDとして取得する。ま
た特徴文字列抽出プログラム150は、テキスト180
から指定された種文書のテキスト全文を取り出し、特徴
文字列を抽出し、抽出した特徴文字列の出現回数を計数
する。特徴文字列の抽出方法としては、例えば特開平1
1−143902号公報に記載された方法を用いること
ができる。図2の例では抽出した特徴文字列のうち優先
度の高いものを採用している。あるいは文書テキストか
ら単語を切り出し、単語辞書(図には示していない)を
参照して登録された単語との一致をチェックしながら単
語を抽出してもよい。
【0027】次に類似度算出プログラム152は、出現
頻度ファイル181を参照して抽出された各特徴文字列
又は単語と検索対象構造IDが一致する文書の文書番号
とその出現頻度を取得する。次に出現頻度ファイル18
1を参照して取得した各文書の検索対象構造IDについ
て抽出された特徴文字列又は単語以外の他の文字列又は
単語の出現頻度を取得し、各文書ごとに種文書との類似
度を算出する。類似度算出方法としては、例えば特開平
11−143902号公報に記載の数式1を用いること
ができる。あるいは種文書の各特徴文字列(単語)の正
規化された出現ウェイトを要素とする特徴ベクトルと取
得した各文書の特徴ベクトルを求め、種文書と他文書の
特徴ベクトルの内積によって各文書の類似度を計算して
もよい。
【0028】最後に検索結果出力プログラム132は、
取得した文書を類似度の高い順に並べ替え、類似度の高
い順に従って表示の優先度を決定し、優先度の高い文書
から順に文書番号とその類似度を表示装置100上に表
示する。ファイル(図には示していない)を参照して各
文書の見出し、概要などの書誌事項を取得して併せて表
示してもよい。類似文書との比較のために種文書の文書
番号、類似度、見出しなどを併せて表示することも可能
である。
【0029】なお複数の検索対象構造が指定された場合
に、各文書の類似度を算出するに際して、各検索対象構
造の類似度を全体に亘って累積する累積値を求め、文書
をこの類似度の累積値の大きい順に並べ替えてもよい。
ここで累積値とは、各検索対象構造ごとの類似度の総
和、2乗和の平方根を求めたものなどである。あるいは
各文書について複数の検索対象構造の各類似度のうち最
も高い類似度を採用し、文書をこの採用した類似度の大
きい順に並べ替えてもよい。例えば特許明細書中の[請
求項n]のように文書中に同一種類の論理構造が繰り返
し出現する場合に、各論理構造ごとに類似度を算出し、
その中で最も高い類似度を採用して種文書の類似度と比
較すると、同一種類の論理構造の順番には無関係に内容
の類似度の高い論理構造同志の比較をすることができ
る。また類似度の累積値を求めるモードと、最も高い類
似度を採用するモードの両方を設け、検索条件の1つと
していずれかのモードを選択できるようにしてもよい
し、あらかじめシステム定義ファイル(図には示してい
ない)に選択するモードを設定できるようにしてもよ
い。
【0030】図4は、第2の実施形態の類似文書検索プ
ログラム131aの構成を示す図である。第2の実施形
態では、特徴文字列抽出プログラム150aに種文書構
造解析プログラム400が加わっている。種文書構造解
析プログラム400は、共有ライブラリ160に格納さ
れている構造化文書解析プログラム170を呼び出す構
成をとる。また類似度算出プログラム152aに対応構
造判定プログラム401が加わっている。
【0031】図5は、第2の実施形態の処理手順を示す
図である。第2の実施形態では種文書が構造化文書、検
索対象文書が出現頻度ファイル181に登録済みの文書
(構造化文書又は構造化されていない文書)とする。第
2の実施形態の検索条件は種文書及び種文書に属する少
なくとも1つの構造である。入力装置101を介して種
文書及び構造が入力されると、検索条件式解析プログラ
ム130は指定された検索条件から種文書のテキストを
取得する。検索条件で指定された種文書の論理構造と検
索対象文書の論理構造が一致するものとする。なお検索
対象とする構造を指定する代わりに、検索対象としない
構造(検索対象から除外する構造)を指定してもよい。
その場合には、検索条件式解析プログラム130は、種
文書に属する残りの構造を検索対象構造とする。第1の
実施形態と同様に検索対象構造をあらかじめシステム定
義ファイルに設定しておいてもよい。
【0032】次に種文書構造解析プログラム400は、
テキスト180から種文書のテキストを取り出し、種文
書の構造を解析して指定された構造に関する本文テキス
トのみを抽出する。種文書のテキストに指定された構造
が含まれていないときにはエラーとする。文書の構造解
析の方法としては、例えば特開平10−240752号
公報に文書構造解析プログラムの処理手順として記載さ
れている。次に検索対象構造ID取得プログラム151
は、構造インデクス182を参照して指定された構造に
対応する検索対象構造IDを取得する。また特徴文字列
抽出プログラム150aは、抽出されたテキストの特徴
文字列(単語)を抽出し、抽出した特徴文字列の出現回
数を計数する。なお種文書について、すでに各構造の特
徴文字列が抽出され、その構造ごとの出現回数が計数さ
れており、出現頻度ファイル181のように登録されて
いるのであれば、そのファイルを参照して指定された構
造、特徴文字列と出現回数を抽出するだけでよい。この
場合には種文書構造解析プログラム400及び特徴文字
列抽出プログラム150aの処理をスキップできる。
【0033】次に類似度算出プログラム152aは、第
1の実施形態と同様に出現頻度ファイル181を参照し
て抽出された各特徴文字列(単語)と検索対象構造ID
が一致する文書の文書番号を取得し、各文書ごとに種文
書との類似度を算出する。この際に対応構造判定プログ
ラム401は、種文書の構造と、出現頻度ファイル18
1から取得された文書の構造IDとの対応をとり、特徴
文字列を検索対象構造ごとのグループに分け、検索対象
構造ごとの類似度を算出する。複数の検索対象構造が指
定された場合に、各文書の最終的な類似度を算出する方
法は第1の実施形態と同様である。最後に検索結果出力
プログラム132は、取得した文書を算出した類似度の
高い順に並べ替えてその文書番号、類似度、見出し等を
表示装置100上に表示する。
【0034】なお上記の第2の実施形態の説明では、指
定された種文書の構造と検索対象構造とが一致するもの
としたが、両者が別の論理構造であってもよい。すなわ
ち種文書の構造が指定され、これとは別の検索対象構造
が指定された場合、種文書構造解析プログラム400及
び特徴文字列抽出プログラム150aは、指定された種
文書の構造に注目して特徴文字列を抽出し、類似度算出
プログラム152aは指定された検索対象構造のIDに
注目して検索対象文書を検索する。また対応構造判定プ
ログラム401は、指定された種文書の構造と指定され
た検索対象構造が同一グループとみなして対応づけをす
る。例えば薬の効能書の[副作用]を特徴文字列を抽出
するときの対象構造とし、[効能]を検索対象文書の類
似度を計算するときの検索対象構造とすることにより、
種文書に記載の薬のもつ副作用を抑える薬について記載
された文書を探し出すことが可能となる。
【0035】図6は、第2の実施形態の問題点を説明す
る図である。この例では種文書に関する構造として[効
能][副作用][使用上の注意]が指定され、これらの
構造が検索対象構造とみなされ、検索が実行されてい
る。その結果”服用””自動車””運転”など薬の効能
書にとって重要度が小さいか無意味な特徴文字列が抽出
され、これらの特徴文字列を含む特徴文字列に基づく類
似度算出の結果として、文書2、文書3などあまり重要
でない文書の類似度が無視できない程の値を示し、検索
結果として文書2、文書3などが挙がったことを示して
いる。
【0036】図7は、第3の実施形態の類似文書検索プ
ログラム131bの構成を示す図である。第3の実施形
態では、特徴文字列抽出プログラム150bにさらに構
造重みプログラム600が加わっている。
【0037】図8は、第3の実施形態の処理手順を示す
図である。第3の実施形態は、特徴文字列抽出プログラ
ム150aが抽出した特徴文字列に対して構造重みプロ
グラム600を適用する以外は第2の実施形態の処理と
同じである。構造重みプログラム600は、論理構造ご
とに重要度が設定してあるシステム定義ファイルを参照
して、各論理構造ごとにその重要度に応じて抽出した特
徴文字列の中から検索用として採用する特徴文字列の数
を決定する。例えば「重要」の構造は抽出されたすべて
の特徴文字列を採用し、「普通」の構造は抽出された特
徴文字列の重要度に従って一部の特徴文字列のみを採用
する。あるいは各論理構造ごとに採用する特徴文字列の
数をシステム定義ファイルに設定し、抽出された特徴文
字列からその重要度が上位の所定数の特徴文字列を採用
してもよい。また所定の文字種からそれぞれ所定数を採
用するようにしてもよい。特徴文字列の重要度を算出す
る方法としては、例えば特開平11−143902号公
報は数式2として特徴文字列の重要度の算出式を挙げて
いる。なお各論理構造の重要度や特徴文字列の採用個数
をシステム定義ファイルに設定する代わりに、検索条件
式の一部として入力装置101を介して指定してもよ
い。なお論理構造の重要度あるいは特徴文字列の重要度
により採用する特徴文字列を決定する方式は、上記の第
1の実施形態にも適用可能である。
【0038】以上のようにして特徴文字列を絞り込んだ
上で類似度算出プログラム152a及び対応構造判定プ
ログラム401を適用すると、検索結果から重要度の少
ない文書を排除することができる。また第1、第2の実
施形態に比べて特徴文字列の数が削減されることになる
ので、出現頻度ファイル181を検索する際の検索時間
を短縮できる。
【0039】図9は、第4の実施形態の検索結果表示プ
ログラム132aの構成を示す図である。第4の実施形
態では、検索結果表示プログラム132aに構造別表示
方法取得プログラム700が加わっている。
【0040】図10は、第4の実施形態の処理手順を示
す図である。第4の実施形態は、検索結果表示プログラ
ム132aの処理を除いては第1〜第3の実施形態の処
理と同じである。構造別表示方法取得プログラム700
は、類似度算出プログラム152aの処理結果として挙
げられた文書について検索対象構造別の類似度を表示す
る。また検索対象構造ごとに抽出された特徴文字列を強
調表示する。
【0041】図11は、構造別表示方法取得プログラム
700の処理手順を示すPAD図である。構造別表示方
法取得プログラム700は、特徴文字列抽出プログラム
150aにより抽出された各構造ごとの特徴文字列をそ
れぞれワークエリア161に格納する(ステップ70
1)。次に類似度算出プログラム152aにより算出さ
れた各構造ごとの類似度をワークエリア161に格納す
る(ステップ702)。次に検索された各文書の指定さ
れたすべての構造について以下の処理を繰り返す(ステ
ップ703)。まずワークエリア161に格納された当
該構造の類似度を取得し表示する(ステップ704)。
次にワークエリア161に格納された当該構造の特徴文
字列を取得し、強調表示する(ステップ705)。なお
この実施形態では各論理構造ごとに類似度と特徴文字列
の強調表示とを行うものとしたが、いずれか一方のみを
行ってもよい。また検索結果の表示条件をシステム定義
ファイル上に設定してもよいし、検索条件式の一部とし
て指定してもよい。
【0042】なお種文書及び検索結果として挙げられた
類似文書について、各々文書番号に対応して見出し、概
要などを表示し、これらのテキストに含まれ、採用され
た特徴文字列を強調表示してもよい。このように表示す
ると、類似文書に含まれる特徴文字列を種文書に含まれ
る特徴文字列と比較することができる。
【0043】なお上記実施形態で使用した出現頻度ファ
イル181の代わりに特開平11−143902号公報
のn−gramインデクスを用いてもよい。すなわち特
開平11−143902号公報と特開平10−2407
52号公報の構造化された文字列インデックスを組み合
わせると、出現頻度ファイル181に代わるファイルを
構成可能である。同一文字列についての1つ以上の出現
位置はその文字列の出現回数をも示している。
【0044】なお上記第1〜第4の実施形態では種文書
として1つの文書が指定されるものとしたが、複数の種
文書を指定できるものとしてもよい。ここで特徴文字列
としては、それぞれの種文書から抽出された特徴文字列
をすべて用いるものとしてもよいし、それぞれの種文書
に共通して含まれる特徴文字列を用いるものとしてもよ
い。
【0045】
【発明の効果】以上述べたように本発明によれば、類似
文書検索の検索条件として論理構造の指定を付加するの
で、類似文書検索の利点を最大限に生かしながら検索精
度を高めることができる。なお複数の検索対象構造が指
定される場合に、あらかじめ設定された論理構造の重要
度または特徴文字列の重要度に応じて関連の薄い特徴文
字列を排除でき、さらに検索精度を高めることができ
る。また種文書は、構造化文書と構造化していない文書
のいずれも可能であり、ユーザが種文書の選択に注意を
払う必要がない。
【図面の簡単な説明】
【図1】実施形態の類似文書検索システムの構成図であ
る。
【図2】第1の実施形態の処理手順を示す図である。
【図3】従来の類似文書検索システムの処理手順を示す
図である。
【図4】第2の実施形態の類似文書検索プログラム13
1aの構成を示す図である。
【図5】第2の実施形態の処理手順を示す図である。
【図6】第2の実施形態の問題点を説明する図である。
【図7】第3の実施形態の類似文書検索プログラム13
1bの構成を示す図である。
【図8】第3の実施形態の処理手順を示す図である。
【図9】第4の実施形態の検索結果出力プログラム13
2aの構成を示す図である。
【図10】第4の実施形態の処理手順を示す図である。
【図11】第4の実施形態の構造別表示方法取得プログ
ラムの処理手順を示す図である。
【図12】検索条件入力画面の例を示す図である。
【符号の説明】
131:類似文書検索プログラム、132:検索結果出
力プログラム、150:特徴文字列抽出プログラム、1
51:検索対象構造ID取得プログラム、152:類似
度算出プログラム、180:テキスト、181:出現頻
度ファイル、182:構造インデクス、400:種文書
構造解析プログラム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 菅谷 奈津子 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 稲場 靖彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 山口 明彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 後地 陽介 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B009 QA09 VA02 5B075 ND03 NK06 NK39 PP13 PQ02 PQ22 PQ36 PQ46 PQ75 PR06 QM08

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】計算機を利用して検索条件として指定され
    た文書あるいは文章(以下まとめて種文書と呼ぶ)に類
    似する構造化文書を検索する方法であって、類似度計算
    の検索条件として種文書と該構造化文書に属する少なく
    とも1つの構造の指定を受けるステップと、類似度計算
    の後、類似度のより高い対象文書を優先して表示するス
    テップとを有することを特徴とする構造指定による類似
    文書の検索方法。
  2. 【請求項2】計算機を利用して種文書に類似する構造化
    文書を検索する方法であって、種文書と検索対象とする
    構造が指定されたとき、指定された該種文書のテキスト
    から特徴となる文字列を抽出するステップと、抽出され
    た特徴文字列と指定された検索対象構造とが合致する文
    書を対象として、該特徴文字列に基づく該種文書との類
    似度を算出するステップと、算出された類似度の高い順
    に従って表示の優先度を決定するステップとを有するこ
    とを特徴とする構造指定による類似文書の検索方法。
  3. 【請求項3】計算機を利用して構造化された種文書に類
    似する文書を検索する方法であって、種文書と該種文書
    に属する少なくとも1つの構造の指定を受けるステップ
    と、類似度計算の後、類似度のより高い対象文書を優先
    して表示するステップとを有することを特徴とする構造
    指定による類似文書の検索方法。
  4. 【請求項4】計算機を利用して構造化された種文書に類
    似する文書を検索する方法であって、種文書と検索対象
    とする構造が指定されたとき、指定された該種文書のテ
    キストのうち指定された構造に属するテキストから特徴
    となる文字列を抽出するステップと、抽出された特徴文
    字列と指定された検索対象構造とが合致する文書を対象
    として該特徴文字列に基づく該種文書との類似度を算出
    するステップと、算出された類似度の高い順に従って表
    示の優先度を決定するステップとを有することを特徴と
    する構造指定による類似文書の検索方法。
  5. 【請求項5】前記種文書は、表示画面上の指示されたテ
    キストであることを特徴とする請求項1又は請求項2記
    載の構造指定による類似文書の検索方法。
  6. 【請求項6】前記検索対象とする構造が指定される代わ
    りに、前記検索対象から除外されるべき構造が指定され
    ることを特徴とする請求項1又は請求項2記載の構造指
    定による類似文書の検索方法。
  7. 【請求項7】前記種文書に属する構造が指定される代わ
    りに、前記種文書に属し検索対象から除外されるべき構
    造が指定されることを特徴とする請求項3又は請求項4
    記載の構造指定による類似文書の検索方法。
  8. 【請求項8】検索対象として複数の構造が指定されたと
    き、前記検索対象構造ごとに類似度を算出し、すべての
    検索対象構造に亘る類似度の累積値を前記優先度決定の
    際の最終の類似度とすることを特徴とする請求項2又は
    請求項4記載の構造指定による類似文書の検索方法。
  9. 【請求項9】検索対象として複数の構造が指定されたと
    き、前記検索対象構造ごとに類似度を算出し、対象とす
    る文書について最も高い類似度を前記優先度決定の際の
    最終の類似度とすることを特徴とする請求項2又は請求
    項4記載の構造指定による類似文書の検索方法。
  10. 【請求項10】前記特徴文字列を抽出した後に、さらに
    前記特徴文字列の重要度に応じて採用する特徴文字列を
    決定することを特徴とする請求項2又は請求項4記載の
    構造指定による類似文書の検索方法。
  11. 【請求項11】前記特徴文字列を抽出した後に、さらに
    前記指定された種文書に属する構造の重要度に応じて採
    用する特徴文字列を決定することを特徴とする請求項4
    記載の構造指定による類似文書の検索方法。
  12. 【請求項12】前記特徴文字列を抽出した後に、さらに
    前記検索対象構造の重要度に応じて採用する特徴文字列
    を決定することを特徴とする請求項2又は請求項4記載
    の構造指定による類似文書の検索方法。
  13. 【請求項13】検索結果を表示するに際して、表示する
    文書について前記検索対象構造ごとに抽出された前記特
    徴文字列を強調表示することを特徴とする請求項2又は
    請求項4記載の構造指定による類似文書の検索方法。
  14. 【請求項14】検索結果を表示するに際して、表示する
    文書について前記検索対象構造ごとに前記類似度を表示
    することを特徴とする請求項2又は請求項4記載の構造
    指定による類似文書の検索方法。
  15. 【請求項15】検索条件として指定された文書あるいは
    文章(種文書)に類似する構造化文書を検索する装置で
    あって、類似度計算の検索条件として種文書と該構造化
    文書に属する少なくとも1つの構造の指定を受ける手段
    と、類似度計算の後、類似度のより高い対象文書を優先
    して表示する手段とを有することを特徴とする構造指定
    による類似文書の検索装置。
  16. 【請求項16】種文書に類似する構造化文書を検索する
    装置であって、種文書と検索対象とする構造が指定され
    たとき、指定された該種文書のテキストから特徴となる
    文字列を抽出する手段と、抽出された特徴文字列と指定
    された検索対象構造とが合致する文書を対象として、該
    特徴文字列に基づく該種文書との類似度を算出する手段
    と、算出された類似度の高い順に従って表示の優先度を
    決定する手段とを有することを特徴とする構造指定によ
    る類似文書の検索装置。
  17. 【請求項17】構造化された種文書に類似する文書を検
    索する装置であって、種文書と該種文書に属する少なく
    とも1つの構造の指定を受ける手段と、類似度計算の
    後、類似度のより高い対象文書を優先して表示する手段
    とを有することを特徴とする構造指定による類似文書の
    検索装置。
  18. 【請求項18】構造化された種文書に類似する文書を検
    索する装置であって、種文書と検索対象とする構造が指
    定されたとき、指定された該種文書のテキストのうち指
    定された構造に属するテキストから特徴となる文字列を
    抽出する手段と、抽出された特徴文字列と指定された検
    索対象構造とが合致する文書を対象として該特徴文字列
    に基づく該種文書との類似度を算出する手段と、算出さ
    れた類似度の高い順に従って表示の優先度を決定する手
    段とを有することを特徴とする構造指定による類似文書
    の検索装置。
  19. 【請求項19】計算機読み取り可能な記憶媒体に格納さ
    れたプログラムであって、該プログラムは、検索条件と
    して指定された文書あるいは文章(種文書)に類似する
    構造化文書を検索するプログラムであり、類似度計算の
    検索条件として種文書と該構造化文書に属する少なくと
    も1つの構造の指定を受けるプログラム手段と、類似度
    計算の後、類似度のより高い対象文書を優先して表示す
    るプログラム手段とを有することを特徴とするプログラ
    ムを格納する記憶媒体。
  20. 【請求項20】計算機読み取り可能な記憶媒体に格納さ
    れたプログラムであって、該プログラムは、種文書に類
    似する構造化文書を検索するプログラムであり、種文書
    と検索対象とする構造が指定されたとき、指定された該
    種文書のテキストから特徴となる文字列を抽出するプロ
    グラム手段と、抽出された特徴文字列と指定された検索
    対象構造とが合致する文書を対象として、該特徴文字列
    に基づく該種文書との類似度を算出するプログラム手段
    と、算出された類似度の高い順に従って表示の優先度を
    決定するプログラム手段とを有することを特徴とするプ
    ログラムを格納する記憶媒体。
  21. 【請求項21】計算機読み取り可能な記憶媒体に格納さ
    れたプログラムであって、該プログラムは、構造化され
    た種文書に類似する文書を検索するプログラムであり、
    種文書と該種文書に属する少なくとも1つの構造の指定
    を受けるプログラム手段と、類似度計算の後、類似度の
    より高い対象文書を優先して表示するプログラム手段と
    を有することを特徴とするプログラムを格納する記憶媒
    体。
  22. 【請求項22】計算機読み取り可能な記憶媒体に格納さ
    れたプログラムであって、該プログラムは、構造化され
    た種文書に類似する文書を検索するプログラムであり、
    種文書と検索対象とする構造が指定されたとき、指定さ
    れた該種文書のテキストのうち指定された構造に属する
    テキストから特徴となる文字列を抽出するプログラム手
    段と、抽出された特徴文字列と指定された検索対象構造
    とが合致する文書を対象として該特徴文字列に基づく該
    種文書との類似度を算出するプログラム手段と、算出さ
    れた類似度の高い順に従って表示の優先度を決定するプ
    ログラム手段とを有することを特徴とするプログラムを
    格納する記憶媒体。
JP11183349A 1999-06-29 1999-06-29 構造指定による類似文書の検索装置及び検索方法 Pending JP2001014326A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11183349A JP2001014326A (ja) 1999-06-29 1999-06-29 構造指定による類似文書の検索装置及び検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11183349A JP2001014326A (ja) 1999-06-29 1999-06-29 構造指定による類似文書の検索装置及び検索方法

Publications (1)

Publication Number Publication Date
JP2001014326A true JP2001014326A (ja) 2001-01-19

Family

ID=16134193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11183349A Pending JP2001014326A (ja) 1999-06-29 1999-06-29 構造指定による類似文書の検索装置及び検索方法

Country Status (1)

Country Link
JP (1) JP2001014326A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2402511A (en) * 2003-06-07 2004-12-08 Univ Sheffield Hallam Checking Visual Consistency of Web Pages
US6889223B2 (en) 2001-03-30 2005-05-03 Kabushiki Kaisha Toshiba Apparatus, method, and program for retrieving structured documents
JP2005317018A (ja) * 2004-04-29 2005-11-10 Microsoft Corp 表示ページ内のブロックの重要度を計算するための方法およびシステム
US7120625B2 (en) 2001-11-15 2006-10-10 Hitachi, Ltd. Method and apparatus for document information management
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP2012098797A (ja) * 2010-10-29 2012-05-24 Internatl Business Mach Corp <Ibm> 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ
US10079894B2 (en) 2009-07-22 2018-09-18 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7293018B2 (en) 2001-03-30 2007-11-06 Kabushiki Kaisha Toshiba Apparatus, method, and program for retrieving structured documents
US6889223B2 (en) 2001-03-30 2005-05-03 Kabushiki Kaisha Toshiba Apparatus, method, and program for retrieving structured documents
US7120625B2 (en) 2001-11-15 2006-10-10 Hitachi, Ltd. Method and apparatus for document information management
GB2402511A (en) * 2003-06-07 2004-12-08 Univ Sheffield Hallam Checking Visual Consistency of Web Pages
US8095478B2 (en) 2004-04-29 2012-01-10 Microsoft Corporation Method and system for calculating importance of a block within a display page
JP2005317018A (ja) * 2004-04-29 2005-11-10 Microsoft Corp 表示ページ内のブロックの重要度を計算するための方法およびシステム
US8401977B2 (en) 2004-04-29 2013-03-19 Microsoft Corporation Method and system for calculating importance of a block within a display page
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP4878624B2 (ja) * 2006-03-31 2012-02-15 株式会社ジャストシステム 文書処理装置および文書処理方法
US10079894B2 (en) 2009-07-22 2018-09-18 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network
US10469596B2 (en) 2009-07-22 2019-11-05 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network
US11165869B2 (en) 2009-07-22 2021-11-02 International Business Machines Corporation Method and apparatus for dynamic destination address control in a computer network
JP2012098797A (ja) * 2010-10-29 2012-05-24 Internatl Business Mach Corp <Ibm> 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ
US8914370B2 (en) 2010-10-29 2014-12-16 International Business Machines Corporation Generating rules for classifying structured documents

Similar Documents

Publication Publication Date Title
JP3918531B2 (ja) 類似文書検索方法およびシステム
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
US7440938B2 (en) Method and apparatus for calculating similarity among documents
JP4049317B2 (ja) 検索支援装置およびプログラム
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP4238616B2 (ja) 類似文書検索方法および類似文書検索装置
JP3828379B2 (ja) テスト仕様生成支援装置、方法、プログラム及び記録媒体
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JP2001014326A (ja) 構造指定による類似文書の検索装置及び検索方法
JP2002073681A (ja) 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JPH11272680A (ja) 文書データ提供装置およびそのプログラム記録媒体
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JPH06348757A (ja) 文書検索装置および方法
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP5553037B2 (ja) 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP2939841B2 (ja) データベース検索装置
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4146067B2 (ja) 文書検索システムおよび文書検索方法