JP4972271B2 - Search result presentation device - Google Patents
Search result presentation device Download PDFInfo
- Publication number
- JP4972271B2 JP4972271B2 JP2004167287A JP2004167287A JP4972271B2 JP 4972271 B2 JP4972271 B2 JP 4972271B2 JP 2004167287 A JP2004167287 A JP 2004167287A JP 2004167287 A JP2004167287 A JP 2004167287A JP 4972271 B2 JP4972271 B2 JP 4972271B2
- Authority
- JP
- Japan
- Prior art keywords
- subtopic
- word list
- related word
- classification
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、大量の電子化文書の中からユーザーが目的とする文書を検索する文書検索において、検索結果を効率よく参照するための検索結果提示方法およびその装置並びに検索結果提示プログラムを格納した記録媒体に関する。 The present invention relates to a search result presentation method and apparatus for efficiently referring to a search result in a document search for searching a target document from a large number of electronic documents, and a record storing a search result presentation program It relates to the medium.
近年、パーソナルコンピュータやインターネットの普及に伴い、電子化文書が大量に存在するようになった。その大量の電子化文書の中からユーザーが目的とする文書(以下、目的文書と呼ぶ)を効率よく検索する文書検索技術が盛んに開発されており、中でも検索条件として入力された文章(以下、種文章と呼ぶ)と類似した文書を検索する類似文書検索が注目されている。 In recent years, with the spread of personal computers and the Internet, a large number of electronic documents have come to exist. Document search technology that efficiently searches for a user's target document (hereinafter referred to as a target document) from a large number of electronic documents has been actively developed. A similar document search that searches for a document similar to a seed document has been attracting attention.
類似文書検索方法の1つとして、「特開2002−73681号公報」で開示されている技術(以下、従来技術1と呼ぶ)がある。従来技術1では、検索条件として指定された種文章から複数の特徴的な語(以下、特徴語と呼ぶ)を抽出し、その特徴語を用いて種文章に類似した文書を検索する。
As one of similar document search methods, there is a technique (hereinafter referred to as conventional technique 1) disclosed in “Japanese Patent Laid-Open No. 2002-73681”. In the
一般的に文章中には複数のサブトピックが含まれる場合が多い。サブトピックとは、文章の概念に含まれる部分的な概念又は内容のことを示す。例えば、文章が「H社の地上デジタル放送対応プラズマテレビ」の場合、文章中のサブトピックについては、(1)「テレビ」、(2)「プラズマテレビ」、(3)「H社」および(4)「地上デジタル放送対応」等が含まれる。しかし、検索条件として種文章を用いる類似文書検索では、種文章に複数のサブトピックが含まれる場合、検索によって得られる文書(以下、適合文書と呼ぶ)の集合にはそれぞれのサブトピックに関する文書が混在する。例えば、検索者が(2)「プラズマテレビ」および(4)「地上デジタル放送対応」に関する情報が知りたいときに、種文章として「H社の地上デジタル放送対応プラズマテレビ」が選択されたとする。この場合、適合文書の集合には、前述4つのサブトピックを単体あるいは複数含む文書が混在する。この結果、従来技術1を用いて得られた検索結果を上位から順に参照した場合、検索者にとって必要のない(2)および(4)以外のサブトピックに関する適合文書についても1件ずつ目的文書であるかどうかを判断していかなくてはならない。すなわち、目的文書にたどり着くまでに非常に多くの時間を要してしまう。
In general, a sentence often includes a plurality of subtopics. A subtopic indicates a partial concept or content included in a sentence concept. For example, when the sentence is “Company H for terrestrial digital broadcasting”, the subtopics in the sentence are (1) “TV”, (2) “Plasma TV”, (3) “Company H” and ( 4) “Digital Terrestrial Broadcasting compatible” is included. However, in a similar document search using seed text as a search condition, if a seed text includes a plurality of subtopics, a set of documents (hereinafter referred to as conforming documents) obtained by the search includes documents related to the respective subtopics. Mixed. For example, when the searcher wants to know information on (2) “plasma television” and (4) “terrestrial digital broadcast compatible”, “H company's digital television broadcast compatible plasma television” is selected as the seed sentence. In this case, a set of conforming documents includes a single document or a document including a plurality of the four subtopics. As a result, when the search results obtained using the
本発明は、上記の課題を解決すべく、同じサブトピックで適合した適合文書をグルーピングして提示することで、素早く目的文書を探し出すことができる検索結果提示方法を提供することを目的とする。 In order to solve the above-described problems, an object of the present invention is to provide a search result presentation method that can quickly find a target document by grouping and presenting conforming documents that match in the same subtopic.
上記目的を達成するために、本発明は、指定された検索条件に対する検索結果として得られた検索結果文書集合を分類して表示する検索結果提示装置において、前記指定された検索条件から特徴語を抽出する特徴語抽出手段と、前記特徴語抽出手段で抽出された特徴語間の関連性を判定し、関連する特徴語間をまとめた関連単語リストを生成する関連単語リスト生成手段と、前記関連単語リスト生成手段で生成された各関連単語リストに対する適合文書の関連単語リスト適合度を算出する関連単語リスト適合度算出手段と、前記関連単語リスト適合度算出手段で算出された関連単語リスト適合度から、該適合文書の該関連単語リストに対する適合性を判定し、該適合性が高いと判定された場合には該適合文書を該関連単語リストに関連付けて保持する分類判定手段と、前記分類判定手段で各関連単語リストに関連付けられた適合文書集合に対して、分類の識別情報を付与する分類識別情報付与手段と、前記分類識別情報付与手段で生成された識別情報を各分類に付与して、検索結果集合文書を表示する検索結果表示手段とを有することを特徴とする。 In order to achieve the above object, the present invention provides a search result presentation apparatus that classifies and displays a search result document set obtained as a search result for a specified search condition. a feature word extraction means for extracting, to determine the association between feature words extracted by the feature word extraction means, a related word list generating means for generating a related word list summarizing between related feature words, the associated a related word list fitness calculating means for calculating the related word list fit of relevant documents for each related word list generated by the word list generation means, the related word list fitness calculated by said related word list fitness calculating means from determines suitability for the related word list of the relevant documents, if the compatibility is high the Most judgment in association with the relevant documents to the related word list A classification determining means for lifting, with respect to adaptation document set associated with each related word list by said category determining unit, a classification identification information assigning means for assigning identification information of the classification generated by the classification identification information adding unit Search result display means for displaying the search result set document by assigning the identification information to each classification .
本発明によれば、適合文書集合に検索条件に含まれる複数のサブトピックが混在している場合でも、サブトピック別に適合文書が表示されているため、目的文書を効率よく探し出すことができる。 According to the present invention, even when a plurality of subtopics included in the search condition are mixed in the conforming document set, the conforming document is displayed for each subtopic, so that the target document can be efficiently searched.
本発明に係る検索結果提示方法及びその装置並びに検索結果提示プログラムを格納した記録媒体の実施の形態について図面を用いて説明する。 Embodiments of a search result presentation method and apparatus and a recording medium storing a search result presentation program according to the present invention will be described with reference to the drawings.
[第1の実施の形態]
本発明に係る第1の実施の形態について図1乃至図9を用いて説明する。
[First Embodiment]
A first embodiment according to the present invention will be described with reference to FIGS.
図1Aは、本発明に係る第1の実施の形態における文書検索システムの全体構成をプログラムを主体に示す図であり、図1Bは、本発明に係る第1の実施の形態における文書検索システムの全体構成を機能的に示す図である。本発明における第1の実施の形態は、ディスプレイ100、キーボード101、中央演算処理装置(CPU)102、磁気ディスク装置103、フレキシブルディスクドライブ(FDD)104、主メモリ105、これらを結ぶバス106および他の機器と本システムを接続するネットワーク107から構成される。
FIG. 1A is a diagram mainly showing a program of the entire configuration of the document search system according to the first embodiment of the present invention, and FIG. 1B is a diagram of the document search system according to the first embodiment of the present invention. It is a figure which shows the whole structure functionally. The first embodiment of the present invention includes a
磁気ディスク装置103は二次記憶装置の一つであり、テキスト180が格納される。FFDD104を介してフレキシブルディスク108に格納されている情報が、主メモリ105あるいは磁気ディスク装置103へ読み込まれる。
The
主メモリ105には、システム制御プログラム110、登録制御プログラム120、検索制御プログラム130、検索結果分類制御プログラム140、サブトピックラベル生成制御プログラム150、文書ファイル取得プログラム121、テキスト登録プログラム122、検索条件取得プログラム131、特徴語抽出プログラム132、テキスト読込プログラム133、検索結果出力プログラム134、サブトピック抽出プログラム141、分類判定プログラム142、ラベル用特徴語抽出プログラム151、共有ライブラリ160およびワークエリア170が確保される。
The
共有ライブラリ160は、適合度算出プログラム161で構成される。
システム制御プログラム110は、登録制御プログラム120および検索制御プログラム130で構成される。
登録制御プログラム120は、文書ファイル取得プログラム121およびテキスト登録プログラム122で構成される。
The shared
The
The
検索制御プログラム130は、検索条件取得プログラム131、特徴語抽出プログラム132、テキスト読込プログラム133、検索結果出力プログラム134、検索結果分類制御プログラム140、サブトピック生成制御プログラム150で構成されるとともに、適合度算出プログラム161を呼び出す構成をとる。
The
検索結果分類制御プログラム140は、サブトピック抽出プログラム141および分類判定プログラム142で構成されるとともに、適合度算出プログラム161を呼び出す構成をとる。
サブトピック生成制御プログラム150は、ラベル用特徴語抽出プログラム151で構成される。
The search result
The subtopic
登録制御プログラム120および検索制御プログラム130は、ユーザーによるキーボード101からの入力に応じてシステム制御プログラム110によって起動され、それぞれ文書ファイル取得プログラム121、テキスト登録プログラム122の制御と、検索条件取得プログラム131、特徴語抽出プログラム132、テキスト読込プログラム133、検索結果出力プログラム134、検索結果分類制御プログラム140、サブトピックラベル生成制御プログラム150および適合度算出プログラム161の制御を行なう。
The
本実施の形態では、キーボード101から入力されたコマンドにより登録制御プログラム120および検索制御プログラム130が起動されるものとしたが、他の入力装置を介して入力されたコマンドあるいはイベントにより起動されるものであってもかまわない。
In this embodiment, the
また、これらのプログラムを磁気ディスク103、フレキシブルディスク108、MO、CD−ROM、DVD等の記憶媒体(図1A及び図1Bには示していない)に格納し、駆動装置を介して主メモリ105に読み込み、CPU102によって実行することが可能である。また、これらのプログラムをネットワーク107を介して主メモリ105に読みこみ、CPU102によって実行することも可能である。この場合、CPU102内には,各プログラム110、120(121〜122)、130(131〜134、140(141〜142)、150(151))、161によって実行される機能的な部分を有することになる。102−110はシステム制御部である。102−120は登録制御部、102−130は検索制御部、102−140は検索結果分類制御部、102−150はサブトピックラベル生成制御部である。さらに、102−161は適合度算出部である。
Further, these programs are stored in a storage medium (not shown in FIGS. 1A and 1B) such as a
また、本実施の形態ではテキスト180は磁気ディスク装置103に格納されるものとしたが、フレキシブルディスク108、MO、CD−ROM、DVD等の記憶媒体(図1A及び図1Bには示していない)に格納し、駆動装置を介して主メモリ105に読み込み利用することも可能であるし、あるいはネットワーク107を介して、他のシステムに接続された記憶媒体(図1A及び図1Bには示していない)に格納されるものとしてもよい。
また、さらにはネットワーク107に直接接続された記憶媒体に格納されるものとしても構わない。
以上が、本第1の実施の形態における文書検索システムの構成の説明である。
In this embodiment, the
Further, it may be stored in a storage medium directly connected to the
The above is the description of the configuration of the document search system in the first embodiment.
次に、本第1の実施の形態における文書検索システムの処理手順について説明する。 Next, the processing procedure of the document search system in the first embodiment will be described.
まず、システム制御部102−110における、システム制御プログラム110に基づく処理手順について説明する。
システム制御部102−110は、システム制御プログラム110に基づいて、まずキーボード101から入力されたコマンドを解析する。この結果が登録実行のコマンドであると解析された場合には、システム制御部102−110は、登録制御プログラム120を起動して、文書の登録を行なう。
First, a processing procedure based on the
Based on the
また、検索実行のコマンドであると解析された場合には、システム制御部102−110は、検索制御プログラム130を起動して、検索条件として入力されたキーワードを用いた論理演算式や複数の単語や文、文章あるいは文書(以下、まとめて種文章と呼ぶ)に関連した文書の検索を行なう。
以上が、システム制御プログラム110に基づく処理手順である。
If it is determined that the command is a search execution command, the system control unit 102-110 activates the
The processing procedure based on the
次に、登録制御部102−120における、システム制御プログラム110により起動される登録制御プログラム120に基づく処理手順について説明する。
Next, a processing procedure based on the
登録制御部102−120は、登録制御プログラム120に基づいて、まず文書ファイル取得プログラム121を起動し、FDD104を介してフレキシブルディスク108に格納されている文書ファイルを読み込む。
Based on the
次に、登録制御部102−120は、テキスト登録プログラム122を起動して、前記文書ファイル取得プログラム121で読み込まれた文書ファイルからテキストを抽出し、テキスト180として磁気ディスク装置103に格納する。
以上が、登録制御プログラム120に基づく処理手順である。
Next, the registration control unit 102-120 activates the
The processing procedure based on the
なお、文書ファイルはフレキシブルディスク108に格納されているものとしたが、MO、CD−ROM、DVD等の記憶媒体(図1A、図1Bには示していない)に格納されるものとしてもよいし、ネットワーク107を介して、他のシステムに接続された記憶媒体(図1A、図1Bには示していない)に格納されるものとしてもよい。
Although the document file is stored on the
また、文書ファイル取得プログラム121で読み込まれた文書ファイルはテキストが抽出できるものならばよく、テキストファイルとして保存されているものであってもよいし、アプリケーションソフトの保存形式であってもよい。
The document file read by the document
次に、検索制御部102−130における、システム制御プログラム110により起動される検索制御プログラム130に基づく処理手順について図2に示すPAD図を用いて説明する。
Next, a processing procedure based on the
検索制御部102−130は、検索制御プログラム130に基づいて、まず検索条件取得プログラム131を起動し、検索条件を読み込み、ワークエリア170に格納する(ステップ200)。
Based on the
次に、検索制御部102−130は、特徴語抽出プログラム132を起動し、前記検索条件取得プログラム131により取得された検索条件から検索条件の特徴を表す文字列(以下、特徴語500と呼ぶ)を抽出し、ワークエリア170に格納する(ステップ210)。
Next, the search control unit 102-130 activates the feature
次に、検索制御部102−130は、テキスト180に含まれるすべてのテキストに対して、ステップ221〜ステップ222を繰り返し実行する(ステップ220)。まず、検索制御部102−130は、テキスト読込プログラム133を起動し、磁気ディスク装置103に格納されているテキスト180からテキストを1つ読み込み、ワークエリア170に格納する(ステップ221)。次に、検索制御部102−130は、適合度算出プログラム161を起動し、前記テキスト読込プログラム133により読み込まれたテキストに対し、例えば、従来技術1に記載されたように、検索条件に対するテキストの適合度を算出し、その算出結果501をワークエリア170に格納する(ステップ222)。
Next, the search control unit 102-130 repeatedly executes
次に、検索制御部102−130は、検索結果分類制御部102−140に対して、検索結果分類制御プログラム140を起動し、前記特徴語抽出プログラム132により抽出された特徴語500から検索条件に関するサブトピックの抽出およびサブトピックプロファイルの生成を行なう。このサブトピックプロファイル502を用いて、適合度算出部102−161における前記適合度算出プログラム161によって算出された適合度が予め設定された適合性判定閾値以上のテキスト(以下、適合テキストと呼ぶ)が、検索条件に含まれるサブトピックに関してそれぞれどこの分類に属するかを判定し、その分類判定結果506をワークエリア170に格納する(ステップ230)。
Next, the search control unit 102-130 activates the search result
次に、検索制御部102−130は、サブトピックラベル生成制御部102−150に対して、検索結果分類制御プログラム140により抽出されたすべてのサブトピックに対して、ステップ241を繰り返し実行する(ステップ240)。
Next, the search control unit 102-130 repeatedly executes
検索制御部102−130は、サブトピックラベル生成制御部102−150に対して、サブトピックラベル生成制御プログラム150を起動し、前記検索結果分類制御プログラム140により生成されたサブトピックプロファイル502から重要な特徴語を抽出し、抽出された特徴語をサブトピックのラベル(以下、サブトピックラベルと呼ぶ)503としてワークエリア170に格納する(ステップ241)。
The search control unit 102-130 activates the subtopic label
そして、検索制御部102−130は、検索結果出力プログラム134を起動し、各適合テキストの前記検索結果分類制御プログラム140(142)の分類判定結果506に基づいて、サブトピック別に適合テキスト504およびサブトピックラベル503を表示する(ステップ250)。
Then, the search control unit 102-130 activates the search
以上が、検索制御プログラム130に基づく処理手順である。
The processing procedure based on the
なお、適合度算出部102−161で実行する適合度算出プログラム161は、例えば、従来技術1を用いるものとしたが、ベクトル空間法における余弦尺度を用いた適合度算出方法など他の適合度算出方法を適用してもよい。また、検索条件がキーワードを用いた論理演算式の場合には、特徴語抽出プログラム132に関する処理を行なわず、特開平11−154164号公報や特開2001−84255号公報で開示されている方法を用いて検索条件に対する適合度算出方法を適用してもよい。
The
また、上記ステップ220ではテキスト180に含まれるすべてのテキストに対して、ステップ221〜ステップ222を繰り返すものとしたが、予め付与された日付などの属性情報を条件にテキスト180に含まれる一部のテキストに対して繰り返されるものであってもよい。これにより、検索処理時間の高速化が図れる。
In
また、特徴語抽出プログラム132により抽出される特徴語500は、検索条件が種文章である場合、漢字やカタカナといった文字種の境界で分割された文字列であってもよいし、文章中に存在するスペースなどの区切り文字により分割された文字列であってもよいし、形態素解析により抽出される単語やn-gramとして抽出される文字列であってもよいし、その他の方法により抽出された文字列であってもかまわない。一方、検索条件がキーワードを用いた論理演算式の場合は、用いられたキーワードを特徴語としてもよい。
Further, when the search condition is a seed sentence, the
また、本実施の形態ではテキスト読込プログラム133によって読み込まれたテキスト全体を対象に適合度を算出するものとしたが、テキスト全体でなくてもよい。例えばSGML(Standard Generalized Markup Language)やXML(extensible markup language)などの構造化テキストについてはテキストの一部の構造を対象としてもよい。これにより、該テキストに対する適合度算出処理の負荷が軽減し、検索処理時間の高速化が図れる。
Further, in the present embodiment, the fitness is calculated for the entire text read by the
次に、検索結果分類制御部102−140における、図2のステップ230で検索制御プログラム130により起動される検索結果分類制御プログラム140に基づく処理手順について、図3に示すPAD図を用いて説明する。
Next, a processing procedure based on the search result
まず、検索結果分類制御部102−140は、サブトピック抽出プログラム141を起動し、前記特徴語抽出プログラム132により検索条件から抽出された特徴語から各特徴語間の関連性を考慮してサブトピックおよびサブトピック別の特徴語を抽出し、これらをサブトピックプロファイル502としてワークエリア170に格納する(ステップ300)。
First, the search result classification control unit 102-140 starts the
次に、検索結果分類制御部102−140は、すべての適合テキストに対して、ステップ320を繰り返し実行する(ステップ310)。
次に、検索結果分類制御部102−140は、サブトピック抽出プログラム141により抽出されたすべてのサブトピックに対して、ステップ321〜ステップ322を繰り返し実行する(ステップ320)。
Next, the search result classification control unit 102-140 repeatedly executes
Next, the search result classification control unit 102-140 repeatedly executes
まず、検索結果分類制御部102−140は、適合度算出部102−161での適合度算出プログラム161を起動し、サブトピックに関するサブトピックプロファイルの特徴語の総数、および適合テキストに含まれるサブトピックプロファイルの特徴語の数を用いて、次に示す(1)式によりサブトピックに対する適合テキストの適合度(以下、サブトピック別適合度と呼ぶ)504を算出し、その算出結果をワークエリア170に格納する(ステップ321)。
First, the search result classification control unit 102-140 starts the fitness
サブトピックに対する適合テキストの適合度=(対象テキストに含まれる特徴語の数)/(特徴語の総数) (1)
次に、分類判定プログラム142を起動し、前記適合度算出プログラム161によって算出されたサブトピック別適合度504を、該サブトピックに対する適合性を判定する際の適合性判定基準値(以下、サブトピック適合性判定閾値と呼ぶ)505と比較する。この結果、サブトピック適合性判定閾値以上であった場合は、該適合テキストを該サブトピックの分類に属するものと判定し、その分類判定結果506をワークエリア170に格納する(ステップ322)。
Relevance of matching text to subtopic = (number of feature words included in target text) / (total number of feature words) (1)
Next, the
以上が、検索結果分類制御プログラム140に基づく処理手順である。
The processing procedure based on the search result
なお、上記ステップ321におけるサブトピック別適合度の算出には上記(1)式を適用したが、ベクトル空間法における余弦尺度など他の適合度算出式を適用してもよい。
Although the above formula (1) is applied to the calculation of the subtopic-specific fitness in
また、上記ステップ322では、サブトピック適合性判定閾値を用いて適合テキストがどのサブトピックの分類に属するかを判定するものとしたが、該サブトピックに関するサブトピック別適合度の降順に、所定の件数の適合テキストを該サブトピックの分類に属するものとして判定してもよい。
In
次に、検索結果分類制御部102−140における、検索結果分類制御プログラム140により起動されるサブトピック抽出プログラム141に基づく処理手順について、図4に示すPAD図を用いて説明する。
Next, a processing procedure based on the
まず、検索結果分類制御部102−140は、前記特徴語抽出プログラム132で抽出されたすべての特徴語500に対して、ステップ401を繰り返し実行する(ステップ400)。
そして、図6に示す出現パターン生成処理600により、すべての適合テキスト(文書1、文書2、…)501における特徴語(H-company, satellite, digital, plasma, television, broadcast, …)500の出現の有無を“1”or“0”で表した出現パターン610を生成し、ワークエリア170に格納する(ステップ401)。
First, the search result classification control unit 102-140 repeatedly executes
Then, the appearance of feature words (H-company, satellite, digital, plasma, television, broadcast,...) 500 in all matching texts (
次に、検索結果分類制御部102−140は、すべての特徴語の中から2つの特徴語の組み合わせを重複なく生成し、各組み合わせについてステップ411〜ステップ414を繰り返し実行する(ステップ410)。ここで、各組み合わせに含まれる特徴語を、それぞれ特徴語Aと特徴語Bとして、以下説明する。
Next, the search result classification control unit 102-140 generates a combination of two feature words from all the feature words without duplication, and repeatedly executes
まず、検索結果分類制御部102−140は、図6に示す単語間関連度算出処理601により、2つの特徴語Aと特徴語Bの出現パターン610を用いて、後述する(4)式に基づく余弦尺度により特徴語Aと特徴語B間の関連度(以下、単語間関連度と呼ぶ)を算出し、ワークエリア170に格納する(ステップ411)。
First, the search result classification control unit 102-140 uses the
次に、図6に示すように、特徴語Aと特徴語B間の単語間関連度が、予め設定された関連性判定閾値以上であった場合、ステップ413〜ステップ414を実行してグルーピング処理602を行って関連単語リスト612を作成する(ステップ412)。
まず、特徴語Bを特徴語Aに関する単語リスト(以下、関連単語リストと呼ぶ)に入れ、ワークエリア170に格納する(ステップ413)。
次に、特徴語Aを特徴語Bに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ414)。
Next, as shown in FIG. 6, when the degree of association between words between the feature word A and the feature word B is equal to or higher than a preset relevance determination threshold, step 413 to step 414 are executed to perform grouping processing. 602 is performed to create a related word list 612 (step 412).
First, the feature word B is put into a word list (hereinafter referred to as a related word list) relating to the feature word A and stored in the work area 170 (step 413).
Next, the feature word A is put into the related word list for the feature word B and stored in the work area 170 (step 414).
次に、図6に示すように、各特徴語に関する関連単語リスト間でリストに含まれる特徴語を比較する。この結果、含まれる特徴語が同じである関連単語リスト間については重複排除処理603をして1つの関連単語リストにまとめる。この結果、最終的に得られた関連単語リストをサブトピックプロファイル613とし、ワークエリア170に格納する(ステップ420)。
Next, as shown in FIG. 6, the feature words included in the list are compared between the related word lists for each feature word. As a result,
以上が、サブトピック抽出プログラム141での処理手順である。
The processing procedure in the
なお、上記ステップ411における単語間関連度の算出方法については余弦尺度を用いたが、他の単語間関連度の算出方法を適用してもよい。
また、サブトピック抽出プログラム141では特徴語間のグルーピングを行なうために、適合テキストにおける特徴語の出現パターンから特徴語間の単語間関連度を算出したが、検索条件がキーワードを用いた論理演算式の場合は、論理演算式からand関係やor関係などの特徴語間の論理関係を解析することで、特徴語間の単語間関連度算出およびグルーピングを行なってもよい。また、検索条件が種文章の場合は、特徴語間の出現位置や修飾関係を解析することで、特徴語間の単語間関連度算出およびグルーピングを行なってもよい。また、検索条件や適合テキストだけでなく、関連語辞書を用いて特徴語間の単語関連度算出およびグルーピングを行なってもよい。
Note that the cosine scale is used as the method for calculating the degree of association between words in
Further, in order to perform grouping between feature words, the
また、特徴語間のグルーピングには、各特徴語に関する関連単語リストを生成する方法で行なうものとしたが、予め設定されたグループ数に基づいて、一般的なクラスタリング手法である最小距離法、最大距離法、群平均法およびK-Means法を用いて特徴語間をグルーピングしてもよいし、その他のグルーピング手法を用いてもよい。 In addition, grouping between feature words is performed by a method of generating a related word list for each feature word. However, based on a preset number of groups, a minimum distance method, a maximum The feature words may be grouped using a distance method, a group average method, and a K-Means method, or other grouping methods may be used.
以下、本実施の形態における文書検索システムにおいて、検索結果分類制御プログラム140およびサブトピックラベル生成制御プログラム150に基づく具体的な処理の流れを図5を用いて説明する。
Hereinafter, a specific processing flow based on the search result
図5に示した実施例は、文書1「In recent years the pace of development toward digital video and satellite digital broadcasting has been rapid. This is producing a global expansion of the market for large-display home theater systems used with AV sources such as DVD that deliver high-quality, digital sound and vision. The 52-inch display of the AAA provides easy viewing pleasure in a living-room for the whole family. There are two sets of component inputs for interfacing with future digital broadcast devices and digital video equipment.」(タイトル:The 52-inch display of the AAA)、文書2「The ultimate in plasma television technology. This flagship of the plasma line is a blend of performance, style and usability, featuring a Learning AV NET that puts complete control of an entire home theater system in the palm of your hand. The ultra-thin, sculpted lines and high-gloss titanium finish of this "best-in-class" series is perfect for the widescreen enthusiast who demands unparalleled performance in a sleek elegant design. The H-company BBB's Series with technology is truly the ultimate in plasma television.」(タイトル:H-company plasma television technology)および文書3が磁気ディスク装置103に格納された文書検索システムにおいて、検索者が「H社のプラズマテレビ」に関する情報を知るために種文章510「H-company has become the first manufacturer in the world to perfect broadcast satellite digital high-definition plasma television in 37V. The television's high-definition plasma display panel (PDP) uses the alternate lighting of surfaces (ALIS) format and is the first to enable such high-resolution definition in the 37V, which has until now been difficult with this size. It is configured in the consumer industry's smallest pixel pitch of 0.81mm 5 0.45mm and delivers the high resolution of 1,024 pixels horizontally and 1,024 pixels vertically, thereby allowing the maximum enjoyment of the superior picture quality of digital high-definition television viewing.」が選択された結果、特徴語抽出プログラム132(例えば従来技術1に記載された方法)により種文章510のプロファイルとして特徴語500、適合度算出プログラム161により検索結果として文書1および文書2の適合テキスト501が得られた状態である。
The example shown in FIG. 5 is described in
まず、検索結果分類制御部102−140において、サブトピック抽出プログラム141が実行され、適合テキスト501における特徴語500の出現パターン610から、単語間関連度算出処理601により、各特徴語間の単語間関連度を算出する。そこで、算出された各特徴語間の単語間関連度から特徴語500に含まれる特徴語間を、グルーピング処理602によりグルーピングし、種文章に関するサブトピックプロファイル502を生成する。本図に示した実施例では、特徴語500から3つのサブトピックが抽出されており、それぞれ「H-company」「plasma」「television 」を要素とするサブトピックプロファイル1、「satellite」「digital」「broadcast 」を要素とするサブトピックプロファイル2、「plasma」「display」「panel」を要素とするサブトピックプロファイル3、…が生成されている。
First, in the search result classification control unit 102-140, the
次に、サブトピックラベル生成制御部102−150において、すべてのサブトピック(S1、S2、S3、…)に対して、サブトピックラベル生成制御プログラム150が実行され、各サブトピックプロファイル502から重要な特徴語を抽出して、サブトピックの内容を示すサブトピックラベル503を生成する。本図に示した実施例では、サブトピック1(S1)については「H-company」「plasma」「television」、サブトピック2(S2)については「satellite」「digital」「broadcast」、サブトピック3(S3)については「plasma」「display」「panel」が、それぞれ抽出され、サブトピックラベル503として生成されている。
Next, in the subtopic label generation control unit 102-150, the subtopic label
次に、適合テキスト501に対して適合度算出プログラム161が実行され、上記(1)式によりサブトピック別適合度504を算出する。本図に示した実施例では、文書1については、サブトピック1〜サブトピック3(本図中ではS1〜S3と表示)に対するサブトピック別適合度がそれぞれ、“0.0”、“1.0”、“0.3”と算出されている。また、文書2については、サブトピック1〜サブトピック3(本図中ではS1〜S3と表示)に対するサブトピック別適合度がそれぞれ、“1.0”、“0.0”、“0.3”と算出されている。
Next, the fitness
次に、分類判定プログラム142が実行され、適合テキスト501に対してサブトピック別適合度504およびサブトピック適合性判定閾値505から、該適合テキストがどこのサブトピックの分類に属するかを判定する。本図の実施例では、各サブトピックのサブトピック適合性判定閾値を“0.5”としているため、文書1はサブトピック2、文書2はサブトピック1の分類に属するものと判定される。以上が、検索結果分類制御プログラム140およびサブトピックラベル生成制御プログラム150の具体的な処理の流れである。
Next, the
以下、図5に示したサブトピック抽出プログラム141の具体的な処理の流れについて図6を用いて説明する。
まず、出現パターン生成処理600により、適合テキスト501における特徴語500の出現パターン610を生成する。例えば文書1〜文書6に対して、特徴語「plasma」は文書1、文書3および文書6に出現している場合、出現パターンとして次に示す(2)式を生成する。また、特徴語「television」は文書1、文書3、文書4、文書5および文書6に出現している場合、出現パターンとして次に示す(3)式を生成する。
The specific processing flow of the
First, the appearance
「plasma」の出現パターン=(1,0,1,0,0,1) (2)
「television」の出現パターン=(1,0,1,1,1,1) (3)
次に、単語間関連度算出処理601により、出現パターン610から各特徴語間の関連度611を算出する。特徴語間の関連度算出方法は、各特徴語の出現パターンを特徴ベクトルと考えて、余弦尺度より算出する。例えば、特徴語「plasma」と特徴語「television」の出現パターンがそれぞれ(2)式、(3)式であった場合、特徴語「plasma」と特徴語「television」間の単語間関連度は次の(4)式より“0.77”となる。
Appearance pattern of “plasma” = (1, 0, 1, 0, 0, 1) (2)
Appearance pattern of “television” = (1,0,1,1,1,1) (3)
Next, a
次に、重複排除処理603により、関連単語リスト612から関連単語リスト間を比較することで、含まれる特徴語の構成が同じである関連単語リスト間を1つにまとめる。この結果、最終的に得られる関連単語リストをサブトピックプロファイルとして、サブトピックプロファイル613が得られる。本図の実施例では、「satellite」と「broadcast」に関する関連単語リストについて特徴語の構成が同じであるため、それらの単語関連リストを1つにまとめる。この結果、関連単語リスト「H-company」「plasma」「television」と「satellite」「digital」「broadcast」がそれぞれサブトピックプロファイル1、サブトピックプロファイル2として生成されている。
Next, by comparing the related word lists from the
以上が、サブトピック抽出プログラム141の具体的な処理の流れである。
なお、検索条件がキーワードを用いた論理演算式の場合は、and関係又はor関係のキーワードをまとめて、単語関連リストを生成してもよい。(5)式の例では、and関係のキーワードをまとめて、それぞれ「H-company」「plasma」「television」、「satellite」「digital」「broadcast」および「plasma」「display」「panel」の3つの関連単語リストが生成される。
(“H-company” and “plasma” and “television”) or (“plasma” and “display” and “panel”) or (“satellite” and “digital” and “broadcast”) (5)
以下、本実施の形態における文書検索システムにおいて、検索結果出力プログラム134によって提示される検索結果の具体的な提示例を図7〜図9を用いて説明する。
The above is the specific processing flow of the
In the case where the search condition is a logical operation expression using keywords, keywords related to and or relations may be collected to generate a word related list. In the example of the formula (5), keywords related to “and” and “H-company” “plasma” “television” “satellite” “digital” “broadcast” and “plasma” “display” “panel” 3 Two related word lists are generated.
(“H-company” and “plasma” and “television”) or (“plasma” and “display” and “panel”) or (“satellite” and “digital” and “broadcast”) (5)
Hereinafter, in the document search system according to the present embodiment, a specific example of the search result presented by the search
図7に示した検索結果一覧表示の実施例では、図5に示した適合テキスト501をサブトピック別に種文章に対する適合度の降順で出力されている(700)。また、各サブトピックにはサブトピックラベルが出力されている。この結果、文書1についてはサブトピック2「satellite、digital、broadcast」の3番目、文書2についてはサブトピック1「H-company、plasma、television」の1番目に出力されており、それぞれ種文章に対する適合度、サブトピック別適合度およびタイトルが出力されている。
In the embodiment of the search result list display shown in FIG. 7, the
ここで、検索者が「H社のプラズマテレビ」に関する情報を知るために図5で示した種文章が選択されたとした場合、図7に示されている各サブトピックラベルより検索者は目的文書がサブトピック1「H-company、plasma、television 」の分類に属する適合文書の中に存在すると判断できる。この結果、検索者は適合文書集合の中からサブトピック1「H-company、plasma、television 」の分類に属する適合文書のみを参照すればよいため、目的文書を素早く探し出すことができる。
Here, if the searcher selects the seed sentence shown in FIG. 5 in order to know information related to “Company H's plasma television”, the searcher selects the target document from each subtopic label shown in FIG. Can be determined to exist in the conforming documents belonging to the classification of
なお、図7に示した実施例では、各適合テキストに対して、種文章に対する適合度、サブトピック別適合度およびタイトルを出力するものとしたが、登録処理時に日付など各文書の属性情報も登録しておき、それらの情報を出力してもよい。
また、図7に示した実施例では、各適合テキストの出力順を種文章に対する適合度の降順で出力するものとしたが、サブトピック別適合度の降順で出力するものとしてもよいし、これらを図8に示すように表示オプションで選択できるようにしておいてもよい(800)。
In the embodiment shown in FIG. 7, for each matching text, the matching level for the seed text, the matching level for each subtopic, and the title are output. However, the attribute information of each document such as the date is also registered during the registration process. You may register and output those information.
In the embodiment shown in FIG. 7, the output order of each matching text is output in the descending order of the matching degree with respect to the seed sentence. However, it may be output in the descending order of the matching degree for each subtopic. As shown in FIG. 8, a display option may be selected (800).
図8に示した実施例では、表示オプションとして種文章に対する適合度の降順で出力するかあるいはサブトピック別適合度の降順で出力するかを選択可能としたインターフェースを備えており、図8ではサブトピック別適合度順が選択されていることにより、サブトピック別適合度の降順で適合テキストが出力されている。この結果、文書1についてはサブトピック2「satellite、digital、broadcast」の1番目、文書2についてはサブトピック1「H-company、plasma、television」の1番目に出力されている。これにより、各サブトピックの情報に特化した文書を素早く探し出すことができる。
The embodiment shown in FIG. 8 is provided with an interface that can select whether to output in descending order of suitability for the seed text or in descending order of suitability for each subtopic as a display option. Since the topic-specific suitability order is selected, the suitability text is output in descending order of the subtopic fit. As a result, the
以上説明したように、図7または図8に示すように、検索結果の表示時に適合文書を、適合度算出プログラム161による検索条件適合度算出ステップで算出された検索条件適合度または適合度算出プログラム161による関連単語リスト適合度算出ステップで算出された関連単語リスト適合度のいずれかを降順で表示することを特徴とする。
As described above, as shown in FIG. 7 or FIG. 8, the search condition fitness or the fitness calculation program calculated in the search condition fitness calculation step by the
また、図7および図8に示した実施例では、サブトピック別に適合テキストの一覧表示として出力しているが、図9に示すように、各サブトピックに関してそれぞれ何件の適合テキストが存在するかを示し(900)、知りたい情報に関するサブトピックを検索者に選択させた上で、そのサブトピックの分類に属する適合テキストのみを出力(901)してもよい。本図の実施例では、1番目のサブトピック「H-company、plasma、television」に103件、2番目のサブトピック「satellite、digital、broadcast」に45件、3番目のサブトピック「plasma、display、panel」に67件の適合文書が適合しており、各サブトピックの分類に属する適合文書数がそれぞれ示されている。即ち、図9に示すように、分類判定プログラム142により判定された結果に基づいて、関連単語リスト生成処理600〜602で生成された関連単語リスト別(1番目のサブトピック、2番目のサブトピック、3番目のサブトピック、…)にそれぞれ関連付けられた適合文書の件数を表示することに特徴を有する。
Further, in the embodiment shown in FIG. 7 and FIG. 8, the list of matching texts is output for each subtopic, but as shown in FIG. 9, how many matching texts exist for each subtopic. (900), the searcher may be allowed to select a subtopic related to the information he wants to know, and only the relevant text belonging to the subtopic classification may be output (901). In the example of this figure, 103 cases are in the first subtopic “H-company, plasma, television”, 45 cases are in the second subtopic “satellite, digital, broadcast”, and the third subtopic is “plasma, display” , Panel ”corresponds to 67 conforming documents, and the number of conforming documents belonging to each subtopic classification is shown. That is, as shown in FIG. 9, based on the result determined by the
また、検索者によって1番目のサブトピック「H-company、plasma、television 」が選択されており、この結果、サブトピック「H-company、plasma、television」の分類に属する適合文書に関する検索結果一覧表示が示されている。これにより、容易にどのような検索結果が得られたかを大枠で把握することができ、かつ目的文書を効率よく探し出すことができる。 In addition, the first subtopic “H-company, plasma, television” is selected by the searcher, and as a result, a list of search results for conforming documents belonging to the classification of the subtopic “H-company, plasma, television” is displayed. It is shown. As a result, it is possible to easily grasp what kind of search results have been obtained, and to efficiently search for the target document.
以上が、検索結果出力プログラム134によって提示される検索結果の具体的な提示の実施例である。
The above is an example of specific presentation of search results presented by the search
以上が、本実施の形態における文書検索システムの処理手順である。 The above is the processing procedure of the document search system in the present embodiment.
以上説明したように、本発明の第1の実施の形態によれば、適合文書集合を検索条件に関するサブトピック別にグルーピングして提示することで、目的文書であるかどうかの判断の対象となる適合文書を少なくすることができることから、検索者は目的文書を素早く探し出すことができる。
[第2の実施の形態]
次に、本発明に係る第2の実施の形態について図10および図11を用いて説明する。
As described above, according to the first embodiment of the present invention, the relevant document set is grouped and presented by subtopics related to the search condition, so that the relevant target can be determined as to whether it is the target document. Since the number of documents can be reduced, the searcher can quickly find the target document.
[Second Embodiment]
Next, a second embodiment according to the present invention will be described with reference to FIGS.
第1の実施の形態におけるサブトピック抽出プログラム141では、図6に示すように、特徴語間の関連性判定を適合テキスト501における特徴語の出現パターン610から特徴語間の関連度を算出することで行った。しかし、関連語辞書を用いることでより精度の高い特徴語間の関連性判定を行なうことができる。このため、本第2の実施の形態では、関連語辞書を用いることで特徴語間の関連性判定を行なう。
In the
即ち、本第2の実施の形態は、図1に示した第1の実施の形態とほぼ同様な構成を取るが、検索結果分類制御部102−140でのサブトピック抽出プログラム141の処理手順が異なる。
以下、第2の実施の形態である第1の実施の形態とは異なるサブトピック抽出プログラム141aの処理手順について図10に示すPAD図を用いて説明する。
まず、検索結果分類制御部102−140は、すべての特徴語の中から2つの特徴語の組み合わせを重複なく生成し、各組み合わせについてステップ1011〜ステップ1014を繰り返し実行する(ステップ1010)。ここで、各組み合わせに含まれる特徴語を、それぞれ特徴語Aと特徴語Bとして、以下説明する。
That is, the second embodiment has almost the same configuration as the first embodiment shown in FIG. 1, but the processing procedure of the
Hereinafter, the processing procedure of the subtopic extraction program 141a different from the first embodiment which is the second embodiment will be described with reference to the PAD diagram shown in FIG.
First, the search result classification control unit 102-140 generates a combination of two feature words from all the feature words without duplication, and repeatedly executes
まず、図11に示すように、単語間関連度取得処理1101により、関連語辞書1111を参照することで特徴語Aと特徴語B間の単語間関連度を取得し、ワークエリア170に格納する。なお、関連語辞書に単語間関連度の記載がなく、関連性のある単語間のみが記載されている場合は、関連性のある単語間の単語関連度を“1”、関連性のない単語間の単語間関連度を“0”とする(ステップ1011)。
First, as shown in FIG. 11, the degree of association between words between the feature word A and the feature word B is obtained by referring to the
次に、図11に示すように、特徴語Aと特徴語B間の単語間関連度が、予め設定された関連性判定閾値以上であった場合、ステップ1013〜ステップ1014を実行してグルーピング処理602を行って関連単語リスト612を作成する(ステップ1012)。
まず、特徴語Bを特徴語Aに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ1013)。
次に、特徴語Aを特徴語Bに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ1014)。
Next, as shown in FIG. 11, when the inter-word relevance between the feature word A and the feature word B is equal to or higher than a preset relevance determination threshold,
First, the feature word B is put in the related word list for the feature word A and stored in the work area 170 (step 1013).
Next, the feature word A is put into the related word list for the feature word B and stored in the work area 170 (step 1014).
次に、図11に示すように、各特徴語に関する関連単語リスト間でリストに含まれる特徴語を比較する。この結果、含まれる特徴語が同じである関連単語リスト間については重複排除処理603をして1つの関連単語リストにまとめる。この結果、最終的に得られた関連単語リストをサブトピックプロファイル613とし、ワークエリア170に格納する(ステップ1020)。
Next, as shown in FIG. 11, the feature words included in the list are compared between the related word lists related to the feature words. As a result,
以上が、サブトピック抽出プログラム141aでの処理手順である。 The processing procedure in the subtopic extraction program 141a has been described above.
なお、特徴語間のグルーピングについては、第1の実施の形態と同様に、各特徴語に関する関連単語リストを生成する方法で行なうものとしたが、予め設定されたグループ数に基づいて、一般的なクラスタリング手法である最小距離法、最大距離法、群平均法およびK-Means法を用いて特徴語間をグルーピングしてもよいし、その他のグルーピング手法を用いてもよい。 Note that grouping between feature words is performed by a method of generating a related word list for each feature word, as in the first embodiment, but based on a preset number of groups, The feature words may be grouped using a minimum distance method, a maximum distance method, a group average method, and a K-Means method, which are simple clustering methods, or other grouping methods may be used.
次に、検索結果分類制御部102−140における、図10に示したサブトピック抽出プログラム141aの具体的な処理の流れについて図11を用いて説明する。まず、単語間関連度取得処理1101により、関連度辞書1111を参照することで、各特徴語間の単語間関連度1112を取得する。本図の実施例では、特徴語「H-company」と特徴語「satellite」の単語間関連度は、関連語辞書1111から“0.15”となる。以降、グルーピング処理602および重複排除処理603については、第1の実施の形態と同様な処理を行なう。
Next, a specific processing flow of the subtopic extraction program 141a shown in FIG. 10 in the search result classification control unit 102-140 will be described with reference to FIG. First, the word-to-word association
以上が、サブトピック抽出プログラム141aの具体的な処理の流れである。 The above is the specific processing flow of the subtopic extraction program 141a.
[第3の実施の形態]
次に、本発明に係る第3の実施の形態について図12、図13および図14を用いて説明する。
[Third Embodiment]
Next, a third embodiment according to the present invention will be described with reference to FIG. 12, FIG. 13, and FIG.
第1の実施の形態におけるサブトピックラベル生成制御プログラム150では、サブトピックラベルの生成方法として、サブトピックプロファイルに含まれる特徴語を単に抽出するだけのものであった。しかし、単なる特徴語の羅列よりも文章の形で提示した方が特徴語間の関係が分かるため、サブトピックの内容が把握しやすい。このため、本発明に係る第3の実施の形態におけるサブトピックラベル生成制御プログラム150aでは、サブトピックの内容が理解しやすいように、サブトピックラベルを文、段落、節および章のような文章の形で生成する。即ち、サブトピックラベル生成制御プログラム150aで生成された各サブトピック(各関連単語リスト)に含まれる特徴語を用いて、文、段落、節および章のうち少なくとも1つ以上を、各分類に対する識別情報とする。
In the subtopic label
本第3の実施の形態では、図1に示した第1の実施の形態とほぼ同様の構成を取るが、サブトピックラベル生成制御部102−150でのサブトピックラベル生成制御プログラム150の構成が異なる。図12に示すように本第3の実施の形態におけるサブトピックラベル生成制御プログラム150aには、ラベル用特徴語抽出プログラム151の代わりに、テキストブロック分割プログラム1201とラベル用ブロック抽出プログラム1202が新たに加わるとともに、適合度算出プログラム161を呼び出す構成をとる。
In the third embodiment, the configuration is almost the same as that of the first embodiment shown in FIG. 1, but the configuration of the subtopic label
以下、サブトピックラベル生成制御部102−150における、第1の実施の形態とは異なるサブトピックラベル生成制御プログラム150aの処理手順について、図13に示すPAD図を用いて説明する。
Hereinafter, the processing procedure of the subtopic label
まず、すべてのサブトピックについて、ステップ1310およびステップ1320を繰り返し実行する(ステップ1300)
次に、該サブトピックに分類されたすべての適合テキストについて、ステップ1311〜ステップ1312を繰り返し実行する(ステップ1310)。
First,
Next,
まず、テキストブロック分割プログラム1201を起動し、適合テキストを文などのブロックに分割する(ステップ1311)。
First, the text
次に、該適合テキストのすべてのブロックについて、ステップ1313を繰り返し実行する(ステップ1312)。
Next,
適合度算出プログラム161を起動し、サブトピックプロファイルの特徴語の総数およびブロックに含まれる特徴語の数を用いて、次の(6)式によりサブトピックに対するブロックの適合度(以下、ブロック別適合度と呼ぶ)を算出する(ステップ1313)。
The
サブトピックスに対するブロック別適合度=(ブロックに含まれる特徴語の数)/(サブトピックプロファイルの特徴語の総数) (6)
次に、ラベル用ブロック抽出プログラム1202を起動し、該サブトピックについてブロック別適合度が最も高く付与されたブロックを該サブトピックのサブトピックラベルとする(ステップ1320)。
Relevance by block to subtopics = (number of feature words included in block) / (total number of feature words of subtopic profile) (6)
Next, the label
以上が、サブトピックラベル生成制御プログラム150aの処理手順である。
なお、上記ステップ1313におけるブロック別適合度の算出方法については(6)式を用いたが、ベクトル空間法における余弦尺度など他の適合度算出式を適用してもよい。
The above is the processing procedure of the subtopic label
Note that the formula (6) is used for the calculation method of the block-by-block fitness in
また、上記ステップ1320については、各サブトピックについてブロック別適合度が最も高く付与されたブロックをサブトピックラベルとしたが、そのブロックが複数存在する場合は該適合テキストの検索条件に対する適合度、サブトピック別適合度および該ブロックの出現位置等を用いてブロックを一意に決めてもよいし、その他の方法を用いてもよい。また、ブロック別適合度が予め設定されたブロック別適合性判定閾値を越えたブロックについて複数のブロックをサブトピックラベルとしてもよい。これにより、サブトピックの内容を詳細に提示することができる。
In
また、サブトピックラベル生成制御プログラム150aでは、サブトピックラベルを生成するための情報源としてすべての適合テキストを対象としたが、適合度算出プログラム161で算出された検索条件に対する適合度やサブトピック別適合度に閾値を設け、それぞれ閾値を越えた適合テキストのみを対象としてもよい。これにより、検索者にとって精度の高いトピックラベルを提示することができる。また、検索条件が種文章の場合は、サブトピックラベルを生成するための情報源として、適合テキストだけでなく種文章を対象としてもよい。これにより、検索者の検索目的にあったトピックラベルを提示することができる。
Further, in the subtopic label
また、検索条件が種文章の場合は、サブトピックラベルを生成するための情報源として、適合テキストだけでなく種文章を対象としてもよい。これにより、検索者の検索目的にあったトピックラベルを提示することができる。即ち、トピックラベル生成ステップ(識別情報付与ステップ)において、検索条件が種文章の場合は,種文章と関連単語リストに関連付けられた適合文書(適合テキスト)との少なくとも一方を用いて適合度算出プログラム161に基づく要素別(ブロック別)適合度算出およびラベル用要素抽出プログラムに基づく分類識別用要素判定を行なうことを特徴とする。
Further, when the search condition is a seed sentence, not only the matching text but also the seed sentence may be targeted as an information source for generating the subtopic label. Thereby, the topic label suitable for the search purpose of the searcher can be presented. That is, in the topic label generation step (identification information adding step), when the search condition is a seed sentence, a fitness calculation program using at least one of the seed sentence and the relevant document (relevant text) associated with the
以下、サブトピックラベル生成制御部102−150における、第1の実施の形態とは異なるサブトピックラベル生成制御プログラム150aの具体的な処理の流れについて図14を用いて説明する。
Hereinafter, a specific processing flow of the subtopic label
まず、サブトピック1に関するサブトピックラベルを生成するために、本図ではサブトピックプロファイル502からサブトピック1のサブトピックプロファイル1413と、分類判定結果506からサブトピック1の分類に属する文書2の適合テキスト1414が選択されている。
First, in order to generate a subtopic label related to
次に、テキストブロック分割プログラム1201が起動され、適合テキストをブロックに分割する。本図の実施例では、文書2に対してピリオドをブロックの境界文字列としてブロックに分割している。この結果、ブロック1〜ブロック4の4つのブロックに分割され、ブロック分割結果1410が得られている。
Next, the text
次に、適合度算出プログラム161が起動され、適合テキストの各ブロックに対してサブトピックプロファイルに対するブロック別適合度を上記(6)式を用いて算出する。本図の実施例では、サブトピック1に対する文書2のブロック1〜ブロック4のブロック別適合度として、“0.6”、“0.3”、“0.0”、“0.1”が算出されている。
Next, the fitness
上記のブロックの分割処理およびブロック別適合度の算出処理を、該サブトピックの分類に属するすべての適合テキストに対して行なう。この結果、本図ではサブトピック1の分類に属するすべての適合テキストに関するブロック別適合度結果1411が得られている。なお、本図のブロック別適合度結果1411の“D”は文書番号、“B”はブロック番号を示している。
The block dividing process and the block-specific fitness calculation process are performed on all the matching texts belonging to the subtopic classification. As a result, in this drawing, the block-by-
次に、ラベル用ブロック抽出プログラム1202が起動され、ブロック別適合度結果1411からブロック別適合度が最も高いブロックを抽出し、抽出されたブロックをサブトピックラベルとする。本図の実施例では、文書2のブロック4のブロック別適合度が最も高いため、サブトピック1のサブトピックラベル1412を「H-company BBB's Series with technology is truly the ultimate in plasma television.」としている。
Next, the
以上が、サブトピックラベル生成制御プログラム150aの具体的な処理の流れである。これら一連の処理を、すべてのサブトピックについて行なう。
The above is the specific processing flow of the subtopic label
以上説明したように、本発明に係る第3の実施の形態によれば、検索者は各サブトピックがそれぞれどんな内容であるかを容易に理解することができるため、目的文書を効率よくかつ適切に探し出すことができる。 As described above, according to the third embodiment of the present invention, the searcher can easily understand what each subtopic is, so that the target document can be efficiently and appropriately stored. To find out.
以上説明したように、本発明の実施の形態によれば、検索結果集合文書を分類して表示する際に、各分類に関する識別情報(サブトピックプロファイル502、サブトラピックラベル503、検索条件適合度501、サブトピック別適合度504、適合性判定閾値505など)を付与する識別情報付与ステップを有することを特徴とする。
As described above, according to the embodiment of the present invention, when a search result set document is classified and displayed, identification information (
また、上記識別情報付与ステップにおいて、関連単語リスト生成ステップで生成された各関連単語リストに含まれる特徴語を、上記各分類に対する識別情報とすることを特徴とする。 In the identification information providing step, the characteristic word included in each related word list generated in the related word list generating step is used as identification information for each classification.
また、上記識別情報付与ステップにおいて、関連単語リスト生成ステップで生成された各関連単語リストに含まれる特徴語を用いて、文、段落、節および章のうち少なくとも1つ以上を、上記各分類に対する識別情報とすることを特徴とする。 Further, in the identification information adding step, at least one or more of sentences, paragraphs, sections and chapters are assigned to the respective classifications using the feature words included in each related word list generated in the related word list generating step. The identification information is used.
また、上記識別情報付与ステップにおいて、関連単語リスト生成ステップで生成された関連単語リストに関連付けられ、分類判定ステップでの分類判定結果としての適合文書に含まれる文、段落、節および章の要素に対して、適合度算出プログラム161に基づく前記関連単語リストに対する要素別適合度1411を算出する要素別適合度算出ステップと、該要素別適合度算出ステップにより算出された関連単語リストに対する要素別適合度1411から、例えばラベル用ブロック抽出プログラム1202により、関連単語リストに関する分類の識別情報として用いる要素1412を判定する分類識別用要素判定ステップとを含むことを特徴とする。
Further, in the identification information adding step, it is associated with the related word list generated in the related word list generating step and included in the sentence, paragraph, section and chapter elements included in the conforming document as the classification determination result in the classification determination step. On the other hand, an element-by-element suitability calculation step for calculating the element-by-
また、上記識別情報付与ステップ(ラベル生成ステップ)において、検索条件が種文章の場合は、種文章と関連単語リストに関連付けられた適合文書と少なくとも一方を用いて前記要素別適合度算出ステップおよび前記分類識別用要素判定ステップを行なうことを特徴とする。 In the identification information providing step (label generation step), when the search condition is a seed sentence, the element-specific suitability calculation step using the seed sentence and the relevant document associated with the related word list and at least one of A classification identifying element determination step is performed.
100…ディスプレイ、101…キーボード、102…中央演算処理装置(CPU)、102−110…システム制御部、102−120…登録制御部、102−130…検索制御部、102−140…検索結果分類制御部、102−150…サブトピックラベル生成制御部、102−161…適合度算出部、103…磁気ディスク装置、104…フレキシブルディスクドライブ(FDD)、105…主メモリ、106…バス、107…ネットワーク、108…フレキシブルディスク、
110…システム制御プログラム、120…登録制御プログラム、130…検索制御プログラム、121…文書ファイル取得ファイル、122…テキスト登録プログラム、131…検索条件取得プログラム、132…特徴語抽出プログラム、133…テキスト読込プログラム、134…検索結果出力プログラム、140…検索結果分類制御プログラム、141…サブトピック抽出プログラム、142…分類判定プログラム、150…サブトピックラベル生成制御プログラム、151…ラベル用特徴語抽出プログラム、160…共有ライブラリ、161…適合度算出プログラム、170…ワークエリア、180…テキスト、150a…サブトピックラベル生成制御プログラム、500…特徴語、501…適合テキスト、502…サブトピックプロファイル、503…サブトピックラベル、504…サブトピック別適合度、505…サブトピック適合性判定閾値、506…分類判定結果、510…種文章、600…出現パターン生成処理、601…単語間関連度算出処理、602…グルーピング処理、603…重複排除処理、610…出現パターン、611…単語間関連度、612…関連単語リスト、613…サブトピックプロファイル、700、800…検索結果一覧表示、900…検索結果、901…サブトピック1の検索結果一覧表示、1101…単語間関連度取得、1111…関連語辞書、1201…ブロック分割プログラム、1202…ラベル用ブロック抽出プログラム、1410…ブロック分割結果、1411…ブロック別適合度結果、1412…サブトピック1のサブトピックラベル、1413…選択されたサブトピックプロファイル、1414…選択された文書2の適合テキスト。
DESCRIPTION OF
DESCRIPTION OF
Claims (7)
前記検索条件として入力された文書から複数の特徴語を抽出する特徴語抽出手段と、
前記特徴語抽出手段から抽出された前記特徴語を用いて検索対象文書を検索し、その結果、前記特徴語が含まれた複数の適合文書を取得し、取得した前記複数の適合文書のそれぞれに対して前記特徴語抽出手段で抽出された複数の前記特徴語からなる組み合わせの出現有無を判定し、該出現有無の判定結果に基づいて前記特徴語間の関連性を判定し、関連する特徴語間をまとめた関連単語リストを生成する関連単語リスト生成手段と、
前記関連単語リスト生成手段で生成された各関連単語リストに対する適合文書の関連単語リスト適合度を算出する関連単語リスト適合度算出手段と、
前記関連単語リスト適合度算出手段で算出された関連単語リスト適合度から、該適合文書の該関連単語リストに対する適合度を判定し、該適合度が高いと判定された場合には該適合文書を該関連単語リストに関連付けて保持する分類判定手段と、
前記分類判定手段で各関連単語リストに関連付けられた適合文書集合に対して、分類の識別情報を付与する分類識別情報付与手段と、
前記分類識別情報付与手段で生成された識別情報を各分類に付与して、前記文書集合を表示する検索結果表示手段と
を有することを特徴とする検索結果提示装置。 In a search result presentation device that classifies and displays search results for search conditions ,
Feature word extraction means for extracting a plurality of feature words from the document input as the search condition ;
Searching the target document using the feature words extracted from the feature word extraction unit, as a result, to obtain a plurality of relevant documents to the feature words is included, to each of the plurality of relevant documents retrieved feature words the determined appearance whether the combination comprising a plurality of said characteristic word extracted by the feature word extraction means, to determine the relationship between the characteristic word, based on the output current existence determination results related for A related word list generating means for generating a related word list that summarizes the interval;
Related word list relevance calculating means for calculating the related word list relevance of the corresponding document for each related word list generated by the related word list generating means;
From the related word list fitness calculating means associated word list fitness calculated by, determining the degree of conformity the related word list of the relevant documents, the relevant documents in the case where it is determined that the matching degree is higher Classification determination means for holding in association with the related word list;
Classification identification information giving means for assigning classification identification information to the matching document set associated with each related word list by the classification determination means;
A search result display device comprising: search result display means for displaying the document set by adding the identification information generated by the classification identification information adding means to each classification.
さらに、前記指定された検索条件に対する適合文書の検索条件適合度を算出する検索条件適合度算出手段と、
検索結果の表示時に、前記分類判定手段で判定された結果に基づいて各関連単語リスト別に適合文書を、前記検索条件適合度算出手段で算出された検索条件適合度あるいは前記関連単語リスト適合度算出手段で算出された関連単語リスト適合度のいずれかの降順で表示する手段
を有することを特徴とする検索結果提示装置。 The search result presentation device according to claim 1,
Further, a search condition conformity calculation means for calculating a search condition conformance of a conforming document with respect to the specified search condition,
At the time of display of the search result, based on the result determined by the classification determination means, the relevant document is classified for each related word list, the search condition fitness calculated by the search condition fitness calculation means or the related word list fitness calculation A search result presentation device comprising means for displaying in descending order of the degree of matching of the related word list calculated by the means.
さらに、前記分類判定手段で判定された結果に基づいて、各関連単語リスト別にそれぞれ関連付けられた適合文書の件数を表示する関連単語リスト別文書件数表示手段を有することを特徴とする検索結果提示装置。 The search result presentation device according to claim 1,
The retrieval result presentation device further comprises a related word list document number display means for displaying the number of relevant documents associated with each related word list based on the result determined by the classification determination means. .
前記分類識別情報付与手段は、前記関連単語リスト生成手段で生成された各関連単語リストに含まれる特徴語を各分類の識別情報とする手段を有することを特徴とする検索結果提示装置。 The search result presentation device according to claim 1,
The said classification identification information provision means has a means to use the characteristic word contained in each related word list produced | generated by the said related word list production | generation means as identification information of each classification | category.
前記分類識別情報付与手段は、
前記分類判定手段により前記関連単語リストに関連付けられた適合文書に含まれる文、段落、節および章の要素に対して、該関連単語リストに対する要素別適合度を算出する要素別適合度算出手段と、
前記要素別適合度算出手段により算出された該関連単語リストに対する要素別適合度から、各分類の識別情報として用いる要素を判定する分類識別情報要素判定手段
を有することを特徴とする検索結果提示装置。 The search result presentation device according to claim 1,
The classification identification information giving means is
Element-by-element fitness calculation means for calculating element-by-element compatibility for the related word list with respect to elements of sentences, paragraphs, sections, and chapters included in the matching document associated with the related word list by the classification determination means; ,
A search result presentation device comprising classification identification information element determination means for determining an element to be used as identification information for each classification from the element-specific fitness for the related word list calculated by the element-specific fitness calculation means .
前記分類識別情報付与手段は、
検索条件が種文章の場合は、種文章に含まれる文、段落、節および章の要素に対して、該関連単語リストに対する要素別適合度を算出する要素別適合度算出手段と、
前記要素別適合度算出手段により算出された該関連単語リストに対する要素別適合度から、各分類の識別情報として用いる要素を判定する分類識別情報要素判定手段
を有することを特徴とする検索結果提示装置。 The search result presentation device according to claim 1,
The classification identification information giving means is
When the search condition is a seed sentence, element-by-element suitability calculation means for calculating the element-by-element suitability for the related word list for the sentence, paragraph, section, and chapter elements included in the seed sentence;
A search result presentation device comprising classification identification information element determination means for determining an element to be used as identification information for each classification from the element-specific fitness for the related word list calculated by the element-specific fitness calculation means .
前記関連単語リスト生成手段は、前記検索条件が特徴語及び前記特徴語の論理関係を含む論理演算式の場合に、前記論理演算式を積和標準形に変換し、変換された前記積和標準形の積で関連付けられたキーワード集合をまとめた関連単語リストを生成することを特徴とする検索結果提示装置。 The search result presentation device according to claim 1,
The related word list generation means converts the logical operation expression into a product-sum standard form when the search condition is a logical operation expression including a feature word and a logical relationship between the feature words, and the converted product-sum standard A search result presentation device, characterized by generating a related word list in which a set of keywords associated with a product of shapes is collected.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004167287A JP4972271B2 (en) | 2004-06-04 | 2004-06-04 | Search result presentation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004167287A JP4972271B2 (en) | 2004-06-04 | 2004-06-04 | Search result presentation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005346560A JP2005346560A (en) | 2005-12-15 |
JP4972271B2 true JP4972271B2 (en) | 2012-07-11 |
Family
ID=35498856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004167287A Expired - Fee Related JP4972271B2 (en) | 2004-06-04 | 2004-06-04 | Search result presentation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4972271B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4547500B2 (en) * | 2006-07-21 | 2010-09-22 | 国立大学法人群馬大学 | Search device and program |
JP5347334B2 (en) * | 2008-05-29 | 2013-11-20 | 富士通株式会社 | Summary work support processing method, apparatus and program |
US20120117068A1 (en) * | 2009-07-07 | 2012-05-10 | Nec Corporation | Text mining device |
JP6230190B2 (en) * | 2014-01-09 | 2017-11-15 | 日本放送協会 | Important word extraction device and program |
JP7284371B2 (en) * | 2018-12-13 | 2023-05-31 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing method, and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115841A (en) * | 1997-06-24 | 1999-01-22 | Fuji Xerox Co Ltd | Information retrieving device and medium recording information retrieving program |
JPH11154164A (en) * | 1997-11-21 | 1999-06-08 | Hitachi Ltd | Adaptability calculating method in whole sentence search processing and storage medium storing program related to the same |
JP3918374B2 (en) * | 1999-09-10 | 2007-05-23 | 富士ゼロックス株式会社 | Document retrieval apparatus and method |
JP2002183194A (en) * | 2000-12-15 | 2002-06-28 | Ricoh Co Ltd | Device and method for generating retrieval expression |
-
2004
- 2004-06-04 JP JP2004167287A patent/JP4972271B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005346560A (en) | 2005-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122400B (en) | Method, computing system and storage medium for refining query results using visual cues | |
KR101160597B1 (en) | Content retrieval based on semantic association | |
JP3820242B2 (en) | Question answer type document search system and question answer type document search program | |
US7769771B2 (en) | Searching a document using relevance feedback | |
US9015175B2 (en) | Method and system for filtering an information resource displayed with an electronic device | |
US8332208B2 (en) | Information processing apparatus, information processing method, and program | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
JP2005122295A (en) | Relationship figure creation program, relationship figure creation method, and relationship figure generation device | |
JP2003223437A (en) | Method of displaying candidate for correct word, method of checking spelling, computer device, and program | |
US20050131931A1 (en) | Abstract generation method and program product | |
US20040070624A1 (en) | Program and method for displaying a radar chart | |
JP2018120286A (en) | Advertisement creation support program, device, and method | |
KR20060095572A (en) | Screen-wise presentation of search results | |
JP4972271B2 (en) | Search result presentation device | |
JP5577546B2 (en) | Computer system | |
US20150253942A1 (en) | Grasping contents of electronic documents | |
Riehmann et al. | Visualizing a thinker's life | |
JP5112027B2 (en) | Document group presentation device and document group presentation program | |
JP7443667B2 (en) | Search device, dictionary search program, dictionary search method | |
JP2007233752A (en) | Retrieval device, computer program and recording medium | |
KR20010092515A (en) | Method and system for learning a language | |
WO2010103916A1 (en) | Device for presentation of characteristic words in document and program giving priority of characteristic words | |
JP2008134954A (en) | Information processing device, its control method, and program | |
JP5219543B2 (en) | Information processing apparatus, information processing method, and program | |
JP2009199164A (en) | Document management device, document management method and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060811 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090519 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091021 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091117 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100216 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100302 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20100326 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120220 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |