JP2009245179A - 文書検索支援装置 - Google Patents

文書検索支援装置 Download PDF

Info

Publication number
JP2009245179A
JP2009245179A JP2008091266A JP2008091266A JP2009245179A JP 2009245179 A JP2009245179 A JP 2009245179A JP 2008091266 A JP2008091266 A JP 2008091266A JP 2008091266 A JP2008091266 A JP 2008091266A JP 2009245179 A JP2009245179 A JP 2009245179A
Authority
JP
Japan
Prior art keywords
search
document
candidate
terms
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008091266A
Other languages
English (en)
Inventor
Naoshi Kono
尚士 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2008091266A priority Critical patent/JP2009245179A/ja
Publication of JP2009245179A publication Critical patent/JP2009245179A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書検索にともなうユーザの負担を軽減する。
【解決手段】文書検索支援装置は、指定検索語を含む文書ファイルを候補文書として抽出する。候補文書のうち、目的文書と内容において類似する文書ファイルが類似文書として選択されると、類似文書に含まれる用語を候補用語として抽出し、所定文書ファイル群における候補用語の稀少度に応じて各候補用語を順位づけする。そして、目的文書を検索するために好適な検索語として、所定順位以上に位置する候補用語をユーザに提示する。
【選択図】図1

Description

本発明は、文書検索技術に関する。
コンピュータの普及とネットワーク技術の進展にともない、ネットワークを介した電子情報の交換が盛んになっている。従来においては紙ベースで行われていた事務処理の多くが、ネットワークベースの処理に置き換えられつつある。デジタル化とネットワーク技術の進展は、情報取得コストを急激に低下させている。このような状況において、大量の文書ファイルの中から所望の文書ファイルを検索する技術の重要性が高まっている。
特開2002−015001号公報
一般的な文書検索方法においては、ユーザは、まず1以上の単語を「検索語」として入力する。通常、検索対象となる文書ファイル(以下、「目的文書」とよぶ)に含まれていると思われる単語が、検索語として選択される。複数の検索語を組み合わせたさまざまな検索式を試みることにより、目的文書を特定する。このような文書検索方法の場合、どのような検索式を作るか、いいかえれば、どのような検索語をどのように組み合わせるか、が目的文書検出の成否を決定づける。しかし、検索式の作成は、経験や勘といった属人的スキルに大きく依存するため、ユーザの負担が大きい。また、目的文書に確実に含まれている単語についてのイメージがなければ、好適な検索式を作成しにくい。
別の文書検索方法として、概念検索とよばれる技術がある(たとえば、特許文献1参照)。概念検索は、ユーザから入力された自然文と関連する内容の文書ファイルを検索する技術である。目的文書の概略を自然文形式にて入力することにより目的文書を検索できるため、ユーザは検索式を作成する負担から解放される。しかし、目的文書の検出に失敗した場合、検索失敗した自然文のどこをどのように直せばより好適な検索結果が得られるのかわからないため、検索の失敗を次の検索のために活かしにくい。
本発明は、上記課題に基づいて完成された発明であり、その主たる目的は、文書検索にともなうユーザの負担を軽減し、文書検索を効率化するための技術、を提供することにある。
本発明のある態様は、文書検索支援装置に関する。
この装置は、目的文書と内容において類似する文書ファイルを類似文書として取得し、類似文書に含まれる用語を候補用語として抽出し、所定の文書ファイル群における候補用語の稀少さに応じて各候補用語を順位づけする。そして、目的文書を検索するために好適な検索語として、所定順位以上に位置する候補用語をユーザに提示する。
類似文書は1つである必要はなく、複数であってもよい。複数の類似文書から候補用語を抽出する場合には、複数の類似文書のいずれかに含まれている用語を候補用語として抽出してもよいし、複数の類似文書のいずれにも共通して含まれている用語を候補用語として抽出してもよい。
「用語」は、いわゆる「形態素」であってもよいし、形態素の組み合わせであってもよい。たとえば、「ユーザインタフェース」という用語から「ユーザ」と「インタフェース」という2つの用語を更に抽出してもよい。
なお、以上に示した各構成要素の任意の組み合わせ、本発明を方法、システム、記録媒体、コンピュータプログラムにより表現したものもまた、本発明の態様として有効である。
本発明によれば、文書検索におけるユーザの負担を軽減し、効率的な文書検索を実現できる。
図1は、本実施例における文書検索の概要図である。
特許データベースから、所望の公開特許公報を「目的文書」として検出する状況を想定する。特許データベースは、「特許電子図書館」などの既存データベースであってもよい。以下、特許データベースなどの文書データベースに格納され、検索対象となる文書ファイル群のことを、「コーパス(corpus)」とよぶ。
目的文書は、「立体視」に関する発明の公開特許公報であるとする。目的文書に含まれる用語としては、「仮想現実」、「仮想環境」、「仮想空間」、「座標系」、「立体視」、「3次元」、「視覚」、・・・などが考えられる。ユーザは、まず、目的文書に確実に含まれていると思われる「立体」を検索語として入力したとする。以下、ユーザにより明示的に入力される検索語のことを「指定検索語」とよぶ。
S1.検索処理:
指定検索語「立体」を含む公開特許広報を「候補文書」として検出する。通常、「立体」という文字列を含む候補文書の数は膨大である。候補文書の多くは、仮想現実感技術以外の技術に関する内容である。ユーザは、これらの候補文書群から、目的文書と内容的に類似性が高いと思われる候補文書を「類似文書」として選択する。たとえば、仮想現実感に関する記述が含まれている候補文書が選択される。ユーザは、20〜30件程度の候補文書を概観し、そのうち3件を類似文書として選択したとする。
S2.抽出処理:
各類似文書に含まれる用語を「候補用語」として抽出する。類似文書に含まれている候補用語は、目的文書にも含まれている可能性が高い。
S3.順位処理:
候補用語を、重要度に応じて順位づけする。重要度に基づく順位のことを「重要順位」とよぶ。候補用語の重要度は、類似文書中における出現回数や出現位置、コーパス全体からみた稀少性などに基づいて算出される。重要度の算出方法については、図3に関連して詳述する。重要度が高い候補用語ほど、目的文書を特定する上で有用な検索語となる可能性が高い。重要順位が所定順位以上、たとえば、上位20位以内の候補用語を新たな検索語の候補として提示する。以下、順位処理の結果として提示される検索語のことを「提案検索語」とよぶ。
たとえば、重要順位1位の候補用語は「視差」であったとする。この場合、ユーザは「指定検索語*提案検索語(「*」は論理積、すなわち、AND条件を示す)」という検索式により、再検索を実行すればよい。この例の場合、「立体*視差」という検索式が入力されることになる。この検索式に基づく検索処理(S1)により、「立体」および「視差」の両方を含む候補文書群に絞り込まれることになる。以後のプロセスは同様である。
このような処理方法によれば、指定検索語の追加と類似文書の選択を繰り返すことにより、候補文書の数を徐々に絞り込むことができる。上位20個の提案検索語の中から新たな指定検索語を選択するため、検索式に含まれるべき指定検索語の全てを一から考える必要がない。この結果、検索語や検索式を作成する負担が大幅に軽減される。
従来の文書検索方法においては、一つの検索式を作成して文書検索を実行したあと、その検索式、特に、その検索式に含まれていた検索語が適切でないことが判明し、まったく別の検索式を一から作成して文書検索を実行することも多い。概念検索の場合にも、自然文を作成して文書検索を実行したあと、その自然文が適切でないことが判明し、まったく別の自然文を一から作成して文書検索を実行することも多い。
一方、本実施例における文書検索方法によれば、合理的に検索語を増やしつつ徐々に候補文書の数を絞り込める。このため、何度も検索式を一から作り直さなくて済む。たとえば、「立体*視差」という検索式で絞り込んだときの検索結果が好適でなければ、重要順位1位の「視差」の代わりに重要順位2位の「仮想」を採用し、「立体*仮想」という検索式にて再検索を実行すればよい。あるいは、「立体*(視差+仮想)(「+」は論理和、すなわち、OR条件を示す)」という検索式を採用してもよい。「立体」のような一般的な指定検索語から徐々に検索範囲を狭めることにより、目的文書に到達しやすくなる。
なお、必ずしも候補文書から類似文書を選択する必要はなく、所定の類似文書をそのまま入力してもよい。たとえば、ある論文原稿や設計文書に含まれるアイディアについて特許出願を考えている場合、これらの論文原稿等を類似文書として入力すれば、このアイディアと内容的に近い発明が既に出願されているか否かを判断しやすくなる。
図2は、文書検索支援装置100の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
文書検索支援装置100は、IF(インタフェース)部110、データ処理部140およびデータ保持部160を含む。
IF部110は、ユーザやコーパスとのインタフェースを担当する。データ処理部140は、IF部110やデータ保持部160から取得されたデータを元にして各種のデータ処理を実行する。データ保持部160は、IF部110とデータ保持部160との間のインタフェースの役割も果たす。データ保持部160は、各種データを保持するための記憶領域である。
IF部110:
IF部110は、文書取得部112、検索式取得部120、提示部126および検索実行部132を含む。文書取得部112と検索実行部132は主としてコーパスとのインタフェースを担当し、検索式取得部120と提示部126は主としてユーザとのインタフェースを担当する。
文書取得部112は、各種文書ファイルを取得する。文書取得部112は、類似文書取得部114、非類似文書取得部116および候補文書取得部118を含む。候補文書取得部118は、検索処理(S1)の結果として特定される候補文書をコーパスから取得する。類似文書取得部114は、候補文書のうち、ユーザに選択された類似文書をコーパスから取得する。類似文書取得部114は、ユーザから直接、類似文書を取得してもよい。非類似文書取得部116は、目的文書と内容において非類似の文書ファイルを「非類似文書」として取得する。非類似文書取得部116も、ユーザから直接、非類似文書を取得してもよい。非類似文書については、図5や図6に関連して詳述する。
検索式取得部120は、目的文書を検索するための各種検索式の入力を受け付ける。検索式には、1以上の指定検索語が含まれる。検索式取得部120は、検索語取得部122を含む。検索語取得部122は、検索式に含まれる指定検索語を抽出する。
提示部126は、ユーザに各種情報を提示する。提示部126は、検索語提示部128と検索式提示部130を含む。検索語提示部128は、提案検索語や後述の「関連検索語」、「除外検索語」を画面表示させる。検索式提示部130は、更に、提案検索語等を含む好適な検索式をユーザに提示する。検索式提示部130により提示される検索式については、図4や図7に関連して後述する。
検索実行部132は、指定された検索式にしたがって、文書検索を実行する。検索実行部132の機能は、文書検索支援装置100以外の装置により実現されてもよい。
データ保持部160:
データ保持部160は、関連テーブル保持部162を含む。関連テーブル保持部162は、「関連テーブル」を保持する。関連テーブルにおいては、一の用語と別の用語が対応づけられる。たとえば、ある用語について、その類義語にあたる用語が対応づけられる。関連テーブルの詳細については、図4に関連して後述する。
データ処理部140:
データ処理部140は、用語抽出部142、関連処理部148および順位設定部154を含む。用語抽出部142は、文書ファイルから用語を抽出する。用語抽出部142は、候補用語抽出部144と不適用語抽出部146を含む。候補用語抽出部144は、類似文書中の用語を候補用語として抽出する。不適用語抽出部146は、非類似文書中の用語を「不適用語」として抽出する。
順位設定部154は、候補用語の重要度を算出し、各候補用語に重要順位を設定する。所定順位以内、たとえば、20位以内の候補用語は、検索語提示部128により提案検索語としてユーザに示される。同様に、順位設定部154は、不適用語の重要度を算出し、各不適用語に順位を設定する。不適用語の重要度に基づく順位のことを「不適順位」とよぶ。
関連処理部148は、関連検索語に関する処理を担当する。関連処理部148は、関連検索語特定部150と関連テーブル更新部152を含む。関連検索語特定部150は、提案検索語が特定されたとき、関連テーブルにおいて提案検索語と対応づけられている用語を関連検索語として特定する。関連テーブル更新部152は、ユーザにより入力された検索式に基づいて関連テーブルを更新する。たとえば、ユーザが「コンテキストスイッチ」と「タスクスイッチ」という2つの指定検索語を含む検索式を入力したとする。この場合、関連テーブル更新部152は、「コンテキストスイッチ」と「タスクスイッチ」を対応づけて、関連テーブルに登録する。
図3は、提案検索語を特定するまでの処理過程を示す概念図である。
まず、ユーザが指定検索語として文字列「自然言語」を入力したとする。検索語取得部122は指定検索語として文字列「自然言語」を取得し、検索実行部132は文字列「自然言語」を含む公開特許公報を候補文書として検出する。候補文書取得部118は候補文書をコーパスから取得する。ユーザは、このうち公開特許公報A〜Cを類似文書として選択したとする。類似文書取得部114は、類似文書をコーパスから、あるいは、既に取得した候補文書群から取得する。
類似文書Aからは、「異音語」、「入力文」、「コーパス」、「学習データ」、「分類器」、「特徴ベクトル」などのさまざまな候補用語が抽出される。類似文書Aにおける出現回数が所定回数以内、たとえば、3回以内の用語は、抽出対象外としてもよい。同様にして、類似文書B、Cからもさまざまな候補用語が抽出される。ただし、あらかじめ辞書登録されている一般用語は検出の対象とはならない。たとえば、「しかし」、「または」などの接続詞、「は」、「に」、「から」などの助詞は候補用語とはならない。また、特許明細書において一般的な「前記」、「装置」、「好適」、「変形例」などの用語を除外してもよい。
本実施例においては、すべての類似文書、すなわち、類似文書A〜Cのいずれにも出現する候補用語だけが以降の分析の対象となる。たとえば、類似文書Aから抽出された「異音語」は、類似文書Bや類似文書Cにおいて、最低1カ所は出現しているものとする。仮に、類似文書Aにおいて「再現率」という用語が頻出していても、類似文書Bから「再現率」が抽出されなければ、「再現率」は後述の個別重要度や総合重要度の算出対象外となる。
順位設定部154は、類似文書ごとに各候補用語の個別重要度を算出する。ここで、「特許請求の範囲」中に出現した候補用語は、その類似文書の内容を示す上で有力な用語である可能性が高い。一方、「願書」中に出現した候補用語はそれほど有力ではないと考えられる。そこで、候補用語の出現場所に応じて、ポイントを割り当てる。本実施例においては、「願書」に出現した候補用語には0ポイント、「特許請求の範囲」と「要約書」には2.0ポイント、「発明の名称」には1.8ポイント、「発明を実施するための最良の形態」には1.0ポイントを割り当てる。「異音語」という候補用語が類似文書Aの「特許請求の範囲」に5回、「発明を実施するための最良の形態」に22回出現している場合には、類似文書Aにおける候補用語「異音語」の個別重要度は、32.0(=2.0×5+1.0×22)となる。同図に示す類似文書Aの場合、1位「学習データ(42.8)」、2位「異音語(32.0)」、3位「コーパス(29.8)」、・・・のように順位づけがなされている。「特許請求の範囲」等の重要箇所において多く出現する候補用語ほど個別重要度が高くなる。類似文書B、Cについても、候補用語の個別重要度が算出される。
次に、各候補用語の個別重要度を統合し、各候補用語の総合重要度を算出する。総合重要度の算出にあたっては、「ベクトル空間法」の考え方を踏襲する。すなわち、所定の文書ファイル群にあまり出現しない稀少な候補用語は、類似文書の内容を示す上で有力な用語であると考えられる。そのため、稀少な候補用語の総合重要度が相対的に高くなるように調整する。逆に、この文書ファイル群において多くの文書ファイル中に出現する平凡な候補用語は、類似文書の内容を示す上でそれほど有力な用語とはなりにくいと考えられる。そのため、一般用語の総合重要度が相対的に低くなるように計算する。
本実施例においては、
候補用語Wiの総合重要度=(n+n+n)・log{(Dn/Rn)+1}
により、各候補用語の総合重要度を算出する。Dnは、コーパスに含まれる文書ファイルの総数を示す。たとえば、特許データベースに含まれる文書ファイルの総数であってもよい。Rnは、コーパスに含まれる文書ファイルのうち、候補用語Wiを含む文書ファイルの数である。log{(Dn/Rn)+1}は、候補用語Wiを含む文書ファイルの数Rnが文書ファイルの総数Dnに比べて少ないほど大きくなる。いいかえれば、候補用語Wiが稀少であるほど大きくなる。n、n、nは、それぞれ、候補用語Wiの類似文書A、B、Cにおける個別重要度を示す。たとえば、候補用語「特徴ベクトル」は、類似文書A〜Cの全てに含まれている。候補用語「特徴ベクトル」は、n=18.4、n=12.2、n=4.3であるため、n+n+n=34.9となる。
個別重要度が高い候補用語ほど、総合重要度が高くなる。また、コーパス全体からみて一部の文書ファイルにしか出現しない稀少な候補用語ほど総合重要度が高くなる。こうして、各類似文書から抽出された候補用語の総合重要度を算出した上で、順位づけを行う。同図に類似文書A〜Cの場合、1位「特徴ベクトル(91.4)」、2位「学習データ(84.8)」、3位「類似度(81.2)」、・・・のように順位づけがなされている。検索式提示部130は、上位20位以内の候補用語を「提案検索語」として画面表示させる。ユーザは、これらの提案検索語の中から、次の指定検索語を選択する。たとえば、「自然言語*特徴ベクトル」や「自然言語*(特徴ベクトル+学習データ)」といった検索式が次の検索式として考えられる。以下、総合重要度のことを単に「重要度」とよぶ。
なお、候補用語の抽出や選定、出現回数、位置、稀少性に基づく重要度の算出は、上記順序にて実行される必要はない。たとえば、類似文書A〜Cに共通してあらわれる用語を候補用語として抽出し、そこから辞書登録されている一般用語を除去し、出現回数に応じて更に候補用語を絞り込み、更に、Dn/Rnが所定値以上となる稀少な候補用語に絞り込んでから、個別重要度や総合重要度を算出してもよい。
図4は、関連テーブルのデータ構造図である。
関連テーブルは、関連テーブル保持部162に格納され、複数の用語が対応づけられて登録されるテーブルである。基本用語欄170は各用語を示す。一般的な文書検索において「スプーン」に関する公開特許公報を探すときには、「スプーン」だけでなく、「スプーン」に近い意味の用語も検索語とすることが多い。たとえば、「さじ」、「サジ」、「匙」などの類義語が候補となり、「スプーン+さじ+サジ+匙」という検索式が作成される。また、「仮想現実」という用語であれば、「人工現実」、「複合現実」という類義語、「ヴァーチャルリアリティ」や「バーチャルリアリティ」という外来語、「VR」という略語も検索語の候補となる。検索漏れを防ぐためには、一つの検索語だけでなく、その検索語と関連性のある別の検索語も考慮する必要がある。
類義語欄172は、基本用語欄170に示される用語の類義語を示す。類義語は、あらかじめ辞書登録されている。たとえば、「スプーン」という用語に対しては、「さじ」、「サジ」、「匙」という類義語が対応づけられている。関連検索語特定部150は、「スプーン」が提案検索語としてリストアップされたときには、関連テーブルを参照して、「さじ」、「サジ」、「匙」を「関連検索語」として特定する。検索語提示部128は、提案検索語だけでなく、その関連検索語も画面表示させる。
たとえば、指定検索語として「フォーク」が入力された結果、提案検索語として「スプーン」が特定されたとする。「スプーン」に対し「さじ」、「サジ」、「匙」は関連テーブルにおいて互いに関連づけられているため、これらはOR条件(+記号)により連結され「検索セット」が形成される。検索式提示部130は、「フォーク*検索セット」、すなわち、「フォーク*(スプーン+さじ+サジ+匙)」という検索式を生成し、画面表示する。「フォーク」の類義語として「フオーク」が登録されている場合、検索式提示部130は、提案検索語だけでなく、指定検索語についての関連検索語も含めて、「(フォーク+フオーク)*(スプーン+さじ+サジ+匙)」という検索式を生成し、画面表示する。
更に、検索式「(フォーク+フオーク)*(スプーン+さじ+サジ+匙)」が入力された結果、提案検索語として「信号」が特定され、「信号」の関連検索語として「シグナル」や「メッセージ」が特定されたとする。このとき、「信号」、「シグナル」、「メッセージ」をOR条件で結びつけた「信号+シグナル+メッセージ」という検索セットが生成され、「(フォーク+フオーク)*(スプーン+さじ+サジ+匙)*(信号+シグナル+メッセージ)」という検索式が生成され、画面表示される。以降も同様である。
関連語欄174は関連語を示す。たとえば、「スプーン+皿」や「スプーン*皿」のように、「スプーン」および「皿」の両方を含む検索式が入力されたとする。このとき、関連テーブル更新部152は、「皿」を「スプーン」の関連語として、あるいは「スプーン」を「皿」の関連語として、関連テーブルに登録する。関連テーブル更新部152は、過去所定回分の検索式を記録しておき、そのうち、特に組み合わせ頻度の高い用語を対応づけて関連テーブルに登録してもよい。たとえば、過去に入力された1000個の検索式において、「皿」と「スプーン」が両方含まれる検索式が所定個数、たとえば、20個以上あれば、「スプーン」と「皿」を対応づけるとしてもよい。また、「皿」そのものだけではなく、「皿」の類義語である「食器」や「dish」が「スプーン」と共に同一検索式に含まれているときにも、「スプーン」と「皿」を対応づけてもよい。このような関連語登録によれば、ベテランのサーチャーが作成した検索式から、好適な関連テーブルを作成することも可能である。たとえば、ベテランのサーチャーが「仮想現実」を指定検索語として入力するとき、その類義語である「人工現実」をOR条件で連結して入力することが多いとする。この場合、未熟なユーザであっても、「仮想現実」の類似概念として「人工現実」という用語が存在することを知ることができるため、検索漏れの少ない検索式を作成しやすくなる。
図5は、不適用語に基づく総合重要度の調整方法を説明するための概念図である。
ユーザは、候補文書の中から類似文書だけでなく、非類似文書を選択してもよい。非類似文書は、目的文書とは内容において非類似とされる文書ファイルである。類似文書と同様、必ずしも候補文書から非類似文書を選択する必要はなく、所定の非類似文書をそのまま入力してもよい。また、候補文書のうち類似文書として選択されなかった候補文書を一律に非類似文書として取り扱ってもよい。不適用語抽出部146は、非類似文書に含まれる用語を「不適用語」として抽出する。順位設定部154は、候補用語の重要度の算出方法と同様のアルゴリズムにて、不適用語の不適度を算出する。
不適用語でもある候補用語は、非類似文書の内容と深く関連している可能性が高いため、類似文書の特徴を示す上で必ずしも適切とはいえない。順位設定部154は、非類似文書から特定した不適用語のうち、不適順位20位以内の不適用語を提案検索語から除外する。同図の場合、類似文書において重要順位3位の候補用語「類似度」は、非類似文書において不適順位4位の不適用語でもあるため、提案検索語から除外される。
変形例として、候補用語が不適用語としてもランキングされているときには、候補用語の重要度から所定値、たとえば、10ポイントを減点してもよい。同図の場合、「類似度」の重要度は、81.2→71.2に調整されることになる。このように、順位設定部154は、不適用語としても抽出された候補用語の重要順位が低くなるように、候補用語の重要度を調整したり、候補用語を提案検索語から除外する。非類似文書に基づく重要順位の調整により、類似文書の特徴を適切に示す候補用語だけが提案検索語としてリストアップされやすくなる。
順位設定部154は、重要順位20位以内の候補用語のそれぞれについて、不適用語群に含まれていないかを検出してもよい。たとえば、重要順位1位の候補用語「コーパス」が、非類似文書の中にも現れているときには、いいかえれば、不適用語群の中に含まれているときには、候補用語「コーパス」を提案検索語から除外したり、あるいは、候補用語「コーパス」の重要度を減点してもよい。候補用語「コーパス」を指定検索語として実行した場合には、類似文書だけでなく非類似文書も検出されることになるため、類似文書の特徴を表す上で有力と判定された候補用語「コーパス」は必ずしも最適な検索語とはいえないかもしれない。こういった観点から、不適用語としても抽出された候補用語の順位が低くなるように、あるいは、ランキング外となるように調整してもよい。
また、不適用語、特に、不適順位の上位圏に位置する不適用語を「除外検索語」として特定してもよい。たとえば、不適用語「実行時間」は、非類似文書の特徴を表す上で有力な用語であり、目的文書は不適用語「実行時間」を含まない文書ファイルである可能性が高い。そこで、「自然言語*(−実行時間)(「(−):マイナス記号」は「除外」を意味する)」のような検索式を入力すれば、「「自然言語」という用語を含み、かつ、「実行時間」という用語を含まない文書ファイル」が検索対象となる。除外検索語の設定により、検索範囲から非類似文書を取り除きやすくなる。
また、不適用語「実行時間」が候補用語群にも含まれいるとき、不適用語「実行時間」を除外検索語とすると、類似文書まで除外されてしまうことになる。そこで、検索語提示部128は、候補用語群に含まれていない不適用語、いいかえれば、類似文書には含まれていない不適用語だけを好適な「除外検索語」としてユーザに提示してもよい。
図6は、本実施例における文書検索方法を応用した検索エンジンの画面図である。
以上においては、特許データベースから公開特許公報を検索するという状況を想定したが、本実施例における文書検索方法は一般的なウェブ検索にも応用可能である。文書検索支援装置100は、ウェブページをクライアント端末に送信し、クライアント端末に検索画面200を表示させる。検索式入力欄202に検索式を入力し、検索ボタン204をクリックすると、結果表示領域208に検索結果がリスト表示される。同図においては、検索式入力欄202に「ワンクリック」という文字列が入力されている。検索ボタン204がクリックされると、「ワンクリック」という文字列を含むウェブページのURI(Uniform Resource Identifier)が結果表示領域208に一覧表示される。ここまでは、一般的な検索エンジンのユーザインタフェースと同様である。
各ページの横にはチェックボックス206が表示される。ユーザは、目的文書と内容において類似していると思われるページには「A」、やや類似していると思われるページには「B」、非類似のページには「X」をそれぞれチェックボックス206に入力する。「A」と「B」が設定されたウェブページが類似文書となり、候補用語が抽出される。Aの類似文書から抽出された候補用語の個別重要度を、Bの類似文書から抽出された候補用語の個別重要度よりも重み付けして、各候補用語の重要度を算出する。「X」が設定されたウェブページは非類似文書となり、不適用語が抽出される。仮に、重要順位1位の提案検索語として「認証」が特定されたとする。このときには、検索式提示部130は、検索式入力欄202に「ワンクリック*認証」という検索式を表示させてもよい。
検索式提案ボタン210をクリックすると、「A」、「B」、「X」等の入力結果に対応して、いくつかの検索式を提案するための検索式提案画面212が表示される。
図7は、検索式提案画面212の画面図である。
検索式提案ボタン210がクリックされると、ダイアログボックス形式にて同図に示す検索式提案画面212が表示される。指定検索語「ワンクリック」に基づく検索結果、および、類似文書と非類似文書の設定の結果として、提案検索語「認証」、「特許」、除外検索語「詐欺」が特定されたとする。説明を簡単にするため、ここでは関連検索語については考慮しないものとする。検索式提示部130は、同図に示すように「ワンクリック*認証」、「ワンクリック*(−詐欺)」、「ワンクリック*特許*(−詐欺)」といったさまざまな組合せの検索式を検索式提案画面212に提示する。ユーザは、各検索式の隣りにあるラジオボタンにより検索式を選択し、再検索ボタン214をクリックする。すると、検索実行部132は、選択された検索式にしたがって、再度ウェブ検索を実行する。このような態様によれば、ユーザは「ワンクリック」を入力したあとは、マウスクリックのみで検索を続行可能となる。
なお、検索式の代わりに、候補用語や不適用語のランキングリストを表示させてもよい。
図8は、検索処理過程を示すフローチャートである。
検索式が入力されると、検索語取得部122は指定検索語を取得する(S10)。検索式に複数の指定検索語が含まれているときには、関連テーブル更新部152は関連テーブルを更新する(S12)。ここでは「仮想現実」という指定検索語のみを含む検索式が入力されたとする。検索実行部132は、検索式に合致する候補文書、いいかえれば、「仮想現実」という文字列を含む候補文書をコーパスから検索し、候補文書取得部118はコーパスから候補文書を抽出する(S14)。ユーザが検索を完了させる場合には(S16のY)、検索結果が画面表示され、処理は終了する(S32)。
検索完了でなければ(S16のN)、類似文書取得部114は、ユーザによる類似文書の選択を受け付け、候補文書群から類似文書を取得する(S18)。候補用語抽出部144は、類似文書から候補用語を抽出する(S20)。非類似文書取得部116は、ユーザによる非類似文書の選択を受け付け、候補文書群から非類似文書を取得する(S22)。不適用語抽出部146は、非類似文書から不適用語を抽出する(S24)。順位設定部154は、候補用語の個別重要度を算出し、更に、(総合)重要度を算出したあと、不適用語群を参照して、候補用語の重要順位を決定する(S26)。検索語提示部128は、提案検索語を画面表示する(S28)。検索式提示部130は、提案検索語を含む検索式を画面表示させる(S30)。
たとえば、指定検索語が「仮想現実」、重要順位1位の提案検索語が「スプーン」、重要順位2位の提案検索語が「フォーク」の場合、「(仮想現実+人工現実+複合現実+・・・)*(スプーン+さじ+サジ+匙+・・・)」や「(仮想現実+人工現実+複合現実+・・・)*(スプーン+さじ+サジ+匙+・・・)*(フォーク+フオーク+・・・)」、あるいは、「(仮想現実+人工現実+複合現実+・・・)*(スプーン+さじ+サジ+匙+・・・+フォーク+フオーク+・・・)」といった検索式が生成される。提案検索語だけでなく除外検索語や、提案検索語と除外検索語を含む検索式を画面表示させてもよい。
ユーザは、提案された検索式を参照しつつ、提案検索語の中から指定検索語を選択する。このとき、任意の関連検索語を指定検索語として選択してもよい。選択した提案検索語や関連検索語に基づいて、新たな検索式を作成する。あるいは、文書検索支援装置100により提案された上記検索式をそのまま採用してもよい。以後、S10以降の処理が繰り返される。
以上、実施例に基づいて文書検索支援装置100を説明した。
文書検索支援装置100によれば、候補文書数を十分に絞り込める検索式を入力しなくても、類似文書や非類似文書の選択を介して、適切な検索語を提案検索語や関連検索語から特定できる。そして提案検索語や関連検索語を検索式に追加しつつ、徐々に候補文書の数を絞り込むことができる。
また、候補用語の類似文書における出現位置やコーパスにおける稀少性、非類似文書における出現頻度等から候補用語の重要度、ひいては、重要順位を算出することにより、目的文書を特定する上で有力な提案検索語が特定されやすくなっている。更に、関連テーブルにより、用語間の関係を設定することにより、検索漏れの発生を防止している。文書検索支援装置100によれば、関連テーブルにより、検索語だけではなくその関連する用語も関連検索語として特定できる。
以上、本発明について実施例をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
本実施例における文書検索の概要図である。 文書検索支援装置の機能ブロック図である。 提案検索語を特定するまでの処理過程を示す概念図である。 関連テーブルのデータ構造図である。 不適用語に基づく総合重要度の調整方法を説明するための概念図である。 本実施例における文書検索方法を応用した検索エンジンの画面図である。 検索式提案画面の画面図である。 検索処理過程を示すフローチャートである。
符号の説明
100 文書検索支援装置、 110 IF部、 112 文書取得部、 114 類似文書取得部、 116 非類似文書取得部、 118 候補文書取得部、 120 検索式取得部、 122 検索語取得部、 126 提示部、 128 検索語提示部、 130 検索式提示部、 132 検索実行部、 140 データ処理部、 142 用語抽出部、 144 候補用語抽出部、 146 不適用語抽出部、 148 関連処理部、 150 関連検索語特定部、 152 関連テーブル更新部、 154 順位設定部、 160 データ保持部、 162 関連テーブル保持部、 170 基本用語欄、 172 類義語欄、 174 関連語欄、 200 検索画面、 202 検索式入力欄、 204 検索ボタン、 208 結果表示領域、212 検索式提案画面、214 再検索ボタン。

Claims (13)

  1. 文書ファイルの検索を支援するための装置であって、
    所望の文書ファイルと内容において類似する文書ファイルとして、ユーザにより選択された類似文書を取得する類似文書取得部と、
    前記類似文書に含まれる用語を候補用語として抽出する候補用語抽出部と、
    所定の文書ファイル群において出現頻度が少ない候補用語ほど順位が高くなるように、類似文書から抽出された候補用語を順位づけする順位設定部と、
    前記所望の文書ファイルを検索するために好適な検索語として、所定順位以上に位置する候補用語をユーザに提示する検索語提示部と、
    を備えることを特徴とする文書検索支援装置。
  2. ユーザにより指定された検索語を指定検索語として取得する指定検索語取得部と、
    所定の文書ファイル群から前記指定検索語を含む文書ファイルを候補文書として取得する候補文書取得部と、を更に備え、
    前記類似文書取得部は、1以上の候補文書のうちユーザにより指定された候補文書を類似文書として取得することを特徴とする請求項1に記載の文書検索支援装置。
  3. 前記順位設定部は、類似文書中における出現位置および出現頻度の双方または一方に基づいて、候補用語の順位を調整することを特徴とする請求項1または2に記載の文書検索支援装置。
  4. 前記順位設定部は、前記抽出された候補用語のうち、前記類似文書における出現回数が所定の閾値以上となる候補用語を順位づけの対象とすることを特徴とする請求項1から3のいずれかに記載の文書検索支援装置。
  5. 前記所望の文書ファイルと内容において非類似の文書ファイルとして、ユーザにより選択された非類似文書を取得する非類似文書取得部と、を更に備え、
    前記検索語提示部は、前記所定順位以上に位置する候補用語のうち、前記非類似文書に含まれていない候補用語をユーザに提示することを特徴とする請求項1から4のいずれかに記載の文書検索支援装置。
  6. 前記所望の文書ファイルと内容において非類似の文書ファイルとして、ユーザにより選択された非類似文書を取得する非類似文書取得部と、
    前記非類似文書に含まれる用語を不適用語として抽出する不適用語抽出部と、を更に備え、
    前記順位設定部は、所定の文書ファイル群において出現頻度が少ない不適用語ほど順位が高くなるように不適用語の順位も設定し、所定順位以上の不適用語でもある候補用語の順位が低くなるように候補用語の順位を調整することを特徴とする請求項1から4のいずれかに記載の文書検索支援装置。
  7. 前記所望の文書ファイルと内容において非類似の文書ファイルとして、ユーザにより選択された非類似文書を取得する非類似文書取得部と、
    前記非類似文書に含まれる用語を不適用語として抽出する不適用語抽出部と、を更に備え、
    前記順位設定部は、所定の文書ファイル群において出現頻度が少ない不適用語ほど順位が高くなるように非類似文書から抽出された不適用語の順位も設定し、
    前記検索語提示部は、前記所望の文書ファイルに含まれるべきでない検索語である除外検索語として、所定順位以上の不適用語をユーザに提示することを特徴とする請求項1から4のいずれかに記載の文書検索支援装置。
  8. 前記検索語提示部は、前記所定順位以上の不適用語のうち、前記類似文書に含まれていない不適用語を前記除外検索語として提示することを特徴とする請求項7に記載の文書検索支援装置。
  9. 一の用語と別の用語とを対応づけた関連テーブルを保持する関連テーブル保持部と、
    前記所定順位以上に位置する候補用語を提案検索語として、前記関連テーブルにおいて前記提案検索語に対応づけられている用語を関連検索語として特定する関連検索語特定部と、を更に備え、
    前記検索語提示部は、前記所望の文書ファイルを検索するために好適な検索語として、前記提案検索語に加えて前記関連検索語もユーザに提示することを特徴とする請求項1から8のいずれかに記載の文書検索支援装置。
  10. 前記関連テーブル保持部は、類義語の関係にある用語を互いに対応づけて登録したテーブルとして前記関連テーブルを保持することを特徴とする請求項9に記載の文書検索支援装置。
  11. ユーザにより指定された検索式において複数の用語が検索語として含まれるとき、前記複数の用語を対応づけて前記関連テーブルに登録する関連テーブル更新部、を更に備えることを特徴とする請求項9または10に記載の文書検索支援装置。
  12. 複数の提案検索語それぞれについて提案検索語と関連検索語をOR条件により連結した検索語セットを生成し、前記所望の文書ファイルを検索するために好適な検索式として、複数の前記検索語セットをAND条件により連結した検索式をユーザに提示する検索式提示部、を更に備えることを特徴とする請求項9から11のいずれかに記載の文書検索支援装置。
  13. 文書ファイルの検索を支援するためのコンピュータ・プログラムであって、
    所望の文書ファイルと内容において類似する文書ファイルとして、ユーザにより選択された類似文書を取得する処理と、
    前記類似文書に含まれる用語を候補用語として抽出する処理と、
    所定の文書ファイル群において出現頻度が少ない候補用語ほど順位が高くなるように、類似文書から抽出された候補用語を順位づけする処理と、
    前記所望の文書ファイルを検索するために好適な検索語として、所定順位以上に位置する候補用語をユーザに提示する処理と、
    をコンピュータに実行させる文書検索支援プログラム。
JP2008091266A 2008-03-31 2008-03-31 文書検索支援装置 Pending JP2009245179A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008091266A JP2009245179A (ja) 2008-03-31 2008-03-31 文書検索支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008091266A JP2009245179A (ja) 2008-03-31 2008-03-31 文書検索支援装置

Publications (1)

Publication Number Publication Date
JP2009245179A true JP2009245179A (ja) 2009-10-22

Family

ID=41306984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008091266A Pending JP2009245179A (ja) 2008-03-31 2008-03-31 文書検索支援装置

Country Status (1)

Country Link
JP (1) JP2009245179A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011086043A (ja) * 2009-10-14 2011-04-28 Kddi Corp 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置
JP2012212370A (ja) * 2011-03-31 2012-11-01 Toshiba Corp 情報処理システム、情報処理装置およびプログラム
JP2012216239A (ja) * 2012-07-12 2012-11-08 Toshiba Corp 情報処理装置、プログラムおよび情報検索方法
JP2013045182A (ja) * 2011-08-22 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置及び方法及びプログラム
JP2013210834A (ja) * 2012-03-30 2013-10-10 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
JP2017508214A (ja) * 2014-03-21 2017-03-23 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索推奨の提供
JP2022512269A (ja) * 2019-11-13 2022-02-03 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi名を抽出する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011086043A (ja) * 2009-10-14 2011-04-28 Kddi Corp 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置
JP2012212370A (ja) * 2011-03-31 2012-11-01 Toshiba Corp 情報処理システム、情報処理装置およびプログラム
JP2013045182A (ja) * 2011-08-22 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置及び方法及びプログラム
JP2013210834A (ja) * 2012-03-30 2013-10-10 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
JP2012216239A (ja) * 2012-07-12 2012-11-08 Toshiba Corp 情報処理装置、プログラムおよび情報検索方法
JP2017508214A (ja) * 2014-03-21 2017-03-23 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索推奨の提供
JP2022512269A (ja) * 2019-11-13 2022-02-03 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi名を抽出する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
JP7185023B2 (ja) 2019-11-13 2022-12-06 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi名を抽出する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
US11768892B2 (en) 2019-11-13 2023-09-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting name of POI, device and computer storage medium

Similar Documents

Publication Publication Date Title
CN107480158B (zh) 基于相似性得分评估内容项目与图像的匹配的方法和***
JP5420243B2 (ja) 所望リポジトリの判定
CA2635783C (en) Dynamic search box for web browser
JP5163411B2 (ja) 拡張検索の実施及び拡張検索結果の提供
US10296535B2 (en) Method and system to randomize image matching to find best images to be matched with content items
US20120124071A1 (en) Extensible search term suggestion engine
KR20160138440A (ko) 질의 의도에 기초한 serp 프리젠테이션 조절 기법
US20150199436A1 (en) Coherent question answering in search results
WO2018069449A1 (en) Machine learning-based data aggregation using social media content
JP2009245179A (ja) 文書検索支援装置
CN107408115B (zh) web站点过滤器、控制对内容的访问的方法和介质
JP2008102765A (ja) 検索処理方法及び検索システム
JP5493845B2 (ja) 検索支援プログラム、検索支援装置、及び検索支援方法
US20230087460A1 (en) Preventing the distribution of forbidden network content using automatic variant detection
JP2009500764A (ja) 情報価値を反映した情報検索方法及びその装置
WO2012145906A1 (en) Alternative market search result toggle
JP5880350B2 (ja) 情報検索プログラム及び情報検索装置
JP2004246422A (ja) 情報検索支援装置
US20150169523A1 (en) Smart Scoring And Filtering of User-Annotated Geocoded Datasets
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
JP2008234559A (ja) ドキュメント絞り込み検索装置、方法及びプログラム
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
US20160196348A1 (en) Re-ordering search results based on viewed pages
WO2019141043A1 (zh) 提取浏览器搜索引擎的方法、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130312