JP4945015B2 - 文書検索システム、文書検索プログラム、および文書検索方法 - Google Patents

文書検索システム、文書検索プログラム、および文書検索方法 Download PDF

Info

Publication number
JP4945015B2
JP4945015B2 JP2012006778A JP2012006778A JP4945015B2 JP 4945015 B2 JP4945015 B2 JP 4945015B2 JP 2012006778 A JP2012006778 A JP 2012006778A JP 2012006778 A JP2012006778 A JP 2012006778A JP 4945015 B2 JP4945015 B2 JP 4945015B2
Authority
JP
Japan
Prior art keywords
keyword
document
translation
score
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012006778A
Other languages
English (en)
Other versions
JP2012074087A (ja
Inventor
栄之 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Systems Corp
Original Assignee
Mitsubishi Electric Information Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Information Systems Corp filed Critical Mitsubishi Electric Information Systems Corp
Priority to JP2012006778A priority Critical patent/JP4945015B2/ja
Publication of JP2012074087A publication Critical patent/JP2012074087A/ja
Application granted granted Critical
Publication of JP4945015B2 publication Critical patent/JP4945015B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、キーワードを用いて文書を検索する文書検索システムおよび文書検索方法に関し、とくに翻訳されたキーワードを用いるものに関する。また、この発明は、そのような文書検索システムとしてコンピュータを機能させる文書検索プログラムに関する。
文書検索システムにおいて、文書データベースが複数の言語による文書を含んでいる場合、検索に用いるキーワードとして、入力されたキーワードを他言語に翻訳するシステムが知られている。このようなシステムの例は、特許文献1に記載される。特許文献1には、日本語で指定されたキーワードを英語に翻訳し、日本語の文献については日本語を用いて検索を行い、英語の文献については英語を用いて検索を行うことが記載されている。
特開平10−232883号公報
しかしながら、従来の技術では、複数の言語を用いて検索を行った場合、検索結果として出力された文書の優先順位を適切に決定できないという問題があった。
一般的に単語は多義的であるため、母語によって入力されたキーワードを他言語に翻訳する際には必ずしも最適な選択がなされるとは限らない。このため、検索結果の文書リストにおいて文書の優先順位を決定する際に、たとえば翻訳されたキーワードを含む文書について優先順位を適切に決定できない場合がある。
この発明はこのような問題点を解消するためになされたものであり、入力されたキーワードおよび翻訳されたキーワードを用いて文書の検索を行う際に、検索結果として出力された文書の優先順位を適切に決定できる文書検索システムおよび文書検索方法を提供することを目的とする。
さらに、この発明は、そのような文書検索システムとしてコンピュータを機能させる文書検索プログラムを提供することを目的とする。
この発明に係る文書検索システムは、キーワードを用いて文書を検索する文書検索装置と、翻訳サービス装置と、検索の対象となる複数の文書を記憶する、文書データベースとを含む、文書検索システムであって、
文書検索装置は、1つ以上のキーワードを入力キーワードとして受け取るキーワード受付手段と、入力キーワードのそれぞれに対応して、入力キーワードが他言語に翻訳された翻訳キーワードを、複数の他言語について取得するキーワード翻訳手段と、入力キーワードおよび翻訳キーワードのそれぞれについてキーワードスコアを決定するキーワードスコア決定手段と、入力キーワードおよび翻訳キーワードに基づいて文書を検索し、複数の検索結果文書を取得する文書検索手段と、検索結果文書のそれぞれについて、キーワードスコアに基づいて文書スコアを算出する文書スコア算出手段と、検索結果文書のそれぞれと、対応する文書スコアとを関連付けて出力する検索結果出力手段とを備え、翻訳サービス装置は、入力キーワードのそれぞれに対応して、順位を有する複数の翻訳キーワードを生成し、翻訳サービス装置は、翻訳キーワードの掲載順に基づいて翻訳キーワードの順位を表し、キーワードスコア決定手段は、入力キーワードのそれぞれと、翻訳キーワードのそれぞれとのすべての組合せについて、順位に基づいて翻訳スコアを決定し、キーワードスコア決定手段は、翻訳キーワードのそれぞれについて、関連する翻訳スコアのすべてに基づいてキーワードスコアを決定し、入力キーワードのキーワードスコアは、その入力キーワードに対応する翻訳キーワードのキーワードスコアのいずれよりも高い。
文書データベースは、文書のそれぞれについて、その文書がどの言語で表されたものかを示す言語情報を関連付けて記憶し、翻訳サービス装置は、翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶し、翻訳サービス装置は、入力キーワードに対応する所定の言語を表す言語情報を記憶し、文書スコア算出手段は、文書の文書スコアを算出する際に、入力キーワードおよび翻訳キーワードのうち言語情報が当該文書の言語情報と一致するもののキーワードスコアを適用してもよい。
文書検索システムは、翻訳キーワードを用いるか否かの指定を受け付け、文書スコア算出手段は、指定に応じて、入力キーワードおよび翻訳キーワードに基づいて文書スコアを算出するか、または翻訳キーワードに関わらず入力キーワードのみに基づいて文書スコアを算出するかを切り替えてもよい。
文書スコア算出手段は、さらに、入力キーワードおよび翻訳キーワードのそれぞれが検索結果文書に出現する回数に基づいて文書スコアを算出してもよい。
文書スコア算出手段は、さらに、検索結果文書に対する文字認識処理における認識率に基づいて文書スコアを算出してもよい。
文書検索手段は、キーワード受付手段が2つ以上の入力キーワードを受け取った場合に、OR検索によって文書を検索する機能と、AND検索によって文書を検索する機能とを備え、文書検索手段は、OR検索において、入力キーワードのいずれかまたは翻訳キーワードのいずれかが出現する文書を検索し、文書検索手段は、AND検索において、すべての入力キーワードについて「その入力キーワードおよびその入力キーワードに対応する各翻訳キーワードのうち少なくとも一つが出現する」という条件を満たす文書を検索してもよい。
また、この発明に係る文書検索プログラムは、コンピュータを、上述の文書検索システムとして機能させる。
また、この発明に係る文書検索方法は、上述の文書検索システムが文書を検索する文書検索方法である。
この発明に係る文書検索方法および文書検索システムは、入力されたキーワードおよび翻訳されたキーワードのそれぞれについてキーワードスコアを決定し、このキーワードスコアに基づいて文書スコアを算出するので、検索結果として出力された文書の優先順位を適切に決定することができる。
は、この発明に係る文書検索システムの構成を示す図である。 図1の文書検索システムにおける文書検索装置の動作を説明するフローチャートである。 入力キーワードと翻訳キーワードとの対応関係の例を示す図である。 翻訳キーワードの順位と、その順位に基づく翻訳スコアとの対応関係の例を示す図である。 各キーワードについての、順位に基づく翻訳スコアと、最終的に各キーワードに対して与えられるキーワードスコアとの対応関係の例を示す図である。 検索結果文書の本文データ中に各キーワードが出現する回数を表す情報の例を示す図である。 検索結果文書に対する文書スコアの算出結果の例を示す図である。
この発明は、日本語、英語、フランス語、中国語など、さまざまな言語で書かれた文書を含む文書データベースからの検索において、ある言語でキーワードを入力した時に、入力したキーワードを翻訳エンジンによって他国語に変換し、入力したキーワードと、他国語に変換した結果のキーワードとを同時に用いて検索を行う。キーワードにスコアを付与することによってキーワード間の優先順位を付け、この優先順位を、文書の検索結果の優先順位に反映させて出力する。このようにして、多言語に対応する文書検索方式が実現される。
以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
図1は、この発明に係る文書検索システム100の構成を示す。文書検索システム100は、キーワードを用いて文書を検索するために用いられるシステムである。
文書検索システム100は、キーワードを用いて文書を検索する文書検索装置10を含む。
文書検索装置10は情報処理装置であり、周知のコンピュータとしての構成を有する。
文書検索装置10は、使用者がキーワードを入力するために用いる入力装置30を備える。この入力装置30は、たとえばマウスやキーボード等である。また、文書検索装置10は、検索処理の結果を使用者に対して表示する表示装置40を備える。表示装置40は、たとえばディスプレイやプリンタ等である。また、文書検索装置10は、演算を行う演算装置20を備える。演算装置20はたとえばCPU(中央処理装置)である。
また、図示しないが、文書検索装置10は、情報を格納する記憶手段としてメモリおよびHDD(ハードディスクドライブ)を含む。また、文書検索装置10は、他の情報処理装置との間で情報の送受信を行うためのネットワークインタフェースを備える。
文書検索装置10の記憶手段には、文書検索装置10および演算装置20の動作を規定する文書検索プログラムが格納されている。演算装置20は、この文書検索プログラムを実行することによって、図1に示すキーワード受付手段21、キーワード翻訳手段22、キーワードスコア決定手段23、文書検索手段24、文書スコア算出手段25、および検索結果出力手段26として機能するが、それぞれの機能の詳細については後述する。
また、演算装置20が文書検索プログラムまたは別のプログラムを実行することによって、コンピュータである文書検索装置10は、本明細書に記載するその他の機能を実現する。
文書検索システム100は、文書検索装置10と通信可能に接続された翻訳サービス装置110を含む。翻訳サービス装置110はキーワードの翻訳を行うものである。翻訳サービス装置110は、ある言語によって表された語句を受け取り、これを他の言語に翻訳して出力する。すなわち、入力されたキーワード(入力キーワード)に基づいて、その入力キーワードが他言語に翻訳されたキーワード(翻訳キーワード)を生成する機能を有する。なお、ここでいう「翻訳」とは、ある言語によるキーワードから別の言語によるキーワードへの変換と捉えることもできる。
翻訳サービス装置110は複数の言語への翻訳を行うものである。たとえば、日本語による入力キーワードに対して、英語による翻訳キーワードと、フランス語による翻訳キーワードとを生成して出力する。
また、翻訳サービス装置110は、1つの入力キーワードに対して、順位を有する複数の翻訳キーワードを生成する。すなわち、ある単語に対して、たとえば対応する訳語がそれぞれ用いられる頻度に応じ、最も頻繁に用いられる訳語から順に順位を付与し、翻訳キーワードのリストを生成する。このリストは、たとえば翻訳キーワードを順位に従って並べることによって各翻訳キーワードの順位を表すものであるが、翻訳キーワードと順位を表す数値等とを対応付けることによって各翻訳キーワードの順位を表してもよい。
翻訳サービス装置110の構成は周知のものを用いることができる。たとえば、翻訳サービス装置110は多数の語句に対してそれぞれ一つ以上の訳語を関連付ける辞書ファイルを格納しており、この辞書ファイルを参照して翻訳を行う。
文書検索システム100は、文書検索装置10と通信可能に接続された文書データベース120を含む。文書データベース120は、文書検索装置10による検索処理の対象となる複数の文書を記憶する。
文書データベース120は、1つ以上のキーワードの入力を受け取り、記憶している文書のうちから、キーワードのいずれかを含むものをすべて抽出し、抽出した文書またはそのリストを出力する。
以上のように構成される文書検索システム100の動作を、図2のフローチャートおよび図3〜図7のデータ例を用いて説明する。
図2は、文書検索システム100における文書検索装置10の動作を説明するフローチャートである。まずキーワード受付手段21は、検索に用いる1つ以上の入力キーワードを、入力装置30を介して使用者から受け取る(ステップS1、キーワード受付ステップ)。この例では、「先生」「教師」という2つの日本語による入力キーワードが受け取られたものとする。
次に、キーワード翻訳手段22は、翻訳サービス装置110を利用し、入力キーワードを翻訳して翻訳キーワードとする(ステップS2、キーワード翻訳ステップ)。このステップS2において、キーワード翻訳手段22は入力キーワードを翻訳サービス装置110に渡し、翻訳サービス装置110は受け取った入力キーワードのそれぞれについて翻訳キーワードを生成してキーワード翻訳手段22に返す。このようにしてキーワード翻訳手段22は翻訳キーワードを取得する。
図3は、入力キーワードと翻訳キーワードとの対応関係の例を示す。この例では、翻訳キーワードは、図3(a)に示すように英語によるものと、図3(b)に示すようにフランス語によるものとの2種類を含んでいる。図3(a)の表において、「先生」という入力キーワードに対しては、順位1を有する「teacher」、順位2を有する「instructor」および順位3を有する「master」という3つの英語による翻訳キーワードが対応付けられている。このように、翻訳サービス装置110は、入力キーワードのそれぞれについて、順位付けられた複数の翻訳キーワードを対応付けて記憶している。
また、図3(b)の表において、同じく「先生」という入力キーワードに対して、順位1を有する「professeur」および順位2を有する「instructeur」という2つのフランス語による翻訳キーワードが対応付けられている。このように、キーワード翻訳手段22は、入力キーワードの言語以外の複数の言語について、翻訳キーワードを取得する。
なお、文書検索装置10は、入力キーワード、取得した翻訳キーワード、および図3に示す対応関係を、表等の形式によって記憶手段に記憶してもよい。
次に、キーワードスコア決定手段23は、入力キーワードおよび翻訳キーワードのそれぞれについて、キーワードスコアを決定する(ステップS3、キーワードスコア決定ステップ)。ここで、キーワードスコア決定手段23は、図4および図5に示す対応関係に基づいてキーワードスコアを決定する。
図4は、翻訳キーワードの順位と、その順位に基づく翻訳スコアとの対応関係の例を示す。キーワードスコア決定手段23は、この翻訳スコアに基づいて、各翻訳キーワードのキーワードスコアを決定する。文書検索装置10は、その記憶手段に、図4に示す対応関係を表等の形式によってあらかじめ記憶しており、また、この対応関係は文書検索装置10の使用者または管理者が適宜変更することができる。
入力キーワードに対しては、常に一定である所定のスコア、たとえば100が与えられる(なお、このスコアは後述するように翻訳スコアとは一部扱いが異なるので、図4ではカッコを付して示す)。また、翻訳キーワードに対しては、その順位に応じて異なる翻訳スコアが与えられる。与えられるスコアは順位が1つ下がるごとに所定値ずつ、たとえば10ずつ低下し、順位1に対しては90、順位2に対しては80、順位3に対しては70となる。
このスコアの値が大きいほど、そのキーワードを含む文書が検索結果において重視される(すなわち、検索結果においてその文書の順位が高くなる)ことを意味する。このように、キーワードスコア決定手段23は、翻訳キーワードの順位に基づいて翻訳キーワードのキーワードスコアを決定する。
なお、この順位と翻訳スコアとの関係は、図4に示すものに限らない。順位1に対する翻訳スコアは、入力キーワードに対するキーワードスコアより低い値であればよい。また、順位2以下に対する翻訳スコアは、順位の低下につれて(すなわち、この例では順位を表す数が大きくなるにつれて)単調に減少する関数によるものであればよい。
翻訳サービス装置110は、一般的に訳語として用いられる頻度に応じて翻訳キーワードの順位付けを行う。ここで、構文や文脈等の情報を考慮しない場合、ある語句に対して辞書等に記載される複数の訳語のうち、実際に訳語として用いられる頻度が大きい訳語は、より適切な訳語ということができる。より適切な訳語を含む文書は、そうでない訳語のみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、順位がより高い翻訳キーワードは、より確からしいキーワードということができる。キーワードスコア決定手段23は、各翻訳キーワードの順位に基づいて翻訳スコアを決定するので、より確からしい翻訳キーワードの翻訳スコアをより高くすることができ、より的確な検索結果を得ることができる。
なお、翻訳サービス装置110は、各キーワードについて、厳密に統計的な分析によって使用頻度に応じた順位付けを行うものである必要はない。一般的な辞書等は、通常、訳語の使用頻度等をある程度考慮してその掲載順を決定しているので、一般的な辞書として周知のものを用いれば、検索結果の精度向上にある程度の効果を得ることができる。
図5は、各キーワードについての、順位に基づく翻訳スコアと、最終的に各キーワードに対して与えられるキーワードスコアとの対応関係の例を示す。
キーワードスコア決定手段23は、入力キーワードに対しては、上述のように、常に100というキーワードスコアを与える。翻訳キーワードに対しては、まず、入力キーワードのそれぞれと、翻訳キーワードのそれぞれとのすべての組合せについて、順位に基づいて翻訳スコアを決定する。図5では、2つの入力キーワードと、5つの翻訳キーワードとの組合せ(合計10通り)のすべてについて、順位に基づく翻訳スコアが与えられている。
たとえば、図3(a)に示すように、翻訳キーワード「master」は、入力キーワード「先生」に対しては順位3を有するので、図4において順位3に対応する翻訳スコア70が与えられる。また、この翻訳キーワード「master」は、入力キーワード「教師」に対しては順位2を有するので、図4において順位2に対応する翻訳スコア80が与えられる。なお、ある翻訳キーワードがいずれかの入力キーワードに対して順位を有しない場合、すなわちその翻訳キーワードがその入力キーワードを翻訳したものでない場合には、その組合せに対する翻訳スコアは0とする。ただし、この場合の翻訳スコアは0でなくともよく、その入力キーワードに対応する他の翻訳キーワードの翻訳スコアのいずれよりも小さい値であればよい。
このようにして決定された翻訳スコアに基づき、さらにキーワードスコア決定手段23は、翻訳キーワードのそれぞれについて最終的なキーワードスコアを決定する。図5の例では、その翻訳キーワードに与えられた翻訳スコアの平均をもって、その翻訳キーワードのキーワードスコアとしている。
このように、キーワードスコア決定手段23は、翻訳キーワードのそれぞれについて、関連する翻訳スコアのすべてに基づいてキーワードスコアを決定する。
なお、文書検索装置10は、その記憶手段に、図5に示す対応関係を、表等の形式によって記憶してもよい。
ここで、入力キーワードに与えられるキーワードスコアは、上述のように常に100である。また、翻訳スコアはすべて90以下(すなわち、順位1に対する翻訳スコア以下)であるので、その平均をとったキーワードスコア(翻訳キーワードのキーワードスコア)は、常に90以下となる。したがって、母語による入力キーワードに与えられるキーワードスコアは、他言語による翻訳キーワードに与えられるキーワードスコアのいずれよりも高い値となる。
母語による入力キーワードは、誤訳や不適切な訳のおそれがないので、入力キーワードを含む文書は、翻訳キーワードのみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、入力キーワードはより確からしいキーワードということができる。このように、より確からしい入力キーワードのスコアを高く設定して重視し、相対的に翻訳キーワードのスコアを低く設定することによって、より的確な検索結果を得ることができる。
また、この例における翻訳キーワード「master」のように、ある翻訳キーワードが複数の入力キーワードに対応する場合、その翻訳キーワードを含む文書は、他の翻訳キーワードのみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、そのような翻訳キーワードはより確からしいキーワードということができる。
ここで、キーワードスコア決定手段23は、ある翻訳キーワードに関連する翻訳スコアのすべてに基づいてキーワードスコアを決定することにより、複数の入力キーワードに同時に対応している翻訳キーワードのキーワードスコアを上昇させることができる。たとえば、図5の翻訳キーワード「master」は、入力キーワード「先生」「教師」両方に対応するものであり、それぞれに対応して0でない翻訳スコアを有する。ところが、翻訳キーワード「instructor」は、入力キーワード「先生」には対応するが「教師」には対応せず、「教師」に対する翻訳スコアは0となる。この結果、翻訳キーワード「master」のキーワードスコアがより高くなる。このように、より確からしい翻訳キーワードのスコアを高く設定して重視し、相対的に翻訳キーワードのスコアを低く設定することによって、より的確な検索結果を得ることができる。
次に、文書検索手段24は、文書検索システム100を利用して、入力キーワードおよび翻訳キーワードに基づいて文書を検索し、検索結果文書として複数の文書を取得する(ステップS4、文書検索ステップ)。このステップS4において、文書検索手段24は、入力キーワードおよび翻訳キーワードを文書データベース120に渡し、文書データベース120は、記憶している文書のうちから、入力キーワードおよび翻訳キーワードのいずれかを含むものをすべて抽出し、抽出した文書を検索結果文書として文書検索手段24に返す。
ここで、文書検索手段24は、母語による入力キーワードと、他言語による翻訳キーワードとを用いて検索を行うので、複数の言語による文書を含む文書データベース120からの検索でも、一度の検索で結果を得ることができる。
なお、ステップS4において取得される検索結果文書は、その文書の本文データを識別する情報(タイトル、日時、作成者等)を含むものであるが、必ずしもその本文データを含まないものであってもよい。検索結果文書が本文データを含まない場合には、本文データそのものは使用者による別途の要求に応じて文書データベース120から出力されるものであってもよい。
また、検索結果文書のそれぞれには、その本文データ中に各キーワードが出現する回数を表す情報が関連付けられる。
図6はこのような情報の例を示す。この例では、検索結果文書として文書A〜文書Jが抽出されている。たとえば文書Aには翻訳キーワード「teacher」が12回、翻訳キーワード「instructor」が10回、翻訳キーワード「master」が6回、それぞれ出現しており、文書Aについて全キーワードの出現回数を合計すると28回となることが表される。文書データベース120は、このように、検索結果文書のそれぞれについて、各入力キーワードおよび各翻訳キーワードが出現する回数を計測し、これを検索結果文書のそれぞれに関連付けて文書検索手段24に返す。なお、図6では、検索結果文書は各キーワードが出現する回数の順にソートされている。
なお、文書検索装置10は、その記憶手段に、図6に示す対応関係を、表等の形式によって記憶してもよい。
なお、図6の例ではキーワードが出現する回数を用いているが、この代わりにキーワードが出現する回数に文字認識による認識率を加味したものを用いてもよい。
文書中の文字列が文字コードによって表される文書(テキストデータやワードプロセッサプログラム用のデータ等)では、文字コードの照合処理を用いてキーワードの出現回数を正確に数えることができる。これに対し、文字列が画像データによって表される文書の場合には、文字認識処理を行って画像を文字コードに変換する必要があるが、この文字認識処理の精度が高いとは限らない。そこで、文字認識処理の際に、その文書について所定の基準で文字認識を行うことができた度合を認識率として評価し、この認識率を加味してもよい。たとえば、認識率に応じてキーワードの出現回数を表す値を減少させてもよい。具体的には、認識率が100%である文書についてはキーワードの出現回数をそのまま用い、認識率が50%である文書についてはキーワードの出現回数を半分にして用いることができる。
ここで、認識率の算出方法は従来の文字認識処理において周知の方法であればどのようなものを用いてもよい。
次に、文書スコア算出手段25は、検索結果文書のそれぞれについて、キーワードスコア決定手段23によって決定されたキーワードスコア(図5参照)と、入力キーワードおよび翻訳キーワードのそれぞれが出現する回数(図6参照)とに基づき、文書スコアを算出する(ステップS5、文書スコア算出ステップ)。
このステップS5において、文書スコアは、たとえば、各キーワードのキーワードスコアと、そのキーワードがその検索結果文書に出現する回数とを乗算し、これをすべてのキーワードについて合計することによって算出される。この文書スコアは、その検索結果文書が、使用者が望むものである可能性(確からしさ)を表すものということができる。
図7はこの算出方法による算出結果の例を示す。文書Aには、キーワードスコア90を持つ翻訳キーワード「teacher」が12回出現しており、乗算の結果は90×12=1080となる。同様にして、翻訳キーワード「instructor」に対する乗算の結果は400となり、翻訳キーワード「master」に対する乗算の結果は450となる。また、これ以外の入力キーワードおよび翻訳キーワードは文書Aには出現しておらず、乗算の結果は0となる。文書Aの文書スコアは、これらの値をすべて合計した値すなわち1930となる。
なお、文書検索装置10は、その記憶手段に、図7に示す対応関係を、表等の形式によって記憶してもよい。
なお、文字列が画像データによって表される文書については、文書スコア算出手段25は、キーワードスコアおよび出現回数に加え、さらに検索結果文書に対する文字認識処理における認識率に基づいて文書スコアを算出してもよい。
ここで、キーワードスコアはキーワードごとに異なる値なので、キーワードの出現回数が多い文書の文書スコアが必ずしも高くなるとは限らない。たとえば、検索結果文書のうちキーワードの出現回数が最も多いものは文書A(28回、図6参照)であるが、文書スコアが最も高いものは文書C(2500、図7参照)であり、これらの順位が入れ替わっている。この理由は、文書Cに出現するキーワードはすべて入力キーワードであるためキーワードごとのキーワードスコアが比較的高く、逆に文書Aに出現するキーワードはすべて翻訳キーワードであるためキーワードごとのキーワードスコアが比較的低くなるためである。また、各翻訳キーワード間でもキーワードスコアが異なるので、より確からしい翻訳キーワードが重視される。
このように、文書スコア算出手段25は、各検索結果文書の文書スコアを算出する際に各キーワードの質まで考慮するので、単にキーワードの出現回数によって文書スコアを算出するような方法と比較して、より的確な評価を行うことができる。
次に、検索結果出力手段26は、検索結果文書(すなわち文書A〜文書J)と、それぞれについて文書スコア算出手段25によって算出された文書スコアとを関連付けて出力する(ステップS6、検索結果出力ステップ)。この出力は、表示装置40を介して、使用者に対して行われ、これによって使用者は検索結果を知ることができる。この際、検索結果出力手段26は、文書スコアが高いものから順に検索結果文書に順位を付け、この順位に従って出力を行う。
以上説明するように、この発明の実施の形態1に係る文書検索装置10、文書検索装置10が実行する文書検索方法、および文書検索システム100は、入力されたキーワードおよび翻訳されたキーワードのそれぞれについてキーワードスコアを決定し、このキーワードスコアに基づいて文書スコアを算出するので、検索結果として出力された文書の優先順位を適切に決定することができる。
上述の実施の形態1では、入力キーワードを表す言語は日本語であり、翻訳キーワードを表す言語は英語およびフランス語であるが、これらは他の言語であってもよく、たとえば中国語を含んでもよい。入力キーワードを表す言語は使用者が用いる言語に合わせて設定してもよく、翻訳キーワードを表す他言語は文書データベース120に含まれる文書の言語に合わせて設定してもよい。
翻訳キーワードを表す言語は単一の言語(たとえば英語のみ)であってもよい。また、翻訳サービス装置110は入力キーワードに対して単一の翻訳キーワードを出力するものであってもよく、また、複数の翻訳キーワードを順位付けずに出力するものであってもよい。このような構成であっても、入力キーワードと翻訳キーワードとの間でキーワードスコアが異なるものであれば、従来の検索よりも的確な結果を得ることができる。
また、実施の形態1の例ではOR検索(論理和検索)が実行されており、複数の入力キーワードおよび複数の翻訳キーワードのうちいずれか一つが出現する文書はすべて検索結果文書として取得される。これとは異なり、AND検索(論理積検索)を実行することもできる。
この場合、図2のステップS4において、文書検索手段24は、入力キーワードおよび翻訳キーワードを文書データベース120に渡し、AND検索を行うことを指示する。文書データベース120は、記憶している文書のうちから、次の条件iおよびiiを満たす文書をすべて抽出し、抽出した文書を検索結果文書として文書検索手段24に返す。
‐条件i:入力キーワード「先生」について、その入力キーワード自体およびこれに対応する翻訳キーワード「teacher」、「instructor」、「master」、「professeur」、「instructeur」のうち少なくとも一つが出現する
‐条件ii:入力キーワード「教師」について、その入力キーワード自体およびこれに対応する翻訳キーワード「teacher」、「master」、「professeur」のうち少なくとも一つが出現する
言い換えると、文書検索手段24および文書データベース120は、入力キーワードのそれぞれについて、当該入力キーワードおよびこれに対応する翻訳キーワードをOR条件によって連結することによって、入力キーワードごとのキーワードグループを作成し、このキーワードグループをすべてAND条件によって連結して最終的な検索条件を作成する。
この条件による検索の結果として、たとえば実施の形態1において検索結果文書として図6に示される文書のうち、文書Hは、入力キーワード「教師」もこれに対応する翻訳キーワード「teacher」、「master」、「professeur」も含まないので、条件iiを満たさず、抽出されない。また、文書Jも同様に条件iiを満たさず、抽出されない。
なお、この例では、翻訳キーワード「teacher」、「master」および「professeur」は、2つの入力キーワード「先生」「教師」のどちらにも対応する翻訳キーワードとなっているので、これらの翻訳キーワードのいずれかが出現する文書は抽出されることになる。たとえば文書Eは翻訳キーワード「teacher」は含み、この翻訳キーワードは条件iおよび条件iiの両方を満たすので、文書Eは抽出される。
このようなAND検索の場合でも、ステップS5以降の処理はOR検索と同様に行うことができる。すなわち、実施の形態1と同様にして文書スコアが算出され検索結果が出力される。ただし、この例では文書Hおよび文書JはステップS4において抽出されないので、ステップS5以降の処理は文書Hおよび文書Jに対しては実行されない。
また、実施の形態1では文書検索手段24による検索の際に必ず翻訳キーワードを用いる検索が行われるが、これは切り替え可能であってもよく、たとえば翻訳キーワードを用いず入力キーワードのみを用いて検索を行うことを使用者が適宜指定可能であってもよい。このようにすると、必要に応じ、入力キーワードのみを用いた従来の文書検索と同等の処理を行うこともできる。
文書データベース120は、検索対象となる文書のそれぞれについて、その文書がどの言語で表されたものかを示す言語情報を関連付けて記憶してもよく、翻訳サービス装置110も同様に、翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶してもよい。この場合、入力キーワードは常に母語に相当する所定の言語によるものとして扱えばよい。
たとえば、日本語のあるキーワードを中国語に翻訳しても同一の表記(同一のキャラクターコードによって表される文字列)となる場合がある。このようなキーワードについては、日本語による文書に対しては入力キーワードのキーワードスコアを適用し、中国語による文書に対しては翻訳キーワードのキーワードスコアを適用することができる。すなわち、入力キーワードおよび翻訳キーワードのうち、異なる言語で同一の表記となるキーワードについては、検索結果文書の文書スコアを算出する際に、その検索結果文書と言語情報が一致するもののキーワードスコアを用いてもよい。
このようにすると、複数の言語で同一の表記となるキーワードが含まれていた場合であっても、各キーワードの確からしさを適切に評価することができる。
また、実施の形態1では、検索結果文書にキーワードが出現する回数は文書データベース120が計測するが、これは他の構成要素が計測してもよい。たとえば、検索結果文書の本文データが文書データベース120から文書検索装置10に渡され、文書検索装置10の文書検索手段24または文書スコア算出手段25が計測してもよい。
翻訳サービス装置110および文書データベース120は、キーワードの翻訳および文書の検索に関して文書検索装置10との間で適切な情報の送受信ができるものであればどのようなものでもよいが、たとえばそれぞれコンピュータによって構成されてもよく、また、それぞれの記憶手段に格納されたプログラムを実行することによって、翻訳サービス装置110および文書データベース120としての機能を実現するものであってもよい。この場合、文書検索装置10のプログラム、翻訳サービス装置110のプログラム、および文書データベース120のプログラムが、文書検索プログラムとして、これらのコンピュータを文書検索システム100として機能させることになる。
実施の形態1のハードウエア構成では、単一のコンピュータである文書検索装置10にはキーワード受付手段21、キーワード翻訳手段22、キーワードスコア決定手段23、文書検索手段24、文書スコア算出手段25および検索結果出力手段26が含まれ、これとは別に、それぞれ単一のコンピュータとして翻訳サービス装置110および文書データベース120が設けられる。しかしながら、ハードウエア構成はこれとは異なるものであってもよい。たとえば、文書検索装置10を構成するコンピュータが翻訳サービス装置110としての機能や文書データベース120としての機能を兼ね備えてもよい。

Claims (8)

  1. キーワードを用いて文書を検索する文書検索装置と、
    翻訳サービス装置と、
    検索の対象となる複数の前記文書を記憶する、文書データベースと
    を含む、文書検索システムであって、
    前記文書検索装置は、
    1つ以上のキーワードを入力キーワードとして受け取るキーワード受付手段と、
    前記入力キーワードのそれぞれに対応して、前記入力キーワードが他言語に翻訳された翻訳キーワードを、複数の他言語について取得するキーワード翻訳手段と、
    前記入力キーワードおよび前記翻訳キーワードのそれぞれについてキーワードスコアを決定するキーワードスコア決定手段と、
    前記入力キーワードおよび前記翻訳キーワードに基づいて文書を検索し、複数の検索結果文書を取得する文書検索手段と、
    前記検索結果文書のそれぞれについて、前記キーワードスコアに基づいて文書スコアを算出する文書スコア算出手段と、
    前記検索結果文書のそれぞれと、対応する前記文書スコアとを関連付けて出力する検索結果出力手段と
    を備え、
    前記翻訳サービス装置は、前記入力キーワードのそれぞれに対応して、順位を有する複数の前記翻訳キーワードを生成し、
    前記翻訳サービス装置は、前記翻訳キーワードの掲載順に基づいて前記翻訳キーワードの順位を表し、
    前記キーワードスコア決定手段は、前記入力キーワードのそれぞれと、前記翻訳キーワードのそれぞれとのすべての組合せについて、前記順位に基づいて翻訳スコアを決定し、
    前記キーワードスコア決定手段は、前記翻訳キーワードのそれぞれについて、関連する前記翻訳スコアのすべてに基づいて前記キーワードスコアを決定し、
    前記入力キーワードの前記キーワードスコアは、その入力キーワードに対応する前記翻訳キーワードの前記キーワードスコアのいずれよりも高い、
    文書検索システム。
  2. 前記文書データベースは、前記文書のそれぞれについて、その文書がどの言語で表されたものかを示す言語情報を関連付けて記憶し、
    前記翻訳サービス装置は、前記翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶し、
    前記翻訳サービス装置は、前記入力キーワードに対応する所定の言語を表す言語情報を記憶し、
    前記文書スコア算出手段は、前記文書の前記文書スコアを算出する際に、前記入力キーワードおよび前記翻訳キーワードのうち前記言語情報が当該文書の前記言語情報と一致するものの前記キーワードスコアを適用する、請求項1に記載の文書検索システム。
  3. 前記文書検索システムは、前記翻訳キーワードを用いるか否かの指定を受け付け、
    前記文書スコア算出手段は、前記指定に応じて、
    前記入力キーワードおよび前記翻訳キーワードに基づいて前記文書スコアを算出するか、または
    前記翻訳キーワードに関わらず前記入力キーワードのみに基づいて前記文書スコアを算出するか
    を切り替える、請求項1または2に記載の文書検索システム。
  4. 前記文書スコア算出手段は、さらに、前記入力キーワードおよび前記翻訳キーワードのそれぞれが前記検索結果文書に出現する回数に基づいて前記文書スコアを算出する、請求項1〜3のいずれか一項に記載の文書検索システム。
  5. 前記文書スコア算出手段は、さらに、前記検索結果文書に対する文字認識処理における認識率に基づいて前記文書スコアを算出する、請求項4に記載の文書検索システム。
  6. 前記文書検索手段は、前記キーワード受付手段が2つ以上の前記入力キーワードを受け取った場合に、OR検索によって文書を検索する機能と、AND検索によって文書を検索する機能とを備え、
    前記文書検索手段は、前記OR検索において、前記入力キーワードのいずれかまたは前記翻訳キーワードのいずれかが出現する文書を検索し、
    前記文書検索手段は、前記AND検索において、すべての前記入力キーワードについて「その入力キーワードおよびその入力キーワードに対応する各翻訳キーワードのうち少なくとも一つが出現する」という条件を満たす文書を検索する、請求項1〜5のいずれか一項に記載の文書検索システム。
  7. コンピュータを、請求項1〜6のいずれか一項に記載の文書検索システムとして機能させる文書検索プログラム。
  8. 請求項1〜6のいずれか一項に記載の文書検索システムが文書を検索する文書検索方法。
JP2012006778A 2012-01-17 2012-01-17 文書検索システム、文書検索プログラム、および文書検索方法 Expired - Fee Related JP4945015B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012006778A JP4945015B2 (ja) 2012-01-17 2012-01-17 文書検索システム、文書検索プログラム、および文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012006778A JP4945015B2 (ja) 2012-01-17 2012-01-17 文書検索システム、文書検索プログラム、および文書検索方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009514574A Division JPWO2010109594A1 (ja) 2009-03-24 2009-03-24 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法

Publications (2)

Publication Number Publication Date
JP2012074087A JP2012074087A (ja) 2012-04-12
JP4945015B2 true JP4945015B2 (ja) 2012-06-06

Family

ID=46170092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012006778A Expired - Fee Related JP4945015B2 (ja) 2012-01-17 2012-01-17 文書検索システム、文書検索プログラム、および文書検索方法

Country Status (1)

Country Link
JP (1) JP4945015B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5559911B1 (ja) * 2013-06-17 2014-07-23 ソフトバンクモバイル株式会社 情報検索装置及びプログラム
KR20170122505A (ko) 2016-04-27 2017-11-06 삼성전자주식회사 부가 정보를 제공하는 단말 장치 및 제공 방법
CN112749316B (zh) * 2019-10-29 2024-06-14 阿里巴巴集团控股有限公司 翻译质量的确定方法、装置、存储介质和处理器
CN112597268B (zh) * 2020-12-22 2022-09-20 南京邮电大学 一种面向云环境密文检索效率优化的检索过滤阈值选取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151253A (ja) * 1991-11-29 1993-06-18 Canon Inc 文書検索装置
JP4640591B2 (ja) * 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置

Also Published As

Publication number Publication date
JP2012074087A (ja) 2012-04-12

Similar Documents

Publication Publication Date Title
US10713571B2 (en) Displaying quality of question being asked a question answering system
US9147007B2 (en) Query expression conversion apparatus, query expression conversion method, and computer program product
JP5078173B2 (ja) 多義性解消方法とそのシステム
US20160042053A1 (en) Methods and systems for mapping data items to sparse distributed representations
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US11989215B2 (en) Language detection of user input text for online gaming
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
US8812504B2 (en) Keyword presentation apparatus and method
JP6705318B2 (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
JP2011118689A (ja) 検索方法及びシステム
JP2007018389A (ja) データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN105653553B (zh) 词权重生成方法和装置
JP2006178599A (ja) 文書検索装置および方法
US20140358522A1 (en) Information search apparatus and information search method
JP6145562B2 (ja) 情報構造化システム及び情報構造化方法
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2017021523A (ja) 用語意味コード判定装置、方法、及びプログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP3486406B2 (ja) 特許情報検索装置
JP5691558B2 (ja) 例文検索装置、処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120117

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20120117

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20120206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120302

R150 Certificate of patent or registration of utility model

Ref document number: 4945015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees