JP4240280B2 - 概念検索システム、概念検索方法およびコンピュータプログラム - Google Patents

概念検索システム、概念検索方法およびコンピュータプログラム Download PDF

Info

Publication number
JP4240280B2
JP4240280B2 JP2002247851A JP2002247851A JP4240280B2 JP 4240280 B2 JP4240280 B2 JP 4240280B2 JP 2002247851 A JP2002247851 A JP 2002247851A JP 2002247851 A JP2002247851 A JP 2002247851A JP 4240280 B2 JP4240280 B2 JP 4240280B2
Authority
JP
Japan
Prior art keywords
search
vector
field
target document
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002247851A
Other languages
English (en)
Other versions
JP2004086635A (ja
Inventor
玲雄 加藤
徹 竹内
伸治 市川
誠司 高野
英久 廣本
隆治 星乃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2002247851A priority Critical patent/JP4240280B2/ja
Publication of JP2004086635A publication Critical patent/JP2004086635A/ja
Application granted granted Critical
Publication of JP4240280B2 publication Critical patent/JP4240280B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明が属する技術分野】
本発明は、あるデータベースに蓄積された検索対象文書群に対して、ベクトル演算を用いた概念検索を応用した検索システムであり、一般的な概念検索の機能を更に高めて検索しやすくしたものである。
【0002】
【先行技術】
(概念検索技術)
概念検索技術とは、以下のようなものである。すなわち、予め辞書作成用の文書から形態素解析などによって単語を切り出し、各単語に基本となるベクトルを付与して、ベクトル演算の際の辞書機能をなすベクトル群たるステムベクトルを生成する。そのステムベクトルをもとにして、検索対象文書全体のベクトルを決定し、検索対象文書群から検索対象文書ベクトル群を生成する。その結果、検索対象文書は、各々一文書あたり一つのベクトルを持つこととなる。検索を実行する際には、検索のために入力した文章をステムベクトルに基づいて検索文章ベクトルを生成し、その検索文章ベクトルと検索対象文書ベクトル群との内積を演算し、内積値の高い検索対象文書から所定件数を出力させる。
この技術によれば、抽出したい対象を特定する文章( 以下、「検索用文章」と記す) を自然文で入力すれば検索対象文書群から関連度の高い文書から順に所定件数を必ず出力させることが可能となり、キーワード検索による欠点を克服できる。
【0003】
(先行技術)
関連ある先行技術としては、特願2000−197027号が挙げられる。この特許文献には、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書( 具体的には技術情報や特許情報) に対し、概念検索を達成するための技術が開示されている。
【0004】
( 類似検索)
上記の特許文献には、概念検索を行った結果として抽出された文書を用いて概念検索を連続して行う場合に、検索用文章の入力を省略可能な「類似検索」と定義された検索方法も開示されている。
【0005】
【発明が解決しようとする課題】
検索用文章に同音多義語が含まれている場合には、検索者が必要としない文献に高得点がついてしまう。
同音多義語として、「ビッグバン」という用語があるが、もともとは天文学における用語であったが、金融業界において比喩的に「金融ビッグバン」と使われるようになった。現在では、単に「ビッグバン」と称されることが多く、天文用語を連想する人の割合のほうが低いくらいとなっている。この「ビッグバン」が検索用文章に含まれている場合には、天文分野の技術文献と金融分野の技術文献とに高得点がつくこととなる。
【0006】
上記の問題は、類似検索を用いても解消されない。例えば、検索用文章に「ビッグバン」を含ませて概念検索を行って、金融工学の分野のある技術文献が抽出されたとする。その技術文献を特定して類似検索を行ったとしても、その技術文献に含まれている「ビッグバン」という用語は、依然として天文学の用語でもあるからである。
【0007】
一般に、同音多義語は、複数の分野を跨いで存在する。すなわち、同一の分野において多義的に使用される用語はほとんどなく、多くの場合は異なる分野において異なる意義の用語となっているのである。
【0008】
本発明が解決すべき課題は、概念検索システムにおいて、検索者が抽出したい文献を分野ごとに指定できるようにすることで、検索者が抽出したい分野の文献を抽出しやすくすることにある。
請求項1および請求項2記載の発明は、検索者が抽出したい文献を分野ごとに指定できるようにすることで、検索者が抽出したい分野の文献を抽出しやすくなるような概念検索システムを提供することを目的とする。
【0009】
【課題を解決するための手段】
上記の課題には、検索対象となる文書を予め分類するとともにその分類による分野ごとに、ベクトル演算の際の辞書となるステムベクトルを複数用意し、検索のための入力データに対して適したステムベクトルを用い、検索対象を分類ごとに対応する。
【0010】
第一の発明は、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントから入力された検索用データを受信する検索用データ受信手段と、 その検索用データとステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えた概念検索システムに係る。
ステムベクトル作成手段は、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成する。また、検索対象文書ベクトル作成手段は、検索対象文書群における検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成する。検索用データには、検索用文章と検索分野を特定するための分野データとを含むこととする。更に、ベクトル演算手段は、分野データに基づく検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算することとした概念検索システムである。
【0011】
(用語説明)
「クライアント」とは、本発明に係る概念検索システムを利用して検索を行う検索者に係る端末装置である。
「分野」とは、検索対象文書群の一般的な分類手法や、学術的な見地に基づいた分類手法によって分類された分類のグループなどをいう。例えば、検索対象文書群が特許情報である場合には、A からH までのセクションに振り分けた国際特許分類( いわゆるI P C ) や、更にそのセクション毎に細かく分類されたクラスなどである。
なお、一般に、一のクラスを更に再分類した場合には、その再分類によって分けられた各クラスをサブクラスというが、本明細書においても「クラス、サブクラス」という表現を用いた場合には、大分類がクラスを指し、その下位の分類がサブクラスを指すものとする。
「分類データ」とは、n 個の分野がある場合において、各分野のいずれかひとつを特定する場合のほか、複数の分野を特定する場合も含む。
また、分類の対象となる文書が複数の分類にまたがる場合があり、それを許容する分類を行っている場合には、複数の分野にまたがる条件指定も行えるものとする。具体的には、IPCにおいて、G セクションとH セクションとにまたがる文献のみを検索対象としたい場合に、「G and H」という分類データの入力が可能であるようにする。
【0012】
(作用)
ステムベクトル作成手段が、辞書作成用文書群から辞書機能をなすステムベクトルを作成する。このとき、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成する。一方、作成されたステムベクトルおよび検索対象文書群を用いて、検索対象文書ベクトル作成手段が検索対象文書ベクトル群を作成する。このとき、検索対象文書群については、検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成する。
次に、クライアントが入力した検索用データを検索用データ受信手段が受信する。検索用データには、検索用文章と検索分野を特定するための分野データとが含まれている。そして、検索用文章ベクトル作成手段が、検索用データと分野データに基づくステムベクトルとを用いて検索用文章ベクトルを作成する。
続いて、その検索用文章ベクトルと分野データに基づく検索対象文書ベクトル群とを用いて、ベクトル演算手段がベクトル演算値を演算する。演算されたベクトル演算値は、ソート手段がその値の順に検索対象文書群をソートして、クライアントへソート結果を出力する。
クライアントが検索用データに分野データを含ませることにより、その分野データに関わるステムベクトルおよび検索対象文書によるベクトル演算が行われ、当該分野における検索対象文書から、検索用データに合致する文書が抽出されることとなる。
【0013】
請求項1
請求項1に記載の発明は、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントから入力された検索用データを受信する検索用データ受信手段と、 検索対象文書ベクトル群を用いてベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えた概念検索システムに係る。
ステムベクトル作成手段は、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成し、 検索対象文書ベクトル作成手段は、検索対象文書群における検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成する。
検索用データには、検索分野を特定するための分野データと検索用文章を特定するための文献データとを含み、前記分野データは、その文献データによって特定される検索対象文書に予め設定されたものとする。
ベクトル演算手段は、分野データに基づく検索対象文書ベクトル群と、文献データによって特定された検索用文章に基づいて検索対象文書ベクトル作成手段が作成した検索用文章ベクトルとを用いてベクトル演算値を演算することとしている。
請求項1記載の発明は、第一の発明と異なり、「検索用文章ベクトル作成手段」を備えていない。
ここで、「文献データ」とは、検索対象文書を一元的に管理する番号等があれば、その番号等をいう。例えば、特許情報であれば、出願公開番号である。
【0014】
(作用)
ステムベクトル作成手段が、辞書作成用文書群から辞書機能をなすステムベクトルを作成する。このとき、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成する。一方、作成されたステムベクトルおよび検索対象文書群を用いて、検索対象文書ベクトル作成手段が検索対象文書ベクトル群を作成する。このとき、検索対象文書群については、検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成する。
次に、クライアントが入力した検索用データを検索用データ受信手段が受信する。検索用データには、検索分野を特定するための分野データと検索用文章を特定するための文献データとが含まれている。ベクトル演算手段は、分野データに基づく検索対象文書ベクトル群と、文献データによって特定された検索用文章に基づいて検索対象文書ベクトル作成手段が作成した検索用文章ベクトルとを用いてベクトル演算値を演算する。演算されたベクトル演算値は、ソート手段がその値の順に検索対象文書群をソートして、クライアントへソート結果を出力する。
クライアントが検索用データとして検索分野を特定するための分野データと検索用文章を特定するための文献データとを含ませることにより、ステムベクトルおよび検索対象文書によるベクトル演算が行われ、当該分野における検索対象文書から、検索用データに合致する文書が抽出されることとなる。
【0015】
以下のような発明を提供することもできる。
すなわち、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 検索用文章を含む検索用データを受信する検索用データ受信手段と、 その検索用データとステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段と、を備えた概念検索システムに係る発明である
前記ステムベクトル作成手段は、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成し、検索対象文書ベクトル作成手段は、検索対象文書群における検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成する。また、ソート手段には、クライアントの次回検索入力画面を提供するインデックス提供手段を含み、その次回検索入力画面は、検索分野を特定するための分野データを入力可能な画面とする。ベクトル演算手段は、その分野データに基づく検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を再演算することとし、ソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をもクライアントに出力することとしている。
【0016】
(用語説明)
「検索用データ受信手段」が、検索用データとして少なくとも検索用文章を受信する、としているのは、検索用データとして検索用文章のみの場合の他、以下のような場合をも含む趣旨である。すなわち、検索用文章と分野データにおけるクラスとを入力してソート結果を得た後、次回検索入力画面において、分野データとしてサブクラスを入力するような場合である。
なお、次回検索入力画面での入力は、キーボードによる入力の他、プルダウンメニューによる選択指定や、選択可能なボタン( 以下、ハイパーリンクを含む) によるクリックによる指定でもよい。
【0017】
(作用)
前述の発明は、検索用文章に基づいた概念検索の第一のソート結果に対して、クライアントが絞り込むべき分野データを入力し、その分野データに基づいて再度、第二のソート結果を出力するものである。第二のソート結果に対して、更なるソート結果を出力させることもできるし、全分野を対象にした結果を用いて再検索させてもよいし、分野を指定した検索の後に、再検索してもよい。
まず、ステムベクトル作成手段が、辞書作成用文書群から辞書機能をなすステムベクトルを作成する。このとき、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成する。一方、作成されたステムベクトルおよび検索対象文書群を用いて、検索対象文書ベクトル作成手段が検索対象文書ベクトル群を作成する。このとき、検索対象文書群については、検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成する。
次に、クライアントが入力した検索用データを検索用データ受信手段が受信する。検索用データには、検索用文章が含まれている。そして、検索用文章ベクトル作成手段が、検索用データにおける検索用文章とステムベクトルとを用いて検索用文章ベクトルを作成する。
続いて、その検索用文章ベクトルと全分野の検索対象文書ベクトル群とを用いて、ベクトル演算手段がベクトル演算値を演算する。演算されたベクトル演算値は、ソート手段がその値の順に検索対象文書群をソートして、クライアントへソート結果を出力する。ここまでで、第一のソート結果の出力が終わる。
【0018】
ソート結果とともに、インデックス提供手段がクライアントのために次回検索入力画面を提供し、クライアントは、この次回検索入力画面を用いて、分野データを入力する。
ベクトル演算手段は、その分野データに基づく検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を再演算し、ソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をクライアントに出力する。
クライアントが検索用データに分野データを含ませることにより、その分野データに関わるステムベクトルおよび検索対象文書によるベクトル演算が再度行われ、当該分野における検索対象文書から、検索用データに合致する文書が抽出されることとなる。
【0019】
(請求項2)
請求項2に記載の発明は、 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントから入力された検索用文章を含む検索用データを受信する検索用データ受信手段と、 その検索用データとステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段と、を備えた概念検索システムに係る。
ステムベクトル作成手段は、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成し、 検索対象文書ベクトル作成手段は、検索対象文書群における検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成し、 ソート手段には、クライアントの次回検索入力画面を提供するインデックス提供手段を含み、その次回検索入力画面は、検索分野を特定するための分野データと検索用文章を特定するための文献データとを入力可能な画面とする。
前記分野データは、その文献データによって特定される検索対象文書に予め設定されたものとし、 ベクトル演算手段は、その分野データに基づく検索対象文書ベクトル群と文献データによって特定された検索用文章ベクトルとを用いてベクトル演算値を再演算することとし、 ソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をもクライアントに出力する。
なお、次回検索入力画面は、キーボードによる入力を要求する場合の他、選択可能なボタンによるクリックによる指定による場合もある。
【0020】
(作用)
いわゆる類似検索を行う際に、分野の特定が行えるものである。すなわち、ソート結果とともに、インデックス提供手段がクライアントのために次回検索入力画面を提供し、クライアントは、この次回検索入力画面を用いて、分野データと検索用文章と特定するための文献データとを入力( 指定) する。
ベクトル演算手段は、その分野データに基づく検索対象文書ベクトル群と文献データによって特定された検索用文章ベクトルとを用いてベクトル演算値を再演算し、ソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をクライアントに出力する。
クライアントが再検索の際の検索用データに分野データおよび文献データを含ませることにより、その分野データに関わるステムベクトルおよび文献データの検索用文章ベクトルとによるベクトル演算が再度行われ、当該分野における検索対象文書から、検索用データに合致する文書が抽出されることとなる。
なお、全分野を対象にした結果を用いて、分野を特定した類似検索させてもよいし、分野を指定した検索の後に、再度、類似検索をさせることとしてもよい。
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
請求項1に対応させた発明として、コンピュータに対し、概念検索を実行させるためのプログラムを提供することもできる。
そのプログラムは、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成するステムベクトル作成手順と、 その各分野におけるステムベクトルと検索分野ごとに複数に分割した検索対象文書群とを用いて検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 検索分野を特定するための分野データと検索用文章を特定するための文献データとを含んだ検索用データを受信する検索用データ受信手順と、 分野データに基づく検索対象文書ベクトル群と、文献データによって特定された検索用文章に基づいて検索対象文書ベクトル作成手段が作成した検索用文章ベクトルとを用いてベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とをコンピュータに実行させるためのコンピュータ読み取り可能なプログラムである。
前記の分野データは、その文献データによって特定される検索対象文書に予め設定されたものとする。
【0027】
【0028】
請求項2に対応させた発明として、コンピュータに対し、概念検索を実行させるためのプログラムを提供することもできる。
そのプログラムは、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成するステムベクトル作成手順と、 その各分野におけるステムベクトルと検索分野ごとに複数に分割した検索対象文書群とを用いて検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 検索用文章を含んだ検索用データを受信する検索用データ受信手順と、 その検索用文章とステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと分野データに基づく検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順と、 検索分野を特定するための分野データと検索用文章を特定するための文献データとを受信する分野データ受信手順と、 その分野データに基づく検索対象文書ベクトル群と文献データによって特定された検索用文章ベクトルとを用いてベクトル演算値を演算する再ベクトル演算手順と、 再演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を再出力する再ソート手順とをコンピュータに実行させるためのコンピュータ読み取り可能なプログラムである。
前記の分野データは、その文献データによって特定される検索対象文書に予め設定されたものとする。
【0029】
前述したプログラムに係る発明は、記録媒体へ記憶させて提供することもできる。ここで、「記録媒体」とは、それ自身では空間を占有し得ないプログラムを担持することができる媒体であり、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO(光磁気ディスク)、DVD−ROMなどである。
【0030】
【発明の実施の形態】
以下、本発明を実施の形態及び図面に基づいて、更に詳しく説明する。ここで使用する図面は、図1乃至図10である。図1から図4は、実施形態を示す概念図である。図5から図10は、具体的な画面推移を示す図である。
【0031】
(図1)
図1は、本発明の第一の実施形態を示す概念図であり、クライアント・サーバシステムにおけるサーバに備えられる装置である。クライアントユーザは、サーバを運営する事業主体との契約に基づいて、会員I D およびパスワードの提供を受け、インターネットにて接続して、サーバが提供するサービスを利用する。
【0032】
サーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用データを受信する検索用データ受信手段と、 その検索用データを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えている。
【0033】
本サーバは、特許情報に関する検索が行えるものであり、検索対象文書群も辞書作成用文書群も、特許情報としている。
前記のステムベクトル作成手段は、辞書作成用文書群における分野をA , B , C の三分野に分割してその分野ごとにステムベクトルを予め作成することとしている。また、検索対象文書ベクトル作成手段は、検索対象文書群における検索分野をA , B , C の三分野に分割してその分野ごとに検索対象文書ベクトル群を予め作成しておく。なお、本実施形態では検索対象文書群が特許情報であるので、国際特許分類、更にそのセクション毎に細かく分類されたクラスなどが、上記の「分野」に該当する。ここでは、分かりやすい説明のために、辞書作成用文書群における分野および検索対象文書群における検索分野とも三分野への分割をしたとして説明しているが、より多くの分類としてもよいし、ある一分類の中で更なる分類を存在させるなど、階層化した分類としてもよい。
【0034】
さて、クライアントが入力した検索用データには、検索用文章と検索分野を特定するための分野データとを含むこととしている。具体的には、ある検索用文章と分野データとして「A」分野を特定する旨を含ませる。
検索用データ受信手段は、ある検索用文章と分野データ( A )とを受信する。検索用文章ベクトル作成手段は、その検索用文章の分野のステムベクトルを用いて検索用文章ベクトルを作成し、受信された分野データ( A )によって、検索対象文書ベクトル群から、A 分野の検索対象文書ベクトル群を指定する。そして、ベクトル演算手段は、A 分野の検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算する。
【0035】
演算されたベクトル演算値は、A 分野の検索対象文書ベクトル群に基づいており、更にそのA 分野の検索対象文書ベクトル群は、A 分野のステムベクトルおよびA 分野の検索対象文書群に基づいて作成されている。そのため、検索用文章の中に用いられた単語で、B またはC 分野において他の意味を表す同音多義語が含まれていたとしても、B またはC 分野における検索対象文書が抽出されることはない。
【0036】
(図2)
図2は、本発明の第二の実施形態を示す概念図である。
ここに示すサーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、クライアントが入力した検索用データを受信する検索用データ受信手段と、検索対象文書ベクトル群を用いてベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えている。
【0037】
第一の実施形態と大きく異なるのは、検索用文章ベクトル作成手段を省略している点である。また、検索用データには、検索分野を特定するための分野データと検索用文章を特定するための文献データとを含むこととしている。そして、ベクトル演算手段は、分野データに基づく検索対象文書ベクトル群と、文献データによって特定された検索用文章に基づいて検索対象文書ベクトル作成手段が作成した検索用文章ベクトルとを用いてベクトル演算値を演算することとしている。ここに示す検索手法は、文献データによって特定された検索用文章に類似する概念の文書を抽出する類似検索の一種である。
【0038】
クライアントが検索用データとして、文献番号(2000−123)と分野データ(B分野) とを入力したとする。その検索用データは、サーバにおける検索用データ受信手段が受信する。そして、検索対象文書ベクトル群の中から、文献番号(2000−123)に合致するベクトルを抽出する。図2では、文献番号(2000−123) はC 分野に属していたとして図示している。
ベクトル演算手段は、抽出された文献番号(2000−123) に合致するベクトルと、B分野の検索対象文書ベクトル群とをベクトル演算することとなる。検索用文章ベクトル作成手段を存在させなくても、あるいは機能させなくても概念検索が行えることとなる。
その結果、クライアントは検索用文章を全く入力することなく概念検索が行える一方、サーバ側はハードウエアに対する負担を軽減することができたり、演算時間を短縮できる、といった効果がある。
【0039】
(図3)
図3は、本発明の第三の実施形態を示す概念図である。この実施形態のシステムは、最初に検索用文章による検索を行わせ、その検索結果に基づいて分野を特定するための分野データによる再検索を行わせるものである。
ここに示すサーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用文章を含む検索用データを受信する検索用データ受信手段と、 その検索用データを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備える。
【0040】
ステムベクトル作成手段は、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成し、検索対象文書ベクトル作成手段は、検索対象文書群における検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成する。
なお、最初の検索では検索用文章しか入力されておらず、分野データによる分野の指定が行われていない。したがって、ベクトル演算手段は、検索対象文書ベクトル群に対しては全体のベクトル群と検索用文章ベクトルとを用いてベクトル演算が行われる。このベクトル演算の前提として、分野に別れていない全体のベクトル群は、全分野を対象としたステムベクトルを用いて作成してもよい。
また、ソート手段には、クライアントの次回検索入力画面を提供するインデックス提供手段を含み、その次回検索入力画面は、検索分野を特定するための分野データをプルダウンメニューなどを用いて入力可能な画面としている。
【0041】
前述のベクトル演算手段は、次回検索入力画面から入力された分野データに基づく検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を再演算する。そして、同じく前述のソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をもクライアントに出力する。
【0042】
次回検索入力画面を提供されたクライアントが分野データ( A )を入力して送信したとする。その分野データ( A )を用いて、検索対象文書ベクトル群からA 分野のベクトル群を抽出する。そして、既に作成してある検索用文章ベクトルとともにベクトル演算手段がベクトル演算値を再演算する。
この場合、検索用文章の中に用いられた単語で、B分野またはC分野において他の意味を表す同音多義語が含まれていたとすると、最初のソート結果では、B分野やC分野における文書が高得点を挙げている可能性がある。しかし、再ソート結果には、B分野やC分野における文書が含まれていないので、B分野またはC分野における検索対象文書が抽出されることはない。
【0043】
( 図4 )
図4に示す実施形態が、図3に示す実施形態と異なる点は、次回検索入力画面から入力されるデータが、分野データのみならず、文献データを含む点にある。文献データにて特定される文献を検索対象文章とし、その検索対象文章に概念的に類似する文献を再検索させる際に、分野データによって絞った分野からのみ抽出するのである。
分野データとして「分野データ( A ) 」、文献データとして文献を特定するためのデータ「2001−456」をクライアントが指定したとする。すると、予め検索対象文書ベクトル群として作成されている中から、文献番号「2001−456」に合致する検索対象文書ベクトルをピックアップする。
一方、分野データ( A ) を用いて、検索対象文書ベクトル群からA 分野のベクトル群を抽出する。そして、ピックアップした文献番号「2001−456」の検索対象文書ベクトルとともにベクトル演算手段がベクトル演算値を再演算する。クライアントが考えて入力した検索用文章による検索と異なり、文献番号「2001−456」にて特定された検索用文章に概念的に類似する文献を抽出させることができ、しかもその抽出対象を特定分野に限定することができる。
【0044】
( 図5 )
図5 は、最初に提供される具体的な画面( 第一の検索用画面) を示す図である。画面の下部には、検索用文章の入力欄が設けてある。また、画面の中央部には、国際特許分類( 分野) を選択指定可能な分野データ入力欄が設けてあり、分野を特定しない「国内( 全分野) 」を標準としている。
図5 に示す例では、検索用文章の入力欄には、「レンズ付きフィルムの不正詰替防止装置」と入力したものの、分野データ入力欄では、国際特許分類を限定するデータを入力せずに、「検索開始」のボタンをクリックする。
【0045】
図6は、第一の検索用画面を用いた検索の結果画面を示す図である。「レンズ付きフィルム」という技術分野は、I P C ではG セクションに属するのであるが、「詰替防止」という技術分野に関連の深いB セクションの技術が高得点を挙げてしまい、検索者の意図からずれてしまったと判断できる。
【0046】
図7は、分野別の概念検索を実行させるための画面( 第二の検索用画面) を示す図である。図4の画面に戻って分野データ入力欄を利用した図、ともいえる。
この図では、対象セクションについてプルダウンメニューから「G 」を選択し、メインクラスについてもプルダウンメニューから「G 0 3 」を選択し、再検索をさせるために「検索開始」のボタンをクリックする。極めて簡単な入力画面から再検索を実行させることができる。
【0047】
図8は、第二の検索用画面を用いた入力の結果画面を示す図である。画面の横方向の中央付近に示す「筆頭IPC」は、図6において選択したようにメインクラス「G 0 3 」のみをリストアップしている。また、「筆頭IPC」の右隣の「名称」の欄を見ると明らかであるように、検索者が狙っていた「レンズ付きフィルム」に関連の深そうな技術が多数ヒットしていることが分かる。
【0048】
図9は、類似検索を実行させるための画面( 第三の検査用画面) を示す図である。別の検索方法( 例えば、図8で右上のハイパーリンクをクリックした際に実行される検索方法)、または予め把握していた文献番号として「特開平9−5941」に開示された技術の概念に類似した技術を検索する画面である。
画面の下部では、「要約文による検索」には、3 つの検索方法が選択できるようにしている。すなわち、分野を特定しない「全分野」による検索実行ボタン、特開平特開平9−5941のIPCセクションである「G 」を選択しての検索実行ボタン、および特開平9−5941のメインクラスである「G03」を選択しての検索実行ボタンである。なお、この図示例では請求項の文章を指定しての類似検索においては、分野を指定しての検索実行ボタンは用意していない。
【0049】
なお、図9に示す画面は、図8の最右欄である「類似検索」の指定方法を細分化した画面であるということもできる。したがって、図8の最右欄である「類似検索」を整理して図9示す指定欄を指定可能な画面として提供することも可能である。換言すれば、図9に示す指定欄を図8の各行にそのまま埋め込んだ画面を提供することもできる。
【0050】
図10は、第三の検索用画面を用いた入力の結果画面を示す図である。
第一行目には、特開平9−5941が、スコア「100.0 」にて表示されている。また、以下の行には、特開平9−5941の名称である「レンズ付きフイルムユニット」と同じ名称の特許文献が数多く表示され、検索者の意図に沿った検索結果が得られたであろうことが想像できる。
【0051】
前記してきた実施形態にあっては、辞書作成用文書群および検索対象文書群を、特許情報文献群とした検索システムとしているが、本願発明は、特許情報のための検索システムに限られるものではない。
また、辞書作成用文書群を特許情報文献群とせずに、検索対象文書群を特許情報文献群としても、特許情報の検索システムとなる。
【0052】
【発明の効果】
請求項1から請求項2記載の発明によれば、検索者が抽出したい文献を分野ごとに指定できるようにすることで、検索者が抽出したい分野の文献を抽出しやすくなるような概念検索システムを提供することができた。
【図面の簡単な説明】
【図1】第一の実施形態を示す概念図である。
【図2】第二の実施形態を示す概念図である。
【図3】第三の実施形態を示す概念図である。
【図4】第四の実施形態を示す概念図である。
【図5】最初に提供される具体的な画面( 第一の検索用画面) を示す図である。
【図6】第一の検索用画面を用いた検索結果画面を示す図である。
【図7】分野別の概念検索を実行させるための画面( 第二の検索用画面) を示す図である。
【図8】第二の検索用画面を用いた検索結果画面を示す図である。
【図9】類似検索を実行させるための画面( 第三の検索用画面) を示す図である。
【図10】第三の検索用画面を用いた入力の結果画面を示す図である。

Claims (2)

  1. 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントから入力された検索用データを受信する検索用データ受信手段と、 検索対象文書ベクトル群を用いてベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段と、を備えた概念検索システムであって、
    ステムベクトル作成手段は、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成し、
    検索対象文書ベクトル作成手段は、検索対象文書群における検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成し、
    検索用データには、検索分野を特定するための分野データと検索用文章を特定するための文献データと、を含み、
    前記分野データは、その文献データによって特定される検索対象文書に予め設定されたものとし、
    ベクトル演算手段は、分野データに基づく検索対象文書ベクトル群と、文献データによって特定された検索用文章に基づいて検索対象文書ベクトル作成手段が作成した検索用文章ベクトルとを用いてベクトル演算値を演算することとした概念検索システム。
  2. 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントから入力された検索用文章を含む検索用データを受信する検索用データ受信手段と、 その検索用データとステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段と、を備えた概念検索システムであって、
    ステムベクトル作成手段は、辞書作成用文書群における分野を複数に分割してその分野ごとにステムベクトルを作成し、
    検索対象文書ベクトル作成手段は、検索対象文書群における検索分野を複数に分割してその分野ごとに検索対象文書ベクトル群を作成し、
    ソート手段には、クライアントの次回検索入力画面を提供するインデックス提供手段を含み、その次回検索入力画面は、検索分野を特定するための分野データと検索用文章を特定するための文献データとを入力可能な画面とし、
    前記分野データは、その文献データによって特定される検索対象文書に予め設定されたものとし、
    ベクトル演算手段は、その分野データに基づく検索対象文書ベクトル群と文献データによって特定された検索用文章ベクトルとを用いてベクトル演算値を再演算することとし、
    ソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をもクライアントに出力することとした概念検索システム。
JP2002247851A 2002-08-27 2002-08-27 概念検索システム、概念検索方法およびコンピュータプログラム Expired - Lifetime JP4240280B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002247851A JP4240280B2 (ja) 2002-08-27 2002-08-27 概念検索システム、概念検索方法およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002247851A JP4240280B2 (ja) 2002-08-27 2002-08-27 概念検索システム、概念検索方法およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2004086635A JP2004086635A (ja) 2004-03-18
JP4240280B2 true JP4240280B2 (ja) 2009-03-18

Family

ID=32055368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002247851A Expired - Lifetime JP4240280B2 (ja) 2002-08-27 2002-08-27 概念検索システム、概念検索方法およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4240280B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4857448B2 (ja) * 2006-03-10 2012-01-18 独立行政法人情報通信研究機構 多義語による情報検索装置及びプログラム

Also Published As

Publication number Publication date
JP2004086635A (ja) 2004-03-18

Similar Documents

Publication Publication Date Title
KR101778679B1 (ko) 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
JP3717808B2 (ja) 情報検索システム
US20050165819A1 (en) Document tabulation method and apparatus and medium for storing computer program therefor
JP5161658B2 (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
US20110125724A1 (en) Intelligent search system
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US7440938B2 (en) Method and apparatus for calculating similarity among documents
JP2005092825A (ja) 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
Huynh et al. Vietnamese text classification with textrank and jaccard similarity coefficient
US7275052B2 (en) Combined classification based on examples, queries, and keywords
CN116508004A (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP4594992B2 (ja) 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP4240280B2 (ja) 概念検索システム、概念検索方法およびコンピュータプログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JPH11272709A (ja) ファイル検索方式
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP4357820B2 (ja) 概念検索システムおよびコンピュータプログラム
JP2017208047A (ja) 情報検索方法、情報検索装置、及びプログラム
JP4497337B2 (ja) 概念検索装置およびコンピュータプログラムを記録した記録媒体
JP6843588B2 (ja) 文書検索方法及び装置
JP4010711B2 (ja) ターム評価プログラムを記憶した記憶媒体
JP4914430B2 (ja) 概念検索システムおよびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081217

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4240280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140109

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term