JP2004280346A - 人工知能型検索エンジンおよび検索システム - Google Patents

人工知能型検索エンジンおよび検索システム Download PDF

Info

Publication number
JP2004280346A
JP2004280346A JP2003069479A JP2003069479A JP2004280346A JP 2004280346 A JP2004280346 A JP 2004280346A JP 2003069479 A JP2003069479 A JP 2003069479A JP 2003069479 A JP2003069479 A JP 2003069479A JP 2004280346 A JP2004280346 A JP 2004280346A
Authority
JP
Japan
Prior art keywords
search
sentence
unit
technical term
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003069479A
Other languages
English (en)
Inventor
Hideaki Ogawa
秀明 小川
Mutsumi Ogawa
睦美 小川
Toru Suyama
徹 須山
Fujiaki Kayano
藤章 栢野
Tadashi Ogura
正 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HYPER TEC KK
SHINWA CREATION KK
Original Assignee
HYPER TEC KK
SHINWA CREATION KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HYPER TEC KK, SHINWA CREATION KK filed Critical HYPER TEC KK
Priority to JP2003069479A priority Critical patent/JP2004280346A/ja
Publication of JP2004280346A publication Critical patent/JP2004280346A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】一般的な知識しか持たないユーザーであっても自然文章を入力することで、同義語の置換では行いきれない専門的な用語に基づいた検索が可能な人工知能型検索エンジンおよび検索システムの提供。
【解決手段】質問文章取得部と、質問文章文法解析部と、専門用語変換部と、コンテキスト解析部と、検索実行部と、からなる検索装置を提供する。本検索装置では、上記専門用語変換部で、単語単位ではなく自然文章に基づいて専門用語に変換し、そのうえでコンテキスト解析部が元の自然文章の文脈を解析し、専門用語を利用した検索用文章を生成する。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、情報を検索する技術に関する。
【0002】
【従来の技術】
現在では、知りたい情報がある場合、ユーザーはインターネットの検索エンジンと呼ばれるサービスを利用することが多くなっている。「検索エンジン」とは、知りたい情報に関する語句をキーワードとして入力することで、そのキーワードに一致する語句のあるインターネット上のWebページ(またはWebページの集合であるWebサイト)を、自動的に検索し表示するサービスを提供するものである。
【0003】
また最近では、形態素解析(自然文章中の単語解析)の技術などを利用して、単語ではなくフリーテキスト(自然文章)をキーワードとして検索することができる検索エンジンもある。この自然文章の検索に関する先行技術としては、複合名詞や数値範囲を含んだ自然文章を検索する技術に関する特開平11−120193号発明などがある。
【0004】
【特許文献】
公開番号:特開平11−120193号公報
【0005】
発明の名称:自然文検索方法および装置と自然文検索プログラムを記録した記録媒体
【0006】
【発明が解決しようとする課題】
そして上記自然文章を用いる検索エンジンの場合、例えば「バイク」という単語が自然文章中にあれば、「オートバイ」や「自動二輪車」といった同義語を含むものも検索対象とする検索エンジンも存在する。
【0007】
しかし上記従来の自然文章を用いた検索の技術には、以下のような課題がある。すなわち、(形態素解析の結果得られた)単語に応じた同義(類義)語への変換しか行われないので、例えば「DVDを作りたい」と考えた人がその文章でそのまま検索しても、「DVD」の同義語である「Digital Versatile Disc」や「光ディスク」を作る、という文章を元にしか検索が行えない。つまり、DVD作成を手軽にしてくれる「オーサリングソフト」のリストやその使い方を掲載したWebページなどは、このままでは検索条件に合致しない可能性がある。したがって、その人は「オーサリングソフトを利用してDVDを作る」という簡単なDVD作成手段を見つけ出せない、あるいは見つけるために検索に合致したWebページのリンク先をさらにたどるなど手間がかかる、という課題がある。
【0008】
【課題を解決するための手段】
上記課題を解決するために、本発明は、質問文章取得部と、質問文章文法解析部と、専門用語変換部と、コンテキスト解析部と、検索実行部と、からなる検索装置を提供する。本検索装置では、上記専門用語変換部で、単語単位ではなく自然文章に基づいて専門用語に変換し、そのうえでコンテキスト解析部が元の自然文章の文脈を解析し、専門用語を利用した検索用文章を生成する。
【0009】
【発明の実施の形態】
以下に、本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。
【0010】
実施形態1は、主に請求項1について説明する。
【0011】
実施形態2は、主に請求項2について説明する。
【0012】
実施形態3は、主に請求項3について説明する。
【0013】
実施形態4は、主に請求項4,5について説明する。
【0014】
実施形態5は、主に請求項6について説明する。
【0015】
<実施形態1>
【0016】
(実施形態1の概念)
【0017】
図1は、本実施形態における検索装置の概念の一例を表す図である。この図を用いて本実施形態の概念を説明する。この図にあるように、デジタルビデオ(DV)で運動会の子供の姿を撮影したAさんは、この映像をいつでもリビングのDVDプレーヤーで見たい、と思った(▲1▼)。しかし、今までDVの映像をDVDに記録したことが無いAさんは、インターネットの検索エンジンを使ってそのやり方を調べよう、と考えた(▲2▼)。その検索の際、「オーサリング」という用語を知っていれば、その用語をキーワードにして、簡単にオーサリングの方法やそのためのソフトウェアが紹介してあるWebページを探し出すことができる。しかし、映像編集に関してまったくの素人であるAさんは「オーサリング」という言葉も知らず、またインターネットで検索するための技術も持っていなかった。そのためAさんは「DVDプレーヤーで再生できるタイトルを作りたい」という、検索にあまり適切でない文章を入力し調べ始めた(▲3▼)。するとその検索に合致したのは、「DVD再生用ソフトのページ」や「各社DVDプレーヤーの再生画質の比較」など、関係のないWebページばかりで、「DVDの作り方」というページにようやくそのやり方を見つけることができた(▲4▼)。しかし、他のWebページを見てもっと情報を集めたいと思ったAさんは、本実施形態の検索装置を使うことを思いついた(▲5▼)。そして先ほどと同様の質問文章を入力し検索したところ、今度は「DVDのオーサリング方法」や「DVDのオーサリング用ソフト」を紹介しているページ等も新たに見つけることができた(▲6▼)。Aさんは、その中の「DVDのオーサリング用ソフト」を紹介しているページを見て、DVD作成を手軽にしてくれるオーサリングソフトの存在をはじめて知った。そこでAさんはその中から自分に合ったオーサリング用ソフトを購入し、無事子供たちの姿をDVDに記録することができた。
【0018】
なお、本明細書の例示中で表記する「タイトル」とは、DVDの映像内容であるコンテンツのことを示す。
【0019】
(実施形態1の構成)
【0020】
図2に示すのは、本実施形態における検索装置の機能ブロックの一例を表す図である。この図にあるように、本実施形態の「検索装置」(0200)は、「質問文章取得部」(0201)と、「質問文章文法解析部」(0202)と、「専門用語変換部」(0203)と、「コンテキスト解析部」(0204)と、「検索実行部」(0205)と、からなる。
【0021】
「質問文章取得部」(0201)は、質問文章を取得する機能を有する。その取得の方法としては、所定の文字コード情報で表わされた、キーボードで入力された文字列や、音声認識システムにより認識した文字列などを取得することが挙げられる。
【0022】
「質問文章」とは、知りたい情報を表現した自然言語からなる文章である。「自然言語」とは、社会で一般に使われている言語をいい、例えば書き言葉や話し言葉、俗語(スラング)なども含まれる。質問文章の例としては、上記の「DVDプレーヤーで再生できるタイトルを知りたい」といった話し口調の文章が挙げられる。ただし、この質問文章は必ずしもS(主語)、V(述語)、O(目的語)、C(補語)等が揃っている必要は無く、「DVDで作成できるタイトル」などでもよい。
【0023】
「質問文章文法解析部」(0202)は、前記質問文章を文法解析する機能を有する。「文法解析」とは、質問文章を単語単位で分割しその単語の品詞情報を確定し、また、質問文章中の単語の繋がりなどを確定することである。この文法解析の方法としては、まず自然文章に対して形態素解析を行い、その解析結果に基づいて構文解析を利用する方法などが挙げられる。
【0024】
「形態素解析」は、例えば形態素辞書と形態素文法辞書を利用して、単語の分割を行うことをいう。この「形態素辞書」には、形態素となる単語を、その品詞情報や活用情報などと関連付けて保持してある。また「形態素文法辞書」には、自立語と付属語の組合せの規則、例えば格助詞は名詞のあとに付き動詞のあとには付かない、や五段活用の動詞にはその活用での活用語尾が付く、など形態素に関する諸規則を保持してある。なお、「形態素」とは、意味を有する最小の言語単位をいう。またこの形態素が2以上集まって形成したものを「文節」とする。
【0025】
また、「構文解析」は、上記形態素解析の結果から、形態素間の係り受け関係などの文章の構造を解析することをいう。例えば格文法などを利用して、動詞を中心に動詞とそれ以外の形態素の関係(動作の主体、動作の対象など)を決定して形態素や文節の係り受けなどの文章構造を解析すること等が挙げられる。
【0026】
以下、図3、図4、図5を利用して、質問文章文法解析部での質問文章の文法解析の一例について説明する。
【0027】
図3に示すように、まず、形態素解析を行うために質問文章取得部において「DVDプレーヤーで再生できるタイトルを知りたい」という質問文章が取得された。質問文章文法解析部では、まず、上記質問文章の文字を最初から走査し、図4に示す形態素辞書と照合して、辞書中の形態素のうち最も長く一致する「DVDプレーヤー」を第一の形態素として選び出す(最長一致法)。もちろんこの「最長一致法」のほかにも形態素解析の方法として、句読点や、漢字・カタカナ・英字・数字の区別を利用する「字種切り法」など種々の方法の利用が考えられる。このようにして、上記質問文章を「DVDプレーヤー(一般名詞:複合語)」、「で(助詞)」、「再生(一般名詞)」・・・という具合に形態素に分割する。
【0028】
続いて、図5に示すように上述の格文法を利用して構文解析を行う。格文法では格フレームという考え方があるが、「格フレーム」とは、動詞が必要とする各要素の情報をいう。例えば「作る」という動詞ならば、「動作主格(humanが)」と「対象格(abstractを)」と「道具格(concreteで)」という格要素を必要とする、といった情報である。
【0029】
本例ではまず、「作る」の格フレームである『「動作主格(human)」が「対象格(abstract)」を』に基づいて、上記質問文章を「(動作主格は省略)タイトルを作る」と構文解析する。また「できる」についても同様にして「DVDプレーヤー(道具格)で再生(対象格)をできる」という構文解析がなされる。さらに、この各文節に関して句読点や並列関係などから「できる」の係り受け関係の解析も行われ、「・・・再生できるタイトル」という候補などが作り出される。
【0030】
このように、形態素や文節の解析を行うことで、取得した自然文章を後述する専門用語へ変換することが可能となる。
【0031】
再び図2を用いて、本実施形態の検索装置の機能ブロックの一例について説明する。
【0032】
「専門用語変換部」(0203)は、前記質問文章文法解析部(0202)での解析結果に基づいて前記質問文章を専門用語に変換する機能を有する。「専門用語」とは、一又は二以上のある分野において専門的に用いられる用語をいう。なお専門用語には、特定の国語ではなく他の国語で表現された用語や、専門的に付されたコード番号等も含むものとする。専門用語として、例えば、IT関連分野でDVD作成一般を表す「オーサリング」という用語や、植物分野ではイランイランの学術名としての「Cananga odorata」や、医学分野ではハルシオンの厚生省コードである「1124007F2026」等が挙げられる。
【0033】
以下、図6、図7を利用して、専門用語変換部での専門用語への変換の一例について説明する。
【0034】
図6に示すように、まず、質問文章文法解析部の形態素解析により解析された複合名詞である「DVDプレーヤー」の「DVD」を、図7で示す専門用語辞書で参照し、「DVDビデオ」や「光ディスク」などの専門用語に変換する。また同様にして、構文解析による「DVDプレーヤーで再生できるタイトル」を「Mpeg1・Mpeg2」などの専門用語に変換し、さらに「DVD(プレーヤーで・・・再生できるタイトル)を作る」から、「オーサリング」という専門用語への変換が行われる。
【0035】
このように、質問文章を専門用語に変換し、後述する検索用文章の生成にこの専門用語を利用することで、特定の知識を持たない人でも詳しい検索を行うことが可能となる。さらに、この専門用語への変換は、形態素から専門的な形態素への変換のみならず、質問文章の構文解析結果に基づいて、文節から専門的な形態素や文節への変換も行うことができる。なぜならば構文解析により文節の組合せなども解析されており、専門用語辞書には、文節と専門的な形態素との関連付けもなされているからである。
【0036】
再び図2を用いて、本実施形態の検索装置の機能ブロックの一例について説明する。
【0037】
「コンテキスト解析部」(0204)は、前記質問文章取得部(0201)で取得した質問文章の文脈を解析し、検索用文章を生成する機能を有する。「検索用文章」とは、前記専門用語を利用して前記知りたい情報を表現しなおした文章をいう。
【0038】
「文脈を解析」とは、形態素または文節間の係り受け関係や、主語、述語、目的語などの各形態素の機能などを解析した結果から文脈を解析することをいう。
【0039】
以下、図8を利用して、専門用語を利用した検索用文章の生成の一例を説明する。
【0040】
図8に示すように、専門用語変換部で変換されたそれぞれの用語を用いて、それを元の質問文章に置換していき、検索用文章として「オーサリング方法を知る」や、「mpeg2・mpeg1の作り方を知る」を生成する。
【0041】
このように新たに生成した検索用文章を、後述する検索実行部での検索実行の前に、一度ディスプレイなどに表示することで、ユーザーの検索意図に合った検索用文章になっているか確認させてもよい。それによって、検索用文章の候補が絞り込まれるので、より効率的な検索が可能となる。
【0042】
また、意味処理を行うための辞書(例えば、「石」という形態素と意味的に共起しうる形態素が関連付けられており、「石が走る人にぶつかった」という文章において、「石が走る」という形態素の繋がりを排除するなどの規則を記載した辞書)を利用し、検索用文章の組合せ候補数を減らすことにより、効果的に検索用文章を生成する構成にしても良い。
【0043】
さらに上記生成された検索用文章をさらに専門用語変換部で変換しても良い。例えば、専門用語辞書で「Mpeg2の作成」が「エンコード」と関連付けられていれば、「mpeg2・mpeg1の作り方を知る」から「エンコード方法を知る」という検索用文章をさらに生成しても良い。
【0044】
「検索実行部」(0205)は、前記コンテキスト解析部(0204)で生成された検索用文章に基づいて検索を実行する機能を有する。
【0045】
この検索実行部の検索の実行は、例えば、Web上で検索サービスを実施しているサイトの検索エンジンにコンテキスト解析部で生成された検索用文章が送信され、折り返し検索結果を受信することで実現されても良い。もちろん本実施形態の検索装置の内部に独自の検索エンジンを備えることで、検索の実行が行われても良い。
【0046】
またこの検索実行部による具体的な検索方法としては、例えば、出現する形態素の有無や出現数を特徴量としたベクトルで自然文章を表現し、そのベクトルを利用して検索用文章と検索の対象となる文章との類似度を算出するベクトル空間モデルなどの手法を用いることが考えられる。
【0047】
以上のようにして、専門的な用語をあまり知らず、また検索の技術もあまりないユーザーの質問文章から、例えばDVDビデオのオーサリングのやり方やMpeg2動画の作り方(エンコード方法)などを検索用文章とする検索が可能となる。したがって最初の質問文章に比べ、より簡単に、またより多くのオーサリングに関するWebページを見つけることができる。また、DVDの作成に必要なエンコードについての情報も加えて収集することができるようになる。
【0048】
(実施形態1の処理の流れ)
【0049】
図9に示すのは、本実施形態における処理の流れの一例を表すフローチャートである。この図にあるように、まず、質問文章を取得する(ステップS0901)。次に、ステップS0901で取得した質問文章を文法解析する(ステップS0902)。続いて、ステップS0902での解析結果に基づいて前記質問文章を専門用語に変換する(ステップS0903)。さらに、ステップS0901で取得した質問文章の文脈を解析し、前記専門用語を利用して検索用文章を生成する(ステップS0904)。最後に、ステップS0904で生成された検索用文章に基づいて検索を行う(ステップS0905)。
【0050】
(実施形態1の効果の簡単な説明)
【0051】
以上のように、本実施形態の検索装置によって、一般的な知識しかもたないユーザーであっても自然文章を入力することで、同義語の置換では行いきれない専門的な用語に基づいた検索が行えるようになる。通常、専門的な用語が記載してあるWebサイトは、その分野についてより詳しく記載してあることが多い。したがってユーザーは従来よりも質、量ともに大きい情報を取得することが容易となる。
【0052】
<実施形態2>
【0053】
(実施形態2の概念)
【0054】
本実施形態における検索装置の概念の一例について説明する。本実施形態の検索装置は、実施形態1を基本として、生成された検索用文章に対して、専門用語間の関連度によって評価付けがなされていることを特徴としている。
【0055】
例えば、本実施形態の検索装置によって、質問文章から検索用文章Aとして「DVDのオーサリング方法を知る」、検索用文章Bとして「光ディスクのオーサリング方法を知る」が生成された。「オーサリング」とは、動画像や文字、音声を編集して一つのタイトルとしてまとめることを言うが、一般的にはDVDタイトルの作成を指すことが多い。したがって、「光ディスク」を「オーサリングする」とはあまり言わないので、検索用文章Bは専門用語間の関連度が高くないとして評価点20点が与えられる。逆に検索用文章Aは関連度が高いとして評価点50点が与えられる。
【0056】
このように本実施形態では、検索用文章内の複数の専門用語の関連度に対して評価付けされていることを特徴としている。そして検索用文章に評価付けがなされれば、その評価付けの高い検索用文章の検索結果から順にユーザーに表示することなどができる。すると、語句間の関連性の低い文章で検索したものより関連性の高い文章の検索結果の方が、確率的にユーザーにとって有用であることが多いので、検索効率が上がると考えられる。
【0057】
(実施形態2の構成)
【0058】
図10に示すのは、本実施形態における検索装置の機能ブロックの一例を表す図である。この図にあるように、本実施形態の検索装置(1000)は、実施形態1を基本として、「質問文章取得部」(1001)と、「質問文章文法解析部」(1002)と、「専門用語変換部」(1003)と、「コンテキスト解析部」(1004)と、「検索実行部」(1005)と、からなる。
【0059】
そして、さらに特徴点として、「検索用文章評価部」(1007)を有する。また前記「専門用語変換部」(1003)は、「専門用語関連度情報保持手段」(1006)を有する。
【0060】
「専門用語関連度情報保持手段」(1006)は、専門用語関連度情報を保持する機能を有する。「保持」とは、ハードディスクドライブやDRAMなどの記憶する内部の記憶装置に半恒久的又は一時的に保持されていても良いし、DVD−ROMなどの光学系記憶媒体やフレキシブルディスクなどの磁気系記憶媒体など可搬型の外部記憶媒体に保持されていても良い。
【0061】
「専門用語関連度情報」とは、専門用語間の関連度を示す情報をいう。「関連度」は、検索用文章中の専門用語の、例えば意味的な結びつきの強さ/弱さや、慣例的にセットで利用されることが多い、などから設定されると良い。
【0062】
図11に示すのは、専門用語関連度情報保持手段における専門用語関連度情報の保持の態様の一例を表す図である。この図にあるように、例えば、「オーサリング」という専門用語に関しては「DVD」との関連度が高いので、「光ディスク」よりも評価点(評価付け)が高く設定され保持されている。
【0063】
このように、専門用語間の関連度が保持されていることで、その専門用語の組合せにより生成された検索用文章の評価付けを行うことができる。
【0064】
「検索用文章評価部」(1007)は、前記専門用語関連度情報保持手段(1006)に保持されている専門用語関連度情報を利用して、前記コンテキスト解析部(1004)で生成された検索用文章の評価付けを行う機能を有する。
【0065】
この検索用文章の評価付けは、例えば、前記20点や50点などの評価点をそのまま(3以上の組合せならばそれぞれの評価点の合計など)検索用文章の評価点とすることで行われる方法などが挙げられる。
【0066】
(実施形態2の処理の流れ)
【0067】
図12に示すのは、本実施形態における処理の流れの一例を表すフローチャートである。この図にあるように、まず、質問文章を取得する(ステップS1201)。次に、ステップS1201で取得した質問文章を文法解析する(ステップS1202)。続いて、ステップS1202での解析結果に基づいて前記質問文章を専門用語に変換する(ステップS1203)。さらに、ステップS1201で取得した質問文章の文脈を解析し、前記専門用語を利用して検索用文章を生成する(ステップS1204)。続いて、予め保持されている専門用語関連度情報を利用して、ステップS1204で生成された検索用文章の評価付けを行う(ステップS1205)。最後に、ステップS1204で生成された検索用文章に基づいて検索を行う(ステップS1206)。
【0068】
もちろん、ステップS1206での検索は、前述の様に評価付けの高い検索用文章の検索結果から表示するなど、評価付けを加味して行われてもよい。また、この評価付けの高低が視覚的にユーザーに示され、ユーザーはその評価付けを指針に検索用文章の絞込みを行うようにして、検索の実行に関して評価付けは考慮されない態様でも良い。
【0069】
(実施形態2の効果の簡単な説明)
【0070】
同義語への変換を行う検索装置では、文法の解析や専門用語への変換の候補の数によっては膨大な数の検索用文章が生成される可能性がある。したがって、その検索結果も多岐にわたる可能性が高い。しかし、本実施形態の検索装置のように文章への評価付けが行われれば、その表示順を確率的に効果的なものとすることができる。あるいは、ユーザーに対して評価付けを視覚的に表示することで検索用文章の絞込みを行わせることができる。したがって、より効果的な検索が可能となる。
【0071】
<実施形態3>
【0072】
(実施形態3の概念)
【0073】
本実施形態における検索装置の概念の一例を以下に説明する。本実施形態の検索装置は、実施形態1を基本として、さらにユーザーが良く検索する専門用語の組合せへの評価付けを高くするなど専門用語関連度情報に修正を加える。それによって専門用語への変換や検索をより効果的に行えるようにする。
【0074】
(実施形態3の構成)
【0075】
図13に示すのは、本実施形態における検索装置の機能ブロックの一例を表す図である。この図にあるように、本実施形態の検索装置(1300)は、実施形態2を基本として、「質問文章取得部」(1301)と、「質問文章文法解析部」(1302)と、「専門用語変換部」(1303)と、「コンテキスト解析部」(1304)と、「検索実行部」(1305)と、「専門用語関連度情報保持手段」(1306)と、「検索用文章評価部」(1307)と、からなる。
【0076】
そして、さらに特徴点として、「専門用語関連度情報保持手段管理部」(1308)を有する。
【0077】
「専門用語関連度情報保持手段管理部」(1308)は、前記検索実行部(1305)での検索結果に基づいて、前記専門用語関連度情報保持手段(1306)を管理する機能を有する。
【0078】
「管理」の一例としては、ユーザーが入力する質問文章によって、「DVDのオーサリングについて知りたい」という検索用文章がたびたび生成される場合、専門用語の組合せである「DVD」と「オーサリング」の組合せの評価付けを上げることが挙げられる。つまり、ユーザーの質問傾向に応じて専門用語関連度情報保持手段での評価付けが変更される、ということである。
【0079】
また、検索用文章内での組合せのほかに、検索結果として合致した検索対象文章内での専門用語の組合せに対しても管理が行われてよい。例えば、「DVDのオーサリングを知りたい」という検索用文章によって、オーサリングソフトである「X(商品名)」について記載してあるWebページが多数検索された。しかし、専門用語関連度情報保持手段に、この専門用語の組合せは保持されていない。このような場合、「オーサリング(ソフト)」と「X」という専門用語の組合せが専門用語関連度情報保持手段に新たに保持される、という具合である。またその際の評価付けは、検索に合致した数に基づいて設定されると良い。
【0080】
その他にも、検索対象とほとんど合致するものが無い専門用語の組合せに対する評価付けを下げる、あるいは、削除することや、逆に頻繁に合致する組合せの評価付けを上げることが挙げられる。なぜならば、合致件数が少ない(多い)ということは、それだけその専門用語間の関連度が低い(高い)可能性が大きいからである。
【0081】
(実施形態3の処理の流れ)
【0082】
図14に示すのは、本実施形態における処理の流れの一例を表すフローチャートである。この図にあるように、まず、質問文章を取得する(ステップS1401)。次に、ステップS1401で取得した質問文章を文法解析する(ステップS1402)。続いて、ステップS1402での解析結果に基づいて前記質問文章を専門用語に変換する(ステップS1403)。さらに、ステップS1401で取得した質問文章の文脈を解析し、前記専門用語を利用して検索用文章を生成する(ステップS1404)。続いて、予め保持されている専門用語関連度情報を利用して、ステップS1404で生成された検索用文章の評価付けを行う(ステップS1405)。次に、ステップS1404で生成された検索用文章に基づいて検索を行う(ステップS1406)。最後に、ステップS1406での検索結果に基づいて、前記予め保持されている専門用語関連度情報を管理する(ステップS1407)。
【0083】
(実施形態3の効果の簡単な説明)
【0084】
以上のように、本実施形態の検索装置によって、検索結果がフィードバックされることで、ユーザー毎にカスタマイズされたり、効果的な専門用語への変換が行われたり、新たな専門用語の組合せを取得したりするなど効果的な検索を行うことが可能となる。
【0085】
<実施形態4>
【0086】
(実施形態4の概念)
【0087】
図15に示すのは、本実施形態における検索エージェントを利用する検索システムの概念の一例を表す図である。この図にあるように、まずクライアントであるユーザー端末が、検索エージェントを利用して情報を検索した。そのエージェント1〜4はインターネット上を巡回し検索を行い、クライアントの検索条件に合致するコンテンツをあるサーバで見つけ出した。すると、各エージェントは、そのコンテンツデータを、A,B,C,Dの4つのデータ片に分割しそれぞれを別々に暗号化した。そして、その分割したコンテンツデータを各エージェントがそれぞれ保持してクライアントの元へと戻ってきた。戻ってきた各エージェントは、コンテンツデータを分割保持したまま、クライアントの記憶装置に蓄積される。そして、そのコンテンツデータが使用される際には、各エージェントが連携して復号化を行い、コンテンツデータを使用できるようにする。
【0088】
なお、各エージェントは、コンテンツサーバでのデータの分割及び暗号化を行い、クライアントへそのデータ片を送信したら消滅する、あるいは、別のデータを検索しにインターネット上をさらに巡回してもよい。その場合、クライアントの記憶装置には、巡回している各エージェントに対応してデータ片を復号化する復号化用エージェント1〜4が蓄積されていて、それらが連携してコンテンツデータを使用できるようにする。
【0089】
このように、コンテンツデータが分割、暗号化され、それがクライアントの記憶装置内でばらばらに保持されるため、ユーザーはコンテンツデータを勝手にコピーすることができなくなる。
【0090】
(実施形態4の処理の流れ)
【0091】
図16に示すのは、本実施形態の検索システムにおいて、複数の検索エージェントのそれぞれで行われている処理の流れの一例を表すフローチャートである。
【0092】
「検索エージェント」とは、それ自体が実行可能なプログラムとしてインターネット上を巡回して様々なデータを検索、取得し、指定されたクライアントコンピュータに対してそのデータを送信などするプログラムのことをいう。
【0093】
この図にあるように、まず、クライアントに送信すべき情報を分割して分割情報とする(ステップS1601)。次に、前記分割情報を暗号化して暗号化分割情報とする(ステップS1602)。最後に、前記暗号化分割情報をクライアントに送信する(ステップS1603)。
【0094】
なお、上述の様に、この情報を使用する際には、各検索エージェント又は、各エージェントに対応したクライアント内の別の各エージェントが、暗号化分割情報を復号化しながら連携して情報を使用可能な状態にする。
【0095】
(実施形態4の効果の簡単な説明)
【0096】
以上のように、検索エージェントによってデータが分割、暗号化され、クライアントコンピュータの元へ送信されるので、送信途中でエージェント1の保持するデータ片Aを傍受されても、データがばらばらであり、かつ暗号化されているので、元のデータの機密性は保たれる。また、クライアントの記憶装置には、データ片がばらばらにかつ暗号化されて存在することになるので、ユーザーが勝手にデータを複製して、著作権を侵害されることを防ぐことができる。
【0097】
(実施形態4のその他の実施例)
【0098】
また、本実施形態の検索エージェントが、所定の時間が経過するとクライアントに保持されている前記暗号化分割情報を消去する形態であってもよい。
【0099】
例えば、クライアントが検索エージェントを利用して、ある映画の動画ファイルを検索した。するとレンタルサービスを行っているサイトのサーバにその動画ファイルが置いてあった。このような場合、このサイトは検索エージェントに1週間経過すると、暗号化分割情報を消去するようプログラムする。すると、1週間後にはクライアントでその動画を見ることはできなくなる。
【0100】
以上のように、ユーザーに勝手に複製されない本実施形態の検索システムは、上記のような機能を持たせることで、著作権の観点からも安心な各種データのレンタルサービスなどを実施するのに好適なシステムとなる。
【0101】
<実施形態5>
【0102】
(実施形態5の概念)
【0103】
本実施形態は、日付や場所などを示す単語が検索対象となる文章に含まれている場合に、「3日後」や「3軒隣」などその日時や場所の推移を示す単語が検索対象文章中にあればそれを考慮に入れて検索することが可能な検索装置である。
【0104】
例えば、検索対象となる「4月10日に出国してパリに到着した。翌日ベルリンに行き、3日後に帰国した。」という文章がある。このとき、本実施形態の検索装置は、「4月14日 帰国」や「ベルリン行き 4月11日」という検索キーワードから、この検索キーワードが上記文章には直接含まれていないのにも関わらず、この文章を検索に合致したものとする。
【0105】
(実施形態5の構成)
【0106】
図17に示すのは、本実施形態の検索装置における機能ブロックの一例を表す図である。この図にあるように、本実施形態の検索装置(1700)は、「検索対象文章取得部」(1701)と、「検索対象文章文法解析部」(1702)と、「空間時間単語抽出部」(1703)と、「空間時間相対移動単語抽出部」(1704)と、「索引付与部」(1705)と、からなる。
【0107】
「検索対象文章取得部」(1701)は、検索対象文章を取得する機能を有する。「検索対象文章」とは、自然言語からなり、検索の対象となる文章をいう。この検索対象文章の取得は、インターネットやデータベース上を検索収集用の自動プログラムが巡回し取得しても良いし、手入力で入力されても良い。
【0108】
「検索対象文章文法解析部」(1702)は、前記検索対象文章を文法解析する機能を有する。この検索対象文章の文法解析は、実施形態1で記載した質問文章の文法解析と同様であるとして、説明は省略する。
【0109】
「空間時間単語抽出部」(1703)は、前記検索対象文章文法解析部(1702)での解析結果に基づいて、検索対象文章中の空間時間単語を抽出する機能を有する。「空間時間単語」とは、空間または時間的位置を示す単語をいい、例えば、「4月」、「10日」や、「○×駅」などが挙げられる。この抽出の具体例は、前記文法解析の形態素解析によって、「数字(漢数字、アラビア数字など)」に「日」や「月」などの形態素が付属しているものや、「駅」などの場所を表す形態素が抽出される。もちろん上記最長一致法などを利用して「五月雨」などは除かれる。また前述の構文解析の格フレームを利用して文章中の述語から、「場所格(動作の空間的な位置や方向)」、「時間格(動作、状態の生起する時刻)」を決定してもよい。
【0110】
「空間時間相対移動単語抽出部」(1704)は、前記検索対象文章文法解析部(1702)での解析結果に基づいて、検索対象文章中の空間時間相対移動単語を抽出する機能を有する。「空間時間相対移動単語」とは、空間または時間の相対的な移動を示す単語をいい、例えば「3日後」や「翌日」、「3軒隣」などが挙げられる。
【0111】
この空間時間相対移動単語の抽出の具体例は、形態素解析の結果得られた「3日」などの形態素に「後」や「間」など移動を表す形態素がついている場合に空間時間相対移動単語として抽出される。また、「翌日」や「去年」など、その語自体が「空間時間相対移動単語」として形態素辞書に登録されていても良い。
【0112】
あるいは、「3日」などの空間時間単語の近傍に、「経過」や「待つ」などの語句があり、形態素解析などによってその語同士の結びつきが解析されれば、「3日」も空間時間相対移動単語とみなされる。
【0113】
「索引付与部」(1705)は、前記空間時間単語抽出部(1703)と、前記空間時間相対移動単語抽出部(1704)との抽出結果と、空間的または時間的な所定の規則とに基づいて、検索に利用される索引を前記検索対象文章に付与する機能を有する。
【0114】
上記例で説明すれば、空間時間単語として「4月10日」が、空間時間相対移動単語として「翌日」「3日後」が抽出される。この時、所定の規則として「日付ごとの動作」をその索引とするのであれば、上記抽出された単語から日付として「4月11日」、動作として「ベルリンに行く」、あるいは同様に「4月14日に帰国」といった索引が生成され、検索対象文章に付与される。
【0115】
なお所定の規則は、上記例のほかにも、「帰国した日」として「4月14日」をその索引として付与したり、「○○氏が行った場所」として索引を付与したりしても良い。
【0116】
これにより、例えば「ベルリン行き 4月11日」や「4月14日 帰国」という検索キーワードから、上記索引が付与された「4月10日に出国してパリに到着した。翌日ベルリンに行き、3日後に帰国した。」という検索対象文章が探し出される。
【0117】
もちろん、検索の際には、キーワードではなく「4月14日に帰国した」などの自然言語による質問文章から検索対象文章を探すことも可能である。
【0118】
(実施形態5の処理の流れ)
【0119】
図18に示すのは、本実施形態における処理の流れの一例を表すフローチャートである。この図にあるように、まず、検索対象文章を取得する(ステップS1801)。次に、前記検索対象文章を文法解析する(ステップS1802)。続いて、ステップS1802での解析結果に基づいて、検索対象文章中の空間時間単語を抽出する(ステップS1803)。また、ステップS1802での解析結果に基づいて、検索対象文章中の空間時間相対移動単語を抽出する(ステップS1804)。最後に、ステップS1803と、ステップS1804との抽出結果と、空間的または時間的な所定の規則とに基づいて、検索に利用される索引を前記検索対象文章に付与する(ステップS1805)。
【0120】
(実施形態5の効果の簡単な説明)
【0121】
このように、本実施形態の検索装置によって、たとえ検索対象となる文章中に時間や場所の明確な記載がなくとも、空間時間単語と空間時間相対移動単語が含まれていれば、記載されていない時間や場所に関する文章を検索できる。
【0122】
【発明の効果】
以上のように、本発明の検索装置によって、同義語や類義語への置換では行えない、自然文章を利用したより専門的な検索用文章の生成、検索が可能となる。通常、専門的な用語が記載してあるWebサイトは、その分野についてより詳しく記載してあることが多い。したがってユーザーは従来よりも質、量ともに大きい情報を取得することが容易となる。
【0123】
また、本発明の検索システムによって、検索し送信されたデータの機密性を保ち、かつ勝手な複製を抑制することができる。
【0124】
なお、本明細書では、本発明の実施の形態例を、インターネット上のWebページ(Webサイト)を検索するための検索エンジンや検索システムとして記載した。しかしそれのみならず、本発明は電子化されデータベース化されている文章ファイルなどを検索する際の検索用ソフトウェアに利用することも可能である。
【0125】
【図面の簡単な説明】
【図1】実施形態1における検索装置の概念の一例を表す図
【図2】実施形態1における検索装置の機能ブロックの一例を表す図
【図3】実施形態1の質問文章文法解析部での質問文章の文法解析の一例である形態素解析を説明するための図
【図4】実施形態1の質問文章文法解析部での形態素解析に利用される形態素辞書の一例を表す図
【図5】実施形態1の質問文章文法解析部での質問文章の文法解析の一例である格文法を利用した構文解析を説明するための図
【図6】実施形態1の専門用語変換部での専門用語への変換の一例について説明するための図
【図7】実施形態1の専門用語変換部での専門用語への変換に利用される専門用語辞書の一例を表す図
【図8】実施形態1のコンテキスト解析部での専門用語を利用した検索用文章の生成の一例を説明するための図
【図9】実施形態1における処理の流れの一例を表すフローチャート
【図10】実施形態2における検索装置の機能ブロックの一例を表す図
【図11】実施形態2の専門用語関連度情報保持手段における専門用語関連度情報の保持の態様の一例を表す図
【図12】実施形態2における処理の流れの一例を表すフローチャート
【図13】実施形態3における検索装置の機能ブロックの一例を表す図
【図14】実施形態3における処理の流れの一例を表すフローチャート
【図15】実施形態4の検索エージェントを利用する検索システムの概念の一例を表す図
【図16】実施形態4における検索システムにおいて、複数の検索エージェントのそれぞれで行われている処理の流れの一例を表すフローチャート
【図17】実施形態5における検索装置の機能ブロックの一例を表す図
【図18】実施形態5における処理の流れの一例を表すフローチャート
【符号の説明】
0200 検索装置
0201 質問文章取得部
0202 質問文章文法解析部
0203 専門用語変換部
0204 コンテキスト解析部
0205 検索実行部

Claims (6)

  1. 知りたい情報を表現した自然言語からなる文章である質問文章を取得する質問文章取得部と、
    前記質問文章を文法解析する質問文章文法解析部と、
    前記質問文章文法解析部での解析結果に基づいて前記質問文章を専門用語に変換する専門用語変換部と、
    前記質問文章取得部で取得した質問文章の文脈を解析し、前記専門用語を利用して前記知りたい情報を表現しなおした文章である検索用文章を生成するコンテキスト解析部と、
    前記コンテキスト解析部で生成された検索用文章に基づいて検索を実行する検索実行部と、
    からなる検索装置。
  2. 前記専門用語変換部は、さらに専門用語間の関連度を示す情報である専門用語関連度情報を保持する専門用語関連度情報保持手段を有し、
    前記専門用語関連度情報保持手段に保持されている専門用語関連度情報を利用して、前記コンテキスト解析部で生成された検索用文章の評価付けを行う検索用文章評価部、
    をさらに有する請求項1に記載の検索装置。
  3. 前記検索実行部での検索結果に基づいて、前記専門用語関連度情報保持手段を管理する専門用語関連度情報保持手段管理部をさらに有する請求項2に記載の検索装置。
  4. 複数の検索エージェントを利用する検索システムであって、
    前記複数の検索エージェントのそれぞれは、
    クライアントに送信すべき情報を分割して分割情報とする分割ステップと、
    前記分割情報を暗号化して暗号化分割情報とする暗号化ステップと、
    前記暗号化分割情報をクライアントに送信する送信ステップと、
    を巡回先の計算機に実行させる
    検索システム。
  5. 前記検索エージェントは、所定の時間が経過するとクライアントに保持されている前記暗号化分割情報を消去することを特徴とする請求項4の検索システム。
  6. 自然言語からなり、検索の対象となる文章である検索対象文章を取得する検索対象文章取得部と、
    前記検索対象文章を文法解析する検索対象文章文法解析部と、
    前記検索対象文章文法解析部での解析結果に基づいて、検索対象文章中の空間または時間的位置を示す単語である空間時間単語を抽出する空間時間単語抽出部と、
    前記検索対象文章文法解析部での解析結果に基づいて、検索対象文章中の空間または時間の相対的な移動を示す単語である空間時間相対移動単語を抽出する空間時間相対移動単語抽出部と、
    前記空間時間単語抽出部と前記空間時間相対移動単語抽出部との抽出結果と、空間的または時間的な所定の規則とに基づいて、検索に利用される索引を前記検索対象文章に付与する索引付与部と、
    からなる検索装置。
JP2003069479A 2003-03-14 2003-03-14 人工知能型検索エンジンおよび検索システム Pending JP2004280346A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003069479A JP2004280346A (ja) 2003-03-14 2003-03-14 人工知能型検索エンジンおよび検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003069479A JP2004280346A (ja) 2003-03-14 2003-03-14 人工知能型検索エンジンおよび検索システム

Publications (1)

Publication Number Publication Date
JP2004280346A true JP2004280346A (ja) 2004-10-07

Family

ID=33286501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003069479A Pending JP2004280346A (ja) 2003-03-14 2003-03-14 人工知能型検索エンジンおよび検索システム

Country Status (1)

Country Link
JP (1) JP2004280346A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013501394A (ja) * 2009-07-31 2013-01-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 協働エージェント暗号化及び復号

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013501394A (ja) * 2009-07-31 2013-01-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 協働エージェント暗号化及び復号

Similar Documents

Publication Publication Date Title
US7788084B2 (en) Labeling of work of art titles in text for natural language processing
US6904429B2 (en) Information retrieval apparatus and information retrieval method
Bernardini et al. Building interpreting and intermodal corpora: A how-to for a formidable task
US7739116B2 (en) Subtitle generation and retrieval combining document with speech recognition
US7587389B2 (en) Question answering system, data search method, and computer program
JP4173774B2 (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
US11379518B2 (en) Detecting musical references in natural language search input
Nguyen et al. Global Voices: Crossing borders in automatic news summarization
US11481425B2 (en) Automatic generation of presentation slides from documents
Tam et al. Structured natural‐language descriptions for semantic content retrieval of visual materials
Saldanha et al. An entity-focused approach to generating company descriptions
Zhang et al. Retrieving videogame moments with natural language queries
JP4401269B2 (ja) 対訳判断装置及びプログラム
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP2004280346A (ja) 人工知能型検索エンジンおよび検索システム
JPH09128401A (ja) 動画像検索装置及びビデオ・オン・デマンド装置
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP4140343B2 (ja) 情報検索支援方法及び装置及び情報検索支援プログラム
Gonsalves et al. ML-Based Indexing of Media Libraries for Insights and Search
Klyueva et al. Querying multi-word expressions annotation with CQL
Ma Temporal Sentiment Mapping System for Time-Synchronized Data
JP2005234635A (ja) 文書要約装置および方法
Cassar Manghi Using graphs extracted from legal corpora to infer legal rules
Gidey et al. Generating RDF Metadata from Twitter Streams
JPS6389976A (ja) 言語解析装置