JP2009086903A - 検索サービス装置 - Google Patents
検索サービス装置 Download PDFInfo
- Publication number
- JP2009086903A JP2009086903A JP2007254335A JP2007254335A JP2009086903A JP 2009086903 A JP2009086903 A JP 2009086903A JP 2007254335 A JP2007254335 A JP 2007254335A JP 2007254335 A JP2007254335 A JP 2007254335A JP 2009086903 A JP2009086903 A JP 2009086903A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document data
- search
- keywords
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】複数の検索語の全てと関連の深い連想語を検索する。
【解決手段】出現頻度表保持部は、複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持する。共起キーワード抽出部62は、ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する。関連度算出部64は、前記キーワード出現頻度データを参照して、前記文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する。検索結果ページ作成部66は、関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として前記連想語を表示するページを作成する。
【選択図】図2
【解決手段】出現頻度表保持部は、複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持する。共起キーワード抽出部62は、ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する。関連度算出部64は、前記キーワード出現頻度データを参照して、前記文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する。検索結果ページ作成部66は、関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として前記連想語を表示するページを作成する。
【選択図】図2
Description
本発明は、検索語の入力を受け付け検索語と関連の深い言葉を連想語として出力する検索技術に関する。
現在のインターネット環境では、検索技術の果たす役割が非常に大きくなっている。インターネットを介して検索可能となる文書の量が飛躍的に膨張するにつれて、検索語に対してヒットする件数も増加する一方である。このような状況は、ある言葉を検索することで新規な着眼点を得たり発想を広げたりしたいと望むユーザにとっては、必ずしも望ましくない。すなわち、検索結果として提示された個々の文書を詳細に検討すれば、新たな知見を得ることができるかもしれないが、そのために必要となる時間が増えてしまうからである。
そこで、検索語を含む文書を提示する代わりに、その検索語から連想される言葉を検索結果として提示する連想検索技術がいくつか提案されている。例えば、特許文献1では、各用語の関連用語を記憶した関連用語記憶手段と、各用語と共起性の高い(つまり、同一文書中に登場する確率が高い)企業名を記憶した共起企業名記憶手段を備えており、検索語が入力された場合にはこれと関連する用語を抽出し、各用語に対して共起性の高い企業名を抽出する連想検索システムが開示されている。
特開2004−110386号
特許文献1のシステムでは、一つの検索語に対する検索結果が所定の順序で整列して表示される。例えば、検索語として「環境問題」を入力すると、環境問題に係る文書中に登場することの多い企業名がリストアップされる。しかしながら、複数の検索語に対する連想検索を一回の検索で知ることはできない。例えば、「自動車」と「環境技術」の両方から連想される言葉を知りたい場合には、「自動車」の連想検索結果と「環境技術」の連想検索結果を比較して、両方に含まれるものを探し出す必要がある。このような手順では、手間がかかる上に、検索語の数が増えるにつれて共通する連想語を探すことが困難になる。
本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザから入力された複数の検索語全てに関連の深い連想語を一度の操作で見つけ出すことができる技術を提供することにある。
本発明のある態様は、検索サービス装置である。この装置は、複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持するキーワード出現頻度保持部と、ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する共起キーワード抽出部と、キーワード出現頻度データを参照して、文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する関連度算出部と、関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として連想語を表示するページを作成するページ作成部と、を備える。
この態様によると、複数の検索語の全てと関連の深い連想語を容易に検索することが可能になる。
関連度算出部は、各共起キーワードについて、文書データ群内の出現頻度の二乗を全文書データ内の出現頻度で除することで関連度を算出してもよい。このように、検索語との共起が生じている文書データ内での共起頻度と、全文書データ内での共起頻度とを用いて関連度を算出することで、あらゆる文書データにおける出現頻度が高いキーワードについて、検索語に対する関連度が大きく算出されることを防止することができる。
ページ作成部は、各連想語を文字列として含む複数のタグを配置したタグクラウド形式でページを作成してもよい。また、ページ作成部は、連想語の関連度の大きさに応じて、タグまたは文字列のサイズまたは装飾を変えてもよい。これによって、検索語と連想語の間の関連性の強弱を直感的に把握することが可能になる。
なお、以上の構成要素の任意の組合せ、本発明を方法、装置、システム、記録媒体、コンピュータプログラムにより表現したものもまた、本発明の態様として有効である。
本発明によれば、ユーザから入力された複数の検索語全てに関連の深い連想語を一度の操作で見つけ出すことができる。
図1は、本発明の一実施形態に係る連想検索システム10の全体構成図である。ユーザ端末32は、インターネット、LAN(Local Area Network)等のネットワーク34を介して検索サービス装置30に接続される。ユーザ端末32は、例えばパーソナルコンピュータであり、少なくとも表示装置であるディスプレイとキーボードおよびマウスなどの入力装置とを備える。ユーザ端末32には、周知のブラウザが搭載され、ネットワーク上で提供されている様々なウェブページを閲覧可能となっている。検索サービス装置30は、単一のウェブサーバとして構成されてもよいし、データベースサーバなどを含む複数のサーバで構成されてもよい。
ユーザは、ユーザ端末32を利用して、検索サービス装置30の提供するウェブサイトにアクセスし、所定のページにおいて検索語を入力する。検索サービス装置30は、ユーザ端末32から検索語を受け取ると、以下に述べる手順にしたがって検索語に関連の深い連想語を探し出し、その結果をウェブページ形式でユーザ端末32に送信する。
図2は、検索サービス装置30の構成を示す。ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUやメモリをはじめとする素子で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここではそれらの連携によって実現される機能ブロックとして描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
検索語受付部42は、各ユーザ端末32から送られた検索語を受け付け、連想検索エンジン50や他の機能ブロックに渡す。
図3は、ユーザが検索語を入力するための画面142の一例を示す。画面142には、検索語を入力する欄144が二つ設けられており、複数の検索語に対して関連の深い連想語を検索できるようになっている。「もっと追加する」ボタン148をクリックすると、欄144が一つずつ追加され、検索語を3語以上とすることも可能である。検索語を欄144に入力した後、「Search」ボタン146をクリックすると、検索語が検索語受付部42に送られる。以下では、ユーザが二つの検索語a、bを入力したものとして説明を行う。
連想検索エンジン50は、予め準備されている文書データに基づき、ユーザから入力された複数の検索語に対して関連の深い連想語を検索する。
複数検索語処理部60は、ユーザ端末から入力された複数の検索語に対する連想検索の結果を返す。複数検索語処理部60は、共起キーワード抽出部62、関連度算出部64、および検索結果ページ作成部66を含む。
共起キーワード抽出部62は、検索語受付部42から複数の検索語を受け取り、検索語と同一文書データ内に共起するキーワード(以下、「共起キーワード」という)を抽出する。
関連度算出部64は、文書データにおける複数の検索語と共起キーワードとの共起頻度に基づき、各共起キーワードについて検索語に対する関連度を算出する。
検索結果ページ作成部66は、関連度に応じて共起キーワードのフォントサイズを変えて表したタグクラウド形式の検索結果ページを作成する。作成された検索結果ページは、表示出力部52によってユーザ端末32に送られ、ユーザ端末上で表示される。
図4は、連想検索エンジン50の詳細な構成を示す。ここに示す機能ブロックも、ハードウェアおよびソフトウェアの組合せによっていろいろなかたちで実現できる。
文書データベース12は、多数の文書をテキストデータとして蓄積する。蓄積される文書としては、新聞記事、雑誌記事、学術論文などが好ましいが、これらに限定されない。別の実施例として、連想検索エンジン50が、所定の期間毎にネットワークを介して多数のウェブページにアクセスしてページ内の文書データを収集するウェブクローラを備えており、収集した文書データを適宜データベースに蓄積していくように構成してもよい。
文書データベース12は、多数の文書をテキストデータとして蓄積する。蓄積される文書としては、新聞記事、雑誌記事、学術論文などが好ましいが、これらに限定されない。別の実施例として、連想検索エンジン50が、所定の期間毎にネットワークを介して多数のウェブページにアクセスしてページ内の文書データを収集するウェブクローラを備えており、収集した文書データを適宜データベースに蓄積していくように構成してもよい。
文書データベース12に蓄積された文書データは、後述するように、検索語と関連の深い連想語を導き出すための元データとしての役割を有する。
文書データベース12は、形態素インデックス12aと、テキスト本文12bとを記憶している。形態素インデックス12aは、文書データに対して周知の形態素解析を行った結果をインデックス形式で保存したものである。文書データベース12内に蓄積された多量の文書データに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要する。そこで、本実施形態では、予め全文書データに登場する各形態素が個々の文書データ中に存在しているか否かを一覧表にまとめた形態素インデックス(いわゆる転置インデックス)12aを生成しておく。キーワード抽出部14は、この形態素インデックス12aを参照することで、比較的短時間で各文字列の出現頻度を簡単に取得することができる。
キーワード抽出部14は、係り受け表現抽出フィルタ14a、区切り文字抽出フィルタ14b、文字列頻度統計フィルタ14c、TermExtractフィルタ14d、および多数決フィルタ14eからなる複数のフィルタを備えている。ここで、本明細書における「キーワード」とは、文書データから抽出された形態素のうち、上述の各種フィルタによってフィルタリングされた個々の文字列のことをいう。つまり、これらキーワードは、検索語と関連の深い連想語を導き出すために予め準備されているものである。したがって、通常の検索エンジンにおける「検索キーワード」とは異なるものであることに注意されたい。
キーワード保持部16には、キーワード抽出部14で抽出されたキーワードが格納される。キーワードは、50音順、ASCIIコード順、または他の適当な規則にしたがって整理されて格納される。
出現頻度集計部18は、キーワード保持部16に格納されている全てのキーワードについて、文書データ毎にキーワードの出現回数を集計し、キーワード出現頻度表を作成する。作成したキーワード出現頻度表は、出現頻度表保持部20に格納される。
図5は、キーワード出現頻度表130の具体例を示す。図中、行項目132はキーワード保持部16に格納されている全てのキーワード(KW−1〜KW−n)を表し、列項目列136は、文書データベース12に格納されている全ての文書データD1〜Dmを表す。各マス目134は、文書データD1〜Dmの中に、各キーワードKW−1〜KW−nがそれぞれ出現した回数を表す。例えば、文書データD1には、KW−1が3回、KW−2が5回、KW−3が0回、KW−4が0回、KW−5が2回出現していることが分かる。
図6は、キーワード抽出部14において文書データからキーワードを抽出する処理を説明するフローチャートである。
まず、キーワード抽出部14は、文書データベース12内に蓄積された各文書データに対して係り受け表現抽出フィルタ14aを適用し、所定の係り受け表現を含む文字列を抽出する(S10)。係り受け表現抽出フィルタ14aには、「XXメーカー」、「XXが主力」、「XXを生産」といったような係り受け表現パターンが予め多数用意されている。係り受け表現抽出フィルタ14aを適用することで、文書データから上述のような表現パターンを含む文字列を検出した後、キーワード抽出部14は、「XX」に相当する部分をキーワード候補として抽出する。
まず、キーワード抽出部14は、文書データベース12内に蓄積された各文書データに対して係り受け表現抽出フィルタ14aを適用し、所定の係り受け表現を含む文字列を抽出する(S10)。係り受け表現抽出フィルタ14aには、「XXメーカー」、「XXが主力」、「XXを生産」といったような係り受け表現パターンが予め多数用意されている。係り受け表現抽出フィルタ14aを適用することで、文書データから上述のような表現パターンを含む文字列を検出した後、キーワード抽出部14は、「XX」に相当する部分をキーワード候補として抽出する。
次に、キーワード抽出部14は、各文書データに対して区切り文字抽出フィルタ14bを適用する(S12)。区切り文字抽出フィルタ14bには、「XX」、”XX”、(XX)、[XX]、,XX,のような、カンマや括弧、スペース、タブ等の区切り文字が用意されている。キーワード抽出部14は、これら区切り文字で囲まれた文字列を検出した後、XXに相当する部分をキーワード候補として抽出する。
続いて、キーワード抽出部14は、各文書データに文字列頻度統計フィルタ14cを適用し、文書データに含まれる各文字列が全文書データにおいて何回出現するのかを集計する。そして、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する(S14)。
ここで、文字列頻度統計フィルタ14cについて説明する。文字列頻度統計フィルタ14cは、文書データ中のある名詞(例えば、「DVD」)に注目し、このDVDという注目語が文書データベース12内に蓄積された各文書データ中に出現する回数をカウントする。続いて、文字列頻度統計フィルタ14cは、この注目語の前後の形態素に範囲を拡張して、いくつかの新たな注目語を作り出す。各注目語が全文書データ中に登場する頻度を再度集計し、この出現頻度が一定数以下(例えば、20回以下)となった時点で注目語の範囲拡張を停止する。
一例として、「昨年販売したDVDレコーダでは」という文字列があったとする。まず、文字列頻度統計フィルタ14cは、注目語「DVD」の一つ前の形態素に範囲を拡張して、「したDVD」という注目語を作り、この「したDVD」の出現頻度を集計する。出現頻度が例えば2回であった場合、これ以上前の形態素に範囲が拡張されることはない。続いて、文字列頻度統計フィルタ14cは、注目語「DVD」の一つ後の形態素に範囲を拡張して、「DVDレコーダ」という注目語を作り、出現頻度を集計する。出現頻度が例えば862回であった場合は、さらにその一つ後の形態素に範囲を拡張して、「DVDレコーダでは」という注目語を作る。この注目語の出現頻度が、今度は例えば5回であった場合、これ以降の形態素に範囲が拡張されることはない。
ここで、「形態素」とは、意味を有する最小の言語単位を指す。例えば、「私の名前は鈴木です」を形態素に分解すると、「私(代名詞)」「の(助詞)」「名前(一般名詞)」「は(係助詞)」「鈴木(固有名詞)」「です(助動詞)」となる。形態素解析は当業者には周知であるので、これ以上の説明は省略する。
文字列頻度統計フィルタ14cは、「DVD」および「DVDレコーダ」が所定範囲(例えば、20〜5000)内の出現頻度を備えていることを理由に、これらをキーワード候補として抽出する。これに対し、「したDVD」および「DVDレコーダでは」は上記の範囲外であるため、キーワード候補から除外される。なお、キーワード候補を決定するための所定範囲の上限値と下限値は、文書データベース12に蓄積されている文書データの分量や、検索サービス装置30の主たる使用目的に応じて適宜調整される。この場合、下限値は、出現頻度があまりに少ないと連想検索の対象となりにくい、という観点から決定することが好ましい。逆に、上限値は、あまりに出現頻度が多い語は、汎用語や助詞、助動詞の可能性が高い、という観点から決定することが好ましい。現実には、検索を多数回繰り返すことによって実験的に上限値と下限値を設定する。
図4に戻り、キーワード抽出部14は、文書データベース12内に蓄積された文書データに対してTermExtractフィルタ14dを適用し、各文書データから所定以上のスコアを備えた文字列をキーワード候補として抽出する(S16)。
このTermExtractフィルタ14dは、専門分野のコーパス、すなわち主として研究目的で収集され、電子化された自然言語の文章からなる巨大な文書データから専門用語を自動抽出するために案出された文字列抽出アルゴリズムである。TermExtractフィルタ14dは、文書データ中から単名詞および複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtractフィルタ14d自体は公知技術であるため、これ以上の説明は省略する。
このTermExtractフィルタ14dは、専門分野のコーパス、すなわち主として研究目的で収集され、電子化された自然言語の文章からなる巨大な文書データから専門用語を自動抽出するために案出された文字列抽出アルゴリズムである。TermExtractフィルタ14dは、文書データ中から単名詞および複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtractフィルタ14d自体は公知技術であるため、これ以上の説明は省略する。
キーワード抽出部14は、係り受け表現抽出フィルタ14a、区切り文字抽出フィルタ14b、文字列頻度統計フィルタ14c、TermExtractフィルタ14dによってそれぞれ抽出された各キーワード候補を多数決フィルタ14eに入力し、キーワードを絞り込む(S18)。多数決フィルタ14eは、各フィルタ14a〜14dによって抽出されたキーワード候補同士をマッチングし、二つ以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定する。なお、三つ以上のフィルタによって抽出されたことをキーワード認定の要件としてもよい。認定されたキーワードは、キーワード保持部16に格納される。
このように、キーワード抽出部14は、係り受け表現抽出フィルタ14a、区切り文字抽出フィルタ14b、文字列頻度統計フィルタ14c、TermExtractフィルタ14dという、それぞれ異なる抽出基準を用いた4つのフィルタを用いて、文書データからキーワードを抽出する。こうすることで、文書データから重要なキーワードの抽出ミスが起こるのを防止することができる。さらに、各フィルタによる抽出キーワードをそのまま用いるのではなく、多数決フィルタ14eによって絞り込みをかけることで、ノイズとなるキーワードの混入を防止することができる。
なお、キーワード抽出部14で使用されるフィルタの数および種類は、上述したものに限定されるわけではなく、他の任意のキーワード候補抽出フィルタを用いることができる。
図7は、本実施形態に係る複数の検索語に対する連想検索結果を出力する処理のフローチャートである。
まず、共起キーワード抽出部62は、検索語受付部42から二つの検索語a、bを受け取る。そして、キーワード出現頻度表130を参照して、検索語a、bと同一または一定範囲内の類似性を有するキーワードを検索語として認定するとともに、両検索語を含む文書データ(以下、「共起文書群」という)を特定する(S30)。
ここで、「一定範囲内の類似性を有する」とは、以下のような意味である。すなわち、キーワード関連度保持部26の中に、所望の検索語と完全に同一のキーワードが含まれていないことも考えられる。したがって、ある程度近似する言葉であれば、それを代替的にキーワードとみなすのである。一例として、ユーザの入力した検索語が平仮名の「ひまん」であった場合、漢字の「肥満」や片仮名の「ヒマン」も対象とするなどが考えられる。
共起キーワード抽出部62は、キーワード出現頻度表130を参照して、S30で特定した共起文書群内に含まれる検索語a、b以外のキーワード(共起キーワード)を特定する(S32)。これら共起キーワードは、検索語a、bの両方と同一の文書データ内に共起しているキーワードである。関連度算出部64は、共起文書群内での共起キーワードの出現頻度を取得し、共起キーワード毎に出現頻度を合計する(S34)。図8は、S34で求められた共起キーワードの共起文書群内の合計出現頻度の表Cを示す。列150に示すKW−2、KW−5、KW−23、KW−35、...は、検索語a、bの両方と同一の文書データ内に共起した共起キーワード名の一覧を表している。また、列152は、列150に示した各共起キーワードについて、共起文書群内に出現した頻度の合計値を表している。
続いて、関連度算出部64は、キーワード出現頻度表130を参照して、全文書データ内での共起キーワードの出現頻度を取得し、共起キーワード毎に出現頻度を合計する(S36)。図9は、S36で求められた共起キーワードの全文書内の合計出現頻度の表Dを示す。列154は共起キーワードを表し、列156は各共起キーワードの合計出現頻度を表す。
関連度算出部64は、共起キーワード毎に両検索語a、bに対する関連度を算出する(S38)。関連度は、各共起キーワードについて次式のように定義される。
(関連度)=(共起文書群内合計出現頻度)2/(全文書内合計出現頻度)
(関連度)=(共起文書群内合計出現頻度)2/(全文書内合計出現頻度)
図10は、S38で求められる関連度の表Eを示す。列158は共起キーワードを表し、列160は関連度を示す。関連度の定義により、たとえ検索語a、bとの共起回数が比較的多いキーワードでも、それ以外の文書データでも多数回出現している共起キーワードは、関連度が比較的小さく算出される(例えば、KW−35、KW−50)。検索語a、bとの共起回数が比較的少ないキーワードでも、それ以外の文書データにおける出現回数が少なければ、関連度が比較的大きく算出される(例えば、KW−5、KW−46)。
図9に戻り、検索結果ページ作成部66は、共起キーワードのうち関連度の高い方から所定の数のキーワードを取り出し、これらを検索語a、bに対する連想語と認定する(S40)。そして、検索結果ページ作成部66は、連想語をタグクラウド形式で表示する検索結果ページを作成し(S42)、表示出力部52が検索結果ページをユーザ端末に配信する。
図11は、検索語として「自動車」と「環境技術」が指定されたときの検索結果ページを示す。各連想語は「タグ」162として表示される。これにより、「自動車」と「環境技術」という二つの検索語に対する連想結果を知ることができる。
各タグ162は長方形状であり、連想語の文字列と、これを取り囲む余白部分とを備えている。タグ162の面積は、連想語のフォントサイズと文字数に応じて自動的に決定される。検索語との関連度が大きいほど大きなフォントサイズが割り当てられる。以下に、フォントサイズの設定方法の一例を示す。
ページ上で表示される最大フォントサイズ=Aポイント
ページ上で表示される最小フォントサイズ=Bポイント
フォントサイズ変換比R=(A−B)/(関連度の最大値−関連度の最小値)
このとき、連想語XのフォントサイズFは、F=(連想語Xの関連度−関連度の最小値)*Rで設定される。
ページ上で表示される最大フォントサイズ=Aポイント
ページ上で表示される最小フォントサイズ=Bポイント
フォントサイズ変換比R=(A−B)/(関連度の最大値−関連度の最小値)
このとき、連想語XのフォントサイズFは、F=(連想語Xの関連度−関連度の最小値)*Rで設定される。
なお、検索結果ページでは、タグクラウドを文字コード順にソートして表示してもよいし、50音順にソートしてもよいし、関連度の大きい順にソートしてもよい。
以上説明したように、本実施形態の複数語連想検索によれば、複数の検索語を指定し、それら両方と関連の深い連想語を得ることができる。連想語は、複数の検索語と同一文書データ内に共起する共起キーワードの出現頻度に基づき算出される関連度に応じた大きさのタグで表示されるので、複数の検索語に対する連想語の結びつきの強さを容易に把握することができる。
このような複数語連想検索の活用例としては、以下のようなものが考えられる。
(1)図11で示したように「自動車」と「環境技術」のような複数の検索語を指定して複数語連想検索を実施することで、これらとともに良く使用される用語を調べることができる。
(2)同業種である複数の企業名を検索語として複数語連想検索を実施する。これによって、業種内で共通する連想語を見ることができるため、投資に際して考慮すべき業種の特徴を発見することが容易になる。
(3)一見関係の薄そうな言葉について複数語連想検索をすることで、それらの言葉を繋ぐ意外な関係を発見することができる。
(1)図11で示したように「自動車」と「環境技術」のような複数の検索語を指定して複数語連想検索を実施することで、これらとともに良く使用される用語を調べることができる。
(2)同業種である複数の企業名を検索語として複数語連想検索を実施する。これによって、業種内で共通する連想語を見ることができるため、投資に際して考慮すべき業種の特徴を発見することが容易になる。
(3)一見関係の薄そうな言葉について複数語連想検索をすることで、それらの言葉を繋ぐ意外な関係を発見することができる。
以上、本発明をいくつかの実施の形態をもとに説明した。これらの実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
1 連想検索システム、 12 文書データベース、 14 キーワード抽出部、 16 キーワード保持部、 18 出現頻度集計部、 20 出現頻度表保持部、 42 検索語受付部、 50 連想検索エンジン、 52 表示出力部、 60 複数検索語処理部、 62 共起キーワード抽出部、 64 関連度算出部、 66 検索結果ページ作成部。
Claims (5)
- 複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データを保持するキーワード出現頻度保持部と、
ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する共起キーワード抽出部と、
前記キーワード出現頻度データを参照して、前記文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する関連度算出部と、
関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として前記連想語を表示するページを作成するページ作成部と、
を備えることを特徴とする検索サービス装置。 - 前記関連度算出部は、各共起キーワードについて、文書データ群内の出現頻度の二乗を全文書データ内の出現頻度で除することで前記関連度を算出することを特徴とする請求項1に記載の検索サービス装置。
- 前記ページ作成部は、各連想語を文字列として含む複数のタグを配置したタグクラウド形式で前記ページを作成することを特徴とする請求項1または2に記載の検索サービス装置。
- 前記ページ作成部は、前記連想語の関連度の大きさに応じて、前記タグまたは前記文字列のサイズまたは装飾を変えることを特徴とする請求項3に記載の検索サービス装置。
- 複数のキーワードの出現頻度を文書データ毎に集計した結果であるキーワード出現頻度データをメモリに保持しておく機能と、
ユーザ端末から入力された複数の検索語を受け取り、該検索語の全てが出現する文書データ群を特定し、該文書データ群内で複数の検索語と共起する共起キーワードを抽出する機能と、
前記キーワード出現頻度データを参照して、前記文書データ群内での共起キーワードの出現頻度と、全文書データ内での共起キーワードの出現頻度を集計し、これら出現頻度を使用して各共起キーワードの検索語に対する関連度を算出する機能と、
関連度の高い順から所定の数の共起キーワードを連想語として選択し、連想結果として前記連想語を表示するページを作成する機能と、
をコンピュータに発揮させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007254335A JP2009086903A (ja) | 2007-09-28 | 2007-09-28 | 検索サービス装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007254335A JP2009086903A (ja) | 2007-09-28 | 2007-09-28 | 検索サービス装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009086903A true JP2009086903A (ja) | 2009-04-23 |
Family
ID=40660271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007254335A Pending JP2009086903A (ja) | 2007-09-28 | 2007-09-28 | 検索サービス装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009086903A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011128760A (ja) * | 2009-12-16 | 2011-06-30 | Ntt Data Corp | 情報評価装置、情報評価方法、及び情報評価プログラム |
JP2011215897A (ja) * | 2010-03-31 | 2011-10-27 | Meiji Univ | データベース、類推エンジン及び類推システム |
JP2013045182A (ja) * | 2011-08-22 | 2013-03-04 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置及び方法及びプログラム |
JP2016099750A (ja) * | 2014-11-20 | 2016-05-30 | 日本電信電話株式会社 | 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム |
WO2018029852A1 (ja) * | 2016-08-12 | 2018-02-15 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254883A (ja) * | 1997-03-10 | 1998-09-25 | Mitsubishi Electric Corp | 文書自動分類方法 |
JP2004110386A (ja) * | 2002-09-18 | 2004-04-08 | Nri & Ncc Co Ltd | 連想検索システム |
JP2006163998A (ja) * | 2004-12-09 | 2006-06-22 | Nippon Telegr & Teleph Corp <Ntt> | 検索キーワード想起補助装置及び検索キーワード想起補助プログラム |
-
2007
- 2007-09-28 JP JP2007254335A patent/JP2009086903A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254883A (ja) * | 1997-03-10 | 1998-09-25 | Mitsubishi Electric Corp | 文書自動分類方法 |
JP2004110386A (ja) * | 2002-09-18 | 2004-04-08 | Nri & Ncc Co Ltd | 連想検索システム |
JP2006163998A (ja) * | 2004-12-09 | 2006-06-22 | Nippon Telegr & Teleph Corp <Ntt> | 検索キーワード想起補助装置及び検索キーワード想起補助プログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011128760A (ja) * | 2009-12-16 | 2011-06-30 | Ntt Data Corp | 情報評価装置、情報評価方法、及び情報評価プログラム |
JP2011215897A (ja) * | 2010-03-31 | 2011-10-27 | Meiji Univ | データベース、類推エンジン及び類推システム |
JP2013045182A (ja) * | 2011-08-22 | 2013-03-04 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置及び方法及びプログラム |
JP2016099750A (ja) * | 2014-11-20 | 2016-05-30 | 日本電信電話株式会社 | 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム |
WO2018029852A1 (ja) * | 2016-08-12 | 2018-02-15 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
JPWO2018029852A1 (ja) * | 2016-08-12 | 2019-06-06 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2777520C (en) | System and method for phrase identification | |
JP4637181B2 (ja) | 文書構造に基づいた検索結果の表示 | |
Chen et al. | Towards robust unsupervised personal name disambiguation | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
JP2008165598A (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
US8583415B2 (en) | Phonetic search using normalized string | |
JP4937812B2 (ja) | 検索システム | |
JP4631795B2 (ja) | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム | |
Roy et al. | Discovering and understanding word level user intent in web search queries | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2009086903A (ja) | 検索サービス装置 | |
JP4969209B2 (ja) | 検索システム | |
Kerremans et al. | Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler | |
JP2001184358A (ja) | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 | |
JP3937741B2 (ja) | 文書の標準化 | |
JP2011059814A (ja) | 文書群処理装置、文書群処理方法および文書群処理プログラム | |
JP2007128224A (ja) | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2002132789A (ja) | 文書検索方法 | |
JP2009086772A (ja) | 検索サービス装置 | |
JP2004030021A (ja) | 文書処理装置および方法 | |
Sourabh et al. | FactorsAffecting the Performance of Hindi Language searching on web: An Experimental Study | |
Sati et al. | Arabic text question answering from an answer retrieval point of view: A survey | |
Piskorski et al. | Towards person name matching for inflective languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120911 |