JP5981386B2 - 代表ページ選択装置及び代表ページ選択プログラム - Google Patents

代表ページ選択装置及び代表ページ選択プログラム Download PDF

Info

Publication number
JP5981386B2
JP5981386B2 JP2013087345A JP2013087345A JP5981386B2 JP 5981386 B2 JP5981386 B2 JP 5981386B2 JP 2013087345 A JP2013087345 A JP 2013087345A JP 2013087345 A JP2013087345 A JP 2013087345A JP 5981386 B2 JP5981386 B2 JP 5981386B2
Authority
JP
Japan
Prior art keywords
page
document
keyword
representative page
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013087345A
Other languages
English (en)
Other versions
JP2014211739A (ja
Inventor
伸章 廣嶋
伸章 廣嶋
西岡 秀一
秀一 西岡
鷲崎 誠司
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013087345A priority Critical patent/JP5981386B2/ja
Publication of JP2014211739A publication Critical patent/JP2014211739A/ja
Application granted granted Critical
Publication of JP5981386B2 publication Critical patent/JP5981386B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、指定されたキーワードと地域を代表する代表ページを選択する技術に関する。
指定されたキーワードと地域から、その地域におけるキーワードに関する代表ページを文書群から選択し、提示する技術が求められている。例えば、キーワードとして「ラーメン」、地域として「横浜」近辺が指定された場合、横浜近辺でラーメンが有名な店舗のメニューや店舗への経路や地図が記載された公式ページを代表ページとして提示する等である。
このような代表ページの選択・提示方法としては、インターネット上の一般的な検索エンジンを利用する方法がある。地域を地名等の文字列に変換したものをキーワードに加えてクエリとして入力し、検索結果で得られた複数のページから上位のページを選択して提示する方法である。
また、特許文献1によれば、指定されたキーワードと位置から、文書内に出現する地名との地理的距離や地名が含まれる小領域の重要度に基づいて文書群から文書を検索する地理的文書検索方法を提案しており、この検索結果から得られた文書の上位を選択して提示する方法もある。
特許第5087377号公報
しかしながら、一般的な検索エンジンを利用する場合、クエリとして入力される地名は、指定されたキーワードと同様に単なるキーワードの一つとして扱われるため、文書内に出現する地名との地理的な近さが考慮されないという課題があった。
これについて前述の地理的文書検索方法では、文書内に出現する地名との地理的距離に基づいて文書を検索するため、この方法を利用することにより、指定された地域との地理的な近さが考慮された文書を検索できる。しかし、それ以外では単にキーワードと位置に関する重要度に基づいて文書を順位付けるため、必ずしも代表に適した文書を検出することはできない。つまり、この方法を利用したとしてもページの代表らしさは考慮されないという課題があった。
また、それら両者に共通する問題として、大量のウェブページを収集してインデックスを作成しておく必要があるという課題もあった。
本発明は、上記事情を鑑みてなされたものであり、大量の文書群の収集・インデクシングを必要とすることなく、指定された地域との地理的な近さが考慮され、ページの代表らしさが考慮された代表ページを選択することを目的とする。
請求項1記載の代表ページ選択装置は、指定された地域と文書に含まれる地名との地理的尺度に基づき、指定されたキーワードと地域に関連する文書を、記憶手段に記憶されている一部の文書群から検索する検索手段と、前記文書が参照している参照先を代表ページ候補とし、前記キーワードと各代表ページ候補との文字列の近似度と、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された当該文書のスコア、順位、又は数のうちいずれか1つ以上に基づき、1つ以上の代表ページを選択する選択手段と、を有することを要旨とする。
請求項2記載の代表ページ選択装置は、請求項1記載の代表ページ選択装置において、前記選択手段は、前記文字列の近似度を編集距離を用いて計算することを要旨とする。
請求項3記載の代表ページ選択装置は、請求項1又は2記載の代表ページ選択装置において、前記キーワードに関連する関連ページのURLと前記各代表ページ候補のURLとの合致度に基づき、前記代表ページ候補の数を少なくすることを要旨とする。
請求項4記載の代表ページ選択装置は、請求項3記載の代表ページ選択装置において、前記関連ページには、前記キーワードに関連のある関連キーワードに関連する関連ページが含まれることを要旨とする。
請求項5記載の代表ページ選択プログラムは、コンピュータを請求項1乃至4のいずれかに記載の代表ページ選択装置として機能させることを要旨とする。
以上より、本発明によれば、指定された地域と文書に含まれる地名との地理的尺度に基づき、指定されたキーワードと地域に関連する文書を文書群から検索するため、指定された地域との地理的な近さが考慮された代表ページを選択できる。
また、本発明によれば、指定されたキーワードと地域に関連する文書を一部の文書群から検索するため、大量の文書群を収集してインデクシングしておく処理の必要性を無くすることができる。
また、本発明によれば、検索された文書が参照している参照先を代表ページ候補とし、指定されたキーワードと各代表ページ候補との文字列の近似度と、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された当該文書のスコア、順位、又は数のうちいずれか1つ以上に基づき、1つ以上の代表ページを選択するため、ページの代表らしさが考慮された代表ページを選択できる。
本発明によれば、大量の文書群の収集・インデクシングを必要とすることなく、指定された地域との地理的な近さが考慮され、ページの代表らしさが考慮された代表ページを選択できる。
代表ページ選択装置の機能ブロック構成を示す図である。 代表ページ選択装置の動作フローを示す図である。 キーワードDBの例を示す図である。 キーワード関連ページDBの例を示す図である。 文書取得結果の例を示す図である。 参照先ページDBの例を示す図である。 代表ページ候補の絞り込み結果の例を示す図である。 第1代表ページスコアの例を示す図である。 第2代表ページスコアの例を示す図である。
以下、本発明を実施する一実施の形態について図面を用いて説明する。
図1は、代表ページ選択装置100の機能ブロック構成を示す図である。代表ページ選択装置100は、ユーザによって指定されたキーワード情報と地域情報を入力とし、その地域におけるキーワードに関する代表ページを選択して画面上に表示する装置である。
尚、キーワードとは、ユーザが興味を持ち、知りたいと考える事物や情報を検索するために手掛かりとなる語である。また、地域とは、行政区や座標で分割された地図上の範囲である。また、代表ページとは、キーワードに関する詳細な情報が記載されているような、キーワードを代表するページである。
この代表ページ選択装置100は、図1に示したように、関連キーワード取得部1と、キーワード関連ページ取得部2と、文書取得部3と、代表ページ候補取得部4と、代表ページ候補絞り込み部5と、代表ページ選択部6と、キーワードDB7と、キーワード関連ページDB8と、検索インデックスDB9と、参照先ページDB10とで構成される。以下、その機能について説明する。
キーワードDB7は、複数のキーワードと、各キーワードにそれぞれ関連する関連キーワードとを対応付けた対応テーブルを記憶しておく機能を有している。例えば、キーワードについての説明が書かれた文書から名詞句を抽出して、それを関連キーワードとすることが考えられる。
キーワード関連ページDB8は、関連キーワードを含む複数のキーワードと、各キーワードにそれぞれ関連する関連ページ(文書のURL)とを対応付けた対応テーブルを記憶しておく機能を有している。例えば、キーワードについての説明が書かれた文書に詳細な説明が書かれたページが紹介されている場合にはそれを関連ページとしたり、企業名をキーワードとしてその企業の公式ページを関連ページとしたりすることが考えられる。
検索インデックスDB9は、指定されたキーワードと地域から、特許文献1の地理的文書検索方法を用いて作成された検索インデックスを記憶しておく機能を有している。
参照先ページDB10は、複数の文書をそれぞれ識別する文書識別子と、各文書からそれぞれ参照される参照先ページ(参照先のURL)とを対応付けた対応テーブルを記憶しておく機能を有している。例えば、文書がHTMLで記述されている場合に、その文書を解析してアンカータグの情報から参照先ページを抽出することが考えられる。
関連キーワード取得部1は、キーワードDB7を参照し、入力されたキーワードに関連する関連キーワードを取得する機能を備えている。
キーワード関連ページ取得部2は、キーワード関連ページDB8を参照し、入力されたキーワードと、関連キーワード取得部1で取得された関連キーワードとに関連する関連ページをキーワード関連ページとして取得する機能を備えている。
文書取得部3は、検索インデックスDB9を参照し、前述の地理的文書検索方法を用いて、入力されたキーワードと地域に関連する文書を検索し取得する機能を備えている。
代表ページ候補取得部4は、参照先ページDB10を参照し、文書取得部3で取得された文書が参照している参照先ページを代表ページ候補として取得する機能を備えている。
代表ページ候補絞り込み部5は、キーワード関連ページ取得部2で取得されたキーワード関連ページのURLと、代表ページ候補取得部4で取得された各代表ページ候補のURLとの合致度に基づき、その代表ページ候補の数を少なくする(絞り込む)機能を備えている。
代表ページ選択部6は、入力されたキーワードと各代表ページ候補との文字列の近似度や、文書取得部3で行われた文書の検索結果に基づいて、絞り込まれた各代表ページ候補のスコアをそれぞれ算出し、スコアの高い1つ以上の代表ページ候補を代表ページとして選択する機能を有している。
次に、図2を参照しながら、代表ページ選択装置100の動作について説明する。本動作例では、キーワードとして「観覧車」、地域として「横浜」近辺が指定されている。
最初に、関連キーワード取得部1が、入力されたキーワードに対応する関連キーワードをキーワードDB7から取得する(ステップS1)。キーワードDB7が図3の場合、「観覧車」のキーワードに対して、「ゴンドラ」,「シカゴ」,「○○遊園地」,「△△ランド」が取得される。
次に、キーワード関連ページ取得部2が、入力されたキーワードと、ステップS1で取得した関連キーワードとに対応するキーワード関連ページをキーワード関連ページDB8から取得する(ステップS2)。キーワード関連ページDB8が図4の場合、6件の文書URLが取得される。
次に、文書取得部3が、検索インデックスDB9を用いて、入力されたキーワードと地域に関連する文書を検索し取得する(ステップS3)。
具体的には、前述の地理的文書検索方法を用いて検索インデックスを作成して文書検索を行うことにより文書を取得する。この地理的文書検索方法は、指定された地域と文書に含まれる地名との地理的尺度に基づき文書を検索するので、入力された地域との地理的な近さが考慮されることになる。
また、この地理的文書検索方法は、文書に含まれる地名に該当する地域の重要度に基づき、検索された文書にスコアや順位を付与するので、図5のような文書の取得結果が得られることになる。これより、D1,D2,D3,D4,D5の5件の文書が取得される。
尚、インターネット上の記憶デバイス(ハードディスク等の記憶手段)に記憶されているウェブページをそのまま検索対象としてもよく、様々なウェブページのうち一部(例えば、ブログ記事)のみを検索対象とすることにより、大量のウェブページ群を収集してインデクシングしておく処理の必要性を無くすることができる。文書の検索・取得方法は、キーワードと地域に関連する文書が取得できるものであれば構わない。
次に、代表ページ候補取得部4が、ステップS3で取得した文書に対応する参照先ページを代表ページ候補として参照先ページDB10から取得する(ステップS4)。図6の参照先ページDB10を参照すると、取得された5件の文書に対して7件の参照先ページが取得されるため、これらを代表ページ候補とする。
次に、代表ページ候補絞り込み部5が、ステップS2で取得したキーワード関連ページを用いて、ステップS4で取得した代表ページ候補の数を絞り込む(ステップS5)。
具体的には、キーワード関連ページのURLのいずれかが代表ページ候補のURLに前方一致するような代表ページ候補に絞り込む。図6の7件の代表ページ候補に対し、図4の6件のキーワード関連ページを参照して前方一致するかどうかを調べると、代表ページ候補は図7に示すように3件に絞り込まれる。尚、絞り込みの方法はこれに限るものではなく、完全一致により絞り込みを行ったり、ドメインのみが一致するものに絞り込みを行ったりしても構わない。
最後に、代表ページ選択部6が、入力されたキーワードと代表ページ候補との文字列の近さと、ステップS3で行われた文書の検索結果とに基づき代表ページ候補のスコアを代表ページスコアとして算出し、そのスコアの高いものを代表ページとして選択する(ステップS6)。
ここでは、キーワードと代表ページ候補との文字列の近さから得られる第1代表ページスコアと、文書の検索結果から得られる第2代表ページスコアとの積を代表ページスコアとして算出する。代表ページスコアの算出方法はこれに限るものではなく、積ではなく和を計算しても構わない。
まず、キーワードと代表ページ候補との文字列の近さから第1代表ページスコアを求める。このキーワードと代表ページ候補との文字列の近さの算出方法としては、キーワードの読みをローマ字に変換した文字列(キーワード文字列)と、代表ページ候補のURLの文字列(URL文字列)との編集距離(一方の文字列を他方の文字列に変換するために必要な手順のコスト)を用いて計算する。キーワード文字列は、キーワードを英訳した文字列等であっても構わない。
キーワード文字列からURL文字列への変換の際の挿入コストは“0”とする。これにより、URL文字列に含まれるキーワードに関連しない部分の影響を受けないようにすることができる。この挿入コストは小さい値であれば“0”でなくても構わない。
また、日本語と外国語の違いを吸収するため、“k”から“c”への置換コスト等は“0”とする。これにより、キーワードをローマ字に変換した“kanransha”と、代表ページ候補のURL文字列に含まれる“canransha”との編集距離を小さくすることができる。この置換コストも小さい値であれば“0”でなくても構わない。
そして、編集距離に“1”を加えた値の逆数を第1代表ページスコアとして算出する。第1代表ページスコアの算出方法は、編集距離が小さいほど高くなるものであれば構わない。図7の代表ページ候補に対してキーワードとの編集距離を求めるとそれぞれ6,0,0となるため、第1代表ページスコアは図8のようになる。
次に、文書の検索結果から第2代表ページスコアを求める。文書の検索結果とは、ステップS3で検索・取得された文書に関する情報である。具体的には、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された文書スコアや文書順位、参照元の文書数等を指す。
ここでは、文書の検索結果として文書スコアを用い、代表ページ候補を含む文書の文書スコアの和を第2代表ページスコアとする。図7の代表ページ候補に対し、代表ページ候補を含む文書の文書スコアの和を第2代表ページスコアとした結果を図9に示す。
例えば、番号2の代表ページ候補の場合、この代表ページ候補を含む文書は図6よりD2,D3の2件であり、これらの文書の文書スコアは図5よりそれぞれ3.0,2.0であるため、その和である5.0が第2代表ページスコアとなる。残りについても同様である。
尚、第2代表ページスコアの算出方法は文書の検索結果を用いるもので構わない。例えば、代表ページ候補を含む文書の文書数を第2代表ページスコアとしたり、代表ページを含む文書の文書順位の逆数の和を第2代表ページスコアとしたり、様々な文書情報に関するスコアを組み合わせて第2代表ページスコアとしたりしても構わない。
そして、図8と図9をもとに代表ページスコアを算出すると、番号1の代表ページスコアは0.644、番号2の代表ページスコアは5.0、番号3の代表ページスコアは1.2となる。これをもとに、代表ページを選択する。
ここでは、代表ページスコアの最も高い1件を代表ページとして選択する。代表ページスコアの最も高いものは番号2の代表ページ候補であるため、この代表ページ候補を代表ページとして選択する。
尚、代表ページの選択方法はスコアの高いものを選択するのであれば構わない。例えば、上位N件を選択したり、上位X%を選択したりしても構わない。
このようにして選択された代表ページは、地理的文書検索方法を用いた検索結果の文書から取得されたものであるため、場所の地理的な近さが考慮されている。また、キーワードと代表ページ候補との文字列の近さや文書の検索結果を利用して選択されたものであるため、ページの代表らしさが考慮されている。また、この代表ページの文書自体は収集・インデクシングする必要がないことから、少量の文書群から代表ページを選択することができる。
以上より、本実施の形態によれば、指定された地域と文書に含まれる地名との地理的尺度に基づき、指定されたキーワードと地域に関連する文書を文書群から検索するので、指定された地域との地理的な近さが考慮された代表ページを選択できる。
また、本実施の形態によれば、指定されたキーワードと地域に関連する文書を一部の文書群から検索するので、大量の文書群を収集してインデクシングしておく処理の必要性を無くすることができる。
また、本実施の形態によれば、検索された文書が参照している参照先を代表ページ候補とし、指定されたキーワードと各代表ページ候補との文字列の近似度と、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された当該文書のスコア、順位、又は数のうちいずれか1つ以上に基づき、1つ以上の代表ページを選択するので、ページの代表らしさが考慮された代表ページを選択できる。
最後に、本実施の形態で説明した代表ページ選択装置100は、メモリやCPUを備えたコンピュータで実現できる。また、各機能部の処理は、それらを実行可能なプログラムにより実現できる。
100…代表ページ選択装置
1…関連キーワード取得部
2…キーワード関連ページ取得部
3…文書取得部
4…代表ページ候補取得部
5…代表ページ候補絞り込み部
6…代表ページ選択部
7…キーワードDB
8…キーワード関連ページDB
9…検索インデックスDB
10…参照先ページDB
S1〜S6…ステップ

Claims (5)

  1. 指定された地域と文書に含まれる地名との地理的尺度に基づき、指定されたキーワードと地域に関連する文書を、記憶手段に記憶されている一部の文書群から検索する検索手段と、
    前記文書が参照している参照先を代表ページ候補とし、前記キーワードと各代表ページ候補との文字列の近似度と、参照元の文書に含まれる地名に該当する地域の重要度に基づいて付与された当該文書のスコア、順位、又は数のうちいずれか1つ以上に基づき、1つ以上の代表ページを選択する選択手段と、
    を有することを特徴とする代表ページ選択装置。
  2. 前記選択手段は、
    前記文字列の近似度を編集距離を用いて計算することを特徴とする請求項1記載の代表ページ選択装置。
  3. 前記キーワードに関連する関連ページのURLと前記各代表ページ候補のURLとの合致度に基づき、前記代表ページ候補の数を少なくすることを特徴とする請求項1又は2記載の代表ページ選択装置。
  4. 前記関連ページには、
    前記キーワードに関連のある関連キーワードに関連する関連ページが含まれることを特徴とする請求項3記載の代表ページ選択装置。
  5. コンピュータを請求項1乃至4のいずれかに記載の代表ページ選択装置として機能させるための代表ページ選択プログラム。
JP2013087345A 2013-04-18 2013-04-18 代表ページ選択装置及び代表ページ選択プログラム Active JP5981386B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013087345A JP5981386B2 (ja) 2013-04-18 2013-04-18 代表ページ選択装置及び代表ページ選択プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013087345A JP5981386B2 (ja) 2013-04-18 2013-04-18 代表ページ選択装置及び代表ページ選択プログラム

Publications (2)

Publication Number Publication Date
JP2014211739A JP2014211739A (ja) 2014-11-13
JP5981386B2 true JP5981386B2 (ja) 2016-08-31

Family

ID=51931463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013087345A Active JP5981386B2 (ja) 2013-04-18 2013-04-18 代表ページ選択装置及び代表ページ選択プログラム

Country Status (1)

Country Link
JP (1) JP5981386B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002328830A (ja) * 2000-09-22 2002-11-15 Masanobu Kujirada リンク情報表示のためのシステム、方法、プログラム
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
JP5087377B2 (ja) * 2007-11-29 2012-12-05 日本電信電話株式会社 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
JP5528402B2 (ja) * 2011-08-26 2014-06-25 日本電信電話株式会社 キーワード関連地名抽出装置及び方法及びプログラム

Also Published As

Publication number Publication date
JP2014211739A (ja) 2014-11-13

Similar Documents

Publication Publication Date Title
JP4936401B2 (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
US10387435B2 (en) Computer application query suggestions
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
US10346457B2 (en) Platform support clusters from computer application metadata
US9336318B2 (en) Rich content for query answers
JP7182585B2 (ja) プログラム
US20080086468A1 (en) Identifying sight for a location
JP2010534378A (ja) 自動拡張言語サーチ
JP2018526731A (ja) 検索クエリの曖昧性解消
JP2017220205A (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
US20080270375A1 (en) Local news search engine
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
US9165038B1 (en) Interpreting adjacent search terms based on a hierarchical relationship
JP2007179490A (ja) 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
Kim et al. Harvesting large corpora for generating place graphs
US10339148B2 (en) Cross-platform computer application query categories
KR20050078655A (ko) 동적 키워드 추출과 처리 시스템
JP5981386B2 (ja) 代表ページ選択装置及び代表ページ選択プログラム
JP6571053B2 (ja) 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体
KR101698280B1 (ko) 태그에 대한 웹 페이지 검색 장치 및 방법
JP5977199B2 (ja) 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム
JP5801243B2 (ja) 特徴キーワード推薦装置及び方法及びプログラム
JP5670944B2 (ja) 文書要約装置及び方法及びプログラム
JP2013156876A (ja) 推薦クエリ抽出装置及び方法及びプログラム
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160728

R150 Certificate of patent or registration of utility model

Ref document number: 5981386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150