JP4759600B2 - 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 - Google Patents
文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 Download PDFInfo
- Publication number
- JP4759600B2 JP4759600B2 JP2008216556A JP2008216556A JP4759600B2 JP 4759600 B2 JP4759600 B2 JP 4759600B2 JP 2008216556 A JP2008216556 A JP 2008216556A JP 2008216556 A JP2008216556 A JP 2008216556A JP 4759600 B2 JP4759600 B2 JP 4759600B2
- Authority
- JP
- Japan
- Prior art keywords
- site
- search
- query
- click
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
"Probabilistic Query Expansion Using Query Logs".Hang Cui,et al.(2002) S.E.Robertson,"On term selection for query expansion",Journal of Documentation,46,pages 359−364,1990.
前記表示部100には、利用者がクエリ(検索語)を入力するクエリ入力画面101および前記検索実行部140から得た検索結果を表示する結果表示画面102がブラウザを介して表示される。ここでは、利用者は前記クエリ入力画面101にて前記キーボードなどを用いてクエリを入力する。
前記検索式生成部110は、前記クエリ入力画面101において入力された前記クエリを受信し、受信したクエリおよび該クエリに対する拡張語の要求を前記拡張語選択部120へ送信する。また、前記拡張語選択部120から拡張語を受信すると、この拡張語を用いて初期のクエリに対する検索結果を並び替える処理を行う検索式を生成し、これを前記検索実行部140へ送信する。この検索式を用いて、入力されたクエリに対する初回の検索結果のランキングを、前記拡張語を用いてより精度の高いランキングに並び替えている。
前記拡張語選択部120は、命令部121、解析結果統合部122、解析部A123、解析部B124、解析部C125、情報抽出部128、照合部129、検索結果取得部130、機能語抽出・名詞句生成部133、拡張語の重み・順序付け部134、クリックログフィードバック処理部150と、3つのDB(データベース)、即ちクリックログDB126、クリック確率DB127、インデックスDB132と、検索エンジン131とを有している。このうち前記各DB126.127.132は、前記ハードディスクドライブ装置上に構築されている。
前記検索実行部140は、前記検索式生成部110から検索式を受信すると、これを前記検索エンジン131へ投入し、対応する検索結果を受信する。そして、この検索結果を前記結果表示画面102へ表示する。
前記文章検索装置1は、利用者から入力されたクエリを基にクリックログを解析して拡張語を取得し、この拡張語を用いてクエリ拡張をすることによりさらに精度の高い検索結果を得ている。この一連の処理は主に4つのフェーズ、即ちクエリ入力フェーズ、クリックログ解析フェーズ、拡張語取得フェーズ、検索実行フェーズから構成されている。以下、この各フェーズの詳細な処理内容について、図2〜7に基づき説明する。
図2は、クエリ入力フェーズの処理フローを示している。まず、利用者は前記クエリ入力画面101においてクエリを入力する。入力されたクエリは、前記検索式生成部110へ送信される。前記検索式生成部110は、前記拡張語選択部120へ前記クエリとともに拡張語の抽出・選択要求を送信する。
クリックログ解析フェーズでは、入力されたクエリを用いてクリックログを解析する。この目的は、クリックログ中のサイトにおいてアクセスの集中するサイトを特定することにある。なぜなら閲覧者は、検索結果中のサイトを選択する(クリックする)際、そのサイトのタイトルとスニペット(概要文)を見て判断すると考えられ、アクセスの集中するサイトのタイトルとスニペットには、閲覧者が有用だと判断したキーワードがあると期待できるからである。そして、このキーワードでクエリ拡張をすることにより、大幅な検索の精度向上が望めると考えられる。ここではそのようなサイトをアクセス集中サイト(ACS)とし、そのタイトルとスニペット(Titles and Snippets)をTSと呼ぶ。クリックログ解析フェーズでは、入力されたクエリを用いてクリックログを解析することにより、アクセス集中サイト(ACS)の特定を行っている。
拡張語取得フェーズでは、クリックログ解析フェーズで特定したアクセス集中サイト(ACS)のタイトルと概要文(スニペット)から、クエリ拡張を行うための拡張語を取得する。これは、アクセスの集中するサイトのタイトルとスニペットには閲覧者が有用だと判断したキーワードがあり、このキーワードでクエリ拡張をすることで大幅な検索の精度向上が期待できるためである。
検索実行フェーズでは、拡張語取得フェーズで取得した拡張語を用いて検索式を生成し、この検索式による検索を実行するとともに、検索結果に対する利用者の判断(クリック)をクリックログに反映させる。
前記クリックログDB126と前記インデックスDB132とは、必ずしも前記文章検索装置1に実装される必要はなく、例えば前記文章検索装置1にネットワークを介して接続された図外のサーバ内に実装した態様であってもよい。この場合に、前記両DB126.132への接続は前記通信デバイスを介して行われる。
100…表示部
101…クエリ入力画面
102…結果表示画面
110…検索式生成部
120…拡張語選択部
121…命令部
122…解析結果統合部
123…解析部A(第1解析手段)
124…解析部B(第2解析手段)
125…解析部C
126…クリックログDB
127…クリック確率DB
128…情報抽出部
129…照合部
130…検索結果取得部
131…検索エンジン
132…インデックスDB
133…機能語抽出・名詞句生成部
134…拡張語の重み・順序付け部
140…検索実行部
150…クリックログフィードバック処理部
Claims (8)
- 入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索装置であって、
閲覧者の実際に選択したサイトがクリック回数に基づきランク付けされた前記クエリに対するクリックログを解析して、アクセスの集中するサイトを特定するクリックログ解析手段と、
前記アクセスの集中するサイトのタイトルと概要文とを解析して、前記拡張語を取得する拡張語取得手段と、を備え、
前記クリックログ解析手段は、前記クリックログ中の隣接ランクに存在するサイト間のクリック回数差を相対的クリック回数として算出し、該相対的クリック回数に応じてサイトのアクセス集中度合を求める第1解析手段と、
前記検索ごとに各ランクのサイトに対するクリック確率が保存されたデータベースを参照して、ランクの平均クリック確率に対する実際のクリック回数を生起確率として算出し、該生起確率と閾値とを用いてアクセス集中サイトの候補を求める第2解析手段と、
前記両解析手段の解析結果を統合してアクセスの集中するサイトを特定する解析結果統合手段と、
を有することを特徴とする文章検索装置。 - 前記拡張語取得手段は、
前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求める手段と、
前記拡張語の各候補に対して順序付けを行う手段と、
前記順序付けられた各候補の順位に基づいて拡張語を選択する手段とを有する
ことを特徴とする請求項1に記載の文章検索装置。 - 前記クエリと前記拡張語とを用いてサイトを検索し、検索結果を出力する検索実行手段と、
前記検索実行手段の検索結果に対する利用者のクリック情報を前記クリックログに反映させるクリックログフィードバック処理手段とをさらに備える
ことを特徴とする請求項1または2のいずれか1項に記載の文章検索装置。 - 入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索方法であって、
クリックログ解析手段が、閲覧者の実際に選択したサイトがクリック回数に基づきランク付けされた前記クエリに対するクリックログを解析してアクセスの集中するサイトを特定する第1ステップと、
拡張語取得手段が、前記アクセスの集中するサイトのタイトルと概要文とを解析して前記拡張語を取得する第2ステップと、を有し、
前記第1ステップは、
前記クリックログ中の隣接ランクに存在するサイト間のクリック回数差を相対的クリック回数として算出し、該相対的クリック回数に応じてサイトのアクセス集中度合を求めるステップと、
前記検索ごとに各ランクのサイトに対するクリック確率が保存されたデータベースを参照して、ランクの平均クリック確率に対する実際のクリック回数を生起確率として算出し、該生起確率と閾値とを用いてアクセス集中サイトの候補を求めるステップと、
前記両ステップの解析結果を統合してアクセスの集中するサイトを特定するステップとを有する
ことを特徴とする文章検索方法。 - 前記第2ステップは、
前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求めるステップと、
前記拡張語の各候補に対して順序付けを行うステップと、
前記順序付けられた各候補の順位に基づいて拡張語を選択するステップとを有する
ことを特徴とする請求項4に記載の文章検索方法。 - 検索実行手段が、前記クエリと前記拡張語とを用いてサイトを検索し検索結果を出力するステップと、
クリックログフィードバック処理手段が、前記ステップの検索結果に対する利用者のクリック情報を前記クリックログに反映させるステップとをさらに有する
ことを特徴とする請求項4または5のいずれか1項に記載の文章検索方法。 - 請求項4〜6のいずれか1項に記載の文章検索方法の各ステップをコンピュータに実行させることを特徴とする文章検索プログラム。
- 請求項7記載の文章検索プログラムを記録したことを特徴とするコンピュータの読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216556A JP4759600B2 (ja) | 2008-08-26 | 2008-08-26 | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216556A JP4759600B2 (ja) | 2008-08-26 | 2008-08-26 | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055164A JP2010055164A (ja) | 2010-03-11 |
JP4759600B2 true JP4759600B2 (ja) | 2011-08-31 |
Family
ID=42071050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008216556A Active JP4759600B2 (ja) | 2008-08-26 | 2008-08-26 | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4759600B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5165719B2 (ja) * | 2010-03-30 | 2013-03-21 | ヤフー株式会社 | 情報処理装置、データ抽出方法及びプログラム |
JP5114524B2 (ja) * | 2010-04-08 | 2013-01-09 | ヤフー株式会社 | 検索結果更新システム、サーバ及び方法 |
JP5043209B2 (ja) * | 2011-03-04 | 2012-10-10 | 楽天株式会社 | 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体 |
CN104933081B (zh) * | 2014-03-21 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种搜索建议提供方法及装置 |
-
2008
- 2008-08-26 JP JP2008216556A patent/JP4759600B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010055164A (ja) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4638439B2 (ja) | ウェブ検索の個人化 | |
US8190601B2 (en) | Identifying task groups for organizing search results | |
JP4633162B2 (ja) | インデックス生成システム、情報検索システム、及びインデックス生成方法 | |
US8019758B2 (en) | Generation of a blended classification model | |
US20080215565A1 (en) | Searching heterogeneous interrelated entities | |
US20050222989A1 (en) | Results based personalization of advertisements in a search engine | |
US20090299978A1 (en) | Systems and methods for keyword and dynamic url search engine optimization | |
EP1653380A1 (en) | Web page ranking with hierarchical considerations | |
US8631097B1 (en) | Methods and systems for finding a mobile and non-mobile page pair | |
JP5084858B2 (ja) | サマリ作成装置、サマリ作成方法及びプログラム | |
KR20100107610A (ko) | 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법 | |
US20100131485A1 (en) | Method and system for automatic construction of information organization structure for related information browsing | |
JP5329540B2 (ja) | ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
US8234584B2 (en) | Computer system, information collection support device, and method for supporting information collection | |
JP4896132B2 (ja) | 情報価値を反映した情報検索方法及びその装置 | |
JP2010097461A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
KR101011726B1 (ko) | 스니펫 제공 장치 및 방법 | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP2009122807A (ja) | 連想検索システム | |
JP4912384B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
KR101178208B1 (ko) | 키워드 추출 장치 및 방법 | |
JP2009080806A (ja) | Webページにリンクを挿入する方法 | |
JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110215 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110531 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4759600 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140610 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |