JP4915021B2 - 検索装置、および検索装置の制御方法 - Google Patents
検索装置、および検索装置の制御方法 Download PDFInfo
- Publication number
- JP4915021B2 JP4915021B2 JP2008232667A JP2008232667A JP4915021B2 JP 4915021 B2 JP4915021 B2 JP 4915021B2 JP 2008232667 A JP2008232667 A JP 2008232667A JP 2008232667 A JP2008232667 A JP 2008232667A JP 4915021 B2 JP4915021 B2 JP 4915021B2
- Authority
- JP
- Japan
- Prior art keywords
- hit
- search
- word vector
- word
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 45
- 239000013598 vector Substances 0.000 claims description 248
- 238000004364 calculation method Methods 0.000 claims description 34
- 206010010144 Completed suicide Diseases 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 8
- 238000002372 labelling Methods 0.000 description 6
- 230000002265 prevention Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- VZSRBBMJRBPUNF-UHFFFAOYSA-N 2-(2,3-dihydro-1H-inden-2-ylamino)-N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]pyrimidine-5-carboxamide Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C(=O)NCCC(N1CC2=C(CC1)NN=N2)=O VZSRBBMJRBPUNF-UHFFFAOYSA-N 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229910000037 hydrogen sulfide Inorganic materials 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<概要>
図1(a)は、検索用Webページに「自殺」という検索クエリを入力した場合に、通常の検索サーバ装置から返信されてくる検索ヒットリストの一例である。この図にあるように、通常の検索サーバ装置による検索ヒットリストには、「自殺マニュアル(楽な死に方)」や「海外自殺画像」といった、自殺を助長するようなWebページや公序良俗にそぐわないWebページなどがリストの上位に表示されることがある。
図2は、本実施例の検索装置における機能ブロックの一例を表す図である。なお「検索装置」とは、所定の検索クエリを受付けて検索クエリを含むリソースを特定し、その特定したリソースの識別情報や所在地情報を検索クエリ入力者に提示する機能を備える装置をいう。そして本実施例の検索装置は、いわゆるインターネット検索サービスを提供するネットワーク上のサーバ装置に組み込まれ、検索サーバ装置として実現されても良い。あるいはエンドユーザの端末装置に組み込まれ、ユーザ端末内のリソースを検索するサービスを実現しても良い。
図7は、上記機能的な各構成要件をハードウェアとして実現した際の、検索装置における構成の一例を表す概略図である。この図を利用して検索ヒットリストの表示ソート処理におけるそれぞれのハードウェア構成部の働きについて説明する。
図8は、本実施例の検索装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。
以上のように、本実施例の検索装置によって、検索にヒットしたWebページなどに関して有害性の度合いなどその価値指標を利用して段階的に判断して検索結果リスト中の並び順をソートすることができる。したがって、グレーゾーンにあるWebページなども含めてその検索ヒットリストを検索ユーザに提示することができる。
<概要>
本実施例は、上記実施例を基本とし、例えば検索ヒットリストとして1ページ表示される分という具合に一部のみソート表示を行うよう構成された検索装置である。
図10は、本実施例の検索装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索装置」(1000)は、実施例1を基本として「ヒット単語ベクトル生成部」(1001)と、「リファレンス単語ベクトル保持部」(1002)と、「類似度演算部」(1003)と、「演算式格納部」(1004)と、「ソート表示部」(1005)と、を有する。なお、これらの構成要件については、上記実施例にて記載済みであるので、その説明は省略する。
図11は、本実施例の検索装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。
以上のように本実施例の検索装置では、少なくとも最初は検索ヒットリスト中の上位所定順位までのページに関してベクトルの生成や類似度演算の処理を実行する。したがって検索ヒットリスト中のページタイトルなどをソートする際の演算処理負荷を低減または分散し、ソート済みの検索ヒットリストの表示速度を速くすることができる。
<概要>
図12は、本実施例の検索装置におけるヒット単語ベクトルの生成処理の一例を説明するための図である。この図12(a)にあるように、例えば検索にヒットしたあるWebページに関して、そのURL(ユニフォーム・リソース・ロケータ)を取得する。そして、一般的にURLは、そのWebページの内容と関連性をもたした文字列を含ませることが多い。また、同一のドメイン名を含む場合、1つのWebサイトを構成する複数のページ、例えば1つの「海外自殺画像を紹介するサイト」を構成する「東南アジアの画像を集めたページ」、「アフリカの画像を集めたページ」という具合に同内容のWebページである可能性が高い。
図13は、本実施例の検索装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索装置」(1300)は、実施例1を基本として「ヒット単語ベクトル生成部」(1301)と、「リファレンス単語ベクトル保持部」(1302)と、「類似度演算部」(1303)と、「演算式格納部」(1304)と、「ソート表示部」(1305)と、を有する。また、実施例2を基本として図示しない「上位生成手段」や「上位ソート表示手段」を有していても良い。なお、これらの構成要件については、上記実施例にて記載済みであるのでその説明は省略する。
図14は、本実施例の検索装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。
以上のように本実施例の検索装置によって、WebページなどのリソースのURLに含まれる文字列を利用して表示順位をソートすることができる。したがって、例えば同一のWebサイトに含まれているかなどを材料として類似性を判断することができる。
<概要>
図15は、本実施例の検索装置におけるヒット単語ベクトルの生成処理の一例を説明するための図である。この図にあるように、本実施例ではヒット単語ベクトルの素性に関して、その単語の出現頻度に応じて素性値を付与することを特徴とする。このようにベクトルの素性値を素性ごとに与えることでベクトル特性がより明確に表現されるので、リファレンス単語ベクトルとの比較によってより厳密に類似性を判断することができるようになる。
図16は、本実施例の検索装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索装置」(1600)は、実施例1を基本として「ヒット単語ベクトル生成部」(1601)と、「リファレンス単語ベクトル保持部」(1602)と、「類似度演算部」(1603)と、「演算式格納部」(1604)と、「ソート表示部」(1605)と、を有する。また、実施例2や3を基本として図示しない「上位生成手段」や「上位ソート表示手段」、あるいは「URL文字列利用手段」を有していても良い。なお、これらの構成要件については、上記実施例にて記載済みであるのでその説明は省略する。
図18は、本実施例の検索装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。
以上のように本実施例の検索装置では、単語の出現頻度に応じて素性値を付与したヒット単語ベクトルを生成する。したがってベクトル特性がより明確に表現されるので、リファレンス単語ベクトルとの比較によってより厳密に類似性を判断することができるようになる。
0201 ヒット単語ベクトル生成部
0202 リファレンス単語ベクトル保持部
0203 類似度演算部
0204 演算式格納部
0205 ソート表示部
Claims (8)
- 検索ヒットリストのそれぞれのページに含まれる文字列から抜き出される単語を素性とする単語ベクトルであるヒット単語ベクトルを生成するヒット単語ベクトル生成部と、
価値指標を示すラベルと関連付けられたリファレンス用の単語ベクトルであるリファレンス単語ベクトルを複数保持するリファレンス単語ベクトル保持部と、
複数保持されているリファレンス単語ベクトルのそれぞれと、ヒット単語ベクトル生成部にて生成されたヒット単語ベクトルとの類似度を演算する類似度演算部と、
前記類似度を演算するための演算式を格納した演算式格納部と、
ヒット単語ベクトルを生成したページの識別情報を、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示するソート表示部と、
を有する検索装置。 - ヒット単語ベクトル生成部は、
検索ヒットリスト中、上位所定順位までの検索ヒットリストに含まれるページを対象としてヒット単語ベクトルを生成する上位生成手段を有し、
ソート表示部は、
少なくとも上位所定順位までの検索ヒットリストについては、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示する上位ソート表示手段を有する請求項1に記載の検索装置。 - ヒット単語ベクトル生成部は、素性として検索ヒットリストのページのURLに含まれる文字列を利用してヒット単語ベクトルを生成するURL文字列利用手段を有する請求項1または2に記載の検索装置。
- ヒット単語ベクトル生成部は、ページ中に含まれている同一単語の出現頻度に応じてベクトル空間中でのその単語軸の大きさを定めたヒット単語ベクトルを生成する重み付け手段を有する請求項1から3のいずれか一に記載の検索装置。
- 価値指標を示すラベルと関連付けられたリファレンス用の単語ベクトルであるリファレンス単語ベクトルを複数保持するリファレンス単語ベクトル保持部を有する検索装置の制御方法であって、
検索ヒットリストのそれぞれのページに含まれる文字列から抜き出される単語を素性とする単語ベクトルであるヒット単語ベクトルを生成するヒット単語ベクトル生成ステップと、
予め演算式格納部に格納されている前記類似度を演算するための演算式を用いて、複数保持されているリファレンス単語ベクトルのそれぞれと、ヒット単語ベクトル生成部にて生成されたヒット単語ベクトルとの類似度を演算する類似度演算ステップと、
ヒット単語ベクトルを生成したページの識別情報を前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示するソート表示ステップと、
を計算機に実行させる検索装置の制御方法。 - ヒット単語ベクトル生成ステップは、
検索ヒットリスト中、上位所定順位までの検索ヒットリストに含まれるページを対象としてヒット単語ベクトルを生成する上位生成ステップを含み、
ソート表示ステップは、
少なくとも上位所定順位までの検索ヒットリストについては、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示する上位ソート表示ステップを含む請求項5に記載の検索装置の制御方法。 - ヒット単語ベクトル生成ステップは、素性として検索ヒットリストのページのURLに含まれる文字列を利用してヒット単語ベクトルを生成するURL文字列利用ステップを含む請求項5または6に記載の検索装置の制御方法。
- ヒット単語ベクトル生成ステップは、ページ中に含まれている同一単語の出現頻度に応じてベクトル空間中でのその単語軸の大きさを定めたヒット単語ベクトルを生成する重み付けステップを含む請求項5から7のいずれか一に記載の検索装置の制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008232667A JP4915021B2 (ja) | 2008-09-10 | 2008-09-10 | 検索装置、および検索装置の制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008232667A JP4915021B2 (ja) | 2008-09-10 | 2008-09-10 | 検索装置、および検索装置の制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010067005A JP2010067005A (ja) | 2010-03-25 |
JP4915021B2 true JP4915021B2 (ja) | 2012-04-11 |
Family
ID=42192542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008232667A Active JP4915021B2 (ja) | 2008-09-10 | 2008-09-10 | 検索装置、および検索装置の制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4915021B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5527845B2 (ja) * | 2010-08-20 | 2014-06-25 | Kddi株式会社 | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
JP5392227B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | フィルタリング装置およびフィルタリング方法 |
JP5392228B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | 番組検索装置および番組検索方法 |
CN102254038B (zh) * | 2011-08-11 | 2013-01-23 | 武汉安问科技发展有限责任公司 | 一种分析网络评论相关度的***及其分析方法 |
CN106202124B (zh) | 2015-05-08 | 2019-12-31 | 广州市动景计算机科技有限公司 | 网页分类方法及装置 |
CN107015976B (zh) * | 2016-01-27 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 业务处理方法、数据处理方法及装置 |
US11698922B2 (en) | 2018-11-02 | 2023-07-11 | Valve Corporation | Classification and moderation of text |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3654850B2 (ja) * | 2000-05-17 | 2005-06-02 | 松下電器産業株式会社 | 情報検索システム |
JP4146361B2 (ja) * | 2004-01-21 | 2008-09-10 | 日本電信電話株式会社 | ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体 |
US7801887B2 (en) * | 2004-10-27 | 2010-09-21 | Harris Corporation | Method for re-ranking documents retrieved from a document database |
JP2006235716A (ja) * | 2005-02-22 | 2006-09-07 | Hitachi Ltd | 文書フィルタリングシステム |
JP4746439B2 (ja) * | 2006-02-15 | 2011-08-10 | 株式会社ジャストシステム | 文書検索サーバおよび文書検索方法 |
JP4839278B2 (ja) * | 2007-01-26 | 2011-12-21 | ヤフー株式会社 | Urlの類似性分析による処理省略判定プログラム、装置 |
-
2008
- 2008-09-10 JP JP2008232667A patent/JP4915021B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010067005A (ja) | 2010-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9489450B2 (en) | Method and apparatus for responding to an inquiry | |
JP4915021B2 (ja) | 検索装置、および検索装置の制御方法 | |
US10552467B2 (en) | System and method for language sensitive contextual searching | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
US7676462B2 (en) | Method, apparatus, and program for refining search criteria through focusing word definition | |
KR101524889B1 (ko) | 간접 화법 내에서의 시맨틱 관계의 식별 | |
US20120290561A1 (en) | Information processing apparatus, information processing method, program, and information processing system | |
US20080294619A1 (en) | System and method for automatic generation of search suggestions based on recent operator behavior | |
WO2008022581A1 (fr) | Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie | |
US20090313536A1 (en) | Dynamically Providing Relevant Browser Content | |
AU2018250372B2 (en) | Method to construct content based on a content repository | |
RU2631975C2 (ru) | Способ и система для обработки входных команд пользователя | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
US20180293508A1 (en) | Training question dataset generation from query data | |
CN115203445A (zh) | 多媒体资源搜索方法、装置、设备及介质 | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
US11150871B2 (en) | Information density of documents | |
AT&T | ||
JP2009151541A (ja) | 検索システムにおける最適情報の提示方法 | |
CN102375835B (zh) | 一种信息搜索***和方法 | |
KR20070008370A (ko) | 예측형 키워드 제공 단말기, 시스템 및 방법 | |
JP2005339419A (ja) | Webページ評価システム及びWebページ評価方法 | |
US20110022591A1 (en) | Pre-computed ranking using proximity terms | |
JP2018010543A (ja) | 表記揺れ用語集作成装置、検索システム、それらの方法、それらのコンピュータプログラム及びそれらのコンピュータプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111024 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120106 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150203 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4915021 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150203 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |