JP4915021B2 - 検索装置、および検索装置の制御方法 - Google Patents

検索装置、および検索装置の制御方法 Download PDF

Info

Publication number
JP4915021B2
JP4915021B2 JP2008232667A JP2008232667A JP4915021B2 JP 4915021 B2 JP4915021 B2 JP 4915021B2 JP 2008232667 A JP2008232667 A JP 2008232667A JP 2008232667 A JP2008232667 A JP 2008232667A JP 4915021 B2 JP4915021 B2 JP 4915021B2
Authority
JP
Japan
Prior art keywords
hit
search
word vector
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008232667A
Other languages
English (en)
Other versions
JP2010067005A (ja
Inventor
毅司 増山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008232667A priority Critical patent/JP4915021B2/ja
Publication of JP2010067005A publication Critical patent/JP2010067005A/ja
Application granted granted Critical
Publication of JP4915021B2 publication Critical patent/JP4915021B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、Webページなどの検索サービスにおいて、検索にヒットしたリソースの有害度合いなどに応じて、検索結果リストの表示順を適切に並び替える技術に関する。
現在、インターネット上ではさまざまなWebページが公開されており、ユーザーは端末からそれらWebページにアクセスすることで、所望の情報を簡単に得ることができる。しかしその一方で、Webページにはアダルトコンテンツや暴力的なコンテンツなどを含むものも数多く存在し、そのような有害なWebページに若年者などが簡単にアクセス可能であることが、近年、大きな問題として議論されている。
そして、このような有害なWebページへのアクセスをコントロールするため、いわゆる「フィルタリング」と呼ばれる技術が提供されている。この「フィルタリング」では、例えば予めNGワードやURLを登録したフィルタリングソフトを端末にインストールしておく。そして端末がアクセスするWebページが当該NGワードを含んでいたり、当該URLのドメインを含んでいたりするかのマッチング処理結果に応じて有害なWebサイトであるか否かを判断する。そしてインターネット検索サーバ装置であれば、例えば特許文献1に開示されているように、それら有害なWebサイトと判断されたものを検索結果に含めないといった処理を行っている。
特開2007−128119号公報
しかし上記登録NGワードなどを利用するフィルタリング技術では、NGワードを含むWebページが全て検索結果から除かれてしまう、という課題がある。例えばNGワードを「自殺」と設定した場合、実は自殺予防のための手法や相談受付のページなども検索結果から省かれてしまい、このような健全なWebページへのアクセスまでもが遮断されてしまう可能性がある。
また、上記のようにNGワードなどを判断基準として有害性が疑わしいサイトはその有害度合いなどに関らず全て検索結果に含めない、つまり、Webページを二元的に分類し取捨選択する構成は、特にインターネット検索サービスには適していない、という課題がある。なぜならば、インターネット検索サービスは、ユーザーに所望の情報をあまねく提供することが第一義の目的である。したがって、完全に有害なWebページへのアクセスを遮断することは意味がある一方で、有害かどうか曖昧な、いわゆる「グレーゾーン」のWebページまで排除されてしまうことになると、その第一義の目的が、意味も無く達せられないことになってしまうからである。
また上記構成によって判断能力の乏しい幼年者に対する有害Webページへのアクセスをコントロールすることは重要とはいえ、ある程度の判断力を有する者にとっては自分自身で情報を取捨選択するという近代情報化社会において必要な能力を養う機会を奪うことにもなりかねない。
以上の課題を解決するために、本発明は、単純なNGワードのマッチングによる判断よりもさらに実効性の高い「ベクトル比較」によってWebページの有害性などを判断することができる機能、および価値指標を示すラベルを利用してその有害性の度合いなどを段階的に判断する機能をさらに備えることで、例えば有害と思われるWebページを検索結果から省くのではなく、その検索結果リスト中の並び順を下げることでアクセスしにくくする検索装置を提供する。
具体的には、検索ヒットリストのそれぞれのページに含まれる文字列から抜き出される単語を素性とする単語ベクトルであるヒット単語ベクトルを生成するヒット単語ベクトル生成部と、価値指標を示すラベルと関連付けられたリファレンス用の単語ベクトルであるリファレンス単語ベクトルを複数保持するリファレンス単語ベクトル保持部と、複数保持されているリファレンス単語ベクトルのそれぞれと、ヒット単語ベクトル生成部にて生成されたヒット単語ベクトルとの類似度を演算する類似度演算部と、前記類似度を演算するための演算式を格納した演算式格納部と、ヒット単語ベクトルを生成したページの識別情報を前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示するソート表示部と、を有する検索装置である。
また検索結果リストのソートの処理負荷を低減するため、例えば上位100位までの検索結果に対して有害性の度合いに応じたソートを行う機能を備える検索装置も提供する。具体的には、上記構成に加えて、ヒット単語ベクトル生成部が、検索ヒットリスト中、上位所定順位までの検索ヒットリストに含まれるページを対象としてヒット単語ベクトルを生成する上位生成手段を有し、ソート表示部が、少なくとも上位所定順位までの検索ヒットリストについては、上位生成手段にて生成された表示順に従って表示する上位ソート表示手段を有する検索装置である。
また、有害性の度合いなどを判断するためのベクトルの素性として、WebページのURLに含まれる文字列を利用する検索装置も提供する。具体的には、単語ベクトル生成部が、素性として検索ヒットリストのページのURLに含まれる文字列を利用してヒット単語ベクトルを生成するURL文字列利用手段を有する検索装置である。
また、有害性の度合いなどを判断するためのベクトルの素性をWebページ中の出現単語などとし、またその単語の出現頻度を素性値として与えることでベクトルを生成する機能を備える検索装置も提供する。具体的には、上記構成に加えて、さらに単語ベクトル生成部が、ページ中に含まれている同一単語の出現頻度に応じてベクトル空間中でのその単語軸の大きさを定めたヒット単語ベクトルを生成する重み付け手段を有する検索装置である。
なお、上記では本発明の検索装置の検索対象はWebページに限定されず、その他動画/静止画データや音楽データ、プログラムデータなどのバイナリデータであっても良い。
以上のような構成を備える本発明によって、検索にヒットしたWebページなどに関して有害性の度合いなどを段階的に判断することができ、それによって検索結果リスト中の並び順をソートすることができる。ここで、インターネット検索サービスを提供する米AOL(登録商標)の調査によると、検索結果リスト中8位以下の検索結果に並べられるサイトへのアクセス率は、それぞれ3%以下、トータルでも20%以下という報告がされている。このように、有害と思われるサイトを検索結果リストの下に並べ替えるだけでも、十分にそのアクセスを抑制する効果を生じさせることができる。
以下に、図を用いて本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。
なお、実施例1は、主に請求項1、5について説明する。また、実施例2は、主に請求項2、6について説明する。また、実施例3は、主に請求項3、7について説明する。また、実施例4は、主に請求項4、8について説明する。
≪実施例1≫
<概要>
図1(a)は、検索用Webページに「自殺」という検索クエリを入力した場合に、通常の検索サーバ装置から返信されてくる検索ヒットリストの一例である。この図にあるように、通常の検索サーバ装置による検索ヒットリストには、「自殺マニュアル(楽な死に方)」や「海外自殺画像」といった、自殺を助長するようなWebページや公序良俗にそぐわないWebページなどがリストの上位に表示されることがある。
これは、通常の検索サーバ装置では、その表示順位決定アルゴリズム(例えば再帰的に決定されるページのオーソリティ度に応じた表示順位の並び替えなど)に従い、検索クエリにヒットしたWebページの表示順を並び替えて検索ヒットリストを生成しており、そして表示順位決定アルゴリズムの基本部分は、Webページの記事内容そのものを考慮するようには設計されていないからである。
一方、図1(b)は、同じ「自殺」という検索クエリを入力した場合に本実施例の検索装置が組み込まれた検索サーバ装置から返信されてくる検索ヒットリストの一例である。この図にあるように、この検索ヒットリストでは上記のような有害と思われるWebページがリストの下位に表示されることになる。
これは、本実施例の検索装置において、有害性などの度合いを判断するリファレンス用のベクトルと検索にヒットしたWebページのベクトルとを利用した類似度判断を行うことで検索にヒットしたWebページの有害性などの度合いを判断し、それに応じて検索ヒットリストを並び替えているからである。
このように、本実施例の検索装置を利用して検索ヒットリスト中のページの有害度合いなどに応じて、その表示順位を自動的に並び替えることができる。したがって、有害と思われるWebページへのアクセスを抑制することができる。
<機能的構成>
図2は、本実施例の検索装置における機能ブロックの一例を表す図である。なお「検索装置」とは、所定の検索クエリを受付けて検索クエリを含むリソースを特定し、その特定したリソースの識別情報や所在地情報を検索クエリ入力者に提示する機能を備える装置をいう。そして本実施例の検索装置は、いわゆるインターネット検索サービスを提供するネットワーク上のサーバ装置に組み込まれ、検索サーバ装置として実現されても良い。あるいはエンドユーザの端末装置に組み込まれ、ユーザ端末内のリソースを検索するサービスを実現しても良い。
また本実施例における検索対象は、概要で例示したWebページには限定されず、その他の文書データや、静止画/動画、音声、プログラムなどのバイナリデータであっても良い。
そして、この図にあるように、本実施例の「検索装置」(0200)は、「ヒット単語ベクトル生成部」(0201)と、「リファレンス単語ベクトル保持部」(0202)と、「類似度演算部」(0203)と、「演算式格納部」(0204)と、「ソート表示部」(0205)と、を有する。
なお、以下に記載する本検索装置の機能ブロックは、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの両方として実現され得る。具体的には、コンピュータを利用するものであれば、CPUや主メモリ、バス、あるいは二次記憶装置(ハードディスクや不揮発性メモリ、CDやDVDなどの記憶メディアとそれらメディアの読取ドライブなど)、情報入力に利用される入力デバイス、印刷機器や表示装置、その他の外部周辺装置などのハードウェア構成部、またその外部周辺装置用のインターフェース、通信用インターフェース、それらハードウェアを制御するためのドライバプログラムやその他アプリケーションプログラム、ユーザーインターフェース用アプリケーションなどが挙げられる。
そして主メモリ上に展開したプログラムに従ったCPUの演算処理によって、入力デバイスやその他インターフェースなどから入力されメモリやハードディスク上に保持されているデータなどが加工、蓄積されたり、上記各ハードウェアやソフトウェアを制御するための命令が生成されたりする。また、この発明は検索装置として実現できるのみでなく、方法としても実現可能である。また、このような発明の一部をソフトウェアとして構成することができる。さらに、そのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品、及び同製品を記録媒体に固定した記録媒体も、当然にこの発明の技術的な範囲に含まれる(本明細書の全体を通じて同様である)。
「ヒット単語ベクトル生成部」(0201)は、検索ヒットリストのそれぞれのページに関してヒット単語ベクトルを生成する機能を有し、例えばCPUや主メモリ、ヒット単語ベクトル生成プログラムなどによって実現できる。「検索ヒットリスト」とは、入力された検索クエリによる検索にヒットしたリソースの識別情報(例えばリソースタイトルやURL、任意文字列のID番号など)をリスト化したものをいう。また「ヒット単語ベクトル」とは、検索ヒットリストのそれぞれのページに含まれる文字列から抜き出される単語を素性とする単語ベクトルをいう。
図3は、ヒット単語ベクトルの生成の一例を説明するための図である。この図にあるように、例えば、ヒット単語ベクトル生成プログラムに含まれる形態素解析プログラムをCPUが解釈し、検索クエリにヒットしたWebページのテキストデータ(図3の(a))を形態素解析する。具体的には、単語辞書や構文ルール辞書を利用したパターンマッチングなどによる文章の単語分解処理や、隠れマルコフモデルなどの確率的言語モデルを利用したスコアリングによる単語分解処理によって形態素解析処理を行う方法が挙げられる。またこの処理によって抽出される単語は、形態素解析の解析ルールの設定次第で複数の単語からなる慣用句などであっても良い。
そして上記形態素の結果抽出された単語を、図3(b)に示すように、当該Webページのベクトルの素性とする。つまり、ID:W001で識別されるWebページ(自殺予防の心理学)は、「自殺」、「予防」、「硫化水素」、「美しくない」、「いじめ」といった単語を素性とするベクトルで表される、という具合である。そしてWebページの内容などをこのようにベクトルで表し後述するリファレンス単語ベクトルとの比較判断処理を行うことで、単純なNGワード登録よりも実効的な判断処理が可能になる、という具合である。
また、検索にヒットしたその他のページに関しても同様の処理を行い、例えば、ID:W002で識別されるWebページは、「自殺」、「首吊り」、「クスリ」、「飛びこみ」、「簡単」などの単語を素性としベクトル化され、ID:W003で識別されるWebページは、「自殺」、「グロ」、「画像」、「楽しい」、「クリック」などの単語を素性としベクトル化される、という具合である。また、抽出した単語は同義語(類義語)辞典などを参照して、複数の同義語を一の単語としてまとめて素性とするよう構成しても良い。
また、単語に関して予めその有害度合いなどに応じた値を付与し、ベクトルの素性値とするよう構成しても良い。このように構成することで、後述するベクトル比較による類似性判断において、単語に応じた重み付けを行った上で類似性を判断することができる。あるいは実施例4で後述するように、単語の出現頻度に応じて上記ベクトルの素性に値を与えるよう構成しても良い。
なお、ヒット単語ベクトルの生成処理は形態素解析によるものには限定されず、例えば実施例2で後述するように、WebページのURLに含まれる文字列をベクトルの素性として利用しても良い。また、検索にヒットするリソースが音声であれば、例えばパターンマッチングを利用した周波数解析によって、その音声内に含まれる形態素などを抽出して音声に関するヒット単語ベクトルを生成しても良い。
あるいは、検索にヒットするリソースが動画や静止画などである場合には、例えば単語の替わりに画像特性をその素性とするヒット画像特性ベクトルを生成しても良い。具体的には、例えば画像データを周波数変換し、そこから抽出した高周波成分によるエッジ(輪郭)画像を生成する。そして予め保持されているパターンマッチング用の参照画像と比較し、例えば「斧」、「木」、「モザイクパターン」などその画像に含まれるオブジェクトを素性としてベクトルを生成する、という具合である。また、検索にヒットするリソースがプログラムであれば、ソースコードを抽出し、パターンマッチングなどによってその処理内容、例えば「システムファイル実行/コピー」、「システム領域の書換え」、「アドレス帳データの取得及び当該アドレス宛のメール送信」などを素性とするヒット実行ベクトルをヒット単語ベクトルの替わりに生成するよう構成すると良い。
「リファレンス単語ベクトル保持部」(0202)は、リファレンス単語ベクトルを複数保持する機能を有し、例えばHDD(ハードディスクドライブ)や不揮発性メモリ、光学記録メディアとその読取ドライブなどの各種記憶装置によって実現することができる。
「リファレンス単語ベクトル」とは、価値指標を示すラベルと関連付けられたリファレンス用の単語ベクトルをいい、例えば図4に示すように、ベクトルの素性として「自殺」、「防止」、「相談」などを含む場合には、安全であるとの価値指標を示すラベル「5」が関連付けられている。一方、「自殺」、「楽しい」、「グロ」などがベクトルの素性である場合には、有害であるとの価値指標を示すラベル「1」が関連付けて保持され、「自殺」、「教えて」、「簡単」などを素性とする場合には微妙な有害度合いとしてラベル「3」が関連付けて保持される、という具合である。
なお図4に示すラベルは、Webページの有害の度合いを示す価値指標であるが、価値指標はもちろんそれに限定されない。例えば、専門性の度合いを示す価値指標をそのラベルとし、専門性の順に検索ヒットリストを並び替えるよう構成しても良いし、信頼性や有用性の度合いを示す価値指標をそのラベルとし、信頼性や有用性の順に検索ヒットリストを並び替えるよう構成しても良い。
また、検索にヒットしたリソースが動画/静止画や音声、プログラムなどであっても、そのリソースに合わせたベクトル素性(動画/静止画であればオブジェクト画像、音声であれば形態素の周波数データ、プログラムであれば一部のソースコードなど)を価値指標を示すラベルと関連付けて保持すると良い。具体的には、例えば「モザイクパターン」や「陰部」のオブジェクト画像データを素性ベクトルとする場合、18歳未満に相応しくない動画像であることが想定されるのでラベルを「1」として保持する。あるいは、「自殺」、「グロ」、あるいは放送禁止用語などの音声周波数データを素性とするベクトルであればラベル「1」と関連付けて保持したり、「システムファイル実行/コピー」、「システム領域の書換え」のためのソースコードを素性とするベクトルであれば、ウィルスなどの危険性の高いプログラムである可能性があるとしてラベル「1」と関連付けて保持する、という具合である。
このように、リファレンス単語ベクトルにラベルを関連付けて保持することで、検索ヒットリスト中のWebページなどが未知のリソースである場合でも、そのリファレンスとの類似性判断によってラベルを付与し順位付けすることが可能となる。
なお、このリファレンス単語ベクトルの生成およびラベルの関連付けは、当初はサービス提供者やサービス利用者によって作成入力され、登録されたものを学習事例として利用すると良い。そしてその後は、フィードバックなどによって自動的にその数を拡充するよう構成すると良い。すなわち、後述する本実施例の検索装置の処理によってリファレンス単語ベクトルとの類似性に応じてラベルが付与されたヒット単語ベクトルを、その付与されたラベルと関連付けて今後はリファレンス単語ベクトルとして利用する、という具合である。あるいは、例えばネットワーク上のリソースを定期的に自動収集するプログラム(いわゆる「クローラプログラム」)によって収集したWebページに対して同様の処理を行い、保持するリファレンス単語ベクトルの数を拡充するよう構成しても良い。つまりリファレンス単語ベクトルは、いわゆる「教師あり機械学習」における教師に相当する学習データとして利用されることになる。そしてこの機械学習によって、後述するベクトル比較による未知のリソースへのラベル付与精度を高めることができる。
「類似度演算部」(0203)は、複数保持されているリファレンス単語ベクトルのそれぞれと、ヒット単語ベクトル生成部にて生成されたヒット単語ベクトルとの類似度を演算する機能を有し、例えばCPUや主メモリ、類似度演算プログラムなどによって実現することができる。
図5は、この類似度演算部でのリファレンス単語ベクトルとヒット単語ベクトルの類似度演算処理の一例を説明するための図である。この図5(a)にあるように、図3(b)にてID「W001」で識別されるヒット単語ベクトルを、素性をその軸とするベクトル空間に配置する。つづいて、図4にてID「R001」で識別されるリファレンス単語ベクトルをベクトル空間に配置する。そして、両ベクトルの為す角をθとすると、cosθ=(ベクトルW001×ベクトルR001)/(|ベクトルW001|×|ベクトルR001|)となる。そして、両ベクトルの為す角θが小さいほど両ベクトルの素性が類似していることを示す、すなわち上記算出したcosθの値によって両ベクトルの類似性が示される、という具合である。
そして、W001のヒット単語ベクトルに関して、図4のその他のリファレンス単語ベクトル「R002」、「R003」、・・・との類似度(cosθ)をそれぞれ算出する。そして図5(b)に示すようにcosθの値が1に近い、すなわちヒット単語ベクトルとの類似性が高い上位k個(kは所定の自然数。図の例では2個)のリファレンス単語ベクトル「R001」と「R004」を特定する。そしてリファレンス単語ベクトル保持部にて「R001」に関連付けて保持されているラベル「5」と、「R004」のラベル「4」との平均値(端数切り上げなど)、あるいは中央値、最頻値を、ヒット単語ベクトル「W001」のラベルとすることで、次のソート表示部による並替え表示の基準となるラベルを、検索にヒットしたリソースに付与することができる。
なお、上記ヒット単語ベクトルへのラベル付与処理はk最近傍法と言われる類似性の判断処理であるが、本実施例はもちろんこの方法に限定されない。例えば、サポートベクターマシン(SVM)などを利用して前記類似性を判断しても良い。
そして、図3(b)に示す「W002」、「W003」、・・・のその他のヒット単語ベクトルに関しても、同様にリファレンス単語ベクトル「R001」、「R002」、・・・それぞれとの類似度の判断処理、及びその類似度に応じたラベルの付与を実行する。そして、図6に示すように検索ヒットリストに示されるそれぞれのWebページなどのリソースに関して、近似するリファレンス単語ベクトルのラベルを関連付けて記憶装置に格納する、という具合である。
なお、このようにリファレンス単語ベクトルとの類似度に応じて新たにラベルが付与されたヒット単語ベクトルを、リファレンス単語ベクトル保持部にそのまま保持し、次回以降利用するように構成しても良い。このように構成することで、リファレンス単語ベクトルの保持数を自動的に拡充することができる。
「演算式格納部」(0204)は、前記類似度を演算するための演算式を格納する機能を有し、例えばHDDや不揮発性メモリ、光学記録メディアとその読取ドライブなどの各種記憶装置によって実現することができる。ここで保持されている演算式は、例えば前記類似度判断部にて説明したようなベクトルのcosθを求めるための演算式や、k最近傍法を実行するための演算式が挙げられる。ただし、ここに格納されている演算式はそれに限定されず、ベクトル間の類似度を判断し、類似度に応じて価値指標を示すラベルを付与する演算式であればどのような演算式であっても構わない。
例えば、リソースがテキストベースのものに限定されるのであれば、その他の演算式として2つの文字列の相違度合いを示すいわゆる「レーベンシュタイン距離(編集距離)」を利用するものが挙げられる。具体的には、h、h、・・・をヒット単語ベクトルの素性(文字列)とし、r、r、・・・をリファレンス単語ベクトルの素性(文字列)として、下記数1で示す演算式で各形態素のSIM(類似度)を算出する。そしてその平均値を、ヒット単語ベクトルとリファレンス単語ベクトルの類似性を示す値として利用する、という具合である。
Figure 0004915021
なお、レーベンシュタイン距離LD(h、r)は、例えば従来同様に動的計画法に基づくアルゴリズムを用いて算出すると良い。また、両ベクトルの素性(形態素)ごとにSIMを算出するのではなく、ヒット単語ベクトルおよびリファレンス単語ベクトルを、その素性を文字とする1つの文字列と考え(例えば、ベクトルが「自殺」、「相談」、「予防」を素性としていれば、文字数が3つの文字列「自殺 相談 予防」と考える、という具合である)、上記数1を演算しても良い。
「ソート表示部」(0205)は、ヒット単語ベクトルを生成したページの識別情報を前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標の順にソートして表示する機能を有し、例えば、CPUや主メモリ、ソート表示プログラムなどで実現することができる。
具体的には、図6に示すように新たにラベルが付与された検索ヒットリスト中のWebページなどのリソースに関して、そのラベル順にソートすることで、図1(b)に示すような検索ヒットリストを生成する、という具合である。なお、このリスト中の識別情報のソート処理は、そのラベルのみを利用して実行されるのではなく、通常の検索ヒットリストのソートルールにラベル値を加味することで実行されても良い。その場合には、通常のソート順を決定するための関数に含まれる変数として当該ラベル値を用いるよう構成すると良い。
このようにして、検索にヒットしたWebページなどに関して有害性の度合いなどその価値指標を段階的に判断して検索結果リスト中の並び順をソートすることができる。したがって、グレーゾーンにあるWebページなども含めてその検索ヒットリストを検索ユーザに提示することができる。
また、例えばWebページの文書中に含まれる単語などを素性とするベクトルを利用することで、検索ヒットリスト中の未知のリソースに関してもラベルを付与し、そのラベル順に検索ヒットリストをソートすることができる。また、その未知のリソースにラベルを付与するためのリファレンス単語ベクトルを、フィードバックやクローラの自動収集によって自動的に拡充し、そのラベル付与精度を手間をかけずに高めることもできる。
<ハードウェア構成>
図7は、上記機能的な各構成要件をハードウェアとして実現した際の、検索装置における構成の一例を表す概略図である。この図を利用して検索ヒットリストの表示ソート処理におけるそれぞれのハードウェア構成部の働きについて説明する。
この図にあるように、検索装置は、ヒット単語ベクトル生成部、類似度演算部、およびソート表示部であり、またその他の各種演算処理を実行する「CPU(中央演算装置)」(0701)と、「主メモリ」(0702)と、を備えている。またリファレンス単語ベクトル保持部および演算式格納部である「HDD」(0703)や、検索クエリを送信してくる検索端末とネットワーク網を介して接続する「通信IF(インターフェース)」(0704)なども備えている。そしてそれらが「システムバス」などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。
また、「主メモリ」にはプログラムが読み出され、「CPU」は読み出された当該プログラムを解釈し、その解釈した手順に従い各種演算処理を実行する。また、この「主メモリ」や「フラッシュメモリ」にはそれぞれ複数のアドレスが割り当てられており、「CPU」の演算処理においては、そのアドレスを特定し格納されているデータにアクセスすることで、データを用いた演算処理を行うことが可能になっている。
ここで、検索端末から検索用Webページなどを介して入力された検索クエリを「通信IF」にて受信し、「主メモリ」のアドレス1に格納する。すると検索装置は、通常の検索処理と同様に「CPU」の論理演算処理によって、予めクローラなどで収集し「HDD」に格納されている検索用の検索インデックスやキャッシュデータなどを検索する。そして検索クエリに合致する文字列などを含むWebページの識別情報を検索ヒットIDとして「主メモリ」のアドレス2、・・・などに格納する。
つづいて、「CPU」がヒット単語ベクトル生成プログラムを解釈し、それに従って検索ヒットIDで示されるWebページのHTML文書データを例えば「HDD」内のキャッシュデータから取得する。そして、「CPU」は「HDD」に格納されている図示しない単語辞書を参照し、例えば最長一致法などによって「辞書中の単語」と「HTML文書中の単語」とのパターンマッチング処理を行う。次に抽出された単語について「CPU」は同じく図示しない文法辞書を参照し、文法辞書で示される単語品詞の活用や接続関係から単語が正しく抽出されているか否かの判断処理を実行する。その判断の結果、正しくないと判断された抽出単語については、別の区切り箇所を再パターンマッチング処理によって見つけ出し、文法的に正しい形で文章中の単語を抽出する。またここで「CPU」は類義語辞書を参照し、抽出した単語のうち類義語をまとめて一の単語としてまとめる処理を行っても良い。そして、このように抽出された単語を、当該Webページのベクトルの素性としてヒット単語ベクトルを生成する。そして検索にヒットしたその他の検索ヒットIDに係るWebページに関しても同様の処理を行い、「主メモリ」のアドレス3、・・・などにその生成したヒット単語ベクトルを格納する。
さらに「CPU」は類似度演算プログラムを解釈しその解釈結果に従い、「HDD」に格納されているリファレンス単語ベクトル1(R001)を「主メモリ」のアドレス4に読み出し、アドレス3に格納されているヒット単語ベクトル(W001)との類似度を算出する。具体的には、例えば「HDD」に格納されている「cosθ=(ベクトルW001×ベクトルR001)/(|ベクトルW001|×|ベクトルR001|)」といった演算式に上記各ベクトル値を代入し、そのコサイン距離(cosθ)を算出する。そして、ヒット単語リストW001に関して、その他のリファレンス単語ベクトルR002、R003、・・・などとの間でも同様にcosθを算出し、そのcosθ値が1に近いリファレンス単語ベクトルを上位k個特定する。そしてk最近傍法によって、ヒット単語ベクトルの生成元となったWebページのラベルを、その上位k個のリファレンス単語ベクトルに関連付けられているラベルのうち例えば最頻値のラベルとして決定し、「主メモリ」のアドレス5に当該Webページの識別情報と関連付けて格納する。
また、その他の検索ヒットIDで示されるWebページに関しても同様の処理によってそのラベルを決定し、それぞれのWebページの識別情報と関連付けて「主メモリ」に格納する。
そして、「CPU」はソート表示プログラムを解釈しその解釈結果に従い、そのラベルで示される価値指標順に、関連付けて格納されているWebページの識別情報をソートして、ソート済検索ヒットリストを生成し「主メモリ」のアドレス6に格納する。そして、「通信IF」を介して、検索クエリを送信してきた検索端末にそのソート済検索ヒットリストを返信する、という具合である。
また、「主メモリ」のアドレス5に格納されているラベルを、そのWebページから生成されたヒット単語ベクトルと関連付けて、次回以降はリファレンス単語ベクトルとして利用できるよう「HDD」に保持するよう構成しても良い。
なお、検索対象となるリソースがWebページではなく動画などのバイナリデータであれば、上記機能的構成にて説明したような形でヒット画像特性ベクトルの生成や類似度判断処理を行うと良い。
また、上記構成はネットワーク上の検索サーバ装置に本実施例の検索装置が組み込まれた場合のハードウェア構成例である。本実施例の検索装置がエンドユーザの端末装置に組み込まれている場合には、例えば検索クエリの入力は「通信IF」ではなく図示しない入力デバイスなどを介して入力されると良い。また、ソート済検索ヒットリストは、「通信IF」から出力されるのではなく、直接端末自身のディスプレイに出力表示されると良い。
<処理の流れ>
図8は、本実施例の検索装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。
この図にあるように、まず、検索クエリを受付ける(ステップS0801)と、受付けた検索クエリにヒットしたページタイトルなどをリスト化し、検索ヒットリストを取得する(ステップS0802)。つづいて検索ヒットリストのそれぞれのページに関して、例えば形態素解析を行い、その形態素を素性とするヒット単語ベクトルを生成する(ステップS0803)。そして予め格納されている演算式を用いて、複数保持されているリファレンス単語ベクトルのそれぞれとヒット単語ベクトルとの類似度を、例えばコサイン距離などを利用して演算する(ステップS0804)。
そして、検索ヒットリスト中のページタイトルなどを、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルで示される価値指標順にソートして表示する(ステップS0805)。また、このようにラベルが付与されたページに関して、そのページから生成されたヒット単語ベクトルをラベルと関連付けて、次回以降はリファレンス単語ベクトルとして利用できるようHDDなどに保持するよう構成しても良い。
もちろん、この処理の流れはネットワーク上の検索サーバ装置における処理の流れでも良いし、エンドユーザの端末における処理の流れでも良い。なお前者の場合、ステップS0801は、ネットワークを介して端末にて入力された検索クエリを受付けるステップとなり、後者の場合、ステップS0801は入力デバイスなどを介して端末に直接入力された検索クエリを受付けるステップとなる。また、ステップS0805は、前者の場合ソートしたリストを検索クエリを送信してきた端末に返信することで、その端末上にて検索ヒットリストを表示させるステップとなり、後者の場合は直接自身のディスプレイに検索ヒットリストを表示させるステップとなる(以下の実施例の処理の流れについても同様である)。
<効果の簡単な説明>
以上のように、本実施例の検索装置によって、検索にヒットしたWebページなどに関して有害性の度合いなどその価値指標を利用して段階的に判断して検索結果リスト中の並び順をソートすることができる。したがって、グレーゾーンにあるWebページなども含めてその検索ヒットリストを検索ユーザに提示することができる。
また、例えばWebページの文書中に含まれる単語などを素性とするベクトルを利用することで、検索ヒットリスト中の未知のリソースに関してもラベルを付与し、そのラベル順に検索ヒットリストをソートすることができる。また、その未知のリソースにラベルを付与するためのリファレンス単語ベクトルを、フィードバックやクローラの自動収集によって自動的に拡充し、そのラベル付与精度を手間をかけずに高めることもできる。
≪実施例2≫
<概要>
本実施例は、上記実施例を基本とし、例えば検索ヒットリストとして1ページ表示される分という具合に一部のみソート表示を行うよう構成された検索装置である。
図9は、本実施例の検索装置によってソートされた検索ヒットリストの一例を表す図である。この図9(a)にあるように、検索クエリにヒットした60000件のうち、1から10件までのヒット結果を1ページの検索ヒットリストとして表示しており、その10件分に関しては上記実施例1で記載したようなソート表示のための演算処理を行っている。しかし、図9(b)にあるように、続く11件から20件までのヒット結果に関しては、ソート表示のための演算処理を行っていない、という具合である。また、この2ページ目の検索ヒットリストに関しては、例えばユーザが1ページ目の「次へ」をクリックし2ページ目の表示操作を行ってから改めてソート表示のための演算処理を行うよう構成しても良い。あるいは、ユーザが1ページ目を閲覧中に、バックグラウンド処理で次ページ以降の検索ヒットリストのソート表示のための演算処理を行うよう構成しても良い。
そして本実施例ではこのように構成することで、検索ヒットリスト中のページタイトルなどをソートする際の演算処理負荷を低減または分散し、検索ヒットリストの表示速度を速くすることができる。
<機能的構成>
図10は、本実施例の検索装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索装置」(1000)は、実施例1を基本として「ヒット単語ベクトル生成部」(1001)と、「リファレンス単語ベクトル保持部」(1002)と、「類似度演算部」(1003)と、「演算式格納部」(1004)と、「ソート表示部」(1005)と、を有する。なお、これらの構成要件については、上記実施例にて記載済みであるので、その説明は省略する。
そして、本実施例の検索装置は、ヒット単語ベクトル生成部が「上位生成手段」(1006)をさらに有する点と、ソート表示部が「上位ソート表示手段」(1007)をさらに有する点を特徴とする。
「上位生成手段」(1006)は、検索ヒットリスト中、上位所定順位までの検索ヒットリストに含まれるページを対象としてヒット単語ベクトルを生成する機能を有する。具体的には、ヒット単語ベクトルを生成する前に、従来同様のルールにしたがい表示順が決定された検索ヒットリストを取得し、その検索ヒットリストの中から、例えば上位100位までのWebページなどを対象としてヒット単語ベクトルを生成する、という具合である。
なおこの「上位所定順位」は、適宜定められることで検索装置のソート処理の負荷を低減させることができるが、さらに、概要にて前述したように検索ヒットリストが複数ページに分かれて表示される際には、その検索ヒットリスト1ページ表示分に含まれる上位所定順位のページを対象としてヒット単語ベクトルを生成するよう構成すると良い。
また、上位生成手段をそのように構成する場合、概要にて説明したように、次の検索ヒットリストページを表示するための操作を受付けた際に、その次の検索ヒットリストページに含まれるWebページを特定し、そのヒット単語ベクトルを生成する「次ページ操作後生成手段」を本実施例のヒット単語ベクトル生成部がさらに有していても良い。あるいは、ラベルに応じてソート済の検索ヒットリストを表示中に、バックグラウンドで次の検索ヒットリストページに含まれるWebページを特定し、そのヒット単語ベクトルを生成する「次ページバックグラウンド生成手段」を本実施例のヒット単語ベクトル生成部がさらに有していても良い。
「上位ソート表示手段」(1007)は、少なくとも上位所定順位までの検索ヒットリストについては、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示する機能を有する。また、前述の「次ページ操作後生成手段」や「次ページバックグラウンド生成手段」に対応して、さらに「次ページソート表示手段」を有していても良い。
このようにして本実施例では検索ヒットリスト中のページタイトルなどをソートする際の演算処理負荷を低減または分散し、ソート済みの検索ヒットリストの表示速度を速くすることができる。
<処理の流れ>
図11は、本実施例の検索装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。
この図にあるように、まず、検索クエリを受付ける(ステップS1101)と、受付けた検索クエリにヒットしたページタイトルなどをリスト化し、検索ヒットリストを取得する(ステップS1102)。つづいて検索ヒットリストに含まれるそれぞれのページに関して、例えば従来同様のルールにてその表示順位を決定した後、その中の上位所定順位までのヒットページを特定する(ステップS1103)。そしてその特定したヒットページのそれぞれに関して例えば形態素解析を行い、その形態素を素性とするヒット単語ベクトルを生成する(ステップS01104)。そして予め格納されている演算式を用いて、複数保持されているリファレンス単語ベクトルのそれぞれとヒット単語ベクトルとの類似度を、例えばコサイン距離などを利用して演算する(ステップS1105)。
そして、少なくとも上位所定順位までの検索ヒットリスト中のページについては、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルで示される価値指標順にソートして表示する(ステップS1106)。
<効果の簡単な説明>
以上のように本実施例の検索装置では、少なくとも最初は検索ヒットリスト中の上位所定順位までのページに関してベクトルの生成や類似度演算の処理を実行する。したがって検索ヒットリスト中のページタイトルなどをソートする際の演算処理負荷を低減または分散し、ソート済みの検索ヒットリストの表示速度を速くすることができる。
≪実施例3≫
<概要>
図12は、本実施例の検索装置におけるヒット単語ベクトルの生成処理の一例を説明するための図である。この図12(a)にあるように、例えば検索にヒットしたあるWebページに関して、そのURL(ユニフォーム・リソース・ロケータ)を取得する。そして、一般的にURLは、そのWebページの内容と関連性をもたした文字列を含ませることが多い。また、同一のドメイン名を含む場合、1つのWebサイトを構成する複数のページ、例えば1つの「海外自殺画像を紹介するサイト」を構成する「東南アジアの画像を集めたページ」、「アフリカの画像を集めたページ」という具合に同内容のWebページである可能性が高い。
そこで本実施例の検索装置では、図12(b)に示すように、そのURLに含まれる文字列を素性としてヒット単語ベクトルを生成し、ソート表示するためのラベル付与に利用することを特徴とする。
<機能的構成>
図13は、本実施例の検索装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索装置」(1300)は、実施例1を基本として「ヒット単語ベクトル生成部」(1301)と、「リファレンス単語ベクトル保持部」(1302)と、「類似度演算部」(1303)と、「演算式格納部」(1304)と、「ソート表示部」(1305)と、を有する。また、実施例2を基本として図示しない「上位生成手段」や「上位ソート表示手段」を有していても良い。なお、これらの構成要件については、上記実施例にて記載済みであるのでその説明は省略する。
そして、本実施例の検索装置は、ヒット単語ベクトル生成部が「URL文字列利用手段」(1306)をさらに有する点を特徴とする。
「URL文字列利用手段」(1306)は、素性として検索ヒットリストのページのURLに含まれる文字列を利用してヒット単語ベクトルを生成する機能を有する。URLは、通信プロトコル名以下、リソースを保持しているホストマシン名やホストマシン内でリソースが保持されているディレクトリ構造を示すパス名などで構成されている。そして前述のように、このURLはそのWebページの内容と関連性を持たせた文字列を含ませることが多い。あるいは同一のドメイン名を含む場合には同一のWebサイトを構成するため類似する内容のWebページである可能性が高い。つまりURLに含まれる文字列を比較してWebページの類似度を判断することが可能であるため、URL文字列利用手段では、そのURLに含まれる文字列をベクトルの素性としてヒット単語ベクトルを生成する、という具合である。
なお、URLはスラッシュ(/)やドット(.)などによって文字列が区切られている。したがって、単語辞書や文法辞書などを用いる複雑な形態素解析処理を行うことなく、これら区切り記号を参照することで簡単にベクトルの素性となる文字列を特定することができる。また、本実施例では「http」などのプロトコル名や「.html」などの拡張子、「.com」などのドメイン、あるいはTOPなどページ内容に関係なく汎用的にURLに含まれるパス名などを予め登録しておき、これら文字列はベクトルの素性とはしないよう構成しても良い。
また本実施例においては、リファレンス単語ベクトル保持部にて保持されているリファレンス単語ベクトルも、生成されるヒット単語ベクトルに合わせて「picture」、「movie」などを素性とするよう構成することは当然である。
<処理の流れ>
図14は、本実施例の検索装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。
この図にあるように、まず、検索クエリを受付ける(ステップS1401)と、受付けた検索クエリにヒットしたページタイトルなどをリスト化し、検索ヒットリストを取得する(ステップS1402)。つづいて検索ヒットリストに含まれるそれぞれのページに関して、そのURLの区切り記号を参照して文字列を区別し、その文字列を素性とするヒット単語ベクトルを生成する(ステップS01403)。そして予め格納されている演算式を用いて、複数保持されているリファレンス単語ベクトルのそれぞれとヒット単語ベクトルとの類似度を、例えばコサイン距離などを利用して演算する(ステップS1404)。
そして、検索ヒットリスト中のページタイトルなどを、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルで示される価値指標順にソートして表示する(ステップS1405)。
<効果の簡単な説明>
以上のように本実施例の検索装置によって、WebページなどのリソースのURLに含まれる文字列を利用して表示順位をソートすることができる。したがって、例えば同一のWebサイトに含まれているかなどを材料として類似性を判断することができる。
また、形態素解析などと比べると負荷の軽い「区切り記号を参照する」といった処理によって素性を決定し、ヒット単語ベクトルを生成することができる。
≪実施例4≫
<概要>
図15は、本実施例の検索装置におけるヒット単語ベクトルの生成処理の一例を説明するための図である。この図にあるように、本実施例ではヒット単語ベクトルの素性に関して、その単語の出現頻度に応じて素性値を付与することを特徴とする。このようにベクトルの素性値を素性ごとに与えることでベクトル特性がより明確に表現されるので、リファレンス単語ベクトルとの比較によってより厳密に類似性を判断することができるようになる。
<機能的構成>
図16は、本実施例の検索装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「検索装置」(1600)は、実施例1を基本として「ヒット単語ベクトル生成部」(1601)と、「リファレンス単語ベクトル保持部」(1602)と、「類似度演算部」(1603)と、「演算式格納部」(1604)と、「ソート表示部」(1605)と、を有する。また、実施例2や3を基本として図示しない「上位生成手段」や「上位ソート表示手段」、あるいは「URL文字列利用手段」を有していても良い。なお、これらの構成要件については、上記実施例にて記載済みであるのでその説明は省略する。
そして本実施例の検索装置は、ヒット単語ベクトル生成部が「重み付け手段」(1606)をさらに有する点を特徴とする。
「重み付け手段」(1606)は、ページ中に含まれている同一単語の出現頻度に応じてベクトル空間中でのその単語軸の大きさを定めたヒット単語ベクトルを生成する機能を有する。
図17は、この重み付け手段によるヒット単語ベクトルの生成処理およびリファレンス単語ベクトルとの類似性判断処理の一例を説明するための図である。この図17(a)にあるように、検索ヒットリストに含まれるWebページ「W001」に関し、形態素解析の結果として得られた単語の出現頻度をカウントする。そして、その出現頻度を素性値としてフラッシュメモリなどに格納する。また、その他のWebページ「W002」、「W003」、・・・等に関しても同様に単語の出現頻度をカウントし、そのカウント値を素性値としてヒット単語ベクトルを生成、格納する。
一方、図17(b)に示すように、リファレンス単語ベクトルに関しても、そのベクトル素性に関して素性値が適宜与えられている。もちろん、リファレンス単語ベクトルが何らかのWebページなどを元に生成されたものであれば、その出現頻度で素性値を与えると良い。
そして、図17(c)に示すように、cosθ=(ベクトルW001×ベクトルR001)/(|ベクトルW001|×|ベクトルR001|)などの演算式によって「W001」と「R001」の類似度を示す指標を算出するため、上記素性値によってその指標値cosθが変動する事になる。したがって、より厳密に類似性を判断することができるようになる、という具合である。
また、上記出現頻度に応じて定められる軸の大きさは、例えば品詞やその文字内容に応じて設定された補正テーブルなどを参照し補正するよう構成されても良い。具体的に、有害と思われる単語、例えば「グロ」などの単語は出現頻度を2倍としてその大きさを定める。あるいは「自殺」「楽な方法」などの単語の組み合わせがある場合にも同様に出現頻度を補正する、という具合である。
なお本実施例の重み付け手段においては、検索の対象がWebページ以外のものである場合には単語以外のその素性、例えば音声であれば所定周波数などの出現頻度を値としてベクトル軸の大きさを定めると良い。
<処理の流れ>
図18は、本実施例の検索装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。
この図にあるように、まず、検索クエリを受付ける(ステップS1801)と、受付けた検索クエリにヒットしたページタイトルなどをリスト化し、検索ヒットリストを取得する(ステップS1802)。つづいて検索ヒットリストのそれぞれのページに関して、例えば形態素解析を行いページ中に含まれる単語の出現頻度をカウントする。そして、その形態素を素性とし、カウントした値をその素性値としてヒット単語ベクトルを生成する(ステップS1803)。そして予め格納されている演算式を用いて、複数保持されているリファレンス単語ベクトルのそれぞれとヒット単語ベクトルとの類似度を、例えばコサイン距離などを利用して演算する(ステップS1804)。
そして、検索ヒットリスト中のページタイトルなどを、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルで示される価値指標順にソートして表示する(ステップS1805)。
<効果の簡単な説明>
以上のように本実施例の検索装置では、単語の出現頻度に応じて素性値を付与したヒット単語ベクトルを生成する。したがってベクトル特性がより明確に表現されるので、リファレンス単語ベクトルとの比較によってより厳密に類似性を判断することができるようになる。
実施例1の検索装置による検索ヒットリストのソート表示の一例を説明するための図 実施例1の検索装置における機能ブロックの一例を表す図 実施例1の検索装置のヒット単語ベクトル生成部でのヒット単語ベクトルの生成の一例を説明するための図 実施例1の検索装置のリファレンス単語ベクトル保持部にて保持されているリファレンス単語ベクトルの一例を表す図 実施例1の検索装置の類似度演算部でのリファレンス単語ベクトルとヒット単語ベクトルの類似度演算処理の一例を説明するための図 実施例1の検索装置の類似度判断による検索にヒットしたWebページへのラベル付けの一例を表す図 実施例1の検索装置におけるハードウェア構成の一例を表す図 実施例1の検索装置における処理の流れの一例を表すフローチャート 実施例2の検索装置による検索ヒットリストのソート表示の一例を説明するための図 実施例2の検索装置における機能ブロックの一例を表す図 実施例2の検索装置における処理の流れの一例を表すフローチャート 実施例3の検索装置におけるヒット単語ベクトルの生成処理の一例を説明するための図 実施例3の検索装置における機能ブロックの一例を表す図 実施例3の検索装置における処理の流れの一例を表すフローチャート 実施例4の検索装置におけるヒット単語ベクトルの生成処理の一例を説明するための図 実施例4の検索装置における機能ブロックの一例を表す図 実施例4の検索装置の重み付け手段によるヒット単語ベクトルの生成処理およびリファレンス単語ベクトルとの類似性判断処理の一例を説明するための図 実施例4の検索装置における処理の流れの一例を表すフローチャート
符号の説明
0200 検索装置
0201 ヒット単語ベクトル生成部
0202 リファレンス単語ベクトル保持部
0203 類似度演算部
0204 演算式格納部
0205 ソート表示部

Claims (8)

  1. 検索ヒットリストのそれぞれのページに含まれる文字列から抜き出される単語を素性とする単語ベクトルであるヒット単語ベクトルを生成するヒット単語ベクトル生成部と、
    価値指標を示すラベルと関連付けられたリファレンス用の単語ベクトルであるリファレンス単語ベクトルを複数保持するリファレンス単語ベクトル保持部と、
    複数保持されているリファレンス単語ベクトルのそれぞれと、ヒット単語ベクトル生成部にて生成されたヒット単語ベクトルとの類似度を演算する類似度演算部と、
    前記類似度を演算するための演算式を格納した演算式格納部と、
    ヒット単語ベクトルを生成したページの識別情報を、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示するソート表示部と、
    を有する検索装置。
  2. ヒット単語ベクトル生成部は、
    検索ヒットリスト中、上位所定順位までの検索ヒットリストに含まれるページを対象としてヒット単語ベクトルを生成する上位生成手段を有し、
    ソート表示部は、
    少なくとも上位所定順位までの検索ヒットリストについては、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示する上位ソート表示手段を有する請求項1に記載の検索装置。
  3. ヒット単語ベクトル生成部は、素性として検索ヒットリストのページのURLに含まれる文字列を利用してヒット単語ベクトルを生成するURL文字列利用手段を有する請求項1または2に記載の検索装置。
  4. ヒット単語ベクトル生成部は、ページ中に含まれている同一単語の出現頻度に応じてベクトル空間中でのその単語軸の大きさを定めたヒット単語ベクトルを生成する重み付け手段を有する請求項1から3のいずれか一に記載の検索装置。
  5. 価値指標を示すラベルと関連付けられたリファレンス用の単語ベクトルであるリファレンス単語ベクトルを複数保持するリファレンス単語ベクトル保持部を有する検索装置の制御方法であって、
    検索ヒットリストのそれぞれのページに含まれる文字列から抜き出される単語を素性とする単語ベクトルであるヒット単語ベクトルを生成するヒット単語ベクトル生成ステップと、
    予め演算式格納部に格納されている前記類似度を演算するための演算式を用いて、複数保持されているリファレンス単語ベクトルのそれぞれと、ヒット単語ベクトル生成部にて生成されたヒット単語ベクトルとの類似度を演算する類似度演算ステップと、
    ヒット単語ベクトルを生成したページの識別情報を前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示するソート表示ステップと、
    を計算機に実行させる検索装置の制御方法。
  6. ヒット単語ベクトル生成ステップは、
    検索ヒットリスト中、上位所定順位までの検索ヒットリストに含まれるページを対象としてヒット単語ベクトルを生成する上位生成ステップを含み、
    ソート表示ステップは、
    少なくとも上位所定順位までの検索ヒットリストについては、前記演算により最も類似しているとされるリファレンス単語ベクトルのラベルの価値指標に基づいてソートして表示する上位ソート表示ステップを含む請求項5に記載の検索装置の制御方法。
  7. ヒット単語ベクトル生成ステップは、素性として検索ヒットリストのページのURLに含まれる文字列を利用してヒット単語ベクトルを生成するURL文字列利用ステップを含む請求項5または6に記載の検索装置の制御方法。
  8. ヒット単語ベクトル生成ステップは、ページ中に含まれている同一単語の出現頻度に応じてベクトル空間中でのその単語軸の大きさを定めたヒット単語ベクトルを生成する重み付けステップを含む請求項5から7のいずれか一に記載の検索装置の制御方法。
JP2008232667A 2008-09-10 2008-09-10 検索装置、および検索装置の制御方法 Active JP4915021B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008232667A JP4915021B2 (ja) 2008-09-10 2008-09-10 検索装置、および検索装置の制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008232667A JP4915021B2 (ja) 2008-09-10 2008-09-10 検索装置、および検索装置の制御方法

Publications (2)

Publication Number Publication Date
JP2010067005A JP2010067005A (ja) 2010-03-25
JP4915021B2 true JP4915021B2 (ja) 2012-04-11

Family

ID=42192542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008232667A Active JP4915021B2 (ja) 2008-09-10 2008-09-10 検索装置、および検索装置の制御方法

Country Status (1)

Country Link
JP (1) JP4915021B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5527845B2 (ja) * 2010-08-20 2014-06-25 Kddi株式会社 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法
CN102254038B (zh) * 2011-08-11 2013-01-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的***及其分析方法
CN106202124B (zh) 2015-05-08 2019-12-31 广州市动景计算机科技有限公司 网页分类方法及装置
CN107015976B (zh) * 2016-01-27 2020-09-29 阿里巴巴集团控股有限公司 业务处理方法、数据处理方法及装置
US11698922B2 (en) 2018-11-02 2023-07-11 Valve Corporation Classification and moderation of text

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3654850B2 (ja) * 2000-05-17 2005-06-02 松下電器産業株式会社 情報検索システム
JP4146361B2 (ja) * 2004-01-21 2008-09-10 日本電信電話株式会社 ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
US7801887B2 (en) * 2004-10-27 2010-09-21 Harris Corporation Method for re-ranking documents retrieved from a document database
JP2006235716A (ja) * 2005-02-22 2006-09-07 Hitachi Ltd 文書フィルタリングシステム
JP4746439B2 (ja) * 2006-02-15 2011-08-10 株式会社ジャストシステム 文書検索サーバおよび文書検索方法
JP4839278B2 (ja) * 2007-01-26 2011-12-21 ヤフー株式会社 Urlの類似性分析による処理省略判定プログラム、装置

Also Published As

Publication number Publication date
JP2010067005A (ja) 2010-03-25

Similar Documents

Publication Publication Date Title
US9489450B2 (en) Method and apparatus for responding to an inquiry
JP4915021B2 (ja) 検索装置、および検索装置の制御方法
US10552467B2 (en) System and method for language sensitive contextual searching
US10423649B2 (en) Natural question generation from query data using natural language processing system
US7676462B2 (en) Method, apparatus, and program for refining search criteria through focusing word definition
KR101524889B1 (ko) 간접 화법 내에서의 시맨틱 관계의 식별
US20120290561A1 (en) Information processing apparatus, information processing method, program, and information processing system
US20080294619A1 (en) System and method for automatic generation of search suggestions based on recent operator behavior
WO2008022581A1 (fr) Procédé et dispositif d&#39;obtention de mots nouveaux et système et procédé de saisie
US20090313536A1 (en) Dynamically Providing Relevant Browser Content
AU2018250372B2 (en) Method to construct content based on a content repository
RU2631975C2 (ru) Способ и система для обработки входных команд пользователя
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
US20180293508A1 (en) Training question dataset generation from query data
CN115203445A (zh) 多媒体资源搜索方法、装置、设备及介质
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
US11150871B2 (en) Information density of documents
AT&T
JP2009151541A (ja) 検索システムにおける最適情報の提示方法
CN102375835B (zh) 一种信息搜索***和方法
KR20070008370A (ko) 예측형 키워드 제공 단말기, 시스템 및 방법
JP2005339419A (ja) Webページ評価システム及びWebページ評価方法
US20110022591A1 (en) Pre-computed ranking using proximity terms
JP2018010543A (ja) 表記揺れ用語集作成装置、検索システム、それらの方法、それらのコンピュータプログラム及びそれらのコンピュータプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111024

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4915021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250