JP2017504105A

JP2017504105A - インメモリデータベースサーチのためのシステム及び方法

Info

Publication number: JP2017504105A
Application number: JP2016536900A
Authority: JP
Inventors: スコットライトナー; フランツウェックザー; ラケシュデイヴ; サンジェイボッヅ; ジョーゼフベックネル; ビラリハキズワミ
Original assignee: キューベースリミテッドライアビリティカンパニー
Priority date: 2013-12-02
Filing date: 2014-12-02
Publication date: 2017-02-02
Also published as: CA2932401A1; CN106164889A; EP3077918A4; EP3077918A1; WO2015084759A1; KR20160124079A

Abstract

エンティティ共起知識ベースを使用して関連エンティティを識別するシステム及び方法が開示される。実施形態において、エンティティインデックス型コーパスから抽出されたエンティティのエンティティ共起知識ベースを使用してサーチ質問において識別されるエンティティを抽出して、サーチ結果を関連エンティティとして提示する。エンティティ共起知識ベースと共に曖昧スコアマッチングを使用してサーチ示唆を発生する実施形態も開示される。又、実施形態において、サーチ質問から部分エンティティを抽出し、抽出されたエンティティのタイプに基づいてマッチングアルゴリズムを実行し、そしてエンティティ共起知識ベースに対してサーチを遂行する。共起及び／又は曖昧スコアマッチングに基づいて関連エンティティのサーチ示唆を発生する実施形態も開示される。それら実施形態では、部分サーチ質問を処理しそして完全な質問の示唆を提示し、それらは、新たなサーチ質問として使用される。又、エンティティ及びトレンド共起知識ベースを使用してサーチ質問からエンティティを抽出することによりエンティティ共起を使用してサーチ示唆を発生する実施形態も開示される。又、コンテンツマネージメントシステムにおいて地理的及び名前付きエンティティベースサーチ能力を可能にする実施形態も開示される。【選択図】図１

Description

本発明は、一般的に、情報検索のための方法及びシステムに関するもので、より詳細には、エンティティ共起(co-occurrence)を使用して関連エンティティをサーチする方法に関する。本発明は、一般的に、質問の向上に関するもので、より詳細には、知識ベースにおける曖昧スコアマッチング及びエンティティ共起を使用したサーチ示唆に関する。本発明は、一般的に、コンピュータ質問処理に関するもので、より詳細には、共起及び／又は曖昧スコアマッチングに基づく関連エンティティの電子サーチ示唆に関する。本発明は、一般的に、情報検索のための方法及びシステムに関するもので、より詳細には、サーチ示唆を得るための方法に関する。本発明は、一般的に、サーチエンジン及びコンテンツマネージメントに関するもので、より詳細には、デジタルコンテンツのジオタギング及び名前付エンティティのエンリッチメントを可能にするためのコンテンツマネージメントシステムのサーチエンジン技術の拡張に関する。

商業的コンテキストでは、良く知られたサーチエンジンがサーチ用語のセットをパースし、そしてある仕方で分類されたアイテム（典型的なサーチではウェブページ）のリストを返送する。サーチを遂行するための最も知られた解決策は、通常、キーワードに基づいてインデックスを発生するのに最終的に使用されるサーチ質問データベースを構築するために他のユーザの履歴的参照に基づいている。ユーザのサーチ質問は、エンティティに関連した名前又は属性で識別される１つ以上のエンティティを含む。又、エンティティは、組織、人々、場所、及び／又は時間も含む。典型的なサーチでは、ユーザが２つの特定の組織に関連した情報をサーチする場合に、サーチエンジンは、同じ名前又は同様の名前を伴う異なるエンティティの混合物についての詰め合わせ結果を返送する。後者の解決策では、ユーザが実際に何に関心があるかに関連しない大量のドキュメントをユーザが見出すことになる。

従って、関心のある関連エンティティを見出す能力をユーザに許可する関連エンティティサーチ方法の要望が存在する。

ユーザは、インターネット又は任意のデータベースシステムのいずれかにおいて関心のある情報を位置付けするためサーチエンジンをしばしば使用する。サーチエンジンは、通常、ユーザからサーチ質問を受け取りそしてサーチ結果をユーザへ返送することによって動作する。サーチ結果は、通常、サーチ質問に対する各返送サーチ結果の関連度に基づきサーチエンジンにより順序付けされる。それ故、サーチ質問のクオリティがサーチ結果のクオリティにとって著しく重要となる。しかしながら、ユーザからのサーチ質問は、ほとんどのケースでは、不完全に又は部分的に書かれるだけで（例えば、サーチ質問は、関連結果の焦点の合ったセットを発生するに充分なワードを含まず、むしろ、多数の非関連結果を発生する）、そして時々、スペルミスもある（例えば、ＢｉｌｌＳｍｉｔｈは、誤ってＢｉｌｌＳｍｉｔｔｈと綴られる）。

サーチ結果のクオリティを改善するための１つの共通の解決策は、サーチ質問を向上させることである。サーチ質問を向上させる１つの方法は、ユーザの入力に基づいて考えられる示唆を発生することによるものである。このため、ある解決策は、１人以上のユーザにより提出された過去の質問から所与の質問に対する候補質問洗練化を識別する方法を提案する。しかしながら、この解決策は、ユーザを関心のない結果へと時々導く質問ログに基づいている。異なる技術を使用する他の解決策もあるが、充分正確ではない。従って、ユーザからのサーチ結果を改善又は向上させて、より正確な結果を得るための方法の要望が依然として存在する。

サーチ結果のクオリティを改善するための１つの共通の解決策は、サーチ質問を向上させることである。サーチ質問を向上させる１つの方法は、ユーザの入力に基づいて考えられる示唆を発生することによるものである。このため、ある解決策は、１人以上のユーザにより提出された過去の質問から所与の質問に対する候補質問洗練化を識別する方法を提案する。しかしながら、この解決策は、ユーザを関心のない結果へと時々導く質問ログに基づいている。異なる技術を使用する他の解決策もあるが、充分正確ではない。従って、ユーザからのサーチ結果を改善又は向上させて、より正確な結果を得ると共に、ユーザがサーチ質問をタイプするときに関心のある有用な関連エンティティをユーザに与えるための方法の要望が依然として存在する。

サーチエンジンは、ユーザ質問の予測を与えるため複数の特徴を備えている。そのような予測は、質問自動完全化及びサーチ示唆を含む。今日、そのような予測方法は、履歴的キーワード参照に基づくものである。そのような履歴的参照は、１つのキーワードが単一テキストにおける複数のトピックスを参照し得るので、正確でないことがある。

更に、ユーザのサーチ質問は、エンティティに関連した名前又は属性により識別される１つ以上のエンティティを含む。それらエンティティは、組織、人々、場所、イベント、日付、及び／又は時刻も含む。典型的なサーチにおいて、ユーザが２つの特定の組織に関連した情報をサーチする場合には、サーチエンジンは、同じ名前又は同様の名前を伴う異なるエンティティの混合物についての詰め合わせ結果を返送する。後者の解決策では、ユーザが実際に何に関心があるかに関連しない大量のドキュメントをユーザが見出すことになる。

従って、より迅速に且つより正確にサーチ示唆を得るための方法の要望が存在する。

ドキュメントバージョニング及びコラボレートオブジェクトマネージメントのためのコンテンツマネージメント及びドキュメントマネージメントシステムが知られている。１つの非限定例は、ＭｉｃｒｏｓｏｆｔＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）ソフトウェア及びアプリケーションというツールセットである。ＭｉｃｒｏｓｏｆｔＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）は、コラボレーション、ファイルシェア及びウェブパブリッシングのためにマイクロソフト社により開発されたソフトウェア製品のファミリーである。このＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）は、膨大な量のコンテンツ又は情報をユーザに与え、ユーザが特定の状況に対して最も関連性のある情報を見出すのを困難にする。これらの問題を軽減するために、Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）は、ユーザが必要とするコンテンツを見出す上でユーザを助けるためのサーチエンジンを提供する。ユーザは、キーワードベースのサーチ質問を入力し、そしてＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）のサーチエンジンは、コンテンツがシンデックスされたときにＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）プラットホームのコンテキスト内に見出される最も関連性のある結果のリストをユーザへ返送する。

時々、ユーザは、Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）における地理的エンティティ或いはドキュメント内で参照される組織又は人々のような他の形式のエンティティに関連したコンテンツを見出すことを希望する。Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）は、ドキュメントからエンティティを自動的に抽出するための機能をボックスから与えない。特に、地理的エンティティを抽出してそれを地理的位置に対して解明するためのジオタギングコンテンツをサポートするものではない。又、Ｓｈａｒｅｐｏｉｎｔ２０１３は、ドキュメントにおける組織又は人々のような名前付エンティティを識別し、曖昧性除去しそして抽出するためのエンティティタギングをサポートするものでもない。しかしながら、Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）のサーチは、エンティティベースのサーチファセットを含めて、有効な地理的サーチ及び他のエンティティ関連サーチを可能にするように拡張することができる。Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）の以前のバージョンは、Ｓｈａｒｅｐｏｉｎｔのための「ＦＡＳＴサーチ」を含み、ここから、サンドボックス型アプリケーションを通してコンテンツ処理パイプラインを拡張することができるが、これは、低速であると共に、アクセスできる情報が限定される。

Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）は、コンセプト抽出、関係抽出、ジオタギング、要約化及び精巧なテキスト分析、等の特殊な言語学を追加できるようにする非常にオープンなＡＰＩを導入する。従って、地理的及び他のエンティティベースのサーチを可能にするようにＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）サーチエンジンの能力を拡張する機会が存在する。

エンティティ共起を使用して関連エンティティをサーチする方法が開示される。この開示の１つの態様において、この方法は、クライアント／サーバータイプのアーキテクチャーを含むサーチシステムに使用される。ある実施形態では、サーチシステムは、ネットワーク接続を経て１つ以上のサーバー装置と通信するサーチエンジンのためのユーザインターフェイスを備えている。サーバー装置は、電子データのエンティティインデックス型コーパス、エンティティ共起知識ベースのデータベース、及びエンティティ抽出コンピュータモジュールを備えている。知識ベースは、インメモリデータベースとして構築されて、１つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体及び曖昧性除去モジュール、等の他のコンポーネントも含む。１つのサーチコントローラは、１つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。

ある実施形態において、コンピュータで実施される方法は、エンティティ抽出コンピュータにより、クライアントコンピュータから、１つ以上のエンティティを含むサーチ質問を受け取り；エンティティ抽出コンピュータにより、各々のエンティティを、共起データベースにおける各エンティティの１つ以上の共起と比較し；エンティティ抽出コンピュータにより、サーチ質問からの１つ以上のエンティティのサブセットを、共起データベースに従ってそのエンティティと電子データコーパスにおける１つ以上の関連エンティティとの共起の確度に基づきそのサブセットの各エンティティが共起データベースの信頼性スコアを越えるとの決定に応答して、抽出し；エンティティ抽出コンピュータにより、インデックス識別子（インデックスＩＤ）をその複数の抽出されたエンティティにおけるエンティティの各々に指定し；エンティティ抽出コンピュータにより、その複数の抽出されたエンティティの各々に対してインデックスＩＤを電子データコーパスにセーブし、電子データコーパスは、１つ以上の関連エンティティの各々に対応するインデックスＩＤによりインデックスされるものであり；サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも２つが共起するデータレコードのインデックスＩＤを識別するためにエンティティインデックス型の電子データコーパスをサーチし；及びサーチサーバーコンピュータにより、その識別されたインデックスＩＤに対応するデータレコードを有するサーチ結果リストを構築する；ことを含む。

ある実施形態において、システムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する１つ以上のプロセッサを有する１つ以上のサーバーコンピュータを備え、これは、サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、該エンティティ抽出モジュールは、更に、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける１つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、複数の抽出されたエンティティにおける各エンティティにインデックス識別子（インデックスＩＤ）を指定し、複数の抽出されたエンティティの各々に対するインデックスＩＤを電子データコーパスにセーブし、この電子データコーパスは、１つ以上の関連エンティティの各々に対応するインデックスＩＤによりインデックスされるものであるように構成され；及び更に、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも２つが共起するデータレコードのインデックスＩＤを識別するためにエンティティインデックス型の電子データコーパスをサーチするように構成されたサーチサーバーモジュールを備え、このサーチサーバーモジュールは、更に、その識別されたインデックスＩＤに対応するデータレコードを有するサーチ結果リストを構築するように構成される。

別の実施形態において、非一時的なコンピュータ読み取り可能な媒体は、エンティティ抽出コンピュータにより、サーチ質問パラメータのユーザ入力を受け取り；エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける１つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し；エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティにインデックス識別子（インデックスＩＤ）を指定し；エンティティ抽出コンピュータにより、複数の抽出されたエンティティの各々に対するインデックスＩＤを電子データコーパスにセーブし、この電子データコーパスは、１つ以上の関連エンティティの各々に対応するインデックスＩＤによってインデックスされるものであり；サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも２つが共起するデータレコードのインデックスＩＤを識別するためにエンティティインデックス型の電子データコーパスをサーチし；及びサーチサーバーコンピュータにより、その識別されたインデックスＩＤに対応するデータレコードを有するサーチ結果リストを構築する；ことを含むコンピュータ実行可能なインストラクションを記憶している。

知識ベースにおける曖昧スコアマッチング及びエンティティ共起を使用することによりサーチ示唆を発生する方法が開示される。この開示の１つの態様において、この方法は、クライアント／サーバー型のアーキテクチャーを含むサーチシステムに使用される。ある実施形態において、このサーチシステムは、ネットワーク接続を経て１つ以上のサーバー装置と通信するサーチエンジンに対するユーザインターフェイスを備えている。サーバー装置は、エンティティ抽出コンピュータモジュール、曖昧スコアマッチングコンピュータモジュール、及びエンティティ共起知識ベースのデータベースを備えている。知識ベースは、インメモリデータベースとして構築され、そして１つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去コンピュータモジュールのような他のハードウェア及び／又はソフトウェアコンポーネントも備えている。あるサーチコントローラは、１つ以上のサーチノードに選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。

この開示の別の態様において、この方法は、サーチ質問がエンティティを参照するかどうか識別し、もしそうであれば、どんな形式のエンティティを参照するか識別するため、与えられたサーチ質問から部分エンティティ抽出を遂行するエンティティ抽出モジュールを含む。更に、この方法は、抽出されたエンティティの形式に基づきアルゴリズムをスポーンし、そしてエンティティ共起知識ベースに対してサーチを遂行する曖昧スコアマッチングモジュールを含む。更に、エンティティに対応するものとして検出されない質問テキスト部分は、エンティティ共起知識ベースをサーチするのに使用できるトピックス、ファセット及びキーフレーズのような概念的特徴として処理される。一実施形態において、エンティティ共起知識ベースは、エンティティが、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、又はエンティティ対ファセットとしてインデックスされるレポジトリを含み、これは、速く正確な示唆をユーザへ返送してサーチ質問を完成するのを促進する。

ある実施形態において、方法が開示される。この方法は、エンティティ抽出コンピュータにより、ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取り；エンティティ抽出コンピュータにより、サーチ質問パラメータを、電子データコーパスにおける１つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて１つ以上のエンティティに対応する少なくとも１つのエンティティ形式を識別することにより、サーチ質問パラメータから１つ以上のエンティティを抽出し；及び曖昧スコアマッチングコンピュータにより、サーチ質問パラメータに関連した１つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも１つの識別されたエンティティ形式に対応する。この方法は、更に、曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき１つ以上のレコードから１つ以上の示唆されたサーチ質問パラメータを形成し；及び曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て１つ以上の示唆されたサーチ質問パラメータを提示する；ことを含む。

別の実施形態において、システムが提供される。このシステムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する１つ以上のプロセッサを有する１つ以上のサーバーコンピュータを備え、これは、ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、そのエンティティ抽出モジュールは、サーチ質問パラメータを、電子データコーパスにおける１つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて１つ以上のエンティティに対応する少なくとも１つのエンティティ形式を識別することにより、サーチ質問パラメータから１つ以上のエンティティを抽出するように更に構成される。このシステムは、更に、サーチ質問パラメータに関連した１つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成された曖昧スコアマッチングモジュールを備え、その曖昧マッチングモジュールは、少なくとも１つの識別されたエンティティ形式に対応する。その曖昧スコアマッチングモジュールは、更に、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき１つ以上のレコードから１つ以上の示唆されたサーチ質問パラメータを形成し、及びユーザインターフェイスを経て１つ以上の示唆されたサーチ質問パラメータを提示するように構成される。

共起及び／又は曖昧スコアマッチングに基づいて関連エンティティのサーチ示唆を発生する方法が開示される。この開示の１つの態様において、この方法は、クライアント／サーバー型アーキテクチャーを含むコンピュータサーチシステムに使用される。ある実施形態において、このサーチシステムは、ネットワーク接続を経て１つ以上のサーバー装置と通信するサーチエンジンに対するユーザインターフェイスを備えている。サーバー装置は、エンティティ抽出モジュール及び曖昧スコアマッチングモジュール並びにエンティティ共起知識ベースのデータベースを含む複数の特殊目的のコンピュータモジュールに対するインストラクションを実行する１つ以上のプロセッサを備えている。知識ベースは、インメモリデータベースとして構築され、そして１つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのような他のコンポーネントも含む。あるサーチコントローラは、１つ以上のサーチノードに選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをそれに関連したサーチコントローラへ返送することができる。

この開示の別の態様において、この方法は、エンティティ抽出モジュールにより、与えられたサーチ質問から部分エンティティ抽出を遂行して、サーチ質問がエンティティを指すかどうか識別し、もしそうであれば、エンティティの形式を決定することを含む。更に、この方法は、曖昧スコアマッチングモジュールにより、抽出されたエンティティの形式に対応するアルゴリズムを発生し、そしてエンティティ共起知識ベースに対してサーチを遂行することを含む。更に、エンティティとして検出されない質問テキスト部分は、エンティティ共起知識ベースをサーチするのに使用できるトピックス、ファセット及びキーフレーズのような概念的特徴として処理される。エンティティが、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、又はエンティティ対ファセットとしてインデックスされるレポジトリを既に有するエンティティ共起知識ベースは、速く正確な示唆をユーザへ返送してサーチ質問を完成する

この開示の更に別の態様では、完成されたサーチ質問は、新たなサーチ質問として使用される。サーチシステムは、新たなサーチ質問を処理し、エンティティ抽出を実行し、エンティティ共起知識ベースからの最も高いスコアをもつ関連エンティティを見出し、そしてその関連エンティティをユーザにとって有用なドロップダウンリストに提示する。

ある実施形態において、方法が開示される。この方法は、エンティティ抽出コンピュータにより、ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取り、その部分サーチ質問パラメータは、少なくとも１つの未完成のサーチ質問パラメータを有するものであり；エンティティ抽出コンピュータにより、その部分サーチ質問パラメータを、電子データコーパスにおいて１つ以上の第１エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける１つ以上の第１エンティティに対応する少なくとも１つのエンティティ形式を識別することにより、部分サーチ質問パラメータから１つ以上の第１エンティティを抽出し；及び曖昧スコアマッチングコンピュータにより、部分サーチ質問パラメータに関連した１つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも１つの識別されたエンティティ形式に対応するものである。この方法は、更に、曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき１つ以上のレコードから１つ以上の第１の示唆されたサーチ質問パラメータを形成し；曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て１つ以上の第１の示唆されたサーチ質問パラメータを提示し；エンティティ抽出コンピュータにより、完成したサーチ質問パラメータを形成するために１つ以上の第１の示唆されたサーチ質問パラメータのユーザ選択を受け取り；及びエンティティ抽出コンピュータにより、その完成したサーチ質問パラメータから１つ以上の第２のエンティティを抽出することを更に含む。この方法は、更に、エンティティ抽出コンピュータにより、その１つ以上の第２のエンティティに関連した１つ以上のエンティティを識別して１つ以上の第２の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし；及びエンティティ抽出コンピュータにより、ユーザインターフェイスを経て１つ以上の第２の示唆されたサーチ質問パラメータを提示する；ことを含む。

別の実施形態において、システムが開示される。このシステムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する１つ以上のプロセッサを有する１つ以上のサーバーコンピュータを備え、これは、ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、その部分サーチ質問パラメータは、少なくとも１つの未完成のサーチ質問パラメータを有するものであり、エンティティ抽出モジュールは、更に、その部分サーチ質問パラメータを、電子データコーパスにおいて１つ以上の第１エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける１つ以上の第１エンティティに対応する少なくとも１つのエンティティ形式を識別することにより、部分サーチ質問パラメータから１つ以上の第１エンティティを抽出するように構成される。このシステムは、更に、部分サーチ質問パラメータに関連した１つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成され、その曖昧マッチングアルゴリズムは、少なくとも１つの識別されたエンティティ形式に対応するものである。曖昧スコアマッチングモジュールは、更に、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づいて１つ以上のレコードから１つ以上の第１の示唆されたサーチ質問パラメータを形成し、及びユーザインターフェイスを経て１つ以上の第１の示唆されたサーチ質問パラメータを提示するように構成される。加えて、エンティティ抽出モジュールは、更に、完成したサーチ質問パラメータを形成するため１つ以上の第１の示唆されたサーチ質問パラメータのユーザ選択を受け取り、その完成したサーチ質問パラメータから１つ以上の第２のエンティティを抽出し、その１つ以上の第２のエンティティに関連した１つ以上のエンティティを識別して１つ以上の第２の示唆されたサーチ質問パラメータを形成するためエンティティ共起データベースをサーチし、及びユーザインターフェイスを経て１つ以上の第２の示唆されたサーチ質問パラメータを提示する、ように構成される。

エンティティ及び特徴共起を使用してエンティティに関連したサーチ示唆を得る方法が開示される。この開示の１つの態様において、この方法は、クライアント／サーバー型のアーキテクチャーを含むサーチシステムに使用される。

１つ以上のサーバーに記憶されたエンティティを使用する方法を使用するサーチシステムは、エンティティデータベース及びトレンドデータベースを許す。そのようなデータベースのエンティティは、高いスコアに基づいてインデックスするためのスコアを有する。サーチ示唆を得るための方法は、サーチ示唆の単一リストを発生するために両データベースに記憶された情報を結合する。トレンドデータベースは、ローカルネットワーク及び／又はインターネットにおいて１人以上のユーザからの以前にサーチ質問を与える。エンティティデータベースは、ローカルネットワーク及び／又はインターネットにおいて利用可能な複数のデータからのエンティティ抽出に基づきサーチ示唆を与える。このリストは、ユーザのための示唆のより正確且つ迅速なグループを与える。

ある実施形態において、コンピュータで実施される方法は、コンピュータにより、１つ以上のデータストリングを含むサーチ質問をサーチエンジンから受け取り、各々のエンティティは、１つ以上のストリングのサブセットに対応し；コンピュータにより、エンティティデータベース及びトレンドデータベースに対して１つ以上のエンティティを比較することに基づき１つ以上のデータストリングにおける１つ以上のエンティティを識別し；コンピュータにより、少なくとも１つのエンティティに対応するものとして識別されない１つ以上のデータストリングにおいて１つ以上の特徴を識別し；コンピュータにより、１つ以上の特徴の各々を、マッチングアルゴリズムに基づき１つ以上のエンティティの少なくとも１つに指定し；コンピュータにより、各エンティティに指定された各々の特徴に指定されたスコアに基づき各々のエンティティに抽出スコアを指定し；コンピュータにより、各エンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する１つ以上のエンティティを含む第１のサーチリストをエンティティデータベースから受け取り；コンピュータにより、各エンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する１つ以上のエンティティを含む第２のサーチリストをトレンドデータベースから受け取り；コンピュータにより、第１のサーチリスト及び第２のサーチリストを含む総計リストを発生し、その総計リストのエンティティは、各総計リストのスコアに従ってランク付けされ；及びコンピュータにより、その総計リストに従って示唆されるサーチを与える；ことを含む。

ここに開示されるのは、ＭｉｃｒｏｓｏｆｔＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）のようなコンテンツマネージメントシステムにおいて地理的エンティティベースのサーチを可能にするシステム及び方法である。実施形態で述べる方法は、地理的タギングウェブサーバーを追加することによってＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）サーチアーキテクチャーを拡張することを含む。このシステムは、コンピュータメモリ及び１つ以上のＩ／Ｏ装置に作動的に関連したコンピュータプロセッサを備え、ここで、プロセッサ及びメモリは、１つ以上のＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）プロセスを動作するように構成される。又、このシステムは、コンピュータメモリ及び１つ以上のＩ／Ｏ装置に作動的に関連した別のコンピュータプロセッサも備え、ここで、プロセッサ及びメモリは、ジオタギングウェブサービスをホストしそしてその処理を与えるように構成される。Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）システムは、コンテンツのサーチを可能にするために、クローリングコンポーネント、コンテンツ処理コンポーネント、及びサーチインデックスコンポーネントを含む。Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）サーチにおけるコンテンツ処理コンポーネントは、コンテンツエンリッチメントウェブサーバー（ＣＥＷＳ）特徴を使用することによりその機能を拡張することができる。

この方法は、コンテンツ処理のために送られるクロールプロパティのアレイを得るために異なるソースからのクローリングコンテンツを含む。コンテンツの処理中に、トリガー状態は、オリジナルコンテンツを付加的な地理的メタデータプロパティでエンリッチするために付加的な処理からクロールプロパティに利益が得られるかどうか決定する。クロールプロパティが付加的な処理から利益を得ない場合には、クロールプロパティは、管理される処理へとマップされそしてサーチインデックスへ送られる。クロールプロパティが、外部ウェブサービス処理から利益を得る場合には、ＣＥＷＳがハイパーテキスト転送プロトコル（ＨＴＴＰ）又は他のウェブサービスコール方法を使用して構成可能なエンドポイントへ単純なオブジェクトアクセスプロトコル（ＳＯＡＰ）要求をなす。エンティティエンリッチメントサービスは、コンテンツの形式を決定する。コンテンツが画像フォーマットである場合には、ファイル位置のようなそのメタデータが光学的文字認識（ＯＣＲ）エンジンへ送られて、オリジナルドキュメントが検索され、非同期で処理されてテキストへと変換され、そしてクロールコンポーネントへ返送されて、テキストフォーマットで再クロールされる。コンテンツがテキストフォーマットである場合には、ジオタギングウェブサービスが地理的メタデータを識別し、そしてそれを、管理されるプロパティとしてコンテンツに関連付ける。コンテンツは、ジオタギングされた後に、インデックスコンポーネントへ送られる。

Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）ウェブ部分を使用するか、又はＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）サーチの標準レイアウトを、とりわけ、ＨＴＭＬ、ＨＴＭＬ５、ＪａｖａＳｃｒｉｐｔ（登録商標）及びＣＳＳのような標準ウェブ開発ツールで変更することにより、付加的なサーチユーザインターフェイス（ＵＩ）が追加される。サーチＵＩは、例えば、これに限定されないが、デジタルマップのようなデジタル地理的特徴を使用して地理的サーチ質問を遂行するか又は地理的サーチ結果を表示する上でユーザの助けとなる。又、サーチＵＩは、付加的な、エンリッチされたエンティティ又はそれに関連したメタデータを使用してファセットサーチを遂行するように向上を図ることもできる。

以下の詳細な説明から、この開示の多数の他の観点、特徴、及び利益が明らかとなるであろう。

本開示は、添付図面を参照することにより良く理解することができる。図面中のコンポーネントは、必ずしも、正しい縮尺ではなく、むしろ、本開示の原理を示すときには強調されている。図中、参照番号は、異なる図面全体を通して対応部分を示している。

本発明のある実施形態が動作するコンピュータシステムの規範的な環境を示すブロック図である。一実施形態によりエンティティ共起を使用してサーチする方法を示すフローチャートである。システムによって返送されるサーチ結果が関心のある関連エンティティを含む簡単なサーチの実施形態を示すフローチャートである。本発明のある実施形態が動作する規範的なシステム環境を示すブロック図である。一実施形態により知識ベースにおける曖昧スコアマッチング及びエンティティ共起を使用してサーチ示唆を与える方法を示すフローチャートである。図４−６の知識ベースにおける曖昧マッチング及びエンティティ共起を使用してサーチ示唆を発生するユーザインターフェイスの一例を示す図である。本発明のある実施形態が動作する規範的なシステム環境を示すブロック図である。一実施形態により共起及び／又は曖昧スコアマッチングに基づき関連エンティティのサーチ示唆を発生する方法を示すフローチャートである。図８に示す方法に関連したユーザインターフェイスの規範的実施形態である。エンティティ及びトレンドデータベースに基づきサーチ示唆を得る方法を示すブロック図である。各データベースにおけるサーチ示唆の個々のスコアに基づき示唆のリストを発生することにより、エンティティ及びトレンドデータベースに基づきサーチ示唆を得る方法を示すブロック図である。両データベースにおけるサーチ示唆の全スコアに基づき示唆のリストを発生することにより、エンティティ及びトレンドデータベースに基づきサーチ示唆を得る方法を示すブロック図である。コンテンツマネージメントシステムにおけるコンテンツのタギング及びエンティティエンリッチメントのシステムアーキテクチャーである。名前付き及び地理的エンティティサーチのためにコンテキストをタギング及びインデックスするプロセスを示す。

定義
ここで使用する次の用語は、次のような定義を有する。

エンティティ抽出」は、名前、場所及び組織のような情報を抽出するための情報処理方法を指す。

「コーパス」は、１つ以上のドキュメントの集合体を指す。

「特徴(Features)」は、ドキュメントから少なくとも一部分導出される情報である。

「イベントコンセプトストア」は、イベントテンプレートモデルのデータベースを指す。

「イベント」は、少なくともリアルタイムでの特徴発生により特徴付けられる１つ以上の特徴を指す。

「イベントモデル」は、特定形式のイベントに対して比較しそしてそれを識別するのに使用されるデータの集合体を指す。

「モジュール」は、少なくとも１つ以上のタスクを実行するのに適したコンピュータ又はソフトウェアコンポーネントを指す。

「特徴属性」は、特徴に関連したメタデータ、例えば、とりわけ、ドキュメントにおける特徴の位置、信頼スコアを指す。

「ファクト」は、特徴と特徴との間の客観的な関係を指す。

「エンティティ知識ベース」は、特徴／エンティティを含むコンピュータデータベースを指す。

「質問」は、１つ以上の適当なデータベースから情報を検索するための、コンピュータで発生される要求を指す。

「トピックス」は、コーパスから少なくとも一部分導出されるセマティック情報のセットを指す。

「ジオタギング」は、非構造化テキストファイルから地理的エンティティを抽出するプロセスを指す。ジオタギングは、エンティティを、特定の地理的場所及び付属の地理的メタデータ、例えば、地理的座標、地理的特徴形式及び他のメタデータへと曖昧性除去することを含む。

「エンティティタギング」は、非構造化テキストから名前付きエンティティを抽出するプロセスを指す。エンティティタギングは、エンティティ曖昧性除去、エンティティ名前正規化、及び付属のエンティティメタデータを含む。

「名前付きエンティティ」は、個人、組織又はトピックスを指す。

「地理的エンティティ」は、地理的位置又は地理的場所を指す。

「クロールされたプロパティ」は、クロール中にドキュメントを検査することから得られるコンテンツマネージメントシステムメタデータを指す。

詳細な説明
添付図面に各々示された好ましい実施形態を以下に詳細に説明する。上述した実施形態は、例示に過ぎない。当業者であれば、ここに述べる特定の実施例について、本発明の範囲内で、多数の別のコンポーネント及び実施形態に置き換えできることが認識されよう。本発明の精神又は範囲から逸脱せずに、他の実施形態が使用されてもよく及び／又は他の変更がなされてもよい。詳細な説明に述べる例示的実施形態は、ここに提示される要旨の限界を意味するものではない。

それでも、本発明の範囲の制限が意図されないことを理解されたい。ここに示す本発明の特徴の代替的及び更に別の実施形態、並びにここに示す本発明の原理の付加的な適用であって、当業者に対して生じ且つ本開示を所有するものは、本発明の範囲内であると考えるべきである。

本開示は、複数のソースからイベントを検出し、抽出し及び有効化するためのシステム及び方法について述べる。ソースは、ニュースソース、ソーシャルメディアウェブサイト、及び／又はイベントに関するデータを含むソースを包含する。

ここに開示するシステム及び方法の種々の実施形態は、独立したイベントを識別するために異なるソースからデータを収集する。

図１は、本発明によるサーチシステム１００のブロック図である。サーチシステム１００は、サーチシステム１００に関連したソフトウェアモジュールを実行するプロセッサを含む１つ以上のクライアントコンピューティング装置を備え、それに含まれるグラフィックユーザインターフェイス１０２は、サーチエンジン１０４にアクセスし、ネットワーク１０８を経てサーバー装置１０６とバイナリデータの形態でサーチ質問を通信する。規範的実施形態では、サーチシステム１００は、クライアント／サーバーコンピューティングアーキテクチャーにおいて実施される。しかしながら、サーチシステム１００は、他のコンピュータアーキテクチャー（例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、アプリケーションサービスプロバイダー（ＡＳＰ）モデル、ピア・ツー・ピアモデル、等）を使用して実施されてもよい。ネットワーク１０８は、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等のように、コンピューティング装置間でデジタルデータを通信できる適当なハードウェア及びソフトウェアモデルを備えている。従って、システム１００は、単一のネットワーク１０８を経て、又は複数のネットワーク１０８を使用して実施されてもよいことが明らかであろう。

ユーザのコンピューティング装置１０２は、サーチ質問を送信できるソフトウェアモデルを含むサーチエンジン１０４にアクセスする。サーチ質問は、検索することが望まれる情報を指示するためにサーチエンジン１０４に与えられるパラメータである。サーチ質問は、サーチエンジン１０４のパース及び処理ルーチンに適合する適当なデータフォーマット（例えば、整数、ストリング、複素数オブジェクト）でユーザ又は別のソフトウェアアプリケーションにより与えられる。ある実施形態では、サーチエンジン１０４は、ユーザのコンピューティング装置１０２のブラウザ又は他のソフトウェアアプリケーションを通してアクセスでき且つユーザ又はソフトウェアアプリケーションがワールドワイドウェブにおいて情報を位置付けできるようにするウェブベースのツールである。ある実施形態では、サーチエンジン１０４は、システム１００に対してネーティブなもので、ユーザ又はアプリケーションがシステム１００のデータベース内の情報を位置付けできるようにするアプリケーションソフトウェアモジュールである。

単一のサーバー装置１０６として実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーで実施されるサーバー装置１０６は、エンティティ抽出モジュール１１０、エンティティ共起知識ベース１１２、及びエンティティインデックス型コーパス１１４を備えている。エンティティ抽出モジュール１１０は、質問ストリング、構造化データ、等の所与の質問セットから独立エンティティを抽出しそして曖昧性除去することのできるコンピュータソフトウェア及び／又はハードウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び／又は時刻である。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。

種々の実施形態によれば、エンティティ共起知識ベース１１２は、これに限定されないが、インメモリコンピュータデータベース（図示せず）として構築され、そして１つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去コンピュータモジュールのような他のコンポーネント（図示せず）を含む。あるサーチコントローラは、１つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。

エンティティ共起知識ベース１１２は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。エンティティインデックス型コーパス１１４は、大量コーパス又はライブコーパスを有するインターネットのような複数のソースからのデータを含む。

図２は、図１に示されたようなサーチシステム１００において実施されるエンティティ共起を使用して関連エンティティをサーチする方法２００を示すフローチャートである。種々の実施形態によれば、方法２００を開始する前に、図１に示したものと同様のエンティティインデックス型コーパス１１４には、電子データの大量コーパス又はライブコーパスのような複数のソース（例えば、インターネット、ウェブサイト、ブログ、ワード処理ファイル、平易テキストファイル）からのデータが供給されている。エンティティインデックス型コーパス１１４は、新たなデータが発見されるにつれて常時更新される複数のインデックスされたエンティティを含む。

ある実施形態では、方法２００は、ステップ２０２において、コンピューティング装置１０２のユーザ又はソフトウェアアプリケーションが１つ以上のエンティティを含む１つ以上のサーチ質問をサーチエンジン１０４に与えるときにスタートする。ステップ２０２において与えられたサーチ質問は、サーチシステム１００により、そのたびに、１からｎまで処理される。ステップ２０２におけるサーチ質問は、例えば、ストリング、構造化データ、又は他の適当なデータフォーマットのようなキーワードの組み合わせである。図２の規範的実施形態では、サーチ質問のキーワードは、人々、組織、地理的位置、日付及び／又は時刻を表わすエンティティである。

ステップ２０２からのサーチ質問は、次いで、ステップ２０４において、エンティティ抽出のために処理される。このステップでは、エンティティ抽出モジュール１１０は、ステップ２０２からのサーチ質問をエンティティとして処理し、そしてそれらを全てエンティティ共起知識ベース１１２に対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。

更に、特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。エンティティが抽出されそして信頼性スコアに基づいてランク付けされると、ある場合には番号であるインデックスＩＤが、ステップ２０６において、抽出されたエンティティに指定される。

次いで、ステップ２０８において、ステップ２０６で指定されたエンティティインデックスＩＤに基づくサーチが遂行される。サーチステップ２０８において、抽出されたエンティティは、標準的なインデックス方法を使用してエンティティインデックス型コーパス１１４内に位置付けられる。抽出されたエンティティが位置付けられると、エンティティ関連付けステップ２１０へと続く。エンティティ関連付けステップ２１０では、少なくとも２つの抽出されたエンティティが重畳するところのドキュメント、ビデオ、ピクチャー、ファイル、等の全てのデータがエンティティインデックス型コーパス１１４から引き出される。最後に、ステップ２１２において、潜在的な結果のリストが構築され、関連度により分類され、そしてサーチ結果としてユーザに提示される。結果のリストは、次いで、ユーザが関心のある関連エンティティを見出すところのデータへのリンクだけを示す。

図３は、図２に関連して上述したように、エンティティ共起を使用して関連エンティティをサーチするための方法３００の特定例である。図２について述べたように、種々の実施形態によれば、方法３００の開始の前に、図１で述べたものと同様のエンティティインデックス型コーパス１１４には、大量コーパス又はライブコーパスのような複数のソース（インターネット）からのデータが供給されている。エンティティインデックス型コーパス１１４は、新たなデータが発見されるにつれて常時更新される複数のインデックスされたエンティティを含む。

この規範的な実施形態では、ユーザは、会社「Ａｐｐｌｅ」の「Ｊｏｂｓ」に関する情報を探索する。このため、ユーザは、ユーザインターフェイス１０２を通して１つ以上のエンティティ（例えば、ステップ３０２におけるサーチ質問）を入力し、ユーザインターフェイスは、これに限定されないが、図１について述べたようなサーチエンジン１０４を伴うインターフェイスである。例示であって、これに限定されないが、ユーザは、「Ａｐｐｌｅ＋Ｊｏｂｓ」のようなエンティティの組み合わせを入力する。次いで、サーチエンジン１０４は、ステップ３０２において、サーチ質問を発生し、そしてそれら質問を処理のためにサーバー装置１０６に送る。サーバー装置１０６において、エンティティ抽出モジュール１１０は、ステップ３０２のサーチ質問入力からステップ３０４のエンティティ抽出を遂行する。

エンティティ抽出モジュール１１０は、次いで、ステップ３０２で入力されたサーチ質問、例えば、「Ａｐｐｌｅ」及び「Ｊｏｂｓ」をエンティティとして処理し、そしてそれらを全てエンティティ共起知識ベース１１２に対して比較し、できるだけ多数のエンティティを抽出しそして曖昧性除去する。抽出中、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを示すスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。

更に、特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づいて、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。その結果として、エンティティ及び共起を含むテーブル３０６が生成される。テーブル３０６は、エンティティ「ａｐｐｌｅ」及びその共起、この場合には、Ａｐｐｌｅ及びＪｏｂｓ、Ａｐｐｌｅ及びＳｔｅｖｅＪｏｂｓを示す。又、テーブル３０６は、Ａｐｐｌｅ及びＯｒｇａｎｉｚａｔｉｏｎＡも含み、これは、ＯｒｇａｎｉｚａｔｉｏｎＡがＡｐｐｌｅとビジネスを行い且つ前記ＯｒｇａｎｉｚａｔｉｏｎＡに「ｊｏｂｓ」を発生するので関連性があると分かっている。他の共起は、低い重要度で見出される。従って、Ａｐｐｌｅ及びＪｏｂｓは、最も高いスコア（１）を有し、従って、最上位にリストされ、次いで、Ａｐｐｌｅ及びＳｔｅｖｅＪｏｂｓは、第２の最も高いスコア（０．８）を有し、そして最後に、Ａｐｐｌｅ及び他のＯｒｇａｎｉｚａｔｉｏｎＡは、最も低いスコア（０．３）で最も下にリストされる。

エンティティが抽出されそして信頼性スコアに基づきランク付けされると、ある場合に数字でもよいインデックスＩＤが、ステップ３０８において、抽出されたエンティティに指定される。テーブル３１０は、抽出されたエンティティに指定されるインデックスＩＤを示している。従って、テーブル３１０は、「Ａｐｐｌｅ」をインデックスＩＤ１と共に示し、「Ｊｏｂｓ」をインデックスＩＤ２と共に示し、「ＳｔｅｖｅＪｏｂｓ」をインデックスＩＤ３と共に示し、そして「Ｏｒｇａｎｉｚａｔｉｏｎ」をインデックスＩＤ４と共に示している。

次いで、エンティティインデックスＩＤ（３０８）に基づくサーチステップ３１２が遂行される。サーチステップ３１２において、「Ａｐｐｌｅ」「Ｊｏｂｓ」「ＳｔｅｖｅＪｏｂｓ」及び「ＯｒｇａｎｉｚａｔｉｏｎＡ」のような抽出されたエンティティは、標準的なインデックス方法を使用して、エンティティインデックス型コーパス１１４内に位置付けられる。

エンティティインデックス型コーパス１１４内に抽出されたエンティティを位置付けした後に、エンティティ関連付けステップ３１４へと続く。エンティティ関連付けステップ３１４では、少なくとも２つの抽出されたエンティティが重畳するところのドキュメント、ビデオ、ピクチャー、ファイル、等の全てのデータがエンティティインデックス型コーパス１１４から引き出されて、リンクのリストをサーチ結果として構築する（ステップ３１８）。例示であって、これに限定されないが、テーブル３１６は、抽出されたエンティティがエンティティインデックス型コーパス１１４のデータにどれほど関連付けられるか示している。テーブル３１６において、ドキュメント１、４、５、７、８及び１０は、２つの抽出されたエンティティの重畳を示し、従って、それらドキュメントのためのリンクは、ステップ３１８において、サーチ結果として示される。

図４は、本発明によるサーチコンピュータシステム４００のブロック図である。サーチシステム４００は、ネットワーク４０８を経てサーバー装置４０６と通信するサーチエンジン４０４への１つ以上のユーザインターフェイス４０２を備えている。この実施形態では、サーチシステム４００は、クライアント／サーバー形式のアーキテクチャーを経ることを含めて、以下に述べる１つ以上の特殊目的コンピュータ及びコンピュータモジュールにおいて実施される。しかしながら、サーチシステム４００は、他のコンピュータアーキテクチャー（例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ＡＳＰモデル、ピア・ツー・ピアモデル、等）を使用して実施されてもよい。一実施形態では、サーチコンピュータシステム４００は、複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を含む。

サーチエンジン４０４は、ユーザがワールドワイドウェブに情報を位置付けできるようにするウェブベースツールのようなユーザインターフェイスを含む。又、サーチエンジン４０４は、ユーザが内部データベースシステム内に情報を位置付けられるようにするユーザインターフェイスツールも含む。単一のサーバー装置４０６において実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーにおいて実施されるサーバー装置４０６は、エンティティ抽出モジュール４１０、曖昧スコアマッチングモジュール４１２、及びエンティティ共起知識ベースのデータベース４１４を含む。

エンティティ抽出モジュール４１０は、質問ストリング、部分質問、構造化データ、等の所与の質問セットから独立エンティティをオンザフライで抽出しそして曖昧性除去するように構成されたハードウェア及び／又はソフトウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び／又は時刻である。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。

曖昧スコアマッチングモジュール４１２は、所与のサーチ質問から抽出されるエンティティの形式に従って選択される複数のアルゴリズムを含む。アルゴリズムの機能は、ユーザ入力を経て受け取った所与のサーチ質問及びアルゴリズムにより識別される他のサーチされたストリングが互いに同様であるかどうか又は所与のパターンストリングにほぼ一致するかどうか決定することである。又、曖昧マッチングは、曖昧ストリングマッチング、厳密でないマッチング、及びおおよそのマッチングとしても知られている。エンティティ抽出モジュール４１０及び曖昧スコアマッチングモジュール４１２は、エンティティ共起知識ベース４１４に関連して働いて、ユーザのためのサーチ示唆を発生する。

種々の実施形態によれば、エンティティ共起知識ベース４１４は、これに限定されないが、インメモリコンピュータデータベースとして構築され、そして１つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのようなコンポーネントを含む。あるサーチコントローラは、１つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。

エンティティ共起知識ベース４１４は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。

図５は、知識ベースにおいて曖昧スコアマッチング及びエンティティ共起を使用してサーチ示唆を発生する方法５００を示すフローチャートである。この方法５００は、図４に示すものと同様のサーチシステム４００において実施される。

ある実施形態において、方法５００は、ステップ５０２において、ユーザが図４に示したサーチエンジンインターフェイス４０２へサーチ質問をタイプし始めるときに始まる。ステップ５０２においてサーチ質問がタイプされるときに、サーチシステム４００は、オンザフライプロセスを遂行する。種々の実施形態によれば、ステップ５０２のサーチ質問入力は、完全であるか又は部分的であり、正しいスペルであるか又はスペルミスがある。その後、サーチシステム４００において、ステップ５０２のサーチ質問入力からの部分エンティティ抽出ステップ５０４が遂行される。部分エンティティ抽出ステップ５０４は、エンティティ共起知識ベース４１４に対してクイックサーチを実行して、ステップ５０２で入力されたサーチ質問がエンティティであるかどうか識別し、もしそうであれば、どんなタイプのエンティティであるか識別する。種々の実施形態によれば、ステップ４０２のサーチ質問入力は、とりわけ、個人、組織、位置又は場所、及び日付を指す。サーチ質問入力のエンティティタイプが識別されると、曖昧スコアマッチングモジュール４１２が、ステップ５０６において、それに対応する曖昧マッチングアルゴリズムを選択する。例えば、サーチ質問が、個人を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール４１２は、例えば、ファーストネーム、ミドルネーム、ラストネーム、及び肩書きを含む個人の名前の異なるコンポーネントを抽出することにより、個人のためのストリングマッチングアルゴリズムを選択する。別の実施形態では、サーチ質問が組織を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール４１２は、学校、大学、企業、会社、等の識別用語を含む組織のためのストリングマッチングアルゴリズムを選択する。曖昧スコアマッチングモジュール４１２は、次いで、卓越したサーチのためにサーチ質問入力における識別されたエンティティのタイプに対応するストリングマッチングアルゴリズムを選択する。ストリングマッチングアルゴリズムがその識別されたエンティティのタイプに対して調整されると、曖昧スコアマッチングステップ５０８が遂行される。

曖昧スコアマッチングステップ５０８では、抽出されたエンティティ（１つ又は複数）及び非エンティティが選択されて、エンティティ共起知識ベース４１４に対して比較される。抽出されたエンティティ（１つ又は複数）は、個人の不完全な名前、例えば、とりわけ、ファーストネーム及びラストネームの最初の文字、組織の省略形、例えば、「ＵｎｉｔｅｄＮａｔｉｏｎ」を意味する「ＵＮ」、短縮形、及びニックネームを含む。エンティティ共起知識ベース４１４は、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、及びエンティティ対ファクトのような、構造化データとしてインデックスされる複数のレコードを既に登録している。後者は、ステップ５０８の曖昧スコアマッチングを非常に高速で行えるようにする。ステップ５０８の曖昧スコアマッチングは、これに限定されないが、レベンシュタイン距離、ｓｔｒｃｍｐ９５、ＩＴＦスコアリング、等の共通のストリングメトリックを使用する。２つのワード間のレベンシュタイン距離は、あるワードを他のワードに変更するのに必要な単一キャラクタ編集の最低回数を指す。

最後に、曖昧スコアマッチングステップ５０８がエンティティ共起知識ベース４１４の全てのレコードに対するサーチ質問の比較及びサーチを終了すると、所与のパターンストリング（即ち、ステップ５０２のサーチ質問入力）に最も一致するか又は一致に最も近いレコードが、ステップ５１０におけるサーチ示唆のための第１候補として選択される。所与のパターンストリングとの一致にあまり近くない他のレコードは、第１候補の下に減少順に配置される。ステップ５１０のサーチ示唆は、考えられる一致のドロップダウンリストにおいてユーザに提示され、ユーザは、これを無視してもよいし、しなくてもよい。

図６は、図４−５について述べた曖昧スコアマッチング及びエンティティ共起知識ベースを使用してサーチ示唆を発生するための方法に基づく規範的なユーザインターフェイス６００を示す。この例では、ユーザは、図４に示すものと同様のサーチエンジンインターフェイスを通して、サーチボックス６０６に部分質問６０４を入力する。例示であってこれに限定されないが、部分質問６０４は、図６に示すように、「ＭｉｃｈａｅｌＪ」のような個人の不完全な名前である。これは、ユーザがサーチボタン６０８をまだ選択していないか、さもなければ、部分質問６０４をサーチシステム４００へ提出して実際のサーチを遂行しそして結果を得ていないので、部分質問６０４と考えられる。

方法５００（図５）に続いて、ユーザが「ＭｉｃｈａｅｌＪ」とタイプするとき、エンティティ抽出モジュール４１０は、エンティティ共起知識ベース４１４に対して第１のワード（Ｍｉｃｈａｅｌ）のクイックサーチをオンザフライで遂行して、エンティティのタイプを識別し、この例では、エンティティは、個人の名前を指す。その結果、曖昧スコアマッチングモジュール４１２は、個人の名前に対して仕立てられたストリングマッチングアルゴリズムを選択する。個人の名前は、例えば、イニシャルのみ（短い形態）、又はファーストネーム及びラストネームの第１文字、又はファーストネーム、ミドルネームのイニシャル及びラストネーム、又はその組み合わせを使用して、異なる形態で書かれたデータベースにおいて見出される。曖昧スコアマッチングモジュール４１２は、レベンシュタイン距離のような共通ストリングメトリックを使用して、エンティティ「Ｍｉｃｈａｅｌ」に一致するエンティティ共起知識ベース４１４内のエンティティ、トピックス又はファクトに対するスコアを決定して指定する。この例では、Ｍｉｃｈａｅｌは、その名前を有する膨大な量のレコードと一致する。しかしながら、ユーザが次に続く文字「Ｊ」をタイプするときに、曖昧スコアマッチングモジュール４１２は、エンティティ共起知識ベース４１４でＭｉｃｈａｅｌを伴う全ての共起に対してレベンシュタイン距離に基づく別の比較を遂行する。エンティティ共起知識ベース４１４は、次いで、「ＭｉｃｈａｅｌＪ」に対して最も高いスコアとの全ての考えられる一致を選択する。例えば、曖昧スコアマッチングモジュール４１２は、「ＭｉｃｈａｅｌＪａｃｋｓｏｎ」「ＭｉｃｈａｅｌＪｏｒｄａｎ」「ＭｉｃｈａｅｌＪ．Ｆｏｘ」、又はある場合には「ＭｉｃｈａｅｌＤｅｌｌ」のようなサーチ示唆６１０をユーザに返送する。次いで、ユーザは、ドロップダウンリストから、示唆された個人の１人を選択して、サーチ質問を完成することができる。前記の例を拡張すると、「Ｍｉｃｈａｅｌｔｈｅｂａｓｋｅｔｂａｌｌｐｌａｙｅｒ」のような質問は、個人エンティティ名前変化における「Ｍｉｃｈａｅｌ」、及びキーフレーズ、ファクト及びトピックスのような共起特徴における「ｔｈｅｂａｓｋｅｔｂａｌｌｐｌａｙｅｒ」についてエンティティ共起知識ベースをサーチすることにより返送される結果に基づいて「ＭｉｃｈａｅｌＪｏｒｄａｎ」の示唆を招く。別の例として、「Ａｌｅｘａｎｄｅｒｔｈｅａｃｔｏｒ」は、「ＡｌｅｘａｎｄｅｒＰｏｌｉｎｓｋｙ」の示唆を招く。当業者であれば、既存のプラットホームは、前記のように示唆を発生できないことが明らかであろう。

図７は、本発明によるサーチシステム７００のブロック図である。サーチシステム７００は、ネットワーク７０８を経てサーバー装置７０６と通信するサーチエンジン７０４に対する１つ以上のユーザインターフェイス７０２を備えている。この実施形態では、サーチシステム７００は、クライアント／サーバー型アーキテクチャーで実施されるが、サーチシステム７００は、他のコンピュータアーキテクチャー（例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ＡＳＰモデル、ピア・ツー・ピアモデル、等）、及び複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。

サーチエンジン７０４は、これに限定されないが、ユーザがワールドワイドウェブにおいて情報を位置付けできるようにするウェブベースツールを経てのインターフェイスを含む。又、サーチエンジン７０４は、ユーザが内部データベースシステム内で情報を位置付けできるようにするツールも含む。単一のサーバー装置７０６において実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーにおいて実施されるサーバー装置７０６は、エンティティ抽出モジュール７１０、曖昧スコアマッチングモジュール７１２、及びエンティティ共起知識ベースのデータベース７１４を含む。

エンティティ抽出モジュール７１０は、質問ストリング、部分質問、構造化データ、等の所与の質問セットから独立エンティティをオンザフライで抽出しそして曖昧性除去できるハードウェア及び／又はソフトウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び／又は時刻である。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される

曖昧スコアマッチングモジュール７１２は、所与のサーチ質問から抽出されるエンティティの形式に従って調整又は選択される複数のアルゴリズムを含む。アルゴリズムの機能は、所与のサーチ質問（入力）及びサーチされ示唆されたストリングが互いに同様であるかどうか又は所与のパターンストリングにほぼ一致するかどうか決定することである。又、曖昧マッチングは、曖昧ストリングマッチング、厳密でないマッチング、及びおおよそのマッチングとしても知られている。エンティティ抽出モジュール７１０及び曖昧スコアマッチングモジュール７１２は、エンティティ共起知識ベース７１４に関連して働いて、ユーザのためのサーチ示唆を発生する。

種々の実施形態によれば、エンティティ共起知識ベース７１４は、これに限定されないが、インメモリコンピュータデータベースとして構築され、そして１つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのようなコンポーネントを含む。あるサーチコントローラは、１つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。

エンティティ共起知識ベース７１４は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。

図８は、共起及び／又は曖昧スコアマッチングに基づき関連エンティティのサーチ示唆を発生する方法８００の一実施形態を示すフローチャートである。この方法８００は、図７について述べたのと同様のサーチシステム７００において実施される。

ある実施形態において、方法８００は、図７について上述したサーチエンジン７０４において、ユーザが、ステップ８０２で、サーチ質問をタイプするときに始まる。サーチ質問がタイプされるときに、サーチシステム７００は、オンザフライプロセスを遂行する。種々の実施形態によれば、サーチ質問は、完全及び／又は部分的で、正しいスペルであり及び／又はスペルミスがある。次いで、サーチ質問の部分エンティティ抽出ステップ８０４が遂行される。部分エンティティ抽出ステップ８０４は、エンティティ共起知識ベース７１４に対してクイックサーチを実行して、サーチ質問がエンティティを含むかどうか識別し、もしそうであれば、エンティティのタイプを識別する。種々の実施形態によれば、サーチ質問エンティティは、とりわけ、個人、組織、位置又は場所、及び日付を指す。エンティティタイプがあると、曖昧スコアマッチングモジュール７１２が、ステップ８０６において、それに対応する曖昧マッチングアルゴリズムを選択する。例えば、サーチ質問が、個人を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール７１２は、ファーストネーム、ミドルネーム、ラストネーム、及び肩書きを含む個人の名前の異なるコンポーネントを抽出できる個人のためのストリングマッチングアルゴリズムを調整又は選択する。別の実施形態では、サーチ質問が組織を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール７１２は、学校、大学、企業、会社、等の識別用語を含む組織のためのストリングマッチングアルゴリズムを調整又は選択する。それ故、曖昧スコアマッチングモジュール７１２は、サーチを容易にするためエンティティのタイプに対するストリングマッチングアルゴリズムを調整又は選択する。エンティティのタイプに対応するようにストリングマッチングアルゴリズムが調整又は選択されると、曖昧スコアマッチングステップがステップ８０８において遂行される。

曖昧スコアマッチングステップ８０８では、抽出されたエンティティ（１つ又は複数）及び非エンティティが選択されて、エンティティ共起知識ベース７１４に対して比較される。抽出されたエンティティ（１つ又は複数）は、個人の不完全な名前、例えば、とりわけ、ファーストネーム及びラストネームの最初の文字、組織の省略形、例えば、「ＵｎｉｔｅｄＮａｔｉｏｎ」を意味する「ＵＮ」、短縮形、及びニックネームを含む。エンティティ共起知識ベース７１４は、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、及びエンティティ対ファクトのような、構造化データとしてインデックスされる複数のレコードを既に登録している。これは、ステップ８０８の曖昧スコアマッチングを迅速に行えるようにする。曖昧スコアマッチングは、これに限定されないが、レベンシュタイン距離、ｓｔｒｃｍｐ９５、ＩＴＦスコアリング、等の共通のストリングメトリックを使用する。２つのワード間のレベンシュタイン距離は、あるワードを他のワードに変更するのに必要な単一キャラクタ編集の最低回数を指す。

ステップ８０８の曖昧スコアマッチングがエンティティ共起知識ベース７１４の全てのレコードに対するサーチ質問の比較及びサーチを終了すると、サーチ質問入力の所与のパターンストリングに最も一致するか又は一致に最も近いレコードが、ステップ８１０において、サーチ示唆のための第１候補として選択される。サーチ質問入力の所与のパターンストリングとの一致にあまり近くない他のレコードは、第１候補の下に減少順に配置される。ステップ８１０のサーチ示唆は、質問を完成するためにユーザが選択する考えられる一致のドロップダウンリストにおいてユーザに提示される。

別の実施形態では、ユーザが関心のある一致を選択した後、サーチシステム７００は、ステップ８１２において、その選択を新たなサーチ質問として取り上げる。その後、前記新たなサーチ質問からのエンティティ抽出ステップ８１４が遂行される。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。エンティティ抽出モジュール７１０は、次いで、エンティティ共起知識ベース７１４に対してサーチを実行して、最も高いスコアを持つ共起に基づき関連エンティティを見出す（ステップ８１６）。最後に、ステップ８１８において、関連エンティティを含むサーチ示唆のドロップダウンリストが、電子ドキュメントコーパスにおいて実際のデータサーチを遂行する前に、ユーザに提示される。

図９は、共起及び／又は曖昧スコアマッチングに基づき関連エンティティのサーチ示唆を発生するための方法８００に関連したユーザインターフェイス９００の規範的実施形態である。この例では、ユーザは、図７に示すものと同様のサーチエンジンインターフェイス９０２を通して、サーチボックス９０６に部分質問９０４を入力する。例示であってこれに限定されないが、部分質問３０４は、図９に示すように、「ＭｉｃｈａｅｌＪ」のような個人の不完全な名前である。これは、ユーザがサーチボタン９０８をまだ選択していないか、さもなければ、部分質問９０４をサーチシステム１００へ提出して実際のサーチを遂行しそして結果を得ていないので、部分質問９０４と考えられる。

方法８００に続いて、ユーザが「ＭｉｃｈａｅｌＪ」とタイプするとき、エンティティ抽出モジュール７１０は、エンティティ共起知識ベース７１４に対して第１のワード（Ｍｉｃｈａｅｌ）のクイックサーチをオンザフライで遂行して、エンティティのタイプを識別し、この例では、エンティティは、個人の名前を指す。その結果、曖昧スコアマッチングモジュール７１２は、個人の名前に対して仕立てられたストリングマッチングアルゴリズムを選択する。個人の名前は、例えば、イニシャルのみ（短い形態）、又はファーストネーム及びラストネームの第１文字、又はファーストネーム、ミドルネームのイニシャル及びラストネーム、又はその組み合わせを使用して、異なる形態で書かれたデータベースにおいて見出される。曖昧スコアマッチングモジュール７１２は、レベンシュタイン距離のような共通ストリングメトリックを使用して、エンティティ「Ｍｉｃｈａｅｌ」に一致するエンティティ共起知識ベース７１４内のエンティティ、トピックス又はファクトに対するスコアを決定して指定する。この例では、Ｍｉｃｈａｅｌは、その名前を有する膨大な量のレコードと一致する。しかしながら、ユーザが次に続く文字「Ｊ」をタイプするときに、曖昧スコアマッチングモジュール７１２は、エンティティ共起知識ベース７１４でＭｉｃｈａｅｌを伴う全ての共起に対してレベンシュタイン距離に基づく別の比較を遂行する。エンティティ共起知識ベース７１４は、次いで、「ＭｉｃｈａｅｌＪ」に対して最も高いスコアとの全ての考えられる一致を選択する。例えば、曖昧スコアマッチングモジュール７１２は、「ＭｉｃｈａｅｌＪａｃｋｓｏｎ」「ＭｉｃｈａｅｌＪｏｒｄａｎ」「ＭｉｃｈａｅｌＪ．Ｆｏｘ」、又はある場合には「ＭｉｃｈａｅｌＤｅｌｌ」のようなサーチ示唆９１０をユーザに返送する。次いで、ユーザは、ドロップダウンリストから、示唆された個人の１人を選択するか、又は示唆を無視してタイピングを続けることができる。前記の例を拡張すると、「Ｍｉｃｈａｅｌｔｈｅｂａｓｋｅｔｂａｌｌｐｌａｙｅｒ」のような質問は、個人エンティティ名前変化における「Ｍｉｃｈａｅｌ」、及びキーフレーズ、ファクト、トピックス、等の共起特徴における「ｔｈｅｂａｓｋｅｔｂａｌｌｐｌａｙｅｒ」についてエンティティ共起知識ベースをサーチすることにより返送される結果に基づいて「ＭｉｃｈａｅｌＪｏｒｄａｎ」の示唆を招く。別の例として、「Ａｌｅｘａｎｄｅｒｔｈｅａｃｔｏｒ」は、「ＡｌｅｘａｎｄｅｒＰｏｌｉｎｓｋｙ」の示唆を招く。当業者に明らかなように、既存のサーチプラットホームは、前記のように発生される示唆を与えることができない。

この実施形態では、ユーザは、図９に示すように、ドロップダウンリストから「ＭｉｃｈａｅｌＪｏｒｄａｎ」を選択して、部分質問９０４を完成させる。その選択は、次いで、サーチシステム７００により新たなサーチ質問９１２として処理される。その後、その新たなサーチ質問９１２からのエンティティ抽出が行われる。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。エンティティ抽出モジュール７１０は、次いで、エンティティ共起知識ベース７１４に対して「ＭｉｃｈａｅｌＪｏｒｄａｎ」のサーチを実行して、最も高いスコアを持つ共起に基づき関連エンティティを見出す。最後に、関連エンティティを含むサーチ示唆９１４のドロップダウンリストが、サーチボタン９０８をクリックすることにより、実際のデータサーチを遂行する前に、ユーザに提示される。図７−９について述べた前記システム及び方法は、ユーザが有用な関係を見出すことができるので、ユーザにとって迅速で且つ便利である。

図１０は、本発明によるサーチシステム１０００のブロック図である。サーチシステム１０００は、サーチエンジン１００２を備え、そのようなサーチエンジン１００２は、ユーザからのデータ入力、例えば、ユーザ質問を許す１つ以上のユーザインターフェイスを備えている。

サーチシステム１０００は、１つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース１００４及びトレンドデータベース１００６を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム１０００は、クライアント／サーバー型アーキテクチャーで実施されるが、サーチシステム１０００は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ＡＳＰモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。

サーチエンジン１００２は、これに限定されないが、ユーザがワールドワイドウェブに情報を位置付けられるようにするウェブベースツールを含む。又、サーチエンジン１００２は、ユーザが内部データベースシステム内に情報を位置付けられるようにするツールも含む。

エンティティデータベース１００４は、単一のサーバーとして実施されるか又は複数のサーバーにわたり分散型アーキテクチャーにおいて実施される。エンティティデータベース１００４は、質問ストリング、構造化データ、等のエンティティ質問のセットを許す。そのようなエンティティ質問のセットは、インターネット及び／又はローカルネットワークにおいて利用できる複数のコーパスから前もって抽出される。エンティティ質問は、インデックスされそしてスコア付けされる。エンティティは、例えば、人々、組織、地理的位置、日付及び／又は時刻を含む。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。

トレンドデータベース１００６は、単一のサーバーとして実施されるか又は複数のサーバーにわたり分散型アーキテクチャーにおいて実施される。トレンドデータベース１００６は、質問ストリング、構造化データ、等のエンティティ質問のセットを許す。そのようなエンティティ質問のセットは、インターネット及び／又はローカルネットワークにおいてユーザ及び／又は複数のユーザにより遂行される履歴的質問から前もって抽出される。エンティティ質問は、インデックスされそしてスコア付けされる。エンティティは、例えば、人々、組織、地理的位置、日付及び／又は時刻を含む。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。

エンティティデータベース１００４及びトレンドデータベース１００６は、エンティティ共起知識ベースを備え、この知識ベースは、これに限定されないが、インメモリデータベース（図示せず）として構築されて、１つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体及び曖昧性除去モジュール、等の他のコンポーネント（図示せず）を含む。１つのサーチコントローラは、１つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。

共起知識ベースは、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。

サーチシステム１０００は、サーチエンジン１００２におけるユーザ質問をエンティティデータベース１００４及びトレンドデータベース１００６に対して比較する。サーチエンジン１００２における自動完成モードは、両データベース、即ちエンティティデータベース１００４及びトレンドデータベース１００６からイネーブルされる。サーチシステム１０００は、サーチ示唆１００８のリストをユーザに対して展開し、そのようなリストは、データベースにおける各エンティティ示唆に指定される曖昧スコアに基づいて発生されインデックスされる。各エンティティ示唆のスコアは、サーチシステム１０００によって自動的に及び／又はシステムスーパーバイザーによって手動で指定される。エンティティ示唆は、各エンティティにより得られるスコアに基づいて最も高い関連度から低い関連度へと順序付けされる。加えて、トレンドデータベース１００６におけるスコアは、ローカルネットワーク及び／又はインターネットにおける１人以上のユーザからのトレンド及び質問頻度を使用して指定される。

各データベースのエンティティ示唆は、それらの中で比較され、次いで、スコアで得られたランクによりインデックス及び順序付けされ、従って、両データベース、即ちエンティティデータベース１００４及びトレンドデータベース１００６におけるエンティティ示唆を合成するサーチ示唆１００８のリストがユーザに示される。ユーザがリストから示唆を選択するか、又は示唆リストから別の結果を選択する場合には、サーチシステム１０００は、そのような情報をトレンドデータベース１００６にセーブする。従って、サーチシステム１０００の信頼性及び精度を高める自己学習システムが許される。要約すれば、トレンド共起知識ベースは、ユーザの質問及び選択された示唆から抽出された特徴で連続的に更新されて、オンザフライ学習の手段を与え、これは、サーチの関連度及び精度を改善する。更に、トレンド共起知識ベースは、システムを使用する異なるユーザにより及びトレンド検出モジュールのような自動的な方法によりポピュレートすることができる。

図１１は、本発明によるサーチシステム１１００のブロック図である。サーチシステム１１００は、サーチエンジン１１０２を備え、そのようなサーチエンジン１１０２は、ユーザ質問のようなユーザからのデータ入力を許す１つ以上のユーザインターフェイスを含む。

サーチシステム１１００は、１つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース１１０４及びトレンドデータベース１１０６を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム１１００は、クライアント／サーバー型アーキテクチャーで実施されるが、サーチシステム１１００は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ＡＳＰモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。

ある実施形態では、サーチシステム１１００は、ユーザがサーチエンジン１１０２のユーザインターフェイスを通して１つ以上のエンティティ（サーチ質問における）を入力するときにスタートする。サーチ質問は、例えば、ストリングデータフォーマット、構造化データ、等におけるキーワードの組み合わせである。これらキーワードは、人々、組織、地理的位置、日付及び／又は時刻を表わすエンティティである。この実施形態では、「ＩｎｄｉａｎａＮａ」がサーチ質問として使用される。

「ＩｎｄｉａｎａＮａ」は、次いで、エンティティ抽出のために処理される。エンティティ抽出モデルは、「ＩｎｄｉａｎａＮａ」のようなサーチ質問をエンティティとして処理し、そしてそれらを、全て、エンティティデータベース１１０４及びトレンドデータベース１１０６におけるエンティティ共起知識ベースに対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。更に、エンティティ（例えば、個人、組織、位置）として検出されない質問テキスト部分は、エンティティ共起知識ベース（例えば、エンティティ及びトレンドデータベース）をサーチするのに使用できる概念的特徴（例えば、トピックス、ファクト、キーフレーズ）として処理される。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。

この実施形態では、エンティティデータベース１１０４は、インデックス及びランク付けされるエンティティ示唆のリスト１１０８としてサーチ示唆のリストを示す。トレンドデータベース１１０６は、インデックス及びランク付けされるトレンドベース示唆リスト１１１０としてサーチ示唆のリストを示す。その後、サーチシステム１１００は、エンティティデータベース１１０４及びトレンドデータベース１１０６により与えられるものに基づいてサーチ示唆リスト１１１２を構築する。このサーチ示唆リスト１１１２は、各データベースにおける各エンティティ示唆の個々のスコアに基づいてインデックス及びランク付けされ、従って、最も高い関連度が最初に示され、そしてその下に低い関連度の結果が続く。

サーチシステム１１００では、サーチ示唆を得るための規範的な使用が開示される。サーチ示唆リスト１１１２は、「ＩｎｄｉａｎａＮａ」ユーザ質問に基づく示唆を示す。その結果、そのエンティティに対して個々のスコア０．９に基づき「ＩｎｄｉａｎａＮａｍｅ」が最初に現われ、次いで、個々のスコア０．８の結果として「ＩｎｄｉａｎａＮａｓｃａ」が示され、最後に、個々のスコア０．７に基づき「ＩｎｄｉａｎａＮａｓｈｖｉｌｌｅ」が示される。個々のスコアは、考えられる繰り返しエンティティを適用せずにエンティティ示唆のリスト１１０８及びトレンドベースの示唆リスト１１１０を使用して比較される。

図１２は、本発明によるサーチシステム１２００のブロック図である。サーチシステム１２００は、サーチエンジン１２０２を備え、そのようなサーチエンジン１２０２は、ユーザ質問のようなユーザからのデータ入力を許す１つ以上のユーザインターフェイスを含む。

サーチシステム１２００は、１つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース１２０４及びトレンドデータベース１２０６を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム１２００は、クライアント／サーバー型アーキテクチャーで実施されるが、サーチシステム１２００は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ＡＳＰモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。

ある実施形態では、サーチシステム１２００は、ユーザがサーチエンジン１２０２のユーザインターフェイスを通して１つ以上のエンティティ（サーチ質問における）を入力するときにスタートする。サーチ質問は、例えば、ストリング、構造化データ、等におけるキーワードの組み合わせである。これらのキーワードは、人々、組織、地理的位置、日付及び／又は時刻を表わすエンティティである。この実施形態では、「ＩｎｄｉａｎａＮａ」がサーチ質問として使用される。

「ＩｎｄｉａｎａＮａ」は、次いで、エンティティ抽出のために処理される。エンティティ抽出モデルは、「ＩｎｄｉａｎａＮａ」のようなサーチ質問をエンティティとして処理し、そしてそれらを、全て、エンティティデータベース１２０４及びトレンドデータベース１２０６におけるエンティティ共起知識ベースに対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。更に、エンティティ（例えば、個人、組織、位置）として検出されない質問テキスト部分は、エンティティ共起知識ベース（例えば、エンティティ及びトレンドデータベース）をサーチするのに使用できる概念的特徴（例えば、トピックス、ファクト、キーフレーズ）として処理される。抽出中に、１つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。

この実施形態では、エンティティデータベース１２０４は、予めインデックス及びランク付けされるエンティティ示唆のリスト１２０８としてサーチ示唆のリストを示す。同様に、トレンドデータベース１２０６は、予めインデックス及びランク付けされるトレンドベース示唆リスト１２１０としてサーチ示唆のリストを示す。その後、サーチシステム１２００は、エンティティデータベース１２０４及びトレンドデータベース１２０６により与えられるものに基づいてサーチ示唆リスト１２１２を構築する。このサーチ示唆リスト１２１２は、両データベースにおける各エンティティ示唆の全体的スコアに基づいてインデックス及びランク付けされ、従って、最も高い関連度が最初に示され、そしてその下に低い関連度の結果が続く。

サーチシステム１２００では、サーチ示唆を得るための規範的な使用が開示される。サーチ示唆リスト１２１２は、「ＩｎｄｉａｎａＮａ」ユーザ質問に基づく示唆を示す。その結果、エンティティ示唆のリスト１２０８におけるスコア０．８及びトレンドベースの示唆リスト１２１０におけるスコア０．６の和から得られる全体的スコア１．４に基づいて「ＩｎｄｉａｎａＮａｓｃａ」が最初に現われる。同様に、全体的スコア０．９の結果として「ＩｎｄｉａｎａＮａｍｅ」が示され、最後に、全体的スコア０．７に基づいて「ＩｎｄｉａｎａＮａｓｈｖｉｌｌｅ」が示される。

図１３は、Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）におけるコンテンツをジオタギングするためのシステムアーキテクチャー１３００を示す。サーチインデックス１３２４は、Ｓｈａｒｅｐｏｉｎｔ１３０２においてサーチを可能にするための多数の重要コンポーネントの１つである。Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）１３０２においてサーチを可能にする別の重要部分は、コンテンツをインデックスするためのコンテンツキャプチャーである。

クローラー１３０４は、異なるコンテンツソース１３０６を通してクロールし、メタデータプロパティのリストを各コンテンツに追加する。コンテンツソースは、例えば、これに限定されないが、Ｓｈａｒｅｐｏｉｎｔコンテンツ、ネットワークファイルシェア、或いはユーザ又はイントラネットコンテンツを含む。クローラー１３０４は、コンテンツソース１３０６にセキュアに接続し、ソースからのドキュメントをクロールされたプロパティとしてそれらのメタデータに関連付けるという機能を遂行するように構成される。クローラー１３０４は、コンテンツに全クロール又は増分的クロールを与えるように構成される。クロールされたプロパティは、例えば、これに限定されないが、とりわけ、著者、タイトル、創作日を含む。

Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）は、コンテンツ処理コンポーネント１３０８を含む。このコンテンツ処理コンポーネント１３０８は、クローラー１３０４からコンテンツを取り出し、そしてそれをインデックスするための準備をする。コンテンツ処理１３０８は、とりわけ、言葉の処理（言語検出）、パース、エンティティ抽出マネージメント、コンテンツベースのファイルフォーマット検出、コンテンツ処理エラーレポート、自然言語処理、及びクロールされたプロパティの、管理されたプロパティへのマッピングの段階を含む。

コンテンツ処理１３０８は、コンテンツエンリッチメントウェブサービス（ＣＥＷＳ１３１０）により拡張される。ＣＥＷＳ１３１０は、ウェブサービスコールアウト１３１２が外部ウェブサービスをコールして付加的なアクションを遂行しそしてクロールされたデータプロパティをエンリッチできるようにすることで、コンテンツ処理１３０８のエンリッチメントを可能にする。ウェブサービスコールアウト１３１２は、標準的な簡単なオブジェクトアクセスプロトコル（ＳＯＡＰ）要求であるか、或いはクロールされたデータの構造化情報をエンティティエンリッチメントサービス１３１４と交換するのに使用される他のウェブサービスコール方法である。ウェブサービスコールアウト１３１２は、コンテンツエンリッチメント構成オブジェクトにおいてエンリッチメント処理のために外部ウェブサービスをいつコールするか制御するように構成されたトリガー条件を含む。又、エンティティエンリッチメントサービス１３１４は、クロールされたデータのドキュメントタイプを決定して、画像（スキャンされたドキュメント、ピクチャー、等）の形態で到来するコンテンツを決定する。画像の形態のコンテンツが見出されると、エンティティエンリッチメントサービス１３１４は、クロールされたドキュメントの位置を、例えば、これに限定されないが、光学的文字認識コンポーネント又は他の画像処理コンポーネントのようなＯＣＲ処理エンジン１３１６へ送出する。ＯＣＲ処理エンジン１３１６は、次いで、画像ファイルを検索及び処理して、それをテキストファイルへ非同期で変換する。ＯＣＲで処理されたファイル１３１８は、その後、クローラー１３０４へ再供給され、テキストファイルとしてクロールされると共に、コンテンツ処理１３０８へ返送されて、ワークフローの残り部分で処理される。

システムアーキテクチャー１３００は、外部ジオタガーウェブサービス１３２０及び名前付きエンティティタガーサービス１３２２を含む。ジオタガーウェブサービス１３２０及び名前付きエンティティタガーサービス１３２２は、両方とも、ウェブサービスアプリケーションプロバイダーとして機能しそしてウェブサービスコールアウト１３１２に応答するように構成されたソフトウェアモジュールである。ジオタガーウェブサービス１３２０は、自然言語処理エンティティ抽出技術、マシン学習モデル及び他の技術を使用して、クロールされたコンテンツからの地理的エンティティを識別し及び曖昧性除去する。例えば、ジオタガーウェブサービス１３２０は、ガゼッタにおいて見出されたエンティティの統計学的共起を分析することにより地理的エンティティを曖昧性除去する。ジオタガーウェブサービス１３２０は、クローラー１３０４により見出されたコンテンツに対してリンクされる統計学的共起エンティティのデータベースを含む。その同じ技術に続いて、名前付きエンティティタガーサービス１３２２を使用して、組織、人々又はトピックスのような付加的なエンティティ又はテキスト特徴が抽出される。

ジオタガーウェブサービス１３２０は、ＣＥＷＳ１３１０により入力プロパティとして送られた管理プロパティを分析し、そしてテキストにおいて参照される地理的エンティティを識別する。入力プロパティの非限定例は、とりわけ、ＦｉｌｅＴｙｐｅ、ＩｓＤｏｃｕｍｅｎｔ、ＯｒｉｇｉｎａｌＰａｔｈ、及びボディを含む。ジオタガーウェブサービス１３２０は、次いで、見出された各地理的エンティティを参照して管理プロパティを生成又は変更することによりテキストをジオタギングする。ジオタガーウェブサービス１３２０は、変更された又は新たな管理プロパティをエンティティエンリッチメントサービス１３１４へ送出し、そこで、変換が行われて、変更された管理プロパティをマップし、そしてそれを出力プロパティとしてＣＥＷＳ１３１０へ返送する。この同じプロセスを使用して、組織、人々又はトピックスのような他のエンティティ又は他の特徴の抽出及びエンティティタギングのために名前付きエンティティタガーサービス１３２２と対話する。

増強された管理プロパティがエンティティエンリッチメントサービス１３１４によって返送された後に、プロパティは、クロールされたファイル管理プロパティと合流され、そしてサーチインデックス１３２４へ送られる。

地理的及び他のエンティティタグがコンテンツに関連付けられそしてインデックスされると、地理的又は名前付きエンティティ特徴を使用してサーチ質問が遂行される。Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）におけるサーチＵＩ１３２６は、地理的ベースのサーチを遂行する上でユーザの助けとなり且つファセットサーチ結果の表示向上をサポートする特定のディスプレイを含む。サーチＵＩ１３２６は、カスタムウェブ部分でもよいし、又はＨＴＭＬ、ＨＴＭＬ５、ＪａｖａＳｃｒｉｐｔ（登録商標）及びＣＳＳのような標準的なツールでＳｈａｒｅｐｏｉｎｔ２０１３（登録商標）サーチの標準レイアウトを変更することにより行われてもよい。

図１４は、Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）サーチのためにコンテンツをタギングするプロセスステップを示すフローチャート１４００である。このプロセスは、Ｓｈａｒｅｐｏｉｎｔ２０１３（登録商標）のクローラーコンポーネントがコンテンツに対してクロールを遂行するときに始まる（ステップ１４０２）。ある実施形態では、クロールが全クロールであり、別の実施形態では、クロールが増分的クロールである。クローラーコンポーネントは、次いで、クロールされたプロパティ及びメタデータをコンテンツ処理へ供給する（ステップ１４０４）。クロールされたコンテンツが地理的又は名前付きエンティティを含むかどうか検証するための決定がなされる。例えば、これに限定されないが、トリガー条件が使用される。トリガー条件は、コンテンツがジオタギング又はエンティティタギングから利益を得るかどうか決定するプログラミングロジック又はルールのセットを含む。トリガー条件が偽と評価する場合には、クロールされたコンポーネントが管理プロパティに関連付けられ（ステップ１４０６）そしてサーチインデックスコンポーネントへ通される（ステップ１４０８）。トリガー条件が真と評価する場合には、ＣＥＷＳがウェブサービスコールアウトをエンティティエンリッチメントサービスへ送る（ステップ１４１０）。エンティティエンリッチメントサービスは、送られたコンテンツを分析して、コンテンツが画像フォーマット（スキャンされたドキュメント、ピクチャー、等）であるかどうか決定する。画像フォーマットで見出されたコンテンツは、ＯＣＲエンジンにより非同期で処理され、そしてクローリングコンポーネントによりテキストファイルとしてクロールされるべく返送される（ステップ１４１２）。コンテンツが画像フォーマットでない場合には、コンテンツは、ジオタギングウェブサーバー又は名前エンティティタガーサービスにより処理される（ステップ１４１４）。ウェブサービスは、コンテンツにおいて参照される地理的又は名前付きエンティティを抽出及び曖昧性除去し、そしてそれらをエンティティメタデータでエンリッチする。識別されたエンティティ及びそれらのメタデータは、管理プロパティとしてコンテンツ処理コンポーネントへ返送されそしてコンテンツに関連付けされる（ステップ１４１６）。関連付けされたメタデータは、次いで、サーチインデックスコンポーネントへ送られる（ステップ１４０６）。

種々の態様及び実施形態が開示されたが、他の態様及び実施形態も意図される。ここに開示した種々の態様及び実施形態は、例示のためのもので、それに限定されるものではなく、真の範囲及び精神は、特許請求の範囲により示される。

以上の方法の説明及びプロセスフロー図は、単なる例示として示されたもので、種々の実施形態のステップを、提示した順序で遂行しなければならないことを要求し又は意味することは意図されない。当業者に明らかなように、前記実施形態におけるステップは、任意の順序で遂行されてもよい。「次いで(then)」、「次に(next)」、等のワードは、ステップの順序を限定するものではなく、これらのワードは、単に、方法の説明を通して読者を誘導するのに使用されるだけである。プロセスフロー図は、オペレーションを一連のプロセスとして示すが、多数のオペレーションを並列に又は同時に遂行することもできる。加えて、オペレーションの順序は、再構成してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラム、等に対応する。プロセスが機能に対応するとき、その終了は、コーリング機能又はメイン機能への機能の復帰に対応する。

ここに開示する実施形態に関連して述べた種々の例示的論理ブロック、モジュール、回路及びアルゴリズムステップは、電子的ハードウェア、コンピュータソフトウェア又はその両方の組み合わせとして具現化されてもよい。ハードウェア及びソフトウェアのこの互換性を明確に示すために、種々の例示的コンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能に関して一般的に説明された。そのような機能がハードウェアとして具現化されるかソフトウェアとして具現化されるかは、システム全体に課せられる特定アプリケーション及び設計上の制約に依存する。当業者であれば、ここに述べた機能を特定アプリケーションごとに色々な仕方で具現化できるが、そのような具現化の判断は、本発明の範囲から逸脱すると解釈されてはならない。

コンピュータソフトウェアで具現化される実施形態は、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はその組み合わせで具現化される。コードセグメント又はマシン実行可能なインストラクションは、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、或いはインストラクション、データ構造体又はプログラムステートメントの組合せを表わす。コードセグメントは、情報、データ、アーギュメント、パラメータ又はメモリコンテンツを通し及び／又は受け取ることにより別のコードセグメント又はハードウェア回路に結合される。情報、アーギュメント、パラメータ、データ、等は、メモリ共有、メッセージ通過、トークン通過、ネットワーク送信、等を含む適当な手段を経て通され、転送され又は送信される。

これらのシステム及び方法を実施するのに使用される実際のソフトウェアコード又は特殊な制御ハードウェアは、本発明を限定するものではない。従って、システム及び方法のオペレーション及び振舞いは、ここでの記載に基づいてシステム及び方法を実施するようにソフトウェア及び制御ハードウェアを設計できることを理解して、特定のソフトウェアコードを参照せずに説明した。

ソフトウェアで実施されるときに、機能は、非一時的コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に１つ以上のインストラクション又はコードとして記憶される。ここに開示する方法又はアルゴリズムのステップは、コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に存在するプロセッサ実行可能なソフトウェアモジュールにおいて実施される。非一時的なコンピュータ読み取り可能な又はプロセッサ読み取り可能な媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にするコンピュータストレージ媒体及び有形のストレージ媒体の両方を含む。非一時的なプロセッサ読み取り可能なストレージ媒体は、コンピュータによりアクセスされる利用可能な媒体である。これに限定されないが、一例として、そのような非一時的なプロセッサ読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ又は他の光学ディスクストレージ、磁気ディスクストレージ又は他の磁気ストレージ装置、或いはインストラクション又はデータ構造体の形態で望ましいプログラムコードを記憶するのに使用され且つコンピュータ又はプロセッサによりアクセスされる他の有形のストレージ媒体を含む。ここで使用するディスク(disk & disc)とは、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光学ディスク、デジタル多様性ディスク（ＤＶＤ）、フロッピーディスク、及びブルーレイディスクを含み、ここで、ディスク(disk)は、通常、データを磁気的に再生するものであり、一方、ディスク(disc)は、データをレーザで光学的に再生するものである。前記の組み合わせも、コンピュータ読み取り可能な媒体の範囲内に包含される。加えて、方法又はアルゴリズムのオペレーションは、コンピュータプログラム製品に合体される非一時的プロセッサ読み取り可能な媒体及び／又はコンピュータ読み取り可能な媒体にコード及び／又はインストラクションの１つ又は組み合わせ或いはセットとして存在する。

技術の種々のコンポーネントは、分散型ネットワーク及び／又はインターネットの遠隔部分に、或いは専用のセキュア、アンセキュア及び／又は暗号化システム内に配置できることが明らかである。従って、システムのコンポーネントは、１つ以上の装置に結合するか、又はテレコミュニケーションネットワークのような分散型ネットワークの特定ノードに共通配置できることが明らかである。以上の説明から明らかなように、計算効率の理由で、システムのコンポーネントは、システムのオペレーションに影響することなく、分散型ネットワーク内の任意の位置に配置することができる。更に、それらのコンポーネントは、専用マシンに埋め込むこともできる。

更に、エレメントを接続する種々のリンクは、ワイヤード又はワイヤレスリンク又はその組み合わせ、或いは接続されたエレメントへ及びそこからデータを供給及び／又は通信することのできる他の既知の又は今後開発されるエレメントであることが明らかである。ここで使用するモジュールという語は、エレメントに関連した機能を遂行できる既知の又は今後開発されるハードウェア、ソフトウェア、ファームウェア、又はその組み合わせを指す。又、ここで使用する決定、計算及びコンピューティング、並びにその変形の語は、交換可能に使用され、そして任意のタイプの方法、プロセス、数学演算又は技術を包含する。

ここに開示する実施形態の前記説明は、当業者が本発明を実施又は利用できるようにするためになされたものである。これら実施形態に対する種々の変更は、当業者に容易に明らかであり、そしてここに定義する一般的な原理は、本発明の精神又は範囲から逸脱せずに他の実施形態に適用される。従って、本発明は、ここに示す実施形態に限定されるものではなく、特許請求の範囲並びにここに開示した原理及び新規な特徴に一致する最も広い範囲と調和されるべきである。

以上に述べた実施形態は、例示に過ぎない。当業者であれば、ここに述べた特定例に対して置き換えられ且つ依然として本発明の範囲内に入る多数の代替的コンポーネント及び実施形態が認識されよう。

１００：サーチシステム
１０２：グラフィックユーザインターフェイス
１０４：サーチエンジン
１０６：サーバー装置
１０８：ネットワーク接続
１１０：エンティティ抽出モジュール
１１２：エンティティ共起知識ベース
１１４：エンティティインデックス型コーパス
４００：サーチコンピュータシステム
４０２：ユーザインターフェイス
４０４：サーチエンジン
４０６：サーバー装置
４０８：ネットワーク接続
４１０：エンティティ抽出モジュール
４１２：曖昧スコアマッチングモジュール
４１４：エンティティ共起知識ベースのデータベース
７００：サーチシステム
７０２：ユーザインターフェイス
７０４：サーチエンジン
７０６：サーバー装置
７０８：ネットワーク接続
７１０：エンティティ抽出モジュール
７１２：曖昧スコアマッチングモジュール
７１４：エンティティ共起知識ベースのデータベース
１０００：サーチシステム
１００２：サーチエンジン
１００４：エンティティデータベース
１００６：トレンドデータベース
１００８：サーチ示唆
１３００：システムアーキテクチャー
１３０２：Ｓｈａｒｅｐｏｉｎｔ
１３０４：クローラー
１３０６：コンテンツソース
１３０８：コンテンツ処理
１３１２：ウェブサービスコールアウト
１３１４：エンティティエンリッチメントサービス
１３１６：ＯＣＲ処理エンジン
１３１８：ＯＣＲファイル
１３２０：ジオタガーウェブサービス
１３２２：名前付きエンティティタガーサービス
１３２４：サーチインデクサ
１３２６：サーチＵＩ

Claims

エンティティ抽出コンピュータにより、クライアントコンピュータから、１つ以上のエンティティを含むサーチ質問を受け取り、
エンティティ抽出コンピュータにより、各々のエンティティを、共起データベースにおける各エンティティの１つ以上の共起と比較し、
エンティティ抽出コンピュータにより、サーチ質問からの１つ以上のエンティティのサブセットを、共起データベースに従ってそのエンティティと電子データコーパスにおける１つ以上の関連エンティティとの共起の確度に基づきそのサブセットの各エンティティが共起データベースの信頼性スコアを越えるとの決定に応答して、抽出し、
エンティティ抽出コンピュータにより、インデックス識別子（インデックスＩＤ）をその複数の抽出されたエンティティにおけるエンティティの各々に指定し、
エンティティ抽出コンピュータにより、その複数の抽出されたエンティティの各々に対するインデックスＩＤを電子データコーパスにセーブし、この電子データコーパスは、１つ以上の関連エンティティの各々に対応するインデックスＩＤによりインデックスされるものであり、
サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けしそしてその複数の抽出されたエンティティの少なくとも２つが共起するデータレコードのインデックスＩＤを識別するためにエンティティインデックス型電子データコーパスをサーチし、及び
サーチサーバーコンピュータにより、その識別されたインデックスＩＤに対応するデータレコードを有するサーチ結果リストを構築する、
ことを含む、コンピュータで実施される方法。
サーチサーバーコンピュータにより、信頼性スコアに基づく関連度によりサーチ結果リストを分類し、そしてサーチサーバーコンピュータにより、その分類されたサーチ結果リストをユーザ装置へ転送することを更に含む、請求項１に記載の方法。
前記複数の抽出されたエンティティは、信頼性スコアに基づきランク付けされる、請求項１に記載の方法。
前記エンティティ抽出コンピュータは、抽出されたエンティティを、エンティティインデックス型電子データコーパスにおける１つ以上の共起エンティティに関連付ける、請求項１に記載の方法。
前記関連付けられたエンティティは、信頼性スコアによりランク付けされる、請求項４に記載の方法。
複数のエンティティの各々は、個人、組織、地理的位置、日付及び時刻より成るグループから選択される、請求項１に記載の方法。
複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する１つ以上のプロセッサを有する１つ以上のサーバーコンピュータを備え、これは、
サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、このエンティティ抽出モジュールは、更に、
複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける１つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、
複数の抽出されたエンティティにおける各エンティティにインデックス識別子（インデックスＩＤ）を指定し、
複数の抽出されたエンティティの各々に対するインデックスＩＤを電子データコーパスにセーブし、この電子データコーパスは、１つ以上の関連エンティティの各々に対応するインデックスＩＤによりインデックスされる、
ように構成され、及び
その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも２つが共起するデータレコードのインデックスＩＤを識別するためにエンティティインデックス型電子データコーパスをサーチするように構成されたサーチサーバーモジュールを更に備え、このサーチサーバーモジュールは、更に、その識別されたインデックスＩＤに対応するデータレコードを有するサーチ結果リストを構築するように構成される、システム。
前記サーチサーバーモジュールは、信頼性スコアに基づく関連度によりサーチ結果リストを分類し、そしてその分類されたサーチ結果リストをユーザ装置へ転送するように更に構成される、請求項７に記載のシステム。
前記複数の抽出されたエンティティは、信頼性スコアに基づきランク付けされる、請求項７に記載のシステム。
前記エンティティ抽出モジュールは、抽出されたエンティティを、エンティティインデックス型電子データコーパスにおける１つ以上の共起エンティティに関連付けるように構成される、請求項７に記載のシステム。
前記関連付けられたエンティティは、信頼性スコアによってランク付けされる、請求項１０に記載のシステム。
複数のエンティティの各々は、個人、組織、地理的位置、日付及び時刻より成るグループから選択される、請求項７に記載のシステム。
エンティティ抽出コンピュータにより、サーチ質問パラメータのユーザ入力を受け取り、
エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける１つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、
エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティにインデックス識別子（インデックスＩＤ）を指定し、
エンティティ抽出コンピュータにより、複数の抽出されたエンティティの各々に対するインデックスＩＤを電子データコーパスにセーブし、該電子データコーパスは、１つ以上の関連エンティティの各々に対応するインデックスＩＤによってインデックスされるものであり、
サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも２つが共起するデータレコードのインデックスＩＤを識別するためにエンティティインデックス型電子データコーパスをサーチし、及び
サーチサーバーコンピュータにより、その識別されたインデックスＩＤに対応するデータレコードを有するサーチ結果リストを構築する、
ことを含むコンピュータ実行可能なインストラクションを記憶している非一時的なコンピュータ読み取り可能な媒体。
前記インストラクションは、更に、サーチサーバーコンピュータにより、信頼性スコアに基づく関連度によってサーチ結果リストを分類し、そしてサーチサーバーコンピュータにより、その分類されたサーチ結果リストをユーザ装置へ転送することを含む、請求項１３に記載のコンピュータ読み取り可能な媒体。
前記複数の抽出されたエンティティは、信頼性スコアに基づきランク付けされる、請求項１３に記載のコンピュータ読み取り可能な媒体。
前記インストラクションは、更に、エンティティ抽出コンピュータにより、抽出されたエンティティを、エンティティインデックス型電子データコーパスにおける１つ以上の共起エンティティに関連付ける、請求項１３に記載のコンピュータ読み取り可能な媒体。
前記関連付けられたエンティティは、信頼性スコアによってランク付けされる、請求項１６に記載のコンピュータ読み取り可能な媒体。
複数のエンティティの各々は、個人、組織、地理的位置、日付及び時刻より成るグループから選択される、請求項１３に記載のコンピュータ読み取り可能な媒体。
エンティティ抽出コンピュータにより、ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取り、
エンティティ抽出コンピュータにより、サーチ質問パラメータを、電子データコーパスにおける１つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて１つ以上のエンティティに対応する少なくとも１つのエンティティ形式を識別することにより、サーチ質問パラメータから１つ以上のエンティティを抽出し、
曖昧スコアマッチングコンピュータにより、サーチ質問パラメータに関連した１つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも１つの識別されたエンティティ形式に対応するものであり、
曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき１つ以上のレコードから１つ以上の示唆されたサーチ質問パラメータを形成し、及び
曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て１つ以上の示唆されたサーチ質問パラメータを提示する、
ことを含む方法。
曖昧スコアマッチングコンピュータにより、ユーザ入力が終了する前にその選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチすることを更に含む、請求項１９に記載の方法。
前記サーチ質問パラメータに関連した１つ以上のレコードは、概念的特徴を含む、請求項１９に記載の方法。
前記１つ以上の示唆されたサーチ質問パラメータは、複数の示唆されたサーチ質問パラメータを含み、前記方法は、更に、曖昧スコアマッチングコンピュータにより、その複数の示唆されたサーチ質問パラメータをユーザ入力におけるサーチ質問パラメータへの一致の接近性に基づいて降下順に分類することを更に含む、請求項１９に記載の方法。
前記曖昧スコアマッチングコンピュータは、前記分類された複数の示唆されたサーチ質問パラメータをドロップダウンリストにおいてユーザインターフェイスを経て提示する、請求項２２に記載の方法。
前記エンティティ共起データベースはインデックスされる、請求項１９に記載の方法。
前記エンティティ共起データベースは、エンティティ対エンティティのインデックスを含む、請求項１９に記載の方法。
前記エンティティ共起データベースは、エンティティ対トピックスのインデックスを含む、請求項１９に記載の方法。
前記エンティティ共起データベースは、エンティティ対ファクトのインデックスを含む、請求項１９に記載の方法。
複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する１つ以上のプロセッサを有する１つ以上のサーバーコンピュータを備え、これは、
ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、このエンティティ抽出モジュールは、更に、
サーチ質問パラメータを、電子データコーパスにおける１つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて１つ以上のエンティティに対応する少なくとも１つのエンティティ形式を識別することにより、サーチ質問パラメータから１つ以上のエンティティを抽出する、
ように更に構成され、更に、
サーチ質問パラメータに関連した１つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するよう構成された曖昧スコアマッチングモジュール、
を備え、その曖昧マッチングモジュールは、少なくとも１つの識別されたエンティティ形式に対応するものであり、その曖昧スコアマッチングモジュールは、更に、
その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき１つ以上のレコードから１つ以上の示唆されたサーチ質問パラメータを形成し、及び
ユーザインターフェイスを経て１つ以上の示唆されたサーチ質問パラメータを提示する、ように構成されたシステム。
前記曖昧スコアマッチングモジュールは、更に、ユーザ入力が終了する前にその選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチするように構成される、請求項２８に記載のシステム。
サーチ質問パラメータに関連した１つ以上のレコードは、概念的特徴を含む、請求項２８に記載のシステム。
前記１つ以上の示唆されたサーチ質問パラメータは、複数の示唆されたサーチ質問パラメータを含み、前記曖昧スコアマッチングコンピュータは、更に、その複数の示唆されたサーチ質問パラメータをユーザ入力におけるサーチ質問パラメータへの一致の接近性に基づいて降下順に分類するように構成される、請求項２８に記載のシステム。
前記曖昧スコアマッチングコンピュータは、前記分類された複数の示唆されたサーチ質問パラメータをドロップダウンリストにおいてユーザインターフェイスを経て提示するように構成される、請求項３２に記載のシステム。
前記エンティティ共起データベースはインデックスされる、請求項２８に記載のシステム。
前記エンティティ共起データベースは、エンティティ対エンティティのインデックスを含む、請求項２８に記載のシステム。
前記エンティティ共起データベースは、エンティティ対トピックスのインデックスを含む、請求項２８に記載のシステム。
前記エンティティ共起データベースは、エンティティ対ファクトのインデックスを含む、請求項２８に記載のシステム。
エンティティ抽出コンピュータにより、ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取り、その部分サーチ質問パラメータは、少なくとも１つの未完成のサーチ質問パラメータを有するものであり、
エンティティ抽出コンピュータにより、その部分サーチ質問パラメータを、電子データコーパスにおいて１つ以上の第１エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてその部分サーチ質問パラメータにおける１つ以上の第１エンティティに対応する少なくとも１つのエンティティ形式を識別することにより、その部分サーチ質問パラメータから１つ以上の第１エンティティを抽出し、
曖昧スコアマッチングコンピュータにより、部分サーチ質問パラメータに関連した１つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、この曖昧マッチングアルゴリズムは、少なくとも１つの識別されたエンティティ形式に対応するものであり、
曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき１つ以上のレコードから１つ以上の第１の示唆されたサーチ質問パラメータを形成し、
曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て１つ以上の第１の示唆されたサーチ質問パラメータを提示し、
エンティティ抽出コンピュータにより、完成したサーチ質問パラメータを形成するために１つ以上の第１の示唆されたサーチ質問パラメータのユーザ選択を受け取り、
エンティティ抽出コンピュータにより、その完成したサーチ質問パラメータから１つ以上の第２のエンティティを抽出し、
エンティティ抽出コンピュータにより、その１つ以上の第２のエンティティに関連した１つ以上のエンティティを識別して１つ以上の第２の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし、及び
エンティティ抽出コンピュータにより、ユーザインターフェイスを経て１つ以上の第２の示唆されたサーチ質問パラメータを提示する、
ことを含む方法。
曖昧スコアマッチングコンピュータにより、ユーザ入力が終了する前にその選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチすることを更に含む、請求項３７に記載の方法。
前記部分サーチ質問パラメータに関連した１つ以上のレコードは、概念的特徴を含む、請求項３７に記載の方法。
前記１つ以上の第１の示唆されたサーチ質問パラメータは、複数の第１の示唆されたサーチ質問パラメータを含み、前記方法は、更に、曖昧スコアマッチングコンピュータにより、その複数の第１の示唆されたサーチ質問パラメータをユーザ入力における部分サーチ質問パラメータへの一致の接近性に基づいて降下順に分類することを更に含む、請求項３７に記載の方法。
前記曖昧スコアマッチングコンピュータは、前記分類された複数の第１の示唆されたサーチ質問パラメータをドロップダウンリストにおいてユーザインターフェイスを経て提示する、請求項４０に記載の方法。
前記エンティティ共起データベースはインデックスされる、請求項３９に記載の方法。
前記エンティティ共起データベースは、エンティティ対エンティティのインデックスを含む、請求項３７に記載の方法。
前記エンティティ共起データベースは、エンティティ対トピックスのインデックスを含む、請求項３７に記載の方法。
前記エンティティ共起データベースは、エンティティ対ファクトのインデックスを含む、請求項３７に記載の方法。
複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する１つ以上のプロセッサを有する１つ以上のサーバーコンピュータを備え、これは、
ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、その部分サーチ質問パラメータは、少なくとも１つの未完成のサーチ質問パラメータを有するものであり、エンティティ抽出モジュールは、更に、
その部分サーチ質問パラメータを、電子データコーパスにおいて１つ以上の第１エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける１つ以上の第１エンティティに対応する少なくとも１つのエンティティ形式を識別することにより、部分サーチ質問パラメータから１つ以上の第１エンティティを抽出する、
ように構成され、更に、
部分サーチ質問パラメータに関連した１つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成された曖昧スコアマッチングモジュールを備え、その曖昧マッチングアルゴリズムは、少なくとも１つの識別されたエンティティ形式に対応するものであり、その曖昧スコアマッチングモジュールは、更に、
その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づいて１つ以上のレコードから１つ以上の第１の示唆されたサーチ質問パラメータを形成し、及び
ユーザインターフェイスを経て１つ以上の第１の示唆されたサーチ質問パラメータを提示する、
ように構成され、エンティティ抽出モジュールは、更に、
完成したサーチ質問パラメータを形成するために１つ以上の第１の示唆されたサーチ質問パラメータのユーザ選択を受け取り、
その完成したサーチ質問パラメータから１つ以上の第２エンティティを抽出し、
その１つ以上の第２エンティティに関連した１つ以上のエンティティを識別して１つ以上の第２の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし、及び
ユーザインターフェイスを経て１つ以上の第２の示唆されたサーチ質問パラメータを提示する、
ように構成されたシステム。
前記曖昧スコアマッチングモジュールは、更に、ユーザ入力が終了する前にその選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチするように構成される、請求項４６に記載のシステム。
部分サーチ質問パラメータに関連した１つ以上のレコードは、概念的特徴を含む、請求項４６に記載のシステム。
前記１つ以上の第１の示唆されたサーチ質問パラメータは、複数の第１の示唆されたサーチ質問パラメータを含み、前記曖昧スコアマッチングコンピュータは、更に、その複数の第１の示唆されたサーチ質問パラメータをユーザ入力における部分サーチ質問パラメータへの一致の接近性に基づいて降下順に分類するように構成される、請求項４６に記載のシステム。
前記曖昧スコアマッチングコンピュータは、前記分類された複数の第１の示唆されたサーチ質問パラメータをドロップダウンリストにおいてユーザインターフェイスを経て提示するように構成される、請求項４９に記載のシステム。
前記エンティティ共起データベースはインデックスされる、請求項４６に記載のシステム。
前記エンティティ共起データベースは、エンティティ対エンティティのインデックスを含む、請求項４６に記載のシステム。
前記エンティティ共起データベースは、エンティティ対トピックスのインデックスを含む、請求項４６に記載のシステム。
前記エンティティ共起データベースは、エンティティ対ファクトのインデックスを含む、請求項４６に記載のシステム。
コンピュータにより、１つ以上のデータストリングを含むサーチ質問をサーチエンジンから受け取り、各々のエンティティは、１つ以上のストリングのサブセットに対応し、
コンピュータにより、エンティティデータベース及びトレンドデータベースに対して１つ以上のエンティティを比較することに基づき１つ以上のデータストリングにおいて１つ以上のエンティティを識別し、
コンピュータにより、少なくとも１つのエンティティに対応するものとして識別されない１つ以上のデータストリングにおいて１つ以上の特徴を識別し、
コンピュータにより、１つ以上の特徴の各々を、マッチングアルゴリズムに基づき１つ以上のエンティティの少なくとも１つに指定し、
コンピュータにより、各エンティティに指定された各々の特徴に指定されたスコアに基づき各々のエンティティに抽出スコアを指定し、
コンピュータにより、各々のエンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する１つ以上のエンティティを含む第１のサーチリストをエンティティデータベースから受け取り、
コンピュータにより、各々のエンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する１つ以上のエンティティを含む第２のサーチリストをトレンドデータベースから受け取り、
コンピュータにより、第１のサーチリスト及び第２のサーチリストを含む総計リストを発生し、その総計リストのエンティティは、各々の総計リストのスコアに従ってランク付けされ、及び
コンピュータにより、その総計リストに従って示唆されるサーチを与える、
ことを含む、コンピュータで実施される方法。
コンピュータにより、複数のデータソースに各々関連した複数のデータストリームを受け取り、
コンピュータにより、各データストリームに関連したプロパティのアレイを発生し、
データストリームのデータに関連したトリガー条件をコンピュータが検出するのに応答して、
コンピュータにより、データストリームのデータに関連した地理的データを発生し、
データソースのトリガー条件をコンピュータが検出しないのに応答して、
コンピュータにより、データソースに対するプロパティのアレイを、サーチインデックスに関連した管理プロパティのセットへマップし、及び
データソースのコンテンツのタイプが画像データであると決定するのに応答して、
コンピュータにより、データソースから受け取ったデータに関連したメタデータに対して光学的文字認識ルーチンを実行し、及び
コンピュータにより、そのメタデータで識別されるウェブサービスから、データソースからの更新されたデータストリームを検索し、データソースは、メタデータで識別されるウェブサービスに関連付けられる、
ようにされたコンピュータで実施される方法。