JP2017504105A - インメモリデータベースサーチのためのシステム及び方法 - Google Patents

インメモリデータベースサーチのためのシステム及び方法 Download PDF

Info

Publication number
JP2017504105A
JP2017504105A JP2016536900A JP2016536900A JP2017504105A JP 2017504105 A JP2017504105 A JP 2017504105A JP 2016536900 A JP2016536900 A JP 2016536900A JP 2016536900 A JP2016536900 A JP 2016536900A JP 2017504105 A JP2017504105 A JP 2017504105A
Authority
JP
Japan
Prior art keywords
entity
search
computer
entities
search query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2016536900A
Other languages
English (en)
Other versions
JP2017504105A5 (ja
Inventor
スコット ライトナー
スコット ライトナー
フランツ ウェックザー
フランツ ウェックザー
ラケシュ デイヴ
ラケシュ デイヴ
サンジェイ ボッヅ
サンジェイ ボッヅ
ジョーゼフ ベックネル
ジョーゼフ ベックネル
ビラリ ハキズワミ
ビラリ ハキズワミ
Original Assignee
キューベース リミテッド ライアビリティ カンパニー
キューベース リミテッド ライアビリティ カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キューベース リミテッド ライアビリティ カンパニー, キューベース リミテッド ライアビリティ カンパニー filed Critical キューベース リミテッド ライアビリティ カンパニー
Publication of JP2017504105A publication Critical patent/JP2017504105A/ja
Publication of JP2017504105A5 publication Critical patent/JP2017504105A5/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Automation & Control Theory (AREA)
  • Computational Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)

Abstract

エンティティ共起知識ベースを使用して関連エンティティを識別するシステム及び方法が開示される。実施形態において、エンティティインデックス型コーパスから抽出されたエンティティのエンティティ共起知識ベースを使用してサーチ質問において識別されるエンティティを抽出して、サーチ結果を関連エンティティとして提示する。エンティティ共起知識ベースと共に曖昧スコアマッチングを使用してサーチ示唆を発生する実施形態も開示される。又、実施形態において、サーチ質問から部分エンティティを抽出し、抽出されたエンティティのタイプに基づいてマッチングアルゴリズムを実行し、そしてエンティティ共起知識ベースに対してサーチを遂行する。共起及び/又は曖昧スコアマッチングに基づいて関連エンティティのサーチ示唆を発生する実施形態も開示される。それら実施形態では、部分サーチ質問を処理しそして完全な質問の示唆を提示し、それらは、新たなサーチ質問として使用される。又、エンティティ及びトレンド共起知識ベースを使用してサーチ質問からエンティティを抽出することによりエンティティ共起を使用してサーチ示唆を発生する実施形態も開示される。又、コンテンツマネージメントシステムにおいて地理的及び名前付きエンティティベースサーチ能力を可能にする実施形態も開示される。【選択図】図1

Description

本発明は、一般的に、情報検索のための方法及びシステムに関するもので、より詳細には、エンティティ共起(co-occurrence)を使用して関連エンティティをサーチする方法に関する。本発明は、一般的に、質問の向上に関するもので、より詳細には、知識ベースにおける曖昧スコアマッチング及びエンティティ共起を使用したサーチ示唆に関する。本発明は、一般的に、コンピュータ質問処理に関するもので、より詳細には、共起及び/又は曖昧スコアマッチングに基づく関連エンティティの電子サーチ示唆に関する。本発明は、一般的に、情報検索のための方法及びシステムに関するもので、より詳細には、サーチ示唆を得るための方法に関する。本発明は、一般的に、サーチエンジン及びコンテンツマネージメントに関するもので、より詳細には、デジタルコンテンツのジオタギング及び名前付エンティティのエンリッチメントを可能にするためのコンテンツマネージメントシステムのサーチエンジン技術の拡張に関する。
商業的コンテキストでは、良く知られたサーチエンジンがサーチ用語のセットをパースし、そしてある仕方で分類されたアイテム(典型的なサーチではウェブページ)のリストを返送する。サーチを遂行するための最も知られた解決策は、通常、キーワードに基づいてインデックスを発生するのに最終的に使用されるサーチ質問データベースを構築するために他のユーザの履歴的参照に基づいている。ユーザのサーチ質問は、エンティティに関連した名前又は属性で識別される1つ以上のエンティティを含む。又、エンティティは、組織、人々、場所、及び/又は時間も含む。典型的なサーチでは、ユーザが2つの特定の組織に関連した情報をサーチする場合に、サーチエンジンは、同じ名前又は同様の名前を伴う異なるエンティティの混合物についての詰め合わせ結果を返送する。後者の解決策では、ユーザが実際に何に関心があるかに関連しない大量のドキュメントをユーザが見出すことになる。
従って、関心のある関連エンティティを見出す能力をユーザに許可する関連エンティティサーチ方法の要望が存在する。
ユーザは、インターネット又は任意のデータベースシステムのいずれかにおいて関心のある情報を位置付けするためサーチエンジンをしばしば使用する。サーチエンジンは、通常、ユーザからサーチ質問を受け取りそしてサーチ結果をユーザへ返送することによって動作する。サーチ結果は、通常、サーチ質問に対する各返送サーチ結果の関連度に基づきサーチエンジンにより順序付けされる。それ故、サーチ質問のクオリティがサーチ結果のクオリティにとって著しく重要となる。しかしながら、ユーザからのサーチ質問は、ほとんどのケースでは、不完全に又は部分的に書かれるだけで(例えば、サーチ質問は、関連結果の焦点の合ったセットを発生するに充分なワードを含まず、むしろ、多数の非関連結果を発生する)、そして時々、スペルミスもある(例えば、Bill Smithは、誤ってBill Smitthと綴られる)。
サーチ結果のクオリティを改善するための1つの共通の解決策は、サーチ質問を向上させることである。サーチ質問を向上させる1つの方法は、ユーザの入力に基づいて考えられる示唆を発生することによるものである。このため、ある解決策は、1人以上のユーザにより提出された過去の質問から所与の質問に対する候補質問洗練化を識別する方法を提案する。しかしながら、この解決策は、ユーザを関心のない結果へと時々導く質問ログに基づいている。異なる技術を使用する他の解決策もあるが、充分正確ではない。従って、ユーザからのサーチ結果を改善又は向上させて、より正確な結果を得るための方法の要望が依然として存在する。
ユーザは、インターネット又は任意のデータベースシステムのいずれかにおいて関心のある情報を位置付けするためサーチエンジンをしばしば使用する。サーチエンジンは、通常、ユーザからサーチ質問を受け取りそしてサーチ結果をユーザへ返送することによって動作する。サーチ結果は、通常、サーチ質問に対する各返送サーチ結果の関連度に基づきサーチエンジンにより順序付けされる。それ故、サーチ質問のクオリティがサーチ結果のクオリティにとって著しく重要となる。しかしながら、ユーザからのサーチ質問は、ほとんどのケースでは、不完全に又は部分的に書かれるだけで(例えば、サーチ質問は、関連結果の焦点の合ったセットを発生するに充分なワードを含まず、むしろ、多数の非関連結果を発生する)、そして時々、スペルミスもある(例えば、Bill Smithは、誤ってBill Smitthと綴られる)。
サーチ結果のクオリティを改善するための1つの共通の解決策は、サーチ質問を向上させることである。サーチ質問を向上させる1つの方法は、ユーザの入力に基づいて考えられる示唆を発生することによるものである。このため、ある解決策は、1人以上のユーザにより提出された過去の質問から所与の質問に対する候補質問洗練化を識別する方法を提案する。しかしながら、この解決策は、ユーザを関心のない結果へと時々導く質問ログに基づいている。異なる技術を使用する他の解決策もあるが、充分正確ではない。従って、ユーザからのサーチ結果を改善又は向上させて、より正確な結果を得ると共に、ユーザがサーチ質問をタイプするときに関心のある有用な関連エンティティをユーザに与えるための方法の要望が依然として存在する。
サーチエンジンは、ユーザ質問の予測を与えるため複数の特徴を備えている。そのような予測は、質問自動完全化及びサーチ示唆を含む。今日、そのような予測方法は、履歴的キーワード参照に基づくものである。そのような履歴的参照は、1つのキーワードが単一テキストにおける複数のトピックスを参照し得るので、正確でないことがある。
更に、ユーザのサーチ質問は、エンティティに関連した名前又は属性により識別される1つ以上のエンティティを含む。それらエンティティは、組織、人々、場所、イベント、日付、及び/又は時刻も含む。典型的なサーチにおいて、ユーザが2つの特定の組織に関連した情報をサーチする場合には、サーチエンジンは、同じ名前又は同様の名前を伴う異なるエンティティの混合物についての詰め合わせ結果を返送する。後者の解決策では、ユーザが実際に何に関心があるかに関連しない大量のドキュメントをユーザが見出すことになる。
従って、より迅速に且つより正確にサーチ示唆を得るための方法の要望が存在する。
ドキュメントバージョニング及びコラボレートオブジェクトマネージメントのためのコンテンツマネージメント及びドキュメントマネージメントシステムが知られている。1つの非限定例は、Microsoft Sharepoint 2013(登録商標)ソフトウェア及びアプリケーションというツールセットである。Microsoft Sharepoint 2013(登録商標)は、コラボレーション、ファイルシェア及びウェブパブリッシングのためにマイクロソフト社により開発されたソフトウェア製品のファミリーである。このSharepoint 2013(登録商標)は、膨大な量のコンテンツ又は情報をユーザに与え、ユーザが特定の状況に対して最も関連性のある情報を見出すのを困難にする。これらの問題を軽減するために、Sharepoint 2013(登録商標)は、ユーザが必要とするコンテンツを見出す上でユーザを助けるためのサーチエンジンを提供する。ユーザは、キーワードベースのサーチ質問を入力し、そしてSharepoint 2013(登録商標)のサーチエンジンは、コンテンツがシンデックスされたときにSharepoint 2013(登録商標)プラットホームのコンテキスト内に見出される最も関連性のある結果のリストをユーザへ返送する。
時々、ユーザは、Sharepoint 2013(登録商標)における地理的エンティティ或いはドキュメント内で参照される組織又は人々のような他の形式のエンティティに関連したコンテンツを見出すことを希望する。Sharepoint 2013(登録商標)は、ドキュメントからエンティティを自動的に抽出するための機能をボックスから与えない。特に、地理的エンティティを抽出してそれを地理的位置に対して解明するためのジオタギングコンテンツをサポートするものではない。又、Sharepoint 2013は、ドキュメントにおける組織又は人々のような名前付エンティティを識別し、曖昧性除去しそして抽出するためのエンティティタギングをサポートするものでもない。しかしながら、Sharepoint 2013(登録商標)のサーチは、エンティティベースのサーチファセットを含めて、有効な地理的サーチ及び他のエンティティ関連サーチを可能にするように拡張することができる。Sharepoint 2013(登録商標)の以前のバージョンは、Sharepointのための「FASTサーチ」を含み、ここから、サンドボックス型アプリケーションを通してコンテンツ処理パイプラインを拡張することができるが、これは、低速であると共に、アクセスできる情報が限定される。
Sharepoint 2013(登録商標)は、コンセプト抽出、関係抽出、ジオタギング、要約化及び精巧なテキスト分析、等の特殊な言語学を追加できるようにする非常にオープンなAPIを導入する。従って、地理的及び他のエンティティベースのサーチを可能にするようにSharepoint 2013(登録商標)サーチエンジンの能力を拡張する機会が存在する。
エンティティ共起を使用して関連エンティティをサーチする方法が開示される。この開示の1つの態様において、この方法は、クライアント/サーバータイプのアーキテクチャーを含むサーチシステムに使用される。ある実施形態では、サーチシステムは、ネットワーク接続を経て1つ以上のサーバー装置と通信するサーチエンジンのためのユーザインターフェイスを備えている。サーバー装置は、電子データのエンティティインデックス型コーパス、エンティティ共起知識ベースのデータベース、及びエンティティ抽出コンピュータモジュールを備えている。知識ベースは、インメモリデータベースとして構築されて、1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体及び曖昧性除去モジュール、等の他のコンポーネントも含む。1つのサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
ある実施形態において、コンピュータで実施される方法は、エンティティ抽出コンピュータにより、クライアントコンピュータから、1つ以上のエンティティを含むサーチ質問を受け取り;エンティティ抽出コンピュータにより、各々のエンティティを、共起データベースにおける各エンティティの1つ以上の共起と比較し;エンティティ抽出コンピュータにより、サーチ質問からの1つ以上のエンティティのサブセットを、共起データベースに従ってそのエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度に基づきそのサブセットの各エンティティが共起データベースの信頼性スコアを越えるとの決定に応答して、抽出し;エンティティ抽出コンピュータにより、インデックス識別子(インデックスID)をその複数の抽出されたエンティティにおけるエンティティの各々に指定し;エンティティ抽出コンピュータにより、その複数の抽出されたエンティティの各々に対してインデックスIDを電子データコーパスにセーブし、電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによりインデックスされるものであり;サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型の電子データコーパスをサーチし;及びサーチサーバーコンピュータにより、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築する;ことを含む。
ある実施形態において、システムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、該エンティティ抽出モジュールは、更に、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、複数の抽出されたエンティティにおける各エンティティにインデックス識別子(インデックスID)を指定し、複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、この電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによりインデックスされるものであるように構成され;及び更に、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型の電子データコーパスをサーチするように構成されたサーチサーバーモジュールを備え、このサーチサーバーモジュールは、更に、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築するように構成される。
別の実施形態において、非一時的なコンピュータ読み取り可能な媒体は、エンティティ抽出コンピュータにより、サーチ質問パラメータのユーザ入力を受け取り;エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し;エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティにインデックス識別子(インデックスID)を指定し;エンティティ抽出コンピュータにより、複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、この電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによってインデックスされるものであり;サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型の電子データコーパスをサーチし;及びサーチサーバーコンピュータにより、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築する;ことを含むコンピュータ実行可能なインストラクションを記憶している。
知識ベースにおける曖昧スコアマッチング及びエンティティ共起を使用することによりサーチ示唆を発生する方法が開示される。この開示の1つの態様において、この方法は、クライアント/サーバー型のアーキテクチャーを含むサーチシステムに使用される。ある実施形態において、このサーチシステムは、ネットワーク接続を経て1つ以上のサーバー装置と通信するサーチエンジンに対するユーザインターフェイスを備えている。サーバー装置は、エンティティ抽出コンピュータモジュール、曖昧スコアマッチングコンピュータモジュール、及びエンティティ共起知識ベースのデータベースを備えている。知識ベースは、インメモリデータベースとして構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去コンピュータモジュールのような他のハードウェア及び/又はソフトウェアコンポーネントも備えている。あるサーチコントローラは、1つ以上のサーチノードに選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
この開示の別の態様において、この方法は、サーチ質問がエンティティを参照するかどうか識別し、もしそうであれば、どんな形式のエンティティを参照するか識別するため、与えられたサーチ質問から部分エンティティ抽出を遂行するエンティティ抽出モジュールを含む。更に、この方法は、抽出されたエンティティの形式に基づきアルゴリズムをスポーンし、そしてエンティティ共起知識ベースに対してサーチを遂行する曖昧スコアマッチングモジュールを含む。更に、エンティティに対応するものとして検出されない質問テキスト部分は、エンティティ共起知識ベースをサーチするのに使用できるトピックス、ファセット及びキーフレーズのような概念的特徴として処理される。一実施形態において、エンティティ共起知識ベースは、エンティティが、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、又はエンティティ対ファセットとしてインデックスされるレポジトリを含み、これは、速く正確な示唆をユーザへ返送してサーチ質問を完成するのを促進する。
ある実施形態において、方法が開示される。この方法は、エンティティ抽出コンピュータにより、ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取り;エンティティ抽出コンピュータにより、サーチ質問パラメータを、電子データコーパスにおける1つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて1つ以上のエンティティに対応する少なくとも1つのエンティティ形式を識別することにより、サーチ質問パラメータから1つ以上のエンティティを抽出し;及び曖昧スコアマッチングコンピュータにより、サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応する。この方法は、更に、曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の示唆されたサーチ質問パラメータを形成し;及び曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て1つ以上の示唆されたサーチ質問パラメータを提示する;ことを含む。
別の実施形態において、システムが提供される。このシステムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、そのエンティティ抽出モジュールは、サーチ質問パラメータを、電子データコーパスにおける1つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて1つ以上のエンティティに対応する少なくとも1つのエンティティ形式を識別することにより、サーチ質問パラメータから1つ以上のエンティティを抽出するように更に構成される。このシステムは、更に、サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成された曖昧スコアマッチングモジュールを備え、その曖昧マッチングモジュールは、少なくとも1つの識別されたエンティティ形式に対応する。その曖昧スコアマッチングモジュールは、更に、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の示唆されたサーチ質問パラメータを形成し、及びユーザインターフェイスを経て1つ以上の示唆されたサーチ質問パラメータを提示するように構成される。
共起及び/又は曖昧スコアマッチングに基づいて関連エンティティのサーチ示唆を発生する方法が開示される。この開示の1つの態様において、この方法は、クライアント/サーバー型アーキテクチャーを含むコンピュータサーチシステムに使用される。ある実施形態において、このサーチシステムは、ネットワーク接続を経て1つ以上のサーバー装置と通信するサーチエンジンに対するユーザインターフェイスを備えている。サーバー装置は、エンティティ抽出モジュール及び曖昧スコアマッチングモジュール並びにエンティティ共起知識ベースのデータベースを含む複数の特殊目的のコンピュータモジュールに対するインストラクションを実行する1つ以上のプロセッサを備えている。知識ベースは、インメモリデータベースとして構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのような他のコンポーネントも含む。あるサーチコントローラは、1つ以上のサーチノードに選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをそれに関連したサーチコントローラへ返送することができる。
この開示の別の態様において、この方法は、エンティティ抽出モジュールにより、与えられたサーチ質問から部分エンティティ抽出を遂行して、サーチ質問がエンティティを指すかどうか識別し、もしそうであれば、エンティティの形式を決定することを含む。更に、この方法は、曖昧スコアマッチングモジュールにより、抽出されたエンティティの形式に対応するアルゴリズムを発生し、そしてエンティティ共起知識ベースに対してサーチを遂行することを含む。更に、エンティティとして検出されない質問テキスト部分は、エンティティ共起知識ベースをサーチするのに使用できるトピックス、ファセット及びキーフレーズのような概念的特徴として処理される。エンティティが、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、又はエンティティ対ファセットとしてインデックスされるレポジトリを既に有するエンティティ共起知識ベースは、速く正確な示唆をユーザへ返送してサーチ質問を完成する
この開示の更に別の態様では、完成されたサーチ質問は、新たなサーチ質問として使用される。サーチシステムは、新たなサーチ質問を処理し、エンティティ抽出を実行し、エンティティ共起知識ベースからの最も高いスコアをもつ関連エンティティを見出し、そしてその関連エンティティをユーザにとって有用なドロップダウンリストに提示する。
ある実施形態において、方法が開示される。この方法は、エンティティ抽出コンピュータにより、ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取り、その部分サーチ質問パラメータは、少なくとも1つの未完成のサーチ質問パラメータを有するものであり;エンティティ抽出コンピュータにより、その部分サーチ質問パラメータを、電子データコーパスにおいて1つ以上の第1エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける1つ以上の第1エンティティに対応する少なくとも1つのエンティティ形式を識別することにより、部分サーチ質問パラメータから1つ以上の第1エンティティを抽出し;及び曖昧スコアマッチングコンピュータにより、部分サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものである。この方法は、更に、曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の第1の示唆されたサーチ質問パラメータを形成し;曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て1つ以上の第1の示唆されたサーチ質問パラメータを提示し;エンティティ抽出コンピュータにより、完成したサーチ質問パラメータを形成するために1つ以上の第1の示唆されたサーチ質問パラメータのユーザ選択を受け取り;及びエンティティ抽出コンピュータにより、その完成したサーチ質問パラメータから1つ以上の第2のエンティティを抽出することを更に含む。この方法は、更に、エンティティ抽出コンピュータにより、その1つ以上の第2のエンティティに関連した1つ以上のエンティティを識別して1つ以上の第2の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし;及びエンティティ抽出コンピュータにより、ユーザインターフェイスを経て1つ以上の第2の示唆されたサーチ質問パラメータを提示する;ことを含む。
別の実施形態において、システムが開示される。このシステムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、その部分サーチ質問パラメータは、少なくとも1つの未完成のサーチ質問パラメータを有するものであり、エンティティ抽出モジュールは、更に、その部分サーチ質問パラメータを、電子データコーパスにおいて1つ以上の第1エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける1つ以上の第1エンティティに対応する少なくとも1つのエンティティ形式を識別することにより、部分サーチ質問パラメータから1つ以上の第1エンティティを抽出するように構成される。このシステムは、更に、部分サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成され、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものである。曖昧スコアマッチングモジュールは、更に、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づいて1つ以上のレコードから1つ以上の第1の示唆されたサーチ質問パラメータを形成し、及びユーザインターフェイスを経て1つ以上の第1の示唆されたサーチ質問パラメータを提示するように構成される。加えて、エンティティ抽出モジュールは、更に、完成したサーチ質問パラメータを形成するため1つ以上の第1の示唆されたサーチ質問パラメータのユーザ選択を受け取り、その完成したサーチ質問パラメータから1つ以上の第2のエンティティを抽出し、その1つ以上の第2のエンティティに関連した1つ以上のエンティティを識別して1つ以上の第2の示唆されたサーチ質問パラメータを形成するためエンティティ共起データベースをサーチし、及びユーザインターフェイスを経て1つ以上の第2の示唆されたサーチ質問パラメータを提示する、ように構成される。
エンティティ及び特徴共起を使用してエンティティに関連したサーチ示唆を得る方法が開示される。この開示の1つの態様において、この方法は、クライアント/サーバー型のアーキテクチャーを含むサーチシステムに使用される。
1つ以上のサーバーに記憶されたエンティティを使用する方法を使用するサーチシステムは、エンティティデータベース及びトレンドデータベースを許す。そのようなデータベースのエンティティは、高いスコアに基づいてインデックスするためのスコアを有する。サーチ示唆を得るための方法は、サーチ示唆の単一リストを発生するために両データベースに記憶された情報を結合する。トレンドデータベースは、ローカルネットワーク及び/又はインターネットにおいて1人以上のユーザからの以前にサーチ質問を与える。エンティティデータベースは、ローカルネットワーク及び/又はインターネットにおいて利用可能な複数のデータからのエンティティ抽出に基づきサーチ示唆を与える。このリストは、ユーザのための示唆のより正確且つ迅速なグループを与える。
ある実施形態において、コンピュータで実施される方法は、コンピュータにより、1つ以上のデータストリングを含むサーチ質問をサーチエンジンから受け取り、各々のエンティティは、1つ以上のストリングのサブセットに対応し;コンピュータにより、エンティティデータベース及びトレンドデータベースに対して1つ以上のエンティティを比較することに基づき1つ以上のデータストリングにおける1つ以上のエンティティを識別し;コンピュータにより、少なくとも1つのエンティティに対応するものとして識別されない1つ以上のデータストリングにおいて1つ以上の特徴を識別し;コンピュータにより、1つ以上の特徴の各々を、マッチングアルゴリズムに基づき1つ以上のエンティティの少なくとも1つに指定し;コンピュータにより、各エンティティに指定された各々の特徴に指定されたスコアに基づき各々のエンティティに抽出スコアを指定し;コンピュータにより、各エンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する1つ以上のエンティティを含む第1のサーチリストをエンティティデータベースから受け取り;コンピュータにより、各エンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する1つ以上のエンティティを含む第2のサーチリストをトレンドデータベースから受け取り;コンピュータにより、第1のサーチリスト及び第2のサーチリストを含む総計リストを発生し、その総計リストのエンティティは、各総計リストのスコアに従ってランク付けされ;及びコンピュータにより、その総計リストに従って示唆されるサーチを与える;ことを含む。
ここに開示されるのは、Microsoft Sharepoint 2013(登録商標)のようなコンテンツマネージメントシステムにおいて地理的エンティティベースのサーチを可能にするシステム及び方法である。実施形態で述べる方法は、地理的タギングウェブサーバーを追加することによってSharepoint 2013(登録商標)サーチアーキテクチャーを拡張することを含む。このシステムは、コンピュータメモリ及び1つ以上のI/O装置に作動的に関連したコンピュータプロセッサを備え、ここで、プロセッサ及びメモリは、1つ以上のSharepoint 2013(登録商標)プロセスを動作するように構成される。又、このシステムは、コンピュータメモリ及び1つ以上のI/O装置に作動的に関連した別のコンピュータプロセッサも備え、ここで、プロセッサ及びメモリは、ジオタギングウェブサービスをホストしそしてその処理を与えるように構成される。Sharepoint 2013(登録商標)システムは、コンテンツのサーチを可能にするために、クローリングコンポーネント、コンテンツ処理コンポーネント、及びサーチインデックスコンポーネントを含む。Sharepoint 2013(登録商標)サーチにおけるコンテンツ処理コンポーネントは、コンテンツエンリッチメントウェブサーバー(CEWS)特徴を使用することによりその機能を拡張することができる。
この方法は、コンテンツ処理のために送られるクロールプロパティのアレイを得るために異なるソースからのクローリングコンテンツを含む。コンテンツの処理中に、トリガー状態は、オリジナルコンテンツを付加的な地理的メタデータプロパティでエンリッチするために付加的な処理からクロールプロパティに利益が得られるかどうか決定する。クロールプロパティが付加的な処理から利益を得ない場合には、クロールプロパティは、管理される処理へとマップされそしてサーチインデックスへ送られる。クロールプロパティが、外部ウェブサービス処理から利益を得る場合には、CEWSがハイパーテキスト転送プロトコル(HTTP)又は他のウェブサービスコール方法を使用して構成可能なエンドポイントへ単純なオブジェクトアクセスプロトコル(SOAP)要求をなす。エンティティエンリッチメントサービスは、コンテンツの形式を決定する。コンテンツが画像フォーマットである場合には、ファイル位置のようなそのメタデータが光学的文字認識(OCR)エンジンへ送られて、オリジナルドキュメントが検索され、非同期で処理されてテキストへと変換され、そしてクロールコンポーネントへ返送されて、テキストフォーマットで再クロールされる。コンテンツがテキストフォーマットである場合には、ジオタギングウェブサービスが地理的メタデータを識別し、そしてそれを、管理されるプロパティとしてコンテンツに関連付ける。コンテンツは、ジオタギングされた後に、インデックスコンポーネントへ送られる。
Sharepoint 2013(登録商標)ウェブ部分を使用するか、又はSharepoint 2013(登録商標)サーチの標準レイアウトを、とりわけ、HTML、HTML5、JavaScript(登録商標)及びCSSのような標準ウェブ開発ツールで変更することにより、付加的なサーチユーザインターフェイス(UI)が追加される。サーチUIは、例えば、これに限定されないが、デジタルマップのようなデジタル地理的特徴を使用して地理的サーチ質問を遂行するか又は地理的サーチ結果を表示する上でユーザの助けとなる。又、サーチUIは、付加的な、エンリッチされたエンティティ又はそれに関連したメタデータを使用してファセットサーチを遂行するように向上を図ることもできる。
以下の詳細な説明から、この開示の多数の他の観点、特徴、及び利益が明らかとなるであろう。
本開示は、添付図面を参照することにより良く理解することができる。図面中のコンポーネントは、必ずしも、正しい縮尺ではなく、むしろ、本開示の原理を示すときには強調されている。図中、参照番号は、異なる図面全体を通して対応部分を示している。
本発明のある実施形態が動作するコンピュータシステムの規範的な環境を示すブロック図である。 一実施形態によりエンティティ共起を使用してサーチする方法を示すフローチャートである。 システムによって返送されるサーチ結果が関心のある関連エンティティを含む簡単なサーチの実施形態を示すフローチャートである。 本発明のある実施形態が動作する規範的なシステム環境を示すブロック図である。 一実施形態により知識ベースにおける曖昧スコアマッチング及びエンティティ共起を使用してサーチ示唆を与える方法を示すフローチャートである。 図4−6の知識ベースにおける曖昧マッチング及びエンティティ共起を使用してサーチ示唆を発生するユーザインターフェイスの一例を示す図である。 本発明のある実施形態が動作する規範的なシステム環境を示すブロック図である。 一実施形態により共起及び/又は曖昧スコアマッチングに基づき関連エンティティのサーチ示唆を発生する方法を示すフローチャートである。 図8に示す方法に関連したユーザインターフェイスの規範的実施形態である。 エンティティ及びトレンドデータベースに基づきサーチ示唆を得る方法を示すブロック図である。 各データベースにおけるサーチ示唆の個々のスコアに基づき示唆のリストを発生することにより、エンティティ及びトレンドデータベースに基づきサーチ示唆を得る方法を示すブロック図である。 両データベースにおけるサーチ示唆の全スコアに基づき示唆のリストを発生することにより、エンティティ及びトレンドデータベースに基づきサーチ示唆を得る方法を示すブロック図である。 コンテンツマネージメントシステムにおけるコンテンツのタギング及びエンティティエンリッチメントのシステムアーキテクチャーである。 名前付き及び地理的エンティティサーチのためにコンテキストをタギング及びインデックスするプロセスを示す。
定義
ここで使用する次の用語は、次のような定義を有する。
エンティティ抽出」は、名前、場所及び組織のような情報を抽出するための情報処理方法を指す。
「コーパス」は、1つ以上のドキュメントの集合体を指す。
「特徴(Features)」は、ドキュメントから少なくとも一部分導出される情報である。
「イベントコンセプトストア」は、イベントテンプレートモデルのデータベースを指す。
「イベント」は、少なくともリアルタイムでの特徴発生により特徴付けられる1つ以上の特徴を指す。
「イベントモデル」は、特定形式のイベントに対して比較しそしてそれを識別するのに使用されるデータの集合体を指す。
「モジュール」は、少なくとも1つ以上のタスクを実行するのに適したコンピュータ又はソフトウェアコンポーネントを指す。
「特徴属性」は、特徴に関連したメタデータ、例えば、とりわけ、ドキュメントにおける特徴の位置、信頼スコアを指す。
「ファクト」は、特徴と特徴との間の客観的な関係を指す。
「エンティティ知識ベース」は、特徴/エンティティを含むコンピュータデータベースを指す。
「質問」は、1つ以上の適当なデータベースから情報を検索するための、コンピュータで発生される要求を指す。
「トピックス」は、コーパスから少なくとも一部分導出されるセマティック情報のセットを指す。
「ジオタギング」は、非構造化テキストファイルから地理的エンティティを抽出するプロセスを指す。ジオタギングは、エンティティを、特定の地理的場所及び付属の地理的メタデータ、例えば、地理的座標、地理的特徴形式及び他のメタデータへと曖昧性除去することを含む。
「エンティティタギング」は、非構造化テキストから名前付きエンティティを抽出するプロセスを指す。エンティティタギングは、エンティティ曖昧性除去、エンティティ名前正規化、及び付属のエンティティメタデータを含む。
「名前付きエンティティ」は、個人、組織又はトピックスを指す。
「地理的エンティティ」は、地理的位置又は地理的場所を指す。
「クロールされたプロパティ」は、クロール中にドキュメントを検査することから得られるコンテンツマネージメントシステムメタデータを指す。
詳細な説明
添付図面に各々示された好ましい実施形態を以下に詳細に説明する。上述した実施形態は、例示に過ぎない。当業者であれば、ここに述べる特定の実施例について、本発明の範囲内で、多数の別のコンポーネント及び実施形態に置き換えできることが認識されよう。本発明の精神又は範囲から逸脱せずに、他の実施形態が使用されてもよく及び/又は他の変更がなされてもよい。詳細な説明に述べる例示的実施形態は、ここに提示される要旨の限界を意味するものではない。
それでも、本発明の範囲の制限が意図されないことを理解されたい。ここに示す本発明の特徴の代替的及び更に別の実施形態、並びにここに示す本発明の原理の付加的な適用であって、当業者に対して生じ且つ本開示を所有するものは、本発明の範囲内であると考えるべきである。
本開示は、複数のソースからイベントを検出し、抽出し及び有効化するためのシステム及び方法について述べる。ソースは、ニュースソース、ソーシャルメディアウェブサイト、及び/又はイベントに関するデータを含むソースを包含する。
ここに開示するシステム及び方法の種々の実施形態は、独立したイベントを識別するために異なるソースからデータを収集する。
図1は、本発明によるサーチシステム100のブロック図である。サーチシステム100は、サーチシステム100に関連したソフトウェアモジュールを実行するプロセッサを含む1つ以上のクライアントコンピューティング装置を備え、それに含まれるグラフィックユーザインターフェイス102は、サーチエンジン104にアクセスし、ネットワーク108を経てサーバー装置106とバイナリデータの形態でサーチ質問を通信する。規範的実施形態では、サーチシステム100は、クライアント/サーバーコンピューティングアーキテクチャーにおいて実施される。しかしながら、サーチシステム100は、他のコンピュータアーキテクチャー(例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、アプリケーションサービスプロバイダー(ASP)モデル、ピア・ツー・ピアモデル、等)を使用して実施されてもよい。ネットワーク108は、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等のように、コンピューティング装置間でデジタルデータを通信できる適当なハードウェア及びソフトウェアモデルを備えている。従って、システム100は、単一のネットワーク108を経て、又は複数のネットワーク108を使用して実施されてもよいことが明らかであろう。
ユーザのコンピューティング装置102は、サーチ質問を送信できるソフトウェアモデルを含むサーチエンジン104にアクセスする。サーチ質問は、検索することが望まれる情報を指示するためにサーチエンジン104に与えられるパラメータである。サーチ質問は、サーチエンジン104のパース及び処理ルーチンに適合する適当なデータフォーマット(例えば、整数、ストリング、複素数オブジェクト)でユーザ又は別のソフトウェアアプリケーションにより与えられる。ある実施形態では、サーチエンジン104は、ユーザのコンピューティング装置102のブラウザ又は他のソフトウェアアプリケーションを通してアクセスでき且つユーザ又はソフトウェアアプリケーションがワールドワイドウェブにおいて情報を位置付けできるようにするウェブベースのツールである。ある実施形態では、サーチエンジン104は、システム100に対してネーティブなもので、ユーザ又はアプリケーションがシステム100のデータベース内の情報を位置付けできるようにするアプリケーションソフトウェアモジュールである。
単一のサーバー装置106として実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーで実施されるサーバー装置106は、エンティティ抽出モジュール110、エンティティ共起知識ベース112、及びエンティティインデックス型コーパス114を備えている。エンティティ抽出モジュール110は、質問ストリング、構造化データ、等の所与の質問セットから独立エンティティを抽出しそして曖昧性除去することのできるコンピュータソフトウェア及び/又はハードウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻である。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
種々の実施形態によれば、エンティティ共起知識ベース112は、これに限定されないが、インメモリコンピュータデータベース(図示せず)として構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去コンピュータモジュールのような他のコンポーネント(図示せず)を含む。あるサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
エンティティ共起知識ベース112は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。エンティティインデックス型コーパス114は、大量コーパス又はライブコーパスを有するインターネットのような複数のソースからのデータを含む。
図2は、図1に示されたようなサーチシステム100において実施されるエンティティ共起を使用して関連エンティティをサーチする方法200を示すフローチャートである。種々の実施形態によれば、方法200を開始する前に、図1に示したものと同様のエンティティインデックス型コーパス114には、電子データの大量コーパス又はライブコーパスのような複数のソース(例えば、インターネット、ウェブサイト、ブログ、ワード処理ファイル、平易テキストファイル)からのデータが供給されている。エンティティインデックス型コーパス114は、新たなデータが発見されるにつれて常時更新される複数のインデックスされたエンティティを含む。
ある実施形態では、方法200は、ステップ202において、コンピューティング装置102のユーザ又はソフトウェアアプリケーションが1つ以上のエンティティを含む1つ以上のサーチ質問をサーチエンジン104に与えるときにスタートする。ステップ202において与えられたサーチ質問は、サーチシステム100により、そのたびに、1からnまで処理される。ステップ202におけるサーチ質問は、例えば、ストリング、構造化データ、又は他の適当なデータフォーマットのようなキーワードの組み合わせである。図2の規範的実施形態では、サーチ質問のキーワードは、人々、組織、地理的位置、日付及び/又は時刻を表わすエンティティである。
ステップ202からのサーチ質問は、次いで、ステップ204において、エンティティ抽出のために処理される。このステップでは、エンティティ抽出モジュール110は、ステップ202からのサーチ質問をエンティティとして処理し、そしてそれらを全てエンティティ共起知識ベース112に対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
更に、特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。エンティティが抽出されそして信頼性スコアに基づいてランク付けされると、ある場合には番号であるインデックスIDが、ステップ206において、抽出されたエンティティに指定される。
次いで、ステップ208において、ステップ206で指定されたエンティティインデックスIDに基づくサーチが遂行される。サーチステップ208において、抽出されたエンティティは、標準的なインデックス方法を使用してエンティティインデックス型コーパス114内に位置付けられる。抽出されたエンティティが位置付けられると、エンティティ関連付けステップ210へと続く。エンティティ関連付けステップ210では、少なくとも2つの抽出されたエンティティが重畳するところのドキュメント、ビデオ、ピクチャー、ファイル、等の全てのデータがエンティティインデックス型コーパス114から引き出される。最後に、ステップ212において、潜在的な結果のリストが構築され、関連度により分類され、そしてサーチ結果としてユーザに提示される。結果のリストは、次いで、ユーザが関心のある関連エンティティを見出すところのデータへのリンクだけを示す。
図3は、図2に関連して上述したように、エンティティ共起を使用して関連エンティティをサーチするための方法300の特定例である。図2について述べたように、種々の実施形態によれば、方法300の開始の前に、図1で述べたものと同様のエンティティインデックス型コーパス114には、大量コーパス又はライブコーパスのような複数のソース(インターネット)からのデータが供給されている。エンティティインデックス型コーパス114は、新たなデータが発見されるにつれて常時更新される複数のインデックスされたエンティティを含む。
この規範的な実施形態では、ユーザは、会社「Apple」の「Jobs」に関する情報を探索する。このため、ユーザは、ユーザインターフェイス102を通して1つ以上のエンティティ(例えば、ステップ302におけるサーチ質問)を入力し、ユーザインターフェイスは、これに限定されないが、図1について述べたようなサーチエンジン104を伴うインターフェイスである。例示であって、これに限定されないが、ユーザは、「Apple+Jobs」のようなエンティティの組み合わせを入力する。次いで、サーチエンジン104は、ステップ302において、サーチ質問を発生し、そしてそれら質問を処理のためにサーバー装置106に送る。サーバー装置106において、エンティティ抽出モジュール110は、ステップ302のサーチ質問入力からステップ304のエンティティ抽出を遂行する。
エンティティ抽出モジュール110は、次いで、ステップ302で入力されたサーチ質問、例えば、「Apple」及び「Jobs」をエンティティとして処理し、そしてそれらを全てエンティティ共起知識ベース112に対して比較し、できるだけ多数のエンティティを抽出しそして曖昧性除去する。抽出中、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを示すスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
更に、特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づいて、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。その結果として、エンティティ及び共起を含むテーブル306が生成される。テーブル306は、エンティティ「apple」及びその共起、この場合には、Apple及びJobs、Apple及びSteve Jobsを示す。又、テーブル306は、Apple及びOrganization Aも含み、これは、Organization AがAppleとビジネスを行い且つ前記Organization Aに「jobs」を発生するので関連性があると分かっている。他の共起は、低い重要度で見出される。従って、Apple及びJobsは、最も高いスコア(1)を有し、従って、最上位にリストされ、次いで、Apple及びSteve Jobsは、第2の最も高いスコア(0.8)を有し、そして最後に、Apple及び他のOrganizationAは、最も低いスコア(0.3)で最も下にリストされる。
エンティティが抽出されそして信頼性スコアに基づきランク付けされると、ある場合に数字でもよいインデックスIDが、ステップ308において、抽出されたエンティティに指定される。テーブル310は、抽出されたエンティティに指定されるインデックスIDを示している。従って、テーブル310は、「Apple」をインデックスID1と共に示し、「Jobs」をインデックスID2と共に示し、「Steve Jobs」をインデックスID3と共に示し、そして「Organization」をインデックスID4と共に示している。
次いで、エンティティインデックスID(308)に基づくサーチステップ312が遂行される。サーチステップ312において、「Apple」「Jobs」「Steve Jobs」及び「Organization A」のような抽出されたエンティティは、標準的なインデックス方法を使用して、エンティティインデックス型コーパス114内に位置付けられる。
エンティティインデックス型コーパス114内に抽出されたエンティティを位置付けした後に、エンティティ関連付けステップ314へと続く。エンティティ関連付けステップ314では、少なくとも2つの抽出されたエンティティが重畳するところのドキュメント、ビデオ、ピクチャー、ファイル、等の全てのデータがエンティティインデックス型コーパス114から引き出されて、リンクのリストをサーチ結果として構築する(ステップ318)。例示であって、これに限定されないが、テーブル316は、抽出されたエンティティがエンティティインデックス型コーパス114のデータにどれほど関連付けられるか示している。テーブル316において、ドキュメント1、4、5、7、8及び10は、2つの抽出されたエンティティの重畳を示し、従って、それらドキュメントのためのリンクは、ステップ318において、サーチ結果として示される。
図4は、本発明によるサーチコンピュータシステム400のブロック図である。サーチシステム400は、ネットワーク408を経てサーバー装置406と通信するサーチエンジン404への1つ以上のユーザインターフェイス402を備えている。この実施形態では、サーチシステム400は、クライアント/サーバー形式のアーキテクチャーを経ることを含めて、以下に述べる1つ以上の特殊目的コンピュータ及びコンピュータモジュールにおいて実施される。しかしながら、サーチシステム400は、他のコンピュータアーキテクチャー(例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等)を使用して実施されてもよい。一実施形態では、サーチコンピュータシステム400は、複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を含む。
サーチエンジン404は、ユーザがワールドワイドウェブに情報を位置付けできるようにするウェブベースツールのようなユーザインターフェイスを含む。又、サーチエンジン404は、ユーザが内部データベースシステム内に情報を位置付けられるようにするユーザインターフェイスツールも含む。単一のサーバー装置406において実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーにおいて実施されるサーバー装置406は、エンティティ抽出モジュール410、曖昧スコアマッチングモジュール412、及びエンティティ共起知識ベースのデータベース414を含む。
エンティティ抽出モジュール410は、質問ストリング、部分質問、構造化データ、等の所与の質問セットから独立エンティティをオンザフライで抽出しそして曖昧性除去するように構成されたハードウェア及び/又はソフトウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻である。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
曖昧スコアマッチングモジュール412は、所与のサーチ質問から抽出されるエンティティの形式に従って選択される複数のアルゴリズムを含む。アルゴリズムの機能は、ユーザ入力を経て受け取った所与のサーチ質問及びアルゴリズムにより識別される他のサーチされたストリングが互いに同様であるかどうか又は所与のパターンストリングにほぼ一致するかどうか決定することである。又、曖昧マッチングは、曖昧ストリングマッチング、厳密でないマッチング、及びおおよそのマッチングとしても知られている。エンティティ抽出モジュール410及び曖昧スコアマッチングモジュール412は、エンティティ共起知識ベース414に関連して働いて、ユーザのためのサーチ示唆を発生する。
種々の実施形態によれば、エンティティ共起知識ベース414は、これに限定されないが、インメモリコンピュータデータベースとして構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのようなコンポーネントを含む。あるサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
エンティティ共起知識ベース414は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。
図5は、知識ベースにおいて曖昧スコアマッチング及びエンティティ共起を使用してサーチ示唆を発生する方法500を示すフローチャートである。この方法500は、図4に示すものと同様のサーチシステム400において実施される。
ある実施形態において、方法500は、ステップ502において、ユーザが図4に示したサーチエンジンインターフェイス402へサーチ質問をタイプし始めるときに始まる。ステップ502においてサーチ質問がタイプされるときに、サーチシステム400は、オンザフライプロセスを遂行する。種々の実施形態によれば、ステップ502のサーチ質問入力は、完全であるか又は部分的であり、正しいスペルであるか又はスペルミスがある。その後、サーチシステム400において、ステップ502のサーチ質問入力からの部分エンティティ抽出ステップ504が遂行される。部分エンティティ抽出ステップ504は、エンティティ共起知識ベース414に対してクイックサーチを実行して、ステップ502で入力されたサーチ質問がエンティティであるかどうか識別し、もしそうであれば、どんなタイプのエンティティであるか識別する。種々の実施形態によれば、ステップ402のサーチ質問入力は、とりわけ、個人、組織、位置又は場所、及び日付を指す。サーチ質問入力のエンティティタイプが識別されると、曖昧スコアマッチングモジュール412が、ステップ506において、それに対応する曖昧マッチングアルゴリズムを選択する。例えば、サーチ質問が、個人を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール412は、例えば、ファーストネーム、ミドルネーム、ラストネーム、及び肩書きを含む個人の名前の異なるコンポーネントを抽出することにより、個人のためのストリングマッチングアルゴリズムを選択する。別の実施形態では、サーチ質問が組織を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール412は、学校、大学、企業、会社、等の識別用語を含む組織のためのストリングマッチングアルゴリズムを選択する。曖昧スコアマッチングモジュール412は、次いで、卓越したサーチのためにサーチ質問入力における識別されたエンティティのタイプに対応するストリングマッチングアルゴリズムを選択する。ストリングマッチングアルゴリズムがその識別されたエンティティのタイプに対して調整されると、曖昧スコアマッチングステップ508が遂行される。
曖昧スコアマッチングステップ508では、抽出されたエンティティ(1つ又は複数)及び非エンティティが選択されて、エンティティ共起知識ベース414に対して比較される。抽出されたエンティティ(1つ又は複数)は、個人の不完全な名前、例えば、とりわけ、ファーストネーム及びラストネームの最初の文字、組織の省略形、例えば、「United Nation」を意味する「UN」、短縮形、及びニックネームを含む。エンティティ共起知識ベース414は、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、及びエンティティ対ファクトのような、構造化データとしてインデックスされる複数のレコードを既に登録している。後者は、ステップ508の曖昧スコアマッチングを非常に高速で行えるようにする。ステップ508の曖昧スコアマッチングは、これに限定されないが、レベンシュタイン距離、strcmp95、ITFスコアリング、等の共通のストリングメトリックを使用する。2つのワード間のレベンシュタイン距離は、あるワードを他のワードに変更するのに必要な単一キャラクタ編集の最低回数を指す。
最後に、曖昧スコアマッチングステップ508がエンティティ共起知識ベース414の全てのレコードに対するサーチ質問の比較及びサーチを終了すると、所与のパターンストリング(即ち、ステップ502のサーチ質問入力)に最も一致するか又は一致に最も近いレコードが、ステップ510におけるサーチ示唆のための第1候補として選択される。所与のパターンストリングとの一致にあまり近くない他のレコードは、第1候補の下に減少順に配置される。ステップ510のサーチ示唆は、考えられる一致のドロップダウンリストにおいてユーザに提示され、ユーザは、これを無視してもよいし、しなくてもよい。
図6は、図4−5について述べた曖昧スコアマッチング及びエンティティ共起知識ベースを使用してサーチ示唆を発生するための方法に基づく規範的なユーザインターフェイス600を示す。この例では、ユーザは、図4に示すものと同様のサーチエンジンインターフェイスを通して、サーチボックス606に部分質問604を入力する。例示であってこれに限定されないが、部分質問604は、図6に示すように、「Michael J」のような個人の不完全な名前である。これは、ユーザがサーチボタン608をまだ選択していないか、さもなければ、部分質問604をサーチシステム400へ提出して実際のサーチを遂行しそして結果を得ていないので、部分質問604と考えられる。
方法500(図5)に続いて、ユーザが「Michael J」とタイプするとき、エンティティ抽出モジュール410は、エンティティ共起知識ベース414に対して第1のワード(Michael)のクイックサーチをオンザフライで遂行して、エンティティのタイプを識別し、この例では、エンティティは、個人の名前を指す。その結果、曖昧スコアマッチングモジュール412は、個人の名前に対して仕立てられたストリングマッチングアルゴリズムを選択する。個人の名前は、例えば、イニシャルのみ(短い形態)、又はファーストネーム及びラストネームの第1文字、又はファーストネーム、ミドルネームのイニシャル及びラストネーム、又はその組み合わせを使用して、異なる形態で書かれたデータベースにおいて見出される。曖昧スコアマッチングモジュール412は、レベンシュタイン距離のような共通ストリングメトリックを使用して、エンティティ「Michael」に一致するエンティティ共起知識ベース414内のエンティティ、トピックス又はファクトに対するスコアを決定して指定する。この例では、Michaelは、その名前を有する膨大な量のレコードと一致する。しかしながら、ユーザが次に続く文字「J」をタイプするときに、曖昧スコアマッチングモジュール412は、エンティティ共起知識ベース414でMichaelを伴う全ての共起に対してレベンシュタイン距離に基づく別の比較を遂行する。エンティティ共起知識ベース414は、次いで、「Michael J」に対して最も高いスコアとの全ての考えられる一致を選択する。例えば、曖昧スコアマッチングモジュール412は、「Michael Jackson」「Michael Jordan」「Michael J.Fox」、又はある場合には「Michael Dell」のようなサーチ示唆610をユーザに返送する。次いで、ユーザは、ドロップダウンリストから、示唆された個人の1人を選択して、サーチ質問を完成することができる。前記の例を拡張すると、「Michael the basketball player」のような質問は、個人エンティティ名前変化における「Michael」、及びキーフレーズ、ファクト及びトピックスのような共起特徴における「the basketball player」についてエンティティ共起知識ベースをサーチすることにより返送される結果に基づいて「Michael Jordan」の示唆を招く。別の例として、「Alexander the actor」は、「Alexander Polinsky」の示唆を招く。当業者であれば、既存のプラットホームは、前記のように示唆を発生できないことが明らかであろう。
図7は、本発明によるサーチシステム700のブロック図である。サーチシステム700は、ネットワーク708を経てサーバー装置706と通信するサーチエンジン704に対する1つ以上のユーザインターフェイス702を備えている。この実施形態では、サーチシステム700は、クライアント/サーバー型アーキテクチャーで実施されるが、サーチシステム700は、他のコンピュータアーキテクチャー(例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等)、及び複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。
サーチエンジン704は、これに限定されないが、ユーザがワールドワイドウェブにおいて情報を位置付けできるようにするウェブベースツールを経てのインターフェイスを含む。又、サーチエンジン704は、ユーザが内部データベースシステム内で情報を位置付けできるようにするツールも含む。単一のサーバー装置706において実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーにおいて実施されるサーバー装置706は、エンティティ抽出モジュール710、曖昧スコアマッチングモジュール712、及びエンティティ共起知識ベースのデータベース714を含む。
エンティティ抽出モジュール710は、質問ストリング、部分質問、構造化データ、等の所与の質問セットから独立エンティティをオンザフライで抽出しそして曖昧性除去できるハードウェア及び/又はソフトウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻である。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される
曖昧スコアマッチングモジュール712は、所与のサーチ質問から抽出されるエンティティの形式に従って調整又は選択される複数のアルゴリズムを含む。アルゴリズムの機能は、所与のサーチ質問(入力)及びサーチされ示唆されたストリングが互いに同様であるかどうか又は所与のパターンストリングにほぼ一致するかどうか決定することである。又、曖昧マッチングは、曖昧ストリングマッチング、厳密でないマッチング、及びおおよそのマッチングとしても知られている。エンティティ抽出モジュール710及び曖昧スコアマッチングモジュール712は、エンティティ共起知識ベース714に関連して働いて、ユーザのためのサーチ示唆を発生する。
種々の実施形態によれば、エンティティ共起知識ベース714は、これに限定されないが、インメモリコンピュータデータベースとして構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのようなコンポーネントを含む。あるサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
エンティティ共起知識ベース714は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。
図8は、共起及び/又は曖昧スコアマッチングに基づき関連エンティティのサーチ示唆を発生する方法800の一実施形態を示すフローチャートである。この方法800は、図7について述べたのと同様のサーチシステム700において実施される。
ある実施形態において、方法800は、図7について上述したサーチエンジン704において、ユーザが、ステップ802で、サーチ質問をタイプするときに始まる。サーチ質問がタイプされるときに、サーチシステム700は、オンザフライプロセスを遂行する。種々の実施形態によれば、サーチ質問は、完全及び/又は部分的で、正しいスペルであり及び/又はスペルミスがある。次いで、サーチ質問の部分エンティティ抽出ステップ804が遂行される。部分エンティティ抽出ステップ804は、エンティティ共起知識ベース714に対してクイックサーチを実行して、サーチ質問がエンティティを含むかどうか識別し、もしそうであれば、エンティティのタイプを識別する。種々の実施形態によれば、サーチ質問エンティティは、とりわけ、個人、組織、位置又は場所、及び日付を指す。エンティティタイプがあると、曖昧スコアマッチングモジュール712が、ステップ806において、それに対応する曖昧マッチングアルゴリズムを選択する。例えば、サーチ質問が、個人を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール712は、ファーストネーム、ミドルネーム、ラストネーム、及び肩書きを含む個人の名前の異なるコンポーネントを抽出できる個人のためのストリングマッチングアルゴリズムを調整又は選択する。別の実施形態では、サーチ質問が組織を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール712は、学校、大学、企業、会社、等の識別用語を含む組織のためのストリングマッチングアルゴリズムを調整又は選択する。それ故、曖昧スコアマッチングモジュール712は、サーチを容易にするためエンティティのタイプに対するストリングマッチングアルゴリズムを調整又は選択する。エンティティのタイプに対応するようにストリングマッチングアルゴリズムが調整又は選択されると、曖昧スコアマッチングステップがステップ808において遂行される。
曖昧スコアマッチングステップ808では、抽出されたエンティティ(1つ又は複数)及び非エンティティが選択されて、エンティティ共起知識ベース714に対して比較される。抽出されたエンティティ(1つ又は複数)は、個人の不完全な名前、例えば、とりわけ、ファーストネーム及びラストネームの最初の文字、組織の省略形、例えば、「United Nation」を意味する「UN」、短縮形、及びニックネームを含む。エンティティ共起知識ベース714は、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、及びエンティティ対ファクトのような、構造化データとしてインデックスされる複数のレコードを既に登録している。これは、ステップ808の曖昧スコアマッチングを迅速に行えるようにする。曖昧スコアマッチングは、これに限定されないが、レベンシュタイン距離、strcmp95、ITFスコアリング、等の共通のストリングメトリックを使用する。2つのワード間のレベンシュタイン距離は、あるワードを他のワードに変更するのに必要な単一キャラクタ編集の最低回数を指す。
ステップ808の曖昧スコアマッチングがエンティティ共起知識ベース714の全てのレコードに対するサーチ質問の比較及びサーチを終了すると、サーチ質問入力の所与のパターンストリングに最も一致するか又は一致に最も近いレコードが、ステップ810において、サーチ示唆のための第1候補として選択される。サーチ質問入力の所与のパターンストリングとの一致にあまり近くない他のレコードは、第1候補の下に減少順に配置される。ステップ810のサーチ示唆は、質問を完成するためにユーザが選択する考えられる一致のドロップダウンリストにおいてユーザに提示される。
別の実施形態では、ユーザが関心のある一致を選択した後、サーチシステム700は、ステップ812において、その選択を新たなサーチ質問として取り上げる。その後、前記新たなサーチ質問からのエンティティ抽出ステップ814が遂行される。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。エンティティ抽出モジュール710は、次いで、エンティティ共起知識ベース714に対してサーチを実行して、最も高いスコアを持つ共起に基づき関連エンティティを見出す(ステップ816)。最後に、ステップ818において、関連エンティティを含むサーチ示唆のドロップダウンリストが、電子ドキュメントコーパスにおいて実際のデータサーチを遂行する前に、ユーザに提示される。
図9は、共起及び/又は曖昧スコアマッチングに基づき関連エンティティのサーチ示唆を発生するための方法800に関連したユーザインターフェイス900の規範的実施形態である。この例では、ユーザは、図7に示すものと同様のサーチエンジンインターフェイス902を通して、サーチボックス906に部分質問904を入力する。例示であってこれに限定されないが、部分質問304は、図9に示すように、「Michael J」のような個人の不完全な名前である。これは、ユーザがサーチボタン908をまだ選択していないか、さもなければ、部分質問904をサーチシステム100へ提出して実際のサーチを遂行しそして結果を得ていないので、部分質問904と考えられる。
方法800に続いて、ユーザが「Michael J」とタイプするとき、エンティティ抽出モジュール710は、エンティティ共起知識ベース714に対して第1のワード(Michael)のクイックサーチをオンザフライで遂行して、エンティティのタイプを識別し、この例では、エンティティは、個人の名前を指す。その結果、曖昧スコアマッチングモジュール712は、個人の名前に対して仕立てられたストリングマッチングアルゴリズムを選択する。個人の名前は、例えば、イニシャルのみ(短い形態)、又はファーストネーム及びラストネームの第1文字、又はファーストネーム、ミドルネームのイニシャル及びラストネーム、又はその組み合わせを使用して、異なる形態で書かれたデータベースにおいて見出される。曖昧スコアマッチングモジュール712は、レベンシュタイン距離のような共通ストリングメトリックを使用して、エンティティ「Michael」に一致するエンティティ共起知識ベース714内のエンティティ、トピックス又はファクトに対するスコアを決定して指定する。この例では、Michaelは、その名前を有する膨大な量のレコードと一致する。しかしながら、ユーザが次に続く文字「J」をタイプするときに、曖昧スコアマッチングモジュール712は、エンティティ共起知識ベース714でMichaelを伴う全ての共起に対してレベンシュタイン距離に基づく別の比較を遂行する。エンティティ共起知識ベース714は、次いで、「Michael J」に対して最も高いスコアとの全ての考えられる一致を選択する。例えば、曖昧スコアマッチングモジュール712は、「Michael Jackson」「Michael Jordan」「Michael J.Fox」、又はある場合には「Michael Dell」のようなサーチ示唆910をユーザに返送する。次いで、ユーザは、ドロップダウンリストから、示唆された個人の1人を選択するか、又は示唆を無視してタイピングを続けることができる。前記の例を拡張すると、「Michael the basketball player」のような質問は、個人エンティティ名前変化における「Michael」、及びキーフレーズ、ファクト、トピックス、等の共起特徴における「the basketball player」についてエンティティ共起知識ベースをサーチすることにより返送される結果に基づいて「Michael Jordan」の示唆を招く。別の例として、「Alexander the actor」は、「Alexander Polinsky」の示唆を招く。当業者に明らかなように、既存のサーチプラットホームは、前記のように発生される示唆を与えることができない。
この実施形態では、ユーザは、図9に示すように、ドロップダウンリストから「Michael Jordan」を選択して、部分質問904を完成させる。その選択は、次いで、サーチシステム700により新たなサーチ質問912として処理される。その後、その新たなサーチ質問912からのエンティティ抽出が行われる。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。エンティティ抽出モジュール710は、次いで、エンティティ共起知識ベース714に対して「Michael Jordan」のサーチを実行して、最も高いスコアを持つ共起に基づき関連エンティティを見出す。最後に、関連エンティティを含むサーチ示唆914のドロップダウンリストが、サーチボタン908をクリックすることにより、実際のデータサーチを遂行する前に、ユーザに提示される。図7−9について述べた前記システム及び方法は、ユーザが有用な関係を見出すことができるので、ユーザにとって迅速で且つ便利である。
図10は、本発明によるサーチシステム1000のブロック図である。サーチシステム1000は、サーチエンジン1002を備え、そのようなサーチエンジン1002は、ユーザからのデータ入力、例えば、ユーザ質問を許す1つ以上のユーザインターフェイスを備えている。
サーチシステム1000は、1つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース1004及びトレンドデータベース1006を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム1000は、クライアント/サーバー型アーキテクチャーで実施されるが、サーチシステム1000は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。
サーチエンジン1002は、これに限定されないが、ユーザがワールドワイドウェブに情報を位置付けられるようにするウェブベースツールを含む。又、サーチエンジン1002は、ユーザが内部データベースシステム内に情報を位置付けられるようにするツールも含む。
エンティティデータベース1004は、単一のサーバーとして実施されるか又は複数のサーバーにわたり分散型アーキテクチャーにおいて実施される。エンティティデータベース1004は、質問ストリング、構造化データ、等のエンティティ質問のセットを許す。そのようなエンティティ質問のセットは、インターネット及び/又はローカルネットワークにおいて利用できる複数のコーパスから前もって抽出される。エンティティ質問は、インデックスされそしてスコア付けされる。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻を含む。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
トレンドデータベース1006は、単一のサーバーとして実施されるか又は複数のサーバーにわたり分散型アーキテクチャーにおいて実施される。トレンドデータベース1006は、質問ストリング、構造化データ、等のエンティティ質問のセットを許す。そのようなエンティティ質問のセットは、インターネット及び/又はローカルネットワークにおいてユーザ及び/又は複数のユーザにより遂行される履歴的質問から前もって抽出される。エンティティ質問は、インデックスされそしてスコア付けされる。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻を含む。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
エンティティデータベース1004及びトレンドデータベース1006は、エンティティ共起知識ベースを備え、この知識ベースは、これに限定されないが、インメモリデータベース(図示せず)として構築されて、1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体及び曖昧性除去モジュール、等の他のコンポーネント(図示せず)を含む。1つのサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
共起知識ベースは、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。
サーチシステム1000は、サーチエンジン1002におけるユーザ質問をエンティティデータベース1004及びトレンドデータベース1006に対して比較する。サーチエンジン1002における自動完成モードは、両データベース、即ちエンティティデータベース1004及びトレンドデータベース1006からイネーブルされる。サーチシステム1000は、サーチ示唆1008のリストをユーザに対して展開し、そのようなリストは、データベースにおける各エンティティ示唆に指定される曖昧スコアに基づいて発生されインデックスされる。各エンティティ示唆のスコアは、サーチシステム1000によって自動的に及び/又はシステムスーパーバイザーによって手動で指定される。エンティティ示唆は、各エンティティにより得られるスコアに基づいて最も高い関連度から低い関連度へと順序付けされる。加えて、トレンドデータベース1006におけるスコアは、ローカルネットワーク及び/又はインターネットにおける1人以上のユーザからのトレンド及び質問頻度を使用して指定される。
各データベースのエンティティ示唆は、それらの中で比較され、次いで、スコアで得られたランクによりインデックス及び順序付けされ、従って、両データベース、即ちエンティティデータベース1004及びトレンドデータベース1006におけるエンティティ示唆を合成するサーチ示唆1008のリストがユーザに示される。ユーザがリストから示唆を選択するか、又は示唆リストから別の結果を選択する場合には、サーチシステム1000は、そのような情報をトレンドデータベース1006にセーブする。従って、サーチシステム1000の信頼性及び精度を高める自己学習システムが許される。要約すれば、トレンド共起知識ベースは、ユーザの質問及び選択された示唆から抽出された特徴で連続的に更新されて、オンザフライ学習の手段を与え、これは、サーチの関連度及び精度を改善する。更に、トレンド共起知識ベースは、システムを使用する異なるユーザにより及びトレンド検出モジュールのような自動的な方法によりポピュレートすることができる。
図11は、本発明によるサーチシステム1100のブロック図である。サーチシステム1100は、サーチエンジン1102を備え、そのようなサーチエンジン1102は、ユーザ質問のようなユーザからのデータ入力を許す1つ以上のユーザインターフェイスを含む。
サーチシステム1100は、1つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース1104及びトレンドデータベース1106を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム1100は、クライアント/サーバー型アーキテクチャーで実施されるが、サーチシステム1100は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。
ある実施形態では、サーチシステム1100は、ユーザがサーチエンジン1102のユーザインターフェイスを通して1つ以上のエンティティ(サーチ質問における)を入力するときにスタートする。サーチ質問は、例えば、ストリングデータフォーマット、構造化データ、等におけるキーワードの組み合わせである。これらキーワードは、人々、組織、地理的位置、日付及び/又は時刻を表わすエンティティである。この実施形態では、「Indiana Na」がサーチ質問として使用される。
「Indiana Na」は、次いで、エンティティ抽出のために処理される。エンティティ抽出モデルは、「Indiana Na」のようなサーチ質問をエンティティとして処理し、そしてそれらを、全て、エンティティデータベース1104及びトレンドデータベース1106におけるエンティティ共起知識ベースに対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。更に、エンティティ(例えば、個人、組織、位置)として検出されない質問テキスト部分は、エンティティ共起知識ベース(例えば、エンティティ及びトレンドデータベース)をサーチするのに使用できる概念的特徴(例えば、トピックス、ファクト、キーフレーズ)として処理される。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
この実施形態では、エンティティデータベース1104は、インデックス及びランク付けされるエンティティ示唆のリスト1108としてサーチ示唆のリストを示す。トレンドデータベース1106は、インデックス及びランク付けされるトレンドベース示唆リスト1110としてサーチ示唆のリストを示す。その後、サーチシステム1100は、エンティティデータベース1104及びトレンドデータベース1106により与えられるものに基づいてサーチ示唆リスト1112を構築する。このサーチ示唆リスト1112は、各データベースにおける各エンティティ示唆の個々のスコアに基づいてインデックス及びランク付けされ、従って、最も高い関連度が最初に示され、そしてその下に低い関連度の結果が続く。
サーチシステム1100では、サーチ示唆を得るための規範的な使用が開示される。サーチ示唆リスト1112は、「Indiana Na」ユーザ質問に基づく示唆を示す。その結果、そのエンティティに対して個々のスコア0.9に基づき「Indiana Name」が最初に現われ、次いで、個々のスコア0.8の結果として「Indiana Nasca」が示され、最後に、個々のスコア0.7に基づき「Indiana Nashville」が示される。個々のスコアは、考えられる繰り返しエンティティを適用せずにエンティティ示唆のリスト1108及びトレンドベースの示唆リスト1110を使用して比較される。
図12は、本発明によるサーチシステム1200のブロック図である。サーチシステム1200は、サーチエンジン1202を備え、そのようなサーチエンジン1202は、ユーザ質問のようなユーザからのデータ入力を許す1つ以上のユーザインターフェイスを含む。
サーチシステム1200は、1つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース1204及びトレンドデータベース1206を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム1200は、クライアント/サーバー型アーキテクチャーで実施されるが、サーチシステム1200は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。
ある実施形態では、サーチシステム1200は、ユーザがサーチエンジン1202のユーザインターフェイスを通して1つ以上のエンティティ(サーチ質問における)を入力するときにスタートする。サーチ質問は、例えば、ストリング、構造化データ、等におけるキーワードの組み合わせである。これらのキーワードは、人々、組織、地理的位置、日付及び/又は時刻を表わすエンティティである。この実施形態では、「Indiana Na」がサーチ質問として使用される。
「Indiana Na」は、次いで、エンティティ抽出のために処理される。エンティティ抽出モデルは、「Indiana Na」のようなサーチ質問をエンティティとして処理し、そしてそれらを、全て、エンティティデータベース1204及びトレンドデータベース1206におけるエンティティ共起知識ベースに対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。更に、エンティティ(例えば、個人、組織、位置)として検出されない質問テキスト部分は、エンティティ共起知識ベース(例えば、エンティティ及びトレンドデータベース)をサーチするのに使用できる概念的特徴(例えば、トピックス、ファクト、キーフレーズ)として処理される。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
この実施形態では、エンティティデータベース1204は、予めインデックス及びランク付けされるエンティティ示唆のリスト1208としてサーチ示唆のリストを示す。同様に、トレンドデータベース1206は、予めインデックス及びランク付けされるトレンドベース示唆リスト1210としてサーチ示唆のリストを示す。その後、サーチシステム1200は、エンティティデータベース1204及びトレンドデータベース1206により与えられるものに基づいてサーチ示唆リスト1212を構築する。このサーチ示唆リスト1212は、両データベースにおける各エンティティ示唆の全体的スコアに基づいてインデックス及びランク付けされ、従って、最も高い関連度が最初に示され、そしてその下に低い関連度の結果が続く。
サーチシステム1200では、サーチ示唆を得るための規範的な使用が開示される。サーチ示唆リスト1212は、「Indiana Na」ユーザ質問に基づく示唆を示す。その結果、エンティティ示唆のリスト1208におけるスコア0.8及びトレンドベースの示唆リスト1210におけるスコア0.6の和から得られる全体的スコア1.4に基づいて「Indiana Nasca」が最初に現われる。同様に、全体的スコア0.9の結果として「Indiana Name」が示され、最後に、全体的スコア0.7に基づいて「Indiana Nashville」が示される。
図13は、Sharepoint 2013(登録商標)におけるコンテンツをジオタギングするためのシステムアーキテクチャー1300を示す。サーチインデックス1324は、Sharepoint1302においてサーチを可能にするための多数の重要コンポーネントの1つである。Sharepoint 2013(登録商標)1302においてサーチを可能にする別の重要部分は、コンテンツをインデックスするためのコンテンツキャプチャーである。
クローラー1304は、異なるコンテンツソース1306を通してクロールし、メタデータプロパティのリストを各コンテンツに追加する。コンテンツソースは、例えば、これに限定されないが、Sharepointコンテンツ、ネットワークファイルシェア、或いはユーザ又はイントラネットコンテンツを含む。クローラー1304は、コンテンツソース1306にセキュアに接続し、ソースからのドキュメントをクロールされたプロパティとしてそれらのメタデータに関連付けるという機能を遂行するように構成される。クローラー1304は、コンテンツに全クロール又は増分的クロールを与えるように構成される。クロールされたプロパティは、例えば、これに限定されないが、とりわけ、著者、タイトル、創作日を含む。
Sharepoint 2013(登録商標)は、コンテンツ処理コンポーネント1308を含む。このコンテンツ処理コンポーネント1308は、クローラー1304からコンテンツを取り出し、そしてそれをインデックスするための準備をする。コンテンツ処理1308は、とりわけ、言葉の処理(言語検出)、パース、エンティティ抽出マネージメント、コンテンツベースのファイルフォーマット検出、コンテンツ処理エラーレポート、自然言語処理、及びクロールされたプロパティの、管理されたプロパティへのマッピングの段階を含む。
コンテンツ処理1308は、コンテンツエンリッチメントウェブサービス(CEWS1310)により拡張される。CEWS1310は、ウェブサービスコールアウト1312が外部ウェブサービスをコールして付加的なアクションを遂行しそしてクロールされたデータプロパティをエンリッチできるようにすることで、コンテンツ処理1308のエンリッチメントを可能にする。ウェブサービスコールアウト1312は、標準的な簡単なオブジェクトアクセスプロトコル(SOAP)要求であるか、或いはクロールされたデータの構造化情報をエンティティエンリッチメントサービス1314と交換するのに使用される他のウェブサービスコール方法である。ウェブサービスコールアウト1312は、コンテンツエンリッチメント構成オブジェクトにおいてエンリッチメント処理のために外部ウェブサービスをいつコールするか制御するように構成されたトリガー条件を含む。又、エンティティエンリッチメントサービス1314は、クロールされたデータのドキュメントタイプを決定して、画像(スキャンされたドキュメント、ピクチャー、等)の形態で到来するコンテンツを決定する。画像の形態のコンテンツが見出されると、エンティティエンリッチメントサービス1314は、クロールされたドキュメントの位置を、例えば、これに限定されないが、光学的文字認識コンポーネント又は他の画像処理コンポーネントのようなOCR処理エンジン1316へ送出する。OCR処理エンジン1316は、次いで、画像ファイルを検索及び処理して、それをテキストファイルへ非同期で変換する。OCRで処理されたファイル1318は、その後、クローラー1304へ再供給され、テキストファイルとしてクロールされると共に、コンテンツ処理1308へ返送されて、ワークフローの残り部分で処理される。
システムアーキテクチャー1300は、外部ジオタガーウェブサービス1320及び名前付きエンティティタガーサービス1322を含む。ジオタガーウェブサービス1320及び名前付きエンティティタガーサービス1322は、両方とも、ウェブサービスアプリケーションプロバイダーとして機能しそしてウェブサービスコールアウト1312に応答するように構成されたソフトウェアモジュールである。ジオタガーウェブサービス1320は、自然言語処理エンティティ抽出技術、マシン学習モデル及び他の技術を使用して、クロールされたコンテンツからの地理的エンティティを識別し及び曖昧性除去する。例えば、ジオタガーウェブサービス1320は、ガゼッタにおいて見出されたエンティティの統計学的共起を分析することにより地理的エンティティを曖昧性除去する。ジオタガーウェブサービス1320は、クローラー1304により見出されたコンテンツに対してリンクされる統計学的共起エンティティのデータベースを含む。その同じ技術に続いて、名前付きエンティティタガーサービス1322を使用して、組織、人々又はトピックスのような付加的なエンティティ又はテキスト特徴が抽出される。
ジオタガーウェブサービス1320は、CEWS1310により入力プロパティとして送られた管理プロパティを分析し、そしてテキストにおいて参照される地理的エンティティを識別する。入力プロパティの非限定例は、とりわけ、FileType、IsDocument、OriginalPath、及びボディを含む。ジオタガーウェブサービス1320は、次いで、見出された各地理的エンティティを参照して管理プロパティを生成又は変更することによりテキストをジオタギングする。ジオタガーウェブサービス1320は、変更された又は新たな管理プロパティをエンティティエンリッチメントサービス1314へ送出し、そこで、変換が行われて、変更された管理プロパティをマップし、そしてそれを出力プロパティとしてCEWS1310へ返送する。この同じプロセスを使用して、組織、人々又はトピックスのような他のエンティティ又は他の特徴の抽出及びエンティティタギングのために名前付きエンティティタガーサービス1322と対話する。
増強された管理プロパティがエンティティエンリッチメントサービス1314によって返送された後に、プロパティは、クロールされたファイル管理プロパティと合流され、そしてサーチインデックス1324へ送られる。
地理的及び他のエンティティタグがコンテンツに関連付けられそしてインデックスされると、地理的又は名前付きエンティティ特徴を使用してサーチ質問が遂行される。Sharepoint 2013(登録商標)におけるサーチUI 1326は、地理的ベースのサーチを遂行する上でユーザの助けとなり且つファセットサーチ結果の表示向上をサポートする特定のディスプレイを含む。サーチUI 1326は、カスタムウェブ部分でもよいし、又はHTML、HTML5、JavaScript(登録商標)及びCSSのような標準的なツールでSharepoint 2013(登録商標)サーチの標準レイアウトを変更することにより行われてもよい。
図14は、Sharepoint 2013(登録商標)サーチのためにコンテンツをタギングするプロセスステップを示すフローチャート1400である。このプロセスは、Sharepoint 2013(登録商標)のクローラーコンポーネントがコンテンツに対してクロールを遂行するときに始まる(ステップ1402)。ある実施形態では、クロールが全クロールであり、別の実施形態では、クロールが増分的クロールである。クローラーコンポーネントは、次いで、クロールされたプロパティ及びメタデータをコンテンツ処理へ供給する(ステップ1404)。クロールされたコンテンツが地理的又は名前付きエンティティを含むかどうか検証するための決定がなされる。例えば、これに限定されないが、トリガー条件が使用される。トリガー条件は、コンテンツがジオタギング又はエンティティタギングから利益を得るかどうか決定するプログラミングロジック又はルールのセットを含む。トリガー条件が偽と評価する場合には、クロールされたコンポーネントが管理プロパティに関連付けられ(ステップ1406)そしてサーチインデックスコンポーネントへ通される(ステップ1408)。トリガー条件が真と評価する場合には、CEWSがウェブサービスコールアウトをエンティティエンリッチメントサービスへ送る(ステップ1410)。エンティティエンリッチメントサービスは、送られたコンテンツを分析して、コンテンツが画像フォーマット(スキャンされたドキュメント、ピクチャー、等)であるかどうか決定する。画像フォーマットで見出されたコンテンツは、OCRエンジンにより非同期で処理され、そしてクローリングコンポーネントによりテキストファイルとしてクロールされるべく返送される(ステップ1412)。コンテンツが画像フォーマットでない場合には、コンテンツは、ジオタギングウェブサーバー又は名前エンティティタガーサービスにより処理される(ステップ1414)。ウェブサービスは、コンテンツにおいて参照される地理的又は名前付きエンティティを抽出及び曖昧性除去し、そしてそれらをエンティティメタデータでエンリッチする。識別されたエンティティ及びそれらのメタデータは、管理プロパティとしてコンテンツ処理コンポーネントへ返送されそしてコンテンツに関連付けされる(ステップ1416)。関連付けされたメタデータは、次いで、サーチインデックスコンポーネントへ送られる(ステップ1406)。
種々の態様及び実施形態が開示されたが、他の態様及び実施形態も意図される。ここに開示した種々の態様及び実施形態は、例示のためのもので、それに限定されるものではなく、真の範囲及び精神は、特許請求の範囲により示される。
以上の方法の説明及びプロセスフロー図は、単なる例示として示されたもので、種々の実施形態のステップを、提示した順序で遂行しなければならないことを要求し又は意味することは意図されない。当業者に明らかなように、前記実施形態におけるステップは、任意の順序で遂行されてもよい。「次いで(then)」、「次に(next)」、等のワードは、ステップの順序を限定するものではなく、これらのワードは、単に、方法の説明を通して読者を誘導するのに使用されるだけである。プロセスフロー図は、オペレーションを一連のプロセスとして示すが、多数のオペレーションを並列に又は同時に遂行することもできる。加えて、オペレーションの順序は、再構成してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラム、等に対応する。プロセスが機能に対応するとき、その終了は、コーリング機能又はメイン機能への機能の復帰に対応する。
ここに開示する実施形態に関連して述べた種々の例示的論理ブロック、モジュール、回路及びアルゴリズムステップは、電子的ハードウェア、コンピュータソフトウェア又はその両方の組み合わせとして具現化されてもよい。ハードウェア及びソフトウェアのこの互換性を明確に示すために、種々の例示的コンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能に関して一般的に説明された。そのような機能がハードウェアとして具現化されるかソフトウェアとして具現化されるかは、システム全体に課せられる特定アプリケーション及び設計上の制約に依存する。当業者であれば、ここに述べた機能を特定アプリケーションごとに色々な仕方で具現化できるが、そのような具現化の判断は、本発明の範囲から逸脱すると解釈されてはならない。
コンピュータソフトウェアで具現化される実施形態は、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はその組み合わせで具現化される。コードセグメント又はマシン実行可能なインストラクションは、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、或いはインストラクション、データ構造体又はプログラムステートメントの組合せを表わす。コードセグメントは、情報、データ、アーギュメント、パラメータ又はメモリコンテンツを通し及び/又は受け取ることにより別のコードセグメント又はハードウェア回路に結合される。情報、アーギュメント、パラメータ、データ、等は、メモリ共有、メッセージ通過、トークン通過、ネットワーク送信、等を含む適当な手段を経て通され、転送され又は送信される。
これらのシステム及び方法を実施するのに使用される実際のソフトウェアコード又は特殊な制御ハードウェアは、本発明を限定するものではない。従って、システム及び方法のオペレーション及び振舞いは、ここでの記載に基づいてシステム及び方法を実施するようにソフトウェア及び制御ハードウェアを設計できることを理解して、特定のソフトウェアコードを参照せずに説明した。
ソフトウェアで実施されるときに、機能は、非一時的コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に1つ以上のインストラクション又はコードとして記憶される。ここに開示する方法又はアルゴリズムのステップは、コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に存在するプロセッサ実行可能なソフトウェアモジュールにおいて実施される。非一時的なコンピュータ読み取り可能な又はプロセッサ読み取り可能な媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にするコンピュータストレージ媒体及び有形のストレージ媒体の両方を含む。非一時的なプロセッサ読み取り可能なストレージ媒体は、コンピュータによりアクセスされる利用可能な媒体である。これに限定されないが、一例として、そのような非一時的なプロセッサ読み取り可能な媒体は、RAM、ROM、EEPROM、CD−ROM又は他の光学ディスクストレージ、磁気ディスクストレージ又は他の磁気ストレージ装置、或いはインストラクション又はデータ構造体の形態で望ましいプログラムコードを記憶するのに使用され且つコンピュータ又はプロセッサによりアクセスされる他の有形のストレージ媒体を含む。ここで使用するディスク(disk & disc)とは、コンパクトディスク(CD)、レーザーディスク(登録商標)、光学ディスク、デジタル多様性ディスク(DVD)、フロッピーディスク、及びブルーレイディスクを含み、ここで、ディスク(disk)は、通常、データを磁気的に再生するものであり、一方、ディスク(disc)は、データをレーザで光学的に再生するものである。前記の組み合わせも、コンピュータ読み取り可能な媒体の範囲内に包含される。加えて、方法又はアルゴリズムのオペレーションは、コンピュータプログラム製品に合体される非一時的プロセッサ読み取り可能な媒体及び/又はコンピュータ読み取り可能な媒体にコード及び/又はインストラクションの1つ又は組み合わせ或いはセットとして存在する。
技術の種々のコンポーネントは、分散型ネットワーク及び/又はインターネットの遠隔部分に、或いは専用のセキュア、アンセキュア及び/又は暗号化システム内に配置できることが明らかである。従って、システムのコンポーネントは、1つ以上の装置に結合するか、又はテレコミュニケーションネットワークのような分散型ネットワークの特定ノードに共通配置できることが明らかである。以上の説明から明らかなように、計算効率の理由で、システムのコンポーネントは、システムのオペレーションに影響することなく、分散型ネットワーク内の任意の位置に配置することができる。更に、それらのコンポーネントは、専用マシンに埋め込むこともできる。
更に、エレメントを接続する種々のリンクは、ワイヤード又はワイヤレスリンク又はその組み合わせ、或いは接続されたエレメントへ及びそこからデータを供給及び/又は通信することのできる他の既知の又は今後開発されるエレメントであることが明らかである。ここで使用するモジュールという語は、エレメントに関連した機能を遂行できる既知の又は今後開発されるハードウェア、ソフトウェア、ファームウェア、又はその組み合わせを指す。又、ここで使用する決定、計算及びコンピューティング、並びにその変形の語は、交換可能に使用され、そして任意のタイプの方法、プロセス、数学演算又は技術を包含する。
ここに開示する実施形態の前記説明は、当業者が本発明を実施又は利用できるようにするためになされたものである。これら実施形態に対する種々の変更は、当業者に容易に明らかであり、そしてここに定義する一般的な原理は、本発明の精神又は範囲から逸脱せずに他の実施形態に適用される。従って、本発明は、ここに示す実施形態に限定されるものではなく、特許請求の範囲並びにここに開示した原理及び新規な特徴に一致する最も広い範囲と調和されるべきである。
以上に述べた実施形態は、例示に過ぎない。当業者であれば、ここに述べた特定例に対して置き換えられ且つ依然として本発明の範囲内に入る多数の代替的コンポーネント及び実施形態が認識されよう。
100:サーチシステム
102:グラフィックユーザインターフェイス
104:サーチエンジン
106:サーバー装置
108:ネットワーク接続
110:エンティティ抽出モジュール
112:エンティティ共起知識ベース
114:エンティティインデックス型コーパス
400:サーチコンピュータシステム
402:ユーザインターフェイス
404:サーチエンジン
406:サーバー装置
408:ネットワーク接続
410:エンティティ抽出モジュール
412:曖昧スコアマッチングモジュール
414:エンティティ共起知識ベースのデータベース
700:サーチシステム
702:ユーザインターフェイス
704:サーチエンジン
706:サーバー装置
708:ネットワーク接続
710:エンティティ抽出モジュール
712:曖昧スコアマッチングモジュール
714:エンティティ共起知識ベースのデータベース
1000:サーチシステム
1002:サーチエンジン
1004:エンティティデータベース
1006:トレンドデータベース
1008:サーチ示唆
1300:システムアーキテクチャー
1302:Sharepoint
1304:クローラー
1306:コンテンツソース
1308:コンテンツ処理
1312:ウェブサービスコールアウト
1314:エンティティエンリッチメントサービス
1316:OCR処理エンジン
1318:OCRファイル
1320:ジオタガーウェブサービス
1322:名前付きエンティティタガーサービス
1324:サーチインデクサ
1326:サーチUI

Claims (56)

  1. エンティティ抽出コンピュータにより、クライアントコンピュータから、1つ以上のエンティティを含むサーチ質問を受け取り、
    エンティティ抽出コンピュータにより、各々のエンティティを、共起データベースにおける各エンティティの1つ以上の共起と比較し、
    エンティティ抽出コンピュータにより、サーチ質問からの1つ以上のエンティティのサブセットを、共起データベースに従ってそのエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度に基づきそのサブセットの各エンティティが共起データベースの信頼性スコアを越えるとの決定に応答して、抽出し、
    エンティティ抽出コンピュータにより、インデックス識別子(インデックスID)をその複数の抽出されたエンティティにおけるエンティティの各々に指定し、
    エンティティ抽出コンピュータにより、その複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、この電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによりインデックスされるものであり、
    サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けしそしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型電子データコーパスをサーチし、及び
    サーチサーバーコンピュータにより、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築する、
    ことを含む、コンピュータで実施される方法。
  2. サーチサーバーコンピュータにより、信頼性スコアに基づく関連度によりサーチ結果リストを分類し、そしてサーチサーバーコンピュータにより、その分類されたサーチ結果リストをユーザ装置へ転送することを更に含む、請求項1に記載の方法。
  3. 前記複数の抽出されたエンティティは、信頼性スコアに基づきランク付けされる、請求項1に記載の方法。
  4. 前記エンティティ抽出コンピュータは、抽出されたエンティティを、エンティティインデックス型電子データコーパスにおける1つ以上の共起エンティティに関連付ける、請求項1に記載の方法。
  5. 前記関連付けられたエンティティは、信頼性スコアによりランク付けされる、請求項4に記載の方法。
  6. 複数のエンティティの各々は、個人、組織、地理的位置、日付及び時刻より成るグループから選択される、請求項1に記載の方法。
  7. 複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、
    サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、このエンティティ抽出モジュールは、更に、
    複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、
    複数の抽出されたエンティティにおける各エンティティにインデックス識別子(インデックスID)を指定し、
    複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、この電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによりインデックスされる、
    ように構成され、及び
    その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型電子データコーパスをサーチするように構成されたサーチサーバーモジュールを更に備え、このサーチサーバーモジュールは、更に、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築するように構成される、システム。
  8. 前記サーチサーバーモジュールは、信頼性スコアに基づく関連度によりサーチ結果リストを分類し、そしてその分類されたサーチ結果リストをユーザ装置へ転送するように更に構成される、請求項7に記載のシステム。
  9. 前記複数の抽出されたエンティティは、信頼性スコアに基づきランク付けされる、請求項7に記載のシステム。
  10. 前記エンティティ抽出モジュールは、抽出されたエンティティを、エンティティインデックス型電子データコーパスにおける1つ以上の共起エンティティに関連付けるように構成される、請求項7に記載のシステム。
  11. 前記関連付けられたエンティティは、信頼性スコアによってランク付けされる、請求項10に記載のシステム。
  12. 複数のエンティティの各々は、個人、組織、地理的位置、日付及び時刻より成るグループから選択される、請求項7に記載のシステム。
  13. エンティティ抽出コンピュータにより、サーチ質問パラメータのユーザ入力を受け取り、
    エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、
    エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティにインデックス識別子(インデックスID)を指定し、
    エンティティ抽出コンピュータにより、複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、該電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによってインデックスされるものであり、
    サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型電子データコーパスをサーチし、及び
    サーチサーバーコンピュータにより、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築する、
    ことを含むコンピュータ実行可能なインストラクションを記憶している非一時的なコンピュータ読み取り可能な媒体。
  14. 前記インストラクションは、更に、サーチサーバーコンピュータにより、信頼性スコアに基づく関連度によってサーチ結果リストを分類し、そしてサーチサーバーコンピュータにより、その分類されたサーチ結果リストをユーザ装置へ転送することを含む、請求項13に記載のコンピュータ読み取り可能な媒体。
  15. 前記複数の抽出されたエンティティは、信頼性スコアに基づきランク付けされる、請求項13に記載のコンピュータ読み取り可能な媒体。
  16. 前記インストラクションは、更に、エンティティ抽出コンピュータにより、抽出されたエンティティを、エンティティインデックス型電子データコーパスにおける1つ以上の共起エンティティに関連付ける、請求項13に記載のコンピュータ読み取り可能な媒体。
  17. 前記関連付けられたエンティティは、信頼性スコアによってランク付けされる、請求項16に記載のコンピュータ読み取り可能な媒体。
  18. 複数のエンティティの各々は、個人、組織、地理的位置、日付及び時刻より成るグループから選択される、請求項13に記載のコンピュータ読み取り可能な媒体。
  19. エンティティ抽出コンピュータにより、ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取り、
    エンティティ抽出コンピュータにより、サーチ質問パラメータを、電子データコーパスにおける1つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて1つ以上のエンティティに対応する少なくとも1つのエンティティ形式を識別することにより、サーチ質問パラメータから1つ以上のエンティティを抽出し、
    曖昧スコアマッチングコンピュータにより、サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものであり、
    曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の示唆されたサーチ質問パラメータを形成し、及び
    曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て1つ以上の示唆されたサーチ質問パラメータを提示する、
    ことを含む方法。
  20. 曖昧スコアマッチングコンピュータにより、ユーザ入力が終了する前にその選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチすることを更に含む、請求項19に記載の方法。
  21. 前記サーチ質問パラメータに関連した1つ以上のレコードは、概念的特徴を含む、請求項19に記載の方法。
  22. 前記1つ以上の示唆されたサーチ質問パラメータは、複数の示唆されたサーチ質問パラメータを含み、前記方法は、更に、曖昧スコアマッチングコンピュータにより、その複数の示唆されたサーチ質問パラメータをユーザ入力におけるサーチ質問パラメータへの一致の接近性に基づいて降下順に分類することを更に含む、請求項19に記載の方法。
  23. 前記曖昧スコアマッチングコンピュータは、前記分類された複数の示唆されたサーチ質問パラメータをドロップダウンリストにおいてユーザインターフェイスを経て提示する、請求項22に記載の方法。
  24. 前記エンティティ共起データベースはインデックスされる、請求項19に記載の方法。
  25. 前記エンティティ共起データベースは、エンティティ対エンティティのインデックスを含む、請求項19に記載の方法。
  26. 前記エンティティ共起データベースは、エンティティ対トピックスのインデックスを含む、請求項19に記載の方法。
  27. 前記エンティティ共起データベースは、エンティティ対ファクトのインデックスを含む、請求項19に記載の方法。
  28. 複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、
    ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、このエンティティ抽出モジュールは、更に、
    サーチ質問パラメータを、電子データコーパスにおける1つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて1つ以上のエンティティに対応する少なくとも1つのエンティティ形式を識別することにより、サーチ質問パラメータから1つ以上のエンティティを抽出する、
    ように更に構成され、更に、
    サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するよう構成された曖昧スコアマッチングモジュール、
    を備え、その曖昧マッチングモジュールは、少なくとも1つの識別されたエンティティ形式に対応するものであり、その曖昧スコアマッチングモジュールは、更に、
    その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の示唆されたサーチ質問パラメータを形成し、及び
    ユーザインターフェイスを経て1つ以上の示唆されたサーチ質問パラメータを提示する、ように構成されたシステム。
  29. 前記曖昧スコアマッチングモジュールは、更に、ユーザ入力が終了する前にその選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチするように構成される、請求項28に記載のシステム。
  30. サーチ質問パラメータに関連した1つ以上のレコードは、概念的特徴を含む、請求項28に記載のシステム。
  31. 前記1つ以上の示唆されたサーチ質問パラメータは、複数の示唆されたサーチ質問パラメータを含み、前記曖昧スコアマッチングコンピュータは、更に、その複数の示唆されたサーチ質問パラメータをユーザ入力におけるサーチ質問パラメータへの一致の接近性に基づいて降下順に分類するように構成される、請求項28に記載のシステム。
  32. 前記曖昧スコアマッチングコンピュータは、前記分類された複数の示唆されたサーチ質問パラメータをドロップダウンリストにおいてユーザインターフェイスを経て提示するように構成される、請求項32に記載のシステム。
  33. 前記エンティティ共起データベースはインデックスされる、請求項28に記載のシステム。
  34. 前記エンティティ共起データベースは、エンティティ対エンティティのインデックスを含む、請求項28に記載のシステム。
  35. 前記エンティティ共起データベースは、エンティティ対トピックスのインデックスを含む、請求項28に記載のシステム。
  36. 前記エンティティ共起データベースは、エンティティ対ファクトのインデックスを含む、請求項28に記載のシステム。
  37. エンティティ抽出コンピュータにより、ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取り、その部分サーチ質問パラメータは、少なくとも1つの未完成のサーチ質問パラメータを有するものであり、
    エンティティ抽出コンピュータにより、その部分サーチ質問パラメータを、電子データコーパスにおいて1つ以上の第1エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてその部分サーチ質問パラメータにおける1つ以上の第1エンティティに対応する少なくとも1つのエンティティ形式を識別することにより、その部分サーチ質問パラメータから1つ以上の第1エンティティを抽出し、
    曖昧スコアマッチングコンピュータにより、部分サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、この曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものであり、
    曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の第1の示唆されたサーチ質問パラメータを形成し、
    曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て1つ以上の第1の示唆されたサーチ質問パラメータを提示し、
    エンティティ抽出コンピュータにより、完成したサーチ質問パラメータを形成するために1つ以上の第1の示唆されたサーチ質問パラメータのユーザ選択を受け取り、
    エンティティ抽出コンピュータにより、その完成したサーチ質問パラメータから1つ以上の第2のエンティティを抽出し、
    エンティティ抽出コンピュータにより、その1つ以上の第2のエンティティに関連した1つ以上のエンティティを識別して1つ以上の第2の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし、及び
    エンティティ抽出コンピュータにより、ユーザインターフェイスを経て1つ以上の第2の示唆されたサーチ質問パラメータを提示する、
    ことを含む方法。
  38. 曖昧スコアマッチングコンピュータにより、ユーザ入力が終了する前にその選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチすることを更に含む、請求項37に記載の方法。
  39. 前記部分サーチ質問パラメータに関連した1つ以上のレコードは、概念的特徴を含む、請求項37に記載の方法。
  40. 前記1つ以上の第1の示唆されたサーチ質問パラメータは、複数の第1の示唆されたサーチ質問パラメータを含み、前記方法は、更に、曖昧スコアマッチングコンピュータにより、その複数の第1の示唆されたサーチ質問パラメータをユーザ入力における部分サーチ質問パラメータへの一致の接近性に基づいて降下順に分類することを更に含む、請求項37に記載の方法。
  41. 前記曖昧スコアマッチングコンピュータは、前記分類された複数の第1の示唆されたサーチ質問パラメータをドロップダウンリストにおいてユーザインターフェイスを経て提示する、請求項40に記載の方法。
  42. 前記エンティティ共起データベースはインデックスされる、請求項39に記載の方法。
  43. 前記エンティティ共起データベースは、エンティティ対エンティティのインデックスを含む、請求項37に記載の方法。
  44. 前記エンティティ共起データベースは、エンティティ対トピックスのインデックスを含む、請求項37に記載の方法。
  45. 前記エンティティ共起データベースは、エンティティ対ファクトのインデックスを含む、請求項37に記載の方法。
  46. 複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、
    ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、その部分サーチ質問パラメータは、少なくとも1つの未完成のサーチ質問パラメータを有するものであり、エンティティ抽出モジュールは、更に、
    その部分サーチ質問パラメータを、電子データコーパスにおいて1つ以上の第1エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける1つ以上の第1エンティティに対応する少なくとも1つのエンティティ形式を識別することにより、部分サーチ質問パラメータから1つ以上の第1エンティティを抽出する、
    ように構成され、更に、
    部分サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成された曖昧スコアマッチングモジュールを備え、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものであり、その曖昧スコアマッチングモジュールは、更に、
    その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づいて1つ以上のレコードから1つ以上の第1の示唆されたサーチ質問パラメータを形成し、及び
    ユーザインターフェイスを経て1つ以上の第1の示唆されたサーチ質問パラメータを提示する、
    ように構成され、エンティティ抽出モジュールは、更に、
    完成したサーチ質問パラメータを形成するために1つ以上の第1の示唆されたサーチ質問パラメータのユーザ選択を受け取り、
    その完成したサーチ質問パラメータから1つ以上の第2エンティティを抽出し、
    その1つ以上の第2エンティティに関連した1つ以上のエンティティを識別して1つ以上の第2の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし、及び
    ユーザインターフェイスを経て1つ以上の第2の示唆されたサーチ質問パラメータを提示する、
    ように構成されたシステム。
  47. 前記曖昧スコアマッチングモジュールは、更に、ユーザ入力が終了する前にその選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチするように構成される、請求項46に記載のシステム。
  48. 部分サーチ質問パラメータに関連した1つ以上のレコードは、概念的特徴を含む、請求項46に記載のシステム。
  49. 前記1つ以上の第1の示唆されたサーチ質問パラメータは、複数の第1の示唆されたサーチ質問パラメータを含み、前記曖昧スコアマッチングコンピュータは、更に、その複数の第1の示唆されたサーチ質問パラメータをユーザ入力における部分サーチ質問パラメータへの一致の接近性に基づいて降下順に分類するように構成される、請求項46に記載のシステム。
  50. 前記曖昧スコアマッチングコンピュータは、前記分類された複数の第1の示唆されたサーチ質問パラメータをドロップダウンリストにおいてユーザインターフェイスを経て提示するように構成される、請求項49に記載のシステム。
  51. 前記エンティティ共起データベースはインデックスされる、請求項46に記載のシステム。
  52. 前記エンティティ共起データベースは、エンティティ対エンティティのインデックスを含む、請求項46に記載のシステム。
  53. 前記エンティティ共起データベースは、エンティティ対トピックスのインデックスを含む、請求項46に記載のシステム。
  54. 前記エンティティ共起データベースは、エンティティ対ファクトのインデックスを含む、請求項46に記載のシステム。
  55. コンピュータにより、1つ以上のデータストリングを含むサーチ質問をサーチエンジンから受け取り、各々のエンティティは、1つ以上のストリングのサブセットに対応し、
    コンピュータにより、エンティティデータベース及びトレンドデータベースに対して1つ以上のエンティティを比較することに基づき1つ以上のデータストリングにおいて1つ以上のエンティティを識別し、
    コンピュータにより、少なくとも1つのエンティティに対応するものとして識別されない1つ以上のデータストリングにおいて1つ以上の特徴を識別し、
    コンピュータにより、1つ以上の特徴の各々を、マッチングアルゴリズムに基づき1つ以上のエンティティの少なくとも1つに指定し、
    コンピュータにより、各エンティティに指定された各々の特徴に指定されたスコアに基づき各々のエンティティに抽出スコアを指定し、
    コンピュータにより、各々のエンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する1つ以上のエンティティを含む第1のサーチリストをエンティティデータベースから受け取り、
    コンピュータにより、各々のエンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する1つ以上のエンティティを含む第2のサーチリストをトレンドデータベースから受け取り、
    コンピュータにより、第1のサーチリスト及び第2のサーチリストを含む総計リストを発生し、その総計リストのエンティティは、各々の総計リストのスコアに従ってランク付けされ、及び
    コンピュータにより、その総計リストに従って示唆されるサーチを与える、
    ことを含む、コンピュータで実施される方法。
  56. コンピュータにより、複数のデータソースに各々関連した複数のデータストリームを受け取り、
    コンピュータにより、各データストリームに関連したプロパティのアレイを発生し、
    データストリームのデータに関連したトリガー条件をコンピュータが検出するのに応答して、
    コンピュータにより、データストリームのデータに関連した地理的データを発生し、
    データソースのトリガー条件をコンピュータが検出しないのに応答して、
    コンピュータにより、データソースに対するプロパティのアレイを、サーチインデックスに関連した管理プロパティのセットへマップし、及び
    データソースのコンテンツのタイプが画像データであると決定するのに応答して、
    コンピュータにより、データソースから受け取ったデータに関連したメタデータに対して光学的文字認識ルーチンを実行し、及び
    コンピュータにより、そのメタデータで識別されるウェブサービスから、データソースからの更新されたデータストリームを検索し、データソースは、メタデータで識別されるウェブサービスに関連付けられる、
    ようにされたコンピュータで実施される方法。
JP2016536900A 2013-12-02 2014-12-02 インメモリデータベースサーチのためのシステム及び方法 Ceased JP2017504105A (ja)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201361910894P 2013-12-02 2013-12-02
US201361910900P 2013-12-02 2013-12-02
US201361910907P 2013-12-02 2013-12-02
US201361910905P 2013-12-02 2013-12-02
US61/910,900 2013-12-02
US61/910,907 2013-12-02
US61/910,905 2013-12-02
US61/910,894 2013-12-02
US201461947652P 2014-03-04 2014-03-04
US61/947,652 2014-03-04
PCT/US2014/067997 WO2015084759A1 (en) 2013-12-02 2014-12-02 Systems and methods for in-memory database search

Publications (2)

Publication Number Publication Date
JP2017504105A true JP2017504105A (ja) 2017-02-02
JP2017504105A5 JP2017504105A5 (ja) 2018-01-11

Family

ID=53274014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016536900A Ceased JP2017504105A (ja) 2013-12-02 2014-12-02 インメモリデータベースサーチのためのシステム及び方法

Country Status (6)

Country Link
EP (1) EP3077918A4 (ja)
JP (1) JP2017504105A (ja)
KR (1) KR20160124079A (ja)
CN (1) CN106164889A (ja)
CA (1) CA2932401A1 (ja)
WO (1) WO2015084759A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057022A (ja) * 2017-09-20 2019-04-11 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2022111261A (ja) * 2018-06-07 2022-07-29 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296627B2 (en) 2015-08-18 2019-05-21 Fiserv, Inc. Generating integrated data records by correlating source data records from disparate data sources
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的***、方法和计算机可读介质
CN106599547A (zh) * 2016-11-23 2017-04-26 中山健康医疗信息技术有限公司 基于标签的智能医学知识库管理***
CN106991181B (zh) * 2017-04-07 2020-04-21 广州视源电子科技股份有限公司 口语化语句提取的方法及装置
CN108932248B (zh) * 2017-05-24 2022-01-28 苏宁易购集团股份有限公司 一种搜索实现方法及***
CN107643835A (zh) * 2017-10-19 2018-01-30 北京京东尚科信息技术有限公司 下拉词确定方法、装置、电子设备及存储介质
CN107832459B (zh) * 2017-11-27 2021-09-24 公安部交通管理科学研究所 基于分布式网络环境的知识库内容分享学习的***和方法
US10810457B2 (en) * 2018-05-09 2020-10-20 Fuji Xerox Co., Ltd. System for searching documents and people based on detecting documents and people around a table
CN112740196A (zh) * 2018-09-20 2021-04-30 华为技术有限公司 基于知识管理人工智能***中的识别模型
CN109753517A (zh) * 2018-12-06 2019-05-14 北京明略软件***有限公司 一种信息查询的方法、装置、计算机存储介质及终端
US11487902B2 (en) 2019-06-21 2022-11-01 nference, inc. Systems and methods for computing with private healthcare data
CN110245357B (zh) * 2019-06-26 2023-05-02 北京百度网讯科技有限公司 主实体识别方法和装置
CN110347699B (zh) * 2019-06-26 2022-01-28 北京明略软件***有限公司 确定身份证相关实体活跃度的方法及装置
CN112487214B (zh) * 2020-12-23 2024-06-04 中译语通科技股份有限公司 基于实体共现矩阵的知识图谱关系抽取方法及***
US11496373B2 (en) * 2021-01-26 2022-11-08 Juniper Networks, Inc. Enhanced conversation interface for network management
US12040934B1 (en) 2021-12-17 2024-07-16 Juniper Networks, Inc. Conversational assistant for obtaining network information

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008541233A (ja) * 2005-05-04 2008-11-20 グーグル・インコーポレーテッド オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
JP2011524576A (ja) * 2008-06-14 2011-09-01 ビオ ネットワークス インコーポレイテッド 使用パターンを用いた検索方法及びシステム
JP2012113486A (ja) * 2010-11-24 2012-06-14 Yahoo Japan Corp 意図抽出装置、方法及びプログラム
JP2012133520A (ja) * 2010-12-21 2012-07-12 Nippon Telegr & Teleph Corp <Ntt> 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム
JP2013516022A (ja) * 2009-12-28 2013-05-09 ヤフー! インコーポレイテッド 検索提案のクラスタ化及び提示

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7593940B2 (en) * 2006-05-26 2009-09-22 International Business Machines Corporation System and method for creation, representation, and delivery of document corpus entity co-occurrence information
JP4922692B2 (ja) * 2006-07-28 2012-04-25 富士通株式会社 検索クエリー作成装置
US8195655B2 (en) * 2007-06-05 2012-06-05 Microsoft Corporation Finding related entity results for search queries
US20090327223A1 (en) * 2008-06-26 2009-12-31 Microsoft Corporation Query-driven web portals
US20120143875A1 (en) * 2010-12-01 2012-06-07 Yahoo! Inc. Method and system for discovering dynamic relations among entities
SG11201402943WA (en) * 2011-12-06 2014-07-30 Perception Partners Inc Text mining analysis and output system
CN103186556B (zh) * 2011-12-28 2016-09-07 北京百度网讯科技有限公司 得到和搜索结构化语义知识的方法及对应装置
US9336202B2 (en) * 2012-05-15 2016-05-10 Whyz Technologies Limited Method and system relating to salient content extraction for electronic content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008541233A (ja) * 2005-05-04 2008-11-20 グーグル・インコーポレーテッド オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
JP2011524576A (ja) * 2008-06-14 2011-09-01 ビオ ネットワークス インコーポレイテッド 使用パターンを用いた検索方法及びシステム
JP2013516022A (ja) * 2009-12-28 2013-05-09 ヤフー! インコーポレイテッド 検索提案のクラスタ化及び提示
JP2012113486A (ja) * 2010-11-24 2012-06-14 Yahoo Japan Corp 意図抽出装置、方法及びプログラム
JP2012133520A (ja) * 2010-12-21 2012-07-12 Nippon Telegr & Teleph Corp <Ntt> 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057022A (ja) * 2017-09-20 2019-04-11 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2022111261A (ja) * 2018-06-07 2022-07-29 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP7315065B2 (ja) 2018-06-07 2023-07-26 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム

Also Published As

Publication number Publication date
CA2932401A1 (en) 2015-06-11
CN106164889A (zh) 2016-11-23
EP3077918A4 (en) 2017-06-07
EP3077918A1 (en) 2016-10-12
WO2015084759A1 (en) 2015-06-11
KR20160124079A (ko) 2016-10-26

Similar Documents

Publication Publication Date Title
JP2017504105A (ja) インメモリデータベースサーチのためのシステム及び方法
US9613166B2 (en) Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US10261954B2 (en) Optimizing search result snippet selection
US10896214B2 (en) Artificial intelligence based-document processing
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US12026194B1 (en) Query modification based on non-textual resource context
US9418128B2 (en) Linking documents with entities, actions and applications
US9619571B2 (en) Method for searching related entities through entity co-occurrence
US20170235841A1 (en) Enterprise search method and system
JP4160578B2 (ja) ウェブデータベースのスキーママッチングの方法およびシステム
US9361317B2 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US20090313217A1 (en) Systems and methods for classifying search queries
US20180349500A1 (en) Search engine results for low-frequency queries
US20170075915A1 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
JP4621680B2 (ja) 定義付けシステムおよび方法
JP2005025418A (ja) 質問応答装置、質疑応答方法及びプログラム
JP2010282403A (ja) 文書検索方法
JP2008033386A (ja) 情報処理提供システム
Lee et al. Qa websites: rich research resources for contextualizing information retrieval behaviors
Trani Improving the Efficiency and Effectiveness of Document Understanding in Web Search.
JP2014191550A (ja) コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法
Geleijnse Search engine-based web information extraction
Manov et al. D2. 6.1 Massive Automatic Annotation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171124

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171124

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180308

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180423

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20180827