JP2017512344A - 迅速なデータ解析のためのシステム及び方法 - Google Patents

迅速なデータ解析のためのシステム及び方法 Download PDF

Info

Publication number
JP2017512344A
JP2017512344A JP2016554870A JP2016554870A JP2017512344A JP 2017512344 A JP2017512344 A JP 2017512344A JP 2016554870 A JP2016554870 A JP 2016554870A JP 2016554870 A JP2016554870 A JP 2016554870A JP 2017512344 A JP2017512344 A JP 2017512344A
Authority
JP
Japan
Prior art keywords
data
query
collecting
pieces
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016554870A
Other languages
English (en)
Other versions
JP6307169B2 (ja
Inventor
ジョンソン,ロバート
アブラハム,リオル
ジョンソン,アン
ディミトロフ,ボリス
フォスグリーン,ドン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Scuba Analytics Inc
Original Assignee
Interana Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interana Inc filed Critical Interana Inc
Publication of JP2017512344A publication Critical patent/JP2017512344A/ja
Application granted granted Critical
Publication of JP6307169B2 publication Critical patent/JP6307169B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24545Selectivity estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

迅速なデータ解析のための方法が、クエリを受け取り且つ読み取るステップと、データ片の第1のセットから第1のデータサンプルを収集するステップと、第1のデータサンプルの解析に基づいてクエリに中間結果を計算するステップと、中間結果に基づいてデータ片の第2のセットを識別するステップと、データ片の第2のセットから第2のデータサンプルを収集するステップと、第2のデータサンプルの解析に基づいてクエリに最終結果を計算するステップと、を具える。【選択図】図1

Description

関連出願の相互参照
本出願は、2014年3月10日に出願され、参照することによりその全体が盛り込まれた米国仮出願第61/950,827号の利益を請求する。
本発明は、一般に、データ解析の分野、特にデータ解析の分野における迅速なデータ解析のための新規且つ有用なシステム及び方法に関する。
今日のビジネスは、販売、マーケティング、及び他の重要な業務に関する大量のデータを収集する。このようなデータの問い合わせ(クエリ)は、多くの場合、特に複雑なクエリに関して困難且つ資源集約的なプロセスである。ある程度、クエリの性能は、データ集合体及び索引の予計算によって改善できるが、これを大きなデータセットの中で全ての次元にわたって行うことは実行不可能である。このために、クエリの性能の問題が、多くの場合、データ解析を遅くする。したがって、データ解析のフィールドに迅速なデータ解析のためのシステム及び方法を作る必要性がある。本発明は、このような新規且つ有用なシステム及び方法を提供する。
図1は、好適な実施例のシステムの概略図である。 図2は、好適な実施例のシステムの事象ストリームの典型的な表である。 図3は、好適な実施例のシステムの一実施形態の概略図である。 図4は、好適な実施例の方法の図表である。
本発明の好適な実施例の以下の記載は、これらの好適な実施例に本発明を限定することを意図するものではなく、むしろ、当業者が本発明を製造且つ使用し得ることを意図するものである。
図1に示すように、迅速なデータ解析のためのシステム100が、事象データベース110、文字列参照データベース120、文字列変換器130及びクエリエンジン140を有している。このシステム100は、追加的又は代替的に、インタフェースモジュール150、構成データベース160及び/又はデータマネージャ170を有する。
システム100は、分散コンピューティングを、大容量のデータのためにクエリスピードを高めるよう特別に設計されたアーキテクチャを駆動するよう結び付けることによって、迅速なデータ解析をし得るよう機能する。システム100は、好ましくは、事象データのために使用され、事象データベース110の各エントリが、好適には、タイムスタンプを有しており、そのタイムスタンプ順に初めに記憶される。追加的又は代替的に、各エントリが、シーケンスナンバ、又は事象がどのような順番となっているかを示す何らかの他のフィールドを有する。別の代替例として、データ記憶の順によって事象の順番を判定し得る。タイムスタンプ順にデータを記憶することにより、貴重な処理時間を費やさずに、大量のリアルタイムデータを記憶でき、データを整理し及び/又は書き換える。また、システム100は、好適には、事象データベース110内で高性能のデータ圧縮を可能にする文字列変換器130及び文字列参照データベース120を用いて整数に事象データの文字列を変換する。事象データベース110は、好適には、分散コンピューティングシステムにわたってデータ片に分布される。システム100に問い合わせると、クエリエンジン140が、好適には、分散コンピューティングシステムにわたってデータ片からサンプルを抽出し、迅速な並列読み出しを可能にする。そして、このクエリエンジン140は、好適には、一部には選択されたサンプルに基づいてクエリの回答を判断し、全てのデータに問い合わせをした場合よりもはるかに素早い応答を可能にする。クエリエンジン140は、好適には、クエリエンジンのサンプリング方法を調整でき、所望の比率のスピード対精度を達成し、クエリエンジン140を、多種多様なクエリのタイプに対して適合性のあるものにする。少なくとも部分的に上記の態様を利用して、システム100は、好適には、大量のデータの迅速な解析を可能にする一方で、大がかりな前処理又はオーバーヘッドを最小限にし又は無くす。
事象データベース110は、システム100のための主要な情報ストアとして機能する。事象データベース110は、好適には、例えば時間要素又は事象の順番の表示を含むデータといった、事象データを記憶する。事象データは、好適には、少なくとも関連する時間フィールド及びセッションフィールドを有するが、何らかの適切な一連のフィールドを含んでもよい。事象データベース110は、追加的又は代替的に、適切な組織的スキーマに適切なデータを記憶する。事象データベース110は、好適には、様々な方法でデータを記憶するための多数のデータセットを有する。例えば、図2に示すように、1つのデータセットは、ユーザID(UID)によってグループ化され(例えば、共有され)時間によって整理される事象の一覧を有する一方、他のデータセットが、同じ事象の一覧を有するがIPアドレスによってグループ化され時間によって整理される。データ共有は、好適には、データを分割及び/又はグループ化するよう使用されるが、データは、追加的又は代替的に任意の適切な方法でグループ化してもよい。上記の例のように、異なるデータセットが、同一のデータを記憶してもよいが、異なるデータセットはまた、同じデータの異なるサブセット、又は異なるデータ全体を記憶してもよい。例えば、1つのデータセットは、UIDによってグループ化され時間で整理されたた事象の一覧を有しており、事象はまた、IPアドレス及びロケーションフィールドを有している。第2のデータセットが、IPアドレスによってグループ化され時間で整理された同じ事象の一覧を有しているが、事象情報は、ロケーション又はUIDを有していない。事象データベース110は、好適には、全てのデータセットを列のデータセットとして整理し、代替的に、データセットが任意の適切な方法で整理される。列のフォーマットで記憶されたデータセットは、好適には、列の圧縮を使用して、記憶されるデータの数を減らす。列の圧縮は、好適には、列に記憶されたデータのシーケンシャル特性を用いたテクニックを有しており、スペースを省く。
事象データベース110は、好適には、明示的及び暗黙的なデータ双方の記憶を可能にする。暗黙的なデータは、好適には、暗黙的に添付されたオブジェクトデータソースを有しており、クエリで参照し得る。例えば、セータの販売データの事象ストリームでは、各事象が、売主(「e.merchnat_id」)、末端(「e.terminal_id」)、取引の金額(「e.dollar_amount」)、及び販売されたセータのタイプ(「e.sweater_id」)を特定する明示的なデータフィールドを持ち得る。また、各事象は、オブジェクトデータソース又はこれらの明示的データフィールドに関連する他のタイプの暗黙的データを有しており、例えば、サイズ(「sweater_size」)及び色(「sweater_color」)といった、セータのタイプに関する各「e.sweater_id」特性に関連するオブジェクトデータがある。事象データベース110は、好適には、これらの関連データの特性をクエリにとって自動的に役立つものにし、例えば、「e.sweater_id.sweater_color」というフィールドによって、セータの色にアクセスする。事象データベース110は、テーブルジョインの必要性を無くすよう機能し得る、属性フィールドへのダイレクトなアクセスを有する。属性フィールドへのアクセスは、ジョインテーブルとして宣言されるテーブルをインポートすることによって促される。ジョインテーブルを宣言することは、好適には、関連する事象データテーブルの大きさにジョインテーブルをリンクし得る。ジョインテーブルは、好適には、属性ネームバリュー対として記憶される。
事象データベース110は、好適には、分散コンピューティングシステムのコンピュータにわたって分散する。分散コンピューティングシステムの各ノードは、好適には、事象データベース110に含まれるデータの一部を記憶する。このデータは、好適には、永続的メモリ(例えば、ハードディスクドライブ、フラッシュメモリ)に記憶されるが、データのいくつか又は全てを、追加的又は代替的に一時的メモリ(例えば、RAM)に記憶し得る。事象データベース110のデータは、好適には、各ノードでデータ片にさらに分割される。データ片は、好適には、横方向及び縦方向のテーブルパーティションであるが、データ片が、好適には、データテーブルの全ての行の一部及び全ての列の一部の交点から形成される。各データ片は、好適には、少なくとも時間情報を含むが、追加的又は代替的に他の情報を含み得る。データ片は、時間で分割でき、例えば、各データ片が特定の24時間にわたって発生した一連の事象を含む。データ片は、追加的又は代替的に、他の適切な情報(例えば、UID、IPアドレス、セッションID、等)によって分割され得る。データ片のパーティションは、好適には、縦方向のパーティションが好適には一定数のフィールドを有し、各縦方向のパーティションについて一定数の横方向のパーティションがある、という規則によってなされる。例えば、データセットが時間フィールド、UIDフィールド、IPアドレスフィールド、及びロケーションフィールドを有する場合、データセットが縦方向に3つに分割され得る。第1の縦方向のパーティションは、時間フィールド及びUIDフィールドを有しており、第2の縦方向のパーティションは、時間フィールド及びIPアドレスフィールドを有しており、第3の縦方向のパーティションは、時間フィールド及びロケーションフィールドを有する。そして、データセットが日付によって横方向に分割され、1週間のデータがある場合、これは、7個の横方向のパーティションである。したがって、データが、21個のデータ片に分割される。データ片の分割は、追加的又は代替的に、他の規則セット又はアルゴリズムによって自動的になされ、又は手動でなされる。
各データ片は、好適には、データ片ナンバー(又は他の識別子)を有しており、各データ片ナンバーが好適には、データ片が存在するノードとともに、構成データベース160に記憶される。このリンクされたデータは、追加的又は代替的に、適切な場所に記憶される。データ片とノードとのリンクについての中心となるリストをキープすることで、クエリエンジン140が特定のデータについてクエリに対する正しいノードを判断できる。データ片/ノードのリンクのリストが、データ片に含まれるデータの概要といった他の情報を追加的に有する。
文字列参照データベース120は、文字列を一意的に特定する整数に文字列をリンクする情報を記憶するよう機能する。この文字列参照データベース120は、文字列変換器130によって使用され、文字列をそれらの各整数識別子に変換し、逆もまた同様に行う。文字列参照データベース120の識別子への文字列のマッピングは、好適には、(例えば、トライデータ構造の使用により)プレフィクスマッチングを可能にする方法で記憶されるが、追加的又は代替的に、任意の適切な方法で記憶される。文字列参照データベース120は、好適には、分散コンピューティングシステムにコンピュータにわたって分散する。分散コンピューティングシステムの各ノードは、好適には、文字列参照データベース120に含まれるデータの一部を記憶する。このデータは、好適には、永続的メモリ(例えば、ハードディスクドライブ、フラッシュメモリ)記憶されるが、データのいくつか又は全てを、追加的又は代替的に一時的メモリ(例えば、RAM)に記憶し得る。文字列参照データベース120のデータは、好適には、各ノードでデータ片にさらに分割される。文字列参照データベース120のデータ片は、好適には、事象データベース110のデータ片に対応するが、代替的に、事象データベース110の分割とは独立して分割される。
事象データベース110の各フィールドは、好適には、文字列参照データベース120の独立した文字列参照データ片に対応する。これにより、異なるフィールドの異なる文字列について同じ整数識別子を使用し得る。文字列参照データ片と対応する事象データベース110フィールドとの間の関係が、好適には、構成データベース160に記憶されるが、代替的に、任意の適切な場所に記憶される。文字列参照データ片が事象データ片に対応する場合、その関係は、単に、2つのデータ片がデータ片識別ナンバーを共有するということである。文字列参照データ片と事象データベース110フィールドとの間の関係は、好適には1対1であるが、代替的に、任意の適切な関係とすることができ、例えば、2つのフィールドが類似する文字列データ(例えば、ミドルネーム及びファーストネーム)を含む場合、それらは、文字列参照データ片を共有する。
文字列変換器130は、入力事象データの文字列を整数識別子に変換するよう機能する。整数識別子への文字列の変換は、事象データを記憶するのに要するスペースの量を大いに省くことができ、また(好適にはクエリエンジン140によって使用されるオペレーションを含む)特定のオペレーションを最適化し得る。文字列変換器130は、好適には、事象データが事象データベース110に書かれる前に、受け取った事象データの文字列を文字列識別子に変換するが、追加的又は代替的に、任意の適切な時に文字列識別子に文字列を変換する。文字列変換器130は、好適には、受け取った事象データの全ての文字列を変換するが、代替的に、受け取った事象データの全ての文字列のうちのサブセットのみを変換する。文字列変換器130は、好適には、文字列参照データベース120の文字列に対応する識別子を検索することによって、文字列を変換する。対応する識別子は、好適には、特定の文字列にリンクされる識別子であるが、対応する識別子が、追加的又は代替的に、他のデータにリンクされる。例えば、文字列が特定値を有し、文字列が事象データの特定のフィールド又はタイプの一部である場合に、識別子がある文字列に対応するに過ぎない。これにより、識別子を異なるデータのタイプに関して再使用可能となり、例えば、整数識別子「42」が、「国」のフィールドのデータに関して文字列「カナダ」に対応し、「月」のフィールドに関して文字列「1月」に対応する。この「他のデータ」は、文字列参照データベース120に明示的に存在し、又は黙示的に存在しており、例えば、文字列参照データが異なる事象データフィールドに対応する場合、(文字列参照データベースのセクションで説明したように)文字列参照データが異なる場所に記憶される。
文字列が文字列参照データベース120に対応する識別子を有する場合、文字列が事象データベース110に書き込まれる前に、その識別子に変換される。文字列が対応する識別子を有しない場合、対応する識別子が好適にはその文字列のために形成される。対応する識別子は、好適には、文字列参照データベース120の中の次の利用可能な識別子であるが、代替的に、文字列の値にしたがって選択され得る。例えば、a、b、又はcで始まる全ての文字列の値が、「1」で始まる整数識別子を有する。識別子が文字列の値にしたがって選択される場合、識別子参照データが、好適には、プレフィックスマッチングを可能にするフォーマットで記憶される。
また、文字列変換器130は、クエリに関する文字列の変換を扱うよう機能する。クエリエンジン140がクエリを受け取ると、クエリの文字列が、好適には、文字列変換器130に送られて識別子に変換される。そしてクエリは、好適には、識別子を用いて処理される。クエリが処理された後に、クエリの結果の識別子が、好適には文字列変換器130によって処理されて文字列に戻され、文字列変換器130からのさらなる干渉なしに、クエリの結果を一覧又は処理可能である。
クエリエンジン140は、事象データの入力されるクエリを処理し、クエリの結果を戻すよう機能する。クエリエンジン140は、好適には、事象データソース、時間範囲、フィルタ、パーティション機能、及びメトリック機能を有するクエリを取り込む。事象データソースは、好適には、事象データベース110の事象データフィールドに関しており、例えば、「e.sweater_id」が、販売されたセータのタイプに対応する事象データフィールドに関するものである。時間範囲はクエリが検索すべき時間の範囲であり、クエリは、好適には、「e.time」値が特定の時間範囲の外にある事象データを無視する。フィルタによって、好適には、フィルタリング条件に基づいてデータをクエリに含ませたりクエリから除外することができ、フィルタは、好適には、時間範囲を満足する事象データに適用され得るが、追加的又は代替的に、他の事象データに適切される。フィルタを満足しない事象データは、好適には、クエリ結果から除外される。このような方法では、時間範囲は、好適には、時間範囲が好適には他のフィルタよりも高い優先順位を有するという点を除いて他のフィルタと類似する。例えば、フィルタの組が「e.sweater_id>10」と記述するフィルタを有する場合、「フィルタ」は、「e.sweater_id≦10」を備える任意の事象「e」について「偽」を返す。パーティション機能は、好適には、時間範囲及びフィルタの双方を満足する事象データについて評価されるが、追加的又は代替的に、他の事象データに適用される。パーティション機能は、好適には、1又はそれ以上の関係を満足することによって事象をグループ化している。パーティション機能は、好適には、パーティション機能を満足する全ての事象を返し、例えば、「partition(e.sweater_id=23)」が、「e.sweater_id=23」を満足するものを含む全ての事象を返す。メトリック機能は、好適には、パーティション機能から統計データを作成する。メトリック機能は、好適には、所定の条件を満足する事象データの和、パーセンタイル、比率及び/又はパーセンテージを作成する機能を有する。パーティション機能の結果がより大きな母集団からの代表サンプルとして解釈される場合、メトリクスが、対応するより大きな母集団のメトリクスのサンプルベースの評価であるとみなされる。これらのケースでは、クエリエンジン140が、好適には、評価のための信頼帯を提供し、これは統計的なブート処理によって取得されるものに相当する。信頼帯は、好適には、観察される統計分布の解析を通して計算されるが、追加的又は代替的に、任意の適切な方法で提供される。ユーザは、信頼性の指標として信頼帯を提供され得るが、例えば、ユーザは、信頼性が低い場合、疑わしいサンプルバイアスが知らされる。
事象及びメトリクスを返すのに加えて、クエリエンジン140は、追加的又は代替的に、オブジェクト及び/又はオブジェクトのグループ(コホートと称される)を返し得る。例えば、クエリは、パーティション機能「partition(e.sweater_id,23)」を満足する事象に関する「terminal_id」値の組を要求する。コホートは、例えば、特定の事象シーケンスを満足するユーザのグループといった、例えば、1週間にわたって10時間を超えて特定のウェブサイトで活動したユーザのグループのような行動コホートを有している。
クエリが、追加的又は代替的に、機能の整理及び/又はグループ化を有する。整理機能は、好適には、クエリの結果の整理を可能にする。整理機能は、好適には最終結果に適用されるが、追加的又は代替的に、(クエリステップでの計算に整理された結果が必要な場合)中間結果に適用される。グループ化機能は、好適には、クエリの結果のグループ化を可能にする。整理機能と同様に、グループ化機能は、好適には最終結果に適用されるが、追加的又は代替的に、中間結果に適用される。整理及びグループ化機能は、好適には、第1のパス(例えば、第1の中間結果の生成の間)で選択され又は特定されるが、追加的又は代替的に、適切な時間で特定される。グループ化機能は、追加的に、コホート機能を有する。コホート機能は、対象の母集団をコホートの組に分割するグループ化機能の特別なケースであり、各対象が、ちょうど1つのコホートに現れる。
クエリエンジン140は、好適には、クエリの第1の予処理によってクエリを処理するが、これは、クエリを解析し、文字列変換器130を用いて整数にクエリの文字列を変換することを有する。予処理は、追加的又は代替的に、ユーザ認証の実行、ユーザが使用し易い文字列の分解(例えば、「今」を現在のタイムスタンプに分解する)、SQLタイプのクエリの文字列をクエリツリーに解析することを有する。また、予処理は、好適には、(計算又は構成データベース160への参照のいずれかを介して)クエリに関連するデータがどこに存在するのかを分解すること、エラー処理、スケーリング、テーブルジョイン、及び/又はクエリの評価に必要な計算を有する。
クエリの予処理の後に、クエリが、好適にはマルチプルパス法を用いて評価される。第1のパスで、クエリエンジン140が、好適には、事象データベース110の多数のデータ片から小さなサンプルを同時に取り込む。そして、クエリエンジン140は、好適には、サンプルについて中間計算を実行し、可能性のあるクエリの結果を特定し又は絞り込む。そして、このような可能性のあるクエリの結果は、次のパスのための入力として使用される。次のパスは、(第1のパスと同様であるが、異なる入力を備える)別の特定/絞り込みパスであり、又は次のパスは最終パスである。最終パスは、好適には、クエリへの疑わしい関連情報を含むデータ片のフルスキャンを有するが、追加的又は代替的に、データ片の部分スキャンのみを有する。クエリの結果は、好適には、最終パスの結果から計算される。
例えば、クエリエンジン140がクエリを受け取り、特定のウェブサイトに関して過去の月にわたって最も活動的なユーザのトップ100を特定する。第1のパスでは、クエリエンジン140が、ユーザID及び活動データを含む(分散コンピューティングシステムの多くのノードにわたって分散する)事象データベース110のデータ片に問い合わせを行い、各ノードにおいて、少ないデータサンプルからトップユーザを特定しようと試みる。そして、クエリエンジン140は、第1のパスの結果を比較し、データサンプルからユーザのトップ10,000のリストを出す。そして、クエリエンジン140は、これら10,000のユーザに関するデータを含む全てのデータ片のフルスキャンを行い、このリストからユーザのトップ100を判定する。
パスの数は、好適には手動で割り当てられ、2つのパスが初期値であるが、追加的又は代替的に、自動的に設定し得る。(どのくらいの量のデータが各パスでサンプリングされ、どのくらいのサンプルが各パスで選択されるといったことを含む)サンプリング方法は、好適には、所望の信頼区間及び信頼水準にしたがって自動的に判断される。例えば、特定の信頼水準において特定の信頼区間内にあることが望ましい母集団推定に関して選択されたサンプルが、好適には、ランダムに選択され、サンプルの数は、このような信頼区間及び信頼水準に要する最小数に対応する。サンプリング方法は、追加的又は代替的に、普通に分布していないことが分かっている及び/又は独立した且つランダムな変数から成るものではないことが分かっている、データに関するランダムなサンプリング以外のサンプリングを有する。例えば、データセットが(過去のクエリ又は他のデータソースのいずれかから)特定の分布にしたがうことが一般的に分かる場合、データセットが、この特定の分布にしたがってサンプリングされる。
本発明の一実施例では、クエリエンジン140が、クエリの一部として又はクエリに適用される一般的設定として、スピード/精度変数を取り込む(好適には、構成データベース160に記憶される)。このスピード/精度変数は、好適には、パスの数及び/又は結果を与えるよう取り込まれるサンプルの数を調整する。例えば、「最高スピード」値に近いスピード/精度変数セットを備えるクエリは、非常に少ない数のサンプルを取り込むが、不正確な回答を返す可能性がある。スピード/精度変数が「最大精度」の側に向かって調整される場合、クエリはより多くの時間及び/又は処理能力を取り込むが、より正確な結果を返す。このような実施例におけるクエリエンジン140は、追加的又は代替的に、クエリ推定器を有する。クエリ推定器は、好適には、特定のクエリ及びスピード/精度変数に関して、クエリがどのくらいの時間取り込み、クエリの結果がどのくらい正確であるかの推定値を生成する。クエリ推定器は、好適には、直接的(例えば、所望の時間及び/又は精度を設定し、特定のスピード/精度の変数の設定を受け取るクエリエンジンのユーザによって)又は間接的(例えば、クエリエンジンのユーザが、異なるスピード/精度の変数の設定に関するクエリの時間/精度を見積もって、正しいスピード/精度の変数の設定を選択し得る)に使用され得る。
インタフェースモジュール150は、システム100へのグラフィックユーザインタフェースを提供するよう機能する。インタフェースモジュール150は、好適には、クエリエンジンのユーザがデータを閲覧して編集し、クエリを形成し、及び/又はクエリの結果を視覚化するための方法を提供する。また、インタフェースモジュール150は、好適には、ジョインテーブルの途切れのない導入を可能にし、ジョインテーブルからのデータが、好適には、事象データの列として自動的に示されるが、追加的又は代替的に、適切な方法で表されてもよい。インタフェースモジュール150は、好適には、メトリクスタブ、派生フィールドタブ、調査タブ、及び/又はコホートタブを有する。
メトリクスタブは、好適には、クエリエンジンのユーザが、メトリクスを規定し、名前を付け、及び編集することを可能にする。メトリクスタブは、顧客がデータを実行する標準メトリクスのツールボックスを有することができ、追加的又は代替的に、メトリクスタブは、事象データフィールド及び/又は事象データベース110に存在するコンテンツに基づいて自動的に生成されたメトリクスを有する。例えば、事象データが「page」及び「user」フィールドを有する場合、「page」フィールドの値が「user」フィールドからユーザのユニークなカウントによって分割される「Photo_view」である事象の数を計算する自動的に生成されるメトリクスが、メトリクスタブに存在し得る。
派生フィールドタブにより、好適には、クエリエンジンのユーザが事象データに関して派生フィールドを形成できる。派生フィールドタブは、好適には、存在するフィールドから新たな(派生)フィールドを形成するための選択肢を提供するのに加えて、存在する事象データベース110フィールドを見せる。派生フィールドは、好適には、他のフィールドのデータから計算されるフィールドである。例えば、「利益」は、「歳入」−「費用」によって得られるフィールドである。派生フィールドは、インタフェースモジュール150内のみに存在し、又は事象データベース110の関係として存在し(そのため、クエリが派生フィールドを計算する)、又は事象データベース110の中の記憶されたデータとして存在する(すなわち、派生フィールドの値が前もって計算される)。
調査タブにより、好適には、クエリエンジンのユーザが事象データベース110の事象データとやりとりし得る。調査タブにより、好適には、クエリエンジンのユーザが、事象データに(カウント、ユニークなカウント、和、等の)基本的機能の組み合わせ、メトリクス、及びフィルタを適用し得る。例えば、クエリエンジンのユーザは、異なるスケーリングを備えるフィルタリングされたデータに関する2つのメトリクスの和(例えば、「2*Metric1(Filter(event_data))+Metric2(Filter(event_data))」)を計算できる。調査タブは、追加的又は代替的に、事象データ及びそれに基づく計算が、事象データベース110のデータ例又は実際のデータのいずれかに視覚化され又は示される領域を有する。
コホートタブにより、好適には、クエリエンジンのユーザが事象データのオブジェクトをカテゴリー毎にグループ化でき、例えば、ウェブサイトのメンバーをサイトの活動に基づいてコホートに分割する。コホートタブにより、好適には、クエリエンジンのユーザがオブジェクトを分割するカテゴリーを特定し得る。追加的又は代替的に、コホートタブは、オブジェクトを分割するカテゴリーを自動的に形成する。例えば、コホートタブは、ウェブサイトのメンバーが1週間にログインする日数に基づいてコホートを自動的に形成し、ウェブサイトのメンバー8つのカテゴリー(0、1、2、3、4、5、6又は7日のログイン)の1つに分割される。コホートタブは、好適には、(時間によるグループ化のような)1セットの頻繁に使用されるコホート機能を有しており、コホートを生成するのにクエリエンジンのユーザを補助する。コホートタブにより、好適には、追加的にクエリエンジンのユーザがオブジェクトの特性を規定し得る。オブジェクトの特性は、好適には、事象データのシーケンスに基づいて規定され、統計機能、統計議論、及びフィルタの組み合わせで形成される。例えば、「hours_active」オブジェクトの特性が、「count_unique(align_time(event.time,3600))」によって計算される。コホートタブにより、追加的又は代替的に、クエリエンジンのユーザが予め規定されたオブジェクトの特性(例えば、署名タイムスタンプ)を閲覧又は修正できる。
構成データベース160は、システム100の動作に関する設定を保存するよう機能する。構成データベース160は、好適には、事象データベース110の事象データ片と分散コンピュータシステムのノードとの間のマッピングを記憶する。構成データベース160は、追加的又は代替的に、事象データ片に関する他の情報(例えば、それらの内容、又は事象データ片と事象データフィールドとの間のマッピング)を記憶する。また、構成データベース160は、好適には、文字列参照データベース120の文字列のデータ片と分散コンピュータシステムのノードと間のマッピングを記憶する。構成データベース160は、追加的又は代替的に、文字列データ片に関する他の情報(例えば、文字列データ片と事象データ片との間のマッピング又は文字列データ片と事象データフィールドとの間のマッピング)を記憶する。また、構成データベース160は、好適には、システム100の動作に関する一般的設定を記憶するが、例えば、構成データベース160は、(スピード/精度のトレードオフ変数のような)クエリに関するグローバルの設定を記憶する。また、構成データベース160は、データの記憶又は分類に関するグローバルな設定を記憶する。
好適な実施例のバリエーションでは、メタデータ(例えば、データ片とノード等の間のマッピング)が、別々のメタデータ記憶部に記憶される一方、構成データベース160が、他の設定(例えば、クエリに関するグローバル設定)のみを記憶する。
データマネージャ170は、事象データベース110のデータを保持又は修正して、システム100のパフォーマンスを最大化するよう機能する。データマネージャ170は、好適には、どのようにしてデータセットが整理され、既存のデータから新たなデータセットを生成すべきか否かを判断する。データマネージャ170は、記憶されたデータに応じて一連の規則又は他のアルゴリズムに基づいて及び/又はクエリに応じて一連の規則又は他のアルゴリズムに基づいて、クエリエンジンのユーザの手入力によるインプットに基づいてこれを行う。例えば、データマネージャ170は、クエリエンジンのユーザコマンドに応じて、IPアドレスによってグループ化され時間によって記憶された事象のリストを含むデータセットを生成する。そして、データマネージャ170は、IPアドレスによってデータをグループ化するデータセットが存在する場合、場所によってデータをグループ化するよう構成された別のデータセットを生成するということを記述する構成データベース160の規則に基づいて、同じ事象を含むが今度は場所によってグループ化されたデータセットを自動的に生成する。クエリエンジンのユーザが特定のウェブサイトのユーザに関する反復クエリを作成する場合、データマネージャ170は、このようなデータをUIDによって記憶させることが有益であることを認識し、その後、同じ事象を含むがUIDによってグループ化されたデータセットを生成する。同様に、データマネージャ170が特定のデータセットがあまり使用されていないことを認識する場合、データマネージャ170は、そのデータセットを削除し又は別にそのデータセットを整理する。
また、データマネージャ170は、好適には、いかにしてデータ片を事象データベース100でエンコードするのかを制御する。データマネージャ170は、好適には、事象データベース110をカバーするセクションで説明したように、データ片を分割する。データマネージャ170は、好適には、システム100のパフォーマンスを最適化するために、データ片を分割又は再分割する。データマネージャ170は、記憶されたデータに応じた一連の規則又は他のアルゴリズムに基づいて、及び/又はクエリに応じた一連の規則又は他のアルゴリズムに基づいて、クエリエンジンのユーザの手入力によるインプットに基づいてこれを行う。
また、データマネージャ170は、好適には、システム100のパフォーマンスを最適化するために、データ集合体を生成する。データ集合体は、好適には、事象データに和、平均、又は他の数学的演算を実行することによって形成される。データ集合体は、好適には、共通のクエリによって実行される動作を予測し、これらのクエリが呼ばれたときに時間又は処理能力を節約する。データマネージャ170は、記憶されたデータに応じた一連の規則又は他のアルゴリズムに基づいて、及び/又はクエリに応じた一連の規則又は他のアルゴリズムに基づいて、クエリエンジンのユーザの手入力によるインプットに基づいて、データ集合体を生成する。
図3に示すように、システム100の一実施例では、クエリがインタフェースモジュール150によって初期化される。そして、クエリが、SSL終端のためのNginxウェブサーバによって受信され、レガシーサーバのレガシーPHPコード、そして、ユーザの認証のためにクエリAPIサーバ、ユーザが使い易い文字列の解像度、及びクエリ解析(例えば、SQLタイプの文字列のクエリツリーへの解析)を通過する。そして、クエリは、クエリエンジン140(データサーバ)によって処理される。クエリエンジンは、文字列参照データベース120(文字列リーブス/ハッシュ)及び事象データベース110(データクエリリーブス/ローカルなデータ片)にそれぞれアクセスする文字列変換器130(文字列アグリゲータ)及びマージサーバからのデータを用いて、クエリを処理する。そして、クエリの結果が、同じサーバパスを通してインタフェースモジュール150に返される。
2.迅速なデータ解析のための方法
図4に示すように、迅速なデータ解析の方法200が、クエリを読み取るステップS210と、クエリに基づいて第1のデータサンプルを実行するステップS220と、データサンプルからのクエリの中間結果を計算するステップS230と、クエリの中間結果に基づいて第2のデータサンプルを実行するステップS240と、第2のデータサンプルに基づいて最終的なクエリの結果を計算するステップS250とを有する。この方法200は、好適には、上記のシステム100によって実施されるが、追加的又は代替的に、任意の適切なシステムによって実施され得る。
方法200は、好適には、分散コンピューティングを使用して、多くのデータセットを同時にサンプリングし、それらの全体を検索する必要なしに、これらのデータセットからの結果を戻すことによって、迅速なデータ解析を可能にするよう機能する。方法200のマルチパスクエリプロセスにより、好適には、(S220及びS230を介して)潜在的に関連するデータを即座に識別でき、さらなる解析のための対象とすることができ(S240及びS250)、無関係なデータに関して時間を浪費することを防止する。各ステップの範囲は、好適には調整可能であり、スピード対精度の理想的な比のため、クエリを最適化、強化又はそうでなければ改善し得る。これらのステップを通して、方法200により、好適には、膨大な予処理又はオーバーヘッド(間接的処理)なしに、大量のデータの迅速な解析が可能となる。
クエリの読み込みステップS210は、いかにしてデータに問い合わせを行うかを特定するよう機能する。ステップS210によって読み込まれたクエリは、好適には、システム100に記載されているのと実質的に同じである。クエリの読み込みステップS210は、好適には、クエリの第1の予処理を有しており、これはクエリの解析及び整数へのクエリの文字列の変換を有する。整数へのクエリの文字列の変換は、好適には、識別子(例えば、文字列参照データベース130)への文字列のマッピングを含むデータベースに文字列(及び潜在的に参照データフィールドといった他のデータ)を渡すことを有する。予処理は、追加的又は代替的に、ユーザ認証の実行、ユーザが使用し易い文字列の分解(例えば、「今」を現在のタイムスタンプに分解する)、クエリツリーの中にSQLタイプのクエリの文字列を解析することを実行することを有する。また、予処理は、好適には、(計算又は構成データベース160への参照のいずれかを介して)クエリに関連するデータがどこに存在するのかを分解すること、エラー処理の実行、スケーリング、テーブルジョイン、及び/又はクエリの評価に必要な計算を有する。
ステップS210は、追加的に、グルーピング及び/又は順序付け機能の特定又は選択を有する。順序付け機能により、好適には、クエリの結果の順序付けを可能にする。順序付け機能は、好適には最終結果に適用されるが、(例えば、順序付けられた結果をクエリステップでの計算に必要な場合)追加的又は代替的に中間結果に適用され得る。グループ化機能により、好適には、クエリの結果のグループ化を可能にする。順序付け機能と同様に、グループ化機能は、好適には最終結果に適用されるが、追加的又は代替的に中間結果に適用され得る。グループ化機能は、追加的にコホート機能を有する。コホート機能は、対象の母集団を一連のコホートに分解するグループ化機能の特定のケースであり、それぞれの対象がちょうど1つのコホートに現れる。
クエリに基づいて第1のデータサンプルを実行することS220は、ステップS230で使用すべきデータを特定且つサンプリングする機能を有する。第1のデータサンプルを実行することS220は、好適には、サンプリングすべきデータを特定することを有する。サンプリングすべきデータの特定は、好適には、所望の信頼区間及び信頼度に基づいてサンプリングすべきデータの特定を有しており、例えば、ある信頼度である信頼区間内であることが望まれる母集団の評価のために選択されるサンプリングすべきデータが、好適にはランダムに選択され、サンプルの数は、このような信頼区間且つ信頼度に要する最小数に対応する。サンプリングすべきデータの特定は、追加的又は代替的に、ノーマルに分布していない及び/又は独立且つランダムな変数から成るものではないと分かっているデータのランダムなサンプリング以外のサンプリングをすることを有する。例えば、データセットが(過去のクエリ又は他のデータソースのいずれかから)特定の分布に従うことが一般に分かっている場合、データセットをその特定の分布にしたがってサンプリングできる。第1のデータサンプリングS220を実行することはまた、好適には、ステップS230によって解析すべき第1のデータサンプルを収集することを有する。第1のデータサンプルを収集することは、好適には、分散コンピューティングシステムの多くのノードに含まれる大量のデータ片から小さなサンプルを取得することを有する。これにより、好適には、大量の並列読み出しが同時に生じることが可能となり、時間を節約する。
第1のデータサンプルからクエリの中間結果を計算することS230は、クエリの結果の第1の評価を与えるよう機能し、その後、それは第2のデータサンプルに向かわせるよう使用され得る。ステップS210によって処理されるクエリは、好適には、第1のデータサンプルで実行され、クエリの中間結果のセットを決定する。そして、クエリの中間結果は、好適には、第2のデータサンプルを決定するよう使用される。例えば、クエリが、特定のウェブサイトについて過去の月にわたって最も活動的なトップ100のユーザを特定しようとする場合、第1のデータサンプルを実行することS220は、ユーザid及び活動データを含む、多くの分散コンピューティングシステムのノードのデータ片をサンプリングすることを有する。クエリの中間結果を計算することS230は、それらのデータ片の小さなサンプルから各ノードについてトップユーザを特定することを試み、これらのトップユーザを比較し、データサンプルから見積もられるトップ10,000ユーザのリストを見つけ出すことを有する。
クエリの中間結果に基づいて第2のデータ収集を実施することS240は、S230の結果に基づいてデータを特定且つ収集するよう機能する。第2のデータ収集を実施することS240は、好適には、クエリの中間結果のためのデータソースを特定し、これらのソースから全ての利用可能なデータを収集することを有する。追加的又は代替的に、S240は、利用可能な全てのデータソースの収集されたサブセットのみを有する。前のセクションの例に言及すると、データソースを特定すること且つ利用可能な全てのデータを収集することは、予想された上位10,000ユーザ(データソース)に関連する(問い合わせされた時間枠の中で)全ての活動データを見つけ、S250で計算するためにこの活動データを収集することを有する。
ステップS230及びS240は、一連のデータセットに関して繰り返すことが可能であり、例えば、クエリの中間結果を、第3のデータサンプル等を生成するために、第2のデータサンプルから計算し得る。同様に、ステップS250を任意の適切なデータサンプルに関して実行し得る。
第2のデータサンプルに基づいてクエリの最終結果を計算すること(ステップS250)は、ステップS240で特定される第2のデータサンプルに基づいてクエリの結果を判定するよう機能する。クエリの最終結果を計算すること(ステップS250)は、好適には、第2のデータサンプルに関してS210によって処理されるクエリを実行し、結果を返すことを有する。クエリの最終結果を計算すること(ステップS250)は、追加的又は代替的に、信頼区間、信頼度、又はクエリの最終結果の精度に関する他の評価を返すことを有する。
好適な実施方法及びその変形例を、コンピュータが可読な命令を記憶するコンピュータが可読な媒体を受容するよう構成された少なくとも部分的にマシンとして実施及び/又は実行できる。この命令は好適には、好適にはコンピュータシステムと一体となったコンピュータが実行可能な構成要素によって実行される。コンピュータが可読な媒体は、RAM、ROM、フラッシュメモリ、EEPROM、光デバイス(CD又はDVD)、ハードディスクドライブ、フロッピーディスクドライブ、又は任意の適切なデバイスといった、任意の適切なコンピュータが可読な媒体に記憶し得る。コンピュータが実行可能な構成要素は、好適には、汎用の又は特定用途向けのプロセッサであるが、任意の適切な専用のハードウェア又はハードウェア/ファームウェアの組み合わせデバイスが、代替的又は追加的に命令を実行し得る。
当業者は、上記の詳細な説明、図面及び以下の特許請求の範囲の記載から、以下の特許請求の範囲に規定されている本発明の範囲から逸脱することなしに本発明の好適な実施例の変形及び変更をすることができることを認識するであろう。

Claims (20)

  1. 迅速なデータ解析のための方法であって、
    クエリを受け取り且つ読み取るステップであって、前記クエリを読み取るステップが、文字列変換器を用いて整数に前記クエリの文字列を変換することを具え、前記クエリを読み取るステップが、さらに、前記クエリに関するデータを含むデータ片の第1のセットを識別することを具える、ステップと、
    前記データ片の第1のセットから第1のデータサンプルを収集するステップであって、前記第1のデータサンプルを収集するステップが、前記データ片の第1のセットのそれぞれからデータを収集することを具えており、前記データ片の第1のセットのそれぞれからデータを収集することが、前記データ片の第1のセットのそれぞれの中に含まれるデータのサブセットのみを収集することを具える、ステップと、
    前記第1のデータサンプルの解析に基づいてクエリに中間結果を計算するステップと、
    前記中間結果に基づいてデータ片の第2のセットを識別するステップと、
    前記データ片の第2のセットから第2のデータサンプルを収集するステップであって、前記第2のデータサンプルを収集するステップが、前記データ片の第2のセットのそれぞれからデータを収集することを具えており、前記データ片の第2のセットのそれぞれからデータを収集することが、前記データ片の第2のセットのそれぞれの中に含まれるデータの完全なセットを収集することを具える、ステップと、
    前記第2のデータサンプルの解析に基づいて前記クエリに最終結果を計算するステップと、
    を具えることを特徴とする方法。
  2. 請求項1に記載の方法において、
    前記データ片の第1のセットから前記第1のデータサンプルを収集するステップが、前記データ片の第1のセットの列のデータセットからデータを収集することを具えることを特徴とする方法。
  3. 請求項2に記載の方法において、
    前記データ片の第1のセットが、時間によって整理された事象データを具えることを特徴とする方法。
  4. 請求項1に記載の方法において、
    前記クエリを受け取り且つ読み取るステップが、さらに、インプリシットデータへの参照を読み取ることを具えることを特徴とする方法。
  5. 請求項4に記載の方法において、
    前記クエリを受け取り且つ読み取るステップが、さらに、順序付け機能及び分類機能のうちの少なくとも一方を選択することを具えることを特徴とする方法。
  6. 請求項1に記載の方法において、
    データ片の第1のセットを識別するステップが、構成データベースを用いて前記データ片の第1のセットのノードの場所を識別することを具えることを特徴とする方法。
  7. 請求項1に記載の方法において、
    文字列変換器を用いて整数に前記クエリの文字列を変換するステップが、プレフィクスマッチングを可能にするフォーマットで記憶された文字列識別器を用いて文字列を変換することを具えることを特徴とする方法。
  8. 請求項1に記載の方法において、
    前記クエリが、少なくとも1の時間範囲及び少なくとも1の事象データソースを有することを特徴とする方法。
  9. 請求項8に記載の方法において、
    前記クエリに前記最終結果を計算するステップが、さらに、抽出データの統計分布の解析に基づいて結果の精度の推定のための信頼帯を計算することを具えることを特徴とする方法。
  10. 請求項9に記載の方法において、
    前記クエリに前記最終結果を計算するステップが、さらに、クエリ結果としてコホートに関連するコホート及び集計データ双方を戻すことを具えることを特徴とする方法。
  11. 請求項9に記載の方法において、
    前記クエリに中間結果を計算するステップが、さらに、抽出データの統計分布の解析に基づいて結果の精度の推定のための信頼帯を計算することを具えることを特徴とする方法。
  12. 迅速なデータ解析のための方法であって、
    クエリを受け取り且つ読み取るステップであって、当該クエリを読み取るステップが、文字列変換器を用いて整数に前記クエリの文字列を変換することを具え、前記クエリを読み取るステップが、さらに、前記クエリに関するデータを含むデータ片の第1のセットを識別することを具える、ステップと、
    前記データ片の第1のセットから第1のデータサンプルを収集するステップであって、前記第1のデータサンプルを収集するステップが、前記データ片の第1のセットのそれぞれからデータを収集することを具えており、前記データ片の第1のセットのそれぞれからデータを収集することが、前記データ片の第1のセットのそれぞれの中に含まれるデータのサブセットのみを収集することを具える、ステップと、
    前記第1のデータサンプルの解析に基づいて前記クエリに第1の中間結果を計算するステップと、
    多くの中間サーチを実行するステップであって、各中間サーチが、
    前記第1の中間結果及びさらなる中間結果のうちの少なくとも一方に基づいてデータ片のさらなるセットを識別するステップと、
    前記データ片のさらなるセットからさらなるデータサンプルを収集するステップと、
    前記さらなるデータサンプルの解析に基づいてさらなる中間結果を計算するステップと、を具える、ステップと、
    前記クエリに最終結果を計算するステップと、
    を具えることを特徴とする方法。
  13. 請求項12に記載の方法において、
    前記中間サーチの数が、固定数であることを特徴とする方法。
  14. 請求項12に記載の方法において、
    さらに、抽出データの統計分布の解析に基づいて、それぞれのさらなる中間結果について信頼帯を計算するステップを具えることを特徴とする方法。
  15. 請求項14に記載の方法において、
    多くの中間サーチを実行するステップが、さらなる中間結果の信頼帯が信頼閾値を過ぎるまで中間サーチを実行することを具えることを特徴とする方法。
  16. 請求項15に記載の方法において、
    前記信頼閾値が、スピード/精度変数に応じて自動的に設定されることを特徴とする方法。
  17. 請求項15に記載の方法において、
    前記クエリを受け取り且つ読み取るステップが、さらに、クエリツリーの中にSQLタイプのクエリの文字列を解析することを具えることを特徴とする方法。
  18. 請求項16に記載の方法において、前記スピード/精度変数が、前記クエリの部分として通過されることを特徴とする方法。
  19. 請求項18に記載の方法において、前記クエリが、少なくとも1の時間範囲及び少なくとも1の事象データソースを有することを特徴とする方法。
  20. 請求項14に記載の方法において、さらに、前記信頼帯が信頼閾値を下回っていることをユーザに知らせるステップを具えることを特徴とする方法。

JP2016554870A 2014-03-10 2015-03-10 迅速なデータ解析のためのシステム及び方法 Active JP6307169B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461950827P 2014-03-10 2014-03-10
US61/950,827 2014-03-10
PCT/US2015/019765 WO2015138497A2 (en) 2014-03-10 2015-03-10 Systems and methods for rapid data analysis

Publications (2)

Publication Number Publication Date
JP2017512344A true JP2017512344A (ja) 2017-05-18
JP6307169B2 JP6307169B2 (ja) 2018-04-04

Family

ID=54017560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016554870A Active JP6307169B2 (ja) 2014-03-10 2015-03-10 迅速なデータ解析のためのシステム及び方法

Country Status (5)

Country Link
US (5) US9323809B2 (ja)
EP (1) EP3117347B1 (ja)
JP (1) JP6307169B2 (ja)
CN (1) CN106462583B (ja)
WO (1) WO2015138497A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230015073A (ko) * 2021-07-22 2023-01-31 에스케이텔레콤 주식회사 데이터 전처리 장치 및 방법

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607045B2 (en) 2012-07-12 2017-03-28 Microsoft Technology Licensing, Llc Progressive query computation using streaming architectures
US8631325B1 (en) 2013-08-09 2014-01-14 Zoomdata, Inc. Real-time data visualization of streaming data
US9659079B2 (en) * 2014-05-30 2017-05-23 Wal-Mart Stores, Inc. Shard determination logic for scalable order and inventory management architecture with a sharded transactional database
US10296507B2 (en) 2015-02-12 2019-05-21 Interana, Inc. Methods for enhancing rapid data analysis
US9251276B1 (en) 2015-02-27 2016-02-02 Zoomdata, Inc. Prioritization of retrieval and/or processing of data
US10331752B2 (en) * 2015-07-21 2019-06-25 Oath Inc. Methods and systems for determining query date ranges
US10268710B2 (en) 2015-10-07 2019-04-23 Oracle International Corporation Relational database organization for sharding
US11442909B2 (en) * 2015-12-01 2022-09-13 Motorola Solutions, Inc. Data analytics system
US10740328B2 (en) 2016-06-24 2020-08-11 Microsoft Technology Licensing, Llc Aggregate-query database system and processing
CN107798021B (zh) * 2016-09-07 2021-04-30 北京京东尚科信息技术有限公司 数据关联处理方法、***及电子设备
US11055273B1 (en) * 2016-11-04 2021-07-06 Amazon Technologies, Inc. Software container event monitoring systems
US9942312B1 (en) 2016-12-16 2018-04-10 Zoomdata, Inc. System and method for facilitating load reduction at a landing zone
US10552435B2 (en) 2017-03-08 2020-02-04 Microsoft Technology Licensing, Llc Fast approximate results and slow precise results
US10776361B2 (en) * 2017-04-07 2020-09-15 Salesforce.Com, Inc. Time series database search system
CN107665228B (zh) * 2017-05-10 2019-12-20 平安科技(深圳)有限公司 一种关联信息查询方法、终端及设备
JP6528807B2 (ja) * 2017-06-28 2019-06-12 オムロン株式会社 制御システム、制御装置、結合方法およびプログラム
US20190163790A1 (en) * 2017-11-29 2019-05-30 Intuit Inc. System and method for generating aggregated statistics over sets of user data while enforcing data governance policy
CN108280153B (zh) * 2018-01-08 2022-01-07 天津科技大学 一种碎片化知识智能化聚合方法
CN111143393A (zh) * 2018-11-03 2020-05-12 广州市明领信息科技有限公司 一种大数据的处理***
CN109491989B (zh) * 2018-11-12 2021-08-31 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109471862B (zh) * 2018-11-12 2021-06-11 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
US11354168B2 (en) * 2019-01-18 2022-06-07 Salesforce.Com, Inc. Elastic data partitioning of a database
US11194773B2 (en) 2019-09-12 2021-12-07 Oracle International Corporation Integration of existing databases into a sharding environment
US11537572B2 (en) 2020-01-31 2022-12-27 Salesforce.Com, Inc. Multidimensional partition of data to calculate aggregation at scale
US11609886B2 (en) 2020-01-31 2023-03-21 Salesforce.Com, Inc. Mechanism for stream processing efficiency using probabilistic model to reduce data redundancy
US11886435B1 (en) * 2023-01-06 2024-01-30 Snark AI, Inc. Systems and methods for executing queries on tensor datasets
CN118132591B (zh) * 2024-05-07 2024-07-02 深圳九有数据库有限公司 数据库分片键自动识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232804A (ja) * 1997-01-31 1998-09-02 Informix Software Inc データベースシステムにおいて集合体照会を遂行するための方法と装置
JPH10269248A (ja) * 1997-01-24 1998-10-09 Hitachi Ltd データベース処理システムにおけるデータの無作為抽出処理方法及びこれに基づくデータベース処理システム
JP2005100392A (ja) * 2003-09-23 2005-04-14 Internatl Business Mach Corp <Ibm> クエリ処理操作中に補助属性を用いてクエリをリライトするための方法および装置
JP2012108635A (ja) * 2010-11-16 2012-06-07 Nec Corp 分散メモリデータベースシステム、フロントデータベースサーバ、データ処理方法およびプログラム
JP2013196565A (ja) * 2012-03-22 2013-09-30 Toshiba Corp データベース処理方法、及びデータベース処理装置

Family Cites Families (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335345A (en) 1990-04-11 1994-08-02 Bell Communications Research, Inc. Dynamic query optimization using partial information
WO1996032685A1 (en) 1995-04-11 1996-10-17 Kinetech, Inc. Identifying data in a data processing system
US5668987A (en) * 1995-08-31 1997-09-16 Sybase, Inc. Database system with subquery optimizer
JP3144470B2 (ja) 1996-07-08 2001-03-12 矢崎総業株式会社 衝撃検出装置、遮断弁制御装置、衝撃検出方法及び遮断弁制御方法
US6804663B1 (en) * 1998-09-21 2004-10-12 Microsoft Corporation Methods for optimizing the installation of a software product onto a target computer system
US20030195872A1 (en) * 1999-04-12 2003-10-16 Paul Senn Web-based information content analyzer and information dimension dictionary
US6681331B1 (en) 1999-05-11 2004-01-20 Cylant, Inc. Dynamic software system intrusion detection
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US7120624B2 (en) 2001-05-21 2006-10-10 Microsoft Corporation Optimization based method for estimating the results of aggregate queries
US6775681B1 (en) * 2002-02-26 2004-08-10 Oracle International Corporation Evaluation of grouping sets by reduction to group-by clause, with or without a rollup operator, using temporary tables
US7010521B2 (en) * 2002-05-13 2006-03-07 Netezza Corporation Optimized database appliance
US6920460B1 (en) * 2002-05-29 2005-07-19 Oracle International Corporation Systems and methods for managing partitioned indexes that are created and maintained by user-defined indexing schemes
US7213012B2 (en) * 2003-05-09 2007-05-01 Oracle International Corporation Optimizer dynamic sampling
US7043621B2 (en) 2003-05-16 2006-05-09 Hewlett-Packard Development Company, L.P. Sharding method and apparatus using directed graphs
US7250858B2 (en) 2003-09-05 2007-07-31 Sensitech, Inc. Automated identification of anomalous conditions in supply chain processes
CN102982065B (zh) * 2003-09-15 2016-09-21 起元科技有限公司 数据处理方法、数据处理装置及计算机可读存储介质
US20050223019A1 (en) * 2004-03-31 2005-10-06 Microsoft Corporation Block-level sampling in statistics estimation
JP4484643B2 (ja) 2004-09-10 2010-06-16 独立行政法人科学技術振興機構 時系列データ異常判定用プログラム及び時系列データ異常判別方法
US7932906B2 (en) 2004-09-15 2011-04-26 Hewlett-Packard Development Company, L.P.. Constructing substantially equal-width pixel bar charts to enable visual data analysis
US8108579B2 (en) 2005-03-31 2012-01-31 Qualcomm Incorporated Mechanism and method for managing data storage
US7930752B2 (en) 2005-11-18 2011-04-19 Nexthink S.A. Method for the detection and visualization of anomalous behaviors in a computer network
US20070150949A1 (en) 2005-12-28 2007-06-28 At&T Corp. Anomaly detection methods for a computer network
US7650367B2 (en) 2006-01-13 2010-01-19 Tekelec Methods, systems, and computer program products for detecting and restoring missing or corrupted data in a distributed, scalable, redundant measurement platform database
US7593939B2 (en) 2006-04-07 2009-09-22 Google Inc. Generating specialized search results in response to patterned queries
US8239383B2 (en) * 2006-06-15 2012-08-07 International Business Machines Corporation System and method for managing execution of queries against database samples
US7930595B2 (en) 2006-06-22 2011-04-19 International Business Machines Corporation Method and apparatus for analyzing error conditions in a massively parallel computer system by identifying anomalous nodes within a communicator set
US20080091730A1 (en) 2006-09-29 2008-04-17 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US9465823B2 (en) 2006-10-19 2016-10-11 Oracle International Corporation System and method for data de-duplication
US20100138919A1 (en) 2006-11-03 2010-06-03 Tao Peng System and process for detecting anomalous network traffic
US20080109423A1 (en) * 2006-11-08 2008-05-08 Eric Lawrence Barsness Apparatus and method for database partition elimination for sampling queries
US20090271762A1 (en) 2008-04-29 2009-10-29 Sugarcrm Inc. Business software application system and method
JP2010531553A (ja) 2007-03-30 2010-09-24 ネットクオス・インコーポレーテッド ネットワーク異常検出のための統計的方法およびシステム
US9128877B1 (en) 2007-04-19 2015-09-08 Robert E. Cousins Systems, methods and computer program products including features of transforming data involving a secure format from which the data is recoverable
US20090070752A1 (en) 2007-09-06 2009-03-12 International Business Machines Corporation Method and system for optimization of an application
US20080215576A1 (en) 2008-03-05 2008-09-04 Quantum Intelligence, Inc. Fusion and visualization for multiple anomaly detection systems
US8000993B2 (en) 2008-04-14 2011-08-16 Tra, Inc. Using consumer purchase behavior for television targeting
US8484162B2 (en) 2008-06-24 2013-07-09 Commvault Systems, Inc. De-duplication systems and methods for application-specific data
US8140522B2 (en) * 2008-08-12 2012-03-20 International Business Machines Corporation Method, apparatus, and computer program product for adaptive query parallelism partitioning with look-ahead probing and feedback
US8903973B1 (en) 2008-11-10 2014-12-02 Tanium Inc. Parallel distributed network management
US8380738B2 (en) 2009-03-17 2013-02-19 Nec Laboratories America, Inc. System and methods for database distribution and querying over key-based scalable storage
US8510538B1 (en) * 2009-04-13 2013-08-13 Google Inc. System and method for limiting the impact of stragglers in large-scale parallel data processing
US8108343B2 (en) 2009-04-23 2012-01-31 Microsoft Corporation De-duplication and completeness in multi-log based replication
WO2010148415A1 (en) 2009-06-19 2010-12-23 Blekko, Inc. Scalable cluster database
US8918365B2 (en) 2009-06-19 2014-12-23 Blekko, Inc. Dedicating disks to reading or writing
US9866426B2 (en) 2009-11-17 2018-01-09 Hawk Network Defense, Inc. Methods and apparatus for analyzing system events
US9323758B1 (en) 2009-12-22 2016-04-26 Emc Corporation Efficient migration of replicated files from a file server having a file de-duplication facility
US8527496B2 (en) 2010-02-11 2013-09-03 Facebook, Inc. Real time content searching in social network
US8458131B2 (en) 2010-02-26 2013-06-04 Microsoft Corporation Opportunistic asynchronous de-duplication in block level backups
US20120016633A1 (en) 2010-07-16 2012-01-19 Andreas Wittenstein System and method for automatic detection of anomalous recurrent behavior
US9246932B2 (en) 2010-07-19 2016-01-26 Sitelock, Llc Selective website vulnerability and infection testing
US9424351B2 (en) * 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US10198492B1 (en) 2010-12-28 2019-02-05 Amazon Technologies, Inc. Data replication framework
US8468132B1 (en) 2010-12-28 2013-06-18 Amazon Technologies, Inc. Data replication framework
US9251097B1 (en) 2011-03-22 2016-02-02 Amazon Technologies, Inc. Redundant key management
US9535765B1 (en) 2011-03-28 2017-01-03 Google Inc. Opportunistic job Processing of input data divided into partitions of different sizes
US9054864B2 (en) 2011-03-29 2015-06-09 Kaseya Limited Method and apparatus of securely processing data for file backup, de-duplication, and restoration
US8856169B2 (en) * 2011-07-13 2014-10-07 Case Western Reserve University Multi-modality, multi-resource, information integration environment
US20140245337A1 (en) * 2011-07-27 2014-08-28 Google Inc. Proxy Analytics
CN103891298B (zh) * 2011-08-31 2018-05-25 谷歌有限责任公司 用于收集和管理电视收视数据的方法和***
US9305043B2 (en) 2011-09-12 2016-04-05 Hitachi, Ltd. Stream data anomaly detection method and device
US9129039B2 (en) 2011-10-18 2015-09-08 Ut-Battelle, Llc Scenario driven data modelling: a method for integrating diverse sources of data and data streams
US8356050B1 (en) 2011-11-21 2013-01-15 Yahoo! Inc. Method or system for spilling in query environments
US8756209B2 (en) 2012-01-04 2014-06-17 International Business Machines Corporation Computing resource allocation based on query response analysis in a networked computing environment
US9239851B1 (en) * 2012-07-12 2016-01-19 Cross Commerce Media, Inc. Advanced database systems and methods
US20130253888A1 (en) 2012-03-22 2013-09-26 Microsoft Corporation One-pass statistical computations
WO2013147785A1 (en) 2012-03-29 2013-10-03 Hitachi Data Systems Corporation Highly available search index with storage node addition and removal
GB2514947B (en) 2012-05-04 2015-06-17 Box Inc Repository redundancy implementation of a system which incrementally updates clients with events that occured via a cloud-enabled platform
US8825752B1 (en) 2012-05-18 2014-09-02 Netapp, Inc. Systems and methods for providing intelligent automated support capable of self rejuvenation with respect to storage systems
US9015812B2 (en) 2012-05-22 2015-04-21 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh Transparent control of access invoking real-time analysis of the query history
US9218573B1 (en) * 2012-05-22 2015-12-22 Google Inc. Training a model using parameter server shards
JP6396294B2 (ja) 2012-07-05 2018-09-26 リテルヒューズ・インク 過渡電圧回路保護のためのクローバーデバイス
US9792320B2 (en) * 2012-07-06 2017-10-17 Box, Inc. System and method for performing shard migration to support functions of a cloud-based service
US9904788B2 (en) 2012-08-08 2018-02-27 Amazon Technologies, Inc. Redundant key management
US20140108421A1 (en) * 2012-10-04 2014-04-17 Codefutures Corporation Partitioning database data in a sharded database
US9104786B2 (en) * 2012-10-12 2015-08-11 International Business Machines Corporation Iterative refinement of cohorts using visual exploration and data analytics
US9146830B2 (en) 2012-10-26 2015-09-29 Jsmapreduce Corporation Hybrid local/remote infrastructure for data processing with lightweight setup, powerful debuggability, controllability, integration, and productivity features
US9633022B2 (en) 2012-12-28 2017-04-25 Commvault Systems, Inc. Backup and restoration for a deduplicated file system
US9633033B2 (en) 2013-01-11 2017-04-25 Commvault Systems, Inc. High availability distributed deduplicated storage system
US20140214886A1 (en) 2013-01-29 2014-07-31 ParElastic Corporation Adaptive multi-client saas database
US10148548B1 (en) 2013-01-29 2018-12-04 Axway, Inc. System and method for real-time analysis of incoming data
US9424330B2 (en) 2013-03-15 2016-08-23 Tactile, Inc. Database sharding by shard levels
US9244952B2 (en) * 2013-03-17 2016-01-26 Alation, Inc. Editable and searchable markup pages automatically populated through user query monitoring
WO2014174599A1 (ja) 2013-04-24 2014-10-30 株式会社日立製作所 計算機、記録媒体及びデータ検索方法
US20140337491A1 (en) 2013-05-08 2014-11-13 Box, Inc. Repository redundancy implementation of a system which incrementally updates clients with events that occurred via a cloud-enabled platform
US9195826B1 (en) 2013-05-30 2015-11-24 Emc Corporation Graph-based method to detect malware command-and-control infrastructure
US9053167B1 (en) 2013-06-19 2015-06-09 Amazon Technologies, Inc. Storage device selection for database partition replicas
US9774401B1 (en) 2013-07-15 2017-09-26 Paul Borrill Entangled links, transactions and trees for distributed computing systems
US10394848B2 (en) 2013-07-29 2019-08-27 Amazon Technologies, Inc. Generating a multi-column index for relational databases by interleaving data bits for selectivity
US20150039749A1 (en) 2013-08-01 2015-02-05 Alcatel-Lucent Canada Inc. Detecting traffic anomalies based on application-aware rolling baseline aggregates
US20150067860A1 (en) 2013-08-29 2015-03-05 Barracuda Networks, Inc. Virus Detector Controlled Backup Apparatus and File Restoration
US9280591B1 (en) 2013-09-20 2016-03-08 Amazon Technologies, Inc. Efficient replication of system transactions for read-only nodes of a distributed database
US10116697B2 (en) 2013-09-20 2018-10-30 Open Text Sa Ulc System and method for geofencing
US10311154B2 (en) 2013-09-21 2019-06-04 Oracle International Corporation Combined row and columnar storage for in-memory databases for OLTP and analytics workloads
US9483509B2 (en) 2013-10-02 2016-11-01 Google Inc. Dynamic shuffle reconfiguration
US9503465B2 (en) 2013-11-14 2016-11-22 At&T Intellectual Property I, L.P. Methods and apparatus to identify malicious activity in a network
US10331695B1 (en) 2013-11-25 2019-06-25 Amazon Technologies, Inc. Replication coordination service for data transfers between distributed databases
US9411862B1 (en) 2013-12-03 2016-08-09 Google Inc. Systems and methods for dynamic sharding of hierarchical data
US10235377B2 (en) 2013-12-23 2019-03-19 Sap Se Adaptive dictionary compression/decompression for column-store databases
US9697274B2 (en) 2013-12-27 2017-07-04 International Business Machines Corporation Stratified sampling using adaptive parallel data processing
US10380072B2 (en) 2014-03-17 2019-08-13 Commvault Systems, Inc. Managing deletions from a deduplication database
US9633056B2 (en) 2014-03-17 2017-04-25 Commvault Systems, Inc. Maintaining a deduplication database
US9667738B2 (en) 2014-03-24 2017-05-30 Tanium Inc. Local data caching for data transfers on a network of computational devices
US10025710B2 (en) 2014-04-30 2018-07-17 Walmart Apollo, Llc Pattern for integrating primary and secondary data stores in a sharded data domain
US9613122B2 (en) 2014-05-02 2017-04-04 Facebook, Inc. Providing eventual consistency for multi-shard transactions
US9672241B2 (en) 2014-05-28 2017-06-06 International Business Machines Corporation Representing an outlier value in a non-nullable column as null in metadata
US10230747B2 (en) 2014-07-15 2019-03-12 Cisco Technology, Inc. Explaining network anomalies using decision trees
US9973520B2 (en) 2014-07-15 2018-05-15 Cisco Technology, Inc. Explaining causes of network anomalies
US9753955B2 (en) 2014-09-16 2017-09-05 Commvault Systems, Inc. Fast deduplication data verification
EP2998881B1 (en) 2014-09-18 2018-07-25 Amplidata NV A computer implemented method for dynamic sharding
US9575673B2 (en) 2014-10-29 2017-02-21 Commvault Systems, Inc. Accessing a file system using tiered deduplication
US9288617B1 (en) 2014-10-30 2016-03-15 Deep Rock Ventures, Inc. Mobile media communications system
US9830342B2 (en) 2014-11-20 2017-11-28 International Business Machines Corporation Optimizing database deduplication
US20160171071A1 (en) 2014-12-11 2016-06-16 International Business Machines Corporation Dynamic creation and configuration of partitioned index through analytics based on existing data population
US20160191508A1 (en) 2014-12-31 2016-06-30 Nexenta Systems, Inc. Methods and Systems for Block Sharding of Objects Stored in Distributed Storage System
EP3091816B1 (en) 2015-01-06 2019-12-25 Battelle Memorial Institute Uniform heat distribution in resistive heaters for anti-icing and de-icing
US10353900B2 (en) 2015-07-24 2019-07-16 Oracle International Corporation System and method for creating an intelligent synopsis of a database using re-partitioning based sampling
US10268710B2 (en) 2015-10-07 2019-04-23 Oracle International Corporation Relational database organization for sharding
US11210279B2 (en) 2016-04-15 2021-12-28 Apple Inc. Distributed offline indexing
US11030169B1 (en) 2017-03-07 2021-06-08 Amazon Technologies, Inc. Data re-sharding
US11550505B1 (en) 2020-09-01 2023-01-10 Amazon Technologies, Inc. Intra-shard parallelization of data stream processing using virtual shards

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269248A (ja) * 1997-01-24 1998-10-09 Hitachi Ltd データベース処理システムにおけるデータの無作為抽出処理方法及びこれに基づくデータベース処理システム
JPH10232804A (ja) * 1997-01-31 1998-09-02 Informix Software Inc データベースシステムにおいて集合体照会を遂行するための方法と装置
JP2005100392A (ja) * 2003-09-23 2005-04-14 Internatl Business Mach Corp <Ibm> クエリ処理操作中に補助属性を用いてクエリをリライトするための方法および装置
JP2012108635A (ja) * 2010-11-16 2012-06-07 Nec Corp 分散メモリデータベースシステム、フロントデータベースサーバ、データ処理方法およびプログラム
JP2013196565A (ja) * 2012-03-22 2013-09-30 Toshiba Corp データベース処理方法、及びデータベース処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230015073A (ko) * 2021-07-22 2023-01-31 에스케이텔레콤 주식회사 데이터 전처리 장치 및 방법
KR102667872B1 (ko) 2021-07-22 2024-05-20 에스케이텔레콤 주식회사 데이터 전처리 장치 및 방법

Also Published As

Publication number Publication date
CN106462583B (zh) 2020-03-24
WO2015138497A2 (en) 2015-09-17
US20220284017A1 (en) 2022-09-08
EP3117347A4 (en) 2017-11-29
EP3117347B1 (en) 2020-09-23
US9323809B2 (en) 2016-04-26
US10713240B2 (en) 2020-07-14
US20150254307A1 (en) 2015-09-10
US9734202B2 (en) 2017-08-15
US20200311064A1 (en) 2020-10-01
US20160203179A1 (en) 2016-07-14
CN106462583A (zh) 2017-02-22
US20170308570A1 (en) 2017-10-26
WO2015138497A3 (en) 2015-12-03
EP3117347A2 (en) 2017-01-18
JP6307169B2 (ja) 2018-04-04
US11977541B2 (en) 2024-05-07
US11372851B2 (en) 2022-06-28

Similar Documents

Publication Publication Date Title
JP6307169B2 (ja) 迅速なデータ解析のためのシステム及び方法
US5899986A (en) Methods for collecting query workload based statistics on column groups identified by RDBMS optimizer
US10592481B2 (en) Classifying an unmanaged dataset
US9720986B2 (en) Method and system for integrating data into a database
US20090063461A1 (en) User query mining for advertising matching
US20150242407A1 (en) Discovery of Data Relationships Between Disparate Data Sets
US20180139222A1 (en) Method and device for detecting website attack
CN106933893B (zh) 多维度数据的查询方法及装置
CN103425650B (zh) 推荐搜索方法和***
CN109308303B (zh) 一种基于马尔可夫链的多表连接在线聚集方法
GB2498762A (en) Computing user traffic at the website based on user actions
WO2013078478A1 (en) Improved database query optimization and cost estimation
US20110179013A1 (en) Search Log Online Analytic Processing
US9727666B2 (en) Data store query
CN106933902B (zh) 数据多维度自由剖析的查询方法及装置
CN103605744B (zh) 网站搜索引擎流量数据的分析方法及装置
US9286350B2 (en) Estimating most frequent values for a data set
CN114022051A (zh) 一种指标波动分析方法,存储介质和电子设备
CN113792084A (zh) 数据热度的分析方法、装置、设备及存储介质
CN112131288B (zh) 数据源接入处理方法和装置
Li et al. Cost-efficient data acquisition on online data marketplaces for correlation analysis
CN106933909B (zh) 多维度数据的查询方法及装置
CN107133281B (zh) 一种基于分组的全局多查询优化方法
CN113553477B (zh) 一种图的拆分方法和装置
US20140181075A1 (en) Techniques for query statistics inheritance

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180309

R150 Certificate of patent or registration of utility model

Ref document number: 6307169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250