JP6673683B2 - 実行時間予測のためのデータベースクエリのクラスタリング - Google Patents
実行時間予測のためのデータベースクエリのクラスタリング Download PDFInfo
- Publication number
- JP6673683B2 JP6673683B2 JP2015242282A JP2015242282A JP6673683B2 JP 6673683 B2 JP6673683 B2 JP 6673683B2 JP 2015242282 A JP2015242282 A JP 2015242282A JP 2015242282 A JP2015242282 A JP 2015242282A JP 6673683 B2 JP6673683 B2 JP 6673683B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- index
- database
- clustering
- execution time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 118
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000003064 k means clustering Methods 0.000 claims description 14
- 238000010845 search algorithm Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013500 data storage Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 34
- 238000013139 quantization Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000007621 cluster analysis Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010003830 Automatism Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
- G06F16/24545—Selectivity estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24547—Optimisations to support specific applications; Extensibility of optimisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
−その結果、数値がソートおよびインデックス付けされ、算出するステップ内で反復することが、正方行列に適用される線形時間行最小検索アルゴリズムに従って、各々のそれぞれの反復ランク(iteration rank)において、および数値の数未満のそれぞれのインデックスごとに、それぞれの反復ランクに対応するクラスタの数で、それぞれのインデックス未満でインデックス付けされた数値のサブセットに対して達成可能な最小全歪み(minimal total distortion)を算出することを含むことと、
−各々のそれぞれの反復ランクにおいて、ならびに数値の数未満のそれぞれのインデックスごとに、行インデックスごと、および列インデックスごとに、行列エントリ(matrix entry)は、行インデックスに先行するインデックスに対する前の反復において算出された最小全歪みの合計、および行インデックスと列インデックスとの間の数値の連続するサブセットの歪みに対応することと
のうちの1つ以上を備える。
−演繹(Deductive)データベース(非特許文献15で説明されるデータベースなど)。
−分散データベース(非特許文献16で説明されるものなど)。
−連合データベースシステム(非特許文献17で説明されるデータベースなど)。
−グラフデータベース(非特許文献18で説明されるデータベースなど)。
−知識ベース(非特許文献19で説明されるデータベースなど)。
−オペレーショナルデータベース(非特許文献20で説明されるデータベースなど)。
−確率データベース(非特許文献21で説明されるデータベースなど)。
−一時データベース(非特許文献22で説明されるデータベースなど)。
−ステップ1:クエリ時間をクラスタリングする
−ステップ2:各々のクラスタ上でモデルを学習する
−ステップ3:クエリ実行時間を予測する
TD=disto(1,17)+disto(18,24)+disto(25,42)+disto(43,47)
として記述することができる。
−行インデックスの前のインデックス(i−1)に対する前の反復において算出された最小全歪み(TDmin(i−1,k−1))、および
−行インデックスと列インデックスとの間の数値の連続するサブセット(xi,…,xj)の歪み(disto(i,j))
の合計に対応してもよい。
関数
全ての1<=i<j<nに対し、disto(i,j)+disto(i+1,j+1)<=disto(i,j+1)+disto(i+1,j)。
まず第一に、1<=a<=b<=nに対し、disto(a,b)は、定義によって(b−a+1)と乗算した(xa,…,xb)の変数に等しい。
Δ'=−p(p+1)β2−p(p−1)α2+(p−1)(p+1)(α−β)2
である。
Δ'=−(p+1)β2+(p−1)α2−2(p+1)(p−1)αβ
と記述することができる。
(p−1)α>=−β
が得られる。
−(p−1)αβ>=β2
に従う。
Δ'>=−(p+1)β2+(p−1)α2+2(p+1)β2>=(p−1)α2+(p+1)β2
H(i,j)+H(i+1,j+1)<=H(i,j+1)+H(i+1,j)を得る。
Claims (11)
- 基準クエリとのターゲットクエリの類似性に基づいて、データベースにおける前記ターゲットクエリの実行時間を予測するための前記データベースにおいて前記基準クエリをクラスタリングするコンピュータにより実行される方法であって、
前記基準クエリの前記実行時間を表す数値(x1,…,xn)の数(n)を設けるステップと、
予め定められた数(K)のクラスタに対する前記数値の最適K平均クラスタリングを算出するステップであって、前記算出するステップは、前記予め定められた数のクラスタに対応する回数、前記数値の数に等しい次数(n)の正方行列(H)に適用される線形時間行最小検索アルゴリズムを反復するステップを含む、ステップと、
前記数値の前記算出されたクラスタリングに従って、前記基準クエリをクラスタリングするステップと
を備えたことを特徴とする方法。 - 前記数値(x1,…,xn)は、記憶およびインデックス付けされ、前記算出するステップ内で反復することは、各々のそれぞれの反復ランク(k)において、ならびに前記数値の数(n)未満のそれぞれのインデックス(j)ごとに、前記正方行列(H)に適用される前記線形時間行最小検索アルゴリズムに従って、前記それぞれの反復ランク(k)に対応するクラスタの数で、前記それぞれのインデックス(i<=j)よりも低くインデックス付けされた数値(xi)のサブセットに対して達成可能な最小全歪み(TDmin(j,k))の算出を含む、ことを特徴とする請求項1に記載の方法。
- 各々のそれぞれの反復ランク(k)において、および前記数値の数(n)未満のそれぞれのインデックス(j)ごとに、行インデックス(i)ごと、および列インデックス(j)ごとに、行列エントリ(H(i,j))は、
前記行インデックスに先行するインデックス(i−1)に対する前の反復において算出された最小全歪み(TDmin(i−1,k−1))、および
前記行インデックスと前記列インデックスとの間の前記数値の連続するサブセット(xi,…,xj)の歪み(disto(i,j))
の合計に対応する、ことを特徴とする請求項2に記載の方法。 - 前記方法は、各々のそれぞれの反復ランク(k)において、前記行最小検索アルゴリズムによって返されるインデックス(Cutmin(j,k))を記憶するステップをさらに備えている、ことを特徴とする請求項3に記載の方法。
- 前記方法は、前記算出するステップにおいて、前記記憶されたインデックスから最適クラスタリングを判定するステップをさらに備えている、ことを特徴とする請求項4に記載の方法。
- 前記記憶されたインデックスから前記最適クラスタリングを判定するステップは、前記記憶されたインデックス(Cutmin)における最後にインデックス付けされた数値(Cutmin(n,K))から開始して、前記数値を反復して区分化するステップを備え、各々のそれぞれの反復ランク(q)において、現在形成されているクラスタの開始数値のインデックスは、前記算出するステップ内での反復の間に、前記予め定められた数のクラスタから、前記現在形成されているクラスタの最後にインデックス付けされた数値の前記インデックスに等しい前記行インデックスに対するそれぞれの反復ランク(q)を引いたのに等しいランク(K−q)の反復において、記憶されたインデックスに等しい、ことを特徴とする請求項5に記載の方法。
- データベースにおいてターゲットクエリの実行時間を予測する方法であって、
請求項1乃至6のいずれか一項に記載の方法によって取得可能な前記データベースにおける基準クエリのクラスタリング、および前記基準クエリの前記実行時間を提供するステップと、
前記基準クエリとの前記ターゲットクエリの類似性に基づいて、前記ターゲットクエリを前記クラスタリングのクラスタに関連付けるステップと、
前記ターゲットクエリに関連付けられた前記クラスタの前記基準クエリの前記実行時間に従って、前記ターゲットクエリの前記実行時間を予測するステップと
を備えたことを特徴とする方法。 - コンピュータによって実行されるとき、前記コンピュータに、請求項1乃至7のいずれか一項に記載の方法を実行させるためのコンピュータ実行可能命令を備えたことを特徴とするコンピュータプログラム。
- 請求項8に記載のコンピュータプログラムを記憶したことを特徴とするデータ記憶媒体。
- メモリに結合されたプロセッサを備えたシステムであって、前記プロセッサは、前記メモリに記憶された、請求項8に記載の前記コンピュータプログラムを実行するように構成されていることを特徴とするシステム。
- 前記メモリはデータベースをさらに記憶し、前記プロセッサは、前記データベースにおける基準クエリおよび/または前記データベースにおけるターゲットクエリ上で前記コンピュータプログラムを実行するように構成されていることを特徴とする請求項10に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14307192.6A EP3038018A1 (en) | 2014-12-27 | 2014-12-27 | Clustering database queries for runtime prediction |
EP14307192.6 | 2014-12-27 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016126770A JP2016126770A (ja) | 2016-07-11 |
JP2016126770A5 JP2016126770A5 (ja) | 2019-01-24 |
JP6673683B2 true JP6673683B2 (ja) | 2020-03-25 |
Family
ID=52396394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015242282A Active JP6673683B2 (ja) | 2014-12-27 | 2015-12-11 | 実行時間予測のためのデータベースクエリのクラスタリング |
Country Status (4)
Country | Link |
---|---|
US (1) | US10191967B2 (ja) |
EP (1) | EP3038018A1 (ja) |
JP (1) | JP6673683B2 (ja) |
CN (1) | CN105740312B (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9959354B2 (en) * | 2015-06-23 | 2018-05-01 | Google Llc | Utilizing user co-search behavior to identify search queries seeking inappropriate content |
US11249995B2 (en) * | 2016-12-30 | 2022-02-15 | Salesforce.Com, Inc. | Techniques and architectures for providing and operating an application-aware database environment with predictive execution of queries and query flows |
US11120021B2 (en) * | 2017-01-11 | 2021-09-14 | Facebook, Inc. | Systems and methods for optimizing queries |
CN106991006B (zh) * | 2017-03-30 | 2018-05-15 | 浙江天正信息科技有限公司 | 支持依赖和时间平衡的云工作流任务聚类方法 |
US11372858B2 (en) * | 2017-05-18 | 2022-06-28 | Oracle International Corporation | Estimated query performance |
CN107491508B (zh) * | 2017-08-01 | 2020-05-26 | 浙江大学 | 一种基于循环神经网络的数据库查询时间预测方法 |
CN108052614B (zh) * | 2017-12-14 | 2021-12-03 | 太原理工大学 | 一种数据库***负载的调度方法 |
US11100555B1 (en) * | 2018-05-04 | 2021-08-24 | Coupa Software Incorporated | Anticipatory and responsive federated database search |
US12013856B2 (en) | 2018-08-13 | 2024-06-18 | Amazon Technologies, Inc. | Burst performance of database queries according to query size |
US11586939B2 (en) * | 2019-02-28 | 2023-02-21 | Entigenlogic Llc | Generating comparison information |
US11327970B1 (en) | 2019-03-25 | 2022-05-10 | Amazon Technologies, Inc. | Context dependent execution time prediction for redirecting queries |
US11308100B2 (en) | 2019-06-25 | 2022-04-19 | Amazon Technologies, Inc. | Dynamically assigning queries to secondary query processing resources |
US11314561B2 (en) * | 2020-03-11 | 2022-04-26 | UiPath, Inc. | Bottleneck detection for processes |
US11416270B2 (en) * | 2020-03-11 | 2022-08-16 | Td Ameritrade Ip Company, Inc. | Systems and methods for dynamic server control based on estimated script complexity |
US11537616B1 (en) | 2020-06-29 | 2022-12-27 | Amazon Technologies, Inc. | Predicting query performance for prioritizing query execution |
CN112256725A (zh) * | 2020-11-06 | 2021-01-22 | 山东伏羲智库互联网研究院 | 一种基于gpu和cpu的相似数据查询方法及*** |
CN112397146B (zh) * | 2020-12-02 | 2021-08-24 | 广东美格基因科技有限公司 | 一种基于云平台的微生物组学数据交互分析*** |
US11741101B2 (en) | 2020-12-15 | 2023-08-29 | International Business Machines Corporation | Estimating execution time for batch queries |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US1543036A (en) | 1924-10-10 | 1925-06-23 | Lawrence H Taylor | Domestic press |
US5694591A (en) | 1995-05-02 | 1997-12-02 | Hewlett Packard Company | Reducing query response time using tree balancing |
US7356526B2 (en) | 2003-09-30 | 2008-04-08 | International Business Machines Corporation | Estimating the compilation time of a query optimizer |
US20050192937A1 (en) | 2004-02-26 | 2005-09-01 | International Business Machines Corporation | Dynamic query optimization |
US8346761B2 (en) | 2004-08-05 | 2013-01-01 | International Business Machines Corporation | Method and system for data mining for automatic query optimization |
US7831594B2 (en) | 2007-04-30 | 2010-11-09 | Hewlett-Packard Development Company, L.L.P. | Estimating the static execution time of a database query |
US7895192B2 (en) | 2007-07-19 | 2011-02-22 | Hewlett-Packard Development Company, L.P. | Estimating the loaded execution runtime of a database query |
US8352480B2 (en) * | 2010-12-20 | 2013-01-08 | Nokia Corporation | Methods, apparatuses and computer program products for converting a geographical database into a map tile database |
IN2015DN02750A (ja) | 2012-10-19 | 2015-08-28 | Ericsson Telefon Ab L M |
-
2014
- 2014-12-27 EP EP14307192.6A patent/EP3038018A1/en not_active Withdrawn
-
2015
- 2015-12-11 JP JP2015242282A patent/JP6673683B2/ja active Active
- 2015-12-22 US US14/979,077 patent/US10191967B2/en active Active
- 2015-12-25 CN CN201510993945.2A patent/CN105740312B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016126770A (ja) | 2016-07-11 |
US10191967B2 (en) | 2019-01-29 |
CN105740312B (zh) | 2020-10-23 |
US20160188696A1 (en) | 2016-06-30 |
CN105740312A (zh) | 2016-07-06 |
EP3038018A1 (en) | 2016-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6673683B2 (ja) | 実行時間予測のためのデータベースクエリのクラスタリング | |
Diaz et al. | An effective algorithm for hyperparameter optimization of neural networks | |
JP6969637B2 (ja) | 因果関係分析方法および電子デバイス | |
US20180018586A1 (en) | Apparatus and method for managing machine learning | |
JP2020522055A5 (ja) | ||
US11308418B2 (en) | Automatic selection of variables for a machine-learning model | |
JP2017049674A (ja) | 予測性能曲線推定プログラム、予測性能曲線推定装置および予測性能曲線推定方法 | |
US11366806B2 (en) | Automated feature generation for machine learning application | |
WO2018144534A1 (en) | Hardware-based machine learning acceleration | |
CN110020435B (zh) | 一种采用并行二进制蝙蝠算法优化文本特征选择的方法 | |
Yaghoobi et al. | A review of modeling techniques for genetic regulatory networks | |
JP2016194914A (ja) | 混合モデル選択の方法及び装置 | |
JP7481902B2 (ja) | 管理計算機、管理プログラム、及び管理方法 | |
CN114902246A (zh) | 用于大数据的快速交互式探索的*** | |
Anderson et al. | Sample, estimate, tune: Scaling bayesian auto-tuning of data science pipelines | |
Kumar et al. | Scalable performance tuning of hadoop mapreduce: a noisy gradient approach | |
Huang et al. | Mbct: Tree-based feature-aware binning for individual uncertainty calibration | |
CN113449182A (zh) | 一种知识信息个性化推荐方法及*** | |
CN111160715A (zh) | 基于bp神经网络新旧动能转换绩效评价方法和装置 | |
JP2016126771A (ja) | コロプレスマップの設計 | |
JP2009265729A (ja) | 推定装置および方法、並びにプログラム | |
Rajput et al. | Feature weighted unsupervised classification algorithm and adaptation for software cost estimation | |
Hewa Nadungodage et al. | Online multi-dimensional regression analysis on concept-drifting data streams | |
Fu et al. | Relevance feedback techniques and genetic algorithm for image retrieval based on multiple features | |
Thiyagarajan | Platfora Method for High Data Delivery in Large Datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181206 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6673683 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |