CN113343050B - 一种基于时间感知对象的why-not问题的解决方法及*** - Google Patents

一种基于时间感知对象的why-not问题的解决方法及*** Download PDF

Info

Publication number
CN113343050B
CN113343050B CN202110571316.6A CN202110571316A CN113343050B CN 113343050 B CN113343050 B CN 113343050B CN 202110571316 A CN202110571316 A CN 202110571316A CN 113343050 B CN113343050 B CN 113343050B
Authority
CN
China
Prior art keywords
query
doc
time
missing object
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110571316.6A
Other languages
English (en)
Other versions
CN113343050A (zh
Inventor
覃俊
游青华
李艳红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202110571316.6A priority Critical patent/CN113343050B/zh
Publication of CN113343050A publication Critical patent/CN113343050A/zh
Application granted granted Critical
Publication of CN113343050B publication Critical patent/CN113343050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于时间感知对象的why‑not问题的解决方法,该方法用于解决时间感知的空间关键字查询中的why‑not问题,且所述时间感知的空间关键字查询表示为q=(q.loc,q.doc,q.t,q.k),其中,q.loc为查询空间位置、q.doc为查询关键字、q.t为查询时间以及q.k为查询返回结果数量;所述基于时间感知对象的why‑not问题的解决方法包括步骤:获取原始查询q=(q.loc,q.doc,q.t,q.k)以及所述原始查询q的缺失对象集M;修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中;计算每个所述精炼查询q’的修改代价,并选择所述修改代价最小的精炼查询q’为最优精炼查询。

Description

一种基于时间感知对象的why-not问题的解决方法及***
技术领域
本发明涉及空间关键字查询技术领域,特别涉及一种基于时间感知对象的why-not问题的解决方法及***。
背景技术
近些年来,数据库的查询结果的可用性在数据库研究领域中受到了广泛的关注。为了提升数据库查询结果的可用性,Chapman和Jagadish最早提出了why-not问题。解决why-not问题主要是向用户提供一个为什么他们期望的对象没有出现在查询结果集中的合理的解释或者向用户提供一个使得他们期望的某些数据出现在查询结果集中的有效解决方法。例如,某用户在大众点评上搜索排名前3的牛排餐厅,结果他发现曾路过的一家环境看起来优雅、生意还不错的餐厅A不在查询返回的结果中。这时,他就会想,查询返回的三家餐厅难道真的比餐厅A的品质要好吗?为什么餐厅A不在查询的结果中呢?从而降低对查询结果的信赖度。因此,查询算法的设计者需要考虑怎样设置查询参数才能使餐厅A出现在查询结果集中。
在解决why-not问题的相关文献和技术方案中,主要是采用查询修改的方案来解决why-not问题。由于针对不同的查询类型,需要提出不同的查询修改方案,而相关技术无法直接应用在时间感知的空间关键字查询的why-not问题上。因此,亟须提出一种新的、有效的方案来解决时间感知的空间关键字查询的why-not问题从而提高此类查询结果的可用性。
发明内容
本发明实施例提供一种基于时间感知对象的why-not问题的解决方法及***,以解决相关技术中无法在时间感知的空间关键字查询上解决why-not问题。
第一方面提供了一种基于时间感知对象的why-not问题的解决方法,该方法用于解决时间感知的空间关键字查询中的why-not问题,且所述时间感知的空间关键字查询表示为q=(q.loc,q.doc,q.t,q.k),其中,q.loc为查询空间位置、q.doc为查询关键字、q.t为查询时间以及q.k为查询返回结果数量;所述基于时间感知对象的why-not问题的解决方法包括步骤:获取原始查询q=(q.loc,q.doc,q.t,q.k)以及所述原始查询q的缺失对象集M;修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中;计算每个所述精炼查询q’的修改代价,并选择所述修改代价最小的精炼查询q’为最优精炼查询。
一些实施例中,修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:计算所述缺失对象集M中的缺失对象mi在所述精炼查询q’中的排名R(q’,mi),并以此确定所述缺失对象集M的排名R(q’,M);使所述修改满足以下条件:q’.doc’∩M.doc≠φ;对于任何mi∈M,q’.t’∩mi.t’≠φ;q’.k’=R(q’,M),或R(q’,M)<q’.k’,且R(q’,M)=max(R(q’,mi));其中,M.doc为缺失对象集M的查询关键字,mi.t’为缺失对象mi的有效时间。
一些实施例中,修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:在第一条件下,固定原始查询q的查询结束时间q.et,且在取值范围(m.et,q.st]内逐步减小原始查询q的查询起始时间q.st;以单位时间为步长逐步减小所述q.st的取值;对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;所述第一条件为:|q.t∩m.t|≠0且m.st<q.st<m.et<q.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间;所述候选关键字集合CSdoc满足条件:存在于缺失对象的关键字集合中且不存在于原始查询的查询关键字集合中,并表示为:
Figure GDA0003861496380000031
其中,mi.doc为缺失对象mi的关键字集。
一些实施例中,对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中,包括步骤:求得所述候选关键字集合CSdoc中每个候选关键字与原始查询的查询关键字集合q.doc之间的编辑距离;将所述编辑距离按照从小到大排列。
一些实施例中,修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:在第二条件下,不修改原始查询的查询时间q.t,而只修改原始查询的查询关键字q.doc和查询返回结果数量q.k;计算所述缺失对象集M中的缺失对象mi在所述精炼查询q’中的排名R(q’,mi),并以此确定所述缺失对象集M的排名R(q’,M);所述第二条件为:|q.t∩m.t|0且m.st<q.st,m.et>q.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间,q.et为原始查询q的查询结束时间。
一些实施例中,修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:在第三条件下,固定原始查询q的查询起始时间q.st,使原始查询q的查询结束时间q.et在取值范围[q.et,m.et)内逐步增大;以单位时间为步长逐步增大所述q.et的取值;对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;所述第三条件为:|q.t∩m.t|0且q.st<m.st<q.et<m.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间,q.et为原始查询q的查询结束时间。
一些实施例中,修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:在第四条件下,固定原始查询q的查询结束时间q.et,且在取值范围(m.st,m.et)内逐步减小原始查询q的查询起始时间q.st;以单位时间为步长逐步减小所述q.st的取值;对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;所述第四条件为:|q.t∩m.t|=0且m.et<q.st,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间。
一些实施例中,修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:在第五条件下,固定原始查询q的查询起始时间q.st,且在取值范围[q.et,m.et)内逐步增大原始查询q的查询结束时间q.et;以单位时间为步长逐步增大所述q.et的取值;所述第五条件为:|q.t∩m.t|=0且q.et<m.st,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.et为原始查询q的查询结束时间。
一些实施例中,计算每个所述精炼查询q’的修改代价包括步骤:根据第一公式计算所述精炼查询q’的修改代价;根据选择所述修改代价最小时的精炼查询q’为最优精炼查询;所述第一公式:
Figure GDA0003861496380000041
其中:
penalty(q,q’)为所述精炼查询q’的修改代价,即为从原始查询q到精炼查询q’的修改代价;λ1、λ2、λ3分别表示用户对查询返回结果数量q.k、查询关键字q.doc、查询时间q.t的修改偏好参数,设置0≤λ1,λ2,λ3≤1且λ123=1;Δk=max(0,k’-k),Δkmax是q.k的最大修改量并用于将Δk规范到区间[0,1];Δdoc表示从q.doc修改为q’.doc’的编辑距离,|Δdocmax|表示从q.doc修改为q.doc∪M.doc的最大修改操作,
Figure GDA0003861496380000054
Δdocmax|用于将Δdoc规范到区间[0,1];Δt表示从q.t到q’.t’的修改量,Δtmax表示对时间的最大修改量,Δtmax用来将Δt规范到区间[0,1]。
一些实施例中,根据第一公式量化从所述原始查询q到精炼查询q’的修改代价,包括步骤:
使Δkmax=max(Rm-k,1),其中,Rm=R(q’,M)=max(R(q’,mi))。
一些实施例中,根据第一公式量化从所述原始查询q到精炼查询q’的修改代价,包括步骤:
使
Figure GDA0003861496380000051
其中ξ∈[0,1],q.et为原始查询的查询结束时间,q.st为原始查询的查询起始时间,q’.et’为精炼查询的查询结束时间,q’.st’为精炼查询的查询起始时间;
使
Figure GDA0003861496380000052
Figure GDA0003861496380000053
其中,mi.et表示缺失对象mi的结束时间,mj.st表示缺失对象mj的起始时间,且mi,mj∈M。
另一方面还提供一种解决基于时间感知对象的why-not问题的***,其用于解决时间感知的空间关键字查询中的why-not问题,且所述时间感知的空间关键字查询表示为q=(q.loc,q.doc,q.t,q.k),其中,q.loc为查询空间位置、q.doc为查询关键字、q.t为查询时间以及q.k为查询返回结果数量;所述***包括:查询获取模块,其用于获取原始查询q=(q.loc,q.doc,q.t,q.k)以及所述原始查询q的缺失对象集M;查询修改模块,其用于修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中;查询选择模块,其用于计算每个所述精炼查询q’的修改代价,并选择所述修改代价最小的精炼查询q’为最优精炼查询。
一些实施例中,所述查询选择模块还用于:根据第一公式计算所述精炼查询q’的修改代价;根据选择所述修改代价最小时的精炼查询q’为最优精炼查询;所述第一公式:
Figure GDA0003861496380000061
其中:
penalty(q,q’)为所述精炼查询q’的修改代价,即为从原始查询q到精炼查询q’的修改代价;λ1、λ2、λ3分别表示用户对查询返回结果数量q.k、查询关键字集q.doc、查询时间q.t的修改偏好参数,设置0≤λ1,λ2,λ3≤1且λ123=1;Δk=max(0,k’-k),Δkmax是q.k的最大修改量并用于将Δk规范到区间[0,1];Δdoc表示从q.doc修改为q’.doc’的编辑距离,|Δdocmax|表示从q.doc修改为q.doc∪M.doc的最大修改操作,
Figure GDA0003861496380000062
|Δdocmax|用于将Δdoc规范到区间[0,1];Δt表示从q.t到q’.t’的修改量,Δtmax表示对时间的最大修改量,Δtmax用来将Δt规范到区间[0,1]。
本发明提供的技术方案带来的有益效果包括:
本发明实施例提供了一种基于时间感知对象的why-not问题的解决方法,通过同时修改原始查询的q.doc、q.t和q.k得到一个新的查询(精炼查询)q’=(q.loc,q’.doc’,q.t’,q’.k’)的方法,使所有的缺失对象出现在新查询的结果集中,这种同时修改多个参数方法比单独修改某一个参数的方法更为有效,且代价更小。可解决相关技术中无法在时间感知的空间关键字查询上解决why-not问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于时间感知对象的why-not问题的解决方法的流程示意图;
图2为本发明实施例提供的一种解决基于时间感知对象的why-not问题的***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于时间感知对象的why-not问题的解决方法,以解决相关技术中无法在时间感知的空间关键字查询上解决why-not问题。所述时间感知的空间关键字查询表示为q=(q.loc,q.doc,q.t,q.k),其中,q.loc为查询空间位置、q.doc为查询关键字、q.t为查询时间以及q.k为查询返回结果数量;
如图1所示,所述基于时间感知对象的why-not问题的解决方法包括步骤:
S100:获取原始查询q=(q.loc,q.doc,q.t,q.k)以及所述原始查询q的缺失对象集M;
S200:修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中;
S300:计算每个所述精炼查询q’的修改代价,并选择所述修改代价最小的精炼查询q’为最优精炼查询。
需要说明的是,定义时间感知的空间关键字查询时,假设路网G的边e∈E有一组时空文本对象o∈O,每一个对象o就表示一个兴趣点,具有3个属性:o.loc,o.doc,o.t,其中o.loc表示对象o的位置,对象o到它所在边(vi,vj)的两端点之间的网络距离可以分别表示为|vi,o|和|o,vj|,而对象oi与oj之间的路网距离是通过路网上oi与oj之间的最短路径的长度来表示的,由于用户的查询位置q.loc通常是确定的,本实施例中设定对查询位置q.loc不做修改。o.doc是一组用来描述对象o的关键字集合(例如,Sunshine store),o.doc的形式化定义为o.doc={(o.key1,f1),(o.key2,f2),...,(o.keyn,fn)},其中,keyi是描述对象o的第i个关键字,fi是o.keyi在对象o的描述中出现的频率。o.t表示对象o的有效时间(例如,Sunshine store的开放时间为9:00-19:00),可以形式化定义为o.t=(o.st,o.et),其中,o.st表示对象o的有效时间的起始时间,o.et表示对象o的有效时间的结束时间。还定义缺失对象集M={m1,m2,...,mn},其中mi∈M,mi为缺失对象。
为了使所有的缺失对象出现在新查询的结果集中,本实施例提出了通过同时修改原始查询的q.doc、q.t和q.k得到一个新的查询(精炼查询)q’=(q.loc,q’.doc’,q’.t’,q.k’)的方法,这种同时修改多个参数方法比单独修改某一个参数的方法更为有效,且代价更小。
在一个实施例中,步骤S200还包括计算所述缺失对象集M中的缺失对象mi在所述精炼查询q’中的排名R(q’,mi),并以此确定所述缺失对象集M的排名R(q’,M);且使所述修改满足以下条件:
q’.doc’∩M.doc≠φ;
对于任何mi∈M,q’.t’∩mi.t’≠φ;
q’.k’=R(q’,M),或R(q’,M)<q’.k’,且R(q’,M)=max(R(q’,mi));
其中,M.doc为缺失对象集M的查询关键字,mi.t’为缺失对象mi的有效时间。
进一步地,可通过时间感知空间关键字查询算法(可以是论文“游青华,李艳红,黄金亮,等.交通道路网中时间感知的空间关键字查询[J].中南民族大学学报(自然科学版),2021,40(2)”中提到的TIK算法,或者其他用于进行时间感知空间关键字查询的算法)查找集合M中的每一个缺失对象mi并计算缺失对象mi在原始查询q中的排名R(q,mi)来确定缺失对象集M在原始查询q中的排名R(q,M);然后尽可能地枚举所有候选关键字集合CSdoc和可优化的时间区间(查询时间q.t可被修改的最大范围)产生所有可能的精炼查询q’;再对每个精炼查询q’调用所述的时间感知的空间关键字查询算法来确定R(q’,M)。
在一个实施例中,S200还包括步骤:
S201:在第一条件下,固定原始查询q的查询结束时间q.et,且在取值范围(m.et,q.st]内逐步减小原始查询q的查询起始时间q.st;
S202:以单位时间为步长逐步减小所述q.st的取值;
S203:对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;
所述第一条件为:|q.t∩m.t|≠0且m.st<q.st<m.et<q.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间;
所述候选关键字集合CSdoc满足条件:存在于缺失对象的关键字集合中且不存在于原始查询的查询关键字集合中,并表示为:
Figure GDA0003861496380000101
其中,mi.doc为缺失对象mi的关键字集。
需要说明的是,由于查询时间区间与缺失对象m的有效时间区间重叠率Tolap(q.t,m.t)越大,缺失对象m越有可能被包含在查询的结果中,可采用对查询时间区间进行修改(减少查询的时间长度或者增大查询时间与缺失对象m的有效时间相交的时间区间)来增大查询时间区间与缺失对象m的时间区间重叠率Tolap(q.t,m.t)。本实施例中,采用固定原始查询的结束时间q.et,将原始查询的起始时间q.st提前,当原始查询的起始时间q.st提前至接近m.st时,查询时间与缺失对象有效时间的重叠率也随着增大,从而增大查询时间区间与缺失对象m的时间区间重叠率Tolap(q.t,m.t)。
可优选地,为了便于对q.st的枚举,采用0.5h作为q.st取值减小的步长。
可优选地,在修改查询关键字q.doc时可以从CSdoc中枚举关键字以增大查询关键字与缺失对象的关键字的文本相似度。当查询时间q.t和q.k确定时,Δdoc越小、修改的代价也会越小。因此,为了使查询效率更高,步骤S203还包括步骤:
S203a:求得所述候选关键字集合CSdoc中每个候选关键字与原始查询的查询关键字集合q.doc之间的编辑距离;
S203b:将所述编辑距离按照从小到大排列;
可以理解的是,基于上述的步骤S203a和S203b,与q.doc编辑距离小的关键字就更容易被选择,从而产生更小的修改代价。
在一个实施例中,S200包括步骤:
S204:在第二条件下,不修改原始查询的查询时间q.t,而只修改原始查询的查询关键字q.doc和查询返回结果数量q.k;
S205:计算所述缺失对象集M中的缺失对象mi在所述精炼查询q’中的排名R(q’,mi),并以此确定所述缺失对象集M的排名R(q’,M);
所述第二条件为:|q.t∩m.t|≠0且m.st<q.st,m.et>q.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间,q.et为原始查询q的查询结束时间。
需要说明的是,当m.st<q.st且m.et>q.et即
Figure GDA0003861496380000111
时,若采用缩小|q.t|方法,不仅对缺失对象m的排名没有任何影响,且会使得从q.t到q’.t’的修改量Δt>0,从而使修改查询的代价变大;若增大|q.t|,会使得搜索空间时检索的对象数量增大,且当|q.t|>|m.t时,缺失对象m在原始查询q下的时空文本相似度rank(q,m)显然会减小,从而使得缺失对象m的排名R(q,m)靠后。因此,减小|q.t|或者增大|q.t|都不会得到最优的精炼查询q’,因此选择在修改查询中固定查询时间q.t为原始原始的查询时间q.t不变,只对原始查询的关键字q.doc和查询结果数量q.k做调整。
在一个实施例中,S200还包括步骤:
S206:在第三条件下,固定原始查询q的查询起始时间q.st,使原始查询q的查询结束时间q.et在取值范围[q.et,m.et)内逐步增大;
S207:以单位时间为步长逐步增大所述q.et的取值;
S208:对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;
所述第三条件为:|q.t∩m.t|0且q.st<m.st<q.et<m.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间,q.et为原始查询q的查询结束时间。
在一个实施例中,S200还包括步骤:
S209:在第四条件下,固定原始查询q的查询结束时间q.et,且在取值范围(m.st,m.et)内逐步减小原始查询q的查询起始时间q.st;
S210:以单位时间为步长逐步减小所述q.st的取值;
S211:对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;
所述第四条件为:|q.t∩m.t|=0且m.et<q.st,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象的有效时间的结束时间。
在一个实施例中,S200还包括步骤:
S212:在第五条件下,固定原始查询q的查询起始时间q.st,且在取值范围[q.et,m.et)内逐步增大原始查询q的查询结束时间q.et;
S213:以单位时间为步长逐步增大所述q.et的取值;
所述第五条件为:|q.t∩m.t|=0且q.et<m.st,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的开始时间,q.et为原始查询q的查询结束时间。
本发明实施例提供的基于时间感知对象的why-not问题的解决方法考虑到:1)时间区间的枚举范围过大,因而采用一般枚举的方式枚举所有可选时间区间效率太低;2)通过抽样的方法从整个时间空间抽取部分时间区间来修改原始查询时存在着无法保证查询修改质量的可能性,同时在查找缺失对象m的过程中对于每一组枚举的时间区间和关键字都需要重新调用一次时间感知的空间关键字查询算法,从而导致过多的计算和I/O的开销。为了解决这些问题,利用查询时间区间与缺失对象m的有效时间区间重叠率Tolap(q.t,m.t)提高枚举精炼查询q’的效率,从而克服了上述问题,提高了解决时间感知的空间关键字查询的why-not问题的效率。
在一个实施例中,S300还包括步骤:
S301:根据第一公式计算所述精炼查询q’的修改代价;
S302:根据选择所述修改代价最小时的精炼查询q’为最优精炼查询;
所述第一公式:
Figure GDA0003861496380000131
其中:
penalty(q,q’)为所述精炼查询q’的修改代价,即为从原始查询q到精炼查询q’的修改代价;
λ1、λ2、λ3分别表示用户对查询返回结果数量q.k、查询关键字q.doc、查询时间q.t的修改偏好参数,设置0≤λ1,λ2,λ3≤1且λ123=1;
Δk=max(0,k’-k),Δkmax是q.k的最大修改量并用于将Δk规范到区间[0,1];
Δdoc表示从q.doc修改为q’.doc’的编辑距离,|Δdocmax|表示从q.doc修改为q.doc∪M.doc的最大修改操作,
Figure GDA0003861496380000132
|Δdocmax|用于将Δdoc规范到区间[0,1];
Δt表示从q.t到q’.t’的修改量,Δtmax表示对时间的最大修改量,Δtmax用来将Δt规范到区间[0,1]。
需要说明的是,|Δdocmax|可以通过编辑距离来计算得到,Δt可以通过修改查询的起始时间和结束时间来将缺失对象包含在结果集中。
可优选地,使Δkmax=max(Rm-k,1),其中,Rm=R(q’,M)=max(R(q’,mi))。
可优选地,考虑到在修改起始时间和结束时间时可能会导致原始的时间区间长度发生改变,因此:
使
Figure GDA0003861496380000133
其中ξ∈[0,1],q.et为原始查询的查询结束时间,q.st为原始查询的查询起始时间,q’.et’为精炼查询的查询结束时间,q’.st’为精炼查询的查询起始时间,
Figure GDA0003861496380000134
表示对时间区间的平移,而|(q'.et-q'.st)-(q.et-q.st)|表示对时间区间长度的修改;
使
Figure GDA0003861496380000141
Figure GDA0003861496380000142
用于平衡时间区间的平移修改和时间区间长度修改的重要程度。其中,mi.et表示缺失对象mi的有效时间的结束时间,mj.st表示缺失对象mj的有效时间的起始时间,且mi,mj∈M。对原始查询的修改代价越小越符合用户对查询修改的要求。
在一些实施例中,在查找缺失对象m的过程中,如果精炼查询q”检索到
Figure GDA0003861496380000143
个对象,但是没有检索到M中的所有缺失对象,那么q”就不是一个最优的优化查询,直接不考虑该精炼查询q”。其中,pc为当前最优精炼查询q’的代价。这样可直接过滤掉不合适的精炼查询,以便提前结束不必要的查找过程,从而提高检索过程的效率。
本发明实施例还提供一种解决基于时间感知对象的why-not问题的***,所述时间感知的空间关键字查询表示为q=(q.loc,q.doc,q.t,q.k),其中,q.loc为查询空间位置、q.doc为查询关键字、q.t为查询时间以及q.k为查询返回结果数量;
如图2所示,所述***包括:
查询获取模块,其用于获取原始查询q=(q.loc,q.doc,q.t,q.k)以及所述原始查询q的缺失对象集M;
查询修改模块,其用于修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中;
查询选择模块,其用于计算每个所述精炼查询q’的修改代价,并选择所述修改代价最小的精炼查询q’为最优精炼查询。
在一些实施例中,所述查询选择模块还用于:
根据第一公式计算所述精炼查询q’的修改代价;
根据选择所述修改代价最小时的精炼查询q’为最优精炼查询;
所述第一公式:
Figure GDA0003861496380000151
其中:
penalty(q,q’)为所述精炼查询q’的修改代价,即为从原始查询q到精炼查询q’的修改代价;
λ1、λ2、λ3分别表示用户对查询返回结果数量q.k、查询关键字q.doc、查询时间q.t的修改偏好参数,设置0≤λ1,λ2,λ3≤1且λ123=1;
Δk=max(0,k’-k),Δkmax是q.k的最大修改量并用于将Δk规范到区间[0,1];
Δdoc表示从q.doc修改为q’.doc’的编辑距离,|Δdocmax|表示从q.doc修改为q.doc∪M.doc的最大修改操作,
Figure GDA0003861496380000152
|Δdocmax|用于将Δdoc规范到区间[0,1];
Δt表示从q.t到q’.t’的修改量,Δtmax表示对时间的最大修改量,Δtmax用来将Δt规范到区间[0,1]。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在本发明中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于时间感知对象的why-not问题的解决方法,其特征在于,该方法用于解决时间感知的空间关键字查询中的why-not问题,且所述时间感知的空间关键字查询表示为q=(q.loc,q.doc,q.t,q.k),其中,q.loc为查询空间位置、q.doc为查询关键字、q.t为查询时间以及q.k为查询返回结果数量;
所述基于时间感知对象的why-not问题的解决方法包括步骤:
获取原始查询q=(q.loc,q.doc,q.t,q.k)以及所述原始查询q的缺失对象集M;
修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中;
计算每个所述精炼查询q’的修改代价,并选择所述修改代价最小的精炼查询q’为最优精炼查询;
修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:
在第一条件下,固定原始查询q的查询结束时间q.et,且在取值范围(m.et,q.st]内逐步减小原始查询q的查询起始时间q.st;
以单位时间为步长逐步减小所述q.st的取值;
对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;
所述第一条件为:|q.t∩m.t|≠0且m.st<q.st<m.et<q.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间;
所述候选关键字集合CSdoc满足条件:存在于缺失对象的关键字集合中且不存在于原始查询的查询关键字集合中,并表示为:
Figure FDA0003861496370000021
其中,mi.doc为缺失对象mi的关键字集。
2.如权利要求1所述基于时间感知对象的why-not问题的解决方法,其特征在于,
修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:
计算所述缺失对象集M中的缺失对象mi在所述精炼查询q’中的排名R(q’,mi),并以此确定所述缺失对象集M的排名R(q’,M);
使所述修改满足以下条件:
q’.doc’∩M.doc≠φ;
对于任何mi∈M,q’.t’∪mi.t’≠φ;
q’.k’=R(q’,M),或R(q’,M)<q’.k’,且R(q’,M)=max(R(q’,mi));
其中,M.doc为缺失对象集M的查询关键字,mi.t’为缺失对象mi的有效时间。
3.如权利要求1所述基于时间感知对象的why-not问题的解决方法,其特征在于,
对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中,包括步骤:
求得所述候选关键字集合CSdoc中每个候选关键字与原始查询的查询关键字集合q.doc之间的编辑距离;
将所述编辑距离按照从小到大排列。
4.如权利要求1所述基于时间感知对象的why-not问题的解决方法,其特征在于,
修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:
在第二条件下,不修改原始查询的查询时间q.t,而只修改原始查询的查询关键字q.doc和查询返回结果数量q.k;
计算所述缺失对象集M中的缺失对象mi在所述精炼查询q’中的排名R(q’,mi),并以此确定所述缺失对象集M的排名R(q’,M);
所述第二条件为:|q.t∩m.t|≠0且m.st<q.st,m.et>q.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间,q.et为原始查询q的查询结束时间。
5.如权利要求1所述基于时间感知对象的why-not问题的解决方法,其特征在于,
修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:
在第三条件下,固定原始查询q的查询起始时间q.st,使原始查询q的查询结束时间q.et在取值范围[q.et,m.et)内逐步增大;
以单位时间为步长逐步增大所述q.et的取值;
对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;
所述第三条件为:|q.t∩m.t|≠0且q.st<m.st<q.et<m.et,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间,q.et为原始查询q的查询结束时间。
6.如权利要求1所述基于时间感知对象的why-not问题的解决方法,其特征在于,
修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:
在第四条件下,固定原始查询q的查询结束时间q.et,且在取值范围(m.st,m.et)内逐步减小原始查询q的查询起始时间q.st;
以单位时间为步长逐步减小所述q.st的取值;
对候选关键字集合CSdoc中的关键字进行枚举,并将枚举选出的关键字添加到所述q.doc中;
所述第四条件为:|q.t∩m.t|=0且m.et<q.st,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的起始时间,q.st为原始查询q的查询起始时间,m.et为缺失对象m的有效时间的结束时间。
7.如权利要求1所述基于时间感知对象的why-not问题的解决方法,其特征在于,
修改所述原始查询q中的q.doc、q.t和q.k为q’.doc’、q’.t’和q’.k’,以使所述缺失对象集M出现在精炼查询q’=(q.loc,q’.doc’,q’.t’,q’.k’)的查询结果中,包括步骤:
在第五条件下,固定原始查询q的查询起始时间q.st,且在取值范围[q.et,m.et)内逐步增大原始查询q的查询结束时间q.et;
以单位时间为步长逐步增大所述q.et的取值;
所述第五条件为:|q.t∩m.t|=0且q.et<m.st,其中,m.t为缺失对象m的有效时间,m.st为缺失对象m的有效时间的开始时间,q.et为原始查询q的查询结束时间。
8.如权利要求1所述基于时间感知对象的why-not问题的解决方法,其特征在于,计算每个所述精炼查询q’的修改代价包括步骤:
根据第一公式计算所述精炼查询q’的修改代价;
根据选择所述修改代价最小时的精炼查询q’为最优精炼查询;
所述第一公式:
Figure FDA0003861496370000051
其中:
penalty(q,q’)为所述精炼查询q’的修改代价,即为从原始查询q到精炼查询q’的修改代价;
λ1、λ2、λ3分别表示用户对查询返回结果数量q.k、查询关键字q.doc、查询时间q.t的修改偏好参数,设置0≤λ1,λ2,λ3≤1且λ123=1;
Δk=max(0,k’-k),Δkmax是q.k的最大修改量并用于将Δk规范到区间[0,1];
Δdoc表示从q.doc修改为q’.doc’的编辑距离,|Δdocmax|表示从q.doc修改为q.doc∪M.doc的最大修改操作,
Figure FDA0003861496370000052
|Δdocmax|用于将Δdoc规范到区间[0,1];
Δt表示从q.t到q’.t’的修改量,Δtmax表示对时间的最大修改量,Δtmax用来将Δt规范到区间[0,1]。
9.如权利要求8所述基于时间感知对象的why-not问题的解决方法,其特征在于,
根据第一公式量化从所述原始查询q到精炼查询q’的修改代价,包括步骤:
使
Figure FDA0003861496370000053
其中ξ∈[0,1],q.et为原始查询的查询结束时间,q.st为原始查询的查询起始时间,q’.et’为精炼查询的查询结束时间,q’.st’为精炼查询的查询起始时间;
使
Figure FDA0003861496370000061
Figure FDA0003861496370000062
其中,mi.et表示缺失对象mi的结束时间,mj.st表示缺失对象mj的起始时间,且mi,mj∈M。
CN202110571316.6A 2021-05-25 2021-05-25 一种基于时间感知对象的why-not问题的解决方法及*** Active CN113343050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110571316.6A CN113343050B (zh) 2021-05-25 2021-05-25 一种基于时间感知对象的why-not问题的解决方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110571316.6A CN113343050B (zh) 2021-05-25 2021-05-25 一种基于时间感知对象的why-not问题的解决方法及***

Publications (2)

Publication Number Publication Date
CN113343050A CN113343050A (zh) 2021-09-03
CN113343050B true CN113343050B (zh) 2022-11-29

Family

ID=77471284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110571316.6A Active CN113343050B (zh) 2021-05-25 2021-05-25 一种基于时间感知对象的why-not问题的解决方法及***

Country Status (1)

Country Link
CN (1) CN113343050B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425789A (zh) * 2013-08-28 2013-12-04 深圳信息职业技术学院 一种时空数据的查询方法及装置
KR101757124B1 (ko) * 2016-09-01 2017-07-26 인하대학교 산학협력단 시공간 키워드 질의를 위한 셀 기반 역리스트 인덱싱 기법
CN109740071A (zh) * 2018-12-25 2019-05-10 王瑶莉 一种基于时空约束的位置搜索与推荐方法
CN109977309A (zh) * 2019-03-21 2019-07-05 杭州电子科技大学 基于多关键字和用户偏好的组合兴趣点查询方法
CN110334290A (zh) * 2019-06-28 2019-10-15 中南大学 一种基于MF-Octree的时空数据快速检索方法
CN110955827A (zh) * 2019-11-18 2020-04-03 中南民族大学 采用AI3解决SKQwhy-not问题的方法及***
CN111026750A (zh) * 2019-11-18 2020-04-17 中南民族大学 用AIR树解决SKQwhy-not问题的方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7882126B2 (en) * 2008-02-07 2011-02-01 International Business Machines Corporation Systems and methods for computation of optimal distance bounds on compressed time-series data
US20140214883A1 (en) * 2013-01-29 2014-07-31 Google Inc. Keyword trending data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425789A (zh) * 2013-08-28 2013-12-04 深圳信息职业技术学院 一种时空数据的查询方法及装置
KR101757124B1 (ko) * 2016-09-01 2017-07-26 인하대학교 산학협력단 시공간 키워드 질의를 위한 셀 기반 역리스트 인덱싱 기법
CN109740071A (zh) * 2018-12-25 2019-05-10 王瑶莉 一种基于时空约束的位置搜索与推荐方法
CN109977309A (zh) * 2019-03-21 2019-07-05 杭州电子科技大学 基于多关键字和用户偏好的组合兴趣点查询方法
CN110334290A (zh) * 2019-06-28 2019-10-15 中南大学 一种基于MF-Octree的时空数据快速检索方法
CN110955827A (zh) * 2019-11-18 2020-04-03 中南民族大学 采用AI3解决SKQwhy-not问题的方法及***
CN111026750A (zh) * 2019-11-18 2020-04-17 中南民族大学 用AIR树解决SKQwhy-not问题的方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
交通道路网中时间感知的空间关键词查询;游青华等;《中南民族大学学报(自然科学版)》;20210420;第40卷(第2期);第197-199页 *
空间关键词搜索研究综述;刘喜平等;《软件学报》;20151103;第27卷(第2期);第329-347页 *

Also Published As

Publication number Publication date
CN113343050A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
US20230222836A1 (en) Systems, Methods, and Platform for Facial Identification within Photographs
US8117198B2 (en) Methods for generating search engine index enhanced with task-related metadata
EP2232381B1 (en) Interactive concept learning in image search
US8706748B2 (en) Methods for enhancing digital search query techniques based on task-oriented user activity
Leung et al. Personalized concept-based clustering of search engine queries
US8891902B2 (en) Band weighted colour histograms for image retrieval
US8126888B2 (en) Methods for enhancing digital search results based on task-oriented user activity
US9652558B2 (en) Lexicon based systems and methods for intelligent media search
US20060167896A1 (en) Systems and methods for managing and using multiple concept networks for assisted search processing
US20050149496A1 (en) System and method for dynamic context-sensitive federated search of multiple information repositories
EP1324223A2 (en) Apparatus and method for searching multimedia objects
US20060253421A1 (en) Method and product for searching title metadata based on user preferences
Wang et al. Answering top-k exemplar trajectory queries
US20100106485A1 (en) Methods and apparatus for context-sensitive information retrieval based on interactive user notes
WO2009023371A2 (en) Categorization of queries
US20110202543A1 (en) Optimising content based image retrieval
US20060004730A1 (en) Variant standardization engine
CN113343050B (zh) 一种基于时间感知对象的why-not问题的解决方法及***
EP3776258A1 (en) Iot enhanced search results
JP5450017B2 (ja) 情報処理装置、情報処理システムおよび情報処理方法
WO2023151576A1 (zh) 搜索推荐方法、搜索推荐***、计算机设备及存储介质
WO2023206960A1 (zh) 基于内容与协同过滤的产品推荐方法、装置及计算机设备
Dragusin et al. Rare disease diagnosis as an information retrieval task
JPH11232278A (ja) 情報源推薦装置
CN112162986B (zh) 一种并行top-k范围skyline查询方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant