CN110502673A - 数据处理方法、服务器、以及具有存储功能的装置 - Google Patents

数据处理方法、服务器、以及具有存储功能的装置 Download PDF

Info

Publication number
CN110502673A
CN110502673A CN201910507911.6A CN201910507911A CN110502673A CN 110502673 A CN110502673 A CN 110502673A CN 201910507911 A CN201910507911 A CN 201910507911A CN 110502673 A CN110502673 A CN 110502673A
Authority
CN
China
Prior art keywords
data
acquisition system
data acquisition
search
time point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910507911.6A
Other languages
English (en)
Inventor
黄郁财
丁丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN201910507911.6A priority Critical patent/CN110502673A/zh
Publication of CN110502673A publication Critical patent/CN110502673A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于ElasticSearch引擎的数据处理方法、服务器、以及具有存储功能的装置。其中,数据处理方法包括:获取在第一时间点更新的第一数据集合;获取在第二时间点更新的第二数据集合,其中第二时间点晚于第一时间点;将第二数据集合与第一数据集合进行比较,得到比较结果;对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合,以供搜索。通过上述方式,本申请能够提高数据搜索结果的准确性。

Description

数据处理方法、服务器、以及具有存储功能的装置
技术领域
本申请涉及计算机技术领域,特别是涉及用于ElasticSearch引擎的数据处理方法、服务器、以及具有存储功能的装置。
背景技术
ElasticSearch(ES,全文检索和分析引擎)是一个基于Apache Lucene(全文搜索引擎)构建的开源、分布式、RESTful(Representational State Transfer,满足一组架构约束条件和原则的应用程序或设计)接口全文搜索引擎。它提供了一个分布式多用户能力的全文搜索引擎。ElasticSearch还是一个分布式文档数据库,每个字段都是被索引的数据并且可以被搜索,它能够扩展至数以百计的服务器存储以及处理PB(petabyte,较高级的存储单位)级的数据。全文搜索是指计算机搜索程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,搜索程序就会根据事先建立的索引进行查找,并将查询结果返回给用户。
ElasticSearch一般应用于数据格式单一、数据内容更新频繁的场景,用户在使用ElasticSearch进行搜索时,需要获得较为准确的数据搜索结果。
发明内容
本申请主要解决的技术问题是提供一种用于ElasticSearch引擎的数据处理方法,能够提高数据搜索结果的准确性。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种用于ElasticSearch引擎的数据处理方法。
其中,数据处理方法包括:获取在第一时间点更新的第一数据集合;获取在第二时间点更新的第二数据集合,其中第二时间点晚于第一时间点;将第二数据集合与第一数据集合进行比较,得到比较结果;对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合,以供搜索。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种服务器。
其中,服务器包括获取模块、比较模块以及修正模块,获取模块用于获取在第一时间点更新的第一数据集合,获取模块进一步用于获取在第二时间点更新的第二数据集合,其中第二时间点晚于第一时间点;比较模块用于将第二数据集合与第一数据集合进行比较,得到比较结果;修正模块用于对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合,以供搜索。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种服务器。
其中,服务器包括处理器、通信电路以及存储器,通信电路和存储器分别耦接处理器;处理器用于从存储器中获取在第一时间点更新的第一数据集合,和在第二时间点更新的第二数据集合;处理器用于将第二数据集合与第一数据集合进行比较,得到比较结果;处理器用于对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种具有存储功能的装置。
其中,具有存储功能的装置存储有程序数据,程序数据能够被执行,以实现上述的数据处理方法。
与现有技术相比,本申请的有益效果是:通过分别获取在第一时间点和在第二时间点更新的第一数据集合和第二数据集合,且第二时间点晚于第一时间点,所以第一时间点更新的第一数据集合相较于第二数据集合较早经过就绪状态,而成为可直接实时可用的数据,将第二数据集合与第一数据集合进行比较,得到两者之间的比较结果,进一步使用比较结果修正第一数据集合后得到搜索数据集合,也就是说,以第一数据集合为基础,利用第二数据集合对第一数据集合进行修正,如此搜索数据集合还可以反映出第二数据集合的数据内容,保证搜索数据集合的有效性,且因为没有直接调用第二数据集合作为搜索数据集合,而使用修正后的第一数据集合作为搜索数据集合,可有效地避免数据抖动的现象发生或者降低在后续搜索过程中发生数据抖动现象的机率,从而能够提高数据搜索结果的准确性。
附图说明
图1是本申请数据处理方法一实施例的流程示意图;
图2是本申请数据处理方法另一实施例的流程示意图;
图3是本申请服务器一实施例的结构示意图;
图4是本申请服务器另一实施例的结构示意图;
图5是本申请具有存储功能的装置一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请的发明人在长期研究中发现,由于ElasticSearch一般应用于数据格式单一、数据内容更新频繁的场景,且利用ElasticSearch进行数据搜索时,更新后的数据由于存在就绪状态而需要一定的反应时间,处于就绪状态的数据并不能直接使用,所以会存在数据滞后,但是在用户使用人数众多且数据搜索频繁的情况下,经常会出现更新后的数据还没有经过一定的反应时间,用户就试图刷新数据。此时,由于更新后的数据处于就绪状态,因此用户有可能获得的是更新之前的数据。用户多次刷新,可能会使得更新之前的数据和更新之后的数据交替出现,这种情况可以称之为数据抖动,因为有可能在搜索时发生数据抖动,因此使用ElasticSearch引擎进行数据搜索时可能难以准确获取到更新后的数据。
当一个进程/数据处于正等着分给它一个时间片或者执行资源时,可以称为就绪状态。反应时间可以是内存延迟,也就是***进入数据存取操作的就绪状态需要等待内存响应的时间。简单而言,就是数据已经准备好,但是尚得不到执行或者不可使用。
因此,为了降低在后续搜索过程中发生数据抖动现象的机率,本申请实施例提供一种用于ElasticSearch引擎的数据处理方法,具体请参见以下内容。
请参阅图1,图1是本申请数据处理方法一实施例的流程示意图。
本实施例中,用于ElasticSearch引擎的数据处理方法包括以下步骤:
S110:获取在第一时间点更新的第一数据集合。
ElasticSearch可提供近乎实时(NRT)的数据操作和搜索功能。例如,ElasticSearch可设置一定的预设时间间隔作为数据更新时间间隔,每经过预设时间间隔,进行数据更新,预设时间间隔例如可以是1分钟,5分钟、10分钟或者30分钟。
第一时间点可以是某一进行数据更新的时间点。第一数据集合可以是最原始的数据集合,也可以是晚于最原始的数据集合。
数据集合例如可以是以表格形式出现。表格中的每一列可代表一个特定变量,每一行可对应于某一成员关于多个特定变量的数值的集合。每个数值被称为数据。对应于行数,对应该数据集合的数据的一个或多个成员。对于直播而言,第一数据集合例如是指各主播的注册信息、在第一时间点的人气值、播放量值等,每行可以对应一个主播,人气值、播放量分别对应一列,行列交叉点代表是人气值的具体数值、播放量值的具体数值等。
S120:获取在第二时间点更新的第二数据集合,其中第二时间点晚于第一时间点。
第二时间点可以是另一进行数据更新的时间点,且第二时间点晚于第一时间点,也就是说,第二时间点相对于第一时间点更靠近用户搜索时的时间点。
在一些实施方式中,当用户进行搜索时,第二时间点可以是与搜索时的时间点最近的数据更新的时间点。例如,搜索时间点可以晚于第二时间点,因为搜索时间点和第二时间点之间的时间可能间隔过小,所以第二时间点更新的第二数据集合可能正处于数据就绪状态。此时,无法直接以第二时间点更新的第二数据集合作为搜索数据集合以供搜索,因此会以原始的第一数据集合作为搜索数据集合,但又由于数据的就绪状态不稳定或者不定时结束,可能会出现第一数据集合突变至第二数据集合,或者第二数据集合突变至第一数据集合,从而出现数据抖动的情况。也就是说,形成的搜索数据集合可能是第二数据集合,也可能是第二时间点之前的更新的数据集合。因此,若直接以第二时间点更新的第二数据集合作为形成搜索数据集合,用户的实时搜索结果的准确性不高。
S130:将第二数据集合与第一数据集合进行比较,得到比较结果。
将第二数据集合与第一数据集合进行比较,得到比较结果,比较结果可以是第二数据集合与第一数据集合的差异数据。
由于第一数据集合产生的时间早于第二数据集合,例如第一数据集合为最原始数据集合时,其早已经过了就绪状态,而直接成为可用数据,因此并不会存在数据抖动的问题,因此可以以第一数据集合作为基础,对第二数据集合进行修正。
S140:对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合,以供搜索。
对第一数据集合进行与比较结果相匹配的修正例如可以是对第一数据集合进行与差异数据相匹配的运算,使得对第一数据集合进行修正后所得到搜索数据集合能够反映第二数据集合(例如搜索数据集合与第二数据集合的内容相同),从而使所形成的搜索数据集合能够体现例如最近更新的内容,以满足用户的搜索需求。
区别于现有技术,本实施例中的数据处理方法,通过分别获取在第一时间点和在第二时间点更新的第一数据集合和第二数据集合,且第二时间点晚于第一时间点,所以第一时间点更新的第一数据集合相较于第二数据集合较早经过就绪状态,而成为可直接实时可用的数据,将第二数据集合与第一数据集合进行比较,得到两者之间的比较结果,进一步使用比较结果修正第一数据集合后得到搜索数据集合,也就是说,以第一数据集合为基础,利用第二数据集合对第一数据集合进行修正,如此搜索数据集合还可以反映出第二数据集合的数据内容,保证搜索数据集合的有效性,且因为没有直接调用第二数据集合作为搜索数据集合,而使用修正后的第一数据集合作为搜索数据集合,可有效地避免数据抖动的现象发生或者降低在后续搜索过程中发生数据抖动现象的机率,从而能够提高数据搜索结果的准确性。
可选地,第一时间点和第二时间点可间隔一个或多个预设时间间隔。
在一些实施方式中,第一时间点可以是对应同类数据中第一份数据集合的时间点,或者第一时间点可以是对应某个时间段内同类数据中的第一份数据集合的时间点,如某年、某月、某日、或某小时内同类数据中的第一份数据集合的时间点。通过这种方式,可以减少数据调用和处理频率,提高搜索效率。
在一些实施方式中,第一时间点可以是和第二时间点可间隔多个预设时间间隔的时间点。例如可以是,3个时间间隔、5个时间间隔或10个时间间隔。
在本实施例中,第二时间点和第一时间点之间的时间差可以为数据更新时间间隔。也就是说,第二时间点和第一时间点之间间隔一个预设时间间隔。通过这种方式,可以使用在时间上与第二数据集合最接近的第一数据集合作为比较对象,一般来说,时间上越接近的数据集合,他们之间的数据变化越小,因此,当第二时间点和第一时间点之间仅间隔一个预设时间间隔,则第二数据集合与第一数据集合之间的差别较少,从而可以减少数据比较和数据修正的计算量,以进一步提高搜索效率并提高搜索数据集合的准确性。
可选地,数据集合可以分成类型化数据集合与非类型化数据集合。类型化数据集合先从基DataSet(不依赖于数据库的独立数据集合)类派生,然后,使用XML(可扩展标记语言)架构文件(.xsd文件)中的信息生成新类。架构中的信息(表、列等)被作为一组第一类对象和属性生成并编译为此新数据集类。例如可以直接通过名称引用表和列,在VS.NET中可以智能感知元素的类型。非类型化数据集没有相应的内置架构,与类型化数据集一样,非类型化数据集也包含表、列等,但它们只作为集合公开。需要通过Tables(表格)集合引用列。
本实施例中,第一数据集合和第二数据集合均可以是类型化数据集合。ElasticSearch中大多的实体或对象能够被序列化为包含键值对的JSON对象即包括键(key)和值(value),键是字段(field)或属性(property)的名字,值可以是字符串、数字、布尔类型、另一个对象、值数组或者其他特殊类型,比如表示日期的字符串或者表示地理位置的对象。
在一些实施方式中,第一数据集合和第二数据集合分别包括多个身份数据以及与身份数据对应的数值数据。
身份数据可以是数据制作者或数据上传者的ID(identification),例如登录账号、昵称或其他可以用于识别数据对象的标识,数值数据可以是与身份数据对应的数值数据如视频点击量、主播关注度、商品购买量或者其他可以反映该身份数据的数据内容情况的数值数据。
通过使第一数据集合和第二数据集合分别包括多个身份数据以及与身份数据对应的数值数据,可以使用户更直观地了解到数据内容,以供用户进行进一步地判断和选择,例如通过进一步点击选取自己感兴趣的身份ID以获取更多数据内容。例如:
在一些应用场景中,身份数据可以是直播网站/APP(应用程序)中主播的昵称或账号,与身份数据对应的数值数据可以是对应主播的粉丝数量、点击量或其他数值数据。
在一些应用场景中,身份数据可以是购物网站/APP中的店铺的店名或账号,与身份数据对应的数值数据可以是对应店铺的粉丝数量、进店人数或购买记录数量或其他数值数据。
在一些应用场景中,身份数据还可以是视频播放网站/APP中例如电视剧的剧名,与身份数据对应的数值数据可以是对应剧名的播放量、评论人数或弹幕数量等。
可选地,步骤S130中:将第二数据集合与第一数据集合进行比较,得到比较结果,可包括:
以第一数据集合为基准,使用第二数据集合与第一数据集合进行比较,得出第二数据集合中的新增数据和更新数据。
以第二数据集合为基准,使用第一数据集合与第二数据集合进行比较,得出在第一数据集合存在而在第二数据集合不存在的多余数据。
以新增数据、更新数据和多余数据作为比较结果。
其中,新增数据包括第二数据集合相较于第一数据集合新增的身份数据和相应的数值数据,更新数据包括第二数据集合中与第一数据集合重合的身份数据对应的数值数据的变化量,多余数据包括第一数据集合相较于第二数据集合中多出的身份数据和相应的数值数据。
结合以上内容,以第一数据集合和第二数据集合分别包括多个身份数据以及与身份数据对应的数值数据,且其中新增数据包括第二数据集合相较于第一数据集合新增的身份数据和相应的数值数据、更新数据包括第二数据集合中与第一数据集合重合的身份数据对应的数值数据的变化量、多余数据包括第一数据集合相较于第二数据集合中多出的身份数据和相应的数值数据,举例说明:
在一个应用场景中,用户可在客户端通过直播APP搜索感兴趣的主播,根据用户习惯,例如可以以主播的直播内容进行分类以形成不同的数据集合,例如:“唱歌主播”、“舞蹈主播”、“吃播”等,本例中以直播类型为“吃播”,特定变量为粉丝数量(单位为万),数据数量为5,举例做具体说明,可以理解的是,实际的数据数量可少于或大于5。
表1所示,设第一时间点的第一数据集合为:
表1
如表2所示,设第二时间点的第二数据集合为:
表2
主播ID 粉丝数量(万)
A 161
B 132
C 105
F 96
E 56
将第二数据集合即表2中的数据与第一数据集合即表1中的数据进行比较,可以得到比较结果:
以第一数据集合为基准,使用第二数据集合与第一数据集合进行比较,得出第二数据集合中的新增数据:与第一数据集合相比较,第二数据集合中新增了主播F,其粉丝数量为96万。使用第二数据集合与第一数据集合进行比较,得出第二数据集合中的更新数据:与第一数据集合相比较,和第二数据集合中,主播A的排名未变但是粉丝数量增加了161-150=11万,主播B的排名未变但是粉丝数量减少了133-132=1万,主播C的排名和粉丝数量均未变,主播E的排名未变但是粉丝数量增加了56-55=1万。
以第二数据集合为基准,使用第一数据集合与第二数据集合进行比较,得出在第一数据集合存在而在第二数据集合不存在的多余数据:与第二数据集合相比较,第一数据集合中有主播D,而第二数据集合没有该主播,也就是说,主播D及其粉丝数量为在第一数据集合存在而在第二数据集合不存在的多余数据。
综上,将第二数据集合与第一数据集合进行比较后得出比较结果为:新增数据为主播F,其粉丝数量为96万;更新数据为主播A的粉丝数量增加了11万,主播B粉丝数量减少了1万,主播E的粉丝数量增加了1万;多余数据主播D及其粉丝数量。
可选地,S140:对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合可包括:
将新增数据加入第一数据集合,以更新数据对第一数据集合中相应的数据进行修改,将多余数据从第一数据集合中剔除,以形成搜索数据集合。
举例说明:
仍然以上一个应用场景中表1和表2的数据为例,对第一数据集合即表1所示的数据进行与比较结果相匹配的修正:将主播F及其粉丝数的数据加入表1,将表1中主播A的粉丝数量增加11万、主播B粉丝数量减少1万、主播E的粉丝数量增加1万,剔除表1中主播D及其粉丝数,得到修正后的第一数据集合作为形成搜索数据集合。
可以理解的是,例如在直播APP中,搜索数据集合中还可以包括对应其他类型的直播如“唱歌主播”、“舞蹈主播”、“美妆直播”等的数据集合,每个主播多对应的特定变量还可以是直播视频的播放量、弹幕数量等,以上数据可以共同形成搜索数据集合。
由以上描述可知,该搜索数据集合是以第一数据集合以基础,且可反映第二时间点更新的第二数据集合的数据内容,通过上述方式,可以将修正后的第一数据集合形成搜索数据集合以供用户搜索,而不必在每次有用户搜索时,直接调用第二时间点更新的第二数据集合(如最新的更新数据集合)作为搜索数据集合,可有效地避免数据抖动的现象发生或者降低在后续搜索过程中发生数据抖动现象的机率,从而能够提高数据搜索结果的准确性。
需要说明的是,本申请实施例中的术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”和“第二”的特征可以明示或者隐含地包括至少一个该特征。此外,本申请实施例中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
在本实施例中,步骤S110至S140的顺序是本实施例中的描述顺序,并不限制为本实施例的方法在执行中的顺序。在能够实现本方案的前提下,某些步骤可以调换顺序。
请参阅图2,图2是本申请数据处理方法另一实施例的流程示意图。
本实施例是在上述数据处理方法一实施例的基础上,还包括以下步骤,因此,本实施例与上述数据处理方法一实施例中相同的步骤在此不再赘述。
本实施例中,在步骤S140:对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合之后,还可包括:
S150:接收搜索指令。
可选地,用户可以通过点击图形用户界面以给出搜索指令,或者通过下拉界面等触发更新以给出搜索指令,还可以通过输入文字、符号、图片等给出搜索指令,当然,用户还可以通过其他可能的方式使终端或服务器等接收到搜索指令。
S160:从搜索数据集合中搜索与搜索指令相匹配的数据集合,作为输出数据集合。
例如,用户可以通过在直播APP中的搜索框中输入文字“吃播”,客户端或服务器的搜索引擎可从搜索数据集合中搜索与“吃播”相匹配的数据集合,即将直播内容为吃的主播及其播放数据作为输出数据集合。
S170:按照预设规则对输出数据集合进行排序,并输出排序结果。
预设规则例如可以是数据上传的先后顺序,数据内容的大小顺序等。按照预设规则对输出数据集合进行排序可以是对输出数据集合中的数值数据进行排序。
可选地,第一数据集合和第二数据集合分别进一步包括与身份数据绑定的多个标签数据。例如:
在一些应用场景中,身份数据可以是直播网站中主播的昵称或账号,与身份数据绑定的多个标签数据可以是主播的主要直播内容,不同的主播可以绑定的不同标签数据如“吃”、“时尚”、“美妆”、“搞笑”等,同一个的主播可也以同时绑定有多个标签数据如“时尚”、“美妆”、“服饰”、“搞笑”、“性别”、“音乐”等。
在一些应用场景中,身份数据可以是购物网站中的店铺的店名,与身份数据绑定的多个标签数据可以是店铺主要贩卖的商品,不同的店铺可以绑定的不同标签数据如“服装”、“家居”、“装修”或“文具”等,同一店铺也可以绑定有多个标签数据如一个主要卖女士服装的店铺可以根据其贩卖的服装的特点同时绑定有“服装”、“女士服装”、“连衣裙”、“法式”、“蕾丝”等多个标签数据。
在一些应用场景中,身份数据还可以是视频播放网站中例如电视剧的剧名,与身份数据绑定的多个标签数据可以是电视剧的类型,不同的电视剧可以绑定的不同标签数据如“爱情”、“职业”或“喜剧”等,同一电视剧也可以绑定有多个标签数据如“爱情”、“职业”、“喜剧”、“出品人”、“主演的姓名”、“地区”或“剧名”等。
进一步地,步骤S160:从搜索数据集合中搜索与搜索指令相匹配的数据集合,作为输出数据集合,可包括:
将多个标签数据和/或身份数据与搜索指令进行匹配,以在搜索数据集合中搜索出相应的输出数据集合。
例如,搜索指令可以是用户在直播网站或APP内的搜索栏中输入的文字“吃播”,搜索引擎可将多个标签数据和/或身份数据与“吃播”进行匹配,以在搜索数据集合中搜索出视频内容与“吃播”相关的输出数据集合。
例如,搜索指令可以是用户在购物网站或APP内的搜索栏中输入的文字“法式连衣裙”,搜索引擎可将多个标签数据和/或身份数据与“法式连衣裙”进行匹配,以在搜索数据集合中搜索出店铺或物品与“法式连衣裙”相关的输出数据集合。
例如,搜索指令可以是用户在视频网站或APP内的搜索栏中输入的电视剧的剧名,搜索引擎可将多个标签数据和/或身份数据中有该剧名的进行匹配,以在搜索数据集合中搜索出与该剧名相关的输出数据集合。
通过使第一数据集合和第二数据集合分别进一步包括与身份数据绑定的多个标签数据,可以提高搜索效率,且可以使用户得到更匹配其实际需求的输出数据集合,提升了用户体验。
可选地,按照预设规则对输出数据集合进行排序包括:
按照输出数据集合中的身份数据对应的数值数据的大小对身份数据进行排序。例如可以按照数值数据由大到小的顺序对身份数据进行排序。
例如,若接收到用户在直播网站或APP内发出的搜索指令,可以按照主播的人气(如粉丝数量)或播放内容的人气(如评论数量、弹幕数量等)对主播或播放内容进行排序,并输出排序结果。
例如,若接收到用户在购物网站或APP内发出的搜索指令,可以按照店铺的人气(如关注人数)或物品的购买次数对店铺或物品进行排序,并输出排序结果。
例如,若接收到用户在视频网站或APP内的搜索栏中输入的电视剧的制作地区名称如中国大陆,可以按中国大陆拍摄的电视剧的人气(点击量、评论数量、弹幕数量等)对电视剧进行排序,并输出排序结果。
本实施例中,通过接收搜索指令,并从搜索数据集合中搜索与搜索指令相匹配的数据集合,作为输出数据集合,因为搜索数据集合是使用比较结果修正第一数据集合后所得到的,也就是说,以第一数据集合为基础,利用第二数据集合对第一数据集合进行修正,如此搜索数据集合可以反映出第二数据集合的数据内容,保证了搜索数据集合的有效性,且因为没有直接调用第二数据集合作为搜索数据集合,而使用修正后的第一数据集合作为搜索数据集合,可有效地降低在搜索过程中发生数据抖动现象的机率,从而能够提高输出数据集合的准确性;进一步地,由于按照预设规则对输出数据集合进行排序,并输出排序结果,使得最终的输出数据集合能够通过排序结果反映数据内容的热度或数据内容与搜索指令之间的相关度等信息,从而使得用户可以便于根据排序结果进一步选择数据内容,提高了搜索效率,并提升了用户体验。
需要说明的是,本申请实施例中的术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”和“第二”的特征可以明示或者隐含地包括至少一个该特征。此外,本申请实施例中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
在本实施例中,步骤S150至S170的顺序是本实施例中的描述顺序,并不限制为本实施例的方法在执行中的顺序。在能够实现本方案的前提下,某些步骤可以调换顺序。
基于此,本申请还提供一种服务器100。请参阅图3,图3是本申请服务器一实施例的结构示意图。
本实施例中,服务器100包括获取模块110、比较模块120以及修正模块130。
获取模块110用于获取在第一时间点更新的第一数据集合,获取模块110进一步用于获取在第二时间点更新的第二数据集合,其中第二时间点晚于第一时间点。
比较模块120用于将第二数据集合与第一数据集合进行比较,得到比较结果。
修正模块130,用于对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合,以供搜索。
本实施例中的上述模块的更多功能可参见上述任一实施例的数据处理方法的内容。
需要说明的是,本申请实施例中的术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”和“第二”的特征可以明示或者隐含地包括至少一个该特征。此外,本申请实施例中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
基于此,本申请还提供一种服务器200。请参阅图4,图4是本申请服务器另一实施例的结构示意图。
本实施例中,服务器200包括处理器210、通信电路230和存储器220。通信电路230和存储器220分别耦接处理器210。
通信电路230是服务器200与外界设备连接的接口,用于服务器200和外界设备的交互,也可以称为“收发器”或者收发电路。
处理器210用于从存储器220中获取在第一时间点更新的第一数据集合,和在第二时间点更新的第二数据集合。
处理器210用于将第二数据集合与第一数据集合进行比较,得到比较结果。
处理器210用于对第一数据集合进行与比较结果相匹配的修正,以形成搜索数据集合。
其中,处理器210还可以称为CPU(Central Processing Unit,中央处理单元)。处理器210可以是一种集成电路芯片,具有信号的处理能力。处理器210还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
需要说明的是,本申请实施例中的术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”和“第二”的特征可以明示或者隐含地包括至少一个该特征。此外,本申请实施例中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
本实施例中的处理器210的更多功能可参见以上任一实施例的数据处理方法的内容。
存储器220存储有程序,程序被执行时能够实现上述实施例中的业务处理方法。其中,该程序可以以软件产品的形式存储在上述存储器220中,包括若干指令用以使得一个处理器210执行本申请各个实施方式方法的全部或部分步骤。
存储器220是计算机中用于存储某种不连续物理量的媒体。而前述的存储器220包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本申请还提供一种具有存储功能的装置300,请参阅图5,图5是本申请具有存储功能的装置一实施例的结构示意图。
本实施例中,具有存储功能的装置300存储有程序数据310,程序数据310能够被执行,以实现上述任一实施例的数据处理方法。
其中,该程序数据310可以以软件产品的形式存储在上述具有存储功能的装置300中,包括若干指令用以使得一个设备或处理器执行本申请各个实施方式方法的全部或部分步骤。
具有存储功能的装置300是计算机存储器中用于存储某种不连续物理量的媒体。而前述的具有存储功能的装置300包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (11)

1.一种用于ElasticSearch引擎的数据处理方法,其特征在于,包括:
获取在第一时间点更新的第一数据集合;
获取在第二时间点更新的第二数据集合,其中所述第二时间点晚于所述第一时间点;
将所述第二数据集合与所述第一数据集合进行比较,得到比较结果;
对所述第一数据集合进行与所述比较结果相匹配的修正,以形成搜索数据集合,以供搜索。
2.根据权利要求1所述的数据处理方法,其特征在于,
所述将所述第二数据集合与所述第一数据集合进行比较,得到比较结果包括:
以所述第一数据集合为基准,使用所述第二数据集合与所述第一数据集合进行比较,得出所述第二数据集合中的新增数据和更新数据;
以所述第二数据集合为基准,使用所述第一数据集合与所述第二数据集合进行比较,得出在所述第一数据集合存在而在所述第二数据集合不存在的多余数据;
以所述新增数据、所述更新数据和所述多余数据作为比较结果。
3.根据权利要求2所述的数据处理方法,其特征在于,
所述对所述第一数据集合进行与所述比较结果相匹配的修正,以形成搜索数据集合包括:
将所述新增数据加入所述第一数据集合,以所述更新数据对所述第一数据集合中相应的数据进行修改,将所述多余数据从所述第一数据集合中剔除,以形成搜索数据集合。
4.根据权利要求3所述的数据处理方法,其特征在于,
所述第一数据集合和所述第二数据集合分别包括多个身份数据以及与身份数据对应的数值数据,其中所述新增数据包括所述第二数据集合相较于所述第一数据集合新增的身份数据和相应的数值数据,所述更新数据包括所述第二数据集合中与所述第一数据集合重合的身份数据对应的数值数据的变化量,所述多余数据包括所述第一数据集合相较于所述第二数据集合中多出的身份数据和相应的数值数据。
5.根据权利要求4所述的数据处理方法,其特征在于,
所述对所述第一数据集合进行与所述比较结果相匹配的修正,以形成搜索数据集合之后包括:
接收搜索指令;
从所述搜索数据集合中搜索与所述搜索指令相匹配的数据集合,作为输出数据集合;
按照预设规则对所述输出数据集合进行排序,并输出排序结果。
6.根据权利要求5所述的数据处理方法,其特征在于,
所述第一数据集合和所述第二数据集合分别进一步包括与所述身份数据绑定的多个标签数据;
从所述搜索数据集合中搜索与所述搜索指令相匹配的数据集合,作为输出数据集合包括:
将所述多个标签数据和/或所述身份数据与所述搜索指令进行匹配,以在所述搜索数据集合中搜索出相应的输出数据集合。
7.根据权利要求5所述的数据处理方法,其特征在于,
所述按照预设规则对所述输出数据集合进行排序包括:
按照所述输出数据集合中的身份数据对应的数值数据的大小对所述身份数据进行排序。
8.根据权利要求1所述的数据处理方法,其特征在于,
所述第二时间点和所述第一时间点之间的时间差为数据更新时间间隔。
9.一种服务器,其特征在于,包括:
获取模块,用于获取在第一时间点更新的第一数据集合,所述获取模块进一步用于获取在第二时间点更新的第二数据集合,其中所述第二时间点晚于所述第一时间点;
比较模块,用于将所述第二数据集合与所述第一数据集合进行比较,得到比较结果;
修正模块,用于对所述第一数据集合进行与所述比较结果相匹配的修正,以形成搜索数据集合,以供搜索。
10.一种服务器,其特征在于,包括:处理器、通信电路以及存储器,所述通信电路和所述存储器分别耦接所述处理器;
所述处理器用于从所述存储器中获取在第一时间点更新的第一数据集合,和在第二时间点更新的第二数据集合;
所述处理器用于将所述第二数据集合与所述第一数据集合进行比较,得到比较结果;
所述处理器用于对所述第一数据集合进行与所述比较结果相匹配的修正,以形成搜索数据集合。
11.一种具有存储功能的装置,其特征在于,存储有程序数据,所述程序数据能够被执行,以实现如权利要求1-8任一所述的数据处理方法。
CN201910507911.6A 2019-06-12 2019-06-12 数据处理方法、服务器、以及具有存储功能的装置 Pending CN110502673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910507911.6A CN110502673A (zh) 2019-06-12 2019-06-12 数据处理方法、服务器、以及具有存储功能的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910507911.6A CN110502673A (zh) 2019-06-12 2019-06-12 数据处理方法、服务器、以及具有存储功能的装置

Publications (1)

Publication Number Publication Date
CN110502673A true CN110502673A (zh) 2019-11-26

Family

ID=68585807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910507911.6A Pending CN110502673A (zh) 2019-06-12 2019-06-12 数据处理方法、服务器、以及具有存储功能的装置

Country Status (1)

Country Link
CN (1) CN110502673A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111263195A (zh) * 2020-01-08 2020-06-09 上海米哈游天命科技有限公司 弹幕处理方法、装置、服务器设备及存储介质
CN115282605A (zh) * 2022-07-26 2022-11-04 北京赤子城集团有限公司 电子资源处理方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010000136A (ko) * 2000-06-08 2001-01-05 진성일 대용량 서지정보 검색 서비스 시스템
JP2013073557A (ja) * 2011-09-29 2013-04-22 Hitachi Solutions Ltd 情報検索システム、検索サーバ及びプログラム
CN103207872A (zh) * 2012-01-17 2013-07-17 深圳市快播科技有限公司 一种实时索引方法和服务器
CN106164867A (zh) * 2014-04-01 2016-11-23 谷歌公司 数据的增量并行处理
CN106874402A (zh) * 2017-01-16 2017-06-20 腾讯科技(深圳)有限公司 搜索方法和装置
CN108846121A (zh) * 2018-06-27 2018-11-20 中国建设银行股份有限公司 一种数据搜索方法和装置
CN109299352A (zh) * 2018-11-14 2019-02-01 百度在线网络技术(北京)有限公司 搜索引擎中网站数据的更新方法、装置和搜索引擎

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010000136A (ko) * 2000-06-08 2001-01-05 진성일 대용량 서지정보 검색 서비스 시스템
JP2013073557A (ja) * 2011-09-29 2013-04-22 Hitachi Solutions Ltd 情報検索システム、検索サーバ及びプログラム
CN103207872A (zh) * 2012-01-17 2013-07-17 深圳市快播科技有限公司 一种实时索引方法和服务器
CN106164867A (zh) * 2014-04-01 2016-11-23 谷歌公司 数据的增量并行处理
CN106874402A (zh) * 2017-01-16 2017-06-20 腾讯科技(深圳)有限公司 搜索方法和装置
CN108846121A (zh) * 2018-06-27 2018-11-20 中国建设银行股份有限公司 一种数据搜索方法和装置
CN109299352A (zh) * 2018-11-14 2019-02-01 百度在线网络技术(北京)有限公司 搜索引擎中网站数据的更新方法、装置和搜索引擎

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111263195A (zh) * 2020-01-08 2020-06-09 上海米哈游天命科技有限公司 弹幕处理方法、装置、服务器设备及存储介质
CN111263195B (zh) * 2020-01-08 2022-04-15 上海米哈游天命科技有限公司 弹幕处理方法、装置、服务器设备及存储介质
CN115282605A (zh) * 2022-07-26 2022-11-04 北京赤子城集团有限公司 电子资源处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11023545B2 (en) Method and device for displaying recommended contents
US11704367B2 (en) Indexing and presenting content using latent interests
CN103823908B (zh) 基于用户偏好的内容推荐方法和服务器
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
US9727906B1 (en) Generating item clusters based on aggregated search history data
US20230214895A1 (en) Methods and systems for product discovery in user generated content
US9852448B2 (en) Identifying gaps in search results
JP2014501422A (ja) ユーザ意図の有無に基づく検索キーワードの推薦
CN108595642A (zh) 一种搜索应用程序内信息的方法及设备
WO2015175384A1 (en) Query categorizer
US20130275270A1 (en) Method, web server and web browser of providing information
CN102411591A (zh) 一种信息处理的方法及设备
WO2018133759A1 (zh) 排行榜单生成方法、计算机设备和存储介质
US20200226168A1 (en) Methods and systems for optimizing display of user content
CN104021140B (zh) 一种网络视频的处理方法及装置
US20130073618A1 (en) Information Providing System, Information Providing method, Information Providing Device, Program, And Information Storage Medium
US20150287092A1 (en) Social networking consumer product organization and presentation application
CN106415644A (zh) 动态内容项创建
US20170287041A1 (en) Information processing apparatus, information processing method, and information processing program
CN109511015A (zh) 多媒体资源推荐方法、装置、存储介质及设备
JP2020170538A (ja) 検索データを処理するための方法、装置及びプログラム
CN111061954A (zh) 搜索结果排序方法、装置及存储介质
CN112559513A (zh) 链路数据存取方法、装置、存储介质、处理器及电子装置
US20230030560A1 (en) Methods and systems for tagged image generation
CN110502673A (zh) 数据处理方法、服务器、以及具有存储功能的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191126

RJ01 Rejection of invention patent application after publication