CN109299036B - 标签生成方法、装置、服务器和计算机可读存储介质 - Google Patents

标签生成方法、装置、服务器和计算机可读存储介质 Download PDF

Info

Publication number
CN109299036B
CN109299036B CN201710609996.XA CN201710609996A CN109299036B CN 109299036 B CN109299036 B CN 109299036B CN 201710609996 A CN201710609996 A CN 201710609996A CN 109299036 B CN109299036 B CN 109299036B
Authority
CN
China
Prior art keywords
target data
information
tag
label
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710609996.XA
Other languages
English (en)
Other versions
CN109299036A (zh
Inventor
凌宏博
李奘
曹利锋
杨文君
常智华
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201710609996.XA priority Critical patent/CN109299036B/zh
Publication of CN109299036A publication Critical patent/CN109299036A/zh
Application granted granted Critical
Publication of CN109299036B publication Critical patent/CN109299036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种标签生成方法、装置、服务器和计算机可读存储介质,其中,标签生成方法包括:响应于检索请求信息,检索请求信息包括第一标签的检索条件信息,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息;根据自定义表达式检索与时间戳信息对应的目标数据;响应于检索到的目标数据,为目标数据创建第二标签,其中,第二标签与自定义表达式相对应。通过本发明的技术方案,在利用软标签更准确地检索到目标数据的同时,解决了软标签不能进行目标数据进行持久化分析的问题,降低了快照导致的数据压力,提升了用户的使用体验。

Description

标签生成方法、装置、服务器和计算机可读存储介质
技术领域
本发明涉及数据分析技术领域,具体而言,涉及一种标签生成方法、一种标签生成装置、一种服务器和一种计算机可读存储介质。
背景技术
相关技术中,标签***是基于规则和人工的方式建立包括软标签和硬标签,其中,硬标签为人工上传的固定标签,需要耗费大量人力成本,另外,软标签也存在诸多技术缺陷:
(1)软标签给出了一些灵活的规则信息,作为目标数据的标签,但是,由于目标数据的属性是随时间变化的,因此,软标签无法对目标数据进行持久化地抓取分析;
(2)如果软标签时刻都在发生动态变化,因此,软标签需要对目标数据进行实时的快照采集,因此导致了大量的数据压力。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提供一种标签生成方法。
本发明的另一个目的在于提供一种标签生成装置。
本发明的另一个目的在于提供一种服务器。
本发明的另一个目的在于提供一种计算机可读存储介质。
为了实现上述目的,本发明的第一方面的技术方案,提供了一种标签生成方法包括:响应于检索请求信息,检索请求信息包括第一标签的检索条件信息,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息;根据自定义表达式检索与时间戳信息对应的目标数据;响应于检索到的目标数据,为目标数据创建第二标签,其中,第二标签与自定义表达式相对应。
在该技术方案中,响应于检索请求信息时将检索条件信息转换为自定义表达式,可以通过Json语言实现上述转换操作,进一步地,确定自定义表达式的时间戳信息,根据自定义表达式检索与时间戳信息对应的目标数据,响应于检索到的目标数据,为目标数据创建第二标签,在利用软标签更准确地检索到目标数据的同时,解决了软标签不能进行目标数据进行持久化分析的问题,降低了快照导致的数据压力,提升了用户的使用体验。
具体地,即根据第一标签包含的检索条件信息将第一标签转换成自定义表达式,自定义表达式是指Elastic Search支持的DSL(domain-specific language,自定义语言)表达式,常见的DSL语言包括HTML(Hypertext Markup Language,超文本标记语言)语言,Shell语言,make语言,ant语言,maven语言,rpm语言,dpkg语言,awk语言,正则表达式语言,dc计算机语言等,有些DSL语言又被称为微型语言,也即利用Elastic Search快速检索能力,快速导出满足检索条件信息的目标数据。
其中,Elastic Search为基于Lucene的搜索服务器,分布式存储文件为Hadoop分布式文件***(HDFS,Hadoop Distributed Files System),提供高吞吐量的数据访问,具有高度容错性,具体地,如在HDFS中创建一个新的文件用于存储目标数据,则文件的名字节点将会在Edit Log中***一条记录来记录这个改变,而HDFS可以将目标数据导出至第三方服务器或第三方终端进行数据分析。
值得特别指出的是,为了缓解频繁生成快照导致的数据压力,可以设置仅仅在响应于检索请求信息时开始执行上述步骤,本申请的第一标签可以理解为现有技术中的软标签,第二标签可以理解为现有技术中的硬标签。
在上述技术方案中,优选地,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息,具体还包括:在将检索条件信息转换为自定义表达式后,解析自定义表达式对应的索引信息;创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式。
在该技术方案中,通过创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式,时间戳信息能唯一地表示自定义表达式对应的时间节点,索引信息用于将目标数据上传至分布式文件***,自定义表达式对应于规则信息。
在上述任一项技术方案中,优选地,根据自定义表达式检索与时间戳信息对应的目标数据,具体包括:加载导出快照任务至存储有目标数据的数据库;触发数据库的异步线程执行导出快照任务,以确定与检索导出条件对应的目标数据。
在该技术方案中,通过加载导出快照任务至存储有目标数据的数据库,触发数据库的异步线程执行导出快照任务,其实质是在数据库中持久化上述导出快照任务,另外,通过异步线程执行导出快照任务,节省了运行时间和空间。
在上述任一项技术方案中,优选地,响应于检索到的目标数据,并为目标数据创建第二标签,具体包括:响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息,命名信息包括索引信息与时间戳信息;将具有命名信息的导出文件按照索引信息上传存储至分布式存储***;为存储于分布式存储***的导出文件的目标数据创建第二标签。
在该技术方案中,通过响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息(即上述名字节点),通过将具有命名信息的导出文件按照索引信息上传存储至分布式存储***,为存储于分布式存储***的导出文件的目标数据创建第二标签,通过名字节点检测目标数据是否发生变化,在检测到存储的目标数据发生变化后,触发执行导出快照任务对目标数据的更新信息进行跟踪分析。
在上述任一项技术方案中,优选地,标签生成方法还包括:写入第二标签的标签属性信息为固定的只读标签。
在该技术方案中,通过写入第二标签的标签属性信息为固定的只读标签,将灵活可变的第一标签已转换成固定只读第二标签,即将通过软标签检索的目标数据的标签定义为硬标签,再交由第三方(如:Apollo执行***)服务器来做数据分析,同时提供了用户订阅数据分析结果的功能。
本发明的第二方面的技术方案,还提出了一种标签生成装置,标签生成装置包括:响应单元,用于响应于检索请求信息,检索请求信息包括第一标签的检索条件信息,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息;检索单元,用于根据自定义表达式检索与时间戳信息对应的目标数据;创建单元,用于响应于检索到的目标数据,为目标数据创建第二标签,其中,第二标签与自定义表达式相对应。
在该技术方案中,通过响应于检索请求信息时将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息,根据自定义表达式检索与时间戳信息对应的目标数据,响应于检索到的目标数据,为目标数据创建第二标签,在利用软标签更准确地检索到目标数据的同时,解决了软标签不能进行目标数据进行持久化分析的问题,降低了快照导致的数据压力,提升了用户的使用体验。
具体地,即根据第一标签包含的检索条件信息将第一标签转换成自定义表达式,自定义表达式是指Elastic Search支持的DSL(domain-specific language,自定义语言)表达式,常见的DSL语言包括HTML(Hypertext Markup Language,超文本标记语言)语言,Shell语言,make语言,ant语言,maven语言,rpm语言,dpkg语言,awk语言,正则表达式语言,dc计算机语言等,有些DSL语言又被称为微型语言,也即利用Elastic Search快速检索能力,快速导出满足检索条件信息的目标数据。
其中,Elastic Search为基于Lucene的搜索服务器,分布式存储文件为Hadoop分布式文件***(HDFS,Hadoop Distributed Files System),提供高吞吐量的数据访问,具有高度容错性,具体地,如在HDFS中创建一个新的文件用于存储目标数据,则文件的名字节点将会在Edit Log中***一条记录来记录这个改变,而HDFS可以将目标数据导出至第三方服务器或第三方终端进行数据分析。
值得特别指出的是,为了缓解频繁生成快照导致的数据压力,可以设置仅仅在响应于检索请求信息时开始执行上述步骤,本申请的第一标签可以理解为现有技术中的软标签,第二标签可以理解为现有技术中的硬标签。
在上述任一项技术方案中,优选地,标签生成装置还包括:解析单元,用于在将检索条件信息转换为自定义表达式后,解析自定义表达式对应的索引信息;创建单元还用于:创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式。
在该技术方案中,通过创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式,时间戳信息能唯一地表示自定义表达式对应的时间节点,索引信息用于将目标数据上传至分布式文件***,自定义表达式对应于规则信息。
在上述任一项技术方案中,优选地,标签生成装置还包括:加载单元,用于加载导出快照任务至存储有目标数据的数据库;触发单元,用于触发数据库的异步线程执行导出快照任务,以确定与检索导出条件对应的目标数据。
在该技术方案中,通过加载导出快照任务至存储有目标数据的数据库,触发数据库的异步线程执行导出快照任务,其实质是在数据库中持久化上述导出快照任务,另外,通过异步线程执行导出快照任务,节省了运行时间和空间。
在上述任一项技术方案中,优选地,标签生成装置还包括:写入单元,用于响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息,命名信息包括索引信息与时间戳信息;上传单元,用于将具有命名信息的导出文件按照索引信息上传存储至分布式存储***;创建单元还用于:为存储于分布式存储***的导出文件的目标数据创建第二标签。
在该技术方案中,通过响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息(即上述名字节点),通过将具有命名信息的导出文件按照索引信息上传存储至分布式存储***,为存储于分布式存储***的导出文件的目标数据创建第二标签,通过名字节点检测目标数据是否发生变化,在检测到存储的目标数据发生变化后,触发执行导出快照任务对目标数据的更新信息进行跟踪分析。
在上述任一项技术方案中,优选地,写入单元还用于:写入第二标签的标签属性信息为固定的只读标签。
在该技术方案中,通过写入第二标签的标签属性信息为固定的只读标签,将灵活可变的第一标签已转换成固定只读第二标签,即将通过软标签检索的目标数据的标签定义为硬标签,再交由第三方(如:Apollo执行***)服务器来做数据分析,同时提供了用户订阅数据分析结果的功能。
本发明的第三方面的技术方案提出了一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器用于执行存储器中存储的计算机程序时实现上述任一项标签生成方法的步骤。
在该技术方案中,服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器用于执行存储器中存储的计算机程序时实现如本发明的第一方面的任一项标签生成方法的步骤,因此具有如本发明的第一方面的任一项标签生成方法的全部有益效果,在此不再赘述。
根据本发明的第四方面的实施例,还提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项标签生成方法的步骤。
在该技术方案中,计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如本发明的第一方面的任一项标签生成方法的步骤,因此具有如本发明的第一方面的任一项标签生成方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的标签生成方法的示意流程图;
图2示出了根据本发明的一个实施例的标签生成装置的示意框图;
图3示出了根据本发明的一个实施例的服务器的示意框图;
图4示出了根据本发明的另一个实施例的标签生成方法的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1:
图1示出了根据本发明的一个实施例的标签生成方法的示意流程图。
如图1示出了根据本发明的一个实施例的标签生成方法,包括:步骤S102,响应于检索请求信息,检索请求信息包括第一标签的检索条件信息,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息;步骤S104,根据自定义表达式检索与时间戳信息对应的目标数据;步骤S106,响应于检索到的目标数据,为目标数据创建第二标签,其中,第二标签与自定义表达式相对应。
在该技术方案中,响应于检索请求信息时将检索条件信息转换为自定义表达式,可以通过Json语言实现上述转换操作,进一步地,确定自定义表达式的时间戳信息,根据自定义表达式检索与时间戳信息对应的目标数据,响应于检索到的目标数据,为目标数据创建第二标签,在利用软标签更准确地检索到目标数据的同时,解决了软标签不能进行目标数据进行持久化分析的问题,降低了快照导致的数据压力,提升了用户的使用体验。
具体地,即根据第一标签包含的检索条件信息将第一标签转换成自定义表达式,自定义表达式是指Elastic Search支持的DSL(domain-specific language,自定义语言)表达式,常见的DSL语言包括HTML(Hypertext Markup Language,超文本标记语言)语言,Shell语言,make语言,ant语言,maven语言,rpm语言,dpkg语言,awk语言,正则表达式语言,dc计算机语言等,有些DSL语言又被称为微型语言,也即利用Elastic Search快速检索能力,快速导出满足检索条件信息的目标数据。
其中,Elastic Search为基于Lucene的搜索服务器,分布式存储文件为Hadoop分布式文件***(HDFS,Hadoop Distributed Files System),提供高吞吐量的数据访问,具有高度容错性,具体地,如在HDFS中创建一个新的文件用于存储目标数据,则文件的名字节点将会在Edit Log中***一条记录来记录这个改变,而HDFS可以将目标数据导出至第三方服务器或第三方终端进行数据分析。
值得特别指出的是,为了缓解频繁生成快照导致的数据压力,可以设置仅仅在响应于检索请求信息时开始执行上述步骤,本申请的第一标签可以理解为现有技术中的软标签,第二标签可以理解为现有技术中的硬标签。
在上述技术方案中,优选地,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息,具体还包括:在将检索条件信息转换为自定义表达式后,解析自定义表达式对应的索引信息;创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式。
在该技术方案中,通过创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式,时间戳信息能唯一地表示自定义表达式对应的时间节点,索引信息用于将目标数据上传至分布式文件***,自定义表达式对应于规则信息。
在上述任一项技术方案中,优选地,根据自定义表达式检索与时间戳信息对应的目标数据,具体包括:加载导出快照任务至存储有目标数据的数据库;触发数据库的异步线程执行导出快照任务,以确定与检索导出条件对应的目标数据。
在该技术方案中,通过加载导出快照任务至存储有目标数据的数据库,触发数据库的异步线程执行导出快照任务,其实质是在数据库中持久化上述导出快照任务,另外,通过异步线程执行导出快照任务,节省了运行时间和空间。
在上述任一项技术方案中,优选地,响应于检索到的目标数据,并为目标数据创建第二标签,具体包括:响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息,命名信息包括索引信息与时间戳信息;将具有命名信息的导出文件按照索引信息上传存储至分布式存储***;为存储于分布式存储***的导出文件的目标数据创建第二标签。
在该技术方案中,通过响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息(即上述名字节点),通过将具有命名信息的导出文件按照索引信息上传存储至分布式存储***,为存储于分布式存储***的导出文件的目标数据创建第二标签,通过名字节点检测目标数据是否发生变化,在检测到存储的目标数据发生变化后,触发执行导出快照任务对目标数据的更新信息进行跟踪分析。
在上述任一项技术方案中,优选地,标签生成方法还包括:写入第二标签的标签属性信息为固定的只读标签。
在该技术方案中,通过写入第二标签的标签属性信息为固定的只读标签,将灵活可变的第一标签已转换成固定只读第二标签,即将通过软标签检索的目标数据的标签定义为硬标签,再交由第三方(如:Apollo执行***)服务器来做数据分析,同时提供了用户订阅数据分析结果的功能。
图2示出了根据本发明的一个实施例的标签生成装置的示意框图。
如图2示出了根据本发明的一个实施例的标签生成装置200,包括:响应单元202,用于响应于检索请求信息,检索请求信息包括第一标签的检索条件信息,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息;检索单元204,用于根据自定义表达式检索与时间戳信息对应的目标数据;创建单元206,用于响应于检索到的目标数据,为目标数据创建第二标签,其中,第二标签与自定义表达式相对应。
在该技术方案中,通过响应于检索请求信息时将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息,根据自定义表达式检索与时间戳信息对应的目标数据,响应于检索到的目标数据,为目标数据创建第二标签,在利用软标签更准确地检索到目标数据的同时,解决了软标签不能进行目标数据进行持久化分析的问题,降低了快照导致的数据压力,提升了用户的使用体验。
具体地,即根据第一标签包含的检索条件信息将第一标签转换成自定义表达式,自定义表达式是指Elastic Search支持的DSL(domain-specific language,自定义语言)表达式,常见的DSL语言包括HTML(Hypertext Markup Language,超文本标记语言)语言,Shell语言,make语言,ant语言,maven语言,rpm语言,dpkg语言,awk语言,正则表达式语言,dc计算机语言等,有些DSL语言又被称为微型语言,也即利用Elastic Search快速检索能力,快速导出满足检索条件信息的目标数据。
其中,Elastic Search为基于Lucene的搜索服务器,分布式存储文件为Hadoop分布式文件***(HDFS,Hadoop Distributed Files System),提供高吞吐量的数据访问,具有高度容错性,具体地,如在HDFS中创建一个新的文件用于存储目标数据,则文件的名字节点将会在Edit Log中***一条记录来记录这个改变,而HDFS可以将目标数据导出至第三方服务器或第三方终端进行数据分析。
值得特别指出的是,为了缓解频繁生成快照导致的数据压力,可以设置仅仅在响应于检索请求信息时开始执行上述步骤,本申请的第一标签可以理解为现有技术中的软标签,第二标签可以理解为现有技术中的硬标签。
在上述任一项技术方案中,优选地,标签生成装置200还包括:解析单元208,用于在将检索条件信息转换为自定义表达式后,解析自定义表达式对应的索引信息;创建单元206还用于:创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式。
在该技术方案中,通过创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式,时间戳信息能唯一地表示自定义表达式对应的时间节点,索引信息用于将目标数据上传至分布式文件***,自定义表达式对应于规则信息。
在上述任一项技术方案中,优选地,标签生成装置200还包括:加载单元210,用于加载导出快照任务至存储有目标数据的数据库;触发单元212,用于触发数据库的异步线程执行导出快照任务,以确定与检索导出条件对应的目标数据。
在该技术方案中,通过加载导出快照任务至存储有目标数据的数据库,触发数据库的异步线程执行导出快照任务,其实质是在数据库中持久化上述导出快照任务,另外,通过异步线程执行导出快照任务,节省了运行时间和空间。
在上述任一项技术方案中,优选地,标签生成装置200还包括:写入单元214,用于响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息,命名信息包括索引信息与时间戳信息;上传单元216,用于将具有命名信息的导出文件按照索引信息上传存储至分布式存储***;创建单元206还用于:为存储于分布式存储***的导出文件的目标数据创建第二标签。
在该技术方案中,通过响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息(即上述名字节点),通过将具有命名信息的导出文件按照索引信息上传存储至分布式存储***,为存储于分布式存储***的导出文件的目标数据创建第二标签,通过名字节点检测目标数据是否发生变化,在检测到存储的目标数据发生变化后,触发执行导出快照任务对目标数据的更新信息进行跟踪分析。
在上述任一项技术方案中,优选地,写入单元214还用于:写入第二标签的标签属性信息为固定的只读标签。
在该技术方案中,通过写入第二标签的标签属性信息为固定的只读标签,将灵活可变的第一标签已转换成固定只读第二标签,即将通过软标签检索的目标数据的标签定义为硬标签,再交由第三方(如:Apollo执行***)服务器来做数据分析,同时提供了用户订阅数据分析结果的功能。
图3示出了根据本发明的一个实施例的服务器的示意框图。
如图3示出了根据本发明的一个实施例的服务器300,包括存储器302、处理器304及存储在存储器302上并可在处理器304上运行的计算机程序,处理器304用于执行存储器302中存储的计算机程序时实现如本发明的第一方面的任一项标签生成方法的步骤。
在该技术方案中,服务器300包括存储器302、处理器304及存储在存储器302上并可在处理器304上运行的计算机程序,处理器304用于执行步骤包括:响应于检索请求信息,检索请求信息包括第一标签的检索条件信息,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息;根据自定义表达式检索与时间戳信息对应的目标数据;响应于检索到的目标数据,为目标数据创建第二标签,其中,第二标签与自定义表达式相对应。
在该技术方案中,响应于检索请求信息时将检索条件信息转换为自定义表达式,可以通过Json语言实现上述转换操作,进一步地,确定自定义表达式的时间戳信息,根据自定义表达式检索与时间戳信息对应的目标数据,响应于检索到的目标数据,为目标数据创建第二标签,在利用软标签更准确地检索到目标数据的同时,解决了软标签不能进行目标数据进行持久化分析的问题,降低了快照导致的数据压力,提升了用户的使用体验。
具体地,即根据第一标签包含的检索条件信息将第一标签转换成自定义表达式,自定义表达式是指Elastic Search支持的DSL(domain-specific language,自定义语言)表达式,常见的DSL语言包括HTML(Hypertext Markup Language,超文本标记语言)语言,Shell语言,make语言,ant语言,maven语言,rpm语言,dpkg语言,awk语言,正则表达式语言,dc计算机语言等,有些DSL语言又被称为微型语言,也即利用Elastic Search快速检索能力,快速导出满足检索条件信息的目标数据。
其中,Elastic Search为基于Lucene的搜索服务器,分布式存储文件为Hadoop分布式文件***(HDFS,Hadoop Distributed Files System),提供高吞吐量的数据访问,具有高度容错性,具体地,如在HDFS中创建一个新的文件用于存储目标数据,则文件的名字节点将会在Edit Log中***一条记录来记录这个改变,而HDFS可以将目标数据导出至第三方服务器或第三方终端进行数据分析。
值得特别指出的是,为了缓解频繁生成快照导致的数据压力,可以设置仅仅在响应于检索请求信息时开始执行上述步骤,本申请的第一标签可以理解为现有技术中的软标签,第二标签可以理解为现有技术中的硬标签。
在上述技术方案中,优选地,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息,具体还包括:在将检索条件信息转换为自定义表达式后,解析自定义表达式对应的索引信息;创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式。
在该技术方案中,通过创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式,时间戳信息能唯一地表示自定义表达式对应的时间节点,索引信息用于将目标数据上传至分布式文件***,自定义表达式对应于规则信息。
在上述任一项技术方案中,优选地,根据自定义表达式检索与时间戳信息对应的目标数据,具体包括:加载导出快照任务至存储有目标数据的数据库;触发数据库的异步线程执行导出快照任务,以确定与检索导出条件对应的目标数据。
在该技术方案中,通过加载导出快照任务至存储有目标数据的数据库,触发数据库的异步线程执行导出快照任务,其实质是在数据库中持久化上述导出快照任务,另外,通过异步线程执行导出快照任务,节省了运行时间和空间。
在上述任一项技术方案中,优选地,响应于检索到的目标数据,并为目标数据创建第二标签,具体包括:响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息,命名信息包括索引信息与时间戳信息;将具有命名信息的导出文件按照索引信息上传存储至分布式存储***;为存储于分布式存储***的导出文件的目标数据创建第二标签。
在该技术方案中,通过响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息(即上述名字节点),通过将具有命名信息的导出文件按照索引信息上传存储至分布式存储***,为存储于分布式存储***的导出文件的目标数据创建第二标签,通过名字节点检测目标数据是否发生变化,在检测到存储的目标数据发生变化后,触发执行导出快照任务对目标数据的更新信息进行跟踪分析。
在上述任一项技术方案中,优选地,标签生成方法还包括:写入第二标签的标签属性信息为固定的只读标签。
在该技术方案中,通过写入第二标签的标签属性信息为固定的只读标签,将灵活可变的第一标签已转换成固定只读第二标签,即将通过软标签检索的目标数据的标签定义为硬标签,再交由第三方(如:Apollo执行***)服务器来做数据分析,同时提供了用户订阅数据分析结果的功能。
本发明的实施例还提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:响应于检索请求信息,检索请求信息包括第一标签的检索条件信息,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息;根据自定义表达式检索与时间戳信息对应的目标数据;响应于检索到的目标数据,为目标数据创建第二标签,其中,第二标签与自定义表达式相对应。
在该技术方案中,响应于检索请求信息时将检索条件信息转换为自定义表达式,可以通过Json语言实现上述转换操作,进一步地,确定自定义表达式的时间戳信息,根据自定义表达式检索与时间戳信息对应的目标数据,响应于检索到的目标数据,为目标数据创建第二标签,在利用软标签更准确地检索到目标数据的同时,解决了软标签不能进行目标数据进行持久化分析的问题,降低了快照导致的数据压力,提升了用户的使用体验。
具体地,即根据第一标签包含的检索条件信息将第一标签转换成自定义表达式,自定义表达式是指Elastic Search支持的DSL(domain-specific language,自定义语言)表达式,常见的DSL语言包括HTML(Hypertext Markup Language,超文本标记语言)语言,Shell语言,make语言,ant语言,maven语言,rpm语言,dpkg语言,awk语言,正则表达式语言,dc计算机语言等,有些DSL语言又被称为微型语言,也即利用Elastic Search快速检索能力,快速导出满足检索条件信息的目标数据。
其中,Elastic Search为基于Lucene的搜索服务器,分布式存储文件为Hadoop分布式文件***(HDFS,Hadoop Distributed Files System),提供高吞吐量的数据访问,具有高度容错性,具体地,如在HDFS中创建一个新的文件用于存储目标数据,则文件的名字节点将会在Edit Log中***一条记录来记录这个改变,而HDFS可以将目标数据导出至第三方服务器或第三方终端进行数据分析。
值得特别指出的是,为了缓解频繁生成快照导致的数据压力,可以设置仅仅在响应于检索请求信息时开始执行上述步骤,本申请的第一标签可以理解为现有技术中的软标签,第二标签可以理解为现有技术中的硬标签。
在上述技术方案中,优选地,将检索条件信息转换为自定义表达式,并确定自定义表达式的时间戳信息,具体还包括:在将检索条件信息转换为自定义表达式后,解析自定义表达式对应的索引信息;创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式。
在该技术方案中,通过创建导出快照任务,导出快照任务的检索导出条件包括索引信息、时间戳信息和自定义表达式,时间戳信息能唯一地表示自定义表达式对应的时间节点,索引信息用于将目标数据上传至分布式文件***,自定义表达式对应于规则信息。
在上述任一项技术方案中,优选地,根据自定义表达式检索与时间戳信息对应的目标数据,具体包括:加载导出快照任务至存储有目标数据的数据库;触发数据库的异步线程执行导出快照任务,以确定与检索导出条件对应的目标数据。
在该技术方案中,通过加载导出快照任务至存储有目标数据的数据库,触发数据库的异步线程执行导出快照任务,其实质是在数据库中持久化上述导出快照任务,另外,通过异步线程执行导出快照任务,节省了运行时间和空间。
在上述任一项技术方案中,优选地,响应于检索到的目标数据,并为目标数据创建第二标签,具体包括:响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息,命名信息包括索引信息与时间戳信息;将具有命名信息的导出文件按照索引信息上传存储至分布式存储***;为存储于分布式存储***的导出文件的目标数据创建第二标签。
在该技术方案中,通过响应于检索到的目标数据,对目标数据所属的导出文件写入命名信息(即上述名字节点),通过将具有命名信息的导出文件按照索引信息上传存储至分布式存储***,为存储于分布式存储***的导出文件的目标数据创建第二标签,通过名字节点检测目标数据是否发生变化,在检测到存储的目标数据发生变化后,触发执行导出快照任务对目标数据的更新信息进行跟踪分析。
在上述任一项技术方案中,优选地,标签生成方法还包括:写入第二标签的标签属性信息为固定的只读标签。
在该技术方案中,通过写入第二标签的标签属性信息为固定的只读标签,将灵活可变的第一标签已转换成固定只读第二标签,即将通过软标签检索的目标数据的标签定义为硬标签,再交由第三方(如:Apollo执行***)服务器来做数据分析,同时提供了用户订阅数据分析结果的功能。
实施例2:
图4示出了根据本发明的另一个实施例的标签生成方法的示意流程图。
如图4示出了根据本发明的另一个实施例的标签生成方法,包括:步骤S402,客户对软标签触发生成快照动作;步骤S404,根据检索条件信息生成Elastic Search支持的DSL表达式并异步提交到Elastic Search集群;步骤S406,Elastic Search检索目标数据并导出目标数据;步骤S408,将目标数据上传存储至HDFS,并在标签***中创建一个新的硬标签。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种标签生成方法、装置、服务器和计算机可读存储介质,响应于检索请求信息时将检索条件信息转换为自定义表达式,可以通过Json语言实现上述转换操作,进一步地,确定自定义表达式的时间戳信息,根据自定义表达式检索与时间戳信息对应的目标数据,响应于检索到的目标数据,为目标数据创建第二标签,在利用软标签更准确地检索到目标数据的同时,解决了软标签不能进行目标数据进行持久化分析的问题,降低了快照导致的数据压力,提升了用户的使用体验。
本发明方法中的步骤可根据实际需要进行顺序调整、合并和删减。
本发明装置中的单元可根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种标签生成方法,其特征在于,所述标签生成方法包括:
响应于检索请求信息,所述检索请求信息包括第一标签的检索条件信息,将所述检索条件信息转换为自定义表达式,并确定所述自定义表达式的时间戳信息;
根据所述自定义表达式检索与所述时间戳信息对应的目标数据;
响应于检索到的所述目标数据,为所述目标数据创建第二标签,
其中,所述第二标签与所述自定义表达式相对应;
所述第一标签为软标签,所述第二标签为硬标签。
2.根据权利要求1所述的标签生成方法,其特征在于,所述将所述检索条件信息转换为自定义表达式,并确定所述自定义表达式的时间戳信息,具体还包括:
在将所述检索条件信息转换为自定义表达式后,解析所述自定义表达式对应的索引信息;
创建导出快照任务,所述导出快照任务的检索导出条件包括所述索引信息、所述时间戳信息和所述自定义表达式。
3.根据权利要求2所述的标签生成方法,其特征在于,所述根据所述自定义表达式检索与所述时间戳信息对应的目标数据,具体包括:
加载所述导出快照任务至存储有所述目标数据的数据库;
触发所述数据库的异步线程执行所述导出快照任务,以确定与所述检索导出条件对应的目标数据。
4.根据权利要求1至3中任一项所述的标签生成方法,其特征在于,所述响应于检索到的所述目标数据,并为所述目标数据创建第二标签,具体包括:
响应于检索到的所述目标数据,对所述目标数据所属的导出文件写入命名信息,所述命名信息包括所述自定义表达式对应的索引信息与所述时间戳信息;
将所述具有所述命名信息的导出文件按照所述索引信息上传存储至分布式存储***;
为存储于所述分布式存储***的导出文件的目标数据创建所述第二标签。
5.根据权利要求4所述的标签生成方法,其特征在于,还包括:
写入所述第二标签的标签属性信息为固定的只读标签。
6.一种标签生成装置,其特征在于,所述标签生成装置包括:
响应单元,用于响应于检索请求信息,所述检索请求信息包括第一标签的检索条件信息,将所述检索条件信息转换为自定义表达式,并确定所述自定义表达式的时间戳信息;
检索单元,用于根据所述自定义表达式检索与所述时间戳信息对应的目标数据;
创建单元,用于响应于检索到的所述目标数据,为所述目标数据创建第二标签,
其中,所述第二标签与所述自定义表达式相对应;
所述第一标签为软标签,所述第二标签为硬标签。
7.根据权利要求6所述的标签生成装置,其特征在于,还包括:
解析单元,用于在将所述检索条件信息转换为自定义表达式后,解析所述自定义表达式对应的索引信息;
所述创建单元还用于:创建导出快照任务,所述导出快照任务的检索导出条件包括所述索引信息、所述时间戳信息和所述自定义表达式。
8.根据权利要求7所述的标签生成装置,其特征在于,还包括:
加载单元,用于加载所述导出快照任务至存储有所述目标数据的数据库;
触发单元,用于触发所述数据库的异步线程执行所述导出快照任务,以确定与所述检索导出条件对应的目标数据。
9.根据权利要求6至8中任一项所述的标签生成装置,其特征在于,还包括:
写入单元,用于响应于检索到的所述目标数据,对所述目标数据所属的导出文件写入命名信息,所述命名信息包括所述自定义表达式对应的索引信息与所述时间戳信息;
上传单元,用于将所述具有所述命名信息的导出文件按照所述索引信息上传存储至分布式存储***;
所述创建单元还用于:为存储于所述分布式存储***的导出文件的目标数据创建所述第二标签。
10.根据权利要求9所述的标签生成装置,其特征在于,
所述写入单元还用于:写入所述第二标签的标签属性信息为固定的只读标签。
11.一种服务器,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项标签生成方法所述的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项标签生成方法所述的步骤。
CN201710609996.XA 2017-07-25 2017-07-25 标签生成方法、装置、服务器和计算机可读存储介质 Active CN109299036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710609996.XA CN109299036B (zh) 2017-07-25 2017-07-25 标签生成方法、装置、服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710609996.XA CN109299036B (zh) 2017-07-25 2017-07-25 标签生成方法、装置、服务器和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109299036A CN109299036A (zh) 2019-02-01
CN109299036B true CN109299036B (zh) 2021-01-05

Family

ID=65167782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710609996.XA Active CN109299036B (zh) 2017-07-25 2017-07-25 标签生成方法、装置、服务器和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109299036B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093043A (zh) * 2013-01-09 2013-05-08 中国电力科学研究院 电力信息***中公式计算工具的设计方法及其设计***
CN103744853A (zh) * 2013-11-08 2014-04-23 北京奇虎科技有限公司 提供搜索引擎网页快照信息的方法及装置
CN104133878A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 用户标签的生成方法和装置
CN104156524A (zh) * 2014-08-01 2014-11-19 河海大学 交通数据流的聚集查询方法及***
CN104966105A (zh) * 2015-07-13 2015-10-07 苏州大学 一种鲁棒机器错误检索方法与***
CN105354251A (zh) * 2015-10-19 2016-02-24 国家电网公司 电力***中基于Hadoop的电力云数据管理索引方法
CN106339274A (zh) * 2015-07-14 2017-01-18 阿里巴巴集团控股有限公司 一种数据快照获取的方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3055764A4 (en) * 2014-01-30 2017-03-15 Huawei Technologies Co., Ltd. Emotion modification for image and video content

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093043A (zh) * 2013-01-09 2013-05-08 中国电力科学研究院 电力信息***中公式计算工具的设计方法及其设计***
CN103744853A (zh) * 2013-11-08 2014-04-23 北京奇虎科技有限公司 提供搜索引擎网页快照信息的方法及装置
CN104133878A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 用户标签的生成方法和装置
CN104156524A (zh) * 2014-08-01 2014-11-19 河海大学 交通数据流的聚集查询方法及***
CN104966105A (zh) * 2015-07-13 2015-10-07 苏州大学 一种鲁棒机器错误检索方法与***
CN106339274A (zh) * 2015-07-14 2017-01-18 阿里巴巴集团控股有限公司 一种数据快照获取的方法及***
CN105354251A (zh) * 2015-10-19 2016-02-24 国家电网公司 电力***中基于Hadoop的电力云数据管理索引方法

Also Published As

Publication number Publication date
CN109299036A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
KR102311032B1 (ko) 데이터베이스 동기화
CN110046155B (zh) 特征数据库的更新、数据特征的确定方法、装置及设备
CN113407623A (zh) 数据的处理方法、装置及服务器
CN114328632A (zh) 基于位图的用户数据分析方法、装置及计算机设备
CN111382183A (zh) 一种数据查询方法及装置
CN111459764A (zh) 一种日志管理方法及终端
US20130204913A1 (en) File list generation method, system, and program, and file list generation device
CN114238085A (zh) 接口测试方法、装置、计算机设备、存储介质
CN114036226A (zh) 一种数据同步方法、装置、设备及存储介质
CN109299036B (zh) 标签生成方法、装置、服务器和计算机可读存储介质
CN112000971A (zh) 一种文件权限记录方法、***及相关装置
CN113297245A (zh) 获取执行信息的方法及装置
CN115225470B (zh) 一种业务异常监测方法、装置、电子设备及存储介质
CN115858471A (zh) 业务数据变更记录方法、装置、计算机设备及介质
US9471569B1 (en) Integrating information sources to create context-specific documents
EP3671467A1 (en) Gui application testing using bots
US20140358616A1 (en) Asset management for a computer-based system using aggregated weights of changed assets
CN111078157A (zh) 一种分布式存储***的卷信息查询方法、***及相关组件
CN110968993A (zh) 信息的处理方法及装置、存储介质和处理器
JP6307287B2 (ja) ファイル管理システム、ファイル管理方法およびファイル管理システム用のプログラム
CN115328878B (zh) 日志数据存储***、方法、设备及介质
CN113392071B (zh) 一种文件采集器的文件采集处理方法、装置及设备
US20230315682A1 (en) Long term and short term data management of a file based time series database populated with data collected by an energy sensor for a power generating device or from another data source
CN112988664A (zh) 数据归档方法、装置、设备及存储介质
CN117370365A (zh) 一种更新语料数据的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant