CN113342831A - 数据处理方法及相关设备 - Google Patents

数据处理方法及相关设备 Download PDF

Info

Publication number
CN113342831A
CN113342831A CN202110878516.6A CN202110878516A CN113342831A CN 113342831 A CN113342831 A CN 113342831A CN 202110878516 A CN202110878516 A CN 202110878516A CN 113342831 A CN113342831 A CN 113342831A
Authority
CN
China
Prior art keywords
target
sample
index
index table
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110878516.6A
Other languages
English (en)
Inventor
姚胜
闾凡兵
曾海文
牟三钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Hisense Intelligent System Research Institute Co ltd
Original Assignee
Changsha Hisense Intelligent System Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Hisense Intelligent System Research Institute Co ltd filed Critical Changsha Hisense Intelligent System Research Institute Co ltd
Priority to CN202110878516.6A priority Critical patent/CN113342831A/zh
Publication of CN113342831A publication Critical patent/CN113342831A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据处理方法及相关设备。该数据处理方法包括:接收外部设备针对训练任务发送的样本调用请求,所述样本调用请求包括目标属性标签;基于所述目标属性标签从第一索引表中查找第一目标索引表项;所述第一目标索引表项包括与所述目标属性标签对应的语义属性标签;基于所述第一目标索引表项,确定目标标签索引;获取与所述目标标签索引对应的目标样本;向所述外部设备发送所述目标样本。通过上述方法,能够让外部设备快速获取到针对不同的模型训练任务所需的样本,提高样本的可获得性和易用性。

Description

数据处理方法及相关设备
技术领域
本申请属于人工智能技术领域,尤其涉及一种数据处理方法及相关设备。
背景技术
样本作为人工智能的基础,海量的高质量样本为算法模型的高精准度与识别率提供了有力的保障。目前,样本主要存储在多媒体介质中,导致训练设备可能无法直接访问到某些样本数据。并且针对不同的模型训练任务,训练设备每次需要从海量的样本数据中查找匹配的样本,获取样本时间较长。如此,导致样本的可获得性和易用性不高。
发明内容
有鉴于此,本申请实施例提供的一种数据处理方法、装置、样本服务管理平台、计算机设备及计算机存储介质,能够让外部设备快速获取到针对不同的模型训练任务所需的样本,提高样本的可获得性和易用性。
第一方面,本申请实施例提供一种数据处理方法,所述方法包括:
接收外部设备针对训练任务发送的样本调用请求,所述样本调用请求包括目标属性标签;
基于所述目标属性标签从第一索引表中查找第一目标索引表项;所述第一目标索引表项包括与所述目标属性标签对应的语义属性标签;
基于所述第一目标索引表项,确定目标标签索引;
获取与所述目标标签索引对应的目标样本;
向所述外部设备发送所述目标样本。
第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:
接口模块,用于接收外部设备发送的样本调用请求,所述样本调用请求包括目标属性标签;向所述外部设备发送目标样本;
样本服务模块,用于基于所述目标属性标签从第一索引表中查找第一目标索引表项;所述第一目标索引表项包括与所述目标属性标签对应的语义属性标签;基于所述第一目标索引表项,确定目标标签索引;获取与所述目标标签索引对应的目标样本。
第三方面,本申请实施例提供一种样本服务管理平台,所述样本服务管理平台包括如第二方面所述的数据处理装置。
第四方面,本申请实施例提供了一种计算机设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如第一方面所述的数据处理方法。
第五方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面所述的数据处理方法。
本申请实施例提供的一种数据处理方法,能够接收外部设备针对训练任务发送的样本调用请求,根据样本调用请求中的目标属性标签检索第一索引表,确定第一目标索引表项,基于第一目标索引表项确定目标标签索引,以及获取与所述目标属性标签引对应的目标样本,并且向所述外部设备发送目标样本。如此,通过响应样本调用请求向外部设备提供样本服务,能够实现跨组件调用样本,并且通过目标属性标签进行索引访问,可以准确并快速获取到目标样本,提高了样本的可获得性和易用性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的一种数据处理方法的流程示意图;
图2是本申请实施例提供的另一种数据处理方法的原理示意图;
图3是本申请实施例提供的一种数据处理装置的结构示意图;
图4是本申请实施例提供的一种样本服务管理平台的结构示意图;
图5是本申请实施例提供的一种计算机设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
在对本申请实施例提供一种应用于样本服务管理平台的数据处理方法进行详细描述之前,首先对本申请涉及的技术进行简要介绍。
样本是人工智能的基础,海量的高质量样本为算法的高精准度和识别率提供了有力保障。随着人工智能的快速发展,模型训练所需的样本规模日益增大。然而,现有样本的使用情况存在如下问题:
1、对样本的主动挖掘复用不足。人工智能在算法层面解决的是单一任务的,从而样本也是面向单一任务进行采集和标注的。然而,样本在多种情况下可以为不同的任务提供训练素材,因此,现有使用样本的方式导致样本复用率不高。
2、样本的访问获取方式单一。样本目前主要以多媒体介质进行存储,训练设备无法直接访问到所需样本,需要用户进行移动、筛选以及预处理等操作步骤,才能使得训练设备访问到样本。因此,目前缺少支持跨组件标准服务的方式对样本进行传播与使用,导致样本的可获得性和易用性不高。
此外,目前人工智能服务平台主要聚焦于算法服务,对应服务调用方来说,大多只可调用平台封装好的借口,拓展性较差。如此,对于缺少样本的高校等科研机构或者中小企业来说,很难完成对自己所需的算法训练任务。
有鉴于此,本申请实施例提供了一种数据处理方法、装置、计算机设备及计算机存储介质,能够通过响应样本调用请求向外部设备提供样本服务,实现跨组件调用样本,并且通过目标属性标签进行索引访问,可以准确并快速获取到目标样本,提高了样本的可获得性和易用性。下面首先对本申请实施例所提供的数据处理方法进行介绍。
需要说明的是,本申请实施例涉及的“语义属性标签”可以为自然语义格式的标签。例如,车、人、奔跑等。本申请实施例涉及的“数据属性标签”可以为数据格式的标签。例如,8:00等。
本申请实施例涉及的“第一索引表”和“第二索引表”均是一张指示逻辑记录和物理记录之间对应关系的表,其中,表中每个索引项按键顺序排列。
本申请实施例所提供的数据处理方法可以由样本服务管理平台执行。该样本服务管理平台用于管理样本以及提供样本服务。并且该样本服务管理平台可以提供标准的外部接口,以便外部设备访问样本服务管理平台。此外,该样本服务管理平台可以部署在服务器中。
在一些实施例中,样本服务管理平台可以为采用容器化方式部署的平台。
也就是说,样本服务管理平台采用容器化的部署方式部署在服务集群中。这里,容器化部署方式是指虚拟化技术的一种,利用“集装箱”原理,将***、开发软件包以及依赖环境等统一打包到容器中,将整个容器部署在服务器中。
此外,样本服务管理平台可以采用一个容器编排引擎进行管理,例如Kubernetes。如此,在Kubernetes中,可以创建容器,在容器里面运行一个应用实例,然后通过内置的负载均衡策略,实现对这一组应用实例的管理、发现、访问。
在上述实施例中,样本服务管理平台采用容器化的部署方式,可以实现平台的整体迁移,可以部署在不同的服务器中,也可以跨集群部署。此外,通过容器化部署的样本服务管理平台管理样本,可以将样本作为服务集群从其它***中抽离出来,实现了样本功能的模块化,降低了***之间耦合性。
需要说明的是,样本服务管理平台可以部署在支持容器的云平台上。云平台包括但不限于亚马逊云平台(AWS)、 Google云平台(GCP)、微软云平台( Azure)以及 OpenStack等。
图1是根据本申请实施例提供的一种数据处理方法的流程示意图。如图1所示,该数据处理方法包括:
步骤S11,接收外部设备针对训练任务发送的样本调用请求,样本调用请求包括目标属性标签。
步骤S12,基于目标属性标签从第一索引表中查找第一目标索引表项。
这里,第一目标索引表项包括与所述目标属性标签对应的语义属性标签。
步骤S13,基于第一目标索引表项,确定目标标签索引。
步骤S14,获取与目标标签索引对应的目标样本。
步骤S15,向外部设备发送目标样本。
在上实施例中,通过样本服务管理平台响应样本调用请求向外部设备提供样本服务,能够实现跨组件调用样本,并且通过目标属性标签进行索引访问,可以准确并快速获取到目标样本,提高了样本的可获得性和易用性。
上述各步骤的具体实现方式将在下文中进行详细描述。
本申请实施例涉及的“样本”可以为多媒体资源以文本信息,例如图像信息、音频信息、视频信息以及各类文档信息等。在本申请实施例中,对样本的具体内容不做限制。
本申请实施例涉及的“外部设备”可以是用于模型训练的设备,例如人工智能(Artificial Intelligence,AI)中台 。该外部设备可以构建以神经网络、深度学习等人工智能技术为核心的AI算法模型,为用户提供自然语言处理、图像识别等技术上的支持。
本申请涉及的“样本调用请求”可以是外部设备针对不同训练任务所需样本发起的调用请求,可以为调用样本服务的请求。样本调用请求可以由外部设备向样本服务管理平台发送。
该样本调用请求可以是远程调用请求,如远程过程调用协(Remote
Procedure Call Protocol,RPC)、超文本传输协议(Hyper Text TransferProtocol,HTTP)请求等等。如此,在样本服务管理平台响应该样本调用请求后,外部设备可以如调用本地文件一样,调用位于远端的样本。
在一些实施例中,样本服务管理平台可以包括消息中间件。将样本调用请求发送给消息中间件,并且通过消息中间件返回请求结果。如此,样本服务管理平台有消息中间件作为缓冲站,可以接收多个外部设备的样本调用请求,可以实现样本服务管理平台的高可用性。
在本申请实施例中,样本调用请求包括目标属性标签,其中,目标属性标签可以是外部设备针对训练任务所需样本的属性标签,可以根据外部设备的训练任务确定。
可选地,该目标属性标签可以为语义属性标签,需要符合样本服务管理平台的接口规范。
例如,外部训练设备需要训练动物识别模型,外部设备向样本服务管理平台发送调用动物样本的请求,该请求的目标属性标签为动物。
这里,该目标属性标签可以属于多维属性标签,包括但不限于以下属性标签之一:目标域标签、时间域标签、空间域标签、主题域标签。
本申请实施例中,目标域标签可以为描述样本的目标类别、数量以及主特征等目标信息的标签。时间域标签可以为描述样本的标准时间、时间段等时间信息的标签。空间域标签可以为描述样本来源的地理位置、设备、角度、光照等空间信息的标签。主题域标签可以为描述样本内容的关键主题信息的标签,如状态标签、事件标签、以及行为标签等。
此外,该目标属性标签还可以包括扩展标签,例如年龄标签、性别标签等等。
需要说明的是,目标属性标签可以为语义属性标签,便于用户识别。
在步骤S11中,样本服务管理平台可以通过外部接口接收外部设备发送的样本调用请求,并解析样本服务调用请求,得到外部设备所需调用样本的目标属性标签,以便样本服务管理平台快速检索到目标样本。
本申请实施例涉及的“第一索引表”可以为样本服务管理平台对外统一规范的索引表。第一索引表可以由第一索引表项构建,其中,第一索引表项可以包括样本的多维属性标签。该多维属性标签可以包括目标域标签、时间域标签、空间域标签、主题域标签。第一索引表中的多维属性标签属于语义属性标签。该语义属性标签可以为用户可识别的自然语义信息。例如,车、北京、早上、追尾等。可选地,该多维属性标签还包括扩展标签。该扩展标签同样也属于语义属性标签。
此外,第一索引表还可以按照归类索引方法,根据语义属性标签,将第一索引表项进行分类管理。例如,在第一索引表中,标签为车的第一索引表项可以归为交通工具这一大类。如此,通过索引表管理样本标签,使得样本服务管理平台支持归类索引管理,便于完成样本的分级检索,达到按需获取感兴趣样本的目的。
本申请实施例涉及的“第一目标索引表项”可以包括与目标属性标签对应的语义属性标签。也就是说,第一目标索引表项可以为与目标属性标签匹配的第一索引表项。
在步骤S12中,样本服务管理平台根据目标属性标签从第一索引表中查找与目标属性标签匹配的语义属性标签,并根据上述语义属性标签确定出对应的第一目标索引表项。
在一些实施例中,为了将样本属性标签转换成符合外部接口规范的索引表,在步骤S12之前,该数据处理方法还包括:
根据样本的标签索引以及多维属性标签,建立样本对应的第二索引表;
基于转义表对所述第二索引表进行转义解析,得到第一索引表。
这里,多维属性标签可以包括目标域标签、时间域标签、空间域标签、主题域标签。第二索引表中多维属性标签分别属于数据属性标签和语义属性标签。可选地,目标域标签和主题域标签可以属于语义属性标签,时间域标签和空间域标签可以属于数据属性标签。
此外,多维属性标签还可以包括扩展标签,例如年龄标签、性别标签等等。
本申请实施例涉及的“第二索引表”可以为由样本的标签索引和样本的多维属性标签建立的内部统一规范的原始索引表。
需要说明的是,第二索引表中包括多个第二索引表项,其中,一个样本对应第二索引表中的一个第二索引表项。
第二索引表包括样本的标签索引以及目标域标签、时间域标签、空间域标签、主题域标签。第二索引表可以如表1所示:
表1 第二索引表
Figure 546292DEST_PATH_IMAGE002
本申请实施例涉及的“转义表”包括数据属性标签与语义属性标签的映射关系。该转义表可以预先存储在样本服务管理平台。
需要说明的是,也可以由用户输入,还可以根据转义算法模型生成。在本申请实施例中,样本服务管理平台获取转义表的方式很多,包括但不限于用户输入,以及根据转义算法模型生成。
在本申请实施例中,基于该转义表,样本服务管理平台可以将多维属性标签中的数据属性标签转义成语义属性标签。也就是,将第二索引表项中的数据属性标签根据转义表转义成语义属性标签,第二索引表项中的语义属性标签保留,从而基于转义后的语义属性标签以及保留的语义属性标签,生成与第二索引表项对应的第一索引表项。如此,样本服务管理平台基于转义表转义解析第二索引表中每个第二索引表项,得到与第二索引表对应的第一索引表。
在一个示例中,第一索引表项为“005;车;x:842453.1789,y:2623346.320;0800-1000;追尾”,样本服务管理平台基于转义表,将第一索引表项转义解析成第二索引表项,该第二索引表项为“车;北京;早上;追尾”。
在上述实施例中,样本服务管理平台根据样本的多维属性标签和标签索引,建立第二索引表项,有利于样本服务管理平台对样本进行管理以及内部快速查找样本。并且通过转义表将第二索引表转义解析成第一索引表,可以将样本的多维属性标签从内部标准转换成外部标准,有利于外部设备利用目标属性标分级检索样本。
为了提高样本的利用率,可以对样本进行多维属性进行挖掘。在一些实施例中,在根据样本的标签索引以及多维属性标签,建立样本对应的第二索引表之前,该数据处理方法还包括:
提取多个样本的多维属性信息;
基于每个所述样本的多维属性信息,生成与每个所述样本对应的多维属性标签;
关联存储每个所述样本的标签索引与多维属性标签。
这里,样本服务管理平台中的样本可以标注了多维属性信息。样本服务管理平台提取每个样本的多维属性信息,并根据每个样本的每种属性信息,生成与每种属性信息对应的属性标签,该属性标签即为样本的属性标签,从而基于样本的每种属性标签,可以得到样本的多维属性标签。
以及,样本服务管理平台为每个样本设置唯一一个标签索引,将每个样本的标签索引和多维属性标签进行关联,将关联后的数据存储在第二表项中。其中,每个样本的标签索引与多维属性标签一一对应。
在上述实施例中, 样本服务管理平台对样本进行了多维属性的挖掘,生成了多维属性标签,如此,体现了样本多样性价值,有利于样本在多个模型训练任务中的复用,减少了模型训练中样本的浪费,提高样本复用率,减轻了模型训练对样本的依赖。此外,样本服务管理平台将每个样本的标签索引与多维属性标签进行关联存储,有利于根据属性标签快速查找到对应的样本。
本申请实施例涉及的“标签索引”可以用于指示样本存储的位置。也就说样本服务管理平台根据标签索引可以查找到对应的样本。
在一些实施例中,多维属性信息可以包括但不限于目标域信息、时间域信息、空间域信息以及主题域信息。
在本申请实施例中,目标域信息可以为描述样本的目标类别、数量以及主特征等信息。时间域信息可以为描述样本的标准时间、时间段等信息。空间域信息可以为描述样本来源的地理位置、设备、角度、光照等信息。主题域信息可以为描述样本内容的关键主题信息,如状态信息、事件信息、以及行为信息等。
为了减轻样本服务管理平台的存储负荷,在一些实施例中,在所述提取多个样本的多维属性信息之前,该数据处理方法还包括:分布式存储多个样本。
这里,样本服务管理平台分布式存储多个样本,从而将样本分散在不同设备上的磁盘空间。如此,利用多台设备分担了存储负荷,提高了样本服务管理平台的可靠性、可用性以及存储效率。
可选地,样本服务管理平台通过MinIO服务将样本存储在不同设备的不同硬盘上,从而将不同硬盘组成一个对象存储服务,建立了样本分布式集群,以使样本从其它服务中抽离。并且硬盘分布在不同节点上,避免了单点故障。此外,由于分布式MinIO具有高可用性的特征以及横向库容能力,可以将样本集群无限扩容,增大样本存储量。
在步骤S13中,目标标签索引可以是目标样本的标签索引,可以根据第一目标索引表项确定。
这里,在第一索引表项包括样本的标签索引的情况下,样本服务管理平台可以直接根据第一目标索引表项确定目标标签索引。如此,可以快速查询到标签索引,提高获取样本的速度。
为了更全面查找到目标属性标签对应的目标标签索引,在一些实施例中,步骤S13可以执行为:
解析所述第一目标索引表项,得到第二目标索引表项;
基于所述第二目标索引表项,确定目标标签索引。
这里,第二目标索引表项属于第二索引表,且第一目标索引表项与第二目标索引表项对应。其中,第二目标索引表项包括与第一目标索引表项中的语义属性标签对应的数据属性标签。上述语义属性标签与目标属性标签对应。
具体地,样本服务管理平台解析第一目标索引表项,将目标属性标签对应的语义属性标签转义成目标属性标签对应数据属性标签,并根据该数据属性标签查找第二索引表,得到第二目标索引表项。
并且,由于第二索引表项包括样本的标签索引,因此,样本服务管理平台可以根据第二目标索引表项直接查找到目标样本对应的目标标签索引。
需要说明的是,不管第一索引表项是否包括样本的标签索引,样本服务管理平台均可以通过上述步骤得到目标标签索引。此外,上述转义方法很多,包括但不限于根据转义算法进行转义以及根据预设的转义表进行转义等。
在上述实施例,由于第二索引表项为样本的原始索引表项,因此,样本服务管理平台解析第一目标索引表项,将目标属性标签转义成数据属性标签,从而可以在从样本的原始索引表项查找目标属性标签对应的第二目标索引表项,进而可以查找到更全面的目标标签索引,避免了由于第一索引表项与第二索引表项存在转义误差,导致根据第一索引表查找到目标标签索引不全面的问题。
在一些实施例中,基于第二目标索引表项,确定目标标签索引,包括:将第二目标索引表项中的标签索引作为目标标签索引。
这里,由于第二目标索引表项为第二索引表中与目标属性表项匹配的第二索引表项,且第二索引表项包括标签索引。因此,样本服务管理平台可以直接将第二目标索引表项中的标签索引确认为目标标签索引。
由于样本服务管理平台预先存储了转义表,因此,为了提高获取第二目标索引表项的效率,在一些实施例中,解析所述第一目标索引表项,得到第二目标索引表项,可以具体执行为:
基于预设的转义表解析第一目标索引表项,得到第二目标索引表项。
这里,样本服务管理平台根据转义表解析第一目标索引表项,可以是样本服务管理平台根据转义表将第一目标索引表项中的语义属性标签转义成数据属性标签,从而根据数据属性标签查找到对应的第二目标索引表项。
在上述实施例中,由于转义表包括数据属性标签与语义属性标签的映射关系,因此,样本服务管理平台根据预设的转义表解析第一索引目标表项,可以快速得到第一目标表项转义后的数据属性标签,通过数据属性标签可以查找到第二目标索引表项。如此,可以提高获取第二目标索引的效率以及准确率。
在步骤S14中,目标样本可以是目标属性标签对应的样本。它与目标标签索引对应。
步骤S14具体可以执行为,样本服务管理平台可以根据目标标签索引查找到目标样本存储位置,从对应的存储位置读取目标样本,从而获取与目标标签索引对应的目标样本。
可选地,样本服务管理平台可以通过分布式存储服务读取目标样本,如通过MinIO服务读取目标样本。
在步骤S15中,样本服务管理平台在获取目标样本后,可以向发送样本调用请求的外部设备发送目标样本,以便外部设备获取目标样本进行模型训练任务。
可选地,样本服务管理平台可以通过外部接口向外部设备发送目标样本。
图2是本申请实施例提供的另一种数据处理方法的原理示意图。如图2所示,以下结合一个应用例,来对本实施例的实施过程进行举例说明。
样本存储方式采用MinIO服务挂在在不同设备的不同硬盘,采用RPC远程调用的方式访问样本服务管理平台。样本服务管理平台采用容器化(docker)的部署方式,并通过Kubernetes来管理。
在外部设备访问样本服务管理平台之前,样本服务管理平台对样本从多维度进行属性提取并标签化属性信息,得到样本的多维属性标签。如此,对样本的多维属性进行挖掘,提高了样本的复用率。
样本服务管理平台通过样本标签化服务建立原始索引表项(即第二索引表项),原始索引表项符合平台内部统一规范。原始索引表项包括样本的标签索引和多维属性标签。
样本服务管理平台根据预设的转义表,将原始索引表项转换成外部索引表项(即第一索引表项),该外部索引表项符合平台对外的统一规范,如此完成样本的归类管理,以便后续分级检索样本,达到按需获取感兴趣样本的目的。
如图2所示,外部设备采用引入消息中间件的RPC远程调用的方式访问样本服务管理平台。具体地,外部设备根据训练任务确定所需样本的目标属性标签,向消息中间件发送PRC远程调用请求(即样本调用请求),其中,PRC远程调用请求可以包括目标属性标签。并且通过消息中间件返回请求结果,如此,通过RPC远程调用可以使得外部设备像调用本地文件一样,读取远端的样本。
如图2所述,运行样本服务管理平台的容器中,运行样本读取、标签索引、转义解析以及接口服务等进程。
其中,接口服务用于接收消息中间的消息,并查找与目标属性标签对应的外部索引表项,以及发送与目标属性标签对应的目标样本。转义解析用于将与目标属性标签对应的外部索引表项转义成与目标属性标签对应的原始索引表项。标签索引用于根据原始索引表项中的标签索引查找目标样本所在的存储位置。样本读取用于通过MinIO服务从目标样本的存储位置读取样本。如此,通过样本读取、标签索引、转义解析以及接口服务,可以完成样本索引服务。
在一个示例中,首先,外部设备需要进行车辆识别的训练任务,确定目标属性标签为车,外部设备向样本服务管理平台发送包含目标属性标签的样本调用请求。样本服务管理平台接收并解析样本调用请求,确定外部设备需要调用属性标签为车的样本。
然后,样本服务管理平台查找属性标签为车的外部索引表项,并将查找的外部索引表项进行转义,得到对应的内部索引表项,根据内部索引表项中的标签索引查找并读取目标样本。
最后,样本服务管理平台向外部设备发送目标样本。
如此,通过访问样本服务管理平台可以使得外部设备读取到远端的样本,并且可以获取不同的训练任务所需的样本。此外,通过标签索引可以快速查找到目标样本,提高了获取样本的效率。
图3是本申请实施例提供的一种数据处理装置的结构示意图,如图3所示,该数据处理装置20应用于样本服务管理平台,可以包括:
接口模块21,用于接收外部设备针对训练任务发送的样本调用请求,所述样本调用请求包括目标属性标签;向所述外部设备发送目标样本;
样本服务模块22,用于基于所述目标属性标签从第一索引表中查找第一目标索引表项;所述第一目标索引表项包括与所述目标属性标签对应的语义属性标签;基于所述第一目标索引表项,确定目标标签索引;获取与所述目标标签索引对应的目标样本。
在一些实施例中,该样本服务模块22,具体用于解析所述第一目标索引表项,得到第二目标索引表项;所述第二目标索引表项包括与所述语义属性标签对应的数据属性标签,所述第二目标索引表项属于第一索引表;基于所述第二目标索引表项,确定目标标签索引。
在一些实施例中,该样本服务模块22,具体用于基于预设的转义表解析第一目标索引表项,得到第二目标索引表项;所述转义表包括所述数据属性标签与所述语义属性标签的映射关系;将所述第二目标索引表项中的标签索引作为目标标签索引
在一些实施例中,该装置20还包括:
样本管理模块,用于根据样本的标签索引以及多维属性标签,建立样本对应的第二索引表;基于转义表对所述第二索引表进行转义解析,得到第一索引表。
在一些实施例中,该样本管理模块,还用于提取多个样本的多维属性信息;所述多维属性信息包括目标域信息、时间域信息、空间域信息以及主题域信息;基于每个所述样本的多维属性信息,生成与每个所述样本对应的多维属性标签;关联存储每个所述样本的标签索引与多维属性标签。
在一些实施例中,样本管理模块,还用于在所述提取多个样本的多维属性信息之前,分布式存储所述多个样本。
图4是本申请实施例提供的一种样本服务管理平台的结构示意图,如图4所示,样本服务管理平台30包括本申请实施例中的任意一种数据处理装置20。
图5是本申请实施例提供的一种计算机设备的硬件结构示意图。如图5所示,在计算机设备40可以包括处理器41以及存储有计算机程序指令的存储器42。
具体地,上述处理器41可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器42可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器42可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器42可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器42可在综合网关容灾设备的内部或第一。在特定实施例中,存储器42是非易失性固态存储器。
存储器42可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请的一方面的方法所描述的操作。
处理器41通过读取并执行存储器42中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在一个示例中,计算机设备还可包括通信接口43和总线44。其中,如图5所示,处理器41、存储器42、通信接口43通过总线44连接并完成相互间的通信。
通信接口43,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线44包括硬件、软件或两者,将在计算机设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线44可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于执行本申请实施例中的方法,从而实现结合图1至图4描述的数据处理方法、装置和样本服务管理平台。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
此外,结合上述实施例中的数据处理方法,本申请实施例提供一种计算机程序产品,包括计算机程序或指令,计算机程序或指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或***。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的数据处理方法、装置、样本服务管理平台、计算机设备和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法, 其特征在于,所述方法包括:
接收外部设备针对训练任务发送的样本调用请求,所述样本调用请求包括目标属性标签;
基于所述目标属性标签从第一索引表中查找第一目标索引表项;所述第一目标索引表项包括与所述目标属性标签对应的语义属性标签;
基于所述第一目标索引表项,确定目标标签索引;
获取与所述目标标签索引对应的目标样本;
向所述外部设备发送所述目标样本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标索引表项,确定目标标签索引,包括:
解析所述第一目标索引表项,得到第二目标索引表项;所述第二目标索引表项包括与所述语义属性标签对应的数据属性标签,所述第二目标索引表项属于第二索引表;
基于所述第二目标索引表项,确定目标标签索引。
3.根据权利要求2所述的方法,其特征在于,所述解析所述第一目标索引表项,得到第二目标索引表项,包括:
基于预设的转义表解析第一目标索引表项,得到第二目标索引表项;所述转义表包括所述数据属性标签与所述语义属性标签的映射关系;
所述基于所述第二目标索引表项,确定目标标签索引,包括:
将所述第二目标索引表项中的标签索引作为目标标签索引。
4.根据权利要求1所述的方法,其特征在于,在基于所述目标属性标签从第一索引表中查找第一目标索引表项之前,所述方法还包括:
根据样本的标签索引以及多维属性标签,建立样本对应的第二索引表;
基于转义表对所述第二索引表进行转义解析,得到第一索引表。
5.根据权利要求4所述的方法,其特征在于,在所述根据样本的标签索引以及多维属性标签,建立样本对应的第二索引表之前,所述方法还包括:
提取多个样本的多维属性信息;所述多维属性信息包括目标域信息、时间域信息、空间域信息以及主题域信息;
基于每个所述样本的多维属性信息,生成与每个所述样本对应的多维属性标签;
关联存储每个所述样本的标签索引与多维属性标签。
6.根据权利要求5所述的方法,其特征在于,在所述提取多个样本的多维属性信息之前,所述方法还包括:分布式存储所述多个样本。
7.一种数据处理装置,其特征在于,所述装置包括:
接口模块,用于接收外部设备针对训练任务发送的样本调用请求,所述样本调用请求包括目标属性标签;向所述外部设备发送目标样本;
样本服务模块,用于基于所述目标属性标签从第一索引表中查找第一目标索引表项;所述第一目标索引表项包括与所述目标属性标签对应的语义属性标签;基于所述第一目标索引表项,确定目标标签索引;获取与所述目标标签索引对应的目标样本。
8.一种样本服务管理平台,其特征在于,所述样本服务管理平台包括如权利要求7所述的数据处理装置。
9.一种计算机设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任一项所述的数据处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任一项所述的数据处理方法。
CN202110878516.6A 2021-08-02 2021-08-02 数据处理方法及相关设备 Pending CN113342831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878516.6A CN113342831A (zh) 2021-08-02 2021-08-02 数据处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878516.6A CN113342831A (zh) 2021-08-02 2021-08-02 数据处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN113342831A true CN113342831A (zh) 2021-09-03

Family

ID=77480524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878516.6A Pending CN113342831A (zh) 2021-08-02 2021-08-02 数据处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN113342831A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063959A (ja) * 2010-09-15 2012-03-29 Ricoh Co Ltd 索引方法、検索方法、及びその記憶媒体
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN103927387A (zh) * 2014-04-30 2014-07-16 成都理想境界科技有限公司 图像检索***及其相关方法和装置
CN103942282A (zh) * 2014-04-02 2014-07-23 新浪网技术(中国)有限公司 一种样本数据获取方法、装置及***
CN109189959A (zh) * 2018-09-06 2019-01-11 腾讯科技(深圳)有限公司 一种构建图像数据库的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063959A (ja) * 2010-09-15 2012-03-29 Ricoh Co Ltd 索引方法、検索方法、及びその記憶媒体
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN103942282A (zh) * 2014-04-02 2014-07-23 新浪网技术(中国)有限公司 一种样本数据获取方法、装置及***
CN103927387A (zh) * 2014-04-30 2014-07-16 成都理想境界科技有限公司 图像检索***及其相关方法和装置
CN109189959A (zh) * 2018-09-06 2019-01-11 腾讯科技(深圳)有限公司 一种构建图像数据库的方法及装置

Similar Documents

Publication Publication Date Title
CN109033387B (zh) 一种融合多源数据的物联网搜索***、方法及存储介质
CN109460551B (zh) 签名信息提取方法及装置
CN105677615B (zh) 一种基于weka接口的分布式机器学习方法
US11055373B2 (en) Method and apparatus for generating information
US11036764B1 (en) Document classification filter for search queries
CN110007906B (zh) 脚本文件的处理方法、装置和服务器
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
US20200204688A1 (en) Picture book sharing method and apparatus and system using the same
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN110990057A (zh) 小程序子链信息的提取方法、装置、设备及介质
CN116467607B (zh) 信息匹配方法和存储介质
CN110489740B (zh) 语义解析方法及相关产品
CN113342831A (zh) 数据处理方法及相关设备
CN116545701A (zh) Http报文规则匹配方法、***、设备及介质
CN115879001A (zh) 一种智慧校园多媒体综合信息服务终端管理方法及***
CN115495489A (zh) 跨境物流订单轨迹查询方法、装置、终端设备和存储介质
CN114064905A (zh) 网络攻击检测方法、装置、终端设备、芯片及存储介质
CN113779473A (zh) 一种基于人工智能的互联网大数据处理方法及***
US10803115B2 (en) Image-based domain name system
CN113067878A (zh) 信息采集方法、装置、设备、介质及程序产品
CN112287104A (zh) 一种自然语言处理方法和装置
CN112256730A (zh) 信息检索方法、装置、电子设备及可读存储介质
CN210804423U (zh) 一种网站信息采集发布平台***
Xu et al. The study of content security for mobile internet
CN114827309B (zh) 一种设备指纹生成方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903

RJ01 Rejection of invention patent application after publication