CN118193577A - 数据处理方法和装置、电子设备、计算机可读存储介质 - Google Patents

数据处理方法和装置、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN118193577A
CN118193577A CN202410324580.3A CN202410324580A CN118193577A CN 118193577 A CN118193577 A CN 118193577A CN 202410324580 A CN202410324580 A CN 202410324580A CN 118193577 A CN118193577 A CN 118193577A
Authority
CN
China
Prior art keywords
data
analyzed
model
information
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410324580.3A
Other languages
English (en)
Inventor
贺斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202410324580.3A priority Critical patent/CN118193577A/zh
Publication of CN118193577A publication Critical patent/CN118193577A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了数据处理方法和装置、电子设备、计算机可读存储介质,涉及数据处理技术领域,尤其涉及数据库、搜索引擎、大数据等技术领域。具体实现方案为:接收数据库语句,在所述数据库语句存在符合预设语法的查询子语句的情况下,根据所述查询子语句获取数据载体信息以及模型信息;通过文件服务接口,根据所述数据载体信息获取待分析数据;通过模型服务接口,根据所述模型信息对应的数据处理模型对所述待分析数据进行处理,获取所述待分析数据的处理结果。

Description

数据处理方法和装置、电子设备、计算机可读存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及数据库、搜索引擎、大数据等技术领域。具体而言,本公开涉及一种数据处理方法和装置、电子设备、计算机可读存储介质。
背景技术
随着技术(如大数据技术等)的发展,需要存储和处理的数据的数量越来越多,人们也对可以对大量数据进行存储的数据库越来越依赖。数据库技术也越来越成为成为人们关注的重点。
发明内容
本公开提供了一种数据处理方法和装置、电子设备、计算机可读存储介质。
根据本公开的第一方面,提供了一种数据处理方法,该方法包括:
接收数据库语句,在所述数据库语句存在符合预设语法的查询子语句的情况下,根据所述查询子语句获取数据载体信息以及模型信息;
通过文件服务接口,根据所述数据载体信息获取待分析数据;
通过模型服务接口,根据所述模型信息对应的数据处理模型对所述待分析数据进行处理,获取所述待分析数据的处理结果。
根据本公开的第二方面,提供了一种数据处理装置,该装置包括:
语句分析模块,用于接收数据库语句,在所述数据库语句存在符合预设语法的查询子语句的情况下,根据所述查询子语句获取数据载体信息以及模型信息;
数据获取模块,用于通过文件服务接口,根据所述数据载体信息获取待分析数据;
数据处理模块,用于通过模型服务接口,根据所述模型信息对应的数据处理模型对所述待分析数据进行处理,获取所述待分析数据的处理结果。
根据本公开的第三方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与上述至少一个处理器通信连接的存储器;其中,
存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述数据处理方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行上述数据处理方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述数据处理方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种数据处理方法的流程示意图;
图2是本公开实施例提供的另一种数据处理方法的部分步骤的流程示意图;
图3是本公开实施例提供的另一种数据处理方法的部分步骤的流程示意图;
图4是本公开实施例提供的另一种数据处理方法的部分步骤的流程示意图;
图5是本公开实施例提供的另一种数据处理方法的一个具体实施例的过程示意图;
图6是本公开实施例提供的一种数据处理装置的结构示意图;
图7是用来实现本公开实施例的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在一些相关技术中,搜索引擎采用SQL(Structured Query Language ServerDatabase,结构化查询语言数据库)存取数据以及查询、更新和管理数据库。
现有的搜索引擎,尤其是分布式SQL搜索引擎,可以对如某张数据表或多张数据表中的结构化数据。但无法对如图像、视频、音频等非机构化数据进行分析。
本公开实施例提供的数据处理方法和装置、电子设备、计算机可读存储介质,旨在解决现有技术的如上技术问题中的至少一个。
本公开实施例提供的数据处理方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行所述方法。
图1示出了本公开实施例提供的数据处理方法的流程示意图。如图1中所示,本公开实施例提供的数据处理方法可以包括步骤S110、步骤S120、步骤S130。
在步骤S110中,接收数据库语句,在数据库语句存在符合预设语法的查询子语句的情况下,根据查询子语句获取数据载体信息以及模型信息;
在步骤S120中,通过文件服务接口,根据数据载体信息获取待分析数据;
在步骤S130中,通过模型服务接口,根据模型信息对应的数据处理模型对待分析数据进行处理,获取待分析数据的处理结果。
举例来说,本公开实施例提供的数据处理方法具体可以应用于搜索引擎。搜索引擎用于根据用户需求与一定算法,运用特定策略从数据库中检索出指定信息并反馈给用户。
在一些可能的实现方式中,在步骤S110中,数据库语句可以是预先约定的、搜索引擎可以理解的、为搜索引擎提供用户需求的语句。数据库语句可以包括多个子语句,不同的子语句对应搜索引擎需要执行的不同的操作,根据数据库语句中子语句的顺序可以确定子语句对应的操作的执行顺序。
在一些可能的实现方式中,可以使用逻辑判断来确定数据库语句包括的多个子语句中是否存在符合预设语法的查询子语句。
其中,语法是预先规定的信息组合方式,可以通过确定语句中是否含有特定字符以及特定字符的排列方式是否符合规定来确定语句是否符合该语法,并在语句符合语法的情况下,根据位于特定字符之间的其他字符获取信息。
本公开实施例中的预设语法可以是预先规定的、用于获取数据与模型,并使用获取的模型对获取的数据进行处理的语句语法,换句话说,符合预设语法的子语句是用于根据该子语句中提供的信息获取数据与模型并使用获取的模型对获取的数据进行处理。
在一些可能的实现方式中,本公开实施例中的预设语法可以是数据载体信息以及模型信息的组合方式,在获取符合预设语法的查询子语句之后,可以通过预设语法中规定的特殊字符来根据特殊字符之间的其他字符来确定数据载体信息以及模型信息。
其中,数据载体信息可以是标识待分析数据的信息;模型信息可以包括标识用于处理待分析数据的数据处理模型的标识。
在一些可能的实现方式中,本公开实施例对待分析数据的数据类型并不作限定,待分析数据可以是结构化数据,也可以是非结构化数据,如图片、视频、音频等。
在一些可能的实现方式中,数据载体信息可以包括待分析数据的标识,也可以包括待分析数据的存储地址的标识。
其中,待分析数据的存储地址具体可以是HDFS(Hadoop分布式文件***)地址,也可以是BOS(应用程序的框架或容器)地址。
在一些可能的实现方式中,在步骤S120中,在数据载体信息是待分析数据的标识的情况下,可以通过文件服务接口将数据载体信息发送至文件***,以使文件***根据数据载体信息在文件***的多个文件中进行搜索,获取待分析数据。
在一些可能的实现方式中,在数据载体信息是待分析数据的存储地址的标识的情况下,可以通过文件服务接口将数据载体信息发送至文件***,以使文件***从待分析数据的存储地址获取待分析数据。
在一些可能的实现方式中,在步骤S130中,通过模型接口将模型信息发送至模型服务器,以使模型服务器根据模型信息获取数据处理模型,并使用数据处理模型对待分析数据进行处理,获取待分析数据的处理结果。
在一些可能的实现方式中,在获取待分析数据的处理结果之后,将待分析数据作为其他子语句的信息,并根据子语句对应的操作的执行顺序继续执行操作,直至数据库语句对应的所有操作执行完毕,从数据库中检索出指定信息并反馈给用户。
在本公开实施例提供的数据处理方法中,利用数据处理模型对待分析数据进行处理,使得无论待分析数据是结构化数据还是非结构化数据的情况下,都可以对待分析数据进行处理。同时,由于通过模型服务接口实现数据处理模型对待分析数据的处理,减少了对执行本公开实施例提供的数据处理方法的执行主体的环境要求,可以使用各种各样的数据处理模型对待分析数据进行处理,数据处理模型越丰富,能够分析的待分析数据就越分析,本公开实施例提供的数据处理方法的应用场景就越丰富。
下面对本公开实施例提供的数据处理方法进行具体介绍。
如上所述,在一些可能的实现方式中,数据载体信息可以包括待分析数据的存储地址的标识。
图2示出了在数据在载体信息包括待分析数据的存储地址的标识的情况下,通过文件服务接口,根据数据载体信息获取待分析数据的一种实现方式的流程示意图,如图2所示,
如上所述,在一些可能的实现方式中,通过文件服务接口,根据数据载体信息获取待分析数据可以包括步骤S210、步骤S220、步骤S230.
在步骤S210中,根据数据载体信息,获取待分析数据对应的数据具体信息;
在步骤S220中,通过文件服务接口调用文件***,以使文件***从存储地址获取待分析数据并返回待分析数据;
在步骤S230中,接收文件***返回的待分析数据。
在一些可能的实现方式中,在步骤S210中,数据具体信息可以包括待分析数据的存储地址。
在一些可能的实现方式中,根据数据载体信息获取待分析数据对应的数据具体信息可以是根据待分析数据的存储地址的标识确定待分析数据的存储地址。
在一些可能的实现方式中,在步骤S220中,通过文件服务接口将待分析数据的存储地址发送至文件***,以使文件***从待分析数据的存储地址下载待分析数据,并通过文件服务接口将待分析数据返回至本公开实施例的数据处理方法的执行主体。
在一些可能的实现方式中,在步骤S230中,本公开实施例的数据处理方法的执行主体通过文件服务接口接收文件***返回的待分析数据。
通过文件***来获取待分析文件可以减少文件存储对执行本公开实施例提供的数据处理方法的执行主体的存储空间的占用。
在一些可能的实现方式中,数据载体信息具体可以是数据信息表标识。也就是说,待分析数据的存储地址可以在数据信息表中进行展示。数据载体信息就是该数据信息表的标识。
在一些可能的实现方式中,可以首先根据数据信息表标识获取数据信息表,并从数据信息表中获取待分析数据的存储地址。
图3示出了根据数据信息表标识获取数据信息表,并从数据信息表中获取待分析数据的存储地址的一种实现方式的流程示意图,如图3所示,根据数据信息表标识获取数据信息表,并从数据信息表中获取待分析数据的存储地址可以包括步骤S310、步骤S320。
在步骤S310中,根据数据信息表标识,通过元数据管理服务器的接口从元数据管理服务器获取数据信息表标识对应的数据信息表;
在步骤S320中,分析数据信息表标识对应的数据信息表获取待分析数据对应的数据具体信息。
在一些可能的实现方式中,在步骤S310中,根据数据信息表标识,通过元数据管理服务器的接口从元数据管理服务器获取数据信息表可以是通过元数据管理服务器的接口将数据信息表标识发送至元数据管理服务器,以使元数据管理服务器可以根据数据信息表标识来获取对应的数据信息表。
其中,元数据管理服务器预先存储多个数据信息表,每个数据信息表包括该数据信息表对应的数据的数据具体信息。
在一些可能的实现方式中,数据具体信息还可以包括除待分析数据的存储地址外的其他信息,如数据尺寸、数据类型、数据名称等信息,这些信息也都可以在数据信息表中进行展示。
下表为一些实现方式中,数据信息表可以包括的字段以及对对应字段解释。
字段名 描述
Path 数据在文件***的存储地址
Pixel 数据预处理尺寸
Type 数据类型
Name 数据名
Language 数据语言
Size 数据大小
Create_time 数据创建时间
Creator 数据创建人
其中,数据类型可以是数据的具体类型,如图片、视频、音频等。语句的语言,即数据类型对应的语言,即图片中文字语言或视频、音频中语言对应的语言。
在一些可能的实现方式中,在步骤S320中,在获取数据信息表后通过对数据信息表对应字段的字段值的读取来获取待分析数据的数据具体信息,如待分析数据的存储地址。
在一些可能的实现方式中,还可以获取数据预处理尺寸。数据预处理尺寸是对数据预处理的尺寸要求,即通过对待分析数据进行预处理之后,希望待分析数据可以达到的预处理尺寸。
在一些可能的实现方式中,在待分析数据为图片或视频的情况下,数据预处理尺寸可以是图像大小;在待分析数据为音频或视频的情况下,数据预处理尺寸可以是音频长度。
在一些可能的实现方式中,由于模型一般对处理数据的尺寸有要求,即模型只能处理特定尺寸的数据,因此在获取待分析数据之后,可以根据数据预处理尺寸,将待分析数据裁剪至尺寸为数据预处理尺寸,以之后的步骤中数据处理模型对待分析数据进行处理。
如上所述,在一些可能的实现方式中,可以通过模型接口来获取待分析数据的处理结果。
图4示出了通过模型接口来获取待分析数据的处理结果的一种实现方式的流程示意图,如图4所示,通过模型接口来获取待分析数据的处理结果可以包括步骤S410、步骤S420。
在步骤S410中,通过模型服务接口,将待分析数据以及模型信息发送至模型服务器,以使模型服务器根据模型信息对应的数据处理模型对待分析数据进行处理,获取并返回待分析数据的处理结果;
在步骤S420中,接收模型服务器返回的待分析数据的处理结果;
其中,模型服务器存储多个数据处理模型,每个数据处理模型用于对不同类型的数据进行数据处理。
在一些可能的实现方式中,在步骤S410中,将待分析数据以及模型信息通过模型服务接口发送至模型服务器,以使模型服务器在接收到模型信息后,根据模型信息获取数据处理模型,并使用数据处理模型对待分析数据进行处理,获取待分析数据的处理结果。
其中,模型服务接口即模型服务器的接口;模型服务器预先存储多个数据处理模型,每个数据处理模型用于对不同类型,不同大小的数据进行数据处理。
本公开实施例对模型服务器存储的模型类型并不作限制,基于深度学习、机器学习以及其他相关技术实现的模型都在本公开实施例的保护范围。
需要强调的是,发送至模型服务器的待分析数据是经过预处理的待分析数据。
在一些可能的实现方式中,在步骤S420中,在获取待分析数据的处理结果之后,模型服务器通过模型服务接口将待分析数据的处理结果返回至执行本公开实施例提供的数据处理方法的执行主体,执行主体接收模型服务器返回的待分析数据的处理结果,并进行进一步处理。
通过将数据处理模型存储在模型服务器,并使用模型服务器执行对待分析数据进行数据处理,可以减少对执行本公开实施例提供的数据处理方法的执行主体的计算能力的要求,不增加执行本公开实施例提供的数据处理方法的执行主体的计算负担。
如上所述,在一些可能的实现方式中,本公开实施例提供的数据处理方法可以用于分布式搜索引擎。
下面以一个应用于分布式搜索引擎Trino的实施例对本公开实施例提供的数据处理方法进行具体介绍。
待分析数据可以是非结构化数据,即图片、视频、音频等。使用的数据库语句可以是SQL语句,可以假定查询子语句对应的预设语法可以是ANALYZE[catalog_name].[db_name].table_name ON MODEL model_name,其中,[catalog_name].[db_name].table_name可以是数据信息表标识,model_name可以是模型信息,即处理待分析数据的数据处理模型的标识。数据信息表包括的字段以及字段的解释描述如说明书中表所述,在此不再赘述。
Trino将数据信息表标识通过Metadata(元数据管理服务)的接口发送至Metadata,Metadata根据数据信息表标识获取对应的数据信息表,并通过Metadata的接口发送至Trino。
Trino通过数据信息表中的Path字段提供的信息,通过文件服务接口从文件***下载对应的待分析数据,通过Pixel字段进行数据预处理操作,使待分析数据数据的格式满足模型要求。
Trino通过ModelService的模型服务接口将模型信息发送至ModelService,ModelService管理多个模型,根据模型信息获取数据处理模型,并使用数据处理模型对待分析数据进行分析,获取待分析数据的处理结果,并通过模型服务接口返回至Trino。
同时图像分析也是由其负责,Trino通过调用模型管理服务提供的接口,将数据发送到模型管理服务,后者将处理后的结果返回。如果是图像识别分析,则返回对应的类别。
图5示出了一个应用于分布式搜索引擎Trino的具体实施例的过程示意图,如图5所示,本公开实施例提供的数据处理方法可以应用于车辆类型分析。
Trino接收SQL语句“select a.name,a.category from(analyze car on modelcar)as a where a.category=‘truck’”,即查询car表中类型与truck的车辆的名称,其中,analyze car on model car为一个查询子语句,Trino执行分析analyze car on modelcar,请求Metadata获取到表car中待分析数据对应的具体数据信息。
获取到具体数据信息后,Trino到文件***下载待分析数据,文件***分会待分析数据,Trino获取到待分析数据后,请求ModelService的接口,利用指定的CAR模型分析数据,后等待ModelService返回分析结果,Trino获取分析结果,并继续执行SQL语句的其他语句。
如上所述,通过本公开实施例提供的数据处理方法,为搜索引擎,如Trino引入了新的数据分析能力,让其可以分析非结构化数据,以往可能需要先在其他平台进行数据处理后,再将处理后的数据利用Trino分析,本发明可使得整个链路都在Trino执行,即非结构数据分析后的结果,可以直接在作为Trino数据分析的中间结果继续进行分析。
同时,通过本公开实施例提供的数据处理方法将搜索引擎,如Trino更好的与人工智能紧紧结合,使得引擎更加智能,与模型管理服务打通,接入各式各样模型,模型越丰富,能分析的数据就越丰富,应用场景就越丰富。
基于与图1中所示的方法相同的原理,图6示出了本公开实施例提供的一种数据处理装置的结构示意图,如图6所示,该数据处理装置60可以包括:
语句分析模块610,用于接收数据库语句,在数据库语句存在符合预设语法的查询子语句的情况下,根据查询子语句获取数据载体信息以及模型信息;
数据获取模块620,用于通过文件服务接口,根据数据载体信息获取待分析数据;
数据处理模块630,用于通过模型服务接口,根据模型信息对应的数据处理模型对待分析数据进行处理,获取待分析数据的处理结果。
在本公开实施例提供的数据处理装置中,利用数据处理模型对待分析数据进行处理,使得无论待分析数据是结构化数据还是非结构化数据的情况下,都可以对待分析数据进行处理。同时,由于通过模型服务接口实现数据处理模型对待分析数据的处理,减少了对数据处理装置的环境要求,可以使用各种各样的数据处理模型对待分析数据进行处理,数据处理模型越丰富,能够分析的待分析数据就越分析,本公开实施例提供的数据处理方法的应用场景就越丰富。
在一些可能的实现方式中,数据获取模块620包括:元数据单元,用于根据数据载体信息,获取待分析数据对应的数据具体信息;数据具体信息包括待分析数据的存储地址;文件***单元,用于通过文件服务接口调用文件***,以使文件***从存储地址获取待分析数据并返回待分析数据;通信单元,用于接收文件***返回的待分析数据。
在一些可能的实现方式中,数据载体信息包括数据信息表标识;元数据单元还用于:根据数据信息表标识,通过元数据管理服务器的接口从元数据管理服务器获取数据信息表标识对应的数据信息表;元数据管理服务器预先存储多个数据信息表,每个数据信息表包括该数据信息表对应的数据的数据具体信息;分析数据信息表标识对应的数据信息表获取待分析数据对应的数据具体信息。
在一些可能的实现方式中,数据具体信息还包括数据预处理尺寸;数据处理装置60还包括:预处理模块,用于根据数据预处理尺寸,将待分析数据裁剪至尺寸为数据预处理尺寸。
在一些可能的实现方式中,数据处理模块630包括:模型服务单元,用于通过模型服务接口,将待分析数据以及模型信息发送至模型服务器,以使模型服务器根据模型信息对应的数据处理模型对待分析数据进行处理,获取并返回待分析数据的处理结果;通信单元,用于接收模型服务器返回的待分析数据的处理结果;其中,模型服务器存储多个数据处理模型,每个数据处理模型用于对不同类型的数据进行数据处理。
在一些可能的实现方式中,数据载体信息为非结构化数据的数据载体信息;待分析数据为非结构化数据。
在一些可能的实现方式中,装置安装于分布式查询引擎。
在一些可能的实现方式中,数据库语句为结构化查询语言数据库语句。
可以理解的是,本公开实施例中的数据处理装置的上述各模块具有实现图1中所示的实施例中的数据处理方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述数据处理装置的各模块的功能描述具体可以参见图1中所示实施例中的数据处理方法的对应描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例提供的数据处理方法。
该电子设备与现有技术相比,利用数据处理模型对待分析数据进行处理,使得无论待分析数据是结构化数据还是非结构化数据的情况下,都可以对待分析数据进行处理。同时,由于通过模型服务接口实现数据处理模型对待分析数据的处理,减少了对电子设备的环境要求,可以使用各种各样的数据处理模型对待分析数据进行处理,数据处理模型越丰富,能够分析的待分析数据就越分析,本公开实施例提供的数据处理方法的应用场景就越丰富。
该可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例提供的数据处理方法。
该可读存储介质与现有技术相比,利用数据处理模型对待分析数据进行处理,使得无论待分析数据是结构化数据还是非结构化数据的情况下,都可以对待分析数据进行处理。同时,由于通过模型服务接口实现数据处理模型对待分析数据的处理,减少了对可读存储介质的环境要求,可以使用各种各样的数据处理模型对待分析数据进行处理,数据处理模型越丰富,能够分析的待分析数据就越分析,本公开实施例提供的数据处理方法的应用场景就越丰富。
该计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例提供的数据处理方法。
该计算机程序产品与现有技术相比,利用数据处理模型对待分析数据进行处理,使得无论待分析数据是结构化数据还是非结构化数据的情况下,都可以对待分析数据进行处理。同时,由于通过模型服务接口实现数据处理模型对待分析数据的处理,减少了对计算机程序产品的环境要求,可以使用各种各样的数据处理模型对待分析数据进行处理,数据处理模型越丰富,能够分析的待分析数据就越分析,本公开实施例提供的数据处理方法的应用场景就越丰富。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种数据处理方法,包括:
接收数据库语句,在所述数据库语句存在符合预设语法的查询子语句的情况下,根据所述查询子语句获取数据载体信息以及模型信息;
通过文件服务接口,根据所述数据载体信息获取待分析数据;
通过模型服务接口,根据所述模型信息对应的数据处理模型对所述待分析数据进行处理,获取所述待分析数据的处理结果。
2.根据权利要求1所述的方法,其中,所述通过文件服务接口,根据所述数据载体信息获取待分析数据,包括:
根据所述数据载体信息,获取所述待分析数据对应的数据具体信息;所述数据具体信息包括所述待分析数据的存储地址;
通过所述文件服务接口调用文件***,以使所述文件***从所述存储地址获取所述待分析数据并返回所述待分析数据;
接收所述文件***返回的所述待分析数据。
3.根据权利要求2所述的方法,其中,所述数据载体信息包括数据信息表标识;
所述根据所述数据载体信息,获取所述待分析数据对应的数据体信息包括:
根据所述数据信息表标识,通过元数据管理服务器的接口从所述元数据管理服务器获取所述数据信息表标识对应的数据信息表;所述元数据管理服务器预先存储多个数据信息表,每个所述数据信息表包括该数据信息表对应的数据的数据具体信息;
分析所述数据信息表标识对应的数据信息表获取所述待分析数据对应的数据具体信息。
4.根据权利要求2所述的方法,其中,所述数据具体信息还包括数据预处理尺寸;
所述通过文件服务接口,根据所述数据载体信息获取待分析数据之后,还包括:
根据所述数据预处理尺寸,将所述待分析数据裁剪至尺寸为所述数据预处理尺寸。
5.根据权利要求1所述的方法,其中,所述通过模型服务接口,根据所述模型信息对应的数据处理模型对所述待分析数据进行处理,获取所述待分析数据的处理结果,包括:
通过所述模型服务接口,将所述待分析数据以及所述模型信息发送至所述模型服务器,以使所述模型服务器根据所述模型信息对应的数据处理模型对所述待分析数据进行处理,获取并返回所述待分析数据的处理结果;
接收所述模型服务器返回的所述待分析数据的处理结果;
其中,所述模型服务器存储多个数据处理模型,每个所述数据处理模型用于对不同类型的数据进行数据处理。
6.根据权利要求1所述的方法,其中,所述数据载体信息为非结构化数据的数据载体信息;所述待分析数据为非结构化数据。
7.根据权利要求1所述的方法,其中,所述方法用于分布式搜索引擎。
8.根据权利要求7所述的方法,其中,所述数据库语句为结构化查询语言数据库语句。
9.一种数据处理装置,包括:
语句分析模块,用于接收数据库语句,在所述数据库语句存在符合预设语法的查询子语句的情况下,根据所述查询子语句获取数据载体信息以及模型信息;
数据获取模块,用于通过文件服务接口,根据所述数据载体信息获取待分析数据;
数据处理模块,用于通过模型服务接口,根据所述模型信息对应的数据处理模型对所述待分析数据进行处理,获取所述待分析数据的处理结果。
10.根据权利要求9所述的装置,其中,所述数据获取模块包括:
元数据单元,用于根据所述数据载体信息,获取所述待分析数据对应的数据具体信息;所述数据具体信息包括所述待分析数据的存储地址;
文件***单元,用于通过所述文件服务接口调用文件***,以使所述文件***从所述存储地址获取所述待分析数据并返回所述待分析数据;
通信单元,用于接收所述文件***返回的所述待分析数据。
11.根据权利要求10所述的装置,其中,所述数据载体信息包括数据信息表标识;
所述元数据单元还用于:根据所述数据信息表标识,通过元数据管理服务器的接口从所述元数据管理服务器获取所述数据信息表标识对应的数据信息表;所述元数据管理服务器预先存储多个数据信息表,每个所述数据信息表包括该数据信息表对应的数据的数据具体信息;分析所述数据信息表标识对应的数据信息表获取所述待分析数据对应的数据具体信息。
12.根据权利要求10所述的装置,其中,所述数据具体信息还包括数据预处理尺寸;
所述数据处理装置还包括:预处理模块,用于根据所述数据预处理尺寸,将所述待分析数据裁剪至尺寸为所述数据预处理尺寸。
13.根据权利要求9所述的装置,其中,所述数据处理模块包括:
模型服务单元,用于通过所述模型服务接口,将所述待分析数据以及所述模型信息发送至所述模型服务器,以使所述模型服务器根据所述模型信息对应的数据处理模型对所述待分析数据进行处理,获取并返回所述待分析数据的处理结果;
通信单元,用于接收所述模型服务器返回的所述待分析数据的处理结果;
其中,所述模型服务器存储多个数据处理模型,每个所述数据处理模型用于对不同类型的数据进行数据处理。
14.根据权利要求9所述的装置,其中,所述数据载体信息为非结构化数据的数据载体信息;所述待分析数据为非结构化数据。
15.根据权利要求9所述的装置,其中,所述装置安装于分布式查询引擎。
16.根据权利要求15所述的装置,其中,所述数据库语句为结构化查询语言数据库语句。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202410324580.3A 2024-03-20 2024-03-20 数据处理方法和装置、电子设备、计算机可读存储介质 Pending CN118193577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410324580.3A CN118193577A (zh) 2024-03-20 2024-03-20 数据处理方法和装置、电子设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410324580.3A CN118193577A (zh) 2024-03-20 2024-03-20 数据处理方法和装置、电子设备、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN118193577A true CN118193577A (zh) 2024-06-14

Family

ID=91406510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410324580.3A Pending CN118193577A (zh) 2024-03-20 2024-03-20 数据处理方法和装置、电子设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN118193577A (zh)

Similar Documents

Publication Publication Date Title
CN114549874B (zh) 多目标图文匹配模型的训练方法、图文检索方法及装置
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
CN117076719B (zh) 一种基于大语言模型的数据库联合查询方法、装置和设备
CN114610845B (zh) 基于多***的智能问答方法、装置和设备
CN114428674A (zh) 任务调度方法、装置、设备以及存储介质
CN116894078A (zh) 一种信息交互方法、装置、电子设备及介质
CN115481227A (zh) 人机交互对话方法、装置以及设备
CN113609100B (zh) 数据存储方法、数据查询方法、装置及电子设备
EP3961433A2 (en) Data annotation method and apparatus, electronic device and storage medium
KR102205686B1 (ko) 후보 문자 순위화 방법 및 장치와 문자 입력 방법 및 장치
CN108959294B (zh) 一种访问搜索引擎的方法和装置
CN117171296A (zh) 信息获取方法、装置和电子设备
CN116597443A (zh) 素材标签处理方法、装置、电子设备及介质
CN113239054B (zh) 信息生成方法及相关装置
CN118193577A (zh) 数据处理方法和装置、电子设备、计算机可读存储介质
CN112130862B (zh) 包文件生成方法、装置、设备和计算机可读存储介质
CN114880498A (zh) 事件信息展示方法及装置、设备和介质
CN110471708B (zh) 基于可重用组件的配置项获取的方法及装置
CN113360590A (zh) 兴趣点信息的更新方法、装置、电子设备及存储介质
CN113835893B (zh) 数据处理的方法、装置、设备、存储介质及程序产品
CN113360407B (zh) 函数的定位方法、装置、电子设备及可读存储介质
CN116340639B (zh) 新闻召回方法、装置、设备及存储介质
CN115495688B (zh) 一种业务办理智能切换方法及***
CN114281981B (zh) 新闻简报的生成方法、装置和电子设备
CN115203428B (zh) 一种知识图谱构建方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination