CN114860484A

CN114860484A - 数据处理方法、存储介质和计算机终端

Info

Publication number: CN114860484A
Application number: CN202210301431.6A
Authority: CN
Inventors: 胡飞虎; 陶彬贤
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-08-05

Abstract

本发明公开了一种数据处理方法、存储介质和计算机终端。其中，该方法包括：接收对第一源数据的检索指令；基于检索指令通过目标日志空间获取第一源数据的目标索引；基于目标索引从源数据库中调取第一源数据。本发明解决了相关技术中通过日志对源数据进行问题排查的效率较低的技术问题。

Description

数据处理方法、存储介质和计算机终端

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法、存储介质和计算机终端。

背景技术

目前，软件的开发人员，日常很重要的一部分工作是处理线上突发的问题，一般处理流程为开发人员通过监测或用户反馈发现线上应用程序出现问题，然后开发人员登录机器或者日志***排查对应的日志数据，根据日志数据分析定位一个大致的范围，然后打开本地源代码找到该范围对应的源码，结合源码分析最终问题发生的原因，并加以处理，这个过程需要反复多次的从日志到源码之间进行切换，导致问题排查的效率较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法、存储介质和计算机终端，以至少解决相关技术中通过日志对源数据进行问题排查的效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：接收对第一源数据的检索指令；基于检索指令通过目标日志空间获取第一源数据的目标索引；基于目标索引从源数据库中调取第一源数据。

根据本发明实施例的另一个方面，还提供了一种数据处理方法，包括：云服务器接收对第一源数据的检索指令；云服务器基于检索指令通过目标日志空间获取第一源数据的目标索引；云服务器基于目标索引从源数据库中调取第一源数据。

根据本发明实施例的另一个方面，还提供了一种数据处理装置，包括：接收模块，用于接收对第一源数据的检索指令；获取模块，用于基于检索指令通过目标日志空间获取第一源数据的目标索引；调取模块，用于基于目标索引从源数据库中调取第一源数据。

根据本发明实施例的另一个方面，还提供了一种数据处理装置，包括：接收模块，用于通过云服务器接收对第一源数据的检索指令；获取模块，用于通过云服务器基于检索指令通过目标日志空间获取第一源数据的目标索引；调取模块，用于基于目标索引从源数据库中调取第一源数据。

根据本发明实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的数据处理方法。

根据本发明实施例的另一个方面，还提供了一种计算机终端，包括：处理器和存储器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的数据处理方法。

在本发明实施例中，首先，接收对第一源数据的检索指令；基于检索指令通过目标日志空间获取第一源数据的目标索引；基于目标索引从源数据库中调取第一源数据，实现了提高对源数据库中源数据的排查效率。容易注意到的是，在接收到对第一源数据的检索指令后，是直接从目标日志空间获取到该第一源数据的目标索引，可以根据该目标索引精确定位到源数据中的第一源数据并进行调取，不需要用户来回切换日志空间和源数据库，从可以提高研发或运维人员排查应用程序的故障效率，在较短的时间内做出正确的处理，从而降低故障对用户的影响，进而解决了相关技术中通过日志对源数据进行问题排查的效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例的一种数据处理方法的流程图；

图3是根据本发明实施例的一种对目标词过滤的流程图；

图4是根据本发明实施例的一种对第一源数据进行拆分的流程图；

图5是根据本发明实施例的一种代码托管***和日志***的结构示意图；

图6是根据本发明实施例的另一种数据处理方法的流程图；

图7是根据本发明实施例的一种数据处理装置的示意图；

图8是根据本发明实施例的另一种数据处理装置的示意图；

图9是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

代码托管平台：是为编程开发人员提供代码数据存储、历史版本管控、代码评审等主要研发活动和服务的平台。代码托管平台分为本地安装版本和云产品。

日志服务：是一种在线收集应用程序运行过程中产生日志数据的服务，它解决海量数据收集、存储、以及快速查询与分析的工具。

源码：是指程序员开发的源代码数据。

目前线上问题定位的方案都是基于在线日志数据的。大致分为两种类型的日志，第一种是详细日志数据，开发人员自定义输出内容；第二种是链路跟踪日志，是按用户请求链路将日志进行串联；无论是哪一种都难以直接通过日志数据直接一键关联到具体产生问题的源代码，以便对应用程序进行快速分析与问题排查。它们需要频繁在日志***和源代码***中来回切换，且要提前将代码下载到本地才能进行排查，效率低下，过程体验差。

为了提升研发与运维人员在线排查代码问题的效率，本申请提供了一种数据处理方法。

实施例1

根据本发明实施例，还提供了一种数据处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的数据处理方法。图2是根据本发明实施例一的数据处理方法的流程图。

步骤S202，接收对第一源数据的检索指令。

上述的第一源数据可以为存储在源数据库中的数据，其中，第一源数据可以为代码类型的数据，第一源数据还可以中文类型的数据，第一源数据还可以为数字类型的数据，第一源数据的类型不做任何限定。

上述的检索指令可以是根据目标数据生成的检索指令，其中，目标数据可以为第一源数据的部分数据，当目标数据出现问题时，可以根据目标数据生成检索指令，以便根据该检索指令可以调取到该目标数据对应的完整数据，也即上述的第一源数据，以便通过对第一源数据进行问题排查来解决目标数据出现的问题。其中，目标数据可目标代码。

在一种可选的实施例中，第一源数据可以为需要调取出来检查是否出现故障的数据，在第一源数据的代码片段或者部分数据出现问题时，可以根据第一源数据的代码片段或者部分数据生成第一源数据的检索指令。

在另一种可选的实施例中，可以通过检索指令实现多维度的数据检索能力，包括但不限于通用的代码片段搜索、文件搜索、类片段搜、方法片段搜索。在通过检索指令搜索的过程中，还可以对搜索内容的安全性检查，包括：敏感词搜索拦截、敏感数据脱敏。

步骤S204，基于检索指令通过目标日志空间获取第一源数据的目标索引。

上述的日志空间主要用于在线收集应用程序或者***在运行过程中产生的日志数据。

上述的目标索引可以存储在目标日志空间中，上述的目标索引还可以存储在源数据库中。

上述的目标索引可以在源数据库中存储第一源数据时，根据第一源数据构建的索引，其中，可以根据日志空间中的日志数据使用目标索引快速调取到与检索指令对应的第一源数据。

在一种可选的实施例中，在得到检索指令之后，可以根据检索指令中记载的信息在查询到对应的日志数据，并根据对应的日志数据匹配到源数据库中对应的目标索引，以便根据该目标索引从源数据库中调取第一源数据。

步骤S206，基于目标索引从源数据库中调取第一源数据。

上述的目标索引在构建时由于是基于第一源数据的结构化数据进行构建的，因此，通过该目标索引能够精确的从源数据库中调取到第一源数据，从而能够提高获取第一源数据的效率。

上述的源数据库中可以包含有源代码。

在一种可选的实施例中，可以根据目标索引从源数据库中调取到第一源数据，以便用户可以通过第一源数据对出现故障的代码或者数据进行修复。

在另一种可选的实施例中，在调取到第一源数据之后，可以将第一源数据显示在客户端的界面上，以方便用户直接查看。

通过上述步骤，首先，接收对第一源数据的检索指令；基于检索指令通过目标日志空间获取第一源数据的目标索引；基于目标索引从源数据库中调取第一源数据，实现了提高对源数据库中源数据的排查效率。容易注意到的是，在接收到对第一源数据的检索指令后，是直接从目标日志空间获取到该第一源数据的目标索引，可以根据该目标索引精确定位到源数据中的第一源数据并进行调取，不需要用户来回切换日志空间和源数据库，从可以提高研发或运维人员排查应用程序的故障效率，在较短的时间内做出正确的处理，从而降低故障对用户的影响，进而解决了相关技术中通过日志对源数据进行问题排查的效率较低的技术问题。

本申请上述实施例中，该方法还包括：获取第一源数据；基于目标字段对第一源数据进行结构化处理，生成第二源数据，其中，第二源数据为第一源数据中与目标字段对应的源数据；基于第二源数据构建目标索引；将目标索引同步至目标日志空间。

上述的第一源数据可以为源代码。

上述的目标字段可以为包括但不限于文件名(File_name)、文件路径(File_path)、文件所在代码仓库路径(Repo_path)、代码提交者(commiter)、代码贡献者(author)、代码对应的编程语言(language)、代码抽象语法树结构中的类集合(Ast_class_set)、代码抽象语法树结构中的方法集合(Ast_method_set)、源码文本内容(File_bolob)。

在一种可选的实施例中，可以通过源数据采集模块对多个第一源数据进行采集，可以通过任务并行处理对多个第一源数据进行读取，并将非结构化的第一源数据转换成结构化的第二源数据，以供后续索引构建模块使用；索引构建模块可以根据结构化的第二源数据大致描述出一个摘要，并且需要对第二源数据进行划分处理，以便得到第二源数据中需要保留的数据，并根据摘要和保留的数据构建目标索引，并将目标索引同步到目标日志空间以便后续用于查询。

本申请上述实施例中，基于目标字段对第一源数据进行结构化处理，生成第二源数据，包括：基于目标字段确定第一源数据的目标摘要；获取第一源数据的数据类型；基于数据类型对第一源数据进行拆分，得到目标拆分结果；基于目标摘要和目标拆分结果生成第二源数据。

上述的目标摘要包括但不限于代码文件的仓库、文件路径、作者。

对于源数据为代码文本来说，由于代码是一种特殊的文本，不同于自然语言文本，没有特定的语言词库，且编码风格的不同导致了能够代码文本内容千差万别。在本申请中，为了对不同类型的代码文本构建目标索引，通过代码索引构建模块提供了一套代码的分词器，能够精准的对不同类型的代码文本进行分词。该分词器主要解决代码中的常见且无意义语义的保留字、处理多种编码命名风格(如驼峰格式、下划线格式等)、语法树结构。

在一种可选的实施例中，可以先根据目标字段确定第一源数据的目标摘要，然后获取第一源数据的数据类型，可以根据不同数据类型对应的拆分方式对第一源数据进行拆分，得到目标拆分结果，可以根据目标摘要和目标拆分结果生成第二源数据，由于第二源数据为结构化数据，因此，可以通过第二源数据快速构建得到上述的目标索引。

本申请上述实施例中，基于数据类型对第一源数据进行拆分，得到目标拆分结果，包括：基于数据类型对第一源数据进行拆分，得到初始拆分结果；对初始拆分结果中的目标词进行过滤，生成目标拆分结果，其中，目标词为初始拆分结果中的停用词和/或敏感词。

在一种可选的实施例中，可以根据数据类型对第一源数据进行拆分，得到初始拆分结果，在得到初始拆分结果后，可以检测初始拆分结果中是否出现目标词，若出现目标词，则可以对目标词进行过滤，生成目标拆分结果，若未出现目标词，则可以直接将初始拆分结果作为目标拆分结果。

在另一种可选的实施例中，在根据数据类型对第一源数据进行拆分之前，可以先遍历第一源数据中的所有字符串，然后对第一源数据中的字符串进行过滤，可选的，可以将特殊的字符串进行过滤，例如：*、￥、#等，还可以将网页标签进行过滤。

图3为根据本申请实施例的一种对目标词过滤的流程图，如图3所示，包括如下步骤：

S31，获取初始拆分结果中的至少一个词；

S32，对至少一个词进行字母小写转换，得到转换结果；

S33，基于停用词列库判断转换结果中是否存在停用词，若是，则执行步骤S34，若否，则执行步骤S35；

可选的，可以通过编程语言加载停用词列库，并基于停用词列库判断转换结果中是否存在停用词。

S34，删除至少一个词中的停用词，得到第一删除结果；

S35，基于敏感词库判断删除结果中是否存在敏感词，若是，则执行步骤S36，若否，则执行步骤S37；

可选的，可以先加载敏感词库，并基于敏感词库判断删除结果中是否存在敏感词。

S36，删除至少一个词中的敏感词，得到第二删除结果；

S37，根据至少一个词、第一删除结果和第二删除结果生成目标拆分结果。

可选的，可以根据第一删除结果和第二删除结果对至少一个词中的停用词和敏感词进行删除。

在另一种可选的实施例中，在检测初始拆分结果中是否出现目标词时，可以采用规则匹配的敏感信息识别技术进行识别，其中，规则匹配具有良好的准确度和扩展性；还可以采用信息熵算法，其中，信息熵算法用于衡量代码行混乱程度，对随机生成型密钥和随机身份信息识别效果良好；还可以使用模板聚类和上下文语义分析等方法进行过滤，针对信息熵结果聚合提取常见关键字，结合上下文语义和当前语法结构提升信息熵算法的准确率。

本申请上述实施例中，基于数据类型对第一源数据进行拆分，得到初始拆分结果，包括：在第一源数据的数据类型为第一类型的情况下，利用第一分词器对第一源数据进行拆分，得到目标拆分结果，其中，第一类型用于表示数据类型为中文类型。

上述的第一类型可以是第一源数据的数据类型为中文类型，也即，第一源数据可以为汉字。

上述的第一分词器可以为中文分词器。

在一种可选的实施例中，在第一源数据的数据类型为中文类型的情况下，可以利用中文分词器对第一源数据进行分词，可选的，中文分词器可以按照中文词库对第一源数据进行拆分，得到上述的目标拆分结果。

本申请上述实施例中，基于数据类型对第一源数据进行拆分，得到初始拆分结果，包括：在第一源数据的数据类型为第二类型的情况下，基于驼峰对第一源数据的字符串进行拆分，得到第一字符串，其中，第二类型为第一源数据的格式为驼峰格式；利用下划线第一字符串进行拆分，得到第二字符串；利用第二分词器对第二字符串进行拆分，得到初始拆分结果。

上述的驼峰格式可以为用字母的大小写来进行编码的方式。上述的驼峰格式可以分为小驼峰格式和大驼峰格式，其中，小驼峰格式的第一个单字可以为小写字母，第二个单字的首字母可以为大写字母，例如：firstName；大驼峰格式的每一个单字的首字母都可以采用大写字母，例如：FirstName。

上述的第二分词器可以为标准分词器，其中，标准分词器可以是用于处理英语语法的分词器。

在一种可选的实施例中，在第一源数据的数据类型为驼峰格式的情况下，可以根据第一源数据中的驼峰对第一源数据的字符串进行拆分，得到第一字符串；在得到第一字符串之后，可以检索第一字符串中的下划线，并根据下划线对第一字符串进行拆分，得到第二字符串，以便利用上述的标准分词器对第二字符串进行拆分，得到初始拆分结果。若在用户输入第一源数据的阶段发现敏感词，则直接进行拦截，若在得到初始拆分结果之后发现存在敏感词，则可以进行脱敏处理。

本申请上述实施例中，基于数据类型对第一源数据进行拆分，得到初始拆分结果，包括：在第一源数据的数据类型为第三类型的情况下，基于下划线对第一源数据的字符串进行拆分，得到第三字符串，其中，第三类型为第一源数据的格式为下划线格式；利用第二分词器对第三字符串进行拆分，得到初始拆分结果。

上述的下划线格式是指利用下划线来对数据进行分割的形式。

在一种可选的实施例中，在第一源数据的数据类型为下划线格式的情况下，可以直接根据下划线对第一源数据进行拆分，得到第三字符串，并利用标准分词器对第三字符串进行拆分，得到初始拆分结果。

图4为根据本申请实施例的一种对第一源数据进行拆分的流程图，如图4所示，包括如下步骤：

S40，获取第一源数据；

S41，判断第一源数据是否为中文类型，若是，则执行步骤S42，若否，则执行步骤S43；

S42，利用中文分词器对第一源数据进行拆分，得到初始拆分结果；

S43，判断第一源数据是否为驼峰格式，若是，则执行步骤S44，若否，则执行步骤S45；

S44，按照驼峰对第一源数据对应的第一字符串进行拆分，得到第一字符串；

S45，判断第一字符串是否为下划线格式，若是，则执行步骤S46，若否，则执行步骤S47；

S46，利用下划线对第一字符串进行拆分，得到第二字符串；

S47，判断第一源数据是否为下划线格式，若是，则执行步骤S48，若否，则执行步骤S49；

S48，利用下划线对第一源数据进行拆分，得到第三字符串；

S49，利用标准分词器对第二字符串或第三字符串进行拆分，得到初始拆分结果。

本申请上述实施例中，利用第二分词器对第二字符串进行拆分，得到初始拆分结果，包括：利用第二分词器基于空格对第三字符串进行拆分，得到第四字符串；基于第二分词器基于标点符号对第四字符串进行拆分，得到初始拆分结果。

在一种可选的实施例中，标准分词器可以根据空格对第三字符串进行拆分，得到第四字符串，以便拆分得到的第四字符串中不存在空格，在得到第四字符串之后，第二分词器还可以根据标点符号对第四字符串进行拆分，得到初始拆分结果，以便得到的初始拆分结果中不存在标点符号。

同理，标准分词器还可以通过与上述同样的步骤对第二字符串进行拆分，得到初始拆分结果。

图5为本申请实施例的一种代码托管***和日志***的结构示意图，其中，代码托管***中包含有上述的源数据库，日志***中包含有上述的目标日志空间，用户在代码开发阶段中，可以获取并保存开发的代码数据，也即上述的第一源数据，并根据第一源数据构建目标索引，可以将源数据库与目标索引进行关联，在代码发布的过程中，可以发布并运行源数据库中的代码，并在运行的过程中将运行的日志数据保存至日志空间中，在代码出现问题时，可以根据日志数据选择目标片段进行代码诊断，可以根据目标片段生成检索指令，可以根据检索指令获取目标索引，可以基于目标索引从源数据库中调取第一源数据。

通过本申请上述实施例，可以通过日志数据里的关键信息可以从对应的代码仓库里精准查找出完整的源代码。无需切换上下文即可完成从日志到代码的一站式在线问题排查过程。具体实现过程如下，开发人员在日常开发过程中都会在代码中打印日志，一般打印日志会记录如下信息：故障发生的时间、地点(文件名、类名、方法名及代码行信息)、产生故障的原因、代码运行的上下文信息等。当生产环境发生故障时，则开发人员会通过查询日志获得预先记录的具体日志数据。本***会根据日志中记录的“地点信息”例如文件名，类名，方法名作为输入信息在已构建好的代码索引数据中进行检索，并将符合条件的源码返回给开发人员，从而实现日志到源码的快速关联。整个过程秒级处理，且不依赖与开发人员对代码是否熟悉，极大提升了在线问题排查定位的效率。通过代码搜索功能可以根据日志里的记录的代码片段精准、快速地查询到完整的源码并在一个页面完成展示，供排查人员进行线程分析，从而优化排查流程，提升整体分析效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的数据处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本申请实施例，还提供了一种数据处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图6是根据本申请实施例的一种数据处理方法流程图，如图6所示，该方法可以包括如下步骤：

步骤S602，云服务器接收对第一源数据的检索指令。

步骤S604，云服务器基于检索指令通过目标日志空间获取第一源数据的目标索引。

步骤S606，云服务器基于目标索引从源数据库中调取第一源数据。

本申请上述实施例中，该方法还包括：云服务器获取第一源数据；云服务器基于目标字段对第一源数据进行结构化处理，生成第二源数据，其中，第二源数据为第一源数据中与目标字段对应的源数据；云服务器基于第二源数据构建目标索引；云服务器将目标索引同步至目标日志空间。

本申请上述实施例中，云服务器基于目标字段对第一源数据进行结构化处理，生成第二源数据，包括：云服务器基于目标字段确定第一源数据的目标摘要；云服务器获取第一源数据的数据类型；云服务器基于数据类型对第一源数据进行拆分，得到目标拆分结果；云服务器基于目标摘要和目标拆分结果生成第二源数据。

本申请上述实施例中，云服务器基于数据类型对第一源数据进行拆分，得到目标拆分结果，包括：云服务器基于数据类型对第一源数据进行拆分，得到初始拆分结果；云服务器对初始拆分结果中的目标词进行过滤，生成目标拆分结果，其中，目标词为初始拆分结果中的停用词和/或敏感词。

本申请上述实施例中，云服务器基于数据类型对第一源数据进行拆分，得到初始拆分结果，包括：在第一源数据的数据类型为第一类型的情况下，云服务器利用第一分词器对第一源数据进行拆分，得到目标拆分结果，其中，第一类型用于表示数据类型为中文类型。

本申请上述实施例中，云服务器基于数据类型对第一源数据进行拆分，得到初始拆分结果，包括：在第一源数据的数据类型为第二类型的情况下，云服务器基于驼峰对第一源数据的字符串进行拆分，得到第一字符串，其中，第二类型为第一源数据的格式为驼峰格式；云服务器利用下划线第一字符串进行拆分，得到第二字符串；云服务器利用第二分词器对第二字符串进行拆分，得到初始拆分结果。

本申请上述实施例中，云服务器基于数据类型对第一源数据进行拆分，得到初始拆分结果，包括：在第一源数据的数据类型为第三类型的情况下，云服务器基于下划线对第一源数据的字符串进行拆分，得到第三字符串，其中，第三类型为第一源数据的格式为下划线格式；云服务器利用第二分词器对第三字符串进行拆分，得到初始拆分结果。

本申请上述实施例中，云服务器利用第二分词器对第二字符串进行拆分，得到初始拆分结果，包括：云服务器利用第二分词器基于空格对第三字符串进行拆分，得到第四字符串；云服务器基于第二分词器基于标点符号对第四字符串进行拆分，得到初始拆分结果。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，如图7所示，该装置700包括：接收模块702、获取模块704、调取模块706。

其中，接收模块，用于接收对第一源数据的检索指令；获取模块，用于基于检索指令通过目标日志空间获取第一源数据的目标索引；调取模块，用于基于目标索引从源数据库中调取第一源数据。

此处需要说明的是，上述接收模块702、获取模块704、调取模块706对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，该装置还包括：处理模块、构建模块、同步模块。

其中，获取模块还用于获取第一源数据；处理模块用于基于目标字段对第一源数据进行结构化处理，生成第二源数据，其中，第二源数据为第一源数据中与目标字段对应的源数据；构建模块，用于基于第二源数据构建目标索引；同步模块，用于将目标索引同步至目标日志空间。

本申请上述实施例中，处理模块包括：确定单元、获取单元、拆分单元、生成单元。

其中，确定单元用于基于目标字段确定第一源数据的目标摘要；获取单元用于获取第一源数据的数据类型；拆分单元用于基于数据类型对第一源数据进行拆分，得到目标拆分结果；生成单元用于基于目标摘要和目标拆分结果生成第二源数据。

本申请上述实施例中，拆分单元，包括：拆分子单元、过滤子单元。

其中，拆分子单元用于基于数据类型对第一源数据进行拆分，得到初始拆分结果；过滤子单元，用于对初始拆分结果中的目标词进行过滤，生成目标拆分结果，其中，目标词为初始拆分结果中的停用词和/或敏感词。

本申请上述实施例中，拆分子单元还用于在第一源数据的数据类型为第一类型的情况下，利用第一分词器对第一源数据进行拆分，得到初始拆分结果，其中，第一类型用于表示数据类型为中文类型。

本申请上述实施例中，拆分子单元还用于在第一源数据的数据类型为第二类型的情况下，基于驼峰对第一源数据的字符串进行拆分，得到第一字符串，其中，第二类型为第一源数据的格式为驼峰格式；拆分子单元还用于利用下划线第一字符串进行拆分，得到第二字符串；拆分子单元还用于利用第二分词器对第二字符串进行拆分，得到初始拆分结果。

本申请上述实施例中，拆分子单元还用于在第一源数据的数据类型为第三类型的情况下，基于下划线对第一源数据的字符串进行拆分，得到第三字符串，其中，第三类型为第一源数据的格式为下划线格式；拆分子单元还用于利用第二分词器对第三字符串进行拆分，得到初始拆分结果。

本申请上述实施例中，拆分子单元还用于利用第二分词器基于空格对第三字符串进行拆分，得到第四字符串；拆分子单元还用于基于第二分词器基于标点符号对第四字符串进行拆分，得到初始拆分结果。

实施例4

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，如图8所示，该装置800包括：接收模块802、获取模块804、调取模块806。

其中，接收模块，用于通过云服务器接收对第一源数据的检索指令；获取模块，用于通过云服务器基于检索指令通过目标日志空间获取第一源数据的目标索引；调取模块，用于通过云服务器基于目标索引从源数据库中调取第一源数据。

此处需要说明的是，上述接收模块802、获取模块804、调取模块806对应于实施例2中的步骤S602至步骤S606，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例5

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行数据处理方法中以下步骤的程序代码：接收对第一源数据的检索指令；基于检索指令通过目标日志空间获取第一源数据的目标索引；基于目标索引从源数据库中调取第一源数据。

可选地，图9是根据本发明实施例的一种计算机终端的结构框图。如图9所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器、存储器。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的数据处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收对第一源数据的检索指令；基于检索指令通过目标日志空间获取第一源数据的目标索引；基于目标索引从源数据库中调取第一源数据。

可选的，上述处理器还可以执行如下步骤的程序代码：获取第一源数据；基于目标字段对第一源数据进行结构化处理，生成第二源数据，其中，第二源数据为第一源数据中与目标字段对应的源数据；基于第二源数据构建目标索引；将目标索引同步至目标日志空间。

可选的，上述处理器还可以执行如下步骤的程序代码：基于目标字段确定第一源数据的目标摘要；获取第一源数据的数据类型；基于数据类型对第一源数据进行拆分，得到目标拆分结果；基于目标摘要和目标拆分结果生成第二源数据。

可选的，上述处理器还可以执行如下步骤的程序代码：基于数据类型对第一源数据进行拆分，得到初始拆分结果；对初始拆分结果中的目标词进行过滤，生成目标拆分结果，其中，目标词为初始拆分结果中的停用词和/或敏感词。

可选的，上述处理器还可以执行如下步骤的程序代码：在第一源数据的数据类型为第一类型的情况下，利用第一分词器对第一源数据进行拆分，得到初始拆分结果，其中，第一类型用于表示数据类型为中文类型。

可选的，上述处理器还可以执行如下步骤的程序代码：在第一源数据的数据类型为第二类型的情况下，基于驼峰对第一源数据的字符串进行拆分，得到第一字符串，其中，第二类型为第一源数据的格式为驼峰格式；利用下划线第一字符串进行拆分，得到第二字符串；利用第二分词器对第二字符串进行拆分，得到初始拆分结果。

可选的，上述处理器还可以执行如下步骤的程序代码：在第一源数据的数据类型为第三类型的情况下，基于下划线对第一源数据的字符串进行拆分，得到第三字符串，其中，第三类型为第一源数据的格式为下划线格式；利用第二分词器对第三字符串进行拆分，得到初始拆分结果。

可选的，上述处理器还可以执行如下步骤的程序代码：利用第二分词器基于空格对第三字符串进行拆分，得到第四字符串；基于第二分词器基于标点符号对第四字符串进行拆分，得到初始拆分结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：云服务器接收对第一源数据的检索指令；云服务器基于检索指令通过目标日志空间获取第一源数据的目标索引；云服务器基于目标索引从源数据库中调取第一源数据。

采用本发明实施例，首先，接收对第一源数据的检索指令；基于检索指令通过目标日志空间获取第一源数据的目标索引；基于目标索引从源数据库中调取第一源数据，实现了提高对源数据库中源数据的排查效率。容易注意到的是，在接收到对第一源数据的检索指令后，是直接从目标日志空间获取到该第一源数据的目标索引，可以根据该目标索引精确定位到源数据中的第一源数据并进行调取，不需要用户来回切换日志空间和源数据库，从可以提高研发或运维人员排查应用程序的故障效率，在较短的时间内做出正确的处理，从而降低故障对用户的影响，进而解决了相关技术中通过日志对源数据进行问题排查的效率较低的技术问题。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例6

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取第一源数据；基于目标字段对第一源数据进行结构化处理，生成第二源数据，其中，第二源数据为第一源数据中与目标字段对应的源数据；基于第二源数据构建目标索引；将目标索引同步至目标日志空间。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于目标字段确定第一源数据的目标摘要；获取第一源数据的数据类型；基于数据类型对第一源数据进行拆分，得到目标拆分结果；基于目标摘要和目标拆分结果生成第二源数据。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在第一源数据的数据类型为第一类型的情况下，利用第一分词器对第一源数据进行拆分，得到初始拆分结果，其中，第一类型用于表示数据类型为中文类型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在第一源数据的数据类型为第二类型的情况下，基于驼峰对第一源数据的字符串进行拆分，得到第一字符串，其中，第二类型为第一源数据的格式为驼峰格式；利用下划线第一字符串进行拆分，得到第二字符串；利用第二分词器对第二字符串进行拆分，得到初始拆分结果。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在第一源数据的数据类型为第三类型的情况下，基于下划线对第一源数据的字符串进行拆分，得到第三字符串，其中，第三类型为第一源数据的格式为下划线格式；利用第二分词器对第三字符串进行拆分，得到初始拆分结果。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用第二分词器基于空格对第三字符串进行拆分，得到第四字符串；基于第二分词器基于标点符号对第四字符串进行拆分，得到初始拆分结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：云服务器接收对第一源数据的检索指令；云服务器基于检索指令通过目标日志空间获取第一源数据的目标索引；云服务器基于目标索引从源数据库中调取第一源数据。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

接收对第一源数据的检索指令；

基于所述检索指令通过目标日志空间获取所述第一源数据的目标索引；

基于所述目标索引从源数据库中调取所述第一源数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一源数据；

基于目标字段对所述第一源数据进行结构化处理，生成第二源数据，其中，所述第二源数据为所述第一源数据中与所述目标字段对应的源数据；

基于所述第二源数据构建目标索引；

将所述目标索引同步至目标日志空间。

3.根据权利要求2所述的方法，其特征在于，基于目标字段对所述第一源数据进行结构化处理，生成第二源数据，包括：

基于所述目标字段确定所述第一源数据的目标摘要；

获取第一源数据的数据类型；

基于所述数据类型对所述第一源数据进行拆分，得到目标拆分结果；

基于所述目标摘要和所述目标拆分结果生成所述第二源数据。

4.根据权利要求3所述的方法，其特征在于，基于所述数据类型对所述第一源数据进行拆分，得到目标拆分结果，包括：

基于所述数据类型对所述第一源数据进行拆分，得到初始拆分结果；

对所述初始拆分结果中的目标词进行过滤，生成所述目标拆分结果，其中，所述目标词为所述初始拆分结果中的停用词和/或敏感词。

5.根据权利要求4所述的方法，其特征在于，基于所述数据类型对所述第一源数据进行拆分，得到初始拆分结果，包括：

在所述第一源数据的数据类型为第一类型的情况下，利用第一分词器对所述第一源数据进行拆分，得到所述目标拆分结果，其中，所述第一类型用于表示所述数据类型为中文类型。

6.根据权利要求4所述的方法，其特征在于，基于所述数据类型对所述第一源数据进行拆分，得到初始拆分结果，包括：

在所述第一源数据的数据类型为第二类型的情况下，基于驼峰对所述第一源数据的字符串进行拆分，得到第一字符串，其中，所述第二类型为所述第一源数据的格式为驼峰格式；

利用下划线所述第一字符串进行拆分，得到第二字符串；

利用第二分词器对所述第二字符串进行拆分，得到所述初始拆分结果。

7.根据权利要求6所述的方法，其特征在于，基于所述数据类型对所述第一源数据进行拆分，得到初始拆分结果，包括：

在所述第一源数据的数据类型为第三类型的情况下，基于下划线对所述第一源数据的字符串进行拆分，得到第三字符串，其中，所述第三类型为所述第一源数据的格式为下划线格式；

利用所述第二分词器对所述第三字符串进行拆分，得到所述初始拆分结果。

8.根据权利要求7所述的方法，其特征在于，利用所述第二分词器对所述第二字符串进行拆分，得到所述初始拆分结果，包括：

利用所述第二分词器基于空格对所述第三字符串进行拆分，得到第四字符串；

基于所述第二分词器基于标点符号对所述第四字符串进行拆分，得到所述初始拆分结果。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的数据处理方法。

10.一种计算机终端，其特征在于，包括：处理器和存储器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的数据处理方法。