CN109325183A

CN109325183A - 基于爬虫日志的错误问题定位方法、装置和计算机设备

Info

Publication number: CN109325183A
Application number: CN201811204569.4A
Authority: CN
Inventors: 刘芳
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-02-12

Abstract

本申请提供一种基于爬虫日志的错误问题定位方法、装置和计算机设备，所述的方法包括：获取爬虫日志；所述爬虫日志记录有被解析对象的文件ID；从所述爬虫日志中筛选出解析失败的目标被解析对象的文件ID；根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件；通过调用bug管理工具接口生成所述目标被解析对象的文件中的bug信息。本申请实施例大大降低了错误定位的周期，提高了错误定位的效率。

Description

基于爬虫日志的错误问题定位方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种基于爬虫日志的错误问题定位方法、装置和计算机设备。

背景技术

在生产环境下，在进行错误问题定位时，一般是测试人员先下载生产的日志，找到错误解析日志或是由监控日报提供错误解析日志，然后根据错误解析日志来定位错误，找到解析失败的文件，提bug(漏洞)给开发人员解决，整个流程都需要人工参与，周期长，效率低下。

发明内容

本申请针对现有方式的缺点，提出一种基于爬虫日志的错误问题定位方法、装置和计算机设备，以自动对错误问题进行定位，大大降低了错误定位的周期，提高了错误定位的效率。

本申请的实施例根据第一个方面，提供了一种基于爬虫日志的错误问题定位方法，包括：

获取爬虫日志；所述爬虫日志记录有被解析对象的文件ID；

从所述爬虫日志中筛选出解析失败的目标被解析对象的文件ID；

根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件；

通过调用bug管理工具接口生成所述目标被解析对象的文件中的bug信息。

在一个实施例中，所述通过调用bug管理工具接口生成所述目标被解析对象的文件中的bug信息，包括：

将所述目标被解析对象的文件以附件形式上传到bug管理工具，由所述bug管理工具生成所述目标被解析对象的文件中的bug信息。

在一个实施例中，所述被解析对象的文件ID由所述被解析对象的文件在指定位置中的存储目录以及设定字符串生成；

所述根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件，包括：

对所述目标被解析对象的文件ID进行解析，从所述文件ID中剔除所述设定字符串，获取所述目标被解析对象的文件在指定位置中的存储目录；

根据所述存储目录，从所述指定位置获取所述目标被解析对象的文件。

在一个实施例中，所述被解析对象的文件ID由所述被解析对象的文件存储到指定位置的存储时间以及所述被解析对象的文件的大小生成。

在一个实施例中，所述根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件，包括：

对所述目标被解析对象的文件ID进行解析，获取所述目标被解析对象的存储时间以及文件的大小；

将所述目标被解析对象的文件的大小与所述指定位置存储的被解析对象的文件的大小进行匹配；

若匹配，将匹配的被解析对象的文件作为目标被解析对象的文件；

若不匹配，将所述目标被解析对象的存储时间与所述指定位置存储的被解析对象的存储时间进行匹配，若匹配，将匹配的被解析对象的文件作为目标被解析对象的文件，否则输出目标被解析对象的文件获取失败的提醒信息。

在一个实施例中，所述被解析对象的文件ID由所述被解析对象的文件在指定位置中的存储目录以及所述被解析对象的文件在所述存储目录下的偏移量生成。

对所述目标被解析对象的文件ID进行解析，获取目标被解析对象的存储目录以及偏移量；

根据所述存储目录，从指定位置获取所述存储目录下的多个被解析对象的文件；

根据所述偏移量，从多个被解析对象的文件中筛选出目标被解析对象的文件。

本申请的实施例根据第二个方面，还提供了一种基于爬虫日志的错误问题定位装置，包括：

爬虫日志获取模块，用于获取爬虫日志；所述爬虫日志记录有被解析对象的文件ID；

文件ID筛选模块，用于从所述爬虫日志中筛选出解析失败的目标被解析对象的文件ID；

文件获取模块，用于根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件；

错误问题定位模块，用于通过调用bug管理工具接口生成所述目标被解析对象的文件中的bug信息。

本申请的实施例根据第三个方面，该提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任意一项所述的基于爬虫日志的错误问题定位方法。

本申请的实施例根据第四个方面，还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任意一项所述的基于爬虫日志的错误问题定位方法。

上述的基于爬虫日志的错误问题定位方法、装置和计算机设备，从自动化分析爬虫日志、找到解析错误的文件ID、自动下载解析错误的被解析对象的文件、到调用bug管理工具自动开具bug，完成了一个线上的爬虫解析错误的快速定位，可极大的减少测试和开发对于错误问题的查找定位时间，提高了工作效率。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个实施例的基于爬虫日志的错误问题定位方法的流程示意图；

图2为本申请一个实施例的基于爬虫日志的错误问题定位装置的结构示意图；

图3为本申请一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

如图1所示，在一个实施例中，一种基于爬虫日志的错误问题定位方法，包括：

S110、获取爬虫日志；所述爬虫日志记录有被解析对象的文件ID。

爬虫，即网络爬虫，又被称为网页蜘蛛、网络机器人等，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。对于爬虫来说，爬虫的被解析对象是多种多样的。爬虫日志是爬虫后生成的日志。可以规范化开发爬虫日志，统一输出的爬虫日志的格式。可选的，可以通过访问爬虫日志的URL(Uniform Resource Locator，统一资源定位符)自动获取爬虫日志。

爬虫日志用于记录被解析对象的文件ID(Identity，身份标识号码)。被解析对象的文件ID是被解析对象的文件在用于存储各个被解析对象的文件的指定位置中的ID，指定位置可以为云端或者其它位置等等。

被解析对象的文件ID生成的方式有很多种，下面结合几个实施例进行说明。应当理解的是，本申请并不限制于下述生成被解析对象的文件ID的方式，用户还可以采用其它方式生成被解析对象的文件ID。

在一个实施例中，所述被解析对象的文件ID由所述被解析对象的文件在指定位置中的存储目录以及设定字符串生成。文件被存储到指定位置，一般会有对应的存储目录，例如，指定位置为服务器，一个被解析对象的文件被存储在该服务器的E盘中的某个文件夹中，则该被解析对象的文件的存储目录即为E/该文件夹。为了进一步提高文件存储的安全性，预先设置一段字符串，然后按照设定规则，由存储目录和设定字符串生成文件ID。设定字符串可以根据实际需要进行设置，例如，设定字符串设置为aaa等等。设定规则可以根据实际需要进行设置，例如，将该设定字符串添加到存储目录的首部或者尾部，生成文件ID，又例如，将该设定字符串拆分为几个部分，将各个部分按照一定的顺序***存储目录中，生成文件ID。

在另一个实施例中，所述被解析对象的文件ID由所述被解析对象的文件存储到指定位置的存储时间以及所述被解析对象的文件的大小生成。被解析对象的文件存储到指定位置时，一般会自动生成对应的存储时间。存储时间的格式可以为××年××月××日××时××分××秒。文件的大小为被解析对象的文件所占用的空间大小。获取被解析对象的存储时间和文件的大小，就可以根据被解析对象的存储时间和文件的大小生成文件ID。

在另一个实施例中，所述被解析对象的文件ID由所述被解析对象的文件在指定位置中的存储目录以及所述被解析对象的文件在所述存储目录下的偏移量生成。文件被存储到指定位置，一般会有对应的存储目录，例如，指定位置为服务器，一个被解析对象的文件被存储在该服务器的E盘中的某个文件夹中，则该被解析对象的文件的存储目录即为E/该文件夹。考虑到存储目录下可能存在多个文件的情况，还需要获取被解析对象的文件在该存储目录下的偏移量，该偏移量为与存储目录中指定起始位置的偏移量。由该存储目录和偏移量生成被解析对象的文件ID。

可选的，爬虫日志还可以记录被解析对象的解析结果，解析结果包括解析成功或者失败。爬虫日志还可以记录其它被解析对象的信息，本申请并不对此做出限定。

S120、从所述爬虫日志中筛选出解析失败的目标被解析对象的文件ID。

可以通过固定的关键字来查找所有爬虫解析失败的目标被解析对象的信息，固定关键字可以根据实际需要进行设置，例如关键字为用于标识解析失败的字符，可以在实现本申请实施例方法的工具界面上预先设置该固定关键字，用户通过触摸点击等方式选择该关键字。

S130、根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件。

遍历每一个目标被解析对象的文件ID，根据该文件ID从指定位置找到目标被解析对象的文件，下载该目标被解析对象的文件，自此，已自动完成获取所有的目标被解析对象的文件，也即是所有的解析失败的文件。为了方便后续获取，可以将下载完成的目标被解析对象的文件存储在同一的路径下。

文件ID生成的方式不同，获取目标被解析对象的文件的方式不同。下面结合几个实施例进行介绍。

实施例一

如果被解析对象的文件ID由所述被解析对象的文件在指定位置中的存储目录以及设定字符串生成。则，在一个实施例中，所述根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件，包括：

S131、对所述目标被解析对象的文件ID进行解析，从所述文件ID中剔除所述设定字符串，获取所述目标被解析对象的文件在指定位置中的存储目录。

对目标被解析对象的文件ID进行解析，即可以获得存储目录和设定字符串组成的字符，按照设定字符串***的方式从组成的字符中提取出设定字符串，将该设定字符串删除，就可以得到目标被解析对象的文件在指定位置中的存储目录。例如，设定字符串放置在存储目录的首部或者尾部，则从组成的字符的首部或者尾部剔除掉设定字符串，就可以得到目标被解析对象的存储目录。又例如，设定字符串间隔设定间隔***存储目录中，则按照该设定间隔从组成的字符中剔除掉设定字符串对应的字符，就可以得到目标被解析对象的存储目录。

S132、根据所述存储目录，从所述指定位置获取所述目标被解析对象的文件。

根据该存储目录，就可以从指定位置查找到对应的目标被解析对象的文件，下载该目标被解析对象的文件。

实施例二

若被解析对象的文件ID由所述被解析对象的文件存储到指定位置的存储时间以及所述被解析对象的文件的大小生成，则，在一个实施例中，所述根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件，包括：

S13a、对所述目标被解析对象的文件ID进行解析，获取所述目标被解析对象的存储时间以及文件的大小。

对目标被解析对象的文件ID进行解析，即可以获得目标被解析对象的存储时间以及文件的大小。

S13b、将所述目标被解析对象的文件的大小与所述指定位置存储的被解析对象的文件的大小进行匹配。

考虑到文件的大小基本上都有区别，因此为了提高文件找到的效率，可以先根据文件的大小对指定位置存储的多个被解析对象的文件进行筛选。

S13c、若匹配，将匹配的被解析对象的文件作为目标被解析对象的文件。

如果匹配，意味着存在被解析对象的文件的大小与目标被解析对象的文件的大小相同，则该匹配的被解析对象的文件即为目标被解析对象的文件，则直接下载该目标被解析对象的文件。

S13d、若不匹配，将所述目标被解析对象的存储时间与所述指定位置存储的被解析对象的存储时间进行匹配，若匹配，将匹配的被解析对象的文件作为目标被解析对象的文件，否则输出目标被解析对象的文件获取失败的提醒信息。

考虑到生成文件ID后，用户有可能对指定位置存储的目标被解析对象的文件进行修改，则此时根据文件的大小很可能找不到匹配的被解析对象的文件。因此，在文件的大小不匹配时，还需要根据文件存储时间对文件进行重新筛选，如果找到存储时间一致的被解析对象的文件，则该被解析对象的文件即为目标被解析对象的文件，下载该目标被解析对象的文件，如果没有找到存储时间一致的被解析对象的文件，则可以提醒用户文件获取失败，用户可以再采用人工方式在指定位置查找目标被解析对象的文件。应当理解的是，考虑到后续文件存在修改的可能，为了保证自动查找到目标被解析对象的文件，存储时间指的是第一次存入指定位置的时间。

实施例三

若被解析对象的文件ID由所述被解析对象的文件在指定位置中的存储目录以及所述被解析对象的文件在所述存储目录下的偏移量生成。则，在一个实施例中，所述根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件，包括：

S13A、对所述目标被解析对象的文件ID进行解析，获取目标被解析对象的存储目录以及偏移量。

对目标被解析对象的文件ID进行解析，即可以获得目标被解析对象的存储目录以及偏移量。

S13B、根据所述存储目录，从指定位置获取所述存储目录下的多个被解析对象的文件。

根据目标被解析对象的存储目录，找到该存储目录下的多个被解析对象的文件。

S13C、根据所述偏移量，从多个被解析对象的文件中筛选出目标被解析对象的文件。

根据预先设置的存储目录中起始位置以及偏移量，可以找到对应的目标被解析对象的文件，下载该目标被解析对象的文件。

S140、通过调用bug管理工具接口生成所述目标被解析对象的文件中的bug信息。

bug管理工具可以采用现有技术中的管理工具，例如，bug管理工具为JIRA、iClap、Bugtags、Bugify、禅道、Bug Digger等等。在一个实施例中，所述通过调用bug管理工具接口生成所述目标被解析对象的文件中的bug信息，包括：将所述目标被解析对象的文件以附件形式上传到bug管理工具，由所述bug管理工具生成所述目标被解析对象的文件中的bug信息。将目标被解析对象的文件，也即是解析失败的文件，以附件或者其它方式自动上传到bug管理工具里，bug管理工具就可以自动生成对应的bug，开发人员可根据bug信息和附件的解析失败的文件快速解决问题。

基于同一发明构思，本申请还提供一种基于爬虫日志的错误问题定位装置，下面结合附图对本申请装置的具体实施方式进行详细描述。

如图2所示，在一个实施例中，一种基于爬虫日志的错误问题定位装置，包括：

爬虫日志获取模块210，用于获取爬虫日志；所述爬虫日志记录有被解析对象的文件ID；

文件ID筛选模块220，用于从所述爬虫日志中筛选出解析失败的目标被解析对象的文件ID；

文件获取模块230，用于根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件；

错误问题定位模块240，用于通过调用bug管理工具接口生成所述目标被解析对象的文件中的bug信息。

在一个实施例中，错误问题定位模块240将所述目标被解析对象的文件以附件形式上传到bug管理工具，由所述bug管理工具生成所述目标被解析对象的文件中的bug信息。

所述文件获取模块230包括：

解析单元，用于对所述目标被解析对象的文件ID进行解析，从所述文件ID中剔除所述设定字符串，获取所述目标被解析对象的文件在指定位置中的存储目录；

文件获取单元，用于根据所述存储目录，从所述指定位置获取所述目标被解析对象的文件。

在一个实施例中，文件获取模块230包括：

解析单元，用于对所述目标被解析对象的文件ID进行解析，获取所述目标被解析对象的存储时间以及文件的大小；

匹配单元，用于将所述目标被解析对象的文件的大小与所述指定位置存储的被解析对象的文件的大小进行匹配；

第一文件获取单元，用于在匹配时，将匹配的被解析对象的文件作为目标被解析对象的文件；

第二文件获取单元，用于在不匹配时，将所述目标被解析对象的存储时间与所述指定位置存储的被解析对象的存储时间进行匹配，若匹配，将匹配的被解析对象的文件作为目标被解析对象的文件，否则输出目标被解析对象的文件获取失败的提醒信息。

在一个实施例中，文件获取模块230包括：

解析单元，用于对所述目标被解析对象的文件ID进行解析，获取目标被解析对象的存储目录以及偏移量；

备选文件获取单元，用于根据所述存储目录，从指定位置获取所述存储目录下的多个被解析对象的文件；

目标文件获取单元，用于根据所述偏移量，从多个被解析对象的文件中筛选出目标被解析对象的文件。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任意一项所述的基于爬虫日志的错误问题定位方法。其中，所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSS Memory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器，磁盘或光盘等。

本申请实施例还提供一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

图3为本申请计算机设备的结构示意图，包括处理器320、存储装置330、输入单元340以及显示单元350等器件。本领域技术人员可以理解，图3示出的结构器件并不构成对所有计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储装置330可用于存储应用程序310以及各功能模块，处理器320运行存储在存储装置330的应用程序310，从而执行设备的各种功能应用以及数据处理。存储装置330可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本申请所公开的存储装置包括但不限于这些类型的存储装置。本申请所公开的存储装置330只作为例子而非作为限定。

输入单元340用于接收信号的输入，以及接收爬虫日志。输入单元340可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元350可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元350可采用液晶显示器、有机发光二极管等形式。处理器320是计算机设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储装置330内的软件程序和/或模块，以及调用存储在存储装置内的数据，执行各种功能和处理数据。

在一实施方式中，计算机设备包括一个或多个处理器320，以及一个或多个存储装置330，一个或多个应用程序310，其中所述一个或多个应用程序310被存储在存储装置330中并被配置为由所述一个或多个处理器320执行，所述一个或多个应用程序310配置用于执行以上实施例所述的基于爬虫日志的错误问题定位方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

应该理解的是，在本申请各实施例中的各功能单元可集成在一个处理模块中，也可以各个单元单独物理存在，也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于爬虫日志的错误问题定位方法，其特征在于，包括：

获取爬虫日志；所述爬虫日志记录有被解析对象的文件ID；

2.根据权利要求1所述的基于爬虫日志的错误问题定位方法，其特征在于，所述通过调用bug管理工具接口生成所述目标被解析对象的文件中的bug信息，包括：

3.根据权利要求1所述的基于爬虫日志的错误问题定位方法，其特征在于，所述被解析对象的文件ID由所述被解析对象的文件在指定位置中的存储目录以及设定字符串生成；

4.根据权利要求1所述的基于爬虫日志的错误问题定位方法，其特征在于，所述被解析对象的文件ID由所述被解析对象的文件存储到指定位置的存储时间以及所述被解析对象的文件的大小生成。

5.根据权利要求4所述的基于爬虫日志的错误问题定位方法，其特征在于，所述根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件，包括：

6.根据权利要求1所述的基于爬虫日志的错误问题定位方法，其特征在于，所述被解析对象的文件ID由所述被解析对象的文件在指定位置中的存储目录以及所述被解析对象的文件在所述存储目录下的偏移量生成。

7.根据权利要求6所述的基于爬虫日志的错误问题定位方法，其特征在于，所述根据所述目标被解析对象的文件ID，从指定位置获取所述目标被解析对象的文件，包括：

8.一种基于爬虫日志的错误问题定位装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任意一项所述的基于爬虫日志的错误问题定位方法。

10.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7中任意一项所述的基于爬虫日志的错误问题定位方法。