CN114117242A

CN114117242A - 数据查询方法和装置、计算机设备、存储介质

Info

Publication number: CN114117242A
Application number: CN202111536033.4A
Authority: CN
Inventors: 冯洋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-01

Abstract

本实施例提供一种数据查询方法和装置、计算机设备、存储介质，属于人工智能技术领域。该数据查询方法包括：获取数据查询请求，根据数据查询指令获取目标浏览器在预设时间段内的历史浏览记录，历史浏览记录包括历史访问地址，根据该地址访问的历史浏览页面，并获取该页面对应的网页内容数据，根据网页内容数据构建键值对数据集，通过构建键值对数据集，能够快速获取对应的网页内容数据，并对键值对数据集进行分词处理，得到多个分词数据，通过多个分词数据能够使搜索到的结果更为全面，根据分词数据和查询条件对历史浏览页面进行查询处理，得到目标查询结果，本实施例能够自动获取网页的目标查询结果，降低了数据的查询难度，从而提高查询效率。

Description

数据查询方法和装置、计算机设备、存储介质

技术领域

本公开实施例涉及人工智能技术领域，尤其涉及一种数据查询方法和装置、计算机设备、存储介质。

背景技术

目前，用户在利用浏览器浏览网页的过程中，许多浏览器都会自动记录用户行为，例如记录用户浏览过的网页所对应的页面标题和访问地址。当用户需要查询某些网页数据时，可以根据页面标题和访问地址手动点开之前浏览过的网页，并手动查看页面中所需要的网页数据。但是，通过手动方式查询网页数据的查询效率不高。

发明内容

本公开实施例的主要目的在于提出一种数据查询方法和装置、计算机设备、存储介质，能够提高网页数据的查询效率。

为实现上述目的，本公开实施例的第一方面提出了一种数据查询方法，包括：

获取数据查询请求，所述数据查询请求包括数据查询指令和查询条件；

根据所述数据查询指令获取目标浏览器在预设时间段内的历史浏览记录；所述历史浏览记录包括历史访问地址；

根据所述历史访问地址访问对应的历史浏览页面，以获取呈现在所述历史浏览页面的网页内容数据；

根据所述网页内容数据构建键值对数据集；

对所述键值对数据集进行分词处理，得到多个分词数据；

根据所述分词数据和所述查询条件，对所述历史浏览页面进行查询处理，得到目标查询结果。

在一些实施例中，所述根据所述网页内容数据构建键值对数据集，包括：

将所述网页内容数据进行封装处理，得到对应的实体对象；

根据预设的映射规则对所述实体对象进行转换处理，得到对应的键值对数据集。

在一些实施例，所述获取呈现在所述历史浏览页面的网页内容数据，包括：

对所述历史浏览页面进行抓取处理，得到对应的HTML网页数据；

对所述HTML网页数据进行解析处理，得到网页解析数据；

根据所述网页解析数据，获取对应的网页内容数据。

在一些实施例，所述对所述历史浏览页面进行抓取处理，得到对应的HTML网页数据，包括：

获取预设的爬虫规则；

根据所述爬虫规则对所述历史浏览页面进行抓取处理，得到对应的HTML网页数据。

在一些实施例，所述对所述HTML网页数据进行解析处理，得到网页解析数据，包括：

获取所述HTML网页数据对应的HTML标签；

根据所述HTML标签对所述HTML网页数据进行解析处理，得到网页解析数据。

在一些实施例，在所述对所述历史浏览页面进行抓取处理，得到对应的HTML网页数据之后，所述方法还包括：

获取所述HTML网页数据的抓取结果；所述抓取结果包括抓取失败结果；

根据所述抓取失败结果获取所述HTML网页数据的抓取状态和抓取时间；

根据所述抓取状态和所述抓取时间生成异常提示；所述异常提示用于提示所述HTML网页数据抓取异常。

在一些实施例，所述对所述键值对数据集进行分词处理，得到多个分词数据，包括：

获取预设的分词规则；

根据所述分词规则对所述键值对数据集进行分词处理，得到多个分词数据。

本公开实施例的第二方面提出了一种数据查询装置，包括：

请求获取模块：用于获取数据查询请求，所述数据查询请求包括数据查询指令和查询条件；

记录获取模块：用于根据所述数据查询指令获取目标浏览器在预设时间段内的历史浏览记录；所述历史浏览记录包括历史访问地址；

内容获取模块：用于根据所述历史访问地址访问对应的历史浏览页面，以获取呈现在所述历史浏览页面的网页内容数据；

数据构建模块：用于根据所述网页内容数据构建键值对数据集；

数据分词模块：用于对所述键值对数据集进行分词处理，得到多个分词数据；

页面查询模块：用于根据所述分词数据和所述查询条件，对所述历史浏览页面进行查询处理，得到目标查询结果。

本公开实施例的第三方面提出了一种计算机设备，所述计算机设备包括存储器和处理器，其中，所述存储器中存储有程序，所述程序被所述处理器执行时所述处理器用于执行如本申请第一方面实施例任一项所述的方法。

本公开实施例的第四方面提出了一种存储介质，该存储介质为计算机可读存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如本申请第一方面实施例任一项所述的方法。

本公开实施例提出的数据查询方法和装置、计算机设备、存储介质，通过获取数据查询请求，根据数据查询请求中的数据查询指令获取目标浏览器在预设时间段内的历史浏览记录，其中历史浏览记录包括历史访问地址，根据历史访问地址访问对应的历史浏览页面，以获取呈现在历史浏览页面的网页内容数据，根据网页内容数据构建键值对数据集，通过构建键值对数据集，能够快速定位到对应的网页内容数据，接着对键值对数据集进行分词处理，得到多个分词数据，通过多个分词数据能够使查询更为灵活，且能使搜索到的结果更为全面，根据分词数据和数据查询请求中的查询条件，对历史浏览页面进行查询处理，得到目标查询结果，本申请实施例能够直接根据数据查询指令，自动获取到历史浏览页面对应的目标查询结果，不需要采用手动查询网页数据的方式，降低了网页内容数据的查询难度，从而提高了网页数据的查询效率。

附图说明

图1是本公开实施例提供的数据查询方法的第一流程图；

图2是图1中的步骤S300的流程图；

图3是图2中的步骤S310的流程图；

图4是图2中的步骤S320的流程图；

图5是本公开实施例提供的数据查询方法的第二流程图；

图6是图1中的步骤S400的流程图；

图7是图1中的步骤S500的流程图；

图8为本公开实施例提供的数据查询装置的模块结构框图；

图9是本公开实施例提供的计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

Elasticsearch(ES)：是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便地使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值。Elasticsearch的实现原理主要分为以下几个步骤，首先用户将数据提交到Elasticsearch数据库中，再通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据，当用户搜索数据时候，再根据权重将结果排名，打分，再将返回结果呈现给用户。

轻型数据库(SQLite)：是一款轻型的数据库，是遵守ACID的关系型数据库管理***，它包含在一个相对小的C库中，能够支持Windows/Linux/Unix等等主流的操作***，同时能够跟很多程序语言相结合。

网络爬虫(webcrawler)：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

css选择器：css选择器用于对HTML页面中的元素实现一对一，一对多或者多对一的控制。通常，HTML页面中的元素通过CSS选择器进行控制。

正则表达式(regular expression)：正则表达式又称规则表达式，正则表达式是对字符串操作的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑；正则表达式描述了一种字符串匹配的模式(pattern)，可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

XML路径语言(XML Path Language，XPath)：XPath是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath被视为一个通用的、介于XPointer与XSL间的语法模型；当前XPath被开发者采用来当作小型查询语言。选取节点XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step来选取的。

Analyzer分词器：Analyzer分词器是专门处理分词的组件，一般包括三部分：Character Filters、Tokenizer(按照规则切分为单词)、Token Filters；其中，CharacterFilters主要用于处理原始文本,例如去除html、特殊字符；Tokenizer用于按照规则切分为单词；Token Filters用于将切分的单词加工,包括小写、删除stopwords(停用词),增加同义词等。

jieba分词器：jieba分词器也叫结巴分词器，是一种开源分词器；中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言交互的基础模块，在进行中文自然语言处理时，通常需要先进行分词，其中，常用jieba分词器进行分词；jieba分词算法使用了基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG)，再采用了动态规划查找最大概率路径，找出基于词频的最大切分组合，对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。jieba分词支持三种分词模式：第一种是精确模式,该精确模式试图将句子最精确地切开，适合文本分析：第二种是全模式，该全模式是把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；第三种是搜索引擎模式，该搜索引擎模式是在精确模式的基础上，对长词再词切分，提高召回率，适合用于搜索引擎分词。

Python：是一种编程语言，它提供高效的高级数据结构，能简单有效地面向对象编程。

实体类：主要是作为数据管理和业务逻辑处理层面上存在的类别，主要在分析阶段作为区分。实体类的主要职责是存储和管理***内部的信息，它也可以有行为，甚至很复杂的行为，但这些行为必须与它所代表的实体对象密切相关。

键值(key)：是windows中注册表中的概念。键值位于注册表结构链末端，和文件***的文件类似，包含当前计算机及应用程序执行时使用的实际配置信息和数据。键值包含几种数据类型，以适应不同环境的使用需求。在注册表中，是通过键和子键来管理各种信息。同时，在注册表里面的所有信息是以各种形式的键值项数据保存下来。在注册表编辑器的右窗口中，保存的都是各种键值项数据。键值项由键值名、数据类型和键值三部分组成，其格式为：“键值名：数据类型：键值”。

键值对：也称为名值对或属性值对，是一种基本的数据，表示在计算***和应用程序中。设计人员通常希望开放式的数据结构，可以在未修改现有的代码或数据的情况下进行未来扩展。在这种情况下，数据模型的全部或部分可以表示为元组的集合<name，value>；每个元素都是名值对，根据特定应用程序和程序员选择的实现。

统一资源定位***(Uniform Resource Locator，URL)：是因特网的万维网服务程序上用于指定信息位置的表示方法。

索引(index)：在关系数据库中，索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。索引提供指向存储在表的指定列中的数据值的指针，然后根据指定的排序顺序对这些指针排序。数据库使用索引以找到特定值，然后顺指针找到包含该值的行。这样可以使对应于表的SQL语句执行得更快，可快速访问数据库表中的特定信息。

beautifulSoup：是一个可以从HTML或XML文件中提取数据的Python库，它能够通过不同的转换器实现惯用的文档导航、文档查找和文档修改等操作。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

目前，用户在利用浏览器浏览网页的过程中，许多浏览器都具备自动记录用户行为的功能，例如记录用户浏览过的网页所对应的页面标题和访问地址。当用户需要查询某些网页数据时，可以根据页面标题和访问地址手动点开之前浏览过的网页，并手动查看页面中所需要的网页数据。但是，通过手动方式查询网页数据的查询效率不高。

基于此，本公开实施例提供一种数据查询方法和装置、计算机设备、存储介质，用于查询网页数据，能够提高网页数据的查询效率和准确性。

本公开实施例提供数据查询方法和装置、计算机设备、存储介质，具体通过如下实施例进行说明，首先描述本公开实施例中的数据查询方法。

本公开实施例提供的数据查询方法，涉及人工智能领域和大数据技术领域。本公开实施例提供的数据查询方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式***，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现数据查询方法的应用等，但并不局限于以上形式。

本公开实施例可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本公开实施例的数据查询方法可以应用于网络查询***中，该网络查询***包括客户端和服务器端，客户端可以用于获取用户触发的数据查询请求，该数据查询请求包括数据查询指令和查询条件，数据查询请求用于指示查询；从而客户端可以根据数据查询指令获取目标浏览器在预设时间段内的历史浏览记录，其中历史浏览记录包括历史访问地址；可以理解的是，历史浏览记录可以是存在在客户端本地的历史浏览记录，也可以是存在服务器端的历史浏览记录，本公开实施例在此不做限制；之后，客户端可以获取历史浏览页面对应的网页内容数据，并根据网页内容数据构建键值对数据集，再对键值对数据集进行分词处理，得到多个分词数据，从而可以根据分词数据和查询条件，对历史浏览页面进行查询处理，以得到目标查询结果。可选的，该客户端可以为一种终端，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。

参照图1，根据本公开实施例第一方面实施例的数据查询方法，包括但不限于包括步骤S100至步骤S600。

S100，获取数据查询请求。

在一些实施例的步骤S100中，获取数据查询请求，其中数据查询请求包括数据查询指令和查询条件，数据查询请求用于指示查询，即查询某位用户在一个或多个浏览器中所浏览过的网页，以及这些网页中的网页数据，查询条件用于指示需要查询那些内容，可以包括所需要查询网页的范围，以及查询关键词等，若需要从用户所浏览过的网页中查询网页标题，且网页标题包括“智慧医疗”，则查询条件的可以为：网页标题、智慧医疗，本公开实施例可根据查询条件自动检索出相关的网页数据。

S200，根据数据查询指令获取目标浏览器在预设时间段内的历史浏览记录，其中历史浏览记录包括历史访问地址，历史访问地址可以为URL地址，在本申请实施例中，可以通过点击URL地址的方式来获取历史浏览页面。

在一些实施例的步骤S200中，数据查询指令包含所需要查询的目标浏览器，根据数据查询指令获取目标浏览器在预设时间段内的历史浏览记录。其中，预设时间段可以根据实际需求自行设置，由于存储原因，不同的浏览器的历史浏览记录可保存的时间并不相同，若目标浏览器只能保存三个月的历史浏览记录，则可以将预设时间段设置为三个月。此外，还可以自定义预设时间段，用户想要查询目标浏览器在二个月内的历史浏览记录，则可以将预设时间段设置为二个月。

在实际应用中，获取目标浏览器的历史浏览记录的过程可以为：打开目标浏览器的历史记录文件所在的目录，例如目标浏览器为谷歌浏览器，可以通过下列目录，即chrom:C:\Users\用户名\AppData\Local\Google\Chrome\User Data\Default，找到历史记录文件，即History文件，其中History文件可以为SQLite嵌入式数据库，由于SQLite是一个进程内的轻量级嵌入式数据库，它的数据库就是一个文件，本申请实施例采用SQLite嵌入式数据库，不需要额外在***中配置，直接访问History文件就可以使用，使数据查询更为方便和快捷。找到History文件之后，需要利用程序加载并打开History文件。若用户为首次查询，则可以一次性获取所保存的全部历史浏览记录，例如网页地址和网页标题等。若用户并不是首次查询，则可以每隔一段时间，自动获取这段时间内的历史浏览记录。例如每天增量获取过去一天的历史浏览记录，从而能够保证历史浏览记录的完整性，进而提高查询的准确率。

S300，根据历史访问地址访问对应的历史浏览页面，以获取呈现在历史浏览页面的网页内容数据。

在一些实施例的步骤S300中，获取历史浏览页面对应的网页内容数据。具体地，网页内容数据主要包括该网页上的文字数据、图片数据、表格数据、音频数据和视频数据等。在本申请实施例中，主要收集的网页内容数据为网页上的文字数据，其中，网页上的文字数据主要以网页标题、网页正文、网页导航等的形式出现。由于目前的网页结构是非常复杂的，除网页正文之外，还包含了一些干扰因素，例如大量的广告等，会影响最终的查询效果，所以在本申请实施例中，重点考虑提取的网页内容数据为网页的正文信息。

S400，根据网页内容数据构建键值对数据集。

在一些实施例的步骤S400中，根据网页内容数据构建键值对数据集，其中，键值对数据集相当于多个索引，用于指向不同的网页内容数据，通过构建键值对数据集，能够快速定位到对应的网页内容数据。此外，这样做能够使一个数据查询请求可以搜索所有的键值对，支持全文查询，提高查询效率。

S500，对键值对数据集进行分词处理，得到多个分词数据。

在一些实施例的步骤S500中，对键值对数据集中的键值对数据进行分词处理，以使一个键值对数据包括多个分词数据，通过对键值对数据进行分词处理，能够实现模糊查询的效果。例如，原本的键值对数据为“智慧医疗”，通过“智慧医疗”可指向对应的网页内容数据，将“智慧医疗”进行分词处理，例如分成“智慧”和“医疗”，则通过“智慧”或者“医疗”就能指向对应的网页内容数据，通过多个分词数据能够使查询结果更为灵活，通过结合分词数据对历史浏览页面进行查询，不仅可以搜索到与查询条件相同的数据，也能搜索到与查询条件相关的数据，使搜索到的结果更为全面。

S600，根据分词数据和查询条件，对历史浏览页面进行查询处理，得到目标查询结果。

在一些实施例的步骤S600中，根据查询条件匹配对应的分词数据，通过分词数据搜索到对应的网页内容数据，即目标查询结果。

在一些实施例中，历史浏览记录还包括历史访问地址，如图2所示，步骤S300具体包括但不限于步骤S310至步骤S330。

S310，对历史浏览页面进行抓取处理，得到对应的HTML网页数据。

在一些实施例的步骤S320中，对历史浏览页面进行抓取处理，得到对应的HTML网页数据，其中HTML网页数据包括一系列标签。通过这些标签可以将历史浏览页面上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML数据主要包括脚本数据和样式表的数据，以及众多类型的属性值，包括但不限于ID、名称、数字、长度单位、语言、媒体描述符、颜色、字符编码、日期和时间等。在实际应用中，可利用网络爬虫工具，爬取历史浏览页面的URL所对应的HTML网页数据。

S320，对HTML网页数据进行解析处理，得到网页解析数据。

在一些实施例的步骤S320中，获取到HTML网页数据之后，由于其仍为HTML代码的格式，所以需要对HTML网页数据进行解析处理，以得到网页解析数据，即网页的具体的内容数据，而不是代码数据。具体地，可以利用正则表达式获取HTML网页数据，例如正文内容数据，假设HTML网页数据的内容为：“桥边姑娘你的芬芳我把你放心上不想让你流浪”，需要说明的是，本申请实施例所需要获取的是尖括号括起来的一对标签中间的数据，如上述例子中的起始标签，结束标签，这里的p表示的HTML标签中的p标签，在HTML标签中，p标签表示段落标签。结合上述例子的需求，制定对应的正则表达式“(.*？)”，该表达式用于获取p标签之间的内容，利用正则表达式对上述HTML网页数据进行解析处理之后，得到的网页解析数据为“桥边姑娘你的芬芳我把你放心上不想让你浏览”。需要说明的是，具体地解析处理方式还需要根据实际需求所指定，本领域技术人员可进行适应性调整，在此不再赘述。

在实际应用中，利用网络爬虫工具抓取HTML网页数据之后，可以利用python自带的HTML解析库，例如beautifulSoup，来解析HTML网页数据，以取得网页解析数据。此外，还可以利用页面解析器对HTML网页数据进行解析处理，具体为：通过页面解析器从HTML网页数据中取得有价值的或者感兴趣的数据和新的URL列表。其中，数据解析常用的手段主要包括基于css选择器、正则表达式和xpath的规则提取。

S330，根据网页解析数据，获取对应的网页内容数据。

在一些实施例的步骤S330中，步骤S320获取到历史浏览页面所对应的所有文字数据，但是此时的文字数据可能还不符合要求。在对HTML网页数据进行解析之后，还会对网页解析数据进行一定的清洗或自定义处理，从而将请求到的非结构数据转化为需要的结构化数据。根据步骤S320所抓取到的HTML网页数据可能出现一些乱码，或者没解析完全的情况，例如包含多余的HTML标签和广告信息等，此时还需要进一步去除，从而获取到相对规范的网页内容数据。

在一些实施例中，如图3所示，步骤S310具体包括但不限于步骤S311至步骤S312。

S311，获取预设的爬虫规则。

在一些实施例的步骤S311中，获取预设的爬虫规则，其中预设的爬虫规则包括以抓取时间、网页标签等维度所设置的用于进行网页内容数据抓取的规则。

S312，根据爬虫规则对历史浏览页面进行抓取处理，得到对应的HTML网页数据。

在一些实施例的步骤S312中，在本申请实施例中，若只需要抓取历史浏览页面中的某一类型的HTML数据，例如需要在历史浏览页面中抓取图像类型的HTML数据，则根据该需求制定对应的爬虫规则，例如，可以根据图像的地址，例如后缀名并结合正则表达式设置爬虫规则，具体地，可以将爬虫规则设置为：“(<img.*？src＝"(.*？\.(？:jpg|jpeg|gif|bmp|png))")”，上述爬虫规则用于筛选出HTML网页数据中，是否包含jpg或jpeg或gif或bmp或png字段的HTML数据，若包含则提取对应的HTML数据，也即HTML网页数据。

在一些实施例中，如图4所示，步骤S320具体包括但不限于步骤S321至步骤S322。

S321，获取HTML网页数据对应的HTML标签；

在一些实施例的步骤S321中，获取HTML网页数据对应的HTML标签，例如图像标签。

S322，根据HTML标签对HTML网页数据进行解析处理，得到网页解析数据。

在一些实施例的步骤S322中，根据HTML标签，例如图像标签对HTML网页数据，例如图像网页数据进行解析处理，得到网页解析数据，也即具体的图像，而非用HTML所表示的代码语言。

在一些实施例中，如图5所示，在步骤S310之后，本公开实施例的数据查询方法，还包括但不限于包括步骤S340至步骤S360。

S340，获取HTML网页数据的抓取结果。

S350，根据抓取失败结果获取HTML网页数据的抓取状态和抓取时间。

在一些实施例的步骤S350中，由于在抓取HTML网页数据时，对应的网页信息可能发生了变动，为了能够及时了解网页的变动信息，所以需要实时获取HTML网页的抓取结果。例如该网页内容因为违规而被删除，此时的页面是不能正常访问的，从而导致抓取失败，或者只能抓取到404页面的情况，这些情况都表明HTML网页数据抓取失败。

S360，根据抓取状态和抓取时间生成异常提示。

在一些实施例的步骤S360中，若抓取状态为抓取失败，则记录抓取HTML网页数据的抓取时间，并根据抓取状态和抓取时间生成异常提示，用于提示用户HTML网页数据抓取出现异常。此外，由于抓取失败时，会搜索不到对应的HTML网页数据，根据抓取状态和抓取时间便于后续分辨HTML网页数据搜索不到的原因，从而能够及时进行处理。

在一些实施例中，如图6所示，步骤S400具体包括但不限于步骤S410至步骤S420。

S410，将网页内容数据进行封装处理，得到对应的实体对象。

在一些实施例的步骤S410中，将网页内容数据根据分类进行划分，并对每一个分类都分别按照标题和内容的方式进行封装处理，得到对应的实体对象。在实际应用中，可以将历史浏览页面的历史记录标题、历史访问地址、历史访问时间、网页抓取时间、网页抓取状态以及网页内容数据包装成一个用于记录信息的实体对象。

S420，根据预设的映射规则对实体对象进行转换处理，得到对应的键值对数据集。

在一些实施例的步骤S420中，根据预设的映射规则对实体对象进行转换处理，得到对应的键值对数据，例如可将某一实体对象的某些数据抽取出来，且结合键值对特有的格式对这些数据进行转换处理，得到对应的键值对数据集，其中键值对数据集与实体对象存在映射关系，在进行查询时，根据键值对数据集就能够映射到对应的实体对象，并且获取到实体对象所存储的数据，提高查询的效率。其中映射规则指的是，两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素a，B中总有唯一的一个元素b与它对应，这种对应为从A到B的映射，映射规则f为A→B。在本申请实施例中，多个实体对象可构成集合C，键值对数据集可构成集合D，对于集合C中每一个实体对象c，在集合D中总有唯一的一个键值对数据d与它对应，这种对应为从C到D的映射。在确定实体对象与键值对数据的映射关系之后，就能够对实体对象进行转换处理，得到对应的键值对数据，需要说明的是，其转换处理指的是从实体对象中所封装的数据中抽取一部分数据，转换成对应的键值对数据，例如从该实体对象中抽取出前30个字符的数据，就能得到对应的键值对数据，此时通过键值对数据就能够映射到对应的实体对象，且能够获取该实体对象所封装的全部数据。

在一些实施例中，如图7所示，步骤S500具体包括但不限于步骤S510至步骤S520。

S510，获取预设的分词规则；

在一些实施例的步骤S510中，获取预设的分词规则，在实际应用中，分词规则可包括正向最大匹配规则、逆向最大匹配规则和双向最大匹配规则等，用户也可根据实际需求确定不同的分词规则，在此不再赘述。

其中，正向最大匹配规则的基本思想为：假定分词中的最长词有i个汉字字符，则用被处理文档的当前字符串的前i个字符作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字符串进行匹配处理。如此进行下去，直到匹配成功，即切分出一个词或剩余字符串的长度为零为止。

逆向最大匹配规则的基本思想为：假定分词中的最长词有i个汉字字符，则从被处理的文档末端开始匹配，每次取末端的i个字符(i为词典中最长词数)作为匹配字段。若匹配失败，则去掉匹配字段的最前面一个字，继续匹配。相应地，它使用的分词词典是逆序词典，其中的每个词条都将按逆序方式存放。

双向最大匹配规则的基本思想为：将正向最大匹配规则得到的分词结果和逆向最大匹配规则得到的结果进行比较，从而决定正确的分词规则。

在一些实施例中，还能直接利用分词器对键值对数据集进行分词。在实际应用中，可以采用Analyzer分词器对键值对数据进行分词，其中Analyzer的作用是把一段文本中的词按规则取出所包含的所有词，对应的是Analyzer类，其中Analyzer类是一个抽象类，切分词的具体规则是由子类实现的，所以对于不同的语言和规则，要用不同的分词器。除了Analyzer分词器之外，还可采用Lucene05-分词器和jieba分词器等，本领域技术人员可根据实际需求设置或者选择不同的匹配规则以及分词器，在此不再赘述。

S520，根据分词规则对键值对数据集进行分词处理，得到多个分词数据。

在一些实施例的步骤S520中，根据分词规则对键值对数据集进行分词，得到多个分词数据。除了利用分词规则对键值对数据集进行分词之外，还可以利用Elasticsearch对每个键值对数据构建索引，并通过Elasticsearch的bulk接口将键值对数据批量导入Elasticsearch，之后Elasticsearch会自动对所有的键值对数据进行中文分词，保证历史记录的标题、URL、网页内容数据等可以支持全文搜索，即一个搜索可以搜索所有的键值对，并在Elasticsearch中管理记录索引的保存时间长度，便于回溯。

在一些实施例中，保存用户每次查询的记录，以及对应的目标查询结果，当用户再次发起查询请求时，可直接从用户的查询记录中匹配相应的目标查询结果，提高查询效率。

在一些实施例中，结合Elasticsearch对本申请实施例的网页数据的查询过程进行举例，需要理解的是，下面描述仅是示例性说明，而不是对本申请的具体限制。

获取历史浏览记录查询指令，根据历史记录查询指令获取浏览器的历史浏览记录，并抓取历史浏览记录对应的网页信息，接着将历史记录的标题、访问地址URL、访问时间和网页信息等数据批量导入Elasticsearch，通过Elasticsearch自身的检索服务单元接收待检索的关键词，并通过Elasticsearch根据关键词对网页进行搜索，得到目标检索结果。

本公开实施例提出的数据查询方法和装置，通过获取数据查询请求，根据数据查询请求中的数据查询指令获取目标浏览器在预设时间段内的历史浏览记录，其中历史浏览记录包括历史访问地址，根据历史访问地址访问对应的历史浏览页面，以获取呈现在历史浏览页面的网页内容数据，根据网页内容数据构建键值对数据集，通过构建键值对数据集，能够快速定位到对应的网页内容数据，接着对键值对数据集进行分词处理，得到多个分词数据，通过多个分词数据能够使查询更为灵活，且能使搜索到的结果更为全面，根据分词数据和数据查询请求中的查询条件，对历史浏览页面进行查询处理，得到目标查询结果，本申请实施例能够直接根据数据查询指令，自动获取到历史浏览页面对应的目标查询结果，不需要采用手动查询网页数据的方式，降低了网页内容数据的查询难度，从而提高了网页数据的查询效率。

本公开实施例还提供一种数据查询装置，如图8所示，可以实现上述数据查询方法，该装置包括：请求获取模块710、记录获取模块720、内容获取模块730、数据构建模块740、数据分词模块750和页面查询模块760，其中，请求获取模块710用于获取数据查询请求；记录获取模块720用于根据数据查询请求中的数据查询指令获取目标浏览器在预设时间段内的历史浏览记录，其中历史浏览记录包括历史访问地址，内容获取模块730获取历史浏览页面对应的网页内容数据；数据构建模块740用于根据网页内容数据构建键值对数据集，通过构建键值对数据集，能够快速定位到对应的网页内容数据；数据分词模块750用于对键值对数据集进行分词处理，得到多个分词数据，通过多个分词数据能够使查询更为灵活，且能使搜索到的结果更为全面；页面查询模块760用于根据分词数据和数据查询请求中的查询条件，对历史浏览页面进行查询处理，得到目标查询结果。本申请实施例能够直接根据数据查询指令，自动获取到历史浏览页面对应的目标查询结果，不需要采用手动查询网页数据的方式，降低了网页内容数据的查询难度，从而提高了网页数据的查询效率。

在一些实施例中，内容获取模块730还用于根据历史访问地址获取历史浏览页面，并对历史浏览页面进行抓取处理，得到对应的HTML网页数据；从而可以对HTML网页数据进行解析处理，得到网页解析数据，根据网页解析数据，获取对应的网页内容数据。

在一些实施例中，内容获取模块730还用于获取预设的爬虫规则；根据爬虫规则对历史浏览页面进行抓取处理，得到对应的HTML网页数据。

在一些实施例中，内容获取模块730还用于获取HTML网页数据对应的HTML标签，并根据HTML标签对HTML网页数据进行解析处理，得到网页解析数据。

在一些实施例中，数据构建模块740还用于将网页内容数据进行封装处理，得到对应的实体对象；根据预设的映射规则对实体对象进行转换处理，得到对应的键值对数据集。

在一些实施例中，数据分词模块750还用于获取预设的分词规则；根据分词规则对键值对数据集进行分词处理，得到多个分词数据。

本公开实施例的数据查询装置用于执行上述实施例中的数据查询方法，其具体处理过程与上述实施例中的数据查询方法相同，此处不再一一赘述。

本公开实施例还提供了一种计算机设备，包括：

至少一个处理器，以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现如本申请第一方面实施例中任一项的方法。

下面结合图9对计算机设备的硬件结构进行详细说明。该计算机设备包括：处理器810、存储器820、输入/输出接口830、通信接口840和总线850。

处理器810，可以采用通用的中央处理器(Central ProcessinUnit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器820，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器820可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行本公开实施例的数据查询方法；

输入/输出接口830，用于实现信息输入及输出；

通信接口840，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线850，在设备的各个组件(例如处理器810、存储器820、输入/输出接口830和通信接口840)之间传输信息；

其中处理器810、存储器820、输入/输出接口830和通信接口840通过总线850实现彼此之间在设备内部的通信连接。

本公开实施例还提供一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行本公开实施例的数据查询方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1至图7中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本公开实施例的优选实施例，并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本公开实施例的权利范围之内。

Claims

1.一种数据查询方法，其特征在于，包括：

根据所述网页内容数据构建键值对数据集；

对所述键值对数据集进行分词处理，得到多个分词数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述网页内容数据构建键值对数据集，包括：

将所述网页内容数据进行封装处理，得到对应的实体对象；

3.根据权利要求1所述的方法，其特征在于，所述获取呈现在所述历史浏览页面的网页内容数据，包括：

对所述HTML网页数据进行解析处理，得到网页解析数据；

根据所述网页解析数据，获取对应的网页内容数据。

4.根据权利要求3所述的方法，其特征在于，所述对所述历史浏览页面进行抓取处理，得到对应的HTML网页数据，包括：

获取预设的爬虫规则；

5.根据权利要求3所述的方法，其特征在于，所述对所述HTML网页数据进行解析处理，得到网页解析数据，包括：

获取所述HTML网页数据对应的HTML标签；

6.根据权利要求3所述的方法，其特征在于，在所述对所述历史浏览页面进行抓取处理，得到对应的HTML网页数据之后，所述方法还包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述对所述键值对数据集进行分词处理，得到多个分词数据，包括：

获取预设的分词规则；

8.一种数据查询装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，其中，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，在所述计算机程序被计算机执行时实现如权利要求1至7中任一项所述的方法。