CN116701813A

CN116701813A - 一种数据检索方法、***、终端及存储介质

Info

Publication number: CN116701813A
Application number: CN202310974098.XA
Authority: CN
Inventors: 龙泽灵; 李五妍; 姜忠群; 林勇; 安莹玉
Original assignee: Beijing Enterprises Water China Investment Co Ltd
Current assignee: Beijing Enterprises Water China Investment Co Ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-09-05

Abstract

本申请涉及一种数据检索方法、***、终端及存储介质，其属于数据检索领域；其中，一种数据检索方法包括获取网址列表；对所述网址列表进行遍历得到目标文件信息；建立预设关键词列表；依据预设关键词列表，从所述目标文件信息中检索得到目标关键词信息，并存储所述目标关键词信息。本申请提高了对文件中关键词的检索效率。

Description

一种数据检索方法、***、终端及存储介质

技术领域

本申请涉及数据检索领域，尤其是涉及一种数据检索方法、***、终端及存储介质。

背景技术

目前，人们如果想要检索某一类型的文件中是否涉及某些关键词时，通常会先利用相关的数据库类型网站检索文件，下载文件，并对下载后的文件采取关键词人工查找行为；但是这种方式存在一定的弊端，首先就是在检索文件时，由于数据库中的文件较多，检索较为耗时，而在检索到文件时，对于检索出来的众多文件，从其中查找到关键词也是耗时耗力的一种行为。

发明内容

本申请提供一种数据检索方法、***、终端及存储介质，具有提高对文件中关键词的检索效率的特点。

本申请目的一是提供一种数据检索方法。

本申请的上述申请目的一是通过以下技术方案得以实现的：

一种数据检索方法，包括：获取网址列表；对所述网址列表进行遍历得到目标文件信息；建立预设关键词列表；

依据预设关键词列表，从所述目标文件信息中检索得到目标关键词信息，并存储所述目标关键词信息。

本申请在一较佳示例中可以进一步配置为，所述获取网址列表包括：

根据预设文件名信息确定文件名关键词列表；

遍历所述文件名关键词列表和搜索引擎得到网址链接信息；

将所述网址链接信息进行转换得到原网址链接信息；

根据所述原网址链接信息得到网址列表。

本申请在一较佳示例中可以进一步配置为，在根据所述原网址链接信息得到网址列表之前，还包括，对所述原网址链接信息进行去重和筛选。

本申请在一较佳示例中可以进一步配置为，所述对所述网址列表进行遍历得到目标文件信息包括：

识别所述网址列表得到网页内容类型信息；

根据预设网页处理规则和所述网页内容类型信息得到目标文件信息。

本申请在一较佳示例中可以进一步配置为，所述预设网页处理规则包括：

若网页格式为HTML格式，且网页存在doc/docx/pdf类文件下载链接，则将所述doc/docx/pdf类文件下载至第一预设路径；

若网页格式为HTML格式，且网页不存在doc/docx/pdf类文件下载链接，则获取网页文本信息，并将所述网页文本信息存储至第二预设路径；

若网页格式为PDF/WORD格式，则将网页文件下载至第三预设路径；

若网页格式为除HTML、PDF、WORD外其他格式，则导出网址，并将网址的网页内容存储至第四预设路径。

本申请在一较佳示例中可以进一步配置为：所述预设关键词列表包括主要关键词列表和次要关键词列表。

本申请在一较佳示例中可以进一步配置为，所述依据预设关键词列表，从所述目标文件信息中检索得到目标关键词信息，并存储所述目标关键词信息包括：

从所述目标文件信息中提取文本信息和标点信息；

依据所述主要关键词列表，对所述文本信息进行遍历得到主要关键词的位置信息；

根据所述文本信息、位置信息和标点信息确定主要关键词的所在句子；

根据所述次要关键词列表判断，所述主要关键词的所在句子中是否含有次要关键词；

若是，将所述主要关键词的所在句子存储至表格文件；

否则，不存储所述主要关键词的所在句子。

本申请目的二是提供一种数据检索***。

本申请的上述申请目的二是通过以下技术方案得以实现的：

一种数据检索***，包括：

获取模块，用于获取网址列表；

遍历模块，用于对所述网址列表进行遍历得到目标文件信息；

建立模块，用于建立预设关键词列表；

检索模块，用于依据预设关键词列表，从所述目标文件信息中检索得到目标关键词信息，并存储所述目标关键词信息。

本申请目的三是提供一种终端。

本申请的上述申请目的三是通过以下技术方案得以实现的：

一种终端，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行的上述数据检索方法的计算机程序指令。

本申请目的四是提供一种计算机介质，能够存储相应的程序。

本申请的上述申请目的四是通过以下技术方案得以实现的：

一种计算机可读存储介质，存储有能够被处理器加载并执行上述任一种数据检索方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：

通过对网址列表进行遍历得到目标文件信息，然后根据预设关键词列表从目标文件信息中检索到目标关键词；对网址列表进行遍历的操作保证了获取到足够的目标文件，不会出现目标文件遗漏的情况；然后根据主要关键词对目标文件进行第一次筛选，根据次要关键词对目标文件进行第二次筛选，从而保证了提取到的关键词符合要求，降低了出现关键词检索错误的可能性；通过上述方式，实现了对数据的快速、便利、高效的检索，降低了出现漏检、错检的可能性，提高了对文件中关键词的检索效率。

附图说明

图1是本申请实施例中一种数据检索方法的流程示意图。

图2是本申请实施例中一种数据检索***的结构示意图。

附图标记说明：1、获取模块；2、遍历模块；3、建立模块；4、检索模块。

具体实施方式

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域人员在阅读完本说明书后可以根据需要对本实施例作出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

下面结合说明书附图对本申请实施例做进一步详细描述。

本申请提供一种数据检索方法，所述方法的主要流程描述如下。

如图1所示：

步骤S101：获取网址列表。

具体地，根据预设文件名信息确定文件名关键词列表；遍历所述文件名关键词列表得到文件名关键词信息；根据所述文件名关键词信息和搜索引擎得到网址链接信息；将所述网址链接信息进行转换得到原网址链接信息；根据所述原网址链接信息得到网址列表。

在本申请实施例中，先根据预设文件名信息确定文件名关键词列表，即根据预先设定的文件名选择关键词，并将关键词整理成关键词列表；再通过文件名关键词信息，经由搜索引擎找到相关联的网址链接；通过对网址链接的转换处理得到原网址链接信息；最终将原网址链接信息整理后得到网址列表。

需要注意的是，在上述过程中，得到了原网址链接信息之后，需要对原网址链接信息进行去重和筛选操作；例如，在处理网址链接时，限定文件来源为网站，那么应该仅保留gov网址链接，用于保证信息来源的有效性；在对网址链接进行筛选时，先判断是否限定了链接来源范围，如果限定，那么根据给定来源范围网址的关键词信息进行网址筛选，如果没有限定，那么不需要进行筛选操作。

在本申请实施例中，利用搜索引擎和文件名关键词列表找到相关联的网址链接的具体过程如下；根据文件名关键词列表确定文件名关键词信息；然后将文件名关键词和搜索引擎URL拼接，再利用Request库获取搜索页面内容；提取页面内容中的所有网址链接；对网址链接进行判断，判断链接是否有跳转，如果有，那么继续获取跳转后的链接；通过这种方式，可以保证获取到的网址链接的全面性，降低了对网址链接遗漏的可能性。

步骤S102：对所述网址列表进行遍历得到目标文件信息。

具体地，识别所述网址列表得到网页内容类型信息；根据预设网页处理规则和所述网页内容类型信息得到目标文件信息。

在本申请实施例中，网页处理规则包括，若网页格式为HTML格式，且网页存在doc/docx/pdf类文件下载链接，则将所述doc/docx/pdf类文件下载至第一预设路径；若网页格式为HTML格式，且网页不存在doc/docx/pdf类文件下载链接，则获取网页文本信息，并将所述网页文本信息存储至第二预设路径；若网页格式为PDF/WORD格式，则将网页文件下载至第三预设路径；若网页格式为除HTML、PDF、WORD外其他格式，则导出网址，并将网址的网页内容存储至第四预设路径。

通过对网页格式及网页内容的分析，完成对网页内文件及文本的下载，并将不同类型的网页对应的文件及文本存储至不同路径中，方便存取和管理，也便于后续操作处理；可以理解的是，在上述过程中，若网页格式为除HTML、PDF、WORD外其他格式，在导出网址之后，可以通过人工处理的方式，将网址的网页内容存储至第四预设路径。

步骤S103：建立预设关键词列表。

在本申请实施例中，预设关键词列表包括主要关键词列表和次要关键词列表；那么建立预设关键词列表就是指分别建立主要关键词列表和次要关键词列表；这里的主要关键词列表是用于初步筛选关键词所在句，次要关键词列表是用于对主要关键词所在句进行二次筛选；例如，以检索文件中是否含有再生水相关政策为例，目标文件中的主要关键词应该为“再生水”；但是在检索主要关键词“再生水”的过程中，需要避免包含“再生水”但是缺少有效信息的干扰语句；而常见的再生水政策相关语句包含“工业”“绿化”“率”及“%”等字段，因此将以上字段放入次要关键词列表，通过上述次要关键词进行二次筛选，提高了关键词筛选效率。

步骤S104：依据预设关键词列表，从所述目标文件信息中检索得到目标关键词信息，并存储所述目标关键词信息。

具体地，从所述目标文件信息中提取文本信息和标点信息；依据所述主要关键词列表，对所述文本信息进行遍历得到主要关键词的位置信息；根据所述文本信息、位置信息和标点信息确定主要关键词的所在句子；根据所述次要关键词列表判断，所述主要关键词的所在句子中是否含有次要关键词；若是，将所述主要关键词的所在句子存储至表格文件；否则，不存储所述主要关键词的所在句子。

需要注意的是，在对句子中的主要关键词进行检索时，可以认定是用预设格式的存储空间将单个目标文件中的所有含有主要关键词且包含次要关键词的句子单独保存，这里的存储空间可以视为一个列表；然后将各个存储空间合并成为一个表格文件，该表格文件即为表格文件，表格文件中含有主要关键词在所有文件中的检索结果。

在本申请实施例中，在得到预设关键词列表和目标文件信息之后，对于预设关键词列表中的每个主要关键词，在对应的目标文件中进行遍历搜索；然后提取主要关键词所在句子，将其存储在新的文件中；具体地，先将目标文件进行格式转换，将文件的格式转换为docx格式，然后对文件进行读取，提取文件中的文本信息和标点信息，将文本信息和标点信息拼接形成字符串，这里的文本信息是指非空格文本；然后对文本信息进行检索，检测文本信息中主要关键词的位置信息，将主要关键词的位置信息存储至关键词位置列表中。

在确定了主要关键词的位置之后，根据提取的文本信息和标点信息，可以确定主要关键词所在位置左右两侧的句号所在位置，进而根据句号的位置提取主要关键词所在句子；需要注意的是，这里需要筛查主要关键词所在位置左右两侧的句号所在位置，而不是标点符号所在位置，因此在检测到标点符号后，需要判断该标点符号是否为句号，若是则将其标记，否则，查找下一个标点符号。

然后根据次要关键词列表判断，主要关键词所在句子中是否含有次要关键词；如果含有，那么就将主要关键词的所在句子存储在预设格式的表格文件中；这里的表格文件中，每一列的表头为检索的文件名称，每一列的每一行均为主要关键词所在句子。

可以理解的是，这里通过对文件的文本信息和标点信息的采集整理，实现了对文件中主要关键词所在句子的提取，然后利用次要关键词列表对主要关键词所在句子进行二次筛选，实现了对缺乏有效信息语句的过滤，提高了关键词检索的准确性和精确度，提高了关键词检索的效率。

可以理解的是，在对文件的关键词进行检索的过程中，有些文件中的关键词并不是以关键词的形式呈现的，但是在文件中所代表的含义与想要检索的关键词相同，因此需要针对这种形式的相似关键词进行检索。

具体地，根据关键词确定相似词；对文件进行遍历得到相似词的数量信息和位置信息；获取文件的总字数信息；获取相似词的字数信息；根据相似词的数量信息和字数信息确定文件中出现的相似词的总字数信息；根据相似词的总字数信息和文件的总字数信息确定相似词的字数占比；根据字数占比和预设比例范围确定相似词的出现频率；根据相似词的出现频率和预设频率等级确定相似词的频率等级；频率等级包括低、中和高；根据相似词的频率等级和预设相似等级确定相似词的重要等级；预设相似等级包括低、中和高；重要等级包括低、中和高。

若相似词的重要等级为高，则相似词为该文件的核心词；根据相似词的位置信息确定相似词两侧的句号所在位置，并提取两个句号之间的相似词所在句子。

若相似词的重要等级为中，则对相似词和关键词进行相似度分析；判断相似词和关键词是否存在相同字，若是，则分别分析相似词和关键词的词义；判断二者词义是否相同，若相同，则随机抽选包含相似词的句子，确定每个句子的句义；利用关键词替代相似词，并确定替代后的句子的句义；若前后句子的句义相同，则将该句子标记为关键句子，提取并存储关键句子。

若相似词的重要等级为低，则放弃该相似词。

在本申请实施例中，相似词与关键词之间存在相似等级，相似等级包括低、中和高；若相似词的频率等级和相似等级均为高，则相似词的重要等级为高；若相似词的频率等级和相似等级均为低，则相似词的重要等级为低；否则，相似词的重要等级为中。

对于重要等级为高的相似词而言，在提取其所在句子后，还需对该句子两侧的句子进行进一步分析。

具体地，判断相似词所在句子的开头或结尾是否存在连词，若存在，则将相似词所在句子两侧的句子提取并标记为特殊句子；将特殊句子与对应的相似词所在句子绑定存储；对特殊句子进行语义分析，确定其语义是否为对相似词所在句子的解释说明；提取特殊句子中的特殊关键词，将该特殊关键词与相似词绑定存储；通过这种方式，可以使得在查找关键词时，能够将与关键词绑定的相关信息同步查看，提高了信息查询的便捷性。

本申请还提供一种数据检索***，如图2所示，一种数据检索***包括，获取模块1，用于获取网址列表；遍历模块2，用于对所述网址列表进行遍历得到目标文件信息；建立模块3，用于建立预设关键词列表；检索模块4，用于依据预设关键词列表，从所述目标文件信息中检索得到目标关键词信息，并存储所述目标关键词信息。

为了更好地执行上述方法的程序，本申请还提供一种终端，终端包括存储器和处理器。

其中，存储器可用于存储指令、程序、代码、代码集或指令集。存储器可以包括存储程序区和存储数据区，其中存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令以及用于实现上述数据检索方法的指令等；存储数据区可存储上述数据检索方法中涉及到的数据等。

处理器可以包括一个或者多个处理核心。处理器通过运行或执行存储在存储器内的指令、程序、代码集或指令集，调用存储在存储器内的数据，执行本申请的各种功能和处理数据。处理器可以为特定用途集成电路、数字信号处理器、数字信号处理装置、可编程逻辑装置、现场可编程门阵列、中央处理器、控制器、微控制器和微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

本申请还提供一种计算机可读存储介质，例如包括：U盘、移动硬盘、只读存储器（Read Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。该计算机可读存储介质存储有能够被处理器加载并执行上述数据检索方法的计算机程序。

以上描述仅为本申请得较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据检索方法，其特征在于，包括：

获取网址列表；

对所述网址列表进行遍历得到目标文件信息；

建立预设关键词列表；

2.根据权利要求1所述的数据检索方法，其特征在于，所述获取网址列表包括：

根据预设文件名信息确定文件名关键词列表；

遍历所述文件名关键词列表和搜索引擎得到网址链接信息；

将所述网址链接信息进行转换得到原网址链接信息；

根据所述原网址链接信息得到网址列表。

3.根据权利要求2所述的数据检索方法，其特征在于，在根据所述原网址链接信息得到网址列表之前，还包括，对所述原网址链接信息进行去重和筛选。

4.根据权利要求1所述的数据检索方法，其特征在于，所述对所述网址列表进行遍历得到目标文件信息包括：

识别所述网址列表得到网页内容类型信息；

5.根据权利要求4所述的数据检索方法，其特征在于，所述预设网页处理规则包括：

6.根据权利要求1所述的数据检索方法，其特征在于，所述预设关键词列表包括主要关键词列表和次要关键词列表。

7.根据权利要求6所述的数据检索方法，其特征在于，所述依据预设关键词列表，从所述目标文件信息中检索得到目标关键词信息，并存储所述目标关键词信息包括：

从所述目标文件信息中提取文本信息和标点信息；

若是，将所述主要关键词的所在句子存储至表格文件；

否则，不存储所述主要关键词的所在句子。

8.一种数据检索***，其特征在于，包括：

获取模块（1），用于获取网址列表；

遍历模块（2），用于对所述网址列表进行遍历得到目标文件信息；

建立模块（3），用于建立预设关键词列表；

检索模块（4），用于依据预设关键词列表，从所述目标文件信息中检索得到目标关键词信息，并存储所述目标关键词信息。

9.一种终端，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1-7中任一种方法的计算机程序指令。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1-7中任一种方法的计算机程序。