CN117609325A

CN117609325A - 一种前端拼音库模糊筛选***、方法和装置

Info

Publication number: CN117609325A
Application number: CN202311441813.XA
Authority: CN
Inventors: 刘星星; 刘曦冉; 姜翰
Original assignee: Aerospace Science And Technology Network Information Development Co ltd
Current assignee: Aerospace Science And Technology Network Information Development Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-27

Abstract

本说明书公开了一种前端拼音库模糊筛选方法、***和装置，涉及模糊筛选领域，包括：导入文字词条数据包；将所述检索数据库中的文字词条转化为向量数据，并基于所述向量数据建立索引；获取查询请求，基于相似度计算方法，从所述索引中选择与所述向量语句相似的初步检索结果；将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果；将所述检索结果按预设的规则进行排序，并按顺序展示模糊筛选结果。基于此，通过前端实现名称模糊搜索可以减轻服务器的计算压力；其次，通过拼音进行模糊筛选，可以准确实现中文的各种形音字、谐音字的检索需求。

Description

一种前端拼音库模糊筛选***、方法和装置

技术领域

本发明涉及模糊筛选领域，具体涉及一种前端拼音库模糊筛选方法、***和装置。

背景技术

名称模糊搜索是Web前端开发中常用的功能之一，它允许用户根据输入的关键词搜索名称列表中的相似项。

早期的前端实现名称模糊搜索的方式主要是通过在前端代码中手动编写逻辑实现。在输入框中输入关键字后，前端代码会从名称列表中逐一匹配每一项，判断是否符合要求，并返回符合要求的结果。

随着互联网和移动设备的快速普及，人们的社交和生活方式发生了很大变化。在线社交和购物等应用程序的流行，使得人们需要在电子平台上使用各种语言和字符。例如，同一名称数据库中包含中文名称和英文书名称，在这样的情况下，当我们需要从一个包含中英文的名称列表中搜索出与目标名称相同、相近、包含谐音的名称数组时，常规模糊搜索会消耗大量的计算资源且速度较慢。

因此，需要一种模糊筛选算法可以在中英文混合的字符串中快速搜索出与目标名称相同、相近、包含谐音的名称数组。

发明内容

本发明提供一种前端拼音库模糊筛选方法、***和装置，用以解决在中文字符串中快速搜索出与目标名称相同、相近、包含谐音的名称数组的问题。

为实现上述目的，本发明采用如下技术方案：

本发明提供了一种前端拼音库模糊筛选方法，包括：

导入文字词条数据包，所述文字词条数据包用于扩充检索数据库；

将所述检索数据库中的文字词条转化为向量数据，并基于所述向量数据建立索引；

获取查询请求，基于相似度计算方法，从所述索引中选择与所述向量语句相似的初步检索结果；

将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果；

将所述检索结果按预设的规则进行排序，并按顺序展示模糊筛选结果。

可选的，

在导入文字词条数据包后，检测到导入的文字词条数据包是否存在与检索数据库重复的文字词条，并删除文字词条数据包中的重复词条。

可选的，

所述导入文字词条数据包具体包括：

获取文本文档，并根据所述文本文档生成多个文字词条；

获取Excel文档，并解析所述Excel文档，生成多个文字词条；

获取图片数据，并识别图片中的文字信息，生成多个文字词条。

可选的，

所述将所述检索数据库中的文字词条转化为向量数据，并基于所述向量数据建立索引，具体包括：

根据向量化算法，将文字词条转化为向量数据；

根据Annoy树和所述向量数据，建立索引。

可选的，

所述获取查询请求，基于相似度计算方法，从所述索引中选择与所述向量语句相似的初步检索结果，具体包括：

获取用户输入的查询语句，并将所述查询语句转化为向量语句；

基于相似度计算方法，从所述索引中选择与所述向量语句相似的初步检索结果。

可选的，

所述将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果，具体包括：

判断所述查询请求是否为中文；

若所述查询请求是为中文，将所述查询请求和所述初步检索结果转化为带声调的拼音；

Levenshtein Distance算法计算所述查询请和各个所述初步检索结果之间的相似程度，并将相似程度小于等于1的初步检索结果作为最相似检索结果。

可选的，

所述将所述检索结果按预设的规则进行排序，并按顺序展示模糊筛选结果，具体包括：

从所述最相似检索结果中，筛选首字符与所述查询请求相同的文字词条并排在第一层；

从所述最相似检索结果中，筛选包含与所述查询请求的文字词条并排在第二层；

从所述最相似检索结果中，筛选首字符与所述查询请求读音相近的文字词条并排在第三层；

从所述最相似检索结果中，筛选包含与所述查询请求读音相近的文字词条并排在第四层；

基于上述排序结果展示模糊筛选结果。

可选的，

所述将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果，还包括：

若所述查询请求是为英文，则直接进入排序。

本发明还提供了一种前端拼音库模糊筛选***，包括：

数据包导入模块、用于导入文字词条数据包，所述文字词条数据包用于扩充检索数据库；

向量索引模块、用于将所述检索数据库中的文字词条转化为向量数据，并基于所述向量数据建立索引；

查询模块、用于获取查询请求，基于所述索引获取初步检索结果；

筛选模块、用于将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果；

排序模块，用于将所述检索结果按预设的规则进行排序，并按顺序展示模糊筛选结果。

本发明还提供了一种实现连续波相控阵雷达低截获的装置，包括：

处理器，以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述方法的步骤。

本说明书采用的上述至少一个技术方案能够达到以下有益效果:

通过前端实现名称模糊搜索可以减轻服务器的计算压力；其次，通过拼音进行模糊筛选，可以准确实现中文的各种形音字、谐音字的检索需求；再次，针对中英文混合的字符串，先进行中英文判断，针对中英文采用不同的筛选策略，可提高名称模糊搜索的效率。

附图说明

图1为本说明书一实施例提供的一种前端拼音库模糊筛选方法流程示意图；

图2为本说明书一种中文词条检索结果排序效果示意图；

图3为本说明书一种前端拼音库模糊筛选***流程示意图；

图4为本说明书一种前端拼音库模糊筛选装置示意图。

具体实施方式

为使本说明书的目的，技术方案和优点更加的清楚，下面结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚，完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于此本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书一实施例提供的一种前端拼音库模糊筛选方法流程示意图，所述方法具体可以包括以下步骤：

步骤102、导入文字词条数据包，所述文字词条数据包用于扩充检索数据库；

需要说明的是，步骤102的一种实施方式可以为

获取文本文档，并根据所述文本文档生成多个文字词条；

获取Excel文档，并解析所述Excel文档，生成多个文字词条；

在一实施例中，

基于此，导入文字词条数据包可通过不同的数据包类型转化为文字词条，可提高数据导效率；其次，导入文字词条数据包前进行重复性判断，可减轻数据库的存储压力。

在一具体实施例中，

文本样本可以包括各种文本格式的样本数据，例如，电商平台的海量商品标题(例如，睫毛膏，粉底液，眼睛，书包等)，各种语种的词语、句子段落(例如，“我是中国人”、“张三”，“John”等)。可通过多种数据获取方式获取文本样本，例如，可从存储有文本样本的数据库或服务器获取文本样本，可通过网页爬虫等方式获取文本样本。

步骤104、将所述检索数据库中的文字词条转化为向量数据，并基于所述向量数据建立索引；

需要说明的是，步骤104的一种实施方式可以为

根据向量化算法，将文字词条转化为向量数据；

根据Annoy树和所述向量数据，建立索引。

在一具体实施例中，

将文字词条通过嵌入算法转换向量；

随机选择俩个向量，一这两个向量为初始中心节点，执行聚类数为2的kmeans过程，最终产生收敛后俩个聚类中心点；

一这两类聚类中心点之间连一条线段(灰色短线)，建立一条垂直于这条灰线，并且通过灰线中心点的线(黑色粗细)。这条黑色粗线把数据空间分为两个部分；

接下来在超平面分割后的字节空间内按照同样的方法继续确定超平面分割空间，通过这样的方法，将子空间的从属关系用二叉树来表示；

然后再继续分割，继续重复上述步骤，直至子节点包含的数据的不超过K个，K取值根据实际需要确定；

通过多次递归划分，最终原始数据会形成一个二叉树结构。二叉树底层是叶子节点记录文字词条向量，其他中间节点记录的是分割超平面空间信息。

基于此，采用向量化算法和Annoy树建立索引，对计算机内存占用较小，且允许多个进程之间共享内存，可以极大的减轻服务器压力；同时通过Annoy树建立索引，支持索引树的修改，提高索引树的更新效率。

步骤106、获取查询请求，基于相似度计算方法，从所述索引中选择与所述向量语句相似的初步检索结果；

需要说明的是，步骤106的一种实施方式可以为

在一具体实施例中，

获取用户输入的查询语句，将查询语句通过嵌入算法转换向量；

根据查询语句的算法转换向量和Annoy树，继续检索获取相似的Annoy树相似叶子节点；

采用余弦相似度计算查询语句与Annoy树中各相似叶子节点之间的余弦相似度，余弦相似度的计算方法如下：

其中，A，B代表向量，|A|，|B|代表向量的点积

将余弦相似度大于0.5的检索结果作为初步检索结果。

基于此，通过Annoy树和余弦相似度可以初步的筛选相似的检索结果，减少后续计算的计算压力。

步骤108、将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果；

需要说明的是，步骤108的一种实施方式可以为

判断所述查询请求是否为中文；

Levenshtein Distance算法计算所述查询请和各个所述初步检索结果之间的相似程度，并将相似程度小于等于1的初步检索结果作为最相似检索结果；

若所述查询请求是为英文，则直接进入排序。

在一具体实施例中，

在进行进一步判断检索结果时，需要首先判断查询请求是否为中文，通过ACSII判断查询请求，如果查询请求是为英文，则认为不存在中文谐音的情况，直接对英文的初步检索结果进行排序展示，排序采用余弦相似度值，余弦相似度值越大英文检索结果排序越靠前；

若所述查询请求是为中文，则认为存在中文谐音的情况，需要通过带声调的拼音进行谐音判断，首先采用带声调的拼音模型，将查询请求和初步检索结果都转化为带声调的拼音，再Levenshtein Distance算法计算所述查询请和各个初步检索结果之间的相似程度，Levenshtein Distance算法是指两个字符串之间的Levenshtein Distance莱文斯坦距离指的是将一个字符串变为另一个字符串需要进行编辑操作最少的次数，可用于衡量两个字符串之间的差异。

对于两个字符串A、B而言，字符串A的前i个字符和字符串B的前j个字符的莱文斯坦距离符合如下公式

其中：

是一个Indicator Function指示函数，当字符串a的第i个字符和字符串b的第j个字符不同时，其值为1；否则为0

将相似程度小于等于1的初步检索结果作为最相似检索结果。

步骤110、将所述检索结果按预设的规则进行排序，并按顺序展示模糊筛选结果；

需要说明的是，步骤110的一种实施方式可以为

基于上述排序结果展示模糊筛选结果。

在一具体实施例中，

一种中文词条检索结果排序效果如图2所示。

由此可知，通过前端实现名称模糊搜索可以减轻服务器的计算压力；其次，通过拼音进行模糊筛选，可以准确实现中文的各种形音字、谐音字的检索需求；再次，针对中英文混合的字符串，先进行中英文判断，针对中英文采用不同的筛选策略，可提高名称模糊搜索的效率。

图2为本说明书一种前端拼音库模糊筛选***流程示意图，包括：

步骤202、数据包导入模块、用于导入文字词条数据包，所述文字词条数据包用于扩充检索数据库；

步骤204、向量索引模块、用于将所述检索数据库中的文字词条转化为向量数据，并基于所述向量数据建立索引；

步骤206、查询模块、用于获取查询请求，基于所述索引获取初步检索结果；

步骤208、筛选模块、用于将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果；

步骤210、排序模块，用于将所述检索结果按预设的规则进行排序，并按顺序展示模糊筛选结果。

可选的，数据包导入模块具体用于：

获取文本文档，并根据所述文本文档生成多个文字词条；

获取Excel文档，并解析所述Excel文档，生成多个文字词条；

可选的，向量索引模块具体用于：

将文字词条通过嵌入算法转换向量；

通过多次递归划分，最终原始数据会形成一个二叉树结构。二叉树底层是叶子节点记录文字词条向量，其他中间节点记录的是分割超平面空间信息

可选的，查询模块具体用于：

其中，A，B代表向量，|A|，|B|代表向量的点积

将余弦相似度大于0.5的检索结果作为初步检索结果。

可选的，筛选模块具体用于

其中：

将相似程度小于等于1的初步检索结果作为最相似检索结果。

可选的，排序模块具体用于

基于上述排序结果展示模糊筛选结果。

图3为本说明书一种前端拼音库模糊筛选装置示意图，包括：

处理器，以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如下步骤：

步骤1、导入文字词条数据包，所述文字词条数据包用于扩充检索数据库；

步骤2、将所述检索数据库中的文字词条转化为向量数据，并基于所述向量数据建立索引；

步骤3、获取查询请求，基于相似度计算方法，从所述索引中选择与所述向量语句相似的初步检索结果；

步骤4、将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果；

步骤5、将所述检索结果按预设的规则进行排序，并按顺序展示模糊筛选结果。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本来领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等均应包含在本申请的权利要求范围内。

Claims

1.一种前端拼音库模糊筛选方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述导入文字词条数据包具体包括：

获取文本文档，并根据所述文本文档生成多个文字词条；

获取Excel文档，并解析所述Excel文档，生成多个文字词条；

4.根据权利要求3所述方法，其特征在于，所述将所述检索数据库中的文字词条转化为向量数据，并基于所述向量数据建立索引，具体包括：

根据向量化算法，将文字词条转化为向量数据；

根据Annoy树和所述向量数据，建立索引。

5.根据权利要求4所述的方法，其特征在于，所述获取查询请求，基于相似度计算方法，从所述索引中选择与所述向量语句相似的初步检索结果，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果，具体包括：

判断所述查询请求是否为中文；

7.根据权利要求6所述的方法，其特征在于，所述将所述检索结果按预设的规则进行排序，并按顺序展示模糊筛选结果，具体包括：

基于上述排序结果展示模糊筛选结果。

8.根据权利要求6所述的方法，其特征在于，所述将所述查询请求和所述初步检索结果转化为带声调的拼音，并基于拼音和Levenshtein Distance算法判断与所述查询请求最相似检索结果，还包括：

若所述查询请求是为英文，则直接进入排序。

9.一种前端拼音库模糊筛选***，其特征在于，运用于上述权利要求1至8所述的任一项方法，包括：

10.一种前端拼音库模糊筛选装置，其特征在于，包括:

处理器，以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至8中任一项所述方法。