CN115455147A

CN115455147A - 一种全文检索方法及***

Info

Publication number: CN115455147A
Application number: CN202211099777.9A
Authority: CN
Inventors: 李萍; 单震; 费振玉; 李源
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-12-09

Abstract

本发明涉及大数据技术领域，具体提供了一种全文检索方法，具有如下步骤：S1、建立全文索引；S2、IKAnalyzer分词；S3、全文检索；S4、扩展词典。与现有技术相比，本发明利用IKAnalyzer分词和MySQL数据库自带的全文索引，实现一种轻量级的搜索引擎，用于支持“小网站”中“大字段”的全文检索，提升查询速度，同时降低这类网站的开发成本和运维成本。

Description

一种全文检索方法及***

技术领域

本发明涉及大数据技术领域，具体提供一种全文检索方法及***。

背景技术

全文检索是指以全部文本信息作为检索对象的一种信息检索技术。目前很多网站都提供了全文检索功能，浏览者可以通过输入关键字或者短语来搜索特定的网页。

这些网页的格式和长度不固定，一般都是非结构化的数据，通常可以借助Elasticsearch或Solr等搜索引擎来实现全文检索。但在基于传统数据库(如Oracle、MySQL)搭建的网站中，一般只能通过模糊查询进行全文匹配，搜索速度非常慢，而且只支持精准匹配。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的全文检索方法。

本发明进一步的技术任务是提供一种设计合理，安全适用的全文检索***。

本发明解决其技术问题所采用的技术方案是：

一种全文检索方法，具有如下步骤：

S1、建立全文索引；

S2、IKAnalyzer分词；

S3、全文检索；

S4、扩展词典。

进一步的，在步骤S1中，为文字标题字段建立全文索引来查找标题，同时为文章标题和文章内容字段建立联合索引来查找匹配的文章标题和内容。

进一步的，在步骤S2中，对中文、英文和数字之外的字符统一进行过滤，如果输入的关键词或短语长度超过15至25，则判定为精准查询，只查找匹配的文章标题，不查找匹配的文章内容；

如果用户输入的内容含有空白符，则自动进行分词，最后根据扩展词典对用户输入的关键词或短语进行分词，并存储到列表中。

进一步的，在步骤S3中，布尔模式会按照一定的规则解析搜索字符串中的特殊字符的含义，进行一些逻辑意义的规则。

进一步的，在步骤S4中，如果用户输入的关键词或短语查询不到结果，并且符合关键词格式，则加入到扩展词典。

一种全文检索***，首先建立全文索引，IKAnalyzer分词，然后进行全文检索，最后如果用户输入的关键词或短语查询不到结果，并且符合关键词格式，则加入到扩展词典。

进一步的，为文章标题字段建立全文索引查找匹配的文章标题，同时为文章标题和文章内容字段建立联合索引用于查找匹配的文章标题和内容。

进一步的，在IKAnalyzer分词中，对中文、英文和数字之外的字符统一进行过滤，如果输入的关键词或短语长度超过15至25，则判定为精准查询，只查找匹配的文章标题，不查找匹配的文章内容；

进一步的，在全文检索中，布尔模式会按照规则解析搜索字符串中的特殊字符的含义，进行一些逻辑意义的规则。

本发明的一种全文检索方法及***和现有技术相比，具有以下突出的有益效果：

本发明利用IKAnalyzer分词和MySQL数据库自带的全文索引，实现一种轻量级的搜索引擎，用于支持“小网站”中“大字段”的全文检索，提升查询速度，同时降低这类网站的开发成本和运维成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种全文检索方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的一种全文检索方法，具有如下步骤：

S1、建立全文索引；

为“文章标题”字段建立全文索引用于查找匹配的文章标题，同时为“文章标题”和“文章内容”字段建立联合索引用于查找匹配的文章标题和内容，具体语法如下：

ALTER TABLE article ADD FULLTEXT INDEX title_index(title)WITH PARSERngram；为“title”即字段建立全文索引。

ALTER TABLE article ADD FULLTEXT INDEX title_body_index(title,body)WITH PARSER ngram。为“title”和“body”即字段建立联合全文索引。

S2、IKAnalyzer分词；

为了避免特殊字符影响最终查询效果，***对中文、英文、数字之外的其他字符统一进行过滤。

如果输入的关键词或短语长度超过20，则判定为精准查询，只查找匹配的文章标题，不查找匹配的文章内容。如果用户输入的内容含有空白符，则自动进行分词。最后根据扩展词典对用户输入的关键词或短语进行分词，并存储到列表中。

S3、全文检索；

布尔模式会按照一定的规则解析搜索字符串中的特殊字符的含义，进行一些逻辑意义的规则。如：某个单词必须出现，或者不能出现等。为了限制查询结果数量，同时尽可能匹配所有分词，使用布尔模式进行查询，具体语法如下：

select*from article where match(title,body)against('+word1+word2+word3'in boolean mode)即查询article数据表中title和body字段中含有word1、word2、word3关键词的记录。

S4、扩展词典；

如果用户输入的关键词或短语查询不到结果，并且符合关键词格式，则加入到扩展词典。

基于上述方法，本实施例中的额一种全文检索***，首先建立全文索引，IKAnalyzer分词，然后进行全文检索，最后如果用户输入的关键词或短语查询不到结果，并且符合关键词格式，则加入到扩展词典。

为文章标题字段建立全文索引查找匹配的文章标题，同时为文章标题和文章内容字段建立联合索引用于查找匹配的文章标题和内容。

在IKAnalyzer分词中，对中文、英文和数字之外的字符统一进行过滤，如果输入的关键词或短语长度超过15至25，则判定为精准查询，只查找匹配的文章标题，不查找匹配的文章内容；

在全文检索中，布尔模式会按照规则解析搜索字符串中的特殊字符的含义，进行一些逻辑意义的规则。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种全文检索方法及***权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种全文检索方法，其特征在于，具有如下步骤：

S1、建立全文索引；

S2、IKAnalyzer分词；

S3、全文检索；

S4、扩展词典。

2.根据权利要求1所述的一种全文检索方法，其特征在于，在步骤S1中，为文字标题字段建立全文索引来查找标题，同时为文章标题和文章内容字段建立联合索引来查找匹配的文章标题和内容。

3.根据权利要求2所述的一种全文检索方法，其特征在于，在步骤S2中，对中文、英文和数字之外的字符统一进行过滤，如果输入的关键词或短语长度超过15至25，则判定为精准查询，只查找匹配的文章标题，不查找匹配的文章内容；

4.根据权利要求3所述的一种全文检索方法，其特征在于，在步骤S3中，布尔模式会按照一定的规则解析搜索字符串中的特殊字符的含义，进行一些逻辑意义的规则。

5.根据权利要求4所述的一种全文检索方法，其特征在于，在步骤S4中，如果用户输入的关键词或短语查询不到结果，并且符合关键词格式，则加入到扩展词典。

6.一种全文检索***，其特征在于，首先建立全文索引，IKAnalyzer分词，然后进行全文检索，最后如果用户输入的关键词或短语查询不到结果，并且符合关键词格式，则加入到扩展词典。

7.根据权利要求6所述的一种全文检索***，其特征在于，为文章标题字段建立全文索引查找匹配的文章标题，同时为文章标题和文章内容字段建立联合索引用于查找匹配的文章标题和内容。

8.根据权利要求7所述的一种全文检索***，其特征在于，在IKAnalyzer分词中，对中文、英文和数字之外的字符统一进行过滤，如果输入的关键词或短语长度超过15至25，则判定为精准查询，只查找匹配的文章标题，不查找匹配的文章内容；

9.根据权利要求8所述的一种全文检索***，其特征在于，在全文检索中，布尔模式会按照规则解析搜索字符串中的特殊字符的含义，进行一些逻辑意义的规则。