CN117688136A

CN117688136A - 一种基于人工智能的组合检索优化方法及***

Info

Publication number: CN117688136A
Application number: CN202410125203.7A
Authority: CN
Inventors: 司苗珍
Original assignee: Guangzhou Minxing Digital Technology Co ltd
Current assignee: Guangzhou Minxing Digital Technology Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-03-12
Anticipated expiration: 2044-01-30
Also published as: CN117688136B

Abstract

本申请公开了一种基于人工智能的组合检索优化方法及***，其中，基于人工智能的组合检索优化方法，包括如下步骤：S1：按照预设的获取条件从多个受信数据源获取文本数据；S2：对文本数据进行分析，确定目标类别，并根据目标类别获取存储地址；S3：对文本数据进行处理，获得检索数据，并根据存储地址将检索数据存储于相应的检索数据库；S4：接收检索请求，对检索请求进行分析，确定检索类别，并根据检索类别从相应的检索数据库中获取检索结果。本申请能够提高检索效率和检索准确性。

Description

一种基于人工智能的组合检索优化方法及***

技术领域

本申请涉及智能检索技术领域，尤其涉及一种基于人工智能的组合检索优化方法及***。

背景技术

智能检索是一种通过使用人工智能技术来帮助用户快速、准确地找到所需信息的方法。在现有的智能检索***中，通常是对大量的数据进行预处理，例如：去除重复项、将文本转换为结构化格式等，再使用自然语言处理（NLP）技术来理解用户的查询意图，生成一个表示查询意图的向量，并根据该向量在已有的数据集中查找与查询意图相关的文档作为检索结果。

但在实际应用过程中，通过现有的智能检索***对海量文本数据进行检索具有以下问题：

（1）数据规模大、存储和索引效率低。

（2）未充分考虑文本数据的结构复杂性、内容复杂性和异构性，无法快速、准确、有效地进行检索，且检索结果的准确性低。

发明内容

本申请的目的在于提供一种基于人工智能的组合检索优化方法及***，能够提高检索效率和检索准确性。

为达到上述目的，本申请提供一种基于人工智能的组合检索优化方法，包括如下步骤：S1：按照预设的获取条件从多个受信数据源获取文本数据；S2：对文本数据进行分析，确定目标类别，并根据目标类别获取存储地址；S3：对文本数据进行处理，获得检索数据，并根据存储地址将检索数据存储于相应的检索数据库；S4：接收检索请求，对检索请求进行分析，确定检索类别，并根据检索类别从相应的检索数据库中获取检索结果。

如上的，其中，确定受信数据源的步骤为：S11：选择数据源；S12：对数据源进行可靠性验证，获得验证结果，其中，验证结果为可靠或不可靠；若验证结果为可靠，则执行S13；若验证结果为不可靠，则结束；S13：向数据源发送合作请求，并接收根据合作请求发送的合作结果，其中，合作结果为同意或拒绝；若合作结果为同意，则执行S14；若合作结果为拒绝，则结束；S14：将数据源作为受信数据源，与受信数据源建立通信通道，并通过通信通道设置获取条件。

如上的，其中，对数据源进行可靠性验证，获得验证结果的子步骤如下：S121：通过第三方认证机构对数据源进行认证，若认证结果为可靠，则执行S122；若认证结果为不可靠，则结束；S122：从数据源的所有历史评价数据中随机获取多个历史评价数据作为验证样本数据，对验证样本数据进行分析，获得评级值；S123：根据预设的评级阈值对评级值进行判断，获得验证结果，若评级值大于或等于评级阈值，则生成的验证结果为可靠；若评级值小于评级阈值，则生成的验证结果为不可靠。

如上的，其中，评级值的表达式如下：；其中，/>评级值；/>为第/>个验证样本数据的实际评分值，/>，/>为验证样本数据的总个数；/>为第/>个实际评分值大于实际评分阈值的验证样本数据的实际评分值，/>，/>为实际评分值大于实际评分阈值的验证样本数据的总个数；/>。

如上的，其中，对文本数据进行分析，确定目标类别，并根据目标类别获取存储地址的子步骤如下： S21：对文本数据的文本结构进行特征提取，获得多个结构主特征；S22：遍历预先构建的多个文本类别，利用多个结构主特征分别与每个文本类别的结构特征集合进行相关性分析，获得多个结构相似度；S23：通过预设的结构相似阈值对每个结构相似度进行判断，获得结构相似结果，其中，结构相似结果为相似或不相似；若多个结构相似度中具有至少一个大于或等于结构相似阈值的结构相似度，则生成的结构相似结果为相似，执行S24；若所有结构相似度均小于结构相似阈值，则生成的结构相似结果为不相似，构建新的文本类别；S24：将结构相似结果为相似的结构相似度中的最大值所对应的文本类别作为目标类别，并获取目标类别对应的存储地址。

如上的，其中，接收检索请求，对检索请求进行分析，确定检索类别，并根据检索类别从相应的检索数据库中获取检索结果的子步骤如下：S41：接收检索请求，对检索内容进行特征提取，获得多个检索特征；其中，检索请求至少包括：用户信息、检索时间和检索内容；S42：遍历预先构建的多个查询类别，利用多个检索特征分别与每个查询类别的查询特征集合进行归属性分析，获得多个查询归属值；S43：将多个查询归属值中的最大值所对应的查询类别作为检索类别；S44：根据检索类别中的文本类别获取存储地址，并根据存储地址从相应的检索数据库中获取至少一个检索数据，将检索数据作为检索结果，并发送。

如上的，其中，每个预先构建的查询类别均对应一个查询名称、一个查询特征集合和至少一个文本类别，其中，每个文本类别均对应一个占比参数。

如上的，其中，占比参数根据从多个受信数据源获取的文本数据进行实时更新。

如上的，其中，查询特征集合根据从多个受信数据源获取的文本数据进行实时更新。

本申请还提供一种基于人工智能的组合检索优化***，包括：多个受信数据源、多个用户端和组合检索优化中心；其中，受信数据源：允许组合检索优化中心按照预设的获取条件获取文本数据；用户端：向组合检索优化中心发送检索请求，并接收检索结果；组合检索优化中心：用于执行上述的基于人工智能的组合检索优化方法。

本申请实现的有益效果如下：

（1）本申请的基于人工智能的组合检索优化方法及***，适用于海量文本数据检索。

（2）本申请的基于人工智能的组合检索优化方法及***，充分考虑了文本数据的结构复杂性、内容复杂性和异构性，能够快速、准确、有效地进行存储和检索，且检索结果的准确性高。

（3）本申请的基于人工智能的组合检索优化方法及***，通过实时更新优化查询特征集合、文本类别和占比参数，提高了组合检索的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为基于人工智能的组合检索优化***一种实施例的结构示意图；

图2为基于人工智能的组合检索优化方法一种实施例的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本申请提供一种基于人工智能的组合检索优化***，包括：多个受信数据源110、多个用户端120和组合检索优化中心130。

其中，受信数据源110：允许组合检索优化中心130按照预设的获取条件获取文本数据。

用户端120：向组合检索优化中心130发送检索请求，并接收检索结果。

组合检索优化中心130：用于执行下述的基于人工智能的组合检索优化方法。

如图2所示，本申请提供一种基于人工智能的组合检索优化方法，包括如下步骤：

S1：按照预设的获取条件从多个受信数据源获取文本数据。

进一步的，预设的获取条件为：受信数据源具有新增文本数据，或时间到达获取节点，但不仅限于受信数据源具有新增文本数据，或时间到达获取节点。

具体的，受信数据源具有新增文本数据表示：一旦受信数据源中上传了新的文本数据即为满足了组合检索优化中心的获取条件，组合检索优化中心从该受信数据源中对新增的文本数据进行获取。

时间到达获取节点表示：设定获取间隔时间，组合检索优化中心上一次从受信数据源中获取新增的文本数据的时间节点/>和下一次从受信数据源中获取新增的文本数据的时间节点/>之间间隔一个获取间隔时间/>，当当前时间到达下一次从受信数据源中获取新增的文本数据的时间节点/>时，组合检索优化中心从该受信数据源中对新增的文本数据进行获取，并将本次的时间节点作为新的上一次从受信数据源中获取新增的文本数据的时间节点/>，在新的上一次从受信数据源中获取新增的文本数据的时间节点/>上向后递推一个获取间隔时间/>，获得新的下一次从受信数据源中获取新增的文本数据的时间节点/>。

进一步的，确定受信数据源的步骤为：

S11：选择数据源。

具体的，数据源为提供文本数据的平台或网站。

S12：对数据源进行可靠性验证，获得验证结果，其中，验证结果为可靠或不可靠；若验证结果为可靠，则执行S13；若验证结果为不可靠，则结束。

进一步的，对数据源进行可靠性验证，获得验证结果的子步骤如下：

S121：通过第三方认证机构对数据源进行认证，若认证结果为可靠，则执行S122；若认证结果为不可靠，则结束。

S122：从数据源的所有历史评价数据中随机获取多个历史评价数据作为验证样本数据，对验证样本数据进行分析，获得评级值。

进一步的，评级值的表达式如下：

；

其中，评级值；/>为第/>个验证样本数据的实际评分值，/>，/>为验证样本数据的总个数；/>为第/>个实际评分值大于实际评分阈值的验证样本数据的实际评分值，/>，/>为实际评分值大于实际评分阈值的验证样本数据的总个数；。

具体的，数据源的实际评分阈值根据数据源的实际评分机制而定，例如：数据源的实际评分机制为满分10分，则；数据源的实际评分机制为满分5分，则。

S123：根据预设的评级阈值对评级值进行判断，获得验证结果，若评级值大于或等于评级阈值，则生成的验证结果为可靠；若评级值小于评级阈值，则生成的验证结果为不可靠。

具体的，评级阈值根据实际情况设定。

S13：向数据源发送合作请求，并接收根据合作请求发送的合作结果，其中，合作结果为同意或拒绝；若合作结果为同意，则执行S14；若合作结果为拒绝，则结束。

S14：将数据源作为受信数据源，与受信数据源建立通信通道，并通过通信通道设置获取条件。

S2：对文本数据进行分析，确定目标类别，并根据目标类别获取存储地址。

进一步的，对文本数据进行分析，确定目标类别，并根据目标类别获取存储地址的子步骤如下：

S21：对文本数据的文本结构进行特征提取，获得多个结构主特征。

具体的，不同的文本类别的文本结构存在差异。结构主特征即为能够表征文本类别的差异特征。

进一步的，作为一个实施例，通过人工智能技术对文本数据的文本结构进行特征提取，获得多个结构主特征。

进一步的，作为另一个实施例，通过预先训练好的神经网络对文本数据的文本结构进行特征提取，获得多个结构主特征。

S22：遍历预先构建的多个文本类别，利用多个结构主特征分别与每个文本类别的结构特征集合进行相关性分析，获得多个结构相似度。

进一步的，结构相似度的表达式为：

；

其中，为文本数据与第/>个文本类别的结构特征集合之间的结构相似度，，/>为文本类别的总个数；/>为第/>个结构主特征与第/>个文本类别的结构特征集合中的第/>个结构特征之间的相似值，/>，/>为第/>个文本类别的结构特征集合中的结构特征的总个数，/>，/>为结构主特征的总个数。

具体的，利用预先训练好的模型即能获得两个特征之间的相似值。

进一步的，每个预先构建的文本类别均对应一个文本类别名称、一个结构特征集合和一个检索数据库；一个检索数据库对应一个存储地址。其中，文本类别至少包括：纯文本、富文本、结构化文本、半结构化文本、多语种文本、复合文本和社交媒体文本。

具体的，文本类别名称为文本类别的名称。

检索数据库：用于存储检索数据，同一文本类别的检索数据均存储于同一个检索数据库中。

进一步的，通过人工智能技术对每类文本类别的多个样本数据进行特征提取，获得多个关键特征，由多个关键特征构成结构特征集合。

进一步的，每类文本类别的结构特征集合可按照预设更新时间进行更新，从而提高每类文本类别的结构特征集合的时效性、完整性和准确性。

具体的，预设的更新时间的具体时长根据实际情况而定。

S23：通过预设的结构相似阈值对每个结构相似度进行判断，获得结构相似结果，其中，结构相似结果为相似或不相似；若多个结构相似度中具有至少一个大于或等于结构相似阈值的结构相似度，则生成的结构相似结果为相似，执行S24；若所有结构相似度均小于结构相似阈值，则生成的结构相似结果为不相似，构建新的文本类别。

具体的，结构相似阈值根据实际情况而定。

S24：将结构相似结果为相似的结构相似度中的最大值所对应的文本类别作为目标类别，并获取目标类别对应的存储地址。

S3：对文本数据进行处理，获得检索数据，并根据存储地址将检索数据存储于相应的检索数据库。

进一步的，对文本数据进行处理，获得检索数据，并根据存储地址将检索数据存储于相应的检索数据库的子步骤如下：

S31：对文本数据的文本内容进行特征提取，获得多个标签特征，并将多个标签特征构建为标签特征集合。

S32：将标签特征集合、文本上传时间、文本数据和文本类别名称作为检索数据，并根据存储地址将检索数据存储于相应的检索数据库。

具体的，文本上传时间为：文本数据上传至受信数据源内的时间。

S4：接收检索请求，对检索请求进行分析，确定检索类别，并根据检索类别从相应的检索数据库中获取检索结果。

进一步的，接收检索请求，对检索请求进行分析，确定检索类别，并根据检索类别从相应的检索数据库中获取检索结果的子步骤如下：

S41：接收检索请求，对检索内容进行特征提取，获得多个检索特征；其中，检索请求至少包括：用户信息、检索时间和检索内容。

具体的，用户信息至少包括：用户ID和用户名称。

检索时间为本次发送检索请求的时间节点。

检索内容为用户端需要检索的内容的简要描述，可以为一个段落、一个句子、一个词语、一个字、至少一个关键词组合、符号、图像或语音，但不仅限于一个段落、一个句子、一个词语、一个字、至少一个关键词组合、符号、图像或语音。

S42：遍历预先构建的多个查询类别，利用多个检索特征分别与每个查询类别的查询特征集合进行归属性分析，获得多个查询归属值。

进一步的，查询归属值的表达式如下：

；

其中，为检索内容与第/>个查询类别的查询特征集合之间的查询归属值，，/>为查询类别的总个数；/>为第/>个检索特征与第/>个查询类别的查询特征集合中的第/>个查询特征之间的归属值，/>，/>为第/>个查询类别的查询特征集合中的查询特征的总个数，/>，/>为检索特征的总个数。

具体的，利用预先训练好的模型即能获得两个特征之间的归属值。

进一步的，每个预先构建的查询类别均对应一个查询名称、一个查询特征集合和至少一个文本类别，其中，每个文本类别均对应一个占比参数。

进一步的，查询特征集合根据从多个受信数据源获取的文本数据进行实时更新。

具体的，查询特征集合为通过对所有检索数据库中内容相同或相关的检索数据的标签特征集合进行聚类后获得的特征集合。一旦组合检索优化中心从受信数据源中获取到新的文本数据，则对新的文本数据进行分析，并根据分析情况对查询特征集合进行更新优化，例如：增加查询特征，通过实时更新优化查询特征集合，从而提高组合检索的准确性。

进一步的，每个预先构建的查询类别的文本类别根据从多个受信数据源获取的文本数据进行实时更新。

具体的，一旦组合检索优化中心从受信数据源中获取到新的文本数据，则对新的文本数据进行分析，并根据分析情况对查询类别的文本类别的具体类型和个数进行更新优化，从而提高组合检索的准确性。

进一步的，占比参数根据从多个受信数据源获取的文本数据进行实时更新。

具体的，内容相同或相关的检索数据具有一种或多种文本类别。每个文本类别对应的占比参数为所有检索数据库中属于该文本类别的内容相同或相关的检索数据在所有内容相同或相关的检索数据中所占的比例。一旦组合检索优化中心从受信数据源中获取到新的文本数据，则对新的文本数据进行分析，并根据分析情况对文本类别对应的占比参数进行更新，通过实时更新优化占比参数，从而提高组合检索的准确性。

进一步的，占比参数的表达式为：

；

其中，为第/>个查询类别中的第/>个文本类别所对应的占比参数；/>为所有检索数据库中属于第/>个查询类别中的第/>个文本类别的内容相同或相关的检索数据的个数；/>所有检索数据库中属于第/>个查询类别的内容相同或相关的检索数据的总个数。

S43：将多个查询归属值中的最大值所对应的查询类别作为检索类别。

S44：根据检索类别中的文本类别获取存储地址，并根据存储地址从相应的检索数据库中获取至少一个检索数据，将检索数据作为检索结果，并发送。

进一步的，当检索类别中的文本类别为多个时，对多个文本类别进行优先级设定，优先获取优先级高的文本类别的存储地址，并根据存储地址从相应的检索数据库中获取至少一个检索数据，并将检索数据作为检索结果发送至用户端，其中，文本类别的占比参数越大，优先级越高。

具体的，根据检索类别中的文本类别获取存储地址，并根据存储地址确定相应的检索数据库后，分析检索数据的标签特征集合与多个检索特征之间的相关度，将相关度大于检索相关阈值的检索数据中的文本上传时间、文本数据和文本类别名称作为检索结果。

本申请实现的有益效果如下：

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，本申请的保护范围意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请保护范围及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于人工智能的组合检索优化方法，其特征在于，包括如下步骤：

S1：按照预设的获取条件从多个受信数据源获取文本数据；

S2：对文本数据进行分析，确定目标类别，并根据目标类别获取存储地址；

S3：对文本数据进行处理，获得检索数据，并根据存储地址将检索数据存储于相应的检索数据库；

2.根据权利要求1所述的基于人工智能的组合检索优化方法，其特征在于，确定受信数据源的步骤为：

S11：选择数据源；

S12：对数据源进行可靠性验证，获得验证结果，其中，验证结果为可靠或不可靠；若验证结果为可靠，则执行S13；若验证结果为不可靠，则结束；

S13：向数据源发送合作请求，并接收根据合作请求发送的合作结果，其中，合作结果为同意或拒绝；若合作结果为同意，则执行S14；若合作结果为拒绝，则结束；

3.根据权利要求2所述的基于人工智能的组合检索优化方法，其特征在于，对数据源进行可靠性验证，获得验证结果的子步骤如下：

S121：通过第三方认证机构对数据源进行认证，若认证结果为可靠，则执行S122；若认证结果为不可靠，则结束；

S122：从数据源的所有历史评价数据中随机获取多个历史评价数据作为验证样本数据，对验证样本数据进行分析，获得评级值；

4.根据权利要求3所述的基于人工智能的组合检索优化方法，其特征在于，评级值的表达式如下：

；

5.根据权利要求1所述的基于人工智能的组合检索优化方法，其特征在于，对文本数据进行分析，确定目标类别，并根据目标类别获取存储地址的子步骤如下：

S21：对文本数据的文本结构进行特征提取，获得多个结构主特征；

S22：遍历预先构建的多个文本类别，利用多个结构主特征分别与每个文本类别的结构特征集合进行相关性分析，获得多个结构相似度；

S23：通过预设的结构相似阈值对每个结构相似度进行判断，获得结构相似结果，其中，结构相似结果为相似或不相似；若多个结构相似度中具有至少一个大于或等于结构相似阈值的结构相似度，则生成的结构相似结果为相似，执行S24；若所有结构相似度均小于结构相似阈值，则生成的结构相似结果为不相似，构建新的文本类别；

6.根据权利要求5所述的基于人工智能的组合检索优化方法，其特征在于，接收检索请求，对检索请求进行分析，确定检索类别，并根据检索类别从相应的检索数据库中获取检索结果的子步骤如下：

S41：接收检索请求，对检索内容进行特征提取，获得多个检索特征；其中，检索请求至少包括：用户信息、检索时间和检索内容；

S42：遍历预先构建的多个查询类别，利用多个检索特征分别与每个查询类别的查询特征集合进行归属性分析，获得多个查询归属值；

S43：将多个查询归属值中的最大值所对应的查询类别作为检索类别；

7.根据权利要求6所述的基于人工智能的组合检索优化方法，其特征在于，每个预先构建的查询类别均对应一个查询名称、一个查询特征集合和至少一个文本类别，其中，每个文本类别均对应一个占比参数。

8.根据权利要求7所述的基于人工智能的组合检索优化方法，其特征在于，占比参数根据从多个受信数据源获取的文本数据进行实时更新。

9.根据权利要求7所述的基于人工智能的组合检索优化方法，其特征在于，查询特征集合根据从多个受信数据源获取的文本数据进行实时更新。

10.一种基于人工智能的组合检索优化***，其特征在于，包括：多个受信数据源、多个用户端和组合检索优化中心；

其中，受信数据源：允许组合检索优化中心按照预设的获取条件获取文本数据；

用户端：向组合检索优化中心发送检索请求，并接收检索结果；

组合检索优化中心：用于执行权利要求1-9中任意一项所述的基于人工智能的组合检索优化方法。