CN117951303B

CN117951303B - 基于生成式大模型的文本信息关联性分析方法及设备

Info

Publication number: CN117951303B
Application number: CN202410339103.4A
Authority: CN
Inventors: 张振中; 史珂; 李维春
Original assignee: Civil Aviation Flight University of China
Current assignee: Civil Aviation Flight University of China
Priority date: 2024-03-25
Filing date: 2024-03-25
Publication date: 2024-06-11
Anticipated expiration: 2044-03-25
Also published as: CN117951303A

Abstract

本申请公开了基于生成式大模型的文本信息关联性分析方法及设备，通过获得第一文本，通过生成式大模型对第一文本进行改写以获得第二文本；对第一文本和至少一个第二文本进行打标处理，获得第一标签组和第二标签组；根据第一标签组和至少一个第二标签组，获得第一结构化数据和第二结构化数据；根据第一结构化数据和第二结构化数据，进行关联性进行分析，获得第一关联性数据和第二关联性数据；当第一关联性数据和第二关联性数据的平均值的差异不大于预设的第一阈值时，根据第一关联性数据和至少一个第二关联性数据，获得第一文本的文本信息关联性数据。解决了现有文本关联性识别受用户记录习惯的影响较大，准确度较低的问题。

Description

基于生成式大模型的文本信息关联性分析方法及设备

技术领域

本申请涉及互联网技术领域，尤其涉及基于生成式大模型的文本信息关联性分析方法及设备。

背景技术

文本分类与关联分析是自然语言处理领域的重要研究方向之一，其基于文本数据的特征和模式，可帮助我们理解文本的含义、进行语义分析、进行信息检索和预测等。

文本关联性分析旨在发现和理解文本之间的关联关系，如文本间的语义相似性、相关性等。基于自然语言处理技术的文本关联分析方法主要有以下几个方面：文本相似度计算：通过计算文本之间的相似度，寻找相似的文本，常用的文本相似度计算方法有余弦相似度Jaccard相似度、编辑距离等；文本聚类：将相似的文本分到同一个簇中，以便进行更高层次的语义分析，聚类方法包括层次聚类、k-means聚类等；关联规则挖掘：通过挖掘文本数据中的频繁项集和关联规则，发现其中隐含的相关性，关联规则挖掘方法包括Apriori算法、FP-Growth算法等；语义网络构建：通过构建文本之间的语义关联网络，揭示文本之间的关联关系，常用的构建方法包括基于共现关系、基于词嵌入模型等。

目前，在目前的文本关联性分析中，由于不同用户的记录习惯不同，即使对同一件事情，由不同的人来记录，记录的文本也不相同，对不同文本进行关联性识别的结果也不相同，这意味着现有文本关联性识别受用户记录习惯的影响较大，准确度较低。

发明内容

本发明提供了基于生成式大模型的文本信息关联性分析方法及设备，提供了一种受用户记录习惯影响较小的文本信息关联性分析方案，至少解决了在目前的文本关联性分析中，由于不同用户的记录习惯不同，即使对同一件事情，由不同的人来记录，记录的文本也不相同，对不同文本进行关联性识别的结果也不相同，这意味着现有文本关联性识别受用户记录习惯的影响较大，准确度较低的问题。

本申请提供一种基于生成式大模型的文本信息关联性分析方法，包括以下步骤：

获得第一文本，通过生成式大模型对所述第一文本进行改写以获得至少一个第二文本；

对所述第一文本和至少一个所述第二文本进行打标处理，获得与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组；

根据所述第一标签组和至少一个所述第二标签组，获得第一结构化数据和至少一个第二结构化数据；

根据所述第一结构化数据和至少一个所述第二结构化数据，进行关联性进行分析，获得第一关联性数据和至少一个第二关联性数据，所述第一关联性数据为所述第一标签组中各个标签的关联性数据，所述第二关联性数据为所述第二标签组中各个标签的关联性数据；

判断所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异是否大于预设的第一阈值；

当所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异不大于预设的第一阈值时，根据所述第一关联性数据和至少一个所述第二关联性数据，获得所述第一文本的文本信息关联性数据。

可选的，所述获得第一文本，通过生成式大模型对所述第一文本进行改写以获得至少一个第二文本的步骤，包括：

获得第一文本，通过生成式大模型对所述第一文本进行改写以获得至少一个改写文本；

判断所述第一文本和至少一个所述改写文本的文本相似度；

将与第一文本相似度大于第二阈值的所述改写文本作为第二文本；

重复执行上述步骤直到所述第二文本的数量满足预设的目标。

可选的，所述对所述第一文本和至少一个所述第二文本进行打标处理，获得与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组的步骤，包括；

根据所述第一文本和至少一个所述第二文本，通过多分类模型，获得所述第一文本和至少一个所述第二文本的一级标签，所述一级标签被配置为用于表征所述第一文本和至少一个所述第二文本描述的事件；

根据所述一级标签，获得所述一级标签下的至少一个候选标签；

根据至少一个所述候选标签对所述第一文本和至少一个所述第二文本进行打标处理，获得第一文本和至少一个所述第二文本中与至少一个所述候选标签对应的关键字；

将所述一级标签、至少一个所述候选标签和与至少一个所述候选标签对应的所述关键字作为与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组。

可选的，所述根据所述第一标签组和至少一个所述第二标签组，获得第一结构化数据和至少一个第二结构化数据的步骤，包括：

根据所述第一标签组和至少一个所述第二标签组对应的所述一级标签和至少一个所述候选标签，获得至少一个所述候选标签中的核心标签；

将所述核心标签作为主键字段，其他候选标签作为一般字段建立第一结构化数据表和至少一个第二结构化数据表；

将所述与至少一个所述候选标签对应的所述关键字填入所述第一结构化数据表和至少一个第二结构化数据表中以获得第一结构化数据和至少一个第二结构化数据。

可选的，所述根据所述第一标签组和至少一个所述第二标签组，获得第一结构化数据和至少一个第二结构化数据的步骤前，还包括：

所述根据所述第一标签组和至少一个所述第二标签组，判断所述第一标签组和至少一个所述第二标签组中标签的相似度；

将与所述第一标签组相似度不大于第三阈值的第二标签组删除。

可选的，还包括：

当所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异大于预设的第一阈值时；

获得至少一个所述第二关联性数据的标准差；

当至少一个所述第二关联性数据的标准差不大于第四阈值时；

将至少一个所述第二关联性数据的平均值作为第一文本的文本信息关联性数据。

可选的，还包括：

当至少一个所述第二关联性数据的标准差大于第四阈值时；

根据所述第一文本和所述第一标签组，通过生成式大模型对所述第一文本进行改写以获得至少一个第三文本；

对第至少一个所述第三文本进行打标处理，获得与第三文本对应的至少一个第三标签组；

根据至少一个所述第三标签组，获得至少一个第三结构化数据；

根据至少一个所述第三结构化数据，进行关联性进行分析，获得至少一个第三关联性数据，所述第三关联性数据为所述第三标签组中各个标签的关联性数据；

判断所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异是否大于预设的第五阈值；

当所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异不大于预设的第五阈值时，根据所述第一关联性数据和至少一个所述第三关联性数据，获得所述第一文本的文本信息关联性数据。

可选的，还包括：

当所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异大于预设的第五阈值时，判断至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值的差异是否不大于第六阈值；

当至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值的差异不大于第六阈值时，根据至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值，获得所述第一文本的文本信息关联性数据。

可选的，根据所述第一关联性数据和至少一个所述第二关联性数据，获得所述第一文本的文本信息关联性数据，包括：

根据所述第一关联性数据和至少一个所述第二关联性数据，使用预设的权重，获得所述第一关联性数据和至少一个所述第二关联性数据的加权平均值作为所述第一文本的文本信息关联性数据。

再一方面，本申请的实施例还提供一种设备，该设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序，实现上述方法。

再一方面，本申请的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，处理器执行所述计算机程序，实现上述方法。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明基于生成式大模型的文本信息关联性分析方法及设备，通过获得第一文本，通过生成式大模型对第一文本进行改写以获得第二文本；对第一文本和至少一个第二文本进行打标处理，获得第一标签组和第二标签组；根据第一标签组和至少一个第二标签组，获得第一结构化数据和第二结构化数据；根据第一结构化数据和第二结构化数据，进行关联性进行分析，获得第一关联性数据和第二关联性数据；当第一关联性数据和第二关联性数据的平均值的差异不大于预设的第一阈值时，根据第一关联性数据和至少一个第二关联性数据，获得第一文本的文本信息关联性数据。解决了现有文本关联性识别受用户记录习惯的影响较大，准确度较低的问题。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本申请中基于生成式大模型的文本信息关联性分析方法的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

如图1所示，一种基于生成式大模型的文本信息关联性分析方法，包括以下步骤：

S1、获得第一文本，通过生成式大模型对第一文本进行改写以获得至少一个第二文本；

具体的，根据用户输入的内容确定并获取到第一文本，第一文本是用户记录的原始的、未经修改的文本，然后使用生成式大模型对第一文本进行改写。生成式大模型能够理解和学习文本的内在结构，然后根据其学习到的知识生成新的、与原始文本相似但又有所不同的文本。通过这种方式，可以从第一文本中获得至少一个第二文本。这个第二文本在内容和语义上与第一文本保持一致，但在措辞、句式等表现形式上有所不同，从而实现了对原始文本的改写。

具体的，例如，假设用户输入了一个文本记录，即第一文本，内容是：“今天，小明晚上去逛了超市，购买了啤酒、尿不湿和可乐。”这个文本输入到生成式大模型中并要求生成式大模型对这个句子进行改写，生成式大模型理解了这个句子的意思，然后生成了一个新的、与原始文本相似但又有所不同的文本，即第二文本：“某年某月某日，小明晚上去超市购买了啤酒、尿不湿和可乐。”

可以看到，第二文本在内容和语义上与第一文本一致，但在措辞、句式等表现形式上有所不同，实现了改写。

可选的，获得第一文本，通过生成式大模型对第一文本进行改写以获得至少一个第二文本的步骤，包括：

获得第一文本，通过生成式大模型对第一文本进行改写以获得至少一个改写文本；

判断第一文本和至少一个改写文本的文本相似度；

将与第一文本相似度大于第二阈值的改写文本作为第二文本；

重复执行上述步骤直到第二文本的数量满足预设的目标。

具体的，文本相似度判断通常通过将文本转换为数值向量，然后基于这些数值向量来计算文本之间的相似度。常用的方法有：

文本表示模型：这是将文本转换为计算机可以处理的数值向量的过程，常用的方法包括词袋模型（bag-of-words）、TF-IDF（Term Frequency-Inverse DocumentFrequency）以及word2vec、GloVe和预训练模型等；

相似度度量方法：在得到了文本的数值表示之后，需要使用一种度量方法来计算文本之间的相似度，常见的度量方法有余弦相似度（cosine similarity）、欧氏距离（Euclidean distance）、杰卡德相似系数（Jaccard coefficient）等；

语义相似度：除了基于词汇的相似度计算，还可以通过语义向量或语义模型来衡量文本的语义相似度，这种方法更加注重文本的含义而非仅仅是字面上的匹配；

结构相似度：有时还需要考虑到文本的结构信息，如依赖树或句法结构，这可以帮助捕捉到文本中的语法和结构特征。

具体的，第二阈值通常设置在0.8-0.9之间，当两个文本的相似度超过设定的阈值时，就可以认为它们相似。

S2、对第一文本和至少一个第二文本进行打标处理，获得与第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组；

可选的，对第一文本和至少一个第二文本进行打标处理，获得与第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组的步骤，包括；

根据第一文本和至少一个第二文本，通过多分类模型，获得第一文本和至少一个第二文本的一级标签，一级标签被配置为用于表征第一文本和至少一个第二文本描述的事件；

根据一级标签，获得一级标签下的至少一个候选标签；

根据至少一个候选标签对第一文本和至少一个第二文本进行打标处理，获得第一文本和至少一个第二文本中与至少一个候选标签对应的关键字；

将一级标签、至少一个候选标签和与至少一个候选标签对应的关键字作为与第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组。

具体的，以第一文本为“今天，小明晚上去逛了超市，购买了啤酒、尿不湿和可乐。”为例，通过多分类模型，获得第一文本的一级标签为“购物活动”，由于第二文本与第一文本相似，第二文本的一级标签也应当为“购物活动”，若第一文本的一级标签与第二文本的一级标签不同，则向用户报错，根据一级标签为“购物活动”，获得一级标签下的至少一个候选标签，包括“时间”、“地点”、“人物”、“购买的商品”、“数量”、“价格”等，由于第一文本的内容仅包括“时间”、“地点”、“人物”、“购买的商品”，因此，根据“时间”、“地点”、“人物”、“购买的商品”获得对应的关键字“今天”、“超市”、“小明”、“啤酒”、“尿不湿”、“可乐”。

S3、根据第一标签组和至少一个第二标签组，获得第一结构化数据和至少一个第二结构化数据；

可选的，根据第一标签组和至少一个第二标签组，获得第一结构化数据和至少一个第二结构化数据的步骤，包括：

根据第一标签组和至少一个第二标签组对应的一级标签和至少一个候选标签，获得至少一个候选标签中的核心标签；

将核心标签作为主键字段，其他候选标签作为一般字段建立第一结构化数据表和至少一个第二结构化数据表；

将与至少一个候选标签对应的关键字填入第一结构化数据表和至少一个第二结构化数据表中以获得第一结构化数据和至少一个第二结构化数据。

具体的，以一级标签为“购物活动”，候选标签为“时间”、“地点”、“人物”、“购买的商品”，关键字为“今天”、“超市”、“小明”、“啤酒”、“尿不湿”、“可乐”为例，第一结构化数据表如表1所示，第一结构化数据如表2所示。

表1：

表2：

可选的，根据第一标签组和至少一个第二标签组，获得第一结构化数据和至少一个第二结构化数据的步骤前，还包括：

根据第一标签组和至少一个第二标签组，判断第一标签组和至少一个第二标签组中标签的相似度；

将与第一标签组相似度不大于第三阈值的第二标签组删除。

具体的，判断第一标签组和至少一个第二标签组中标签的相似度的方法是根据预设的方法，综合标签的数量、内容、出现的频率等参数进行判断。

具体的，本步骤一般不与“判断第一文本和至少一个改写文本的文本相似度”同时执行，即当第二文本均为与第一文本的文本相似度小于第二阈值的文本时，一般不执行本步骤。

S4、根据第一结构化数据和至少一个第二结构化数据，进行关联性进行分析，获得第一关联性数据和至少一个第二关联性数据；

具体的，第一关联性数据为第一标签组中各个标签的关联性数据，第二关联性数据为第二标签组中各个标签的关联性数据；

具体的，使用Python实现关联分析算法以获取第一关联性数据和至少一个第二关联性数据，Python中可以实现上述功能的库包括Mlxtend、Orange、pandas、scikit-learn等。

具体的，第一关联性数据和至少一个第二关联性数据包括标签之间的支持度（Support）、置信度（Confidence）、提升度（Lift）、Kulczynski指标（Kulczynski）等。

S5、判断第一关联性数据和至少一个第二关联性数据的平均值的差异是否大于预设的第一阈值；

当第一关联性数据和至少一个第二关联性数据的平均值的差异不大于预设的第一阈值时，S6、根据第一关联性数据和至少一个第二关联性数据，获得第一文本的文本信息关联性数据。

可选的，根据第一关联性数据和至少一个第二关联性数据，获得第一文本的文本信息关联性数据，包括：

根据第一关联性数据和至少一个第二关联性数据，使用预设的权重，获得第一关联性数据和至少一个第二关联性数据的加权平均值作为第一文本的文本信息关联性数据。

具体的，第一关联性数据的权重根据第二关联性数据的数量不同进行修正，范围为0.4-0.8，第二关联性数据越多，第一关联性数据的权重越低。采用上述方法，即使记录者的记录习惯没有问题，也可以尽可能的提高第一文本的文本信息关联性数据的准确性。

可选的，还包括：

当第一关联性数据和至少一个第二关联性数据的平均值的差异大于预设的第一阈值时；

获得至少一个第二关联性数据的标准差；

当至少一个第二关联性数据的标准差不大于第四阈值时；

将至少一个第二关联性数据的平均值作为第一文本的文本信息关联性数据。

当第一关联性数据和至少一个第二关联性数据的平均值的差异大于预设的第一阈值时，意味着获得第一文本和第二文本差异较大，由于第二文本均是AI模型对第一文本改写得到，则意味着第一文本记录的方法与常见方法存在差异或第一文本记录的内容存在歧义，当至少一个第二关联性数据的标准差不大于第四阈值时，意味着至少一个第二文本记录的内容的集中度较高，第一文本记录的内容不存在歧义，可以直接采用第二文本替换第一文本，将至少一个第二关联性数据的平均值作为第一文本的文本信息关联性数据。

可选的，还包括：

当至少一个第二关联性数据的标准差大于第四阈值时；

根据第一文本和第一标签组，通过生成式大模型对第一文本进行改写以获得至少一个第三文本；

对第至少一个第三文本进行打标处理，获得与第三文本对应的至少一个第三标签组；

根据至少一个第三标签组，获得至少一个第三结构化数据；

根据至少一个第三结构化数据，进行关联性进行分析，获得至少一个第三关联性数据，第三关联性数据为第三标签组中各个标签的关联性数据；

判断第一关联性数据和至少一个第三关联性数据的平均值的差异是否大于预设的第五阈值；

当第一关联性数据和至少一个第三关联性数据的平均值的差异不大于预设的第五阈值时，根据第一关联性数据和至少一个第三关联性数据，获得第一文本的文本信息关联性数据。

当至少一个第二关联性数据的标准差不大于第四阈值时，意味着至少一个第二文本记录的内容的集中度较低，第一文本记录的内容可能存在歧义，一般不直接采用第二文本替换第一文本，而将第一文本和第一标签组输入生成式大模型，提高改写的准确性，在根据新改写的第三文本替换第二文本重新执行步骤S2-S6以获取更准确的第一文本的文本信息关联性数据。

可选的，还包括：

当第一关联性数据和至少一个第三关联性数据的平均值的差异大于预设的第五阈值时，判断至少一个第三关联性数据的平均值与至少一个第二关联性数据的平均值的差异是否不大于第六阈值；

当至少一个第三关联性数据的平均值与至少一个第二关联性数据的平均值的差异不大于第六阈值时，根据至少一个第三关联性数据的平均值与至少一个第二关联性数据的平均值，获得第一文本的文本信息关联性数据。

上述方法能进一步提升第一文本出现歧义时，获得第一文本的文本信息关联性数据的准确性。

实施例2

基于生成式大模型的文本信息关联性分析***，包括分析平台、大模型平台和展示平台，其中：

分析平台被配置为：

获得第一文本，根据第一文本将第一文本和改写指令发送到大模型平台；

接收大模型平台发送的至少一个第二文本；

对第一文本和至少一个第二文本进行打标处理，获得与第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组；

根据第一标签组和至少一个第二标签组，获得第一结构化数据和至少一个第二结构化数据；

根据第一结构化数据和至少一个第二结构化数据，进行关联性进行分析，获得第一关联性数据和至少一个第二关联性数据，第一关联性数据为第一标签组中各个标签的关联性数据，第二关联性数据为第二标签组中各个标签的关联性数据；

判断第一关联性数据和至少一个第二关联性数据的平均值的差异是否大于预设的第一阈值；

当第一关联性数据和至少一个第二关联性数据的平均值的差异不大于预设的第一阈值时，根据第一关联性数据和至少一个第二关联性数据，获得第一文本的文本信息关联性数据；

大模型平台被配置为：

存储预训练的生成式大模型；

接收分析平台发送的第一文本和改写指令，通过生成式大模型对第一文本进行改写以获得至少一个第二文本；

将至少一个第二文本发送到分析平台；

展示平台被配置为：

获取第一文本的文本信息关联性数据并将其展示给用户。

实施例3

本实施例提供一种设备，该设备包括存储器和处理器，存储器中存储有计算机程序，处理器执行计算机程序，实现上述任一方法。

实施例4

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，处理器执行计算机程序，实现上述任一方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的非易失性存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.基于生成式大模型的文本信息关联性分析方法，其特征在于，包括以下步骤：

当所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异不大于预设的第一阈值时，根据所述第一关联性数据和至少一个所述第二关联性数据，获得所述第一文本的文本信息关联性数据；

所述对所述第一文本和至少一个所述第二文本进行打标处理，获得与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组的步骤，包括；

2.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法，其特征在于，所述获得第一文本，通过生成式大模型对所述第一文本进行改写以获得至少一个第二文本的步骤，包括：

判断所述第一文本和至少一个所述改写文本的文本相似度；

3.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法，其特征在于，所述根据所述第一标签组和至少一个所述第二标签组，获得第一结构化数据和至少一个第二结构化数据的步骤，包括：

4.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法，其特征在于，所述根据所述第一标签组和至少一个所述第二标签组，获得第一结构化数据和至少一个第二结构化数据的步骤前，还包括：

5.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法，其特征在于，还包括：

获得至少一个所述第二关联性数据的标准差；

6.根据权利要求5所述的基于生成式大模型的文本信息关联性分析方法，其特征在于，还包括：

当至少一个所述第二关联性数据的标准差大于第四阈值时；

7.根据权利要求6所述的基于生成式大模型的文本信息关联性分析方法，其特征在于，还包括：

8.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法，其特征在于，根据所述第一关联性数据和至少一个所述第二关联性数据，获得所述第一文本的文本信息关联性数据，包括：

9.一种设备，其特征在于，该设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序，实现根据权利要求1-8中任一项所述的方法。