CN117951303B - 基于生成式大模型的文本信息关联性分析方法及设备 - Google Patents

基于生成式大模型的文本信息关联性分析方法及设备 Download PDF

Info

Publication number
CN117951303B
CN117951303B CN202410339103.4A CN202410339103A CN117951303B CN 117951303 B CN117951303 B CN 117951303B CN 202410339103 A CN202410339103 A CN 202410339103A CN 117951303 B CN117951303 B CN 117951303B
Authority
CN
China
Prior art keywords
text
relevance
data
relevance data
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410339103.4A
Other languages
English (en)
Other versions
CN117951303A (zh
Inventor
张振中
史珂
李维春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation Flight University of China
Original Assignee
Civil Aviation Flight University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation Flight University of China filed Critical Civil Aviation Flight University of China
Priority to CN202410339103.4A priority Critical patent/CN117951303B/zh
Publication of CN117951303A publication Critical patent/CN117951303A/zh
Application granted granted Critical
Publication of CN117951303B publication Critical patent/CN117951303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基于生成式大模型的文本信息关联性分析方法及设备,通过获得第一文本,通过生成式大模型对第一文本进行改写以获得第二文本;对第一文本和至少一个第二文本进行打标处理,获得第一标签组和第二标签组;根据第一标签组和至少一个第二标签组,获得第一结构化数据和第二结构化数据;根据第一结构化数据和第二结构化数据,进行关联性进行分析,获得第一关联性数据和第二关联性数据;当第一关联性数据和第二关联性数据的平均值的差异不大于预设的第一阈值时,根据第一关联性数据和至少一个第二关联性数据,获得第一文本的文本信息关联性数据。解决了现有文本关联性识别受用户记录习惯的影响较大,准确度较低的问题。

Description

基于生成式大模型的文本信息关联性分析方法及设备
技术领域
本申请涉及互联网技术领域,尤其涉及基于生成式大模型的文本信息关联性分析方法及设备。
背景技术
文本分类与关联分析是自然语言处理领域的重要研究方向之一,其基于文本数据的特征和模式,可帮助我们理解文本的含义、进行语义分析、进行信息检索和预测等。
文本关联性分析旨在发现和理解文本之间的关联关系,如文本间的语义相似性、相关性等。基于自然语言处理技术的文本关联分析方法主要有以下几个方面:文本相似度计算:通过计算文本之间的相似度,寻找相似的文本,常用的文本相似度计算方法有余弦相似度Jaccard相似度、编辑距离等;文本聚类:将相似的文本分到同一个簇中,以便进行更高层次的语义分析,聚类方法包括层次聚类、k-means聚类等;关联规则挖掘:通过挖掘文本数据中的频繁项集和关联规则,发现其中隐含的相关性,关联规则挖掘方法包括Apriori算法、FP-Growth算法等;语义网络构建:通过构建文本之间的语义关联网络,揭示文本之间的关联关系,常用的构建方法包括基于共现关系、基于词嵌入模型等。
目前,在目前的文本关联性分析中,由于不同用户的记录习惯不同,即使对同一件事情,由不同的人来记录,记录的文本也不相同,对不同文本进行关联性识别的结果也不相同,这意味着现有文本关联性识别受用户记录习惯的影响较大,准确度较低。
发明内容
本发明提供了基于生成式大模型的文本信息关联性分析方法及设备,提供了一种受用户记录习惯影响较小的文本信息关联性分析方案,至少解决了在目前的文本关联性分析中,由于不同用户的记录习惯不同,即使对同一件事情,由不同的人来记录,记录的文本也不相同,对不同文本进行关联性识别的结果也不相同,这意味着现有文本关联性识别受用户记录习惯的影响较大,准确度较低的问题。
本申请提供一种基于生成式大模型的文本信息关联性分析方法,包括以下步骤:
获得第一文本,通过生成式大模型对所述第一文本进行改写以获得至少一个第二文本;
对所述第一文本和至少一个所述第二文本进行打标处理,获得与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组;
根据所述第一标签组和至少一个所述第二标签组,获得第一结构化数据和至少一个第二结构化数据;
根据所述第一结构化数据和至少一个所述第二结构化数据,进行关联性进行分析,获得第一关联性数据和至少一个第二关联性数据,所述第一关联性数据为所述第一标签组中各个标签的关联性数据,所述第二关联性数据为所述第二标签组中各个标签的关联性数据;
判断所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异是否大于预设的第一阈值;
当所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异不大于预设的第一阈值时,根据所述第一关联性数据和至少一个所述第二关联性数据,获得所述第一文本的文本信息关联性数据。
可选的,所述获得第一文本,通过生成式大模型对所述第一文本进行改写以获得至少一个第二文本的步骤,包括:
获得第一文本,通过生成式大模型对所述第一文本进行改写以获得至少一个改写文本;
判断所述第一文本和至少一个所述改写文本的文本相似度;
将与第一文本相似度大于第二阈值的所述改写文本作为第二文本;
重复执行上述步骤直到所述第二文本的数量满足预设的目标。
可选的,所述对所述第一文本和至少一个所述第二文本进行打标处理,获得与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组的步骤,包括;
根据所述第一文本和至少一个所述第二文本,通过多分类模型,获得所述第一文本和至少一个所述第二文本的一级标签,所述一级标签被配置为用于表征所述第一文本和至少一个所述第二文本描述的事件;
根据所述一级标签,获得所述一级标签下的至少一个候选标签;
根据至少一个所述候选标签对所述第一文本和至少一个所述第二文本进行打标处理,获得第一文本和至少一个所述第二文本中与至少一个所述候选标签对应的关键字;
将所述一级标签、至少一个所述候选标签和与至少一个所述候选标签对应的所述关键字作为与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组。
可选的,所述根据所述第一标签组和至少一个所述第二标签组,获得第一结构化数据和至少一个第二结构化数据的步骤,包括:
根据所述第一标签组和至少一个所述第二标签组对应的所述一级标签和至少一个所述候选标签,获得至少一个所述候选标签中的核心标签;
将所述核心标签作为主键字段,其他候选标签作为一般字段建立第一结构化数据表和至少一个第二结构化数据表;
将所述与至少一个所述候选标签对应的所述关键字填入所述第一结构化数据表和至少一个第二结构化数据表中以获得第一结构化数据和至少一个第二结构化数据。
可选的,所述根据所述第一标签组和至少一个所述第二标签组,获得第一结构化数据和至少一个第二结构化数据的步骤前,还包括:
所述根据所述第一标签组和至少一个所述第二标签组,判断所述第一标签组和至少一个所述第二标签组中标签的相似度;
将与所述第一标签组相似度不大于第三阈值的第二标签组删除。
可选的,还包括:
当所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异大于预设的第一阈值时;
获得至少一个所述第二关联性数据的标准差;
当至少一个所述第二关联性数据的标准差不大于第四阈值时;
将至少一个所述第二关联性数据的平均值作为第一文本的文本信息关联性数据。
可选的,还包括:
当至少一个所述第二关联性数据的标准差大于第四阈值时;
根据所述第一文本和所述第一标签组,通过生成式大模型对所述第一文本进行改写以获得至少一个第三文本;
对第至少一个所述第三文本进行打标处理,获得与第三文本对应的至少一个第三标签组;
根据至少一个所述第三标签组,获得至少一个第三结构化数据;
根据至少一个所述第三结构化数据,进行关联性进行分析,获得至少一个第三关联性数据,所述第三关联性数据为所述第三标签组中各个标签的关联性数据;
判断所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异是否大于预设的第五阈值;
当所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异不大于预设的第五阈值时,根据所述第一关联性数据和至少一个所述第三关联性数据,获得所述第一文本的文本信息关联性数据。
可选的,还包括:
当所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异大于预设的第五阈值时,判断至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值的差异是否不大于第六阈值;
当至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值的差异不大于第六阈值时,根据至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值,获得所述第一文本的文本信息关联性数据。
可选的,根据所述第一关联性数据和至少一个所述第二关联性数据,获得所述第一文本的文本信息关联性数据,包括:
根据所述第一关联性数据和至少一个所述第二关联性数据,使用预设的权重,获得所述第一关联性数据和至少一个所述第二关联性数据的加权平均值作为所述第一文本的文本信息关联性数据。
再一方面,本申请的实施例还提供一种设备,该设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,实现上述方法。
再一方面,本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,处理器执行所述计算机程序,实现上述方法。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明基于生成式大模型的文本信息关联性分析方法及设备,通过获得第一文本,通过生成式大模型对第一文本进行改写以获得第二文本;对第一文本和至少一个第二文本进行打标处理,获得第一标签组和第二标签组;根据第一标签组和至少一个第二标签组,获得第一结构化数据和第二结构化数据;根据第一结构化数据和第二结构化数据,进行关联性进行分析,获得第一关联性数据和第二关联性数据;当第一关联性数据和第二关联性数据的平均值的差异不大于预设的第一阈值时,根据第一关联性数据和至少一个第二关联性数据,获得第一文本的文本信息关联性数据。解决了现有文本关联性识别受用户记录习惯的影响较大,准确度较低的问题。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本申请中基于生成式大模型的文本信息关联性分析方法的流程示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
如图1所示,一种基于生成式大模型的文本信息关联性分析方法,包括以下步骤:
S1、获得第一文本,通过生成式大模型对第一文本进行改写以获得至少一个第二文本;
具体的,根据用户输入的内容确定并获取到第一文本,第一文本是用户记录的原始的、未经修改的文本,然后使用生成式大模型对第一文本进行改写。生成式大模型能够理解和学习文本的内在结构,然后根据其学习到的知识生成新的、与原始文本相似但又有所不同的文本。通过这种方式,可以从第一文本中获得至少一个第二文本。这个第二文本在内容和语义上与第一文本保持一致,但在措辞、句式等表现形式上有所不同,从而实现了对原始文本的改写。
具体的,例如,假设用户输入了一个文本记录,即第一文本,内容是:“今天,小明晚上去逛了超市,购买了啤酒、尿不湿和可乐。”这个文本输入到生成式大模型中并要求生成式大模型对这个句子进行改写,生成式大模型理解了这个句子的意思,然后生成了一个新的、与原始文本相似但又有所不同的文本,即第二文本:“某年某月某日,小明晚上去超市购买了啤酒、尿不湿和可乐。”
可以看到,第二文本在内容和语义上与第一文本一致,但在措辞、句式等表现形式上有所不同,实现了改写。
可选的,获得第一文本,通过生成式大模型对第一文本进行改写以获得至少一个第二文本的步骤,包括:
获得第一文本,通过生成式大模型对第一文本进行改写以获得至少一个改写文本;
判断第一文本和至少一个改写文本的文本相似度;
将与第一文本相似度大于第二阈值的改写文本作为第二文本;
重复执行上述步骤直到第二文本的数量满足预设的目标。
具体的,文本相似度判断通常通过将文本转换为数值向量,然后基于这些数值向量来计算文本之间的相似度。常用的方法有:
文本表示模型:这是将文本转换为计算机可以处理的数值向量的过程,常用的方法包括词袋模型(bag-of-words)、TF-IDF(Term Frequency-Inverse DocumentFrequency)以及word2vec、GloVe和预训练模型等;
相似度度量方法:在得到了文本的数值表示之后,需要使用一种度量方法来计算文本之间的相似度,常见的度量方法有余弦相似度(cosine similarity)、欧氏距离(Euclidean distance)、杰卡德相似系数(Jaccard coefficient)等;
语义相似度:除了基于词汇的相似度计算,还可以通过语义向量或语义模型来衡量文本的语义相似度,这种方法更加注重文本的含义而非仅仅是字面上的匹配;
结构相似度:有时还需要考虑到文本的结构信息,如依赖树或句法结构,这可以帮助捕捉到文本中的语法和结构特征。
具体的,第二阈值通常设置在0.8-0.9之间,当两个文本的相似度超过设定的阈值时,就可以认为它们相似。
S2、对第一文本和至少一个第二文本进行打标处理,获得与第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组;
可选的,对第一文本和至少一个第二文本进行打标处理,获得与第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组的步骤,包括;
根据第一文本和至少一个第二文本,通过多分类模型,获得第一文本和至少一个第二文本的一级标签,一级标签被配置为用于表征第一文本和至少一个第二文本描述的事件;
根据一级标签,获得一级标签下的至少一个候选标签;
根据至少一个候选标签对第一文本和至少一个第二文本进行打标处理,获得第一文本和至少一个第二文本中与至少一个候选标签对应的关键字;
将一级标签、至少一个候选标签和与至少一个候选标签对应的关键字作为与第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组。
具体的,以第一文本为“今天,小明晚上去逛了超市,购买了啤酒、尿不湿和可乐。”为例,通过多分类模型,获得第一文本的一级标签为“购物活动”,由于第二文本与第一文本相似,第二文本的一级标签也应当为“购物活动”,若第一文本的一级标签与第二文本的一级标签不同,则向用户报错,根据一级标签为“购物活动”,获得一级标签下的至少一个候选标签,包括“时间”、“地点”、“人物”、“购买的商品”、“数量”、“价格”等,由于第一文本的内容仅包括“时间”、“地点”、“人物”、“购买的商品”,因此,根据“时间”、“地点”、“人物”、“购买的商品”获得对应的关键字“今天”、“超市”、“小明”、“啤酒”、“尿不湿”、“可乐”。
S3、根据第一标签组和至少一个第二标签组,获得第一结构化数据和至少一个第二结构化数据;
可选的,根据第一标签组和至少一个第二标签组,获得第一结构化数据和至少一个第二结构化数据的步骤,包括:
根据第一标签组和至少一个第二标签组对应的一级标签和至少一个候选标签,获得至少一个候选标签中的核心标签;
将核心标签作为主键字段,其他候选标签作为一般字段建立第一结构化数据表和至少一个第二结构化数据表;
将与至少一个候选标签对应的关键字填入第一结构化数据表和至少一个第二结构化数据表中以获得第一结构化数据和至少一个第二结构化数据。
具体的,以一级标签为“购物活动”,候选标签为“时间”、“地点”、“人物”、“购买的商品”,关键字为“今天”、“超市”、“小明”、“啤酒”、“尿不湿”、“可乐”为例,第一结构化数据表如表1所示,第一结构化数据如表2所示。
表1:
表2:
可选的,根据第一标签组和至少一个第二标签组,获得第一结构化数据和至少一个第二结构化数据的步骤前,还包括:
根据第一标签组和至少一个第二标签组,判断第一标签组和至少一个第二标签组中标签的相似度;
将与第一标签组相似度不大于第三阈值的第二标签组删除。
具体的,判断第一标签组和至少一个第二标签组中标签的相似度的方法是根据预设的方法,综合标签的数量、内容、出现的频率等参数进行判断。
具体的,本步骤一般不与“判断第一文本和至少一个改写文本的文本相似度”同时执行,即当第二文本均为与第一文本的文本相似度小于第二阈值的文本时,一般不执行本步骤。
S4、根据第一结构化数据和至少一个第二结构化数据,进行关联性进行分析,获得第一关联性数据和至少一个第二关联性数据;
具体的,第一关联性数据为第一标签组中各个标签的关联性数据,第二关联性数据为第二标签组中各个标签的关联性数据;
具体的,使用Python实现关联分析算法以获取第一关联性数据和至少一个第二关联性数据,Python中可以实现上述功能的库包括Mlxtend、Orange、pandas、scikit-learn等。
具体的,第一关联性数据和至少一个第二关联性数据包括标签之间的支持度(Support)、置信度(Confidence)、提升度(Lift)、Kulczynski指标(Kulczynski)等。
S5、判断第一关联性数据和至少一个第二关联性数据的平均值的差异是否大于预设的第一阈值;
当第一关联性数据和至少一个第二关联性数据的平均值的差异不大于预设的第一阈值时,S6、根据第一关联性数据和至少一个第二关联性数据,获得第一文本的文本信息关联性数据。
可选的,根据第一关联性数据和至少一个第二关联性数据,获得第一文本的文本信息关联性数据,包括:
根据第一关联性数据和至少一个第二关联性数据,使用预设的权重,获得第一关联性数据和至少一个第二关联性数据的加权平均值作为第一文本的文本信息关联性数据。
具体的,第一关联性数据的权重根据第二关联性数据的数量不同进行修正,范围为0.4-0.8,第二关联性数据越多,第一关联性数据的权重越低。采用上述方法,即使记录者的记录习惯没有问题,也可以尽可能的提高第一文本的文本信息关联性数据的准确性。
可选的,还包括:
当第一关联性数据和至少一个第二关联性数据的平均值的差异大于预设的第一阈值时;
获得至少一个第二关联性数据的标准差;
当至少一个第二关联性数据的标准差不大于第四阈值时;
将至少一个第二关联性数据的平均值作为第一文本的文本信息关联性数据。
当第一关联性数据和至少一个第二关联性数据的平均值的差异大于预设的第一阈值时,意味着获得第一文本和第二文本差异较大,由于第二文本均是AI模型对第一文本改写得到,则意味着第一文本记录的方法与常见方法存在差异或第一文本记录的内容存在歧义,当至少一个第二关联性数据的标准差不大于第四阈值时,意味着至少一个第二文本记录的内容的集中度较高,第一文本记录的内容不存在歧义,可以直接采用第二文本替换第一文本,将至少一个第二关联性数据的平均值作为第一文本的文本信息关联性数据。
可选的,还包括:
当至少一个第二关联性数据的标准差大于第四阈值时;
根据第一文本和第一标签组,通过生成式大模型对第一文本进行改写以获得至少一个第三文本;
对第至少一个第三文本进行打标处理,获得与第三文本对应的至少一个第三标签组;
根据至少一个第三标签组,获得至少一个第三结构化数据;
根据至少一个第三结构化数据,进行关联性进行分析,获得至少一个第三关联性数据,第三关联性数据为第三标签组中各个标签的关联性数据;
判断第一关联性数据和至少一个第三关联性数据的平均值的差异是否大于预设的第五阈值;
当第一关联性数据和至少一个第三关联性数据的平均值的差异不大于预设的第五阈值时,根据第一关联性数据和至少一个第三关联性数据,获得第一文本的文本信息关联性数据。
当至少一个第二关联性数据的标准差不大于第四阈值时,意味着至少一个第二文本记录的内容的集中度较低,第一文本记录的内容可能存在歧义,一般不直接采用第二文本替换第一文本,而将第一文本和第一标签组输入生成式大模型,提高改写的准确性,在根据新改写的第三文本替换第二文本重新执行步骤S2-S6以获取更准确的第一文本的文本信息关联性数据。
可选的,还包括:
当第一关联性数据和至少一个第三关联性数据的平均值的差异大于预设的第五阈值时,判断至少一个第三关联性数据的平均值与至少一个第二关联性数据的平均值的差异是否不大于第六阈值;
当至少一个第三关联性数据的平均值与至少一个第二关联性数据的平均值的差异不大于第六阈值时,根据至少一个第三关联性数据的平均值与至少一个第二关联性数据的平均值,获得第一文本的文本信息关联性数据。
上述方法能进一步提升第一文本出现歧义时,获得第一文本的文本信息关联性数据的准确性。
实施例2
基于生成式大模型的文本信息关联性分析***,包括分析平台、大模型平台和展示平台,其中:
分析平台被配置为:
获得第一文本,根据第一文本将第一文本和改写指令发送到大模型平台;
接收大模型平台发送的至少一个第二文本;
对第一文本和至少一个第二文本进行打标处理,获得与第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组;
根据第一标签组和至少一个第二标签组,获得第一结构化数据和至少一个第二结构化数据;
根据第一结构化数据和至少一个第二结构化数据,进行关联性进行分析,获得第一关联性数据和至少一个第二关联性数据,第一关联性数据为第一标签组中各个标签的关联性数据,第二关联性数据为第二标签组中各个标签的关联性数据;
判断第一关联性数据和至少一个第二关联性数据的平均值的差异是否大于预设的第一阈值;
当第一关联性数据和至少一个第二关联性数据的平均值的差异不大于预设的第一阈值时,根据第一关联性数据和至少一个第二关联性数据,获得第一文本的文本信息关联性数据;
大模型平台被配置为:
存储预训练的生成式大模型;
接收分析平台发送的第一文本和改写指令,通过生成式大模型对第一文本进行改写以获得至少一个第二文本;
将至少一个第二文本发送到分析平台;
展示平台被配置为:
获取第一文本的文本信息关联性数据并将其展示给用户。
实施例3
本实施例提供一种设备,该设备包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序,实现上述任一方法。
实施例4
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,处理器执行计算机程序,实现上述任一方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个非易失性存储介质中,包括若干指令用以使得一台设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的非易失性存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.基于生成式大模型的文本信息关联性分析方法,其特征在于,包括以下步骤:
获得第一文本,通过生成式大模型对所述第一文本进行改写以获得至少一个第二文本;
对所述第一文本和至少一个所述第二文本进行打标处理,获得与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组;
根据所述第一标签组和至少一个所述第二标签组,获得第一结构化数据和至少一个第二结构化数据;
根据所述第一结构化数据和至少一个所述第二结构化数据,进行关联性进行分析,获得第一关联性数据和至少一个第二关联性数据,所述第一关联性数据为所述第一标签组中各个标签的关联性数据,所述第二关联性数据为所述第二标签组中各个标签的关联性数据;
判断所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异是否大于预设的第一阈值;
当所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异不大于预设的第一阈值时,根据所述第一关联性数据和至少一个所述第二关联性数据,获得所述第一文本的文本信息关联性数据;
所述对所述第一文本和至少一个所述第二文本进行打标处理,获得与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组的步骤,包括;
根据所述第一文本和至少一个所述第二文本,通过多分类模型,获得所述第一文本和至少一个所述第二文本的一级标签,所述一级标签被配置为用于表征所述第一文本和至少一个所述第二文本描述的事件;
根据所述一级标签,获得所述一级标签下的至少一个候选标签;
根据至少一个所述候选标签对所述第一文本和至少一个所述第二文本进行打标处理,获得第一文本和至少一个所述第二文本中与至少一个所述候选标签对应的关键字;
将所述一级标签、至少一个所述候选标签和与至少一个所述候选标签对应的所述关键字作为与所述第一文本对应的第一标签组和与第二文本对应的至少一个第二标签组。
2.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法,其特征在于,所述获得第一文本,通过生成式大模型对所述第一文本进行改写以获得至少一个第二文本的步骤,包括:
获得第一文本,通过生成式大模型对所述第一文本进行改写以获得至少一个改写文本;
判断所述第一文本和至少一个所述改写文本的文本相似度;
将与第一文本相似度大于第二阈值的所述改写文本作为第二文本;
重复执行上述步骤直到所述第二文本的数量满足预设的目标。
3.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法,其特征在于,所述根据所述第一标签组和至少一个所述第二标签组,获得第一结构化数据和至少一个第二结构化数据的步骤,包括:
根据所述第一标签组和至少一个所述第二标签组对应的所述一级标签和至少一个所述候选标签,获得至少一个所述候选标签中的核心标签;
将所述核心标签作为主键字段,其他候选标签作为一般字段建立第一结构化数据表和至少一个第二结构化数据表;
将所述与至少一个所述候选标签对应的所述关键字填入所述第一结构化数据表和至少一个第二结构化数据表中以获得第一结构化数据和至少一个第二结构化数据。
4.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法,其特征在于,所述根据所述第一标签组和至少一个所述第二标签组,获得第一结构化数据和至少一个第二结构化数据的步骤前,还包括:
所述根据所述第一标签组和至少一个所述第二标签组,判断所述第一标签组和至少一个所述第二标签组中标签的相似度;
将与所述第一标签组相似度不大于第三阈值的第二标签组删除。
5.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法,其特征在于,还包括:
当所述第一关联性数据和至少一个所述第二关联性数据的平均值的差异大于预设的第一阈值时;
获得至少一个所述第二关联性数据的标准差;
当至少一个所述第二关联性数据的标准差不大于第四阈值时;
将至少一个所述第二关联性数据的平均值作为第一文本的文本信息关联性数据。
6.根据权利要求5所述的基于生成式大模型的文本信息关联性分析方法,其特征在于,还包括:
当至少一个所述第二关联性数据的标准差大于第四阈值时;
根据所述第一文本和所述第一标签组,通过生成式大模型对所述第一文本进行改写以获得至少一个第三文本;
对第至少一个所述第三文本进行打标处理,获得与第三文本对应的至少一个第三标签组;
根据至少一个所述第三标签组,获得至少一个第三结构化数据;
根据至少一个所述第三结构化数据,进行关联性进行分析,获得至少一个第三关联性数据,所述第三关联性数据为所述第三标签组中各个标签的关联性数据;
判断所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异是否大于预设的第五阈值;
当所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异不大于预设的第五阈值时,根据所述第一关联性数据和至少一个所述第三关联性数据,获得所述第一文本的文本信息关联性数据。
7.根据权利要求6所述的基于生成式大模型的文本信息关联性分析方法,其特征在于,还包括:
当所述第一关联性数据和至少一个所述第三关联性数据的平均值的差异大于预设的第五阈值时,判断至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值的差异是否不大于第六阈值;
当至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值的差异不大于第六阈值时,根据至少一个所述第三关联性数据的平均值与至少一个所述第二关联性数据的平均值,获得所述第一文本的文本信息关联性数据。
8.根据权利要求1所述的基于生成式大模型的文本信息关联性分析方法,其特征在于,根据所述第一关联性数据和至少一个所述第二关联性数据,获得所述第一文本的文本信息关联性数据,包括:
根据所述第一关联性数据和至少一个所述第二关联性数据,使用预设的权重,获得所述第一关联性数据和至少一个所述第二关联性数据的加权平均值作为所述第一文本的文本信息关联性数据。
9.一种设备,其特征在于,该设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,实现根据权利要求1-8中任一项所述的方法。
CN202410339103.4A 2024-03-25 2024-03-25 基于生成式大模型的文本信息关联性分析方法及设备 Active CN117951303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410339103.4A CN117951303B (zh) 2024-03-25 2024-03-25 基于生成式大模型的文本信息关联性分析方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410339103.4A CN117951303B (zh) 2024-03-25 2024-03-25 基于生成式大模型的文本信息关联性分析方法及设备

Publications (2)

Publication Number Publication Date
CN117951303A CN117951303A (zh) 2024-04-30
CN117951303B true CN117951303B (zh) 2024-06-11

Family

ID=90796560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410339103.4A Active CN117951303B (zh) 2024-03-25 2024-03-25 基于生成式大模型的文本信息关联性分析方法及设备

Country Status (1)

Country Link
CN (1) CN117951303B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155756A (ja) * 1998-06-30 2000-06-06 Toshiba Corp 構造化文書保存方法並びにデータ中継装置及びデータ送受信装置
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN110569353A (zh) * 2019-07-03 2019-12-13 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN111209393A (zh) * 2019-12-17 2020-05-29 安徽经邦软件技术有限公司 基于自然语言处理的专业化文档分类标签实现方法
CN115169297A (zh) * 2022-06-21 2022-10-11 河北省讯飞人工智能研究院 文本改写方法、装置、电子设备和存储介质
CN116011425A (zh) * 2022-12-14 2023-04-25 中电万维信息技术有限责任公司 一种基于gpt网络模型的中文问题重写方法
CN116401689A (zh) * 2023-04-11 2023-07-07 腾讯云计算(北京)有限责任公司 文本处理模型的训练方法、文本处理方法、装置及介质
CN116737933A (zh) * 2023-06-16 2023-09-12 平安科技(深圳)有限公司 文本分类方法、装置、电子设备及计算机可读存储介质
CN117217315A (zh) * 2023-09-22 2023-12-12 深圳智现未来工业软件有限公司 一种利用大语言模型生成高质量问答数据的方法及装置
CN117521638A (zh) * 2023-11-10 2024-02-06 世优(北京)科技有限公司 文本标签确定方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886500B2 (en) * 2013-03-13 2018-02-06 Open Text Holdings, Inc. System and method for providing technology assisted data review with optimizing features
US11593569B2 (en) * 2019-10-11 2023-02-28 Lenovo (Singapore) Pte. Ltd. Enhanced input for text analytics
US20220414430A1 (en) * 2021-06-24 2022-12-29 International Business Machines Corporation Data simulation using a generative adversarial network (gan)

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155756A (ja) * 1998-06-30 2000-06-06 Toshiba Corp 構造化文書保存方法並びにデータ中継装置及びデータ送受信装置
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN110569353A (zh) * 2019-07-03 2019-12-13 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN111209393A (zh) * 2019-12-17 2020-05-29 安徽经邦软件技术有限公司 基于自然语言处理的专业化文档分类标签实现方法
CN115169297A (zh) * 2022-06-21 2022-10-11 河北省讯飞人工智能研究院 文本改写方法、装置、电子设备和存储介质
CN116011425A (zh) * 2022-12-14 2023-04-25 中电万维信息技术有限责任公司 一种基于gpt网络模型的中文问题重写方法
CN116401689A (zh) * 2023-04-11 2023-07-07 腾讯云计算(北京)有限责任公司 文本处理模型的训练方法、文本处理方法、装置及介质
CN116737933A (zh) * 2023-06-16 2023-09-12 平安科技(深圳)有限公司 文本分类方法、装置、电子设备及计算机可读存储介质
CN117217315A (zh) * 2023-09-22 2023-12-12 深圳智现未来工业软件有限公司 一种利用大语言模型生成高质量问答数据的方法及装置
CN117521638A (zh) * 2023-11-10 2024-02-06 世优(北京)科技有限公司 文本标签确定方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
(美)***·J.扎基,(巴西)小瓦格纳·梅拉著."计算机科学丛书 数据挖掘与机器学习 基础概念和算法 原书第2版".北京:机械工业出版社,2023,247-250页. *
"GRM:Generative Relevance Modeling Using Revance-Aware Sample Estimation for Document Retrieval";Iain Mackie;《arXiv.org-https://arxiv.org/abs/2306.09938》;20230616;论文第1-6页 *
"Recent Advances in Hierarchical Multi-Label Text Classification:A Survey";Rundong Liu;"https://doi/org/10.48550/arXiv.2307.16265";20230730;1-14 *
"基于字词向量融合的民航智慧监管短文本分类";史珂,王欣等;《中国安全科学学报》;20240215;第34卷(第02期);37-44 *
"多标签分类算法在文本关联挖掘中的应用";柯楠;《中国优秀硕士学位论文全文数据库-信息科技辑》;20181115(第11期);论文第12页、第24-34页、43-44页 *
基于fcmpCNN模型的网络文本情感多分类标注;周锦峰;叶施仁;王晖;;计算机应用研究;20171212(12);37-4137-41 *

Also Published As

Publication number Publication date
CN117951303A (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN109947909B (zh) 智能客服应答方法、设备、存储介质及装置
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
JP6177871B2 (ja) 製品情報の公開
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
US20190370273A1 (en) System, computer-implemented method and computer program product for information retrieval
US20120323968A1 (en) Learning Discriminative Projections for Text Similarity Measures
WO2019217096A1 (en) System and method for automatically responding to user requests
CN110377886A (zh) 项目查重方法、装置、设备及存储介质
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN107038173A (zh) 应用查询方法和装置、相似应用检测方法和装置
US11734322B2 (en) Enhanced intent matching using keyword-based word mover's distance
Zhang et al. Locality reconstruction models for book representation
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
US11874798B2 (en) Smart dataset collection system
WO2016114790A1 (en) Reading difficulty level based resource recommendation
Zhang et al. Annotating needles in the haystack without looking: Product information extraction from emails
CN111782793A (zh) 智能客服处理方法和***及设备
Ciaburro et al. Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets
CN113590945B (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN112182126A (zh) 用于确定匹配度的模型训练方法、装置、电子设备及可读存储介质
CN111368081A (zh) 一种精选文本内容确定方法和***
CN117951303B (zh) 基于生成式大模型的文本信息关联性分析方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant