CN116204647A - 一种目标比对学习模型的建立、文本聚类方法及装置 - Google Patents

一种目标比对学习模型的建立、文本聚类方法及装置 Download PDF

Info

Publication number
CN116204647A
CN116204647A CN202310260956.4A CN202310260956A CN116204647A CN 116204647 A CN116204647 A CN 116204647A CN 202310260956 A CN202310260956 A CN 202310260956A CN 116204647 A CN116204647 A CN 116204647A
Authority
CN
China
Prior art keywords
text data
target
text
data set
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310260956.4A
Other languages
English (en)
Inventor
张乾
林廷懋
林淑强
林诗璐
胡莺夕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202310260956.4A priority Critical patent/CN116204647A/zh
Publication of CN116204647A publication Critical patent/CN116204647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种目标比对学习模型的建立、文本聚类方法及装置,涉及人工智能技术领域,目标比对学习模型的建立方法包括:获取初始文本数据集;对初始文本数据集进行筛选,得到目标文本数据;通过目标文本数据对预设数据池中的文本数据集进行更新,得到第一训练数据集;利用第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;将初始文本数据集输入训练后的比对学习模型,得到初始文本数据集中各个文本数据的文本向量;对文本向量进行聚类处理,得到第二训练数据集,利用第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。本方案可以使用较少的数据训练得到目标模型,减少成本,提高模型的训练效率。

Description

一种目标比对学习模型的建立、文本聚类方法及装置
技术领域
本申请涉及人工智能技术领域,特别涉及一种目标比对学习模型的建立、文本聚类方法及装置。
背景技术
文本聚类是指对文档或文本进行的聚类分析,被广泛用于文本挖掘和信息检索领域。通过对文件进行聚类分析,可以确定出高频出现的文本,从而可以警醒有关部门,以从根源上解决高频出现的文本的问题。
基于现有的文本聚类方法,无法以较少的训练数据实现语义级别的文本聚类,文本聚类的准确性和效率较低。
针对上述技术问题,目前尚未提出有效的解决方案。
发明内容
本申请的目的是提供一种目标比对学习模型的建立、文本聚类方法及装置,以解决现有的文本聚类方法无法兼顾文本聚类的准确性和效率的问题。
本说明书提供了一种目标比对学习模型的建立方法,包括:
获取初始文本数据集;
对所述初始文本数据集进行筛选,得到目标文本数据;
通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;
利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;
将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;
对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;
利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
在一个实施例中,所述对所述初始文本数据集进行筛选,得到目标文本数据,包括:
对所述初始文本数据集进行分词合并处理,得到多个不同分词;
从所述初始文本数据集中,确定包含所述多个不同分词中各分词对应的文本数据集,作为第一文本数据集;
对所述初始文本数据集和所述第一文本数据集进行筛选,得到目标文本数据。
在一个实施例中,所述对初始文本数据集和第一文本数据集进行筛选,得到目标文本数据,包括:
从所述初始文本数据集,获取待筛选文本数据;
从所述第一文本数据集中,获取除待筛选文本数据外的高频文本数据;
将所述待筛选文本数据与所述高频文本数据进行相似度计算;
在所述待筛选文本数据与所述高频文本数据的相似度计算结果大于预设阈值时,将所述待筛选文本数据作为目标文本数据。
在一个实施例中,所述通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,包括:
计算所述目标文本数据与预设数据池中多个目标类别的文本数据集中各个目标类别的文本数据集中文本数据的相似度;
根据所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果,对预设数据池中多个目标类别的文本数据集进行更新。
在一个实施例中,所述根据目标文本数据与各个目标类别的文本数据集中文本数据的相似度的计算结果,对预设数据池中多个目标类别的文本数据集进行更新,包括:
在所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果均小于预设阈值时,将所述目标文本数据作为单一类别;
基于单一类别的目标文本数据对预设数据池中多个目标类别的文本数据集进行更新。
在一个实施例中,所述根据目标文本数据与各个目标类别的文本数据集中文本数据的相似度的计算结果,对预设数据池中多个目标类别的文本数据集进行更新,还包括:
在所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果不小于预设阈值时,确定是否存在第二目标类别,其中,所述第二目标类别在预设数据池的多个目标类别中,所述目标文本数据与所述第二目标类别中的文本数据的相似度计算结果均大于预设阈值;
在确定存在第二目标类别时,将所述目标文本数据加入至第二目标类别中对第二目标类别的文本数据进行更新,得到更新后的第二目标类别的文本数据;
基于更新后的第二目标类别的文本数据对预设数据池中多个目标类别的文本数据集进行更新。
本说明书还提供了一种文本聚类方法,包括:
获取待聚类文本数据集;
通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;
对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
本说明书还提供了一种目标比对学习模型的建立装置,包括:
第一获取模块,用于获取初始文本数据集;
筛选模块,用于对所述初始文本数据集进行筛选,得到目标文本数据;
一次训练模块,用于通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;
二次训练模块,用于将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
本说明书还提供了一种文本聚类装置,包括:
第二获取模块,用于获取待聚类文本数据集;
转换模块,用于通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;
聚类模块,用于对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
本说明书还提供了一种目标比对学习模型的建立设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中任意一个目标比对学习模型的建立方法实施例的步骤。
本说明书还提供了一种文本聚类设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中任意一个文本聚类方法实施例的步骤。
本说明书还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机可读存储介质执行所述指令时实现上述目标比对学习模型的建立方法、实现上述文本聚类方法。
本说明书还提供了一种计算机程序产品,包含有计算机程序,所述计算机程序被处理器执行所述指令时实现上述目标比对学习模型的建立方法、实现上述文本聚类方法。
本说明书提供的一种目标比对学习模型的建立方法,首先,获取初始文本数据集;其次,对所述初始文本数据集进行筛选,得到目标文本数据,通过对初始文本数据集进行筛选,可以得到有价值的文本数据,提高后续对目标文本数据进行划分的效率;通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集,通过获取更新后的多个目标类别的文本数据集可以减少训练数据集的数据量,为后续提高模型训练效率奠定基础;进一步,利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集,通过获取第二训练数据集可以进一步提高模型输出的准确性;最后,利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型,通过获取目标模型,可以为后续简单、快速进行语义级的文本聚类奠定基础。
本说明书提供的一种文本聚类方法,首先,获取待聚类文本数据集;其次,通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量,通过利用目标比对学习模型将文本数据转换为文本向量,能够在不需要大量的文本标记训练的前提下,准确快速地处理字词不相似但语义相似的文本数据,得到高质量的文本向量;最后,对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果,通过对文本向量进行聚类处理,可以识别出高频出现的文本数据,从而可以警醒有关部门,避免出现类似的问题。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中一种目标比对学习模型的建立方法的流程示意图;
图2是本发明实施例中一种文本聚类方法的流程示意图;
图3是本发明实施例中模型训练第一阶段处理流程的示意图;
图4是本发明实施例中A模块处理流程的示意图;
图5是本发明实施例中模型训练第二阶段处理流程的示意图;
图6是本发明实施例中聚类阶段处理流程的示意图;
图7是本发明实施例中一种目标比对学习模型的建立装置的结构组成示意图;
图8是本发明实施例中一种文本聚类装置的结构组成示意图;
图9是本发明实施例中提供的计算机设备结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
考虑到通过对文本进行聚类分析,可以统计出高频出现的文本,以警醒有关部门少犯此类错误。现有技术一般是将文本数据直接进行相似度比对或者先将文本是数据映射成向量再对向量进行相似度比对,并将相似度高的聚合为一类。但是现有技术存在以下缺点:
1)传统的字词比对方法,只会比对字词层面上的相似程度,准确性较低。例如,句子1:“我今天很高兴”,句子2:“我今天真的很高兴呀”,句子3:“本人在这一天非常的开心”。因为句子1和句子2的字词很相似,句子1和句子3的重合度较低,在使用传统的字词比对方法比对这三个句子时,很容易判定句子1和句子2相似,很难判定句子1和句子3相似,而实际上句子1和句子3之间还存在语义相似的关系,使用传统的字词比对方法无法识别语义相似的情况。
2)随着神经网络的发展,现有技术也会使用神经网络模型将文本数据转换成向量后,计算两个向量之间的相似度,来判断两个向量是否相似。然而神经网络的转换需要使用大量带标签的训练集进行微调训练后才能达到较好的效果,这种方式需要的人工成本较高,费时费力。
针对现有方法存在的上述问题,本申请考虑可以引入一种目标比对学习模型的建立、文本聚类方法及装置,可以以较少的训练数据实现语义级别的文本聚类,提高文本聚类的准确性和效率。
基于上述思路,本说明书提出一种目标比对学习模型的建立方法。首先,获取初始文本数据集;其次,对所述初始文本数据集进行筛选,得到目标文本数据;通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;进一步,利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;进一步,将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;最后,利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
本说明书还提出一种文本聚类方法。首先,获取待聚类文本数据集;其次,通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;最后,对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
参阅图1所示,本说明书实施例提供了一种目标比对学习模型的建立方法。具体实施时,该方法可以包括以下内容。
S101:获取初始文本数据集。
在一些实施例中,上述初始文本数据集中可以包括多个初始文本数据,其中,初始文本数据可以为待筛选的文本数据,通过获取初始文本数据集,可以为后续筛选得到目标文本数据奠定数据基础。
S102:对所述初始文本数据集进行筛选,得到目标文本数据。
在一些实施例中,上述目标文本数据可以为经过初步筛选后得到的有价值的文本数据,可以将初步筛选后的有价值的文本数据存入预设数据池中,其中,预设数据池可以用于存储多个初步筛选后的有价值的文本数据,通过将目标文本数据放入预设数据池,可以为文本数据进行精细划分奠定基础。
在一些实施例中,上述对所述初始文本数据集进行筛选,得到目标文本数据,在具体实施时,可以包括:
S1:对所述初始文本数据集进行分词合并处理,得到多个不同分词;
S2:从所述初始文本数据集中,确定包含所述多个不同分词中各分词对应的文本数据集,作为第一文本数据集;
S3:对所述初始文本数据集和所述第一文本数据集进行筛选,得到目标文本数据。
在一些实施例中,上述对初始文本数据集和第一文本数据集进行筛选,得到目标文本数据,在具体实施时,可以包括:
S1:从所述初始文本数据集,获取待筛选文本数据;
S2:从所述第一文本数据集中,获取除待筛选文本数据外的高频文本数据;
S3:将所述待筛选文本数据与所述高频文本数据进行相似度计算;
S4:在所述待筛选文本数据与所述高频文本数据的相似度计算结果大于预设阈值时,将所述待筛选文本数据作为目标文本数据。
在一些实施例中,上述分词合并处理可以理解为:对初始文本数据进行分词处理,再合并语义相同的分词,从而可以得到多个不同的分词。其中,分词处理可以采用分词组件进行,分词处理的过程就是将一个文本数据拆分成多个单词的过程,如:文本数据可以为:“我今天很开心”,使用分词组件分词就能将上述句子拆成:“我”,“今天”,“很”,“开心”这四个词。
在一些实施例中,上述初始文本数据集可以为:文本数据A:A行授信条件不低于他行;文本数据B:他行授信条件、额度较低;文本数据C:今年利润不低于一定数值;文本数据D:A行利润较好。对初始文本数据进行分词合并处理,可以得到多个不同的分词,如:“A行”、“授信条件”、“不低于”、“他行”、“额度”、“较低”、“今年”、“利润”、“一定数值”、“较好”。
在一些实施例中,上述从初始文本数据集中,确定包含所述多个不同分词中各分词对应的文本数据集,作为第一文本数据集,可以理解为:根据得到的不同的分词“A行”、“授信条件”、“不低于”、“他行”、“额度”、“较低”、“今年”、“利润”、“一定数值”、“较好”,从初始文本数据集,如:文本数据A:A行授信条件不低于他行;文本数据B:他行额度较低;文本数据C:今年利润不低于一定数值;文本数据D:A行利润较好,从中确定出:
1、包含“A行”的文本数据集是:{A,D}
2、包含“授信条件”的文本数据集是:{A,B}
3、包含“不低于”的文本数据集是:{A,C}
4、包含“他行”的文本数据集是:{A,B}
5、包含“额度”的文本数据集是:{B}
6、包含“较低”的文本数据集是:{B}
7、包含“今年”的文本数据集是:{C}
8、包含“利润”的文本数据集是:{C,D}
9、包含“一定数值”的文本数据集是:{C}
10、包含“较好”的文本数据集是:{D}
上述1至10为各分词对应的文本数据集,将1至10中出现的所有文本数据集统称为第一文本数据集。
在一些实施例中,上述待筛选文本数据可以理解为待判断是否能够进行预设数据池中的文本数据,如果判断出待筛选文本数据可以进入预设数据池,则可以将待筛选文本数据作为目标文本数据,关于判断出待筛选文本数据是否可以进入预设数据池,后续将另作说明,本说明书在此不作赘述。
在一些实施例中,上述高频文本数据可以为第一文本数据集中除待筛选文本数据外出现频次最高的文本数据,在具体实施时,可以通过如下方式获取:
S1:从所述第一文本数据集中,确定待筛选文本数据对应的多个分词和多个分词中各分词对应的第二文本数据集;
S2:从所述第二文本数据集,获取除待筛选文本数据外出现频次最高的文本数据,作为高频文本数据。
在一些实施例中,可以将文本数据A:“A行授信条件不低于他行”作为待筛选文本数据,相应地,待筛选文本数据对应的多个分词可以为:“A行”、“授信条件”、“不低于”、“他行”,第二文本数据集可以为:1、包含“A行”的文本数据集是:{A,D};2、包含“授信条件”的文本数据集是:{A,B};3、包含“不低于”的文本数据集是:{A,C};4、包含“他行”的文本数据集是:{A,B},依次统计第二文本数据集中,文本数据A、B、C、D出现的频次,可以得到A出现频次为:4次,B出现频次为:2次,C出现频次为:1次,D出现频次为:1次,由于A为待筛选文本数据,因此,排除待筛选文本数据A,可以得到出现频次最高的文本数据为B,则可以将B作为高频文本数据。需要说明的是,第一文本数据集中包含第二文本数据集,第二文本数据集是与待筛选文本数据相关联的数据集合,由待筛选文本数据的多个分词对于的文本数据集组成。
在一些实施例中,在得到待筛选文本数据和高频文本数据之后,需要计算待筛选文本数据和高频文本数据之间的相似度,根据相似度的计算结构判断待筛选文本数据是否可以进入预设数据池,如:在待筛选文本数据和高频文本数据之间的相似度的计算结果大于预设阈值时,可以将待筛选文本数据作为目标文本数据,存入预设数据池中。在待筛选文本数据和高频文本数据之间的相似度的计算结果小于预设阈值时,此时待筛选文本数据不能作为目标文本数据,存入预设数据池中。
其中,上述相似度计算可以采用文本相似度算法进行计算,如:编辑距离(Jarodistance)算法:可以用来横量两个文本的相似程度,主要体现在字词相似程度上。给定两个文本串,那么他们的距离定义为:
Figure BDA0004131202960000081
其中,d表示两个本文的相似度得分,范围为0-1之间,得分越高代表字词相似程度越高;m表示两个字符串中匹配的字符数;si表示某文本串长度;t表示换位数目。
需要说明的是,文本数据的相似度计算不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在一些实施例中,在待筛选文本数据与高频文本数据的相似度计算结果小于预设阈值时,在具体实施时,还可以包括:重新获取待筛选文本数据,直至重新获取的待筛选文本数据与高频文本数据的相似度计算结果大于预设阈值。
在一些实施例中,通过对初始文本数据集中的各个初始文本数据进行分词合并处理,可以合并语义相同的分词,实现数据的粗分类,为后续提高划分数据效率奠定基础。通过计算待筛选文本数据和高频文本数据之间的相似度,可以筛选出有效数据并存入预设数据池中,可以为后续准确快速地进行文本数据的精准划分奠定基础。
S103:通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集。
在一些实施例中,上述通过所述目标文本数据对所述预设数据池中多个目标类别的文本数据集进行更新,在具体实施时,可以包括:
S1:计算所述目标文本数据与预设数据池中多个目标类别的文本数据集中各个目标类别的文本数据集中文本数据的相似度;
S2:根据所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果,对预设数据池中多个目标类别的文本数据集进行更新。
在一些实施例中,在将目标文本数据放入预设数据池后,需要判断出目标文本数据的类别,如:可以判断目标文本数据是否可以划分到预设数据池中的某一个类别中。其中,可以通过将目标文本数据与预设数据池中多个目标类别的文本数据集中各个目标类别的文本数据集中文本数据的相似度的计算结果,判断出目标文本数据的类别。
在一些实施例中,上述根据目标文本数据与各个目标类别的文本数据集中文本数据的相似度的计算结果,对所述预设数据池中多个目标类别的文本数据集进行更新,在具体实施时,可以包括:
S1:在所述目标文本数据与各个目标类别的文本数据集中文本数据的相似度的计算结果均小于预设阈值时,将所述目标文本数据作为单一类别;
S2:基于单一类别的目标文本数据对预设数据池中多个目标类别的文本数据集进行更新。
在一些实施例中,在目标文本数据与各个目标类别的文本数据集中文本数据的相似度计算结果均小于预设阈值时,表明目标文本数据不能划分到预设数据池的多个目标类别中,此时目标文本数据可以单独作为一个类别,可以记为单一类别,再基于单一类别中存在的目标文本数据再对预设数据池中多个目标类别的文本数据集进行更新,如:多个目标类别的文本数据集可以为:{E,F}、{J}、{H、I}、{K}等。目标文本数据可以为A,将A分别与{E,F}中的E、F进行相似度计算、将A与{J}中J进行相似度计算、将A与{H、I}中的H、I进行相似度计算、将A与{K}中K进行相似度计算,得多组相似度的计算结果。在所有的相似度计算结果均小于预设阈值时,此时A不属于{E,F}、{J}、{H、I}、{K}中的任意一类别,而可以作为单独的类别即作为上述的单一类别,基于单一类别的目标文本数据对所述预设数据池中多个目标类别的文本数据集进行更新,即可以得到更新后的多个类别,如:{E,F}、{J}、{H、I}、{K}、{A}。
在一些实施例中,上述根据目标文本数据与各个目标类别的文本数据集中文本数据的相似度的计算结果,对所述预设数据池中多个目标类别的文本数据集进行更新,在具体实施时,还可以包括:
S1:在所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果不小于预设阈值时,确定是否存在第二目标类别,其中,所述第二目标类别在预设数据池的多个目标类别中,所述目标文本数据与所述第二目标类别中的文本数据的相似度计算结果均大于预设阈值;
S2:在确定存在第二目标类别时,将所述目标文本数据加入至第二目标类别中对第二目标类别的文本数据进行更新,得到更新后的第二目标类别的文本数据;
S3:基于更新后的第二目标类别的文本数据对预设数据池中多个目标类别的文本数据集进行更新。
在一些实施例中,在目标文本数据与各个目标类别的文本数据集中文本数据的相似度的计算结果不小于预设阈值时,需要进一步判断出是否存在第二目标类别,即判断预设数据池中是否存在某个类别,使得目标文本数据和该类别中所有文本数据的相似度的计算结果均大于预设阈值,在确定存在第二目标类别时,将目标文本数据加入到第二目标类别中,作为更新后的第二目标类别的文本数据,再基于更新后的第二目标类别的文本数据对预设数据池中多个目标类别的文本数据集进行更新。例如:第二目标类别可以为{E,F},即可以表示A文本数据分别与{E,F}中的E、F进行相似度计算的计算结果均大于预设阈值,则此时可以将A文本数据加入到{E,F}集合中,即对{E,F}集合进行更新,得到更新后的集合{E,F,A},最后,再用更新后的集合{E,F,A}对所述预设数据池中多个目标类别的文本数据集进行更新,即可以得到:{E,F,A}、{J}、{H、I}、{K}。
在一些实施例中,通过计算目标文本数据和预设数据池中多个目标类别的文本数据集中各个目标类别的文本数据集中文本数据的相似度,可以实现对预设数据池中的数据进行精准划分,从而可以有效提高后续模型训练的效率和准确性,减少人工对大量数据进行打标的成本。
S104:利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型。
在一些实施例中,上述比对学习模型可以为Simcse(Simple ContrastiveLearning of Sentence Embeddings)模型,可以通过一种简单的对比学习去做句子嵌入,还可以在不需要监督数据的情况下,能够生成质量更高的句向量。需要说明的是,在对模型进行训练时,采用的是Simcse模型的无监督训练模式,每一个训练轮次所使用的数据必须为不同类别间的任意一条数据,再结束指定的训练周期后,即完成对Simcse模型第一次训练。
在一些实施例中,通过使用精准划分后的文本数据对初始比对学习模型进行训练,可以降低人工标注成本,能够准确快速地生成高质量的句向量或文本向量。
S105:将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量。
S106:对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集。
S107:利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
在一些实施例中,为了进一步提高模型处理文本数据的效率和准确性,还可以获取文本向量的聚类结果,基于文本向量的聚类结果对一次训练后的模型进行进一步地训练,得到目标比对学习模型。
在一些实施例中,通过获取目标比对学习模型,可以为后续实现语义级文本向量的聚类奠定基础。
参阅图2所示,本说明书实施例提供了一种文本聚类方法。具体实施时,该方法可以包括以下内容。
S201:获取待聚类文本数据集;
S202:通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;
S203:对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
在一些实施例中,可以利用上述的目标比对学习模型,获取待聚类文本数据集中的各个文本数据对应的文本向量,再对文本向量进行聚类,可以实现语义级的文本聚类。
在一些实施例中,上述聚类可以采用Kmeans均值聚类算法(k-means clusteringalgorithm),其中,Kmeans均值聚类算法是一种迭代求解的聚类分析算法,其聚类过程可以为:将数据分为K组,随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
需要说明的是,文本向量的聚类方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
下面结合一个具体实施例对上述方法进行说明,然而值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
在具体实施时,首先,获取初始文本数据集;然后,对初始文本数据进行初步筛选,通过如下方式:对初始文本数据集进行分词合并处理,得到多个不同分词,从初始文本数据集中,确定包含所述多个不同分词中各分词对应的文本数据集,作为第一文本数据集,从初始文本数据集,获取待筛选文本数据,从第一文本数据集中,获取除待筛选文本数据外的高频文本数据,然后,将待筛选文本数据与高频文本数据进行相似度计算,在待筛选文本数据与高频文本数据的相似度计算结果大于预设阈值时,将所述待筛选文本数据作为目标文本数据,在获取得到目标文本数据时即可以完成文本数据的初步筛选。
进一步,进行文本数据的精细划分,通过如下方式:计算目标文本数据与预设数据池中多个目标类别的文本数据集中各个目标类别的文本数据集中文本数据的相似度,在目标文本数据与各个目标类别的文本数据集中文本数据的相似度的计算结果均小于预设阈值时,将目标文本数据作为单一类别,基于单一类别的目标文本数据对所述预设数据池中多个目标类别的文本数据集进行更新;若在目标文本数据与各个目标类别的文本数据集中文本数据的相似度的计算结果不小于预设阈值时,确定是否存在第二目标类别,其中,第二目标类别在预设数据池的多个目标类别中,目标文本数据与第二目标类别中的文本数据的相似度计算结果均大于预设阈值;在确定存在第二目标类别时,将目标文本数据加入至第二目标类别中对第二目标类别的文本数据进行更新,得到更新后的第二目标类别的文本数据;基于更新后的第二目标类别的文本数据对所述预设数据池中多个目标类别的文本数据集进行更新,在更新完成后即可以完成文本数据的精细划分。
进一步,将更新后的多个目标类别的文本数据集,将其作为第一训练数据集,再利用第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型。为了进一步提高模型训练的准确性,需要将初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;再对初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将文本向量聚类结果作为第二训练数据集。最后,可以利用第二训练数据集对训练后的比对学习模型进行再训练,可以得到目标比对学习模型。通过以上方法,可以实现以较少的训练数据输出高质量的文本向量,减少人工打标的成本,提高模型的训练效率和准确性。
在进行文本聚类时,可以获取待聚类文本数据集;然后,将待聚类文本数据集输入至目标比对学习模型中,将待聚类文本数据转换为文本向量;最后,对文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。通过以上方法,可以准确快速地获取高质量的文本向量,实现语义级的文本聚类,提高文本聚类的准确性。
在一个具体的场景示例中,参阅图3所示,图3示出了模型训练第一阶段处理流程的示意图,其中第一阶段可以为对模型进行一次训练的过程。具体的,可以先将原始数据池中的原始文本数据(或初始文本数据)输入至于A模块进行数据粗分类(假定这个过程被分为n类别),同时按照每个类别内的文本数量进行排序,然后挑选数量最多的前n/10类进行人工筛查,筛查类间的数据是否存在语义相同,如果存在则进行类合并。假定筛查完成后类别数量为X。然后,将这些数据输入到Simcse模型,进行模型的第一次训练,得到一次训练后的模型。
其中,参阅图4所示,图4示出了A模块处理流程的示意图。其中,A模块可以为模型训练第一阶段中的数据预分类模块,主要提供数据的粗分类,确定出原始文本数据中的可能高频出现的类别集。具体的,该模块的第一步是将原始数据池中的每一条文本数据都进行分词组件(jieba)的分词,然后进行分词统计,形成一个分词字典库,使得每一个分词都作为这个字典中的键,而含有该分词的文本数据都为这个分词的值。举例来说:“授信条件不低于他行”将被jieba分词为:“授信”,“条件”,“不低于”,“他行”。而“授信”这个分词将含有的值为{“授信条件不低于他行”,“授信额度应符合规定”,……},即包含“授信”分词的所有文本集合。
该模块的第二步是将原始数据池中的每一条都进行条件筛选。具体为,将原始数据池某一条文本数据S进行jieba分词后,选择文本数据S第一个分词T1,在分词字典库进行搜索,对含有分词T1的文本数据都进行频次加1,重复此过程,直至完成所有分词的搜索;最后选出频次最高的N条文本数据,逐条进行与文本数据S进行Jaro相似度比计算。当N/2条数量的文本数据与文本数据S的相似度结果都达到0.5以上,则该文本数据S满足筛选条件,将其放进精炼数据池中。重复此过程,直至完成原始数据池的所有数据筛选。
该模块的第三步是通过基于Jaro相似的分类对精炼数据池的文本数据进行分类。基于Jaro相似的分类方法具体可以为:精炼数据池中第一条文本数据将自动归为类别1,而精炼数据池的剩下数据将逐条进行一下计算:输入新的文本数据,与现有所有类别中的所有文本数据逐条进行Jaro相似度比计算,如果新的文本数据在某一个类别中,与半数(向上取整)数量的文本数据的相似度结果都达到0.5以上,则被归为该类;若不满足以上条件,则该新的文本数据将被赋予新的类别。重复此过程,直至完成所有精炼数据池的本文数据分类。
参阅图5所示,图5示出了模型训练第二阶段处理流程的示意图,其中,第二阶段可以理解为对模型进行二次训练的过程。具体的,第一步,将原始数据池的所有原始文本数据输入第一阶段训练后的Simcse模型中,全部转换成文本向量,然后使用Kmeans进行分类。其中,Kmeans分类的数量将被指定为第一阶段A模块分类的数量的两倍,即为2X。第二步,将Kmeans分类的结果再作为Simcse的训练数据进行训练。需要说明的是,第二阶段与第一阶段的训练策略相同,每一个训练轮次所使用的数据必须为不同类别间的任意一条数据,再结束指定的训练周期后,即完成这一步的对Simcse模型训练。第三步,是将原始数据池的所有数据经过再次训练的Simcse模型中,进行向量转换,然后使用Kmeans进行再次分类。以此反复第二第三步流程,直至指定的循环周期结束。
参阅图6所示,图6示出了聚类阶段即第三阶段处理流程的示意图,第三阶段为推理阶段,将原始数据池的所有数据经过最终的Simcse模型后,将所有的文本数据转换成向量,最后再使用Kmeans进行分类,可以得到最终的聚类结果。
基于上述所述一种目标比对学习模型的建立方法和一种文本聚类方法,本说明书一个或多个实施例还提供一种目标比对学习模型的建立装置和一种文本聚类装置。所述的装置可以包括使用了本说明书实施例所述方法的***(包括分布式***)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图7是本说明书提供的一种目标比对学习模型的建立装置的一个实施例的模块结构示意图,如图7所示,本说明书提供的一种目标比对学习模型的建立装置可以包括:第一获取模块701,筛选模块702,一次训练模块703,二次训练模块704。
第一获取模块701,可以用于获取初始文本数据集;
筛选模块702,可以用于对所述初始文本数据集进行筛选,得到目标文本数据;
一次训练模块703,可以用于通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;
二次训练模块704,可以用于将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
在一些实施例中,上述筛选模块702具体可以用于对所述初始文本数据集进行分词合并处理,得到多个不同分词;从所述初始文本数据集中,确定包含所述多个不同分词中各分词对应的文本数据集,作为第一文本数据集;对所述初始文本数据集和所述第一文本数据集进行筛选,得到目标文本数据。
在一些实施例中,上述筛选模块702具体还可以用于从所述初始文本数据集,获取待筛选文本数据;从所述第一文本数据集中,获取除待筛选文本数据外的高频文本数据;将所述待筛选文本数据与所述高频文本数据进行相似度计算;在所述待筛选文本数据与所述高频文本数据的相似度计算结果大于预设阈值时,将所述待筛选文本数据作为目标文本数据。
在一些实施例中,上述一次训练模块703具体可以用于计算所述目标文本数据与预设数据池中多个目标类别的文本数据集中各个目标类别的文本数据集中文本数据的相似度;根据所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果,对预设数据池中多个目标类别的文本数据集进行更新。
在一些实施例中,上述一次训练模块703具体还可以用于在所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果均小于预设阈值时,将所述目标文本数据作为单一类别;基于单一类别的目标文本数据对预设数据池中多个目标类别的文本数据集进行更新。
在一些实施例中,上述一次训练模块703具体还可以用于在所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果不小于预设阈值时,确定是否存在第二目标类别,其中,所述第二目标类别在预设数据池的多个目标类别中,所述目标文本数据与所述第二目标类别中的文本数据的相似度计算结果均大于预设阈值;在确定存在第二目标类别时,将所述目标文本数据加入至第二目标类别中对第二目标类别的文本数据进行更新,得到更新后的第二目标类别的文本数据;基于更新后的第二目标类别的文本数据对预设数据池中多个目标类别的文本数据集进行更新。
具体地,图8是本说明书提供的一种文本聚类装置的一个实施例的模块结构示意图,如图8所示,本说明书提供的一种文本聚类装置可以包括:第二获取模块801、转换模块802、聚类模块803。
第二获取模块801,用于获取待聚类文本数据集;
转换模块802,用于通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;
聚类模块803,用于对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,基于本说明书实施例提供的一种目标比对学习模型的建立装置,通过对初始文本数据进行筛选,获取目标文本数据,再对目标文本数据进行精细化分,可以有效减少人工标注成本,使用少量的标注数据对Simcse的模型进行训练,通过将Kmeans的聚类结果对Simcse的模型进行再次训练,可以使得模型能够输出高质量的文本向量。
基于本说明书实施例提供的一种文本聚类装置,通过将待聚类的文本数据输入至目标比对学习模型中,可以准确快速地获取高质量的文本向量,通过对高质量的文本向量进行聚类处理,可以得到语义级的文本聚类,提高文本聚类的准确性。
本申请还提供一种基于目标比对学习模型的建立方法的计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取初始文本数据集;对所述初始文本数据集进行筛选,得到目标文本数据;通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
本申请还提供一种基于文本聚类方法的计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取待聚类文本数据集;通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
为了能够更加准确地完成上述指令,参阅图9,本申请还提供了另一种具体的计算机设备,其中,所述计算机设备包括网络通信端口901、处理器902以及存储器903,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口901,具体可以用于获取初始文本数据集。
所述处理器902,具体可以用于对所述初始文本数据集进行筛选,得到目标文本数据;通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
所述存储器903,具体可以用于存储相应的指令程序。
其中,所述网络通信端口901,具体还可以用于获取待聚类文本数据集。
所述处理器902,具体还可以用于通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
所述存储器903,具体还可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口901可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器902可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器903可以包括多个层次,在数字***中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在***中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本申请还提供了一种基于上述目标比对学习模型的建立方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取初始文本数据集;对所述初始文本数据集进行筛选,得到目标文本数据;通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
本申请还提供了一种基于上述文本聚类方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取待聚类文本数据集;通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本申请还提供了一种基于上述目标比对学习模型的建立方法的计算机程序产品,包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行以下步骤:获取初始文本数据集;对所述初始文本数据集进行筛选,得到目标文本数据;通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
本申请还提供了一种基于上述文本聚类方法的计算机程序产品,包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行以下步骤:获取待聚类文本数据集;通过上述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (12)

1.一种目标比对学习模型的建立方法,其特征在于,包括:
获取初始文本数据集;
对所述初始文本数据集进行筛选,得到目标文本数据;
通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;
利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;
将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;
对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;
利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述初始文本数据集进行筛选,得到目标文本数据,包括:
对所述初始文本数据集进行分词合并处理,得到多个不同分词;
从所述初始文本数据集中,确定包含所述多个不同分词中各分词对应的文本数据集,作为第一文本数据集;
对所述初始文本数据集和所述第一文本数据集进行筛选,得到目标文本数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述初始文本数据集和所述第一文本数据集进行筛选,得到目标文本数据,包括:
从所述初始文本数据集,获取待筛选文本数据;
从所述第一文本数据集中,获取除待筛选文本数据外的高频文本数据;
将所述待筛选文本数据与所述高频文本数据进行相似度计算;
在所述待筛选文本数据与所述高频文本数据的相似度计算结果大于预设阈值时,将所述待筛选文本数据作为目标文本数据。
4.根据权利要求1所述的方法,其特征在于,所述通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,包括:
计算所述目标文本数据与预设数据池中多个目标类别的文本数据集中各个目标类别的文本数据集中文本数据的相似度;
根据所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果,对预设数据池中多个目标类别的文本数据集进行更新。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果,对预设数据池中多个目标类别的文本数据集进行更新,包括:
在所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果均小于预设阈值时,将所述目标文本数据作为单一类别;
基于单一类别的目标文本数据对预设数据池中多个目标类别的文本数据集进行更新。
6.根据权利要求4所述的方法,其特征在于,所述根据所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果,对预设数据池中多个目标类别的文本数据集进行更新,还包括:
在所述目标文本数据与所述各个目标类别的文本数据集中文本数据的相似度的计算结果不小于预设阈值时,确定是否存在第二目标类别,其中,所述第二目标类别在预设数据池的多个目标类别中,所述目标文本数据与所述第二目标类别中的文本数据的相似度计算结果均大于预设阈值;
在确定存在第二目标类别时,将所述目标文本数据加入至第二目标类别中对第二目标类别的文本数据进行更新,得到更新后的第二目标类别的文本数据;
基于更新后的第二目标类别的文本数据对预设数据池中多个目标类别的文本数据集进行更新。
7.一种文本聚类方法,其特征在于,包括:
获取待聚类文本数据集;
通过权利要求1至6中任一项所述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;
对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
8.一种目标比对学习模型的建立装置,其特征在于,包括:
第一获取模块,用于获取初始文本数据集;
筛选模块,用于对所述初始文本数据集进行筛选,得到目标文本数据;
一次训练模块,用于通过所述目标文本数据对预设数据池中多个目标类别的文本数据集进行更新,将更新后的多个目标类别的文本数据集,作为第一训练数据集;利用所述第一训练数据集对初始比对学习模型进行训练,得到训练后的比对学习模型;
二次训练模块,用于将所述初始文本数据集输入所述训练后的比对学习模型中,得到初始文本数据集中各个文本数据对应的文本向量;对所述初始文本数据集中各个文本数据对应的文本向量进行聚类处理,得到文本向量聚类结果,将所述文本向量聚类结果作为第二训练数据集;利用所述第二训练数据集对训练后的比对学习模型进行再训练,得到目标比对学习模型。
9.一种文本聚类装置,其特征在于,包括:
第二获取模块,用于获取待聚类文本数据集;
转换模块,用于通过权利要求1至6中任一项所述的目标比对学习模型,将所述待聚类文本数据集转换为文本向量;
聚类模块,用于对所述文本向量进行聚类处理,得到待聚类文本数据集的聚类结果。
10.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而实现权利要求1至7中任一项所述方法的步骤。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
12.一种计算机程序产品,其特征在于,包含有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202310260956.4A 2023-03-17 2023-03-17 一种目标比对学习模型的建立、文本聚类方法及装置 Pending CN116204647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310260956.4A CN116204647A (zh) 2023-03-17 2023-03-17 一种目标比对学习模型的建立、文本聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310260956.4A CN116204647A (zh) 2023-03-17 2023-03-17 一种目标比对学习模型的建立、文本聚类方法及装置

Publications (1)

Publication Number Publication Date
CN116204647A true CN116204647A (zh) 2023-06-02

Family

ID=86512876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310260956.4A Pending CN116204647A (zh) 2023-03-17 2023-03-17 一种目标比对学习模型的建立、文本聚类方法及装置

Country Status (1)

Country Link
CN (1) CN116204647A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628168A (zh) * 2023-06-12 2023-08-22 深圳市逗娱科技有限公司 基于大数据的用户个性分析处理方法、***及云平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628168A (zh) * 2023-06-12 2023-08-22 深圳市逗娱科技有限公司 基于大数据的用户个性分析处理方法、***及云平台
CN116628168B (zh) * 2023-06-12 2023-11-14 深圳市逗娱科技有限公司 基于大数据的用户个性分析处理方法、***及云平台

Similar Documents

Publication Publication Date Title
US8280915B2 (en) Binning predictors using per-predictor trees and MDL pruning
CN108898479B (zh) 信用评价模型的构建方法及装置
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
CN111143842B (zh) 一种恶意代码检测方法及***
CN107832456B (zh) 一种基于临界值数据划分的并行knn文本分类方法
Kareem et al. Improved accuracy for decision tree algorithm based on unsupervised discretization
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
Febriantono et al. Classification of multiclass imbalanced data using cost-sensitive decision tree C5. 0
CN109784368A (zh) 一种应用程序分类的确定方法和装置
CN110348516A (zh) 数据处理方法、装置、存储介质及电子设备
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
CN113537960A (zh) 一种异常资源转移链路的确定方法、装置和设备
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN112613296B (zh) 新闻的重要程度获取方法、装置、终端设备及存储介质
CN116432125B (zh) 基于哈希算法的代码分类方法
WO2023177666A1 (en) Deep learning systems and methods to disambiguate false positives in natural language processing analytics
CN115034762A (zh) 一种岗位推荐方法、装置、存储介质、电子设备及产品
CN115168537A (zh) 语义检索模型的训练方法、装置、电子设备及存储介质
CN114024912A (zh) 一种基于改造chameleon算法的网络流量应用识别分析方法及***
CN116861226A (zh) 一种数据处理的方法以及相关装置
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN115982634A (zh) 应用程序分类方法、装置、电子设备及计算机程序产品
CN111191688A (zh) 一种用户分期期数管理方法、装置和电子设备
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备
CN114722819B (zh) 一种实体类型分类识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination