CN113221530A - 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质 - Google Patents
一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质 Download PDFInfo
- Publication number
- CN113221530A CN113221530A CN202110417707.2A CN202110417707A CN113221530A CN 113221530 A CN113221530 A CN 113221530A CN 202110417707 A CN202110417707 A CN 202110417707A CN 113221530 A CN113221530 A CN 113221530A
- Authority
- CN
- China
- Prior art keywords
- sample
- model
- anchor
- samples
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 24
- 241000393496 Electra Species 0.000 claims abstract description 9
- 238000002360 preparation method Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000019423 liver disease Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质,其涉及计算机信息处理技术领域,所述方法包括:S1样本准备;S2模型训练;S3模型预测;在S2模型训练阶段,首先使用孪生网络结构分批训练上述样本集;然后分别计算锚样本与正样本、负样本之间的距离:利用electra模型计算样本的3)使用circle loss损失函数计算损失值,接着利用electra模型计算每个样本的特征表示,将circle loss损失函数与electra模型相结合,并使其应用到问答***中,可得到文本相似度匹配速度与精度均较高的问题收集方法。
Description
技术领域
本发明涉及计算机信息处理技术领域,特别涉及一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质。
背景技术
近年来,随着人工智能相关学科,特别是计算语言学的发展,各种各样的问答***应运而生,它允许用户以自然语言的方式提问,通过理解与检索等过程将简短、准确的答案返回给用户。文本匹配是检索过程的最要一环。文本匹配主要由传统的基于词的字面匹配和基于深度学习的向量匹配。
传统的BM25/Jaccard/Cosine Similarity等基于词匹配的模型都具有表示方法简洁、运算方便的特点,解决了词汇层面的匹配问题。但是基于词匹配的模型也有一定的局限,不能解决一词多义、同义词关联以及语序问题。基于深度学习的的文本匹配方法主要分为两类,一类是Representation-based模型,这类方法先分别学习出query和question的句向量表示,然后用两个向量做余弦相似度计算或者连接多层感知机(MLP)得到最后的匹配分,重点是学习query和question对应的句向量表示;另外一类是Interaction-based模型,这类先构建匹配矩阵(Matching Matrix),然后利用匹配矩阵学习一个匹配函数,最后连接多层感知机输出匹配分。第二类方法在实际应用中会有很大的延时。Representation-based模型最为有代表性的是基于孪生网络(Siamese Network)的文本匹配。但孪生网络在实际应用中对于训练语料中未出现的句子匹配效果较差。为了提高文本匹配的泛化能力,引入了Triplet Loss用以提高了文本匹配的泛化能力。在Triplet Loss中,训练期间有三个输入,分别是锚样本(anchor sample),正样本(positive sample)和负样本(negtivesample)。锚是参考输入,正样本是锚样本的相似样本,负样本与锚样本不相似。TripletLoss的思想是:最大化锚样本和负样本之间的距离,同时拉近或最小化锚样本和正样本之间的距离。但当正样本或负样本与锚样本具有相同的距离时,或者正样本只是相比负样本稍微接近锚样本时,正样本到锚样本的距离与负样本到锚样本的距离差(margin)为零,也就是损失是零,此时就不会进行校正,尽管它仍然应该把正样本拉的更近,把负样本推得更远。
但在训练过程中存在两对正样本和负样本之间有相同margin(正样本到锚样本的距离与负样本到锚样本的距离差),但其中一对离anchor更近另一对离点更远,如图6所示,在Triplet Loss训练过程中两对样本会得到相对的梯度,两对样本具有相同的最优性,利用Triplet Loss无法准确且快速的完成文本匹配。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于circle loss的文本相似度匹配方法,解决了利用Triplet Loss模型针对两对具有相同margin的样本时无法准确且快速完成文本匹配的问题,实用性较高。
为了实现上述目的,本发明所采用的技术方案为:一种基于circle loss的文本相似度匹配方法,包括如下步骤:
S1样本准备:收集问题集、确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;
S2模型训练:构建并训练模型;
S3模型预测:测试训练完成的模型;
其中,S2模型训练具体为,使用孪生网络结构分批训练上述样本集;1)分别计算锚样本与正样本、负样本之间的距离;2)使用circle loss损失函数计算损失值;
计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;2)通过卷积神经网络,对每个样本的特征表示进行学习,获取每个样本的特征向量(200维);3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离。
公式1
Distance=1–similarity
公式2
其中:A代表锚样本的语义向量;B代表正样本或负样本的语义向量;Distance代表锚样本与正样本的距离或锚样本与负样本的距离
优选的,S1样本准备包括:1)收集问题集,使用分类模型分类问题集;2)在分类后的样本集中选择锚样本、正样本和负样本;3)将选择的样本分为三列,第一列为锚样本,第二列为正样本;第三列为负样本;在收集并分类问题集后,使用收集的问题集及外部医疗数据训练BM25模型,使用训练好的BM25模型选择锚样本、正样本与负样本。
优选的,分类模型选择为基于bert的分类模型。
优选的,在S3模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用faiss模型构建向量索引优选的,在模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用faiss构建向量索引。
优选的,选择锚样本、正样本和负样本的过程为:1)使用BM25模型选择锚样本:从收集到的问题集中随机选择30%作为样本,使用BM25模型计算样本之间的相似度,过滤掉相似度大于0.6的样本,其余样本作为锚样本;
2)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.8的样本为正样本;
3)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.6、小于0.8的样本作为困难样本,小于0.5的样本作为容易样本,最后将困难样本和容易样本按照7:3的比例混合,作为负样本。
优选的,困难样本均是相同领域的问题,容易样本中,相同领域与不同领域比例控制在7:3。
优选的,一种基于circle loss的文本相似度匹配装置,包括:预处理模块,对用户输入的文本进行分词,根据预先的同义词库和缩写库分别进行同义词替换和缩写替换,替换后会得到多个句子;
句子语义向量抽取模块,将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作,将均值向量作为每句话的句子语义向量,最后对所有句子向量进行平均,获取多句话的平均语义向量;
相似度计算模块,将上述获取的平均语义向量,与所有问题的语义向量进行相似度计算,最后选取相似度靠前的问题,返回给用户。
优选的,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
优选的,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明的优点在于:(1)利用circle loss模型来计算损失值,并将circle loss模型与electra模型相结合,解决了目前Triplet Loss模型在问答***的文本相似度匹配中存在的匹配速度和精度低的问题,十分具有应用前景;(2)利用训练好的BM25模型来选择锚样本、正样本与负样本,在样本的选择方式上进行改进,使用此样本训练出来的模型精准度更高;(3)在样本选择完成后,对样本进行排序,实现样本在后期的分批、有序训练;(4)将上述文本相似度匹配方法与计算机设备或计算机可读存储介质相结合,使其应用到问答***中,处理问题的效率与精度更高,具有较好的市场前景。
附图说明
图1为实施例1的方法流程图;
图2为实施例1中方法的大体框架流程图;
图3为实施例1中S1的具体方法流程图;
图4为实施例1中装置结构简图;
图5为实施例1中计算机设备的结构示意图;
图6为背景技术附图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
实施例1
如图1至图3所示的一种基于circle loss的文本相似度匹配方法,具体包括:
S1样本准备:收集问题集、确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;
S2模型训练:构建并训练模型;
S3模型预测:测试训练完成的模型。
其中,如图3所示,S1样本准备包括:1)收集问题集,使用分类模型分类问题集,此处的分类模型选择基于bert的分类模型;
2)在分类后的样本集中选择锚样本、正样本和负样本;
3)将选择的样本分为三列,第一列为锚样本,第二列为正样本;第三列为负样本;在收集并分类问题集后,使用收集的问题集及外部医疗数据训练BM25模型,使用训练好的BM25模型选择锚样本、正样本与负样本。
此处以医疗问题为例,首先收集医疗问题集,使用构建的基于bert的疾病分类模型,将问题进行分类,比如“糖尿病怎么治疗,分类为糖尿病”、“肝病怎么治疗,分类为肝病”。
在选择锚样本、正样本和负样本阶段,首先需使用收集的所有问题集及外部医疗数据共7G)训练BM25模型,并利用BM25模型来选择锚样本、正样本与负样本。
上述利用BM25模型选择锚样本、正样本与负样本的步骤包括:1)从收集到的问题集中随机选择30%作为样本,使用BM25模型计算样本之间的相似度,过滤掉相似度大于0.6的样本,其余样本作为锚样本,保证选择的锚样本之间的相似度很低;
2)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.8的样本为正样本;
3)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.6、小于0.8的样本作为hard example(困难样本),小于0.5的样本作为easy example(容易样本),最后将hard example(困难样本)和easy example(容易样本)按照7:3的比例混合,作为负样本。
需要注意的是,为了提高模型的鲁棒性,hard example(困难样本)均是从相同领域中选择的问题,在选择easy example(容易样本)时,使得easy example(容易样本)由相同领域与不同领域比例控制在7:3的问题组成。此处的hard example是指与锚样本相近,但又不是正样本的数据。
本实施例对选择锚样本、正样本与负样本的方法进行了改进,使用此方法得到的样本对,更高效训练模型。
S2模型训练具体为使用孪生网络结构分批训练上述样本集,具体结合图1和图2进行理解:
1)分别计算锚样本与正样本之间的距离(Sp)、锚样本与负样本之间的距离(Sn);
2)使用circle loss损失函数计算损失值;
计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:
1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;
2)通过CNN网络(卷积神经网络),对每个样本的特征表示进行学习,获取每个样本的特征向量(200维);
3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离。
公式1
Distance=1–similarity
公式2
其中:A代表锚样本的语义向量;B代表正样本或负样本的语义向量;Distance代表锚样本与正样本的距离或锚样本与负样本的距离。
当A表示锚样本的语义向量,B表示正样本的语义向量时,则similarity与Distance计算的数值分别为锚样本与正样本的相似度数值、锚样本与正样本之间的距离(Sp)。
当A表示锚样本的语义向量,B表示负样本的语义向量时,则similarity与Distance计算的数值分别为锚样本与负样本的相似度数值、锚样本与负样本之间的距离(Sn)。
上述步骤完成之后,开始计算损失值。其包含的内容具体为:使用公式3计算circle loss的损失值,Lcircle代表着各样本的损失值。为了避免出现损失值为0的情况,添加了自定义常量margin m和缩放因子γ,另外需要自定义了余量Δn和Δp;文中设置Op=1+m,On=-m,Δp=1-m,Δn=m来降低超参数,αn和αp是独立的权重因子,允许Sn和Sp以不同的速度学习因此只需要设置γ和m。
公式3circle loss损失函数
在S3模型预测阶段中,将所有问题通过上述训练好的模型,获得问题的语义向量,使用faiss构建向量索引,当用户输入问题时,将用户的问题使用上述训练好的模型获得其语义向量,然后使用faiss进行相似度计算,获取相似度最高的前K个问题返回用户,此处的K是个自定义的常数。
在实际训练过程中对于两对正样本和负样本之间有相同margin(正样本到锚的距离与负样本到锚的距离差),但是其中一对离anchor更近另一对离点更远,如图6所示情形。若使用当前应用最多的Triplet Loss进行训练,训练过程中两对样本会得到相对的梯度,无法完成精确且快速的匹配过程。在我们的发明中,当正样本已经很接近anchor(锚样本,可视为参考样本,与正样本距离较近,与负样本距离较远)时,模型会把注意力更多地放在把负样本推开上,当正样本和负样本都离我们很远时,模型会把注意力更多地放在把正样本拉向anchor。为了解决这一问孙奕帆等人提出了Circle Loss。Circle Loss通过对每个相似度评分、Sn、Sp分别给予不同的惩罚强度(Sp为类内相似度评分,Sn为类间相似度评分),从而使优化更加灵活。并将(Sn—Sp)推广到(αn*Sn—αp*Sp),其中,αn和αp是独立的权重因子,允许Sn和Sp以不同的速度学习。
Circle loss也给出了一个更明确的收敛点。在Triplet Loss中,上面的两对具有相同的最优性。但在Circle Loss中倾向于不是太接近锚样本(因为这意味着平均负样本更接近锚点)和不是太远离锚样本(因为正样样本会离锚太远)的样本对。为了提高文本匹配的准确度与速度,我们将circle loss结合electra首次应用到文本匹配中,实现了技术的创新。
本发明还公开了一种基于circle loss的文本相似度匹配装置,如图4所示,其包括预处理模块、句子语义向量抽取模块和相似度计算模块。
上述装置预设并构件语义向量索引,具体为:将搜集到的所有问题通过预处理,去除无意义字符后,将所有句子分别通过electra模型得到的句子中所有的字向量进行求均值操作,最终将均值向量作为每句话的句子语义向量。然后使用faiss模块对语义向量构建欧式距离(faiss.indexFlatL2)索引。
其中,预处理模块,对用户输入的文本进行分词,根据预先的同义词库和缩写库分别进行同义词替换和缩写替换,替换后会得到多个句子。
句子语义向量抽取模块,将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作,将均值向量作为每句话的句子语义向量。最后对所有句子向量进行平均,获取多句话的平均语义向量。
相似度计算模块,将上述获取的平均语义向量,与所有问题的语义向量经过文中的匹配方法进行相似度计算,最后选取相似度topK,返回给用户。K是一个自定义常数,比如10个、20个等。
本实施例描述的文本相似度匹配装置,通过将circle loss模型与electra模型相结合,提高了文本相似度的匹配精度与匹配效率,在问答***的问题匹配过程中,通过本发明实施例提供的文本相似度计算方法可实现从答案库中选取出相对准确、完整的答案回复集,提高答案的完整度以及答案与问题之间的相关度。
本发明公开了计算机设备,如图5所示,该计算机设备包括:处理器、存储***及存储在存储***上并可在处理器上运行的计算机程序。
其中,处理器的数量可以是一个或多个,本实施例以一个处理器为例展开描述,如图所示,处理器执行所述计算机程序时实现如上述文本相似度计算方法。如图所示,所述计算机设备还可以包括用于输入输出的I/O端,处理器通过高性能计算来实现模型预测。
存储***作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块。处理器先通过运行存储在存储***中的软件程序、指令以及模块,后续高速缓存到内存,以执行电子设备的各种功能应用以及数据处理,即实现上述的文本相似度计算方法。
本发明还公开了一种包含计算机可执行的存储介质,上面存储有计算机程序,计算机程序被处理器执行时用于实现一种文本相似度匹配的方法,该方法包括:
样本准备:收集问题集、确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;
模型训练:构建并训练模型;
模型预测:测试训练完成的模型。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本相似度计算相关操作。
尽管以上详细地描述了本发明的优选实施例,但是应该清楚地理解,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于circle loss的文本相似度匹配方法,其特征在于,包括如下步骤:
S1样本准备:收集问题集,确定锚样本、正样本与负样本,并对锚样本、正样本与负样本进行排序;
S2模型训练:构建并训练模型;
S3模型预测:测试训练完成的模型;
其中,S2模型训练具体为,使用孪生网络结构分批训练上述样本集:1)分别计算锚样本与正样本、负样本之间的距离;2)使用circle loss损失函数计算损失值;
计算锚样本与正样本的距离和锚样本与负样本的距离,其过程具体为:1)使用无监督模型计算每个样本的特征表示,无监督模型选用为electra模型;2)通过卷积神经网络,对每个样本的特征表示进行学习,获取每个样本的特征向量(200维);3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离。
Distance=1–similarity
公式2
其中:A代表锚样本的语义向量;B代表正样本或负样本的语义向量;Distance代表锚样本与正样本的距离或锚样本与负样本的距离。
2.根据权利要求1所述的基于circle loss的文本相似度匹配方法,其特征在于,S1样本准备包括:1)收集问题集,使用分类模型分类问题集;2)在分类后的样本集中选择锚样本、正样本和负样本;3)将选择的样本分为三列,第一列为锚样本,第二列为正样本;第三列为负样本;在收集并分类问题集后,使用收集的问题集及外部医疗数据训练BM25模型,使用训练好的BM25模型选择锚样本、正样本与负样本。
3.根据权利要求2所述的基于circle loss的文本相似度匹配方法,其特征在于,分类模型选择为基于bert的分类模型。
4.根据权利要求1所述的基于circle loss的文本相似度匹配方法,其特征在于,在S3模型预测过程中,将所有问题集通过上述训练好的模型,获得问题的语义向量,使用faiss模型构建向量索引。
5.根据权利要求2所述的基于circle loss的文本相似度匹配方法,其特征在于,选择锚样本、正样本和负样本的过程为:1)使用BM25模型选择锚样本:从收集到的问题集中随机选择30%作为样本,使用BM25模型计算样本之间的相似度,过滤掉相似度大于0.6的样本,其余样本作为锚样本;
2)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.8的样本为正样本;
3)利用BM25模型计算锚样本与剩余问题集的相似度,选择相似度大于0.6、小于0.8的样本作为困难样本,小于0.5的样本作为容易样本,最后将困难样本和容易样本按照7:3的比例混合,作为负样本。
6.根据权利要求5所述的基于circle loss的文本相似度匹配方法,其特征在于,困难样本均是相同领域的问题,容易样本中,相同领域与不同领域比例控制在7:3。
7.一种基于circle loss的文本相似度匹配装置,其特征在于,包括:
预处理模块,对用户输入的文本进行分词,根据预先的同义词库和缩写库分别进行同义词替换和缩写替换,替换后会得到多个句子;
句子语义向量抽取模块,将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作,将均值向量作为每句话的句子语义向量,最后对所有句子向量进行平均,获取多句话的平均语义向量;
相似度计算模块,将上述获取的平均语义向量,与所有问题的语义向量进行相似度计算,最后选取相似度靠前的问题,返回给用户。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417707.2A CN113221530B (zh) | 2021-04-19 | 2021-04-19 | 一种文本相似度匹配方法、装置、计算机设备和储存介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417707.2A CN113221530B (zh) | 2021-04-19 | 2021-04-19 | 一种文本相似度匹配方法、装置、计算机设备和储存介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221530A true CN113221530A (zh) | 2021-08-06 |
CN113221530B CN113221530B (zh) | 2024-02-13 |
Family
ID=77087902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110417707.2A Active CN113221530B (zh) | 2021-04-19 | 2021-04-19 | 一种文本相似度匹配方法、装置、计算机设备和储存介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221530B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722441A (zh) * | 2021-08-31 | 2021-11-30 | 平安银行股份有限公司 | 一种相似文本的生成方法、装置、设备及存储介质 |
CN114996466A (zh) * | 2022-08-01 | 2022-09-02 | 神州医疗科技股份有限公司 | 一种医学标准映射模型的建立方法、***及使用方法 |
CN115062607A (zh) * | 2022-08-17 | 2022-09-16 | 杭州火石数智科技有限公司 | 对比学习的样本构造方法、装置、计算机设备及存储介质 |
CN115329063A (zh) * | 2022-10-18 | 2022-11-11 | 江西电信信息产业有限公司 | 一种用户的意图识别方法及*** |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201210661D0 (en) * | 2012-06-15 | 2012-08-01 | Qatar Foundation | Unsupervised cross-media summarization from news and twitter |
CN105653840A (zh) * | 2015-12-21 | 2016-06-08 | 青岛中科慧康科技有限公司 | 基于词句分布表示的相似病例推荐***及相应的方法 |
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
CN107967255A (zh) * | 2017-11-08 | 2018-04-27 | 北京广利核***工程有限公司 | 一种判定文本相似性的方法和*** |
WO2018219016A1 (zh) * | 2017-06-02 | 2018-12-06 | 腾讯科技(深圳)有限公司 | 一种人脸检测训练方法、装置及电子设备 |
CN110084215A (zh) * | 2019-05-05 | 2019-08-02 | 上海海事大学 | 一种二值化三元组孪生网络模型的行人重识别方法及*** |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110826341A (zh) * | 2019-11-26 | 2020-02-21 | 杭州微洱网络科技有限公司 | 一种基于seq2seq模型的语义相似度计算方法 |
US20200097604A1 (en) * | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
WO2020107840A1 (zh) * | 2018-11-28 | 2020-06-04 | 平安科技(深圳)有限公司 | 基于机器学习的句子距离映射方法、装置和计算机设备 |
CN111259127A (zh) * | 2020-01-15 | 2020-06-09 | 浙江大学 | 一种基于迁移学习句向量的长文本答案选择方法 |
US20200250226A1 (en) * | 2019-03-28 | 2020-08-06 | Beijing Dajia Internet Information Technology Co., Ltd. | Similar face retrieval method, device and storage medium |
CN111898465A (zh) * | 2020-07-08 | 2020-11-06 | 北京捷通华声科技股份有限公司 | 一种人脸识别模型的获取方法和装置 |
CN112182144A (zh) * | 2020-12-01 | 2021-01-05 | 震坤行网络技术(南京)有限公司 | 搜索词标准化方法、计算设备和计算机可读存储介质 |
CN112308743A (zh) * | 2020-10-21 | 2021-02-02 | 上海交通大学 | 一种基于三元组相似任务的审判风险预警方法 |
CN112560932A (zh) * | 2020-12-10 | 2021-03-26 | 山东建筑大学 | 一种基于双分支网络特征融合的车辆重识别方法 |
-
2021
- 2021-04-19 CN CN202110417707.2A patent/CN113221530B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201210661D0 (en) * | 2012-06-15 | 2012-08-01 | Qatar Foundation | Unsupervised cross-media summarization from news and twitter |
CN105653840A (zh) * | 2015-12-21 | 2016-06-08 | 青岛中科慧康科技有限公司 | 基于词句分布表示的相似病例推荐***及相应的方法 |
WO2018219016A1 (zh) * | 2017-06-02 | 2018-12-06 | 腾讯科技(深圳)有限公司 | 一种人脸检测训练方法、装置及电子设备 |
CN107967255A (zh) * | 2017-11-08 | 2018-04-27 | 北京广利核***工程有限公司 | 一种判定文本相似性的方法和*** |
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
US20200097604A1 (en) * | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
WO2020107840A1 (zh) * | 2018-11-28 | 2020-06-04 | 平安科技(深圳)有限公司 | 基于机器学习的句子距离映射方法、装置和计算机设备 |
US20200250226A1 (en) * | 2019-03-28 | 2020-08-06 | Beijing Dajia Internet Information Technology Co., Ltd. | Similar face retrieval method, device and storage medium |
CN110084215A (zh) * | 2019-05-05 | 2019-08-02 | 上海海事大学 | 一种二值化三元组孪生网络模型的行人重识别方法及*** |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110826341A (zh) * | 2019-11-26 | 2020-02-21 | 杭州微洱网络科技有限公司 | 一种基于seq2seq模型的语义相似度计算方法 |
CN111259127A (zh) * | 2020-01-15 | 2020-06-09 | 浙江大学 | 一种基于迁移学习句向量的长文本答案选择方法 |
CN111898465A (zh) * | 2020-07-08 | 2020-11-06 | 北京捷通华声科技股份有限公司 | 一种人脸识别模型的获取方法和装置 |
CN112308743A (zh) * | 2020-10-21 | 2021-02-02 | 上海交通大学 | 一种基于三元组相似任务的审判风险预警方法 |
CN112182144A (zh) * | 2020-12-01 | 2021-01-05 | 震坤行网络技术(南京)有限公司 | 搜索词标准化方法、计算设备和计算机可读存储介质 |
CN112560932A (zh) * | 2020-12-10 | 2021-03-26 | 山东建筑大学 | 一种基于双分支网络特征融合的车辆重识别方法 |
Non-Patent Citations (3)
Title |
---|
HE H等: "Multi-perspective sentence similarity modeling with convolutional neural networks", PROCEEDINGS OF THE 2015CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, pages 1576 - 1586 * |
梁敬东;崔丙剑;姜海燕;沈毅;谢元澄;: "基于word2vec和LSTM的句子相似度计算及其在水稻FAQ问答***中的应用", 南京农业大学学报, no. 05, pages 178 - 185 * |
王永强;韩磊;: "基于文本驱动的动画素材自动检索***设计", 现代电子技术, no. 24, pages 177 - 179 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722441A (zh) * | 2021-08-31 | 2021-11-30 | 平安银行股份有限公司 | 一种相似文本的生成方法、装置、设备及存储介质 |
CN113722441B (zh) * | 2021-08-31 | 2023-09-05 | 平安银行股份有限公司 | 一种相似文本的生成方法、装置、设备及存储介质 |
CN114996466A (zh) * | 2022-08-01 | 2022-09-02 | 神州医疗科技股份有限公司 | 一种医学标准映射模型的建立方法、***及使用方法 |
CN114996466B (zh) * | 2022-08-01 | 2022-11-01 | 神州医疗科技股份有限公司 | 一种医学标准映射模型的建立方法、***及使用方法 |
CN115062607A (zh) * | 2022-08-17 | 2022-09-16 | 杭州火石数智科技有限公司 | 对比学习的样本构造方法、装置、计算机设备及存储介质 |
CN115329063A (zh) * | 2022-10-18 | 2022-11-11 | 江西电信信息产业有限公司 | 一种用户的意图识别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN113221530B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113221530B (zh) | 一种文本相似度匹配方法、装置、计算机设备和储存介质 | |
CN113987209A (zh) | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 | |
CN116166782A (zh) | 一种基于深度学习的智能问答方法 | |
CN111401928B (zh) | 基于图数据确定文本的语义相似度的方法及装置 | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答*** | |
CN111897944B (zh) | 基于语义空间共享的知识图谱问答*** | |
CN111046155A (zh) | 一种基于fsm多轮问答的语义相似度计算方法 | |
CN117149984B (zh) | 一种基于大模型思维链的定制化培训方法及装置 | |
CN114357127A (zh) | 基于机器阅读理解及常用问题解答模型的智能问答方法 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及*** | |
CN117688163B (zh) | 基于指令微调和检索增强生成的在线智能问答方法及装置 | |
CN111368058A (zh) | 一种基于迁移学习的问答匹配方法 | |
CN112632250A (zh) | 一种多文档场景下问答方法及*** | |
Shao et al. | Collaborative learning for answer selection in question answering | |
CN115080717A (zh) | 基于文本理解推理的问答方法和*** | |
CN112800205B (zh) | 基于语义变化流形分析获取问答相关段落的方法、装置 | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
CN108959467B (zh) | 一种基于强化学习的问句和答案句相关度的计算方法 | |
CN116628146A (zh) | 一种金融领域的faq智能问答方法及*** | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN110826341A (zh) | 一种基于seq2seq模型的语义相似度计算方法 | |
CN116401344A (zh) | 根据问句检索表格的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 310000 room 905, floor 9, building a, No. 369, Internet of things street, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Hangzhou Huiyidao Technology Co.,Ltd. Country or region after: China Address before: 310000 room 905, floor 9, building a, No. 369, Internet of things street, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: Hangzhou Firestone Technology Co.,Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |