CN113204629A - 文本匹配方法、装置、计算机设备及可读存储介质 - Google Patents
文本匹配方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN113204629A CN113204629A CN202110603418.1A CN202110603418A CN113204629A CN 113204629 A CN113204629 A CN 113204629A CN 202110603418 A CN202110603418 A CN 202110603418A CN 113204629 A CN113204629 A CN 113204629A
- Authority
- CN
- China
- Prior art keywords
- text
- matched
- sentence
- target
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 258
- 230000009467 reduction Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请属于自然语言处理技术领域,提供了一种文本匹配方法、装置、计算机设备及可读存储介质,该方法包括:获取目标文本以及与所述目标文本对应的待匹配文本集;通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。本申请能够提升文本匹配的匹配精度。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本匹配方法、装置、计算机设备及可读存储介质。
背景技术
文本匹配是自然语言处理领域一个重要的基础领域,大量的NLP任务都是以文本匹配为出发点,例如信息检索、机器翻译、问答***等等,其本质就是文本匹配问题。
在传统的文本匹配算法中,基于统计学词频的TF-IDF方法以原理简单易理解、实现程度高而被广泛应用,其主要原理是在给定一个语料库,通过对比句子中各个单词出现的频率与语料库中各单词出现频率进行比对,来衡量一个词语在文本中的重要程度,由此提取出文本的若干关键词,形成一个集合,再将向量化后的词集计算相似性。然而这种方法存在局限性,受语料库影响较大,忽略了词与词之间的交互性,当面对强干扰文本数据时匹配效果就很不理想,例如词汇完全重合但表达的意思不同的“机器学习””和“学习机器”,传统的TF-IDF方法就难以应对,精确性较低。
发明内容
本申请的主要目的在于提供一种文本匹配方法、装置、计算机设备及可读存储介质,旨在解决相关技术中文本匹配精确性不高的技术问题。
第一方面,本申请提供了一种文本匹配方法,所述方法包括:
获取目标文本以及与所述目标文本对应的待匹配文本集;
通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;
分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;
根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;
根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。
第二方面,本申请还提供了一种文本匹配装置,所述装置包括:
获取模块,用于获取目标文本以及与所述目标文本对应的待匹配文本集;
获得模块,用于通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;
降噪模块,用于分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;
第一确定模块,用于根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;
第二确定模块,用于根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的文本匹配方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的文本匹配方法。
本申请公开了一种文本匹配方法、装置、计算机设备及可读存储介质,该文本匹配方法,首先获取目标文本以及与目标文本对应的待匹配文本集,然后利用训练好的BERT模型分别获得目标文本对应的第一句向量以及待匹配文本集中各个待匹配文本对应的第二句向量,再分别对第一句向量和各个第二句向量进行降噪处理,得到降噪第一句向量和各个降噪第二句向量;进一步根据降噪第一句向量以及各个降噪第二句向量,确定各个待匹配文本与目标文本的匹配程度,最终根据各个匹配程度,在待匹配文本集中确定目标文本的目标匹配文本。不同于TFIDF方法,本申请提供的文本匹配方法不受语料库影响,通过BERT模型获得的目标文本以及待匹配文本集中各个待匹配文本对应的句向量,能够更准确地表征文本的语义,通过对句向量进行降噪处理,进一步增强了句向量的特征表征能力,如此,即使待匹配文本集含有较多强干扰数据,也能提升抗干扰能力,从而能够快速且准确地匹配出同义的文本,进而提升了匹配精度,具有更广泛的实用性和更优的鲁棒性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请文本匹配方法一实施例的流程示意图;
图2为本申请文本匹配方法另一实施例的流程示意图;
图3为本申请文本匹配方法一实施例涉及文本匹配示例图;
图4为本申请一实施例提供的一种文本匹配装置的示意性框图;
图5为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种文本匹配方法、装置、计算机设备及可读存储介质。其中,该文本匹配方法主要应用于文本匹配设备,可以是移动终端、PC(个人计算机personalcomputer)、便携计算机和服务器等具有数据处理功能的设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种文本匹配方法的流程示意图。
如图1所示,该文本匹配方法包括步骤S101至步骤S105。
步骤S101,获取目标文本以及与所述目标文本对应的待匹配文本集。
其中,目标文本指的是需要进行文本匹配的文本数据,目标文本包括若干个由多个字符组成的词按照特定语义顺序构成的一个句子或多个句子的组合。目标文本包括多个类型,比如中文类型、英文类型、中英文结合类型等,以下均以英文类型的目标文本(表示为A)为例进行文本匹配的说明。待匹配文本集指的是用来与目标文本进行匹配的待匹配文本的集合,表示为(A’,...,An)。
示例性的,获取目标文本和待匹配文本集的方式可以是文本匹配设备加载输入界面,从而获取用户在输入界面输入的目标文本和待匹配文本集,也可以是接收其他设备发送的的目标文本和待匹配文本集。
步骤S102,通过训练好的双向注意力神经网络BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量。
其中,训练好的BERT(Bidirectional Encoder Representation fromTransformers,双向注意力神经网络)模型是预先训练好的一个端到端的句子级别的语言模型,可以直接获得一整个句子的唯一向量表示。通过训练好的BERT模型分别获得目标文本对应的句向量(定义为第一句向量)以及待匹配文本集中各个待匹配文本对应的句向量(定义为第二句向量)。
在一些实施例中,步骤S102具体为:将所述目标文本以及所述待匹配文本集中的各个待匹配文本分别输入至训练好的BERT模型中进行嵌入操作,得到所述目标文本对应的第一句嵌入向量以及各个所述待匹配文本对应的第二句嵌入向量;将所述第一句嵌入向量以及各个所述第二句嵌入向量分别输入至所述训练好的BERT模型的Transformer中进行编码操作和解码操作,得到所述目标文本对应的第一句向量以及所述各个所述待匹配文本对应的第二句向量。
其中,训练好的BERT模型采用Transformer作为主体模型结构,Transformer的结构包括若干个编码(Encoder)层和解码(Decoder)层。
对于目标文本,将目标文本输入至训练好的BERT模型中进行嵌入操作,得到目标文本对应的句嵌入向量(定义为第一句嵌入向量);对于待匹配文本集中的各个待匹配文本,逐一输入至训练好的BERT模型进行嵌入操作,得到各个待匹配文本对应的句嵌入向量(定义为第二句嵌入向量)。
在一些实施例中,所述将所述目标文本以及所述待匹配文本集中的各个待匹配文本分别输入至训练好的BERT模型中进行嵌入操作,得到所述目标文本对应的第一句嵌入向量以及各个所述待匹配文本对应的第二句嵌入向量,具体为:将所述目标文本以及各个所述待匹配文本分别输入至所述训练好的BERT模型的嵌入层进行嵌入操作,得到所述目标文本对应的单词嵌入向量、单词的位置信息嵌入向量和短语切分信息嵌入向量,以及各个所述待匹配文本对应的单词嵌入向量、单词的位置信息嵌入向量和短语切分信息嵌入向量;将所述目标文本对应的所述单词嵌入向量、所述单词的位置信息嵌入向量和所述短语切分信息嵌入向量相加得到所述目标文本对应的第一句嵌入向量,以及分别将各个所述待匹配文本对应的所述单词嵌入向量、所述单词的位置信息嵌入向量和所述短语切分信息嵌入向量相加得到各个所述待匹配文本对应的第二句嵌入向量。
也即,对于目标文本,将目标文本输入至训练好的BERT模型中进行嵌入操作,训练好的BERT模型在其嵌入层从三个角度对目标文本进行嵌入操作,这三个角度分别为单词嵌入、单词的位置信息嵌入和短语切分信息的嵌入,得到包含了单词本身信息的嵌入向量、包含了单词的位置信息的嵌入向量和包含了句子信息短语切分信息的嵌入向量,将这三个角度的嵌入向量相加,即可得到目标文本对应的第一句嵌入向量。也就是说,第一句嵌入向量包括目标文本的单词、单词的位置和短语切分等信息。
同理,对于待匹配文本集中的各个待匹配文本,逐一输入至训练好的BERT模型进行嵌入操作,训练好的BERT模型在其嵌入层从三个角度分别对各个待匹配文本进行嵌入操作,这三个角度分别为单词嵌入、单词的位置信息嵌入和短语切分信息的嵌入,得到包含了单词本身信息的嵌入向量、包含了单词的位置信息的嵌入向量和包含了句子信息短语切分信息的嵌入向量,将这三个角度的嵌入向量相加,即可得到各个待匹配文本对应的第二句嵌入向量。
得到目标文本对应的第一句嵌入向量之后,训练好的BERT模型将第一句嵌入向量输入至Transformer中,训练好的BERT模型让Transformer在Encoder层对目标文本对应的第一句嵌入向量进行深度编码(encoding),得到Encoder层的输出,再将Encoder层的输出输入至Decoder层进行深度解码(Decoding),从而得到目标文本对应的第一句向量。
同理,得到各个待匹配文本对应的第二句嵌入向量之后,训练好的BERT模型分别将各个待匹配文本对应的第二句嵌入向量分别输入至Transformer中,训练好的BERT模型让Transformer在Encoder层分别对各个待匹配文本对应的第二句嵌入向量进行深度编码(encoding),得到Encoder层的输出,再将Encoder层的输出输入至Decoder层进行深度解码(Decoding),从而得到各个待匹配文本对应的第二句向量。
步骤S103,分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量。
之后,分别对目标文本对应的第一句向量和各个待匹配文本对应的第二句向量进行降噪处理,得到目标文本对应的降噪第一句向量和各个待匹配文本对应的降噪第二句向量,以达到过滤掉句向量中隐含的噪声从而增强第一句向量和各个第二句向量的特征表达能力的目的。
在一些实施例中,步骤S103具体为:分别对所述第一句向量以及各个所述第二句向量进行低通滤波处理,得到降噪第一句向量以及各个降噪第二句向量。
对目标文本对应的第一句向量以及各个待匹配文本对应的第二句向量进行降噪处理,可以是分别对目标文本对应的第一句向量以及各个待匹配文本对应的第二句向量进行低通滤波处理,得到目标文本对应的降噪第一句向量以及各个待匹配文本对应的降噪第二句向量,由此增强第一句向量和各个第二句向量的特征表达能力。其中,低通滤波是一种噪声过滤方式,规则为低频信号能正常通过而超过设定临界值的高频信号则被阻隔、减弱。
步骤S104,根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度。
在得到目标文本对应的降噪第一句向量和各个待匹配文本对应的降噪第二句向量后之后,根据目标文本对应的降噪第一句向量和各个待匹配文本对应的降噪第二句向量,确定各个待匹配文本与目标文本之间的匹配程度。
在一些实施例中,如图2所示,步骤S104具体可以包括子步骤S1041和子步骤S1042。
子步骤S1041,分别计算各个所述降噪第二句向量与所述降噪第一句向量之间的相似性。
也即,分别计算各个待匹配文本对应的降噪第二句向量与目标文本对应的降噪第一句向量之间的相似性。
示例性的,用余弦相似度来度量这些待匹配文本对应的降噪第二句向量与目标文本对应的降噪第一句向量之间的相似性。可以采用如下所示的预设余弦相似度计算公式分别计算各个待匹配文本对应的降噪第二句向量与目标文本对应的降噪第一句向量之间的余弦相似度:
其中,xi表示目标文本对应的降噪第一句向量,yi表示单个待匹配文本对应的降噪第二句向量。
子步骤S1042,根据计算的所述相似性确定各个所述待匹配文本与所述目标文本的匹配程度。
也即,采用各个待匹配文本对应的降噪第二句向量与目标文本对应的降噪第一句向量之间的相似性,代表各个待匹配文本与目标文本的匹配程度,相似性越高,表明与目标文本的匹配程度越高。
步骤S105,根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。
在得到各个待匹配文本与目标文本之间的匹配程度之后,即可根据各个待匹配文本与目标文本之间的匹配程度,在待匹配文本集中的各个待匹配文本中确定目标文本的目标匹配文本。
在一些实施例中,步骤S105具体为:将各个所述匹配程度进行排序;将所述待匹配文本集中最高匹配程度对应的待匹配文本作为所述目标文本的目标匹配文本。
也即,对各个待匹配文本对应的降噪第二句向量与目标文本对应的降噪第一句向量之间的匹配程度进行排序,将匹配程度最高的待匹配文本确定为与目标文本相匹配的目标匹配文本,即:
目标匹配文本=max(CosineSimilarity(目标文本的降噪句向量,待匹配文本的降噪句向量))
为了更好的理解上述实施例,参照图3,举例进行详细说明。
比如对于目标文本A“What is your favorite movie?”,其对应的待匹配文本集中包括“What is your favorite opera?”、“What is your favorite poem?”这样看上去与目标文本十分相似但语义完全不同的待匹配文本,还包括A’“Which movie do you likebest?”这样与目标文本语法结构等差异较大但同义的待匹配文本,那么在确定与目标文本相匹配的目标匹配文本的过程中,与目标文本十分相似但语义完全不同的待匹配文本就视为干扰数据,即使待匹配文本集中存在干扰数据,使用BERT模型对目标文本A和各个待匹配文本进行嵌入操作而获得的目标文本A对应的句向量和各个待匹配文本的句向量,能够更好的表征文本的语义,通过对目标文本的句向量和待匹配文本集中的各个待匹配文本的句向量进行降噪处理,进一步增强了句向量特征的表征能力,故此,依然能够准确地从存在干扰数据的待匹配文本集中识别出与目标文本A“What is your favorite movie?”同义的目标匹配文本A’“Which movie do you like best?”。
相比于TFIDF方法,上述实施例提供的文本匹配方法利用BERT模型获得文本的句向量时,在句子嵌入阶段不仅考虑了单词的嵌入,还加入了单词的位置信息、短语切分等特征,从而更好的表征整个文本的语义。另外,通过在BERT模型后增加降噪操作,能够过滤句向量的噪声,增强句向量的特征表征能力,从而提高在面对含有较多强干扰数据的数据集场景下的匹配精度,因此具有更广泛的实用性,更优的鲁棒性等优点。除此之外,相对于传统的TF-IDF方法,语料库的分布对本方法模型精度的影响更小,对计算资源的耗费更少,更好的完成信息检索、机器翻译等文本匹配任务。
在一些实施例中,步骤S101之前,需获得训练好的BERT模型,具体地,步骤S101之前,包括:获取基于Transformer的预训练BERT模型;根据预设训练集对所述预训练BERT模型进行训练,以对所述预训练BERT模型的参数进行更新,得到训练好的BERT模型。
首先通过预训练的方式学习得到基于Transformer的预训练BERT模型,然后根据预设训练集对预训练BERT模型进行训练,其中,该预设训练集包括多个文本样本,从而对预训练BERT模型的参数进行更新,直至BERT模型收敛,得到训练好的BERT模型。训练好的BERT模型是一种端到端的语言模型,输入为文本,输出为文本对应的句向量,也就是说训练好的BERT模型可以直接获取到文本的句向量,提升了获取文本句向量的便捷性。
上述实施例提供的文本匹配方法,首先获取目标文本以及与目标文本对应的待匹配文本集,然后利用训练好的BERT模型分别获得目标文本对应的第一句向量以及待匹配文本集中各个待匹配文本对应的第二句向量,再分别对第一句向量和各个第二句向量进行降噪处理,得到降噪第一句向量和各个降噪第二句向量;进一步根据降噪第一句向量以及各个降噪第二句向量,确定各个待匹配文本与目标文本的匹配程度,最终根据各个匹配程度,在待匹配文本集中确定目标文本的目标匹配文本。不同于TFIDF方法,本申请提供的文本匹配方法不受语料库影响,通过BERT模型获得的目标文本以及待匹配文本集中各个待匹配文本对应的句向量,能够更好的表征文本的语义,通过对句向量进行降噪处理,进一步增强了句向量的特征表征能力,如此,即使待匹配文本集含有较多强干扰数据,也能提升抗干扰能力,从而能够快速且准确地匹配出同义的文本,进而提升了匹配精度,具有更广泛的实用性和更优的鲁棒性。
请参照图4,图4为本申请实施例提供的一种文本匹配装置的示意性框图。
如图4所示,该文本匹配装置400,包括:获取模块401、获得模块提取模块402、降噪模块403、第一确定模块404和第二确定模块模块405。
获取模块401,用于获取目标文本以及与所述目标文本对应的待匹配文本集;
获得模块402,用于通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;
降噪模块403,用于分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;
第一确定模块404,用于根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;
第二确定模块405,用于根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述文本匹配方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是个人计算机(personal computer,PC)、服务器等具有数据处理功能的设备。
如图5所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种文本匹配方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文本匹配方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取目标文本以及与所述目标文本对应的待匹配文本集;通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。
在一些实施例中,所述处理器实现通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量时,用于实现:
将所述目标文本以及所述待匹配文本集中的各个待匹配文本分别输入至训练好的BERT模型中进行嵌入操作,得到所述目标文本对应的第一句嵌入向量以及各个所述待匹配文本对应的第二句嵌入向量;
将所述第一句嵌入向量以及各个所述第二句嵌入向量分别输入至所述训练好的BERT模型的Transformer中进行编码操作和解码操作,得到所述目标文本对应的第一句向量以及所述各个所述待匹配文本对应的第二句向量。
在一些实施例中,所述处理器实现所述分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量时,用于实现:
分别对所述第一句向量以及各个所述第二句向量进行低通滤波处理,得到降噪第一句向量以及各个降噪第二句向量。
在一些实施例中,所述处理器实现所述根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度时,用于实现:
分别计算各个所述降噪第二句向量与所述降噪第一句向量之间的相似性;
根据各个所述相似性确定各个所述待匹配文本与所述目标文本的匹配程度。
在一些实施例中,所述处理器实现根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本时,用于实现:
将各个所述匹配程度进行排序;
将所述待匹配文本集中最高匹配程度对应的待匹配文本作为所述目标文本的目标匹配文本。
在一些实施例中,所述处理器实现所述将所述目标文本以及所述待匹配文本集中的各个待匹配文本分别输入至训练好的BERT模型中进行嵌入操作,得到所述目标文本对应的第一句嵌入向量以及各个所述待匹配文本对应的第二句嵌入向量时,用于实现:
将所述目标文本以及各个所述待匹配文本分别输入至所述训练好的BERT模型的嵌入层进行嵌入操作,得到所述目标文本对应的单词嵌入向量、单词的位置信息嵌入向量和短语切分信息嵌入向量,以及各个所述待匹配文本对应的单词嵌入向量、单词的位置信息嵌入向量和短语切分信息嵌入向量;
将所述目标文本对应的所述单词嵌入向量、所述单词的位置信息嵌入向量和所述短语切分信息嵌入向量相加得到所述目标文本对应的第一句嵌入向量,以及分别将各个所述待匹配文本对应的所述单词嵌入向量、所述单词的位置信息嵌入向量和所述短语切分信息嵌入向量相加得到各个所述待匹配文本对应的第二句嵌入向量。
在一些实施例中,所述处理器实现所述获取目标文本以及与所述目标文本对应的待匹配文本集之前,实现如下步骤:
获取基于Transformer的预训练BERT模型;
根据预设训练集对所述预训练BERT模型进行训练,以对所述预训练BERT模型的参数进行更新,得到训练好的BERT模型。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请文本匹配方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本匹配方法,其特征在于,所述方法包括以下步骤:
获取目标文本以及与所述目标文本对应的待匹配文本集;
通过训练好的双向注意力神经网络BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;
分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;
根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;
根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。
2.根据权利要求1所述的文本匹配方法,其特征在于,所述通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量,包括:
将所述目标文本以及所述待匹配文本集中的各个待匹配文本分别输入至训练好的BERT模型中进行嵌入操作,得到所述目标文本对应的第一句嵌入向量以及各个所述待匹配文本对应的第二句嵌入向量;
将所述第一句嵌入向量以及各个所述第二句嵌入向量分别输入至所述训练好的BERT模型的Transformer中进行编码操作和解码操作,得到所述目标文本对应的第一句向量以及所述各个所述待匹配文本对应的第二句向量。
3.根据权利要求1所述的文本匹配方法,其特征在于,所述分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量,包括:
分别对所述第一句向量以及各个所述第二句向量进行低通滤波处理,得到降噪第一句向量以及各个降噪第二句向量。
4.根据权利要求1所述的文本匹配方法,其特征在于,所述根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度,包括:
分别计算各个所述降噪第二句向量与所述降噪第一句向量之间的相似性;
根据各个所述相似性确定各个所述待匹配文本与所述目标文本的匹配程度。
5.根据权利要求1所述的文本匹配方法,其特征在于,所述根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本,包括:
将各个所述匹配程度进行排序;
将所述待匹配文本集中最高匹配程度对应的待匹配文本作为所述目标文本的目标匹配文本。
6.根据权利要求2所述的文本匹配方法,其特征在于,所述将所述目标文本以及所述待匹配文本集中的各个待匹配文本分别输入至训练好的BERT模型中进行嵌入操作,得到所述目标文本对应的第一句嵌入向量以及各个所述待匹配文本对应的第二句嵌入向量,包括:
将所述目标文本以及各个所述待匹配文本分别输入至所述训练好的BERT模型的嵌入层进行嵌入操作,得到所述目标文本对应的单词嵌入向量、单词的位置信息嵌入向量和短语切分信息嵌入向量,以及各个所述待匹配文本对应的单词嵌入向量、单词的位置信息嵌入向量和短语切分信息嵌入向量;
将所述目标文本对应的所述单词嵌入向量、所述单词的位置信息嵌入向量和所述短语切分信息嵌入向量相加得到所述目标文本对应的第一句嵌入向量,以及分别将各个所述待匹配文本对应的所述单词嵌入向量、所述单词的位置信息嵌入向量和所述短语切分信息嵌入向量相加得到各个所述待匹配文本对应的第二句嵌入向量。
7.根据权利要求1所述的文本匹配方法,其特征在于,所述获取目标文本以及与所述目标文本对应的待匹配文本集之前,包括:
获取基于Transformer的预训练BERT模型;
根据预设训练集对所述预训练BERT模型进行训练,以对所述预训练BERT模型的参数进行更新,得到训练好的BERT模型。
8.一种文本匹配装置,其特征在于,所述文本匹配装置包括:
获取模块,用于获取目标文本以及与所述目标文本对应的待匹配文本集;
获得模块,用于通过训练好的BERT模型分别获得所述目标文本对应的第一句向量以及所述待匹配文本集中各个待匹配文本对应的第二句向量;
降噪模块,用于分别对所述第一句向量以及各个所述第二句向量进行降噪处理,得到降噪第一句向量以及各个降噪第二句向量;
第一确定模块,用于根据所述降噪第一句向量以及各个所述降噪第二句向量,确定各个所述待匹配文本与所述目标文本的匹配程度;
第二确定模块,用于根据各个所述匹配程度,在所述待匹配文本集中确定所述目标文本的目标匹配文本。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的文本匹配方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的文本匹配方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110603418.1A CN113204629A (zh) | 2021-05-31 | 2021-05-31 | 文本匹配方法、装置、计算机设备及可读存储介质 |
PCT/CN2022/072189 WO2022252638A1 (zh) | 2021-05-31 | 2022-01-14 | 文本匹配方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110603418.1A CN113204629A (zh) | 2021-05-31 | 2021-05-31 | 文本匹配方法、装置、计算机设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113204629A true CN113204629A (zh) | 2021-08-03 |
Family
ID=77023971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110603418.1A Pending CN113204629A (zh) | 2021-05-31 | 2021-05-31 | 文本匹配方法、装置、计算机设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113204629A (zh) |
WO (1) | WO2022252638A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114077670A (zh) * | 2021-11-19 | 2022-02-22 | 深圳思为科技有限公司 | 一种文本标注方法及软件产品 |
WO2022252638A1 (zh) * | 2021-05-31 | 2022-12-08 | 平安科技(深圳)有限公司 | 文本匹配方法、装置、计算机设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160378769A1 (en) * | 2015-06-23 | 2016-12-29 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN112000805A (zh) * | 2020-08-24 | 2020-11-27 | 平安国际智慧城市科技股份有限公司 | 基于预训练模型的文本匹配方法、装置、终端及存储介质 |
CN112183078A (zh) * | 2020-10-22 | 2021-01-05 | 上海风秩科技有限公司 | 文本摘要确定方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN111241242B (zh) * | 2020-01-09 | 2023-05-30 | 北京百度网讯科技有限公司 | 目标内容的确定方法、装置、设备及计算机可读存储介质 |
CN111539212A (zh) * | 2020-04-13 | 2020-08-14 | 腾讯科技(武汉)有限公司 | 文本信息处理方法、装置、存储介质及电子设备 |
CN113204629A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 文本匹配方法、装置、计算机设备及可读存储介质 |
-
2021
- 2021-05-31 CN CN202110603418.1A patent/CN113204629A/zh active Pending
-
2022
- 2022-01-14 WO PCT/CN2022/072189 patent/WO2022252638A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160378769A1 (en) * | 2015-06-23 | 2016-12-29 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN112000805A (zh) * | 2020-08-24 | 2020-11-27 | 平安国际智慧城市科技股份有限公司 | 基于预训练模型的文本匹配方法、装置、终端及存储介质 |
CN112183078A (zh) * | 2020-10-22 | 2021-01-05 | 上海风秩科技有限公司 | 文本摘要确定方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022252638A1 (zh) * | 2021-05-31 | 2022-12-08 | 平安科技(深圳)有限公司 | 文本匹配方法、装置、计算机设备及可读存储介质 |
CN114077670A (zh) * | 2021-11-19 | 2022-02-22 | 深圳思为科技有限公司 | 一种文本标注方法及软件产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2022252638A1 (zh) | 2022-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165380B (zh) | 一种神经网络模型训练方法及装置、文本标签确定方法及装置 | |
KR20210151281A (ko) | Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 | |
CN112256822A (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
CN111368037A (zh) | 基于Bert模型的文本相似度计算方法和装置 | |
CN114417865B (zh) | 灾害事件的描述文本处理方法、装置、设备及存储介质 | |
WO2022252638A1 (zh) | 文本匹配方法、装置、计算机设备及可读存储介质 | |
CN112686049A (zh) | 文本审核方法、装置、设备及存储介质 | |
WO2020252935A1 (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN111061877A (zh) | 文本主题提取方法和装置 | |
CN114491018A (zh) | 敏感信息检测模型的构建方法、敏感信息检测方法及装置 | |
CN113886601A (zh) | 电子文本事件抽取方法、装置、设备及存储介质 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断***和方法 | |
CN111401034B (zh) | 文本的语义分析方法、语义分析装置及终端 | |
WO2022022049A1 (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN112446205A (zh) | 语句判别方法、装置、设备及存储介质 | |
CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
WO2023088278A1 (zh) | 用于验证表述的真实性的方法、设备、装置和介质 | |
CN115859999A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN111680514A (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN112528646B (zh) | 词向量生成方法、终端设备及计算机可读存储介质 | |
CN111177378B (zh) | 一种文本挖掘方法、装置及电子设备 | |
CN113204965B (zh) | 关键词提取方法、装置、计算机设备及可读存储介质 | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
CN113724738A (zh) | 语音处理方法、决策树模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40055796 Country of ref document: HK |