CN111382250A - 问句文本的匹配方法、装置、计算机设备和存储介质 - Google Patents
问句文本的匹配方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111382250A CN111382250A CN201811647085.7A CN201811647085A CN111382250A CN 111382250 A CN111382250 A CN 111382250A CN 201811647085 A CN201811647085 A CN 201811647085A CN 111382250 A CN111382250 A CN 111382250A
- Authority
- CN
- China
- Prior art keywords
- question
- text
- preset
- matched
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims description 84
- 230000011218 segmentation Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 description 18
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 239000003086 colorant Substances 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000010408 sweeping Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007519 figuring Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种问句文本的匹配方法、装置、计算机设备及存储介质,包括:获取待匹配问句文本;分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。通过上述方式,能够在一定程度上提高问句匹配的准确率。
Description
技术领域
本发明涉及客服机器人技术领域,尤其涉及一种问句文本的匹配方法、装置、计算机设备和存储介质。
背景技术
客服机器人主要负责产品的售后服务工作,拥有***、转接人工、通话录音、支持打断、录音转文本等功能。由于客服机器人能够帮助客户自助答疑,大大的帮客服人员分担了工作量。通常情况下,客服机器人将客户的问题与问题库中的各个问题进行匹配,然后找到与客户最接近的问题,最后将该问题的答案推送给客户。
在客服机器人的问答匹配中,通常会选择有监督的学***导致标注结果错误,从而导致最终匹配的问句准确率低。
发明内容
基于此,有必要针对上述问题,提出一种准确率高的问句文本的匹配方法、装置、计算机设备和存储介质。
一种问句文本的匹配方法,所述方法包括:
获取待匹配问句文本;
分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
提供了一种问句文本的匹配装置,包括:
获取模块,用于获取待匹配问句文本;
组合模块,用于分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
标签模块,用于将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
匹配模块,用于根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待匹配问句文本;
分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待匹配问句文本;
分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
实施本发明实施例,将具有如下有益效果:
本发明提出了一种问句文本的匹配方法、装置、计算机设备和存储介质,通过本发明实施例所述的方式,不再需要人工进行实体关键词的标注,省去了标注的大量时间,也不用再找专业的标注人员对问句文本中的实体和非实体进行标注,也减少了一定的成本花销,最后因为只用将问句进行组合,得到问句与问句之间的相似度标签,从而根据相似度标签得到目标问句文本,而不用再预先对实体和非实体进行区分,也提高了问句匹配的准确率,因为实体标注工作量大,重复性的标注工作很可能导致错误,导致训练的模型并不能准确预测实体,而对各个问句之间进行相似度判断的时候,是对两个句子整体表达的含义的相似程度进行判断,出错的概率更小,所以采用句子对(即两个句子)对模型进行训练,最终预测得到的准确率将更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中问句文本的匹配方法的实现流程示意图;
图2为一个实施例中步骤101的实现流程示意图;
图3为一个实施例中问句文本的匹配方法的实现流程示意图;
图4为一个实施例中问句文本的匹配方法的实现流程示意图;
图5为一个实施例中问句文本的匹配装置的结构框图;
图6为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,提供了一种问句文本的匹配方法,本发明实施例所述的问句文本的匹配方法的执行主体可以是服务器,当然本发明实施例所述的问句文本的匹配方法的执行主体还可以是其他终端设备,例如,机器人设备。该问句文本的匹配方法,具体包括如下步骤:
步骤S102,获取待匹配问句文本。
其中,待匹配问句文本,为用于匹配的问句文本。在获取到原始的待匹配问句文本之后,需要去除原始的待匹配问句文本中的停用词。
步骤S104,分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本。
其中,问句文本库,包括多个预置问句文本;预置问句文本,为预先设置的问句文本。
例如,待匹配问句文本为:悟空有多大,问句文本库中有两个预置问句文本:悟空有多高和悟空多少钱一个,将待匹配问句文本和预置问句文本进行组合,得到两个输入问句文本:[悟空有多大,悟空有多高]和[悟空有多大,悟空多少钱一个]。
步骤S106,将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签。
所述相似度标签,用于反映待匹配问句文本和预置问句文本的相似程度,所述相似度标签,可以设置为一个数字。
如上例子,假设用数字1表示待匹配问句文本和预置问句文本很相似,用数字0表示待匹配问句文本和预置问句文本不相似,于是经过问句匹配模型的预测,待匹配问句文本“悟空有多大”与预置问句文本“悟空有多高”的相似度标签将为1,待匹配问句文本“悟空有多大”与预置问句文本“悟空多少钱一个”的相似度标签将为0。
步骤108,根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
如上例子,由于数字1表示待匹配问句文本和预置问句文本很相似,数字0表示待匹配问句文本和预置问句文本不相似,于是,根据相似度标签,确定与待匹配问句文本“悟空有多大”的相似度最高的目标问句文本为:悟空有多高。
作为本发明一种可选的实施例,在步骤108所述获取与所述待匹配问句文本相似度最高的目标问句文本之后,还包括:获取所述目标问句文本对应的目标答案文本。
其中,目标答案文本,为目标问句文本的答案。问句文本库中,设置有预置问句文本,相应的,还可以在问句文本库中设置预置问句文本的预置答案文本,或者,单独设置一个问句答案库,预置问句文本和预置答案文本设置相同的标识,这样,只要知道了预置文本问句,就能知道该预置文本问句的答案。在这里,由于获取到了目标问句文本对应的目标答案文本,这样,可以直接将用户问的问题的答案呈现给用户。
在本发明实施例中,在步骤102所述获取待匹配问句文本之前,还包括:
步骤101,对所述问句匹配模型进行训练。
具体的,如图2所示,步骤101所述对所述问句匹配模型进行训练,包括:
步骤101A,获取包括多个预置问句训练文本的预置问句训练文本集。
步骤101B,获取每个所述预置问句训练文本对应的多个不同相似等级的预置问句训练文本。
在这里,将某一预置问句训练文本作为主问句,根据其他预置问句训练文本与主问句的相似程度确定其他预置问句训练文本的相似等级。例如,“积木机器人如何操作”和“积木机器人的便捷操作是什么”,这两个问句比较相似,相似等级可以设置的高些,而“积木机器人如何操作”和“机器人多少钱”,这两个问句不怎么相似,相似等级可以设置的低些。
步骤101C,将所述预置问句训练文本分别和所述预置问句训练文本对应的多个不同相似等级的预置问句训练文本进行组合,得到多个输入训练文本。
构建包括主问句、其他预置问句训练文本和相似等级对应的相似度标签的三元组。例如,将“积木机器人如何操作”作为主问句,其他预置问句训练文本:“积木机器人的便捷操作是什么”,“积木机器人怎么操作”,“积木机器人的操作流程”,“扫描不到积木机器人的蓝牙”,“积木机器人有什么用”,“官方模型动作怎么编辑”,“配件如何购买”,“机器人多少钱”,于是,可以构建多个三元组:[积木机器人如何操作,积木机器人的便捷操作是什么,4],[积木机器人如何操作,积木机器人怎么操作,4],[积木机器人如何操作,积木机器人的操作流程,4],[积木机器人如何操作,扫描不到积木机器人的蓝牙,3],[积木机器人如何操作,积木机器人有什么用,2],[积木机器人如何操作,官方模型动作怎么编辑,1],[积木机器人如何操作,配件如何购买,0],[积木机器人如何操作,机器人多少钱,0]。模型训练的时候,将三元组中的[主问句,其他预置问句训练文本]作为输入,相似度标签作为期望的输出。当然,具体设置为几个相似等级可以根据实际的需求确定,在此不做具体的限定。
步骤101D,将多个所述输入训练文本作为问句匹配模型的输入,将所述预置问句训练文本与对应的多个不同相似等级的预置问句训练文本的相似度标签作为期望的输出,对所述问句匹配模型进行训练,得到训练好的问句匹配模型。
由于机器不能识别句子,所以需要将问句文本进行分词,得到词语,然后再转换为词向量作为模型的输入,其中,词向量为用向量的方式来表达词语。例如,问句文本为“积木机器人如何操作”,将其分词得到:积木、机器人、如何、操作,然后再获取到这些词语的词向量,最后将输入整理为词向量的形式之后输入模型训练,首先将得到的词向量矩阵进行叉乘处理,然后挑选出叉乘之后的前K个值(公式1),进一步的,对待匹配问句文本的词向量进行一次简单的映射处理(公式2),然后再根据映射结果对经过激活函数的输出结果(公式3)赋一个权重值,得到最终的匹配度(公式4),再将该匹配度进行权重运算,得到最终的标签输出值(公式5),将标签输出值输入softmax层之后(公式6)再与相似度标签进行比较形成问句来匹配模型的损失函数(公式7),最后根据损失函数的值进行梯度更新,即可完成模型的训练,具体如下。需要说明的是,为了加快模型训练的速度,还可以选用Adam算法来完成梯度的更新。
假设q1=(x1,x2,x3,...,xm)为待匹配问句文本的词向量,q2=(y1,y2,y3,...,yn)为预置问句训练文本的词向量,于是有:
其中,m指待匹配问句文本分词后的长度,n指预置问句训练文本分词后的长度,xi为待匹配问句文本分词后的第i个词对应的词向量,yi为预置问句文本分词后的第i个词对应的词向量,为向量的叉乘,f函数即挑选出叉乘之后的前K个值,wp指映射的权重参数,bp指映射的偏置参数,H=[h1,h2,…hm],其中,hi为待匹配问句文本的第i个词所对应的映射后的值,relu为relu激活函数,W(l)为第l层的权重矩阵,b(l)为第l层的偏置矩阵,L是神经网络的总层数,O=[o1,o2,…oC],C为相似等级数(即分为了多少个相似等级,每个相似等级对应一个相似度标签),oi为第i个等级的标签输出值,e为常数,e≈2.71828,M是训练样本总数,tgj为训练g样本的第j个相似等级的真实的相似度标签。
如图3所示,提供了一种问句文本的匹配方法,具体包括:
步骤302,获取产品类别标签。
所述产品类别标签,用于指示不同的产品,由数字和/或字符和/或字母组成。例如,对于机器人来说,可能有“悟空机器人”,“alpha机器人”,“jimu机器人”,对应的,“悟空机器人”的产品类别标签可以设置为:wukong,“alpha机器人”的产品类别标签可以设置为:alpha,“jimu机器人”的产品类别标签可以设置为:jimu。
步骤304,获取待匹配问句文本。
步骤306,根据所述产品类别标签,确定目标问句文本子库,获取所述目标问句文本子库中的多个预置问句文本。
在本发明实施例中,根据产品类别标签,将问句文本库分为多个问句文本子库,每个问句文本子库存放相应的机器人产品的相关问句。例如,“悟空机器人”的问句文本子库存放有关“悟空机器人”的问句,“alpha机器人”的问句文本子库存放有关“alpha机器人”的问句。
步骤308,分别将所述待匹配问句文本和所述目标问句文本子库中的多个预置问句文本进行组合,得到多个输入问句文本。
步骤310,将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签。
步骤312,根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
上述问句文本的匹配方法,由于将不同的产品放置在不同的问句文本子库,这样在预测的时候,不用在大的问句文本库中搜索答案,而只用在相对较小的问句文本子库搜索匹配的问句,因此,能够大大的节约搜索开销。
为了进一步的确保匹配的答***性,如图4所示,所述问句文本的匹配方法,还包括:
步骤312,获取所述目标问句文本子库中每个所述预置问句文本对应的预置答案文本。
问句文本子库中,设置有预置问句文本,相应的,还可以在问句文本子库中设置预置问句文本的预置答案文本,或者,单独设置一个问句答案子库,将问句文本子库与问句答案子库进行关联,这样,只要知道了预置文本问句,就能根据关联关系知道该预置文本问句的答案。
步骤314,分别将所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本进行组合,得到多个输入问答文本。
在这里,只将待匹配问句文本与目标问句文本子库中的各个预置问句文本的预置答案文本进行组合,而不用再将问句文本库中的各个预置问句文本的预置答案文本组合,大大的节约了程序开销。
例如,待匹配问句文本为“积木机器人如何操作”,目标问句文本子库中各个预置问句文本的预置答案文本有“积木机器人操作方式如下”,“积木机器人的操作流程如下”,“通过如下方式扫描到积木机器人蓝牙”,“积木机器人可以用来扫地”,“官方模型动作的编辑方式如下”,“配件可以在商城购买”,“2000块”,于是,将待匹配问句文本和目标问句文本子库中各个预置问句文本的预置答案文本进行组合,得到多个输入问答文本:[积木机器人如何操作,积木机器人操作方式如下],[积木机器人如何操作,积木机器人的操作流程如下],[积木机器人如何操作,通过如下方式扫描到积木机器人蓝牙],[积木机器人如何操作,积木机器人可以用来扫地],[积木机器人如何操作,官方模型动作的编辑方式如下],[积木机器人如何操作,2000块]。
步骤316,将多个所述输入问答文本输入问答匹配模型,得到所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本的匹配值。
所述匹配值,用于指示待匹配问句文本和预置答案文本的问答匹配度,答案与问句越匹配,匹配值越高。
在这里,需要预先对问答匹配模型进行训练,训练中,将预置问句训练文本作为问句,将各个预置答案训练文本作为答案,构建包括问句和答案的二元组,该二元组即为问答匹配模型的输入,同时,设置限制条件作为问句的输出,在满足该条件的时候,模型训练完成。其中,限制条件根据主问句和预置问句训练文本的相似度标签的值进行设置,具体的,相似度标签最大二元组的匹配值必须大于其他二元组的匹配值。例如,现有主问句、其他预置问句训练文本、相似度标签和预置答案训练文本:[积木机器人如何操作,积木机器人的便捷操作是什么,4,积木机器人的便捷操作方式如下],[积木机器人如何操作,扫描不到积木机器人的蓝牙,3,通过这样的方式扫描到机器人蓝牙],[积木机器人如何操作,积木机器人有什么用,2,积木机器人用来扫地],[积木机器人如何操作,官方模型动作怎么编辑,1,官方模型动作通过这样的方式编辑],[积木机器人如何操作,配件如何购买,0,配件可以在商城购买],这样,根据相似度标签,可以得到限制条件:[积木机器人如何操作,积木机器人的便捷操作方式如下]的匹配值>[积木机器人如何操作,通过这样的方式扫描到机器人蓝牙]的匹配值>[积木机器人如何操作,积木机器人用来扫地]的匹配值>[积木机器人如何操作,官方模型动作通过这样的方式编辑]的匹配值>[积木机器人如何操作,配件可以在商城购买]的匹配值。
在本发明实施例中,问答匹配模型的训练具体如下,通过对L函数进行梯度更新,既可完成问答匹配模型的训练,为了加快模型训练的速度,可以选用Adam算法来完成梯度的更新。
q1=(x1,x2,x3,...,xm)为预置问句训练文本的词向量,q2=(y1,y2,y3,...,yn)为某一预置答案训练文本的词向量,于是有:
m指预置问句训练文本分词后的长度,n指预置答案训练文本分词后的长度,xi为预置问句训练文本分词后的第i个词对应的词向量,yi为预置答案训练文本分词后的第i个词对应的词向量,为向量的叉乘,f函数即挑选出叉乘之后的前K个值,relu为relu激活函数,W(l)为第l层的权重矩阵,b(l)为第l层的偏置矩阵,L是神经网络的总层数,Wp是预置问句训练文本的权重矩阵,bp是预置问句训练文本的权重矩阵,h是预置问句训练文本经过映射后的输出值,margin设置为1,s(q1,q2)和s(q1,q3)为预置问句训练文本与某一预置答案训练文本输出的预测的匹配值,Θ为预先给定的参数。
相应的,步骤312所述根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本,包括:
步骤318,根据所述相似度标签和所述匹配值,获取与所述待匹配问句文本匹配的目标预置答案文本。
在本发明实施例中,所述预置问句文本和所述预置问句文本对应的预置答案文本具有相同的文本标识。
例如,首先获取相似度标签最大的和匹配值最大的,然后看它们的文本标识是否相同,若相同,则将匹配值最大的对应的预置答案文本作为目标预置答案文本,若不相同,则将相似度标签最大的预置问句文本对应的预置答案文本作为目标预置答案文本,或者将匹配值最大的预置答案文本作为目标预置答案文本。
作为本发明的一种实施例,步骤318所述根据所述相似度标签和所述匹配值,获取与所述待匹配问句文本匹配的目标预置答案文本,包括:
步骤318A,根据所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的相似度标签,从多个所述预置问句文本中挑选出与所述待匹配问句文本相似度最高的预设个数的优选预置问句文本。
其中,优选预置问句文本,为多个预置问句文本中经过模型预测得到的相似度最高的预置问句文本。例如,假设预置问句文本有10个,预置个数设置为3个,则通过对相似度标签排序得到相似度标签为4、4、3、3、2、2、1、0、0、0,从中可以挑选出相似度标签4、4、3的优选预置问句文本。
步骤318B,根据所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本的匹配值,从多个所述预置问句文本中的预置答案文本中挑选出与所述待匹配问句文本匹配的所述预设个数的优选预置答案文本。
步骤318B挑选优选预置问句文本的方式与步骤318A与相同,在此不再详述。
步骤318C,根据每个所述优选预置问句文本的文本标识和每个所述优选预置答案文本的文本标识,获取与所述待匹配问句文本匹配的目标预置答案文本。
假设挑选出3个优选预置问句文本和3个优选预置答案文本,那么,再根据文本标识从这3个优选预置答案文本中挑选出目标预置答案文本。
作为本发明的一种实施例,步骤318C所述根据每个所述优选预置问句文本的文本标识和每个所述优选预置答案文本的文本标识,获取与所述待匹配问句文本匹配的目标预置答案文本,包括:
步骤318C1,根据每个所述优选预置问句文本的文本标识和每个所述优选预置答案文本的文本标识,获取与所述待匹配问句匹配的至少一个优选预置问句文本。
在这里,主要是通过对文本标识取交集的方式获取到与所述待匹配问句匹配的至少一个优选预置问句文本。例如,3个优选预置问句文本的文本标识分别为jimu10、jimu11和jimu15,3个优选预置答案文本的文本标识分别为jimu10、jimu11和jimu17,于是,将文本标识jimu10和jimu1对应的预置问句文本确定为优选预置问句文本。
步骤318C2,将所述待匹配问句文本进行分字,得到包含多个字的待匹配分词结果。
例如,待匹配问句文本为“悟空有金色的吗”,待匹配分词结果为:[悟,空,有,金,色,的,吗]。
步骤318C3,将与所述待匹配问句匹配的至少一个优选预置问句文本进行分词,得到包含多个字的多个优选分词结果。
例如,最终得到2个优选预置问句文本:“悟空的尺寸是多少”和“悟空有哪些颜色”,对应的两个优选分词结果为:[悟,空,的,尺,寸,是,多,少]和[悟,空,有,哪,些,颜,色]。
步骤318C4,根据所述待匹配分词结果和所述优选分词结果,计算所述待匹配问句文本和与所述待匹配问句匹配的每个优选预置问句文本的文本匹配值。
在这里,首先统计待匹配分词结果和优选分词结果的不重复字的总个数,然后确认待匹配分词结果和优选分词结果的相同字的相同个数,最后用相同个数/总个数既可得到待匹配问句文本和与待匹配问句匹配的每个优选预置问句文本的文本匹配值。继续如上例子,“悟空有金色的吗”和“悟空的尺寸是多少”的不重复字的总个数为12,相同字的相同个数为3,文本匹配值为3/12,“悟空有金色的吗”和“悟空有哪些颜色”的不重复字的总个数为11,相同字的相同个数为4,文本匹配值为4/11。当然,为了提高计算的有效性和准确性,可以选择去除待匹配问句和预置文本问句中的一些无关紧要的词,然后再进行计算。在去除一些无意义的词之后,“悟空有金色的吗”得到“金色”,“悟空的尺寸是多少”得到“尺寸是多少”,“悟空有哪些颜色”得到“哪些颜色”,统计“悟空有金色的吗”和“悟空的尺寸是多少”的总个数:7,相同个数为0,文本匹配值为0,统计“悟空有金色的吗”和“悟空有哪些颜色”的总个数:5,相同个数为1,文本匹配值为0.2。
步骤318C5,根据所述待匹配问句文本和与所述待匹配问句匹配的每个优选预置问句文本的文本匹配值,获取与所述待匹配问句文本匹配的目标预置答案文本。
继续如上例子,由于“悟空的大小”和“悟空的尺寸”的文本匹配值大于“悟空的大小”和“悟空有哪些颜色”的文本匹配值,所以,目标问句文本为“悟空的尺寸”,根据目标问句文本文本标识,获取与所述待匹配问句文本匹配的目标预置答案文本:1米。
如图5所示,提供了一种问句文本的匹配装置500,具体包括:
获取模块502,用于获取待匹配问句文本;
组合模块504,用于分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
标签模块506,用于将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
匹配模块508,用于根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
在其中一个实施例中,所述装置500,还包括:产品标签获取模块,用于获取产品类别标签;相应的,所述组合模块504,包括:第一组合模块,用于根据所述产品类别标签,确定目标问句文本子库,获取所述目标问句文本子库中的多个预置问句文本;第二组合模块,用于分别将所述待匹配问句文本和所述目标问句文本子库中的多个预置问句文本进行组合,得到多个输入问句文本。
在其中一个实施例中,所述装置500,还包括:答案文本获取模块,用于获取所述目标问句文本子库中每个所述预置问句文本对应的预置答案文本;问答组合模块,用于分别将所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本进行组合,得到多个输入问答文本;匹配值获取模块,用于将多个所述输入问答文本输入问答匹配模型,得到所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本的匹配值;相应的,所述匹配模块508,包括:目标答案匹配模块,用于根据所述相似度标签和所述匹配值,获取与所述待匹配问句文本匹配的目标预置答案文本。
在其中一个实施例中,所述预置问句文本和所述预置问句文本对应的预置答案文本具有相同的文本标识;所述目标答案匹配模块,包括:优选问句模块,用于根据所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的相似度标签,从多个所述预置问句文本中挑选出与所述待匹配问句文本相似度最高的预设个数的优选预置问句文本;优选答案模块,用于根据所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本的匹配值,从多个所述预置问句文本中的预置答案文本中挑选出与所述待匹配问句文本匹配的所述预设个数的优选预置答案文本;目标预置答案文本模块,用于根据每个所述优选预置问句文本的文本标识和每个所述优选预置答案文本的文本标识,获取与所述待匹配问句文本匹配的目标预置答案文本。
在其中一个实施例中,所述目标预置答案文本模块,包括:第一答案文本模块,用于根据每个所述优选预置问句文本的文本标识和每个所述优选预置答案文本的文本标识,获取与所述待匹配问句匹配的至少一个优选预置问句文本;第二答案文本模块,用于将所述待匹配问句文本进行分字,得到包含多个字的待匹配分词结果;第三答案文本模块,用于将与所述待匹配问句匹配的至少一个优选预置问句文本进行分词,得到包含多个字的多个优选分词结果;第四答案文本模块,用于根据所述待匹配分词结果和所述优选分词结果,计算所述待匹配问句文本和与所述待匹配问句匹配的每个优选预置问句文本的文本匹配值;第五答案文本模块,用于根据所述待匹配问句文本和与所述待匹配问句匹配的每个优选预置问句文本的文本匹配值,获取与所述待匹配问句文本匹配的目标预置答案文本。
在其中一个实施例中,所述装置500,还包括:训练模块,用于对所述问句匹配模型进行训练;所述训练模块,包括:第一训练模块,用于获取包括多个预置问句训练文本的预置问句训练文本集;第二训练模块,用于获取每个所述预置问句训练文本对应的多个不同相似等级的预置问句训练文本;第三训练模块,用于将所述预置问句训练文本分别和所述预置问句训练文本对应的多个不同相似等级的预置问句训练文本进行组合,得到多个输入训练文本;第四训练模块,用于将多个所述输入训练文本作为问句匹配模型的输入,将所述预置问句训练文本与对应的多个不同相似等级的预置问句训练文本的相似度标签作为期望的输出,对所述问句匹配模型进行训练,得到训练好的问句匹配模型。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是服务器,也可以是机器人。如图6所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现问句文本的匹配方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行问句文本的匹配方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的问句文本的匹配方法可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成问句文本的匹配装置500的各个程序模板。比如,获取模块502、组合模块504、标签模块506和匹配模块508。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取待匹配问句文本;
分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待匹配问句文本;
分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
需要说明的是,上述问句文本的匹配方法、问句文本的匹配装置、计算机设备及计算机可读存储介质属于一个总的发明构思,问句文本的匹配方法、问句文本的匹配装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种问句文本的匹配方法,其特征在于,包括:
获取待匹配问句文本;
分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
2.如权利要求1所述的方法,其特征在于,所述问句文本库包括多个问句文本子库;在所述获取待匹配问句文本之前,还包括:
获取产品类别标签;
所述分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本,包括:
根据所述产品类别标签,确定目标问句文本子库,获取所述目标问句文本子库中的多个预置问句文本;
分别将所述待匹配问句文本和所述目标问句文本子库中的多个预置问句文本进行组合,得到多个输入问句文本。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述目标问句文本子库中每个所述预置问句文本对应的预置答案文本;
分别将所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本进行组合,得到多个输入问答文本;
将多个所述输入问答文本输入问答匹配模型,得到所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本的匹配值;
所述根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本,包括:
根据所述相似度标签和所述匹配值,获取与所述待匹配问句文本匹配的目标预置答案文本。
4.如权利要求3所述的方法,其特征在于,所述预置问句文本和所述预置问句文本对应的预置答案文本具有相同的文本标识;
所述根据所述相似度标签和所述匹配值,获取与所述待匹配问句文本匹配的目标预置答案文本,包括:
根据所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的相似度标签,从多个所述预置问句文本中挑选出与所述待匹配问句文本相似度最高的预设个数的优选预置问句文本;
根据所述待匹配问句文本和所述目标问句文本子库中每个所述预置问句文本的预置答案文本的匹配值,从多个所述预置问句文本中的预置答案文本中挑选出与所述待匹配问句文本匹配的所述预设个数的优选预置答案文本;
根据每个所述优选预置问句文本的文本标识和每个所述优选预置答案文本的文本标识,获取与所述待匹配问句文本匹配的目标预置答案文本。
5.如权利要求4所述的方法,其特征在于,所述根据每个所述优选预置问句文本的文本标识和每个所述优选预置答案文本的文本标识,获取与所述待匹配问句文本匹配的目标预置答案文本,包括:
根据每个所述优选预置问句文本的文本标识和每个所述优选预置答案文本的文本标识,获取与所述待匹配问句匹配的至少一个优选预置问句文本;
将所述待匹配问句文本进行分字,得到包含多个字的待匹配分词结果;
将与所述待匹配问句匹配的至少一个优选预置问句文本进行分词,得到包含多个字的多个优选分词结果;
根据所述待匹配分词结果和所述优选分词结果,计算所述待匹配问句文本和与所述待匹配问句匹配的每个优选预置问句文本的文本匹配值;
根据所述待匹配问句文本和与所述待匹配问句匹配的每个优选预置问句文本的文本匹配值,获取与所述待匹配问句文本匹配的目标预置答案文本。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述获取待匹配问句文本之前,还包括:对所述问句匹配模型进行训练,所述训练包括以下步骤:
获取包括多个预置问句训练文本的预置问句训练文本集;
获取每个所述预置问句训练文本对应的多个不同相似等级的预置问句训练文本;
将所述预置问句训练文本分别和所述预置问句训练文本对应的多个不同相似等级的预置问句训练文本进行组合,得到多个输入训练文本;
将多个所述输入训练文本作为问句匹配模型的输入,将所述预置问句训练文本与对应的多个不同相似等级的预置问句训练文本的相似度标签作为期望的输出,对所述问句匹配模型进行训练,得到训练好的问句匹配模型。
7.一种问句的匹配装置,其特征在于,包括:
获取模块,用于获取待匹配问句文本;
组合模块,用于分别将所述待匹配问句文本和问句文本库中的各个预置问句文本进行组合,得到多个输入问句文本;
标签模块,用于将多个所述输入问句文本输入问句匹配模型,得到所述待匹配问句文本和每个所述预置问句文本的相似度标签;
匹配模块,用于根据所述相似度标签,获取与所述待匹配问句文本相似度最高的目标问句文本。
8.如权利要求7所述的装置,其特征在于,还包括:
产品标签获取模块,用于获取产品类别标签;
相应的,所述组合模块,包括:
第一组合模块,用于根据所述产品类别标签,确定目标问句文本子库,获取所述目标问句文本子库中的多个预置问句文本;
第二组合模块,用于分别将所述待匹配问句文本和所述目标问句文本子库中的多个预置问句文本进行组合,得到多个输入问句文本。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述问句文本的匹配方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述问句文本的匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811647085.7A CN111382250A (zh) | 2018-12-29 | 2018-12-29 | 问句文本的匹配方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811647085.7A CN111382250A (zh) | 2018-12-29 | 2018-12-29 | 问句文本的匹配方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111382250A true CN111382250A (zh) | 2020-07-07 |
Family
ID=71219460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811647085.7A Pending CN111382250A (zh) | 2018-12-29 | 2018-12-29 | 问句文本的匹配方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382250A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131364A (zh) * | 2020-09-22 | 2020-12-25 | 沈阳东软智能医疗科技研究院有限公司 | 问答方法、装置、电子设备和存储介质 |
CN112632252A (zh) * | 2020-12-25 | 2021-04-09 | 中电金信软件有限公司 | 对话应答方法、装置、计算机设备和存储介质 |
CN116796723A (zh) * | 2023-03-15 | 2023-09-22 | 华院计算技术(上海)股份有限公司 | 文本集匹配方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294777A (zh) * | 2013-05-13 | 2013-09-11 | 沈文策 | 一种问题解答方法及*** |
CN108268441A (zh) * | 2017-01-04 | 2018-07-10 | 科大讯飞股份有限公司 | 句子相似度计算方法和装置及*** |
CN108345585A (zh) * | 2018-01-11 | 2018-07-31 | 浙江大学 | 一种基于深度学习的自动问答方法 |
-
2018
- 2018-12-29 CN CN201811647085.7A patent/CN111382250A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294777A (zh) * | 2013-05-13 | 2013-09-11 | 沈文策 | 一种问题解答方法及*** |
CN108268441A (zh) * | 2017-01-04 | 2018-07-10 | 科大讯飞股份有限公司 | 句子相似度计算方法和装置及*** |
CN108345585A (zh) * | 2018-01-11 | 2018-07-31 | 浙江大学 | 一种基于深度学习的自动问答方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131364A (zh) * | 2020-09-22 | 2020-12-25 | 沈阳东软智能医疗科技研究院有限公司 | 问答方法、装置、电子设备和存储介质 |
CN112131364B (zh) * | 2020-09-22 | 2024-03-26 | 沈阳东软智能医疗科技研究院有限公司 | 问答方法、装置、电子设备和存储介质 |
CN112632252A (zh) * | 2020-12-25 | 2021-04-09 | 中电金信软件有限公司 | 对话应答方法、装置、计算机设备和存储介质 |
CN116796723A (zh) * | 2023-03-15 | 2023-09-22 | 华院计算技术(上海)股份有限公司 | 文本集匹配方法、装置、电子设备及存储介质 |
CN116796723B (zh) * | 2023-03-15 | 2024-02-06 | 华院计算技术(上海)股份有限公司 | 文本集匹配方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN109829155B (zh) | 关键词的确定方法、自动评分方法、装置、设备及介质 | |
CN109800307B (zh) | 产品评价的分析方法、装置、计算机设备及存储介质 | |
CN109783785B (zh) | 生成实验检测报告的方法、装置和计算机设备 | |
US10692017B2 (en) | Systems and methods for predictive document coding using continuous active machine learning | |
CN111382250A (zh) | 问句文本的匹配方法、装置、计算机设备和存储介质 | |
CN112732899A (zh) | 摘要语句提取方法、装置、服务器及计算机可读存储介质 | |
CN111340054A (zh) | 数据标注方法、装置及数据处理设备 | |
CN111461301A (zh) | 序列化数据处理方法和装置、文本处理方法和装置 | |
CN111400471A (zh) | 问题推荐方法、***、电子设备和存储介质 | |
CN113283675A (zh) | 指标数据分析方法、装置、设备及存储介质 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN106610932A (zh) | 一种语料处理方法和装置及语料分析方法和装置 | |
CN114035827A (zh) | 应用程序更新方法、装置、设备及存储介质 | |
CN115659226A (zh) | 一种获取app标签的数据处理*** | |
CN114692889A (zh) | 用于机器学习算法的元特征训练模型 | |
CN113343024A (zh) | 对象推荐方法、装置、电子设备及存储介质 | |
CN117077679A (zh) | 命名实体识别方法和装置 | |
CN111489196A (zh) | 基于深度学习网络的预测方法、装置、电子设备及介质 | |
WO2020133360A1 (zh) | 问句文本的匹配方法、装置、计算机设备和存储介质 | |
CN106415525B (zh) | 确定有效负荷估计 | |
CN107577760B (zh) | 一种基于约束规范的文本分类方法及装置 | |
CN113033178B (zh) | 用于商业计划书的文本评估方法、装置及计算机 | |
CN112287005B (zh) | 一种数据处理方法、装置、服务器及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |