CN111930920A - 基于知识增强处理的faq相似度计算方法、装置及电子设备 - Google Patents

基于知识增强处理的faq相似度计算方法、装置及电子设备 Download PDF

Info

Publication number
CN111930920A
CN111930920A CN202011060858.9A CN202011060858A CN111930920A CN 111930920 A CN111930920 A CN 111930920A CN 202011060858 A CN202011060858 A CN 202011060858A CN 111930920 A CN111930920 A CN 111930920A
Authority
CN
China
Prior art keywords
text
similarity
target text
synonym
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011060858.9A
Other languages
English (en)
Other versions
CN111930920B (zh
Inventor
廖智霖
高峰
吕杨苗
林金曙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hundsun Technologies Inc
Original Assignee
Hundsun Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hundsun Technologies Inc filed Critical Hundsun Technologies Inc
Priority to CN202011060858.9A priority Critical patent/CN111930920B/zh
Publication of CN111930920A publication Critical patent/CN111930920A/zh
Application granted granted Critical
Publication of CN111930920B publication Critical patent/CN111930920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提出了基于知识增强处理的FAQ相似度计算方法、装置及电子设备,包括接收客户文本,确定对应客户文本的目标文本,对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算,根据相似度计算结果与预设阈值的大小关系进行不同处理。在经过上述处理后基于FAQ相似度结果与预设阈值的大小关系判定是否继续进行扩充客户文本、目标文本语义范围的同义句句组的操作,进而基于同义句句组进行FAQ相似度计算。通过在两种判断结果中分别采用不同的方式对目标文本进行扩容,扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。

Description

基于知识增强处理的FAQ相似度计算方法、装置及电子设备
技术领域
本发明属于相似度计算领域,尤其涉及基于知识增强处理的FAQ相似度计算方法、装置及电子设备。
背景技术
FAQ(Frequently Asked Questions)相似度计算在各个业务领域中有着广泛的应用。如在证券行业,各大证券公司都会对客户常问的一些问题进行总结,将这些问题归纳成一系列的目标文本。然后利用FAQ相似度计算方法从目标文本中选出相似度最大的文本对应的答案作为客户提问的最佳答案。现有的FAQ相似度计算方法有专利多种,可以概括为三大类:基于词语匹配的方法、词语匹配和词向量混合的方法、基于词向量或句子向量的方法。
上述相似度计算方法都是直接计算客户提问文本和目标文本的相似度。单句的用户提问和目标文本数据量都十分有限,使得两文本表达的语义不够丰富,容易造成用户提问与目标文本匹配不上的结果。如客户提问“我手续费多少”和目标文本“A股交易费用”之间差距过大,直接计算相似度容易匹配不到正确答案。因此,为了解决两文本直接计算相似度时,数据量有限和语义不够丰富的问题,需要对客户提问或者目标文本进行知识增强。
发明内容
为了解决现有技术中存在的缺点和不足,本发明提出了基于知识增强处理的FAQ相似度计算方法、装置及电子设备,通过针对客户文本的长短不同分别采取基于知识分布的知识增强处理、生成用于扩充客户文本、目标文本语义范围的同义句句组的方式扩大目标文本的词语范围,从而提升了相似度的计算结果。
为了达到上述技术目的,根据本公开实施例的第一方面,本实施例提供了基于知识增强处理的FAQ相似度计算方法,包括:
接收客户文本,确定对应客户文本的目标文本;
对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算;
如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算。
可选的,所述对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算,包括:
对客户文本以及目标文本进行分词处理;
选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容;
如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
可选的,所述知识分布集合中还设有对应每个同义词组的权重值。
可选的,所述生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,包括:
构建同义句生成模型;
基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组;
将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
可选的,所述构建同义句生成模型,包括:
构建初始深度学习模型;
在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
可选的,所述将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算,包括:
调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
为了达到上述技术目的,根据本公开实施例的第二方面,本实施例提供了基于知识增强处理的FAQ相似度计算装置,包括:
文本接收模块,用于接收客户文本,确定对应客户文本的目标文本;
相似度计算模块,用于对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算;
所述相似度计算模块,包括:
相似度第一执行单元,用于如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
相似度第二执行单元,用于如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算。
可选的,所述相似度计算模块,包括:
分词处理单元,用于对客户文本以及目标文本进行分词处理;
分词判断单元,用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容;
分词填充单元,用于如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
可选的,所述知识分布集合中还设有对应每个同义词组的权重值。
可选的,所述相似度第二执行单元,包括:
模型构建子单元,用于构建同义句生成模型;
同义句组合子单元,用于基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组;
内容转换子单元,用于将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
可选的,所述模型构建子单元包括:
初始模型构建子单元,用于构建初始深度学习模型;
编码子单元,用于在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
解码子单元,用于在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
模型训练子单元,用于在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
可选的,所述内容转换子单元,包括:
向量转换子单元,用于调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
相似度计算子单元,用于基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
相似度数值选取子单元,用于选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
为了达到上述技术目的,根据本公开实施例的第三方面,本实施例提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求所述基于知识增强处理的FAQ相似度计算方法的步骤。
为了达到上述技术目的,根据本公开实施例的第四方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求所述基于知识增强处理的FAQ相似度计算方法的步骤。
本发明提供的技术方案带来的有益效果是:
针对客户文本依次执行分词处理、对客户文本、与客户文本对应的目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算。利用了目标文本的知识分布,扩大目标文本的词语范围,从而扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。
在对前一步相似度结果进行判断后如果出现结果小于或等于阈值的情况则再依次执行构建同义句生成模型,调用同义句生成模型得到客户文本同义句句组、目标文本同义句句组,根据得到的两套同义句句组计算相似度FAQ计算。借助句子层面识增强方法利用深度学习的生成模型VAE生成同义句来进行数据增强,使得生成的多个同义句可以从不同的方向扩充单个用户提问和目标文本的语义范围,能够解决数据过少造成的语义表达范围过窄的问题。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施提出的基于知识增强处理的FAQ相似度计算方法的流程示意图一;
图2是本申请实施提出的基于知识增强处理的FAQ相似度计算方法的流程示意图二;
图3是本申请实施提出的基于知识增强处理的FAQ相似度计算装置的结构示意图一;
图4是本申请实施提出的基于知识增强处理的FAQ相似度计算装置的结构示意图二;
图5是本申请实施例提出的一种电子设备的结构示意图。
具体实施方式
为使本发明的结构和优点更加清楚,下面将结合附图对本发明的结构作进一步地描述。本申请实施例中的M、N、m、n的取值均为非零正整数。
实施例一
在词语层面,搜集数个目标文本的同义句作为知识积累,将目标文本及其同义句分词,将分词后的结果构成一个对应的知识分布;在相似度计算时,利用知识分布对目标文本进行知识增强。
为了达到上述技术目的,根据本公开实施例的第一方面,本实施例提供了基于知识增强处理的FAQ相似度计算方法,如图1所示,所述FAQ相似度计算方法包括:
11、接收客户文本,确定对应客户文本的目标文本;
12、对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算。
步骤12提出的知识增强处理,具体包括:
121、对客户文本以及目标文本进行分词处理。
分词是中文自然语言处理的常规步骤,中文分词的算法有多种,如HMM、CRF和 BiLSTM+CRF等。这里采用基于HMM的常规中文分词工具分别对用户提问
Figure 511654DEST_PATH_IMAGE001
和目标文本
Figure 287849DEST_PATH_IMAGE002
分词。先去除所有的标点符号,然后进行分词。分词后的结果为
Figure 395482DEST_PATH_IMAGE003
,和
Figure 682369DEST_PATH_IMAGE004
122、选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容。
在实施中,为了解决现有技术中在计算客户文本与目标文本之间因差距过大导致相似度计算差值较低无法满足问答匹配要求的缺陷,本申请实施例提出了一种FAQ相似度计算方法,在现有相似度计算的基础上,增加了对目标文本进行扩充的知识增强处理步骤,相对于现有技术能够明显提升目标文本的容量,进而提高了客户文本与目标文本进行相似度计算后的结果,从而能够增加目标文本相对于客户文本的命中率,令客户文本得到更为精确的语义表述范围。
设目标文本
Figure 559059DEST_PATH_IMAGE005
对应的知识积累(同义句)文本为
Figure 709417DEST_PATH_IMAGE006
,则目标文本对 应的知识分布可以表示为
Figure 540232DEST_PATH_IMAGE007
,其中
Figure 4712DEST_PATH_IMAGE008
为出现在
Figure 735907DEST_PATH_IMAGE009
中的词语集合,
Figure 57167DEST_PATH_IMAGE010
为对应的词语权重。然后,根据 知识分布
Figure 703174DEST_PATH_IMAGE011
对客户提问和目标文本的相似语义进行增强。
逐个判断用户提问
Figure 768082DEST_PATH_IMAGE012
中的词语
Figure 353785DEST_PATH_IMAGE013
是否出现在目标文本的知识分布
Figure 550673DEST_PATH_IMAGE014
中。 如果存在,则对两文本的相似度进行词语
Figure 120194DEST_PATH_IMAGE015
的语义增强,将词语
Figure 785531DEST_PATH_IMAGE016
增加到目标文本分 词结果的后面。例如客户提问中的词语
Figure 258363DEST_PATH_IMAGE017
Figure 655846DEST_PATH_IMAGE018
在知识分布
Figure 650347DEST_PATH_IMAGE019
中,则知识增强后 目标文本的分词结果为
Figure 57058DEST_PATH_IMAGE020
Figure 446713DEST_PATH_IMAGE021
增补到目标文本中时依 次记为
Figure 280677DEST_PATH_IMAGE022
)。如果不存在,则不进行任何处理。知识增强可以利用目标文本的知 识分布,从而扩大用户提问与目标文本的相似语义范围。
123、如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
采用word2vec的词向量和余弦相似度计算用户提问词语
Figure 293632DEST_PATH_IMAGE023
和目标文本词语
Figure 17217DEST_PATH_IMAGE024
的相似度
Figure 635280DEST_PATH_IMAGE025
其中
Figure 640145DEST_PATH_IMAGE026
是词语
Figure 405976DEST_PATH_IMAGE027
对应的词向量。词语相似度计算后可以得到如表1所示的相 似度矩阵
Figure 390375DEST_PATH_IMAGE028
表1 词语相似度矩阵
Figure 253158DEST_PATH_IMAGE030
表2词语与文本的相似度
取相似度矩阵行最大值
Figure 694503DEST_PATH_IMAGE031
作为用户提问 词语
Figure 183516DEST_PATH_IMAGE016
与目标文本的相似度,如表2所示,取相似度矩阵列最大值
Figure 673403DEST_PATH_IMAGE032
作为目标文本词语
Figure 797217DEST_PATH_IMAGE033
与用户提问的相似度。
值得注意的是,如果计算得到的FAQ相似度结果大于预设阈值,输出FAQ相似度结果即可;如果FAQ相似度结果不大于预设阈值,还需要生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,即后续实施例二的内容。详细内容在实施例二中进行介绍,此处不再赘述。
可选的,所述知识分布集合中还设有对应每个同义词组的权重值。
设词语
Figure 409464DEST_PATH_IMAGE034
在知识分布中的权重为
Figure 713668DEST_PATH_IMAGE035
,词语
Figure 69563DEST_PATH_IMAGE036
在知识分布中的权重为
Figure 313463DEST_PATH_IMAGE037
(另,定义没有出现在知识分布 中的词语权重为1),权重
Figure 270180DEST_PATH_IMAGE038
Figure 232319DEST_PATH_IMAGE039
可以根据需要进行调整,也可以简单地将名词的权重
Figure 126326DEST_PATH_IMAGE038
设 为2,其他词的权重
Figure 319672DEST_PATH_IMAGE039
设为1。
则客户提问
Figure 742563DEST_PATH_IMAGE040
和目标文本
Figure 457578DEST_PATH_IMAGE041
的相似度计算公式为
Figure 889697DEST_PATH_IMAGE042
该方法额外利用了目标文本的知识分布,扩大了客户提问与目标文本的相似语义范围,可以提升相似度的计算结果。实验评估集有5585个(客户提问,目标文本)样本,其中目标文本有1617个,采用基于知识增强的FAQ相似度计算方法的正确率为78%,直接计算客户提问和目标文本相似度的方法正确率为65%,相似度计算结果有显著提高。
除了根据前述内容增加知识分布集合中的权重以外,还可以对选取的同义词组的内容和数量进行限定。
在生成目标文本的知识分布时,需要对其同义句内容和数量进行限定,以免导致知识分布的语义范围过于庞大,降低知识增强的效果。限定的措施有两个:第一个是内容限定,同义句分词结果的词语数量与目标文本分词结果的词语数量相差不能超过3;第二个是数量限定,目标文本最多可以选择7个同义句。
针对是否增加限定的示例如下文所示:
正样例1:
客户提问:我手续费多少。
目标文本:A股交易费用。
目标文本的同义句:我股票买入印花税多少。股票卖出手续费。A股交易费用多少。
步骤1:
客户提问:我、手续费、多少。
目标文本:A股、交易、费用。
步骤2:
对目标文本和同义句分词后可以得到知识分布{我:1,A股:2,手续费:2,多少:1,交易:2,费用:2,股票:2,买入:2,卖出:2,印花税:2}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“我、手续费、多少”三个词语出现在知识分布中。将这三个词语增加到目标文本分词结果的后面,得到“A股、交易、费用、我、手续费、多少”。
步骤3:
两文本直接计算相似度的矩阵为
Figure 547337DEST_PATH_IMAGE044
相似度为
Figure 672287DEST_PATH_IMAGE045
知识增强后计算相似度的矩阵为
Figure 671336DEST_PATH_IMAGE047
相似度为
Figure 408610DEST_PATH_IMAGE048
不采取限定措施生成知识分布的反样例2:
客户提问:请问、现在股票买入、卖出的印花税是多少,谢谢;
正确目标文本:A股交易费用,;
错误目标文本:沪B股交易费用;
正确目标文本的同义句:我交易手续费多少。我股票买入印花税多少。股票卖出费用。A股交易手续费多少。
错误目标文本的同义句:沪B股票交易费用。上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少,谢谢。
步骤1:如果客户文本属于短文本,则对客户文本、与客户文本对应的目标文本进行分词处理。
客户提问:请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢
正确目标文本:A股、交易、费用;
错误目标文本:沪B股、交易、费用;
步骤2:选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容。
对正确目标文本和同义句分词后可以得到知识分布{我:1,A股:2,手续费:2,多少:1,交易:2,费用:2,股票:2,买入:2,卖出:2,印花税:2}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“股票、买入、卖出、印花税、多少”5个词语出现在知识分布中。将这5个词语增加到目标文本分词结果的后面,得到“A股、交易、费用、股票、买入、卖出、印花税、多少”。
不采用限定措施,对错误目标文本和同义句分词后可以得到知识分布{沪B股:2,交易:2,费用,沪B:2,股票:2,上海:2,手续费:2,多少:1,请问:1,现在:1,B股:2,买入:2,卖出:2的:1,印花税:2,是:1,谢谢:1}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”10个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面,得到“沪B股、交易、费用、请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”。
采用限定措施,错误目标文本的同义句“上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少,谢谢”的分词结果“上海、B股、交易、手续费、多少、请问、现在、B股、股票、买入、卖出、的、印花税、是、多少、谢谢”中有16个词语,而目标文本“沪B股交易费用”的分词结果“沪B股、交易、费用”中只有3个词语,两个句子的词语数量相差为13,大于3所以该同义句不能用于生成目标文本的知识分布。对处理后的目标文本和同义句分后可以得到知识分布{沪B股:2,交易:2,费用,沪B:2,股票:2,上海:2,手续费:2,多少:1, B股:2 }。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“股票、多少”2个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面,得到“沪B股、交易、费用、股票、多少”。
步骤3:如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
A.客户提问与正确目标文本的相似度计算矩阵
Figure 747188DEST_PATH_IMAGE050
客户提问与正确目标文本的相似度为
Figure 980723DEST_PATH_IMAGE051
B.不采用限定措施,客户提问与错误目标文本的相似度计算矩阵
Figure 139172DEST_PATH_IMAGE053
不采用限定措施,客户提问与错误目标文本的相似度为
Figure 668418DEST_PATH_IMAGE054
C.采用限定措施后,客户提问与错误目标文本的相似度计算矩阵
Figure 595923DEST_PATH_IMAGE056
采用限定措施,客户提问与错误目标文本的相似度为
Figure 124993DEST_PATH_IMAGE057
客户提问与正确的目标文本间相似度为0.745,不采取限定措施的情况下客户提问与错误目标文本间相似度为0.87,采取内容限定的情况下客户提问与错误目标文本的相似度为0.485,所以在生成知识分布时,采取限定措施是必要的。
综上,依次执行分词、构建知识分布集合、对目标文本进行扩容再进行相似度计算的步骤,与常规的词语匹配方法相比,该方法额外利用了目标文本的知识分布,可以扩大目标文本的词语范围,从而扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。与基于词向量的传统方法相比,该方法额外利用了目标文本已有的知识分布,可以在传统WMD方法的基础上进一步增加客户提问与词分布相同的词语相似度,从而提升相似度的计算结果。
实施例二
在前述实施例一的基础上,如果对得到的FAQ相似度结果与预设阈值进行判定,如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算。如图2所示,具体包括:
311、构建同义句生成模型。
构建同义句生成模型的详细内容包括:
3111、构建初始深度学习模型;
3112、在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
3113、在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
3114、在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
示例性的,构建同义句生成模型所使用的深度学习模型为VAE(Variational Autoencoder),该模型的处理过程主要分为两个部分:编码过程(Encoder)和解码过程 (Decoder)。例如给定句子
Figure 537782DEST_PATH_IMAGE058
,编码过程会利用LSTM和MLP将其编码成两个向量
Figure 849815DEST_PATH_IMAGE059
Figure 100668DEST_PATH_IMAGE060
;解 码过程会利用MLP和LSTM将编码向量解码成和
Figure 738322DEST_PATH_IMAGE061
相近的句子
Figure 372828DEST_PATH_IMAGE062
考虑到通常的VAE模型训练时采用的自身监督,即模型输入和目标输出的监督信 号是同一个句子。这样的训练机制得到的模型生成的句子与输入的句子过于相似,难以对 输入的句子进行语义增强,扩大其表达范围。因此,本实施例提出,在训练同义句生成模型 时修改了自身监督机制,将输入文本的同义句当作监督信号。即:首先构建大量的训练样本
Figure 816448DEST_PATH_IMAGE063
Figure 718545DEST_PATH_IMAGE064
是一个句子文本,d是
Figure 28566DEST_PATH_IMAGE065
的同义句文本。然后将句子
Figure 586586DEST_PATH_IMAGE066
作为VAE模型的输入,d作 为VAE目标输出的监督信号。最后利用训练样本和深度学习的训练机制,训练出同义句生成 模型。 这样能够起到扩大表达范围的目的。
312、基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。
利用步骤311得到的同义句生成模型分别生成用户提问
Figure 506001DEST_PATH_IMAGE067
的m个(m为大于1的自 然数)同义句
Figure 528183DEST_PATH_IMAGE068
,目标文本
Figure 743526DEST_PATH_IMAGE069
的m个同义句
Figure 179056DEST_PATH_IMAGE070
。然后组成两个同义句句 组:用户提问同义句句组
Figure 902161DEST_PATH_IMAGE071
,目标文本同义句句组
Figure 14736DEST_PATH_IMAGE072
。在生成同 义句句组时,需要对同义句的内容和数量进行限定,以免同义句句组的语义覆盖范围过大, 降低知识增强的效果。限定的措施有两个:第一个是内容限定,同义句的
Figure 368357DEST_PATH_IMAGE073
与目标文本的
Figure 697707DEST_PATH_IMAGE074
距离不能大于
Figure 224503DEST_PATH_IMAGE075
;第二个是数量限定,m小于等于7。同义句生成模型会对用户提问
Figure 519480DEST_PATH_IMAGE076
和目标文本
Figure 840740DEST_PATH_IMAGE077
分别进行数据增强,从而扩充用户提问
Figure 922966DEST_PATH_IMAGE078
和目标文本
Figure 427022DEST_PATH_IMAGE079
的语义范围, 缩短两个文本之间的距离。
313、将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。具体包括:
3131、调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量。
首先利用LSTM将用户提问同义句句组
Figure 12724DEST_PATH_IMAGE080
,目标文本同义句句组
Figure 770464DEST_PATH_IMAGE081
分别编码成向量。
3132、基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵。
然后采用余弦相似度分别计算用户提问同义句句组中的句子
Figure 808827DEST_PATH_IMAGE082
和目标文本同义 句句组中句子
Figure 252927DEST_PATH_IMAGE083
的相似度
Figure 958715DEST_PATH_IMAGE084
,得到如表3所示的相似度矩阵,
Figure 621777DEST_PATH_IMAGE086
表3 相似度矩阵
3133、选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
取相似度矩阵中行的最大值
Figure 117743DEST_PATH_IMAGE087
当作用户提问同义句句组
Figure 524453DEST_PATH_IMAGE088
的句子
Figure 84748DEST_PATH_IMAGE089
与目标文本同义句句组的相似度,
取相似度矩阵中列的最大值
Figure 482493DEST_PATH_IMAGE090
当作 句子
Figure 761028DEST_PATH_IMAGE083
与用户提问同义句句组的相似度。
最后取
Figure 971429DEST_PATH_IMAGE091
Figure 386230DEST_PATH_IMAGE092
中的最大值作为用户提问
Figure 95822DEST_PATH_IMAGE093
和目标文本
Figure 861653DEST_PATH_IMAGE094
的 相似度
Figure 344587DEST_PATH_IMAGE095
将同义句组间的相似度作为用户提问和目标文本的相似度,可以提升相似度的计算结果。
综上,针对客户文本被判断为短文本的情况下,依次执行分词处理、对客户文本、与客户文本对应的目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算。利用了目标文本的知识分布,扩大目标文本的词语范围,从而扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。
实施例三
在词语层面,搜集数个目标文本的同义句作为知识积累,将目标文本及其同义句分词,将分词后的结果构成一个对应的知识分布;在相似度计算时,利用知识分布对目标文本进行知识增强。
为了达到上述技术目的,根据本公开实施例的第二方面,本实施例提供了基于知识增强处理的FAQ相似度计算装置4,如图3所示,所述数据处理装置包括:
文本接收模块41,用于接收客户文本,确定对应客户文本的目标文本;
相似度计算模块42,用于对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算。
针对相似度计算模块42所执行的与客户文本对应的目标文本进行基于知识分布的知识增强处理步骤,具体包括:
分词处理单元421,用于对客户文本以及目标文本进行分词处理。
分词是中文自然语言处理的常规步骤,中文分词的算法有多种,如HMM、CRF和 BiLSTM+CRF等。这里采用基于HMM的常规中文分词工具分别对用户提问
Figure 708835DEST_PATH_IMAGE096
和目标文本
Figure 619022DEST_PATH_IMAGE097
分词。先去除所有的标点符号,然后进行分词。分词后的结果为
Figure 606569DEST_PATH_IMAGE098
,和
Figure 158773DEST_PATH_IMAGE099
分词判断单元422,用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容。
在实施中,为了解决现有技术中在计算客户文本与目标文本之间因差距过大导致相似度计算差值较低无法满足问答匹配要求的缺陷,本申请实施例提出了一种FAQ相似度计算装置,在现有相似度计算的基础上,增加了对目标文本进行扩充的知识增强处理步骤,相对于现有技术能够明显提升目标文本的容量,进而提高了客户文本与目标文本进行相似度计算后的结果,从而能够增加目标文本相对于客户文本的命中率,令客户文本得到更为精确的语义表述范围。
设目标文本
Figure 252894DEST_PATH_IMAGE100
对应的知识积累(同义句)文本为
Figure 865141DEST_PATH_IMAGE101
,则目标文本对 应的知识分布可以表示为
Figure 339984DEST_PATH_IMAGE102
,其中
Figure 164721DEST_PATH_IMAGE103
为出现在
Figure 237981DEST_PATH_IMAGE104
中的词语集合,
Figure 21129DEST_PATH_IMAGE105
为对应的 词语权重。然后,根据知识分布
Figure 983269DEST_PATH_IMAGE106
对客户提问和目标文本的相似语义进行增强。
逐个判断用户提问
Figure 316424DEST_PATH_IMAGE040
中的词语
Figure 414830DEST_PATH_IMAGE107
是否出现在目标文本的知识分布
Figure 368879DEST_PATH_IMAGE108
中。 如果存在,则对两文本的相似度进行词语
Figure 818315DEST_PATH_IMAGE016
的语义增强,将词语
Figure 802497DEST_PATH_IMAGE109
增加到目标文本分 词结果的后面。例如客户提问中的词语
Figure 20988DEST_PATH_IMAGE017
Figure 145939DEST_PATH_IMAGE110
在知识分布
Figure 318557DEST_PATH_IMAGE111
中,则知识增强后 目标文本的分词结果为
Figure 757628DEST_PATH_IMAGE112
Figure 96206DEST_PATH_IMAGE113
增补到目标文本中时依 次记为
Figure 126479DEST_PATH_IMAGE114
)。如果不存在,则不进行任何处理。知识增强可以利用目标文本的知 识分布,从而扩大用户提问与目标文本的相似语义范围。
分词填充单元423,用于如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
采用word2vec的词向量和余弦相似度计算用户提问词语
Figure 114289DEST_PATH_IMAGE015
和目标文本词语
Figure 888210DEST_PATH_IMAGE115
的相似度
Figure 81294DEST_PATH_IMAGE116
其中
Figure 987195DEST_PATH_IMAGE117
是词语
Figure 898519DEST_PATH_IMAGE118
对应的词向量。词语相似度计算后可以得到如表1所示的 相似度矩阵:
Figure 210552DEST_PATH_IMAGE120
表1 词语相似度矩阵
Figure 87503DEST_PATH_IMAGE122
表2词语与文本的相似度
取相似度矩阵行最大值
Figure 725158DEST_PATH_IMAGE123
作为用户 提问词语
Figure 858199DEST_PATH_IMAGE124
与目标文本的相似度,如表2所示,取相似度矩阵列最大值
Figure 177185DEST_PATH_IMAGE125
作为目标文本词语
Figure 846326DEST_PATH_IMAGE126
与用户提问的相似 度。
值得注意的是,所述相似度计算模块42,包括:
相似度第一执行单元,用于如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
相似度第二执行单元43,用于如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,即后续实施例四的内容。详细内容在实施例四中进行介绍,此处不再赘述。
可选的,所述知识分布集合中还设有对应每个同义词组的权重值。
设词语
Figure 389303DEST_PATH_IMAGE127
在知识分布中的权重为
Figure 71957DEST_PATH_IMAGE128
,词语
Figure 492836DEST_PATH_IMAGE129
在知识分布中的权重为
Figure 515019DEST_PATH_IMAGE130
(另,定义没有出现在知识分 布中的词语权重为1),权重
Figure 228897DEST_PATH_IMAGE038
Figure 805372DEST_PATH_IMAGE039
可以根据需要进行调整,也可以简单地将名词的权重
Figure 764363DEST_PATH_IMAGE038
设为2,其他词的权重
Figure 703369DEST_PATH_IMAGE039
设为1。
则客户提问
Figure 119306DEST_PATH_IMAGE131
和目标文本
Figure 961840DEST_PATH_IMAGE132
的相似度计算公式为
Figure 160740DEST_PATH_IMAGE133
该方法额外利用了目标文本的知识分布,扩大了客户提问与目标文本的相似语义范围,可以提升相似度的计算结果。实验评估集有5585个(客户提问,目标文本)样本,其中目标文本有1617个,采用基于知识增强的FAQ相似度计算方法的正确率为78%,直接计算客户提问和目标文本相似度的方法正确率为65%,相似度计算结果有显著提高。
除了根据前述内容增加知识分布集合中的权重以外,还可以对选取的同义词组的内容和数量进行限定。
在生成目标文本的知识分布时,需要对其同义句内容和数量进行限定,以免导致知识分布的语义范围过于庞大,降低知识增强的效果。限定的措施有两个:第一个是内容限定,同义句分词结果的词语数量与目标文本分词结果的词语数量相差不能超过3;第二个是数量限定,目标文本最多可以选择7个同义句。
针对是否增加限定的示例如下文所示:
正样例1:
客户提问:我手续费多少。
目标文本:A股交易费用。
目标文本的同义句:我股票买入印花税多少。股票卖出手续费。A股交易费用多少。
步骤1:
客户提问:我、手续费、多少
目标文本:A股、交易、费用
步骤2:
对目标文本和同义句分词后可以得到知识分布{我:1,A股:2,手续费:2,多少:1,交易:2,费用:2,股票:2,买入:2,卖出:2,印花税:2}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“我、手续费、多少”三个词语出现在知识分布中。将这三个词语增加到目标文本分词结果的后面,得到“A股、交易、费用、我、手续费、多少”。
步骤3:
两文本直接计算相似度的矩阵为
Figure 891936DEST_PATH_IMAGE135
相似度为
Figure 478775DEST_PATH_IMAGE136
知识增强后计算相似度的矩阵为
Figure 859203DEST_PATH_IMAGE138
相似度为
Figure 189690DEST_PATH_IMAGE139
不采取限定措施生成知识分布的反样例2:
客户提问:请问、现在股票买入、卖出的印花税是多少,谢谢
正确目标文本:A股交易费用
错误目标文本:沪B股交易费用,
正确目标文本的同义句:我交易手续费多少。我股票买入印花税多少。股票卖出费用。A股交易手续费多少。
错误目标文本的同义句:沪B股票交易费用。上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少,谢谢。
步骤1:分词处理单元421,用于如果客户文本属于短文本,则对客户文本、与客户文本对应的目标文本进行分词处理。
客户提问:请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢
正确目标文本:A股、交易、费用
错误目标文本:沪B股、交易、费用
步骤2:分词判断单元422,用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容。
对正确目标文本和同义句分词后可以得到知识分布{我:1,A股:2,手续费:2,多少:1,交易:2,费用:2,股票:2,买入:2,卖出:2,印花税:2}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“股票、买入、卖出、印花税、多少”5个词语出现在知识分布中。将这5个词语增加到目标文本分词结果的后面,得到“A股、交易、费用、股票、买入、卖出、印花税、多少”。
不采用限定措施,对错误目标文本和同义句分词后可以得到知识分布{沪B股:2,交易:2,费用,沪B:2,股票:2,上海:2,手续费:2,多少:1,请问:1,现在:1,B股:2,买入:2,卖出:2的:1,印花税:2,是:1,谢谢:1}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”10个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面,得到“沪B股、交易、费用、请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”。
采用限定措施,错误目标文本的同义句“上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少,谢谢”的分词结果“上海、B股、交易、手续费、多少、请问、现在、B股、股票、买入、卖出、的、印花税、是、多少、谢谢”中有16个词语,而目标文本“沪B股交易费用”的分词结果“沪B股、交易、费用”中只有3个词语,两个句子的词语数量相差为13,大于3.所以该同义句不能用于生成目标文本的知识分布。对处理后的目标文本和同义句分后可以得到知识分布{沪B股:2,交易:2,费用,沪B:2,股票:2,上海:2,手续费:2,多少:1, B股:2 }。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“股票、多少”2个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面,得到“沪B股、交易、费用、股票、多少”。
分词填充单元423,用于如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
A.客户提问与正确目标文本的相似度计算矩阵
Figure 775392DEST_PATH_IMAGE141
客户提问与正确目标文本的相似度为
Figure 706702DEST_PATH_IMAGE142
B.不采用限定措施,客户提问与错误目标文本的相似度计算矩阵
Figure 276223DEST_PATH_IMAGE144
不采用限定措施,客户提问与错误目标文本的相似度为
Figure 207139DEST_PATH_IMAGE054
C.采用限定措施后,客户提问与错误目标文本的相似度计算矩阵
Figure 414392DEST_PATH_IMAGE146
采用限定措施,客户提问与错误目标文本的相似度为
Figure 77454DEST_PATH_IMAGE147
客户提问与正确的目标文本间相似度为0.745,不采取限定措施的情况下客户提问与错误目标文本间相似度为0.87,采取内容限定的情况下客户提问与错误目标文本的相似度为0.485,所以在生成知识分布时,采取限定措施是必要的。
综上,依次执行分词、构建知识分布集合、对目标文本进行扩容再进行相似度计算的步骤,与常规的词语匹配方法相比,该方法额外利用了目标文本的知识分布,可以扩大目标文本的词语范围,从而扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。与基于词向量的传统方法相比,该方法额外利用了目标文本已有的知识分布,可以在传统WMD方法的基础上进一步增加客户提问与词分布相同的词语相似度,从而提升相似度的计算结果。
实施例四
所述相似度第二执行单元43,用于如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,如图4所示,包括:
模型构建子单元431,用于构建同义句生成模型。
具体包括:初始模型构建子单元4311,用于构建初始深度学习模型;
编码子单元4312,用于在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
解码子单元4313,用于在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
模型训练子单元4314,用于在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
示例性的,构建同义句生成模型所使用的深度学习模型为VAE(Variational Autoencoder),该模型的处理过程主要分为两个部分:编码过程(Encoder)和解码过程 (Decoder)。例如给定句子
Figure 806376DEST_PATH_IMAGE148
,编码过程会利用LSTM和MLP将其编码成两个向量
Figure 478666DEST_PATH_IMAGE149
Figure 868321DEST_PATH_IMAGE150
;解 码过程会利用MLP和LSTM将编码向量解码成和
Figure 436705DEST_PATH_IMAGE151
相近的句子
Figure 980819DEST_PATH_IMAGE152
考虑到通常的VAE模型训练时采用的自身监督,即模型输入和目标输出的监督信 号是同一个句子。这样的训练机制得到的模型生成的句子与输入的句子过于相似,难以对 输入的句子进行语义增强,扩大其表达范围。因此,本实施例提出,在训练同义句生成模型 时修改了自身监督机制,将输入文本的同义句当作监督信号。即:首先构建大量的训练样本
Figure 630369DEST_PATH_IMAGE153
Figure 310749DEST_PATH_IMAGE154
是一个句子文本,d是
Figure 50035DEST_PATH_IMAGE155
的同义句文本。然后将句子
Figure 379647DEST_PATH_IMAGE155
作为VAE模型的输入,d为 VAE目标输出的监督信号。最后利用训练样本和深度学习的训练机制,训练出同义句生成模 型。 这样能够起到扩大表达范围的目的。
同义句组合子单元432,用于基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。
基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。
利用得到的同义句生成模型分别生成用户提问
Figure 721636DEST_PATH_IMAGE156
的m个(m为大于1的自然数)同 义句
Figure 757987DEST_PATH_IMAGE157
,目标文本
Figure 261649DEST_PATH_IMAGE079
的m个同义句
Figure 514776DEST_PATH_IMAGE158
。然后组成两个同义句句组:用 户提问同义句句组
Figure 494410DEST_PATH_IMAGE159
,目标文本同义句句组
Figure 149382DEST_PATH_IMAGE160
。在生成 同义句句组时,需要对同义句的内容和数量进行限定,以免同义句句组的语义覆盖范围过 大,降低知识增强的效果。限定的措施有两个:第一个是内容限定,同义句的
Figure 496050DEST_PATH_IMAGE161
与目标文本 的
Figure 534675DEST_PATH_IMAGE162
距离不能大于
Figure 624991DEST_PATH_IMAGE163
;第二个是数量限定,m小于等于7。同义句生成模型会对用户提问
Figure 134469DEST_PATH_IMAGE164
和目标文本
Figure 855301DEST_PATH_IMAGE077
分别进行数据增强,从而扩充用户提问
Figure 584485DEST_PATH_IMAGE165
和目标文本
Figure 212912DEST_PATH_IMAGE166
的语义范 围,缩短两个文本之间的距离。
内容转换子单元433,用于将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。具体包括:
向量转换子单元4331,用于调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
首先利用LSTM将用户提问同义句句组
Figure 639214DEST_PATH_IMAGE167
,目标文本同义句句组
Figure 94729DEST_PATH_IMAGE168
分别编码成向量。
相似度计算子单元4332,用于基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
然后采用余弦相似度分别计算用户提问同义句句组中的句子
Figure 481848DEST_PATH_IMAGE169
和目标文本同义句 句组中句子
Figure 179545DEST_PATH_IMAGE170
的相似度
Figure 227398DEST_PATH_IMAGE171
,得到如表3所示的相似度矩阵:
Figure 352349DEST_PATH_IMAGE173
表3 相似度矩阵
相似度数值选取子单元4333,用于选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
取相似度矩阵中行的最大值
Figure 226764DEST_PATH_IMAGE174
当 作用户提问同义句句组
Figure 462573DEST_PATH_IMAGE175
的句子
Figure 364932DEST_PATH_IMAGE169
与目标文本同义句句组的相似度,
取相似度矩阵中列的最大值
Figure 660784DEST_PATH_IMAGE176
当作 句子
Figure 819233DEST_PATH_IMAGE177
与用户提问同义句句组的相似度。
最后取
Figure 297881DEST_PATH_IMAGE178
Figure 756545DEST_PATH_IMAGE179
中的最大值作为用户提问
Figure 285615DEST_PATH_IMAGE156
和目标文本
Figure 167245DEST_PATH_IMAGE180
的相似度
Figure 10437DEST_PATH_IMAGE181
将同义句组间的相似度作为用户提问和目标文本的相似度,可以提升相似度的计算结果。
综上,针对客户文本被判断为长文本的情况下,依次执行构建同义句生成模型,调用同义句生成模型得到客户文本同义句句组、目标文本同义句句组,根据得到的两套同义句句组计算相似度FAQ计算。借助句子层面识增强方法利用深度学习的生成模型VAE生成同义句来进行数据增强,使得生成的多个同义句可以从不同的方向扩充单个用户提问和目标文本的语义范围,能够解决数据过少造成的语义表达范围过窄的问题。另外在句子层面知识增强方法中生成的用户提问同义句句组和目标文本同义句组,比直接扩充客户提问和目标文本中的词语得到的客户提问句组和目标文本句组更能扩大客户提问和目标文本的语义表达范围,从而缩小两文本间的距离,提高远距离文本间的相似度。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本示例实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例中所述基于知识增强处理的FAQ相似度计算方法的步骤。所述基于知识增强处理的FAQ相似度计算方法的具体步骤可参考前述实施例中关于上述数据处理步骤的详细描述,此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本示例实施方式中,还提供一种电子设备,该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中所述基于知识增强处理的FAQ相似度计算方法的步骤。该生成方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
图5示出根据本公开示例实施方式中一种电子设备的示意图。例如,装置可以被提供为一服务器或客户端。参照图5,设备包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述方法。
装置800还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置800可以操作基于存储在存储器532的操作***,例如Windows Server TM,Mac OS XTM,Unix TM、Linux TM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (14)

1.基于知识增强处理的FAQ相似度计算方法,其特征在于,所述FAQ相似度计算方法包括:
接收客户文本,确定对应客户文本的目标文本;
对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算;
如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算。
2.根据权利要求1所述的基于知识增强处理的FAQ相似度计算方法,其特征在于,所述对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算,包括:
对客户文本以及目标文本进行分词处理;
选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容;
如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
3.根据权利要求2所述的基于知识增强处理的FAQ相似度计算方法,其特征在于,所述知识分布集合中还设有对应每个同义词组的权重值。
4.根据权利要求1所述的基于知识增强处理的FAQ相似度计算方法,其特征在于,所述生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,包括:
构建同义句生成模型;
基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组;
将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
5.根据权利要求4所述的基于知识增强处理的FAQ相似度计算方法,其特征在于,所述构建同义句生成模型,包括:
构建初始深度学习模型;
在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
6.根据权利要求4所述的基于知识增强处理的FAQ相似度计算方法,其特征在于,所述将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算,包括:
调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
7.基于知识增强处理的FAQ相似度计算装置,其特征在于,所述数据处理装置包括:
文本接收模块,用于接收客户文本,确定对应客户文本的目标文本;
相似度计算模块,用于对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算;
所述相似度计算模块,包括:
相似度第一执行单元,用于如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
相似度第二执行单元,用于如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算。
8.根据权利要求7所述的基于知识增强处理的FAQ相似度计算装置,其特征在于,所述相似度计算模块,包括:
分词处理单元,用于对客户文本以及目标文本进行分词处理;
分词判断单元,用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容;
分词填充单元,用于如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
9.根据权利要求8所述的基于知识增强处理的FAQ相似度计算装置,其特征在于,所述知识分布集合中还设有对应每个同义词组的权重值。
10.根据权利要求7所述的基于知识增强处理的FAQ相似度计算装置,其特征在于,所述相似度第二执行单元,包括:
模型构建子单元,用于构建同义句生成模型;
同义句组合子单元,用于基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组;
内容转换子单元,用于将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
11.根据权利要求10所述的基于知识增强处理的FAQ相似度计算装置,其特征在于,所述模型构建子单元包括:
初始模型构建子单元,用于构建初始深度学习模型;
编码子单元,用于在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
解码子单元,用于在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
模型训练子单元,用于在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
12.根据权利要求10所述的基于知识增强处理的FAQ相似度计算装置,其特征在于,所述内容转换子单元,包括:
向量转换子单元,用于调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
相似度计算子单元,用于基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
相似度数值选取子单元,用于选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述基于知识增强处理的FAQ相似度计算方法的步骤。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求1至6任一项所述基于知识增强处理的FAQ相似度计算方法的步骤。
CN202011060858.9A 2020-09-30 2020-09-30 基于知识增强处理的faq相似度计算方法、装置及电子设备 Active CN111930920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011060858.9A CN111930920B (zh) 2020-09-30 2020-09-30 基于知识增强处理的faq相似度计算方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011060858.9A CN111930920B (zh) 2020-09-30 2020-09-30 基于知识增强处理的faq相似度计算方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111930920A true CN111930920A (zh) 2020-11-13
CN111930920B CN111930920B (zh) 2021-01-19

Family

ID=73333685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011060858.9A Active CN111930920B (zh) 2020-09-30 2020-09-30 基于知识增强处理的faq相似度计算方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111930920B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强***
CN115033701A (zh) * 2022-08-12 2022-09-09 北京百度网讯科技有限公司 文本向量生成模型训练方法、文本分类方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101086843A (zh) * 2006-06-07 2007-12-12 中国科学院自动化研究所 一种应用于语音问答***中的句子相似度识别方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN110888980A (zh) * 2019-10-10 2020-03-17 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111177349A (zh) * 2019-12-20 2020-05-19 厦门快商通科技股份有限公司 问答匹配方法、装置、设备及存储介质
CN111581354A (zh) * 2020-05-12 2020-08-25 金蝶软件(中国)有限公司 一种faq问句相似度计算方法及其***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101086843A (zh) * 2006-06-07 2007-12-12 中国科学院自动化研究所 一种应用于语音问答***中的句子相似度识别方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN110888980A (zh) * 2019-10-10 2020-03-17 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111177349A (zh) * 2019-12-20 2020-05-19 厦门快商通科技股份有限公司 问答匹配方法、装置、设备及存储介质
CN111581354A (zh) * 2020-05-12 2020-08-25 金蝶软件(中国)有限公司 一种faq问句相似度计算方法及其***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强***
CN115033701A (zh) * 2022-08-12 2022-09-09 北京百度网讯科技有限公司 文本向量生成模型训练方法、文本分类方法及相关装置

Also Published As

Publication number Publication date
CN111930920B (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111460264B (zh) 语义相似度匹配模型的训练方法及装置
CN112241626B (zh) 一种语义匹配、语义相似度模型训练方法及装置
CN111930920B (zh) 基于知识增强处理的faq相似度计算方法、装置及电子设备
CN111382573A (zh) 用于答案质量评估的方法、装置、设备和存储介质
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN110188158B (zh) 关键词及话题标签生成方法、装置、介质及电子设备
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN114926835A (zh) 文本生成、模型训练方法和装置
CN112182167B (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN113901200A (zh) 基于主题模型的文本摘要方法、装置及存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN114298055A (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN109446518B (zh) 语言模型的解码方法及解码器
CN112507081B (zh) 相似句匹配方法、装置、计算机设备及存储介质
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及***
CN115718889A (zh) 针对公司简介的行业分类方法及装置
JP2023017983A (ja) 情報生成モデルの訓練方法、情報生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN113704452B (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN111061851B (zh) 基于给定事实的问句生成方法及***
CN114936564A (zh) 一种基于对齐变分自编码的多语言语义匹配方法及***
CN111680515B (zh) 基于ai识别的答案确定方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant