CN110781687A - 相同意图语句的获取方法及装置 - Google Patents

相同意图语句的获取方法及装置 Download PDF

Info

Publication number
CN110781687A
CN110781687A CN201911074041.4A CN201911074041A CN110781687A CN 110781687 A CN110781687 A CN 110781687A CN 201911074041 A CN201911074041 A CN 201911074041A CN 110781687 A CN110781687 A CN 110781687A
Authority
CN
China
Prior art keywords
sentence
sentences
recognized
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911074041.4A
Other languages
English (en)
Other versions
CN110781687B (zh
Inventor
李伟
李彦
亓超
马宇驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Triangle Animal (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Triangle Animal (beijing) Technology Co Ltd filed Critical Triangle Animal (beijing) Technology Co Ltd
Priority to CN201911074041.4A priority Critical patent/CN110781687B/zh
Publication of CN110781687A publication Critical patent/CN110781687A/zh
Application granted granted Critical
Publication of CN110781687B publication Critical patent/CN110781687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种相同意图语句的获取方法及装置,涉及计算机技术领域,能够解决现有技术在进行人机语音交互时,容易导致交互失败的问题。包括:获取目标词向量和目标句向量,目标词向量是待识别语句中各个分词的词向量,目标句向量是待识别语句的句向量;从词向量库中筛选出与目标词向量距离最近的M个词向量;从句向量库中筛选出与目标句向量距离最近的N个句向量;从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句;将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句。

Description

相同意图语句的获取方法及装置
技术领域
本发明实施例涉及计算机技术领域,特别是涉及一种相同意图语句的获取方法及装置。
背景技术
随着互联网技术的发展,人机交互不再仅限于文字交互,更加智能的语音交互技术也不断走向成熟。用户可以与具有语音交互功能的电子设备进行语音交互,例如用户说“小美同学,明天天气如何”,电子设备就会发出语音“明天天气晴朗”作为回应。
电子设备实现语音交互的原理为:接收用户发送的用户语句,通过对用户语句进行分词,然后从数据库中查找包括分词的语句或者包括与分词近义词的语句,或者直接从数据库中查找相似语句。由于近义词和相似语句都是根据历史经验收集的,所以存在局限性。对于用户表达不常见的语句,当数据库中没有存储某分词的近义词或者用户语句的相似语句时,电子设备就无法给予相应的回答,或者答复语句与用户语句回复无关的回答,从而导致语音交互失败。
发明内容
有鉴于此,本发明实施例提供的相同意图语句的获取方法及装置,其目的在于解决现有技术在进行人机语音交互时,容易导致交互失败的问题。
为了解决上述问题,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种相同意图语句的获取方法,所述方法包括:
获取目标词向量和目标句向量,所述目标词向量是待识别语句中各个分词的词向量,所述目标句向量是所述待识别语句的句向量;
从词向量库中筛选出与所述目标词向量距离最近的M个词向量;以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量;其中,M和N均为正整数;
从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句;
将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句。
可选的,在从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句之前,所述方法还包括:
根据预设反义词词库,从所述目标词向量对应的M个词向量中去除与所述目标词向量所表达含义相反的词向量;
和/或,根据预设反义句句库,从所述N个句向量中去除与所述目标句向量所表达含义相反的句向量;
和/或,根据预设同义词词库,为所述目标词向量添加除所述M个词向量以外的同义词的词向量。
可选的,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,所述方法还包括:
根据预设反义词词库,将所述查找出的语句与所述待识别语句进行对比,若存在所述查找出的语句中的词语与所述待识别语句中的词语是反义词,则将所述查找出的语句去除;
和/或,根据预设反义句句库,将与所述待识别语句是反义句的所述查找出的语句去除。
可选的,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,所述方法还包括:
利用预设反义识别模型,识别所述查找出的语句是否与所述待识别语句具有相反含义;
若具有相反含义,则将所述查找出的语句去除。
可选的,所述目标词向量是基于预设向量确定模型确定的所述分词在所述待识别语句中的语境向量。
可选的,当使用预设的至少两种语义相似度算法计算语句的相似度时,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,所述方法还包括:
利用所述预设的至少两种语义相似度算法,分别计算所述查找出的语句与所述待识别语句之间的相似度;
基于预设决策树模型,对基于所述预设的至少两种语义相似度算法计算出的相似度进行整合,得出所述查找出的语句与所述待识别语句的综合相似度;
所述将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句包括:
将所述查找出的语句中与所述待识别语句综合相似度最大的语句确定为与所述待识别语句语义相同的语句。
第二方面,本发明实施例还提供一种相同意图语句的获取装置,所述装置包括:
获取单元,用于获取目标词向量和目标句向量,所述目标词向量是待识别语句中各个分词的词向量,所述目标句向量是所述待识别语句的句向量;
筛选单元,用于从词向量库中筛选出与所述目标词向量距离最近的M个词向量;以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量;其中,M和N均为正整数;
查找单元,用于从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句;
确定单元,用于将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句。
可选的,所述装置还包括以下任一项或几项的组合:第一去除单元、第二去除单元和添加单元;
所述第一去除单元,用于在从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句之前,根据预设反义词词库,从所述目标词向量对应的M个词向量中去除与所述目标词向量所表达含义相反的词向量;
所述第二去除单元,用于根据预设反义句句库,从所述N个句向量中去除与所述目标句向量所表达含义相反的句向量;
所述添加单元,用于根据预设同义词词库,为所述目标词向量添加除所述M个词向量以外的同义词的词向量。
可选的,所述装置还包括第三去除单元和/或第四去除单元;
所述第三去除单元,用于在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,根据预设反义词词库,将所述查找出的语句与所述待识别语句进行对比,若存在所述查找出的语句中的词语与所述待识别语句中的词语是反义词,则将所述查找出的语句去除;
所述第四去除单元,用于根据预设反义句句库,将与所述待识别语句是反义句的所述查找出的语句去除。
可选的,所述装置还包括:
识别单元,用于在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,利用预设反义识别模型,识别所述查找出的语句是否与所述待识别语句具有相反含义;
第五去除单元,用于当具有相反含义时,将所述查找出的语句去除。
可选的,所述目标词向量是基于预设向量确定模型确定的所述分词在所述待识别语句中的语境向量。
可选的,所述装置还包括:
计算单元,用于当使用预设的至少两种语义相似度算法计算语句的相似度时,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,利用所述预设的至少两种语义相似度算法,分别计算所述查找出的语句与所述待识别语句之间的相似度;
整合单元,用于基于预设决策树模型,对基于所述预设的至少两种语义相似度算法计算出的相似度进行整合,得出所述查找出的语句与所述待识别语句的综合相似度;
所述确定单元,用于将所述查找出的语句中与所述待识别语句综合相似度最大的语句确定为与所述待识别语句语义相同的语句。
第三方面,本发明实施例还提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面所述的相同意图语句的获取方法。
第四方面,本发明实施例还提供一种电子设备,所述电子设备包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行第一方面所述的相同意图语句的获取方法。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的相同意图语句的获取方法及装置,能够先获取待识别语句中各个分析的词向量(可称为目标词向量)和待识别语句的句向量(可称为目标句向量),然后从词向量库中筛选出与所述目标词向量距离最近的M个词向量,以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量,再从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句,最后将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句,从而实现相似语句的动态识别,无论用户发出的语句是否是常用语句,电子设备都可以针对该语句识别出相似语句,对所述相似语句作出更加合理的应答,进而提高了交互成功率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种相同意图语句的获取方法的流程图;
图2示出了本发明实施例提供的一种相同意图语句的获取装置的组成框图;
图3示出了本发明实施例提供的另一种相同意图语句的获取装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了提高用户与电子设备语音交互的成功率,本发明实施例提供了一种相同意图语句的获取方法,如图1所示,所述方法包括:
101、获取目标词向量和目标句向量。
其中,所述目标词向量是待识别语句中各个分词的词向量,所述目标句向量是所述待识别语句的句向量。
词向量,又叫Word嵌入是自然语言处理中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。句向量可以用各个分词的词向量计算而得,例如进行加权计算。
此外,随着社会的进步,一些词语的含义不再单一,其可能存在网络含义或者其他特殊含义,例如“苹果”一词,可以代表水果,也可以代表iPhone手机。但仅根据词语本身的词向量查找相近的词向量时,会查找到各种含义的词向量,进而导致查找到的语句含义完全不同。为了提高词向量查找的准确率,可以先获取词语的语境向量,再查找与该语境向量距离最近的M个词向量。即所述目标词向量可以是基于预设向量确定模型确定的所述分词在所述待识别语句中的语境向量。预设向量确定模型可以是一种语言表征模型,如BERT。
例如待识别语句为“苹果***很好用”,利用语境向量搜索距离较近的词时,会偏向于搜索到“安卓”,“三星”等词,而不会搜索到“水果”、“梨”。
102、从词向量库中筛选出与所述目标词向量距离最近的M个词向量;以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量。
其中,M和N均为正整数,M和N可以根据实际经验而定,并且M和N可以相同,也可以不同。词向量库中记录着全网能搜索到的每个词语的向量,可以既包括中文词语的向量,又包括外文词语的向量。在获得目标词向量后,可以计算该目标词向量与词向量库中每个词向量的距离,并根据计算结果,从中筛选出距离最近的M个词向量。句向量库中记录着全网能搜索到的每个句子的向量。在获得目标句向量后,可以计算该目标句向量与句向量库中每个句向量的距离,并根据计算结果,从中筛选出距离最近的N个句向量。
103、从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句。
其中,词向量库和句向量库可以是根据预设的语句库构建的。如在构建词向量库时,可以根据语句库中的语句进行分词,并计算每个分词的词向量构成词向量库;在构建句向量库时,可以计算语句库中每个语句的句向量构成句向量库。
在步骤102筛选出距离相对较近的M个词向量和N个句向量后,可以针对每个词向量,分别从语句库中查找包含该词向量所对应词语的语句,针对每个语向量,分别从语句库中查找该句向量所对应的语句,并将查找到的语句作为候选语句,以便从候选语句中确定出最接近的语句作为与待识别语句意图相同的语句。
104、将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句。
在查找出相近的语句后,可以分别计算查找出的每个语句与待识别语句之间的相似度,并确定相似度最大的语句为与待识别语句语义相同的语句。在确定出与所述待识别语句语义相同的语句后,电子设备可以以确定出的语句为依据,查找对应的答复语句,并播放该答复语句。
本发明实施例提供的相同意图语句的获取方法,能够先获取待识别语句中各个分析的词向量(可称为目标词向量)和待识别语句的句向量(可称为目标句向量),然后从词向量库中筛选出与所述目标词向量距离最近的M个词向量,以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量,再从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句,最后将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句,从而实现相似语句的动态识别,无论用户发出的语句是否是常用语句,电子设备都可以针对该语句识别出相似语句,对所述相似语句作出更加合理的应答,进而提高了交互成功率。
可选的,在实际应用中,向量距离较近的词语可能含义却恰恰相反,当词向量库或者句向量库未及时得到更新,或者本身库存量较少时,从库中筛选出的向量可能还无法得到需求。为了解决上述技术问题,在从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句之前,可以先对步骤102中筛选出的向量进行预处理。
具体包括:(1)根据预设反义词词库,从所述目标词向量对应的M个词向量中去除与所述目标词向量所表达含义相反的词向量;和/或,(2)根据预设反义句句库,从所述N个句向量中去除与所述目标句向量所表达含义相反的句向量;和/或,(3)根据预设同义词词库,为所述目标词向量添加除所述M个词向量以外的同义词的词向量。
也就是说,可以对词向量进行预处理的方法包括(1)(2)(3)中任一项或几项的组合。
例如,“黑”、“白”的词向量距离较近,但两者含义却完全相反,则可以根据预设反义词词库,去除“白”所对应的词向量。待识别语句中有一个分词“苹果手机”,但根据词向量库筛选出的词向量中没有与“苹果手机”同义的“iPhone”,则可以根据预设同义词词库添加上“iPhone”的词向量。
可选的,在实际应用中,一个词语放入语句中时,可能会加入一些否定介词,从而使得语句含义与词语含义存在一定差异。为了提高识别反义句的准确率,可以在从语句库中查找到符合条件的语句之后,对查找到的语句进行反义语句识别。具体实现方法包括但不限于以下两种:
方法一:根据预设反义词词库,将所述查找出的语句与所述待识别语句进行对比,若存在所述查找出的语句中的词语与所述待识别语句中的词语是反义词,则将所述查找出的语句去除;和/或,根据预设反义句句库,将与所述待识别语句是反义句的所述查找出的语句去除。
方法二:利用预设反义识别模型,识别所述查找出的语句是否与所述待识别语句具有相反含义;若具有相反含义,则将所述查找出的语句去除。
当反义词词库和反义句句库的更新效率赶不上语句库的更新效率时,仅凭反义词词库和反义句句库排除不合适的语句可能存在遗漏的情况。并且语句的构成是复杂多变的,仅依据反义词词库和反义句句库进行反义词语和语句匹配,往往存在一定误差。为了提高识别反义句的准确率,可以利用大量已确定的反义语句进行机器自学习,训练出一个反义识别模型,使用该反义识别模型自动识别反义句。该模型可以采用卷积神经网络、循环神经网络等算法。
进一步的,仅采用一种语义相似度算法计算语句的相似度存在的误差相对较差,为了减少误差,提高准确度,可以在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,利用所述预设的至少两种语义相似度算法,分别计算所述查找出的语句与所述待识别语句之间的相似度;基于预设决策树模型,对基于所述预设的至少两种语义相似度算法计算出的相似度进行整合,得出所述查找出的语句与所述待识别语句的综合相似度;将所述查找出的语句中与所述待识别语句综合相似度最大的语句确定为与所述待识别语句语义相同的语句。
其中,预设的语义相似度算法可以包括神经网络算法,例如CNN(ConvolutionalNeural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)、TCN(Temporal Convolutional Network,时间卷积网络)等。此外,当不采用上述实施例中提及的反义识别方法直接去除反义句时,预设的语义相似度算法还可以包括上述实施例中提及的反义识别方法,并为该方法的识别结果配置相似度值,例如相反时,相似度值配置为0,不相反时,相似度值配置为1。
预设决策树模型可以为GBDT(Gradient Boosting Decision Tree,梯度提升决策树)模型,也可以为其他模型,本发明实施例对此不作限定。
进一步的,作为对上述方法的实现,本发明实施例另一实施例还提供了一种相同意图语句的获取装置,如图2所示,所述装置包括:
获取单元21,用于获取目标词向量和目标句向量,所述目标词向量是待识别语句中各个分词的词向量,所述目标句向量是所述待识别语句的句向量;
筛选单元22,用于从词向量库中筛选出与所述目标词向量距离最近的M个词向量;以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量;其中,M和N均为正整数;
查找单元23,用于从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句;
确定单元24,用于将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句。
可选的,如图3所示,所述装置还包括以下任一项或几项的组合:第一去除单元25、第二去除单元26和添加单元27;
所述第一去除单元25,用于在从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句之前,根据预设反义词词库,从所述目标词向量对应的M个词向量中去除与所述目标词向量所表达含义相反的词向量;
所述第二去除单元26,用于根据预设反义句句库,从所述N个句向量中去除与所述目标句向量所表达含义相反的句向量;
所述添加单元27,用于根据预设同义词词库,为所述目标词向量添加除所述M个词向量以外的同义词的词向量。
可选的,如图3所示,所述装置还包括第三去除单元28和/或第四去除单元29;
所述第三去除单元28,用于在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,根据预设反义词词库,将所述查找出的语句与所述待识别语句进行对比,若存在所述查找出的语句中的词语与所述待识别语句中的词语是反义词,则将所述查找出的语句去除;
所述第四去除单元29,用于根据预设反义句句库,将与所述待识别语句是反义句的所述查找出的语句去除。
可选的,如图3所示,所述装置还包括:
识别单元210,用于在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,利用预设反义识别模型,识别所述查找出的语句是否与所述待识别语句具有相反含义;
第五去除单元211,用于当具有相反含义时,将所述查找出的语句去除。
可选的,所述目标词向量是基于预设向量确定模型确定的所述分词在所述待识别语句中的语境向量。
可选的,如图3所示,所述装置还包括:
计算单元212,用于当使用预设的至少两种语义相似度算法计算语句的相似度时,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,利用所述预设的至少两种语义相似度算法,分别计算所述查找出的语句与所述待识别语句之间的相似度;
整合单元213,用于基于预设决策树模型,对基于所述预设的至少两种语义相似度算法计算出的相似度进行整合,得出所述查找出的语句与所述待识别语句的综合相似度;
所述确定单元24,用于将所述查找出的语句中与所述待识别语句综合相似度最大的语句确定为与所述待识别语句语义相同的语句。
本发明实施例提供的相同意图语句的获取装置,能够先获取待识别语句中各个分析的词向量(可称为目标词向量)和待识别语句的句向量(可称为目标句向量),然后从词向量库中筛选出与所述目标词向量距离最近的M个词向量,以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量,再从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句,最后将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句,从而实现相似语句的动态识别,无论用户发出的语句是否是常用语句,电子设备都可以针对该语句识别出相似语句,对作出更加合理的应答,进而提高了交互成功率。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上所述的相同意图语句的获取方法。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种电子设备,所述电子设备包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行如上所述的相同意图语句的获取方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种相同意图语句的获取方法,其特征在于,所述方法包括:
获取目标词向量和目标句向量,所述目标词向量是待识别语句中各个分词的词向量,所述目标句向量是所述待识别语句的句向量;
从词向量库中筛选出与所述目标词向量距离最近的M个词向量;以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量;其中,M和N均为正整数;
从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句;
将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句。
2.根据权利要求1所述的方法,其特征在于,在从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句之前,所述方法还包括:
根据预设反义词词库,从所述目标词向量对应的M个词向量中去除与所述目标词向量所表达含义相反的词向量;
和/或,根据预设反义句句库,从所述N个句向量中去除与所述目标句向量所表达含义相反的句向量;
和/或,根据预设同义词词库,为所述目标词向量添加除所述M个词向量以外的同义词的词向量。
3.根据权利要求1所述的方法,其特征在于,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,所述方法还包括:
根据预设反义词词库,将所述查找出的语句与所述待识别语句进行对比,若存在所述查找出的语句中的词语与所述待识别语句中的词语是反义词,则将所述查找出的语句去除;
和/或,根据预设反义句句库,将与所述待识别语句是反义句的所述查找出的语句去除。
4.根据权利要求1所述的方法,其特征在于,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,所述方法还包括:
利用预设反义识别模型,识别所述查找出的语句是否与所述待识别语句具有相反含义;
若具有相反含义,则将所述查找出的语句去除。
5.根据权利要求1所述的方法,其特征在于,所述目标词向量是基于预设向量确定模型确定的所述分词在所述待识别语句中的语境向量。
6.根据权利要求1-5中任一项所述的方法,其特征在于,当使用预设的至少两种语义相似度算法计算语句的相似度时,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,所述方法还包括:
利用所述预设的至少两种语义相似度算法,分别计算所述查找出的语句与所述待识别语句之间的相似度;
基于预设决策树模型,对基于所述预设的至少两种语义相似度算法计算出的相似度进行整合,得出所述查找出的语句与所述待识别语句的综合相似度;
所述将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句包括:
将所述查找出的语句中与所述待识别语句综合相似度最大的语句确定为与所述待识别语句语义相同的语句。
7.一种相同意图语句的获取装置,其特征在于,所述装置包括:
获取单元,用于获取目标词向量和目标句向量,所述目标词向量是待识别语句中各个分词的词向量,所述目标句向量是所述待识别语句的句向量;
筛选单元,用于从词向量库中筛选出与所述目标词向量距离最近的M个词向量;以及从句向量库中筛选出与所述目标句向量距离最近的N个句向量;其中,M和N均为正整数;
查找单元,用于从语句库中查找包含筛选出的词向量所对应词语的语句,以及从所述语句库中查找筛选出的句向量所对应的语句;
确定单元,用于将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
计算单元,用于当使用预设的至少两种语义相似度算法计算语句的相似度时,在将查找出的语句中与所述待识别语句最相似的语句确定为与所述待识别语句语义相同的语句之前,利用所述预设的至少两种语义相似度算法,分别计算所述查找出的语句与所述待识别语句之间的相似度;
整合单元,用于基于预设决策树模型,对基于所述预设的至少两种语义相似度算法计算出的相似度进行整合,得出所述查找出的语句与所述待识别语句的综合相似度;
所述确定单元,用于将所述查找出的语句中与所述待识别语句综合相似度最大的语句确定为与所述待识别语句语义相同的语句。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任一项所述的相同意图语句的获取方法。
10.一种电子设备,其特征在于,所述电子设备包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行权利要求1至6中任一项所述的相同意图语句的获取方法。
CN201911074041.4A 2019-11-06 2019-11-06 相同意图语句的获取方法及装置 Active CN110781687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911074041.4A CN110781687B (zh) 2019-11-06 2019-11-06 相同意图语句的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911074041.4A CN110781687B (zh) 2019-11-06 2019-11-06 相同意图语句的获取方法及装置

Publications (2)

Publication Number Publication Date
CN110781687A true CN110781687A (zh) 2020-02-11
CN110781687B CN110781687B (zh) 2021-07-06

Family

ID=69389463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911074041.4A Active CN110781687B (zh) 2019-11-06 2019-11-06 相同意图语句的获取方法及装置

Country Status (1)

Country Link
CN (1) CN110781687B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035598A (zh) * 2020-11-03 2020-12-04 北京淇瑀信息科技有限公司 一种智能语义检索方法、***和电子设备
CN112115709A (zh) * 2020-09-16 2020-12-22 北京嘀嘀无限科技发展有限公司 实体识别方法、装置、存储介质和电子设备
CN112257430A (zh) * 2020-03-27 2021-01-22 北京来也网络科技有限公司 结合rpa和ai的语句处理方法、电子设备和存储介质
CN112256845A (zh) * 2020-09-14 2021-01-22 北京三快在线科技有限公司 意图识别方法、装置、电子设备和计算机可读存储介质
CN113343708A (zh) * 2021-06-11 2021-09-03 北京声智科技有限公司 一种基于语义实现语句泛化的方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202543A (zh) * 2016-07-27 2016-12-07 苏州家佳宝妇幼医疗科技有限公司 基于机器学习的本体匹配方法和***
JP2018032213A (ja) * 2016-08-24 2018-03-01 シャープ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答***及其工作方法
CN109844743A (zh) * 2017-06-26 2019-06-04 微软技术许可有限责任公司 在自动聊天中生成响应
CN109871437A (zh) * 2018-11-30 2019-06-11 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
CN110046242A (zh) * 2019-04-22 2019-07-23 北京六行君通信息科技股份有限公司 一种自动应答装置及方法
CN110083809A (zh) * 2019-03-16 2019-08-02 平安城市建设科技(深圳)有限公司 合同条款相似度计算方法、装置、设备及可读存储介质
CN110188330A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 确定相似文本信息的方法、装置、电子设备及存储介质
US20190332677A1 (en) * 2018-04-30 2019-10-31 Samsung Electronics Co., Ltd. Multilingual translation device and method
CN110413750A (zh) * 2019-07-15 2019-11-05 阿里巴巴集团控股有限公司 根据用户问句召回标准问句的方法和装置
CN110413992A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种语义分析识别方法、***、介质和设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202543A (zh) * 2016-07-27 2016-12-07 苏州家佳宝妇幼医疗科技有限公司 基于机器学习的本体匹配方法和***
JP2018032213A (ja) * 2016-08-24 2018-03-01 シャープ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN109844743A (zh) * 2017-06-26 2019-06-04 微软技术许可有限责任公司 在自动聊天中生成响应
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***
US20190332677A1 (en) * 2018-04-30 2019-10-31 Samsung Electronics Co., Ltd. Multilingual translation device and method
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答***及其工作方法
CN109871437A (zh) * 2018-11-30 2019-06-11 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
CN110083809A (zh) * 2019-03-16 2019-08-02 平安城市建设科技(深圳)有限公司 合同条款相似度计算方法、装置、设备及可读存储介质
CN110046242A (zh) * 2019-04-22 2019-07-23 北京六行君通信息科技股份有限公司 一种自动应答装置及方法
CN110188330A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 确定相似文本信息的方法、装置、电子设备及存储介质
CN110413992A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种语义分析识别方法、***、介质和设备
CN110413750A (zh) * 2019-07-15 2019-11-05 阿里巴巴集团控股有限公司 根据用户问句召回标准问句的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOHAO YANG 等: "Semi-supervised learning of dialogue acts using sentence similarity based on word embeddings", 《2014 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING》 *
杨靖云: "高考历史简答题自动评价方法研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257430A (zh) * 2020-03-27 2021-01-22 北京来也网络科技有限公司 结合rpa和ai的语句处理方法、电子设备和存储介质
CN112256845A (zh) * 2020-09-14 2021-01-22 北京三快在线科技有限公司 意图识别方法、装置、电子设备和计算机可读存储介质
CN112115709A (zh) * 2020-09-16 2020-12-22 北京嘀嘀无限科技发展有限公司 实体识别方法、装置、存储介质和电子设备
CN112115709B (zh) * 2020-09-16 2021-06-04 北京嘀嘀无限科技发展有限公司 实体识别方法、装置、存储介质和电子设备
CN112035598A (zh) * 2020-11-03 2020-12-04 北京淇瑀信息科技有限公司 一种智能语义检索方法、***和电子设备
CN113343708A (zh) * 2021-06-11 2021-09-03 北京声智科技有限公司 一种基于语义实现语句泛化的方法和装置

Also Published As

Publication number Publication date
CN110781687B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN110781687B (zh) 相同意图语句的获取方法及装置
US11531818B2 (en) Device and method for machine reading comprehension question and answer
CN108711422B (zh) 语音识别方法、装置、计算机可读存储介质和计算机设备
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
US11210470B2 (en) Automatic text segmentation based on relevant context
CN108648747B (zh) 语种识别***
CN109460459B (zh) 一种基于日志学习的对话***自动优化方法
CN110597966A (zh) 自动问答方法及装置
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN110473527B (zh) 一种语音识别的方法和***
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和***
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN112417093A (zh) 一种模型训练的方法及装置
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN112256841B (zh) 文本匹配和对抗文本识别方法、装置及设备
CN115858776B (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN114254622B (zh) 一种意图识别方法和装置
CN115858780A (zh) 一种文本聚类方法、装置、设备及介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200804

Address after: 518000 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: 100029, Beijing, Chaoyang District new East Street, building No. 2, -3 to 25, 101, 8, 804 rooms

Applicant before: Tricorn (Beijing) Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant