CN108874917B - 意图识别方法、装置、设备及存储介质 - Google Patents

意图识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108874917B
CN108874917B CN201810540100.1A CN201810540100A CN108874917B CN 108874917 B CN108874917 B CN 108874917B CN 201810540100 A CN201810540100 A CN 201810540100A CN 108874917 B CN108874917 B CN 108874917B
Authority
CN
China
Prior art keywords
template
character string
dbqa
standard
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810540100.1A
Other languages
English (en)
Other versions
CN108874917A (zh
Inventor
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 58 Information Technology Co Ltd
Original Assignee
Beijing 58 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 58 Information Technology Co Ltd filed Critical Beijing 58 Information Technology Co Ltd
Priority to CN201810540100.1A priority Critical patent/CN108874917B/zh
Publication of CN108874917A publication Critical patent/CN108874917A/zh
Application granted granted Critical
Publication of CN108874917B publication Critical patent/CN108874917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种意图识别方法、装置、设备及存储介质,所述意图识别方法包括:响应意图数据;根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;根据匹配的结果,识别所述意图数据所表示的语义。本发明有效提高了用户意图识别的准确率,有效降低了DBQA模板的实现复杂度,有效提高了编译效率。

Description

意图识别方法、装置、设备及存储介质
技术领域
本发明涉及计算机领域,特别是涉及一种意图识别方法、装置、设备及存储介质。
背景技术
现有的DBQA(Document-Base Question Answering,基于文档的问答)***或智能客服***一般结合机器学习和自然语言处理两种技术,或利用EBQA将用户输入句子和知识库中的句子进行字面的硬匹配;或利用单一的Fasttext文本分类技术、基于多粒度特征序列融合的BOWSA(Bag-Of-Words Semantic Analysis,词袋语义分析)方法来识别用户输入文本的意图。
但是,现有DBQA***或智能客服***实现复杂,并且对于用户意图识别的准确率有待提高。
发明内容
为了克服上述缺陷,本发明要解决的技术问题是提供一种意图识别方法、装置、设备及存储介质,用以至少提高用户意图识别的准确率。
为解决上述技术问题,本发明实施例中的一种意图识别方法,包括:
响应意图数据;
根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;
根据匹配的结果,识别所述意图数据所表示的语义。
可选地,所述词法模板包括多个词条模板;其中,每个词条模板包括用于描述预设的标准含义的目标字符串和与所述目标字符串对应的目标字符串集合;所述目标字符串集合包括与所述标准含义的意义相同、相近或关联的字符串;
所述句法模板包括预设的多个标准问题以及在每个标准问题下的一个或多个句型模板;其中,每个句型模板由引用运算符和与所述每个标准问题相关的目标字符串构成。
可选地,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,包括:
根据每个标准含义,获取与所述每个标准含义对应的目标字符串和目标字符串集合;
在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符,以建立每个目标字符串的词条模板;
根据建立的各个目标字符串的词条模板生成所述词法模板。
可选地,所述在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符之后,包括:
在所述对应的目标字符串集合中的各个字符串之间设置或运算符。
可选地,所述在所述对应的目标字符串集合中的各个字符串之间设置或运算符之后,包括:
对所述对应的目标字符串集合中的一个或多个字符串设置正则运算符;
其中,每个字符串包括以下一种或多种:词、词组、多个词组的组合、字符串和多个字符串的组合;所述每个字符串的类型包括以下一种或多种:句型词、功能词、虚词、标点、实体词、前置否定词和后置否定词;与所述每个目标字符串相应的词条模板为一个或多个。
可选地,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,包括:
获取与所述每个标准问题相关的目标字符串;
在所述相关的目标字符串中确定所述每个标准问题的核心字符串和匹配字符串,所述核心字符串用于将意图数据分类到一个标准问题,所述匹配字符串用于匹配意图数据;
根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板;
根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板;
根据建立的各个标准问题模板和句型模板生成所述句法模板。
可选地,所述核心字符串为一个或多个;所述根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板,包括:
对所述每个标准问题设置标准问题标识;
对每个核心字符串设置引用运算符;
在设置标准问题标识的每个标准问题与设置引用运算符的各个核心字符串之间设置赋值运算符,以建立所述每个标准问题模板。
可选地,所述匹配字符串为一个或多个;所述根据所述引用运算符和所述匹配字符串,建立所述每个标准问题模板下的一个或多个句型模板,包括:
对每个匹配字符串设置引用运算符,以建立一个匹配项;
在各个匹配项之间设置与运算符,以建立所述每个标准问题模板下的一个或多个句型模板。
可选地,所述在各个匹配项之间设置与运算符之后,包括:
根据每个匹配项确定一个或多个子匹配项;
在所述一个或多个子匹配项之间设置或运算符。
可选地,所述根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板之后,包括:
在每个句型模板中设置词法和语法的前后缀;和/或
在每个句型模板的头部设置依存句法标签。
可选地,所述根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板之后,包括:
替换核心字符串,生成新的句法模板。
可选地,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,包括:
对所述词法模板和所述句法模板进行编译;
根据所述编译,将与所述核心字符串和所述匹配字符串对应的目标字符串集合分别引入相应的每个标准问题模板和每个句型模板中,以生成每个DBQA标准问题模板和每个DBQA标准问题模板下的一个或多个DBQA句型模板;
根据生成的DBQA标准问题模板和DBQA句型模板,生成所述DBQA模板。
可选地,所述根据匹配的结果,识别所述意图数据所表示的语义,包括:
将所述意图数据与所述每个DBQA标准问题模板的目标字符串集合进行匹配,匹配出相应的核心字符串;
根据所述相应的核心字符串,确定对应的DBQA标准问题模板;
根据所述对应的DBQA标准问题模板,确定对应的标准问题;
在所述对应的标准问题下,将所述意图数据与所述一个或多个DBQA句型模板的目标字符串集合进行匹配,匹配出相应的匹配字符串;
根据所述相应的匹配字符串,确定对应的DBQA句型模板;
根据所述对应的DBQA句型模板和所述相应的匹配字符串的标准含义,识别所述意图数据所表示的语义。
可选地,所述方法还包括:
根据匹配率、预设的一个或多个正则项和与每个正则项对应的权重系数确定所述对应的DBQA标准问题模板中每个DBQA标准问题模板的分数和/或所述对应的DBQA句型模板中每个DBQA句型模板的分数;
根据所述每个DBQA标准问题模板的分数和预设的第一匹配数量,从所述对应的DBQA标准问题模板中选取最优的DBQA标准问题模板;
根据所述每个DBQA句型模板的分数和预设的第二匹配数量,从所述对应的DBQA句型模板中选取最优的DBQA句型模板。
可选地,所述方法还包括:
根据开闭原则,对所述词法模板和所述句法模板进行更新。
为解决上述技术问题,本发明实施例中的一种意图识别装置,包括:
响应模块,用于响应意图数据;
匹配模块,用于根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;
识别模块,用于根据匹配的结果,识别所述意图数据所表示的语义。
可选地,所述词法模板包括多个词条模板;其中,每个词条模板包括用于描述预设的标准含义的目标字符串和与所述目标字符串对应的目标字符串集合;所述目标字符串集合包括与所述标准含义的意义相同、相近或关联的字符串;
所述句法模板包括预设的多个标准问题以及在每个标准问题下的一个或多个句型模板;其中,每个句型模板由引用运算符和与所述每个标准问题相关的目标字符串构成。
可选地,所述装置还包括:
词法生成模块,用于根据每个标准含义,获取与所述每个标准含义对应的目标字符串和目标字符串集合;在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符,以建立每个目标字符串的词条模板;根据建立的各个目标字符串的词条模板生成所述词法模板。
可选地,所述词法生成模块在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符之后,还用于在所述对应的目标字符串集合中的各个字符串之间设置或运算符。
可选地,所述词法生成模块在所述对应的目标字符串集合中的各个字符串之间设置或运算符之后,还用于对所述对应的目标字符串集合中的一个或多个字符串设置正则运算符;
其中,每个字符串包括以下一种或多种:词、词组、多个词组的组合、字符串和多个字符串的组合;所述每个字符串的类型包括以下一种或多种:句型词、功能词、虚词、标点、实体词、前置否定词和后置否定词;与所述每个目标字符串相应的词条模板为一个或多个。
可选地,所述装置还包括:
句法生成模块,用于获取与所述每个标准问题相关的目标字符串;在所述相关的目标字符串中确定所述每个标准问题的核心字符串和匹配字符串,所述核心字符串用于将意图数据分类到一个标准问题,所述匹配字符串用于匹配意图数据;根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板;根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板;根据建立的各个标准问题模板和句型模板生成所述句法模板。
可选地,所述核心字符串为一个或多个;所述句法生成模块在根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板时,具体用于对所述每个标准问题设置标准问题标识;对每个核心字符串设置引用运算符;在设置标准问题标识的每个标准问题与设置引用运算符的各个核心字符串之间设置赋值运算符,以建立所述每个标准问题模板。
可选地,所述匹配字符串为一个或多个;所述句法生成模块在根据所述引用运算符和所述匹配字符串,建立所述每个标准问题模板下的一个或多个句型模板时,具体用于对每个匹配字符串设置引用运算符,以建立一个匹配项;在各个匹配项之间设置与运算符,以建立所述每个标准问题模板下的一个或多个句型模板。
可选地,所述句法生成模块在各个匹配项之间设置与运算符之后,还用于根据每个匹配项确定一个或多个子匹配项;在所述一个或多个子匹配项之间设置或运算符。
可选地,所述句法生成模块在根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板之后,还用于在每个句型模板中设置词法和语法的前后缀;和/或,在每个句型模板的头部设置依存句法标签。
可选地,所述句法生成模块在根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板之后,还用于替换核心字符串,生成新的句法模板。
可选地,所述装置还包括:
编译模块,用于对所述词法模板和所述句法模板进行编译;根据所述编译,将与所述核心字符串和所述匹配字符串对应的目标字符串集合分别引入相应的每个标准问题模板和每个句型模板中,以生成每个DBQA标准问题模板和每个DBQA标准问题模板下的一个或多个DBQA句型模板;根据生成的DBQA标准问题模板和DBQA句型模板,生成所述DBQA模板。
可选地,所述识别模块,具体用于将所述意图数据与所述每个DBQA标准问题模板的目标字符串集合进行匹配,匹配出相应的核心字符串;根据所述相应的核心字符串,确定对应的DBQA标准问题模板;根据所述对应的DBQA标准问题模板,确定对应的标准问题;在所述对应的标准问题下,将所述意图数据与所述一个或多个DBQA句型模板的目标字符串集合进行匹配,匹配出相应的匹配字符串;根据所述相应的匹配字符串,确定对应的DBQA句型模板;根据所述对应的DBQA句型模板和所述相应的匹配字符串的标准含义,识别所述意图数据所表示的语义。
可选地,所述装置还包括:
选取模块,用于根据匹配率、预设的一个或多个正则项和与每个正则项对应的权重系数确定所述对应的DBQA标准问题模板中每个DBQA标准问题模板的分数和/或所述对应的DBQA句型模板中每个DBQA句型模板的分数;根据所述每个DBQA标准问题模板的分数和预设的第一匹配数量,从所述对应的DBQA标准问题模板中选取最优的DBQA标准问题模板;根据所述每个DBQA句型模板的分数和预设的第二匹配数量,从所述对应的DBQA句型模板中选取最优的DBQA句型模板。
可选地,所述装置还包括:
更新模块,用于根据开闭原则,对所述词法模板和所述句法模板进行更新。
为解决上述技术问题,本发明实施例中的一种意图识别设备包括存储器和处理器,所述存储器存储有意图识别计算机程序,所述处理器执行所述计算机程序,以实现如上任意一项所述方法的步骤。
为解决上述技术问题,本发明实施例中的一种计算机可读存储介质存储有意图识别计算机程序,所述计算机程序被至少一个所述处理器执行时,以实现如上中任意一项所述方法的步骤。
本发明有益效果如下:
本发明实施例通过由词法模板和句法模板构成的DBQA模板对意图数据进行匹配,有效提高了用户意图识别的准确率;并且通过将词法模板和句法模板编译生成DBQA模板,实现了词法模板和句法模板的解耦,有效降低了DBQA模板的实现复杂度,有效提高了编译效率。
附图说明
图1是本发明实施例中一种意图识别方法的主流程图;
图2是本发明实施例中一种DBQA模板与BOWSA模板的连接示意图;
图3是本发明实施例中又一种DBQA模板与BOWSA模板的连接示意图;
图4是本发明实施例中一种可选地意图识别方法的流程图;
图5是本发明实施例中另一种可选地意图识别方法的流程图;
图6是本发明实施例中又一种可选地意图识别方法的流程图;
图7是本发明实施例中一种意图识别装置的结构示意图;
图8是本发明实施例中一种意图识别设备的结构示意图。
具体实施方式
为了解决现有技术的问题,本发明提供了一种意图识别方法、装置、设备及存储介质,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
使用用于区分元件的诸如“第一”、“第二”等前缀仅为了有利于本发明的说明,其本身没有特定的意义。
实施例一
本发明实施例提供一种意图识别方法,如图1所示,所述方法包括:
S101,响应意图数据;
S102,根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;
S103,根据匹配的结果,识别所述意图数据所表示的语义。
本发明实施例中词法模板和句法模板为预先生成的;本发明实施例中意图数据,可以是用户输入的文本/句子。
本发明实施例通过由词法模板和句法模板编译成的DBQA模板对意图数据进行匹配,有效提高了用户意图识别的准确率;并且通过将词法模板和句法模板编译生成DBQA模板,实现了词法模板和句法模板的解耦,有效降低了DBQA模板的实现复杂度,有效提高了编译效率。
详细地,本发明实施例中词法模板和句法模板来自对数据实例的归纳,可以举一反三、具有一定的泛化能力。而现有通过实例库/知识库进行意图识别时,实例库/知识库的缺点是有一得一,不具备泛化能力。虽然现有通过模型进行意图识别时,具有一定的泛化能力,但是不如本发明实施例中DBQA模板对意图数据的描述更直接、更准确。
本发明实施例中DBQA模板为两层模板,分别是词法模板和句法模板。词法模板用来描述词法知识,句法模板用来表示句法知识,从而可以实现在生成DBQA模板时,词法知识和句法知识可以解除耦合,可以分别维护、扩充。
两层模板的编写生成都是基于已标注数据的归纳,只需要基本的语文水平、门槛较低,不像机器翻译领域那样需要语言学家写模板。本发明实施例中DBQA模板的规则书写是轻量级的,模板的生成比较快。
基于此,本发明实施例可以有效解决下述现有问题。
现有的DBQA***或智能客服***一般结合机器学习和自然语言处理两种技术,或利用EBQA,将用户输入句子和知识库中的句子进行字面的硬匹配;或利用单一的Fasttext文本分类技术、基于多粒度特征序列融合的BOWSA方法来识别用户输入文本的意图。
例如,现有的EBQA方法,需要用户输入和库中句子在字面上的完全匹配,而不是模糊匹配。即使只针对一种意图或一种句型,有时库中的句子也无法覆盖用户在线上输入的多样性。而本发明实施例中通过词法模板和句法模板的解耦,通过词法模板和句法模板的编译生成DBQA模板,从而可以有效匹配用户的意图数据的多样性,进而可以有效提高意图识别准确率。
比如,现有的模型方法(Fasttext或BOWSA),虽然也可以利用同义词、近义词、关键词、核心词、停用词、最佳匹配BM25、编辑距离、分词、词性、命名体、短语搭配、依存关系、句法树、从句、分句等语言学知识,但通常是通过各种统计方法、深度学习和NLP(Naturallanguage processing,自然语言处理)的方法来预测这些知识的,而不是由人工直接地、准确地书写出这些知识,所以难免有误差或错误。这种误差或错误还会扩散、影响到后续的问题分类或意图匹配的准确性。
又如,现有的模型方法,错误分析(error analysis)有时无从下手,因为模型有点像黑盒子,许多参数共同决定了分类结果,有时算法错误(bad case)的解决是不太直观、不太容易;而本发明实施例中词法模板和句法模板的解耦可以有效解决该问题。
再如,现有的模型方法,当线上数据的标注量增长时,或某些训练数据的标签发生修订时,需要利用全部训练数据重新训练模型,而不是在原有模型的基础上增量式地扩展;现有的模型方法依赖于各种知识和阈值,参数的调整依赖于数据本身和工程经验,线上数据发生变化时,需要重新调整各种参数和阈值。而本发明实施例通道DBQA模板有效避免重新调整的情况,可以在现有DBQA模板的基础上进行增量使扩展,而且不需要依赖阈值,还不需要过多的工程经验。
在一些实施例中,可以根据开闭原则,对所述词法模板和所述句法模板进行更新。也就是说本发明实施例中DBQA模板符合开闭原则:对扩展是开放的,可以不断补充新的词法知识、句法知识、新模板;对修改是封闭的,新增模板时,不需要修改已有的旧模板。
在一些实施例中,可以通过GNU make命令将词法模板和句法模板编译成DBQA模板,其中GNU make为Unix/Linux***中的一个编译命令。
例如,在本发明实施例中,可以使词法模板和句法模板符合正则表达式的语法,句法模板中的每个句型模板可以套用了Unix/Linux中的Makefile的格式,从而可以利用GNUmake命令来编译,利用词法模板、把每个句型模板展开成一个更大的正则表达式,再送给正则表达式解析器来做用户输入和句型模板的匹配。利用GNU make命令来编译,实现了词法模板和句法模板的解耦,编译效率高。本发明实施例中每个句型模板也可以称为单条make语句,每个单条make语句描述一个特定的句型。
在一些实施例中,所述词法模板包括多个词条模板;其中,每个词条模板包括用于描述预设的标准含义的目标字符串和与所述目标字符串对应的目标字符串集合;所述目标字符串集合包括与所述标准含义的意义相同、相近或关联的字符串。
在一些实施例中,所述句法模板包括预设的多个标准问题以及在每个标准问题下的一个或多个句型模板;其中,每个句型模板由引用运算符和与所述每个标准问题相关的目标字符串构成。
在一些实施例中,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,可以包括:
根据每个标准含义,获取与所述每个标准含义对应的目标字符串和目标字符串集合;
在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符,以建立每个目标字符串的词条模板;
根据建立的各个目标字符串的词条模板生成所述词法模板。
基于上述实施例生成的词法模板可以达到很高的匹配覆盖率。
在一些实施例中,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,还可以包括:
获取与所述每个标准问题相关的目标字符串;
在所述相关的目标字符串中确定所述每个标准问题的核心字符串和匹配字符串,所述核心字符串用于将意图数据分类到一个标准问题,所述匹配字符串用于匹配意图数据;
根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板;
根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板;
根据建立的各个标准问题模板和句型模板生成所述句法模板。
基于上述实施例生成的句法模板、句型模板可阅读性很强,便于维护和修改、扩展,适合多人编辑团队的合作和校对;并且逻辑简单,可以有效提高意图识别的效率。
在一些实施例中,也可以根据匹配的结果,识别出所述意图数据的自然语言处理NLP特征标签和/或候选的问题模板及对应分数;其中候选的问题模板在本发明实施例中也可以表述为候选分类标签。
也就是说,本发明实施例中通过DBQA模板可以直接决定意图识别的最佳候选或多候选分类标签;也可以把候选分类标签和分数送给BOWSA方法做分数层次上的融合;还可以输出NLP特征标签、作为特征送给BOWSA方法做特征层次上的融合;也可以在匹配输出的候选分类标签后串联其他的BOWSA模型做多遍排序。
例如,将DBQA模板与其他BOWSA模型串联,如图2所示,与输入句子(即意图数据)匹配上的句型候选(即候选分类标签)再被后续的BOWSA模型进行重新排序。后面的BOWSA可以利用前者尚未用到的多粒度特征序列、对前者输出的候选进行重新排序。在串联结构中,候选分类标签的数目逐级呈漏斗状减少,优中选优。而DBQA模板匹配输出的候选通常比较少、个位数,相当于一个非常严苛的拒识手段、只保留少数几个候选。
又如,如图3所示,DBQA模板匹配与其他BOWSA模型的并联,DBQA模板匹配输出的综合分数也可以和其他分类模型的分数一起,做分数层面的融合。即多粒度特征序列、通过模板和多个BOWSA、在分数级别上进行融合。其中图2、3中的规则模板即为本发明实施例中的DBQA模板。
实施例二
本发明实施例提供一种意图识别方法,如图4所示,所述方法包括:
S201,响应意图数据;
S202,建立词法模板和句法模板;可选地,建立词法模板包括:根据每个标准含义,获取与所述每个标准含义对应的目标字符串和目标字符串集合;在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符,以建立每个目标字符串的词条模板;根据建立的各个目标字符串的词条模板生成所述词法模板;
S203,根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;
S204,根据匹配的结果,识别所述意图数据所表示的语义。
在本发明实施例中可以根据每个标准含义确定对应的目标字符串,目标字符串可以是以下一种或多种:词、词组、多个词组的组合、字符串和多个字符串的组合;也就是说,本发明实施例中每个目标字符串代表着一个标准含义,如果意图数据中有对应的目标字符串,就可以识别出对应的标准含义。又如,当目标字符串是一个词的时候,目标字符串结合可以是该词、该词的同义词和近义词以及与该词关联的词。其中一个词法模板可以包括多个词条模板。
本发明实施例中用标准含义的英文翻译作为目标字符串,从而可以有效增加词法模板的可读性。本发明实施例中目标字符串可以是预先基于意图识别场景设置的一些词。
本发明实施例中通过获取与所述标准含义的意义相同、相近或关联的字符串,从而构成与所述每个标准含义对应的目标字符串集合,从而可以有效的穷举、枚举出目标字符串集合,从而使词法模板可以达到很高的匹配覆盖率。其中目标字符串集合中也包括目标字符串本身。
在一些实施例中,所述在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符之后,也可以包括:
在所述对应的目标字符串集合中的各个字符串之间设置或运算符。
本发明实施例中通过目标字符串集合,有效增加了用于与意图数据匹配的字符串的数量,有效的提高了意图数据的可匹配性,通过或运算符有效降低了词法模板实现逻辑。
在一些实施例中,所述在所述对应的目标字符串集合中的各个字符串之间设置或运算符之后,也可以包括:
对所述对应的目标字符串集合中的一个或多个字符串设置正则运算符。
本发明实施例通过正则运算符进一步增加了用于与意图数据匹配的字符串的数量,进一步有效的提高了意图数据的可匹配性。
在一些实施例中,每个字符串和每个目标字符串包括以下一种或多种:词、词组、多个词组的组合、字符串和多个字符串的组合;所述每个字符串和每个目标字符串的类型包括以下一种或多种:句型词、功能词、虚词、标点、实体词、前置否定词和后置否定词;与所述每个目标字符串相应的词条模板为一个或多个。
以目标字符串属于一个目标词为例,对本发明实施例中的词法模板进行简单描述。
例如,下面是词法模板(dict.txt)的一个片段例子,每一行就是一个词条模板,赋值运算符=的左边是描述一个标准含义的目标词,右边是该目标词的同义词、近义词、关联词的“或”运算:
#-*-coding:utf-8-*-;
#句型词、功能词、虚词;
标点=\?|\.|!|?|、|…|!|,|;|,|;|+|:|·|。|;
do=请客服帮我|请帮忙看看|请尽快处理|想让管理员|请告诉我|请您帮我|麻烦客服|希望帮忙;
do-not=请勿|不要|别|勿;
how=怎么办|怎么样|要怎样|咋样能|怎么弄|该如何|要怎么|怎木|怎样|怎么|咋弄|咋办|怎麽|如何;
how-long=多长时间|多久;
if=可以不可以|是否需要|需不需要|可不可以|是否可以|是不是|能不能|能否|可否|可以|需要|是否|能;
what=什么|啥;
what-include=什么是|有没有|什么叫|有哪些;
what-is=什么是|什么叫|啥是;
when=什么时候|什么时间|啥时候|何时|几时|哪天;
where=哪里有|到哪里|哪部分|那里|哪里|在那|哪点|啥子|在哪|哪儿|哪处|何处|那些|哪些|哪个|哪;
who=谁;
why=为什么|请明示|为什|咋还|干嘛|为何|为嘛|何故|怎么|为毛|何解|求解|理由|为啥|凭啥|原因|怎|咋;
上述词法模板是关于问答用到的句型词、功能词、虚词、标点等,它们是构成问答句子的“胶水”,比较口语化。这些词很容易穷举,从而使本发明实施例中的词法模板可以达到很高的匹配覆盖率。
又如,词法模板的另一个片段例子:
#实体词;
QQ=腾讯QQ|QQ号码|企业qq|qq号码|企业QQ|Q号码|qq号|QQ号|腾讯|扣扣|秋秋|qq|QQ|q|Q;
qq绑定=绑定的qq号|关联QQ号码|QQ号码|qq绑定|Q号码|QQ号|q绑定|Q认证|qq|QQ|更换;
绑定=邦定|绑定|认证;
认证或绑定=账号认证|解绑更换|验证|邦定|登记|绑定|注册|登录|登陆|人证|授权|认证|关联|认真|加;
认证或恢复=验证|人证|认证|恢复|认真|选择;
认证或上传=传上去|提交|验证|增加|办理|审核|人证|上传|认证|发布|认真|填写|传|填;
认证或设置=提交|验证|设置|人证|认证|认真;
认证或实名=身份认证|蚂蚁认证|个人认证|芝麻信用|芝麻认证|实名认证|身份证|验证|认证;
认证或占用=被认证过|认证过|被注册|被占用|被认证|用过|占用|使用|注册|信用|认证;
微信绑定=微信号绑定|绑定的微信|微信认证|绑定微信|认证微信|微信绑定|微信账户|微信号|微信;
微博绑定=绑定的微博|微博号绑定|微博认证|微博绑定|微博账户|认证微博|绑定微博|微博号|微博;
注册失败=注册了两次不成功|注册不成功|注册失败;
上述词法模板是关于问答用到的实体词,它们是构成问答句子的“积木”,也比较口语化(甚至可以包含错别字,如“绑定”=“邦定”、“登录”=“登陆”、“发布”=“发步”等)。这些词汇需要从知识库中的数据里梳理,达到较高的匹配覆盖率。其中或运算符为“|”,当然也可以为“||”。
当然,根据问答场景的不同或细分,一个目标词可以有多个词条模板,如上述的“认证或XX”,很便捷地做了词条模板的扩展。
每个目标词也可以直接表示词组或短语,如上述的“微信绑定”或“注册失败”。
再如,词法模板中的动词的前置否定和后置否定的设计,也可扩展:
not-v=还是不能|无法享受|不可以|还没有|不享有|做不了|没办法|还不|不可|不能|不于|无法|没有|不太|还没|不让|不会|不给|未能|不予|不叫|没法|未|没|不;
v-not=初始化失败|不能成功|不能正常|无法执行|不出去呢|不能用了|找不回|不起来|不上去|不正常|不出去|不跳转|已取消|上不去|不存在|不过去|打不开|不成功|不进去|没反应|不出来|不能用|已下线|无法弄|没成功|不了呢|做不了|不上了|不了了|不符|不上|不过|不掉|不到|出错|不了|错误|不行|不出|失败|不;
在此需要说明的是,词法模板中“或”运算之外的其他几种特殊表示,都符合正则表达式的语法,可以扩展,例如:
吗=你们太坑了|我要发狂了|(真是服了|没问题呀|呢)$$|啥玩意啊|了呢|的吗|了呗|的呢|了啊|啊|吧|靠|啦|嘛|呀|了|么|吗;
其中的“$$”表示句尾。
发布=发(?!票)|上网发布|发布成功|发布出去|发出去|发出来|发布上|提交|发步|刊登|输入|上传|发送|发的|发布|发部|填写|发表|发了;
其中的“发(?!票)”表示,单字“发”,而且其后不能紧跟“票”。
在一些实施例中,上述的词法模板文件,可以只有一个,也可以根据应用场景有多个。
本发明实施例中生成的词法模板结构简单,根据应用场景,易于穷举、枚举出需要的词条模板,从而可以有效匹配用户的意图数据的多样性;并且不需要过多的工程经验,从而可以有效的降低了实现复杂度。
实施例三
本发明实施例提供一种意图识别方法,如图4所示,所述方法包括:
S201,响应意图数据;
S202,建立词法模板和句法模板;可选地,建立句法模板包括:获取与所述每个标准问题相关的目标字符串;在所述相关的目标字符串中确定所述每个标准问题的核心字符串和匹配字符串,所述核心字符串用于将意图数据分类到一个标准问题,所述匹配字符串用于匹配意图数据;根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板;根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板;根据建立的各个标准问题模板和句型模板生成所述句法模板;其中,标准问题属于预先根据应用场景设置的一些最基本的问题,主要用来对意图数据进行分类,属于问题分类标签。
S203,根据由词法模板和句法模板编译而成的DBQA模板,对所述意图数据进行匹配;
S204,根据匹配的结果,识别所述意图数据所表示的语义。
本发明实施例中生成的句法模板以有效匹配汉语的表达方式的灵活性,有效避免由于词序颠倒而导致的意图识别错误,并且通过标准问题模板可以实现问题的快速分类,进一步通过句法模板可以有效匹配出意图数据所表示的语义,进而有效提高意图识别的效率和效果;同时句法模板的可阅读性很强,便于维护和修改、扩展,适合多人编辑团队的合作和校对。
在一些实施例中,所述核心字符串为一个或多个;所述根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板,可以包括:
对所述每个标准问题设置标准问题标识;
对每个核心字符串设置引用运算符;
在设置标准问题标识的每个标准问题与设置引用运算符的各个核心字符串之间设置赋值运算符,以建立所述每个标准问题模板。
在一些实施例中,所述匹配字符串为一个或多个;所述根据所述引用运算符和所述匹配字符串,建立所述每个标准问题模板下的一个或多个句型模板,也可以包括:
对每个匹配字符串设置引用运算符,以建立一个匹配项;
在各个匹配项之间设置与运算符,以建立所述每个标准问题模板下的一个或多个句型模板。
在一些实施例中,所述在各个匹配项之间设置与运算符之后,还可以包括:
根据每个匹配项确定一个或多个子匹配项;
在所述一个或多个子匹配项之间设置或运算符。
以目标字符串属于一个目标词为例,对本发明实施例中的句法模板进行简单描述。
例如,下面是“信息类”问答场景的句法模板(make-info.txt)的片段:
#-*-coding:utf-8-*-;
include dict.txt;
8-如何发布信息=$(发布)_v$(信息或内容)_p;
8.1$(发布)&&$(信息或内容)?;
8.2($(how)||$(where)||$(do)||$(if))&&$(发布)&&$(信息或内容)?;
8.3$(do)?&&$(发布)&&$(信息或内容)?&&$(how);
8.4$(do)?&&($(发布)$(信息或内容))_vp&&$(how)&&$(发布)_n2;
上述的“include dict.txt”,表示要包含词法模板文件,以便句型模板中的变量(即目标词标识)引用词法模板中的目标词集合中各个词汇。例如:
上述的变量“$(how)”可以引用词法模板中的“how=怎么办|怎么样|要怎样|咋样能|怎么弄|该如何|要怎么|怎木|怎样|怎么|咋弄|咋办|怎麽|如何”。其中$为引用运算符。
上述的变量“$(发布)”可以引用词法模板中的“发布=发(?!票)|上网发布|发布成功|发布出去|发出去|发出来|发布上|提交|发步|刊登|输入|上传|发送|发的|发布|发部|填写|发表|发了”。
上述的“8-如何发布信息”表示标准问题标识=8,其中标准问题标识可以是标准问题身份标识号码qid,标准问题为“如何发布信息”。也可以对多轮对话中的子问题或用户回答建立qid和对应的标准问题。等号后面的$(发布)_v和(信息或内容)_p属于分类项,用于匹配出用户的意图数据对应的标准问题。“$(发布)_v$(信息或内容)_p”中的后缀表示,下面的4个句型中,动词(_v)是“$(发布)”,名词或宾语(_p)是“$(信息或内容)”。
上述的“8.1$(发布)&&$(信息或内容)?”,表示这个标准问题的第一个句型。“8.1”为句型编号,表示qid为8的标准问题的第1个句型模板。这里的“&&”(也可以写作“and”)表示正则语法中的“与”运算,用于连接两个匹配项;这里的“?”表示正则语法中的“出现0次或1次”,即这里的“发布”后面,可以出现“$(信息或内容)”、也可以不出现“$(信息或内容)”。
上述8.3句型模板中,“$(how)||$(where)||$(do)||$(if)”整体是一个匹配项,其具有4个子匹配项,表示该匹配项由四个疑问词构成的子匹配项的“或”运算。
上述的“($(发布)$(信息或内容))_vp”表示“发布”和“信息或内容”的紧密的、顺序的搭配,表示一个短语;后缀“_vp”明确地指出这是一个动宾短语。
上述8.4句型中的“$(发布)_n2”,表示“$(发布)”这个词要在用户输入句子中出现至少2次,才能匹配这个句型模板。
本发明实施例中每个句型模板都是一个“与”结构,只匹配“与”运算中的各项词汇或短语的“共现”(co-occurrence),参与“与”运算中的各匹配项本身可以是“或”运算、“非”运算。从而忽略各个匹配项之间的顺序关系,从而可以有效匹配汉语的表达方式的灵活性,有效避免由于词序颠倒而导致的意图识别错误,进而有效提高意图识别的效果。
本发明实施例中句型模板的可阅读性很强,便于维护和修改、扩展,适合多人编辑团队的合作和校对。
在一些实施例中,所述根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板之后,可以包括:
在每个句型模板中设置词法和语法的前后缀;和/或
在每个句型模板的头部设置依存句法标签。
在一些实施例中,所述根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板之后,可以包括:
替换核心字符串,生成新的句法模板。
本发明实施例中核心字符串(例如核心词)就是关键字符串,是根据标准问题确定的字符串,以字符串为词为例,核心词又可以分为核心动词和核心名称。例如标准问题为“如何发布信息”,此时就可以确定核心动词为发布,核心名词为信息或内容。在此需要说明的是,核心词不一定必然存在于标准问题中,而是可以根据标准问题进行扩展,例如上述的内容就是根据核心名词信息而扩展出来的。
实施例四
本发明实施例提供一种意图识别方法,如图5所示,所述方法包括:
S301,响应意图数据;
S302,建立词法模板和句法模板;
S303,在每个句型模板中设置词法和语法的前后缀;
S304,在每个句型模板的头部设置依存句法标签;
S305,通过编译器对所述词法模板和所述句法模板进行编译生成DBQA模板;
S306,根据基于文档的问答DBQA模板,对所述意图数据进行匹配;
S307,根据匹配的结果,识别所述意图数据所表示的语义。
本发明实施例中通过词法和语法的前后缀,通过依存句法标签进一步有效匹配汉语的表达方式的灵活性,进一步有效提高意图识别的效率和效果。
详细地,本发明实施例中词法与句法前后缀可以符合make语句中的前后缀,词法与句法前后缀的解析可以在正则表达式解析器的基础上实现,可以扩展。本发明实施例中的词法和语法的前后缀可以包括以下一种或多种:
#_n2:某个词在句子中出现的次数;
#_adj:形容词短语;
#_adv:副词短语;
#_pred:表语;
#_v:核心动词,或者更广义地,搭配关系(主从关系)中的前者(主);
#_p:宾语,或者更广义地,搭配关系(主从关系)中的后者(从);
#_bv:被动短语,属于“_v”的一种特殊情况、也是一种复合结构,例如:$(被动)$(判)_bv||$(被判)_bv||$(被动)$(误判)_bv;
#not-v_:否定动词短语,not-v_$(not-v)$(动词),这是复合结构(否定)的一种;
#_v-not:否定动词短语,$(动词)$(v-not)_v-not,这是复合结构(否定)的另一种;
#_vp:紧密结合的(零距离)动宾短语,这是复合结构,例如,($(发布)$(信息或内容))?_vp,($(发布)$(信息或内容))_vp,$(发布)$(信息或内容)_vp;
#后缀(或前缀)可以写在问题的等号后面、全局声明;
#也可以局部地写在每个单条make语句中;局部优先于全局,符合多态原则;
#单条make中,如果动词的前后缀与全局声明有冲突,那么以局部声明为准,增加重载符@,例如:@$(违规)_adj;
#动词“违规”被重载为形容词,用于“违规信息”的描述;
详细地,本发明实施例中通过依存句法标签可以确定依存关系特征。依存句法标签可以包括以下一种或多种:
set WH-V$(do)$(do-not)$(how)$(how-long)$(if)$(when)$(where)$(who)$(why);
set WH-P$(include-what)$(is-what)$(what)$(what-include)$(what-is)
set Bei$(被动);
set Punc$(标点);
句型模板的头部,可以定义以上的依存句法需要的标签。例如“WH-V”表示被动词支配的Wh型疑问词,“WH-P”表示被名词短语或宾语支配的Wh型疑问词。在正则表达式解析器的基础上,可以检查“WH-V”与“_v”、“WH-P”与“_p”的“共现”,捕捉到对应的依存关系。
也可以通过“Bei”的匹配来捕捉被动句型,等等。
当然,本发明实施例还可以扩展这些标签,灵活使用,捕捉比句法更高级的语言现象,如语义、语用、知识图谱等。
在一些实施例中,所述根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板之后,可以包括:
替换核心字符串,生成新的句法模板。
详细地,对于相似的句型,本发明实施例中只需要替换关键字符串或核心字符串,就可以得到新模板。特别是对新场景、冷启动、数据稀疏的情况,本发明实施例有效提高模板快速迁移效率,相当于在利用已经模板化的场景来“造句型”。例如,本发明实施例只需要把“微信”换成“微博”,就得到关于“如何绑定微博”的全套模板了,例如:
40-如何绑定微信=$(微信)_p$(认证或绑定)_v;
40.1$(微信)&&$(认证或绑定);
40.2$(信息)?&&($(why)||$(how)||$(where)||$(do))&&$(微信)&&$(认证或绑定);
40.3$(do)&&$(微信)&&$(认证或绑定)&&$(v-not)&&$(how);
40.4$(not-v)$(微信)$(认证或绑定)_vp&&($(why)||$(how)||$(where)||$(do))&&$(认证或绑定)_n2;
40.5($(发布)$(信息))?&&($(why)?||$(do)?||$(how)?)&&(not-v_$(not-v)$(认证或绑定)||$(认证或绑定)$(v-not)_v-not)&&$(微信);
40.6($(do)?||$(how)?||$(where)?)&&$(认证或绑定)$(微信)_vp&&$(why)?&&(not-v_$(not-v)$(认证或绑定)||$(认证或绑定)$(v-not)_v-not)&&$(认证或绑定)_n2;
40.7($(do)?||$(how)?||$(where)?)&&$(认证或绑定)$(微信)_vp&&$(why)?&&(not-v_$(not-v)$(认证或绑定)||$(认证或绑定)$(v-not)_v-not)&&$(微信)_n2&&$(认证或绑定)_n2;
40.8$(微信)$(认证或绑定)_vp&&$(is-what);
40.9$(what-is)&&$(微信)$(认证或绑定)_vp;
40.10($(发布)$(信息))?&&$(提示)_v&&$(微信)&&$(how);
又如:
41-如何绑定微博=$(微博)_p$(认证或绑定)_v;
41.1$(微博)&&$(认证或绑定);
41.2$(信息)?&&($(why)||$(how)||$(where)||$(do))&&$(微博)&&$(认证或绑定);
41.3$(do)&&$(微博)&&$(认证或绑定)&&$(v-not)&&$(how);
41.4$(not-v)$(微博)$(认证或绑定)_vp&&($(why)||$(how)||$(where)||$(do))&&$(认证或绑定)_n2;
41.5($(发布)$(信息))?&&($(why)?||$(do)?||$(how)?)&&(not-v_$(not-v)$(认证或绑定)||$(认证或绑定)$(v-not)_v-not)&&$(微博);
41.6($(do)?||$(how)?||$(where)?)&&$(认证或绑定)$(微博)_vp&&$(why)?&&(not-v_$(not-v)$(认证或绑定)||$(认证或绑定)$(v-not)_v-not)&&$(认证或绑定)_n2;
41.7($(do)?||$(how)?||$(where)?)&&$(认证或绑定)$(微博)_vp&&$(why)?&&(not-v_$(not-v)$(认证或绑定)||$(认证或绑定)$(v-not)_v-not)&&$(微博)_n2&&$(认证或绑定)_n2;
41.8$(微博)$(认证或绑定)_vp&&$(is-what);
41.9$(what-is)&&$(微博)$(认证或绑定)_vp;
41.10($(发布)$(信息))?&&$(提示)_v&&$(微博)&&$(how)。
在一些实施例中,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,可以包括:
对所述词法模板和所述句法模板进行编译;
根据所述编译,将与所述核心字符串和所述匹配字符串对应的目标字符串集合分别引入相应的每个标准问题模板和每个句型模板中,以生成每个DBQA标准问题模板和每个DBQA标准问题模板下的一个或多个DBQA句型模板;
根据生成的DBQA标准问题模板和DBQA句型模板,生成所述DBQA模板。
在一些实施例中,所述根据匹配的结果,识别所述意图数据所表示的语义,可以包括:
将所述意图数据与所述每个DBQA标准问题模板的目标字符串集合进行匹配,匹配出相应的核心字符串;
根据所述相应的核心字符串,确定对应的DBQA标准问题模板;
根据所述对应的DBQA标准问题模板,确定对应的标准问题;
在所述对应的标准问题下,将所述意图数据与所述一个或多个DBQA句型模板的目标字符串集合进行匹配,匹配出相应的匹配字符串;
根据所述相应的匹配字符串,确定对应的DBQA句型模板;
根据所述对应的DBQA句型模板和所述相应的匹配字符串的标准含义,识别所述意图数据所表示的语义。
举一具体实例,描述本发明实施例中方法,通过设计简单的正则表达式及前后缀解析器,输出候选分类标签的结果如下:
用户输入的句子:帖子怎么被删除了(对应的标准问题:15-为什么信息被删除);
候选分类标签1:15-为什么信息被删除;
模板15.1(删除)_V and(信息或内容)?_P and!(怎么删除);
帖子怎么被删除了输入长度:8实心匹配:5空心匹配:7;
?_OPTION:帖子,被V:被删除P:帖子BEI:被;
(删除)_V;
帖子怎么被删除了;
帖子怎么被删除了;
(信息或内容)?_P;
帖子怎么被删除了;
(被动)?_BEI;
帖子怎么被删除了;
候选分类标签2:15-为什么信息被删除;
模板15.2((not-v)(违规))?and((why)?_WH-V or(do-not)_WH-V)and(删除)_Vand(信息或内容)?_P and!(怎么删除);
帖子怎么被删除了;输入长度:8实心匹配:7空心匹配:7;
?_OPTION:帖子,怎么,被WH-V:怎么V:被删除P:帖子BEI:被;
(why)?_WH-V or(do-not)_WH-V;
帖子怎么被删除了;
(why)?_WH-V;
帖子怎么被删除了;
(删除)_V;
帖子怎么被删除了;
帖子怎么被删除了;
(信息或内容)?_P;
帖子怎么被删除了;
(被动)?_BEI;
帖子怎么被删除了;
从上可以看出,用户输入问题(也可以是多轮对话中用户回答智能客服)是:帖子怎么被删除了;
对应的标准问题或本该正确匹配的问题是:
15-为什么信息被删除;
并匹配出了2个候选模板(即候选分类标签):15.1,15.2。
本发明实施例中,基于匹配结果可以算出实心或空心的匹配长度,实心或空心的匹配长度除以输入句子长度,便可以定义为该候选模板匹配句子的实心或空心匹配率;其中实心匹配长度为匹配的词的字数,空心匹配长度为匹配的词的字数和匹配的词之间不匹配的词的字数。本发明实施例中15.1、15.2的句型匹配率高,有效的实现了较高的意图识别率。
基于本发明实施例的匹配结果,其包含了基于多粒度特征序列的BOWSA方法需要输入的各种NLP信息:分词,词性,短语,被动,否定,依存关系等等。并且本发明实施例中DBQA模板设计的开放性,还可以在DBQA模板中增加句法树、命名实体,以及语义标签、知识图谱、语用标签等更高级的知识进来。
在一些实施例中,本发明实施例中方法还可以包括:
根据匹配率、预设的一个或多个正则项和与每个正则项对应的权重系数确定所述对应的DBQA标准问题模板中每个DBQA标准问题模板的分数和/或所述对应的DBQA句型模板中每个DBQA句型模板的分数;
根据所述每个DBQA标准问题模板的分数和预设的第一匹配数量,从所述对应的DBQA标准问题模板中选取最优的DBQA标准问题模板;
根据所述每个DBQA句型模板的分数和预设的第二匹配数量,从所述对应的DBQA句型模板中选取最优的DBQA句型模板。
实施例五
本发明实施例提供一种意图识别方法,如图6所示,所述方法包括:
S501,响应意图数据;
S502,根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;
S503,根据匹配的结果,输出候选分类标签及相应分数。
在一些实施例中,可以通过如下方式,确定每个候选分类标签的分数:
根据匹配率、预设的一个或多个正则项和与每个正则项对应的权重系数确定所述对应的DBQA标准问题模板中每个DBQA标准问题模板的分数和/或所述对应的DBQA句型模板中每个DBQA句型模板的分数;
根据所述每个DBQA标准问题模板的分数和预设的第一匹配数量,从所述对应的DBQA标准问题模板中选取最优的DBQA标准问题模板;
根据所述每个DBQA句型模板的分数和预设的第二匹配数量,从所述对应的DBQA句型模板中选取最优的DBQA句型模板。
其中,根据匹配率、预设的一个或多个正则项和与每个正则项对应的权重系数确定所述对应的DBQA标准问题模板中每个DBQA标准问题模板的分数和/或所述对应的DBQA句型模板中每个DBQA句型模板的分数,可以包括:
分数=匹配率+lamda(1)*正则项1+lamda(2)*正则项2+……+lamda(n)*正则项n;
所述匹配率=实心匹配/输入长度;lamda(n)表示第n个正则项的权重系数。
也就是说,本发明实施例不仅能为BOWSA的多粒度序列特征融合提供多种NLP特征,而且可以针对DBQA模板匹配的程度、合理打分直接输出最优候选分类标签,可以利用上匹配率打分,也可以把匹配率作为基础分数,再综合其他各项词法和句法标签作为正则项,而且可以灵活扩展,例如:
正则项1=空心率”乘惩罚项=(空心匹配–实心匹配)/(空心匹配);
正则项2=动宾搭配紧密度=各种动词前后缀匹配的词汇与_p后缀匹配词汇之间的距离;
正则项3=WH-V句型搭配紧密度=WH-V标签匹配的词汇与动词之间的距离;
正则项4=WH-P句型搭配紧密度=WH-P标签匹配的词汇与名词或宾语之间的距离;
正则项5=被动与动词搭配紧密度=BEI标签匹配的词汇与动词之间的距离;
正则项6=副词与动词的搭配紧密度=_adv标签匹配的词汇与动词之间的距离;
正则项7=形容词与名词的搭配紧密度=_adj标签匹配的词汇与名词之间的距离;
正则项8=?”项的惩罚=该匹配对应的模板片段带有正则表达“?”。
本发明实施例还可以利用扩展的命名实体、句法树标签、其他的NLP知识标签来构造任意多的正则项,得到一个更精准、更综合的匹配分数。
在此需要说明的是,上述各个实施例可以任意组合。
本发明各个实施例可以低成本地、快速地建立基于文档的问答***中的规则模板,用于智能客服项目,特别适用于文档积累还比较少的场景冷启动,来应对线上用户提出的新问题、新场景(包括但不限于新业务、寒暄、谩骂、脏话、闲聊等)。
本发明各个实施例的DBQA模板匹配的分数本身可以决定最佳候选;模板匹配输出的NLP特征可以被BOWSA模型集成、做特征层面的融合;模板匹配也可以与其他BOWSA模型串联,后面的BOWSA对模板匹配的候选进行重新排序;模板匹配输出的分数也可以与其他BOWSA模型输出的分数并联,做分数层面的融合。
本发明各个实施例的DBQA模板生成及其匹配方法也可以用于问答、对话、闲聊机器人之外的其他领域,包括但不限于:基于规则的机器翻译,自动文摘,搜索查询分析,计算机辅助写作,以及规则生成、文章生成,推理,自动证明等AI前沿领域。
本发明各个实施例的DBQA模板在多轮对话的受限场景下,灵活性和准确性比模型要高,更容易匹配用户提问、反问或回答中的意图,很方便实现词槽的填充。
本发明各个实施例的DBQA模板设计可以准确定位bad case的原因,并且通过新增或修改模板来快速解决。
本发明各个实施例的DBQA模板积累到符合MECE原则(Mutually ExclusiveCollectively Exhaustive,相互独立,完全穷尽)的时候,能够准确地召回和拒识、不需要调整阈值。
实施例六
本发明实施例提供一种意图识别装置,如图7所示,所述装置包括:
响应模块10,用于响应意图数据;
匹配模块12,用于根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;
识别模块14,用于根据匹配的结果,识别所述意图数据所表示的语义。
本发明实施例通过由词法模板和句法模板构成的DBQA模板对意图数据进行匹配,有效提高了用户意图识别的准确率;并且通过将词法模板和句法模板编译生成DBQA模板,实现了词法模板和句法模板的解耦,有效降低了DBQA模板的实现复杂度,有效提高了编译效率。
在一些实施例中,所述词法模板包括多个词条模板;其中,每个词条模板包括用于描述预设的标准含义的目标字符串和与所述目标字符串对应的目标字符串集合;所述目标字符串集合包括与所述标准含义的意义相同、相近或关联的字符串;
在一些实施例中,所述句法模板包括预设的多个标准问题以及在每个标准问题下的一个或多个句型模板;其中,每个句型模板由引用运算符和与所述每个标准问题相关的目标字符串构成。
在一些实施例中,所述装置还可以包括:
词法生成模块,用于根据每个标准含义,获取与所述每个标准含义对应的目标字符串和目标字符串集合;在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符,以建立每个目标字符串的词条模板;根据建立的各个目标字符串的词条模板生成所述词法模板。
在一些实施例中,所述词法生成模块在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符之后,还用于在所述对应的目标字符串集合中的各个字符串之间设置或运算符。
在一些实施例中,所述词法生成模块在所述对应的目标字符串集合中的各个字符串之间设置或运算符之后,还用于对所述对应的目标字符串集合中的一个或多个字符串设置正则运算符;
其中,每个字符串包括以下一种或多种:词、词组、多个词组的组合、字符串和多个字符串的组合;所述每个字符串的类型包括以下一种或多种:句型词、功能词、虚词、标点、实体词、前置否定词和后置否定词;与所述每个目标字符串相应的词条模板为一个或多个。
在一些实施例中,所述装置还包括:
句法生成模块,用于获取与所述每个标准问题相关的目标字符串;在所述相关的目标字符串中确定所述每个标准问题的核心字符串和匹配字符串,所述核心字符串用于将意图数据分类到一个标准问题,所述匹配字符串用于匹配意图数据;根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板;根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板;根据建立的各个标准问题模板和句型模板生成所述句法模板。
在一些实施例中,所述核心字符串为一个或多个;所述句法生成模块在根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板时,具体用于对所述每个标准问题设置标准问题标识;对每个核心字符串设置引用运算符;在设置标准问题标识的每个标准问题与设置引用运算符的各个核心字符串之间设置赋值运算符,以建立所述每个标准问题模板。
在一些实施例中,所述匹配字符串为一个或多个;所述句法生成模块在根据所述引用运算符和所述匹配字符串,建立所述每个标准问题模板下的一个或多个句型模板时,具体用于对每个匹配字符串设置引用运算符,以建立一个匹配项;在各个匹配项之间设置与运算符,以建立所述每个标准问题模板下的一个或多个句型模板。
在一些实施例中,所述句法生成模块在各个匹配项之间设置与运算符之后,还用于根据每个匹配项确定一个或多个子匹配项;在所述一个或多个子匹配项之间设置或运算符。
在一些实施例中,所述句法生成模块在根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板之后,还用于在每个句型模板中设置词法和语法的前后缀;和/或,在每个句型模板的头部设置依存句法标签。
在一些实施例中,所述句法生成模块在根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板之后,还用于替换核心字符串,生成新的句法模板。
在一些实施例中,所述装置还包括:
编译模块,用于对所述词法模板和所述句法模板进行编译;根据所述编译,将与所述核心字符串和所述匹配字符串对应的目标字符串集合分别引入相应的每个标准问题模板和每个句型模板中,以生成每个DBQA标准问题模板和每个DBQA标准问题模板下的一个或多个DBQA句型模板;根据生成的DBQA标准问题模板和DBQA句型模板,生成所述DBQA模板。
在一些实施例中,所述识别模块14,具体用于将所述意图数据与所述每个DBQA标准问题模板的目标字符串集合进行匹配,匹配出相应的核心字符串;根据所述相应的核心字符串,确定对应的DBQA标准问题模板;根据所述对应的DBQA标准问题模板,确定对应的标准问题;在所述对应的标准问题下,将所述意图数据与所述一个或多个DBQA句型模板的目标字符串集合进行匹配,匹配出相应的匹配字符串;根据所述相应的匹配字符串,确定对应的DBQA句型模板;根据所述对应的DBQA句型模板和所述相应的匹配字符串的标准含义,识别所述意图数据所表示的语义。
在一些实施例中,所述装置还包括:
选取模块,用于根据匹配率、预设的一个或多个正则项和与每个正则项对应的权重系数确定所述对应的DBQA标准问题模板中每个DBQA标准问题模板的分数和/或所述对应的DBQA句型模板中每个DBQA句型模板的分数;根据所述每个DBQA标准问题模板的分数和预设的第一匹配数量,从所述对应的DBQA标准问题模板中选取最优的DBQA标准问题模板;根据所述每个DBQA句型模板的分数和预设的第二匹配数量,从所述对应的DBQA句型模板中选取最优的DBQA句型模板。
在一些实施例中,所述装置还包括:
更新模块,用于根据开闭原则,对所述词法模板和所述句法模板进行更新。
本发明实施例中通过生成的DBQA模板,可以有效匹配用户的意图数据的多样性;可以有效匹配汉语的表达方式的灵活性,有效避免由于词序颠倒而导致的意图识别错误,并且通过标准问题模板可以实现问题的快速分类,进一步通过句法模板可以有效匹配出意图数据所表示的语义,进而有效提高意图识别的效率和效果;同时句法模板的可阅读性很强,便于维护和修改、扩展,适合多人编辑团队的合作和校对。
本发明实施例为实施例一至实施例五对应的装置实施例,在具体实现时,还可以参阅实施例一至实施例五,具有相应的技术效果。
实施例七
本发明实施例提供一种意图识别设备,如图8所示,所述设备包括存储器20和处理器22,所述存储器20存储有意图识别计算机程序,所述处理器22执行所述计算机程序,以实现如实施例一至实施例五中任意一项所述方法的步骤。
实施例八
本发明实施例提供一种计算机可读存储介质,其特征在于,所述存储介质存储有意图识别计算机程序,所述计算机程序被至少一个所述处理器执行时,以实现如实施例一至实施例五中任意一项所述方法的步骤。
本发明实施例中计算机可读存储介质可以是RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其他形式的存储介质。可以将一种存储介质藕接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。
在此需要说明的是,实施例六至实施例八在具体实现时,可以参阅实施例一至实施例五,具有相应的技术效果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (32)

1.一种意图识别方法,其特征在于,所述方法包括:
响应意图数据;
根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;所述句法模板中设置有引用运算符,所述引用运算符用于对所述词法模板进行引用;
根据匹配的结果,识别所述意图数据所表示的语义。
2.如权利要求1所述的方法,其特征在于,所述词法模板包括多个词条模板;其中,每个词条模板包括用于描述预设的标准含义的目标字符串和与所述目标字符串对应的目标字符串集合;所述目标字符串集合包括与所述标准含义的意义相同、相近或关联的字符串;
所述句法模板包括预设的多个标准问题以及在每个标准问题下的一个或多个句型模板;其中,每个句型模板由引用运算符和与所述每个标准问题相关的目标字符串构成。
3.如权利要求2所述的方法,其特征在于,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,包括:
根据每个标准含义,获取与所述每个标准含义对应的目标字符串和目标字符串集合;
在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符,以建立每个目标字符串的词条模板;
根据建立的各个目标字符串的词条模板生成所述词法模板。
4.如权利要求3所述的方法,其特征在于,所述在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符之后,包括:
在所述对应的目标字符串集合中的各个字符串之间设置或运算符。
5.如权利要求4所述的方法,其特征在于,所述在所述对应的目标字符串集合中的各个字符串之间设置或运算符之后,包括:
对所述对应的目标字符串集合中的一个或多个字符串设置正则运算符;
其中,每个字符串包括以下一种或多种:词、词组、多个词组的组合、字符串和多个字符串的组合;所述每个字符串的类型包括以下一种或多种:句型词、功能词、虚词、标点、实体词、前置否定词和后置否定词;与所述每个目标字符串相应的词条模板为一个或多个。
6.如权利要求2-5中任意一项所述的方法,其特征在于,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,包括:
获取与所述每个标准问题相关的目标字符串;
在所述相关的目标字符串中确定所述每个标准问题的核心字符串和匹配字符串,所述核心字符串用于将意图数据分类到一个标准问题,所述匹配字符串用于匹配意图数据;
根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板;
根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板;
根据建立的各个标准问题模板和句型模板生成所述句法模板。
7.如权利要求6所述的方法,其特征在于,所述核心字符串为一个或多个;所述根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板,包括:
对所述每个标准问题设置标准问题标识;
对每个核心字符串设置引用运算符;
在设置标准问题标识的每个标准问题与设置引用运算符的各个核心字符串之间设置赋值运算符,以建立所述每个标准问题模板。
8.如权利要求6所述的方法,其特征在于,所述匹配字符串为一个或多个;所述根据所述引用运算符和所述匹配字符串,建立所述每个标准问题模板下的一个或多个句型模板,包括:
对每个匹配字符串设置引用运算符,以建立一个匹配项;
在各个匹配项之间设置与运算符,以建立所述每个标准问题模板下的一个或多个句型模板。
9.如权利要求8所述的方法,其特征在于,所述在各个匹配项之间设置与运算符之后,包括:
根据每个匹配项确定一个或多个子匹配项;
在所述一个或多个子匹配项之间设置或运算符。
10.如权利要求6所述的方法,其特征在于,所述根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板之后,包括:
在每个句型模板中设置词法和语法的前后缀;和/或
在每个句型模板的头部设置依存句法标签。
11.如权利要求6所述的方法,其特征在于,所述根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板之后,包括:
替换核心字符串,生成新的句法模板。
12.如权利要求6所述的方法,其特征在于,所述根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配之前,包括:
对所述词法模板和所述句法模板进行编译;
根据所述编译,将与所述核心字符串和所述匹配字符串对应的目标字符串集合分别引入相应的每个标准问题模板和每个句型模板中,以生成每个DBQA标准问题模板和每个DBQA标准问题模板下的一个或多个DBQA句型模板;
根据生成的DBQA标准问题模板和DBQA句型模板,生成所述DBQA模板。
13.如权利要求12所述的方法,其特征在于,所述根据匹配的结果,识别所述意图数据所表示的语义,包括:
将所述意图数据与所述每个DBQA标准问题模板的目标字符串集合进行匹配,匹配出相应的核心字符串;
根据所述相应的核心字符串,确定对应的DBQA标准问题模板;
根据所述对应的DBQA标准问题模板,确定对应的标准问题;
在所述对应的标准问题下,将所述意图数据与所述一个或多个DBQA句型模板的目标字符串集合进行匹配,匹配出相应的匹配字符串;
根据所述相应的匹配字符串,确定对应的DBQA句型模板;
根据所述对应的DBQA句型模板和所述相应的匹配字符串的标准含义,识别所述意图数据所表示的语义。
14.如权利要求13所述的方法,其特征在于,所述方法还包括:
根据匹配率、预设的一个或多个正则项和与每个正则项对应的权重系数,确定所述对应的DBQA标准问题模板中每个DBQA标准问题模板的分数和/或所述对应的DBQA句型模板中每个DBQA句型模板的分数;
根据所述每个DBQA标准问题模板的分数和预设的第一匹配数量,从所述对应的DBQA标准问题模板中选取最优的DBQA标准问题模板;
根据所述每个DBQA句型模板的分数和预设的第二匹配数量,从所述对应的DBQA句型模板中选取最优的DBQA句型模板。
15.如权利要求1-5中任意一项所述的方法,其特征在于,所述方法还包括:
根据开闭原则,对所述词法模板和所述句法模板进行更新。
16.一种意图识别装置,其特征在于,所述装置包括:
响应模块,用于响应意图数据;
匹配模块,用于根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对所述意图数据进行匹配;所述句法模板中设置有引用运算符,所述引用运算符用于对所述词法模板进行引用;
识别模块,用于根据匹配的结果,识别所述意图数据所表示的语义。
17.如权利要求16所述的装置,其特征在于,所述词法模板包括多个词条模板;其中,每个词条模板包括用于描述预设的标准含义的目标字符串和与所述目标字符串对应的目标字符串集合;所述目标字符串集合包括与所述标准含义的意义相同、相近或关联的字符串;
所述句法模板包括预设的多个标准问题以及在每个标准问题下的一个或多个句型模板;其中,每个句型模板由引用运算符和与所述每个标准问题相关的目标字符串构成。
18.如权利要求17所述的装置,其特征在于,所述装置还包括:
词法生成模块,用于根据每个标准含义,获取与所述每个标准含义对应的目标字符串和目标字符串集合;在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符,以建立每个目标字符串的词条模板;根据建立的各个目标字符串的词条模板生成所述词法模板。
19.如权利要求18所述的装置,其特征在于,所述词法生成模块在所述对应的目标字符串和所述对应的目标字符串集合之间设置赋值运算符之后,还用于在所述对应的目标字符串集合中的各个字符串之间设置或运算符。
20.如权利要求19所述的装置,其特征在于,所述词法生成模块在所述对应的目标字符串集合中的各个字符串之间设置或运算符之后,还用于对所述对应的目标字符串集合中的一个或多个字符串设置正则运算符;
其中,每个字符串包括以下一种或多种:词、词组、多个词组的组合、字符串和多个字符串的组合;所述每个字符串的类型包括以下一种或多种:句型词、功能词、虚词、标点、实体词、前置否定词和后置否定词;与所述每个目标字符串相应的词条模板为一个或多个。
21.如权利要求17-20中任意一项所述的装置,其特征在于,所述装置还包括:
句法生成模块,用于获取与所述每个标准问题相关的目标字符串;在所述相关的目标字符串中确定所述每个标准问题的核心字符串和匹配字符串,所述核心字符串用于将意图数据分类到一个标准问题,所述匹配字符串用于匹配意图数据;根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板;根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板;根据建立的各个标准问题模板和句型模板生成所述句法模板。
22.如权利要求21所述的装置,其特征在于,所述核心字符串为一个或多个;所述句法生成模块在根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板时,具体用于对所述每个标准问题设置标准问题标识;对每个核心字符串设置引用运算符;在设置标准问题标识的每个标准问题与设置引用运算符的各个核心字符串之间设置赋值运算符,以建立所述每个标准问题模板。
23.如权利要求21所述的装置,其特征在于,所述匹配字符串为一个或多个;所述句法生成模块在根据所述引用运算符和所述匹配字符串,建立所述每个标准问题模板下的一个或多个句型模板时,具体用于对每个匹配字符串设置引用运算符,以建立一个匹配项;在各个匹配项之间设置与运算符,以建立所述每个标准问题模板下的一个或多个句型模板。
24.如权利要求23所述的装置,其特征在于,所述句法生成模块在各个匹配项之间设置与运算符之后,还用于根据每个匹配项确定一个或多个子匹配项;在所述一个或多个子匹配项之间设置或运算符。
25.如权利要求21所述的装置,其特征在于,所述句法生成模块在根据所述引用运算符和所述匹配字符串,在所述每个标准问题模板下建立一个或多个句型模板之后,还用于在每个句型模板中设置词法和语法的前后缀;和/或,在每个句型模板的头部设置依存句法标签。
26.如权利要求21所述的装置,其特征在于,所述句法生成模块在根据所述引用运算符和所述核心字符串,建立所述每个标准问题模板之后,还用于替换核心字符串,生成新的句法模板。
27.如权利要求21所述的装置,其特征在于,所述装置还包括:
编译模块,用于对所述词法模板和所述句法模板进行编译;根据所述编译,将与所述核心字符串和所述匹配字符串对应的目标字符串集合分别引入相应的每个标准问题模板和每个句型模板中,以生成每个DBQA标准问题模板和每个DBQA标准问题模板下的一个或多个DBQA句型模板;根据生成的DBQA标准问题模板和DBQA句型模板,生成所述DBQA模板。
28.如权利要求27所述的装置,其特征在于,所述识别模块,具体用于将所述意图数据与所述每个DBQA标准问题模板的目标字符串集合进行匹配,匹配出相应的核心字符串;根据所述相应的核心字符串,确定对应的DBQA标准问题模板;根据所述对应的DBQA标准问题模板,确定对应的标准问题;在所述对应的标准问题下,将所述意图数据与所述一个或多个DBQA句型模板的目标字符串集合进行匹配,匹配出相应的匹配字符串;根据所述相应的匹配字符串,确定对应的DBQA句型模板;根据所述对应的DBQA句型模板和所述相应的匹配字符串的标准含义,识别所述意图数据所表示的语义。
29.如权利要求28所述的装置,其特征在于,所述装置还包括:
选取模块,用于根据匹配率、预设的一个或多个正则项和与每个正则项对应的权重系数,确定所述对应的DBQA标准问题模板中每个DBQA标准问题模板的分数和/或所述对应的DBQA句型模板中每个DBQA句型模板的分数;根据所述每个DBQA标准问题模板的分数和预设的第一匹配数量,从所述对应的DBQA标准问题模板中选取最优的DBQA标准问题模板;根据所述每个DBQA句型模板的分数和预设的第二匹配数量,从所述对应的DBQA句型模板中选取最优的DBQA句型模板。
30.如权利要求16-20中任意一项所述的装置,其特征在于,所述装置还包括:
更新模块,用于根据开闭原则,对所述词法模板和所述句法模板进行更新。
31.一种意图识别设备,其特征在于,所述设备包括存储器和处理器,所述存储器存储有意图识别计算机程序,所述处理器执行所述计算机程序,以实现如权利要求1-15中任意一项所述方法的步骤。
32.一种计算机可读存储介质,其特征在于,所述存储介质存储有意图识别计算机程序,所述计算机程序被至少一个处理器执行时,以实现如权利要求1-15中任意一项所述方法的步骤。
CN201810540100.1A 2018-05-30 2018-05-30 意图识别方法、装置、设备及存储介质 Active CN108874917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810540100.1A CN108874917B (zh) 2018-05-30 2018-05-30 意图识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810540100.1A CN108874917B (zh) 2018-05-30 2018-05-30 意图识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108874917A CN108874917A (zh) 2018-11-23
CN108874917B true CN108874917B (zh) 2021-11-23

Family

ID=64335936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810540100.1A Active CN108874917B (zh) 2018-05-30 2018-05-30 意图识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108874917B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492086B (zh) * 2018-11-26 2022-01-21 出门问问创新科技有限公司 一种答案输出方法、装置、电子设备及存储介质
CN109684357B (zh) * 2018-12-21 2021-03-19 上海智臻智能网络科技股份有限公司 信息处理方法及装置、存储介质、终端
CN109815333B (zh) * 2019-01-14 2021-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN110008317A (zh) * 2019-01-23 2019-07-12 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及***
CN110046232A (zh) * 2019-01-23 2019-07-23 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及***
CN110059167A (zh) * 2019-01-23 2019-07-26 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及***
CN110008319B (zh) * 2019-02-27 2021-06-29 百度在线网络技术(北京)有限公司 基于对话模板的模型训练方法和装置
CN110096703B (zh) * 2019-04-26 2023-10-31 北京零秒科技有限公司 用于意图识别的数据处理方法及装置、服务器、客户端
CN110825865A (zh) * 2020-01-09 2020-02-21 浩鲸云计算科技股份有限公司 一种基于专有词纠正和冷启动的多轮对话智能客服***
CN112164400A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN112149429A (zh) * 2020-10-21 2020-12-29 成都小美伴旅信息技术有限公司 一种基于词槽序模型的高准确度语义理解识别方法
CN112364140B (zh) * 2020-11-04 2022-09-13 北京致远互联软件股份有限公司 一种通过配置单实现语音识别意图定制的方法
CN112380328B (zh) * 2020-11-11 2024-02-06 广州知图科技有限公司 一种安全应急响应机器人交互方法及***
CN112597500A (zh) * 2020-12-08 2021-04-02 国汽(北京)智能网联汽车研究院有限公司 汽车信息安全风险评估方法、装置、电子设备及存储介质
CN113032529B (zh) * 2021-04-26 2021-08-13 北京世纪好未来教育科技有限公司 英文短语识别方法、装置、介质和电子设备
CN114138963A (zh) * 2021-12-01 2022-03-04 北京比特易湃信息技术有限公司 基于句法分析的意图识别模型
CN114510922B (zh) * 2022-04-15 2022-07-05 北京沃丰时代数据科技有限公司 一种文本匹配方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100595763C (zh) * 2008-02-26 2010-03-24 华中科技大学 基于自然语言的全文检索***
CN105335398B (zh) * 2014-07-18 2020-08-25 华为技术有限公司 一种服务推荐方法及终端
CN104199811B (zh) * 2014-09-10 2017-06-16 上海携程商务有限公司 短句解析模型建立方法及***
US10503769B2 (en) * 2015-07-06 2019-12-10 Rima Ghannam System for natural language understanding
CN106095932B (zh) * 2016-06-13 2019-12-20 竹间智能科技(上海)有限公司 百科知识问句识别方法及装置
CN107247613A (zh) * 2017-04-25 2017-10-13 北京航天飞行控制中心 语句解析方法及语句解析装置

Also Published As

Publication number Publication date
CN108874917A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108874917B (zh) 意图识别方法、装置、设备及存储介质
CN108763510B (zh) 意图识别方法、装置、设备及存储介质
Nakov et al. Semeval-2015 task 3: Answer selection in community question answering
Chowdhary et al. Natural language processing
Cotterell et al. CoNLL-SIGMORPHON 2017 shared task: Universal morphological reinflection in 52 languages
CN107798140B (zh) 一种对话***构建方法、语义受控应答方法及装置
CN106126620A (zh) 基于机器学习的中文自动文摘方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN105320644B (zh) 一种基于规则的自动汉语句法分析方法
CN110428823A (zh) 口语理解装置和使用该装置的口语理解方法
Alam et al. Sequence to sequence networks for Roman-Urdu to Urdu transliteration
WO2019229768A1 (en) A bot engine for automatic dynamic intent computation
CN117149984B (zh) 一种基于大模型思维链的定制化培训方法及装置
CN111814451A (zh) 文本处理方法、装置、设备和存储介质
Islam et al. Towards achieving a delicate blending between rule-based translator and neural machine translator
CN106326206B (zh) 一种基于文法模板的实体抽取方法
Kadim et al. Parallel HMM-based approach for arabic part of speech tagging.
Niehues et al. Domain adaptation in statistical machine translation using factored translation models
Béchet et al. CALOR-QUEST: generating a training corpus for Machine Reading Comprehension models from shallow semantic annotations
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
Knight et al. Integrating knowledge bases and statistics in MT
Choi et al. An integrated dialogue analysis model for determining speech acts and discourse structures
Tait et al. Anniversary article: Then and now: 25 years of progress in natural language engineering
Boitet Automated translation
US7509296B2 (en) Interactive learning system based on template-template structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant