CN110765759A - 意图识别方法及装置 - Google Patents
意图识别方法及装置 Download PDFInfo
- Publication number
- CN110765759A CN110765759A CN201911000072.5A CN201911000072A CN110765759A CN 110765759 A CN110765759 A CN 110765759A CN 201911000072 A CN201911000072 A CN 201911000072A CN 110765759 A CN110765759 A CN 110765759A
- Authority
- CN
- China
- Prior art keywords
- key element
- intention
- result
- target
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种意图识别方法及装置,所述方法包括:获取待进行意图识别的目标语句;对所述目标语句进行处理,得到所述目标语句的关键要素;将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。上述方法能够保证聊天机器人及时适应业务需要。
Description
技术领域
本发明涉及智能聊天机器人领域,更具体的说,是涉及一种意图识别方法及装置。
背景技术
近几年来,智能聊天机器人技术发展迅速,在各领域得到普遍应用。在人机会话过程中,聊天机器人需要准确把握对话过程中的用户意图,即对于用户输入的一句话,聊天机器人应通过意图识别技术确定用户期望完成的任务是什么,再进行后续的任务槽值提取等工作,最终完成用户交付的任务。可见意图识别决定了聊天机器人能否智能、准确地与用户进行交互,是智能聊天机器人领域的重要技术。
由于业务的多样性与快速发展,为了保证聊天机器人及时适应业务需要,需要对现有的意图识别方法进行优化。
发明内容
有鉴于此,本发明提供了一种意图识别方法及装置,以保证聊天机器人及时适应业务需要。
为实现上述目的,本发明提供如下技术方案:
一种意图识别方法,所述方法包括:
获取待进行意图识别的目标语句;
对所述目标语句进行处理,得到所述目标语句的关键要素;
将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。
可选地,所述对所述目标语句进行处理,得到所述目标语句的关键要素,包括:
对所述目标语句进行分词和词性标注,得到分词结果以及词性标注结果;
对所述目标语句进行依存句法分析,得到依存句法分析结果;
根据所述词性标注结果以及所述依存句法分析结果从所述目标语句中提取关键要素。
可选地,所述每个意图的关键要素参数集是采用如下方式构建的:
获取所述每个意图对应的语料;
对所述每个语料进行分词和词性标注,得到分词结果以及词性标注结果;
对所述每个语料进行依存句法分析,得到依存句法分析结果;
根据所述词性标注结果以及所述依存句法分析结果从所述每个语料中提取所述每个语料的关键要素;
根据所述每个语料的原始关键要素得到所述每个意图的原始关键要素参数集;
对所述每个意图的原始关键要素参数集进行相似词扩展,得到所述每个意图的关键要素参数集。
可选地,所述根据所述词性标注结果以及所述依存句法分析结果从所述每个语料中提取所述每个语料的关键要素,包括:
对名词、动词、实体词三种词性,以及核心关系、主谓关系、动宾关系、定中关系四种依存句法关系从所述每个语料中提取核心名词、主语名词、主语修饰词、宾语名词、宾语修饰词、无主语动词、主语动词、核心实体、修饰实体九种关键要素。
可选地,所述根据所述每个语料的关键要素得到所述每个意图的原始关键要素参数集,包括:
将所述每个意图对应的各个语料的关键要素按照类型组合为核心名词子集、主语名词子集、主语修饰词子集、宾语名词子集、宾语修饰词子集、无主语动词子集、主语动词子集、核心实体子集、修饰实体子集九种原始关键要素子集,所述每个意图的原始关键要素参数集中包括所述九种原始关键要素子集。
可选地,对所述每个意图的原始关键要素参数集进行相似词扩展,包括:
获取预设词典;
计算所述每个意图的原始关键要素参数集中的目标原始关键要素子集中的每个原始关键要素与所述预设词典中的各个词的相似度;
确定所述预设词典中相似度大于预设相似度阈值的词为所述原始关键要素的同义词;
将所述同义词添加至所述目标原始关键要素子集中。
可选地,所述根据所述词性标注结果以及所述依存句法分析结果从所述目标语句中提取关键要素,包括:
对名词、动词、实体词三种词性,以及核心关系、主谓关系、动宾关系、定中关系四种依存句法关系从所述目标语句中提取核心名词、主语名词、主语修饰词、宾语名词、宾语修饰词、无主语动词、主语动词、核心实体、修饰实体九种关键要素。
可选地,所述将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果,包括:
将所述目标语句的每种关键要素分别与预先构建的各个意图识别关键要素参数集进行匹配,得到所述每种关键要素命中的意图集合;
确定所述每种关键要素命中的意图集合的交集为所述意图识别结果。
一种意图识别装置,所述装置包括:
目标语句获取单元,用于获取待进行意图识别的目标语句;
处理单元,用于对所述目标语句进行处理,得到所述目标语句的关键要素;
匹配单元,用于将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。
可选地,所述处理单元,包括:
分词和词性标注单元,用于对所述目标语句进行分词和词性标注,得到分词结果以及词性标注结果;
依存句法分析单元,用于对所述目标语句进行依存句法分析,得到依存句法分析结果;
关键要素提取单元,用于根据所述词性标注结果以及所述依存句法分析结果从所述目标语句中提取关键要素。
经由上述的技术方案可知,与现有技术相比,本发明公开了一种意图识别方法及装置,所述方法包括:获取待进行意图识别的目标语句;对所述目标语句进行处理,得到所述目标语句的关键要素;将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。上述方法能够保证聊天机器人及时适应业务需要。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种意图识别方法的流程示意图;
图2为本发明公开的一种构建每个意图的关键要素参数集的方法的流程示意图;
图3为本发明公开的一种对所述目标语句进行处理,得到所述目标语句的关键要素的方法的流程示意图;
图4为本发明实施例提供的一种意图识别装置的结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下:
意图识别:识别出一句话中的意图,如“查天气”、“查邮编”等。
依存句法分析:分析句子汇总各个词语之间的依存关系,也即指出词语之间在句法上的搭配关系。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
现有的意图识别方法主要有两种:
一种是基于规则模板构建的意图识别方法。
该方法需要根据提前收集到的意图语料,通过分词、依存句法分析等相关技术分析句子成分,并基于这些成分之间的组合关系为每个意图人工构造合适的规则模板,预测阶段与规则模板成功匹配的问句即为该意图。
该方法的优点是规则构建简单易行且准确度高,缺点是召回率低,通用性低,规则编写复杂,完全依赖人工完成,无法动态从语料中生成。
另一种是基于机器学习的意图识别方法。
该方法需要提前人工标注大量的意图语料集合,经过自然语言处理提取句子特征,构造统计机器学习模型或者神经网络进行训练,得到意图识别模型。
该方法的优点是无需构建冗长的规则,缺点是往往需要大量的语料集进行训练,且对于误分类样本可解释性有限,且模型的调整修正需要重新训练,无法及时更新。
可见,基于规则模板构建和基于机器学习的意图识别方法都存在着一定的缺陷。
一方面,基于规则模板的意图识别方法虽然简单,但是现有方法无论利用关键词或是依存句法分析技术,都只在模型预测阶段借助分析结果与预设的意图模板进行匹配,由于其模板有限、固定,导致召回率低,泛化性能差。
另一方面,基于机器学习的意图识别方法对语料数量有要求,需要提前人工标注大量意图语料数据进行意图识别,不同规模的语料、不同结构的算法都会导致意图识别效果不可控,对误分类样本无法人工解释和及时调整意图识别结果。
最重要的是,上述两种方法都存在无法动态添加意图识别任务的问题,即在***所能支持的意图识别种类都是有限的,针对预先指定任务进行设计,业务人员若想增加新的意图识别任务,都需要算法人员的持续支持和***的更新,无法做到模型一次交付后,业务人员可根据需求任意添加配置新的意图识别任务,并能被模型自动适应、准确处理。
其中,基于规则模板构建的方法需要人工识别语句特征,规则编写技术复杂,针对新的意图识别任务需要专门的技术研发人员编写相应的识别规则模板,过程复杂;基于机器学习的意图识别方法由于监督学习的特点,造成其意图识别任务的扩充需要算法工程师针对扩充的任务收集语料并对原有模型进行重新训练;尽管理论上可以通过自动训练来实现这一过程,做到模型自训练,但训练过程同样需要大量语料和时间,且自动训练技术实施复杂,目前仅有少量大型企业采用此种方法。
由于业务的多样性与快速发展,上述问题影响机器人性能的同时还导致交付的机器人***很难及时适应业务需要,后续的不断更新又极大地提升了运营成本。
鉴于上述问题,本发明旨在提出一种轻量级的、敏捷的意图识别方法,并可以针对意图识别任务的动态添加自适应的生成意图相应的识别方案。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
请参阅附图1,图1为本发明实施例公开的一种意图识别方法的流程示意图,该方法包括如下步骤:
S101:获取待进行意图识别的目标语句。
本实施例中,待进行意图识别的目标语句具体可以为用户输入的语句。
S102:对所述目标语句进行处理,得到所述目标语句的关键要素。
在本实施例中,可以对目标语句进行处理,得到目标语句的关键要素,作为一种可实施方式,目标语句的关键要素包括核心名词、主语名词、主语修饰词、宾语名词、宾语修饰词、无主语动词、主语动词、核心实体、修饰实体九种关键要素。
S103:将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。
在本实施例中,可将目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集中对应的子集进行匹配,如果命中某个子集,则该子集对应的意图则可能为意图识别结果。
在本实施例中,可以预先基于模型训练的手段构建各个意图的关键要素参数集,并将各个意图的关键要素参数集进行存储,在对目标语句进行意图识别之前,可获取存储的各个意图的关键要素参数集。每个意图的关键要素参数集中可包括多个子集,作为一种可实施方式,每个意图的关键要素参数集中可包括核心名词子集、主语名词子集、主语修饰词子集、宾语名词子集、宾语修饰词子集、无主语动词子集、主语动词子集、核心实体子集、修饰实体子集九种。
本实施例公开了一种意图识别方法,所述方法包括:获取待进行意图识别的目标语句;对所述目标语句进行处理,得到所述目标语句的关键要素;将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。上述方法通过预先构建各个意图的关键要素参数集,在对目标语句进行意图识别时,提取目标语句的关键要素,并将目标语句的关键要素与各个意图关键要素参数集进行匹配即可获得意图识别结果,因此,能够保证聊天机器人及时适应业务需要。
在上述本发明公开的实施例的基础上,本发明公开了一种构建每个意图的关键要素参数集的实现方式,下面通过以下实施例详细说明。
请参阅附图2,图2为本发明公开的一种构建每个意图的关键要素参数集的方法的流程示意图,该方法包括如下步骤:
S201:获取所述每个意图对应的语料。
在本实施例中,每个意图对应的语料相对于现有的基于机器学习的意图识别方法所需语料,数量较少,比如可以为至少5个语句。
需要说明的是,在获取每个意图对应的语料之后,可以加载用户指定的专业术语词表以及实体名称集合,将用户指定的专业术语词表以及实体名称集合添加到分词词典并设置相应词性,另外,还可对每个意图对应的语料进行数据预处理,具体地,可根据实体名称集合,采用预设的统一字符(如entity_xxx)替换语料中的实体词,同时用实体词及预设的统一字符更新分词词典。
S202:对所述每个语料进行分词和词性标注,得到分词结果以及词性标注结果。
在本实施例中,可以采用分词工具对每个语料进行分词和词性标注,得到分词结果以及词性标注结果。
S203:对所述每个语料进行依存句法分析,得到依存句法分析结果。
在本实施例中,可以采用依存句法分析工具对每个语料进行依存句法分析,得到依存句法分析结果。
S204:根据所述词性标注结果以及所述依存句法分析结果从所述每个语料中提取所述每个语料的关键要素。
作为一种可实施方式,可对名词、动词、实体词三种词性,以及核心关系、主谓关系、动宾关系、定中关系四种依存句法关系从所述每个语料中提取核心名词、主语名词、主语修饰词、宾语名词、宾语修饰词、无主语动词、主语动词、核心实体、修饰实体九种关键要素。
基于如下假设,四种主要依存句法关系分别为核心关系HED、主谓关系SBV、动宾关系VOB、定中关系ATT,每个语料中9种关键要素分别为核心名词wn1、主语名词wn2、主语修饰词wn3、宾语名词wn4、宾语修饰词wn5、无主语动词wv1、主语动词wv2、核心实体we1、修饰实体we2。则:
1.当句子HED为名词时进行如下操作:
a)句子HED为名词词性且句子中仅有此一个关系成分,若HED为非实体词标记为核心名词wn1,否则标记为核心实体we1;
b)当HED为名词且存在名词性ATT成分,若ATT为实体词且HED为非实体词,分别标记为we2和wn1,若ATT非实体词且HED为实体词,则分别标记为wn1和we2,若二者均为非实体词,分别标记为wn2和wn3,否则若二者均为实体词,则均标记为we1。
2.句子HED为动词时进行如下操作:
a)如果句子中动词唯一且存在SBV时,依次寻找HED的名词性SBV和VOB,以及SBV的ATT和VOB的名词性ATT。当SBV不存在名词性ATT时,如果SBV是非实体词,则标记SBV为wn1,否则标记为we2。当SBV存在名词性ATT时,如果SBV非实体词ATT为实体词,则分别标记为wn1和we2;如果SBV为实体词ATT为非实体词,则分别标记为we2和wn1;如果SBV和ATT均不为实体词,分别标记为wn2和wn3;如果SBV和ATT均为实体词,则标记为we2。
当VOB不存在名词性ATT时,如果VOB是非实体词,则标记VOB为wn4,否则标记为we2。当VOB存在名词性ATT时,如果VOB非实体词ATT为实体词,则分别标记为wn4和we2;如果VOB为实体词ATT为非实体词,则分别标记为we2和wn4;如果VOB和ATT均为非实体词,分别标记为wn4和wn5;如果VOB和ATT均为实体词,则标记为we2。最后标记HED为wv2。
b)如果句子中动词唯一且不存在SBV时,寻找HED的名词性VOB以及VOB的名词性ATT。当VOB不存在名词性ATT时,如果VOB是非实体词,则标记VOB为wn1,否则标记为we1。当VOB存在名词性ATT时,如果VOB非实体词ATT为实体词,则分别标记为wn1和we2;如果VOB为实体词ATT为非实体词,则分别标记为we2和wn1;如果VOB和ATT均为非实体词,分别标记为wn2和wn3;如果VOB和ATT均为实体词,则标记为we1。最后标记HED为wv1。
c)如果句子中存在多个动词时,递归寻找HED的动词性VOB,直到找到最后一个动词VOB,寻找该VOB的名词性VOB及其名词性ATT。当不存在名词性VOB,则标记末尾动词VOB为wv1。当存在名词性VOB且不存在名词性ATT,如果VOB为实体词,则标记为we1,否则标记为wn1。当存在名词性VOB且存在名词性ATT,如果VOB为非实体词ATT为实体词,则分别标记为wn1和we2;如果VOB为实体词ATT为非实体词,则分别标记为we2和wn1;如果VOB和ATT均为非实体词,分别标记为wn2和wn3;如果VOB和ATT均为实体词,则标记为we1。则标记末尾动词VOB为wv1。
S205:根据所述每个语料的原始关键要素得到所述每个意图的原始关键要素参数集。
作为一种可实施方式,可将所述每个意图对应的各个语料的关键要素按照类型组合为核心名词子集、主语名词子集、主语修饰词子集、宾语名词子集、宾语修饰词子集、无主语动词子集、主语动词子集、核心实体子集、修饰实体子集九种原始关键要素子集,所述每个意图的原始关键要素参数集中包括所述九种原始关键要素子集。
S206:对所述每个意图的原始关键要素参数集进行相似词扩展,得到所述每个意图的关键要素参数集。
作为一种可实施方式,可获取预设词典;计算所述每个意图的原始关键要素参数集中的目标原始关键要素子集中的每个原始关键要素与所述预设词典中的各个词的相似度;确定所述预设词典中相似度大于预设相似度阈值的词为所述原始关键要素的同义词;将所述同义词添加至所述目标原始关键要素子集中。需要说明的是,预设词典可以为提前定义的同义词表或者外部语料训练的词向量。
在上述本发明公开的实施例的基础上,本发明公开了一种对所述目标语句进行处理,得到所述目标语句的关键要素的实现方式,下面通过以下实施例详细说明。
请参阅附图3,图3为本发明公开的一种对所述目标语句进行处理,得到所述目标语句的关键要素的方法的流程示意图,该方法包括如下步骤:
S301:对所述目标语句进行分词和词性标注,得到分词结果以及词性标注结果。
在本实施例中,可以采用分词工具对目标语句进行分词和词性标注,得到分词结果以及词性标注结果。
S302:对所述目标语句进行依存句法分析,得到依存句法分析结果。
在本实施例中,可以采用依存句法分析工具对目标语句进行依存句法分析,得到依存句法分析结果。
S303:根据所述词性标注结果以及所述依存句法分析结果从所述目标语句中提取关键要素。
作为一种可实施方式,可对名词、动词、实体词三种词性,以及核心关系、主谓关系、动宾关系、定中关系四种依存句法关系从所述目标语句中提取核心名词、主语名词、主语修饰词、宾语名词、宾语修饰词、无主语动词、主语动词、核心实体、修饰实体九种关键要素。
需要说明的是,本发明中将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果具体可以包括将所述目标语句的每种关键要素分别与预先构建的各个意图识别关键要素参数集进行匹配,得到所述每种关键要素命中的意图集合;确定所述每种关键要素命中的意图集合的交集为所述意图识别结果。
假设目标语句的关键要素包括核心名词tn1、主语名词tn2、主语修饰词tn3、宾语名词tn4、宾语修饰词tn5、无主语动词tv1、主语动词tv2、核心实体te1、修饰实体te2
将所述目标语句的每种关键要素分别与所述各个意图识别关键要素参数集进行匹配,得到所述每种关键要素命中的意图集合包括核心名词结果集合RN1、主语结果集合RN2、宾语结果集合RN3、无主语动词结果集合RV1、主语动词结果集合RV2、核心实体结果集合RE1、修饰实体结果集合RE2。
具体操作如下:
遍历每个意图,对于意图i进行如下操作:
a)如果tn1不为空且属于意图i的SN1,添加i至RN1。
b)如果tn2属于意图i的SN2且tn3属于意图i的SN3,添加i至RN2;如果tn2属于意图i的SN2且tn3为空,添加i至RN2;如果tn2和tn3的字符串拼接属于意图i的SN1,添加i至RN2;如果tn2属于意图i的SN1且tn3为空,添加i至RN2。
c)如果tn4属于意图i的SN4且tn5属于意图i的SN5,添加i至RN3;如果tn4属于意图i的SN4且tn5为空,添加i至RN3;如果tn4和tn5的字符串拼接属于意图i的SN1,添加i至RN3;如果tn4属于意图i的SN1且tn3为空,添加i至RN3。
d)如果tv1属于意图i的SV1集合,则添加意图i至RV1。
e)如果tv2属于意图i的SV2集合,则添加意图i至RV2。
f)如果te1属于意图i的SE1集合,则添加意图i至RE1。
g)如果te2属于意图i的SE2集合,则添加意图i至RE2。
2.对各成分命中结果进行汇总,得出最后的预测结果:
a)如果所有非空的目标关键要素均未命中任何意图,即RN1、RN2、RN3、RV1、RV2、RE1、RE2均为空集,则最终的意图识别结果为未识别到意图;
b)如果RV1或者RV2不为空,且RN1、RN2和RN3为空,则最终的意图识别结果为未识别到意图;
返回各非空目标关键要素的意图匹配结果集合的交集作为意图识别结果。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
请参阅附图4,图4为本发明实施例提供的一种意图识别装置的结构示意图,所述装置包括:
目标语句获取单元41,用于获取待进行意图识别的目标语句;
处理单元42,用于对所述目标语句进行处理,得到所述目标语句的关键要素;
匹配单元43,用于将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。
作为一种可实施方式,所述处理单元,包括:
分词和词性标注单元,用于对所述目标语句进行分词和词性标注,得到分词结果以及词性标注结果;
依存句法分析单元,用于对所述目标语句进行依存句法分析,得到依存句法分析结果;
关键要素提取单元,用于根据所述词性标注结果以及所述依存句法分析结果从所述目标语句中提取关键要素。
需要说明的是,上述各个单元的具体实现已在方法实施例中详细说明,本实施例不再赘述。
综上所述:
本发明无需算法人员手动更新且对语料数量要求极低,业务人员仅需提供少量意图样本例句即可,本发明中的方法将尽量复用各样本例句关键信息,尽大可能减少关键信息重复键入的必要性。
本发明的意图识别方法基于小语料集,配置简单,对算力要求不高,且过程高度自动化,无需编辑复杂的规则模板,也不需要大量语料为每个意图单独训练合适的机器学习模型,因此不需专门的技术人员进行支持,可由业务人员直接使用,学习门槛低,并且本方法支持针对意图识别任务的动态增删的自适应训练,具有高敏捷性。算法基于句法成分分析,可解释性强。总之,本发明的方法大大减少了意图识别流程所需的算法研发步骤,简化了意图识别模型的实施流程,减少了训练模型以及后续维护模型所需的工作量。
本发明中采用了依存句法分析提取每个意图下的关键要素作为意图识别模型参数集合,这在样本数量不是很多时依然可以实施,解决了基于机器学习的意图识别方法需要大量意图标注语料的问题,且相比基于复杂算法的机器学习模型本方法可解释性更强。
本发明利用词向量等技术对意图关键要素集合进行相似词扩展,相比于规则匹配方法进一步提高模型的泛化性能。
本发明支持动态添加或者修改意图语料,基于新语料可以自动重新训练得到新的意图识别模型,不需要手动修改模型,解决了现有意图识别模型无法基于动态认为语料自动生成的问题。且相比基于复杂机器学习模型自动训练的方法,本发明更加简单敏捷,无需较多语料和算力支持,速度快。
本发明所提出的方法在实施交付后维护简单,无需专业的技术人员进行模型更新或规则扩展。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种意图识别方法,其特征在于,所述方法包括:
获取待进行意图识别的目标语句;
对所述目标语句进行处理,得到所述目标语句的关键要素;
将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标语句进行处理,得到所述目标语句的关键要素,包括:
对所述目标语句进行分词和词性标注,得到分词结果以及词性标注结果;
对所述目标语句进行依存句法分析,得到依存句法分析结果;
根据所述词性标注结果以及所述依存句法分析结果从所述目标语句中提取关键要素。
3.根据权利要求1所述的方法,其特征在于,所述每个意图的关键要素参数集是采用如下方式构建的:
获取所述每个意图对应的语料;
对所述每个语料进行分词和词性标注,得到分词结果以及词性标注结果;
对所述每个语料进行依存句法分析,得到依存句法分析结果;
根据所述词性标注结果以及所述依存句法分析结果从所述每个语料中提取所述每个语料的关键要素;
根据所述每个语料的原始关键要素得到所述每个意图的原始关键要素参数集;
对所述每个意图的原始关键要素参数集进行相似词扩展,得到所述每个意图的关键要素参数集。
4.根据权利要求3所述的方法,其特征在于,所述根据所述词性标注结果以及所述依存句法分析结果从所述每个语料中提取所述每个语料的关键要素,包括:
对名词、动词、实体词三种词性,以及核心关系、主谓关系、动宾关系、定中关系四种依存句法关系从所述每个语料中提取核心名词、主语名词、主语修饰词、宾语名词、宾语修饰词、无主语动词、主语动词、核心实体、修饰实体九种关键要素。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个语料的关键要素得到所述每个意图的原始关键要素参数集,包括:
将所述每个意图对应的各个语料的关键要素按照类型组合为核心名词子集、主语名词子集、主语修饰词子集、宾语名词子集、宾语修饰词子集、无主语动词子集、主语动词子集、核心实体子集、修饰实体子集九种原始关键要素子集,所述每个意图的原始关键要素参数集中包括所述九种原始关键要素子集。
6.根据权利要求3所述的方法,其特征在于,对所述每个意图的原始关键要素参数集进行相似词扩展,包括:
获取预设词典;
计算所述每个意图的原始关键要素参数集中的目标原始关键要素子集中的每个原始关键要素与所述预设词典中的各个词的相似度;
确定所述预设词典中相似度大于预设相似度阈值的词为所述原始关键要素的同义词;
将所述同义词添加至所述目标原始关键要素子集中。
7.根据权利要求2所述的方法,其特征在于,所述根据所述词性标注结果以及所述依存句法分析结果从所述目标语句中提取关键要素,包括:
对名词、动词、实体词三种词性,以及核心关系、主谓关系、动宾关系、定中关系四种依存句法关系从所述目标语句中提取核心名词、主语名词、主语修饰词、宾语名词、宾语修饰词、无主语动词、主语动词、核心实体、修饰实体九种关键要素。
8.根据权利要求1所述的方法,其特征在于,所述将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果,包括:
将所述目标语句的每种关键要素分别与预先构建的各个意图识别关键要素参数集进行匹配,得到所述每种关键要素命中的意图集合;
确定所述每种关键要素命中的意图集合的交集为所述意图识别结果。
9.一种意图识别装置,其特征在于,所述装置包括:
目标语句获取单元,用于获取待进行意图识别的目标语句;
处理单元,用于对所述目标语句进行处理,得到所述目标语句的关键要素;
匹配单元,用于将所述目标语句的每种关键要素分别与预先构建的各个意图的关键要素参数集进行匹配,得到意图识别结果。
10.根据权利要求9所述的装置,其特征在于,所述处理单元,包括:
分词和词性标注单元,用于对所述目标语句进行分词和词性标注,得到分词结果以及词性标注结果;
依存句法分析单元,用于对所述目标语句进行依存句法分析,得到依存句法分析结果;
关键要素提取单元,用于根据所述词性标注结果以及所述依存句法分析结果从所述目标语句中提取关键要素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911000072.5A CN110765759B (zh) | 2019-10-21 | 2019-10-21 | 意图识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911000072.5A CN110765759B (zh) | 2019-10-21 | 2019-10-21 | 意图识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765759A true CN110765759A (zh) | 2020-02-07 |
CN110765759B CN110765759B (zh) | 2023-05-19 |
Family
ID=69332584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911000072.5A Active CN110765759B (zh) | 2019-10-21 | 2019-10-21 | 意图识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765759B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460117A (zh) * | 2020-03-20 | 2020-07-28 | 平安科技(深圳)有限公司 | 对话机器人意图语料生成方法、装置、介质及电子设备 |
CN111783425A (zh) * | 2020-06-28 | 2020-10-16 | 中国平安人寿保险股份有限公司 | 基于句法分析模型的意图识别方法及相关装置 |
CN111984789A (zh) * | 2020-08-26 | 2020-11-24 | 普信恒业科技发展(北京)有限公司 | 一种语料分类方法、装置及服务器 |
CN112102840A (zh) * | 2020-09-09 | 2020-12-18 | 中移(杭州)信息技术有限公司 | 语义识别方法、装置、终端及存储介质 |
CN112115705A (zh) * | 2020-09-23 | 2020-12-22 | 普信恒业科技发展(北京)有限公司 | 一种电子简历的筛选方法及装置 |
CN112328763A (zh) * | 2020-11-04 | 2021-02-05 | 北京京东尚科信息技术有限公司 | 意图识别的方法、装置、对话方法和*** |
CN112364139A (zh) * | 2020-11-02 | 2021-02-12 | 南京京恒信息技术有限公司 | 一种基于深度学习的医疗对话***意图识别分类方法 |
CN112784574A (zh) * | 2021-02-02 | 2021-05-11 | 网易(杭州)网络有限公司 | 一种文本分割方法、装置、电子设备及介质 |
CN115270786A (zh) * | 2022-09-27 | 2022-11-01 | 炫我信息技术(北京)有限公司 | 一种识别问句意图的方法、装置、设备和可读存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
US20090281900A1 (en) * | 2008-05-06 | 2009-11-12 | Netseer, Inc. | Discovering Relevant Concept And Context For Content Node |
CN104866511A (zh) * | 2014-02-26 | 2015-08-26 | 华为技术有限公司 | 一种添加多媒体文件的方法及设备 |
CN107862005A (zh) * | 2017-10-25 | 2018-03-30 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN107977387A (zh) * | 2016-10-25 | 2018-05-01 | 北京酷我科技有限公司 | 一种基于语义识别的歌曲推荐方法及*** |
CN108304466A (zh) * | 2017-12-27 | 2018-07-20 | ***股份有限公司 | 一种用户意图识别方法以及用户意图识别*** |
US20180278480A1 (en) * | 2017-03-27 | 2018-09-27 | Cisco Technology, Inc. | Intent Driven Network Policy Platform |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109346078A (zh) * | 2018-11-09 | 2019-02-15 | 泰康保险集团股份有限公司 | 语音交互方法、装置以及电子设备、计算机可读介质 |
CN109582968A (zh) * | 2018-12-04 | 2019-04-05 | 北京容联易通信息技术有限公司 | 一种语料中的关键信息的提取方法及装置 |
CN109597994A (zh) * | 2018-12-04 | 2019-04-09 | 挖财网络技术有限公司 | 短文本问题语义匹配方法和*** |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
CN109992651A (zh) * | 2019-03-14 | 2019-07-09 | 广州智语信息科技有限公司 | 一种问题目标特征自动识别和抽取方法 |
CN110147544A (zh) * | 2018-05-24 | 2019-08-20 | 清华大学 | 一种基于自然语言的指令生成方法、装置以及相关设备 |
CN110147445A (zh) * | 2019-04-09 | 2019-08-20 | 平安科技(深圳)有限公司 | 基于文本分类的意图识别方法、装置、设备及存储介质 |
-
2019
- 2019-10-21 CN CN201911000072.5A patent/CN110765759B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090281900A1 (en) * | 2008-05-06 | 2009-11-12 | Netseer, Inc. | Discovering Relevant Concept And Context For Content Node |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN104866511A (zh) * | 2014-02-26 | 2015-08-26 | 华为技术有限公司 | 一种添加多媒体文件的方法及设备 |
CN107977387A (zh) * | 2016-10-25 | 2018-05-01 | 北京酷我科技有限公司 | 一种基于语义识别的歌曲推荐方法及*** |
US20180278480A1 (en) * | 2017-03-27 | 2018-09-27 | Cisco Technology, Inc. | Intent Driven Network Policy Platform |
CN107862005A (zh) * | 2017-10-25 | 2018-03-30 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN108304466A (zh) * | 2017-12-27 | 2018-07-20 | ***股份有限公司 | 一种用户意图识别方法以及用户意图识别*** |
CN110147544A (zh) * | 2018-05-24 | 2019-08-20 | 清华大学 | 一种基于自然语言的指令生成方法、装置以及相关设备 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109346078A (zh) * | 2018-11-09 | 2019-02-15 | 泰康保险集团股份有限公司 | 语音交互方法、装置以及电子设备、计算机可读介质 |
CN109582968A (zh) * | 2018-12-04 | 2019-04-05 | 北京容联易通信息技术有限公司 | 一种语料中的关键信息的提取方法及装置 |
CN109597994A (zh) * | 2018-12-04 | 2019-04-09 | 挖财网络技术有限公司 | 短文本问题语义匹配方法和*** |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
CN109992651A (zh) * | 2019-03-14 | 2019-07-09 | 广州智语信息科技有限公司 | 一种问题目标特征自动识别和抽取方法 |
CN110147445A (zh) * | 2019-04-09 | 2019-08-20 | 平安科技(深圳)有限公司 | 基于文本分类的意图识别方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
侯丽仙: "面向任务口语理解研究现状综述", 《计算机工程与应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460117A (zh) * | 2020-03-20 | 2020-07-28 | 平安科技(深圳)有限公司 | 对话机器人意图语料生成方法、装置、介质及电子设备 |
CN111460117B (zh) * | 2020-03-20 | 2024-03-08 | 平安科技(深圳)有限公司 | 对话机器人意图语料生成方法、装置、介质及电子设备 |
WO2021184547A1 (zh) * | 2020-03-20 | 2021-09-23 | 平安科技(深圳)有限公司 | 对话机器人意图语料生成方法、装置、介质及电子设备 |
CN111783425B (zh) * | 2020-06-28 | 2023-04-18 | 中国平安人寿保险股份有限公司 | 基于句法分析模型的意图识别方法及相关装置 |
CN111783425A (zh) * | 2020-06-28 | 2020-10-16 | 中国平安人寿保险股份有限公司 | 基于句法分析模型的意图识别方法及相关装置 |
CN111984789A (zh) * | 2020-08-26 | 2020-11-24 | 普信恒业科技发展(北京)有限公司 | 一种语料分类方法、装置及服务器 |
CN111984789B (zh) * | 2020-08-26 | 2024-01-30 | 普信恒业科技发展(北京)有限公司 | 一种语料分类方法、装置及服务器 |
CN112102840A (zh) * | 2020-09-09 | 2020-12-18 | 中移(杭州)信息技术有限公司 | 语义识别方法、装置、终端及存储介质 |
CN112102840B (zh) * | 2020-09-09 | 2024-05-03 | 中移(杭州)信息技术有限公司 | 语义识别方法、装置、终端及存储介质 |
CN112115705A (zh) * | 2020-09-23 | 2020-12-22 | 普信恒业科技发展(北京)有限公司 | 一种电子简历的筛选方法及装置 |
CN112364139B (zh) * | 2020-11-02 | 2023-12-19 | 南京京恒信息技术有限公司 | 一种基于深度学习的医疗对话***意图识别分类方法 |
CN112364139A (zh) * | 2020-11-02 | 2021-02-12 | 南京京恒信息技术有限公司 | 一种基于深度学习的医疗对话***意图识别分类方法 |
CN112328763A (zh) * | 2020-11-04 | 2021-02-05 | 北京京东尚科信息技术有限公司 | 意图识别的方法、装置、对话方法和*** |
CN112784574B (zh) * | 2021-02-02 | 2023-09-15 | 网易(杭州)网络有限公司 | 一种文本分割方法、装置、电子设备及介质 |
CN112784574A (zh) * | 2021-02-02 | 2021-05-11 | 网易(杭州)网络有限公司 | 一种文本分割方法、装置、电子设备及介质 |
CN115270786A (zh) * | 2022-09-27 | 2022-11-01 | 炫我信息技术(北京)有限公司 | 一种识别问句意图的方法、装置、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110765759B (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765759B (zh) | 意图识别方法及装置 | |
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN108628906B (zh) | 短文本模板挖掘方法、装置、电子设备和可读存储介质 | |
US11205052B2 (en) | Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework | |
US20060129396A1 (en) | Method and apparatus for automatic grammar generation from data entries | |
CN110020422A (zh) | 特征词的确定方法、装置和服务器 | |
CN109584865B (zh) | 一种应用程序控制方法、装置、可读存储介质及终端设备 | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN111241813B (zh) | 语料扩展方法、装置、设备及介质 | |
CN110853625A (zh) | 语音识别模型分词训练方法、***、移动终端及存储介质 | |
JP2020135135A (ja) | 対話コンテンツ作成支援方法およびシステム | |
CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
CN110675863A (zh) | 语音语料生成方法及装置、语音识别方法及装置 | |
CN113850080A (zh) | 一种押韵词推荐方法、装置、设备及存储介质 | |
CN110309513B (zh) | 一种文本依存分析的方法和装置 | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN111062211A (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN112151021A (zh) | 语言模型的训练方法、语音识别方法、装置及电子设备 | |
CN115357720B (zh) | 基于bert的多任务新闻分类方法及装置 | |
CN112417875A (zh) | 配置信息的更新方法、装置、计算机设备及介质 | |
CN110633468A (zh) | 一种关于对象特征提取的信息处理方法及装置 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |