CN113672696A - 意图识别方法、装置、计算机设备和计算机可读存储介质 - Google Patents

意图识别方法、装置、计算机设备和计算机可读存储介质 Download PDF

Info

Publication number
CN113672696A
CN113672696A CN202110775413.7A CN202110775413A CN113672696A CN 113672696 A CN113672696 A CN 113672696A CN 202110775413 A CN202110775413 A CN 202110775413A CN 113672696 A CN113672696 A CN 113672696A
Authority
CN
China
Prior art keywords
intention
matching
text information
recognition
matching result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110775413.7A
Other languages
English (en)
Inventor
高春蓉
方敏
冯艳辉
俞青
应晶
傅亦婷
周醒烁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yishan Intelligent Medical Research Co ltd
Original Assignee
Zhejiang Yishan Intelligent Medical Research Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Yishan Intelligent Medical Research Co ltd filed Critical Zhejiang Yishan Intelligent Medical Research Co ltd
Priority to CN202110775413.7A priority Critical patent/CN113672696A/zh
Publication of CN113672696A publication Critical patent/CN113672696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种意图识别方法、装置、计算机设备和计算机存储介质,通过引入三层自动判断机制,对待识别意图的文本信息进行意图识别匹配,使意图识别匹配条件从严格到放松。意图识别经过完全正则匹配保证了意图识别的准确性,在完全匹配层无法匹配到待识别意图的文本信息的情况下,将待识别意图的文本输入训练完备的意图识别模型层进行匹配,充分保证了意图识别的泛化性能,最后在意图识别模型层识别失败的情况下,再次利用正则匹配规则进行模糊识别,确保准确、全面的实现意图识别,解决了现有的意图识别无法兼顾泛化性能及准确性的问题。

Description

意图识别方法、装置、计算机设备和计算机可读存储介质
技术领域
本申请涉及机器识别领域,特别是涉及意图识别方法、装置、计算机设备和计算机可读存储介质。
背景技术
用户意图识别的方法目前主要分为两大类,第一大类是基于正则匹配的方法,虽然使用此方法进行意图识别较为准确,但是泛化能力很差,通常会造成放宽一些匹配规则就会匹配到错误的意图,导致要实现大量的意图识别必须基于人为的编写大量的匹配规则,造成巨大的人力成本;另一类是基于深度学习,深度学习算法的泛化性能大大提高,但通常往往在一些简单的语句上识别出错误的意图。
针对相关技术中,用户意图识别无法兼顾泛化性能及准确性,目前尚未提出有效的解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种意图识别方法、装置、计算机设备。
第一方面,本申请实施例提供了一种意图识别方法,所述方法包括:
获取待识别意图的文本信息;
根据预先生成的正则匹配规则对所述文本信息进行完全匹配,得到第一匹配结果;
在所述第一匹配结果指示所述文本信息识别失败的情况下,利用训练完备的意图识别模型对所述文本信息进行识别,得到第二匹配结果;
在所述第二匹配结果指示所述文本信息识别失败的情况下,根据所述正则匹配规则中的关键词,对所述文本信息进行模糊匹配,得到第三匹配结果;
在所述第一匹配结果、所述第二匹配结果、或所述第三匹配结果指示所述文本信息识别成功的情况下,得到对应的意图识别结果。
在其中一些实施例中,在根据预先生成的正则匹配规则对所述文本信息进行完全匹配,得到第一匹配结果之前,所述方法还包括:
获取新增用户意图、所述新增用户意图中的关键词、所述关键词的同义词、以及所述关键词的近义词;
将所述关键词、所述关键词的同义词、所述关键词的近义词保存在词典中;
将所述关键词在所述新增用户意图中的位置定义为槽位,并将所述槽位和所述词典相关联,得到含有所述槽位的意图语义表达;
根据所述意图语义表达结合所述词典,生成所述正则匹配规则。
在其中一些实施例中,所述正则匹配规则的内容包括意图语句,以及与所述意图语句对应的槽位和词典;
所述词典中包括所述意图语句的关键词、所述关键词的同义词、以及所述关键词的近似词;
所述槽位与所述词典关联,所述槽位用于指示所述关键词、所述关键词的同义词、以及所述关键词的近似词在所述意图语句中的位置。
在其中一些实施例中,所述意图识别模型是基于BERT的预训练模型训练得到的。
在其中一些实施例中,所述在所述第一匹配结果指示所述文本信息识别失败的情况下,利用训练完备的意图识别模型对所述文本信息进行识别,得到第二匹配结果,包括:
利用所述训练完备的意图识别模型计算所述文本信息与所述正则匹配规则中的所有所述意图语句之间的相似度;
选取与所述文本信息之间具有最大相似度的所述意图语句作为预选意图,并判断所述最大相似度是否超过设定阈值;
若所述最大相似度超过所述设定阈值,则所述第二匹配结果指示所述文本信息识别成功。
在其中一些实施例中,所述意图识别方法还包括以下步骤:
定期更新所述意图识别模型。
在其中一些实施例中,所述获取待识别意图的文本信息,包括以下步骤:
获取用户输入意图;
对所述用户输入意图进行文本转换,得到所述待识别意图的文本信息。
在其中一些实施例中,所述意图识别结果包括问答类、设备操作指令类及结构化文本类。
第二个方面,在本实施例中提供了一种意图识别装置,所述装置包括文本信息获取模块、第一正则匹配模块、意图识别模型匹配模块、第二正则匹配模块、以及结果识别模块;
所述文本信息获取模块,用于获取待识别意图的文本信息;
所述第一正则匹配模块,用于根据预先生成的正则匹配规则对所述文本信息进行完全匹配,得到第一匹配结果;
所述意图识别模型匹配模块,用于在所述第一匹配结果指示所述文本信息识别失败的情况下,利用训练完备的意图识别模型对所述文本信息进行识别,得到第二匹配结果;
所述第二正则匹配模块,用于在所述第二匹配结果指示所述文本信息识别失败的情况下,根据所述正则匹配规则中的关键词,对所述文本信息进行模糊匹配,得到第三匹配结果;
所述结果识别模块,用于在所述第一匹配结果、所述第二匹配结果、或所述第三匹配结果指示所述文本信息识别成功的情况下,得到对应的意图识别结果。
第三个方面,在本实施例中提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的方法的步骤。
第四个方面,在本实施例中提供了计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一个方面所述的方法的步骤。
上述意图识别方法、装置、计算机设备和计算机存储介质,对待识别意图的文本信息进行意图识别匹配,意图识别匹配操作引入三层自动判断机制,第一匹配层按照完全正则匹配规则进行匹配,若匹配不上则进入第二匹配层,第二匹配层根据意图识别模型进行匹配,若匹配不上则进入第三匹配层,第三匹配层将意图的关键词作为匹配的主要标准。通过引入三层自动判断机制,使得意图识别匹配条件从严格到放松,意图识别经过完全正则匹配保证了意图识别的准确性,而且在完全匹配层无法匹配到待识别意图的文本信息的情况下,将待识别意图的文本输入训练完备的意图识别模型层进行匹配,充分保证了意图识别的泛化性能,最后在意图识别模型层识别失败的情况下,再次利用正则匹配规则进行模糊识别,确保准确、全面的实现意图识别,解决了现有的意图识别无法兼顾泛化性能及准确性的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的意图识别方法的应用场景图;
图2是根据本申请实施例的意图识别方法的流程图一;
图3是根据本申请实施例的意图识别方法的流程图二;
图4是根据本申请实施例的意图识别方法的流程图三;
图5是根据本申请实施例的意图识别装置的结构示意图;
图6是根据本申请实施例的意图识别计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
图1为一个实施例中意图识别方法的应用场景图。如图1所示,服务器101与移动终端102之间均可以通过网络进行数据传输。其中,移动终端102用于获取待识别的用户意图,并将该用户意图传输至服务器101中。在服务器101接收到该用户意图后,首先将该用户意图转化为待识别意图的文本信息,然后将将待识别意图的文本信息进行意图识别匹配,意图识别匹配操作引入三层自动判断机制,第一匹配层按照完全正则匹配规则进行匹配,若匹配不上则进入第二匹配层,第二匹配层根据意图识别模型取相似度最大的一个意图进行匹配,若匹配不上则进入第三匹配层,第三匹配层将意图的关键词作为匹配的主要标准,从而得到意图信息。其中,服务器101可以由独立的服务器或者是多个服务器组成的服务器集群来实现,移动终端102可以为任意一种带输入功能的显示屏。
本申请实施例提供了一种意图识别方法,如图2所示,该方法包括如下步骤:
步骤S210,获取待识别意图的文本信息。
待识别的意图即为用户输入的意图,可以是语音形式,也可以是文本形式,语音形式的待识别意图可以通过执行该方法的电子设备上配置的麦克风等声音传感器来接收,进而进行文本转换,得到待识别意图的文本信息。文本形式的待识别意图可以直接通过键盘、触摸屏等获取。
步骤S220,根据预先生成的正则匹配规则对待识别意图的文本信息进行完全匹配,得到第一匹配结果。
上述正则匹配规则可以是预先生成的且保存在数据库里的,可以根据具体的使用场景或者使用需求由用户设定。上述步骤S220为完全匹配步骤,即只有在其中存在某个正则匹配规则的意图语句和待识别意图的文本信息一模一样的情况下,第一匹配结果才会指示识别成功,否则就指示识别失败。通过上述全正则匹配过程,可以有效保证意图识别的准确性。
步骤S230,在第一匹配结果指示待识别意图的文本信息识别失败的情况下,利用训练完备的意图识别模型对待识别意图的文本信息进行识别,得到第二匹配结果。
在上述全正则匹配过程无法匹配到待识别意图的文本信息的情况下,将待识别意图的文本信息输入训练完备的意图识别模型进行进一步匹配。第二匹配结果输出模型的识别结果,满足要求会指示识别成功,否则就指示识别失败。由于意图识别模型是利用机器学习的原理进行识别,具有很好的泛化性能,从而有效弥补了完全正则匹配过程中可能产生的漏识别的漏洞。
步骤S240,在第二匹配结果指示待识别意图的文本信息识别失败的情况下,根据正则匹配规则中的关键词,对待识别意图的文本信息进行模糊匹配,得到第三匹配结果。
上述正则匹配规则中的关键词是预先设置好的,存储在词典或数据库中。关键词一般是可以代表整句话的意思的,并且没有歧义的词。比如“早点”和“早餐”在作为早饭的层面上意思一样,但是当“早点”被用来当关键词,正则匹配规则可能是“我想吃早点”,也有可能是“早点到”,所以“早点”这个词是有歧义的。所以为了让关键词能代表一句话的意思且没有歧义,在这种情况下优先选择“早餐”作为关键词。
相对于上述步骤S220的完全匹配步骤,步骤S240则为基于关键词的模糊匹配步骤。在该步骤中,只要待识别意图的文本信息中含有正则匹配规则中的关键词,即可指示识别成功。
基于关键词的模糊匹配,虽然条件已经很宽松,但大多数关键词其实是能够代表一整句话意思的,所以识别成功的概率也是很高的。
步骤S250,在第一匹配结果、第二匹配结果、或第三匹配结果指示待识别意图的文本信息识别成功的情况下,得到对应的意图识别结果。若第三匹配结果指示待识别意图的文本信息识别失败,则重新获取待识别的用户意图的文本信息。
上述实施例提供的意图识别方法,通过设计三层匹配算法,匹配条件从严格到放宽,首先通过正则匹配规则对待识别意图的文本信息进行完全匹配,优先保证匹配到的意图语句是最精准的。当最精准的条件无法满足时,利用训练完备的意图识别模型对待识别意图的文本信息进行识别,全面查找相似结果。当不满足意图识别模型匹配条件时,最后根据正则匹配规则中的关键词,对待识别意图的文本信息进行模糊匹配,实现全面广泛的识别。
上述步骤S210至S250,通过引入三层自动判断机制,其中,第一层完全正则匹配保证了意图识别的准确性,而且在完全正则匹配层无法匹配到待识别意图的文本信息的情况下,进一步将待识别意图的文本信息输入训练完备的意图识别模型层进行匹配,保证意图识别的泛化性能,最后在意图识别模型层识别失败的情况下,再次利用正则匹配规则进行模糊识别,确保准确、全面的实现意图识别,解决了现有的意图识别无法兼顾泛化性能及准确性的问题。
进一步地,如图3所示,在其中一个实施例中,在根据预先生成的正则匹配规则对文本信息进行完全匹配,得到第一匹配结果之前,还包括以下步骤:
步骤S211,获取新增用户意图、新增用户意图中的关键词、关键词的同义词、以及关键词的近义词。
当用户有自己的定制化意图时,用户新增意图并通过词典设置意图的关键词,包括意图关键词的同义词和近义词。比如用户的意图是“吃早饭”,在词典上设置用户意图的关键词是“早饭”,关键词的同义词和近义词是“早餐”和“早点”。
步骤S212,将关键词、关键词的同义词、关键词的近义词保存在词典中。将上述例子中的“早饭”、“早餐”和“早点”都保存在词典中。
步骤S213,将关键词在新增用户意图中的位置定义为槽位,并将槽位和词典相关联,得到含有槽位的意图语义表达。槽位就是上述例子中早饭所处的位置,含有槽位的一般意图表达形式就是“我要吃{}”。
步骤S214,根据意图语义表达结合词典,生成正则匹配规则。结合上述例子,因为对于“我要吃{}”这个一般意图表达,词典存放的关键词和关键词的近义词和同义词分别是“早饭”、“早餐”和“早点”,生成的正则表达匹配规则是“我要吃早饭”,“我要吃早餐”,“我要吃早点”。
由于数据库里存放的正则匹配规则数量是有限的,而用户的意图各式各样,数据库里存放的正则匹配规则无法保证可以完全满足所有用户的需求。当用户有自己的定制化意图时,通过上述方式可以将此定制化意图保存在数据库里,并通过槽位和词典地结合,生成多条和用户意图相似的表达。通过此方式不断地丰富正则匹配规则,为提高意图识别的准确性提供了基础。
相应地,在其中一个实施例中,正则匹配规则的内容包括意图语句,以及与意图语句对应的槽位和词典;
词典中包括意图语句的关键词、关键词的同义词、以及关键词的近似词;
槽位与词典关联,槽位用于指示关键词、关键词的同义词、以及关键词的近似词在意图语句中的位置。
如上述举例中意图语句是“我要吃早饭”,“我要吃早餐”,“我要吃早点”。与意图语句对应的槽位是“我要吃{}”,词典里包含有“早饭”、“早餐”和“早点”。通过槽位和词典的关联,当遇到槽位或词典的内容更新时,正则匹配规则可以自适应变化生成新的意图语句。
在其中一个实施例中,意图识别模型是基于BERT的预训练模型训练得到的。利用BERT的预训练模型训练预先生成的且保存在数据库里的正则匹配规则的意图语句,并对BERT预训练模型里transformer的参数进行微调,生成相应的符合预期的意图识别模型。当然还有其他的模型可以当做预训练模型,比如Siamese Network、磁带模型等等,但基于BERT的预训练模型在实际使用效果上是最优的。
进一步地,如图4所示,在其中一个实施例中,在第一匹配结果指示文本信息识别失败的情况下,利用训练完备的意图识别模型对文本信息进行识别,得到第二匹配结果,包括以下步骤:
步骤S231,利用训练完备的意图识别模型计算文本信息与正则匹配规则中的所有意图语句之间的相似度。BERT模型在自然语言处理上有很多重要的作用,比如对句子的分类、预测下一句以及判断语义相似度等。在此方法中采用的是BERT模型判断语义相似度的功能。
步骤S232,选取与文本信息之间具有最大相似度的意图语句作为预选意图,并判断最大相似度是否超过设定阈值。此阈值是可以人为设定,可以根据需求作调整。
步骤S233,若最大相似度超过设定阈值,则第二匹配结果指示文本信息识别成功,否则指示文本信息识别失败。
利用BERT模型计算两个句子相似度的大小并确定是否超过设定的阈值作为匹配的标准,从操作上来讲是十分简单的,不需要调用额外的接口就可以实现。从技术效果上来讲,BERT模型在计算句子相似度的功能是强大且稳定的。
在其中一个实施例中,意图识别方法还包括定期更新意图识别模型。为了提高意图识别的准确率,意图识别模型需要定期进行更新。到下次更新之前的所有的用户输入的语句会被存储起来作为训练素材,到了更新时间会将素材进行训练,通过此方式意图识别模型可以不断完善。
在其中一个实施例中,上述步骤S210获取待识别意图的文本信息,包括以下步骤:
获取用户输入意图。用户输入的意图信息可以是语音信息,也可以是文字信息,语音信息可以通过执行该方法的电子设备上配置的麦克风等声音传感器来接收。文字信息可以通过用户输入的方式来接收。用户输入意图的方式在此不作限定。
对用户输入意图进行文本转换,得到待识别意图的文本信息。如果用户输入的意图信息是语音信息,可以通过小工具将语音信息转化为文本信息;如果用户是通过手动输入的方式输入意图信息,则直接获取用户输入的文本信息。
在其中一个实施例中,意图识别结果被分为回答类、设备操作指令类及结构化文本类三种类型。回答类包括比如“今天几号”,“今天天气怎么样等”等。设备操作指令类包括:“开灯”、“开空调”、“放歌”等等。结构化文本类包括“体温是37℃”,“身高是180cm”等等。为了方便识别到用户意图的后续处理,将意图识别结果进行分类,可以针对不同类别的意图做出针对性的反应,比如将此方法应用于智能音箱,智能音箱可以和用户作相应的对话聊天或者其他操作。
本实施例还提供了一种意图识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。上述意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能被构想的。
图5是根据本发明实施例中意图识别装置的示意图,如图5所示,提供了一种意图识别装置60,该装置包括文本信息获取模块61,第一正则匹配模块62、意图识别模型匹配模块63、第二正则匹配模块64和结果识别模块65。
文本信息获取模块61,用于获取待识别意图的文本信息。
第一正则匹配模块62,用于根据预先生成的正则匹配规则对文本信息进行完全匹配,得到第一匹配结果;
意图识别模型匹配模块63,用于在第一匹配结果指示文本信息识别失败的情况下,利用训练完备的意图识别模型对文本信息进行识别,得到第二匹配结果;
第二正则匹配模块64,用于在第二匹配结果指示文本信息识别失败的情况下,根据正则匹配规则中的关键词,对文本信息进行模糊匹配,得到第三匹配结果;
结果识别模块65,用于在第一匹配结果、第二匹配结果、或第三匹配结果指示文本信息识别成功的情况下,得到对应的意图识别结果。
上述意图识别装置60用于对待识别意图的文本信息进行意图识别匹配,意图识别匹配操作引入三层自动判断机制,第一匹配层按照完全正则匹配规则进行匹配,若匹配不上则进入第二匹配层,第二匹配层根据意图识别模型进行匹配,若匹配不上则进入第三匹配层,第三匹配层将意图的关键词作为匹配的主要标准。通过引入三层自动判断机制,使得意图识别匹配条件从严格到放松,意图识别经过完全正则匹配保证了意图识别的准确性,而且在完全匹配层无法匹配到待识别意图的文本信息的情况下,将待识别意图的文本输入训练完备的意图识别模型层进行匹配,充分保证了意图识别的泛化性能,最后在意图识别模型层识别失败的情况下,再次利用正则匹配规则进行模糊识别,确保准确、全面的实现意图识别,解决了现有的意图识别无法兼顾泛化性能及准确性的问题。
在其中一个实施例中,意图识别装置60还包括获取新增用户意图模块,该获取新增用户意图模块用于获取新增用户意图、新增用户意图中的关键词、关键词的同义词、以及关键词的近义词,将关键词、关键词的同义词、关键词的近义词保存在词典中,将关键词在新增用户意图中的位置定义为槽位,并将槽位和词典相关联,得到含有槽位的意图语义表达;根据意图语义表达结合词典,生成正则匹配规则。
在其中一个实施例中,第一正则匹配模块62还用于保存并获取正则匹配规则的内容包括意图语句,以及与意图语句对应的槽位和词典,词典中包括意图语句的关键词、关键词的同义词、以及关键词的近似词,槽位与词典关联,槽位用于指示关键词、关键词的同义词、以及关键词的近似词在意图语句中的位置。
在其中一个实施例中,意图识别模型匹配模块63所用到的意图识别模型是基于BERT的预训练模型训练得到的。
在其中一个实施例中,意图识别模型匹配模块63还用于利用训练完备的意图识别模型计算文本信息与正则匹配规则中的所有意图语句之间的相似度;选取与文本信息之间具有最大相似度的意图语句作为预选意图,并判断最大相似度是否超过设定阈值;若最大相似度超过设定阈值,则第二匹配结果指示文本信息识别成功。
在其中一个实施例中,意图识别装置60还包括意图识别模型更新模块,用于定期更新意图识别模型。
在其中一个实施例中,文本信息获取模块61还用于获取用户输入意图,对用户输入意图进行文本转换,得到待识别意图的文本信息。
在其中一个实施例中,结果识别模块65还用于将意图识别结果分为回答类、设备操作指令类及结构化文本类。
需要说明地是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件实现,也可以通过硬件来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设配置信息集合。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述意图识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种意图识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别意图的文本信息;
根据预先生成的正则匹配规则对文本信息进行完全匹配,得到第一匹配结果;
在第一匹配结果指示文本信息识别失败的情况下,利用训练完备的意图识别模型对文本信息进行识别,得到第二匹配结果;
在第二匹配结果指示文本信息识别失败的情况下,根据正则匹配规则中的关键词,对文本信息进行模糊匹配,得到第三匹配结果;
在第一匹配结果、第二匹配结果、或第三匹配结果指示文本信息识别成功的情况下,得到对应的意图识别结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取新增用户意图、新增用户意图中的关键词、关键词的同义词、以及关键词的近义词;
将关键词、关键词的同义词、关键词的近义词保存在词典中;
将关键词在新增用户意图中的位置定义为槽位,并将槽位和词典相关联,得到含有槽位的意图语义表达;
根据意图语义表达结合词典,生成正则匹配规则。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取正则匹配规则的内容包括意图语句,以及与意图语句对应的槽位和词典;
词典中包括意图语句的关键词、关键词的同义词、以及关键词的近似词;
槽位与词典关联,槽位用于指示关键词、关键词的同义词、以及关键词的近似词在意图语句中的位置。
在一个实施例中,处理器执行计算机程序时还实现基于BERT的预训练模型训练得到意图识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
利用训练完备的意图识别模型计算文本信息与正则匹配规则中的所有意图语句之间的相似度;
选取与文本信息之间具有最大相似度的意图语句作为预选意图,并判断最大相似度是否超过设定阈值;
若最大相似度超过设定阈值,则第二匹配结果指示文本信息识别成功。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
定期更新意图识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将意图识别结果分为回答类、设备操作指令类及结构化文本类。
上述存储介质,通过对待识别意图的文本信息进行意图识别匹配,意图识别匹配操作引入三层自动判断机制,第一匹配层按照完全正则匹配规则进行匹配,若匹配不上则进入第二匹配层,第二匹配层根据意图识别模型进行匹配,若匹配不上则进入第三匹配层,第三匹配层将意图的关键词作为匹配的主要标准。通过引入三层自动判断机制,使得意图识别匹配条件从严格到放松,意图识别经过完全正则匹配保证了意图识别的准确性,而且在完全匹配层无法匹配到待识别意图的文本信息的情况下,将待识别意图的文本输入训练完备的意图识别模型层进行匹配,充分保证了意图识别的泛化性能,最后在意图识别模型层识别失败的情况下,再次利用正则匹配规则进行模糊识别,确保准确、全面的实现意图识别,解决了现有的意图识别无法兼顾泛化性能及准确性的问题。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种意图识别方法,其特征在于,所述方法包括:
获取待识别意图的文本信息;
根据预先生成的正则匹配规则对所述文本信息进行完全匹配,得到第一匹配结果;
在所述第一匹配结果指示所述文本信息识别失败的情况下,利用训练完备的意图识别模型对所述文本信息进行识别,得到第二匹配结果;
在所述第二匹配结果指示所述文本信息识别失败的情况下,根据所述正则匹配规则中的关键词,对所述文本信息进行模糊匹配,得到第三匹配结果;
在所述第一匹配结果、所述第二匹配结果、或所述第三匹配结果指示所述文本信息识别成功的情况下,得到对应的意图识别结果。
2.根据权利要求1所述的意图识别方法,其特征在于,在根据预先生成的正则匹配规则对所述文本信息进行完全匹配,得到第一匹配结果之前,所述方法还包括:
获取新增用户意图、所述新增用户意图中的关键词、所述关键词的同义词、以及所述关键词的近义词;
将所述关键词、所述关键词的同义词、所述关键词的近义词保存在词典中;
将所述关键词在所述新增用户意图中的位置定义为槽位,并将所述槽位和所述词典相关联,得到含有所述槽位的意图语义表达;
根据所述意图语义表达结合所述词典,生成所述正则匹配规则。
3.根据权利要求1所述的意图识别方法,其特征在于,所述正则匹配规则的内容包括意图语句,以及与所述意图语句对应的槽位和词典;
所述词典中包括所述意图语句的关键词、所述关键词的同义词、以及所述关键词的近似词;
所述槽位与所述词典关联,所述槽位用于指示所述关键词、所述关键词的同义词、以及所述关键词的近似词在所述意图语句中的位置。
4.根据权利要求1所述的意图识别方法,其特征在于,所述意图识别模型是基于BERT的预训练模型训练得到的。
5.根据权利要求1所述的意图识别方法,其特征在于,所述在所述第一匹配结果指示所述文本信息识别失败的情况下,利用训练完备的意图识别模型对所述文本信息进行识别,得到第二匹配结果,包括:
利用所述训练完备的意图识别模型计算所述文本信息与所述正则匹配规则中的所有所述意图语句之间的相似度;
选取与所述文本信息之间具有最大相似度的所述意图语句作为预选意图,并判断所述最大相似度是否超过设定阈值;
若所述最大相似度超过所述设定阈值,则所述第二匹配结果指示所述文本信息识别成功。
6.根据权利要求1至5任一项所述的意图识别方法,其特征在于,还包括以下步骤:
定期更新所述意图识别模型。
7.根据权利要求1至5任一项所述的意图识别方法,其特征在于,所述获取待识别意图的文本信息,包括以下步骤:
获取用户输入意图;
对所述用户输入意图进行文本转换,得到所述待识别意图的文本信息。
8.根据权利要求1至5任一项所述的意图识别方法,其特征在于,所述意图识别结果包括问答类、设备操作指令类及结构化文本类。
9.一种意图识别装置,其特征在于,所述装置包括文本信息获取模块、第一正则匹配模块、意图识别模型匹配模块、第二正则匹配模块、以及结果识别模块;
所述文本信息获取模块,用于获取待识别意图的文本信息;
所述第一正则匹配模块,用于根据预先生成的正则匹配规则对所述文本信息进行完全匹配,得到第一匹配结果;
所述意图识别模型匹配模块,用于在所述第一匹配结果指示所述文本信息识别失败的情况下,利用训练完备的意图识别模型对所述文本信息进行识别,得到第二匹配结果;
所述第二正则匹配模块,用于在所述第二匹配结果指示所述文本信息识别失败的情况下,根据所述正则匹配规则中的关键词,对所述文本信息进行模糊匹配,得到第三匹配结果;
所述结果识别模块,用于在所述第一匹配结果、所述第二匹配结果、或所述第三匹配结果指示所述文本信息识别成功的情况下,得到对应的意图识别结果。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202110775413.7A 2021-07-08 2021-07-08 意图识别方法、装置、计算机设备和计算机可读存储介质 Pending CN113672696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775413.7A CN113672696A (zh) 2021-07-08 2021-07-08 意图识别方法、装置、计算机设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775413.7A CN113672696A (zh) 2021-07-08 2021-07-08 意图识别方法、装置、计算机设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113672696A true CN113672696A (zh) 2021-11-19

Family

ID=78538702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775413.7A Pending CN113672696A (zh) 2021-07-08 2021-07-08 意图识别方法、装置、计算机设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113672696A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706945A (zh) * 2022-03-24 2022-07-05 马上消费金融股份有限公司 意图识别方法、装置、电子设备及存储介质
CN114861670A (zh) * 2022-07-07 2022-08-05 浙江一山智慧医疗研究有限公司 基于已知标签学习未知标签的实体识别方法、装置及应用
CN115017886A (zh) * 2022-04-25 2022-09-06 中国平安人寿保险股份有限公司 文本匹配方法、文本匹配装置、电子设备及存储介质
CN115793923A (zh) * 2023-02-09 2023-03-14 深圳市泛联信息科技有限公司 一种人机界面运动轨迹识别方法、***、设备及介质
CN116580408A (zh) * 2023-06-06 2023-08-11 上海任意门科技有限公司 一种图像生成方法、装置、电子设备及存储介质
CN116662555A (zh) * 2023-07-28 2023-08-29 成都赛力斯科技有限公司 一种请求文本处理方法、装置、电子设备及存储介质
CN116996254A (zh) * 2023-06-25 2023-11-03 上海计算机软件技术开发中心 一种自动化挖掘车载信息娱乐***漏洞的方法及***
CN117725185A (zh) * 2024-02-06 2024-03-19 河北神玥软件科技股份有限公司 智能对话生成方法及***

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706945A (zh) * 2022-03-24 2022-07-05 马上消费金融股份有限公司 意图识别方法、装置、电子设备及存储介质
CN115017886A (zh) * 2022-04-25 2022-09-06 中国平安人寿保险股份有限公司 文本匹配方法、文本匹配装置、电子设备及存储介质
CN114861670A (zh) * 2022-07-07 2022-08-05 浙江一山智慧医疗研究有限公司 基于已知标签学习未知标签的实体识别方法、装置及应用
CN115793923A (zh) * 2023-02-09 2023-03-14 深圳市泛联信息科技有限公司 一种人机界面运动轨迹识别方法、***、设备及介质
CN116580408A (zh) * 2023-06-06 2023-08-11 上海任意门科技有限公司 一种图像生成方法、装置、电子设备及存储介质
CN116580408B (zh) * 2023-06-06 2023-11-03 上海任意门科技有限公司 一种图像生成方法、装置、电子设备及存储介质
CN116996254A (zh) * 2023-06-25 2023-11-03 上海计算机软件技术开发中心 一种自动化挖掘车载信息娱乐***漏洞的方法及***
CN116662555A (zh) * 2023-07-28 2023-08-29 成都赛力斯科技有限公司 一种请求文本处理方法、装置、电子设备及存储介质
CN116662555B (zh) * 2023-07-28 2023-10-20 成都赛力斯科技有限公司 一种请求文本处理方法、装置、电子设备及存储介质
CN117725185A (zh) * 2024-02-06 2024-03-19 河北神玥软件科技股份有限公司 智能对话生成方法及***
CN117725185B (zh) * 2024-02-06 2024-05-07 河北神玥软件科技股份有限公司 智能对话生成方法及***

Similar Documents

Publication Publication Date Title
CN113672696A (zh) 意图识别方法、装置、计算机设备和计算机可读存储介质
WO2021047286A1 (zh) 文本处理模型的训练方法、文本处理方法及装置
CN109815333B (zh) 信息获取方法、装置、计算机设备和存储介质
WO2020147428A1 (zh) 交互内容生成方法、装置、计算机设备及存储介质
CN107480122B (zh) 人工智能交互方法及人工智能交互装置
US20190164064A1 (en) Question and answer interaction method and device, and computer readable storage medium
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
US10896222B1 (en) Subject-specific data set for named entity resolution
US10997223B1 (en) Subject-specific data set for named entity resolution
CN110852086A (zh) 基于人工智能的古诗词生成方法、装置、设备及存储介质
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN108345612B (zh) 一种问题处理方法和装置、一种用于问题处理的装置
US10592542B2 (en) Document ranking by contextual vectors from natural language query
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN113505198B (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN112052318A (zh) 一种语义识别方法、装置、计算机设备和存储介质
CN112686051A (zh) 语义识别模型训练方法、识别方法、电子设备、存储介质
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN113343108A (zh) 推荐信息处理方法、装置、设备及存储介质
CN111444321B (zh) 问答方法、装置、电子设备和存储介质
EP3186707B1 (en) Method of and system for processing a user-generated input command
CN116821307B (zh) 内容交互方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination