CN109388700A - 一种意图识别方法及*** - Google Patents

一种意图识别方法及*** Download PDF

Info

Publication number
CN109388700A
CN109388700A CN201811261657.8A CN201811261657A CN109388700A CN 109388700 A CN109388700 A CN 109388700A CN 201811261657 A CN201811261657 A CN 201811261657A CN 109388700 A CN109388700 A CN 109388700A
Authority
CN
China
Prior art keywords
regular expression
speech
intention
voice messaging
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811261657.8A
Other languages
English (en)
Inventor
魏誉荧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201811261657.8A priority Critical patent/CN109388700A/zh
Publication of CN109388700A publication Critical patent/CN109388700A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于意图识别技术领域,公开了一种意图识别方法及***,其方法包括:建立意图相同且词性组合顺序不同的正则表达式的正则库;获取用户输入的语音信息;对所述语音信息进行分词,并标注词性;根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;根据所述目标正则表达式,识别所述用户的意图。本发明通过查找到与语音信息匹配的正则表达式来识别用户的意图,对于意图相同句式不同的句子可准确地识别出用户的意图,不仅可简化处理过程,而且识别准确率较高。

Description

一种意图识别方法及***
技术领域
本发明属于意图识别技术领域,特别涉及一种意图识别方法及***。
背景技术
随着智能终端及网络技术的迅速发展,人们越来越习惯地使用智能终端完成各种需求,如在学习的过程中,碰到不理解的知识点、不会解的习题时,在智能学习设备中语音输入相关内容,智能学习设备通过识别用户的意图,来为用户推荐相应的答案和知识讲解,以便对用户进行学习辅导。
目前,在人机交互场景中,准确理解用户的意图是做出正确应答的基础。但是,由于用户在讲话过程中,经常会出现语言顺序和逻辑颠倒错乱,意思相同但句式不同的情况,这种话语会导致意图识别结果不准确,使得智能设备无法准确的理解用户的真实意图,从而无法为用户推荐符合其需求的内容,使得用户的体验感较差,不利于产品的推广和使用。
发明内容
本发明的目的是提供一种意图识别方法及***,实现提高意图识别准确率的目的。
本发明提供的技术方案如下:
一方面,提供一种意图识别方法,包括:
建立意图相同且词性组合顺序不同的正则表达式的正则库;
获取用户输入的语音信息;
对所述语音信息进行分词,并标注词性;
根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
根据所述目标正则表达式,识别所述用户的意图。
优选地,所述的建立意图相同且词性组合顺序不同的正则表达式的正则库具体包括:
获取若干语料信息;
对所述语料信息进行分词,并标注词语的词性;
在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式;
将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
优选地,所述的在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式之后,所述的将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库之前还包括:
在不改变每条语料信息的意图的情况下,在所述每条语料信息中加入连接词,生成新正则表达式;
所述的将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库具体包括:
将所述语料信息对应的正则表达式和对应的新正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
优选地,所述的在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式之后还包括:
根据所述目标正则表达式,输出与所述语音信息意图相同、句式不同的语句。
优选地,所述的根据所述目标正则表达式,识别所述用户的意图具体包括:
根据所述目标正则表达式,得到与所述目标正则表达式对应的意图识别规则;
根据所述意图识别规则及所述语音信息中的词语的词性,识别所述用户的意图。
另一方面,还提供一种意图识别***,包括:
正则库建立模块,用于建立意图相同且词性组合顺序不同的正则表达式的正则库;
语音获取模块,用于获取用户输入的语音信息;
分词标注模块,用于对所述语音信息进行分词,并标注词性;
正则表达式生成模块,用于根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
查找模块,用于在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
识别模块,用于根据所述目标正则表达式,识别所述用户的意图。
优选地,所述正则库建立模块包括:
语料获取单元,用于获取若干语料信息;
分词标注单元,用于对所述语料信息进行分词,并标注词语的词性;
正则表达式生成单元,用于在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式;
正则库建立单元,用于将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
优选地,所述正则表达式生成单元,还用于在不改变每条语料信息的意图的情况下,在所述每条语料信息中加入连接词,生成新正则表达式;
所述正则库建立单元,还用于将所述语料信息对应的正则表达式和对应的新正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
优选地,还包括:
语句输出模块,用于根据所述目标正则表达式,输出与所述语音信息意图相同、句式不同的语句。
优选地,所述识别模块包括:
识别规则获取单元,用于根据所述目标正则表达式,得到与所述目标正则表达式对应的意图识别规则;
意图识别单元,用于根据所述意图识别规则及所述语音信息中的词语的词性,识别所述用户的意图。
与现有技术相比,本发明提供的一种意图识别方法及***具有以下有益效果:
1、本发明先建立正则库,然后将用户输入的语音信息转换为正则表达式,再根据语音信息的正则表达式在正则库中查找到对应的目标正则表达式,最后根据目标正则表达式即可识别出用户的意图;本发明通过查找到与语音信息匹配的正则表达式来识别用户的意图,对于意图相同句式不同的句子可准确地识别出用户的意图,不仅可简化处理过程,而且识别准确率较高。
2、本发明通过在正则表达式中加入连接词,以充分考虑连接词的存在对意图的影响,使得意图识别方法更加全面准确。
3、本发明的意图识别方法,还可用于生成意图相同、句式不同的语句,以解决在语言学习过程中的中文句式转换的问题。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种意图识别方法及***的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种意图识别方法的第一实施例的流程示意图;
图2是本发明一种意图识别方法的第二实施例的流程示意图;
图3是本发明一种意图识别方法的第三实施例的流程示意图;
图4是本发明一种意图识别方法的第四实施例的流程示意图;
图5是本发明一种意图识别方法的第五实施例的流程示意图;
图6是本发明一种意图识别***的一个实施例的结构示意框图;
图7是本发明一种意图识别***的另一个实施例的结构示意框图;
图8是本发明一种意图识别***的又一个实施例的结构示意框图;
图9是本发明一种意图识别***的再一个实施例的结构示意框图。
附图标号说明
100、正则库建立模块; 110、语料获取单元;
120、分词标注单元; 130、正则表达式生成单元;
140、正则库建立单元; 200、语音获取模块;
300、分词标注模块; 400、正则表达式生成模块;
500、查找模块; 600、识别模块;
610、识别规则获取单元; 620、意图识别单元;
700、语句输出模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
根据本发明提供的第一实施例,如图1所示,一种意图识别方法,包括:
S100建立意图相同且词性组合顺序不同的正则表达式的正则库;
具体地,正则库中包括多条正则表达式:正则表达式1、正则表达式2、正则表达式3、正则表达式4、正则表达式5,......,正则表达式N。在正则库内每条正则表达式对应一个或多个意图相同且词性组合顺序不同的词性组合。当一条正则表达式无法将意图相同且词性组合顺序不同的词性组合全部囊括时,可以将不能囊括的词性组合另外生成一条正则表达式。每条正则表达式对应一个意图(语义)解析规则。
例如,一条语句是“打电话给妈妈”,其还可以变换为“给妈妈打电话”或“打给妈妈电话”,“打电话给妈妈”对应的词性组合为“动词+名词+介词+名词”,“给妈妈打电话”的词性组合为“介词+名词+动词+名词”,“打给妈妈电话”的词性组合为“动词+介词+名词+名词”,将这三种词性组合生成一个正则表达式。
S200获取用户输入的语音信息;
具体地,可通过麦克风等语音采集设备实时采集用户输入的语音信息。
S300对所述语音信息进行分词,并标注词性;
具体地,对语音信息进行分词,可首先将用户的语音信息转化为识别文本,然后对识别文本进行分词。分词可采用现有技术中的分词方法,例如正向最大匹配法、反向最大匹配法、最短路径分词法、双向最大匹配法等。本实施例对分词方法的选用不作限定,使用时,可根据实际条件选择合适的分词方法。
将识别文本分词后,标注分词后的词语的词性,词性包括:名词、动词、副词、介词、形容词等等。
S400根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
具体地,对语音信息中的词语进行分词并标注词性后,根据词语的词性和词语所处的位置,生成词性组合的正则表达式。
例如,语音信息为“给妈妈打电话”,对“给妈妈打电话”分词后得到“给,妈妈,打,电话”,根据分词后的词性和各个词语在语音信息中的位置,得到的词性组合顺序为“介词+名词+动词+名词”,根据该词性组合顺序,即可生成对应的词性组合的正则表达式。
S500在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
具体地,根据语音信息生成对应的正则表达式后,则在正则库中查找到与语音信息的正则表达式相匹配的正则表达式作为目标正则表达式。
S600根据所述目标正则表达式,识别所述用户的意图。
具体地,查找到目标正则表达式后,根据目标正则表达式对应的意图识别规则,即可识别出用户的意图。
本实施例中,先建立正则库,然后将用户输入的语音信息转换为正则表达式,再根据语音信息的正则表达式在正则库中查找到对应的目标正则表达式,最后根据目标正则表达式即可识别出用户的意图;本发明通过查找到与语音信息匹配的正则表达式来识别用户的意图,对于意图相同句式不同的句子可准确地识别出用户的意图,不仅可简化处理过程,而且识别准确率较高。
根据本发明提供的第二实施例,如图2所示,一种意图识别方法,包括:
S110获取若干语料信息;
具体地,为了建立数据完整的正则表达式的正则库,需要收集大量的语料信息,在收集语料时,可以根据不同的用户群体进行收集,如意图识别产品用于智能学习产品上,则其用户群体为学生,因此,我们可以收集大量学生的语料,通过分析学生的语料,以建立更符合小学生的说话特点的正则库。当产品的用户群体为成人时,则可收集成人的语料,通过分析成人的语料,以建立更符合成人的说话特点的正则库。
S120对所述语料信息进行分词,并标注词语的词性;
具体地,收集语料后,对每条语料信息进行分词,并标注分词后每条语料信息中的词语的词性。
S130在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式;
具体地,在不改变每条语料信息的意图的情况下,对分词后的每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式。
例如,某一条语料的意图是给妈妈打电话,对其分词后得到“给,妈妈,打,电话”,在不改变其原意图的情况下,对其进行组合得到“打电话给妈妈”,“给妈妈打电话”或“打给妈妈电话”,对应得到的词性组合为“动词+名词+介词+名词”、“介词+名词+动词+名词”和“动词+介词+名词+名词”,将这三种词性组合生成一个正则表达式,则得到每条语料信息对应的词性组合的正则表达式。
通过上述方法得到每条语料信息对应的词性组合的正则表达式。
S140将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库;
具体地,得到每条语料信息对应的词性组合的正则表达式后,对正则表达式进行分类组合,如“给妈妈打电话”还可以为“给妈妈打一个电话”,“给妈妈打一个电话”的词性组合顺序是介词+名词+动词+量词+名词,即将“给妈妈打一个电话”对应的词性组合顺序对应的正则表达式与“给妈妈打电话”对应的正则表达式归为一类,如这两者的正则表达式可以组合写为一个正则表达式则组合为一个正则表达式,如不能组合,则对应两个正则表达式,即意图相同且词性组合顺序不同的正则表达式可以为一个或多个。
如建立后的正则库中包括多条正则表达式:正则表达式1、正则表达式2、正则表达式3、正则表达式4、正则表达式5,正则表达式6,......,正则表达式N。在正则库内正则表达式1对应一个或多个意图相同且词性组合顺序不同的词性组合。当正则表达式1无法将意图相同且词性组合顺序不同的词性组合全部囊括时,可以将不能囊括的词性组合另外生成一条正则表达式2,即正则表达式1和正则表达式2对应同一个意图。且每条正则表达式对应一个意图(语义)解析规则。
S200获取用户输入的语音信息;
S300对所述语音信息进行分词,并标注词性;
S400根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
S500在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
S600根据所述目标正则表达式,识别所述用户的意图。
根据本发明提供的第三实施例,如图3所示,一种意图识别方法,包括:
S110获取若干语料信息;
S120对所述语料信息进行分词,并标注词语的词性;
S130在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式;
S135在不改变每条语料信息的意图的情况下,在所述每条语料信息中加入连接词,生成新正则表达式;
具体地,在中文中,还存在主动句和被动句等句式逻辑不同但意图相同的情况,为充分考虑这种情况,我们在不改变每条语料信息的意图的情况下,在每条语料信息中加入连接词(如把、被等),将每条语料信息的词性组合顺序进行变换,生成新正则表达式。
S141将所述语料信息对应的正则表达式和对应的新正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库;
具体地,在不改变每条语料信息的意图的情况下,在每条语料信息中加入连接词,得到新的正则表达式后,将未加入连接词的原正则表达式与加入连接词后的新正则表达式进行分类组合,即将可组合成一个正则表达式的原正则表达式和新正则表达式进行组合,将不能组合成一个正则表达式的原正则表达式和新正则表达式进行保留,不能组合时,原正则表达式和新正则表达式对应同一个意图;经过上述的分类组合后,建立意图相同且词性组合顺序不同的正则表达式的正则库。
S200获取用户输入的语音信息;
S300对所述语音信息进行分词,并标注词性;
S400根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
S500在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
S600根据所述目标正则表达式,识别所述用户的意图。
本实施例中,通过在正则表达式中加入连接词,以充分考虑连接词的存在对意图的影响,使得意图识别方法更加全面准确。
根据本发明提供的第四实施例,如图4所示,一种意图识别方法,包括:
S100建立意图相同且词性组合顺序不同的正则表达式的正则库;
S200获取用户输入的语音信息;
S300对所述语音信息进行分词,并标注词性;
S400根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
S500在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
S600根据所述目标正则表达式,识别所述用户的意图;
S700根据所述目标正则表达式,输出与所述语音信息意图相同、句式不同的语句。
具体地,在正则库中查找到对应的目标正则表达式后,除了可根据目标正则表达式,识别用户的意图,还可以输出与用户输入的语音信息意图相同、句式不同的语句。
正则库中的一个正则表达式可对应多个词性组合,多个词性组合的意图相同且词性组合的顺序不同,查找到目标正则表达式后,根据目标正则表达式对应的多个词性组合,即可输出与用户的语音信息意图相同、句式不同的语句。通过输出意图相同、句式不同的语句,可帮助学生在语音学习过程中学习句式转换的题型。
如当用户输入的语音信息为主动句时,可输出与用户的语音信息意图相同但句式不同的被动句,通过将主动句转换为被动句,可使学生更好的理解和掌握该类题型。
本实施例中,通过生成意图相同、句式不同的语句,以解决在语言学习过程中的中文句式转换的问题。
根据本发明提供的第五实施例,如图5所示,一种意图识别方法,包括:
S100建立意图相同且词性组合顺序不同的正则表达式的正则库;
S200获取用户输入的语音信息;
S300对所述语音信息进行分词,并标注词性;
S400根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
S500在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
S610根据所述目标正则表达式,得到与所述目标正则表达式对应的意图识别规则;
具体地,建立正则表达式的正则库时,可为每一个正则表达式设置一个对应的意图识别规则,当得到目标正则表达式后,即可得到与目标正则表达式对应的意图识别规则。
S620根据所述意图识别规则及所述语音信息中的词语的词性,识别所述用户的意图。
具体地,得到意图识别规则后,根据语音信息中的词语的词性,将对应词性按意图识别规则进行组合后,即可识别出用户的意图。
根据本发明提供的第六实施例,如图6所示,一种意图识别***,包括:
正则库建立模块100,用于建立意图相同且词性组合顺序不同的正则表达式的正则库;
具体地,正则库中包括多条正则表达式:正则表达式1、正则表达式2、正则表达式3、正则表达式4、正则表达式5,......,正则表达式N。在正则库内每条正则表达式对应一个或多个意图相同且词性组合顺序不同的词性组合。当一条正则表达式无法将意图相同且词性组合顺序不同的词性组合全部囊括时,可以将不能囊括的词性组合另外生成一条正则表达式。每条正则表达式对应一个意图(语义)解析规则。
例如,一条语句是“打电话给妈妈”,其还可以变换为“给妈妈打电话”或“打给妈妈电话”,“打电话给妈妈”对应的词性组合为“动词+名词+介词+名词”,“给妈妈打电话”的词性组合为“介词+名词+动词+名词”,“打给妈妈电话”的词性组合为“动词+介词+名词+名词”,将这三种词性组合生成一个正则表达式。
语音获取模块200,用于获取用户输入的语音信息;
具体地,语音获取模块200可为麦克风等语音采集设备,通过麦克风等语音采集设备实时采集用户输入的语音信息。
分词标注模块300,用于对所述语音信息进行分词,并标注词性;
具体地,分词标注模块300对语音信息进行分词,可首先将用户的语音信息转化为识别文本,然后对识别文本进行分词。分词可采用现有技术中的分词方法,例如正向最大匹配法、反向最大匹配法、最短路径分词法、双向最大匹配法等。本实施例对分词方法的选用不作限定,使用时,可根据实际条件选择合适的分词方法。
将识别文本分词后,标注分词后的词语的词性,词性包括:名词、动词、副词、介词、形容词等等。
正则表达式生成模块400,用于根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
具体地,正则表达式生成模块400对语音信息中的词语进行分词并标注词性后,根据词语的词性和词语所处的位置,生成词性组合的正则表达式。
例如,语音信息为“给妈妈打电话”,对“给妈妈打电话”分词后得到“给,妈妈,打,电话”,根据分词后的词性和各个词语在语音信息中的位置,得到的词性组合顺序为“介词+名词+动词+名词”,根据该词性组合顺序,即可生成对应的词性组合的正则表达式。
查找模块500,用于在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
具体地,根据语音信息生成对应的正则表达式后,查找模块500则在正则库中查找到与语音信息的正则表达式相匹配的正则表达式作为目标正则表达式。
识别模块600,用于根据所述目标正则表达式,识别所述用户的意图。
具体地,查找到目标正则表达式后,识别模块600根据目标正则表达式对应的意图识别规则,即可识别出用户的意图。
本实施例中,先建立正则库,然后将用户输入的语音信息转换为正则表达式,再根据语音信息的正则表达式在正则库中查找到对应的目标正则表达式,最后根据目标正则表达式即可识别出用户的意图;本发明通过查找到与语音信息匹配的正则表达式来识别用户的意图,对于意图相同句式不同的句子可准确地识别出用户的意图,不仅可简化处理过程,而且识别准确率较高。
根据本发明提供的第七实施例,如图7所示,一种意图识别***,包括:
正则库建立模块100,用于建立意图相同且词性组合顺序不同的正则表达式的正则库;
优选地,正则库建立模块100包括:
语料获取单元110,用于获取若干语料信息;
具体地,为了建立数据完整的正则表达式的正则库,需要收集大量的语料信息,在收集语料时,可以根据不同的用户群体进行收集,如意图识别产品用于智能学习产品上,则其用户群体为学生,因此,我们可以收集大量学生的语料,通过分析学生的语料,以建立更符合小学生的说话特点的正则库。当产品的用户群体为成人时,则可收集成人的语料,通过分析成人的语料,以建立更符合成人的说话特点的正则库。
分词标注单元120,用于对所述语料信息进行分词,并标注词语的词性;
具体地,收集语料后,分词标注单元120对每条语料信息进行分词,并标注分词后每条语料信息中的词语的词性。
正则表达式生成单元130,用于在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式;
具体地,在不改变每条语料信息的意图的情况下,正则表达式生成单元130对分词后的每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式。
例如,某一条语料的意图是给妈妈打电话,对其分词后得到“给,妈妈,打,电话”,在不改变其原意图的情况下,对其进行组合得到“打电话给妈妈”,“给妈妈打电话”或“打给妈妈电话”,对应得到的词性组合为“动词+名词+介词+名词”、“介词+名词+动词+名词”和“动词+介词+名词+名词”,将这三种词性组合生成一个正则表达式,则得到每条语料信息对应的词性组合的正则表达式。
通过上述方法得到每条语料信息对应的词性组合的正则表达式。
正则库建立单元140,用于将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库;
具体地,得到每条语料信息对应的词性组合的正则表达式后,正则库建立单元140对正则表达式进行分类组合,建立正则库,如“给妈妈打电话”还可以为“给妈妈打一个电话”,“给妈妈打一个电话”的词性组合顺序是介词+名词+动词+量词+名词,即将“给妈妈打一个电话”对应的词性组合顺序对应的正则表达式与“给妈妈打电话”对应的正则表达式归为一类,如这两者的正则表达式可以组合写为一个正则表达式则组合为一个正则表达式,如不能组合,则对应两个正则表达式,即意图相同且词性组合顺序不同的正则表达式可以为一个或多个。
如建立后的正则库中包括多条正则表达式:正则表达式1、正则表达式2、正则表达式3、正则表达式4、正则表达式5,正则表达式6,......,正则表达式N。在正则库内正则表达式1对应一个或多个意图相同且词性组合顺序不同的词性组合。当正则表达式1无法将意图相同且词性组合顺序不同的词性组合全部囊括时,可以将不能囊括的词性组合另外生成一条正则表达式2,即正则表达式1和正则表达式2对应同一个意图。且每条正则表达式对应一个意图(语义)解析规则。
优选地,所述正则表达式生成单元130,还用于在不改变每条语料信息的意图的情况下,在所述每条语料信息中加入连接词,生成新正则表达式;
具体地,在中文中,还存在主动句和被动句等句式逻辑不同但意图相同的情况,为充分考虑这种情况,我们在不改变每条语料信息的意图的情况下,在每条语料信息中加入连接词(如把、被等),将每条语料信息的词性组合顺序进行变换,并通过正则表达式生成单元130生成新正则表达式。
所述正则库建立单元140,还用于将所述语料信息对应的正则表达式和对应的新正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
具体地,在不改变每条语料信息的意图的情况下,在每条语料信息中加入连接词,得到新的正则表达式后,将未加入连接词的原正则表达式与加入连接词后的新正则表达式进行分类组合,即将可组合成一个正则表达式的原正则表达式和新正则表达式进行组合,将不能组合成一个正则表达式的原正则表达式和新正则表达式进行保留,不能组合时,原正则表达式和新正则表达式对应同一个意图;经过上述的分类组合后,建立意图相同且词性组合顺序不同的正则表达式的正则库。
意图识别***还包括:
语音获取模块200,用于获取用户输入的语音信息;
分词标注模块300,用于对所述语音信息进行分词,并标注词性;
正则表达式生成模块400,用于根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
查找模块500,用于在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
识别模块600,用于根据所述目标正则表达式,识别所述用户的意图。
本实施例中,通过在正则表达式中加入连接词,以充分考虑连接词的存在对意图的影响,使得意图识别方法更加全面准确。
根据本发明提供的第八实施例,如图8所示,一种意图识别***,包括:
正则库建立模块100,用于建立意图相同且词性组合顺序不同的正则表达式的正则库;
语音获取模块200,用于获取用户输入的语音信息;
分词标注模块300,用于对所述语音信息进行分词,并标注词性;
正则表达式生成模块400,用于根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
查找模块500,用于在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
识别模块600,用于根据所述目标正则表达式,识别所述用户的意图;
语句输出模块700,用于根据所述目标正则表达式,输出与所述语音信息意图相同、句式不同的语句。
具体地,在正则库中查找到对应的目标正则表达式后,除了可根据目标正则表达式,识别用户的意图,还可以输出与用户输入的语音信息意图相同、句式不同的语句。
正则库中的一个正则表达式对应多个词性组合,多个词性组合的意图相同且词性组合的顺序不同,查找到目标正则表达式后,根据目标正则表达式对应的多个词性组合,即可输出与用户的语音信息意图相同、句式不同的语句。通过输出意图相同、句式不同的语句,可帮助学生在语音学习过程中学习句式转换的题型。
如当用户输入的语音信息为主动句时,可输出与用户的语音信息意图相同但句式不同的被动句,通过将主动句转换为被动句,可使学生更好的理解和掌握该类题型。
本实施例中,通过生成意图相同、句式不同的语句,以解决在语言学习过程中的中文句式转换的问题。
根据本发明提供的第九实施例,如图9所示,一种意图识别***,包括:
正则库建立模块100,用于建立意图相同且词性组合顺序不同的正则表达式的正则库;
语音获取模块200,用于获取用户输入的语音信息;
分词标注模块300,用于对所述语音信息进行分词,并标注词性;
正则表达式生成模块400,用于根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
查找模块500,用于在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
识别模块600,识别模块600包括:
识别规则获取单元610,用于根据所述目标正则表达式,得到与所述目标正则表达式对应的意图识别规则;
具体地,建立正则表达式的正则库时,可为每一个正则表达式设置一个对应的意图识别规则,当得到目标正则表达式后,即可得到与目标正则表达式对应的意图识别规则。
意图识别单元620,用于根据所述意图识别规则及所述语音信息中的词语的词性,识别所述用户的意图。
具体地,得到意图识别规则后,根据语音信息中的词语的词性,将对应词性按意图识别规则进行组合后,即可识别出用户的意图。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种意图识别方法,其特征在于,包括:
建立意图相同且词性组合顺序不同的正则表达式的正则库;
获取用户输入的语音信息;
对所述语音信息进行分词,并标注词性;
根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
根据所述目标正则表达式,识别所述用户的意图。
2.根据权利要求1所述的一种意图识别方法,其特征在于,所述的建立意图相同且词性组合顺序不同的正则表达式的正则库具体包括:
获取若干语料信息;
对所述语料信息进行分词,并标注词语的词性;
在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式;
将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
3.根据权利要求2所述的一种意图识别方法,其特征在于,所述的在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式之后,所述的将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库之前还包括:
在不改变每条语料信息的意图的情况下,在所述每条语料信息中加入连接词,生成新正则表达式;
所述的将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库具体包括:
将所述语料信息对应的正则表达式和对应的新正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
4.根据权利要求1所述的一种意图识别方法,其特征在于,所述的在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式之后还包括:
根据所述目标正则表达式,输出与所述语音信息意图相同、句式不同的语句。
5.根据权利要求1-4任一项所述的一种意图识别方法,其特征在于,所述的根据所述目标正则表达式,识别所述用户的意图具体包括:
根据所述目标正则表达式,得到与所述目标正则表达式对应的意图识别规则;
根据所述意图识别规则及所述语音信息中的词语的词性,识别所述用户的意图。
6.一种意图识别***,其特征在于,包括:
正则库建立模块,用于建立意图相同且词性组合顺序不同的正则表达式的正则库;
语音获取模块,用于获取用户输入的语音信息;
分词标注模块,用于对所述语音信息进行分词,并标注词性;
正则表达式生成模块,用于根据所述语音信息中的词语的词性和词语所处的位置,生成对应的词性组合的正则表达式;
查找模块,用于在所述正则库中查找到与所述语音信息对应的正则表达式相匹配的正则表达式为目标正则表达式;
识别模块,用于根据所述目标正则表达式,识别所述用户的意图。
7.根据权利要求6所述的一种意图识别***,其特征在于,所述正则库建立模块包括:
语料获取单元,用于获取若干语料信息;
分词标注单元,用于对所述语料信息进行分词,并标注词语的词性;
正则表达式生成单元,用于在不改变每条语料信息的意图的情况下,对每条语料信息中的词语按不同顺序进行组合,生成每条语料信息对应的词性组合的正则表达式;
正则库建立单元,用于将所述语料信息对应的正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
8.根据权利要求7所述的一种意图识别***,其特征在于,
所述正则表达式生成单元,还用于在不改变每条语料信息的意图的情况下,在所述每条语料信息中加入连接词,生成新正则表达式;
所述正则库建立单元,还用于将所述语料信息对应的正则表达式和对应的新正则表达式进行分类组合,建立意图相同且词性组合顺序不同的正则表达式的正则库。
9.根据权利要求6所述的一种意图识别***,其特征在于,还包括:
语句输出模块,用于根据所述目标正则表达式,输出与所述语音信息意图相同、句式不同的语句。
10.根据权利要求6-9任一项所述的一种意图识别***,其特征在于,所述识别模块包括:
识别规则获取单元,用于根据所述目标正则表达式,得到与所述目标正则表达式对应的意图识别规则;
意图识别单元,用于根据所述意图识别规则及所述语音信息中的词语的词性,识别所述用户的意图。
CN201811261657.8A 2018-10-26 2018-10-26 一种意图识别方法及*** Pending CN109388700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811261657.8A CN109388700A (zh) 2018-10-26 2018-10-26 一种意图识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811261657.8A CN109388700A (zh) 2018-10-26 2018-10-26 一种意图识别方法及***

Publications (1)

Publication Number Publication Date
CN109388700A true CN109388700A (zh) 2019-02-26

Family

ID=65427797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811261657.8A Pending CN109388700A (zh) 2018-10-26 2018-10-26 一种意图识别方法及***

Country Status (1)

Country Link
CN (1) CN109388700A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871543A (zh) * 2019-03-12 2019-06-11 广东小天才科技有限公司 一种意图获取方法及***
CN109918676A (zh) * 2019-03-18 2019-06-21 广东小天才科技有限公司 一种检测意图正则表达式的方法及装置、终端设备
CN109948155A (zh) * 2019-03-12 2019-06-28 广东小天才科技有限公司 一种多意图的选择方法及装置、终端设备
CN110008314A (zh) * 2019-04-12 2019-07-12 广东小天才科技有限公司 一种意图解析方法及装置
CN110046346A (zh) * 2019-03-18 2019-07-23 广东小天才科技有限公司 一种语料意图监控的方法和装置、终端设备
CN110428830A (zh) * 2019-07-17 2019-11-08 上海麦图信息科技有限公司 一种基于正则表达式的空管指令意图识别方法
CN110909160A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 正则表达式生成方法、服务器及计算机可读存储介质
CN111833846A (zh) * 2019-04-12 2020-10-27 广东小天才科技有限公司 一种根据意图启动听写状态的方法和装置,及存储介质
CN111831865A (zh) * 2019-04-22 2020-10-27 广东小天才科技有限公司 一种正则表达式的扩充方法及装置
CN111859975A (zh) * 2019-04-22 2020-10-30 广东小天才科技有限公司 一种扩充样本语料的语料正则式的方法和***
CN112289312A (zh) * 2020-07-10 2021-01-29 北京京东尚科信息技术有限公司 语音指令的识别方法、装置、电子设备及计算机可读介质
CN112528627A (zh) * 2020-12-16 2021-03-19 中国南方电网有限责任公司 一种基于自然语言处理的检修意见识别方法
CN112580298A (zh) * 2019-09-29 2021-03-30 大众问问(北京)信息科技有限公司 一种标注数据获取方法、装置及设备
CN113807082A (zh) * 2020-06-15 2021-12-17 北京搜狗科技发展有限公司 一种目标用户确定方法、装置和用于确定目标用户的装置
CN114510922A (zh) * 2022-04-15 2022-05-17 北京沃丰时代数据科技有限公司 一种文本匹配方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的***和方法
CN105786793A (zh) * 2015-12-23 2016-07-20 百度在线网络技术(北京)有限公司 解析口语文本信息的语义的方法和装置
CN106599317A (zh) * 2016-12-30 2017-04-26 上海智臻智能网络科技股份有限公司 问答***的测试数据处理方法、装置及终端
CN107193798A (zh) * 2017-05-17 2017-09-22 南京大学 一种基于规则的试题类自动问答***中的试题理解方法
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务***及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的***和方法
CN105786793A (zh) * 2015-12-23 2016-07-20 百度在线网络技术(北京)有限公司 解析口语文本信息的语义的方法和装置
CN106599317A (zh) * 2016-12-30 2017-04-26 上海智臻智能网络科技股份有限公司 问答***的测试数据处理方法、装置及终端
CN107193798A (zh) * 2017-05-17 2017-09-22 南京大学 一种基于规则的试题类自动问答***中的试题理解方法
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务***及其方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948155A (zh) * 2019-03-12 2019-06-28 广东小天才科技有限公司 一种多意图的选择方法及装置、终端设备
CN109871543B (zh) * 2019-03-12 2023-10-24 广东小天才科技有限公司 一种意图获取方法及***
CN109871543A (zh) * 2019-03-12 2019-06-11 广东小天才科技有限公司 一种意图获取方法及***
CN109918676A (zh) * 2019-03-18 2019-06-21 广东小天才科技有限公司 一种检测意图正则表达式的方法及装置、终端设备
CN110046346A (zh) * 2019-03-18 2019-07-23 广东小天才科技有限公司 一种语料意图监控的方法和装置、终端设备
CN110008314B (zh) * 2019-04-12 2022-07-26 广东小天才科技有限公司 一种意图解析方法及装置
CN110008314A (zh) * 2019-04-12 2019-07-12 广东小天才科技有限公司 一种意图解析方法及装置
CN111833846A (zh) * 2019-04-12 2020-10-27 广东小天才科技有限公司 一种根据意图启动听写状态的方法和装置,及存储介质
CN111831865A (zh) * 2019-04-22 2020-10-27 广东小天才科技有限公司 一种正则表达式的扩充方法及装置
CN111859975A (zh) * 2019-04-22 2020-10-30 广东小天才科技有限公司 一种扩充样本语料的语料正则式的方法和***
CN110428830B (zh) * 2019-07-17 2021-09-21 上海麦图信息科技有限公司 一种基于正则表达式的空管指令意图识别方法
CN110428830A (zh) * 2019-07-17 2019-11-08 上海麦图信息科技有限公司 一种基于正则表达式的空管指令意图识别方法
CN112580298B (zh) * 2019-09-29 2024-05-07 大众问问(北京)信息科技有限公司 一种标注数据获取方法、装置及设备
CN112580298A (zh) * 2019-09-29 2021-03-30 大众问问(北京)信息科技有限公司 一种标注数据获取方法、装置及设备
CN110909160A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 正则表达式生成方法、服务器及计算机可读存储介质
CN113807082A (zh) * 2020-06-15 2021-12-17 北京搜狗科技发展有限公司 一种目标用户确定方法、装置和用于确定目标用户的装置
CN112289312A (zh) * 2020-07-10 2021-01-29 北京京东尚科信息技术有限公司 语音指令的识别方法、装置、电子设备及计算机可读介质
CN112289312B (zh) * 2020-07-10 2024-04-05 北京京东尚科信息技术有限公司 语音指令的识别方法、装置、电子设备及计算机可读介质
CN112528627B (zh) * 2020-12-16 2022-10-04 中国南方电网有限责任公司 一种基于自然语言处理的检修意见识别方法
CN112528627A (zh) * 2020-12-16 2021-03-19 中国南方电网有限责任公司 一种基于自然语言处理的检修意见识别方法
CN114510922B (zh) * 2022-04-15 2022-07-05 北京沃丰时代数据科技有限公司 一种文本匹配方法及装置
CN114510922A (zh) * 2022-04-15 2022-05-17 北京沃丰时代数据科技有限公司 一种文本匹配方法及装置

Similar Documents

Publication Publication Date Title
CN109388700A (zh) 一种意图识别方法及***
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及***
Ferreira et al. Towards automatic content analysis of social presence in transcripts of online discussions
CN110457689B (zh) 语义处理方法及相关装置
CN110427625B (zh) 语句补全方法、装置、介质及对话处理***
CN110826337A (zh) 一种短文本语义训练模型获取方法及相似度匹配算法
CN107818164A (zh) 一种智能问答方法及其***
CN110674639A (zh) 一种基于预训练模型的自然语言理解方法
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN109949799B (zh) 一种语义解析方法及***
CN110175229A (zh) 一种基于自然语言进行在线培训的方法和***
CN109213856A (zh) 一种语义识别方法及***
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN110347787A (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN110245253B (zh) 一种基于环境信息的语义交互方法及***
CN113761105A (zh) 文本数据处理方法、装置、设备以及介质
Sujana et al. Rumor detection on Twitter using multiloss hierarchical BiLSTM with an attenuation factor
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN106708950B (zh) 用于智能机器人自学习***的数据处理方法及装置
CN110543551B (zh) 一种问题语句处理方法和装置
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN116091836A (zh) 一种多模态视觉语言理解与定位方法、装置、终端及介质
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题***
CN113065352B (zh) 一种电网调度工作文本的操作内容识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190226

RJ01 Rejection of invention patent application after publication