CN109766555A - 一种获取用户语句的语义槽的方法及*** - Google Patents

一种获取用户语句的语义槽的方法及*** Download PDF

Info

Publication number
CN109766555A
CN109766555A CN201910046955.3A CN201910046955A CN109766555A CN 109766555 A CN109766555 A CN 109766555A CN 201910046955 A CN201910046955 A CN 201910046955A CN 109766555 A CN109766555 A CN 109766555A
Authority
CN
China
Prior art keywords
regular expression
expression
user
participle
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910046955.3A
Other languages
English (en)
Other versions
CN109766555B (zh
Inventor
魏誉荧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910046955.3A priority Critical patent/CN109766555B/zh
Publication of CN109766555A publication Critical patent/CN109766555A/zh
Application granted granted Critical
Publication of CN109766555B publication Critical patent/CN109766555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种获取用户语句的语义槽的方法及***,其方法包括:获取语料样本,根据语料样本生成正则表达式,根据正则表达式建立正则表达式库;根据正则表达式得到归一表达式;根据归一表达式建立对应的语义槽;获取用户语句,根据用户语句生成用户正则表达式;将用户正则表达式和正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式;结合归一表达式和语义槽,根据用户归一表达式得到对应的用户语义槽。本发明通过对语料样本的正则表达式进行归一化得到归一表达式,从而建立语义槽,进而即便当用户语句句式错乱或语义槽实体之间存在主次和依存关系,也能快速准确确定用户语句的语义槽。

Description

一种获取用户语句的语义槽的方法及***
技术领域
本发明涉及语言处理技术领域,尤指一种获取用户语句的语义槽的方法及***。
背景技术
当前随着网络的飞速发展,智能处理信息也是越来越普遍。计算机、智能设备等每天可能需要处理成千上万的信息。智能设备一般通过分析语料得到对应的语义槽实体,从而解析语料。
在语料解析过程中,会遇到通过分词获取到同一条语料对应多个语义槽实体的情况,这种原因可能是句式错乱,也可能是语义槽实体之间存在主次和依存关系,但是并没有进行进一步的判断。因此,需要一种获取用户语句的语义槽的方法及***。
发明内容
本发明的目的是提供一种获取用户语句的语义槽的方法及***,实现通过对语料样本的正则表达式进行归一化得到归一表达式,从而建立语义槽,进而即便当用户语句句式错乱或语义槽实体之间存在主次和依存关系,也能快速准确确定用户语句的语义槽。
本发明提供的技术方案如下:
本发明提供一种获取用户语句的语义槽的方法,包括:
获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库;
根据所述正则表达式得到归一表达式;
根据所述归一表达式建立对应的语义槽;
获取用户语句,根据所述用户语句生成用户正则表达式;
将所述用户正则表达式和所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式;
结合所述归一表达式和所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
进一步的,所述的获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库具体包括:
获取所述语料样本;
通过分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的分词词性;
根据所述语料样本的句法结构分析所述样本分词之间的连接关系;
根据所述分词词性以及所述连接关系生成所述正则表达式,根据所述正则表达式建立所述正则表达式库。
进一步的,所述的根据所述正则表达式得到归一表达式包括:
分析所述正则表达式确定可缺省部分以及关联关系,并进行标记;
根据标记内容校验所述正则表达式,所述标记内容为所述可缺省部分以及所述关联关系;
若校验结果显示所述标记内容正确,则根据所述标记内容简化所述正则表达式得到简化表达式;
对所有的简化表达式进行归一化得到归一表达式。
进一步的,所述的分析所述正则表达式确定可缺省部分以及关联关系,并进行标记具体包括:
根据所述正则表达式中的所述分词词性和分词位置确定所述可缺省部分以及所述关联关系,所述可缺省部分为去除掉之后不影响语义的部分,所述关联关系指上下级和等义关系;
将所述可缺省部分以及所述关联关系在所述正则表达式中进行标记。
进一步的,所述的对所有的简化表达式进行归一化得到归一表达式具体包括:
分析所述简化表达式的构成逻辑;
将所述构成逻辑相似或者相同的简化表达式进行归一化得到归一表达式。
本发明还提供一种获取用户语句的语义槽的***,包括:
数据库建立模块,获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库;
归一化模块,根据所述数据库建立模块生成的所述正则表达式得到归一表达式;
语义槽建立模块,根据所述归一化模块得到的所述归一表达式建立对应的语义槽;
获取模块,获取用户语句,根据所述用户语句生成用户正则表达式;
对比模块,将所述获取模块得到的所述用户正则表达式和所述数据库建立模块建立的所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式;
处理模块,结合所述归一化模块得到的所述归一表达式和所述语义槽建立模块建立的所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
进一步的,所述数据库建立模块具体包括:
样本获取单元,获取所述语料样本;
分词单元,通过分词技术对所述样本获取单元获取的所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的分词词性;
分析单元,根据所述样本获取单元获取的所述语料样本的句法结构分析所述分词单元得到的所述样本分词之间的连接关系;
数据库建立单元,根据所述分词单元得到的所述分词词性以及所述分析单元得到的所述连接关系生成所述正则表达式,根据所述正则表达式建立所述正则表达式库。
进一步的,所述归一化模块具体包括:
标记单元,分析所述正则表达式确定可缺省部分以及关联关系,并进行标记;
检验单元,根据所述标记单元的标记内容校验所述正则表达式,所述标记内容为所述可缺省部分以及所述关联关系;
处理单元,若所述检验单元的校验结果显示所述标记内容正确,则根据所述标记内容简化所述正则表达式得到简化表达式;
归一化单元,对所述处理单元得到的所有的简化表达式进行归一化得到归一表达式。
进一步的,所述标记单元具体包括:
处理子单元,根据所述正则表达式中的所述分词词性和分词位置确定所述可缺省部分以及所述关联关系,所述可缺省部分为去除掉之后不影响语义的部分,所述关联关系指上下级和等义关系;
标记子单元,将所述处理子单元确定的所述可缺省部分以及所述关联关系在所述正则表达式中进行标记。
进一步的,所述归一化单元具体包括:
分析子单元,分析所述简化表达式的构成逻辑;
归一化子单元,将所述分析子单元得到的所述构成逻辑相似或者相同的简化表达式进行归一化得到归一表达式。
通过本发明提供的一种获取用户语句的语义槽的方法及***,能够带来以下至少一种有益效果:
1、本发明中,对语料样本的正则表达式进行归一化得到归一表达式,然后根据归一表达式建立语义槽,从而使得语义槽中的语义槽实体能准确展示语料样本的语义。
2、本发明中,通过对正则表达式进行归一化,从而确保当用户语句句式错乱或语义槽实体之间存在主次和依存关系,也能快速准确确定用户语句的语义槽。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种获取用户语句的语义槽的方法及***的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种获取用户语句的语义槽的方法的一个实施例的流程图;
图2是本发明一种获取用户语句的语义槽的方法的另一个实施例的流程图;
图3是本发明一种获取用户语句的语义槽的方法的另一个实施例的流程图;
图4是本发明一种获取用户语句的语义槽的方法的另一个实施例的流程图;
图5是本发明一种获取用户语句的语义槽的方法的另一个实施例的流程图;
图6是本发明一种获取用户语句的语义槽的***的一个实施例的结构示意图;
图7是本发明一种获取用户语句的语义槽的***的另一个实施例的结构示意图。
附图标号说明:
1000 获取用户语句的语义槽的***
1100 数据库建立模块 1110样本获取单元 1120 分词单元 1130分析单元 1140数据库建立单元
1200 归一化模块 1210 标记单元 1211 处理子单元 1212 标记子单元
1220 检验单元 1230 处理单元
1240 归一化单元 1241 分析子单元 1242 归一化子单元
1300 语义槽建立模块
1400 获取模块
1500 对比模块 1600 处理模块
具体实施方式
为了能够更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对照说明书附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并且获得其他的实施方式。
为了使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的一个实施例,如图1所示,一种获取用户语句的语义槽的方法,包括:
S100获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库。
具体的,收集大量的语料样本,其中语料样本可以是规范的书面用语,也可以是用户语音、音频等,因为在人机交互的过程中用户语音输入和文字输入都是主流的交互方式。根据每一条语料样本生成对应的正则表达式,然后根据所有的正则表达式建立正则表达式库。
另外,由于整个分析过程是针对书面文本,因此如果收集的是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行相应的处理。
S200根据所述正则表达式得到归一表达式。
具体的,对得到的正则表达式进行进一步分析归纳从而得到归一表达式,归一表达式为将正则表达式进行简化之后得到的,因此是以最简洁的方式表达语料样本。
例如,某一个语料样本为“鲸鱼会喷水”,分析得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),归一化之后对应的归一表达式为:名词#动词。
S300根据所述归一表达式建立对应的语义槽。
具体的,根据归一表达式建立对应的语义槽,由于归一表达式的结构较为精炼,因此得出的语义槽也能够精炼准确地表示语料样本。例如,某一语料样本为“鲸鱼会喷水”,得到的归一表达式为:名词#动词,对应的语义槽为“名词”和“动词”,语义槽“名词”对应的语义槽实体为“鲸鱼”,语义槽“动词”对应的语义槽实体为“喷水”。
S400获取用户语句,根据所述用户语句生成用户正则表达式。
具体的,在人机交互的过程中用户语音输入和文字输入都是主流的交互方式,获取用户语句,无论用户语句的形式,最终***进行处理的都是文本形式。根据用户语句生成对应的用户正则表达式。
S500将所述用户正则表达式和所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式。
具体的,将上述得到的用户正则表达式和正则表达式库中的正则表达式逐一地进行对比,如果对比符合则将符合的正则表达式作为对应的用户归一表达式。
S600结合所述归一表达式和所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
具体的,结合归一表达式和语义槽之间的对应关系,根据上述得到用户归一表达式得到对应的用户语义槽。例如,某一语料样本为“鲸鱼会喷水”,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),对应的归一表达式为:名词#动词,对应的语义槽为“名词”和“动词”,语义槽“名词”对应的语义槽实体为“鲸鱼”,语义槽“动词”对应的语义槽实体为“喷水”。获取的用户语句为“小熊正在进食”,得到的用户正则表达式为:名词(小熊)#代词(正在)#动词(进食),和上述举例的语料样本的正则表达式匹配符合,因此得到对应的用户归一表达式为:名词#动词,用户语义槽为“名词”和“动词”,语义槽“名词”对应的语义槽实体为“小熊”,语义槽“动词”对应的语义槽实体为“进食”。
本实施例中,对语料样本进行分析得到对应的正则表达式,之后进行归一化得到归一表达式,然后根据归一表达式建立语义槽,最终通过归一表达式和语义槽确定用户语句对应的用户归一表达式和用户语义槽。
本发明的另一个实施例,是上述的实施例的优化实施例,如图2所示,包括:
S100获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库。
所述的S100获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库具体包括:
S110获取所述语料样本。
S120通过分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的分词词性。
具体的,获取语料样本,根据分词技术对语料样本进行分词,识别语料样本中的每一句话中词语的词性,然后将语料样本中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成。因此得到了语料样本中包含的样本分词以及对应的分词词性。
例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的样本分词为“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词。
S130根据所述语料样本的句法结构分析所述样本分词之间的连接关系。
具体的,上述根据分词技术得到了语料样本中包含的样本分词以及分词词性,然后根据语料样本的句法结构分析语料样本中包含的样本分词之间的连接关系。
例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的样本分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词,分析语料样本的句法结构得出名词“鲸鱼”和动词“喷水”是主谓关系。
S140根据所述分词词性以及所述连接关系生成所述正则表达式,根据所述正则表达式建立所述正则表达式库。
具体的,根据分词词性以及连接关系生成对应的正则表达式,例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的内容分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词,分析实体内容的句子结构得出名词“鲸鱼”和动词“喷水”是主谓关系,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水)。最后根据生成的正则表达式建立正则表达式库,在正则表达式库中对所有的正则表达式进行分类,即将相同的正则表达式的语料样本划分为同一类。例如,将正则表达式为“名词#代词#动词”的对应的语料样本划分为同一类。
S200根据所述正则表达式得到归一表达式。
S300根据所述归一表达式建立对应的语义槽。
S400获取用户语句,根据所述用户语句生成用户正则表达式。
S500将所述用户正则表达式和所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式。
S600结合所述归一表达式和所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
本实施例中,根据分词技术对语料样本进行分词,并分析语料样本的句子结构,从而生成对应的正则表达式,便于后续总结出对应的归一表达式和语义槽。
本发明的另一个实施例,是上述的实施例的优化实施例,如图3所示,包括:
S100获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库。
S200根据所述正则表达式得到归一表达式。
所述的S200根据所述正则表达式得到归一表达式具体包括:
S210分析所述正则表达式确定可缺省部分以及关联关系,并进行标记。
具体的,分析正则表达式中每个样本分词对应的分词词性,确定其中无意义的可缺省部分,譬如哪些分词词性的样本分词是必要存在的,哪些是可缺省的。并且确定样本分词语义之间的关联关系,譬如是否存在上下级、包含与被包含的以及同级等关联关系。然后对正则表达式中的可缺省部分以及关联关系进行标记。
例如,某一语料样本为“鲸鱼会喷水”,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),其中代词“会”并没有实际语义,标记为可缺省部分。
S220根据标记内容校验所述正则表达式,所述标记内容为所述可缺省部分以及所述关联关系。
S230若校验结果显示所述标记内容正确,则根据所述标记内容简化所述正则表达式得到简化表达式。
具体的,根据标记内容校验正则表达式,判断根据标记内容进行语义理解是否出现偏差,如果不出现偏差,说明对于可缺省部分以及关联关系的判断正确,则根据标记内容简化正则表达式得到简化表达式,该标记内容为可缺省部分以及关联关系。
例如,某一语料样本为“生存在大海的鲸鱼会喷水”,得到的正则表达式为:动词(生存)#代词(在)#名词(大海)#代词(的)#名词(鲸鱼)#代词(会)#动词(喷水),其中代词“在”、“的”、“会”并没有实际语义,标记为可缺省部分,名词“大海”、“鲸鱼”在语义上属于上下级的关联关系,动词“生存”与名词“大海”具有关联关系,将可缺省部分代词“在”、“的”、“会”以及上下级关系中的名词“大海”从正则表达式中去除,并将与名词“大海”具有关联关系的动词“生存”从正则表达式中去除,得到“名词(鲸鱼)#动词(喷水)”,对语料样本的语义理解并没有造成歧义,因此得到对应的简化表达式:名词(鲸鱼)#动词(喷水)。
S240对所有的简化表达式进行归一化得到归一表达式。
具体的,由于简化表达式是对正则表达式进一步进行精简得到的,可能存在多个相同或相似的简化表达式,因此对所有的简化表达式进行归一化得到归一表达式。
S300根据所述归一表达式建立对应的语义槽。
S400获取用户语句,根据所述用户语句生成用户正则表达式。
S500将所述用户正则表达式和所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式。
S600结合所述归一表达式和所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
本实施例中,通过对正则表达式进行归一化,从而确保当用户语句句式错乱或语义槽实体之间存在主次和依存关系,也能快速准确确定用户语句的语义槽。
本发明的另一个实施例,是上述的实施例的优化实施例,如图4所示,包括:
S100获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库。
S200根据所述正则表达式得到归一表达式。
所述的S200根据所述正则表达式得到归一表达式具体包括:
S210分析所述正则表达式确定可缺省部分以及关联关系,并进行标记。
所述的S210分析所述正则表达式确定可缺省部分以及关联关系,并进行标记具体包括:
S211根据所述正则表达式中的所述分词词性和分词位置确定所述可缺省部分以及所述关联关系,所述可缺省部分为去除掉之后不影响语义的部分,所述关联关系指上下级和等义关系。
具体的,根据正则表达式中的分词词性和分词位置确定可缺省部分以及关联关系,该可缺省部分为去除掉之后不影响语义的部分,该关联关系指上下级和等义等关系。
例如,代词“的”前后一般是上下级或者包含与被包含的关系,可以将前后的样本分词在正则表达式中去除,后续校验正则表达式的时候再进行确认,避免误判。
S212将所述可缺省部分以及所述关联关系在所述正则表达式中进行标记。
具体的,将可缺省部分以及关联关系在正则表达式中进行标记,便于后续根据可缺省部分以及关联关系对正则表达式进行校验和简化。
S220根据标记内容校验所述正则表达式,所述标记内容为所述可缺省部分以及所述关联关系。
S230若校验结果显示所述标记内容正确,则根据所述标记内容简化所述正则表达式得到简化表达式。
S240对所有的简化表达式进行归一化得到归一表达式。
S300根据所述归一表达式建立对应的语义槽。
S400获取用户语句,根据所述用户语句生成用户正则表达式。
S500将所述用户正则表达式和所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式。
S600结合所述归一表达式和所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
本实施例中,根据正则表达式中的分词词性和分词位置确定可缺省部分以及关联关系,根据可缺省部分以及关联关系进一步对正则表达式进行简化,从而更加准确地提炼出语义槽。
本发明的另一个实施例,是上述的实施例的优化实施例,如图5所示,包括:
S100获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库。
S200根据所述正则表达式得到归一表达式。
所述的S200根据所述正则表达式得到归一表达式具体包括:
S210分析所述正则表达式确定可缺省部分以及关联关系,并进行标记。
S220根据标记内容校验所述正则表达式,所述标记内容为所述可缺省部分以及所述关联关系。
S230若校验结果显示所述标记内容正确,则根据所述标记内容简化所述正则表达式得到简化表达式。
S240对所有的简化表达式进行归一化得到归一表达式。
所述的S240对所有的简化表达式进行归一化得到归一表达式具体包括:
S241分析所述简化表达式的构成逻辑。
具体的,统计分许所有的简化表达式的构成逻辑,该构成逻辑为组成简化表达式的样本分词的分词词性以及在简化表达式中对应的位置。例如,某一语料样本对应的简化表达式为:名词#动词,另一语料样本对应的简化表达式为:动词#名词,上述两者虽然都是由名词和动词构成,但是名词和动词分别在简化表达式中的位置不同。
S242将所述构成逻辑相似或者相同的简化表达式进行归一化得到归一表达式。
具体的,将构成逻辑相似或者相同的简化表达式进行归一化得到归一表达式。例如,某一语料样本为“鲸鱼会喷水”,得到的简化表达式为:名词(鲸鱼)#动词(喷水),另一语料样本为“小熊正在进食”,得到的简化表达式为:名词(小熊)#动词(进食),两个语料样本的简化表达式的构成逻辑相同,都是由名词和动词构成,并且都是名词在前,动词在后,只是两者对应的语义槽实体不同,因此,可以将两者进行归一化得到归一表达式:名词#动词,语义槽“名词”对应的语义槽实体为“小熊”、“鲸鱼”,语义槽“动词”对应的语义槽实体为“进食”、“喷水”。
S300根据所述归一表达式建立对应的语义槽。
S400获取用户语句,根据所述用户语句生成用户正则表达式。
S500将所述用户正则表达式和所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式。
S600结合所述归一表达式和所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
本实施例中,根据可缺省部分以及关联关系进一步对正则表达式进行简化得到简化表达式后,再对简化表达式进行归一化,进一步精炼表达式,从而更加准确地提炼出语义槽。
本发明的一个实施例,如图6所示,一种获取用户语句的语义槽的***1000,包括:
数据库建立模块1100,获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库。
具体的,数据库建立模块1100收集大量的语料样本,其中语料样本可以是规范的书面用语,也可以是用户语音、音频等,因为在人机交互的过程中用户语音输入和文字输入都是主流的交互方式。根据每一条语料样本生成对应的正则表达式,然后根据所有的正则表达式建立正则表达式库。
另外,由于整个分析过程是针对书面文本,因此如果收集的是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行相应的处理。
归一化模块1200,根据所述数据库建立模块1100生成的所述正则表达式得到归一表达式。
具体的,归一化模块1200对得到的正则表达式进行进一步分析归纳从而得到归一表达式,归一表达式为将正则表达式进行简化之后得到的,因此是以最简洁的方式表达语料样本。
例如,某一个语料样本为“鲸鱼会喷水”,分析得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),归一化之后对应的归一表达式为:名词#动词。
语义槽建立模块1300,根据所述归一化模块1200得到的所述归一表达式建立对应的语义槽。
具体的,语义槽建立模块1300根据归一表达式建立对应的语义槽,由于归一表达式的结构较为精炼,因此得出的语义槽也能够精炼准确地表示语料样本。例如,某一语料样本为“鲸鱼会喷水”,得到的归一表达式为:名词#动词,对应的语义槽为“名词”和“动词”,语义槽“名词”对应的语义槽实体为“鲸鱼”,语义槽“动词”对应的语义槽实体为“喷水”。
获取模块1400,获取用户语句,根据所述用户语句生成用户正则表达式。
具体的,在人机交互的过程中用户语音输入和文字输入都是主流的交互方式,获取模块1400获取用户语句,无论用户语句的形式,最终***进行处理的都是文本形式。根据用户语句生成对应的用户正则表达式。
对比模块1500,将所述获取模块1400得到的所述用户正则表达式和所述数据库建立模块1100建立的所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式。
具体的,对比模块1500将上述得到的用户正则表达式和正则表达式库中的正则表达式逐一地进行对比,如果对比符合则将符合的正则表达式作为对应的用户归一表达式。
处理模块1600,结合所述归一化模块1200得到的所述归一表达式和所述语义槽建立模块1300建立的所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
具体的,处理模块1600结合归一表达式和语义槽之间的对应关系,根据上述得到用户归一表达式得到对应的用户语义槽。例如,某一语料样本为“鲸鱼会喷水”,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),对应的归一表达式为:名词#动词,对应的语义槽为“名词”和“动词”,语义槽“名词”对应的语义槽实体为“鲸鱼”,语义槽“动词”对应的语义槽实体为“喷水”。获取的用户语句为“小熊正在进食”,得到的用户正则表达式为:名词(小熊)#代词(正在)#动词(进食),和上述举例的语料样本的正则表达式匹配符合,因此得到对应的用户归一表达式为:名词#动词,用户语义槽为“名词”和“动词”,语义槽“名词”对应的语义槽实体为“小熊”,语义槽“动词”对应的语义槽实体为“进食”。
本实施例中,对语料样本进行分析得到对应的正则表达式,之后进行归一化得到归一表达式,然后根据归一表达式建立语义槽,最终通过归一表达式和语义槽确定用户语句对应的用户归一表达式和用户语义槽。
本发明的另一个实施例,是上述的实施例的优化实施例,如图7所示,包括:
数据库建立模块1100,获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库。
所述数据库建立模块1100具体包括:
样本获取单元1110,获取所述语料样本。
分词单元1120,通过分词技术对所述样本获取单元1110获取的所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的分词词性。
具体的,样本获取单元1110获取语料样本,分词单元1120根据分词技术对语料样本进行分词,识别语料样本中的每一句话中词语的词性,然后将语料样本中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成。因此得到了语料样本中包含的样本分词以及对应的分词词性。
例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的内容分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词。
分析单元1130,根据所述样本获取单元1110获取的所述语料样本的句法结构分析所述分词单元1120得到的所述样本分词之间的连接关系。
具体的,上述根据分词技术得到了语料样本中包含的样本分词以及分词词性,然后分析单元1130根据语料样本的句子结构分析语料样本中包含的样本分词之间的连接关系。
例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的内容分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词,分析实体内容的句子结构得出名词“鲸鱼”和动词“喷水”是主谓关系。
数据库建立单元1140,根据所述分词单元1120得到的所述分词词性以及所述分析单元1130得到的所述连接关系生成所述正则表达式,根据所述正则表达式建立所述正则表达式库。
具体的,数据库建立单元1140根据分词词性以及连接关系生成对应的正则表达式,例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的内容分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词,分析实体内容的句子结构得出名词“鲸鱼”和动词“喷水”是主谓关系,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水)。最后数据库建立单元1140根据生成的正则表达式建立正则表达式库,在正则表达式库中对所有的正则表达式进行分类,即将相同的正则表达式的语料样本划分为同一类。例如,将正则表达式为“名词#代词#动词”的对应的语料样本划分为同一类。
归一化模块1200,根据所述数据库建立模块1100生成的所述正则表达式得到归一表达式。
所述归一化模块1200具体包括:
标记单元1210,分析所述正则表达式确定可缺省部分以及关联关系,并进行标记。
具体的,标记单元1210分析正则表达式中每个样本分词对应的分词词性,确定其中无意义的可缺省部分,譬如哪些分词词性的样本分词是必要存在的,哪些是可缺省的。并且确定样本分词语义之间的关联关系,譬如是否存在上下级、包含与被包含的以及同级等关联关系。然后对正则表达式中的可缺省部分以及关联关系进行标记。
例如,某一语料样本为“鲸鱼会喷水”,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),其中代词“会”并没有实际语义,标记为可缺省部分。
所述标记单元1210具体包括:
处理子单元1211,根据所述正则表达式中的所述分词词性和分词位置确定所述可缺省部分以及所述关联关系,所述可缺省部分为去除掉之后不影响语义的部分,所述关联关系指上下级和等义关系。
具体的,处理子单元1211根据正则表达式中的分词词性和分词位置确定可缺省部分以及关联关系,该可缺省部分为去除掉之后不影响语义的部分,该关联关系指上下级和等义等关系。
例如,代词“的”前后一般是上下级或者包含与被包含的关系,可以将前后的样本分词在正则表达式中去除,后续校验正则表达式的时候再进行确认,避免误判。
标记子单元1212,将所述处理子单元1211确定的所述可缺省部分以及所述关联关系在所述正则表达式中进行标记。
具体的,标记子单元1212将可缺省部分以及关联关系在正则表达式中进行标记,便于后续根据可缺省部分以及关联关系对正则表达式进行校验和简化。
检验单元1220,根据所述标记单元1210的标记内容校验所述正则表达式,所述标记内容为所述可缺省部分以及所述关联关系。
处理单元1230,若所述检验单元1220的校验结果显示所述标记内容正确,则根据所述标记内容简化所述正则表达式得到简化表达式。
具体的,检验单元1220根据标记内容校验正则表达式,处理单元1230判断根据标记内容进行语义理解是否出现偏差,如果不出现偏差,说明对于可缺省部分以及关联关系的判断正确,则根据标记内容简化正则表达式得到简化表达式,该标记内容为可缺省部分以及关联关系。
例如,某一语料样本为“生存在大海的鲸鱼会喷水”,得到的正则表达式为:动词(生存)#代词(在)#名词(大海)#代词(的)#名词(鲸鱼)#代词(会)#动词(喷水),其中代词“在”、“的”、“会”并没有实际语义,标记为可缺省部分,名词“大海”、“鲸鱼”在语义上属于上下级的关联关系,动词“生存”与名词“大海”具有关联关系,将可缺省部分代词“在”、“的”、“会”以及上下级关系中的名词“大海”从正则表达式中去除,并将与名词“大海”具有关联关系的动词“生存”从正则表达式中去除,得到“名词(鲸鱼)#动词(喷水)”,对语料样本的语义理解并没有造成歧义,因此得到对应的简化表达式:名词(鲸鱼)#动词(喷水)。
归一化单元1240,对所述处理单元1230得到的所有的简化表达式进行归一化得到归一表达式。
具体的,由于简化表达式是对正则表达式进一步进行精简得到的,可能存在多个相同或相似的简化表达式,因此归一化单元1240对所有的简化表达式进行归一化得到归一表达式。
所述归一化单元1240具体包括:
分析子单元1241,分析所述简化表达式的构成逻辑。
具体的,分析子单元1241统计分许所有的简化表达式的构成逻辑,该构成逻辑为组成简化表达式的样本分词的分词词性以及在简化表达式中对应的位置。例如,某一语料样本对应的简化表达式为:名词#动词,另一语料样本对应的简化表达式为:动词#名词,上述两者虽然都是由名词和动词构成,但是名词和动词分别在简化表达式中的位置不同。
归一化子单元1242,将所述分析子单元1241得到的所述构成逻辑相似或者相同的简化表达式进行归一化得到归一表达式。
具体的,归一化子单元1242将构成逻辑相似或者相同的简化表达式进行归一化得到归一表达式。例如,某一语料样本为“鲸鱼会喷水”,得到的简化表达式为:名词(鲸鱼)#动词(喷水),另一语料样本为“小熊正在进食”,得到的简化表达式为:名词(小熊)#动词(进食),两个语料样本的简化表达式的构成逻辑相同,都是由名词和动词构成,并且都是名词在前,动词在后,只是两者对应的语义槽实体不同,因此,可以将两者进行归一化得到归一表达式:名词#动词,语义槽“名词”对应的语义槽实体为“小熊”、“鲸鱼”,语义槽“动词”对应的语义槽实体为“进食”、“喷水”。
语义槽建立模块1300,根据所述归一化模块1200得到的所述归一表达式建立对应的语义槽。
获取模块1400,获取用户语句,根据所述用户语句生成用户正则表达式。
对比模块1500,将所述获取模块1400得到的所述用户正则表达式和所述数据库建立模块1100建立的所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式。
处理模块1600,结合所述归一化模块1200得到的所述归一表达式和所述语义槽建立模块1300建立的所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
本实施例中,根据分词技术对语料样本进行分词,并分析语料样本的句子结构,从而生成对应的正则表达式,根据正则表达式中的分词词性和分词位置确定可缺省部分以及关联关系,根据可缺省部分以及关联关系进一步对正则表达式进行简化,再对简化表达式进行归一化,进一步精炼表达式,从而更加准确地提炼出语义槽。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种获取用户语句的语义槽的方法,其特征在于,包括:
获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库;
根据所述正则表达式得到归一表达式;
根据所述归一表达式建立对应的语义槽;
获取用户语句,根据所述用户语句生成用户正则表达式;
将所述用户正则表达式和所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式;
结合所述归一表达式和所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
2.根据权利要求1所述的获取用户语句的语义槽的方法,其特征在于,所述的获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库具体包括:
获取所述语料样本;
通过分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的分词词性;
根据所述语料样本的句法结构分析所述样本分词之间的连接关系;
根据所述分词词性以及所述连接关系生成所述正则表达式,根据所述正则表达式建立所述正则表达式库。
3.根据权利要求2所述的获取用户语句的语义槽的方法,其特征在于,所述的根据所述正则表达式得到归一表达式包括:
分析所述正则表达式确定可缺省部分以及关联关系,并进行标记;
根据标记内容校验所述正则表达式,所述标记内容为所述可缺省部分以及所述关联关系;
若校验结果显示所述标记内容正确,则根据所述标记内容简化所述正则表达式得到简化表达式;
对所有的简化表达式进行归一化得到归一表达式。
4.根据权利要求3所述的获取用户语句的语义槽的方法,其特征在于,所述的分析所述正则表达式确定可缺省部分以及关联关系,并进行标记具体包括:
根据所述正则表达式中的所述分词词性和分词位置确定所述可缺省部分以及所述关联关系,所述可缺省部分为去除掉之后不影响语义的部分,所述关联关系指上下级和等义关系;
将所述可缺省部分以及所述关联关系在所述正则表达式中进行标记。
5.根据权利要求3或4所述的获取用户语句的语义槽的方法,其特征在于,所述的对所有的简化表达式进行归一化得到归一表达式具体包括:
分析所述简化表达式的构成逻辑;
将所述构成逻辑相似或者相同的简化表达式进行归一化得到归一表达式。
6.一种获取用户语句的语义槽的***,其特征在于,包括:
数据库建立模块,获取语料样本,根据所述语料样本生成正则表达式,根据所述正则表达式建立正则表达式库;
归一化模块,根据所述数据库建立模块生成的所述正则表达式得到归一表达式;
语义槽建立模块,根据所述归一化模块得到的所述归一表达式建立对应的语义槽;
获取模块,获取用户语句,根据所述用户语句生成用户正则表达式;
对比模块,将所述获取模块得到的所述用户正则表达式和所述数据库建立模块建立的所述正则表达式库中的正则表达式进行对比,得到对应的用户归一表达式;
处理模块,结合所述归一化模块得到的所述归一表达式和所述语义槽建立模块建立的所述语义槽,根据所述用户归一表达式得到对应的用户语义槽。
7.根据权利要求6所述的获取用户语句的语义槽的***,其特征在于,所述数据库建立模块具体包括:
样本获取单元,获取所述语料样本;
分词单元,通过分词技术对所述样本获取单元获取的所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的分词词性;
分析单元,根据所述样本获取单元获取的所述语料样本的句法结构分析所述分词单元得到的所述样本分词之间的连接关系;
数据库建立单元,根据所述分词单元得到的所述分词词性以及所述分析单元得到的所述连接关系生成所述正则表达式,根据所述正则表达式建立所述正则表达式库。
8.根据权利要求7所述的获取用户语句的语义槽的***,其特征在于,所述归一化模块具体包括:
标记单元,分析所述正则表达式确定可缺省部分以及关联关系,并进行标记;
检验单元,根据所述标记单元的标记内容校验所述正则表达式,所述标记内容为所述可缺省部分以及所述关联关系;
处理单元,若所述检验单元的校验结果显示所述标记内容正确,则根据所述标记内容简化所述正则表达式得到简化表达式;
归一化单元,对所述处理单元得到的所有的简化表达式进行归一化得到归一表达式。
9.根据权利要求8所述的获取用户语句的语义槽的***,其特征在于,所述标记单元具体包括:
处理子单元,根据所述正则表达式中的所述分词词性和分词位置确定所述可缺省部分以及所述关联关系,所述可缺省部分为去除掉之后不影响语义的部分,所述关联关系指上下级和等义关系;
标记子单元,将所述处理子单元确定的所述可缺省部分以及所述关联关系在所述正则表达式中进行标记。
10.根据权利要求8或9所述的获取用户语句的语义槽的***,其特征在于,所述归一化单元具体包括:
分析子单元,分析所述简化表达式的构成逻辑;
归一化子单元,将所述分析子单元得到的所述构成逻辑相似或者相同的简化表达式进行归一化得到归一表达式。
CN201910046955.3A 2019-01-18 2019-01-18 一种获取用户语句的语义槽的方法及*** Active CN109766555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910046955.3A CN109766555B (zh) 2019-01-18 2019-01-18 一种获取用户语句的语义槽的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910046955.3A CN109766555B (zh) 2019-01-18 2019-01-18 一种获取用户语句的语义槽的方法及***

Publications (2)

Publication Number Publication Date
CN109766555A true CN109766555A (zh) 2019-05-17
CN109766555B CN109766555B (zh) 2023-06-27

Family

ID=66454190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910046955.3A Active CN109766555B (zh) 2019-01-18 2019-01-18 一种获取用户语句的语义槽的方法及***

Country Status (1)

Country Link
CN (1) CN109766555B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886092A (zh) * 2014-04-02 2014-06-25 北京奇虎科技有限公司 一种提供终端故障问题解决方案的方法及装置
CN105095186A (zh) * 2015-07-28 2015-11-25 百度在线网络技术(北京)有限公司 语义解析方法和装置
CN105354180A (zh) * 2015-08-26 2016-02-24 欧阳江 一种实现开放式语义交互服务的方法及***
CN105786793A (zh) * 2015-12-23 2016-07-20 百度在线网络技术(北京)有限公司 解析口语文本信息的语义的方法和装置
US20160283463A1 (en) * 2015-03-26 2016-09-29 Tata Consultancy Services Limited Context based conversation system
CN107315737A (zh) * 2017-07-04 2017-11-03 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及***
CN107608660A (zh) * 2017-08-31 2018-01-19 科大讯飞股份有限公司 共享技能应用方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886092A (zh) * 2014-04-02 2014-06-25 北京奇虎科技有限公司 一种提供终端故障问题解决方案的方法及装置
US20160283463A1 (en) * 2015-03-26 2016-09-29 Tata Consultancy Services Limited Context based conversation system
CN105095186A (zh) * 2015-07-28 2015-11-25 百度在线网络技术(北京)有限公司 语义解析方法和装置
CN105354180A (zh) * 2015-08-26 2016-02-24 欧阳江 一种实现开放式语义交互服务的方法及***
CN105786793A (zh) * 2015-12-23 2016-07-20 百度在线网络技术(北京)有限公司 解析口语文本信息的语义的方法和装置
CN107315737A (zh) * 2017-07-04 2017-11-03 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及***
CN107608660A (zh) * 2017-08-31 2018-01-19 科大讯飞股份有限公司 共享技能应用方法及***

Also Published As

Publication number Publication date
CN109766555B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
Baldwin et al. Extracting the unextractable: A case study on verb-particles
Krasnowska-Kieraś et al. Empirical linguistic study of sentence embeddings
CN110609983B (zh) 一种政策文件结构化分解方法
Yan-Yan et al. Integrating intra-and inter-document evidences for improving sentence sentiment classification
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
CN109783819A (zh) 一种正则表达式的生成方法及***
Prasad et al. Influence of lexical, syntactic and structural features and their combination on authorship attribution for Telugu text
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及***
CN105389303B (zh) 一种异源语料自动融合方法
CN112989816B (zh) 文本内容质量评估方法及***
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
Mason et al. The automatic recognition of verb patterns: A feasibility study
CN109800430B (zh) 一种语义理解方法及***
CN111680493A (zh) 英语文本分析方法、装置、可读存储介质及计算机设备
Boukobza et al. Multi-word expression identification using sentence surface features
Alfonseca et al. German decompounding in a difficult corpus
CN109766555A (zh) 一种获取用户语句的语义槽的方法及***
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
Sweeney et al. Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach.
CN110069780B (zh) 一种基于特定领域文本的情感词识别方法
Akiba et al. Question Answering Using" Common Sense" and Utility Maximization Principle.
CN109783820B (zh) 一种语义解析方法及***
Basili et al. A robust model for intelligent text classification
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant