CN109545202A

CN109545202A - 一种调整语义逻辑混乱的语料的方法及***

Info

Publication number: CN109545202A
Application number: CN201811326950.8A
Authority: CN
Inventors: 魏誉荧
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-29
Anticipated expiration: 2038-11-08
Also published as: CN109545202B

Abstract

本发明提供了一种调整语义逻辑混乱的语料的方法及***，其方法包括：获取逻辑清晰、语义完整的语料样本，根据所述语料样本建立语音库、语义槽和正则表达式库；获取用户语音；将所述用户语音和所述语音库进行匹配，得到匹配分词，所述匹配分词为所述用户语音中匹配结果相符的分词；根据所述语义槽确定所述匹配分词对应的匹配分词词性；根据所述正则表达式库中的正则表达式和所述匹配分词词性调整所述用户语音中分词的位置，得到逻辑正确的文本数据；根据所述文本数据进行语义解析。本发明通过调整逻辑混乱的语料中分词之间的相对位置，从而智能识别真实的用户意图。

Description

一种调整语义逻辑混乱的语料的方法及***

技术领域

本发明涉及语音识别技术领域，尤指一种调整语义逻辑混乱的语料的方法及***。

背景技术

当今社会随着互联网的快速发展，人们的日常生活的方方面面也是变得越来越智能化，因此人们也越来越习惯地使用智能终端完成各种需求。而且随着人工智能相关技术的日益成熟，各类终端的智能化程度也越来越高。语音交互作为智能终端中人机交互主流的交流应用之一，也是越来越受到用户的青睐。

智能终端都是基于用户输入的语音进行识别，然后采取相应的措施，因此用户通过终端终端所输入的语音的准确性严重影响着智能终端所作出的反馈。

由于用户输入语音过程中可能出现的意外，例如用户输入语音时比较着急，来不及理清逻辑，说话语无伦次，导致输入的语音逻辑比较混乱，或者用户自身对于自己描述的事物并不了解或者只理解一部分，导致输入语音描述时不知道如何组织语言进行清晰说明。对于上述获取的语音出现逻辑混乱的现象，如果直接对获取的语音进行识别解析难以准确识别用户的真实意图。

另外，对于小学低年级的学生而言，由于他们还是处于刚刚开始学习的阶段，对于字、词、句的理解都还不够深入，并不能准确运用，导致自身的语言表达能力比较薄弱。因此他们在表达过程中，经常会出现语义逻辑混乱、意图不清晰的情况，导致语音识别产品难以智能识别真实的用户意图。

因此市场上急需一种能够识别用户语音逻辑混乱并进行相应调整的方法及***。

发明内容

本发明的目的是提供一种调整语义逻辑混乱的语料的方法及***，实现通过调整逻辑混乱的语料中分词之间的相对位置，从而智能识别真实的用户意图的目的。

本发明提供的技术方案如下：

本发明提供了一种调整语义逻辑混乱的语料的方法，其特征在于，包括：

获取逻辑清晰、语义完整的语料样本，根据所述语料样本建立语音库、语义槽和正则表达式库；

获取用户语音；

将所述用户语音和所述语音库进行匹配，得到匹配分词，所述匹配分词为所述用户语音中和所述语音库匹配结果相符的分词；

根据所述语义槽确定所述匹配分词对应的匹配分词词性；

根据所述正则表达式库中的正则表达式和所述匹配分词词性调整所述用户语音中分词的相对位置，得到逻辑正确的文本数据；

根据所述文本数据进行语义解析。

进一步的，所述的获取逻辑清晰、语义完整的语料样本，根据所述语料样本建立语音库、语义槽和正则表达式库具体包括：

获取逻辑清晰、语义完整的所述语料样本；

通过分词技术对所述语料样本进行分词得到所述语料样本中包含的样本分词以及对应的样本分词词性；

根据所述样本分词和所述样本分词词性建立所述语义槽；

获取所述样本分词对应的样本分词音频，根据所述样本分词音频建立语音库；

根据所述语料样本和所述样本分词词性总结得出正则表达式，根据所述正则表达式建立所述正则表达式库。

进一步的，所述的根据所述语料样本总结得出正则表达式，根据所述正则表达式建立所述正则表达式库具体包括：

根据所述语料样本的句式信息确定所述样本分词对应的样本分词连接关系；

根据所述样本分词词性以及所述样本分词连接关系建立句式组成的正则表达式；

根据所述正则表达式建立所述正则表达式库。

进一步的，所述的获取用户语音之后，所述的将所述用户语音和所述语音库进行匹配，得到匹配分词，所述匹配分词为所述用户语音中匹配结果相符的分词之前包括：

将所述用户语音转化为识别文本，解析所述识别文本；

当所述识别文本逻辑混乱时，根据所述语音库、所述语义槽和所述正则表达式库进行调整。

进一步的，所述的根据所述语义槽确定所述匹配分词对应的匹配分词词性之后，所述的根据所述正则表达式库中的正则表达式和所述匹配分词词性调整所述用户语音中分词的位置，得到逻辑正确的文本数据之前包括：

统计所述用户语音中所有的匹配分词词性，和所述正则表达式库中的所有的正则表达式进行匹配得到匹配程度；

根据所述匹配程度选取一个或多个正则表达式。

本发明还提供了一种调整语义逻辑混乱的语料的***，其特征在于，包括：

数据库建立模块，获取逻辑清晰、语义完整的语料样本，根据所述语料样本建立语音库、语义槽和正则表达式库；

获取模块，获取用户语音；

匹配模块，将所述获取模块获取的所述用户语音和所述数据库建立模块建立的所述语音库进行匹配，得到匹配分词，所述匹配分词为所述用户语音中和所述语音库匹配结果相符的分词；

分析模块，根据所述数据库建立模块建立的所述语义槽确定所述匹配模块得到的所述匹配分词对应的匹配分词词性；

调整模块，根据所述数据库建立模块建立的所述正则表达式库中的正则表达式和所述分析模块得到的所述匹配分词词性调整所述用户语音中分词的相对位置，得到逻辑正确的文本数据；

解析模块，根据所述调整模块得到的所述文本数据进行语义解析。

进一步的，所述数据库建立模块具体包括：

获取单元，获取逻辑清晰、语义完整的语料样本；

分词单元，通过分词技术对所述获取单元获取的所述语料样本进行分词得到所述语料样本中包含的样本分词以及对应的样本分词词性；

语义槽建立单元，根据所述分词单元得到的所述样本分词和所述样本分词词性建立所述语义槽；

语音库建立单元，获取所述分词单元得到的所述样本分词对应的样本分词音频，根据所述样本分词音频建立语音库；

表达式建立单元，根据所述获取单元获取的所述语料样本和所述分词单元得到的所述样本分词词性总结得出正则表达式，根据所述正则表达式建立所述正则表达式库。

进一步的，所述表达式建立单元具体包括：

分析子单元，根据所述获取单元获取的所述语料样本的句式信息确定所述样本分词对应的样本分词连接关系；

处理子单元，根据所述分词单元得到的所述样本分词词性以及所述分析子单元确定的所述样本分词连接关系建立句式组成的正则表达式；

表达式建立子单元，根据所述处理子单元得到的所述正则表达式建立所述正则表达式库。

进一步的，还包括：

转化模块，将所述获取模块获取的所述用户语音转化为识别文本，解析所述识别文本；

控制模块，当所述转化模块得到的所述识别文本逻辑混乱时，根据所述语音库和所述正则表达式库进行调整。

进一步的，还包括：

处理模块，统计所述分析模块得到的所述用户语音中所有的匹配分词词性，和所述数据库建立模块建立的所述正则表达式库中的所有的正则表达式进行匹配得到匹配程度；

选取模块，根据所述处理模块得到的所述匹配程度选取一个或多个正则表达式。

通过本发明提供的一种调整语义逻辑混乱的语料的方法及***，能够带来以下至少一种有益效果：

1、本发明中，通过获取逻辑清晰、语义完整的语料样本建立语音库、语义槽和正则表达式库，从而分析出逻辑正确的语料中分词之间的连接关系，便于后续调整逻辑混乱的语音中分词的相对位置。

2、本发明中，首先判断获取的用户语音是否存在逻辑混乱的问题，当判定是逻辑混乱再对分词进行调整，避免增大工作量。

3、本发明中，将获取到的用户语音和通过大量的逻辑清晰、语义完整的语料样本总结得出来的语料特征(语音库、语义槽和正则表达式库)进行对比，从而最优化地调整用户语音中分词的相对位置，进而得到逻辑正确的文本数据。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种调整语义逻辑混乱的语料的方法及***的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种调整语义逻辑混乱的语料的方法的第一个实施例的流程图；

图2、图3是本发明一种调整语义逻辑混乱的语料的方法的第二个实施例的流程图；

图4是本发明一种调整语义逻辑混乱的语料的方法的第三个实施例的流程图；

图5是本发明一种调整语义逻辑混乱的语料的方法的第四个实施例的流程图；

图6是本发明一种调整语义逻辑混乱的语料的***的第五个实施例的结构示意图；

图7是本发明一种调整语义逻辑混乱的语料的***的第六个实施例的结构示意图；

图8是本发明一种调整语义逻辑混乱的语料的***的第七个实施例的结构示意图；

图9是本发明一种调整语义逻辑混乱的语料的***的第八个实施例的结构示意图。

附图标号说明：

1000整语义逻辑混乱的语料的***

1100数据库建立模块 1110获取单元 1120分词单元 1130语义槽建立单元 1140语音库建立单元 1150表达式建立单元

1151分析子单元 1152处理子单元 1153表达式建立子单元

1200获取模块 1300匹配模块 1400分析模块 1500调整模块

1600解析模块 1700转化模块 1750控制模块 1800处理模块

1850选取模块

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本发明的第一实施例，如图1所示，一种调整语义逻辑混乱的语料的方法，包括：

S100获取逻辑清晰、语义完整的语料样本，根据所述语料样本建立语音库、语义槽和正则表达式库。

具体的，收集获取大量的逻辑清晰、语义完整的语料样本，分析所有的语料样本从而总结出逻辑清晰的语料所具有的语料特征，从而建立语音库、语义槽和正则表达式库。

S200获取用户语音。

具体的，获取用户语音，例如用户输入语音时比较着急，来不及理清逻辑，说话语无伦次，导致输入的语音逻辑比较混乱，或者用户自身对于自己描述的事物并不了解或者只理解一部分，导致输入语音描述时不知道如何组织语言进行清晰地说明。

S400将所述用户语音和所述语音库进行匹配，得到匹配分词，所述匹配分词为所述用户语音中和所述语音库匹配结果相符的分词。

S500根据所述语义槽确定所述匹配分词对应的匹配分词词性。

具体的，将获取的用户语音和根据大量的语料样本总结得出的语音库中的音频逐一进行匹配，当语音库中的某一音频和获取的用户语音中的某一部分匹配结果相符时，将该音频对应的分词作为匹配分词。

将得到的所有的匹配分词和获取的用户语音进行对比，判断用户语音中是否有除了匹配分词以外的分词，如果有，说明用户语音中存在分词没有被识别出来，可以立即提示用户进行人工识别或者暂时存储后续统一进行识别，并且在识别之后对语料样本以及语音库、语义槽、正则表达式库进行更新。如果没有，则说明用户语音中所有的分词都已经被识别出来。然后在语义槽中找到该匹配分词，从而确定匹配分词对应的词性。

S700根据所述正则表达式库中的正则表达式和所述匹配分词词性调整所述用户语音中分词的相对位置，得到逻辑正确的文本数据。

具体的，将用户语音中匹配分词词性对应的匹配分词的位置按照正则表达式库中的正则表达式的规则进行调整之后，得到的文本数据和该正则表达式的表达方式相同，逻辑正确。如果同一类词性存在多个匹配分词，则对该匹配分词的词义进行解析再决定相互之间的相对位置。

S800根据所述文本数据进行语义解析。

具体的，对上述获取的逻辑正确的文本数据进行解析，获取用户语音的语义，从而识别用户的真实意图，然后根据用户的意图做出相应的反馈或措施。

本实施例中，通过获取逻辑清晰、语义完整的语料样本建立语音库、语义槽和正则表达式库，从而分析出逻辑清晰的语料所具备的语料特征，便于后续通过调整逻辑混乱的语料中分词之间的相对位置理顺语料的逻辑，识别用户的真实意图。

本发明的第二实施例，是上述第一实施例的优化实施例，如图2、图3所示，包括：

S110获取逻辑清晰、语义完整的所述语料样本。

具体的，收集获取大量的逻辑清晰、语义完整的语料样本，语料样本不仅仅指书面文本，还包括语音、音频等，区别在于语音、音频等语料样本需要先转化成对应的文本信息，然后进行后续的处理。

S120通过分词技术对所述语料样本进行分词得到所述语料样本中包含的样本分词以及对应的样本分词词性。

具体的，根据分词技术对语料样本进行分词，识别语料样本中的每一句话中词语的词性，然后将语料样本中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成。因此得到了语料样本中包含的样本分词以及对应的样本分词词性。

S130根据所述样本分词和所述样本分词词性建立所述语义槽。

具体的，获取上述所有的语料样本中包含的所有的样本分词，根据所有的样本分词和样本分词对应的样本分词词性建立语义槽，并在语义槽中建立样本分词和样本分词词性之间的对应关系。

S140获取所述样本分词对应的样本分词音频，根据所述样本分词音频建立语音库。

具体的，获取语料样本中每一个样本分词对应的音频，由于用户年龄以及口音等因素的影响，同一个样本分词可能对应多个音频，尽量多的获取同一个样本分词的不同音频，以便后续能够全面识别用户语音，避免遗漏。然后根据所有的音频建立语音库，在语音库中建立分词和音频之间的对应关系。

S150根据所述语料样本和所述样本分词词性总结得出正则表达式，根据所述正则表达式建立所述正则表达式库。

具体的，逐一分析每一个语料样本以及该语料样本中对应的样本分词词性，总结得出正则表达式，每一个语料样本对应一条正则表达式，如果存在完全相同的正则表达式则进行合并，然后根据所有的正则表达式建立正则表达式库。

S200获取用户语音。

S500根据所述语义槽确定所述匹配分词对应的匹配分词词性。

S800根据所述文本数据进行语义解析。

其中，所述S150根据所述语料样本和所述样本分词词性总结得出正则表达式，根据所述正则表达式建立所述正则表达式库具体包括：

S151根据所述语料样本的句式信息确定所述样本分词对应的样本分词连接关系。

具体的，分析语料样本的句式信息例如句子结构，语料样本中的句子都是有字、词、句等分词组合形成的，在句子结构中不同的分词的成分不同，有的分词可能是作为连接词连接其余的分词，以及分词与分词之间也可能形成关联，例如动宾关系、定中关系等。因此根据语料样本的句式信息确定样本分词对应的样本分词连接关系。

S152根据所述样本分词词性以及所述样本分词连接关系建立句式组成的正则表达式。

具体的，按照上述根据语料样本的句式信息确定样本分词对应的样本分词连接关系之后，以样本分词词性替代语料样本中对应的样本分词的位置，将样本分词词性根据样本分词连接关系进行关联，从而建立句式组成的正则表达式。

S153根据所述正则表达式建立所述正则表达式库。

具体的，逐一分析每一个语料样本建立对应的句式组成的正则表达式，然后根据所有的正则表达式建立正则表达式库。

本实施例中，根据分词技术对逻辑清晰、语义完整的语料样本进行分词，从而建立语音库、语义槽和正则表达式库，并从中统计分析出逻辑清晰的语料所具备的语料，便于后续按照该规则调整逻辑混乱的语料中分词的位置，从而得到逻辑清晰地文本识别用户的真实意图。

本发明的第三实施例，是上述第一实施例的优化实施例，如图4所示，包括：

S200获取用户语音。

S300将所述用户语音转化为识别文本，解析所述识别文本。

S350当所述识别文本逻辑混乱时，根据所述语音库、所述语义槽和所述正则表达式库进行调整。

具体地，将获取的用户语音转化为识别文本，解析该识别文本，判断该识别文本的逻辑是否正确清晰，如果逻辑混乱，则根据上述通过大量的逻辑清晰、语义完整的语料样本总结得出的语音库、语义槽和正则表达式库调整用户语音中分词的相对位置。如果逻辑正确清晰，则直接根据该识别文本识别用户的真实意图，从而采取相应的反馈或措施。

S500根据所述语义槽确定所述匹配分词对应的匹配分词词性。

S800根据所述文本数据进行语义解析。

本实施例中，在获取到用户语音之后，首先判断获取的用户语音的逻辑是否正确清晰，只有当判定用户语音的逻辑混乱时才采取相应的办法进行调整，从而避免增大工作量。

本发明的第四实施例，是上述第一实施例的优化实施例，如图5所示，包括：

S200获取用户语音。

S500根据所述语义槽确定所述匹配分词对应的匹配分词词性。

S600统计所述用户语音中所有的匹配分词词性，和所述正则表达式库中的所有的正则表达式进行匹配得到匹配程度。

具体地，统计获取的用户语音中所有的匹配分词词性，将同类词性的匹配分词归为一类，计算每一类词性的匹配分词在用户语音中所占的比例，和正则表达式库中的所有的正则表达式进行匹配，同一类别词性所占的比例越相近以及比例相近的词性类别越多，认为匹配程度越高。还可以将用户语音中所有匹配分词的词性类别进行加权之后再计算匹配程度。

S650根据所述匹配程度选取一个或多个正则表达式。

具体地，将正则表达式库中的所有的正则表达式根据上述得到的匹配程度按照由大到小的顺序进行排列，选择一个或多个正则表达式作为调整用户语音匹配分词位置的标准。

S800根据所述文本数据进行语义解析。

本实施例中，通过统计获取的用户语音中所有的匹配分词词性，从正则表达式库中的所有的正则表达式中选取一个或多个与用户语音匹配度较高的正则表达式，作为后续调整用户语音匹配分词位置的标准，从而保证调整后的语料的逻辑的准确性。

本发明的第五实施例，如图6所示，一种调整语义逻辑混乱的语料的***1000，包括：

数据库建立模块1100，获取逻辑清晰、语义完整的语料样本，根据所述语料样本建立语音库、语义槽和正则表达式库。

具体地，数据库建立模块1100收集获取大量的逻辑清晰、语义完整的语料样本，分析所有的语料样本从而总结出逻辑清晰的语料所具有的语料特征，从而建立语音库、语义槽和正则表达式库。

获取模块1200，获取用户语音。

具体地，获取模块1200获取用户语音，例如用户输入语音时比较着急，来不及理清逻辑，说话语无伦次，导致输入的语音逻辑比较混乱，或者用户自身对于自己描述的事物并不了解或者只理解一部分，导致输入语音描述时不知道如何组织语言进行清晰地说明。

匹配模块1300，将所述获取模块1200获取的所述用户语音和所述数据库建立模块1100建立的所述语音库进行匹配，得到匹配分词，所述匹配分词为所述用户语音中和所述语音库匹配结果相符的分词。

分析模块1400，根据所述数据库建立模块1100建立的所述语义槽确定所述匹配模块1300得到的所述匹配分词对应的匹配分词词性。

具体地，匹配模块1300将获取的用户语音和根据大量的语料样本总结得出的语音库中的音频逐一进行匹配，当语音库中的某一音频和获取的用户语音中的某一部分匹配结果相符时，将该音频对应的分词作为匹配分词。

将匹配模块1300得到的所有的匹配分词和获取模块1200获取的用户语音进行对比，判断获取模块1200获取的用户语音中是否有除了匹配分词以外的分词，如果有，说明用户语音中存在分词没有被识别出来，可以立即提示用户进行人工识别或者暂时存储后续统一进行识别，并且在识别之后对语料样本以及语音库、语义槽、正则表达式库进行更新。如果没有，则说明用户语音中所有的分词都已经被识别出来。然后分析模块1400在语义槽中找到该匹配分词，从而确定匹配分词对应的词性。

调整模块1500，根据所述数据库建立模块1100建立的所述正则表达式库中的正则表达式和所述分析模块1400得到的所述匹配分词词性调整所述用户语音中分词的相对位置，得到逻辑正确的文本数据。

具体地，调整模块1500将用户语音中匹配分词词性对应的匹配分词的位置按照正则表达式库中的正则表达式的规则进行调整之后，得到的文本数据和该正则表达式的表达方式相同，逻辑正确。如果同一类词性存在多个匹配分词，则对该匹配分词的词义进行解析再决定相互之间的相对位置。

解析模块1600，根据所述调整模块1500得到的所述文本数据进行语义解析。

具体地，解析模块1600对上述获取的逻辑正确的文本数据进行解析，获取用户语音的语义，从而识别用户的真实意图，然后根据用户的意图做出相应的反馈或措施。

本发明的第六实施例，是上述第五实施例的优化实施例，如图7所示，包括：

所述数据库建立模块1100具体包括：

获取单元1110，获取逻辑清晰、语义完整的语料样本。

具体地，获取单元1110收集获取大量的逻辑清晰、语义完整的语料样本，语料样本不仅仅指书面文本，还包括语音、音频等，区别在于语音、音频等语料样本需要先转化成对应的文本信息，然后进行后续的处理。

分词单元1120，通过分词技术对所述获取单元1110获取的所述语料样本进行分词得到所述语料样本中包含的样本分词以及对应的样本分词词性。

具体地，分词单元1120根据分词技术对语料样本进行分词，识别语料样本中的每一句话中词语的词性，然后将语料样本中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成。因此得到了语料样本中包含的样本分词以及对应的样本分词词性。

语义槽建立单元1130，根据所述分词单元1120得到的所述样本分词和所述样本分词词性建立所述语义槽。

具体地，获取上述所有的语料样本中包含的所有的样本分词，语义槽建立单元1130根据所有的样本分词和样本分词对应的样本分词词性建立语义槽，并在语义槽中建立样本分词和样本分词词性之间的对应关系。

语音库建立单元1140，获取所述分词单元1120得到的所述样本分词对应的样本分词音频，根据所述样本分词音频建立语音库。

具体地，语音库建立单元1140获取每一个语料样本中样本分词对应的音频，由于用户年龄以及口音等因素的影响，同一个样本分词可能对应多个音频，尽量多的获取同一个样本分词的不同音频，以便后续能够全面识别用户语音，避免遗漏。然后根据所有的音频建立语音库，在语音库中建立分词和音频之间的对应关系。

表达式建立单元1150，根据所述获取单元1110获取的所述语料样本和所述分词单元1120得到的所述样本分词词性总结得出正则表达式，根据所述正则表达式建立所述正则表达式库。

具体地，表达式建立单元1150逐一分析每一个语料样本以及该语料样本中对应的样本分词词性，总结得出正则表达式，每一个语料样本对应一条正则表达式，如果存在完全相同的正则表达式则进行合并，然后根据所有的正则表达式建立正则表达式库。

所述表达式建立单元1150具体包括：

分析子单元1151，根据所述获取单元1110获取的所述语料样本的句式信息确定所述样本分词对应的样本分词连接关系。

具体地，分析子单元1151分析语料样本的句式信息例如句子结构，语料样本中的句子都是有字、词、句等分词组合形成的，在句子结构中不同的分词的成分不同，有的分词可能是作为连接词连接其余的分词，以及分词与分词之间也可能形成关联，例如动宾关系、定中关系等。因此根据语料样本的句式信息确定样本分词对应的样本分词连接关系。

处理子单元1152，根据所述分词单元1120得到的所述样本分词词性以及所述分析子单元1151确定的所述样本分词连接关系建立句式组成的正则表达式。

具体地，按照上述根据语料样本的句式信息确定样本分词对应的样本分词连接关系之后，处理子单元1152以样本分词词性替代语料样本中对应的样本分词的位置，将样本分词词性根据样本分词连接关系进行关联，从而建立句式组成的正则表达式。

表达式建立子单元1153，根据所述处理子单元1152得到的所述正则表达式建立所述正则表达式库。

具体地，逐一分析每一个语料样本建立对应的句式组成的正则表达式，然后表达式建立子单根据所有的正则表达式建立正则表达式库。

获取模块1200，获取用户语音。

本发明的第七实施例，是上述第五实施例的优化实施例，如图8所示，包括：

获取模块1200，获取用户语音。

转化模块1700，将所述获取模块1200获取的所述用户语音转化为识别文本，解析所述识别文本。

控制模块1750，当所述转化模块1700得到的所述识别文本逻辑混乱时，根据所述语音库和所述正则表达式库进行调整。

具体地，转化模块1700将获取的用户语音转化为识别文本，解析该识别文本，判断该识别文本的逻辑是否正确清晰，如果逻辑混乱，则控制模块1750根据上述通过大量的逻辑清晰、语义完整的语料样本总结得出的语音库、语义槽和正则表达式库调整用户语音中分词的相对位置。如果逻辑正确清晰，则控制模块1750直接根据该识别文本识别用户的真实意图，从而采取相应的反馈或措施。

本发明的第八实施例，是上述第五实施例的优化实施例，如图9所示，包括：

获取模块1200，获取用户语音。

处理模块1800，统计所述分析模块1400得到的所述用户语音中所有的匹配分词词性，和所述数据库建立模块1100建立的所述正则表达式库中的所有的正则表达式进行匹配得到匹配程度。

具体地，处理模块1800统计获取的用户语音中所有的匹配分词词性，将同类词性的匹配分词归为一类，计算每一类词性的匹配分词在用户语音中所占的比例，和正则表达式库中的所有的正则表达式进行匹配，同一类别词性所占的比例越相近以及比例相近的词性类别越多，认为匹配程度越高。还可以将用户语音中所有匹配分词的词性类别进行加权之后再计算匹配程度。

选取模块1850，根据所述处理模块1800得到的所述匹配程度选取一个或多个正则表达式。

具体地，将正则表达式库中的所有的正则表达式根据上述得到的匹配程度按照由大到小的顺序进行排列，选取模块1850选择一个或多个正则表达式作为调整用户语音匹配分词位置的标准。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种调整语义逻辑混乱的语料的方法，其特征在于，包括：

获取用户语音；

根据所述语义槽确定所述匹配分词对应的匹配分词词性；

根据所述文本数据进行语义解析。

2.根据权利要求1所述的调整语义逻辑混乱的语料的方法，其特征在于，所述的获取逻辑清晰、语义完整的语料样本，根据所述语料样本建立语音库、语义槽和正则表达式库具体包括：

获取逻辑清晰、语义完整的所述语料样本；

根据所述样本分词和所述样本分词词性建立所述语义槽；

3.根据权利要求2所述的调整语义逻辑混乱的语料的方法，其特征在于，所述的根据所述语料样本总结得出正则表达式，根据所述正则表达式建立所述正则表达式库具体包括：

根据所述正则表达式建立所述正则表达式库。

4.根据权利要求1所述的调整语义逻辑混乱的语料的方法，其特征在于，所述的获取用户语音之后，所述的将所述用户语音和所述语音库进行匹配，得到匹配分词，所述匹配分词为所述用户语音中匹配结果相符的分词之前包括：

将所述用户语音转化为识别文本，解析所述识别文本；

5.根据权利要求1所述的调整语义逻辑混乱的语料的方法，其特征在于，所述的根据所述语义槽确定所述匹配分词对应的匹配分词词性之后，所述的根据所述正则表达式库中的正则表达式和所述匹配分词词性调整所述用户语音中分词的位置，得到逻辑正确的文本数据之前包括：

根据所述匹配程度选取一个或多个正则表达式。

6.一种调整语义逻辑混乱的语料的***，其特征在于，包括：

获取模块，获取用户语音；

7.根据权利要求6所述的调整语义逻辑混乱的语料的***，其特征在于，所述数据库建立模块具体包括：

获取单元，获取逻辑清晰、语义完整的语料样本；

8.根据权利要求7所述的调整语义逻辑混乱的语料的***，其特征在于，所述表达式建立单元具体包括：

9.根据权利要求6所述的调整语义逻辑混乱的语料的***，其特征在于，还包括：

10.根据权利要求6所述的调整语义逻辑混乱的语料的***，其特征在于，还包括：