CN104636323A

CN104636323A - 处理语音文本的方法及装置

Info

Publication number: CN104636323A
Application number: CN201310554808.XA
Authority: CN
Inventors: 王飞; 徐浩; 褚攀; 韩贵平; 廖玲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-11-07
Filing date: 2013-11-07
Publication date: 2015-05-20
Anticipated expiration: 2033-11-07
Also published as: WO2015067116A1; CN104636323B

Abstract

本发明公开了一种处理语音文本的方法及装置，属于信息处理技术领域。方法包括：对语音文本进行命名实体映射，得到第一映射结果；对第一映射结果进行词汇映射，得到第二映射结果；将第二映射结果与包括正则规则的预设规则进行匹配，如果得到一个匹配规则，则根据得到的一个匹配规则对语音文本进行处理。本发明通过对语音文本进行命名实体映射，得到第一映射结果；对第一映射结果进行词汇映射，得到第二映射结果；之后将第二映射结果与包括正则规则的预设规则进行匹配，并根据得到的一个匹配规则对语音文本进行处理，从而将正则规则和命名实体规则的配置格式统一，扩大了处理语音文本技术的适用范围，从而使语音文本的处理方式得到了优化。

Description

处理语音文本的方法及装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种处理语音文本的方法及装置。

背景技术

随着信息处理技术的不断发展，以自然语言进行人机交互成为现实。实现人机交互的关键是要准确理解用户发出的自然语言指令并进行相应的操作。用户在发出自然语言指令后，该指令被转换为语音文本，如何处理语音文本，成为人们关注的问题。

现有技术有两种处理语音文本的方式，第一种方式：对语音文本进行词汇映射，得到映射结果；通过规则卡位提取映射结果中的位置参数，得到卡位提取结果；将卡位提取结果和预设规则进行匹配，得到一个匹配规则；根据得到的一个匹配规则对语音文本进行处理。其中，规则卡位是根据正则规则获得的指定位置。第二种方式：对语音文本进行命名实体映射，得到第一映射结果；对命名实体映射的结果进行词汇映射，得到第二映射结果；将第二映射结果和预设规则进行匹配，得到一个匹配规则；根据得到的一个匹配规则对语音文本进行处理。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

正则规则不够灵活，不适用于实际的语言环境。命名实体规则对于比较固定的语言环境以及不适宜建立实体命名库的场景，不能充分发挥作用。因此，现有技术提供的两种处理语音文本的方式均具有一定的局限性，导致语音文本的处理方式不够优化。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种处理语音文本的方法及装置。所述技术方案如下：

一方面，提供了一种处理语音文本的方法，所述方法包括：

对语音文本进行命名实体映射，得到第一映射结果；

对所述第一映射结果进行词汇映射，得到第二映射结果；

将所述第二映射结果与包括正则规则的预设规则进行匹配，如果得到一个匹配规则，则根据得到的一个匹配规则对所述语音文本进行处理。

另一方面，提供了一种处理语音文本的装置，所述装置包括：

第一映射模块，用于对语音文本进行命名实体映射，得到第一映射结果；

第二映射模块，用于对所述第一映射结果进行词汇映射，得到第二映射结果；

匹配模块，用于将所述第二映射结果与包括正则规则的预设规则进行匹配；

第一处理模块，用于当得到一个匹配规则时，根据得到的一个匹配规则对所述语音文本进行处理。

本发明实施例提供的技术方案带来的有益效果是：

通过对语音文本进行命名实体映射，得到第一映射结果；对第一映射结果进行词汇映射，得到第二映射结果；之后将第二映射结果与包括正则规则的预设规则进行匹配，并根据得到的一个匹配规则对语音文本进行处理，从而将正则规则和命名实体规则的配置格式统一，使处理语音文本技术既适用于实际的语言环境，又适用于固定的语言环境，扩大了处理语音文本技术的适用范围，从而使语音文本的处理方式得到了优化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的处理语音文本的方法流程图；

图2是本发明实施例二提供的处理语音文本的方法流程图；

图3是本发明实施例三提供的第一种处理语音文本的装置结构示意图；

图4是本发明实施例三提供的第二种处理语音文本的装置结构示意图；

图5是本发明实施例三提供的第三种处理语音文本的装置结构示意图；

图6是本发明实施例四提供的处理语音文本的终端结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种处理语音文本的方法，参见图1，方法流程包括如下步骤：

101：对语音文本进行命名实体映射，得到第一映射结果；

102：对第一映射结果进行词汇映射，得到第二映射结果；

进一步地，对第一映射结果进行词汇映射之前，包括：

将第一映射结果中的一至多个命名实体依次展开为映射前对应的语音文本，得到至少两个第三映射结果；

对第一映射结果进行词汇映射，包括：

将每个第三映射结果中未被映射为命名实体的语音文本进行词汇映射，得到第二映射结果。

103：将第二映射结果与包括正则规则的预设规则进行匹配，如果得到一个匹配规则，则根据得到的一个匹配规则对语音文本进行处理。

进一步地，将第二映射结果与包括正则规则的预设规则进行匹配之后，还包括：

如果得到至少两个匹配规则，则对得到的所有匹配规则依次进行匹配宽度消岐处理、匹配加权值消岐处理、匹配密度消岐处理、命中数量消岐处理以及命名实体权值消岐处理中的至少一种消岐处理，直至得到一个消岐后的匹配规则；

根据得到的一个消岐后的匹配规则对语音文本进行处理。

进一步地，匹配宽度消岐处理，包括：

确定每个匹配规则对应的第二映射结果的匹配宽度，将匹配宽度最大的匹配规则作为经过匹配宽度消岐处理的匹配规则。

进一步地，匹配加权值消岐处理，包括：

按照预先设置的词汇与命名实体的加权值确定每个待进行匹配加权值消岐处理的匹配规则的加权值；

将加权值最大的匹配规则作为经过匹配加权值消岐处理的匹配规则；

其中，待进行匹配加权值消岐处理的匹配规则为经过匹配宽度消岐处理的匹配规则。

进一步地，匹配密度消岐处理，包括：

确定每个待进行匹配密度消岐处理的匹配规则与第二映射结果的匹配比重，将匹配比重最大的匹配规则作为经过匹配密度消岐处理的匹配规则；

其中，每个待进行匹配密度消岐处理的匹配规则为经过匹配宽度消岐处理的匹配规则。

进一步地，命中数量消岐处理，包括：

确定每个待进行命中数量消岐处理的匹配规则的参数命中数量，参数为命名实体、词汇和位置参数中的一个；

将参数命中数量最大的匹配结果作为经过命中数量消岐处理的匹配规则；

其中，每个待进行命中数量消岐处理的匹配规则为经过匹配宽度消岐处理的匹配规则。

进一步地，命名实体权值消岐处理，包括：

确定每个待进行命名实体权值消岐处理的匹配规则中命名实体的权重值，将命名实体的权重值最大的匹配规则作为经过命名实体权值消岐处理的匹配规则；

其中，每个待进行命名实体权值消岐处理的匹配规则为经过匹配宽度消岐处理的匹配规则。

本实施例提供的方法，通过对语音文本进行命名实体映射，得到第一映射结果；对第一映射结果进行词汇映射，得到第二映射结果；之后将第二映射结果与包括正则规则的预设规则进行匹配，并根据得到的一个匹配规则对语音文本进行处理，从而将正则规则和命名实体规则的配置格式统一，使处理语音文本技术既适用于实际的语言环境，又适用于固定的语言环境，扩大了处理语音文本技术的适用范围，从而使语音文本的处理方式得到了优化。

实施例二

本发明实施例提供了一种处理语音文本的方法，结合上述实施例一的内容，参见图2，方法流程包括：

201：对语音文本进行命名实体映射，得到第一映射结果；

具体地，对语音文本进行命名实体映射，包括但不限于：建立命名实体库；在语音文本中查找能够被识别为命名实体库中的命名实体的语音本文，并用命名实体替换查找到的语音文本。需要说明的是，命名实体是从网上大量的信息中搜集的，并且命名实体的识别是使用各个领域独立字典树的实现方式，即能够支持到命名实体全部重合或部分重合的情况下找出所有的命名实体。

为了便于理解，以语音文本为“我想听第一次”，命名实体用中文大括号【】表示为例进行说明。建立的命名实体中语音文本“我想”及“第一次”都对应命名实体【歌名】；在语音文本中查找到语音文本“我想”及“第一次”都能够被识别为命名实体库中的【歌名】，用命名实体【歌名】替换查找到的语音文本“我想”及“第一次”后得到第一映射结果，即【歌名】听【歌名】。

202：将第一映射结果中的一至多个命名实体依次展开为映射前对应的语音文本，得到至少两个第三映射结果；

针对该步骤，由于命名实体可能和词汇重叠，则将第一映射结果中的一至多个命名实体依次展开为映射前对应的语音文本，得到至少两个第三映射结果，从而增加了映射结果，避免命名实体和词汇重叠的情况下不能准确处理语音文本。

需要说明的是，如果第一映射结果中没有命名实体部分重叠的情况，并且第一映射结果中一共有n个命名实体，则将一至多个命名实体依次展开为映射前对应的语音文本后得到2^n个第三映射结果。

为了便于理解，仍以语音文本为“我想听第一次”为例进行说明。其中，语音文本对应的第一映射结果为【歌名】听【歌名】。将【歌名】听【歌名】中的两个命名实体依次展开为映射前对应的语音文本，得到【歌名】听【歌名】、我想听【歌名】、【歌名】听第一次、我想听第一次，这四个第三映射结果。

203:将每个第三映射结果中未被映射为命名实体的语音文本进行词汇映射，得到第二映射结果；

针对该步骤，进行词汇映射中的词汇是人工配置的，将日常语言中表达相同含义的语音文本映射为相同的词汇。由于相同含义的语音文本在实际的语言环境中可能对应不同的语音文本，将未被映射为命名实体的语音文本进行词汇映射，可以减少重复匹配的工作量。关于将每个第三映射结果中未被映射为命名实体的语音文本进行词汇映射的方式，本实施例不作具体限定。

为了便于理解，以上述步骤202中的第三映射结果为例进行说明。其中，“我想听”映射到词汇<播放>。将每个第三映射结果中未被映射为命名实体的语音文本进行词汇映射，得到第二映射结果为：【歌名】听【歌名】，<播放>【歌名】，【歌名】听第一次，<播放>第一次。

204:将第二映射结果与包括正则规则的预设规则进行匹配；

具体地，预设规则包括但不限于：正则规则及预设的其他规则。其中，预设的其他规则包括但不限于设置符合语言习惯的规则。本实施例不对预设的其他规则作具体限定，实际应用中可以根据需要设置预设的其他规则，本实施例对此不作具体限定。

进一步地，将第二映射结果与包括正则规则的预设规则进行匹配，包括但不限于：通过规则卡位提取第二映射结果中的位置参数，得到卡位提取结果；将卡位提取结果和预设的其他规则进行匹配。其中，规则卡位是根据正则规则获得的指定位置；通过规则卡位提取第二映射结果中的位置参数，即根据正则规则在指定位置提取第二映射结果中的位置参数。当第二映射结果中没有可以通过规则卡位提取的位置参数时，可直接将第二映射结果和预设的其他规则进行匹配，进而得到匹配的规则。

需要说明的是，将第二映射结果与包括正则规则的预设规则进行匹配后，如果得到一个匹配规则，则执行步骤205；如果得到至少两个匹配规则，则执行步骤206。

为了便于理解，以第二映射结果：【歌名】听【歌名】，<播放>【歌名】，【歌名】听第一次，<播放>第一次，为例进行说明。由于第二映射结果中没有可以通过规则卡位提取的位置参数，则直接将第二映射结果和预设的其他规则进行匹配。当预设的其他规则为<播放>【歌名】时，得到与该规则对应的第二映射结果为<播放>【歌名】，进而得到一个匹配规则，即<播放>【歌名】。

又例如，语音文本是“播放转角遇到爱”，则将根据上述步骤201至203对语音文本进行处理，得到<播放>【视频名称】，<播放>【歌名】遇到爱，<播放>转角遇到爱，这三个第二映射结果。由于这三个第二映射结果中没有可以通过规则卡位提取的位置参数，则直接将这三个第二映射结果和预设的其他规则进行匹配。由于预设的其他规则既为<播放>【歌名】，还可以为<播放>【视频名称】，则得到与这两个规则对应的第二映射结果为<播放>【视频名称】，<播放>【歌名】遇到爱；进而得到两个匹配规则，即<播放>【歌名】，<播放>【视频名称】。

205:根据得到的一个匹配规则对语音文本进行处理；

针对该步骤，由于上述步骤204中得到一个匹配规则，则根据得到的一个匹配规则对语音文本进行处理。关于对语音文本进行处理的方式，本实施例不作具体限定。

例如，仍以语音文本是“播放转角遇到爱”为例，如果得到的一个匹配规则为<播放>【视频名称】，则该步骤205在根据得到的一个匹配规则对语音文本进行处理时，将播放视频名称为“转角遇到爱”的视频。

206:对得到的所有匹配规则依次进行匹配宽度消岐处理、匹配加权值消岐处理、匹配密度消岐处理、命中数量消岐处理以及命名实体权值消岐处理中的至少一种消岐处理，直至得到一个消岐后的匹配规则；

针对该步骤，由于上述步骤204中得到至少两个匹配规则，为了使语音文本的处理结果更为准确，本实施例提供的方法采取了对所有匹配规则进行消岐处理的方式。其中，消岐处理的过程，包括但不限于：对得到的所有匹配规则依次进行匹配宽度消岐处理、匹配加权值消岐处理、匹配密度消岐处理、命中数量消岐处理以及命名实体权值消岐处理中的至少一种消岐处理，直至得到一个消岐后的匹配规则。

关于匹配宽度消岐处理的方式，包括但不限于：确定每个匹配规则对应的第二映射结果的匹配宽度，将匹配宽度最大的匹配规则作为经过匹配宽度消岐处理的匹配规则。匹配宽度的确定是从第二映射结果中第一个参数的起始位置到最后一个参数的结束位置。其中，参数包括但不限于：命名实体、词汇和位置参数。需要说明的是，为了避免没有实际意义的语音文本等影响对语音文本的处理，在确定匹配宽度之前需要设置阈值，该阈值用于确定第二映射的结果的匹配宽度，即在阈值范围内认为第二映射结果的匹配宽度一致。设置的阈值的大小，本实施例不作具体限定，实际应用中可以根据需要设置任意的阈值。

为了便于理解，以语音文本是“播放转角遇到爱”为例进行说明。其中，设置阈值为2个字节。对语音文本进行匹配后，得到<播放>【歌名】，<播放>【视频名称】，这两个匹配规则；这两个匹配规则分别对应<播放>【歌名】遇到爱，<播放>【视频名称】，这两个第二映射结果。对得到的所有匹配规则进行匹配宽度消岐处理，确定匹配规则<播放>【歌名】对应的第二映射结果<播放>【歌名】遇到爱的匹配宽度：第一个参数是句首<播放>，最后一个参数是【歌名】；并且由于设置的阈值为2字节，所以“遇到爱”这三个字不能被忽略，则匹配规则<播放>【歌名】的匹配宽度不是从句首到句尾；匹配规则<播放>【视频名称】对应的第二映射结果<播放>【视频名称】的匹配宽度：第一个参数是<播放>，最后一个参数是【视频名称】，则匹配规则<播放>【视频名称】的匹配宽度是从句首到句尾，比匹配规则<播放>【歌名】的匹配宽度更大；进而将匹配宽度最大的匹配规则<播放>【视频名称】作为经过匹配宽度消岐处理的匹配规则，得到一个消岐后的匹配规则。

关于匹配加权值消岐处理的方式，包括但不限于：按照预先设置的词汇与命名实体的加权值确定每个待进行匹配加权值消岐处理的匹配规则的加权值；

需要说明的是，预先设置的词汇与命名实体的加权值大小，本实施例不作具体限定。由于词汇是人工配置的，而命名实体是从网上大量的信息中搜集的，则通常情况下词汇的权重要比命名实体的权重大。

为了便于理解，以语音文本是“找一下附近的餐馆”为例进行说明。对语音文本进行匹配后，得到<查找><餐厅>，<查找>【餐馆名】，这两个匹配规则；这两个匹配规则分别对应<查找>附近的<餐厅>，<查找>附近的【餐馆名】，这两个第二映射结果。对得到的所有匹配规则进行匹配宽度消岐处理，确定这两个匹配规则的匹配宽度相同。由于匹配宽度消岐后的匹配规则多于一个，则对匹配宽度消岐后的匹配规则进行匹配加权值消岐处理。如果预先设置的词汇与命名实体的加权值的权重比是2：1，则确定匹配规则<查找><餐厅>的加权值大于匹配规则<查找>【餐馆名】，即加权值最大的匹配规是<查找><餐厅>；进而将<查找><餐厅>作为经过匹配加权值消岐处理的匹配规则，得到一个消岐后的匹配规则。

关于匹配密度消岐处理的方式，包括但不限于：确定每个待进行匹配密度消岐处理的匹配规则与第二映射结果的匹配比重，将匹配比重最大的匹配规则作为经过匹配密度消岐处理的匹配规则；

需要说明的是，匹配密度消岐处理是针对匹配规则中包含同类参数的情况。例如，匹配规则中都包含词汇，或者匹配规则中都包含命名实体。

为了便于理解，以语音文本是“播放小时代”为例进行说明。对语音文本进行匹配后，得到<播放>【电影名】，<播放>【歌名】，这两个匹配规则；这两个匹配规则分别对应<播放>【电影名】，<播放>小【歌名】，这两个第二映射结果。对得到的所有匹配规则进行匹配宽度消岐，确定这两个匹配规则的匹配宽度相同。由于匹配宽度消岐后的匹配规则多于一个，则对匹配宽度消岐后的匹配规则进行匹配加权值消岐处理，确定这两个匹配规则的加权值相同。由于匹配加权值消岐后的匹配规则多于一个，则对匹配加权值消岐后的匹配规则进行匹配密度消岐。确定<播放>【电影名】与<播放>【电影名】的匹配比重为100%，<播放>【歌名】与<播放>小【歌名】的匹配比重为80%，即匹配比重最大的匹配规则是<播放>【电影名】；进而将<播放>【电影名】作为经过匹配密度消岐处理的匹配规则，得到一个消岐后的匹配规则。

关于命中数量消岐处理的方式，包括但不限于：确定每个待进行命中数量消岐处理的匹配规则的参数命中数量，参数为命名实体、词汇和位置参数中的一个；

为了便于理解，以语音文本是“播放歌曲风”为例进行说明。对语音文本进行匹配后，得到<播放><歌曲>%s1，<播放><歌曲>，这两个匹配规则；其中，%s1是位置参数；这两个匹配规则都对应<播放><歌曲>风，这个第二映射结果。对得到的所有匹配规则进行匹配宽度消岐处理，当设置阈值为2个字节时，确定这两个匹配规则的匹配宽度相同。由于匹配宽度消岐后的匹配规则多于一个，则对匹配宽度消岐后的匹配规则进行匹配加权值消岐处理，确定这两个匹配规则的加权值相同。由于匹配加权值消岐后的匹配规则多于一个，则对匹配加权值消岐后的匹配规则进行匹配密度消岐。由于<播放><歌曲>中不包含位置参数，则不能对匹配加权值消岐后的匹配规则进行匹配密度消岐处理，进而按照顺序对匹配加权值消岐后的匹配规则进行命中数量消岐处理。确定<播放><歌曲>%s1的参数命中数量是3，<播放><歌曲>的参数命中数量是2，即参数命中数量最大的匹配规则是<播放><歌曲>%s1；进而将<播放><歌曲>%s1作为经过命中数量消岐处理的匹配规则，得到一个消岐后的匹配规则。

关于命名实体权值消岐处理的方式，包括但不限于：确定每个待进行命名实体权值消岐处理的匹配规则中命名实体的权重值，将命名实体的权重值最大的匹配规则作为经过命名实体权值消岐处理的匹配规则；

为了便于理解，以语音文本是“播放致青春”为例进行说明。对语音文本进行匹配后，得到<播放>【电影名】，<播放>【歌名】，这两个匹配规则分别对应<播放>【电影名】，<播放>【歌名】，这两个第二映射结果。对得到的所有匹配规则进行匹配宽度消岐处理，确定这两个匹配规则的匹配宽度相同。由于匹配宽度消岐后的匹配规则多于一个，则对匹配宽度消岐后的匹配规则进行匹配加权值消岐处理，确定这两个匹配规则的加权值相同。由于匹配加权值消岐后的匹配规则多于一个，则对匹配加权值消岐后的匹配规则进行匹配密度消岐处理，确定这两个匹配规则的匹配密度相同。由于匹配密度消岐后的匹配规则多于一个，则对匹配密度消岐后的匹配规则进行命中数量消岐处理，确定这两个匹配规则的参数命中数量相同。由于命中数量消岐后的匹配规则多于一个，则对命中数量消岐后的匹配规则进行命名实体权值消岐处理。当确定命名实体【电影名】的权重值大于命名实体【歌名】的权重值时，确定<播放>【电影名】中命名实体的权重值大于<播放>【歌名】中命名实体的权重值，即命名实体的权重值最大的匹配规则是<播放>【电影名】；进而将<播放>【电影名】作为经过命名实体权值消岐处理的匹配规则，得到一个消岐后的匹配规则。

207：根据得到的一个消岐后的匹配规则对语音文本进行处理。

针对该步骤，关于根据得到的一个消岐后的匹配规则对语音文本进行处理的方式，本实施例不作具体限定，具体处理方式与上述步骤205中的处理方式原理相同，具体详见上述步骤205。

实施例三

参见图3，本发明实施例提供了一种处理语音文本的装置，该装置包括：

第一映射模块301，用于对语音文本进行命名实体映射，得到第一映射结果；

第二映射模块302，用于对第一映射结果进行词汇映射，得到第二映射结果；

匹配模块303，用于将第二映射结果与包括正则规则的预设规则进行匹配；

第一处理模块304，用于当得到一个匹配规则时，根据得到的一个匹配规则对语音文本进行处理。

作为一种优选实施例，参见图4，该装置还包括：

展开模块305，用于将第一映射结果中的一至多个命名实体依次展开为映射前对应的语音文本，得到至少两个第三映射结果；

第二映射模块302，还用于将每个第三映射结果中未被映射为命名实体的语音文本进行词汇映射，得到第二映射结果。

作为一种优选实施例，参见图5，该装置还包括：

消岐模块306，用于当得到至少两个匹配规则时，对得到的所有匹配规则依次进行匹配宽度消岐处理、匹配加权值消岐处理、匹配密度消岐处理、命中数量消岐处理以及命名实体权值消岐处理中的至少一种消岐处理，直至得到一个消岐后的匹配规则；

第二处理模块307，用于根据得到的一个消岐后的匹配规则对语音文本进行处理。

作为一种优选实施例，消岐模块306，用于确定每个匹配规则对应的第二映射结果的匹配宽度，将匹配宽度最大的匹配规则作为经过匹配宽度消岐处理的匹配规则。

作为一种优选实施例，消岐模块306，用于按照预先设置的词汇与命名实体的加权值确定每个待进行匹配加权值消岐处理的匹配规则的加权值；将加权值最大的匹配规则作为经过匹配加权值消岐处理的匹配规则；

作为一种优选实施例，消岐模块306，用于确定每个待进行匹配密度消岐处理的匹配规则与第二映射结果的匹配比重，将匹配比重最大的匹配规则作为经过匹配密度消岐处理的匹配规则；

作为一种优选实施例，消岐模块306，用于确定每个待进行命中数量消岐处理的匹配规则的参数命中数量，参数为命名实体、词汇和位置参数中的一个；将参数命中数量最大的匹配结果作为经过命中数量消岐处理的匹配规则；

作为一种优选实施例，消岐模块306，用于确定每个待进行命名实体权值消岐处理的匹配规则中命名实体的权重值，将命名实体的权重值最大的匹配规则作为经过命名实体权值消岐处理的匹配规则；

综上所述，本发明实施例提供的装置，通过对语音文本进行命名实体映射，得到第一映射结果；对第一映射结果进行词汇映射，得到第二映射结果；之后将第二映射结果与包括正则规则的预设规则进行匹配，并根据得到的一个匹配规则对语音文本进行处理，从而将正则规则和命名实体规则的配置格式统一，使处理语音文本技术既适用于实际的语言环境，又适用于固定的语言环境，扩大了处理语音文本技术的适用范围，从而使语音文本的处理方式得到了优化。

实施例四

本发明实施例提供了一种终端，请参考图6，其示出了本发明实施例所涉及的终端的结构示意图，该终端可以用于实施上述实施例中提供的处理语音文本的方法。具体来讲：

终端600可以包括RF（Radio Frequency，射频）电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi（Wireless Fidelity，无线保真）模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图6中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块（SIM）卡、收发信机、耦合器、LNA（Low Noise Amplifier，低噪声放大器）、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据终端600的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端600的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图6中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端600还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端600移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；至于终端600还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端600之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端600的通信。

WiFi属于短距离无线传输技术，终端600通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块170，但是可以理解的是，其并不属于终端600的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端600的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端600的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端600还包括给各个部件供电的电源190（比如电池），优选的，电源可以通过电源管理***与处理器180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端600还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，所述一个或者一个以上程序包含用于执行以下操作的指令：

对语音文本进行命名实体映射，得到第一映射结果；

对第一映射结果进行词汇映射，得到第二映射结果；

将第二映射结果与包括正则规则的预设规则进行匹配，如果得到一个匹配规则，则根据得到的一个匹配规则对语音文本进行处理。

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：

对第一映射结果进行词汇映射之前，包括：

对第一映射结果进行词汇映射，包括：

在第一种或第二种可能的实施方式作为基础而提供的第三种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：

将第二映射结果与包括正则规则的预设规则进行匹配之后，还包括：

根据得到的一个消岐后的匹配规则对语音文本进行处理。

在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：

匹配宽度消岐处理，包括：

在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：

匹配加权值消岐处理，包括：

在第五种可能的实施方式作为基础而提供的第六种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：

匹配密度消岐处理，包括：

在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：

命中数量消岐处理，包括：

在第七种可能的实施方式作为基础而提供的第八种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：

命名实体权值消岐处理，包括：

综上所述，本发明实施例提供的终端，通过对语音文本进行命名实体映射，得到第一映射结果；对第一映射结果进行词汇映射，得到第二映射结果；之后将第二映射结果与包括正则规则的预设规则进行匹配，并根据得到的一个匹配规则对语音文本进行处理，从而将正则规则和命名实体规则的配置格式统一，使处理语音文本技术既适用于实际的语言环境，又适用于固定的语言环境，扩大了处理语音文本技术的适用范围，从而使语音文本的处理方式得到了优化。

实施例五

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序，该一个或者一个以上程序被一个或者一个以上的处理器用来执行一个处理语音文本的方法，该方法包括：

对语音文本进行命名实体映射，得到第一映射结果；

对第一映射结果进行词汇映射，得到第二映射结果；

对第一映射结果进行词汇映射之前，包括：

对第一映射结果进行词汇映射，包括：

根据得到的一个消岐后的匹配规则对语音文本进行处理。

匹配宽度消岐处理，包括：

匹配加权值消岐处理，包括：

匹配密度消岐处理，包括：

命中数量消岐处理，包括：

命名实体权值消岐处理，包括：

综上所述，本发明实施例提供的计算机可读存储介质，通过对语音文本进行命名实体映射，得到第一映射结果；对第一映射结果进行词汇映射，得到第二映射结果；之后将第二映射结果与包括正则规则的预设规则进行匹配，并根据得到的一个匹配规则对语音文本进行处理，从而将正则规则和命名实体规则的配置格式统一，使处理语音文本技术既适用于实际的语言环境，又适用于固定的语言环境，扩大了处理语音文本技术的适用范围，从而使语音文本的处理方式得到了优化。

实施例六

本发明实施例中提供了一种图形用户接口，该图形用户接口用在终端上，该终端包括触摸屏显示器、存储器和用于执行一个或者一个以上的程序的一个或者一个以上的处理器；该图形用户接口包括：

对语音文本进行命名实体映射，得到第一映射结果；

对第一映射结果进行词汇映射，得到第二映射结果；

综上所述，本发明实施例提供的图形用户接口通过对语音文本进行命名实体映射，得到第一映射结果；对第一映射结果进行词汇映射，得到第二映射结果；之后将第二映射结果与包括正则规则的预设规则进行匹配，并根据得到的一个匹配规则对语音文本进行处理，从而将正则规则和命名实体规则的配置格式统一，使处理语音文本技术既适用于实际的语言环境，又适用于固定的语言环境，扩大了处理语音文本技术的适用范围，从而使语音文本的处理方式得到了优化。

需要说明的是：上述实施例提供的处理语音文本的装置在处理语音文本时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的处理语音文本的装置与处理语音文本的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种处理语音文本的方法，其特征在于，所述方法包括：

对语音文本进行命名实体映射，得到第一映射结果；

对所述第一映射结果进行词汇映射，得到第二映射结果；

2.根据权利要求1所述的方法，其特征在于，所述对所述第一映射结果进行词汇映射之前，包括：

将所述第一映射结果中的一至多个命名实体依次展开为映射前对应的语音文本，得到至少两个第三映射结果；

所述对所述第一映射结果进行词汇映射，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述将所述第二映射结果与包括正则规则的预设规则进行匹配之后，还包括：

根据得到的一个消岐后的匹配规则对所述语音文本进行处理。

4.根据权利要求3所述的方法，其特征在于，所述匹配宽度消岐处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述匹配加权值消岐处理，包括：

其中，所述待进行匹配加权值消岐处理的匹配规则为经过匹配宽度消岐处理的匹配规则。

6.根据权利要求5所述的方法，其特征在于，所述匹配密度消岐处理，包括：

7.根据权利要求6所述的方法，其特征在于，所述命中数量消岐处理，包括：

确定每个待进行命中数量消岐处理的匹配规则的参数命中数量，所述参数为命名实体、词汇和位置参数中的一个；

8.根据权利要求7所述的方法，其特征在于，所述命名实体权值消岐处理，包括：

9.一种处理语音文本的装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述装置，还包括：

展开模块，用于将所述第一映射结果中的一至多个命名实体依次展开为映射前对应的语音文本，得到至少两个第三映射结果；

所述第二映射模块，还用于将每个第三映射结果中未被映射为命名实体的语音文本进行词汇映射，得到第二映射结果。

11.根据权利要求9或10所述的装置，其特征在于，所述装置，还包括：

消岐模块，用于当得到至少两个匹配规则时，对得到的所有匹配规则依次进行匹配宽度消岐处理、匹配加权值消岐处理、匹配密度消岐处理、命中数量消岐处理以及命名实体权值消岐处理中的至少一种消岐处理，直至得到一个消岐后的匹配规则；

第二处理模块，用于根据得到的一个消岐后的匹配规则对所述语音文本进行处理。

12.根据权利要求11所述的装置，其特征在于，所述消岐模块，用于确定每个匹配规则对应的第二映射结果的匹配宽度，将匹配宽度最大的匹配规则作为经过匹配宽度消岐处理的匹配规则。

13.根据权利要求12所述的装置，其特征在于，所述消岐模块，用于按照预先设置的词汇与命名实体的加权值确定每个待进行匹配加权值消岐处理的匹配规则的加权值；将加权值最大的匹配规则作为经过匹配加权值消岐处理的匹配规则；

14.根据权利要求13所述的装置，其特征在于，所述消岐模块，用于确定每个待进行匹配密度消岐处理的匹配规则与第二映射结果的匹配比重，将匹配比重最大的匹配规则作为经过匹配密度消岐处理的匹配规则；

15.根据权利要求14所述的装置，其特征在于，所述消岐模块，用于确定每个待进行命中数量消岐处理的匹配规则的参数命中数量，所述参数为命名实体、词汇和位置参数中的一个；将参数命中数量最大的匹配结果作为经过命中数量消岐处理的匹配规则；

16.根据权利要求15所述的装置，其特征在于，所述消岐模块，用于确定每个待进行命名实体权值消岐处理的匹配规则中命名实体的权重值，将命名实体的权重值最大的匹配规则作为经过命名实体权值消岐处理的匹配规则；