CN103164399A

CN103164399A - 一种语音识别中的标点添加方法和装置

Info

Publication number: CN103164399A
Application number: CN2013100596566A
Authority: CN
Inventors: 李健; 吴飞; 郑晓明; 张连毅; 武卫东
Original assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Current assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date: 2013-02-26
Filing date: 2013-02-26
Publication date: 2013-06-19

Abstract

本发明实施例公开了一种语音识别中的标点添加方法和装置，以解决进行语音识别得到的识别结果缺少实效性的问题。所述方法包括：对通过语音识别得到的语句中的当前字词进行特征提取；将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符；根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后。本发明实施例根据当前字词与其前后几个字词之间的逻辑关系等，按照预先建立的最大熵模型，预测当前字词后应该添加的标点（标点可以为空）。添加标点后的语音识别结果提高了语音识别结果的实效性。

Description

一种语音识别中的标点添加方法和装置

技术领域

本发明实施例涉及语音识别技术领域，特别是涉及一种语音识别中的标点添加方法和装置。

背景技术

在进行语音识别时，只能将接收到的语音内容识别、转化为汉字或英文等文字。当接收到的语音内容为一连串的文字语音时，识别转化的结果只是一连串的汉字或英文等文字。

由于标点符号属于不发音信息，一般的语音识别结果只是汉字或英文等文字信息，没有标点信息。标点信息需要用户手动添加到语音识别结果当中。然而在进行连续语音识别时，对于自动添加标点符号的研究并不多，大多是当语音识别时，中间有停顿的地方识别为逗号，结束时自动添加句号，整个句子都被视为陈述语气，缺少实效性。

发明内容

本发明实施例公开一种语音识别中的标点添加方法和装置，以解决进行语音识别得到的识别结果缺少实效性的问题。

为了解决上述问题，本发明实施例公开了一种语音识别中的标点添加方法，包括：

对通过语音识别得到的语句中的当前字词进行特征提取；

将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符；

根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后。

优选的，所述对通过语音识别得到的语句中的当前字词进行特征提取，包括：

根据语音识别得到的语句中各字词的顺序依次判定每个字词为当前字词，并确定当前字词的前n个字词和后m个字词，做为当前字词的特征，n、m为正整数；

其中，所述当前字词的前n个字词和后m个字词包括空字词。

优选的，所述将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符，包括：

在

p (y | x) = \frac{1}{Z (x)} \exp (Σ_{i} λ_{i} f_{i} (x, y))

中，根据x输出y；

其中，p(y|x)为预先建立的最大熵模型，x为当前字词的特征，y为当前字词之后的标识字符，Z（x）为归一化系数，f_i（x，y）为特征函数，λ_i为特征函数f_i（x，y）的权重，i为正整数。

优选的，所述根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后，包括：

如果当前字词之后的标识字符y=Yn，在已知的标识字符集合Y中选择与Yn具有关联关系的标点，添加到当前字词之后；

其中，所述已知的标识字符集合Y={Y1，Y2，Y3，……，Yn，0}；Y1、Y2、Y3……Yn、0为各标识字符，分别对应关联的标点，0表示标点为空。

优选的，还包括：根据预先获取的数据对所述最大熵模型进行训练；

其中，所述数据包括：标点和与标点对应的由当前字词的前n个字词和后m个字词组成的特征。

本发明实施例还公开了一种语音识别中的标点添加装置，包括：

提取模块，用于对通过语音识别得到的语句中的当前字词进行特征提取；

识别模块，用于将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符；

选择模块，用于根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后。

优选的，所述提取模块根据语音识别得到的语句中各字词的顺序依次判定每个字词为当前字词，并确定当前字词的前n个字词和后m个字词，做为当前字词的特征，n、m为正整数；

其中，所述当前字词的前n个字词和后m个字词包括空字词。

优选的，所述识别模块在

p (y | x) = \frac{1}{Z (x)} \exp (Σ_{i} λ_{i} f_{i} (x, y))

中，根据x输出y；

优选的，如果当前字词之后的标识字符y＝Yn，所述选择模块在已知的标识字符集合Y中选择与Yn具有关联关系的标点，添加到当前字词之后；

优选的，还包括：训练模块，用于根据预先获取的数据对所述最大熵模型进行训练；

与背景技术相比，本发明实施例包括以下优点：

对语音识别得到的语句中的当前字词进行特征提取，确定当前字词的前后几个字词（前后字词可以为空），根据当前字词与其前后几个字词之间的逻辑关系等，按照预先建立的最大熵模型，预测当前字词后应该添加的标点（标点可以为空）。添加标点后的语音识别结果提高了语音识别结果的实效性。

附图说明

图1是本发明实施例中一种语音识别中的标点添加方法流程图；

图2是本发明实施例中一种语音识别中的标点添加方法流程图；

图3是本发明实施例中一种语音识别中的标点添加装置结构图；

图4是本发明实施例中一种语音识别中的标点添加装置结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

用在语音识别过程中的标点预测及添加，针对语音识别的结果，如：“你好你吃饭了吗”，该句子无任何的停顿，不能反映说话人的动作，神态和语气，缺少实用性。通过标点符号的预测即添加，可以使句子停顿有致，充分反映出说话人的心理活动，给语音识别的结果增加实效性。

具体的标点预测过程主要可以包括：（1）特征选择和提取，（2）大语料的模型训练，（3）预测（识别）三个过程。

具体地，（1）对现实中的语句分析，选择能代表、反映真实说话人语句的特征的字或者词作为特征，对当前字或词同时获取前n个字或词，后n个字或词作为特征。

（2）在选择最大熵模型的特征之后，进行训练数据的准备。语料的获取可以通过多种渠道，获取涵盖信息最全的普通语音识别语料，作为训练集，利用最大熵工具训练大语料的模型。

(3)在获得模型后，继续利用最大熵预测语音识别结果中每个字或词的后面应该有的停顿，用对应的标点进行填补，给出完成的标点预测。

本发明实施例通过对大量的文本语料进行统计，预测语音识别的结果中的标点，节省了用户在用语音输入时的添加标点操作，使用户能够快速获取更多正确的信息，同时也使文本内容体现出了语气，提高用户的输入效率。

下面通过列举几个具体的实施例详细介绍本发明公开的一种语音识别中的标点添加方法和装置。

实施例一

详细介绍本发明实施例公开的一种语音识别中的标点添加方法。参照图1，示出了本发明实施例中一种语音识别中的标点添加方法流程图。步骤100，对通过语音识别得到的语句中的当前字词进行特征提取。例如，语音识别的内容为“你好你吃饭了吗”。特征提取的过程如下：①、P2_null P1_null C_你 L1_好 L2_你②、P2_null P1_你 C_好 L1_你 L2_吃③、P2_你 P1_好 C_你 L1_吃 L2_饭④、P2_好 P1_你 C_吃 L1_饭 L2_了⑤、P2_你 P1_吃 C_饭 L1_了 L2_吗⑥、P2_吃 P1_饭 C_了 L1_吗 L2_null⑦、P2_饭 P1_了 C_吗 L1_null L2_null

其中，C代表当前字词，P1代表当前字词的前面第一个字词，P2代表当前字词的前面第二个字词，L1代表当前字词的后面第一个字词，L2代表当前字词的后面第二个字词，若为空用null标识。

在①中，当前字词为“你”，由于“你”为语音识别内容的第一个字，其前面无字词，所以，P2和P1均为null。并且由语音识别的顺序可知，L1为“好”，L2为“你”。同理，在②至⑦中，当前字词分别为“好”、“你”、“吃”、“饭”、“了”和“吗”。

步骤102，将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符。

例如，当前字词为“好”，将步骤100中提取到的当前字词“好”的特征（可以为前2个字词和后两个字词），通过预先建立的最大熵模型进行识别，识别得到标识字符A。

步骤104，根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后。

如果上述识别得到当前字词“好”之后的标识字符A属于已知的标识字符集合Y，并且标识字符A与标点“，”具有关联关系，则将标点“，”添加到当前字词“好”之后。

综上所述，本发明实施例公开的一种语音识别中的标点添加方法，与背景技术相比具有以下优点：

实施例二

详细介绍本发明实施例公开的一种语音识别中的标点添加方法。

参照图2，示出了本发明实施例中一种语音识别中的标点添加方法流程图。

步骤200，对通过语音识别得到的语句中的当前字词进行特征提取。

所述步骤200，具体可以为：

根据语音识别得到的语句中各字词的顺序依次判定每个字词为当前字词，并确定当前字词的前n个字词和后m个字词，做为当前字词的特征。

其中，n、m为正整数，所述当前字词的前n个字词和后m个字词包括空字词。而且，n和m可以相等，也可以不等。

例如，语音识别内容为“你好你吃饭了吗”，根据接收到语音内容的时间先后顺序依次判定当前字词，当判定“好”为当前字词时，确定当前字词“好”的前2个字词和后2个字词做为当前字词“好”的特征。即当前字词“好”的特征为其前面第一个字词为“你”，前面第二个字词为null，后面第一个字词为“你”，后面第二个字词为“吃”。

步骤202，将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符。

具体地，在

p (y | x) = \frac{1}{Z (x)} \exp (Σ_{i} λ_{i} f_{i} (x, y))

中，根据x输出y。

最大熵是自然语言处理中经常用到的一种统计方法，考虑一个随机过程p(y|x)，它根据能观测到的向量x，以一定的概率输出某个y，y属于一个有限集合Y。在标点预测的判断中，Y={4,3,2，1，0}，分别表示问号（？），逗号（，），句号（。），感叹号（！）以及无标点符号。x代表与当前字词相关的特征，y代表待判决的汉字或英文等文字是否应该接标点，以及如果接标点，应该接哪个标点。

步骤204，根据预先获取的数据对所述最大熵模型进行训练。

为了重建随机过程p(y|x)，对其输出进行采样，得到N个训练样例(x₁，y₁)，(x₂，y₂)，……，(x_N，y_N)。由于这些训练样例由此随机过程产生，所以假设某个事件在训练样例中的经验概率，等于该事件在已知p(y|x)时的期望概率。

在准备好训练数据后，利用准备好的训练数据来训练最大熵模型。将训练数据中标注了标点类型、当前字词前后的特征数据送入最大熵模型训练，数据格式为：标点，特征1，特征2……。

某个事件可以用一个表征函数f_i(x，y)来表示。如果样例(x_j，y_j)中发生了此事件，需要加标点，则f_i(x_i，y_i)=1，2，3，4;否则f_i(x_i，y_i)为0。例如：如果x满足当前字词位于一句话的末尾，且y为疑问语句的停顿，则f_i(x_i，y_i)=4；在其他情况，可以根据停顿语气选择f_i(x_i，y_i)为1，2，3，4，0中的一个。该事件在训练样例中的经验概率表示为：

p (f_{i}) = Σ_{x, y} \tilde{p} (x, y) f_{i} (x, y)

其中，

是样例（x，y）在训练样例中出现的概率，

在训练字符特征中的出现次数。

如果已知p(y|x)，则事件f_i(x，y)的期望概率表示为：

p (f_{i}) = Σ_{x, y} \tilde{p} (x) p (y | x) f_{i} (x, y)

其中，p(x)是训练例中x的概率。

假设

p (f_{i}) = \tilde{p} (f_{i})

，即：

Σ_{x, y} \tilde{p} (x) p (x | y) f_{i} (x, y) = Σ_{x, y} \tilde{p} (x, y) f_{i} (x, y)

称表征函数f_i(x，y)为特征函数，或简称特征。所以上式被称为关于特征f_i(x，y)的一个约束方程，简称为约束。约束是随机过程p(y|x)和训练样例关于某一特征的一个等式，它对p(y|x)的分布做了某些限制，使之产生的样例在特征指示的方面，从统计意义上接近训练样例。

假设已经定义了n个特征，满足这n个特征的所有随机过程构成一个集合：

C &equiv; {p (y | x) | p (f_{i}) = \tilde{p} (f_{i}) fori &Element; {1,2, . . ., n}}

一般地，|C|>1。选取其中熵最大的那个随机过程作为重建出来的模型。这里的熵是条件熵，表示为：

H (p) = - Σ_{x, y} \tilde{p} (x) p (y | x) \log p (y | x)

则最终重建出来的模型为：

p*=argmax_p∈CH(p)

该模型称之为最大熵模型。熵最大的原则保证了最大熵模型具有很好的泛化效果。最大熵模型的表达形式和参数计算求解得到最大熵模型具有如下的形式：

p (y | x) = \frac{1}{Z (x)} \exp (Σ_{i} λ_{i} f_{i} (x, y))

上式中，λ_i是特征f_i(x，y)的权重，可以使用IIS或L-BFGS迭代算法，从汉字或英文等文字数据训练得到。Z(x)是归一化系数。

步骤206，根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后。

具体地，如果当前字词之后的标识字符y＝Yn，在已知的标识字符集合Y中选择与Yn具有关联关系的标点，添加到当前字词之后。

在进行语音识别中的标点预测时，语音识别结果是：“你好你吃饭了吗”，经过特征提取、最大熵模型预测之后，输出的包括标点的结果为：“你好，你吃饭了吗？”即在“好”之后添加了标点“，”，在“吗”之后添加了标点“？”。

实施例三

详细介绍本发明实施例公开的一种语音识别中的标点添加装置。

参照图3，示出了本发明实施例中一种语音识别中的标点添加装置结构图。

所述一种语音识别中的标点添加装置具体可以包括：

提取模块30，识别模块32，以及，选择模块34。

下面分别详细介绍各模块的功能以及各模块之间的关系。

提取模块30，用于对通过语音识别得到的语句中的当前字词进行特征提取。

识别模块32，用于将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符。

例如，当前字词为“好”，识别模块32将提取模块30提取到的当前字词“好”的特征（可以为前2个字词和后两个字词），通过预先建立的最大熵模型进行识别，识别得到标识字符A。

选择模块34，用于根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后。

如果上述识别模块32识别得到当前字词“好”之后的标识字符A属于已知的标识字符集合Y，并且标识字符A与标点“，”具有关联关系，则选择模块34将标点“，”添加到当前字词“好”之后。

综上所述，本发明实施例公开的一种语音识别中的标点添加装置，与背景技术相比具有以下优点：

实施例四

参照图4，示出了本发明实施例中一种语音识别中的标点添加装置结构图。

所述一种语音识别中的标点添加装置具体可以包括：

提取模块40，识别模块42，训练模块44，以及，选择模块46。

下面分别详细介绍各模块的功能以及各模块之间的关系。

提取模块40，用于对通过语音识别得到的当前字词进行特征提取。

优选的，所述提取模块40可以根据语音识别得到的语句中各字词的顺序依次判定每个字词为当前字词，并确定当前字词的前n个字词和后m个字词，做为当前字词的特征，n、m为正整数。

其中，所述当前字词的前n个字词和后m个字词包括空字词。

并且，n和m可以相等，也可以不相等。

识别模块42，用于将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符。

所述识别模块44在

p (y | x) = \frac{1}{Z (x)} \exp (Σ_{i} λ_{i} f_{i} (x, y))

中，根据x输出y。

训练模块44，用于根据预先获取的数据对所述最大熵模型进行训练。

选择模块46，用于根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后。

如果当前字词之后的标识字符y=Yn，所述选择模块46在已知的标识字符集合Y中选择与Yn具有关联关系的标点，添加到当前字词之后。

对语音识别得到的当前字词进行特征提取，确定当前字词的前后几个字词（前后字词可以为空），根据当前字词与其前后几个字词之间的逻辑关系等，按照预先建立的最大熵模型，预测当前字词后应该添加的标点（标点可以为空）。添加标点后的语音识别结果提高了语音识别结果的实效性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本发明实施例所公开的一种语音识别中的标点添加方法装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别中的标点添加方法，其特征在于，包括：

对通过语音识别得到的语句中的当前字词进行特征提取；

2.根据权利要求1所述的方法，其特征在于，所述对通过语音识别得到的语句中的当前字词进行特征提取，包括：

其中，所述当前字词的前n个字词和后m个字词包括空字词。

3.根据权利要求1所述的方法，其特征在于，所述将提取到的当前字词的特征在预先建立的最大熵模型中进行识别，得到当前字词之后的标识字符，包括：

在

p (y | x) = \frac{1}{Z (x)} \exp (Σ_{i} λ_{i} f_{i} (x, y))

中，根据x输出y；

4.根据权利要求1所述的方法，其特征在于，所述根据获取到的标识字符与各标点的关联关系，在已知的标识字符集合中选择与当前字词之后的标识字符对应的标点，添加到当前字词之后，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

根据预先获取的数据对所述最大熵模型进行训练；

6.一种语音识别中的标点添加装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述提取模块根据语音识别得到的语句中各字词的顺序依次判定每个字词为当前字词，并确定当前字词的前n个字词和后m个字词，做为当前字词的特征，n、m为正整数；

其中，所述当前字词的前n个字词和后m个字词包括空字词。

8.根据权利要求6所述的装置，其特征在于，

所述识别模块在

p (y | x) = \frac{1}{Z (x)} \exp (Σ_{i} λ_{i} f_{i} (x, y))

中，根据x输出y；

9.根据权利要求6所述的装置，其特征在于，

如果当前字词之后的标识字符y＝Yn，所述选择模块在已知的标识字符集合Y中选择与Yn具有关联关系的标点，添加到当前字词之后；

10.根据权利要求6所述的装置，其特征在于，还包括：

训练模块，用于根据预先获取的数据对所述最大熵模型进行训练；