CN103177721A

CN103177721A - 语音识别方法和***

Info

Publication number: CN103177721A
Application number: CN2011104402734A
Authority: CN
Inventors: 冯克威; 赵江
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2013-06-26
Anticipated expiration: 2031-12-26
Also published as: CN103177721B

Abstract

本发明公开一种语音识别方法和***。其中在语音识别方法中，对第一语音信息和第二语音信息进行语音质量评估，选择语音质量较好的语音信息作为参考语音信息，将语音质量较差的语音信息作为辅助语音信息；对参考语音信息进行语音识别，获得参考识别信息；在参考识别信息中选择置信度最高的n个词作为关键词；对于每个关键词，根据预定的词表生成m级相关词集合；提高关键词和相关词在语音识别模型词库中的权重值；利用更新的语音识别模型词库，分别对参考语音信息和辅助语音信息进行语音识别。由于根据对话内容修改了相关词的权重值，从而提高语音识别模型对当前对话内容描述的准确性，提高语音识别的准确率。

Description

语音识别方法和***

技术领域

本发明涉及信息处理领域，特别是涉及语音识别方法和***。

背景技术

语言是人类最自然、最常用的交流方式，语音识别(SpeechRecognition)或自动语音识别(Automatic Speech Recognition，简称：ASR)是近半个世纪发展起来的新兴学科。语音识别的目标是使机器“听懂”人的自然语音，由识别得到的信息可作为控制信号应用于各个领域，语音识别在工业、军事、交通、医学、民用等各方面有着广阔的应用前景。语音识别***根据对说话人说话方式的要求，可以分为孤立字、词语音识别***，连接词语音识别***以及连续语音识别***；根据对说话人的依赖程度，可以分为特定人和非特定人语音识别***；根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别***。不同的语音识别***，虽然实现细节有所不同，但所采用的基本框架相似。

现有的主流语音识别***主要基于隐马尔科夫模型(HiddenMarkov Model，简称：HMM)。在一般的识别***中，主要利用声学模型(Acoustic Model，简称：AM)和语言模型(LanguageModel，简称：LM)，通过解码(Decode)操作获得识别结果。其中语言模型中应用较为广泛的形式是统计语言模型，统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。

对于电话语音识别而言，特别是针对呼叫中心的语音识别以及语音检索，由于语音质量相对于普通语音识别场景相对较差，例如在办公室环境下，因此语音识别效果受到限制。这里语音质量很差包括如下的原因，例如客户端有背景噪声、客户端语音采集设备、通话设备的噪声、通信线路的噪声和干扰、不同通信线路或交换机产生的差异、不同类型设备终端在通信过程中语音编码方式不一样，还有客户本身说话带有口音或者使用了方言、说话人本身的说话含糊或者不清楚等。所有这些因素都可能造成语音识别效果变差。

另一方面，每次对话的内容差别很大，而且每通对话时间不是很长，一般情况下只有若干分钟，内容在几百字到一两千字之间。针对一次对话而言，尤其是对于客户的语音，无论进行声学模型自适应还是语言模型自适应数据都很难令人满意。

发明内容

本发明要解决的技术问题是提供一种语音识别方法和***，通过对话内容修改相关词的权重值，权重值也称为概率值，从而提高语音识别模型对当前对话内容描述的准确性，提高语音识别的准确率。

根据本发明的一个方面，提供了一种语音识别方法，包括：

从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息；

分别对第一语音信息和第二语音信息进行语音质量评估，选择语音质量较好的语音信息作为参考语音信息，将语音质量较差的语音信息作为辅助语音信息；

对参考语音信息进行语音识别，获得参考识别信息；

在参考识别信息中，选择置信度最高的n个词作为关键词，n为大于0的正整数；

对于每个关键词，根据预定的词表生成m级相关词集合，其中第一级相关词集合中的每个相关词分别与一个关键词相关联，第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联，m、L为大于0的正整数，2≤L≤m，在m级相关词集合中不包括关键词，同时在m级相关词集合中，相关词也不重复出现；

提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值，其中为每个权重值乘以一个倍数，关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数，第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数，对语音识别模型词库中全部词的权重值进行归一化处理，得到更新的语音识别模型；

利用更新的语音识别模型，分别对参考语音信息和辅助语音信息进行语音识别，得到第一识别信息和第二识别信息。

根据本发明的一个方面，提供了一种语音识别***，包括：

获取单元，用从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息；

评估单元，用于分别对第一语音信息和第二语音信息进行语音质量评估，选择语音质量较好的语音信息作为参考语音信息，将语音质量较差的语音信息作为辅助语音信息；

第一语音识别单元，用于对参考语音信息进行语音识别，获得参考识别信息；

关键词生成单元，用于在参考识别信息中，选择置信度最高的n个词作为关键词，n为大于0的正整数；

相关词生成单元，用于对于每个关键词，根据预定的词表生成m级相关词集合，其中第一级相关词集合中的每个相关词分别与一个关键词相关联，第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联，m、L为大于0的正整数，2≤L≤m，在m级相关词集合中不包括关键词，同时在m级相关词集合中，相关词也不重复出现；

权重调整单元，用于提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值，其中为每个权重值乘以一个倍数，关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数，第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数，对语音识别模型词库中全部词的权重值进行归一化处理，得到更新的语音识别模型；

第二语音识别单元，用于利用更新的语音识别模型，分别对参考语音信息和辅助语音信息进行语音识别，得到第一识别信息和第二识别信息。

本发明通过利用对话中语音质量较好的参考语音信息进行语音识别，得到参考识别信息。在参考识别信息中，选择置信度最高的n个词作为关键词，n为大于0的正整数；对于每个关键词，根据预定的词表生成m级相关词集合，其中第一级相关词集合中的每个相关词分别与一个关键词相关联，第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联，m、L为大于0的正整数，2≤L≤m；提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值，对语音识别模型词库中全部词的权重值进行归一化处理，得到更新的语音识别模型词库；利用更新的语音识别模型词库，分别对参考语音信息和辅助语音信息进行语音识别，得到第一识别信息和第二识别信息。由于根据对话内容修改了相关词的权重值，从而提高语音识别模型对当前对话内容描述的准确性，提高语音识别的准确率。

附图说明

图1为本发明语音识别方法一个实施例的示意图。

图2为本发明语音识别方法另一实施例的示意图。

图3为本发明语音识别***一个实施例的示意图。

图4为本发明语音识别***另一实施例的示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

图1为本发明语音识别方法一个实施例的示意图。如图1所示，该实施例的语音识别方法如下：

步骤101，从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息。

步骤102，分别对第一语音信息和第二语音信息进行语音质量评估，选择语音质量较好的语音信息作为参考语音信息，将语音质量较差的语音信息作为辅助语音信息。

步骤103，对参考语音信息进行语音识别，获得参考识别信息。

步骤104，在参考识别信息中，选择置信度最高的n个词作为关键词，n为大于0的正整数。

步骤105，对于每个关键词，根据预定的词表生成m级相关词集合，其中第一级相关词集合中的每个相关词分别与一个关键词相关联，第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联，m、L为大于0的正整数，2≤L≤m，在m级相关词集合中不包括关键词，同时在m级相关词集合中，相关词也不重复出现。

步骤106，提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值，其中为每个权重值乘以一个倍数，关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数，第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数，对语音识别模型词库中全部词的权重值进行归一化处理，得到更新的语音识别模型。

步骤107，利用更新的语音识别模型，分别对参考语音信息和辅助语音信息进行语音识别，得到第一识别信息和第二识别信息。

基于本发明上述实施例提高的语音识别方法，通过利用对话中语音质量较好的参考语音信息进行语音识别，得到参考识别信息。在参考识别信息中，选择置信度最高的n个词作为关键词，n为大于0的正整数；对于每个关键词，根据预定的词表生成m级相关词集合，其中第一级相关词集合中的每个相关词分别与一个关键词相关联，第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联，m、L为大于0的正整数，2≤L≤m；提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值，对语音识别模型词库中全部词的权重值进行归一化处理，得到更新的语音识别模型词库；利用更新的语音识别模型词库，分别对参考语音信息和辅助语音信息进行语音识别，得到第一识别信息和第二识别信息。由于根据对话内容修改了相关词的权重值，从而提高语音识别模型对当前对话内容描述的准确性，提高语音识别的准确率。

图2为本发明语音识别方法另一实施例的示意图。如图2所示，该实施例的语音识别方法如下：

步骤201，从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息。

根据本发明另一具体实施例，在对话语音信息中，从对应于第一讲话人的的第一路信号中获取第一语音信息，从对应于第二讲话人的的第二路信号中获取第二语音信息。

步骤202，分别对第一语音信息和第二语音信息进行语音质量评估，选择语音质量较好的语音信息作为参考语音信息，将语音质量较差的语音信息作为辅助语音信息。

由于在呼叫中心语音识别中，一个有利的因素是客服人员均适用较为标准的普通话，同时客服人员所处的声学环境较为稳定和单一，从而语音质量较高，相对客户端语音识别其准确率较高。因此可以利用客服人员语音识别的结果来提高客户端的语音识别效果。当然，也不排除客户语音质量比客服人员语音质量高的情况。

本领域技术人员可以了解的是，对语音信息进行语音质量评估，这是现有技术中所公知的，例如信噪比估计方法、语音质量客观评测方法，发音标准评测等方法中的一个方法或者结合。

步骤203，对参考语音信息进行语音识别，获得参考识别信息。

对参考语音信息进行语音识别，可采用现有的语音识别技术。

步骤204，在参考识别信息中，选择置信度最高的n个词作为关键词，n为大于0的正整数。

例如在很多情况下，由于客服人员的语音质量较高，因此通过对客服人员的语音进行初步识别，会得到相对可靠的结果。

步骤205，对于每个关键词，根据预定的词表生成m级相关词集合，其中第一级相关词集合中的每个相关词分别与一个关键词相关联，第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联，m、L为大于0的正整数，2≤L≤m，在m级相关词集合中不包括关键词，同时在m级相关词集合中，相关词也不重复出现。

通过确定关键词和m级相关词集合，可以获得一个对应关系从紧密到一般的词序列。

步骤206，提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值，其中为每个权重值乘以一个倍数，关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数，第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数，对语音识别模型词库中全部词的权重值进行归一化处理，得到更新的语音识别模型。

根据本发明另一具体实施例，为了利用对话内容提高语音识别的准确性，在权重值更新时，关键词的权重值大于m级相关词集合中相关词的权重值，第L-1级相关词集合中相关词的权重值，大于第L级相关词集合中相关词的权重值。

由于部分词的权重值变大后，所有词的权重和可能超过1，因此需要对所有词的权重按比例缩放，使得所有的词的权重的和为1，保证语言模型的完整性和规范性。

步骤207，利用更新的语音识别模型，分别对参考语音信息和辅助语音信息进行语音识别，得到第一识别信息和第二识别信息。

步骤208，根据预设条件，判断是否需要对参考语音信息和辅助语音信息进行迭代处理。若需要对参考语音信息和辅助语音信息进行迭代处理，则返回步骤204；若不需要对参考语音信息和辅助语音信息进行迭代处理，则结束本步骤流程。

下面以一个具体示例对本方案进行说明。例如通过对客服人员的语音进行识别，得到以下结果：

“到(0.9)火车站(0.9)怎么(0.7)走(0.8)”，“从(0.33)帝王(0.55)大厦(0.8)出发(0.7)”。

其中括号中的数值为置信度。选择置信度最高的词为关键词，例如选择如下的关键词：

到(0.9)、火车站(0.9)、走(0.8)、大厦(0.8)。

将这些置信度较高的词进行过滤，除去一般意义上较为常见的词或者说没有信息量的词，例如采用词频-逆向文件频率(TermFrequency-Inverse Document Frequency，简称：TF-IDF)规则除去到(0.9)、走(0.8)，最终确定关键词为

“火车站”、“大厦”。

根据预先确定的词表，选择若干个这些关键词的“相关词”，其中词和词的关系列表通过预先从大量文本数据中计算得到，她描述一个词及其对应关系从紧密到一般的词的序列，例如

与“火车站”关系密切的词如：“车次”，“交通”，“汽车站”等等，与“大厦”关系密切的词如：“楼层”，“写字楼”，“商务”等等。例如每个“关键词”选择两个相关词作为第一级相关词集合，其中：

“火车站”：相关词为“车次”、“交通”。

“大厦”：相关词为“楼层”，“写字楼”。

这样，第一级相关词集合包括“车次”、“交通”、“楼层”、“写字楼”。

同样，针对第一级相关词集合，可以生成第二级相关词集合，集中：

“车次”：相关词为火车、时刻。

“交通”：相关词为汽车、铁路。

“楼层”：相关词为电梯、一层。

“写字楼”：相关词为大厦、租金。

这样，第二级相关词集合包括火车、时刻、汽车、铁路、电梯、一层、大厦、租金，注意到第二级相关词集合中可能会包括关键词，这样会在权重调整时造成重复，因此需要去掉各级相关词集合中包括的关键词，最终的第二级相关词集合为：

火车、时刻、汽车、铁路、电梯、一层、租金。

根据需要，可以设置多级相关词集合。

在语音识别模型词库中，提高关键词和各级相关词集合中相关词的权重值。例如，对于关键词，权重变为原来的3倍；对于第一级相关词集合中的相关词，权重变为原来的2.5倍；对于第二级相关词集合中的相关词，权重变为原来的1.5倍。其余词的权重保持不变。这样的权重调整置针对N-gram中的uni-gram部分。

根据更新后的语音识别模型词库，对客户和客服人员的语音进行识别。由于语音识别模型词库根据对话内容进行了动态调整，因此可提高语音识别的准确性。

图3为本发明语音识别方法一个实施例的示意图。在图3所示实施例中，包括获取单元301、评估单元302、第一语音识别单元303、关键词生成单元304、相关词生成单元305、权重调整单元306、第二语音识别单元307，其中：

获取单元301，用从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息。

评估单元302，用于分别对第一语音信息和第二语音信息进行语音质量评估，选择语音质量较好的语音信息作为参考语音信息，将语音质量较差的语音信息作为辅助语音信息。

第一语音识别单元303，用于对参考语音信息进行语音识别，获得参考识别信息；

关键词生成单元304，用于在参考识别信息中，选择置信度最高的n个词作为关键词，n为大于0的正整数。

相关词生成单元305，用于对于每个关键词，根据预定的词表生成m级相关词集合，其中第一级相关词集合中的每个相关词分别与一个关键词相关联，第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联，m、L为大于0的正整数，2≤L≤m，在m级相关词集合中不包括关键词，同时在m级相关词集合中，相关词也不重复出现。

权重调整单元306，用于提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值，其中为每个权重值乘以一个倍数，关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数，第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数，对语音识别模型词库中全部词的权重值进行归一化处理，得到更新的语音识别模型。

第二语音识别单元307，用于利用更新的语音识别模型，分别对参考语音信息和辅助语音信息进行语音识别，得到第一识别信息和第二识别信息。

基于本发明上述实施例提高的语音识别***，通过利用对话中语音质量较好的参考语音信息进行语音识别，得到参考识别信息。在参考识别信息中，选择置信度最高的n个词作为关键词，n为大于0的正整数；对于每个关键词，根据预定的词表生成m级相关词集合，其中第一级相关词集合中的每个相关词分别与一个关键词相关联，第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联，m、L为大于0的正整数，2≤L≤m；提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值，对语音识别模型词库中全部词的权重值进行归一化处理，得到更新的语音识别模型词库；利用更新的语音识别模型词库，分别对参考语音信息和辅助语音信息进行语音识别，得到第一识别信息和第二识别信息。由于根据对话内容修改了相关词的权重值，从而提高语音识别模型对当前对话内容描述的准确性，提高语音识别的准确率。

根据本发明另一具体实施例，获取单元301具体具体用于在对话语音信息中，从对应于第一讲话人的的第一路信号中获取第一语音信息，从对应于第二讲话人的的第二路信号中获取第二语音信息。

图4为本发明语音识别方法另一实施例的示意图。与图3所示实施例相比，在图4所示实施例中，还包括判断单元401，用于在第二语音识别单元307利用更新的语音识别模型词库分别对第一语音信息和第二语音信息进行语音识别之后，判断是否需要对参考语音信息和辅助语音信息进行迭代处理，若需要对参考语音信息和辅助语音信息进行迭代处理，则指示选择单元304执行在参考识别信息中选择置信度最高的n个词作为关键词的操作。

根据本发明另一具体实施例，关键词的权重值大于m级相关词集合中相关词的权重值；第L-1级相关词集合中相关词的权重值，大于第L级相关词集合中相关词的权重值。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种语音识别方法，其特征在于，包括：

对参考语音信息进行语音识别，获得参考识别信息；

2.根据权利要求1所述的方法，其特征在于，

在利用更新的语音识别模型词库分别对第一语音信息和第二语音信息进行语音识别之后，还包括：

判断是否需要对参考语音信息和辅助语音信息进行迭代处理；

若需要对参考语音信息和辅助语音信息进行迭代处理，则执行在参考识别信息中选择置信度最高的n个词作为关键词的步骤。

3.根据权利要求1或2所述的方法，其特征在于，

关键词的权重值大于m级相关词集合中相关词的权重值；

第L-1级相关词集合中相关词的权重值，大于第L级相关词集合中相关词的权重值。

4.根据权利要求1或2所述的方法，其特征在于，

所述从对应语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息包括：

在对话语音信息中，从对应于第一讲话人的的第一路信号中获取第一语音信息，从对应于第二讲话人的的第二路信号中获取第二语音信息。

5.一种语音识别***，其特征在于，包括：

6.根据权利要求5所述的***，其特征在于，还包括：

判断单元，用于在第二语音识别单元利用更新的语音识别模型词库分别对第一语音信息和第二语音信息进行语音识别之后，判断是否需要对参考语音信息和辅助语音信息进行迭代处理，若需要对参考语音信息和辅助语音信息进行迭代处理，则指示选择单元执行在参考识别信息中选择置信度最高的n个词作为关键词的操作。

7.根据权利要求5或6所述的***，其特征在于，

关键词的权重值大于m级相关词集合中相关词的权重值；

8.根据权利要求5或6所述的***，其特征在于，

获取单元具体具体用于在对话语音信息中，从对应于第一讲话人的的第一路信号中获取第一语音信息，从对应于第二讲话人的的第二路信号中获取第二语音信息。