CN103177721A - 语音识别方法和*** - Google Patents

语音识别方法和*** Download PDF

Info

Publication number
CN103177721A
CN103177721A CN2011104402734A CN201110440273A CN103177721A CN 103177721 A CN103177721 A CN 103177721A CN 2011104402734 A CN2011104402734 A CN 2011104402734A CN 201110440273 A CN201110440273 A CN 201110440273A CN 103177721 A CN103177721 A CN 103177721A
Authority
CN
China
Prior art keywords
related term
voice
speech recognition
keyword
voice messaging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104402734A
Other languages
English (en)
Other versions
CN103177721B (zh
Inventor
冯克威
赵江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201110440273.4A priority Critical patent/CN103177721B/zh
Publication of CN103177721A publication Critical patent/CN103177721A/zh
Application granted granted Critical
Publication of CN103177721B publication Critical patent/CN103177721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种语音识别方法和***。其中在语音识别方法中,对第一语音信息和第二语音信息进行语音质量评估,选择语音质量较好的语音信息作为参考语音信息,将语音质量较差的语音信息作为辅助语音信息;对参考语音信息进行语音识别,获得参考识别信息;在参考识别信息中选择置信度最高的n个词作为关键词;对于每个关键词,根据预定的词表生成m级相关词集合;提高关键词和相关词在语音识别模型词库中的权重值;利用更新的语音识别模型词库,分别对参考语音信息和辅助语音信息进行语音识别。由于根据对话内容修改了相关词的权重值,从而提高语音识别模型对当前对话内容描述的准确性,提高语音识别的准确率。

Description

语音识别方法和***
技术领域
本发明涉及信息处理领域,特别是涉及语音识别方法和***。
背景技术
语言是人类最自然、最常用的交流方式,语音识别(SpeechRecognition)或自动语音识别(Automatic Speech Recognition,简称:ASR)是近半个世纪发展起来的新兴学科。语音识别的目标是使机器“听懂”人的自然语音,由识别得到的信息可作为控制信号应用于各个领域,语音识别在工业、军事、交通、医学、民用等各方面有着广阔的应用前景。语音识别***根据对说话人说话方式的要求,可以分为孤立字、词语音识别***,连接词语音识别***以及连续语音识别***;根据对说话人的依赖程度,可以分为特定人和非特定人语音识别***;根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别***。不同的语音识别***,虽然实现细节有所不同,但所采用的基本框架相似。
现有的主流语音识别***主要基于隐马尔科夫模型(HiddenMarkov Model,简称:HMM)。在一般的识别***中,主要利用声学模型(Acoustic Model,简称:AM)和语言模型(LanguageModel,简称:LM),通过解码(Decode)操作获得识别结果。其中语言模型中应用较为广泛的形式是统计语言模型,统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。
对于电话语音识别而言,特别是针对呼叫中心的语音识别以及语音检索,由于语音质量相对于普通语音识别场景相对较差,例如在办公室环境下,因此语音识别效果受到限制。这里语音质量很差包括如下的原因,例如客户端有背景噪声、客户端语音采集设备、通话设备的噪声、通信线路的噪声和干扰、不同通信线路或交换机产生的差异、不同类型设备终端在通信过程中语音编码方式不一样,还有客户本身说话带有口音或者使用了方言、说话人本身的说话含糊或者不清楚等。所有这些因素都可能造成语音识别效果变差。
另一方面,每次对话的内容差别很大,而且每通对话时间不是很长,一般情况下只有若干分钟,内容在几百字到一两千字之间。针对一次对话而言,尤其是对于客户的语音,无论进行声学模型自适应还是语言模型自适应数据都很难令人满意。
发明内容
本发明要解决的技术问题是提供一种语音识别方法和***,通过对话内容修改相关词的权重值,权重值也称为概率值,从而提高语音识别模型对当前对话内容描述的准确性,提高语音识别的准确率。
根据本发明的一个方面,提供了一种语音识别方法,包括:
从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息;
分别对第一语音信息和第二语音信息进行语音质量评估,选择语音质量较好的语音信息作为参考语音信息,将语音质量较差的语音信息作为辅助语音信息;
对参考语音信息进行语音识别,获得参考识别信息;
在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数;
对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m,在m级相关词集合中不包括关键词,同时在m级相关词集合中,相关词也不重复出现;
提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,其中为每个权重值乘以一个倍数,关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数,第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型;
利用更新的语音识别模型,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。
根据本发明的一个方面,提供了一种语音识别***,包括:
获取单元,用从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息;
评估单元,用于分别对第一语音信息和第二语音信息进行语音质量评估,选择语音质量较好的语音信息作为参考语音信息,将语音质量较差的语音信息作为辅助语音信息;
第一语音识别单元,用于对参考语音信息进行语音识别,获得参考识别信息;
关键词生成单元,用于在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数;
相关词生成单元,用于对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m,在m级相关词集合中不包括关键词,同时在m级相关词集合中,相关词也不重复出现;
权重调整单元,用于提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,其中为每个权重值乘以一个倍数,关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数,第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型;
第二语音识别单元,用于利用更新的语音识别模型,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。
本发明通过利用对话中语音质量较好的参考语音信息进行语音识别,得到参考识别信息。在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数;对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m;提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型词库;利用更新的语音识别模型词库,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。由于根据对话内容修改了相关词的权重值,从而提高语音识别模型对当前对话内容描述的准确性,提高语音识别的准确率。
附图说明
图1为本发明语音识别方法一个实施例的示意图。
图2为本发明语音识别方法另一实施例的示意图。
图3为本发明语音识别***一个实施例的示意图。
图4为本发明语音识别***另一实施例的示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
图1为本发明语音识别方法一个实施例的示意图。如图1所示,该实施例的语音识别方法如下:
步骤101,从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息。
步骤102,分别对第一语音信息和第二语音信息进行语音质量评估,选择语音质量较好的语音信息作为参考语音信息,将语音质量较差的语音信息作为辅助语音信息。
步骤103,对参考语音信息进行语音识别,获得参考识别信息。
步骤104,在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数。
步骤105,对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m,在m级相关词集合中不包括关键词,同时在m级相关词集合中,相关词也不重复出现。
步骤106,提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,其中为每个权重值乘以一个倍数,关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数,第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型。
步骤107,利用更新的语音识别模型,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。
基于本发明上述实施例提高的语音识别方法,通过利用对话中语音质量较好的参考语音信息进行语音识别,得到参考识别信息。在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数;对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m;提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型词库;利用更新的语音识别模型词库,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。由于根据对话内容修改了相关词的权重值,从而提高语音识别模型对当前对话内容描述的准确性,提高语音识别的准确率。
图2为本发明语音识别方法另一实施例的示意图。如图2所示,该实施例的语音识别方法如下:
步骤201,从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息。
根据本发明另一具体实施例,在对话语音信息中,从对应于第一讲话人的的第一路信号中获取第一语音信息,从对应于第二讲话人的的第二路信号中获取第二语音信息。
步骤202,分别对第一语音信息和第二语音信息进行语音质量评估,选择语音质量较好的语音信息作为参考语音信息,将语音质量较差的语音信息作为辅助语音信息。
由于在呼叫中心语音识别中,一个有利的因素是客服人员均适用较为标准的普通话,同时客服人员所处的声学环境较为稳定和单一,从而语音质量较高,相对客户端语音识别其准确率较高。因此可以利用客服人员语音识别的结果来提高客户端的语音识别效果。当然,也不排除客户语音质量比客服人员语音质量高的情况。
本领域技术人员可以了解的是,对语音信息进行语音质量评估,这是现有技术中所公知的,例如信噪比估计方法、语音质量客观评测方法,发音标准评测等方法中的一个方法或者结合。
步骤203,对参考语音信息进行语音识别,获得参考识别信息。
对参考语音信息进行语音识别,可采用现有的语音识别技术。
步骤204,在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数。
例如在很多情况下,由于客服人员的语音质量较高,因此通过对客服人员的语音进行初步识别,会得到相对可靠的结果。
步骤205,对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m,在m级相关词集合中不包括关键词,同时在m级相关词集合中,相关词也不重复出现。
通过确定关键词和m级相关词集合,可以获得一个对应关系从紧密到一般的词序列。
步骤206,提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,其中为每个权重值乘以一个倍数,关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数,第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型。
根据本发明另一具体实施例,为了利用对话内容提高语音识别的准确性,在权重值更新时,关键词的权重值大于m级相关词集合中相关词的权重值,第L-1级相关词集合中相关词的权重值,大于第L级相关词集合中相关词的权重值。
由于部分词的权重值变大后,所有词的权重和可能超过1,因此需要对所有词的权重按比例缩放,使得所有的词的权重的和为1,保证语言模型的完整性和规范性。
步骤207,利用更新的语音识别模型,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。
步骤208,根据预设条件,判断是否需要对参考语音信息和辅助语音信息进行迭代处理。若需要对参考语音信息和辅助语音信息进行迭代处理,则返回步骤204;若不需要对参考语音信息和辅助语音信息进行迭代处理,则结束本步骤流程。
下面以一个具体示例对本方案进行说明。例如通过对客服人员的语音进行识别,得到以下结果:
“到(0.9)火车站(0.9)怎么(0.7)走(0.8)”,“从(0.33)帝王(0.55)大厦(0.8)出发(0.7)”。
其中括号中的数值为置信度。选择置信度最高的词为关键词,例如选择如下的关键词:
到(0.9)、火车站(0.9)、走(0.8)、大厦(0.8)。
将这些置信度较高的词进行过滤,除去一般意义上较为常见的词或者说没有信息量的词,例如采用词频-逆向文件频率(TermFrequency-Inverse Document Frequency,简称:TF-IDF)规则除去到(0.9)、走(0.8),最终确定关键词为
“火车站”、“大厦”。
根据预先确定的词表,选择若干个这些关键词的“相关词”,其中词和词的关系列表通过预先从大量文本数据中计算得到,她描述一个词及其对应关系从紧密到一般的词的序列,例如
与“火车站”关系密切的词如:“车次”,“交通”,“汽车站”等等,与“大厦”关系密切的词如:“楼层”,“写字楼”,“商务”等等。例如每个“关键词”选择两个相关词作为第一级相关词集合,其中:
“火车站”:相关词为“车次”、“交通”。
“大厦”:相关词为“楼层”,“写字楼”。
这样,第一级相关词集合包括“车次”、“交通”、“楼层”、“写字楼”。
同样,针对第一级相关词集合,可以生成第二级相关词集合,集中:
“车次”:相关词为火车、时刻。
“交通”:相关词为汽车、铁路。
“楼层”:相关词为电梯、一层。
“写字楼”:相关词为大厦、租金。
这样,第二级相关词集合包括火车、时刻、汽车、铁路、电梯、一层、大厦、租金,注意到第二级相关词集合中可能会包括关键词,这样会在权重调整时造成重复,因此需要去掉各级相关词集合中包括的关键词,最终的第二级相关词集合为:
火车、时刻、汽车、铁路、电梯、一层、租金。
根据需要,可以设置多级相关词集合。
在语音识别模型词库中,提高关键词和各级相关词集合中相关词的权重值。例如,对于关键词,权重变为原来的3倍;对于第一级相关词集合中的相关词,权重变为原来的2.5倍;对于第二级相关词集合中的相关词,权重变为原来的1.5倍。其余词的权重保持不变。这样的权重调整置针对N-gram中的uni-gram部分。
由于部分词的权重值变大后,所有词的权重和可能超过1,因此需要对所有词的权重按比例缩放,使得所有的词的权重的和为1,保证语言模型的完整性和规范性。
根据更新后的语音识别模型词库,对客户和客服人员的语音进行识别。由于语音识别模型词库根据对话内容进行了动态调整,因此可提高语音识别的准确性。
图3为本发明语音识别方法一个实施例的示意图。在图3所示实施例中,包括获取单元301、评估单元302、第一语音识别单元303、关键词生成单元304、相关词生成单元305、权重调整单元306、第二语音识别单元307,其中:
获取单元301,用从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息。
评估单元302,用于分别对第一语音信息和第二语音信息进行语音质量评估,选择语音质量较好的语音信息作为参考语音信息,将语音质量较差的语音信息作为辅助语音信息。
第一语音识别单元303,用于对参考语音信息进行语音识别,获得参考识别信息;
关键词生成单元304,用于在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数。
相关词生成单元305,用于对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m,在m级相关词集合中不包括关键词,同时在m级相关词集合中,相关词也不重复出现。
权重调整单元306,用于提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,其中为每个权重值乘以一个倍数,关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数,第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型。
第二语音识别单元307,用于利用更新的语音识别模型,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。
基于本发明上述实施例提高的语音识别***,通过利用对话中语音质量较好的参考语音信息进行语音识别,得到参考识别信息。在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数;对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m;提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型词库;利用更新的语音识别模型词库,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。由于根据对话内容修改了相关词的权重值,从而提高语音识别模型对当前对话内容描述的准确性,提高语音识别的准确率。
根据本发明另一具体实施例,获取单元301具体具体用于在对话语音信息中,从对应于第一讲话人的的第一路信号中获取第一语音信息,从对应于第二讲话人的的第二路信号中获取第二语音信息。
图4为本发明语音识别方法另一实施例的示意图。与图3所示实施例相比,在图4所示实施例中,还包括判断单元401,用于在第二语音识别单元307利用更新的语音识别模型词库分别对第一语音信息和第二语音信息进行语音识别之后,判断是否需要对参考语音信息和辅助语音信息进行迭代处理,若需要对参考语音信息和辅助语音信息进行迭代处理,则指示选择单元304执行在参考识别信息中选择置信度最高的n个词作为关键词的操作。
根据本发明另一具体实施例,关键词的权重值大于m级相关词集合中相关词的权重值;第L-1级相关词集合中相关词的权重值,大于第L级相关词集合中相关词的权重值。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (8)

1.一种语音识别方法,其特征在于,包括:
从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息;
分别对第一语音信息和第二语音信息进行语音质量评估,选择语音质量较好的语音信息作为参考语音信息,将语音质量较差的语音信息作为辅助语音信息;
对参考语音信息进行语音识别,获得参考识别信息;
在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数;
对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m,在m级相关词集合中不包括关键词,同时在m级相关词集合中,相关词也不重复出现;
提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,其中为每个权重值乘以一个倍数,关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数,第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型;
利用更新的语音识别模型,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。
2.根据权利要求1所述的方法,其特征在于,
在利用更新的语音识别模型词库分别对第一语音信息和第二语音信息进行语音识别之后,还包括:
判断是否需要对参考语音信息和辅助语音信息进行迭代处理;
若需要对参考语音信息和辅助语音信息进行迭代处理,则执行在参考识别信息中选择置信度最高的n个词作为关键词的步骤。
3.根据权利要求1或2所述的方法,其特征在于,
关键词的权重值大于m级相关词集合中相关词的权重值;
第L-1级相关词集合中相关词的权重值,大于第L级相关词集合中相关词的权重值。
4.根据权利要求1或2所述的方法,其特征在于,
所述从对应语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息包括:
在对话语音信息中,从对应于第一讲话人的的第一路信号中获取第一语音信息,从对应于第二讲话人的的第二路信号中获取第二语音信息。
5.一种语音识别***,其特征在于,包括:
获取单元,用从对话语音信息中分别获取第一讲话人的第一语音信息、以及第二讲话人的第二语音信息;
评估单元,用于分别对第一语音信息和第二语音信息进行语音质量评估,选择语音质量较好的语音信息作为参考语音信息,将语音质量较差的语音信息作为辅助语音信息;
第一语音识别单元,用于对参考语音信息进行语音识别,获得参考识别信息;
关键词生成单元,用于在参考识别信息中,选择置信度最高的n个词作为关键词,n为大于0的正整数;
相关词生成单元,用于对于每个关键词,根据预定的词表生成m级相关词集合,其中第一级相关词集合中的每个相关词分别与一个关键词相关联,第L级相关词集合中的每个相关词分别与第L-1级相关词集合中的一个相关词相关联,m、L为大于0的正整数,2≤L≤m,在m级相关词集合中不包括关键词,同时在m级相关词集合中,相关词也不重复出现;
权重调整单元,用于提高关键词和m级相关词集合中的相关词在语音识别模型词库中的权重值,其中为每个权重值乘以一个倍数,关键词的权重增加倍数大于m级相关词集合中相关词的权重增加倍数,第L-1级相关词集合中相关词的权重增加倍数大于第L级相关词集合中相关词的权重增加倍数,对语音识别模型词库中全部词的权重值进行归一化处理,得到更新的语音识别模型;
第二语音识别单元,用于利用更新的语音识别模型,分别对参考语音信息和辅助语音信息进行语音识别,得到第一识别信息和第二识别信息。
6.根据权利要求5所述的***,其特征在于,还包括:
判断单元,用于在第二语音识别单元利用更新的语音识别模型词库分别对第一语音信息和第二语音信息进行语音识别之后,判断是否需要对参考语音信息和辅助语音信息进行迭代处理,若需要对参考语音信息和辅助语音信息进行迭代处理,则指示选择单元执行在参考识别信息中选择置信度最高的n个词作为关键词的操作。
7.根据权利要求5或6所述的***,其特征在于,
关键词的权重值大于m级相关词集合中相关词的权重值;
第L-1级相关词集合中相关词的权重值,大于第L级相关词集合中相关词的权重值。
8.根据权利要求5或6所述的***,其特征在于,
获取单元具体具体用于在对话语音信息中,从对应于第一讲话人的的第一路信号中获取第一语音信息,从对应于第二讲话人的的第二路信号中获取第二语音信息。
CN201110440273.4A 2011-12-26 2011-12-26 语音识别方法和*** Active CN103177721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110440273.4A CN103177721B (zh) 2011-12-26 2011-12-26 语音识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110440273.4A CN103177721B (zh) 2011-12-26 2011-12-26 语音识别方法和***

Publications (2)

Publication Number Publication Date
CN103177721A true CN103177721A (zh) 2013-06-26
CN103177721B CN103177721B (zh) 2015-08-19

Family

ID=48637528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110440273.4A Active CN103177721B (zh) 2011-12-26 2011-12-26 语音识别方法和***

Country Status (1)

Country Link
CN (1) CN103177721B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN103700369A (zh) * 2013-11-26 2014-04-02 安徽科大讯飞信息科技股份有限公司 语音导航方法及***
CN104282305A (zh) * 2013-07-12 2015-01-14 通用汽车环球科技运作有限责任公司 语音对话***中用于结果仲裁的***和方法
CN104731548A (zh) * 2013-12-24 2015-06-24 财团法人工业技术研究院 辨识网络产生装置及其方法
CN105987707A (zh) * 2015-03-20 2016-10-05 宝马股份公司 将导航目标数据输入到导航***中
CN106971741A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及***
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
CN107742517A (zh) * 2017-10-10 2018-02-27 广东中星电子有限公司 一种对异常声音的检测方法及装置
CN108305617A (zh) * 2018-01-31 2018-07-20 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN109643542A (zh) * 2016-09-23 2019-04-16 英特尔公司 用于改进的关键词检测的技术
CN110136720A (zh) * 2018-02-05 2019-08-16 株式会社东芝 编辑支援装置、编辑支援方法以及程序
CN110837758A (zh) * 2018-08-17 2020-02-25 杭州海康威视数字技术股份有限公司 一种关键词输入方法、装置及电子设备
CN111147673A (zh) * 2019-12-20 2020-05-12 北京淇瑀信息科技有限公司 运营商信令和语音协同判断线路状态的方法、装置和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091424A1 (en) * 2006-10-16 2008-04-17 Microsoft Corporation Minimum classification error training with growth transformation optimization
US20080120109A1 (en) * 2006-11-16 2008-05-22 Institute For Information Industry Speech recognition device, method, and computer readable medium for adjusting speech models with selected speech data
CN101324806A (zh) * 2007-06-14 2008-12-17 台达电子工业股份有限公司 用于移动搜寻的输入***及其方法
CN101329868A (zh) * 2008-07-31 2008-12-24 林超 一种针对地区语言使用偏好的语音识别优化***及其方法
CN101609672A (zh) * 2009-07-21 2009-12-23 北京邮电大学 一种语音识别语义置信特征提取的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091424A1 (en) * 2006-10-16 2008-04-17 Microsoft Corporation Minimum classification error training with growth transformation optimization
US20080120109A1 (en) * 2006-11-16 2008-05-22 Institute For Information Industry Speech recognition device, method, and computer readable medium for adjusting speech models with selected speech data
CN101324806A (zh) * 2007-06-14 2008-12-17 台达电子工业股份有限公司 用于移动搜寻的输入***及其方法
CN101329868A (zh) * 2008-07-31 2008-12-24 林超 一种针对地区语言使用偏好的语音识别优化***及其方法
CN101609672A (zh) * 2009-07-21 2009-12-23 北京邮电大学 一种语音识别语义置信特征提取的方法和装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
CN104282305A (zh) * 2013-07-12 2015-01-14 通用汽车环球科技运作有限责任公司 语音对话***中用于结果仲裁的***和方法
CN104282305B (zh) * 2013-07-12 2018-04-24 通用汽车环球科技运作有限责任公司 语音对话***中用于结果仲裁的***和方法
CN103700369A (zh) * 2013-11-26 2014-04-02 安徽科大讯飞信息科技股份有限公司 语音导航方法及***
CN103700369B (zh) * 2013-11-26 2016-08-31 科大讯飞股份有限公司 语音导航方法及***
CN104731548A (zh) * 2013-12-24 2015-06-24 财团法人工业技术研究院 辨识网络产生装置及其方法
US10002609B2 (en) 2013-12-24 2018-06-19 Industrial Technology Research Institute Device and method for generating recognition network by adjusting recognition vocabulary weights based on a number of times they appear in operation contents
CN104731548B (zh) * 2013-12-24 2017-09-29 财团法人工业技术研究院 辨识网络产生装置及其方法
CN103700368B (zh) * 2014-01-13 2017-01-18 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN105987707A (zh) * 2015-03-20 2016-10-05 宝马股份公司 将导航目标数据输入到导航***中
CN105987707B (zh) * 2015-03-20 2022-04-15 宝马股份公司 将导航目标数据输入到导航***中
CN106971741A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及***
CN109643542B (zh) * 2016-09-23 2024-01-12 英特尔公司 用于改进的关键词检测的技术
CN109643542A (zh) * 2016-09-23 2019-04-16 英特尔公司 用于改进的关键词检测的技术
CN107742517A (zh) * 2017-10-10 2018-02-27 广东中星电子有限公司 一种对异常声音的检测方法及装置
CN108305617B (zh) * 2018-01-31 2020-09-08 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
US11222623B2 (en) 2018-01-31 2022-01-11 Tencent Technology (Shenzhen) Company Limited Speech keyword recognition method and apparatus, computer-readable storage medium, and computer device
CN108305617A (zh) * 2018-01-31 2018-07-20 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN110136720A (zh) * 2018-02-05 2019-08-16 株式会社东芝 编辑支援装置、编辑支援方法以及程序
CN110136720B (zh) * 2018-02-05 2022-10-04 株式会社东芝 编辑支援装置、编辑支援方法以及程序
CN110837758A (zh) * 2018-08-17 2020-02-25 杭州海康威视数字技术股份有限公司 一种关键词输入方法、装置及电子设备
CN110837758B (zh) * 2018-08-17 2023-06-02 杭州海康威视数字技术股份有限公司 一种关键词输入方法、装置及电子设备
CN111147673A (zh) * 2019-12-20 2020-05-12 北京淇瑀信息科技有限公司 运营商信令和语音协同判断线路状态的方法、装置和***

Also Published As

Publication number Publication date
CN103177721B (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN103177721B (zh) 语音识别方法和***
US11189272B2 (en) Dialect phoneme adaptive training system and method
US9552815B2 (en) Speech understanding method and system
CN107945792B (zh) 语音处理方法和装置
CN101548313B (zh) 话音活动检测***和方法
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US10789943B1 (en) Proxy for selective use of human and artificial intelligence in a natural language understanding system
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
US10650306B1 (en) User representation using a generative adversarial network
US20150199340A1 (en) System for translating a language based on user's reaction and method thereof
CN106875936B (zh) 语音识别方法及装置
US11056100B2 (en) Acoustic information based language modeling system and method
CN112037774A (zh) 用于关键短语识别的***和方法
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN111489754B (zh) 一种基于智能语音技术的话务数据分析方法
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
CN110299150A (zh) 一种实时语音说话人分离方法及***
CN107886940B (zh) 语音翻译处理方法及装置
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
CN113793599A (zh) 语音识别模型的训练方法和语音识别方法及装置
CN110809796B (zh) 具有解耦唤醒短语的语音识别***和方法
CN111414748A (zh) 话务数据处理方法及装置
Reichl et al. Language modeling for content extraction in human-computer dialogues
CN110534117B (zh) 用于优化语音生成模型的方法、装置、设备和计算机介质
CN112447169B (zh) 一种词边界估计方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant