CN106560891A - 使用声学建模的语音识别设备和方法 - Google Patents
使用声学建模的语音识别设备和方法 Download PDFInfo
- Publication number
- CN106560891A CN106560891A CN201610881662.3A CN201610881662A CN106560891A CN 106560891 A CN106560891 A CN 106560891A CN 201610881662 A CN201610881662 A CN 201610881662A CN 106560891 A CN106560891 A CN 106560891A
- Authority
- CN
- China
- Prior art keywords
- frame
- voice
- acoustics
- fraction
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 89
- 239000000284 extract Substances 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 38
- 230000002457 bidirectional effect Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 6
- 238000007792 addition Methods 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 230000005236 sound signal Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000009434 installation Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000011469 building brick Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Abstract
提供使用声学建模的语音识别设备和方法。提供了一种语音识别设备。所述设备包括:预处理器,被配置为从用户的第一语音的全部帧提取选择帧;以及分数计算器,被配置为:通过使用基于深度神经网络(DNN)的声学模型来计算由提取的选择帧构成的第二语音的声学分数,并且基于计算的第二语音的声学分数,来计算第一语音中除了选择帧之外的帧的声学分数。
Description
本申请要求于2015年10月6日提交到韩国知识产权局的第10-2015-0140646号韩国专利申请的权益,该韩国专利申请的全部公开出于各种目的通过引用包含于此。
技术领域
以下描述总体上涉及使用声学建模的语音识别的技术,更具体地说,涉及使用声学建模的语音识别设备和方法。
背景技术
语音识别引擎一般是实现声学模型、语言模型和解码器的硬件装置。声学模型可计算输入语音信号的每帧的发音概率,语言模型可提供关于特定的单词、短语或句子的使用频率或特定的单词、短语或句子之间的连接性的信息。解码器可基于考虑由声学模型和语言模型提供的各个信息,来计算并输出输入语音信号与特定的单词或句子的相似度。在此,因为这样的自动语音识别通过计算机或处理器技术来实现,所以相应的问题发生在这样的计算机或处理器技术中。这样的自动语音识别背后的技术由于说话者在他们的话语、短语、方言、语言或个人习语方面使用的自由度的变化而具有挑战性,并且由于底层硬件和硬件能力的技术缺陷而具有挑战性,诸如,在可能无法完全地识别对应的语音的情况下,能够以足够的正确性和速度识别语音的技术问题。
高斯混合模型(GMM)方法通常被用于实现声学模型中的这种概率确定,但是最近,深度神经网络(DNN)方法已经被实现为计算声学模型中的概率确定,DNN具有比执行GMM方法的声学建模的语音识别性能明显提高的语音识别性能。
此外,双向循环深度神经网络(BRDNN)方法也被用于对随时间的改变的数据(诸如,语音)进行建模。例如,BRDNN方法可通过考虑双向信息(即,关于之前的帧和后续的帧的信息),来提高计算语音信号的每帧的发音概率的准确性。
然而,因为提供给DNN的额外帧信息以及由DNN所进行的时间考虑,所以用于计算与各个语音单元对应的发音概率所需的时间可能增加,尤其是随着这样的语音单元的长度增加而增加。因此,在自动语音识别***中存在技术问题。
发明内容
提供该发明内容用于以简化的形式介绍对在以下的具体实施方式中进一步描述的构思的选择。该发明内容不意在标识要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。
在一个总体方面,一种语音识别设备包括:预处理器,被配置为从用户的第一语音的全部帧提取选择帧;分数计算器,被配置为:通过使用基于深度神经网络(DNN)的声学模型来计算由提取的选择帧构成的第二语音的声学分数,并且基于计算的第二语音的声学分数,来计算第一语音中除了选择帧之外的帧的声学分数。
分数计算器可在不使用声学模型执行除了选择帧之外的帧的声学建模的情况下,计算除了选择帧之外的帧的声学分数。
声学模型可以是基于双向循环深度神经网络(BRDNN)的声学模型。
预处理器可根据用于从第一语音分别间断地提取选择帧的一个或多个预定间隔来提取选择帧,并且使用提取的选择帧作为连接的语音来生成第二语音,其中,分数计算器可将提取的选择帧作为第二语音中的连接的语音共同地提供给声学模型。
所述设备还可包括:包括预处理器和分数计算器的处理器,被配置为:提取选择帧并且生成第二语音;计算第二语音的声学分数;基于计算的第二语音的声学分数,来计算除了选择帧之外的帧的声学分数;基于由声学模型提供的计算的第二语音的帧的声学分数以及计算的除了选择帧之外的帧的声学分数,来识别第一语音。
处理器还可被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第一时间上不连续的语音帧的集合训练声学模型,来生成声学模型。
处理器还可被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第二时间上不连续的语音帧的集合进一步训练声学模型,来生成声学模型,第一时间上不连续的语音帧的集合具有与第二时间上不连续的语音帧的集合不同的一个或多个语音帧。
预处理器可根据预定的均匀间隔从第一语音的全部帧提取选择帧,将第一语音的全部帧划分为两个或更多个组并且从每个组提取一个或多个帧,或者根据基于第一语音的帧的确定的信号强度的间隔,从第一语音的全部帧提取选择帧。
预处理器可从第一语音的全部N个帧,根据m×K+i来提取选择帧,其中,i是根据1≤i≤K的任意整数,K是根据2≤K≤N的任意整数,m是使得i≤m×K+i≤N的一个或多个整数,从而提取第一语音的各个第m×K+i帧。
在K和i被保持的情况下,可通过随着m在0与K-1之间增大而提取第一语音的各个第m×K+i帧,来生成第二语音。
分数计算器可将通过声学模型计算的第二语音的帧的声学分数用作与第二语音的帧对应的第一语音的各个帧的确定的声学分数,并且基于第二语音的帧的一个或多个声学分数和/或第一语音的各个帧的确定的声学分数中的一个或多个,来获得除了选择帧之外的帧中的一个帧的声学分数,其中,所述除了选择帧之外的帧中的一个帧作为相邻帧并且与第一语音的各个帧中的一个或多个帧相邻。
分数计算器可基于相邻帧与第一语音中的提取的选择帧中的时间上位于相邻帧的两侧的两个帧之间的确定的时间距离,使用两个帧中的任意一个帧的确定的声学分数,或者使用计算的第二语音的两个对应的帧中的任意一个帧的声学分数,作为相邻帧的声学分数。
分数计算器可使用基于第一语音中的提取的选择帧中的时间上位于相邻帧的两侧的两个帧的确定的声学分数的统计值,或者使用基于计算的与第一语音的两个帧对应的第二语音的两个帧的声学分数的统计值,作为相邻帧的声学分数,或者分数计算器可使用通过基于相邻帧与第一语音的两个帧之间的各个确定的时间距离,将权重值施加到第一语音的两个帧的各自的确定的声学分数或者施加到第二语音的两个帧的各自的计算的声学分数而获得的统计值,作为相邻帧的声学分数。
可通过使用基于从同一第一训练语音不同地提取的帧集合分别生成的一个或多个第二训练语音,来训练声学模型。
预处理器可被配置为:从第一训练语音提取帧集合;通过分别使用提取的帧集合来生成一个或多个第二训练语音;通过使用生成的一个或多个第二训练语音来训练声学模型。
在一个总体方面,一种语音识别方法包括:接收将被识别的第一语音的输入;从第一语音的全部帧提取一些帧;通过使用提取的帧来生成第二语音;通过使用基于深度神经网络(DNN)的声学模型来计算第二语音的声学分数;基于计算的第二语音的声学分数来计算第一语音的声学分数。
声学模型可以是基于双向循环深度神经网络(BRDNN)的声学模型。
提取一些帧的步骤可包括:根据预定的均匀间隔从第一语音的全部帧提取选择帧,将第一语音的全部帧划分为两个或更多个组,并且从每个组提取一个或多个选择帧,或者根据基于第一语音的帧的确定的信号强度间隔来提取选择帧。
计算第一语音的声学分数的步骤可包括:将第二语音的两个帧的声学分数用作与第二语音的两个帧对应的第一语音的两个帧的声学分数,并且将第二语音的两个帧的至少一个声学分数用于第一语音中的与第一语音的两个帧相邻的相邻帧的声学分数。
计算第一语音的声学分数的步骤可包括:基于相邻帧与第一语音中的时间上位于相邻帧的两侧的两个帧之间的确定的时间距离,使用第一语音的两个帧中的一个帧或第二语音的两个帧中的一个帧的声学分数,作为相邻帧的声学分数。
计算第一语音的声学分数的步骤可包括:使用第一语音的两个帧的声学分数或者第二语音的两个帧的声学分数的统计值,或者使用通过基于相邻帧与第一语音的两个帧之间的确定的时间距离,将权重值施加到第一语音的两个帧的声学分数或者施加到第二语音的两个帧的声学分数而获得的统计值,作为相邻帧的声学分数。
在一个总体方面,一种语音识别设备包括:帧集合提取器,被配置为:提取一个或多个帧集合,每个帧集合不同地包括少于输入的第一训练语音的全部帧的帧;训练数据生成器,被配置为:通过分别使用提取的一个或多个帧集合,来生成一个或多个第二训练语音;模型训练器,被配置为:通过使用生成的一个或多个第二训练语音,来训练声学模型。
声学模型可以是基于双向循环深度神经网络(BRDNN)的声学模型。
所述设备还可包括:处理器,包括帧集合提取器、训练数据生成器和模型训练器,处理器还被配置为:从用于识别的用户的第一语音提取选择帧;使用提取的选择帧来生成第二语音;使用通过声学模型计算的第二语音的声学分数,基于计算的第一语音的除了选择帧之外的帧的声学分数,来识别第一语音。
帧集合提取器可从第一训练语音的全部N个帧,根据m×K+i来提取每个第i帧集合,其中,i是1≤i≤K的任意整数,K是2≤K≤N的任意整数,m是i≤m×K+i≤N的任意整数。
在一个总体方面,一种语音识别方法包括:提取一个或多个帧集合,每个帧集合不同地包括少于输入的第一训练语音的全部帧的帧;通过使用提取的一个或多个帧集合,来生成一个或多个第二训练语音;通过使用生成的一个或多个第二训练语音,来训练声学模型。
声学模型可以是基于双向循环深度神经网络(BRDNN)的声学模型。
提取帧集合的步骤可包括:将参考帧i的值i设置为1,并且将K的值设置为预定的整数;从第一训练语音的全部帧,提取包括通过将m的值从0逐步增加1获得的各个第m×K+i帧的第i帧集合;将i增加1,在增加之后,响应于i不大于K的值,重复第i帧集合的提取,而响应于i大于K的值,终止提取所述一个或多个帧集合的步骤。
在一个总体方面,一种语音识别设备包括:处理器,被配置为:从用户的第一语音的全部帧识别选择帧;通过将作为合并的语音的少于第一语音的全部帧的识别的选择帧的信息提供给声学模型,来计算识别的选择帧的各个声学分数;基于计算的识别的选择帧的各个声学分数中的一个或多个,来计算第一语音中除了识别的选择帧之外的帧的各个声学分数。
识别选择帧可包括:根据一个或多个预定间隔,从第一语音的全部帧提取识别的选择帧,所述一个或多个间隔用于从第一语音分别间断地提取帧,以作为连接的第二语音共同地提供给声学模型。
处理器还可被配置为:基于计算的提取的选择帧的各个声学分数以及计算的除了提取的选择帧之外的帧的各个声学分数,来识别第一语音。
计算提取的选择帧的各个声学分数可包括:将第一语音的识别的选择帧的各个声学分数确定为具有与通过将第二语音提供给声学模型计算的提取的选择帧的时间上对应相同的帧的声学分数相同的各个声学分数。
声学模型可以是使用来自训练数据的时间上连续的语音帧的第一时间上不连续的语音帧的集合训练的声学模型。
声学模型可以是使用来自训练数据的时间上连续的语音帧的第二时间上不连续的语音帧的集合进一步训练的声学模型,第一时间上不连续的语音帧的集合具有与第二时间上不连续的语音帧的集合不同的一个或多个语音帧。
处理器还可被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第一时间上不连续的语音帧的集合,并且使用由处理器从训练数据的时间上连续的语音帧提取的第二时间上不连续的语音帧的集合训练声学模型,来生成声学模型。
第一时间上不连续的语音帧的集合可包括表示被确定为不同地分类的信号强度的帧。
第一时间上不连续的语音帧的集合可包括:表示与第二时间上不连续的语音帧的集合所表示的信号强度的组不同地分类的信号强度的组的帧。
从第一语音的全部帧选择性地识别的帧可根据一个或多个预定间隔被识别,所述一个或多个预定间隔用于从第一语音分别间断地提取选择帧,以提供给声学模型。
将识别的选择帧提供给声学模型可包括:将识别的选择帧作为连接的第二语音共同地提供给深度神经网络(DNN)声学模型
DNN声学模型可以是基于双向循环深度神经网络(BRDNN)的声学模型。
所述设备还可包括被配置为存储指令的存储器,其中,处理器还可被配置为:执行所述指令,以配置处理器执行选择帧的识别、识别的选择帧的各个声学分数的计算以及除了识别的选择帧之外的帧的各个声学分数的计算。
从以下具体实施方式、附图和权利要求,其他特征和方面将是清楚的。
附图说明
图1是示出根据一个或多个实施例的语音识别设备的框图。
图2是示出根据一个或多个实施例的计算声学分数的设备的框图。
图3是解释基于一般的双向循环深度神经网络(BRDNN)的声学建模方法的示图。
图4是解释根据一个或多个实施例的基于BRDNN的声学建模方法的示例的示图。
图5是示出根据一个或多个实施例的计算声学分数的方法的流程图。
图6是示出根据一个或多个实施例的训练声学模型的设备的框图。
图7是示出根据一个或多个实施例的训练声学模型的方法的流程图。
图8是示出根据一个或多个实施例的第二训练语音的生成的流程图。
图9是示出根据一个或多个实施例的电子装置的框图。
贯穿附图和具体实施方式,除非另有描述,否则相同的附图参考标号可被理解为表示相同或相似的元件、特征和结构。为了清楚、说明和方便,这些元件的相对大小和描绘可被夸大。
具体实施方式
提供以下详细的描述以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而,在此描述的方法、设备和/或***的各种改变、修改和等同物在理解了本申请的公开之后将是清楚的。例如,在此描述的操作的顺序仅是示例,并且除了必须以特定的顺序发生的操作之外,不限于在此阐述的顺序,而是可如在理解了本申请的公开之后那样清楚地改变。此外,为了更加清楚和简明,可省略本领域公知的特征的描述。
在此描述的特征可被实施为不同的形式,并且将不被解释为受限于在此描述的示例。相反,仅提供在此描述的示例以说明实现在此描述的方法、设备和/或***的许多可行的方式中的一些,这在理解了本申请的公开之后将是清楚的。
图1是示出根据一个或多个实施例的语音识别设备的框图。
参照图1,语音识别设备100包括,例如,声学分数计算器110、语言分数计算器120和解码器130。
声学分数计算器110通过使用一个或多个声学模型,来计算将被识别的第一语音的每个发音的声学分数。仅作为示例,声学模型可以是基于深度神经网络(DNN)的声学模型或者基于双向循环深度神经网络(BRDNN)的声学模型。此外,在一个示例中,发音被用作可在声学分数的计算中考虑的示例语言单元。在此,为了便于解释,被用作语言单元的发音仅是示意性的,可选择性地使用或者还可使用任意其他语言单元或任意其他语言单元的组合,诸如,音素、音节、词素、短语、句子以及发音语言单元类型。此外,声学模型计算声学分数的语言单元可根据语言而变化,从而语言单元不限于这样的语言单元类型。
声学分数计算器110可通过选择性地仅使用第一语音的全部帧中的一些,或者选择性地仅使用第一语音的一定数量的帧中的一些,来计算第一语音的全部帧的声学分数,或者第一语音的一定数量的连续帧的全部帧的声学分数。例如,声学分数计算器110可根据预定的均匀间隔,从第一语音的一定数量的帧中提取一些帧,并且可通过连接提取的帧来生成第二语音。可选地,根据第一语音的信号强度,声学分数计算器110可提取选择帧(例如,第一语音的全部帧之中的或第一语音的一定数量的帧之中的具有相对高的信号强度的那些帧),并且可通过连接提取的选择帧来生成第二语音。声学分数计算器110可通过使用声学模型(例如,通过将生成的第二语音输入到声学模型)来计算第二语音的声学分数,然后可通过使用计算的第二语音的声学分数来计算第一语音的声学分数。例如,当第二语音的各个帧已经被设置为与第一语音的各个剩余的未被提取的帧选择对应时,第二语音的每个帧的各自的声学分数可被用作第一帧的每个设置的对应的帧的声学分数。在此,如果以一定的交替间隔将帧从第一语音提取到第二语音中(例如,第一语音的每隔一个的帧被提取,并且被组合在第二语音中),则分别邻近于第一语音中的未被提取的帧的第二语音中的帧的计算的声学分数可被用作第一语音中的各个邻近的未被提取的帧的声学分数。以这种方式,针对对应的特定间隔,可仅针对来自第一语音的原始帧的一半来计算声学分数,并且这些计算的声学分数可被用于推断第一语音的剩余帧的声学分数。在此,选择帧的声学分数的计算不限于这些示例。例如,下面将参照图2进一步详细地描述这样的选择性的计算。
语言分数计算器120可通过基于输入的第一语音(例如,基于之前识别的第一语音的单词或短语)使用语言模型来输出关于与单词或短语有关的信息(例如,单词或短语的使用的频率或它们之间的连接性)的语言分数。语言模型可基于N-GRAM或神经网络,这仅作为示例。与上面关于声学分数的描述相似,不但可以以单词或短语的语言单元来计算语言分数,而且可以以上述的各种语言单元中的任意一个来计算语言分数。
解码器130可通过使用获得的声学分数和语言分数,诸如,通过声学分数或语言分数结果中更好的一个的选择性加权,来识别第一语音的部分或全部,然后,以文本格式返回语音识别的结果。
关于图1,声学分数计算器110可包括存储声学模型的存储器或高速缓存,和/或可包括一个或多个处理器,其中,该一个或多个处理器被配置为:通过从存储器访问声学模型,或者通过不必加载或访问声学模型的其他硬件配置来实现声学模型。例如,处理器可被配置为实现对应的深度神经网络(DNN)或双向循环深度神经网络(BRDNN)中的一个或多个。例如,通过相互作用,或者通过语音识别的学习或使用一个或多个用户的训练,和/或通过来自服务器或云服务的远程提供,这样的声学模型和/或配置的处理器还可以被更新。语音识别设备100还可具有可存储声学模型的可选存储器。与声学分数计算器110相似,语言分数计算器120可同样地访问、存储或被配置为上述语言模型中的一个或多个。语音识别设备100还可具有可存储语言模型的可选存储器。可通过无处理器的硬件和/或处理器执行的指令(例如,由一个或多个处理器执行的指令)来实现解码器130。
图2是示出根据一个或多个实施例的计算声学分数的设备的框图。
参照图2,通过硬件来实现计算声学分数的设备200,并且根据实施例,设备200可以是单独的组件,可以是语音识别设备(诸如,图1、图6和图9各自的语音识别设备100、语音识别设备600和语音识别设备900)中的组件,或者设备200可被安装在单独的或远程的硬件装置中,并且设备200可通过有线或无线网络与这样的语音识别设备连接,以从语音识别设备接收将被识别的语音并且将计算的声学分数结果提供给语音识别设备,应注意,这样的外部语音识别实施方式还可包括附加的本地或远程服务器、代理和/或云计算中介。设备200可类似地包括在这样的本地或远程服务器、代理或云计算装置中。
参照图2,计算声学分数的设备200包括,例如,语音输入部分210、预处理器220和分数计算器230。
语音输入部分210是硬件组件,接收将被识别的第一语音的输入,并且将接收的输入提供或发送到预处理器220。在输入的第一语音是模拟信号的情况下,语音输入部分210可将模拟信号转换为数字信号,可将数字信号划分为语音帧,并且可将语音帧发送到预处理器220。在该情况下,1秒的语音可被划分为100帧,这仅作为一个示例。根据实施例,诸如,当被包括在语音识别设备中时,语音输入部分210可包括麦克风或其他换能器。此外,语音输入部分210(或输入器)可以是一个或多个模数转换器或缓冲器的代表。仅作为示例,语音输入部分210可将语音帧顺序地提供给预处理器220或可使得预处理器220可使用语音帧,可使用各个连续指示符将连续的帧提供给预处理器220或使得预处理器220可使用连续的帧,可以以帧的移动窗的方式将连续的帧提供给预处理器220或使得预处理器220可使用连续的帧,或者可以以一定数量的帧或帧的组的方式将连续的帧提供给预处理器220或使得预处理器220可使用连续的帧。仅作为一个示例,设备200还包括存储器或高速缓存240,并且这样的语音帧数据可被存储在高速缓存240中,并且被预处理器220顺序地访问以进行预处理。可选地,这样的存储器或高速缓存可位于设备200的外部,诸如,包括在图1的语音识别设备100的其他地方,或包括在远离语音识别设备100的对应的远程装置中,这再次仅作为示例。
因此,在例如从语音输入部分210获取或接收第一语音的全部帧或者第一语音的一定数量的帧的全部帧时,预处理器220可执行计算第一语音的声学分数所期望或必须的预处理过程。为了降低计算第一语音的声学分数所需的时间(这可相应地提供针对以前方法的技术改进和/或解决方案),预处理器220可从第一语音的全部帧中仅提取一些帧或选择帧,即,提取少于第一语音的全部帧的帧,并且可通过连接或组合选择性提取的帧来生成第二语音。在此,第二语音的生成可不但包括生成可被重现的完整形式的语音,而且包括连接语音帧本身。来自第一语音的选择性提取的帧的连接可包括使得选择性提取的帧按照顺序或新的排序形式作为第二语音,和/或产生关于各个选择性提取的帧的连接信息。此外,预处理器220可将生成的第二语音提供、发送或应用于分数计算器230,使得第二语音可被用于计算第一语音的声学分数。与第一语音的语音帧的存储相似,第二语音的语音帧可被存储在设备200或其他外部装置的存储器或高速缓存240中。
例如,预处理器220可根据预定的均匀间隔(即,以非随机的方式)从第一语音的全部帧,选择性提取一个或多个帧。可选地,预处理器220可根据确定的设计将全部帧划分、整理或分类为多个部分或组,并且可在对应的部分或组具有多于一个的帧时,通过(例如)提取少于每个部分或每组的全部帧的帧,来仅提取每个部分或每组中的一个或多个帧。
例如,在第一语音的全部帧的数量是N,或者第一语音的所有N个帧可通过语音输入部分210应用于预处理器220并且预定的均匀间隔是K的情况下,可认为所有N个帧中的各第K帧之间的连续的帧的发音概率可彼此相似。也就是说,例如,可认为第i帧的发音概率可相似于第i+1帧、第i+2帧直到第i+(K-1)帧的发音概率。此外,例如,第i+(K-1)帧、第i+(K-2)帧等可选择地被认为更相似于接下来的第K帧。因此,使用该示例,以及作为提取的帧的粗略控制的变量m和作为提取的帧的精细控制的变量i,预处理器220可根据全部帧的时间顺序,例如,随着m从0增加到N/K,从全部帧仅提取各第m×K+i帧,例如,以在提取用于第二语音的帧的第一语音的帧的组之间进行选择。在此,“i”可确定每组的K个帧内的哪一个帧被选择性地提取,因此,“i”可以是第一个提取的参考帧的编号,例如,“i”可以是等于或大于1直到等于或小于K的整数中的预定值。为了从第一语音选择小于全部帧的帧,K可以是等于或大于2并且小于N的整数之中的预定的值。最后,变量的m被表示为从0增加到N/K,以在提取用于第二语音的帧的第一语音的帧的组之间进行选择,因此,m可以是使得m×K+1(i=1)满足等于或大于1直到等于或小于N的任意整数。例如,当K等于4并且在提供的第一语音中共有12个帧时,随着m从0增加到2,可从第一语音提取第一帧、第五帧和第九帧,以包含在第二语音中。如果第一参考帧的预定的值不是1,即,如果i不是等于1而是等于2,则第二帧、第六帧和第十帧将被提取。如果i等于3,则第三帧、第七帧和第十一帧将被提取,如果i等于4,则第四帧、第八帧和第十二帧将从第一语音被提取,以包含在第二语音中。在此,虽然这样的间隔提取方法可被重复,使得每个提取的帧与前一提取的帧的距离相等,但是实施例不限于此。
在另一示例中,预处理器220可根据预定的均匀间隔K,将全部帧划分为多个部分或组,并且可在每个部分或每组中提取一个或多个帧。在此情况下,在每个部分或每组中提取的帧的数量不是必须相同,可根据需要而不同。例如,基于在与输入的音频信号对应的每个部分中包括的语音帧的信号强度,和在与具有相对低的信号强度的原始音频信号对应的部分中提取的帧的数量相比,在与具有相对高的信号强度的原始音频信号对应的部分中提取的帧的数量相对大。
作为另一示例,这样的帧的划分不必须符合1:1,或者不必须完全地整除来自语音输入部分210的输入帧长度。例如,在第一模式下,来自语音输入部分210的被解析的音频帧长度与第二语音中的帧长度之间的关系可能是1:1,或者在第二模式下,第二语音的语音帧与来自语音输入部分210的被解析的音频帧的关系可以不同,不总是1:1或者是非1:1,例如,可以是1:0.75、1:1.33、1:2.75等。可选地或此外,例如,还可基于预处理器220的操作或设置,以不同的模式(诸如,具有固定采样率的模式以及具有不同的或选择性改变的采样率的另一模式)来控制语音输入部分210。此外,使用这样的可变的采样率和/或可变的帧长度,采样率或帧长度还可在识别操作期间或识别操作之间,例如基于预处理器220的确定的划分或组,而被控制改变。
分数计算器230可通过将从预处理器220提供、发送或可用的第二语音应用到声学模型,来计算第二语音的声学分数。在计算第二语音的声学分数时,分数计算器230可通过使用第二语音的各个计算的声学分数,来确定或计算第一语音的全部帧的声学分数。
例如,分数计算器230可通过将第二语音的全部帧输入到基于DNN的声学模型或基于BRDNN的声学模型,来计算第二语音的每帧的声学分数。在该示例中,在计算第二语音的帧的各个声学分数时,分数计算器230可将第二语音的帧的各个声学分数用作第一语音的相关的帧(例如,与第二语音的帧对应的第一语音的帧,或者第一语音中的顺序地直接邻近于第二语音的帧的第一语音的帧)的声学分数。此外,例如,因为预处理器220未提取特定的邻近帧,所以分数计算器230可在诸如间隔K是2时,使用直接在第一语音中的相邻帧的两侧的第二语音的两个帧中的任意一个帧的声学分数,作为相邻帧的声学分数,其中,相邻帧是不与第二语音的任何帧对应的第一语音的帧(上下文称为“相邻帧”)。在此,术语“相邻(adjacent)”将被用于表示第一语音中的位置相关的帧,但这不必须表示两个帧直接相邻,即,时间上相邻或顺序地相邻。
在另一示例中,分数计算器230可使用第二语音的两个帧的声学分数的统计值(例如,平均值、中值、最大值、最小值、内插值或外推值等)作为第一语音的相邻帧的声学分数。在不存在这样的两个帧中的任意一个的情况下,存在的帧的声学分数可被使用。例如,在上面第一语音的12帧集合的示例中,包括在第二语音中的提取的第九帧可以仅是与第一语音中的第十帧相邻的第二语音帧,因此仅第九帧的计算的声学分数可被用于确定或计算第十帧的声学分数。
在另一示例中,分数计算器230可计算相邻帧与两个帧之间的距离,并且基于计算的距离可确定将两个帧中的任意一个的声学分数用作相邻帧的声学分数。例如,分数计算器230可将第二语音的两个直接相邻或邻近提取的帧中的(在第一语音中)更靠近于相邻帧的第二语音的提取的帧的声学分数用作相邻帧的声学分数。例如,再次使用上面的第一语音的12帧集合的示例,在第二语音中包括的提取的第五帧和第九帧是第二语音中的两个相邻的帧,然而它们在第一语音中被进一步地分开,因此第一语音的第八帧可对应于“相邻帧”,这是由于第八帧邻近于第一语音的第五帧和第九帧,而更接近于第九帧。因此,在该示例中,例如,通过仅将第七帧的声学分数设置为具有与第九帧的声学分数相同的声学分数,第九帧的计算的声学分数可被用于确定第七帧的声学分数。
在另一示例中,分数计算器230可计算相邻帧与两个帧之间的距离,并且可基于计算的距离将权重值施加到两个帧的各自的声学分数。然后,分数计算器230可使用两个帧的施加了权重值的声学分数的统计值,作为相邻帧的声学分数。在此情况下,更高的权重值可被施加到两个帧中的更接近于相邻帧的帧,而相对更低的权重值可被施加到距离相邻帧更远的帧。因此,使用上面的第七帧的声学分数被确定的示例,施加到第九帧的计算的声学分数的权重可大于施加到第五帧的计算的声学分数的权重,以从来自第五帧和第九帧二者的计算的声学分数,计算第七帧的声学分数。
虽然上面描述了通过使用第二语音的声学分数计算第一语音的声学分数的各种示例,但是实施例不限于此。
在此,预处理器220和分数计算器230可以是分开的处理器或者是同一处理器。此外,这样的处理器还可被配置为包括语音输入部分210。仅作为一个示例,预处理器220还可被配置为包括语音输入部分210,从而将模拟音频信号转换为数字帧数据,以由预处理器220进行预处理,或者模数转换可通过单独的语音输入部分210来实现,模拟音频信号到帧数据的结果的转换可通过预处理器220来实现。
图3是示出基于一般的双向循环深度神经网络(BRDNN)的声学建模方法的示例的示图,图4是示出根据一个或多个实施例的基于BRDNN的声学建模方法的示例的示图。
与一般的深度神经网络(DNN)或隐马尔科夫模型(HMM)方法相比,图3中所示的基于一般的BRDNN的声学建模方法可通过考虑双向信息(即,关于之前的帧或后续的帧的信息),来提高计算发音概率的准确度。基于一般的BRDNN的声学建模方法使用将被识别的音频信号的全部帧作为输入。例如,使用上面第一语音的示例,这样的基于一般的BRDNN的声学建模方法将被输入这样的第一语音的全部帧。因此,如图3中所示,在输入音频信号被分为14个帧的情况下,全部的14个帧被输入到基于一般的BRDNN的声学模型中,针对每帧通过基于BRDNN的声学模型来计算发音概率。然而,使用这样的基于一般的BRDNN的声学建模方法,针对全部帧(包括考虑时间上的之前的帧和后续的帧)计算各个声学分数所需的时间会远远大于基于一般的DNN的声学建模或HMM方法所需的时间,尤其是随着将被识别的语音单元的长度(即,帧的全部数量)增加而明显。
如根据一个或多个实施例的图4的基于BRDNN声学建模方法的示例所示,假设将被提取的第一参考帧i是1,预定的间隔K是2,输入的第一语音包括14个帧,则处理器(诸如,仅作为一个示例的图2的预处理器220)可随着m从0开始重复地增加1直到m达到6,根据m×K+1来提取帧。处理器可从第一语音的14个帧相应地提取帧1、帧3、帧5、帧7、帧9、帧11和帧13。仅作为示例,m可逐步增加1直到下一个m(m+1)将导致m×K+1的值大于设置的帧的总数N,或者直到m×K+1在设置的总共N个帧的K个帧以内。此外,预处理器220可通过连接提取的帧1、帧3、帧5、帧7、帧9、帧11和帧13,来生成第二语音,然后将帧1、帧3、帧5、帧7、帧9、帧11和帧13共同提供给实现根据一个或多个实施例的基于BRDNN的声学建模方法的声学模型。如上所述,使用该示例,如果第一参考帧i的值不是1,而是2,则第二语言的对应的帧将根据m×K+i被提取,以提取帧2、帧4、帧6、帧8、帧10、帧12和帧14。如上所述,还可使用用于选择从第一语音提取哪些帧以生成第二语音的可替换的方法。
因此,分数计算器230可通过将示例的第二语音的帧1、帧3、帧5、帧7、帧9、帧11和帧13中的每个输入到声学模型(例如,示例的基于BRDNN的声学建模方法)中,来针对第二语音的每个帧计算声学分数,例如,发音概率。
在计算第二语音的帧1、帧3、帧5、帧7、帧9、帧11和帧13的声学分数时,分数计算器230可以以如上所述的各种方式,来确定或计算第一语音的全部帧1至帧14的声学分数。
例如,下面的表1示出针对发音‘a’的第二语音中的一些帧(帧1、帧3和帧5)的计算的声学分数的结果,以及通过使用第二语音的声学分数对应确定或计算第一语音的帧1、帧2、帧3、帧4、帧5和帧6的声学分数。也就是说,在该示例中,第二语音的帧1、帧3和帧5的声学分数可被用于确定(即,相同地确定)第一语音的帧1、帧3和帧5的声学分数。第一语音的相邻帧2(即,直接与帧1和帧3(具有第二语音中的帧1和帧3的声学分数)相邻)的声学分数可被确定为具有与直接相邻的前一帧1的声学分数的值相同的值。可相同地实现相邻帧4和相邻帧6。
表1:
帧 | 第二语音的声学分数 | 第一语音的声学分数 |
1 | 0.6 | 0.6 |
2 | - | 0.6 |
3 | 0.2 | 0.2 |
4 | - | 0.2 |
5 | 0.4 | 0.4 |
6 | - | 0.4 |
下面的表2示出通过使用统计方法(例如,通过第二语音的声学分数的平均),针对发音‘a’使用第二语音中所表示的帧1、帧3和帧5计算第一语音的帧1至帧5的声学分数的可替换的计算方法。在此,第二语音的帧1、帧3和帧5的计算的声学分数可相同地用作第一语音的对应的帧1、帧3和帧5的声学分数。此外,为了计算帧2的声学分数,例如,可对第二语音的帧1和帧3的声学分数进行平均,可对第一语音的帧1和帧3的确定的声学分数进行平均,或者通过对来自第一语音或第二语音的各自的帧1的计算的或确定的声学分数和来自第一语音或第二语音的各自的帧3的计算的或确定的声学分数进行平均。同样地,可通过对第二语音或第一语音的帧3和帧5的声学分数进行平均,来计算第一语音的帧4的声学分数。可针对帧6执行相同的方法。
表2:
在一个示例中,例如,如上所述,可通过将语音的一些帧(即,少于语音的全部帧的帧)输入到示例的基于BRDNN的声学模型中,来快速地计算将被识别的语音的声学分数,然后,使用一些帧的计算的声学分数,来确定或计算全部帧的声学分数。
图5是示出根据一个或多个实施例的计算声学分数的方法的流程图。可通过计算声学分数的单独的设备或语音识别设备中的任意一个,来实现计算声学分数的方法。仅作为非限制性示例,可通过图2的设备200来实现计算声学分数的方法。因此,尽管将通过参照设备200来解释图5的方面,但是实施例不限于此。
参照图5,在510中,设备200可被提供、获取或接收将被识别的第一语音的输入。在第一语音是模拟信号的情况下,设备200可将模拟信号转换为数字信号,并且将数字信号组织或划分成语音帧,例如,连续的语音帧。
然后,在520中,设备200可提取在510中生成或获取的帧中的一些帧。提取的帧是为了输入到声学模型以计算它们各自的声学分数而选择的,少于在510中获取或生成的全部帧的选择帧。在提取帧时,设备200可根据预定的均匀间隔从第一语音的全部帧中一帧接一帧地提取帧,其中,预定的均匀间隔可控制从第一语音选择性地提取全部帧中的哪些帧以及从第一语音不提取全部帧中的哪些帧。此外,可选地,第一语音的帧可被划分、整理或分类成多个部分或组,可从每个部分或每组提取一个或多个帧。在此,部分和组可对应于这样的预定间隔,或者可基于其他因素,包括基于第一语音的每帧的确定的信号强度的一个或多个间隔。此外,使用该示例,相比于使用示例的小的确定的信号强度从部分或组提取选择的帧的数量,使用示例的大的确定的信号强度从部分或组提取选择的帧的数量可更多。确定的信号强度或者确定的相对大的信号强度或相对小的信号强度可基于(例如,涉及)确定的最大信号强度或确定的最小信号强度,以及基于预定阈值的这样的信号强度的比较,以将第一语音的帧划分为不同的部分或组,这仅作为示例。此外,不同讨论的用于选择性地提取第一语音的帧以确定第二语音的方法以及用于计算或确定第一语音的帧的声学分数的方法可在第一语音的全部帧中被不同地应用。
为了从第一语音选择性地提取帧,例如,第一语音的选择帧可根据预定间隔K被提取以包括在第二语音中,例如,结合示例,从第一语音的全部帧中选择性地提取帧1、帧K+1、帧2K+1、帧3K+1等,而不提取第一语音的剩余的帧。
然后,在530中,设备200可通过连接提取的帧来确定或生成第二语音。例如,提取的帧可根据它们在第一语音中的时间对应而在第二语音中作为直接排序的语音帧被连接,和/或连接性信息可被生成以在第二语音中相似地辨识提取的帧的这样的新的顺序。第二语音可被存储在设备200的存储器中,不进行存储而直接提供给一个或多个声学模型,或者来自第一语音的帧的相同的存储器或高速缓存可被用于根据示例的用于输入到声学模型的连接性信息,来选择性地读取或获取第二语音的提取的帧。
然后,在540中,设备200可通过使用一个或多个声学模型(例如,基于BRDNN的声学模型)来计算第二语音的声学分数。
接下来,在550中,设备200可基于第二语音的计算的声学分数,来确定和/或计算第一语音的全部帧的声学分数。
例如,与第二语音的帧对应的第一语音的一些帧的声学分数可被确定,例如,设备200将第二语音中的对应的帧的计算的声学分数用作第一语音中的对应的帧的声学分数。此外,在计算与第二语音的任何帧不对应的第一语音的相邻帧(例如,未被提取用于第二语音的并且可在第一语音的提取的帧之间的第一语音的帧)的声学分数时,设备200可使用在第一语音的相邻帧的两侧的第二语音的两个帧中的一个帧的声学分数,或者可使用第二语音的两个帧的声学分数的统计值。此外,设备200可计算相邻帧与两个帧之间的距离,并且可基于计算的距离,将两个帧中的一个帧的声学分数用作相邻帧的声学分数。此外,设备200可通过将权重值施加到两个帧的各自的声学分数,并且通过使用两个帧的施加了权重值的声学分数,来计算相邻帧的声学分数。在此,尽管描述了多个计算方法,但是基于第二语音的计算的声学分数的第一语音的声学分数的确定方法不限于此。
图6是示出根据一个或多个实施例的训练声学模型的设备的框图。
在一个示例中,用于训练声学模型的设备600可训练示例的基于BRDNN的声学模型,其中,该基于BRDNN的声学模型被语音识别设备(诸如,图1或图9的各自的语音识别设备100或900)和/或计算声学分数的设备(诸如,图2的设备200)所使用。此外,这样的设备200或者语音识别设备100或语音识别设备900还可包括这样的设备600,以按照下面进一步描述的那样来训练声学模型。
如上所述,在一个或多个实施例中,用于语音识别的声学模型通过使用声学模型选择性地仅计算输入语音的全部部分或全部帧中的一些帧的声学分数来计算声学分数,同时剩余的部分或帧的声学分数可在不被输入到声学模型的情况下,而是基于被输入到声学模型的部分或帧的计算的声学分数被确定或计算。因此,设备600可在这种声学模型如何被使用的期望下,训练声学模型。
参照图6,设备600包括,例如,帧集合提取器610、训练数据生成器620和模型训练器630。
帧集合提取器610可提取一个或多个帧集合,每个帧集合仅包括第一训练语音的全部帧中的一些帧。
例如,在第一训练语音的全部帧的总数量是N并且预定间隔被设置为K的情况下,帧集合提取器610可提取K个帧集合。在该情况下,第i个帧集合可包括第一训练语音的语音帧之中的各个第m×K+1(当i=1时)帧,其中,i的值是等于或大于1并且等于或小于K的任意整数,K的值是等于或大于2并且等于或小于N的任意整数,m的值是满足m×K+i的值等于或大于1并且等于或小于N的任意整数。例如,在N是10并且K是2的情况下,随着m从0增加到4,提取的第一帧集合(i=1)可包括帧1、帧3、帧5、帧7和帧9,并且提取的第二帧集合(i=2)可包括帧2、帧4、帧6、帧8和帧10。
可选地,帧集合提取器610可通过根据预定间隔将帧划分为多个部分或组,并且通过仅提取每个部分或每组中的一些帧,或者通过(诸如)在多个部分或组中的一个部分或组仅包括最小数量的帧或单个帧时仅提取帧的多个部分或组中的一个或多个部分或组中的一些帧,来构造帧集合。
然而,帧集合不限于此,并且可存在多个第一训练语音。在存在T个第一训练语音并且预定的提取间隔是K的情况下,可提取总共T×K个帧集合。如上所述,在从任意一第一语音提取一个或多个帧集合时,训练数据生成器620可通过顺序地连接在每个提取的帧集合中包括的帧,来生成每个帧集合的第二训练语音。此外,仅作为示例,在图2的设备200和图6的设备600被合并在同一电子装置中的示例中,图2的预处理器220可实现帧集合提取和训练语音生成,或者帧集合提取器610和训练数据生成器620可分别实现上面讨论的帧提取和第二语音生成。
模型训练器630可通过使用一个或多个生成的第二语音,来训练示例的基于BRDNN的声学模型。在一个或多个示例中,通过选择性提取以及训练声学模型,结合在语音识别期间选择性提取以及将帧输入到这样的声学模型,技术解决方案和/或改进以前的技术方案可被实现。
仅作为一个示例,设备600还可包括存储器或高速缓存640,帧集合提取器610可在存储器或高速缓存640中存储这样的提取的帧集合,并且训练数据生成器620和/或模型训练器630可从存储器或高速缓存640顺序地访问这样的提取的帧集合。可选地,这样的存储器或高速缓存可位于设备600的外部,诸如,包括在图1的语音识别设备100或者图9的语音识别设备900的其他地方,或者包括在远离语音识别设备100或900的对应的装置中,这再次仅作为示例。一个或多个实施例还可包括与语音识别设备100或900分开或者甚至远离语音识别设备100或900的设备600。
图7是示出根据一个或多个实施例的训练声学模型的方法的流程图。图8是示出根据一个或多个实施例的第二训练语音的生成(诸如,仅针对图7的第二训练语音的生成的示例)的流程图。
因此,可通过在此描述的任意一个设备来执行图7和图8的操作中的一个或多个操作。因此,尽管设备600将在下面被用于描述图7和图8中的声学模型的各个训练,但这是为了说明的目的,实施例不限于此。例如,图1、图2或图9的设备中的任意一个也可实现这样的一个或多个声学模型的训练和/或这样的第二训练语音的生成,再次注意实施例不限于此。
参照图7,在710中,用于训练声学模型的设备600可提取均包括少于任意一个第一训练语音中的全部帧的帧的一个或多个帧集合。
将参照图8进一步详细地描述710的提取帧集合的示例,应注意实施例不限于此。
设备600在810中将提取的参考帧i的值设置为1,并且在820中提取第一训练语音的第一帧集合。在此情况下,设备600在821中将m的值设置为0,并且在822中从第一训练语音的全部帧中提取第m×K+1帧,即,第一帧。然后,设备600在823中将m的值增加1,并且在824中确定m×K+i的值是否等于或小于N的值,其中,N是第一训练语音中的帧的总数。当在824中确定m×K+i的值等于或小于N时,处理返回822中的操作,当m×K+i的值大于N时,设备600在830中将i的值增加1以提取第一训练语音的下一个帧集合,并且在840中确定i的值是否等于或小于K。当在840中确定i的值等于或小于K,这表示存在将被提取的第一语音的下一个帧集合,并且设备600在820中提取下一个帧集合,然而,如果i的值大于K,则这表示不存在将被提取的下一个帧集合,并且处理结束。
因此,图8是示出针对一个第一训练语音提取K个帧集合的示例的流程图。然而,在存在多个第一训练语音的情况下,该处理可被重复,直到全部的第一训练语音的全部帧集合被完全提取,但是实施例不限于此。
返回参照图7,在从第一训练语音提取一个或多个帧集合时,在720中,设备600可通过连接在每个提取的帧集合中包括的各个提取的帧,来生成每个帧集合的一个第二训练语音。
然后,设备600可接着通过使用包括全部提取的帧集合中的全部提取的帧的生成的第二训练语音,来训练基于BRDNN的声学模型,或者可通过使用分别与提取的帧集合对应的一个或多个生成的第二训练语音,来连续地训练声学模型。
图9是示出根据一个或多个实施例的电子装置的框图。
参照图9,电子装置900可包括语音输入部分910、语音识别器920和处理器930。例如,语音输入部分910可包括麦克风,语音输入部分910可与用户接口(UI)940的这样的麦克风相结合地进行操作,或者响应于用户接口(UI)940的这样的麦克风进行操作,或者语音输入部分910可以是UI 940的部分。在一个或多个实施例中,语音识别器920可包括,例如,图1的语音识别设备100。可通过参照上面实施例中的任意一个来理解语音识别器920,从而其详细的描述将被省略。
语音输入部分910可接收通过麦克风输入的用户的音频信号。在一个或多个实施例中,用户的音频信号可以与将被翻译为另一语言的句子相关或者与用于控制TV、驱动车辆、智能语音/对话的命令等相关,这仅作为示例。因此,语音识别器920的各个声学模型和/或语言模型中的一个或多个可被生成为对不同语言建模,或者处理器930可包括和/或实现用于翻译的翻译/转换字典。
语音识别器920可将通过用户输入的模拟音频信号转换为数字信号,并且可将该数字信号划分为多个语音帧。
此外,语音识别器920可通过选择性地执行将用户的音频信号的全部帧输入到声学模型以及将少于用户的音频信号的全部帧的帧输入到相同的或不同的训练的声学模型中的一个或二者,来计算声学分数,并可通过使用计算的声学分数来相应地输出语音识别的结果。此外,当语音识别器920将少于用户的音频信号的全部帧的帧输入到这样的声学模型时,语音识别器920可通过仅提取输入的音频信号的全部帧中的一些帧,并且仅将提取的帧提供给示例的声学模型以具有由该声学模型计算的声学分数,来计算全部的语音帧的声学分数。例如,声学模型计算的提取的帧的声学分数可被用于确定或计算用户的输入音频信号中未输入到声学模型的剩余的帧的声学分数。以这样的方式,语音识别器920可,例如,相比于以前的技术方法,快速并且更加准确或有效地计算用户的音频信号的声学分数。语音识别器920还可被配置为包括图1、图2、图6和图9的语音识别设备中的任意一个、任意组合或全部。
语音识别器920可通过使用快速获得的声学模型并且通过使用采用这样的声学模型获得的结果来识别用户的语音,以文本格式输出语音识别结果。
处理器930还可响应于语音识别结果执行用户所期望的操作。例如,处理器930可通过由UI 940所表示的扬声器等,以语音的方式来输出由用户输入的语音的识别结果,或者可在由UI 940所表示的显示器上,以文本格式提供识别结果。此外,处理器930可执行用于处理关于电子设备900的命令(例如,电源开/关、音量控制等)的操作。此外,处理器930可基于识别的用户的语音,来执行安装在电子装置900中的应用,操作网页浏览器以浏览用户所期望的网站,或者使用***970(例如,GPS装置)执行映射操作。此外,处理器930可将语音识别结果翻译为另一种语言,并且可以以语音或文本格式来输出翻译的结果。然而,处理器930不限于此,而是可被用于其他各种应用。
此外,处理器930可,诸如,响应于将输入语音提供给语音输入部分910或语音识别器920以被语音识别器920识别的另一语音识别设备,来控制收发器950将语音识别的结果发送到另一外部装置或远程装置。收发器950是硬件,其中,该硬件可使用以下项中的任意一种通信方法来发送和/或接收数据:LAN、Wi-Fi、蓝牙、红外线数据协会(IrDA)、家庭射频、近场通信(NFC)、超宽带(UWB)、ZigBee、全球移动通信***、码分多址(CDMA)、长期演进(LTE)和无线宽带(WiBro)。收发器950还是如在此讨论的方法中描述的用于发送和接收通信数据的天线的代表。然而,收发器950所使用的通信方法不限于此,收发器950还可使用用于装置之间的通信的其他通信方法。在此,使用的术语“发送”可表示使用电子装置/图9的语音识别设备900的示例的收发器950、电子装置/图9的语音识别设备900的内部通信总线、或者所描述的组件、子组件或处理硬件元件之间的直接或内部的电互联,来发送信息。此外,在此描述的或提出的设备中的任意或全部可相似地包括这样的收发器、通信总线和/或电互联。此外,“发送”术语还可表示:将信息存储到底层装置、远程装置、组件、子组件或处理硬件元件的一个或多个高速缓存或存储器,将存储的信息提供给其他装置、组件、子组件或处理硬件元件,或通过其他装置、组件、子组件或处理硬件元件请求存储的信息,将存储的信息应用到其他装置、组件、子组件或处理硬件元件,和/或通过其他装置、组件、子组件或处理硬件元件从这样的一个或多个存储器获取存储的信息。
电子装置900可以是移动终端和/或可穿戴装置。这样的移动终端和/或可穿戴装置在UI 940中具有用户输入和输出硬件,其代表是:麦克风、显示/触摸屏、物理按键、扬声器、振动电机、相机,它们例如通过通信总线被内部连接到电子装置900的一个或多个处理器和存储器(诸如,存储器960)。虽然实施例可选择性地存在于UI 940包括这样的物理键盘和显示器的地方,但是图1至图8公开的语音识别和模型训练特征还可特别应用于通常不具有物理键盘以及为了用户文本/命令进入而仅具有有限的显示区域的可穿戴装置中。在识别用户的语音时,电子装置900的处理器930可响应于识别的语音完成命令(诸如,“给Frank发消息”、“天气怎么样?”、“捕获图片”、“开始记录”等),和/或可转录识别的语音,以方便交流,诸如,文本消息、电子邮件、各种即时通信等。
因此,仅作为非详尽的示例,在此描述的电子装置900可以是移动装置,诸如,蜂窝电话、智能电话、可穿戴智能装置(诸如,戒指、手表、眼镜、医疗装置、手镯、脚链、腰带、项链、耳环、头带、头盔、嵌入在衣服中的装置)、便携式个人计算机(PC)(诸如,膝上型计算机、笔记本、小型笔记本电脑、上网本、超移动PC(UMPC)、平板PC(平板))、平板手机、个人数字助理(PDA)、数码相机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持式电子书、全球定位***(GPS)导航装置、其他医疗装置、移动机器人、车辆电子装置、用户接口、或控制器、或传感器、或固定装置(诸如,台式PC、高清晰度电视(HDTV)、DVD播放器、蓝光播放器、机顶盒或家用电器)、或被配置为执行无线通信或网络通信的任意其他移动或固定装置。在一个示例中,可穿戴装置是被设计为可直接安装在用户的身体上的装置,诸如,眼镜或手镯。在另一示例中,可穿戴装置是使用附着装置安装在用户的身体上的任意装置,诸如,使用臂带附着到用户的手臂上或使用绳索悬挂环绕在用户的脖子上的智能电话或平板。
此外,存储器960可被用于存储被语音识别器920所使用的一个或多个生成的声学模型和/或语言模型。语音识别器920还可被配置为如上面关于图6至图8所描述的那样生成声学模型。存储器960是可存储可执行指令的非暂时性介质,可执行指令实现在此讨论的关于图1至图8的语音识别和/或声学模型生成中的任意一个。此外,存储器960还可以是,例如,图2的高速缓存240和图6的高速缓存640的代表,或者可对应于相同的讨论而被使用。
因此,通过被配置为执行本申请中描述的由硬件组件执行的操作的硬件组件,来实现图1、图2、图6和图9中的执行本申请中描述的操作的声学分数计算器110、语言分数计算器120、解码器130、语音输入部分210、预处理器220、分数计算器230、帧集合提取器610、训练数据生成器620、模型训练器630、语音输入部分910、语音识别器920、处理器930、***970、用户接口940、收发器950和存储器960。可被用于执行在本申请中的合适地描述的操作的硬件组件的示例包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中,通过计算硬件,例如,通过一个或多个处理器或计算机,来实现执行本申请中描述的操作的一个或多个硬件组件。可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或者被配置为以限定方式响应并执行指令以达到预期结果的任何其他装置或装置的组合)来实现处理器或计算机。在一个示例中,处理器或计算机包括或者被连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行指令或软件,诸如操作***(OS)和在OS上运行的一个或多个软件应用,以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行而访问、操控、处理、创建和存储数据。为了简化,单数术语“处理器”或“计算机”可被用于本申请中描述的示例的描述,但是,在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件,或包括二者。例如,可通过单个处理器、或者两个或更多个处理器、或者一个处理器和一个控制器,来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器或者一个处理器和一个控制器来实现一个或多个硬件组件,可通过一个或多个其他处理器或者另一处理器和另一控制器来实现一个或多个其他硬件组件。一个或多个处理器,或者一个处理器和一个控制可实现单个硬件组件,或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。
通过计算硬件(例如,通过一个或多个处理器或计算机)来执行图3至图5以及图7至图8中示出的执行本申请中所描述的操作的方法,其中,所述计算硬件被实现为如上所述地执行指令或软件,以执行本申请中描述的由该方法执行的操作。例如,可通过单个处理器、或者两个或更多个处理器、或者一个处理器和一个控制器来执行单个操作或者两个或更多个操作。可通过一个或多个处理器或者一个处理器和一个控制器来执行一个或多个操作,可通过一个或多个其他处理器或者另一处理器和另一控制器来执行一个或多个其他操作。一个或多个处理器或者一个处理器和一个控制器可执行单个操作,或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件并且执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或者它们的任何组合,以单独地或共同地指示或配置一个或多个处理器或计算机如机器或专用计算机一样进行工作,以执行由硬件组件执行的操作和如上所述的方法。在一个示例中,指令或软件包括直接地由一个或多个处理器或计算机执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的高级代码。可基于附图中所示的框图和流程图以及说明书中的相应描述,使用任意编程语言来编写指令或软件,其中,本说明书公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。
用于控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件和执行如上所述的方法的指令或软件,以及任何相关数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘,以及任何其他装置,其中,所述任何其他装置被配置为以非暂时性方式存储指令或软件以及任何相关数据、数据文件和数据结构,并且将指令或软件以及任何相关数据、数据文件和数据结构提供给一个或多个处理器或计算机,从而一个或多个处理器或计算机能执行指令。在一个示例中,指令或软件以及任何相关数据、数据文件和数据结构被分布在联网的计算机***上,从而指令或软件以及任何相关数据、数据文件和数据结构以分布的方式被一个或多个处理器或计算机存储、访问和执行。
仅作为非详尽示例,在此描述的终端/装置/设备可以是移动装置,诸如,蜂窝电话、智能电话、可穿戴智能装置(诸如,戒指、手表、眼镜、手镯、脚镯、腰带、项链、耳环、头带、头盔或嵌入在衣服中的装置)、便携式个人计算机(PC)(诸如,膝上型计算机、笔记本、小型笔记本电脑、上网本、超移动PC(UMPC)、平板PC(平板))、平板手机、个人数字助理(PDA)、数码相机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持式电子书、全球定位***(GPS)导航装置、或传感器、或固定装置(诸如,台式PC、高清晰度电视(HDTV)、DVD播放器、蓝光播放器、机顶盒或家用电器)、或被配置为执行无线通信或网络通信的任意其他移动或固定装置。在一个示例中,可穿戴装置是被设计为可直接安装在用户的身体上的装置,诸如,眼镜或者手镯。在另一示例中,可穿戴装置是使用附着装置安装在用户的身体上的任意装置,诸如,使用臂带附着到用户的手臂上或使用绳索悬挂环绕在用户的脖子上的智能电话或平板。
虽然本公开包括特定示例,但是,在理解本申请的公开之后将清楚,在不脱离权利要求及其等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。在此描述的示例应仅被理解为描述性意义,而不是为了限制的目的。对每个示例中的特征或方面的描述应被理解为可应用于其他示例中的类似的特征或方面。如果以不同的顺序执行所描述的技术,和/或如果所描述的***、构架、装置或电路中的组件以不同的方式来组合,和/或由其他组件或它们的等同物来替换或补充,则可获得合适的结果。因此,本公开的范围不是由详细描述来限定,而是由权利要求及其等同物来限定,并且在权利要求及其等同物的范围内的所有变化应被解释为被包括在本公开中。
Claims (41)
1.一种语音识别设备,所述语音识别设备包括:
预处理器,被配置为从用户的第一语音的全部帧提取选择帧;
分数计算器,被配置为:通过使用基于深度神经网络(DNN)的声学模型来计算由提取的选择帧构成的第二语音的声学分数,并且基于计算的第二语音的声学分数,来计算第一语音中除了选择帧之外的帧的声学分数。
2.如权利要求1所述的语音识别设备,其中,分数计算器在不使用声学模型执行除了选择帧之外的帧的声学建模的情况下,计算除了选择帧之外的帧的声学分数。
3.如权利要求1所述的语音识别设备,其中,声学模型是基于双向循环深度神经网络(BRDNN)的声学模型。
4.如权利要求1所述的语音识别设备,
其中,预处理器根据用于从第一语音分别间断地提取选择帧的一个或多个预定间隔来提取选择帧,并且使用提取的选择帧作为连接的语音来生成第二语音,
其中,分数计算器将提取的选择帧作为第二语音中的连接的语音共同地提供给声学模型。
5.如权利要求4所述的语音识别设备,还包括:包括预处理器和分数计算器的处理器,被配置为:
提取选择帧并且生成第二语音;
计算第二语音的声学分数;
基于计算的第二语音的声学分数,来计算除了选择帧之外的帧的声学分数;
基于由声学模型提供的计算的第二语音的帧的声学分数以及计算的除了选择帧之外的帧的声学分数,来识别第一语音。
6.如权利要求5所述的语音识别设备,其中,处理器还被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第一时间上不连续的语音帧的集合训练声学模型,来生成声学模型。
7.如权利要求6所述的语音识别设备,其中,处理器还被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第二时间上不连续的语音帧的集合进一步训练声学模型,来生成声学模型,第一时间上不连续的语音帧的集合具有与第二时间上不连续的语音帧的集合不同的一个或多个语音帧。
8.如权利要求1所述的语音识别设备,其中,预处理器根据预定的均匀间隔从第一语音的全部帧提取选择帧,将第一语音的全部帧划分为两个或更多个组并且从每个组提取一个或多个帧,或者根据基于第一语音的帧信号强度的确定的间隔,从第一语音的全部帧提取选择帧。
9.如权利要求8所述的语音识别设备,其中,预处理器从第一语音的全部N个帧,根据m×K+i来提取选择帧,其中,i是根据1≤i≤K的任意整数,K是根据2≤K≤N的任意整数,m是使得i≤m×K+i≤N的一个或多个整数,从而提取第一语音的各个第m×K+i帧。
10.如权利要求9所述的语音识别设备,其中,在K和i被保持的情况下,通过随着m在0与K-1之间增大而提取第一语音的各个第m×K+i帧,来生成第二语音。
11.如权利要求1所述的语音识别设备,其中,分数计算器将通过声学模型计算的第二语音的帧的声学分数用作与第二语音的帧对应的第一语音的各个帧的确定的声学分数,并且基于第二语音的帧的一个或多个声学分数和/或第一语音的各个帧的确定的声学分数中的一个或多个,来获得除了选择帧之外的帧中的一个帧的声学分数,其中,所述除了选择帧之外的帧中的一个帧作为相邻帧并且与第一语音的各个帧中的一个或多个帧相邻。
12.如权利要求11所述的语音识别设备,其中,分数计算器基于相邻帧与第一语音中的提取的选择帧中的时间上位于相邻帧的两侧的两个帧之间的确定的时间距离,使用两个帧中的任意一个帧的确定的声学分数,或者使用第二语音的两个对应的帧中的任意一个帧的计算的声学分数,作为相邻帧的声学分数。
13.如权利要求11所述的语音识别设备,其中,分数计算器使用基于第一语音中的提取的选择帧中的时间上位于相邻帧的两侧的两个帧的确定的声学分数的统计值,或者使用基于计算的与第一语音的两个帧对应的第二语音的两个帧的声学分数的统计值,作为相邻帧的声学分数,或者
分数计算器使用通过基于相邻帧与第一语音的两个帧之间的各个确定的时间距离,将权重值施加到第一语音的两个帧的各自的确定的声学分数或者施加到第二语音的两个帧的各自的计算的声学分数而获得的统计值,作为相邻帧的声学分数。
14.如权利要求1所述的语音识别设备,其中,通过使用基于从同一第一训练语音不同地提取的帧集合分别生成的一个或多个第二训练语音,来训练声学模型。
15.如权利要求14所述的语音识别设备,其中,预处理器被配置为:
从第一训练语音提取帧集合;
通过分别使用提取的帧集合来生成一个或多个第二训练语音;
通过使用生成的一个或多个第二训练语音来训练声学模型。
16.一种语音识别方法,所述语音识别方法包括:
接收将被识别的第一语音的输入;
从第一语音的全部帧提取一些帧;
通过使用提取的帧来生成第二语音;
通过使用基于深度神经网络(DNN)的声学模型来计算第二语音的声学分数;
基于计算的第二语音的声学分数来计算第一语音的声学分数。
17.如权利要求16所述的语音识别方法,其中,声学模型是基于双向循环深度神经网络(BRDNN)的声学模型。
18.如权利要求16所述的语音识别方法,其中,提取一些帧的步骤包括:根据预定的均匀间隔从第一语音的全部帧提取选择帧,将第一语音的全部帧划分为两个或更多个组,并且从每个组提取一个或多个选择帧,或者根据基于第一语音的帧的信号强度确定的间隔来提取选择帧。
19.如权利要求16所述的语音识别方法,其中,计算第一语音的声学分数的步骤包括:将第二语音的两个帧的声学分数用作与第二语音的两个帧对应的第一语音的两个帧的声学分数,并且将第二语音的两个帧的至少一个声学分数用于第一语音中的与第一语音的两个帧相邻的相邻帧的声学分数。
20.如权利要求19所述的语音识别方法,其中,计算第一语音的声学分数的步骤包括:基于相邻帧与第一语音中的时间上位于相邻帧的两侧的两个帧之间的确定的时间距离,使用第一语音的两个帧中的一个帧或第二语音的两个帧中的一个帧的声学分数,作为相邻帧的声学分数。
21.如权利要求19所述的语音识别方法,其中,计算第一语音的声学分数的步骤包括:使用第一语音的两个帧的声学分数或者第二语音的两个帧的声学分数的统计值,或者使用通过基于相邻帧与第一语音的两个帧之间的确定的时间距离,将权重值施加到第一语音的两个帧的声学分数或者施加到第二语音的两个帧的声学分数而获得的统计值,作为相邻帧的声学分数。
22.一种语音识别设备,所述语音识别设备包括:
帧集合提取器,被配置为:提取一个或多个帧集合,每个帧集合不同地包括少于输入的第一训练语音的全部帧的帧;
训练数据生成器,被配置为:通过分别使用提取的一个或多个帧集合,来生成一个或多个第二训练语音;
模型训练器,被配置为:通过使用生成的一个或多个第二训练语音,来训练声学模型。
23.如权利要求22所述的语音识别设备,其中,声学模型是基于双向循环深度神经网络(BRDNN)的声学模型。
24.如权利要求23所述的语音识别设备,还包括:处理器,包括帧集合提取器、训练数据生成器和模型训练器,处理器还被配置为:
从用于识别的用户的第一语音提取选择帧;
使用提取的选择帧来生成第二语音;
使用通过声学模型计算的第二语音的声学分数,基于计算的第一语音的除了选择帧之外的帧的声学分数,来识别第一语音。
25.如权利要求22所述的语音识别设备,其中,帧集合提取器从第一训练语音的全部N个帧,根据m×K+i来提取每个第i帧集合,其中,i是1≤i≤K的任意整数,K是2≤K≤N的任意整数,m是i≤m×K+i≤N的任意整数。
26.一种语音识别方法,所述语音识别方法包括:
提取一个或多个帧集合,每个帧集合不同地包括少于输入的第一训练语音的全部帧的帧;
通过使用提取的一个或多个帧集合,来生成一个或多个第二训练语音;
通过使用生成的一个或多个第二训练语音,来训练声学模型。
27.如权利要求26所述的语音识别方法,其中,声学模型是基于双向循环深度神经网络(BRDNN)的声学模型。
28.如权利要求26所述的语音识别方法,其中,提取帧集合的步骤包括:
将参考帧i的值i设置为1,并且将K的值设置为预定的整数;
从第一训练语音的全部帧,提取包括通过将m的值从0逐步增加1获得的各个第m×K+i帧的第i帧集合;
将i增加1,在增加之后,响应于i不大于K的值,重复第i帧集合的提取,而响应于i大于K的值,终止提取所述一个或多个帧集合的步骤。
29.一种语音识别设备,所述语音识别设备包括:
处理器,被配置为:
从用户的第一语音的全部帧识别选择帧;
通过将作为合并的语音的少于第一语音的全部帧的识别的选择帧的信息提供给声学模型,来计算识别的选择帧的各个声学分数;
基于计算的识别的选择帧的各个声学分数中的一个或多个,来计算第一语音中除了识别的选择帧之外的帧的各个声学分数。
30.如权利要求29所述的语音识别设备,其中,识别选择帧包括:根据一个或多个预定间隔,从第一语音的全部帧提取识别的选择帧,所述一个或多个间隔用于从第一语音分别间断地提取帧,以作为连接的第二语音共同地提供给声学模型。
31.如权利要求29所述的语音识别设备,其中,处理器还被配置为:基于计算的提取的选择帧的各个声学分数以及计算的除了提取的选择帧之外的帧的各个声学分数,来识别第一语音。
32.如权利要求31所述的语音识别设备,其中,计算提取的选择帧的各个声学分数包括:将第一语音的识别的选择帧的各个声学分数确定为具有与通过将第二语音提供给声学模型计算的提取的选择帧的时间上对应相同的帧的声学分数相同的各个声学分数。
33.如权利要求29所述的语音识别设备,其中,声学模型是使用来自训练数据的时间上连续的语音帧的第一时间上不连续的语音帧的集合训练的声学模型。
34.如权利要求33所述的语音识别设备,其中,声学模型是使用来自训练数据的时间上连续的语音帧的第二时间上不连续的语音帧的集合进一步训练的声学模型,第一时间上不连续的语音帧的集合具有与第二时间上不连续的语音帧的集合不同的一个或多个语音帧。
35.如权利要求34所述的语音识别设备,其中,处理器还被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第一时间上不连续的语音帧的集合,并且使用由处理器从训练数据的时间上连续的语音帧提取的第二时间上不连续的语音帧的集合训练声学模型,来生成声学模型。
36.如权利要求34所述的语音识别设备,其中,第一时间上不连续的语音帧的集合包括表示被确定为不同地分类的信号强度的帧。
37.如权利要求34所述的语音识别设备,其中,第一时间上不连续的语音帧的集合包括:表示与第二时间上不连续的语音帧的集合所表示的信号强度的组不同地分类的信号强度的组的帧。
38.如权利要求29所述的语音识别设备,其中,从第一语音的全部帧选择性地识别的帧根据一个或多个预定间隔被识别,所述一个或多个预定间隔用于从第一语音分别间断地提取选择帧,以提供给声学模型。
39.如权利要求29所述的语音识别设备,其中,将识别的选择帧提供给声学模型包括:将识别的选择帧作为连接的第二语音共同地提供给深度神经网络DNN声学模型。
40.如权利要求39所述的语音识别设备,其中,DNN声学模型是基于双向循环深度神经网络(BRDNN)的声学模型。
41.如权利要求29所述的语音识别设备,还包括:存储器,被配置为存储指令,
其中,处理器还被配置为:执行所述指令,以配置处理器执行选择帧的识别、识别的选择帧的各个声学分数的计算以及除了识别的选择帧之外的帧的各个声学分数的计算。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150140646A KR102423302B1 (ko) | 2015-10-06 | 2015-10-06 | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 |
KR10-2015-0140646 | 2015-10-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106560891A true CN106560891A (zh) | 2017-04-12 |
CN106560891B CN106560891B (zh) | 2022-03-08 |
Family
ID=57103920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610881662.3A Active CN106560891B (zh) | 2015-10-06 | 2016-10-09 | 使用声学建模的语音识别设备和方法 |
Country Status (4)
Country | Link |
---|---|
US (3) | US10074361B2 (zh) |
EP (1) | EP3154053B1 (zh) |
KR (1) | KR102423302B1 (zh) |
CN (1) | CN106560891B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107978315A (zh) * | 2017-11-20 | 2018-05-01 | 徐榭 | 基于语音识别的对话式放射治疗计划***及制定方法 |
CN109147773A (zh) * | 2017-06-16 | 2019-01-04 | 上海寒武纪信息科技有限公司 | 一种语音识别装置和方法 |
CN109313892A (zh) * | 2017-05-17 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和*** |
CN109697977A (zh) * | 2017-10-23 | 2019-04-30 | 三星电子株式会社 | 语音识别方法和设备 |
WO2019233228A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 电子设备及设备控制方法 |
CN112420050A (zh) * | 2020-11-18 | 2021-02-26 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
CN112700778A (zh) * | 2019-10-22 | 2021-04-23 | 三星电子株式会社 | 语音识别方法和语音识别设备 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
WO2018053537A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Improvements of speaker recognition in the call center |
AU2017327003B2 (en) | 2016-09-19 | 2019-05-23 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10553218B2 (en) | 2016-09-19 | 2020-02-04 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
US11354536B2 (en) * | 2017-07-19 | 2022-06-07 | Audiotelligence Limited | Acoustic source separation systems |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
KR102676221B1 (ko) | 2017-10-23 | 2024-06-19 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
US11355103B2 (en) | 2019-01-28 | 2022-06-07 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
WO2020198354A1 (en) * | 2019-03-25 | 2020-10-01 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
US11823698B2 (en) | 2020-01-17 | 2023-11-21 | Audiotelligence Limited | Audio cropping |
US11404051B2 (en) * | 2020-05-21 | 2022-08-02 | Bank Of America Corporation | Textual analysis system for automatic language proficiency assessment |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0903730A2 (en) * | 1997-09-22 | 1999-03-24 | Nortel Networks Corporation | Search and rescoring method for a speech recognition system |
WO2001065541A1 (fr) * | 2000-02-28 | 2001-09-07 | Sony Corporation | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement |
US6314414B1 (en) * | 1998-10-06 | 2001-11-06 | Pavilion Technologies, Inc. | Method for training and/or testing a neural network with missing and/or incomplete data |
WO2004057573A1 (en) * | 2002-12-23 | 2004-07-08 | Loquendo S.P.A. | Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames |
CN101515456A (zh) * | 2008-02-18 | 2009-08-26 | 三星电子株式会社 | 语音识别接口装置及其语音识别方法 |
CN102486922A (zh) * | 2010-12-03 | 2012-06-06 | 株式会社理光 | 说话人识别方法、装置和*** |
JP5166195B2 (ja) * | 2008-10-14 | 2013-03-21 | 日本電信電話株式会社 | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2996926B2 (ja) | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
JP4219543B2 (ja) | 2000-09-19 | 2009-02-04 | 日本放送協会 | 音声認識用音響モデル生成装置および記録媒体 |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
US20080300875A1 (en) * | 2007-06-04 | 2008-12-04 | Texas Instruments Incorporated | Efficient Speech Recognition with Cluster Methods |
KR101666521B1 (ko) | 2010-01-08 | 2016-10-14 | 삼성전자 주식회사 | 입력 신호의 피치 주기 검출 방법 및 그 장치 |
KR20140028174A (ko) | 2012-07-13 | 2014-03-10 | 삼성전자주식회사 | 음성 인식 방법 및 이를 적용한 전자 장치 |
WO2014064324A1 (en) * | 2012-10-26 | 2014-05-01 | Nokia Corporation | Multi-device speech recognition |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
JP2014142465A (ja) | 2013-01-23 | 2014-08-07 | Canon Inc | 音響モデル生成装置及び方法、並びに音声認識装置及び方法 |
KR102191306B1 (ko) * | 2014-01-22 | 2020-12-15 | 삼성전자주식회사 | 음성 감정 인식 시스템 및 방법 |
US9520128B2 (en) * | 2014-09-23 | 2016-12-13 | Intel Corporation | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition |
US10529318B2 (en) * | 2015-07-31 | 2020-01-07 | International Business Machines Corporation | Implementing a classification model for recognition processing |
-
2015
- 2015-10-06 KR KR1020150140646A patent/KR102423302B1/ko active IP Right Grant
-
2016
- 2016-09-28 US US15/278,651 patent/US10074361B2/en active Active
- 2016-10-06 EP EP16192602.7A patent/EP3154053B1/en active Active
- 2016-10-09 CN CN201610881662.3A patent/CN106560891B/zh active Active
-
2018
- 2018-08-09 US US16/059,141 patent/US10607603B2/en active Active
-
2020
- 2020-02-20 US US16/795,827 patent/US11176926B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0903730A2 (en) * | 1997-09-22 | 1999-03-24 | Nortel Networks Corporation | Search and rescoring method for a speech recognition system |
US6314414B1 (en) * | 1998-10-06 | 2001-11-06 | Pavilion Technologies, Inc. | Method for training and/or testing a neural network with missing and/or incomplete data |
WO2001065541A1 (fr) * | 2000-02-28 | 2001-09-07 | Sony Corporation | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement |
WO2004057573A1 (en) * | 2002-12-23 | 2004-07-08 | Loquendo S.P.A. | Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames |
CN101515456A (zh) * | 2008-02-18 | 2009-08-26 | 三星电子株式会社 | 语音识别接口装置及其语音识别方法 |
JP5166195B2 (ja) * | 2008-10-14 | 2013-03-21 | 日本電信電話株式会社 | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
CN102486922A (zh) * | 2010-12-03 | 2012-06-06 | 株式会社理光 | 说话人识别方法、装置和*** |
Non-Patent Citations (4)
Title |
---|
FINKE 等: ""Modeling and efficient decoding of large vocabulary conversational speech"", 《INTERACTIVE SYSTEMS》 * |
INCHUL SONG: ""Dynamic Frame Skipping for Fast Speech Recognition in Recurrent Neural Network Based Acoustic Models "", 《2018IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC,SPEECH AND SIGNAL PROCESSING》 * |
VINCENT VANHOUCKE 等: ""Multiframe deep neural networks for acoustic modeling"", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC, SPEECH AND SIGNAL PROCESSING》 * |
冯志愿: ""基于模板匹配的语音样例快读检索技术研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313892A (zh) * | 2017-05-17 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和*** |
CN109313892B (zh) * | 2017-05-17 | 2023-02-21 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和*** |
CN109147773A (zh) * | 2017-06-16 | 2019-01-04 | 上海寒武纪信息科技有限公司 | 一种语音识别装置和方法 |
CN109697977A (zh) * | 2017-10-23 | 2019-04-30 | 三星电子株式会社 | 语音识别方法和设备 |
CN109697977B (zh) * | 2017-10-23 | 2023-10-31 | 三星电子株式会社 | 语音识别方法和设备 |
CN107978315A (zh) * | 2017-11-20 | 2018-05-01 | 徐榭 | 基于语音识别的对话式放射治疗计划***及制定方法 |
CN107978315B (zh) * | 2017-11-20 | 2021-08-10 | 徐榭 | 基于语音识别的对话式放射治疗计划***及制定方法 |
WO2019233228A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 电子设备及设备控制方法 |
CN112700778A (zh) * | 2019-10-22 | 2021-04-23 | 三星电子株式会社 | 语音识别方法和语音识别设备 |
CN112420050A (zh) * | 2020-11-18 | 2021-02-26 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3154053A1 (en) | 2017-04-12 |
EP3154053B1 (en) | 2018-12-26 |
CN106560891B (zh) | 2022-03-08 |
US20200193974A1 (en) | 2020-06-18 |
US10607603B2 (en) | 2020-03-31 |
US20170098444A1 (en) | 2017-04-06 |
US10074361B2 (en) | 2018-09-11 |
US20180350352A1 (en) | 2018-12-06 |
US11176926B2 (en) | 2021-11-16 |
KR20170041105A (ko) | 2017-04-14 |
KR102423302B1 (ko) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106560891A (zh) | 使用声学建模的语音识别设备和方法 | |
WO2020182153A1 (zh) | 基于自适应语种进行语音识别的方法及相关装置 | |
CN108304846B (zh) | 图像识别方法、装置及存储介质 | |
EP3133595B1 (en) | Speech recognition | |
US9911409B2 (en) | Speech recognition apparatus and method | |
CN106328127A (zh) | 语音识别设备,语音识别方法和电子装置 | |
US11556302B2 (en) | Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium | |
CN106816148A (zh) | 语音识别设备和方法 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN107590135A (zh) | 自动翻译方法、设备和*** | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN107729324A (zh) | 基于并行处理的翻译方法和设备 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN107257996A (zh) | 环境敏感自动语音识别的方法和*** | |
CN109036391A (zh) | 语音识别方法、装置及*** | |
CN109117952B (zh) | 一种基于深度学习的机器人情感认知的方法 | |
CN109801618A (zh) | 一种音频信息的生成方法和装置 | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
CN109801349A (zh) | 一种声音驱动的三维动画角色实时表情生成方法和*** | |
CN107274903A (zh) | 文本处理方法和装置、用于文本处理的装置 | |
KR20200095947A (ko) | 전자 장치 및 이의 제어 방법 | |
CN115688937A (zh) | 一种模型训练方法及其装置 | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN111161724B (zh) | 中文视听结合语音识别方法、***、设备及介质 | |
Kuo et al. | DNAE-GAN: Noise-free acoustic signal generator by integrating autoencoder and generative adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |