CN105869641A

CN105869641A - 语音识别装置及语音识别方法

Info

Publication number: CN105869641A
Application number: CN201510032839.8A
Authority: CN
Inventors: 郭莉莉
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2016-08-17

Abstract

本发明公开了语音识别装置及语音识别方法。所述语音识别装置包括：被构造为获得由当前用户输入的语音的单元；被构造为分割所获得的语音并输出至少两个声音命令段的单元；被构造为通过使用与说话者无关的声学模型、来从声音命令段中识别预定义的第一声音命令的单元；被构造为基于被识别为所述预定义的第一声音命令的声音命令段、来计算针对所述当前用户的变换矩阵的单元；被构造为基于所计算出的变换矩阵、来从注册在所述语音识别装置中的声学模型中选择针对所述当前用户的声学模型的单元；以及被构造为通过使用所选择的声学模型、来从声音命令段中识别第二声音命令的单元。根据本发明，通过使用所选择的AM能够提高语音识别性能。

Description

语音识别装置及语音识别方法

技术领域

本发明涉及语音识别装置及语音识别方法。

背景技术

语音识别***为用户提供了方便的接口，通过该接口，用户能够与具有语音识别功能的任意数量的电子设备进行交互。对于用户操作诸如多功能打印机(MFP)、照相机、个人数据助理(PDA)及移动电话等的电子设备，声音命令识别技术是最方便的方式。用户可以经由诸如麦克风等的语音输入设备，将自己的语音直接输入到电子设备中，然后，通过使用声音命令识别技术，用户的语音将被转换成声音命令来操作电子设备。

一般而言，应当预先注册或训练用于声音命令识别的声学模型(AM)，但是，注册或训练AM是耗时的，并且有许多用户不愿意进行这些操作。作为应对该问题的措施，如下的技术是可用的：从其他用户和/或其他电子设备的现有AM中选择一组AM。例如，美国专利第7,103,549号公开了如下的方法：基于用户的个人属性以及/或者通信信道属性，来从现有AM中选择AM，并且利用所选择的AM来进行语音识别，以提高用户的语音识别性能。用户的个人属性包括性别、母语、年龄、种族及家乡等。并且，信道属性包括连接类型、电话型号、网络标识符、网络属性及背景噪声水平等。

然而，在上述的美国专利第7,103,549号中，当用户最初在电子设备中设置帐户时，或者当用户与电子设备进行初始会话时，获取用户的个人属性以及信道属性。因此，个人属性及信道属性不能反映用户的瞬时声音属性以及瞬时环境属性，例如咳嗽引起的声音变化、汽车突然穿过马路等，因而，基于这些属性而选择的AM会降低用户的语音识别性能。

发明内容

因此，鉴于以上在背景技术中的陈述，本发明要解决的问题是从其他用户和/或其他电子设备的现有AM中为当前用户选择一组AM，其中，所选择的AM能够良好地匹配当前用户的瞬时声音属性以及瞬时环境属性，使得通过使用所选择的AM，能够提高当前用户的语音识别性能。

根据本发明的一个方面，提供了一种语音识别装置，该语音识别装置包括：语音输入单元，其被构造为获得由当前用户输入的语音；语音分割单元，其被构造为分割所获得的语音并输出至少两个声音命令段；预定义第一声音命令识别单元，其被构造为通过使用与说话者无关的声学模型，来从声音命令段中识别预定义的第一声音命令；变换矩阵计算单元，其被构造为基于被识别为所述预定义的第一声音命令的声音命令段，来计算针对所述当前用户的变换矩阵，其中，所计算出的变换矩阵能够使所述与说话者无关的声学模型与被识别为所述预定义的第一声音命令的声音命令段匹配；模型选择单元，其被构造为基于所计算出的变换矩阵，来从注册在所述语音识别装置中的声学模型中选择针对所述当前用户的声学模型；以及第二声音命令识别单元，其被构造为通过使用所选择的声学模型，来从声音命令段中识别第二声音命令。

根据本发明的另一方面，提供了一种语音识别方法，该语音识别方法包括：语音输入步骤，获得由当前用户在语音识别装置中输入的语音；语音分割步骤，分割所获得的语音并输出至少两个声音命令段；预定义第一声音命令识别步骤，通过使用与说话者无关的声学模型，来从声音命令段中识别预定义的第一声音命令；变换矩阵计算步骤，基于被识别为所述预定义的第一声音命令的声音命令段，来计算针对所述当前用户的变换矩阵，其中，所计算出的变换矩阵能够使所述与说话者无关的声学模型与被识别为所述预定义的第一声音命令的声音命令段匹配；模型选择步骤，基于所计算出的变换矩阵，来从注册在所述语音识别装置中的声学模型中选择针对所述当前用户的声学模型；以及第二声音命令识别步骤，通过使用所选择的声学模型，来从声音命令段中识别第二声音命令。

如上所述，由于基于由当前用户瞬时输入的语音而分割的声音命令段中的一部分(即上述被识别为预定义的第一声音命令的声音命令段)，来计算变换矩阵，因此，计算出的变换矩阵能够代表当前用户及当前环境的属性，其中，当前用户的属性可以是当前用户的发音属性以及当前用户的声音变化属性等，并且当前环境的属性可以是当前语音的噪声属性以及当前语音的通信信道属性等。由此，基于变换矩阵而选择的AM能够良好地匹配当前用户的瞬时声音属性以及瞬时环境属性，并且，通过使用所选择的AM能够提高当前用户的语音识别性能。

通过以下参照附图的描述，本发明进一步的特征及优点将变得显而易见。

附图说明

被并入本说明书并构成本说明书的一部分的附图例示了本发明的实施例，并且与文字描述一起用来说明本发明的原理。

图1是示出根据本发明的、包括具有语音识别功能的若干种电子设备的语音识别***的整体结构的框图。

图2是例示根据本发明的示例性实施例的、具有语音识别功能的电子设备的内部结构的示例的第一框图。

图3是根据本发明的第一示例性实施例的、与电子设备的语音输入单元有关的语音识别的内部功能的框图。

图4是根据本发明的第一示例性实施例的、图3中所示的模型选择单元的内部功能的框图。

图5是根据本发明的第二示例性实施例的、与电子设备的语音输入单元有关的语音识别的内部功能的框图。

图6是例示根据本发明的示例性实施例的、具有语音识别功能的电子设备的内部结构的另一示例的第二框图。

图7是根据本发明的第一示例性实施例的、与电子设备的语音输入单元有关的语音识别操作的流程图。

图8示意性地示出了根据本发明的第一示例性实施例的、用于选择基于音素(phoneme)的AM的步骤的流程图。

图9示意性地示出了根据本发明的第一示例性实施例的、用于选择基于命令词的AM的步骤的流程图。

图10是根据本发明的第二示例性实施例的、与电子设备的语音输入单元有关的语音识别操作的流程图。

具体实施方式

下面，将参照附图来详细描述本发明的示例性实施例。应当指出，以下的描述实质上仅是说明性和示例性的，并且决不意在限制本发明及其应用或用途。在实施例中陈述的各构成要素及步骤的相对布置、数值表达式以及数值并不限定本发明的范围，除非另外特别说明。此外，本领域的技术人员已知的技术、方法及设备可以不作详细讨论，但在适当的情况下应当作为本说明书的一部分。

请注意，类似的附图标记及字母指代图中的类似项目，因而，一旦项目在一个图中被定义，则对于之后的图不需要再讨论该项目。

如图1所示，语音识别***100配备有具有语音识别功能的任何种类的电子设备，例如MFP 1、照相机2、PDA 3、移动电话4、个人计算机(PC)5以及任何其他种类的电子设备6，并且这些电子设备经由网络7彼此可通信地连接。要连接到网络7的电子设备的类型及数量并不限定于图1中所示的情况。语音识别***100中的任何电子设备均被构造为接收用户的语音，并且基于语音识别功能，从该语音中识别用来操作该电子设备的相应声音命令。

上述的语音识别功能可以通过硬件和/或软件来实现。在一种实现方式中，可以向电子设备中并入能够执行语音识别的功能模块或功能装置，因而，该电子设备将具有相应的语音识别功能。在另一实现方式中，可以在电子设备的存储设备中存储能够执行语音识别的软件程序，因而，电子设备也将具有相应的语音识别功能。下面，将参照附图来详细描述上述两种实现方式。

(并入到电子设备中的语音识别装置)

图2是例示根据本发明的示例性实施例的、诸如图1中的MFP 1等的具有语音识别功能的电子设备1的内部结构的示例的第一框图，其中，向电子设备1(即MFP 1)中，并入了在下文中将参照图3～5详细描述的语音识别装置。电子设备1可以包括中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、硬盘104、输入设备105、语音识别装置106、操作单元107、输出设备108及网络接口109，并且这些部件经由***总线110彼此可通信地连接。

CPU 101可以是任何适合的可编程控制设备，并且能够通过执行存储在ROM 103或硬盘104中的各种应用程序，来执行后述的各种功能。RAM 102用来临时地存储从ROM 103或硬盘104中加载的程序或数据，并且还用作CPU 101用以执行各种程序的空间。硬盘104可以存储许多种类的信息，例如操作***(OS)、各种应用、控制程序、数据、与说话者无关的声学模型(SI-AM)以及由用户注册或训练的AM等。此外，可以在ROM 103或硬盘104中，存储由制造商预先注册或训练的AM。

输入设备105可以包括操作输入设备115及语音输入单元125，并且，输入设备105能够使用户基于通过操作输入设备115输入的操作或者通过语音输入单元125输入的语音帧，来与电子设备1进行交互。操作输入设备115可以采用诸如按钮、小键盘、转盘、触控轮或触摸屏等的各种形式。并且，语音输入单元125可以是麦克风。

根据在下文中将详细描述的本发明的实施例，语音识别装置106将从语音输入单元125接收用户的语音，并且将从接收到的语音中，来识别相应的声音命令或者相应的语音内容。

操作单元107将执行与识别出的声音命令相对应的操作。输出设备108可以包括显示设备118及语音输出单元128，并且，输出设备108可以显示或输出识别出的声音命令以及/或者识别出的语音内容。

例如，当语音识别装置106从接收到的语音中识别出声音命令时，操作单元107将执行电子设备1的相应操作，例如打印、复印、扫描以及发送电子邮件等。并且，作为可选的操作，在操作单元107执行相应的操作之前，显示设备118可以显示识别出的声音命令以获得用户的确认，并且/或者语音输出单元128可以输出识别出的声音命令以获得用户的确认。

显示设备118可以包括阴极射线管(CRT)或液晶显示器，并且，语音输出单元128可以配设有诸如扬声器等的音频输出设备。此外，操作输入设备115和显示设备118可以被整体地并入或者分离地并入。

网络接口109提供如下的接口，该接口用于将电子设备1连接到图1中所示的网络7。电子设备1经由网络接口109，来与经由网络7连接的其他电子设备(诸如照相机2、PDA 3)进行数据通信(诸如共享AM)。作为另一选择，可以为电子设备1配设无线接口，以进行无线数据通信。***总线110可以提供如下的数据传送路径，该数据传送路径用于与如下的部件之间或者在如下的部件之间相互传送数据，所述部件为CPU101、RAM 102、ROM 103、硬盘104、输入设备105、语音识别装置106、操作单元107、输出设备108及网络接口109等。虽然被称为总线，但是，***总线110并不限定于任何特定的数据传送技术。

对于语音识别装置106而言，在图3中示出了语音识别装置106的内部功能单元的第一示例。图3是根据本发明的第一示例性实施例的、与电子设备1的图2中的语音输入单元125有关的语音识别的内部功能的框图。当CPU 101执行存储在ROM 103和/或硬盘104中的程序时，下面的功能单元得以实现。

在用户操作电子设备1之前，用户需要利用诸如通过IC卡登录以及通过指纹识别登录等的任意种类的登录方法，来登录电子设备1。然后，CPU 101将从ROM 103和/或硬盘104中，将AM集以及命令词列表加载至RAM 102，其中，所述命令词列表可以由电子设备1基于自身的操作来自动设置，或者可以由用户或制造商基于电子设备1的操作来设置，例如，如果电子设备1能够操作打印、复印及扫描，则所述命令词列表可以包含“打印”、“复印”、“扫描”、“两份”及“双面”等命令词。如果用户曾经使用过电子设备1，并且注册了预先存储在硬盘104中的一些AM，则CPU 101将加载用户的注册的AM，作为上述被加载的AM集。否则，上述被加载的AM集是空集。

对于本领域技术人员显而易见的是，存在两种类型的AM，一种类型是基于音素的AM，并且另一类型是基于命令词的AM。一方面，当在语音识别装置106中使用的AM是基于音素的AM时，用户或CPU 101将进行如下的验证，即在加载的AM集中的基于音素的AM，是否涵盖命令词列表中的命令词的全部音素。如果在加载的AM集中的基于音素的AM涵盖命令词列表中的命令词的全部音素，则在用户通过输入包含预定义的第一声音命令的语音、而启动语音识别装置106之后，语音识别装置106将利用加载的AM集来执行语音识别。否则，如果在加载的AM集中的基于音素的AM未涵盖命令词列表中的命令词的全部音素，则语音识别装置106将根据本发明，来选择能够涵盖命令词列表中的命令词的全部音素的音素集的基于音素的AM，并且将把所选择的音素集的基于音素的AM，添加到加载的AM集中，然后，语音识别装置106将利用所选择的音素集的基于音素的AM来执行语音识别。

另一方面，当在语音识别装置106中使用的AM是基于命令词的AM时，用户或CPU 101将进行如下的验证，即在加载的AM集中的基于命令词的AM，是否涵盖命令词列表中的全部的命令词。如果在加载的AM集中的基于命令词的AM涵盖命令词列表中的全部的命令词，则在用户启动语音识别装置106之后，语音识别装置106将利用加载的AM集来执行语音识别。否则，如果在加载的AM集中的基于命令词的AM未涵盖命令词列表中的全部的命令词，则语音识别装置106将根据本发明，针对命令词列表中的各个或一些命令词来选择基于命令词的AM，并且将把所选择的基于命令词的AM添加到加载的AM集中，然后，语音识别装置106将利用所选择的基于命令词的AM来执行语音识别。本领域技术人员能够理解的是，直到在用户输入的语音中存在预定义的第一声音命令，语音识别装置106才将执行语音识别。预定义的第一声音命令可以由电子设备1自动地预定义，或者可以由用户来设置。例如，预定义的第一声音命令可以是如下的预定义的引导词，该引导词由诸如“start”(开始)及“start…end”(开始…结束)等的任意词或一组任意词组成。

现在，将在下面描述能够执行本发明的语音识别装置106的内部功能单元的第一示例。如图3所示，语音识别装置106包括语音分割单元302、预定义的第一声音命令识别单元303、变换矩阵计算单元304、模型选择单元305及第二声音命令识别单元306。

具体而言，电子设备1的语音输入单元125将获得由当前用户输入的语音。

语音分割单元302将从语音输入单元125接收获得的语音，然后将利用本领域公知的任何种类的语音端点检测(VAD)技术，诸如基于短时能量的时域方法以及基于频域参数的变换域方法等，来分割获得的语音并输出至少两个声音命令段。如上所述，直到获得的语音包含预定义的第一声音命令，语音识别装置106才执行语音识别，因此，为了使电子设备1执行诸如打印及复印等的相应操作，获得的语音必须包含至少两个声音命令，其中，一个声音命令用于识别预定义的第一声音命令，并且另一个用于操作电子设备1。例如，在当前用户想要利用电子设备1来打印文档时，获得的语音可以是“开始打印”。

对于本领域技术人员显而易见的是，语音的当前环境不可能是绝对安静的，换言之，输入的语音可能包含当前用户输入语音的当前环境周围的声音，因此除了上述的至少两个声音命令段之外，语音分割单元302的输出还将包括至少一个背景声音段，其中，背景声音段能够反映输入的语音的当前环境，诸如办公室周围的声音、幼儿园周围的声音以及街道周围的声音等。

预定义第一声音命令识别单元303将通过使用与说话者无关的声学模型(SI-AM)310，来从输出自语音分割单元302的声音命令段中识别预定义的第一声音命令，其中，SI-AM例如可以被存储在图2中的电子设备1的硬盘104中。

变换矩阵计算单元304将基于在预定义第一声音命令识别单元303中被识别为预定义的第一声音命令的声音命令段，来计算针对当前用户的变换矩阵。此外，如上所述，由于语音的当前环境不可能是绝对安静的，因此，变换矩阵计算单元304将基于背景声音段以及被识别为预定义的第一声音命令的声音命令段，来计算针对当前用户的变换矩阵。

如上所述，由于基于由当前用户瞬时输入的语音而分割的声音命令段中的一部分(即上述被识别为预定义的第一声音命令的声音命令段)来计算变换矩阵，并且还可以基于声音命令段中的一部分以及背景声音段来计算变换矩阵，因此，计算出的变换矩阵能够代表当前用户及当前环境的属性，其中，当前用户的属性可以是当前用户的发音属性、以及当前用户的声音变化属性等，并且当前环境的属性可以是当前语音的噪声属性、以及当前语音的通信信道属性等。

例如，在一种实现方式中，变换矩阵可以通过使用本领域公知的最大似然线性回归(MLLR)方法来计算，并且例如可以被表示为以下公式：

\hat{W} = \arg \max_{W} P (O / W, λ)

其中O代表观察对象，诸如上述的背景声音段、以及上述被识别为预定义的第一声音命令的声音命令段等。W代表上述的变换矩阵。λ代表上述SI-AM的参数。

上述公式意思是将能够使P(O/W,λ)最大化的W当作输出。换言之，MLLR方法能够用于通过使用变换矩阵来调整SI-AM的参数，使得SI-AM能够匹配观察对象，诸如上述的背景声音段、以及上述被识别为预定义的第一声音命令的声音命令段等。此外，作为可选的解决方案，可以把计算出的当前用户的变换矩阵，存储在电子设备1的硬盘104中，以用于后续的工作，诸如针对使用本发明的其他用户选择AM等。

模型选择单元305将基于从变换矩阵计算单元304输出的计算出的变换矩阵，来从注册在语音识别装置106中的AM 320中选择针对当前用户的AM，其中，AM 320可以由制造商或用户预先基于上述命令词列表的语音样本来注册或训练，并且可以被存储在电子设备1的ROM 103或硬盘104中。此外，电子设备1能够经由网络7与其他电子设备可通信地连接，如图1所示，因此，电子设备1中的模型选择单元305还能够基于计算出的变换矩阵，来从注册在所述其他电子设备(即其他语音识别装置)中的AM中选择针对当前用户的AM。如上所述，由于存在基于音素的AM和基于命令词的AM，因此，在下文中，将参照图4进一步详细地描述模型选择单元305。

第二声音命令识别单元306将通过使用选择的AM，来从输出自模型选择单元305的声音命令段中识别第二声音命令，其中，声音命令段不包含在上述的预定义第一声音命令识别单元303中被识别为预定义的第一声音命令的声音命令段。然后，如上所述，操作单元107将执行与输出自第二声音命令识别单元306的识别出的第二声音命令相对应的操作，或者，输出设备108可以显示或输出识别出的第二声音命令。

现在，将在下面描述语音识别装置106中的模型选择单元305的内部功能单元的一个示例。图4是根据本发明的示例性实施例的、图3中所示的模型选择单元305的内部功能的框图。如图4所示，模型选择单元305包括基于音素的声学模型选择单元315、以及/或者基于命令词的声学模型选择单元325，从而使模型选择单元305能够处置任何类型的AM。

如上所述，如果在当前用户登录电子设备1时，在加载的AM集中的基于音素的AM不能涵盖命令词列表中的命令词的全部音素，则语音识别装置106将根据本发明，来选择能够涵盖命令词列表中的命令词的全部音素的音素集的基于音素的AM。换言之，基于音素的声学模型选择单元315被构造为基于计算出的变换矩阵，来从在语音识别装置106或者通过网络相互连接的其他语音识别装置(即其他电子设备)中注册的音素集的基于音素的AM(即图3中所示的AM 320)中，选择针对当前用户的音素集的基于音素的AM。在一种实现方式中，基于音素的声学模型选择单元315包括第一变换矩阵获取单元3151、第一距离计算单元3152以及基于音素的声学模型确定单元3153。

具体而言，第一变换矩阵获取单元3151将针对在语音识别装置106或者通过网络相互连接的其他语音识别装置(即其他电子设备)中注册的音素集的基于音素的AM，来获取变换矩阵。对于本领域技术人员显而易见的是，可以针对不同的口音、性别和年龄层次等，来注册或训练不同音素集的基于音素的AM。并且，对于音素集的基于音素的AM而言，针对该音素集的基于音素的AM的变换矩阵可以在该音素集的基于音素的AM被注册或训练时，通过使用上述的MLLR方法而被计算出，并且可以与该音素集的基于音素的AM一起被存储在电子设备的硬盘中。

第一距离计算单元3152将计算如下两种变换矩阵之间的距离，其中一种变换矩阵是由图3中的变换矩阵计算单元304计算出的针对当前用户的变换矩阵，并且另一种变换矩阵是由第一变换矩阵获取单元3151获取到的、针对音素集的基于音素的AM的变换矩阵。本领域技术人员能够理解的是，上述距离可以是任何公知的距离，诸如欧几里德(Euclidean)距离、K-L距离及马哈朗诺比斯(Mahalanobis)距离等，并且在此将不重复详细的计算方法。

基于音素的声学模型确定单元3153将确定距离最小的音素集的基于音素的AM，作为选择的针对当前用户的基于音素的AM。

此外，如上所述，如果在当前用户登录电子设备1时，在加载的AM集中的基于命令词的AM不能涵盖命令词列表中的全部的命令词，则语音识别装置106将根据本发明，针对命令词列表中的各个或一些命令词来选择基于命令词的AM。换言之，基于命令词的声学模型选择单元325被构造为基于计算出的变换矩阵，来从在语音识别装置106或者通过网络相互连接的其他语音识别装置(即其他电子设备)中注册的基于命令词的AM(即图3中所示的AM 320)中，选择针对当前用户的基于命令词的AM。在一种实现方式中，基于命令词的声学模型选择单元325包括第二变换矩阵获取单元3251、第二距离计算单元3252以及基于命令词的声学模型确定单元3253。

具体而言，针对上述命令词列表中的各命令词，第二变换矩阵获取单元3251将针对在语音识别装置106或者通过网络相互连接的其他语音识别装置(即其他电子设备)中注册的、与该命令词相对应的基于命令词的AM，来获取变换矩阵。对于本领域技术人员显而易见的是，对于一个命令词而言，将针对不同的口音、性别和年龄层次等，来注册或训练一个或一个以上的基于命令词的AM。并且，对于一个基于命令词的AM而言，一个变换矩阵将在该基于命令词的AM被注册或训练时，通过使用上述的MLLR方法而被计算出，并且可以与该基于命令词的AM一起被存储在电子设备的硬盘中。

针对上述命令词列表中的各命令词，第二距离计算单元3252将计算如下两种变换矩阵之间的距离，其中一种变换矩阵是由图3中的变换矩阵计算单元304计算出的、针对当前用户的变换矩阵，并且另一种变换矩阵是由第二变换矩阵获取单元3251获取到的、针对与该命令词相对应的基于命令词的声学模型的变换矩阵。如上所述，被计算的距离同样可以是任何公知的距离，诸如欧几里德距离、K-L距离及马哈朗诺比斯距离等。

针对上述命令词列表中的各命令词，基于命令词的声学模型确定单元3253将确定距离最小的与该命令词相对应的基于命令词的AM，作为选择的针对当前用户的基于命令词的AM。

此外，基于命令词的声学模型选择单元325还可以包括推荐单元3254。当基于命令词的声学模型确定单元3253不能针对命令词列表中的一些命令词而确定出相应的基于命令词的AM时，推荐单元3254将推荐当前用户注册针对所述命令词的基于命令词的AM，作为选择的基于命令词的AM。

如上所述，在一种实现方式中，如果在加载的AM集中的基于命令词的AM不能涵盖命令词列表中的全部的命令词，则基于命令词的声学模型选择单元325可以针对命令词列表中的各命令词来选择基于命令词的AM。在另一实现方式中，基于命令词的声学模型选择单元325可以仅针对命令词列表中的如下命令词来选择基于命令词的AM，对于这些命令词，当前用户未在语音识别装置106中注册相应的基于命令词的AM。

对于语音识别装置106而言，在图5中示出了语音识别装置106的内部功能单元的第二示例。图5是根据本发明的第二示例性实施例的、与电子设备1的图2中的语音输入单元125有关的语音识别的内部功能的框图。在第二实施例中，语音识别装置106将首先通过使用SI-AM 310来识别第二声音命令。当CPU 101执行存储在ROM 103和/或硬盘104中的程序时，下面的功能单元得以实现。

将图5与图3相比较，图5中所示的语音识别装置106具有以下的不同之处：

首先，语音识别装置106还包括第三声音命令识别单元501。第三声音命令识别单元501将通过使用SI-AM 310，来从输出自模型选择单元305的声音命令段中识别第二声音命令，其中，声音命令段不包含在预定义第一声音命令识别单元303中被识别为预定义的第一声音命令的声音命令段。

其次，第三声音命令识别单元501还将判断识别出的第二声音命令的识别置信度是否小于预定义的阈值，其中，例如，可以由用户或制造商根据实际的应用来预先定义所述预定义的阈值。如果识别出的第二声音命令的识别置信度大于或等于预定义的阈值，则操作单元107将直接执行与从第三声音命令识别单元501输出的识别出的第二声音命令相对应的操作，或者输出设备108可以显示或输出识别出的第二声音命令。

否则，如果识别出的第二声音命令的识别置信度小于预定义的阈值，则第二声音命令识别单元306将通过使用选择的AM，来从输出自第三声音命令识别单元501的声音命令段中识别第二声音命令，其中，声音命令段不包含在预定义第一声音命令识别单元303中被识别为预定义的第一声音命令的声音命令段。图5中所示的语音输入单元125、语音分割单元302、预定义第一声音命令识别单元303、变换矩阵计算单元304、模型选择单元305、SI-AM 310及AM 320的其他详细描述，与图3中所示的相应单元类似，因而，在此将不再重复详细的描述。

(存储在电子设备的存储设备中的语音识别方法)

图6是例示根据本发明的示例性实施例的、诸如图1中的MFP 1等的具有语音识别功能的电子设备1的内部结构的另一示例的第二框图，其中，在电子设备1(即MFP 1)的存储设备中，存储了在下文中将参照图7～10详细描述的语音识别方法。电子设备1可以包括中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、硬盘104、输入设备105、操作单元107、输出设备108及网络接口109，并且这些部件经由***总线110彼此可通信地连接。

如图6所示，除了语音识别装置106之外，电子设备1的内部结构与图2中所示的电子设备1的内部结构基本相同，因而，在此将不再重复CPU 101、RAM 102、ROM 103、硬盘104、输入设备105、操作单元107、输出设备108、网络接口109及***总线110的详细描述。此外，在图6中所示的电子设备1的硬盘104中，存储了能够实现与图2中所示的语音识别装置106相同的功能的语音识别方法。

图7是根据本发明的上述第一示例性实施例的、与图6中电子设备1的语音输入单元125有关的语音识别操作的流程图。当CPU 101将存储在ROM 103和/或硬盘104中的程序载入RAM 102中、并且执行相应的程序时，下文中的各个相应步骤的操作得以实现。

如图7所示，在语音输入步骤S701中，图6中所示的电子设备1的语音输入单元125将获得由当前用户输入的语音(对应于图3中的语音输入单元125)。

在语音分割步骤S702中，图6中所示的电子设备1的CPU 101将从语音输入单元125接收获得的语音，并且将分割获得的语音并输出至少两个声音命令段(对应于图3中的语音分割单元302)。

如上所述，语音的当前环境不可能是绝对安静的，因此在语音分割步骤S702中，除了上述的至少两个声音命令段之外，CPU 101还将输出至少一个背景声音段。

在预定义第一声音命令识别步骤S703中，图6中所示的电子设备1的CPU 101将通过使用存储在图6中所示的电子设备1中的SI-AM，来从输出自语音分割步骤S702的声音命令段中识别预定义的第一声音命令(对应于图3中的预定义第一声音命令识别单元303)。如上所述，预定义的第一声音命令例如可以是预定义的引导词。

在变换矩阵计算步骤S704中，图6中所示的电子设备1的CPU 101将基于被识别为预定义的第一声音命令的声音命令段，来计算针对当前用户的变换矩阵，其中，计算的变换矩阵能够使SI-AM与被识别为预定义的第一声音命令的声音命令段匹配(对应于图3中的变换矩阵计算单元304)。

此外，如上所述，由于语音的当前环境不可能是绝对安静的，因此，在变换矩阵计算步骤S704中，CPU 101可以基于背景声音段以及被识别为预定义的第一声音命令的声音命令段，来计算针对当前用户的变换矩阵。作为优选的解决方案，可以通过使用上述的MLLR方法来计算变换矩阵。此外，作为可选的解决方案，CPU 101可以把计算出的当前用户的变换矩阵，存储在图6中所示的电子设备1的硬盘104中，以用于后续的工作，诸如针对使用本发明的其他用户选择AM等。

在模型选择步骤S705中，图6中所示的电子设备1的CPU 101将基于计算出的变换矩阵，来从注册在图6中所示的电子设备1中的AM中选择针对当前用户的AM(对应于图3中的模型选择单元305)。

此外，图6中所示的电子设备1能够经由网络7与其他电子设备可通信地连接，如图1所示，因此，在模型选择步骤S705中，图6中所示的电子设备1中的CPU 101还能够基于计算出的变换矩阵，来从注册在所述其他电子设备中的AM中选择针对当前用户的AM。

如上所述，由于存在基于音素的AM和基于命令词的AM，因此，模型选择步骤S705还包括：基于音素的声学模型选择步骤，用于基于计算出的变换矩阵，来从在图6中所示的电子设备1或者通过网络相互连接的其他电子设备中注册的音素集的基于音素的AM中，选择针对当前用户的音素集的基于音素的AM；以及/或者基于命令词的声学模型选择步骤，用于基于计算出的变换矩阵，来从在图6中所示的电子设备1或者通过网络相互连接的其他电子设备中注册的基于命令词的AM中，选择针对当前用户的基于命令词的AM。

在图8中，示出了用于选择基于音素的AM的一种示例性方法。图8示意性地示出了在图7中例示的模型选择步骤S705中执行的、用于选择基于音素的AM的步骤的流程图。

如图8所示，在第一变换矩阵获取步骤S7051中，图6中所示的电子设备1的CPU 101将针对在图6中所示的电子设备1或者通过网络相互连接的其他电子设备中注册的音素集的基于音素的AM，来获取变换矩阵(对应于图4中的第一变换矩阵获取单元3151)。

在第一距离计算步骤S7052中，图6中所示的电子设备1的CPU 101将计算如下两种变换矩阵之间的距离，其中一种变换矩阵是从图7中的变换矩阵计算步骤S704中输出的、计算出的针对当前用户的变换矩阵，并且另一种变换矩阵是从第一变换矩阵获取步骤S7051中输出的、获取到的针对音素集的基于音素的AM的变换矩阵(对应于图4中的第一距离计算单元3152)。

在基于音素的声学模型确定步骤S7053中，图6中所示的电子设备1的CPU 101将确定距离最小的音素集的基于音素的AM，作为选择的针对当前用户的基于音素的AM(对应于图4中的基于音素的声学模型确定单元3153)。

在图9中，示出了用于针对上述命令词列表中的一个命令词来选择基于命令词的AM的一种示例性方法。图9示意性地示出了在图7中例示的模型选择步骤S705中执行的、用于选择基于命令词的AM的步骤的流程图。

如图9所示，在第二变换矩阵获取步骤S7151中，图6中所示的电子设备1的CPU 101将针对在图6中所示的电子设备1或者通过网络相互连接的其他电子设备中注册的、与命令词相对应的基于命令词的AM，来获取变换矩阵(对应于图4中的第二变换矩阵获取单元3251)。

在第二距离计算步骤S7152中，图6中所示的电子设备1的CPU 101将计算如下两种变换矩阵之间的距离，其中一种变换矩阵是从图7中的变换矩阵计算步骤S704中输出的、计算出的针对当前用户的变换矩阵，并且另一种变换矩阵是获取到的由第二变换矩阵获取步骤S7151输出的、针对与命令词相对应的基于命令词的声学模型的变换矩阵(对应于图4中的第二距离计算单元3252)。

在基于命令词的声学模型确定步骤S7153中，图6中所示的电子设备1的CPU 101将确定距离最小的与命令词相对应的基于命令词的AM，作为选择的、针对当前用户的基于命令词的AM(对应于图4中的基于命令词的声学模型确定单元3253)。

在步骤S7154中，图6中所示的电子设备1的CPU 101将进行如下的判断，即自身是否能够针对命令词列表中的各命令词求出最小距离。如果CPU 101不能针对命令词列表中的各命令词求出最小距离，则在推荐步骤S7155中，CPU 101将推荐当前用户针对在基于命令词的声学模型确定步骤S7153中不能确定出相应的基于命令词的AM的命令词，来注册基于命令词的AM，作为选择的基于命令词的AM(对应于图4中的推荐单元3254)。

虽然在上述的基于命令词的声学模型选择步骤中，图6中所示的电子设备1的CPU 101针对命令词列表中的各命令词来选择基于命令词的AM，但是，CPU 101也可以仅针对当前用户未在图6中所示的电子设备1中注册相应的基于命令词的AM的、命令词列表中的命令词，来选择基于命令词的AM。

现在，返回到图7，在第二声音命令识别步骤S706中，图6中所示的电子设备1的CPU 101将通过使用选择的AM，来从声音命令段中识别第二声音命令，其中，声音命令段不包含在预定义第一声音命令识别步骤S703中被识别为预定义的第一声音命令的声音命令段(对应于图3中的声音命令识别单元306)。

应当指出，图3～4中所示的语音识别装置106的各个单元可以被构造为执行图7～9中的流程图中所示的语音识别方法的各个步骤。

图10是根据本发明的上述第二示例性实施例的、与图6中电子设备1的语音输入单元125有关的语音识别操作的流程图。当CPU 101将存储在ROM 103和/或硬盘104中的程序载入RAM 102中、并且执行相应的程序时，下文中的各个相应步骤的操作得以实现。

将图10与图7相比较，图10中所示的语音识别方法具有以下的不同之处：

首先，语音识别方法还包括第三声音命令识别步骤S1001。在第三声音命令识别步骤S1001中，图6中所示的电子设备1的CPU 101将通过使用存储在图6中所示的电子设备1中的SI-AM，来从输出自模型选择步骤S705的声音命令段中识别第二声音命令，其中，声音命令段不包含在预定义第一声音命令识别步骤S703中被识别为预定义的第一声音命令的声音命令段。

其次，在步骤S1002中，图6中所示的电子设备1的CPU 101还将进行如下的判断，即从第三声音命令识别步骤S1001中输出的、识别出的第二声音命令的识别置信度，是否小于预定义的阈值，其中，例如，可以由用户或制造商根据实际的应用来预先定义所述预定义的阈值。如果识别出的第二声音命令的识别置信度小于预定义的阈值，则在第二声音命令识别步骤S706中，图6中所示的电子设备1的CPU 101将通过使用选择的AM，来从输出自步骤S1002的声音命令段中识别第二声音命令，其中，声音命令段不包含在预定义第一声音命令识别步骤S703中被识别为预定义的第一声音命令的声音命令段。

否则，如果识别出的第二声音命令的识别置信度大于或等于预定义的阈值，则图6中所示的电子设备1的CPU 101将把识别出的第二声音命令，输出到图6中所示的电子设备1的操作单元107或输出设备108。

图10中所示的语音输入步骤S701、语音分割步骤S702、预定义第一声音命令识别步骤S703、变换矩阵计算步骤S704及模型选择步骤S705的其他详细描述，与图7中所示的相应步骤类似，因而，在此将不再重复详细的描述。

应当指出，图5中所示的语音识别装置106的各个单元可以被构造为执行图10中的流程图中所示的语音识别方法的各个步骤。

利用上述的示例性语音识别装置及语音识别方法，由于基于由当前用户瞬时输入的语音而分割的声音命令段中的一部分(即上述被识别为预定义的第一声音命令的声音命令段)来计算变换矩阵，并且还可以基于声音命令段中的一部分以及背景声音段来计算变换矩阵，因此，基于计算出的变换矩阵而选择的AM能够良好地匹配当前用户的瞬时声音属性以及瞬时环境属性，并且，通过使用所选择的AM能够提高当前用户的语音识别性能。

上述所有的单元均是用于实现本公开中描述的处理的示例性的和/或优选的模块。这些单元可以是硬件单元(诸如现场可编程门阵列(FPGA)、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。上面未详尽地描述用于实现各种步骤的单元。然而，在存在进行某一处理的步骤的情况下，可以存在用于实现相同处理的相应功能模块或单元(通过硬件和/或软件实现)。在本申请的公开中，包括基于描述的步骤以及与这些步骤相对应的单元的全部组合的技术方案，只要所构成的这些技术方案是完整的且适用的即可。

可以通过多种方式来实施本发明的方法及装置。例如，可以通过软件、硬件、固件或其任意组合，来实施本发明的方法及装置。上面描述的方法的步骤的顺序仅旨在进行例示，并且，本发明的方法的步骤并不限定于上面具体描述的顺序，除非另外特别说明。此外，在一些实施方式中，本发明还可以体现为记录在记录介质中的程序，包括用于实现根据本发明的方法的机器可读指令。因此，本发明还涵盖存储有用于实现根据本发明的方法的程序的记录介质。

虽然上面通过示例详细论述了本发明的一些具体实施例，但是，本领域技术人员应当理解的是，上述的示例仅旨在进行例示，而不是限定本发明的范围。本领域技术人员应当理解的是，可以在不偏离本发明的范围和精神的情况下对上述实施例进行修改。本发明的范围是由所附的权利要求来定义的。

Claims

1.一种语音识别装置，该语音识别装置包括：

语音输入单元，其被构造为获得由当前用户输入的语音；

语音分割单元，其被构造为分割所获得的语音并输出至少两个声音命令段；

预定义第一声音命令识别单元，其被构造为通过使用与说话者无关的声学模型，来从声音命令段中识别预定义的第一声音命令；

变换矩阵计算单元，其被构造为基于被识别为所述预定义的第一声音命令的声音命令段，来计算针对所述当前用户的变换矩阵，其中，所计算出的变换矩阵能够使所述与说话者无关的声学模型与被识别为所述预定义的第一声音命令的声音命令段匹配；

模型选择单元，其被构造为基于所计算出的变换矩阵，来从注册在所述语音识别装置中的声学模型中选择针对所述当前用户的声学模型；以及

第二声音命令识别单元，其被构造为通过使用所选择的声学模型，来从声音命令段中识别第二声音命令。

2.根据权利要求1所述的语音识别装置，其中，

所述语音分割单元的输出还包括至少一个背景声音段，

所述变换矩阵计算单元基于所述背景声音段以及被识别为所述预定义的第一声音命令的声音命令段，来计算所述变换矩阵，并且

所计算出的变换矩阵能够使所述与说话者无关的声学模型，与所述背景声音段以及被识别为所述预定义的第一声音命令的声音命令段匹配。

3.根据权利要求1或权利要求2所述的语音识别装置，其中，所述模型选择单元包括：

基于音素的声学模型选择单元，其被构造为基于所计算出的变换矩阵，来从注册在所述语音识别装置中的音素集的基于音素的声学模型中，选择针对所述当前用户的音素集的基于音素的声学模型；以及/或者

基于命令词的声学模型选择单元，其被构造为基于所计算出的变换矩阵，来从注册在所述语音识别装置中的基于命令词的声学模型中，选择针对所述当前用户的基于命令词的声学模型。

4.根据权利要求3所述的语音识别装置，其中，所述基于音素的声学模型选择单元包括：

第一变换矩阵获取单元，其被构造为获取针对注册在所述语音识别装置中的音素集的基于音素的声学模型的变换矩阵；

第一距离计算单元，其被构造为计算所计算出的针对所述当前用户的变换矩阵、与所获取到的针对音素集的基于音素的声学模型的变换矩阵之间的距离；以及

基于音素的声学模型确定单元，其被构造为确定距离最小的音素集的基于音素的声学模型，作为所选择的针对所述当前用户的基于音素的声学模型。

5.根据权利要求3所述的语音识别装置，其中，所述基于命令词的声学模型选择单元包括：

第二变换矩阵获取单元，其被构造为针对预定义的命令词列表中的各命令词，来获取针对注册在所述语音识别装置中的与该命令词相对应的基于命令词的声学模型的变换矩阵；

第二距离计算单元，其被构造为针对所述预定义的命令词列表中的各命令词，来计算所计算出的针对所述当前用户的变换矩阵、与所获取到的针对与该命令词相对应的基于命令词的声学模型的变换矩阵之间的距离；以及

基于命令词的声学模型确定单元，其被构造为针对所述预定义的命令词列表中的各命令词，来确定距离最小的与该命令词相对应的基于命令词的声学模型，作为所选择的针对所述当前用户的基于命令词的声学模型。

6.根据权利要求5所述的语音识别装置，其中，所述基于命令词的声学模型选择单元还包括：

推荐单元，其被构造为推荐所述当前用户，针对所述基于命令词的声学模型确定单元不能确定出相应的基于命令词的声学模型的命令词，来注册基于命令词的声学模型，作为所选择的基于命令词的声学模型。

7.根据权利要求5所述的语音识别装置，其中，所述基于命令词的声学模型选择单元仅针对所述预定义的命令词列表中的、所述当前用户未在所述语音识别装置中注册相应的基于命令词的声学模型的命令词，来选择基于命令词的声学模型。

8.根据权利要求1或权利要求2所述的语音识别装置，其中，所述语音识别装置将验证声学模型集中的声学模型是否涵盖预定义的命令词列表中的全部命令词，

如果所述声学模型集中的声学模型涵盖所述预定义的命令词列表中的全部命令词，则所述语音识别装置将通过使用所述声学模型集中的声学模型，来从声音命令段中识别所述第二声音命令；否则，所述语音识别装置将通过使用所选择的声学模型，来从声音命令段中识别所述第二声音命令，并且

其中，当所述当前用户登录所述语音识别装置时，所述声学模型集以及所述预定义的命令词列表将被加载。

9.根据权利要求1或权利要求2所述的语音识别装置，其中，所述模型选择单元从在所述语音识别装置以及/或者通过网络相互连接的其他语音识别装置中注册的声学模型中，来选择针对所述当前用户的声学模型。

10.根据权利要求1或权利要求2所述的语音识别装置，该语音识别装置还包括：

第三声音命令识别单元，其被构造为通过使用所述与说话者无关的声学模型，来从声音命令段中识别所述第二声音命令，其中

当从所述第三声音命令识别单元输出的识别置信度小于预定义的阈值时，所述第二声音命令识别单元将通过使用所选择的声学模型，来从声音命令段中识别所述第二声音命令。

11.一种语音识别方法，该语音识别方法包括：

语音输入步骤，获得由当前用户在语音识别装置中输入的语音；

语音分割步骤，分割所获得的语音并输出至少两个声音命令段；

预定义第一声音命令识别步骤，通过使用与说话者无关的声学模型，来从声音命令段中识别预定义的第一声音命令；

变换矩阵计算步骤，基于被识别为所述预定义的第一声音命令的声音命令段，来计算针对所述当前用户的变换矩阵，其中，所计算出的变换矩阵能够使所述与说话者无关的声学模型与被识别为所述预定义的第一声音命令的声音命令段匹配；

模型选择步骤，基于所计算出的变换矩阵，来从注册在所述语音识别装置中的声学模型中选择针对所述当前用户的声学模型；以及

第二声音命令识别步骤，通过使用所选择的声学模型，来从声音命令段中识别第二声音命令。

12.根据权利要求11所述的语音识别方法，其中，

所述语音分割步骤的输出还包括至少一个背景声音段，

所述变换矩阵计算步骤基于所述背景声音段以及被识别为所述预定义的第一声音命令的声音命令段，来计算所述变换矩阵，并且

13.根据权利要求11或权利要求12所述的语音识别方法，其中，所述模型选择步骤包括：

基于音素的声学模型选择步骤，基于所计算出的变换矩阵，来从注册在所述语音识别装置中的音素集的基于音素的声学模型中，选择针对所述当前用户的音素集的基于音素的声学模型；以及/或者

基于命令词的声学模型选择步骤，基于所计算出的变换矩阵，来从注册在所述语音识别装置中的基于命令词的声学模型中，选择针对所述当前用户的基于命令词的声学模型。

14.根据权利要求11或权利要求12所述的语音识别方法，其中，所述语音识别方法将验证声学模型集中的声学模型是否涵盖预定义的命令词列表中的全部命令词，

如果所述声学模型集中的声学模型涵盖所述预定义的命令词列表中的全部命令词，则所述语音识别方法将通过使用所述声学模型集中的声学模型，来从声音命令段中识别所述第二声音命令；否则，所述语音识别方法将通过使用所选择的声学模型，来从声音命令段中识别所述第二声音命令，并且

15.根据权利要求11或权利要求12所述的语音识别方法，其中，所述模型选择步骤从在所述语音识别装置以及/或者通过网络相互连接的其他语音识别装置中注册的声学模型中，来选择针对所述当前用户的声学模型。

16.根据权利要求11或权利要求12所述的语音识别方法，该语音识别方法还包括：

第三声音命令识别步骤，通过使用所述与说话者无关的声学模型，来从声音命令段中识别所述第二声音命令，其中

当从所述第三声音命令识别步骤中输出的识别置信度小于预定义的阈值时，所述第二声音命令识别步骤将通过使用所选择的声学模型，来从声音命令段中识别所述第二声音命令。