CN105609101A

CN105609101A - 语音识别***及语音识别方法

Info

Publication number: CN105609101A
Application number: CN201510778306.4A
Authority: CN
Inventors: 朴晟秀
Original assignee: Hyundai Motor Co
Current assignee: Hyundai Motor Co
Priority date: 2014-11-14
Filing date: 2015-11-12
Publication date: 2016-05-25
Anticipated expiration: 2035-11-12
Also published as: US20160140954A1; CN105609101B; KR101619262B1; DE102015222034A1

Abstract

本申请公开了语音识别***及语音识别方法。一种语音识别***包括：收集器，用于收集说话者的语音数据；发音方式分类器，用于提取说话者的语音数据的特征点，并且选择对应于特征点的发音方式模型；参数调整器，用于通过使用所选择的发音方式模型来调整参数，该参数是用于识别语音指令的基准；以及语音识别引擎，用于基于调整的参数来识别说话者的语音指令。

Description

语音识别***及语音识别方法

相关申请的交叉引用

本申请要求于2014年11月14日提交给韩国知识产权局的韩国专利申请第10-2014-0158774号的优先权权益，其全部内容通过引证结合于此。

技术领域

本公开内容涉及一种语音识别***和语音识别方法。

背景技术

人机接口(HMI)使用户通过视觉、听觉、或触觉与机器进行交流。为了最小化驾驶员的注意力转移并且提高便利性，已尝试使用语音识别作为车辆内的HMI。

根据常规的语音识别***，使用标准语言的各种说话者的声音被存储为语音数据，并且使用该语音数据来执行语音识别。然而，在这种***中，难以保证语音识别性能，这是因为使用语音识别功能的说话者的发音方式(例如，发音语调、发音速度、以及方言)通常不同于对应于语音数据的发音方式。

本背景技术部分中公开的上述信息仅用于增强对本公开背景技术的理解，并且因此本公开可能包括在该国家中未构成为本领域普通技术人员所知的现有技术的信息。

发明内容

本公开致力于提供语音识别***和语音识别方法，该语音识别***和语音识别方法具有以下优点：基于针对每个区域的语音数据生成针对每个区域的发音方式模型；选择对应于提取的特征点的发音方式模型；以及调整参数，该参数是用于识别语音识别指令的基准。

根据本公开示例性实施方式的语音识别***可包括：收集器，收集说话者的语音数据；发音方式分类器，提取说话者的语音数据的特征点，并且选择对应于特征点的发音方式模型；参数调整器，通过使用所选择的发音方式模型来调整参数，该参数是用于识别语音命令的基准；以及语音识别引擎，基于调整的参数来识别说话者的语音指令。

语音识别***可进一步包括：预处理器，将从收集器传输的模拟语音数据转换为数字语音数据；校正语音数据的增益；并且消除语音数据的噪声。

发音方式分类器可包括：语音数据库，存储针对每个区域的语音数据；第一特征点提取器，提取在语音数据库中存储的针对每个区域的语音数据的特征点；特征点数据库，存储由第一特征点提取器提取的针对每个区域的语音数据的特征点；特征点学习器，通过学习在特征点数据库中存储的针对每个区域的语音数据的特征点的分布来生成学习模型，并且通过使用学习模型来生成针对每个区域的发音方式模型；以及模型数据库，存储由特征点学习器生成的学习模型和发音方式模型。

发音方式分类器可进一步包括：第二特征点提取器，提取从预处理器接收的说话者的语音数据的特征点；以及发音方式模型选择器，选择对应于由第二特征点提取器提取的特征点的发音方式模型。

特征点学习器可通过使用学习模型来生成分布分类器，用于分类语音数据的特征点的分布。

根据本公开示例性实施方式的语音识别方法可包括：收集说话者的语音数据；预处理该语音数据；提取该语音数据的特征点；选择对应于提取的特征点的发音方式模型；通过使用所选择的发音方式模型来调整参数，该参数是用于识别语音指令的基准；基于所调整的参数来识别说话者的语音指令。

语音指令的预处理可包括：将模拟语音数据转换为数字语音数据；以及校正该语音数据的增益；消除该语音数据的噪声。

发音方式模型可通过提取在语音数据库中存储的针对每个区域的语音数据的特征点来生成；在特征点数据库中存储所提取的针对每个区域的语音数据的特征点；通过学习在特征点数据库中存储的针对每个区域的语音数据的特征点的分布来生成学习模型；并且通过使用学习模型来生成针对每个区域的发音方式模型。

附图说明

图1是根据本公开示例性实施方式的语音识别***的框图。

图2是根据本公开示例性实施方式的发音方式分类器的框图。

图3是用于说明根据本公开示例性实施方式的生成针对每个区域的学习模型以及发音方式模型的过程的示图。

图4是用于说明根据本公开示例性实施方式的语音识别***的驱动模式的示图。

图5是根据本公开示例性实施方式的语音识别方法的流程图。

具体实施方式

在下文中，将参考附图更全面地描述本公开，在附图中示出了本公开的示例性实施方式。如本领域技术人员应当认识到的，在所有都不偏离本公开的精神或范围的情况下，可用各种不同的方式对所描述的实施方式进行修改。附图和描述本质上被视为是示例性的，而非限制性的，并且贯穿说明书，相同参考标号表示相同元件。此外，将省略对众所周知的现有技术的详细说明。

在说明书中，除非另有明确说明相反，否则词语“包括(comprise)”和诸如“包含(comprises)”或“含有(comprising)”的变体将被理解为暗示包括所述的元件但不排除任何其他的元件。此外，在说明书中描述的术语“…器(-er)”，“…装置(-or)”或者“模块(module)”意指用于处理至少执行一个功能和操作的单元，并且通过硬件组件、或者软件组件、以及其组合能够实现该单元。

在说明书中，“发音方式模型”意指用来表示语音数据的区域特性(例如，发音口音、发音速度、以及方言)的模型。

图1是根据本公开示例性实施方式的语音识别***的框图，并且图2是根据本公开示例性实施方式的发音方式分类器的框图。

如图1所示，根据本公开示例性实施方式的语音识别***可包括：收集器100、预处理器200、发音方式分类器300、参数调整器400、以及语音识别引擎500。

收集器100收集说话者(用户)的模拟语音数据，并且收集器100可包括：麦克风，用以接收声波以根据声波的振动生成电信号。

预处理器200预处理语音数据，并且将预处理过的语音数据传输至发音方式分类器300和语音识别引擎500。预处理器200可包括：模数转换器(ADC)210、增益校正器220、以及噪声消除器230。

ADC210将从收集器100传输的模拟语音数据转换为数字语音数据(在下文中，被称为“语音数据”)。增益校正器220校正语音数据的增益(等级)。噪声消除器230消除语音数据中的噪声。

如图2所示，根据本公开示例性实施方式的发音方式分类器300可包括：语音数据库310、特征点提取器320、特征点数据库330、特征点学习器340、模型数据库350、以及发音方式模型选择器360。

语音数据库310存储针对每个区域的语音数据。例如，语音数据库310可包括：第一区域语音数据库310-1、第二区域语音数据库DB310-2、以及第n区域语音数据库310-n。语音数据库310可以是先前基于在无回音室中的各种说话者的语音数据生成的。可基于从远程服务器(例如，远程信息处理服务器)传输的针对每个区域的语音数据来更新语音数据库310。

此外，可基于从语音识别***的用户或说话者接收的区域信息以及从预处理器200传输的语音数据来更新语音数据库310。

特征点提取器320可包括第一特征点提取器321以及第二特征点提取器322。

第一特征点提取器321提取在语音数据库310中存储的针对每个区域的语音数据的特征点，并且将特征点存储在特征点数据库330中。

第二特征点提取器322提取从预处理器200接收的说话者的语音数据的特征点，并且将特征点传输至发音方式模型选择器360。

由第一特征点提取器321提取的针对每个区域的特征点被存储在特征点数据库330中。例如，特征点数据库331可包括第一区域特征点数据库、第二区域特征点数据库以及第n区域特征点数据库。

特征点学习器340可通过学习在特征点数据库330中存储的针对每个区域的语音数据的特征点来生成学习模型，并且可通过使用学习模型来生成针对每个区域的发音方式模型。

将参考图3描述生成特征点学习器340的学习模型和发音方式模型的过程。

参考图3，特征点学习器340通过学习在特征点数据库330中存储的针对每个区域的语音数据的特征点的分布来生成学习模型。机器学习算法可用于学习针对每个区域的语音数据的特征点的分布。例如，特征点学习器340可学习存储在第一区域特征点数据库中的与第一区域对应的语音数据的特征点的分布；以及存储在第二区域特征点数据库中的、对应于第二区域的语音数据的特征点的分布。

特征点学习器340可通过使用学习模型来生成分布分类器，该分布分类器用于分类语音数据的特征点的分布。分布分类器可以用以下sigmoid(S形)函数来表示。

f(x)＝sigmoid(w·x)本文中，w是学习模型，并且x是语音数据的特征点。

特征点学习器340可使用分布分类器来生成发音方式模型。例如，特征点学习器340可通过使用分布分类器来生成对应于第一区域的发音方式模型以及对应于第二区域的发音方式模型，该分布分类器将对应于第一区域的语音数据的特征点的分布以及对应于第二区域的语音数据的特征点的分布分类。

模型数据库350存储由特征点学习器340生成的学习模型以及发音方式模型。

发音方式模型选择器360使用分布分类器来选择对应于由第二特征点提取器322提取的特征点的发音方式模型，并且将所选择的发音方式模型传输至参数调整器400。例如，如图3所示，当由第二特征点提取器322提取到新的特征点y时，发音方式模型选择器360使用分布分类器来选择对应于特征点y的发音方式模型。

参数调整器400通过使用由发音方式模型选择器360选择的发音方式模型来调整参数，该参数是用于识别语音指令的基准(reference，参考)。

语音识别引擎500基于由参数调整器400调整的参数来识别说话者的语音指令。可基于语音指令(即，语音识别结果)来控制基于语音的设备。例如，可执行对应于所识别的语音指令的功能(例如，呼叫功能或路线指引功能)。

参考图4，当由发音方式模型选择器360选择对应于第二区域的发音方式模型时，参数可被调整至对应于第二区域的值，该参数是用于识别语音指令的基准。换言之，语音识别引擎500的驱动模式从基本模式(参数＝默认值)改变为第二区域模式(参数＝对应于第二区域的值)。

图5是根据本公开示例性实施方式的语音识别方法的流程图。

如图5所示，在步骤S10中，收集器100收集用户的语音数据。语音数据被传输至预处理器200。

此后，在步骤S20中，预处理器200预处理该语音数据。详细地，预处理器200将从收集器100传输的模拟语音数据转换为数字语音数据，校正语音数据的增益，并且消除语音数据中的噪声。因此，可提高语音数据的语音识别性能。预处理过的语音数据被传输至第二特征点提取器322。

在步骤S30中，第二特征点提取器322提取语音数据的特征点。提取的语音数据的特征点被传输至发音方式模型选择器360。

在步骤S40中，发音方式模型选择器340通过使用分布分类器来选择对应于提取的特征点的发音方式模型。所选择的发音方式模型被传输至参数调整器400。

在步骤S50中，参数调整器400通过使用所选择的发音方式模型来调整参数。

在步骤S60中，语音识别引擎500基于调整的参数来识别说话者的语音指令。

如上所述，根据本公开的示例性实施方式，使用对应于包括在语音数据中的区域特性的发音方式模型来调整参数，由此提高了语音识别性能。

尽管结合目前被视为实用的示例性实施方式描述了本公开内容，但是应理解，本公开内容不限于所公开的实施方式，而是相反，本公开内容旨在覆盖包括在所附权利要求的实质和范围内的各种修改和等同配置。

Claims

1.一种语音识别***，包括：

收集器，用于收集说话者的语音数据；

发音方式分类器，用于提取所述说话者的所述语音数据的特征点，并且选择对应于所述特征点的发音方式模型；

参数调整器，用于通过使用所选择的所述发音方式模型来调整参数，所述参数是用于识别语音指令的基准；以及

语音识别引擎，用于基于调整的所述参数来识别所述说话者的所述语音指令。

2.根据权利要求1所述的语音识别***，进一步包括：预处理器，将从所述收集器传输的模拟语音数据转换为数字语音数据，校正所述语音数据的增益并且消除所述语音数据中的噪声。

3.根据权利要求2所述的语音识别***，其中，所述发音方式分类器包括：

语音数据库，用于存储针对每个区域的语音数据；

第一特征点提取器，用于提取在所述语音数据库中存储的针对每个区域的语音数据的特征点；

特征点数据库，用于存储由所述第一特征点提取器提取的针对每个区域的语音数据的特征点；

特征点学习器，用于通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布，来生成学习模型，并且所述特征点学习器用于通过使用所述学习模型来生成针对每个区域的发音方式模型；以及

模型数据库，用于存储由所述特征点学习器生成的所述学习模型以及所述发音方式模型。

4.根据权利要求3所述的语音识别***，其中，所述发音方式分类器进一步包括：

第二特征点提取器，用于提取从所述预处理器接收的所述说话者的所述语音数据的特征点；以及

发音方式模型选择器，用于选择对应于由所述第二特征点提取器提取的特征点的所述发音方式模型。

5.根据权利要求3所述的语音识别***，其中，所述特征点学习器通过使用所述学习模型来生成分布分类器，所述分布分类器用于分类语音数据的特征点的分布。

6.一种语音识别方法，包括以下步骤：

收集说话者的语音数据；

预处理所述语音数据；

提取所述语音数据的特征点；

选择对应于提取的所述特征点的发音方式模型；

通过使用所选择的发音方式模型来调整参数，所述参数是用于识别语音指令的基准；

基于调整的所述参数来识别所述说话者的所述语音指令。

7.根据权利要求6所述的语音识别方法，其中，预处理所述语音数据的步骤包括：

将模拟语音数据转换为数字语音数据；

校正所述语音数据的增益；以及

消除所述语音数据中的噪声。

8.根据权利要求6所述的语音识别方法，其中，所述发音方式模型由以下步骤生成：

提取在所述语音数据库中存储的针对每个区域的语音数据的特征点；

在特征点数据库中存储所提取的针对每个区域的语音数据的特征点；

通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布，来生成学习模型；以及

通过使用所述学习模型来生成针对每个区域的发音方式模型。