CN105825853A

CN105825853A - 语音识别设备语音切换方法及装置

Info

Publication number: CN105825853A
Application number: CN201510008232.6A
Authority: CN
Inventors: 高宏华
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-01-07
Filing date: 2015-01-07
Publication date: 2016-08-03
Also published as: WO2016110068A1

Abstract

本发明公开了一种语音识别设备语音切换方法，包括：接收用户输入的语音指令；提取所述语音指令的声学特征；根据所述语音指令的声学特征确定所述语音指令对应的语种类别；控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别。本发明还公开了一种语音识别设备语音切换装置。本发明降低了设置语音播报的语种类别的操作难度。

Description

语音识别设备语音切换方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及语音识别设备语音切换方法及装置。

背景技术

随着语音识别技术的飞速发展，语音识别开始从实验室走向市场，广泛的应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。以带语音识别功能的手机为例，用户通过语音输入“你叫什么？”，手机进行语音识别后，进行播报答复：“你好，我叫XX”。用户可以设置手机答复时语音播报所采用的语种类别，例如中文普通话、英文、日文和方言等。当需要设置时，用户需要进入到指定的界面进行切换操作，从而使得设置语音播报的语种类别的操作难度较高。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语音识别设备语音切换方法及装置，旨在降低设置语音播报的语种类别的操作难度。

为实现上述目的，本发明提供的一种语音识别设备语音切换方法包括以下步骤：

接收用户输入的语音指令；

提取所述语音指令的声学特征；

根据所述语音指令的声学特征确定所述语音指令对应的语种类别；

控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别。

优选地，所述控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别之后还包括：

判断语音数据库中是否存在对应所述语种类别的语音数据包；

若是，则加载对应所述语种类别的语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复；

若否，则加载默认语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复。

优选地，所述根据所述语音指令的声学特征确定所述语音指令对应的语种类别包括：

判断声学模板库中是否存在与所述语音指令的声学特征匹配的预置声学特征；

若是，则将所述预置声学特征对应的语种类别设置为所述语音指令对应的语种类别；

若否，则将默认语种类别设置为所述语音指令对应的语种类别。

优选地，所述接收用户输入的语音指令之前还包括：

提取不同语种语音样本的声学特征并储存至声学模板库中。

优选地，所述声学特征包括线性预测系数(LPC)、Mel倒谱系数(MFCC)、感知线性预测(PLP)中的至少一者。

此外，为实现上述目的，本发明还提供一种语音识别设备语音切换装置，包括：

接收模块，用于接收用户输入的语音指令；

提取模块，用于提取所述语音指令的声学特征；

确定模块，用于根据所述语音指令的声学特征确定所述语音指令对应的语种类别；

控制模块，用于控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别。

优选地，所述语音识别设备语音切换装置还包括：

判断模块，用于判断语音数据库中是否存在对应所述语种类别的语音数据包；

答复模块，用于当语音数据库中存在对应所述语种类别的语音数据包时，加载对应所述语种类别的语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复；当语音数据库中不存在对应所述语种类别的语音数据包时，加载默认语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复。

优选地，所述确定模块包括：

判断单元，用于判断声学模板库中是否存在与所述语音指令的声学特征匹配的预置声学特征；

设置单元，用于当声学模板库中存在与所述语音指令的声学特征匹配的预置声学特征时，将所述预置声学特征对应的语种类别设置为所述语音指令对应的语种类别；当声学模板库中不存在与所述语音指令的声学特征匹配的预置声学特征时，将默认语种类别设置为所述语音指令对应的语种类别。

优选地，所述语音识别设备语音切换装置还包括提取模块，所述提取模块用于提取不同语种语音样本的声学特征并储存至声学模板库中。

本发明通过接收用户输入的语音指令；提取所述语音指令的声学特征；根据所述语音指令的声学特征确定所述语音指令对应的语种类别；控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别。由于根据用户输入语音指令的语种类别自动切换语音播报的语种类别，无需用户手动设置，从而达到了降低设置语音播报的语种类别的操作难度。

附图说明

图1为本发明语音识别设备语音切换方法第一实施例的流程示意图；

图2为本发明语音识别设备语音切换方法第二实施例的流程示意图；

图3为本发明语音识别设备语音切换方法一实施例中确定语音指令的语种类别的细化流程示意图；

图4为本发明语音识别设备语音切换装置第一实施例的功能模块示意图；

图5为本发明语音识别设备语音切换装置第二实施例的功能模块示意图；

图6为本发明语音识别设备语音切换装置一实施例中确定模块的细化功能模块示意图；

图7为本发明语音识别设备语音切换装置第三实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音识别设备语音切换方法，参照图1，在一实施例中，该语音识别设备语音切换方法包括：

步骤S10，接收用户输入的语音指令；

本实施例提供的语音识别设备语音切换方法可以应用于语音识别设备的工作控制中。例如，用户使用四川话输入语音指令，语音识别设备进行语音识别后，语音识别设备同样使用四川话进行语音播报答复。所述语音识别设备可以是手机、平板电脑、电脑、ATM(自动柜员机)、智能机器人等具有语音识别功能的设备。以下实施例以手机为例进行详细说明。

步骤S20，提取所述语音指令的声学特征；

步骤S30，根据所述语音指令的声学特征确定所述语音指令对应的语种类别；

步骤S40，控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别。

应当说明的是，从语言的角度，语种的差异性主要体现在各语种之间发音音素的不同，而音素的差异性又是通过声学特征来体现的。因此，通过提取所述语音指令的声学特征，可以确定所述语音指令的语种类别。本实施例中，提取所述语音指令的声学特征；根据所述语音指令的声学特征确定所述语音指令对应的语种类别；控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别。所述声学特征包括LPC(线性预测系数)、MFCC(Mel倒谱系数)、PLP(感知线性预测)等。

例如，当用户使用四川话输入语音指令时，手机进行语音识别后，确定所述语音指令的语种类别为中文四川话；控制手机将语音播报的语种类别切换为中文四川话。

本发明实施例通过接收用户输入的语音指令；提取所述语音指令的声学特征；根据所述语音指令的声学特征确定所述语音指令对应的语种类别；控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别。由于根据用户输入语音指令的语种类别自动切换语音播报的语种类别，无需用户手动设置，从而达到了降低设置语音播报的语种类别的操作难度。

进一步地，参照图2，基于上述实施例，本实施例中，上述步骤S40之后还包括：

S50，判断语音数据库中是否存在对应所述语种类别的语音数据包；若是，则执行步骤S60，否则执行步骤S70；

S60，加载对应所述语种类别的语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复；

S70，加载默认语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复。

可以理解的是，语音识别设备需要加载相应的语音数据包才能对用户输入的语音指令进行语音播报答复。本实施例中，在进行语音播报答复前，首先判断语音数据库中是否存在对应所述语种类别的语音数据包；若是，则加载对应所述语种类别的语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复；若否，则加载默认语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复。所述语音数据库存储有对应不同语种类别的语音数据包；所述默认语音数据包根据实际情况设置，例如，针对中国的手机用户可以设置所述默认语音数据包为对应中文普通话的语音数据包。当用户使用四川话输入语音指令“你叫啥子？”，手机进行语音识别后，确定所述语音指令的语种类别为中文四川话；若语音数据库中不存在对应中文四川话的语音数据包，则加载默认的对应中文普通话的语音数据包，使用中文普通话并根据预置规则进行语音播报答复。

应当说明的是，所述预置规则用于确定语音识别设备对所述语音指令进行语音播报答复时的答复信息。例如，可以设置预置规则为：当语音识别失败时，控制手机加载默认语音数据包进行语音播报：“识别失败，请重新输入”。

进一步地，参照图3，基于上述实施例，本实施中，上述步骤S30包括：

步骤S301，判断声学模板库中是否存在与所述语音指令的声学特征匹配的预置声学特征；若是，则执行步骤S302，否则执行步骤S303；

步骤S302，将所述预置声学特征对应的语种类别设置为所述语音指令对应的语种类别；

步骤S303，将默认语种类别设置为所述语音指令对应的语种类别。

本实施例中，通过将所述语音指令的声学特征与声学模板库中的预置声学特征一一进行比对，若存在与所述语音指令的声学特征匹配的预置声学特征，则将所述预置声学特征对应的语种类别设置为所述语音指令对应的语种类别；若不存在与所述语音指令的声学特征匹配的预置声学特征，则将默认语种类别设置为所述语音指令对应的语种类别。所述默认语种类别根据实际情况设置，例如，针对中国的手机用户可以设置所述默认语种类别为中文普通话，针对英国的手机用户可以设置所述默认语种类别为英语。

进一步地，基于上述实施例，本实施例中，上述步骤S10之前还包括：

提取不同语种语音样本的声学特征并储存至声学模板库中。

可以理解的是，由于语种的差异性主要体现在各语种之间发音音素的不同，而音素的差异性又是通过声学特征来体现的。本实施例中，在接收用户输入的语音指令之前，提取不同语种语音样本的声学特征并存入声学模板库中。通过将所述语音指令的声学特征与声学模板库中的预置声学特征进行一一比对，即可确定所述语音指令的语种类别。

本发明还提供一种语音识别设备语音切换装置，参照图4，在一实施例中，本发明提供的语音识别设备语音切换装置包括：

接收模块10，用于接收用户输入的语音指令；

本实施例提供的语音识别设备语音切换装置可以应用于语音识别设备的工作控制中。例如，用户使用四川话输入语音指令，语音识别设备进行语音识别后，语音识别设备同样使用四川话进行语音播报答复。所述语音识别设备可以是手机、平板电脑、电脑、ATM(自动柜员机)、智能机器人等具有语音识别功能的设备。以下实施例以手机为例进行详细说明。

提取模块20，用于提取所述语音指令的声学特征；

确定模块30，用于根据所述语音指令的声学特征确定所述语音指令对应的语种类别；

控制模块40，用于控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别。

应当说明的是，从语言的角度，语种的差异性主要体现在各语种之间发音音素的不同，而音素的差异性又是通过声学特征来体现的。因此，通过提取所述语音指令的声学特征，可以确定所述语音指令的语种类别。本实施例中，提取所述语音指令的声学特征；根据所述语音指令的声学特征确定所述语音指令对应的语种类别；控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别；所述声学特征包括LPC(线性预测系数)、MFCC(Mel倒谱系数)、PLP(感知线性预测)等。

进一步地，参照图5，基于上述实施例，本实施例中，所述语音识别设备语音切换装置还包括：

判断模块50，用于判断语音数据库中是否存在对应所述语种类别的语音数据包；

答复模块60，用于当语音数据库中存在对应所述语种类别的语音数据包时，加载对应所述语种类别的语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复；当语音数据库中不存在对应所述语种类别的语音数据包时，加载默认语音数据包并根据预置规则控制语音识别设备对所述语音指令进行语音播报答复。

进一步地，参照图6，基于上述实施例，本实施例中，所述确定模块30包括：

判断单元301，用于判断声学模板库中是否存在与所述语音指令的声学特征匹配的预置声学特征；

设置单元302，用于当声学模板库中存在与所述语音指令的声学特征匹配的预置声学特征时，将所述预置声学特征对应的语种类别设置为所述语音指令对应的语种类别；当声学模板库中不存在与所述语音指令的声学特征匹配的预置声学特征时，将默认语种类别设置为所述语音指令对应的语种类别。

进一步地，参照图7，基于上述实施例，本实施例中，所述语音识别设备语音切换装置还包括提取模块70，所述提取模块70用于提取不同语种语音样本的声学特征并储存至声学模板库中。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别设备语音切换方法，其特征在于，包括：

接收用户输入的语音指令；

提取所述语音指令的声学特征；

2.如权利要求1所述的语音识别设备语音切换方法，其特征在于，所述控制语音识别设备将语音播报的语种类别切换为所述语音指令对应的语种类别之后还包括：

3.如权利要求1所述的语音识别设备语音切换方法，其特征在于，所述根据所述语音指令的声学特征确定所述语音指令对应的语种类别包括：

4.如权利要求3所述的语音识别设备语音切换方法，其特征在于，所述接收用户输入的语音指令之前还包括：

提取不同语种语音样本的声学特征并储存至声学模板库中。

5.如权利要求1至4任一项所述的语音识别设备语音切换方法，其特征在于，所述声学特征包括线性预测系数(LPC)、Mel倒谱系数(MFCC)、感知线性预测(PLP)中的至少一者。

6.一种语音识别设备语音切换装置，其特征在于，包括：

接收模块，用于接收用户输入的语音指令；

提取模块，用于提取所述语音指令的声学特征；

7.如权利要求6所述的语音识别设备语音切换装置，其特征在于，所述语音识别设备语音切换装置还包括：

8.如权利要求6所述的语音识别设备语音切换装置，其特征在于，所述确定模块包括：

9.如权利要求8所述的语音识别设备语音切换装置，其特征在于，所述语音识别设备语音切换装置还包括提取模块，所述提取模块用于提取不同语种语音样本的声学特征并储存至声学模板库中。

10.如权利要求6至9任一项所述的语音识别设备语音切换装置，其特征在于，所述声学特征包括线性预测系数(LPC)、Mel倒谱系数(MFCC)、感知线性预测(PLP)中的至少一者。