CN109994106A

CN109994106A - 一种语音处理方法及设备

Info

Publication number: CN109994106A
Application number: CN201711481463.4A
Authority: CN
Inventors: 万玉龙; 高杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2019-07-09
Anticipated expiration: 2037-12-29
Also published as: CN109994106B

Abstract

本申请实施例公开了一种语音处理方法及设备。所述方法包括：对音频数据进行语音活动性检测，得到语音数据；从所述语音数据中识别出唤醒词；确定所述唤醒词在所述语音数据中的词尾结束时刻；对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。利用本申请提供的语音处理方式进行语音识别，可以准确划分出语音数据中语音指令的起始时刻，避免将唤醒词中冗余信息代入至后续的语音指令中，提高智能语音识别的准确性。

Description

一种语音处理方法及设备

技术领域

本申请涉及智能语音处理技术领域，特别涉及一种语音处理方法及设备。

背景技术

近年来，智能语音交互(Intelligent Speech Interaction)技术得到迅速发展，智能语音交互技术基于语音识别、语音合成、自然语言理解等技术，可以为企业在多种实际应用场景下赋予产品“能听、会说、懂你”式的智能人机交互体验。智能语音交互技术可以适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等诸多场景，在金融、保险、司法、电商等多个领域均有应用案例。

在智能语音交互的过程中，一般只有通过语音唤醒之后才可以对智能设备发出语音指令。在语音唤醒的过程中，用户可以通过语音发出预设唤醒词唤醒设备。例如，在一个示例中，智能汽车的唤醒词为“你好，咚咚”，当用户语音发出“你好，咚咚”的唤醒词之后，智能汽车的语音识别***只有在识别出用户发出正确的唤醒词之后，才可以接收用户发出的语音指令，如播放音乐、导航、拨打电话等等。根据实际的应用需求，用户在说出唤醒词之后，往往会紧接着说出语音指令，例如，在上述示例中，用户可以在一开始发出“你好，咚咚，今天的天气如何”的语音指令。为了满足上述用户需求，现有技术中提出唤醒词及语音语义理解的一体化识别方式，即在通过唤醒词识别之后，紧接着识别唤醒词之后的语音指令。这样，可以实现唤醒与语音操控之间的零间隔和零延迟，减少用户语音操控的步骤，提高效率。但是，现有技术中对唤醒词与语音指令之间间隔时刻的识别方式往往不够准确，导致识别出的语音指令与实际的语音指令存在偏差。

因此，现有技术中亟需一种能够准确识别出唤醒词与语音指令之间间隔时刻的方式。

发明内容

本申请实施例的目的在于提供一种语音处理方法及设备，可以避免将唤醒词中冗余信息代入至后续的语音指令中，提高智能语音识别的准确性。

本申请实施例提供的语音处理方法及设备具体是这样实现的：

一种语音处理方法，所述方法包括：

对音频数据进行语音活动性检测，得到语音数据；

从所述语音数据中识别出唤醒词；

确定所述唤醒词在所述语音数据中的词尾结束时刻；

对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。

一种语音处理设备，包括麦克风、语音活动性检测模块、唤醒词检测模块、语音识别模块，其中，

所述麦克风，用于获取音频数据；

所述语音活动性检测模块，用于对所述音频数据进行语音活动性检测，得到语音数据；

所述唤醒词检测模块，用于从所述语音数据中识别出唤醒词，并确定所述唤醒词在所述语音数据中的词尾结束时刻；

所述语音活动性检测模块，还用于对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测；

所述语音识别模块，用于识别通过所述第二次语音活动性检测的音频数据中的语音指令。

一种语音处理设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述语音处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述语音处理方法的步骤。

一种车载***，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述语音处理方法的步骤。

一种会议***，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述语音处理方法的步骤。

本申请提供的一种语音处理方法及装置，可以识别出语音数据中唤醒词的词尾结束时刻，并以所述词尾结束时刻为起点，识别所述语音数据中的语音指令。利用本申请提供的语音处理方式进行语音识别，可以准确划分出语音数据中语音指令的起始时刻，避免将唤醒词中冗余信息代入至后续的语音指令中，提高智能语音识别的准确性。另外，在确定唤醒词的词尾结束时刻之后，对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，若唤醒词与语音指令之间存在非语音噪声，则可以消除所述非语音噪声对语音指令识别的干扰，进一步增强语音指令识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的语音处理方法的应用场景示意图；

图2是本申请提供的语音处理方法的应用场景示意图；

图3是本申请提供的语音处理方法的应用场景示意图；

图4是本申请提供的语音处理方法的一种实施例的方法流程图；

图5是本申请提供的语音处理设备的一种实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

由上述可知，现有技术中提出唤醒词及语音语义理解的一体化识别方式，即在通过唤醒词识别之后，紧接着识别唤醒词之后的语音指令。这样，可以实现唤醒与语音操控之间的零间隔和零延迟，减少用户语音操控的步骤，提高效率。在一个示例中，某智能汽车中智能语音交互设备的唤醒词为“你好，斑马”，用户在利用唤醒词唤醒智能语音交互设备并发出语音指令时，可以发出“你好，斑马，今天的天气如何”、“你好，斑马，请导航去体育馆”、“你好，斑马，打电话给妈妈”等唤醒词加语音指令的语音。现有技术中，在对上述语音进行唤醒词及语音指令的识别过程中，往往不能准确地确定唤醒词的结束时刻，经常将一些冗余的语音信息添加至语音指令中，导致语音指令识别不准确，甚至不能识别出语音指令。出现上述情况的原因有多种，例如，不同用户的发音习惯不相同，有些用户发音语速很快，此时，智能语音交互设备可以准确识别出唤醒词的结束时刻。而有些用户喜欢发出长音，例如在发音“斑马”时，习惯将“马”字说成长音“马--”，此时，智能语音交互设备在识别唤醒词的结束时间点可能比实际的要提前，并将“马”字后面的长音识别进后续的语音指令中。例如，习惯发出长音的用户在说出“你好，斑马，今天的天气如何”之后，智能语音交互设备识别出的语音指令可能是“啊今天的天气如何”，即将斑马之后的拖音代入至语音指令中。在其他情况下，如一些用户习惯在说出唤醒词之后隔一段时间再说语音指令，此时，智能语音交互设备可能会将周围环境的噪声代入至语音指令中。

基于类似于上文描述的技术需求，本申请提供的语音处理方法可以准确地识别出唤醒词的结束时刻，避免将冗余信息代入至后续的语音指令中，提高智能语音识别的准确性。

下面通过几个具体的应用场景说明本实施例方法的具体实施方式。

场景一

如图1所示的场景示意图，用户小明的汽车具有智能语音识别的功能，并且设置的唤醒词为“你好，斑马”。用户小明只要说出唤醒词+语音指令，车上的智能语音识别客户端即可以根据所述语音指令控制相关设备以实现用户的需求。例如，根据语音数据“你好，斑马，今天的天气如何”，车上的智能语音识别客户端即可以从搜索引擎中搜索到天气信息，并播报给用户小明。基于上述语音数据，当智能语音识别客户端检测到语音数据中的唤醒词“你好，斑马”时，所述智能语音识别客户端被唤醒，触发对唤醒词的词尾结束时刻进行识别。例如，对于唤醒词“你好，斑马”，最后一个音节应该是ma的韵母a，通过对韵母a的检测，可以确定唤醒词“你好，斑马”的词尾结束时刻。然后，可以以所述唤醒词的词尾结束时刻作为起点，识别唤醒词之后的语音指令。

场景二

本申请提供的技术方案还可以应用于公共场合中的智能购票机、智能贩卖机等设备上。例如，如图2所示的场景示意图，用户在使用智能购票机进行购票时，需要说出唤醒词以唤醒只能购票机，在一个示例中，用户需要发出类似于“你好，小爱，到人民广场”这样的语音才可以唤醒智能购票机。智能购票机在获取到上述语音数据之后，可以识别出其中的唤醒词“你好，小爱”。在实际的语音场景中，各个用户的发音习惯受文化、地域等影响，各不相同，因此，需要确定唤醒词的词尾结束时刻，避免将唤醒词中的冗余信息代入至语音指令中，影响语音识别的准确性。同样地，通过对唤醒词尾字“爱”的音节ai进行检测，可以确定唤醒词“你好，小爱”的词尾结束时刻。然后，可以以所述唤醒词的词尾结束时刻作为起点，识别唤醒词之后的语音指令。

当然，本申请提供的技术方案还可以应用于其他场景中，如图3所示的会议场景，用户需要发出类似于“你好，小蜜，开始会议记录”的语音可以唤醒智能会议助手，以开始会议记录。另外，本申请提供的技术方案还可以应用于其他智能客户端上，客户端可以是具有录音功能的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者，客户端也可以为能够运行于上述电子设备中的软件。例如，电子设备中提供录音功能，软件可以通过调用该录音功能录制音频文件。

下面结合附图对本申请所述的语音处理方法进行详细的说明。图4是本申请提供的语音处理方法的一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的语音处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

S401：对音频数据进行语音活动性检测，得到语音数据。

S403：从所述语音数据中识别出唤醒词。

S405：确定所述唤醒词在所述语音数据中的词尾结束时刻。

S407：对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。

本实施例中，首先，可以获取音频数据，所述音频数据不仅可以包括人说话的声音，还可以包括其他的如音乐声、汽车行驶时发出的声音、游戏声、动物叫声等非语音声音。如上所述，可以由智能语音客户端对获取的音频数据进行处理，此时，客户端可以对所述音频数据进行语音活动性检测，当识别到所述音频数据中的有效语音数据时，获取所述语音数据。

在智能语音客户端中，只有识别到语音数据中具有唤醒词时，才可以启动所述智能语音客户端进行语音识别。本实施例中，可以对所述语音数据进行唤醒词检测。具体地，可以将所述语音数据与唤醒词进行匹配，当从所述语音数据中匹配得到与所述唤醒词相同的数据时，可以确定所述语音数据中包括所述唤醒词。需要说明的是，所述唤醒词可以预先设置，当识别出所述语音数据中包括所述唤醒词时，可以触发启动所述智能语音客户端。在以上所述的示例中，“你好，咚咚”、“你好，斑马”等均是相对于特定智能语音客户端的唤醒词。所述语音指令还包括紧接着所述唤醒词之后连续发出的语音指令，所述语音指令用于指示所述智能语音客户端提供相应的服务，如查询天气、查看股票指数、网络购物、播放音乐等等。例如，在上述示例中，所述“今天的天气如何”、“请导航去体育馆”、“打电话给妈妈”等均是紧接着唤醒词“你好，斑马”之后的语音指令。所述智能语音客户端在识别出所述唤醒词以及所述语音指令之后，可以执行所述语音指令，满足用户的要求。

本实施例中，所述智能语音客户端在接收到所述语音数据之后，可以识别出所述唤醒词的词尾结束时刻。具体地，所述智能语音客户端可以识别出所述唤醒词的尾字，所述尾字包括所述唤醒词的最后一个字，如上述“你好，咚咚”中的“咚”，“你好，斑马”中的“马”。所述尾字的最后一个音节可以作为所述唤醒词的词尾结束时刻。例如，上述两个唤醒词的尾字中，“咚”的最后一个音节为“ong”，“马”的最后一个音节为“a”。在汉语中，汉字的发音通常由声母与韵母组成，声母在前，韵母在后，因此，一般尾字的最后一个音节为韵母，如a、o、e、i、u、ai、ei、ui、ao、an、en、in、un、ang等。当然，在其他语言中，尾字的最后一个音节具有类似的确定方式，如在英语中，唤醒词“Hi，Jack”的尾字“Jack”的最后一个音节为“k”。在其他实施例中，如在汉语中，所述唤醒词的尾字的最后一个音节可能并不是汉字拼音中的韵母，而是与用户的发音习惯有关，此时，可以在确定用户的发音习惯之后，确定所述唤醒词尾字的最后一个音节。在一个实施例中，所述用户的发音习惯可以根据所述用户的历史语音数据学习得到，也可以根据统计得到分地域、分人群的用户发音习惯，本申请对此不做限制。

本实施例中，可以将所述尾字最后一个音节的结束时刻作为所述唤醒词的词尾结束时刻。本实施例中，在确定所述尾字最后一个音节的结束时刻之前，需要首先对所述语音数据进行唤醒词检测，若检测到所述唤醒词，则可以触发识别所述唤醒词的词尾结束时刻。例如，当所述唤醒词为“你好，斑马”时，在对所述唤醒词进行检测的过程中，当检测到唤醒词“你好，斑马”时，可能此时尾字“马”的最后一个音节的发音还未结束。也就是说，当唤醒词通过检测时，触发对所述尾字最后一个音节的结束时刻的确定。

在确定所述最后一个音节的结束时刻的过程中，可以先获取所述最后一个音节的起始发音时刻。例如，在上述唤醒词“你好，斑马”中的尾字“马”的最后一个音节为a，当所述唤醒词“你好，斑马”通过检测时，则将音节a开始发音的时刻作为时间起点，在预设时间段内按照预设频率采集所述语音数据的音素。当所述音素发生变化时，将音素发生变化的时刻作为所述最后一个音节的结束时刻。本实施例中，所述语音数据的音素为语音的最小单元，在采集所述语音数据的音素的过程中，可以在预设时间段内按照预设频率采集，所述预设时间段例如2秒，预设频率例如20毫秒。采集到若干个音素之后，可以对所述若干个音素进行对比，若发现音素发生了变化，则将所述音素发生变化的时刻作为所述尾字的发音结束时刻。例如，在一个示例中，在对唤醒词“你好，斑马”的尾字“马”的最后一个音节a进行音素采集之后，生成“a,a,a,a,a,a,a,a,[空白],j,in,t,ian”的音素序列，可以发现，在上述音素序列中，在某个时刻，音素a变成了空白，此时，可能用户完成对唤醒词尾字“马”的发音，经过一个短暂的停顿之后，发出语音指令。此时，可以将上述音素序列中最后一个音节为a的音素的时刻作为所述尾字最后一个音节的结束时刻。

本实施例中，在确定所述唤醒词在所述语音数据中的词尾结束时刻之后，可以对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。具体地，在本申请的一个实施例中，在识别所述语音指令的过程中，可以以所述唤醒词的所述词尾结束时刻为时间起点，对所述语音数据进行第二次语音活动性检测。在一个实施例中，可以从所述音频数据中截取以所述词尾结束时刻为起点之后的数据，对所述数据进行语音活动性检测。当检测到所述语音数据中出现有效语音时，可以对所述语音数据中的语音指令进行语音识别。本实施例中，可以避免所述唤醒词的发音一结束就对所述语音指令进行识别，这样会造成语音数据的冗余。出现上述情况的原因在于，在现实情况下，很多用户在发出唤醒词之后，往往会间隔一段时间再发出语音指令，而间隔的时间段中可能存在各种非语音的声音，如汽车行驶时发出的声音、外面自然环境的声音、音乐声等等。如果将间隔的时间段识别成语音指令的一部分，将使得语音指令识别过程中产生冗余的处理信息，降低处理效率，甚至可能造成语音指令识别的不准确。因此，在本实施例中，可以以所述唤醒词的所述词尾结束时刻为时间起点，对所述语音数据进行语音活动检测，当检测到所述语音数据中出现有效语音时，开始对所述语音指令进行语音识别。这样，可以通过有效语音的检测过程，过滤不必要的非语音的声音，提高语音指令识别的效率以及准确度。

在本申请的一个实施例中，所述语音数据中可以包括来自多个音频通道的子音频数据。例如，在智能汽车中，可以具有多个音频通道，每个音频通道还可以连接到麦克风设备上。此时，通过多个音频通道上各自连接的麦克风设备，可以获取到来自所述多个音频通道的子音频数据。本实施例中，可以分别对所多个子音频数据进行唤醒词检测，若检测到其中一个音频通道的子音频数据中出现唤醒词时，则将所述音频通道作为目标音频通道，并停止对其它音频通道的子音频数据进行唤醒词检测。在一个具体的示例中，智能汽车上具有多个音频通道，每个音频通道通过麦克风设备录制语音数据。例如，在智能汽车上，主驾驶与副驾驶的座位前方都设置有麦克风设备，所述麦克风设备各自通过音频通道连接到智能语音客户端上。所述智能语音客户端在进行唤醒词检测的过程中，可以同时检测多个音频通道录制的子音频数据，其中包括连接主驾驶和副驾驶麦克风设备的音频通道。若所述智能语音客户端首先检测到主驾驶的音频通道获取的子音频数据中包括唤醒词，则可以将主驾驶的音频通道作为目标音频通道，另外，还可以停止检测除主驾驶之外的其他音频通道的子音频数据。这样，在语音指令识别过程中，只需要采集主驾驶音频通道获取的音频数据，提高语音数据的处理效率。

本申请另一方面还提供一种语音处理设备，图5是本申请提供的语音处理设备的一种实施例的模块结构示意图，如图5所示，所述设备可以包括麦克风、语音活动性检测模块、唤醒词检测模块、语音识别模块，其中，

所述麦克风，用于获取音频数据；

可选的，在本申请的一个实施例中，所述确定所述唤醒词在所述语音数据中的词尾结束时刻可以包括：

获取所述唤醒词的尾字以及所述尾字的最后一个音节；

确定所述最后一个音节的结束时刻；

将所述结束时刻作为所述唤醒词的词尾结束时刻。

可选的，在本申请的一个实施例中，所述确定所述最后一个音节的结束时刻可以包括：

获取所述最后一个音节的起始发音时刻；

以所述起始发音时刻作为起点，在预设时间段内按照预设频率采集所述语音数据的音素；

当所述音素发生变化时，将音素发生变化的时刻作为所述最后一个音节的结束时刻。

可选的，在本申请的一个实施例中，所述对所述音频数据以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令可以包括：

从所述音频数据中截取以所述词尾结束时刻为起点之后的数据；

对所述数据进行语音活动性检测；

当确定所述数据中存在有效语音时，识别所述数据中的语音指令。

可选的，在本申请的一个实施例中，所述从所述语音数据中识别出唤醒词可以包括：

将所述语音数据与唤醒词进行匹配；

当从所述语音数据中匹配得到与所述唤醒词相同的数据时，确定所述语音数据中包括所述唤醒词。

可选的，在本申请的一个实施例中，若所述语音数据中包括来自多个音频通道的子语音数据，则所述从所述语音数据中识别出唤醒词可以包括：

分别对所述来自多个音频通道的子音频数据进行唤醒词检测；

若检测到其中一个音频通道的子音频数据中出现唤醒词时，则将所述音频通道作为目标音频通道，并停止对其它音频通道的子音频数据进行唤醒词检测。

本申请提供的一种语音处理方法及设备，可以识别出语音数据中唤醒词的词尾结束时刻，并以所述词尾结束时刻为起点，识别所述语音数据中的语音指令。利用本申请提供的语音处理方式进行语音识别，可以准确划分出语音数据中语音指令的起始时刻，避免将唤醒词中冗余信息代入至后续的语音指令中，提高智能语音识别的准确性。另外，在确定唤醒词的词尾结束时刻之后，对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，若唤醒词与语音指令之间存在非语音噪声，则可以消除所述非语音噪声对语音指令识别的干扰，进一步增强语音指令识别的准确性。

在本实施方式中，客户端可以是具有录音功能的电子设备。根据客户端数据处理能力的不同，可以被划分成以下类别。

表1

在本实施方式中，初级网络设备的硬件设备较为简单，可以进行通过麦克风进行录音，生成音频信息。并将生成的音频信息通过网路通信模块发送给服务器。初级网络设备可以包括麦克风、网络通信单元、传感器和扬声器。初级网络设备可以基本上不需要对数据进行加工处理。初级网络设备还可以设置有其它的传感器，用于采集初级网络设备的工作参数。具体的，例如，初级网络设备可以是物联网设备、边缘节点设备等。

在本实施方式中，简单网络设备可以主要包括：麦克风、网络通信单元、处理器、存储器、扬声器等。简单网络设备相较于初级网络设备增强了数据处理的能力。简单网络设备可以具有一个能处理简单逻辑运算的处理器，使得简单网络设备在采集到数据之后，可以对数据进行初步的预处理，比如可以根据音频信息生成特征矩阵。简单网络设备可以具有一个具有简单显示功能的显示模块，可以用于向用户反馈信息。具体的，例如，简单网络设备可以是智能可穿戴设备、POS(point of sale)机等。例如，智能手环、较初级的智能手表、智能眼镜，或是线下购物场所内的结算设备(例如，POS机)、移动式结算设备(例如，手持式POS机、附加在手持设备上的结算模块)等。

在本实施方式中，中级网络设备可以主要包括麦克风、网络通信单元、处理器、存储器显示器、扬声器等。中级网络设备的处理器的主频通常小于2.0GHz，内存容量通常少于2GB，存储器的容量通常少于128GB。中级网络设备可以对录制的音频信息进行一定程度的处理，比如生成特征矩阵，对特征矩阵进行端点检测处理、降噪处理、语音识别等。具体的，例如，中级网络设备可以包括：智能家居中的智能家用电器、智能家庭终端、智能音箱、较高级的智能手表、较为初级的智能手机(比如，价位在1000元左右)、车载智能终端。

在本实施方式中，智能网络设备可以主要包括麦克风、网络通信单元、处理器、存储器、显示器、扬声器等硬件。智能网络设备可以具有较强的数据处理能力。智能网络设备的处理器的主频通常大于2.0GHz，内存的容量通常小于12GB，存储器的容量通常小于1TB。可以对音频信息生成特征矩阵之后，可以进行端点检测处理、降噪处理、语音识别等。进一步的，智能网络设备还可以根据音频信息生成语音特征向量。在一些情况下，可以将语音特征向量与用户特征向量进行匹配，识别用户的身份。但这种匹配限于有限个数的用户特征向量，比如一个家庭中的各个家庭成员的用户特征向量。具体的，例如，智能网络设备可以包括：性能较好的智能手机、平板电脑、台式电脑、笔记本电脑等。

在本实施方式中，高性能设备可以主要包括麦克风、网络通信单元、处理器、存储器、显示器、扬声器等硬件。高性能设备可以具有大规模的数据运算处理能力，还可以提供强大的数据存储能力。高性能设备的处理器主频通常在3.0GHz以上，内存的容量通常大于12GB，存储器容量可以在1TB以上。高性能设备可以对音频信息生成特征矩阵、端点检测处理、降噪处理、语音识别、生成语音特征向量，以及将语音特征向量与存储的大量的用户特征向量进行匹配。具体的，例如，高性能设备可以是工作站、配置很高的台式电脑、Kiosk智能电话亭、自助服务机等。

当然，上述只是示例的方式列举了一些客户端。随着科学技术进步，硬件设备的性能可能会有提升，使得上述目前数据处理能力较弱的电子设备，也可能具备较强的处理能力。所以下文中实施方式引用上述表1中的内容，也仅作为示例参考，并不构成限定。

值得注意的是，上述表1所示的五种类型的硬件都可以实现上述的数据更新优化方法。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

对音频数据进行语音活动性检测，得到语音数据；

从所述语音数据中识别出唤醒词；

确定所述唤醒词在所述语音数据中的词尾结束时刻；

2.根据权利要求1所述的方法，其特征在于，所述确定所述唤醒词在所述语音数据中的词尾结束时刻包括：

获取所述唤醒词的尾字以及所述尾字的最后一个音节；

确定所述最后一个音节的结束时刻；

将所述结束时刻作为所述唤醒词的词尾结束时刻。

3.根据权利要求2所述的方法，其特征在于，所述确定所述最后一个音节的结束时刻包括：

获取所述最后一个音节的起始发音时刻；

4.根据权利要求1所述的方法，其特征在于，所述对所述音频数据以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令包括：

对所述数据进行语音活动性检测；

5.根据权利要求1所述的方法，其特征在于，所述从所述语音数据中识别出唤醒词包括：

将所述语音数据与唤醒词进行匹配；

6.根据权利要求1所述的方法，其特征在于，若所述语音数据中包括来自多个音频通道的子语音数据，则所述从所述语音数据中识别出唤醒词包括：

7.一种语音处理设备，其特征在于，包括麦克风、语音活动性检测模块、唤醒词检测模块、语音识别模块，其中，

所述麦克风，用于获取音频数据；

8.根据权利要求7所述的设备，其特征在于，所述确定所述唤醒词在所述语音数据中的词尾结束时刻包括：

获取所述唤醒词的尾字以及所述尾字的最后一个音节；

确定所述最后一个音节的结束时刻；

将所述结束时刻作为所述唤醒词的词尾结束时刻。

9.根据权利要求8所述的设备，其特征在于，所述确定所述最后一个音节的结束时刻包括：

获取所述最后一个音节的起始发音时刻；

10.根据权利要求7所述的设备，其特征在于，所述对所述音频数据以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令包括：

对所述数据进行语音活动性检测；

11.根据权利要求7所述的设备，其特征在于，所述从所述语音数据中识别出唤醒词包括：

将所述语音数据与唤醒词进行匹配；

12.根据权利要求7所述的设备，其特征在于，若所述语音数据中包括来自多个音频通道的子语音数据，则所述从所述语音数据中识别出唤醒词包括：

13.一种语音处理设备，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至6中任一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至6中任一项所述方法的步骤。

15.一种车载***，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至6中任一项所述方法的步骤。

16.一种会议***，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至6中任一项所述方法的步骤。