CN115881094A

CN115881094A - 智能电梯的语音指令识别方法、装置、设备及存储介质

Info

Publication number: CN115881094A
Application number: CN202211406562.7A
Authority: CN
Inventors: 王宁; 李良斌
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-03-31

Abstract

本公开涉及一种智能电梯的语音指令识别方法、装置、设备及存储介质，该方法包括：收集电梯轿厢内用户发出的音频；识别音频中的命令词；确定音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出目标音频片段的用户发出的，目标音频片段为音频中包含命令词的音频片段；若否，则确定命令词有效，并根据命令词执行对应的电梯指令。本公开考虑到用户说出的电梯指令通常是简洁且字数较少的，若收集的音频中，命令词前的音频片段和/或命令词后的音频片段与命令词是同一用户所说，则认为该用户在聊天，说出命令词的乘梯意图不可信，相反则认为命令词有效，从而减少智能电梯***被语音指令误唤醒概率。

Description

智能电梯的语音指令识别方法、装置、设备及存储介质

技术领域

本公开涉及语音识别技术领域，具体涉及一种智能电梯的语音指令识别方法、装置、设备及存储介质。

背景技术

在智能电梯呼梯时，语音采集装置负责收集轿厢内的说话人音频，之后呼梯***利用自动语音识别技术对收集的音频做语音识别，当检索到识别结果中有例如“去一楼”、“关门”等呼梯命令时，呼梯***做出对应的响应到达指定的楼层或者关闭电梯门。

由于电梯中免不了出现用户交谈的情况，让收集到的音频中经常包含与命令词相似发音的词句，或是出现了命令词但并无乘梯意图的词句，让呼梯***出现了误唤醒的情况。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种智能电梯的语音指令识别方法、装置、设备及存储介质。

第一方面，本公开提供了一种智能电梯的语音指令识别方法，包括：

收集电梯轿厢内用户发出的音频；

识别所述音频中的命令词；

确定所述音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出所述目标音频片段的用户发出的，所述目标音频片段为所述音频中包含所述命令词的音频片段；

若否，则确定所述命令词有效，并根据所述命令词执行对应的电梯指令。

可选的，所述识别所述音频中的命令词之前，还包括：

对所述音频进行降噪处理。

可选的，所述识别所述音频中的命令词，包括：

将所述音频转换为对应的文本；

将所述文本与预设命令词进行语义比对，确定所述文本中与所述预设命令词相匹配的词为所述命令词。

可选的，所述将所述音频转换为对应的文本，包括：

将所述音频输入自动语音识别模型，得到所述自动语音识别模型输出的所述文本。

可选的，所述文本中标注有每个字在所述音频中的发音时间；

所述确定所述音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出所述目标音频片段的用户发出的，包括：

根据所述文本中，所述命令词的每个字对应的发音时间，定位所述目标音频片段在所述音频中的起始时间点和结束时间点；

将所述起始时间点之前的预设时长的音频作为所述第一音频片段；

将所述结束时间点之后的预设时长的音频作为所述第二音频片段；

将所述第一音频片段和所述第二音频片段分别与所述目标音频片段进行声纹特征比对，得到对应的比对结果；

根据对应的比对结果确定所述第一音频片段和/或所述第二音频片段是否为发出所述目标音频片段的用户发出的。

可选的，所述将所述第一音频片段和所述第二音频片段分别与所述目标音频片段进行声纹特征比对，得到对应的比对结果，包括：

分别将所述第一音频片段、所述第二音频片段和所述目标音频输入声纹特征提取模型，对应得到第一声纹特征、第二声纹特征和第三声纹特征；

确定所述第一声纹特征与所述第三声纹特征之间的第一相似度，和所述第二声纹特征与所述第三声纹特征之间的第二相似度；

将所述第一相似度和所述第二相似度作为比对结果。

可选的，所述根据对应的比对结果确定所述第一音频片段和/或所述第二音频片段是否为发出所述目标音频片段的用户发出的，包括：

若所述第一相似度大于预设阈值，则确定所述第一音频片段是发出所述目标音频片段的用户发出的；

若所述第二相似度大于预设阈值，则确定所述第二音频片段是发出所述目标音频片段的用户发出的。

第二方面，本公开提供了一种智能电梯的语音指令识别装置，包括：

收集模块，用于收集电梯轿厢内用户发出的音频；

识别模块，用于识别所述音频中的命令词；

确定模块，用于确定所述音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出所述目标音频片段的用户发出的，所述目标音频片段为所述音频中包含所述命令词的音频片段；

执行模块，用于确定所述命令词有效，并根据所述命令词执行对应的电梯指令。

可选的，所述装置还包括降噪模块，用于在识别所述音频中的命令词之前，对所述音频进行降噪处理。

可选的，所述识别模块在识别所述音频中的命令词时，具体用于将所述音频转换为对应的文本；将所述文本与预设命令词进行语义比对，确定所述文本中与所述预设命令词相匹配的词为所述命令词。

可选的，所述识别模块在将所述音频转换为对应的文本时，具体用于将所述音频输入自动语音识别模型，得到所述自动语音识别模型输出的所述文本。

可选的，所述文本中标注有每个字在所述音频中的发音时间；所述确定模块在确定所述音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出所述目标音频片段的用户发出的时，具体用于根据所述文本中，所述命令词的每个字对应的发音时间，定位所述目标音频片段在所述音频中的起始时间点和结束时间点；将所述起始时间点之前的预设时长的音频作为所述第一音频片段；将所述结束时间点之后的预设时长的音频作为所述第二音频片段；将所述第一音频片段和所述第二音频片段分别与所述目标音频片段进行声纹特征比对，得到对应的比对结果；根据对应的比对结果确定所述第一音频片段和/或所述第二音频片段是否为发出所述目标音频片段的用户发出的。

可选的，所述确定模块在将所述第一音频片段和所述第二音频片段分别与所述目标音频片段进行声纹特征比对，得到对应的比对结果时，具体用于分别将所述第一音频片段、所述第二音频片段和所述目标音频输入声纹特征提取模型，对应得到第一声纹特征、第二声纹特征和第三声纹特征；确定所述第一声纹特征与所述第三声纹特征之间的第一相似度，和所述第二声纹特征与所述第三声纹特征之间的第二相似度；将所述第一相似度和所述第二相似度作为比对结果。

可选的，所述确定模块在根据对应的比对结果确定所述第一音频片段和/或所述第二音频片段是否为发出所述目标音频片段的用户发出的时，具体用于若所述第一相似度大于预设阈值，则确定所述第一音频片段是发出所述目标音频片段的用户发出的；若所述第二相似度大于预设阈值，则确定所述第二音频片段是发出所述目标音频片段的用户发出的。

第三方面，本公开提供了一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法。

本公开提供的技术方案与现有技术相比具有如下优点：

本公开提供的智能电梯的语音指令识别方法、装置、设备及存储介质，通过在收集电梯轿厢中用户的音频后，识别该音频中的命令词，然后确定该音频中，命令词对应的目标音频片段之前的第一音频片段和/或目标音频片段之后的第二音频片段，是否为说出目标音频片段的用户所说的，若不是则确定目标命令词有效，并执行与命令词相应的电梯指令，其中原理是考虑到用户说出的电梯语音指令通常是简洁且字数较少的，若收集的音频中，命令词前的音频片段和/或命令词后的音频片段与命令词是同一用户所说，则认为该用户在聊天，说出命令词的乘梯意图不可信，相反则认为命令词表达的乘梯意图可信，如此可以更加准确的确定用户的乘梯意图，使得电梯语音指令的识别更准确，从而减少智能电梯***被语音指令误唤醒概率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的智能电梯的语音指令识别方法流程图；

图2为本公开实施例提供的一种应用场景的示意图；

图3为本公开实施例提供的智能电梯的语音指令识别装置的结构示意图；

图4为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

由于电梯中免不了出现用户交谈的情况，让收集到的音频中经常包含与命令词相似发音的词句，或是出现了命令词但并无乘梯意图的词句，让呼梯***出现了误唤醒的情况。针对上述问题，本公开实施例提供了一种智能电梯的语音指令识别方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的智能电梯的语音指令识别方法流程图。该方法可以由智能电梯的语音指令识别装置执行，该智能电梯的语音指令识别装置可以采用软件和/或硬件的方式实现，该智能电梯的语音指令识别装置可配置于电子设备中，例如服务器或终端。另外，该方法可以应用于图2所示的应用场景，该应用场景中包括电梯轿厢201、用户202、用户203、收音设备204和中控电脑205。可以理解的是，本公开实施例提供的智能电梯的语音指令识别方法还可以应用在其他场景中。

下面结合图2所示的应用场景，对图1所示的智能电梯的语音指令识别方法进行介绍，例如，图2中的中控电脑205可以执行该方法。该方法包括如下步骤：

S101、收集电梯轿厢内用户发出的音频。

示例性的，中控电脑205通过收音设备204持续收集电梯轿厢201内用户202和用户203发出的音频，在该场景中，用户202与用户203在交谈。

S102、识别音频中的命令词。

中控电脑205使用自动语音识别技术(ASR，Automatic Speech Recognition)识别收音设备204收集的音频中的命令词，例如，用户202与用户203交谈的音频包括，用户202向用户203的询问内容“你是准备去六楼吗？我记得你家住那”，中控电脑205识别到该音频中的命令词<去六楼>。

S103、确定音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出目标音频片段的用户发出的，目标音频片段为音频中包含命令词的音频片段。

中控电脑205将收集到的音频中，发出命令词的音频片段确定为目标音频片段，根据目标音频片段在收集到的音频中的位置，截取该位置之前的一段预设时长的片段作为第一音频片段，截取该位置之后的一段预设时长的片段作为第二音频片段，其中第一音频片段和第二音频片段均与目标音频片段不重合。

考虑到用户在乘梯时所发出的乘梯语音指令一般比较简洁且字数较少，通过确定第一音频片段和/或第二音频片段是否是发出目标音频片段的用户所发出的，来确定用户此次发出命令词的语音指令所表达的乘梯意图是否可信，若是，则认为用户在说出命令词时表达的乘梯意图是不可信的，若否，则认为用户在说出命令词时表达的乘梯意图是可信的。

例如，在S102中识别的命令词为<去六楼>，对应的目标音频片段即为“去六楼”，根据命令词对应的目标音频片段在收集的音频中的位置，中控电脑205截取的第一音频片段为“你是准备”，第二音频片段为“吗？我记”，通过将第一音频片段与目标音频片段进行声纹比对，确定第一音频片段和目标音频片段同为用户202所说，此时则认为用户202在说出命令词<去六楼>时表达的乘梯意图不可信。同样的，在将第二音频片段与目标音频片段进行声纹比对，确定第二音频片段和目标音频片段同为用户202所说后，也可认为用户202在说出命令词<去六楼>时表达的乘梯意图不可信，也就是说，在第一音频片段和第二音频片段中，只要有一条音频片段与说出目标音频片段的用户是同一人时，则认为命令词表达的乘梯意图不可信，减少智能电梯***被误唤醒的概率。相反的，若第一音频片段和第二音频片段，均与目标音频片段不是同一人说出，则认为命令词表达的乘梯意图可信，开始执行下一步骤。

如上文所述，若否，则执行S104。

S104、确定命令词有效，并根据命令词执行对应的电梯指令。

中控电脑205在确定第一音频片段和第二音频片段，均与目标音频片段不是同一用户发出的，则认为命令词表达的乘梯意图可信，中控电脑205确定命令词有效，并根据命令词的指示执行对应的电梯指令。例如，用户202说出“去六楼”，而用户203问“做什么去”，此时目标音频片段“去六楼”之前的第一音频片段为无人声音频，目标音频片段之后的第二音频片段为“做什么去”，而第二音频片段为用户203所说，中控电脑205确定第一音频片段不是用户202所说，第二音频片段也不是用户202所说，此时确定命令词<去六楼>有效，中控电脑205执行去六楼的电梯指令，将电梯轿厢201运至六楼。

本公开实施例通过在收集电梯轿厢中用户的音频后，识别该音频中的命令词，然后确定该音频中，命令词对应的目标音频片段之前的第一音频片段和/或目标音频片段之后的第二音频片段，是否为说出目标音频片段的用户所说的，若不是则确定目标命令词有效，并执行与命令词相应的电梯指令，其中原理是考虑到用户说出的电梯语音指令通常是简洁且字数较少的，若收集的音频中，命令词前的音频片段和/或命令词后的音频片段与命令词是同一用户所说，则认为该用户在聊天，说出命令词的乘梯意图不可信，相反则认为命令词表达的乘梯意图可信，如此可以更加准确的确定用户的乘梯意图，使得电梯语音指令的识别更准确，从而减少智能电梯***被语音指令误唤醒概率。

可选的，识别音频中的命令词之前，还包括：对音频进行降噪处理。

示例性的，中控电脑205在对收音设备204收集的音频进行自动语音识别之前，先对音频进行降噪处理，减少噪声对语音识别的影响。例如可以使用最小均方误差的降噪算法或是降噪模型来对收集的音频进行降噪处理，也可以在收音设备收集音频时就采用线性滤波器进行降噪。

本公开实施例通过对收集到的用户的音频进行降噪处理，减少噪声对语音识别的影响。

在上述实施的基础上，识别音频中的命令词，包括：将音频转换为对应的文本；将文本与预设命令词进行语义比对，确定文本中与预设命令词相匹配的词为命令词。

在中控电脑205是识别收集到的音频中的命令词时，首先将音频中包含的语音内容转换为对应的文本，然后将转换得到的文本与预设的命令词进行语义比对，得到文本中的字词与预设命令词相匹配的结果，将匹配结果中的词作为音频中的命令词。例如，词库中包括“去”、“X楼”等预设命令词，其中“X”为整数字，当用户202说出“上六楼”时，“上”在电梯指令的场景中被中控电脑205认为与“去”是语义相近的，而“六楼”为具体楼层，则可以确定“上六楼”是与预设命令词语义相匹配的结果，从而将“上六楼”识别为命令词。

在这种情况下，将音频转换为对应的文本，包括：将音频输入自动语音识别模型，得到自动语音识别模型输出的文本。

自动语音识别技术是一种将人的语音转换为文本的技术，它常通过模型来实现。通过深度神经网络可以训练得到适应广泛的动语音识别模型，例如datatang_asr模型是一个训练好的开源模型，可以省去获取数据集和训练模型步骤直接使用，此外也可以针对应用场景训练相应的自动语音识别模型。中控电脑205通过将收音设备204收集的音频输出到自动语音识别模型中，利用自动语音识别模型进行语音识别，得到输出的文本。

本公开实施例通过将音频输入自动语音识别模型转为对应的文本，然后将文本与预设命令词进行语义比对，得到匹配结果，将匹配结果中的词确定为命令词，利用语义比对来提高命令词识别的准确率。

在上述实施的基础上，文本中标注有每个字在音频中的发音时间；确定音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出目标音频片段的用户发出的，包括：根据文本中，命令词的每个字对应的发音时间，定位目标音频片段在音频中的起始时间点和结束时间点；将起始时间点之前的预设时长的音频作为第一音频片段；将结束时间点之后的预设时长的音频作为第二音频片段；将第一音频片段和第二音频片段分别与目标音频片段进行声纹特征比对，得到对应的比对结果；根据对应的比对结果确定第一音频片段和/或第二音频片段是否为发出目标音频片段的用户发出的。

中控电脑205利用自动语音识别模型将收集的音频转换为文本时，自动语音识别模型会通过音频中的帧的位置来计算音频中识别得到的每个字的起止时间，从而得到每个字的发音时间，并将文本中每个字发音时间对应的标注出来。中控电脑205利用文本中标注的每个字的发音时间，确定目标音频片段在音频中的起始时间点和结束时间点。例如，命令词<去六楼>中“去”字的发音起始时间为音频的第7秒，“楼”字的发音结束时间为音频的第8秒，即可确定目标音频片段的起始时间为音频的第7秒，结束时间为音频的第8秒。

中控电脑205利用起始时间点和结束时间点截取音频，得到第一音频片段和第二音频片段，接上文举例，若预设时长设定为3秒，中控电脑205则截取音频的第7秒之前的3秒时长的音频段为第一音频片段，即音频中第4秒到第6秒的音频段，以此类推，第二音频片段为音频中第9秒到第11秒的音频段。

然后中控电脑205会将截取得到的第一音频片段和第二音频片段，分别与目标音频片段进行声纹特征比对，得到对应的比对结果，并根据比对结果确定第一音频片段和/或第二音频片段，是否就是发出目标音频片段的用户发出的。其中，声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。因此通过比较音频片段的声纹特征，可以有效的确定这些音频片段是否为同一人发出。

在这种情况下，将第一音频片段和第二音频片段分别与目标音频片段进行声纹特征比对，得到对应的比对结果，包括：分别将第一音频片段、第二音频片段和目标音频输入声纹特征提取模型，对应得到第一声纹特征、第二声纹特征和第三声纹特征；确定第一声纹特征与第三声纹特征之间的第一相似度，和第二声纹特征与第三声纹特征之间的第二相似度；将第一相似度和第二相似度作为比对结果。

声纹特征提取模型是一种音频中包含的声纹特征转化为特征向量的模型，大多为深度学习模型，主流的声纹模型包括Emphasized Channel Attention,Propagation andAggregation in time delay neural network Based Speaker Verification(ECAPA-TDNN)。

中控电脑205分别将第一音频片段、第二音频片段和目标音频输入声纹特征提取模型进行特征提取，得到对应输出的第一声纹特征、第二声纹特征和第三声纹特征，然后使用向量相似度计算来得到第一声纹特征与第三声纹特征之间的第一相似度，和第二声纹特征与第三声纹特征之间的第二相似度，第一相似度即为第一音频片段与目标音频片段之间的声纹特征比对结果，第二相似度即第二音频片段与目标音频片段之间的声纹特征比对结果。

相应的，根据对应的比对结果确定第一音频片段和/或第二音频片段是否为发出目标音频片段的用户发出的，包括：若第一相似度大于预设阈值，则确定第一音频片段是发出目标音频片段的用户发出的；若第二相似度大于预设阈值，则确定第二音频片段是发出目标音频片段的用户发出的。

中控电脑205通过确定第一相似度与第二相似度是否大于预设阈值，确定第一音频片段和/或第二音频片段是否为发出目标音频片段的用户发出的。若第一相似度大于预设阈值，则说明第一音频片段是发出目标音频片段的用户发出的，若第二相似度大于预设阈值，则说明第二音频片段是发出目标音频片段的用户发出的。也就是说，当第一相似度和第二相似度均小于预设阈值时，即可确定第一音频片段和第二音频片段均不是发出目标音频片段的用户发出的，进而确定识别出来的命令词有效。

本公开实施例通过文本中标注的命令词的每个字的发音时间，确定目标音频片段在音频中的起始时间点和结束时间点，根据起始时间点和结束时间点截取音频中得到预设时长的第一音频片段和第二音频片段，然后将第一音频片段、第二音频片段和目标音频片段输出声纹特征提取模型，得到对应的第一声纹特征、第二声纹特征和第三声纹特征，之后确定第一声纹特征与第三声纹特征之间的第一相似度，以及第二声纹特征与第三声纹特征之间的第二相似度，若第一相似度大于预设阈值，则确定第一音频片段与目标音频片段是同一用户发出的，若第二相似度大于预设阈值，则确定第二音频片段与目标音频片段是同一用户发出的，从而实现确定收集的音频中，位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出目标音频片段的用户发出的，以确定用户发出命令词时的乘梯意图是否可信，进而判断命令词是否有效。

图3为本公开实施例提供的智能电梯的语音指令识别装置的结构示意图。该智能电梯的语音指令识别装置可以是如上实施例的终端中的部件或组件。本公开实施例提供的智能电梯的语音指令识别装置可以执行智能电梯的语音指令识别方法实施例提供的处理流程，如图3所示，该智能电梯的语音指令识别装置300包括：收集模块301，用于收集电梯轿厢内用户发出的音频；识别模块302，用于识别音频中的命令词；确定模块303，用于确定音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出目标音频片段的用户发出的，目标音频片段为音频中包含命令词的音频片段；执行模块304，用于确定命令词有效，并根据命令词执行对应的电梯指令。

在一些实施例中，该智能电梯的语音指令识别装置300还包括降噪模块305，用于在识别音频中的命令词之前，对音频进行降噪处理。

在一些实施例中，识别模块302在识别音频中的命令词时，具体用于将音频转换为对应的文本；将文本与预设命令词进行语义比对，确定文本中与预设命令词相匹配的词为命令词。

在一些实施例中，识别模块302在将音频转换为对应的文本时，具体用于将音频输入自动语音识别模型，得到自动语音识别模型输出的文本。

在一些实施例中，文本中标注有每个字在音频中的发音时间；确定模块303在确定音频中位于目标音频片段之前的第一音频片段，和/或位于目标音频片段之后的第二音频片段是否为发出目标音频片段的用户发出的时，具体用于根据文本中，命令词的每个字对应的发音时间，定位目标音频片段在音频中的起始时间点和结束时间点；将起始时间点之前的预设时长的音频作为第一音频片段；将结束时间点之后的预设时长的音频作为第二音频片段；将第一音频片段和第二音频片段分别与目标音频片段进行声纹特征比对，得到对应的比对结果；根据对应的比对结果确定第一音频片段和/或第二音频片段是否为发出目标音频片段的用户发出的。

在一些实施例中，确定模块303在将第一音频片段和第二音频片段分别与目标音频片段进行声纹特征比对，得到对应的比对结果时，具体用于分别将第一音频片段、第二音频片段和目标音频输入声纹特征提取模型，对应得到第一声纹特征、第二声纹特征和第三声纹特征；确定第一声纹特征与第三声纹特征之间的第一相似度，和第二声纹特征与第三声纹特征之间的第二相似度；将第一相似度和第二相似度作为比对结果。

在一些实施例中，确定模块303在根据对应的比对结果确定第一音频片段和/或第二音频片段是否为发出目标音频片段的用户发出的时，具体用于若第一相似度大于预设阈值，则确定第一音频片段是发出目标音频片段的用户发出的；若第二相似度大于预设阈值，则确定第二音频片段是发出目标音频片段的用户发出的。

图3所示实施例的智能电梯的语音指令识别装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本公开实施例提供的电子设备的结构示意图。该电子设备可以是如上实施例所述的服务器。本公开实施例提供的电子设备可以执行智能电梯的语音指令识别方法实施例提供的处理流程，如图4所示，电子设备400包括：存储器401、处理器402、计算机程序和通讯接口403；其中，计算机程序存储在存储器401中，并被配置为由处理器402执行如上所述的智能电梯的语音指令识别方法。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的智能电梯的语音指令识别方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种智能电梯的语音指令识别方法，其特征在于，包括：

收集电梯轿厢内用户发出的音频；

识别所述音频中的命令词；

2.如权利要求1所述的方法，其特征在于，所述识别所述音频中的命令词之前，还包括：

对所述音频进行降噪处理。

3.如权利要求1所述的方法，其特征在于，所述识别所述音频中的命令词，包括：

将所述音频转换为对应的文本；

4.如权利要求3所述的方法，其特征在于，所述将所述音频转换为对应的文本，包括：

5.如权利要求4所述的方法，其特征在于，所述文本中标注有每个字在所述音频中的发音时间；

6.如权利要求5所述的方法，其特征在于，所述将所述第一音频片段和所述第二音频片段分别与所述目标音频片段进行声纹特征比对，得到对应的比对结果，包括：

将所述第一相似度和所述第二相似度作为比对结果。

7.如权利要求6所述的方法，其特征在于，所述根据对应的比对结果确定所述第一音频片段和/或所述第二音频片段是否为发出所述目标音频片段的用户发出的，包括：

8.一种智能电梯的语音指令识别装置，其特征在于，包括：

收集模块，用于收集电梯轿厢内用户发出的音频；

识别模块，用于识别所述音频中的命令词；

9.一种电子设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。