CN109389978A

CN109389978A - 一种语音识别方法及装置

Info

Publication number: CN109389978A
Application number: CN201811306260.6A
Authority: CN
Inventors: 韩雪; 王慧君; 毛跃辉; 陶梦春
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-02-26
Anticipated expiration: 2038-11-05
Also published as: CN109389978B

Abstract

本申请提供一种语音识别方法及装置。该方法包括：根据预存的第一用户的第一位置的信息接收语音，该语音包括第一用户的第一语音命令和噪声，然后根据预存的第一用户的声纹信息，从该语音中识别出第一语音命令。该方案中，通过预存的第一用户的第一位置的信息去接收语音，再通过预存的第一用户的声纹信息，从接收的语音中去识别与第一用户的声纹信息匹配的语音命令，并执行该语音命令对应的功能，因此可以提高在噪声环境中的语音识别的精确度。

Description

一种语音识别方法及装置

技术领域

本申请涉及语音控制技术领域，尤其涉及一种语音识别方法及装置。

背景技术

语音智能控制设备，可以接收用户的语音，并对用户的语音进行解析得到语音命令，然后根据语音命令去执行相应的功能。

现有的语音智能控制设备，在使用时，如果周围的环境比较嘈杂，用户下达的语音命令被周围的环境所干扰，语音智能控制设备可能无法根据用户下达的语音命令解析出语音命令，或者可能解析出错误的语音命令。

发明内容

本申请提供一种语音识别方法及装置，用以提高语音智能控制设备在噪声环境中的语音识别精确度。

第一方面，本申请提供一种语音识别方法，该方法包括：根据预存的第一用户的第一位置的信息接收语音，该语音包括第一用户的第一语音命令和噪声，然后根据预存的第一用户的声纹信息，从该语音中识别出第一语音命令。该方案中，通过预存的第一用户的第一位置的信息去接收语音，再通过预存的第一用户的声纹信息，从接收的语音中去识别与第一用户的声纹信息匹配的语音命令，并执行该语音命令对应的功能，因此可以提高在噪声环境中的语音识别的精确度。

在一种可能的实现方式中，上述根据预存的第一用户的第一位置的信息接收语音，包括：根据预存的第一用户的第一位置的信息，确定语音采集策略，然后根据语音采集策略来接收语音。该语音采集策略为：在语音接收范围内的任一位置的语音接收强度与第一距离成反比，其中，第一距离为任一位置与第一位置之间的距离，语音接收范围包括第一用户的第一位置。该方案通过语音采集策略，对不同的位置采取不同的语音接收强度，且对预存的第一用户的第一位置附近的语音接收强度更强，有助于更好的接收第一用户的语音命令。

在一种可能的实现方式中，上述接收语音之前，还可以包括：接收第一用户的第二语音命令，并根据第二语音命令，确定并存储第一用户的声纹信息和/或第一用户的第一位置的信息。该方案中存储的第一用户的第一位置的信息用于确定上述语音采集策略，存储的第一用户的声纹信息用于从接收的语音中识别出第一语音命令。

在一种可能的实现方式中，上述方法还可以包括：根据第一语音命令，确定第一语音命令对应的位置的信息，并根据第一语音命令对应的位置的信息，更新第一位置信息。该方案，在接收到第一语音命令之后，更新存储的第一用户的位置信息，用以调整上述语音采集策略，有助于更好的接收第一用户的语音命令。

在一种可能的实现方式中，上述根据预存的第一用户的声纹信息，从语音中识别出所述第一语音命令，包括：根据预存的第一用户的声纹信息和第一用户的第一位置的信息，从语音中识别出所述第一语音命令。该方案，识别的语音命令同时与预存的第一用户的声纹信息和第一用户的第一位置的信息，因此该方案中，识别出的语音命令准确度更高。

第二方面，本申请提供一种语音识别装置，该语音识别装置包括：语音接收单元、语音识别单元，其中，语音接收单元，用于根据预存的第一用户的第一位置的信息接收语音，该语音包括第一用户的第一语音命令和噪声。语音识别单元，用于根据预存的第一用户的声纹信息，从该语音中识别出第一语音命令。该方案中，通过预存的第一用户的声纹信息，从接收的语音中去识别与第一用户的声纹信息匹配的语音命令，并执行该语音命令对应的功能，因此可以提高在噪声环境中的语音识别的精确度。

在一种可能的实现方式中，上述装置还可以包括确定单元，用于根据预存的第一用户的第一位置的信息，确定语音采集策略，该语音采集策略为：在语音接收范围内的任一位置的语音接收强度与第一距离成反比，其中，第一距离为任一位置与第一位置之间的距离，语音接收范围包括第一用户的第一位置。上述语音接收单元具体用于，根据语音采集策略接收语音。该方案通过语音采集策略，对不同的位置采取不同的语音接收强度，且对预存的第一用户的第一位置附近的语音接收强度更强，有助于更好的接收第一用户的语音命令。

在一种可能的实现方式中，上述语音接收单元还可以用于接收第一用户的第二语音命令，上述装置还可以包括声纹识别单元、声源定位单元和存储单元，其中，声纹识别单元用于根据第二语音命令，确定第一用户的声纹信息。声源定位单元用于根据第二语音命令，确定第一用户的第一位置的信息。存储单元用于存储第一用户的声纹信息和/或第一位置的信息。该方案中存储的第一用户的第一位置的信息用于确定上述语音采集策略，存储的第一用户的声纹信息用于从接收的语音中识别出第一语音命令。

在一种可能的实现方式中，上述声源定位单元，还可以用于，根据第一语音命令，确定第一语音命令对应的位置的信息。上述存储单元还可以用于，根据第一语音命令对应的位置的信息，更新第一位置的信息。该方案，在接收到第一语音命令之后，更新存储的位置信息，以便调整上述语音采集策略，有助于更好的接收第一用户的语音命令。

在一种可能的实现方式中，上述语音识别单元，具体用于，根据预存的第一用户的声纹信息和第一用户的第一位置的信息，从语音中识别出所述第一语音命令。该方案，识别的语音命令同时与预存的第一用户的声纹信息和第一用户的第一位置的信息，因此该方案中，识别出的语音命令准确度更高。

第三方面，本发明实施例提供一种网络设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行前述第一方面或第一方面中任一实施例所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行前述第一方面或第一方面中任一实施例所述的方法。

附图说明

图1为本申请提供的一种语音识别方法流程示意图；

图2为本申请提供的一种语音识别应用场景示意图；

图3为本申请提供的一种语音识别装置示意图；

图4为本申请提供的一种网络设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或***实施例中。其中，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1示例性的示出了本申请提供的一种语音识别方法的流程图。该语音识别方法可以由语音识别装置执行。该语音识别装置可以为声控电视、声控玩具、手机等可以使用语音进行控制的智能设备，或者还可以是上述任一智能设备中的芯片，或者还可以是上述任一智能设备中的具有语音识别功能的功能模块。

该方法包括以下步骤：

步骤105，根据预存的第一用户的第一位置的信息接收语音。

其中，接收的语音包括第一用户的第一语音命令和噪声，其中，噪声可以包括第一用户以外的人(可以称为第二用户)发出的声音、或者是外界环境中会对第一语音命令产生干扰的声音(如汽车鸣笛声、风声等)。

步骤106，根据预存的第一用户的声纹信息，从语音中识别出第一用户的第一语音命令。

针对步骤106，由于语音中包括的第一语音命令是由第一用户发送的，该第一语音命令的声纹信息与预存的第一用户的声纹信息匹配，因此，可以通过预存的第一用户的声纹信息，从接收的语音中识别出第一用户的第一语音命令。

通过上述步骤105和步骤106，由于通过预存的第一用户的第一位置的信息去接收语音，再通过预存的第一用户的声纹信息，从接收的语音中去识别与第一用户的声纹信息匹配的语音命令，并执行该语音命令对应的功能，因此可以提高在噪声环境中的语音识别的精确度。

在一种可能的实现方式中，在上述步骤105之前，还可以包括：

步骤104，根据预存的第一用户的第一位置的信息，确定语音采集策略。

该语音采集策略为：在语音接收范围内的任一位置的语音接收强度与第一距离成反比，其中，第一距离为任一位置与第一位置之间的距离，语音接收范围包括第一用户的第一位置。该方案通过语音采集策略，对不同的位置采取不同的语音接收强度，且对预存的第一用户的第一位置附近的语音接收强度更强，有助于更好的接收第一用户的语音命令。其中，第一位置的信息预存于语音识别装置中，第一位置的信息指的是第一用户所处的位置的信息，比如第一用户的卫星坐标，或者是第一用户与语音识别装置之间的相对位置等。

步骤105具体可以通过以下方式实现：根据语音采集策略来接收语音。

举个例子，比如，用户的第一位置的信息对应的用户的第一位置为坐标A，有坐标B和坐标C两个位置，其中坐标B离坐标A的距离小于坐标C离坐标A的距离，则语音识别装置根据确定的语音采集策略对坐标B处发出的声音的接收强度大于坐标C处发出的声音。

该方案通过语音采集策略，对不同的位置采取不同的语音接收强度，且对预存的第一用户的第一位置附近的语音接收强度更强，有助于更好的接收第一用户的语音命令。

步骤101，接收第一用户的第二语音命令。

其中，第二语音命令可以为唤醒命令，该唤醒命令用于调整语音识别装置进入工作状态，该唤醒命令可以为一段特定的语句，比如“打开语音***”，当语音识别装置接收到“打开语音***”的语音后，确定其为第二语音命令，并进入工作状态。该第二语音命令来自上述第一用户。

在步骤101之后，还可以包括：

步骤102，根据第二语音命令，确定并存储第一用户的声纹信息。

在步骤102中存储的第一用户的声纹信息可用于步骤106中从接收的语音中识别出第一用户的语音命令。这里的声纹信息用于标识第一用户的声音特征。不同的用户的声纹信息不同，因此可以使用声纹信息对不同用户的语音进行区分。

通过步骤101和102，实现了对第一用户的声纹信息进行预存，用以之后根据预存的声纹信息从接收的包括了第一语音命令和噪音的语音中识别出第一语音命令。当然，预存第一用户的声纹信息的方法并不限于此，比如还可以通过在语音识别装置初始化启动时，进行声纹信息的录入。

在一种可能的实现方式中，在上述步骤101之后，还可以包括：

步骤103，根据第二语音命令，确定并存储第一用户的第一位置的信息。

其中，第二语音命令是在步骤101中接收的，第一位置的信息是指第一用户发送第二语音命令时所处的位置的信息。步骤103中存储的第一用户的第一位置的信息，用于步骤104中确定语音采集策略。

需要说明的是，上述步骤102和步骤103之间没有严格的执行顺序，例如可以先执行步骤102再执行步骤103，或者先执行步骤103再执行步骤102，或者步骤102和步骤103在一个步骤中执行。

在一种可能的实现方式中，在上述步骤106之后，还可以包括：

根据第一语音命令，确定第一语音命令对应的位置的信息，并根据第一语音命令对应的位置的信息，更新第一的位置信息。通过该方案，在接收到第一语音命令之后，更新存储的第一用户的位置信息，用以调整上述语音采集策略，有助于更好的接收第一用户的语音命令。

在一种可能的实现方式中，上述步骤106具体可以为：根据预存的第一用户的声纹信息和第一用户的第一位置的信息，从语音中识别出所述第一语音命令。该方案，识别的语音命令同时与预存的第一用户的声纹信息和第一用户的第一位置的信息，因此该方案中，识别出的语音命令准确度更高。

在一种可能的实现方式中，若上述步骤101中，接收的语音中只有语音命令，不包括噪音，则判断该语音命令的声纹信息与预存的第一用户的声纹信息是否匹配。若匹配则根据该语音命令执行相应的功能，若不匹配，则不执行。

下面给出一个具体示例，对上述语音识别方法进行具体说明。如图2所示，为本申请提供的一种语音识别应用场景示意图。

其中，语音识别装置比如可以为声控电视、声控玩具、手机等可以使用语音进行控制的智能设备，或者还可以是上述任一智能设备中的芯片，或者还可以是上述任一智能设备中的具有语音识别功能的功能模块。下面以该语音识别装置为声控电视进行举例说明，第一用户在第一位置向语音识别装置发送了唤醒命令，该唤醒命令相当于上述第二语音命令，该唤醒命令比如可以为语音“开机”，当声控电视接收到该唤醒命令后，打开声控电视并根据该唤醒命令，确定并存储第一用户的声纹信息以及第一用户的第一位置的信息。声控电视在存储第一用户的声纹信息后，表明该声控电视之后将受到该第一用户控制，即声控电视可以根据接收到的第一用户的语音命令执行相应的操作。而对于其他用户，比如第二用户发出的语音命令，由于第二用户的声纹信息与声控电视存储的第一用户的声纹信息不符，因此声控电视将第二用户发出的语音命令视为噪声。

进一步的，声控电视还可以根据第一用户的第一位置的信息，将语音采集策略调整为：声控电视对距离第一位置越近的位置的语音采集强度越强。

作为一个示例，当第一用户从第一位置移动至第二位置时，此时第二用户A与第二用户B的位置如图2中所示，此时根据语音采集策略，由于第二用户A的位置、第一用户的第二位置、第二用户B的位置距离第一位置由近到远依次为：第二用户A的位置、第一用户的第二位置、第二用户B的位置，因此声控电视对第一用户、第二用户A、第二用户B的所处的位置的语音采集强度从大到小依次为：第二用户A的位置、第一用户的第二位置、第二用户B的位置。

当第一用户在第二位置向声控电视发送语音命令“换台”时，第二用户A发送语音命令“增大音量”，第二用户B发送语音命令“减小音量”，并且此时还存在汽车鸣笛声，汽车鸣笛声的位置如图2中所示。此时，根据语音采集策略，由于汽车鸣笛声的位置距离第一位置远，因此对汽车鸣笛声的采集强度小于语音命令“换台”、语音命令“增大音量”、语音命令“减小音量”，因此汽车鸣笛声对语音命令的干扰大幅减小，声控电视可以清楚的接收到语音命令“换台”、语音命令“增大音量”、语音命令“减小音量”，最终，声控电视接收到的语音包括：语音命令“换台”、语音命令“增大音量”、语音命令“减小音量”以及相对较弱的汽车鸣笛声，然后声控电视根据存储的第一用户的声纹信息，从接收到的语音中确定语音命令“换台”为第一用户发送的语音命令，因此，声控电视根据该语音命令“换台”进行换台。

基于上述方案，通过预存的第一用户的第一位置的信息去接收语音，再通过预存的第一用户的声纹信息，从接收的语音中去识别与第一用户的声纹信息匹配的语音命令，并执行该语音命令对应的功能，因此可以提高在噪声环境中的语音识别的精确度。

基于同一发明构思，图3示例性的示出了本申请提供的一种语音识别装置，该装置可以执行语音识别方法的流程。该装置包括：

语音接收单元301，用于根据预存的第一用户的第一位置的信息接收语音，该语音包括第一用户的第一语音命令和噪声，其中，噪声包括第一用户以外的人发出的声音、外界环境中会对第一语音命令产生干扰的声音(如汽车鸣笛声、风声等)。

语音识别单元302，用于根据预存的第一用户的声纹信息，从该语音中识别出第一语音命令。

在一种可能的实现方式中，上述装置还可以包括确定单元303，用于根据预存的第一用户的第一位置的信息，确定语音采集策略，该语音采集策略为：在语音接收范围内的任一位置的语音接收强度与第一距离成反比，其中，第一距离为任一位置与第一位置之间的距离，语音接收范围包括第一用户的第一位置。上述语音接收单元301具体用于，根据语音采集策略接收语音。

在一种可能的实现方式中，上述语音接收单元301还用于，接收第一用户的第二语音命令。上述装置还可以包括声纹识别单元304、声源定位单元305和存储单元306，其中，声纹识别单元304用于根据第二语音命令，确定第一用户的声纹信息。声源定位单元305用于根据第二语音命令，确定第一用户的第一位置的信息。存储单元306用于存储第一用户的声纹信息和/或第一位置的信息。

在一种可能的实现方式中，上述声源定位单元305，还可以用于，根据第一语音命令，确定第一语音命令对应的位置的信息。上述存储单元306还可以用于，根据第一语音命令对应的位置的信息，更新第一位置的信息。

在一种可能的实现方式中，上述语音识别单元302，具体用于，根据预存的第一用户的声纹信息和第一用户的第一位置的信息，从语音中识别出所述第一语音命令。

在一种可能的实现方式中，若上述语音接收单元301接收的语音中只有语音命令，不包括噪音，则上述语音识别单元302判断该语音命令的声纹信息与预存的第一用户的声纹信息是否匹配。

上述装置所涉及的与本申请提供的技术方案相关的概念，解释和详细说明及其它步骤请参见前述语音识别方法或其它实施例中关于这些内容的描述，此处不做赘述。

基于与上述实施例相同的构思，本申请还提供一种网络设备。

图4为本申请提供的一种网络设备的结构示意图。如图4所示，该网络设备400包括：

存储器401，用于存储程序指令；

处理器402，用于调用所述存储器中存储的程序指令，按照获得的程序执行前述任一实施例中所述的语音识别方法。

基于与上述实施例相同的构思，本申请还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行前述任一实施例中所述的语音识别方法。

需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本申请中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域内的技术人员应明白，本申请可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，包括：

根据预存的第一用户的第一位置的信息接收语音，所述语音包括第一用户的第一语音命令和噪声；

根据预存的所述第一用户的声纹信息，从所述语音中识别出所述第一语音命令。

2.如权利要求1所述的方法，其特征在于，所述根据预存的第一用户的第一位置的信息接收语音，包括：

根据预存的所述第一用户的第一位置的信息，确定语音采集策略，所述语音采集策略为：在语音接收范围内的任一位置的语音接收强度与第一距离成反比，所述第一距离为所述任一位置与所述第一用户的第一位置之间的距离，所述语音接收范围包括所述第一用户的第一位置；

根据所述语音采集策略，接收语音。

3.如权利要求1或2所述的方法，其特征在于，所述接收语音之前，还包括：

接收所述第一用户的第二语音命令；

根据所述第二语音命令，确定并存储所述第一用户的声纹信息和/或所述第一用户的第一位置的信息。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

确定所述第一语音命令对应的位置的信息；

根据所述第一语音命令对应的位置的信息，更新所述第一位置的信息。

5.如权利要求1或2所述的方法，其特征在于，所述根据预存的所述第一用户的声纹信息，从所述语音中识别出所述第一语音命令，包括：

根据预存的所述第一用户的声纹信息和所述第一用户的第一位置的信息，从所述语音中识别出所述第一语音命令。

6.一种语音识别装置，其特征在于，包括：

语音接收单元，用于根据预存的第一用户的第一位置的信息接收语音，所述语音包括第一用户的第一语音命令和噪声；

语音识别单元，用于根据预存的所述第一用户的声纹信息，从所述语音中识别出所述第一语音命令。

7.如权利要求6所述的装置，其特征在于，所述装置还包括确定单元，所述确定单元用于，根据预存的所述第一用户的第一位置的信息，确定语音采集策略，所述语音采集策略为：在语音接收范围内的任一位置的语音接收强度与第一距离成反比，所述第一距离为所述任一位置与所述第一用户的第一位置之间的距离，所述语音接收范围包括所述第一用户的第一位置；

所述语音接收单元，具体用于，根据所述语音采集策略，接收语音。

8.如权利要求6或7所述的装置，其特征在于，所述语音接收单元还用于接收所述第一用户的第二语音命令；

所述装置还包括声纹识别单元，用于根据所述第二语音命令，确定所述第一用户的声纹信息；

所述装置还包括声源定位单元，用于根据所述第二语音命令，确定所述第一用户的第一位置的信息；

所述装置还包括存储单元，用于存储所述声纹信息和/或所述第一用户的第一位置的信息。

9.如权利要求8所述的装置，其特征在于，所述声源定位单元，还用于，确定所述第一语音命令对应的位置的信息；

所述存储单元，还用于，根据所述第一语音命令对应的位置的信息，更新所述第一位置的信息。

10.若权利要求6或7所述的方法，其特征在于，所述语音识别单元，具体用于根据预存的所述第一用户的声纹信息和所述第一用户的第一位置的信息，从所述语音中识别出所述第一语音命令。