CN110139146A

CN110139146A - 基于声纹识别的语音识别抗干扰方法、装置及存储介质

Info

Publication number: CN110139146A
Application number: CN201910267072.5A
Authority: CN
Inventors: 周胜杰
Original assignee: Shenzhen Konka Electronic Technology Co Ltd
Current assignee: Shenzhen Konka Electronic Technology Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-08-16

Abstract

本发明公开了基于声纹识别的语音识别抗干扰方法、装置及存储介质，所述方法包括：收集获取拾音数据；对获取的拾音数据进行声纹识别，将所有的声纹特征及对应的拾音数据进行分解，解出按照声纹特征为维度的新的拾音数据；将新的拾音数据按照分组进行语义解析，解析成按照声纹为维度存为声纹语义指令；并过滤不清楚的无效指令；得到有效语音指令；控制按预定规则执行与有效语音指令对应的操作。本发明解决多人同时下发指令环境下，语音拾音同时识别到多组或多个声源造成的指令混乱，多声源混杂指令无法有效的识别及执行的问题；提高了语音识别解析指令的准确率，极大的提升了智能电视语音交互的语音识别的效率及质量，提高了安全性。

Description

基于声纹识别的语音识别抗干扰方法、装置及存储介质

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于声纹识别的语音识别抗干扰方法、装置及存储介质。

背景技术

当前智能电视语音识别功能已经成为一种新型的电视交互方式，虽然语音的出现给电视的交互带来了非常大的易用性体验。

但是当前的语音识别在使用的过程中存在一个非常大的缺陷，当语音输入的时候如果同时有很多人都在说话（发送指令），语音会把所有人说话的声音都录制进去（拾音），而语音在进行解析这些录音的时候并不会进行区分（语义解析），所以解析出来的结果就是所有人的说话都夹杂在一起，无法解析出正确的语音指令供电视执行，不方便用户的使用。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种基于声纹识别的语音识别抗干扰方法、装置及存储介质，本发明解决多人同时下发指令环境下，语音拾音同时识别到多组或多个声源造成的指令混乱，多声源混杂指令无法有效的识别及执行的问题；提高了语音识别解析指令的准确率，极大的提升了智能电视语音交互的语音识别的效率及质量，提高了安全性。

为了达到上述目的，本发明采取了以下技术方案：

一种基于声纹识别的语音识别抗干扰方法，其中，包括如下步骤：

A、收集获取拾音数据；

B、对获取的拾音数据进行声纹识别，将所有的声纹特征及对应的拾音数据进行分解，解出按照声纹特征为维度的新的拾音数据；

C、将新的拾音数据按照分组进行语义解析，解析成按照声纹为维度存为声纹语义指令；并过滤不清楚的无效指令；得到有效语音指令；

D、控制按预定规则执行与有效语音指令对应的操作。

所述的基于声纹识别的语音识别抗干扰方法，其中，所述步骤A之前还包括：

S1、预先设置用于获取拾音数据的语音拾音模块；

S2、以设置与语音拾音模块连接的，用于进行声纹识别的声纹识别模块；

S3、以设置与声纹识别模块连接的，用于进行语义解析的解析模块；

以及设置与解析模块连接的，用于过滤不清楚的无效指令的抗干扰分析模块。

所述的基于声纹识别的语音识别抗干扰方法，其中，所述步骤A包括：

A1、通过语音拾音模块收集获取拾音数据。

所述的基于声纹识别的语音识别抗干扰方法，其中，所述步骤B包括：

B1、通过声纹识别模块对获取的拾音数据进行声纹识别，解析出拾音数据的声纹特征，将所有的声纹特征及对应的拾音数据进行分解，分解出按照声纹特征为维度的新的拾音数据。

所述的基于声纹识别的语音识别抗干扰方法，其中，所述步骤C包括：

C1、将新的拾音数据按照分组发给解析模块进行语义解析；语义解析的结果按照声纹为维度存为声纹语义指令；并过滤不清楚的无效指令；得到有效语音指令。

所述的基于声纹识别的语音识别抗干扰方法，其中，所述步骤D包括：

D1、通过指令执行模块获取所述有效语音指令；并控制执行与有效语音指令对应的操作；

D2、当同时有多条有效语音指令时，则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令。

一种基于声纹识别的语音识别抗干扰装置，其中，包括：处理器、存储器和通信总线；

所述存储器上存储有可被所述处理器执行的基于声纹识别的语音识别抗干扰程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述基于声纹识别的语音识别抗干扰程序时实现如下步骤：

收集获取拾音数据；

对获取的拾音数据进行声纹识别，将所有的声纹特征及对应的拾音数据进行分解，解出按照声纹特征为维度的新的拾音数据；

将新的拾音数据按照分组进行语义解析，解析成按照声纹为维度存为声纹语义指令；并过滤不清楚的无效指令；得到有效语音指令；

控制按预定规则执行与有效语音指令对应的操作。

所述基于声纹识别的语音识别抗干扰装置，其中，所述处理器执行所述基于声纹识别的语音识别抗干扰程序时还实现如下步骤：

通过语音拾音模块收集获取拾音数据；

通过声纹识别模块对获取的拾音数据进行声纹识别，解析出拾音数据的声纹特征，将所有的声纹特征及对应的拾音数据进行分解，分解出按照声纹特征为维度的新的拾音数据；

将新的拾音数据按照分组发给解析模块进行语义解析；语义解析的结果按照声纹为维度存为声纹语义指令；并过滤不清楚的无效指令；得到有效语音指令。

通过指令执行模块获取所述有效语音指令；并控制执行与有效语音指令对应的操作；

当同时有多条有效语音指令时，则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令。

一种基于声纹识别的语音识别抗干扰装置，其中，包括：

语音拾音模块，用于收集获取拾音数据；

声纹识别模块，用于对获取的拾音数据进行声纹识别，将所有的声纹特征及对应的拾音数据进行分解，解出按照声纹特征为维度的新的拾音数据；

解析模块，用于将新的拾音数据按照分组进行语义解析，解析成按照声纹为维度存为声纹语义指令；

抗干扰分析模块，用于过滤不清楚的无效指令；得到有效语音指令；

指令执行模块，用于控制按预定规则执行与有效语音指令对应的操作。

一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现任意一项所述的基于声纹识别的语音识别抗干扰方法中的步骤。

相较于现有技术，本发明提供的基于声纹识别的语音识别抗干扰方法、装置及存储介质，所述方法通过在语音拾音后通过声纹识别模块进行拾音数据的声纹数据分组，通过解析声纹数据的语义提取声纹分组的语音指令，并剔除无效指令，执行有效语音指令。语音拾音模块的拾音数据在发给声纹识别模块的之前首先调用声纹识别模块，通过声纹识别模块解析出拾音模块拾音数据具有几个声纹特征，将所有的声纹特征及对应的拾音数据进行分解出按照声纹特征为维度的新的拾音数据，将新的拾音数据按照分组发给声纹识别模块进行语义解析，语义解析的结果按照声纹为维度存为声纹语义指令，语义解析将声纹语义指令发送给指令执行模块，指令执行模块调用指令抗干扰分析模块对发送过来的声纹语义指令进行分析，把无效指令剔除，提取有效指令并进行指令执行，如果提取的声纹指令有多条有效指令可以根据程序设定读取优先级高的指令执行或者顺序执行所有有效指令。

本发明解决多人同时下发指令环境下，语音拾音同时识别到多组或多个声源造成的指令混乱，多声源混杂指令无法有效的识别及执行的问题；提高了语音识别解析指令的准确率，极大的提升了智能电视语音交互的语音识别的效率及质量，提高了安全性。

附图说明

图1为本发明提供的基于声纹识别的语音识别抗干扰方法的流程图。

图2为本发明基于声纹识别的语音识别抗干扰装置较佳实施例的功能模块图。

图3为本发明基于声纹识别的语音识别抗干扰装置另一较佳实施例的功能模块图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明提供的基于声纹识别的语音识别抗干扰方法包括以下步骤：

S100、收集获取拾音数据。

例如可以设置通过一语音拾音模块收集获取拾音数据。例如通过麦克收集人的语音信号等。

本发明在具体实施前，可以预先设置用于获取拾音数据的语音拾音模块；以设置与语音拾音模块连接的，用于进行声纹识别的声纹识别模块；以设置与声纹识别模块连接的，用于进行语义解析的解析模块；以及设置与解析模块连接的，用于过滤不清楚的无效指令的抗干扰分析模块。

S200、对获取的拾音数据进行声纹识别，将所有的声纹特征及对应的拾音数据进行分解，解出按照声纹特征为维度的新的拾音数据。

本步骤中，对获取的拾音数据进行声纹识别，将所有的声纹特征及对应的拾音数据进行分解，解出按照声纹特征为维度的新的拾音数据。即分解出不同的人有不同的声纹数据，解出按照声纹特征区别不同人为维度的新的拾音数据。

例如可以通过声纹识别模块对获取的拾音数据进行声纹识别，解析出拾音数据的声纹特征，将所有的声纹特征及对应的拾音数据进行分解，分解出按照声纹特征为维度的新的拾音数据。即解析识别出每一个人发出的对应的拾音数据。

S300、将新的拾音数据按照分组进行语义解析，解析成按照声纹为维度存为声纹语义指令；并过滤不清楚的无效指令；得到有效语音指令。

本发明实施例中将新的拾音数据按照分组进行语义解析，解析成按照声纹为维度存为声纹语义指令，即解析出不同人讲的语音对应的声纹语义指令；并将不清楚的无效指令过滤；得到有效语音指令。

例如可以、将新的拾音数据按照分组发给解析模块进行语义解析；语义解析的结果按照声纹为维度存为声纹语义指令；并过滤不清楚的无效指令；得到有效语音指令。

S400、控制按预定规则执行与有效语音指令对应的操作。

本发明实施例中，可以通过指令执行模块获取所述有效语音指令；并控制执行与有效语音指令对应的操作；当同时有多条有效语音指令时，则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令。

以下通过一具体实施例对本发明做进一步详细说明：

本发明基于声纹识别的语音识别抗干扰方法包括以下步骤：

语音拾音模块的拾音数据在发给语义解析模块的之前首先调用声纹识别模块

通过声纹识别模块解析出拾音模块拾音数据具有几个声纹特征，将所有的声纹特征及对应的拾音数据进行分解出按照声纹特征为维度的新的拾音数据，将新的拾音数据按照分组发给语义解析模块进行语义解析

语义解析的结果按照声纹为维度存为声纹语义指令

语义解析将声纹语义指令发送给指令执行模块

指令执行模块调用指令抗干扰分析模块对发送过来的声纹语义指令进行分析，把无效指令剔除，提取有效指令并进行指令执行

如果提取的声纹指令有多条有效指令可以根据程序设定读取优先级高的指令执行或者顺序执行所有有效指令。

由上可见，本发明提供了一种基于声纹识别的语音识别抗干扰方法，本发明解决多人同时下发指令环境下，语音拾音同时识别到多组或多个声源造成的指令混乱，多声源混杂指令无法有效的识别及执行的问题；提高了语音识别解析指令的准确率，极大的提升了智能电视语音交互的语音识别的效率及质量，提高了安全性。

如图2所示，基于上述基于声纹识别的语音识别抗干扰方法，本发明还相应提供了一种基于声纹识别的语音识别抗干扰装置，所述基于声纹识别的语音识别抗干扰装置可以是智能电视机、智能音响、笔记本、掌上电脑及服务器、智能手机等智能设备。该基于声纹识别的语音识别抗干扰装置包括处理器10、存储器20及显示屏30, 处理器10通过通信总线50与存储器20连接，所述显示屏30通过通信总线50与处理器10连接。图2仅示出了基于声纹识别的语音识别抗干扰装置的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述基于声纹识别的语音识别抗干扰装置的内部存储单元，例如基于声纹识别的语音识别抗干扰装置的内存。所述存储器20在另一些实施例中也可以是所述基于声纹识别的语音识别抗干扰装置的外部存储设备，例如所述基于声纹识别的语音识别抗干扰装置上配备的插接式U盘，智能存储卡（Smart MediaCard, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器20还可以既包括所基于声纹识别的语音识别抗干扰装置的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述基于声纹识别的语音识别抗干扰装置的应用软件及各类数据，例如所述安装基于声纹识别的语音识别抗干扰装置的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于声纹识别的语音识别抗干扰方法程序40，该基于声纹识别的语音识别抗干扰方法程序40可被处理器10所执行，从而实现本申请中基于声纹识别的语音识别抗干扰方法。

所述处理器10在一些实施例中可以是一中央处理器（Central Processing Unit,CPU），微处理器，或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于声纹识别的语音识别抗干扰方法等。

所述显示屏30在一些实施例中可以是LED显示屏、液晶显示屏、触控式液晶显示屏以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。所述显示屏30用于显示在所述基于声纹识别的语音识别抗干扰装置的信息以及用于显示可视化的用户界面。

在一实施例中，当处理器10执行所述存储器20中基于声纹识别的语音识别抗干扰方法程序40时实现以下步骤：

收集获取拾音数据；

控制按预定规则执行与有效语音指令对应的操作。

通过语音拾音模块收集获取拾音数据；

当同时有多条有效语音指令时，则根据程序设定读取优先级高的指令执行或者按顺序执行所有有效指令，具体如上所述。

请参阅图3，其为本发明基于声纹识别的语音识别抗干扰装置较佳实施例的功能模块图。所述基于声纹识别的语音识别抗干扰装置，包括：

语音拾音模块21，用于收集获取拾音数据；

声纹识别模块22，用于对获取的拾音数据进行声纹识别，将所有的声纹特征及对应的拾音数据进行分解，解出按照声纹特征为维度的新的拾音数据；

解析模块23，用于将新的拾音数据按照分组进行语义解析，解析成按照声纹为维度存为声纹语义指令；

抗干扰分析模块24，用于过滤不清楚的无效指令；得到有效语音指令；

指令执行模块25，用于控制按预定规则执行与有效语音指令对应的操作，具体如上所述。

基于上述实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述任意一项所述的基于声纹识别的语音识别抗干扰方法中的步骤，具体如上所述。

综上所述，本发明提供的基于声纹识别的语音识别抗干扰方法、装置及存储介质，所述方法通过在语音拾音后通过声纹识别模块进行拾音数据的声纹数据分组，通过解析声纹数据的语义提取声纹分组的语音指令，并剔除无效指令，执行有效语音指令。语音拾音模块的拾音数据在发给声纹识别模块的之前首先调用声纹识别模块，通过声纹识别模块解析出拾音模块拾音数据具有几个声纹特征，将所有的声纹特征及对应的拾音数据进行分解出按照声纹特征为维度的新的拾音数据，将新的拾音数据按照分组发给声纹识别模块进行语义解析，语义解析的结果按照声纹为维度存为声纹语义指令，语义解析将声纹语义指令发送给指令执行模块，指令执行模块调用指令抗干扰分析模块对发送过来的声纹语义指令进行分析，把无效指令剔除，提取有效指令并进行指令执行，如果提取的声纹指令有多条有效指令可以根据程序设定读取优先级高的指令执行或者顺序执行所有有效指令。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于声纹识别的语音识别抗干扰方法，其特征在于，包括如下步骤：

A、收集获取拾音数据；

D、控制按预定规则执行与有效语音指令对应的操作。

2.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法，其特征在于，所述步骤A之前还包括：

S1、预先设置用于获取拾音数据的语音拾音模块；

3.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法，其特征在于，所述步骤A包括：

A1、通过语音拾音模块收集获取拾音数据。

4.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法，其特征在于，所述步骤B包括：

5.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法，其特征在于，所述步骤C包括：

6.根据权利要求1所述的基于声纹识别的语音识别抗干扰方法，其特征在于，所述步骤D包括：

7.一种基于声纹识别的语音识别抗干扰装置，其特征在于，包括：处理器、存储器和通信总线；

所述通信总线实现处理器和存储器之间的连接通信；

收集获取拾音数据；

控制按预定规则执行与有效语音指令对应的操作。

8.根据权利要求7所述基于声纹识别的语音识别抗干扰装置，其特征在于，所述处理器执行所述基于声纹识别的语音识别抗干扰程序时还实现如下步骤：

通过语音拾音模块收集获取拾音数据；

将新的拾音数据按照分组发给解析模块进行语义解析；语义解析的结果按照声纹为维度存为声纹语义指令；并过滤不清楚的无效指令；得到有效语音指令；

9.一种基于声纹识别的语音识别抗干扰装置，其特征在于，包括：

语音拾音模块，用于收集获取拾音数据；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-6任意一项所述的基于声纹识别的语音识别抗干扰方法中的步骤。