CN116504236A

CN116504236A - 基于智能识别的语音交互方法、装置、设备及介质

Info

Publication number: CN116504236A
Application number: CN202310539693.0A
Authority: CN
Inventors: 李达; 张敬锋; 徐林浩
Original assignee: BDstar Intelligent and Connected Vehicle Technology Co Ltd
Current assignee: BDstar Intelligent and Connected Vehicle Technology Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-07-28

Abstract

本发明公开了基于智能识别的语音交互方法、装置、设备及介质。方法包括：接收车外语音信息，将车外语音信息进行转换得到初始语音信号；根据预存的识别规则对初始语音信号进行识别，得到对应的初始语音指令信息；将初始语音信号发送至云服务器，以获取云服务器对初始语音信息进行解析所反馈的云端指令信息；根据预置的验证规则对云端指令信息及初始语音指令信息是否相匹配进行验证；若相匹配或未在预设反馈时间内获取到云端指令信息则获取与初始语音指令信息相匹配的应答音频并进行播放。通过上述方法，能够直接获取车外语音信息进行识别，并通过云服务器反馈的云端指令信息进行匹配校验，在确保车外语音识别速度的情况下，大幅提高了识别的准确性。

Description

基于智能识别的语音交互方法、装置、设备及介质

技术领域

本发明涉及语音交互技术领域，尤其涉及一种基于智能识别的语音交互方法、装置、设备及介质。

背景技术

随着技术的发展，语音控制越来越普遍，汽车内也通常配置有能够进行语音识别的设备，从而实现基于语音识别为用户提供相应的使用功能。但当前汽车配置的语音识别设备仅仅能够在车内进行使用，已逐渐无法满足车主的使用需求，因此车外语音交互识别的应用需求也越来越迫切。目前实现车外语音识别的方法通常有两种，其中一种是在原有车内语音识别***的基础上增加拾音通道以识别车外语音，然而这一技术方法虽然识别精度高但车内控制器(车内SOC)芯片启动慢，无法快速识别车外语音信息。另一种方式是增加车外语音识别模块，其优点是响应速度快且无需等待车内控制器(车内SOC)芯片启动，但由于该模块需要预先存储预设的语音识别指令，因此智能对语音信息进行简单识别，导致识别准确性较低。因此，现有的技术方法中用于车外语音信息识别的技术方法存在无法兼顾识别速度及识别准确性的问题。

发明内容

本发明实施例提供了一种基于智能识别的语音交互方法、装置、设备及介质，旨在解决现有技术方法中用于车外语音信息识别的技术方法所存在的无法兼顾识别速度及识别准确性的问题。

第一方面，本发明实施例提供了一种基于智能识别的语音交互方法，所述方法应用于智能识别终端，所述智能识别终端与云服务器建立网络连接以实现数据信息的传输，所述方法包括：

接收车外语音信息，将所述车外语音信息进行转换得到初始语音信号；

根据预存的识别规则对所述初始语音信号进行识别，得到对应的初始语音指令信息；

将所述初始语音信号发送至所述云服务器，以获取所述云服务器对所述初始语音信息进行解析所反馈的云端指令信息；

根据预置的验证规则对所述云端指令信息及所述初始语音指令信息是否相匹配进行验证；

若相匹配或未在预设反馈时间内获取到所述云端指令信息，获取与所述初始语音指令信息相匹配的应答音频并进行播放；

若仅接收到所反馈的所述云端指令信息，获取与所述云端指令信息相匹配的应答音频并进行播放。

第二方面，本发明实施例提供了一种基于智能识别的语音交互装置，其中，所述装置配置于智能识别终端，所述智能识别终端与云服务器建立网络连接以实现数据信息的传输，所述装置包括：

初始语音信号获取单元，用于接收车外语音信息，将所述车外语音信息进行转换得到初始语音信号；

语音信号识别单元，用于根据预存的识别规则对所述初始语音信号进行识别，得到对应的初始语音指令信息；

云端指令信息获取单元，用于将所述初始语音信号发送至所述云服务器，以获取所述云服务器对所述初始语音信息进行解析所反馈的云端指令信息；

匹配验证单元，用于根据预置的验证规则对所述云端指令信息及所述初始语音指令信息是否相匹配进行验证；

第一应答音频播放单元，用于若相匹配或未在预设反馈时间内获取到所述云端指令信息，获取与所述初始语音指令信息相匹配的应答音频并进行播放；

第二应答音频播放单元，用于若仅接收到所反馈的所述云端指令信息，获取与所述云端指令信息相匹配的应答音频并进行播放。

第三方面，本发明实施例又提供了一种基于智能识别的语音交互装置，其中，所述装置应用如上述第一方面所述的基于智能识别的语音交互方法，所述装置包括音频拾取及整合传输模块、车外语音识别模块、语音指令功能执行模块、核心处理模块、数字信号处理模块及扬声器模块；

所述音频拾取及整合传输模块的第一传输端连接所述车外语音识别模块的第一输入端；所述车外语音识别模块的第二输入端连接所述数字信号处理模块的第二输出端，所述车外语音识别模块的第一输出端连接所述数字信号处理模块的第一输入端，所述车外语音识别模块的第二输出端连接所述语音指令功能执行模块的第一输入端；

所述音频拾取及整合传输模块的第二传输端连接所述数字信号处理模块的第一输出端；

所述语音指令功能执行模块的第一输出端连接所述数字信号处理模块的第二输入端；所述语音指令功能执行模块的第二输出端及第三输出端分别连接所述核心处理模块的第一输入端及第二输入端，所述语音指令功能执行模块的第二输入端连接所述核心处理模块的第一输出端；

所述核心处理模块的第三输入端连接所述数字信号处理模块的第三输出端；所述核心处理模块的第二输出端连接所述数字信号处理模块的第三输入端；

所述数字信号处理模块的音频信号输出端连接所述扬声器模块。

第四方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机设备执行所述计算机程序时实现如上述第一方面所述的基于智能识别的语音交互方法。

第五方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如上述第一方面所述的基于智能识别的语音交互方法。

本发明实施例提供了一种基于智能识别的语音交互方法、装置、设备及介质。方法包括：接收车外语音信息，将车外语音信息进行转换得到初始语音信号；根据预存的识别规则对初始语音信号进行识别，得到对应的初始语音指令信息；将初始语音信号发送至云服务器，以获取云服务器对初始语音信息进行解析所反馈的云端指令信息；根据预置的验证规则对云端指令信息及初始语音指令信息是否相匹配进行验证；若相匹配或未在预设反馈时间内获取到云端指令信息则获取与初始语音指令信息相匹配的应答音频并进行播放。通过上述方法，能够直接获取车外语音信息进行识别，并通过云服务器反馈的云端指令信息进行匹配校验，在确保车外语音识别速度的情况下，大幅提高了识别的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于智能识别的语音交互方法的流程示意图；

图2为本发明实施例提供的基于智能识别的语音交互方法的应用场景示意图；

图3为本发明实施例提供的基于智能识别的语音交互装置的示意性框图；

图4为本发明实施例提供的基于智能识别的语音交互装置的连接结构示意图；

图5为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1及图2，图1为本发明实施例提供的基于智能识别的语音交互方法的流程示意图，图2为本发明实施例提供的基于智能识别的语音交互方法的应用场景示意图；该基于智能识别的语音交互方法应用于智能识别终端10中，所述智能识别终端10与云服务器20建立网络连接以实现数据信息的传输，该基于智能识别的语音交互方法通过安装于智能识别终端10中的应用软件进行执行；智能识别终端10即是用于执行基于智能识别的语音交互方法以实现与用户进行语音交互控制的终端设备，如装配于汽车上的车载智能语音交互终端，智能识别终端10还可以是类似车载终端的其它物联网终端，如智能音箱、智能电视等；云服务器20也即是配置于云端用于与智能识别终端10进行信息交互传输的终端设备，如企业或政府部门内部所构建的云服务器端。图2中仅仅示意出一台智能识别终端10与云服务器20进行信息传输，在实际应用中，该云服务器20也可同时与多台智能识别终端10建立通信连接以实现数据信息的传输。如图1所示，该方法包括步骤S110～S160。

S110、接收车外语音信息，将所述车外语音信息进行转换得到初始语音信号。

接收车外语音信息，将所述车外语音信息进行转换得到初始语音信号。智能识别终端通过车外设置的多路麦克风(MIC)获取所输入的车外语音信息，其中，各路麦克风可分配装配于汽车外部的不同方位，从而用户在汽车的任何方向发出语音均能够被麦克风采集并输出至智能识别终端。

智能识别终端可将所获取到的车外语音信息进行转换，具体的，由麦克风采集得到的车外语音信息为模拟信号，多路麦克风采集得到的多路语音信息可进行重叠，得到一路语音信息作为车外语音信息；为提高语音信息的处理效率，可将车外语音信息转换为以数字信号形式记载的初始语音信号。

S120、根据预存的识别规则对所述初始语音信号进行识别，得到对应的初始语音指令信息。

根据预存的识别规则对所述初始语音信号进行识别，得到对应的初始语音指令信息。智能识别终端中预先存储有识别规则，可根据该识别规则对所得到额度初始语音信号进行识别，从而得到初始语音指令信息，则初始语音指令信息也即是与初始语音信号对应的程序指令信息。

在一实施例中，步骤S120包括以下步骤：根据所述识别规则中的降噪参考信号对所述初始语音信号进行降噪处理，得到降噪语音信息；根据所述识别规则中的语音识别模型对所述降噪语音信息进行识别，得到所述初始语音指令信息。

具体的，识别规则中包括降噪参考信号，可根据降噪参考信号对初始语音信号进行降噪处理，其中，降噪参考信号可以由智能识别终端中的数字信号处理模块(DSP)提供。降噪参考信号中包括参考频率，则可从初始语音信号中获取与参考频率相匹配的语音信号，从而实现对初始语音信号进行降噪处理，也即排除非参考频率的语音信号，从而得到降噪语音信息。

根据识别规则中的语音识别模型对降噪语音信息进行识别处理，从而得到初始语音指令信息。语音识别模型包括单位时间、频谱转换规则、频率转换公式、逆变换规则及语音识别神经网络。

具体的，可先对降噪语音信息进行分帧处理得到对应的多帧音频信息。语音在计算机中以包含音轨的声谱图进行表示，声谱图中包含很多帧，每一帧即对应一个时间单元，则可从降噪语音信息的声谱图中获取得到每一帧音频信息，每一帧音频信息即对应一个时间单元内所包含的音频信息。

之后，再根据单位时间及频谱转换规则将每一单位时间内包含的音频信息转换为对应的音频频谱。可根据单位时间对音频信息进行分段得到多个音频信息段，每一音频信息段中均对应一个单位时间内包含的多帧音频信息，可根据频谱转换规则对得到的每一音频信息段进行快速傅里叶变换(fast Fourier transform，FFT)然后逆时针旋转90度，得到与每一音频信息段对应的音频频谱，在音频频谱中的频谱表示频率与能量的关系。例如，单位时间可设置为0.02秒。

根据频率转换公式将每一音频频谱转换为对应的非线性音频频谱。根据频率转换公式将以线性方式表示的音频频谱转换为非线性音频频谱，为进一步凸显降噪语音信息中的声音特征，可将以线性方式表示的音频频谱转换为非线性音频频谱。音频频谱及非线性音频频谱均可采用频谱曲线进行表示，则频谱曲线由多个连续的频谱值所组成。

具体的，频率转换公式可采用公式(1)进行表示：

mel(f)＝r×log(1+f/t) (1)；

其中mel(f)为转换后非线性音频频谱的频谱值，f为音频频谱的频率值，r和t均为公式中预设的参数值。

根据逆变换规则对每一非线性音频频谱进行逆变换得到与每一非线性音频频谱对应的多个音频系数作为降噪语音信息的音频特征信息。可根据逆变换规则对每一非线性音频频谱进行逆变换，具体的，对所得到的一个非线性音频频谱取对数后进行离散余弦变换(Discrete Cosine Transform，DCT)，取进行离散余弦变换的第2个至第12个系数进行组合以得到与该非线性音频频谱对应的音频系数，则从每一非线性音频频谱可对应获取得到11个维度的音频系数，获取每一非线性音频频谱对应的音频系数即可得到与降噪语音信息对应的音频特征信息。

将降噪语音信息对应的音频特征信息输入语音识别神经网络进行识别，即可获取到对应的初始语音指令信息。语音识别神经网络即为对音频特征信息进行识别的神经网络，具体的，语音识别神经网络可由一个输入层、多个中间层及一个输出层组成，输入层与中间层之间、中间层与其他中间层之间、中间层与输出层之间均通过关联公式进行连接，输入层中所包含输入节点的数量与音频特征信息所包含的音频系数的数量相等，则每一音频系数可作为对应的一个输入节点的输入节点值，输出层可包含多个输出节点，每一输出节点可对应一个语音指令，将所得到的音频特征信息经输入层输入语音识别神经网络，进行识别后即可从输出层获取相应输出结果，输出结果包含每一输出节点的输出节点值，获取输出节点值中最大的一个输出节点值的输出节点对应的语音指令作为初始语音指令信息。

在一实施例中，所述根据所述识别规则中的语音识别模型对所述降噪语音信息进行识别，得到所述初始语音指令信息之后，还包括以下步骤：根据预置的同步时钟信号在所述初始语音指令信息中添加对应的获取时间。

获取到初始语音指令信息后，还可在初始语音指令信息中添加对应的获取时间，其中同步时钟信号由数字信号处理模块(DSP)提供，则可根据同步时钟信号进行时钟同步，并获取当前时间作为获取时间添加至初始语音指令信息中。

S130、将所述初始语音信号发送至所述云服务器，以获取所述云服务器对所述初始语音信息进行解析所反馈的云端指令信息。

将所述初始语音信号发送至所述云服务器，以获取所述云服务器对所述初始语音信息进行解析所反馈的云端指令信息。智能识别终端中的核心处理模块与云服务器之间建立网络连接，则初始语音信号可通过核心处理模块发送至云服务器，云服务器在云端对初始语音信息进行解析后将对应的云端指令信息反馈至智能识别终端。

在一实施例中，步骤S130之后，还包括以下步骤：根据所述同步时钟信号在接收到的所述云端指令信息中添加对应的获取时间。

智能识别终端在接收到云端指令信息后，还可在云端指令信息中添加相应的获取时间，具体的，可根据同步时钟信号进行时钟同步，并获取当前时间作为获取时间添加至云端指令信息中。

S140、根据预置的验证规则对所述云端指令信息及所述初始语音指令信息是否相匹配进行验证。

根据预置的验证规则对所述云端指令信息及所述初始语音指令信息是否相匹配进行验证。根据验证规则对云端指令信息及初始语音指令信息是否相匹配进行验证，从而得到相应验证结果。其中，验证规则也即是用于对云端指令信息及初始语音指令信息进行验证的具体规则。

在一实施例中，步骤S140包括以下步骤：验证指令间隔时间是否小于所述验证规则的间隔时间阈值之内，以判定所述云端指令信息与所述初始语音指令信息是否相匹配；所述指令间隔时间为所述云端指令信息的获取时间与所述初始语音指令信息的获取时间之差。

可验证两组指令的获取时间之间的间隔时间是否小于间隔时间阈值，两组指令的获取时间之间的间隔时间也即是指令间隔时间，例如，间隔时间阈值可设置为600ms。若指令间隔时间小于间隔时间阈值，则判定两组指令相匹配；若指令间隔时间不小于间隔时间阈值，则判定两组指令不相匹配。

在一实施例中，步骤S140还可以包括以下步骤：验证所述云端指令信息与所述初始与初始语音指令信息是否一致；验证指令间隔时间是否小于所述验证规则的间隔时间阈值之内；所述指令间隔时间为所述云端指令信息的获取时间与所述初始语音指令信息的获取时间之差；若所述云端指令信息与所述初始语音指令信息相一致且所述指令间隔时间小于所述间隔时间阈值，判定所述云端指令信息与所述初始语音指令信息相匹配；若所述云端指令信息与所述初始语音指令信息不相一致或所述指令间隔时间不小于所述间隔时间阈值，判定所述云端指令信息与所述初始语音指令信息不相匹配。

具体的，可验证云端指令信息与初始语音指令信息是否一致，并进一步验证两组指令的获取时间之间的间隔时间是否小于间隔时间阈值，两组指令的获取时间之间的间隔时间也即是指令间隔时间。若云端指令信息与初始语音指令信息相一致，并且指令间隔时间小于间隔时间阈值，则判定两组指令相匹配，也即认为两组指令为同一初始语音信号对应的结果指令。例如，间隔时间阈值可设置为600ms。若云端指令信息与初始语音指令信息不相匹配，或指令间隔时间不小于间隔时间阈值，则判定云端指令信息与初始语音指令信息不相匹配。

S150、若相匹配或未在预设反馈时间内获取到所述云端指令信息，获取与所述初始语音指令信息相匹配的应答音频并进行播放。

若相匹配或未在预设反馈时间内获取到所述云端指令信息，获取与所述初始语音指令信息相匹配的应答音频并进行播放。若两组指令相匹配，则可直接丢弃云端识别得到的云端指令信息，获取与初始语音指令信息相匹配的应答音频并通过扬声器模块进行播放。若未在预设反馈时间内获取到云端指令信息，同样可直接基于初始语音指令信息获取相匹配的应答音频进行播放。

若未识别得到初始语音指令信息，而从云端获取到云端指令信息，则获取与云端指令信息相匹配的应答音频进行播放。

在一实施例中，步骤S140之后，还包括以下步骤：若不相匹配，获取与所述云端指令信息相匹配的应答音频并进行播放。

若两组指令不相匹配，认为云端识别得到的云端指令信息的可靠性更高，可获取与云端指令信息相匹配的应答音频并进行播放。

S160、若仅接收到所反馈的所述云端指令信息，获取与所述云端指令信息相匹配的应答音频并进行播放。

若仅接收到所反馈的云端指令信息，而未通过本地识别获取初始语音指令信息，则认为当前并未在本地对初始语音信号进行成功识别，可直接获取与云端指令信息相匹配的应答音频并进行播放。

在本发明实施例所提供的基于智能识别的语音交互方法中，方法包括：接收车外语音信息，将车外语音信息进行转换得到初始语音信号；根据预存的识别规则对初始语音信号进行识别，得到对应的初始语音指令信息；将初始语音信号发送至云服务器，以获取云服务器对初始语音信息进行解析所反馈的云端指令信息；根据预置的验证规则对云端指令信息及初始语音指令信息是否相匹配进行验证；若相匹配或未在预设反馈时间内获取到云端指令信息则获取与初始语音指令信息相匹配的应答音频并进行播放。通过上述方法，能够直接获取车外语音信息进行识别，并通过云服务器反馈的云端指令信息进行匹配校验，在确保车外语音识别速度的情况下，大幅提高了识别的准确性。

本发明实施例还提供一种基于智能识别的语音交互装置，该基于智能识别的语音交互装置可配置于智能识别终端，该智能识别终端与云服务器建立网络连接以实现数据信息的传输，该基于智能识别的语音交互装置用于执行前述的基于智能识别的语音交互方法的任一实施例。具体地，请参阅图3，图3为本发明实施例提供的基于智能识别的语音交互装置的示意性框图。

如图3所示，基于智能识别的语音交互装置100包括初始语音信号获取单元110、语音信号识别单元120、云端指令信息获取单元130、匹配验证单元140、第一应答音频播放单元150及第二应答音频播放单元160。

初始语音信号获取单元110，用于接收车外语音信息，将所述车外语音信息进行转换得到初始语音信号。

语音信号识别单元120，用于根据预存的识别规则对所述初始语音信号进行识别，得到对应的初始语音指令信息。

云端指令信息获取单元130，用于将所述初始语音信号发送至所述云服务器，以获取所述云服务器对所述初始语音信息进行解析所反馈的云端指令信息。

匹配验证单元140，用于根据预置的验证规则对所述云端指令信息及所述初始语音指令信息是否相匹配进行验证。

第一应答音频播放单元150，用于若相匹配或未在预设反馈时间内获取到所述云端指令信息，获取与所述初始语音指令信息相匹配的应答音频并进行播放。

第二应答音频播放单元160，用于若仅接收到所反馈的所述云端指令信息，获取与所述云端指令信息相匹配的应答音频并进行播放。

在本发明实施例所提供的基于智能识别的语音交互装置应用上述基于智能识别的语音交互方法，方法包括：接收车外语音信息，将车外语音信息进行转换得到初始语音信号；根据预存的识别规则对初始语音信号进行识别，得到对应的初始语音指令信息；将初始语音信号发送至云服务器，以获取云服务器对初始语音信息进行解析所反馈的云端指令信息；根据预置的验证规则对云端指令信息及初始语音指令信息是否相匹配进行验证；若相匹配或未在预设反馈时间内获取到云端指令信息则获取与初始语音指令信息相匹配的应答音频并进行播放。通过上述方法，能够直接获取车外语音信息进行识别，并通过云服务器反馈的云端指令信息进行匹配校验，在确保车外语音识别速度的情况下，大幅提高了识别的准确性。

本发明实施例还提供一种基于智能识别的语音交互装置20，该装置应用如上述实施例中所述的基于智能识别的语音交互方法，如图4所示，该装置20包括音频拾取及整合传输模块21、车外语音识别模块22、语音指令功能执行模块23、核心处理模块24、数字信号处理模块25及扬声器模块26。

所述音频拾取及整合传输模块的第一传输端连接所述车外语音识别模块的第一输入端；所述车外语音识别模块的第二输入端连接所述数字信号处理模块的第二输出端，所述车外语音识别模块的第一输出端连接所述数字信号处理模块的第一输入端，所述车外语音识别模块的第二输出端连接所述语音指令功能执行模块的第一输入端；所述音频拾取及整合传输模块的第二传输端连接所述数字信号处理模块的第一输出端；所述语音指令功能执行模块的第一输出端连接所述数字信号处理模块的第二输入端；所述语音指令功能执行模块的第二输出端及第三输出端分别连接所述核心处理模块的第一输入端及第二输入端，所述语音指令功能执行模块的第二输入端连接所述核心处理模块的第一输出端；所述核心处理模块的第三输入端连接所述数字信号处理模块的第三输出端；所述核心处理模块的第二输出端连接所述数字信号处理模块的第三输入端；所述数字信号处理模块的音频信号输出端连接所述扬声器模块。

其中，音频拾取及整合传输模块用于将车外的几路(通常是4路到8路)麦克风(MIC)输入的车外语音信息模拟信号转换为数字信号(初始语音信号)，并集中到一根传输线输出至车外语音识别模块。

车外语音识别模块为用于对车外语音信息进行识别的模块，同时将收到的初始语音信号结合数字信号处理模块(DSP)提供的降噪参考信号进行结合处理，以实现对初始语音信号进行降噪，并进一步对初始语音信号进行识别处理，将识别得到的初始语音指令信息发送至语音指令功能执行模块，同时将获取到的降噪语音信息传输至数字信号处理模块(DSP)。

数字信号处理模块(DSP)为车外语音识别模块提供同步时钟信号，并为车外语音识别模块提供降噪参考信号，为核心处理模块(车内语音识别模块)提供车外语音的音频数据，播放挂载的应答音频或解码应答音频数据。

核心处理模块与云服务器之间进行无线网络连接，核心处理模块可将降噪语音信息传输至云服务器进行云端识别，并获取云服务器反馈的云端指令信息发送给车外语音识别模块。

扬声器模块为将数字信号处理模块(DSP)输出的应答音频基于功率放大器进行放大并播放。

语音指令功能执行模块，为接收到的语音指令作出相应动作的相应和语音应答处理。

上述基于智能识别的语音交互方法可以实现为计算机程序的形式，基于智能识别的语音交互装置可实现为计算机设备，该计算机程序可以在如图5所示的计算机设备上运行。该计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；计算机设备执行所述计算机程序时实现如上述实施例中所述的基于智能识别的语音交互方法。

请参阅图5，图5是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于智能识别的语音交互方法以实现与用户进行语音交互控制的终端设备。

参阅图5，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于智能识别的语音交互方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于智能识别的语音交互方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于智能识别的语音交互方法中对应的功能。

本领域技术人员可以理解，图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现上述的基于智能识别的语音交互方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于智能识别的语音交互方法，其特征在于，所述方法应用于智能识别终端，所述智能识别终端与云服务器建立网络连接以实现数据信息的传输，所述方法包括：

2.根据权利要求1所述的基于智能识别的语音交互方法，其特征在于，所述根据预存的识别规则对所述初始语音信号进行识别，得到对应的初始语音指令信息，包括：

根据所述识别规则中的降噪参考信号对所述初始语音信号进行降噪处理，得到降噪语音信息；

根据所述识别规则中的语音识别模型对所述降噪语音信息进行识别，得到所述初始语音指令信息。

3.根据权利要求2所述的基于智能识别的语音交互方法，其特征在于，所述根据所述识别规则中的语音识别模型对所述降噪语音信息进行识别，得到所述初始语音指令信息之后，还包括：

根据预置的同步时钟信号在所述初始语音指令信息中添加对应的获取时间。

4.根据权利要求3所述的基于智能识别的语音交互方法，其特征在于，所述获取所述云服务器对所述初始语音信息进行解析所反馈的云端指令信息之后，还包括：

根据所述同步时钟信号在接收到的所述云端指令信息中添加对应的获取时间。

5.根据权利要求1所述的基于智能识别的语音交互方法，其特征在于，所述根据预置的验证规则对所述云端指令信息及所述初始语音指令信息是否相匹配进行验证，包括：

验证指令间隔时间是否小于所述验证规则的间隔时间阈值之内，以判定所述云端指令信息与所述初始语音指令信息是否相匹配；所述指令间隔时间为所述云端指令信息的获取时间与所述初始语音指令信息的获取时间之差。

6.根据权利要求1所述的基于智能识别的语音交互方法，其特征在于，所述根据预置的验证规则对所述云端指令信息及所述初始语音指令信息是否相匹配进行验证之后，还包括：

若不相匹配，获取与所述云端指令信息相匹配的应答音频并进行播放。

7.一种基于智能识别的语音交互装置，其特征在于，所述装置配置于智能识别终端，所述智能识别终端与云服务器建立网络连接以实现数据信息的传输，所述装置包括：

8.一种基于智能识别的语音交互装置，其特征在于，所述装置应用如权利要求1-6任一项所述的基于智能识别的语音交互方法，所述装置包括音频拾取及整合传输模块、车外语音识别模块、语音指令功能执行模块、核心处理模块、数字信号处理模块及扬声器模块；

9.一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机设备执行所述计算机程序时实现如权利要求1至6中任一项所述的基于智能识别的语音交互方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于智能识别的语音交互方法。