CN116189681A

CN116189681A - 一种智能语音交互***及方法

Info

Publication number: CN116189681A
Application number: CN202310486481.0A
Authority: CN
Inventors: 李广鹏; 周林娜
Original assignee: Beijing Crystal Digital Technology Co ltd
Current assignee: Beijing Crystal Digital Technology Co ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-05-30
Anticipated expiration: 2043-05-04
Also published as: CN116189681B

Abstract

本发明公开了一种智能语音交互***及方法，涉及语音交互领域，包括数据采集模块、数据处理模块、数据分析模块、数据中心、执行模块和控制中心，本发明通过将采集的模拟声音信号模数转换为数字声音信号，提取数字声音信号特征获得特征参数，对特征参数进行标记及计算得到第一判定参数，设定标准判定参数，对第一判定参数和标准判定参数分别一阶求导，计算二者差值绝对值，将结果与设定的差值阈值比较判断是否符合控制标准以实现噪音过滤，再对符合控制标准的数字声音信号进行音色匹配，以识别不同用户，解析用户自然语言并结合用户以往问答记录相关性消除信息差异，本发明可有效识别有效发声并对发声用户辨识并访问历史记录，优化人机交互体验。

Description

一种智能语音交互***及方法

技术领域

本发明涉及智能语音控制技术领域，具体的是一种智能语音交互***及方法。

背景技术

语音是人类最常用的交流方式，也是人类和计算机交流最渴望的方式。因此用语音同计算机交流也成为了最近研究的热点，随着科技的发展，智能语音***被越来越多的应用到各行各业，目前用于展览的智能语音导览，是通过对室内展览物件进行语音播报讲解，以便于参观者对展览物品进行深入了解的装置，其在语音导览的领域中得到了广泛的使用。

智能语音导览具备人机交互功能，能够在一定范围内收录人声，分析语音语义，并进行交流；但目前常见的智能语音导览不具备复杂环境下的语音准确识别能力，容易受到外界干扰导致分不清人声与干扰音，尤其涉及展览领域的智能语音导览，因其工作环境声音嘈杂且多样，极易受到干扰导致影响其语音交互功能。

此外，在展览特殊场景下，智能语音导览也很难做到根据不同用户的语音特征识别不同用户，无法提供用户个性化交流服务，从而导致展览场景下用户的交互体验不佳。

发明内容

为解决上述背景技术中提到的不足，本发明的目的在于提供一种智能语音交互***及方法。

本发明的目的可以通过以下技术方案实现：第一方面，本发明提供了一种智能语音交互***，包括数据采集模块、数据处理模块、数据分析模块、数据中心、执行模块和控制中心；所述数据中心包含音色数据库、噪音数据库、通用问答库及用户问答库；所述数据采集模块：采集模拟声音信号，并且将采集到的所述模拟声音信号发送至所述数据处理模块进行数据处理；所述数据处理模块：利用模数转换将所述模拟声音信号转换为数字声音信号，将转换后的数字声音信号进行特征提取，得到数字声音信号的特征参数，其中，所述数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色，对所述数字声音信号的特征参数进行标记，并发送至所述数据分析模块进行分析；所述数据分析模块：利用所述数字声音信号的特征参数中数字声音信号的分贝、速度和音调进行计算得到第一判定参数，并设定标准判定参数，对所述第一判定参数和所述标准判定参数进行一阶求导，求一阶求导后的所述第一判定参数的一阶导数和所述标准判定参数的一阶导数的绝对值之差，得到判定差值；将所述判定差值与预设的差值阈值进行比较，若所述判定差值大于或等于所述差值阈值，判断采集声音的数字声音信号不符合控制标准，所述噪音数据库收录所述数字声音信号；若所述判定差值小于所述差值阈值，判断采集声音的数字声音信号符合控制标准，所述控制中心过滤所述噪音数据库收录的数字声音信号，并分析过滤后的所述数字声音信号的音色；将所述数字声音信号的音色与所述音色数据库中存储的用户音色参数集内的用户音色进行匹配：若匹配成功，根据所述数字声音信号解析用户NLP自然语言，所述控制中心遍历所述用户问答库的历史问答记录，根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据所述最终语言处理结果生成解答内容进行交互，所述执行模块执行交互指令；若匹配失败，根据所述数字声音信号解析用户NLP自然语言，所述控制中心访问所述通用问答库，调用所述通用问答库的数据进行解答，所述执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入所述用户问答库。

优选地，所述数据处理模块进行数据处理的过程包括以下步骤：利用模数转换将所述模拟声音信号转换为数字声音信号，将转换后的所述数字声音信号进行特征提取，得出所述数字声音信号的特征参数，其中，所述数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色，对所述数字声音信号的特征参数进行标记，将所述数字声音信号的分贝标记为F_by，将所述数字声音信号的速度标记为S_dy，将所述数字声音信号的音调标记为G_dy，将所述数字声音信号的音色标记为Y_sy，其中，y为采集次数标号，且y=1、2、3、...、n，n为采集次数总数；将所述数字声音信号的分贝F_by、所述数字声音信号的速度S_dy、所述数字声音信号的音调G_dy和所述数字声音信号的音色Y_sy发送至所述数据分析模块进行数据分析。

优选地，所述数据分析模块进行数据分析的过程包括以下步骤：利用公式

计算得出第一判定参数P_dy，式中，F_b0为标准声音分贝参数，S_d0为标准声音速度参数，G_d0为标准声音音调参数，α为声音分贝影响参数，β为声音速度影响参数，γ为声音音调影响参数，/>

为预设比例系数；利用计算得出的第一判定参数P_dy获取判定参数的一阶导数P_dy1，并设定标准判定参数P_db，并对所述标准判定参数P_db进行一阶求导，得出所述标准判定参数的一阶导数P_db1；计算所述第一判定参数的一阶导数P_dy1和所述标准判定参数的一阶导数P_db1的绝对值之差，公式为：

，得出差值Cz，并且与预设的所述差值阈值Cz₀进行比较，若Cz≥Cz₀，则说明采集声音的数字声音信号不符合控制标准，所述噪音数据库收录所述数字声音信号；若Cz＜Cz₀，则说明采集的声音符合控制标准，所述控制中心过滤所述噪音数据库收录的数字声音信号，并分析过滤后的所述数字声音信号的音色；通过所述数据分析模块内的数据采集单元获取所述音色数据库中存储的用户音色参数集Y_sbp，并将所述数字声音信号的音色Y_sy与所述用户音色参数集Y_sbp内的用户音色参数进行参数匹配，若所述数字声音信号的音色Y_sy匹配成功，根据所述数字声音信号解析用户NLP自然语言，所述控制中心遍历所述用户问答库的历史问答记录，根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据所述最终语言处理结果生成解答内容进行交互，所述执行模块执行交互指令；若数字声音信号的音色Y_sy匹配失败，根据所述数字声音信号解析用户NLP自然语言，所述控制中心访问所述通用问答库，调用所述通用问答库的数据进行解答，所述执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入所述用户问答库。

优选地，所述用户音色参数集Y_sbp={Y_sb1、Y_sb2、Y_sb3、...、Y_sbt}，其中p为用户标号，t为用户人数总数。

优选地，所述用户音色参数集Y_sbp的获取过程如下：通过所述控制中心内的数据采集终端来对用户的声音信息进行录入，其中，用户的声音信息包括声音分贝、声音速度、声音音调；将声音信息与音色映射模型相结合，获取并存储用户音色参数后，将所有获取得到的用户音色参数进行整合形成用户音色参数集，所述音色映射模型为基于人工智能模型进行训练。

优选地，基于所述人工智能模型来对音色映射模型进行训练，过程为：通过服务器整合并获取标准训练数据，其中，所述标准训练数据包括声音信息和用户音色参数；通过所述标准训练数据对所述人工智能模型进行训练，获取并存储所述音色映射模型；其中，所述人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。

优选地，所述数据采集模块为利用拾音器对模拟声音信号进行采集。

优选地，所述拾音器为模拟拾音器，由麦克风和音频放大电路组成。

第二方面，本发明还提供了一种智能语音交互方法，方法包括以下步骤：获取模拟声音信号，并对所述模拟声音信号进行模数转换得到数字声音信号；将所述数字声音信号进行特征提取，得出所述数字声音信号的特征参数，并对所述数字声音信号的特征参数进行标记；利用标记后的数字声音信号的特征参数进行计算得到第一判定参数，并且设定标准判定参数，然后将所述第一判定参数和所述标准判定参数分别进行一阶求导，计算所述第一判定参数的一阶导数和所述标准判定参数的一阶导数的绝对值之差，得到判定差值；将所述判定差值与设定的差值阈值进行比较，若所述判定差值大于等于所述差值阈值，判断采集声音的数字声音信号不符合控制标准，噪音数据库收录所述数字声音信号；若所述判定差值小于所述差值阈值，判断采集声音的数字声音信号符合控制标准，控制中心过滤所述噪音数据库收录的数字声音信号，并分析过滤后的所述数字声音信号的音色；将所述数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配：若匹配成功，根据所述数字声音信号解析用户NLP自然语言，所述控制中心遍历所述用户问答库的历史问答记录，根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据所述最终语言处理结果生成解答内容进行交互，执行模块执行交互指令；若匹配失败，根据所述数字声音信号解析用户NLP自然语言，所述控制中心访问通用问答库，调用所述通用问答库的数据进行解答，所述执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入所述用户问答库。

本发明具有以下有益效果：本发明提供的一种智能语音交互***，在使用过程中，需要通过采集模拟声音信号，并对模拟声音信号进行模数转换为数字声音信号，将转换后的数字声音信号进行特征提取，得出数字声音信号的特征参数，并对数字声音信号的特征参数进行标记；利用标记后的数字声音信号的特征参数进行计算得出第一判定参数，并且设定标准判定参数，然后将第一判定参数和标准判定参数分别进行一阶求导，计算第一判定参数的一阶导数和标准判定参数的一阶导数的绝对值之差，得出差值；将该差值与设定的差值阈值进行比较：若差值大于等于差值阈值，判断采集声音的数字声音信号不符合控制标准，噪音数据库收录该数字声音信号；若差值小于差值阈值，则判断采集声音的数字声音信号符合控制标准，控制中心过滤噪音数据库收录的数字声音信号，分析过滤后的数字声音信号的音色；将数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配：若匹配成功，根据数字声音信号解析用户NLP自然语言，控制中心遍历用户问答库的历史问答记录，根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据最终语言处理结果生成解答内容进行交互，执行模块执行交互指令；若匹配失败，根据所述数字声音信号解析用户NLP自然语言，所述控制中心访问所述通用问答库，调用所述通用问答库的数据进行解答，所述执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入所述用户问答库。

通过本发明可实现利用智能语音设备辨识有效发声或环境嘈杂音，如判断为有效发声，可屏蔽掉其他环境干扰音，增加语音识别的精准度；本发明还可根据音色数据库比对结果识别发声用户身份，访问该用户数据库的历史问答记录的内容的相关性消除信息差异，避免由于语音识别不清导致用户交互体验不佳，如无问答历史，可创建该用户数据库，解析NLP自然语言并访问通用数据库进行解答,本发明提供的一种智能语音交互***，能够有效识别是否有效发声以及对发声用户进行辨识及历史记录，优化人机交互体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的智能语音交互***的***架构图。

图2是本发明实施例二提供的智能语音交互方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

如图1所示的一种智能语音交互***，包括数据采集模块、数据处理模块、数据分析模块、数据中心、执行模块和控制中心，数据中心包含音色数据库、噪音数据库、通用问答库及用户问答库。

数据采集模块：采集模拟声音信号，并且将采集到的模拟声音信号发送至数据处理模块进行数据处理。

数据处理模块：利用模数转换将模拟声音信号转换为数字声音信号，将转换后的数字声音信号进行特征提取，得到数字声音信号的特征参数，其中，数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色，对数字声音信号的特征参数进行标记，并发送至数据分析模块进行分析。

数据分析模块：利用数字声音信号的特征参数中数字声音信号的分贝、速度和音调进行计算得到第一判定参数，并设定标准判定参数，对第一判定参数和标准判定参数进行一阶求导，求一阶求导后的第一判定参数的一阶导数和标准判定参数的一阶导数的绝对值之差，得到判定差值。

将判定差值与预设的差值阈值进行比较，若判定差值大于或等于差值阈值，判断采集声音的数字声音信号不符合控制标准，噪音数据库收录数字声音信号。

若判定差值小于差值阈值，判断采集声音的数字声音信号符合控制标准，控制中心过滤噪音数据库收录的数字声音信号，并分析过滤后的数字声音信号的音色。

将数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配：若匹配成功，根据数字声音信号解析用户NLP（Natural Language Processing，自然语言处理）自然语言，控制中心遍历用户问答库的历史问答记录，根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据最终语言处理结果生成解答内容进行交互，执行模块执行交互指令；若匹配失败，根据数字声音信号解析用户NLP自然语言，控制中心访问通用问答库，调用通用问答库的数据进行解答，执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入用户问答库。

本在本发明实施例一提供的一种智能语音交互***，在使用过程中，需要通过采集模拟声音信号，并对模拟声音信号进行模数转换为数字声音信号，将转换后的数字声音信号进行特征提取，得出数字声音信号的特征参数，并对数字声音信号的特征参数进行标记；利用标记后的数字声音信号的特征参数进行计算得出第一判定参数，并且设定标准判定参数，然后将第一判定参数和标准判定参数分别进行一阶求导，计算第一判定参数的一阶导数和标准判定参数的一阶导数的绝对值之差，得出差值；将该差值与设定的差值阈值进行比较：若差值大于等于差值阈值，判断采集声音的数字声音信号不符合控制标准，噪音数据库收录该数字声音信号；若差值小于差值阈值，则判断采集声音的数字声音信号符合控制标准，控制中心过滤噪音数据库收录的数字声音信号，分析过滤后的数字声音信号的音色。

将数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配：若匹配成功，根据数字声音信号解析用户NLP自然语言，控制中心遍历用户问答库的历史问答记录，根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据最终语言处理结果生成解答内容进行交互，执行模块执行交互指令；若匹配失败，根据数字声音信号解析用户NLP自然语言，控制中心访问通用问答库，调用通用问答库的数据进行解答，执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入用户问答库。

通过在本发明实施例一提供的一种智能语音交互***可实现利用智能语音设备辨识有效发声或环境嘈杂音，如判断为有效发声，可屏蔽掉其他环境干扰音，增加语音识别的精准度；在本发明实施例一提供的一种智能语音交互***中还可根据音色数据库比对结果识别发声用户身份，访问该用户数据库的历史问答记录的内容的相关性消除信息差异，避免由于语音识别不清导致用户交互体验不佳，如无问答历史，可创建该用户数据库，解析NLP自然语言并访问通用数据库进行解答,本发明实施例一提供的一种智能语音交互***，能够有效识别是否有效发声以及对发声用户进行辨识及历史记录，优化人机交互体验。

需要进一步进行说明的是，在本发明实施例一提供的一种智能语音交互***中，数据采集模块为利用拾音器对模拟声音信号进行采集，拾音器为模拟拾音器，由麦克风和音频放大电路组成。

其中，拾音器分为数字拾音器和模拟拾音器，数字拾音器就是通过数字信号处理***将模拟的音频信号转换成数字信号并进行相应的数字信号处理的声音传感设备。模拟拾音器是用一般的模拟电路放大咪头采集到的声音。拾音器有三线制和四线制之分；三线制拾音器一般红色代表电源正极，白色代表音频正极，黑色代表信号及电源的负极。四线制拾音器一般红色代表电源正极，白色代表音频正极，音频负极和电源负极是分开来。

数据处理模块在接收到数据采集模块发送的模拟声音信号后，进行数据处理，具体的，数据处理模块进行数据处理的过程包括以下步骤：利用模数转换将模拟声音信号转换为数字声音信号，将转换后的数字声音信号进行特征提取，得出数字声音信号的特征参数，其中，数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色；对数字声音信号的特征参数进行标记，将数字声音信号的分贝标记为F_by，将数字声音信号的速度标记为S_dy，将数字声音信号的音调标记为G_dy，将数字声音信号的音色标记为Y_sy，其中，y为采集次数标号，且y=1、2、3、...、n，n为采集次数总数。

需要进一步进行说明的是，在本发明实施例一提供的一种智能语音交互***中，将数字声音信号的分贝F_by、数字声音信号的速度S_dy、数字声音信号的音调G_dy和数字声音信号的音色Y_sy发送至数据分析模块进行数据分析。

数字声音信号的特征参数中，分贝代表声音的响度，声音信号的音色代表不同声音表现在波形方面不同的特性，用于区分不同人声，数字声音信号的音调代表声音频率的高低；数字声音信号的速度表示发声的间隔长短。

然后将数字声音信号的分贝F_by、数字声音信号的音色Y_sy、数字声音信号的音调G_dy和数字声音信号的速度S_dy发送至数据分析模块进行数据分析，数据分析模块在接收到数据处理模块发送的数字声音信号的分贝F_by，数字声音信号的音色Y_sy、数字声音信号的音调G_dy和数字声音信号的速度S_dy后，进行数据分析，具体的，数据分析模块的分析过程包括以下步骤：利用公式

为预设比例系数。

利用计算得出的第一判定参数P_dy获取第一判定参数的一阶导数P_dy1，并设定标准判定参数P_db，并对标准判定参数P_db进行一阶求导，得出标准判定参数的一阶导数P_db1；计算第一判定参数的一阶导数P_dy1和标准判定参数的一阶导数P_db1的绝对值之差，公式为：

，得出差值Cz，并且与预设的差值阈值Cz₀进行比较，若Cz≥Cz₀，则说明采集声音的数字声音信号不符合控制标准，噪音数据库收录数字声音信号；若Cz＜Cz₀，则说明采集的声音符合控制标准，控制中心过滤噪音数据库收录的数字声音信号，并分析过滤后的数字声音信号的音色；通过数据分析模块内的数据采集单元获取音色数据库中存储的用户音色参数集Y_sbp，并将数字声音信号的音色Y_sy与用户音色参数集Y_sbp内的用户音色参数进行参数匹配，若数字声音信号的音色Y_sy匹配成功，根据数字声音信号解析用户NLP自然语言，控制中心遍历用户问答库的历史问答记录，根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据最终语言处理结果生成解答内容进行交互，执行模块执行交互指令；若数字声音信号的音色Y_sy匹配失败，根据数字声音信号解析用户NLP自然语言，控制中心访问通用问答库，调用通用问答库的数据进行解答，执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入用户问答库。

需要进行说明的是，标准声音分贝参数、标准声音音调参数和标准声音速度参数为整个控制***内的最优分贝值、最优音高值和最优速度值，声音分贝影响参数、声音音调影响参数和声音速度影响参数为影响声音分贝、音高和速度的三个参数值。

需要进一步进行说明的是，在本发明实施例一提供的一种智能语音交互***中，用户音色参数集Y_sbp={Y_sb1、Y_sb2、Y_sb3、...、Y_sbt}，其中p为用户标号，t为用户人数总数。

用户音色参数集Y_sbp的获取过程如下：通过控制中心内的数据采集终端来对用户的声音信息进行录入，其中，用户的声音信息包括声音分贝、声音速度、声音音调。

将声音信息与音色映射模型相结合，获取并存储用户音色参数后，将所有获取得到的用户音色参数进行整合形成用户音色参数集，音色映射模型为基于人工智能模型进行训练。

需要进一步进行说明的是，基于人工智能模型来对音色映射模型进行训练，具体过程为：通过服务器整合并获取标准训练数据，其中，标准训练数据包括声音信息和音用户色参数；通过标准训练数据对人工智能模型进行训练，获取并存储音色映射模型；其中，人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。

可以理解的是，标准训练数据中身体特征参数对应的范围应该足够大，如性别应包括男和女，年龄范围应该在1-120岁之内均匀分布。

需要进一步进行说明的是，深度卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学***移不变分类，卷积是一种线性运算，需要将一组权重与输入相乘，以生成称为滤波器的二维权重数组。如果调整滤波器以检测输入中的特定特征类型，则在整个输入图像中重复使用该滤波器可以发现图像中任意位置的特征，结构包括：输入层：卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。由于卷积神经网络在计算机视觉领域应用较广，因此许多研究在介绍其结构时预先假设了三维输入数据，即平面上的二维像素点和RGB通道。与其它神经网络算法类似，由于使用梯度下降算法进行学习，卷积神经网络的输入特征需要进行标准化处理。具体地，在将学习数据输入卷积神经网络前，需在通道或时间/频率维对输入数据进行归一化。

隐含层：卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，在一些更为现代的算法中可能有Inception模块、残差块（residual block）等复杂构筑。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此在文献中，池化层可能不被认为是独立的层。以LeNet-5为例，3类常见构筑在隐含层中的顺序通常为：输入-卷积层-池化层-全连接层-输出。

RBF（Radial Basis Function，径向基函数）神经网络模型又称为径向基神经网络模型，是一种三层前向网络，第一层为由信号源节点组成的输入层，第二层为隐层，隐单元数视问题需要而定，隐单元的变换函数为非负非线性的函数RBF，第三层为输出层，输出层是对隐层神经元输出的线性组合，RBF神经网络模型的基本思想是：用RBF作为隐单元的基构成隐含层空间，这样就可以将输入矢量直接映射到隐空间，而不需要通过权连接。当RBF的中心点确定以后，这种映射关系也就确定了。而隐含层空间到输出空间的映射是线性的，即网络的输出是隐单元输出的线性加权和，此处的权即为网络可调参数。其中，隐含层的作用是把向量从低维度的映射到高维度的，这样低维度线性不可分的情况到高维度就可以变得线性可分了，主要就是核函数的思想。这样，网络由输入到输出的映射是非线性的，而网络输出对可调参数而言却又是线性的，网络的权就可由线性方程组直接解出，从而大大加快学习速度并避免局部极小问题。

实施例二

本发明实施例二提供的一种智能语音交互方法，如图2所示，包括以下步骤：获取模拟声音信号，并对模拟声音信号进行模数转换得到数字声音信号；将数字声音信号进行特征提取，得出数字声音信号的特征参数，并对数字声音信号的特征参数进行标记；利用标记后的数字声音信号的特征参数进行计算得到第一判定参数，并且设定标准判定参数，然后将第一判定参数和标准判定参数分别进行一阶求导，计算第一判定参数的一阶导数和标准判定参数的一阶导数的绝对值之差，得到判定差值；将判定差值与设定的差值阈值进行比较，若判定差值大于等于差值阈值，判断采集声音的数字声音信号不符合控制标准，噪音数据库收录数字声音信号；若判定差值小于差值阈值，判断采集声音的数字声音信号符合控制标准，控制中心过滤噪音数据库收录的数字声音信号，并分析过滤后的数字声音信号的音色；将数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配：若匹配成功，根据数字声音信号解析用户NLP自然语言，控制中心遍历用户问答库的历史问答记录，根据解析用户NLP自然语言结果与用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据最终语言处理结果生成解答内容进行交互，执行模块执行交互指令；若匹配失败，根据数字声音信号解析用户NLP自然语言，控制中心访问通用问答库，调用通用问答库的数据进行解答，执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入用户问答库。

通过本发明实施例二提供的一种智能语音交互方法，可实现利用智能语音设备辨识有效发声或环境嘈杂音，如判断为有效发声，可屏蔽掉其他环境干扰音，增加语音识别的精准度；本发明实施例二提供的一种智能语音交互方法还可根据音色数据库比对结果识别发声用户身份，访问该用户数据库的历史问答记录的内容的相关性消除信息差异，避免由于语音识别不清导致用户交互体验不佳，如无问答历史，可创建该用户数据库，解析NLP自然语言并访问通用数据库进行解答；通过本发明实施例二提供的一种智能语音交互方法，能够有效识别是否有效发声以及对发声用户进行辨识及历史记录，优化人机交互体验。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

上述公式均是去除量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式，公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种智能语音交互***，其特征在于，包括数据采集模块、数据处理模块、数据分析模块、数据中心、执行模块和控制中心；

所述数据中心包含音色数据库、噪音数据库、通用问答库及用户问答库；

所述数据采集模块：采集模拟声音信号，并且将采集到的所述模拟声音信号发送至所述数据处理模块进行数据处理；

所述数据处理模块：利用模数转换将所述模拟声音信号转换为数字声音信号，将转换后的数字声音信号进行特征提取，得到数字声音信号的特征参数，其中，所述数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色，对所述数字声音信号的特征参数进行标记，并发送至所述数据分析模块进行分析；

所述数据分析模块：利用所述数字声音信号的特征参数中数字声音信号的分贝、速度和音调进行计算得到第一判定参数，并设定标准判定参数，对所述第一判定参数和所述标准判定参数进行一阶求导，求一阶求导后的所述第一判定参数的一阶导数和所述标准判定参数的一阶导数的绝对值之差，得到判定差值；

将所述判定差值与预设的差值阈值进行比较，若所述判定差值大于或等于所述差值阈值，判断采集声音的数字声音信号不符合控制标准，所述噪音数据库收录所述数字声音信号；

若所述判定差值小于所述差值阈值，判断采集声音的数字声音信号符合控制标准，所述控制中心过滤所述噪音数据库收录的数字声音信号，并分析过滤后的所述数字声音信号的音色；

将所述数字声音信号的音色与所述音色数据库中存储的用户音色参数集内的用户音色进行匹配：

若匹配成功，根据所述数字声音信号解析用户NLP自然语言，所述控制中心遍历所述用户问答库的历史问答记录，根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据所述最终语言处理结果生成解答内容进行交互，所述执行模块执行交互指令；

若匹配失败，根据所述数字声音信号解析用户NLP自然语言，所述控制中心访问所述通用问答库，调用所述通用问答库的数据进行解答，所述执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入所述用户问答库。

2.根据权利要求1所述的一种智能语音交互***，其特征在于，所述数据处理模块进行数据处理的过程包括以下步骤：

利用模数转换将所述模拟声音信号转换为数字声音信号，将转换后的所述数字声音信号进行特征提取，得出所述数字声音信号的特征参数，其中，所述数字声音信号的特征参数包括数字声音信号的分贝、速度、音调和音色；

对所述数字声音信号的特征参数进行标记，将所述数字声音信号的分贝标记为F_by，将所述数字声音信号的速度标记为S_dy，将所述数字声音信号的音调标记为G_dy，将所述数字声音信号的音色标记为Y_sy，其中，y为采集次数标号，且y=1、2、3、...、n，n为采集次数总数；

将所述数字声音信号的分贝F_by、所述数字声音信号的速度S_dy、所述数字声音信号的音调G_dy和所述数字声音信号的音色Y_sy发送至所述数据分析模块进行数据分析。

3.根据权利要求2所述的一种智能语音交互***，其特征在于，所述数据分析模块进行数据分析的过程包括以下步骤：

利用公式

为预设比例系数；

利用计算得出的第一判定参数P_dy获取第一判定参数的一阶导数P_dy1，并设定标准判定参数P_db，并对所述标准判定参数P_db进行一阶求导，得出所述标准判定参数的一阶导数P_db1；

计算所述第一判定参数的一阶导数P_dy1和所述标准判定参数的一阶导数P_db1的绝对值之差，公式为：

，得出差值Cz，并且与预设的所述差值阈值Cz₀进行比较，若Cz≥Cz₀，则说明采集声音的数字声音信号不符合控制标准，所述噪音数据库收录所述数字声音信号；

若Cz＜Cz₀，则说明采集的声音符合控制标准，所述控制中心过滤所述噪音数据库收录的数字声音信号，并分析过滤后的所述数字声音信号的音色；

通过所述数据分析模块内的数据采集单元获取所述音色数据库中存储的用户音色参数集Y_sbp，并将所述数字声音信号的音色Y_sy与所述用户音色参数集Y_sbp内的用户音色参数进行参数匹配，若所述数字声音信号的音色Y_sy匹配成功，根据所述数字声音信号解析用户NLP自然语言，所述控制中心遍历所述用户问答库的历史问答记录，根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据所述最终语言处理结果生成解答内容进行交互，所述执行模块执行交互指令；

若数字声音信号的音色Y_sy匹配失败，根据所述数字声音信号解析用户NLP自然语言，所述控制中心访问所述通用问答库，调用所述通用问答库的数据进行解答，所述执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入所述用户问答库。

4.根据权利要求3所述的一种智能语音交互***，其特征在于，所述用户音色参数集Y_sbp={Y_sb1、Y_sb2、Y_sb3、...、Y_sbt}，其中p为用户标号，t为用户人数总数。

5.根据权利要求4所述的一种智能语音交互***，其特征在于，所述用户音色参数集Y_sbp的获取过程如下：

通过所述控制中心内的数据采集终端来对用户的声音信息进行录入，其中，用户的声音信息包括声音分贝、声音速度、声音音调；

将声音信息与音色映射模型相结合，获取并存储用户音色参数后，将所有获取得到的用户音色参数进行整合形成用户音色参数集，所述音色映射模型为基于人工智能模型进行训练。

6.根据权利要求5所述的一种智能语音交互***，其特征在于，基于所述人工智能模型来对音色映射模型进行训练，过程为：

通过服务器整合并获取标准训练数据，其中，所述标准训练数据包括声音信息和用户音色参数；

通过所述标准训练数据对所述人工智能模型进行训练，获取并存储所述音色映射模型；其中，所述人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。

7.根据权利要求1所述的一种智能语音交互***，其特征在于，所述数据采集模块为利用拾音器对模拟声音信号进行采集。

8.根据权利要求7所述的一种智能语音交互***，其特征在于，所述拾音器为模拟拾音器，由麦克风和音频放大电路组成。

9.一种智能语音交互方法，其特征在于，方法包括以下步骤：

获取模拟声音信号，并对所述模拟声音信号进行模数转换得到数字声音信号；

将所述数字声音信号进行特征提取，得出所述数字声音信号的特征参数，并对所述数字声音信号的特征参数进行标记；

利用标记后的数字声音信号的特征参数进行计算得到第一判定参数，并且设定标准判定参数，然后将所述第一判定参数和所述标准判定参数分别进行一阶求导，计算所述第一判定参数的一阶导数和所述标准判定参数的一阶导数的绝对值之差，得到判定差值；

将所述判定差值与设定的差值阈值进行比较，若所述判定差值大于等于所述差值阈值，判断采集声音的数字声音信号不符合控制标准，噪音数据库收录所述数字声音信号；

若所述判定差值小于所述差值阈值，判断采集声音的数字声音信号符合控制标准，控制中心过滤所述噪音数据库收录的数字声音信号，并分析过滤后的所述数字声音信号的音色；

将所述数字声音信号的音色与音色数据库中存储的用户音色参数集内的用户音色进行匹配：

若匹配成功，根据所述数字声音信号解析用户NLP自然语言，所述控制中心遍历所述用户问答库的历史问答记录，根据解析用户NLP自然语言结果与所述用户问答库的历史问答记录的内容的相关性消除信息差异，获得最终语言处理结果，并根据所述最终语言处理结果生成解答内容进行交互，执行模块执行交互指令；

若匹配失败，根据所述数字声音信号解析用户NLP自然语言，所述控制中心访问通用问答库，调用所述通用问答库的数据进行解答，所述执行模块执行交互指令，同时生成该用户的用户问答库的历史问答记录，将本次问答内容收录入所述用户问答库。