CN116665669A

CN116665669A - 一种基于人工智能的语音交互方法及***

Info

Publication number: CN116665669A
Application number: CN202310892002.5A
Authority: CN
Inventors: 吉祥
Original assignee: Shanghai Haiqi Technology Co ltd
Current assignee: Shanghai Haiqi Technology Co ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-08-29

Abstract

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的语音交互方法及***。该方法包括以下步骤：获取用户语音数据，并进行场景降噪，获取用户语音场景降噪数据；对用户语音场景去噪数据进行优化分帧处理，获取用户语音优化分帧数据；对用户语音优化分帧数据进行语义特征提取以及情感特征提取，获取用户语音语义特征数据以及用户语音情感特征数据；对用户语音语义特征数据进行识别，获取用户语音文本数据，并利用用户语音情感特征数据对用户语音文本数据进行修正，获取用户情感语音文本数据；根据用户情感语音文本数据进行用户意图挖掘，从而获取用户意图数据。本发明根据语音输入生成相应的语音回应，提高交互效率和用户满意度。

Description

一种基于人工智能的语音交互方法及***

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的语音交互方法及***。

背景技术

人工智能(Artificial Intelligence，AI)是一门研究和开发用于模拟、扩展和延伸人的智能的技术和方法。它涵盖了多个领域，包括机器学习、自然语言处理、计算机视觉，旨在使计算机***具备感知、理解、学习和决策类似于人类智能的能力。语音交互方法是一种基于语音技术和人机交互的方法，通过语音输入和语音输出实现人与计算机之间的交互。它使用户能够使用自然语言和语音进行与计算机的交流和操作，而无需依赖键盘、鼠标的传统输入设备。目前的语音交互***在理解和推理用户的意图和上下文时还有一定的局限性，即对于复杂的语义理解、推断和对话管理，无法做到对用户意图的准确理解和及时的响应。

发明内容

本发明为解决上述技术问题，提出了一种基于人工智能的语音交互方法及***，以解决至少一个上述技术问题。

本申请提供了一种基于人工智能的语音交互方法，包括以下步骤：

步骤S1：获取用户语音数据，并对用户语音数据进行场景降噪，从而获取用户语音场景降噪数据；

步骤S2：对用户语音场景去噪数据进行优化分帧处理，从而获取用户语音优化分帧数据；

步骤S3：对用户语音优化分帧数据进行语义特征提取以及情感特征提取，从而获取用户语音语义特征数据以及用户语音情感特征数据；

步骤S4：利用预设的用户语音识别模型对用户语音语义特征数据进行识别，从而获取用户语音文本数据，并利用用户语音情感特征数据对用户语音文本数据进行修正，从而获取用户情感语音文本数据；

步骤S5：根据用户情感语音文本数据进行用户意图挖掘，从而获取用户意图数据；

步骤S6：获取用户语音数据对应的语音交互时间数据，并根据语音交互时间数据、用户意图数据以及用户语音文本数据进行语音交互生成，从而获取语音交互文本数据，以进行语音交互作业。

本发明通过场景降噪和优化分帧处理，可以降低环境噪声对语音信号的影响，并提取出清晰的用户语音数据，从而改善语音识别的准确性。通过语义特征提取和情感特征提取，可以从用户语音数据中提取语义信息和情感特征，使***能够更好地理解用户意图和情感状态。通过将用户语音转化为文本数据，并结合用户意图挖掘和语音交互时间数据，可以生成更具上下文和个性化的语音交互文本数据，从而提供更智能、灵活和自然的语音交互体验。通过修正用户语音文本数据并结合用户情感特征数据，可以实现对用户情感的感知和响应，使***能够更加人性化地与用户进行情感化的交互。通过用户意图挖掘和语音交互生成，可以从用户语音数据中获取用户意图数据，并根据上下文和语音交互时间进行推断和生成相应的语音交互文本数据，提高对用户意图的准确理解和响应能力。

优选地，用户语音场景降噪数据包括用户语音高频降噪数据、用户语音低频降噪数据以及用户语音深度降噪数据，步骤S1具体为：

步骤S11：实时获取用户语音数据以及场景噪音数据；

步骤S12：对场景噪音数据进行场景噪音特征提取，从而获取场景噪音特征数据；

步骤S13：根据场景噪音特征数据进行噪音特性处理，从而获取场景噪音特性数据；

步骤S14：确定场景噪音特性数据为高频噪音特性数据时，则对用户语音数据进行高频降噪处理，从而获取用户语音高频降噪数据；

步骤S15：确定场景噪音特性数据为低频噪音特性数据时，则对用户语音数据进行低频降噪处理，从而获取用户语音低频降噪数据；

步骤S16：确定场景噪音特性数据为混合噪音特性数据时，则利用预设的场景深度降噪模型对用户语音数据进行降噪处理，从而获取用户语音深度降噪数据，其中场景深度降噪模型为利用语音信号和预设的环境噪声集进行深度神经网络学习生成，并根据场景噪音特性数据进行参数调整以进行降噪作业。

本发明通过实时获取用户语音数据和场景噪音数据，可以及时捕获用户的语音输入以及当前环境中的噪音情况，为后续处理提供准确的数据基础。通过对场景噪音数据进行特征提取，可以获取有关环境噪音的特征信息，帮助***更好地理解和分析当前环境的噪音特性。根据场景噪音特性数据，对用户语音数据进行相应的噪音特性处理，例如高频降噪、低频降噪或混合噪音降噪。这样可以减少环境噪音对语音信号的干扰，提升语音信号的质量和可识别性。当场景噪音特性数据为混合噪音特性数据时，通过利用预设的场景深度降噪模型对用户语音数据进行降噪处理，可以更准确地去除复杂的噪音干扰，提高语音信号的清晰度和可理解性。根据场景噪音特性数据，对场景深度降噪模型的参数进行调整和优化，以适应不同场景和噪音特性的降噪需求，进一步提升降噪效果和语音质量。

优选地，用户语音优化分帧数据包括第一用户语音分帧数据、第二用户语音分帧数据以及第三用户语音分帧数据，步骤S2具体为：

步骤S21：确定场景噪音特性数据为高频噪音特性数据时，则对用户语音场景去噪数据进行第一分帧处理，从而获取第一用户语音分帧数据；

步骤S22：确定场景噪音特性数据为低频噪音特性数据时，则对用户语音场景去噪数据进行第二分帧处理，从而获取第二用户语音分帧数据；

步骤S23：确定场景噪音特性数据为混合噪音特性数据时，则对用户语音场景去噪数据进行第三分帧处理，从而获取第三用户语音分帧数据，其中第一用户语音分帧数据的分帧长度大于第三用户语音分帧数据的分帧长度，第三用户语音分帧数据的分帧长度大于或等于第二用户语音分帧数据。

本发明中将连续的语音信号划分为一系列帧，每帧包含较短的语音片段。分帧处理有助于提取语音的局部特征，并将语音数据转换为更易处理的形式。根据低频噪音特性的需求进行更精细的分帧操作。不同于第一分帧处理，第二分帧处理可能采用不同的分帧参数，以更好地适应低频噪音的处理需求。与前两种分帧处理相比，第三分帧处理可能具有更灵活的分帧长度和参数设置，以适应复杂噪音环境下的语音数据特征。分帧后，每个帧可以更好地表示短时语音片段的特征，如音频频谱、能量。这有助于语义特征提取和语音识别的后续处理步骤。分帧后，每个帧中的语音信号相对较短，噪音在每帧中的影响相对较小。这可以减轻噪音对语音处理的影响，提高后续处理的准确性。根据场景噪音特性数据的不同，选择相应的分帧处理策略，能够更好地适应不同类型的噪音，并提供更好的语音信号质量。

优选地，步骤S3具体为：

对用户语音优化分帧数据进行归一化处理，从而获取用户归一化分帧数据；

对用户归一化分帧数据进行语义特征提取以及情感特征提取，从而获取用户语音语义特征数据以及用户语音情感特征数据。

本发明中对用户语音优化分帧数据进行归一化处理。归一化可以将不同帧之间的数值范围统一，消除不同帧之间的幅度差异。这有助于提高后续特征提取过程中的数据可比性和稳定性。从归一化分帧数据中提取语义特征。语义特征是指语音中包含的与语义内容相关的信息，如说话者的声调、语速、语音韵律。通过提取语义特征，可以更好地捕捉语音的语义内容，为后续的语音识别、意图理解的任务提供重要线索。从归一化分帧数据中提取情感特征。情感特征是指语音中表达的情感状态，如喜悦、愤怒、悲伤。通过提取情感特征，可以了解用户的情感倾向和情绪状态，为情感分析、情感识别的应用提供基础。

优选地，步骤S4具体为：

步骤S41：利用预设的用户语音识别模型对用户语音语义特征数据进行识别，从而获取用户语音文本数据；

步骤S42：对用户语音情感特征数据进行情感标签标识并评分处理，从而获取用户语音情感标签数据以及用户语音情感评分数据；

步骤S43：根据用户语音情感标签数据以及用户语音情感评分数据对用户语音文本数据进行情感修正，从而获取用户情感语音修正数据；

步骤S44：根据用户情感语音修正数据以及用户语音情感特征数据进行用户情感语音本生成，从而用户情感语音文本数据；

其中评分处理通过用户语音情感评分计算公式进行评分处理，用户语音情感评分计算公式具体为：

S为用户语音情感评分数据，e为自然指数项，为用户语音情感特征数据，β为户语音情感标签数据权重项，f(t)为用户语音情感变化函数，t为时间数据，u为用户语音情感稳定性项，r为用户语音情感调整项，d为缩放指数，k为用户语音情感常数项，q为用户语音情感随机项。

本发明构造了一种用户语音情感评分计算公式，该计算公式将用户的语音情感特征数据转化为情感评分数据S。这样可以量化和衡量用户语音中所表达的情感强度或倾向。公式中的参数β用于调整情感标签数据的权重，即对不同情感标签的重要性进行调整。通过调整β的值，可以灵活地对不同情感标签对评分的贡献程度进行加权，以符合实际情感分析的需求。公式中的f(t)代表用户语音情感的变化函数，其中t为时间数据。情感变化函数描述了用户情感在时间上的演变规律，通过函数的形状和参数调整，可以捕捉到情感在不同时间段的变化趋势，进一步细化情感评分的精度。公式中的参数u和r分别代表了情感的稳定性项和调整项。情感稳定性项u可以体现用户情感的稳定性程度，通过该项可以考虑情感的持续性和一致性。情感调整项r用于校正情感评分的偏差或调整评分的灵活性，通过调整u和r的值，可以对情感评分进行精细调节，以满足特定情境下的需求。公式中的参数d、k和q分别代表缩放指数、常数项和随机项，它们通过对情感评分进行缩放、偏移和随机调整，可以进一步对评分结果进行修正和个性化处理，增加评分的变化性和丰富性。将用户语音情感特征数据转化为情感评分数据，通过调整各个参数的取值，可以对不同方面的情感特征进行加权和调整，从而得到更准确和细致的情感评分结果。这样的情感评分数据可以在语音交互中提供情感识别和理解的基础，为***的情感交互和回应提供支持和指导。

本发明中利用预设的用户语音识别模型对用户语音语义特征数据进行识别，从而将语音转换为文本数据。这使得***可以理解用户的语音输入并进行后续的语义处理和意图分析。对用户语音情感特征数据进行情感标签标识并评分处理。这可以识别出用户语音中所表达的情感状态，并对其进行量化评分。通过情感标签和评分，***可以更好地了解用户的情感倾向和情绪状态。根据用户语音情感标签数据以及用户语音情感评分数据，对用户语音文本数据进行情感修正。这意味着***可以根据用户的情感特征调整生成的语音文本，以更好地与用户的情感状态相匹配。根据用户情感语音修正数据以及用户语音情感特征数据，生成符合用户情感状态的语音文本数据。这使***能够产生与用户情感相一致的语音响应，增强用户交互的情感共鸣和互动效果。

优选地，其中用户语音识别模型的构建步骤具体为：

步骤S411：获取标准用户语音数据以及相应的元用户语音标识数据；

步骤S412：对标准用户语音数据进行预处理，从而获取标准用户语音预处理数据；

步骤S413：对标准用户语音预处理数据进行特征提取，从而获取标准用户语音特征数据；

步骤S414：根据标准用户语音特征数据进行卷积计算，从而获取标准用户语音卷积层数据；

步骤S415：对标准用户语音卷积层数据进行池化计算，从而获取标准用户语音池化层数据；

步骤S416：对标准用户语音池化层数据进行全连接计算，从而获取标准用户语音全连接数据；

步骤S417：利用元用户语音标识数据对标准用户语音全连接数据进行标识，从而构建用户语音识别模型。

本发明中通过步骤S411，获取标准用户语音数据以及相应的元用户语音标识数据。这些数据对于构建准确和可靠的语音识别模型至关重要，因为它们提供了用于训练和评估模型的真实语音样本和对应的标签数据。通过步骤S412，对标准用户语音数据进行预处理，以准备用于特征提取和模型训练。预处理步骤可能包括去除噪音、语音信号增强、音频分割的操作，以提高后续步骤的效果。通过步骤S413，从标准用户语音预处理数据中提取语音特征。语音特征可以是声谱特征、梅尔频谱特征、倒谱系数，这些特征能够捕捉语音信号的重要信息，并为模型提供有用的输入。通过步骤S414和S415，对标准用户语音特征数据进行卷积计算和池化计算。这些计算操作有助于提取特征的局部和整体结构信息，并减少数据的维度，从而降低模型的复杂度和计算量。通过步骤S416，对标准用户语音池化层数据进行全连接计算。全连接层能够学习到更高级别的特征表示，并为模型的分类和识别任务提供决策能力。通过步骤S417，利用元用户语音标识数据对标准用户语音全连接数据进行标识，从而构建用户语音识别模型。该模型可以用于将用户的语音特征数据映射到相应的标识或文本，实现语音识别的功能。

优选地，步骤S5具体为：

根据用户情感语音文本数据通过预设的用户意图规则集进行文本匹配，从而获取用户意图数据；

其中文本匹配的步骤具体为：

步骤S51：根据用户情感语音文本数据以及预设的用户意图规则集进行第一文本匹配，从而获取第一用户意图数据；

步骤S52：根据用户情感语音文本数据以及预设的用户意图规则集进行第二文本匹配，从而获取第二用户意图数据，其中第一文本匹配以及第二文本匹配为不同的字符串匹配算法，初级用户意图数据包括第一用户意图数据以及第二用户意图数据；

步骤S53：确定初级用户意图数据为不包含一个用户意图数据的初级用户意图数据时，则获取场景音频数据，并根据场景音频数据进行场景意图挖掘，从而获取用户意图数据；

步骤S54：确定初级用户意图数据为仅包含一个用户意图数据的初级用户意图数据时，则将初级用户意图数据确定为用户意图数据；

步骤S55：确定初级用户意图数据为包含至少两个用户意图数据时，则根据历史用户意图匹配数据对初级用户意图数据进行置信度计算，从而获取初级用户意图置信度数据；

步骤S56：利用初级用户意图置信度数据对初级用户意图数据进行最优置信度筛选，从而获取用户意图数据。

本发明中通过步骤S5，根据用户情感语音文本数据通过预设的用户意图规则集进行文本匹配，从而获取用户意图数据。这样做可以帮助***理解用户的意图和需求，为后续的语音交互过程提供指导和相应的响应。通过步骤S51和S52，利用不同的字符串匹配算法进行文本匹配，从而获取第一用户意图数据和第二用户意图数据。采用不同的匹配算法可以提高匹配的准确性和覆盖范围，增强***对用户意图的理解和识别能力。通过步骤S53和S54，对初级用户意图数据进行处理。当初级用户意图数据只包含一个用户意图时，直接确定为用户意图数据；当初级用户意图数据不包含用户意图或包含多个用户意图时，需要进一步处理。通过步骤S53，当初级用户意图数据不包含用户意图时，利用场景音频数据进行场景意图挖掘。这有助于根据场景的上下文信息推测用户的意图，从而更准确地捕捉用户的需求。通过步骤S55，当初级用户意图数据包含多个用户意图时，根据历史用户意图匹配数据对初级用户意图数据进行置信度计算。这可以根据历史匹配结果和模式推断初级用户意图的可靠性和准确性。通过步骤S56，利用初级用户意图置信度数据对初级用户意图数据进行最优置信度筛选，从而获取用户意图数据。这可以过滤掉置信度较低的意图，提高***对用户意图的准确度和可靠度。

优选地，置信度计算通过用户意图置信度计算公式进行计算，其中用户意图置信度计算公式具体为：

C为初级用户意图置信度数据，x为初级用户意图数据，n为初级用户意图数据的数量数据，i为特定序次项，o为底数常数项，a_i为历史初级用户意图匹配程度项，x_i为第i个初级用户意图数据，b为最近历史用户意图拟合程度项，c为用户场景调整项，e为修正误差项，f为模糊误差项，g为基础常数项，h为随机项。

本发明构造了一种用户意图置信度计算公式，该计算公式用于计算初级用户意图数据的置信度，即衡量***对用户意图的信任程度。通过计算，可以将初级用户意图数据映射到一个置信度值，用于判断该意图的可靠性和准确性。不同参数在公式中扮演不同的角色。例如，历史初级用户意图匹配程度项a_i和初级用户意图数据项x_i反映了历史匹配结果和当前意图的匹配程度；最近历史用户意图拟合程度项b反映了最近意图的拟合程度；用户场景调整项c用于根据当前场景对置信度进行调整；修正误差项和模糊误差项f则用于考虑误差的修正和模糊性。通过数学符号之间的相互作用，计算出初级用户意图的置信度数据。这有助于***对用户意图的理解和推断，并提供更可靠和准确的意图识别结果。同时，不同参数的设置和调整可以根据具体情况进行灵活调节，以适应不同的应用场景和用户需求。

优选地，步骤S6具体为：

步骤S61：根据语音交互时间数据对用户意图数据以及用户语音文本数据进行时间顺次标注并关联，从而获得用户意图语音文本时间顺次数据；

步骤S62：根据用户意图数据生成语音交互形式数据；

步骤S63：利用预设的人工智能语音交互生成模型对用户意图语音文本时间顺次数据进行识别计算，从而获取语音交互文本数据；

步骤S64：根据语音交互形式数据以及语音交互文本数据进行语音交互作业。

本发明中通过步骤S61，将用户意图数据和用户语音文本数据进行时间顺次标注并关联，从而获得用户意图语音文本时间顺次数据。这种标注和关联的过程可以帮助***理解和分析用户在语音交互中的意图和语音内容，并建立二者之间的对应关系。在步骤S62，根据用户意图数据生成语音交互形式数据。这可以使***以语音交互的方式与用户进行对话和互动，增强用户体验和交互的自然性。通过步骤S63，利用预设的人工智能语音交互生成模型对用户意图语音文本时间顺次数据进行识别计算，从而获取语音交互文本数据。这使***能够自动识别和理解用户的语音输入，并将其转化为文本形式进行后续处理和回应。步骤S64利用语音交互形式数据和语音交互文本数据进行语音交互作业。这意味着***可以根据用户的意图和语音输入，进行相应的交互回应、执行特定任务或提供相关信息，从而实现与用户的有意义的语音交互。

优选地，一种基于人工智能的语音交互***，包括：

用户语音数据获取模块：用于获取用户语音数据，并对用户语音数据进行场景降噪，从而获取用户语音场景降噪数据；

用户语音优化分帧模块：用于对用户语音场景去噪数据进行优化分帧处理，从而获取用户语音优化分帧数据；

用户语音特征提取模块：用于对用户语音优化分帧数据进行语义特征提取以及情感特征提取，从而获取用户语音语义特征数据以及用户语音情感特征数据；

用户情感语音文本处理模块：用于利用预设的用户语音识别模型对用户语音语义特征数据进行识别，从而获取用户语音文本数据，并利用用户语音情感特征数据对用户语音文本数据进行修正，从而获取用户情感语音文本数据；

用户意图挖掘模块：用于根据用户情感语音文本数据进行用户意图挖掘，从而获取用户意图数据；

语音交互文本处理模块：用于获取用户语音数据对应的语音交互时间数据，并根据语音交互时间数据、用户意图数据以及用户语音文本数据进行语音交互生成，从而获取语音交互文本数据，以进行语音交互作业。

本发明的有益效果在于：通过场景降噪处理，可以减少环境噪声对语音信号的干扰，提升后续处理步骤的准确性和效果。对用户语音场景去噪数据进行分帧，可以获取用户语音优化分帧数据。这样做的好处是将连续的语音信号分割为短时帧，有利于后续特征提取和语音识别算法对语音进行更细粒度的分析和处理。对用户语音场景去噪数据进行分帧，可以获取用户语音优化分帧数据。这样做的好处是将连续的语音信号分割为短时帧，有利于后续特征提取和语音识别算法对语音进行更细粒度的分析和处理。对用户语音优化分帧数据进行语义特征提取和情感特征提取，从而获取用户语音的语义信息和情感信息。这些特征对于后续的语音识别、意图挖掘和情感分析的任务非常重要，可以提供更深入、准确的语音理解和情感识别。用预设的用户语音识别模型对用户语音的语义特征数据进行识别，得到用户语音文本数据。同时，根据用户的情感特征数据对文本数据进行修正，得到用户情感语音文本数据。这一步骤可以提高语音识别的准确性，并根据用户的情感特征对识别结果进行更合理的修正，使得最终的语音文本更符合用户的表达和情感。对用户情感语音文本数据进行用户意图挖掘，从而获取用户意图数据。通过结合用户的语音输入和情感信息，该步骤可以更精确地理解用户的意图，并提供更准确、个性化的语音交互服务。根据用户意图数据、语音交互时间数据和用户语音文本数据进行语音交互生成，得到语音交互文本数据。这一步骤将用户的意图和语音输入转化为可交互的语音文本，以实现与用户的有意义的语音交互。通过考虑交互时间、用户意图和语音内容，该步骤可以生成更自然、流畅，并且个性化的语音交互文本，提升用户体验和交互效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了一实施例的基于人工智能的语音交互方法的步骤流程图；

图2示出了一实施例的步骤S1的步骤流程图；

图3示出了一实施例的步骤S2的步骤流程图；

图4示出了一实施例的步骤S4的步骤流程图；

图5示出了一实施例的用户语音识别模型构建方法的步骤流程图；

图6示出了一实施例的步骤S5的步骤流程图；

图7示出了一实施例的步骤S6的步骤流程图。

具体实施方式

下面结合附图对本发明专利的技术方法进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

请参阅图1至图7，本申请提供了一种基于人工智能的语音交互方法及***，一种基于人工智能的语音交互方法包括以下步骤：

具体地，例如使用麦克风或其他音频设备采集用户的语音数据。然后，应用场景降噪算法，如基于声学模型的降噪方法或基于深度学习的降噪方法，对语音数据进行降噪处理，去除背景噪音和环境干扰，得到用户语音场景降噪数据。

具体地，例如对用户语音场景降噪数据进行优化分帧处理。首先，将连续的语音信号分割成短时帧，通常采用短时傅里叶变换(Short-Time Fourier Transform，STFT)或其他分帧方法。然后，可以应用加窗技术，如汉明窗或海宁窗，对每个帧进行加窗处理，以减少频谱泄露。最终得到用户语音优化分帧数据。

具体地，例如通过对用户语音优化分帧数据进行特征提取来捕获语义特征和情感特征。常见的语义特征提取方法包括梅尔频谱系数(Mel-frequency CepstralCoefficients，MFCC)和滤波器组特征(Filter Bank Feature)。情感特征提取可以使用情感识别算法，如基于声音能量、基频、声调等特征的情感分析方法。这些特征提取方法可以得到用户语音的语义信息和情感信息。

具体地，例如使用预训练的用户语音识别模型，如深度学习模型(如循环神经网络、卷积神经网络)，对用户语音的语义特征数据进行识别，将其转化为对应的文本数据。然后，根据用户的情感特征数据，如情感分析结果或用户的情感倾向，对语音文本数据进行修正或调整，以获取用户情感语音文本数据。

具体地，例如使用自然语言处理(Natural Language Processing，NLP)技术，如文本分类、关键词提取、命名实体识别的方法，对用户的情感语音文本数据进行分析和处理，以提取用户的意图信息。这可以包括识别用户的问题、需求、指令或其他表达的意图，以获得用户意图数据。

具体地，例如结合用户的语音数据和对应的时间戳信息，获得语音交互时间数据。然后，根据用户意图数据和语音文本数据，利用自然语言生成(Natural LanguageGeneration，NLG)技术或其他生成模型，生成与用户意图相匹配的语音交互文本数据。这可以包括回答用户的问题、提供相关信息、执行指令或进行其他交互操作，以满足用户的需求。

步骤S11：实时获取用户语音数据以及场景噪音数据；

具体地，例如使用麦克风或其他音频设备实时采集用户的语音数据，并同时采集环境中的噪音数据，包括场景中的背景噪音、交通噪音。

具体地，例如对采集到的场景噪音数据进行特征提取。常见的场景噪音特征包括噪音能量、频谱形态。可以利用信号处理算法，如短时傅里叶变换(Short-Time FourierTransform，STFT)或其他频谱分析方法，提取场景噪音的频谱特征。

具体地，例如根据场景噪音特征数据对噪音进行特性处理。例如，可以根据噪音的频谱形态和能量分布，判断场景噪音的特性，如高频噪音、低频噪音或混合噪音。

具体地，例如当场景噪音特性数据被确定为高频噪音时，可以采用高频降噪算法对用户语音数据进行处理。例如，可以应用数字滤波器或其他降噪算法，抑制高频噪音成分，从而获得用户语音的高频降噪数据。

具体地，例如当场景噪音特性数据被确定为低频噪音时，可以采用低频降噪算法对用户语音数据进行处理。例如，可以应用数字滤波器或其他降噪算法，抑制低频噪音成分，从而获得用户语音的低频降噪数据。

具体地，例如当场景噪音特性数据被确定为混合噪音时，可以使用预先训练的场景深度降噪模型对用户语音数据进行处理。这种模型通常是基于深度神经网络(DeepNeural Network，DNN)进行训练的，使用语音信号和预设的环境噪声集进行学习。根据场景噪音特性数据进行参数调整，以进行降噪作业，最终获取用户语音的深度降噪数据。

具体地，例如在确定场景噪音特性为高频噪音后，可以对用户语音场景去噪数据进行第一分帧处理。分帧是将连续的语音信号分割成短时段的帧，每帧通常包含固定数量的语音样本。该过程可利用窗函数(如汉明窗)将语音信号分割为重叠的帧，并在每个帧上应用快速傅里叶变换(FFT)以获得频谱表示。

具体地，例如分成30-40ms一帧。

具体地，例如在确定场景噪音特性为低频噪音后，可以对用户语音场景去噪数据进行第二分帧处理。该处理与第一分帧处理类似，将语音信号分割为短时段的帧，采用窗函数和FFT转换。然而，对于低频噪音，可能需要调整分帧的参数设置，如窗长和帧移，以更好地适应低频信号的特点。

具体地，例如分成10-20ms一帧。

具体地，例如在确定场景噪音特性为混合噪音后，可以对用户语音场景去噪数据进行第三分帧处理。该处理与前两个步骤类似，但分帧的长度可能会有所不同。根据给定的场景噪音特性，第一用户语音分帧数据的帧长可能较长，以适应较高频率成分的处理。第三用户语音分帧数据的帧长可能与第二用户语音分帧数据相等或更长，以处理混合噪音的特性。

具体地，例如分成15-25ms一帧。

优选地，步骤S3具体为：

具体地，例如对于用户语音优化分帧数据，可以进行归一化处理，使其在统一的范围内，以便后续的特征提取和处理。一种常见的归一化方法是将每个分帧数据减去平均值，然后除以标准差，使数据的均值为0，标准差为1。这样可以消除数据之间的尺度差异，并确保数据具有相似的变化范围。

具体地，例如对于用户归一化分帧数据，可以进行语义特征提取和情感特征提取，以获得用户语音的语义信息和情感信息。语义特征提取：常用的语义特征包括梅尔频谱系数(Mel-frequency cepstral coefficients，MFCCs)、线性预测编码(Linear PredictiveCoding，LPC)、滤波器组频率响应(Filterbank frequency responses)。这些特征提取方法可以从频谱中提取重要的语音特征，用于表示语音的语义内容。情感特征提取：情感特征是从语音中提取的反映情感状态的特征。常见的情感特征包括基频(fundamentalfrequency，F0)、声调特征(intonation features)、语速(speaking rate)、能量(energy)。这些特征可以揭示语音中的情感色彩，如高兴、悲伤、愤怒。

优选地，步骤S4具体为：

具体地，例如使用已经训练好的语音识别模型，例如基于深度学习的端到端语音识别模型，对用户的语音语义特征数据进行识别。这个模型可以将语音输入转化为对应的文本输出，从而得到用户的语音文本数据。

具体地，例如根据用户语音的情感特征数据，使用情感分析算法对语音进行情感标签标识，如"高兴"、"悲伤"、"愤怒"。同时，对用户语音的情感程度进行评分，表示该情感的强度或程度。这样可以获得用户语音的情感标签数据和情感评分数据。

具体地，例如根据用户的情感标签数据和情感评分数据，可以对用户的语音文本数据进行情感修正。例如，对于特定的情感标签和评分，可以调整语音文本中的词汇、语气或语法，使其更加符合用户表达的情感内容。

具体地，例如利用用户情感语音修正数据和语音情感特征数据，可以生成符合用户情感的语音文本数据。这个过程可以包括合成语音的音调、语速、情感色彩的方面的调整，以产生与用户情感一致的语音文本。

S为用户语音情感评分数据，e为自然指数项，为用户语音情感特征数据，β为户语音情感标签数据权重项，f(t)为用户语音情感变化函数，t为时间数据，u为用户语音情感稳定性项，r为用户语音情感调整项，d为缩放指数，k为用户语音情感常数项，q为用户语音情感随机项。/>

优选地，其中用户语音识别模型的构建步骤具体为：

具体地，例如收集具有代表性的标准用户语音数据，包括不同人的发音、语速、语调的变化，并为每个语音样本标注相应的标识数据，例如对应的文本转录或语音指令。

具体地，例如对标准用户语音数据进行预处理，包括音频信号的降噪、去除不相关的背景声音、音频增益调整，以提高语音信号的质量和清晰度。

具体地，例如应用信号处理和音频特征提取技术，如短时傅里叶变换(STFT)、梅尔频率倒谱系数(MFCC)，将标准用户语音预处理数据转化为一组特征向量，以捕捉语音的频谱、声音强度和时域特征。

具体地，例如利用卷积神经网络(CNN)结构，对标准用户语音特征数据进行卷积运算，以提取语音特征的空间相关性和局部模式。

具体地，例如通过池化操作，如最大池化或平均池化，对标准用户语音卷积层数据进行下采样，以减少特征的维度和计算复杂度，并保留重要的特征信息。

具体地，例如将标准用户语音池化层数据输入到全连接神经网络(FCN)中，进行全连接计算，以学习和提取更高级的语音特征表示。

具体地，例如使用元用户语音标识数据作为监督信号，对标准用户语音全连接数据进行训练，采用分类算法(如softmax)或序列建模算法(如循环神经网络或转录CTC)构建用户语音识别模型，以实现将语音特征映射到相应文本标识的功能。

优选地，步骤S5具体为：

具体地，例如预先定义一组用户意图规则，包括常见的意图类别、关键词、短语或模式。例如，可以包括“查询天气”、“预订机票”、“播放音乐”的意图规则。构建匹配算法：基于文本匹配算法，例如字符串匹配、正则表达式、模式匹配，结合用户意图规则集，对用户情感语音文本数据进行匹配。不同的匹配算法可以根据需求选择。

其中文本匹配的步骤具体为：

具体地，例如使用字符串匹配算法，如正则表达式、关键词匹配，将用户情感语音文本数据与预设的用户意图规则集进行匹配，从中提取与用户意图相关的信息，例如用户的需求、问题或指令。

具体地，例如使用另一种字符串匹配算法，如模糊匹配、编辑距离，将用户情感语音文本数据与预设的用户意图规则集进行匹配，获取更多与用户意图相关的信息，进一步丰富用户意图数据。

具体地，例如当初级用户意图数据无法从用户情感语音文本数据中获取时，可以通过采集场景音频数据(如环境音、对话录音)，应用场景意图挖掘算法(如聚类、分类、神经网络)对场景进行分析，从中提取用户意图数据。

具体地，例如当初级用户意图数据中只包含一个明确的用户意图时，直接将该意图作为用户意图数据进行使用。

具体地，例如基于历史用户意图匹配数据，分析用户过去的行为模式和意图，计算初级用户意图数据在历史数据中出现的频率、相似性或其他相关指标，得到初级用户意图置信度数据。

具体地，例如根据初级用户意图置信度数据，进行筛选和排序，选择置信度最高的用户意图作为最终的用户意图数据，以确保准确性和可靠性。

C为初级用户意图置信度数据，x为初级用户意图数据，n为初级用户意图数据的数量数据，i为特定序次项，o为底数常数项，a_i为历史初级用户意图匹配程度项，x_i为第i个初级用户意图数据，b为最近历史用户意图拟合程度项，c为用户场景调整项，为修正误差项，f为模糊误差项，g为基础常数项，h为随机项。

优选地，步骤S6具体为：

具体地，例如根据语音交互的时间戳或时间序列，将用户意图数据和用户语音文本数据进行对应关联，确保它们按照时间顺序进行标注，并形成用户意图语音文本时间顺次数据。

步骤S62：根据用户意图数据生成语音交互形式数据；

具体地，例如根据用户意图数据，生成相应的语音交互形式数据，例如合成语音、提示音、回复信息，以满足用户与***之间的交互需求。

具体地，例如使用预先训练好的人工智能语音交互生成模型，将用户意图语音文本时间顺次数据输入模型进行识别计算，将语音交互转化为文本形式，得到语音交互文本数据。

具体地，例如根据语音交互形式数据和语音交互文本数据，进行相应的语音交互任务，如语音助手的回复、语音导航的指示，以满足用户的需求。

优选地，一种基于人工智能的语音交互***，包括：

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附申请文件而不是上述说明限定，因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于人工智能的语音交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，用户语音场景降噪数据包括用户语音高频降噪数据、用户语音低频降噪数据以及用户语音深度降噪数据，步骤S1具体为：

实时获取用户语音数据以及场景噪音数据；

对场景噪音数据进行场景噪音特征提取，从而获取场景噪音特征数据；

根据场景噪音特征数据进行噪音特性处理，从而获取场景噪音特性数据；

确定场景噪音特性数据为高频噪音特性数据时，则对用户语音数据进行高频降噪处理，从而获取用户语音高频降噪数据；

确定场景噪音特性数据为低频噪音特性数据时，则对用户语音数据进行低频降噪处理，从而获取用户语音低频降噪数据；

确定场景噪音特性数据为混合噪音特性数据时，则利用预设的场景深度降噪模型对用户语音数据进行降噪处理，从而获取用户语音深度降噪数据，其中场景深度降噪模型为利用语音信号和预设的环境噪声集进行深度神经网络学习生成，并根据场景噪音特性数据进行参数调整以进行降噪作业。

3.根据权利要求2所述的方法，其特征在于，用户语音优化分帧数据包括第一用户语音分帧数据、第二用户语音分帧数据以及第三用户语音分帧数据，步骤S2具体为：

确定场景噪音特性数据为高频噪音特性数据时，则对用户语音场景去噪数据进行第一分帧处理，从而获取第一用户语音分帧数据；

确定场景噪音特性数据为低频噪音特性数据时，则对用户语音场景去噪数据进行第二分帧处理，从而获取第二用户语音分帧数据；

确定场景噪音特性数据为混合噪音特性数据时，则对用户语音场景去噪数据进行第三分帧处理，从而获取第三用户语音分帧数据，其中第一用户语音分帧数据的分帧长度大于第三用户语音分帧数据的分帧长度，第三用户语音分帧数据的分帧长度大于或等于第二用户语音分帧数据。

4.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

5.根据权利要求1所述的方法，其特征在于，步骤S4具体为：

利用预设的用户语音识别模型对用户语音语义特征数据进行识别，从而获取用户语音文本数据；

对用户语音情感特征数据进行情感标签标识并评分处理，从而获取用户语音情感标签数据以及用户语音情感评分数据；

根据用户语音情感标签数据以及用户语音情感评分数据对用户语音文本数据进行情感修正，从而获取用户情感语音修正数据；

根据用户情感语音修正数据以及用户语音情感特征数据进行用户情感语音本生成，从而用户情感语音文本数据；

6.根据权利要求5所述的方法，其特征在于，其中用户语音识别模型的构建步骤具体为：

获取标准用户语音数据以及相应的元用户语音标识数据；

对标准用户语音数据进行预处理，从而获取标准用户语音预处理数据；

对标准用户语音预处理数据进行特征提取，从而获取标准用户语音特征数据；

根据标准用户语音特征数据进行卷积计算，从而获取标准用户语音卷积层数据；

对标准用户语音卷积层数据进行池化计算，从而获取标准用户语音池化层数据；

对标准用户语音池化层数据进行全连接计算，从而获取标准用户语音全连接数据；

利用元用户语音标识数据对标准用户语音全连接数据进行标识，从而构建用户语音识别模型。

7.根据权利要求1所述的方法，其特征在于，步骤S5具体为：

其中文本匹配的步骤具体为：

根据用户情感语音文本数据以及预设的用户意图规则集进行第一文本匹配，从而获取第一用户意图数据；

根据用户情感语音文本数据以及预设的用户意图规则集进行第二文本匹配，从而获取第二用户意图数据，其中第一文本匹配以及第二文本匹配为不同的字符串匹配算法，初级用户意图数据包括第一用户意图数据以及第二用户意图数据；

确定初级用户意图数据为不包含一个用户意图数据的初级用户意图数据时，则获取场景音频数据，并根据场景音频数据进行场景意图挖掘，从而获取用户意图数据；

确定初级用户意图数据为仅包含一个用户意图数据的初级用户意图数据时，则将初级用户意图数据确定为用户意图数据；

确定初级用户意图数据为包含至少两个用户意图数据时，则根据历史用户意图匹配数据对初级用户意图数据进行置信度计算，从而获取初级用户意图置信度数据；

利用初级用户意图置信度数据对初级用户意图数据进行最优置信度筛选，从而获取用户意图数据。

8.根据权利要求7所述的方法，其特征在于，置信度计算通过用户意图置信度计算公式进行计算，其中用户意图置信度计算公式具体为：

9.根据权利要求1所述的方法，其特征在于，步骤S6具体为：

根据语音交互时间数据对用户意图数据以及用户语音文本数据进行时间顺次标注并关联，从而获得用户意图语音文本时间顺次数据；

根据用户意图数据生成语音交互形式数据；

利用预设的人工智能语音交互生成模型对用户意图语音文本时间顺次数据进行识别计算，从而获取语音交互文本数据；

根据语音交互形式数据以及语音交互文本数据进行语音交互作业。

10.一种基于人工智能的语音交互***，其特征在于，包括：