CN112562734B

CN112562734B - 一种基于语音检测的语音交互方法及其装置

Info

Publication number: CN112562734B
Application number: CN202011342535.9A
Authority: CN
Inventors: 缪纯; 韩瑞; 吴鹏程
Original assignee: China Inspection Enlightenment Beijing Technology Co ltd
Current assignee: China Inspection Enlightenment Beijing Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-08-27
Anticipated expiration: 2040-11-25
Also published as: CN112562734A

Abstract

本发明公开了一种基于语音检测的语音交互方法及其装置，根据音频内容的特征信息将待检测语音拆分为多个不同类别的音频内容，然后分别反馈给用户，由用户确认其中哪个音频内容为其输入的信息，这样可以排除其他用户或环境噪声所产生的音频内容的干扰，提高后续语音交互的准确性；并且通过识别用户确认的音频内容并反馈给用户，由用户确认该音频内容是否完整表达了用户的真实意思，从而可以避免识别误差而导致的交互不畅，进一步提高语音交互的准确性和用户的体验感。

Description

一种基于语音检测的语音交互方法及其装置

技术领域

本申请涉及语音交互技术领域，具体涉及一种基于语音检测的语音交互方法及其装置。

背景技术

随着通信技术的发展，智能终端的普及，各种网络通讯工具成为大众沟通的主要工具之一。其中由于语音信息的操作和传输的便捷性，成为各种网络通讯工具的主要传输信息。而在使用各种网络通讯工具时，还涉及到将语音信息进行文本转换的过程，该过程就是语音识别技术。

语音识别技术是使得机器通过识别和理解过程把语音信息转变为相应的文本或命令的技术。在使用深度学习的方法进行语音识别时，需要及时对当前时刻的语音信息进行识别来确定语音识别结果，这就对语音识别的效率和准确度有了较高的要求。

发明内容

为了解决上述技术问题，本申请提出了一种基于语音检测的语音交互方法及其装置，根据音频内容的特征信息将待检测语音拆分为多个不同类别的音频内容，然后分别反馈给用户，由用户确认其中哪个音频内容为其输入的信息，这样可以排除其他用户或环境噪声所产生的音频内容的干扰，提高后续语音交互的准确性；并且通过识别用户确认的音频内容并反馈给用户，由用户确认该音频内容是否完整表达了用户的真实意思，从而可以避免识别误差而导致的交互不畅，进一步提高语音交互的准确性和用户的体验感。

根据本申请的一个方面，提供了一种基于语音检测的语音交互方法，包括：获取待检测语音；其中所述待检测语音包括多种类别的音频内容；根据不同音频内容的特征信息，将所述待检测语音拆分为多个不同类别的音频内容；分别反馈所述多个不同类别的音频内容给用户；获取所述用户的第一确认信息；所述第一确认信息用于确认所述多个不同类别的音频内容中对应所述用户的输入信息的音频内容；识别所述第一确认信息对应的音频内容，得到识别内容；反馈所述识别内容给所述用户；获取所述用户的第二确认信息；所述第二确认信息用于确认所述识别内容是否为所述用户的真实意思的表达；以及当所述第二确认信息为所述用户的真实意思的表达时，根据所述识别内容，确定交互信息。

在一实施例中，所述特征信息包括音调、音色和音量；所述根据不同音频内容的特征信息，将所述待检测语音拆分为多个不同类别的音频内容包括：根据所述待检测语音的音调、音色和音量，将所述待检测语音拆分为多个音频内容。

在一实施例中，所述分别反馈所述多个不同类别的音频内容给用户包括：按照预设时长，将每个所述音频内容拆分为时间小于或等于所述预设时长的音频段；以及分别反馈每个所述音频内容的至少一个音频段给用户。

在一实施例中，在所述分别反馈所述多个不同类别的音频内容给用户之前，所述语音交互方法还包括：获取所述用户的多个属性标签；所述多个属性标签表征所述用户的各个不同维度特征。

在一实施例中，所述获取所述用户的多个属性标签包括：获取所述用户的面部图像，分析所述面部图像得到所述用户的多个属性标签。

在一实施例中，所述属性标签包括如下维度特征中的任一种或多种的组合：地域、年龄、性别、兴趣、情绪。

在一实施例中，所述分别反馈所述多个不同类别的音频内容给用户包括：根据所述用户的多个属性标签，确定所述多个不同类别的音频内容的反馈顺序。

在一实施例中，所述根据所述用户的多个属性标签，确定所述多个不同类别的音频内容的反馈顺序包括：计算所述用户的多个属性标签与所述不同类别的音频内容的特征信息之间的相似度；以及按照相似度由大至小的顺序反馈所述多个不同类别的音频内容。

在一实施例中，所述计算所述用户的多个属性标签与所述不同类别的音频内容的特征信息之间的相似度包括：分别计算所述用户的每个属性标签与所述音频内容的对应的特性信息之间的单维度相似度；以及对多个所述单维度相似度进行加权，得到所述用户的多个属性标签与所述不同类别的音频内容的特征信息之间的相似度。

根据本申请的另一个方面，提供了一种基于语音检测的语音交互装置，包括：获取模块，用于获取待检测语音；其中所述待检测语音包括多种类别的音频内容；拆分模块，用于根据不同音频内容的特征信息，将所述待检测语音拆分为多个不同类别的音频内容；第一反馈模块，用于分别反馈所述多个不同类别的音频内容给用户；第一确认模块，用于获取所述用户的第一确认信息；所述第一确认信息用于确认所述多个不同类别的音频内容中对应所述用户的输入信息的音频内容；识别模块，用于识别所述第一确认信息对应的音频内容，得到识别内容；第二反馈模块，用于反馈所述识别内容给所述用户；第二确认模块，用于获取所述用户的第二确认信息；所述第二确认信息用于确认所述识别内容是否为所述用户的真实意思的表达；以及交互模块，用于当所述第二确认信息为所述用户的真实意思的表达时，根据所述识别内容，确定交互信息。

根据本申请的另一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的语音交互方法。

根据本申请的另一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述任一所述的语音交互方法。

本申请提供的一种基于语音检测的语音交互方法及其装置，根据音频内容的特征信息将待检测语音拆分为多个不同类别的音频内容，然后分别反馈给用户，由用户确认其中哪个音频内容为其输入的信息，这样可以排除其他用户或环境噪声所产生的音频内容的干扰，提高后续语音交互的准确性；并且通过识别用户确认的音频内容并反馈给用户，由用户确认该音频内容是否完整表达了用户的真实意思，从而可以避免识别误差而导致的交互不畅，进一步提高语音交互的准确性和用户的体验感。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的一种基于语音检测的语音交互方法的流程示意图。

图2是本申请一示例性实施例提供的一种反馈音频内容的方法流程示意图。

图3是本申请另一示例性实施例提供的一种基于语音检测的语音交互方法的流程示意图。

图4是本申请一示例性实施例提供的一种反馈音频内容的方法流程示意图。

图5是本申请一示例性实施例提供的一种基于语音检测的语音交互装置的结构示意图。

图6是本申请另一示例性实施例提供的一种基于语音检测的语音交互装置的结构示意图。

图7是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

示例性方法

图1是本申请一示例性实施例提供的一种基于语音检测的语音交互方法的流程示意图。如图1所示，该语音交互方法包括如下步骤：

步骤110：获取待检测语音；其中待检测语音包括多种类别的音频内容。

随着智能控制的不断发展，越来越多的设备可以实现语音交互控制，例如各大商场和银行的语音交互设备、大型机器设备等。这些设备通过接收用户的语音信息，并将该语音信息转化为对应的交互指令，从而可以进行交互或执行特定指令，提高了用户的体验感。而这些语音交互的基础是准确识别语音，只有在准确识别用户语音信息，才能更好的进行语音交互或执行指令。本申请实施例可以通过语音获取模块，例如语音录制模块来获取当前用户的语音作为待识别语音。应当理解，本申请实施例中的待识别语音也可以是由用户直接输入，例如通过U盘等设备将待识别语音直接输入语音识别的***或装置中。

步骤120：根据不同音频内容的特征信息，将待检测语音拆分为多个不同类别的音频内容。

由于商场或银行中的语音交互设备通常是处于开放的环境中，而开放的环境中会存在各种声音，包括不同客户的声音、工作人员的声音、各种通知广播、噪声等，在各种声音的组合中要准确获知用户要表达的音频内容难度较大。因此，本申请根据不同音频内容的特征信息将待检测语音拆分为多个不同类别的音频内容，即将获取到的待检测语音拆分为不同用户的语音或其他声音(例如噪声)，从而可以仅针对对应用户的语音进行识别和交互，以提高交互准确度和交互效果。在一实施例中，音频内容的特征信息可以包括音调、音色和音量；步骤120的具体实现方式可以是：根据待检测语音的音调、音色和音量，将待检测语音拆分为多个音频内容。由于每个人的音调、音色和音量都有所区别，因此，可以根据音调、音色和音量来区分不同用户的音频内容，可以将获取的待检测语音中的音频内容区分开。

步骤130：分别反馈多个不同类别的音频内容给用户。

在拆分出多个音频内容后，为了提高语音交互的准确性，将拆分后得到的多个不同类别的音频内容都反馈给用户，由用户确定其中哪个音频内容为用户的交互音频内容，从而提高进一步提高语音交互的准确性。

步骤140：获取用户的第一确认信息；其中第一确认信息用于确认多个不同类别的音频内容中对应用户的输入信息的音频内容。

在将不同类别的音频内容反馈给用户后，等待用户确认其中哪一个音频内容为用户的交互音频内容，在用户给出了第一确认信息后，可以保留该音频内容的特征信息，并且在当前交互过程中仅采集特征信息与该特征信息相似或相同的音频内容，从而可以提高语音识别的效率和效果。应当理解，第一确认信息的形式可以是特定语音，例如“是”或“YES”等，也可以是点击动作或勾选动作等，本申请对此不做限定。

步骤150：识别第一确认信息对应的音频内容，得到识别内容。

在用户确认了其交互的音频内容后，识别该音频内容，以得到识别内容，为后续交互提供基础。

步骤160：反馈识别内容给用户。

在得到识别内容后，将该识别内容反馈给用户，由用户对该识别内容进行确认或审核。由于用户的发音和环境的干扰，可能会导致获取到的用户的交互音频内容与用户的实际输入音频内容有所偏差，此时将识别的结果反馈给用户，可以避免识别结果错误而导致语音交互的失败，从而可以提高语音交互的效率和效果。

步骤170：获取用户的第二确认信息；其中第二确认信息用于确认识别内容是否为用户的真实意思的表达。

在得到用户的确认信号后，即用户确认该识别内容为用户真实意思的表达，此时可以更准确的获取交互信息。在一实施例中，当用户任务识别内容与用户真实意思有所偏差，可以由用户对识别内容进行主动修改以矫正识别内容，从而进一步提高语音交互的效果。

步骤180：当第二确认信息为用户的真实意思的表达时，根据识别内容，确定交互信息。

当用户确认了识别内容(可以是用户主动修改后的识别内容)为用户真实意思的表达时，根据该识别内容来确定交互信息。确定交互信息的具体方式可以是：根据识别内容去数据库中查找与该识别内容相似或相同的交互信息。在一实施例中，当数据库中不存在与该识别内容相同和相似的交互信息时，可以将识别内容拆分为多个关键词，并且根据多个关键词在数据库中查找相关的交互信息，并且将查找到的交互信息展示给用户，由用户主动选取。

本申请提供的一种基于语音检测的语音交互方法，根据音频内容的特征信息将待检测语音拆分为多个不同类别的音频内容，然后分别反馈给用户，由用户确认其中哪个音频内容为其输入的信息，这样可以排除其他用户或环境噪声所产生的音频内容的干扰，提高后续语音交互的准确性；并且通过识别用户确认的音频内容并反馈给用户，由用户确认该音频内容是否完整表达了用户的真实意思，从而可以避免识别误差而导致的交互不畅，进一步提高语音交互的准确性和用户的体验感。

图2是本申请一示例性实施例提供的一种反馈音频内容的方法流程示意图。如图2所示，上述步骤130可以包括如下子步骤：

步骤131：按照预设时长，将每个音频内容拆分为时间小于或等于预设时长的音频段。

步骤132：分别反馈每个音频内容的至少一个音频段给用户。

由于待检测语音中可能存在多个音频内容，若将较长的多个音频内容反馈给用户，这样就需要播放较长时间，因此，本申请将每个音频内容拆分为小段，即每个音频段的时间小于或等于预设时长，例如将音频内容都拆分为时长小于或等于10秒的音频段。由于用户可以通过一句话或几个字即可确定该音频内容是否为用户的交互音频内容，所以可以将每个音频内容的至少一个音频段反馈给客户，这样可以提高客户确认的效率，从而提高交互的效率。

图3是本申请另一示例性实施例提供的一种基于语音检测的语音交互方法的流程示意图。如图3所示，在步骤130之前，上述实施例还可以包括：

步骤190：获取用户的多个属性标签；多个属性标签表征用户的各个不同维度特征。

由于不同的用户对应的属性标签不同，即不同的用户的特征不同，其中属性标签可以包括如下维度特征中的任一种或多种的组合：地域、年龄、性别、兴趣、情绪。例如当前用户为30岁的男性，并且其对科技感兴趣，那么可以根据该用户的属性标签对该用户的语音信息进行更有针对性的识别。在一实施例中，获取当前用户的多个属性标签的具体方式可以是：根据待识别语音的特征信息，分析得到当前用户的多个属性标签。由于每个人的声音特性不同，可以通过对待识别语音进行分析，以得到用户的属性标签，例如用户的性别、口音、情绪等。在另一实施例中，获取当前用户的多个属性标签的具体方式可以是：获取当前用户的面部图像，分析面部图像得到当前用户的多个属性标签。通过摄像模块获取当前用户的面部图像，通过面部图像进行图像分析可以得到当前用户的多个属性标签，例如性别、年龄、情绪等。应当理解，本申请实施例可以根据实际应用场景的需求而选取获取用户属性标签的不同方式，例如可以是上述两种方式的组合，也可以是由用户手动输入设定部分或全部属性标签，在后续获取待识别语音后，根据待识别语音进行对应用户的匹配，从而获取待识别语音对应的用户的属性标签，本申请实施例对此不做限定。

在一实施例中，如图3所示，上述步骤130可以具体包括：根据用户的多个属性标签，确定多个不同类别的音频内容的反馈顺序。

由于不同用户的音频内容的特征信息可能存在明显不同，例如性别不同的音频内容差距较大，并且不同用户的关注内容不同，例如男士对于化妆品的关注度要低于女士，因此，可以根据用户的多个属性标签，对多个音频内容进行一个排序，即按照可能性的高低进行反馈，以进一步减少客户确认时间，提高交互效率。

图4是本申请一示例性实施例提供的一种反馈音频内容的方法流程示意图。如图4所示，上述步骤130可以包括如下子步骤：

步骤133：计算用户的多个属性标签与不同类别的音频内容的特征信息之间的相似度。

步骤134：按照相似度由大至小的顺序反馈多个不同类别的音频内容。

计算用户的多个属性标签与多个音频内容的特征信息之间的相似度，从而可以获知多音频内容中与该用户较为符合的音频内容，并且根据相似度的大小顺序反馈对应的音频内容给用户，用户通常只需要听取第一个或前几个音频内容即可确认其交互音频内容，从而可以减少确认时间，提高交互效率。

在一实施例中，计算用户的多个属性标签与不同类别的音频内容的特征信息之间的相似度的具体实现方式可以是：分别计算用户的每个属性标签与音频内容的对应的特性信息之间的单维度相似度；以及对多个单维度相似度进行加权，得到用户的多个属性标签与不同类别的音频内容的特征信息之间的相似度。由于用户的属性标签和音频内容的特征信息都是多维度的，并且有一定的对应性，因此，可以分别将对应的属性标签和特征信息进行相似度计算，然后综合多个维度的相似度，得到最终的用户的多个属性标签与不同类别的音频内容的特征信息之间的相似度，可以更加全面的反应音频内容与用户的符合程度。

示例性装置

图5是本申请一示例性实施例提供的一种基于语音检测的语音交互装置的结构示意图。如图5所示，该语音交互装置50包括：获取模块51，用于获取待检测语音；其中待检测语音包括多种类别的音频内容；拆分模块52，用于根据不同音频内容的特征信息，将待检测语音拆分为多个不同类别的音频内容；第一反馈模块53，用于分别反馈多个不同类别的音频内容给用户；第一确认模块54，用于获取用户的第一确认信息；第一确认信息用于确认多个不同类别的音频内容中对应用户的输入信息的音频内容；识别模块55，用于识别第一确认信息对应的音频内容，得到识别内容；第二反馈模块56，用于反馈识别内容给用户；第二确认模块57，用于获取用户的第二确认信息；第二确认信息用于确认识别内容是否为用户的真实意思的表达；以及交互模块58，用于当第二确认信息为用户的真实意思的表达时，根据识别内容，确定交互信息。

本申请提供的一种基于语音检测的语音交互其装置，由获取模块51获取待检测语音，拆分模块52根据音频内容的特征信息将待检测语音拆分为多个不同类别的音频内容，然后第一反馈模块53分别反馈给用户，第一确认模块54获取用户的第一确认信息，由用户确认其中哪个音频内容为其输入的信息，这样可以排除其他用户或环境噪声所产生的音频内容的干扰，提高后续语音交互的准确性；并且通过识别模块55识别用户确认的音频内容并由第二反馈模块56将识别内容反馈给用户，第二确认模块57获取用户的第二确认信息，由用户确认该音频内容是否完整表达了用户的真实意思，然后交互模块58确定交互信息，从而可以避免识别误差而导致的交互不畅，进一步提高语音交互的准确性和用户的体验感。

在一实施例中，音频内容的特征信息可以包括音调、音色和音量；拆分模块52可以进一步配置为：根据待检测语音的音调、音色和音量，将待检测语音拆分为多个音频内容。

在一实施例中，第二确认模块57可以进一步配置为：当用户任务识别内容与用户真实意思有所偏差，可以由用户对识别内容进行主动修改以矫正识别内容。

在一实施例中，交互模块58可以进一步配置为：根据识别内容去数据库中查找与该识别内容相似或相同的交互信息。在一实施例中，交互模块58可以进一步配置为：当数据库中不存在与该识别内容相同和相似的交互信息时，可以将识别内容拆分为多个关键词，并且根据多个关键词在数据库中查找相关的交互信息，并且将查找到的交互信息展示给用户，由用户主动选取。

图6是本申请另一示例性实施例提供的一种基于语音检测的语音交互装置的结构示意图。如图6所示，第一反馈模块53可以包括：拆分单元531，用于按照预设时长，将每个音频内容拆分为时间小于或等于预设时长的音频段；分段反馈单元532，用于分别反馈每个音频内容的至少一个音频段给用户。

在一实施例中，如图6所示，语音交互装置50还可以包括：属性标签获取模块59，用于获取用户的多个属性标签；多个属性标签表征用户的各个不同维度特征。

在一实施例中，属性标签获取模块59可以进一步配置为：根据待识别语音的特征信息，分析得到当前用户的多个属性标签。在另一实施例中，属性标签获取模块59可以进一步配置为：获取当前用户的面部图像，分析面部图像得到当前用户的多个属性标签。

在一实施例中，第一反馈模块53可以进一步配置为：根据用户的多个属性标签，确定多个不同类别的音频内容的反馈顺序。

在一实施例中，如图6所示，第一反馈模块53可以包括：计算单元533，用于计算用户的多个属性标签与不同类别的音频内容的特征信息之间的相似度；顺序反馈单元534，用于按照相似度由大至小的顺序反馈多个不同类别的音频内容。

在一实施例中，计算单元533可以进一步配置为：分别计算用户的每个属性标签与音频内容的对应的特性信息之间的单维度相似度；以及对多个单维度相似度进行加权，得到用户的多个属性标签与不同类别的音频内容的特征信息之间的相似度。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的语音交互方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置13可以是摄像头，用于捕捉图像的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音交互方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音交互方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于语音检测的语音交互方法，其特征在于，包括：

获取待检测语音；其中所述待检测语音包括多种类别的音频内容；

根据不同音频内容的特征信息，将所述待检测语音拆分为多个不同类别的音频内容；

获取用户的面部图像，分析所述面部图像得到所述用户的多个属性标签；所述多个属性标签表征所述用户的各个不同维度特征；

分别反馈所述多个不同类别的音频内容给用户；

获取所述用户的第一确认信息；所述第一确认信息用于确认所述多个不同类别的音频内容中对应所述用户的输入信息的音频内容；

识别所述第一确认信息对应的音频内容，得到识别内容；

反馈所述识别内容给所述用户；

获取所述用户的第二确认信息；所述第二确认信息用于确认所述识别内容是否为所述用户的真实意思的表达；

当所述第二确认信息为所述用户的真实意思的表达时，根据所述识别内容，确定交互信息；以及

当数据库中不存在与所述识别内容相同或相似的交互信息时，将所述识别内容拆分为多个关键词，并且根据所述多个关键词在所述数据库中查找相关的交互信息，并且将查找到的交互信息展示给用户，由用户主动选取；

其中，分别反馈所述多个不同类别的音频内容给用户的实现方式包括：

按照预设时长，将每个所述音频内容拆分为时间小于或等于所述预设时长的音频段；

根据所述用户的多个属性标签，确定所述多个不同类别的音频内容的反馈顺序；以及

按照所述反馈顺序分别反馈每个所述音频内容的至少一个音频段给用户。

2.根据权利要求1所述的语音交互方法，其特征在于，所述特征信息包括音调、音色和音量；所述根据不同音频内容的特征信息，将所述待检测语音拆分为多个不同类别的音频内容包括：

根据所述待检测语音的音调、音色和音量，将所述待检测语音拆分为多个音频内容。

3.根据权利要求1所述的语音交互方法，其特征在于，所述属性标签包括如下维度特征中的任一种或多种的组合：地域、年龄、性别、兴趣、情绪。

4.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述用户的多个属性标签，确定所述多个不同类别的音频内容的反馈顺序包括：

计算所述用户的多个属性标签与所述不同类别的音频内容的特征信息之间的相似度；以及

按照相似度由大至小的顺序反馈所述多个不同类别的音频内容。

5.根据权利要求4所述的语音交互方法，其特征在于，所述计算所述用户的多个属性标签与所述不同类别的音频内容的特征信息之间的相似度包括：

分别计算所述用户的每个属性标签与所述音频内容的对应的特性信息之间的单维度相似度；以及

对多个所述单维度相似度进行加权，得到所述用户的多个属性标签与所述不同类别的音频内容的特征信息之间的相似度。

6.一种基于语音检测的语音交互装置，其特征在于，包括：

获取模块，用于获取待检测语音；其中所述待检测语音包括多种类别的音频内容；

拆分模块，用于根据不同音频内容的特征信息，将所述待检测语音拆分为多个不同类别的音频内容；

属性标签获取模块，用于获取用户的面部图像，分析所述面部图像得到所述用户的多个属性标签；所述多个属性标签表征所述用户的各个不同维度特征；

第一反馈模块，用于分别反馈所述多个不同类别的音频内容给用户；

第一确认模块，用于获取所述用户的第一确认信息；所述第一确认信息用于确认所述多个不同类别的音频内容中对应所述用户的输入信息的音频内容；

识别模块，用于识别所述第一确认信息对应的音频内容，得到识别内容；

第二反馈模块，用于反馈所述识别内容给所述用户；

第二确认模块，用于获取所述用户的第二确认信息；所述第二确认信息用于确认所述识别内容是否为所述用户的真实意思的表达；以及

交互模块，用于当所述第二确认信息为所述用户的真实意思的表达时，根据所述识别内容，确定交互信息；且当数据库中不存在与所述识别内容相同或相似的交互信息时，将所述识别内容拆分为多个关键词，并且根据所述多个关键词在所述数据库中查找相关的交互信息，并且将查找到的交互信息展示给用户，由用户主动选取；

其中，所述第一反馈模块进一步配置为：根据所述用户的多个属性标签，确定所述多个不同类别的音频内容的反馈顺序；所述第一反馈模块包括：拆分单元，用于按照预设时长，将每个所述音频内容拆分为时间小于或等于所述预设时长的音频段；分段反馈单元，用于按照所述反馈顺序分别反馈每个所述音频内容的至少一个音频段给用户。