CN113035181A

CN113035181A - 语音数据处理方法、设备和***

Info

Publication number: CN113035181A
Application number: CN201911248159.4A
Authority: CN
Inventors: 徐嘉南
Original assignee: Banma Zhixing Network Hongkong Co Ltd
Current assignee: Banma Zhixing Network Hongkong Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-25

Abstract

提出了一种语音数据处理方法、设备和***。该方法包括：接收语音数据；对所述语音数据进行处理，以获取所述语音数据的处理结果；获取所述语音数据的关联信息；基于所述语音数据的关联信息，确定所述处理结果的通知方式。由此，能够在确定语音反馈内容的基础上，通过呈现方式的合理变换来进一步贴合用户需求。本发明通过获取语音数据的关联信息，生成呈现形式更贴合当前语音交互场景的反馈内容。

Description

语音数据处理方法、设备和***

技术领域

本发明涉及信息处理领域，尤其涉及一种语音数据处理方法和设备。

背景技术

随着语音交互产品的普及，人们越来越多地感受到语音交互技术带来的生活便利。例如，各类的智能语音产品能帮人们发起导航、查找音乐、打电话、检索新闻，甚至还能够闲聊。每个语音命令发起后，语音交互产品在理解用户的意图后，会通过TTS(语音合成，TextToSpeech)给出一段语音播报反馈，用于告知用户***的理解情况。

随着用户使用语音交互产品频率增加，会发现目前***给出的反馈一直是固定的一种或者若干种回复循环出现。这种相对固定的语音反馈方式会给用户带来机械呆板的感觉，与智能语音产品的“智能”初衷背道而驰。

为此，需要一种更为灵活的语音交互反馈方案。

发明内容

本发明提出了一种新颖的语音数据处理方案，该方案可以获取语音数据的关联信息，并根据上述关联信息，生成呈现形式更贴合当前语音交互场景的反馈内容。

根据本发明的第一方面，提出了一种语音数据处理方法，包括：接收语音数据；对所述语音数据进行处理，以获取所述语音数据的处理结果；获取所述语音数据的关联信息；基于所述语音数据的关联信息，确定所述处理结果的通知方式。由此，能够在确定语音反馈内容的基础上，通过呈现方式的合理变换来进一步贴合用户需求。

根据本发明的第二方面，提出了一种语音数据处理设备，包括：处理结果生成模块，用于对接收到的语音数据进行处理，以获取所述语音数据的处理结果；以及通知方式确定模块，用于基于获取所述语音数据的关联信息，确定所述处理结果的通知方式。

根据本发明的第三方面，提出了一种语音数据处理***，包括多个交互终端和数据处理中心，所述交互终端包括：麦克风，用于接收用户的语音数据；信息呈现装置，用于将符合通知方式的语音数据处理结果呈现给所述用户；以及通信装置，用于发送用户的语音数据并接收语音数据处理结果，所述数据处理中心用于：接收来自所述交互终端的语音数据；对所述语音数据进行处理，以获取所述语音数据的处理结果；获取所述语音数据的关联信息；基于所述语音数据的关联信息，确定所述处理结果的通知方式；以及将符合通知方式的语音数据处理结果发送给所述交互终端。

根据本公开的第四个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第五个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。

本发明的语音数据处理方案可以获取语音数据生成时的场景信息、语音本身包含的语素信息以及***对语音数据的处理和执行信息，并由此灵活选择反馈内容的通知方式，例如，图像、语音还是触觉呈现，或是语音呈现的话术或语音属性等。上述通知方式的选择可由经训练的机器学习模型针对上述关联信息做出。由此，能够根据当前语音给出适合场景、适合用户情绪的反馈内容通知方式。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明一个实施例的语音数据处理方法的示意性流程图。

图2示出了语音交互链路的处理流程示意图。

图3A-B示出了根据本发明的语音交互例。

图4示出了根据本发明一个实施例的语音数据处理设备的组成示意图。

图5示出了本发明语音数据处理***的组成示意图。

图6示出了根据本发明一个实施例可用于实现上述语音数据处理方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

随着语音交互产品的普及，人们越来越多地感受到语音交互技术带来的生活便利。虽然智能语音产品能够实现多种功能，但其在理解用户的意图后，会通过TTS给出一段语音反馈往往形式单一，与智能语音产品的“智能”初衷背道而驰。

目前，市售语音交互产品播报话术的生成方案主要包括固定短语以及固定前后缀模板结合可变槽位两种方式。

固定短语是指人工写好的固定内容。例如，在被唤醒后，语音交互***回复“我在”、“在的”、“有什么可以帮您”，以告知用户***准备好与用户进行进一步的语音交互。上述这些回复都属于固定短语。传统的语音交互***会写入多份固定短语，使用随机或轮流的方式，播报给用户听。这种方式书写的内容数量受到人工时间投入限制。另外，如果***发布后想要补充新的短语，则需要一轮新的开发与更新。由于短语固定，用户使用几次后，会觉得呆板、机械。

固定前后缀模板结合可变槽位是指人工制定好部分话术内容规则，通过条件判断和网络结果返回补充槽位内容后生产一段播报话术。

例如，在天气技能中，用户寻问“今天天气怎么样”。传统的语音交互***使用固定模板用于该技能的回复话术。固定模板例如可以是：“今天天气{气象值}，风力{风力值}，空气指数{空气值}，请注意{带伞|口罩|多穿衣物}”。根据不同的条件、网络结果内容大括号中标记的槽位内容将被替换成结果值，最终播报给用户。

在用户想听歌时，固定模板可以是“为你播放{歌手名}的{歌曲名}”。而用户想看节目且没有查找到上述节目时，固定模板可以是“抱歉，没有找到{节目名}。市场常见产品会人工建立多个模板，随机或者按照一定条件规则使用。这种方案虽然播报的具体内容会基于语音处理结果而有所不同，但语音播报的模式相同，仍然会给用户带来机械呆板的感觉。

有鉴于此，本发明提出了一种新颖的语音数据处理方案，该方案可以获取语音数据的关联信息，并根据上述关联信息，生成呈现形式更贴合当前语音交互场景的反馈内容。具体地，该方案可以获取语音数据生成时的场景信息、语音本身包含的语素信息以及***对语音数据的处理和执行信息，并由此灵活选择反馈内容的通知方式，例如，图像、语音还是触觉呈现，或是语音呈现的话术或语音属性等。上述通知方式的选择可由经训练的机器学习模型针对上述关联信息做出。由此，能够根据当前语音给出适合场景、适合用户情绪的反馈内容通知方式。

图1示出了根据本发明一个实施例的语音数据处理方法的示意性流程图。在不同的实现中，该方法可由本地的智能语音处理设备、云端，或是两者的结合实现。

在步骤S110，接收语音数据。在此接收的“语音数据”可以指各种来源的语音数据。在最为常见的场景中，该语音数据可以是通过接收语音交互***的用户发出的话音并加以处理(例如，数字化处理)而获取的数据。在其他实施例中，该语音数据还可以是人工合成的数据，录音数据等。本发明对此不做限制。

在步骤S120，对所述语音数据进行处理，以获取所述语音数据的处理结果。在实际应用中，***首先需要获知上述语音数据的含义，才能执行相应的处理，并向用户反馈基于上述处理结果的内容。

为了方便理解，图2示出了语音交互链路的处理流程示意图。语音交互链路是指实现语音交互的过程中涉及的单元模块，这些单元模块共同协作完成语音交互功能。在不同的应用场景中，可以会涉及上述交互链路中的部分或全部模块。图2中示出了最为核心的单元模块，在其他的实现中，交互链路还可以包括诸如唤醒响应和声纹识别等的功能模块。

如图2所示，音频采集到的用户语音经过语音识别模块(AutomaticSpeechRecognition,ASR)产生语音识别结果，即用户话语对应的文本指令。随后，自然语言理解模块(NaturalLanguageUnderstanding,NLU)对用户话语进行语义解析。在此，自然语言理解是指将文本识别出其中含意的算法/***。在语音助理中，NLU能将用户语音指令识别为特定的领域意图。在本发明中，也将NLU模块称为意图理解模块。领域是指自然语言理解领域中的某类特定问题，如天气、时间等，意图则是指自然语言理解领域中属于某领域的特定问题，如查询天气、查询时间、设置闹钟等。在理解了用户语音指令中的领域和意图之后，可以将上述领域和意图送入意图执行模型块，该模块可以根据NLU语义解析结果(即，特定领域和意图)选择需要执行的***行为。自然语音生成模块(NaturalLanguageGeneration,NLG)根据***行为结果生成自然语言或者说是***话语。最后，生成的语言可由语音合成模块(Text-to-Speech,TTS)朗读给用户听。

在一个实施例中，S120可以包括对所述语音数据进行意图理解处理，以获取基于意图理解的处理结果。在语音交互***中，首先需要基于输入的语音数据进行语音识别，随后在基于意图理解模块进行用户意图的理解，从而经由分析，定位当前用户的想法和需求，并将用户意图转换为程序语言，用于后续模块工作。例如，经由语音识别获取的输入为：“今天天气怎么样”，则基于意图理解的输出可以是：“domin[weather]；intent[getinfo]"。常见的意图类型包括任务型(用户想要完某个任务)、闲聊型(用户想要进行聊天对话)、问答型(用户想要获取某些信息答案)。本发明的灵活反馈方案尤其适用于反馈内容通常固定的任务型意图。

进一步地，步骤S120还可以包括根据所述意图理解处理结果进行意图执行处理，以获取基于意图执行的处理结果。由此，可以根据上述意图理解产出的意图信息，执行相关程序动作，以满足用户需求。例如，上例中得到的意图信息为“获取天气预报”，则在意图执行时可以从天气服务器中获取天气的数据信息。如果得到的意图信息为“设定一个闹钟”，便在意图执行时可以执行设定闹钟的动作。

在此，“处理结果”指的是对语音数据进行处理而得到的结果，通常表现为向用户告知的反馈内容。如上在用户询问天气时，需要将查询到的天气预报结果反馈给用户，此时的“处理内容”是天气预报的结果。而在用户需要设定闹钟时，在执行完闹钟设定动作之后，通常需要告知用户设定已完成。另外，在需要额外信息，或是意图识别失败、意图执行失败时，也需要向用户进行内容反馈。例如，进一步询问闹钟设定的具体时间，精确定向用户意图，或是告知用户意图执行失败等。应该注意的是，在不同的场景中，作为处理结果的反馈内容可以是语音数据处理的结果本身，也可以是针对处理结果的告知。例如，当用户询问“中国的国土面积是多少”(问答型)，反馈内容就是语音数据意图理解和执行的结果，在本例中是查询到的国土面积，于是可以反馈“中国的国土面积为九百六十万平方公里”。而当用户发出指令“打开厨房的灯”时，处理结果是厨房的灯被打开，反馈内容则用于告知用户厨房的灯被打开这一事实。

在不同的实施例中，“处理结果”可以仅仅指代语音交互***播报的语音内容，也可以具有更大的外延，例如，还可以包括从视觉、触觉途径向用户传达的信息，例如，振动、图像或是文字显示等。

不同于现有技术中采用固定模板对“处理结果”进行通知(播报)，本发明会针对每条语音数据，确定其最为合适的通知方式。“通知方式”指的是如何将上述处理结果向用户传达。通知方式包括处理结果具体呈现的形态(例如，语音播报、文字显示还是两者，语音播报本身的形态，例如，语速和音调等)、处理结果具体包括的文字内容(例如，对同一内容的不同传达方式，或是内容丰富程度上的不同)等。上述通知方式需要基于语音数据的关联信息进行确定。

在此，语音数据的“关联信息”指的是与该条语音数据有关的各种信息。在现有的语音交互***中，仅提取语音数据的意图(例如，从“今天天气怎样”提取出获知天气预报的意图)。但一条语音数据除了本身的含义之外，还包括其他多个维度的信息，例如，语音本身的语素信息、语音生成时的场景信息、以及语音处理结果信息等。虽然，针对语音数据的处理结果通常由语音数据的含义来确定，但如何呈现这些处理结果，则可由上述含义之外的其他信息来确定。例如，虽然同样是询问天气，但可以根据用户询问时的语速和语调(关联信息)，来确定播报天气预报结果时的语速和语调(通知方式)。

于是，在步骤S130，获取所述语音数据的关联信息，并在S140，基于所述语音数据的关联信息，确定所述处理结果的通知方式。

如上所述，“关联信息”指与该条语音数据有关的各种信息。

在一个实施例中，上述关联信息可以是关联的语音信息。步骤S130可以包括分析来自用户的语音数据以生成语音数据的关联语音信息。在此，关联语音信息指的是从该条语音数据本身获取的信息，例如，除意图信息之外的信息。例如，***在获取用户询问“今天天气怎么样？”的语音数据时，除了获取“查询天气”这一意图信息之外，还可以通过分析该条语音数据，获取用户的语速、音调、语言习惯等，这些信息都可以用作关联语音信息。

具体地，可以通过分析当前语音数据的内容和/或波形，以生成与用户说话方式相关的所述语音数据的关联语音信息。例如，语音识别出的内容不仅可以用于识别意图，还可以用于识别用户遣词造句的习惯，或是说话方式。例如，可以通过语音识别技术识别出用户当前使用了敬语，并在后续反馈内容通知时同样使用敬语。这尤其适用于存在多级敬语***的语种，例如，日语和韩语。另外，可以通过声音数据的波形，分析得出诸如语速、音调等与内容无关的信息。另外，还可以通过特定用词、或是语调识别出用户的口音或是所使用的方言，上述方言信息也可由于后续反馈内容通知形式的选择，例如，使用同样的口音进行反馈内容播报。

另外，还可以通过对语音数据的分析来推定说话者的情绪。例如，从语调、语气词的使用，交互的简短程度进行评估，并给出符合相应应对情绪的反馈内容播报。

作为替换或者补充，还可以分析所述用户的历史数据，以生成与用户说话方式相关的所述语音数据的关联语音信息。例如，***可以记录用户在前语音数据的内容或是关联信息，以便与本次语音数据进行比对，或是补齐缺失信息。例如，如果***记录用户一贯使用敬语表达或是使用XX地域的方言，则哪怕本次语音数据中不包含敬语或是方言表达，也可以考虑优选在后续的反馈内容通知中采用敬语表达。

在语音数据涉及多名用户参与的情况下，还可以通过分析所述语音数据的参与用户，以生成与所述参与用户相关的所述语音数据的关联语音信息。在输入的某一段连续语音中分析出多名用户参与时，可以通过对不同用户的分辨，来获取每个用户的连续意图，或是各个用户之间的交互意图。在涉及声纹识别的情况下，还可以通过声纹仅提取目标用户的指令，并滤除其他非指令语音。例如，在车内场景中，为了确保安全，在车内包括多个人且允许车内聊天的情况下，可以通过分析仅提取开车人的语音来实现安全驾驶。在车内存在幼儿的情况下，可以专门滤除幼儿的声音等。

作为替换或是补充，上述关联信息还可以是针对该语音数据的关联处理信息，例如，在相应的意图理解和/或意图执行处理中生成的信息。在一个实施例中，步骤S130可以包括：基于所述意图理解处理结果的类型生成所述语音数据的关联处理信息。在另一个实施例中，步骤S130可以包括：基于所述意图执行处理结果的类型生成所述语音数据的关联处理信息。在一个实施例中，意图执行处理结果可以包括意图理解处理结果。

具体地，可以分析当前意图执行的结果种类。可以预置多种意图执行结果类型，包括执行成功、执行失败、执行超时、执行遇到错误、没有理解用户意图、理解用户意图但是无法执行、当前不可执行、执行需要二次确认等类型。这些类型可由语音交互***设计专家根据当前***可执行的任务种类抽象定义，并可随着***扩展同步扩展。随后，可以基于当前匹配的某种意图执行结果类型生成关联处理信息。

在另一些实施例中，上述关联信息可以是关联的场景信息。因此，步骤S130可以包括：基于所述语音数据生成时所处场景，生成所述语音数据的关联场景信息。语音数据生成时所处场景包括如下至少一项：所述语音数据生成时所处时间；所述语音数据生成时所处空间；所述语音数据生成时所处天气；以及所述语音数据生成时车辆行驶状况。例如，可以通过内置的多种场景信息类型分析引擎来生成关联场景信息。这些分析引擎具体可以包括：时间维度分析引擎(日期信息、节日信息、日程信息、当前时间等)、空间维度分析引擎(所在地区、当前定位地点、当前道路事件信息等)、车辆维度分析引擎(驾驶速度、驾驶行为等)、天气维度分析引擎(雨雪信息、雾霾信息、风力信息等)。

在获取了上述的一种或多种关联信息之后，就可以基于这些关联信息确定处理结果的通知方式。在另一个实施例中，可以基于语音数据的处理结果和关联信息，确定所述处理结果的通知方式。在另一个实施例中，可以基于获取的语音输入本身、针对该语音输入的意图理解和执行结果、以及语音输入时的场景信息，确定所述处理结果的通知方式。

在一个实施例中，可以根据预设的通知方式确定规则，从已有的通知方式模板中选择与关联信息匹配的模板。在另一个实施例中，可以将关联信息，或是基于关联信息获取的输入特征，输入匹配模型，并基于模型的输出，选择具体的通知方式模板。在进行模型匹配时，优选采用机器学习模型，以利用机器从海量数据中学习的能力，进行灵活且切合场景的通知方式匹配。

于是，步骤S140可以包括：基于语音数据的关联信息，从通知方式模板库中选择匹配的通知方式模板；以及将反馈内容填入匹配的通知方式模板。

作为替换或者补充，步骤S140可以包括：将所述语音数据的关联信息送入机器学习模型；以及基于所述机器学习模型生成的结果，确定反馈内容的通知方式。

具体地，可以将所述语言数据的关联场景信息转换成所述机器学习模型可解析的输入特征，再将所述转换的输入特征输入所述机器学习模型。例如，在如上根据语音数据生成关联语音数据的情况下，可以基于对语音数据的分析获取用户情绪打分值(标识用户当前消极或积极程度)、用户语音话术风格(例如，口音，语气，是否使用敬语等)。在基于意图执行结果类型生成关联处理信息的情况下，可以根据意图执行结果类型生成待生成话术情绪打分值(标识消极或积极程度)、执行结果话术规则(执行成功需要告知成功、执行失败需要告知原因)。在基于场景生成关联场景信息的情况下，则可在不同的场景信息组合条件下，给出情景情绪打分值(标识环境消极或积极程度)、情景播报话术风格(如节日情景下对应欢快、雨雪天气下对应温暖关怀、高速驾驶请假下对应简洁干练)。

可以利用上述用户情绪打分值、用户语音话术风格、待生成话术情绪打分值、执行结果话术规则、情景情绪打分值以及情景播报话术风格这6条话术参数作为输入特征，将其送入经训练的机器学习模型。模型会自动生成一个或多个备选话术模板，可以选取置信度大于90％的模板作为通知方式模板，用于后续反馈内容的呈现。

图3A-B示出了根据本发明的语音交互例。如图所示，图3A的用户和图3B的用户都存在查询天气的意图。

针对“天气查询“这个用户意图，根据图3A用户交互的语音内容“今天天气怎么样啊”和语气语调，以及用户的交互历史、所处场景，评估出的话术参数信息为：

用户情绪打分值：100；

用户语音话术风格：常规；

执行结果话术规则：播报成功执行结果；

待生成话术情绪打分值：100；

情景情绪打分：100；

情景播报话术风格：温暖关怀；

上述输入参数会导致机器学习模型倾向于生成情绪较好、带有关怀情感的话术，动态生成的模板可以是“北京今天日间天气{}。预计入夜后天气{}。空气质量{}，能见度越来越{}，今天适合{}”。于是，在选出温暖关怀型话术模板时，最终播报结果为“北京今天日间天气逐渐转晴，风力2级。预计入夜后天气晴朗少云，空气质量高，能见度越来越好，今天适合元宵佳节出行和赏月观灯”。

同样是针对“天气查询“这个用户意图，根据图3B用户交互的语音内容“今天天气如何”和语气语调，以及用户的交互历史、所处场景，评估出的话术参数信息为：

用户情绪打分值：80；

用户语音话术风格：简单；

执行结果话术规则：播报成功执行结果；

待生成话术情绪打分值：60；

情景情绪打分：60；

情景播报话术风格：简洁干练；

此时的输入参数会导致机器学习模型倾向于生成简明扼要，不带有过多情绪的话术。动态生成的模板可以是“北京天气{}，风力{}，气温{}，空气质量{}”。于是，在选出简洁干练型话术模板时，最终播报结果为“北京天气晴，风力2级，气温3到10度，空气质量优。”。

如上例所示，通知形式模板在某些实施例中可以是话术模板。于是，基于所述机器学习模型生成的结果，确定所述反馈内容的通知方式可以包括：基于所述机器学习模型生成的结果选择相应的话术模板；以及基于所述话术模板呈现所述反馈内容。在此，“话术”模板可以指代将反馈内容转换成可播报的具体文字内容的模板。

在其他实施例中，通知形式模板还可以是声音呈现模板。于是，基于所述机器学习模型生成的结果，确定所述反馈内容的通知方式包括：基于所述机器学习模型生成的结果选择相应的声音呈现模板；基于所述声音呈现模板呈现所述反馈内容。在此，“声音呈现”模板可以指代以何种声音呈现方式将文字内容播报出来的模板。例如，声音呈现模板可以规定音质，例如，是男声还是女声，或是某个特定名人的声音；并且还可以对例如语速快慢、音调高低以及说话语气等进行设置。

例如，在图3A的例子中，可以使用播音员声音，以关切的语气和较慢的语速进行播报。而在图3B的例子中，则可以使用例如快速语调进行播报。

在不同的实施例中，通知形式模板可以仅包括话术模板，或是包括话术模板和声音呈现模板两者。在仅包括话术模板的情况下，始终以相同的语调(例如，默认设置或是用户在***中设置的语调和语速)播报基于话术模板生成的最终播报内容。而在包括话术模板和声音呈现模板两者的情况下，在生成最终播报的文字内容之后，还会基于动态生成的声音呈现模板来选择播报上述文本内容的表现形式。

另外，应该理解的是，在使用机器学习模型确定通知形式模板的情况下，在某些实施例中，可以使用一个多分类的机器学习模型来确定语音数据的具体通知形式模板(例如，可以包括具体的话术模板和声音呈现模板两者)。在另一些实施例中，可以使用多个功能不同的机器学习模型来确定不同的通知形式模板。例如，可以将基于关联语音信息生成的输入特征输入第一机器学习模型，上述模型基于关联语音信息，生成声音呈现模板。同时，将基于关联处理信息和关联场景信息生成的输入特征输入第二机器学习模型，该模型则用于生成话术模板。在又一些实施例中，可以使用多个机器学习模型来确定某一个模板。

在确定了通知形式模板和反馈内容之后，本发明的语音处理方法还可以包括基于确定的所述通知方式，呈现所述反馈内容。根据如上选取模板的实际结果，如果话术模板中不缺少槽位信息，该模板可将直接作为播报内容。如果缺少槽位信息，本单元将组合上意图执行时获取到的相关槽位继续进行拼接后，生成最终播报内容。

随后，可以将最终生成的完整话术信息通过TTS技术转换为发音，通过扬声器播放给用户听。在存在语音呈现模板时，可以选择上述话术信息的播放方式，例如，以缓慢语速读出。

本发明中用于生成通知形式模板的机器学习模型可以是以收集的关联信息作为训练数据得到的经训练的机器学习模型。

在一个实施例中，可以使用专门的模型处理模块来进行模型训练和重训，以帮助训练出最优算法效果的模型。针对机器学习模型，包括训练材料收集、特征训练和效果修正三个方面。

首先，需要广泛收集训练材料，针对某一个具体的语音技能，针对通知形式模板选择模型用到的参数，(例如，上例中包括用户情绪打分值、用户语音话术风格、待生成话术情绪打分值、执行结果话术规则、情景情绪打分、情景播报话术风格的6个话术参数)，需要人工先针对不同参数组合预先收集训练数据(即符合该参数条件完整的话术)。数据的收集可由人工定义参数组合条件后，再广泛收集符合该参数的训练数据。数据来源可以尽可能的广泛，例如可以包括众包用户表达、影视作品抽取、文学作品中抽取符合情绪、情景的相关话术以及语音呈现方式。多样的数据来源，能够确保机器模型学习到更合适的话术和语音呈现方式。

随后可以对收集到的相关数据进行处理，以获取输入模型所需的特征。针对话术，上述处理可以包括数据分析及分词处理，寻找话术具备共性的情感向量、名词向量、动词向量等要素，并将这些共性要素记录为模型特征。针对声音呈现，上述处理则可以包括对声音波形的分析，以提取语速、音质等要素，并将这些共性要素记录为模型特征。上述经处理的特征可以输入机器学习模型，以使得该模型能够利用模型特征，模拟大量播报话术以及声音呈现方式。

针对这些模拟产生的话术，可以进行人工判断打分，标记生成效果是否可用。打分的结果可以反馈用于进一步模型优化，去除低分要素后重新生成模型。另外，在该机器学习模型投放用于用户使用时，还基于确定的所述通知方式的用户反馈，重训所述机器学习模型。

根据本发明的上述语音处理方案，能够提高播报内容的灵活性，每次反馈给用户的播报内容都是动态生成的，能够有效的体现AI产品的智能感，减少人工编写固定模板的时间投入、程序开发成本。

本发明的方案还可以实现为一种语音数据处理设备。图4示出了根据本发明一个实施例的语音数据处理设备的组成示意图。

如图所示，语音数据处理设备400可以包括处理结果生成模块410和通知方式确定模块。

处理结果生成模块410用于对接收到的语音数据进行处理，以获取所述语音数据的处理结果。通知方式确定模块420用于基于获取所述语音数据的关联信息，确定所述处理结果的通知方式。

具体地，处理结果生成模块410可以包括：意图理解单元，用于对所述语音数据进行意图理解处理，以获取基于意图理解的处理结果。进一步地，处理结果生成模块还可以包括：意图执行单元，用于根据所述意图理解处理结果进行意图执行处理，以获取基于意图执行的处理结果。

意图执行结果分析单元，用于基于所述意图执行处理结果的类型生成所述语音数据的关联处理信息。

进一步地，通知方式确定模块420可以包括：语音数据分析单元，用于分析来自用户的所述语音数据以生成所述语音数据的关联语音信息。具体地，语音数据分析单元可以用于：分析所述语音数据的内容和/或波形、参与用户、和/或用户历史数据，以生成与用户说话方式相关的所述语音数据的关联语音信息。

在一个实施例中，通知方式确定模块420可以包括：场景信息分析单元，用于基于所述语音数据生成时所处场景，生成所述语音数据的关联场景信息。场景信息分析模块包括如下至少一项：时间维度分析引擎，用于基于所述语音数据生成时所处时间生成关联场景信息；空间维度分析引擎，用于基于所述语音数据生成时所处空间生成关联场景信息；天气维度分析引擎，用于基于所述语音数据生成时所处天气生成关联场景信息；以及车辆维度分析引擎，用于基于所述语音数据生成时车辆行驶状况生成关联场景信息。

在一个实施例中，通知方式确定模块420可以包括：模板匹配单元，用于基于所述语音数据的关联信息，从通知方式模板库中选择匹配的通知方式模板。

进一步地，通知方式确定模块420可以包括：机器学习单元，用于将所述语音数据的关联信息送入机器学习模型，以及基于所述机器学习模型生成的结果，确定所述处理结果的通知方式。该机器学习单元可以包括：话术模板匹配单元，用于基于机器学习模型生成的结果选择相应的话术模板。另外，该机器学习单元还可以包括：声音呈现模板匹配单元，用于基于机器学习模型生成的结果选择相应的声音呈现模板。

在一个实施例中，该设备还可以包括：机器学习模型训练模块，用于收集的关联信息作为训练数据得到的经训练的机器学习模型。所述机器学习模型训练模块可以用于：基于确定的所述通知方式的用户反馈，重训所述机器学习模型。

该设备还可以包括：播报内容生成模块，用于基于确定的所述通知方式，生成呈现所述通知方式的播报内容。进一步地，该设备还可以包括：播报模块，用于将所述播报内容语音合成为声音并输出。

优选地，设备400还可以包括通信设备，用于与服务器通信，并且部分或全部模块的部分或全部功能基于预定规则，由所述服务器基于所述通信设备上传的信息执行。

此时，如上所述的语音数据处理设备400，在本发明的一个更为广泛的实现中，可以实现为一个语音数据处理***。图5示出了本发明语音数据处理***的组成示意图。该***500包括多个交互终端510和数据处理中心(也可称为服务器或是云端)520。多个交互终端510可以是能够参与实现本发明的语音处理方法的各类终端，例如，车载***，智能音箱等，并能够通过各种方式与数据处理中心通信，例如，经由移动通信或是WiFi。图中示出了小型车辆和大型车辆的车载***、智能音箱和智能手机作为交互终端510与数据中心520通信的例子。此时，交互终端510包括：麦克风，用于接收用户的语音数据；信息呈现装置，用于将符合通知方式的语音数据处理结果呈现给所述用户；以及通信装置，用于发送用户的语音数据并接收语音数据处理结果。信息呈现装置可以是扬声器、显示屏和/或震动装置等能够传递信息的装置。数据处理中心520则用于：接收来自所述交互终端的语音数据；对所述语音数据进行处理，以获取所述语音数据的处理结果；获取所述语音数据的关联信息；基于所述语音数据的关联信息，确定所述处理结果的通知方式；以及将符合通知方式的语音数据处理结果发送给所述交互终端。在某些实施例中，例如在交互终端具备一定的处理能力的情况下，交互终端可以发送给数据处理中心的语音数据可以是已在本地经过一定处理的数据，并且能够对从数据处理中心接收的语音数据处理结果进行一定的处理，以进行符合通知方式的呈现。在某些实施例中，交互终端还可以负责部分或全部关联信息的采集或是提供。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC)或者现场可编程逻辑门阵列(FPGA)。

存储器610可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可执行代码，当可执行代码被处理器620处理时，可以使处理器620执行上文述及的语音数据处理方法。

上文中已经参考附图详细描述了根据本发明的语音数据处理方法、设备和***。本发明可以实现为一种能够灵活、动态、无额外开发成本的生成播报回复内容的***方案，利用AI技术通过融合模型训练和操作***的场景识别技术，能够做到每次生成的播报话术都是不同的，将语音交互产品的对话反馈环节做到像与真人交流一样自然。带给用户更好的智能化体验，有效提升AI产品的智能感和产品竞争力。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音数据处理方法，包括：

接收语音数据；

对所述语音数据进行处理，以获取所述语音数据的处理结果；

获取所述语音数据的关联信息；以及

基于所述语音数据的关联信息，确定所述处理结果的通知方式。

2.如权利要求1所述的方法，其中，对所述语音数据进行处理，以获取所述语音数据的处理结果包括：

对所述语音数据进行意图理解处理，以获取基于意图理解的处理结果。

3.如权利要求2所述的方法，其中，获取所述语音数据的关联信息包括：

基于所述意图理解处理结果的类型生成所述语音数据的关联处理信息。

4.如权利要求2所述的方法，其中，对所述语音数据进行处理，以获取处理结果包括：

根据所述意图理解的处理结果进行意图执行处理，以获取基于意图执行的处理结果。

5.如权利要求4所述的方法，其中，获取所述语音数据的关联信息包括：

基于所述意图执行的处理结果的类型生成所述语音数据的关联处理信息。

6.如权利要求1所述的方法，其中，获取所述语音数据的关联信息包括：

分析来自用户的所述语音数据以生成所述语音数据的关联语音信息。

7.如权利要求6所述的方法，其中，分析所述语音数据以生成关联语音信息包括：

分析所述语音数据的内容和/或波形，以生成与用户说话方式相关的所述语音数据的关联语音信息。

8.如权利要求7所述的方法，其中，分析所述语音数据以生成关联语音信息包括：

分析所述用户的历史数据，以生成与用户说话方式相关的所述语音数据的关联语音信息。

9.如权利要求7所述的方法，其中，分析所述语音数据以生成关联语音信息包括：

分析所述语音数据的参与用户，以生成与所述参与用户相关的所述语音数据的关联语音信息。

10.如权利要求1所述的方法，其中，获取所述语音数据的关联信息包括：

基于所述语音数据生成时所处场景，生成所述语音数据的关联场景信息。

11.如权利要求9所述的方法，其中，所述语音数据生成时所处场景包括如下至少一项：

所述语音数据生成时所处时间；

所述语音数据生成时所处空间；

所述语音数据生成时所处天气；以及

所述语音数据生成时车辆行驶状况。

12.如权利要求1所述的方法，其中，基于所述语音数据的关联信息，确定所述处理结果的通知方式包括：

基于所述语音数据的关联信息，从通知方式模板库中选择匹配的通知方式模板；以及

将所述处理结果填入所述匹配的通知方式模板。

13.如权利要求1所述的方法，其中，基于所述语音数据的关联信息，确定所述反馈内容的通知方式包括：

将所述语音数据的关联信息送入机器学习模型；以及

基于所述机器学习模型生成的结果，确定所述处理结果的通知方式。

14.如权利要求13所述的方法，其中，将所述语音数据的关联信息送入机器学习模型包括：

将所述语言数据的关联信息转换成所述机器学习模型可解析的输入特征；以及

将所述转换的输入特征输入所述机器学习模型。

15.如权利要求13所述的方法，其中，基于所述机器学习模型生成的结果，确定所述处理结果的通知方式包括：

基于所述机器学习模型生成的结果选择相应的话术模板；

基于所述话术模板生成最终通知内容。

16.如权利要求13所述的方法，其中，基于所述机器学习模型生成的结果，确定所述处理结果的通知方式包括：

基于所述机器学习模型生成的结果选择相应的声音呈现模板；

基于所述声音呈现模板生成最终通知内容。

17.如权利要求13所述的方法，其中，所述机器学习模型是以收集的关联信息作为训练数据得到的经训练的机器学习模型。

18.如权利要求17所述的方法，其中，基于确定的所述通知方式的用户反馈，重训所述机器学习模型。

19.如权利要求1所述的方法，还包括:

基于确定的所述通知方式，生成呈现所述通知方式的播报内容。

20.如权利要求1所述的方法，其中，基于所述语音数据的关联信息，确定所述处理结果的通知方式包括：

基于所述语音数据的处理结果和关联信息，确定所述处理结果的通知方式。

21.一种语音数据处理设备，包括：

处理结果生成模块，用于对接收到的语音数据进行处理，以获取所述语音数据的处理结果；以及

通知方式确定模块，用于基于获取所述语音数据的关联信息，确定所述处理结果的通知方式。

22.如权利要求21所述的设备，其中，所述处理结果生成模块包括：

意图理解单元，用于对所述语音数据进行意图理解处理，以获取基于意图理解的处理结果。

23.如权利要求22所述的设备，其中，所述处理结果生成模块包括：

意图执行单元，用于根据所述意图理解处理结果进行意图执行处理，以获取基于意图执行的处理结果。

24.如权利要求23所述的设备，其中，所述通知方式确定模块包括：

25.如权利要求21所述的设备，其中，所述通知方式确定模块包括：

语音数据分析单元，用于分析来自用户的所述语音数据以生成所述语音数据的关联语音信息。

26.如权利要求25所述的设备，其中，所述语音数据分析单元用于：

分析所述语音数据的内容和/或波形、参与用户、和/或用户历史数据，以生成与用户说话方式相关的所述语音数据的关联语音信息。

27.如权利要求21所述的设备，其中，所述通知方式确定模块包括：

场景信息分析单元，用于基于所述语音数据生成时所处场景，生成所述语音数据的关联场景信息。

28.如权利要求27所述的设备，其中，所述场景信息分析模块包括如下至少一项：

时间维度分析引擎，用于基于所述语音数据生成时所处时间生成关联场景信息；

空间维度分析引擎，用于基于所述语音数据生成时所处空间生成关联场景信息；

天气维度分析引擎，用于基于所述语音数据生成时所处天气生成关联场景信息；以及

车辆维度分析引擎，用于基于所述语音数据生成时车辆行驶状况生成关联场景信息。

29.如权利要求21所述的设备，其中，所述通知方式确定模块包括：

模板匹配单元，用于基于所述语音数据的关联信息，从通知方式模板库中选择匹配的通知方式模板。

30.如权利要求21所述的设备，其中，所述通知方式确定模块包括：

机器学习单元，用于将所述语音数据的关联信息送入机器学习模型，以及基于所述机器学习模型生成的结果，确定所述处理结果的通知方式。

31.如权利要求30所述的设备，其中，所述机器学习单元包括：

话术模板匹配单元，用于基于机器学习模型生成的结果选择相应的话术模板。

32.如权利要求30所述的设备，其中，所述机器学习单元包括：

声音呈现模板匹配单元，用于基于机器学习模型生成的结果选择相应的声音呈现模板。

33.如权利要求30所述的设备，还包括：

机器学习模型训练模块，用于收集的关联信息作为训练数据得到的经训练的机器学习模型。

34.如权利要求33所述的设备，其中，所述机器学习模型训练模块用于：

基于确定的所述通知方式的用户反馈，重训所述机器学习模型。

35.如权利要求31所述的设备，还包括：

播报内容生成模块，用于基于确定的所述通知方式，生成呈现所述通知方式的播报内容。

36.如权利要求35所述的设备，还包括：

播报模块，用于将所述播报内容语音合成为声音并输出。

37.如权利要求21-36中任一项所述的设备，还包括：

通信设备，用于与服务器通信，

并且部分或全部模块的部分或全部功能基于预定规则，由所述服务器基于所述通信设备上传的信息执行。

38.一种语音数据处理***，包括多个交互终端和数据处理中心，

所述交互终端包括：

麦克风，用于接收用户的语音数据；

信息呈现装置，用于将符合通知方式的语音数据处理结果呈现给所述用户；以及

通信装置，用于发送用户的语音数据并接收语音数据处理结果，

所述数据处理中心用于：

接收来自所述交互终端的语音数据；

获取所述语音数据的关联信息；

基于所述语音数据的关联信息，确定所述处理结果的通知方式；以及

将符合通知方式的语音数据处理结果发送给所述交互终端。

39.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-20中任一项所述的方法。

40.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-20中任一项所述的方法。