CN108899036A

CN108899036A - 一种语音数据的处理方法及装置

Info

Publication number: CN108899036A
Application number: CN201810549538.6A
Authority: CN
Inventors: 林凤绿; 张驰; 叶顺平
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-27

Abstract

本发明实施例提供一种语音数据的处理方法及装置，所述方法包括：获得来自第一用户的操作信息；基于所述操作信息，确定第一用户对应的用户意图信息；如果所述用户意图信息用于指示播放来自第二用户的语音留言，基于所述用户意图信息，获取与所述用户意图信息对应的待播放的第一语音留言数据，其中，所述第一语音留言数据由第二用户录制；播放所述第一语音留言数据。如此，通过识别用户意图信息来获取待播放的语音留言数据并进行播放，能够丰富智能音频设备的功能和提高智能音频设备的智能程度。

Description

一种语音数据的处理方法及装置

技术领域

本发明实施例涉及智能终端应用领域，尤其涉及一种语音数据的处理方法及装置。

背景技术

随着智能家居、物联网的兴起，智能音箱、可穿戴设备等智能音频设备有了较大的发展，智能音频设备不仅能够与用户进行交互，而且具有语音播放的功能。

目前，随着互联网的快速发展，智能音频设备所提供的语音数据播放功能多是采集用户输入的语音数据，从互联网中查找与该语音数据对应的反馈信息，如互联网网页中的音乐、互联网中的天气信息，在获取到反馈信息后，播放该反馈信息。但是，智能音频设备所提供的服务多是用户与互联网的交互服务，这种交互服务较为单一，而不能提供多个智能音频设备之间的留言录制和播放服务，也不能实现单独的留言录制和播放服务。

在使用上述智能音频设备的过程中，发明人发现现有的智能音频设备没有语音留言信箱的功能，无法播放用户在其它设备或者当前设备上所录制的语音留言，存在功能较为单一、智能程度较低的技术问题。

发明内容

有鉴于此，本发明实施例提供一种语音数据的处理方法及装置，主要目的在于通过识别用户意图信息来播放其它设备或者当前设备中所录制的语音留言，能够提高音频设备的智能程度，并丰富音频设备的功能。

为达到上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供一种语音数据的处理方法，所述方法包括：获得来自第一用户的操作信息；基于所述操作信息，确定第一用户对应的用户意图信息；如果所述用户意图信息用于指示播放来自第二用户的语音留言，基于所述用户意图信息，获取与所述用户意图信息对应的待播放的第一语音留言数据，其中，所述第一语音留言数据由第二用户录制；播放所述第一语音留言数据。

第二方面，本发明实施例提供一种语音数据的处理装置，所述装置包括：获得单元，用于获得来自第一用户的操作信息；第一确定单元，用于基于所述操作信息，确定第一用户对应的用户意图信息；获取单元，用于如果所述用户意图信息用于指示播放来自第二用户的语音留言，基于所述用户意图信息，获取与所述用户意图信息对应的待播放的第一语音留言数据，其中，所述第一语音留言数据由第二用户录制；播放单元，用于播放所述第一语音留言数据。

第三方面，本发明实施例提供一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述语音数据的处理方法的步骤。

第四方面，本发明实施例提供一种智能音频设备，所述智能音频设备包括：至少一个处理器；以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述语音数据的处理方法的步骤。

本发明实施例提供的语音数据的处理方法及装置，在获得了来自第一用户的操作信息后，会根据该操作信息，来确定出第一用户所对应的用户意图信息；接下来，如果第一用户的用户意图信息是用于指示播放来自第二用户的语音留言的，就会基于该用户意图信息，来获取与所述用户意图信息对应的待播放的第一语音留言数据，其中，所述第一语音留言数据由第二用户录制；最后，会播放该第一语音留言数据。这样，通过识别用户意图信息来播放其它音频设备或者当前音频设备中所录制的语音留言数据，能够实现多个智能音频设备之间的留言录制和播放服务，也能实现单独的留言录制和播放服务，从而，提高音频设备的智能程度，并丰富音频设备的功能。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例一中的语音搜索***的结构示意图；

图2为本发明实施例一中的语音数据的处理方法的流程示意图一；

图3A为本发明实施例一中的语音数据的处理方法的流程示意图二；

图3B为本发明实施例一中的语音数据的处理方法的流程示意图三；

图4为本发明实施例二中的语音数据的处理装置的结构示意图；

图5为本发明实施例三中的智能音频设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

本发明实施例提供一种语音搜索***，图1为本发明实施例一中的语音搜索***的结构示意图，参见图1所示，该语音搜索***10包括：总控中心(Controller)101、自动语音识别服务(ASR，Automatic Speech Recognition)模块102、问答(QA，Query Answer)服务模块103、对话管理(DM，Dialogue Management)模块104、客户端(Client)105和文本转语音(TTS，Text to Speech)服务模块106；

其中，上述总控中心，用于根据客户端所发送的语音操作信息，通过调用***中的其它服务模块确定该操作信息对应的用户意图信息，并搜索与该用户意图信息对应的待播放的语音留言数据。

上述ASR服务模块，用于对总控中心所发送的语音操作信息进行语音识别，以将语音操作信息转换为文本识别结果，并将该文本识别结果发给总控中心。该ASR服务包括：流媒体服务(streaming server)模块和recognizer server(识别服务)模块，其中，streaming server模块主要是对总控中心发送的语音操作信息做一些音频解码、采样率转换等音频处理，recognizer server模块主要是将处理后的语音数据转换为文本(text)数据，同时在转换的过程中，向总控中心返回部分结果(partial result)、短停顿(shortpause)、静音(silence)、最终结果(final result)等语音特征参数信息。

上述QA服务模块，用于在接收到总控中心所发送的文本识别结果后，通过qa-api来调用DM模块来对文本识别结果进行语义分析，该qa-api是自然语言处理(NLP，NaturalLanguage Processing)的入口服务。

上述DM模块，用于做对话逻辑控制，在获得总控中心所发送的文本识别结果后，对该文本识别结果进行语义分析，确定出用户意图信息。该DM模块由查询分析(query-analysis)服务模块、缓存服务(cache-server)模块和自然语言生成(NLG，NaturalLanguage Generation)服务模块来实现。其中，query-analysis服务模块主要是用于完成语义理解，包括意图分类和实体词抽取这两个功能，在实际应用中，query-analysis服务模块可以通过自然语言理解(NLU，Natural laguage understanding)技术来实现；cache-server模块用于根据用户意图信息查询所需的语音留言数据，并存储查询结果，以便客户端所在的智能音频设备播放语音留言数据，在实际应用中，cache-server模块一方面可以将一些变动较小的数据预先存储，以提高检索速度，另一方面，还可以通过调用互联网搜索引擎，如onebox，来检索所需的搜索结果；NLG服务模块，用于根据NLG技术对cache-server所搜索到的搜索结果中的各种信息进行结构化分析，并根据搜索需求组织成一句简洁的自然语言，以方便用户收听。

上述客户端，用于使用搜索结果中的NLG数据，发起对TTS服务模块的请求，以将文本格式的NLG数据转换为语音数据，从而，在智能音频设备中进行播放。

上述TTS服务模块，用于将文本数据转换为语音数据。

在实际应用中，客户端设置于智能音频设备中，智能音频设备可以以各种形式来实施。例如，本发明实施例中描述的智能音频设备可以包括诸如智能音箱、智能电视、智能机顶盒等智能家居设备、诸如智能手机、平板电脑、智能手表、智能手环等随身设备等。当然，还可以为其它类型的音频设备，这里，本发明实施例中不做具体限定。

进一步地，结合上述语音搜索***，本发明实施例提供一种语音数据的处理方法，该语音数据的处理方法应用于智能音频设备。

图2为本发明实施例一中的语音数据的处理方法的流程示意图一，参见图2所示，该语音数据的处理方法包括：

S201：获得来自第一用户的操作信息；

具体来说，根据第一用户的操作类型的不同，上述操作信息可以是语音操作信息，也可以是触控操作信息，当然，还可以为其它类型的操作信息，如指纹操作信息等，这里，本发明实施例不做具体限定。

在实际应用中，当第一用户想要通过智能音频设备播放其它用户或者第一用户给自己留的语音留言、给其它用户留言或者给自己留言时，第一用户可以通过语音交互的方式来实现，如第一用户通过语音来询问智能音频设备“有我的留言吗”、“播放留言”、“我要留言”、“我要创建语音提醒”等，此时，智能音频设备就会获得来自第一用户的语音操作信息，或者，第一用户也可以通过触控操作的方式来实现，如第一用户可以按下智能音频设备上的播放键或者录音键，也可以智能音频设备的用户界面上在按下播放留言功能按钮或者录制留言按钮等，开启智能音频设备的语音播放功能或者录制留言功能，并生成对应操作信息，此时，智能音频设备就会获得来自第一用户的触控操作信息。

S202：基于操作信息，确定第一用户对应的用户意图信息；

具体来说，下面结合语音搜索***，以操作信息为语音操作信息为例，来说明如何根据操作信息来确定第一用户对应的用户意图信息。在智能音频设备获得了来自第一用户的语音操作信息后，可将该语音操作信息发送给总控中心，总控中心调用ASR服务模块通过语音识别技术，将该语音操作信息转换为文本识别信息，然后总控中心将该文本识别信息发送给QA服务模块，QA服务模块通过qa-api来调用DM模块对该文本识别结果进行语义理解，DM模块使用自然语言理解技术，对该文本识别信息进行语义理解，并确定出第一用户对应的用户意图信息。这样，就获得了第一用户对应的用户意图信息。

应用场景一：用户意图信息用于指示播放来自第二用户的语音留言。

示例性地，在上述操作信息为语音操作信息时，如果该语音操作信息对应的文本识别信息为“我有什么留言”“播放我的留言”“有给我的留言吗”对应的用户意图信息为“播放语音留言”；如果该语音操作信息对应的文本识别信息为“播放A1给我的留言”“有A1给我的留言吗”对应的用户意图信息为“播放来自A1的语音留言”、“播放A2留的语音留言”。此时，都可以确定上述用户意图信息是用于指示播放来自第二用户的语音留言的。

应用场景二：用户意图信息用于指示给第二用户录制语音留言。

示例性地，在上述操作信息为语音操作信息时，如果该语音操作信息对应的文本识别信息为“我要留言”“我想录制留言”“创建语音提醒”对应的用户意图信息为“录制语音留言”；如果该语音操作信息对应的文本识别信息为“给A1留言”“给A1录制语音提醒”“我是B，我要给A1留言”对应的用户意图信息为“给A1录制语音留言”、“向A1留语音留言”。如果该语音操作信息对应的文本识别信息为“我是B，我要给所有人留言”，对应的用户意图信息为“B要留言”。此时，都可以确定上述用户意图信息是用于指示给第二用户录制语音留言的。

在实际应用中，当所获得的操作信息为触控操作信息时，可以将该操作信息所对应的功能确定为第一用户的用户意图。例如，如果触控操作信息所对应的功能为播放留言，此时，可以确定第一用户的用户意图信息为“播放语音留言”；如果触控操作信息所对应的功能为录制留言，此时，可以确定第一用户的用户意图信息为“录制语音留言”。

在具体实施过程中，如果确定第一用户的用户意图信息是用于指示播放来自第二用户的语音留言，则执行S203至S204。

S203：基于用户意图信息，获取与用户意图信息对应的待播放的第一语音留言数据；

其中，第一语音留言数据由第二用户录制。

在实际应用中，一个智能音频设备可以由多个用户来使用，例如，一个家庭中有四个家庭成员，分别为：妈妈、爸爸、大女儿以及小女儿，家中的智能音箱就对应于四个用户。

那么，根据实际应用的场景的不同，第二用户可以与第一用户相同，如，当妈妈回到家里后，妈妈可以使用家中的智能音箱来播放自已前一天所录制的用于提醒的语音留言；第二用户也可以与第一用户不相同，如妈妈还可以使用家中的智能音箱来播放两个女儿给她的语音留言。

当然，第二用户可以为一个用户，也可以为多个用户，如两个用户、三个用户等。这里，本发明实施例不做具体限定。

在具体实施过程中，为了获得待播放的第一语音留言数据，上述S203可以包括以下步骤：

步骤2031：基于用户意图信息，确定第一语音留言数据对应的标识信息；

在实际应用中，上述第一语音留言数据对应的标识信息可以为用户标识信息，如留言收听方的用户标识信息、留言录制方的用户标识信息，也可以为录制时间信息，当然，还可以为其它能够标识语音留言数据的信息，如设备标识信息或者上述信息中的多个组合等，这里，本发明实施例不做具体限定。

具体来说，用户标识信息可以为用户ID，用户昵称，用户姓名等。

步骤2032：从语音留言数据集中，将标签信息与标识信息相匹配的语音留言数据确定为第一语音留言数据。

在实际应用中，语音留言数据集可以存储在智能音频设备的本地存储空间中，也可以存储在与多个智能音频设备所关联的共享存储空间中，当然，还可以存储在其它外置，如语音信箱服务器的存储空间中，这里，本发明实施例不做具体限定。

示例性地，当该语音数据的处理方法应用于单个智能音频设备时，如多个用户使用一个智能音箱来进行语音留言，此时，语音留言数据集可以存储在该智能音箱的本地存储空间中；当该语音数据的处理方法应用于语音留言***中时，如该语音留言***包括：智能音箱和智能手表，第一用户使用智能音箱，第二用户使用智能手表，智能音箱和智能手表分别与预设的云共享存储空间关联，此时，语音留言数据集可以存储在云共享存储空间。

在实际应用中，为了便于快速找到所需的语音留言数据，在存储语音留言数据时，可以根据该语音留言的录制时间、录制的设备、留言录制方、留言收听方等来生成相应的标签信息。

这样，在通过步骤2031获得了第一语音留言数据对应的标识信息后，就可以将该标识信息与语音留言数据集中的每一个语音留言数据的标签信息进行匹配，最后，在语音留言数据集中，标签信息与该标识信息相匹配的语音留言数据即为所需的待播放的第一语音留言数据。

下面以留言收听方的用户标识和留言录制方的用户标识中的至少一个来实现第一语音留言数据的标识信息为例，来说明如何基于第一用户对应的用户意图信息，来确定第一语音留言数据对应的标识信息。

在具体实施过程中，上述步骤2031可以包括以下步骤：

步骤2031a：对用户意图信息进行解析，判断用户意图信息是否满足预设条件，并生成判断结果；

具体来说，在获得第一用户的意图信息后，如果用户意图信息的文本结构满足“播放A1给B1的语音留言”，表明用户意图信息中同时指示了留言录制方的用户标识A1和留言收听方的用户标识B1；如果用户意图信息的文本结构满足“播放来自A2的语音留言”、“播放A2留的语音留言”，表明用户意图信息中仅仅指示了留言录制方的用户标识A2，并未指示留言收听方的用户标识；如果用户意图信息的文本结构满足“播放给B2的语音留言”、“播放留给B2的语音留言”，表明用户意图信息中仅仅指示了留言收听方的用户标识B2，并未指示留言录制方的用户标识；如果用户意图信息的文本结构满足“播放语音留言”，表明用户意图信息中并未指出留言录制方的用户标识，也并未指出留言收听方的用户标识。

当然，在实际应用中，上述预设条件还可以为其它，不限于以上所列举的“播放A1给B1的语音留言”、“播放来自A2的语音留言”、“播放语音留言”等形式，可由本领域技术人员在具体实施过程中根据实际情况来确定，这里，本发明实施例不做具体限定。

步骤2031b：基于判断结果，按照预设策略，获取第一语音留言数据对应的用户标识信息；

其中，用户标识信息为第一用户的第一用户标识信息和第二用户的第二用户标识信息中的至少一个。

步骤2031c：将用户标识信息确定为标识信息。

在实际应用中，根据判断结果的不同，所对应的预设策略也是不同的。具体来说，上述步骤2031b可以存在且不限于以下三种情况。

情况一：用户意图信息中明确指出留言录制方的用户标识，即第二用户的第二用户标识信息，直接从用户意图信息中提取所需的用户标识信息。

那么，上述步骤2031b可以包括：如果判断结果表明用户意图信息满足第一预设条件，从用户意图信息中，提取第二用户标识信息。

这里，第一预设条件是指用户意图信息中包含有第二用户的第二用户标识信息。

示例性地，当用户意图信息为“播放妈妈给爸爸的语音留言”时，妈妈为第二用户的第二用户标识信息，爸爸为第一用户的第一用户标识信息；当用户意图信息为“播放张三给我的语音留言”时，张三为第二用户的第二用户标识信息。

情况二：用户意图信息中明确指出留言收听方的用户标识，即第一用户的第一用户标识信息，直接从用户意图信息中提取所需的用户标识信息。

那么，上述步骤2031b可以包括：如果判断结果表明用户意图信息满足第二预设条件，从用户意图信息中，提取第一用户标识信息。

这里，第二预设条件是指用户意图信息中包含有第一用户的第一用户标识信息。

示例性地，当用户意图信息为“播放张三给李四的语音留言”时，张三为第二用户的第二用户标识信息，李四为第一用户的第一用户标识信息；当用户意图信息为“播放王五的语音留言”时，王五为第一用户的第一用户标识信息。

情况三：用户意图信息中并未明确指出留言收听方的用户标识和留言录制方的用户标识，展示提示信息，以获取所需的用户标识信息。

那么，上述步骤2031b可以包括：如果判断结果表明用户意图信息满足第三预设条件，向第一用户展示与用户意图信息对应的预设提示信息，接收来自第一用户的响应信息；基于响应信息，获取第二用户标识信息和/或第一用户标识信息。

示例性地，当用户意图信息为“播放语音留言”时，此时，无法从用户意图信息中提取出所需的用户标识，需要向用户展示预设提示信息，以根据用户的响应信息来获取所需的标识信息。

在实际应用中，预设提示信息可以为用于获取留言收听方的用户标识的提示消息，如“请问您是谁”，也可以为用于获取留言录制方的标识信息的提示消息，如“请问要播放谁留的语音留言”，当然，还可以为其它内容的提示消息，如“请问需要播放谁给谁的留言”，这里，本发明实施例不做具体限定。

在实际应用中，根据智能音频设备与用户进行交互的方式的不同，展示预设提示信息的方式可以多种多样。例如，可以通过语音播报来播报预设提示信息，也可以通过在显示屏上直接显示出预设提示信息的内容，当然，还可以通过其它方式，如在用户界面上显示触控按钮、下拉菜单等来让用户选择留言收听方和留言录制方。

当然，在实际应用中，上述步骤2031b还可以通过其他方式来实现，本发明实施例不做具体限定。

S204：播放第一语音留言数据。

具体来说，在获得了与第一用户的用户意图信息所对应的第一语音留言数据后，就可以向第一用户来播放该第一语音留言数据。

在实际应用中，由于存在多个用户使用相同设备的情况，如一家四口人均可以使用家中的智能音箱，为了避免播放错误，实现有效的播放，可以在每次播放语音留言之前，先确定下所获取到的语音留言数据是不是给当前操作智能音频设备的用户的。

那么，在具体实施过程中，上述S204可以包括：当操作信息为语音操作信息时，对语音操作信息进行声纹识别，获得第一用户的声纹特征；根据用户声纹特征与用户标识信息之间的映射关系，确定与第一用户的声纹特征对应的第一用户标识信息；将第一用户标识信息与第一语音留言数据的留言收听方标签进行匹配；如果匹配成功，播放第一语音留言数据。

具体来说，当操作信息为语音操作信息时，由于该语音操作信息中直接携带有用户的声纹特征，而声纹特征能够唯一标识用户的身份，因此，可以直接对该语音操作信息进行声纹识别，来获得第一用户的声纹特征，接下来，就可以根据用户声纹特征与用户标识信息之间的映射关系，确定出该第一用户的声纹特征对应的第一用户标识信息，最后，将第一用户标识信息与第一语音留言数据的留言收听方标签进行匹配，根据匹配结果，就可以确定出该第一语音留言数据是不是给当前的第一用户的。如果匹配成功的话，表明第一语音留言数据就是给第一用户的留言，第一用户为留言收听方可以收听，此时，就可以播放该第一语音留言数据。

此外，当操作信息为触控操作信息时，可以在用户对智能音频设备进行触控操作的过程中，同时采集用户的其它生物特征信息，如用户的指纹特征等，以便确定用户的标识信息。当然，还可以在播放第一语音留言数据之前，向第一用户展示预设的身份验证提示信息，以获取第一用户的所响应的用户标识信息。

在本发明另一实施例中，图3A为本发明实施例一中的语音数据的处理方法的流程示意图二，参见图3A所示，在执行上述步骤S201和S202之后，如果确定第一用户的用户意图信息是用于指示给第二用户录制语音留言，该语音数据的处理方法还可以包括：

S301：采集来自第一用户的第二语音留言数据；

S302：根据用户意图信息，确定第二用户对应的第二用户标识信息；

在具体实施过程中，与确定第一语音留言数据的标识信息的过程类似，根据用户意图信息，确定第二用户对应的第二用户标识信息可以存在且不限于以下三种方式。

方式一：如果用户意图信息中仅指出留言录制方的用户标识，即第一用户的第以用户标识信息，上述S302可以包括：从用户意图信息中，提取第一用户的第一用户标识信息；将预设的用户标识信息库中，除第一用户标识信息外的所有用户标识信息确定第二用户的第二用户标识信息。

举例来说，假设预设的用户标识信息库包括：张三、李四、王五，如果用户意图信息为“张三要留言”，那么，就可以将李四和王五确定为第二用户的第二用户标识信息。

方式二：如果用户意图信息中明确指出留言收听方的用户标识，即第二用户的第二用户标识信息，上述S302可以包括：从用户意图信息中，提取第二用户的第二用户标识信息。

举例来说，如果用户意图信息为“给李四留言”，就可以直接将张三确定为第二用户的第二用户标识信息。

方式三：用户意图信息中并未明确指出留言收听方的用户标识和留言录制方的用户标识，可以通过智能音频设备来展示提示信息，以获取所需的用户标识信息。上述S302可以包括：向第一用户展示与用户意图信息对应的预设提示信息，接收来自第一用户的响应信息；基于响应信息，获取第二用户标识信息和/或第一用户标识信息。

举例来说，如果用户意图信息为“录制语音留言”，此时，是无法直接从用户意图信息中提取出所需的用户标识，需要向用户展示预设提示信息，以根据用户的响应信息来获取所需的标识信息。

在实际应用中，预设提示信息可以为用于获取留言收听方的用户标识的提示消息，如“请问您要给谁留言”，也可以为用于获取留言录制方的标识信息的提示消息，如“请问您是谁”，当然，还可以为其它内容的提示消息，如“请问谁要给谁留言呢”，这里，本发明实施例不做具体限定。

当然，除了上述列出的实施方式外，在实际应用中，上述S302还可以通过其他方式来实现，本发明实施例不做具体限定。

S303：将第二用户标识信息标记为第二语音留言数据对应的留言收听方标签；

具体来说，为了便于在播放留言时快速找到所需的语音留言，在获得了第二用户的第二用户标识信息后，就可以将该第二用户标识信息标记为第二语音留言数据对应的留言收听方标签。

S304：存储标记后的第二语音留言数据。

在本发明另一实施例中，为了更精确地找到所需的语音留言，参见图3B所示，在执行S304之前，上述语音数据的处理方法还可以包括：

S305：对第二语音留言数据进行声纹识别，获得第一用户的声纹特征；

S306：根据用户声纹特征与用户标识信息之间的映射关系，确定与第一用户的声纹特征对应的第一用户标识信息；

S307：将第一用户标识信息标记为第二语音留言数据对应的留言录制方标签。

具体来说，为了便于在播放留言时更精确地找到所需的语音留言，在获得了第一用户的第一用户标识信息后，就可以将该第一用户标识信息标记为第二语音留言数据对应的留言录制方标签。

在执行完S307后，可以执行S304，以存储标记后的第二语音留言数据。

这里，需要说明的是，在实际应用中可以仅仅标记留言收听方标签，也可以仅仅标记留言录制方标签，还可以同时标记留言收听方标签和留言录制方标签，当然，除了给第二语音留言数据以用户标识信息来标记标签外，还可以通过其他信息，如录制时间信息、设备标识信息等来给第二语音留言数据标记相应的标签。

至此，便完成了对语音数据的处理过程。

由上述内容可知，本发明实施例提供的技术方案，在获得了来自第一用户的操作信息后，会根据该操作信息，来确定出第一用户所对应的用户意图信息；接下来，如果第一用户的用户意图信息是用于指示播放来自第二用户的语音留言是，就会基于该用户意图信息，来获取与用户意图信息对应的待播放的第一语音留言数据，其中，第一语音留言数据由第二用户录制；最后，会播放第一语音留言数据。这样，通过识别用户意图信息来播放其它音频设备或者当前音频设备中所录制的语音留言数据，能够实现多个智能音频设备之间的留言录制和播放服务，也能实现单独的留言录制和播放服务，从而，提高音频设备的智能程度，并丰富音频设备的功能。

实施例二

基于同一发明构思，作为对上述方法的实现，本发明实施例提供了一种语音数据的处理装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图4为本发明实施例二中的语音数据的处理装置的结构示意图，参见图4所示，该装置40包括：获得单元401，用于获得来自第一用户的操作信息；第一确定单元402，用于基于操作信息，确定第一用户对应的用户意图信息；获取单元403，用于如果用户意图信息用于指示播放来自第二用户的语音留言，基于用户意图信息，获取与用户意图信息对应的待播放的第一语音留言数据，其中，第一语音留言数据由第二用户录制；播放单元404，用于播放第一语音留言数据。。

在本发明实施例中，获取单元，还用于基于用户意图信息，确定第一语音留言数据对应的标识信息；从语音留言数据集中，将标签信息与标识信息相匹配的语音留言数据确定为第一语音留言数据。

在本发明实施例中，获取单元，还用于对用户意图信息进行解析，判断用户意图信息是否满足预设条件，并生成判断结果；基于判断结果，按照预设策略，获取第一语音留言数据对应的用户标识信息，其中，用户标识信息为第一用户的第一用户标识信息和第二用户的第二用户标识信息中的至少一个；将用户标识信息确定为标识信息。

在本发明实施例中，获取单元，还用于如果判断结果表明用户意图信息满足第一预设条件，从用户意图信息中，提取第二用户标识信息；如果判断结果表明用户意图信息满足第二预设条件，从用户意图信息中，提取第一用户标识信息；如果判断结果表明用户意图信息满足第三预设条件，向第一用户展示与用户意图信息对应的预设提示信息，接收来自第一用户的响应信息；基于响应信息，获取第二用户标识信息和/或第一用户标识信息。

在本发明实施例中，播放单元，用于当操作信息为语音操作信息时，对语音操作信息进行声纹识别，获得第一用户的声纹特征；根据用户声纹特征与用户标识信息之间的映射关系，确定与第一用户的声纹特征对应的第一用户标识信息；将第一用户标识信息与第一语音留言数据的留言收听方标签进行匹配；如果匹配成功，播放第一语音留言数据。

在本发明其它实施例中，上述装置还包括：采集单元，用于如果用户意图信息用于指示给第二用户录制语音留言，采集来自第一用户的第二语音留言数据；第二确定单元，用于根据用户意图信息，确定第二用户对应的第二用户标识信息；第一标记单元，用于将第二用户标识信息标记为第二语音留言数据对应的留言收听方标签；存储单元，用于存储标记后的第二语音留言数据。

在本发明另一实施例中，上述装置还包括：识别单元，用于对第二语音留言数据进行声纹识别，获得第一用户的声纹特征；第三确定单元，用于根据用户声纹特征与用户标识信息之间的映射关系，确定与第一用户的声纹特征对应的第一用户标识信息；第二标记单元，用于将第一用户标识信息标记为第二语音留言数据对应的留言录制方标签。

由于本实施例所介绍的语音数据的处理装置为可以执行本发明实施例中的语音数据的处理方法的装置，故而基于本发明实施例中所介绍的语音数据的处理方法，本领域所属技术人员能够了解本实施例的语音数据的处理装置的具体实施方式以及其各种变化形式，所以在此对于该语音数据的处理装置如何实现本发明实施例中的语音数据的处理方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中语音数据的处理方法所采用的装置，都属于本申请所欲保护的范围。

在实际应用中，该语音数据的处理装置可应用于智能音频设备中。智能音频设备可以以各种形式来实施。例如，本发明实施例中描述的智能音频设备可以包括诸如智能音箱、智能电视、智能机顶盒等智能家居设备、诸如智能手机、平板电脑、智能手表、智能手环等随身设备等。当然，还可以为其它类型的音频设备，这里，本发明实施例中不做具体限定。

实施例三

基于同一发明构思，本发明实施例提供一种智能音频设备。图5为本发明实施例三中的智能音频设备的结构示意图，参见图5所示，该智能音频设备50包括：至少一个处理器51；以及与所述处理器51连接的至少一个存储器52、总线53；其中，所述处理器51、存储器52通过所述总线53完成相互间的通信；所述处理器51用于调用所述存储器52中的程序指令，以执行以下步骤：获得来自第一用户的操作信息；基于操作信息，确定第一用户对应的用户意图信息；如果用户意图信息用于指示播放来自第二用户的语音留言，基于用户意图信息，获取与用户意图信息对应的待播放的第一语音留言数据，其中，第一语音留言数据由第二用户录制；播放第一语音留言数据。

在本发明实施例中，上述处理器调用程序指令时还可执行以下步骤：基于用户意图信息，确定第一语音留言数据对应的标识信息；从语音留言数据集中，将标签信息与标识信息相匹配的语音留言数据确定为第一语音留言数据。

在本发明实施例中，上述处理器调用程序指令时还可执行以下步骤：对用户意图信息进行解析，判断用户意图信息是否满足预设条件，并生成判断结果；基于判断结果，按照预设策略，获取第一语音留言数据对应的用户标识信息，其中，用户标识信息为第一用户的第一用户标识信息和第二用户的第二用户标识信息中的至少一个；将用户标识信息确定为标识信息。

在本发明实施例中，上述处理器调用程序指令时还可执行以下步骤：如果判断结果表明用户意图信息满足第一预设条件，从用户意图信息中，提取第二用户标识信息；如果判断结果表明用户意图信息满足第二预设条件，从用户意图信息中，提取第一用户标识信息；如果判断结果表明用户意图信息满足第三预设条件，向第一用户展示与用户意图信息对应的预设提示信息，接收来自第一用户的响应信息；基于响应信息，获取第二用户标识信息和/或第一用户标识信息。

在本发明实施例中，上述处理器调用程序指令时还可执行以下步骤：当操作信息为语音操作信息时，对语音操作信息进行声纹识别，获得第一用户的声纹特征；根据用户声纹特征与用户标识信息之间的映射关系，确定与第一用户的声纹特征对应的第一用户标识信息；将第一用户标识信息与第一语音留言数据的留言收听方标签进行匹配；如果匹配成功，播放第一语音留言数据。

在本发明实施例中，上述处理器调用程序指令时还可执行以下步骤：如果用户意图信息用于指示给第二用户录制语音留言，采集来自第一用户的第二语音留言数据；根据用户意图信息，确定第二用户对应的第二用户标识信息；将第二用户标识信息标记为第二语音留言数据对应的留言收听方标签；存储标记后的第二语音留言数据。

在本发明实施例中，上述处理器调用程序指令时还可执行以下步骤：对第二语音留言数据进行声纹识别，获得第一用户的声纹特征；根据用户声纹特征与用户标识信息之间的映射关系，确定与第一用户的声纹特征对应的第一用户标识信息；将第一用户标识信息标记为第二语音留言数据对应的留言录制方标签。

本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述实施例中的语音数据的处理方法。

上述处理器可由中央处理器(Central Processing Unit，CPU)、微处理器(MicroProcessor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)、或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。存储器可能包括计算机可读介质中的非永久性存储器，随机存储器(Random Access Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(Flash RAM)，存储器包括至少一个存储芯片。

实施例四

基于同一发明构思，本实施例提供一种存储介质，上述存储介质存储有一个或者多个程序，上述一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例中的语音数据的处理方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，RAM和/或非易失性内存等形式，如ROM或Flash RAM。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质可以是ROM、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是快闪记忆体或其他内存技术、CD-ROM、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息；还可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、***或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语音数据的处理方法，其特征在于，所述方法包括：

获得来自第一用户的操作信息；

基于所述操作信息，确定第一用户对应的用户意图信息；

如果所述用户意图信息用于指示播放来自第二用户的语音留言，基于所述用户意图信息，获取与所述用户意图信息对应的待播放的第一语音留言数据，其中，所述第一语音留言数据由第二用户录制；

播放所述第一语音留言数据。

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户意图信息，获取与所述用户意图信息对应的待播放的第一语音留言数据，包括：

基于所述用户意图信息，确定所述第一语音留言数据对应的标识信息；

从语音留言数据集中，将标签信息与所述标识信息相匹配的语音留言数据确定为所述第一语音留言数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述用户意图信息，确定所述第一语音留言数据对应的标识信息，包括：

对所述用户意图信息进行解析，判断所述用户意图信息是否满足预设条件，并生成判断结果；

基于所述判断结果，按照预设策略，获取所述第一语音留言数据对应的用户标识信息，其中，所述用户标识信息为第一用户的第一用户标识信息和第二用户的第二用户标识信息中的至少一个；

将所述用户标识信息确定为所述标识信息。

4.根据权利要求3所述的方法，其特征在于，所述基于所述判断结果，按照预设策略，获取所述第一语音留言数据对应的用户标识信息，包括：

如果所述判断结果表明所述用户意图信息满足第一预设条件，从所述用户意图信息中，提取所述第二用户标识信息；

如果所述判断结果表明所述用户意图信息满足第二预设条件，从所述用户意图信息中，提取所述第一用户标识信息；

如果所述判断结果表明所述用户意图信息满足第三预设条件，向所述第一用户展示与所述用户意图信息对应的预设提示信息，接收来自第一用户的响应信息；基于所述响应信息，获取所述第二用户标识信息和/或第一用户标识信息。

5.根据权利要求1所述的方法，其特征在于，所述播放所述第一语音留言数据，包括：

当所述操作信息为语音操作信息时，对所述语音操作信息进行声纹识别，获得第一用户的声纹特征；

根据用户声纹特征与用户标识信息之间的映射关系，确定与所述第一用户的声纹特征对应的第一用户标识信息；

将所述第一用户标识信息与所述第一语音留言数据的留言收听方标签进行匹配；

如果匹配成功，播放所述第一语音留言数据。

6.根据权利要求1所述的方法，其特征在于，在所述基于所述指示信息，确定第一用户对应的用户意图信息之后，所述方法还包括：

如果所述用户意图信息用于指示给第二用户录制语音留言，采集来自第一用户的第二语音留言数据；

根据所述用户意图信息，确定第二用户对应的第二用户标识信息；

将所述第二用户标识信息标记为所述第二语音留言数据对应的留言收听方标签；

存储标记后的第二语音留言数据。

7.根据权利要求6所述的方法，其特征在于，在所述存储标记后的第二语音留言数据之前，所述方法还包括：

对所述第二语音留言数据进行声纹识别，获得所述第一用户的声纹特征；

将所述第一用户标识信息标记为所述第二语音留言数据对应的留言录制方标签。

8.一种语音数据的处理装置，其特征在于，所述装置包括：

获得单元，用于获得来自第一用户的操作信息；

第一确定单元，用于基于所述操作信息，确定第一用户对应的用户意图信息；

获取单元，用于如果所述用户意图信息用于指示播放来自第二用户的语音留言，基于所述用户意图信息，获取与所述用户意图信息对应的待播放的第一语音留言数据，其中，所述第一语音留言数据由第二用户录制；

播放单元，用于播放所述第一语音留言数据。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1至7任一项所述的语音数据的处理方法的步骤。

10.一种智能音频设备，其特征在于，所述智能音频设备包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；

其中，所述处理器、存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1至7任一项所述的语音数据的处理方法的步骤。