CN110880324A

CN110880324A - 语音数据的处理方法、装置、存储介质及电子设备

Info

Publication number: CN110880324A
Application number: CN201911053988.7A
Authority: CN
Inventors: 舒景辰; 张岱; 史彩庆; 谭星; 胡凯
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-03-13

Abstract

本申请实施例公开了一种基于对话场景的语音数据处理方法、装置、存储介质及电子设备，属于在线教育领域。方法包括：设置对话场景；采集用户在对话场景下输入的语音数据，以及解析所述语音数据的对话内容；在所述对话内容和所述对话场景不匹配的情况下，显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述对话场景不匹配。本申请能实现无监督的自主学习，减少人力成本，提高学习效率。

Description

语音数据的处理方法、装置、存储介质及电子设备

技术领域

本申请涉及在线教育领域，尤其涉及一种基于对话场景的语音数据处理方法、装置、存储介质及电子设备。

背景技术

随着互联网的发展，在线教育收到越来越多人的欢迎，在线教育科研不限时间和地点灵活的的学习，充分提升自身的技能。相对于传统的使用固定教室更移动便捷化，在画面、音频更具视觉化和更具吸引力。

在相关技术中，用户学习语言的方法使用基于对话场景的，用户在某个设定的对话场景下与教师进行多轮对话，教师在对话过程中纠正学生错误的对话，由此可见这种学习方式需要教师实时进行监督，耗费了大量的人力成本。

发明内容

本申请实施例提供了的基于对话场景的语音数据处理方法、装置、存储介质及终端，可以解决人工纠正用户的对话内容效率低的问题，实现无监督的自主学习。所述技术方案如下：

第一方面，本申请实施例提供了一种基于对话场景的语音数据处理方法，所述方法包括：

设置对话场景；

采集用户在对话场景下输入的语音数据，以及解析所述语音数据的对话内容；

在所述对话内容和所述对话场景不匹配的情况下，显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述对话场景不匹配。

第二方面，本申请实施例提供了一种基于对话场景的语音数据处理装置，所述基于对话场景的语音数据处理装置包括：

设置单元，用于设置对话场景；

采集单元，用于采集用户在对话场景下输入的语音数据，以及解析所述语音数据的对话内容；

提示单元，用于在所述对话内容和所述对话场景不匹配的情况下，显示提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述对话场景不匹配。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

采集用户在预先设置的对话场景下输入的语音数据，解析语音数据的对话内容，判断对话内容和对话场景是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样便于提示用户发出正确的对话内容，实现无人工监督的自主学习，提高学习效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构图；

图2是本申请实施例提供的基于对话场景的语音数据处理方法的流程示意图；

图3是本申请实施例提供的基于对话场景的语音数据处理方法的另一流程示意图；

图4是本申请实施例提供的基于对话场景的语音数据处理方法的另一流程示意图；

图5是本申请实施例提供的基于对话场景的语音数据处理方法的另一流程示意图；

图6是本申请实施例提供的一种装置的结构示意图；

图7是本申请实施例提供的一种装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

图1示出了可以应用于本申请的基于对话场景的语音数据处理方法或基于对话场景的语音数据处理装置的示例性***架构100。

如图1所示，***架构100可以包括第一终端设备100、第一网络101、服务器102、第二网络103和第二终端设备104。第一网络104用于在第一终端设备101和服务器102之间提供通信链路的介质，第二网络103用于在第二终端设备104和服务器102之间提供通信链路的介质。第一网络101和第二网络103可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆的，无线通信链路包括蓝牙通信链路、无线保真(WIreless-FIdelity，Wi-Fi)通信链路或微波通信链路等。

第一终端设备100通过第一网络101、服务器102、第二网络103和第二终端设备104之间进行通信，第一终端设备100向服务器102发送消息，服务器102将消息转发给第二终端设备104，第二终端设备104将消息发送给服务器102，服务器102将消息转发给第二终端设备100，由此实现第一终端设备100和第二终端设备104之间的通信，第一终端设备100和第二终端设备104之间交互的消息类型包括控制数据和业务数据。

其中，在本申请中，第一终端设备100为学生上课的终端，第二终端设备104为教师上课的终端；或第一终端设备100为教师上课的终端，第二终端设备104为学生上课的终端。例如：业务数据为视频流，第一终端设备100通摄像头采集学生上课过程中的第一视频流，第二终端设备通过摄像头104采集教师上课过程中的第二视频流，第一终端设备100将第一视频流发送给服务器102，服务器102将第一视频流转发给第二终端设备104，第二终端设备104在界面上显示第一视频流和第二视频流；第二终端设备104将第二视频流发送给服务器102，服务器102将第二视频流转发给第一终端设备100，第一终端设备100显示第一视频流和第二视频流。

其中，本申请的上课方式可以是一对一或一对多，即一个教师对应一个学生或一个教师对应多个学生。相应的，在一对一的教学方式中，一个用于教师上课的终端和一个用于学生上课的终端之间进行通信；在一对多的教学方式中，一个用于教师上课的终端和多个用于学生上课的终端之间进行通信。

第一终端设备100和第二终端设备104上可以安装有各种通信客户端应用，例如：视频录制应用、视频播放应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端、社交平台软件等。

第一终端设备100和第二终端设备104可以是硬件，也可以是软件。当终端设备101～103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等等。当第一终端设备100和第二终端设备104为软件时，可以是安装上上述所列举的电子设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

当第一终端设备100和第二终端设备104为硬件时，其上还可以安装有显示设备和摄像头，显示设备显示可以是各种能实现显示功能的设备，摄像头用于采集视频流；例如：显示设备可以是阴极射线管显示器(Cathode ray tubedisplay，简称CR)、发光二极管显示器(Light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(Liquid crystaldisplay，简称LCD)、等离子显示面板(Plasma displaypanel，简称PDP)等。用户可以利用第一终端设备100和第二终端设备104上的显示设备，来查看显示的文字、图片、视频等信息。

需要说明的是，本申请实施例提供的基于对话场景的语音数据处理方法一般由服务器102执行，相应的，基于对话场景的语音数据处理装置一般设置于服务器102或终端设备中。

服务器102可以是提供各种服务的服务器，服务器102可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器102为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

应理解，图1中的终端设备、网络和服务器的数目仅是示意性的。根据实现需要，可以是任意数量的终端设备、网络和服务器。

下面将结合附图2-附图6，对本申请实施例提供的基于对话场景的语音数据处理方法进行详细介绍。其中，本申请实施例中的基于对话场景的语音数据处理装置可以是图2-图5所示的电子设备。

请参见图2，为本申请实施例提供了一种基于对话场景的语音数据处理方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201、设置对话场景。

其中，对话场景表示对话者所处的外部环境，本申请实施例中的对话场景是虚拟设置的外部环境，例如：对话场景包括购物场景、登机场景和问路场景等。电子设备可以根据教学需求设置对话场景，也可以根据用户的选择设置自定义对话场景。

在一个或多个实施例中，电子设备接收用户的对话场景选择指令，基于对话场景选择指令设置对话场景，然后显示对话场景的场景信息，场景信息的表现形式可以是图片或视频。例如：用户选择购物场景时，电子设备在显示屏上显示购物场景的图片或视频。

S202、采集用户在对话场景下输入的语音数据，以及解析语音数据的对话内容。

其中，电子设备通过音频采集装置采集用户在对话场景下输入的语音数据，音频采集装置将用户发出的语音转换为模拟形式的语音信号，然后将模拟形式的语音信号进行预处理后转换为数字形式的语音数据。音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。预处理过程包括滤波、放大、采样和格式转换等过程。语音数据的对话内容可以是文本的形式来表示，例如：电子设备基于隐马尔可夫模型(Hidden MarkovModel，HMM)将语音数据转换为文本形式的对话内容。

其中，电子设备为终端设备时，电子设备通过音频采集装置直接采集用户在对话场景下输入的语音数据；在电子设备为服务器时，服务器接收来自用户的终端设备采集的流媒体形式的语音数据。

S203、在对话内容和对话场景不匹配的情况下，显示第一提示信息。

其中，第一提示信息表示语音数据的对话内容和对话场景不匹配。对话内容和对话场景不匹配表示对话内容和对话场景的相关性不高，例如：预先设置的对话场景为游览动物园，用户在该对话场景输入的语音数据的对话内容为“早餐吃了什么？”，用户输入的语音数据的对话内容和游览动物园的场景相关性不高。本申请实施例中，语音数据的对话内容和对话场景之间是否匹配可以采用量化的方式来衡量。对话内容的语言类型可以是中文、英文或其他类型的语言，本申请实施例不作限制。

其中，电子设备是终端设备时，终端设备在显示屏上显示提示信息；电子设备为服务器时，服务器生成提示信息，将提示推送到用户的终端设备上进行显示。

在一个或多个实施例中，判断语音数据的对话内容和对话场景是否匹配的方法包括：

提取语音数据的对话内容中的第一关键词集合；获取对话场景关联的第二关键词集合，在第一关键词集合和第二关键词集合中共有关键词的数量大于预设数量时，确定语音数据的对话内容和对话场景是匹配的；或在第一关键词集合和第二关键词集合中共有关键词的数量小于或等于预设数量时，确定语音数据的对话内容和对话场景是不匹配的。

其中，电子设备预存储或预配置有对话场景和关键词集合之间的映射关系，不同的对话场景对应不同的关键词集合。电子设备使用关键词提取算法提取语音数据中的关键词组成第一关键词集合，电子设备获取与当前的对话场景关联的第二关键词集合。共有关键词表示第一关键词集合和第二关键词集合中都存在的关键词。

获取所述对话场景关联的参考对话内容，计算语音数据的对话内容和参考对话内容之间的相似度；若相似度大于预设阈值，确定语音数据的对话内容和对话场景是匹配的；若相似度小于或等于预设阈值，确定语音数据的对话内容和对话场景是不匹配的。

其中，电子设备预存储或预配置有对话场景和参考对话内容之间的映射关系，不同的对话场景关联有不同的参考对话内容。对话场景关联的参考对话内容的数量可以是一个或多个。计算相似度可以基于欧氏距离、余弦距离、皮尔逊相似度或其他算法。在当前的对话场景关联的参考对话内容的数量为多个的情况下，语音数据的对话内容和多个参考对话内容中的任意一个参考对话内容的相似度大于预设阈值，则确定语音数据的对话内容和对话场景是匹配的。

获取与对话场景关联的内容匹配度评估模型；基于内容匹配度评估模型对语音数据的对话内容进行评估得到分值，在分值小于预设分值的情况下，确定语音数据的对话内容和对话场景是不匹配的；在分值大于或等于预设分值的情况下，确定语音数据的对话内容和对话场景是匹配的。

其中，电子设备预存储或预配置有对话场景和内容匹配度评估模型之间的映射关系，不同的对话场景关联有不同的内容匹配度评估模型。内容匹配度评估模型是使用对话场景下的语音数据训练出来的，内容匹配度评估模型是一种机器学习模型。

本申请实施例的方案在执行时，采集用户在预先设置的对话场景下输入的语音数据，解析语音数据的对话内容，判断对话内容和对话场景是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样便于提示用户发出正确的对话内容，实现无人工监督的自主学习，提高学习效率。

请参见图3，为本申请实施例提供了一种基于对话场景的语音数据处理方法的流程示意图。本实施例以基于对话场景的语音数据处理方法应用于电子设备中来举例说明，电子设备可以是服务器或终端设备。该基于对话场景的语音数据处理方法可以包括以下步骤：

S301、设置对话场景。

其中，对话场景表示对话者所处的外部环境，本申请实施例中的对话场景是虚拟设置的外部环境。例如：对话场景包括购物场景、登机场景和动物园场景等。电子设备可以根据教学需求设置对话场景，也可以根据用户的选择设置对话场景。

在一个或多个实施例中，电子设备接收用户的对话场景选择指令，基于对话场景选择指令设置对话场景，然后显示对话场景的场景信息，场景信息的表现形式可以是图片或视频。

在一个或多个实施例中，电子设备设置有触摸显示屏，电子设备显示多个对话场景，用户基于触控操作选择多个对话场景中的一个，电子设备基于用户选择的对话场景，获取选择的对话场景关联的图片，以及显示该图片。

S302、采集用户在对话场景下输入的语音数据。

其中，电子设备预存储或预配置有对话场景的持续时间，持续时间可以用开始时刻和结束时刻来表示，电子设备在持续时间内采集用户在对话场景下输入的语音数据。电子设备通过音频采集装置采集用户在对话场景下输入的语音数据，音频采集装置将用户发出的语音转换为模拟形式的语音数据，然后将模拟形式的语音数据进行预处理得到数字形式的语音数据。音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。预处理过程包括滤波、放大、采样和格式转换等过程。

S303、解析语音数据的的对话内容。

其中，语音数据的对话内容可以采用文本的形式来表示，电子设备可以基于HMM将语音数据转换为文本形式的对话内容，对话内容包括多个关键词。

S304、提取语音数据的对话内容中的第一关键词集合。

其中，电子设备在对话内容的文本中提取关键词得到第一关键词集合，第一关键词集合包括一个或多个关键词。其中：电子设备可以使用词频-逆向文件频率(termfrequency-inverse document frequency，TF-IDF)、TextRank、Rake、Topic-Model等关键词提取算法提取对话内容的文本中的第一关键词集合。

例如：对话内容的文本为“大象的体重是多少？”，电子设备基于TF-IDF提取到到的关键词为“大象”和“体重”。

S305、获取与对话场景关联的第二关键词集合。

其中，电子设备预存储或预配置有对话场景关联的第二关键词集合，不同的对话场景具有不同的第二关键词集合，第二关键词集合中包括多个关键词。

S306、统计第一关键词集合和第二关键词集合中共有关键词的数量。

其中，共有关键词为第一关键词集合和第二关键词集合中均存在的关键词，例如：第一关键词集合包括的关键词为：关键词A、关键词B和关键词C，第二关键词集合中包括的关键词为：关键词A、关键词B和关键词D，通过比较第一关键词集合和第二关键词集合确定关键词A和关键词B为共有关键词，共有关键词的数量为2个。

S307、判断数量是否大于预设数量。

其中，电子设备预存储或预配置有预设数量，预设数量可以根据实际需求来定，本申请实施例不作限制。在电子设备判断第一关键词集合和第二关键词集合中共有关键词的数量大于预设数量时，则用户在对话场景下输入的语音数据与对话场景是匹配的，执行S308；若第一关键词集合和第二关键词集合中共有关键词的数量小于或等于预设数量时，则用户在对话场景下输入的语音数据与对话场景是不匹配的，执行S309。

S308、显示第一提示信息。

其中，第一提示信息用于表示用户在对话场景下输入的语音数据的对话内容和对话场景是不匹配的。进一步的，电子设备还可以显示对话场景关联的第二关键词集合，这样用户根据第二关键词集合的提示生成正确的对话内容。

例如：对话场景为购物场景，电子设备显示一个超市的背景图片，用户在该对话场景下发出的语音数据的对话内容为“那个小女孩多大年纪？”，电子设备提取对话内容的第一关键词集合，以及获取购物场景关联的第二关键词集合进行对比，对比结果为第一关键词集合和第二关键词集合中共有关键词的数量小于或等于预设数量，则电子设备显示的第一提示信息为一个红色的“×”图案，同时，电子设备显示的第二关键词集合中的关键词。

S309、显示第二提示信息。

其中，第二提示信息表示用户在对话场景下输入的语音数据的对话内容和对话场景是匹配的。

例如：对话场景为动物园场景，电子设备显示动物园的背景图片，用户在该对话场景的语音数据的对话内容为“大象的体重是多少？”，电子设备判断对话内容和动物园场景是匹配的情况下，显示的第二提示信息为一个绿色的大拇指图案。

实施本申请的实施例，采集用户在预先设置的对话场景下输入的语音数据，解析语音数据的对话内容，通过对话内容中的关键词和参考对话内容中的关键词中共有关键词的数量判断对话内容和对话场景是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样便于提示用户发出正确的对话内容，实现无人工监督的自主学习，提高学习效率。

参见图4，为本申请实施例提供的一种基于对话场景的语音数据处理方法的流程示意图。如图4所示，本申请实施例的所述方法可以包括以下步骤：

S401、响应于输入的对话场景选择指令设置对话场景。

其中，电子设备预存储或预配置有多个对话场景，对话场景选择指令用于在多个对话场景中选择一个对话场景。例如：对话场景包括购物场景、登机场景和动物园场景等。对话场景选择指令是基于用户的操作触发的，操作的类型包括但不限于：触控操作、鼠标操作、按键操作、声控操作、体感操作等。

S402、获取与对话场景关联的场景信息，以及显示场景信息。

其中，电子设备预存储或预配置有场景信息，场景信息可以是用于描述对话场景的图片、文字和视频中的一种或多种。不同的对话场景关联有不同的场景信息。电子设备将场景信息作为背景进行显示。

例如：电子设备预存储或预配置有对话场景和场景信息之间的关系为：对话场景1关联图片1，对话场景2关联图片2，对话场景3关联图3。

S403、采集用户在对话场景下输入的语音数据。

其中，电子设备预存储或预配置有对话场景的持续时间，持续时间可以用开始时刻和结束时刻来表示，电子设备可以使用音频采集装置在持续时间内采集用户在对话场景下输入的语音数据，音频采集装置将用户发出的语音转换为模拟形式的语音数据，然后将模拟形式的语音数据进行预处理得到数字形式的语音数据。音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。预处理过程包括滤波、放大、采样和格式转换等过程。

S404、解析语音数据的对话内容。

其中，语音数据的对话内容可以使用文本形式来表示，电子设备可以基于HMM将语音数据转换为文本形式的对话内容，对话内容包括多个关键词。

例如：对话内容的文本为“猎豹的速度有多快？”，电子设备基于TF-IDF提取到到的关键词为“猎豹”和“速度”。

S405、获取与对话场景关联的参考对话内容。

其中，电子设备预存储或预配置有参考对话内容，参考对话内容包括多个对话内容，不同的对话场景关联有不同的参考对话内容，参考对话内容也可以是采用文本形式来表示。

例如：电子设备预存储或预配置对话场景和参考对话内容之间的对应关系为：对话场景1关联参考对话内容1，对话场景2关联有参考对话内容2，对话场景3关联有参考对话内容3。

S406、计算语音数据的对话内容和参考对话内容之间的相似度。

其中，语音数据的对话内容和参考对话内容采用文本形式来表示，参考对话内容包括多个对话内容，语音数据的对话内容与参考对话内容中的各个对话内容之间计算相似度。

在一种或多个实施例中，电子设备可以利用余弦相似度来计算语音数据的对话内容和参考对话内容之间的相似度。首先，电子设备对语音数据的对话内容进行分词，统计对话内容中各个关键词的出现次数；以及对参考对话内容进行分词，统计参考对话内容中各个关键词的出现次数。然后，将对话内容中各个关键词的出现次数和参考对话内容中各个关键词的出现次数基于余弦公式计算余弦值，余弦值越接近于1，表示语音数据的对话内容和参考对话内容越相似；余弦值越接近于0，表示语音数据的对话内容和参考对话内容越不相似。

在一个或多个实施例中，电子设备可以利用简单共有词的方法来评估语音数据的对话内容和参考对话内容之间的相似度值。电子设备统计语音数据的对话内容和参考对话内容之间一个或多个共有关键词(共有词)，然后确定一个或多个共有词的长度，将一个或多个共有次的长度除以较长的对话内容得到相似度。

例如：对话内容A和对话内容B之间共有次的长度为4，对话内容A和对话内容B中最大长度为6，则对话内容A和对话内容B之间的相似度为4/6＝0.667。

在一个或多个实施例中，电子设备基于编辑距离(edit distance)来确定语音数据的对话内容和参考对话内容之间的相似度。编辑距离表示两个字符串之间，由一个字符串转换为另一个字符串所需的最少编辑操作次数。此处的编辑操作包括替换一个字符、***一个字符和删除一个字符。编辑距离越小则两个字符串之间的相似度越大。

在一个或多个实施例中，电子设备可以基于汉明距离确定语音数据的对话内容和参考对话内容之间的相似度。电子设备基于哈希算法将语音数据的对话内容和参考对话内容转换为64位的二进制数，然后比较两个二进制数之间的汉明距离确定相似度。

S407、判断相似度是否大于预设阈值。

其中，电子设备预存储或预配置有预设阈值，预设阈值可以根据实际需求来定，本申请实施例不作限制，在电子设备判断语音数据的对话内容和参考对话内容之间的相似度小于或等于预设阈值时，则语音数据的对话内容和对话场景是不匹配的，执行S408；在电子设备判断语音数据的对话内容和参考对话内容之间的相似度大于预设阈值时，则语音数据的对话内容和对话场景是匹配的，执行S409。

S408、显示第一提示信息。

其中，第一提示信息用于表示用户在对话场景下输入的语音数据的对话内容和对话场景是不匹配的。进一步的，电子设备还可以显示对话场景关联的参考对话内容的关键词，这样用户根据参考对话内容的关键词的提示生成正确的对话内容。

S409、显示第二提示信息。

实施本申请的实施例，采集用户在预先设置的对话场景下输入的语音数据，解析语音数据的对话内容，通过对话内容和参考对话内容之间的相似度判断对话内容和对话场景是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样便于提示用户发出正确的对话内容，实现无人工监督的自主学习，提高学习效率。

参见图5，为本申请实施例提供的一种基于对话场景的语音数据处理方法的又一流程示意图，在本申请实施例的所述方法可以包括如下步骤：

S501、训练多个内容匹配度评估模型。

其中，电子设备预存储多个训练样本，不同的训练样本对应不同的对话场景，每个训练样本包括多个对话内容，对于每个训练样本而言，电子设备基于训练样本中的多个对话内容进行机器学习得到内容匹配度评估模型。每个对话场景对应一个内容匹配度评估模型。内容匹配度评估模型是一种机器学习模型，用于评估输入的对话内容是否与对话场景匹配。

例如：电子设备预先配置有3个训练样本：训练样本1、训练样本2和训练样本3。训练样本1对应对话场景1，训练样本1包括与对话场景1匹配的多个对话内容。训练样本2对应对话场景2，训练样本2包括与对话场景2匹配的多个对话内容。训练样本3对应对话场景3，训练样本3包括与对话场景3匹配的多个对话内容。

S502、响应于输入的对话场景选择指令设置对话场景。

其中，电子设备预存储或预配置有多个对话场景，对话场景选择指令用于在多个对话场景中选择一个对话场景。例如：对话场景包括购物场景、登机场景和动物园场景等。对话场景选择指令是基于用户的操作触发的，操作的类型包括但不限于：触控操作、鼠标操作、按键操作、声控操作和体感操作等。

S503、获取与对话场景关联的场景信息，以及显示场景信息。

其中，电子设备预存储或预配置有场景信息，场景信息可以是用于描述对话场景的图片、文字和视频中的一种或多种。不同的对话场景关联有不同的场景信息，电子设备可以将场景信息作为背景进行显示。

S504、采集用户在对话场景下输入的语音数据。

其中，电子设备预存储或预配置有对话场景的持续时间，持续时间可以用开始时刻和结束时刻来表示，电子设备使用音频采集装置在持续时间内采集用户在对话场景下输入的语音数据，音频采集装置将用户发出的语音转换为模拟形式的语音数据，然后将模拟形式的语音数据进行预处理得到数字形式的语音数据。音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。预处理过程包括滤波、放大、采集和格式转换等过程。

S505、解析语音数据的对话内容。

S506、获取与对话场景关联的内容匹配度评估模型。

其中，电子设备预存储或预配置有多个内容匹配度评估模型，电子设备基于S502选择的对话场景从多个内容匹配度评估模型中确定对应的内容匹配度评估模型。

S507、根据语音数据的对话内容生成特征向量。

其中，特征向量可以是文本向量，电子设备可以基于神经网络提取对话内容中的特征向量，例如：基于word2vector模型生成特征向量。

S508、基于内容匹配度评估模型对特征向量进行评估得到分值。

S509、判断分值是否大于预设分值。

其中，电子设备预存储或预配置有预设分值，预设分值可以根据实际需求来定，本申请实施例不作限制，在电子设备内容匹配度模型输入的分值小于或等于预设分值时，则语音数据的对话内容和对话场景是不匹配的，执行S510；在电子设备判断内容匹配度评估模型输入的分值大于预设阈值时，则语音数据的对话内容和对话场景是匹配的，执行S511。

S510、显示第一提示信息。

其中，第一提示信息用于表示用户在对话场景下输入的语音数据的对话内容和对话场景是不匹配的。进一步的，电子设备还可以显示S401中所述的对话场景关联的第二关键词集合，这样用户根据第二关键词集合的提示生成正确的对话内容。

S511、显示第二提示信息。

实施本申请的实施例，采集用户在预先设置的对话场景下输入的语音数据，解析语音数据的对话内容，通过内容匹配度模型判断对话内容和对话场景是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样便于提示用户发出正确的对话内容，实现无人工监督的自主学习，提高学习效率。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图6，其示出了本申请一个示例性实施例提供的基于对话场景的语音数据处理装置的结构示意图。以下简称装置6，装置6可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。装置6包括设置单元601、采集单元602和提示单元603。

设置单元601，用于设置对话场景。

采集单元602，用于采集用户在对话场景下输入的语音数据，以及解析所述语音数据的对话内容。

提示单元603，用于在所述对话内容和所述对话场景不匹配的情况下，显示提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述对话场景不匹配。

在一个或多个实施例中，装置6还包括：

匹配单元，用于提取所述语音数据的对话内容中的第一关键词集合；

获取所述对话场景关联第二关键词集合；

在所述第一关键词集合和所述第二关键词集合中共有关键词的数量大于预设数量时，确定所述语音数据的对话内容和所述对话场景是匹配的；或

在所述第一关键词集合和所述第二关键词集合中相同的关键词数量小于或等于预设数量时，确定所述语音数据和所述参考语音数据是不匹配的。

在一个或多个实施例中，所述第一提示信息还包括：所述第二关键词集合。

在一个或多个实施例中，装置6还包括：

匹配单元，用于获取与所述对话场景关联的参考对话内容；

计算所述语音数据的对话内容和所述参考对话内容之间的相似度；

若所述相似度大于预设阈值，确定所述语音数据和所述对话场景之间是匹配的；

若所述相似度小于或等于预设阈值，确定所述语音数据和所述对话场景之间是不匹配的。

在一个或多个实施例中，所述第一提示信息还包括：所述参考语音数据的对话内容。

在一个或多个实施例中，装置6还包括：

匹配单元，用于获取所述对话场景关联的内容匹配度评估模型；

根据所述语音数据的对话内容生成特征向量；

基于所述内容匹配度评估模型对所述特征向量进行评估得到分值；

在所述分值小于预设分值的情况下，确定所述语音数据的对话内容和所述对话场景是不匹配的。

在一个或多个实施例中，设置单元601具体用于：

响应于输入的对话场景选择指令设置对话场景；

获取与所述对话场景关联的场景信息，以及显示所述场景信息。

需要说明的是，上述实施例提供的装置6在执行基于对话场景的语音数据处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于对话场景的语音数据处理方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请的装置6采集用户在预先设置的对话场景下输入的语音数据，解析语音数据的对话内容，判断对话内容和对话场景是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样便于提示用户发出正确的对话内容，实现无人工监督的自主学习，提高学习效率。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2-图5所示实施例的方法步骤，具体执行过程可以参见图2-图5所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的基于对话场景的语音数据处理方法。

图7为本申请实施例提供的一种基于对话场景的语音数据处理装置结构示意图，以下简称装置7，装置7可以集成于前述服务器或终端设备中，如图7所示，该装置包括：存储器702、处理器701、输入装置703、输出装置704和通信接口。

存储器702可以是独立的物理单元，与处理器701、输入装置703和输出装置704可以通过总线连接。存储器702、处理器701、输入装置703和输出装置704也可以集成在一起，通过硬件实现等。

存储器702用于存储实现以上方法实施例，或者装置实施例各个模块的程序，处理器701调用该程序，执行以上方法实施例的操作。

输入装置702包括但不限于键盘、鼠标、触摸面板、摄像头和麦克风；输出装置包括但限于显示屏。

通信接口用于收发各种类型的消息，通信接口包括但不限于无线接口或有线接口。

可选地，当上述实施例的分布式任务调度方法中的部分或全部通过软件实现时，装置也可以只包括处理器。用于存储程序的存储器位于装置之外，处理器通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器可以是中央处理器(central processing unit，CPU)，网络处理器(networkprocessor，NP)或者CPU和NP的组合。

处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器可以包括易失性存储器(volatile memory)，例如存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flashmemory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

其中，处理器701调用存储器702中的程序代码用于执行以下步骤：

设置对话场景；

在所述对话内容和所述对话场景不匹配的情况下，在显示器上显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述对话场景不匹配。

在一个或多个实施例中，处理器701还用于：提取所述语音数据的对话内容中的第一关键词集合；

获取所述对话场景关联第二关键词集合；

在一个或多个实施例中，处理器701还用于：

获取与所述对话场景关联的参考对话内容；

在一个或多个实施例中，处理器701还用于：

获取所述对话场景关联的内容匹配度评估模型；

根据所述语音数据的对话内容生成特征向量；

在一个或多个实施例中，处理器701执行所述设置对话场景包括：

响应于输入的对话场景选择指令设置对话场景；

获取与所述对话场景关联的场景信息，以及在显示器上显示所述场景信息。

本申请实施例还提供了一种计算机存储介质，存储有计算机程序，该计算机程序用于执行上述实施例提供的基于对话场景的语音数据处理方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的基于对话场景的语音数据处理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于对话场景的语音数据处理方法，其特征在于，所述方法包括：

设置对话场景；

采集用户在所述对话场景下输入的语音数据，以及解析所述语音数据的对话内容；

2.根据权利要求1所述的方法，其特征在于，所述在所述对话内容和所述对话场景不匹配的情况下，显示第一提示信息之前，还包括：

提取所述语音数据的对话内容中的第一关键词集合；

获取所述对话场景关联第二关键词集合；

在所述第一关键词集合和所述第二关键词集合中共有关键词的数量小于或等于预设数量时，确定所述语音数据和所述参考语音数据是不匹配的。

3.根据权利要求2所述的方法，其特征在于，所述第一提示信息还包括：所述第二关键词集合。

4.根据权利要求1所述的方法，其特征在于，所述在所述对话内容和所述对话场景不匹配的情况下，显示第一提示信息之前，还包括：

获取与所述对话场景关联的参考对话内容；

5.根据权利要求3所述的方法，其特征在于，所述第一提示信息还包括：所述参考语音数据的对话内容。

6.根据权利要求1所述的方法，其特征在于，所述在所述对话内容和所述对话场景不匹配的情况下，显示第一提示信息之前，还包括：

获取所述对话场景关联的内容匹配度评估模型；

根据所述语音数据的对话内容生成特征向量；

7.根据权利要求1至4任意一项所述的方法，其特征在于，所述设置对话场景包括：

响应于输入的对话场景选择指令设置对话场景；

8.一种基于对话场景的语音数据处理装置，其特征在于，所述装置包括：

设置单元，用于设置对话场景；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。