CN111723606A

CN111723606A - 一种数据处理方法、装置和用于数据处理的装置

Info

Publication number: CN111723606A
Application number: CN201910209610.5A
Authority: CN
Inventors: 刘文文; 刘雁
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2020-09-29

Abstract

本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括：若确定接收到识别指令，则获取当前场景对应的场景图像；识别所述场景图像中的物体对象；输出所述物体对象对应于目标语言的语音。本发明实施例可以向用户实时提供当前场景中物体对象对应于目标语言的外语发音，以使用户可以实时获知当前场景中某个物体的外语发音，可以减少用户查阅词典的操作成本，以及提高用户学习外语的实时性。

Description

一种数据处理方法、装置和用于数据处理的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、装置和用于数据处理的装置。

背景技术

随着社会不断地国际化，外语的学习得到更多的重视，许多家长在孩子幼儿时期就开始培养孩子学习外语。例如，对于母语为中文的孩子而言，其对应的外语包括：英文、日文等。

目前，用户可以通过点读笔进行外文学习，具体地，通过在书本上加印二维码的技术，将声音文件植入书本中，利用点读笔通过笔头上装配的高速摄像头识别书本上的二维码进而读出对应内容的声音文件，以实现自行学习的目的。或者，用户还可以通过观看外文视频课程进行学习等。

然而，目前的外文学习方式都是根据固定的教材进行学习，对于年纪较小的用户，如儿童或者幼儿，这种学习方式不够灵活且较为枯燥，导致用户学习外语的兴趣较低，进而影响学习外语的效率。

发明内容

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置，可以提高用户学习外语的兴趣和学习效率。

为了解决上述问题，本发明实施例公开了一种数据处理方法，包括：

若确定接收到识别指令，则获取当前场景对应的场景图像；

识别所述场景图像中的物体对象；

输出所述物体对象对应于目标语言的语音。

另一方面，本发明实施例公开了一种数据处理装置，包括：

图像获取模块，用于若确定接收到识别指令，则获取当前场景对应的场景图像；

物体识别模块，用于识别所述场景图像中的物体对象；

语音输出模块，用于输出所述物体对象对应于目标语言的语音。

再一方面，本发明实施例公开了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

若确定接收到识别指令，则获取当前场景对应的场景图像；

识别所述场景图像中的物体对象；

输出所述物体对象对应于目标语言的语音。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的数据处理方法。

本发明实施例包括以下优点：

本发明实施例在接收到用户触发的识别指令的情况下，可以获取当前场景对应的场景图像，并且识别所述场景图像中的物体对象，以及输出所述物体对象对应于目标语言的语音。通过本发明实施例，可以向用户实时提供当前场景中物体对象对应于目标语言的外语发音，以使用户可以实时获知当前场景中某个物体的外语发音，可以减少用户查阅词典的操作成本，以及提高用户学习外语的实时性。此外，通过本发明实施例，使得用户可以在任意场合下进行外语学习，相对于传统的固定教材学习方式，可以提高用户学习外语的兴趣，进而可以提高用户学习外语的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明的一种数据处理装置实施例的结构框图；

图3是本发明的一种用于数据处理的装置800的框图；及

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，所述方法具体可以包括如下步骤：

步骤101、若确定接收到识别指令，则获取当前场景对应的场景图像；

步骤102、识别所述场景图像中的物体对象；

步骤103、输出所述物体对象对应于目标语言的语音。

本发明实施例的数据处理方法可应用于移动终端，所述移动终端可以包括内置的摄像头，或者所述移动终端可以和外置的摄像头通过有线或无线的方式连接。所述移动终端包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、可穿戴设备等等。

本发明实施例中，所述当前场景可以包括：页面、应用或者指令等任意场景。相应地，所述场景图像可以包括：依据用户的拍摄指令、通过摄像头实时获取的图像，也可以是依据用户的加载指令、从移动终端的相册中加载的图像，或者还可以是移动终端的页面中正在展示的图片；例如，所述展示的图片可以为所述移动终端从通信对端接收到的图片等。可以理解，本发明实施例对所述当前场景对应的场景图像的获取方式不加以限制。

例如，用户在学习外语的过程中，或者在日常生活中、工作中等任意场合，如果想要获知当前场景中某个物体的外语发音，则可以通过移动终端触发识别指令，移动终端在接收到所述识别指令的情况下，可以实时获取摄像头中的当前场景图像，并且识别所述场景图像中的物体对象，以及根据用户预先设置的目标语言，输出所述物体对象对应于目标语言的语音。

用户可以预先设置目标语言，例如，对于母语为中文、想要学习英文的用户，可以设置目标语言为英文。可以理解，本发明实施例对所述目标语言不加以限制，所述目标语言可以为英文、中文、日文、法文等任意语言类型。

在本发明的一种可选实施例中，所述确定接收到识别指令，具体可以包括：若检测到当前场景在所述摄像头中保持的时间超过预设时间长度，则确定接收到识别指令。

本发明实施例可以通过所述移动终端的摄像头对用户的周边场景进行实时取景，若检测到当前场景在所述摄像头中保持的时间超过预设时间长度，也即，用户手持移动终端将摄像头对准某个物体的时间超过预设时间长度，说明用户具有获取该物体的外语发音的意图，此时，可以确定接收到识别指令。

例如，妈妈带孩子在公园游览的过程中，看到滑梯的时候，想要教孩子“滑梯”的英文发音，则可以开启手机的摄像头，并且将摄像头对准滑梯，使得滑梯对应的场景图像在摄像头中保持的时间超过预设时间长度(如5秒)，即可触发识别指令，移动终端响应于该识别指令，通过摄像头获取包含滑梯的当前场景图像，并且识别该当前场景图像中的物体对象(滑梯)，以及根据用户设置的目标语言(如英文)，确定所述物体对象对应于目标语言的语音，如“slide”，并且输出该语音。

可以理解，本发明实施例对所述目标语言的数目不加以限制，用户可以设置一个或多个目标语言，例如，用户设置的目标语言可以包括：英语和日语，则在上述示例中，在移动终端识别当前场景图像中的物体对象为滑梯的情况下，可以分别输出滑梯对应的英文发音和日文发音。

可选地，本发明实施例在输出所述物体对象对应于目标语言的语音的基础上，还可以输出所述物体对象对应于源语言的语音，所述源语言可以为用户使用的母语语言、或者用户设置的区别于目标语言的其它语言类型。例如，用户可以设置源语言类型为中文，目标语言为英文，则在上述示例中，在移动终端识别当前场景图像中的物体对象为滑梯的情况下，可以分别输出滑梯对应目标语言(英文)的语音(slide)、以及滑梯对应源语言(中文)的语音(滑梯)，以供用户进行对比学习。

可以看出，本发明实施例可以实时获取当前场景中物体对象对应于目标语言的语音，以使用户可以实时获知当前场景中某个物体的外语发音，可以减少用户查阅词典的操作成本，进而可以提高用户学习外语的实时性。此外，对于年纪较小的用户，通过本发明实施例，可以在任意场合下进行外语学习，相对于传统的固定教材学习方式，可以提高用户的学习兴趣，进而可以提高学习效率。

可以理解，上述触发识别指令的方式仅作为本发明的一种应用示例，本发明实施例对触发识别指令的具体方式不加以限制，例如，还可以在摄像头实时取景的预览界面中设置用于触发识别指令的按键，当用户触发该按键时即可触发识别指令。

在本发明的一种可选实施例中，所述识别所述场景图像中的物体对象，具体可以包括：根据物体识别模型，识别所述场景图像中的物体对象；其中，所述物体识别模型可以为根据样本图像、以及所述样本图像对应的实物标注结果训练得到的深度神经网络模型。

其中，所述物体识别模型可以为根据大量的样本图像和机器学习方法，对现有的神经网络进行有监督或者无监督训练而得到的，所述样本图像中可以包括日常生活中常见的物体对象，如桌子、椅子、墙、狗、书等。所述物体识别模型可以是融合了多种神经网络的分类模型。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短时记忆)网络、RNN(Simple Recurrent Neural Network，循环神经网络)、注意力神经网络等。

在本发明的一种可选实施例中，可以通过如下步骤训练所述物体识别模型：

步骤S11、初始化物体识别模型的模型参数；

可选地，以所述物体识别模型为深度卷积神经网络模型为例，初始化物体识别模型的模型参数具体可以包括：确定输入样本图像的尺寸、网络的层数、卷积核的尺寸及数量、池化层的尺寸、输出特征的维度等参数信息。

步骤S12、获取训练样本集；

具体地，所述训练样本集可以包括：样本图像以及每一个样本图像对应的实物标注结果。例如，对于包含物体对象为桌子的样本图像，其对应的实物标注结果可以为文本标注信息“桌子”。

步骤S13、对于训练样本集中的每一个样本图像，执行以下操作：

步骤S131、将所述样本图像输入初始化的物体识别模型，以得到所述样本图像对应的实物识别结果；

步骤S132、根据损失函数，确定所述实物识别结果与所述样本图像对应的实物标注结果之间的差异；

可以理解，本发明实施例可以采用已有的任意损失函数来确定实物识别结果与实物标注结果之间的差异，本发明实施例对所述损失函数的具体类型不加以限制。

步骤S133、基于所述差异，调整物体识别模型的模型参数，直至损失函数收敛，以得到训练后的物体识别模型。

具体地，可以采用BP(Back Propagation，反向传播)、或者SGD(StochasticGradient Descent，随机梯度下降)等算法，不断调整、优化物体识别模型的模型参数，直至损失函数收敛，即可得到训练后的物体识别模型。

在本发明的一种可选实施例中，所述场景图像具体可以包括：所述摄像头对当前场景拍摄的照片，或者，所述摄像头对当前场景拍摄的视频中的图像帧。

在本发明实施例中，移动终端可以通过摄像头对当前场景拍摄照片或者视频的方式，获取当前场景对应的场景图像。

例如，在开启摄像头的情况下，移动终端可以通过摄像头对当前场景进行实时取景，如果检测到当前场景在摄像头中保持的时间超过预设时间长度，则可以确定接收到识别指令，移动终端可以对当前场景拍摄照片，并且将实时拍摄的照片作为待识别的场景图像。或者，在开启摄像头的情况下，移动终端可以通过摄像头对当前场景录制视频，如果当前场景在视频画面中保持的时间超过预设时间长度，也即在预设时间长度内视频中的连续多帧图像具有相同或者相似的图像特征，则可以确定接收到识别指令，移动终端可以从所述连续多帧图像中截取某一帧图像作为待识别的场景图像。本发明实施例通过实时取景、以及实时识别，可以进一步提高用户学习外语的实时性。

在本发明的一种可选实施例中，在所述输出所述物体对象对应于目标语言的语音之后，所述方法还可以包括：

步骤S21、接收所述语音对应的跟读语音；

步骤S22、确定所述跟读语音与所述语音之间的相似度；

步骤S23、根据所述相似度，确定所述跟读语音对应的评价信息；

步骤S24、输出所述跟读语音对应的评价信息。

本发明实施例在输出所述物体对象对应目标语言的语音之后，还可以接收用户针对所述语音的跟读语音，并且判断所述跟读语音的发音是否准确，以及输出所述跟读语音的评价信息，例如，如果接收到的跟读语音发音准确，则可以输出鼓励性的评价信息，以提高用户的学习动力；如果接收到的跟读语音发音不准确，则可以输出纠正用户发音的评价信息，以提高用户发音的准确性。

在本发明的一种应用示例中，假设用户设置源语言类型为中文，目标语言为英文，且用户通过移动终端触发识别当前场景中的物体对象(如苹果)的识别指令，则移动终端可以输出如下语音：“apple”，假设移动终端接收到用户的如下跟读语音：“apple”，则可以对用户的跟读语音、以及所述语音进行匹配，以得到所述跟读语音与所述语音的相似度，并且根据所述相似度，确定所述跟读语音对应的评价信息。

例如，如果相似度超过预设相似度，说明用户的跟读语音发音较为准确，则可以输出如下鼓励性的评价信息：“Wow congratulations you got it！”(你读对了)，如果相似度小于预设相似度，说明用户的跟读语音发音不够准确，则可以再次输出所述物体对象对应目标语言的语音，并且输出如下评价信息：“很棒，请再读一遍。”，引导用户再次跟读，以纠正用户的发音。

在本发明的一种可选实施例中，在所述根据所述相似度，确定所述跟读语音对应的评价信息之后，所述方法还可以包括：

步骤S31、若所述跟读语音与所述语音的相似度小于预设相似度，则输出重新跟读的提示信息；

步骤S32、接收重新跟读的跟读语音；

步骤S33、若重新跟读的次数达到预设次数，则停止输出重新跟读的提示信息，以及记录所述场景图像和所述语音。

在本发明实施例中，如果移动终端检测到用户的跟读语音与语音的相似度小于预设相似度，可以再次输出所述物体对象对应于目标语言的语音，并且输出重新跟读的提示信息，以引导用户再次跟读语音，纠正用户的发音。

如果用户重新跟读的次数达到预设次数，说明该语音对用户来说难度较高，则可以停止输出重新跟读的提示信息，并且询问用户是否需要保存所述场景图像以及所述场景图像对应的语音，若接收到用户的保存指令，则可以记录所述场景图像和该场景图像对应的语音，以供用户以后可以对记录的语音进行有针对性的学习。

在具体应用中，用户可以根据实际需要设置所述预设次数，对于年纪较小的用户，如幼儿，如果重新跟读的次数过多，可能造成幼儿的厌学情绪，因此，可以设置重新跟读的次数达到3次时，如果幼儿的跟读语音仍然不够准确，则可以停止输出重新跟读的提示信息，并且记录当前场景图像和该场景图像对应的语音，以使家长可以根据记录有针对性地帮助幼儿纠正发音。

在本发明的一种可选实施例中，在所述输出所述物体对象对应于目标语言的语音之前，所述方法还可以包括：

确定当前用户的相关信息，其中，所述相关信息至少包括如下信息中的任意一项：用户的年龄、偏好、历史跟读记录；

所述输出所述物体对象对应于目标语言的语音，具体可以包括：

步骤S41、根据所述相关信息，确定语音的类型；其中，所述语音的类型包括：词语、句子、对话、段落对应的音频或视频；

步骤S42、根据所述语音的类型，输出所述物体对象对应于目标语言的语音。

在具体应用中，由于用户具有不同的年龄、个人喜好、外语水平等个性化特征，因此输出的语音可能并不适合所有的用户，进而可能影响用户的外语学习效果。为了使得输出的语音可以符合不同用户的个性化特征，提高用户的外语学习效果，本发明实施例还可以在输出语音之前，可以获取当前用户的相关信息，以根据当前用户的相关信息，确定语音的类型，根据所述语音的类型，输出所述物体对象对应目标语言的语音，使得针对不同用户可以输出不同的、适合用户个性化特征的语音。

其中，所述相关信息至少可以包括如下信息中的任意一项：用户的年龄、偏好、历史跟读记录。本发明实施例可以根据用户相关信息中的一项或者多项，为当前用户确定语音的类型。

例如，如果确定当前用户的年龄小于5岁，则可以确定语音的类型仅包括词语，如果确定当前用户的年龄在5岁和7岁之间，则可以确定语音的类型可以包括词语、句子，如果确定当前用户的年龄大于7岁，则可以确定语音的类型可以包括词语、句子、对话、段落等。

又如，本发明实施例还可以根据当前用户偏好的动漫角色，选取该动漫角色的对话作为语音，且选取的动漫角色对话与所述物体对象对应目标语言的语音相关，这样，输出的语音符合当前用户的偏好，可以进一步提高用户学习外语的兴趣，进而提高用户学习外语的效率。

再如，本发明实施例还可以根据当前用户的历史跟读记录，对当前用户的外语水平进行评估，进而可以确定适合当前用户外语水平的语音类型，以控制用户学习外语的难度，为用户提供更适合的语音。

可选地，所述当前用户可以为登录用户，为了向用户提供更为***的外语学习方案，本发明实施例可以向用户提供注册服务，并记录用户的注册信息，包括用户账户、用户密码、用户的姓名、年龄、偏好等。

对于登录用户，移动终端可以根据该用户的注册信息获取该用户的年龄、偏好等相关信息，进而可以根据其相关信息，确定适合的语音。所述语音中可以包含用户的相关信息，如用户的姓名等，并且所述语音可以采用自然语言的形式，以提高用户与移动终端之间交互的真实性和自然性。

在本发明的一种应用示例中，假设当前用户为登录用户，且当前用户设置源语言为中文，目标语言为英文，在移动终端接收到当前用户触发识别当前场景中的物体对象(如苹果)的识别指令的情况下，移动终端可以根据该当前用户登录的用户账户，获取该用户账户对应的相关信息，如用户的姓名、年龄等，假设获取该用户的姓名为Cathy，则移动终端可以输出如下语音：“Hi Cathy，this is an apple.(Cathy，这是一个苹果。)apple、apple，请跟着我读”。

通过本发明实施例，用户在学习外语的过程中，可以和移动终端进行互动，可以提高用户学习外语的兴趣和动力，对于年纪较小的幼儿，可以提高其学习过程中的专注力，进而可以提高用户学习外语的效率。

此外，移动终端还可以记录登录用户的跟读信息，以便用户日后可以查看自己的历史跟读记录，进而可以针对容易读错的发音进行重点学习。可选地，本发明实施例还可以根据用户的年龄、偏好、历史跟读记录等相关信息，向用户推荐其感兴趣的外语学习资料，以进一步提高用户学习外语的效果。

综上，本发明实施例在接收到用户触发的识别指令的情况下，可以获取当前场景对应的场景图像，并且识别所述场景图像中的物体对象，以及输出所述物体对象对应于目标语言的语音。可以看出，通过本发明实施例，可以向用户实时提供当前场景中物体对象对应于目标语言的外语发音，以使用户可以实时获知当前场景中某个物体的外语发音，可以减少用户查阅词典的操作成本，以及提高用户学习外语的实时性。此外，通过本发明实施例，使得用户可以在任意场合下进行外语学习，相对于传统的固定教材学习方式，可以提高用户学习外语的兴趣，进而可以提高用户学习外语的效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括：

图像获取模块201，用于若确定接收到识别指令，则获取当前场景对应的场景图像；

物体识别模块202，用于识别所述场景图像中的物体对象；

语音输出模块203，用于输出所述物体对象对应于目标语言的语音。

可选地，所述装置还可以包括：

语音接收模块，用于接收所述语音对应的跟读语音；

第一确定模块，用于确定所述跟读语音与所述语音之间的相似度；

第二确定模块，用于根据所述相似度，确定所述跟读语音对应的评价信息；

评价输出模块，用于输出所述跟读语音对应的评价信息。

可选地，所述装置还可以包括：

重读提示模块，用于若所述跟读语音与所述语音的相似度小于预设相似度，则输出重新跟读的提示信息；

所述语音接收模块，用于接收重新跟读的跟读语音；

信息记录模块，用于若重新跟读的次数达到预设次数，则停止输出重新跟读的提示信息，以及记录所述场景图像和所述语音。

可选地，所述装置还可以包括：

信息确定模块，用于确定当前用户的相关信息，其中，所述相关信息至少包括如下信息中的任意一项：用户的年龄、偏好、历史跟读记录；

所述语音输出模块，具体可以包括：

类型确定子模块，用于根据所述相关信息，确定语音的类型；其中，所述语音的类型包括：词语、句子、对话、段落对应的音频或视频；

语音输出子模块，用于根据所述语音的类型，输出所述物体对象对应于目标语言的语音。

可选地，所述图像获取模块，具体可以包括：

指令确定子模块，用于若检测到当前场景在所述摄像头中保持的时间超过预设时间长度，则确定接收到识别指令。

可选地，所述物体识别模块，具体可以包括：

物体识别模型，用于识别所述场景图像中的物体对象；其中，所述物体识别模型为根据样本图像、以及所述样本图像对应的标注结果训练得到的深度神经网络模型。

可选地，所述场景图像具体可以包括：所述摄像头对当前场景拍摄的照片，或者，所述摄像头对当前场景拍摄的视频中的图像帧。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：若确定接收到识别指令，则获取当前场景对应的场景图像；识别所述场景图像中的物体对象；输出所述物体对象对应于目标语言的语音。

图3是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频数据处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图2或图3所示的数据处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：若确定接收到识别指令，则获取当前场景对应的场景图像；识别所述场景图像中的物体对象；输出所述物体对象对应于目标语言的语音。

本发明实施例公开了A1、一种数据处理方法，所述方法包括：

若确定接收到识别指令，则获取当前场景对应的场景图像；

识别所述场景图像中的物体对象；

输出所述物体对象对应于目标语言的语音。

A2、根据A1所述的方法，在所述输出所述物体对象对应于目标语言的语音之后，所述方法还包括：

接收所述语音对应的跟读语音；

确定所述跟读语音与所述语音之间的相似度；

根据所述相似度，确定所述跟读语音对应的评价信息；

输出所述跟读语音对应的评价信息。

A3、根据A2所述的方法，在所述根据所述相似度，确定所述跟读语音对应的评价信息之后，所述方法还包括：

若所述跟读语音与所述语音的相似度小于预设相似度，则输出重新跟读的提示信息；

接收重新跟读的跟读语音；

若重新跟读的次数达到预设次数，则停止输出重新跟读的提示信息，以及记录所述场景图像和所述语音。

A4、根据A1所述的方法，在所述输出所述物体对象对应的语音之前，所述方法还包括：

所述输出所述物体对象对应于目标语言的语音，包括：

根据所述相关信息，确定语音的类型；其中，所述语音的类型包括：词语、句子、对话、段落对应的音频或视频；

根据所述语音的类型，输出所述物体对象对应于目标语言的语音。

A5、根据A1所述的方法，所述确定接收到识别指令，包括：

若检测到当前场景在所述摄像头中保持的时间超过预设时间长度，则确定接收到识别指令。

A6、根据A1所述的方法，所述识别所述场景图像中的物体对象，包括：

根据物体识别模型，识别所述场景图像中的物体对象；其中，所述物体识别模型为根据样本图像、以及所述样本图像对应的标注结果训练得到的深度神经网络模型。

A7、根据A1至A6中任一所述的方法，所述场景图像包括：所述摄像头对当前场景拍摄的照片，或者，所述摄像头对当前场景拍摄的视频中的图像帧。

本发明实施例公开了B8、一种数据处理装置，包括：

物体识别模块，用于识别所述场景图像中的物体对象；

B9、根据B8所述的装置，所述装置还包括：

语音接收模块，用于接收所述语音对应的跟读语音；

评价输出模块，用于输出所述跟读语音对应的评价信息。

B10、根据B9所述的装置，所述装置还包括：

所述语音接收模块，用于接收重新跟读的跟读语音；

B11、根据B8所述的装置，所述装置还包括：

所述语音输出模块，包括：

B12、根据B8所述的装置，所述图像获取模块，包括：

B13、根据B8所述的装置，所述物体识别模块，包括：

B14、根据B8至B13中任一所述的装置，所述场景图像包括：所述摄像头对当前场景拍摄的照片，或者，所述摄像头对当前场景拍摄的视频中的图像帧。

本发明实施例公开了C15、一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

若确定接收到识别指令，则获取当前场景对应的场景图像；

识别所述场景图像中的物体对象；

输出所述物体对象对应于目标语言的语音。

C16、根据C15所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收所述语音对应的跟读语音；

确定所述跟读语音与所述语音之间的相似度；

根据所述相似度，确定所述跟读语音对应的评价信息；

输出所述跟读语音对应的评价信息。

C17、根据C16所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收重新跟读的跟读语音；

C18、根据C15所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

所述输出所述物体对象对应于目标语言的语音，包括：

C19、根据C15所述的装置，所述确定接收到识别指令，包括：

C20、根据C15所述的装置，所述识别所述场景图像中的物体对象，包括：

C21、根据C15至C20中任一所述的装置，所述场景图像包括：所述摄像头对当前场景拍摄的照片，或者，所述摄像头对当前场景拍摄的视频中的图像帧。

本发明实施例公开了D22、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

若确定接收到识别指令，则获取当前场景对应的场景图像；

识别所述场景图像中的物体对象；

输出所述物体对象对应于目标语言的语音。

2.根据权利要求1所述的方法，其特征在于，在所述输出所述物体对象对应于目标语言的语音之后，所述方法还包括：

接收所述语音对应的跟读语音；

确定所述跟读语音与所述语音之间的相似度；

根据所述相似度，确定所述跟读语音对应的评价信息；

输出所述跟读语音对应的评价信息。

3.根据权利要求2所述的方法，其特征在于，在所述根据所述相似度，确定所述跟读语音对应的评价信息之后，所述方法还包括：

接收重新跟读的跟读语音；

4.根据权利要求1所述的方法，其特征在于，在所述输出所述物体对象对应的语音之前，所述方法还包括：

所述输出所述物体对象对应于目标语言的语音，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定接收到识别指令，包括：

6.根据权利要求1所述的方法，其特征在于，所述识别所述场景图像中的物体对象，包括：

7.根据权利要求1至6中任一所述的方法，其特征在于，所述场景图像包括：所述摄像头对当前场景拍摄的照片，或者，所述摄像头对当前场景拍摄的视频中的图像帧。

8.一种数据处理装置，其特征在于，包括：

物体识别模块，用于识别所述场景图像中的物体对象；

9.一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

若确定接收到识别指令，则获取当前场景对应的场景图像；

识别所述场景图像中的物体对象；

输出所述物体对象对应于目标语言的语音。

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的数据处理方法。