CN106777204B

CN106777204B - 图片数据的处理方法、装置及移动终端

Info

Publication number: CN106777204B
Application number: CN201611209247.XA
Authority: CN
Inventors: 车继红
Original assignee: Beijing Anyun Century Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2020-08-07
Anticipated expiration: 2036-12-23
Also published as: CN106777204A

Abstract

本发明提供了一种图片数据的处理方法、装置及移动终端。所述方法包括：获取待处理的第一图片数据，识别出第一图片数据中的人物脸部特征数据；获取与所述人物脸部特征数据相应的音频文件，所述音频文件为所述人物脸部特征数据对应人物的语音数据；依据所述第一图片数据和所述音频文件合成第二图片数据，所述第二图片数据携带有所述音频文件的音频标识信息。该技术方案使得音频文件能够被合成到图片数据中，从而实现了有声图片在移动终端中的应用，相较于视频而言，这种在图片数据中合成音频文件的方式更为简便，且占用的存储空间很小。

Description

图片数据的处理方法、装置及移动终端

技术领域

本发明涉及通信技术领域，特别是涉及一种图片数据的处理方法、装置及移动终端。

背景技术

目前，用照片或者视频的方式记录生活片段是人们使用较为频繁的一种方式。手机照相作为手机的一个附加功能，其由于手机具有体积小、厚度薄、携带和操作方便等特点，因此更加受到人们的青睐。

照片产生的主要目的就是为了记忆存储，但是随着时间的久远，这种照片的记忆会因为没有环境记忆而淡去，而视频的录制、存储、浏览或者分享并不能达到人们需要的简单方便的要求。人们一方面对于手机摄影功能和照片多样性艺术表现的要求不断提高，另一方面又要求录制、存储、浏览、分享等操作简单方便，可见，普通的拍照及摄像功能已无法满足用户多样化的需求。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的图片数据的处理方法、装置及移动终端。

依据本发明的一个方面，提供了一种图片数据的处理方法，应用于移动终端，所述方法包括：

获取待处理的第一图片数据，识别出第一图片数据中的人物脸部特征数据；

获取与所述人物脸部特征数据相应的音频文件，所述音频文件为所述人物脸部特征数据对应人物的语音数据；

依据所述第一图片数据和所述音频文件合成第二图片数据，所述第二图片数据携带有所述音频文件的音频标识信息。

可选地，所述获取待处理的第一图片数据，包括以下至少一项：

从所述移动终端的***图库中获取所述待处理的第一图片数据；

利用所述移动终端的拍摄功能拍摄所述待处理的第一图片数据；

调起所述移动终端上安装的相机客户端，并利用所述相机客户端的拍摄功能拍摄所述待处理的第一图片数据。

可选地，获取与所述人物脸部特征数据相应的音频文件，包括以下至少一项：

从本地选择与所述人物脸部特征数据相应的音频文件；

从网络侧下载与所述人物脸部特征数据相应的音频文件；

调起所述移动终端上安装的具有录音功能的相机客户端，并利用所述相机客户端的录音功能执行录音操作，获得与所述人物脸部特征数据相应的音频文件。

可选地，依据所述第一图片数据和所述音频文件合成第二图片数据，包括：

调起所述移动终端上安装的具有有声图片合成功能的相机客户端；

将所述第一图片数据及所述音频文件传输至所述相机客户端；

触发所述相机客户端启动所述有声图片合成功能，并利用所述相机客户端的有声图片合成功能对所述第一图片数据及所述音频文件进行合成，获得所述第二图片数据。

为所述音频文件生成唯一的音频标识信息；或者，将所述音频文件发送至服务器，由所述服务器为所述音频文件生成唯一的音频标识信息，并将所述生成的音频标识信息发送至所述移动终端；

将所述音频标识信息写入所述第一图片数据的指定数据中，得到所述第二图片数据。

可选地，当所述第一图片数据包括多张时，将所述音频标识信息写入所述第一图片数据的指定数据中，包括：

按照指定规则合成所述多张第一图片数据，获得符合图像互换格式GIF的动态图片数据；

将所述音频标识信息写入所述动态图片数据的指定数据中。

可选地，所述音频标识信息包括所述音频文件的统一资源定位符URL。

可选地，所述指定数据包括所述第一图片数据或所述动态图片数据的格式数据。

可选地，所述方法还包括：

建立所述音频文件与所述音频标识信息之间的映射关系；

将所述音频文件和/或所述映射关系发送至所述服务器进行存储，以使所述移动终端接收到所述第二图片数据之后解析获取到所述音频标识信息，并根据所述音频标识信息从所述服务器获取所述音频文件进行播放。

可选地，当识别出多个所述人物脸部特征数据时，依据所述第一图片数据和所述音频文件合成第二图片数据，包括：

从所述音频文件中提取与各人物脸部特征数据分别相应的子音频文件；

将所述各人物脸部特征数据分别相应的子音频文件和所述第一图片数据进行合成，得到多个子图片数据；

组合所述多个子图片数据，得到所述第二图片数据。

可选地，从所述音频文件中提取与各人物脸部特征数据分别相应的子音频文件，包括：

确定所述各人物脸部特征数据分别对应人物的人物信息，所述人物信息包括各对应人物的头像、通讯号码、姓名、昵称中的至少一项；

获取预设的人物信息和音频数据之间的对应关系，并根据该对应关系确定各人物信息分别对应的音频数据；

根据所述各人物信息分别对应的音频数据，从所述音频文件中提取与各音频数据相匹配的子音频文件，作为与所述各人物脸部特征数据分别相应的子音频文件。

可选地，所述方法还包括：

确定所述人物脸部特征数据对应人物的通讯信息，所述通讯信息包括所述通讯号码、与所述通讯号码绑定的即时通讯账号中的至少一项；

根据所述通讯信息，将所述第二图片数据发送至所述对应人物。

可选地，所述方法还包括：

输出用于提示用户待发送的所述第二图片数据为有声图片的提示信息。

可选地，所述输出用于提示用户待发送的第二图片数据为有声图片的提示信息，包括：

在所述第二图片数据上添加用于标识所述第二图片数据携带有音频文件的标识符；

或者，

语音输出所述提示信息。

依据本发明的另一个方面，提供了一种图片数据的处理装置，设置于移动终端，所述装置包括：

第一获取模块，适于获取待处理的第一图片数据，识别出第一图片数据中的人物脸部特征数据；

第二获取模块，适于获取与所述人物脸部特征数据相应的音频文件，所述音频文件为所述人物脸部特征数据对应人物的语音数据；

合成模块，适于依据所述第一图片数据和所述音频文件合成第二图片数据，所述第二图片数据携带有所述音频文件的音频标识信息。

可选地，所述第一获取模块还适于以下至少一项：

可选地，所述第二获取模块还适于以下至少一项：

从本地选择与所述人物脸部特征数据相应的音频文件；

从网络侧下载与所述人物脸部特征数据相应的音频文件；

可选地，所述合成模块还适于：

当所述第一图片数据包括多张时，按照指定规则合成所述多张第一图片数据，获得符合图像互换格式GIF的动态图片数据；

将所述音频标识信息写入所述动态图片数据的指定数据中。

可选地，所述装置还包括：

建立模块，适于建立所述音频文件与所述音频标识信息之间的映射关系；

第一发送模块，适于将所述音频文件和/或所述映射关系发送至所述服务器进行存储，以使所述移动终端接收到所述第二图片数据之后解析获取到所述音频标识信息，并根据所述音频标识信息从所述服务器获取所述音频文件进行播放。

可选地，所述合成模块还适于：

当识别出多个所述人物脸部特征数据时，从所述音频文件中提取与各人物脸部特征数据分别相应的子音频文件；

组合所述多个子图片数据，得到所述第二图片数据。

可选地，所述合成模块还适于：

可选地，所述装置还包括：

确定模块，适于确定所述人物脸部特征数据对应人物的通讯信息，所述通讯信息包括所述通讯号码、与所述通讯号码绑定的即时通讯账号中的至少一项；

第二发送模块，适于根据所述通讯信息，将所述第二图片数据发送至所述对应人物。

可选地，所述装置还包括：

输出模块，适于输出用于提示用户待发送的所述第二图片数据为有声图片的提示信息。

可选地，所述输出模块还适于：

或者，

语音输出所述提示信息。

依据本发明的另一个方面，提供了一种移动终端，包括处理器和存储器，所述存储器用于存储执行上述的图片数据的处理方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

采用本发明实施例提供的技术方案，能够识别出待处理的第一图片数据中的人物脸部特征数据，并获取与人物脸部特征数据相应的音频文件(即人物脸部特征数据对应人物的语音数据)，并依据第一图片数据和音频文件合成第二图片数据，使得音频文件能够被合成到图片数据中，从而实现了有声图片在移动终端中的应用，尤其是在图片数据为照片时，该技术方案使得用户能够将音频文件合成在照片中，进而使用户在存储照片的同时能够通过合成在照片中的音频文件来记录一些照片中无法记录的信息，增加用户对拍照的乐趣。此外，这种在图片数据中合成音频文件的方式相较于视频而言更为简便，且占用的存储空间很小。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是根据本发明一个实施例的一种图片数据的处理方法的示意性流程图；

图2是本发明具体实施例一的一种图片数据的处理方法的示意性流程图；

图3是根据本发明一个实施例的一种图片数据的处理装置的示意性框图；

图4是根据本发明另一个实施例的一种图片数据的处理装置的示意性框图；

图5示出的是与本发明实施例提供的移动终端相关的手机的部分结构的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的一种图片数据的处理方法的示意性流程图。如图1所示，该方法应用于移动终端，其一般性地可包括以下步骤S101-S103：

步骤S101，获取待处理的第一图片数据，识别出第一图片数据中的人物脸部特征数据。

步骤S102，获取与人物脸部特征数据相应的音频文件，音频文件为人物脸部特征数据对应人物的语音数据。

步骤S103，依据第一图片数据和音频文件合成第二图片数据，第二图片数据携带有音频文件的音频标识信息。

该实施例中，第一图片数据可以是照片。

以下针对上述步骤S101-S103进行详细说明。

首先执行步骤S101，即获取待处理的第一图片数据，识别出第一图片数据中的人物脸部特征数据。其中，待处理的第一图片数据可通过如下任一种方式获取：

方式一、从移动终端的***图库中获取待处理的第一图片数据；当***图库包括***相册时，可从移动终端的***相册中获取任一张或多张照片作为待处理的第一图片数据。

方式二、利用移动终端的拍摄功能拍摄待处理的第一图片数据；移动终端的拍摄功能可以是移动终端***自带的相机的拍摄功能，也可以是移动终端上安装的第三方应用所具有的拍摄功能，例如，第三方应用为美图秀秀、随手拍等具有拍摄功能的应用。

方式三、调起移动终端上安装的相机客户端，并利用相机客户端的拍摄功能拍摄待处理的第一图片数据。

此外，该步骤中，可利用图片识别技术从第一图片数据中识别出人物脸部特征数据，因图片识别技术为现有技术，因此不再赘述。第一图片数据中可包括一个或多个人物脸部特征数据。

在识别出第一图片数据中的人物脸部特征数据之后，继续执行步骤S102，即获取与人物脸部特征数据相应的音频文件，其中，音频文件为人物脸部特征数据对应人物的语音数据。其中，与人物脸部特征数据相应的音频文件可通过以下任一种方式获取：

方式一、从本地选择与人物脸部特征数据相应的音频文件。例如，从本地选择一首歌、一段插曲或预先录制好的音频文件作为与人物脸部特征数据相应的音频文件。

方式二、从网络侧下载与人物脸部特征数据相应的音频文件。例如，从网络侧下载一首歌、一段插曲等作为与人物脸部特征数据相应的音频文件。

方式三、调起移动终端上安装的具有录音功能的相机客户端，并利用相机客户端的录音功能执行录音操作，获得与人物脸部特征数据相应的音频文件。

方式四、开启移动终端自身的录音功能，并利用移动终端自身的录音功能执行录音操作，获得与人物脸部特征数据相应的音频文件。

在一个实施例中，当识别出多个人物脸部特征数据时，还可分别获取各人物脸部特征数据相应的音频文件，具体可实施为以下任一种方式：

方式一、从本地选择与各人物脸部特征数据分别相应的音频文件。例如，从本地选择一个音频文件作为与第一人物脸部特征数据相应的音频文件，同时从本地选择另一个音频文件作为与第二人物脸部特征数据相应的音频文件。

方式二、从网络侧下载与各人物脸部特征数据分别相应的音频文件。例如，从网络侧下载一个音频文件作为与第一人物脸部特征数据相应的音频文件，同时从网络侧下载另一个音频文件作为与第二人物脸部特征数据相应的音频文件。

方式三、调起移动终端上安装的具有录音功能的相机客户端，并利用相机客户端的录音功能执行多次录音操作，获得与各人物脸部特征数据分别相应的音频文件。例如，利用相机客户端的录音功能录制第一录音文件，该第一录音文件为与第一人物脸部特征数据相应的音频文件，然后利用相机客户端的录音功能录制第二录音文件，该第二录音文件为与第二人物脸部特征数据相应的音频文件。

方式四、开启移动终端自身的录音功能，并利用移动终端自身的录音功能执行录音操作，获得与各人物脸部特征数据分别相应的音频文件。例如，利用移动终端自身的录音功能录制第三录音文件，该第三录音文件为与第一人物脸部特征数据相应的音频文件，然后利用移动终端自身的的录音功能录制第四录音文件，该第四录音文件为与第二人物脸部特征数据相应的音频文件。

需要说明的是，当识别出多个人物脸部特征数据时，各人物脸部特征数据分别相应的音频文件可通过相同或不同的方式获取。例如，从本地选择一个音频文件作为与第一人物脸部特征数据相应的音频文件，然后开启移动终端自身的录音功能，并利用动终端自身的录音功能录制一段录音文件作为与第二人物脸部特征数据相应的音频文件。

在获取到与人物脸部特征数据相应的音频文件之后，继续执行步骤S103，即依据第一图片数据和音频文件合成第二图片数据，第二图片数据携带有音频文件的音频标识信息。其中，音频标识信息可包括音频文件的统一资源定位符URL、编号信息中的至少一项。依据第一图片数据和音频文件合成第二图片数据的方式有多种，以下通过不同实施例列举几种合成第二图片数据的方式。

在一个实施例中，可按照如下步骤合成第二图片数据：首先，调起移动终端上安装的具有有声图片合成功能的相机客户端；例如留声相机客户端，其具有有声图片合成功能。其次，将第一图片数据及音频文件传输至相机客户端。再次，触发相机客户端启动有声图片合成功能，并利用相机客户端的有声图片合成功能对第一图片数据及音频文件进行合成，获得第二图片数据。例如，触发留声相机客户端启动其有声图片合成功能，并利用启动的有声图片合成功能合成第一图片数据及音频文件，即可获得第二图片数据。

在另一个实施例中，当利用具有有声图片合成功能的相机客户端获取第一图片数据、且利用该相机客户端的录音功能录制与第一图片数据种的人物脸部特征数居相应的音频文件时，则无需再将第一图片数据及音频文件传输至相机客户端，只需启动该相机客户端的有声图片合成功能直接合成第一图片数据及音频文件即可。

在另一个实施例中，还可按照如下步骤合成第二图片数据：首先，为音频文件生成唯一的音频标识信息；其次，将音频标识信息写入第一图片数据的指定数据中，得到第二图片数据。该实施例中，移动终端可在本地为音频文件生成唯一的音频标识信息，也可将音频文件发送至服务器，由服务器为音频文件生成唯一的音频标识信息，并将生成的音频标识信息发送至移动终端。其中，音频标识信息可以是音频文件的统一资源定位符URL、编号信息中的至少一项。

该实施例中，指定数据可以是第一图片数据的格式数据。在将音频标识信息写入第一图片数据的指定数据中时，可预先设定写入位置，通常情况下，为使合成过程简单方便、且合成后的第二图片数据的结构易于解析，可设定写入位置为第一图片数据的格式数据的最末尾位置。例如，某第一图片数据的格式数据为“123.jpg”，与其对应的音频文件的音频标识信息为其URL“http://www.11111”，那么，在合成第一图片数据和音频文件时，可将音频文件的URL写入第一图片数据的格式数据的最末尾位置，得到第二图片数据“123.jpg.http://www.11111”。

此外，当第一图片数据包括多张时，还可按照如下方式将音频标识信息写入第一图片数据的指定数据中：首先，按照指定规则合成多张第一图片数据，获得符合图像互换格式GIF的动态图片数据；其次，将音频标识信息写入动态图片数据的指定数据中。其中，指定规则例如：按照多张第一图片数据的获取顺序合成、按照多张第一图片数据的排列顺序合成、按照多张第一图片数据的数据由大到小(或由小到大)的顺序合成，等等。动态图片数据的指定数据可包括动态图片数据的格式数据，音频标识信息可以是音频文件的统一资源定位符URL、编号信息中的至少一项。例如，将多张第一图片数据合成动态图片数据后，动态图片数据的格式数据为“123.gif”，与动态图片数据对应的音频文件的音频标识信息为其编号信息“0000”，那么，在合成动态图片数据和音频文件时，可将音频文件的编号信息写入动态图片数据的格式数据的最末尾位置，得到第二图片数据“123.gif.0000”。

当然，将音频标识信息写入第一图片数据的指定数据中的写入位置除上述列举的最末尾位置外，还可以是指定数据中的其他位置，例如指定数据中的初始位置、预设中间位置等，具体的写入方式与上述实施例中相同，在此不一一列举。

如上述所说，移动终端从第一图片数据中可识别出一个或多个人物脸部特征数据，当识别出多个人物脸部特征数据时，可同样使用上述列举的合成方式来合成第二图片数据，即，多个人物脸部特征数据对应同一个音频文件，将第一图片数据和该同一个音频文件进行合成得到第二图片数据。

此外，还可按以下步骤来合成第二图片数据：首先，从音频文件中提取与各人物脸部特征数据分别相应的子音频文件；其次，将各人物脸部特征数据分别相应的子音频文件和第一图片数据进行合成，得到多个子图片数据；再次，组合多个子图片数据，得到第二图片数据。

具体的，可按照如下步骤从音频文件中提取与各人物脸部特征数据分别相应的子音频文件：首先，确定各人物脸部特征数据分别对应人物的人物信息，该人物信息包括各对应人物的头像、通讯号码、姓名、昵称中的至少一项；其次，获取预设的人物信息和音频数据之间的对应关系，并根据该对应关系确定各人物信息分别对应的音频数据；再次，根据各人物信息分别对应的音频数据，从音频文件中提取与各音频数据相匹配的子音频文件，作为与各人物脸部特征数据分别相应的子音频文件。

例如，第一图片数据中包括人物A和人物B，因此可识别出2个人物脸部特征数据(即人物A的人物脸部特征数据和人物B的人物脸部特征数据)，在音频文件中包括有人物A和人物B分别相应的子音频文件，且以音频数据和人物信息的对应关系的方式存储，因此根据该对应关系可分别确定出人物A对应的音频数据和人物B对应的音频数据，然后根据人物A对应的音频数据和人物B对应的音频数据，分别从音频文件中提取与各音频数据相匹配的子音频文件。

在一个实施例中，上述方法还包括以下步骤：首先，建立音频文件与音频标识信息之间的映射关系；其次，将音频文件和/或音频文件与音频标识信息之间的映射关系发送至服务器进行存储，以使移动终端接收到第二图片数据之后解析获取到音频标识信息，并根据音频标识信息从服务器获取音频文件进行播放。例如，服务器存储有音频文件以及各音频文件与音频标识信息之间的映射关系，当移动终端接收到第二图片数据(即有声图片)时，解析出第二图片数据中携带的音频标识信息，并将该音频标识信息发送至服务器，由服务器根据各音频文件与音频标识信息之间的映射关系查询并获取该音频标识信息对应的音频文件，并将获取到的音频文件发送至移动终端，以使移动终端能够在查看第二图片数据时播放音频文件。

在一个实施例中，上述方法还包括以下步骤：首先，确定人物脸部特征数据对应人物的通讯信息，通讯信息包括通讯号码、与通讯号码绑定的即时通讯账号中的至少一项；其次，根据通讯信息，将第二图片数据发送至对应人物。在确定人物脸部特征数据对应人物的通讯信息时，可将人物脸部特征数据与移动终端通讯录中的联系人头像和/或移动终端中安装的第三方通讯应用中的联系人头像进行匹配，并根据匹配到的联系人头像确定对应的通讯信息。

例如，第一图片数据中包括人物A，在识别出人物A的人物脸部特征数据后，将人物A的人物脸部特征数据和移动终端通讯录中的联系人头像和/或移动终端中安装的第三方通讯应用中的联系人头像进行匹配，并根据匹配到的联系人头像确定人物A的通讯信息，然后再将第二图片数据发送至人物A，以使人物A也能分享与自己有关的有声图片，增加用户之间的互动乐趣。

当然，有声图片(即第二图片数据)并不局限于发送给图片中包含的人物，还可发送给其他任一用户，例如，合成有声图片之后，将有声图片发送至移动终端通讯录中的任一联系人，或者发送至移动终端上安装的第三方通讯应用中的任一好友。

发送第二图片数据发送时，上述方法还包括以下步骤：输出用于提示用户待发送的第二图片数据为有声图片的提示信息。具体的，提示信息的输出方式包括以下任一种方式：方式一、在第二图片数据上添加用于标识第二图片数据携带有音频文件的标识符；例如，在第二图片数据上的任一位置添加一音符标识，以表示该第二图片数据携带有音频文件。方式二、语音输出提示信息。

以下通过一具体实施例来说明本发明提供的图片数据的处理方法。

实施例一

图2为本发明具体实施例一的一种图片数据的处理方法的示意性流程图。在该实施例一中，待处理的第一图片数据为照片，且应用于手机中。如图2所示，该方法包括以下步骤S201-S207：

步骤S201，启动手机的拍摄功能拍摄一张待处理的照片。

步骤S202，识别出照片中的人物脸部特征数据。

步骤S203，启动手机的录音功能为人物脸部特征数据录制一段相应的音频文件。

步骤S204，将音频文件发送至服务器，由服务器为音频文件生成唯一的音频标识信息。其中，音频标识信息可以是音频文件的统一资源定位符URL、编号信息中的至少一项。

步骤S205，从服务器获取音频文件对应的音频标识信息。

步骤S206，将音频标识信息写入照片的格式数据的预设位置，以合成照片和音频文件，得到有声照片。其中，预设位置可以是格式数据中的任一位置，例如格式数据中的初始位置、指定中间位置或末尾位置。

步骤S207，从手机通讯录中选择至少一个联系人，并将有声照片发送给所选择的至少一个联系人。

以具体场景为例说明该实施例一的技术方案。例如，用户利用手机的拍摄功能为其孩子“王小明”拍摄一张照片，该照片的格式数据为“123.gif”，手机识别出该照片中“王小明”的人物脸部特征信息，并启动手机的录音功能。其次，用户利用手机的录音功能录制一段音频文件，如“小明今天心情很好，玩了旋转木马”，该音频文件的编号信息为“0000”。然后，手机将音频文件的编号信息“0000”写入到照片的格式数据“123.gif”中的末尾位置，得到名为“123.gif.0000”的有声照片，该有声照片的格式仍为图片格式。最后，用户可将该有声照片发送至自己的家人，以使家人也能看到为“王小明”拍摄的有声照片。

由此可知，采用本发明实施例一中的技术方案，能够识别出待处理的照片中的人物脸部特征数据，并获取与人物脸部特征数据相应的音频文件(即人物脸部特征数据对应人物的语音数据)，并依据照片和音频文件合成有声照片，使得音频文件能够被合成到照片中，从而实现了有声照片在手机中的应用，使用户在存储照片的同时能够通过合成在照片中的音频文件来记录一些照片中无法记录的信息，增加用户对拍照的乐趣。此外，这种在照片中合成音频文件的方式相较于视频而言更为简便，且占用的存储空间很小。

图3是根据本发明一个实施例的一种图片数据的处理装置的示意性框图。如图3所示，该装置设置于移动终端，包括：

第一获取模块310，适于获取待处理的第一图片数据，识别出第一图片数据中的人物脸部特征数据；

第二获取模块320，与第一获取模块310相耦合，适于获取与人物脸部特征数据相应的音频文件，音频文件为人物脸部特征数据对应人物的语音数据；

合成模块330，与第二获取模块320相耦合，适于依据第一图片数据和音频文件合成第二图片数据，第二图片数据携带有音频文件的音频标识信息。

在一个实施例中，第一获取模块还适于以下至少一项：

从移动终端的***图库中获取待处理的第一图片数据；

利用移动终端的拍摄功能拍摄待处理的第一图片数据；

调起移动终端上安装的相机客户端，并利用相机客户端的拍摄功能拍摄待处理的第一图片数据。

在一个实施例中，第二获取模块还适于以下至少一项：

从本地选择与人物脸部特征数据相应的音频文件；

从网络侧下载与人物脸部特征数据相应的音频文件；

调起移动终端上安装的具有录音功能的相机客户端，并利用相机客户端的录音功能执行录音操作，获得与人物脸部特征数据相应的音频文件。

在一个实施例中，合成模块330还适于：

调起移动终端上安装的具有有声图片合成功能的相机客户端；

将第一图片数据及音频文件传输至相机客户端；

触发相机客户端启动有声图片合成功能，并利用相机客户端的有声图片合成功能对第一图片数据及音频文件进行合成，获得第二图片数据。

在一个实施例中，合成模块330还适于：

为音频文件生成唯一的音频标识信息；或者，将音频文件发送至服务器，由服务器为音频文件生成唯一的音频标识信息，并将生成的音频标识信息发送至移动终端；

将音频标识信息写入第一图片数据的指定数据中，得到第二图片数据。

在一个实施例中，合成模块330还适于：

当第一图片数据包括多张时，按照指定规则合成多张第一图片数据，获得符合图像互换格式GIF的动态图片数据；

将音频标识信息写入动态图片数据的指定数据中。

在一个实施例中，音频标识信息包括音频文件的统一资源定位符URL。

在一个实施例中，指定数据包括第一图片数据或动态图片数据的格式数据。

在一个实施例中，如图4所示，上述装置还包括：

建立模块340，与合成模块330相耦合，适于建立音频文件与音频标识信息之间的映射关系；

第一发送模块350，与建立模块340相耦合，适于将音频文件和/或映射关系发送至服务器进行存储，以使移动终端接收到第二图片数据之后解析获取到音频标识信息，并根据音频标识信息从服务器获取音频文件进行播放。

在一个实施例中，合成模块330还适于：

当识别出多个人物脸部特征数据时，从音频文件中提取与各人物脸部特征数据分别相应的子音频文件；

将各人物脸部特征数据分别相应的子音频文件和第一图片数据进行合成，得到多个子图片数据；

组合多个子图片数据，得到第二图片数据。

在一个实施例中，合成模块330还适于：

确定各人物脸部特征数据分别对应人物的人物信息，人物信息包括各对应人物的头像、通讯号码、姓名、昵称中的至少一项；

根据各人物信息分别对应的音频数据，从音频文件中提取与各音频数据相匹配的子音频文件，作为与各人物脸部特征数据分别相应的子音频文件。

在一个实施例中，上述装置还包括：

确定模块，与合成模块330相耦合，适于确定人物脸部特征数据对应人物的通讯信息，通讯信息包括通讯号码、与通讯号码绑定的即时通讯账号中的至少一项；

第二发送模块，与确定模块相耦合，适于根据通讯信息，将第二图片数据发送至对应人物。

在一个实施例中，上述装置还包括：

输出模块，与第二发送模块相耦合，适于输出用于提示用户待发送的第二图片数据为有声图片的提示信息。

在一个实施例中，输出模块还适于：

在第二图片数据上添加用于标识第二图片数据携带有音频文件的标识符；

或者，

语音输出提示信息。

采用本发明实施例提供的装置，能够识别出待处理的第一图片数据中的人物脸部特征数据，并获取与人物脸部特征数据相应的音频文件(即人物脸部特征数据对应人物的语音数据)，并依据第一图片数据和音频文件合成第二图片数据，使得音频文件能够被合成到图片数据中，从而实现了有声图片在移动终端中的应用，尤其是在图片数据为照片时，该技术方案使得用户能够将音频文件合成在照片中，进而使用户在存储照片的同时能够通过合成在照片中的音频文件来记录一些照片中无法记录的信息，增加用户对拍照的乐趣。此外，这种在图片数据中合成音频文件的方式相较于视频而言更为简便，且占用的存储空间很小。

本领域的技术人员应可理解，图3和图4中的图片数据的处理装置能够用来实现前文所述的图片数据的处理方案，其中的细节描述应与前文方法部分描述类似，为避免繁琐，此处不另赘述。

本发明实施例还提供了一种移动终端，如图5所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该移动终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图5示出的是与本发明实施例提供的移动终端相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless-fidelity，Wi-Fi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器580还具有以下功能：

可选地，处理器580还具有以下功能：

从本地选择与所述人物脸部特征数据相应的音频文件；

从网络侧下载与所述人物脸部特征数据相应的音频文件；

可选地，处理器580还具有以下功能：

将所述音频标识信息写入所述动态图片数据的指定数据中。

可选地，处理器580还具有以下功能：

建立所述音频文件与所述音频标识信息之间的映射关系；

可选地，处理器580还具有以下功能：

组合所述多个子图片数据，得到所述第二图片数据。

可选地，处理器580还具有以下功能：

或者，

语音输出所述提示信息。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图片数据的处理装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种图片数据的处理方法，应用于移动终端，所述方法包括：

依据所述第一图片数据和所述音频文件合成第二图片数据，所述第二图片数据携带有所述音频文件的音频标识信息；

其中，所述依据所述第一图片数据和所述音频文件合成第二图片数据，包括：

将所述音频标识信息写入所述第一图片数据的指定数据中，得到所述第二图片数据；

当识别出多个人物脸部特征数据时，各人物脸部特征数据对应的音频文件通过相同或不同的方式获取；获取与所述人物脸部特征数据相应的音频文件，包括以下至少一项：

从本地选择与所述人物脸部特征数据相应的音频文件；

从网络侧下载与所述人物脸部特征数据相应的音频文件；

调起所述移动终端上安装的具有录音功能的相机客户端，并利用所述相机客户端的录音功能执行录音操作，获得与所述人物脸部特征数据相应的音频文件；

开启所述移动终端自身的录音功能，并利用移动终端自身的录音功能执行录音操作，获得与所述人物脸部特征数据相应的音频文件。

2.根据权利要求1所述的方法，其中，所述获取待处理的第一图片数据，包括以下至少一项：

3.根据权利要求1或2所述的方法，其中，依据所述第一图片数据和所述音频文件合成第二图片数据，包括：

4.根据权利要求1所述的方法，其中，当所述第一图片数据包括多张时，将所述音频标识信息写入所述第一图片数据的指定数据中，包括：

将所述音频标识信息写入所述动态图片数据的指定数据中。

5.根据权利要求1所述的方法，其中，所述音频标识信息包括所述音频文件的统一资源定位符URL。

6.根据权利要求4所述的方法，其中，所述指定数据包括所述第一图片数据或所述动态图片数据的格式数据。

7.根据权利要求4所述的方法，其中，所述方法还包括：

建立所述音频文件与所述音频标识信息之间的映射关系；

8.根据权利要求1或2所述的方法，其中，当识别出多个所述人物脸部特征数据时，依据所述第一图片数据和所述音频文件合成第二图片数据，包括：

组合所述多个子图片数据，得到所述第二图片数据。

9.根据权利要求8所述的方法，其中，从所述音频文件中提取与各人物脸部特征数据分别相应的子音频文件，包括：

10.根据权利要求1或2所述的方法，其中，所述方法还包括：

确定所述人物脸部特征数据对应人物的通讯信息，所述通讯信息包括通讯号码、与所述通讯号码绑定的即时通讯账号中的至少一项；

11.根据权利要求10所述的方法，其中，所述方法还包括：

12.根据权利要求11所述的方法，其中，所述输出用于提示用户待发送的第二图片数据为有声图片的提示信息，包括：

或者，

语音输出所述提示信息。

13.一种图片数据的处理装置，设置于移动终端，所述装置包括：

合成模块，适于依据所述第一图片数据和所述音频文件合成第二图片数据，所述第二图片数据携带有所述音频文件的音频标识信息；

所述合成模块还适于：为所述音频文件生成唯一的音频标识信息；或者，将所述音频文件发送至服务器，由所述服务器为所述音频文件生成唯一的音频标识信息，并将所述生成的音频标识信息发送至所述移动终端；

所述第二获取模块还适于当识别出多个人物脸部特征数据时，各人物脸部特征数据对应的音频文件通过相同或不同的方式获取，具体获取方式包括以下至少一项：

从本地选择与所述人物脸部特征数据相应的音频文件；

从网络侧下载与所述人物脸部特征数据相应的音频文件；

14.根据权利要求13所述的装置，其中，所述第一获取模块还适于以下至少一项：

15.根据权利要求13或14所述的装置，其中，所述合成模块还适于：

16.根据权利要求13所述的装置，其中，所述合成模块还适于：

将所述音频标识信息写入所述动态图片数据的指定数据中。

17.根据权利要求13所述的装置，其中，所述音频标识信息包括所述音频文件的统一资源定位符URL。

18.根据权利要求16所述的装置，其中，所述指定数据包括所述第一图片数据或所述动态图片数据的格式数据。

19.根据权利要求13或14所述的装置，其中，所述装置还包括：

20.根据权利要求19所述的装置，其中，所述合成模块还适于：

组合所述多个子图片数据，得到所述第二图片数据。

21.根据权利要求20所述的装置，其中，所述合成模块还适于：

22.根据权利要求13或14所述的装置，其中，所述装置还包括：

确定模块，适于确定所述人物脸部特征数据对应人物的通讯信息，所述通讯信息包括通讯号码、与所述通讯号码绑定的即时通讯账号中的至少一项；

23.根据权利要求22所述的装置，其中，所述装置还包括：

24.根据权利要求23所述的装置，其中，所述输出模块还适于：

或者，

语音输出所述提示信息。

25.一种移动终端，包括处理器和存储器：

所述存储器用于存储执行权利要求1至12任一项方法的程序，

所述处理器被配置为用于执行所述存储器中存储的程序。