CN108124061A

CN108124061A - 音频数据的存储方法及装置

Info

Publication number: CN108124061A
Application number: CN201711400696.7A
Authority: CN
Inventors: 屠光明; 刘勰
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-06-05

Abstract

本发明公开了一种音频数据的存储方法及装置，该方法包括：检测到生成通话录音的音频数据后，确定上述音频数据中每个发言人对应的子音频数据；分别将每个子音频数据转换成对应的文本信息；存储每个发言人对应的文本信息。本发明中，通过将音频数据中每个发言人对应的子音频数据转换成文本信息，并以文本信息的形式进行存储，由于对同一内容而言，文本形式的数据比音频形式的数据小，因此占用的移动终端的空间较小，节省了移动终端的存储空间。

Description

音频数据的存储方法及装置

技术领域

本发明涉及移动终端技术领域，尤其涉及一种音频数据的存储方法及装置。

背景技术

随着科学技术的发展，手机、平板电脑等移动终端已成为人们日常生活及工作中不可或缺的一部分。而随着移动终端的广泛使用，移动终端的录音、语音聊天等功能也得到了广泛的应用，例如，通话录音、电话会议录音等。

当人们在使用移动终端进行通话录音时，必然会产生音频数据。现有技术中，一般会将产生的音频数据直接存储在移动终端上。但是，由于音频格式的数据较大，存储在移动终端上会占用移动终端较大的存储空间，导致移动终端存储空间的浪费。

发明内容

本发明实施例的目的是提供一种音频数据的存储方法及装置，以解决现有技术中将音频数据存储在移动终端上，占用移动终端较大的存储空间，导致移动终端存储空间的浪费的问题。

为解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种音频数据的存储方法，包括：

检测到生成通话录音的音频数据后，确定所述音频数据中每个发言人对应的子音频数据；

分别将每个所述子音频数据转换成对应的文本信息；

存储每个发言人对应的所述文本信息。

第二方面，本发明实施例还提供了一种音频数据的存储装置，包括：

第一确定模块，用于检测到生成通话录音的音频数据后，确定所述音频数据中每个发言人对应的子音频数据；

转换模块，用于分别将每个所述子音频数据转换成对应的文本信息；

存储模块，用于存储每个发言人对应的所述文本信息。

第三方面，本发明实施例还提供了一种移动终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面所述的音频数据的存储方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的音频数据的存储方法的步骤。

在本发明实施例中，通过将音频数据中每个发言人对应的子音频数据转换成文本信息，并以文本信息的形式进行存储，由于对同一内容而言，文本形式的数据比音频形式的数据小，因此占用的移动终端的空间较小，节省了移动终端的存储空间。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明的一个实施例中一种音频数据的存储方法的第一种方法流程图。

图2(a)是本发明的一个实施例中一种音频数据的存储方法中，提示用户选择音频数据的存储形式的第一种界面示意图。

图2(b)是本发明的一个实施例中一种音频数据的存储方法中，提示用户选择音频数据的存储形式的第二种界面示意图。

图3是本发明的一个实施例中一种音频数据的存储方法中，音频数据的第一种存储形式的界面示意图。

图4是本发明的一个实施例中一种音频数据的存储方法中，存储发言人对应的文本信息的方法流程图。

图5是本发明的一个实施例中一种音频数据的存储方法中，音频数据的第二种存储形式的界面示意图。

图6是本发明的一个实施例中一种音频数据的存储方法的第二种方法流程图。

图7是本发明的一个实施例中一种音频数据的存储装置的结构示意图。

图8是本发明的一个实施例中移动终端的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种音频数据的存储方法，应用于移动终端，主要用于保存移动终端的通话录音、电话会议录音等产生的音频数据。本发明实施例提供的音频数据的存储方法，将通话录音、电话会议录音等产生的音频数据转换成文本信息进行存储，由于针对同一内容，文本形式的数据比音频形式的数据占用的移动终端的存储空间较小，因此，可以节省移动终端的存储空间。

其中，上述移动终端可以是手机、平板电脑等。

图1为本发明实施例提供的音频数据的存储方法的第一种方法流程图，图1所示的方法，至少包括如下步骤：

S102，检测到生成通话录音的音频数据后，确定该音频数据中每个发言人对应的子音频数据。

其中，上述通话录音可以是两人通话录音、多人通话录音、多人电话会议录音或者多人电话视频会议录音等。

在本发明实施例中，可以通过如下过程检测是否生成通话录音的音频数据：

检测是否使用上述移动终端进行通话，及检测该移动终端的录音功能是否开启；若是，则确定在移动终端上生成通话录音的音频数据。

具体的，在本发明实施例中，可以每间隔一段时间检测一次是否使用该移动终端进行通话，以及该移动终端的录音功能是否开启，并不需要实时进行检测，这样可以节省移动终端的电量消耗。其中，可以预先设定每间隔5分钟、10分钟等进行一次检测，上述时间间隔的具体数值可以根据实际应用场景进行设置，选择一个合适的时间间隔，保证检测的精度，尽量较少漏检的情况。

其中，只要用户使用该移动终端进行通话，并且开启了该移动终端的录音功能，这时，可以认为在移动终端上生成针对该通话的音频数据。

具体的，在本发明实施例中，可以在上述通话结束后或者上述通话的录音结束后，即生成针对该通话录音的完整的音频数据后，将该音频数据保存在移动终端上之前，采用本发明实施例提供的方法对音频数据进行存储；还可以，在开始生成针对该通话录音的音频数据后，就开始采用本发明实施例提供的方法对该音频数据进行转换并存储，即音频数据的生成和音频数据的存储是同步执行的。

具体采用上述哪种方式，用户可以根据自己的实际应用场景进行选择。

另外，在某些情况下，用户可能并不需要将通话录音对应的音频数据以文本信息的形式存储，而是需要存储针对该通话录音的原始音频数据。因此，为了更符合用户的实际需求，在本发明实施例中，当检测到用户开启移动终端的录音功能后，向用户展示音频数据的存储形式选择页面，以提示用户是以文本信息的形式存储，还是以音频数据的形式进行存储。

图2(a)示出了本发明实施例中一种具体的音频数据的存储形式选择界面的界面示意图，在图2(a)所示的界面中，提示用户“是否以文本信息的形式存储该音频数据”，并且，给出了用户“是”和“否”两个选项，若用户选择“是”，则在生成该通话录音的音频数据后，开始执行本发明实施例提供的音频数据的存储方法；若用户选择“否”，则在生成该通话录音的音频数据后，直接在移动终端保存该音频数据。

图2(b)示出了本发明实施例中另外一种具体的音频数据的存储形式选择界面的界面示意图，在图2(b)所示的界面中，展示给用户“请选择生成的音频数据的存储形式”，并给出用户两个选项，分别为“文本信息”和“音频数据”，若用户选择“文本信息”，则在生成该通话录音的音频数据后，开始执行本发明实施例提供的音频数据的存储方法；若用户选择“音频数据”，则在生成该通话录音的音频数据后，直接在移动终端保存该音频数据。

当然，上述图2(a)和图2(b)只是给出了两种具体的音频数据的存储形式选择界面的界面示意图，选择界面的具体形式并不局限于此。如还可以提供同时存储音频数据和文本信息的选择界面(未图示)，以便同时保存通话录音的音频数据及文本信息。

在本发明实施例中，由于在进行通话时至少存在两个发言人在讲话，为了确定出每个发言人对应的讲话内容，可以通过声纹特征确定音频数据中每个发言人对应的子音频数据，由于每个人的声纹特征具有唯一性，因此，采用声纹特征确定每个发言人对应的子音频数据，准确性较高。

具体的，在本发明实施例中，确定音频数据中每个发言人对应的子音频数据，包括如下步骤(1)和(2)：

(1)、提取音频数据的声纹特征；

(2)、根据上述声纹特征，确定音频数据中声纹特征对应的发言人的子音频数据。

在本发明实施例中，一种声纹特征对应一个发言人，音频数据中声纹特征一致的音频数据确定为同一个发言人对应的音频数据。

另外，在本发明实施例中，可以预先在移动终端上存储该移动终端用户的声纹特征，这样，可以根据移动终端上预先存储的移动终端用户的声纹特征，从上述子音频数据中，确定出移动终端用户对应的子音频数据。这样，可以区分出上述通话录音中移动终端本端和对端分别对应的子音频数据。

下面将分别以两人通话和三人通话为例具体说明。

若上述通话为两人通话，分别将上述通话对应的发言人记为发言人A₁和发言人A₂，其中，发言人A₁为移动终端用户，也即上述通话本端对应的发言人，发言人A₂为通话对端对应的发言人，在移动终端上预先存储有发言人A₁的声纹特征。在执行本发明实施例提供的方法时，从通话录音对应的音频数据中提取出该音频数据对应的声纹特征，将预先存储的发言人A₁的声纹特征与音频数据中的声纹特征进行匹配，从上述音频数据中确定出预先存储的发言人A₁的声纹特征对应的子音频数据，该子音频数据则为发言人A₁讲话的子音频数据，将上述音频数据中剩余的那部分音频数据确定为发言人A₂讲话的子音频数据。

若上述通话为三人通话，分别将上述通话对应的发言人记为发言人B₁、发言人B₂和发言人B₃，其中，发言人B₁为移动终端本端对应的发言人，发言人B₂和B₃为移动终端对端对应的发言人。在移动终端上预先存储有发言人B₁的声纹特征，在执行本发明实施例提供的方法时，从通话录音对应的音频数据中提取出该音频数据对应的声纹特征，并从音频数据中确定出每个声纹特征对应的发言人的音频子数据；之后将预先存储的发言人B₁的声纹特征与三个音频子数据对应的声纹特征进行匹配，确定出发言人B₁对应的子音频数据，即移动终端的通话本端发言人对应的子音频数据。

在本发明实施例中，从获取到的音频数据中将每个发言人对应的子音频数据拆分出来，便于查找上述音频数据中某个发言人对应的发言数据，查找方便快捷。

S104，分别将每个子音频数据转换成对应的文本信息。

S106，存储每个发言人对应的文本信息。

在本发明实施例中，存储每个发言人对应的文本信息，具体包括如下几种情形。

情形1：直接以文本信息的形式存储，具体包括：

将上述文本信息按照每个发言人讲话的先后顺序进行排序；标记每个文本信息对应的发言时间信息；将标记后的文本信息按照排序后的顺序进行存储。

例如，在一段通话录音的音频数据中，进行通话录音的两个人，分别记为发言人A和发言人B，如果发言人A先说“今晚去哪里吃饭”，发言人B说“你说吧”，发言人A又说“XXX怎么样”，发言人B回答说“可以”，则按照发言人A和发言人B讲话的先后顺序对每个发言人对应的子音频数据进行排序。并在发言人A和发言人B所对应的每个文本信息上标记该文本信息对应的发言时间信息。

其中，上述发言时间信息可以是该发言人讲话的时刻或者该发言人该次讲话的时间长度等。

如果确定出发言人B为移动终端的通话本端对应的发言人，相应的，发言人A则为通话对端对应的发言人，图3示出了一种可能的文本信息的存储界面的界面示意图。

情形2：将各个文本添加至文本框内，以文本框的形式进行存储，如图4所示，具体包括如下步骤：

S402，将上述文本信息按照每个发言人讲话的先后顺序依次生成在文本框内；

S404，标记每个文本框中的文本信息对应的发言时间信息；

S406，将每个文本框中标记后的文本信息进行存储。

其中，上述步骤S404中，每个文本框中的文本信息对应的发言时间信息，可以是该文本框内的文本信息的发言时刻，也可以是该文本框内的文本信息的发言时间长度。

例如，上述音频数据为两人通话录音的音频数据，通话对端的发言人的名称为“小红帽”，为了使得上述文本信息的存储简单、清晰，可以不在每个文本框前面标记该文本框内的文本信息对应的发言人，可以将对端发言人对应的文本框添加至存储界面的左端，本端发言人对应的文本框添加至存储界面的右端，并在该界面的顶端标注对端发言人的名称，如图5所示。

除此之外，还可以在界面的顶端标注对端发明人的照片等。

在本发明实施例中，以文本框的形式存储上述子音频数据对应的文本信息，提高了通话录音的直观可视性，便于用户直观的观看上述通话记录，提高了用户体验感。

另外，在本发明实施例中，为了让用户可以更直观的看到上述通话记录，在本发明实施例中，还可以将上述文本信息和文本框所在的页面以图片的形式进行存储。即上述步骤S406具体包括：

将所述文本框和标记后的文本信息所在页面转换成图片；并存储该图片。

具体的，在本发明实施例中，可以根据页面的具体长度，转换成一张或者多张图片。

并且，转换成的图片的分辨率可以根据图片的大小和图片的质量两方面考虑，选择一个合适的分辨率，既不会使得图片占用移动终端较大的存储空间，也不会影响图片的清晰度。

另外，上述所转换成的图片的格式不限，可以是jpg格式的图片，也可以是其它格式的图片，图片的具体格式可以根据移动终端可支持的图片的格式进行设置。

在本发明实施例中，在存储上述图片之前，还需要对该图片进行命名，具体包括：根据通话日期及通话对端发言人，确定上述图片的名称。

其中，可以以“通话日期+通话对端发言人名称”对该图片进行命名，例如，与“小红帽”的通话日期为2017.8.13日，则上述图片名称可以为“20170813小红帽.jpg”、或者“2017-08-13小红帽.jpg”还或者为“20170813-小红帽.jpg”等多种形式。

当然，在对转换得到的图片进行命名时，除了使用通话日期、通话对端发言人之外，可以加入通话时长这一信息。即可以以“通话日期+通话对端发言人名称+通话时长”对该图片进行命名，例如，与“小红帽”在2017.8.13日通话一小时，则上述图片的名称可以为“20170813小红帽1小时.jpg”、或者“2017-08-13小红帽1小时.jpg”、还或者“20170813-小红帽-1小时.jpg”等具体形式。

当然，如果上述生成的图片为多张图片，可以按照发言的先后顺序对该图片进行排序，在每个图片的名称后面加入该图片的编号即可。例如，对于第一张图片，可以以“原图片名称+001”作为第一张图片的名称，以“原图片名称+002”作为第二张图片的名称等等。

图6示出了本发明实施例提供的音频数据的存储方法的第二种方法流程图，图6中的方法，至少包括如下步骤：

S602，检测是否使用移动终端进行通话，并检测该移动终端的录音功能是否开启；若是，则执行步骤S604；

S604，确定在移动终端上生成通话录音的音频数据；

S606，判断用户是否选择以文本信息形式保存上述音频数据；若是，则执行步骤S608，否则结束。

S608，确定上述音频数据中每个发言人对应的子音频数据；

S610，分别将每个子音频数据转换成对应的文本信息；

S612，将上述文本信息按照每个发言人讲话的先后顺序依次生成在文本框内；

S614，标记每个文本框中的文本信息对应的发言时间信息；

S616，将上述文本框和标记后的文本信息所在页面转换成图片；

S618，根据上述通话的通话日期、通话对端发言人及通话时长，确定上述图片的名称；

S620，存储上述图片。

本发明实施例提供的音频数据的存储方法，通过将音频数据中每个发言人对应的子音频数据转换成文本信息，并以文本信息的形式进行存储，由于对同一内容而言，文本形式的数据比音频形式的数据小，因此占用的移动终端的空间较小，节省了移动终端的存储空间。

基于与本发明实施例提供的音频数据的存储方法相同的思路，本发明实施例还提供了一种音频数据的存储装置，应用于移动终端，用于执行本发明实施例提供的音频数据的存储方法，图7示出了本发明实施例提供的音频数据的存储装置的结构示意图，图7所示的音频数据的存储装置，包括：

第一确定模块71，用于检测到生成通话录音的音频数据后，确定上述音频数据中每个发言人对应的子音频数据；

转换模块72，用于分别将每个子音频数据转换成对应的文本信息；

存储模块73，用于存储每个发言人对应的文本信息。

可选地，本发明实施例提供的音频数据的存储装置，还包括：

检测模块，用于检测是否使用上述移动终端进行通话，及检测该移动终端的录音功能是否开启；

第二确定模块，用于检测到使用上述移动终端进行通话，及该移动终端的录音功能开启，确定在上述移动终端上生成上述通话录音的音频数据。

可选地，上述第一确定模块71，包括：

提取单元，用于提取上述音频数据的声纹特征；

第一确定单元，用于根据上述声纹特征，确定上述音频数据中上述声纹特征对应的发言人的子音频数据。

可选地，上述第一确定模块，还包括：

第二确定单元，用于根据上述移动终端上预先存储的上述移动终端用户的声纹特征，从上述子音频数据中，确定上述移动终端用户对应的子音频数据。

可选地，上述存储模块73，包括：

排序单元，用于将上述文本信息按照每个上述发言人讲话的先后顺序进行排序；

第一标记单元，用于标记每个上述文本信息对应的发言时间信息；

第一存储单元，用于将标记后的上述文本信息按照排序后的顺序进行存储。

可选地，上述存储模块73，还包括：

生成单元，用于将上述文本信息按照每个上述发言人讲话的先后顺序依次生成在文本框内；

第二标记单元，用于标记每个上述文本框中的文本信息对应的发言时间信息；

第二存储单元，用于将每个文本框中标记后的文本信息进行存储。

可选地，上述第二存储单元，包括：

转换子单元，用于将上述文本框和标记后的文本信息所在页面转换成图片；

存储子单元，用于存储上述图片。

可选地，上述第二存储单元，还包括：

确定子单元，用于根据通话日期及通话对端发言人，确定上述图片的名称。

本发明实施例提供的音频数据的存储装置能够实现图1至图6的方法实施例中音频数据的存储装置实现的各个过程，为避免重复，这里不再赘述。

本发明实施例提供的音频数据的存储装置，通过将音频数据中每个发言人对应的子音频数据转换成文本信息，并以文本信息的形式进行存储，由于对同一内容而言，文本形式的数据比音频形式的数据小，因此占用的移动终端的空间较小，节省了移动终端的存储空间。

图8为实现本发明各个实施例的一种移动终端的硬件结构示意图，

该移动终端800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、处理器810、以及电源811等部件。本领域技术人员可以理解，图8中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

在本发明实施例中，存储器809内存储有计算机程序，该计算机程序被处理器810执行时，能够实现如下步骤：

检测到生成通话录音的音频数据后，确定上述音频数据中每个发言人对应的子音频数据；

分别将每个上述子音频数据转换成对应的文本信息；

存储每个发言人对应的上述文本信息。

可选地，计算机程序被处理器810执行时，通过以下步骤检测是否在上述移动终端生成通话录音的音频数据，

检测是否使用上述移动终端进行通话，及检测该移动终端的录音功能是否开启；

若是，则确定在上述移动终端上生成上述通话录音的音频数据。

可选地，计算机程序被处理器810执行时，上述确定上述音频数据中每个发言人对应的子音频数据，包括：

提取上述音频数据的声纹特征；

根据上述声纹特征，确定上述音频数据中上述声纹特征对应的发言人的子音频数据。

可选地，计算机程序被处理器810执行时，上述根据上述声纹特征，确定上述音频数据中上述声纹特征对应的发言人的子音频数据之后，还包括：

根据上述移动终端上预先存储的上述移动终端用户的声纹特征，从上述子音频数据中，确定上述移动终端用户对应的子音频数据。

可选地，计算机程序被处理器810执行时，上述存储每个发言人对应的上述文本信息，包括：

将上述文本信息按照每个上述发言人讲话的先后顺序进行排序；

标记每个上述文本信息对应的发言时间信息；

将标记后的上述文本信息按照排序后的顺序进行存储。

将上述文本信息按照每个上述发言人讲话的先后顺序依次生成在文本框内；

标记每个上述文本框中的文本信息对应的发言时间信息；

将标记后的上述文本框中的文本信息进行存储。

可选地，计算机程序被处理器810执行时，上述将每个文本框中标记后的文本信息进行存储，包括：

将上述文本框和标记后的文本信息所在页面转换成图片；并

存储上述图片。

可选地，计算机程序被处理器810执行时，上述存储上述图片之前，上述方法还包括：

根据通话日期及通话对端发言人，确定上述图片的名称。

本发明实施例提供的移动终端，通过将音频数据中每个发言人对应的子音频数据转换成文本信息，并以文本信息的形式进行存储，由于对同一内容而言，文本形式的数据比音频形式的数据小，因此占用的移动终端的空间较小，节省了移动终端的存储空间。

应理解的是，本发明实施例中，射频单元801可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器810处理；另外，将上行的数据发送给基站。通常，射频单元801包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元801还可以通过无线通信***与网络和其他设备通信。

移动终端通过网络模块802为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元803可以将射频单元801或网络模块802接收的或者在存储器809中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元803还可以提供与移动终端800执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元803包括扬声器、蜂鸣器以及受话器等。

输入单元804用于接收音频或视频信号。输入单元804可以包括图形处理器(Graphics Processing Unit，GPU)8041和麦克风8042，图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元806上。经图形处理器8041处理后的图像帧可以存储在存储器809(或其它存储介质)中或者经由射频单元801或网络模块802进行发送。麦克风8042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元801发送到移动通信基站的格式输出。

移动终端800还包括至少一种传感器805，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板8061的亮度，接近传感器可在移动终端800移动到耳边时，关闭显示面板8061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器805还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元806用于显示由用户输入的信息或提供给用户的信息。显示单元806可包括显示面板8061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板8061。

用户输入单元807可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元807包括触控面板8071以及其他输入设备8072。触控面板8071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板8071上或在触控面板8071附近的操作)。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器810，接收处理器810发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板8071。除了触控面板8071，用户输入单元807还可以包括其他输入设备8072。具体地，其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板8071可覆盖在显示面板8061上，当触控面板8071检测到在其上或附近的触摸操作后，传送给处理器810以确定触摸事件的类型，随后处理器810根据触摸事件的类型在显示面板8061上提供相应的视觉输出。虽然在图8中，触控面板8071与显示面板8061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板8071与显示面板8061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元808为外部装置与移动终端800连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元808可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端800内的一个或多个元件或者可以用于在移动终端800和外部装置之间传输数据。

存储器809可用于存储软件程序以及各种数据。存储器809可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器809可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器810是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器809内的软件程序和/或模块，以及调用存储在存储器809内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器810可包括一个或多个处理单元；优选的，处理器810可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器810中。

移动终端800还可以包括给各个部件供电的电源811(比如电池)，优选的，电源811可以通过电源管理***与处理器810逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，移动终端800包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种移动终端，包括处理器810，存储器809，存储在存储器809上并可在上述处理器810上运行的计算机程序，该计算机程序被处理器810执行时实现上述音频数据的存储方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频数据的存储方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频数据的存储方法，应用于移动终端，其特征在于，所述方法包括：

分别将每个所述子音频数据转换成对应的文本信息；

存储每个发言人对应的所述文本信息。

2.根据权利要求1所述的方法，其特征在于，所述确定所述音频数据中每个发言人对应的子音频数据，包括：

提取所述音频数据的声纹特征；

根据所述声纹特征，确定所述音频数据中所述声纹特征对应的发言人的子音频数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述声纹特征，确定所述音频数据中所述声纹特征对应的发言人的子音频数据之后，还包括：

根据所述移动终端上预先存储的所述移动终端用户的声纹特征，从所述子音频数据中，确定所述移动终端用户对应的子音频数据。

4.根据权利要求1所述的方法，其特征在于，所述存储每个发言人对应的所述文本信息，包括：

将所述文本信息按照每个所述发言人讲话的先后顺序进行排序；

标记每个所述文本信息对应的发言时间信息；

将标记后的所述文本信息按照排序后的顺序进行存储。

5.根据权利要求1所述的方法，其特征在于，所述存储每个发言人对应的所述文本信息，包括：

将所述文本信息按照每个所述发言人讲话的先后顺序依次生成在文本框内；

标记每个所述文本框中的文本信息对应的发言时间信息；

将每个所述文本框中标记后的文本信息进行存储。

6.一种音频数据的存储装置，应用于移动终端，其特征在于，所述装置包括：

存储模块，用于存储每个发言人对应的所述文本信息。

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块，包括：

提取单元，用于提取所述音频数据的声纹特征；

第一确定单元，用于根据所述声纹特征，确定所述音频数据中所述声纹特征对应的发言人的子音频数据。

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，还包括：

第二确定单元，用于根据所述移动终端上预先存储的所述移动终端用户的声纹特征，从所述子音频数据中，确定所述移动终端用户对应的子音频数据。

9.根据权利要求6所述的装置，其特征在于，所述存储模块，包括：

排序单元，用于将所述文本信息按照每个所述发言人讲话的先后顺序进行排序；

第一标记单元，用于标记每个所述文本信息对应的发言时间信息；

第一存储单元，用于将标记后的所述文本信息按照排序后进行存储。

10.根据权利要求6所述的装置，其特征在于，所述存储模块，还包括：

生成单元，用于将所述文本信息按照每个所述发言人讲话的先后顺序依次生成在文本框内；

第二标记单元，用于标记每个所述文本框中的文本信息对应的发言时间信息；

第二存储单元，用于将每个所述文本框中标记后的文本信息进行存储。

11.一种移动终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的音频数据的存储方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的音频数据的存储方法的步骤。