CN106024009B

CN106024009B - 音频处理方法及装置

Info

Publication number: CN106024009B
Application number: CN201610284473.8A
Authority: CN
Inventors: 朱印; 王倩; 杨静松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2021-03-30
Anticipated expiration: 2036-04-29
Also published as: CN106024009A

Abstract

本发明公开了一种音频处理方法及装置，属于语音识别技术领域。所述方法包括：提取音频文件中每个录音对象对应的语音片段，并为每个录音对象分配对象标识；将每个语音片段转换为文字信息；对每条文字信息和对应的录音对象的对象标识进行对应显示；解决了在回放录音时耗费时间较长，在听录音时容易遗漏重要信息的问题，达到了令录音内容与录音对象对应，在后期查找录音中的信息时更加便捷，提高信息查找效率的效果。

Description

音频处理方法及装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种音频处理方法及装置。

背景技术

随着科技的发展，通过在智能终端中安装不同功能的软件，能够使得智能终端具备多种功能，比如录音功能。

在采访、举办会议或讲座时，为了避免遗漏信息，可以使用具有录音功能的终端进行录音，在后期查找录音中的某个信息时需要回放整个录音的方式来查找。

发明内容

为了解决录音回放浪费时间，而且听录音时容易遗漏重要信息的问题，本发明实施例提供了一种音频处理方法及装置。该技术方案如下：

根据本公开实施例的第一方面，提供了一种音频处理方法，该方法包括：

提取音频文件中每个录音对象对应的语音片段，并为每个录音对象分配对象标识；

将每个语音片段转换为文字信息；

对每条文字信息和对应的录音对象的对象标识进行对应显示。

可选的，提取音频文件中每个录音对象对应的语音片段，包括：

按照时间顺序，将音频文件划分为连续的若干个语音片段，每个语音片段与一个录音对象对应，且相邻的两个语音片段对应的录音对象不同。

可选的，对每条文字信息和对应的录音对象的对象标识进行对应显示，包括：

以对话的形式，对每条文字信息和对应的录音对象的对象标识进行对应显示。

可选的，该方法还包括：

检测录音对象是否是已知身份的联系人；

当录音对象是已知身份的联系人时，将录音对象的对象标识替换为联系人的联系人标识。

可选的，该方法还包括：

接收选择操作，选择操作是选择对象标识时生成的；

根据选择操作，从文字信息中选择与对象标识对应的文字信息；

显示选择的文字信息，或者，显示选择的文字信息和对象标识。

可选的，该方法还包括：

接收输入的关键词；

搜索包括关键词的文字信息；

显示搜索到的文字信息，或者，显示搜索到的文字信息和对应的录音对象的对象标识。

根据本公开实施例的第二方面，提供一种音频处理装置，该装置包括：

提取模块，被配置为提取音频文件中每个录音对象对应的语音片段，并为每个录音对象分配对象标识；

文字转换模块，被配置为将提取模块提取的每个语音片段转换为文字信息；

第一显示模块，被配置为对文字转换模块转换的每条文字信息和对应的录音对象的对象标识进行对应显示。

可选的，提取模块还被配置为：

可选的，第一显示模块还被配置为：

可选的，该装置还包括：

检测模块，被配置为检测录音对象是否是已知身份的联系人；

标识替换模块，被配置为当检测模块检测到录音对象是已知身份的联系人时，将录音对象的对象标识替换为联系人的联系人标识。

可选的，该装置还包括：

选择接收模块，被配置为接收选择操作，选择操作是选择对象标识时生成的；

文字选择模块，被配置为根据选择接收模块接收的选择操作，从文字信息中选择与对象标识对应的文字信息；

第二显示模块，被配置为显示文字选择模块选择的文字信息，或者，显示文字选择模块选择的文字信息和对象标识。

可选的，该装置还包括：

关键词接收模块，被配置为接收输入的关键词；

文本搜索模块，被配置为搜索包括关键词的文字信息；

第三显示模块，被配置为显示文本搜索模块搜索到的文字信息，或者，显示文本搜索模块搜索到的文字信息和对应的录音对象的对象标识。

根据本公开实施例的第三方面，提供一种音频处理装置，该装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

将每个语音片段转换为文字信息；

本发明实施例提供的技术方案带来的有益效果是：

通过提取音频文件中的录音对象和每个录音对象对应的语音片段，将不同录音对象对应的语音片段区别开，并为录音对象分配对象标识将不同的录音对象区别开，将提取出的每个语音片段转换为文字信息，对每条文字信息和对应的录音对象的标识进行对应显示；避免了利用音频文件查找信息时，需要回放音频文件直到听到需要的信息导致的录音回放耗费时间较长，在听录音时还容易遗漏重要信息的问题，在语音片段转换为文字时将录音内容的文字信息与录音对象对应，能够令用户后期更加便捷地查找音频文件的信息，将文字信息与对象标识对应起来显示也有助于用户将录音内容与录音对象对应，提高了信息查找效率。

通过以对话的形式显示每条文字信息和对应的录音对象的对象标识，使得转换后的文字信息能够准确显示出录音对象及其所对应的录音内容，方便用户查找相应的信息。

通过检测录音对象是否是已知身份的联系人，当录音对象是已知身份的联系人时，将录音对象的标识的对象标识替换为联系人的联系人标识，使得用户在查看转换后的文字信息时能够快速的分辨出录音对象及其对应的录音内容，方便查找信息，提高录音内容的可读性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开一示例性实施例提供的音频处理方法的流程图；

图2是本公开另一示例性实施例提供的音频处理方法的流程图；

图3是本公开另一示例性实施例提供的音频处理方法的实施示意图；

图4是本公开另一示例性实施例提供的音频处理方法的流程图；

图5是本公开另一示例性实施例提供的音频处理方法的流程图；

图6A是是本公开一示例性实施例提供的音频处理方法的实施示意图；

图6B是是本公开一示例性实施例提供的音频处理方法的实施示意图；

图6C是是本公开一示例性实施例提供的音频处理方法的实施示意图；

图6D是是本公开一示例性实施例提供的音频处理方法的实施示意图；

图7是本公开一示例性实施例提供的图像显示装置的结构示意图；

图8是本公开另一示例性实施例提供的图像显示装置的结构示意图；

图9是一示例性实施例示出的一种图像显示装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参照图1，其示出了本公开一个示例性实施例提供的音频处理方法的流程图。该音频处理方法适用于智能手机、平板电脑或者个人电脑等智能终端中。如图1所示，该音频处理方法可以包括以下步骤：

在步骤101中，提取音频文件中每个录音对象对应的语音片段，并为每个录音对象分配对象标识。

在步骤102中，将每个语音片段转换为文字信息。

在步骤103中，对每条文字信息和对应的录音对象的对象标识进行对应显示。

综上所述，本公开实施例所提供的音频处理方法，通过提取音频文件中每个录音对象对应的语音片段，并为每个录音对象分配对象标识，将不同录音对象对应的语音区别开，将每个语音片段转换为文字信息，对每条文字信息和对应的录音对象的标识进行对应显示；避免了利用音频文件查找信息时，需要回放音频文件直到听到需要的信息导致的录音回放耗费时间较长，在听录音时还容易遗漏重要信息的问题，在语音片段转换为文字时将录音内容的文字信息与录音对象对应，能够令用户后期更加便捷地查找音频文件的信息，将文字信息与对象标识对应起来显示也有助于用户将录音内容与录音对象对应，提高了信息查找效率。

请参照图2，其示出了本公开另一个示例性实施例提供的音频处理方法的流程图。该音频处理方法适用于智能手机、平板电脑或者个人电脑等智能终端中。如图2所示，该音频处理方法可以包括以下步骤：

在步骤201中，按照时间顺序，将音频文件划分为连续的若干个语音片段，并为每个录音对象分配对象标识，每个语音片段与一个录音对象对应，且相邻的两个语音片段对应的录音对象不同。

终端确定需要转换成文字信息的音频文件，按照时间顺序，将待转换的音频文件划分为连续的若干个语音片段。

终端可以从音频文件的开始时间解析音频文件，通过声纹识别技术获取录音对象的声纹。由于每个人的声音器官、诸如声带、口腔、鼻腔、舌、齿、唇、肺，在发音时呈现不同，或有着各种各样微小的差异，以及年龄、性格、语言习惯等多种原因，再加上发音容量的大小不一，发音频率的不同，导致这些器官发出的声音必然有着各自的特点，行成每个人独具一格的声纹，因此可以使用声纹识别技术来区分录音对象。

按照时间顺序，对音频文件的每一帧的声纹进行识别，识别出一个声纹即识别出一个录音对象，为识别出的录音对象分配对象标识，将在时间上连续的且属于同一个声纹的一段语音作为一个语音片段；划分出一段语音片段后，再继续识别下一帧的声纹，若识别出的声纹是在识别该音频文件时未出现过的，则为该声纹对应的录音对象分配一个新的对象标识，将在时间上连续的且属于同一个声纹的一段语音作为一个语音片段，相邻的两个语音片段对应的声纹不同，即对于的录音对象不同；直到该音频文件划分结束。

划分后的若干个语音片段在时间上仍然连续，每个语音片段与一个录音对象对应，相邻的两个语音片段对应的录音对象不同。

可选的，对象标识是头像，或者昵称、或者标识号。

举例来说，某音频文件的时长为5分钟，从起始时间00:00到02:05解析出一个声纹，即解析出一个录音对象，将该录音对象标记为“发言人1”，从00:00到02:05的语音片段对应的录音对象为“发言人1”；再继续从解析02:06开始解析，到03:20解析出的声纹为同一个声纹，且该声纹与“发言人1”对应的声纹不同，即解析出另一个录音对象，将该录音对象标记为“发言人2”，从02:06到03:20的语音片段对应的录音对象为“发言人2”；再继续从03:21解析，直到结束时间05:00，解析出的声纹与“发言人1”对应的声纹一致，则从03:21至05:00的语音片段对应于“发言人1”；即该音频文件被划分为三个语音片段，每个语音片段与一个录音对象对应，且相邻的两个语音片段对应的录音对象不同。

可选的，当一个语音片段是几个录音对象以相同的说话速率说的同样的内容时，该语音片段可以对应几个录音对象。比如：一个音频文件的一段语音片段是三个学生朗诵的《静夜思》，则该语音片段与三个录音对象对应。

在步骤202中，检测录音对象是否是已知身份的联系人。

终端通过检测录音对象的声纹是否和已知身份的联系人的声纹一致来检测录音对象是否是已知身份的联系人。

可选的，已知身份的联系人是指联系人的身份信息已经存储在处理该音频文件终端中，或已经存储在后台服务器，或已经存储在处理该音频文件的终端和后台服务器的联系人。

可选的，已知身份的联系人的数量至少为一个。

可选的，已知身份的联系人的身份信息至少包括声纹和联系人标识，还可以包括头像、指纹、联系电话、家庭住址等个人信息。

可选的，已知身份的联系人的身份信息存储在处理该音频文件的终端中，通过比较终端中存储的已知身份的联系人的声纹和从音频文件中解析出的声纹是否一致来检测录音对象是否是已知身份的联系人；

或，已知身份的联系人的身份信息存储在后台服务器中，当处理该音频文件的终端与网络连接时，通过比较服务器中存储的已知身份的联系人的声纹和从音频文件中解析出的声纹是否一致来检测录音对象是否是已知身份的联系人；

或，已知身份的联系人的身份信息存储在处理该音频文件的终端和后台服务器中，通过比较终端中和后台服务器中存储的已知身份的联系人的声纹和从音频文件中解析出的声纹是否一致来检测录音对象是否是已知身份的联系人。

在步骤203中，当录音对象是已知身份的联系人时，将录音对象的对象标识替换为联系人的联系人标识。

当检测到录音对象的声纹与已知身份的联系人的声纹一致时，表示录音对象是已知身份的联系人，将录音对象的对象标识替换为联系人的联系人标识。

比如：录音对象A的对象标识为“发言人A”，检测到录音对象的声纹和已知身份的联系人“小王”的声纹一致，则将“发言人A”替换为联系人标识“小王”。

当录音对象不是已知身份的联系人时，不替换录音对象的对象标识。

在步骤204中，将每个语音片段转换为文字信息。

利用语音识别技术将划分后的语音片段转换为文字信息，每条文字信息与录音对象的标识对应。

在步骤205中，以对话的形式，对每条文字信息和对应的录音对象的对象标识进行对应显示。

举例来说，一个音频文件被划分为若干个语音片段，终端解析出该音频文件中共有三个录音对象，将语音片段转换为文字信息后，在显示界面以对话的形式，对每条文字信息和对应的录音对象的标识进行对应显示，如图3所示，其示出了显示转换后的部分文字信息和对应的录音对象的标识的界面。

可选的，在显示文字信息时，终端同步播放音频文件。

可选的，当用户选中一条文字信息时，终端播放该文字信息对应的语音片段。

可选的，终端可以将转换后的文字信息以文本形式导出。

此外，还通过以对话的形式显示每条文字信息和对应的录音对象的对象标识，使得转换后的文字信息能够准确显示出录音对象及其所对应的录音内容，方便用户查找相应的信息。

此外，还通过检测录音对象是否是已知身份的联系人，当录音对象是已知身份的联系人时，将录音对象的标识的对象标识替换为联系人的联系人标识，使得用户在查看转换后的文字信息时能够快速的分辨出录音对象及其对应的录音内容，方便查找信息，提高录音内容的可读性。

在基于图2所示实施例的可选实施例中，该音频处理方法还可以根据用户选择显示文字信息，即在步骤205之后还可以包括步骤206、步骤207、步骤208a和步骤208b，如图4所示：

在步骤206中，接收选择操作，选择操作是选择对象标识时生成的。

用户选择对象标识时生成选择操作，用户可以通过单击对象标识或双击对象标识或长按对象标识或右击对象标识的方式来选择对象标识。

可选的，用户可以选择一个对象标识或多个对象标识。

比如：对象标识是昵称，则用户单击昵称时生成选择操作；对象标识是头像，则用户单击头像时生成选择操作；对象标识是标识号，则用户单击标识号时生成选择操作。

在步骤207中，根据选择操作，从文字信息中选择与对象标识对应的文字信息。

在步骤208a中，显示选择的文字信息。

在显示文字信息的界面隐藏除选择的对象标识以外的对象标识对应的文字信息，或者，在当前显示文字信息的界面以外的其他界面生成一个新的显示界面，在新生成的界面中显示与选择的对象标识对应的文字信息。

在步骤208b中，显示选择的文字信息和对象标识。

在显示文字信息的界面隐藏除选择的对象标识以外的对象标识和对象标识对应的文字信息；或者，在当前显示文字信息的界面以外的其他界面生成一个新的显示界面，在新生成的界面中显示与选择的对象标识和对象标识对应的文字信息。

此外，在显示选择的文字信息后，用户还可以触发恢复控件生成恢复操作，根据恢复操作在显示界面恢复显示全部的文字信息，或者根据恢复操作隐藏生成的新的显示界面。

此外，还通过根据用户选择的对象标识，显示对应的文字信息，对录音内容按录音对象分类整理，方便用户后期查找对应不同录音对象的录音内容，提高查找信息的效率。

在基于图2所示实施例的可选实施例中，该音频处理方法还可以根据用户选择显示文字信息，即在步骤205之后还可以包括步骤301、步骤302、步骤303a和步骤303b，如图5所示：

在步骤301中，接收输入的关键词。

可选的，用户在搜索区域输入关键词。

在步骤302中，搜索包括关键词的文字信息。

可选的，在转换后的所有文字信息中搜索包括关键词的文字信息；或者，在预定的录音时间范围内搜索包括关键词的文字信息。

在步骤303a中，显示搜索到的文字信息。

在显示文字信息的界面隐藏除关键词以外的文字信息；或者，在当前显示文字信息的界面以外的其他界面生成一个新的显示界面，在新生成的界面中显示搜索到的包括关键词的文字信息。

在步骤303b中，显示搜索到的文字信息和对应的录音对象的对象标识。

在显示文字信息的界面隐藏除关键词以外的文字信息和对应的对象标识，或者，在当前显示文字信息的界面以外的其他界面生成一个新的显示界面，在新生成的界面中显示搜索到的包括关键词的文字信息和对应的对象标识。

此外，还通过根据关键词搜索文字信息，显示搜索到的文字信息，方便用户后期查找包括关键词的录音内容，提高查找信息的效率。

在一个示意性的例子中，用户使用手机记录了一段会议上的发言，会议结束后，用户打开该录音的音频文件，该音频文件的播放页面如图6A所示，用户点击转文字选项61后，提取该音频文件中每个录音对象对应的语音片段，并未每个录音对象分配对象标识，共提取出3个语音片段，共有2个录音对象，为每个录音对象分配对象标识，两个对象标识分别为“发言人1”和“发言人2”，根据录音对象的声纹，检测到录音对象“发言人1”是已知身份的联系人“小王”，将对象标识“发言人1”替换为联系人标识“小王”，由于检测到录音对象“发言人2”不是已知身份的联系人，不替换对象标识“发言人2”；将3个语音片段转换为文字信息，以对话的形式在显示界面显示文字信息和对应的对象标识，转换后的文字信息如图6B所示；用户选择对象标识“小王”62，在当前页面隐藏“发言人2”对应的文字信息，只显示“小王”对应的文字信息和对象标识“小王”，显示“小王”对应的文字信息的显示界面如图6C所示；用户点击返回选项63，重新显示全部的文字信息，如图6B所示；用户在搜索框内输入关键词“一快”，搜索得到包括“一快”的文字信息，在当前显示界面只显示包括“一快”的文字信息和文字信息对应的对象标识“发言人B”，如图6D所示。

请参考图7，其示出了本公开一个实施例提供的音频处理装置的结构方框图。该音频处理装置可以通过软件、硬件或两者的结合实现成为上述可提供音频处理方法的终端的全部或者一部分。如图7所示，该装置包括：

提取模块710，被配置为提取音频文件中每个录音对象对应的语音片段，并为每个录音对象分配对象标识；

文字转换模块720，被配置为将每个语音片段转换为文字信息；

第一显示模块730，被配置为对每条文字信息和对应的录音对象的对象标识进行对应显示。

综上所述，本公开实施例所提供的音频处理装置，通过提取音频文件中每个录音对象对应的语音片段，并为每个录音对象分配对象标识，将不同录音对象对应的语音区别开，将每个语音片段转换为文字信息，对每条文字信息和对应的录音对象的标识进行对应显示；避免了利用音频文件查找信息时，需要回放音频文件直到听到需要的信息导致的录音回放耗费时间较长，在听录音时还容易遗漏重要信息的问题，在语音片段转换为文字时将录音内容的文字信息与录音对象对应，能够令用户后期更加便捷地查找音频文件的信息，将文字信息与对象标识对应起来显示也有助于用户将录音内容与录音对象对应，提高了信息查找效率。

请参考图8，其示出了本公开另一个实施例提供的音频处理装置的结构方框图。该音频处理装置可以通过软件、硬件或两者的结合实现成为上述可提供音频处理方法的终端的全部或者一部分。如图8所示，该装置包括：

提取模块810，被配置为提取音频文件中每个录音对象对应的语音片段，并为每个录音对象分配对象标识；

文字转换模块820，被配置为将提取模块810每个语音片段转换为文字信息；

第一显示模块830，被配置为对文字转换模块820转换的每条文字信息和对应的录音对象的对象标识进行对应显示。

可选的，提取模块810还被配置为：

可选的，第一显示模块830还被配置为：

可选的，该装置还包括：

检测模块840，被配置为检测录音对象是否是已知身份的联系人；

标识替换模块850，被配置为当录音对象是已知身份的联系人时，将录音对象的对象标识替换为联系人的联系人标识。

可选的，该装置还包括：

选择接收模块860，被配置为接收选择操作，选择操作是选择对象标识时生成的；

文字选择模块870，被配置为根据选择接收模块860选择操作，从文字信息中选择与对象标识对应的文字信息；

第二显示模块880，被配置为显示文字选择模块870选择的文字信息，或者，显示文字选择模块870选择的文字信息和对象标识。

可选的，该装置还包括：

关键词接收模块890，被配置为接收输入的关键词；

文本搜索模块891，被配置为搜索包括关键词的文字信息；

第三显示模块892，被配置为显示文本搜索模块891搜索到的文字信息，或者，显示文本搜索模块891搜索到的文字信息和对应的录音对象的对象标识。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开一示例性实施例提供了一种音频处理装置，能够实现本公开提供的音频处理方法，该音频处理装置包括：处理器、用于存储处理器可执行指令的存储器；其中，处理器被配置为：

将每个语音片段转换为文字信息；

图9是根据一示例性实施例示出的一种音频处理装置的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)接口912，传感器组件914，以及通信组件916，图像识别组件917。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器918来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，例如组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器，温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图像显示方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器918执行以完成上述图像显示方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

按照时间顺序，将音频文件划分为连续的若干个语音片段，每个语音片段与一个录音对象对应，且相邻的两个语音片段对应的录音对象不同，并为每个录音对象分配对象标识；

将每个语音片段转换为文字信息；

以对话的形式，对每条文字信息和对应的录音对象的对象标识进行对应显示；

所述方法还包括：

接收选择操作，所述选择操作是选择所述对象标识时生成的；

根据所述选择操作，从所述文字信息中选择与所述对象标识对应的文字信息；

显示选择的所述文字信息，或者，显示选择的所述文字信息和所述对象标识，所述对象标识为一个或多个。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

检测所述录音对象是否是已知身份的联系人；

当所述录音对象是已知身份的联系人时，将所述录音对象的所述对象标识替换为所述联系人的联系人标识。

3.根据权利要求1或2任一所述的方法，其特征在于，所述方法还包括：

接收输入的关键词；

搜索包括所述关键词的文字信息；

显示搜索到的所述文字信息，或者，显示搜索到的所述文字信息和对应的录音对象的对象标识。

4.一种音频处理装置，其特征在于，所述装置包括：

提取模块，被配置为按照时间顺序，将音频文件划分为连续的若干个语音片段，每个语音片段与一个录音对象对应，且相邻的两个语音片段对应的录音对象不同，并为每个录音对象分配对象标识；

文字转换模块，被配置为将所述提取模块提取的每个语音片段转换为文字信息；

第一显示模块，被配置为以对话的形式，对所述文字转换模块转换的每条文字信息和对应的录音对象的对象标识进行对应显示；

所述装置还包括：

选择接收模块，被配置为接收选择操作，所述选择操作是选择所述对象标识时生成的；

文字选择模块，被配置为根据所述选择接收模块接收的所述选择操作，从所述文字信息中选择与所述对象标识对应的文字信息；

第二显示模块，被配置为显示所述文字选择模块选择的所述文字信息，或者，显示所述文字选择模块选择的所述文字信息和所述对象标识，所述对象标识为一个或多个。

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

检测模块，被配置为检测所述录音对象是否是已知身份的联系人；

标识替换模块，被配置为当所述检测模块检测到所述录音对象是已知身份的联系人时，将所述录音对象的所述对象标识替换为所述联系人的联系人标识。

6.根据权利要求4或5任一所述的装置，其特征在于，所述装置还包括：

关键词接收模块，被配置为接收输入的关键词；

文本搜索模块，被配置为搜索包括所述关键词的文字信息；

第三显示模块，被配置为显示所述文本搜索模块搜索到的所述文字信息，或者，显示所述文本搜索模块搜索到的所述文字信息和对应的录音对象的对象标识。

7.一种音频处理装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

将每个语音片段转换为文字信息；

所述处理器还被配置为：