CN112632321A

CN112632321A - 音频文件处理方法及装置、音频文件播放方法及装置

Info

Publication number: CN112632321A
Application number: CN201910900442.4A
Authority: CN
Inventors: 王晓涛
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2021-04-09

Abstract

本发明实施例提供一种音频文件处理方法及装置、音频文件播放方法及装置，属于音频信号处理领域。所述方法包括：获取音频文件中每段音频内容在所述音频文件中的开始时间、结束时间，其中，所述每段音频内容包括一句或多句音频内容；获取音频文件中每段音频内容对应的文本内容；以及将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。其有助于用户快速、准确地从音频文件中查找并播放出感兴趣的音频内容段。

Description

音频文件处理方法及装置、音频文件播放方法及装置

技术领域

本发明涉及音频信号处理领域，具体地，涉及一种音频文件处理方法及装置、音频文件播放方法及装置。

背景技术

在会议记录等场景中，通常需要使用音频文件来协助记录会议内容。在相关技术中，对于音频文件中感兴趣的音频内容需要通过快进或者拖拽进度条等方式来寻找。但是，通过快进或者拖拽进度条等方式，无法一次寻找到感兴趣的内容，通常会因为漏掉重要信息而需要反复进行寻找，效率较低。另外，在相关技术中，还通过将音频文件转换成文本，而在文本中查找出感兴趣的内容，但是据此仍然无法准确定位出感兴趣的内容所对应的音频内容在音频文件中的位置。

发明内容

本发明实施例的目的是提供一种音频文件处理方法及装置、音频文件播放方法及装置，用于至少解决上述技术问题。

为了实现上述目的，本发明实施例提供一种音频文件处理方法，所述方法包括：获取音频文件中每段音频内容在所述音频文件中的开始时间、结束时间，其中，所述每段音频内容包括一句或多句音频内容；获取音频文件中每段音频内容对应的文本内容；以及将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。

可选的，所述获取音频文件中每段音频内容的开始时间及结束时间包括：将所述音频文件分割成多个分片，其中每个所述分片的时间长度小于预设时间，每句音频内容包括一个或多个所述分片；将所述多个分片按照时间顺序输入至语音转写引擎中以获取所述语音转写引擎返回的文本结果，所述文本结果包括：分片对应的文本内容、分片的顺序编号、分片是否为一句音频内容的最后一个分片的标志；基于所述文本结果，确定所述每段音频内容包括的特定分片，所述特定分片为所述每段音频内容包括的第一个分片和/或最后一个分片；以及基于所述每段音频内容包括的所述特定分片的顺序编号和每个所述分片的时间长度而确定所述每段音频内容的开始时间及结束时间。

可选的，所述获取音频文件中每段音频内容对应的文本内容包括：基于所述每段音频内容包括的所述特定分片在所述音频文件中的顺序编号和每个所述分片对应的文本内容而确定每段音频内容对应的文本内容。

可选的，所述预设时间不大于200ms。

可选的，所述将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联包括：将所述每段音频内容的开始时间和结束时间存储于所述每段音频内容对应的文本内容的特定位置处，和/或所述方法还包括以下一者或多者：对应存储所述音频文件和所述关联后的文本内容；或隐藏对所述每段音频内容的开始时间和结束时间的显示。

相应的，本发明实施例还提供一种音频文件播放方法，所述音频文件根据上述音频文件处理方法而进行处理，所述音频文件播放方法包括：识别用户输入或选择的关键词；从所述音频文件的关联后的文本内容中检索所述关键词；确定包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间及结束时间；以及基于所述开始时间及所述结束时间播放所述音频文件。

相应的，本发明实施例还提供一种音频文件处理装置，所述装置包括：第一获取模块，用于获取音频文件中每段音频内容在所述音频文件中的开始时间、结束时间，其中，所述每段音频内容包括一句或多句音频内容；第二获取模块，用于获取音频文件中每段音频内容对应的文本内容；以及关联模块，用于将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。

相应的，本发明实施例还提供一种音频文件播放装置，其特征在于，所述音频文件根据上述音频文件处理方法而进行处理，所述音频文件播放装置包括：识别模块，用于识别用户输入或选择的关键词；检索模块，用于从所述音频文件的关联后的文本内容中检索所述关键词；确定模块，用于确定包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间及结束时间；以及播放模块，用于基于所述开始时间及所述结束时间播放所述音频文件。

相应的，本发明实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行：上述的音频文件处理方法和/或上述的音频文件播放方法。

相应的，本发明实施例还提供一种电子设备，所述电子设备包括至少一个处理器、与处理器连接的至少一个存储器、以及总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述的音频文件处理方法和/或上述的音频文件播放方法。

通过上述技术方案，将音频文件的每段音频内容的开始时间、结束时间和每段音频内容对应的文本内容进行关联生成关联后的文本内容，从而可以实现，基于用户输入或选择的关键词，而快速、准确地从音频文件中查找并播放出关键词所在音频内容段。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1示出了根据本发明一实施例的音频文件处理方法的流程示意图；

图2示出了根据本发明一实施例的获取每段音频内容的开始时间及结束时间的流程示意图；

图3示出了根据本发明一实施例的音频文件播放方法的流程示意图；

图4示出了根据本发明一实施例的音频文件处理装置的结构框图；

图5示出了根据本发明一实施例的音频文件播放装置的结构框图；以及

图6示出了根据本发明一实施例的电子设备的结构框图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1示出了根据本发明一实施例的音频文件处理方法的流程示意图。如图1所示，本发明实施例提供一种音频文件处理方法，所述音频文件可以音频文件，或者也可以是包含音频文件的视频文件等。所述音频文件处理方法可以包括步骤S110至步骤S130。

步骤S110，获取音频文件中每段音频内容在所述音频文件中的开始时间、结束时间。

所述每段音频内容可以包括一句或多句音频内容。以关于以下一段语音的音频文件为例：“今天上午吃过早饭，带着一把水果刀出门，准备用来给孩子削苹果吃。在我走到长江道路口等红绿灯过马路，绿灯时我开始过马路，这时一辆白色的迈腾没有减速直接冲了过来，时速至少有60迈。我赶紧停下来车从过前面半米的位置过去了，我抱怨了一句”。在这段语音中，可以将采用标点符号划分的音频确定为是一句音频内容，即，可以识别音频中的一个短暂停顿作为一句音频内容的结束。可以理解，本发明实施例并不限制于此，可以根据需要设置一句音频内容中包括多个短暂停顿。

可选的，每段音频内容在音频文件中的开始时间、结束时间可以通过人工从音频文件中获取，然后人工输入至音频文件处理装置中。或者也可以自动获取每段音频内容在音频文件中的开始时间、结束时间，这将在后文中进行描述。

步骤S120，获取音频文件中每段音频内容对应的文本内容。

可以采用任意合适的语音转文本的方法来获取音频内容对应的文本内容。可选的，可以首先获取整个音频文件的文本内容，然后再从整个音频文件的文本内容中获取每段音频内容对应的文本内容。

可以理解，步骤S110和步骤S120的执行顺序可以是任意的，本发明并不进行特定限制。

步骤S130，将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。

关联的方式可以是任意的，例如，针对一段音频内容，可以将其开始时间和结束时间设置于文本内容的特定位置以进行关联，例如可以设置于该段音频内容的文本内容的开始位置、结束位置、或者文本中间的某一位置(例如第n个文字之后或之前，其中n为任意合适的整数)。

将音频文件的每段音频内容的开始时间、结束时间和每段音频内容对应的文本内容进行关联生成关联后的文本内容，并对应存储音频文件及其关联后的文本内容，从而可以实现，基于用户输入或选择的关键词，而快速、准确地通过文本内容中的时间属性从音频文件中查找出对应的音频内容段。

在可选实施例中，本发明实施例提供的音频文件处理方法还可以包括对应存储音频文件和音频文件的关联后的文本内容。例如，可以将音频文件和音频文件的关联后的文本内容一同存储到ES(ElasticSearch，弹性搜索)服务器中进行索引，具体可以调用ES服务器的保存接口，将音频文件和音频文件的关联后的文本内容保存到ES服务器中。可选的，ES服务器中保存也可以是音频文件的URL(Uniform Resource Locator，统一资源定位符)，而无需对整体音频文件进行存储。创建索引时，可以对文本内容中的文字进行分词，以方便随时通过关联后的文本内容获取用户感兴趣的音频内容段。

在可选实施例中，当从例如ES服务器中获取某一音频文件的对应的关联后的文本内容并在网页上进行显示时，可以隐藏每段音频内容的开始时间和结束时间的显示，以不影响文本内容的观看效果。可以通过正则或字符串查找的方式，对开始时间和结束时间内容设置隐藏属性。以关联后的文本内容是“我带着一把水果刀出门{7:18}，准备用来给孩子削苹果吃{17:26}”为例，可通过以下方式隐藏开始时间和结束时间，如：“我带着一把水果刀出门{7:18}，准备用来给孩子削苹果吃<spanstyle＝"display:none">{17:26}。”，这样在网页呈现时将会只剩文字内容：“我带着一把水果刀出门，准备用来给孩子削苹果吃。”完全不影响文本内容的观看效果。

在可选实施例中，可以自动获取每段音频内容在音频文件中的开始时间、结束时间。如图2所示，获取每段音频内容在音频文件中的开始时间、结束时间可以包括以下步骤：

步骤S202，将所述音频文件分割成多个分片。

可以使用任意合适的媒体分割器对音频文件进行，分割出的每个分片的时间长度可以小于预设时间，所述预设时间例如可以是任意合适的值。这里，对音频文件分割的目的是模拟语音接收装置(例如，麦克风)接收的音频流，因而应尽可能控制分片的时间长度尽可能短。可选的，所述预设时间可以设置为不大于200ms，每句音频内容可以包括一个或多个所述分片。

举例而言，音频文件的长度如果为2分钟，预设时间为200ms，则音频文件将被分割成600个分片。可选的，也可以根据不同类型或厂商的语音转写引擎的不同要求而设置分片的时间长度。

步骤S204，将所述多个分片按照时间顺序输入至语音转写引擎中以获取所述语音转写引擎返回的文本结果。

语音转写引擎返回的文本结果可以包括：分片的文本内容、分片的顺序编号、分片是否为一句音频内容的最后一个分片的标志。

例如，可以对各分片按照时间先后进行顺序编号，如果音频文件被分割成600个分片，则各分片的顺序编号可以为0-599。将分片按照顺序编号输入至语音转写引擎，相当于向语音转写引擎输送音频流，然后接收语音转写引擎返回的文本结果。

分片的顺序编号例如可以由参数seq来表征。文本结果中分片是否为一句音频内容的最后一个分片的标志可以例如由参数end表征，当end＝1时，确定分片为一句音频内容的最后一个分片，当end＝0时，确定分片不是一句音频内容的最后一个分片。例如，在识别出最后一个分片后，可以在该分片的文本内容之后添加标点符号，以方便从文本内容中识别语句。

步骤S206，基于所述文本结果，确定所述每段音频内容包括的特定分片。

所述特定分片为所述每段音频内容包括的按时间顺序的第一个分片和/或最后一个分片。如前所述，每段音频内容可以包括一句或多句音频内容，依据步骤S204中的分片是否为一句音频内容的最后一个分片的标志，可以确定出每段音频内容的最后一个分片。一段音频内容的第一个分片为在该段音频内容的前一段音频内容的最后一个分片之后的一个分片。

步骤S208，基于所述每段音频内容包括的所述特定分片的顺序编号和每个所述分片的时间长度而确定所述每段音频内容的开始时间及结束时间。

音频文件的开始时间为0，结束时间为音频文件的总时间长度。则可以默认第一段音频内容的开始时间为0，最后一段音频内容的开始时间为所述总时间长度，而无需再对这两者进行计算。

在可选实施例中，特定分片可以是一段音频内容包括的第一个分片，对于第i(i为正整数)段音频内容来说，其开始时间T_b(i)＝seq_f(i)*T，其中seq_f(i)为第i段音频内容的第一个分片的顺序编号，T为每个分片的时间长度。第i段音频内容的结束时间可以根据下一段(即，i+1段)音频内容的开始时间计算，则第i段音频内容的结束时间T_e(i)＝seq_f(i+1)*T，其中seq_f(i+1)为第i段音频内容的第一个分片的顺序编号。可选的，所计算的开始时间可以采用向下取整的方式，所计算的结束时间可以采用向上取整的方式，以使得计算出的一段的音频内容开始时间和结束时间之间的时间段能够完全覆盖该段音频内容。

在可选实施例中，特定分片可以是一段音频内容包括的最后一个分片，对于第i(i为正整数)段音频内容来说，其结束时间T_e(i)＝seq_l(i)*T。其中seq_l(i)为第i段音频内容的第一个分片的顺序编号，T为每个分片的时间长度。第i段音频内容的开始时间可以根据上一段(即，i-1段)音频内容的结束时间计算，则第i段音频内容的开始时间T_b(i)＝seq_l(i-1)*T，其中seq_l(i-1)为第i段音频内容的第一个分片的顺序编号。可选的，所计算的开始时间可以采用向下取整的方式，所计算的结束时间可以采用向上取整的方式，以使得计算出的一段的音频内容开始时间和结束时间之间的时间段能够完全覆盖该段音频内容。

在可选实施例中，特定分片可以是一段音频内容包括的第一个分片和最后一个分片，对于第i(i为正整数)段音频内容来说，其开始时间T_b(i)＝seq_f(i)*T，其中seq_f(i)为第i段音频内容的第一个分片的顺序编号，T为每个分片的时间长度。第i段音频内容的结束时间T_e(i)＝seq_f(i)*T，其中seq_l(i)为第i段音频内容的最后一个分片的顺序编号。可选的，所计算的开始时间可以采用向下取整的方式，所计算的结束时间可以采用向上取整的方式，以使得计算出的一段的音频内容开始时间和结束时间之间的时间段能够完全覆盖该段音频内容。

进一步的，可以基于每段音频内容包括的所述特定分片在所述音频文件中的顺序编号和每个所述分片对应的文本内容而确定每段音频内容对应的文本内容。每段音频内容对应的文本内容和每段音频内容的开始时间和结束时间可以同步获取。获取到每段音频内容在音频文件中的开始时间、结束时间及对应的文本内容之后，可以对每段音频内容的开始时间、结束时间及对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容，以方便基于关于文本的关键词而查找对应的音频内容段。

以关于以下一段语音的音频文件为例对本发明实施例中提供的音频文件处理方法进行举例描述：“今天上午吃过早饭，带着一把水果刀出门，准备用来给孩子削苹果吃。在我走到长江道路口等红绿灯过马路，绿灯时我开始过马路，这时一辆白色的迈腾没有减速直接冲了过来，时速至少有60迈。我赶紧停下来车从过前面半米的位置过去了，我抱怨了一句”。所述音频文件的时间长度为2min。

在该实施例中，每段音频内容可以包括一句音频内容，每个分片的时间长度可以设置为200ms，特定分片是指每段音频内容包括的按时间顺序的最后一个分片，开始时间和结束时间以秒为单位，结束时间向上取整，开始时间，向下取整。对音频文件进行处理的过程如下：

将音频文件进行分割。可知，所述音频文件可以分成600个分片，这600个分片按照时间先后顺序的顺序编号为0-599。

将分割出的所述600个分片按照时间顺序输入至语音转写引擎中以获取语音转写引擎返回的文本结果，文本结果中包括有分片的文本内容、分片的顺序编号、分片是否为一句音频内容的最后一个分片的标志。由于该实施例中，每段音频内容可以包括一句音频内容，因而，所述标志也可认为是分片是否为一段音频内容的最后一个分片的标志。

基于语音转写引擎返回的文本结果可以确定每段音频内容的最后一个分片。可知，可以基于所述标志来确定所述最后一个分片。

基于所述每段音频内容包括的所述特定分片的顺序编号和每个所述分片的时间长度而确定所述每段音频内容的开始时间、结束时间及其对应的文本内容。举例而言，语音撰写引擎的文本结果，例如经识别后返回的内容为：“今天上午吃过早饭”，seq_l＝38,那么该段音频内容的结束时间为：T_e＝38*200ms/1000＝7.6s≈8s，该段音频内容的开始时间为0s。下一段音频内容的返回结果经识别后为“带着一把水果刀出门，seq＝88”，那么该段音频内容的结束时间为：T_e＝88*200ms/1000＝17.6s≈18s，开始时间根据上一段音频内容的最后一个分片的位置进行计算，则其开始时间为T_b＝38*200ms/1000＝7.6s≈7s。依次类推，分别确定出每段音频内容的开始时间、结束时间及其对应的文本内容。

对每段音频内容的开始时间、结束时间及对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。例如，可以将每段音频内容的开始时间、结束时间设置于该段音频内容的结束位置，即采用以下规则进行关联：文字内容{开始时间:结束时间}。关联后的文本内容为“今天上午吃过早饭{0:8}，带着一把水果刀出门{7:18}，准备用来给孩子削苹果吃{17:26}，在我走到长江道路口等红绿灯过马路{25:34}，绿灯时我开始过马路{34:43}，这时一辆白色的迈腾没有减速直接冲了过来{43:80}，时速至少有60迈{79:89}，我赶紧停下来车从过前面半米的位置过去了{89:113}，我抱怨了一句！{112:120}”。

之后，可以对应存储音频文件和音频文件的关联后的文本内容。例如，可以存储至ES服务器中，以便于进行检索。

可以理解，本发明实施例提供的音频文件处理方法可以适用于任意语种的音频文件，音频文件的语种和文本内容的语种可以一致也可以不一致，例如，音频文件可以是英语音频，而转写出的文本内容可以是中文内容。如此，可以方便用户使用自己熟悉的语种进行检索。

图3示出了根据本发明一实施例的音频文件播放方法的流程示意图。如图2所示，本发明实施例还提供一种音频文件播放方法，所述音频文件可以音频文件，或者也可以是包含音频文件的视频文件等，所述音频文件根据权本发明中任意实施例所述音频文件处理方法而进行处理。所述音频文件播放方法可以包括步骤S310至步骤S340。

步骤S310，识别用户输入或选择的关键词。

可选的，可以为用户提供检索接口，用户可以在检索接口中输入关键词进行检索。或者可选的，音频文件对应的关联后的文本内容可以被显示，用户可以在显示的文本内容中选择关键词进行音频文件的检索。

所述关键词可以是单个字、词组、短句、一句或多句文本内容。

步骤S320，从所述音频文件的关联后的文本内容中检索所述关键词。

在当前未显示所述关联后的文本内容的情况下，识别到用户输入的关键词之后，可以从音频文件的关联后的文本内容中检索所述关键词，以确定是否包含所述关键词。在可选情况下，如果检索到关键词，则可以对所述关联后的文本内容进行显示，并且在显示时标记所述关键词，例如，高亮所述关键词等。

在当前已显示所述关联后的文本内容的情况下，识别到用户输入或在文本内容中选择的关键词之后，可以从音频文件的关联后的文本内容中检索所述关键词。如果检索到关键词，则可以标记所述关键词，例如，高亮所述关键词等。

比如用户输入或选择的关键词为“水果刀”，则可以从关联后的文本内容中标记出该关键词，其形式例如可以为“今天上午吃过早饭{0:7}，带着一把水果刀出门{7:18}，”其中水果刀为标记出的关键字，时间属性和标记属性均不显示。

步骤S330，确定包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间及结束时间。

由于一段音频内容的开始时间及结束时间可以设置于文本内容的特定位置，检索出关键词后，可以从关键词开始寻找所述特定位置。例如，一段音频内容的如果开始时间及结束时间设置于该段音频内容对应的文本内容的结束位置，则可以从关键词开始向后寻找以找到第一次出现的开始时间及结束时间，即为包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间及结束时间。例如，对于用户选择的关键词“水果刀”，可以获取到包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间为第7秒、结束时间为第18秒。

可选的，如果用户输入或选择的关键词包括多句文本内容，则包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间为所述多句文本内容的开始处对应的音频内容的开始时间，结束时间为所述多句句文本内容的结束处对应的音频内容的结束时间。

步骤S340，基于所述开始时间及所述结束时间播放所述音频文件。

在音频文件中从所述开始时间进行播放，在所述结束时间处暂停播放，用户进一步的可以根据需要选择是否往后继续播放。

如此，实现了根据用户输入或选择的关键词而播放对应的音频内容。

本发明实施例提供的音频文件处理方法和音频文件播放方法尤其适用于公安业务场景中，询问过程中一般都会进行录音录像并记录笔录，在案件办理过程中一般都是看笔录，如果有需要会去查看原始的音视频文件；随着新《公安机关办理行政案件程序规定》施行，新增了***理流程，在***理流程中不需要制作文书，只要有音视频记录即可，因此产生了大量音视频文件。对于公安机关的法制部门，在审阅卷宗时只能通过查看音视频文件了解案情，并且无法从音视频文件中快速定位出感兴趣的内容，效率低下。通过采用本发明实施例提供的音频文件处理方法和音频文件播放方法，可以快速、准确地从音视频文件中查找并播放出感兴趣的内容，从而显著提高办公效率。

图4示出了根据本发明一实施例的音频文件处理装置的结构框图。如图4所示，本发明实施例还提供一种音频文件处理装置，所述音频文件可以音频文件，或者也可以是包含音频文件的视频文件等。所述音频文件处理装置可以包括：第一获取模块410，用于获取音频文件中每段音频内容在所述音频文件中的开始时间、结束时间，其中，所述每段音频内容包括一句或多句音频内容；第二获取模块420，用于获取音频文件中每段音频内容对应的文本内容；以及关联模块430，用于将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。其可以实现基于用户输入或选择的关键词，而快速、准确地通过文本内容中的时间属性从音频文件中查找出对应的音频内容段。

可选的，关联模块430可以所述每段音频内容的开始时间和结束时间存储于所述每段音频内容对应的文本内容的特定位置处以实现所述关联，所述特定位置处例如可以是每段音频内容对应的文本内容的开始处和结束处。

在一些可选实施例中，第一获取模块可以根据以下步骤来获取每段音频内容的开始时间及结束时间：将所述音频文件分割成多个分片，其中每个所述分片的时间长度小于预设时间，所述预设时间例如不大于200ms。每句音频内容包括一个或多个所述分片；将所述多个分片按照时间顺序输入至语音转写引擎中以获取所述语音转写引擎返回的文本结果，所述文本结果包括：分片对应的文本内容、分片的顺序编号、分片是否为一句音频内容的最后一个分片的标志；基于所述文本结果，确定所述每段音频内容包括的特定分片，所述特定分片为所述每段音频内容包括的第一个分片和/或最后一个分片；以及基于所述每段音频内容包括的所述特定分片的顺序编号和每个所述分片的时间长度而确定所述每段音频内容的开始时间及结束时间。进一步可选的，第二获取模块，可以基于所述每段音频内容包括的所述特定分片在所述音频文件中的顺序编号和每个所述分片对应的文本内容而确定每段音频内容对应的文本内容。

在一些可选实施例，本发明实施例提供的音频文件处理装置还可以包括存储模块，用于对应存储所述音频文件和所述关联后的文本内容。进一步可选的，在对关联后的文本内容进行显示时，可以隐藏对每段音频内容的开始时间和结束时间的显示，以不影响关联后的文本内容的查看效果。

本发明实施例提供的音频文件处理装置的具体工作原理及益处与上述本发明实施例提供的音频文件处理方法的具体工作原理及益处相同，这里将不再赘述。

图5示出了根据本发明一实施例的音频文件播放装置的结构框图。如图5所示，本发明实施例还提供一种音频文件播放装置，所述音频文件可以音频文件，或者也可以是包含音频文件的视频文件等，所述音频文件根据权本发明中任意实施例所述音频文件处理方法而进行处理。所述音频文件播放装置可包括：识别模块510，用于识别用户输入或选择的关键词；检索模块520，用于从所述音频文件的关联后的文本内容中检索所述关键词；确定模块530，用于确定包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间及结束时间；以及播放模块540，用于基于所述开始时间及所述结束时间播放所述音频文件。其实现了根据用户输入或选择的关键词而播放对应的音频内容。

本发明实施例提供的音频文件播放装置的具体工作原理及益处与上述本发明实施例提供的音频文件播放方法的具体工作原理及益处相同，这里将不再赘述。

所述音频文件处理装置包括处理器和存储器，上述第一获取模块、第二获取模块、关联模块、存储模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数执行本发明任意实施例所述的音频文件处理方法。

所述音频文件播放装置包括处理器和存储器，上述识别模块、检索模块、确定模块、播放模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来执行根据本发明任意实施例所述的音频文件播放方法。

相应的，本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行：根据本发明任意实施例所述的音频文件处理方法和/或根据本发明任意实施例所述的音频文件播放方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行：根据本发明任意实施例所述的音频文件处理方法和/或根据本发明任意实施例所述的音频文件播放方法。

本发明实施例提供了一种电子设备，如图6所示，电子设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703；其中，处理器701、存储器702通过总线703完成相互间的通信；处理器701用于调用存储器702中的程序指令，以执行根据本发明任意实施例所述的音频文件处理方法和/或根据本发明任意实施例所述的音频文件播放方法。本发明实施例的电子设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

一种音频文件处理方法，所述方法包括：获取音频文件中每段音频内容在所述音频文件中的开始时间、结束时间，其中，所述每段音频内容包括一句或多句音频内容；获取音频文件中每段音频内容对应的文本内容；以及将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。

所述获取音频文件中每段音频内容的开始时间及结束时间包括：将所述音频文件分割成多个分片，其中每个所述分片的时间长度小于预设时间，每句音频内容包括一个或多个所述分片；将所述多个分片按照时间顺序输入至语音转写引擎中以获取所述语音转写引擎返回的文本结果，所述文本结果包括：分片对应的文本内容、分片的顺序编号、分片是否为一句音频内容的最后一个分片的标志；基于所述文本结果，确定所述每段音频内容包括的特定分片，所述特定分片为所述每段音频内容包括的第一个分片和/或最后一个分片；以及基于所述每段音频内容包括的所述特定分片的顺序编号和每个所述分片的时间长度而确定所述每段音频内容的开始时间及结束时间。

所述获取音频文件中每段音频内容对应的文本内容包括：基于所述每段音频内容包括的所述特定分片在所述音频文件中的顺序编号和每个所述分片对应的文本内容而确定每段音频内容对应的文本内容。

所述预设时间不大于200ms。

所述将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联包括：将所述每段音频内容的开始时间和结束时间存储于所述每段音频内容对应的文本内容的特定位置处，和/或所述方法还包括以下一者或多者：对应存储所述音频文件和所述关联后的文本内容；或隐藏对所述每段音频内容的开始时间和结束时间的显示。

一种音频文件播放方法，所述音频文件根据上述音频文件处理方法而进行处理，所述音频文件播放方法包括：识别用户输入或选择的关键词；从所述音频文件的关联后的文本内容中检索所述关键词；确定包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间及结束时间；以及基于所述开始时间及所述结束时间播放所述音频文件。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种音频文件处理方法，其特征在于，所述方法包括：

获取音频文件中每段音频内容在所述音频文件中的开始时间、结束时间，其中，所述每段音频内容包括一句或多句音频内容；

获取音频文件中每段音频内容对应的文本内容；以及

将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。

2.根据权利要求1所述的音频文件处理方法，其特征在于，所述获取音频文件中每段音频内容的开始时间及结束时间包括：

将所述音频文件分割成多个分片，其中每个所述分片的时间长度小于预设时间，每句音频内容包括一个或多个所述分片；

将所述多个分片按照时间顺序输入至语音转写引擎中以获取所述语音转写引擎返回的文本结果，所述文本结果包括：分片对应的文本内容、分片的顺序编号、分片是否为一句音频内容的最后一个分片的标志；

基于所述文本结果，确定所述每段音频内容包括的特定分片，所述特定分片为所述每段音频内容包括的第一个分片和/或最后一个分片；以及

基于所述每段音频内容包括的所述特定分片的顺序编号和每个所述分片的时间长度而确定所述每段音频内容的开始时间及结束时间。

3.根据权利要求2所述的音频文件处理方法，其特征在于，所述获取音频文件中每段音频内容对应的文本内容包括：

基于所述每段音频内容包括的所述特定分片在所述音频文件中的顺序编号和每个所述分片对应的文本内容而确定每段音频内容对应的文本内容。

4.根据权利要求2或3所述的音频文件处理方法，其特征在于，所述预设时间不大于200ms。

5.根据权利要求1所述的音频文件处理方法，其特征在于，

所述将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联包括：将所述每段音频内容的开始时间和结束时间存储于所述每段音频内容对应的文本内容的特定位置处，和/或

所述方法还包括以下一者或多者：对应存储所述音频文件和所述关联后的文本内容；或隐藏对所述每段音频内容的开始时间和结束时间的显示。

6.一种音频文件播放方法，其特征在于，所述音频文件根据权利要求1至5中任一项权利要求所述音频文件处理方法而进行处理，所述音频文件播放方法包括：

识别用户输入或选择的关键词；

从所述音频文件的关联后的文本内容中检索所述关键词；

确定包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间及结束时间；以及

基于所述开始时间及所述结束时间播放所述音频文件。

7.一种音频文件处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取音频文件中每段音频内容在所述音频文件中的开始时间、结束时间，其中，所述每段音频内容包括一句或多句音频内容；

第二获取模块，用于获取音频文件中每段音频内容对应的文本内容；以及

关联模块，用于将所述每段音频内容的开始时间、结束时间及所述每段音频内容对应的文本内容进行关联，以生成所述音频文件的关联后的文本内容。

8.一种音频文件播放装置，其特征在于，所述音频文件根据权利要求1至5中任一项权利要求所述音频文件处理方法而进行处理，所述音频文件播放装置包括：

识别模块，用于识别用户输入或选择的关键词；

检索模块，用于从所述音频文件的关联后的文本内容中检索所述关键词；

确定模块，用于确定包括所述关键词的文本内容所对应的音频内容在所述音频文件中的开始时间及结束时间；以及

播放模块，用于基于所述开始时间及所述结束时间播放所述音频文件。

9.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令用于使得机器执行：根据权利要求1至5中任一项所述的音频文件处理方法和/或根据权利要求6所述的音频文件播放方法。

10.一种电子设备，其特征在于，所述电子设备包括至少一个处理器、与处理器连接的至少一个存储器、以及总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行根据权利要求1至5中任一项所述的音频文件处理方法和/或根据权利要求6所述的音频文件播放方法。