CN109273008A

CN109273008A - 语音文件的处理方法、装置、计算机存储介质和终端

Info

Publication number: CN109273008A
Application number: CN201811198156.XA
Authority: CN
Inventors: 查文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-01-25

Abstract

本发明公开了一种语音文件的处理方法、装置、计算机存储介质及终端，属于语音处理领域。所述方法包括：获取待处理的语音文件，该语音文件中包括m种声音特征的语音数据，m为大于1的整数；对该语音文件进行声纹识别，得到m种声音特征的语音数据；对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本；按照不同的显示格式，显示m种声音特征的语音数据对应的文本。通过本发明，可以将不同说话人的文本转换结果用不同的显示格式显示，便于用户区分不同说话人的说话内容，扩展了语音文件的显示方式。

Description

语音文件的处理方法、装置、计算机存储介质和终端

技术领域

本发明涉及语音技术领域，特别涉及一种语音文件的处理方法、装置、计算机存储介质和终端。

背景技术

目前，为了便于用户快速获知语音内容，可以将待收听的语音文件转换为文本，然后将转换后的文本展示给用户，如此，用户无需收听语音文件，通过展示的文本即可快速获知语音内容。

相关技术中，提供了一种语音文件的处理方法，包括：对于待处理的任一语音文件，先对该语音文件进行文本转换，得到该语音文件对应的文本，然后按照统一的显示格式，显示该语音文件对应的文本，也即是，该语音文件的全部语音内容均采用统一的显示格式进行显示。

相关技术中语音文件的显示形式单一，当语音文件中包括多个说话人的语音，根据统一的显示格式，用户将无法区分出不同说话人的说话内容。

发明内容

本发明实施例提供了一种语音文件的处理方法、装置、计算机存储介质和终端，可以用于解决相关技术中存在的语音文件的显示形式单一，无法区分不同说话人的说话内容的问题。所述技术方案如下：

一方面，提供了一种语音文件的处理方法，所述方法包括：

获取待处理的语音文件，所述语音文件中包括m种声音特征的语音数据，所述m为大于1的整数；

对所述语音文件进行声纹识别，得到所述m种声音特征的语音数据；

对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本；

按照不同的显示格式，显示所述m种声音特征的语音数据对应的文本。

一方面，提供了一种语音文件的处理装置，所述装置包括：

获取模块，用于获取待处理的语音文件，所述语音文件包括m种声音特征的语音数据，所述为大于1的整数；

识别模块，用于对所述语音文件进行声纹识别，得到所述m种声音特征的语音数据；

文本转换模块，用于对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本；

显示模块，用于按照不同的显示格式，显示所述m种声音特征的语音数据对应的文本。

一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述的语音文件的处理方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述的语音文件的处理方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，获取包括m种声音特征的语音文件，然后对该语音文件进行声纹识别，并对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本，之后按照不同的显示格式，显示该m种声音特征的语音文件对应的文本，如此，可以将不同语音特征的文本用不同的显示格式显示，扩展了语音文件的显示方式。由于不同语音特征可以指示不同的说话人，因此，也就可以将不同说话人的说话内容用不同的显示格式显示出来，从而便于用户根据不同显示格式直观地区分出说话人。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例涉及的一种实施环境的示意图；

图2是本发明实施例提供的一种终端10的逻辑结构示意图；

图3是本发明实施例涉及的另一种实施环境的示意图；

图4是本发明实施例提供的一种语音文件的处理方法流程图；

图5是本发明实施例提供的一种语音文件的处理结果示意图；

图6是本发明实施例提供的一种语音文件的处理装置的结构框图；

图7是本发明实施例提供的一种终端700的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例的应用场景予以说明。

本发明实施例提供的语音文件的处理方法，应用于将语音文件以文本的形式展示给用户的场景中，使得用户无需从前到后地反复收听语音文件，也能快速、准确地获知语音文件的语音内容，从而提高了用户对语音内容的获取效率。

相关技术中，在将语音文件转换为文本之后，通常采用统一的显示格式显示语音文件对应的文本，这样的话，当该语音文件中包括多个说话人的语音时，用户也就无法从所显示的文本中区分出不同说话人的说话内容。比如，当语音文件中包括两个说话人的语音时，从统一显示的文本中将无法区分出哪部分文本是第一个说话人的说话内容，哪部分文本是第二个说话人的说话内容，也即是，无法分辨出哪句话是谁说的。如果用户想要区分清楚，则需要用户反复收听语音文件后进行标记，用户操作较为繁琐，且浪费了用户的时间。

本发明实施例中，为了便于用户区分不同说话人的语音内容，提供了一种能够从语音文件中识别出不同语音特征的语音数据，然后将不同语音特征的语音数据对应的文本，采用不同的显示格式显示出来的语音文件处理方法。其中，该语音文件为多人参与说话的语音文件，比如，该语音文件可以为会议录音文件、采访录音文件或多人演唱的歌曲文件等。

具体地，本发明实施例可以通过声纹识别进程、文本转换进程和文本显示进程这3个进程完成本发明实施例提供的文本显示方法。其中，声纹识别进程用于对语音文件进行声纹识别，以识别出该语音文件中的m种声音特征的语音数据。文本转换进程用于对m种声音特征中每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本。文本显示进程用于按照不同的显示格式，显示m种声音特征的语音数据对应的文本。实际应用中，这3个进程可以按先后顺序执行，也可以同步执行，具体可以根据实际需要进行设置，本发明实施例对此不做限定。也即是，本发明实施例中，可以对语音文件全部识别完成之后，再进行文本转换和显示，也可以边识别，边进行文本转换和显示，本发明实施例对此不做限定。

下面，对本发明实施例涉及的实施环境进行介绍。

图1是本发明实施例涉及的一种实施环境的示意图，如图1所示，该实施环境包括终端10。终端10至少包括处理组件和显示组件。处理组件用于从语音文件中识别出不同的m种声音特征的语音数据，对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本。显示组件用于按照不同的m个显示格式，显示m种声音特征的语音数据对应的文本。其中，每种声音特征为一个说话人的声音的特征，用于识别一个说话人的声音，比如，可以为音色特征、音高特征或音频特征等。

需要说明的是，图1仅是以终端10为计算机为例进行说明，而实际应用中，终端10还可以为手机或平板电脑等电子设备。

可选地，请参考图2，该终端10可以包括声纹识别模块11、文本转换模块12、判断模块13和显示模块14。其中，声纹识别模块11用于对语音文件中的语音进行声纹识别，以识别出不同说话人的声音。文本转换模块12用于对语音文件进行文本转换，以将语音文件中的语音转换为文本。判断模块13用于在文本转换的过程中，判断所转换的语音是否为不同说话人的语音，如果是，则通过显示模块14，将不同说话人的语音对应的文本，用不同的显示格式显示，如果否，则通过文本转换模块12继续对语音文件进行文本转换。

图3是本发明实施例涉及的另一种实施环境的示意图，该实施环境包括终端20和服务器30，终端20和服务器30可以通过有线网络和无线网络进行连接。

在一个实施例中，终端20可以将待展示的语音文件发送给服务器30，由服务器30从语音文件中识别出不同的m种声音特征的语音数据，对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本，并将每种声音特征的语音数据对应的文本指示给终端20，由终端20按照不同的显示格式，显示m种声音特征的语音数据对应的文本。可选地，服务器30可以将整个语音文件的文本发送给终端20，并在该语音文件的文本中标记出每种声音特征的语音数据对应的文本的所在位置。其中，不同的显示格式可以由终端20设置，也可以由服务器30设置，本发明实施例对此不做限定。

需要说明的是，图3以终端20为手机为例进行说明，而实际应用中，终端20还可以为平板电脑或计算机等电子设备。

本发明实施例提供的语音文件的处理方法可以由图1中的终端10执行，也可以由图2中的终端20和服务器30交互执行，接下来将以执行主体为终端为例进行详细说明。图4是本发明实施例提供的一种语音文件的处理方法的流程图，如图4所示，该方法包括如下步骤：

步骤401：获取待处理的语音文件，该语音文件中包括m种声音特征的语音数据。

需要说明的是，所述m为大于1的整数，也即是，该语音文件中包括多种声音特征的语音数据。其中，每种语音特征是指一个说话人的声音的特征，用于识别一个说话人的声音。因此，该语音文件中包括m个说话人的声音数据，是由多个说话人的说话声音组成。具体地，声音特征可以为说话人的音色特征、声波特征或声纹特征等，本发明实施例对此不做限定。

具体地，该语音文件可以为录音文件或多媒体影音文件等。比如，当该语音文件为录音文件时，该录音文件可以为会议录音文件或采访录音文件等；当该语音文件为多媒体影音文件时，该多媒体影音文件可以为歌曲文件或视频中的音频文件等。示例地，该多媒体影音文件可以为电影的音频文件。

具体地，该语音文件可以通过录音得到，可以从本地存储空间获取得到，可以从网络中下载得到，可以从音视频文件中获取得到，也可以从其他设备接收得到，本发明实施例对该语音文件的获取方式不做限定。比如，终端可以根据录音指令进行录音，得到该语音文件。

步骤402：对该语音文件进行声纹识别，得到m种声音特征的语音数据。

本发明实施例中，可以通过对语音文件中的语音进行声纹识别，从该语音文件中识别出m种声音特征的语音数据。

具体地，从语音文件中识别出m种声音特征的语音数据可以包括以下两种实现方式：

第一种实现方式：对该语音文件进行声纹识别，以从该语音文件中识别出该m种声音特征，根据该m种声音特征中的每种声音特征，确定该语音文件中每种声音特征的语音数据的所在位置。

也即是，在第一种实现方式中，可以先对整个语音文件的全部声音进行声纹识别，以识别出全部语音中的m个说话人，并提取每个说话人的声音特征，然后根据每个说话人的声音特征，确定每个说话人的语音数据的所在位置，以便后续根据确定的位置，确定输出的文本分别属于哪个说话人的说话内容。

其中，每种声音特征的语音数据的所在位置可以为每种声音特征的语音数据在该语音文件中的出现时间，也即是，每个说话人的语音数据的出现时间。在一个实施例中，确定出每种声音特征的语音数据的所在位置之后，还可以建立每种声音特征和每种声音特征的语音数据的所在位置之间的对应关系，以对每种声音特征的语音数据的所在位置进行标记。比如，确定每个说话人的语音数据的出现时间之后，建立每个说话人和每个说话人的语音数据的出现时间之间的对应关系。

示例的，假设该语音文件是一个采访录音文件，这个采访包括1个主持人和1个受访者的问答过程，则通过对该录音文件进行声纹识别，可以识别出该录音文件的语音中包括2个说话人，而后，可以提取每个说话人的声音特征，并根据每个说话人的声音特征，确定每个说话人的声音数据的出现时间。根据每个说话人的声音数据的出现时间建立的每个说话人和对应的声音数据的出现时间的对应关系可以如下表1所示。

表1

需要说明的是，表1的对应关系仅是本发明实施例的示意性说明，并不构成对每个说话人和对应的声音数据的出现时间的对应关系的限定。

第二种实现方式：按照该语音文件的语音顺序，对该语音文件进行声纹识别，以从该语音文件中识别出按序排列的n个语音片段，该n个语音片段中包括m种语音特征，且该n个语音片段中相邻的两个语音片段的语音特征不同，n大于或等于m。

也即是，可以按照该语音文件的语音顺序，从前到后依次对该语音文件中的语音进行声纹识别，并在识别的过程中，将具有相同声音特征的一段连续的语音作为一个语音片段，当识别到与上一个语音片段具有不同声音特征的一段连续的语音时，将该具有不同声音特征的一段连续的语音作为另一段语音片段，如此，即可在连续进行声纹识别的过程中，将具有不同声音特征的语音片段分别识别出来，也即是，将不同说话人的语音片段分别识别出来。

在另一实施例中，对于该m个声音特征中的任一声音特征，还可以将该声音特征与声音特征库进行匹配，以确定该声音特征对应的说话人。其中，该声音特征库包括多个声音特征和每个声音特征对应的说话人。

步骤403：对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本。

具体地，对识别出的每种声音特征的语音数据进行文本转换可以包括以下两种实现方式：

第一种实现方式：当在步骤402中采用第一种实现方式对语音文件进行声纹识别时，可以按照该语音文件的语音顺序，对该语音文件进行文本转换，得到该语音文件对应的文本；对于该m种声音特征中的每种声音特征，根据该语音文件中该声音特征的语音数据的所在位置，确定该语音文件对应的文本中该声音特征的语音数据对应的文本的所在位置。

也即是，在对语音文件进行文本转换之后，可以根据每个说话人的语音数据的所在位置，标记每个说话人的文本的所在位置，以便区分出各部分文本分别属于哪个说话人。

其中，该声音特征的语音数据对应的文本的所在位置可以用出现时间指示，也即是，每个说话人的语音数据对应的文本的所在位置可以用在语音文件中的出现时间指示。在一个实施例中，确定该语音文件对应的文本中该声音特征的语音数据对应的文本的所在位置之后，可以建立每种声音特征、每种声音特征的语音数据对应的文本以及每种声音特征的语音数据对应的文本的所在位置之间的对应关系，比如，可以建立出现时间、文本和说话人之间的对应关系。

示例的，假设语音“成都火锅你吃的惯吗”在该语音文件中的出现时间在0:02～0:04s，则出现时间、文本和说话人之间的对应关系可以如下表2所示：

表2

出现时间	文本	说话人
			0:02	成都火锅	说话人1
0:03	你	说话人1
			0:04	吃的惯吗	说话人1
0:06	我作为	说话人2
			0:07	一个	说话人2
0:07	成都人	说话人2
			0:09	当然	说话人2
...	...	...

需要说明的是，表2仅为本发明实施例的示意性说明，并不构成对出现时间、文本和说话人之间的对应关系的限定。

第二种实现方式：当在步骤402中采用第二种实现方式对该语音文件进行声纹识别时，可以对识别出每个语音片段进行文本转换，得到每个语音片段对应的文本。具体地，可以对该m个语音片段依次进行文本转换，得到该m个语音片段分别对应的文本。

需要说明的时，本发明实施例中，对语音文件进行声纹识别，得到m种声音特征的语音数据的操作和对识别出的每种声音特征的语音数据进行文本转换的操作可以同步执行，也可以先后执行，本发明实施例对此不做限定。例如，可以在对该语音文件进行声纹识别进行声纹识别的过程中，每识别出一个声纹特征的语音数据，就对该声纹特征的语音数据进行文本转换，即声纹识别进程和文本转换进程同步执行；也可以在对该语音文件全部进行声纹识别完成之后，在对所得到的m种声音特征的语音数据依次进行文本转换，即先完成声纹识别进程，再执行文本转换进程。

例如，在第二种实现方式中，可以在该语音文件中的语音进行声纹识别的过程中，每识别得到一个语音片段，即对得到的语音片段进行文本转换；也可以在对该语音文件中的语音进行声纹识别，得到n个语音片段之后，再对得到的n个语音片段依次进行文本转换。本发明实施例对此不做限定。

步骤404：按照不同的显示格式，显示该m种声音特征的语音数据对应的文本。

需要说明的是，按照不同的显示格式，显示该m种声音特征的语音数据对应的文本的显示效果可以包括：该m种声音特征中相邻的不同声音特征的语音数据对应的文本的显示格式不同，或者，这m种声音特征的语音数据对应的文本的显示格式均不相同。

可选地，可以按照与该m种声音特征一一对应的m种显示格式，显示该m种声音特征的语音数据对应的文本。也即是，该m个显示格式互不相同，且这m个显示格式是为该m种声音特征专门设置的不同的显示格式，即为m个说话人的文本分别设置的不同的显示格式。如此，可以保证不同说话人的文本采用不同的显示格式，而同一说话人的文本均采用相同的显示格式，显示效果更佳。

通过本发明实施例提供的方法，可以将不同说话人的文本用不同的显示格式显示出来，如此，用户即能够通过不同的显示格式直观地区分出不同说话人的说话内容，从而使得阅读起来非常流畅，提高了用户的阅读体验，而且，通过将不同说话人的文本用不同的显示格式显示出来，还可以实现不同说话人的自动对话效果，扩展了语音文件的显示方式。

需要说明的是，显示格式可以包括颜色样式、字体样式、字体背景样式、文本框样式、文本的标签样式和文本头像样式中的至少一种。示例的，文本框样式可以为文本的气泡样式，文本的标签可以为每种声音特征的语音数据对应的文本前的设置的标签，具体可以包括签名、编号或图标等。如此，可以用不同的颜色样式、字体样式、字体背景样式、文本框样式、文本的标签样式或文本头像样式等，对应显示不同声音特征的语音数据对应的文本。

以显示格式包括颜色样式为例，可以将不同说话人的文本用不同的颜色显示，将同一说话人的文本用同一种颜色显示，如此，即可通过颜色直观地区分出不同说话人的说话内容。比如，参见图5，可以将主持人的文本用红色显示，将受访者的文本用蓝色显示，如此，用户即可直观地分辨出红色字体为主持人的说话内容，蓝色字体为受访者的说话内容。

具体地，按照不同的显示格式，显示该m种声音特征的语音数据对应的文本可以包括以下两种实现方式：

第一种实现方式：当在步骤403中采用第一种实现方式进行文本转换时，可以在该m种声音特征的语音数据对应的文本的所在位置上，按照不同的显示格式，显示该m种声音特征的语音数据对应的文本。

具体地，对于该m种声音特征中的每种声音特征，可以从该m个显示格式中确定与该声音特征对应的显示格式，然后在该语音文件对应的文本中该声音特征的语音数据对应的文本的所在位置上，按照与该声音特征对应的显示格式，显示该声音特征的语音数据对应的文本。

比如，可以根据每种声音特征的语音数据对应的文本的出现时间，将出现时间对应的文本按照与该声音特征对应的显示格式进行显示。例如，参见表2，可以将0:02～0:04s的文本用第一显示格式显示，将0:06～0:10s的文本用第二显示格式显示。

在一个实施例中，从该语音文件中识别出m个声音特征之后，可以先为该m个声音特征设置与该m个声音特征一一对应的m个显示格式，则在显示该语音文件的文本时，即可按照与每个声音特征对应的显示格式，显示每个声音特征的语音数据对应的文本。

其中，该m个显示格式可以从预先设置的多个显示格式中选择得到，具体可以随机选择，也可以按照显示格式的排列顺序选择。另外，每种声音特征对应的显示格式，可以按照声音特征的出现顺序设置，也可以随机设置，本发明实施例对此不做限定。

第二种实现方式：当在步骤403中采用第二种实现方式进行文本转换时，对于识别出的第一个语音片段，从预先设置的多个显示格式中确定第一显示格式，按照第一显示格式显示该第一个语音片段对应的文本。之后，对于第一个语音片段之后的任一语音片段，从预先设置的多个显示格式中确定与第二显示格式不同的第三显示格式，按照第三显示格式显示语音片段对应的文本，第二显示格式是上一个语音片段对应的文本的显示格式。

在一个实施例中，在对该n个语音片段依次进行文本转换的过程中，可以依次显示n个语音片段对应的文本。而且，在显示每个语音片段对应的文本之前，可以先为每个语音片段的文本从预先设置的多个显示格式中确定对应的显示格式，然后再根据对应的显示格式显示每个语音片段的文本。

比如，当从语音文件中识别得到4个语音片段，且第一个语音片段为说话人1的语音，第二个语音片段为说话人2的语音，第三个语音片段为说话人3的语音，第四个语音片段为说话人1的语音，则可以采用第一显示格式显示第一个语音片段和第四个语音片段对应的文本，采用第二显示格式显示第二个语音片段对应的文本，采用第三显示格式显示第三个语音片段对应的文本。

图6是本发明实施例提供的一种语音文件的处理装置的结构框图，参见图6，该装置包括获取模块601、识别模块602、文本转换模块603和显示模块604。

获取模块601，用于获取待处理的语音文件，该语音文件中包括m种声音特征的语音数据，该m为大于1的整数；

识别模块602，用于对该语音文件进行声纹识别，得到该m种声音特征的语音数据；

文本转换模块603，用于对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本；

显示模块604，用于按照不同的显示格式，显示该m种声音特征的语音数据对应的文本。

可选地，该识别模块602用于：

对该语音文件中的语音进行声纹识别，以从该语音中识别出该m种声音特征；

根据该m种声音特征中的每种声音特征，确定该语音文件中每种声音特征的语音数据的所在位置。

可选地，该文本转换模块603用于：

按照该语音文件的语音顺序，对该语音文件进行文本转换，得到该语音文件对应的文本；

对于该m种声音特征中的每种声音特征，根据该语音文件中该声音特征的语音数据的所在位置，确定该语音文件中该声音特征的语音数据对应的文本的所在位置；

该显示模块604用于：

在该m种声音特征的语音数据对应的文本的所在位置上，按照不同的显示格式，显示该m种声音特征的语音数据对应的文本。

可选地，该识别模块602用于：

按照该语音文件的语音顺序，对该语音文件进行声纹识别，以从该语音文件中识别出按序排列的n个语音片段，该n个语音片段中包括该m种声音特征，且该n个语音片段中相邻的两个语音片段的声音特征不同，该n大于或等于该m。

可选地，该文本转换模块603用于：

对识别出的每个语音片段进行文本转换，得到每个语音片段对应的文本；

该显示模块604用于：

对于识别出的第一个语音片段，从预先设置的多个显示格式中确定第一显示格式，按照该第一显示格式显示该第一个语音片段对应的文本；

对于该第一个语音片段之后的任一语音片段，从预先设置的多个显示格式中确定与第二显示格式不同的第三显示格式，按照该第三显示格式显示该语音片段对应的文本，该第二显示格式是上一个语音片段对应的文本的显示格式。

可选地，显示格式包括颜色样式、字体样式、字体背景样式、文本框样式和文本的标签样式中的至少一种。

需要说明的是：上述实施例提供的语音文件的处理装置在处理语音文件文本时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音文件的处理装置与语音文件的处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种终端700的结构框图。该终端700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio La8er III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio La8er IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Arra8，现场可编程门阵列)、PLA(Programmable Logic Arra8，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的语音文件的处理方法。

在一些实施例中，终端700还可选包括有：***设备接口703和至少一个***设备。处理器701、存储器702和***设备接口703之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口703相连。具体地，***设备包括：射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

***设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和***设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和***设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequenc8，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelit8，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCr8stal Displa8，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Realit8，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning S8stem，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本发明实施例中，终端还包括有一个或者一个以上的程序，这一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，所述一个或者一个以上程序包含用于进行本发明实施例提供的语音文件的处理方法的指令。

本发明实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现本发明实施例提供的语音文件的处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音文件的处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对所述语音文件进行声纹识别，包括：

对所述语音文件进行声纹识别，以从所述语音文件中识别出所述m种声音特征；

根据所述m种声音特征中的每种声音特征，确定所述语音文件中每种声音特征的语音数据的所在位置。

3.如权利要求2所述的方法，其特征在于，所述对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本，包括：

按照所述语音文件的语音顺序，对所述语音文件进行文本转换，得到所述语音文件对应的文本；

对于所述m种声音特征中的每种声音特征，根据所述语音文件中所述声音特征的语音数据的所在位置，确定所述语音文件中所述声音特征的语音数据对应的文本的所在位置；

所述按照不同的显示格式，显示所述m种声音特征的语音数据对应的文本，包括：

在所述m种声音特征的语音数据对应的文本的所在位置上，按照不同的显示格式，显示所述m种声音特征的语音数据对应的文本。

4.如权利要求1所述的方法，其特征在于，所述对所述语音文件进行声纹识别，包括：

按照所述语音文件的语音顺序，对所述语音文件进行声纹识别，以从所述语音文件中识别出按序排列的n个语音片段，所述n个语音片段中包括所述m种声音特征，且所述n个语音片段中相邻的两个语音片段的声音特征不同，所述n大于或等于所述m。

5.如权利要求4所述的方法，其特征在于，所述对识别出的每种声音特征的语音数据进行文本转换，得到每种声音特征的语音数据对应的文本，包括：

对于识别出的第一个语音片段，从预先设置的多个显示格式中确定第一显示格式，按照所述第一显示格式显示所述第一个语音片段对应的文本；

对于所述第一个语音片段之后的任一语音片段，从预先设置的多个显示格式中确定与第二显示格式不同的第三显示格式，按照所述第三显示格式显示所述语音片段对应的文本，所述第二显示格式是上一个语音片段对应的文本的显示格式。

6.如权利要求1-5任一所述的方法，其特征在于，显示格式包括颜色样式、字体样式、字体背景样式、文本框样式和文本的标签样式中的至少一种。

7.一种语音文件的处理装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述识别模块用于：

9.如权利要求8所述的装置，其特征在于，所述文本转换模块用于：

所述显示模块用于：

10.如权利要求7所述的装置，其特征在于，所述识别模块用于：

11.如权利要求10所述的装置，其特征在于，所述文本转换模块用于：

所述显示模块用于：

12.如权利要求7-11任一所述的装置，其特征在于，显示格式包括颜色样式、字体样式、字体背景样式、文本框样式和文本的标签样式中的至少一种。

13.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1-6任一项所述的语音文件的处理方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1-6任一项所述的语音文件的处理方法。