CN110176256B

CN110176256B - 录音文件格式转换方法、装置、计算机设备以及存储介质

Info

Publication number: CN110176256B
Application number: CN201910299882.9A
Authority: CN
Inventors: 屈小玲; 蔡菁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2022-06-14
Anticipated expiration: 2039-04-15
Also published as: CN110176256A

Abstract

本发明实施例公开了一种录音文件格式转换方法、装置、计算机设备以及存储介质，所述方法包括：获取录音源文件；根据预设音频转码数据库中选择用于对录音源文件进行编码的音频文件编码器，并按照预设的采样率、码率、通道数对录音源文件进行编码以生成预置格式录音文件；所述预设的采样率、码率、通道数基于所述预置格式录音文件进行确定，所述预置格式录音文件的格式基于springboot中的自定义进行确定；存储预置格式录音文件并发送至语音智能质检平台。本发明基于数据处理，通过向语音智能质检平台发送预置格式录音文件，统一了录音文件格式，降低了智能质检的负担，并且避免了在前端或者呼叫中心重复开发的问题，提高录音处理效率。

Description

录音文件格式转换方法、装置、计算机设备以及存储介质

技术领域

本发明涉及音频处理领域，尤其涉及一种录音文件格式转换方法、装置、计算机设备以及存储介质。

背景技术

现有的呼叫中心的智能质检平台为了将多个企业的录音文件进行质检，首先需要获取各企业电话平台的录音文件进行解析，但不同的电话平台，其录音文件格式一般不一样，因此，无法进行统一转换，影响了录音处理的效率。

发明内容

有鉴于此，本发明实施例提供一种录音文件格式转换方法、装置、计算机设备以及存储介质，不仅能够提高录音处理效率，还能够避免重复开发。

一方面，本发明实施例提供一种录音文件格式转换方法，所述方法包括如下步骤：

获取录音源文件；

根据预设音频转码数据库中选择用于对所述录音源文件进行编码的音频文件编码器，并按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件；所述预设的采样率、码率、通道数基于所述预置格式录音文件进行确定，所述预置格式录音文件的格式基于springboot中的自定义进行确定；

存储所述预置格式录音文件并发送至语音智能质检平台。

另一方面，本发明实施例提供一种录音文件格式转换装置，所述装置包括：

获取单元，用于获取录音源文件；

转换单元，用于根据预设音频转码数据库中选择用于对所述录音源文件进行编码的音频文件编码器，并按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件；所述预设的采样率、码率、通道数基于所述预置格式录音文件进行确定，所述预置格式录音文件的格式基于springboot中的自定义进行确定；

存储发送单元，用于存储所述预置格式录音文件并发送至语音智能质检平台。

又一方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述的录音文件格式转换方法。

再一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如上所述的录音文件格式转换方法。

由以上可见，本发明实施例一种录音文件格式转换方法、装置、计算机设备以及存储介质通过向语音智能质检平台发送由各种格式的录音源文件调整而得的预置格式录音文件，统一了录音文件格式，降低了智能质检的负担，同时，避免了在前端或者呼叫中心重复开发的问题，在一定程度上提高了录音处理效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种录音文件格式转换方法的应用场景示意图；

图2为本发明实施例提供的一种录音文件格式转换方法的示意流程图；

图3为本发明另一实施例提供的一种录音文件格式转换方法的示意流程图；

图4为本发明实施例提供的一种录音文件格式转换装置的示意性框图；

图5为本发明实施例提供的一种录音文件格式转换装置的另一示意性框图；

图6为本发明实施例提供的一种录音文件格式转换装置的另一示意性框图；

图7为本发明实施例提供的一种录音文件格式转换装置的另一示意性框图；

图8为本发明实施例提供的一种录音文件格式转换装置的另一示意性框图；

图9为本发明实施例提供的一种计算机设备的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的一种录音文件格式转换方法的应用场景示意图，图2为本发明实施例提供的一种录音文件格式转换方法的流程示意图。该录音文件格式转换方法应用于服务器或终端中。作为一应用，如图1所示，该录音文件格式转换方法应用于服务器10中，该服务器10可以为分布式服务平台中的一台服务器，该服务器10执行录音文件格式转换指令，并将格式转换后的录音文件存储至终端20中。

需要说明的是，图1中仅仅示意出一台终端20，在实际操作过程中，服务器10可以将格式转换后的录音文件存储至多台终端20中。

请参阅图2，图2为本发明实施例一种录音文件格式转换方法的示意流程图，如图2所示，该方法包括以下步骤S101～S103。

步骤S101，获取录音源文件。

在本发明实施例中，录音源文件的格式包括MP4格式、AAC格式、AC3格式、WAVPACK格式以及AMR-NB格式的一种或者多种。当然，随着音频处理技术的发展，还会有很多其它的音频格式，因此，上述录音源文件的格式仅是本发明实施例的列举，而不作为本发明录音源文件的格式的限制。

在一些实施方式中，录音源文件来自电话平台，也即从呼叫中心获取，示例地，如Avaya呼叫中心，这时，获取录音源文件的步骤，包括如下步骤：

通过SFTP传送协议从至少一个电话平台中获取所述录音源文件。

具体的，安全文件传送协议(Secure File Transfer Protocol，简称SFTP)与用于在网络上进行文件传输的标准协议之文件传输协议(File TransferProtocol，简称，FTP)有着几乎一样的语法和功能。SFTP为安全外壳协议(Secure Shell，简称SSH)的其中一部分，是一种传输档案至Blogger伺服器的安全方式。SFTP同样是使用加密传输认证信息和传输的数据，所以，使用SFTP是非常安全的。但是，由于这种传输方式使用了加密解密技术，所以传输效率比FTP要低，用户可以根据自己的需求去选择，本发明实施例考虑安全性，因此选择SFTP传送协议。

在一些实施方式中，录音源文件来自客户端，此时，获取录音源文件的步骤，包括如下步骤：

通过Node.js采集来自客户端的录音源文件。

具体的，Node.js是一个Javascript运行环境，实质是对Chrome V8引擎进行了封装。其是一个让JavaScript运行在服务端的开发平台，是与PHP、Python、Perl、Ruby等服务端语言平起平坐的脚本语言。Node.js对一些特殊用例进行优化，提供替代的应用程序编程接口(Application Programming Interface，简称API)使得Chrome V8在非浏览器环境下运行得更好，其中，Node.js含有多个网络模块，分别包括HTTP、DNS、NET、UDP、HTTPS以及TLS模块等，在本实施例中通过Node.js的HTTP模块采集客户端的录音源文件。

更具体的，在启动采集功能之后，Node.js的HTTP模块对客户端上传的录音音频数据进行采集，也就是将采集得到的录音音频数据对应的声音转换成电信号，再将电信号转换为数字信号对应的录音音频文件的过程，将录音音频数据对应的文件作为录音源文件。通常终端将录音源文件存储在预设数据库或缓存中，当然也可以直接将所采集的录音源文件上传至服务器。由于Node.js具有数据处理高效、以及并发处理的数据量大的特点，本实施例通过Node.js中的HTTP模块对客户端上传的录音源文件进行采集，在客户端上传的录音源文件的数据量达到量级时，能够更加高效地采集录音源文件。

步骤S102，根据预设音频转码数据库中选择用于对所述录音源文件进行编码的音频文件编码器，并按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件；所述预设的采样率、码率、通道数基于所述预置格式录音文件进行确定，所述预置格式录音文件的格式基于springboot中的自定义进行确定。

在本发明实施例中，预置格式录音文件为WAV格式，springboot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程，能够对第三方插件分装和整合，提供第三方接口，且内嵌WEB服务器，同时，提供项目对象模型，简化Maven配置。其中，Maven是一个跨平台的项目管理工具，因此，无论是在Windows、还是在Linux或Mac上都可以使用同样的命令。

需要说明的是，当采集到录音源文件后，从音频转码数据库中选择能够对所述录音源文件进行编码的音频文件编码器，再通过选择的音频文件编码器按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式的录音文件，具体的，本实施例以将录音源文件转换为WAV格式的录音文件为例进行说明，若录音源文件的文件格式为ACC，并且录音源文件的采样率为44100、码率为24kbps和通道数为2，根据该录音源文件的格式选择ACC编码器，并可以将ACC编码器的媒体信息设置为：录音文件格式为WAV、采样率为8000、码率为12kbps和通道数为1，最后用ACC编码器按照以上设定的媒体信息对录音源文件进行格式编码并生成WAV格式的录音文件。

在一些实施方式中，按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件的步骤，包括如下步骤：

调用ffmpeg指令调整录音源文件得到预置格式录音文件。

具体的，录音源文件在进行格式编码转换之前，其采样率、码率以及通道数是固定的，将所述录音源文件进行格式编码转换时需要改变其采样率、码率以及通道数，在这种情况下，对录音源文件进行格式编码转换时，在选择音频文件编码器并对编码器设置预设的采样率、码率、通道数之后，需要调用ffmpeg指令将录音源文件中固定的采样率、码率以及通道数置换为预设的采样率、码率以及通道数，以实现编码器按照以上设定的媒体信息对录音源文件进行格式编码转换。其中，ffmpeg指令是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，采用LGPL或GPL许可证，它提供了录制、转换以及流化音视频的完整解决方案。ffmpeg指令在Linux平台下开发，但它同样也可以在其它操作***环境中编译运行，包括Windows、Mac OS X等。

步骤S103，存储所述预置格式录音文件并发送至语音智能质检平台。

在本发明实施例中，存储预置格式录音文件为采用数据库或者网络存储服务器。发送至语音智能质检平台为通过传输控制协议(Transmission Control Protocol，简称TCP)进行。

与现有技术相比，本发明实施例一种录音文件格式转换方法具有如下有益效果：

本发明实施例一种录音文件格式转换方法通过向语音智能质检平台发送由各种格式的录音源文件调整而得的预置格式录音文件，统一了录音文件格式，降低了智能质检的负担，同时，避免了在前端或者呼叫中心重复开发的问题，在一定程度上提高了录音处理效率。

请参阅图3，图3为本发明实施例一种录音文件格式转换方法的示意流程图，如图3所示，该方法包括以下步骤S201～S204。

步骤S201，获取录音源文件。

在一些实施方式中，录音源文件来自电话平台，也即呼叫中心获取，示例地，如Avaya呼叫中心，这时，获取录音源文件的步骤，包括如下步骤：

具体的，安全文件传送协议(Secure File Transfer Protocol，简称SFTP)与用于在网络上进行文件传输的标准协议之文件传输协议(File Transfer Protocol，简称，FTP)有着几乎一样的语法和功能。SFTP为安全外壳协议(Secure Shell，简称SSH)的其中一部分，是一种传输档案至Blogger伺服器的安全方式。SFTP同样是使用加密传输认证信息和传输的数据，所以，使用SFTP是非常安全的。但是，由于这种传输方式使用了加密解密技术，所以传输效率比FTP要低，用户可以根据自己的需求去选择，本发明实施例考虑安全性，因此选择SFTP传送协议。

通过Node.js采集来自客户端的录音源文件。

步骤S202，根据预设音频转码数据库中选择用于对所述录音源文件进行编码的音频文件编码器，并按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件；所述预设的采样率、码率、通道数基于所述预置格式录音文件进行确定，所述预置格式录音文件的格式基于springboot中的自定义进行确定。

调用ffmpeg指令调整录音源文件得到预置格式录音文件。

具体的，录音源文件在进行格式编码转换之前，其采样率、码率以及通道数是固定的，将所述录音源文件进行格式编码转换时需要改变其采样率、码率以及通道数，在这种情况下，对录音源文件进行格式编码转换时，在选择音频文件编码器并对编码器设置预设的采样率、码率、通道数之后，需要调用ffmpeg指令将录音源文件中固定的采样率、码率以及通道数置换为预设的采样率、码率以及通道数，以实现编码器按照以上设定的媒体信息对录音源文件进行格式编码转换。其中，ffmpeg指令是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，采用LGPL或GPL许可证，它提供了录制、转换以及流化音视频的完整解决方案。ffmpeg在Linux平台下开发，但它同样也可以在其它操作***环境中编译运行，包括Windows、Mac OS X等。

步骤S203，存储所述预置格式录音文件并发送至语音智能质检平台。

步骤S204，使用ASR对预置格式录音文件进行检测评估。

在本发明实施例中，利用自动语音识别(Automatic Speech Recognition，简称ASR)可以分辨出预置格式录音文件中的录音信号和非录音信号，去除无效的语音片段和噪音，确定每个语音片段的开始及结束，对于智能质检平台来讲，自动语音识别为提高语音分析的准确度，降低了智能质检平台计算录音文件的复杂性。利用自动语音识别对预置格式录音文件进行检测包括以下几个步骤：

(1)音频预处理：分为采样量化，去零漂，预加重和加窗四个步骤；

(2)特征提取：指选取可以反映语音和噪声差别的特征参数，如短时能量和短时过零率等；

(3)端点检出：基于一种判决准则，来区分语音帧与非语音帧。一般采用门限判决或模式分类的方法；

(4)后处理：对上述判决结果进行平滑滤波等处理，得到最终的语音端点判决结果，并根据起止帧号反推出语音片段的起止时间

由以上可见，本发明实施例通过使用ASR对预置格式录音文件进行检测评估，提高语音分析的准确度，降低了智能质检平台计算录音文件的复杂性。

请参阅图4，对应上述一种录音文件格式转换方法，本发明实施例还提出一种录音文件格式转换装置，如图4所示，该录音文件格式转换装置100包括获取单元101、转换单元102以及存储发送单元103，其中，

获取单元101，用于获取录音源文件；

转换单元102，用于根据预设音频转码数据库中选择用于对所述录音源文件进行编码的音频文件编码器，并按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件；所述预设的采样率、码率、通道数基于所述预置格式录音文件进行确定，所述预置格式录音文件的格式基于springboot中的自定义进行确定；

存储发送单元103，用于存储预置格式录音文件并发送至语音智能质检平台。

在一些实施方式中，如图5所示，所述获取单元101包括：

第一获取单元101a，用于接收采用SFTP传送协议上传的来自至少一个电话平台的录音源文件。

在另一些实施方式中，如图6所示，所述获取单元101包括：

第二获取单元101b，用于通过Node.js采集来自前端的录音源文件。

优选地，所述预置格式录音文件为WAV格式，如图7所示，所述转换单元102包括：

调用单元102a，用于调用ffmpeg指令调整录音源文件得到预置格式录音文件。

请参阅图8，对应上述一种录音文件格式转换方法，本发明实施例还提出一种录音文件格式转换装置，如图8所示，该录音文件格式转换装置200包括获取单元201、转换单元202、存储发送单元203以及检测评估单元204，其中，

获取单元201，用于获取录音源文件；

转换单元202，用于根据预设音频转码数据库中选择用于对所述录音源文件进行编码的音频文件编码器，并按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件；所述预设的采样率、码率、通道数基于所述预置格式录音文件进行确定，所述预置格式录音文件的格式基于springboot中的自定义进行确定；

存储发送单元203，用于存储预置格式录音文件并发送至语音智能质检平台。

检测评估单元204，用于在发送至语音智能质检平台之后使用ASR对预置格式录音文件进行检测评估。

由以上可见，本发明实施例通过向语音智能质检平台发送由各种格式的录音源文件调整而得的预置格式录音文件，统一了录音文件格式，降低了智能质检的负担，同时，避免了在前端或者呼叫中心重复开发的问题，在一定程度上提高了录音处理效率。

上述录音文件格式转换装置与录音文件格式转换上述方法一一对应，其具体的原理和过程与上述实施例所述方法相同，不再赘述。

上述录音文件格式转换装置可以实现为一种计算机程序的形式，计算机程序可以在如图9所示的计算机设备上运行。

图9为本发明一种计算机设备的结构组成示意图。该设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式装置等具有通信功能和语音输入功能的电子装置。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。参照图9，该计算机设备500包括通过***总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中，该计算机设备500的非易失性存储介质503可存储操作***5031和计算机程序5032，该计算机程序5032被执行时，可使得处理器502执行一种录音文件格式转换方法。该计算机设备500的处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序被处理器执行时，可使得处理器502执行一种录音文件格式转换方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502执行所述计算机程序时实现如下操作：

获取录音源文件；

存储所述预置格式录音文件并发送至语音智能质检平台。

在一个实施例中，所述获取录音源文件的步骤，包括如下步骤：

通过Node.js采集来自前端的录音源文件。

在一个实施例中，所述预置格式录音文件为WAV格式，所述按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件的步骤，包括如下步骤：

调用ffmpeg指令调整所述录音源文件得到预置格式录音文件。

在一个实施例中，所述处理器502执行所述计算机程序时还实现如下操作：

使用ASR对所述预置格式录音文件进行检测评估。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现以下步骤：

获取录音源文件；

存储所述预置格式录音文件并发送至语音智能质检平台。

通过Node.js采集来自前端的录音源文件。

调用ffmpeg指令调整所述录音源文件得到预置格式录音文件。

在一个实施例中，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，还实现以下步骤：

使用ASR对所述预置格式录音文件进行检测评估。

本发明前述的存储介质包括：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等各种可以存储程序代码的介质。

本发明所有实施例中的单元可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

本发明实施例录音文件格式转换方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例录音文件格式转换装置中的单元可以根据实际需要进行合并、划分和删减。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种录音文件格式转换方法，其特征在于，所述录音文件格式转换方法包括如下步骤：

获取录音源文件；

存储所述预置格式录音文件并发送至语音智能质检平台；

使用ASR对所述预置格式录音文件进行检测评估，所述检测评估包括音频预处理、特征提取、端点检出以及后处理；

所述获取录音源文件的步骤，包括如下步骤：

通过SFTP传送协议从至少一个电话平台中获取所述录音源文件；

或所述获取录音源文件的步骤，包括如下步骤：

通过Node.js采集来自客户端的录音源文件；

其中，所述通过Node.js采集来自客户端的录音源文件，包括：

通过Node.js的HTTP模块对客户端上传的录音音频数据进行采集以将录音音频数据对应的声音转换成电信号，将电信号转换为数字信号对应的录音音频文件以作为录音源文件。

2.如权利要求1所述的录音文件格式转换方法，其特征在于，所述预置格式录音文件为WAV格式，所述按照预设的采样率、码率、通道数对所述录音源文件进行编码以生成预置格式录音文件的步骤，包括如下步骤：

调用ffmpeg指令调整所述录音源文件得到预置格式录音文件。

3.一种录音文件格式转换装置，其特征在于，所述录音文件格式转换装置包括：

获取单元，用于获取录音源文件；

存储发送单元，用于存储所述预置格式录音文件并发送至语音智能质检平台；

检测评估单元，用于使用ASR对预置格式录音文件进行检测评估，所述检测评估包括音频预处理、特征提取、端点检出以及后处理；

所述获取单元包括：

第一获取单元，用于接收采用SFTP传送协议上传的来自至少一个电话平台的录音源文件；

或所述获取单元包括：

第二获取单元，用于通过Node.js采集来自前端的录音源文件；

其中，所述第二获取单元用于：

4.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-2任一项所述的录音文件格式转换方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如权利要求1-2任一项所述的录音文件格式转换方法。