CN115101068A

CN115101068A - 一种多人对话场景下提高音频转写准确性的方法和***

Info

Publication number: CN115101068A
Application number: CN202210689347.6A
Authority: CN
Inventors: 张立卓
Original assignee: Shenyang Chuangsijiye Technology Co ltd
Current assignee: Shenyang Chuangsijiye Technology Co ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-23

Abstract

本申请公开了一种多人对话场景下提高语音转写准确性的方法和***，获取待识别的音频数据；基于所述音频数据，进行小句段单元划分处理，获取小句段单元划分处理结果；基于所述小句段单元划分处理结果，进行精准识别处理，获取识别处理结果；基于所述识别处理结果进行降噪处理，获取降噪处理结果；基于所述降噪处理结果，进行音频识别转换处理，获取转换数据；基于所述的转换数据进行前端显示，实现多人共同对话音频场景下的音频识别。本申请有效解决了通过传统方式的人工转写耗费时间长，识别效率低的问题，通过融入前端ASR技术，减少了人工转写的介入，提升了转写效率。

Description

一种多人对话场景下提高音频转写准确性的方法和***

技术领域

本申请属于字幕转写、语音识别领域，具体涉及一种多人共同对话场景下提高语音转写准确性的辅助方法。

背景技术

字幕转写通常有两种做法，一种是通过人工听写来输出转写内容及时间轴信息，这种方案优点是转写准确性相对更高，缺点则是耗时非常长。另一种是借助于语音识别转写技术，将输入音频文件发送给语音识别引擎，获取转写输出结果，优点是结果相对正确，速度相对人工听写方式极快，缺点则是准确性对于不同文件差异会很大，尤其是多人共同对话场景时，会获取到大段落的识别文本，且内容混乱，无法分清各说话人对应文本内容及时间轴信息。

对于字幕转写来说，由于字幕长度所限，每一语音段内字符数量有严格要求，仅支持1-2行文字显示，因此这种识别出的大段落文本无法直接使用，需要再次通过手动进行人工转写，效率同样较低并且容易出错。

因此，如何有效的提升多人共同对话场景时的语音识别准确性、识别结果清晰就变的非常重要。

发明内容

本申请提出了一种多人对话场景下提高音频转写准确性的方法和***，通过获取待识别的音频数据，进行小句段划分、音频文件通用降噪、通过语音识别引擎进行转换，将转换结果进行前端显示，实现多人共同对话音频场景下的音频识别。

为实现上述目的，本申请提供了如下方案：

一种多人对话场景下提高语音转写准确性的方法，包括以下内容：

获取待识别的音频数据；

基于所述音频数据，进行小句段单元划分处理，获取小句段单元划分处理结果；

基于所述小句段单元划分处理结果，进行精准识别处理，获取识别处理结果；

基于所述识别处理结果进行降噪处理，获取降噪处理结果；

基于所述降噪处理结果，进行音频识别转换处理，获取转换数据。

优选的，所述小句段单元划分处理的方法包括：

基于所述音频数据，通过前端快捷功能，截取主说话人指定时间段，生成多个不同时间交错的小句段单元。

优选的，所述精准识别处理的方法包括：

基于所述小句段单元划分处理结果，通过前端ASR指令进行识别，并通过FFmpeg指令对所述音频数据进行处理，获取识别处理结果。

优选的，所述降噪处理的方法包括：

通过sox命令单元文件生成降噪配置文件，基于所述降噪配置文件，通过sox音频降噪指令进行降噪处理，获取降噪处理结果。

优选的，所述音频识别转换处理的方法包括：

基于所述降噪处理结果，通过语音识别引擎进行音频识别转换处理，获取每个降噪后的单元文件对应的语音识别结果，得到精确转换文本。

为了更好的实现上述技术内容，本申请还提供了一种多人对话场景下提高语音转写准确性的***，

包括：音频数据采集模块、音频数据句段单元划分模块、音频数据精准识别模块、音频数据降噪处理模块和音频数据识别转换处理模块；

音频数据采集模块用于获取待识别的音频数据；

音频数据句段单元划分模块用于基于所述音频数据，进行小句段单元划分处理，获取小句段单元划分处理结果；

音频数据精准识别模块用于基于所述小句段单元划分处理结果，进行精准识别处理，获取识别处理结果；

音频数据降噪处理模块用于基于所述识别处理结果进行降噪处理，获取降噪处理结果；

音频数据识别转换处理模块用于基于所述降噪处理结果，进行音频识别转换处理，获取转换数据。

优选的，所述音频数据句段单元划分模块中所述小句段单元划分处理的方法包括：

优选的，所述音频数据精准识别模块中所述精准识别处理的方法包括：

优选的，所述音频数据降噪处理模块中所述降噪处理的方法包括：

优选的，所述音频数据识别转换处理模块中所述音频识别转换处理的方法包括：

本申请的有益效果为：本申请公开了一种多人对话场景下提高语音转写准确性的方法和***，本申请有效解决了通过传统方式的人工转写耗费时间长，识别效率低的问题，通过融入前端ASR技术，减少了人工转写的介入，提升了转写效率。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例方法流程示意图；

图2为本申请实施例整体流程示意图；

图3为本申请实施例拆分模块流程示意图；

图4为本申请实施例***结构流程示意图；

图5为本申请实施例获取噪音样本文件示意图；

图6为本申请实施例安装sox软件示意图；

图7为本申请实施例输入命令示意图；

图8为本申请实施例生成对应的降噪配置文件示意图；

图9为本申请实施例生成降噪后文件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

如图1所示，一种多人对话场景下提高语音转写准确性的方法，包括以下内容：

获取待识别的音频数据；

基于音频数据，进行小句段单元划分处理，获取小句段单元划分处理结果；

基于小句段单元划分处理结果，进行精准识别处理，获取识别处理结果；

基于识别处理结果进行降噪处理，获取降噪处理结果；

基于降噪处理结果，进行音频识别转换处理，获取转换数据；

基于的转换数据进行前端显示，实现多人共同对话音频场景下的音频识别。

在本实施例中，如图2所示，具体的实施过程如下所示：

小句段单元划分处理的方法包括，如图3所示：

基于音频数据，通过前端快捷功能，具体操作为在播放音视频的时，按住键盘J键截取开始时间戳，抬起J键则获取结束时间戳，如此操作截取主说话人所在时间段，截取主说话人指定时间段，生成多个不同时间交错的小句段单元。

其中，精准识别处理的方法包括：

基于小句段单元划分处理结果，通过前端ASR指令进行识别，并通过FFmpeg指令对音频数据进行处理，获取识别处理结果。

具体的实现过程如下所述：

1.基于获取的音频数据，当有多人对话转写段落时，通过前端快捷功能，截取每个主说话人对应时间段，生成多个不同时间交错的小句段单元，此时每个初始小句段单元内容均为空，之后通过前端ASR 快捷按钮分别调用后台语音识别服务进行小句段单元的精准识别；

2.后台语音识别服务接收到前台每个小句段单元的ASR语音识别请求后，首先根据获取到的小句段单元开始时间和结束时间信息、原始音频文件信息，通过FFmpeg工具命令，以句段单元对应原始音频的开始时间、结束时间，实现截取原音频文件并生成小句段的音频单元文件，

FFmpeg命令如下：

ffmpeg-i source.wav-ss截取开始时间-t截取持续时长(结束时间-开始时间)target.wav。

其中，降噪处理的方法包括：

通过sox命令单元文件生成降噪配置文件，基于降噪配置文件，通过sox音频降噪指令进行降噪处理，获取降噪处理结果；

在本实施例中，具体的实现过程如下所述：

1.对每个新生成的单元音频文件进行降噪，更易使该单元片段内主说话人声音凸显出来，相比于传统方式提取整个音频文件噪音样本进行通用降噪，对每个单元文件单独提取噪音数据，使目的更加精准，降噪效果更优；

利用sox命令单元文件进行降噪,主要分为以下几个步骤：

1.1.FFmpeg取噪音样本

通过ffmpeg命令，按照顺序执行以下程序，ffmpeg-i target.wav–vn-ss截取开始时间-t截取持续时长(结束时间-开始时间)nosie.wav，获取FFmpeg取噪音样本；

安装FFmpeg软件

使用FFmpeg软件命令获取噪音样本文件，如图5所示，

2.2.生成降噪配置文件

通过以下程序：sox nosie.wav-n noiseprof nosiepf.prof，生成降噪配置文件；

如图6、图7所示，安装sox软件：执行安装命令yum install sox；

输入命令sox nosie.wav-n noiseprof nosiepf.prof；

如图8所示，回车执行sox命令，则会根据样本音频文件 nosie.wav，生成对应的降噪配置文件。

3.3.音频降噪

通过以下程序：sox target.wav target_new.wav noisered nosiepf.prof 0.3对音频文件进行降噪处理。

输入命令：sox target.wav target_new.wav noisered nosiepf.prof 0.3；

如图9所示，回车执行sox命令，根据01.wav及nosiepf.prof 配置文件，生成经过降噪后的01_target.wav文件。

在本实施例中，音频识别转换处理的方法包括：

基于降噪处理结果，通过语音识别引擎进行音频识别转换处理，获取每个降噪后的单元文件对应的语音识别结果，得到精确转换文本。

具体的操作步骤如下：

调用语音识别引擎(target_new.wav文件)，获取每个降噪后的单元文件对应的语音识别结果，得到精确转写文本；

输出文本到前端并显示，如此流程将多人混合段落拆分为多人清晰的单元转写内容，将结果拆分之后，只需少量修改即可实现多人共同对话语音场景时的快捷、精准语音识别。

实施例二

如图4所示，一种多人对话场景下提高语音转写准确性的***，包括以下内容：

包括：音频数据采集模块、音频数据句段单元划分模块、音频数据精准识别模块、音频数据降噪处理模块、音频数据识别转换处理模块和音频数据大屏展示模块；

音频数据采集模块用于获取待识别的音频数据；

音频数据句段单元划分模块用于基于音频数据，进行小句段单元划分处理，获取小句段单元划分处理结果；

音频数据精准识别模块用于基于小句段单元划分处理结果，进行精准识别处理，获取识别处理结果；

音频数据降噪处理模块用于基于识别处理结果进行降噪处理，获取降噪处理结果；

音频数据识别转换处理模块用于基于降噪处理结果，进行音频识别转换处理，获取转换数据；

音频数据大屏展示模块用于基于的转换数据进行前端显示，实现多人共同对话音频场景下的音频识别。

其中，音频数据句段单元划分模块中小句段单元划分处理的方法包括：

基于音频数据，通过前端快捷功能，截取主说话人指定时间段，生成多个不同时间交错的小句段单元。

其中，音频数据精准识别模块中精准识别处理的方法包括：

其中，音频数据降噪处理模块中降噪处理的方法包括：

通过sox命令单元文件生成降噪配置文件，基于降噪配置文件，通过sox音频降噪指令进行降噪处理，获取降噪处理结果。

其中，音频数据识别转换处理模块中音频识别转换处理的方法包括：

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种多人对话场景下提高语音转写准确性的方法，其特征在于，

获取待识别的音频数据；

基于所述识别处理结果进行降噪处理，获取降噪处理结果；

2.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法，其特征在于，

所述小句段单元划分处理的方法包括：

基于所述音频数据，通过前端快捷功能，生成多个不同时间交错的小句段单元。

3.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法，其特征在于，

所述精准识别处理的方法包括：

4.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法，其特征在于，

所述降噪处理的方法包括：

5.如权利要求1所述一种多人对话场景下提高语音转写准确性的方法，其特征在于，

所述音频识别转换处理的方法包括：

6.一种多人对话场景下提高语音转写准确性的***，其特征在于，

音频数据采集模块用于获取待识别的音频数据；

7.如权利要求6所述一种多人对话场景下提高语音转写准确性的***，其特征在于，

所述音频数据句段单元划分模块中所述小句段单元划分处理的方法包括：

8.如权利要求6所述一种多人对话场景下提高语音转写准确性的***，其特征在于，

所述音频数据精准识别模块中所述精准识别处理的方法包括：

9.如权利要求6所述一种多人对话场景下提高语音转写准确性的***，其特征在于，

所述音频数据降噪处理模块中所述降噪处理的方法包括：

10.如权利要求6所述一种多人对话场景下提高语音转写准确性的***，其特征在于，

所述音频数据识别转换处理模块中所述音频识别转换处理的方法包括：