CN112802457A

CN112802457A - 语音识别的方法、装置、设备和存储介质

Info

Publication number: CN112802457A
Application number: CN202110397846.3A
Authority: CN
Inventors: 张骞
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-05-14

Abstract

本申请提出一种语音识别的方法、装置、设备和存储介质，涉及语音识别领域。具体包括：切分微服务对音频数据进行切分，得到包括多个音频片段的集合；该切分微服务以并发方式向语音识别微服务发起处理该集合的请求；该语音识别微服务根据该请求，对该集合中的多个音频片段并行进行语音识别。采用本申请实施例，可以提高***利用率，有效提升音频识别的处理速度。

Description

语音识别的方法、装置、设备和存储介质

技术领域

本申请涉及语音识别领域，尤其涉及一种语音识别的方法、装置、设备和存储介质。

背景技术

在语音识别的过程中，经常会出现大文件音频处理较慢的情况。目前，已有的语音文件识别方案中，一种方案只能支持最大100M的音频，且处理速度较慢，时长30分钟的语音文件需要10秒钟左右的处理时间，如果存在大量需要处理的语音文件，加大并发和购买时长都是一个比较可观的花销。另一种方案可以支持最大512M的音频，但是时长约5小时的音频需要用户等待的处理时间也大约是5小时，几乎是1:1的处理效率，处理速度相当慢。因此，如何提高大文件音频的处理速度，如将1小时甚至更长的音频以秒级速度处理，是迫待解决的问题。

发明内容

本申请实施例提供一种语音识别的方法、装置、设备和存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种语音识别的方法，包括：

切分微服务对音频数据进行切分，得到包括多个音频片段的集合；

所述切分微服务以并发方式向语音识别微服务发起处理所述集合的请求；

所述语音识别微服务根据所述请求，对所述集合中的多个音频片段并行进行语音识别。

第二方面，本申请实施例提供了一种语音识别的装置，包括：

切分微服务模块，用于对音频数据进行切分，得到包括多个音频片段的集合，以并发方式发起处理所述集合的请求；

语音识别微服务模块，用于根据所述切分微服务模块的请求，对所述集合中的多个音频片段并行进行语音识别。

第三方面，本申请实施例提供了一种语音识别的设备，该设备包括：存储器和处理器。其中，该该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：对音频数据进行切分后采用并发方式进行处理，切分的耗时可以忽略，与直接处理音频数据的方式相比，能够最大程度地利用计算资源，极大地提高了处理速度，可扩展性好，能够快速有效地处理较大音频文件。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为根据本申请一实施例的语音识别的方法的流程图；

图2为根据本申请一实施例的音频数据切分原理示意图；

图3为根据本申请另一实施例的语音识别的方法的流程图；

图4为根据本申请一实施例的语音识别的方法的架构示意图；

图5为根据本申请一实施例的语音识别的装置的结构框图；

图6为根据本申请另一实施例的语音识别的装置的结构框图；

图7为根据本申请一实施例的语音识别的设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本申请一实施例的语音识别的方法的流程图。如图1所示，该语音识别的方法可以包括：

S11、切分微服务对音频数据进行切分，得到包括多个音频片段的集合；

S12、该切分微服务以并发方式向语音识别微服务发起处理该集合的请求；

S13、该语音识别微服务根据该请求，对该集合中的多个音频片段并行进行语音识别。

上述方法通过对音频数据进行切分后采用并发方式进行处理，切分的耗时可以忽略，与直接处理音频数据的方式相比，能够最大程度地利用计算资源，极大地提高了处理速度，如处理时长在1小时以上的音频数据可以控制在十秒内完成，是现有技术处理速度的两倍以上。该方法可扩展性好，能够快速有效地处理较大音频文件，提升了可处理音频数据的单个文件的大小。

在一种实施方式中，上述S11可以包括：

切分微服务采用语音活动检测（VAD，Voice Activity Detection）以语音停顿为切分标志，对音频数据进行切分，得到包括多个音频片段的集合，其中每个音频片段对应一个句子。

通常，人说话是以句子为单位的，在对话场景中，可能有若干句话，每句话之间都可能存在一定时长的停顿。考虑到对话场景下的音频数据可能以小时为单位，直接进行处理以小时为单位的音频数据是非常耗时的。因此，本申请中可以用VAD按照语音停顿将音频数据切分为对应句子的音频片段。VAD又称为语音端点检测或语音边界检测，有多种实现方式，如在切分之前可以先进行灵敏度和漏检虚检处理，切分过程中还可以去掉静音时长，以及对音频数据进行高斯模型的降噪处理，从而去除对话时的背景音、电流杂音等信号的干扰。其中，对话中的每个短句之间可能都存在一定时长的停顿，因此以停顿为切分标志将停顿之前的音频识别为一句话进行切分，进而可以得到多个音频片段，每个音频片段即对应一个句子。从而为后续并行处理提供了数据支持。

图2为根据本申请一实施例的音频数据切分原理示意图。参见图2，获取待处理的音频数据，该音频数据承载着如下文字：“你好，我叫小明，来自北京西城区，我喜欢编程，我爱北京”。采用VAD按照语音停顿进行切分后得到5个句子，分别是“你好”，“我叫小明”，“来自北京西城区”，“我喜欢编程”和“我爱北京”，即得到5个音频片段，从而可以进行并行语音识别的处理。

在一种实施方式中，上述S13可以包括：

该语音识别微服务根据该请求，采用IO多路复用技术对该集合中的多个音频片段并行进行语音识别。这种方式能够充分地提高计算机的IO资源利用率。

在另一种实施方式中，上述S13可以包括：

该语音识别微服务根据该请求，按照预先根据计算资源设置的并发数，对该集合中的多个音频片段并行进行语音识别。这种方式能够最大程度地利用***资源，提高利用率，且应用灵活方便。

其中，上述并发数可以根据实际场景中的计算资源来设置，具体不限定。例如，两台32核CPU的计算机，设置最大并发数为64，则可以支持64并发处理多个音频片段。如果对一段70分钟约128MB大小的音频数据进行切分，得到958句话，采用64并发一共花费约9秒即可完成处理。

图3为根据本申请另一实施例的语音识别的方法的流程图。如图3所示，该语音识别的方法可以包括：

S31、切分微服务对音频数据进行切分，得到包括多个音频片段的集合；

S32、该切分微服务为该集合生成统一资源定位符，并以超文本传输协议请求的方式将该统一资源定位符发送给语音识别微服务，请求处理该集合；

S33、该语音识别微服务根据该请求，采用IO多路复用技术，按照预先根据计算资源设置的并发数，对该集合中的多个音频片段并行进行语音识别。

在一种上述方式中，上述方法还包括：

将语音识别微服务得到的多个音频片段的处理结果合并且输出。

本申请中将切分和语音识别以微服务的形式封装，通过上游的切分微服务以并发形式调用下游的语音识别微服务，可以保证以最大能力处理音频数据。其中，微服务是一种软件开发技术-面向服务的体系结构（SOA）架构样式的一种变体，将应用程序构造为一组松散耦合的服务。在微服务体系结构中，服务是细粒度的，协议是轻量级的。

图4为根据本申请一实施例的语音识别的方法的架构示意图。如图4所示，可以使用下载服务通过接口下载音频数据，并存储在内存Redis中。然后切分微服务使用VAD对音频数据进行切分得到包括多个音频片段的集合，再以并发方式发起请求，语音识别微服务使用ASR并行对该集合中的多个音频片段进行处理。在并发处理完所有数据后，合并处理结果并输出。

图5示出根据本发明一实施例的语音识别的装置的结构框图。如图5所示，该语音识别的装置500可以包括：

切分微服务模块501，用于对音频数据进行切分，得到包括多个音频片段的集合，以并发方式发起处理该集合的请求；

语音识别微服务模块502，用于根据切分微服务模块501的请求，对该集合中的多个音频片段并行进行语音识别。

根据本发明另一实施例，该切分微服务模块501以并发方式发起处理该集合的请求时具体用于：

为该集合生成统一资源定位符，并以超文本传输协议请求的方式将该统一资源定位符发送给语音识别微服务模块502，请求处理该集合。

根据本发明另一实施例，该语音识别微服务模块502具体用于：

根据该请求，采用IO多路复用技术对该集合中的多个音频片段并行进行语音识别。

根据该请求，按照预先根据计算资源设置的并发数，对该集合中的多个音频片段并行进行语音识别。

根据本发明另一实施例，该切分微服务模块501对音频数据进行切分得到包括多个音频片段的集合时具体用于：

采用语音活动检测以语音停顿为切分标志，对音频数据进行切分，得到包括多个音频片段的集合，其中每个音频片段对应一个句子。

图6示出根据本发明另一实施例的语音识别的装置的结构框图。如图6所示，该语音识别的装置600包括：

切分微服务模块601，用于对音频数据进行切分，得到包括多个音频片段的集合，以并发方式发起处理该集合的请求；

语音识别微服务模块602，用于根据切分微服务模块601的请求，对该集合中的多个音频片段并行进行语音识别；

输出模块603，用于将该语音识别微服务模块602得到的该多个音频片段的处理结果合并且输出。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

上述装置通过对音频数据进行切分后采用并发方式进行处理，切分的耗时可以忽略，与直接处理音频数据的方式相比，能够最大程度地利用计算资源，极大地提高了处理速度，如处理时长在1小时以上的音频数据可以控制在十秒内完成，是现有技术处理速度的两倍以上。该方法可扩展性好，能够快速有效地处理较大音频文件，提升了可处理音频数据的单个文件的大小。

图7示出根据本发明一实施例的语音识别的设备的结构框图。如图7所示，该语音识别的设备包括：存储器710和处理器720，存储器710内存储有可在处理器720上运行的计算机程序。处理器720执行该计算机程序时实现上述实施例中的语音识别的方法。存储器710和处理器720的数量可以为一个或多个。

该语音识别的设备还包括：

通信接口730，用于与外界设备进行通信，进行数据交互传输。

如果存储器710、处理器720和通信接口730独立实现，则存储器710、处理器720和通信接口730可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponentInterconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器710、处理器720及通信接口730集成在一块芯片上，则存储器710、处理器720及通信接口730可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data dateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述切分微服务以并发方式向语音识别微服务发起处理所述集合的请求，包括：

所述切分微服务为所述集合生成统一资源定位符，并以超文本传输协议请求的方式将所述统一资源定位符发送给语音识别微服务，请求处理所述集合。

3.根据权利要求1所述的方法，其特征在于，所述语音识别微服务根据所述请求，对所述集合中的多个音频片段并行进行语音识别，包括：

所述语音识别微服务根据所述请求，采用IO多路复用技术对所述集合中的多个音频片段并行进行语音识别。

4.根据权利要求1所述的方法，其特征在于，所述语音识别微服务根据所述请求，对所述集合中的多个音频片段并行进行语音识别，包括：

所述语音识别微服务根据所述请求，按照预先根据计算资源设置的并发数，对所述集合中的多个音频片段并行进行语音识别。

5.根据权利要求1所述的方法，其特征在于，所述切分微服务对音频数据进行切分，得到包括多个音频片段的集合，包括：

切分微服务采用语音活动检测以语音停顿为切分标志，对音频数据进行切分，得到包括多个音频片段的集合，其中每个音频片段对应一个句子。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述语音识别微服务得到的所述多个音频片段的处理结果合并且输出。

7.一种语音识别的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述切分微服务模块以并发方式发起处理所述集合的请求时具体用于：

为所述集合生成统一资源定位符，并以超文本传输协议请求的方式将所述统一资源定位符发送给所述语音识别微服务模块，请求处理所述集合。

9.根据权利要求7所述的装置，其特征在于，所述语音识别微服务模块具体用于：

根据所述请求，采用IO多路复用技术对所述集合中的多个音频片段并行进行语音识别。

10.根据权利要求7所述的装置，其特征在于，所述语音识别微服务模块具体用于：

根据所述请求，按照预先根据计算资源设置的并发数，对所述集合中的多个音频片段并行进行语音识别。

11.根据权利要求7所述的装置，其特征在于，所述切分微服务模块对音频数据进行切分得到包括多个音频片段的集合时具体用于：

12.根据权利要求7所述的装置，其特征在于，还包括：

输出模块，用于将所述语音识别微服务模块得到的所述多个音频片段的处理结果合并且输出。

13.一种语音识别的设备，其特征在于，包括：处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至6任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。