CN110232919A

CN110232919A - 实时语音流提取与语音识别***及方法

Info

Publication number: CN110232919A
Application number: CN201910533135.7A
Authority: CN
Inventors: 冀瑞国; 孙思明; 秦垠峰; 闫冰
Original assignee: Beijing Zhi He Dafang Technology Co Ltd
Current assignee: Beijing Zhi He Dafang Technology Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-13

Abstract

本发明实施例公开了一种语音流提取与语音识别***及方法，所述***包括音频采集器和自动语音识别模块；音频采集器和自动语音识别模块连接；音频采集器置于第一数据线和第二数据线上，其中第一数据线连接通话设备和麦克风，第二数据线连接通话设备和扬声器；音频采集器用于采集麦克风发送给通话设备的第一音频，音频采集器还用于采集通话设备发送给扬声器的第二音频；音频采集器将第一音频和第二音频发送给自动语音识别模块；自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示。本发明实施例具有如下优点：节约资源，***对接操作简便，ASR识别引擎随时可用。

Description

实时语音流提取与语音识别***及方法

技术领域

本发明实施例涉及人工智能及大数据分析技术领域，具体涉及一种实时语音流提取与语音识别***及方法。

背景技术

自动语音识别技术(ASR,Automatic Speech Recognition)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，语音识别***只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别***的性能大致取决于以下4类因素：1.识别词汇表的大小和语音的复杂性；2.语音信号的质量；3.单个说话人还是多说话人；4.硬件。

现有的ASR语音识别引擎需要配置在相应的服务器上，在实际对接中操作繁琐，费时费力。

发明内容

为此，本发明实施例提供一种实时语音流提取与语音识别***及方法，以解决现有技术中由于ASR语音识别引擎需要配置在相应的服务器上而导致的操作繁琐，费时费力的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

本发明实施例提供一种语音流提取与语音识别***，包括音频采集器和自动语音识别模块；

音频采集器和自动语音识别模块连接；

音频采集器置于第一数据线和第二数据线上，其中第一数据线连接通话设备和麦克风，第二数据线连接通话设备和扬声器；

音频采集器用于采集麦克风发送给通话设备的第一音频，音频采集器还用于采集通话设备发送给扬声器的第二音频；

音频采集器将第一音频和第二音频发送给自动语音识别模块；

自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示，其中自动语音识别模块中内嵌语音识别引擎技术软件。

进一步地，第一数据线和/或第二数据线上没有产生音频，则音频采集器不采集音频；

第一数据线和/或第二数据线产生音频，则开始采集第一音频和/或第二音频。

进一步地，音频采集器将采集到的第一音频和第二音频转码为8kHz采样率、16bit采样深度、WAV格式的音频数据，并将转码后的音频数据发送给自动语音识别模块。

进一步地，自动语音识别模块将识别结果发送给后端接口；后端接口将收到的识别结果发送给用户终端进行展示。

进一步地，还包括显示终端，用于对识别结果进行展示。

进一步地，通话设备为以下至少一种：固话座机、移动电话、电脑和平板电脑。

进一步地，麦克风为耳麦麦克风；相应的，扬声器为耳麦扬声器。

本发明实施例提供一种语音流提取与语音识别方法，包括以下步骤：

采集麦克风发送给通话设备的第一音频；

采集通话设备发送给扬声器的第二音频；

将第一音频和第二音频发送给自动语音识别模块；

自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示。

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述语音流提取与语音识别方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述语音流提取与语音识别方法的步骤。

本发明实施例提供一种语音流提取与语音识别***及方法，所述***包括音频采集器和自动语音识别模块；音频采集器和自动语音识别模块连接；音频采集器置于第一数据线和第二数据线上，其中第一数据线连接通话设备和麦克风，第二数据线连接通话设备和扬声器；音频采集器用于采集麦克风发送给通话设备的第一音频，音频采集器还用于采集通话设备发送给扬声器的第二音频；音频采集器将第一音频和第二音频发送给自动语音识别模块；自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示。

本发明实施例具有如下优点：语音识别引擎(ASR)和特定耳机一体化前置安装，无需配置语音识别引擎(ASR)专用服务器。节约资源；***对接操作简便，ASR识别引擎随时可用。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种语音流提取与语音识别***整体结构示意图；

图2为本发明实施例提供的一种语音流提取与语音识别***中音频连接线结构示意图；

图3为本发明实施例提供的一种语音流提取与语音识别方法整体流程示意图；

图4为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术中的至少一个技术问题，本发明实施例提供一种语音流提取与语音识别***。如图1所示，所述语音流提取与语音识别***包括音频采集器11和自动语音识别模块；

音频采集器11和自动语音识别模块连接；

音频采集器11置于第一数据线和第二数据线上，其中第一数据线连接通话设备和麦克风，第二数据线连接通话设备和扬声器；

音频采集器11用于采集麦克风发送给通话设备的第一音频，音频采集器11还用于采集通话设备发送给扬声器的第二音频；

音频采集器11将第一音频和第二音频发送给自动语音识别模块；

自动语音识别模块12对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示，其中自动语音识别模块中内嵌语音识别引擎技术软件。

自动语音识别模块为内部烧录现有技术中语音识别引擎技术软件的硬件模块，用于对第一音频和第二音频进行语音进行识别，输出语言所对应的文字信息。

其中，需要说明的是，如图2所示，本实施数据线部分为特制的3.5mm数据线。特制3.5mm数据线有两个3.5mm插头(P1、P2)和一个3.5mm插座(P3)。其中P1连接电脑、话机等设备，P2连接音频采集器，P3连接耳机。

需要说明的是，第一数据线和/或第二数据线上没有产生音频，则音频采集器不采集音频；第一数据线和/或第二数据线产生音频，则开始采集第一音频和/或第二音频。

进一步，音频采集器将采集到的第一音频和第二音频转码为8kHz采样率、16bit采样深度、WAV格式的音频数据，并将转码后的音频数据发送给自动语音识别模块。

还进一步，自动语音识别模块将识别结果发送给后端接口；后端接口将收到的识别结果发送给用户终端进行展示。

再进一步，所述***还包括显示终端，用于对识别结果进行展示。

再进一步，通话设备为以下至少一种：固话座机、移动电话、电脑和平板电脑。

再进一步，麦克风为耳麦麦克风；相应的，扬声器为耳麦扬声器。

本发明实施例提供一种语音流提取与语音识别***，所述***包括音频采集器和自动语音识别模块；音频采集器和自动语音识别模块连接；音频采集器置于第一数据线和第二数据线上，其中第一数据线连接通话设备和麦克风，第二数据线连接通话设备和扬声器；音频采集器用于采集麦克风发送给通话设备的第一音频，音频采集器还用于采集通话设备发送给扬声器的第二音频；音频采集器将第一音频和第二音频发送给自动语音识别模块；自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示。本发明实施例具有如下优点：语音识别引擎(ASR)和特定耳机一体化前置安装，无需配置语音识别引擎(ASR)专用服务器。节约资源；***对接操作简便，ASR识别引擎随时可用。

在本发明上述实施例的基础上，提供一种语音流提取与语音识别***，第一数据线和/或第二数据线上没有产生音频，则音频采集器不采集音频；

在本发明上述实施例的基础上，提供一种语音流提取与语音识别***，音频采集器将采集到的第一音频和第二音频转码为8kHz采样率、16bit采样深度、WAV格式的音频数据，并将转码后的音频数据发送给自动语音识别模块。

在本发明上述实施例的基础上，提供一种语音流提取与语音识别***，自动语音识别模块将识别结果发送给后端接口；后端接口将收到的识别结果发送给用户终端进行展示。

在本发明上述实施例的基础上，提供一种语音流提取与语音识别***，所述***还包括显示终端，用于对识别结果进行展示。

在本发明上述实施例的基础上，提供一种语音流提取与语音识别***，通话设备为以下至少一种：固话座机、移动电话、电脑和平板电脑。

在本发明上述实施例的基础上，提供一种语音流提取与语音识别***，麦克风为耳麦麦克风；相应的，扬声器为耳麦扬声器。

为解决现有技术中的至少一个技术问题，如图1所示，本发明实施例提供一种语音流提取与语音识别方法，包括以下步骤：

步骤S1，采集麦克风发送给通话设备的第一音频。

步骤S1’，采集通话设备发送给扬声器的第二音频。

步骤S2，将第一音频和第二音频发送给自动语音识别模块。

步骤S3，自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示。

本发明实施例提供一种语音流提取与语音识别方法，所述方法包括：采集麦克风发送给通话设备的第一音频；采集通话设备发送给扬声器的第二音频；将第一音频和第二音频发送给自动语音识别模块；自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示。本发明实施例具有如下优点：语音识别引擎(ASR)和特定耳机一体化前置安装，无需配置语音识别引擎(ASR)专用服务器。节约资源；***对接操作简便，ASR识别引擎随时可用。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：采集麦克风发送给通话设备的第一音频；采集通话设备发送给扬声器的第二音频；将第一音频和第二音频发送给自动语音识别模块；自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：采集麦克风发送给通话设备的第一音频；采集通话设备发送给扬声器的第二音频；将第一音频和第二音频发送给自动语音识别模块；自动语音识别模块对第一音频和第二音频进行语音识别后，将识别结果发送给用户终端进行展示。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种语音流提取与语音识别***，其特征在于，包括音频采集器和自动语音识别模块；

音频采集器和自动语音识别模块连接；

2.根据权利要求1所述的语音流提取与语音识别***，其特征在于，第一数据线和/或第二数据线上没有产生音频，则音频采集器不采集音频；

3.根据权利要求1所述的语音流提取与语音识别***，其特征在于，音频采集器将采集到的第一音频和第二音频转码为8kHz采样率、16bit采样深度、WAV格式的音频数据，并将转码后的音频数据发送给自动语音识别模块。

4.根据权利要求1所述的语音流提取与语音识别***，其特征在于，自动语音识别模块将识别结果发送给后端接口；后端接口将收到的识别结果发送给用户终端进行展示。

5.根据权利要求1所述的语音流提取与语音识别***，其特征在于，所述***还包括显示终端，用于对识别结果进行展示。

6.根据权利要求1所述的语音流提取与语音识别***，其特征在于，通话设备为以下至少一种：固话座机、移动电话、电脑和平板电脑。

7.根据权利要求1所述的语音流提取与语音识别***，其特征在于，麦克风为耳麦麦克风；相应的，扬声器为耳麦扬声器。

8.一种语音流提取与语音识别方法，其特征在于，包括以下步骤：

采集麦克风发送给通话设备的第一音频；

采集通话设备发送给扬声器的第二音频；

将第一音频和第二音频发送给自动语音识别模块；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求8所述语音流提取与语音识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求8所述语音流提取与语音识别方法的步骤。