CN113380227A

CN113380227A - 一种基于神经网络的语种识别方法、装置及电子设备

Info

Publication number: CN113380227A
Application number: CN202110842017.1A
Authority: CN
Inventors: 陈昊昕
Original assignee: Shanghai Caili Network Co ltd
Current assignee: Shanghai Caili Network Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-09-10

Abstract

本发明属于数据信息处理技术领域，提供一种基于神经网络的语种识别方法、装置、电子设备和记录介质，方法包括：接收用户输入的音频数据，对所述音频数据进行特征提取；将所述特征提取的数据发送至语种识别模型，得到候选语种第一概率值，选取排名靠前的n个候选语种；将所述音频数据以及靠前的n个候选语种发送至语种确定模型，得到n个候选语种的第二概率值，根据n个候选语种的第二概率值确定所述音频数据所使用的语种。采用本发明的技术方案提高了语种识别的准确度，使得智能招聘***更加完善。

Description

一种基于神经网络的语种识别方法、装置及电子设备

技术领域

本发明属于数据信息处理技术领域，更具体的是涉及一种基于神经网络的语种识别方法、装置及电子设备。

背景技术

在传统的招聘面试中常常是通过线下面对面的方式与应聘者进行交流。随着互联网技术的发展，现在越来越多的公司采用线上智能招聘***与应聘者进行交互方式进行招聘面试。采用智能招聘***面试的过程中，会有很多问题需要应聘者通过语音的方式进行回答。

在面试者通过语音进行回答的时候，很可能会切换语种进行回答，比如常见的中英文混合的方式。而现有技术通常是基于语音特征来判断语种并进行识别。但很多人的非母语的口语很差，使得非母语的发音方式常常接近母语，这种情况下很大概率会判断错语种，使得后续语音和文字转换过程中出现问题，导致面试结果存在很大偏差。

发明内容

(一)要解决的技术问题

本发明旨在解决现有智能招聘***中进行语音识别时，无法准确识别说话中途语种切换的语音的问题。

(二)技术方案

为解决上述技术问题，本发明的第一方面提出一种基于神经网络的语种识别方法，包括：

接收用户输入的音频数据，对所述音频数据进行特征提取；

将所述特征提取的数据发送至语种识别模型，得到候选语种第一概率值，选取排名靠前的n个候选语种，其中n为自然数；

将所述音频数据以及靠前的n个候选语种发送至语种确定模型，得到n个候选语种的第二概率值，根据n个候选语种的第二概率值确定所述音频数据所使用的语种。

根据本发明的优选实施方式，对所述音频数据进行特征提取具体为：对所述音频数据提取梅尔频率倒谱系数特征或梅尔滤波器组特征。

根据本发明的优选实施方式，将所述特征提取的数据发送至语种识别模型之前，还将所述特征提取的数据发送至切换判断模型。

根据本发明的优选实施方式，所述切换判断模型，以帧为单位判断语种是否发生了切换，得到所述音频信息语种切换次数，语种切换种类以及对应的持续时间。

根据本发明的优选实施方式，将所述音频数据以及靠前的n个候选语种发送语种确定模型，得到n个候选语种的第二概率值具体为：

根据所述音频数据以及靠前的n个候选语种确定n个候选语种的混淆度得分；

根据n个候选语种的第一概率值确定神经网络分数；

对所述n个候选语种的混淆度得分和神经网络分数加权求和，得到所述n个候选语种的第二概率值。

根据本发明的优选实施方式，确定n个候选语种的混淆度得分具体为：

将所述音频数据以及靠前的n个候选语种发送至识别引擎，转写出n个候选语种的文本，根据所述n个语种的文本计算n个候选语种的混淆度得分。

根据本发明的优选实施方式，所述神经网络分数为n个候选语种的后验概率值。

本发明第二方面提出一种基于神经网络的语种识别装置，包括：

特征提取模块，用于接收用户输入的音频数据，对所述音频数据进行特征提取；

语种识别模块，用于将所述特征提取的数据发送至语种识别模型，得到候选语种第一概率值，选取排名靠前的n个候选语种，其中n为自然数；

语种确定模块，用于将所述音频数据以及靠前的n个候选语种发送至语种确定模型，得到n个候选语种的第二概率值，根据n个候选语种的第二概率值确定所述音频数据所使用的语种。

根据n个候选语种的第一概率值确定神经网络分数；

本发明第三方面提出一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行所述的方法。

本发明第四方面还提出一种计算机可读介质，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现所述的方法。

(三)有益效果

本发明通过计算语音数据对应文本的混淆度得分和神经网络分数最终确定语音数据中使用语种信息，提高了语种识别的准确度，使得智能招聘***更加完善。

附图说明

图1是本发明的一个实施例的一种基于神经网络的语种识别方法流程示意图；

图2是本发明的一个实施例一的流程示意图；

图3是本发明的一个实施例的一种基于神经网络的语种识别装置结构示意图；

图4是本发明的一个实施例的电子设备的结构示意图；

图5是本发明的一个实施例的计算机可读记录介质的示意图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

为解决上述技术问题，本发明提出一种基于神经网络的语种识别方法，方法流程图如图1所示，包括：

S101、接收用户输入的音频数据，对所述音频数据进行特征提取。

在上述技术方案的基础上，进一步地，对所述音频数据进行特征提取具体为：对所述音频数据提取梅尔频率倒谱系数特征或梅尔滤波器组特征。

在面试过程中很多试题需要用户通过语音进行回答或讲解，此时接收用户的音频数据，对待测音进行特征提取，提取梅尔频率倒谱系数特征或梅尔滤波器组特征，在本实施方式中还加入音调特征以增强其可分辨性。因为不同种语言的发音频率，清浊音，以及是否送气都是不相同的，因此还额外加入频率的均值方差，过零率，色度特征，韵律特征。

S102、将所述特征提取的数据发送至语种识别模型，得到候选语种第一概率值，选取排名靠前的n个候选语种，其中n为自然数。

在本实施方式中，将经过特征提取的数据发送至语种识别模型，语种识别模型为基于深度学习的RNN网络模型，通过使用大量的语种数据进行训练获得，输入特征提取的数据后，输出一组候选语种的概率，按从大到小的顺序进行排列，选取n个高分候选语种作为备选语种。

在上述技术方案的基础上，进一步地，将所述特征提取的数据发送至语种识别模型之前，还将所述特征提取的数据发送至切换判断模型。

在本实施方式中，由于说话过程中会有语种切换问题，因此设置切换判断模型，用于对语种的切换进行判断。

在上述技术方案的基础上，进一步地，所述切换判断模型，以帧为单位判断语种是否发生了切换，得到所述音频信息语种切换次数，语种切换种类以及对应的持续时间。

在本实施方式中，切换判断模型以帧为单位判断语种是否发生了切换，一帧通常为25毫秒。一旦切换判断模型侦测到了切换的发生，将会发出一个信号给到语种识别模型，语种识别模型将会输出从音频开始到当前时刻的结果以及当前音频的时长，同时重置掉之前的历史以免对后续结果发生干扰。直到音频结束。

下面通过一个例子进行说明。

时长60s的音频，说话人在1-20s用中文随后在20-40s换成英文，之后40-60s又换回中文。这段音频进入语种识别模型的情况如下：

首先语种识别模型需要两部分信息，一部分是音频当前帧的特征，第二部分是之前帧音频所留下的历史特征。

语种识别模型会持续计算，1-20s切换判断模型会一直给出未切换的信号，随后在20s时语种发生变化，切换判断模型会给出一个切换信号，此时切换判断模型会重置历史特征，而只保留当前帧的特征，同时根据当前时间点给出时间戳以及结果:“1～20s：A语种”，由于语种并未最终确定所以此时只是以A语种进行记录。

随后在20-40s同上，一直是未切换的信号。直到40s时，情况同上，输出时间戳及结果：“20～40s：B语种”，同样40-60s输出时间戳及结果：“40～60s：A语种”。

经过切换判断模型后，音频的语种切换信息包括：“1～20s：A语种；20～40s：B语种；40～60s：A语种”，切换次数3次，语种切换种类2种。

S103、将所述音频数据以及靠前的n个候选语种发送至语种确定模型，得到n个候选语种的第二概率值，根据n个候选语种的第二概率值确定所述音频数据所使用的语种。

在上述技术方案的基础上，进一步地，将所述音频数据以及靠前的n个候选语种发送语种确定模型，得到n个候选语种的第二概率值具体为：

根据n个候选语种的第一概率值确定神经网络分数；

在本实施方式中，通过计算混淆度得分和神经网络分数加权求和的到候选语种的最终概率值，即第二概率值。通过这种方式确定的语种更加准确，在后续过程中进行语音识别等操作时出现错误的可能性会大大降低。

在上述技术方案的基础上，进一步地，确定n个候选语种的混淆度得分具体为：

在本实施方式中根据n个候选语种对音频进行语音文字转换，转换成n个候选语种的文本，计算这些文本的混淆度。混淆度越高说明文本的内容越不像一句话。混淆度可以通过如下方式进行：

首先计算句子的概率，句子的概率为P(S)，计算公式如下：

P(S)＝P(W₁，W₂，…，W_k)＝P(W₁)P(W₂|W₁)…P(W_k|W₁，W₂，…W_k-1)

其中，W为一个文字或词语，W₁到W_k组成句子S，k为正整数。比如“今天早餐吃油条”，k＝4，W₁是今天，W₂是早餐，W₃是吃，W₄是油条。P(W_k|W₁，W₂，…W_k-1)为在第一个词W₁至k-1个词W_k-1出现的前提下出现第k个词W_k的条件概率。混淆度与测试集上的句子概率相关，给测试集的句子赋予较高概率值的语言模型较好，当语言模型一致的前提下，测试集中的句子越像一句话，那么它的概率就越高，混淆度就越低。此时混淆度PPL(S)的计算公式如下：

在上述技术方案的基础上，进一步地，所述神经网络分数为n个候选语种的后验概率值。

在本实施方式中，最后通过加权求和的方式计算混淆度得分和神经网络分数，获得第二概率值，按从大到小的顺序进行排序。结合音频的语种切换信息确定音频所使用的1个或多个语种，比如例子中语种切换种类2种，则排名靠前的2种语种为音频所使用的语种。

下面通过实施例一对基于神经网络的语种识别方法的具体流程进行说明，流程图如图2所示。

S1011、接收用户输入的音频数据；

S1012、对所述音频数据进行特征提取；

S2011、将所述特征提取的数据发送至语种识别模型，得到候选语种第一概率值；

S2012、将所述特征提取的数据发送至切换判断模型，所述切换判断模型向所述语种识别模型发送音频的语种切换信息；

S2013、选取排名靠前的n个候选语种，其中n为自然数；

S3011、将所述音频数据以及靠前的n个候选语种发送至识别引擎，转写出n个候选语种的文本；

S3012、根据所述n个语种的文本计算n个候选语种的混淆度得分；

S3013、根据n个候选语种的第一概率值确定神经网络分数；

S3014、对所述n个候选语种的混淆度得分和神经网络分数加权求和，得到所述n个候选语种的第二概率值；

S3015、根据n个候选语种的第二概率值确定所述音频数据所使用的语种。

图3是本发明的一个实施例的一种基于神经网络的语种识别装置300，包括：

特征提取模块301，用于接收用户输入的音频数据，对所述音频数据进行特征提取。

语种识别模块302，用于将所述特征提取的数据发送至语种识别模型，得到候选语种第一概率值，选取排名靠前的n个候选语种，其中n为自然数。

下面通过一个例子进行说明。

语种确定模块303，用于将所述音频数据以及靠前的n个候选语种发送至语种确定模型，得到n个候选语种的第二概率值，根据n个候选语种的第二概率值确定所述音频数据所使用的语种。

根据n个候选语种的第一概率值确定神经网络分数；

首先计算句子的概率，句子的概率为P(S)，计算公式如下：

图4是本发明的一个实施例的电子设备的结构示意图，该电子设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行基于旋转角监测的车辆智能助力推行方法。

如图4所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图4显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

图5是本发明的一个实施例的计算机可读记录介质的示意图。如图5所示，计算机可读记录介质中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明上述的基于旋转角监测的车辆智能助力推行方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的***，以及***中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等，本发明也可以由包含上述***或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现，例如由机车端的微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现，例如计算机程序执行的某些方法步骤可以在机车端执行，另一部分可以在移动终端或智能头盔等中执行。对于计算机软件，软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中，也可以分布式存储于网络上，只要其能使得电子设备执行根据本发明的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的语种识别方法，其特征在于，方法包括：

接收用户输入的音频数据，对所述音频数据进行特征提取；

2.如权利要求1所述的基于神经网络的语种识别方法，其特征在于，对所述音频数据进行特征提取具体为：对所述音频数据提取梅尔频率倒谱系数特征或梅尔滤波器组特征。

3.如权利要求1所述的基于神经网络的语种识别方法，其特征在于，将所述特征提取的数据发送至语种识别模型时，还将所述特征提取的数据发送至切换判断模型。

4.如权利要求3所述的基于神经网络的语种识别方法，其特征在于，所述切换判断模型，以帧为单位判断语种是否发生了切换，得到所述音频信息语种切换次数，语种切换种类以及对应的持续时间。

5.如权利要求3所述的基于神经网络的语种识别方法，其特征在于，将所述音频数据以及靠前的n个候选语种发送语种确定模型，得到n个候选语种的第二概率值具体为：

根据n个候选语种的第一概率值确定神经网络分数；

6.如权利要求5所述的基于神经网络的语种识别方法，其特征在于，确定n个候选语种的混淆度得分具体为：

7.如权利要求5所述的基于神经网络的语种识别方法，其特征在于，所述神经网络分数为n个候选语种的后验概率值。

8.一种基于神经网络的语种识别装置，其特征在于，装置包括：

9.如权利要求8所述的基于神经网络的语种识别装置，其特征在于，对所述音频数据进行特征提取具体为：对所述音频数据提取梅尔频率倒谱系数特征或梅尔滤波器组特征。

10.如权利要求8所述的基于神经网络的语种识别装置，其特征在于，将所述特征提取的数据发送至语种识别模型之前，还将所述特征提取的数据发送至切换判断模型。

11.如权利要求10所述的基于神经网络的语种识别装置，其特征在于，所述切换判断模型，以帧为单位判断语种是否发生了切换，得到所述音频信息语种切换次数，语种切换种类以及对应的持续时间。

12.如权利要求10所述的基于神经网络的语种识别装置，其特征在于，将所述音频数据以及靠前的n个候选语种发送语种确定模型，得到n个候选语种的第二概率值具体为：

根据n个候选语种的第一概率值确定神经网络分数；

13.如权利要求12所述的基于神经网络的语种识别装置，其特征在于，确定n个候选语种的混淆度得分具体为：

14.如权利要求12所述的基于神经网络的语种识别装置，其特征在于，所述神经网络分数为n个候选语种的后验概率值。

15.一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，其特征在于：

当所述计算机程序被所述处理器执行时，所述处理器执行如权利要求1-7中任一项所述的方法。

16.一种计算机可读介质，存储有计算机可执行程序，其特征在于，所述计算机可执行程序被执行时，实现如权利要求1-7中任一项所述的方法。