CN111369981B

CN111369981B - 一种方言地域识别方法、装置、电子设备及存储介质

Info

Publication number: CN111369981B
Application number: CN202010137499.6A
Authority: CN
Inventors: 郑榕; 郑尧曦
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2024-02-23
Anticipated expiration: 2040-03-02
Also published as: CN111369981A

Abstract

本申请提供一种方言地域识别方法、装置、电子设备及存储介质。该方法包括：获取待识别语音数据；利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型通过将训练语音与多级地理地域分区建立关联关系，并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。本申请实施例在对方言进行识别时所使用的方言地域识别模型是经过对多级地域分区的训练语音进行多次数据筛选后训练获得的，经过对训练语音多次数据筛选，能够大大提高训练语音的质量，进而利用方言地域识别模型能够准确的识别出待识别语音数据的地域信息。

Description

一种方言地域识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种方言地域识别方法、装置、电子设备及存储介质。

背景技术

方言是指基于地域、年龄、性别、社会地位、时代等因素产生的某一语种的子变体。语言反映民族文化，方言反映地域文化，前者是整体，后者是分体，二者之间是大同和小异的关系。地域方言是语言因地域方面的差别而形成的变体，是全民语言的不同地域上的分支，是语言发展不平衡性而在地域上的反映。

方言是语言的地域变体，是地域性的语言交际手段。不同的方言反映了不同的地域文化。按照中国的习惯，方言是在一定地域通行的、同共通语有所差异的话。就一般情况来说，在一定的地域形成了方言，同时也形成了地域文化。从地理分布来看，地域文化区与方言分区虽然不是绝对的一一对应关系，但至少也是基本对应或部分相互对应。

语种/方言识别，是通过计算机自动甄别一段语音或视频资料中所说的语言或方言种类的分类技术。在业务应用上，语种/方言识别通常根据具体的任务需求选定目标语种的范围，从大量语音中筛选出重点关注的某些语种/方言的语音。可以从词语的辨析、甄别中发现情报信息，例如通过方言词语的辨析，可以推断出作案人的籍贯住地等情报信息，从而缩小排查范围。实际案件中通过获取嫌疑人的方言词语、习惯用语等语言特征的情报信息，为正确分析案情、确定侦查方向提供了帮助。

现有技术中，通过人工智能可以识别出音频是哪里的方言，比如：东北话、山东话、粤语等，因此，只能大致获知音频对应的人是东北地区的、山东省的、粤语片区的。这种方式粒度太大，定位不够准确。

发明内容

本申请实施例的目的在于提供一种方言地域识别方法、装置、电子设备及存储介质，以解决现有技术中对方言地域识别不准确的问题。

第一方面，本申请实施例提供一种方言地域识别方法，包括：获取待识别语音数据；利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型通过将训练语音与多级地理地域分区建立关联关系，并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。

本申请实施例在对方言进行识别时所使用的方言地域识别模型是经过对多个地域分区的训练语音进行多次数据筛选后训练获得的，经过对训练语音多次数据筛选，能够大大提高训练语音的质量，进而提高方言地域识别模型的识别准确率。

进一步地，在利用方言地域识别模型对所述待识别语音数据进行分析之前，所述方法还包括：获取多条训练语音数据，每条所述训练语音数据包括网络通信地址，根据所述网络通信地址与语音地图中的方言地域标签进行关联，获得每种方言地域标签对应的训练语音数据集；对每种方言地域标签对应的训练语音数据集进行非语音滤除处理，获得有效语音数据集；将所述有效语音数据集中的非方言的训练语音数据剔除，获得候选语音数据集；对所述候选语音数据集进行奇异数滤除，获得目标语音数据集；利用各个方言地域标签对应的目标语音数据集对所述方言地域识别模型进行训练，获得训练好的方言地域识别模型。

本申请实施例通过将获取到的训练语音数据进行通信地址关联、非语音滤除、非方言剔除和奇异数滤除操作，获得高质量的训练语音数据，从而训练获得的方言地域识别模型能够准确的对语音数据进行识别。

进一步地，所述对每种方言地域标签对应的训练语音数据集进行非语音滤除处理，包括：针对每一训练语音数据，获取所述训练语音数据的采样点数值，根据所述采样点数值计算对应的信噪比和有效语音长度；若根据所述信噪比和/或所述有效语音长度确定所述训练语音数据为非语音数据，则将所述训练语音数据滤除。通过信噪比和有效语音长度的检测，将噪音大的以及语音时长较短的训练语音数据剔除，保留音质清晰，时长较长的训练语音数据。

进一步地，所述对每种方言地域标签对应的训练语音数据集进行非语音滤除处理，包括：利用语音音乐分类器对每一训练语音数据进行分析；所述语音音乐分类器用于分析所述训练语音数据是否为音乐类型；将属于音乐类型的训练语音数据滤除。由于训练语音数据为随机获取的，因此可能包含有音乐，因此需要将属于音乐的训练语音数据进行滤除。

进一步地，所述将所述有效语音数据集中的非方言的训练语音数据剔除，包括：将所有的有效语音数据集中的训练语音数据划分为非汉语方言地域语音和汉语方言地域语音，所述汉语方言地域语音包括非汉语官话地域语音和汉语官话地域语音；通过汉语识别模型将所述非汉语方言地域语音中的属于汉语普通话的训练语音数据和属于汉语方言的训练语音数据剔除；通过所述汉语识别模型将所述非汉语官话地域语音中属于汉语普通话的训练语音数据剔除。由于人口流动，可能存在非汉语方言地域中存在汉语的训练语音数据，另外，在非汉语官话地域中存在汉语普通话语音的训练语音数据，这些数据为外来人口的语音，因此，将这些数据进行滤除，防止干扰。

进一步地，所述对所述候选语音数据集进行奇异数滤除，包括：利用种子模型对所述候选语音数据集中的各训练语音数据进行分析，获得训练语音数据对应的预测方言地域类型；其中，所述种子模型为未训练的方言地域模型；将方言地域标签与预测方言地域类型一致的训练语音数据构成新的候选语音数据集；判断是否满足停止迭代条件，若满足，则所述新的候选语音数据集为目标语音数据集，否则，利用新的候选语音数据集对所述种子模型进行训练，获得训练后的种子模型，并再次利用训练后的种子模型对新的候选语音数据集中的各训练语音数据进行分析。本申请实施例通过利用分类器对候选语音数据集中的语音进行分类，将语种和方言特征不明显的候选语音数据集中的语音进行滤除，从而提高训练语音数据的质量。

进一步地，所述利用各个方言地域标签对应的目标语音数据集对所述方言地域识别模型进行训练，获得训练好的方言地域识别模型，包括：对所述目标语音数据集中的各训练语音数据进行特征提取，获得对应的第二声学特征；利用各训练语音数据对应的第二声学特征和方言地域标签对所述方言地域识别模型进行训练，获得训练好的方言地域识别模型。本申请实施例利用多次滤除操作后获得的目标语音数据对方言地域识别模型进行训练，其训练好的方言地域识别模型能够准确地对待识别语音数据进行识别。

第二方面，本申请实施例提供一种方言地域识别装置，包括：数据获取模块，用于获取待识别语音数据；方言识别模块，用于利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型通过将训练语音与多级地域分区建立关联关系，并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储器和总线，其中，所述处理器和所述存储器通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面的方法。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，包括：所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种方言地域识别模型训练方法流程示意图；

图2为本申请实施例提供的非方言剔除的流程示意图；

图3为本申请实施例提供的奇异语音滤除流程示意图；

图4为本申请实施例提供的训练方法流程示意图；

图5为本申请实施例提供的方言地域识别方法流程示意图；

图6为本申请实施例提供的装置结构示意图；

图7为本申请实施例提供的电子设备实体结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

汉语方言，又称汉语变体或汉语语言。广义汉语的句法、词汇大致统一，但是语音***和地方词汇有着明显的差别。各方言可以细分为若干次方言，次方言可以细分为若干小片和方言点，此外还有一些未归片的方言。

关于汉语方言的分区，语言学界有着不同的看法，但主要是粗细详略层次上的差别，各方言区的大致界限还是比较统一的。

第一种分法：汉语方言可以分为：官话、晋语、吴语、徽语、赣语、湘语、闽语、粤语、平话、客家话。官话区又可以分为东北、北京、北方、胶辽、中原、兰银、西南、江淮等八区。汉语方言有大区、小区，各区的关系有亲疏远近、不同层次之别。

第二种分法：将汉语分为有16种语言：官话(cmn)、晋语(cjy)、吴语(wuu)、徽语(czh)、赣语(gan)、湘语(hsn)、粤语(yue)、客家话(hak)、闽南语(nan)、闽东语(cdo)、闽中语(czo)、闽北语(mnp)、莆仙语(cpx)、桂南平话(cnp)、桂北平话(csp)和文言文(lzh)。

藏语、维吾尔语、蒙古语、哈萨克、满语等非汉语族语言一般不认为是通常意义上的汉语方言。

虽然汉语的书面语十分统一，但汉语的差异化程度随地域而别。因为汉语使用的并不是标准意义上的表音文字，所以语音状况很难通过文字记载下来；因此，在发展变化之中，改变最多的是语音。

按照中国的习惯，方言是在一定地域通行的、同共通语有所差异的话。就一般情况来说，在一定的地域形成了方言，同时也形成了地域文化。从地理分布来看，地域文化区与方言分区虽然不是绝对的一一对应关系，但至少也是基本对应或部分相互对应。表现为：

(1)汉语方言有明显差异，互通能力较低。例如官话、吴语、粤语等。

(2)片区/次方言有明显差异，但互通能力较高。以官话为例，东北官话、西南官话、北京官话等。

(3)口音有差异，但不会对互通性造成明显影响。例如带口音的普通话。

全国共分四级行政区：

(1)一级行政区(省级行政区)，全国共有34个省级行政区，包括23个省、5个自治区、4个直辖市、2个特别行政区。

(2)二级行政区(地级行政区)，包括地级市、地区、自治州、盟。

(3)三级行政区(县级行政区)，包括市辖区、县级市、县、自治县、旗、自治旗、特区、林区。

(4)四级行政区(乡级行政区)，包括乡、镇、街道等。

其中，不同的县级区域的方言都或多或少有差异，因此，本申请实施例面向多级的方言地域构建方言地域识别模型，按照直辖市、省区的地级行政区、省辖县级行政区确定了多个初始“语音地图”类别。

所谓语音地图是指在不同的行政区中标注对应的方言，即将方言与地域关联起来，通过方言就能够获知对应的地域信息。

为了实现多级语音地图的目的，本申请实施例提供一种方言地域识别模型训练方法，如图1所示，该方法包括：

步骤101：获取多条训练语音数据，每条所述训练语音数据包括网络通信地址，根据所述网络通信地址与语音地图中的方言地域标签进行关联，获得每种方言地域标签对应的训练语音数据集；

步骤102：对每种方言地域标签对应的训练语音数据集进行非语音滤除处理，获得有效语音数据集；

步骤103：将所述有效语音数据集中的非方言的训练语音数据剔除，获得候选语音数据集；

步骤104：对所述候选语音数据集进行奇异数滤除，获得目标语音数据集；

步骤105：利用各个方言地域标签对应的目标语音数据集对所述方言地域识别模型进行训练，获得训练好的方言地域识别模型。

下面对步骤101-步骤105进行详细描述。

在步骤101中，训练语音数据的获取方式有多种，例如可以从网络上截取，获取到的训练语音数据中均包括有该训练语音数据对应的网络通信地址，其中，网络通信地址是指将训练语音数据上传到互联网上所使用的地址，可以是IP地址，还可以是能够表征训练语音数据归属地信息的其他地址。语音地图中包括了350个左右的方言地域标签，可以细化到市、区、县。即，每个市、区、县有一个对应的方言地域标签。根据训练语音数据对应的网络通信地址，可以获知该训练语音数据属于语音地图中的哪个地域，并将该地域对应的方言地域标签与该训练语音数据进行关联。

可以理解的是，方言地域标签是指方言所对应的地域信息。例如：通过某条训练语音数据对应的网络通信地址可以确定该训练语音数据是从河北省邢台市邢台县上传到互联网上的，而河北省邢台市邢台县就是这段训练语音数据对应的方言地域标签。应当说明的是，方言地域标签最小可以精确到区、县。

在获得到每条训练语音数据对应的方言地域标签后，可以获得每个方言地域标签对应的训练语音数据集。可以理解的是，每个方言地域标签对应的训练语音数据集中包括至少一条训练语音数据。一般的，为了提高对模型的训练准确性，每个方言地域标签至少对应上百条训练语音数据。

由于实际应用中，存在与方言地域标签无法准确对应的问题：首先，语音包含无效无关音频，例如音乐、强噪音等情况，需要进行数据清洗；其次，由于外来人口和流动人口的情况，根据IP信息不能准确关联说话人的方言地域。因此，需要对获得的方言地域标签对应的训练语音数据集中的每条训练语音数据进行筛选。即后续步骤102-步骤104。

在步骤102中，语音/非语音分类是指复杂多样的异构语音环境下，与音频相关的属性，其包括但不限于：语音、音乐、彩铃、强噪音、长静音等。考虑到非语音的不同类型的音频对方言地域建模的影响，需要进行非语音滤除处理。语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号，然后通过A/D装置(如声卡)进行采样，从而将连续的电压信号转换为计算机能够处理的数字信号。针对每一条训练语音数据，获取该训练语音数据的采样点数值，根据采样点数值计算该训练语音数据对应的信噪比和有效语音长度。其中，可以根据如下公式计算信噪比：

SNR＝10lg(P_s/P_n)

其中，SNR表示信噪比，P_s表示信号的功率，P_n表示噪声的功率。可以理解的是，信号的功率和噪声的功率均通过训练语音数据对应的采样点数值估计计算获得。

在计算获得每条训练语音数据对应的信噪比之后，将信噪比低于预设阈值的判定为强噪音音频。预设阈值为根据经验设定，可以根据具体情况对预设阈值进行调整。将判定为强噪音音频的训练语音数据滤除。

另外，强噪音音频的识别还可以采用机器学习，即构建噪音识别模型，将训练语音数据输入到该噪音识别模型中，噪音识别模型对输入的训练语音数据进行分析，判断训练语音数据是否为强噪音音频。如果识别是强噪音音频，则将该训练语音数据滤除。

语音有效时长是指发某个音段或语音成分所用的时间，由声波持续的时间长短决定。从训练语音数据中读取采样点数值，将采样点数据大于一个设定值作为有效语音的采样点，计算有效语音长度，判断是否符合设定的语音有效时长要求。低于有效时长设定阈值的判定为极短语音，并将属于极短语音的训练语音数据滤除。

除了通过采样点数值来确定语音有效时长外，还可以采用端点检测方法，端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间，而且能排除无声段的噪声干扰。端点检测方法包括：时域特征方法和频域特征方法。时域特征方法是利用语音音量和过零率进行端点检测。频域特征方法是用声音的频谱的变异和熵的检测进行语音检测。

另外，非语音滤除处理中还需要将属于音乐类型的训练语音数据进行滤除处理。可以采用语音音乐分类器对训练语音数据进行分析，判断训练语音数据是否为音乐类型，如果是音乐类型，则将该训练语音数据滤除。

其中，语音音乐分类器为预先构建的，其可以是神经网络、支持向量机等网络构成，获取实际场景中出现的真实语音数据和音乐数据作为训练数据，按帧提取音频特征以及按一定窗长计算窗内音频特征的统计分布，通过区分度训练模型、概率生成式模型或深度学习技术，创建语音和音乐类型的判定模型。因此，语音音乐分类器能够确定输入的训练语音数据是真实的语音数据还是音乐。

在另一实施方式中，可以预先构建音乐库，在音乐库中存储有多种语音，将训练语音数据与音乐库中的各个音乐进行对比，从而来判断训练语音数据是否属于音乐类型。

本申请实施例中，由于训练语音数据为随机获取的，因此可能包含有强噪声、极短音频、音乐，因此需要将属于强噪声、极短音频、音乐的训练语音数据进行滤除，提高了训练模型的训练样本的质量。

在步骤103中，以步骤102得到的所述有效语音数据集，引入语言学知识和国内汉语分区层次，进行非方言地域标签的数据清洗，为方言地域建模提供高质量的数据，有效地提高方言地域建模的准确性。

图2为本申请实施例提供的一种非方言剔除的流程示意图，如图2所示，具体包括：

将所有的有效语音数据集中的训练语音数据划分为非汉语方言地域语音和汉语方言地域语音，所述汉语方言地域语音包括非汉语官话地域语音和汉语官话地域语音。其中，非汉语方言地域语音主要包括藏语、维吾尔语、蒙古语、哈萨克、满语等。

基于方言地域性假设，即从地理分布来看，地域文化区与方言分区虽然不是绝对的一一对应关系，但至少也是基本对应或部分相互对应。同时，从应用角度来看，与地域文化相关的方言词语、习惯用语等语音的信息价值更大。因此，需要进行汉语普通话及汉语方言滤除；即通过汉语识别模型将所述非汉语方言地域语音中的属于汉语普通话的训练语音数据和属于汉语方言的训练语音数据剔除。

应当说明的是，本申请实施例采用的汉语识别模型可以是基于高斯超向量(GMM-supervector)、I向量(i-vector)、X向量(x-vector)实现的多子***融合的模型，能够识别汉语普通话、粤语、闽南语、客家话、上海话、四川话等。另外，汉语识别模型也可以使用其它基于传统机器学习，例如并行音素识别器模型PPRLM，最大似然估计模型MLE、最大互信息优化MMI或支持向量机SVM。也可以是基于深度学习技术，例如卷积神经网络CNN、时延神经网络TDNN等的语种分类方法，减小目标语种及方言之间的重叠性，提高语种识别***性能。本申请实施例对于汉语识别的方法不做任何具体限制。

汉语方言地域语音集合中，又进一步细分为非汉语官话地域语音和汉语官话地域语音两个子集合。汉语官话区包括东北、北京、北方、胶辽、中原、兰银、西南、江淮等八区。通过所述汉语识别模型将所述非汉语官话地域语音中属于汉语普通话的训练语音数据剔除。

应当说明的是，可以对移民城市不做汉语普通话语音的剔除操作，例如：华南沿海、西南工矿有众多此类城市，代表城市有深圳、攀枝花等。

本申请实施例中，由于人口流动，可能存在非汉语方言地域中存在汉语的训练语音数据，另外，在非汉语官话地域中存在汉语普通话语音的训练语音数据，这些数据为外来人口的语音，因此，将这些数据进行滤除，防止干扰。

在步骤104中，经过步骤103得到候选语音数据集，假定候选语音数据集中每条训练语音数据与方言地域标签基本对应正确，但不可避免存在某些“奇异语音”。本申请实施例中，奇异语音包括两个方面：首先，经过步骤103过滤得到的候选语音数据集中，其语种和方言特征不明显，介于语种过滤的模糊区间；其次，可能存在未经过步骤103过滤的那些方言类别的训练语音数据中。

图3为本申请实施例提供的一种奇异语音滤除流程示意图，如图3所示，包括：

步骤301：利用种子模型对所述候选语音数据集中的各训练语音数据进行分析，获得训练语音数据对应的预测方言地域类型；其中，所述种子模型为未训练的方言地域模型；当然，种子模型也可以是另外构建的用来识别方言地域的模型。

种子模型包括特征提取和分类，特征提取部分是对所述候选语音数据集中的各训练语音数据进行特征提取，获得对应的第一声学特征；其中，第一声学特征可以为MFCC特征(Mel Frequency Cepstrum Coefficient)、SDC特征(Shifted Delta Cepstra)或BN特征(Bottle-neck)，或用深度神经网络提取的特征，例如基于卷积神经网络CNN和时延神经网络TDNN提取的特征。然后利用分类器对各训练语音数据的第一声学特征进行分析，获得各训练语音数据对应的属于方言地域标签的概率值。

步骤302：将概率值大于预设值的训练语音数据构成新的候选语音数据集；在利用种子模型对候选语音数据集进行分析时，可以将分类器中的阈值设置的高一些，例如：设置为80，即训练语音数据经过种子模型分析后，将概率值大于80分的训练语音数据作为新的候选语音数据集。假设有100条训练语音数据，经过该步骤之后，可能筛选获得60条符合要求的训练语音数据，将这60条训练语音数据作为新的候选语音数据集。

步骤303：利用所述新的候选语音数据集对所述种子模型进行训练，获得训练后的种子模型；在步骤302中筛选获得的60条训练语音数据与方言地域标签高度匹配，因此，利用这60条训练语音数据对种子模型进行训练，可以大大提高种子模型的性能。

步骤304：通过训练后的种子模型再次对所述候选语音数据集中的各训练语音数据进行分析，将概率值大于所述预设值的训练语音数据构成新的候选语音数据集；经过训练的种子模型大大提高了性能，因此，为了能够从包含有100条训练语音数据的候选语音数据集中选出更多更准确的训练语音数据，需要利用训练后的种子模型对这100条训练语音数据再次进行分析，获得每条训练语音数据属于候选语音数据集对应的方言地域标签的概率值，并将概率值大于80的训练语音数据作为新的候选语音数据集，经过这次分析，可以获得62条训练语音数据。应当说明的是，预设值可以根据实际情况进行调整，本申请实施例对此不做具体限定。并且步骤302中的预设值和步骤304中的预设值的具体取值可以相同，也可以不同，根据具体情况设置即可。

步骤305：判断是否满足停止迭代条件，若满足，则所述新的候选语音数据集为目标语音数据集，否则，执行步骤303。

其中，停止迭代的条件可以是步骤304中获得的训练语音数据的值变化幅度小于预设阈值，其中预设阈值为2，那么相邻两次迭代后的训练语音数据的条数差小于2，则说明满足停止迭代的条件。另一个，可以是满足迭代次数，若迭代次数为5次，在迭代了5次之后，便可停止迭代，最终获得的新的候选语音数据集即为目标语音数据集。

应当说明的是，预设阈值以及迭代次数可以根据实际情况进行设定，本申请实施例对此不做具体限定。

其中，步骤302和步骤304中的预设阈值可以采用高斯裁剪的方法：假定概率值服从高斯分布，判断相似度是否在高斯(mean-alpha*stdev)～(mean+alpha*stdev)置信区间内。在置信区间内认为是正常数据，在置信区间外认为是奇异数据。(mean-3*stdev)～(mean+3*stdev)表示99.7％的置信区间，(mean-2*stdev)～(mean+2*stdev)表示99.5％的置信区间，(mean-1*stdev)～(mean+1*stdev)表示68.3％的置信区间。通常取alpha＝1.5的置信区间即可。因为相似度越大数据越可靠，所以实现时是取[mean-1.5*stdev，+∞]，即大于等于mean-1.5*stdev的分数。其中，mean表示均值；stdev表示偏方差；alpha表示系数。

本申请实施例通过多次迭代能够尽量将奇异数据滤除，并尽量保留较多的、准确的训练语音数据作为目标语音数据集，利用目标语音数据集对方言地域识别模型进行训练，能够大大提高方言地域识别模型的泛化能力。

在步骤105中，在获得提纯后的目标语音数据集之后，可以利用目标语音数据集对方言地域识别模型进行训练，图4为本申请实施例提供的训练方法流程示意图，如图4所示，包括：

步骤401：对所述目标语音数据集中的各训练语音数据进行特征提取，获得对应的第二声学特征；其中，第二声学特征可以为MFCC特征、SDC特征、BN特征，或用深度神经网络提取的特征，例如基于卷积神经网络CNN和时延神经网络TDNN提取的特征。

步骤402：利用各训练语音数据对应的第二声学特征和方言地域标签对所述方言地域识别模型进行训练；方言地域识别模型对训练语音数据进行分析，输出训练语音数据对应的预测结果，根据预测结果和训练语音数据对应的方言地域标签计算损失值，并根据损失值反向优化方言地域识别模型中的参数。应当说明的是，构成方言地域识别模型的网络不同，其损失函数不同。

步骤403：当迭代次数达到预设次数或损失值小于预设值时停止迭代，获得训练好的方言地域识别模型。

应当说明的是，步骤102-步骤105的执行顺序可以根据实际情况进行调整，本申请实施例对步骤102-步骤105的执行顺序不做具体限定。

图5为本申请实施例提供的一种方言地域识别方法流程示意图，如图5所示，该方法包括：

步骤501：获取待识别语音数据；

步骤502：利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型通过将训练语音与多级地域分区建立关联关系，并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。

其中，执行上述步骤501和步骤502的主体可以是识别装置，该识别装置可以是台式电脑、笔记本电脑、平板电脑、智能手机、智能穿戴设备等智能电子设备。可以理解的是，识别装置还可以用于执行上述实施例中方言地域识别模型的训练过程。

待识别语音数据可以是通过录音设备对某个人所说的话进行录音获得，也可以从网络中的截取，还可以是从视频中截取获得，本申请实施例对待识别语音数据的获得方式不作具体限定。

将待识别语音数据输入到方言地域识别模型中，方言地域识别模型对待识别语音数据进行分析，获得待识别语音数据对应的地域信息。其中，方言地域识别模型可以通过上述实施例对方言地域识别模型进行训练获得。

本申请实施例在对方言进行识别时所使用的方言地域识别模型是经过对多个地域分区的训练语音数据进行训练获得，因此能够准确地识别出音频对应的地域信息，并且地域信息可以精确到市、区、县。另外，在对方言地域识别模型进行训练是对训练语音数据进行多次数据筛选后训练获得的，经过对训练语音多次数据筛选，能够大大提高训练语音的质量，进而提高方言地域识别模型的识别准确率。

在另一实施方式中，为了防止对无效语音的识别，在利用方言地域识别模型对待识别语音数据进行识别之前，可以先对待识别语音数据进行非语音识别，即，判断待识别语音数据是否为强噪声、极短语音或音乐，如果是强噪声、极短语音或音乐，则不执行步骤502。

在另一实施方式中，在获得待识别语音数据对应的地域信息后，可以将地域信息显示出来，也可以发送到指定的终端上。

图6为本申请实施例提供的装置结构示意图，该装置可以是电子设备上的模块、程序段或代码。应理解，该装置与上述图5方法实施例对应，能够执行图5方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括：数据获取模块601和方言识别模块602，其中：

数据获取模块601用于获取待识别语音数据；方言识别模块602用于利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型通过将训练语音与多级地域分区建立关联关系，并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。

在上述实施例的基础上，该装置还包括模型训练模块，用于：

获取多条训练语音数据，每条所述训练语音数据包括网络通信地址，根据所述网络通信地址与语音地图中的方言地域标签进行关联，获得每种方言地域标签对应的训练语音数据集；

对每种方言地域标签对应的训练语音数据集进行非语音滤除处理，获得有效语音数据集；

将所述有效语音数据集中的非方言的训练语音数据剔除，获得候选语音数据集；

对所述候选语音数据集进行奇异数滤除，获得目标语音数据集；

利用各个方言地域标签对应的目标语音数据集对所述方言地域识别模型进行训练，获得训练好的方言地域识别模型。

在上述实施例的基础上，模型训练模块具体用于：

针对每一训练语音数据，获取所述训练语音数据的采样点数值，根据所述采样点数值计算对应的信噪比和有效语音长度；

若根据所述信噪比和/或所述有效语音长度确定所述训练语音数据为非语音数据，则将所述训练语音数据滤除。

在上述实施例的基础上，模型训练模块具体用于：利用语音音乐分类器对每一训练语音数据进行分析；所述语音音乐分类器用于分析所述训练语音数据是否为音乐类型；

将属于音乐类型的训练语音数据滤除。

在上述实施例的基础上，模型训练模块具体用于：将所有的有效语音数据集中的训练语音数据划分为非汉语方言地域语音和汉语方言地域语音，所述汉语方言地域语音包括非汉语官话地域语音和汉语官话地域语音；

通过汉语识别模型将所述非汉语方言地域语音中的属于汉语普通话的训练语音数据和属于汉语方言的训练语音数据剔除；

通过所述汉语识别模型将所述非汉语官话地域语音中属于汉语普通话的训练语音数据剔除。

在上述实施例的基础上，模型训练模块具体用于：利用种子模型对所述候选语音数据集中的各训练语音数据进行分析，获得训练语音数据为对应的方言地域类型的概率值；其中，所述种子模型为未训练的方言地域模型；

将概率值大于预设值的训练语音数据构成新的候选语音数据集；

利用所述新的候选语音数据集对所述种子模型进行训练，获得训练后的种子模型；

通过训练后的种子模型再次对所述候选语音数据集中的各训练语音数据进行分析，将概率值大于所述预设值的训练语音数据构成新的候选语音数据集；

判断是否满足停止迭代条件，若满足，则所述新的候选语音数据集为目标语音数据集，否则，利用新的候选语音数据集再次对训练后的种子模型进行训练。

在上述实施例的基础上，模型训练模块具体用于：对所述目标语音数据集中的各训练语音数据进行特征提取，获得对应的第二声学特征；

利用各训练语音数据对应的第二声学特征和方言地域标签对所述方言地域识别模型进行训练，获得训练好的方言地域识别模型。

图7为本申请实施例提供的电子设备实体结构示意图，如图7所示，所述电子设备，包括：处理器(processor)701、存储器(memory)702和总线703；其中，

所述处理器701和存储器702通过所述总线703完成相互间的通信；

所述处理器701用于调用所述存储器702中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取待识别语音数据；利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型通过将训练语音与多级地域分区建立关联关系，并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。

处理器701可以是一种集成电路芯片，具有信号处理能力。上述处理器701可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器702可以包括但不限于随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取待识别语音数据；利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型通过将训练语音与多级地域分区建立关联关系，并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取待识别语音数据；利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型通过将训练语音与多级地域分区建立关联关系，并利用对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种方言地域识别方法，其特征在于，包括：

获取待识别语音数据；

利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型是通过将训练语音与多级地域分区建立关联关系，并对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得；

其中，所述将训练语音与多级地域分区建立关联关系包括：将所述多级地域分区对应的方言地域标签与所述训练语音进行关联；

在利用方言地域识别模型对所述待识别语音数据进行分析之前，所述方法还包括：

获取多条训练语音数据，每条所述训练语音数据包括网络通信地址，根据所述网络通信地址与语音地图中的所述方言地域标签进行关联，获得每种方言地域标签对应的训练语音数据集；

利用各个方言地域标签对应的目标语音数据集对所述方言地域识别模型进行训练，获得训练好的方言地域识别模型；

所述对所述候选语音数据集进行奇异数滤除，包括：

利用种子模型对所述候选语音数据集的各训练语音数据进行分析，获得训练语音数据为对应的方言地域类型的概率值；其中，所述种子模型为未训练的方言地域模型；

通过训练后的种子模型再次对所述候选语音数据集的各训练语音数据进行分析，将概率值大于所述预设值的训练语音数据构成新的候选语音数据集；

2.根据权利要求1所述的方法，其特征在于，所述对每种方言地域标签对应的训练语音数据集进行非语音滤除处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述对每种方言地域标签对应的训练语音数据集进行非语音滤除处理，包括：

利用语音音乐分类器对每一训练语音数据进行分析；所述语音音乐分类器用于分析所述训练语音数据是否为音乐类型；

将属于音乐类型的训练语音数据滤除。

4.根据权利要求1所述的方法，其特征在于，所述将所述有效语音数据集中的非方言的训练语音数据剔除，包括：

将所有的有效语音数据集中的训练语音数据划分为非汉语方言地域语音和汉语方言地域语音，所述汉语方言地域语音包括非汉语官话地域语音和汉语官话地域语音；

5.根据权利要求1所述的方法，其特征在于，所述利用各个方言地域标签对应的目标语音数据集对所述方言地域识别模型进行训练，获得训练好的方言地域识别模型，包括：

对所述目标语音数据集中的各训练语音数据进行特征提取，获得对应的第二声学特征；

6.一种方言地域识别装置，其特征在于，包括：

数据获取模块，用于获取待识别语音数据；

方言识别模块，用于利用方言地域识别模型对所述待识别语音数据进行分析，获得所述待识别语音数据对应的地域信息；其中，所述方言地域识别模型是通过将训练语音与多级地域分区建立关联关系，并对训练语音进行数据清洗、非方言地域数据滤除和奇异数据迭代滤除后获得目标训练语音进行训练获得；其中，所述将训练语音与多级地域分区建立关联关系包括：将所述多级地域分区对应的方言地域标签与所述训练语音进行关联；

还包括模型训练模块，用于：获取多条训练语音数据，每条所述训练语音数据包括网络通信地址，根据所述网络通信地址与语音地图中的所述方言地域标签进行关联，获得每种方言地域标签对应的训练语音数据集；

所述模型训练模块具体用于：利用种子模型对所述候选语音数据集的各训练语音数据进行分析，获得训练语音数据为对应的方言地域类型的概率值；其中，所述种子模型为未训练的方言地域模型；

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-5任一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被计算机运行时，使所述计算机执行如权利要求1-5任一项所述的方法。