CN112863518B - 一种语音数据主题识别的方法及装置 - Google Patents
一种语音数据主题识别的方法及装置 Download PDFInfo
- Publication number
- CN112863518B CN112863518B CN202110125704.1A CN202110125704A CN112863518B CN 112863518 B CN112863518 B CN 112863518B CN 202110125704 A CN202110125704 A CN 202110125704A CN 112863518 B CN112863518 B CN 112863518B
- Authority
- CN
- China
- Prior art keywords
- voice
- word
- data
- voice data
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000009826 distribution Methods 0.000 claims abstract description 88
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音数据主题识别的方法及装置,该方法包括获取待识别的语音数据的数据集,对数据集中的语音数据进行识别,得到各语音数据对应的语音文本,将数据集中的语音数据以及语音数据对应的语音文本输入到语音主题模型中进行训练,确定出语音数据对应的语音文本的主题分布和每个词的主题。通过对语音数据及其对应的语音文本同时进行训练,得到语音数据对应的语音文本的主题分布和每个词的主题,相比现有技术中只对使用语音文本进行主题模型训练的方式,由于在语音主题模型的训练过程中增加了语音数据,有效的利用了语音数据的音频副语言,能够提高语音主题模型的识别准确率。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种语音数据主题识别的方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。在金融领域的主题识别技术中,对语音数据进行主题识别是一个重要的问题。
随着移动设备的兴起,语音成为了大家一种更加直接的交互方式。现在的对语音数据的进行语音分析和挖掘,主要是首先进行语音识别,然后对识别的结果通过主题模型进行主题识别,再进行后续主题分析。由于目前的语音识别结果会出现错误,尤其是在噪声等特殊场景下,是有很多错误的,这样会影响到主题识别的结果。
发明内容
本发明实施例提供一种语音数据主题识别的方法及装置,用以提高对语音数据对应的语音文本进行主题识别的准确率。
第一方面,本发明实施例提供一种语音数据主题识别的方法,包括:
获取待识别的语音数据的数据集;
对所述数据集中的语音数据进行识别,得到各语音数据对应的语音文本;
将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
上述技术方案中,通过对语音数据及其对应的语音文本同时进行训练,得到语音数据对应的语音文本的主题分布和每个词的主题。而现有技术中在对语音数据进行挖掘时,主要是先进行语音识别,再对语音识别结果进行主题识别。但是由于目前的语音识别结果会出现识别错误的情况,这就会影响到主题识别的结果。因此,本申请的技术方案相比现有技术中只对使用语音文本进行主题模型训练的方式,在语音主题模型的训练过程中增加了语音数据,同时使用了语音数据及其对应的语音文本进行训练,这样有效的利用了语音数据的语音特征,防止出现对语音数据识别错误,影响主题识别的情况,进而能够提高语音主题模型的识别准确率。
可选的,所述将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练,确定出所述语音数据对应的语音文本的主题分布和每个词的主题,包括:
确定出所述数据集中所述语音数据对应的语音文本的初始主题分布和所述语音数据的音频信息;
针对所述语音数据对应的语音文本中的每一词,从所述语音数据对应的语音文本的初始主题分布中确定出每个词的初始主题;
依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题,对所述语音主题模型中的参数进行训练,直到所述语音主题模型收敛,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
可选的,所述确定出所述数据集中所述语音数据对应的语音文本的初始主题分布,包括:
依据所述语音主题模型的预设的超参数使用先验知识对所述数据集中语音数据对应的语音文本进行采样,得到所述语音数据对应的语音文本的初始主题分布。
可选的,所述确定出所述语音数据的音频信息,包括:
将所述语音数据进行向量化处理,得到所述语音数据的语音特征矩阵;并将所述语音数据的语音特征矩阵进行加权求和,得到所述语音数据的音频信息。
可选的,所述将所述语音数据进行向量化处理,包括:
通过声学特征提取将所述语音数据的语音特征数据,得到所述语音数据的语音特征矩阵。
可选的,所述依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题,对所述语音主题模型中的参数进行训练,直到所述语音主题模型收敛,确定出所述语音数据对应的语音文本的主题分布和每个词的主题,包括:
根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定所述第i个词的生成词;其中,所述第i-1个词为所述语音文本中所述第i个词的前一词;i为正整数;
根据所述语音数据对应的语音文本的初始主题分布、所述语音数据对应的语音文本中每个词的初始主题、所述语音数据对应的语音文本的每个词以及每个词对应的生成词,对所述语音主题模型中的参数进行更新并进行下一轮训练,直到所述语音主题模型收敛;
将所述语音主题模型收敛时输出的主题分布和每个词的主题,确定为所述语音数据对应的语音文本的主题分布和所述语音数据对应的语音文本中每个词的主题。
可选的,所述根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定所述第i个词的生成词,包括:
根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定第i个词的隐状态;
根据所述第i-1个词的生成词和所述第i个词的隐状态,确定所述第i个词的生成词。
可选的,所述根据所述语音数据对应的语音文本的初始主题分布、所述语音数据对应的语音文本中每个词的初始主题、所述语音数据对应的语音文本的每个词以及每个词对应的生成词,对所述语音主题模型中的参数进行更新,包括:
确定所述语音数据对应的语音文本中的每个词与所述每个词对应的生成词之间的误差,对所述误差进行求导,得到所述语音主题模型的第一部分参数的梯度;
使用参数估计方法对所述语音数据对应的语音文本的初始主题分布和所述每个词的初始主题进行参数估计,得到所述语音主题模型中的第二部分参数的梯度;
依据所述语音主题模型的第一部分参数的梯度和第二部分参数的梯度,对所述语音主题模型中的参数进行更新。
可选的,对所述数据集中的语音数据进行识别,得到各语音数据对应的语音文本,包括:
对所述数据集中的语音数据进行语音特征提取,得到所述语音数据的语音特征数据;
采用预设语音模型和预设语言模型对所述语音特征数据进行识别,得到所述各语音数据对应的语音文本。
第二方面,本发明实施例提供一种语音数据主题识别的装置,包括:
获取单元,用于获取待识别的语音数据的数据集;
处理单元,用于对所述数据集中的语音数据进行识别,得到各语音数据对应的语音文本;将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
可选的,所述处理单元具体用于:
确定出所述数据集中所述语音数据对应的语音文本的初始主题分布和所述语音数据的音频信息;
针对所述语音数据对应的语音文本中的每一词,从所述语音数据对应的语音文本的初始主题分布中确定出每个词的初始主题;
依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题,对所述语音主题模型中的参数进行训练,直到所述语音主题模型收敛,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
可选的,所述处理单元具体用于:
依据所述语音主题模型的预设的超参数使用先验知识对所述数据集中语音数据对应的语音文本进行采样,得到所述语音数据对应的语音文本的初始主题分布。
可选的,所述处理单元具体用于:
将所述语音数据进行向量化处理,得到所述语音数据的语音特征矩阵;并将所述语音数据的语音特征矩阵进行加权求和,得到所述语音数据的音频信息。
可选的,所述处理单元具体用于:
通过声学特征提取将所述语音数据的语音特征数据,得到所述语音数据的语音特征矩阵。
可选的,所述处理单元具体用于:
根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定所述第i个词的生成词;其中,所述第i-1个词为所述语音文本中所述第i个词的前一词;i为正整数;
根据所述语音数据对应的语音文本的初始主题分布、所述语音数据对应的语音文本中每个词的初始主题、所述语音数据对应的语音文本的每个词以及每个词对应的生成词,对所述语音主题模型中的参数进行更新并进行下一轮训练,直到所述语音主题模型收敛;
将所述语音主题模型收敛时输出的主题分布和每个词的主题,确定为所述语音数据对应的语音文本的主题分布和所述语音数据对应的语音文本中每个词的主题。
可选的,所述处理单元具体用于:
根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定第i个词的隐状态;
根据所述第i-1个词的生成词和所述第i个词的隐状态,确定所述第i个词的生成词。
可选的,所述处理单元具体用于:
确定所述语音数据对应的语音文本中的每个词与所述每个词对应的生成词之间的误差,对所述误差进行求导,得到所述语音主题模型的第一部分参数的梯度;
使用参数估计方法对所述语音数据对应的语音文本的初始主题分布和所述每个词的初始主题进行参数估计,得到所述语音主题模型中的第二部分参数的梯度;
依据所述语音主题模型的第一部分参数的梯度和第二部分参数的梯度,对所述语音主题模型中的参数进行更新。
可选的,所述处理单元具体用于:
对所述数据集中的语音数据进行语音特征提取,得到所述语音数据的语音特征数据;
采用预设语音模型和预设语言模型对所述语音特征数据进行识别,得到所述各语音数据对应的语音文本。
第三方面,本发明实施例还提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述语音数据主题识别的方法。
第四方面,本发明实施例还提供一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述语音数据主题识别的方法。
第五方面,本发明实施例还提供一种计算机程序产品,包括计算机程序指令,当计算机读取并执行所述计算机程序指令时,使得计算机执行如上述语音数据主题识别的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种***架构的示意图;
图2为本发明实施例提供的一种语音数据主题识别的方法的流程示意图;
图3为本发明实施例提供的一种语音主题模型训练的示意图;
图4为本发明实施例提供的一种语音主题模型工作的示意图;
图5为本发明实施例提供的一种语音数据主题识别的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种***架构。如图1所示,该***架构可以为服务器100,该服务器100可以包括处理器110、通信接口120和存储器130。
其中,通信接口120用于与终端设备进行通信,收发该终端设备传输的信息,实现通信。
处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2详细的示出了本发明实施例提供的一种语音数据主题识别的方法的流程,该流程可以由语音数据主题识别的装置执行,该装置可以为上述服务器或位于上述服务器内。
如图2所示,该流程具体包括:
步骤201,获取待识别的语音数据的数据集。
在本发明实施例中,该待识别的语音数据的数据集可以为语音数据库中的语音数据、客服对话中的语音数据或语音聊天中的语音数据对应的数据集。该语音数据可以为音频序列。
步骤202,对所述数据集中的语音数据进行识别,得到各语音数据对应的语音文本。
在获取待识别的语音数据的数据集后,就可以对数据集中的语音数据进行识别,主要是对数据集中的语音数据进行语音特征提取,得到语音数据的语音特征数据,然后采用预设语音模型和预设语言模型对语音特征数据进行识别,得到各语音数据对应的语音文本。
其中,该语音特征可以为MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征,在得到语音数据的语音特征数据之后,通过预设语音模型对语音特征数据进行处理,得到语音识别结果,该语音识别结果即为每帧语音数据对应的状态,在得到语音识别结果之后,将语音识别结果输入到预设语言模型中,得到语音识别结果对应的语音文本,也就是上述语音数据对应的语音文本。
具体的,首先对所述待识别语音数据进行语音特征提取,在进行特征提取之前,对所述待识别语音数据进行分帧处理,其中,每帧的长度可以为25毫秒,每两帧之间有交叠,以避免信息流失,在分帧后,语音就变成了很多小段,为了描述,根据人耳的生理特性,把每一帧波形变成一个多维向量,该多维向量包含了这帧语音的内容信息,这个过程可以叫做声学特征提取,即是通过声学特征提取得到语音特征数据,提取后,语音数据就成了一个M行、N列的一个矩阵,其中,N为总帧数,且每维向量大小不同。
然后采用预设语音模型对语音特征数据进行识别,得到语音识别结果,语音识别结果即是每帧语音对应的可能状态,每三个状态组合成一个音素,若干个音素组合成一个比特位词如韵母声母,也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了,需要说明的是,语音识别结果可能存在多个,在得到语音识别结果后,通过预设语言模型对语音识别结果进行组合排序处理,得到各候选结果。具体地,通过预设语言模型,确定各个语音识别结果构成的语音文本中词序列的解码得分,该解码得分输出的是针对所述词序列的评分,其能够表征各个词序列的概率,将概率最大的词序列确定为语音数据对应的语音文本。
步骤203,将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
当得到各语音数据对应的语音文本之后,可以将数据集中各语音数据及其对应的语音文本同时输入到语音主题模型中进行训练,从而确定出各语音数据对应的语音文本的主题分布以及语音文本中每个词的主题。具体可以如图3所示流程,包括:
步骤301,确定出所述数据集中所述语音数据对应的语音文本的初始主题分布和所述语音数据的音频信息。
其中,确定出语音文本的初始主题分布时,可以依据语音主题模型的预设的超参数使用先验知识对数据集中语音数据对应的语音文本进行采样,得到语音数据对应的语音文本的初始主题分布。
该先验知识可以包括:二项分布、伽玛(Gamma)函数、贝塔(Beta)分布、多项分布、狄利克雷(Dirichlet)分布、马尔科夫链、马尔科夫链蒙特卡洛(Markov Chain MonteCarlo,MCMC)、吉布斯采样(Gibs Sampling)、最大期望值(Expectation-Maximum,EM)算法等。
例如,语音文本是一组有序的词的序列,针对该序列,可以使用Dirichlet分布,对该序列进行主题分布采样,即Dirichlet分布依据预设的语音主题模型的超参数对该序列进行主题分布采样,得到每个主题对应的主题概率,从而的该语音文本对应的主题分布,也可以称为主题概率的分布。
如图4所示,语音主题模型的超参数为α,依据该α使用Dirichlet分布对语音文本进行采样,可以得到该语音文本对应的初始主题分布θ。
在确定语音数据的音频信息时,可以将语音数据进行向量化处理,得到语音数据的语音特征矩阵,并将语音数据的语音特征矩阵进行加权求和,得到语音数据的音频信息。其中,在对语音数据进行向量化处理时,是通过声学特征提取将语音数据的语音特征数据,得到语音数据的语音特征矩阵。具体的处理过程可以如上述语音数据识别的过程,不再赘述。
如图4所示,语音数据的序列为[x1,x2,…,xn,],将该语音数据的序列向量化后,得到hj-1、hj、hj+1…等等,其中hj表示第j帧语音数据对应的语音特征。在依据预设的权重将各语音特征进行加和,得到语音数据的音频信息si。这里的i是指第i条语音数据。其中每帧语音数据对应的权重不同。
步骤302,针对所述语音数据对应的语音文本中的每一词,从所述语音数据对应的语音文本的初始主题分布中确定出每个词的初始主题。
如图4所示,在得到语音文本的初始主题分布θ之后,就可以在该初始主题分布θ,对语音文本中每个词进行采样,得到每个词的初始主题ki。这里的i是指第i个词。
步骤303,依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题,对所述语音主题模型中的参数进行训练,直到所述语音主题模型收敛,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
具体的,可以先根据语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定第i个词的生成词。然后根据语音数据对应的语音文本的初始主题分布、语音数据对应的语音文本中每个词的初始主题、语音数据对应的语音文本的每个词以及每个词对应的生成词,对语音主题模型中的参数进行更新并进行下一轮训练,直到语音主题模型收敛。最后可以将语音主题模型收敛时输出的主题分布和每个词的主题,确定为语音数据对应的语音文本的主题分布和语音数据对应的语音文本中每个词的主题。
其中,确定第i个词的生成词的步骤可以如图4所示,得到每个词的初始主题ki之后,就可以依据根据第i-1个词的隐状态hi-1、第i个词的初始主题ki及语音数据的音频信息si,确定第i个词的隐状态hi,然后根据第i-1个词的生成词yi-1和第i个词的隐状态hi,确定第i个词的生成词yi。
对语音主题模型中的参数进行更新时,可以通过确定语音数据对应的语音文本中的每个词与每个词对应的生成词之间的误差,对误差进行求导,得到语音主题模型的第一部分参数的梯度。
主要是将语音数据对应的语音文本中的每个词与每个词对应的生成词输入到预设的误差损失函数中,得到每个词对应的误差。再对每个词对应的误差进行求导,就可以得到语音主题模型的第一部分参数的梯度。该第一部分参数指的是语音主题模型中非离散型参数。该预设的误差损失函数可以为交叉熵损失函数、均方误差损失函数、平方损失函数、对数损失函数、指数损失函数等。
然后使用参数估计方法对语音数据对应的语音文本的初始主题分布和每个词的初始主题进行参数估计,得到语音主题模型中的第二部分参数的梯度。
该第二部分参数是指语音主题模型中的离散型参数。参数估计方法可以使用变分贝叶斯参数估计或吉布斯参数估计,具体的估计方法为现有的方法,不再具体描述。
最后,依据语音主题模型的第一部分参数的梯度和第二部分参数的梯度,对语音主题模型中的参数进行更新。
得到该第一部分参数的梯度和第二部分参数的梯度之后,就可以使用第一部分参数的梯度和第二部分参数的梯度对语音主题模型中相应的参数进行更新。
继续下一轮的训练,直到到达预设的迭代次数之后,可以实现语音主题模型的收敛,此时将收敛时语音主题模型输出的主题分布和每个词的主题确定为最终的语音数据对应的语音文本的主题分布以及语音数据对应的语音文本中每个词的主题。
由于上述语音主题模型训练过程中,加入了语音数据,使得在训练过程中同时学习了语音数据的音频特征,可以包括音频副语言,相比只学习语音文本的主题模型,可以避免因语音识别出现错误的情况下,导致影响主题识别结果的情况,能够更进一步的提高主题模型识别的准确率。
在本发明实施例中,该音频副语言是指语种,性别,年龄,情感,信道,嗓音,病理,生理,心理等多种丰富的副语言语音属性信息。通过在语音主题模型中增加对这些属性信息的学习,可以提高主题模型识别的准确率。
在本发明实施例中,通过获取待识别的语音数据的数据集,对数据集中的语音数据进行识别,得到各语音数据对应的语音文本,将数据集中的语音数据以及语音数据对应的语音文本输入到语音主题模型中进行训练,确定出语音数据对应的语音文本的主题分布和每个词的主题。通过对语音数据及其对应的语音文本同时进行训练,得到语音数据对应的语音文本的主题分布和每个词的主题。而现有技术中在对语音数据进行挖掘时,主要是先进行语音识别,再对语音识别结果进行主题识别。但是由于目前的语音识别结果会出现识别错误的情况,这就会影响到主题识别的结果。因此,本申请的技术方案相比现有技术中只对使用语音文本进行主题模型训练的方式,在语音主题模型的训练过程中增加了语音数据,同时使用了语音数据及其对应的语音文本进行训练,这样有效的利用了语音数据的语音特征,防止出现对语音数据识别错误,影响主题识别的情况,进而能够提高语音主题模型的识别准确率。
基于相同的技术构思,图5示例性的示出了本发明实施例提供的一种语音数据主题识别的装置的结构,该装置可以执行语音数据主题识别的流程。
如图5所示,该装置具体包括:
获取单元501,用于获取待识别的语音数据的数据集;
处理单元502,用于对所述数据集中的语音数据进行识别,得到各语音数据对应的语音文本;将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
可选的,所述处理单元502具体用于:
确定出所述数据集中所述语音数据对应的语音文本的初始主题分布和所述语音数据的音频信息;
针对所述语音数据对应的语音文本中的每一词,从所述语音数据对应的语音文本的初始主题分布中确定出每个词的初始主题;
依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题,对所述语音主题模型中的参数进行训练,直到所述语音主题模型收敛,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
可选的,所述处理单元502具体用于:
依据所述语音主题模型的预设的超参数使用先验知识对所述数据集中语音数据对应的语音文本进行采样,得到所述语音数据对应的语音文本的初始主题分布。
可选的,所述处理单元502具体用于:
将所述语音数据进行向量化处理,得到所述语音数据的语音特征矩阵;并将所述语音数据的语音特征矩阵进行加权求和,得到所述语音数据的音频信息。
可选的,所述处理单元502具体用于:
通过声学特征提取将所述语音数据的语音特征数据,得到所述语音数据的语音特征矩阵。
可选的,所述处理单元502具体用于:
根据第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定所述第i个词的生成词;其中,所述第i-1个词为所述语音文本中所述第i个词的前一词;i为正整数;
根据所述语音数据对应的语音文本的初始主题分布、所述语音数据对应的语音文本中每个词的初始主题、所述语音数据对应的语音文本的每个词以及每个词对应的生成词,对所述语音主题模型中的参数进行更新并进行下一轮训练,直到所述语音主题模型收敛;
将所述语音主题模型收敛时输出的主题分布和每个词的主题,确定为所述语音数据对应的语音文本的主题分布和所述语音数据对应的语音文本中每个词的主题。
可选的,所述处理单元502具体用于:
根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定第i个词的隐状态;
根据所述第i-1个词的生成词和所述第i个词的隐状态,确定所述第i个词的生成词。
可选的,所述处理单元502具体用于:
确定所述语音数据对应的语音文本中的每个词与所述每个词对应的生成词之间的误差,对所述误差进行求导,得到所述语音主题模型的第一部分参数的梯度;
使用参数估计方法对所述语音数据对应的语音文本的初始主题分布和所述每个词的初始主题进行参数估计,得到所述语音主题模型中的第二部分参数的梯度;
依据所述语音主题模型的第一部分参数的梯度和第二部分参数的梯度,对所述语音主题模型中的参数进行更新。
可选的,所述处理单元502具体用于:
对所述数据集中的语音数据进行语音特征提取,得到所述语音数据的语音特征数据;
采用预设语音模型和预设语言模型对所述语音特征数据进行识别,得到所述各语音数据对应的语音文本。
基于相同的技术构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用存储器中存储的程序指令,按照获得的程序执行上述语音数据主题识别的方法。
基于相同的技术构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行计算机可读指令时,使得计算机执行上述语音数据主题识别的方法。
基于相同的技术构思,本发明实施例还提供一种计算机程序产品,包括计算机程序指令,当计算机读取并执行所述计算机程序指令时,使得计算机执行如上述语音数据主题识别的方法。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音数据主题识别的方法,其特征在于,包括:
获取待识别的语音数据的数据集;
对所述数据集中的语音数据进行识别,得到各语音数据对应的语音文本;
将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练,确定出所述语音数据对应的语音文本的主题分布和每个词的主题;
所述将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练,确定出所述语音数据对应的语音文本的主题分布和每个词的主题,包括:
确定出所述数据集中所述语音数据对应的语音文本的初始主题分布和所述语音数据的音频信息;
针对所述语音数据对应的语音文本中的每一词,从所述语音数据对应的语音文本的初始主题分布中确定出每个词的初始主题;
依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题,对所述语音主题模型中的参数进行训练,直到所述语音主题模型收敛,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
2.如权利要求1所述的方法,其特征在于,所述确定出所述数据集中所述语音数据对应的语音文本的初始主题分布,包括:
依据所述语音主题模型的预设的超参数使用先验知识对所述数据集中语音数据对应的语音文本进行采样,得到所述语音数据对应的语音文本的初始主题分布。
3.如权利要求1所述的方法,其特征在于,所述确定出所述语音数据的音频信息,包括:
将所述语音数据进行向量化处理,得到所述语音数据的语音特征矩阵;并将所述语音数据的语音特征矩阵进行加权求和,得到所述语音数据的音频信息。
4.如权利要求3所述的方法,其特征在于,所述将所述语音数据进行向量化处理,包括:
通过声学特征提取将所述语音数据的语音特征数据,得到所述语音数据的语音特征矩阵。
5.如权利要求1所述的方法,其特征在于,所述依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题,对所述语音主题模型中的参数进行训练,直到所述语音主题模型收敛,确定出所述语音数据对应的语音文本的主题分布和每个词的主题,包括:
根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定所述第i个词的生成词;其中,所述第i-1个词为所述语音文本中所述第i个词的前一词;i为正整数;
根据所述语音数据对应的语音文本的初始主题分布、所述语音数据对应的语音文本中每个词的初始主题、所述语音数据对应的语音文本的每个词以及每个词对应的生成词,对所述语音主题模型中的参数进行更新并进行下一轮训练,直到所述语音主题模型收敛;
将所述语音主题模型收敛时输出的主题分布和每个词的主题,确定为所述语音数据对应的语音文本的主题分布和所述语音数据对应的语音文本中每个词的主题。
6.如权利要求5所述的方法,其特征在于,所述根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定所述第i个词的生成词,包括:
根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息,确定第i个词的隐状态;
根据所述第i-1个词的生成词和所述第i个词的隐状态,确定所述第i个词的生成词。
7.如权利要求5所述的方法,其特征在于,所述根据所述语音数据对应的语音文本的初始主题分布、所述语音数据对应的语音文本中每个词的初始主题、所述语音数据对应的语音文本的每个词以及每个词对应的生成词,对所述语音主题模型中的参数进行更新,包括:
确定所述语音数据对应的语音文本中的每个词与所述每个词对应的生成词之间的误差,对所述误差进行求导,得到所述语音主题模型的第一部分参数的梯度;
使用参数估计方法对所述语音数据对应的语音文本的初始主题分布和所述每个词的初始主题进行参数估计,得到所述语音主题模型中的第二部分参数的梯度;
依据所述语音主题模型的第一部分参数的梯度和第二部分参数的梯度,对所述语音主题模型中的参数进行更新。
8.一种语音数据主题识别的装置,其特征在于,包括:
获取单元,用于获取待识别的语音数据的数据集;
处理单元,用于对所述数据集中的语音数据进行识别,得到各语音数据对应的语音文本;将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练,确定出所述语音数据对应的语音文本的主题分布和每个词的主题;
所述处理单元具体用于,确定出所述数据集中所述语音数据对应的语音文本的初始主题分布和所述语音数据的音频信息;
针对所述语音数据对应的语音文本中的每一词,从所述语音数据对应的语音文本的初始主题分布中确定出每个词的初始主题;
依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题,对所述语音主题模型中的参数进行训练,直到所述语音主题模型收敛,确定出所述语音数据对应的语音文本的主题分布和每个词的主题。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至7任一项所述的方法。
10.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110125704.1A CN112863518B (zh) | 2021-01-29 | 2021-01-29 | 一种语音数据主题识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110125704.1A CN112863518B (zh) | 2021-01-29 | 2021-01-29 | 一种语音数据主题识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863518A CN112863518A (zh) | 2021-05-28 |
CN112863518B true CN112863518B (zh) | 2024-01-09 |
Family
ID=75986820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110125704.1A Active CN112863518B (zh) | 2021-01-29 | 2021-01-29 | 一种语音数据主题识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863518B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115376499B (zh) * | 2022-08-18 | 2023-07-28 | 东莞市乐移电子科技有限公司 | 一种应用于学习领域下的智能耳机的学习监控方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016179921A1 (zh) * | 2015-05-12 | 2016-11-17 | 北京音之邦文化科技有限公司 | 音频推广信息的处理方法、装置、设备及非易失性计算机存储介质 |
CN106205609A (zh) * | 2016-07-05 | 2016-12-07 | 山东师范大学 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN106528655A (zh) * | 2016-10-18 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 文本主题识别方法和装置 |
CN107403619A (zh) * | 2017-06-30 | 2017-11-28 | 武汉泰迪智慧科技有限公司 | 一种应用于自行车环境的语音控制方法及*** |
CN107423398A (zh) * | 2017-07-26 | 2017-12-01 | 腾讯科技(上海)有限公司 | 交互方法、装置、存储介质和计算机设备 |
CN107590172A (zh) * | 2017-07-17 | 2018-01-16 | 北京捷通华声科技股份有限公司 | 一种大规模语音数据的核心内容挖掘方法及设备 |
CN108986797A (zh) * | 2018-08-06 | 2018-12-11 | 中国科学技术大学 | 一种语音主题识别方法及*** |
CN111259215A (zh) * | 2020-02-14 | 2020-06-09 | 北京百度网讯科技有限公司 | 基于多模态的主题分类方法、装置、设备、以及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112016006860B8 (pt) * | 2013-09-13 | 2023-01-10 | Arris Entpr Inc | Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente |
EP3252769B8 (en) * | 2016-06-03 | 2020-04-01 | Sony Corporation | Adding background sound to speech-containing audio data |
-
2021
- 2021-01-29 CN CN202110125704.1A patent/CN112863518B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016179921A1 (zh) * | 2015-05-12 | 2016-11-17 | 北京音之邦文化科技有限公司 | 音频推广信息的处理方法、装置、设备及非易失性计算机存储介质 |
CN106205609A (zh) * | 2016-07-05 | 2016-12-07 | 山东师范大学 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN106528655A (zh) * | 2016-10-18 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 文本主题识别方法和装置 |
CN107403619A (zh) * | 2017-06-30 | 2017-11-28 | 武汉泰迪智慧科技有限公司 | 一种应用于自行车环境的语音控制方法及*** |
CN107590172A (zh) * | 2017-07-17 | 2018-01-16 | 北京捷通华声科技股份有限公司 | 一种大规模语音数据的核心内容挖掘方法及设备 |
CN107423398A (zh) * | 2017-07-26 | 2017-12-01 | 腾讯科技(上海)有限公司 | 交互方法、装置、存储介质和计算机设备 |
CN108986797A (zh) * | 2018-08-06 | 2018-12-11 | 中国科学技术大学 | 一种语音主题识别方法及*** |
CN111259215A (zh) * | 2020-02-14 | 2020-06-09 | 北京百度网讯科技有限公司 | 基于多模态的主题分类方法、装置、设备、以及存储介质 |
Non-Patent Citations (1)
Title |
---|
多信息融合的新闻节目主题划分方法;余骁捷等;中文信息学报;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112863518A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287283B (zh) | 意图模型训练方法、意图识别方法、装置、设备及介质 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN111625634B (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN111583911B (zh) | 基于标签平滑的语音识别方法、装置、终端及介质 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112348073A (zh) | 一种多音字识别方法、装置、电子设备及存储介质 | |
CN111653275A (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN111833848B (zh) | 用于识别语音的方法、装置、电子设备和存储介质 | |
CN114639386A (zh) | 文本纠错及文本纠错词库构建方法 | |
CN113591462A (zh) | 弹幕回复生成方法、装置及电子设备 | |
CN110706710A (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN113948090B (zh) | 语音检测方法、会话记录产品及计算机存储介质 | |
US20230205994A1 (en) | Performing machine learning tasks using instruction-tuned neural networks | |
CN112863518B (zh) | 一种语音数据主题识别的方法及装置 | |
CN113051384A (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、***、存储介质和电子设备 | |
CN116129883A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN115238068A (zh) | 语音转录文本聚类方法、装置、电子设备和存储介质 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 | |
CN114724547A (zh) | 一种用于口音英语的识别方法及*** | |
CN111460105A (zh) | 基于短文本的主题挖掘方法、***、设备及存储介质 | |
CN113192495A (zh) | 语音识别方法及装置 | |
CN111737988B (zh) | 一种复述句识别的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |