CN111951790A - 一种语音处理方法、装置、终端及存储介质 - Google Patents
一种语音处理方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN111951790A CN111951790A CN202010849414.7A CN202010849414A CN111951790A CN 111951790 A CN111951790 A CN 111951790A CN 202010849414 A CN202010849414 A CN 202010849414A CN 111951790 A CN111951790 A CN 111951790A
- Authority
- CN
- China
- Prior art keywords
- user
- target
- voice
- voice data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000013145 classification model Methods 0.000 claims description 57
- 238000004891 communication Methods 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 19
- 238000012360 testing method Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种语音处理方法、装置、终端及存储介质,方法包括:获得待识别的目标语音数据;获得所述目标语音数据所属的目标用户;利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、终端及存储介质。
背景技术
很多社交软件都有语音转文字的功能。通常情况下,语音转文字后台采用的是同一个语音转文字的语音识别模型。
但是由于这个语音识别模型是通用的模型,因此,对不同用户均为同一种转换效果,由此会存在语音转换不准确的情况。
发明内容
有鉴于此,本申请提供一种语音处理方法、装置、终端及存储介质,以提高对语音处理的准确性。
为实现上述目的,一方面,本申请提供了一种语音处理方法,包括:
获得待识别的目标语音数据;
获得所述目标语音数据所属的目标用户;
利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;
其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
在一种可能的实现方式中,获得所述目标语音数据所属的目标用户,包括:
获得第一语音集合中预设的每个第一语音数据,每个所述第一语音数据分别对应于一个所属用户;
利用用户分类模型,对所述目标语音数据和所述第一语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件;
其中,所述用户分类模型为利用多个具有用户分类标签的语音样本组对初始构建的用户分类模型进行训练得到,所述语音样本组包含两个第三语音样本,所述用户分类标签表征所述语音样本组中的两个所述第三语音样本是否属于同一用户。
可选的,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件,包括:
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度大于或等于预设的相似阈值;
和/或,
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度最大。
可选的,所述用户分类模型中至少包含卷积神经网络层、全联通层和分类层;
其中,所述卷积神经网络层用于对所述目标语音数据和所述第一语音数据分别进行语音特征提取,以得到所述目标语音数据对应的第一语音特征和所述第一语音数据对应的第二语音特征;
所述全联通层用于对所述第一语音特征和所述第二语音特征进行特征交互处理,以得到特征交互结果;
所述分类层用于根据所述特征交互结果,生成分类结果,所述分类结果表征所述目标语音数据和所述第一语音数据是否属于同一用户。
在一种可能的实现方式中,获得第一语音集合中的每个第一语音数据,包括:
获得终端上存储的第一语音集合,所述终端为需要对所述目标语音数据进行语音识别的设备;
获得所述第一语音集合中预设的每个第一语音数据。
可选的,在所述第一语音集合中的每个所述第一语音数据与所述目标语音数据均不满足所述相似条件的情况下,所述方法还包括:
获得服务器上存储的第二语音集合中的每个第二语音数据,每个所述第二语音数据分别对应于一个所属用户,所述服务器为能够与终端进行数据传输的设备,所述终端为需要对所述目标语音数据进行语音识别的设备;
利用所述用户分类模型,对所述目标语音数据和所述第二语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第二语音数据与所述目标语音数据满足所述相似条件。
在一种可能的实现方式中,获得所述目标语音数据所属的目标用户,包括:
利用用户识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据所属的目标用户;
其中,所述用户识别模型为利用多个具有用户标签的第四语音样本对初始构建的用户识别模型进行训练得到。
又一方面,本申请还提供了一种语音处理装置,包括:
语音获得单元,用于获得待识别的目标语音数据;
用户获得单元,用于获得所述目标语音数据所属的目标用户;
语音识别单元,用于利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;
其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
又一方面,本申请还提供了一种终端,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于实现如上任一项所述的语音处理方法。
又一方面,本申请还提供了存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一项所述的语音处理方法。
由上述方案可知,本申请所提供的一种语音处理方法、装置、终端及存储介质中,在获得到待识别的目标语音数据之后,通过对目标语音数据所属的目标用户进行获取,进而利用该目标用户所对应的语音识别模型对目标语音数据进行语音识别,而目标用户所对应的语音识别模型为利用目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,而这里的通用识别模型则是利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到,基于此,目标用户所对应的语音识别模型相对于通用识别模型更加符合目标用户的发音特点,由此,使用目标用户所对应的语音识别模型对目标语音数据进行语音识别所得到的目标文本数据相对于使用通用识别模型进行语音识别所得到的文本数据更加准确。可见,本申请中利用目标用户的语音样本对经过训练的通用识别模型再次进行个性化训练,从而得到针对目标用户的个性化的语音识别模型,进而利用该语音识别模型提高对目标用户的目标语音数据进行语音识别的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例的一种语音处理***的组成框架示意图;
图2-图4分别示出了本申请实施例的一种语音处理***的示例图;
图5示出了本申请实施例的一种实现语音处理的终端的硬件组成结构示意图;
图6示出了本申请实施例的一种语音处理方法的一种流程示意图;
图7示出了本申请实施例中用户分类模型的逻辑架构图;
图8-图10分别示出了本申请实施例中的应用示意图;
图11示出了本申请实施例的一种语音处理装置一个实施例的组成结构示意图。
具体实施方式
目前在语音交互的应用中,可以利用语音识别模型,实现对用户的语音数据进行语音识别。其中,这里的用户是指在电子设备上接收到的语音数据所属的用户,如聊天应用的双方用户,再如,客服***中的客户,等等。
而本申请的发明人经过研究发现:目前有多种方案实现对语音数据进行语音识别,以得到语音数据所对应的文本数据。在一种方案中,所有用户使用一个语音转文字模型,该语音转文字模型对每个用户并不进行区分,所有用户都采用同一个时序模型对语音到文字进行转换,而这里的时序模型可以使用循环神经网络或者transformer构建,进而实现语音向文字的转换;另一种方案中,同一设备上使用一个语音转文字模型,该语音转文字模型对不同设备进行区分,认为同一个设备属于同一个用户,对同一个设备上的所有用户并不区分,同一设备上的所有用户都采用一个模型对语音到文字进行转换。由此,以上方案中均不区分用户,而不同用户可能有口音、方言或者语言习惯等个性化的区别,因此,对不同用户使用同一个模型进行语音转文字的识别准确性较差。
因此,本申请的发明人进一步进行研究发现,不同用户的语音数据在字节发音和发音习惯上是不同的,因此,因此,为了提高语音识别准确性,可以对多用户通用的语音识别模型使用单个用户的语音样本进行单独训练,从而得到针对每个用户的个性化的语音识别模型,由此,这些个性化的语音识别模型可以对相应用户的语音数据进行准确的识别,从而提高语音识别的准确性。
为了便于理解,本文中先对本申请的方案所适用的***进行介绍,参考图1,其示出了本申请一种语音处理***的一种组成架构示意图。
由图1中可知,该***中可以包括有:服务器10和终端20,服务器10和终端20之间通过网络实现通信连接。
其中,服务器10可以为后台服务器等,终端20可以为手机、pad、电脑等客户端,此时,用户可以通过终端20进行语音数据的采集以及语音数据的接收,当然还可以进行语音数据的播放输出,基于此,终端20上可以对接收到的目标语音数据或者采集到的目标语音数据进行获取,并获得该目标语音数据所属的目标用户,进而利用该目标用户对应的语音识别模型对目标语音数据进行语音识别,以得到目标语音数据对应的目标文本数据,而这里的目标用户对应的语音识别模型为服务器10利用目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,而通用识别模型则可以是利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。而服务器10上还可以进行语音数据的传输及存储,如聊天应用的后台服务器等,当然服务器10上也可以存储训练好的通用识别模型和目标用户的语音识别模型。
需要说明的是,本申请中的语音处理***在另一种实现中可以不包含有服务器10,只有终端20,而服务器10上的存储功能和模型训练的功能集成到终端20上,由终端20上预先利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练,并利用目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练,以得到目标用户对应的语音识别模型,进而终端20上可以对接收到的目标语音数据或者采集到的目标语音数据进行获取,并获得该目标语音数据所属的目标用户,进而利用该目标用户对应的语音识别模型对目标语音数据进行语音识别,以得到目标语音数据对应的目标文本数据;
或者,本申请中的语音处理***在另一种实现中可以不包含有终端20,只有服务器10,而终端20中利用目标语音数据所属的目标用户对应的语音识别模型对目标语音数据进行语音识别的功能集成到服务器10上,基于此,由服务器10预先利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练,并利用目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练,以得到目标用户对应的语音识别模型,进而服务器10中可以对终端20上采集到的目标语音数据或者接收到的目标语音数据进行获取,并获得该目标语音数据所属的目标用户,进而利用该目标用户对应的语音识别模型对目标语音数据进行语音识别,以得到目标语音数据对应的目标文本数据,之后再将这些目标文本数据返回给终端20;
或者,本申请中的语音处理***在另一种实现中可以不仅包含有终端20,还包含有服务器,但是区别于前文中的语音处理***,在这种实现中服务器10上进行模型训练的功能集成到终端20上,此时终端20上可以利用目标语音数据所属的目标用户对应的语音识别模型对目标语音数据进行语音识别,基于此,由终端20预先利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练,并利用目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练,以得到目标用户对应的语音识别模型,之后,终端20可以将这些训练好的语音识别模型进行存储以便于后续调用,基于此,终端20上在采集到目标语音数据或者接收到目标语音数据后,可以通过获得该目标语音数据所属的目标用户,进而调用训练好的该目标用户对应的语音识别模型对目标语音数据进行语音识别,以得到目标语音数据对应的目标文本数据。
以图2中用户A和用户B之间的交互为例,手机终端通过聊天应用采集到手机用户A的目标语音数据之后,调用手机上预先训练好的用户A的语音识别模型对目标语音数据进行语音识别,以得到用户A的目标文本数据,而如果手机终端通过聊天应用接收到好友用户B发送来的目标语音数据之后,调用手机上预先训练好的用户B的语音识别模型对目标语音数据进行语音识别,以得到用户B的目标文本数据;
再如,手机终端通过聊天应用采集到手机用户A的目标语音数据之后,调用手机上存储的由服务器预先训练好的用户A的语音识别模型,并利用该用户A的语音识别模型对用户A的目标语音数据进行语音识别,以得到用户A的目标文本数据,而如果手机终端通过聊天应用接受到好友用户B发送来的目标语音数据之后,调用手机上存储的由服务器预先训练好的用户B的语音识别模型,并利用该用户B的语音识别模型对用户B的目标语音数据进行语音识别,以得到用户B的目标文本数据,如图3中所示;
再如,手机终端通过聊天应用采集到手机用户A的目标语音数据之后,请求服务器对用户A的目标语音数据进行语音识别,而服务器上在接收到该请求之后找到预先训练好的用户A的语音识别模型,并利用该用户A的语音识别模型对用户A的目标语音数据进行语音识别,以得到用户A的目标文本数据并将用户A的目标文本数据传输给手机终端,而如果手机终端通过聊天应用接受到好友用户B发送来的目标语音数据之后,请求服务器对用户B的目标语音数据进行语音识别,而服务器上在接收到该请求之后找到预先训练好的用户B的语音识别模型,并利用该用户B的语音识别模型对用户B的目标语音数据进行语音识别,以得到用户B的目标文本数据并将用户B的目标文本数据传输给手机终端,如图4中所示。
其中,为了实现终端或服务器上相应语音处理的功能,终端或服务器的存储器中需要存储实现相应功能的程序。为了便于理解终端或服务器的硬件构成,下面以终端为例进行介绍。如图5中所示,为本申请的终端的一种组成结构示意图,本实施例中的终端20可以包括有:处理器201、存储器202、通信接口203、输入单元204、显示器205和通信总线206。
其中,处理器201、存储器202、通信接口203、输入单元204、显示器205、均通过通信总线206完成相互间的通信。
在本实施例中,该处理器201,可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器201可以调用存储器202中存储的程序。具体的,处理器201可以执行以下语音处理方法的实施例中终端所执行的操作。
存储器202中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获得待识别的目标语音数据;
获得所述目标语音数据所属的目标用户;
利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;
其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
在一种可能的实现方式中,该存储器202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、以及至少一个功能(比如模型训练等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,语音样本、语音数据和训练好的语音识别模型和通用识别模型等等。
此外,存储器202可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口203可以为通信模块的接口,如GSM模块的接口。
当然,图5所示的终端的结构并不构成对本申请实施例中终端的限定,在实际应用中终端可以包括比图5所示的更多或更少的部件,或者组合某些部件。可以理解的是,服务器的硬件组成可以参考图5中终端的硬件组成。
需要说明的是,本实施例中的服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
也就是说,本申请中的服务器10可以为云端服务器,通过云技术(Cloudtechnology)实现本申请的技术方案,其中,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
其中,云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用***能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台),一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作***)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、***器等。一般来说,SaaS和PaaS相对于IaaS是上层。
本实施例前文中提到的服务器10即为云平台上的能够进行云计算的服务器,可以用于实现本申请中的语音处理及模型训练。
结合以上共性,参考图6,其示出了本申请一种语音处理方法一个实施例的流程示意图,本实施例中的方法可以包括有:
S601:获得待识别的目标语音数据。
其中,待识别的目标语音数据可以为终端上通过语音采集部件如麦克风等采集到的语音数据,或者,可以为终端上通过数据传输部件如WiFi或者移动通信网络接收到的其他终端发送的语音数据。
以终端上聊天应用中用户A和用户B之间进行语音交互为例,用户A为终端所属用户,用户B为通过聊天应用与用户A互为好友的用户,本实施例中的目标语音数据可以为终端上通过麦克风采集到的用户A的语音数据,或者,可以为终端上通过聊天应用接收到的用户B发来的语音数据。
S602:获得目标语音数据所属的目标用户。
其中,目标用户是指目标语音数据的发音用户,如用户A或用户B等。
具体实现中,本实施例中可以通过基于语音识别等算法构建的模型来获得目标语音数据所属的目标用户。如下:
在一种实现方式中,S602可以通过以下方式获得到目标语音数据所属的目标用户:
首先,获得第一语音集合中预设的每个第一语音数据,这里的第一语音集合可以为存储在本地终端上的语音集合,本地终端即为本实施例中需要对目标语音数据进行识别的设备,由此,本实施例中可以先获得到终端上所存储的第一语音集合,再获得该第一语音集合中预设的每个第一语音数据,这里的第一语音数据可以为具有训练好的语音识别模型的用户所预设的语音数据,每个第一语音数据分别对应于一个所属用户。例如,在手机上预先存储有第一语音集合,该第一语音集合中包含有用户A预先录制好的第一语音数据(当然也可以是对用户A的历史发音数据中抽取到的语音数据)和用户B预先录制好的第一语音数据,分别对应于用户A和用户B;
需要说明的是,第一语音集合中的第一语音数据可以通过对终端上的历史语音数据进行采集,以得到一个或多个用户的第一语音数据。
之后,利用用户分类模型,对目标语音数据和第一语音数据进行语音处理,以得到目标语音数据所属的目标用户,而得到的目标用户对应的第一语音数据与目标语音数据满足预设的相似条件。也就是说,本实施例中分别利用用户分类模型对目标用户语音数据和每个第一语音数据进行语音处理,以确定与目标用户语音数据满足相似条件的第一语音数据,而与目标用户语音数据满足相似条件的第一语音数据的所属用户即为目标用户。
其中,用户分类模型为利用多个具有用户分类标签的语音样本组对初始构建的用户分类模型进行训练得到,而用户分类模型为基于分类算法构建,作为用户分类模型的训练样本,一个语音样本组中包含有两个第三语音样本,该语音样本组的用户分类标签则是表征语音样本组中的两个第三语音样本是否属于同一用户,由此,本实施例中在对用户分类模型进行训练时,以语音样本组中的两个第三语音样本为输入样本,以语音样本组的用户分类标签为输出样本,在将输入样本输入到用户分类模型中之后,获得用户分类模型针对输入样本的分类测试结果,再用分类测试结果与用户分类标签进行比较,进而利用分类测试结果与用户分类标签之间的差异值对用户分类模型的模型参数进行调整,以使得用户分类模型的损失函数值降低,而随着用户分类模型的多次训练,损失函数值逐渐减小,直到损失函数值减小到不再变化,此时用户分类模型训练完成。
需要说明的是,用户分类模型的输出样本中用户分类标签可以以是或否的符号表征,而用户分类模型对输入样本的分类测试结果可以以0到1之间的概率值来表示,概率值即表征两个第三语音样本是否属于同一用户的概率,如果分类测试结果的概率值大于或等于概率阈值,那么表征分类测试结果对应的两个第三语音样本属于同一用户,此时,将该分类测试结果与用户分类标签进行比对,如果分类测试结果与用户分类标签不同,那么根据分类测试结果中的概率值调整用户分类模型的模型参数,直到分类测试结果与用户分类标签相同且用户分类模型的损失函数收敛,完成用户分类模型的训练。
由此,基于以上训练完成的用户分类模型,本实施例中依次使用用户分类模型对目标语音数据和每个第一语音数据进行语音处理,以确定与目标语音数据满足预设相似条件的第一语音数据的所属用户,即为目标语音数据所属的目标用户。例如,手机上在获得到一条语音即目标语音数据之后,获得手机上存储的第一语音集合中的用户A的第一语音数据和用户B的第一语音数据,利用用户分类模型对用户A的第一语音数据和目标语音数据进行语音处理,以获得到用户A的第一语音数据和目标语音数据属于同一用户的概率或者确定用户A的第一语音数据和目标语音数据是否属于同一用户,之后,利用用户分类模型对用户B的第一语音数据和目标语音数据进行语音处理,以获得到用户B的第一语音数据和目标语音数据属于同一用户的概率或者确定用户B的第一语音数据和目标语音数据是否属于同一用户,以此类推,直到将第一语音集合中的每个用户的第一语音数据均与目标语音数据进行分类处理,进而根据用户A、用户B等用户的第一语音数据分别与目标语音数据利用用户分类模型进行语音处理所得到的结果,如是否属于同一用户的分类结果或者属于同一用户的概率值,确定与目标语音数据满足相似条件的第一语音数据所属的用户,即为目标语音数据所属的目标用户,例如,用户A的第一语音数据与目标语音数据满足相似条件,此时确定用户A为目标语音数据所属的目标用户。
具体的,目标用户对应的第一语音数据与目标语音数据满足预设的相似条件,可以为:目标用户对应的第一语音数据与目标语音数据之间的相似度大于或等于预设的相似阈值,其中,目标用户对应的第一语音数据与目标语音数据之间的相似度可以用通过用户分类模型对标用户对应的第一语音数据与目标语音数据进行语音处理所得到的概率值表示,由此,在目标用户对应的第一语音数据与目标语音数据之间的相似度大于或等于预设的相似阈值时,即用户分类模型对标用户对应的第一语音数据与目标语音数据进行语音处理所得到的概率值大于或等于概率阈值时,则确定目标用户对应的第一语音数据与目标语音数据满足预设的相似条件,也就是目标用户对应的第一语音数据与目标语音数据属于同一用户,即目标用户;
例如,手机上将第一语音集合中的每个用户的第一语音数据均与目标语音数据进行分类处理,进而根据用户A、用户B等用户的第一语音数据分别与目标语音数据利用用户分类模型进行语音处理所得到的结果,确定出用户A的第一语音数据与目标语音数据之间属于同一用户的概率大于概率阈值,即为用户A的第一语音数据与目标语音数据之间的相似度大于相似阈值,此时,确定用户A为目标语音数据所属的目标用户;
可选的,目标用户对应的第一语音数据与目标语音数据满足预设的相似条件,可以为:目标用户对应的第一语音数据与目标语音数据之间的相似度最大。需要说明的是,第一语音集合的第一语音数据与目标语音数据之间的相似度可能均不大于相似阈值,或者,目标用户对应的第一语音数据与目标语音数据之间的相似度可能均大于相似阈值,那么此时,本实施例中可以选取第一语音集合中与目标语音数据之间的相似度最大的第一语音数据作为与目标语音数据满足相似条件的语音数据,此时,确定与目标语音数据之间的相似度最大的第一语音数据也就是与目标语音数据之间属于同一用户的概率最大的第一语音数据对应的用户为目标语音数据所属的目标用户;
例如,手机上将第一语音集合中的每个用户的第一语音数据均与目标语音数据进行分类处理,进而根据用户A、用户B等用户的第一语音数据分别与目标语音数据利用用户分类模型进行语音处理所得到的结果,确定出用户A的第一语音数据与目标语音数据之间属于同一用户的概率最大,即为用户A的第一语音数据与目标语音数据之间的相似度最大,此时,确定用户A为目标语音数据所属的目标用户。
具体实现中,用户分类模型中至少可以包含有卷积神经网络层、全联通层和分类层,如图7中所示:
其中,卷积神经网络层也可以称为卷积层,可以基于卷积神经网络CNN(Convolutional Neural Networks)构建,主要用于对输入到用户分类模型的目标语音数据和第一语音数据分别进行语音特征提取,以得到目标语音数据对应的第一语音特征和第一语音数据对应的第二语音特征;
基于以上卷积层的输出特征,全联通层主要用于对第一语音特征和第二语音特征进行特征交互处理,以得到特征交互结果,进而通过分类层根据特征交互结果,生成分类结果,该分类结果表征目标语音数据和第一语音数据是否属于同一用户。例如,分类结果以概率值表征,该概率值为目标语音数据和第一语音数据属于同一用户的概率。
需要说明的是,本实施例中在基于第一语音集合中的每个第一语音数据获得目标语音数据所属的目标用户时,可能存在第一语音集合中的所有第一语音数据与目标语音数据均不满足相似条件的情况,例如,所有第一语音数据与目标语音数据之间的相似度均小于相似阈值的情况,也就是说有第一语音数据与目标语音数据之间属于同一用户的概率均小于概率阈值,因此,本实施例中为了获得目标语音数据所属的目标用户,在第一语音集合中的所有第一语音数据与目标语音数据均不满足相似条件的情况下,还可以通过以下方式实现:
首先,获得服务器上存储的第二语音集合中的每个第二语音数据,这里的第二语音集合可以为存储在能够与终端进行数据传输的服务器上的语音集合,例如,本地终端即为本实施例中需要对目标语音数据进行识别的设备,而服务器为云端服务器,由此,本实施例中可以在本地终端存储的第一语音集合中的所有第一语音数据与目标语音数据属于同一用户的概率均不大于概率阈值的情况下,在服务器上存储的第二语音集合中获得每个第二语音数据,这里的第二语音数据可以为具有训练好的语音识别模型的用户所预设的语音数据,每个第二语音数据分别对应于一个所属用户。例如,在手机上预先存储有第一语音集合,该第一语音集合中包含有用户A预先录制好的第一语音数据(当然也可以是对用户A的历史发音数据中抽取到的语音数据)和用户B预先录制好的第一语音数据,分别对应于用户A和用户B,而服务器上预先存储有第二语音集合,第二语音集合中包含有用户C预先录制好的第二语音数据和用户D预先录制好的第二语音数据,分别对应于用户C和用户D;
之后,再利用前文中的用户分类模型,对目标语音数据和第二语音数据进行语音处理,从而得到目标语音数据所属的目标用户,而得到的目标用户对应的第二语音数据与目标语音数据满足预设的相似条件。也就是说,本实施例中分别利用用户分类模型对目标用户语音数据和每个第二语音数据进行语音处理,以确定与目标用户语音数据满足相似条件的第二语音数据,如目标用户语音数据之间的相似度大于或等于相似阈值或者相似度最大的第二语音数据,而此时与目标用户语音数据满足相似条件的第二语音数据的所属用户即为目标用户。
例如,手机上在获得到一条语音即目标语音数据之后,如果手机上存储的用户A的第一语音数据和用户B的第一语音数据各自与目标语音数据之间的相似度均小于相似阈值,也就是说,手机上存储的用户A的第一语音数据和用户B的第一语音数据各自与目标语音数据之间属于同一用户的概率均小于概率阈值,此时确定手机上存储的用户A的第一语音数据和用户B的第一语音数据各自与目标语音数据之间均不满足相似条件,为了保证语音识别的可靠性,本实施例中获取手机上聊天应用所对应的云端服务器上存储的用户C的第二语音数据和用户D的第二语音数据,之后利用用户分类模型对用户C的第二语音数据和目标语音数据进行语音处理,以获得到用户C的第二语音数据和目标语音数据属于同一用户的概率或者确定用户C的第二语音数据和目标语音数据是否属于同一用户,之后,利用用户分类模型对用户D的第二语音数据和目标语音数据进行语音处理,以获得到用户D的第二语音数据和目标语音数据属于同一用户的概率或者确定用户D的第二语音数据和目标语音数据是否属于同一用户,以此类推,直到将第二语音集合中的每个用户的第二语音数据均与目标语音数据进行分类处理,进而根据用户C、用户D等用户的第二语音数据分别与目标语音数据利用用户分类模型进行语音处理所得到的结果,如是否属于同一用户的分类结果或者属于同一用户的概率值,确定与目标语音数据满足相似条件的第二语音数据所属的用户,即为目标语音数据所属的目标用户,例如,用户C的第二语音数据与目标语音数据满足相似条件,例如用户C的第二语音数据与目标语音数据之间的相似度大于或等于相似阈值或者相似度最大,或者说,用户C的第二语音数据与目标语音数据之间属于同一用户的概率值大于或等于相似阈值或者概率值最大,此时确定用户C为目标语音数据所属的目标用户。
进一步的,本实施例中,在第一语音集合中的所有第一语音数据与目标语音数据均不满足相似条件的情况下,可以将该目标语音数据所属的目标用户作为当前终端上的新用户,如果在第二语音集合中有第二语音数据与目标语音数据满足相似条件,那么将与目标语音数据满足相似条件的第二语音数据作为第一语音数据存储到第一语音集合中,以便于下次需要进行语音转文本的语音处理时,可以在终端上的第一语音集合中找到与新的目标语音数据满足相似条件的语音数据,不必再向服务器中的第二语音集合中通过用户分类模型获取与目标语音数据满足相似条件的语音数据。
在另一种实现方式中,S602也可以通过以下方式获得到目标语音数据所属的目标用户:
首先,利用用户识别模型,对目标语音数据进行语音识别,以得到目标语音数据所属的目标用户,其中这里的用户识别模型为利用多个具有用户标签的第四语音样本对初始构建的用户识别模型进行训练得到。
需要说明的是,用户识别模型可以基于识别算法构建,进而在经过语音样本的训练之后,能够对目标语音数据的语音特征进行识别,进而得到该目标语音数据所属的目标用户。
具体的,本实施例中可以通过对网络中、服务器中或者终端中所涉及到的语音数据进行采集抽样,从而得到第四语音样本,而每个第四语音样本均具有表征用户发音类型或者用户身份的用户标签,例如,用户标签以0和1的序列来表征,例如,用户标签以[0,0,0,0,0,0,1]表征该第四语音样本属于[四川话发音用户、东北话发音用户、粤语发音用户、英式发音用户、美式发音用户、用户A和用户B]中的用户B,基于此,本实施例中将每个第四语音样本分别作为用户识别模型的输入样本,将相应的用户标签作为输出样本,在将第四语音样本输入到用户识别模型之后,用户识别模型能够对第四语音样本进行语音识别并得到识别测试结果,该识别测试结果表征第四语音样本属于每个用户的概率值,因此,将该识别测试结果中概率值最大的第四语音样本所属的用户与输出样本的用户标签进行比对,并根据对比结果对用户识别模型的模型参数进行调整,以使得用户识别模型的损失函数减小,而随着其他更多的第四语音样本对用户识别模型的训练,用户识别模型的损失函数逐渐减小并趋于稳定,此时完成对用户识别模型的训练。
基于此,本实施例中在终端上获得到目标语音数据之后,可以将目标语音数据输入到用户识别模型中,用户识别模型可以输出用户识别结果,该用户识别结果表征目标语音数据属于每个用户的概率值,而最大概率值对应的用户即为目标语音数据所属的目标用户。
例如,手机上在获得到一条语音即目标语音数据之后,利用手机上的用户识别模型对目标语音数据进行语音识别,以得到目标语音数据所属用户属于[四川话发音用户、东北话发音用户、粤语发音用户、英式发音用户、美式发音用户、用户A和用户B]中每个用户的概率值,由此将概率值最大的用户确定为目标语音数据所属的目标用户,例如,将概率值最大的粤语发音用户作为目标语音数据所属的目标用户。
S603:利用目标用户对应的语音识别模型,对目标语音数据进行语音识别,以得到目标语音数据对应的目标文本数据。
其中,目标文本数据中包含至少一个文本语句,文本语句中包含至少一个词,如“中午吃什么呀”或者“昨天的火锅真好吃”。
具体的,本实施例中的语音识别模型为利用目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,而通用识别模型则是利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
其中,初始构建的通用识别模型可以为基于Transformer机制构建的深度学习模型,而对初始构建的通用识别模型进行初始训练的第二语音样本包含有多个用户的多个具有文本标签的语音样本,第二语音样本不区分用户,具体可以通过对网络中、服务器中或者终端中所涉及到的语音数据及相应的文本数据进行采集抽样,从而得到第二语音样本。
具体的,在利用第二语音样本对初始构建的通用识别模型进行训练时,可以将第二语音样本作为输入样本,将第二语音样本对应的文本标签作为输出样本,在获得到通用识别模型对第二语音样本进行语音识别得到测试文本数据之后,将测试文本数据中的文本与文本标签中的文本进行比对,进而根据比对结果对通用识别模型的模型参数进行调整,以使得通用识别模型的损失函数减小,而随着其他更多的第二语音样本对通用识别模型的训练,通用识别模型的损失函数逐渐减小并趋于稳定,此时完成对通用识别模型的训练。
基于此,本实施例中所训练出的通用识别模型可以对语音数据进行语音识别,以得到相应的文本数据,但是,通用识别模型不区别用户,对于不同用户的语音数据均为同一种文本转换效果,为此,本实施例中训练处通用识别模型之后,再利用目标用户的多个具有文本标签的第一语音样本对通用识别模型再次进行训练,从而使得所训练出的语音识别模型是针对目标用户的个性化的识别模型,同样的,本实施例中还会利用其它用户的多个具有文本标签的第一语音样本对训练出的通用识别模型进行训练,从而得到针对每个用户的语音识别模型。
由此,本实施例中在获得到待识别的目标语音数据所属的目标用户之后,可以调用该目标用户对应的语音识别模型对目标语音数据进行语音识别,由此利用个性化的语音识别模型进行文本转换,所得到的目标文本数据相对于通用识别模型对目标语音数据进行文本转换所得到的文本数据更加准确。
具体的,每个用户的多个具有文本标签的第一语音样本可以通过对网络中、终端或服务器上出现过的用户的语音数据及相应的文本数据进行采集,进而得到每个用户的语音数据和相应的文本数据,由此,针对每个用户,将其语音数据作为第一语音样本并将其语音数据对应的文本数据作为文本标签,即可利用这些第一语音样本分别对通用识别模型进行训练,进而训练出每个用户各自对应的语音识别模型,此时的每个用户的语音识别模型均是按照相应用户的个性化的发音特征所训练出来的,由此,在需要对目标用户的目标语音数据进行文本转换时,只调用该目标用户对应的语音识别模型对目标语音数据进行语音识别,由此利用个性化的语音识别模型进行文本转换,所得到的目标文本数据相对于通用识别模型对目标语音数据进行文本转换所得到的文本数据的准确性更高。
例如,手机上在采集到一条语音即目标语音数据之后,先将手机上的第一语音集合中的用户A和用户B等用户的第一语音数据均与目标语音数据进行分类处理,进而根据用户A、用户B等用户的第一语音数据分别与目标语音数据利用用户分类模型进行语音处理所得到的结果,确定出用户A的第一语音数据与目标语音数据之间属于同一用户的概率大于概率阈值,即为用户A的第一语音数据与目标语音数据之间的相似度大于相似阈值,此时,确定用户A为目标语音数据所属的目标用户,进而调用该用户A对应的语音识别模型对目标语音数据进行语音识别,进而得到该用户A的目标文本数据,进一步的,可以直接输出在手机上以提供给手机用户查看,而此时调用的用户A对应的语音识别模型是对初始训练好的通用识别模型使用用户A的多个具有文本标签的第一语音样本进行训练处的针对用户A的个性化的识别模型,因此,最终所得到的目标文本数据相对于通用识别模型对目标语音数据进行文本转换所得到的文本数据的准确性更高;
再如,手机上在获得到一条语音即目标语音数据之后,如果手机上存储的用户A的第一语音数据和用户B的第一语音数据各自与目标语音数据之间的相似度均小于相似阈值,也就是说,手机上存储的用户A的第一语音数据和用户B的第一语音数据各自与目标语音数据之间属于同一用户的概率均小于概率阈值,此时确定手机上存储的用户A的第一语音数据和用户B的第一语音数据各自与目标语音数据之间均不满足相似条件,为了保证语音识别的可靠性,本实施例中获取手机上聊天应用所对应的云端服务器上存储的用户C的第二语音数据和用户D的第二语音数据,之后利用用户分类模型对用户C的第二语音数据和目标语音数据进行语音处理,以获得到用户C的第二语音数据和目标语音数据属于同一用户的概率或者确定用户C的第二语音数据和目标语音数据是否属于同一用户,之后,利用用户分类模型对用户D的第二语音数据和目标语音数据进行语音处理,以获得到用户D的第二语音数据和目标语音数据属于同一用户的概率或者确定用户D的第二语音数据和目标语音数据是否属于同一用户,以此类推,直到将第二语音集合中的每个用户的第二语音数据均与目标语音数据进行分类处理,进而根据用户C、用户D等用户的第二语音数据分别与目标语音数据利用用户分类模型进行语音处理所得到的结果,如是否属于同一用户的分类结果或者属于同一用户的概率值,确定与目标语音数据满足相似条件的第二语音数据所属的用户,即为目标语音数据所属的目标用户,例如,用户C的第二语音数据与目标语音数据满足相似条件,例如用户C的第二语音数据与目标语音数据之间的相似度大于或等于相似阈值或者说用户C的第二语音数据与目标语音数据之间属于同一用户的概率大于或等于相似阈值,此时确定用户C为目标语音数据所属的目标用户,基于此,调用该用户C对应的语音识别模型对目标语音数据进行语音识别,进而得到该用户C的目标文本数据,进一步的,可以直接输出在手机上以提供给手机用户查看,而此时调用的用户C对应的语音识别模型是对初始训练好的通用识别模型使用用户C的多个具有文本标签的第二语音样本进行训练处的针对用户C的个性化的识别模型,因此,最终所得到的目标文本数据相对于通用识别模型对目标语音数据进行文本转换所得到的文本数据的准确性更高。
再如,手机上在获得到一条语音即目标语音数据之后,利用手机上的用户识别模型对目标语音数据进行语音识别,以得到目标语音数据所属用户属于[四川话发音用户、东北话发音用户、粤语发音用户、英式发音用户、美式发音用户、用户A和用户B]中每个用户的概率值,由此将概率值最大的用户确定为目标语音数据所属的目标用户,例如,将概率值最大的粤语发音用户作为目标语音数据所属的目标用户,基于此,利用粤语发音用户对应的语音识别模型对目标语音数据进行语音识别,以得到目标语音数据对应的目标文本,而此时调用的粤语发音用户对应的语音识别模型是对初始训练好的通用识别模型使用粤语发音用户的多个具有文本标签的第四语音样本进行训练处的针对粤语发音用户的个性化的识别模型,因此,最终所得到的目标文本数据相对于通用识别模型对目标语音数据进行文本转换所得到的文本数据的准确性更高。
需要说明的是,在第一语音集合和第二语音集合中的所有语音数据与目标语音数据均不满足相似条件的情况下,或者,用户识别模型无法识别出目标用户的情况下,那么本实施例中可以将该目标语音数据所属的目标用户确定为通用用户,作为当前终端上的新用户,此时,可以利用训练好的通用识别模型对该目标语音数据进行语音识别,以得到相应的目标文本数据,由此来保证语音转文本的语音处理的可靠性。
同时,本实施例中还可以采集该新用户的语音数据及该语音数据对应的文本标签,例如,邀请新用户进行语音数据采集并录入相应的文本数据,进而得到该新用户的第一语音样本,再利用该第一语音样本对通用识别模型进行训练,从而得到该新用户对应的语音识别模型,并将该用户的语音数据作为第一语音数据存储到第一语音集合中,以便于下次需要进行语音转文本的语音处理时,可以在终端上的第一语音集合中找到与新的目标语音数据满足相似条件的语音数据,不必再向服务器中的第二语音集合中通过用户分类模型获取与目标语音数据满足相似条件的语音数据。
由上述方案可知,本实施例中,在获得到待识别的目标语音数据之后,通过对目标语音数据所属的目标用户进行获取,进而利用该目标用户所对应的语音识别模型对目标语音数据进行语音识别,而目标用户所对应的语音识别模型为利用目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,而这里的通用识别模型则是利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到,基于此,目标用户所对应的语音识别模型相对于通用识别模型更加符合目标用户的发音特点,由此,使用目标用户所对应的语音识别模型对目标语音数据进行语音识别所得到的目标文本数据相对于使用通用识别模型进行语音识别所得到的文本数据更加准确。可见,本实施例中利用目标用户的语音样本对经过训练的通用识别模型再次进行个性化训练,从而得到针对目标用户的个性化的语音识别模型,进而利用该语音识别模型提高对目标用户的目标语音数据进行语音识别的准确性。
为了便于理解,以下对本方案在实际应用中的示例进行介绍:
首先,本方案中可以适用于终端上所配置的各种社交软件中,如聊天应用等,并且本方案中包括如下几个实现模块:
模块一、语音转换文字模型,即前文中的通用识别模型:
本模块构建一个基于所有用户数据的语音转文字模型,具体的,可以在在已经公开的数据集中读取到第二语音样本,即所有用户的具有文本标签的语音数据。具体的,模块一种的语音转文子模型的输入是多个用户的语音,该模型通过Transformer机制对语音按照时间序列进行编码,如图8中所示,输出是转换后的文本。
模块二、不同用户的模型微调所得到的模型,即前文中用户对应的语音识别模型:
本模块将为单个用户定制语音转文字的模型。具体的,将模块一得到的语音转文字模型在每个用户的单独训练数据上进行微调,从而得到个性化的模型。由此,在经过模块一中的模型训练后,所有用户的语音转文字模型为每个个性化的语音转文字模型提供了模型参数的初始值,可以使得在少量单个用户的监督数据下,个性化模型能够很快训练好。这部分的训练需要收集单个用户的语音与文字的训练数据进行监督训练。
具体的,本实施例中将模块一得到的通用识别模型在每个用户的监督数据上进行微调。即通用识别模型结构不变,模型参数以模块一所得到的通用识别模型的模型参数为个性化模型的初始参数,然后使用单个用户的监督数据对通用识别模型继续进行训练,从而得到每个单个用户对应的个性化模型,如图9中所示,得到用户1和用户2各自的个性化模型。假设收集了k个用户的监督数据,例如,邀请K个人说话,可以是K个聊天用户,得到对应的语音数据,并由用户把语音写成文字,由此得到可能是不同口音、不同地域或不同方言的监督数据,即第一语音样本,基于此,在通过微调后,就可以得到k个个性化的语音识别模型。
模块三、用户判定模型,即前文中的用户分类模型:
本模块的用户判定模型能够用于判定两个语音数据是否属于同一个用户。
为了能够区分同一设备下使用语音转换文字的不同用户,本案中必须能够区分不同用户。具体的,用户判定模型接收两个用户的语音数据,然后使用卷积神经网络对其进行特征提取,然后提取好的特征通过一个全联通层进行特征交互,最后确定两个用户是否是同一个人,如图10中所示。正例的样本是两个用户是同一人,负例的样本是两个用户是不同的人。在经过正例的样本和负例的样本的训练之后,得到能够判断两个语音数据是否属于同一用户的用户判定模型。
在本案中,用户判定模型可以给出两个用户属于同一个人的概率(全联通层的最后一层是一个数值),如果此概率超过概率阈值,则认为两个用户是同一人,如果不超过,则属于不同人。
由此,本案中得到1个共享模型(模块一中的通用识别模型)、k个个性化模型(模块二中的语音识别模型)和1个判别模型(模块三中的用户判定模型)。在具体进行语音转文字的应用中,具体实现方案如下:
每当某一个设备输入语音时,调用第三个模块的判别模型,以确定当前输入的语音是否属于本设备下已经记录到的一个人。如果属于,那么直接使用此人对应的个性化模型进行语音转换;如果不属于,则在这个设备下记录这个新用户,并转向下一步;
再次调用第三个模型,找到与第二个模型中收集到的k个用户中的与当前用户最像的用户,用这个用户的模型作为当前用户的模型(模型来自第二个模块),由此,使用确定的个性化模型对用户的语音进行处理,以得到相应的文本。
又一方面,本申请还提供了一种语音处理装置,如图11中所示,其示出了本申请一种语音处理装置一个实施例的组成示意图,本实施例的装置可以应用于终端,该装置可以包括:
语音获得单元1101,用于获得待识别的目标语音数据;
用户获得单元1102,用于获得所述目标语音数据所属的目标用户;
语音识别单元1103,用于利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;
其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
在一种实现方式中,用户获得单元1102具体用于:
获得第一语音集合中预设的每个第一语音数据,每个所述第一语音数据分别对应于一个所属用户;利用用户分类模型,对所述目标语音数据和所述第一语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件;
其中,所述用户分类模型为利用多个具有用户分类标签的语音样本组对初始构建的用户分类模型进行训练得到,所述语音样本组包含两个第三语音样本,所述用户分类标签表征所述语音样本组中的两个所述第三语音样本是否属于同一用户。
可选的,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件,包括:
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度大于或等于预设的相似阈值;
和/或,所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度最大。
可选的,所述用户分类模型中至少包含卷积神经网络层、全联通层和分类层;
其中,所述卷积神经网络层用于对所述目标语音数据和所述第一语音数据分别进行语音特征提取,以得到所述目标语音数据对应的第一语音特征和所述第一语音数据对应的第二语音特征;
所述全联通层用于对所述第一语音特征和所述第二语音特征进行特征交互处理,以得到特征交互结果;
所述分类层用于根据所述特征交互结果,生成分类结果,所述分类结果表征所述目标语音数据和所述第一语音数据是否属于同一用户。
可选的,用户获得单元1102在获得第一语音集合中的每个第一语音数据时,可以通过以下方式得到:
获得终端上存储的第一语音集合,所述终端为需要对所述目标语音数据进行语音识别的设备;获得所述第一语音集合中预设的每个第一语音数据。
可选的,在所述第一语音集合中的每个所述第一语音数据与所述目标语音数据均不满足所述相似条件的情况下,用户获得单元1102还用于:
获得服务器上存储的第二语音集合中的每个第二语音数据,每个所述第二语音数据分别对应于一个所属用户,所述服务器为能够与终端进行数据传输的设备,所述终端为需要对所述目标语音数据进行语音识别的设备;
利用所述用户分类模型,对所述目标语音数据和所述第二语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第二语音数据与所述目标语音数据满足所述相似条件。
在一种实现方式中,用户获得单元1102具体用于:
利用用户识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据所属的目标用户;其中,所述用户识别模型为利用多个具有用户标签的第四语音样本对初始构建的用户识别模型进行训练得到。
另一方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个实施例中终端侧所执行的语音处理方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语音处理方法,其特征在于,包括:
获得待识别的目标语音数据;
获得所述目标语音数据所属的目标用户;
利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;
其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
2.根据权利要求1所述的方法,其特征在于,获得所述目标语音数据所属的目标用户,包括:
获得第一语音集合中预设的每个第一语音数据,每个所述第一语音数据分别对应于一个所属用户;
利用用户分类模型,对所述目标语音数据和所述第一语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件;
其中,所述用户分类模型为利用多个具有用户分类标签的语音样本组对初始构建的用户分类模型进行训练得到,所述语音样本组包含两个第三语音样本,所述用户分类标签表征所述语音样本组中的两个所述第三语音样本是否属于同一用户。
3.根据权利要求2所述的方法,其特征在于,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件,包括:
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度大于或等于预设的相似阈值;
和/或,
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度最大。
4.根据权利要求2所述的方法,其特征在于,所述用户分类模型中至少包含卷积神经网络层、全联通层和分类层;
其中,所述卷积神经网络层用于对所述目标语音数据和所述第一语音数据分别进行语音特征提取,以得到所述目标语音数据对应的第一语音特征和所述第一语音数据对应的第二语音特征;
所述全联通层用于对所述第一语音特征和所述第二语音特征进行特征交互处理,以得到特征交互结果;
所述分类层用于根据所述特征交互结果,生成分类结果,所述分类结果表征所述目标语音数据和所述第一语音数据是否属于同一用户。
5.根据权利要求2所述的方法,其特征在于,获得第一语音集合中的每个第一语音数据,包括:
获得终端上存储的第一语音集合,所述终端为需要对所述目标语音数据进行语音识别的设备;
获得所述第一语音集合中预设的每个第一语音数据。
6.根据权利要求2所述的方法,其特征在于,在所述第一语音集合中的每个所述第一语音数据与所述目标语音数据均不满足所述相似条件的情况下,所述方法还包括:
获得服务器上存储的第二语音集合中的每个第二语音数据,每个所述第二语音数据分别对应于一个所属用户,所述服务器为能够与终端进行数据传输的设备,所述终端为需要对所述目标语音数据进行语音识别的设备;
利用所述用户分类模型,对所述目标语音数据和所述第二语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第二语音数据与所述目标语音数据满足所述相似条件。
7.根据权利要求1所述的方法,其特征在于,获得所述目标语音数据所属的目标用户,包括:
利用用户识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据所属的目标用户;
其中,所述用户识别模型为利用多个具有用户标签的第四语音样本对初始构建的用户识别模型进行训练得到。
8.一种语音处理装置,其特征在于,包括:
语音获得单元,用于获得待识别的目标语音数据;
用户获得单元,用于获得所述目标语音数据所属的目标用户;
语音识别单元,用于利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;
其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
9.一种终端,其特征在于,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于实现如上权利要求1-7任一项所述的语音处理方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至7任一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010849414.7A CN111951790A (zh) | 2020-08-21 | 2020-08-21 | 一种语音处理方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010849414.7A CN111951790A (zh) | 2020-08-21 | 2020-08-21 | 一种语音处理方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111951790A true CN111951790A (zh) | 2020-11-17 |
Family
ID=73359529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010849414.7A Pending CN111951790A (zh) | 2020-08-21 | 2020-08-21 | 一种语音处理方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111951790A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700766A (zh) * | 2020-12-23 | 2021-04-23 | 北京猿力未来科技有限公司 | 语音识别模型的训练方法及装置、语音识别方法及装置 |
CN112735381A (zh) * | 2020-12-29 | 2021-04-30 | 四川虹微技术有限公司 | 一种模型更新方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09127975A (ja) * | 1995-10-30 | 1997-05-16 | Ricoh Co Ltd | 話者認識システムおよび情報管理方法 |
CN102915731A (zh) * | 2012-10-10 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN109119071A (zh) * | 2018-09-26 | 2019-01-01 | 珠海格力电器股份有限公司 | 一种语音识别模型的训练方法及装置 |
CN110111780A (zh) * | 2018-01-31 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 数据处理方法和服务器 |
-
2020
- 2020-08-21 CN CN202010849414.7A patent/CN111951790A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09127975A (ja) * | 1995-10-30 | 1997-05-16 | Ricoh Co Ltd | 話者認識システムおよび情報管理方法 |
CN102915731A (zh) * | 2012-10-10 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN110111780A (zh) * | 2018-01-31 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 数据处理方法和服务器 |
CN109119071A (zh) * | 2018-09-26 | 2019-01-01 | 珠海格力电器股份有限公司 | 一种语音识别模型的训练方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700766A (zh) * | 2020-12-23 | 2021-04-23 | 北京猿力未来科技有限公司 | 语音识别模型的训练方法及装置、语音识别方法及装置 |
CN112700766B (zh) * | 2020-12-23 | 2024-03-19 | 北京猿力未来科技有限公司 | 语音识别模型的训练方法及装置、语音识别方法及装置 |
CN112735381A (zh) * | 2020-12-29 | 2021-04-30 | 四川虹微技术有限公司 | 一种模型更新方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102633499B1 (ko) | 완전 지도식 화자 분리 | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
CN110209812B (zh) | 文本分类方法和装置 | |
CN111444382B (zh) | 一种音频处理方法、装置、计算机设备以及存储介质 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
US20180286429A1 (en) | Intelligent truthfulness indicator association | |
US11004449B2 (en) | Vocal utterance based item inventory actions | |
CN112053692B (zh) | 语音识别处理方法、装置及存储介质 | |
CN113094481A (zh) | 意图识别方法、装置、电子设备及计算机可读存储介质 | |
CN111951790A (zh) | 一种语音处理方法、装置、终端及存储介质 | |
KR20230175258A (ko) | 반복적 화자 임베딩을 통한 종단간 화자 분리 | |
CN116863935B (zh) | 语音识别方法、装置、电子设备与计算机可读介质 | |
CN111639162A (zh) | 信息交互方法和装置、电子设备和存储介质 | |
JP2020042131A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113254620B (zh) | 基于图神经网络的应答方法、装置、设备及存储介质 | |
CN114267345A (zh) | 模型训练方法、语音处理方法及其装置 | |
CN112309384A (zh) | 一种语音识别方法、装置、电子设备及介质 | |
CN113393842A (zh) | 一种语音数据处理方法、装置、设备以及介质 | |
CN116884402A (zh) | 语音转文本的方法、装置、电子设备及存储介质 | |
CN112069786A (zh) | 文本信息处理方法、装置、电子设备及介质 | |
CN103474063B (zh) | 语音辨识***以及方法 | |
CN113782014A (zh) | 语音识别方法及装置 | |
CN114970470A (zh) | 文案信息处理方法、装置、电子设备和计算机可读介质 | |
US20220180865A1 (en) | Runtime topic change analyses in spoken dialog contexts | |
CN111899718A (zh) | 用于识别合成语音的方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |