CN112750428A - 语音交互方法、装置和计算机设备 - Google Patents
语音交互方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN112750428A CN112750428A CN202011591154.4A CN202011591154A CN112750428A CN 112750428 A CN112750428 A CN 112750428A CN 202011591154 A CN202011591154 A CN 202011591154A CN 112750428 A CN112750428 A CN 112750428A
- Authority
- CN
- China
- Prior art keywords
- model
- region
- current user
- specified
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000003993 interaction Effects 0.000 title claims abstract description 28
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 54
- 238000005315 distribution function Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 35
- 239000000203 mixture Substances 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000017105 transposition Effects 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能领域,揭示了语音交互方法,包括:获取当前用户对应的地域信息;获取当前时刻各地域模型分别对应的模型参量;根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;根据所述匹配概率匹配与所述当前用户对应的指定地域模型;将所述当前用户的语音语句输入所述指定地域模型;将所述指定地域模型输出的交互反馈,反馈至所述当前用户。通过用户不同地域的特征区分用户语音数据,分别训练语音深度学习模型,提高语音识别的准确率,支持使用用户熟悉的语言或方言进行语音交互,使沟通更为顺畅,增加用户亲切感,提高用户使用粘性。
Description
技术领域
本申请涉及人工智能领域,特别是涉及到语音交互方法、装置和计算机设备。
背景技术
目前客服语音对接的AI语音***的深度学习模型,大多没有根据用户地域进行区分对待,包括用户语音识别和用户语音回答,均未区分地域特征。不同地域具有不同的语音特征,如果不能根据用户所处的不同地域进行用户区分,可能导致某些具有方言特征的语音识别的精准率较低,在方言特征浓郁的地区则不利于语音交互。
发明内容
本申请的主要目的为提供语音交互方法,旨在解决现有语音交互不能根据用户所处的不同地域进行用户区分的技术问题。
本申请提出一种语音交互方法,包括:
获取当前用户对应的地域信息;
获取当前时刻各地域模型分别对应的模型参量;
根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;
根据所述匹配概率匹配与所述当前用户对应的指定地域模型;
将所述当前用户的语音语句输入所述指定地域模型;
将所述指定地域模型输出的交互反馈,反馈至所述当前用户。
优选地,所述获取当前时刻各地域模型分别对应的模型参量的步骤,包括:
获取指定时间段内第一地域模型的多组模型参量,其中,所述第一地域模型为所有地域模型中的任一个;
将多组模型参量通过似然函数求解,得到所述第一地域模型当前对应的指定模型参量;
根据所述第一地域模型当前对应的指定模型参量的计算方式,计算各地域模型分别对应的模型参量。
优选地,所述根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率的步骤,包括:
获取所述第一计算公式的计算结果;
将所述计算结果作为所述第一模型当前对应的匹配概率;
根据所述第一模型当前对应的匹配概率的计算方式,轮询计算各所述地域模型分别对应的匹配概率。
优选地,所述根据所述匹配概率匹配与所述当前用户对应的指定地域模型的步骤,包括:
各所述地域模型分别对应的匹配概率,由大到小形成降序排序;
确定所述降序排序中最大的匹配概率对应的第二地域模型;
将所述第二地域模型作为与所述当前用户匹配的指定地域模型。
优选地,所述指定地域模型包括高斯混合模型,将所述当前用户的语音语句输入所述指定地域模型的步骤,包括:
对所述当前用户的语音语句提取音频数据;
将所述音频数据通过所述高斯混合模型进行数据处理,得到所述音频数据对应的预测概率;
根据所述预测概率确定所述音频数据中的关键词;
根据所述关键词确定与所述当前用户的语音语句对应的反馈信息。
优选地,所述对所述当前用户的语音语句提取音频数据的步骤,包括:
将所述当前用户的语音语句预处理后进行傅里叶变换,得到音频帧数据;
将所述音频帧数据经过滤波器过滤,得到各音频分别对应的频率数据;
将各音频分别对应的频率数据,经过离散余弦变换得到各音频分别对应的音频特征;
将各音频分别对应的音频特征,按照各音频在所述语音语句中的排布次序,组成所述当前用户的语音语句的音频数据。
优选地,所述指定地域模型包括高斯混合模型,所述高斯混合模型包括多个高斯分布函数,将所述当前用户的语音语句输入所述指定地域模型的步骤之前,包括:
根据完全数据的联合概率分布,得到所述完全数据对应的似然函数;
对所述完全数据对应的似然函数取对数,得到对数式;
根据所述对数式计算隐变量属于所述指定高斯分布函数的后验概率,其中,所述指定高斯分布函数属于所述高斯混合模型中的任意一高斯分布函数;
根据所述指定高斯分布函数的后验概率以及所述对数式,得到所述隐变量的期望值函数;
求导所述期望值函数,得到所述指定高斯分布函数的参量;
根据所述指定高斯分布函数的参量的确定过程,确定所述高斯混合模型中所有高斯分布函数分别对应的参量。
本申请还提供了一种语音交互装置,包括:
第一获取模块,用于获取当前用户对应的地域信息;
第二获取模块,用于获取当前时刻各地域模型分别对应的模型参量;
第一计算模块,用于根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;
匹配模块,用于根据所述匹配概率匹配与所述当前用户对应的指定地域模型;
输入模块,用于将所述当前用户的语音语句输入所述指定地域模型;
反馈模块,用于将所述指定地域模型输出的交互反馈,反馈至所述当前用户。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过用户不同地域的特征区分用户语音数据,分别训练语音深度学习模型,提高语音识别的准确率,支持使用用户熟悉的语言或方言进行语音交互,使沟通更为顺畅,增加用户亲切感,提高用户使用粘性。
附图说明
图1本申请一实施例的语音交互方法流程示意图;
图2本申请一实施例的语音交互***流程示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的语音交互方法,包括:
S1:获取当前用户对应的地域信息;
S2:获取当前时刻各地域模型分别对应的模型参量;
S3:根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;
S4:根据所述匹配概率匹配与所述当前用户对应的指定地域模型;
S5:将所述当前用户的语音语句输入所述指定地域模型;
S6:将所述指定地域模型输出的交互反馈,反馈至所述当前用户。
本申请实施例中,上述地域信息包括但不限于用户手机号归属地、座机号码归属地、用户身份证号码所属地等信息。通过对用户语音信息数据进行地域打标操作,然后根据不同的地域打标数据分别训练AI语音深度学习模型得到各地域模型。然后将训练好的各地域模型组成语音识别***,根据当前用户不同的地域特征,针对性的启动与当前地域特征匹配的地域模型进行语音识别。
上述各地域模型中嵌入普通话与当地方言用语的字典匹配模型和匹配算法,实现普通话和当地方言用语的灵活转化,可支持机器和用户之间通过方言进行交互,提升了地域使用特性。
本申请通过用户不同地域的特征区分用户语音数据,分别训练语音深度学习模型,提高语音识别的准确率,支持使用用户熟悉的语言或方言进行语音交互,使沟通更为顺畅,增加用户亲切感,提高用户使用粘性。
进一步地,获取当前时刻各地域模型分别对应的模型参量的步骤S2,包括:
S21:获取指定时间段内第一地域模型的多组模型参量,其中,所述第一地域模型为所有地域模型中的任一个;
S22:将多组模型参量通过似然函数求解,得到所述第一地域模型当前对应的指定模型参量;
S23:根据所述第一地域模型当前对应的指定模型参量的计算方式,计算各地域模型分别对应的模型参量。
本申请实施例中,地域模型的参量跟随训练样本的增加,进行递进式更新,以逐步优化地域模型的参量。本申请实施例中,通过将地域模型的多组参量,看成一个参数,并通过似然函数求解的方式,更新优化地域模型的参量。
进一步地,根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率的步骤S3,包括:
S32:获取所述第一计算公式的计算结果;
S33:将所述计算结果作为所述第一模型当前对应的匹配概率;
S34:根据所述第一模型当前对应的匹配概率的计算方式,轮询计算各所述地域模型分别对应的匹配概率。
本申请实施例中,通过将求解得到的地域模型的参量,代入第一计算公式,计算当前的地域信息和地域模型的参量的匹配概率y,以便根据匹配概率选择与地域信息相匹配的地域模型。
进一步地,根据所述匹配概率匹配与所述当前用户对应的指定地域模型的步骤S4,包括:
S41:各所述地域模型分别对应的匹配概率,由大到小形成降序排序;
S42:确定所述降序排序中最大的匹配概率对应的第二地域模型;
S43:将所述第二地域模型作为与所述当前用户匹配的指定地域模型。
本申请实施例中,通过轮询计算当前的地域信息和各地域模型的匹配概率,并将最大的匹配概率对应的地域模型作为与当前地域信息匹配的模型。
进一步地,所述指定地域模型包括高斯混合模型,将所述当前用户的语音语句输入所述指定地域模型的步骤S5,包括:
S51:对所述当前用户的语音语句提取音频数据;
S52:将所述音频数据通过所述高斯混合模型进行数据处理,得到所述音频数据对应的预测概率;
S53:根据所述预测概率确定所述音频数据中的关键词;
S54:根据所述关键词确定与所述当前用户的语音语句对应的反馈信息。
本申请实施中,各地域模型为多组高斯分布函数组成的高斯混合模型,通过K-均值算法初始化高斯混合模型的初始参量,即先随机选择k个值作为聚类中心,然后将跟聚类中心距离相近的点聚为一类。上述的预测概率根据计算与各聚类中心点的距离得到,以确定语音语句中含有的各关键词,并通过各关键词分别对应的预设反馈信息列表,确定与语音语句对应的反馈信息。
进一步地,所述指定地域模型包括高斯混合模型,所述高斯混合模型包括多个高斯分布函数,将所述当前用户的语音语句输入所述指定地域模型的步骤S5之前,包括:
S501:根据完全数据的联合概率分布,得到所述完全数据对应的似然函数;
S502:对所述完全数据对应的似然函数取对数,得到对数式;
S503:根据所述对数式计算隐变量属于所述指定高斯分布函数的后验概率,其中,所述指定高斯分布函数属于所述高斯混合模型中的任意一高斯分布函数;
S504:根据所述指定高斯分布函数的后验概率以及所述对数式,得到所述隐变量的期望值函数;
S505:求导所述期望值函数,得到所述指定高斯分布函数的参量;
S506:根据所述指定高斯分布函数的参量的确定过程,确定所述高斯混合模型中所有高斯分布函数分别对应的参量。
本申请实施例中,上述完全数据包括语音语句对应的全量时间次序的音频数据。完全数据对应的似然函数表示为其中,x表示语音样本数据,zn表示估测参数的隐变量,N(xn|μk,∑k)为样本xn在第k个高斯分布函数中的生成表示,μk表示均值,∑k表示方差;πk表示第k个高斯分布函数的权重系数。取自然对数后得到计算zn的后验概率为:对数似然对于隐变量的期望值函数表示为对上述π、μ和∑求导,得到导数为零时的平均参数,
进一步地,对所述当前用户的语音语句提取音频数据的步骤S51,包括:
S511:将所述当前用户的语音语句预处理后进行傅里叶变换,得到音频帧数据;
S512:将所述音频帧数据经过滤波器过滤,得到各音频分别对应的频率数据;
S513:将各音频分别对应的频率数据,经过离散余弦变换得到各音频分别对应的音频特征;
S514:将各音频分别对应的音频特征,按照各音频在所述语音语句中的排布次序,组成所述当前用户的语音语句的音频数据。
本申请实施例中,上述预处理包括但不限于预加重、分帧和加汉明窗等。语音样本经傅里叶变换后,经Mel滤波器确定最低频率、最高频率和Mel滤波器个数,通过转换最低频率和最高频率分别对应的Mel频率,计算相连两个Mel滤波器的中心Mel频率的距离,并将中心Mel频率转化为非等间距频率,计算各转换后的频率分别对应的傅里叶中心的下标,然后通过离散余弦变换去相关,获取各音频分别对应的音频特征。
参照图2,本申请一实施例的语音交互装置,包括:
第一获取模块1,用于获取当前用户对应的地域信息;
第二获取模块2,用于获取当前时刻各地域模型分别对应的模型参量;
第一计算模块3,用于根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;
匹配模块4,用于根据所述匹配概率匹配与所述当前用户对应的指定地域模型;
输入模块5,用于将所述当前用户的语音语句输入所述指定地域模型;
反馈模块6,用于将所述指定地域模型输出的交互反馈,反馈至所述当前用户。
本申请实施例中的装置解释同方法对应部分,不赘述。
进一步地,第二获取模块2,包括:
第一获取单元,用于获取指定时间段内第一地域模型的多组模型参量,其中,所述第一地域模型为所有地域模型中的任一个;
求解单元,用于将多组模型参量通过似然函数求解,得到所述第一地域模型当前对应的指定模型参量;
第一计算单元,用于根据所述第一地域模型当前对应的指定模型参量的计算方式,计算各地域模型分别对应的模型参量。
进一步地,计算模块3,包括:
第二获取单元,用于获取所述第一计算公式的计算结果;
第一作为单元,用于将所述计算结果作为所述第一模型当前对应的匹配概率;
第二计算单元,用于根据所述第一模型当前对应的匹配概率的计算方式,轮询计算各所述地域模型分别对应的匹配概率。
进一步地,匹配模型4,包括:
形成单元,用于各所述地域模型分别对应的匹配概率,由大到小形成降序排序;
第一确定单元,用于确定所述降序排序中最大的匹配概率对应的第二地域模型;
第二作为单元,用于将所述第二地域模型作为与所述当前用户匹配的指定地域模型。
进一步地,输入模块5,包括:
提取单元,用于对所述当前用户的语音语句提取音频数据;
数据处理单元,用于将所述音频数据通过所述高斯混合模型进行数据处理,得到所述音频数据对应的预测概率;
第二确定单元,用于根据所述预测概率确定所述音频数据中的关键词;
第三确定单元,用于根据所述关键词确定与所述当前用户的语音语句对应的反馈信息。
进一步地,所述指定地域模型包括高斯混合模型,所述高斯混合模型包括多个高斯分布函数,语音交互装置,包括:
第一得到模块,用于根据完全数据的联合概率分布,得到所述完全数据对应的似然函数;
第二得到模块,用于对所述完全数据对应的似然函数取对数,得到对数式;
第二计算模块,用于根据所述对数式计算隐变量属于所述指定高斯分布函数的后验概率,其中,所述指定高斯分布函数属于所述高斯混合模型中的任意一高斯分布函数;
第三得到模块,用于根据所述指定高斯分布函数的后验概率以及所述对数式,得到所述隐变量的期望值函数;
第四得到模块,用于求导所述期望值函数,得到所述指定高斯分布函数的参量;
确定模块,用于根据所述指定高斯分布函数的参量的确定过程,确定所述高斯混合模型中所有高斯分布函数分别对应的参量。
进一步地,提取单元包括:
变换子单元,用于将所述当前用户的语音语句预处理后进行傅里叶变换,得到音频帧数据;
过滤子单元,用于将所述音频帧数据经过滤波器过滤,得到各音频分别对应的频率数据;
得到子单元,用于将各音频分别对应的频率数据,经过离散余弦变换得到各音频分别对应的音频特征;
组成子单元,用于将各音频分别对应的音频特征,按照各音频在所述语音语句中的排布次序,组成所述当前用户的语音语句的音频数据。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音交互过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现语音交互方法。
上述处理器执行上述语音交互方法,包括:获取当前用户对应的地域信息;获取当前时刻各地域模型分别对应的模型参量;根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;根据所述匹配概率匹配与所述当前用户对应的指定地域模型;将所述当前用户的语音语句输入所述指定地域模型;将所述指定地域模型输出的交互反馈,反馈至所述当前用户。
上述计算机设备,通过用户不同地域的特征区分用户语音数据,分别训练语音深度学习模型,提高语音识别的准确率,支持使用用户熟悉的语言或方言进行语音交互,使沟通更为顺畅,增加用户亲切感,提高用户使用粘性。
在一个实施例中,上述处理器获取当前时刻各地域模型分别对应的模型参量的步骤,包括:获取指定时间段内第一地域模型的多组模型参量,其中,所述第一地域模型为所有地域模型中的任一个;将多组模型参量通过似然函数求解,得到所述第一地域模型当前对应的指定模型参量;根据所述第一地域模型当前对应的指定模型参量的计算方式,计算各地域模型分别对应的模型参量。
在一个实施例中,上述处理器根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率的步骤,包括:将所述第一模型当前对应的指定模型参量和所述地域信息,输入第一计算公式,其中,所述第一计算公式为w和b表示所述指定模型参量,X表示所述地域信息,T表示转置,y表示计算结果;获取所述第一计算公式的计算结果;将所述计算结果作为所述第一模型当前对应的匹配概率;根据所述第一模型当前对应的匹配概率的计算方式,轮询计算各所述地域模型分别对应的匹配概率。
在一个实施例中,上述处理器根据所述匹配概率匹配与所述当前用户对应的指定地域模型的步骤,包括:各所述地域模型分别对应的匹配概率,由大到小形成降序排序;确定所述降序排序中最大的匹配概率对应的第二地域模型;将所述第二地域模型作为与所述当前用户匹配的指定地域模型。
在一个实施例中,所述指定地域模型包括高斯混合模型,上述处理器将所述当前用户的语音语句输入所述指定地域模型的步骤,包括:对所述当前用户的语音语句提取音频数据;将所述音频数据通过所述高斯混合模型进行数据处理,得到所述音频数据对应的预测概率;根据所述预测概率确定所述音频数据中的关键词;根据所述关键词确定与所述当前用户的语音语句对应的反馈信息。
在一个实施例中,上述处理器对所述当前用户的语音语句提取音频数据的步骤,包括:将所述当前用户的语音语句预处理后进行傅里叶变换,得到音频帧数据;将所述音频帧数据经过滤波器过滤,得到各音频分别对应的频率数据;将各音频分别对应的频率数据,经过离散余弦变换得到各音频分别对应的音频特征;将各音频分别对应的音频特征,按照各音频在所述语音语句中的排布次序,组成所述当前用户的语音语句的音频数据。
在一个实施例中,所述指定地域模型包括高斯混合模型,所述高斯混合模型包括多个高斯分布函数,上述处理器将所述当前用户的语音语句输入所述指定地域模型的步骤之前,包括:根据完全数据的联合概率分布,得到所述完全数据对应的似然函数;对所述完全数据对应的似然函数取对数,得到对数式;根据所述对数式计算隐变量属于所述指定高斯分布函数的后验概率,其中,所述指定高斯分布函数属于所述高斯混合模型中的任意一高斯分布函数;根据所述指定高斯分布函数的后验概率以及所述对数式,得到所述隐变量的期望值函数;求导所述期望值函数,得到所述指定高斯分布函数的参量;根据所述指定高斯分布函数的参量的确定过程,确定所述高斯混合模型中所有高斯分布函数分别对应的参量。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现语音交互方法,包括:获取当前用户对应的地域信息;获取当前时刻各地域模型分别对应的模型参量;根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;根据所述匹配概率匹配与所述当前用户对应的指定地域模型;将所述当前用户的语音语句输入所述指定地域模型;将所述指定地域模型输出的交互反馈,反馈至所述当前用户。
上述计算机可读存储介质,通过用户不同地域的特征区分用户语音数据,分别训练语音深度学习模型,提高语音识别的准确率,支持使用用户熟悉的语言或方言进行语音交互,使沟通更为顺畅,增加用户亲切感,提高用户使用粘性。
在一个实施例中,上述处理器获取当前时刻各地域模型分别对应的模型参量的步骤,包括:获取指定时间段内第一地域模型的多组模型参量,其中,所述第一地域模型为所有地域模型中的任一个;将多组模型参量通过似然函数求解,得到所述第一地域模型当前对应的指定模型参量;根据所述第一地域模型当前对应的指定模型参量的计算方式,计算各地域模型分别对应的模型参量。
在一个实施例中,上述处理器根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率的步骤,包括:将所述第一模型当前对应的指定模型参量和所述地域信息,输入第一计算公式,其中,所述第一计算公式为w和b表示所述指定模型参量,X表示所述地域信息,T表示转置,y表示计算结果;获取所述第一计算公式的计算结果;将所述计算结果作为所述第一模型当前对应的匹配概率;根据所述第一模型当前对应的匹配概率的计算方式,轮询计算各所述地域模型分别对应的匹配概率。
在一个实施例中,上述处理器根据所述匹配概率匹配与所述当前用户对应的指定地域模型的步骤,包括:各所述地域模型分别对应的匹配概率,由大到小形成降序排序;确定所述降序排序中最大的匹配概率对应的第二地域模型;将所述第二地域模型作为与所述当前用户匹配的指定地域模型。
在一个实施例中,所述指定地域模型包括高斯混合模型,上述处理器将所述当前用户的语音语句输入所述指定地域模型的步骤,包括:对所述当前用户的语音语句提取音频数据;将所述音频数据通过所述高斯混合模型进行数据处理,得到所述音频数据对应的预测概率;根据所述预测概率确定所述音频数据中的关键词;根据所述关键词确定与所述当前用户的语音语句对应的反馈信息。
在一个实施例中,上述处理器对所述当前用户的语音语句提取音频数据的步骤,包括:将所述当前用户的语音语句预处理后进行傅里叶变换,得到音频帧数据;将所述音频帧数据经过滤波器过滤,得到各音频分别对应的频率数据;将各音频分别对应的频率数据,经过离散余弦变换得到各音频分别对应的音频特征;将各音频分别对应的音频特征,按照各音频在所述语音语句中的排布次序,组成所述当前用户的语音语句的音频数据。
在一个实施例中,所述指定地域模型包括高斯混合模型,所述高斯混合模型包括多个高斯分布函数,上述处理器将所述当前用户的语音语句输入所述指定地域模型的步骤之前,包括:根据完全数据的联合概率分布,得到所述完全数据对应的似然函数;对所述完全数据对应的似然函数取对数,得到对数式;根据所述对数式计算隐变量属于所述指定高斯分布函数的后验概率,其中,所述指定高斯分布函数属于所述高斯混合模型中的任意一高斯分布函数;根据所述指定高斯分布函数的后验概率以及所述对数式,得到所述隐变量的期望值函数;求导所述期望值函数,得到所述指定高斯分布函数的参量;根据所述指定高斯分布函数的参量的确定过程,确定所述高斯混合模型中所有高斯分布函数分别对应的参量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音交互方法,其特征在于,包括:
获取当前用户对应的地域信息;
获取当前时刻各地域模型分别对应的模型参量;
根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;
根据所述匹配概率匹配与所述当前用户对应的指定地域模型;
将所述当前用户的语音语句输入所述指定地域模型;
将所述指定地域模型输出的交互反馈,反馈至所述当前用户。
2.根据权利要求1所述的语音交互方法,其特征在于,所述获取当前时刻各地域模型分别对应的模型参量的步骤,包括:
获取指定时间段内第一地域模型的多组模型参量,其中,所述第一地域模型为所有地域模型中的任一个;
将多组模型参量通过似然函数求解,得到所述第一地域模型当前对应的指定模型参量;
根据所述第一地域模型当前对应的指定模型参量的计算方式,计算各地域模型分别对应的模型参量。
4.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述匹配概率匹配与所述当前用户对应的指定地域模型的步骤,包括:
各所述地域模型分别对应的匹配概率,由大到小形成降序排序;
确定所述降序排序中最大的匹配概率对应的第二地域模型;
将所述第二地域模型作为与所述当前用户匹配的指定地域模型。
5.根据权利要求1所述的语音交互方法,其特征在于,所述指定地域模型包括高斯混合模型,将所述当前用户的语音语句输入所述指定地域模型的步骤,包括:
对所述当前用户的语音语句提取音频数据;
将所述音频数据通过所述高斯混合模型进行数据处理,得到所述音频数据对应的预测概率;
根据所述预测概率确定所述音频数据中的关键词;
根据所述关键词确定与所述当前用户的语音语句对应的反馈信息。
6.根据权利要求5所述的语音交互方法,其特征在于,所述对所述当前用户的语音语句提取音频数据的步骤,包括:
将所述当前用户的语音语句预处理后进行傅里叶变换,得到音频帧数据;
将所述音频帧数据经过滤波器过滤,得到各音频分别对应的频率数据;
将各音频分别对应的频率数据,经过离散余弦变换得到各音频分别对应的音频特征;
将各音频分别对应的音频特征,按照各音频在所述语音语句中的排布次序,组成所述当前用户的语音语句的音频数据。
7.根据权利要求1所述的语音交互方法,其特征在于,所述指定地域模型包括高斯混合模型,所述高斯混合模型包括多个高斯分布函数,将所述当前用户的语音语句输入所述指定地域模型的步骤之前,包括:
根据完全数据的联合概率分布,得到所述完全数据对应的似然函数;
对所述完全数据对应的似然函数取对数,得到对数式;
根据所述对数式计算隐变量属于所述指定高斯分布函数的后验概率,其中,所述指定高斯分布函数属于所述高斯混合模型中的任意一高斯分布函数;
根据所述指定高斯分布函数的后验概率以及所述对数式,得到所述隐变量的期望值函数;
求导所述期望值函数,得到所述指定高斯分布函数的参量;
根据所述指定高斯分布函数的参量的确定过程,确定所述高斯混合模型中所有高斯分布函数分别对应的参量。
8.一种语音交互装置,其特征在于,包括:
第一获取模块,用于获取当前用户对应的地域信息;
第二获取模块,用于获取当前时刻各地域模型分别对应的模型参量;
第一计算模块,用于根据所述地域信息和各地域模型分别对应的模型参量,轮询计算各所述地域模型分别对应的匹配概率;
匹配模块,用于根据所述匹配概率匹配与所述当前用户对应的指定地域模型;
输入模块,用于将所述当前用户的语音语句输入所述指定地域模型;
反馈模块,用于将所述指定地域模型输出的交互反馈,反馈至所述当前用户。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591154.4A CN112750428A (zh) | 2020-12-29 | 2020-12-29 | 语音交互方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591154.4A CN112750428A (zh) | 2020-12-29 | 2020-12-29 | 语音交互方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112750428A true CN112750428A (zh) | 2021-05-04 |
Family
ID=75646672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011591154.4A Pending CN112750428A (zh) | 2020-12-29 | 2020-12-29 | 语音交互方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750428A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160284344A1 (en) * | 2013-12-19 | 2016-09-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech data recognition method, apparatus, and server for distinguishing regional accent |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
CN111009233A (zh) * | 2019-11-20 | 2020-04-14 | 泰康保险集团股份有限公司 | 语音处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-29 CN CN202011591154.4A patent/CN112750428A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160284344A1 (en) * | 2013-12-19 | 2016-09-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech data recognition method, apparatus, and server for distinguishing regional accent |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
CN111009233A (zh) * | 2019-11-20 | 2020-04-14 | 泰康保险集团股份有限公司 | 语音处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087648B (zh) | 柜台语音监控方法、装置、计算机设备及存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
US10490182B1 (en) | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
CN112435673B (zh) | 一种模型训练方法及电子终端 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN109313892A (zh) | 稳健的语言识别方法和*** | |
CN112925945A (zh) | 会议纪要生成方法、装置、设备及存储介质 | |
CN112233651B (zh) | 方言类型的确定方法、装置、设备及存储介质 | |
CN114678014A (zh) | 意图识别方法、装置、计算机设备及计算机可读存储介质 | |
CN111986675A (zh) | 语音对话方法、设备及计算机可读存储介质 | |
CN114550703A (zh) | 语音识别***的训练方法和装置、语音识别方法和装置 | |
CN111223476A (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN114360522B (zh) | 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备 | |
CN113486140A (zh) | 知识问答的匹配方法、装置、设备及存储介质 | |
CN113223504A (zh) | 声学模型的训练方法、装置、设备和存储介质 | |
CN111968650A (zh) | 语音匹配方法、装置、电子设备及存储介质 | |
CN112750428A (zh) | 语音交互方法、装置和计算机设备 | |
CN113887243A (zh) | 语义分类模型的训练方法、装置、设备及存储介质 | |
CN114446325A (zh) | 基于情绪识别的信息推送方法、装置、计算机设备及介质 | |
KR20230023505A (ko) | 음성 언어 이해 모델 생성 방법 및 장치 | |
CN112767912A (zh) | 跨语言语音转换方法、装置、计算机设备和存储介质 | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
CN113409763B (zh) | 语音纠正方法、装置及电子设备 | |
CN113643718B (zh) | 音频数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240528 |