CN113345419A - 基于方言口音的语音转译方法、***和可读存储介质 - Google Patents
基于方言口音的语音转译方法、***和可读存储介质 Download PDFInfo
- Publication number
- CN113345419A CN113345419A CN202110733654.5A CN202110733654A CN113345419A CN 113345419 A CN113345419 A CN 113345419A CN 202110733654 A CN202110733654 A CN 202110733654A CN 113345419 A CN113345419 A CN 113345419A
- Authority
- CN
- China
- Prior art keywords
- accent
- audio
- dialect
- target
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008451 emotion Effects 0.000 claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 27
- 238000012795 verification Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008909 emotion recognition Effects 0.000 claims 1
- 238000013524 data verification Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 239000000126 substance Substances 0.000 description 5
- 230000036651 mood Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005281 excited state Effects 0.000 description 2
- 230000004630 mental health Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009323 psychological health Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开的一种基于方言口音的语音转译方法、***和可读存储介质,其中方法包括:通过预设口音识别神经网络识别目标音频的初始口音;依据所述初始口音进行转译作业以获取目标译文;通过预设算法提取所述目标音频的音频人语速与音调;依据所述音频人语速与音调获取所述音频人的情绪结果并记录。本发明通过设置实验数据实验与验证数据验证得到初始口音,再根据设置的回归概率值的大小选择目标口音进行转译作业,保证了方言口音识别的准确率,进而保证了转译的正确率;同时可以实时采取客户的语速和音调,进而得到客户的情绪等级,便于客服人员采取针对性措施,提升客户满意度,降低投诉率。
Description
技术领域
本发明涉及语音转译技术领域,更具体的,涉及一种基于方言口音的语音转译方法、***和可读存储介质。
背景技术
电力工业是国民经济的支柱产业,是服务于千家万户的公用事业,随着社会城市化的进展,经济大增速的环境下,我国电力工业也得以快速发展,较好的保障了全社会的用电需求,有力的支撑了经济社会的快速发展。
随着电力业务的不断扩大,带来的电力业务咨询业务也随着增多,电力是人民日常生活必备的物质,当人们家庭、公司或者工厂失去电力时,经常会通过拨打客服电话进行询问,往常都是通过客服人员接通电话一一记录电力事件的情况,导致处理效率低下,并且存在一些口音的差异导致沟通变缓或者记录出错的情况发生,尤其是面对一些情绪偏激的客户,在沟通上存在很多需要改进的地方。
发明内容
鉴于上述问题,本发明的目的是提供一种基于方言口音的语音转译方法、***和可读存储介质,能够准确识别客户方言口音的类别,以保证转译的准确性进而进行记录,同时可以实时判别客户的情绪变化并记录。
本发明第一方面提供了一种基于方言口音的语音转译方法,包括以下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
本方案中,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
本方案中,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
本方案中,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;
本方案中,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
本方案中,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
本发明第二方面还提供一种基于方言口音的语音转译***,包括存储器和处理器,所述存储器中包括基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被所述处理器执行时实现如下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
本方案中,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
本方案中,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
本方案中,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;
本方案中,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
本方案中,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被处理器执行时,实现如上述任一项所述的一种基于方言口音的语音转译方法的步骤。
本发明公开的一种基于方言口音的语音转译方法、***和可读存储介质,通过设置实验数据实验与验证数据验证得到初始口音,再根据设置的回归概率值的大小选择目标口音进行转译作业,保证了方言口音识别的准确率,进而保证了转译的正确率;同时可以实时采取客户的语速和音调,进而得到客户的情绪等级,便于客服人员采取针对性措施,提升客户满意度,降低投诉率。
附图说明
图1示出了本申请一种基于方言口音的语音转译方法的流程图;
图2示出了本发明一种基于方言口音的语音转译***的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本申请一种基于方言口音的语音转译方法的流程图。
如图1所示,本申请公开了一种基于方言口音的语音转译方法,包括以下步骤:
S102,通过预设口音识别神经网络识别目标音频的初始口音;
S104,依据所述初始口音进行转译作业以获取目标译文;
S106,通过预设算法提取所述目标音频的音频人语速与音调;
S108,依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
需要说明的是,对于不同客户的口音均有不同,尤其是涉及到一些客户的方言口音,在转译时,需要先识别口音的类型,例如普通话语系中的地方口音:四川话、闽南话这类口音,通过所述口音识别神经网络识别出具体的口音,以进行对应的转译作业,可以保证转译内容的准确性,进而保证客服业务数据记录的完整性;同时在客服与客户交流过程中,还可以通过识别客户语音的语速与音调来获取其情绪变化,并实时记录。
值得一提的是,在获取客户的情绪变化时,也可以获取客服的情绪变化,在新入职的客服人员的成长过程中,需要时刻关注其心理健康,在保证客服人员身心健康的基础上,进一步保证客服流水业务的合理正确进行。
具体地,所述获取客服的情绪变化具体步骤如下:
通过预设算法提取客服人员的音频语速与音调;
依据所述音频语速与音调识别所述客服人员的身份信息;
依据所述音频语速与音调获取所述客服人员的情绪结果并记录。
需要说明的是,提取到所述客服人员的音频后,根据音频的语速与音调获取所述客服人员的身份信息以及情绪变化,并将所述情绪变化记录到对应身份的所述客服人员的工作簿中,后续进行查验时,可以第一时间获取到所述客服人员的情绪波动,并根据具体情况进行解压或者督促。
根据本发明实施例,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
需要说明的是,识别口音需要一定的准确性,先截取所述目标音频在第一预设时间范围类的第一音频内容,从中提取对应的所述口音因子作为实验输入值,初步获取对应的所述第一口音归属数据组;然后再截取所述目标音频在第二预设时间范围类的第二音频内容,从中提取对应的所述口音因子作为验证输入值,以得到对应的所述第二口音归属数据组,采用先实验再验证的方式可以得到准确率高的口音识别,例如,当客户的方言口音为四川话时,所述口音因子包括对应的特殊词汇,如“锤子”、“老孩儿”等字眼及其对应的发音音调。
值得一提的是,对于一些方言口音类似的地区,有一些特殊词汇及其发音是很类似的,所以需要得到回归概率值递减的归属数据组,需要先得到方言的大类归属,再通过验证得到具体的口音来源,其中,所述回归概率值的计算公式如下:
其中,为所述回归概率值,为所述口音因子的在文段中的占比,例如中国的云贵川地区,发音有些词汇是相近的,假设一个四川口音的客户打入电话时,首先得到的所述第一口音归属数据组为云贵川地区的方言,而不会是鄂豫皖地区的,再通过验证得到所述第二口音归属数据组,对比前后两个数据组的方言回归概率值,得出所述初始口音。
根据本发明实施例,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
需要说明的是,假设所述第一口音归属数据组得到的为云贵川方言,即表示为四川方言,表示为贵州方言,表示为云南话;所述第二口音归属数据组得到的为贵川湘方言,即表示为贵州方言,表示为四川方言,表示为湘西方言,计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
根据本发明实施例,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;相同所述口音数据库的所述回归概率值差值最小的所述
需要说明的是,通过计算概率和值得到所述初始口音的方法需要避免一种极端情况,即为四川方言对应的回归概率值为38%,为四川方言对应的回归概率值为88%,而客户真实的口音为贵州方言,但为贵州方言对应的回归概率值为62%,为贵州方言对应的回归概率值为63%,由于和值:,会出现误判为四川方言,进而出现转译的不准确性,因此需要对应设置阈值限定,通过设置所述预设阈值为60%,来进一步确认所述目标口音。
根据本发明实施例,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
需要说明的是,口音识别神经网络需要大量的历史数据进行训练,数据量越大,则结果越准确。本申请中的口音识别神经网络可以通过历史时间的口音因子和口音类型信息作为输入进行训练,得到对应的准确率,当所述准确率高于预设的准确率阈值时,则停止训练以得到所述口音识别神经网络,其中,所述准确率阈值设置为85%。
根据本发明实施例,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
需要说明的是,加权后的方言标准语速与音调的计算公式如下:
进一步地,所述第一情绪表示该客户的情绪处于激动、偏激状态;所述第二情绪表示该客户的情绪处于失望、无助状态;所述第三情绪表示该客户的情绪并无明显波动。
图2示出了本发明一种基于方言口音的语音转译***的框图。
如图2所示,本发明公开了一种基于方言口音的语音转译***,包括存储器和处理器,所述存储器中包括基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被所述处理器执行时实现如下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
需要说明的是,对于不同客户的口音均有不同,尤其是涉及到一些客户的方言口音,在转译时,需要先识别口音的类型,例如普通话语系中的地方口音:四川话、闽南话这类口音,通过所述口音识别神经网络识别出具体的口音,以进行对应的转译作业,可以保证转译内容的准确性,进而保证客服业务数据记录的完整性;同时在客服与客户交流过程中,还可以通过识别客户语音的语速与音调来获取其情绪变化,并实时记录。
值得一提的是,在获取客户的情绪变化时,也可以获取客服的情绪变化,在新入职的客服人员的成长过程中,需要时刻关注其心理健康,在保证客服人员身心健康的基础上,进一步保证客服流水业务的合理正确进行。
具体地,所述获取客服的情绪变化具体步骤如下:
通过预设算法提取客服人员的音频语速与音调;
依据所述音频语速与音调识别所述客服人员的身份信息;
依据所述音频语速与音调获取所述客服人员的情绪结果并记录。
需要说明的是,提取到所述客服人员的音频后,根据音频的语速与音调获取所述客服人员的身份信息以及情绪变化,并将所述情绪变化记录到对应身份的所述客服人员的工作簿中,后续进行查验时,可以第一时间获取到所述客服人员的情绪波动,并根据具体情况进行解压或者督促。
根据本发明实施例,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
需要说明的是,识别口音需要一定的准确性,先截取所述目标音频在第一预设时间范围类的第一音频内容,从中提取对应的所述口音因子作为实验输入值,初步获取对应的所述第一口音归属数据组;然后再截取所述目标音频在第二预设时间范围类的第二音频内容,从中提取对应的所述口音因子作为验证输入值,以得到对应的所述第二口音归属数据组,采用先实验再验证的方式可以得到准确率高的口音识别,例如,当客户的方言口音为四川话时,所述口音因子包括对应的特殊词汇,如“锤子”、“老孩儿”等字眼及其对应的发音音调。
值得一提的是,对于一些方言口音类似的地区,有一些特殊词汇及其发音是很类似的,所以需要得到回归概率值递减的归属数据组,需要先得到方言的大类归属,再通过验证得到具体的口音来源,其中,所述回归概率值的计算公式如下:
其中,为所述回归概率值,为所述口音因子的在文段中的占比,例如中国的云贵川地区,发音有些词汇是相近的,假设一个四川口音的客户打入电话时,首先得到的所述第一口音归属数据组为云贵川地区的方言,而不会是鄂豫皖地区的,再通过验证得到所述第二口音归属数据组,对比前后两个数据组的方言回归概率值,得出所述初始口音。
根据本发明实施例,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
需要说明的是,假设所述第一口音归属数据组得到的为云贵川方言,即表示为四川方言,表示为贵州方言,表示为云南话;所述第二口音归属数据组得到的为贵川湘方言,即表示为贵州方言,表示为四川方言,表示为湘西方言,计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
根据本发明实施例,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;相同所述口音数据库的所述回归概率值差值最小的所述
需要说明的是,通过计算概率和值得到所述初始口音的方法需要避免一种极端情况,即为四川方言对应的回归概率值为38%,为四川方言对应的回归概率值为88%,而客户真实的口音为贵州方言,但为贵州方言对应的回归概率值为62%,为贵州方言对应的回归概率值为63%,由于和值:,会出现误判为四川方言,进而出现转译的不准确性,因此需要对应设置阈值限定,通过设置所述预设阈值为60%,来进一步确认所述目标口音。
根据本发明实施例,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
需要说明的是,口音识别神经网络需要大量的历史数据进行训练,数据量越大,则结果越准确。本申请中的口音识别神经网络可以通过历史时间的口音因子和口音类型信息作为输入进行训练,得到对应的准确率,当所述准确率高于预设的准确率阈值时,则停止训练以得到所述口音识别神经网络,其中,所述准确率阈值设置为85%。
根据本发明实施例,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
需要说明的是,加权后的方言标准语速与音调的计算公式如下:
进一步地,所述第一情绪表示该客户的情绪处于激动、偏激状态;所述第二情绪表示该客户的情绪处于失望、无助状态;所述第三情绪表示该客户的情绪并无明显波动。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被处理器执行时,实现如上述任一项所述的一种基于方言口音的语音转译方法的步骤。
本发明公开的一种基于方言口音的语音转译方法和***和可读存储介质,通过设置实验数据实验与验证数据验证得到初始口音,再根据设置的回归概率值的大小选择目标口音进行转译作业,保证了方言口音识别的准确率,进而保证了转译的正确率;同时可以实时采取客户的语速和音调,进而得到客户的情绪等级,便于客服人员采取针对性措施,提升客户满意度,降低投诉率。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种基于方言口音的语音转译方法,其特征在于,包括以下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
2.根据权利要求1所述的一种基于方言口音的语音转译方法,其特征在于,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
5.根据权利要求1所述的一种基于方言口音的语音转译方法,其特征在于,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
6.根据权利要求1所述的一种基于方言口音的语音转译方法,其特征在于,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
7.一种基于方言口音的语音转译***,其特征在于,包括存储器和处理器,所述存储器中包括基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被所述处理器执行时实现如下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
8.根据权利要求7所述的一种基于方言口音的语音转译***,其特征在于,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种基于方言口音的语音转译方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110733654.5A CN113345419B (zh) | 2021-06-30 | 2021-06-30 | 基于方言口音的语音转译方法、***和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110733654.5A CN113345419B (zh) | 2021-06-30 | 2021-06-30 | 基于方言口音的语音转译方法、***和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345419A true CN113345419A (zh) | 2021-09-03 |
CN113345419B CN113345419B (zh) | 2022-05-27 |
Family
ID=77481676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110733654.5A Active CN113345419B (zh) | 2021-06-30 | 2021-06-30 | 基于方言口音的语音转译方法、***和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345419B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105244023A (zh) * | 2015-11-09 | 2016-01-13 | 上海语知义信息技术有限公司 | 课堂教学中教师情绪的提醒***及方法 |
CN108877769A (zh) * | 2018-06-25 | 2018-11-23 | 北京语言大学 | 识别方言种类的方法和装置 |
CN109327632A (zh) * | 2018-11-23 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 客服录音的智能质检***、方法及计算机可读存储介质 |
JP2019023690A (ja) * | 2017-07-24 | 2019-02-14 | 富士通株式会社 | 言語識別装置、言語識別方法、及び言語識別プログラム |
CN110211565A (zh) * | 2019-05-06 | 2019-09-06 | 平安科技(深圳)有限公司 | 方言识别方法、装置及计算机可读存储介质 |
CN110379445A (zh) * | 2019-06-20 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 基于情绪分析的业务处理方法、装置、设备及存储介质 |
US20200219492A1 (en) * | 2019-01-09 | 2020-07-09 | Samsung Electronics Co., Ltd. | System and method for multi-spoken language detection |
CN112233651A (zh) * | 2020-10-10 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112349276A (zh) * | 2020-12-03 | 2021-02-09 | 恒大新能源汽车投资控股集团有限公司 | 一种车载语音交互方法、装置及电子设备 |
-
2021
- 2021-06-30 CN CN202110733654.5A patent/CN113345419B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105244023A (zh) * | 2015-11-09 | 2016-01-13 | 上海语知义信息技术有限公司 | 课堂教学中教师情绪的提醒***及方法 |
JP2019023690A (ja) * | 2017-07-24 | 2019-02-14 | 富士通株式会社 | 言語識別装置、言語識別方法、及び言語識別プログラム |
CN108877769A (zh) * | 2018-06-25 | 2018-11-23 | 北京语言大学 | 识别方言种类的方法和装置 |
CN109327632A (zh) * | 2018-11-23 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 客服录音的智能质检***、方法及计算机可读存储介质 |
US20200219492A1 (en) * | 2019-01-09 | 2020-07-09 | Samsung Electronics Co., Ltd. | System and method for multi-spoken language detection |
CN110211565A (zh) * | 2019-05-06 | 2019-09-06 | 平安科技(深圳)有限公司 | 方言识别方法、装置及计算机可读存储介质 |
CN110379445A (zh) * | 2019-06-20 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 基于情绪分析的业务处理方法、装置、设备及存储介质 |
CN112233651A (zh) * | 2020-10-10 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112349276A (zh) * | 2020-12-03 | 2021-02-09 | 恒大新能源汽车投资控股集团有限公司 | 一种车载语音交互方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
FRED RICHARDSON等: "Deep neural network approaches to speaker and language recognition", 《IEEE SIGNAL PROCESSING LETTERS》 * |
潘复平等: "一种用于方言口音语音识别的字典自适应技术", 《计算机工程与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113345419B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
CN108737667B (zh) | 语音质检方法、装置、计算机设备及存储介质 | |
US8676586B2 (en) | Method and apparatus for interaction or discourse analytics | |
CN109151218A (zh) | 通话语音质检方法、装置、计算机设备及存储介质 | |
CN109767787B (zh) | 情绪识别方法、设备及可读存储介质 | |
US8145482B2 (en) | Enhancing analysis of test key phrases from acoustic sources with key phrase training models | |
CN110942229A (zh) | 一种服务质量评价方法、装置、电子设备及存储介质 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
TW201935370A (zh) | 從文字內容評核客戶服務品質之系統及方法 | |
US11687946B2 (en) | Systems and methods for detecting complaint interactions | |
CN109508402A (zh) | 违规用语检测方法及装置 | |
CN110797032B (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN116665676B (zh) | 一种用于智能语音外呼***的语义识别方法 | |
CN109872714A (zh) | 一种提高语音识别准确性的方法、电子设备及存储介质 | |
CN112800743A (zh) | 一种基于特定领域的语音打分模型构建***及方法 | |
CN114818649A (zh) | 基于智能语音交互技术的业务咨询处理方法及装置 | |
CN113434670A (zh) | 话术文本生成方法、装置、计算机设备和存储介质 | |
CN116631412A (zh) | 一种通过声纹匹配判断语音机器人的方法 | |
CN113744742A (zh) | 对话场景下的角色识别方法、装置和*** | |
CN113345419B (zh) | 基于方言口音的语音转译方法、***和可读存储介质 | |
CN113990288B (zh) | 一种语音客服自动生成部署语音合成模型的方法 | |
Pranto et al. | Aims talk: Intelligent call center support in bangla language with speaker authentication | |
CN113555011A (zh) | 电力行业客服中心语音转译建模方法、***及介质 | |
US12033163B2 (en) | Systems and methods for detecting complaint interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |