CN117877510A - 语音自动化测试的方法、装置、电子设备及存储介质 - Google Patents
语音自动化测试的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117877510A CN117877510A CN202311714221.0A CN202311714221A CN117877510A CN 117877510 A CN117877510 A CN 117877510A CN 202311714221 A CN202311714221 A CN 202311714221A CN 117877510 A CN117877510 A CN 117877510A
- Authority
- CN
- China
- Prior art keywords
- voice
- recognition
- model
- scene
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010998 test method Methods 0.000 title claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 128
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000013515 script Methods 0.000 claims abstract description 12
- 230000001960 triggered effect Effects 0.000 claims abstract description 5
- 239000012634 fragment Substances 0.000 claims description 62
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000001939 inductive effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 241000393496 Electra Species 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 5
- 238000009432 framing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种语音自动化测试的方法、装置、电子设备及存储介质。语音自动化测试方法包括步骤:S1、语音信号采集与预处理,获取用户通话时的用户通话录音,对通话录音进行降噪处理,得到降噪后的语音信号;S2、音色识别,依次通过语音数据预处理、MFCC特征提取、音色模型训练,生成音色模型,从而实现音色识别;S3、场景识别,所述场景识别为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别;S4、语音自动化测试调度,进行音色识别,利用场景识别进行场景分类,对输入的语音信号进行分类,根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。
Description
技术领域
本发明涉及通信无线通信技术领域,具体而言,涉及一种基于音色识别与场景识别的语音自动化测试的方法、装置、电子设备及存储介质。
背景技术
随着交互方式的多样化,语音交互已被广泛应用于各种场景。
然而,现有的语音自动化测试技术大多仅针对文本或特定语音进行测试,无法根据不同场景及不同音色进行智能化的测试调度。
因此,开发一种基于音色与场景识别的语音自动化测试调度***势在必行。
发明内容
本发明要解决的技术问题是现有的语音自动化测试技术无法根据不同场景及不同音色进行智能化的测试调度的问题,语音自动化测试的准确性和效率低。
为解决上述技术问题,根据本发明的一个方面,提供一种语音自动化测试的方法,其包括如下步骤:S1、语音信号采集与预处理,获取用户通话时的用户通话录音,对通话录音进行降噪处理,得到降噪后的语音信号;S2、音色识别,对语音信号进行语音数据预处理与模型训练以实现音色识别,语音数据预处理与模型训练包括:进行有效数据获取、数据标注、数据扩充、特征提取和模型训练,音色识别依次通过语音数据预处理、MFCC特征提取、音色模型训练,生成音色模型,从而实现音色识别;S3、场景识别,所述场景识别为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别;S4、语音自动化测试调度,进行音色识别,利用场景识别进行场景分类,对输入的语音信号进行分类,根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。
根据本发明的实施例,步骤S1中可包括如下步骤:S11、将采集到的用户通话时获取用户通话录音,生成wav格式的录音文件;S12、将录音文件进行小波变换,将录音数据分解到不同的小波层次上,对每个小波层次上的系数进行阈值处理;对阈值处理后的小波系数进行逆小波变换,得到降噪后的语音信号。
根据本发明的实施例,步骤S2中可包括如下步骤:S21、在降噪结束之后,进行语音分段(VAD,VoiceActivity Detection,即语音端点检测),首先将语音信号分为小的时间窗口,处理生成语音片段,保存为wav格式的音频文件;在生成语音片段之后,将语音片段与用户的ID匹配,生成训练数据集的标注数据;S22、对生成的数据集进行扩充,改变现有语音片段的速度、声调、音量,并使用源音频的标注数据对新生成的语音片段进行标注,将新的数据添加进数据集;S23、MFCC特征提取,使用MFCC算法提取语音片段的声纹特征,使用汉明窗将数据集中的语音片段分割为一段段短时平稳的帧,并对每一帧的信号进行快速傅里叶变换(FFT,FastFourierTransform),将频谱取模平方,得到功率谱;在功率谱上应用一组Mel滤波器,对每个滤波器的输出取对数,并对Mel滤波器组的输出进行离散余弦变换(DCT,Discrete Cosine Transform)得到倒谱,提取出语音片段的MFCC特征;S24、音色模型训练,将语音数据的MFCC特征以及标签传入模型进行迭代训练,直至模型收敛,生成音色模型;S25、语音识别,将多个语音片段的MFCC特征分别送入模型进行识别,分别得到每个语音片段的说话人。
根据本发明的实施例,步骤S23中,快速傅里叶变换(FFT)的公式可为:
其中,X(k)为频域中的第k个离散频率,x(n)表示时域信号中的第n个采样点,N为信号的总采样数。
根据本发明的实施例,步骤S3可包括如下步骤:S31、采用基于Transformer结构的roberta模型加electra模型生成预训练模型,以便针对不同的语音自动化测试场景训练模型,以便后续根据语音识别与场景识别的结果选择相应的语音自动化测试模型;S32、采用基于改进RNN(Recurrent Neural Network,循环神经网络)模型的CTC算法(Connectionisttemporal classification)获取待处理语音的语音识别结果,将其转换为文本以便后续处理,同时从音频数据中提取出有用的特征,特征包括梅尔频率倒谱系数(MFCC)语音特征,特征用于辅助分析当前测试场景;S33、根据客户的语音生成的文本内容使用基于长短时记忆模型(LSTM,long-short term memory)的自然语言处理技术对文本进行语义分析,识别出客户的意图,匹配对应的业务标签,并将其归纳为不同的语音自动化测试场景,进行场景识别和场景分类,从而依据场景识别选择不同的语音自动化测试模型。
根据本发明的第二个方面,提供一种语音自动化测试的装置,其包括:
语音信号采集与预处理模块,用于获取用户通话时的用户通话录音,对通话录音进行降噪处理,得到降噪后的语音信号;将采集到的用户通话时获取用户通话录音,生成wav格式的录音文件;将录音文件进行小波变换,将录音数据分解到不同的小波层次上,对每个小波层次上的系数进行阈值处理;对阈值处理后的小波系数进行逆小波变换,得到降噪后的语音信号;音色识别模块,对语音信号进行语音数据预处理与模型训练以实现音色识别,语音数据预处理与模型训练包括:进行有效数据获取、数据标注、数据扩充、特征提取和模型训练;音色识别模块用于依次通过语音数据预处理、MFCC特征提取、音色模型训练,生成音色模型,从而实现音色识别;场景识别模块,所述场景识别模块用于为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别;语音自动化测试调度模块,进行音色识别、利用场景识别进行场景分类,对输入的语音信号进行分类,语音自动化测试调度模块用于根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。
根据本发明的实施例,音色识别模块可包括:语音数据处理单元,用于在降噪结束之后,进行语音分段(VAD,VoiceActivity Detection,即语音端点检测),首先将语音信号分为小的时间窗口,处理生成语音片段,保存为wav格式的音频文件;在生成语音片段之后,将语音片段与用户的ID匹配,生成训练数据集的标注数据;对生成的数据集进行扩充,改变现有语音片段的速度、声调、音量,并使用源音频的标注数据对新生成的语音片段进行标注,将新的数据添加进数据集;MFCC特征提取单元,用于通过MFCC算法提取语音片段的声纹特征,使用汉明窗将数据集中的语音片段分割为一段段短时平稳的帧,并对每一帧的信号进行快速傅里叶变换(FFT,FastFourier Transform),将频谱取模平方,得到功率谱;在功率谱上应用一组Mel滤波器,对每个滤波器的输出取对数,并对Mel滤波器组的输出进行离散余弦变换(DCT,Discrete Cosine Transform)得到倒谱,提取出语音片段的MFCC特征;其中,快速傅里叶变换(FFT)的公式为:
其中,X(k)为频域中的第k个离散频率,x(n)表示时域信号中的第n个采样点,N为信号的总采样数;
音色模型训练单元,用于将语音数据的MFCC特征以及标签传入模型进行迭代训练,直至模型收敛,生成音色模型;将多个语音片段的MFCC特征分别送入模型进行识别,分别得到每个语音片段的说话人。
根据本发明的实施例,场景识别模块可采用基于Transformer结构的roberta模型加electra模型生成预训练模型,以便针对不同的语音自动化测试场景训练模型,以便后续根据语音识别与场景识别的结果选择相应的语音自动化测试模型;采用基于改进RNN模型的CTC算法获取待处理语音的语音识别结果,将其转换为文本以便后续处理,同时从音频数据中提取出有用的特征,特征包括梅尔频率倒谱系数(MFCC)语音特征,特征用于辅助分析当前测试场景;根据客户的语音生成的文本内容使用基于长短时记忆模型的自然语言处理技术对文本进行语义分析,识别出客户的意图,匹配对应的业务标签,并将其归纳为不同的语音自动化测试场景,进行场景识别和场景分类,从而依据场景识别选择不同的语音自动化测试模型。
根据本发明的第三个方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的语音自动化测试程序,语音自动化测试程序被处理器执行时实现上述的语音自动化测试方法的步骤。
根据本发明的第四个方面,提供一种计算机存储介质,其中,计算机存储介质上存储有语音自动化测试程序,语音自动化测试程序被处理器执行时实现上述的语音自动化测试方法的步骤。
与现有技术相比,本发明的实施例所提供的技术方案至少可实现如下有益效果:
本发明通过音色识别与场景识别进行进而进行语音自动化测试,其中,音色识别对采集的语音信号进行预处理,包括音色识别、分帧、加窗和特征提取等步骤;其中,音色识别采用深度学习模型对语音信号进行处理,以得到反映音色的特征向量;其中,场景识别分帧、加窗和特征提取采用短时傅里叶变换或小波变换等方法对语音信号进行处理,以得到反映场景信息的特征向量;基于反映场景信息的特征向量,利用机器学习算法训练出场景分类器,用于分类和预测语音信号所反映的场景信息。
本发明通过基于音色识别和场景识别的语音自动化测试,能够更准确地识别被叫的音色和场景信息,进而选择和执行相应的测试脚本,提高测试的准确性。
本发明通过基于音色识别和场景识别的语音自动化测试,能够实现对不同场景和音色的被叫进行智能化的测试调度,进而提高测试的效率。提高语音自动化测试的效率。
本发明通过基于音色识别和场景识别的语音自动化测试,能够减少人力参与和测试错误率,进而降低人力成本。
本发明通过基于音色识别和场景识别的语音自动化测试,能够实现对不同场景和音色的被叫进行智能化的测试调度,进而增强语音自动化测试的可扩展性和灵活性。
本发明通过基于音色识别和场景识别的语音自动化测试,能够增强语音自动化测试的可靠性和稳定性,进而提高软件产品的质量和用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
图1是示出根据本发明实施例的语音自动化测试方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
图1是示出根据本发明实施例的语音自动化测试方法的流程图。
如图1所示,语音自动化测试的方法,其包括如下步骤:
S1、语音信号采集与预处理,获取用户通话时的用户通话录音,对通话录音进行降噪处理,得到降噪后的语音信号。
S2、音色识别,对语音信号进行语音数据预处理与模型训练以实现音色识别,语音数据预处理与模型训练包括:进行有效数据获取、数据标注、数据扩充、特征提取和模型训练,音色识别依次通过语音数据预处理、MFCC特征提取、音色模型训练,生成音色模型,从而实现音色识别。
S3、场景识别,所述场景识别为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别。
S4、语音自动化测试调度,进行音色识别,利用场景识别进行场景分类,对输入的语音信号进行分类,根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。
本发明通过基于音色识别和场景识别的语音自动化测试,能够更准确地识别被叫的音色和场景信息,进而选择和执行相应的测试脚本,提高测试的准确性;能够实现对不同场景和音色的被叫进行智能化的测试调度,进而提高语音自动化测试的效率。
根据本发明的一个或一些实施例,步骤S1中包括如下步骤:
S11、将采集到的用户通话时获取用户通话录音,生成wav格式的录音文件。
S12、将录音文件进行小波变换,将录音数据分解到不同的小波层次上,对每个小波层次上的系数进行阈值处理;对阈值处理后的小波系数进行逆小波变换,得到降噪后的语音信号。
根据本发明的一个或一些实施例,步骤S2中包括如下步骤:
S21、在降噪结束之后,进行语音分段(VAD,VoiceActivity Detection,即语音端点检测),首先将语音信号分为小的时间窗口,处理生成语音片段,保存为wav格式的音频文件;在生成语音片段之后,将语音片段与用户的ID匹配,生成训练数据集的标注数据。
S22、对生成的数据集进行扩充,改变现有语音片段的速度、声调、音量,并使用源音频的标注数据对新生成的语音片段进行标注,将新的数据添加进数据集。
S23、MFCC特征提取,使用MFCC算法提取语音片段的声纹特征,使用汉明窗将数据集中的语音片段分割为一段段短时平稳的帧,并对每一帧的信号进行快速傅里叶变换(FFT,Fast FourierTransform),将频谱取模平方,得到功率谱;在功率谱上应用一组Mel滤波器,对每个滤波器的输出取对数,并对Mel滤波器组的输出进行离散余弦变换(DCT,Discrete Cosine Transform)得到倒谱,提取出语音片段的MFCC特征。
S24、音色模型训练,将语音数据的MFCC特征以及标签传入模型进行迭代训练,直至模型收敛,生成音色模型。
S25、语音识别,将多个语音片段的MFCC特征分别送入模型进行识别,分别得到每个语音片段的说话人。
根据本发明的一个或一些实施例,步骤S23中,快速傅里叶变换(FFT)的公式为:
其中,X(k)为频域中的第k个离散频率,x(n)表示时域信号中的第n个采样点,N为信号的总采样数。
根据本发明的一个或一些实施例,步骤S3包括如下步骤:
S31、采用基于Transformer结构的roberta模型加electra模型生成预训练模型,以便针对不同的语音自动化测试场景训练模型,以便后续根据语音识别与场景识别的结果选择相应的语音自动化测试模型。
S32、采用基于改进RNN模型的CTC算法(Connectionist temporalclassification)获取待处理语音的语音识别结果,将其转换为文本以便后续处理,同时从音频数据中提取出有用的特征,特征包括梅尔频率倒谱系数(MFCC)语音特征,特征用于辅助分析当前测试场景。
S33、根据客户的语音生成的文本内容使用基于长短时记忆模型(LSTM,long-short term memory)的自然语言处理技术对文本进行语义分析,识别出客户的意图,匹配对应的业务标签,并将其归纳为不同的语音自动化测试场景,进行场景识别和场景分类,从而依据场景识别选择不同的语音自动化测试模型。
本发明通过音色识别与场景识别进行进而进行语音自动化测试,其中,音色识别对采集的语音信号进行预处理,包括音色识别、分帧、加窗和特征提取等步骤;其中,音色识别采用深度学习模型对语音信号进行处理,以得到反映音色的特征向量;其中,场景识别分帧、加窗和特征提取采用短时傅里叶变换或小波变换等方法对语音信号进行处理,以得到反映场景信息的特征向量;基于反映场景信息的特征向量,利用机器学习算法训练出场景分类器,用于分类和预测语音信号所反映的场景信息。
根据本发明的第二个方面,提供一种语音自动化测试的装置包括:语音信号采集与预处理模块、音色识别模块、场景识别模块和语音自动化测试调度模块。
语音信号采集与预处理模块用于获取用户通话时的用户通话录音,对通话录音进行降噪处理,得到降噪后的语音信号;将采集到的用户通话时获取用户通话录音,生成wav格式的录音文件;将录音文件进行小波变换,将录音数据分解到不同的小波层次上,对每个小波层次上的系数进行阈值处理;对阈值处理后的小波系数进行逆小波变换,得到降噪后的语音信号。
对语音信号进行语音数据预处理与模型训练以实现音色识别,语音数据预处理与模型训练包括:进行有效数据获取、数据标注、数据扩充、特征提取和模型训练;音色识别模块用于依次通过语音数据预处理、MFCC特征提取、音色模型训练,生成音色模型,从而实现音色识别。
场景识别模块用于为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别。
进行音色识别、利用场景识别进行场景分类,对输入的语音信号进行分类,语音自动化测试调度模块用于根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。
本发明通过基于音色识别和场景识别的语音自动化测试,能够实现对不同场景和音色的被叫进行智能化的测试调度,进而增强语音自动化测试的可扩展性和灵活性。
根据本发明的一个或一些实施例,音色识别模块包括:语音数据处理单元、MFCC特征提取单元和音色模型训练单元。
语音数据处理单元用于在降噪结束之后,进行语音分段(VAD,Voice ActivityDetection,即语音端点检测),首先将语音信号分为小的时间窗口,处理生成语音片段,保存为wav格式的音频文件;在生成语音片段之后,将语音片段与用户的ID匹配,生成训练数据集的标注数据;对生成的数据集进行扩充,改变现有语音片段的速度、声调、音量,并使用源音频的标注数据对新生成的语音片段进行标注,将新的数据添加进数据集。
MFCC特征提取单元用于通过MFCC算法提取语音片段的声纹特征,使用汉明窗将数据集中的语音片段分割为一段段短时平稳的帧,并对每一帧的信号进行快速傅里叶变换(FFT,Fast Fourier Transform),将频谱取模平方,得到功率谱;在功率谱上应用一组Mel滤波器,对每个滤波器的输出取对数,并对Mel滤波器组的输出进行离散余弦变换(DCT,Discrete Cosine Transform)得到倒谱,提取出语音片段的MFCC特征。其中,快速傅里叶变换(FFT)的公式为:
其中,X(k)为频域中的第k个离散频率,x(n)表示时域信号中的第n个采样点,N为信号的总采样。
音色模型训练单元用于将语音数据的MFCC特征以及标签传入模型进行迭代训练,直至模型收敛,生成音色模型;将多个语音片段的MFCC特征分别送入模型进行识别,分别得到每个语音片段的说话人。
根据本发明的一个或一些实施例,场景识别模块采用基于Transformer结构的roberta模型加electra模型生成预训练模型,以便针对不同的语音自动化测试场景训练模型,以便后续根据语音识别与场景识别的结果选择相应的语音自动化测试模型;采用基于改进RNN模型的CTC算法获取待处理语音的语音识别结果,将其转换为文本以便后续处理,同时从音频数据中提取出有用的特征,特征包括梅尔频率倒谱系数(MFCC)语音特征,特征用于辅助分析当前测试场景;根据客户的语音生成的文本内容使用基于长短时记忆模型的自然语言处理技术对文本进行语义分析,识别出客户的意图,匹配对应的业务标签,并将其归纳为不同的语音自动化测试场景,进行场景识别和场景分类,从而依据场景识别选择不同的语音自动化测试模型。
根据本发明的一个或一些实施例,采用本方案针对天翼通信助理自动化测试。
首先,进行语音信号采集,对天翼通信助理真实产生的不同场景不同音色的通话记录音频采集。
接着,进行语音信号预处理,对采集的通话记录音频进行预处理;音色识别利用梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)等参数作为特征输入,采用深度学习模型卷积神经网络(CNN)、循环神经网络(RNN)等进行训练,以得到音色识别模型;分帧、加窗和特征提取利用短时傅里叶变换(STFT)、小波变换(Wavelet)等方法对语音信号进行处理,以得到反映场景信息的特征向量。
然后,进行场景识别:利用深度学习模型对预处理后的语音信号进行场景识别。具体包括利用上述特征向量为输入,训练出一个场景分类器;该场景分类器包括卷积神经网络(CNN)、循环神经网络(RNN)等深度学习模型,以实现对不同场景的分类。
自动化测试调度,利用场景识别进行场景分类,对输入的语音信号进行分类,根据分类结果触发相应的自动化测试脚本。具体地,根据不同场景的分类结果,可以触发相应的自动化测试脚本进行特定场景的测试,例如:外卖场景,约会场景等。该模块还有一个反馈模块,用于根据自动化测试的结果提供反馈,以帮助优化深度学习模型的训练和测试脚本的设计。
效果表明,本发明可以准确地对被叫的音色与场景进行识别,并应用于自动化测试调度中。这可以提高自动化测试的准确性和效率,降低人力成本和测试错误率。本发明通过基于音色识别和场景识别的语音自动化测试,能够增强语音自动化测试的可靠性和稳定性,进而提高软件产品的质量和用户体验。
根据本发明的又一方面,提供一种语音自动化测试的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的语音自动化测试程序,语音自动化测试程序被处理器执行时实现上述的语音自动化测试方法的步骤。
根据本发明还提供一种计算机存储介质。
计算机存储介质上存储有语音自动化测试程序,语音自动化测试程序被处理器执行时实现上述的语音自动化测试方法的步骤。
其中,在所述处理器上运行的语音自动化测试程序被执行时所实现的方法可参照本发明语音自动化测试方法各个实施例,此处不再赘述。
本发明还提供一种计算机程序产品。
本发明计算机程序产品包括语音自动化测试程序,所述语音自动化测试程序被处理器执行时实现如上所述的语音自动化测试方法的步骤。
其中,在所述处理器上运行的语音自动化测试程序被执行时所实现的方法可参照本发明语音自动化测试方法各个实施例,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。
Claims (10)
1.一种语音自动化测试的方法,包括如下步骤:
S1、语音信号采集与预处理,获取用户通话时的用户通话录音,对所述通话录音进行降噪处理,得到降噪后的语音信号;
S2、音色识别,对语音信号进行语音数据预处理与模型训练以实现音色识别,所述语音数据预处理与模型训练包括:进行有效数据获取、数据标注、数据扩充、特征提取和模型训练,音色识别依次通过语音数据预处理、MFCC特征提取、音色模型训练,生成音色模型,从而实现音色识别;
S3、场景识别,所述场景识别为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别;
S4、语音自动化测试调度,进行音色识别,利用场景识别进行场景分类,对输入的语音信号进行分类,根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。
2.如权利要求1所述的语音自动化测试的方法,其中,步骤S1中包括如下步骤:
S11、将采集到的用户通话时获取用户通话录音,生成wav格式的录音文件;
S12、将录音文件进行小波变换,将录音数据分解到不同的小波层次上,对每个小波层次上的系数进行阈值处理;对阈值处理后的小波系数进行逆小波变换,得到降噪后的语音信号。
3.如权利要求1所述的语音自动化测试的方法,其中,步骤S2中包括如下步骤:
S21、在降噪结束之后,进行语音分段,首先将语音信号分为小的时间窗口,处理生成语音片段,保存为wav格式的音频文件;在生成语音片段之后,将语音片段与用户的ID匹配,生成训练数据集的标注数据;
S22、对生成的数据集进行扩充,改变现有语音片段的速度、声调、音量,并使用源音频的标注数据对新生成的语音片段进行标注,将新的数据添加进数据集;
S23、MFCC特征提取,使用MFCC算法提取语音片段的声纹特征,使用汉明窗将数据集中的语音片段分割为一段段短时平稳的帧,并对每一帧的信号进行快速傅里叶变换,将频谱取模平方,得到功率谱;在功率谱上应用一组Mel滤波器,对每个滤波器的输出取对数,并对Mel滤波器组的输出进行离散余弦变换得到倒谱,提取出语音片段的MFCC特征;
S24、音色模型训练,将语音数据的MFCC特征以及标签传入模型进行迭代训练,直至模型收敛,生成音色模型;
S25、语音识别,将多个语音片段的MFCC特征分别送入模型进行识别,分别得到每个语音片段的说话人。
4.如权利要求3所述的语音自动化测试的方法,其中,步骤S23中,快速傅里叶变换FFT的公式为:
其中,X(k)为频域中的第k个离散频率,x(n)表示时域信号中的第n个采样点,N为信号的总采样数。
5.如权利要求1所述的语音自动化测试的方法,其中,步骤S3包括如下步骤:
S31、采用基于Transformer结构的roberta模型加electra模型生成预训练模型,以便针对不同的语音自动化测试场景训练模型,以便后续根据语音识别与场景识别的结果选择相应的语音自动化测试模型;
S32、采用基于改进RNN模型的CTC算法获取待处理语音的语音识别结果,将其转换为文本以便后续处理,同时从音频数据中提取出有用的特征,所述特征包括梅尔频率倒谱系数MFCC语音特征,所述特征用于辅助分析当前测试场景;
S33、根据客户的语音生成的文本内容使用基于长短时记忆模型的自然语言处理技术对文本进行语义分析,识别出客户的意图,匹配对应的业务标签,并将其归纳为不同的语音自动化测试场景,进行场景识别和场景分类,从而依据场景识别选择不同的语音自动化测试模型。
6.一种语音自动化测试的装置,包括:
语音信号采集与预处理模块,用于获取用户通话时的用户通话录音,对所述通话录音进行降噪处理,得到降噪后的语音信号;将采集到的用户通话时获取用户通话录音,生成wav格式的录音文件;将录音文件进行小波变换,将录音数据分解到不同的小波层次上,对每个小波层次上的系数进行阈值处理;对阈值处理后的小波系数进行逆小波变换,得到降噪后的语音信号;
音色识别模块,对语音信号进行语音数据预处理与模型训练以实现音色识别,所述语音数据预处理与模型训练包括:进行有效数据获取、数据标注、数据扩充、特征提取和模型训练;所述音色识别模块用于依次通过语音数据预处理、MFCC特征提取、音色模型训练,生成音色模型,从而实现音色识别;
场景识别模块,所述场景识别模块用于为场景进行分类,依次通过语音识别、语义识别、场景模型训练,生成场景模型,从而实现场景识别;
语音自动化测试调度模块,进行音色识别、利用场景识别进行场景分类,对输入的语音信号进行分类,所述语音自动化测试调度模块用于根据分类结果触发相应的语音自动化测试用例及语音自动化测试脚本,语音自动化测试完成后生成测试结果。
7.如权利要求6所述的语音自动化测试的装置,其中,所述音色识别模块包括:
语音数据处理单元,用于在降噪结束之后,进行语音分段,首先将语音信号分为小的时间窗口,处理生成语音片段,保存为wav格式的音频文件;在生成语音片段之后,将语音片段与用户的ID匹配,生成训练数据集的标注数据;对生成的数据集进行扩充,改变现有语音片段的速度、声调、音量,并使用源音频的标注数据对新生成的语音片段进行标注,将新的数据添加进数据集;
MFCC特征提取单元,用于通过MFCC算法提取语音片段的声纹特征,使用汉明窗将数据集中的语音片段分割为一段段短时平稳的帧,并对每一帧的信号进行快速傅里叶变换,将频谱取模平方,得到功率谱;在功率谱上应用一组Mel滤波器,对每个滤波器的输出取对数,并对Mel滤波器组的输出进行离散余弦变换得到倒谱,提取出语音片段的MFCC特征;
其中,快速傅里叶变换的公式为:
其中,X(k)为频域中的第k个离散频率,x(n)表示时域信号中的第n个采样点,N为信号的总采样数;
音色模型训练单元,用于将语音数据的MFCC特征以及标签传入模型进行迭代训练,直至模型收敛,生成音色模型;将多个语音片段的MFCC特征分别送入模型进行识别,分别得到每个语音片段的说话人。
8.如权利要求6所述的语音自动化测试的装置,其中,所述场景识别模块采用基于Transformer结构的roberta模型加electra模型生成预训练模型,以便针对不同的语音自动化测试场景训练模型,以便后续根据语音识别与场景识别的结果选择相应的语音自动化测试模型;
其中,所述场景识别模块采用基于改进RNN模型的CTC算法获取待处理语音的语音识别结果,将其转换为文本以便后续处理,同时从音频数据中提取出有用的特征,所述特征包括梅尔频率倒谱系数语音特征,所述特征用于辅助分析当前测试场景;
其中,所述场景识别模块根据客户的语音生成的文本内容使用基于长短时记忆模型的自然语言处理技术对文本进行语义分析,识别出客户的意图,匹配对应的业务标签,并将其归纳为不同的语音自动化测试场景,进行场景识别和场景分类,从而依据场景识别选择不同的语音自动化测试模型。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音自动化测试程序,所述语音自动化测试程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音自动化测试方法的步骤。
10.一种计算机存储介质,其中,所述计算机存储介质上存储有语音自动化测试程序,所述语音自动化测试程序被处理器执行时实现如权利要求1至5中任一项所述的语音自动化测试方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311714221.0A CN117877510A (zh) | 2023-12-14 | 2023-12-14 | 语音自动化测试的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311714221.0A CN117877510A (zh) | 2023-12-14 | 2023-12-14 | 语音自动化测试的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117877510A true CN117877510A (zh) | 2024-04-12 |
Family
ID=90580025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311714221.0A Pending CN117877510A (zh) | 2023-12-14 | 2023-12-14 | 语音自动化测试的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117877510A (zh) |
-
2023
- 2023-12-14 CN CN202311714221.0A patent/CN117877510A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
US6876966B1 (en) | Pattern recognition training method and apparatus using inserted noise followed by noise reduction | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN108877779B (zh) | 用于检测语音尾点的方法和装置 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、***及存储介质 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
CN113035202A (zh) | 一种身份识别方法和装置 | |
CN116741159A (zh) | 音频分类及模型的训练方法、装置、电子设备和存储介质 | |
CN111508527A (zh) | 一种电话应答状态检测方法、装置及服务器 | |
US20230395094A1 (en) | Speech processing method, computer storage medium, and electronic device | |
CN117041430B (zh) | 一种提高智能协调外呼***的外呼质量及鲁棒方法和装置 | |
CN112087726B (zh) | 彩铃识别的方法及***、电子设备及存储介质 | |
CN112309398B (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
CN112927723A (zh) | 基于深度神经网络的高性能抗噪语音情感识别方法 | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 | |
CN117877510A (zh) | 语音自动化测试的方法、装置、电子设备及存储介质 | |
CN111091816B (zh) | 一种基于语音评测的数据处理***及方法 | |
CN114792518A (zh) | 一种基于调度域技术的语音识别***及其方法、存储介质 | |
CN111782860A (zh) | 一种音频检测方法及装置、存储介质 | |
CN110689875A (zh) | 一种语种识别方法、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |