CN110556098B - 语音识别结果测试方法、装置、计算机设备和介质 - Google Patents

语音识别结果测试方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN110556098B
CN110556098B CN201910667054.6A CN201910667054A CN110556098B CN 110556098 B CN110556098 B CN 110556098B CN 201910667054 A CN201910667054 A CN 201910667054A CN 110556098 B CN110556098 B CN 110556098B
Authority
CN
China
Prior art keywords
sub
speech
emotion
voice
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910667054.6A
Other languages
English (en)
Other versions
CN110556098A (zh
Inventor
刘丽珍
吕小立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910667054.6A priority Critical patent/CN110556098B/zh
Priority to PCT/CN2019/116960 priority patent/WO2021012495A1/zh
Publication of CN110556098A publication Critical patent/CN110556098A/zh
Application granted granted Critical
Publication of CN110556098B publication Critical patent/CN110556098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本申请涉及人工智能技术领域,应用于语音识别行业,提供一种语音识别结果测试方法、装置、计算机设备和存储介质,随机选择任意应用场景下基于预设话术脚本的用户答复语音数据,将用户答复语音数据中用户话段分为多个预设时间长度的子话段,提取各子话段的声学特征,根据声学特征获取各子话段的情感标签,将情感标签与用户答复语音数据线性拼接,并且添加子话段标识,将各个子话段对应的语音识别结果与标准语音识别结果比较,计数语音识别结果一致的子话段占比,可以高效且准确验证已选择应用场景下语音识别结果的准确性。

Description

语音识别结果测试方法、装置、计算机设备和介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种语音识别结果测试方法、装置、计算机设备和存储介质。
背景技术
随着科学技术的发展,人工智能技术应用了越来越多的领域,给人们生产、生活带来便利,语音识别技术作为人工智能技术的重要组成部分也得到的日新月异的发展与应用。
在语音识别技术中,ASR(Automatic Speech Recognition,自动语音识别技术)是目前比较广泛使用的技术,具体来说,ASR是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别***只能在一定的限制条件下获得满意的性能且语音识别***的性能多个因素。又由于在不同应用环境下多种因素情况不同,很容易造成在不同应用场景下ASR情感识别的正确率低的情况,若不对ASR进行验证,很容易造成语音识别出错,无法满足业务需求。
因此,有必要提供一种准确的语音识别结果测试方案。
发明内容
基于此,有必要针对上述技术问题,提供一种测试准确的语音识别结果测试方法、装置、计算机设备和存储介质。
一种语音识别结果测试方法,所述方法包括:
随机选择任意应用场景下基于预设话术脚本的用户答复语音数据;
获取所述用户答复语音数据中用户话段,将所述用户话段分为多个预设时间长度的子话段,并分配子话段标识;
提取各子话段的声学特征,根据声学特征获取各子话段的情感标签;
采用语音识别技术获取所述各子话段对应的文本数据,将各子话段的情感标签与对应的文本数据线性拼接,并添加所述子话段标识于所述情感标签与所述文本数据之间,得到各子话段的语音识别结果;根据所述子话段标识,将所述各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果逐一对比,计数语音识别结果一致的子话段占比,得到已选择应用场景下语音识别结果的准确度。
在其中一个实施例中,所述提取各子话段的声学特征,根据声学特征获取各子话段的情感标签包括:
提取各子话段的声学特征;
将提取的声学特征输入已训练的基于深度学习的神经网络模型,得到情感标签。
在其中一个实施例中,上述语音识别结果测试还包括:
获取不同情感标签对应的答复语音样本数据;
提取所述答复语音样本数据中时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;
将所述答复语音样本数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征作为训练数据,训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型。
在其中一个实施例中,所述训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型包括:
提取所述训练数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;
根据提取的特征数据训练基于深度学习的神经网络中的卷积神经网络部分学习的局部情感标签;
通过卷积神经网络中的循环神经网络部分、对所述局部情感标签进行抽象,并通过基于深度学习的神经网络中池化层学习到全局情感标签,得到已训练的基于深度学习的神经网络模型。
在其中一个实施例中,所述提取各子话段的声学特征,根据声学特征获取各子话段的情感标签包括:
根据提取各子话段的声学特征以及预设情感标签对应的声学特征定性分析表,得到情感标签;
其中,所述预设情感标签对应的声学特征定性分析表中携带有情感标签、声学特征以及不同情感标签对应声学特征的定性分析区间数据,所述声学特征包括语速、平均基频、基频范围、强度、音质、基频变化以及清晰度。
在其中一个实施例中,所述验证已选择应用场景下语音识别以及情感标签准确性之后,还包括:
延时预设时间,返回所述随机选择任意应用场景下基于预设话术脚本的用户答复语音数据的步骤。
一种语音识别结果测试装置,所述装置包括:
数据获取模块,用于随机选择任意应用场景下基于预设话术脚本的用户答复语音数据;
划分模块,用于获取所述用户答复语音数据中用户话段,将所述用户话段分为多个预设时间长度的子话段,并分配子话段标识;
特征提取模块,用于提取各子话段的声学特征,根据声学特征获取各子话段的情感标签;
拼接组合模块,用于采用语音识别技术获取所述各子话段对应的文本数据,将各子话段的情感标签与对应的文本数据线性拼接,并添加所述子话段标识于所述情感标签与所述文本数据之间,得到各子话段的语音识别结果;
测试模块,用于根据所述子话段标识,将所述各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果逐一对比,计数语音识别结果一致的子话段占比,得到已选择应用场景下语音识别结果的准确度。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的方法的步骤。
上述语音识别结果测试方法、装置、计算机设备和存储介质,随机选择任意应用场景下基于预设话术脚本的用户答复语音数据,将用户答复语音数据中用户话段分为多个预设时间长度的子话段,提取各子话段的声学特征,根据声学特征获取各子话段的情感标签,将情感标签与用户答复语音数据线性拼接,并且添加子话段标识,将各个子话段对应的语音识别结果与标准语音识别结果比较,计数语音识别结果一致的子话段占比,可以高效且准确验证已选择应用场景下语音识别结果的准确性。
附图说明
图1为一个实施例中语音识别结果测试方法的流程示意图;
图2为另一个实施例中语音识别结果测试方法的流程示意图;
图3为又一个实施例中语音识别结果测试方法的流程示意图;
图4为一个实施例中语音识别结果测试装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,提供了一种语音识别结果测试方法,包括以下步骤:
S100:随机选择任意应用场景下基于预设话术脚本的用户答复语音数据。
预设话术脚本是基于不同应用场景下编写对话脚本数据,其具体包括问和答两部分数据,其模拟真实环境下客户与业务员(服务人员)之间的对话。非必要的,可以将不同应用场景下的话术脚本归集存储到一个数据库中,在该数据库中存储有不同应用场景下对应的话术脚本。应用场景包括贷款营销、催还款、贷款咨询等。服务器模拟在某一个应用场景下,基于预设话术脚本答复的问答语音数据。具体来说,针对需要验证的应用场景可以构建成一个应用场景集合,在应用场景集合中选择任意一个应用场景作为本轮测试场景。
S200:获取用户答复语音数据中用户话段,将用户话段分为多个预设时间长度的子话段,并分配子话段标识。
服务器对答复语音进行截取,将答复语音中用户话段划分为预设时间长度的子话段。具体的,预设时间长度比较小,例如3-5秒;即将用户话段分为3-5秒长度的子话段。
S300:提取各子话段的声学特征,根据声学特征获取各子话段的情感标签。
声学特征包括声波、信号以及语调等。情感标签包括中立、开心、伤心、生气、惊喜、害怕、厌恶、兴奋等。非必要的,可以设置预设时间间隔的窗口,以固定频率采集声学特征,构成声学特征集,根据声学特征集获取的情感标签。
S400:采用语音识别技术获取各子话段对应的文本数据,将各子话段的情感标签与对应的文本数据线性拼接,并添加子话段标识于情感标签与文本数据之间,得到各子话段的语音识别结果。
以每个子话段作为研究对象,将子话段的情感标签与对应的文本数据线性拼接,这个线性拼接过程可以理解为“+”的过程,即将两部分数据拼凑在一起,另外在两者之间添加子话段标识,以便后续能够准确区分出各子话段的语音识别结果。具体来说,线性拼接的过程可以简单理解为将文本数据拼接情感标签,例如某个子话段对应的文本数据是“可以”,情感标签是“开心”,该子话段标识为A,则得到的语音识别结果为“可以”A“开心”。
S500:根据子话段标识,将各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果逐一对比,计数语音识别结果一致的子话段占比,得到已选择应用场景下语音识别结果的准确度。
标准语音识别结果是基于专家经验数据分析历史话术脚本得出的。其同样可以写入到预设话术脚本数据库中,即在预设话术脚本数据库内存储有话术脚本文件-各子话段对应的标准语音识别结果及其对应关系,在标准语音识别结果中携带有子话段对应文本数据、子话段标识符以及对应的情感标签。每个应用场景对应的预设话术脚本的用户答复语音数据中包括多个子话段,记录比较各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果一致的子话段数量,并且计算这部分子话段数量占整个用户答复语音数据包括子话段的比例,得到该比例即为已选择应用场景下语音识别结果的准确度。例如当前有3个子话段(实际情况远大于这个数量),得到各个子话段的语音识别结果为:你好A开心、不要B中立、再见C厌恶;对应的标准语音识别结果中包括:你好A中立、不要B中立、再见C厌恶,则得到已选择应用场景下语音识别结果的准确度为66.7%。非必要的,在测试完当前已选择应用场景下语音识别以及情感标签准确度之后,可以重新选择新的应用场景进行验证,重复上述语音识别结果测试过程。
上述语音识别结果测试方法,随机选择任意应用场景下基于预设话术脚本的用户答复语音数据,将用户答复语音数据中用户话段分为多个预设时间长度的子话段,提取各子话段的声学特征,根据声学特征获取各子话段的情感标签,将情感标签与用户答复语音数据线性拼接,并且添加子话段标识,将各个子话段对应的语音识别结果与标准语音识别结果比较,计数语音识别结果一致的子话段占比,可以高效且准确验证已选择应用场景下语音识别结果的准确性。
如图2所示,在其中一个实施例中,步骤S300包括:
S320:提取各子话段的声学特征。
S340:将提取的声学特征输入已训练的基于深度学习的神经网络模型,得到情感标签。
声学特征进一步可以归类为时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征,在已训练的基于深度学习的神经网络模型中,训练得到有上述特征以及对应情感标签之间对应关系。
如图3所示,在其中一个实施例中,步骤S300还包括:
S312:获取不同情感标签对应的答复语音样本数据。
S314:提取答复语音样本数据中时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征。
S316:将答复语音样本数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征作为训练数据,训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型。
当需要获取情感标签时,将提取的声学特征数据输入至上述情感标签识别模型,得到句子对应的情感标签,将情感标签与答复的语音数据整合,即得到语音识别结果。
在其中一个实施例中,训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型包括:提取训练数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;根据提取的特征数据训练基于深度学习的神经网络中的卷积神经网络部分学习的局部情感标签;通过卷积神经网络中的循环神经网络部分、对局部情感标签进行抽象,并通过基于深度学习的神经网络中池化层学习到全局情感标签,得到已训练的基于深度学习的神经网络模型。
在其中一个实施例中,提取各子话段的声学特征,根据声学特征获取各子话段的情感标签包括:根据提取各子话段的声学特征以及预设情感标签对应的声学特征定性分析表,得到情感标签;其中,预设情感标签对应的声学特征定性分析表中携带有情感标签、声学特征以及不同情感标签对应声学特征的定性分析区间数据,声学特征包括语速、平均基频、基频范围、强度、音质、基频变化以及清晰度。
不同情感标枪对应不同声学特征的定性分析区间,定性分析区间具体可以是根据声学特征类型预先划分几个区间值,例如针对语速,可以划分为很快、稍快、稍慢、较快或较慢、非常慢。更具体来说,针对待选情感标签对应的包括语速、平均基频、基频范围、强度、音质、基频变化以及清晰度情况定性分析,得到定性分析结果,根据当前提取的各子话段的声学特征以及对应的定性分析结果得到,情感标签。进一步的,可以根据不同情感标签对应的定性分析结果分别构建情感标签特征模板,当需要进行情感标签识别时,将采集到的特征与情感标签特征模板匹配,确定情感标签。在实际应用中,定性分析包括:语速设定为很快、稍快、稍慢、较快或较慢、非常慢,其具体可以根据历史样本数据,获取不同情感标签对应的单位时间内平均词语个数,根据不同情感标签对应的单位时间内平均词语个数以及不同情感标签对应语速相对大小关系,设定不同情感标签定性判定对应的单位时间内词语个数区间。下述针对平均基频、基频范围、强度、音质、基频变化以及清晰度的判定都可以采用上述类似基于样本数据以及相对关系划设定性判定区间的方式实现平均基准基于采集的声音数据进行分析,其定性分析程度包括非常高、非常高、稍低、很高、非常低;基频范围包括很宽、稍窄;强度包括正常、较高、较低;音质包括:不规则、带呼吸声、引起共鸣的、带呼吸声响亮、嘟嚷;基频变化包括:正常、重读音节突变、向下变形、平滑向上变形、向下变到极点;清晰度包括:精确的、紧张的、不清楚的、正常、正常。其具体如下表格:
Figure BDA0002140470220000081
在其中一个实施例中,验证已选择应用场景下语音识别以及情感标签准确性之后,还包括:延时预设时间,返回随机选择任意应用场景下基于预设话术脚本的用户答复语音数据的步骤。
在进行常规环境的下语音识别测试之外,还可以针对性进行噪声换将下语音测试,其具体可以采集已选择应用场景中在噪声环境下基于预设话术脚本的用户答复语音数据,将采集的用户答复语音数据作为检测参数重复上述测试过程,得到噪声环境下的语音识别测试。进一步的,还可以测试远距离条件下语音识别效果,其同样只需将远距离条件下采集的用户答复语音数据作为测试数据,重复上述测试过程实现。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行
如图4所示,一种语音识别结果测试装置,装置包括:
数据获取模块100,用于随机选择任意应用场景下基于预设话术脚本的用户答复语音数据;
划分模块200,用于获取用户答复语音数据中用户话段,将用户话段分为多个预设时间长度的子话段,并分配子话段标识;
特征提取模块300,用于提取各子话段的声学特征,根据声学特征获取各子话段的情感标签;
拼接组合模块400,用于采用语音识别技术获取各子话段对应的文本数据,将各子话段的情感标签与对应的文本数据线性拼接,并添加子话段标识于情感标签与文本数据之间,得到各子话段的语音识别结果;
测试模块500,用于根据子话段标识,将各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果逐一对比,计数语音识别结果一致的子话段占比,得到已选择应用场景下语音识别结果的准确度。
上述语音识别结果测试装置,随机选择任意应用场景下基于预设话术脚本的用户答复语音数据,将用户答复语音数据中用户话段分为多个预设时间长度的子话段,提取各子话段的声学特征,根据声学特征获取各子话段的情感标签,将情感标签与用户答复语音数据线性拼接,并且添加子话段标识,将各个子话段对应的语音识别结果与标准语音识别结果比较,计数语音识别结果一致的子话段占比,可以高效且准确验证已选择应用场景下语音识别结果的准确性。
在其中一个实施例中,特征提取模块300还用于提取各子话段的声学特征;将提取的声学特征输入已训练的基于深度学习的神经网络模型,得到情感标签。
在其中一个实施例中,特征提取模块300还用于获取不同情感标签对应的答复语音样本数据;提取答复语音样本数据中时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;将答复语音样本数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征作为训练数据,训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型。
在其中一个实施例中,特征提取模块300还用于提取训练数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;根据提取的特征数据训练神经网络中的卷积神经网络部分学习的局部情感标签;通过卷积神经网络中的循环神经网络部分、对局部情感标签进行抽象,并通过基于深度学习的神经网络中池化层学习到全局情感标签,得到已训练的基于深度学习的神经网络模型。
在其中一个实施例中,特征提取模块600还用于根据提取各子话段的声学特征以及预设情感标签对应的语音特征定性分析结果,得到情感标签;其中,预设情感标签对应的声学特征定性分析表中携带有情感标签、声学特征以及不同情感标签对应声学特征的定性分析区间数据,声学特征包括语速、平均基频、基频范围、强度、音质、基频变化以及清晰度。
在其中一个实施例中,上述语音识别结果测试装置还包括循环测试模块,用于延时预设时间,控制数据获取模块100、划分模块200、特征提取模块300、识别结果组合模块400以及比较测试模块500执行对应操作。
关于语音识别结果测试装置的具体限定可以参见上文中对于语音识别结果测试方法的限定,在此不再赘述。上述语音识别结果测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设话术脚本以及历史专家数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别结果测试方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
随机选择任意应用场景下基于预设话术脚本的用户答复语音数据;
获取用户答复语音数据中用户话段,将用户话段分为多个预设时间长度的子话段,并分配子话段标识;
提取各子话段的声学特征,根据声学特征获取各子话段的情感标签;
采用语音识别技术获取各子话段对应的文本数据,将各子话段的情感标签与对应的文本数据线性拼接,并添加子话段标识于情感标签与文本数据之间,得到各子话段的语音识别结果;
根据子话段标识,将各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果逐一对比,计数语音识别结果一致的子话段占比,得到已选择应用场景下语音识别结果的准确度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
提取各子话段的声学特征;将提取的声学特征输入已训练的基于深度学习的神经网络模型,得到情感标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取不同情感标签对应的答复语音样本数据;提取答复语音样本数据中时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;将答复语音样本数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征作为训练数据,训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
提取训练数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;根据提取的特征数据训练基于深度学习的神经网络中的卷积神经网络部分学习的局部情感标签;通过卷积神经网络中的循环神经网络部分、对局部情感标签进行抽象,并通过基于深度学习的神经网络中池化层学习到全局情感标签,得到已训练的基于深度学习的神经网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据提取各子话段的声学特征以及预设情感标签对应的声学特征定性分析表,得到情感标签;其中,预设情感标签对应的声学特征定性分析表中携带有情感标签、声学特征以及不同情感标签对应声学特征的定性分析区间数据,声学特征包括语速、平均基频、基频范围、强度、音质、基频变化以及清晰度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
延时预设时间,返回随机选择任意应用场景下基于预设话术脚本的用户答复语音数据的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
随机选择任意应用场景下基于预设话术脚本的用户答复语音数据;
获取用户答复语音数据中用户话段,将用户话段分为多个预设时间长度的子话段,并分配子话段标识;
提取各子话段的声学特征,根据声学特征获取各子话段的情感标签;
采用语音识别技术获取各子话段对应的文本数据,将各子话段的情感标签与对应的文本数据线性拼接,并添加子话段标识于情感标签与文本数据之间,得到各子话段的语音识别结果;
根据子话段标识,将各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果逐一对比,计数语音识别结果一致的子话段占比,得到已选择应用场景下语音识别结果的准确度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
提取各子话段的声学特征;将提取的声学特征输入已训练的基于深度学习的神经网络模型,得到情感标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取不同情感标签对应的答复语音样本数据;提取答复语音样本数据中时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;将答复语音样本数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征作为训练数据,训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
提取训练数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;根据提取的特征数据训练基于深度学习的神经网络中的卷积神经网络部分学习的局部情感标签;通过卷积神经网络中的循环神经网络部分、对局部情感标签进行抽象,并通过基于深度学习的神经网络中池化层学习到全局情感标签,得到已训练的基于深度学习的神经网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据提取各子话段的声学特征以及预设情感标签对应的声学特征定性分析表,得到情感标签;其中,预设情感标签对应的声学特征定性分析表中携带有情感标签、声学特征以及不同情感标签对应声学特征的定性分析区间数据,声学特征包括语速、平均基频、基频范围、强度、音质、基频变化以及清晰度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
延时预设时间,返回随机选择任意应用场景下基于预设话术脚本的用户答复语音数据的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音识别结果测试方法,所述方法包括:
随机选择任意应用场景下基于预设话术脚本的用户答复语音数据;
获取所述用户答复语音数据中用户话段,将所述用户话段分为多个预设时间长度的子话段,并分配子话段标识;
提取各子话段的声学特征,根据声学特征获取各子话段的情感标签;
采用语音识别技术获取所述各子话段对应的文本数据,将各子话段的情感标签与对应的文本数据线性拼接,并添加所述子话段标识于所述情感标签与所述文本数据之间,得到各子话段的语音识别结果;根据所述子话段标识,将所述各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果逐一对比,计数语音识别结果一致的子话段占比,得到已选择应用场景下语音识别结果的准确度。
2.根据权利要求1所述的方法,其特征在于,所述提取各子话段的声学特征,根据声学特征获取各子话段的情感标签包括:
提取各子话段的声学特征;
将提取的声学特征输入已训练的基于深度学习的神经网络模型,得到情感标签。
3.根据权利要求2所述的方法,其特征在于,还包括:
获取不同情感标签对应的答复语音样本数据;
提取所述答复语音样本数据中时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;
将所述答复语音样本数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征作为训练数据,训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型。
4.根据权利要求3所述的方法,其特征在于,所述训练基于深度学习的神经网络模型,得到已训练的基于深度学习的神经网络模型包括:
提取所述训练数据中情感标签以及对应的时间构造特征、振幅构造特征、基频构造特征以及共振峰构造特征;
根据提取的特征数据训练基于深度学习的神经网络中的卷积神经网络部分、学习的局部情感标签;
通过卷积神经网络中的循环神经网络部分、对所述局部情感标签进行抽象,并通过基于深度学习的神经网络中池化层学习到全局情感标签,得到已训练的基于深度学习的神经网络模型。
5.根据权利要求1所述的方法,其特征在于,所述提取各子话段的声学特征,根据声学特征获取各子话段的情感标签包括:
根据提取各子话段的声学特征以及预设情感标签对应的声学特征定性分析表,得到情感标签;
其中,所述预设情感标签对应的声学特征定性分析表中携带有情感标签、声学特征以及不同情感标签对应声学特征的定性分析区间数据,所述声学特征包括语速、平均基频、基频范围、强度、音质、基频变化以及清晰度。
6.根据权利要求1所述的方法,其特征在于,所述得到已选择应用场景下语音识别结果的准确度之后,还包括:
延时预设时间,返回所述随机选择任意应用场景下基于预设话术脚本的用户答复语音数据的步骤。
7.一种语音识别结果测试装置,其特征在于,所述装置包括:
数据获取模块,用于随机选择任意应用场景下基于预设话术脚本的用户答复语音数据;
划分模块,用于获取所述用户答复语音数据中用户话段,将所述用户话段分为多个预设时间长度的子话段,并分配子话段标识;
特征提取模块,用于提取各子话段的声学特征,根据声学特征获取各子话段的情感标签;
拼接组合模块,用于采用语音识别技术获取所述各子话段对应的文本数据,将各子话段的情感标签与对应的文本数据线性拼接,并添加所述子话段标识于所述情感标签与所述文本数据之间,得到各子话段的语音识别结果;
测试模块,用于根据所述子话段标识,将所述各子话段的语音识别结果与已选择应用场景下预设标准语音识别结果中携带的各子话段的语音识别结果逐一对比,计数语音识别结果一致的子话段占比,得到已选择应用场景下语音识别结果的准确度。
8.根据权利要求7所述的装置,其特征在于,所述特征提取模块还用于提取各子话段的声学特征,将提取的声学特征输入已训练的基于深度学习的神经网络模型,得到情感标签。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910667054.6A 2019-07-23 2019-07-23 语音识别结果测试方法、装置、计算机设备和介质 Active CN110556098B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910667054.6A CN110556098B (zh) 2019-07-23 2019-07-23 语音识别结果测试方法、装置、计算机设备和介质
PCT/CN2019/116960 WO2021012495A1 (zh) 2019-07-23 2019-11-11 语音识别结果测试方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910667054.6A CN110556098B (zh) 2019-07-23 2019-07-23 语音识别结果测试方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN110556098A CN110556098A (zh) 2019-12-10
CN110556098B true CN110556098B (zh) 2023-04-18

Family

ID=68735961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910667054.6A Active CN110556098B (zh) 2019-07-23 2019-07-23 语音识别结果测试方法、装置、计算机设备和介质

Country Status (2)

Country Link
CN (1) CN110556098B (zh)
WO (1) WO2021012495A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021134550A1 (zh) * 2019-12-31 2021-07-08 李庆远 多个语音识别输出的人类合并和训练
CN111522943A (zh) * 2020-03-25 2020-08-11 平安普惠企业管理有限公司 逻辑节点的自动化测试方法、装置、设备及存储介质
CN112349290B (zh) * 2021-01-08 2021-04-20 北京海天瑞声科技股份有限公司 一种基于三元组的语音识别准确率计算方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
CN104464757B (zh) * 2014-10-28 2019-01-18 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN105741832B (zh) * 2016-01-27 2020-01-07 广东外语外贸大学 一种基于深度学习的口语评测方法和***
US9870765B2 (en) * 2016-06-03 2018-01-16 International Business Machines Corporation Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
CN107767881B (zh) * 2016-08-15 2020-08-18 ***通信有限公司研究院 一种语音信息的满意度的获取方法和装置
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试***及方法
CN108538296A (zh) * 2017-03-01 2018-09-14 广东神马搜索科技有限公司 语音识别测试方法及测试终端
CN107086040B (zh) * 2017-06-23 2021-03-02 歌尔股份有限公司 语音识别能力测试方法和装置
CN107452404A (zh) * 2017-07-31 2017-12-08 哈尔滨理工大学 语音情感识别的优选方法
CN108777141B (zh) * 2018-05-31 2022-01-25 康键信息技术(深圳)有限公司 测试装置、测试的方法及存储介质
CN109272993A (zh) * 2018-08-21 2019-01-25 中国平安人寿保险股份有限公司 语音类别的识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2021012495A1 (zh) 2021-01-28
CN110556098A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN110781916B (zh) 视频数据的欺诈检测方法、装置、计算机设备和存储介质
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN110120224B (zh) 鸟声识别模型的构建方法、装置、计算机设备及存储介质
WO2020177380A1 (zh) 基于短文本的声纹检测方法、装置、设备及存储介质
Shahin et al. Novel cascaded Gaussian mixture model-deep neural network classifier for speaker identification in emotional talking environments
CN110556098B (zh) 语音识别结果测试方法、装置、计算机设备和介质
US10573307B2 (en) Voice interaction apparatus and voice interaction method
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN111311327A (zh) 基于人工智能的服务评价方法、装置、设备及存储介质
CN109087667B (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
CN111597818B (zh) 呼叫质检方法、装置、计算机设备和计算机可读存储介质
CN109272993A (zh) 语音类别的识别方法、装置、计算机设备和存储介质
CN111080109A (zh) 客服服务质量评价方法、装置及电子设备
CN111182162A (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN110797032B (zh) 一种声纹数据库建立方法及声纹识别方法
CN111145733A (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN112863489B (zh) 语音识别方法、装置、设备及介质
CN110136726A (zh) 一种语音性别的估计方法、装置、***及存储介质
CN112232276A (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
Heracleous et al. Speech emotion recognition in noisy and reverberant environments
CN111522937A (zh) 话术推荐方法、装置和电子设备
CN111565254B (zh) 通话数据质检方法、装置、计算机设备和存储介质
Szekrényes et al. Classification of formal and informal dialogues based on turn-taking and intonation using deep neural networks
Poorjam et al. Quality control in remote speech data collection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant