CN112468658B - 语音质量检测方法、装置、计算机设备及存储介质 - Google Patents
语音质量检测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112468658B CN112468658B CN202011310497.9A CN202011310497A CN112468658B CN 112468658 B CN112468658 B CN 112468658B CN 202011310497 A CN202011310497 A CN 202011310497A CN 112468658 B CN112468658 B CN 112468658B
- Authority
- CN
- China
- Prior art keywords
- quality inspection
- text data
- corpus
- layer
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2227—Quality of service monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5175—Call or contact centers supervision arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例属于人工智能领域,涉及一种语音质量检测方法,包括获取待检测语音文件的文本数据和预设的违规语料,基于预设判别模型计算得到所述文本数据和所述违规语料的语义相似度;将所述语义相似度大于等于预设阈值的文本数据作为可疑数据,获取当前所述可疑数据对应的节点信息字段,根据所述节点信息字段确定所述可疑数据对应的质检点;获取所述质检点对应的配置字典,根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果。本申请还提供一种语音质量检测装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,所述质检结果可存储于区块链中。本申请实现了对语音质量的高效检测。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音质量检测方法、装置、计算机设备及存储介质。
背景技术
语音质量检测是应用于各个数据传输平台的一个重要监管***,通过对语音进行质量检测可以减少违规数据的传输,从而使得语音数据在传输的过程中更加安全可靠。
传统的语音质量检测往往需要投入大量人力,主要采用通过人工听录音的方式针对语音数据是否违规进行判断。然而,由于存在多个质检点,并且每个质检点均需要进行质量检测,在对同一类质检项目进行检测时,同一类的质检项目中又往往存在复杂且详细的判定规则。因此,在对语音进行质量检测时通常需要耗费巨大的人力和物力对语音文本进行记忆与分析,最终容易导致语音质量检测效率低下的问题。
发明内容
本申请实施例的目的在于提出一种语音质量检测方法、装置、计算机设备及存储介质,以解决语音质量检测效率低下的技术问题。
为了解决上述技术问题,本申请实施例提供一种语音质量检测方法,采用了如下所述的技术方案:
获取待检测语音文件的文本数据和预设的违规语料,基于预设判别模型计算得到所述文本数据和所述违规语料的语义相似度;
将所述语义相似度大于等于预设阈值的文本数据作为可疑数据,获取当前所述可疑数据对应的节点信息字段,根据所述节点信息字段确定所述可疑数据对应的质检点;
获取所述质检点对应的配置字典,根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果。
进一步的,所述预设判别模型包括编码特征层、双向长短期记忆网络层、池化层、降拟合层和全连接层,所述基于预设判别模型计算得到所述文本数据与违规语料的语义相似度的步骤具体包括:
将所述文本数据和所述违规语料通过映射字符编码、注意力掩码和位置编码,得到对应的第一向量、第二向量和第三向量;
将所述第一向量、所述第二向量和所述第三向量叠加得到输入向量,输入所述输入向量至所述编码特征层,经过所述双向长短期记忆网络层、所述池化层、所述降拟合层和所述全连接层,输出得到所述文本数据与所述违规语料的语义相似度。
进一步的,所述键值包括第一类别键值和第二类别键值,所述根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果的步骤具体包括:
获取所述可疑数据的字段信息,在所述字段信息与所述第一类别键值下的检测字段匹配成功,且所述字段信息与所述第二类别键值下的检测字段完全不匹配时,确定所述可疑数据为合规信息;
在所述字段信息与所述第二类别键值下的检测字段匹配成功时,确定所述可疑数据为违规信息。
进一步的,在所述根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果的步骤之后还包括:
在所述可疑数据存在多个不同类别的质检点时,获取所有所述质检点的质检结果;
根据所述质检结果计算所述可疑数据的质检评分,根据所述质检评分和所述质检结果生成所述可疑数据的质检评价表。
进一步的,在所述基于预设判别模型计算得到所述文本数据与所述违规语料的语义相似度的步骤之前还包括:
获取公开文本数据集和违规场景语料库中的语料集;
根据所述公开文本数据集和所述语料集,计算所述基础判别模型的损失函数,在所述损失函数收敛时,确定所述基础判别模型为所述预设判别模型。
进一步的,所述根据所述公开文本数据集和所述语料集,计算所述基础判别模型的损失函数的步骤具体包括:
将所述公开文本数据集和所述语料集输入至所述基础判别模型中,计算得到训练语义相似度;
获取所述公开文本数据集和所述语料集的标准语义相似度,根据所述训练语义相似度和所述标准语义相似度计算得到所述基础判别模型的损失函数。
进一步的,在所述根据所述公开文本数据集和所述语料集对基础判别模型进行训练的步骤之前还包括:
获取预设迁移模型,将所述预设迁移模型的序列输出层作为所述基础判别模型的初始编码特征层;
连接所述初始编码特征层、初始双向长短期记忆网络层、初始池化层、初始降拟合层和初始全连接层,得到所述基础判别模型的基础网络。
为了解决上述技术问题,本申请实施例还提供一种语音质量检测装置,采用了如下所述的技术方案:
计算模块,用于获取待检测语音文件的文本数据和预设的违规语料,基于预设判别模型计算得到所述文本数据和所述违规语料的语义相似度;
确认模块,用于将所述语义相似度大于等于预设阈值的文本数据作为可疑数据,获取当前所述可疑数据对应的节点信息字段,根据所述节点信息字段确定所述可疑数据对应的质检点;
检测模块,用于获取所述质检点对应的配置字典,根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述语音质量检测方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述语音质量检测方法的步骤。
上述语音质量检测方法,通过获取待检测语音文件的文本数据和预设的违规语料,基于预设判别模型计算得到文本数据和违规语料的语义相似度,通过预设判别模型可以对文本数据的语义相似度进行自动化判断;而后,将语义相似度大于等于预设阈值的文本数据作为可疑数据,获取当前可疑数据对应的节点信息字段,根据节点信息字段确定可疑数据对应的质检点,通过质检点对可疑数据进行进一步检测,避免数据质量检测的误差,确保了能够对语音质量进行精确检测;之后,获取质检点对应的配置字典,根据配置字典中配置的键值对可疑数据进行检测得到质检结果,实现了对语音数据质量的自动化智能检测,提高了语音数据质量的效率,以及对语音数据判别的准确率,避免了语音违规数据的出现,规范了在智能客服中语音数据的使用。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2根据本申请的语音质量检测方法的一个实施例的流程图;
图3是根据本申请的语音质量检测装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:语音质量检测装置300、计算模块301、确认模块302、检测模块303。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的语音质量检测方法一般由服务器/终端设备执行,相应地,语音质量检测装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的语音质量检测的方法的一个实施例的流程图。所述的语音质量检测方法,包括以下步骤:
步骤S201,获取待检测语音文件的文本数据和预设的违规语料,基于预设判别模型计算得到所述文本数据和所述违规语料的语义相似度;
在本实施例中,获取待检测语音文件的文本数据和违规语料,即在获取到待检测语音文件后,将待检测语音文件转换为文本数据,同时获取预先存储的违规语料。基于预设判别模型对该文本数据与违规语料的语义相似度进行确定,其中,预设判别模型为预先设定的语义相似度判别模型。该预设判别模型采用bert-base模型作为预设迁移模型,将该预设迁移模型的序列输出层作为当前预设判别模型的编码特征层其中,bert-base模型为Bert(Bidirectional Encoder Representationsfrom Transformers,基于转换器的双向编码表征)中的基础模型。在得到文本数据和违规语料时,将输入的文本数据和违规语料通过编码得到输入向量,将该输入向量输入至当前预设判别模型的编码特征层,之后通过与该编码特征层连接的双向长短期记忆网络层,平均池化层、最大池化层、降拟合层和全连接层,输出得到当前文本数据和违规语料的语义相似度。
步骤S202,将所述语义相似度大于等于预设阈值的文本数据作为可疑数据,获取当前所述可疑数据对应的节点信息字段,根据所述节点信息字段确定所述可疑数据对应的质检点;
在本实施例中,在得到当前文本数据和违规语料的语义相似度时,将该语义相似度大于等于预设阈值的文本数据作为可疑数据。获取该可疑数据的节点信息字段,其中,该节点信息字段为当前可疑数据所处的流程节点的字段信息,根据该节点信息字段可以确定当前可疑数据关联的质检点。不同的节点信息字段可能对应不同的质检点,不同的质检点则对应有不同的质检条件。在得到可疑数据对应的节点信息字段时,获取与当前该节点信息字段关联的质检点,根据该质检点可以对可疑数据进行检测。
步骤S203,获取所述质检点对应的配置字典,根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果。
在本实施例中,在得到可疑数据对应的质检点时,获取该质检点对应的配置字典,每个不同的质检点配置有不同的配置字典。根据该配置字典对该可疑数据进行检测,即可得到质检结果。具体地,每个质检点均配置有键值,如“must_no”和“must_have”,不同类别的键值下则包括不同的检测字段。将每个键值下的检测字段与可疑数据的字段信息进行匹配,即可得到当前该可疑数据在该质检点下的质检结果,该质检结果即反映当前可疑数据是否为违规信息。其中,在该可疑数据的字段信息与禁止匹配类别下的键值的检测字段匹配成功时,即确定该可疑数据为违规信息;当前待检测语音文件的文本数据的质检结果即为确定待检测语音文件为违规信息。
需要强调的是,为进一步保证上述质检结果的私密和安全性,上述质检结果还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例实现了对语音数据质量的自动化智能检测,提高了语音数据质量的效率,以及对语音数据判别的准确率,避免了语音违规数据的出现,规范了在智能客服中语音数据的使用。
在本申请的一些实施例中,上述预设判别模型包括编码特征层、双向长短期记忆网络层、池化层、降拟合层和全连接层,上述基于预设判别模型计算得到所述文本数据和所述违规语料的语义相似度包括:
将所述文本数据和所述违规语料通过映射字符编码、注意力掩码和位置编码,得到对应的第一向量、第二向量和第三向量;
将所述第一向量、所述第二向量和所述第三向量叠加得到输入向量,输入所述输入向量至所述编码特征层,经过所述双向长短期记忆网络层、所述池化层、所述降拟合层和所述全连接层,输出得到所述文本数据与所述违规语料的语义相似度。
在本实施例中,在得到文本数据时,将该文本数据和违规语料同时通过映射字符编码、注意力掩码和位置编码得到对应的第一向量、第二向量和第三向量。其中,映射字符编码为将文本数据和违规语料中的词转换为固定维的向量表示形式,将该文本数据和违规语料通过映射字符编码得到第一向量;注意力掩码为将文本数据和违规语料进行只有两个词的词源进行编码,以此区分文本数据中的词和违规语料中的词,将该文本数据和违规语料通过注意力掩码得到第二向量;位置编码为文本数据和违规语料中词出现的位置进行编码,将该文本数据和违规语料通过位置编码得到第三向量。对该第一向量、第二向量和第三向量进行叠加,得到输入向量。输入该输入向量至预设判别模型的编码特征层中,将前一层网络的输出作为下一层网络的输入,按照编码特征层、双向长短期记忆网络层、池化层、降拟合层和全连接层的顺序,输出得到文本数据与违规语料的语义相似度。
本实施例通过预设判别模型对文本数据与违规语料的语义相似度进行判断,实现了对文本数据的精确判断,进一步提高了语音数据质检的效率和准确率。
在本申请的一些实施例中,上述键值包括第一类别键值和第二类别键值,所述根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果包括:
获取所述可疑数据的字段信息,在所述字段信息与所述第一类别键值下的检测字段匹配成功,且所述字段信息与所述第二类别键值下的检测字段完全不匹配时,确定所述可疑数据为合规信息;
在所述字段信息与所述第二类别键值下的检测字段匹配成功时,确定所述可疑数据为违规信息。
在本实施例中,配置字典中的键值可以分为第一类别键值和第二类别键值,其中,第一类别键值表示该第一类别键值下的检测字段为合规字段,第二类别键值表示该第二类别键值下的检测字段为违规字段。同时将该可疑数据的字段信息与该第一类别键值下的检测字段和第二类别键值下的检测字段进行匹配;若可疑数据的字段信息与该第一类别键值下的任一检测字段匹配成功,即确定该可疑数据的字段信息与该第一类别键值下的检测字段匹配成功,并且,该可疑数据的字段信息与第二类别键值下的检测字段完全不匹配,则确定该可疑数据为合规信息;而若该可疑数据的字段信息与该第二类别键值下的检测字段匹配成功,即若该可疑数据的字段信息与该第二类别键值下的任一检测字段匹配成功,则确定该可疑数据为违规信息;若该可疑数据的字段信息与该第一类别键值和第二类别键值下的检测字段均不匹配,则确定该可疑数据为无效信息。
本实施例通过对可疑数据进行匹配判断,实现了对可疑数据是否为违规信息的进一步精确判断,确保了语音数据质检的准确率,避免了语音数据质检结果可能存在的误差。
在本申请的一些实施例中,在上述根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果之后还包括:
在所述可疑数据存在多个不同类别的质检点时,获取所有所述质检点的质检结果;
根据所述质检结果计算所述可疑数据的质检评分,根据所述质检评分和所述质检结果生成所述可疑数据的质检评价表。
在本实施例中,每个可疑数据可能同时存在多个不同类别的质检点,在该可疑数据存在多个不同类别的质检点时,获取所有质检点的质检结果,以及质检结果对应的评级分数。其中,评级分数与质检结果存在映射关系表,根据映射关系表可以获取到当前质检结果对应的评级分数,不同的质检结果可能对应有不同的评级分数。在得到质检结果对应的评级分数时,将可疑数据对应的所有质检点的类别的权重分值,与质检点的评级分数进行加权求和,最终计算得到可疑分数的质检评分。根据该质检评分和质检结果即可生成该可疑数据的质检评价表。
本实施例通过质检结果得到质检评价表,实现了在语音数据存在多个质检点时,对语音数据的总质检情况的精确获取,使得通过质检评价表能够快速了解到当前语音数据的质检情况。
在本申请的一些实施例中,在上述基于预设判别模型计算得到所述文本数据与所述违规语料的语义相似度之前还包括:
获取公开文本数据集和违规场景语料库中的语料集;
根据所述公开文本数据集和所述语料集,计算所述基础判别模型的损失函数,在所述损失函数收敛时,确定所述基础判别模型为所述预设判别模型。
在本实施例中,在通过预设判别模型对文本数据进行检测之前,还需要获取公开文本数据集和违规场景语料库中的语料集,根据该公开文本数据集和该语料集对基础判别模型进行训练,得到预设判别模型。具体地,公开文本数据集为采集得到的语音文本数据集,违规场景语料库中的语料集为采集得到的违规语料数据集;根据余弦相似度计算公开文本数据集中数据和语料集中数据的语义相似度,将该语义相似度作为标准语义相似度。根据该标准语义相似度对基础判别模型进行训练,即调整该基础判别模型的参数;在根据参数调整后的基础判别模型计算得到的损失函数收敛时,确定该基础判别模型训练完成,该训练完成的基础判别模型即为预设判别模型。
本实施例通过对基础判别模型进行预先的训练,使得通过训练得到的预设判别模型能够对语音数据的文本数据进行快速而精确地判断,进一步实现了对语音数据质量的自动化检测。
在本申请的一些实施例中,上述根据所述公开文本数据集和所述语料集,计算所述基础判别模型的损失函数包括:
将所述公开文本数据集和所述语料集输入至所述基础判别模型中,计算得到训练语义相似度;
获取所述公开文本数据集和所述语料集的标准语义相似度,根据所述训练语义相似度和所述标准语义相似度计算得到所述基础判别模型的损失函数。
在本实施例中,在得到公开文本数据集和语料集时,计算公开文本数据集中数据与语料集中数据的标准语义相似度,该标准语义相似度可通过计算公开文本数据集中数据的词向量与语料集中数据的词向量之间的余弦相似度计算得到。同时,基于基础判别模型计算得到的公开文本数据集中数据与语料集中数据的训练语义相似度,根据该训练语义相似度和标准语义相似度计算得到基础判别模型的损失函数;在该损失函数收敛时,则确定该基础判别模型训练完成,得到训练完成的基础判别模型即为预设判别模型。
本实施例通过对基础判别模型进行训练,提高了预设判别模型的处理精度,使得通过预设判别模型能够对文本数据进行精确判断。
在本申请的一些实施例中,在上述根据所述公开文本数据集和所述语料集对基础判别模型进行训练之前还包括:
获取预设迁移模型,将所述预设迁移模型的序列输出层作为所述基础判别模型的初始编码特征层;
连接所述初始编码特征层、初始双向长短期记忆网络层、初始池化层、初始降拟合层和初始全连接层,得到所述基础判别模型的基础网络。
在本实施例中,基础判别模型的基础网络由初始编码特征层、初始双向长短期记忆网络层、初始池化层、初始降拟合层和初始全连接层构成。获取预设迁移模型,其中,该预设迁移模型采用公开的bert-base模型,其中,bert-base为12个注意力头、12隐藏层的网络结构。将该预设迁移模型的序列输出层作为基础判别模型的初始编码特征层,在得到文本数据时,则将该初始编码特征层作为该文本数据的输入层。依次连接该初始编码特征层、初始双向长短期记忆网络层、初始池化层、初始降拟合层和初始全连接层即得到该基础判别模型的基础网络。其中,初始池化层包括平均池化层和最大池化层,将该平均池化层和该最大池化层进行拼接,即得到初始池化层;初始降拟合层则采用dropout算法,通过dropout算法可以防止模型过拟合。除此之外,该基础判别模型的初始编码特征层、初始双向长短期记忆网络层、初始池化层、初始降拟合层和初始全连接层,与训练之后得到的预设判别模型中的编码特征层、双向长短期记忆网络层、池化层、降拟合层和全连接层的结构相同,但参数不同。
本实施例通过对预设迁移模型的序列输出层进行抽取,并将该序列输出层作为基础判别模型的编码特征层,完善了模型的结构,提高了模型的泛化能力和数据处理能力。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种语音质量检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的语音质量检测装置300包括:计算模块301、确认模块302、检测模块303。其中:
计算模块301,用于获取待检测语音文件的文本数据和预设的违规语料,基于预设判别模型计算得到所述文本数据和所述违规语料的语义相似度;
其中,所述预设判别模型包括编码特征层、双向长短期记忆网络层、池化层、降拟合层和全连接层,所述计算模块301包括:
编码单元,用于将所述文本数据和所述违规语料通过映射字符编码、注意力掩码和位置编码,得到对应的第一向量、第二向量和第三向量;
判别单元,用于将所述第一向量、所述第二向量和所述第三向量叠加得到输入向量,输入所述输入向量至所述编码特征层,经过所述双向长短期记忆网络层、所述池化层、所述降拟合层和所述全连接层,输出得到所述文本数据与所述违规语料的语义相似度。
在本实施例中,获取待检测语音文件的文本数据和违规语料,即在获取到待检测语音文件后,将待检测语音文件转换为文本数据,同时获取预先存储的违规语料。基于预设判别模型对该文本数据与违规语料的语义相似度进行确定,其中,预设判别模型为预先设定的语义相似度判别模型。该预设判别模型采用bert-base模型作为预设迁移模型,将该预设迁移模型的序列输出层作为当前预设判别模型的编码特征层其中,bert-base模型为Bert(Bidirectional Encoder Representationsfrom Transformers,基于转换器的双向编码表征)中的基础模型。在得到文本数据和违规语料时,将输入的文本数据和违规语料通过编码得到输入向量,将该输入向量输入至当前预设判别模型的编码特征层,之后通过与该编码特征层连接的双向长短期记忆网络层,平均池化层、最大池化层、降拟合层和全连接层,输出得到当前文本数据和违规语料的语义相似度。
确认模块302,用于将所述语义相似度大于等于预设阈值的文本数据作为可疑数据,获取当前所述可疑数据对应的节点信息字段,根据所述节点信息字段确定所述可疑数据对应的质检点;
在本实施例中,在得到当前文本数据和违规语料的语义相似度时,将该语义相似度大于等于预设阈值的文本数据作为可疑数据。获取该可疑数据的节点信息字段,其中,该节点信息字段为当前可疑数据所处的流程节点的字段信息,根据该节点信息字段可以确定当前可疑数据关联的质检点。不同的节点信息字段可能对应不同的质检点,不同的质检点则对应有不同的质检条件。在得到可疑数据对应的节点信息字段时,获取与当前该节点信息字段关联的质检点,根据该质检点可以对可疑数据进行检测。
检测模块303,用于获取所述质检点对应的配置字典,根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果。
其中,所述键值包括第一类别键值和第二类别键值,所述检测模块303包括:
匹配单元,用于获取所述可疑数据的字段信息,在所述字段信息与所述第一类别键值下的检测字段匹配成功,且所述字段信息与所述第二类别键值下的检测字段完全不匹配时,确定所述可疑数据为合规信息;
第一确认单元,用于在所述字段信息与所述第二类别键值下的检测字段匹配成功时,确定所述可疑数据为违规信息。
在本实施例中,在得到可疑数据对应的质检点时,获取该质检点对应的配置字典,每个不同的质检点配置有不同的配置字典。根据该配置字典对该可疑数据进行检测,即可得到质检结果。具体地,每个质检点均配置有键值,如“must_no”和“must_have”,不同类别的键值下则包括不同的检测字段。将每个键值下的检测字段与可疑数据的字段信息进行匹配,即可得到当前该可疑数据在该质检点下的质检结果,该质检结果即反映当前可疑数据是否为违规信息。其中,在该可疑数据的字段信息与禁止匹配类别下的键值的检测字段匹配成功时,即确定该可疑数据为违规信息;当前待检测语音文件的文本数据的质检结果即为确定待检测语音文件为违规信息。
需要强调的是,为进一步保证上述质检结果的私密和安全性,上述质检结果还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例中提出的语音质量检测装置还包括:
第一获取模块,用于在所述可疑数据存在多个不同类别的质检点时,获取所有所述质检点的质检结果;
生成模块,用于根据所述质检结果计算所述可疑数据的质检评分,根据所述质检评分和所述质检结果生成所述可疑数据的质检评价表。
在本实施例中,每个可疑数据可能同时存在多个不同类别的质检点,在该可疑数据存在多个不同类别的质检点时,获取所有质检点的质检结果,以及质检结果对应的评级分数。其中,评级分数与质检结果存在映射关系表,根据映射关系表可以获取到当前质检结果对应的评级分数,不同的质检结果可能对应有不同的评级分数。在得到质检结果对应的评级分数时,将可疑数据对应的所有质检点的类别的权重分值,与质检点的评级分数进行加权求和,最终计算得到可疑分数的质检评分。根据该质检评分和质检结果即可生成该可疑数据的质检评价表。
第二获取模块,用于获取公开文本数据集和违规场景语料库中的语料集;
训练模块,用于根据所述公开文本数据集和所述语料集,计算所述基础判别模型的损失函数,在所述损失函数收敛时,确定所述基础判别模型为所述预设判别模型。
第三获取模块,用于获取预设迁移模型,将所述预设迁移模型的序列输出层作为所述基础判别模型的初始编码特征层;
连接模块,用于连接所述初始编码特征层、初始双向长短期记忆网络层、初始池化层、初始降拟合层和初始全连接层,得到所述基础判别模型的基础网络。
其中,所述训练模块包括:
第一计算单元,用于将所述公开文本数据集和所述语料集输入至所述基础判别模型中,计算得到训练语义相似度;
第二计算单元,用于获取所述公开文本数据集和所述语料集的标准语义相似度,根据所述训练语义相似度和所述标准语义相似度计算得到所述基础判别模型的损失函数。
在本实施例中,在通过预设判别模型对文本数据进行检测之前,还需要获取公开文本数据集和违规场景语料库中的语料集,根据该公开文本数据集和该语料集对基础判别模型进行训练,得到预设判别模型。具体地,公开文本数据集为采集得到的语音文本数据集,违规场景语料库中的语料集为采集得到的违规语料数据集;根据余弦相似度计算公开文本数据集中数据和语料集中数据的语义相似度,将该语义相似度作为标准语义相似度。根据该标准语义相似度对基础判别模型进行训练,即调整该基础判别模型的参数;在根据参数调整后的基础判别模型计算得到的损失函数收敛时,确定该基础判别模型训练完成,该训练完成的基础判别模型即为预设判别模型。
本实施例提出的语音质量检测装置,实现了对语音数据质量的自动化智能检测,提高了语音数据质量的效率,以及对语音数据判别的准确率,避免了语音违规数据的出现,规范了在智能客服中语音数据的使用。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过***总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作***和各类应用软件,例如语音质量检测方法的计算机可读指令等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据,例如运行所述语音质量检测方法的计算机可读指令。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本实施例提出的计算机设备,实现了对语音数据质量的自动化智能检测,提高了语音数据质量的效率,以及对语音数据判别的准确率,避免了语音违规数据的出现,规范了在智能客服中语音数据的使用。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音质量检测方法的步骤。
本实施例提出的计算机可读存储介质,实现了对语音数据质量的自动化智能检测,提高了语音数据质量的效率,以及对语音数据判别的准确率,避免了语音违规数据的出现,规范了在智能客服中语音数据的使用。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种语音质量检测方法,其特征在于,包括下述步骤:
获取待检测语音文件的文本数据和预设的违规语料,基于预设判别模型计算得到所述文本数据和所述违规语料的语义相似度;
将所述语义相似度大于等于预设阈值的文本数据作为可疑数据,获取当前所述可疑数据对应的节点信息字段,根据所述节点信息字段确定所述可疑数据对应的质检点;
获取所述质检点对应的配置字典,根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果。
2.根据权利要求1所述的语音质量检测方法,其特征在于,所述预设判别模型包括编码特征层、双向长短期记忆网络层、池化层、降拟合层和全连接层,所述基于预设判别模型计算得到所述文本数据与违规语料的语义相似度的步骤具体包括:
将所述文本数据和所述违规语料通过映射字符编码、注意力掩码和位置编码,得到对应的第一向量、第二向量和第三向量;
将所述第一向量、所述第二向量和所述第三向量叠加得到输入向量,输入所述输入向量至所述编码特征层,经过所述双向长短期记忆网络层、所述池化层、所述降拟合层和所述全连接层,输出得到所述文本数据与所述违规语料的语义相似度。
3.根据权利要求1所述的语音质量检测方法,其特征在于,所述键值包括第一类别键值和第二类别键值,所述根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果的步骤具体包括:
获取所述可疑数据的字段信息,在所述字段信息与所述第一类别键值下的检测字段匹配成功,且所述字段信息与所述第二类别键值下的检测字段完全不匹配时,确定所述可疑数据为合规信息;
在所述字段信息与所述第二类别键值下的检测字段匹配成功时,确定所述可疑数据为违规信息。
4.根据权利要求1所述的语音质量检测方法,其特征在于,在所述根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果的步骤之后还包括:
在所述可疑数据存在多个不同类别的质检点时,获取所有所述质检点的质检结果;
根据所述质检结果计算所述可疑数据的质检评分,根据所述质检评分和所述质检结果生成所述可疑数据的质检评价表。
5.根据权利要求1所述的语音质量检测方法,其特征在于,在所述基于预设判别模型计算得到所述文本数据与所述违规语料的语义相似度的步骤之前还包括:
获取公开文本数据集和违规场景语料库中的语料集;
根据所述公开文本数据集和所述语料集,计算基础判别模型的损失函数,在所述损失函数收敛时,确定所述基础判别模型为所述预设判别模型。
6.根据权利要求5所述的语音质量检测方法,其特征在于,所述根据所述公开文本数据集和所述语料集,计算所述基础判别模型的损失函数的步骤具体包括:
将所述公开文本数据集和所述语料集输入至所述基础判别模型中,计算得到训练语义相似度;
获取所述公开文本数据集和所述语料集的标准语义相似度,根据所述训练语义相似度和所述标准语义相似度计算得到所述基础判别模型的损失函数。
7.根据权利要求5所述的语音质量检测方法,其特征在于,在所述根据所述公开文本数据集和所述语料集对基础判别模型进行训练的步骤之前还包括:
获取预设迁移模型,将所述预设迁移模型的序列输出层作为所述基础判别模型的初始编码特征层;
连接所述初始编码特征层、初始双向长短期记忆网络层、初始池化层、初始降拟合层和初始全连接层,得到所述基础判别模型的基础网络。
8.一种语音质量检测装置,其特征在于,包括:
计算模块,用于获取待检测语音文件的文本数据和预设的违规语料,基于预设判别模型计算得到所述文本数据和所述违规语料的语义相似度;
确认模块,用于将所述语义相似度大于等于预设阈值的文本数据作为可疑数据,获取当前所述可疑数据对应的节点信息字段,根据所述节点信息字段确定所述可疑数据对应的质检点;
检测模块,用于获取所述质检点对应的配置字典,根据所述配置字典中配置的键值对所述可疑数据进行检测得到质检结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音质量检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音质量检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011310497.9A CN112468658B (zh) | 2020-11-20 | 2020-11-20 | 语音质量检测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011310497.9A CN112468658B (zh) | 2020-11-20 | 2020-11-20 | 语音质量检测方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112468658A CN112468658A (zh) | 2021-03-09 |
CN112468658B true CN112468658B (zh) | 2022-10-25 |
Family
ID=74798126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011310497.9A Active CN112468658B (zh) | 2020-11-20 | 2020-11-20 | 语音质量检测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112468658B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297844B (zh) * | 2021-05-21 | 2023-11-17 | 西北工业大学 | 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法 |
CN113593553B (zh) * | 2021-07-12 | 2022-05-24 | 深圳市明源云客电子商务有限公司 | 语音识别方法、装置、语音管理服务器以及存储介质 |
CN113590825A (zh) * | 2021-07-30 | 2021-11-02 | 平安科技(深圳)有限公司 | 文本质检方法、装置及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446388A (zh) * | 2018-03-22 | 2018-08-24 | 平安科技(深圳)有限公司 | 文本数据质检方法、装置、设备及计算机可读存储介质 |
CN108491388A (zh) * | 2018-03-22 | 2018-09-04 | 平安科技(深圳)有限公司 | 数据集获取方法、分类方法、装置、设备及存储介质 |
CN111210842A (zh) * | 2019-12-27 | 2020-05-29 | 中移(杭州)信息技术有限公司 | 语音质检方法、装置、终端及计算机可读存储介质 |
WO2020211006A1 (zh) * | 2019-04-17 | 2020-10-22 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
-
2020
- 2020-11-20 CN CN202011310497.9A patent/CN112468658B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446388A (zh) * | 2018-03-22 | 2018-08-24 | 平安科技(深圳)有限公司 | 文本数据质检方法、装置、设备及计算机可读存储介质 |
CN108491388A (zh) * | 2018-03-22 | 2018-09-04 | 平安科技(深圳)有限公司 | 数据集获取方法、分类方法、装置、设备及存储介质 |
WO2020211006A1 (zh) * | 2019-04-17 | 2020-10-22 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN111210842A (zh) * | 2019-12-27 | 2020-05-29 | 中移(杭州)信息技术有限公司 | 语音质检方法、装置、终端及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112468658A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112468658B (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN113326991B (zh) | 自动授权方法、装置、计算机设备及存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN112395390B (zh) | 意图识别模型的训练语料生成方法及其相关设备 | |
CN111368551B (zh) | 一种确定事件主体的方法和装置 | |
CN111783132A (zh) | 基于机器学习的sql语句安全检测方法、装置、设备及介质 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN112181835A (zh) | 自动化测试方法、装置、计算机设备及存储介质 | |
CN111783138A (zh) | 敏感数据检测方法、装置、计算机设备及存储介质 | |
CN112699213A (zh) | 语音意图识别方法、装置、计算机设备及存储介质 | |
CN111639360A (zh) | 智能数据脱敏方法、装置、计算机设备及存储介质 | |
CN114493255A (zh) | 基于知识图谱的企业异常监控方法及其相关设备 | |
CN112446209A (zh) | 一种意图标签的设置方法、设备、装置及存储介质 | |
CN114385694A (zh) | 一种数据加工处理方法、装置、计算机设备及存储介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN112085469B (zh) | 基于向量机模型的数据审批方法、装置、设备及存储介质 | |
CN115373634A (zh) | 随机码生成方法、装置、计算机设备及存储介质 | |
CN114219664A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN112417886A (zh) | 意图实体信息抽取方法、装置、计算机设备及存储介质 | |
CN111783447B (zh) | 基于ngram距离的敏感词检测方法、装置、设备及存储介质 | |
CN112395450A (zh) | 图片文字检测方法、装置、计算机设备及存储介质 | |
CN112949317B (zh) | 文本语义识别方法、装置、计算机设备及存储介质 | |
CN110992067B (zh) | 消息推送方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |