CN112714221A - 一种联邦智能语音侦测方法、***及相关设备 - Google Patents
一种联邦智能语音侦测方法、***及相关设备 Download PDFInfo
- Publication number
- CN112714221A CN112714221A CN202011553435.0A CN202011553435A CN112714221A CN 112714221 A CN112714221 A CN 112714221A CN 202011553435 A CN202011553435 A CN 202011553435A CN 112714221 A CN112714221 A CN 112714221A
- Authority
- CN
- China
- Prior art keywords
- federal
- audio data
- customer service
- reasoning
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007689 inspection Methods 0.000 claims abstract description 30
- 238000004891 communication Methods 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 230000008451 emotion Effects 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000001303 quality assessment method Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000000739 chaotic effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5175—Call or contact centers supervision arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供一种联邦智能语音侦测方法、***及相关设备,该方法包括:将客服与客户通话的语音传输到联邦智能中心,联邦智能中心对语音进行加密并传输到云端的联邦推理引擎,联邦推理引擎基于神经网络模型对语音数据进行语音识别与质检评判,判断通话中是否存在违规行为,实现对在线客服的语音侦测。
Description
技术领域
本申请涉及客服质检领域,具体涉及一种联邦智能语音侦测方法、***及相关设备。
背景技术
电话客服在许多产业和领域一直都存在,主要是为了给客户提供更好的体验及服务,解决用户在使用服务时出现的问题。随着互联网的发展和进步,前述的电话客服的概念逐渐转变为在线客服,且提供的服务类型也越来越多。客服质检是为了提高客户满意度、完善客户服务,同时对客服人员工作的考评。
目前行业内常用地的方法是基于语音识别技术和语义分析技术来做录音质检,但是此质检方式存在***更新实时性不强,质检效果差,数据隐私性较差等问题。
发明内容
本申请提供了一种联邦智能语音侦测方法、***及相关设备,可在客服与客户进行通话时,对客服与客户的通话进行监控侦测,判断通话中是否客服与客户是否存在违规行为,对违规行为进行处理。
第一方面,本申请提供一种语音侦测方法,应用于包括联邦智能中心、联邦推理引擎以客服***后台的***。联邦智能中心获取第一音频数据,将第一音频数据转换为密文信号,将密文信号发送给联邦推理引擎,第一音频数据为客服或客户的音频数据;联邦推理引擎将密文信号转换为第一音频数据,对第一音频数据进行语音识别与质检评判,得到推理结果,将推理结果加密发送给联邦智能中心,推理结果指示客服或客户是否违规;联邦智能中心解密后得到推理结果,将推理结果发送给客服***后台;客服***后台根据推理结果进行处理。
通过基于联邦智能的语音侦测方法,对客服与客户通话的语音进行语音识别与质检评判,当出现违规行为时及时处理,在保证数据安全的基础上实现对在线客服的监控与监测。
在一种可能的实现方式中,将第一音频数据转换为密文信号之前,联邦智能中心对第一音频数据进行语音增强处理。
客服和客户的环境有被外界干扰的可能性,将导致录音质量问题,表现在有杂音和噪声。联邦智能中心对收到的通话录音进行语音增强处理,可以降低背景噪声,改进语音质量,提高后续语音识别的准确度。
在一种可能的实现方式中,联邦智能中心获取第一音频数据之前,联邦推理引擎基于训练数据训练神经网络模型,将训练后得到的神经网络模型的模型参数加密传输到联邦中心节点;联邦推理引擎接收联邦中心节点发送的聚合参数,根据训练数据和聚合参数对神经网络模型进行训练,得到训练好的神经网络模型;其中,聚合参数是联邦中心节点对多个参与方发送的模型参数进行聚合后得到的,多个参与方包括联邦推理引擎。
通过联邦学习的方法训练神经网络模型,既能保证各方数据的安全,***露各方的隐私数据,同时利用多方数据联合训练扩大数据集,提高识别分析结果的准确度。
在一种可能的实现方式中,第一音频数据进行语音识别与质检评判。联邦推理引擎对密文信号进行解密,得到第一音频数据,使用神经网络模型对第一音频数据进行语音识别与质检评判,得到推理结果。使用基于联邦学习建模的神经网络模型对第一音频数据进行处理,得到客服与客户语音的文本输出与语义分析。
在一种可能的实现方式中,质检评判包括对第一音频数据的语音识别结果进行规定用语识别,情绪敏感词识别和违禁词识别。
根据预设的规则,对通话中出现的关键词进行识别,规定用语识别判断客服是否使用规定话术沟通,情绪敏感词识别获得通话对象的情绪参数,违禁词识别判断通话中是否出现违法违规的用语。
在一种可能的实现方式中,客服***后台根据推理结果进行处理。当客服或客户存在违规时,客服***后台切断客服与客户的通话。
当推理结果判断客服与客户的通话中出现违规行为时,客服***后台切断当前对话,防止违规行为继续进行。
第二方面,本申请提供一种语音侦测***,***包括联邦智能中心、联邦推理引擎以及客服***后台。联邦智能中心用于获取第一音频数据,将第一音频数据转换为密文信号,将密文信号发送给联邦推理引擎,第一音频数据为客服或客户的音频数据;联邦推理引擎用于将密文信号转换为第一音频数据,对第一音频数据进行语音识别与质检评判,得到推理结果,将推理结果加密发送给联邦智能中心,推理结果指示客服或客户是否违规;联邦智能中心解密后得到推理结果,将推理结果发送给客服***后台;客服***后台用于根据推理结果进行处理。
第三方面,本申请提供一种服务器设备,包括用于执行如第一方面或第一方面任意可能的实现方式中联邦智能中心执行的操作的模块。
第四方面,本申请提供一种服务器设备,包括用于执行如第一方面或第一方面任意可能的实现方式中联邦推理引擎执行的操作的模块。
第五方面,本申请提供一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序被处理器执行时实现如第一方面或第一方面任意可能的实现方式中所述的方法。
附图说明
图1是现有技术提供的一种联邦学习模型示意图;
图2是本申请实施例提供的一种联邦智能语音侦测方法流程图;
图3是本申请实施例提供的一种联邦智能引擎训练神经网络模型方法示意图;
图4A是本申请实施例提供的一种联邦智能语音侦测***示意图;
图4B是本申请实施例提供的另一种联邦智能语音侦测***示意图;
图5是本申请实施例提供的一种服务器的结构示意图;
图6是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述显然所描述的实施例是本申请一部分实施例而不是全部的实施例基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
首先介绍本申请实施例的应用场景。客服质检是对客户与客服之间的对话进行在线侦测,防止任何一方在本次服务过程中违反公司规章制度或国家法律法规。随着技术的发展,在线客服的形式变得多种多样,大致可以分为文字客服、电话客服和视频客服。除文字客服外,目前常用的客服质检方式是保存客户与客服的通话录音,通话结束后对通话内容进行检测,无法实时侦测客服出现的违法违规行为,实时性差。对于目前多种多样的在线客服形式,传统的客服质检***已经不再满足业务需求。
本申请实施例建立了一个基于联邦智能中心的智能语音侦测***,将客服与客户双方的通话语音实时传输到联邦智能中心,利用联邦语音推理引擎进行语音识别和语义分析,对客服的服务过程实时侦测,当通话过程中出现违法违规行为可及时处理。
为了便于理解本申请的技术方案,下面对本申请涉及的部分术语进行解释说明。值得说明的是,本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
联邦学习是一个机器学习框架,能帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。传统的深度学习方法将无法在碎片化的数据样本上进行训练,联邦学习为深度学习提供了一种数据可用不可见的训练方式,解决数据孤岛的问题。
参见图1,图1是一种联邦学习模型示意图,每个联邦学习建模参与者利用本地数据训练模型,将需要更新的参数返回给中心服务器;中心服务器聚合各方返回的参数,再把最新的模型参数反馈到各方。训练过程通常包含以下四个步骤:
步骤一:参与者在本地计算训练梯度,使用加密共享技术,加密后的梯度发送到中心服务器;
步骤二:中心服务器在不了解任何参与者的具体数据的情况下,对各参与者发送的加密后的梯度执行安全聚合;
步骤三:中心服务器将安全聚合后的结果发回给参与者;
步骤四:参与者解密得到聚合后的梯度,更新各自的模型。
在这个过程中,各参与方都拥有相同且完整的模型,且相互之间不交流不依赖,保证了数据的独立和隐私,在预测时各方模型也可以独立预测。
下面介绍本申请实施例中的联邦智能语音侦测方法。参见图2,图2为本申请实施例提供的一种联邦智能语音侦测方法流程图。
S201、联邦智能中心获取第一音频数据。
客服与客户在客服***后台建立通话业务,产生语音信息的音频数据流,如客服语音“下午好,请问有什么可以帮您的吗”,客户语音“你好,我想问……”。在这个过程中,客服***后台能够实时的记录客服或客户的音频数据,联邦智能中心获取客服或客户的音频数据作为第一音频数据。
其中,客服***后台能够同时对多组客服与客户的通话进行监控,联邦智能中心能够同时接收来自多个客服***后台中的多个音频数据。
S202、联邦智能中心对第一音频数据进行处理加密,得到密文信号,将密文信号推送给联邦推理引擎。
联邦智能中心获取到第一音频数据后,利用基于逻辑回归(Logistic)的混沌加密算法对第一音频数据进行加密。
xn+1=μ*xn*(1-xn),(n=0,1,…,N) (1)
公式1为使用Logistic函数产生混沌序列。其中,设当前第一音频数据需要加密的特征点数量为N;n表示上一个加密特征点的序号;n+1为当前需要加密的特征点序号;xn为序号为n的特征点所用的加密基数。使用此方程需要设定两个值,初值x0和迭代参数混沌因子μ,优选地,取值范围0<x0<1,3.6≤μ≤4时,Logistic函数效果较好。
当公式1迭代n次后,可得到x1,x2,…,xn共n个值,即一个混沌序列。将第一音频数据与混沌序列进行异或操作,得到当前音频数据的密文信号,连同公钥一起推送给联邦推理引擎。
可选的,在对第一音频数据进行加密之前,可以对第一音频数据进行语音增强处理。客服和客户的环境有被外界干扰的可能性,将导致第一音频数据的质量问题,表现在有杂音和噪声。联邦智能中心对第一音频数据进行语音增强处理,抑制、降低噪声的干扰,具体语音增强算法常用谱减法、自适应噪声抵消法等。联邦智能中心将Logistic函数产生的混沌序列与第一音频数据进行异或操作,就得到了当前第一音频数据加密后的混沌语音序列,形成密文信号。
S203、联邦推理引擎对密文信号解密后得到第一音频数据,完成语音识别与质检评判,得到推理结果并加密回传给联邦智能中心。
处于云端的联邦推理引擎获取到联邦智能中心推送的密文信号和公钥后,通过混沌算法的逆向过程进行解密,获取原始第一音频数据。联邦推理引擎对原始第一音频数据进行语音识别和质检评判,其中,联邦推理引擎使用联合建模融合多方神经网络模型进行语音识别与质检评判,得到推理结果。
具体的,如图3所示,联邦推理引擎基于训练数据训练神经网络模型,将训练后得到所述神经网络模型的模型参数加密传输到联邦中心节点;联邦中心节点对多个参与方发送的模型参数进行聚合;联邦推理引擎接收联邦中心节点发送的聚合参数,根据训练数据和聚合参数对神经网络模型进行训练,得到训练好的神经网络模型。其中,一个联邦推理引擎为一个参与方。
其中,语音识别包括特征提取与模式匹配。特征提取通过预加重、分帧、加窗、快速傅里叶变换(Fast Fourier Transform,FFT)、梅尔滤波器组、对数运算和离散余弦变换(Discreate Cosine Transform,DCT),得到12维的梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficient,MFCC)特征。模式匹配对MFCC特征进行音素标记,利用词典生成字符序列,实现MFCC特征到字符的生成,然后根据语言概率统计给出最大概率的文字序列,输出文字序列为语音识别结果。
其中,质检评判包括对第一音频数据的语音识别结果进行规定用语识别,情绪敏感词识别和违禁词识别,判断客户或客服是否存在违规行为。当未识别到规定用语,判断存在违规行为,记录客服遗漏的规定用语;当识别到情绪敏感词和违禁词,判断存在违规行为,记录识别到的情绪敏感词和违禁词。
联邦推理引擎将推理结果加密回传给联邦智能中心,推理结果指示客户与客服通话中是否存在违规行为。
S204、联邦智能中心解密获取推理结果后,推送给客服***后台进行相应处理。
联邦智能中心接收到联邦推理引擎的加密回传后,解密获取推理结果,并将推理结果推送给客服***后台。客服***后台根据推理结果中的质检评判结果作出相应处理。
若客服与客户通话中出现违规行为,则立即切断当前通话,避免违规行为继续进行;若未出现违规行为或虽然违规但允许继续进行通话,则将语音识别结果推送至前端展示,客服***后台根据质检评判结果提示客服是否存在遗漏的问题点和规定用语,实时展示客服存在的违规话术,提醒客服在接下来的通话中注意规避。
重复以上步骤S201-S204,持续对客服与客户的通话进行监控直至本次通话结束,保存本次通话完整录音。
除以上实施方式外,本申请实例也可以支持离线质检作为后续的辅助评估方案。在一种可能的实现方式中,对一段预设时长前的录音,回传到联邦智能中心进行语音增强处理,将处理后的音频加密推送给联邦推理引擎。
由于实时语音识别的任务通常使用UDP传输实时语音,容易出现录音质量的问题,主要体现在录音加速、卡顿和缺失。使用保存后回传的录音进行离线复检,可以有效解决UDP实时传输带来的问题。同时,客服和客户的环境有被外界干扰的可能性,这也将导致录音质量问题,更多的表现在有杂音和噪声。联邦智能中心对收到的通话录音进行语音增强处理,抑制、降低噪声的干扰。具体语音增强算法常用谱减法、自适应噪声抵消法等。
进行语音增强处理,可以降低背景噪声,改进语音质量,提高后续语音识别的准确度。联邦智能中心通过联邦推理引擎完成语音识别并分析结果生成报告。并将对应的识别结果和分析报告回传给客服***后台,客服***后台对结果和报告进行查看,查找问题和漏洞。
下面介绍本申请实施例提供的一种联邦智能语音侦测***,用于实现本申请实施例提供的联邦智能语音侦测方法。参见图4A,图4A是本申请实施例提供的一种联邦智能语音侦测***示意图。
联邦智能语音侦测***包括客服***后台401、联邦智能中心402和联邦推理引擎403。其中,客服***后台401用于监控客户与客服通话;联邦智能中心402用于第一音频数据的加密传输;联邦推理引擎403位于云端,用于联合多方语音识别模型对第一音频数据进行语音识别与质检评判。
其中,参见图4B,客服***后台401A、客服***后台401B、客服***后台401C能够同时对多组客服与客户的通话进行监控,联邦智能中心402能够同时接收来自如客服***后台401A、客服***后台401B、客服***后台401C等多个客服***后台中的多个音频数据,联邦智能中心402将所述多个音频数据发送给联邦推理引擎403A。云端上部署了如联邦推理引擎403A、联邦推理引擎403B、联邦推理引擎403C等多个联邦推理引擎。
联邦智能中心402分别获取客服和客户的音频数据,作为第一音频数据。对第一音频数据进行加密处理,得到密文信号,将密文信号推送给联邦推理引擎。
联邦推理引擎403对密文信号解密后得到原始第一音频数据,完成语音识别与质检评判,得到推理结果并加密回传给联邦智能中心402。
联邦智能中心402解密获取推理结果后,推送给客服***后台401进行相应处理。若客服与客户通话中出现违规行为,客服***后台立即切断当前通话,避免违规行为继续进行;若未出现违规行为或虽然违规但允许继续进行通话,客服***后台将第一音频数据的语音识别结果推送至前端展示,客服***后台根据质检评判结果提示客服是否存在遗漏的问题点和规定用语,实时展示客服存在的违规话术,提醒客服在接下来的通话中注意规避。
本申请实施例基于联邦学习的思想,提供一种对客服和客户通话进行实时侦测的方法,保证了侦测过程中数据的隐私安全,通过联邦建模获得更好的侦测效果,对客服与客户通话中的违规行为及时监控处理。
图5是本申请实施例提供的一种服务器的结构示意图,联邦智能中心402设置在该服务器500上。服务器500包括用于实现联邦智能中心执行的操作的模块,包括:一个或者多个处理器510、通信接口520以及存储器530。可选的,所述处理器510、通信接口520以及存储器530通过总线540相互连接,其中,
所述处理器510用于实现上述处理单元执行的操作,处理器510用于执行上述图2中S201-S204中联邦智能中心对第一音频数据进行处理加密的步骤,在此不再赘述。
处理器510可以有多种具体实现形式,例如处理器510可以为中央处理器或图像处理器,处理器510还可以是单核处理器或多核处理器,处理器510还可以由CPU和硬件芯片的组合。
通信接口520可以为有线接口或无线接口,用于与其他模块或设备进行通信,有线接口可以是以太接口、局域互联网络(local interconnect network,LIN)等,无线接口可以是蜂窝网络接口或使用无线局域网接口等。
本申请实施例中通信接口520具体可用于执行上述图2中S201-S204中获取第一音频数据,发送密文信号,接收推理结果等操作。具体的,通信接口520执行的动作可以参照上述方法实施例,在此不再赘述。
存储器530可以是非易失性存储器,例如,只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。存储器530也可以是易失性存储器,易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。
存储器530也可用于存储指令和数据,以便于定位装置500调用存储器530中存储的指令实现上述S301-S304中执行的操作。此外,服务器500可能包含相比于图5展示的更多或者更少的组件,或者有不同的组件配置方式。
总线540可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。所述总线540可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,该服务器500还可以包括输入/输出接口550,输入/输出接口550连接有输入/输出设备,用于接收输入的信息,输出操作结果。
图6是本申请实施例提供的一种服务器的结构示意图,联邦推理引擎403设置在该服务器600上,部署在云端。服务器600包括用于实现联邦推理引擎执行的操作的模块,包括:一个或者多个处理器610、通信接口620以及存储器630。可选的,所述处理器610、通信接口620以及存储器630通过总线640相互连接,其中,
所述处理器610用于实现上述处理单元执行的操作,处理器610用于执行上述图2中S201-S204中联邦推理引擎对密文信号进行解密,完成语音识别与质检评判的步骤,在此不再赘述。
处理器610可以有多种具体实现形式,例如处理器610可以为中央处理器或图像处理器,处理器610还可以是单核处理器或多核处理器,处理器610还可以由CPU和硬件芯片的组合。
通信接口620可以为有线接口或无线接口,用于与其他模块或设备进行通信,有线接口可以是以太接口、局域互联网络(local interconnect network,LIN)等,无线接口可以是蜂窝网络接口或使用无线局域网接口等。
本申请实施例中通信接口620具体可用于执行上述图2中S201-S204中接收密文信号、与联邦中心节点交换参数、发送推理结果等操作。具体的,通信接口620执行的动作可以参照上述方法实施例,在此不再赘述。
存储器630可以是非易失性存储器,例如,只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。存储器630也可以是易失性存储器,易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。
存储器630也可用于存储指令和数据,以便于定位装置500调用存储器630中存储的指令实现上述S301-S304中执行的操作。此外,服务器600可能包含相比于图6展示的更多或者更少的组件,或者有不同的组件配置方式。
总线640可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。所述总线640可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,该服务器600还可以包括输入/输出接口650,输入/输出接口650连接有输入/输出设备,用于接收输入的信息,输出操作结果。
本申请实施例还提供一种非瞬态计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当计算机程序在处理器上运行时,可以实现上述方法实施例中执行的方法步骤,所述计算机存储介质的处理器在执行上述方法步骤的具体实现可参照上述方法实施例中S201-S204的具体操作,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置、电子设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语音侦测方法,其特征在于,应用于包括联邦智能中心、联邦推理引擎以客服***后台的***,包括:
所述联邦智能中心获取第一音频数据,将所述第一音频数据转换为密文信号,将所述密文信号发送给所述联邦推理引擎,所述第一音频数据为客服或客户的音频数据;
所述联邦推理引擎将所述密文信号转换为所述第一音频数据,对所述第一音频数据进行语音识别与质检评判,得到推理结果,将所述推理结果加密发送给所述联邦智能中心,所述推理结果指示所述客服或客户是否违规;
所述联邦智能中心解密后得到所述推理结果,将所述推理结果发送给所述客服***后台;
所述客服***后台根据所述推理结果进行处理。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一音频数据转换为密文信号之前,还包括:所述联邦智能中心对所述第一音频数据进行语音增强处理。
3.根据权利要求1或2所述的方法,其特征在于,所述联邦智能中心获取第一音频数据之前,还包括:
所述联邦推理引擎基于训练数据训练神经网络模型,将训练后得到的所述神经网络模型的模型参数加密传输到联邦中心节点;
所述联邦推理引擎接收联邦中心节点发送的聚合参数,根据所述训练数据和所述聚合参数对所述神经网络模型进行训练,得到训练好的神经网络模型;其中,所述聚合参数是所述联邦中心节点对多个参与方发送的模型参数进行聚合后得到的,所述多个参与方包括所述联邦推理引擎。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一音频数据进行语音识别与质检评判,包括:
所述联邦推理引擎对所述密文信号进行解密,得到所述第一音频数据,使用所述训练好的神经网络模型对所述第一音频数据进行语音识别与质检评判,得到所述推理结果。
5.根据权利要求4所述的方法,其特征在于,包括:所述质检评判包括对所述第一音频数据的语音识别结果进行规定用语识别,情绪敏感词识别和违禁词识别。
6.根据权利要求1所述的方法,其特征在于,所述客服***后台根据所述推理结果进行处理,包括:
当客服或客户存在违规时,所述客服***后台切断客服与客户的通话。
7.一种语音侦测***,其特征在于,所述***包括联邦智能中心、联邦推理引擎以及客服***后台,
所述联邦智能中心用于获取第一音频数据,将所述第一音频数据转换为密文信号,将所述密文信号发送给所述联邦推理引擎,所述第一音频数据为客服或客户的音频数据;
所述联邦推理引擎用于将所述密文信号转换为所述第一音频数据,对所述第一音频数据进行语音识别与质检评判,得到推理结果,将所述推理结果加密发送给所述联邦智能中心,所述推理结果指示所述客服或客户是否违规;
所述联邦智能中心解密后得到所述推理结果,将所述推理结果发送给所述客服***后台;
所述客服***后台用于根据所述推理结果进行处理。
8.一种服务器设备,其特征在于,所述服务器设备包括用于实现权利要求1至6中任一项联邦智能中心执行的操作的模块。
9.一种服务器设备,其特征在于,所述服务器包括用于实现权利要求1至6中任一项联邦推理引擎执行的操作的模块。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011553435.0A CN112714221A (zh) | 2020-12-24 | 2020-12-24 | 一种联邦智能语音侦测方法、***及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011553435.0A CN112714221A (zh) | 2020-12-24 | 2020-12-24 | 一种联邦智能语音侦测方法、***及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112714221A true CN112714221A (zh) | 2021-04-27 |
Family
ID=75544335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011553435.0A Pending CN112714221A (zh) | 2020-12-24 | 2020-12-24 | 一种联邦智能语音侦测方法、***及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112714221A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060035375A (ko) * | 2004-10-22 | 2006-04-26 | 이익수 | 디지털 카오스 셀을 이용한 이진 코드분할다중접속 카오스음성비화시스템 |
WO2016015542A1 (zh) * | 2014-07-29 | 2016-02-04 | 华为技术有限公司 | 联络中心质检方法及装置 |
CN109327632A (zh) * | 2018-11-23 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 客服录音的智能质检***、方法及计算机可读存储介质 |
CN109461442A (zh) * | 2018-09-10 | 2019-03-12 | 上海力自高实业有限公司 | 一种多媒体智能客服*** |
CN110874484A (zh) * | 2019-10-16 | 2020-03-10 | 众安信息技术服务有限公司 | 基于神经网络和联邦学习的数据处理方法和*** |
CN111402095A (zh) * | 2020-03-23 | 2020-07-10 | 温州医科大学 | 一种基于同态加密联邦学习来检测学生行为与心理的方法 |
CN111428265A (zh) * | 2020-03-20 | 2020-07-17 | 深圳前海微众银行股份有限公司 | 基于联邦学习的语句质检方法、装置、设备及存储介质 |
-
2020
- 2020-12-24 CN CN202011553435.0A patent/CN112714221A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060035375A (ko) * | 2004-10-22 | 2006-04-26 | 이익수 | 디지털 카오스 셀을 이용한 이진 코드분할다중접속 카오스음성비화시스템 |
WO2016015542A1 (zh) * | 2014-07-29 | 2016-02-04 | 华为技术有限公司 | 联络中心质检方法及装置 |
CN109461442A (zh) * | 2018-09-10 | 2019-03-12 | 上海力自高实业有限公司 | 一种多媒体智能客服*** |
CN109327632A (zh) * | 2018-11-23 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 客服录音的智能质检***、方法及计算机可读存储介质 |
CN110874484A (zh) * | 2019-10-16 | 2020-03-10 | 众安信息技术服务有限公司 | 基于神经网络和联邦学习的数据处理方法和*** |
CN111428265A (zh) * | 2020-03-20 | 2020-07-17 | 深圳前海微众银行股份有限公司 | 基于联邦学习的语句质检方法、装置、设备及存储介质 |
CN111402095A (zh) * | 2020-03-23 | 2020-07-10 | 温州医科大学 | 一种基于同态加密联邦学习来检测学生行为与心理的方法 |
Non-Patent Citations (2)
Title |
---|
刘文浩;孙克辉;朱从旭;: "一种适用于移动通信的超混沌数字语音加密算法", 密码学报, no. 01, 15 February 2017 (2017-02-15), pages 1 - 14 * |
陈翎;潘中良;: "一种基于Tent混沌***的音频加密方法", 装备制造技术, no. 05, 15 May 2011 (2011-05-15), pages 1 - 3 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210461B2 (en) | Real-time privacy filter | |
US11582237B2 (en) | Systems and methods for privacy-protecting hybrid cloud and premise stream processing | |
US8433915B2 (en) | Selective security masking within recorded speech | |
CN112365894B (zh) | 基于ai的复合语音交互方法、装置及计算机设备 | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US20160147731A1 (en) | Message sentiment analyzer and feedback | |
US20080059198A1 (en) | Apparatus and method for detecting and reporting online predators | |
US20240127798A1 (en) | Training speech recognition systems using word sequences | |
US11562731B2 (en) | Word replacement in transcriptions | |
US10743104B1 (en) | Cognitive volume and speech frequency levels adjustment | |
CN110309299B (zh) | 通信防诈骗方法、装置、计算机可读介质及电子设备 | |
WO2021184837A1 (zh) | 诈骗电话的识别方法、装置、存储介质及终端 | |
KR101795593B1 (ko) | 전화상담원 보호 장치 및 그 방법 | |
JP5496863B2 (ja) | 感情推定装置、その方法、プログラム及びその記録媒体 | |
EP3598444B1 (en) | Method and system for muting classified information from an audio | |
CN110704618B (zh) | 确定对话数据对应的标准问题的方法及装置 | |
CN110766442A (zh) | 客户信息验证方法、装置、计算机设备及存储介质 | |
EP4016355B1 (en) | Anonymized sensitive data analysis | |
JP2010273130A (ja) | 詐欺進行度判定装置、辞書生成装置、詐欺進行度判定方法及び辞書生成方法 | |
US11488604B2 (en) | Transcription of audio | |
CN112714221A (zh) | 一种联邦智能语音侦测方法、***及相关设备 | |
CN115423323A (zh) | 安全管理方法、装置、电子设备及计算机存储介质 | |
US20230066915A1 (en) | Obfuscation of a section of audio based on context of the audio | |
JP2019008577A (ja) | ユーザ対話支援システム、ユーザ対話支援方法及びプログラム | |
CN116610790B (zh) | 应答数据的获取方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |