CN116129942A - 语音交互设备和语音交互方法 - Google Patents
语音交互设备和语音交互方法 Download PDFInfo
- Publication number
- CN116129942A CN116129942A CN202211740979.7A CN202211740979A CN116129942A CN 116129942 A CN116129942 A CN 116129942A CN 202211740979 A CN202211740979 A CN 202211740979A CN 116129942 A CN116129942 A CN 116129942A
- Authority
- CN
- China
- Prior art keywords
- voice
- wake
- probability
- data frame
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 claims abstract description 104
- 238000012545 processing Methods 0.000 claims abstract description 71
- 238000007499 fusion processing Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 31
- 238000011176 pooling Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000004927 fusion Effects 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请实施例提供了一种语音交互设备和语音交互方法,涉及语音处理技术领域。该语音交互设备包括:检测器,被配置为接收用户输入的语音指令,控制器,被配置为对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征,对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率,基于所述语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度,检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知所述唤醒置信度满足所述唤醒条件,则开启语音交互服务。本申请实施例增加了语音唤醒检测的鲁棒性和稳定性,降低了误唤醒的概率,提高了唤醒处理的准确率。
Description
技术领域
本申请实施例涉及语音处理技术领域。更具体地讲,涉及一种语音交互设备和语音交互方法。
背景技术
语音、语言和听觉是人类沟通和获取信息最自然便捷的手段,言语交互带来了人机交互的根本性变革,已经成为智能移动终端、智能教育、智能家电等众多产业发展所依赖的共性核心技术,是大数据和认知计算时代信息技术产业未来发展的制高点,具有广阔的应用前景。
语音唤醒是智能语音设备与用户之间进行语音交互的入口,是语音交互服务链条中的重要一环。当前基于深度学习的语音唤醒技术包括:基于神经网络-隐马尔科夫模型、循环神经网络、卷积神经网络等唤醒模型的语音检测唤醒技术,取得了一定的发展。但是,现有语音唤醒相关技术在用户说话比较清晰的场景下,很有可能在语音设备还没有接收完整的唤醒词时,唤醒模型给出的预测概率值便已达到阈值,给出唤醒标识,即,此时模型认为的唤醒尾端点比实际的尾端点提前了,导致其鲁棒性不足,容易检测错误,出现误唤醒,降低了唤醒处理的准确率。
发明内容
本申请示例性的实施方式提供一种语音交互设备和语音交互方法,用于解决了语音交互设备在休眠状态下对用户输入的唤醒词检测有误,无法准确检测尾端唤醒词造成误唤醒,提前开启语音交互服务的问题。
本申请实施例提供技术方案如下:
第一方面,本申请实施例提供了一种语音交互设备,包括:
检测器,被配置为接收用户输入的语音指令;
控制器,被配置为对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征;
对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率;
基于所述语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度;
检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知所述唤醒置信度满足所述唤醒条件,则开启语音交互服务。
第二方面,本申请实施例提供了一种语音交互方法,应用于语音交互设备,所述方法包括:
接收用户输入的语音指令;
对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征;
对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率;
基于所述语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度;
检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知所述唤醒置信度满足所述唤醒条件,则开启语音交互服务。
第三方面,本申请实施例提供了一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所述电子设备实现第二方面或第二方面任一实施例所述的语音交互方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现第二方面或第二方面任一实施例所述的语音交互方法。
第五方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机实现第二方面或第二方面任一实施例所述的语音交互方法。
由以上技术方案可知,本申请实施例提供的语音交互设备和语音交互方法,在语音交互设备接收到用户输入的语音指令时,对语音指令中的语音数据帧进行特征提取,获取语音数据帧对应的语音特征,并且对语音特征进行数据处理,获取语音数据帧对应的唤醒概率和尾端概率,进而基于语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度,通过检测唤醒置信度是否满足预设的唤醒条件,如果检测获知唤醒置信度满足唤醒条件,则开启语音交互服务,如果检测获知唤醒置信度不满足唤醒条件,则不开启语音交互服务。由于本申请实施例提供的语音交互设备和语音交互方法,可以对输入的语音特征进行语音唤醒检测和语音尾端点检测两个任务联合的检测识别,获取语音数据帧的语音唤醒概率以及是否为尾端语音的概率,同时利用所检测到的语音数据帧的唤醒概率和尾端概率进行融合推理,得到当前输入语音数据流的唤醒置信度,通过当前的唤醒置信度进行判决,是否满足唤醒条件,如果满足唤醒条件,则确定唤醒成功,开启用户和语音交互设备之间的语音交互服务。需要强调的是,通过语音唤醒检测和语音尾端点检测两个任务的双重检测,保证了即便在输入语音清晰的场景下,也不会在唤醒概率大于阈值的时候就贸然判断唤醒成功,提前判断到达了唤醒语音的尾端,造成提前开启语音交互服务带来的不良体验,甚至会把唤醒语音作为噪音带入语音交互服务***,造成后续语音交互的错误识别,大大提高了语音唤醒检测的准确性,在用户与智能电视、智能汽车、智能玩具等设备进行语音交互的应用场景都能带来良好体验,降低了语音唤醒识别不准确的概率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的实施方式,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的语音交互方法的场景架构示意图;
图2示出了根据示例性实施例中语音交互设备的硬件配置框图;
图3示出了一些实施例中的语音交互设备的协议层配置框图;
图4中示出了本申请实施例提供的语音交互方法的流程示意图;
图5为本申请实施例提供的一种语音交互网络架构示意图;
图6为本实施例提供的语音指令的时频图;
图7所示为本申请实施例提供另一种语音交互方法的流程示意图;
图8示出了一些实施例中唤醒和尾端联合概率检测模型的训练步骤流程图;
图9为唤醒和尾端联合概率检测模型的结构图;
图10为用于实现图4所示的语音交互方法的语音交互设备的结构示意图;
图11为用于实现图7所示的语音交互方法的语音交互设备的结构示意图;
图12为用于实现图8所示的模型训练方法的语音交互设备的结构示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
图1为本申请实施例提供的语音交互方法的场景架构示意图。如图1所示,本申请实施例提供的场景架构,包括:服务器100和语音交互设备200。
本申请实施例提供的语音交互设备200可以具有多种实施形式,例如,可以是智能音箱、电视、冰箱、洗衣机、空调、智能窗帘、路由器、机顶盒、手机、个人计算机(PersonalComputer,PC)智能电视、激光投影设备、显示器(monitor)、电子白板(electronicbulletin board)、可穿戴设备、车载设备、电子桌面(electronic table)等。
在一些实施例中,语音交互设备200接收到用户的语音指令时,可以与服务器100进行数据通信。可允许语音交互设备200通过局域网(LAN)、无线局域网(WLAN)与服务器100进行通信连接。
服务器100可以是提供各种服务的服务器,例如对终端设备200采集的音频数据提供支持的服务器。服务器可以对接收到的音频等数据进行分析等处理,并将处理结果(例如端点信息)反馈给终端设备。服务器100可以是一个服务器集群,也可以是多个服务器集群,可以包括一类或多类服务器。
语音交互设备200可以是硬件,也可以是软件。当语音交互设备200为硬件时,可以是具有声音采集功能的各种电子设备,包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当语音交互设备200为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的语音交互方法可以通过服务器100执行,也可以通过语音交互设备200执行,还可以通过服务器100和语音交互设备200共同执行,本申请对此不做限定。
图2示出了根据示例性实施例中语音交互设备的硬件配置框图。如图2所示语音交互设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,音频处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。语音交互设备200可以通过通信器220服务器100建立控制信号和数据信号的发送和接收。
用户接口280,可用于接收外部的控制信号。
检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
声音采集器可以是麦克风,也称“话筒”,“传声器”,可以用于接收用户的声音,将声音信号转换为电信号。语音交互设备200可以设置至少一个麦克风。在另一些实施例中,语音交互设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,语音交互设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
此外,麦克风可以是内置在语音交互设备200上,或者麦克风通过有线或者无线的方式与语音交互设备200相连接。当然,本申请实施例对麦克风在语音交互设备200上的位置不作限定。或者,语音交互设备200可以不包括麦克风,即上述麦克风并未设置于语音交互设备200中。语音交互设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在语音交互设备200上。
控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制语音交互设备200的整体操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,RAM Random Access Memory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
在一些示例中,智能设备的操作***为Android***为例,图3示出了一些实施例中的语音交互设备的协议层配置框图,如图3所示,语音交互设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21,内核层22和硬件层23。
其中,如图3所示,硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为***应用,也可以为第三方应用。如,应用层21包括语音识别应用,语音识别应用可以提供语音交互界面和服务,用于语音交互设备200与服务器100的连接。
内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的,语音交互设备200中的语音识别应用启动,语音交互设备200与服务器100建立了通信连接的情况下,检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后,语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将语音交互设备200发送的语音数据输入至意图识别模型。
在一些实施例中,当语音交互设备200通过检测器230接收到用户的语音指令时,语音交互设备200通过控制器250对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征。进而,控制器250对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率,进一步地,控制器250基于所述语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度,最后,检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知所述唤醒置信度满足所述唤醒条件,则开启语音交互服务,如果检测获知所述唤醒置信度不满足所述唤醒条件,则不开启语音交互服务,从而增加了语音唤醒检测的鲁棒性和稳定性,降低了误唤醒的概率,提高了唤醒处理的准确率。
在一些实施例中,由于流式获取实时语音数据可能会大于帧长,因此,控制器250会通过存储器将历史计算过的所述语音数据帧对应的语音特征进行缓存,避免重复计算,浪费计算资源,其中,所述语音特征包括:梅尔倒谱系数特征、频谱图特征和音频能量特征中的至少一种。
在一些实施例中,控制器250对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率的方式可以为:获取预先训练的唤醒和尾端联合概率检测模型,进而将所述语音特征输入所述唤醒和尾端联合概率检测模型进行数据处理,输出所述语音数据帧对应的唤醒概率和尾端概率。通过预先训练的唤醒和尾端检测的双任务联合检测模型,可以准确快速的获取语音数据帧对应的唤醒概率和尾端概率。
在一些实施例中,控制器250对唤醒和尾端联合概率检测模型的预先训练方式可以为:采集样本唤醒数据集,根据所述语音交互设备的性能参数确定网络模块数量,并基于所述网络模块数量构建至少一个残差模块连接的深度残差网络;基于所述深度残差网络构建待训练的所述唤醒和尾端联合概率检测模型,通过所述样本唤醒数据集训练所述唤醒和尾端联合概率检测模型中的模型参数,其中,所述唤醒和尾端联合概率检测模型在进行训练时以池化损失的最大值作为唤醒检测的第一损失函数。通过残差网络以及以池化损失的最大值作为第一损失函数对模型进行反向传播训练得到的模型参数,保证了唤醒概率识别的准确性。
在一些实施例中,控制器250对唤醒和尾端联合概率检测模型的预先训练方式还可以为:构建一维时间卷积网络,基于所述深度残差网络和所述一维时间卷积网络构建待训练的唤醒和尾端联合概率检测模型,通过所述样本唤醒数据集训练所述唤醒和尾端联合概率检测模型的模型参数,其中,所述唤醒和尾端联合概率检测模型在进行训练时以交叉熵作为尾端检测的第二损失函数。通过一维时间卷积网络和残差网络训练的唤醒和尾端联合概率检测模型,在保证唤醒概率和尾端点检测概率准确率的前提下,还可以大大降低了模型大小和计算量,能够在资源受限的端侧设备进行推理。
在一些实施例中,控制器250为了对唤醒和尾端联合概率检测模型的模型参数训练的更加准确,提高模型检测的准确率,对模型训练使用的目标损失函数的具体确定方式可以为:获取预设的第一权重因子和第二权重因子,计算所述第一权重因子与所述第一损失函数的第一乘积结果,以及计算和所述第二权重因子与所述第二损失函数的第二乘积结果,对所述第一乘积结果和所述第二乘积结果求和处理,获取训练所述唤醒和尾端联合概率检测模型使用的目标损失函数。
在一些实施例中,控制器250基于预先训练的唤醒和尾端联合概率检测模型对提取后的语音特征的唤醒检测方式为:将所述语音特征输入所述唤醒和尾端联合概率检测模型中的初始卷积层进行处理,输出第一音频特征;将所述第一音频特征输入所述唤醒和尾端联合概率检测模型中至少一个由所述深度残差网络和所述一维时间卷积网络组成的网络单元进行处理,输出第二音频特征;将所述第二音频特征输入池化层处理,输出第三音频特征;将所述第三音频特征输入第一全连接层进行分类处理,输出所述语音数据帧对应的唤醒概率;将所述第三音频特征输入第二全连接层进行分类处理,输出所述语音数据帧对应的尾端概率。由于同时获取唤醒概率和尾端概率,基于两种任务概率的融合判决确定唤醒置信度,降低了误唤醒的概率。
在一些实施例中,控制器250根据唤醒概率和尾端概率进行融合推断获取唤醒置信度的方式为:将所述语音数据帧对应的唤醒概率与预设的唤醒概率阈值进行比较,如果所述唤醒概率大于所述唤醒概率阈值,则将所述语音数据帧作为候选数据帧,并判断是否存在连续的所述候选语音数据帧,且判断所述候选语音数据帧的帧数是否满足预设的帧阈值,然后,在获知所述候选语音数据帧的帧数满足所述帧阈值的情况下,将所述候选语音数据帧对应的尾端概率与预设的尾端概率阈值进行比较;如果所述尾端概率大于所述尾端概率阈值,则将所述候选语音数据帧作为目标语音数据帧,并获取所述目标语音数据帧的帧数;计算所述目标语音数据帧的帧数与所述候选语音数据帧的帧数的比值,获取所述唤醒置信度。由此可见,这样通过唤醒概率和尾端概率进行融合推断获取唤醒置信度的方式降低了将尾端误判提前的概率,保证了唤醒的准确时机,避免提前唤醒,后续唤醒语音作为噪音进入语音交互***,对用户造成不好的体验。
在一些实施例中,控制器250检测所述唤醒置信度是否满足预设的唤醒条件,以判断是否开启语音交互服务的具体方式为:将所述唤醒置信度与预设的置信度阈值进行比较,响应于所述唤醒置信度大于所述置信度阈值的情况,则开启语音交互服务,响应于所述唤醒置信度不大于所述置信度阈值的情况,则不开启语音交互服务,继续进行检测,保证语音服务的交互开启时机的准确性。
图4中示出了本申请实施例提供的语音交互方法的流程示意图,如图4所示,本申请实施例提供的语音交互方法包括如下步骤:
S401、接收用户输入的语音指令。
本申请实施例提供的语音交互方法应用于语音交互设备与用户之间的智能服务场景,语音唤醒是用户与语音交互设备之间进行语音交互的入口,例如用户与智能电视、智能汽车、智能玩具等设备进行语音交互的应用场景。需要说明的是,这些语音交互设备都具备语音采集、语音识别,语音合成等语音服务功能,具体是指语音交互设备在休眠状态下检测到用户所说出的特定语音词后,语音交互设备切换到正常工作状态,进而开启语音交互。示例性的,语音交互设备可以通过内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过语音交互设备外部设置的语音控制设备来接收用户的语音指令,还可以通过控制器、检测器等接收用户的语音指令。
为清楚说明本申请实施例应用的语音交互场景,下面结合图5对本申请实施例提供的一种语音交互的网络架构进行描述。参见图5,图5为本申请实施例提供的一种语音交互网络架构示意图。图5中,语音交互设备用于接收用户输入的语音指令以及输出对该语音指令的处理结果,其中,该语音指令可以用于唤醒语音交互设备,可以用于指示目标设备切换处理状态等。具体来说,语音识别模块部署有语音识别服务(ASR),用于将音频识别为文本,在接收到通过语音输入的语音指令后,对语音指令的音频进行降噪处理和特征提取,这里的降噪处理可包括去除回声和环境噪声等步骤。语义理解模块部署有语音理解服务(NLU),用于对文本进行语义解析,利用声学模型和语言模型,对识别出的候选文本和相关联的上下文信息进行自然语言理解,将文本解析为结构化的、机器可读的信息,业务领域、意图、词槽等信息以表达语义等,从而得到可执行意图确定意图置信度得分,语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图。对话管理模块部署有业务指令管理服务(DM),用于提供业务指令,向相应的业务管理模块下发执行指令以执行语音指令对应的操作,并对语音指令对应的操作的执行结果进行反馈;语言生成模块部署有语言生成服务(NLG),用于将指示语音交互设备执行的指令转化为文本语言;语音合成模块部署有语音合成(TTS)服务,用于将指令对应的文本语言处理后发送至扬声器进行播报,让用户接受到输出的语音信息。需要说明的是,在另一个实施例中,图5所示架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个实体服务设备中集合一项或多项功能服务。
S402、对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征。
在接收到用户输入的语音指令后,对语音指令的音频数据流进行分帧处理,获取至少一个语音数据帧。其中,需要说明的是,可以根据实际的应用场景需要设置语音数据帧的帧长,例如,根据处理设备的设备资源和处理性能设置帧长,从而按照预先设置的帧长进行分帧处理,保证了后续处理的顺滑。
然后,对分帧后的语音数据帧进行数据处理,提取语音数据帧对应的语音特征。需要说明的是,可以根据应用场景的需要提取不同的语音特征进行后续的语音处理流程,例如包括但不限制于:梅尔倒谱系数特征、频谱图特征和音频能量特征中的至少一种。为了更加清楚的说明特征提取的处理过程,通过图6进行具体说明。
图6为本实施例提供的语音指令的时频图,如图6所示,当用户输入的语音指令为“你好,小H”时,通过频谱检测可以获取该语音指令对应的时序频谱波形图。根据预设的帧长对该语音指令进行分帧处理后获取多个语音数据帧,然后对每个语音数据帧进行预处理、快速傅里叶变换、Mei滤波器组、对数运算、离散余弦变换、动态特征提取等步骤,获取每个语音数据帧对应的梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)作为该语音数据数据帧对应的语音特征。
在一些实施例中,需要强调的是,由于流式获取实时语音数据可能会大于帧长,前后帧之间也会有部分重叠的部分,所以可以将历史计算过的语音特征进行缓存,下一帧使用的重复部分可以直接调取之前存储的计算结果,避免重复计算,节约了计算资源,提高了处理速度。
S403、对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率。
在获取语音数据帧对应的语音特征后,可以根据不同的处理策略对语音特征进行数据处理,同时获取该语音数据帧对应的唤醒概率和尾端概率,其中,唤醒概率用于表示当前的语音指令是否属于唤醒指令类别的概率,尾端概率用于表示当前的语音指令是否到达了尾端结束类别的概率,通过两种概率任务的双重检测,为后续的置信判决提供了判断正确的双重基础。目前的一些唤醒识别场景只检测唤醒概率,只根据唤醒概率进行后续判决,但是又由于检测精度低,或者应用场景噪音小,语音清晰等原因,认为满足了唤醒概率阈值,其实是提前误判到达了唤醒的尾端,所以本示例需要同时检测唤醒概率和尾端概率进行后续唤醒判决,防止由于环境因素或者检测因素对尾端情况进行误判。
为了更加清楚的说明语音数据帧对应的唤醒概率和尾端概率获取过程,举例说明如下:
示例一,参见图6,可以看到语音指令的时频图特征中,不同的语音信息点对应的频谱特征不同,通过对频谱图上关键频谱点的特征采集作为第一候选特征点,将第一候选特征点与特征数据库中存储的唤醒指令对应的第一目标特征点进行匹配,根据第一候选特征点和第一目标特征点之间的匹配结果,获取当前的语音数据帧对应的唤醒概率。进一步地,通过对频谱图上尾部频谱点的特征采集作为第二候选特征点,将第二候选特征点与特征数据库中存储的唤醒指令尾部对应的第二目标特征点进行匹配,根据第二候选特征点和第二目标特征点之间的匹配结果,获取当前的语音数据帧对应的尾端概率。
示例二,采用预先获取的样本集训练第一神经网络模型和第二神经网络模型的模型参数,其中,神经网络模型的精度可以根据计算资源的不同进行选择和匹配,可以包括但不限制于:神经网络-隐马尔科夫模型、循环神经网络、卷积神经网络等。将待处理的语音特征输入预先训练好的第一神经网络模型进行处理分类后,输出语音数据帧对应的唤醒概率,以及将待处理的语音特征输入预先训练好的第二神经网络模型进行处理分类后,输出语音数据帧对应的尾端概率。
需要说明的是,由于语音特征的类别不同,所表现出来的数据形式也不同,语音数据帧对应的唤醒概率和尾端概率所采用的的概率获取方式可以根据应用场景进行选择。
S404、基于所述语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度。
对上述过程获取的语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取用于进行唤醒决策的唤醒置信度。为了更加清楚的说明如何融合唤醒概率和尾端概率确定唤醒置信度,举例说明如下:
示例一,获取预设的与唤醒概率对应的第一置信度因子,以及与尾端概率对应的第二置信度因子,计算第一置信度因子与每帧唤醒概率之间乘积后的第一计算结果,以及计算每帧的尾端概率与第二置信度因子之间乘积后的第二计算结果,对第一计算结果和第二计算结果求和后获取唤醒置信度。
示例二,将每帧语音数据帧的唤醒概率与预设的唤醒概率阈值进行比较,筛选出大于唤醒概率阈值的第一目标帧,以及将每帧语音数据帧的尾端概率与预设的尾端概率阈值进行比较,筛选出大于尾端概率阈值的第二目标帧,按照预设的公式对所述第一目标帧对应的唤醒概率和第二目标帧对应的尾端概率进行计算处理,获取唤醒置信度。
需要说明的是,可以根据应用场景和不同设备性能,以及检测精度要求选择不同的处理方式对唤醒概率和尾端概率进行融合处理获取唤醒置信度,此处不再赘述。
S405、检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知所述唤醒置信度满足所述唤醒条件,则开启语音交互服务。
按照不同的唤醒置信度的获取方式,预先设置不同的唤醒条件,举例说明,例如,唤醒开启的条件为唤醒置信度大于或者等于预设阈值,或者,唤醒开启的条件为唤醒置信度与预设唤醒因子的比值小于预设门限值等,可以根据应用需求进行设置。最后,检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知该唤醒置信度满足唤醒条件,则开启语音交互服务,向用户发送语音交互开启提示信息,如果检测获知唤醒置信度不满足唤醒条件,则不开启语音交互服务。
基于上述示例过程,本申请实施例提供的语音交互方法,在语音交互设备接收到用户输入的语音指令时,对语音指令中的语音数据帧进行特征提取,获取语音数据帧对应的语音特征,并且对语音特征进行数据处理,获取语音数据帧对应的唤醒概率和尾端概率,进而基于语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度,通过检测唤醒置信度是否满足预设的唤醒条件,如果检测获知唤醒置信度满足唤醒条件,则开启语音交互服务,如果检测获知唤醒置信度不满足唤醒条件,则不开启语音交互服务。由于本申请实施例提供的语音交互方法,可以对输入的语音特征进行语音唤醒检测和语音尾端点检测两个任务联合的检测识别,获取语音数据帧的语音唤醒概率以及是否为尾端语音的概率,同时利用所检测到的语音数据帧的唤醒概率和尾端概率进行融合推理,得到当前输入语音数据流的唤醒置信度,通过当前的唤醒置信度进行判决,是否满足唤醒条件,如果满足唤醒条件,则确定唤醒成功,开启用户和语音交互设备之间的语音交互服务。需要强调的是,通过语音唤醒检测和语音尾端点检测两个任务的双重检测,保证了即便在输入语音清晰的场景下,也不会在唤醒概率大于阈值的时候就贸然判断唤醒成功,提前判断到达了唤醒语音的尾端,造成提前开启语音交互服务带来的不良体验,甚至会把唤醒语音作为噪音带入语音交互服务***,造成后续语音交互的错误识别,大大提高了语音唤醒检测的准确性,在用户与智能电视、智能汽车、智能玩具等设备进行语音交互的应用场景都能带来良好体验,降低了语音唤醒识别不准确的概率。
作为对上述实施例的扩展和细化,图7所示为本申请实施例提供另一种语音交互方法的流程示意图,参照图7所示,该语音交互方法包括:
S701、接收用户输入的语音指令。
S702、对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征。
其中,S701和S702其实现原理与技术效果类似上述实施例中的S401和S402,此处不再赘述。
S703、获取预先训练的唤醒和尾端联合概率检测模型,将所述语音特征输入所述唤醒和尾端联合概率检测模型进行数据处理,输出所述语音数据帧对应的唤醒概率和尾端概率。
在一些实施例中,为了提高唤醒概率和尾端概率的计算效率,提前采集唤醒样本的数据集,并构建用于联合检测唤醒概率和尾端概率双任务的神经网络模型。其中,该神经网络模型的具体结构可以根据模型布局的设备终端的性能,以及应用场景的精度需求不同进行不同的设置,后续的实施例中会具体示例对唤醒概率和尾端概率双任务检测的神经网络模型的具体结构,本实施例不再赘述。
进而,通过该唤醒样本的数据集对双任务的神经网络模型进行训练,获取模型参数,从而得到训练好的唤醒和尾端联合概率检测模型。将语音数据帧提取出来的语音特征输入该唤醒和尾端联合概率检测模型进行数据处理,可以同时输出语音数据帧对应的唤醒概率和尾端概率,大大提高了检测效率,适用于对检测速度要求高的应用场景。
S704、将所述语音数据帧对应的唤醒概率与预设的唤醒概率阈值进行比较,如果所述唤醒概率大于所述唤醒概率阈值,则将所述语音数据帧作为候选数据帧,并判断是否存在连续的所述候选语音数据帧,且判断所述候选语音数据帧的帧数是否满足预设的帧阈值。
S705、在获知所述候选语音数据帧的帧数满足所述帧阈值的情况下,将所述候选语音数据帧对应的尾端概率与预设的尾端概率阈值进行比较。
S706、如果所述尾端概率大于所述尾端概率阈值,则将所述候选语音数据帧作为目标语音数据帧,并获取所述目标语音数据帧的帧数。
S707、计算所述目标语音数据帧的帧数与所述候选语音数据帧的帧数的比值,获取所述唤醒置信度。
在一些实施例中,由于应用场景对唤醒识别的检测精度要求高,为了保证唤醒的准确率,避免单独使用唤醒概率进行唤醒决策时,未到唤醒词尾点便进行唤醒给语音交互***带来错误影响。为了保证高精度的唤醒检测,本示例基于预设的唤醒概率阈值和尾端概率阈值对当前所获取的每个语音数据帧对应的唤醒概率和尾端概率进行融合推理获取唤醒置信度。其中,唤醒概率阈值和唤醒词尾端概率阈值可以根据检测精度的要求进行匹配设置和调整。
将每个语音数据帧对应的唤醒概率与预设的唤醒概率阈值进行比较,如果唤醒概率大于该唤醒概率阈值,则将该语音数据帧作为候选数据帧,并判断当前是否可以检测到存在连续的候选语音数据帧,并获取候选语音数据帧的帧数K。进而判断候选语音数据帧的帧数K是否满足预设的帧阈值,其中,需要说明的是,帧阈值可以根据检测精度的要求进行匹配设置和调整。
在获知候选语音数据帧的帧数满足预设的帧阈值的情况下,将候选语音数据帧对应的尾端概率与预设的尾端概率阈值进行比较,根据比较结果获知,如果尾端概率大于该尾端概率阈值,则将候选语音数据帧作为目标语音数据帧,并获取目标语音数据帧的帧数M。
接着,计算目标语音数据帧的帧数M与候选语音数据帧的帧数K的比值,将比值结果作为融合唤醒概率和尾端概率处理后的唤醒置信度。
为了更加清楚表达上述实施过程,举例说明如下,设定唤醒概率阈值为0.8和唤醒尾端概率阈值0.9,帧阈值设置为20。如果检测获知当连续20帧的语音唤醒概率大于唤醒概率阈值时,统计这20帧尾端概率超过尾端概率阈值的帧个数为18,计算18与20的比值0.9,从而得到对唤醒概率和尾端概率进行融合处理后得到的唤醒置信度为0.9。
S708、将所述唤醒置信度与预设的置信度阈值进行比较。
S709、响应于所述唤醒置信度大于所述置信度阈值的情况,则开启语音交互服务。
在一些实施例中,根据检测精度的要求设置置信度阈值,该置信度阈值可以根据需要进行调整。将唤醒置信度与该置信度阈值进行比较,如果检测获知该唤醒置信度大于该置信度阈值,则开启语音交互服务,向用户发送语音交互开启提示信息,如果检测获知唤醒置信度小于或者等于该置信度阈值,则不开启语音交互服务。举例说明如下:在置信度阈值设置为0.8的情况下,如果对唤醒概率和尾端概率进行融合处理后得到的唤醒置信度为0.9,判断获知0.9大于0.8,则输出唤醒决策,开启语音交互服务***,如果对唤醒概率和尾端概率进行融合处理后得到的唤醒置信度为0.7,判断获知0.7大于0.8,则输出休眠决策继续休眠,不开启语音交互服务***。
基于上述示例过程,本申请实施例提供的语音交互方法,在语音交互设备接收到用户输入的语音指令时,对语音指令中的语音数据帧进行特征提取,获取语音数据帧对应的语音特征,将语音特征输入预先训练的唤醒和尾端联合概率检测模型进行数据处理,执行输出语音数据帧对应的唤醒概率和尾端概率的双任务概率,进而基于预设的唤醒概率阈值和尾端概率阈值对当前所获取的每个语音数据帧对应的唤醒概率和尾端概率进行融合推理获取唤醒置信度,如果检测获知唤醒置信度大于置信度阈值,则开启语音交互服务。由于本申请实施例提供的语音交互方法,通过预先训练的唤醒和尾端联合概率检测模型可以同时对输入的语音特征进行语音唤醒检测和语音尾端点检测两个任务联合的检测识别,快速高效准确的获取语音数据帧的语音唤醒概率以及尾端语音的概率,同时提高了利用所检测到的语音数据帧的唤醒概率和尾端概率进行融合推理,得到当前输入语音数据流的唤醒置信度的效率,给响应速度要求高的语音交互的应用场景带来良好体验,在降低了语音唤醒识别不准确的概率的同时,进一步提高了唤醒识别的处理效率。
进一步地,由于不同的语音交互设备的设备性能和资源处理能力不同,针对处理能力和功耗受限的语音交互设备,难以直接在该语音交互设备上任意部署唤醒和尾端联合概率检测模型,进行语音唤醒检测和语音尾端点检测两个任务联合的检测识别,为了匹配该处理能力和功耗受限的语音交互设备,下面实施例介绍一种基于深度残差网络和一维时间卷积网络构建的唤醒和尾端联合概率检测模型。
图8示出了一些实施例中唤醒和尾端联合概率检测模型的训练步骤流程图,参照图8所示,该唤醒和尾端联合概率检测模型的训练方法包括:
S801、采集样本唤醒数据集。
基于不同的语音交互设备与用户之间的智能服务场景,采集不同的样本唤醒数据集,例如用户与智能电视之间的样本唤醒数据、用户与智能汽车之间的样本唤醒数据、用户与智能玩具之间的样本唤醒数据等。
S802、根据所述语音交互设备的性能参数确定网络模块数量,并基于所述网络模块数量构建至少一个残差模块连接的深度残差网络。
S803、构建一维时间卷积网络。
S804、基于所述深度残差网络和所述一维时间卷积网络构建待训练的唤醒和尾端联合概率检测模型。
针对当前基于深度学习模型进行的语音唤醒技术,例如基于DNN-HMM、RNN、CNN等模型进行的语音唤醒识别,受限于语音交互设备的资源和功耗限制,难以直接进行部署,限制了深度学习模型在端侧设备的应用。本实施例为了减少计算资源和功耗消耗的同时,还保证唤醒识别的准确率,基于深度残差网络和一维时间卷积网络构建待训练的唤醒和尾端联合概率检测模型,具体的模型结构如图9所示,图9为唤醒和尾端联合概率检测模型的结构图。
参见图9,首先,根据语音交互设备的性能参数确定网络模块数量,并基于网络模块数量构建至少一个残差模块串行连接的深度残差网络,其中,网络模块数量Nx大于或者等于1,图中所示的虚线框为一个基于深度残差网络和一维时间卷积网络的网络单元。具体的,每个残差模块包括:串联的第一卷积单元conv1、第一归一化单元BN1、第一线性整流函数单元RELU1、第二卷积单元conv2、第二归一化单元BN2、第二线性整流函数单元RELU2、其中,在第二归一化单元BN2与第二线性整流函数单元RELU2之间设置加法处理单元,加法处理单元的第一输入端连接第一卷积单元conv1的输入端,加法处理单元的第二输入端连接第二归一化单元BN2的输出端,加法处理单元的输出端连接第二线性整流函数单元RELU2的输入端。
进而,虚线框显示的Nx个残差模块的输入端连接初始卷积层conv,虚线框显示的Nx个残差模块的输出端连接池化层pooling,池化层的输出端连接第一全连接层FC1和第二全连接层FC2。
最后,将初始卷积层conv设置为3X1的一维时间卷积网络,以及将第一卷积单元conv1和第二卷积单元conv2设置为9X1的一维时间卷积网络。
S805、通过所述样本唤醒数据集训练所述唤醒和尾端联合概率检测模型的模型参数。
通过采集的样本唤醒数据集训练图9所示的唤醒和尾端联合概率检测模型的模型参数。为了保证模型参数训练的准确性,提高唤醒概率检测和尾端检测概率的准确性,对模型训练所使用的损失函数进行了设置。其中,该唤醒和尾端联合概率检测模型在进行训练时以池化损失的最大值作为唤醒检测的第一损失函数。第一损失函数的具体表达式如下所示:
其中,为语音指令中不属于唤醒词的语音数据帧,表示模型给出语音帧不属于唤醒词的概率,表示模型给出语音帧属于唤醒词的概率,表示所标记为所输入语音中唤醒词概率的最大的语音帧。此损失函数的应用避免了难以为语音唤醒词每一帧打上正确标签而给模型带来相应误差,进而影响唤醒性能。其中,所述唤醒和尾端联合概率检测模型在进行训练时以交叉熵作为尾端检测的第二损失函数。
为了进一步的提高唤醒和尾端联合概率检测模型的模型参数训练的准确性,通过权重因子对第一损失函数和第二损失函数进行融合处理获取目标损失函数。具体来说,获取第一权重因子和第二权重因子,计算第一权重因子与第一损失函数的第一乘积结果,以及计算和第二权重因子与第二损失函数的第二乘积结果,对第一乘积结果和第二乘积结果求和处理,获取训练唤醒和尾端联合概率检测模型使用的目标损失函数。为了更加清楚的说明如何通过第一损失函数和第二损失函数确定目标损失函数的确定过程,举例说明如下:通过权重因子α平衡两个训练任务,总体损失函数可表示如下所示:其中,为第一损失函数,为第二损失函数,loss为目标损失函数,通过目标损失函数在训练过程中进行反向传播训练,获取唤醒和尾端联合概率检测模型的模型参数。
训练好图9所示的唤醒和尾端联合概率检测模型后,可以通过该模型对语音数据帧提取的语音特征进行唤醒概率和尾端概率的双重检测任务,具体如下:
将语音特征输入唤醒和尾端联合概率检测模型中的初始卷积层进行处理,输出第一音频特征;
将第一音频特征输入唤醒和尾端联合概率检测模型中至少一个由深度残差网络和所述一维时间卷积网络组成的网络单元进行处理,输出第二音频特征;
将第二音频特征输入池化层处理,输出第三音频特征;
将第三音频特征输入第一全连接层进行分类处理,输出语音数据帧对应的唤醒概率;
将第三音频特征输入第二全连接层进行分类处理,输出语音数据帧对应的尾端概率。
基于上述示例过程,本申请实施例提供的语音交互方法,基于深度残差网络和一维时间卷积网络构建的唤醒和尾端联合概率检测模型,将语音特征输入预先训练的唤醒和尾端联合概率检测模型进行数据处理,执行输出语音数据帧对应的唤醒概率和尾端概率的双任务概率,进而基于预设的唤醒概率阈值和尾端概率阈值对当前所获取的每个语音数据帧对应的唤醒概率和尾端概率进行融合推理获取唤醒置信度。由于深度残差网络保证了识别的准确性,一维时间网络减少了计算处理的资源,因此,针对唤醒检测性能要求高,但是处理资源和功耗受限的语音交互设备来说,可以部署本实施例提供的唤醒和尾端联合概率检测模型进行语音唤醒处理,提高了模型部署的灵活性和识别的准确性,进一步给响应速度要求高但是资源受限的语音交互的应用场景带来良好体验。
参照图10所示,图10为用于实现图4所示的语音交互方法的语音交互设备的结构示意图。该语音交互设备可以包括:第一接收模块1001,用于接收用户输入的语音指令,第一提取模块1002,用于对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征;第一获取模块1003,用于对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率;第一处理模块1004,基于所述语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度;第一检测模块1005,用于检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知所述唤醒置信度满足所述唤醒条件,则开启语音交互服务
需要说明的是,本实施例中提供的各模块的具体实施过程和技术效果参见图4所示的语音交互方法的实施例,此处不再赘述。
参照图11所示,图11为用于实现图7所示的语音交互方法的语音交互设备的结构示意图。该语音交互设备可以包括:第二接收模块1101,用于接收用户输入的语音指令,第二提取模块1102,用于对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征。第二获取模块1103,用于获取预先训练的唤醒和尾端联合概率检测模型,将所述语音特征输入所述唤醒和尾端联合概率检测模型进行数据处理,输出所述语音数据帧对应的唤醒概率和尾端概率。第一比较模块1104,用于将所述语音数据帧对应的唤醒概率与预设的唤醒概率阈值进行比较,如果所述唤醒概率大于所述唤醒概率阈值,则将所述语音数据帧作为候选数据帧,并判断是否存在连续的所述候选语音数据帧,且判断所述候选语音数据帧的帧数是否满足预设的帧阈值;第二比较模块1105,用于在获知所述候选语音数据帧的帧数满足所述帧阈值的情况下,将所述候选语音数据帧对应的尾端概率与预设的尾端概率阈值进行比较。第三获取模块1106,用于如果所述尾端概率大于所述尾端概率阈值,则将所述候选语音数据帧作为目标语音数据帧,并获取所述目标语音数据帧的帧数;计算模块1107,用于计算所述目标语音数据帧的帧数与所述候选语音数据帧的帧数的比值,获取所述唤醒置信度。第三比较模块1108,用于将所述唤醒置信度与预设的置信度阈值进行比较。唤醒模块1109,用于响应于所述唤醒置信度大于所述置信度阈值的情况,则开启语音交互服务。
需要说明的是,本实施例中提供的各模块的具体实施过程和技术效果参见图7所示的语音交互方法的实施例,此处不再赘述。
参照图12所示,图12为用于实现图8所示的模型训练方法的语音交互设备的结构示意图。该语音交互设备可以包括:采集模块1201,用于采集样本唤醒数据集;第一构建模块1202,用于根据所述语音交互设备的性能参数确定网络模块数量,并基于所述网络模块数量构建至少一个残差模块连接的深度残差网络;第二构建模块1203,用于构建一维时间卷积网络;第三构建模块1204,用于基于所述深度残差网络和所述一维时间卷积网络构建待训练的唤醒和尾端联合概率检测模型;网络训练模块1205,用于通过所述样本唤醒数据集训练所述唤醒和尾端联合概率检测模型的模型参数。
需要说明的是,本实施例中提供的各模块的具体实施过程和技术效果参见图8所示的语音交互方法的实施例,此处不再赘述。
在一些实施例中,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所述电子设备实现上述任一实施例所述的语音交互方法。
在一些实施例中,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现上述任一实施例所述的语音交互方法。
在一些实施例中,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机实现第二方面或第二方面任一实施例所述的语音交互方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (10)
1.一种语音交互设备,其特征在于,包括:
检测器,被配置为接收用户输入的语音指令;
控制器,被配置为对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征;
对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率;
基于所述语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度;
检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知所述唤醒置信度满足所述唤醒条件,则开启语音交互服务。
2.根据权利要求1所述的语音交互设备,其特征在于,还包括:
存储器,被配置为存储所述语音数据帧对应的语音特征,其中,所述语音特征包括:梅尔倒谱系数特征、频谱图特征和音频能量特征中的至少一种。
3.根据权利要求1所述的语音交互设备,其特征在于,所述控制器被具体配置为:
获取预先训练的唤醒和尾端联合概率检测模型;
将所述语音特征输入所述唤醒和尾端联合概率检测模型进行数据处理,输出所述语音数据帧对应的唤醒概率和尾端概率。
4.根据权利要求3所述的语音交互设备,其特征在于,所述控制器还被配置为:
采集样本唤醒数据集;
根据所述语音交互设备的性能参数确定网络模块数量,并基于所述网络模块数量构建至少一个残差模块连接的深度残差网络。
5.根据权利要求4所述的语音交互设备,其特征在于,所述控制器还被配置为:
构建一维时间卷积网络;
基于所述深度残差网络和所述一维时间卷积网络构建待训练的唤醒和尾端联合概率检测模型;
通过所述样本唤醒数据集训练所述唤醒和尾端联合概率检测模型的模型参数,其中,所述唤醒和尾端联合概率检测模型在进行训练时以池化损失的最大值作为唤醒检测的第一损失函数,同时以交叉熵作为尾端检测的第二损失函数。
6.根据权利要求5所述的语音交互设备,其特征在于,所述控制器还被配置为:
获取预设的第一权重因子和第二权重因子;
计算所述第一权重因子与所述第一损失函数的第一乘积结果,以及计算和所述第二权重因子与所述第二损失函数的第二乘积结果;
对所述第一乘积结果和所述第二乘积结果求和处理,获取训练所述唤醒和尾端联合概率检测模型使用的目标损失函数。
7.根据权利要求5所述的语音交互设备,其特征在于,所述控制器被具体配置为:
将所述语音特征输入所述唤醒和尾端联合概率检测模型中的初始卷积层进行处理,输出第一音频特征;
将所述第一音频特征输入所述唤醒和尾端联合概率检测模型中至少一个由所述深度残差网络和所述一维时间卷积网络组成的网络单元进行处理,输出第二音频特征;
将所述第二音频特征输入池化层处理,输出第三音频特征;
将所述第三音频特征输入第一全连接层进行分类处理,输出所述语音数据帧对应的唤醒概率;
将所述第三音频特征输入第二全连接层进行分类处理,输出所述语音数据帧对应的尾端概率。
8.根据权利要求1所述的语音交互设备,其特征在于,所述控制器被具体配置为:
将所述语音数据帧对应的唤醒概率与预设的唤醒概率阈值进行比较,如果所述唤醒概率大于所述唤醒概率阈值,则将所述语音数据帧作为候选数据帧,并判断是否存在连续的所述候选语音数据帧,且判断所述候选语音数据帧的帧数是否满足预设的帧阈值;
在获知所述候选语音数据帧的帧数满足所述帧阈值的情况下,将所述候选语音数据帧对应的尾端概率与预设的尾端概率阈值进行比较;
如果所述尾端概率大于所述尾端概率阈值,则将所述候选语音数据帧作为目标语音数据帧,并获取所述目标语音数据帧的帧数;
计算所述目标语音数据帧的帧数与所述候选语音数据帧的帧数的比值,获取所述唤醒置信度。
9.根据权利要求8所述的语音交互设备,其特征在于,所述控制器被具体配置为:
将所述唤醒置信度与预设的置信度阈值进行比较;
响应于所述唤醒置信度大于所述置信度阈值的情况,则开启语音交互服务。
10.一种语音交互方法,其特征在于,包括:
接收用户输入的语音指令;
对所述语音指令中的语音数据帧进行特征提取,获取所述语音数据帧对应的语音特征;
对所述语音特征进行数据处理,获取所述语音数据帧对应的唤醒概率和尾端概率;
基于所述语音数据帧对应的唤醒概率和尾端概率进行融合处理,获取唤醒置信度;
检测所述唤醒置信度是否满足预设的唤醒条件,如果检测获知所述唤醒置信度满足所述唤醒条件,则开启语音交互服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211740979.7A CN116129942A (zh) | 2022-12-30 | 2022-12-30 | 语音交互设备和语音交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211740979.7A CN116129942A (zh) | 2022-12-30 | 2022-12-30 | 语音交互设备和语音交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129942A true CN116129942A (zh) | 2023-05-16 |
Family
ID=86307532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211740979.7A Pending CN116129942A (zh) | 2022-12-30 | 2022-12-30 | 语音交互设备和语音交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129942A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012206A (zh) * | 2023-10-07 | 2023-11-07 | 山东省智能机器人应用技术研究院 | 一种人机语音交互*** |
-
2022
- 2022-12-30 CN CN202211740979.7A patent/CN116129942A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012206A (zh) * | 2023-10-07 | 2023-11-07 | 山东省智能机器人应用技术研究院 | 一种人机语音交互*** |
CN117012206B (zh) * | 2023-10-07 | 2024-01-16 | 山东省智能机器人应用技术研究院 | 一种人机语音交互*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107316643B (zh) | 语音交互方法及装置 | |
CN111223497B (zh) | 一种终端的就近唤醒方法、装置、计算设备及存储介质 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN111344780B (zh) | 基于上下文的设备仲裁 | |
US11551684B1 (en) | State detection and responses for electronic devices | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN110890093A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
US11258671B1 (en) | Functionality management for devices | |
US10685664B1 (en) | Analyzing noise levels to determine usability of microphones | |
CN111210829A (zh) | 语音识别方法、装置、***、设备和计算机可读存储介质 | |
CN110223687B (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN111128134A (zh) | 声学模型训练方法和语音唤醒方法、装置及电子设备 | |
CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互*** | |
CN116129942A (zh) | 语音交互设备和语音交互方法 | |
CN110808050B (zh) | 语音识别方法及智能设备 | |
CN111192590A (zh) | 语音唤醒方法、装置、设备及存储介质 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN113225624A (zh) | 一种语音识别耗时确定方法和装置 | |
US20240021194A1 (en) | Voice interaction method and apparatus | |
CN109377993A (zh) | 智能语音***及其语音唤醒方法及智能语音设备 | |
CN111048068B (zh) | 语音唤醒方法、装置、***及电子设备 | |
CN112269468A (zh) | 基于蓝牙、2.4g、wifi连接获取云端资讯的人机交互智能眼镜、方法及其平台 | |
CN116229962A (zh) | 终端设备及语音唤醒方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |