CN110288997A - 用于声学组网的设备唤醒方法及*** - Google Patents

用于声学组网的设备唤醒方法及*** Download PDF

Info

Publication number
CN110288997A
CN110288997A CN201910660543.9A CN201910660543A CN110288997A CN 110288997 A CN110288997 A CN 110288997A CN 201910660543 A CN201910660543 A CN 201910660543A CN 110288997 A CN110288997 A CN 110288997A
Authority
CN
China
Prior art keywords
intelligent sound
sound equipment
user
wake
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910660543.9A
Other languages
English (en)
Other versions
CN110288997B (zh
Inventor
周强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201910660543.9A priority Critical patent/CN110288997B/zh
Publication of CN110288997A publication Critical patent/CN110288997A/zh
Application granted granted Critical
Publication of CN110288997B publication Critical patent/CN110288997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种用于声学组网的设备唤醒方法。该方法包括:确定各类型的智能语音设备的增益参数;监听声学组网下的各智能语音设备,当智能语音设备被唤醒指令激活时,获取智能语音设备录制的音频以及唤醒指令的置信度;根据增益参数对各自录制的音频能量分析增益校准,根据各待选智能语音设备与用户的距离,待选智能语音设备与用户的方向;至少将各待选智能语音设备与用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。本发明实施例还提供一种用于声学组网的设备唤醒***。本发明实施例降低声学组网内智能语音的配置需求,有效确定反馈的目标声学设备,提升用户的交互体验。

Description

用于声学组网的设备唤醒方法及***
技术领域
本发明涉及智能语音交互领域,尤其涉及一种用于声学组网的设备唤醒方法及***。
背景技术
随着智能语音的快速发展,出现了越来越多的带有语音交互功能的智能设备供用户使用,例如,智能音箱、智能电视、智能故事机,甚至于比较高级的智能台灯都可以使用语音交互。这些设备响应于用户唤醒指令的唤醒后,与用户进行交互。
用户在选购智能语音设备时,会有一些“品牌信仰”,或是为了与已有的智能语音设备配套,会考虑购买相同的品牌的智能语音设备。由于相同品牌的智能语音设备的唤醒指令基本相同,例如这些智能语音设备的唤醒指令都为“小C小C”。当用户在配有多种相同品牌的智能设备的环境中,发出唤醒指令“小C小C”时,周围的多个智能设备都会被误激活,为了避免这一情况,会使用声学组网将这些设备配置在同一个组网下,通过声学组网来确定用于反馈用户的智能电子设备。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
为了确定用于反馈用户的智能电子设备,需要确定用户距各电子设备的位置,通常会使用远场声源定位方法或者采用多个麦克风阵列,利用唤醒段信号的声音强度,并利用波束形成算法计算信号的方位,再通过三角测量原理计算出用户的声源位置。但这些定位方法需要组网内的智能语音设备具有超声***用来测量距离,声学组网内的智能语音设备由于类型各不相同,难以满足这种配置要求,并且鲁棒性较差,可能会调度不符合用户期望(距离用户较远,或方向不对应)的智能语音设备进行反馈,难以应用于真实语音设备组网***。
发明内容
为了至少解决现有技术中用于声学组网的设备要求比较高,鲁棒性较差,难以应用于真实语音设备组网***的问题。
第一方面,本发明实施例提供一种用于声学组网的设备唤醒方法,包括:
通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准,确定各类型的智能语音设备的增益参数;
监听所述声学组网下的各智能语音设备,当至少一台智能语音设备被用户的唤醒指令激活时,获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度;
根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准,至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离,对增益校准后的音频进行高低频一致性分析,确定所述待选智能语音设备与用户的方向;
至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
第二方面,本发明实施例提供一种用于声学组网的设备唤醒***,包括:
增益参数确定程序模块,用于通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准,确定各类型的智能语音设备的增益参数;
置信度确定程序模块,用于监听所述声学组网下的各智能语音设备,当至少一台智能语音设备被用户的唤醒指令激活时,获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度;
参数确定程序模块,用于根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准,至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离,对增益校准后的音频进行高低频一致性分析,确定所述待选智能语音设备与用户的方向;
唤醒程序模块,用于至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于声学组网的设备唤醒方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于声学组网的设备唤醒方法的步骤。
本发明实施例的有益效果在于:根据在配网中的增益测量,确定不同设备的增益参数,缓解各智能语音设备所搭载的麦克风和声学结构的差异以及录制音频幅度存在的误差,降低声学组网内智能语音的配置需求。通过训练的神经网络融合分析,考虑多个维度,有效确定反馈的目标声学设备,提升用户的交互体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于声学组网的设备唤醒方法的流程图;
图2是本发明一实施例提供的一种用于声学组网的设备唤醒***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于声学组网的设备唤醒方法的流程图,包括如下步骤:
S11:通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准,确定各类型的智能语音设备的增益参数;
S12:监听所述声学组网下的各智能语音设备,当至少一台智能语音设备被用户的唤醒指令激活时,获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度;
S13:根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准,至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离,对增益校准后的音频进行高低频一致性分析,确定所述待选智能语音设备与用户的方向;
S14:至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
在本实施方式中,组网技术就是网络组建技术,计算机网络的类型有很多,根据不同的组网技术有不同的分类依据,其中,声学网络就是专门由智能语音设备组建的专属网络。
在声学组网中的各智能语音设备反馈用户时,如果声学组网调度了距离用户较远、或者单单考虑距离,而不关心用户说话的朝向、或者一些其他因素,虽然调度的资源也可以通过智能语音设备反馈给用户,但是由于所调度的智能语音设备与用户距离远、方向背对、或是其他情况,都会在一定程度上影响用户的体验。
对于步骤S11,由于组网内各智能语音设备的类型各不相同,例如,智能音箱、智能电视、智能故事机、智能台灯,这些设备所搭载的麦克风和声学结构不一样,所以录进来的音频幅度也存在这一些差别,所以首先要对声学组网中的不同设备进行增益测量,将这些设备增益到音频幅度相对相同的情况。通过预设标准训练语音,例如录制一段标准人声语音,作为标准训练语音,对同一声学组网协议下各不同类型的智能语音设备进行增益校准,其中,声学组网一般是可以有同组网协议的设备群,例如同一个品牌的智能语音设备有着同组网协议,在建立组网的过程中,将若干同一品牌的智能语音设备,放在一起,通过增益校验模式,根据录制一段标准人声语音,进而通过所述标准人声语音,对每一个智能语音设备进行增益校准,得到各自的增益参数。
对于步骤S12,在步骤S11中声学组网组建后,实时监听在所述声学组网下的智能语音设备,当至少一台智能语音设备被用户的唤醒指令激活,例如,例如用户在配备有智能电视、智能音箱、智能故事机的卧室中,用户说了句“小C小C”,这时,这三个智能设备被用户的唤醒指令激活。此时,声学组网获取各激活中待选的智能语音设备(也就是智能电视、智能音箱、智能故事机)所录制的音频,由于这三个智能设备与用户的位置各不相同,在收录音频时,收录的效果会有一定差距,因此,对于唤醒指令置信度的确定也各有不同。
对于步骤S13,通过在步骤S11确定的各自智能语音设备的增益参数,对在步骤S12中获取的智能语音设备录制的音频进行各自的能量分析增益校准,以使得各智能语音设备录制的音频处于同样的基准。分别根据对增益校准后的音频进行直达声和混响比分析,确定出各智能语音设备相对于用户的距离,再对增益校准后的音频进行高低频一致性的分析,确定出各智能语音设备各自相对于用户的方向。
对于步骤S14,至少将各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入到预先训练的神经网络中进行信息融合分析。其中,神经网络是通过包含已知的智能语音设备与所述用户的距离、方向、唤醒指令的置信度以及确定反馈的智能设备的训练数据预先训练而得。例如:智能电视{置信度85%,距离2m,方向:正向}、智能音箱{置信度83%,距离1.8m,方向:背向}、智能故事机{置信度80%,距离2.5m,方向:背向}。最后,神经网络分别输出0.5、0.3、0.2。则唤醒用户反馈用户的智能设备为智能电视。其中,所述信息融合分析至少包括:通过决策树和/或支持向量机和/或最大似然进行信息融合分析。
通过该实施方式可以看出,根据在配网中的增益测量,确定不同设备的增益参数,缓解各智能语音设备所搭载的麦克风和声学结构差异以及录制音频幅度存在的误差,降低声学组网内智能语音的配置需求。通过训练的神经网络融合分析,考虑多个维度,有效确定反馈的目标声学设备,提升用户的交互体验。
作为一种实施方式,在本实施例中,所述方法还包括:
确定各待选的智能语音设备各自录制音频的信噪比,用于反应各待选的智能语音设备所录制音频的清晰程度;
至少将各待选的智能语音设备录制音频的清晰程度、各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
在本实施方式中,将各待选的智能语音设备所录制音频的清晰程度,也作为确定唤醒智能语音设备的一个维度,信噪比狭义来讲是指放大器的输出信号的功率与同时输出的噪声功率的比,常常用分贝数表示,设备的信噪比越高表明它产生的噪声越少。一般来说,信噪比越大,说明混在信号里的噪声越小,声音回放的音质量越高,否则相反。信噪比一般不应该低于70dB,高保真音箱的信噪比应达到110dB以上。
同样的,在训练神经网络时,训练数据中也要加入信噪比这一参数进行训练。
通过该实施方法可以看出,考虑更多的维度,更加有效确定反馈的目标声学设备,提高用户的体验。
作为一种实施方式,在本实施例中,所述方法还包括:
在所述同一声学组网协议下各不同类型的智能语音设备建立空间坐标系,分别向各智能语音设备发送发音指令;
基于所述各智能语音设备根据所述发音指令的发音,确定所述各智能语音设备在所述空间坐标系中的坐标,根据用户的唤醒指令的发音,确定用户在所述空间坐标系中的坐标;
至少将所述各待选智能语音设备与所述用户的坐标、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
在本实施方式中,为了反馈更加精确,在所述同一声学组网协议下各不同类型的智能语音设备建立空间坐标系,再通过各智能语音设备依次发声进行互相定位,进而确定出在所述空间坐标系中各智能语音设备的坐标。同样的,当用户发音时,再通过用户与各智能语音设备的距离,确定出用户在所述空间坐标系中的坐标。
同样的,在训练神经网络时,训练数据中也要加入坐标这一参数进行训练。
通过该实施方法可以看出,相较于距离,坐标对于空间的把握更加精确,更加有效确定反馈的目标声学设备,提高用户的体验。
如图2所示为本发明一实施例提供的一种用于声学组网的设备唤醒***的结构示意图,该***可执行上述任意实施例所述的用于声学组网的设备唤醒方法,并配置在终端中。
本实施例提供的一种用于声学组网的设备唤醒***包括:增益参数确定程序模块11,置信度确定程序模块12,参数确定程序模块13和唤醒程序模块14。
其中,增益参数确定程序模块11用于通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准,确定各类型的智能语音设备的增益参数;置信度确定程序模块12用于监听所述声学组网下的各智能语音设备,当至少一台智能语音设备被用户的唤醒指令激活时,获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度;参数确定程序模块13用于根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准,至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离,对增益校准后的音频进行高低频一致性分析,确定所述待选智能语音设备与用户的方向;唤醒程序模块14用于至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
进一步地,所述参数确定程序模块还用于:
确定各待选的智能语音设备各自录制音频的信噪比,用于反应各待选的智能语音设备所录制音频的清晰程度;
所述唤醒程序模块还用于,至少将各待选的智能语音设备录制音频的清晰程度、各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
进一步地,所述***还包括:
空间坐标建立程序模块,用于在所述同一声学组网协议下各不同类型的智能语音设备建立空间坐标系,分别向各智能语音设备发送发音指令;
坐标确定程序模块,用于基于所述各智能语音设备根据所述发音指令的发音,确定所述各智能语音设备在所述空间坐标系中的坐标,根据用户的唤醒指令的发音,确定用户在所述空间坐标系中的坐标;
所述唤醒程序模块还用于,至少将所述各待选智能语音设备与所述用户的坐标、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
进一步地,所述信息融合分析至少包括:通过决策树和/或支持向量机和/或最大似然进行信息融合分析,以唤醒用于反馈用户的智能设备。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于声学组网的设备唤醒方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准,确定各类型的智能语音设备的增益参数;
监听所述声学组网下的各智能语音设备,当至少一台智能语音设备被用户的唤醒指令激活时,获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度;
根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准,至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离,对增益校准后的音频进行高低频一致性分析,确定所述待选智能语音设备与用户的方向;
至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于声学组网的设备唤醒方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于声学组网的设备唤醒方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有智能语音功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于声学组网的设备唤醒方法,包括:
通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准,确定各类型的智能语音设备的增益参数;
监听所述声学组网下的各智能语音设备,当至少一台智能语音设备被用户的唤醒指令激活时,获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度;
根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准,至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离,对增益校准后的音频进行高低频一致性分析,确定所述待选智能语音设备与用户的方向;
至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
2.根据权利要求1所述的方法,其中,所述方法还包括:
确定各待选的智能语音设备各自录制音频的信噪比,用于反应各待选的智能语音设备所录制音频的清晰程度;
至少将各待选的智能语音设备录制音频的清晰程度、各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
3.根据权利要求1所述的方法,其中,所述方法还包括:
在所述同一声学组网协议下各不同类型的智能语音设备建立空间坐标系,分别向各智能语音设备发送发音指令;
基于所述各智能语音设备根据所述发音指令的发音,确定所述各智能语音设备在所述空间坐标系中的坐标,根据用户的唤醒指令的发音,确定用户在所述空间坐标系中的坐标;
至少将所述各待选智能语音设备与所述用户的坐标、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
4.根据权利要求1所述的方法,其中,所述信息融合分析至少包括:通过决策树和/或支持向量机和/或最大似然进行信息融合分析,以唤醒用于反馈用户的智能设备。
5.一种用于声学组网的设备唤醒***,包括:
增益参数确定程序模块,用于通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准,确定各类型的智能语音设备的增益参数;
置信度确定程序模块,用于监听所述声学组网下的各智能语音设备,当至少一台智能语音设备被用户的唤醒指令激活时,获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度;
参数确定程序模块,用于根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准,至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离,对增益校准后的音频进行高低频一致性分析,确定所述待选智能语音设备与用户的方向;
唤醒程序模块,用于至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
6.根据权利要求5所述的***,其中,所述参数确定程序模块还用于:
确定各待选的智能语音设备各自录制音频的信噪比,用于反应各待选的智能语音设备所录制音频的清晰程度;
所述唤醒程序模块还用于,至少将各待选的智能语音设备录制音频的清晰程度、各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
7.根据权利要求5所述的***,其中,所述***还包括:
空间坐标建立程序模块,用于在所述同一声学组网协议下各不同类型的智能语音设备建立空间坐标系,分别向各智能语音设备发送发音指令;
坐标确定程序模块,用于基于所述各智能语音设备根据所述发音指令的发音,确定所述各智能语音设备在所述空间坐标系中的坐标,根据用户的唤醒指令的发音,确定用户在所述空间坐标系中的坐标;
所述唤醒程序模块还用于,至少将所述各待选智能语音设备与所述用户的坐标、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析,唤醒用于反馈用户的智能设备。
8.根据权利要求5所述的***,其中,所述信息融合分析至少包括:通过决策树和/或支持向量机和/或最大似然进行信息融合分析,以唤醒用于反馈用户的智能设备。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
CN201910660543.9A 2019-07-22 2019-07-22 用于声学组网的设备唤醒方法及*** Active CN110288997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910660543.9A CN110288997B (zh) 2019-07-22 2019-07-22 用于声学组网的设备唤醒方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910660543.9A CN110288997B (zh) 2019-07-22 2019-07-22 用于声学组网的设备唤醒方法及***

Publications (2)

Publication Number Publication Date
CN110288997A true CN110288997A (zh) 2019-09-27
CN110288997B CN110288997B (zh) 2021-04-16

Family

ID=68023752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910660543.9A Active CN110288997B (zh) 2019-07-22 2019-07-22 用于声学组网的设备唤醒方法及***

Country Status (1)

Country Link
CN (1) CN110288997B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718227A (zh) * 2019-10-17 2020-01-21 深圳市华创技术有限公司 一种基于多模态交互的分布式物联网设备协同方法及其***
CN111223497A (zh) * 2020-01-06 2020-06-02 苏州思必驰信息科技有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN111276142A (zh) * 2020-01-20 2020-06-12 北京声智科技有限公司 一种语音唤醒方法及电子设备
CN111276143A (zh) * 2020-01-21 2020-06-12 北京远特科技股份有限公司 声源定位方法、装置、语音识别控制方法和终端设备
CN111276139A (zh) * 2020-01-07 2020-06-12 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN111613221A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 一种就近唤醒方法、装置和***
CN111739521A (zh) * 2020-06-19 2020-10-02 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
CN112130918A (zh) * 2020-09-25 2020-12-25 深圳市欧瑞博科技股份有限公司 智能设备唤醒方法、装置、***及智能设备
CN112260860A (zh) * 2020-10-09 2021-01-22 北京小米松果电子有限公司 设备调试方法及装置、电子设备及存储介质
CN112420051A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 设备的确定方法、装置及存储介质
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112837694A (zh) * 2021-01-29 2021-05-25 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN112992140A (zh) * 2021-02-18 2021-06-18 珠海格力电器股份有限公司 智能设备的控制方法、装置、设备及存储介质
WO2021136037A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 语音唤醒方法、设备及***
CN113495710A (zh) * 2020-03-18 2021-10-12 中国电信股份有限公司 声音唤醒处理方法、装置、声音分析平台以及存储介质
CN113674761A (zh) * 2021-07-26 2021-11-19 青岛海尔科技有限公司 设备确定方法及设备确定***
CN114465837A (zh) * 2022-01-30 2022-05-10 云知声智能科技股份有限公司 一种智能语音设备协同唤醒处理方法及装置
CN116206618A (zh) * 2022-12-29 2023-06-02 海尔优家智能科技(北京)有限公司 设备唤醒方法、存储介质及电子装置
WO2023231552A1 (zh) * 2022-05-30 2023-12-07 青岛海尔科技有限公司 分布式语音唤醒方法和装置、存储介质及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215663A (zh) * 2018-10-11 2019-01-15 北京小米移动软件有限公司 设备唤醒方法及装置
CN109256134A (zh) * 2018-11-22 2019-01-22 深圳市同行者科技有限公司 一种语音唤醒方法、存储介质及终端
US20190043521A1 (en) * 2018-04-06 2019-02-07 Intel Corporation Automatic Gain Adjustment for Improved Wake Word Recognition in Audio Systems
CN109427336A (zh) * 2017-09-01 2019-03-05 华为技术有限公司 语音对象识别方法及装置
CN110033773A (zh) * 2018-12-13 2019-07-19 蔚来汽车有限公司 用于车辆的语音识别方法、装置、***、设备以及车辆

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109427336A (zh) * 2017-09-01 2019-03-05 华为技术有限公司 语音对象识别方法及装置
US20190043521A1 (en) * 2018-04-06 2019-02-07 Intel Corporation Automatic Gain Adjustment for Improved Wake Word Recognition in Audio Systems
CN109215663A (zh) * 2018-10-11 2019-01-15 北京小米移动软件有限公司 设备唤醒方法及装置
CN109256134A (zh) * 2018-11-22 2019-01-22 深圳市同行者科技有限公司 一种语音唤醒方法、存储介质及终端
CN110033773A (zh) * 2018-12-13 2019-07-19 蔚来汽车有限公司 用于车辆的语音识别方法、装置、***、设备以及车辆

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈白杨: "" 基于语音交互的智能家居控制***"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718227A (zh) * 2019-10-17 2020-01-21 深圳市华创技术有限公司 一种基于多模态交互的分布式物联网设备协同方法及其***
WO2021136037A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 语音唤醒方法、设备及***
CN111223497A (zh) * 2020-01-06 2020-06-02 苏州思必驰信息科技有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN111223497B (zh) * 2020-01-06 2022-04-19 思必驰科技股份有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN111276139A (zh) * 2020-01-07 2020-06-12 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN111276142A (zh) * 2020-01-20 2020-06-12 北京声智科技有限公司 一种语音唤醒方法及电子设备
CN111276142B (zh) * 2020-01-20 2023-04-07 北京声智科技有限公司 一种语音唤醒方法及电子设备
CN111276143A (zh) * 2020-01-21 2020-06-12 北京远特科技股份有限公司 声源定位方法、装置、语音识别控制方法和终端设备
CN113495710A (zh) * 2020-03-18 2021-10-12 中国电信股份有限公司 声音唤醒处理方法、装置、声音分析平台以及存储介质
CN111613221A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 一种就近唤醒方法、装置和***
CN111739521A (zh) * 2020-06-19 2020-10-02 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
CN111739521B (zh) * 2020-06-19 2021-06-22 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
CN112130918A (zh) * 2020-09-25 2020-12-25 深圳市欧瑞博科技股份有限公司 智能设备唤醒方法、装置、***及智能设备
CN112260860B (zh) * 2020-10-09 2024-03-29 北京小米松果电子有限公司 设备调试方法及装置、电子设备及存储介质
CN112260860A (zh) * 2020-10-09 2021-01-22 北京小米松果电子有限公司 设备调试方法及装置、电子设备及存储介质
CN112420051A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 设备的确定方法、装置及存储介质
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112837694B (zh) * 2021-01-29 2022-12-06 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN112837694A (zh) * 2021-01-29 2021-05-25 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN112992140A (zh) * 2021-02-18 2021-06-18 珠海格力电器股份有限公司 智能设备的控制方法、装置、设备及存储介质
WO2023005409A1 (zh) * 2021-07-26 2023-02-02 青岛海尔科技有限公司 设备确定方法及设备确定***
CN113674761A (zh) * 2021-07-26 2021-11-19 青岛海尔科技有限公司 设备确定方法及设备确定***
CN114465837A (zh) * 2022-01-30 2022-05-10 云知声智能科技股份有限公司 一种智能语音设备协同唤醒处理方法及装置
CN114465837B (zh) * 2022-01-30 2024-03-08 云知声智能科技股份有限公司 一种智能语音设备协同唤醒处理方法及装置
WO2023231552A1 (zh) * 2022-05-30 2023-12-07 青岛海尔科技有限公司 分布式语音唤醒方法和装置、存储介质及电子装置
CN116206618A (zh) * 2022-12-29 2023-06-02 海尔优家智能科技(北京)有限公司 设备唤醒方法、存储介质及电子装置

Also Published As

Publication number Publication date
CN110288997B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN110288997A (zh) 用于声学组网的设备唤醒方法及***
JP2021086154A (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN109257682B (zh) 拾音调节方法、控制终端及计算机可读存储介质
CN108470034B (zh) 一种智能设备服务提供方法及***
CN108462895A (zh) 音效处理方法、装置和机器可读介质
CN107112014A (zh) 在基于语音的***中的应用焦点
CN109195090B (zh) 用于产品内麦克风电声参数的测试方法及***
US10602270B1 (en) Similarity measure assisted adaptation control
CN109672966A (zh) 一种语音拾取方法、装置和***
US11102354B2 (en) Haptic feedback during phone calls
CN105259459A (zh) 一种电子设备的自动化质检方法、装置和设备
CN109658935A (zh) 多通道带噪语音的生成方法及***
CN104900236A (zh) 音频信号处理
JP2021167977A (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
CN109800724A (zh) 一种扬声器位置确定方法、装置、终端及存储介质
CN109195089A (zh) 用于产品内扬声器电声参数的测试方法及***
CN112261337B (zh) 一种在多人语音中播放语音信息的方法与设备
US10699729B1 (en) Phase inversion for virtual assistants and mobile music apps
WO2022161446A1 (zh) 控制方法、装置和电子设备
US11769486B2 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
CN111312244B (zh) 用于沙盘的语音交互***及方法
US20220262342A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
CN114420082A (zh) 混响测试方法、***、计算机设备和存储介质
JP2023526285A (ja) 全二重音声インタラクションシステムのテスト方法及び装置
CN104008753A (zh) 一种信息处理方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Ltd.