CN116416987A - 服务器、终端设备、语音唤醒方法及介质 - Google Patents
服务器、终端设备、语音唤醒方法及介质 Download PDFInfo
- Publication number
- CN116416987A CN116416987A CN202310342883.3A CN202310342883A CN116416987A CN 116416987 A CN116416987 A CN 116416987A CN 202310342883 A CN202310342883 A CN 202310342883A CN 116416987 A CN116416987 A CN 116416987A
- Authority
- CN
- China
- Prior art keywords
- instruction
- preset
- wake
- request
- terminal equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002618 waking effect Effects 0.000 claims abstract description 56
- 230000004044 response Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 abstract description 24
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开涉及一种服务器、终端设备、语音唤醒方法及介质。该服务器存储有预设指令权值库,预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值;包括:第一控制器,被配置为:接收终端设备发送的请求指令,从多个预设指令中确定与请求指令对应的目标指令;若目标指令对应的权值大于或等于预设阈值,则确定目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给终端设备,其中,唤醒指令用于指示唤醒所述终端设备的语音助手。上述技术方案中,解决现有技术中在用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
Description
技术领域
本公开涉及语音处理技术领域,尤其涉及一种服务器、终端设备、语音唤醒方法及介质。
背景技术
随着人工智能的发展,用户使用终端设备进行语音交互功能已经非常普遍,现有技术中,通常通过语音助手实现用户与终端设备之间的语音交互功能,具体的,用户与终端设备之间的进行语音交互过程中,首先需要根据唤醒关键词唤醒终端设备的语音助手,即唤醒终端设备,在确定唤醒终端设备之后,进而接收并执行用户输入的请求指令,以此实现用户与终端设备之间的语音交互功能。
然而,采用现有技术,由于终端设备在接收用户输入的每一条请求指令之前,都需要用户通过唤醒关键词唤醒终端设备,导致在实现用户与终端设备之间的语音交互功能时,存在不够方便和快捷的问题,影响了用户体验。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种服务器、终端设备、语音唤醒方法及介质,通过服务器的第一控制器针对终端设备发送的请求指令,在服务器上存储的预设指令权值库中确定请求指令对应的目标指令,进一步的在确定目标指令对应的权值大于或等于预先设置的预设阈值时,确定目标指令为免唤醒终端设备的语音助手的指令,向终端设备发送唤醒终端设备的语音助手的唤醒指令,以此唤醒终端设备的语音助手,从而使得用户在通过用户语音的方式输入下一条请求指令时,无需在根据唤醒请求携带的唤醒关键词唤醒终端设备的语音助手,解决现有技术中在用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
第一方面,本公开提供了一种服务器,所述服务器存储有预设指令权值库,所述预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值;包括:
第一控制器,被配置为:
接收终端设备发送的请求指令,从所述多个预设指令中确定与所述请求指令对应的目标指令;
若所述目标指令对应的权值大于或等于预设阈值,则确定所述目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给所述终端设备,其中,所述唤醒指令用于指示唤醒所述终端设备的语音助手。
作为本公开实施例一种可选的实施方式,所述第一控制器,还被配置为:
获取用户输入的多个历史请求指令分别对应的预设指令;
基于预设时间间隔,将多个预设指令确定为多个第一预设指令集合;
删除每个所述第一预设指令集合中的目标非语音预设指令,以得到多个第二预设指令集合,其中,每个所述第二预设指令集合中的首个预设指令为根据用户语音获取,在每个第一预设指令集合中,所述目标非语音预设指令的排序处于所述首个预设指令之前;
从所述多个第二预设指令集合的每个第二预设指令集合中删除非语音预设指令,并进行拆分处理,以得到多个第三预设指令集合;
结合所述多个第三预设指令集合确定目标预设指令集合,其中,所述目标预设指令集合包括的多个预设指令是根据用户语音获取的;
基于所述目标预设指令集合中每种请求操作对应的预设指令的出现频率以及权值因子,确定每种请求操作对应的预设指令的权值,以得到多个预设指令分别对应的权值;
根据多个预设指令和每个预设指令的权值,确定所述预设指令权值库。
作为本公开实施例一种可选的实施方式,所述第一控制器,具体被配置为:
针对所述目标预设指令集合中每种请求操作对应的预设指令,获取所述预设指令在所述目标预设指令集合中存在的第一总数、所述预设指令在多个历史请求指令分别对应的预设指令中存在的第二总数,并计算所述第一总数以及所述第二总数的商值,得到所述预设指令的所述出现频率;
获取每个所述预设指令对应的第一时间戳、所述预设指令相邻的下一预设指令对应的第二时间戳,根据所述第一时间戳、所述第二时间戳、预设映射表以及第一总数,确定所述预设指令的权值因子;
将所述出现频率与所述权值因子进行乘积运算,得到所述预设指令对应的权值。
作为本公开实施例一种可选的实施方式,所述第一控制器,具体还被配置为:
根据预设条件,获取用户输入的多个历史请求指令;
针对每个所述历史请求指令,确定所述历史请求指令对应的预设指令;
其中,所述预设条件包括:预设场景和预设时间段中的至少一种。
作为本公开实施例一种可选的实施方式,所述第一控制器,具体被配置为:
针对终端设备发送的请求指令,确定所述请求指令对应的第一指令;
根据所述第一指令以及所述第一指令对应的用户标识信息,在多个所述预设指令中,匹配与所述请求指令对应的目标指令,并确定所述目标指令对应的权值;或
根据所述第一指令、所述第一指令对应的用户标识信息、以及所述第一指令对应的预设信息,在多个所述预设指令中,匹配与所述请求指令对应的目标指令,并确定所述目标指令对应的权值,其中,所述预设信息包括预设时间段和预设场景中至少一种。
作为本公开实施例一种可选的实施方式,所述第一控制器,还被配置为:
若所述目标指令对应的权值小于所述预设阈值,则确定所述目标指令不是免唤醒语音助手的指令,并发送关闭指令给所述终端设备,其中,所述关闭指令用于指示关闭所述终端设备的预设程序。
第二方面,本公开提供了一种终端设备,包括:
第二控制器,被配置为:
响应于用户输入的唤醒请求,唤醒所述终端设备的语音助手,其中,所述唤醒请求携带唤醒关键词,所述唤醒关键词用于唤醒所述终端设备的语音助手;
在确定所述终端设备的语音助手被唤醒后,响应于用户输入的请求指令,将所述请求指令发送至服务器;
响应于服务器发送的唤醒指令,唤醒所述终端设备的语音助手。
响应于服务器发送的唤醒指令,唤醒所述终端设备的语音助手。
第三方面,本公开提供了一种语音唤醒方法,应用于服务器,所述服务器存储有预设指令权值库,所述预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值;包括:
接收终端设备发送的请求指令,从所述多个预设指令中确定与所述请求指令对应的目标指令;
若所述目标指令对应的权值大于或等于预设阈值,则确定所述目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给所述终端设备,其中,所述唤醒指令用于指示唤醒所述终端设备的语音助手。
第四方面,本公开提供了一种语音唤醒方法,应用于终端设备,包括:
响应于用户输入的唤醒请求,唤醒所述终端设备的语音助手,其中,所述唤醒请求携带唤醒关键词,所述唤醒关键词用于唤醒所述终端设备的语音助手;
在确定所述终端设备的语音助手被唤醒后,响应于用户输入的请求指令,将所述请求指令发送至服务器;
响应于服务器发送的唤醒指令,唤醒所述终端设备的语音助手。
第五方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第三方面和第四方面所述的语音唤醒方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的技术方案中,通过在服务器上存储有预设指令权值库,预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值,服务器的第一控制器接收终端设备发送的请求指令,从多个预设指令中确定与请求指令对应的目标指令;若目标指令对应的权值大于或等于预设阈值,则确定目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给终端设备,其中,唤醒指令用于指示唤醒终端设备的语音助手。上述技术方案中,服务器的第一控制器针对终端设备发送的请求指令,在服务器上存储的预设指令权值库中确定请求指令对应的目标指令,进一步的在确定目标指令对应的权值大于或等于预先设置的预设阈值时,确定目标指令为免唤醒终端设备的语音助手的指令,向终端设备发送唤醒终端设备的语音助手的唤醒指令,以此唤醒终端设备的语音助手,从而使得用户在通过用户语音的方式输入下一条请求指令时,无需在根据唤醒请求携带的唤醒关键词唤醒终端设备的语音助手,解决现有技术中在用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的语音唤醒方法的场景架构示意图;
图2为根据本公开一个或多个实施例的终端设备200的硬件配置框图;
图3为根据本公开一个或多个实施例的终端设备200中软件配置示意图;
图4为根据本公开一个或多个实施例进行语音唤醒的***框架图;
图5为本公开实施例提供的一种语音唤醒方法的流程示意图;
图6为本公开实施例提供的一种语音唤醒方法的交互示意图;
图7为本公开实施例提供的另一种语音唤醒方法的流程示意图;
图8为本公开实施例提供的再一种语音唤醒方法的流程示意图;
图9为本公开实施例提供的又一种语音唤醒方法的流程示意图;
图10为本公开实施例提供的另一种语音唤醒方法的交互示意图;
图11为本公开实施例提供的又一种语音唤醒方法的流程示意图;
图12为本公开实施例提供的再一种语音唤醒方法的交互示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
本公开中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一处理结果和第二处理结果等是用于区别不同的处理结果,而不是用于描述处理结果的特定顺序。
目前,用户通过语音助手实现与终端设备如手机、智能电视之间的语音交互功能,具体的,当用户与终端设备之间的进行语音交互过程时,首先需要根据唤醒关键词唤醒终端设备的语音助手,以此唤醒终端设备,在唤醒终端设备之后,终端设备接收并执行用户输入的请求指令,实现用户与终端设备之间的语音交互功能。
示例性的,图1为本公开实施例提供的语音唤醒方法的场景架构示意图,本公开实施例提供的场景架构,包括:服务器100和终端设备200,终端设备200可以具有多种实施形式,例如,可以是智能音箱、电视、手机、个人计算机、智能电视、显示器、电子白板、电子桌面等。用户根据唤醒关键词如“XX精灵”唤醒终端设备200,当终端设备200的语音助手在接收到唤醒关键词“XX精灵”后,向用户回复“在的,主人”,以此确定此时唤醒终端设备200的语音助手,且此时终端设备200也处于唤醒状态,终端设备200接收并执行用户语音输入的请求指令如“我想听音乐”,向用户播放音乐。当用户在收听音乐的过程中需要调高音乐的声音时,用户仍需要通过唤醒关键词“XX精灵”,唤醒终端设备200的语音助手,用户通过语音输入“帮我调高声音”的请求指令。
然而,由于终端设备在接收用户输入的每一条请求指令之前,都需要用户通过唤醒关键词唤醒终端设备,使得用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,影响了用户体验。
为了解决上述问题,本公开实施例提出了一种语音唤醒方法,应用于服务器,服务器存储有预设指令权值库,预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值;服务器的第一控制器接收终端设备发送的请求指令,从多个预设指令中确定与请求指令对应的目标指令;若目标指令对应的权值大于或等于预设阈值,则确定目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给终端设备,其中,唤醒指令用于指示唤醒终端设备的语音助手。上述技术方案中,服务器的第一控制器针对终端设备发送的请求指令,在服务器上存储的预设指令权值库中确定请求指令对应的目标指令,进一步的在确定目标指令对应的权值大于或等于预先设置的预设阈值时,确定目标指令为免唤醒终端设备的语音助手的指令,向终端设备发送唤醒终端设备的语音助手的唤醒指令,以此唤醒终端设备的语音助手,从而使得用户在通过用户语音的方式输入下一条请求指令时,无需在根据唤醒请求携带的唤醒关键词唤醒终端设备的语音助手,解决现有技术中在用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
在一些实施例中,终端设备200接收到用户的语音指令时,可以与服务器100进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)与服务器100进行通信连接。
服务器100可以是提供各种服务的服务器,例如对终端设备200采集的音频数据提供支持的服务器。服务器可以对接收到的音频等数据进行分析等处理,并将处理结果(例如端点信息)反馈给终端设备。服务器100可以是一个服务器集群,也可以是多个服务器集群,可以包括一类或多类服务器。
本公开实施例所提供的语音唤醒方法可以通过服务器100执行,也可以通过终端设备200执行,还可以通过服务器100和终端设备200共同执行,本公开对此不做限定。
在一些实施例中,还可以通过控制设备来控制终端设备200。控制设备可以是遥控器,遥控器和终端设备200的通信可以包括红外协议通信、蓝牙协议通信、无线或其他有线方式等,通过上述通信方式能够控制终端设备200。用户可以通过遥控器上按键、语音输入以及控制面板输入等输入用户指令,来控制终端设备200。如:用户可以通过遥控器上音量加减键、菜单键、开关机按键等输入相应控制指令,来实现控制终端设备200的功能。
图2为根据本公开一个或多个实施例的终端设备200的硬件配置框图。如图2所示终端设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、第二控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口(即用户输入接口)280中的至少一种。第二控制器250包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。终端设备200可以通过通信器220与外部控制设备或服务器100建立控制信号和数据信号的发送和接收。检测器230用于采集外部环境或与外部交互的信号。第二控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在第二控制器250所在的主体设备的外置设备中,如外置机顶盒等。用户接口280可用于接收控制设备(如:红外遥控器等)的控制信号。
在一些实施例中,第二控制器250,通过存储在存储器上中各种软件控制程序,来控制终端设备的工作和响应用户的操作。第二控制器250控制终端设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,“用户界面”,是应用程序或操作***与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,简称GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口和控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
图3为根据本公开一个或多个实施例的终端设备200中软件配置示意图,如图3所示,将***分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和***库层(简称“***运行库层”),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作***自带的窗口(Window)程序、***设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在具体实施时,应用程序层中的应用程序包括但不限于以上举例。
在一些实施例中,***运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作***会运行***运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层,至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
在一些实施例中,在服务器100存储有预设指令权值库,所述预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值;该服务器100中:
第一控制器,被配置为:
接收终端设备发送的请求指令,从所述多个预设指令中确定与所述请求指令对应的目标指令;
若所述目标指令对应的权值大于或等于预设阈值,则确定所述目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给所述终端设备,其中,所述唤醒指令用于指示唤醒所述终端设备的语音助手。
在一些实施例中,所述第一控制器,还被配置为:
获取用户输入的多个历史请求指令分别对应的预设指令;
基于预设时间间隔,将多个预设指令确定为多个第一预设指令集合;
删除每个所述第一预设指令集合中的目标非语音预设指令,以得到多个第二预设指令集合,其中,每个所述第二预设指令集合中的首个预设指令为根据用户语音获取,在每个第一预设指令集合中,所述目标非语音预设指令的排序处于所述首个预设指令之前;
从所述多个第二预设指令集合的每个第二预设指令集合中删除非语音预设指令,并进行拆分处理,以得到多个第三预设指令集合;
结合所述多个第三预设指令集合确定目标预设指令集合,其中,所述目标预设指令集合包括的多个预设指令是根据用户语音获取的;
基于所述目标预设指令集合中每种请求操作对应的预设指令的出现频率以及权值因子,确定每种请求操作对应的预设指令的权值,以得到多个预设指令分别对应的权值;
根据多个预设指令和每个预设指令的权值,确定所述预设指令权值库。
在一些实施例中,所述第一控制器,具体被配置为:
针对所述目标预设指令集合中每种请求操作对应的预设指令,获取所述预设指令在所述目标预设指令集合中存在的第一总数、所述预设指令在多个历史请求指令分别对应的预设指令中存在的第二总数,并计算所述第一总数以及所述第二总数的商值,得到所述预设指令的所述出现频率;
获取每个所述预设指令对应的第一时间戳、所述预设指令相邻的下一预设指令对应的第二时间戳,根据所述第一时间戳、所述第二时间戳、预设映射表以及第一总数,确定所述预设指令的权值因子;
将所述出现频率与所述权值因子进行乘积运算,得到所述预设指令对应的权值。
在一些实施例中,所述第一控制器,具体还被配置为:
根据预设条件,获取用户输入的多个历史请求指令;
针对每个所述历史请求指令,确定所述历史请求指令对应的预设指令;
其中,所述预设条件包括:预设场景和预设时间段中的至少一种。
在一些实施例中,所述第一控制器,具体被配置为:
针对终端设备发送的请求指令,确定所述请求指令对应的第一指令;
根据所述第一指令以及所述第一指令对应的用户标识信息,在多个所述预设指令中,匹配与所述请求指令对应的目标指令,并确定所述目标指令对应的权值;或
根据所述第一指令、所述第一指令对应的用户标识信息、以及所述第一指令对应的预设信息,在多个所述预设指令中,匹配与所述请求指令对应的目标指令,并确定所述目标指令对应的权值,其中,所述预设信息包括预设时间段和预设场景中至少一种。
在一些实施例中,所述第一控制器,还被配置为:
若所述目标指令对应的权值小于所述预设阈值,则确定所述目标指令不是免唤醒语音助手的指令,并发送关闭指令给所述终端设备,其中,所述关闭指令用于指示关闭所述终端设备的预设程序。
综上所述,本公开通过在服务器上执行上述语音唤醒方法,服务器存储有预设指令权值库,预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值,通过服务器的第一控制器接收终端设备发送的请求指令,从多个预设指令中确定与请求指令对应的目标指令;若目标指令对应的权值大于或等于预设阈值,则确定目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给所述终端设备,其中,唤醒指令用于指示唤醒终端设备的语音助手。上述技术方案中,通过服务器的第一控制器针对终端设备发送的请求指令,在服务器上存储的预设指令权值库中确定请求指令对应的目标指令,进一步的在确定目标指令对应的权值大于或等于预先设置的预设阈值时,确定目标指令为免唤醒终端设备的语音助手的指令,向终端设备发送唤醒终端设备的语音助手的唤醒指令,以此唤醒终端设备的语音助手,从而使得用户在通过用户语音的方式输入下一条请求指令时,无需在根据唤醒请求携带的唤醒关键词唤醒终端设备的语音助手,解决现有技术中在用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
图4为根据本公开一个或多个实施例进行语音唤醒的***框架图,如图4所示,该***中可以包括目标指令确定模块401以及唤醒模块402。首先目标指令确定模块401用于接收终端设备发送的请求指令,从多个预设指令中确定与请求指令对应的目标指令;进一步的,唤醒模块402用于若目标指令对应的权值大于或等于预设阈值,则确定目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给终端设备,其中,唤醒指令用于指示唤醒终端设备的语音助手。上述技术方案中,通过服务器的第一控制器针对终端设备发送的请求指令,在服务器上存储的预设指令权值库中确定请求指令对应的目标指令,进一步的在确定目标指令对应的权值大于或等于预先设置的预设阈值时,确定目标指令为免唤醒终端设备的语音助手的指令,向终端设备发送唤醒终端设备的语音助手的唤醒指令,以此唤醒终端设备的语音助手,从而使得用户在通过用户语音的方式输入下一条请求指令时,无需在根据唤醒请求携带的唤醒关键词唤醒终端设备的语音助手,解决现有技术中在用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
为了更加详细的说明本方案,以下将以示例性的方式结合图5进行说明,可以理解的是,图5中所涉及的步骤在实际实现时可以包括更多的步骤,或者更少的步骤,并且这些步骤之间的顺序也可以不同,以能够实现本公开实施例中提供的语音唤醒方法为准,本公开实施例不做限定。
图5为本公开实施例提供的一种语音唤醒方法的流程示意图。图6为本公开实施例提供的一种语音唤醒方法的交互示意图,本实施例应用于服务器侧,在该服务器服务器存储有预设指令权值库,预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值。如图5所示,该语音唤醒方法具体包括如下步骤:
S51,接收终端设备发送的请求指令,从多个预设指令中确定与请求指令对应的目标指令。
其中,请求指令是指用户在使用终端设备时,通过用户语音方式输入的请求指令,当终端设备在接收到请求指令之后,将该请求指令发送至服务器。示例性的,该请求指令可以是“我想听音乐”、“调大播放声音”等,但不限于此,本公开不具体限制。
上述多个预设指令为存储在预设指令权值库的指令,且在预设指令权值库对于每个预设指令对应一个权值,该权值是根据用户在使用终端设备时用户输入请求指令的方式确定的。进一步的,该预设指令权值库中还包括:用户标识信息如用户声纹标识、预设场景如视频搜索场景、歌曲播放场景,预设时间段如用户经常使用终端设备的时间段晚上7点到10点,位置信息如XX省XX区,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,当终端设备在接收到用户输入的请求指令之后,将该请求指令发送至服务器,服务器的第一控制器在接收终端设备发送的请求指令之后,在预先存储在服务器上的预设指令权值库中包括的多个预设指令中,确定请求指令对应的目标指令。
图7为本公开实施例提供的另一种语音唤醒方法的流程示意图,图7是在图5所示实施例的基础上,进一步地,如图7所示,对S51的一种可能的实现方式可以是:
S71,针对终端设备发送的请求指令,确定请求指令对应的第一指令。
具体的,服务器的第一控制器在接收到终端设备发送的请求指令之后,识别该请求指令,确定该请求指令对应的第一指令。
S72a,根据第一指令以及第一指令对应的用户标识信息,在多个预设指令中,匹配与请求指令对应的目标指令,并确定目标指令对应的权值。
其中,用户标识信息是用来识别用户的唯一标识信息,例如可以是用户声纹标识1,获取用户标识信息的方式可以是通过终端设备在向服务器发送请求指令时,请求指令携带用户标识信息,以此获取用户标识信息,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,服务器的第一控制器根据请求指令对应的第一指令、以及第一指令对应的用户标识信息,在多个预设指令中进行匹配,确定与第一指令、以及第一指令对应的用户标识信息一致的预设指令为请求指令对应的目标指令,并得到目标指令对应的权值。
示例性的,承接上述实施例,对于用户的请求指令“我想听音乐”,用户标识信息为用户声纹标识1,根据识别模块识别请求指令“我想听音乐”对应的第一指令为“音乐搜索”,在确定第一指令为“音乐搜索”之后,根据第一指令“音乐搜索”以及用户声纹标识1,在多个预设指令中进行匹配,确定与第一指令、以及用户声纹标识1一致的预设指令为目标指令,并得到目标指令对应的权值如0.6,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
可选的,在上述实施例的基础上,在本公开一些实施例中,由于用户与终端设备进行交互时,针对不同预设场景、不同的预设时间段,用户与终端设备进行交互的行为习惯不同,又因为预设指令权值库是基于用户与终端设备进行交互的行为数据获取的,基于此,为了更准确的判断用户的请求指令是否为免唤醒终端设备的语音助手的指令,继续参考图7所示,从多个预设指令中确定与请求指令对应的目标指令的另一种方式还可以是:
S72b,根据第一指令、第一指令对应的用户标识信息、以及第一指令对应的预设信息,在多个预设指令中,匹配与请求指令对应的目标指令,并确定目标指令对应的权值。
其中,预设信息包括预设时间段和预设场景中至少一种。
具体的,服务器的第一控制器根据请求指令对应的第一指令、第一指令对应的用户标识信息、以及第一指令对应的预设信息如预设时间段或者是预设场景,在多个预设指令中进行匹配,确定与请求指令对应的目标指令,并得到目标指令对应的权值。
本公开实施例提供的技术方案中,在上述过程中,根据第一指令、第一指令对应的用户标识信息、或者是第一指令、第一指令对应的用户标识信息以及预设信息在多个预设指令中确定目标指令,提高了获取目标指令的准确性,避免用户多次重复的根据唤醒关键词唤醒终端设备的语音助手,提升了用户的体验。
S52,若目标指令对应的权值大于或等于预设阈值,则确定目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给终端设备。
其中,唤醒指令用于指示唤醒终端设备的语音助手。预设阈值是指用来确定服务器接收的终端设备发送的请求指令是否为免唤醒终端设备的语音助手的指令所设置的参数,该预设阈值例如可以是0.5,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
上述免唤醒终端设备的语音助手的指令具体是指用户在终端设备上输入请求指令之后,若存在用户仍需唤醒终端设备的语音助手,通过语音方式输入下一条请求指令的情况,则确定当前用户输入的请求指令为免唤醒终端设备的语音助手的指令,因此,为了避免用户继续通过唤醒关键词唤醒终端设备的语音助手后,再输入下一条请求指令,服务器会向终端设备发送唤醒指令,以唤醒终端设备的语音助手。
示例性的,承接上述实施例,用户根据唤醒关键词“XX精灵”唤醒终端设备的语音助手之后,通过用户语音的方式输入请求指令“我想听音乐”之后,用户还需要继续唤醒终端设备的语音助手,通过用户语音的方式输入下一条请求指令“调大播放声音”,此时确定请求指令“我想听音乐”为免唤醒终端设备的语音助手的指令,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,服务器的第一控制器判断目标指令对应的权值是否大于或等于预设阈值,在确定目标指令对应的权值大于或等于预设阈值时,确定目标指令为免唤醒终端设备的语音助手的指令,服务器的第一控制器向终端设备发送唤醒终端设备的语音助手的唤醒指令,以唤醒终端设备的语音助手。
本公开实施例提供的技术方案中,通过在服务器上存储有预设指令权值库,预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值,服务器的第一控制器接收终端设备发送的请求指令,从多个预设指令中确定与请求指令对应的目标指令;若目标指令对应的权值大于或等于预设阈值,则确定目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给终端设备,其中,唤醒指令用于指示唤醒终端设备的语音助手。上述技术方案中,服务器的第一控制器针对终端设备发送的请求指令,在服务器上存储的预设指令权值库中确定请求指令对应的目标指令,进一步的在确定目标指令对应的权值大于或等于预先设置的预设阈值时,确定目标指令为免唤醒终端设备的语音助手的指令,向终端设备发送唤醒终端设备的语音助手的唤醒指令,以此唤醒终端设备的语音助手,从而使得用户在通过用户语音的方式输入下一条请求指令时,无需在根据唤醒请求携带的唤醒关键词唤醒终端设备的语音助手,解决现有技术中在用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
图8为本公开实施例提供的再一种语音唤醒方法的流程示意图,图8是在图7所示实施例的基础上,进一步地,如图8所示,在执行S51之前还包括:
S81,获取用户输入的多个历史请求指令分别对应的预设指令。
其中,多个历史请求指令可以是通过用户语音输入的,还可以是通过控制设备如遥控器上的按键输入的,还可以是通过触摸显示屏上的虚拟按键的方式输入的,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
预设指令是指与用户输入的历史请求指令相对应,示例性的,承接上述实施例,历史请求指令如“我想听音乐”,则对应的预设指令为“音乐搜索”,又或者是历史请求指令如“放大播放当前音乐的声音”,则对应的预设指令为“放大声音”,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,服务器的第一控制器获取用户输入的多个历史请求指令中每个历史请求指令对应的预设指令,以得到多个预设指令。
可选的,在上述实施例的基础上,在本公开的一些实施例中,由于用户在不同预设场景如视频搜索场景、音乐播放场景,不同预设时间段内用户输入请求指令的习惯不同,基于此,为了能够提高根据用户输入的请求指令获取预设指令权值库准确性,S81的一种实现方式可以是:
S811,根据预设条件,获取用户输入的多个历史请求指令。
其中,预设条件包括:预设场景和预设时间段中的至少一种。
S812,针对每个历史请求指令,确定历史请求指令对应的预设指令。
具体的,服务器的第一控制器根据预设条件如预设场景、或者是预设时间段,或者是预设场景和预设时间段,获取用户输入的多个历史请求指令,并且对于每个历史请求指令进行识别,确定每个历史请求指令对应的预设指令。
上述对于每个历史请求指令进行识别确定对应的预设指令可以是通过训练好的识别模型进行识别,具体识别过程参考现有技术,本公开不过多赘述。
本公开实施例提供的技术方案中,在上述过程中,由于根据预设条件如预设场景和/或预设时间段,获取历史请求指令,确定历史请求指令对应的预设指令,能够考虑用户在不同预设场景/或不同预设时间段输入请求指令的操作习惯,以提高了后续获取预设权值库中多个预设指令分别对应的权值的准确性。
S82,基于预设时间间隔,将多个预设指令确定为多个第一预设指令集合。
其中,预设时间间隔是指用来对多个预设指令进行分组所设置的参数,根据该预设时间间隔对多个预设指令进行分组,得到多个每个第一预设指令集合,其中,每个第一预设指令集合中包括的预设指令为连续指令,该预设时间间隔例如可以是60秒、120秒,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
示例性的,预设时间间隔为60秒,对多个预设指令进行分组得到多个第一预设指令集合如:第一预设指令集合1、第一预设指令集合2、第一预设指令集合3、第一预设指令集合4...第一预设指令集合n,对于第一预设指令集合1包括的多个预设指令如:预设指令1、预设指令2、预设指令3,认为预设指令1、预设指令2、预设指令3是连续指令,即,用户在输入预设指令1之后,会在较短时间内输入预设指令2,在输入预设指令2之后,接着输入预设指令3,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
需要说明的是,对于每个第一预设指令集合中还包括每个预设指令对应的用户标识信息、用户输入请求指令时的时间戳。示例性的,对于预设命令例如可以是:{用户标识信息:用户声纹标识1,预设命令:音乐搜索,获取方式:用户语音,时间戳:1664767295189},但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S83,删除每个第一预设指令集合中的目标非语音预设指令,以得到多个第二预设指令集合。
其中,每个第二预设指令集合中的首个预设指令为根据用户语音获取,在每个第一预设指令集合中,目标非语音预设指令的排序处于首个预设指令之前。
具体的,服务器的第一控制器根据预设时间间隔对预设指令进行分组处理,得到多个第一预设指令集合之后,删除每个第一预设指令集合中通过用户语音的方式获取的首个预设指令之前的目标非语音预设指令,以此得到多个第二预设指令集合,此时每个第二预设指令集合中的首个预设指令为根据用户语音获取的。
S84,从多个第二预设指令集合的每个第二预设指令集合中删除非语音预设指令,以得到多个第三预设指令集合。
S85,结合多个第三预设指令集合确定目标预设指令集合。
其中,目标预设指令集合包括的多个预设指令是根据用户语音获取的。
具体的,由于唤醒终端设备的语音助手是通过用户语音的方式根据唤醒关键词进行唤醒的,因此,服务器的第一控制器删除每个第二预设指令集合中的非语音预设指令,得到多个第三预设指令集合,并将多个第三预设指令集合进行结合,以得到目标预设指令集合,该目标预设指令集合包括的多个预设指令均是通过用户语音的方式获取的。
S86,基于目标预设指令集合中每种请求操作对应的预设指令的出现频率以及权值因子,确定每种请求操作对应的预设指令的权值,以得到多个预设指令分别对应的权值。
可选的,在上述实施例的基础上,在本公开的一些实施例中,S86的一种实现方式可以是:
S861,针对目标预设指令集合中每种请求操作对应的预设指令,获取预设指令在目标预设指令集合中存在的第一总数、预设指令在多个历史请求指令分别对应的预设指令中存在的第二总数,并计算第一总数以及第二总数的商值,得到预设指令的出现频率。
其中,请求操作是指根据预设指令执行的操作,例如预设指令为“音乐搜索”,则请求操作即为音乐搜索的操作,对于目标预设指令集合包括的多个预设指令中,对于每种请求操作可能存在多个预设指令,示例性的,对于目标预设指令集合包括的多个预设指令如:预设指令1、预设指令2、预设指令1、预设指令2、预设指令3、预设指令1、预设指令4、预设指令2、预设指令5、预设指令6.....预设指令n,则请求操作1存在多个预设指令1,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,服务器的第一控制器针对目标预设指令集合中每种请求操作对应的预设指令,统计预设指令在目标预设指令集合中的第一总数,以及在多个历史请求指令分别对应的预设指令中存在的第二总数,并计算第一总数以及第二总数的商值,以此确定每种请求操作对应的预设指令的出现频率。
示例性的,承接上述实施例,统计预设指令1在目标预设指令集合中的第一总数为N1,在多个历史请求指令分别对应的预设指令中的第二总数为N2,则确定预设指令1的出现频率为T1=N1/N2,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S862,获取每个预设指令对应的第一时间戳、预设指令相邻的下一预设指令对应的第二时间戳,根据第一时间戳、第二时间戳、预设映射表以及第一总数,确定预设指令的权值因子。
其中,预设映射表是指用来确定每个预设指令对应的初始权值的,预设映射表包括多个预设时差范围,每个预设时差范围对应的预设权值。示例性的,如下表1所示:
表1
预设时差范围(秒) | 预设权值 |
[0,3] | 1 |
(3,5] | 0.9 |
(5,10] | 0.6 |
(10,15] | 0.15 |
(15,20] | 0.1 |
(20,] | 0.01 |
具体的,服务器的第一控制器获取每个预设指令对应的第一时间戳,获取每个预设指令相邻的下一预设指令对应的第二时间戳,在得到第一时间戳以及第二时间戳之后,根据第一时间戳、第二时间戳、预设映射表以及预设指令在目标预设指令集合中的第一总数,确定预设指令的权值因子。
可选的,在上述实施例的基础上,在本公开一些实施例中,根据第一时间戳、第二时间戳、预设映射表以及第一总数,确定预设指令的权值因子的一种实现方式可以是:首先计算第二时间戳与第一时间戳的时间差值,在得到时间差值之后,在预设映射表确定该时间差值属于的预设预设时差范围,以确定该预设指令对应的初始权值,进而计算初始权值与第一总数的商值,最后将每种请求操作存在的多个预设指令分别对应的初始权值进行求和,以得到每种请求操作对应的预设指令的权值因子。
S863,将出现频率与权值因子进行乘积运算,得到预设指令对应的权值。
具体的,服务器的第一控制器将预设指令对应的出现频率与权值因子进行乘积运算,以此得到预设指令对应的权值。
S87,根据多个预设指令和每个预设指令的权值,确定预设指令权值库。
具体的,服务器的第一控制器将多个预设指令和多个预设指令中每个预设指令对应的权值保存至预设指令权值库,以此得到预设指令权值库。
本公开实施例提供的技术方案中,在上述过程中,由于是根据用户历史请求指令进行计算获取得到的预设权值库,能够考虑用户输入请求指令的操作习惯,从而提高了后续获取预设权值库中多个预设指令分别对应的权值的准确性,进一步的,基于该权值能够更加准确的确定服务端接收的请求指令是否为免唤醒终端设备的语音助手的指令,以确定是否需要向终端设备发送唤醒终端设备的语音助手的唤醒指令,唤醒终端设备的语音助手,从而解决现有技术中在用户与终端设备进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
图9为本公开实施例提供的又一种语音唤醒方法的流程示意图,图10为本公开实施例提供的另一种语音唤醒方法的交互示意图,图9是在图5所示实施例的基础上,进一步地,如图10所示,还包括:
S91,若目标指令对应的权值小于预设阈值,则确定目标指令不是免唤醒语音助手的指令,并发送关闭指令给终端设备。
其中,关闭指令用于指示关闭终端设备的预设程序,示例性的,关闭指令用于指示关闭终端设备的预设程序如内置的接收用户语音的麦克风、或者还可以是屏幕,但不限于此,本公开不具体设置,本领域技术人员可根据实际情况设置。
具体的,服务器的第一控制器在确定目标指令对应的权值是小于预设阈值的时候,则确定目标指令不是免唤醒语音助手的指令,在确定目标指令不是免唤醒语音助手的指令之后,向终端设备发送关闭指令,以关闭终端设备的预设程序。
本公开实施例提供的技术方案中,在上述过程中,在根据目标指令对应的权值确定目标指令不是免唤醒语音助手的指令,向终端设备发送关闭指令,以关闭终端设备,以此能够及时节省终端设备的资源。
图11为本公开实施例提供的又一种语音唤醒方法的流程示意图。图12为本公开实施例提供的再一种语音唤醒方法的交互示意图,本实施例应用于终端设备侧。如图11所示,该方法具体包括如下步骤:
S111,响应于用户输入的唤醒请求,唤醒终端设备的语音助手。
其中,唤醒请求携带唤醒关键词,唤醒关键词用于唤醒终端设备的语音助手,示例性的,该唤醒关键词例如可以是“XX精灵”,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S112,在确定终端设备的语音助手被唤醒后,响应于用户输入的请求指令,将请求指令发送至服务器。
S113,响应于服务器发送的唤醒指令,唤醒终端设备的语音助手。
具体的,终端设备的第二控制器响应于用户输入的唤醒请求,其中,唤醒请求携带唤醒关键词,根据唤醒关键词唤醒终端设备的语音助手。在确定终端设备的语音助手被唤醒后,接收用户输入的请求指令,并将该请求指令发送到服务器,以使得服务器确定该请求指令是否为免唤醒终端设备的语音助手的指令,在服务器确定该请求指令是免唤醒终端设备的语音助手的指令时,向终端设备发送唤醒指令,终端设备响应于服务器发送的唤醒指令,并唤醒终端设备的语音助手。
本公开实施例提供的技术方案中,通过终端设备的第二控制器响应于用户输入的唤醒请求,唤醒终端设备的语音助手,其中,唤醒请求携带唤醒关键词,唤醒关键词用于唤醒终端设备的语音助手,在确定终端设备的语音助手被唤醒后,响应于用户输入的请求指令,将请求指令发送至服务器;响应于服务器发送的唤醒指令,唤醒终端设备的语音助手。上述技术方案中,终端设备的第二控制器在根据唤醒请求携带的唤醒关键词将终端设备的语音助手唤醒后,接收用户输入的请求指令,并将该请求指令发送至服务器,使得服务器针对终端设备发送的请求指令,在存储的预设指令权值库中确定请求指令对应的目标指令,并在确定目标指令对应的权值大于或等于预先设置的预设阈值时,确定目标指令为免唤醒终端设备的语音助手的指令,向终端设备发送唤醒终端设备的语音助手的唤醒指令,以此唤醒终端设备的语音助手,从而使得用户在通过用户语音的方式输入下一条请求指令时,无需在根据唤醒请求携带的唤醒关键词唤醒终端设备的语音助手,解决现有技术中在用户与终端设备之间进行语音交互时,存在不够方便和快捷的问题,提升了用户体验。
本公开实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述语音唤醒方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,该计算机可读存储介质可以为只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本公开提供一种计算机程序产品,包括:当所述计算机程序产品在计算机上运行时,使得所述计算机实现上述的语音唤醒方法。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (10)
1.一种服务器,其特征在于,所述服务器存储有预设指令权值库,所述预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值;包括:
第一控制器,被配置为:
接收终端设备发送的请求指令,从所述多个预设指令中确定与所述请求指令对应的目标指令;
若所述目标指令对应的权值大于或等于预设阈值,则确定所述目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给所述终端设备,其中,所述唤醒指令用于指示唤醒所述终端设备的语音助手。
2.根据权利要求1所述的服务器,其特征在于,所述第一控制器,还被配置为:
获取用户输入的多个历史请求指令分别对应的预设指令;
基于预设时间间隔,将多个预设指令确定为多个第一预设指令集合;
删除每个所述第一预设指令集合中的目标非语音预设指令,以得到多个第二预设指令集合,其中,每个所述第二预设指令集合中的首个预设指令为根据用户语音获取,在每个第一预设指令集合中,所述目标非语音预设指令的排序处于所述首个预设指令之前;
从所述多个第二预设指令集合的每个第二预设指令集合中删除非语音预设指令,并进行拆分处理,以得到多个第三预设指令集合;
结合所述多个第三预设指令集合确定目标预设指令集合,其中,所述目标预设指令集合包括的多个预设指令是根据用户语音获取的;
基于所述目标预设指令集合中每种请求操作对应的预设指令的出现频率以及权值因子,确定每种请求操作对应的预设指令的权值,以得到多个预设指令分别对应的权值;
根据多个预设指令和每个预设指令的权值,确定所述预设指令权值库。
3.根据权利要求2所述的服务器,其特征在于,所述第一控制器,具体被配置为:
针对所述目标预设指令集合中每种请求操作对应的预设指令,获取所述预设指令在所述目标预设指令集合中存在的第一总数、所述预设指令在多个历史请求指令分别对应的预设指令中存在的第二总数,并计算所述第一总数以及所述第二总数的商值,得到所述预设指令的所述出现频率;
获取每个所述预设指令对应的第一时间戳、所述预设指令相邻的下一预设指令对应的第二时间戳,根据所述第一时间戳、所述第二时间戳、预设映射表以及第一总数,确定所述预设指令的权值因子;
将所述出现频率与所述权值因子进行乘积运算,得到所述预设指令对应的权值。
4.根据权利要求2所述的服务器,其特征在于,所述第一控制器,具体还被配置为:
根据预设条件,获取用户输入的多个历史请求指令;
针对每个所述历史请求指令,确定所述历史请求指令对应的预设指令;
其中,所述预设条件包括:预设场景和预设时间段中的至少一种。
5.根据权利要求1所述的服务器,其特征在于,所述第一控制器,具体被配置为:
针对终端设备发送的请求指令,确定所述请求指令对应的第一指令;
根据所述第一指令以及所述第一指令对应的用户标识信息,在多个所述预设指令中,匹配与所述请求指令对应的目标指令,并确定所述目标指令对应的权值;或
根据所述第一指令、所述第一指令对应的用户标识信息、以及所述第一指令对应的预设信息,在多个所述预设指令中,匹配与所述请求指令对应的目标指令,并确定所述目标指令对应的权值,其中,所述预设信息包括预设时间段和预设场景中至少一种。
6.根据权利要求1所述的服务器,其特征在于,所述第一控制器,还被配置为:
若所述目标指令对应的权值小于所述预设阈值,则确定所述目标指令不是免唤醒语音助手的指令,并发送关闭指令给所述终端设备,其中,所述关闭指令用于指示关闭所述终端设备的预设程序。
7.一种终端设备,其特征在于,包括:
第二控制器,被配置为:
响应于用户输入的唤醒请求,唤醒所述终端设备的语音助手,其中,所述唤醒请求携带唤醒关键词,所述唤醒关键词用于唤醒所述终端设备的语音助手;
在确定所述终端设备的语音助手被唤醒后,响应于用户输入的请求指令,将所述请求指令发送至服务器;
响应于服务器发送的唤醒指令,唤醒所述终端设备的语音助手。
8.一种语音唤醒方法,其特征在于,应用于服务器,所述服务器存储有预设指令权值库,所述预设指令权值库包括:多个预设指令,以及每个预设指令对应的权值;包括:
接收终端设备发送的请求指令,从所述多个预设指令中确定与所述请求指令对应的目标指令;
若所述目标指令对应的权值大于或等于预设阈值,则确定所述目标指令为免唤醒终端设备的语音助手的指令,并发送唤醒指令给所述终端设备,其中,所述唤醒指令用于指示唤醒所述终端设备的语音助手。
9.一种语音唤醒方法,其特征在于,应用于终端设备,包括:
响应于用户输入的唤醒请求,唤醒所述终端设备的语音助手,其中,所述唤醒请求携带唤醒关键词,所述唤醒关键词用于唤醒所述终端设备的语音助手;
在确定所述终端设备的语音助手被唤醒后,响应于用户输入的请求指令,将所述请求指令发送至服务器;
响应于服务器发送的唤醒指令,唤醒所述终端设备的语音助手。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求8-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310342883.3A CN116416987A (zh) | 2023-03-31 | 2023-03-31 | 服务器、终端设备、语音唤醒方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310342883.3A CN116416987A (zh) | 2023-03-31 | 2023-03-31 | 服务器、终端设备、语音唤醒方法及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116416987A true CN116416987A (zh) | 2023-07-11 |
Family
ID=87055884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310342883.3A Pending CN116416987A (zh) | 2023-03-31 | 2023-03-31 | 服务器、终端设备、语音唤醒方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416987A (zh) |
-
2023
- 2023-03-31 CN CN202310342883.3A patent/CN116416987A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6640430B1 (ja) | 近くのコンピューティングデバイスのバーチャルアシスタントの識別 | |
CN108595228B (zh) | 应用程序预测模型建立方法、装置、存储介质及移动终端 | |
US10891142B2 (en) | Method and device for preloading application, storage medium, and terminal device | |
US10978046B2 (en) | System and method for customizing portable natural language processing interface for appliances | |
CN105634881B (zh) | 应用场景推荐方法及装置 | |
US11568868B2 (en) | Voice control method and apparatus, and computer storage medium | |
CN108320744B (zh) | 语音处理方法和装置、电子设备、计算机可读存储介质 | |
CN109947497B (zh) | 应用程序预加载方法、装置、存储介质及移动终端 | |
US20130300546A1 (en) | Remote control method and apparatus for terminals | |
EP3850532B1 (en) | System and method for providing portable natural language processing interface across multiple appliances | |
WO2018133307A1 (zh) | 一种实现语音控制的方法和终端 | |
CN112735418B (zh) | 一种语音交互的处理方法、装置、终端及存储介质 | |
CN108984066B (zh) | 一种应用程序图标显示方法及移动终端 | |
CN109240991B (zh) | 文件推荐方法、装置、存储介质及智能终端 | |
US11004445B2 (en) | Information processing method, server, terminal, and information processing system | |
CN106371326B (zh) | 设备工作场景的存储方法及装置 | |
CN107391021B (zh) | 黑屏手势的识别方法、装置、存储介质及移动终端 | |
WO2017206918A1 (zh) | 终端加速唤醒方法以及相关产品 | |
CN106503077A (zh) | 媒体内容的管理方法、装置和设备 | |
CN113672303A (zh) | 一种应用程序启动方法、电子设备、存储介质 | |
CN106528284B (zh) | 应用程序配置方法、装置及终端设备 | |
CN103905837A (zh) | 图像处理方法、装置及终端 | |
CN116416987A (zh) | 服务器、终端设备、语音唤醒方法及介质 | |
CN116189674A (zh) | 一种语音控制方法及显示设备 | |
CN111144845B (zh) | 一种移动终端会议提醒方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |