CN114093357A - 控制方法、智能终端及可读存储介质 - Google Patents
控制方法、智能终端及可读存储介质 Download PDFInfo
- Publication number
- CN114093357A CN114093357A CN202111328532.4A CN202111328532A CN114093357A CN 114093357 A CN114093357 A CN 114093357A CN 202111328532 A CN202111328532 A CN 202111328532A CN 114093357 A CN114093357 A CN 114093357A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- wake
- time
- moment
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000005236 sound signal Effects 0.000 claims abstract description 228
- 238000001514 detection method Methods 0.000 claims description 133
- 238000004590 computer program Methods 0.000 claims description 17
- 230000003993 interaction Effects 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 9
- 238000012795 verification Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000037007 arousal Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Telephone Function (AREA)
Abstract
本申请提出了一种控制方法、智能终端及可读存储介质。该方法包括:采集当前环境的音频信号,检测音频信号中是否包含预设信号;确定包含所述预设信号的时刻为目标时刻,以所述目标时刻为基准,对前一时刻缓存的音频信号进行语音识别;执行与语音识别结果对应的控制指令。本申请可以减少人机交互的次数,从而提高设备控制的效率。
Description
技术领域
本申请涉及通讯技术领域,具体涉及一种控制方法、智能终端及可读存储介质。
背景技术
如今,为了提高用户使用手机、笔记本以及掌上电脑等智能终端的便利性,很多智能终端上具有语音识别能力,通常会设置语音助手,并配置有对应的唤醒词(本申请可以将其记为主唤醒词),来唤醒智能终端的语音助手,比如A音箱,用户可以说“你好A”,启动A音箱,并唤醒A音箱的语音识别引擎(如语音助手),此时,用户说“播放xx的歌曲”,语音助手能够自动识别该音频信号包含的语音控制指令,并通过执行语音控制指令,自动控制A音箱播放xx的歌曲,无需用户手动操作,非常方便。
在构思及实现本申请过程中,发明人发现至少存在如下问题:用户要使用智能终端的语音控制功能,必须先说该主唤醒词,来唤醒智能终端的语音助手,在智能终端的某些应用场景下使用比较麻烦。
前面的叙述在于提供一般的背景信息,并不一定构成现有技术。
发明内容
针对上述技术问题,本申请提供一种控制方法、智能终端及可读存储介质,可以减少人机交互的次数,从而提高设备控制的效率。
为解决上述技术问题,本申请提供一种控制方法,包括以下步骤:
S10:采集当前环境的音频信号,检测所述音频信号中是否包含预设信号;
S20:确定包含所述预设信号的时刻为目标时刻,以所述目标时刻为基准,对前一时刻缓存的音频信号进行语音识别;
S30:执行与语音识别结果对应的控制指令令。
可选地,所述S20步骤可以包括:
确定或识别当前时刻对应的唤醒模式;
根据所述唤醒模式检测所述音频信号中是否包含预设信号。
可选地,所述根据所述唤醒模式检测所述音频信号中是否包含预设信号,包括:
所述唤醒模式为第一唤醒模式,在预设信号集合中选择目标信号,检测所述音频信号中是否包含与目标信号相同的信号;和/或,
所述唤醒模式为第二唤醒模式,检测所述音频信号中是否包含与所述预设信号集合中相似的信号。
可选地,所述根据所述唤醒模式检测所述音频信号中是否包含预设信号,包括:
确定或识别所述音频信号对应的音频时长,所述音频时长包括起始检测时刻、第一检测时刻、第二检测时刻以及终止检测时刻;
在所述起始检测时刻至所述第一检测时刻,根据所述唤醒模式检测所述音频信号中是否包含预设信号;和/或,
在所述第二检测时刻至所述终止检测时刻,根据所述唤醒模式检测所述音频信号中是否包含预设信号。
可选地,所述控制方法还包括:
检测当前时刻对应的时间区间;
将所述当前时刻对应的唤醒值调整至所述时间区间对应的唤醒阈值。
可选地,在所述S20步骤之前,包括:
对所述音频信号进行声纹识别;
所述声纹识别结果指示所述音频信号对应的来源为目标来源,对前一时刻缓存的音频信号进行语音识别。
可选地,所述声纹识别结果指示所述音频信号对应的来源为目标来源,对前一时刻缓存的音频信号进行语音识别,包括:
所述声纹识别结果指示所述音频信号对应的来源为目标来源,确定或输出所述目标来源对应的来源类型;
确定或识别包含所述目标时刻的语音识别区间;
基于确定或输出的来源类型,在所述语音识别区间内对缓存的音频信号进行语音识别。
可选地,所述基于确定或输出的来源类型,在所述语音识别区间内对缓存的音频信号进行语音识别,包括:
来源类型为限制来源类型,获取预设语音库,所述预设语音库包括至少一个参考文本;
将缓存的音频信号转换为音频文本,计算或确定所述音频文本与至少一个参考文本之间的相似度;
将相似度最大的参考文本对应的语义确定为缓存的音频信号的语音识别结果。
本申请还提供一种智能终端,包括:存储器、处理器,其中,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现如上述方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
如上所述,本申请的控制方法,包括步骤:采集当前环境的音频信号,并检测所述音频信号中是否包含预设信号,然后,确定包含所述预设信号的时刻为目标时刻,以所述目标时刻为基准,对前一时刻缓存的音频信号进行语音识别,最后,执行与语音识别结果对应的控制指令。本申请的控制方法,当检测到音频信号中包含预设信号时,将包含预设信号的时刻确定为目标时刻,并以目标时刻为基准,对前一时刻缓存的音频信号进行语音设备,通过上述技术方案,当用户需要通过语音控制设备时,无需通过两段音频信号分别执行语音唤醒和语音识别的功能,由此,减少了人机交互的次数,从而提高设备控制的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为实现本申请各个实施例的一种移动终端的硬件结构示意图;
图2为本申请实施例提供的一种通信网络***架构图;
图3是本申请实施例提供的控制方法的场景示意图;
图4是本申请实施例提供的控制方法的流程示意图;
图5是本申请实施例提供的音频时长的时刻点划分的示意图;
图6是本申请实施例提供的在手机的屏幕上显示提示信息的界面示意图;
图7是本申请实施例提供的在平板电脑的显示屏显示提示信息的界面示意图;
图8是本申请实施例提供的控制视频应用的过程示意图;
图9是本申请实施例提供的控制社交应用的过程示意图;
图10是本申请实施例提供的控制摄像头的过程示意图;
图11是本申请实施例提供的控制方法的另一种流程示意图;
图12是本申请实施例提供的控制方法的另一场景示意图;
图13是本申请实施例提供的设备控制装置的结构示意图;
图14是本申请实施例提供的设备控制装置的另一结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的,或意味着任一个或任何组合。例如,“包括以下至少一个:A、B、C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”,再如,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,在本文中,采用了诸如S10、S20等步骤代号,其目的是为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员在具体实施时,可能会先执行S20后执行S10等,但这些均应在本申请的保护范围之内。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。
智能终端可以以各种形式来实施。例如,本申请中描述的智能终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本申请的实施方式的构造也能够应用于固定类型的终端。
请参阅图1,其为实现本申请各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:RF(Radio Frequency,射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对移动终端的各个部件进行具体的介绍:
射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯***)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000,码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access,时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution,频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution,分时双工长期演进)和5G等。
WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。
A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。可选地,光传感器包括环境光传感器及接近传感器,可选地,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。
用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。可选地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。可选地,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。可选地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
可选地,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。
接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,可选地,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,可选地,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理***与处理器110逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。
为了便于理解本申请实施例,下面对本申请的移动终端所基于的通信网络***进行描述。
请参阅图2,图2为本申请实施例提供的一种通信网络***架构图,该通信网络***为通用移动通信技术的LTE***,该LTE***包括依次通讯连接的UE(User Equipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。
可选地,UE201可以是上述终端100,此处不再赘述。
E-UTRAN202包括eNodeB2021和其它eNodeB2022等。可选地,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,eNodeB2021连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。
EPC203可以包括MME(Mobility Management Entity,移动性管理实体)2031,HSS(Home Subscriber Server,归属用户服务器)2032,其它MME2033,SGW(Serving Gate Way,服务网关)2034,PGW(PDN Gate Way,分组数据网络网关)2035和PCRF(Policy andCharging Rules Function,政策和资费功能实体)2036等。可选地,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE 201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。
IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem,IP多媒体子***)或其它IP业务等。
虽然上述以LTE***为例进行了介绍,但本领域技术人员应当知晓,本申请不仅仅适用于LTE***,也可以适用于其他无线通信***,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络***(如5G)等,此处不做限定。
基于上述移动终端硬件结构以及通信网络***,提出本申请各个实施例。
请参阅图3,图3是本申请实施例提供的控制方法的场景示意图。以设备控制装置集成在手机为例进行具体说明,在一些实施例中,当用户需要通过手机查看天气预报时,可以发出语音指令“明天天气怎么样,小音”,手机在待机模式下,采集当前环境的音频信号,然后,手机以当前时刻为基准,在预设时间范围内检测音频信号中是否包含唤醒词,接着,当手机检测到音频信号中在预设时间范围内包含唤醒词时,则缓存音频信号并对音频信号进行声纹识别,比如,在该实施例中,“小音”为唤醒词,手机以当前时刻为基准,检测当前时刻T秒之前以及当前时刻T秒之后,音频信号中是否包含唤醒词,当手机检测到音频信号中在预设时间范围内包含唤醒词时,则缓存音频信号并对音频信号进行声纹识别,最后,手机执行与语音识别结果对应的控制指令。
本申请的控制方法,依次对相同的音频信号执行唤醒词检测、声纹识别以及语音识别,当用户需要通过语音控制设备时,无需通过两段音频信号分别执行语音唤醒和语音识别,由此,减少了人机交互的次数,从而提高设备控制的效率。
以下,通过具体实施例对本申请所示的技术方案进行详细说明,以手机控制方案为例,同样也适用于对智能家居、平板电脑、个人计算机进行控制。需要说明的是,如下实施例可以单独存在,也可以相互结合,对于相同或相似的内容,在不同的实施例中不再重复说明。
请参阅图4,图4是本申请实施例提供的控制方法的流程示意图。该控制方法具体可以包括:
S10、采集当前环境的音频信号,检测音频信号中是否包含预设信号。
可选地,在一些实施例中,可以在设备处于待机状态下,采集当前环境的音频信号,待机状态指手机或电脑等智能终端的开机但是不进行任何实质性工作(即不对文件和程序的各种操作)的状态。待机是将当前处于运行状态的数据保存在内存中,机器只对内存供电,而硬盘、屏幕和CPU等部件则停止供电。在本申请实施例中,待机模式可以包括飞行模式、充电模式以及静音模式等等,在待机模式下,持续监听周围声音,并在监听的声音中提取有效的语音信息,即,在本申请实施例中,音频信号可以为人发出的音频信号,预设信号可以为唤醒词、一段音乐或撞击声等等,唤醒词可以是由用户预先设置的词语、单字、字母、数字或字符等,以预设信号为唤醒词,可选地,在一些实施例中,可以持续检测音频信号中是否包含唤醒词,如利用唤醒模型判断音频信号中属于预设唤醒词的概率,根据该概率对音频信号中的引用频次进行打分,然后,根据该打分值构建唤醒词与非唤醒词的得分分布,并基于该得分分布生成ROC曲线(receiver operating characteristic curve,受试者工作特征曲线),最后可以选择ROC曲线上的EER(Equal Error Rate,等错误率)点,将该点设置为静音唤醒阈值。
唤醒模型在使用之前需要进行训练。训练唤醒模型首先需要定义唤醒词,一般定义一个3-4个音节的词语作为唤醒词,例如,“小爱同学”、“你好小达”以及“小张同学”等等。之后需要收集唤醒词的发音,例如可以按照千人千时的规则收集唤醒词发音。最后将收集的数据输入准备的好的模型,对模型进行训练。基础算法模型可以采用基于模板匹配的关键词检索(Keyword spotting,KWS)、基于马尔可夫模型的KWS以及基于深度学习的KWS。在实际使用时,可以根据实际需求调整唤醒词的数量以及唤醒词的具体内容。当检测到音频信号中包含预设信号时,则执行步骤S20。
还是以预设信号为唤醒词为例进行说明,在当前时刻S秒前至当前时刻S秒后的时间范围内,检测音频信号中是否包含唤醒词,其中,S秒可以根据唤醒词的长度进行设置,可选地,在本申请的一些实施例中,可以通过确定当前时刻对应的唤醒模式,然后,在预设时间范围内根据唤醒模式检测音频信号中是否包含唤醒词,即,可选地,在一些实施例中,S20步骤具体可以包括:
(11)确定或识别当前时刻对应的唤醒模式;
(12)根据唤醒模式检测音频信号中是否包含唤醒词。
可选地,不同时刻对应的唤醒模式不同,可以由用户通过设备进行设置,也可以是工程人员在设备出厂前完成设置,当然,还可以是用户在已经设定唤醒模式的基础上,新增不同的唤醒模式。
为了满足在不同场景下的使用需求,对于唤醒的需求均不同,应用场景可以包括家庭场景、会议场景以及公开场合场景。可选地,在会议场景下,为了便于用户在会议场景下快速地唤醒设备并进行控制,可以采用本申请的控制方法控制目标设备,并且,为了避免在会议时误唤醒设备,导致会议中断,在一些实施例中,可以检测音频信号中是否包含与目标信号相同的唤醒词。可选地,在家庭场景下,为了提高用户控制设备的效率,可以降低唤醒设备的难度,即,检测音频信号中是否包含与预设信号集合中相似的唤醒词,比如,对于用户需要唤醒空调时,预设信号集合中仅包含“空气调节器”这一唤醒词,当用户发出的语音包含“冷气”或“空调”时,则唤醒空调,即,可选地,在一些实施例中,步骤“在预设时间范围内根据唤醒模式检测音频信号中是否包含唤醒词”,具体可以包括:
(21)唤醒模式为第一唤醒模式,在预设信号集合中选择目标信号,检测音频信号中是否包含与目标信号相同的唤醒词;和/或,
(22)若唤醒模式为第二唤醒模式,检测音频信号中是否包含与预设信号集合中相似的信号。
由于大多数用户的语音唤醒习惯为唤醒词+指令,或者为指令+唤醒词,可见,唤醒词常位于音频信号的前几秒或最后几秒,因此,为了提高设备唤醒的效率,进而达到提高设备控制效率的技术效果,可选地,在一些实施例中,还可以检测音频信号的某一段中是否存在唤醒词,即,步骤“根据唤醒模式检测音频信号中是否包含唤醒词”,具体可以包括:
(31)确定或识别音频信号对应的音频时长;
(32)在起始检测时刻至第一检测时刻,根据唤醒模式检测音频信号中是否包含预设信号;和/或,
(33)在第二检测时刻至终止检测时刻,根据唤醒模式检测音频信号中是否包含预设信号。
可选地,音频时长包括起始检测时刻c、第一检测时刻t1、第二检测时刻t2以及终止检测时刻e,第一检测时刻t1晚于起始检测时刻c,第二检测时刻t2晚于第一检测时刻t1,终止检测时刻e晚于第二检测时刻t2,如图5所示,比如,该音频信号的音频时长为30秒,起始检测时刻c为该音频信号的第0秒,第一检测时刻t1为该音频信号的第1秒,第二检测时刻t2为该音频信号的第29秒,终止检测时刻e为该音频信号的第30秒。当然,起始检测时刻c与第一检测时刻t1之间的时间间隔可以为2秒、3秒以及5秒等等,第二检测时刻t2与终止检测时刻e之间的时间间隔可以为2秒、3秒以及5秒等等,具体可以根据实际情况进行设置,可以理解的是,起始检测时刻c与第一检测时刻t1之间的时间间隔可以与第二检测时刻t2与终止检测时刻e之间的时间间隔可以相同,也可以不同。
比如,在确定音频信号对应的音频时长为50秒后,可以根据该音频时长确定第一检测时刻与起始检测时刻之间的时间间隔、以及第二检测时刻与终止检测时刻之间的时间间隔,由此可以根据音频时长灵活地确定第一检测时刻以及第二检测时刻。在本申请的一些实施例中,在起始检测时刻至第一检测时刻之间,根据唤醒模式检测音频信号中是否包含唤醒词;当检测到在起始检测时刻至第一检测时刻之间,音频信号中不包含唤醒词时,则在第二检测时刻至终止检测时刻之间,根据唤醒模式检测音频信号中是否包含唤醒词;或者,在第二检测时刻至终止检测时刻之间,根据唤醒模式检测音频信号中是否包含唤醒词;当检测到在第二检测时刻至终止检测时刻之间,音频信号中不包含唤醒词时,则在起始检测时刻至第一检测时刻之间间,根据唤醒模式检测音频信号中是否包含唤醒词;当然,还可以在起始检测时刻至第一检测时刻之间、以及在第二检测时刻至终止检测时刻之间,同时检测音频信号中是否包含唤醒词,其中,根据唤醒模式检测音频信号中是否包含唤醒词的方式请参阅前面实施例,在此不再赘述。
需要说明的是,在同时检测的方案中,当起始检测时刻和第一检测时刻对应第一唤醒模式,且第二检测时刻和终止检测时刻对应第二唤醒模式时,则可以采用第一唤醒模式检测音频信号中是否包含唤醒词,也可以采用第二唤醒模式检测音频信号中是否包含唤醒词,当然,也可以在起始检测时刻至第一检测时刻之间,根据第一唤醒模式检测音频信号中是否包含唤醒词,以及,在第二检测时刻至终止检测时刻之间,根据第二唤醒模式检测音频信号中是否包含唤醒词。
还需要说明的是,在同时检测的方案中,当起始检测时刻对应第一唤醒模式,且第一检测时刻、第二检测时刻和终止检测时刻对应第二唤醒模式时,则以起始检测时刻对应的唤醒模式为基准,即,在起始检测时刻至第一检测时刻之间,根据第一唤醒模式检测音频信号中是否包含唤醒词,以及,在第二检测时刻至终止检测时刻之间,根据第一唤醒模式检测音频信号中是否包含唤醒词。也可以以第一检测时刻、第二检测时刻和终止检测时刻对应的唤醒模式为基准,即,在起始检测时刻至第一检测时刻之间,根据第二唤醒模式检测音频信号中是否包含唤醒词,以及,在第二检测时刻至终止检测时刻之间,根据第二唤醒模式检测音频信号中是否包含唤醒词。
可选地,在一些实施例中,还可以计算起始检测时刻、第一检测时刻、第二检测时刻和终止检测时刻之间的平均值,从而得到参考检测时刻,根据参考检测时刻对应的唤醒模式检测音频信号中是否包含唤醒词。比如,起始检测时刻、第一检测时刻、第二检测时刻和终止检测时刻分别对应音频时长的第1秒、第6秒、第18秒以及第23秒,其对应的平均值为12,即,参考检测时刻为第12秒,若第12秒对应的唤醒模式为第一唤醒模式,则根据第一唤醒模式检测音频信号中是否包含唤醒词,以此类推。
此外,还需要说明的是,在一些实施例中,在待机模式下,为了降低用户的误唤醒概率,可以根据当前时刻对应的时间区间,调整相应的唤醒值,即,可选地,在一些实施例中,具体还可以包括:
(41)检测当前时刻对应的时间区间;
(42)将当前时刻对应的唤醒值调整至时间区间对应的唤醒阈值。
在本申请实施例中,将采集当前环境的音频信号的时刻确定为当前时刻,即,在待机模式下,采集音频信号的每个时刻均为当前时刻,也即,在本申请的设备控制方案中,可以根据不同的当前时刻调整唤醒值,比如,可以将早上8点至晚上10点的时间区间设定为第一时间区间,将晚上10点至早上8点的时间区间设定为第二时间区间,并将第一时间区间的唤醒阈值设定为40,将第二时间区间的唤醒预支设定为10,以此减小用户误唤醒设备的概率。
当检测到音频信号中包含唤醒词时,则执行步骤S20;当检测到音频信号中不包含唤醒词时,则返回采集当前环境的音频信号的步骤。
S20、确定包含预设信号的时刻为目标时刻,以目标时刻为基准,对前一时刻缓存的音频信号进行语音识别。
例如,具体的,音频信号对应的音频文本为“今天天气怎么样,小音”,其中,“小音”为唤醒词,则将“小音”对应的时刻确定为目标时刻。在一些实施例中,若音频信号中出现多个相同的唤醒词,如“小音,天气怎么样,小音”则可以将第一个唤醒词的时刻确定为目标时刻,或者将最后一个唤醒词的时刻确定为目标时刻;当然,还可以将第一个唤醒词的时刻确定为第一目标时刻,以及将最后一个唤醒词的时刻确定为第二目标时刻,如“小音小音,帮我把屏幕亮度调高,小音,再查查天气预报”,在后续可以基于第一目标时刻和第二目标时刻进行语音识别。
可选地,在步骤S20之前,还可以对音频信号进行声纹识别,比如,在唤醒芯片识别到唤醒词后,可以启动中央处理器对该音频信号进行声纹识别,若声纹识别结果符合预设条件时,则执行步骤S50;若声纹识别结果不符合预设条件,则继续进入待机模式,中央处理器进入休眠状态。
所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。
可选地,声纹识别作为一种生物信息识别的方法,包括用户注册和用户身份识别两个阶段。注册阶段将语音通过一系列处理映射为用户模型。在识别阶段对于一段身份未知的语音,与模型进行相似度的匹配,进而对未知语音的身份与注册语音的身份是否一致进行判断。
可选地,在声纹注册阶段,注册用户可以朗读一个注册字符串,比如,注册字符串为数字字符串123823218,其包含了四种数字“1”、“2”、“3”、“8”,则声纹识别装置根据注册语音信息中各个字符对应的语音片段进行声纹特征提取和声纹模型训练,得到“1”、“2”、“3”、“8”对应的语音片段的声纹特征,进而结合预设的相应字符对应的通用背景模型(Universal Background Model,UBM,)训练得到注册语音信息中各个字符对应的特征向量,包括与数字“1”对应的特征向量、与数字“2”对应的特征向量、与数字“3”对应的特征向量以及与数字“8”对应的特征向量,然后声纹识别装置可以分别为不同的注册用户将其在声纹注册阶段朗读的注册语音信息中的多个字符对应的特征向量保存在声纹识别装置的模型库中。
在身份识别阶段,验证用户即未知身份的用户朗读一个验证字符串,比如,验证字符串为数字字符串56562561,则声纹识别装置根据验证用户朗读时产生的验证语音信息中各个字符对应的语音片段进行声纹特征提取和声纹模型训练,得到“1”、“2”、“5”、“6”对应的GMM,进而结合预设的相应字符对应的UBM可以计算得到验证用户的验证语音信息的特征向量,包括与数字“0”对应的特征向量、与数字“1”对应的特征向量、与数字“5”对应的特征向量以及与数字“8”对应的特征向量,进而分别计算验证语音信息中的“1”、“2”、“5”、“6”对应的特征向量分别与注册语音信息中的“1”、“2”、“5”、“6”对应的特征向量之间的相似度分数,若相似度分数达到预设验证门限,则将验证用户确定为注册语音信息对应的注册用户,即,可选的,在一些实施例中,在步骤S20之前,还可以包括:
(51)对音频信号进行声纹识别;
(52)声纹识别结果指示音频信号对应的来源为目标来源,对前一时刻缓存的音频信号进行语音识别
例如,具体的,可以以目标时刻为基准,在缓存的音频信号中确定目标时刻Q秒之前至目标时刻Q秒之后的音频信号,得到待识别音频信号,然后,对该待识别音频信号进行语音识别,其中,Q的具体数值可以根据实际情况进行设置,可以为5秒、9秒以及10秒等等。
在本申请的一些实施例中,可以根据不同的用户类型,对该待识别音频信号进行语音识别,比如,对于A用户而言,其能唤醒设备的所有组件、应用以及功能等等,执行语音识别的过程时,可以根据待识别音频信号的语音特征,将待识别音频信号转换为相应的语音文本,并输出相应的语音识别结果。而对于B用户而言,其只能唤醒设备的部分组件、应用和/或功能,如B用户为儿童,其在某段时间内不能唤醒游戏应用、视频应用或查询视频信息等等,在执行语音识别的过程时,当识别到语音文本中包含其所限制使用的组件、应用和/或功能时,则检测目标时刻是否在对应的使用时间段内,若是,则输出语音识别结果;若不是,则生成相应的提示信息,比如,可以在手机的屏幕上显示提示信息,如图6所示,在图6对应的实施例中,B用户为儿童,其在使用时间段外唤醒视频应用,故,在本方案中,则在手机的显示屏上显示“请在允许的时间段内启动应用”,即,可选地,在一些实施例中,步骤S50具体可以包括:
(51)声纹识别结果指示音频信号对应的来源为目标来源时,确定或输出目标来源对应的来源类型;
(52)确定或识别包含目标时刻的语音识别区间;
(53)基于确定或输出的来源类型,在语音识别区间内对缓存的音频信号进行语音识别。
可选的,目标用户为预先在设备录入声纹信息的用户,用户类型指示用户的身份类型,比如家长和儿童,或者是设备持有者和设备访问者等等,语音识别区间包括语音识别起点和语音识别终点,目标时刻介于语音识别起点和语音识别终点之间。
可选地,用户类型可以包括限制用户类型和不受限用户类型,顾名思义,限制用户类型对应的用户通过语音仅能控制设备的部分组件和/或应用,而不受限用户类型对应的用户则可以通过语音控制设备全部的组件以及应用。比如,在智能家居场景下,如图7所示,可以通过平板电脑控制房屋内所有智能电器的开启与关闭,其中,A用户为不受限用户,即,其对应的用户类型为不受限用户类型,B用户为受限用户,即,B用户对应的用户类型为受限用户类型,且B用户仅能控制风扇、电视以及空调的开启或关闭,当B用户发出语音指令:关闭全屋的灯光,此时,平板电脑对B用户进行声纹识别,识别到B用户对应的用户类型为受限用户类型,然后,平板电脑则可以检测B用户的语音指令对应的语音文本与预设语音库的语音文本之间的相似度,由上可知,B用户并不能控制灯光的关闭,因此,平板电脑则可以通过其显示屏显示相应的提示信息如“您不能执行该操作”,并且还可以通过扬声器播报相应的语音提醒,即,可选地,在一些实施例中,步骤“基于确定的用户类型,在语音识别区间内对缓存的音频信号进行语音识别”,具体可以包括:
(61)当用户类型为限制用户类型时,获取预设语音库;
(62)将缓存的音频信号转换为音频文本,并计算音频文本与每个参考文本之间的相似度;
(63)将相似度最大的参考文本对应的语义确定为缓存的音频信号的语音识别结果。
可选地,预设语音库可以包括多个参考文本,该预设语音库中的参考文本可以是厂家预先录入的,也可以是由用户预先录入的,当然,还可以是在设备出厂前预先录入一个基础语音库,用户在该基础语音库上录入新的语音,由此形成预设语音库。
S30、执行与语音识别结果对应的控制指令。
其中,可以根据语音识别结果启动相应的应用、展示应用界面和/或调用目标设备的设备组件,即,可选地,在一些实施例中,步骤S30具体可以包括:
(71)启动目标应用;
(72)展示应用界面;和/或,
(73)调用目标设备的设备组件。
比如,请参阅图8,在待机模式下,当用户输入的语音为:小音,打开视频应用XX,手机在接收到该音频信号后,手机检测音频信号中是否包含唤醒词,当手机检测到音频信号中包含唤醒词“小音”时,则将检测到唤醒词的时刻确定为目标时刻,随后,进入就绪模式,对音频信号进行声纹识别,当纹识别结果指示音频信号对应的用户为目标用户时,进入使用模式,手机则以目标时刻为基准,对缓存的音频信号进行语音识别,基于此,手机可以识别到用户发出的音频信号对应的音频文本为:打开视频应用XX,手机则可以启动视频应用XX。
比如,请参阅图9,在待机模式下,当用户输入的语音为:小音,打开与联系人K的对话页面,手机在接收到该音频信号后,手机检测音频信号中是否包含唤醒词,当手机检测到音频信号中包含唤醒词“小音”时,则将检测到唤醒词的时刻确定为目标时刻,随后,进入就绪模式,对音频信号进行声纹识别,当纹识别结果指示音频信号对应的用户为目标用户时,进入使用模式,手机则以目标时刻为基准,对缓存的音频信号进行语音识别,基于此,手机可以识别到用户发出的音频信号对应的音频文本为:打开搜索引擎的页面,手机则可以启动社交应用,并在社交应用的联系人列表中选择联系人K,随后展示与联系人K的对话页面。
比如,请参阅图10,在待机模式下,当用户输入的语音为:小音,帮我自拍,手机在接收到该音频信号后,手机检测音频信号中是否包含唤醒词,当手机检测到音频信号中包含唤醒词“小音”时,则将检测到唤醒词的时刻确定为目标时刻,随后,进入就绪模式,对音频信号进行声纹识别,当纹识别结果指示音频信号对应的用户为目标用户时,进入使用模式,手机则以目标时刻为基准,对缓存的音频信号进行语音识别,基于此,手机可以识别到用户发出的音频信号对应的音频文本为:帮我自拍,手机则可以启动前置摄像头,并且,显示相应的摄像页面。
此外,在智能家居的场景中,用户可以通过一台主控设备控制多个设备的开启或关闭,本申请的控制方法可以通过唤醒主设备进而控制多个设备的开启与关闭,具体可以根据用户的语音控制记录,控制相应的设备开启和/或关闭,即,可选地,在一些实施例中,步骤S60具体可以包括:
(81)获取当前设备登录的用户账号;
(82)采集用户账号的语音控制记录;
(83)根据语音控制记录,执行与语音识别结果对应的控制指令
比如,主控设备当前登录的用户账号为用户账号S,当主控设备接收到用户发出的语音:小音,开启所有工作设备(即接收音频信号),主控设备在对该音频信号进行唤醒词检测、声纹检测以及语音识别后,主控设备可以获取用户账号S的语音控制记录,该语音控制记录指示:用户在过去一个月开启的工作设备为第一设备A1和第二设备A2,随后,主控设备则开启第一设备A1和第二设备A2。
需要说明的是,当主控设备开启第一设备A1和第二设备A2时,第三设备A3处于开启状态,此时,主控设备可以关闭第三设备A3,也可以通过语音播报的形式询问用户,当主控设备接收到用户回应的语音为“是”时,则关闭第三设备A3,若主控设备在预设时间内没有接收到用户回应的语音为“是”,则保持第三设备A3的开启状态。
由上可知,本申请提供的控制方法,在待机模式下,采集当前环境的音频信号,然后,检测音频信号中是否包含唤醒词,当检测到音频信号中包含唤醒词时,则将检测到唤醒词的时刻确定为目标时刻,接着,对音频信号进行声纹识别,当声纹识别结果指示音频信号对应的用户为目标用户时,则以目标时刻为基准,对缓存的音频信号进行语音识别,最后,执行与语音识别结果对应的控制指令。可见,本申请的控制方法,当检测到音频信号中包含预设信号时,将包含预设信号的时刻确定为目标时刻,并以目标时刻为基准,对前一时刻缓存的音频信号进行语音设备,通过上述技术方案,当用户需要通过语音控制设备时,无需通过两段音频信号分别执行语音唤醒和语音识别的功能,由此,减少了人机交互的次数,从而提高设备控制的效率。
本申请实施例还提供一种控制方法,其中,设备控制装置集成在手机,请参阅图11,图11是本申请提供的控制方法的另一流程示意图,具体流程如下:
S21、手机在待机模式下,采集当前环境的音频信号。
比如,手机在飞行模式下,其搭载的唤醒芯片会持续监听周围环境的声音,并缓存一定长度的音频,在本实施例中,通过唤醒芯片监听当前环境的音频信号,避免频繁调用中央处理器而导致功耗升高,因此,在本实施例中,利用唤醒芯片采集当前环境的音频信号可以降低手机的功耗。
S22、手机检测音频信号中是否包含唤醒词。
比如,手机在当前时刻S秒前至当前时刻S秒后的时间范围内,检测音频信号音频信号中是否包含唤醒词,其中,S秒可以根据唤醒词的长度进行设置,可选地,手机可以利用唤醒模型检测音频信号中是否包含唤醒词,比如,手机利用唤醒模型判断音频信号中属于预设唤醒词的概率,手机根据该概率对音频信号中的引用频次进行打分,然后,手机根据该打分值构建唤醒词与非唤醒词的得分分布,并基于该得分分布生成ROC曲线(receiveroperating characteristic curve,受试者工作特征曲线),最后,手机还可以选择ROC曲线上的EER(Equal Error Rate,等错误率)点,将该点设置为静音唤醒阈值。
S23、当手机检测到音频信号中包含唤醒词时,则将检测到唤醒词的时刻确定为目标时刻。
具体参阅S30的实施例,在此不再赘述。
S24、手机对音频信号进行声纹识别。
在手机检测到唤醒词,并将检测到唤醒词的时刻确定为目标时刻后,手机可以利用预设的声纹识别模型对音频信号进行声纹识别,具体请参阅步骤S40的实施例,在此不再赘述。
S25、当声纹识别结果指示音频信号对应的用户为目标用户时,手机则以目标时刻为基准,对缓存的音频信号进行语音识别。
例如,具体的,手机可以以目标时刻为基准,在缓存的音频信号中确定目标时刻Q秒之前至目标时刻Q秒之后的音频信号,得到待识别音频信号,然后,对该待识别音频信号进行语音识别,其中,Q的具体数值可以根据实际情况进行设置,可以为5秒、9秒以及10秒等等。
需要说明的是,在一些实施例中,若声纹识别结果指示音频信号对应的用户不为目标用户时,手机可以发出安全警告或者启动找回功能。
S26、手机执行与语音识别结果对应的控制指令。
比如,当用户发出的语音为“小音,我想听XX”,XX为一首歌曲的名字,在本申请的方案中,对用户的进行声纹识别以及语音识别后,即可播放相应的歌曲,不需要用户先唤醒等待语音助手回复后,用户再发出指令控制设备执行相应的操作,由此,减少了用户与设备之间的交互次数,进而提高对设备进行控制的效率。
由上可知,本申请提供的控制方法,手机在待机模式下,采集当前环境的音频信号,然后,手机检测音频信号中是否包含唤醒词,当手机检测到音频信号中包含唤醒词时,则将检测到唤醒词的时刻确定为目标时刻,接着,手机对音频信号进行声纹识别,当声纹识别结果指示音频信号对应的用户为目标用户时,手机则以目标时刻为基准,对缓存的音频信号进行语音识别,最后,执行与语音识别结果对应的控制指令。可见,本申请的控制方法,依次对相同的音频信号执行唤醒词检测、声纹识别以及语音识别,当用户需要通过语音控制设备时,无需通过两段音频信号分别执行语音唤醒和语音识别,由此,减少了人机交互的次数,从而提高设备控制的效率。
为了便于进一步理解本申请的控制方法,本申请还提供一种设备控制***(以下简称控制***),以下以智能家居场景为例进行具体说明,请参阅图12,图12是本申请提供的控制方法的另一场景示意图,具体如下:
该控制***包括手机10、第一待控设备20、第二待控设备30、第三待控设备40、第四待控设备50以及第五待控设备60,其中,手机10作为整个智能家居***的管理设备,手机10通过无线网络分别建立与第一待控设备20、第二待控设备30、第三待控设备40、第四待控设备50以及第五待控设备60之间的联系,进而用户可以通过该手机10控制第一待控设备20、第二待控设备30、第三待控设备40、第四待控设备50以及第五待控设备60。
可选地,第一待控设备20以及第二待控设备30均为智能音箱,第三待控设备40为智能电视,第四待控设备50为智能空调,第五待控设备60为智能台灯,当主控设备(手机10)接收到用户发出的语音:小音,进入听歌模式,此时,手机10在对该音频信号进行唤醒词检测、声纹检测以及语音识别后,基于该音频信号的语音识别结果,确定与“听歌模式”关联的设备为:第一待控设备20和第二待控设备30,此时,手机10则开启第一待控设备20和第二待控设备30,还可以播报询问信息:主人,是否需要打开空调,当手机10接收到用户回应的语音为“是”时,手机10则开启空调,即开启第四待控设备50。
由上可知,本申请提供的控制方法,手机在待机模式下,采集当前环境的音频信号,然后,手机检测音频信号中是否包含唤醒词,当手机检测到音频信号中包含唤醒词时,则将检测到唤醒词的时刻确定为目标时刻,接着,手机对音频信号进行声纹识别,当声纹识别结果指示音频信号对应的用户为目标用户时,手机则以目标时刻为基准,对缓存的音频信号进行语音识别,最后,执行与语音识别结果对应的控制指令。可见,本申请的控制方法,依次对相同的音频信号执行唤醒词检测、声纹识别以及语音识别,当用户需要通过语音控制设备时,无需通过两段音频信号分别执行语音唤醒和语音识别,由此,减少了人机交互的次数,从而提高设备控制的效率。
相应的,本申请还提供一种设备控制装置(以下简称控制装置),请参阅图13,图13是本申请提供的设备控制装置的结构示意图,该控制装置30可以集成在智能终端中,具体可以包括采集模块301、检测模块302、确定模块303、识别模块304以及执行模块305,具体如下:
采集模块301,用于采集当前环境的音频信号;
比如,采集模块301在飞行模式下,可以在采集到声音后转化为模拟电信号,之后需要将模拟电信号数字化转化为计算机能够识别的数字信号,可选地,在一些实施例中,采集模块301中安装有唤醒芯片,其搭载的唤醒芯片会持续监听周围环境的声音,缓存一定长度的音频,在本实施例中,通过唤醒芯片监听当前环境的音频信号,避免频繁调用中央处理器而导致功耗升高,因此,在本实施例中,利用唤醒芯片采集当前环境的音频信号可以降低设备控制装置的功耗。
检测模块302,用于检测所述音频信号中是否包预设信号。
可选地,预设信号可以为唤醒词、一段音乐或撞击声等等,唤醒词可以是由用户预先设置的词语、单字、字母、数字或字符等。
可选地,在一些实施例中,检测模块302具体可以包括:
第一确定单元,用于确定或识别当前时刻对应的唤醒模式;
检测单元,用于根据唤醒模式检测音频信号中是否包含唤醒词。
可选地,在一些实施例中,检测模块302具体可以用于:唤醒模式为第一唤醒模式,在预设信号集合中选择目标信号,并检测音频信号中是否包含与目标信号相同的信号;和/或,若唤醒模式为第二唤醒模式,则检测音频信号中是否包含与预设信号集合中相似的信号。
可选地,在一些实施例中,音频时长包括起始检测时刻、第一检测时刻、第二检测时刻以及终止检测时刻,可选地,第一检测时刻晚于起始检测时刻,第二检测时刻晚于第一检测时刻,终止检测时刻晚于第二检测时刻。检测模块302具体可以用于:确定音频信号对应的音频时长,在起始检测时刻至第一检测时刻之间,根据唤醒模式检测音频信号中是否包含预设信号;和/或,在第二检测时刻至终止检测时刻之间,根据唤醒模式检测所述音频信号中是否包含预设信号。
可选地,在一些实施例中,请参阅图14,控制装置30具体还可以包括调整模块306,其中,调整模块306具体可以用于:检测当前时刻对应的时间区间,将当前时刻对应的唤醒值调整至时间区间对应的唤醒阈值。
确定模块303,用于确定包含预设信号的时刻为目标时刻。
识别模块304,用于以目标时刻为基准,对前一时刻缓存的音频信号进行语音识别。
例如,可选地,音频信号对应的音频文本为“今天天气怎么样,小音”,其中,“小音”为唤醒词,则将“小音”对应的时刻确定为目标时刻。在一些实施例中,若音频信号中出现多个相同的唤醒词,如“小音,天气怎么样,小音”则可以将第一个唤醒词的时刻确定为目标时刻,或者将最后一个唤醒词的时刻确定为目标时刻;当然,还可以将第一个唤醒词的时刻确定为第一目标时刻,以及将最后一个唤醒词的时刻确定为第二目标时刻,如“小音小音,帮我把屏幕亮度调高,小音,再查查天气预报”,在后续可以基于第一目标时刻和第二目标时刻进行语音识别。
可选地,在一些实施例中,识别模块304具体还可以包括:
第一识别单元,用于对音频信号进行声纹识别;
第二识别单元,用于声纹识别结果指示所述音频信号对应的来源为目标来源,对前一时刻缓存的音频信号进行语音识别。
可选地,在一些实施例中,第二识别单元具体可以包括:
第二确定单元,用于声纹识别结果指示音频信号对应的来源为目标来源,确定或输出所述目标来源对应的来源类型;
第三确定单元,用于确定或识别包含目标时刻的语音识别区间;
识别单元,用于基于确定或输出的来源类型,在语音识别区间内对缓存的音频信号进行语音识别。
可选地,语音识别区间包括语音识别起点和语音识别终点,目标时刻介于语音识别起点和语音识别终点之间。
可选地,在一些实施例中,识别单元具体可以用于:来源类型为限制来源类型,获取预设语音库,将缓存的音频信号转换为音频文本,计算或确定音频文本与至少一个参考文本之间的相似度;将相似度最大的参考文本对应的语义确定为缓存的音频信号的语音识别结果。
可选地,预设语音库包括至少一个参考文本,该预设语音库中的参考文本可以是厂家预先录入的,也可以是由用户预先录入的,当然,还可以是在设备出厂前预先录入一个基础语音库,用户在该基础语音库上录入新的语音,由此形成预设语音库。
执行模块305,用于执行与语音识别结果对应的控制指令。
可选地,在一些实施例中,执行模块305具体可以用于:启动目标应用、展示应用界面,和/或调用目标设备的设备组件。
可选地,在一些实施例中,执行模块305具体可以用于:获取当前设备登录的用户账号,采集用户账号的语音控制记录,根据语音控制记录,执行与语音识别结果对应的控制指令。
可选地,本申请提供的设备控制装置,采集模块301采集当前环境的音频信号,然后,检测模块302检测音频信号中是否包含预设信号,确定模块303确定包含预设信号的时刻为目标时刻,接着,识别模块304以目标时刻为基准,对前一时刻缓存的音频信号进行语音识别,最后,执行模块305执行与语音识别结果对应的控制指令。可见,本申请的控制方法,当检测到音频信号中包含预设信号时,将包含预设信号的时刻确定为目标时刻,并以目标时刻为基准,对前一时刻缓存的音频信号进行语音设备,通过上述技术方案,当用户需要通过语音控制设备时,无需通过两段音频信号分别执行语音唤醒和语音识别的功能,由此,减少了人机交互的次数,从而提高设备控制的效率。
本申请还提供一种智能终端,智能终端包括存储器、处理器,存储器上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中的控制方法的步骤。
本申请还提供一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中的控制方法的步骤。
在本申请提供的智能终端和可读存储介质的实施例中,可以包含任一上述控制方法实施例的全部技术特征,说明书拓展和解释内容与上述方法的各实施例基本相同,在此不做再赘述。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行如上各种可能的实施方式中的方法。
本申请实施例还提供一种芯片,包括存储器和处理器,存储器用于存储计算机程序,处理器用于从存储器中调用并运行计算机程序,使得安装有芯片的设备执行如上各种可能的实施方式中的方法。
可以理解,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例设备中的单元可以根据实际需要进行合并、划分和删减。
在本申请中,对于相同或相似的术语概念、技术方案和/或应用场景描述,一般只在第一次出现时进行详细描述,后面再重复出现时,为了简洁,一般未再重复阐述,在理解本申请技术方案等内容时,对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等,可以参考其之前的相关详细描述。
在本申请中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本申请技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本申请记载的范围。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD),或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种控制方法,其特征在于,包括:
S10:采集当前环境的音频信号,检测所述音频信号中是否包含预设信号;
S20:确定包含所述预设信号的时刻为目标时刻,以所述目标时刻为基准,对前一时刻缓存的音频信号进行语音识别;
S30:执行与语音识别结果对应的控制指令。
2.根据权利要求1所述的方法,其特征在于,所述S10步骤包括:
确定或识别当前时刻对应的唤醒模式;
根据所述唤醒模式检测所述音频信号中是否包含预设信号。
3.根据权利要求2所述的方法,其特征在于,所述根据所述唤醒模式检测所述音频信号中是否包含预设信号,包括:
所述唤醒模式为第一唤醒模式,在预设信号集合中选择目标信号,检测所述音频信号中是否包含与目标信号相同的信号;和/或,
所述唤醒模式为第二唤醒模式,检测所述音频信号中是否包含与所述预设信号集合中相似的信号。
4.根据权利要求2所述的方法,其特征在于,所述根据所述唤醒模式检测所述音频信号中是否包含预设信号,包括:
确定或识别所述音频信号对应的音频时长,所述音频时长包括起始检测时刻、第一检测时刻、第二检测时刻以及终止检测时刻;
在所述起始检测时刻至所述第一检测时刻,根据所述唤醒模式检测所述音频信号中是否包含预设信号;和/或,
在所述第二检测时刻至所述终止检测时刻,根据所述唤醒模式检测所述音频信号中是否包含预设信号。
5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:
检测当前时刻对应的时间区间;
将所述当前时刻对应的唤醒值调整至所述时间区间对应的唤醒阈值。
6.根据权利要求1至4中任一项所述的方法,其特征在于,在所述S20步骤之前,包括:
对所述音频信号进行声纹识别;
所述声纹识别结果指示所述音频信号对应的来源为目标来源,对前一时刻缓存的音频信号进行语音识别。
7.根据权利要求6所述的方法,其特征在于,所述声纹识别结果指示所述音频信号对应的来源为目标来源,对前一时刻缓存的音频信号进行语音识别,包括:
所述声纹识别结果指示所述音频信号对应的来源为目标来源,确定或输出所述目标来源对应的来源类型;
确定或识别包含所述目标时刻的语音识别区间;
基于确定或输出的来源类型,在所述语音识别区间内对缓存的音频信号进行语音识别。
8.根据权利要求7所述的方法,其特征在于,所述基于确定或输出的来源类型,在所述语音识别区间内对缓存的音频信号进行语音识别,包括:
来源类型为限制来源类型,获取预设语音库,所述预设语音库包括至少一个参考文本;
将缓存的音频信号转换为音频文本,计算或确定所述音频文本与至少一个参考文本之间的相似度;
将相似度最大的参考文本对应的语义确定为缓存的音频信号的语音识别结果。
9.一种智能终端,其特征在于,所述智能终端包括:存储器、处理器,其中,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的控制方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111328532.4A CN114093357A (zh) | 2021-11-10 | 2021-11-10 | 控制方法、智能终端及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111328532.4A CN114093357A (zh) | 2021-11-10 | 2021-11-10 | 控制方法、智能终端及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114093357A true CN114093357A (zh) | 2022-02-25 |
Family
ID=80299693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111328532.4A Pending CN114093357A (zh) | 2021-11-10 | 2021-11-10 | 控制方法、智能终端及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093357A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012189A (zh) * | 2022-04-29 | 2023-11-07 | 荣耀终端有限公司 | 一种语音识别方法和电子设备 |
-
2021
- 2021-11-10 CN CN202111328532.4A patent/CN114093357A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012189A (zh) * | 2022-04-29 | 2023-11-07 | 荣耀终端有限公司 | 一种语音识别方法和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
US9685161B2 (en) | Method for updating voiceprint feature model and terminal | |
WO2020024885A1 (zh) | 一种语音识别的方法、语音断句的方法及装置 | |
CN112074900B (zh) | 用于自然语言处理的音频分析 | |
WO2018149285A1 (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN108711430B (zh) | 语音识别方法、智能设备及存储介质 | |
CN110890093A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN107919138B (zh) | 一种语音中的情绪处理方法及移动终端 | |
CN110070863A (zh) | 一种语音控制方法及装置 | |
CN109065060B (zh) | 一种语音唤醒方法及终端 | |
KR20190096308A (ko) | 전자기기 | |
CN109302528B (zh) | 一种拍照方法、移动终端及计算机可读存储介质 | |
CN109040444B (zh) | 一种通话录音方法、终端及计算机可读存储介质 | |
CN111522592A (zh) | 一种基于人工智能的智能终端唤醒方法和装置 | |
CN112489647A (zh) | 语音助手控制方法、移动终端及存储介质 | |
CN114065168A (zh) | 信息处理方法、智能终端及存储介质 | |
CN109686359B (zh) | 语音输出方法、终端及计算机可读存储介质 | |
CN109167880B (zh) | 双面屏终端控制方法、双面屏终端及计算机可读存储介质 | |
CN114093357A (zh) | 控制方法、智能终端及可读存储介质 | |
CN113326018A (zh) | 处理方法、终端设备及存储介质 | |
CN108174030B (zh) | 定制化语音控制的实现方法、移动终端及可读存储介质 | |
WO2020118560A1 (zh) | 一种录音方法、装置、电子设备和计算机可读存储介质 | |
CN114627872A (zh) | 一种虚拟人物语音调控方法、设备及计算机可读存储介质 | |
CN113270087A (zh) | 处理方法、移动终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |