CN117119102A - 语音交互功能的唤醒方法及电子设备 - Google Patents

语音交互功能的唤醒方法及电子设备 Download PDF

Info

Publication number
CN117119102A
CN117119102A CN202310310747.6A CN202310310747A CN117119102A CN 117119102 A CN117119102 A CN 117119102A CN 202310310747 A CN202310310747 A CN 202310310747A CN 117119102 A CN117119102 A CN 117119102A
Authority
CN
China
Prior art keywords
electronic device
user
voice
microphone
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310310747.6A
Other languages
English (en)
Inventor
吴满意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202310310747.6A priority Critical patent/CN117119102A/zh
Publication of CN117119102A publication Critical patent/CN117119102A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/03Constructional features of telephone transmitters or receivers, e.g. telephone hand-sets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/12Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了语音交互功能的唤醒方法及电子设备,在电子设备的麦克风未被占用的情况下,电子设备基于摄像头采集到的用户图像来检测用户状态,当检测到用户处于近距离注视电子设备的状态时,则进一步通过多个麦克风采集到的语音信号来检测各麦克风上的语音信号分布差异是否满足预设条件,若是则唤醒电子设备的语音交互功能。

Description

语音交互功能的唤醒方法及电子设备
技术领域
本申请涉及终端领域,尤其涉及一种语音交互功能的唤醒方法及电子设备。
背景技术
目前,电子设备中的语音交互功能被广泛使用,如何唤醒电子设备的语音交互功能,则是亟待解决的问题。
发明内容
本申请提供了语音交互功能的唤醒方法及电子设备,在电子设备的麦克风未被占用的情况下,电子设备基于摄像头采集到的用户图像来检测用户状态,当检测到用户处于近距离注视电子设备的状态时,则进一步通过多个麦克风采集到的语音信号来检测各麦克风上的语音信号分布差异是否满足预设条件,若是则唤醒电子设备的语音交互功能。
第一方面,本申请提供了一种语音交互功能的唤醒方法,该方法包括:该电子设备通过摄像头采集包含用户人脸的第一图像;根据该第一图像确定该用户人脸和该电子设备的距离,以及,该用户的注视方向;该距离在预设范围内,该用户的注视方向表明该用户注视该电子设备;该电子设备通过第一麦克风采集第一语音信号,通过第二麦克风采集第二语音信号,该第一语音信号和该第二语音信号的强度不同;该电子设备唤醒语音交互功能。
实施本申请第一方面提供的方法后,电子设备可以根据用户状态和用户语音来准确识别到用户想要唤醒语音交互功能的意图,为用户开启电子设备的语音交互功能。
结合第一方面提供的方法,在该电子设备通过摄像头采集包含用户人脸的第一图像之前,该方法还包括:该电子设备检测到该电子设备被抬起或被拿起。
这样,考虑到用户想要唤醒语音交互功能时通常会先拿起或者抬起手机,因此预先判断电子设备是否被抬起或者被拿起,在电子设备被抬起或者被拿起后再做后续图像检测、语音检测,可以避免电子设备做出额外的检测工作,节省电子设备的功耗。
结合第一方面提供的方法,在该电子设备通过摄像头采集包含用户人脸的第一图像之前,该方法还包括:该电子设备检测到该第一麦克风和该第二麦克风均未被占用。
这样,可以初步排除不适用于开启语音交互功能的场景。具体的,由于开启语音交互功能后,电子设备需要占用麦克风来采集用户语音信号以响应用户的语音输入,因此,为了避免语音交互功能与其他正在使用麦克风的业务发生冲突,在唤醒语音交互功能之前,预先通过检测电子设备的麦克风是否已被占用,来排除不适用于开启语音交互功能的场景,例如用户使用电子设备接听电话、录音、录制视频、发送语音信息或者线上会议等的场景。
结合第一方面提供的方法,在该电子设备通过摄像头采集包含用户人脸的第一图像之后,该方法还包括:根据该第一图像确定该用户的口型发生变化。
这样,可以在确定用户口型发生变化后再开启多个麦克风来采集语音信号以及检测各麦克风上的语音信号是否有差异,这样可以避免在用户未讲话的情况下开启麦克风,节省电子设备的功耗。
结合第一方面提供的方法,该电子设备唤醒语音交互功能具体包括:该电子设备通过第三麦克风采集语音指令,并执行语音指令对应的任务。
这样,唤醒语音交互功能后,可以接收用户的语音指令一致性相应的任务,提高用户体验感。
结合第一方面提供的方法,在该电子设备唤醒语音交互功能之后,该方法还包括:该电子设备从该第一语音信号和/或该第二语音信号中提取语音指令,并执行语音指令对应的任务。
这样,可以避免遗漏用户的语音指令,电子设备在唤醒语音交互功能后,可以对唤醒语音交互功能之前采集的语音信号进行语义分析,以执行对应的任务。
结合第一方面提供的方法,该电子设备唤醒语音交互功能之后,该方法还包括:该电子设备输出提示信息,该提示信息用于提示当前已开启语音交互功能;该提示信息包括:语音和/或显示屏显示的界面元素。
这样,可以及时提醒用户已唤醒语音交互功能,提供用户体验感。
结合第一方面提供的方法,该第一麦克风为该电子设备顶部的麦克风,该第二麦克风为该电子设备底部的麦克风。
结合第一方面提供的方法,该第一麦克风和该第二麦克风的灵敏度不同;该第一语音信号和该第二语音信号的强度不同,具体包括:基于灵敏度差值对该第一语音信号或该第二语音信号进行补偿之后的强度不同;或者,该第一语音信号或该第二语音信号的强度不同,具体包括:该第一语音信号和该第二语音信号的对应子段语音信号的强度差值大于第一值的次数大于第二值。
这样,可以辅助电子设备进一步判断此时用户的讲话意图是否为想要唤醒语音交互功能。
结合第一方面提供的方法,在该电子设备通过摄像头采集包含用户人脸的第一图像之后,该方法还包括:根据该第一图像中的该用户人脸进行身份验证。
这样,可以通过人脸认证,以达到保证用户隐私的情况下,来唤醒语音交互功能。
结合第一方面提供的方法,在该电子设备通过第一麦克风采集第一语音信号,通过第二麦克风采集第二语音信号之后,该方法还包括:从该第一语音信号或该第二语音信号中提取声纹信息,基于该声纹信息进行身份验证。
这样,可以通过声纹认证,以达到保证用户隐私的情况下,来提供语音交互功能。
结合第一方面提供的方法,该电子设备根据该第一图像确定该用户人脸和该电子设备的距离,具体通过以下方式实现:该电子设备从该第一图像中分析成像瞳距;该电子设备基于该成像瞳距、该摄像头的焦距和实际瞳距,利用相似三角形原理计算得到该用户人脸和该电子设备的距离。
这样,可以精准获知用户人脸与电子设备的距离。
结合第一方面提供的方法,该电子设备根据该第一图像确定该用户的注视方向,具体通过以下方式实现:该电子设备从该第一图像中分析瞳孔在眼球中的位置,已确定该用户的注视方向。
这样,可以精准获知用户注视方向是否为注视电子设备的方向。
结合第一方面提供的方法,前述第一语音信号为第一麦克风采集的语音信号经过带通滤波后得到的;前述第二语音信号为第二麦克风采集的语音信号经过带通滤波后得到的。
这样可以滤除非人声例如环境噪音的部分,方便电子设备做后续的差异检测。
第二方面,本申请提供了一种电子设备,该电子设备包括:一个或多个处理器、一个或多个存储器、至少两个麦克风、摄像头和显示屏;该一个或多个存储器与一个或多个处理器耦合,该一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当该一个或多个处理器执行该计算机指令时,使得该电子设备执行如第一方面中的任一项描述的方法。
第三方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当该计算机指令在电子设备上运行时,使得该电子设备执行如第一方面中的任一项描述的方法。
附图说明
图1为本申请实施例提供的一种场景示意图;
图2为本申请实施例提供的一种方法流程图;
图3A-3D为本申请实施例提供的一组开启“近距离唤醒”功能的操作界面示意图;
图4为本申请实施例提供的人脸与电子设备间的距离计算原理示意图;
图5为本申请实施例提供的确定用户的注视方向的实现过程示意图;
图6为本申请实施例提供的两种距离下麦克风分别检测到的同一段语音信号分布示意图;
图7为本申请实施例提供的电子设备100的硬件架构示意图;
图8为本申请实施例提供的电子设备100的软件架构示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
本申请以下实施例中的术语“用户界面(user interface,UI)”,是应用程序或操作***与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage,XML)等特定计算机语言编写的源代码,界面源代码在电子设备上经过解析,渲染,最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
利用语音来实现人机交互的技术已被广泛应用,然而在实际应用中,若用户想和电子设备进行语音交互,则需要先唤醒电子设备的语音交互功能。在一些可实现的方式中,用户可以通过语音输入唤醒词/气息音,或者通过作用于实体按键/虚拟控件的操作等的方式来唤醒电子设备的语音交互功能。
前述唤醒方法存在着诸多缺陷,例如,通过语音输入唤醒词/气息音的方式不够自然,社会性较差。又例如,通过作用于实体按键/虚拟控件的操作等的方式不仅繁琐,无法解放用户双手,而且还存在隐私风险。
参考图1,图1示例性示出本申请提供的一种场景示意图。
如图1所示,当用户手持电子设备并置于用户面前能够注视到的地方时,若此时用户近距离对着电子设备讲话,则电子设备可以唤醒语音交互功能,并根据用户输入的语音来完成响应的指令输入、信息查询或者语音聊天等各种任务。
可以理解的是,图1仅为一种示例性的场景,不应构成对本申请实施的限制,例如本申请适用的场景还包括:当用户为拿起电子设备,而是将电子设备置于用户面前能够注视到的地方时,若此时用户近距离对着电子设备讲话,则电子设备也可以唤醒语音交互功能,并根据用户输入的语音来完成响应的指令输入、信息查询或者语音聊天等各种任务。
结合图1所示出的场景,当用户有意图唤醒语音交互功能时,通常会近距离的,注视电子设备,并且嘴巴靠近电子设备的某一个麦克风例如底部麦克风说话。
为了解决前述问题,本申请提供了语音交互功能的唤醒方法及电子设备。具体的,电子设备可以通过摄像头采集到的用户图像来检测用户状态,以及通过多个麦克风采集到的语音信号来检测各麦克风上的语音信号分布情况,在检测到用户处于近距离注视电子设备的状态后,以及在检测各麦克风上的语音信号分布存在差异,则唤醒语音交互功能。
在一种可实现的方式中,电子设备通过摄像头采集到的用户图像来检测用户状态,以及通过多个麦克风采集到的语音信号来检测各麦克风上的语音信号分布情况的执行顺序不作限制,即两者可以同时执行或者先后执行。例如,在先通过摄像头采集到的用户图像检测到用户处于近距离注视电子设备的状态后,才会通过多个麦克风采集到的语音信号来检测各麦克风上的语音信号分布情况以判断各个语音信号是否存在差异。又例如,在先通过多个麦克风采集到的语音信号检测到各麦克风上的语音信号存在差异后,才会通过摄像头采集到的用户图像检测用户状态,以判断用户是否处于近距离注视电子设备的状态。
在另一种可实现的方式中,电子设备在唤醒语音交互功能之前,还会检测电子设备的多个麦克风是否被占用,在确定未被占用的情况下,电子设备才会通过摄像头采集到的用户图像来检测用户状态,或者,通过多个麦克风采集到的语音信号来检测各麦克风上的语音信号存在差异。
在另一种可实现的方式中,在电子设备检测用户状态之前,电子设备还可以先检测自身的运动状态,例如,在检测电子设备处于被抬起/拿起的状态后才开始进行下一步的检测,即检测用户状态。
在另一种可实现的方式中,电子设备基于用户图像来检测用户状态时,除了检测用户与电子设备的距离、用户的注视方向以外,还可以检测用户的口型等。
在本申请实施例中,语音交互功能相当于电子设备中的语音助手所提供的功能,当语音助手被唤醒后,用户可以通过向语音助手输入语音来和电子设备进行语音交互,以控制电子设备执行相应的任务,例如执行指令输入、查看信息或语音聊天等等的任务。
实施本申请提供的语音交互功能的唤醒方法后,电子设备可以准确识别到用户想要唤醒语音交互功能的意图,为用户开启语音交互功能,提高用户体验感。
接下来结合图2所示的方法流程来介绍本申请提供的语音交互功能的唤醒方法。
如图2所示,该方法流程包括以下步骤:
可选S11,检测电子设备的麦克风是否被占用。
具体的,电子设备检测麦克风是否被占用,具体包括检测第一麦克风和第二麦克风是否被占用,当检测到第一麦克风和第二麦克风未被其他业务占用时,则执行后续S12,当检测到麦克风已经被其他业务占用时,则停止执行后续步骤并继续检测麦克风是否被占用,直至检测到麦克风没有被占用后才会继续执行后续S12。在本申请实施例中,第一麦克风和第二麦克风为电子设备中两个不同位置上麦克风,例如第一麦克风为顶部麦克风,第二麦克风为底部麦克风。
可以理解的是,S11为本申请提供的可选步骤,若不止S11则电子设备可以直接执行后文的S12或S13。优选的,执行S11可以初步排除不适用于开启语音交互功能的场景。具体的,由于开启语音交互功能后,电子设备需要占用麦克风来采集用户语音信号以响应用户的语音输入,因此,为了避免语音交互功能与其他正在使用麦克风的业务发生冲突,在唤醒语音交互功能之前,预先通过检测电子设备的麦克风是否已被占用,来排除不适用于开启语音交互功能的场景,例如用户使用电子设备接听电话、录音、录制视频、发送语音信息或者线上会议等的场景。
在一种可实现的方式中,电子设备检测麦克风是否被占用具体可以通过电子设备的应用程序框架层中的音频管理器来检测。
在一种可实现的方式中,触发电子设备检测麦克风是否被占用的条件,可以是以下任意条件:电子设备开机,或者,电子设备开启相应的功能例如开启“近距离唤醒”功能。
参考图3A-图3D,图3A-图3D示例性示出开启“近距离唤醒”功能的操作界面示意图。
如图3A所示,电子设备显示的用户界面310即设置界面,设置界面中显示有多个设置选项,包含智慧助手选项311。当电子设备中检测到作用于智慧助手选项311上的操作后,响应于该操作,电子设备显示图3B所示的用户界面320。
如图3B所示,用户界面320即智慧助手详情页,智慧助手详情页中显示有智慧助手提供的一系列功能选项,例如语音助手选项321等等。当电子设备检测到作用于语音助手选项321上的操作后,响应于该操作,电子设备显示图3C所示的用户界面330。
如图3C所示,用户界面330显示有多个唤醒语音助手(又称唤醒语音交互功能)的选项,及各选项对应的控件。例如,语音唤醒对应的开关控件331和近距离唤醒对应的开关控件332。此时,电子设备的开关控件331和开关控件332都保持关闭状态。当电子设备检测到作用于近距离唤醒对应的开关控件332上的操作后,响应于该操作,电子设备显示图3D所示的用户界面330,以提示用户语音唤醒功能已开启。
如图3D所示,用户界面330与图3C所示的用户界面330类似,不同的是,此时近距离唤醒对应的开关控件332的状态为开启状态。
其中,语音唤醒是指,在用户开启语音唤醒功能并录入唤醒词后,电子设备可以检测用户是否说出唤醒词,若是则唤醒电子设备的语音交互功能,以实现为用户提供便捷服务。
其中,近距离唤醒是指,在用户开启近距离唤醒功能后,电子设备可以检测用户是否满足近距唤醒对应的条件(例如麦克的是否被其他业务占用、例如用户是否近距离注视着电子设备讲话,又例如电子设备的多个麦克风上的语音信号分布是否存在差异),若是则可以唤醒电子设备的语音交互功能,以实现为用户提供便捷服务。
此外,上述语音助手、近距离唤醒都仅仅是作为对应功能的一个可选名称,本申请实施例对此不作限制。关于语音助手、近距离唤醒分别对应的功能具体记载于下文中,这里先简单介绍。此外,语音助手还可以被称为智慧语音、语音交互,近距离唤醒还可以称为智慧唤醒等等。
可以理解的是,上文仅仅示例性介绍了一种开启“近距离唤醒”功能的操作界面,在另一些实施例中,电子设备还可以还可能默认开启“近距离唤醒”功能,本申请实施例对此不作限制。
S12,通过摄像头采集图像。
具体的,在检测到麦克风未被其他业务占用后,电子设备可以开启摄像头以采集图像。通常,电子设备会在一段时间内连续采集多个图像,用于电子设备在后续S13中判断用户状态是否满足预设条件。
在本申请实施例中,摄像头为电子设备的前置摄像头,并且为低功耗摄像头。
可选的,电子设备的前置摄像头除了在检测到麦克风未被其他业务占用后才开启的以外,电子设备的前置摄像头还可以是持续开启的,或者是检测到电子设备被抬起或被拿起后开启的,本申请实施例对此不作限制。
S13,基于图像来检测用户状态是否满足预设条件。
具体的,电子设备可以基于图像,通过图像分析来检测当前图像中是否有人脸,以及从人脸信息中提起用户的眼球信息,用以判断用户的注视方向以及计算人脸与电子设备之间的距离等,进而来确定用户状态是否满足预设条件。当检测到用户状态满足预设条件后,则执行后续S14,当检测到用户状态不满足预设条件后,则停止执行后续步骤,并继续检测用户状态,直至检测到用户状态满足预设条件后才会继续执行后续S14。其中,包含人脸的图像还可以称为第一图像。
执行S13可以根据用户状态识别用户是否有唤醒语音交互功能的意图,进一步排除用户不会开启语音交互功能的场景。
可选的,电子设备还会基于已采集的图像,提取人脸以进行人脸识别,进而确定当前用户是否为电子设备的注册用户。
在本申请实施例中,用户状态所需要满足的预设条件包括:人脸距离电子设备的距离处于预设范围内(例如15-25厘米),且用户注视着电子设备。可选的,预设条件还可以包括:用户正在讲话,人脸认证通过。
接下来具体介绍,基于用户图像检测人脸与电子设备间的距离、用户的注视方向以及用户是否在讲话的实现方式。
(1)人脸与电子设备间的距离。
参考图4所示的人脸与电子设备间的距离计算原理示意图,已知条件包括:实际瞳距H、焦距f和成像瞳距h,未知条件为物距D。其中,实际瞳距H是通过统计海量用户的瞳距信息而得到的,焦距f为电子设备的前置摄像头参数,成像瞳距h是指从拍摄到的用户图像中提取到的瞳距,物距D近似为人脸到电子设备之间距离。因此,根据相似三角形计算原理,可知D=(H*f)/h,进而计算得到D。
可选的,本申请采用的H是通过统计海量用户的瞳距信息后得到的平均瞳距,或者可以是当前电子设备的用户的年龄所对应的海量用户的平均瞳距,本申请实施例对此不作限制。
(2)用户的注视方向。
参考图5所示的确定用户的注视方向的实现过程示意图,电子设备可以基于用户图像,通过图像分析来检测当前用户图像中是否有人脸,在有人脸的情况下则提取人脸中的双眼图像,然后通过分析瞳孔在眼球中的位置来判断用户的注视方向。
当瞳孔在眼球中心,以及在距离眼球中心一定范围内时,则认为此时用户的注视方向为电子设备所在方向。相应的,当瞳孔距离眼球中心一定范围外时,则认为此时用户的未注视电子设备。
特别的,当用户图像中只有侧脸,或者人脸轮廓不完整的情况下,则视为无人脸图像。这是因为,当电子设备的前置摄像头仅能拍摄到用户侧脸时,则说明此时用户极大可能性没有注视电子设备,因此也极小可能性去唤醒语音交互功能,所以在只拍摄到侧脸或者其他人脸轮廓不完整的情况下,为了节省功耗,则不会进一步提取眼球图像来判断用户的注视方向。
(3)用户的口型。
具体的,电子设备还可以从连续多张用户图像中提取用户的口型变换信息来检测用户是否在讲话,甚至讲话的内容。当检测到用户口型发生变化则认为用户正在讲话,认定用户有唤醒语音交互功能的意图,当检测到用户口型没有发生变化则认为用户没有讲话,认定用户没有唤醒语音交互功能的意图。
(4)人脸认证。
具体的,电子设备还可对采集的用户图像与预先存储的用户的人脸图像进行比对,当相似度满足条件时,则认为人脸认证通过,否则,不通过。
S14,通过多个麦克风采集语音信号。
具体的,在检测到用户状态满足预设条件后,则电子设备可以开启多个麦克风以采集语音信号。通常,电子设备会在一段时间内连续采集一段语音信号,用于电子设备在后续S15中判断各个麦克风上的语音信号分布差异是否满足预设条件。
在本申请实施例中,多个麦克风至少包括两个设置在不同位置处的麦克风,例如包括设置在电子设备顶部的麦克风,和设置在电子设备端底部的麦克风。
S15,检测多个麦克风上的语音信号分布差异是否满足预设条件。
具体的,由于前述麦克风在电子设备上的物理位置的设定不同,若该两个麦克风的声学参数一致,则用户近距离且面部平行/***行的对着电子设备讲话时,针对用户说的同一段语音,该两个麦克风上采集的同一段语音信号的分布是存在差异的。具体差异体现在:电子设备底端的麦克风上的语音信号(还可以称为第二语音信号)分布的能量要大于电子设备底端的麦克风上的语音信号(还可以称为第一语音信号)分布的能量。这是因为,用户近距离且面部平行/***行的对着电子设备讲话时,电子设备底端的麦克风离用户嘴部的距离相对于电子设备顶端的麦克风离用户嘴部的距离来说更近。
综上所述,以顶部麦克风和底部麦克风这两个麦克风为例来看,本申请所设定的各个麦克风上的语音信号分布差异是否满足预设条件如下:对于一段固定时长内语音来说,将该一段固定时长内语音切割为连续的多个固定时长的子段语音,当顶部麦克风上的信号强度大于底部麦克风上的信号强度的子段数量大于N时,则确认各个麦克风上的语音信号分布差异是否满足预设条件。其中N为预设值,本申请对此不作限制。
在一种具体的实现方式中,电子设备可以根据两个麦克风上时域/频域上的信号强度分布情况,在一段连续的语音中,周期性的比较同一子段时间内底部麦克风上信号强度和顶部麦克风上信号强度,每当底部麦克风上信号强度大于顶部麦克风上信号强度且差值大于预设强度差(又称第一值)时,则计数+1,直至该一段连续的语音被比较完后,计数大于N(N还可以称为第二值)时,则认为两个麦克风上的语音信号分布差异是否满足预设条件。
在另一种具体的实现方式中,当用户脸部与电子设备的距离不同时,麦克风检测到的信号强度也会不同,因此前述预设强度差也会不同,当距离越远时,对应的信号强度差则越小。具体可参见图6,图6示例性示出两种距离下麦克风分别检测到的同一段语音信号分布示意图,可见当用户脸部与电子设备的距离较远(例如30厘米)处时顶部麦克风和底部麦克风上的信号强度/能量分别小于,用户脸部与电子设备的距离较远(例如20厘米)处时顶部麦克风和底部麦克风上的信号强度/能量。
可选的,由于人声的频率范围通常在200Hz-8000Hz范围内,因此避免对麦克的采集的其他声音信号进行分析,可以在检测多个麦克风上的语音信号分布差异是否满足预设条件之前,先对语音信号进行带通滤波,滤除频率低于200Hz,以及频率高于8000Hz的信号。
可以理解的是,当电子设备上的多个麦克风的声学参数不一致时,则在检测多个麦克风上的语音信号分布差异是否满足预设条件的过程中,还需对麦克风上的信号进行补偿,将补偿后的信号进行比较,以判断是否满足预设条件。以一个具体的示例来看,当声学参数包括灵敏度时,若顶部麦克风的灵敏度低于底部麦克风的灵敏度,且灵敏度差值在16db时,则在检测多个麦克风上的语音信号分布差异是否满足预设条件的过程中,需要先对顶部麦克风上的信号整体补偿16db,或者对底部麦克风上的信号整体减去16db,然后再将补偿后的顶部麦克风上的信号与底部麦克风的信号进行比较。
在本申请实施例中,前述仅仅给出S12-S13与S14-S15的一种执行顺序,即先执行S12-S13后S14-S15执行。在本申请另一种可实现的方式中,电子设备可以同时执行S12-S13与S14-S15,或者还可以先执行S14-S15后执行S12-S13,即电子设备先通过多个麦克风采集的语音信号,来检测多个麦克风上的语音信号分布差异是否满足预设条件,若是才会通过摄像头采集图像,并基于图像来检测用户状态是否满足预设条件。
S16,唤醒语音交互功能。
具体的,在检测到多个麦克风上的语音信号分布差异满足预设条件后,则电子设备唤醒语音交互功能,相当于开启语音交互流程。
其中,开启语音交互功能包括:通过第三麦克风采集语音指令,并对该语音指令进行语义分析以执行相应的任务,例如指令输入、信息查询、语音聊天等的任务。该第三麦克风可以是不同于前述第一麦克风、第二麦克风的其他麦克风,或者第三麦克风是第一麦克风或第二麦克风。
可选的,为了避免遗漏用户的语音指令,电子设备在执行S14-S15的过程中,还会将麦克风上采集的语音信号进行缓存,用于在S16步骤中唤醒语音交互功能后,对已缓存的语音进行语义分析,以执行对应的任务。
可选的,在电子设备唤醒语音交互功能后,电子设备可以输出提示信息,用于提示用户已唤醒语音交互功能。该提示信息的输出形式包括但不限于:通过语音来提示,通过显示屏显示相应的界面元素来提示。
可选的,电子设备在唤醒语音交互功能后,可以直接对新采集的语音或已缓存的语音进行语义分析以执行对应的任务,或者是先根据新采集的语音或已缓存的语音进行声纹验证,在声纹验证成功后再分析该语音对应的语义以执行对应的任务。可以理解的是,当电子设备此前已经对采集的用户图像进行人脸认证,并且人脸认证通过后,则此时不再进行声纹认证。
基于前文介绍的语音交互功能的唤醒方法,接下来介绍该方法所涉及的电子设备。
电子设备可以是搭载或者其它操作***的便携式终端设备,例如手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备,等等。
图7示出了电子设备100的硬件架构示意图。
电子设备100可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,摄像头193,显示屏194等。其中传感器模块180可以包括压力传感器180A,触摸传感器180B,加速度传感器180C等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了***的效率。
在本申请实施例中,处理器110用于控制相应的软硬件模块之前前文图2所介绍的方法流程。此外,处理器110在唤醒语音交互功能后,可以控制显示屏或者音频模块输出相应的提示信息,用于提示用户已经开启语音交互功能。此外,处理器还可以基于采集的语音信号进行语音分析,以执行对应的任务。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号解调以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system,GPS),全球导航卫星***(global navigation satellite system,GLONASS),北斗卫星导航***(beidounavigation satellite system,BDS),准天顶卫星***(quasi-zenith satellitesystem,QZSS)和/或星基增强***(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)。显示屏面板还可以采用有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode,AMOLED),柔性发光二极管(flexlight-emitting diode,FLED),miniled,microLed,micro-oled,量子点发光二极管(quantum dot light emitting diodes,QLED)等制造。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
在本申请实施例中,电子设备可以显示如前文图3A-图3D所示的用户界面,此外电子设备在唤醒语音交互功能,并与用户进行语音交互的过程中,电子设备还会显示语音交互界面,该语音交互界面可以是响应用户的语音指令而查询的信息,或者该语音交互界面还会输出识别用户的语音而得到的对应文字,或者还会输出语音助手回复用户的语音多对应的文字等等。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
在本申请实施例中,摄像头193包括置于电子设备屏幕侧的摄像头即前置摄像头,且该前置摄像头可以在低功耗模式下持续运行,用于采集用户图像为电子设备执行前述图2所述的S12-S13提供数据支持。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器121可以包括一个或多个随机存取存储器(random access memory,RAM)和一个或多个非易失性存储器(non-volatile memory,NVM)。
随机存取存储器可以包括静态随机存储器(static random-access memory,SRAM)、动态随机存储器(dynamic random access memory,DRAM)、同步动态随机存储器(synchronous dynamic random access memory,SDRAM)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory,DDR SDRAM,例如第五代DDR SDRAM一般称为DDR5 SDRAM)等;
非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。
快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等,按照存储单元电位阶数划分可以包括单阶存储单元(single-level cell,SLC)、多阶存储单元(multi-level cell,MLC)、三阶储存单元(triple-level cell,TLC)、四阶储存单元(quad-level cell,QLC)等,按照存储规范划分可以包括通用闪存存储(英文:universalflash storage,UFS)、嵌入式多媒体存储卡(embedded multi media Card,eMMC)等。
随机存取存储器可以由处理器110直接进行读写,可以用于存储操作***或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。
非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。
外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部的非易失性存储器中。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
在本申请实施例中,麦克风170C至少包括两个,例如顶部麦克风和底部麦克风。该两个麦克风用于采集语音信号,用以为电子设备100执行前述S14-S15而提供数据支持。这样可以进一步避免用户随意输入的语音,误唤醒电子设备的语音交互功能。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
触摸传感器180B,也称“触控面板”。触摸传感器180B可以设置于显示屏194,由触摸传感器180B与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180B用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180B也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
加速度传感器180C可检测电子设备100在各个方向上(一般为X、Y、Z三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
在本申请实施例中,电子设备还可以通过加速度传感器180C上检测的X、Y、Z三轴上的加速度来判断电子设备的运动姿态,例如用户是否抬起或者拿起电子设备。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
在本申请实施例中,电子设备可以通过作用于按键190上的操作来唤醒电子设备的语音交互功能。
电子设备100的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android***为例,示例性说明电子设备100的软件结构。
图8是本申请实施例的电子设备100的软件架构示意图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和***库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图8所示,应用程序包可以包括语音助手、相机,图库,日历,通话,地图,导航,蓝牙,视频,短信息等应用程序。其中,语音助手可以是集成在电子设备的设置应用中的子功能,或者是单独的一个应用程序,本申请实施例对此不作限制。
在本申请实施例中,当语音助手被唤醒后,用户可以通过向语音助手输入语音来和电子设备进行语音交互,以控制电子设备执行相应的任务,例如执行指令输入、查看信息或语音聊天等等的任务。其中,唤醒语音助手相当于唤醒语音交互功能,该唤醒方法具体可以参考前文对图2所示的方法流程的介绍,在此暂不赘述。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图8所示,应用程序框架层可以包括媒体管理器、窗口管理器,内容提供器,视图***,电话管理器,通知管理器等。
媒体管理器用于管理媒体业务,包括占用麦克风的业务,例如通话、录音、视频、会议时占用的麦克风业务。在一种可实现的方式中,当电子设备开启语音助手中提供的“近距离唤醒”功能后,语音助手还可以通过摄像头驱动控制前置摄像头采集用户图像,以检测用户状态是否满足预设条件,以及还可以通过麦克风驱动控制顶部麦克风和底部麦克风采集语音,以检测两个麦克风上的语音信号的分布差异是否满足预设条件,在确定用户状态满足预设条件,以及两个麦克风上的语音信号的分布差异满足预设条件的情况下,则确认唤醒语音助手,即开启后续的语音交互流程。可选的,语音助手还会从媒体管理器中检测是否有其他业务正在占用麦克风,在确定没有其他业务占用麦克风,以及确定用户状态满足预设条件,以及两个麦克风上的语音信号的分布差异满足预设条件的情况下,才会确认唤醒语音助手。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),二维(2D)图形引擎(例如:SGL)等。
表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含麦克风驱动、摄像头驱动、显示驱动,以及传感器驱动等。
下面结合捕获拍照场景,示例性说明电子设备100软件以及硬件的工作流程。
当触摸传感器180B接收到触摸操作,相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的控件。以该触摸操作是触摸单击操作,该单击操作所对应的控件为相机应用图标的控件为例,相机应用调用应用框架层的接口,启动相机应用,进而通过调用内核层启动摄像头驱动,通过摄像头193捕获静态图像或视频。
应理解,本申请提供的上述方法实施例中的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本申请还提供一种电子设备,该电子设备可以包括:存储器和处理器。其中,存储器可用于存储计算机程序;处理器可用于调用所述存储器中的计算机程序,以使得该电子设备执行上述任意一个实施例中的方法。
本申请还提供了一种芯片***,所述芯片***包括至少一个处理器,用于实现上述任意一个实施例中电子设备执行的方法中所涉及的功能。
在一种可能的设计中,所述芯片***还包括存储器,所述存储器用于保存程序指令和数据,存储器位于处理器之内或处理器之外。
该芯片***可以由芯片构成,也可以包含芯片和其他分立器件。
可选地,该芯片***中的处理器可以为一个或多个。该处理器可以通过硬件实现也可以通过软件实现。当通过硬件实现时,该处理器可以是逻辑电路、集成电路等。当通过软件实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现。
可选地,该芯片***中的存储器也可以为一个或多个。该存储器可以与处理器集成在一起,也可以和处理器分离设置,本申请实施例并不限定。示例性地,存储器可以是非瞬时性处理器,例如只读存储器ROM,其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请实施例对存储器的类型,以及存储器与处理器的设置方式不作具体限定。
示例性地,该芯片***可以是现场可编程门阵列(field programmable gatearray,FPGA),可以是专用集成芯片(application specific integrated circuit,ASIC),还可以是***芯片(system on chip,SoC),还可以是中央处理器(central processorunit,CPU),还可以是网络处理器(network processor,NP),还可以是数字信号处理电路(digital signal processor,DSP),还可以是微控制器(micro controller unit,MCU),还可以是可编程控制器(programmable logic device,PLD)或其他集成芯片。
本申请还提供一种计算机程序产品,所述计算机程序产品包括:计算机程序(也可以称为代码,或指令),当所述计算机程序被运行时,使得计算机执行上述任一个实施例中电子设备执行的方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序(也可以称为代码,或指令)。当所述计算机程序被运行时,使得计算机执行上述任一个实施例中电子设备执行的方法。
本申请的各实施方式可以任意进行组合,以实现不同的技术效果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
总之,以上所述仅为本发明技术方案的实施例而已,并非用于限定本发明的保护范围。凡根据本发明的揭露,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种语音交互功能的唤醒方法,其特征在于,所述方法包括:
所述电子设备通过摄像头采集包含用户人脸的第一图像;
根据所述第一图像确定所述用户人脸和所述电子设备的距离,以及,所述用户的注视方向;所述距离在预设范围内,所述用户的注视方向表明所述用户注视所述电子设备;
所述电子设备通过第一麦克风采集第一语音信号,通过第二麦克风采集第二语音信号,所述第一语音信号和所述第二语音信号的强度不同;
所述电子设备唤醒语音交互功能。
2.根据权利要求1所述的方法,其特征在于,在所述电子设备通过摄像头采集包含用户人脸的第一图像之前,所述方法还包括:
所述电子设备检测到所述电子设备被抬起或被拿起。
3.根据权利要求1或2所述的方法,其特征在于,在所述电子设备通过摄像头采集包含用户人脸的第一图像之前,所述方法还包括:
所述电子设备检测到所述第一麦克风和所述第二麦克风均未被占用。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述电子设备通过摄像头采集包含用户人脸的第一图像之后,所述方法还包括:
根据所述第一图像确定所述用户的口型发生变化。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述电子设备唤醒语音交互功能具体包括:
所述电子设备通过第三麦克风采集语音指令,并执行语音指令对应的任务。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在所述电子设备唤醒语音交互功能之后,所述方法还包括:
所述电子设备从所述第一语音信号和/或所述第二语音信号中提取语音指令,并执行语音指令对应的任务。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述电子设备唤醒语音交互功能之后,所述方法还包括:
所述电子设备输出提示信息,所述提示信息用于提示当前已开启语音交互功能;
所述提示信息包括:语音和/或显示屏显示的界面元素。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述第一麦克风为所述电子设备顶部的麦克风,所述第二麦克风为所述电子设备底部的麦克风。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述第一麦克风和所述第二麦克风的灵敏度不同;
所述第一语音信号和所述第二语音信号的强度不同,具体包括:基于灵敏度差值对所述第一语音信号或所述第二语音信号进行补偿之后的强度不同;
或者,所述第一语音信号或所述第二语音信号的强度不同,具体包括:所述第一语音信号和所述第二语音信号的对应子段语音信号的强度差值大于第一值的次数大于第二值。
10.根据权利要求1-9中任一项所述的方法,其特征在于,在所述电子设备通过摄像头采集包含用户人脸的第一图像之后,所述方法还包括:根据所述第一图像中的所述用户人脸进行身份验证。
11.根据权利要求1-10中任一项所述的方法,其特征在于,在所述电子设备通过第一麦克风采集第一语音信号,通过第二麦克风采集第二语音信号之后,所述方法还包括:
从所述第一语音信号或所述第二语音信号中提取声纹信息,基于所述声纹信息进行身份验证。
12.根据权利要求1-11中任一项所述的方法,其特征在于,所述电子设备根据所述第一图像确定所述用户人脸和所述电子设备的距离,具体通过以下方式实现:
所述电子设备从所述第一图像中分析成像瞳距;
所述电子设备基于所述成像瞳距、所述摄像头的焦距和实际瞳距,利用相似三角形原理计算得到所述用户人脸和所述电子设备的距离。
13.根据权利要求1-12中任一项所述的方法,其特征在于,所述电子设备根据所述第一图像确定所述用户的注视方向,具体通过以下方式实现:
所述电子设备从所述第一图像中分析瞳孔在眼球中的位置,已确定所述用户的注视方向。
14.一种电子设备,其特征在于,包括:一个或多个处理器、一个或多个存储器、至少两个麦克风、摄像头和显示屏;所述一个或多个存储器与一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,使得所述电子设备执行如权利要求1-13中的任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-13中的任一项所述的方法。
CN202310310747.6A 2023-03-21 2023-03-21 语音交互功能的唤醒方法及电子设备 Pending CN117119102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310310747.6A CN117119102A (zh) 2023-03-21 2023-03-21 语音交互功能的唤醒方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310310747.6A CN117119102A (zh) 2023-03-21 2023-03-21 语音交互功能的唤醒方法及电子设备

Publications (1)

Publication Number Publication Date
CN117119102A true CN117119102A (zh) 2023-11-24

Family

ID=88793538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310310747.6A Pending CN117119102A (zh) 2023-03-21 2023-03-21 语音交互功能的唤醒方法及电子设备

Country Status (1)

Country Link
CN (1) CN117119102A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107197090A (zh) * 2017-05-18 2017-09-22 维沃移动通信有限公司 一种语音信号的接收方法及移动终端
CN107402739A (zh) * 2017-07-26 2017-11-28 北京小米移动软件有限公司 一种拾音方法及装置
CN110335600A (zh) * 2019-07-09 2019-10-15 四川长虹电器股份有限公司 家电设备的多模态交互方法及***
CN112634895A (zh) * 2020-12-25 2021-04-09 苏州思必驰信息科技有限公司 语音交互免唤醒方法和装置
US20220101846A1 (en) * 2020-09-11 2022-03-31 Samsung Electronics Co., Ltd. Electronic device for identifying command included in voice and method of opearating the same
CN115206306A (zh) * 2021-03-24 2022-10-18 阿里巴巴新加坡控股有限公司 语音交互方法、装置、设备及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107197090A (zh) * 2017-05-18 2017-09-22 维沃移动通信有限公司 一种语音信号的接收方法及移动终端
CN107402739A (zh) * 2017-07-26 2017-11-28 北京小米移动软件有限公司 一种拾音方法及装置
CN110335600A (zh) * 2019-07-09 2019-10-15 四川长虹电器股份有限公司 家电设备的多模态交互方法及***
US20220101846A1 (en) * 2020-09-11 2022-03-31 Samsung Electronics Co., Ltd. Electronic device for identifying command included in voice and method of opearating the same
CN112634895A (zh) * 2020-12-25 2021-04-09 苏州思必驰信息科技有限公司 语音交互免唤醒方法和装置
CN115206306A (zh) * 2021-03-24 2022-10-18 阿里巴巴新加坡控股有限公司 语音交互方法、装置、设备及***

Similar Documents

Publication Publication Date Title
CN113704014B (zh) 日志获取***、方法、电子设备及存储介质
CN110910872B (zh) 语音交互方法及装置
AU2019385366A1 (en) Voice control method and electronic device
CN110543287B (zh) 一种屏幕显示方法及电子设备
CN111819533B (zh) 一种触发电子设备执行功能的方法及电子设备
CN114650363B (zh) 一种图像显示的方法及电子设备
CN112740152B (zh) 手写笔检测方法、***及相关装置
CN114168065B (zh) 调整内存配置参数的方法和装置
CN115589051B (zh) 充电方法和终端设备
CN113641271A (zh) 应用窗口的管理方法、终端设备及计算机可读存储介质
CN114115512A (zh) 信息显示方法、终端设备及计算机可读存储介质
CN116048831B (zh) 一种目标信号处理方法和电子设备
CN113380240B (zh) 语音交互方法和电子设备
WO2021129453A1 (zh) 一种截屏方法及相关设备
CN115206308A (zh) 一种人机交互的方法及电子设备
CN117119102A (zh) 语音交互功能的唤醒方法及电子设备
CN114035989A (zh) 卡死识别方法及电子设备
WO2020024087A1 (zh) 一种触控装置的工作方法及终端
CN117271170B (zh) 活动事件处理方法及相关设备
CN114942741B (zh) 数据传输方法及电子设备
CN116700556B (zh) 卡片生成方法及相关装置
CN117273687B (zh) 一种打卡推荐方法及电子设备
WO2023246783A1 (zh) 调整设备功耗的方法及电子设备
WO2024114493A1 (zh) 一种人机交互的方法和装置
CN117177216A (zh) 信息交互的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination