CN111078297A - 唤醒语音助手的方法、移动终端和计算机可读存储介质 - Google Patents

唤醒语音助手的方法、移动终端和计算机可读存储介质 Download PDF

Info

Publication number
CN111078297A
CN111078297A CN201811215925.2A CN201811215925A CN111078297A CN 111078297 A CN111078297 A CN 111078297A CN 201811215925 A CN201811215925 A CN 201811215925A CN 111078297 A CN111078297 A CN 111078297A
Authority
CN
China
Prior art keywords
voice assistant
user
preset
control information
mobile terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811215925.2A
Other languages
English (en)
Inventor
王力博
李春林
顾志红
燕立杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiku Internet Technology Shenzhen Co Ltd
Original Assignee
Qiku Internet Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiku Internet Technology Shenzhen Co Ltd filed Critical Qiku Internet Technology Shenzhen Co Ltd
Priority to CN201811215925.2A priority Critical patent/CN111078297A/zh
Publication of CN111078297A publication Critical patent/CN111078297A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本申请揭示了一种唤醒语音助手的方法、移动终端和计算机可读存储介质,其中方法包括:判断用户当前执行的操作是否为唤醒语音助手的预设动作,其中,所述预设动作为控制物理按键或录入声音之外的动作;若用户当前执行的操作为唤醒语音助手的预设动作,则判断所述操作触发的控制信息是否满足预设条件;若所述操作触发的控制信息满足预设条件,控制所述语音助手进入唤醒状态。本申请在在判定出用户当前的执行操作为唤醒语音助手的预设动作后,如果该操作触发的控制信息满足预设条件,则会自动将语音助手唤醒,在唤醒语音助手的过程中,用户无需任何操作,简化了用户唤醒语音助手的繁琐步骤,使得用户对于语音助手的唤醒更加智能和迅速。

Description

唤醒语音助手的方法、移动终端和计算机可读存储介质
技术领域
本申请涉及通信技术领域,具体涉及一种唤醒语音助手的方法、移动终端和计算机可读存储介质。
背景技术
随着语音识别技术的广泛应用,移动终端内的语音助手逐渐成为一种人们经常使用的功能,用户可以通过向语音助手发出一些语音指令,以控制语音助手来完成对于移动终端的各种操作。
然而,现有的语音助手在进行语音交互时都需要由用户对其进行唤醒。现有语音助手的唤醒方式主要包括两种方式,一种方式为通过输入特定的语音唤醒词实现语音助手的唤醒,另一种方式为长按移动终端上的物理按键的方式。用户每次在与语音助手进行语音交互之前都要说一遍语音唤醒词或者长按物理按键来唤醒语音助手,当用户需要频繁地使用语音助手时,重复的说语音唤醒词或长按物理按键的唤醒方式较为繁琐,智能性低,会对用户造成不好的体验。
发明内容
本申请的主要目的为提供一种唤醒语音助手的方法、移动终端和计算机可读存储介质,旨在解决现有语音助手的唤醒方式较为繁琐,智能性低,会对用户造成不好的体验的技术问题。
本申请提出一种唤醒语音助手的方法,应用于移动终端,所述方法包括步骤:
判断用户当前执行的操作是否为唤醒语音助手的预设动作,其中,所述预设动作为控制物理按键或录入声音之外的动作;
若用户当前执行的操作为唤醒语音助手的预设动作,则判断所述操作触发的控制信息是否满足预设条件;
若所述操作触发的控制信息满足预设条件,控制所述语音助手进入唤醒状态。
优选地,所述操作为启动所述移动终端的第一应用程序,所述判断所述操作触发的控制信息是否满足预设条件的步骤,包括:
获取所述用户当前启动的所述第一应用程序的名称信息;
将所述第一应用程序的名称信息与指定应用程序库中所有的指定应用程序的名称信息进行一一匹配比对;
若匹配,则判定所述操作触发的控制信息满足预设条件;
若不匹配,则判定所述操作触发的控制信息不满足预设条件。
优选地,所述获取所述用户当前启动的所述第一应用程序的名称信息的步骤之前,包括:
在第一预设时间周期内,分别获取所述用户对于所述移动终端的各应用程序的使用信息,其中所述使用信息包括所述用户在使用各所述应用程序时,手动开启所述语音助手的开启次数;
分别将各所述开启次数与预设阈值进行比较;
筛选出所述开启次数大于所述预设阈值的第二应用程序,并将所述第二应用程序确定为所述指定应用程序,其中所述第二应用程序的数量包括一个或多个;
提取出所述指定应用程序的名称信息,并存储于所述指定应用程序库中。
优选地,所述操作为向所述移动终端输入第一图像,所述第一图像为嘴部图像,所述判断所述操作触发的控制信息是否满足预设条件的步骤,包括:
判断所述嘴部图像是否为嘴唇的正面图像;
若为嘴唇的正面图像,判断所述嘴部图像中的嘴部是否出现指定动作;
若出现指定动作,则判定所述操作触发的控制信息满足预设条件;
若没有出现预设动作,则判定所述操作触发的控制信息不满足预设条件。
优选地,所述操作为向所述移动终端输入第二图像,所述第二图像为人脸图像,所述判断所述操作触发的控制信息是否满足预设条件的步骤,包括:
将所述人脸图像输入至预设的情绪识别模型,以通过所述情绪识别模型对所述人脸图像进行分析识别后,得到与所述人脸图像对应的情绪类型;
判断所述情绪类型是否为预设情绪类型;
若为预设情绪类型,则判定所述操作触发的控制信息满足预设条件;
若不为预设情绪类型,则判定所述操作触发的控制信息不满足预设条件。
优选地,所述将所述人脸图像输入至预设的情绪识别模型的步骤之前,包括:
采集指定数量且标注有情绪类型的人脸图像样本;
将所述人脸图像样本输入至指定神经网络模型进行情绪训练,使所述指定神经网络模型收敛;
将经过所述情绪训练后收敛的所述指定神经网络模型,确定为所述情绪识别模型。
优选地,所述操作为向所述移动终端输入手势动作,所述判断所述操作触发的控制信息是否满足预设条件的步骤,包括:
判断所述手势动作是否与预设唤醒手势相匹配;
若匹配,则判定所述操作触发的控制信息满足预设条件;
若不匹配,则判定所述操作触发的控制信息不满足预设条件。
优选地,所述控制所述语音助手进入唤醒状态的步骤之后,包括:
在第二预设时间周期内,判断是否接收到所述用户发出的语音指令;
若接收到所述用户发出的语音指令,通过所述语音助手执行响应所述语音指令的反馈动作;
若没有接收到所述用户发出的语音指令,关闭所述语音助手。
本申请还提供一种移动终端,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的唤醒语音助手的方法、移动终端和计算机可读存储介质,具有以下有益效果:
本申请中提供的唤醒语音助手的方法、移动终端和计算机可读存储介质,判断用户当前执行的操作是否为唤醒语音助手的预设动作,其中,所述预设动作为控制物理按键或录入声音之外的动作;若用户当前执行的操作为唤醒语音助手的预设动作,则判断所述操作触发的控制信息是否满足预设条件;若所述操作触发的控制信息满足预设条件,控制所述语音助手进入唤醒状态。在判定出用户当前的执行操作为唤醒语音助手的预设动作后,如果该操作触发的控制信息满足预设条件,则会自动将语音助手唤醒,在唤醒语音助手的过程中,用户无需任何操作,简化了用户唤醒语音助手的繁琐步骤,使得用户对于语音助手的唤醒更加智能和迅速。
附图说明
图1是本申请一实施例的唤醒语音助手的方法的流程示意图;
图2是本申请另一实施例的唤醒语音助手的方法的流程示意图;
图3是本申请又一实施例的唤醒语音助手的方法的流程示意图;
图4是本申请一实施例的移动终端的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
需要说明,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
参照图1,本申请一实施例的唤醒语音助手的方法,应用于移动终端,包括:
S1:判断用户当前执行的操作是否为唤醒语音助手的预设动作,其中,所述预设动作为控制物理按键或录入声音之外的动作;
S2:若用户当前执行的操作为唤醒语音助手的预设动作,则判断所述操作触发的控制信息是否满足预设条件;
S3:若所述操作触发的控制信息满足预设条件,控制所述语音助手进入唤醒状态。
本实施例中,预先将唤醒移动终端内的语音助手的动作与一些特定操作建立一一对应的映射关系,其中,特定操作是指携带有满足预设条件的控制信息的操作,即该特定操作为能触发出满足预设条件的控制信息的操作,且该满足预设条件的控制信息对应于用户需要使用语音助手的信息。举例地,上述能触发出满足预设条件的控制信息的特定操作可包括,用户启动了需要使用到语音助手的指定应用程序,且启动该指定应用程序的操作与唤醒语音助手的动作之间具有映射关系;还可包括,用户向移动终端输入了表示需要使用语音助手的人脸图像或嘴部图像,则移动终端在识别出该用户输入的需要使用语音助手的人脸图像或嘴部图像后,便会自动唤醒语音助手;还可包括,用户向移动终端输入了需要使用语音助手的手势动作,且该指定手势动作与唤醒语音助手的动作之间具有映射关系。在获取了用户当前执行的操作后,会对该操作是否为唤醒语音助手的预设动作进行判断,其中,预设动作是指除了控制物理按键或录入声音之外的动作,举例地,预设动作可以为用户开启了一个任意应用程序,或者为用户向移动终端输入了某些图像,例如人脸图像或嘴部图像,或者为用户向移动终端输入了手势动作。如果用户当前执行的操作属于唤醒语音助手的预设动作,则会进一步判断该操作触发的控制信息是否满足预设条件,如果该该操作触发的控制信息满足预设条件,则移动终端会自动将语音助手唤醒,使得语音助手进入唤醒状态。具体地,如果用户开启了一个任意应用程序,则移动终端会判断用户开启的该任意应用程序是否为需要使用到语音助手的指定应用程序;如果采集到了用户当前的人脸图像或嘴部图像,则移动终端会判断用户当前的人脸图像是否为需要使用语音助手的人脸图像或嘴部图像;如果采集到了用户当前的手势动作,则移动终端会判断用户当前的手势动作是否与需要使用语音助手的指定手势动作相匹配。进一步地,如果用户当前的操作所触发的控制信息满足预设条件,则表明用户作出了与唤醒移动终端内的语音助手具有映射关系的特定操作,则移动终端会唤醒语音助手,使得语音助手进入唤醒状态,随时接收用户发出的语音指令并为用户服务。在本实施例,在判断出用户当前执行的操作为唤醒语音助手的预设动作后,并判断出该操作触发的控制信息满足预设条件,则移动终端会自动将语音助手唤醒,且在唤醒语音助手的过程中,用户无需任何操作,简化了用户唤醒语音助手的繁琐步骤,使得用户对于语音助手的唤醒更加智能和迅速。
进一步地,本申请一实施例中,上述操作为启动上述移动终端的第一应用程序,上述步骤S2,包括:
S200:获取所述用户当前启动的所述第一应用程序的名称信息;
S201:将所述第一应用程序的名称信息与指定应用程序库中所有的指定应用程序的名称信息进行一一匹配比对;
S202:若匹配,则判定所述操作触发的控制信息满足预设条件;
S203:若不匹配,则判定所述操作触发的控制信息不满足预设条件。
本实施例中,上述唤醒语音助手的预设动作可为用户开启了移动终端内的任意一个应用程序。预先设置一个指定应用程序库,该指定应用程序库内存储有指定数量的指定应用程序的名称信息,其中,指定数量根据实际情况确定,在此不作限定,并为启动每个指定应用程序的操作与唤醒语音助手的动作建立对应的映射关系,即启动指定应用程序的操作触发的控制信息为用户需要唤醒语音助手。指定应用程序为用户在使用该指定应用程序的期间,会习惯手动开启语音助手,即用户需要使用语音助手的应用程序,可通过机器学习的方式学习出用户会需要使用语音助手的指定应用程序。在获取了用户当前启动的第一应用程序的名称信息后,通过将用户当前启动的第一应用程序的名称信息与上述指定应用程序库中所有的指定应用程序的名称信息进行一一匹配比对,如果指定应用程序库内有与该第一应用程序相匹配的名称信息,则表明用户当前启动第一应用程序的操作触发的控制信息满足预设条件,即用户当前启动的第一应用程序为需要使用语音助手的指定应用程序,之后移动终端会将语音助手唤醒,通过语音助手为用户提供服务;如果指定应用程序库内没有与该第一应用程序向匹配的名称信息,则表明用户当前启动第一应用程序的操作触发的控制信息不满足预设条件,即该第一应用程序并不属于用户需要使用到语音助手的指定应用程序,那么移动终端不会作出反应,即不会将语音助手唤醒。在本实施例,预先设置出用户需要使用语音助手的指定应用程序,当检测到用户开启该指定应用程序的操作时,则判定用户当前的操作满足预设条件,移动终端会智能地自动唤醒语音助手,用户无需讲出语音唤醒词或者长按物理按键,简化了用户唤醒语音助手的繁琐步骤,使得语音助手的唤醒更加智能和迅速。
进一步地,本申请一实施例中,上述步骤S200之前,包括:
S2000:在第一预设时间周期内,分别获取所述用户对于所述移动终端的各应用程序的使用信息,其中所述使用信息包括所述用户在使用各所述应用程序时,手动开启所述语音助手的开启次数;
S2001:分别将各所述开启次数与预设阈值进行比较;
S2002:筛选出所述开启次数大于所述预设阈值的第二应用程序,并将所述第二应用程序确定为所述指定应用程序,其中所述第二应用程序的数量包括一个或多个;
S2003:提取出所述指定应用程序的名称信息,并存储于所述指定应用程序库中。
本实施例中,通过采用机器学习的方式对一段时间长度内,用户在使用应用程序期间对于语音助手的使用习惯进行学习,然后进一步对学习后得到的学习结果进行预测,从而确定出用户会经常需要使用到语音助手的指定应用程序的预测结果,当检测到用户开启该指定应用程序的操作时,移动终端便会自动开启语音助手。具体地,上述的第一预设时间周期可根据实际情况设置,例如可设为在获取用户当前的操作之前的一个月内,并预先设定一个用于确定出上述指定应用程序的预设阈值。通过机器学习的方式分别获取一个月内用户对于移动终端内的每一个应用程序的使用信息,其中使用信息为用户在使用每一个应用程序期间时,手动开启语音助手的开启次数,之后对用户在一个月内对于在使用每一个应用程序的期间时,手动开启语音助手的开启次数进行统计分析,即分别将每一个应用程序在使用期间对应的手动开启语音助手的开启次数与上述预设阈值进行大小比较,将手动开启语音助手开启次数大于预设阈值所对应的第二应用程序确定为该指定应用程序,即用户会习惯使用语音助手的应用程序。在确定出指定应用程序之后,会提取出所有指定应用程序的名称信息并存储于上述预设的指定应用程序库中。只要检测到用户当前执行了启动某一应用程序的操作时,并在判断出启动某一应用程序的操作属于唤醒语音助手的预设动作之后,移动终端便会将该某一应用程序的名称信息与指定应用程序库内存储的所有指定应用程序的名称信息进行一一匹配比对,如果匹配成功,则判定用户当前的操作触发的控制信息满足预设条件,即用户启动了需要使用语音助手的指定应用程序,则移动终端便会智能地将语音助手唤醒。
进一步地,本申请一实施例中,上述操作为向上述移动终端输入第一图像,上述第一图像为嘴部图像,上述步骤S2,包括:
S210:判断所述嘴部图像是否为嘴唇的正面图像;
S211:若为嘴唇的正面图像,判断所述嘴部图像中的嘴部是否出现指定动作;
S212:若出现指定动作,则判定所述操作触发的控制信息满足预设条件,
S213:若没有出现指定动作,则判定所述操作触发的控制信息不满足预设条件。
本实施例中,上述唤醒语音助手的预设动作可为用户向移动终端内输入了第一图像,该第一图像可为用户的嘴部图像,且嘴部图像可通过移动终端的摄像头进行获取。由于嘴部是人的主要发声源,用户在使用语音助手时,习惯性地会正面面对移动终端并伴随有嘴部的动作,然后通过嘴部的发声动作,来发出自身的语音指令。当移动终端通过摄像头采集得到用户的嘴部图像,在判定出该嘴部图像为嘴唇的正面图像后,进一步检测到用户的嘴部出现了动作,则可判定当前用户需要使用语音助手的可能性较大。在本实施例,预先定义指定动作,指定动作为移动终端易于检测的动作,对该指定动作的数量不作限定,可为一个或多个,另外该指定动作可以为用户自己设定的动作,例如为嘴部张开的动作,或者为伸出舌头的动作,等等。当移动终端内的语音助手处于休眠状态时,如果移动终端在判定出采集得到的用户的嘴部图像为嘴唇的正面图像后,并从该嘴唇的正面图像中检测到了该指定动作,则判定用户当前输入嘴部图像的操作触发的控制信息满足预设条件,即用户当前输入的嘴部图像(正面的嘴唇部位带有指定动作的嘴部图像)的操作表示着用户需要使用语音助手的信息,之后移动终端会智能地唤醒移动终端内的语音助手,用户无需讲出语音唤醒词或者长按物理按键,简化了用户唤醒语音助手的繁琐步骤,使得语音助手的唤醒更加智能和迅速。
参照图2,进一步地,本申请一实施例中,上述操作为向上述移动终端输入第二图像,上述第二图像为人脸图像,上述步骤S2,包括:
S220:将所述人脸图像输入至预设的情绪识别模型,以通过所述情绪识别模型对所述人脸图像进行分析识别后,得到与所述人脸图像对应的情绪类型;
S221:判断所述情绪类型是否为预设情绪类型;
S221:若为预设情绪类型,则判定所述操作触发的控制信息满足预设条件;
S223:若不为预设情绪类型,则判定所述操作触发的控制信息不满足预设条件。
本实施例中,上述唤醒语音助手的预设动作可为用户向移动终端内输入了第二图像,该第二图像可为用户的人脸图像,对移动终端获取该用户输入的人脸图像的方式不作限定,可以为移动终端通过打开前置摄像头来获取用户当前的人脸图像。上述的预设的情绪识别模型为一种指定神经网络模型,其中,对情绪识别模型所对应的指定神经网络模型的具体类型不作限定,该指定神经网络模型可以是卷积神经网络(CNN)模型、循环神经网络(RNN)模型、深度神经网络(DNN)模型中的任意一个或者任意多个的组合,但不限于上述列举的神经网络模型。另外,上述情绪识别模型为预先经过情绪训练后收敛的指定神经网络模型,在经过情绪训练后,本实施例的情绪识别模型能够对输入的人脸图像进行分析处理,并识别出输入的人脸图像所对应的情绪类型。并且,会预先定义出预设情绪类型,该预设情绪类型对应用户需要唤醒语音助手的情绪类型,可以包括疑惑、困扰等多个表示用户遇到困难的情绪,如果采集得到的用户当前的人脸图像所对应的情绪类型为疑惑、困扰,则表明用户当前遇到了麻烦,需要获得语音助手的帮助。当情绪识别模型分析识别出所输入的人脸图像所对应的情绪类型为预设情绪类型,则移动终端会判定用户当前输入人脸图像的操作触发的控制信息满足预设条件,即用户当前输入人脸图像(带有预设情绪类型的人脸图像)的操作表示着用户需要使用语音助手的信息,之后移动终端会自动开启语音助手来为用户提供帮助,在本实施例,用户只需提供包含自身情绪的人脸图像,移动终端就可以借助预设的情绪识别模型来快速的预测出用户是否想要唤醒语音助手来寻求语音助手的帮助,从而简化了唤醒语音助手的繁琐步骤,使得语音助手的唤醒更加智能迅速、便捷和准确。
进一步地,本申请一实施例中,上述步骤S220之前,包括:
S2200:采集指定数量且标注有情绪类型的人脸图像样本;
S2201:将所述人脸图像样本输入至指定神经网络模型进行情绪训练,使所述指定神经网络模型收敛;
S2202:将经过所述情绪训练后收敛的所述指定神经网络模型,确定为所述情绪识别模型。
本实施例中,在将用户当前的人脸图像输入到预设的情绪识别模型之前,还需要经过创建该情绪识别模型的过程,具体为:采集指定数量且标注有情绪类型的人脸图像样本作为训练样本,输入至指定神经网络模型进行情绪训练,以使得指定神经网络模型收敛,并将经过情绪训练后收敛的指定神经网络模型确定为情绪识别模型。举例地,通过获取大量的人脸图像样本来作为上述的训练样本,例如5万个人脸图像样本,该人脸图像样本为包含有疑惑、困扰、快乐、无聊、悲伤多种情绪类型的训练样本,具体可为1万个包含疑惑情绪的人脸图像、1万个包含困扰情绪的人脸图像、1万个包含快乐情绪的人脸图像、1万个包含无聊情绪的人脸图像,以及1万个包含悲伤情绪的人脸图像,且每一种情绪类型的多个人脸图像内涉及的人物可以是一个或多个,优选为多个。其中,上述人脸图像样本涉及的人物可以包括移动终端的机主本人,但不限于机主。另外,根据这些人脸图像样本所对应的情绪类型,对上述5万个人脸图像样本进行相对应的情绪类型标注,即对1万个包含疑惑情绪的人脸图像标注疑惑情绪、对1万个包含困扰情绪的人脸图像标注困扰情绪、对1万个包含快乐情绪的人脸图像标注快乐情绪、对1万个包含无聊情绪的人脸图像标注无聊情绪,以及对1万个包含悲伤情绪的人脸图像标注悲伤情绪。之后,将这些具有情绪类型标注的5万个人脸图像作为情绪训练的样本,分别输入至该指定神经网络模型,来对指定神经网络模型模型进行情绪训练,使得经过训练后的指定神经网络模型能够收敛,来创建得到最终的情绪识别模型。其中,实现指定神经网络模型的收敛,具体表示指定神经网络模型预测的某一个人脸图像样本为某种情绪类型的概率与该人脸图像样本标注的情绪类型(概率为100%)之间的误差小于预设阈值(可设为2%),例如误差小于2%,则可判定指定神经网络模型已经收敛,这样,经过情绪训练后收敛的指定神经网络模型,即情绪识别模型就能够对输入的任意一个实测人脸图像进行情绪类型的预测,并能准确地识别出该人脸图像的人物所对应的情绪类型。进一步地,预先定义出预设情绪类型,该预设情绪类型对应于用户需要唤醒语音助手的情绪类型,可以包括疑惑、困扰等多个表示用户遇到困难的情绪,如果采集得到的用户当前的人脸图像所对应的情绪类型为疑惑、困扰,则表明用户当前遇到了麻烦,需要获得语音助手的帮助。通过上述的情绪训练过程,能够使得本实施例的情绪识别模型能够对任意一个人脸图像的情绪类型进行预测,从而获知人脸图像对应的用户的情绪类型是否为疑惑、困扰等预设情绪类型,以确定用户是否需要语音助手的帮助,来解决用户的问题。本实施例通过预先设置用户期望唤醒语音助手的预设情绪类型,这样,当情绪识别模型对输入的用户的当前人脸图像进行分析识别得到的情绪类型属于该预设情绪类型时,则移动终端会自动开启语音助手,以通过语音助手的服务以便于用户寻求帮助,缓解用户疑惑或困扰的情绪。用户在需要唤醒语音助手时,只需要表现出自己的疑惑或困扰的情绪便可以自动唤醒语音助手,而不需要用户的手动唤醒操作,简化了语音助手的唤醒步骤,提升了用户体验。
参照图3,进一步地,本申请一实施例中,上述操作为向上述移动终端输入手势动作,上述步骤S2,包括:
S230:判断所述手势动作是否与预设唤醒手势相匹配;
S231:若匹配,则判定所述操作触发的控制信息满足预设条件;
S232:若不匹配,则判定所述操作触发的控制信息不满足预设条件。
本实施例中,上述唤醒语音助手的预设动作可为用户向移动终端内输入了手势动作。预先定义出用于唤醒语音助手的特定手势,该特定手势即预设唤醒手势,当移动终端内的语音助手处于休眠状态时,通过该预设唤醒手势能够用于唤醒语音助手。可以理解的是,预设唤醒手势的数量不作具体的限定,可以为一个或多个,另外,预设唤醒手势为移动终端的触摸屏控制器能够容易识别的手势,可以是移动终端***内默认的手势,也可以是用户自己设定的手势,例如用手指转个圈、用手指比心、打响手指等等。移动终端会实时监测触摸屏上接收到的用户输入的手势动作,并对用户输入的手势动作进行识别,即将该手势动作与定义的预设唤醒手势进行匹配,如果匹配成功,意味着识别出该手势动作与该预设唤醒手势相同,则判定用户当前的操作触发的控制信息满足预设条件,即用户当前输入与预设唤醒手势相匹配的手势动作的操作,并对应着用户需要使用语音助手的信息,之后移动终端会自动唤醒语音助手,而不需要用户的手动唤醒操作,简化了语音助手的唤醒步骤,提升了用户体验。如果匹配不成功,则移动终端不会唤醒语音助手,而是继续对后续用户输入的手势动作进行检测和识别。
进一步地,本申请一实施例中,上述步骤S3之后,包括:
S300:在第二预设时间周期内,判断是否接收到所述用户发出的语音指令;
S301:若接收到所述用户发出的语音指令,通过所述语音助手执行响应所述语音指令的反馈动作;
S302:若没有接收到所述用户发出的语音指令,关闭所述语音助手。
本实施例中,在唤醒了语音助手之后,即语音助手当前处于可工作状态,通过检测用户是否发出了语音指令来判断用户是否真正需要使用语音助手,来避免出现语音助手误启动的情况。预先设置一个第二预设周期,例如为1分钟,如果用户在第二预设时间周期内发出了语音指令,则移动终端会通过所述语音助手接收并所述用户发出的语音指令进行处理,以实现对用户的帮助或服务,即通过语音助手来执行响应该语音指令的反馈动作;而如果用户在第二预设时间周期内没有发出语音指令,则移动终端会自动关闭该语音助手。其中,自开启语音助手的时间点开始上述第二预设时间周期的倒计时,当计时为零时,如果还没有检测或接收到用户发出的语音指令,则默认出现了语音助手误启动的情况,此时移动终端会关闭该语音助手,来有效地避免给用户对移动终端的操作造成干扰。
参照图4,本申请实施例中还提供一种移动终端,该移动终端可以是服务器,其内部结构可以如图4所示。该移动终端包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该移动终端设计的处理器用于提供计算和控制能力。该移动终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该移动终端的数据库用于存储唤醒语音助手等数据。该移动终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种唤醒语音助手的方法。
上述处理器执行上述唤醒语音助手的方法的步骤:
判断用户当前执行的操作是否为唤醒语音助手的预设动作,其中,所述预设动作为控制物理按键或录入声音之外的动作;
若用户当前执行的操作为唤醒语音助手的预设动作,则判断所述操作触发的控制信息是否满足预设条件;
若所述操作触发的控制信息满足预设条件,控制所述语音助手进入唤醒状态。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的移动终端的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种唤醒语音助手的方法,具体为:
判断用户当前执行的操作是否为唤醒语音助手的预设动作,其中,所述预设动作为控制物理按键或录入声音之外的动作;
若用户当前执行的操作为唤醒语音助手的预设动作,则判断所述操作触发的控制信息是否满足预设条件;
若所述操作触发的控制信息满足预设条件,控制所述语音助手进入唤醒状态。
综上所述,本申请实施例中提供的唤醒语音助手的方法、移动终端和计算机可读存储介质,判断用户当前执行的操作是否为唤醒语音助手的预设动作,其中,所述预设动作为控制物理按键或录入声音之外的动作;若用户当前执行的操作为唤醒语音助手的预设动作,则判断所述操作触发的控制信息是否满足预设条件;若所述操作触发的控制信息满足预设条件,控制所述语音助手进入唤醒状态。在判定出用户当前的执行操作为唤醒语音助手的预设动作后,如果该操作触发的控制信息满足预设条件,则会自动将语音助手唤醒,在唤醒语音助手的过程中,用户无需任何操作,简化了用户唤醒语音助手的繁琐步骤,使得用户对于语音助手的唤醒更加智能和迅速。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种唤醒语音助手的方法,其特征在于,应用于移动终端,包括:
判断用户当前执行的操作是否为唤醒语音助手的预设动作,其中,所述预设动作为控制物理按键或录入声音之外的动作;
若用户当前执行的操作为唤醒语音助手的预设动作,则判断所述操作触发的控制信息是否满足预设条件;
若所述操作触发的控制信息满足预设条件,控制所述语音助手进入唤醒状态。
2.根据权利要求1所述的唤醒语音助手的方法,其特征在于,所述操作为启动所述移动终端的第一应用程序,所述判断所述操作触发的控制信息是否满足预设条件的步骤,包括:
获取所述用户当前启动的所述第一应用程序的名称信息;
将所述第一应用程序的名称信息与指定应用程序库中所有的指定应用程序的名称信息进行一一匹配比对;
若匹配,则判定所述操作触发的控制信息满足预设条件;
若不匹配,则判定所述操作触发的控制信息不满足预设条件。
3.根据权利要求2所述的唤醒语音助手的方法,其特征在于,所述获取所述用户当前启动的所述第一应用程序的名称信息的步骤之前,包括:
在第一预设时间周期内,分别获取所述用户对于所述移动终端的各应用程序的使用信息,其中所述使用信息包括所述用户在使用各所述应用程序时,手动开启所述语音助手的开启次数;
分别将各所述开启次数与预设阈值进行比较;
筛选出所述开启次数大于所述预设阈值的第二应用程序,并将所述第二应用程序确定为所述指定应用程序,其中所述第二应用程序的数量包括一个或多个;
提取出所述指定应用程序的名称信息,并存储于所述指定应用程序库中。
4.根据权利要求1所述的唤醒语音助手的方法,其特征在于,所述操作为向所述移动终端输入第一图像,所述第一图像为嘴部图像,所述判断所述操作触发的控制信息是否满足预设条件的步骤,包括:
判断所述嘴部图像是否为嘴唇的正面图像;
若为嘴唇的正面图像,判断所述嘴部图像中的嘴部是否出现指定动作;
若出现指定动作,则判定所述操作触发的控制信息满足预设条件;
若没有出现指定动作,则判定所述操作触发的控制信息不满足预设条件。
5.根据权利要求1所述的唤醒语音助手的方法,其特征在于,所述操作为向所述移动终端输入第二图像,所述第二图像为人脸图像,所述判断所述操作触发的控制信息是否满足预设条件的步骤,包括:
将所述人脸图像输入至预设的情绪识别模型,以通过所述情绪识别模型对所述人脸图像进行分析识别后,得到与所述人脸图像对应的情绪类型;
判断所述情绪类型是否为预设情绪类型;
若为预设情绪类型,则判定所述操作触发的控制信息满足预设条件;
若不为预设情绪类型,则判定所述操作触发的控制信息不满足预设条件。
6.根据权利要求5所述的唤醒语音助手的方法,其特征在于,所述将所述人脸图像输入至预设的情绪识别模型的步骤之前,包括:
采集指定数量且标注有情绪类型的人脸图像样本;
将所述人脸图像样本输入至指定神经网络模型进行情绪训练,使所述指定神经网络模型收敛;
将经过所述情绪训练后收敛的所述指定神经网络模型,确定为所述情绪识别模型。
7.根据权利要求1所述的唤醒语音助手的方法,其特征在于,所述操作为向所述移动终端输入手势动作,所述判断所述操作触发的控制信息是否满足预设条件的步骤,包括:
判断所述手势动作是否与预设唤醒手势相匹配;
若匹配,则判定所述操作触发的控制信息满足预设条件;
若不匹配,则判定所述操作触发的控制信息不满足预设条件。
8.根据权利要求1所述的唤醒语音助手的方法,其特征在于,所述控制所述语音助手进入唤醒状态的步骤之后,包括:
在第二预设时间周期内,判断是否接收到所述用户发出的语音指令;
若接收到所述用户发出的语音指令,通过所述语音助手执行响应所述语音指令的反馈动作;
若没有接收到所述用户发出的语音指令,关闭所述语音助手。
9.一种移动终端,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN201811215925.2A 2018-10-18 2018-10-18 唤醒语音助手的方法、移动终端和计算机可读存储介质 Pending CN111078297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811215925.2A CN111078297A (zh) 2018-10-18 2018-10-18 唤醒语音助手的方法、移动终端和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811215925.2A CN111078297A (zh) 2018-10-18 2018-10-18 唤醒语音助手的方法、移动终端和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111078297A true CN111078297A (zh) 2020-04-28

Family

ID=70309216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811215925.2A Pending CN111078297A (zh) 2018-10-18 2018-10-18 唤醒语音助手的方法、移动终端和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111078297A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947100A (zh) * 2021-02-03 2021-06-11 珠海格力电器股份有限公司 一种语音助手设备唤醒方法、装置、***及存储介质
CN115019832A (zh) * 2022-05-27 2022-09-06 中国第一汽车股份有限公司 一种车辆用基于情感分析的免唤醒交互方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034516A (zh) * 2012-12-13 2013-04-10 东莞宇龙通信科技有限公司 终端和应用程序打开方法
CN103049192A (zh) * 2012-12-17 2013-04-17 广东欧珀移动通信有限公司 一种应用程序开启方法及装置
US20140218372A1 (en) * 2013-02-05 2014-08-07 Apple Inc. Intelligent digital assistant in a desktop environment
US20150363165A1 (en) * 2014-06-11 2015-12-17 Huawei Technologies Co., Ltd. Method For Quickly Starting Application Service, and Terminal
CN108098767A (zh) * 2016-11-25 2018-06-01 北京智能管家科技有限公司 一种机器人唤醒方法及装置
CN108133708A (zh) * 2017-12-04 2018-06-08 维沃移动通信有限公司 一种语音助手的控制方法、装置及移动终端
CN108154140A (zh) * 2018-01-22 2018-06-12 北京百度网讯科技有限公司 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
CN108181992A (zh) * 2018-01-22 2018-06-19 北京百度网讯科技有限公司 基于手势的语音唤醒方法、装置、设备及计算机可读介质
CN108270903A (zh) * 2012-02-24 2018-07-10 三星电子株式会社 通过语音识别控制终端的锁定/解锁状态的方法和设备
US20180204569A1 (en) * 2017-01-17 2018-07-19 Ford Global Technologies, Llc Voice Assistant Tracking And Activation
CN109147777A (zh) * 2018-07-17 2019-01-04 奇酷互联网络科技(深圳)有限公司 移动终端和实现指向性语音助手的方法、装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108270903A (zh) * 2012-02-24 2018-07-10 三星电子株式会社 通过语音识别控制终端的锁定/解锁状态的方法和设备
CN103034516A (zh) * 2012-12-13 2013-04-10 东莞宇龙通信科技有限公司 终端和应用程序打开方法
CN103049192A (zh) * 2012-12-17 2013-04-17 广东欧珀移动通信有限公司 一种应用程序开启方法及装置
US20140218372A1 (en) * 2013-02-05 2014-08-07 Apple Inc. Intelligent digital assistant in a desktop environment
US20150363165A1 (en) * 2014-06-11 2015-12-17 Huawei Technologies Co., Ltd. Method For Quickly Starting Application Service, and Terminal
CN108098767A (zh) * 2016-11-25 2018-06-01 北京智能管家科技有限公司 一种机器人唤醒方法及装置
US20180204569A1 (en) * 2017-01-17 2018-07-19 Ford Global Technologies, Llc Voice Assistant Tracking And Activation
CN108133708A (zh) * 2017-12-04 2018-06-08 维沃移动通信有限公司 一种语音助手的控制方法、装置及移动终端
CN108154140A (zh) * 2018-01-22 2018-06-12 北京百度网讯科技有限公司 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
CN108181992A (zh) * 2018-01-22 2018-06-19 北京百度网讯科技有限公司 基于手势的语音唤醒方法、装置、设备及计算机可读介质
CN109147777A (zh) * 2018-07-17 2019-01-04 奇酷互联网络科技(深圳)有限公司 移动终端和实现指向性语音助手的方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947100A (zh) * 2021-02-03 2021-06-11 珠海格力电器股份有限公司 一种语音助手设备唤醒方法、装置、***及存储介质
CN115019832A (zh) * 2022-05-27 2022-09-06 中国第一汽车股份有限公司 一种车辆用基于情感分析的免唤醒交互方法及装置

Similar Documents

Publication Publication Date Title
JP7005099B2 (ja) 音声キーワードの認識方法、装置、コンピュータ読み取り可能な記憶媒体、及びコンピュータデバイス
WO2020135194A1 (zh) 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN110517685B (zh) 语音识别方法、装置、电子设备及存储介质
CN110689889B (zh) 人机交互方法、装置、电子设备及存储介质
CN103456299B (zh) 一种控制语音识别的方法和装置
CN111880856B (zh) 语音唤醒方法、装置、电子设备及存储介质
WO2017143948A1 (zh) 一种唤醒智能机器人的方法及智能机器人
CN106502382B (zh) 用于智能机器人的主动交互方法和***
CN108182937A (zh) 关键词识别方法、装置、设备及存储介质
CN110930989B (zh) 语音意图识别方法、装置、计算机设备和存储介质
CN111563144A (zh) 基于语句前后关系预测的用户意图识别方法及装置
CN110782043B (zh) 模型优化方法、装置、存储介质及服务器
KR102474245B1 (ko) 스와이프 입력에 기초하여 입력 문자를 판단하는 시스템 및 방법
US11437039B2 (en) Intelligent software agent
CN112287994A (zh) 伪标签处理方法、装置、设备及计算机可读存储介质
CN111078297A (zh) 唤醒语音助手的方法、移动终端和计算机可读存储介质
CN111209380B (zh) 对话机器人的控制方法、装置、计算机设备和存储介质
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN110718225A (zh) 一种语音控制方法、终端以及存储介质
JP7215417B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN114360522A (zh) 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN112908328A (zh) 设备操控方法、***、计算机设备及存储介质
CN111897601B (zh) 应用启动方法、装置、终端设备以及存储介质
CN115881126B (zh) 基于语音识别的开关控制方法、装置和开关设备
CN116795971A (zh) 一种基于生成式语言模型的人机对话场景构建***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428

RJ01 Rejection of invention patent application after publication