CN110515449B - 唤醒智能设备的方法及装置 - Google Patents

唤醒智能设备的方法及装置 Download PDF

Info

Publication number
CN110515449B
CN110515449B CN201910817875.3A CN201910817875A CN110515449B CN 110515449 B CN110515449 B CN 110515449B CN 201910817875 A CN201910817875 A CN 201910817875A CN 110515449 B CN110515449 B CN 110515449B
Authority
CN
China
Prior art keywords
gait
awakening
voice
user
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910817875.3A
Other languages
English (en)
Other versions
CN110515449A (zh
Inventor
杜国威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Anyun Century Technology Co Ltd
Original Assignee
Beijing Anyun Century Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Anyun Century Technology Co Ltd filed Critical Beijing Anyun Century Technology Co Ltd
Priority to CN201910817875.3A priority Critical patent/CN110515449B/zh
Publication of CN110515449A publication Critical patent/CN110515449A/zh
Application granted granted Critical
Publication of CN110515449B publication Critical patent/CN110515449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Telephone Function (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种唤醒智能设备的方法及装置,涉及人工智能技术领域,能够解决在不同的应用场景下,唤醒语音的识别策略相同,灵活性差,无法满足使用需求。本发明的方法包括:采集用户的当前步态信息;利用预设步态识别模型,识别所述当前步态信息所表征的步态类型;根据所述步态类型确定唤醒语音识别策略;当接收到所述用户输入的语音唤醒词时,根据所述唤醒语音识别策略识别所述语音唤醒词,并基于识别结果唤醒智能设备。本发明主要适用于语音唤醒智能设备的场景中。

Description

唤醒智能设备的方法及装置
技术领域
本发明涉及人工智能技术领域,特别是涉及一种唤醒智能设备的方法及装置。
背景技术
随着人工智能技术的不断发展,出现了越来越多的可以应用在各种领域的人工智能设备。例如智能音箱、智能空调、智能车载设备等。为了提高智能设备的续航能力,当用户不使用智能设备时,智能设备中的相关服务会停止或者暂停,变为休眠状态,这样就可以有效的保存电量。当用户使用智能设备时,就需要将智能设备再从休眠状态中唤醒。
目前唤醒智能设备主要通过设置唤醒词来让用户语音唤醒智能设备。现有技术中,在不同的应用场景下,智能音箱等智能设备对唤醒词的识别策略相同,灵活性差,无法满足使用需求。
发明内容
有鉴于此,本发明提供的唤醒智能设备的方法及装置,其目的在于解决在不同的应用场景下,唤醒语音的识别策略相同,灵活性差,无法满足使用需求的问题。
本发明的目的是采用以下技术方案来实现的:
第一方面,本发明提供了一种唤醒智能设备的方法,所述方法包括:
采集用户的当前步态信息;
利用预设步态识别模型,识别所述当前步态信息所表征的步态类型;
根据所述步态类型确定唤醒语音识别策略;
当接收到所述用户输入的语音唤醒词时,根据所述唤醒语音识别策略识别所述语音唤醒词,并基于识别结果唤醒智能设备。
可选的,所述根据所述步态类型确定唤醒语音识别策略包括:
根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定唤醒语音校验次数。
可选的,所述根据所述唤醒语音识别策略识别所述语音唤醒词包括:
当所述唤醒语音校验次数为1时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别;
当所述唤醒语音校验次数为2时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别,并在第一次识别结果为正确时,将所述语音唤醒词发送给云端进行二次识别。
可选的,所述根据所述步态类型确定唤醒语音识别策略包括:
根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定最低唤醒词匹配度。
可选的,所述根据所述唤醒语音识别策略识别所述语音唤醒词包括:
当所述用户输入的语音唤醒词与预设唤醒词的匹配度大于或者等于所述最低唤醒词匹配度时,确定所述语音唤醒词的文本内容匹配成功。
可选的,在根据所述步态类型确定唤醒语音识别策略之前,所述方法还包括:
根据当前时间从所有唤醒语音识别策略中筛选出备选的唤醒语音识别策略;
所述根据所述步态类型确定唤醒语音识别策略包括:
从所述备选的唤醒语音识别策略中确定出所述步态类型对应的唤醒语音识别策略。
可选的,所述方法还包括:
若当前时间在预设晚间时间段内,则将所述唤醒语音识别策略确定为用户对误唤醒的容忍度最低时所对应的唤醒语音识别策略。
可选的,所述利用预设步态识别模型,识别所述当前步态信息所表征的步态类型包括:
当所述用户的历史步态信息的数据量大于预设数据量阈值时,利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型;
当所述用户的历史步态信息的数据量小于或者等于所述预设数据量阈值时,将所述当前步态信息发送给云端,并接收所述云端利用其它用户的步态识别模型对所述当前步态信息所表征的步态类型的识别结果。
可选的,在利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型之前,所述方法还包括:
获取人工进行步态类型标记后的所述用户的历史步态信息;
利用标记后的历史步态信息对神经网络模型进行训练,获得所述用户的步态识别模型。
第二方面,本发明提供了一种唤醒智能设备的装置,所述装置包括:
采集单元,用于采集用户的当前步态信息;
步态识别单元,用于利用预设步态识别模型,识别所述当前步态信息所表征的步态类型;
确定单元,用于根据所述步态类型确定唤醒语音识别策略;
唤醒语音识别单元,用于当接收到所述用户输入的语音唤醒词时,根据所述唤醒语音识别策略识别所述语音唤醒词;
唤醒单元,用于基于识别结果唤醒智能设备。
可选的,所述确定单元,用于根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定唤醒语音校验次数。
可选的,所述唤醒语音识别单元,用于当所述唤醒语音校验次数为1时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别;当所述唤醒语音校验次数为2时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别,并在第一次识别结果为正确时,将所述语音唤醒词发送给云端进行二次识别。
可选的,所述确定单元,用于根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定最低唤醒词匹配度。
可选的,所述唤醒语音识别单元,用于当所述用户输入的语音唤醒词与预设唤醒词的匹配度大于或者等于所述最低唤醒词匹配度时,确定所述语音唤醒词的文本内容匹配成功。
可选的,所述装置还包括:
筛选单元,用于在根据所述步态类型确定唤醒语音识别策略之前,根据当前时间从所有唤醒语音识别策略中筛选出备选的唤醒语音识别策略;
所述确定单元,用于从所述备选的唤醒语音识别策略中确定出所述步态类型对应的唤醒语音识别策略。
可选的,所述确定单元,还用于若当前时间在预设晚间时间段内,则将所述唤醒语音识别策略确定为用户对误唤醒的容忍度最低时所对应的唤醒语音识别策略。
可选的,所述步态识别单元包括:
步态识别模块,用于当所述用户的历史步态信息的数据量大于预设数据量阈值时,利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型;
发送模块,用于当所述用户的历史步态信息的数据量小于或者等于所述预设数据量阈值时,将所述当前步态信息发送给云端;
接收模块,用于接收所述云端利用其它用户的步态识别模型对所述当前步态信息所表征的步态类型的识别结果。
可选的,所述装置还包括:
获取单元,用于在利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型之前,获取人工进行步态类型标记后的所述用户的历史步态信息;
训练单元,用于利用标记后的历史步态信息对神经网络模型进行训练,获得所述用户的步态识别模型。
第三方面,本发明提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面所述的唤醒智能设备的方法。
第四方面,本发明提供了一种电子设备,所述电子设备包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行第一方面所述的唤醒智能设备的方法。
借由上述技术方案,本发明提供的唤醒智能设备的方法及装置,能够先采集用户的当前步态信息,然后利用预设步态识别模型,识别所述当前步态信息所表征的步态类型,并确定该步态类型对应的专用的唤醒语音识别策略,当接收到用户输入的语音唤醒词时,使用该步态类型对应的专用的唤醒语音识别策略来识别语音唤醒词。步态信息反映了用户的当前状态,也即应用场景,因此能够根据步态信息判断不同的应用场景,并对应不同的应用场景调整不同的唤醒语音识别策略,满足不同应用场景下的用户需求,灵活性高,用户体验好。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种唤醒智能设备的方法的流程图;
图2示出了本发明实施例提供的另一种唤醒智能设备的方法的流程图;
图3示出了本发明实施例提供的又一种唤醒智能设备的方法的流程图;
图4示出了本发明实施例提供的一种唤醒智能设备的装置的组成框图;
图5示出了本发明实施例提供的另一种唤醒智能设备的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种唤醒智能设备的方法,所述方法应用于智能设备侧,如图1所示,所述方法包括:
101、采集用户的当前步态信息。
当采集用户步态信息的摄像头是智能设备上的摄像头时,采集的用户当前步态信息可以是智能设备的摄像头能够拍摄的视野范围内的步态信息;当采集用户步态信息的摄像头是与智能设备进行通信的外部摄像头时,采集的用户当前步态信息可以是外部摄像头能够拍摄到的视野范围。
其中,步态信息可以包括身体重心、步行频率、步态步伐以及位置信息等。
102、利用预设步态识别模型,识别所述当前步态信息所表征的步态类型。
其中,预设步态识别模型是根据历史步态数据训练的人工智能识别模型,可以是卷积神经网络模型、深度神经网络模型等。
在实际应用中,一个人在不同场景下行走的步态是不一样的,不同人在相同场景下行走的步态也可能是不一样的。为了准确识别当前用户的状态,预设步态识别模型可以是基于当前用户的历史步态数据训练的,专门用来识别当前用户步态类型的模型。
步态类型可以根据不同依据进行划分。例如,根据场景可以将步态划分为刚睡醒状态、工作状态、赶路状态、疲惫状态等。
103、根据所述步态类型确定唤醒语音识别策略。
在不同步态类型下,用户发出的唤醒语音可能有差距,例如疲惫状态的声音相对比正常状态要低沉;在不同步态类型下,用户对误唤醒的容忍度也有所差异。因此可以根据不同步态类型为用户设置不同的唤醒语音识别策略。
104、当接收到所述用户输入的语音唤醒词时,根据所述唤醒语音识别策略识别所述语音唤醒词,并基于识别结果唤醒智能设备。
本发明实施例的智能设备可以实时监听外来声音,并判断声源位置,将声源位置于采集的步态信息中的位置进行匹配;当位置相同时,可以确定声音与步态信息来源于同一个用户。此时,可以根据发出唤醒语音的用户的步态类型所对应的唤醒语音识别策略对语音唤醒词进行识别,当识别结果为正确时,智能设备从休眠状态变为工作状态,即唤醒成功,当识别结果为不正确时,智能设备依然处于休眠状态,即唤醒失败。
需要补充的是,本发明实施例中的智能设备包括但不限于智能音箱、智能空调、智能车载设备、智能学习机、扫地机器人等。
本发明实施例提供的唤醒智能设备的方法,能够先采集用户的当前步态信息,然后利用预设步态识别模型,识别所述当前步态信息所表征的步态类型,并确定该步态类型对应的专用的唤醒语音识别策略,当接收到用户输入的语音唤醒词时,使用该步态类型对应的专用的唤醒语音识别策略来识别语音唤醒词。步态信息反映了用户的当前状态,也即应用场景,因此能够根据步态信息判断不同的应用场景,并对应不同的应用场景调整不同的唤醒语音识别策略,满足不同应用场景下的用户需求,灵活性高,用户体验好。
进一步的,依据图1所示的方法,本发明的另一个实施例还提供了一种唤醒智能设备的方法,如图2所示,所述方法主要包括:
201、采集用户的当前步态信息。
202、利用预设步态识别模型,识别所述当前步态信息所表征的步态类型。
在上述实施例中指出,为了准确识别当前用户的状态,预设步态识别模型可以是基于当前用户的历史步态数据训练的,专门用来识别当前用户步态类型的模型。但是用户刚使用该智能设备时,该用户的步态数据不足以训练出该用户的步态识别模型,或者说训练出的步态识别模型的识别正确率较低。为了提高用户体验,尽量降低误唤醒率,本步骤的具体实现方式可以分为以下两种情况:
当所述用户的历史步态信息的数据量大于预设数据量阈值时,利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型;当所述用户的历史步态信息的数据量小于或者等于所述预设数据量阈值时,将所述当前步态信息发送给云端,并接收所述云端利用其它用户的步态识别模型对所述当前步态信息所表征的步态类型的识别结果。
其中,预设数据量阈值是根据实际经验所得的、能够保证训练出的步态识别模型正确率达到预设正确率阈值时的数据量大小。
此外,用户的步态识别模型的具体获取方法包括:
获取人工进行步态类型标记后的所述用户的历史步态信息;利用标记后的历史步态信息对神经网络模型进行训练,获得所述用户的步态识别模型。
203、根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定唤醒语音校验次数。
在不同场景中,同一用户对误唤醒的容忍度是不同的,例如在嘈杂环境下,用户可以容忍相对较高的误唤醒率,但在安静的环境下,用户难以容忍较高的误唤醒率。但针对每种场景都进行多次识别,会降低识别速度,用户体验也会降低。为了平衡误唤醒率和识别速度,可以根据用户对误唤醒的容忍度来确定唤醒语音校验次数,在容忍度较高时,可以降低唤醒语音校验次数,在容忍度较低时,可以提高唤醒语音校验次数。具体识别过程参见下述步骤204。
204、当接收到所述用户输入的语音唤醒词时,基于所述唤醒语音校验次数,识别所述语音唤醒词,并基于识别结果唤醒智能设备。
当所述唤醒语音校验次数为1时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别;当所述唤醒语音校验次数为2时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别,并在第一次识别结果为正确时,将所述语音唤醒词发送给云端进行二次识别,当二次识别结果也为正确时,才能成功唤醒智能设备。
云端也可以采用唤醒语音识别模型进行识别,但是云端所采用的唤醒语音识别模型含有更大的数据量,比本地唤醒语音识别模型识别准确率更高。
由于用户在不同步态下所发出的声音可能存在不同(例如在睡得迷迷糊糊起床后的步态比较虚浮,步行的频率较慢且脚掌都是平起平落或者是脚掌前端着地,发出的声音音调也会比平时低),所以为了降低误唤醒率,可以针对不同步态类型训练不同的唤醒语音识别模型,对相应步态下发出的语音唤醒词进行识别。
本发明实施例提供的唤醒智能设备的方法,能够先采集用户的当前步态信息,然后利用预设步态识别模型,识别所述当前步态信息所表征的步态类型,当接收到用户输入的语音唤醒词时,不是直接使用通用的唤醒识别策略来识别语音唤醒词,而是根据不同步态下用户对误唤醒的容忍度来确定唤醒语音校验次数,来根据不同步态下用户发出的声音变化来确定唤醒语音识别模型,从而满足用户在不同场景下对误唤醒率和唤醒速度的要求,灵活性高,用户体验好。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种唤醒智能设备的方法,如图3所示,所述方法主要包括:
301、采集用户的当前步态信息。
302、利用预设步态识别模型,识别所述当前步态信息所表征的步态类型。
303、根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定最低唤醒词匹配度。
在不同场景中,同一用户对误唤醒的容忍度是不同的,例如在嘈杂环境下,用户可以容忍相对较高的误唤醒率,但在安静的环境下,用户难以容忍较高的误唤醒率。但针对每种场景都进行多次识别,会降低识别速度,用户体验也会降低。为了平衡误唤醒率和识别速度,可以根据用户对误唤醒的容忍度来确定最低唤醒词匹配度,在容忍度较高时,可以提高最低唤醒词匹配度,在容忍度较低时,可以降低最低唤醒词匹配度。具体识别过程参见下述步骤304。
304、当接收到所述用户输入的语音唤醒词时,根据所述最低唤醒词匹配度识别所述语音唤醒词,并基于识别结果唤醒智能设备。
具体的,当所述用户输入的语音唤醒词与预设唤醒词的匹配度大于或者等于所述最低唤醒词匹配度时,确定所述语音唤醒词的文本内容匹配成功;当所述用户输入的语音唤醒词与预设唤醒词的匹配度小于所述最低唤醒词匹配度时,确定所述语音唤醒词的文本内容匹配失败。
例如,若唤醒词是“叮当叮当”,在容忍度较高时,用户只要提到“叮当”一词就判定匹配成功,在容忍度较低时,用户必须提高“叮当叮当”才能判定匹配成功。
本发明实施例提供的唤醒智能设备的方法,能够先采集用户的当前步态信息,然后利用预设步态识别模型,识别所述当前步态信息所表征的步态类型,当接收到用户输入的语音唤醒词时,不是直接使用通用的唤醒识别策略来识别语音唤醒词,而是根据不同步态下用户对误唤醒的容忍度来确定最低唤醒词匹配度,根据最低唤醒词匹配度识别语音唤醒词,从而满足用户在不同场景下对误唤醒率和唤醒速度的要求,灵活性高,用户体验好。
进一步的,在实际应用中,一天中不同时间段,用户的步态类型会有所不同,例如夜晚用户睡觉,半夜醒来步态类型属于刚睡醒状态,上班时间的步态类型属于赶路状态。为了能够快速在大量唤醒语音识别策略中识别出当前步态类型所对应的策略,可以在根据所述步态类型确定唤醒语音识别策略之前,根据当前时间从所有唤醒语音识别策略中筛选出备选的唤醒语音识别策略;再从所述备选的唤醒语音识别策略中确定出所述步态类型对应的唤醒语音识别策略。
进一步的,一般情况下,用户白天忙于工作,只有下了班,才有休闲娱乐时间,当本发明实施例的智能设备是娱乐设备或者家用设备时,用户一般需要在下班时间好好享受智能设备带来的快乐(如智能音箱带来的美妙音乐快乐)。因此,用户在这段时间对误唤醒的容忍度要求是相对较低的,为了快速满足用户需求,可以在当前时间在预设晚间时间段内时,直接将所述唤醒语音识别策略确定为用户对误唤醒的容忍度最低时所对应的唤醒语音识别策略,以便直接使用容忍度最低时所对应的唤醒语音识别策略对语音唤醒词进行识别,从而提高用户体验。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种唤醒智能设备的装置,如图4所示,所述装置包括:
采集单元41,用于采集用户的当前步态信息;
步态识别单元42,用于利用预设步态识别模型,识别所述当前步态信息所表征的步态类型;
确定单元43,用于根据所述步态类型确定唤醒语音识别策略;
唤醒语音识别单元44,用于当接收到所述用户输入的语音唤醒词时,根据所述唤醒语音识别策略识别所述语音唤醒词;
唤醒单元45,用于基于识别结果唤醒智能设备。
可选的,所述确定单元43,用于根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定唤醒语音校验次数。
可选的,所述唤醒语音识别单元44,用于当所述唤醒语音校验次数为1时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别;当所述唤醒语音校验次数为2时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别,并在第一次识别结果为正确时,将所述语音唤醒词发送给云端进行二次识别。
可选的,所述确定单元43,用于根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定最低唤醒词匹配度。
可选的,所述唤醒语音识别单元44,用于当所述用户输入的语音唤醒词与预设唤醒词的匹配度大于或者等于所述最低唤醒词匹配度时,确定所述语音唤醒词的文本内容匹配成功。
可选的,如图5所示,所述装置还包括:
筛选单元46,用于在根据所述步态类型确定唤醒语音识别策略之前,根据当前时间从所有唤醒语音识别策略中筛选出备选的唤醒语音识别策略;
所述确定单元43,用于从所述备选的唤醒语音识别策略中确定出所述步态类型对应的唤醒语音识别策略。
可选的,所述确定单元43,还用于若当前时间在预设晚间时间段内,则将所述唤醒语音识别策略确定为用户对误唤醒的容忍度最低时所对应的唤醒语音识别策略。
可选的,如图5所示,所述步态识别单元42包括:
步态识别模块421,用于当所述用户的历史步态信息的数据量大于预设数据量阈值时,利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型;
发送模块422,用于当所述用户的历史步态信息的数据量小于或者等于所述预设数据量阈值时,将所述当前步态信息发送给云端;
接收模块423,用于接收所述云端利用其它用户的步态识别模型对所述当前步态信息所表征的步态类型的识别结果。
可选的,如图5所示,所述装置还包括:
获取单元47,用于在利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型之前,获取人工进行步态类型标记后的所述用户的历史步态信息;
训练单元48,用于利用标记后的历史步态信息对神经网络模型进行训练,获得所述用户的步态识别模型。
本发明实施例提供的唤醒智能设备的装置,能够先采集用户的当前步态信息,然后利用预设步态识别模型,识别所述当前步态信息所表征的步态类型,并确定该步态类型对应的专用的唤醒语音识别策略,当接收到用户输入的语音唤醒词时,使用该步态类型对应的专用的唤醒语音识别策略来识别语音唤醒词。步态信息反映了用户的当前状态,也即应用场景,因此能够根据步态信息判断不同的应用场景,并对应不同的应用场景调整不同的唤醒语音识别策略,满足不同应用场景下的用户需求,灵活性高,用户体验好。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上所述的唤醒智能设备的方法。
本发明实施例提供的存储介质中存储的程序,能够先采集用户的当前步态信息,然后利用预设步态识别模型,识别所述当前步态信息所表征的步态类型,并确定该步态类型对应的专用的唤醒语音识别策略,当接收到用户输入的语音唤醒词时,使用该步态类型对应的专用的唤醒语音识别策略来识别语音唤醒词。步态信息反映了用户的当前状态,也即应用场景,因此能够根据步态信息判断不同的应用场景,并对应不同的应用场景调整不同的唤醒语音识别策略,满足不同应用场景下的用户需求,灵活性高,用户体验好。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种电子设备,所述电子设备包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行如上所述的唤醒智能设备的方法。
本发明提供的电子设备,能够先采集用户的当前步态信息,然后利用预设步态识别模型,识别所述当前步态信息所表征的步态类型,并确定该步态类型对应的专用的唤醒语音识别策略,当接收到用户输入的语音唤醒词时,使用该步态类型对应的专用的唤醒语音识别策略来识别语音唤醒词。步态信息反映了用户的当前状态,也即应用场景,因此能够根据步态信息判断不同的应用场景,并对应不同的应用场景调整不同的唤醒语音识别策略,满足不同应用场景下的用户需求,灵活性高,用户体验好。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求防护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求防护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的唤醒智能设备的方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (20)

1.一种唤醒智能设备的方法,其特征在于,所述方法包括:
采集用户的当前步态信息;
利用预设步态识别模型,识别所述当前步态信息所表征的步态类型;
根据所述步态类型确定唤醒语音识别策略;
当接收到所述用户输入的语音唤醒词时,根据所述唤醒语音识别策略识别所述语音唤醒词,并基于识别结果唤醒智能设备。
2.根据权利要求1所述的方法,其特征在于,所述根据所述步态类型确定唤醒语音识别策略包括:
根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定唤醒语音校验次数。
3.根据权利要求2所述方法,其特征在于,所述根据所述唤醒语音识别策略识别所述语音唤醒词包括:
当所述唤醒语音校验次数为1时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别;
当所述唤醒语音校验次数为2时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别,并在第一次识别结果为正确时,将所述语音唤醒词发送给云端进行二次识别。
4.根据权利要求1所述方法,其特征在于,所述根据所述步态类型确定唤醒语音识别策略包括:
根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定最低唤醒词匹配度。
5.根据权利要求4所述方法,其特征在于,所述根据所述唤醒语音识别策略识别所述语音唤醒词包括:
当所述用户输入的语音唤醒词与预设唤醒词的匹配度大于或者等于所述最低唤醒词匹配度时,确定所述语音唤醒词的文本内容匹配成功。
6.根据权利要求1所述的方法,其特征在于,在根据所述步态类型确定唤醒语音识别策略之前,所述方法还包括:
根据当前时间从所有唤醒语音识别策略中筛选出备选的唤醒语音识别策略;
所述根据所述步态类型确定唤醒语音识别策略包括:
从所述备选的唤醒语音识别策略中确定出所述步态类型对应的唤醒语音识别策略。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若当前时间在预设晚间时间段内,则将所述唤醒语音识别策略确定为用户对误唤醒的容忍度最低时所对应的唤醒语音识别策略。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述利用预设步态识别模型,识别所述当前步态信息所表征的步态类型包括:
当所述用户的历史步态信息的数据量大于预设数据量阈值时,利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型;
当所述用户的历史步态信息的数据量小于或者等于所述预设数据量阈值时,将所述当前步态信息发送给云端,并接收所述云端利用其它用户的步态识别模型对所述当前步态信息所表征的步态类型的识别结果。
9.根据权利要求8所述的方法,其特征在于,在利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型之前,所述方法还包括:
获取人工进行步态类型标记后的所述用户的历史步态信息;
利用标记后的历史步态信息对神经网络模型进行训练,获得所述用户的步态识别模型。
10.一种唤醒智能设备的装置,其特征在于,所述装置包括:
采集单元,用于采集用户的当前步态信息;
步态识别单元,用于利用预设步态识别模型,识别所述当前步态信息所表征的步态类型;
确定单元,用于根据所述步态类型确定唤醒语音识别策略;
唤醒语音识别单元,用于当接收到所述用户输入的语音唤醒词时,根据所述唤醒语音识别策略识别所述语音唤醒词;
唤醒单元,用于基于识别结果唤醒智能设备。
11.根据权利要求10所述的装置,其特征在于,所述确定单元,用于根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定唤醒语音校验次数。
12.根据权利要求11所述装置,其特征在于,所述唤醒语音识别单元,用于当所述唤醒语音校验次数为1时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别;当所述唤醒语音校验次数为2时,根据所述步态类型对应的本地唤醒语音识别模型对所述语音唤醒词进行识别,并在第一次识别结果为正确时,将所述语音唤醒词发送给云端进行二次识别。
13.根据权利要求10所述装置,其特征在于,所述确定单元,用于根据所述步态类型所对应的场景下用户对误唤醒的容忍度,确定最低唤醒词匹配度。
14.根据权利要求13所述装置,其特征在于,所述唤醒语音识别单元,用于当所述用户输入的语音唤醒词与预设唤醒词的匹配度大于或者等于所述最低唤醒词匹配度时,确定所述语音唤醒词的文本内容匹配成功。
15.根据权利要求10所述装置,其特征在于,所述装置还包括:
筛选单元,用于在根据所述步态类型确定唤醒语音识别策略之前,根据当前时间从所有唤醒语音识别策略中筛选出备选的唤醒语音识别策略;
所述确定单元,用于从所述备选的唤醒语音识别策略中确定出所述步态类型对应的唤醒语音识别策略。
16.根据权利要求10所述装置,其特征在于,所述确定单元,还用于若当前时间在预设晚间时间段内,则将所述唤醒语音识别策略确定为用户对误唤醒的容忍度最低时所对应的唤醒语音识别策略。
17.根据权利要求10-16中任一项所述的装置,其特征在于,所述步态识别单元包括:
步态识别模块,用于当所述用户的历史步态信息的数据量大于预设数据量阈值时,利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型;
发送模块,用于当所述用户的历史步态信息的数据量小于或者等于所述预设数据量阈值时,将所述当前步态信息发送给云端;
接收模块,用于接收所述云端利用其它用户的步态识别模型对所述当前步态信息所表征的步态类型的识别结果。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
获取单元,用于在利用所述用户的步态识别模型,识别所述当前步态信息所表征的步态类型之前,获取人工进行步态类型标记后的所述用户的历史步态信息;
训练单元,用于利用标记后的历史步态信息对神经网络模型进行训练,获得所述用户的步态识别模型。
19.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任一项所述的唤醒智能设备的方法。
20.一种电子设备,其特征在于,所述电子设备包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行权利要求1至9中任一项所述的唤醒智能设备的方法。
CN201910817875.3A 2019-08-30 2019-08-30 唤醒智能设备的方法及装置 Active CN110515449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910817875.3A CN110515449B (zh) 2019-08-30 2019-08-30 唤醒智能设备的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910817875.3A CN110515449B (zh) 2019-08-30 2019-08-30 唤醒智能设备的方法及装置

Publications (2)

Publication Number Publication Date
CN110515449A CN110515449A (zh) 2019-11-29
CN110515449B true CN110515449B (zh) 2021-06-04

Family

ID=68628626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910817875.3A Active CN110515449B (zh) 2019-08-30 2019-08-30 唤醒智能设备的方法及装置

Country Status (1)

Country Link
CN (1) CN110515449B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625094B (zh) * 2020-05-25 2023-07-14 阿波罗智联(北京)科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
CN111722696B (zh) * 2020-06-17 2021-11-05 思必驰科技股份有限公司 用于低功耗设备的语音数据处理方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1488134A (zh) * 2001-10-22 2004-04-07 ���ṫ˾ 语音识别装置及语音识别方法
WO2016198132A1 (en) * 2015-06-11 2016-12-15 Sony Mobile Communications Inc. Communication system, audio server, and method for operating a communication system
CN106653031A (zh) * 2016-10-17 2017-05-10 海信集团有限公司 语音唤醒方法及语音交互装置
CN106847283A (zh) * 2017-02-28 2017-06-13 广东美的制冷设备有限公司 智能家电控制方法和装置
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107622770A (zh) * 2017-09-30 2018-01-23 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN108959890A (zh) * 2018-07-17 2018-12-07 三星电子(中国)研发中心 电子终端中的控制方法及电子终端
CN109389978A (zh) * 2018-11-05 2019-02-26 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109410936A (zh) * 2018-11-14 2019-03-01 广东美的制冷设备有限公司 基于场景的空调设备语音控制方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924337A (zh) * 2018-05-02 2018-11-30 宇龙计算机通信科技(深圳)有限公司 一种唤醒性能的控制方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1488134A (zh) * 2001-10-22 2004-04-07 ���ṫ˾ 语音识别装置及语音识别方法
WO2016198132A1 (en) * 2015-06-11 2016-12-15 Sony Mobile Communications Inc. Communication system, audio server, and method for operating a communication system
CN106653031A (zh) * 2016-10-17 2017-05-10 海信集团有限公司 语音唤醒方法及语音交互装置
CN106847283A (zh) * 2017-02-28 2017-06-13 广东美的制冷设备有限公司 智能家电控制方法和装置
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107622770A (zh) * 2017-09-30 2018-01-23 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN108959890A (zh) * 2018-07-17 2018-12-07 三星电子(中国)研发中心 电子终端中的控制方法及电子终端
CN109389978A (zh) * 2018-11-05 2019-02-26 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109410936A (zh) * 2018-11-14 2019-03-01 广东美的制冷设备有限公司 基于场景的空调设备语音控制方法和装置

Also Published As

Publication number Publication date
CN110515449A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN107704275B (zh) 智能设备唤醒方法、装置、服务器及智能设备
CN110211580B (zh) 多智能设备应答方法、装置、***及存储介质
CN105654949B (zh) 一种语音唤醒方法及装置
CN110515449B (zh) 唤醒智能设备的方法及装置
CN109377995B (zh) 一种控制设备的方法与装置
CN205508398U (zh) 具有云端交互功能的智能机器人
CN107146611A (zh) 一种语音响应方法、装置及智能设备
CN110248021A (zh) 一种智能设备音量控制方法及***
CN105872205B (zh) 一种信息处理方法及装置
CN112489648A (zh) 唤醒处理阈值调整方法、语音家电、存储介质
CN112634897B (zh) 设备唤醒方法、装置和存储介质及电子装置
CN109595757B (zh) 空调器的控制方法、装置及具有其的空调器
CN112562742B (zh) 语音处理方法和装置
CN111312222A (zh) 一种唤醒、语音识别模型训练方法及装置
CN105844106A (zh) 一种健康提醒方法及装置
CN110347366A (zh) 音量调节方法、终端设备、存储介质及电子设备
CN111243604B (zh) 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及***
CN110473542B (zh) 语音指令执行功能的唤醒方法、装置及电子设备
CN113658586B (zh) 语音识别模型的训练方法、语音交互方法及装置
CN109979467B (zh) 人声过滤方法、装置、设备及存储介质
CN111128150A (zh) 一种唤醒智能语音设备的方法及装置
CN109343481A (zh) 一种控制设备的方法与设备
JPWO2019058673A1 (ja) 情報処理装置、情報処理端末、情報処理方法、および、プログラム
CN110491384B (zh) 一种语音数据处理方法及装置
CN112071306A (zh) 语音控制方法、***、可读存储介质及网关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant