CN106297777A - 一种唤醒语音服务的方法和装置 - Google Patents

一种唤醒语音服务的方法和装置 Download PDF

Info

Publication number
CN106297777A
CN106297777A CN201610656147.5A CN201610656147A CN106297777A CN 106297777 A CN106297777 A CN 106297777A CN 201610656147 A CN201610656147 A CN 201610656147A CN 106297777 A CN106297777 A CN 106297777A
Authority
CN
China
Prior art keywords
voice
threshold
acoustic features
score value
waking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610656147.5A
Other languages
English (en)
Other versions
CN106297777B (zh
Inventor
宋夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201610656147.5A priority Critical patent/CN106297777B/zh
Publication of CN106297777A publication Critical patent/CN106297777A/zh
Application granted granted Critical
Publication of CN106297777B publication Critical patent/CN106297777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electric Clocks (AREA)

Abstract

本发明公开了一种唤醒语音服务的方法和装置,所述方法包括:获取输入的语音;提取所述语音的声学特征;将所述语音的声学特征与预先设置的标准唤醒词的声学特征进行匹配,获取第一匹配分值;若所述第一匹配分值大于预先设置的第一阈值,则唤醒语音服务;若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值;若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数;当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务。采用本发明可提高语音服务唤醒的准确度,改善用户体验。

Description

一种唤醒语音服务的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种唤醒语音服务的方法和装置。
背景技术
近年来,具有语音操作功能的智能设备逐渐进入了人们的生活,这类设备在使用语音操作之前,一般需要通过特定的唤醒词来唤醒语音操作功能。
现有语音服务的唤醒方法中,通常对用户的语音输入通过特定的算法进行计算,与预设的标准唤醒词进行匹配打分,如果最终计算得到的分数大于预设的门槛值则唤醒语音服务,否则不唤醒。
然而,由于使用者生活居住环境的不同,往往带有一定的地方口音,或者由于疾病的影响,导致发音不准确,采用上述现有的唤醒方法,用户输入的唤醒词语音的匹配打分无法超过预设的门槛值,即便用户反复重复唤醒词,也难以准确地唤醒设备的语音服务,用户体验较差。
发明内容
本发明实施例的目的在于提供一种唤醒语音服务的方法和装置,提高语音服务唤醒的准确度,改善用户体验。
为实现上述目的,本发明实施例提供了一种唤醒语音服务的方法,包括:
获取输入的语音;
提取所述语音的声学特征;
将所述语音的声学特征与预先设置的标准唤醒词的声学特征进行匹配,获取第一匹配分值;
若所述第一匹配分值大于预先设置的第一阈值,则唤醒语音服务;
若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值;
若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数;
当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务。
本发明通过对用户反复输入的匹配分值处于第一阈值和第二阈值之间的语音进行特殊处理,将本次输入语音与上一次输入语音进行匹配,以获知用户是否反复输入相同或相近的语音,当用户重复输入相同或相近的语音超过一定的次数时,正常唤醒设备的语音服务,提高了用户唤醒语音服务的准确度,有利于改善用户体验。
进一步地,在所述当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务之后,还包括:
判断唤醒语音服务后是否成功进行了语音操作;若成功进行了语音操作,则增加成功操作计数;若未成功进行语音操作,则减少所述成功操作计数;
当所述成功操作计数大于预先设置的第五阈值,并且所述语音的声学特征未被存储于备选唤醒词库时,将所述语音的声学特征存入备选唤醒词库中;
当所述成功操作计数小于所述第五阈值,并且所述语音的声学特征已被存储于所述备选唤醒词库时,将所述语音的声学特征从所述备选唤醒词库中删除。
优选地,所述若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值,具体为:
若所述第一匹配分值小于预先设置的第一阈值,但大于预先设置的第二阈值,则将所述语音的声学特征与所述备选唤醒词库中的声学特征进行匹配,获取第三匹配分值;
若所述第三匹配分值大于预先设置的第六阈值,则唤醒语音服务;
若所述第三匹配分值小于所述第六阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取所述第二匹配分值。
本发明在唤醒语音服务后,根据后续的语音操作情况来更新备选唤醒词库,当用户成功进行了语音操作时,将其认定为有效的语音唤醒,并在多次有效唤醒后将所述语音添加到备选唤醒词库中;而在未成功进行语音操作时,将其认定为误唤醒,减少该语音的成功操作计数,并在所述成功操作计数小于一定值时,将所述语音从备选唤醒词库中删除,提高了备选唤醒词的有效性。在后续的语音唤醒中本发明还利用所述备选唤醒词库中的历史记录,对匹配分值处于第一阈值和第二阈值之间的语音进行匹配识别,有利于提高识别的效率和准确性。
更进一步地,在所述若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数之后,还包括:
若所述重复输入计数在限定的时间内未发生变化,则将所述重复输入计数清零。
优选地,所述方法还包括:
若所述第一匹配分值小于所述第二阈值,则判定不可唤醒语音服务,并重新获取输入的语音;
若所述第二匹配分值小于所述第三阈值,则判定不可唤醒语音服务,并重新获取输入的语音;
若所述重复输入计数小于所述第四阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
相应地,本发明还提供了一种唤醒语音服务的装置,包括:
语音获取模块,用于获取输入的语音;
特征提取模块,用于提取所述语音的声学特征;
第一匹配模块,用于将所述语音的声学特征与预先设置的标准唤醒词的声学特征进行匹配,获取第一匹配分值;
第一唤醒模块,用于若所述第一匹配分值大于预先设置的第一阈值,则唤醒语音服务;
第二匹配模块,用于若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值;
重复计数模块,用于若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数;
第二唤醒模块,用于当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务。
进一步地,所述装置还包括:
操作计数模块,用于判断唤醒语音服务后是否成功进行了语音操作;若成功进行了语音操作,则增加成功操作计数;若未成功进行语音操作,则减少所述成功操作计数;
词库增添模块,用于当所述成功操作计数大于预先设置的第五阈值,并且所述语音的声学特征未被存储于备选唤醒词库时,将所述语音的声学特征存入备选唤醒词库中;
词库删减模块,用于当所述成功操作计数小于所述第五阈值,并且所述语音的声学特征已被存储于所述备选唤醒词库时,将所述语音的声学特征从所述备选唤醒词库中删除。
优选地,所述第二匹配模块包括:
第一匹配单元,用于若所述第一匹配分值小于预先设置的第一阈值,但大于预先设置的第二阈值,则将所述语音的声学特征与所述备选唤醒词库中的声学特征进行匹配,获取第三匹配分值;
第一唤醒单元,用于若所述第三匹配分值大于预先设置的第六阈值,则唤醒语音服务;
第二匹配单元,用于若所述第三匹配分值小于所述第六阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取所述第二匹配分值。
更进一步地,所述装置还包括:
计数清零模块,用于若所述重复输入计数在限定的时间内未发生变化,则将所述重复输入计数清零。
优选地,所述装置还包括:
第一重试模块,用于若所述第一匹配分值小于所述第二阈值,则判定不可唤醒语音服务,并重新获取输入的语音;
第二重试模块,用于若所述第二匹配分值小于所述第三阈值,则判定不可唤醒语音服务,并重新获取输入的语音;
第三重试模块,用于若所述重复输入计数小于所述第四阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
附图说明
图1是本发明提供的唤醒语音服务的方法的一个实施例的方法流程图;
图2是本发明提供的唤醒语音服务的方法的另一个实施例的方法流程图;
图3是本发明提供的唤醒语音服务的方法的又一个实施例的方法流程图;
图4是本发明提供的唤醒语音服务的方法的一个实施例的装置结构图;
图5是本发明提供的唤醒语音服务的方法的另一个实施例的装置结构图;
图6是本发明提供的唤醒语音服务的方法的又一个实施例的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的唤醒语音服务的方法的一个实施例的方法流程图。
如图1所示所述唤醒语音服务的方法,包括步骤S11~S17:
S11,获取输入的语音。
在具体实施当中,可通过录音设备(如麦克风等)获取用户的语音输入。
S12,提取所述语音的声学特征。
所述声学特征为基于人耳听觉特性提取的具有一定区分性的特征,如可选取语音识别中用到的MFCC(Mel-Frequency Cepstrum Coefficient,美尔频率倒谱系数)特征,本领域技术人员可根据实际需要选取不同的声学特征,也可提取多种声学特征的进行组合,本发明对此不作限定。
S13,将所述语音的声学特征与预先设置的标准唤醒词的声学特征进行匹配,获取第一匹配分值。
S14,若所述第一匹配分值大于预先设置的第一阈值,则唤醒语音服务。
S15,若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值。
在具体实施当中,所述第一阈值和所述第二阈值为预先选取的两个门槛值,所述第二阈值小于所述第一阈值,如第一阈值可以为90,所述第二阈值可以为80。当所述第一匹配分值大于第一阈值时,说明用户准确地说出了唤醒词,可直接唤醒语音服务,等待用户后续的语音操作指令。当第一匹配分值小于第一阈值时,继续判断该分值是否大于第二阈值,若所述第一匹配分值小于第一阈值但大于第二阈值,说明输入语音与标准唤醒词较为接近,但还不足以直接唤醒语音服务。本发明对匹配分值处于第一阈值和第二阈值之间的输入语音进行特殊处理,将本次输入语音与上次输入语音进行特征匹配,以判断是否用户是否在反复录入同一语音。
特别地,当本次输入的语音为首次输入时,即不存在上一条记录语音(相当于上一次记录语音为空),则本次输入语音与上次记录语音进行匹配获取的第二匹配分值为0,此时可将重复输入计数设为1,以表明所述语音为首次输入,并对本次输入语音进行记录,以与后续输入语音进行匹配,判断后续语音是否为重复输入。
S16,若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数。
S17,当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务。
重复输入计数用于记录用户重复输入相同或者相近语音的次数,当所述第二匹配分值大于预先设置的第三阈值时,可认为用户本次输入的语音与上一次记录的语音相同或者较为接近,重复输入计数加一。若所述第二匹配分值小于所述第三阈值,则所述重复输入计数清零。当用户重复输入同一语音的次数达到预设的第四阈值时,即说明用户发音虽有偏差,但用户在反复尝试唤醒语音服务,本发明在此情况下将正常地唤醒语音服务,有利于改善用户体验。
例如,某智能设备的语音服务功能的唤醒词是“智能生活”,某用户由于口音问题,把唤醒词说成了“自能神火”,若采用现有的唤醒方法,由于与标准唤醒词的匹配分值无法达到第一阈值,即便用户反复多次输入语音也无法唤醒语音服务。而若采用本实施例提供唤醒语音服务的方法,当他短时间内反复多次试图唤醒时,当重复的次数达到第四阈值时,设备便可以正常唤醒。
应当说明的是,本发明对于匹配分值与阈值相等的情况,既可以按大于的情况进行处理,也可以按小于的情况进行处理,本领域技术人员可根据实际情况进行选择,本发明对此不作限定。同理地,重复输入计数与第四阈值以及下文的成功操作计数与第五阈值在相等的情况下也可按大于或小于的情况择一进行处理。更优的,可通过选取适当的阈值取值以避免等于的情况出现。
参见图2,是本发明提供的唤醒语音服务的方法的另一个实施例的方法流程图。本实施例在图1所示实施例的基础上进一步加入步骤S21~S23。
如图2所示,本实施例在步骤S17之后,还包括:
S21,判断唤醒语音服务后是否成功进行了语音操作。若成功进行了语音操作,则增加成功操作计数。若未成功进行语音操作,则减少所述成功操作计数。
S22,当所述成功操作计数大于预先设置的第五阈值,并且所述语音的声学特征未被存储于备选唤醒词库时,将所述语音的声学特征存入备选唤醒词库中。
S23,当所述成功操作计数小于所述第五阈值,并且所述语音的声学特征已被存储于所述备选唤醒词库时,将所述语音的声学特征从所述备选唤醒词库中删除。
在具体实施当中,当语音服务被唤醒并且用户成功进行了语音操作时,可将本次唤醒认定为有效的语音唤醒,并在多次有效唤醒后将所述语音添加到备选唤醒词库中。而当语音服务被唤醒然而用户并未进行语音操作或者输入了***无法理解的语音命令时,可将本次唤醒认定为误唤醒,减少该条语音的成功操作计数,并在成功操作计数小于一定值时,将所述语音从备选唤醒词库中删除。通过上述方式对用户的使用历史进行记录,在唤醒语音服务后,根据用户后续的语音操作情况来更新备选唤醒词库,有利于提高唤醒词的有效性,提高后续识别的效率,贴合用户的使用习惯。
在一种优选的实施方式当中,所述S15步骤包括:
S151,若所述第一匹配分值小于预先设置的第一阈值,但大于预先设置的第二阈值,则将所述语音的声学特征与所述备选唤醒词库中的声学特征进行匹配,获取第三匹配分值。
S152,若所述第三匹配分值大于预先设置的第六阈值,则唤醒语音服务。
S153,若所述第三匹配分值小于所述第六阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取所述第二匹配分值。
当用户输入语音的声学特征已存在于备选唤醒词库中时,用户无需反复尝试唤醒,即便发音有所偏差也可直接地、快速地唤醒语音服务。同时,结合备选唤醒词库的动态更新,可贴合用户的使用习惯,大大提高唤醒语音服务的效率。
而当输入语音的第一匹配分值小于预先设置的第一阈值,但大于预先设置的第二阈值,并且不存在于备选唤醒词库中时,则对该条语音进行记录(记录的语音用于与上一次记录语音以及下一次记录语音的比对匹配),并进入判断是否多次重复输入的处理流程,以获取所述语音重复输入的次数,当其重复输入的次数达到相应的阈值时,唤醒设备的语音服务。本实施例仅对接近标准唤醒词并且无法通过备选唤醒词库唤醒语音服务的语音进行记录,并计算其重复输入次数,有利于减少程序内存占用和计算量,提高语音唤醒服务的响应速度。
参见图3,是本发明提供的唤醒语音服务的方法的又一个实施例的方法流程图。本实施例在图1或图2所示实施例的基础上,进一步增加了步骤S41。
如图3所示,本实施例在所述步骤S16后,还包括:
S41,若所述重复输入计数在限定的时间内未发生变化,则将所述重复输入计数清零。
一般情况下,在短时间内重复输入相同或相近的语音时,才认为用户在反复尝试唤醒。若所述重复输入计数在限定的时间内未发生变化,说明当前语音与上次输入语音的时间间隔较大,不构成重复输入,可将所述重复输入计数清零,有利于进一步提高唤醒语音服务的准确性。
图中虽未画出,但在具体实施当中,图1、图2或图3所示实施例提供的唤醒语音服务的方法还包括:
若所述第一匹配分值小于所述第二阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
若所述第二匹配分值小于所述第三阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
若所述重复输入计数小于所述第四阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
若所述第一匹配分值小于所述第二阈值,说明用户的输入非常不准确,无需唤醒语音服务,并结束对该段语音的处理,继续采集新的语音。若所述第二匹配分值小于所述第三阈值,说明用户前后两次输入的语音并不相同,用户并未用相同或相近的语音反复尝试唤醒,此时可判定不可唤醒语音服务,并结束对该段语音的处理,继续采集新的语音。若所述重复输入计数小于所述第四阈值,说明用户重复录入语音的次数尚未达到唤醒语音服务的阈值,此时无需唤醒语音服务,并结束对该段语音的处理,继续采集新的语音。
参见图4,是本发明提供的唤醒语音服务的装置的一个实施例的装置结构图。本实施例的基本原理与图1所示实施例一致,本实施例中未详述之处可参见图1所示实施例中的相关描述。
如图4所示,所述唤醒语音服务的装置包括:
语音获取模块11,用于获取输入的语音。
特征提取模块12,用于提取所述语音的声学特征。
第一匹配模块13,用于将所述语音的声学特征与预先设置的标准唤醒词的声学特征进行匹配,获取第一匹配分值。
第一唤醒模块14,用于若所述第一匹配分值大于预先设置的第一阈值,则唤醒语音服务。
第二匹配模块15,用于若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值。
重复计数模块16,用于若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数。
第二唤醒模块17,用于当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务。
本发明通过对用户反复输入的匹配分值处于第一阈值和第二阈值之间的语音进行特殊处理,将本次输入语音与上次输入语音进行匹配,以获知用户是否反复输入相同或相近的语音,当用户重复输入相同或相近的语音超过一定的次数时,正常唤醒设备的语音服务,提高了用户唤醒语音服务的准确度,有利于改善用户体验。
参见图5,是本发明提供的唤醒语音服务的装置的另一个实施例的装置结构图。本实施例在图4所示实施例的基础上进一步包括:
操作计数模块21,用于判断唤醒语音服务后是否成功进行了语音操作。若成功进行了语音操作,则增加成功操作计数。若未成功进行语音操作,则减少所述成功操作计数。
词库增添模块22,用于当所述成功操作计数大于预先设置的第五阈值,并且所述语音的声学特征未被存储于备选唤醒词库时,将所述语音的声学特征存入备选唤醒词库中。
词库删减模块23,用于当所述成功操作计数小于所述第五阈值,并且所述语音的声学特征已被存储于所述备选唤醒词库时,将所述语音的声学特征从所述备选唤醒词库中删除。
在一种优选的实施方式当中,所述第二匹配模块15包括:
第一匹配单元151,用于若所述第一匹配分值小于预先设置的第一阈值,但大于预先设置的第二阈值,则将所述语音的声学特征与所述备选唤醒词库中的声学特征进行匹配,获取第三匹配分值。
第一唤醒单元152,用于若所述第三匹配分值大于预先设置的第六阈值,则唤醒语音服务。
第二匹配单元153,用于若所述第三匹配分值小于所述第六阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取所述第二匹配分值。
本发明在唤醒语音服务后,根据后续的语音操作情况来更新备选唤醒词库,当用户成功进行了语音操作时,将其认定为有效的语音唤醒,并在多次有效唤醒后将所述语音添加到备选唤醒词库中。而在未成功进行语音操作时,将其认定为误唤醒,减少该语音的成功操作计数,并在成功操作计数小于一定值时,将所述语音从备选唤醒词库中删除,提高了备选唤醒词的有效性。在后续的语音唤醒中本发明还利用所述备选唤醒词库中的历史记录,对匹配分值处于第一阈值和第二阈值之间的语音进行匹配识别,有利于提高识别的效率和准确性。
参见图6,是本发明提供的唤醒语音服务的装置的又一个实施例的装置结构图。本实施例在图4或图5所示实施例的基础上进一步包括:
计数清零模块41,用于若所述重复输入计数在限定的时间内未发生变化,则将所述重复输入计数清零。
当用户输入语音的声学特征已存在于备选唤醒词库中时,用户无需反复尝试唤醒,即便发音有所偏差也可直接地、快速地唤醒语音服务。同时,结合备选唤醒词库的动态更新,可大大提高唤醒语音服务的效率。
图中虽未画出,但在具体实施当中,如图4、图5或图6所示实施例提供的唤醒语音服务的装置还包括:
第一重试模块,用于若所述第一匹配分值小于所述第二阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
第二重试模块,用于若所述第二匹配分值小于所述第三阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
第三重试模块,用于若所述重复输入计数小于所述第四阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种唤醒语音服务的方法,其特征在于,包括:
获取输入的语音;
提取所述语音的声学特征;
将所述语音的声学特征与预先设置的标准唤醒词的声学特征进行匹配,获取第一匹配分值;
若所述第一匹配分值大于预先设置的第一阈值,则唤醒语音服务;
若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值;
若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数;
当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务。
2.如权利要求1所述的唤醒语音服务的方法,其特征在于,在所述当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务之后,还包括:
判断唤醒语音服务后是否成功进行了语音操作;若成功进行了语音操作,则增加成功操作计数;若未成功进行语音操作,则减少所述成功操作计数;
当所述成功操作计数大于预先设置的第五阈值,并且所述语音的声学特征未被存储于备选唤醒词库时,将所述语音的声学特征存入备选唤醒词库中;
当所述成功操作计数小于所述第五阈值,并且所述语音的声学特征已被存储于所述备选唤醒词库时,将所述语音的声学特征从所述备选唤醒词库中删除。
3.如权利要求2所述的唤醒语音服务的方法,其特征在于,所述若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值,具体为:
若所述第一匹配分值小于预先设置的第一阈值,但大于预先设置的第二阈值,则将所述语音的声学特征与所述备选唤醒词库中的声学特征进行匹配,获取第三匹配分值;
若所述第三匹配分值大于预先设置的第六阈值,则唤醒语音服务;
若所述第三匹配分值小于所述第六阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取所述第二匹配分值。
4.如权利要求1所述的唤醒语音服务的方法,其特征在于,在所述若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数之后,还包括:
若所述重复输入计数在限定的时间内未发生变化,则将所述重复输入计数清零。
5.如权利要求1到4任一项所述的唤醒语音服务的方法,其特征在于,所述方法还包括:
若所述第一匹配分值小于所述第二阈值,则判定不可唤醒语音服务,并重新获取输入的语音;
若所述第二匹配分值小于所述第三阈值,则判定不可唤醒语音服务,并重新获取输入的语音;
若所述重复输入计数小于所述第四阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
6.一种唤醒语音服务的装置,其特征在于,包括:
语音获取模块,用于获取输入的语音;
特征提取模块,用于提取所述语音的声学特征;
第一匹配模块,用于将所述语音的声学特征与预先设置的标准唤醒词的声学特征进行匹配,获取第一匹配分值;
第一唤醒模块,用于若所述第一匹配分值大于预先设置的第一阈值,则唤醒语音服务;
第二匹配模块,用于若所述第一匹配分值小于所述第一阈值,但大于预先设置的第二阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取第二匹配分值;
重复计数模块,用于若所述第二匹配分值大于预先设置的第三阈值,则增加重复输入计数;
第二唤醒模块,用于当所述重复输入计数大于预先设置的第四阈值时,唤醒语音服务。
7.如权利要求6所述的唤醒语音服务的装置,其特征在于,所述装置还包括:
操作计数模块,用于判断唤醒语音服务后是否成功进行了语音操作;若成功进行了语音操作,则增加成功操作计数;若未成功进行语音操作,则减少所述成功操作计数;
词库增添模块,用于当所述成功操作计数大于预先设置的第五阈值,并且所述语音的声学特征未被存储于备选唤醒词库时,将所述语音的声学特征存入备选唤醒词库中;
词库删减模块,用于当所述成功操作计数小于所述第五阈值,并且所述语音的声学特征已被存储于所述备选唤醒词库时,将所述语音的声学特征从所述备选唤醒词库中删除。
8.如权利要求7所述的唤醒语音服务的装置,其特征在于,所述第二匹配模块包括:
第一匹配单元,用于若所述第一匹配分值小于预先设置的第一阈值,但大于预先设置的第二阈值,则将所述语音的声学特征与所述备选唤醒词库中的声学特征进行匹配,获取第三匹配分值;
第一唤醒单元,用于若所述第三匹配分值大于预先设置的第六阈值,则唤醒语音服务;
第二匹配单元,用于若所述第三匹配分值小于所述第六阈值,则对所述语音进行记录,并将本次记录语音的声学特征与上一次记录语音的声学特征进行匹配,获取所述第二匹配分值。
9.如权利要求6所述的唤醒语音服务的装置,其特征在于,所述装置还包括:
计数清零模块,用于若所述重复输入计数在限定的时间内未发生变化,则将所述重复输入计数清零。
10.如权利要求6到9任一项所述的唤醒语音服务的装置,其特征在于,所述装置还包括:
第一重试模块,用于若所述第一匹配分值小于所述第二阈值,则判定不可唤醒语音服务,并重新获取输入的语音;
第二重试模块,用于若所述第二匹配分值小于所述第三阈值,则判定不可唤醒语音服务,并重新获取输入的语音;
第三重试模块,用于若所述重复输入计数小于所述第四阈值,则判定不可唤醒语音服务,并重新获取输入的语音。
CN201610656147.5A 2016-08-11 2016-08-11 一种唤醒语音服务的方法和装置 Active CN106297777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610656147.5A CN106297777B (zh) 2016-08-11 2016-08-11 一种唤醒语音服务的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610656147.5A CN106297777B (zh) 2016-08-11 2016-08-11 一种唤醒语音服务的方法和装置

Publications (2)

Publication Number Publication Date
CN106297777A true CN106297777A (zh) 2017-01-04
CN106297777B CN106297777B (zh) 2019-11-22

Family

ID=57669603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610656147.5A Active CN106297777B (zh) 2016-08-11 2016-08-11 一种唤醒语音服务的方法和装置

Country Status (1)

Country Link
CN (1) CN106297777B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910496A (zh) * 2017-02-28 2017-06-30 广东美的制冷设备有限公司 智能家电控制方法和装置
CN107358954A (zh) * 2017-08-29 2017-11-17 成都启英泰伦科技有限公司 一种实时更换唤醒词的设备及方法
CN107622770A (zh) * 2017-09-30 2018-01-23 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN107919124A (zh) * 2017-12-22 2018-04-17 北京小米移动软件有限公司 设备唤醒方法及装置
CN108320733A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108509225A (zh) * 2018-03-28 2018-09-07 联想(北京)有限公司 一种信息处理方法及电子设备
CN108538293A (zh) * 2018-04-27 2018-09-14 青岛海信电器股份有限公司 语音唤醒方法、装置及智能设备
CN108766422A (zh) * 2018-04-02 2018-11-06 青岛海尔科技有限公司 语音设备的响应方法、装置、存储介质及计算机设备
CN108777142A (zh) * 2018-06-05 2018-11-09 上海木木机器人技术有限公司 一种基于机场环境的语音交互识别方法及语音交互机器人
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
CN109410952A (zh) * 2018-10-26 2019-03-01 北京蓦然认知科技有限公司 一种语音唤醒方法、装置及***
CN110046045A (zh) * 2019-04-03 2019-07-23 百度在线网络技术(北京)有限公司 语音唤醒的数据包处理方法和装置
CN110111789A (zh) * 2019-05-07 2019-08-09 百度国际科技(深圳)有限公司 语音交互方法、装置、计算设备和计算机可读介质
CN110166985A (zh) * 2019-05-28 2019-08-23 阿里巴巴集团控股有限公司 一种服务唤起方法及应用客户端
CN110211605A (zh) * 2019-05-24 2019-09-06 珠海多士科技有限公司 智能设备语音灵敏度调节方法、装置、设备和存储介质
CN110265018A (zh) * 2019-07-01 2019-09-20 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
CN110444210A (zh) * 2018-10-25 2019-11-12 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
CN110600029A (zh) * 2019-09-17 2019-12-20 苏州思必驰信息科技有限公司 用于智能语音设备的自定义唤醒方法和装置
CN110706703A (zh) * 2019-10-16 2020-01-17 珠海格力电器股份有限公司 一种语音唤醒方法、装置、介质和设备
CN111081251A (zh) * 2019-11-27 2020-04-28 云知声智能科技股份有限公司 语音唤醒方法及装置
CN111192588A (zh) * 2019-12-31 2020-05-22 深圳市瑞讯云技术有限公司 一种***唤醒方法及装置
CN111235820A (zh) * 2018-11-29 2020-06-05 青岛海尔洗衣机有限公司 用于衣物处理设备的控制方法
CN111309283A (zh) * 2020-03-25 2020-06-19 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质
CN111524528A (zh) * 2020-05-28 2020-08-11 Oppo广东移动通信有限公司 防录音检测的语音唤醒方法及装置
CN112086096A (zh) * 2019-06-14 2020-12-15 北京京东尚科信息技术有限公司 数据处理方法、装置、***、介质
CN112102821A (zh) * 2019-06-18 2020-12-18 北京京东尚科信息技术有限公司 应用于电子设备的数据处理方法、装置、***、介质
US10931814B2 (en) 2019-05-28 2021-02-23 Advanced New Technologies Co., Ltd. Service recommendation
CN112908330A (zh) * 2021-03-04 2021-06-04 深圳市云希谷科技有限公司 终端设备的语音唤醒方法、装置及计算机可读存储介质
CN113113007A (zh) * 2021-03-30 2021-07-13 北京金山云网络技术有限公司 语音数据的处理方法和装置、电子设备和存储介质
CN113590207A (zh) * 2021-07-30 2021-11-02 思必驰科技股份有限公司 提升唤醒效果的方法和装置
CN113963695A (zh) * 2021-10-13 2022-01-21 深圳市欧瑞博科技股份有限公司 一种智能设备的唤醒方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999161A (zh) * 2012-11-13 2013-03-27 安徽科大讯飞信息科技股份有限公司 一种语音唤醒模块的实现方法及应用
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照***
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
US8918319B2 (en) * 2011-06-03 2014-12-23 National Chiao University Speech recognition device and speech recognition method using space-frequency spectrum
CN105141919A (zh) * 2015-09-01 2015-12-09 武汉同迅智能科技有限公司 一种语音远程控制的监控终端装置
CN105261368A (zh) * 2015-08-31 2016-01-20 华为技术有限公司 一种语音唤醒方法及装置
US20160086603A1 (en) * 2012-06-15 2016-03-24 Cypress Semiconductor Corporation Power-Efficient Voice Activation
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN105741838A (zh) * 2016-01-20 2016-07-06 百度在线网络技术(北京)有限公司 语音唤醒方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918319B2 (en) * 2011-06-03 2014-12-23 National Chiao University Speech recognition device and speech recognition method using space-frequency spectrum
US20160086603A1 (en) * 2012-06-15 2016-03-24 Cypress Semiconductor Corporation Power-Efficient Voice Activation
CN102999161A (zh) * 2012-11-13 2013-03-27 安徽科大讯飞信息科技股份有限公司 一种语音唤醒模块的实现方法及应用
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照***
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN105261368A (zh) * 2015-08-31 2016-01-20 华为技术有限公司 一种语音唤醒方法及装置
CN105141919A (zh) * 2015-09-01 2015-12-09 武汉同迅智能科技有限公司 一种语音远程控制的监控终端装置
CN105741838A (zh) * 2016-01-20 2016-07-06 百度在线网络技术(北京)有限公司 语音唤醒方法及装置

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157542A1 (zh) * 2017-02-28 2018-09-07 广东美的制冷设备有限公司 智能家电控制方法和装置
CN106910496A (zh) * 2017-02-28 2017-06-30 广东美的制冷设备有限公司 智能家电控制方法和装置
CN107358954A (zh) * 2017-08-29 2017-11-17 成都启英泰伦科技有限公司 一种实时更换唤醒词的设备及方法
CN107622770B (zh) * 2017-09-30 2021-03-16 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN107622770A (zh) * 2017-09-30 2018-01-23 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN108320733B (zh) * 2017-12-18 2022-01-04 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108320733A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN107919124A (zh) * 2017-12-22 2018-04-17 北京小米移动软件有限公司 设备唤醒方法及装置
CN108509225A (zh) * 2018-03-28 2018-09-07 联想(北京)有限公司 一种信息处理方法及电子设备
CN108509225B (zh) * 2018-03-28 2021-07-16 联想(北京)有限公司 一种信息处理方法及电子设备
US11194378B2 (en) 2018-03-28 2021-12-07 Lenovo (Beijing) Co., Ltd. Information processing method and electronic device
CN108766422A (zh) * 2018-04-02 2018-11-06 青岛海尔科技有限公司 语音设备的响应方法、装置、存储介质及计算机设备
CN108766422B (zh) * 2018-04-02 2020-09-15 青岛海尔科技有限公司 语音设备的响应方法、装置、存储介质及计算机设备
CN108538293A (zh) * 2018-04-27 2018-09-14 青岛海信电器股份有限公司 语音唤醒方法、装置及智能设备
CN108777142A (zh) * 2018-06-05 2018-11-09 上海木木机器人技术有限公司 一种基于机场环境的语音交互识别方法及语音交互机器人
CN108899028A (zh) * 2018-06-08 2018-11-27 广州视源电子科技股份有限公司 语音唤醒方法、搜索方法、装置和终端
CN110444210A (zh) * 2018-10-25 2019-11-12 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
CN110444210B (zh) * 2018-10-25 2022-02-08 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
CN109410952A (zh) * 2018-10-26 2019-03-01 北京蓦然认知科技有限公司 一种语音唤醒方法、装置及***
CN109410952B (zh) * 2018-10-26 2020-02-28 北京蓦然认知科技有限公司 一种语音唤醒方法、装置及***
CN111235820A (zh) * 2018-11-29 2020-06-05 青岛海尔洗衣机有限公司 用于衣物处理设备的控制方法
CN110046045A (zh) * 2019-04-03 2019-07-23 百度在线网络技术(北京)有限公司 语音唤醒的数据包处理方法和装置
CN110111789B (zh) * 2019-05-07 2022-02-08 阿波罗智联(北京)科技有限公司 语音交互方法、装置、计算设备和计算机可读介质
CN110111789A (zh) * 2019-05-07 2019-08-09 百度国际科技(深圳)有限公司 语音交互方法、装置、计算设备和计算机可读介质
CN110211605A (zh) * 2019-05-24 2019-09-06 珠海多士科技有限公司 智能设备语音灵敏度调节方法、装置、设备和存储介质
TWI717190B (zh) * 2019-05-28 2021-01-21 開曼群島商創新先進技術有限公司 服務喚起方法及應用客戶端
US10931814B2 (en) 2019-05-28 2021-02-23 Advanced New Technologies Co., Ltd. Service recommendation
CN110166985A (zh) * 2019-05-28 2019-08-23 阿里巴巴集团控股有限公司 一种服务唤起方法及应用客户端
CN112086096A (zh) * 2019-06-14 2020-12-15 北京京东尚科信息技术有限公司 数据处理方法、装置、***、介质
CN112086096B (zh) * 2019-06-14 2024-04-05 北京京东尚科信息技术有限公司 数据处理方法、装置、***、介质
CN112102821A (zh) * 2019-06-18 2020-12-18 北京京东尚科信息技术有限公司 应用于电子设备的数据处理方法、装置、***、介质
CN112102821B (zh) * 2019-06-18 2024-01-12 北京京东尚科信息技术有限公司 应用于电子设备的数据处理方法、装置、***、介质
CN110265018A (zh) * 2019-07-01 2019-09-20 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
CN110600029A (zh) * 2019-09-17 2019-12-20 苏州思必驰信息科技有限公司 用于智能语音设备的自定义唤醒方法和装置
CN110706703A (zh) * 2019-10-16 2020-01-17 珠海格力电器股份有限公司 一种语音唤醒方法、装置、介质和设备
CN111081251B (zh) * 2019-11-27 2022-03-04 云知声智能科技股份有限公司 语音唤醒方法及装置
CN111081251A (zh) * 2019-11-27 2020-04-28 云知声智能科技股份有限公司 语音唤醒方法及装置
CN111192588A (zh) * 2019-12-31 2020-05-22 深圳市瑞讯云技术有限公司 一种***唤醒方法及装置
CN111192588B (zh) * 2019-12-31 2022-09-09 深圳市瑞讯云技术有限公司 一种***唤醒方法及装置
CN111309283B (zh) * 2020-03-25 2023-12-05 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质
CN111309283A (zh) * 2020-03-25 2020-06-19 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质
CN111524528A (zh) * 2020-05-28 2020-08-11 Oppo广东移动通信有限公司 防录音检测的语音唤醒方法及装置
CN112908330A (zh) * 2021-03-04 2021-06-04 深圳市云希谷科技有限公司 终端设备的语音唤醒方法、装置及计算机可读存储介质
CN112908330B (zh) * 2021-03-04 2022-08-09 深圳市云希谷科技有限公司 终端设备的语音唤醒方法、装置及计算机可读存储介质
CN113113007A (zh) * 2021-03-30 2021-07-13 北京金山云网络技术有限公司 语音数据的处理方法和装置、电子设备和存储介质
CN113590207A (zh) * 2021-07-30 2021-11-02 思必驰科技股份有限公司 提升唤醒效果的方法和装置
CN113963695A (zh) * 2021-10-13 2022-01-21 深圳市欧瑞博科技股份有限公司 一种智能设备的唤醒方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106297777B (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN106297777A (zh) 一种唤醒语音服务的方法和装置
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
KR102437944B1 (ko) 음성 웨이크업 방법 및 장치
EP3617946B1 (en) Context acquisition method and device based on voice interaction
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
CN108958810A (zh) 一种基于声纹的用户识别方法、装置及设备
CN109326289A (zh) 免唤醒语音交互方法、装置、设备及存储介质
CN108766418A (zh) 语音端点识别方法、装置及设备
CN109741754A (zh) 一种会议语音识别方法及***、存储介质及终端
CN107545897A (zh) 对话行为推定方法、对话行为推定装置以及程序
CN107316635B (zh) 语音识别方法及装置、存储介质、电子设备
WO2021151310A1 (zh) 语音通话的噪声消除方法、装置、电子设备及存储介质
CN109086276B (zh) 数据翻译方法、装置、终端及存储介质
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
TWI835838B (zh) 語音處理方法及裝置
CN111083678B (zh) 蓝牙音箱的播放控制方法、***及智能设备
CN109801636A (zh) 声纹识别模型的训练方法、装置、电子设备及存储介质
CN111508474A (zh) 一种语音打断方法、电子设备及存储装置
CN110459222A (zh) 语音控制方法、语音控制装置及终端设备
CN108320738A (zh) 语音数据处理方法及装置、存储介质、电子设备
CN105469789A (zh) 一种语音信息的处理方法及终端
CN110634468B (zh) 语音唤醒方法、装置、设备及计算机可读存储介质
CN109242555B (zh) 基于语音的广告播放方法及相关产品
CN110070857A (zh) 语音唤醒模型的模型参数调整方法及装置、语音设备
CN108920640A (zh) 基于语音交互的上下文获取方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant