CN108538298B - 语音唤醒方法及装置 - Google Patents

语音唤醒方法及装置 Download PDF

Info

Publication number
CN108538298B
CN108538298B CN201810298845.1A CN201810298845A CN108538298B CN 108538298 B CN108538298 B CN 108538298B CN 201810298845 A CN201810298845 A CN 201810298845A CN 108538298 B CN108538298 B CN 108538298B
Authority
CN
China
Prior art keywords
user
interaction
information
state
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810298845.1A
Other languages
English (en)
Other versions
CN108538298A (zh
Inventor
宋亚楠
潘嘉
吴国兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201810298845.1A priority Critical patent/CN108538298B/zh
Publication of CN108538298A publication Critical patent/CN108538298A/zh
Priority to KR1020207028374A priority patent/KR102437944B1/ko
Priority to RU2020132137A priority patent/RU2760368C1/ru
Priority to JP2020545333A priority patent/JP7114721B2/ja
Priority to EP19782046.7A priority patent/EP3779972A4/en
Priority to PCT/CN2019/073417 priority patent/WO2019192250A1/zh
Application granted granted Critical
Publication of CN108538298B publication Critical patent/CN108538298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供了一种语音唤醒方法及装置,属于计算机应用技术领域。该方法包括:基于用户交互状态确定实时唤醒词库,实时唤醒词库用于下一次交互流程;获取用户输入的语音信号,基于实时唤醒词库及语音信号进行唤醒。由于在上一次交互流程中断后,可基于实时唤醒词库进行唤醒,再次进行唤醒时能够给予用户休眠无感知的用户体验,从而使得用户能够直接衔接休眠之前的交互场景,而不用重复之前已经执行过的交互流程。因此,可降低交互成本,并提高用户体验。

Description

语音唤醒方法及装置
技术领域
本发明实施例涉及计算机应用技术领域,更具体地,涉及一种语音唤醒方法及装置。
背景技术
随着语音交互技术的逐步发展,越来越多的智能终端具有了语音唤醒功能,即通过理解用户语音数据的语音信息,从而达到唤醒智能终端的目的。相关技术中提供了一种语音唤醒方法,主要是由用户预先设置好唤醒词,在接收到语音信号后,判断语音信号与唤醒词是否匹配。若两者匹配,则唤醒处于休眠状态的智能设备;若两者不匹配,则不进行唤醒。其中,智能设备被唤醒后即开始交互流程。若交互流程中出现了中断,则需要重新唤醒智能设备,并从头开始交互流程。
由于交互流程出现中断后,需重新唤醒智能设备并从头开始交互流程,若用户在中断结束后希望恢复中断前的交互环节,而之前的交互环节在中断前都已经执行过了,从而会增加交互成本,降低用户的交互体验。
发明内容
为克服上述问题或者至少部分地解决上述问题,本发明实施例提供了一种语音唤醒装置及方法,用于解决相关技术中交互流程中断后唤醒时重新执行交互流程的缺陷,实现继续休眠之前的交互流程。
根据本发明实施例的第一方面,提供了一种语音唤醒方法,该方法包括:
基于用户交互状态确定实时唤醒词库,所述实时唤醒词库用于下一次交互流程;
获取用户输入的语音信号,基于所述实时唤醒词库及所述语音信号进行唤醒。
根据本发明实施例的第二方面,提供了一种语音唤醒装置,该装置包括:
第一确定模块,用于基于用户交互状态确定实时唤醒词库,所述实时唤醒词库用于下一次交互流程;
唤醒模块,用于获取用户输入的语音信号,基于所述实时唤醒词库及所述语音信号进行唤醒。
根据本发明实施例的第三方面,提供了一种语音唤醒设备,该设备包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面所提供的语音唤醒方法。
根据本发明实施例的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面所提供的语音唤醒方法。
本发明实施例提供的方法,通过基于用户交互状态确定实时唤醒词库,获取用户输入的语音信号,基于所述实时唤醒词库及所述语音信号进行唤醒。由于在上一次交互流程中断后,可基于实时唤醒词库进行唤醒,再次进行唤醒时能够给予用户休眠无感知的用户体验,从而使得用户能够直接衔接休眠之前的交互场景,而不用重复之前已经执行过的交互流程。因此,可降低交互成本,并提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音唤醒方法的流程示意图;
图2为本发明另一实施例提供的一种语音唤醒方法的流程示意图;
图3为本发明又一实施例提供的一种语音唤醒方法的流程示意图;
图4为本发明一实施例提供的一种唤醒网络的结构示意图;
图5为本发明一实施例提供的一种语音唤醒装置的结构示意图;
图6为本发明一实施例提供的一种语音唤醒设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
语音唤醒是通过理解用户的语音信号,以实现唤醒智能设备的目的。相关技术中的唤醒过程可参考如下示例:以智能设备为智能音箱,用户预先生成的唤醒词为“叮咚叮咚”为例,若智能音箱检测到用户输入“叮咚叮咚”的语音信号(即没有语义的语音信号,该语音信号仅用于唤醒智能音箱),则可以开始与用户交互,具体交互流程可以如下:
用户:叮咚叮咚。
智能音箱:您想要我做什么?
用户:来首歌曲给我听。
智能音箱:好的,您有没有特别喜欢的歌手或者歌曲?
用户:我想听周杰伦。
智能音箱:要指定周杰伦的哪首歌吗?......
当智能音箱问完“要指定周杰伦的哪首歌吗?”后,若智能音箱在一段时间内得不到用户对该问题的正确响应,则智能音箱可以随机播放一首周杰伦的歌曲,而后进入休眠状态。其中,得不到正确响应的情况可以分为预设时间段内没有接收到响应,或者预设时间段内接收到与提问不相关的响应(即答非所问)。智能音箱在进入休眠状态后,若用户需要重新唤醒智能音箱,则需说“叮咚叮咚”并重新开始交互流程。此时,若用户唤醒智能音箱的目的是听周杰伦的歌曲,则需要重新进行如下交互流程:
用户:叮咚叮咚。
智能音箱:您想要我做什么?
用户:来首歌曲给我听。
智能音箱:好的,您有没有特别喜欢的歌手或者歌曲?
用户:我想听周杰伦。
由此可见,上述交互流程是重复的。针对上述情形,本发明实施例提供了一种语音唤醒方法。该方法的执行主体可以为智能设备,智能设备可以为穿戴设备、车载设备、移动设备、PC、智能家电等,本发明实施例对此不作具体限定。该方法可应用于不同交互场景,如家电使用场景、客服交互场景、购票场景等,本发明实施例对此也不作具体限定。参见图1,该方法包括:101、基于用户交互状态确定实时唤醒词库,实时唤醒词库用于下一次交互流程;102、获取用户输入的语音信号,基于实时唤醒词库及语音信号进行唤醒。
在执行步骤101之前,智能设备已经被用户唤醒过并与用户发起了交互流程,即为上一次交互流程。在上一次交互流程中,智能设备可通过已定义的唤醒词库唤醒智能设备。其中,已定义的唤醒词库可作为原始唤醒词库。原始唤醒词库可以是智能设备出厂自动设置的,也可通过如下方式生成:先由智能设备接收用户输入的唤醒词文本或语音信号;其中,唤醒词文本是可以由用户预先定义并由用户确认后得到的,语音信号可以为有意义的语音,也可以为无意义的语音。
若智能设备接收到的是唤醒词文本,则对唤醒词文本进行分词;根据每一分词与音素之间的映射列表,确定唤醒词的音素或马尔可夫状态级序列;调用唤醒词库生成程序,基于音素或状态级序列,生成原始唤醒词库;用户在确定新的唤醒词后,应用原始唤醒词库可唤醒智能设备。
若智能设备接收到的是语音信号,则可先提取语音信号的声学特征,如filterbank特征;构建音素或状态级解码词库,调用声学模型在音素或状态级解码词库上对声学特征进行解码,得到唤醒词的音素或状态级序列;调用唤醒词库生成程序,基于音素或状态级序列,生成原始唤醒词库。
智能设备可能在上一次交互流程的某一环节中没有收到用户的正确响应,从而进入了休眠状态。智能设备在进入休眠状态后,可确定当前的用户交互状态。其中,用户交互状态可分为两种,第一种是在下一次交互流程中,用户希望继续休眠之前的上一次交互流程;第二种是在下一次交互流程中,用户希望开启新的交互流程。在确定实时唤醒词库后,可获取用户输入的语音信号,并基于实时唤醒词库及语音信号进行唤醒。
本发明实施例提供的方法,通过基于用户交互状态确定实时唤醒词库,获取用户输入的语音信号,基于实时唤醒词库及语音信号进行唤醒。由于在上一次交互流程中断后,可基于实时唤醒词库进行唤醒,再次进行唤醒时能够给予用户休眠无感知的用户体验,从而使得用户能够直接衔接休眠之前的交互场景,而不用重复之前已经执行过的交互流程。因此,可降低交互成本,并提高用户体验。
基于上述实施例的内容,本发明实施例提供了一种基于用户交互状态确定实时唤醒词库的方法,包括:若用户交互状态为继续休眠之前的上一次交互流程,则获取上一次交互流程的第一交互信息中的关键词,并将关键词添加至原始唤醒词库,得到实时唤醒词库;若用户交互状态为重新开始交互流程,则将原始唤醒词库作为实时唤醒词库。
具体地,若用户交互状态为继续休眠之前的上一次交互流程,则可根据关键词信息规则,获取上一次交互流程的第一交互信息中的关键词。在获取上一次交互流程的第一交互信息中的关键词时,第一交互信息可以为上一次交互流程中不同交互环节所涉及到的交互信息,还可以为上一次交互流程中基于用户需求获取到的信息,本发明实施例对此不作具体限定。关键词可以为休眠过程之前的交互流程中不同交互环节所涉及到的名词及动词,也可以为根据交互环节中用户提出的问题所搜索得到的名词,本发明实施例对此也不作具体限定。将关键词添加至原始唤醒词库,可得到实时唤醒词库。在获取用户输入的语音信号后,可基于实时唤醒词库及语音信号进行唤醒。
例如,以智能设备为智能音箱为例,休眠之前的上一次交互流程可参考上述示例。相应地,关键词可以为交互流程中不同交互环节所涉及到的名词及动词,如“听”、“周杰伦”、“歌曲”等,还可以为根据交互环节中用户提出的问题所搜索得到的名词,如搜索到周杰伦对应曲库中的曲名“简单爱”、“***”等。通过上述关键词可确定实时唤醒词库,当用户输入语音信号时,如“周杰伦”,可通过实时唤醒词库可对语音信号进行识别,从而基于识别结果可唤醒智能设备并继续休眠之前的上一次交互流程,并确定接下来的操作为播放周杰伦的歌曲,而非介绍周杰伦的相关履历资料。由于在构建实时唤醒词库时,还使用了交互环节中用户提出的问题所搜索得到的名词作为关键词,如曲名“简单爱”,从而当用户输入的语音信号为“播放简单爱”,则同样可以唤醒智能设备并播放歌曲《简单爱》。另外,当用户输入的语音信号为“听简单爱”或“简单爱”时,同样可播放歌曲《简单爱》。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据关键词信息规则,获取上一次交互流程的第一交互信息中的关键词的方式作具体限定,包括但不限于:根据词性和/或句子成分,获取上一次交互流程的第一交互信息中的关键词。
其中,关键词信息规则可以为从第一交互信息中选取关键词的选取规则。具体地,关键词信息规则可为按照词性和/或句子成分选取,如按照词性选取名词、形容词等,和/或按照句子成分选取谓语、宾语等,本发明实施例不对关键词信息规则的内容作具体限定。
基于上述实施例的内容,作为一种可选实施例,第一交互信息包括以下三种信息中的任意一种,以下三种信息分别为用户指令信息、机器回复信息及查询信息。其中,用户指令信息为用户在与智能设备进行交互时用户下达的指令或提出的问题,机器回复信息为智能设备根据用户下达的指令或提出的问题所回复的信息,查询信息为智能设备基于用户需求所查询到的信息。在根据关键词信息规则获取交互信息中的关键词之后,可基于关键词构建唤醒词库。需要说明的是,获取关键词的过程可提前执行,从而可提高对原始唤醒词库进行更新的速度。
需要说明的是,在提取关键词之前,还可先基于交互场景训练语义理解模型,提取交互信息的摘要信息,再基于关键词信息规则,从摘要信息中提取关键词,本发明实施例对此不作具体限定。
在获取第一交互信息中的关键词之后,还可对关键词进行同义拓展,从而基于关键词及同义拓展的关键词确定实时唤醒词库。此时,实时唤醒词库中除了包含第一交互信息中关键词的内容之外,还包含有拓展关键词的内容,从而后续用户在输入与休眠之前的第一交互信息之间语义相关的语音信号时,也能够识别出来并进行唤醒,从而增加了唤醒方式的灵活性。
基于上述实施例的内容,在执行步骤101之前,作为一种可选实施例,本发明实施例还提供了一种确定用户交互状态的方法,包括:基于用户状态特征及交互逻辑特征,确定用户交互状态。
其中,用户状态特征用于表示交互时的用户状态,交互逻辑特征用于表示交互时的交互逻辑。具体地,用户状态特征可用于描述用户与智能设备交互时的响应时间,以及智能设备获取用户响应时用户所处的状态;交互逻辑特征可用于描述智能设备休眠之前接收到的语音信号的语义与提问是否相关。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对基于用户状态特征及交互逻辑特征,确定用户交互状态的方式作具体限定,包括但不限于如下两种方式:将用户状态特征及交互逻辑特征输入至交互状态预测模型,输出用户交互状态;或者,将用户状态特征及交互逻辑特征进行规整,根据规整结果确定用户交互状态。
对于上述第一种方式,交互状态预测模型可由用户状态的样本特征及交互逻辑的样本特征进行训练后得到。具体地,可预先分别确定用户在不同交互状态下的用户状态特征及交互逻辑特征。也即,当用户希望继续休眠之前的交互流程时,确定此时的用户状态特征及交互逻辑特征。当用户希望开启新的交互流程时,确定此时的用户状态特征及交互逻辑特征。将用户在不同交互状态下的用户状态特征及交互逻辑特征作为样本特征,将样本特征作为初始模型的输入,将用户的交互状态作为输出,即可对初始模型训练得到交互状态预测模型。在训练得到交互状态预测模型后,通过训练得到的交互状态预测模型即可确定用户交互状态。
对于上述第二种方式,由于用户状态特征与交互逻辑特征可能是不同维度的数据,从而可先将用户状态特征及交互逻辑特征进行规整,规整成相同维度的数据;再将规整后的用户状态特征及交互逻辑特征进行加权求和后,若求和结果为大于预设阈值,则可说明休眠之前的交互流程已经完成,用户下次希望开启新的交互流程。若求和结果不大于预设阈值,则说明休眠之前的交互流程未完成,用户下次希望继续休眠之前的交互流程。其中,预设阈值可根据需求进行设置,本发明实施例对此不作具体限定。
基于上述实施例的内容,作为一种可选实施例,用户状态特征及交互逻辑特征中均可以包含多种信息;其中,用户状态特征包括以下五种信息中的至少任意一种,以下五种信息分别为用户响应时长、用户距离、用户肢体状态、用户面部状态及用户身份;交互逻辑特征包括以下两种信息中的至少任意一种,以下两种信息分别为交互逻辑完整程度及上文交互语义相关度。
具体地,用户响应时长可以为智能设备休眠之前的上一次交互流程中最后一次交互(最后一次交互后智能设备即进入休眠)到接收到用户语音信号时的时间间隔。当然,用户响应时长也可以为智能设备进入休眠后到接收到用户语音信号时的时间间隔,或者,还可以为休眠时刻到当前时刻之间的时间间隔,本发明实施例对此不作具体限定。其中,用户响应时长越长,则用户输入的语音信号(即休眠后的响应)越有可能与休眠之前的上一次交互流程无关。
用户距离表示的是用户与智能设备之间的物理距离。其中,用户距离越大,则说明用户与智能设备相隔越远。此时,用户输入的语音信号越有可能与休眠之前的上一次交互流程无关。用户距离可根据声音到智能设备的衰减程度来估算,也可以通过红外检测的方式来估算,本发明实施例对此不作具体限定。
用户肢体状态表示的是用户的肢体动作,当用户朝向智能设备做特定的肢体动作时,如预先设定的手势动作,则说明用户输入的语音信号越有可能与休眠之前的交互流程相关。用户肢体状态可通过智能设备上的摄像头进行检测,本发明实施例对此不作具体限定。
用户面部状态可以包括面部表情和/或面部朝向,本发明实施例对此不作具体限定。以用户面部状态包括面部朝向为例,面部朝向表示的是用户人脸成像的角度。其中,用户面部朝向与智能设备所在方位越接近,则说明用户输入的语音信号越有可能与休眠之前的交互流程相关。用户面部朝向可通过加载智能设备上的摄像头,并通过人脸识别技术来确定,本发明实施例对此不作具体限定。
用户身份可以用来确定智能设备在休眠之前的上一次交互流程,与下一次交互流程中参与交互的用户是不是同一个人。若两次交互流程中参与交互的用户是同一个人,则说明用户输入的语音信号越有可能与休眠之前的上一次交互流程相关。用户身份可以通过人脸识别的方式来确定,本发明实施例对此不作具体限定。
交互逻辑完整程度表示的是智能设备在休眠之前,用户针对智能设备的提问,是否给予响应。交互逻辑完整程度与用户针对提问是否响应的程度呈正相关,用户针对提问的响应程度越高,则交互逻辑完整程度也越高。
上文交互语义相关度表示的是智能设备在休眠之前,用户针对智能设备的提问所给予的响应是否与提问相关。其中,用户给予的响应与提问越相关,则上文交互语义相关度也就越大。
需要说明的是,由上述实施例可知,在确定用户交互状态时,可通过加权求和的方式确定,也可以通过交互状态预测模型的方式确定。当通过交互状态预测模型的方式确定用户交互状态时,可将上述七种信息中的一种或多种输入至交互状态预测模型,从而输出用户交互状态。当通过加权求和的方式确定用户交互状态时,由于用户状态特征及交互逻辑特征均可以包括一种或多种信息,从而可将每种信息进行加权求和。以用户状态特征包含上述三种信息,交互逻辑特征包含上述两种信息为例,将上述不同维度的信息进行规整,将规整后的数据进行加权求和,可得到求和结果,具体过程可参考如下公式:
Y=a1*T+a2*L+a3*alpha+a4*R+a5*S+a6
在上述公式中,Y表示求和结果。T表示分段规整后的用户响应时长,L表示分段规整后的用户距离,alpha表示分段规整后的用户面部朝向,R表示交互逻辑完整程度,S表示上文交互语义相关度,a1、a2…a5分别表示各自的权重,a6为固定的加权参数。
基于上述实施例的内容,作为一种可选实施例,本发明实施例提供了一种确定上文交互语义相关度的方法。参见图2,该方法包括:201、获取上一次交互流程的第二交互信息,并提取交互信息的词向量;202、将词向量输入至问答相关度模型,输出上文交互语义相关度,问答相关度模型是基于样本交互信息进行训练后得到的。
在上述步骤201中,第二交互信息可包括用户指令信息及机器回复信息,本发明实施例对此不作具体限定。在执行步骤202之前,可预先收集大量的样本交互信息(即智能设备与用户之间的问答信息),提取样本交互信息的词向量,将词向量作为初始模型的输入,从而训练得到二分类或回归问答相关度模型。其中,模型的建模方法可以为RNN、CNN,本发明实施例对此不作具体限定。休眠之前的交互流程中的交互信息可通过预先记录及语音识别的方式获取,本发明实施例对此也不作具体限定。
基于上述实施例的内容,作为一种可选实施例,本发明实施例提供了一种基于实时唤醒词库确定实时唤醒网络的方法。参见图3,该方法包括:301、将每一关键词作为唤醒词,获取每一唤醒词对应的音素序列或马尔可夫状态序列;302、连接所有唤醒词对应的音素序列或马尔可夫状态序列,构建实时唤醒网络。
具体地,可通过“文本-音素”映射列表,将唤醒词映射为音素序列或马尔可夫状态序列。其中,序列的颗粒度可与用于解码声学特征的声学模型其建模颗粒度一致。以上述示例为基础,构建得到的实时唤醒网络的结构可如图4所示。在图4中,Keyword即为关键词。
相应地,在构建得到实时唤醒网络并生效后,基于实时唤醒网络可对语音信号进行识别,即可确定用户想要执行的指令。例如,语音信号的内容为“听简单爱”,通过实时唤醒网络即可唤醒智能设备,并触发“播放歌曲简单爱”的指令。由于休眠之前的上一次交互流程中的关键词以及同义拓展关键词均存储在实时唤醒网络中,从而可方便地继续休眠之前的上一次交互流程,而不用重新开启新的交互流程。
需要说明的是,构建得到的唤醒词库对于休眠之前的上一次交互流程是适用的,若经过此次唤醒后,智能设备又重新休眠,则之前构建的实时唤醒词库可能会不一定再次适用于唤醒。因此,在进行完本轮交互后,可删除自动构建的实时唤醒词库,并在下次重新唤醒阶段按照本发明实施例提供的方法重新生成新的实时唤醒词库。或者,若用户交互状态为重新开始交互流程,则删除之前添加的唤醒词,或直接将原始唤醒词库作为实时唤醒词库。
需要说明的是,上述所有可选实施例,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
基于上述实施例的内容,本发明实施例提供了一种语音唤醒装置,该语音唤醒装置用于执行上述方法实施例中的语音唤醒方法。参见图5,该装置包括:
第一确定模块501,用于基于用户交互状态确定实时唤醒词库,实时唤醒词库用于下一次交互流程;
唤醒模块502,用于获取用户输入的语音信号,基于实时唤醒词库及语音信号进行唤醒。
作为一种可选实施例,第一确定模块501,包括:
第一获取单元,用于当所述用户交互状态为继续休眠之前的上一次交互流程时,则根据关键词信息规则,获取上一次交互流程的第一交互信息中的关键词,并将所述关键词添加至原始唤醒词库,得到所述实时唤醒词库;
第二获取单元,用于当所述用户交互状态为重新开始交互流程时,则将所述原始唤醒词库作为所述实时唤醒词库。
作为一种可选实施例,第一获取单元,用于根据词性和/或句子成分,获取上一次交互流程的第一交互信息中的关键词。
作为一种可选实施例,第一交互信息包括以下三种信息中的任意一种,所述以下三种信息分别为用户指令信息、机器回复信息及查询信息。
作为一种可选实施例,该装置还包括:
第二确定模块,用于基于用户状态特征和/或交互逻辑特征,确定所述用户交互状态,所述用户状态特征用于表示交互时的用户状态,所述交互逻辑特征用于表示交互时的交互逻辑。
作为一种可选实施例,第二确定模块,用于将所述用户状态特征和/或所述交互逻辑特征输入至交互状态预测模型,输出所述用户交互状态;或者,将所述用户状态特征及所述交互逻辑特征进行规整,根据规整结果确定所述用户交互状态。
作为一种可选实施例,所述用户状态特征包括以下五种信息中的至少任意一种,所述以下五种信息分别为用户响应时长、用户距离、用户肢体状态、用户面部状态及用户身份;
所述交互逻辑特征包括以下两种信息中的至少任意一种,所述以下两种信息分别为交互逻辑完整程度及上文交互语义相关度。
作为一种可选实施例,该装置还包括:
获取模块,用于获取上一次交互流程的第二交互信息,并提取所述交互信息的词向量;
输出模块,用于将所述词向量输入至问答相关度模型,输出所述上文交互语义相关度,所述问答相关度模型是基于样本交互信息进行训练后得到的。
本发明实施例提供的装置,通过基于用户交互状态确定实时唤醒词库,获取用户输入的语音信号,基于实时唤醒词库及语音信号进行唤醒。由于在上一次交互流程中断后,可基于实时唤醒词库进行唤醒,再次进行唤醒时能够给予用户休眠无感知的用户体验,从而使得用户能够直接衔接休眠之前的交互场景,而不用重复之前已经执行过的交互流程。因此,可降低交互成本,并提高用户体验。
图6示例了一种语音唤醒设备的实体结构示意图,如图6所示,该设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和总线640,其中,处理器610,通信接口620,存储器630通过总线640完成相互间的通信。通信接口640可以用于服务器与智能电视之间的信息传输。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:基于用户交互状态确定实时唤醒词库,实时唤醒词库用于下一次交互流程;获取用户输入的语音信号,基于实时唤醒词库及语音信号进行唤醒。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者词库设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的语音唤醒方法,例如包括:基于用户交互状态确定实时唤醒词库,实时唤醒词库用于下一次交互流程;获取用户输入的语音信号,基于实时唤醒词库及语音信号进行唤醒。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个词库单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者词库设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (18)

1.一种语音唤醒方法,其特征在于,包括:
进入休眠状态后,确定当前的用户交互状态;
基于用户交互状态确定实时唤醒词库,所述实时唤醒词库用于下一次交互流程;
获取用户输入的语音信号,基于所述实时唤醒词库及所述语音信号进行唤醒;
其中,所述用户交互状态为继续休眠之前的上一次交互流程,或,重新开始交互流程。
2.根据权利要求1所述的方法,其特征在于,所述基于用户交互状态确定实时唤醒词库,包括:
若所述用户交互状态为继续休眠之前的上一次交互流程,则根据关键词信息规则,获取上一次交互流程的第一交互信息中的关键词,并将所述关键词添加至原始唤醒词库,得到所述实时唤醒词库;
若所述用户交互状态为重新开始交互流程,则将所述原始唤醒词库作为所述实时唤醒词库。
3.根据权利要求2所述的方法,其特征在于,所述根据关键词信息规则,获取上一次交互流程的第一交互信息中的关键词,包括:
根据词性和/或句子成分,获取上一次交互流程的第一交互信息中的关键词。
4.根据权利要求2或3所述的方法,其特征在于,所述第一交互信息包括以下三种信息中的任意一种,所述以下三种信息分别为用户指令信息、机器回复信息及查询信息。
5.根据权利要求1所述的方法,其特征在于,所述确定当前的用户交互状态,包括:
基于用户状态特征和/或交互逻辑特征,确定所述用户交互状态,所述用户状态特征用于表示交互时的用户状态,所述交互逻辑特征用于表示交互时的交互逻辑。
6.根据权利要求5所述的方法,其特征在于,所述基于用户状态特征和/或交互逻辑特征,确定所述用户交互状态,包括:
将所述用户状态特征和/或所述交互逻辑特征输入至交互状态预测模型,输出所述用户交互状态;或者,
将所述用户状态特征及所述交互逻辑特征进行规整,根据规整结果确定所述用户交互状态。
7.根据权利要求5或6所述的方法,其特征在于,所述用户状态特征包括以下五种信息中的至少任意一种,所述以下五种信息分别为用户响应时长、用户距离、用户肢体状态、用户面部状态及用户身份;
所述交互逻辑特征包括以下两种信息中的至少任意一种,所述以下两种信息分别为交互逻辑完整程度及上文交互语义相关度。
8.根据权利要求7所述的方法,其特征在于,还包括:
获取上一次交互流程的第二交互信息,并提取所述交互信息的词向量;
将所述词向量输入至问答相关度模型,输出所述上文交互语义相关度,所述问答相关度模型是基于样本交互信息进行训练后得到的。
9.一种语音唤醒装置,其特征在于,包括:
第二确定模块,用于进入休眠状态后,确定当前的用户交互状态;
第一确定模块,用于基于用户交互状态确定实时唤醒词库,所述实时唤醒词库用于下一次交互流程;
唤醒模块,用于获取用户输入的语音信号,基于所述实时唤醒词库及所述语音信号进行唤醒;
其中,所述用户交互状态为继续休眠之前的上一次交互流程,或,重新开始交互流程。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块,包括:
第一获取单元,用于当所述用户交互状态为继续休眠之前的上一次交互流程时,则根据关键词信息规则,获取上一次交互流程的第一交互信息中的关键词,并将所述关键词添加至原始唤醒词库,得到所述实时唤醒词库;
第二获取单元,用于当所述用户交互状态为重新开始交互流程时,则将所述原始唤醒词库作为所述实时唤醒词库。
11.根据权利要求10所述的装置,其特征在于,所述第一获取单元,用于根据词性和/或句子成分,获取上一次交互流程的第一交互信息中的关键词。
12.根据权利要求10或11所述的装置,其特征在于,所述第一交互信息包括以下三种信息中的任意一种,所述以下三种信息分别为用户指令信息、机器回复信息及查询信息。
13.根据权利要求9所述的装置,其特征在于,所述第二确定模块,用于:
基于用户状态特征和/或交互逻辑特征,确定所述用户交互状态,所述用户状态特征用于表示交互时的用户状态,所述交互逻辑特征用于表示交互时的交互逻辑。
14.根据权利要求13所述的装置,其特征在于,所述第二确定模块,用于将所述用户状态特征和/或所述交互逻辑特征输入至交互状态预测模型,输出所述用户交互状态;或者,将所述用户状态特征及所述交互逻辑特征进行规整,根据规整结果确定所述用户交互状态。
15.根据权利要求13或14所述的装置,其特征在于,所述用户状态特征包括以下五种信息中的至少任意一种,所述以下五种信息分别为用户响应时长、用户距离、用户肢体状态、用户面部状态及用户身份;
所述交互逻辑特征包括以下两种信息中的至少任意一种,所述以下两种信息分别为交互逻辑完整程度及上文交互语义相关度。
16.根据权利要求15所述的装置,其特征在于,还包括:
获取模块,用于获取上一次交互流程的第二交互信息,并提取所述交互信息的词向量;
输出模块,用于将所述词向量输入至问答相关度模型,输出所述上文交互语义相关度,所述问答相关度模型是基于样本交互信息进行训练后得到的。
17.一种语音唤醒设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至8任一所述的方法。
18.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至8任一所述的方法。
CN201810298845.1A 2018-04-04 2018-04-04 语音唤醒方法及装置 Active CN108538298B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201810298845.1A CN108538298B (zh) 2018-04-04 2018-04-04 语音唤醒方法及装置
KR1020207028374A KR102437944B1 (ko) 2018-04-04 2019-01-28 음성 웨이크업 방법 및 장치
RU2020132137A RU2760368C1 (ru) 2018-04-04 2019-01-28 Способ и приспособление для голосовой активации
JP2020545333A JP7114721B2 (ja) 2018-04-04 2019-01-28 音声ウェイクアップ方法及び装置
EP19782046.7A EP3779972A4 (en) 2018-04-04 2019-01-28 VOICE WAKE-UP METHOD AND APPARATUS
PCT/CN2019/073417 WO2019192250A1 (zh) 2018-04-04 2019-01-28 语音唤醒方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810298845.1A CN108538298B (zh) 2018-04-04 2018-04-04 语音唤醒方法及装置

Publications (2)

Publication Number Publication Date
CN108538298A CN108538298A (zh) 2018-09-14
CN108538298B true CN108538298B (zh) 2021-05-04

Family

ID=63481860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810298845.1A Active CN108538298B (zh) 2018-04-04 2018-04-04 语音唤醒方法及装置

Country Status (6)

Country Link
EP (1) EP3779972A4 (zh)
JP (1) JP7114721B2 (zh)
KR (1) KR102437944B1 (zh)
CN (1) CN108538298B (zh)
RU (1) RU2760368C1 (zh)
WO (1) WO2019192250A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置
CN109493861A (zh) * 2018-12-05 2019-03-19 百度在线网络技术(北京)有限公司 利用语音控制电器的方法、装置、设备和可读存储介质
CN111312235B (zh) * 2018-12-11 2023-06-30 阿里巴巴集团控股有限公司 一种语音交互方法、装置及***
CN111506289A (zh) * 2019-01-31 2020-08-07 阿里巴巴集团控股有限公司 一种数据处理方法、装置、设备和机器可读介质
CN110012166B (zh) * 2019-03-31 2021-02-19 联想(北京)有限公司 一种信息处理方法及装置
CN111754997B (zh) * 2019-05-09 2023-08-04 北京汇钧科技有限公司 控制装置及其操作方法,和语音交互装置及其操作方法
CN110164443B (zh) * 2019-06-28 2021-09-14 联想(北京)有限公司 用于电子设备的语音处理方法、装置以及电子设备
CN110718225A (zh) * 2019-11-25 2020-01-21 深圳康佳电子科技有限公司 一种语音控制方法、终端以及存储介质
CN110992953A (zh) * 2019-12-16 2020-04-10 苏州思必驰信息科技有限公司 一种语音数据处理方法、装置、***及存储介质
CN110970036B (zh) * 2019-12-24 2022-07-12 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备
CN111161726B (zh) * 2019-12-24 2023-11-03 广州索答信息科技有限公司 一种智能语音交互方法、设备、介质及***
CN111192581A (zh) * 2020-01-07 2020-05-22 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及存储介质
CN111402866B (zh) * 2020-03-23 2024-04-05 北京声智科技有限公司 语义识别方法、装置及电子设备
CN111554298B (zh) * 2020-05-18 2023-03-28 阿波罗智联(北京)科技有限公司 语音交互方法、语音交互设备和电子设备

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154694A (ja) 1999-09-13 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識装置及び方法
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
JP4107093B2 (ja) * 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
JP5073024B2 (ja) * 2010-08-10 2012-11-14 株式会社東芝 音声対話装置
SG187286A1 (en) * 2011-07-29 2013-02-28 Smart Communications Inc System and method for activating a mobile device to initiate a communication
WO2013080406A1 (ja) 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
US9892729B2 (en) 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US8938394B1 (en) * 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9646607B2 (en) * 2014-03-10 2017-05-09 Dell Products, L.P. Managing wake-on-voice buffer quality based on system boot profiling
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的***
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及***
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
WO2017179335A1 (ja) 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN107622652B (zh) * 2016-07-15 2020-10-02 青岛海尔智能技术研发有限公司 家电***的语音控制方法与家电控制***
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
CN107818782B (zh) * 2016-09-12 2020-10-09 上海声瀚信息科技有限公司 一种实现家用电器智能控制的方法及***
JP2018049230A (ja) * 2016-09-23 2018-03-29 シャープ株式会社 辞書作成装置、辞書作成プログラム、音声認識装置、音声認識プログラムおよび記録媒体
CN106653021B (zh) * 2016-12-27 2020-06-02 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
CN106898352B (zh) * 2017-02-27 2020-09-25 联想(北京)有限公司 语音控制方法及电子设备
CN107195304A (zh) * 2017-06-30 2017-09-22 珠海格力电器股份有限公司 一种电器设备的语音控制电路和方法
CN107360157A (zh) * 2017-07-10 2017-11-17 绵阳美菱软件技术有限公司 一种用户注册方法、装置及智能空调器
CN107610695B (zh) * 2017-08-08 2021-07-06 大众问问(北京)信息科技有限公司 驾驶人语音唤醒指令词权重的动态调整方法
CN107564518B (zh) * 2017-08-21 2021-10-22 百度在线网络技术(北京)有限公司 智能设备控制方法、装置及计算机设备
CN107704275B (zh) * 2017-09-04 2021-07-23 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN107578776B (zh) * 2017-09-25 2021-08-06 咪咕文化科技有限公司 一种语音交互的唤醒方法、装置及计算机可读存储介质
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置

Also Published As

Publication number Publication date
EP3779972A1 (en) 2021-02-17
JP7114721B2 (ja) 2022-08-08
WO2019192250A1 (zh) 2019-10-10
RU2760368C1 (ru) 2021-11-24
EP3779972A4 (en) 2022-04-13
CN108538298A (zh) 2018-09-14
JP2021516361A (ja) 2021-07-01
KR102437944B1 (ko) 2022-08-30
KR20200130352A (ko) 2020-11-18

Similar Documents

Publication Publication Date Title
CN108538298B (zh) 语音唤醒方法及装置
US11948556B2 (en) Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
EP3642833B1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
CN109460463B (zh) 基于数据处理的模型训练方法、装置、终端及存储介质
EP3617946B1 (en) Context acquisition method and device based on voice interaction
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
CN111832308B (zh) 语音识别文本连贯性处理方法和装置
CN108538293A (zh) 语音唤醒方法、装置及智能设备
CN110634468B (zh) 语音唤醒方法、装置、设备及计算机可读存储介质
WO2020098756A1 (zh) 一种基于情感的语音交互方法、存储介质及终端设备
CN111312222A (zh) 一种唤醒、语音识别模型训练方法及装置
JP7436077B2 (ja) スキルの音声ウェイクアップ方法および装置
CN112700768B (zh) 语音识别方法以及电子设备、存储装置
CN112686051A (zh) 语义识别模型训练方法、识别方法、电子设备、存储介质
CN117253478A (zh) 一种语音交互方法和相关装置
CN111767386B (zh) 对话处理方法、装置、电子设备及计算机可读存储介质
CN112562659A (zh) 语音识别方法、装置、电子设备和存储介质
JP2018092485A (ja) 文生成装置、文生成方法及びプログラム
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN114969295A (zh) 基于人工智能的对话交互数据处理方法、装置及设备
CN113129874B (zh) 语音唤醒方法及***
CN116612744A (zh) 语音唤醒方法、语音唤醒装置和车辆
CN115565528A (zh) 汉语语音唤醒方法、***、电子设备和存储介质
CN116028006A (zh) 交互方法、装置、电子设备和存储介质
CN112927698A (zh) 一种基于深度学习的智能电话语音***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant