CN111128138A - 语音唤醒方法、装置、计算机设备和存储介质 - Google Patents

语音唤醒方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111128138A
CN111128138A CN202010235433.0A CN202010235433A CN111128138A CN 111128138 A CN111128138 A CN 111128138A CN 202010235433 A CN202010235433 A CN 202010235433A CN 111128138 A CN111128138 A CN 111128138A
Authority
CN
China
Prior art keywords
awakening
single character
voice data
word
data segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010235433.0A
Other languages
English (en)
Inventor
徐泓洋
王广新
杨汉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010235433.0A priority Critical patent/CN111128138A/zh
Publication of CN111128138A publication Critical patent/CN111128138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请揭示了一种语音唤醒方法、装置、计算机设备和存储介质,方法包括:当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;当所述判别结果为唤醒判别通过时,执行对应的唤醒操作,而所述判别结果为唤醒判别不通过时,限制执行唤醒操作。通过本申请,用户可以实现通过输入任意一个自定义唤醒词对应的语音数据来完成对于终端的唤醒,有效地提高了终端的唤醒智能性,以及提高了用户的使用体验。

Description

语音唤醒方法、装置、计算机设备和存储介质
技术领域
本申请涉及语音识别技术领域,具体涉及一种语音唤醒方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的发展,语音识别技术也随之发展,利用语音识别的产品越来越多,例如,会话助理、智能机器人、智能手表等。这些产品都是通过语音识别来增强用户体验和提高自然人机交互的水平,且通常这些产品也需要通过语音唤醒来开启工作。语音唤醒技术是一种具有开关入口属性的功能。用户通过语音唤醒,可以发起人机交互的操作,即机器只有被用户所说的特定唤醒词成功唤醒后,才会对用户接下来的语音指令进行识别。
相关技术中存在一些语音唤醒技术,但都存在一定的问题,比如唤醒词数量仅为一个且无法更改,例如常见的有小米公司所使用的小爱同学,这样造成机器的唤醒智能性较低,用户的使用体验感不好。
发明内容
本申请的主要目的为提供一种语音唤醒方法、装置、计算机设备和存储介质,旨在解决现有的语音唤醒技术的唤醒词数量仅为一个且无法更改,造成机器的唤醒智能性较低的技术问题。
本申请提出一种语音唤醒方法,所述方法包括步骤:
当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;
当所述唤醒判别结果为唤醒判别通过时,执行对应的唤醒操作,否则限制执行所述唤醒操作。
可选地,所述当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果的步骤之前,包括:
获取输入的常见唤醒字;以及,
获取与所有所述常见唤醒字的数量相同的多段常见唤醒字音频,其中,所述常见唤醒字与所述常见唤醒字音频之间具有一一对应的关系;
提取出与特定唤醒字对应的特定唤醒字音频,使用所述特定唤醒字对所述特定唤醒字音频进行标注,得到对应的特定标注音频数据,并使用所述特定标注音频数据对原始的语音识别模型进行训练以得到特定单字模型,其中,所述特定唤醒字为所有所述常见唤醒字中的任意一个常见唤醒字;
依次类推,在得到了与所有所述常见唤醒字的数量相同的多个单字模型后,将所有所述单字模型存储于预创建的常见字模型库内,其中,所述常见唤醒字与所述单字模型之间具有一一对应的关系。
可选地,所述当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果的步骤,包括:
获取输入的自定义唤醒词;
从所述自定义唤醒词中依次提取出组成所述自定义唤醒词的多个唤醒字;
根据每个所述唤醒字在所述自定义唤醒词中的文字先后排序顺序,依次从所述常见字模型库中分别筛选出与每个所述唤醒字一一对应的一个指定单字模型;
根据各所述指定单字模型的筛选先后顺序,通过所述多个指定单字模型对接收到的所述语音数据片段进行唤醒判别,得到所述语音数据片段的唤醒判别结果。
可选地,所述根据各所述指定单字模型的筛选先后顺序,通过所述多个指定单字模型对所述语音数据片段进行唤醒判别,得到所述语音数据片段的唤醒判别结果的步骤,包括:
获取实时输入的第一语音数据片段;
根据各所述指定单字模型的筛选先后顺序,将所述第一语音数据片段输入至预设的第一单字模型进行唤醒判别,得到第一单字判别结果,其中,所述第一单字模型在所有指定单字模型中的筛选先后顺序为排序第一的模型;
若所述第一单字判别结果为不通过,则生成唤醒判别不通过的第一唤醒判别结果,并生成重新输入用于由所述第一单字模型进行唤醒判别的指定语音数据的提醒信息,以及停止执行除所述第一单字模型外的其他指定单字模型的模型输入操作;
若所述第一单字判别结果为通过,获取实时输入的第二语音数据片段;
将所述第二语音数据片段输入至预设的第二单字模型进行唤醒判别,得到第二单字判别结果,并根据第二单字判别结果生成唤醒判别不通过的第二唤醒判别结果,或者继续执行将实时输入的第三语音数据片段输入至预设的第三单字模型的模型输入操作,其中,所述第二单字模型在所有指定单字模型中的筛选先后顺序为排序第二的模型,所述第三单字模型在所有指定单字模型中的筛选先后顺序为排序第三的模型;
依次类推,将实时获取的特定语音数据片段输入至预设的特定单字模型,得到特定单字判别结果,其中,所述特定单字模型在所有指定单字模型中的筛选先后顺序为排序最后一位的模型;
若所述特定单字判别结果为不通过,则生成唤醒判别不通过的唤醒判别结果,否则生成唤醒判别通过的唤醒判别结果。
可选地,所述当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果的步骤之后,包括:
若生成了唤醒判别不通过的唤醒判别结果,获取预存储的紧急联系人信息;
获取当前的地理位置信息;
向所述紧急联系人对应的指定终端发送报警信息,其中,所述报警信息至少包括所述唤醒判别不通过的唤醒判别结果,以及所述地理位置信息。
本申请还提供一种语音唤醒装置,包括:
调用模块,用于当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;
执行模块,用于当所述唤醒判别结果为唤醒判别通过时,执行对应的唤醒操作,否则限制执行所述唤醒操作。
可选地,所述语音唤醒装置还包括:
第一获取模块,用于获取输入的常见唤醒字;以及,
第二获取模块,用于获取与所有所述常见唤醒字的数量相同的多段常见唤醒字音频,其中,所述常见唤醒字与所述常见唤醒字音频之间具有一一对应的关系;
训练模块,用于提取出与特定唤醒字对应的特定唤醒字音频,使用所述特定唤醒字对所述特定唤醒字音频进行标注,得到对应的特定标注音频数据,并使用所述特定标注音频数据对原始的语音识别模型进行训练以得到特定单字模型,其中,所述特定唤醒字为所有所述常见唤醒字中的任意一个常见唤醒字;
存储模块,用于依次类推,在得到了与所有所述常见唤醒字的数量相同的多个单字模型后,将所有所述单字模型存储于预创建的常见字模型库内,其中,所述常见唤醒字与所述单字模型之间具有一一对应的关系。
可选地,所述调用模块,包括:
获取单元,用于获取输入的自定义唤醒词;
提取单元,用于从所述自定义唤醒词中依次提取出组成所述自定义唤醒词的多个唤醒字;
筛选单元,用于根据每个所述唤醒字在所述自定义唤醒词中的文字先后排序顺序,依次从所述常见字模型库中分别筛选出与每个所述唤醒字一一对应的一个指定单字模型;
判别单元,用于根据各所述指定单字模型的筛选先后顺序,通过所述多个指定单字模型对所述语音数据片段进行唤醒判别,得到所述语音数据片段的唤醒判别结果。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的语音唤醒方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的语音唤醒方法、装置、计算机设备和存储介质,当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;当所述判别结果为唤醒判别通过时,执行对应的唤醒操作,而所述判别结果为唤醒判别不通过时,限制执行唤醒操作。本申请通过在接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字对应的预设的多个指定单字模型来对该语音数据片段进行唤醒判别处理,来得到上述语音数据片段的唤醒判别结果。如果通过上述与自定义唤醒词中所有唤醒字的数量相同的多个指定单字模型识别出用户输入了与包含有自定义唤醒词的语音数据,便会生成唤醒判别通过的唤醒判别结果,并会执行对应的终端唤醒操作,否则会限制执行唤醒操作,以有效实现用户可以通过输入任意一个自定义唤醒词对应的语音数据来完成对于终端的唤醒,且对于上述自定义唤醒词的词语数量和内容没有具体的限定,有效地提高了终端的唤醒智能性,以及提高了用户的使用体验感。
附图说明
图1是本申请一实施例的语音唤醒方法的流程示意图;
图2是本申请一实施例的语音唤醒装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
需要说明,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
参照图1,本申请一实施例的语音唤醒方法,包括:
S1:当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;
S2:当所述唤醒判别结果为唤醒判别通过时,执行对应的唤醒操作,否则限制执行所述唤醒操作。
如上述步骤S1至S2所述,本方法实施例的执行主体为一种语音唤醒装置。在实际应用中,该语音唤醒装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例提供的语音唤醒装置能够根据用户预先自主设置的自定义唤醒词来对输入的用于进行机器唤醒的语音数据片段进行判别,并根据得到的语音数据片段的判别结果来实现对于终端的智能唤醒。由于自定义唤醒词的数量和内容没有具体的限定,而不仅仅局限于一个特定的唤醒词,使得用户只需输入与包含有任意设置的自定义唤醒词的语音便可实现对于终端的唤醒,有效地提高了终端的唤醒智能性,以及提高了用户的使用体验感。具体地,当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对上述语音数据片段进行唤醒判别处理,得到上述语音数据片段的唤醒判别结果。其中,上述语音数据片段可包括与上述自定义唤醒词中所有唤醒字的数量相同的实时输入的多段定长的音频流片段,且可由预设的麦克风进行该语音数据片段的接收或获取。举例地,上述语音数据片段可包含有与小李同学四个字对应的四段语音数据片段,即为与小字对应的语音数据片段、与李字对应的语音数据片段、与同字对应的语音数据片段、与学字对应的语音数据片段。上述唤醒字是指上述自定义唤醒词中包含的所有字,举例地,如果自定义唤醒词为小明同学,则唤醒字包括小、明、同、学四个字,且上述每个唤醒字按照文字先后顺序进行排序依次为小、明、同、学。另外,上述自定义唤醒词包含有一个或多个单字,具体可为预创建的所有单字模型所对应的所有常见唤醒字中的任意一个或多个唤醒字组成的词语,用户可以根据实际需求预先设置任意数量的常见唤醒词,并实现通过从上述常见唤醒词选取出一个自定义唤醒词来进行对于终端的智能唤醒。进一步地,上述单字是指单个中文字符,例如小、明,等等。上述需要调用的指定单字模型的数量与上述自定义唤醒词包含的唤醒字的数量相同,且上述唤醒字与上述指定单字模型之间具有一一对应的关系,举例地,如果自定义唤醒词为小明同学,则会调用与小明同学四个字分别对应的四个指定单字模型来依次或者同时来对实时接收到的四段语音数据片段进行一一对应的唤醒判别处理,如果四个指定单字模型在分别对接收到的对应的一段语音数据片段进行唤醒判别处理后,四个指定单字模型输出的输出结果均为通过,便会得到唤醒判别通过的唤醒判别结果;而如果四个指定单字模型在分别对接收到的对应的一段语音数据片段进行唤醒判别处理后,如果存在至少一个指定单字模型输出的输出结果为不通过,则会得到唤醒判别不通过的唤醒判别结果。最后在得到了上述唤醒判别结果后,再根据上述唤醒判别结果进行对应的唤醒处理或限制唤醒处理。其中,上述判别结果包括唤醒判别通过或唤醒判别不通过,当生成的唤醒判别结果为唤醒判别通过时,则会执行对应的唤醒操作,以实现终端的自动唤醒。而当生成的唤醒判别结果为唤醒判别不通过时,则会限制执行唤醒操作,即终端会限制自身对用户的唤醒请求进行反应。本申请实施例通过在接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字对应的预设的多个指定单字模型来对该语音数据片段进行唤醒判别处理,来得到上述语音数据片段的唤醒判别结果。如果通过上述与自定义唤醒词中所有唤醒字的数量相同的多个指定单字模型识别出用户输入了与包含有自定义唤醒词的语音数据,便会生成唤醒判别通过的唤醒判别结果,并会执行对应的终端唤醒操作,否则会限制执行唤醒操作,以有效实现用户可以通过输入任意一个自定义唤醒词对应的语音数据来完成对于终端的唤醒,且对于上述自定义唤醒词的词语数量和内容没有具体的限定,有效地提高了终端的唤醒智能性,以及提高了用户的使用体验感。
进一步地,本申请一实施例中,上述步骤S1之前,包括:
S100:获取输入的常见唤醒字;以及,
S101:获取与所有所述常见唤醒字的数量相同的多段常见唤醒字音频,其中,所述常见唤醒字与所述常见唤醒字音频之间具有一一对应的关系;
S102:提取出与特定唤醒字对应的特定唤醒字音频,使用所述特定唤醒字对所述特定唤醒字音频进行标注,得到对应的特定标注音频数据,并使用所述特定标注音频数据对原始的语音识别模型进行训练以得到特定单字模型,其中,所述特定唤醒字为所有所述常见唤醒字中的任意一个常见唤醒字;
S103:依次类推,在得到了与所有所述常见唤醒字的数量相同的多个单字模型后,将所有所述单字模型存储于预创建的常见字模型库内,其中,所述常见唤醒字与所述单字模型之间具有一一对应的关系。
如上述步骤S300至S303所述,在进行调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对上述语音数据片段进行唤醒判别处理,得到上述语音数据片段的唤醒判别结果的判别过程之前,还包括创建单字模型的创建过程。具体地,首先获取输入的常见唤醒字,以及获取与所有上述常见唤醒字的数量相同的多段常见唤醒字音频。其中,上述常见唤醒字与上述常见唤醒字音频之间具有一一对应的关系。其中,可以从预设的语料数据中识别出上述常见唤醒字,以及与该常见唤醒字对应的常见唤醒字音频。另外,对于常见唤醒字的选取和数量等均不作具体限定,可以由用户自主设定用于启动智能终端的常见唤醒字,并输入对应的智能终端可准确识别的常见唤醒字音频。之后提取出与特定唤醒字对应的特定唤醒字音频,使用上述特定唤醒字对上述特定唤醒字音频进行标注,得到对应的特定标注音频数据,并使用上述特定标注音频数据对原始的语音识别模型进行训练以得到特定单字模型,其中,上述特定唤醒字为所有上述常见唤醒字中的任意一个常见唤醒字,上述特定单字模型可为二分类的模型或者为序列到序列的模型,等等,且对于上述特定单字模型的模型创建过程可参考现有的模型创建方法。依次类推,在得到了与所有上述常见唤醒字的数量相同的多个单字模型后,最后将所有上述单字模型存储于预创建的常见字模型库内,以便后续能够从该常见字模型库筛选出与自定义唤醒词中所有唤醒字的数量相同的多个指定单字模型,并通过该多个指定单字模型来对接收到的语音数据片段进行唤醒判别处理,得到对应的语音数据片段的唤醒判别结果,进而根据该唤醒判别结果进行对应的唤醒处理或限制唤醒处理。
进一步地,本申请一实施例中,上述步骤S1,包括:
S110:获取输入的自定义唤醒词;
S111:从所述自定义唤醒词中依次提取出组成所述自定义唤醒词的多个唤醒字;
S112:根据每个所述唤醒字在所述自定义唤醒词中的文字先后排序顺序,依次从所述常见字模型库中分别筛选出与每个所述唤醒字一一对应的一个指定单字模型;
S113:根据各所述指定单字模型的筛选先后顺序,通过所述多个指定单字模型对接收到的所述语音数据片段进行唤醒判别,得到所述语音数据片段的唤醒判别结果。
如上述步骤S110至S113所述,上述当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对上述语音数据片段进行唤醒判别处理,得到上述语音数据片段的唤醒判别结果的步骤,具体可包括:首先获取输入的自定义唤醒词。其中,对于上述自定义唤醒词的数量或内容等不作具体限定,可根据用户的个人喜好进行设定,例如可设置为小明同学。然后从上述自定义唤醒词中依次提取出组成上述自定义唤醒词的多个唤醒字。其中,上述自定义唤醒词是用于本次进行语音唤醒终端需要输入的语音形式的词语,举例地,如果自定义唤醒词为小明同学,则组成该自定义唤醒词的所有唤醒字为小、明、同、学四个字。之后,根据每个上述唤醒字在上述自定义唤醒词中的文字先后排序顺序,依次从上述常见字模型库中分别筛选出与每个上述唤醒字一一对应的一个指定单字模型。其中,如果自定义唤醒词为小明同学,可得到自定义唤醒词中包括小、明、同、学四个唤醒字,且该四个唤醒字在自定义唤醒词中的文字先后排序顺序为小、明、同、学,因而可从上述常见字模型库中分别筛选出与各唤醒字对应的四个指定单字模型,即分别为与小字对应的指定单字模型,与学字对应的指定单字模型,与同字对应的指定单字模型,以及与学字对应的指定单字模型。另外,上述常见字模型库为一个存储有一定数目的预先创建好的单字模型的数据库。在完成了对上述多个指定单字模型的筛选后,再加载上述多个指定单字模型,以实现对该多个指定单字模型的调用。最后根据各上述指定单字模型的筛选先后顺序,通过上述多个指定单字模型对接收到的上述语音数据片段进行唤醒判别,得到上述语音数据片段的唤醒判别结果,以便后续根据得到的唤醒判别结果的实际内容来准确地执行对应的唤醒操作或限制执行唤醒操作。
本申请一实施例中,上述步骤S113,包括:
S1130:获取实时输入的第一语音数据片段;
S1131:根据各所述指定单字模型的筛选先后顺序,将所述第一语音数据片段输入至预设的第一单字模型进行唤醒判别,得到第一单字判别结果,其中,所述第一单字模型在所有指定单字模型中的筛选先后顺序为排序第一的模型;
S1132:若所述第一单字判别结果为不通过,则生成唤醒判别不通过的第一唤醒判别结果,并生成重新输入用于由所述第一单字模型进行唤醒判别的指定语音数据的提醒信息,以及停止执行除所述第一单字模型外的其他指定单字模型的模型输入操作;
S1133:若所述第一单字判别结果为通过,获取实时输入的第二语音数据片段;
S1134:将所述第二语音数据片段输入至预设的第二单字模型进行唤醒判别,得到第二单字判别结果,并根据第二单字判别结果生成唤醒判别不通过的第二唤醒判别结果,或者继续执行将实时输入的第三语音数据片段输入至预设的第三单字模型的模型输入操作,其中,所述第二单字模型在所有指定单字模型中的筛选先后顺序为排序第二的模型,所述第三单字模型在所有指定单字模型中的筛选先后顺序为排序第三的模型;
S1135:依次类推,将实时获取的特定语音数据片段输入至预设的特定单字模型,得到特定单字判别结果,其中,所述特定单字模型在所有指定单字模型中的筛选先后顺序为排序最后一位的模型;
S1136:若所述特定单字判别结果为不通过,则生成唤醒判别不通过的唤醒判别结果,否则生成唤醒判别通过的唤醒判别结果。
如上述步骤S1130至S1136所述,上述根据各上述指定单字模型的筛选先后顺序,通过上述多个指定单字模型对上述语音数据片段进行唤醒判别,得到上述语音数据片段的唤醒判别结果的步骤,具体可包括:首先获取实时输入的第一语音数据片段。其中,上述第一语音数据片段为与在按文字先后排列顺序的自定义唤醒词中的第一个唤醒字对应的语音数据,且是用户需要输入至与上述第一个唤醒字对应的第一单字模型内进行唤醒判别的语音数据。举例地,如果自定义唤醒词为小明同学,则上述第一语音数据片段理论上应该为含有小字的语音数据片段,同理,后续提及的实时获取的其他语音数据片段,例如第二语音数据片段、特定语音数据片段的含义可参考上述第一语音数据片段,在后不再赘述。然后根据各上述指定单字模型的筛选先后顺序,将上述第一语音数据片段输入至预设的第一单字模型进行唤醒判别,得到第一单字判别结果,其中,上述第一单字模型在所有指定单字模型中的筛选先后顺序为排序第一的模型,且第一单字模型对输入的第一语音数据片段进行唤醒判别的过程为:识别出与上述第一语音数据片段对应的字,计算上述第一语音数据片段对应的字,与自定义唤醒词的第一个唤醒字的之间的第一置信度;判断上述第一置信度是否大于预设的置信度阈值;如果第一置信度大于预设的置信度阈值,则判定识别出的与上述第一语音数据片段对应的字为与上述自定义唤醒词的第一个唤醒字相同的目标文字,并输出通过的第一单字判别结果,而如果上述第一置信度小于预设的置信度阈值,则判定识别出的与上述第一语音数据片段对应的字不是与上述自定义唤醒词的第一个唤醒字相同的目标文字,并输出不通过的第一单字判别结果。另外,对于除上述第一语音数据片段之外的后续实时获取到的其他语音数据片段的唤醒判别过程与上述第一语音数据片段的唤醒判别过程相同,在后不再赘述。在得到上述第一输出结果时,若上述第一单字判别结果为不通过,则生成唤醒判别不通过的第一唤醒判别结果,并生成重新输入用于由上述第一单字模型进行唤醒判别的指定语音数据的提醒信息,以提醒用户当前实时输入的语音数据经过第一单字模型的唤醒判别后被识别为错误的唤醒语音,并且需要用户重新输入正确的用于进行终端唤醒的指定语音数据,以及停止执行除上述第一单字模型外的其他指定单字模型的模型输入操作。而若上述第一输出结果为通过,则获取实时输入的第二语音数据片段。同理地,在得到了上述第二语音数据片段后,将上述第二语音数据片段输入至预设的第二单字模型进行唤醒判别,得到第二单字判别结果,并根据第二单字判别结果生成唤醒判别不通过的第二唤醒判别结果,或者继续执行将实时输入的第三语音数据片段输入至预设的第三单字模型的模型输入操作,其中,上述第二单字模型在所有指定单字模型中的筛选先后顺序为排序第二的模型,上述第三单字模型在所有指定单字模型中的筛选先后顺序为排序第三的模型。依次类推,将实时获取的特定语音数据片段输入至预设的特定单字模型,得到特定单字判别结果,其中,上述特定单字模型在所有指定单字模型中的筛选先后顺序为排序最后一位的模型。若上述特定单字判别结果为不通过,则生成唤醒判别不通过的第一特定唤醒判别结果,而若上述特定单字结果为通过,则生成唤醒判别通过的第二特定唤醒判别结果。
举例地,如果当前输入的用于进行终端唤醒的自定义唤醒词为小明同学,则首先将接收到的用于终端唤醒的实时输入的与小字对应的第一语音数据片段输入至与小字对应的第一指定单字模型进行唤醒判别,如果输出的单字判别结果为通过,就再将接收到的用于终端唤醒的实时输入的与明字对应的第二语音数据片段输入至与明对应的第二指定单字模型进行唤醒判别,如果输出的单字判别结果为通过,然后将接收到的用于终端唤醒的实时输入的与同字对应的第三语音数据片段输入至与同对应的第三指定单字模型进行唤醒判别,如果输出的单字判别结果为通过,则最后将接收到的用于终端唤醒的实时输入的与学字对应的特定语音数据片段与学对应的特定指定单字模型进行唤醒判别,如果输出的单字判别结果也为通过,则表示输入的语音数据片段为正确的用于终端唤醒的唤醒词语音,则最终会生成唤醒判别通过的唤醒判别结果,且后续终端便会被成功唤醒。而如果实时接收到的任意一个语音数据片段在输入至对应单字模型后出现了不通过的单字判别结果,则会生成重新输入用于由上述第一单字模型进行唤醒判别的指定语音数据的提醒信息,以及停止执行除上述第一单字模型外的其他指定单字模型的模型输入操作,而且由于输入的语音数据片段为错误的唤醒词语音,之后终端也不会被唤醒。本实施例只有当接收到的每一段语音数据音频均分别成功通过了与自定义唤醒词对应的各个指定单字模型的唤醒判别后,才会生成唤醒判别通过的唤醒判别结果,以便后续该唤醒判别结果执行对应的唤醒操作,从而有效地保证了终端唤醒的准确性。而且在出现了接收到的任意一个语音数据片段在没有通过对应单字模型的唤醒判别的情况时,则会立刻生成唤醒判别不通过的唤醒判别结果,并会限制执行唤醒操作,以及执行除上述第一单字模型外的其他指定单字模型的模型输入操作,进而有效避免终端出现误唤醒的情形,以及降低终端的功耗。
进一步地,本申请一实施例中,上述步骤S1之后,包括:
S120:若生成了唤醒判别不通过的唤醒判别结果,获取预存储的紧急联系人信息;
S121:获取当前的地理位置信息;
S122:向所述紧急联系人对应的指定终端发送报警信息,其中,所述报警信息至少包括所述唤醒判别不通过的唤醒判别结果,以及所述地理位置信息。
如上述步骤S120至S122所述,如果在进行调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型对上述语音数据片段进行唤醒判别处理的判别过程中,生成了唤醒判别不通过的判别结果,则可能出现了终端设备丢失的情况,则此时会智能地发出报警信息。具体地,若生成了唤醒判别不通过的唤醒判别结果,首先获取预存储的紧急联系人信息。以及获取当前的地理位置信息。然后向上述紧急联系人对应的指定终端发送报警信息,其中,上述报警信息至少包括上述唤醒判别不通过的唤醒判别结果,以及上述地理位置信息。另外,对于上述报警信息的发送形式不作具体限定,例如可采用短信形式、彩信形式,等等。本实施例在生成了唤醒判别不通过的唤醒判别结果后,会智能地获取紧急联系人信息与地理位置信息,并向紧急联系人发送相应的报警信息,以便若出现终端丢失的情况能够根据该报警信息来快速便捷地实行对于终端的寻找工作,提高找回丢失终端的成功率。
参照图2,本申请一实施例中还提供了一种语音唤醒装置,包括:
调用模块1,用于当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;
执行模块2,用于当所述唤醒判别结果为唤醒判别通过时,执行对应的唤醒操作,否则限制执行所述唤醒操作。
本实施例中,上述语音唤醒装置中的调用模块与执行模块的功能和作用的实现过程具体详见上述语音唤醒方法中对应步骤S1至S2的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述语音唤醒模型,包括:
第一获取模块,用于获取输入的常见唤醒字;以及,
第二获取模块,用于获取与所有所述常见唤醒字的数量相同的多段常见唤醒字音频,其中,所述常见唤醒字与所述常见唤醒字音频之间具有一一对应的关系;
训练模块,用于提取出与特定唤醒字对应的特定唤醒字音频,使用所述特定唤醒字对所述特定唤醒字音频进行标注,得到对应的特定标注音频数据,并使用所述特定标注音频数据对原始的语音识别模型进行训练以得到特定单字模型,其中,所述特定唤醒字为所有所述常见唤醒字中的任意一个常见唤醒字;
存储模块,用于依次类推,在得到了与所有所述常见唤醒字的数量相同的多个单字模型后,将所有所述单字模型存储于预创建的常见字模型库内,其中,所述常见唤醒字与所述单字模型之间具有一一对应的关系。
本实施例中,上述语音唤醒装置中的第一获取模块、第二获取模块、训练模块与存储模块的功能和作用的实现过程具体详见上述语音唤醒方法中对应步骤S100至S103的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述调用模块,包括:
获取单元,用于获取输入的自定义唤醒词;
提取单元,用于从所述自定义唤醒词中依次提取出组成所述自定义唤醒词的多个唤醒字;
筛选单元,用于根据每个所述唤醒字在所述自定义唤醒词中的文字先后排序顺序,依次从所述常见字模型库中分别筛选出与每个所述唤醒字一一对应的一个指定单字模型;
判别单元,用于根据各所述指定单字模型的筛选先后顺序,通过所述多个指定单字模型对接收到的所述语音数据片段进行唤醒判别,得到所述语音数据片段的唤醒判别结果。
本实施例中,上述语音唤醒装置中的获取单元、提取单元、筛选单元与判别单元的功能和作用的实现过程具体详见上述语音唤醒方法中对应步骤S110至S113的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述判别单元,包括:
第一获取子单元,用于获取实时输入的第一语音数据片段;
第一输入子单元,用于根据各所述指定单字模型的筛选先后顺序,将所述第一语音数据片段输入至预设的第一单字模型进行唤醒判别,得到第一单字判别结果,其中,所述第一单字模型在所有指定单字模型中的筛选先后顺序为排序第一的模型;
第一生成子单元,用于若所述第一单字判别结果为不通过,则生成唤醒判别不通过的第一唤醒判别结果,并生成重新输入用于由所述第一单字模型进行唤醒判别的指定语音数据的提醒信息,以及停止执行除所述第一单字模型外的其他指定单字模型的模型输入操作;
第二获取子单元,用于若所述第一单字判别结果为通过,获取实时输入的第二语音数据片段;
第二输入子单元,用于将所述第二语音数据片段输入至预设的第二单字模型进行唤醒判别,得到第二单字判别结果,并根据第二单字判别结果生成唤醒判别不通过的第二唤醒判别结果,或者继续执行将实时输入的第三语音数据片段输入至预设的第三单字模型的模型输入操作,其中,所述第二单字模型在所有指定单字模型中的筛选先后顺序为排序第二的模型,所述第三单字模型在所有指定单字模型中的筛选先后顺序为排序第三的模型;
第三输入子单元,用于依次类推,将实时获取的特定语音数据片段输入至预设的特定单字模型,得到特定单字判别结果,其中,所述特定单字模型在所有指定单字模型中的筛选先后顺序为排序最后一位的模型;
第二生成子单元,用于若若所述特定单字判别结果为不通过,则生成唤醒判别不通过的唤醒判别结果,否则生成唤醒判别通过的唤醒判别结果。
本实施例中,上述语音唤醒装置中的第一获取子单元、第一输入子单元、第一生成子单元、第二获取子单元、第二输入子单元、第三输入子单元与第二生成子单元的功能和作用的实现过程具体详见上述语音唤醒方法中对应步骤S1130至S1136的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述语音唤醒装置,包括:
第三获取模块,用于若生成了唤醒判别不通过的唤醒判别结果,获取预存储的紧急联系人信息;
第四获取模块,用于获取当前的地理位置信息;
发送模块,用于向所述紧急联系人对应的指定终端发送报警信息,其中,所述报警信息至少包括所述唤醒判别不通过的唤醒判别结果,以及所述地理位置信息。
本实施例中,上述语音唤醒装置中的第三获取模块、第四获取模块与发送模块的功能和作用的实现过程具体详见上述语音唤醒方法中对应步骤S120至S122的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据片段、自定义唤醒词以及指定单字模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音唤醒方法。
上述处理器执行上述语音唤醒方法的步骤:
当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;
当所述唤醒判别结果为唤醒判别通过时,执行对应的唤醒操作,否则限制执行所述唤醒操作。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音唤醒方法,具体为:
当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;
当所述唤醒判别结果为唤醒判别通过时,执行对应的唤醒操作,否则限制执行所述唤醒操作。
综上所述,本申请实施例中提供的语音唤醒方法、装置、计算机设备和存储介质,当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;当所述判别结果为唤醒判别通过时,执行对应的唤醒操作,而所述判别结果为唤醒判别不通过时,限制执行唤醒操作。本申请实施例通过在接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字对应的预设的多个指定单字模型来对该语音数据片段进行唤醒判别处理,来得到上述语音数据片段的唤醒判别结果。如果通过上述与自定义唤醒词中所有唤醒字的数量相同的多个指定单字模型识别出用户输入了与包含有自定义唤醒词的语音数据,便会生成唤醒判别通过的唤醒判别结果,并会执行对应的终端唤醒操作,否则会限制执行唤醒操作,以有效实现用户可以通过输入任意一个自定义唤醒词对应的语音数据来完成对于终端的唤醒,且对于上述自定义唤醒词的词语数量和内容没有具体的限定,有效地提高了终端的唤醒智能性,以及提高了用户的使用体验感。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种语音唤醒方法,其特征在于,包括:
当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;
当所述唤醒判别结果为唤醒判别通过时,执行对应的唤醒操作,否则限制执行所述唤醒操作。
2.根据权利要求1所述的语音唤醒方法,其特征在于,所述当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果的步骤之前,包括:
获取输入的常见唤醒字;以及,
获取与所有所述常见唤醒字的数量相同的多段常见唤醒字音频,其中,所述常见唤醒字与所述常见唤醒字音频之间具有一一对应的关系;
提取出与特定唤醒字对应的特定唤醒字音频,使用所述特定唤醒字对所述特定唤醒字音频进行标注,得到对应的特定标注音频数据,并使用所述特定标注音频数据对原始的语音识别模型进行训练以得到特定单字模型,其中,所述特定唤醒字为所有所述常见唤醒字中的任意一个常见唤醒字;
依次类推,在得到了与所有所述常见唤醒字的数量相同的多个单字模型后,将所有所述单字模型存储于预创建的常见字模型库内,其中,所述常见唤醒字与所述单字模型之间具有一一对应的关系。
3.根据权利要求2所述的语音唤醒方法,其特征在于,所述当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果的步骤,包括:
获取输入的自定义唤醒词;
从所述自定义唤醒词中依次提取出组成所述自定义唤醒词的多个唤醒字;
根据每个所述唤醒字在所述自定义唤醒词中的文字先后排序顺序,依次从所述常见字模型库中分别筛选出与每个所述唤醒字一一对应的一个指定单字模型;
根据各所述指定单字模型的筛选先后顺序,通过所述多个指定单字模型对接收到的所述语音数据片段进行唤醒判别,得到所述语音数据片段的唤醒判别结果。
4.根据权利要求3所述的语音唤醒方法,其特征在于,所述根据各所述指定单字模型的筛选先后顺序,通过所述多个指定单字模型对所述语音数据片段进行唤醒判别,得到所述语音数据片段的唤醒判别结果的步骤,包括:
获取实时输入的第一语音数据片段;
根据各所述指定单字模型的筛选先后顺序,将所述第一语音数据片段输入至预设的第一单字模型进行唤醒判别,得到第一单字判别结果,其中,所述第一单字模型在所有指定单字模型中的筛选先后顺序为排序第一的模型;
若所述第一单字判别结果为不通过,则生成唤醒判别不通过的第一唤醒判别结果,并生成重新输入用于由所述第一单字模型进行唤醒判别的指定语音数据的提醒信息,以及停止执行除所述第一单字模型外的其他指定单字模型的模型输入操作;
若所述第一单字判别结果为通过,获取实时输入的第二语音数据片段;
将所述第二语音数据片段输入至预设的第二单字模型进行唤醒判别,得到第二单字判别结果,并根据第二单字判别结果生成唤醒判别不通过的第二唤醒判别结果,或者继续执行将实时输入的第三语音数据片段输入至预设的第三单字模型的模型输入操作,其中,所述第二单字模型在所有指定单字模型中的筛选先后顺序为排序第二的模型,所述第三单字模型在所有指定单字模型中的筛选先后顺序为排序第三的模型;
依次类推,将实时获取的特定语音数据片段输入至预设的特定单字模型,得到特定单字判别结果,其中,所述特定单字模型在所有指定单字模型中的筛选先后顺序为排序最后一位的模型;
若所述特定单字判别结果为不通过,则生成唤醒判别不通过的唤醒判别结果,否则生成唤醒判别通过的唤醒判别结果。
5.根据权利要求1所述的语音唤醒方法,其特征在于,所述当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果的步骤之后,包括:
若生成了唤醒判别不通过的唤醒判别结果,获取预存储的紧急联系人信息;
获取当前的地理位置信息;
向所述紧急联系人对应的指定终端发送报警信息,其中,所述报警信息至少包括所述唤醒判别不通过的唤醒判别结果,以及所述地理位置信息。
6.一种语音唤醒装置,其特征在于,包括:
调用模块,用于当接收到输入的语音数据片段时,调用与自定义唤醒词中所有唤醒字的数量相同的预设的多个指定单字模型,对所述语音数据片段进行唤醒判别处理,得到所述语音数据片段的唤醒判别结果,其中,所述唤醒字与所述指定单字模型之间具有一一对应的关系,所述唤醒判别结果包括唤醒判别通过或唤醒判别不通过;
执行模块,用于当所述唤醒判别结果为唤醒判别通过时,执行对应的唤醒操作,否则限制执行所述唤醒操作。
7.根据权利要求6所述的语音唤醒装置,其特征在于,所述语音唤醒装置还包括:
第一获取模块,用于获取输入的常见唤醒字;以及,
第二获取模块,用于获取与所有所述常见唤醒字的数量相同的多段常见唤醒字音频,其中,所述常见唤醒字与所述常见唤醒字音频之间具有一一对应的关系;
训练模块,用于提取出与特定唤醒字对应的特定唤醒字音频,使用所述特定唤醒字对所述特定唤醒字音频进行标注,得到对应的特定标注音频数据,并使用所述特定标注音频数据对原始的语音识别模型进行训练以得到特定单字模型,其中,所述特定唤醒字为所有所述常见唤醒字中的任意一个常见唤醒字;
存储模块,用于依次类推,在得到了与所有所述常见唤醒字的数量相同的多个单字模型后,将所有所述单字模型存储于预创建的常见字模型库内,其中,所述常见唤醒字与所述单字模型之间具有一一对应的关系。
8.根据权利要求7所述的语音唤醒装置,其特征在于,所述调用模块,包括:
获取单元,用于获取输入的自定义唤醒词;
提取单元,用于从所述自定义唤醒词中依次提取出组成所述自定义唤醒词的多个唤醒字;
筛选单元,用于根据每个所述唤醒字在所述自定义唤醒词中的文字先后排序顺序,依次从所述常见字模型库中分别筛选出与每个所述唤醒字一一对应的一个指定单字模型;
判别单元,用于根据各所述指定单字模型的筛选先后顺序,通过所述多个指定单字模型对所述语音数据片段进行唤醒判别,得到所述语音数据片段的唤醒判别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程
序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202010235433.0A 2020-03-30 2020-03-30 语音唤醒方法、装置、计算机设备和存储介质 Pending CN111128138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010235433.0A CN111128138A (zh) 2020-03-30 2020-03-30 语音唤醒方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010235433.0A CN111128138A (zh) 2020-03-30 2020-03-30 语音唤醒方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111128138A true CN111128138A (zh) 2020-05-08

Family

ID=70493870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010235433.0A Pending CN111128138A (zh) 2020-03-30 2020-03-30 语音唤醒方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111128138A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112009493A (zh) * 2020-09-03 2020-12-01 三一专用汽车有限责任公司 车载控制***的唤醒方法、车载控制***和车辆
CN112185382A (zh) * 2020-09-30 2021-01-05 北京猎户星空科技有限公司 一种唤醒模型的生成和更新方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015160586A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的***
CN105632486A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置
CN105869622A (zh) * 2015-01-21 2016-08-17 上海羽扇智信息科技有限公司 中文热词检测方法和装置
CN106327193A (zh) * 2016-08-24 2017-01-11 宇龙计算机通信科技(深圳)有限公司 一种***解锁方法和设备
CN109767763A (zh) * 2018-12-25 2019-05-17 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
CN109885649A (zh) * 2018-12-29 2019-06-14 百度在线网络技术(北京)有限公司 设置唤醒词的方法和装置、机器可读存储介质及处理器
CN110444199A (zh) * 2017-05-27 2019-11-12 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015160586A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
CN105869622A (zh) * 2015-01-21 2016-08-17 上海羽扇智信息科技有限公司 中文热词检测方法和装置
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的***
CN105632486A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置
CN106327193A (zh) * 2016-08-24 2017-01-11 宇龙计算机通信科技(深圳)有限公司 一种***解锁方法和设备
CN110444199A (zh) * 2017-05-27 2019-11-12 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN109767763A (zh) * 2018-12-25 2019-05-17 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
CN109885649A (zh) * 2018-12-29 2019-06-14 百度在线网络技术(北京)有限公司 设置唤醒词的方法和装置、机器可读存储介质及处理器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112009493A (zh) * 2020-09-03 2020-12-01 三一专用汽车有限责任公司 车载控制***的唤醒方法、车载控制***和车辆
CN112185382A (zh) * 2020-09-30 2021-01-05 北京猎户星空科技有限公司 一种唤醒模型的生成和更新方法、装置、设备及介质
CN112185382B (zh) * 2020-09-30 2024-03-08 北京猎户星空科技有限公司 一种唤醒模型的生成和更新方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20190279622A1 (en) Method for speech recognition dictation and correction, and system
WO2018196684A1 (zh) 对话机器人生成方法及装置
CN105810188B (zh) 一种信息处理方法和电子设备
JP2019503526A (ja) ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成
CN112417102A (zh) 一种语音查询方法、装置、服务器和可读存储介质
CN111563144A (zh) 基于语句前后关系预测的用户意图识别方法及装置
CN112860919B (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
WO2020048296A1 (zh) 机器学习方法、设备及存储介质
US20050278467A1 (en) Method and apparatus for classifying and ranking interpretations for multimodal input fusion
CN111128138A (zh) 语音唤醒方法、装置、计算机设备和存储介质
WO2019041517A1 (zh) 电子装置、问题识别确认方法和计算机可读存储介质
CN109858004B (zh) 文本改写方法、装置及电子设备
CN114333799B (zh) 相近音误识别的检测方法、装置和计算机设备
WO2017205035A1 (en) Providing automatic case suggestion
WO2020001329A1 (zh) 一种输入预测方法及装置
CN108776677B (zh) 平行语句库的创建方法、设备及计算机可读存储介质
CN112686051A (zh) 语义识别模型训练方法、识别方法、电子设备、存储介质
CN114397997A (zh) 互动操作的控制方法和多屏互动***
CN110797012B (zh) 一种信息提取方法、设备及存储介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN112989829B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN111243593A (zh) 语音识别纠错方法、移动终端和计算机可读存储介质
CN113299294A (zh) 任务型对话机器人交互方法、装置、设备及存储介质
CN112818096A (zh) 对话生成方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200508