CN114220423A - 语音唤醒、定制唤醒模型的方法、电子设备和存储介质 - Google Patents
语音唤醒、定制唤醒模型的方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114220423A CN114220423A CN202111658942.5A CN202111658942A CN114220423A CN 114220423 A CN114220423 A CN 114220423A CN 202111658942 A CN202111658942 A CN 202111658942A CN 114220423 A CN114220423 A CN 114220423A
- Authority
- CN
- China
- Prior art keywords
- customized
- awakening
- wake
- model
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 30
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 7
- 238000010276 construction Methods 0.000 abstract description 2
- 230000002618 waking effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010295 mobile communication Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种语音唤醒、定制唤醒模型的方法、电子设备和存储介质。在该语音唤醒方法中,获取用户语音数据;基于定制唤醒模型识别所述用户语音数据是否满足语音唤醒条件;所述语音唤醒条件中包含定制唤醒关键词,以及所述定制唤醒模型是基于所述定制唤醒关键词和相应的语音合成音频而构建的;在所述用户语音数据满足所述语音唤醒条件时,执行语音唤醒操作。由此,能够实现更大程度上提升定制唤醒关键词的唤醒可靠性,并且,在构建定制唤醒模型的过程中,无需人工录制定制唤醒词,能够降低定制唤醒模型的构建成本。
Description
技术领域
本发明属于互联网技术领域,尤其涉及一种语音唤醒、定制唤醒模型的方法、电子设备和存储介质。
背景技术
在语音唤醒技术中,当用户发出语音指令时,设备能够从休眠状态中被唤醒,并给出响应。
为了提高人们对语音唤醒服务的认可度和使用率,语音唤醒产品可以开放唤醒词定制功能。目前,市面上开放给客户的都是基于通用模型生成的bin文件,用户预置的唤醒词只需要经过评估后进行导出文件,然后配合sdk使用。然而,如果用户需要深度定制唤醒词模型,保证定制唤醒词的性能,希望达到唤醒响应时间短、唤醒率更高且误唤醒率更低的效果的话,则上述市面上的语音唤醒产品是无法满足需求的。
此外,如果想要达到高性能唤醒词,一般是使用人工录制数据定制唤醒词,经模型训练后研究部门输出唤醒模型,但这种人力会消耗比较大,项目交付周期长,因为有数据录入和项目投入,所以费用会比较高,所以这种比较适用于预算充分的客户。
针对上述问题,目前业界暂时并未提供较佳的解决方案。
发明内容
本发明实施例提供一种语音唤醒、定制唤醒模型的方法、电子设备和存储介质,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音唤醒方法,包括:获取用户语音数据;基于定制唤醒模型识别所述用户语音数据是否满足语音唤醒条件;所述语音唤醒条件中包含定制唤醒关键词,以及所述定制唤醒模型是基于所述定制唤醒关键词和相应的语音合成音频而构建的;在所述用户语音数据满足所述语音唤醒条件时,执行语音唤醒操作。
第二方面,本发明实施例提供一种定制唤醒模型的方法,包括:获取定制唤醒关键词;获取与所述定制唤醒关键词对应的语音合成音频;基于所述语音合成音频和所述定制唤醒关键词对语音唤醒模型进行训练,以构建定制唤醒模型。
第三方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第四方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述方法的步骤。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述方法的步骤。
本发明实施例的有益效果在于:
在用户定制了唤醒关键词时,利用定制唤醒关键词和相应的语音合成音频而重新训练并构建定制唤醒模型,相比于目前一些唤醒模型在实现定制功能时只更换唤醒词,而不对原有模型结构进行调整,能够实现更大程度上提升定制唤醒关键词的唤醒可靠性。此外,在构建定制唤醒模型的过程中,无需人工录制定制唤醒词,能够降低定制唤醒模型的构建成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的语音唤醒方法的一示例的流程图;
图2示出了根据本发明实施例的定制唤醒模型的方法的一示例的流程图;
图3示出了根据本发明实施例的确定定制唤醒模型的置信度阈值的一示例的流程图;
图4示出了根据本发明实施例的定制唤醒模型的方法的一示例的流程图;
图5示出了根据本发明实施例的对唤醒模型进行定制的一示例的流程图;
图6是本发明另一实施例提供的执行语音唤醒方法或定制唤醒模型的方法的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“***”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地***、分布式***中另一元件交互的,和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了根据本发明实施例的语音唤醒方法的一示例的流程图。关于本发明实施例方法的执行主体,其可以是各种具有语音唤醒功能的电子设备(例如客户端),示例性地,电子设备通过运行语音软件程序而实现语音唤醒功能。
如图1所示,在步骤110中,获取用户语音数据。例如,电子设备可以通过麦克风采集用户说话声,从而生成用户语音数据。
在步骤120中,基于定制唤醒模型识别用户语音数据是否满足语音唤醒条件。这里,语音唤醒条件中包含定制唤醒关键词,以及定制唤醒模型是基于定制唤醒关键词和相应的语音合成音频而构建的。
需说明的是,不同于目前相关技术中直接使用通用唤醒模型来识别定制唤醒词,而在本发明实施例中,针对定制唤醒关键词而重新构建相应的定制唤醒模型,能有效提高唤醒精确度。此外,定制唤醒模型是采用与定制唤醒关键词相应的语音合成音频进行形成的,无需过多的人工干预,能有效降低人工建模成本,并提高产品上线效率。
在步骤130中,在用户语音数据满足语音唤醒条件时,执行语音唤醒操作。示例性地,如果用户语音数据中包含定制唤醒关键词,则可以确定执行唤醒操作。
图2示出了根据本发明实施例的定制唤醒模型的方法的一示例的流程图。关于本发明实施例的执行主体,其可以是各种具有处理能力的电子设备(例如,语音服务器),以实现定制或重建唤醒模型的目标。
如图2所示,在步骤210中,获取定制唤醒关键词。示例性地,用户可以通过客户端输入定制唤醒关键词,使得客户端将定制唤醒关键词上传至语音服务器。
在步骤220中,获取与定制唤醒关键词对应的语音合成音频。示例性地,语音服务器可以调用语音合成模型生成与定制唤醒关键词对应的语音合成音频。
在步骤230中,基于语音合成音频和定制唤醒关键词对语音唤醒模型进行训练,以构建定制唤醒模型。这里,可以采用各种训练方式来对唤醒模型进行训练,在此应不加限制。
通过本发明实施例,采用与定制唤醒关键词相应的语音合成音频进行形成的,无需过多的人工干预,能有效降低人工建模成本,并提高定制唤醒模型的上线效率。
关于上述步骤220的实施细节,还可以基于语音合成模型,生成针对定制唤醒关键词的多个语音合成音频。这里,每一语音合成音频分别对应于不同类型的用户属性。需说明的是,为了保障模型性能的可靠性,对应模型训练样本的语音合成音频的数量应尽可能丰富,例如可以采用10000条左右的语音合成音频,并且,这一万条音频可以具有不同的属性维度,例如按照“人群、性别”维度而生成的,其中,人群包括儿童、成人、老人,性别分为:男、女。这样,可以覆盖了语音唤醒业务的使用人群,保障语音唤醒模型工作的可靠性。
由于语音合成音频缺乏背景音或其他噪声干扰,不符合真实说话人场景。为了更好地模拟真实说话场景下的用户语音音频,也为了能保障定制语音唤醒模型的唤醒可靠性。具体地,在实施上述步骤230时,可以基于预设的场景噪音音频对语音合成音频进行加噪处理,以生成相应的加噪音频,这里,场景噪音音频可以尽量采用多样化、通用场景下的噪音音频;进而,基于加噪音频和定制唤醒关键词对语音唤醒模型进行训练,以构建定制唤醒模型。
需说明的是,在目前相关技术中,在更换语音唤醒模型的唤醒词之后,语音唤醒模型的置信度阈值依然没有改变,仍然是经过通用唤醒模型算法计算获取到的。然而,不同唤醒词所对应的模型的置信度阈值可能也会发生变化,通用唤醒模型的置信度阈值一般只能满足无性能要求的客户的语音唤醒需求。
鉴于此,图3示出了根据本发明实施例的确定定制唤醒模型的置信度阈值的一示例的流程图。
如图3所示,在步骤310中,基于预设的误唤醒测试集,对定制唤醒模型进行误唤醒测试。
这里,误唤醒测试集包含多个反例测试音频,且反例测试音频采用除所述定制唤醒关键词之外的其他关键词。通过误唤醒测试集,能够有效验证唤醒资源对非唤醒词的拒识性能。
在步骤320中,当定制唤醒模型的误唤醒测试结果满足预设的误唤醒条件时,获取定制唤醒模型所输出的预测置信度,并根据预测置信度确定定制唤醒模型的置信度阈值。示例性地,当在预设的误唤醒时长(如48h)内通过误唤醒测试集被误唤醒了特定次数(如,2次),则可以将定制唤醒模型输出的得分按照从高到低进行排序(0.66 0.64 0.62...),进而选择对应的阈值,如选择第2个值(0.64)作为阈值。
进一步地,还可以对计算所得到的定制唤醒模型的置信度阈值进行测试,以确定其是否能够满足实际唤醒场景的需求。
具体地,在步骤330中,基于预设的正例测试集对定制唤醒模型进行测试,以确定相应的测试唤醒率。这里,正例测试集包含多个正例测试音频,且正例测试音频采用定制唤醒关键词。
当测试唤醒率达到预设的唤醒率阈值时,跳转至步骤341。当测试唤醒率小于唤醒率阈值时,跳转至步骤343。这里,唤醒率阈值可以依据用户需求或产品需要而进行调整或设置。
在步骤341中,保存置信度阈值。此时,将定制模型与置信度阈值共同保存,并可以针对定制用户直接进行唤醒功能使用,满足用户的定制唤醒需求。
在步骤343中,调整置信度阈值。这里,可以根据需求将置信度阈值进行升高或降低,并重新验证定制唤醒模型的唤醒率,直到测试唤醒率达标。
通过本发明实施例,在确定定制唤醒模型的同时,还可以对定制唤醒模型的阈值进行调整,实现针对不同的定制唤醒词的适配,保障了定制唤醒模型的可靠性。
在本发明实施例的一些示例中,在语音服务器成功构建定制唤醒模型后,可以远程接收用户语音,并远程为用户提供语音唤醒服务。在本发明实施例的另一些示例中,在语音服务器成功构建定制唤醒模型后,可以将定制唤醒模型返回至定制用户的客户端,使得客户端实现本地的定制唤醒功能。具体地,图4示出了根据本发明实施例的定制唤醒模型的方法的一示例的流程图。
如图4所示,在步骤410中,从第一客户端接收第一定制唤醒请求,并解析第一定制唤醒请求中的定制唤醒关键词。
在步骤420中,获取与定制唤醒关键词对应的语音合成音频。
在步骤430中,基于语音合成音频和定制唤醒关键词对语音唤醒模型进行训练,以构建定制唤醒模型。
在步骤440中,发送定制唤醒模型至第一客户端。由此,实现第一客户端的本地唤醒功能。
在一些业务场景下,不同用户的唤醒关键词可能会发生重复,此时可以将定制唤醒模型在此类用户中进行复用。相应地,在构建定制唤醒模型之后,语音服务器还可以关联存储定制唤醒模型和定制唤醒关键词。然后,从第二客户端接收第二定制唤醒请求,第二客户端与第一客户端可以分别表示不同的电子设备。进而,当第二定制唤醒请求中包含同一定制唤醒关键词时,发送定制唤醒模型至第二客户端。这样,在第二客户端与第一客户端所请求的定制唤醒关键词相同时,可以直接将已构建的第一客户端的定制唤醒模型发送给第二客户端,直接进行复用,而无需进行模型训练等操作,能有效降低模型重建成本。
通过本发明实施例,提供了一个唤醒自训练平台,针对队模型性能有一定要求、唤醒定制预算有限的客户,实现了一种经济且高效的解决方案。这里,唤醒自训练平台是使用TTS(Text To Speech,从文本到语音)引擎合成数据进行唤醒词定制的产品,提供唤醒词评估、模型训练、模型测试和资源下载。
图5示出了根据本发明实施例的对唤醒模型进行定制的一示例的流程图。
如图5所示,首先用户提交需要定制的唤醒词,经过唤醒词评估后,创建唤醒模型,最后开启训练,生成唤醒模型。具体地,用户可以选择普通训练模式和高级训练模式,普通模式训练满足无性能要求、无唤醒定制预算的客户;高级训练模式,即通过TTS引擎自动生成语音合成数据,然后经过数据模拟加噪,提取特征输出计算机识别的矩阵文件,经过数据融合后训练生成神经网络模型,然后打包生成bin文件,最后计算阈值,整个训练任务完成,无需开发人员人工介入,平台自动进行模型训练并生成唤醒模型,打包生成的bin文件和阈值可以集成不同***生成sdk包使用。
进一步地,唤醒自训练平台在数据流处理方面(TTS原始数据、数据模拟和提取特征)方面有唤醒词训练数据复用功能。需说明的是,一个唤醒模型训练一般需要训练12小时,时间耗时比较长,数据存储也占用硬盘容量,通过数据复用功能,能较佳地弥补上述缺陷。
如果客户提交的唤醒词已训练过,这些数据是否可复用不需要重新训练,这样会减少客户模型训练时间,服务器的硬盘容器占用量也会大大减少。由此,服务器的底层服务会存储每个唤醒词的数据,在模型请求训练时会检查数据是否存在,如果存在就直接复用已训练好的唤醒模型即可。
通过本发明实施例,使用唤醒自训练平台,用户可通过平台自主完成模型训练,在费用方面人力成本大大减少,使用TTS技术准备训练数据,无需人工录制音频;在周期方面不依赖项目排期,模型生成在12小时左右完成;在性能方面相比通用模型有显著提升,在安静、成年、老人场景下的性能接近人工定制,所以用户可通过此平台完成深度定制唤醒词模型。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语音唤醒方法或定制唤醒模型的方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语音唤醒方法或定制唤醒模型的方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行语音唤醒方法或定制唤醒模型的方法。
图6是本发明另一实施例提供的执行语音唤醒方法或定制唤醒模型的方法的电子设备的硬件结构示意图,如图6所示,该设备包括:
一个或多个处理器610以及存储器620,图6中以一个处理器610为例。
执行语音唤醒方法或定制唤醒模型的方法的设备还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的语音唤醒方法或定制唤醒模型的方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音唤醒方法或定制唤醒模型的方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据语音交互设备的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至语音交互设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与语音交互设备的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的语音唤醒方法或定制唤醒模型的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音唤醒方法,包括:
获取用户语音数据;
基于定制唤醒模型识别所述用户语音数据是否满足语音唤醒条件;所述语音唤醒条件中包含定制唤醒关键词,以及所述定制唤醒模型是基于所述定制唤醒关键词和相应的语音合成音频而构建的;
在所述用户语音数据满足所述语音唤醒条件时,执行语音唤醒操作。
2.一种定制唤醒模型的方法,包括:
获取定制唤醒关键词;
获取与所述定制唤醒关键词对应的语音合成音频;
基于所述语音合成音频和所述定制唤醒关键词对语音唤醒模型进行训练,以构建定制唤醒模型。
3.根据权利要求2所述的方法,其中,在基于所述语音合成音频和所述定制唤醒关键词对语音唤醒模型进行训练,以构建定制唤醒模型之后,所述方法还包括:
基于预设的误唤醒测试集,对所述定制唤醒模型进行误唤醒测试;其中,所述误唤醒测试集包含多个反例测试音频,且所述反例测试音频采用除所述定制唤醒关键词之外的其他关键词;
当所述定制唤醒模型的误唤醒测试结果满足预设的误唤醒条件时,获取所述定制唤醒模型所输出的预测置信度,并根据所述预测置信度确定所述定制唤醒模型的置信度阈值。
4.根据权利要求2所述的方法,其中,所述根据所述预测置信度确定所述定制唤醒模型的置信度阈值,包括:
基于预设的正例测试集对所述定制唤醒模型进行测试,以确定相应的测试唤醒率;其中,所述正例测试集包含多个正例测试音频,且所述正例测试音频采用所述定制唤醒关键词;
当所述测试唤醒率达到预设的唤醒率阈值时,保存所述置信度阈值;
当所述测试唤醒率小于所述唤醒率阈值时,调整所述置信度阈值。
5.根据权利要求2所述的方法,其中,所述基于所述语音合成音频和所述定制唤醒关键词对语音唤醒模型进行训练,以构建定制唤醒模型,包括:
基于预设的场景噪音音频对所述语音合成音频进行加噪处理,以生成相应的加噪音频;
基于所述加噪音频和所述定制唤醒关键词对语音唤醒模型进行训练,以构建定制唤醒模型。
6.根据权利要求2所述的方法,其中,所述获取定制唤醒关键词,包括:
从第一客户端接收第一定制唤醒请求,并解析所述第一定制唤醒请求中的定制唤醒关键词;
其中,在所述构建定制唤醒模型之后,所述方法还包括:
发送所述定制唤醒模型至所述第一客户端。
7.根据权利要求6所述的方法,其中,在所述构建定制唤醒模型之后,所述方法还包括:
关联存储所述定制唤醒模型和所述定制唤醒关键词;
从第二客户端接收第二定制唤醒请求;
当所述第二定制唤醒请求中包含所述定制唤醒关键词时,发送所述定制唤醒模型至所述第二客户端。
8.根据权利要求1所述的方法,其中,所述获取与所述定制唤醒关键词对应的语音合成音频,包括:
基于语音合成模型,生成针对所述定制唤醒关键词的多个语音合成音频;每一所述语音合成音频分别对应于不同类型的用户属性。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111658942.5A CN114220423A (zh) | 2021-12-31 | 2021-12-31 | 语音唤醒、定制唤醒模型的方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111658942.5A CN114220423A (zh) | 2021-12-31 | 2021-12-31 | 语音唤醒、定制唤醒模型的方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114220423A true CN114220423A (zh) | 2022-03-22 |
Family
ID=80707141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111658942.5A Pending CN114220423A (zh) | 2021-12-31 | 2021-12-31 | 语音唤醒、定制唤醒模型的方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220423A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064160A (zh) * | 2022-08-16 | 2022-09-16 | 阿里巴巴(中国)有限公司 | 语音唤醒方法以及装置 |
WO2023207149A1 (zh) * | 2022-04-29 | 2023-11-02 | 荣耀终端有限公司 | 一种语音识别方法和电子设备 |
-
2021
- 2021-12-31 CN CN202111658942.5A patent/CN114220423A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023207149A1 (zh) * | 2022-04-29 | 2023-11-02 | 荣耀终端有限公司 | 一种语音识别方法和电子设备 |
CN117012189A (zh) * | 2022-04-29 | 2023-11-07 | 荣耀终端有限公司 | 一种语音识别方法和电子设备 |
CN115064160A (zh) * | 2022-08-16 | 2022-09-16 | 阿里巴巴(中国)有限公司 | 语音唤醒方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107507612B (zh) | 一种声纹识别方法及装置 | |
JP6876752B2 (ja) | 応答方法及び装置 | |
CN111739521B (zh) | 电子设备唤醒方法、装置、电子设备及存储介质 | |
US11264006B2 (en) | Voice synthesis method, device and apparatus, as well as non-volatile storage medium | |
CN108615525B (zh) | 一种语音识别方法及装置 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN114220423A (zh) | 语音唤醒、定制唤醒模型的方法、电子设备和存储介质 | |
CN107481720A (zh) | 一种显式声纹识别方法及装置 | |
CN112767910B (zh) | 音频信息合成方法、装置、计算机可读介质及电子设备 | |
CN111862942B (zh) | 普通话和四川话的混合语音识别模型的训练方法及*** | |
CN109218390A (zh) | 用户筛选方法及装置 | |
CN104506412B (zh) | 一种用户信息展示方法及相关设备、*** | |
CN112786029B (zh) | 使用弱监督数据训练vad的方法及装置 | |
CN110347817B (zh) | 智能应答方法及装置、存储介质、电子设备 | |
CN111798279A (zh) | 基于对话的用户画像生成方法和装置 | |
CN111179915A (zh) | 基于语音的年龄识别方法及装置 | |
CN111312222A (zh) | 一种唤醒、语音识别模型训练方法及装置 | |
US10769203B1 (en) | System and method for prediction and recommendation using collaborative filtering | |
US20230230571A1 (en) | Audio processing method and apparatus based on artificial intelligence, device, storage medium, and computer program product | |
CN109033285A (zh) | 信息推送方法及装置 | |
CN111968678B (zh) | 一种音频数据处理方法、装置、设备及可读存储介质 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及*** | |
CN114339392B (zh) | 视频剪辑方法、装置、计算机设备及存储介质 | |
CN113658586B (zh) | 语音识别模型的训练方法、语音交互方法及装置 | |
CN112672207B (zh) | 音频数据处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |