CN109978145B - 一种处理方法及装置 - Google Patents

一种处理方法及装置 Download PDF

Info

Publication number
CN109978145B
CN109978145B CN201910251748.1A CN201910251748A CN109978145B CN 109978145 B CN109978145 B CN 109978145B CN 201910251748 A CN201910251748 A CN 201910251748A CN 109978145 B CN109978145 B CN 109978145B
Authority
CN
China
Prior art keywords
neural network
deep neural
voice
output
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910251748.1A
Other languages
English (en)
Other versions
CN109978145A (zh
Inventor
陈致生
汪俊杰
杨琳
梁玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910251748.1A priority Critical patent/CN109978145B/zh
Publication of CN109978145A publication Critical patent/CN109978145A/zh
Application granted granted Critical
Publication of CN109978145B publication Critical patent/CN109978145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开一种处理方法,包括:获得待处理的目标对象;将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成;获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。由此可见,本申请采用一个深度神经网络模型即可完成认证操作,实现了联合设计。

Description

一种处理方法及装置
技术领域
本申请属于人工智能技术领域,尤其涉及一种处理方法及装置。
背景技术
通常一个嵌入式的唤醒***需要执行多个声音认证的子任务。但现阶段各个子任务由互相独立的模型处理,以此来完成认证。
发明内容
为解决上述问题,本申请提供如下技术方案:
一种处理方法,包括:
获得待处理的目标对象;
将所述目标对象输入至预先构建的深度神经网络模型中;其中,所述深度神经网络模型包括多个深度神经网络分组,所述深度神经网络分组由至少一层神经网络构成;
获得所述多个深度神经网络分组中指定分组所输出的目标特征,并基于所述目标特征执行认证操作。
优选的,其中,所述多个深度神经网络分组中至少一个分组所输出的至少局部特征是从另一个分组所输出的特征中提取到的。
优选的,其中,所述获得待处理的目标对象,包括:
获得待处理的声音。
优选的,其中,所述获得所述多个深度神经网络分组中指定分组所输出的目标特征,并基于所述目标特征执行认证操作,包括:
获得所述多个深度神经网络分组中第一指定分组所输出的语音活动特征,并判断所述语音活动特征是否符合第一指定要求;
如果所述语音活动特征符合所述第一指定要求,获得所述多个深度神经网络分组中第二指定分组所输出的关键字特征,并判断所述关键字特征是否符合第二指定要求;
如果所述关键字特征符合所述第二指定要求,获得所述多个深度神经网络分组中第三指定分组所输出的声文特征,并判断所述声文特征是否符合第三指定要求;
如果所述声文特征符合所述第三指定要求,确定所述待处理的声音通过语音认证;
如果所述语音活动特征不符合所述第一指定要求或者所述关键字特征不符合所述第二指定要求或者所述声文特征不符合所述第三指定要求,确定所述待处理的声音未通过语音认证。
优选的,所述方法还包括:
如果所述待处理的声音未通过语音认证,中断所述深度神经网络模型的运行。
优选的,其中,预先构建深度神经网络模型的过程,包括:
获得样本;
将所述样本输入至深度神经网络中,以调整所述深度神经网络中各层神经网络的权重参数;
获得所述深度神经网络所输出的样本特征,并比较所述样本特征与所述样本对应的实际特征;
基于所述样本特征和所述实际特征的比较结果重新调整所述深度神经网络中各层神经网络的权重参数。
优选的,其中,所述比较所述样本特征与所述样本对应的实际特征,包括:
针对所述样本特征中的每一种特征来说,计算该特征与对应的所述实际特征的损失函数值;
所述基于所述样本特征和所述实际特征的比较结果重新调整所述深度神经网络中各层神经网络的权重参数,包括:
基于所述样本特征中所有特征对应的损失函数值重新调整所述深度神经网络中各层神经网络的权重参数。
优选的,其中,所述基于所述样本特征中所有特征对应的损失函数值重新调整所述深度神经网络中各层神经网络的权重参数,包括:
利用所述样本特征中所有特征对应的损失函数值计算所述深度神经网络的共同损失函数值;
在所述共同损失函数值大于指定阈值的情况下,重新调整所述深度神经网络中各层神经网络的权重参数。
一种处理装置,包括:
获得模块,用于获得待处理的目标对象;
输入模块,用于将所述目标对象输入至预先构建的深度神经网络模型中;其中,所述深度神经网络模型包括多个深度神经网络分组,所述深度神经网络分组由至少一层神经网络构成;
执行模块,用于获得所述多个深度神经网络分组中指定分组所输出的目标特征,并基于所述目标特征执行认证操作。
优选的,其中,所述多个深度神经网络分组中至少一个分组所输出的至少局部特征是从另一个分组所输出的特征中提取到的。
经由上述的技术方案可知,本申请实施例提供了一种处理方法,预先构建一个包括多个深度神经网络分组、且深度神经网络分组由至少一层神经网络构成的深度神经网络模型。将待处理的目标对象输入至该深度神经网络模型中,获得多个深度神经网络分组中指定分组所输出的目标特征,进而基于目标特征执行认证操作。由此可见,本申请采用一个深度神经网络模型即可完成认证操作,实现了联合设计。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例一公开的处理方法的方法流程图;
图2为深度神经网络模型的示例;
图3为本申请实施例二公开的处理方法的方法流程图;
图4为本申请实施例三公开的处理方法的方法流程图;
图5为本申请实施例四公开的处理方法的方法流程图;
图6为深度神经网络的示例;
图7为本申请实施例五公开的处理方法的方法流程图;
图8为本申请实施例六公开的处理方法的方法流程图;
图9为本申请实施例公开的处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请公开的一种处理方法实施例一中,如图1所示,该方法包括以下步骤:
步骤S101:获得待处理的目标对象。
本实施例中,目标对象为待认证的对象,该对象可以为监测到的声音,通过处理该声音执行语音唤醒操作;还可以为获得的图像等等,通过处理该图像执行人脸识别操作。需要说明的是,上述举例内容仅为具体应用的一种形式,可以理解的是,其他未列举到的对象也在本申请的保护范围内。
步骤S102:将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成。
为方便理解,图2示出一个深度神经网络模型的示例。该深度神经网络模型包括三个深度神经网络分组,由浅及深的,深度神经网络分组1由第一层神经网络构成,深度神经网络分组2由第二层神经网络、第三层神经网络和第四层神经网络构成,深度神经网络分组3由第五层神经网络和第六层神经网络构成。而神经网络自身构成以及两两之间的关系与现有深度神经网络,比如DNN(Deep Neural Networks)相同,在此不再赘述。
继续以图2所示的深度神经网络模型为例,将目标对象输入至深度神经网络模型后,通过深度神经网络分组1、深度神经网络分组2和深度神经网络分组3的处理获得目标对象对应的预测特征。当然,该深度神经网络模型具有将目标对象对应的预测特征趋向于目标对象对应的实际特征的能力。
步骤S103:获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。
本实施例中,可以预先确定被指定的用于执行子任务的深度神经网络分组,进而获得该指定分组所输出的目标特征,并通过目标特征与指定条件的匹配结果来选择性执行认证操作。
为方便理解,继续以目标对象为监测到的声音、图2所示的深度神经网络模型为例。被指定的深度神经网络分组包括深度神经网络分组1、深度神经网络分组2和深度神经网络分组3,并且通过构建可以获得各指定分组所输出的目标特征的类型,比如深度神经网络分组1输出语音活动特征、深度神经网络分组2输出关键字特征、深度神经网络分组3输出声文特征,再比如深度神经网络分组1输出关键字特征、深度神经网络分组2输出语音活动特征、深度神经网络分组3输出声文特征等等。
以深度神经网络分组1输出语音活动特征、深度神经网络分组2输出关键字特征、深度神经网络分组3输出声文特征为例。对于一声音,通过语音活动特征判断监测到的声音中是否存在语音活动、通过关键字特征判断活动的语音中是否含有指定关键字、通过声文特征判断活动的语音是否为指定用户的语音。如果该声音中存在语音活动、且活动的语音中含有指定关键字、且活动的为指定用户的语音,即可确定该声音通过认证,进而执行语音唤醒操作。当然,如果该声音中不存在语音活动或者活动的语音中不含有指定关键字或者活动的语音不为指定用户的语音,即可确定该声音未通过认证,不执行语音唤醒操作。
需要说明的是,对于监测到的声音,上述举例内容仅为具体应用的一种形式,可以理解的是,其他未列举到的指定分组也在本申请的保护范围内。
由此可见,本申请提供的处理方法采用一个深度神经网络模型即可完成认证操作,实现了联合设计。
作为深度神经网络模型的一种实现方式,本申请实施例二公开了一种处理方法,如图3所示,该方法包括如下步骤:
步骤S201:获得待处理的目标对象。
步骤S202:将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成,多个深度神经网络分组中至少一个分组所输出的至少局部特征是从另一个分组所输出的特征中提取到的。
本实施例中,由于子任务之间大多是相关的,比如检测关键字时针对具有语音活动的声音段,再比如检测声文时针对具有关键字的声音段,因此在构建深度神经网络模型时,一个深度神经网络分组的输入可以是另一个深度神经网络分组的输出,也就是一个深度神经网络分组所输出的至少局部特征可以从另一个深度神经网络分组所输出的特征中提取。
为方便理解,继续以目标对象为监测到的声音、图2所示的深度神经网络模型为例。由深度神经网络分组1检测语音活动输出语音活动特征、由深度神经网络分组2检测关键字输出关键字特征,由深度神经网络分组3检测声文输出声文特征。此外,关键字特征的至少局部特征是从语音活动特征中提取到的,声文特征的至少局部特征是从关键字特征中提取到的。
步骤S203:获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。
为方便理解,继续以目标对象为监测到的声音、图2所示的深度神经网络模型为例。在获得深度神经网络分组1所输出的语音活动特征、深度神经网络分组2所输出的关键字特征、以及深度神经网络分组3所输出的声文特征的过程中,由于深度神经网络分组2的输入为语音活动特征、深度神经网络分组3的输入为关键字特征,因此可以由深度神经网络分组3输出语音活动特征、关键字特征和声文特征。
由此可见,本申请提供的处理方法,采用一个特征分层共享的深度神经网络模型即可完成认证操作,实现了联合设计并降低了模型功耗,极适合应用于低资源的嵌入式端。
在目标对象为监测到的声音时,作为获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作的一种实现方式,本申请实施例三公开了一种处理方法,如图4所示,该方法包括如下步骤:
步骤S301:获得待处理的声音。
本实施例中,可以由声波采集装置,比如麦克风监测声音。
步骤S302:将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成。
步骤S303:获得多个深度神经网络分组中第一指定分组所输出的语音活动特征,并判断语音活动特征是否符合第一指定要求。若是,则执行步骤S304;若否,则执行步骤S307。
为方便理解,继续以图2所示的深度神经网络模型为例。本实施例中首先获得深度神经网络分组1所输出的语音活动特征,并通过语音活动特征判断监测到的声音中是否存在语音活动。在确定声音中存在语音活动时,执行步骤S304;在确定声音中不存在语音活动时,执行步骤S307。
步骤S304:获得多个深度神经网络分组中第二指定分组所输出的关键字特征,并判断关键字特征是否符合第二指定要求。若是,则执行步骤S305;若否,则执行步骤S307。
为方便理解,继续以图2所示的深度神经网络模型为例。本实施例中继而获得深度神经网络分组2所输出的关键字特征,并通过关键字特征判断活动的语音中是否含有指定关键字。在确定活动的语音中含有指定关键字时,执行步骤S305;在确定活动的声音中不含有指定关键字时,执行步骤S307。
步骤S305:获得多个深度神经网络分组中第三指定分组所输出的声文特征,并判断声文特征是否符合第三指定要求。若是,则执行步骤S306;若否,则执行步骤S307。
为方便理解,继续以图2所示的深度神经网络模型为例。本实施例中最后获得深度神经网络分组3所输出的声文特征,并通过声文特征判断活动的语音是否为指定用户的语音。在确定活动的语音为指定用户的语音时,执行步骤S306;在确定活动的语音不为指定用户的语音时,执行步骤S307。
步骤S306:确定待处理的声音通过语音认证。
步骤S307:确定待处理的声音未通过语音认证。
需要说明的是,本实施例中,在确定待处理的声音未通过语音认证时,即可确定不执行语音唤醒操作,而无需获得其他指定分组所输出的预测特征,对于深度神经网络模型的运行状态可以无需额外管理。
当然,进一步,为降低模型功耗,可以在确定待处理的声音未通过语音认证时,中断深度神经网络模型的运行。
由此可见,本申请提供的处理方法,至少采用深度神经网络模型的部分特征即可完成认证操作,实现了联合设计并降低了处理计算量,极适合应用于低资源的嵌入式端。
作为预先构建深度神经网络模型的一种实现方式,本申请实施例四公开了一种处理方法,如图5所示,该方法包括如下步骤:
步骤S401:获得待处理的目标对象。
步骤S402:将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成;预先构建深度神经网络模型的过程,包括:获得样本;将样本输入至深度神经网络中,以调整深度神经网络中各层神经网络的权重参数;获得深度神经网络所输出的样本特征,并比较样本特征与样本对应的实际特征;基于样本特征和实际特征的比较结果重新调整深度神经网络中各层神经网络的权重参数。
为方便理解,图6示出一个深度神经网络的示例。深度神经网络(在训练得到深度神经网络模型之前,深度神经网络模型称为神经网络)包括:输入层、卷积池化层、第一层全连接层、一定数目个第二层全连接层、一定数目个第三层全连接层、……、一定数目个第N层全连接层。其中,输入层用于输入样本,卷积池化层、第一层全连接层、第二层全连接层、第三层全连接层、……、第N层全连接层分别对应第一层神经网络、第二层神经网络、第三层神经网络、第四层神经网络、……、第N+1层神经网络。
获得上述深度神经网络针对样本所输出的样本特征,并通过比较该样本特征与样本对应的实际特征获得差异特征,进而基于该差异特征确定权重参数的调整量并调整。而差异特征与权重参数的调整量之间的关系,可以预先设置,本实施例对此不做限定。
步骤S403:获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。
由此可见,本申请提供的处理方法通过构建一个深度神经网络模型即可完成认证操作,实现了联合设计。
作为比较样本特征与样本对应的实际特征、以及基于样本特征和实际特征的比较结果重新调整深度神经网络中各层神经网络的权重参数的一种实现方式,本申请实施例五公开了一种处理方法,如图7所示,该方法包括如下步骤:
步骤S501:获得待处理的目标对象。
步骤S502:将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成;预先构建深度神经网络模型的过程,包括:获得样本;将样本输入至深度神经网络中,以调整深度神经网络中各层神经网络的权重参数;获得深度神经网络所输出的样本特征,并针对样本特征中的每一种特征来说,计算该特征与对应的实际特征的损失函数值;基于样本特征中所有特征对应的损失函数值重新调整深度神经网络中各层神经网络的权重参数。
本实施例中,可以采用指定损失函数分别计算各样本特征与对应的实际特征之间的损失函数值;进而基于所有损失函数值确定权重参数的调整量并调整。具体的,针对每一个样本特征,可以比较该样本特征的损失函数值与预先设置的损失函数阈值,如果损失函数值小于损失函数阈值,则表示该样本特征训练达标,反之,如果损失函数值不小于损失函数阈值,则表示该样本特征训练未达标,进而基于各样本特征的训练结果(达标或者不达标)来确定权重参数的调整量。而各样本特征的训练结果与权重参数的调整量之间的关系,可以预先设置,本实施例对此不做限定。
步骤S503:获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。
由此可见,本申请提供的处理方法通过损失函数构建一个深度神经网络模型即可完成认证操作,实现了联合设计。
作为比较样本特征与样本对应的实际特征、以及基于样本特征和实际特征的比较结果重新调整深度神经网络中各层神经网络的权重参数的一种实现方式,本申请实施例六公开了一种处理方法,如图8所示,该方法包括如下步骤:
步骤S601:获得待处理的目标对象。
步骤S602:将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成;预先构建深度神经网络模型的过程,包括:获得样本;将样本输入至深度神经网络中,以调整深度神经网络中各层神经网络的权重参数;获得深度神经网络所输出的样本特征,并针对样本特征中的每一种特征来说,计算该特征与对应的实际特征的损失函数值;利用样本特征中所有特征对应的损失函数值计算深度神经网络的共同损失函数值;在共同损失函数值大于指定阈值的情况下,重新调整深度神经网络中各层神经网络的权重参数。
本实施例中,在训练时可以预先为各样本特征指定权重,并将所有样本特征的损失函数值的加权和作为共同损失函数值。进一步比较共同损失函数值与预先设置的共同损失函数阈值,如果共同损失函数值小于共同损失函数阈值,则表示所有样本特征训练达标,反之,如果共同损失函数值不小于共同损失函数阈值,则表示至少部分样本特征训练未达标,进而基于共同损失函数值与共同损失函数阈值的差异函数值来确定权重参数的调整量并调整。而差异函数值与权重参数的调整量之间的关系,可以预先设置,本实施例对此不做限定。
步骤S603:获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。
由此可见,本申请提供的处理方法通过共同损失函数构建一个深度神经网络模型即可完成认证操作,实现了联合设计。
与上述处理方法对应的,本申请还公开了一种处理装置,如图9所示,该处理装置包括:
获得模块100,用于获得待处理的目标对象。
输入模块200,用于将目标对象输入至预先构建的深度神经网络模型中;其中,深度神经网络模型包括多个深度神经网络分组,深度神经网络分组由至少一层神经网络构成;
执行模块300,用于获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作。
由此可见,本申请提供的处理装置采用一个深度神经网络模型即可完成认证操作,实现了联合设计。
在本申请公开的处理装置的另一个实施例中,多个深度神经网络分组中至少一个分组所输出的至少局部特征是从另一个分组所输出的特征中提取到的。
由此可见,本申请提供的处理装置,采用一个特征分层共享的深度神经网络模型即可完成认证操作,实现了联合设计并降低了模型功耗,极适合应用于低资源的嵌入式端。
在本申请公开的处理装置的另一个实施例中,获得模块100获得待处理的目标对象,包括:
获得待处理的声音。
由此可见,本申请提供的处理装置采用一个深度神经网络模型即可完成针对声音的认证操作,实现了联合设计。
在本申请公开的处理装置的另一个实施例中,执行模块300获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作,包括:
获得所述多个深度神经网络分组中第一指定分组所输出的语音活动特征,并判断所述语音活动特征是否符合第一指定要求;如果所述语音活动特征符合所述第一指定要求,获得所述多个深度神经网络分组中第二指定分组所输出的关键字特征,并判断所述关键字特征是否符合第二指定要求;如果所述关键字特征符合所述第二指定要求,获得所述多个深度神经网络分组中第三指定分组所输出的声文特征,并判断所述声文特征是否符合第三指定要求;如果所述声文特征符合所述第三指定要求,确定所述待处理的声音通过语音认证;如果所述语音活动特征不符合所述第一指定要求或者所述关键字特征不符合所述第二指定要求或者所述声文特征不符合所述第三指定要求,确定所述待处理的声音未通过语音认证。
由此可见,本申请提供的处理装置,至少采用深度神经网络模型的部分特征即可完成认证操作,实现了联合设计并降低了处理计算量,极适合应用于低资源的嵌入式端。
在本申请公开的处理装置的另一个实施例中,执行模块300获得多个深度神经网络分组中指定分组所输出的目标特征,并基于目标特征执行认证操作,还包括:
如果所述待处理的声音未通过语音认证,中断所述深度神经网络模型的运行。
由此可见,本申请提供的处理装置,至少采用深度神经网络模型的部分特征即可完成认证操作,实现了联合设计,并在降低了处理计算量的同时降低模型功耗,极适合应用于低资源的嵌入式端。
在本申请公开的处理装置的另一个实施例中,输入模块200预先构建深度神经网络模型的过程,包括:
获得样本;将所述样本输入至深度神经网络中,以调整所述深度神经网络中各层神经网络的权重参数;获得所述深度神经网络所输出的样本特征,并比较所述样本特征与所述样本对应的实际特征;基于所述样本特征和所述实际特征的比较结果重新调整所述深度神经网络中各层神经网络的权重参数。
由此可见,本申请提供的处理装置通过构建一个深度神经网络模型即可完成认证操作,实现了联合设计。
在本申请公开的处理装置的另一个实施例中,输入模块200比较所述样本特征与所述样本对应的实际特征,包括:
针对所述样本特征中的每一种特征来说,计算该特征与对应的所述实际特征的损失函数值;
输入模块200基于所述样本特征和所述实际特征的比较结果重新调整所述深度神经网络中各层神经网络的权重参数,包括:
基于所述样本特征中所有特征对应的损失函数值重新调整所述深度神经网络中各层神经网络的权重参数。
由此可见,本申请提供的处理装置通过损失函数构建一个深度神经网络模型即可完成认证操作,实现了联合设计。
在本申请公开的处理装置的另一个实施例中,输入模块200基于所述样本特征中所有特征对应的损失函数值重新调整所述深度神经网络中各层神经网络的权重参数,包括:
利用所述样本特征中所有特征对应的损失函数值计算所述深度神经网络的共同损失函数值;
在所述共同损失函数值大于指定阈值的情况下,重新调整所述深度神经网络中各层神经网络的权重参数。
由此可见,本申请提供的处理装置通过共同损失函数构建一个深度神经网络模型即可完成认证操作,实现了联合设计。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上***或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种处理方法,包括:
获得待处理的目标对象,包括:获得待处理的声音;
将所述目标对象输入至预先构建的深度神经网络模型中;其中,所述深度神经网络模型包括多个深度神经网络分组,所述深度神经网络分组由至少一层神经网络构成;
获得所述多个深度神经网络分组中指定分组所输出的目标特征,并基于所述目标特征执行认证操作;
所述多个深度神经网络分组中第一指定分组基于待处理的声音,检测语音活动输出语音活动特征,所述多个深度神经网络分组中第二指定分组基于所述语音活动特征,检测关键字输出关键字特征,所述多个深度神经网络分组中第三指定分组基于关键字特征,检测声文输出的声文特征;
所述获得所述多个深度神经网络分组中指定分组所输出的目标特征,并基于所述目标特征执行认证操作,包括:
获得所述多个深度神经网络分组中第一指定分组所输出的语音活动特征,并判断所述语音活动特征是否符合第一指定要求;
如果所述语音活动特征符合所述第一指定要求,获得所述多个深度神经网络分组中第二指定分组所输出的关键字特征,并判断所述关键字特征是否符合第二指定要求;
如果所述关键字特征符合所述第二指定要求,获得所述多个深度神经网络分组中第三指定分组所输出的声文特征,并判断所述声文特征是否符合第三指定要求;
如果所述声文特征符合所述第三指定要求,确定所述待处理的声音通过语音认证;
如果所述语音活动特征不符合所述第一指定要求或者所述关键字特征不符合所述第二指定要求或者所述声文特征不符合所述第三指定要求,确定所述待处理的声音未通过语音认证。
2.根据权利要求1所述的方法,其中,所述多个深度神经网络分组中至少一个分组所输出的至少局部特征是从另一个分组所输出的特征中提取到的。
3.根据权利要求1所述的方法,所述方法还包括:
如果所述待处理的声音未通过语音认证,中断所述深度神经网络模型的运行。
4.根据权利要求1所述的方法,其中,预先构建深度神经网络模型的过程,包括:
获得样本;
将所述样本输入至深度神经网络中,以调整所述深度神经网络中各层神经网络的权重参数;
获得所述深度神经网络所输出的样本特征,并比较所述样本特征与所述样本对应的实际特征;
基于所述样本特征和所述实际特征的比较结果重新调整所述深度神经网络中各层神经网络的权重参数。
5.根据权利要求4所述的方法,其中,所述比较所述样本特征与所述样本对应的实际特征,包括:
针对所述样本特征中的每一种特征来说,计算该特征与对应的所述实际特征的损失函数值;
所述基于所述样本特征和所述实际特征的比较结果重新调整所述深度神经网络中各层神经网络的权重参数,包括:
基于所述样本特征中所有特征对应的损失函数值重新调整所述深度神经网络中各层神经网络的权重参数。
6.根据权利要求5所述的方法,其中,所述基于所述样本特征中所有特征对应的损失函数值重新调整所述深度神经网络中各层神经网络的权重参数,包括:
利用所述样本特征中所有特征对应的损失函数值计算所述深度神经网络的共同损失函数值;
在所述共同损失函数值大于指定阈值的情况下,重新调整所述深度神经网络中各层神经网络的权重参数。
7.一种处理装置,包括:
获得模块,用于获得待处理的目标对象,所述获得待处理的目标对象包括:获得待处理的声音;
输入模块,用于将所述目标对象输入至预先构建的深度神经网络模型中;其中,所述深度神经网络模型包括多个深度神经网络分组,所述深度神经网络分组由至少一层神经网络构成;
执行模块,用于获得所述多个深度神经网络分组中指定分组所输出的目标特征,并基于所述目标特征执行认证操作;
其中,所述多个深度神经网络分组中第一指定分组基于所述目标对象,检测语音活动输出语音活动特征,所述多个深度神经网络分组中第二指定分组基于所述语音活动特征,检测关键字输出关键字特征,所述多个深度神经网络分组中第三指定分组基于关键字特征,检测声文输出的声文特征;
所述执行模块获得所述多个深度神经网络分组中指定分组所输出的目标特征,并基于所述目标特征执行认证操作包括:获得所述多个深度神经网络分组中第一指定分组所输出的语音活动特征,并判断所述语音活动特征是否符合第一指定要求;如果所述语音活动特征符合所述第一指定要求,获得所述多个深度神经网络分组中第二指定分组所输出的关键字特征,并判断所述关键字特征是否符合第二指定要求;如果所述关键字特征符合所述第二指定要求,获得所述多个深度神经网络分组中第三指定分组所输出的声文特征,并判断所述声文特征是否符合第三指定要求;如果所述声文特征符合所述第三指定要求,确定所述待处理的声音通过语音认证;如果所述语音活动特征不符合所述第一指定要求或者所述关键字特征不符合所述第二指定要求或者所述声文特征不符合所述第三指定要求,确定所述待处理的声音未通过语音认证。
8.根据权利要求7所述的装置,其中,所述多个深度神经网络分组中至少一个分组所输出的至少局部特征是从另一个分组所输出的特征中提取到的。
CN201910251748.1A 2019-03-29 2019-03-29 一种处理方法及装置 Active CN109978145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910251748.1A CN109978145B (zh) 2019-03-29 2019-03-29 一种处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910251748.1A CN109978145B (zh) 2019-03-29 2019-03-29 一种处理方法及装置

Publications (2)

Publication Number Publication Date
CN109978145A CN109978145A (zh) 2019-07-05
CN109978145B true CN109978145B (zh) 2021-09-14

Family

ID=67081843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910251748.1A Active CN109978145B (zh) 2019-03-29 2019-03-29 一种处理方法及装置

Country Status (1)

Country Link
CN (1) CN109978145B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment
CN113920988B (zh) * 2021-12-03 2022-03-22 深圳比特微电子科技有限公司 语音唤醒方法、装置及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657964A (zh) * 2017-08-15 2018-02-02 西北大学 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
CN107886957A (zh) * 2017-11-17 2018-04-06 广州势必可赢网络科技有限公司 一种结合声纹识别的语音唤醒方法及装置
CN108447495A (zh) * 2018-03-28 2018-08-24 天津大学 一种基于综合特征集的深度学习语音增强方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9978397B2 (en) * 2015-12-22 2018-05-22 Intel Corporation Wearer voice activity detection
US11130042B2 (en) * 2016-02-02 2021-09-28 Bao Tran Smart device
CN106792003B (zh) * 2016-12-27 2020-04-14 西安石油大学 一种智能广告插播方法、装置及服务器
CN108984555B (zh) * 2017-06-01 2021-09-28 腾讯科技(深圳)有限公司 用户状态挖掘和信息推荐方法、装置以及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657964A (zh) * 2017-08-15 2018-02-02 西北大学 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
CN107886957A (zh) * 2017-11-17 2018-04-06 广州势必可赢网络科技有限公司 一种结合声纹识别的语音唤醒方法及装置
CN108447495A (zh) * 2018-03-28 2018-08-24 天津大学 一种基于综合特征集的深度学习语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Speaker: an End-to-End Neural Speaker Embedding System;Chao Li 等;《arXiv》;20170508;第1-8页 *
基于卷积神经网络的语音端点检测方法研究;王海旭;《万方数据》;20151203;第34-42页 *

Also Published As

Publication number Publication date
CN109978145A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109978142B (zh) 神经网络模型的压缩方法和装置
US20240220731A1 (en) To Computer-based Interlocutor Understanding Using Classifying Conversation Segments
CN110995487B (zh) 多服务质量预测方法、装置、计算机设备及可读存储介质
EP4290824A1 (en) Task allocation method and apparatus based on internet-of-things device, and network training method and apparatus
WO2018170454A2 (en) Using different data sources for a predictive model
CN111602148A (zh) 正则化神经网络架构搜索
EP4152154A1 (en) Adaptive artificial neural network selection techniques
CN111047563B (zh) 一种应用于医学超声图像的神经网络构建方法
CN113314119B (zh) 语音识别智能家居控制方法及装置
CN109978145B (zh) 一种处理方法及装置
KR20210105976A (ko) 신경망을 위한 복합 모델 스케일링
CN110705821A (zh) 基于多评价维度的热点学科预测方法、装置、终端、及介质
Nie et al. An objective and interactive‐information‐based feedback mechanism for the consensus‐reaching process considering a non‐support degree for minority opinions
CN112687266A (zh) 语音识别方法、装置、计算机设备和存储介质
CN115345294A (zh) 图神经网络的训练方法、推荐方法及电子设备
CN114760308A (zh) 边缘计算卸载方法及装置
WO2022246986A1 (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN115794323A (zh) 任务调度方法、装置、服务器和存储介质
JP6843701B2 (ja) 音響信号処理のパラメータ予測装置及びパラメータ予測方法
CN117332065A (zh) 基于大语言模型关联词联想的咨询方法、***及终端
CN116822927A (zh) 一种业务流程优化方法、装置及存储介质
Xu et al. An interindividual iterative consensus model for fuzzy preference relations
CN116976461A (zh) 联邦学习方法、装置、设备及介质
KR20180065761A (ko) 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법
CN112052945A (zh) 神经网络的训练方法、神经网络的训练装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant