CN112861997A - 信息的处理方法、装置、存储介质和电子设备 - Google Patents

信息的处理方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112861997A
CN112861997A CN202110277986.7A CN202110277986A CN112861997A CN 112861997 A CN112861997 A CN 112861997A CN 202110277986 A CN202110277986 A CN 202110277986A CN 112861997 A CN112861997 A CN 112861997A
Authority
CN
China
Prior art keywords
training
information
model
preset model
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110277986.7A
Other languages
English (en)
Inventor
孙于惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd, Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202110277986.7A priority Critical patent/CN112861997A/zh
Publication of CN112861997A publication Critical patent/CN112861997A/zh
Priority to US17/491,305 priority patent/US20220292347A1/en
Priority to EP21205200.5A priority patent/EP4060566A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种信息的处理方法、装置、存储介质和电子设备,该方法包括:获取待处理信息,将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,其中,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理,处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。本公开通过目标概率或对预设模型进行训练的步数,来移除归一化结构,以获取处理模型,对模型训练的稳定性高,能够确保处理模型的质量,提高了目标信息的准确性。

Description

信息的处理方法、装置、存储介质和电子设备
技术领域
本公开涉及深度学习技术领域,尤其涉及一种信息的处理方法、装置、存储介质和电子设备。
背景技术
随着深度学习技术的发展,深度学习模型被广泛应用于自然语言处理、图像处理以及数据挖掘等多个技术领域中。在深度学习模型中,可以通过设置相应的归一化结构,来为模型包括的模块的输出进行归一化处理,以提高模型训练的效果。然而,在模型预测阶段,归一化结构会增加模型预测的延时。为了降低模型预测的延时,需要在训练过程中移除深度学习模型中的归一化结构。
相关技术中,在训练过程中移除深度学习模型中的归一化结构时,会影响模型训练的稳定性,甚至导致模型无法正常进行训练,使训练得到的模型的质量较差,同时降低了模型输出的信息的准确性。
发明内容
为克服相关技术中存在的问题,本公开提供一种信息的处理方法、装置、存储介质和电子设备。
根据本公开实施例的第一方面,提供一种信息的处理方法,所述方法包括:
获取待处理信息,所述待处理信息包含文本信息和图像信息中的至少一种;
将所述待处理信息,作为由预设模型训练得到的处理模型的输入,以得到所述处理模型输出的所述待处理信息对应的目标信息,所述目标信息能够反映所述待处理信息中包括的指定特征;
其中,所述预设模型包括多个操作模块和每个所述操作模块对应的归一化结构,每个所述操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理;所述处理模型为在对所述预设模型进行训练的过程中,根据目标概率或对所述预设模型进行训练的步数,移除指定数量个所述操作模块对应的归一化结构得到的。
可选地,所述处理模型是通过以下方式训练的:
获取训练样本集;所述训练样本集包括多组训练数据,每组所述训练数据包括:输入端训练数据和对应的输出端训练数据,所述输入端训练数据包括第一训练信息,所述输出端训练数据包括与所述第一训练信息对应的第二训练信息;
根据所述目标概率或对所述预设模型进行训练的步数,利用所述训练样本集对所述预设模型进行训练,以获取所述处理模型。
可选地,所述根据所述目标概率或对所述预设模型进行训练的步数,利用所述训练样本集对所述预设模型进行训练,以获取所述处理模型,包括:
按照所述目标概率从所述预设模型包括的全部归一化结构中,选取第一数量个所述归一化结构进行移除;
根据所述训练样本集,对移除第一数量个所述归一化结构后的所述预设模型进行训练;
更新所述目标概率,更新后的所述目标概率大于更新前的所述目标概率;
重复执行所述按照所述目标概率从所述预设模型包括的全部归一化结构中,选取第一数量个所述归一化结构进行移除,至所述更新所述目标概率的步骤,直至移除指定数量个所述归一化结构,以获取所述处理模型。
可选地,所述更新所述目标概率,包括:
根据预设的比例系数更新所述目标概率;或,
根据预设函数更新所述目标概率。
可选地,所述根据所述目标概率或对所述预设模型进行训练的步数,利用所述训练样本集对所述预设模型进行训练,以获取所述处理模型,包括:
根据所述训练样本集和对所述预设模型进行训练的步数,通过预设训练步骤对所述预设模型进行训练,直至移除指定数量个所述归一化结构,以获取所述处理模型。
可选地,所述预设训练步骤包括:
在根据所述训练样本集对所述预设模型进行训练的步数为N时,根据N确定目标方差,N为自然数;
根据当前每个所述操作模块的输出的方差和所述目标方差,确定是否对该操作模块对应的归一化结构进行移除;
若该操作模块的输出的方差小于或等于所述目标方差,对该操作模块对应的归一化结构进行移除;
若该操作模块的输出的方差大于所述目标方差,保留该操作模块对应的归一化结构。
可选地,所述预设模型包括编码器和解码器,所述编码器由第二数量个所述操作模块组成,所述解码器由第三数量个所述操作模块组成;所述操作模块为注意力网络或者前馈神经网络。
根据本公开实施例的第二方面,提供一种信息的处理装置,所述装置包括:
获取模块,被配置为获取待处理信息,所述待处理信息包含文本信息和图像信息中的至少一种;
处理模块,被配置为将所述待处理信息,作为由预设模型训练得到的处理模型的输入,以得到所述处理模型输出的所述待处理信息对应的目标信息,所述目标信息能够反映所述待处理信息中包括的指定特征;
其中,所述预设模型包括多个操作模块和每个所述操作模块对应的归一化结构,每个所述操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理;所述处理模型为在对所述预设模型进行训练的过程中,根据目标概率或对所述预设模型进行训练的步数,移除指定数量个所述操作模块对应的归一化结构得到的。
可选地,所述处理模块被配置为通过以下方式训练所述处理模型:
获取训练样本集;所述训练样本集包括多组训练数据,每组所述训练数据包括:输入端训练数据和对应的输出端训练数据,所述输入端训练数据包括第一训练信息,所述输出端训练数据包括与所述第一训练信息对应的第二训练信息;
根据所述目标概率或对所述预设模型进行训练的步数,利用所述训练样本集对所述预设模型进行训练,以获取所述处理模型。
可选地,所述处理模块被配置为:
按照所述目标概率从所述预设模型包括的全部归一化结构中,选取第一数量个所述归一化结构进行移除;
根据所述训练样本集,对移除第一数量个所述归一化结构后的所述预设模型进行训练;
更新所述目标概率,更新后的所述目标概率大于更新前的所述目标概率;
重复执行所述按照所述目标概率从所述预设模型包括的全部归一化结构中,选取第一数量个所述归一化结构进行移除,至所述更新所述目标概率的步骤,直至移除指定数量个所述归一化结构,以获取所述处理模型。
可选地,所述处理模块被配置为:
根据预设的比例系数更新所述目标概率;或,
根据预设函数更新所述目标概率。
可选地,所述处理模块被配置为:
根据所述训练样本集和对所述预设模型进行训练的步数,通过预设训练步骤对所述预设模型进行训练,直至移除指定数量个所述归一化结构,以获取所述处理模型。
可选地,所述预设训练步骤包括:
在根据所述训练样本集对所述预设模型进行训练的步数为N时,根据N确定目标方差,N为自然数;
根据当前每个所述操作模块的输出的方差和所述目标方差,确定是否对该操作模块对应的归一化结构进行移除;
若该操作模块的输出的方差小于或等于所述目标方差,对该操作模块对应的归一化结构进行移除;
若该操作模块的输出的方差大于所述目标方差,保留该操作模块对应的归一化结构。
可选地,所述预设模型包括编码器和解码器,所述编码器由第二数量个所述操作模块组成,所述解码器由第三数量个所述操作模块组成;所述操作模块为注意力网络或者前馈神经网络。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行本公开第一方面所提供的信息的处理方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的信息的处理方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:本公开首先通过获取待处理信息,并将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,其中,待处理信息包含文本信息和图像信息中的至少一种,目标信息能够反映待处理信息中包括的指定特征,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理,处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。本公开通过目标概率或对预设模型进行训练的步数,来逐步移除预设模型中的指定数量个归一化结构,以获取处理模型,不会干扰预设模型的正常训练,对预设模型训练的稳定性高,同时能够确保处理模型的质量,提高了目标信息的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种信息的处理方法的流程图。
图2是根据一示例性实施例示出的一种训练处理模型的流程图。
图3是根据图2所示实施例示出的一种步骤202的流程图。
图4是根据一示例性实施例示出的一种信息的处理装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开提供的信息的处理方法、装置、存储介质和电子设备之前,首先对本公开各个实施例所涉及应用场景进行介绍。该应用场景可以是对设置有归一化结构的预设模型进行训练,以得到处理模型的场景。在将待处理信息输入到处理模型后,处理模型可以根据学习到的训练数据的内在规律和表示层次,输出待处理信息对应的目标信息。在模型预测阶段,归一化结构会增加模型预测的延时,为了降低模型预测的延时,需要在训练过程中移除预设模型中的归一化结构。
相关技术中,可以在对预设模型开始训练时,通过调整初始化、缩放和加偏向操作的方式,来移除预设模型中的归一化结构,也可以采用在预设模型包括的残差连接前或残差连接的每一项中,增加一个可学习的参数的方式,来移除预设模型中的归一化结构。然而,上述方式都是基于证明推导得到的,但是证明推导其实是不完备的,并且存在实际无法复现,对预设模型训练不稳定的问题。另外,即便能够完成对预设模型的训练,在移除预设模型中的归一化结构后所得到的处理模型的质量较差,这会影响处理模型输出的目标信息的准确性。
为了解决相关技术中存在的问题,本公开通过目标概率或训练步数,来逐步移除预设模型中的指定数量个归一化结构,以获取处理模型,不会干扰预设模型的正常训练,对预设模型训练的稳定性高,同时能够确保处理模型的质量,提高了目标信息的准确性。
图1是根据一示例性实施例示出的一种信息的处理方法的流程图。如图1所示,该方法可以包括以下步骤:
在步骤101中,获取待处理信息,待处理信息包含文本信息和图像信息中的至少一种。
在步骤102中,将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,目标信息能够反映待处理信息中包括的指定特征。
其中,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理,处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。
示例地,在自然语言处理、图像处理等技术领域,通常需要根据实际应用,设置一个包括多个操作模块,且每个操作模块均对应一个归一化结构的预设模型,并对该预设模型进行训练,以得到所需的处理模型。其中,每个归一化结构用于对其对应的操作模块的输出进行归一化处理,以使操作模块的输出的分布都变为标准高斯分布,从而可以使预设模型的训练稳定,实现较高的学习率,加速模型收敛,并提高泛化能力。归一化处理例如可以是LN(英文:Layer Normalization)操作、BN(英文:Batch Normalization)操作和WN(英文:Weight Normalization)操作等,本公开对此不作具体限制。例如,在自然语言处理领域中的机器翻译、对话、AI(英文:Artificial Intelligence,中文:人工智能)创作、知识图谱构建等场景中,预设模型可以是采用Transformer结构的深度学习模型(也可以是BERT模型),此时归一化处理可以采用LN操作,那么归一化结构则为LN结构。再例如,在图像处理领域,归一化处理可以采用BN操作,那么归一化结构则为BN结构。
为了在移除预设模型中的指定数量个归一化结构的同时,确保处理模型的质量,可以在对预设模型进行训练时,基于从简到难逐步移除预设模型中的归一化结构的思想,让预设模型逐步适应没有归一化结构的过程。例如,可以先在保留全部归一化结构的情况下,将预设模型训练至收敛,再按照目标概率(目标概率例如可以取0.2),对全部归一化结构中的部分归一化结构进行移除,并训练预设模型至收敛,之后可以增大目标概率,并重复执行上述步骤,直至按照目标概率移除指定数量个归一化结构,并将移除指定数量个归一化结构后的预设模型训练至收敛,得到处理模型。再例如,可以随着对预设模型进行训练的步数的增加,逐步增加移除归一化结构的数量,直至移除指定数量个归一化结构,得到处理模型。通过上述方式对预设模型进行训练,训练过程简单,且可靠性和普适性较高,同时能够确保处理模型的准确性,能够使移除指定数量个归一化结构得到的处理模型,达到与不移除归一化结构得到的处理模型具有一样的质量。
进一步的,在得到处理模型后,可以获取待处理信息,并将待处理信息输入到处理模型中,得到处理模型输出的目标信息。其中,待处理信息可以只包含文本信息,也可以只包含图像信息,还可以同时包含文本信息和图像信息,目标信息能够反映待处理信息中包括的指定特征。例如,在处理模型应用于机器翻译场景中,且待处理信息只包含文本信息时,待处理信息可以为待翻译文本,而目标信息则可以为对待翻译文本翻译后的目标文本。
综上所述,本公开首先通过获取待处理信息,并将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,其中,待处理信息包含文本信息和图像信息中的至少一种,目标信息能够反映待处理信息中包括的指定特征,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理,处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。本公开通过目标概率或对预设模型进行训练的步数,来逐步移除预设模型中的指定数量个归一化结构,以获取处理模型,不会干扰预设模型的正常训练,对预设模型训练的稳定性高,同时能够确保处理模型的质量,提高了目标信息的准确性。
图2是根据一示例性实施例示出的一种训练处理模型的流程图。如图2所示,处理模型是通过以下方式训练的:
在步骤201中,获取训练样本集。
其中,训练样本集包括多组训练数据,每组训练数据包括:输入端训练数据和对应的输出端训练数据,输入端训练数据包括第一训练信息,输出端训练数据包括与第一训练信息对应的第二训练信息。
在步骤202中,根据目标概率或对预设模型进行训练的步数,利用训练样本集对预设模型进行训练,以获取处理模型。
具体的,在训练预设模型时,可以先获取包括多组训练数据的训练样本集,每组训练数据由包括第一训练信息的输入端训练数据,以及包括第二训练信息的输出端训练数据组成。例如,在处理模型应用于机器翻译场景中时,第一训练信息可以为训练文本,而第二训练信息则可以为对训练文本翻译后的文本。然后可以根据目标概率或对预设模型进行训练的步数,使用训练样本集的全部数据对预设模型进行多次完整训练(即进行多个Epoch的训练),以获取处理模型。每组训练数据可以理解为将训练样本集分成的一个Batch(中文:批)的数据。其中,对预设模型进行训练的过程可以是在终端或者服务器上完成的,例如,可以在服务器的GPU(英文:Graphics Processing Unit,中文:图形处理器)上对预设模型进行训练。
图3是根据图2所示实施例示出的一种步骤202的流程图。如图3所示,步骤202可以包括以下步骤:
在步骤2021中,按照目标概率从预设模型包括的全部归一化结构中,选取第一数量个归一化结构进行移除。
在步骤2022中,根据训练样本集,对移除第一数量个归一化结构后的预设模型进行训练。
在一种场景中,首先可以在保留全部归一化结构的情况下,将预设模型训练至收敛。然后,可以在根据训练样本集对预设模型进行训练的每一步中,按照目标概率从预设模型包括的全部归一化结构中,随机选取第一数量个归一化结构进行移除,直至将预设模型训练至收敛,以增强预设模型的泛化能力,并加速模型收敛,使预设模型尽量不依赖于归一化结构。例如,当预设模型包括5个归一化结构时,若目标概率p=0.2,那么第一数量为:5*0.2=1,则有1个归一化结构被移除,即在对预设模型进行训练的过程中跳过了这个归一化结构对应的归一化处理。需要说明的是,在对预设模型进行训练的每一步中,所移除的第一数量个归一化结构可能是不一样的。将预设模型训练至收敛的条件可以为:将预设模型的损失函数稳定在预设的区间,使损失函数的波动较小。
在步骤2023中,更新目标概率,更新后的目标概率大于更新前的目标概率。
重复执行步骤2021至步骤2023,直至移除指定数量个归一化结构,以获取处理模型。
进一步的,可以根据预设的比例系数更新目标概率,以增大目标概率,即增大第一数量。例如,在比例系数为2的情况下,若目标概率为0.2,则更新后的目标概率为0.4,此时更新目标概率的过程,可以使用p’=2p来表示,其中,p’为更新后的目标概率,p为更新前的目标概率。或者,可以根据预设函数更新目标概率,预设函数例如可以是任一种能够增大目标概率的函数,本公开对此不作具体限制。
然后,可以重复执行上述步骤,直至按照目标概率移除指定数量个归一化结构,并将移除指定数量个归一化结构后的预设模型训练至收敛,得到处理模型。指定数量可以是通过预设的概率阈值来设置的,若目标概率大于或等于概率阈值,在对预设模型进行训练时,则会移除指定数量个归一化结构。例如,当需要移除全部归一化结构时,可以将概率阈值设置为1,若目标概率大于或等于1,则会移除预设模型中的全部归一化结构。
需要说明的是,通过每一个目标概率,将预设模型训练至收敛,能够确保训练得到的处理模型的准确性。另外,目标概率逐步增大的过程,可以理解为预设模型先在归一化结构的辅助下,学习较简单的标准高斯分布,而后逐步移除归一化结构的辅助,来学习难度较大分布的过程。
可选地,步骤202可以通过以下方式实现:
根据训练样本集和对预设模型进行训练的步数,通过预设训练步骤对预设模型进行训练,直至移除指定数量个归一化结构,以获取处理模型。
在另一种场景中,可以根据训练样本集和对预设模型进行训练的步数,通过预设训练步骤对预设模型进行训练,以随着对预设模型进行训练的步数的增加,逐步增加移除归一化结构的数量,直至移除指定数量个归一化结构,得到处理模型。其中,预设训练步骤可以包括:首先可以在根据训练样本集对预设模型进行训练的步数为N时,根据N确定目标方差,N为自然数。例如,可以通过第一公式,来确定目标方差,其中,第一公式例如可以是:
Figure BDA0002977400470000121
var为目标方差。然后可以根据当前每个操作模块的输出的方差(即在训练的步数为N时每个操作模块的输出的方差)和目标方差,确定是否对该操作模块对应的归一化结构进行移除。其中,计算每个操作模块的输出的方差的方式可以参考相关技术中的描述,本公开对此不作详细赘述。
若该操作模块的输出的方差小于或等于目标方差,对该操作模块对应的归一化结构进行移除。若该操作模块的输出的方差大于目标方差,保留该操作模块对应的归一化结构。通过上述方式,在对预设模型进行训练的步数较小时,目标方差也较小,能够保留较多的归一化结构。随着对预设模型进行训练的步数的增加,目标方差会逐步增大,则会将越来越多的归一化结构移除,直至移除指定数量个归一化结构,得到处理模型。
可选地,预设模型包括编码器和解码器,编码器由第二数量个操作模块组成,解码器由第三数量个操作模块组成,操作模块为注意力网络或者前馈神经网络。
举例来说,在预设模型为采用Transformer结构的深度学习模型时,预设模型可以包括编码器和解码器,编码器包括第二数量个操作层,编码器的每个操作层由执行Multi-Head Attention(中文:多头注意力)操作的注意力网络与前馈神经网络组成。解码器包括第三数量个操作层,解码器的每个操作层由执行Masked Multi-Head Attention操作的注意力网络、执行Multi-Head Attention操作的注意力网络与前馈神经网络组成。每个操作模块(注意力网络或者前馈神经网络)均对应一个归一化结构,那么编码器的每个操作层对应两个归一化结构,解码器的每个操作层对应三个归一化结构。其中,第二数量与第三数量可以相同,也可以不同,本公开对此不作具体限制。
综上所述,本公开首先通过获取待处理信息,并将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,其中,待处理信息包含文本信息和图像信息中的至少一种,目标信息能够反映待处理信息中包括的指定特征,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理,处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。本公开通过目标概率或对预设模型进行训练的步数,来逐步移除预设模型中的指定数量个归一化结构,以获取处理模型,不会干扰预设模型的正常训练,对预设模型训练的稳定性高,同时能够确保处理模型的质量,提高了目标信息的准确性。
图4是根据一示例性实施例示出的一种信息的处理装置的框图。如图4所示,该信息的处理装置300包括获取模块301和处理模块302。
获取模块301,被配置为获取待处理信息,待处理信息包含文本信息和图像信息中的至少一种。
处理模块302,被配置为将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,目标信息能够反映待处理信息中包括的指定特征。
其中,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理;处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。
可选地,处理模块302被配置为通过以下方式训练处理模型:
获取训练样本集。训练样本集包括多组训练数据,每组训练数据包括:输入端训练数据和对应的输出端训练数据,输入端训练数据包括第一训练信息,输出端训练数据包括与第一训练信息对应的第二训练信息。
根据目标概率或对预设模型进行训练的步数,利用训练样本集对预设模型进行训练,以获取处理模型。
可选地,处理模块302被配置为:
按照目标概率从预设模型包括的全部归一化结构中,选取第一数量个归一化结构进行移除。
根据训练样本集,对移除第一数量个归一化结构后的预设模型进行训练。
更新目标概率,更新后的目标概率大于更新前的目标概率。
重复执行按照目标概率从预设模型包括的全部归一化结构中,选取第一数量个归一化结构进行移除,至更新目标概率的步骤,直至移除指定数量个归一化结构,以获取处理模型。
可选地,处理模块302被配置为:
根据预设的比例系数更新目标概率。或,
根据预设函数更新目标概率。
可选地,处理模块302被配置为:
根据训练样本集和对预设模型进行训练的步数,通过预设训练步骤对预设模型进行训练,直至移除指定数量个归一化结构,以获取处理模型。
可选地,预设训练步骤包括:
在根据训练样本集对预设模型进行训练的步数为N时,根据N确定目标方差,N为自然数。
根据当前每个操作模块的输出的方差和目标方差,确定是否对该操作模块对应的归一化结构进行移除。
若该操作模块的输出的方差小于或等于目标方差,对该操作模块对应的归一化结构进行移除。
若该操作模块的输出的方差大于目标方差,保留该操作模块对应的归一化结构。
可选地,预设模型包括编码器和解码器,编码器由第二数量个操作模块组成,解码器由第三数量个操作模块组成,操作模块为注意力网络或者前馈神经网络。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开首先通过获取待处理信息,并将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,其中,待处理信息包含文本信息和图像信息中的至少一种,目标信息能够反映待处理信息中包括的指定特征,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理,处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。本公开通过目标概率或对预设模型进行训练的步数,来逐步移除预设模型中的指定数量个归一化结构,以获取处理模型,不会干扰预设模型的正常训练,对预设模型训练的稳定性高,同时能够确保处理模型的质量,提高了目标信息的准确性。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的信息的处理方法的步骤。
综上所述,本公开首先通过获取待处理信息,并将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,其中,待处理信息包含文本信息和图像信息中的至少一种,目标信息能够反映待处理信息中包括的指定特征,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理,处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。本公开通过目标概率或对预设模型进行训练的步数,来逐步移除预设模型中的指定数量个归一化结构,以获取处理模型,不会干扰预设模型的正常训练,对预设模型训练的稳定性高,同时能够确保处理模型的质量,提高了目标信息的准确性。
图5是根据一示例性实施例示出的一种电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的信息的处理方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理***,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的信息的处理方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述的信息的处理方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的信息的处理方法的代码部分。
综上所述,本公开首先通过获取待处理信息,并将待处理信息,作为由预设模型训练得到的处理模型的输入,以得到处理模型输出的待处理信息对应的目标信息,其中,待处理信息包含文本信息和图像信息中的至少一种,目标信息能够反映待处理信息中包括的指定特征,预设模型包括多个操作模块和每个操作模块对应的归一化结构,每个操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理,处理模型为在对预设模型进行训练的过程中,根据目标概率或对预设模型进行训练的步数,移除指定数量个操作模块对应的归一化结构得到的。本公开通过目标概率或对预设模型进行训练的步数,来逐步移除预设模型中的指定数量个归一化结构,以获取处理模型,不会干扰预设模型的正常训练,对预设模型训练的稳定性高,同时能够确保处理模型的质量,提高了目标信息的准确性。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种信息的处理方法,其特征在于,所述方法包括:
获取待处理信息,所述待处理信息包含文本信息和图像信息中的至少一种;
将所述待处理信息,作为由预设模型训练得到的处理模型的输入,以得到所述处理模型输出的所述待处理信息对应的目标信息,所述目标信息能够反映所述待处理信息中包括的指定特征;
其中,所述预设模型包括多个操作模块和每个所述操作模块对应的归一化结构,每个所述操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理;所述处理模型为在对所述预设模型进行训练的过程中,根据目标概率或对所述预设模型进行训练的步数,移除指定数量个所述操作模块对应的归一化结构得到的。
2.根据权利要求1所述的方法,其特征在于,所述处理模型是通过以下方式训练的:
获取训练样本集;所述训练样本集包括多组训练数据,每组所述训练数据包括:输入端训练数据和对应的输出端训练数据,所述输入端训练数据包括第一训练信息,所述输出端训练数据包括与所述第一训练信息对应的第二训练信息;
根据所述目标概率或对所述预设模型进行训练的步数,利用所述训练样本集对所述预设模型进行训练,以获取所述处理模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标概率或对所述预设模型进行训练的步数,利用所述训练样本集对所述预设模型进行训练,以获取所述处理模型,包括:
按照所述目标概率从所述预设模型包括的全部归一化结构中,选取第一数量个所述归一化结构进行移除;
根据所述训练样本集,对移除第一数量个所述归一化结构后的所述预设模型进行训练;
更新所述目标概率,更新后的所述目标概率大于更新前的所述目标概率;
重复执行所述按照所述目标概率从所述预设模型包括的全部归一化结构中,选取第一数量个所述归一化结构进行移除,至所述更新所述目标概率的步骤,直至移除指定数量个所述归一化结构,以获取所述处理模型。
4.根据权利要求3所述的方法,其特征在于,所述更新所述目标概率,包括:
根据预设的比例系数更新所述目标概率;或,
根据预设函数更新所述目标概率。
5.根据权利要求2所述的方法,其特征在于,所述根据所述目标概率或对所述预设模型进行训练的步数,利用所述训练样本集对所述预设模型进行训练,以获取所述处理模型,包括:
根据所述训练样本集和对所述预设模型进行训练的步数,通过预设训练步骤对所述预设模型进行训练,直至移除指定数量个所述归一化结构,以获取所述处理模型。
6.根据权利要求5所述的方法,其特征在于,所述预设训练步骤包括:
在根据所述训练样本集对所述预设模型进行训练的步数为N时,根据N确定目标方差,N为自然数;
根据当前每个所述操作模块的输出的方差和所述目标方差,确定是否对该操作模块对应的归一化结构进行移除;
若该操作模块的输出的方差小于或等于所述目标方差,对该操作模块对应的归一化结构进行移除;
若该操作模块的输出的方差大于所述目标方差,保留该操作模块对应的归一化结构。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述预设模型包括编码器和解码器,所述编码器由第二数量个所述操作模块组成,所述解码器由第三数量个所述操作模块组成;所述操作模块为注意力网络或者前馈神经网络。
8.一种信息的处理装置,其特征在于,所述装置包括:
获取模块,被配置为获取待处理信息,所述待处理信息包含文本信息和图像信息中的至少一种;
处理模块,被配置为将所述待处理信息,作为由预设模型训练得到的处理模型的输入,以得到所述处理模型输出的所述待处理信息对应的目标信息,所述目标信息能够反映所述待处理信息中包括的指定特征;
其中,所述预设模型包括多个操作模块和每个所述操作模块对应的归一化结构,每个所述操作模块对应的归一化结构用于对该操作模块的输出进行归一化处理;所述处理模型为在对所述预设模型进行训练的过程中,根据目标概率或对所述预设模型进行训练的步数,移除指定数量个所述操作模块对应的归一化结构得到的。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN202110277986.7A 2021-03-15 2021-03-15 信息的处理方法、装置、存储介质和电子设备 Pending CN112861997A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110277986.7A CN112861997A (zh) 2021-03-15 2021-03-15 信息的处理方法、装置、存储介质和电子设备
US17/491,305 US20220292347A1 (en) 2021-03-15 2021-09-30 Method and apparatus for processing information
EP21205200.5A EP4060566A1 (en) 2021-03-15 2021-10-28 Method and apparatus for processing information, storage medium, electronic device and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110277986.7A CN112861997A (zh) 2021-03-15 2021-03-15 信息的处理方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN112861997A true CN112861997A (zh) 2021-05-28

Family

ID=75994556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110277986.7A Pending CN112861997A (zh) 2021-03-15 2021-03-15 信息的处理方法、装置、存储介质和电子设备

Country Status (3)

Country Link
US (1) US20220292347A1 (zh)
EP (1) EP4060566A1 (zh)
CN (1) CN112861997A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015094973A (ja) * 2013-11-08 2015-05-18 株式会社リコー 画像処理装置、画像処理方法、画像処理プログラム、及び記録媒体
CN107644254A (zh) * 2017-09-09 2018-01-30 复旦大学 一种卷积神经网络权重参数量化训练方法及***
US20190370658A1 (en) * 2018-05-31 2019-12-05 Kneron (Taiwan) Co., Ltd. Self-Tuning Incremental Model Compression Solution in Deep Neural Network with Guaranteed Accuracy Performance
CN110599401A (zh) * 2019-08-19 2019-12-20 中国科学院电子学研究所 遥感图像超分辨率重建方法、处理装置及可读存储介质
CN110827253A (zh) * 2019-10-30 2020-02-21 北京达佳互联信息技术有限公司 一种目标检测模型的训练方法、装置及电子设备
CN111161175A (zh) * 2019-12-24 2020-05-15 苏州江奥光电科技有限公司 一种用于去除图像反射分量的方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015094973A (ja) * 2013-11-08 2015-05-18 株式会社リコー 画像処理装置、画像処理方法、画像処理プログラム、及び記録媒体
CN107644254A (zh) * 2017-09-09 2018-01-30 复旦大学 一种卷积神经网络权重参数量化训练方法及***
US20190370658A1 (en) * 2018-05-31 2019-12-05 Kneron (Taiwan) Co., Ltd. Self-Tuning Incremental Model Compression Solution in Deep Neural Network with Guaranteed Accuracy Performance
CN110555510A (zh) * 2018-05-31 2019-12-10 耐能智慧股份有限公司 压缩预先训练的深度神经网络模型的方法
CN110599401A (zh) * 2019-08-19 2019-12-20 中国科学院电子学研究所 遥感图像超分辨率重建方法、处理装置及可读存储介质
CN110827253A (zh) * 2019-10-30 2020-02-21 北京达佳互联信息技术有限公司 一种目标检测模型的训练方法、装置及电子设备
CN111161175A (zh) * 2019-12-24 2020-05-15 苏州江奥光电科技有限公司 一种用于去除图像反射分量的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AMREEN KAUR ET AL: "Inpainting of Irregular Holes in a Manuscript using UNet and Partial Convolution", PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON INVENTIVE RESEARCH IN COMPUTING APPLICATIONS (ICIRCA-2020), pages 778 - 784 *

Also Published As

Publication number Publication date
EP4060566A1 (en) 2022-09-21
US20220292347A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
CN109871896B (zh) 数据分类方法、装置、电子设备及存储介质
CN106202330B (zh) 垃圾信息的判断方法及装置
CN110390394B (zh) 批归一化数据的处理方法及装置、电子设备和存储介质
CN107945133B (zh) 图像处理方法及装置
CN107341509B (zh) 卷积神经网络的训练方法、装置及可读存储介质
CN107133354B (zh) 图像描述信息的获取方法及装置
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN107967459B (zh) 卷积处理方法、装置及存储介质
CN109858614B (zh) 神经网络训练方法及装置、电子设备和存储介质
CN107194464B (zh) 卷积神经网络模型的训练方法及装置
CN109685041B (zh) 图像分析方法及装置、电子设备和存储介质
CN109272118B (zh) 数据训练方法、装置、设备及存储介质
CN110674246A (zh) 问答模型训练方法、自动问答方法及装置
US20200135205A1 (en) Input method, device, apparatus, and storage medium
CN112001364A (zh) 图像识别方法及装置、电子设备和存储介质
CN111831806A (zh) 语义完整性确定方法、装置、电子设备和存储介质
CN109670025B (zh) 对话管理方法及装置
CN111985635A (zh) 一种加速神经网络推理处理的方法、装置及介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111104807A (zh) 一种数据处理方法、装置和电子设备
CN113807498B (zh) 模型扩展方法及装置、电子设备和存储介质
CN110659625A (zh) 物体识别网络的训练方法及装置、电子设备和存储介质
CN107633490B (zh) 图像处理方法、装置及存储介质
CN107480773B (zh) 训练卷积神经网络模型的方法、装置及存储介质
CN111984765A (zh) 知识库问答过程关系检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination