CN111652349A - 一种神经网络的处理方法及相关设备 - Google Patents

一种神经网络的处理方法及相关设备 Download PDF

Info

Publication number
CN111652349A
CN111652349A CN202010321526.5A CN202010321526A CN111652349A CN 111652349 A CN111652349 A CN 111652349A CN 202010321526 A CN202010321526 A CN 202010321526A CN 111652349 A CN111652349 A CN 111652349A
Authority
CN
China
Prior art keywords
tensor
predicted
tensors
trained
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010321526.5A
Other languages
English (en)
Inventor
段艳杰
刘裕良
田光见
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010321526.5A priority Critical patent/CN111652349A/zh
Publication of CN111652349A publication Critical patent/CN111652349A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了人工智能领域中的一种神经网络的处理方法及相关设备,在该方法中,服务器根据R个正交张量对该待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量;再根据该待训练的目标多模态张量更新该训练数据,得到更新后的训练数据;并进一步利用该更新后的训练数据输入预设的训练网络,训练得到预测模型。其中,该服务器通过R个正交张量对待训练的初始多模态张量做卷积运算得到转化后的待训练的目标多模态张量,相比于待训练的初始多模态张量,该待训练的目标多模态张量降低了张量维度,使得输入到预测模型中的参数大大减少,降低服务器构建的神经网络预测模型的复杂度,提升神经网络的处理效率。

Description

一种神经网络的处理方法及相关设备
技术领域
本申请涉及人工智能领域,尤其涉及一种神经网络的处理方法及相关设备。
背景技术
人工智能(Artificial Intelligence,AI)是通过数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
在AI领域中,模态是指人接受信息的特定方式,每一种信息的来源或者形式,都可以称为一种模态,在现实世界中的信息通常以不同模态出现,在对不同模态的信息的呈现过程中,以多模态呈现信息的方式比单模态信息呈现的方式可以表达出更多的内容,例如,完整的电影为一种多模态信息,其包含音频,视频和字幕等多个单模态信息,呈现完整的电影这一多模态信息的方式,相比于分别呈现音频、视频和字幕等多个单模态信息的方式,可以将多个单模态信息之间的关联关系一并表达出来。
现有技术中,信息在不同设备之间一般通过张量的形式进行传输,包括多模态张量和单模态张量,其中,通过张量融合的方法能够表达多模态信息,现有常用的张量融合方法中,例如张量融合网络(tensor fusion network,TFN)在实现张量融合的过程中,通过计算多个单模态张量的外积获得多模态融合张量,然后将多模态融合张量作为特征输入到预测模型中,获得最终的预测结果。
然而,在TFN中,由于多模态融合张量中的参数个数随着单模态张量个数增多呈现出指数级增加的趋势,导致输入到预测模型的参数过多,造成该预测模型的复杂度过高,影响神经网络的处理效率。
发明内容
本申请实施例提供了一种神经网络的处理方法及相关设备,用于降低服务器构建的神经网络预测模型的复杂度,提升神经网络的处理效率。
本申请实施例第一方面提供了一种神经网络的处理方法,可以应用于神经网络预测模型的构建过程,在该方法中,服务器在神经网络的预测模型构建的时候,获取训练数据,所述训练数据包括待训练的多个单模态张量;然后,该服务器根据训练数据中待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量,并根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交;再进一步根据所述待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据,此后,利用所述更新后的训练数据输入预设的训练网络,训练得到预测模型。其中,该服务器根据R个正交张量对该待训练的初始多模态张量进行张量卷积操作得到待训练的目标多模态张量,即通过R个正交张量对待训练的初始多模态张量做卷积运算得到转化后的待训练的目标多模态张量,相比于待训练的初始多模态张量,该待训练的目标多模态张量降低了张量维度,使得输入到预测模型中的参数大大减少,降低服务器构建的神经网络预测模型的复杂度,提升神经网络的处理效率。
在第一方面的一种可能实现方式中,服务器根据R个正交张量对该待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量包括:根据R个正交张量和预设滑动步长对该待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,该初始多模态张量的阶数和该R个正交张量中的任意一个的阶数均为M阶,M为正整数,该预设滑动步长包含的元素个数为M。
本实施例中,通过限定该待训练的初始多模态张量的阶数、该R个正交张量中的任意一个的阶数和该预设滑动步长中所包含的元素个数相等,在使用R个正交张量以及该预设滑动步长对该初始多模态张量进行卷积操作的时候,避免三者数值不对齐而导致卷积处理过程中的故障情况发生。
在第一方面的一种可能实现方式中,待训练的初始多模态张量第m阶的维度为x,R个正交张量中的任意一个的第m阶的维度为y,预设滑动步长的第m个元素的取值为z,其中,x、y、z均为大于0的整数,m为不大于M的整数,x大于y,且y大于或等于z。
本实施例中,进一步限定待训练的初始多模态张量第m阶的维度为x,R个正交张量中的任意一个的第m阶的维度为y,预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z,从而,对于M阶中的任一阶(第m阶)中,使用维度小于该待训练的初始多模态张量的R个正交张量以及更小的预定滑动步长参与卷积处理过程,可以使得后续得到的待训练的目标多模态张量进一步地降低张量维度,进一步减少后续输入到预测模型中的参数。
在第一方面的一种可能实现方式中,在利用该更新后的训练数据输入预设的训练网络,训练得到预测模型之后,该方法还包括:服务器获取待预测数据,该待预测数据包括待预测的多个单模态张量;然后,根据该待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量,并根据该R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量;该服务器再根据该待预测的目标多模态张量更新该待预测数据,得到更新后的待预测数据;进一步利用该更新后的待预测数据输入该预测模型,处理得到预测结果。
本实施例中,在得到预测模型之后,可以使用该预测模型对待预测数据的进行预测,其中,服务器根据该R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,相比于待预测的初始多模态张量,待预测的目标多模态张量降低了张量维度,减少输入到预测模型中的参数,降低服务器使用预测模型进行预测过程的复杂度,进一步提升神经网络的处理效率,并且为后续的预测过程提供了抽象的多模态融合特征,从而提升该预测模型的预测效果。
在第一方面的一种可能实现方式中,在利用更新后的训练数据输入预设的训练网络,训练得到预测模型之后,该方法还可以包括:服务器使用正交约束损失函数对该预测模型进行训练,更新该预测模型。
本实施例中,在进行预测模型的训练过程中,一般可以使用损失函数进行训练以减少卷积神经网络的损失及误差,具体该损失函数包含正交约束损失函数,使得R个正交张量的正交性质可以被训练出来,提升模型训练效果。
在第一方面的一种可能实现方式中,该正交约束损失函数包括:
Figure BDA0002461611230000031
其中,L是模型整体的损失函数,Lregression表示回归误差,即
Figure BDA0002461611230000032
也就是预测值与真实值之间绝对误差的累加和;LO
Figure BDA0002461611230000033
是正交约束转化后的目标函数;λ是控制LO的比重系数;ti,tj都是正交张量网络模块中的正交张量。
Figure BDA0002461611230000034
表示两个不同的正交张量之间的余弦距离的绝对值;
Figure BDA0002461611230000035
表示对R个正交张量计算两两之间余弦距离的绝对值的累加和;计算余弦距离过程中,<ti,tj>表示两个张量之间的内积,而||ti||F和||ti||F分别表示张量ti和tj的F范数。
本实施例中,提供了该正交约束损失函数实现的公式之一,服务器可以使用该正交约束损失函数实现预测模型的训练过程,提升了方案的可实现性。
在第一方面的一种可能实现方式中,该更新后的训练数据包括该待训练的目标多模态张量和该待训练的多个单模态张量。
本实施例中,服务器具体可以使用待训练的目标多模态张量和待训练的多个单模态张量输入该预设的训练网络,处理得到该预测模型,从而在该预测模型中,可以保留待训练的多个单模态张量的本地原始信息和待训练的目标多模态张量的融合信息,提升后续使用该预测模型进行预测的准确率。
在第一方面的一种可能实现方式中,该待训练的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
本实施例中,该神经网络的处理方法具体可以应用于多模态情感分析的应用场景中,此时,待训练的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种,训练得到的预测模型包括情感分析预测模型,应用于该场景中,使得后续输入到情感分析预测模型中的参数大大减少,降低服务器构建的情感分析模型的复杂度,提升神经网络的处理效率。
在第一方面的一种可能实现方式中,待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量可以包括:该服务器计算待训练的多个单模态张量的外积,然后该服务器进一步根据待训练的多个单模态张量的外积进行张量融合,得到待训练的初始多模态张量。
本实施例中,该服务器在对待训练的多个单模态张量进行张量融合的操作过程具体可以包括该服务器计算待训练的多个单模态张量的外积,然后该服务器进一步根据待训练的多个单模态张量的外积进行张量融合,得到待训练的初始多模态张量,从而提供了张量融合实现的一种具体的实现方式,提升方案的可实现性。
在第一方面的一种可能实现方式中,利用更新后的训练数据输入预设的训练网络,训练得到预测模型可以包括:该服务器对更新后的训练数据进行池化处理,得到池化处理后的训练数据,然后,该服务器再使用该池化处理后的训练数据输入该预测的网络,得到该预测模型。
本实施例中,该服务器在得到目标多模态张量之后,具体可以通过池化处理操作对更新后的训练数据实现进一步的降维处理,进一步减少预测模型中的参数,降低服务器构建的神经网络预测模型的复杂度,提升神经网络的处理效率。
本申请实施例第二方面提供了一种神经网络的处理方法,可以应用于神经网络预测模型的预测过程,在该方法中,服务器获取待预测数据,所述待预测数据包括待预测的多个单模态张量;然后,服务器根据所述待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量,并根据R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交;此后,该服务器根据所述待预测的目标多模态张量更新所述待预测数据,得到更新后的待预测数据;再进一步利用所述更新后的待预测数据输入预测模型,处理得到预测结果。其中,服务器根据该R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,相比于待预测的初始多模态张量,待预测的目标多模态张量降低了张量维度,减少输入到预测模型中的参数,降低服务器使用预测模型进行预测过程的复杂度,提升神经网络的处理效率,并且为后续的预测过程提供了抽象的多模态融合特征,从而提升该预测模型的预测效果。
在第二方面的一种可能实现方式中,该根据R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量包括:根据R个正交张量和预设滑动步长对该待预测的初始多模态张量进行张量卷积操作,得到该待预测的目标多模态张量,其中,该待预测的初始多模态张量的阶数和该R个正交张量中的任一张量的阶数均为M阶,M为正整数,该预设滑动步长包含的元素个数为M。
本实施例中,通过限定该待预测的初始多模态张量的阶数、该R个正交张量中的任意一个的阶数和该预设滑动步长中所包含的元素个数相等,在使用R个正交张量以及该预设滑动步长对待预测的初始多模态张量进行卷积操作的时候,避免三者数值不对齐而导致卷积处理过程中的故障情况发生。
在第二方面的一种可能实现方式中,该待预测的初始多模态张量第m阶的维度为x,该R个正交张量中的任意一个的第m阶的维度为y,该预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z。
本实施例中,进一步限定待预测的初始多模态张量第m阶的维度为x,R个正交张量中的任意一个的第m阶的维度为y,预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z,从而,对于M阶中的任一阶(第m阶)中,使用维度小于该待预测的初始多模态张量的R个正交张量以及更小的预定滑动步长参与卷积处理过程,可以使得后续得到的待预测的目标多模态张量进一步地降低张量维度,进一步减少后续输入到预测模型中的参数。
在第二方面的一种可能实现方式中,该待预测的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
本实施例中,该神经网络的处理方法具体可以应用于多模态情感分析的应用场景中,此时,待预测的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种,该预测模型包括情感分析预测模型,应用于该场景中,使得后续输入到情感分析预测模型中的参数大大减少,降低服务器构建的情感分析模型的复杂度,提升神经网络的处理效率。
在第二方面的一种可能实现方式中,待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量可以包括:该服务器计算待预测的多个单模态张量的外积,然后该服务器进一步根据待预测的多个单模态张量的外积进行张量融合,得到待预测的初始多模态张量。
本实施例中,该服务器在对待预测的多个单模态张量进行张量融合的操作过程具体可以包括该服务器计算待预测的多个单模态张量的外积,然后该服务器进一步根据待预测的多个单模态张量的外积进行张量融合,得到待预测的初始多模态张量,从而提供了张量融合实现的一种具体的实现方式,提升方案的可实现性。
在第二方面的一种可能实现方式中,利用所述更新后的待预测数据输入预测模型,处理得到预测结果可以包括:该服务器对更新后的待预测数据进行池化处理,得到池化处理后的待预测数据,然后,该服务器再使用该池化处理后的待预测数据输入该预测模型,处理得到预测结果。
本实施例中,该服务器在得到更新后的待预测数据之后,具体可以通过池化处理操作对更新后的待预测数据实现进一步的降维处理,进一步减少输入到预测模型中的参数,降低服务器使用预测模型进行预测过程的复杂度,提升神经网络的处理效率。
本申请实施例第三方面提供了一种神经网络的处理装置,包括:获取单元,用于获取训练数据,该训练数据包括待训练的多个单模态张量;融合单元,用于根据该待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量;卷积单元,用于根据R个正交张量对该待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,该R为大于1的整数,在该R个正交张量中的任一张量与其它R-1个张量正交;更新单元,用于根据该待训练的目标多模态张量更新该训练数据,得到更新后的训练数据;训练单元,用于利用该更新后的训练数据输入预设的训练网络,训练得到预测模型。其中,卷积单元根据R个正交张量对该待训练的初始多模态张量进行张量卷积操作得到待训练的目标多模态张量,即通过R个正交张量对待训练的初始多模态张量做卷积运算得到转化后的待训练的目标多模态张量,相比于待训练的初始多模态张量,该待训练的目标多模态张量降低了张量维度,使得输入到预测模型中的参数大大减少,降低服务器构建的神经网络预测模型的复杂度,提升神经网络的处理效率。
本申请第三方面中,神经网络的处理装置的组成模块还可以用于执行第一方面的各个可能实现方式中所执行的步骤,具体均可以参阅第一方面,此处不再赘述。
本申请实施例第四方面提供了一种神经网络的处理装置,包括:获取单元,用于获取待预测数据,该待预测数据包括待预测的多个单模态张量;融合单元,用于根据该待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量;卷积单元,用于根据R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,其中,该R为大于1的整数,在该R个正交张量中的任一张量与其它R-1个张量正交;更新单元,用于根据该待预测的目标多模态张量更新该待预测数据,得到更新后的待预测数据;处理单元,用于利用该更新后的待预测数据输入预设的预测模型,处理得到预测结果。其中,该卷积单元根据该R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,相比于待预测的初始多模态张量,待预测的目标多模态张量降低了张量维度,减少输入到预测模型中的参数,降低服务器使用预测模型进行预测过程的复杂度,提升神经网络的处理效率,并且为后续的预测过程提供了抽象的多模态融合特征,从而提升该预测模型的预测效果。
本申请第四方面中,神经网络的处理装置的组成模块还可以用于执行第二方面的各个可能实现方式中所执行的步骤,具体均可以参阅第二方面,此处不再赘述。
第五方面,本申请实施例提供了一种服务器,包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行上述第一方面或第二方面所述的神经网络的获取方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的神经网络的获取方法。
第七方面,本申请实施例提供了一种电路***,所述电路***包括处理电路,所述处理电路配置为执行上述第一方面或第二方面所述的神经网络的获取方法。
第八方面,本申请实施例提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的神经网络的获取方法。
第九方面,本申请提供了一种芯片***,该芯片***包括处理器,用于支持服务器实现上述第一方面或第二方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片***还包括存储器,所述存储器,用于保存服务器或通信设备必要的程序指令和数据。该芯片***,可以由芯片构成,也可以包括芯片和其他分立器件。
其中,第五至第九方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果,或者参见第二方面或第二方面不同可能实现方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的人工智能主体框架的一种结构示意图;
图2-1为本申请实施例提供的神经网络处理***的一种网络结构示意图;
图2-2为本申请实施例提供的神经网络处理***的另一种网络结构示意图;
图3为本申请实施例提供的卷积神经网络的一种结构示意图;
图4为本申请实施例提供的卷积神经网络的另一种结构示意图;
图5为本申请实施例提供的一种神经网络的处理方法的一种流程示意图;
图6为本申请实施例提供的一种神经网络的处理方法的另一种流程示意图;
图7为本申请实施例提供的一种神经网络的处理方法的另一种流程示意图;
图8为本申请实施例提供的一种神经网络的处理方法的另一种流程示意图;
图9为本申请实施例提供的一种神经网络的处理装置的一种示意图;
图10为本申请实施例提供的一种神经网络的处理装置的另一种示意图;
图11为本申请实施例提供的服务器的一种结构示意图;
图12为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
本申请实施例提供了一种神经网络的处理方法以及相关设备,用于降低服务器构建的神经网络预测模型的复杂度,提升神经网络的处理效率。
下面将对本申请实施例中使用的部分术语进行示例性地描述:
模态:模态是指人接受信息的特定方式,每一种信息的来源或者形式,都可以称为一种模态。
多模态机器学习:旨在通过机器学习的方法实现处理和理解多源模态信息的能力。
多模态融合:指综合来自两个或多个模态的信息以进行预测的过程。
张量:可以看成是一个多维数组,0阶时为标量,1阶时为向量,2阶时为矩阵,3阶及以上通常称为N阶张量。
张量融合:利用张量计算进行多模态融合。
正交张量:如果两个或以上张量两两之间的余弦距离为0,则称这两个或以上张量正交。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出一种人工智能主体框架示意图,该主体框架描述了人工智能***总体工作流程,适用于通用的人工智能领域需求。
下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。
“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。
“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施:
基础设施为人工智能***提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能***中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用***,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能***在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
基于图1所示实施例,具体图1中的人工智能主体框架可以应用在多模态张量融合预测问题中。模态是指人接受信息的特定方式,每一种信息的来源或者形式,都可以称为一种模态,在现实世界中的信息通常以不同模态出现,在对不同模态的信息的呈现过程中,以多模态呈现信息的方式比单模态信息呈现的方式可以表达出更多的内容。其中,多模态数据在现实世界中广泛存在,例如图像(多模态)通常与标签(单模态)和文本(单模态)解释联系在一起;文本(多模态)包含图像(单模态)以便更清楚地表达文章(单模态)的主要思想;完整的电影(多模态)包含音频(单模态),视频(单模态)和字幕(单模态)等等。
神经网络的处理***在实现多模态融合预测的过程如图2-1所示,其中,首先执行步骤201获取多模态数据,在步骤202中根据该多模态数据生成多模态融合预测模型,在步骤203中使用步骤202得到的多模态融合预测模型对输入的待预测数据进行预测,得到预测结果。然而,在步骤202根据该多模态数据生成多模态融合预测模型的过程中,如果使用现有常用的张量融合方法融合的时候,会产生一系列的问题,具体如下:
1)在步骤202中使用TFN时,张量融合网络(TFN)是通过计算多个单模态向量的外积获得多模态融合张量,然后将多模态融合张量作为特征输入到预测模型中,获得最终的预测结果。其中,多模态融合张量的维度随着模态个数增多呈现出指数级增加的趋势,基于此张量特征的预测模型参数过多,造成模型复杂度过高。
2)在步骤202中使用低秩多模态融合模型(low-rank multimodal fusion,LMF)时,低秩多模态融合模型(LMF),也是一种张量融合的多模态预测模型。针对TFN存在的维度高和参数多的问题,先从每个单模态表示学习低秩张量因子,然后融合多个单模态的低秩张量因子,并进行最终的多模态融合预测。其中,LMF虽然一定程度上减少了多模态融合预测的参数,但是参数个数仍然与每个模态的维度强相关,模型参数仍然有减少的空间。
3)在步骤202中使用层次多项式融合网络(hierarchical polynomial fusionnetwork,HPFN)时,层次多项式融合网络(HPFN)通过在高维多模态融合张量上叠加多个汇集(pooling)模块多项式张量池(polynomial tensor pooling,PTP)来降低维度,从而减少模型参数。然而,HPFN尝试将卷积操作用于多模态张量降维,但是多个卷积核之间未加约束,且卷积核未拓展到大3阶的情形,模型的预测效果有待进一步提升。
综上所述,针对多模态融合预测问题,在现有技术中,TFN张量特征的预测模型参数过多,造成模型复杂度过高;LMF虽然一定程度上减少了多模态融合预测的参数,但是参数个数仍然与每个模态的维度强相关;HPFN的参数量和LMF相当,模型参数仍然有减少的空间。本申请主要解决张量融合方法中的维度高,参数多的问题,并提升预测效果。请参阅图2-2,为本申请神经网络的处理***在实现多模态融合预测的过程的另一个示意图,其中,步骤204中,获取初始的多模态数据并进行预处理,得到预处理后的多模态数据;在步骤205中,使用预处理后的多模态数据进行建模,得到多模态数据预测模型,在步骤206使用该多模态数据预测模型对输入的待预测数据进行预测,得到步骤207中的预测结果。其中,步骤205建立得到的多模态数据预测模型是包含了正交张量网络模块的神经网络模型。作为一种优选的实施方式,首先将训练网络的特征分为两个通道:单模态通道和多模态融合通道。其中单模态通道输出多个单模态向量;多模态融合通道以多个单模态向量的外积张量作为输入,经过正交张量网络模块和进一步的池化处理得到降维转化的多模态融合张量。训练网络的输入特征经过前馈网络即可得到最终的输出。
本申请实施例可以基于图2-2的神经网络的处理***实现神经网络的处理方法,鉴于该方法中的核心步骤包括卷积神经网络的处理过程,下面将首先对卷积神经网络进行介绍。其中,卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络,是一种深度学习(deep learning)架构,深度学习架构是指通过机器学习的算法,在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构,CNN是一种前馈(feed-forward)人工神经网络,该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。
如图3所示,卷积神经网络(CNN)100可以包括输入层110,卷积层/池化层120,其中池化层为可选的,以及神经网络层130。输入层110用于输入多模态融合张量等数据。
卷积层/池化层120:
卷积层:
如图3所示卷积层/池化层120可以包括如示例卷积层121、池化层122,在一种实现中,即卷积层的输出可以作为随后的池化层的输入。其中,卷积层121可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长(stride)的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同,经过该多个维度相同的权重矩阵提取后的特征图维度也相同,再将提取到的多个维度相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息,从而帮助卷积神经网络100进行正确的预测。
池化层:
由于常常需要减少训练参数的数量,因此卷积层之后常常需要引入池化层,即如图3中120所示例的池化层122,可以是一层卷积层后面跟一层池化层。在图像处理过程中,池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与图像大小相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
神经网络层130:
在经过卷积层/池化层120的处理后,卷积神经网络100还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层120只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息),卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层130中可以包括多层隐含层(如图3所示的131、132至13n)以及输出层140,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像超分辨率重建等等……
在神经网络层130中的多层隐含层之后,也就是整个卷积神经网络100的最后层为输出层140,该输出层140具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络100的前向传播(如图3由110至140的传播为前向传播)完成,反向传播(如图3由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图3所示的卷积神经网络100仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,如图4所示的多个卷积层/池化层并行,将分别提取的特征均输入给全神经网络层130进行处理。
下面将对本申请实施例中的一种神经网络的处理方法进行具体的描述,请参阅图5,本申请实施例中一种神经网络的处理方法的一个实施例包括:
501、获取训练数据;
本实施例中,可以应用于神经网络预测模型的构建过程,服务器在神经网络的预测模型构建的时候,该服务器执行步骤501获取训练数据,该训练数据包含有多个单模态张量。
在步骤501的执行过程中,该服务器可以通过采集设备得到包含有多个单模态张量的训练数据,也可以通过与其它设备进行通信的方式得到包含有多个单模态张量的训练数据,还可以通过其他方式获取得到该包含有多个单模态张量的训练数据,此处不做限定。
其中,模态是指人接受信息的特定方式,每一种信息的来源或者形式,都可以称为一种模态;而张量可以看成是一个多维数组,0阶时为标量,1阶时为向量,2阶时为矩阵,3阶及以上通常称为N阶张量;也就是说,对于该多个单模态张量中的任意一个来说,其包含有某一个具体的单一模态的数据,该单一模态的数据通过张量来表示,此处对该张量的阶数不做限定。
502、根据所述待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量;
本实施例中,服务器根据步骤501中得到的待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量。
具体地,该服务器在对待训练的多个单模态张量进行张量融合的操作过程具体可以包括该服务器计算待训练的多个单模态张量的外积,然后该服务器进一步根据待训练的多个单模态张量的外积进行张量融合,得到待训练的初始多模态张量。此外,在根据待训练的多个单模态张量进行张量融合得到待训练的初始多模态张量的过程中,还可以使用前述TFN、LMF或者是其它类似的张量融合过程,此处不做限定。
其中,以该待训练的多个单模态张量为三个单模态张量为例进行说明,其中,这三个单模态张量分别为a1、a2、a3,其中,a1、a2、a3对应的维度分别为a、b、c,且a、b和c均为正整数,在步骤502中得到的初始多模态张量am的维度为三个单模态张量的维度之积,即为a*b*c。
503、根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量;
本实施例中,该服务器根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交。
具体的,如果两个或以上张量两两之间的余弦距离为0,则称这两个或以上张量正交,即为正交张量。在步骤503中,该R个正交张量中,R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交,即该R个正交张量中任意两个张量的余弦距离为0。此处以初始多模态张量为ai,R个正交张量包括t1、t2...、tR为例,说明步骤503中实现的卷积过程,具体实现可以如图6所示,其中,初始多模态张量ai601经过R个正交张量(t1、t2...、tR)卷积操作602之后,得到目标多模态张量603,其中,目标多模态张量bi可以使用ai×t1、ai×t2...ai×tR表示。具体在步骤503中实现的该卷积操作中,单模态张量在不同阶数时的正交张量网络运算可以通过如表1所示:
阶数 单模态张量 R个正交张量 操作 结果
1 向量 向量 内积 标量
2 矩阵 二维卷积核 卷积 矩阵
3 张量 三维卷积核 卷积 张量
>3 张量 高维卷积核 卷积 张量
表1
作为一个优选的实现方式,在该卷积操作602的实现过程中,还可以进一步使用预设滑动步长(stride)来实现卷积操作,其中,该步骤503的实现中,具体可以通过根据R个正交张量和预设滑动步长(stridem)对该初始多模态张量(ai)进行张量卷积操作,得到目标多模态张量(bi),其中,该初始多模态张量的阶数和该R个正交张量中的任意一个的阶数均为M阶,M为正整数,该预设滑动步长包含的元素个数为M。通过限定该初始多模态张量的阶数、该R个正交张量中的任意一个的阶数和该预设滑动步长中所包含的元素个数相等,在使用R个正交张量以及该预设滑动步长对该初始多模态张量进行卷积操作的时候,避免三者数值不对齐而导致卷积处理过程中的故障情况发生。
进一步地,初始多模态张量第m阶的维度为x,R个正交张量中的任意一个的第m阶的维度为y,预设滑动步长的第m个元素的取值为z,其中,x、y、z均为大于0的整数,m为不大于M的整数,x大于y,且y大于或等于z。从而,对于M阶中的任一阶(第m阶)中,使用维度小于该初始多模态张量的R个正交张量以及更小的预定滑动步长参与卷积处理过程,可以使得后续得到的目标多模态张量进一步地降低张量维度,进一步减少后续输入到预测模型中的参数
示例性地,可以将该初始多模态张量的阶数和该R个正交张量中的任意一个的阶数、以及该预设滑动步长包含的元素个数用M表示,其中,M为正整数。此外,还可以进一步限定,该M阶中的任意一阶m(m不大于M)中,初始多模态张量在第m阶中的维度大于R个正交张量中的任一张量在第m阶中的维度,且R个正交张量中的任一张量在第m阶中的维度大于该预设滑动步长第m个元素的取值。此时,相比于ai的维度为
Figure BDA0002461611230000131
bi的维度降低为
Figure BDA0002461611230000132
504、根据所述待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据;
本实施例中,服务器根据步骤503中得到的待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据。
在步骤504的实现过程中,更新过程可以有多种方式实现:
1)使用步骤503中得到的待预测的目标多模态张量直接替换步骤501得到的训练数据中待预测的多个单模态张量,得到更新后的训练数据。从而,后续使用该更新后的训练数据进行训练得到的预测模型中,可以包含有该待训练的目标多模态张量的融合信息,提升后续使用该预测模型进行预测的准确率。
2)在步骤501得到的训练数据中待预测的多个单模态张量的基础上,新增步骤503中得到的待预测的目标多模态张量,得到更新后的训练数据,即该更新后的训练数据包括该待训练的目标多模态张量和该待训练的多个单模态张量。从而,后续使用该更新后的训练数据进行训练得到的预测模型中,可以同时保留待训练的多个单模态张量的本地原始信息和待训练的目标多模态张量的融合信息,进一步提升后续使用该预测模型进行预测的准确率。
505、利用所述更新后的训练数据输入预设的训练网络,训练得到预测模型。
本实施例中,服务器将步骤504中更新后的训练数据输入预设的训练网络,训练得到预测模型。
作为一个优选的实现方式,图5所示实施例具体可以应用于多模态情感分析的应用场景中,此时,在步骤501中获取的训练数据所包含的多个单模态张量具体可以包括声音(Acoustic)模态张量、语言(Language)模态张量和视觉(Visual)模态张量中的至少两种。从而在步骤505中,训练得到的预测模型包括情感分析预测模型,应用于该场景中,使得后续在步骤505中输入到情感分析预测模型中的参数大大减少,降低服务器构建的情感分析模型的复杂度,提升神经网络的处理效率。
在一种可选的实现方式中,在步骤505利用更新后的训练数据输入预设的训练网络,训练得到预测模型的过程中,该服务器可以进一步对更新后的训练数据进行池化处理,得到池化处理后的训练数据,然后,该服务器再使用该池化处理后的训练数据输入该预设的训练网络,最后再得到该预测模型。从而,进一步减少预测模型中的参数,降低服务器构建的神经网络预测模型的复杂度,提升神经网络的处理效率。
在一种可选的实现方式中,在步骤505得到预测模型之后,该服务器可以使用正交约束损失函数对所述预测模型进行训练,得到训练后的预测模型。
具体地,在进行预测模型的训练过程中,一般可以使用损失函数进行训练以减少卷积神经网络的损失及误差,具体该损失函数包含正交约束损失函数,使得R个正交张量的正交性质可以被训练出来,提升模型训练效果。
作为一种优选的实施方式,该正交约束损失函数包括:
Figure BDA0002461611230000141
其中,L是模型整体的损失函数,Lregression表示回归误差,即
Figure BDA0002461611230000142
也就是预测值与真实值之间绝对误差的累加和;LO
Figure BDA0002461611230000143
是正交约束转化后的目标函数;λ是控制LO的比重系数;ti,tj都是正交张量网络模块中的正交张量。
Figure BDA0002461611230000144
表示两个不同的正交张量之间的余弦距离的绝对值;
Figure BDA0002461611230000145
表示对R个正交张量计算两两之间余弦距离的绝对值的累加和;计算余弦距离过程中,<ti,tj>表示两个张量之间的内积,而||ti||F和||ti||F分别表示张量ti和tj的F范数。从而,提供了该正交约束损失函数实现的公式之一,服务器可以使用该正交约束损失函数实现预测模型的训练过程,提升了方案的可实现性。
本实施例中,该服务器在神经网络的预测模型构建的时候,获取训练数据,所述训练数据包括待训练的多个单模态张量;然后,该服务器根据训练数据中待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量,并根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交;再进一步根据所述待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据,此后,利用所述更新后的训练数据输入预设的训练网络,训练得到预测模型。其中,该服务器根据R个正交张量对该待训练的初始多模态张量进行张量卷积操作得到待训练的目标多模态张量,即通过R个正交张量对待训练的初始多模态张量做卷积运算得到转化后的待训练的目标多模态张量,相比于待训练的初始多模态张量,该待训练的目标多模态张量降低了张量维度,使得输入到预测模型中的参数大大减少,降低服务器构建的神经网络预测模型的复杂度,提升神经网络的处理效率。
本申请实施例中,上述图5所述实施例具体介绍了可以通过正交张量实现输入到预测模型中的参数大大减少,从而降低服务器构建的神经网络预测模型的复杂度;下面将通过具体的实施例说明在得到优化后的预测模型后,可以使用该预测模型实现预测过程的优化。
请参阅图7,本申请实施例中提供的一种神经网络的处理方法的另一个实施例包括:
701、获取训练数据;
本实施例中,可以应用于神经网络预测模型的构建过程,服务器在神经网络的预测模型构建的时候,该服务器执行步骤701获取训练数据,该训练数据包含有多个单模态张量。
702、根据所述待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量;
本实施例中,服务器根据步骤701中得到的待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量。
703、根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量;
本实施例中,该服务器根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交。
704、根据所述待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据;
本实施例中,服务器根据步骤703中得到的待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据。
705、利用所述更新后的训练数据输入预设的训练网络,训练得到预测模型。
本实施例中,服务器利用步骤704中更新后的训练数据输入预设的训练网络,训练得到预测模型。
本实施例中,步骤701至步骤705的实现过程及对应的有益效果与前述图5中步骤501至步骤505的实现过程类似,此处不再赘述。
706、获取待预测数据;
本实施例中,可以应用于使用神经网络预测模型的预测过程,服务器在使用神经网络的预测模型进行预测过程中,该服务器执行步骤706获取待预测数据,该待预测数据包含有待预测的多个单模态张量。
在步骤706的执行过程中,该服务器可以通过采集设备得到包含有多个单模态张量的待预测数据,也可以通过与其它设备进行通信的方式得到包含有多个单模态张量的待预测数据,还可以通过其他方式获取得到该包含有多个单模态张量的待预测数据,此处不做限定。
其中,模态是指人接受信息的特定方式,每一种信息的来源或者形式,都可以称为一种模态;而张量可以看成是一个多维数组,0阶时为标量,1阶时为向量,2阶时为矩阵,3阶及以上通常称为N阶张量;也就是说,对于该多个单模态张量中的任意一个来说,其包含有某一个具体的单一模态的数据,该单一模态的数据通过张量来表示,此处对该张量的阶数不做限定。
在一种优选的实现方式中,可以应用于多模态情感分析的应用场景中,此时,在步骤706中获取的待预测数据所包含的多个单模态张量具体可以包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
707、根据所述待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量;
本实施例中,服务器根据步骤706中得到的待预测数据进行张量融合,得到待预测的初始多模态张量。
具体地,该服务器在对待预测的多个单模态张量进行张量融合的操作过程具体可以包括该服务器计算待预测的多个单模态张量的外积,然后该服务器进一步根据待预测的多个单模态张量的外积进行张量融合,得到待预测的初始多模态张量。此外,在根据待预测的多个单模态张量进行张量融合得到待预测的初始多模态张量的过程中,还可以使用前述TFN、LMF或者是其它类似的张量融合过程,此处不做限定。
其中,以该待预测的多个单模态张量为三个单模态张量为例进行说明,其中,这三个单模态张量分别为a1、a2、a3,其中,a1、a2、a3对应的维度分别为a、b、c,且a、b和c均为正整数,在步骤707中得到的待预测初始多模态张量am的维度为三个单模态张量的维度之积,即为a*b*c。
708、根据R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量;
本实施例中,该服务器根据R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交。
具体的,该根据R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量包括:根据R个正交张量和预设滑动步长对该待预测的初始多模态张量进行张量卷积操作,得到该待预测的目标多模态张量,其中,该待预测的初始多模态张量的阶数和该R个正交张量中的任一张量的阶数均为M阶,M为正整数,该预设滑动步长包含的元素个数为M。从而,通过限定该待预测的初始多模态张量的阶数、该R个正交张量中的任意一个的阶数和该预设滑动步长中所包含的元素个数相等,在使用R个正交张量以及该预设滑动步长对待预测的初始多模态张量进行卷积操作的时候,避免三者数值不对齐而导致卷积处理过程中的故障情况发生。
在一种可能实现方式中,该待预测的初始多模态张量第m阶的维度为x,该R个正交张量中的任意一个的第m阶的维度为y,该预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z。从而,进一步限定待预测的初始多模态张量第m阶的维度为x,R个正交张量中的任意一个的第m阶的维度为y,预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z,从而,对于M阶中的任一阶(第m阶)中,使用维度小于该待预测的初始多模态张量的R个正交张量以及更小的预定滑动步长参与卷积处理过程,可以使得后续得到的待预测的目标多模态张量进一步地降低张量维度,进一步减少后续输入到预测模型中的参数。
其中,可以使用与前述步骤703中所使用的R个正交张量作为步骤708中所使用的该R个正交张量。此外,服务器在步骤708中对待预测的初始多模态张量进行张量卷积操作过程中,还可以参考前述步骤503中对待训练的初始多模态张量进行张量卷积操作的实现过程,此处不再赘述。
709、根据所述待预测的目标多模态张量更新所述待预测数据,得到更新后的待预测数据;
本实施例中,服务器根据步骤708中得到的待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据。
在步骤709中,更新待预测数据的过程可以有多种方式实现:
1)使用步骤708中得到的待预测的目标多模态张量直接替换步骤706得到的预测数据中待预测的多个单模态张量,得到更新后的预测数据。从而,后续使用该更新后的预测数据输入预测模型的时候,使得预测模型的输入参数可以包含有该待预测的目标多模态张量的融合信息,提升后续使用该预测模型进行预测的准确率。
2)在步骤706得到的待预测数据中待预测的多个单模态张量的基础上,在该待预测数据中新增步骤708中得到的待预测的目标多模态张量,得到更新后的预测数据,即该更新后的预测数据包括该待预测的目标多模态张量和该待预测的多个单模态张量。从而,后续使用该更新后的预测数据输入预测模型的时候,使得预测模型的输入参数可以同时保留待预测的多个单模态张量的本地原始信息和待预测的目标多模态张量的融合信息,进一步提升后续使用该预测模型进行预测的准确率。
710、利用所述更新后的待预测数据输入预测模型,处理得到预测结果。
本实施例中,服务器可以利用步骤709得到的更新后的待预测数据输入预测模型,处理得到预测结果。其中,步骤710中使用的预测模型可以是步骤705中训练得到的预测模型。
在一种可选的实施方式中,图7适用的应用场景可以包括:使用同一个服务器实现训练网络的训练过程(步骤701至步骤705)以及待预测数据在预测模型中的预测过程(步骤706至步骤710),此时,通过同一个服务器先后执行根据训练数据训练得到预测模型,再根据待预测数据输入预测模型中,得到预测结果。
在一种可选的实施方式中,图7适用的应用场景还可以包括:使用多个不同的服务器分别实现训练网络的训练过程(步骤701至步骤705)以及待预测数据在预测模型中的预测过程(步骤706至步骤710),此时,在多个不同的服务器中,可以通过其中任意一个服务器(示例性的,由于训练过程对服务器运算能力要求较高,可以使用多个不同的服务器处理能力较强的服务器)执行根据训练数据训练得到预测模型,再通过多个不同的服务器之间通信的方式使得其它服务器都可以得到该预测模型,进一步地,多个不同的服务器可以分别输入不同的待预测参数,从而,可以实现大量待预测参数的预测过程,提升神经网络的处理效率。
此外,为了验证本实施例的有效性,本实施例在具有三个模态的公开数据集卡内基·梅隆大学多模态情绪识别(CMU Multimodal Opinion Sentiment Intensity,CMU-MOSI)进行了实验,实验结果如表2所示,从表2中可以看出,本发明提出的方法(即步骤706至步骤710的过程)在预测准确率上要明显优于其他方法。可见本实施例通过使用正交张量网络处理初始多模态张量的过程,有助于学习到更好的多模态张量融合表示,从而达到更好的预测效果。
方法 本发明 TFN LMF HPFN
准确率(%) 78.1 73.9 76.4 77.5
表2
在图7实施例的具体实现过程中,具体流程示意图还可以参阅图8所示内容,其中,在步骤706中获取得到待预测数据(图中以801、802、803作为示例,显然单模态数据的数量还可以为其它,此处不做限定),并且可以经过子网络(subnet)进行特征提取得到步骤701中的待预测的多个单模态张量(804);然后经过步骤702中的张量融合得到待预测的初始多模态张量(805);接着,在步骤703中执行张量卷积操作(806),得到待预测的目标多模态张量(807),其中该张量卷积操作(806)与前述图6实现过程类似,此处不再赘述;最后,在步骤704中将得到的待预测的目标多模态张量(807)(可选地还可以加入804中的多个单模态张量)作为预测模型(808)的输入,进行训练得到预测模型,后续可以使用该预测模型执行步骤706至步骤710的过程,即实现对待预测数据进行预测的过程。
本实施例中,服务器获取待预测数据,所述待预测数据包括待预测的多个单模态张量;然后,服务器根据所述待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量,并根据R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交;此后,该服务器根据所述待预测的目标多模态张量更新所述待预测数据,得到更新后的待预测数据;再进一步利用所述更新后的待预测数据输入预测模型,处理得到预测结果。其中,服务器根据该R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,相比于待预测的初始多模态张量,待预测的目标多模态张量降低了张量维度,减少输入到预测模型中的参数,降低服务器使用预测模型进行预测过程的复杂度,提升神经网络的处理效率,并且为后续的预测过程提供了抽象的多模态融合特征,从而提升该预测模型的预测效果。
本申请实施例还提供了一种神经网络的处理装置,具体参阅图9,图9为本申请实施例提供的神经网络的处理装置的一种结构示意图,该一神经网络的处理装置900包括:
获取单元901,用于获取训练数据,该训练数据包括待训练的多个单模态张量;
融合单元902,用于根据该待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量;
卷积单元903,用于根据R个正交张量对该待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,该R为大于1的整数,在该R个正交张量中的任一张量与其它R-1个张量正交;
更新单元904,用于根据该待训练的目标多模态张量更新该训练数据,得到更新后的训练数据;
训练单元905,用于利用该更新后的训练数据输入预设的训练网络,训练得到预测模型。
在一种可能的设计中,该卷积单元903具体用于:
根据R个正交张量和预设滑动步长对该待训练的初始多模态张量进行张量卷积操作,得到该待训练的目标多模态张量,其中,该待训练的初始多模态张量的阶数和该R个正交张量中的任一张量的阶数均为M阶,M为正整数,该预设滑动步长包含的元素个数为M。
在一种可能的设计中,该待训练的初始多模态张量第m阶的维度为x,该R个正交张量中的任意一个的第m阶的维度为y,该预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z。
在一种可能的设计中,该装置还包括处理单元906;
该获取单元901,还用于获取待预测数据,该待预测数据包括待预测的多个单模态张量;
该融合单元902,还用于根据该待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量;
该卷积单元903,还用于根据该R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量;
该更新单元904,还用于根据该待预测的目标多模态张量更新该待预测数据,得到更新后的待预测数据;
该处理单元906,用于利用该更新后的待预测数据输入该预测模型,处理得到预测结果。
在一种可能的设计中,该更新单元904,还用于
使用正交约束损失函数对该预测模型进行训练,更新该预测模型。
在一种可能的设计中,该目标神经网络损失函数包括:
Figure BDA0002461611230000191
其中,L是模型整体的损失函数,Lregression表示回归误差,即
Figure BDA0002461611230000192
也就是预测值与真实值之间绝对误差的累加和;LO
Figure BDA0002461611230000193
是正交约束转化后的目标函数;λ是控制LO的比重系数;ti,tj都是正交张量网络模块中的正交张量。
Figure BDA0002461611230000194
表示两个不同的正交张量之间的余弦距离的绝对值;
Figure BDA0002461611230000195
表示对R个正交张量计算两两之间余弦距离的绝对值的累加和;计算余弦距离过程中,<ti,tj>表示两个张量之间的内积,而||ti||F和||ti||F分别表示张量ti和tj的F范数。
在一种可能的设计中,该更新单元904,具体用于:
计算待训练的多个单模态张量的外积;
根据待训练的多个单模态张量的外积进行张量融合,得到待训练的初始多模态张量。
在一种可能的设计中,该更新单元904,具体用于:
对更新后的训练数据进行池化处理,得到池化处理后的训练数据;
使用该池化处理后的训练数据输入该预设的训练网络,得到该预测模型。
在一种可能的设计中,该更新后的训练数据包括该待训练的目标多模态张量和该待训练的多个单模态张量。
在一种可能的设计中,该待训练的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
需要说明的是,神经网络的处理装置900中各模块/单元之间的信息交互、执行过程等内容,与本申请中图5对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供了另一种神经网络的处理装置,具体参阅图10,图10为本申请实施例提供的神经网络的处理装置的一种结构示意图,该一种神经网络的处理装置1000包括:
获取单元1001,用于获取待预测数据,该待预测数据包括待预测的多个单模态张量;
融合单元1002,用于根据该待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量;
卷积单元1003,用于根据R个正交张量对该待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,其中,该R为大于1的整数,在该R个正交张量中的任一张量与其它R-1个张量正交;
更新单元1004,用于根据该待预测的目标多模态张量更新该待预测数据,得到更新后的待预测数据;
处理单元1005,用于利用该更新后的待预测数据输入预设的预测模型,处理得到预测结果。
在一种可能的设计中,该卷积单元1003,具体用于:
根据R个正交张量和预设滑动步长对该待预测的初始多模态张量进行张量卷积操作,得到该待预测的目标多模态张量,其中,该待预测的初始多模态张量的阶数和该R个正交张量中的任一张量的阶数均为M阶,M为正整数,该预设滑动步长包含的元素个数为M。
在一种可能的设计中,该待预测的初始多模态张量第m阶的维度为x,该R个正交张量中的任意一个的第m阶的维度为y,该预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z。
在一种可能的设计中,该更新单元1004,具体用于:
计算待预测的多个单模态张量的外积;
根据待预测的多个单模态张量的外积进行张量融合,得到待预测的初始多模态张量。
在一种可能的设计中,该更新单元1004,具体用于:
对更新后的待预测数据进行池化处理,得到池化处理后的待预测数据;
使用该池化处理后的待预测数据输入预设的训练网络,得到该预测模型。
在一种可能的设计中,该更新后的待预测数据包括该目标多模态张量和该多个单模态张量。
在一种可能的设计中,该待预测的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
需要说明的是,神经网络的处理装置1000中各模块/单元之间的信息交互、执行过程等内容,与本申请中图7对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供了一种服务器,请参阅图11,图11是本申请实施例提供的服务器一种结构示意图,服务器1100上可以部署有图9对应实施例中所描述的神经网络的处理装置900,用于实现图5对应实施例中服务器的功能,或者,服务器1100上可以部署有图10对应实施例中所描述的神经网络的处理装置1000,用于实现图7对应实施例中服务器的功能。具体的,服务器1100由一个或多个服务器实现,服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1123(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。但应当理解,图11中示出的服务器仅为服务器的一种示例,服务器1100内部也可以不包括存储器1132和存储介质1130,而是在服务器1100之外配置有外挂式存储器,也即存储器1132和存储介质1130与中央处理器1122可以为相互独立的设备,作为示例,例如车载服务器中就采用的是外挂式存储器。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作***1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器1122,用于执行图5对应实施例中的服务器执行的神经网络的处理方法,或者,用于执行图7对应实施例中服务器执行的神经网络的处理方法。需要说明的是,对于中央处理器1122执行神经网络的处理方法的具体实现方式,均可以参考图5、图7对应的各个方法实施例中的叙述,此处不再一一赘述。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图5所示实施例描述的方法中服务器所执行的步骤,或者,使得计算机执行如前述图7所示实施例描述的方法中服务器所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述图5所示实施例描述的方法中服务器所执行的步骤,或者,使得计算机执行如前述图7所示实施例描述的方法中服务器所执行的步骤。
本申请实施例提供的执行设备、训练设备、终端设备或通信设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使服务器内的芯片执行上述图5所示实施例描述的神经网络的处理方法,或者,以使服务器内的芯片执行上述图7所示实施例描述的神经网络的处理方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图12,图12为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 120,NPU 120作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1203,通过控制器1204控制运算电路1203提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1203内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1203是二维脉动阵列。运算电路1203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1203是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1202中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1201中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1208中。
统一存储器1206用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1205,DMAC被搬运到权重存储器1202中。输入数据也通过DMAC被搬运到统一存储器1206中。
BIU为Bus Interface Unit即,总线接口单元1210,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1209的交互。
总线接口单元1210(Bus Interface Unit,简称BIU),用于取指存储器1209从外部存储器获取指令,还用于存储单元访问控制器1205从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1206或将权重数据搬运到权重存储器1202中或将输入数据数据搬运到输入存储器1201中。
向量计算单元1207包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1207能将经处理的输出的向量存储到统一存储器1206。例如,向量计算单元1207可以将线性函数和/或非线性函数应用到运算电路1203的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1207生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1203的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1204连接的取指存储器(instruction fetch buffer)1209,用于存储控制器1204使用的指令;
统一存储器1206,输入存储器1201,权重存储器1202以及取指存储器1209均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,当第一神经网络、技能、新技能或第二神经网络选取的技能具体表现为神经网络时,神经网络中各层的运算可以由运算电路1203或向量计算单元1207执行。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述第一方面方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。

Claims (27)

1.一种神经网络的处理方法,其特征在于,包括:
获取训练数据,所述训练数据包括待训练的多个单模态张量;
根据所述待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量;
根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交;
根据所述待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据;
利用所述更新后的训练数据输入预设的训练网络,训练得到预测模型。
2.根据权利要求1所述的方法,其特征在于,所述根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量包括:
根据R个正交张量和预设滑动步长对所述待训练的初始多模态张量进行张量卷积操作,得到所述待训练的目标多模态张量,其中,所述待训练的初始多模态张量的阶数和所述R个正交张量中的任一张量的阶数均为M阶,M为正整数,所述预设滑动步长包含的元素个数为M。
3.根据权利要求2所述的方法,其特征在于,所述待训练的初始多模态张量第m阶的维度为x,所述R个正交张量中的任意一个的第m阶的维度为y,所述预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z。
4.根据权利要求1至3任一项所述的方法,其特征在于,在利用所述更新后的训练数据输入预设的训练网络,训练得到预测模型之后,所述方法还包括:
获取待预测数据,所述待预测数据包括待预测的多个单模态张量;
根据所述待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量;
根据所述R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量;
根据所述待预测的目标多模态张量更新所述待预测数据,得到更新后的待预测数据;
利用所述更新后的待预测数据输入所述预测模型,处理得到预测结果。
5.根据权利要求1至3任一项所述的方法,其特征在于,在所述利用所述更新后的训练数据输入预设的训练网络,训练得到预测模型之后,所述方法还包括:
使用正交约束损失函数对所述预测模型进行训练,更新所述预测模型。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述更新后的训练数据包括所述待训练的目标多模态张量和所述待训练的多个单模态张量。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述待训练的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
8.一种神经网络的处理方法,其特征在于,包括:
获取待预测数据,所述待预测数据包括待预测的多个单模态张量;
根据所述待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量;
根据R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交;
根据所述待预测的目标多模态张量更新所述待预测数据,得到更新后的待预测数据;
利用所述更新后的待预测数据输入预测模型,处理得到预测结果。
9.根据权利要求8所述的方法,其特征在于,所述根据R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量包括:
根据R个正交张量和预设滑动步长对所述待预测的初始多模态张量进行张量卷积操作,得到所述待预测的目标多模态张量,其中,所述待预测的初始多模态张量的阶数和所述R个正交张量中的任一张量的阶数均为M阶,M为正整数,所述预设滑动步长包含的元素个数为M。
10.根据权利要求9所述的方法,其特征在于,所述待预测的初始多模态张量第m阶的维度为x,所述R个正交张量中的任意一个的第m阶的维度为y,所述预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z。
11.根据权利要求8至10任一项所述的方法,其特征在于,所述更新后的待预测数据包括所述待预测的目标多模态张量和所述待预测的多个单模态张量。
12.根据权利要求8至10任一项所述的方法,其特征在于,所述待预测的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
13.一种神经网络的处理装置,其特征在于,包括:
获取单元,用于获取训练数据,所述训练数据包括待训练的多个单模态张量;
融合单元,用于根据所述待训练的多个单模态张量进行张量融合,得到待训练的初始多模态张量;
卷积单元,用于根据R个正交张量对所述待训练的初始多模态张量进行张量卷积操作,得到待训练的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交;
更新单元,用于根据所述待训练的目标多模态张量更新所述训练数据,得到更新后的训练数据;
训练单元,用于利用所述更新后的训练数据输入预设的训练网络,训练得到预测模型。
14.根据权利要求13所述的装置,其特征在于,所述卷积单元具体用于:
根据R个正交张量和预设滑动步长对所述待训练的初始多模态张量进行张量卷积操作,得到所述待训练的目标多模态张量,其中,所述待训练的初始多模态张量的阶数和所述R个正交张量中的任一张量的阶数均为M阶,M为正整数,所述预设滑动步长包含的元素个数为M。
15.根据权利要求14所述的装置,其特征在于,所述待训练的初始多模态张量第m阶的维度为x,所述R个正交张量中的任意一个的第m阶的维度为y,所述预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z。
16.根据权利要求13至15任一项所述的装置,其特征在于,所述装置还包括处理单元;
所述获取单元,还用于获取待预测数据,所述待预测数据包括待预测的多个单模态张量;
所述融合单元,还用于根据所述待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量;
所述卷积单元,还用于根据所述R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量;
所述更新单元,还用于根据所述待预测的目标多模态张量更新所述待预测数据,得到更新后的待预测数据;
所述处理单元,用于利用所述更新后的待预测数据输入所述预测模型,处理得到预测结果。
17.根据权利要求13至15任一项所述的装置,其特征在于,所述更新单元,还用于使用正交约束损失函数对所述预测模型进行训练,更新所述预测模型。
18.根据权利要求13至15任一项所述的装置,其特征在于,所述更新后的训练数据包括所述待训练的目标多模态张量和所述待训练的多个单模态张量。
19.根据权利要求13至15任一项所述的装置,其特征在于,所述待训练的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
20.一种神经网络的处理装置,其特征在于,包括:
获取单元,用于获取待预测数据,所述待预测数据包括待预测的多个单模态张量;
融合单元,用于根据所述待预测的多个单模态张量进行张量融合,得到待预测的初始多模态张量;
卷积单元,用于根据R个正交张量对所述待预测的初始多模态张量进行张量卷积操作,得到待预测的目标多模态张量,其中,所述R为大于1的整数,在所述R个正交张量中的任一张量与其它R-1个张量正交;
更新单元,用于根据所述待预测的目标多模态张量更新所述待预测数据,得到更新后的待预测数据;
处理单元,用于利用所述更新后的待预测数据输入预设的预测模型,处理得到预测结果。
21.根据权利要求20所述的装置,其特征在于,所述卷积单元,具体用于:
根据R个正交张量和预设滑动步长对所述待预测的初始多模态张量进行张量卷积操作,得到所述待预测的目标多模态张量,其中,所述待预测的初始多模态张量的阶数和所述R个正交张量中的任一张量的阶数均为M阶,M为正整数,所述预设滑动步长包含的元素个数为M。
22.根据权利要求21所述的装置,其特征在于,所述待预测的初始多模态张量第m阶的维度为x,所述R个正交张量中的任意一个的第m阶的维度为y,所述预设滑动步长的第m个元素的取值为z,其中,m为不大于M的整数,x、y、z均为大于0的整数,x大于y,且y大于或等于z。
23.根据权利要求20至22任一项所述的装置,其特征在于,所述更新后的待预测数据包括所述目标多模态张量和所述多个单模态张量。
24.根据权利要求20至22任一项所述的装置,其特征在于,所述待预测的多个单模态张量包括声音模态张量、语言模态张量和视觉模态张量中的至少两种。
25.一种服务器,其特征在于,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至7中任一项所述的方法,或者,使得计算机执行如权利要求8至12中任一项所述的方法。
26.一种计算机可读存储介质,包括程序,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的方法,或者,使得计算机执行如权利要求8至12中任一项所述的方法。
27.一种电路***,其特征在于,所述电路***包括处理电路,所述处理电路配置为执行如权利要求1至7任意一项所述的方法,或者,使得计算机执行如权利要求8至12中任一项所述的方法。
CN202010321526.5A 2020-04-22 2020-04-22 一种神经网络的处理方法及相关设备 Withdrawn CN111652349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010321526.5A CN111652349A (zh) 2020-04-22 2020-04-22 一种神经网络的处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010321526.5A CN111652349A (zh) 2020-04-22 2020-04-22 一种神经网络的处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN111652349A true CN111652349A (zh) 2020-09-11

Family

ID=72346518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010321526.5A Withdrawn CN111652349A (zh) 2020-04-22 2020-04-22 一种神经网络的处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN111652349A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537492A (zh) * 2021-07-19 2021-10-22 第六镜科技(成都)有限公司 模型训练及数据处理方法、装置、设备、介质、产品
CN114239885A (zh) * 2022-01-11 2022-03-25 中国科学院深圳先进技术研究院 一种运行故障预测方法及装置
CN116187401A (zh) * 2023-04-26 2023-05-30 首都师范大学 神经网络的压缩方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537492A (zh) * 2021-07-19 2021-10-22 第六镜科技(成都)有限公司 模型训练及数据处理方法、装置、设备、介质、产品
CN113537492B (zh) * 2021-07-19 2024-04-26 第六镜科技(成都)有限公司 模型训练及数据处理方法、装置、设备、介质、产品
CN114239885A (zh) * 2022-01-11 2022-03-25 中国科学院深圳先进技术研究院 一种运行故障预测方法及装置
CN116187401A (zh) * 2023-04-26 2023-05-30 首都师范大学 神经网络的压缩方法、装置、电子设备及存储介质
CN116187401B (zh) * 2023-04-26 2023-07-14 首都师范大学 神经网络的压缩方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112183718B (zh) 一种用于计算设备的深度学习训练方法和装置
CN111401406B (zh) 一种神经网络训练方法、视频帧处理方法以及相关设备
CN112418392A (zh) 一种神经网络构建方法以及装置
WO2022068623A1 (zh) 一种模型训练方法及相关设备
WO2022001805A1 (zh) 一种神经网络蒸馏方法及装置
CN115456161A (zh) 一种数据处理方法和数据处理***
CN112883149B (zh) 一种自然语言处理方法以及装置
WO2022228425A1 (zh) 一种模型训练方法及装置
CN111652349A (zh) 一种神经网络的处理方法及相关设备
CN113627163A (zh) 一种注意力模型、特征提取方法及相关装置
US20240135174A1 (en) Data processing method, and neural network model training method and apparatus
CN114925320B (zh) 一种数据处理方法及相关装置
CN113065997B (zh) 一种图像处理方法、神经网络的训练方法以及相关设备
WO2022156475A1 (zh) 神经网络模型的训练方法、数据处理方法及装置
CN111738403A (zh) 一种神经网络的优化方法及相关设备
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
CN112529149A (zh) 一种数据处理方法及相关装置
WO2022227024A1 (zh) 神经网络模型的运算方法、训练方法及装置
CN114169393A (zh) 一种图像分类方法及其相关设备
CN114298289A (zh) 一种数据处理的方法、数据处理设备及存储介质
CN116739154A (zh) 一种故障预测方法及其相关设备
WO2023122854A1 (zh) 数据处理的方法和装置
CN115795025A (zh) 一种摘要生成方法及其相关设备
CN115623242A (zh) 一种视频处理方法及其相关设备
CN114707643A (zh) 一种模型切分方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200911

WW01 Invention patent application withdrawn after publication