CN112836816A - 一种适用于光电存算一体处理单元串扰的训练方法 - Google Patents
一种适用于光电存算一体处理单元串扰的训练方法 Download PDFInfo
- Publication number
- CN112836816A CN112836816A CN202110151815.XA CN202110151815A CN112836816A CN 112836816 A CN112836816 A CN 112836816A CN 202110151815 A CN202110151815 A CN 202110151815A CN 112836816 A CN112836816 A CN 112836816A
- Authority
- CN
- China
- Prior art keywords
- crosstalk
- network
- neural network
- loss
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 title claims abstract description 15
- 238000004364 calculation method Methods 0.000 title claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 230000005693 optoelectronics Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 27
- 230000003287 optical effect Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/067—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using optical means
- G06N3/0675—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using optical means using electro-optical, acousto-optical or opto-electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明公开了一种适用于光电存算一体处理单元串扰的训练方法。该方法的具体步骤为:(1)分别构建不包含串扰条件下和包含串扰条件下的光电存算一体处理单元神经网络功能模型,得到原始网络和串扰网络;(2)推理过程中,分别计算原始网络和串扰网络所输出的分类结果;(3)计算原始网络和串扰网络中间某一个或多个卷积层结果的曼哈顿距离,并且计算两个网络的分类结果的均方误差,得到串扰损失;(4)使用神经网络损失函数计算串扰网络的损失值,再加上串扰损失,得到最终的损失值;(5)通过神经网络反向传播算法,更新串扰网络中的权值。本发明使得光电存算一体处理单元训练模型在串扰条件下,能够更加准确地预测出正确的结果。
Description
技术领域
本发明涉及深度学习领域,特别是涉及一种针对光电存算一体处理单元在串扰下训练模型的训练方法。
背景技术
光电存算一体处理单元(以下简称OPU)器件的光输入串扰分为两种:一种是和成像的工作状态相同,指的是在所有OPU阵列均处于光输入状态的情况下,因为浅槽隔离或深槽隔离不充分,光学调制机构存在偏差(镜头相差,调焦不到位等)导致的类似于成像领域的调制传递函数下降的串扰;另一种是通过行列选址的方式,让单个或某些器件处于光输入状态,相邻器件均处于行选中列不选中或行不选中列选中的状态,并采用均匀光源光输入状态下,因为电场分布不理想等原因导致的不被选中的器件也会发生少量光输入或暗输入的串扰。
上述第一种串扰简称为光学串扰,第二种串扰为电学串扰,这两种串扰都会对光输入的精度产生的影响。现有的一些常见损失函数,如交叉熵损失函数无法准确计算由于串扰所带来的误差,因此无法在神经网络的训练过程中对损失进行有效的收敛,导致神经网络的精度下降。
发明内容
为了克服上述现有技术的不足,本发明提供了一种适用于光电存算一体处理单元串扰的训练方法,以达到最大的光输入精度和最小的串扰。
为达上述目的,本发明采用的技术方案如下:
一种适用于光电存算一体处理单元串扰的训练方法,该方法首先构建在串扰影响下神经网络功能模型,再根据此神经网络模型和原始神经网络的差异设计损失函数,最后通过神经网络反向传播算法对网络进行迭代训练。
进一步地,所述方法具体包括以下步骤:
步骤1,构建不包含串扰条件下的光电存算一体处理单元神经网络功能模型,称之为原始网络;构建包含串扰条件下的光电存算一体处理单元神经网络功能模型,称之为串扰网络;
步骤2,在网络推理过程中,分别计算原始网络和串扰网络所输出的分类结果;
步骤3,计算原始网络和串扰网络中间某一个或多个卷积层分类结果的曼哈顿距离,并且计算两个网络的分类结果的均方误差,再将所得的曼哈顿距离和均方误差分别乘以一个系数,相加得到串扰损失;
步骤4,使用神经网络损失函数计算串扰网络的损失值,再加上步骤3中所得的串扰损失,得到最终的损失值;
步骤5,通过神经网络反向传播算法,更新串扰网络中的权值。
进一步地,所述步骤1中,构建串扰网络时,根据不同的原始网络模型,沿着不同方向进行光输入。
本发明的方法优化了训练过程中的损失函数,解决了OPU训练模型在测试过程中串扰会造成误差的问题。本发明的损失函数能够更加准确地模拟实际串扰情况下的模型,不仅可以加速训练过程,而且能得到更好的预测结果。
附图说明
图1为本发明方法的流程图;
图2为本发明实施例中损失函数计算方法的流程图。
具体实施方法
下面将结合附图及具体实施例对本发明进行详细描述。
参照图1,图2,本实施例的一种适用于OPU串扰下的训练方法,具体步骤如下:
步骤1,构建不包含串扰条件下的OPU神经网络功能模型,这是理论上不包含任何形式的干扰的理论模型,称之为原始网络net1。以及构建包含串扰条件下的OPU神经网络功能模型,称之为串扰网络net2,该网络根据不同的原始网络模型,沿着不同方向进行光输入。
以下为串扰的一个例子:同位线同时进行光输入,沿着字线方向有较大串扰,当阵列行数列数相当的情况下,次光输入方式为串扰较大的方式。
CrossYmat=CrossYmat+diag(((zeros(c-i,1)+1)*CrossX),-i)
JZfinal(:,j)=JZ(:,j)+CrossY*(max(JZ(:,j))-JZ(:,j))
JZfinal=JZfinal+JZ*CrossYmat
i=[1,c-1];j=[1,c]
JZ为原始光输入矩阵,JZfinal为计算串扰后实际输入的光输入值,c为输入矩阵的列数,CrossY为固定系数,CrossYmat为中间计算结果,diag()函数为创建对角矩阵函数,zeros()函数为创建0矩阵函数,max()函数为取最大值函数。
在本例中,串扰网络net2按照以上方式来构建。将原始网络net1中的权重按照OPU阵列重新排列,并且按照串扰网络net2方案改变权值。
步骤2,在一次推理的过程中,分别计算原始网络和串扰网络的结果。输出包括中间某些卷积层的结果,以及最后输出分类结果。在本例中,如同图2所示,包括第二层卷积层和最后全连接层的输出,分别记为Conv2net1,Conv2net2;以及fc2net1,fc2net2。
步骤3,计算原始网络和串扰网络中间某一卷积层结果的L1距离,并且计算两个网络的最终结果的均方误差,结合并称之为串扰损失。串扰损失的表达式如下:
L1=λ1Lc1(Conv2net1,Conv2net2)+λ2Lout(fc2net1,fc2net2)
其中n为激励的维度。由于中间卷积层的尺寸可能会比较大,采用计算量较小的L1距离算法,可以有效减少训练时的开销。对最终的输出,计算出其均方误差。λ1,λ2为调整各损失函数比例的参数。该串扰损失的前一部分表征原始网络和串扰网络中间某一卷积层由于串扰所带来的差异,后一部分表征原始网络和串扰网络在最后输出上的差异。
另外,本例仅取了一层中间卷积层的损失函数Lc1,根据实际网络的层数的加深,可以多取一些中间层Lc2,Lc3……。有助于在较复杂的网络模型下,更加精确地计算串扰对模型的影响。
步骤4,使用常见的神经网络损失函数计算串扰网络的损失值,再组合步骤3中所得的串扰损失,得到最终的损失值。
Loss=L1+L2
其中L2为对串扰网络使用常用损失函数计算其损失。在本例中由于网络模型的任务为分类任务,所以采用交叉熵函数作为计算损失的算法。即:
其中,M为类别的数量;yic代表指示变量(0或1),如果该类别和样本i的类别相同就是1,否则是0;pic为对于观测样本i属于类别c的预测概率。
步骤5,通过神经网络反向传播算法,更新串扰网络中的权值。
本实施例中理想情况下,即不包含串扰情况下的参考神经网络的分类精度为87.69%(使用的网络模型结构类似于alexnet,并做了权重偏置6bit,激励8bit量化处理,数据集为cifar10),加入串扰后的OPU神经网络功能模型分类精度为74.23%,精度下降约13%;而采用本发明训练方法后,分类精度为84.11%,精度下降约3%,因此,本发明的训练方法能够有效减少在串扰条件下OPU模型精度的下降。
Claims (3)
1.一种适用于光电存算一体处理单元串扰的训练方法,其特征在于,该方法首先构建在串扰影响下神经网络功能模型,再根据此神经网络模型和原始神经网络的差异设计损失函数,最后通过神经网络反向传播算法对网络进行迭代训练。
2.根据权利要求1所述的一种适用于光电存算一体处理单元串扰的训练方法,其特征在于,所述方法具体包括以下步骤:
步骤1,构建不包含串扰条件下的光电存算一体处理单元神经网络功能模型,称之为原始网络;构建包含串扰条件下的光电存算一体处理单元神经网络功能模型,称之为串扰网络;
步骤2,在网络推理过程中,分别计算原始网络和串扰网络所输出的分类结果;
步骤3,计算原始网络和串扰网络中间某一个或多个卷积层分类结果的曼哈顿距离,并且计算两个网络的分类结果的均方误差,再将所得的曼哈顿距离和均方误差分别乘以一个系数,相加得到串扰损失;
步骤4,使用神经网络损失函数计算串扰网络的损失值,再加上步骤3中所得的串扰损失,得到最终的损失值;
步骤5,通过神经网络反向传播算法,更新串扰网络中的权值。
3.根据权利要求2所述的一种适用于光电存算一体处理单元串扰的训练方法,其特征在于,所述步骤1中,构建串扰网络时,根据不同的原始网络模型,沿着不同方向进行光输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110151815.XA CN112836816B (zh) | 2021-02-04 | 2021-02-04 | 一种适用于光电存算一体处理单元串扰的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110151815.XA CN112836816B (zh) | 2021-02-04 | 2021-02-04 | 一种适用于光电存算一体处理单元串扰的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836816A true CN112836816A (zh) | 2021-05-25 |
CN112836816B CN112836816B (zh) | 2024-02-09 |
Family
ID=75932026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110151815.XA Active CN112836816B (zh) | 2021-02-04 | 2021-02-04 | 一种适用于光电存算一体处理单元串扰的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836816B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070060059A1 (en) * | 2004-12-14 | 2007-03-15 | Quellan, Inc. | Method and system for automatic control in an interference cancellation device |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
CN109615629A (zh) * | 2018-12-24 | 2019-04-12 | 东北电力大学 | 基于卷积神经网络的光伏板积灰状态图像识别***及其分析调控方法 |
CN109816092A (zh) * | 2018-12-13 | 2019-05-28 | 北京三快在线科技有限公司 | 深度神经网络训练方法、装置、电子设备及存储介质 |
CN109886393A (zh) * | 2019-02-26 | 2019-06-14 | 杭州闪亿半导体有限公司 | 一种存算一体化电路及神经网络的计算方法 |
US20190188562A1 (en) * | 2017-12-15 | 2019-06-20 | International Business Machines Corporation | Deep Neural Network Hardening Framework |
CN110334799A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于存算一体的神经网络推理与训练加速器及其运行方法 |
KR20200028801A (ko) * | 2018-09-07 | 2020-03-17 | 서울대학교산학협력단 | 뉴럴 네트워크를 이용한 변분 추론 학습 방법 및 학습 장치, 그리고 이를 이용한 변분 추론 방법 및 장치 |
CN111208865A (zh) * | 2018-11-22 | 2020-05-29 | 南京大学 | 光电计算单元、光电计算阵列及光电计算方法 |
CN111222628A (zh) * | 2019-11-20 | 2020-06-02 | 深圳前海微众银行股份有限公司 | 循环神经网络训练优化方法、设备、***及可读存储介质 |
CN111523640A (zh) * | 2020-04-09 | 2020-08-11 | 北京百度网讯科技有限公司 | 神经网络模型的训练方法和装置 |
CN112070204A (zh) * | 2020-07-24 | 2020-12-11 | 中国科学院计算技术研究所 | 一种基于阻变存储器的神经网络映射方法、加速器 |
CN112150341A (zh) * | 2020-11-26 | 2020-12-29 | 南京理工大学 | 基于物理约束和数据驱动的双阶段散射成像方法 |
-
2021
- 2021-02-04 CN CN202110151815.XA patent/CN112836816B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070060059A1 (en) * | 2004-12-14 | 2007-03-15 | Quellan, Inc. | Method and system for automatic control in an interference cancellation device |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
US20190188562A1 (en) * | 2017-12-15 | 2019-06-20 | International Business Machines Corporation | Deep Neural Network Hardening Framework |
KR20200028801A (ko) * | 2018-09-07 | 2020-03-17 | 서울대학교산학협력단 | 뉴럴 네트워크를 이용한 변분 추론 학습 방법 및 학습 장치, 그리고 이를 이용한 변분 추론 방법 및 장치 |
CN111208865A (zh) * | 2018-11-22 | 2020-05-29 | 南京大学 | 光电计算单元、光电计算阵列及光电计算方法 |
CN109816092A (zh) * | 2018-12-13 | 2019-05-28 | 北京三快在线科技有限公司 | 深度神经网络训练方法、装置、电子设备及存储介质 |
CN109615629A (zh) * | 2018-12-24 | 2019-04-12 | 东北电力大学 | 基于卷积神经网络的光伏板积灰状态图像识别***及其分析调控方法 |
CN109886393A (zh) * | 2019-02-26 | 2019-06-14 | 杭州闪亿半导体有限公司 | 一种存算一体化电路及神经网络的计算方法 |
CN110334799A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于存算一体的神经网络推理与训练加速器及其运行方法 |
CN111222628A (zh) * | 2019-11-20 | 2020-06-02 | 深圳前海微众银行股份有限公司 | 循环神经网络训练优化方法、设备、***及可读存储介质 |
CN111523640A (zh) * | 2020-04-09 | 2020-08-11 | 北京百度网讯科技有限公司 | 神经网络模型的训练方法和装置 |
CN112070204A (zh) * | 2020-07-24 | 2020-12-11 | 中国科学院计算技术研究所 | 一种基于阻变存储器的神经网络映射方法、加速器 |
CN112150341A (zh) * | 2020-11-26 | 2020-12-29 | 南京理工大学 | 基于物理约束和数据驱动的双阶段散射成像方法 |
Non-Patent Citations (3)
Title |
---|
SHIWEI LIU,ETAL: "XNORAM:An Efficient Computing-in-Memory Architecture for Binary Convolutional Neutral Networks with Flexible Dataflow Mapping", 《2020 2ND IEEE INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE CIRCUITS AND SYSTEM (AICAS)》 * |
李锟;曹荣荣;孙毅;刘森;李清江;徐晖;: "基于忆阻器的感存算一体技术研究进展", 微纳电子与智能制造, no. 04 * |
陈子龙;程传同;董毅博;张欢;张恒杰;毛旭瑞;黄北举;: "忆阻器类脑芯片与人工智能", 微纳电子与智能制造, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836816B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583165A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN111832220A (zh) | 一种基于编解码器模型的锂离子电池健康状态估算方法 | |
CN111200141B (zh) | 基于深度信念网络的质子交换膜燃料电池性能预测及寻优方法 | |
CN111898316A (zh) | 一种超表面结构设计模型的构建方法及其应用 | |
CN111860790A (zh) | 一种提高深度残差脉冲神经网络精度以优化图像分类的方法及其*** | |
CN112749784B (zh) | 一种计算设备及神经网络的加速方法 | |
CN117313640A (zh) | 光刻掩膜生成模型的训练方法、装置、设备及存储介质 | |
WO2024113782A1 (zh) | 一种图像实例分割方法、***、设备以及非易失性可读存储介质 | |
CN116363423A (zh) | 面向小样本学习的知识蒸馏方法、装置及存储介质 | |
CN115600640A (zh) | 基于分解网络的电力负荷预测方法 | |
US6922712B2 (en) | Apparatus, methods, and computer program products for accurately determining the coefficients of a function | |
CN112836816A (zh) | 一种适用于光电存算一体处理单元串扰的训练方法 | |
CN116911459A (zh) | 适应于虚拟电厂的多输入多输出超短期电力负荷预测方法 | |
CN115809725A (zh) | 一种多因素短期电量预测方法及装置 | |
CN116316600A (zh) | 基于季节分型的面向风电功率日前预测自适应滤波方法 | |
CN114819107B (zh) | 基于深度学习的混合数据同化方法 | |
CN117709258B (zh) | 基于图神经网络的路径时序预测方法 | |
CN117195705B (zh) | 基于强化学习的器件自动设计方法、装置及存储介质 | |
CN117911043A (zh) | 燃煤电厂碳排放量的预测方法、装置、介质及设备 | |
Yan | Research on Circuit Optimization Design Based on Atomic Orbital Search Algorithm | |
CN118297122A (zh) | 一种面向嵌入式平台推理计算的量化参数优化方法及*** | |
CN117313815A (zh) | 一种优化MZI的ONNs相位配置的渐进式训练方法 | |
CN115865237A (zh) | 一种基于卫星图像数据的深度学习场强预测方法及*** | |
CN118053516A (zh) | 原子能量和原子受力与材料的性质、orr催化反应活性及弹性常数的预测方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |