CN113537472A - 一种低计算和存储消耗的双向递归神经网络 - Google Patents

一种低计算和存储消耗的双向递归神经网络 Download PDF

Info

Publication number
CN113537472A
CN113537472A CN202110841564.8A CN202110841564A CN113537472A CN 113537472 A CN113537472 A CN 113537472A CN 202110841564 A CN202110841564 A CN 202110841564A CN 113537472 A CN113537472 A CN 113537472A
Authority
CN
China
Prior art keywords
neural network
recurrent neural
layer
time sequence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110841564.8A
Other languages
English (en)
Other versions
CN113537472B (zh
Inventor
任海青
杨林
王浩枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202110841564.8A priority Critical patent/CN113537472B/zh
Publication of CN113537472A publication Critical patent/CN113537472A/zh
Application granted granted Critical
Publication of CN113537472B publication Critical patent/CN113537472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种低计算和存储消耗的双向递归神经网络,属于人工智能技术领域。本发明的正向时序特征识别阶段正向地接收输入的时间序列,并在每个时刻计算相应时刻的输出,生成输出序列;逆向时序特征识别阶段,这个阶段以第一个阶段为基础,逆向地接收输入的时间序列以及第一个阶段的输出序列,并在每个时刻计算相应的结果;最终根据第二个阶段输出的结果进行时间序列的分类。本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小,可应用于多种时间序列处理的任务,对相关算法设计起指导作用,有助于相关算法在端侧低功耗限制的硬件上的实现。

Description

一种低计算和存储消耗的双向递归神经网络
技术领域
本发明属于人工智能技术领域,具体涉及一种低计算和存储消耗的双向递归神经网络。
背景技术
随着人工智能技术的快速发展,深度神经网络在模式识别、人机交互等领域得到了广泛的应用。主流的深度神经网络包括卷积神经网络和递归神经网络两种。其中,递归神经网络是一种专门处理时间序列的神经网络,常被应用于语音识别、文本分析、自然语言处理、手势识别等有时间顺序特征的任务。
递归神经网络一般分为单向递归神经网络和双向递归神经网络两大类。递归神经网络的输入一般是一个时间序列,通过学习序列的时序特征,对序列进行分类或者预测。单向递归神经网络接收正向的输入时间序列,学习正向时间序列中的时序特征,并依据时序特征进行分类。双向递归神经网络一般包括两个单向的递归神经网络,一个单向的递归神经网络接收正向的输入时间序列,学习正向序列的时序特征,另外一个接收逆向的输入时间序列,学习逆向序列的时序特征,最后整合这两种特征,对输入的时间序列进行分类。各个领域大量的实验数据表明,相比于单项递归神经网络,双向递归神经网络往往具有更高的分类和预测的精确度。这说明对于一个输入的时间序列,从它的逆向序列中学习到的特征,能够有效的提升当前时间序列的分类效果。
但是,由于双向递归神经网络要同时计算正向和逆向两个方向的迭代,因而在同样的计算环境下,计算时间要比单向递归神经网络慢很多,尤其在处理较长的序列数据时,计算消耗的问题就更为明显。以手写汉字识别为例,递归神经网络的输入为手写汉字的轨迹坐标序列,给定输入x=(x1,x2,…,xt,…,xT),序列长度为T,单向递归神经网络每一时刻接收手写汉字轨迹中的一个坐标点,共进行T次迭代计算。但是双向递归神经网络需要计算正向和逆向共2T次迭代计算,在隐含层数量以及维度一定时,计算开销是单向神经网络的两倍。此外,双向递归神经网络计算正向序列和逆向序列是两套不同的参数,存储开销比单向递归神经网络也大很多。在一些端侧的设备上,由于功耗和存储的限制,对智能算法模型的大小和计算消耗有着严格的要求,因而探索高精度、低计算消耗、低存储消耗的算法模型对于嵌入式设备智能化发展有着重要的意义。
近年来,研究者们针对递归神经网络模型结构的研究取得了一些列重要的成果,但仍然存在不足之处。本发明主要针对以下两点不足之处,对递归神经网络进行了改进。
(1)单向神经网络无法学习到时间序列中正向和逆向两种时序信息,逆向时序信息的缺失导致网络识别精度不够。
(2)双向递归神经网络需要两个具有不同参数的单向递归神经网络分别学习时间序列中正向和逆向的时序信息,计算、存储开销较大。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种低计算和存储消耗的双向递归神经网络,以解决递归神经网络逆向时序信息的缺失导致网络识别精度不够、计算、存储开销较大等方面的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种低计算和存储消耗的双向递归神经网络,该神经网络包括输入层、特征提取层和输出层,特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层;
输入层用于输入经过预处理之后的时间序列;
正向特征提取层用于基于单向的递归神经网络学习输入时间序列中的正向时序特征信息;
特征处理层用于学习到的正向时序特征与输入时间序列整合到一起,作为下一层递归神经网络的输入;
逆向特征提取层用于接收特征处理层中整合完成的特征,基于单向的递归神经网络学习输入时间序列中的逆向时序信息;
输出层用于输出时序特征。
进一步地,所述正向特征提取层具体包括:对于一个输入的时间序列x=(x1,x2,…,xt,…,xT),递归神经网络在t时刻接收输入xt,根据前一时刻的输出ht-1,计算出当前时刻的输出ht,经过T个时刻的迭代,最终得到正向特征序列h=(h1,h2,…,ht,…,hT)。
进一步地,所述正向特征提取层的具体实现方法如下:给定输入时间序列x=(x1,x2,…,xt,…,xT),其中,xt为列向量,将输入时间序列各个时间时刻的向量xt送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
h1=H(x1,h0,θ)
ht=H(xt,ht-1,θ) (1)
其中,h0表示隐含层状态向量的初始状态,h0=0,h1表示在时刻1的隐含层状态向量,ht表示在时刻t的隐含层状态向量,
Figure BDA0003179067110000031
表示计算隐含层状态的函数,θ表示相应的神经网络的参数;经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态h=(h1,h2,…,ht,…,hT),即为通过单向递归神经网络提取到的正向时序特征。
进一步地,所述特征处理层包括:将输入的时间序列与正向特征序列整合,整合方式为x′=(Px1+h1,Px2+h2,…,Pxt+ht,…PxT+hT)=(x′1,x′2,…,x′t,…,x′T),xt、ht均列向量,然后再将序列反转为x″=(x′T,x′T-1,…,x′t,…,x′1)=(x″1,x″2,…,x″t,…,x″T);其中P为转换矩阵,将输入向量x转化成与特征向量相同的维度,x″即为逆向特征提取层的输入。
进一步地,所述逆向特征提取层包括:对于当前输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),递归神经网络在t时刻接收输入x″t,计算出当前时刻的输出
Figure BDA0003179067110000032
根据前一时刻的输出
Figure BDA0003179067110000033
经过T个时刻的迭代,最终得到逆向特征序列
Figure BDA0003179067110000034
Figure BDA0003179067110000035
进一步地,所述逆向特征提取层的具体实现方式为:给定输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),其中,x″t为列向量,将输入时间序列各个时间时刻的向量x″t送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure BDA0003179067110000036
Figure BDA0003179067110000037
其中,
Figure BDA0003179067110000041
表示隐含层状态向量的初始状态,
Figure BDA0003179067110000042
表示在时刻1的隐含层状态向量,
Figure BDA0003179067110000043
表示在时刻t的隐含层状态向量,
Figure BDA0003179067110000044
表示计算隐含层状态的函数,
Figure BDA0003179067110000045
表示相应的神经网络的参数。经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure BDA0003179067110000046
即为通过单向递归神经网络提取到的逆向时序特征。
进一步地,所述输出层输出时序特征之前,还包括:对特征序列
Figure BDA0003179067110000047
Figure BDA0003179067110000048
进行特征处理。
进一步地,所述对特征序列
Figure BDA0003179067110000049
进行特征处理具体包括:以加和的方式进行特征处理,经过特征处理得到的输入时间序列的时序特征为,
Figure BDA00031790671100000410
进一步地,所述输出层还用于将学习到的特征送入分类器中进行分类。
进一步地,所述递归神经网络的类型为门控循环单元(Gated Recurrent Unit)类型、长短时记忆(Long Short-Term Memory)类型或相关变种类型。
(三)有益效果
本发明提出一种低计算和存储消耗的双向递归神经网络,本发明的有益效果是:
(1)本发明提出了一种低计算、存储开销的双向递归神经网络模型,相比于单向递归神经网络能够在不增加计算、存储开销的情况下,有效的提取到时间序列中正向和逆向的时序信息,如图3中图(a)和图(b)所示,图(a)是普通双层单向递归神经网络结构,图(b)是本发明所述双层双向递归神经网络,图(a)和图(b)在隐含层状态维度相同、具有相同的网络结构的情况下,网络参数数目一样,存储开销相同,计算开销(2层*T次迭代计算)相同,但是图(b)能有效的提取到时间序列中正向和逆向的时序信息;相比于双向递归神经网络能够有效的节省计算、存储开销,如图3中图(c)和图(d)所示,图(c)是本发明所述双层双向递归神经网络,图(d)是普通双向双层递归神经网络,从图(d)中可以看出普通双向双层递归神经网络在每一层需要计算2*T次迭代,而图(c)本发明所述双层双向递归神经网络在每一层只需要计算T次迭代,计算开销较小;另外在两种神经网络层数和隐含层状态维度相同的情况下,普通双向双层递归神经网络在每一层都要进行正向和逆向的迭代计算,正向和逆向迭代计算使用是两套不同的参数,普通双向双层递归神经网络参数量是本发明所述双层双向递归神经网络的两倍,本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小。
(2)本发明提出的低计算、存储开销的双向递归神经网络模型是基础的网络模型,可应用于语音识别、自然语言处理、文本分析、手写识别等时间序列处理的任务,对相关算法设计起指导作用。
(3)本发明提出的双向递归神经网络模型,可帮助时间序列处理任务实现低计算、存储开销的算法实现,有助于相关算法在端侧低功耗限制的硬件上的实现。
附图说明
图1为本发明网络模型模块设计与总体架构;
图2为本发明网络模型结构及工作流程图;
图3a-图3d为各网络性能对比图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明涉及一种低计算消耗的双向递归神经网络,通过减少递归神经网络每一层迭代的次数降低递归神经网络计算消耗,提升推理和训练的速度,属人工智能技术领域。
针对现有技术中存在的问题,本发明的目的在于提供一种低计算开销、低存储开销、高分类精度的递归神经网络算法。这种算法一方面在一定程度上实现了传统单向神经网络对于时间序列中正向和逆向两种时序信息的学习,提升了分类精度;另一方面避开了双向递归神经网络中计算、存储方面开销大的难点,对递归神经网络结构的发展起了相对重要的作用。本发明面向常见的时间序列分类识别任务,包括但不限于手写汉字识别、语音识别、文本分析等。
本发明解决相关技术问题所用的技术方案是:一种低计算、存储开销的双向递归神经网络模型。该模型涵盖正向时序特征学习和逆向时序特征学习两个阶段。首先是正向时序特征识别阶段,在这个阶段与普通的单向递归神经网络一样,正向地接收输入的时间序列,并在每个时刻计算相应时刻的输出,生成输出序列;第二个阶段是逆向时序特征识别阶段,这个阶段以第一个阶段为基础,逆向地接收输入的时间序列以及第一个阶段的输出序列,并在每个时刻计算相应的结果;最终根据第二个阶段输出的结果进行时间序列的分类。本发明的方法流程为:
1.图1是本发明所述低计算、存储开销的双向递归神经网络模型模块设计与总体架构,基于数据流向给出了网络模型的输入、正向特征提取、逆向特征提取、特征处理、输出几个部分的简要流程及联系。具体流程如下:
(1)输入时间序列;
(2)时间序列正向时序特征提取,主要是基于单向的递归神经网络学习输入时间序列中的正向时序特征信息;
(3)时序特征处理,主要是将学习到的正向时序特征与输入时间序列整合到一起,作为下一层递归神经网络的输入,用于提取逆向的时序特征;
(4)时间序列逆向时序特征提取,接收(3)中整合完成的特征,基于单向的递归神经网络学习输入时间序列中的逆向时序信息。
(5)输出时序特征,并对输入时间序列进行分类。
2.图2是本发明所述低计算、存储开销的双向递归神经网络模型,该神经网络包括输入层、特征提取层和输出层,特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层。
具体表述如下:
(1)输入层:输入层是主要是指经过预处理之后的时间序列
(2)特征提取层:特征提取层主要是包含正向特征提取、特征处理以及逆向特征提取三部分。
①正向特征提取:对于一个输入的时间序列x=(x1,x2,…,xt,…,xT),递归神经网络在t时刻接收输入xt,根据前一时刻的输出ht-1,计算出当前时刻的输出ht,经过T个时刻的迭代,如公式(1)所示,最终得到正向特征序列h=(h1,h2,…,ht,…,hT);
②特征处理:此部分主要是将输入的时间序列与正向特征序列整合,整合方式为x′=(Px1+h1,Px2+h2,…,Pxt+ht,…PxT+hT)=(x′1,x′2,…,x′t,…,x′T)(假设xt、ht均列向量),然后再将序列反转为x″=(x′T,x′T-1,…,x′t,…,x′1)=(x″1,x″2,…,x″t,…,x″T)。其中P为转换矩阵,主要是将输入向量x转化成与特征向量相同的维度,例如,xt为r×1的向量,ht为w×1的向量,那么P为w×r的矩阵,这样Pxt就和ht具有相同的维度,这样就能够通过Pxt+ht将输入的时间序列x和正向特征序列h进行整合。
③逆向特征提取;对于当前输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),递归神经网络在t时刻接收输入x″t,计算出当前时刻的输出
Figure BDA0003179067110000071
根据前一时刻的输出
Figure BDA0003179067110000072
经过T个时刻的迭代,如公式(2)所示,最终得到逆向特征序列
Figure BDA0003179067110000073
Figure BDA0003179067110000074
(3)输出层:整合
Figure BDA0003179067110000075
得到输入时间序列的时序特征,并对输入时间序列进行分类。
下面结合附图对本发明作进一步说明。
图2为本发明所述低计算、存储开销的双向递归神经网络模型结构及工作流程图,主要涉及时间序列正向特征提取、时间序列逆向特征提取以及特征处理三个方面的内容,具体实施方式如下:
1.基于递归神经网络的时间序列正向时序特征提取:
给定输入时间序列x=(x1,x2,…,xt,…,xT),其中,xt为列向量,将输入时间序列各个时间时刻的向量xt送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
h1=H(x1,h0,θ)
ht=H(xt,ht-1,θ) (1)
其中,h0表示隐含层状态向量的初始状态,h0=0,h1表示在时刻1的隐含层状态向量,ht表示在时刻t的隐含层状态向量,
Figure BDA0003179067110000081
表示计算隐含层状态的函数,θ表示相应的神经网络的参数。经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态h=(h1,h2,…,ht,…,hT),即为通过单向递归神经网络提取到的正向时序特征。在本发明中,递归神经网络的类型可以是门控循环单元(Gated Recurrent Unit)类型,也可以是长短时记忆(LongShort-Term Memory)类型以及相关变种类型。
2.正向时序特征处理:
在经过正向时序特征提取的过程以后,提取到的特征需要经过特征处理阶段,将正向时序特征与输入时间序列整合到一起,作为逆向时序特征提取网络的输入。具体整合方法如下:
x′=(Px1+h1,Px2+h2,…,Pxt+ht,…PxT+hT)=(x′1,x′2,…,x′t,…,x′T)
然后对整合后的时间序列在时间顺序上进行反转,
x″=(x′T,x′T-1,…,x′t,…,x′1)=(x″1,x″2,…,x″t,…,x″T)。
x″即为逆向时序特征提取网络的输入。
3.基于递归神经网络的时间序列逆向时序特征提取:
给定输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),其中,x″t为列向量,将输入时间序列各个时间时刻的向量x″t送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure BDA0003179067110000082
Figure BDA0003179067110000091
其中,
Figure BDA0003179067110000092
表示隐含层状态向量的初始状态,
Figure BDA0003179067110000093
表示在时刻1的隐含层状态向量,
Figure BDA0003179067110000094
表示在时刻t的隐含层状态向量,
Figure BDA0003179067110000095
表示计算隐含层状态的函数,
Figure BDA0003179067110000096
表示相应的神经网络的参数。经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure BDA0003179067110000097
即为通过单向递归神经网络提取到的逆向时序特征。
4.时序特征处理:
在经过正向逆向时序特征提取的过程以后,提取到的特征序列
Figure BDA0003179067110000098
Figure BDA0003179067110000099
需要经过特征处理再进行下一步的操作,以分类任务为例,常用的特征处理方法一般为加和的方式,经过特征处理得到的输入时间序列的时序特征为,
Figure BDA00031790671100000910
最终将学习到的特征送入分类器中进行分类。
本发明提出了一种低计算、存储开销的双向递归神经网络模型,相比于单向递归神经网络能够在不增加计算、存储开销的情况下,有效的提取到时间序列中正向和逆向的时序信息,如图3中图(a)和图(b)所示,图(a)是普通双层单向递归神经网络结构,图(b)是本发明所述双层双向递归神经网络,图(a)和图(b)在隐含层状态维度相同、具有相同的网络结构的情况下,网络参数数目一样,存储开销相同,计算开销(2层*T次迭代计算)相同,但是图(b)能有效的提取到时间序列中正向和逆向的时序信息;相比于双向递归神经网络能够有效的节省计算、存储开销,如图3中图(c)和图(d)所示,图(c)是本发明所述双层双向递归神经网络,图(d)是普通双向双层递归神经网络,从图(d)中可以看出普通双向双层递归神经网络在每一层需要计算2*T次迭代,而图(c)本发明所述双层双向递归神经网络在每一层只需要计算T次迭代,计算开销较小;另外在两种神经网络层数和隐含层状态维度相同的情况下,普通双向双层递归神经网络在每一层都要进行正向和逆向的迭代计算,正向和逆向迭代计算使用是两套不同的参数,普通双向双层递归神经网络参数量是本发明所述双层双向递归神经网络的两倍,本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小。
本发明提出的低计算、存储开销的双向递归神经网络模型是基础的网络模型,可应用于语音识别、自然语言处理、文本分析、手写识别等时间序列处理的任务,对相关算法设计起指导作用。
本发明提出的双向递归神经网络模型,可帮助时间序列处理任务实现低计算、存储开销的算法实现,有助于相关算法在端侧低功耗限制的硬件上的实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种低计算和存储消耗的双向递归神经网络,其特征在于,该神经网络包括输入层、特征提取层和输出层,特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层;
输入层用于输入经过预处理之后的时间序列;
正向特征提取层用于基于单向的递归神经网络学习输入时间序列中的正向时序特征信息;
特征处理层用于学习到的正向时序特征与输入时间序列整合到一起,作为下一层递归神经网络的输入;
逆向特征提取层用于接收特征处理层中整合完成的特征,基于单向的递归神经网络学习输入时间序列中的逆向时序信息;
输出层用于输出时序特征。
2.如权利要求1所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述正向特征提取层具体包括:对于一个输入的时间序列x=(x1,x2,…,xt,…,xT),递归神经网络在t时刻接收输入xt,根据前一时刻的输出ht-1,计算出当前时刻的输出ht,经过T个时刻的迭代,最终得到正向特征序列h=(h1,h2,…,ht,…,hT)。
3.如权利要求2所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述正向特征提取层的具体实现方法如下:给定输入时间序列x=(x1,x2,…,xt,…,xT),其中,xt为列向量,将输入时间序列各个时间时刻的向量xt送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
h1=H(x1,h0,θ)
ht=H(xt,ht-1,θ) (1)
其中,h0表示隐含层状态向量的初始状态,h0=0,h1表示在时刻1的隐含层状态向量,ht表示在时刻t的隐含层状态向量,
Figure FDA0003179067100000011
表示计算隐含层状态的函数,θ表示相应的神经网络的参数;经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态h=(h1,h2,…,ht,…,hT),即为通过单向递归神经网络提取到的正向时序特征。
4.如权利要求2或3所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述特征处理层包括:将输入的时间序列与正向特征序列整合,整合方式为x′=(Px1+h1,Px2+h2,…,Pxt+ht,…PxT+hT)=(x′1,x′2,…,x′t,…,x′T),xt、ht均列向量,然后再将序列反转为x″=(x′T,x′T-1,…,x′t,…,x′1)=(x″1,x″2,…,x″t,…,x″T);其中P为转换矩阵,将输入向量x转化成与特征向量相同的维度,x″即为逆向特征提取层的输入。
5.如权利要求4所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述逆向特征提取层包括:对于当前输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),递归神经网络在t时刻接收输入x″t,计算出当前时刻的输出
Figure FDA0003179067100000021
根据前一时刻的输出
Figure FDA0003179067100000022
经过T个时刻的迭代,最终得到逆向特征序列
Figure FDA0003179067100000023
6.如权利要求5所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述逆向特征提取层的具体实现方式为:给定输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),其中,x″t为列向量,将输入时间序列各个时间时刻的向量x″t送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure FDA0003179067100000024
Figure FDA0003179067100000025
其中,
Figure FDA0003179067100000026
表示隐含层状态向量的初始状态,
Figure FDA0003179067100000027
Figure FDA0003179067100000028
表示在时刻1的隐含层状态向量,
Figure FDA0003179067100000029
表示在时刻t的隐含层状态向量,
Figure FDA00031790671000000210
表示计算隐含层状态的函数,
Figure FDA00031790671000000211
表示相应的神经网络的参数。经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure FDA00031790671000000212
即为通过单向递归神经网络提取到的逆向时序特征。
7.如权利要求5或6所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述输出层输出时序特征之前,还包括:对特征序列
Figure FDA00031790671000000213
Figure FDA00031790671000000214
进行特征处理。
8.如权利要求7所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述对特征序列
Figure FDA00031790671000000215
进行特征处理具体包括:以加和的方式进行特征处理,经过特征处理得到的输入时间序列的时序特征为,
Figure FDA0003179067100000031
9.如权利要求8所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述输出层还用于将学习到的特征送入分类器中进行分类。
10.如权利要求1所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述递归神经网络的类型为门控循环单元(Gated Recurrent Unit)类型、长短时记忆(LongShort-Term Memory)类型或相关变种类型。
CN202110841564.8A 2021-07-26 2021-07-26 一种低计算和存储消耗的双向递归神经网络的构建方法 Active CN113537472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110841564.8A CN113537472B (zh) 2021-07-26 2021-07-26 一种低计算和存储消耗的双向递归神经网络的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110841564.8A CN113537472B (zh) 2021-07-26 2021-07-26 一种低计算和存储消耗的双向递归神经网络的构建方法

Publications (2)

Publication Number Publication Date
CN113537472A true CN113537472A (zh) 2021-10-22
CN113537472B CN113537472B (zh) 2024-04-09

Family

ID=78120713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110841564.8A Active CN113537472B (zh) 2021-07-26 2021-07-26 一种低计算和存储消耗的双向递归神经网络的构建方法

Country Status (1)

Country Link
CN (1) CN113537472B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107154150A (zh) * 2017-07-25 2017-09-12 北京航空航天大学 一种基于道路聚类和双层双向lstm的交通流量预测方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108510985A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于减小生产语音模型中的原则性偏差的***和方法
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN108765296A (zh) * 2018-06-12 2018-11-06 桂林电子科技大学 一种基于递归残差注意力网络的图像超分辨率重建方法
US20190130248A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
US20200184307A1 (en) * 2018-12-11 2020-06-11 Adobe Inc. Utilizing recurrent neural networks to recognize and extract open intent from text inputs
CN111325112A (zh) * 2020-01-31 2020-06-23 贵州大学 基于深度门控循环单元神经网络的刀具磨损状态监测方法
CN111445498A (zh) * 2020-03-19 2020-07-24 哈尔滨工程大学 一种采用Bi-LSTM神经网络的目标跟踪方法
CN112132050A (zh) * 2020-09-24 2020-12-25 北京计算机技术及应用研究所 联机手写汉字识别算法及可视化关键笔画评估方法
CA3129745A1 (en) * 2019-07-30 2021-02-04 Intuit Inc. Neural network system for text classification
CN112541839A (zh) * 2020-12-23 2021-03-23 四川大汇大数据服务有限公司 基于神经微分方程的水库入库流量预测方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510985A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于减小生产语音模型中的原则性偏差的***和方法
CN107154150A (zh) * 2017-07-25 2017-09-12 北京航空航天大学 一种基于道路聚类和双层双向lstm的交通流量预测方法
US20190130248A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN108765296A (zh) * 2018-06-12 2018-11-06 桂林电子科技大学 一种基于递归残差注意力网络的图像超分辨率重建方法
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
US20200184307A1 (en) * 2018-12-11 2020-06-11 Adobe Inc. Utilizing recurrent neural networks to recognize and extract open intent from text inputs
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CA3129745A1 (en) * 2019-07-30 2021-02-04 Intuit Inc. Neural network system for text classification
CN111325112A (zh) * 2020-01-31 2020-06-23 贵州大学 基于深度门控循环单元神经网络的刀具磨损状态监测方法
CN111445498A (zh) * 2020-03-19 2020-07-24 哈尔滨工程大学 一种采用Bi-LSTM神经网络的目标跟踪方法
CN112132050A (zh) * 2020-09-24 2020-12-25 北京计算机技术及应用研究所 联机手写汉字识别算法及可视化关键笔画评估方法
CN112541839A (zh) * 2020-12-23 2021-03-23 四川大汇大数据服务有限公司 基于神经微分方程的水库入库流量预测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JUNLIN HU等: "Text multi-label sentiment analysis based on Bi-LSTM", 《2019 IEEE 6TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND INTELLIGENCE SYSTEMS (CCIS)》, 31 December 2019 (2019-12-31), pages 16 - 20, XP033762263, DOI: 10.1109/CCIS48116.2019.9073727 *
KOUZIOKAS, G.N.等: "Deep Bidirectional and Unidirectional LSTM Neural Networks in Traffic Flow Forecasting from Environmental Factors", 《ADVANCES IN MOBILITY-AS-A-SERVICE SYSTEMS. PROCEEDINGS OF 5TH CONFERENCE ON SUSTAINABLE URBAN MOBILITY, VIRTUAL CSUM2020. ADVANCES IN INTELLIGENT SYSTEMS AND COMPUTING (AISC 1278)》, 30 November 2020 (2020-11-30), pages 171 - 80 *
吴海滨 等: "八度卷积和双向门控循环单元结合的X 光安检图像分类", 《中国光学》, vol. 13, no. 5, 31 October 2020 (2020-10-31), pages 1138 - 1146 *
常新旭 等: "利用门控循环编解码网络的语音增强方法", 《计算机工程与设计》, vol. 41, no. 6, 30 June 2020 (2020-06-30), pages 1762 - 1767 *
张兰霞 等: "基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究", 《计算机应用与软件》, vol. 35, no. 11, 30 November 2018 (2018-11-30), pages 130 - 135 *
王帅 等: "运用双向 LSTM拟合 RNA 二级结构打分函数", 《计算机应用与软件》, vol. 34, no. 9, 31 December 2017 (2017-12-31), pages 232 - 239 *
陈炫颖: "基于双注意力机制的场景中文文本识别", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2021, 15 February 2021 (2021-02-15), pages 138 - 1782 *

Also Published As

Publication number Publication date
CN113537472B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和***
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN108563779B (zh) 一种基于神经网络的无模板自然语言文本答案生成方法
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、***及介质
CN111914085A (zh) 文本细粒度情感分类方法、***、装置及存储介质
Dai Nguyen et al. Recognition of online handwritten math symbols using deep neural networks
Mutegeki et al. Feature-representation transfer learning for human activity recognition
CN113743119A (zh) 中文命名实体识别模块、方法、装置及电子设备
Tang et al. Recognizing Chinese judicial named entity using BiLSTM-CRF
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114969269A (zh) 基于实体识别和关系抽取的虚假新闻检测方法及***
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及***
Cheng et al. A mask detection system based on yolov3-tiny
Pan et al. Teach machine to learn: hand-drawn multi-symbol sketch recognition in one-shot
Li A deep learning-based text detection and recognition approach for natural scenes
Deka et al. Dynamically computing adversarial perturbations for recurrent neural networks
Luo Research and implementation of text topic classification based on text CNN
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN113537472A (zh) 一种低计算和存储消耗的双向递归神经网络
CN114357166B (zh) 一种基于深度学习的文本分类方法
Pham et al. Speech emotion recognition: A brief review of multi-modal multi-task learning approaches
Luqin A survey of facial expression recognition based on convolutional neural network
CN115344694A (zh) 一种基于Bert和BiLSTM的短文本情感分析方法、装置及存储介质
CN111325016B (zh) 一种文本处理方法、***、设备、介质
Ambili et al. Siamese Neural Network Model for Recognizing Optically Processed Devanagari Hindi Script

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant