CN113537472A - 一种低计算和存储消耗的双向递归神经网络 - Google Patents
一种低计算和存储消耗的双向递归神经网络 Download PDFInfo
- Publication number
- CN113537472A CN113537472A CN202110841564.8A CN202110841564A CN113537472A CN 113537472 A CN113537472 A CN 113537472A CN 202110841564 A CN202110841564 A CN 202110841564A CN 113537472 A CN113537472 A CN 113537472A
- Authority
- CN
- China
- Prior art keywords
- neural network
- recurrent neural
- layer
- time sequence
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 134
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 120
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 238000003062 neural network model Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种低计算和存储消耗的双向递归神经网络,属于人工智能技术领域。本发明的正向时序特征识别阶段正向地接收输入的时间序列,并在每个时刻计算相应时刻的输出,生成输出序列;逆向时序特征识别阶段,这个阶段以第一个阶段为基础,逆向地接收输入的时间序列以及第一个阶段的输出序列,并在每个时刻计算相应的结果;最终根据第二个阶段输出的结果进行时间序列的分类。本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小,可应用于多种时间序列处理的任务,对相关算法设计起指导作用,有助于相关算法在端侧低功耗限制的硬件上的实现。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种低计算和存储消耗的双向递归神经网络。
背景技术
随着人工智能技术的快速发展,深度神经网络在模式识别、人机交互等领域得到了广泛的应用。主流的深度神经网络包括卷积神经网络和递归神经网络两种。其中,递归神经网络是一种专门处理时间序列的神经网络,常被应用于语音识别、文本分析、自然语言处理、手势识别等有时间顺序特征的任务。
递归神经网络一般分为单向递归神经网络和双向递归神经网络两大类。递归神经网络的输入一般是一个时间序列,通过学习序列的时序特征,对序列进行分类或者预测。单向递归神经网络接收正向的输入时间序列,学习正向时间序列中的时序特征,并依据时序特征进行分类。双向递归神经网络一般包括两个单向的递归神经网络,一个单向的递归神经网络接收正向的输入时间序列,学习正向序列的时序特征,另外一个接收逆向的输入时间序列,学习逆向序列的时序特征,最后整合这两种特征,对输入的时间序列进行分类。各个领域大量的实验数据表明,相比于单项递归神经网络,双向递归神经网络往往具有更高的分类和预测的精确度。这说明对于一个输入的时间序列,从它的逆向序列中学习到的特征,能够有效的提升当前时间序列的分类效果。
但是,由于双向递归神经网络要同时计算正向和逆向两个方向的迭代,因而在同样的计算环境下,计算时间要比单向递归神经网络慢很多,尤其在处理较长的序列数据时,计算消耗的问题就更为明显。以手写汉字识别为例,递归神经网络的输入为手写汉字的轨迹坐标序列,给定输入x=(x1,x2,…,xt,…,xT),序列长度为T,单向递归神经网络每一时刻接收手写汉字轨迹中的一个坐标点,共进行T次迭代计算。但是双向递归神经网络需要计算正向和逆向共2T次迭代计算,在隐含层数量以及维度一定时,计算开销是单向神经网络的两倍。此外,双向递归神经网络计算正向序列和逆向序列是两套不同的参数,存储开销比单向递归神经网络也大很多。在一些端侧的设备上,由于功耗和存储的限制,对智能算法模型的大小和计算消耗有着严格的要求,因而探索高精度、低计算消耗、低存储消耗的算法模型对于嵌入式设备智能化发展有着重要的意义。
近年来,研究者们针对递归神经网络模型结构的研究取得了一些列重要的成果,但仍然存在不足之处。本发明主要针对以下两点不足之处,对递归神经网络进行了改进。
(1)单向神经网络无法学习到时间序列中正向和逆向两种时序信息,逆向时序信息的缺失导致网络识别精度不够。
(2)双向递归神经网络需要两个具有不同参数的单向递归神经网络分别学习时间序列中正向和逆向的时序信息,计算、存储开销较大。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种低计算和存储消耗的双向递归神经网络,以解决递归神经网络逆向时序信息的缺失导致网络识别精度不够、计算、存储开销较大等方面的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种低计算和存储消耗的双向递归神经网络,该神经网络包括输入层、特征提取层和输出层,特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层;
输入层用于输入经过预处理之后的时间序列;
正向特征提取层用于基于单向的递归神经网络学习输入时间序列中的正向时序特征信息;
特征处理层用于学习到的正向时序特征与输入时间序列整合到一起,作为下一层递归神经网络的输入;
逆向特征提取层用于接收特征处理层中整合完成的特征,基于单向的递归神经网络学习输入时间序列中的逆向时序信息;
输出层用于输出时序特征。
进一步地,所述正向特征提取层具体包括:对于一个输入的时间序列x=(x1,x2,…,xt,…,xT),递归神经网络在t时刻接收输入xt,根据前一时刻的输出ht-1,计算出当前时刻的输出ht,经过T个时刻的迭代,最终得到正向特征序列h=(h1,h2,…,ht,…,hT)。
进一步地,所述正向特征提取层的具体实现方法如下:给定输入时间序列x=(x1,x2,…,xt,…,xT),其中,xt为列向量,将输入时间序列各个时间时刻的向量xt送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
h1=H(x1,h0,θ)
ht=H(xt,ht-1,θ) (1)
其中,h0表示隐含层状态向量的初始状态,h0=0,h1表示在时刻1的隐含层状态向量,ht表示在时刻t的隐含层状态向量,表示计算隐含层状态的函数,θ表示相应的神经网络的参数;经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态h=(h1,h2,…,ht,…,hT),即为通过单向递归神经网络提取到的正向时序特征。
进一步地,所述特征处理层包括:将输入的时间序列与正向特征序列整合,整合方式为x′=(Px1+h1,Px2+h2,…,Pxt+ht,…PxT+hT)=(x′1,x′2,…,x′t,…,x′T),xt、ht均列向量,然后再将序列反转为x″=(x′T,x′T-1,…,x′t,…,x′1)=(x″1,x″2,…,x″t,…,x″T);其中P为转换矩阵,将输入向量x转化成与特征向量相同的维度,x″即为逆向特征提取层的输入。
进一步地,所述逆向特征提取层包括:对于当前输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),递归神经网络在t时刻接收输入x″t,计算出当前时刻的输出根据前一时刻的输出经过T个时刻的迭代,最终得到逆向特征序列
进一步地,所述逆向特征提取层的具体实现方式为:给定输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),其中,x″t为列向量,将输入时间序列各个时间时刻的向量x″t送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
其中,表示隐含层状态向量的初始状态,表示在时刻1的隐含层状态向量,表示在时刻t的隐含层状态向量,表示计算隐含层状态的函数,表示相应的神经网络的参数。经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态即为通过单向递归神经网络提取到的逆向时序特征。
进一步地,所述输出层还用于将学习到的特征送入分类器中进行分类。
进一步地,所述递归神经网络的类型为门控循环单元(Gated Recurrent Unit)类型、长短时记忆(Long Short-Term Memory)类型或相关变种类型。
(三)有益效果
本发明提出一种低计算和存储消耗的双向递归神经网络,本发明的有益效果是:
(1)本发明提出了一种低计算、存储开销的双向递归神经网络模型,相比于单向递归神经网络能够在不增加计算、存储开销的情况下,有效的提取到时间序列中正向和逆向的时序信息,如图3中图(a)和图(b)所示,图(a)是普通双层单向递归神经网络结构,图(b)是本发明所述双层双向递归神经网络,图(a)和图(b)在隐含层状态维度相同、具有相同的网络结构的情况下,网络参数数目一样,存储开销相同,计算开销(2层*T次迭代计算)相同,但是图(b)能有效的提取到时间序列中正向和逆向的时序信息;相比于双向递归神经网络能够有效的节省计算、存储开销,如图3中图(c)和图(d)所示,图(c)是本发明所述双层双向递归神经网络,图(d)是普通双向双层递归神经网络,从图(d)中可以看出普通双向双层递归神经网络在每一层需要计算2*T次迭代,而图(c)本发明所述双层双向递归神经网络在每一层只需要计算T次迭代,计算开销较小;另外在两种神经网络层数和隐含层状态维度相同的情况下,普通双向双层递归神经网络在每一层都要进行正向和逆向的迭代计算,正向和逆向迭代计算使用是两套不同的参数,普通双向双层递归神经网络参数量是本发明所述双层双向递归神经网络的两倍,本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小。
(2)本发明提出的低计算、存储开销的双向递归神经网络模型是基础的网络模型,可应用于语音识别、自然语言处理、文本分析、手写识别等时间序列处理的任务,对相关算法设计起指导作用。
(3)本发明提出的双向递归神经网络模型,可帮助时间序列处理任务实现低计算、存储开销的算法实现,有助于相关算法在端侧低功耗限制的硬件上的实现。
附图说明
图1为本发明网络模型模块设计与总体架构;
图2为本发明网络模型结构及工作流程图;
图3a-图3d为各网络性能对比图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明涉及一种低计算消耗的双向递归神经网络,通过减少递归神经网络每一层迭代的次数降低递归神经网络计算消耗,提升推理和训练的速度,属人工智能技术领域。
针对现有技术中存在的问题,本发明的目的在于提供一种低计算开销、低存储开销、高分类精度的递归神经网络算法。这种算法一方面在一定程度上实现了传统单向神经网络对于时间序列中正向和逆向两种时序信息的学习,提升了分类精度;另一方面避开了双向递归神经网络中计算、存储方面开销大的难点,对递归神经网络结构的发展起了相对重要的作用。本发明面向常见的时间序列分类识别任务,包括但不限于手写汉字识别、语音识别、文本分析等。
本发明解决相关技术问题所用的技术方案是:一种低计算、存储开销的双向递归神经网络模型。该模型涵盖正向时序特征学习和逆向时序特征学习两个阶段。首先是正向时序特征识别阶段,在这个阶段与普通的单向递归神经网络一样,正向地接收输入的时间序列,并在每个时刻计算相应时刻的输出,生成输出序列;第二个阶段是逆向时序特征识别阶段,这个阶段以第一个阶段为基础,逆向地接收输入的时间序列以及第一个阶段的输出序列,并在每个时刻计算相应的结果;最终根据第二个阶段输出的结果进行时间序列的分类。本发明的方法流程为:
1.图1是本发明所述低计算、存储开销的双向递归神经网络模型模块设计与总体架构,基于数据流向给出了网络模型的输入、正向特征提取、逆向特征提取、特征处理、输出几个部分的简要流程及联系。具体流程如下:
(1)输入时间序列;
(2)时间序列正向时序特征提取,主要是基于单向的递归神经网络学习输入时间序列中的正向时序特征信息;
(3)时序特征处理,主要是将学习到的正向时序特征与输入时间序列整合到一起,作为下一层递归神经网络的输入,用于提取逆向的时序特征;
(4)时间序列逆向时序特征提取,接收(3)中整合完成的特征,基于单向的递归神经网络学习输入时间序列中的逆向时序信息。
(5)输出时序特征,并对输入时间序列进行分类。
2.图2是本发明所述低计算、存储开销的双向递归神经网络模型,该神经网络包括输入层、特征提取层和输出层,特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层。
具体表述如下:
(1)输入层:输入层是主要是指经过预处理之后的时间序列
(2)特征提取层:特征提取层主要是包含正向特征提取、特征处理以及逆向特征提取三部分。
①正向特征提取:对于一个输入的时间序列x=(x1,x2,…,xt,…,xT),递归神经网络在t时刻接收输入xt,根据前一时刻的输出ht-1,计算出当前时刻的输出ht,经过T个时刻的迭代,如公式(1)所示,最终得到正向特征序列h=(h1,h2,…,ht,…,hT);
②特征处理:此部分主要是将输入的时间序列与正向特征序列整合,整合方式为x′=(Px1+h1,Px2+h2,…,Pxt+ht,…PxT+hT)=(x′1,x′2,…,x′t,…,x′T)(假设xt、ht均列向量),然后再将序列反转为x″=(x′T,x′T-1,…,x′t,…,x′1)=(x″1,x″2,…,x″t,…,x″T)。其中P为转换矩阵,主要是将输入向量x转化成与特征向量相同的维度,例如,xt为r×1的向量,ht为w×1的向量,那么P为w×r的矩阵,这样Pxt就和ht具有相同的维度,这样就能够通过Pxt+ht将输入的时间序列x和正向特征序列h进行整合。
③逆向特征提取;对于当前输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),递归神经网络在t时刻接收输入x″t,计算出当前时刻的输出根据前一时刻的输出经过T个时刻的迭代,如公式(2)所示,最终得到逆向特征序列
下面结合附图对本发明作进一步说明。
图2为本发明所述低计算、存储开销的双向递归神经网络模型结构及工作流程图,主要涉及时间序列正向特征提取、时间序列逆向特征提取以及特征处理三个方面的内容,具体实施方式如下:
1.基于递归神经网络的时间序列正向时序特征提取:
给定输入时间序列x=(x1,x2,…,xt,…,xT),其中,xt为列向量,将输入时间序列各个时间时刻的向量xt送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
h1=H(x1,h0,θ)
ht=H(xt,ht-1,θ) (1)
其中,h0表示隐含层状态向量的初始状态,h0=0,h1表示在时刻1的隐含层状态向量,ht表示在时刻t的隐含层状态向量,表示计算隐含层状态的函数,θ表示相应的神经网络的参数。经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态h=(h1,h2,…,ht,…,hT),即为通过单向递归神经网络提取到的正向时序特征。在本发明中,递归神经网络的类型可以是门控循环单元(Gated Recurrent Unit)类型,也可以是长短时记忆(LongShort-Term Memory)类型以及相关变种类型。
2.正向时序特征处理:
在经过正向时序特征提取的过程以后,提取到的特征需要经过特征处理阶段,将正向时序特征与输入时间序列整合到一起,作为逆向时序特征提取网络的输入。具体整合方法如下:
x′=(Px1+h1,Px2+h2,…,Pxt+ht,…PxT+hT)=(x′1,x′2,…,x′t,…,x′T)
然后对整合后的时间序列在时间顺序上进行反转,
x″=(x′T,x′T-1,…,x′t,…,x′1)=(x″1,x″2,…,x″t,…,x″T)。
x″即为逆向时序特征提取网络的输入。
3.基于递归神经网络的时间序列逆向时序特征提取:
给定输入时间序列x″=(x″1,x″2,…,x″t,…,x″T),其中,x″t为列向量,将输入时间序列各个时间时刻的向量x″t送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
其中,表示隐含层状态向量的初始状态,表示在时刻1的隐含层状态向量,表示在时刻t的隐含层状态向量,表示计算隐含层状态的函数,表示相应的神经网络的参数。经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态即为通过单向递归神经网络提取到的逆向时序特征。
4.时序特征处理:
最终将学习到的特征送入分类器中进行分类。
本发明提出了一种低计算、存储开销的双向递归神经网络模型,相比于单向递归神经网络能够在不增加计算、存储开销的情况下,有效的提取到时间序列中正向和逆向的时序信息,如图3中图(a)和图(b)所示,图(a)是普通双层单向递归神经网络结构,图(b)是本发明所述双层双向递归神经网络,图(a)和图(b)在隐含层状态维度相同、具有相同的网络结构的情况下,网络参数数目一样,存储开销相同,计算开销(2层*T次迭代计算)相同,但是图(b)能有效的提取到时间序列中正向和逆向的时序信息;相比于双向递归神经网络能够有效的节省计算、存储开销,如图3中图(c)和图(d)所示,图(c)是本发明所述双层双向递归神经网络,图(d)是普通双向双层递归神经网络,从图(d)中可以看出普通双向双层递归神经网络在每一层需要计算2*T次迭代,而图(c)本发明所述双层双向递归神经网络在每一层只需要计算T次迭代,计算开销较小;另外在两种神经网络层数和隐含层状态维度相同的情况下,普通双向双层递归神经网络在每一层都要进行正向和逆向的迭代计算,正向和逆向迭代计算使用是两套不同的参数,普通双向双层递归神经网络参数量是本发明所述双层双向递归神经网络的两倍,本发明所述双层双向递归神经网络的相比于普通的双向双层递归神经网络存储开销较小。
本发明提出的低计算、存储开销的双向递归神经网络模型是基础的网络模型,可应用于语音识别、自然语言处理、文本分析、手写识别等时间序列处理的任务,对相关算法设计起指导作用。
本发明提出的双向递归神经网络模型,可帮助时间序列处理任务实现低计算、存储开销的算法实现,有助于相关算法在端侧低功耗限制的硬件上的实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种低计算和存储消耗的双向递归神经网络,其特征在于,该神经网络包括输入层、特征提取层和输出层,特征提取层包括正向特征提取、特征处理以及逆向特征提取三个子层;
输入层用于输入经过预处理之后的时间序列;
正向特征提取层用于基于单向的递归神经网络学习输入时间序列中的正向时序特征信息;
特征处理层用于学习到的正向时序特征与输入时间序列整合到一起,作为下一层递归神经网络的输入;
逆向特征提取层用于接收特征处理层中整合完成的特征,基于单向的递归神经网络学习输入时间序列中的逆向时序信息;
输出层用于输出时序特征。
2.如权利要求1所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述正向特征提取层具体包括:对于一个输入的时间序列x=(x1,x2,…,xt,…,xT),递归神经网络在t时刻接收输入xt,根据前一时刻的输出ht-1,计算出当前时刻的输出ht,经过T个时刻的迭代,最终得到正向特征序列h=(h1,h2,…,ht,…,hT)。
3.如权利要求2所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述正向特征提取层的具体实现方法如下:给定输入时间序列x=(x1,x2,…,xt,…,xT),其中,xt为列向量,将输入时间序列各个时间时刻的向量xt送入递归神经网络进行计算,得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
h1=H(x1,h0,θ)
ht=H(xt,ht-1,θ) (1)
4.如权利要求2或3所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述特征处理层包括:将输入的时间序列与正向特征序列整合,整合方式为x′=(Px1+h1,Px2+h2,…,Pxt+ht,…PxT+hT)=(x′1,x′2,…,x′t,…,x′T),xt、ht均列向量,然后再将序列反转为x″=(x′T,x′T-1,…,x′t,…,x′1)=(x″1,x″2,…,x″t,…,x″T);其中P为转换矩阵,将输入向量x转化成与特征向量相同的维度,x″即为逆向特征提取层的输入。
9.如权利要求8所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述输出层还用于将学习到的特征送入分类器中进行分类。
10.如权利要求1所述的低计算和存储消耗的双向递归神经网络,其特征在于,所述递归神经网络的类型为门控循环单元(Gated Recurrent Unit)类型、长短时记忆(LongShort-Term Memory)类型或相关变种类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841564.8A CN113537472B (zh) | 2021-07-26 | 2021-07-26 | 一种低计算和存储消耗的双向递归神经网络的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841564.8A CN113537472B (zh) | 2021-07-26 | 2021-07-26 | 一种低计算和存储消耗的双向递归神经网络的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537472A true CN113537472A (zh) | 2021-10-22 |
CN113537472B CN113537472B (zh) | 2024-04-09 |
Family
ID=78120713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110841564.8A Active CN113537472B (zh) | 2021-07-26 | 2021-07-26 | 一种低计算和存储消耗的双向递归神经网络的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537472B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154150A (zh) * | 2017-07-25 | 2017-09-12 | 北京航空航天大学 | 一种基于道路聚类和双层双向lstm的交通流量预测方法 |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108510985A (zh) * | 2017-02-24 | 2018-09-07 | 百度(美国)有限责任公司 | 用于减小生产语音模型中的原则性偏差的***和方法 |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
CN108765296A (zh) * | 2018-06-12 | 2018-11-06 | 桂林电子科技大学 | 一种基于递归残差注意力网络的图像超分辨率重建方法 |
US20190130248A1 (en) * | 2017-10-27 | 2019-05-02 | Salesforce.Com, Inc. | Generating dual sequence inferences using a neural network model |
CN110211574A (zh) * | 2019-06-03 | 2019-09-06 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
WO2020077232A1 (en) * | 2018-10-12 | 2020-04-16 | Cambridge Cancer Genomics Limited | Methods and systems for nucleic acid variant detection and analysis |
US20200184307A1 (en) * | 2018-12-11 | 2020-06-11 | Adobe Inc. | Utilizing recurrent neural networks to recognize and extract open intent from text inputs |
CN111325112A (zh) * | 2020-01-31 | 2020-06-23 | 贵州大学 | 基于深度门控循环单元神经网络的刀具磨损状态监测方法 |
CN111445498A (zh) * | 2020-03-19 | 2020-07-24 | 哈尔滨工程大学 | 一种采用Bi-LSTM神经网络的目标跟踪方法 |
CN112132050A (zh) * | 2020-09-24 | 2020-12-25 | 北京计算机技术及应用研究所 | 联机手写汉字识别算法及可视化关键笔画评估方法 |
CA3129745A1 (en) * | 2019-07-30 | 2021-02-04 | Intuit Inc. | Neural network system for text classification |
CN112541839A (zh) * | 2020-12-23 | 2021-03-23 | 四川大汇大数据服务有限公司 | 基于神经微分方程的水库入库流量预测方法 |
-
2021
- 2021-07-26 CN CN202110841564.8A patent/CN113537472B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510985A (zh) * | 2017-02-24 | 2018-09-07 | 百度(美国)有限责任公司 | 用于减小生产语音模型中的原则性偏差的***和方法 |
CN107154150A (zh) * | 2017-07-25 | 2017-09-12 | 北京航空航天大学 | 一种基于道路聚类和双层双向lstm的交通流量预测方法 |
US20190130248A1 (en) * | 2017-10-27 | 2019-05-02 | Salesforce.Com, Inc. | Generating dual sequence inferences using a neural network model |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
CN108765296A (zh) * | 2018-06-12 | 2018-11-06 | 桂林电子科技大学 | 一种基于递归残差注意力网络的图像超分辨率重建方法 |
WO2020077232A1 (en) * | 2018-10-12 | 2020-04-16 | Cambridge Cancer Genomics Limited | Methods and systems for nucleic acid variant detection and analysis |
US20200184307A1 (en) * | 2018-12-11 | 2020-06-11 | Adobe Inc. | Utilizing recurrent neural networks to recognize and extract open intent from text inputs |
CN110211574A (zh) * | 2019-06-03 | 2019-09-06 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
CA3129745A1 (en) * | 2019-07-30 | 2021-02-04 | Intuit Inc. | Neural network system for text classification |
CN111325112A (zh) * | 2020-01-31 | 2020-06-23 | 贵州大学 | 基于深度门控循环单元神经网络的刀具磨损状态监测方法 |
CN111445498A (zh) * | 2020-03-19 | 2020-07-24 | 哈尔滨工程大学 | 一种采用Bi-LSTM神经网络的目标跟踪方法 |
CN112132050A (zh) * | 2020-09-24 | 2020-12-25 | 北京计算机技术及应用研究所 | 联机手写汉字识别算法及可视化关键笔画评估方法 |
CN112541839A (zh) * | 2020-12-23 | 2021-03-23 | 四川大汇大数据服务有限公司 | 基于神经微分方程的水库入库流量预测方法 |
Non-Patent Citations (7)
Title |
---|
JUNLIN HU等: "Text multi-label sentiment analysis based on Bi-LSTM", 《2019 IEEE 6TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND INTELLIGENCE SYSTEMS (CCIS)》, 31 December 2019 (2019-12-31), pages 16 - 20, XP033762263, DOI: 10.1109/CCIS48116.2019.9073727 * |
KOUZIOKAS, G.N.等: "Deep Bidirectional and Unidirectional LSTM Neural Networks in Traffic Flow Forecasting from Environmental Factors", 《ADVANCES IN MOBILITY-AS-A-SERVICE SYSTEMS. PROCEEDINGS OF 5TH CONFERENCE ON SUSTAINABLE URBAN MOBILITY, VIRTUAL CSUM2020. ADVANCES IN INTELLIGENT SYSTEMS AND COMPUTING (AISC 1278)》, 30 November 2020 (2020-11-30), pages 171 - 80 * |
吴海滨 等: "八度卷积和双向门控循环单元结合的X 光安检图像分类", 《中国光学》, vol. 13, no. 5, 31 October 2020 (2020-10-31), pages 1138 - 1146 * |
常新旭 等: "利用门控循环编解码网络的语音增强方法", 《计算机工程与设计》, vol. 41, no. 6, 30 June 2020 (2020-06-30), pages 1762 - 1767 * |
张兰霞 等: "基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究", 《计算机应用与软件》, vol. 35, no. 11, 30 November 2018 (2018-11-30), pages 130 - 135 * |
王帅 等: "运用双向 LSTM拟合 RNA 二级结构打分函数", 《计算机应用与软件》, vol. 34, no. 9, 31 December 2017 (2017-12-31), pages 232 - 239 * |
陈炫颖: "基于双注意力机制的场景中文文本识别", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2021, 15 February 2021 (2021-02-15), pages 138 - 1782 * |
Also Published As
Publication number | Publication date |
---|---|
CN113537472B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112989834B (zh) | 一种基于平格增强线性转换器的命名实体识别方法和*** | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN108563779B (zh) | 一种基于神经网络的无模板自然语言文本答案生成方法 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、***及介质 | |
CN111914085A (zh) | 文本细粒度情感分类方法、***、装置及存储介质 | |
Dai Nguyen et al. | Recognition of online handwritten math symbols using deep neural networks | |
Mutegeki et al. | Feature-representation transfer learning for human activity recognition | |
CN113743119A (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
Tang et al. | Recognizing Chinese judicial named entity using BiLSTM-CRF | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114969269A (zh) | 基于实体识别和关系抽取的虚假新闻检测方法及*** | |
CN115062727A (zh) | 一种基于多阶超图卷积网络的图节点分类方法及*** | |
Cheng et al. | A mask detection system based on yolov3-tiny | |
Pan et al. | Teach machine to learn: hand-drawn multi-symbol sketch recognition in one-shot | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
Deka et al. | Dynamically computing adversarial perturbations for recurrent neural networks | |
Luo | Research and implementation of text topic classification based on text CNN | |
CN116701665A (zh) | 基于深度学习的中医古籍知识图谱构建方法 | |
CN113537472A (zh) | 一种低计算和存储消耗的双向递归神经网络 | |
CN114357166B (zh) | 一种基于深度学习的文本分类方法 | |
Pham et al. | Speech emotion recognition: A brief review of multi-modal multi-task learning approaches | |
Luqin | A survey of facial expression recognition based on convolutional neural network | |
CN115344694A (zh) | 一种基于Bert和BiLSTM的短文本情感分析方法、装置及存储介质 | |
CN111325016B (zh) | 一种文本处理方法、***、设备、介质 | |
Ambili et al. | Siamese Neural Network Model for Recognizing Optically Processed Devanagari Hindi Script |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |