CN114978189A - 一种数据编码方法以及相关设备 - Google Patents
一种数据编码方法以及相关设备 Download PDFInfo
- Publication number
- CN114978189A CN114978189A CN202110221722.XA CN202110221722A CN114978189A CN 114978189 A CN114978189 A CN 114978189A CN 202110221722 A CN202110221722 A CN 202110221722A CN 114978189 A CN114978189 A CN 114978189A
- Authority
- CN
- China
- Prior art keywords
- result
- target
- layer
- volume
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 191
- 230000002441 reversible effect Effects 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 53
- 239000011159 matrix material Substances 0.000 claims description 355
- 239000013598 vector Substances 0.000 claims description 88
- 238000013528 artificial neural network Methods 0.000 claims description 77
- 230000015654 memory Effects 0.000 claims description 38
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007906 compression Methods 0.000 abstract description 68
- 230000006835 compression Effects 0.000 abstract description 57
- 238000009826 distribution Methods 0.000 abstract description 23
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 82
- 238000004364 calculation method Methods 0.000 description 40
- 238000013527 convolutional neural network Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 22
- 238000011176 pooling Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 20
- 210000002569 neuron Anatomy 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000001537 neural effect Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 8
- 230000006837 decompression Effects 0.000 description 8
- 230000008707 rearrangement Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000011410 subtraction method Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000007667 floating Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012669 compression test Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3068—Precoding preceding compression, e.g. Burrows-Wheeler transformation
- H03M7/3079—Context modeling
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
Abstract
本申请涉及人工智能领域,公开了一种数据编码方法,方法包括:获取待编码数据;通过保体积流模型,对待编码数据进行处理,得到隐变量输出;其中,保体积流模型包括目标保体积流层,目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,预设系数不为1;对隐变量输出进行编码,得到编码数据。本申请利用保体积流模型实现无损压缩,由于保体积流模型中的目标保体积流层在保证可逆的前提下,其对应的运算包括除了整数加减法之外的运算(乘法运算),使得保体积流模型具有更强的表征能力,能够更加准确的确定数据分布,从而实现更优的压缩率。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种数据编码方法以及相关设备。
背景技术
无损压缩的核心是寻找数据内部的分布规律,比如英文文档中字母e出现频率远高于z,如果对e用更短的比特进行存储,就可以使文档的存储长度更短,从而实现文档的压缩。人工智能(artificial intelligence,AI)无损压缩是一种全新的使用人工智能进行无损压缩的技术领域。其核心是使用AI寻找更优的数据内部的分布规律,利用数据的分布进行压缩,以期望获得更优的无损压缩率。
在无损压缩中,输入数据和用于编码的隐变量输出之间必须是离散的,且必须保证完全可逆。这直接限制了数据编解码方法的选择和使用,因为大部分数据编解码方法如果做浮点数运算,会带来数值误差,导致不能实现可逆运算。
在一种现有的实现中,通过整数流模型(integer discrete flow,IDF)来进行无损压缩,它使用整数加减运算避免浮点误差,保证流模型数值可逆,模型在计算过程中针对于输入数据均使用整数加减法运算避免数值误差,且输入数据x和隐变量输出z=f(x)均为整数,且能保证f-1(f(x))=x。然而,由于在编解码过程中局限于整数的加减法运算,导致了IDF表征能力差,不能准确估计数据分布,从而使压缩率较低。
发明内容
第一方面,本申请提供一种数据编码方法,所述方法包括:
获取待编码数据;
其中,待编码数据可以是图像、视频或者文本的数据。
以待编码数据为图像的数据为例,图像可以是上述终端设备通过摄像头拍摄到的图像,或者,该图像还可以是从终端设备内部获得的图像(例如,终端设备的相册中存储的图像,或者,终端设备从云端获取的图片)。应理解,上述图像可以是具有图像压缩需求的图像,本申请并不对待处理图像的来源作任何限定。
通过保体积流模型对所述待编码数据进行处理,得到隐变量输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1;
其中,目标保体积流层也可以称之为目标保体积耦合层;
其中,所述保体积流约束可以指所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致,所谓体积大小一致,是指输入空间的数据与输出空间的数据之间是一一对应的,不同的输出数据对应于不同的输入数据。为了能保证目标保体积流层对应的运算满足保体积流约束,需要使得目标保体积流层对应的运算中一次项的系数的乘积为1,具体的,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,预设系数中的N个系数为目标保体积流层对应的运算中一次项的系数,且所述N个系数的乘积为1。
其中,所谓可逆运算,是指该运算既可以通过输入数据得到输出数据,也可以通过输出数据反推出输入数据,例如,设输入数据为x,输出数据为z=f(x),而x也可以通过逆运算,从输出数据z中恢复x。
对所述隐变量输出进行编码,得到编码数据。
本申请实施例中,隐变量输出z可以由概率分布pZ(z)表示,可以根据概率分布pZ(z)对隐变量输出z做编码,以得到编码数据。
在一种可选的实现中,编码数据为二进制的码流,可以利用熵估计网络得到隐变量输出中各点概率估计,利用该概率估计对隐变量输出进行熵编码,得到二进制的码流,需要说明的是,本申请提及的熵编码过程可采用现有的熵编码技术,本申请对此不再赘述。
本申请利用保体积流模型实现无损压缩,与整数流模型相比,由于保体积流模型中的目标保体积流层在保证可逆的前提下,其对应的运算包括除了整数加减法之外的运算(乘法运算),使得保体积流模型具有更强的表征能力,能够更加准确的确定数据分布,从而实现更优的压缩率。
另一方面,对于通用流模型,可以证明不存在离散空间下实现数值可逆的方法,因为总会因为数值误差存在隐变量的数据对应多个输入数据的情形,此时必须通过多次编码操作消除数值误差,导致算法效率低。而本申请实施例中的保体积流模型,利用数值可逆的目标保体积流层能够实现数值可逆运算,在保证模型具有很强的表征能力前提下,压缩过程实现极少的编码次数,从而实现更高的压缩吞吐率和更低的压缩率。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的乘法运算,包括:
进行所述第一数据中每个元素与对应的系数的乘法运算,以得到乘积结果。
在一种可能的实现中,所述方法还包括:通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。在一种实现中,预设运算为以自然常数e为底的指数运算。
其中,第一数据和第二数据为输入数据的两部分,例如输入数据为向量【A,B】,则第一数据为向量【A】,第二数据为向量【B】。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,所述对所述第一神经网络的输出进行预设运算,包括:
获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
为了能保证预设系数中N个系数的乘积为1,可以将第一网络输出包括的每个元素减去平均数。具体的,所述第一网络输出为向量,所述第一网络输出包括N个元素,可以获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素,对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
在一种可能的实现中,所述目标保体积流层的输出包括所述第二数据。
在一种可能的实现中,所述目标保体积流层还用于将所述第一数据与预设系数的乘积结果与常数项进行加和运算,所述常数项不为0。
在一种可能的实现中,
所述方法还包括:
通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,所述进行所述第一数据与预设系数的乘法运算,包括:
获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分母与所述第二分子相同;
将所述第一定点数与所述第一分子进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分母进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的乘法结果;
将所述第二定点数与所述第二分子进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分母进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的乘法结果。
本实施例中,通过使用带余除法解决可逆计算问题。具体得,将一次项系数变为分数形式,且每个维度的分子为上一个维度的分母。对每一维的数据乘以当前一次项系数的分子并加上上一个维度的余数,再用分母做带余除法,得到当前维度结果。同时将带余除法的余数传递到下一维度,消除数值误差。
示例性的,第一数据x的定点数可以为[44/16,55/16,66/16],其中16表示定点数的精度并不在乘法运算中,则第一数据的定点数为x=[44,55,66],预设系数s为[0.65,0.61,2.52],预设系数s对应的分数表示为[2/3,3/5,5/2],其中,第一定点数为44,第二定点数为55,第一目标系数为0.65,第二目标系数为0.61,第一分数为2/3,第二分数为3/5,第一分子为2,第一分母为3,第二分子为3,第二分母为5。将第一定点数(44)与所述第一分子(2)进行乘法运算,以得到第一结果(88),将所述第一结果(88)与所述第一分母(3)进行除法运算,以得到第二结果,所述第二结果包括第一商结果(29)和第一余数结果(1),所述第一商结果(29)用于作为所述第一目标元素与所述第一目标系数的乘法结果,将所述第二定点数(55)与所述第二分子(3)进行乘法运算,以得到第三结果(165),将所述第三结果(165)与所述第一余数结果(1)进行加法运算,以得到第四结果(166),将所述第四结果(166)与所述第二分母(5)进行除法运算,以得到第五结果,所述第五结果包括第二商结果(33)和第二余数结果(1),所述第二商结果(33)用于作为所述第二目标元素与所述第二目标系数的乘法结果。
在一种可能的实现中,所述第二目标元素为在进行所述第一数据与预设系数的乘法运算的过程中,所述N个元素中最后一个与对应系数进行乘法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。具体的,所述目标保体积流层可以输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。也就是说,第一数据中每个元素都基于上述方式得到一个余数结果,并输入到下一个元素的计算过程中,直到完成第一数据中最后一个元素的乘积运算,此时得到的余数结果可以输入到相邻的下一个保体积流层中。
在一种可能的实现中,所述目标保体积流层还用于输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,所述将所述第一定点数与所述第一分子进行乘法运算,以得到第一结果,包括:
获取所述第一保体积流层输出的余数结果;
将所述第一定点数与第一分子进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
在一种实现中,如果目标保体积流层是保体积流模型中的第一个保体积流层(也就是处理待编码数据的保体积流层),则第一结果就是第一定点数与第一分子进行乘法运算的乘法结果,如果目标保体积流层不是保体积流模型中的第一个保体积流层(也就是不处理待编码数据的保体积流层,而是处理其他中间层的输出结果),则第一定点数就是第一定点数与第一分子进行乘法运算的乘法结果与相邻上一个保体积流层输出的余数结果的加和结果。
在一种可能的实现中,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个保体积流层的输出为所述隐变量输出。保体积流模型可以是多个保体积流层的堆叠。
在一种可能的实现中,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标保体积流层的输出用于作为所述目标卷积层的输入,且所述目标卷积层用于对所述目标保体积流层的输出与权重矩阵进行乘法运算。
在一种可能的实现中,所述对所述目标保体积流层的输出与权重矩阵进行乘法运算,包括:
获取所述权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述目标保体积流层的输出与所述第四矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第三矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第二矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第一矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述目标保体积流层的输出与权重矩阵进行乘法运算得到的结果。
本实施例中将目标卷积层转化成连续上三角阵、对角阵、下三角阵和置乱阵的矩阵乘法运算,对四种矩阵乘法分别使用迭代计算、耦合层的数值计算、迭代计算、元素重排。在进行卷积层中与权重矩阵的乘法运算时,将目标卷积层转化成连续上三角阵、对角阵、下三角阵和置乱阵的矩阵乘法运算,对四种矩阵乘法分别使用迭代计算、目标保体积流层的数值计算、迭代计算、元素重排四种计算方式,并给出了各个计算方式的可逆计算方法,以此实现了目标卷积层的数值可逆计算。
在一种可能的实现中,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且第i个保体积流层的输出用于作为第i个卷积层的输入,所述第i个卷积层的输出用于作为第i+1个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个卷积层的输出为所述隐变量输出。保体积流模型可以是多个保体积流层以及卷积层的堆叠。
第二方面,本申请提供了一种数据解码方法,所述方法包括:
获取编码数据;
本申请实施例中,在得到编码数据之后,可以将编码数据发送给用于解压缩的终端设备,则用于解压缩的图像处理设备可以获取编码数据,并对该数据进行解压缩。或者,用于压缩的终端设备可以将编码数据存储在存储设备中,在需要时,终端设备可以从存储设备中获取编码数据,并可以对该编码数据进行解压缩。
应理解,解码设备还可以获取到如上实施例中描述的余数结果。
对所述编码数据进行解码,以得到隐变量输出;
本申请实施例中,解码设备可以对所述编码数据进行解码,以得到隐变量输出。
具体的,可以利用现有技术中的熵解码技术对编码数据进行解码,得到重建的隐变量输出。
通过所述保体积流模型对所述隐变量输出进行处理,得到解码输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1。
其中,所谓可逆运算,是指该运算既可以通过输入数据得到输出数据,也可以通过输出数据反推出输入数据,例如,设输入数据为x,输出数据为z=f(x),而x也可以通过逆运算,从输出数据z中恢复x。
本申请实施例中,在得到隐变量输出后,可以基于保体积流模型中各个层对应的运算的逆运算来处理隐变量输出,以还原出原本的待编码数据(也就是解码输出),进而实现无损解压缩过程。
在一种可能的实现中,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的除法运算,包括:
进行所述第一数据中每个元素与对应的系数的除法运算,以得到除法结果。
本申请实施例中,为了能保证目标保体积流层对应的运算满足保体积流约束,需要使得目标保体积流层对应的运算中一次项的系数的乘积为1,具体的,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,预设系数中的N个系数为目标保体积流层对应的运算中一次项的系数,且所述N个系数的乘积为1。
在一种可能的实现中,所述方法还包括:通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,所述对所述第一神经网络的输出进行预设运算,包括:
获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
为了能保证预设系数中N个系数的乘积为1,可以将第一网络输出包括的每个元素减去平均数。具体的,所述第一网络输出为向量,所述第一网络输出包括N个元素,可以获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素,对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
在一种可能的实现中,所述目标保体积流层的输出包括所述第二数据。
在一种可能的实现中,所述目标保体积流层还用于进行所述第一数据与常数项的减法运算,以得到减法结果,所述常数项不为0;
所述进行所述第一数据与预设系数的除法运算,包括:
将所述减法结果与所述预设系数进行除法运算。
在一种可能的实现中,所述方法还包括:
通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,所述进行所述第一数据与预设系数的除法运算,包括:
获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分子与所述第二分母相同;
将所述第一定点数与所述第一分母进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分子进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的除法结果;
将所述第二定点数与所述第二分母进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分子进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的除法结果。
在一种可能的实现中,所述第二目标元素为在进行所述第一数据与预设系数的除法运算的过程中,所述N个元素中最后一个与对应系数进行除法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,所述将所述第一定点数与所述第一分母进行乘法运算,以得到第一结果,包括:
获取所述第一保体积流层输出的余数结果;
将所述第一定点数与所述第一分母进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
在一种可能的实现中,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述隐变量输出,所述第M个保体积流层的输出为所述解码输出。
在一种可能的实现中,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标卷积层的输出为所述第一数据,且所述目标卷积层用于对输入数据与权重矩阵进行除法运算。
在一种可能的实现中,所述对输入数据与权重矩阵进行除法运算,包括:
获取权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述输入数据与所述第一矩阵的逆矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第二矩阵的逆矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第三矩阵的逆矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第四矩阵的逆矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述输入数据与所述权重矩阵进行除法运算得到的结果。
所述第二目标元素为在进行所述第一数据与预设系数的除法运算的过程中,所述N个元素中最后一个与对应系数进行除法运算的元素,所述目标保体积流层还用于输出所述第二余数结果,具体的,所述目标保体积流层可以输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。也就是说,第一数据中每个元素都基于上述方式得到一个余数结果,并输入到下一个元素的计算过程中,直到完成第一数据中最后一个元素的乘积运算,此时得到的余数结果可以输入到相邻的下一个保体积流层中。
在一种可能的实现中,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且所述第i个卷积层的输出用于作为第i个保体积流层的输入,所述第i个保体积流层的输出用于作为第i+1个卷积层的输入,所述i为不大于M的正整数,第1个卷积层的输入为所述待隐变量输出,第M个保体积流层的输出为所述解码输出。
首先可以对所述输入数据与所述第一矩阵的逆矩阵进行乘法运算,以得到第六结果;对所述第六结果与所述第二矩阵的逆矩阵进行乘法运算,以得到第七结果;对所述第七结果与所述第三矩阵的逆矩阵进行乘法运算,以得到第八结果;对所述第八结果与所述第四矩阵的逆矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述输入数据与所述权重矩阵进行除法运算得到的结果。关于如何进行上述目标卷积层的逆向运算可以参照图3对应的实施例中关于目标卷积层的逆向运算的描述,这里不再赘述。
本申请利用保体积流模型实现无损压缩,与整数流模型相比,由于保体积流模型中的目标保体积流层在保证可逆的前提下,其对应的运算包括除了整数加减法之外的运算(乘法运算),使得保体积流模型具有更强的表征能力,能够更加准确的确定数据分布,从而实现更优的压缩率。
另一方面,对于通用流模型,可以证明不存在离散空间下实现数值可逆的方法,因为总会因为数值误差存在隐变量的数据对应多个输入数据的情形,此时必须通过多次编码操作消除数值误差,导致算法效率低。而本申请实施例中的保体积流模型,利用数值可逆的目标保体积流层能够实现数值可逆运算,在保证模型具有很强的表征能力前提下,压缩过程实现极少的编码次数,从而实现更高的压缩吞吐率和更低的压缩率。
第三方面,本申请提供了一种数据编码装置,所述装置包括:
获取模块,用于获取待编码数据;
保体积流模块,用于通过保体积流模型对所述待编码数据进行处理,得到隐变量输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1;
编码模块,用于对所述隐变量输出进行编码,得到编码数据。
本申请利用保体积流模型实现无损压缩,与整数流模型相比,由于保体积流模型中的目标保体积流层在保证可逆的前提下,其对应的运算包括除了整数加减法之外的运算(乘法运算),使得保体积流模型具有更强的表征能力,能够更加准确的确定数据分布,从而实现更优的压缩率。
另一方面,对于通用流模型,可以证明不存在离散空间下实现数值可逆的方法,因为总会因为数值误差存在隐变量的数据对应多个输入数据的情形,此时必须通过多次编码操作消除数值误差,导致算法效率低。而本申请实施例中的保体积流模型,利用数值可逆的目标保体积流层能够实现数值可逆运算,在保证模型具有很强的表征能力前提下,压缩过程实现极少的编码次数,从而实现更高的压缩吞吐率和更低的压缩率。
在一种可能的实现中,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的乘法运算,包括:
进行所述第一数据中每个元素与对应的系数的乘法运算,以得到乘积结果。
在一种可能的实现中,所述保体积流模块,用于通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,所述获取模块,用于获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
在一种可能的实现中,所述目标保体积流层的输出包括所述第二数据。
在一种可能的实现中,所述目标保体积流层还用于将所述第一数据与预设系数的乘积结果与常数项进行加和运算,所述常数项不为0。
在一种可能的实现中,所述保体积流模块,用于通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,所述所述保体积流模块,用于获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分母与所述第二分子相同;
将所述第一定点数与所述第一分子进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分母进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的乘法结果;
将所述第二定点数与所述第二分子进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分母进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的乘法结果。
在一种可能的实现中,所述第二目标元素为在进行所述第一数据与预设系数的乘法运算的过程中,所述N个元素中最后一个与对应系数进行乘法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。
在一种可能的实现中,所述目标保体积流层还用于输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,所述所述保体积流模块,用于获取所述第一保体积流层输出的余数结果;
将所述第一定点数与第一分子进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
在一种可能的实现中,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个保体积流层的输出为所述隐变量输出。
在一种可能的实现中,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标保体积流层的输出用于作为所述目标卷积层的输入,且所述目标卷积层用于对所述目标保体积流层的输出与权重矩阵进行乘法运算。
在一种可能的实现中,所述保体积流模块,用于获取所述权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述目标保体积流层的输出与所述第四矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第三矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第二矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第一矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述目标保体积流层的输出与权重矩阵进行乘法运算得到的结果。
在一种可能的实现中,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且第i个保体积流层的输出用于作为第i个卷积层的输入,所述第i个卷积层的输出用于作为第i+1个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个卷积层的输出为所述隐变量输出。
第四方面,本申请提供了一种数据解码装置,所述装置包括:
获取模块,用于获取编码数据;
解码模块,用于对所述编码数据进行解码,以得到隐变量输出;
保体积流模块,用于通过所述保体积流模型对所述隐变量输出进行处理,得到解码输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1。
本申请利用保体积流模型实现无损压缩,与整数流模型相比,由于保体积流模型中的目标保体积流层在保证可逆的前提下,其对应的运算包括除了整数加减法之外的运算(乘法运算),使得保体积流模型具有更强的表征能力,能够更加准确的确定数据分布,从而实现更优的压缩率。
另一方面,对于通用流模型,可以证明不存在离散空间下实现数值可逆的方法,因为总会因为数值误差存在隐变量的数据对应多个输入数据的情形,此时必须通过多次编码操作消除数值误差,导致算法效率低。而本申请实施例中的保体积流模型,利用数值可逆的目标保体积流层能够实现数值可逆运算,在保证模型具有很强的表征能力前提下,压缩过程实现极少的编码次数,从而实现更高的压缩吞吐率和更低的压缩率。
在一种可能的实现中,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的除法运算,包括:
进行所述第一数据中每个元素与对应的系数的除法运算,以得到除法结果。
在一种可能的实现中,所述保体积流模块,用于通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,所述获取模块,用于获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
在一种可能的实现中,所述目标保体积流层的输出包括所述第二数据。
在一种可能的实现中,所述目标保体积流层还用于进行所述第一数据与常数项的减法运算,以得到减法结果,所述常数项不为0;
所述获取模块,用于将所述减法结果与所述预设系数进行除法运算。
在一种可能的实现中,所述保体积流模块,用于通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,所述保体积流模块,用于获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分子与所述第二分母相同;
将所述第一定点数与所述第一分母进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分子进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的除法结果;
将所述第二定点数与所述第二分母进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分子进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的除法结果。
在一种可能的实现中,所述第二目标元素为在进行所述第一数据与预设系数的除法运算的过程中,所述N个元素中最后一个与对应系数进行除法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,所述获取模块,用于获取所述第一保体积流层输出的余数结果;将所述第一定点数与所述第一分母进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
在一种可能的实现中,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述隐变量输出,所述第M个保体积流层的输出为所述解码输出。
在一种可能的实现中,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标卷积层的输出为所述第一数据,且所述目标卷积层用于对输入数据与权重矩阵进行除法运算。
在一种可能的实现中,所述保体积流模块,用于获取权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述输入数据与所述第一矩阵的逆矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第二矩阵的逆矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第三矩阵的逆矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第四矩阵的逆矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述输入数据与所述权重矩阵进行除法运算得到的结果。
在一种可能的实现中,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且所述第i个卷积层的输出用于作为第i个保体积流层的输入,所述第i个保体积流层的输出用于作为第i+1个卷积层的输入,所述i为不大于M的正整数,第1个卷积层的输入为所述待隐变量输出,第M个保体积流层的输出为所述解码输出。
第五方面,本申请提供了一种数据编码装置,包括存储介质、处理电路以及总线***;其中,所述存储介质用于存储指令,所述处理电路用于执行存储器中的指令,以执行上述第一方面及其任一所述的数据编码方法。
第六方面,本申请提供了一种数据解码装置,包括存储介质、处理电路以及总线***;其中,所述存储介质用于存储指令,所述处理电路用于执行存储器中的指令,以执行上述第二方面及其任一所述的数据解码方法。
第七方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面至第二方面任一所述方法。
第八方面,本申请实施例提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面至第二方面任一所述方法。
第九方面,本申请提供了一种芯片***,该芯片***包括处理器,用于支持执行设备或训练设备实现上述方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片***还包括存储器,所述存储器,用于保存执行设备或训练设备必要的程序指令和数据。该芯片***,可以由芯片构成,也可以包括芯片和其他分立器件。
本申请实施例提供了一种数据编码方法,所述方法包括:获取待编码数据;通过保体积流模型对所述待编码数据进行处理,得到隐变量输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1;对所述隐变量输出进行编码,得到编码数据。
一方面,本申请利用保体积流模型实现无损压缩,与整数流模型相比,由于保体积流模型中的目标保体积流层在保证可逆的前提下,其对应的运算包括除了整数加减法之外的运算(乘法运算),使得保体积流模型具有更强的表征能力,能够更加准确的确定数据分布,从而实现更优的压缩率。
另一方面,在进行乘法运算时,使用带余除法,解决目标保体积流层数值可逆的计算问题。将一次项系数(也就是上述实施例中的预设系数)变为分数形式,每个维度的分子为上一个维度的分母。对每一维的数据乘以当前一次项系数的分子并加上上一个维度的余数,再用分母做带余除法,最后加上常数项,得到当前维度的计算结果。同时将带余除法的余数结果传递到下一维度,消除数值误差,以此实现了目标保体积流层的数值可逆计算。
另一方面,在进行卷积层中与权重矩阵的乘法运算时,将目标卷积层转化成连续上三角阵、对角阵、下三角阵和置乱阵的矩阵乘法运算,对四种矩阵乘法分别使用迭代计算、目标保体积流层的数值计算、迭代计算、元素重排四种计算方式,并给出了各个计算方式的可逆计算方法,以此实现了目标卷积层的数值可逆计算。
另一方面,对于通用流模型,可以证明不存在离散空间下实现数值可逆的方法,因为总会因为数值误差存在隐变量的数据对应多个输入数据的情形,此时必须通过多次编码操作消除数值误差,导致算法效率低。而本申请实施例中的保体积流模型,利用数值可逆的目标保体积流层能够实现数值可逆运算,在保证模型具有很强的表征能力前提下,压缩过程实现极少的编码次数,从而实现更高的压缩吞吐率和更低的压缩率。
附图说明
图1为人工智能主体框架的一种结构示意图;
图2a为本申请实施例的应用架构示意;
图2b为本申请实施例中的卷积神经网络示意;
图2c为本申请实施例中的卷积神经网络示意;
图3为本申请实施例提供的一种数据编码方法的实施例示意;
图4为本申请实施例的应用架构示意;
图5为本申请实施例的保体积流模型示意;
图6为本申请实施例的保体积流模型示意;
图7为本申请实施例提供的一种数据解码方法的实施例示意;
图8为本申请实施例提供的一种数据解码方法的实施例示意;
图9为本申请实施例的保体积流模型示意;
图10为本申请实施例的保体积流模型示意;
图11为本申请实施例提供的一种***架构图;
图12为本申请实施例提供的一种数据编码装置的一种结构示意图;
图13为本申请实施例提供的一种数据解码装置的一种结构示意图;
图14为本申请实施例提供的执行设备的一种结构示意图;
图15为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
首先对人工智能***总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能***提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能***中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用***,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能***在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。
本申请可以应用于人工智能领域的图像、视频、文本等数据的无损压缩的领域中,示例性的,本申请可以应用于终端设备中的图像压缩过程。
具体的,本申请实施例提供的图像压缩方法可以应用于终端设备中的图像压缩过程,具体的,可以应用于终端设备上的相册、视频监控等。具体的,可以参照图2a,图2a为本申请实施例的应用场景示意,如图2a中示出的那样,终端设备可以获取到待压缩图片(本申请中也可以称之为带编码数据),其中待压缩图片可以是相机拍摄的照片或是从视频中截取的一帧画面。终端设备可以通过保体积流模型对获取到的待压缩图片进行处理,将图像数据变换成隐变量输出,且产生隐变量输出中各点的概率估计。编码器可以通过隐变量输出中各点的概率估计对提取获得的隐变量输出进行编码,降低隐变量输出的编码冗余,进一步降低图像压缩过程中的数据传输量,并将编码得到的编码数据以数据文件的形式保存在对应的存储位置。当用户需要获取上述存储位置中保存的文件时,CPU可以在相应的存储位置获取并加载上述保存的文件,并基于解码获取到解码得到的隐变量输出,通过保体积流模型对隐变量输出进行重构,得到重构的图像(也就是解码输出)。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……、n,n为大于1的自然数,Ws为Xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)深度神经网络
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于DNN层数多,系数W和偏移向量的数量也比较多。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。
需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(2)卷积神经网络(Convosutionas Neuras Network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层(例如本实施例中的第一卷积层、第二卷积层)。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,我们都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。
卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
具体的,如图2b所示,卷积神经网络(CNN)100可以包括输入层110,卷积层/池化层120,其中池化层为可选的,以及神经网络层130。
其中,卷积层/池化层120以及神经网络层130组成的结构可以为本申请中所描述的第一卷积层以及第二卷积层,输入层110和卷积层/池化层120连接,卷积层/池化层120连接与神经网络层130连接,神经网络层130的输出可以输入至激活层,激活层可以对神经网络层130的输出进行非线性化处理。
卷积层/池化层120:
卷积层:
如图2b所示卷积层/池化层120可以包括如示例121-126层,在一种实现中,121层为卷积层,122层为池化层,123层为卷积层,124层为池化层,125为卷积层,126为池化层;在另一种实现方式中,121、122为卷积层,123为池化层,124、125为卷积层,126为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
以卷积层121为例,卷积层121可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同,经过该多个维度相同的权重矩阵提取后的特征图维度也相同,再将提取到的多个维度相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息,从而帮助卷积神经网络100进行正确的预测。
当卷积神经网络100有多个卷积层的时候,初始的卷积层(例如121)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络100深度的加深,越往后的卷积层(例如126)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,即如图2b中120所示例的121-126各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。
神经网络层130:
在经过卷积层/池化层120的处理后,卷积神经网络100还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层120只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息),卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层130中可以包括多层隐含层(如图2a所示的131、132至13n)以及输出层140,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像超分辨率重建等等。
在神经网络层130中的多层隐含层之后,也就是整个卷积神经网络100的最后层为输出层140,该输出层140具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络100的前向传播(如图2b由110至140的传播为前向传播)完成,反向传播(如图2b由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图2b所示的卷积神经网络100仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,如图2c所示的多个卷积层/池化层并行,将分别提取的特征均输入给全神经网络层130进行处理。
(3)深度神经网络
深度神经网络(Deep Neural Network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于DNN层数多,则系数W和偏移向量的数量也就很多了。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是:第L-1层的第k个神经元到第L层的第j个神经元的系数定义为需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(4)损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络能够预测出真正想要的值或与真正想要的值非常接近的值。因此,就需要预先定义“如何比较预测值和值之间的差异”,这便是损失函数(loss function)或函数(objective function),它们是用于衡量预测值和值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(5)反向传播算法
神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
(6)无损压缩
对数据进行压缩的技术,压缩后的数据长度小于原始数据长度。压缩后的数据通过解压,恢复的数据必须与原始数据完全相同。
(7)压缩长度
压缩后的数据所占的存储空间。
(8)压缩率
原始数据长度和压缩后数据长度的比值。如果没有压缩,值为1。该值越大越好。
(9)隐变量
一种具有特定概率分布的数据,通过建立这些数据与原始数据的条件概率,能够得到原始数据的概率分布。
(10)流模型
一种可逆的深度生成模型,能够实现隐变量和原始数据之间的双向变换。
(11)保体积流模型
流模型的特殊形式,输入空间和对应的隐变量空间体积相同。
(12)定点数
特定精度的小数,精度为k的定点数x满足2^k*x,x是整数。
(13)浮点数
浮点数为用计算机浮点数存储格式存储的小数。
(14)反编码
一种特殊的编码技术,利用***中存储的额外二进制数据用解码生成特定的数据。
本申请实施例的执行主体可以为终端设备或者服务器。
作为一种示例,所述终端设备可以为手机、平板、笔记本电脑、智能穿戴设备等,终端设备可以对获取到的数据(例如图像数据、视频数据或文本数据等)进行压缩处理。作为另一示例,所述终端设备可以为虚拟现实(virtual reality,VR)设备。作为另一示例,本申请实施例也可以应用于智能监控中,可以在所述智能监控中配置相机,则智能监控可以通过相机获取待压缩图片等,应当理解,本申请实施例还可以应用于其他需要进行数据压缩的场景中,此处不再对其他应用场景进行一一列举。
参照图3,图3为本申请实施例提供的一种图像处理方法的实施例示意,如图3示出的那样,本申请实施例提供的一种图像处理方法包括:
301、获取待编码数据。
本申请实施例中,待编码数据可以是图像、视频或者文本的数据。
以待编码数据为图像的数据为例,图像可以是上述终端设备通过摄像头拍摄到的图像,或者,该图像还可以是从终端设备内部获得的图像(例如,终端设备的相册中存储的图像,或者,终端设备从云端获取的图片)。应理解,上述图像可以是具有图像压缩需求的图像,本申请并不对待处理图像的来源作任何限定。
在一种可能的实现中,还可以对待编码数据进行预处理。
具体的,可以将待编码数据处理成定点数并进行归一化,并使用反编码技术,计算u~U(0,2-h)δ,其中δ=2-k,k为定点数的精度,U为均匀分布,在得到u到之后,可以基于u得到处理后的待编码数据,其中,x为待编码数据,为处理后的待编码数据。
若待编码数据为视频数据,且视频的大小与模型输入大小不匹配,则需要将视频切割成若干视频块,每块输入大小与模型(保体积流块block)的输入大小相同;如果视频长度大于模型要求的长度,则切割成多段视频输入。如果输入大小或视频长度不足,可以用特定颜色的色块填充到输入大小或特定长度。
若待编码数据为文本数据,则需要对文本中的字符或者单词构造词向量表示,即压缩过程需要先将文本转换成向量。示例性的,设输入数据w(单词或字符),对应的词向量表示为d维向量x=μ(w)。构造概率分布p(x|w)=N(μ(w),σ2(w))δ(δ=2-dk),(p(w)为w的先验,一般为w的词频)。在数据预处理过程中,给定输入w,利用p(x|w)解码x,利用p(w|x)编码w,得到待编码数据。
302、通过保体积流模型对所述待编码数据进行处理,得到隐变量输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1。
本申请实施例中,可以获取保体积流模型(volume preserving flow,VPF)。
其中,保体积流模型用于对待编码数据进行处理,以得到隐变量输出,其中,隐变量输出是一种具有特定概率分布的数据,通过建立隐变量输出与待编码数据的条件概率,能够得到待编码数据的概率分布。
具体的,可以参照图4,图4为本申请实施例提供的一种数据编码的流程示意,其中保体积流模型可以对待编码数据进行处理以得到隐变量输出,编码器可以对隐变量输出进行处理,以得到编码数据。
接下来描述本申请实施例中的保体积流模型的结构特征:
在一种实现中,保体积流模型可以是多个保体积流层的堆叠;具体的,所述保体积流模型可以包括M个串行的保体积流层,第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个保体积流层的输出为所述隐变量输出。
具体的,可以参照图5,图5为本申请实施例提供的一种保体积流模型的流程示意,保体积流模型可以包括M个保体积流层(图5中示出的保体积流层1、保体积流层2、保体积流层3、…、保体积流层M),第1个保体积流层(体积流层1)的输出用于作为第2个保体积流层(保体积流层2)的输入,第2个保体积流层(保体积流层2)的输出用于作为第3个保体积流层(保体积流层3)的输入,以此类推,第M个保体积流层的输出为隐变量输出。
在一种实现中,保体积流模型可以是多个保体积流层以及卷积层的堆叠;具体的,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且第i个保体积流层的输出用于作为第i个卷积层的输入,所述第i个卷积层的输出用于作为第i+1个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个卷积层的输出为所述隐变量输出。
具体的,可以参照图6,图6为本申请实施例提供的一种保体积流模型的流程示意,保体积流模型可以包括M个保体积流层(图6中示出的保体积流层1、保体积流层2、保体积流层3、…、保体积流层M)、M个卷积层(图6中示出的卷积层1、卷积层2、卷积层3、…、卷积层M),第1个保体积流层(体积流层1)的输出用于作为第1个卷积层(卷积层1)的输入,第1个卷积层(卷积层1)的输出用于作为第2个保体积流层(保体积流层2)的输入,以此类推,第M个保体积流层的输出为隐变量输出。
接下来描述本申请实施例中的保体积流层:
以目标保体积流层为例,本申请实施例中,保体积流模型可以包括目标保体积流层且所述目标保体积流层用于获取第一数据,并进行所述第一数据与预设系数的乘法运算,所述预设系数不为1。
具体的,第一数据为目标保体积流层的输入,目标保体积流层可以进行所述第一数据与预设系数的乘法运算。
本申请实施例中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,进而在进行第一数据与预设系数的乘法运算时,可以进行所述第一数据中每个元素与对应的系数的乘法运算,以得到乘积结果,乘积结果是一个包括N个元素的向量。
接下来描述如何计算得到预设系数:
在一种实现中,可以通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。在一种实现中,预设运算为以自然常数e为底的指数运算。
本申请实施例中,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算。
其中,所述保体积流约束可以指所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
本申请实施例中,为了能保证目标保体积流层对应的运算满足保体积流约束,需要使得目标保体积流层对应的运算中一次项的系数的乘积为1,具体的,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,预设系数中的N个系数为目标保体积流层对应的运算中一次项的系数,且所述N个系数的乘积为1。
为了能保证预设系数中N个系数的乘积为1,可以将第一网络输出包括的每个元素减去平均数。具体的,所述第一网络输出为向量,所述第一网络输出包括N个元素,可以获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素,对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
本申请实施例中,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算。
其中,所谓可逆运算,是指该运算既可以通过输入数据得到输出数据,也可以通过输出数据反推出输入数据,例如,设输入数据为x,输出数据为z=f(x),而x也可以通过逆运算,从输出数据z中恢复x。
接下来描述如何在目标保体积流层包括乘法运算时,还可以保证目标保体积流层对应的运算为可逆运算。
本申请实施例中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,可以获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数,获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分母与所述第二分子相同,将所述第一定点数与所述第一分子进行乘法运算,以得到第一结果,将所述第一结果与所述第一分母进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的乘法结果,将所述第二定点数与所述第二分子进行乘法运算,以得到第三结果,将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果,将所述第四结果与所述第二分母进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的乘法结果。
本实施例中,通过使用带余除法解决可逆计算问题。具体得,将一次项系数变为分数形式,且每个维度的分子为上一个维度的分母。对每一维的数据乘以当前一次项系数的分子并加上上一个维度的余数,再用分母做带余除法,得到当前维度结果。同时将带余除法的余数传递到下一维度,消除数值误差。
示例性的,第一数据x的定点数可以为[44/16,55/16,66/16],其中16表示定点数的精度并不在乘法运算中,则第一数据的定点数为x=[44,55,66],预设系数s为[0.65,0.61,2.52],预设系数s对应的分数表示为[2/3,3/5,5/2],其中,第一定点数为44,第二定点数为55,第一目标系数为0.65,第二目标系数为0.61,第一分数为2/3,第二分数为3/5,第一分子为2,第一分母为3,第二分子为3,第二分母为5。将第一定点数(44)与所述第一分子(2)进行乘法运算,以得到第一结果(88),将所述第一结果(88)与所述第一分母(3)进行除法运算,以得到第二结果,所述第二结果包括第一商结果(29)和第一余数结果(1),所述第一商结果(29)用于作为所述第一目标元素与所述第一目标系数的乘法结果,将所述第二定点数(55)与所述第二分子(3)进行乘法运算,以得到第三结果(165),将所述第三结果(165)与所述第一余数结果(1)进行加法运算,以得到第四结果(166),将所述第四结果(166)与所述第二分母(5)进行除法运算,以得到第五结果,所述第五结果包括第二商结果(33)和第二余数结果(1),所述第二商结果(33)用于作为所述第二目标元素与所述第二目标系数的乘法结果。
所述第二目标元素为在进行所述第一数据与预设系数的乘法运算的过程中,所述N个元素中最后一个与对应系数进行乘法运算的元素,所述目标保体积流层还用于输出所述第二余数结果,具体的,所述目标保体积流层可以输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。也就是说,第一数据中每个元素都基于上述方式得到一个余数结果,并输入到下一个元素的计算过程中,直到完成第一数据中最后一个元素的乘积运算,此时得到的余数结果可以输入到相邻的下一个保体积流层中。
在一种实现中,如果目标保体积流层是保体积流模型中的第一个保体积流层(也就是处理待编码数据的保体积流层),则第一结果就是第一定点数与第一分子进行乘法运算的乘法结果,如果目标保体积流层不是保体积流模型中的第一个保体积流层(也就是不处理待编码数据的保体积流层,而是处理其他中间层的输出结果),则第一定点数就是第一定点数与第一分子进行乘法运算的乘法结果与相邻上一个保体积流层输出的余数结果的加和结果。
在一种实现中,所述目标保体积流层还用于将所述第一数据与预设系数的乘积结果与常数项进行加和运算,所述常数项不为0。
具体的,可以通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
上述第一神经网络和第二神经网络可以是复杂的卷积神经网络,例如可以是ResNet、DenseNet等网络。关于卷积神经网络的具体描述可以参照图2b和图2c对应的实施例描述,这里不再赘述。
本申请实施例中,所述目标保体积流层的输出可以包括所述第二数据,也就是第二数据一方面作为计算常数项以及预设系数的依据,还作为目标保体积流层的输出的一部分。
接下来结合公式描述本申请实施例中目标保体积流层对应的运算:
将第一数据x按维度分解成两部分x=[xa,xb],其中xa为第二数据,xb为第一数据,xb为db维向量,则目标保体积流层对应的运算z=f(x)可表示为:
za=xa,zb=exp(s(xa))⊙xb+t(xa),z=[za,zb];
其中s(·),t(·)是可以训练的神经网络(如卷积神经网络),s(·)为第一神经网络,t(·)为第二神经网络,⊙为向量之间的乘法运算,exp()为以自然常数e为底的指数运算。由于其保体积的限制,必须有exp(s(xa))中各个元素的乘积为1,也就是(s(xa))中各个元素的加和结果为0,即sum(s(xa))=0,其中sum为向量元素的和。在实现中,s(xa)会写成s(xa)←s(xa)-mean(s(xa)),其中mean为向量元素的平均值。
设s=exp(s(xa)),t=t(xa),则目标保体积流层对应的运算可以表示为线性变换zb=s⊙xb+t,其中s和t分别为一次项系数和常数项,s元素的积为1。本实施例使用带余除法技术保证完全数值可逆。首先需要初始化额外数据(余数结果)r∈[0,2C)。设si,ti,xi,i=1,…,db分别为s,t,xb的第i个元素,需要计算zi←si·xi+ti,并输出 和余数结果r。
示例性的,可以通过如下方式计算zi:首先获取到定点数xi,对于i=1,2,...,db:此时对于i=1,2,…,db:v=xi·mi-1+r;yi=floor(v/mi),r←v mod mi;此时yi≈xi·si,其中,floor为向下取整符号,mod为取余。由于yi≈xi·si,故因此zi的数值计算结果是精确的。
其中,勾向量按元素除法。逆过程需要计算xi=(zi-ti)/si。给定正过程输出的r∈[0,2C),相应的数值计算方法的流程可以如下:首先计算yi=2k·zi-round(2k·ti);对于i=1,2,...,db:此时对于i=db,...,2,1:v=yi·mi+r;yi←floor(v/mi-1),r←v mod mi-1;此时xi≈yi/si;输出和r。
在一种实现中,可以参照图6示出的保体积流模型的架构,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标保体积流层的输出用于作为所述目标卷积层的输入,且所述目标卷积层用于对所述目标保体积流层的输出与权重矩阵进行乘法运算。在一种实现中,目标卷积层为1x1卷积层。
具体的,可以获取所述权重矩阵,并对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵。
首先可以对所述目标保体积流层的输出与所述第四矩阵进行乘法运算,以得到第六结果,具体的,设目标卷积层的权重矩阵为W∈Rc×c,目标卷积层对应的运算相当于矩阵乘法运算。设输入数据x维度为c,则z=Wx。对W用LU分解,可得W=PLΛU,其中P为置乱矩阵,L为下三角矩阵,U为上三角矩阵,Λ为单位矩阵且对角线元素的积为1(detΛ=1)。则z的值可由与P,L,Λ,U的矩阵乘积得到,即z=PLΛUx。在计算时,首先可以计算Ux,具体的,设第六结果z=Ux,uij为U的第i行第j列的元素,xi,zi分别为x,z的第i个元素,则正向计算为:
逆向计算从最后一个维度开始,逐维迭代计算:
之后可以对所述第六结果与所述第三矩阵进行乘法运算,以得到第七结果;具体的,可以设第七结果z=Λx,λ为Λ的第i个对角线元素,xi,zi分别为x,z的第i个元素,则zi=λi·xi,其中Πλ=1,则可以用上述目标保体积流层对应的运算的计算方法,来计算对角矩阵与第六结果的乘积,这里不再赘述。
之后可以对所述第七结果与所述第二矩阵进行乘法运算,以得到第八结果;具体的,设第八结果z=Lx,lij为L的第i行第j列的元素,xi,zi分别为x,z的第i个元素,则正向计算为:
逆向计算可以从第一个维度开始,逐维迭代计算:
之后可以对所述第八结果与所述第一矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述目标保体积流层的输出与权重矩阵进行乘法运算得到的结果;具体的,设第九结果z=Px,z可以根据矩阵P对x的元素重排得到,x可以根据P-1对z的元素做反重排得以恢复。
本实施例中将目标卷积层转化成连续上三角阵、对角阵、下三角阵和置乱阵的矩阵乘法运算,对四种矩阵乘法分别使用迭代计算、耦合层的数值计算、迭代计算、元素重排。
303、对所述隐变量输出进行编码,得到编码数据。
本申请实施例中,隐变量输出z可以由概率分布pZ(z)表示,可以根据概率分布pZ(z)对隐变量输出z做编码,以得到编码数据。
在一种可选的实现中,编码数据为二进制的码流,可以利用熵估计网络得到隐变量输出中各点概率估计,利用该概率估计对隐变量输出进行熵编码,得到二进制的码流,需要说明的是,本申请提及的熵编码过程可采用现有的熵编码技术,本申请对此不再赘述。
本申请实施例中,在得到编码数据之后,可以将编码数据发送给用于解压缩的设备,则用于解压缩的设备可以对该数据进行解压缩(或者称之为解码)。或者,用于压缩的终端设备可以将编码数据存储在存储设备中,在需要时,终端设备可以从存储设备中获取编码数据,并可以对该编码数据进行解压缩。
本申请实施例提供了一种数据编码方法,所述方法包括:获取待编码数据;获取保体积流块block,并根据所述保体积流模型,对所述待编码数据进行处理,得到隐变量输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于获取第一数据,并进行所述第一数据与预设系数的乘法运算,所述预设系数不为1;对所述隐变量输出进行编码,得到编码数据。
一方面,本申请利用保体积流模型实现无损压缩,与整数流模型相比,由于保体积流模型中的目标保体积流层在保证可逆的前提下,其对应的运算包括除了整数加减法之外的运算(乘法运算),使得保体积流模型具有更强的表征能力,能够更加准确的确定数据分布,从而实现更优的压缩率。
另一方面,在进行乘法运算时,使用带余除法,解决目标保体积流层数值可逆的计算问题。将一次项系数(也就是上述实施例中的预设系数)变为分数形式,每个维度的分子为上一个维度的分母。对每一维的数据乘以当前一次项系数的分子并加上上一个维度的余数,再用分母做带余除法,最后加上常数项,得到当前维度的计算结果。同时将带余除法的余数结果传递到下一维度,消除数值误差,以此实现了目标保体积流层的数值可逆计算。
另一方面,在进行卷积层中与权重矩阵的乘法运算时,将目标卷积层转化成连续上三角阵、对角阵、下三角阵和置乱阵的矩阵乘法运算,对四种矩阵乘法分别使用迭代计算、目标保体积流层的数值计算、迭代计算、元素重排四种计算方式,并给出了各个计算方式的可逆计算方法,以此实现了目标卷积层的数值可逆计算。
另一方面,对于通用流模型,可以证明不存在离散空间下实现数值可逆的方法,因为总会因为数值误差存在隐变量的数据对应多个输入数据的情形,此时必须通过多次编码操作消除数值误差,导致算法效率低。而本申请实施例中的保体积流模型,利用数值可逆的目标保体积流层能够实现数值可逆运算,在保证模型具有很强的表征能力前提下,压缩过程实现极少的编码次数,从而实现更高的压缩吞吐率和更低的压缩率。
参照图7,图7为本申请实施例提供的一种数据解码方法的流程示意,如图7所示,本申请实施例提供的一种数据解码方法,包括:
701、获取编码数据。
本申请实施例中,解码设备可以获取到如上述图3对应的实施例中步骤303得到的编码数据。
本申请实施例中,在得到编码数据之后,可以将编码数据发送给用于解压缩的终端设备,则用于解压缩的图像处理设备可以获取编码数据,并对该数据进行解压缩。或者,用于压缩的终端设备可以将编码数据存储在存储设备中,在需要时,终端设备可以从存储设备中获取编码数据,并可以对该编码数据进行解压缩。
应理解,解码设备还可以获取到如上实施例中描述的余数结果。
702、对所述编码数据进行解码,以得到隐变量输出。
本申请实施例中,解码设备可以对所述编码数据进行解码,以得到隐变量输出。
具体的,可以利用现有技术中的熵解码技术对编码数据进行解码,得到重建的隐变量输出。
703、通过所述保体积流模型对所述隐变量输出进行处理,得到解码输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1。
本申请实施例中,在得到隐变量输出后,可以基于图3对应的实施例中保体积流模型中各个层对应的运算的逆运算来处理隐变量输出,以还原出原本的待编码数据(也就是解码输出),进而实现无损解压缩过程。
具体的,可以参照图8,图8为本申请实施例提供的一种数据编解码的流程示意,其中保体积流模型在进行前向运算时可以对待编码数据进行处理以得到隐变量输出,编码器可以对隐变量输出进行处理,以得到编码数据,保体积流模型在进行逆向运算时可以对隐变量输出进行处理以得到解码输出。
参照图3对应的实施例中描述的保体积流模型的结构,在一种实现中,保体积流模型可以是多个保体积流层的堆叠;具体的,所述保体积流模型可以包括M个串行的保体积流层,第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为隐变量输出,所述第M个保体积流层的输出为解码输出。
具体的,可以参照图9,图9为本申请实施例提供的一种保体积流模型的流程示意,保体积流模型可以包括M个保体积流层(图9中示出的保体积流层1、保体积流层2、保体积流层3、…、保体积流层M),在解码的过程中,第1个保体积流层(体积流层M)的输出用于作为第2个保体积流层(保体积流层M-1)的输入,以此类推,第M-2个保体积流层(体积流层3)的输出用于作为第M-1个保体积流层(保体积流层2)的输入,第M-1个保体积流层(体积流层2)的输出用于作为第M个保体积流层(保体积流层1)的输入,第M个保体积流层(保体积流层1)的输出为解码输出。
在一种实现中,保体积流模型可以是多个保体积流层以及卷积层的堆叠;具体的,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且第i个保体积流层的输出用于作为第i个卷积层的输入,所述第i个卷积层的输出用于作为第i+1个保体积流层的输入,所述i为不大于M的正整数,第1个卷积层的输入为待隐变量输出,所述第M个保体积流层的输出为所述解码输出。
具体的,可以参照图10,图10为本申请实施例提供的一种保体积流模型的流程示意,保体积流模型可以包括M个保体积流层(图10中示出的保体积流层1、保体积流层2、保体积流层3、…、保体积流层M)、M个卷积层(图10中示出的卷积层1、卷积层2、卷积层3、…、卷积层M),在解码的过程中,第1个卷积层(卷积层M)的输出用于作为第1个保体积流层(保体积流层M)的输入,以此类推,第M-1个卷积层(卷积层2)的输出用于作为第M-1个保体积流层(保体积流层2)的输入,第M-1个保体积流层(保体积流层2)的输出用于作为第M个卷积层(卷积层1)的输入,第M个卷积层(卷积层1)的输出用于作为第M个保体积流层(保体积流层1)的输入,第M个保体积流层的输出为解码输出。
在一种可能的实现中,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;进而可以进行所述第一数据中每个元素与对应的系数的除法运算,以得到除法结果。
接下来描述如何计算得到预设系数:
在一种可能的实现中,可以通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。在一种实现中,预设运算为以自然常数e为底的指数运算。
其中,所述保体积流约束可以指所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
本申请实施例中,为了能保证目标保体积流层对应的运算满足保体积流约束,需要使得目标保体积流层对应的运算中一次项的系数的乘积为1,具体的,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,预设系数中的N个系数为目标保体积流层对应的运算中一次项的系数,且所述N个系数的乘积为1。
为了能保证预设系数中N个系数的乘积为1,可以将第一网络输出包括的每个元素减去平均数。具体的,所述第一网络输出为向量,所述第一网络输出包括N个元素,可以获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素,对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
本申请实施例中,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算。
其中,所谓可逆运算,是指该运算既可以通过输入数据得到输出数据,也可以通过输出数据反推出输入数据,例如,设输入数据为x,输出数据为z=f(x),而x也可以通过逆运算,从输出数据z中恢复x。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,可以获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
本实施例中,由于在编码过程中通过使用带余除法来解决可逆计算问题,具体的,将一次项系数变为分数形式,且每个维度的分子为上一个维度的分母。对每一维的数据乘以当前一次项系数的分子并加上上一个维度的余数,再用分母做带余除法,得到当前维度结果。同时将带余除法的余数传递到下一维度,消除数值误差。在解码过程中,需要进行带余除法的逆运算。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分母与所述第二分子相同;将所述第一定点数与所述第一分母进行乘法运算,以得到第一结果;将所述第一结果与所述第一分子进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的除法结果;将所述第二定点数与所述第二分母进行乘法运算,以得到第三结果;将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;将所述第四结果与所述第二分子进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的除法结果。
示例性的,第一数据x的定点数可以为[29,33,165],其中,相邻上一个保体积流层或编码侧输出的余数结果为1,预设系数s为[0.65,0.61,2.52],预设系数s对应的分数表示为[2/3,3/5,5/2],其中,第一定点数为165,第二定点数为33,第一目标系数为2.52,第二目标系数为0.61,第一分数为5/2,第二分数为3/5,第一分子为5,第一分母为2,第二分子为3,第二分母为5。将第一定点数(165)与所述第一分目(2)进行乘法运算,并将乘法结果与余数结果1相加,以得到第一结果(331),将所述第一结果(331)与所述第一分子(5)进行除法运算,以得到第二结果,所述第二结果包括第一商结果(66)和第一余数结果(1),所述第一商结果(66)用于作为所述第一目标元素与所述第一目标系数的除法结果,将所述第二定点数(33)与所述第二分母(5)进行乘法运算,以得到第三结果(165),将所述第三结果(165)与所述第一余数结果(1)进行加法运算,以得到第四结果(166),将所述第四结果(166)与所述第二分子(3)进行除法运算,以得到第五结果,所述第五结果包括第二商结果(55)和第二余数结果(1),所述第二商结果(55)用于作为所述第二目标元素与所述第二目标系数的除法结果。
所述第二目标元素为在进行所述第一数据与预设系数的除法运算的过程中,所述N个元素中最后一个与对应系数进行除法运算的元素,所述目标保体积流层还用于输出所述第二余数结果,具体的,所述目标保体积流层可以输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。也就是说,第一数据中每个元素都基于上述方式得到一个余数结果,并输入到下一个元素的计算过程中,直到完成第一数据中最后一个元素的乘积运算,此时得到的余数结果可以输入到相邻的下一个保体积流层中。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,获取所述第一保体积流层输出的余数结果;将所述第一定点数与所述第一分母进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
在一种可能的实现中,目标保体积流层的输入为所述隐变量输出,则可以获取编码侧输出的余数结果,在将所述第一定点数与所述第一分母进行乘法运算之后,需要将乘法运算结果与编码侧输出的余数结果进行加和运算,以得到第一结果。
在一种可能的实现中,所述目标保体积流层还用于进行所述第一数据与常数项的减法运算,以得到减法结果,所述常数项不为0;进而可以将所述减法结果与所述预设系数进行除法运算。
具体的,可以通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
上述第一神经网络和第二神经网络可以是复杂的卷积神经网络,例如可以是ResNet、DenseNet等网络。关于卷积神经网络的具体描述可以参照图2b和图2c对应的实施例描述,这里不再赘述。
本申请实施例中,所述目标保体积流层的输出可以包括所述第二数据,也就是第二数据一方面作为计算常数项以及预设系数的依据,还作为目标保体积流层的输出的一部分。
接下来结合公式描述本申请实施例中目标保体积流层对应的逆运算,具体的,是如何基于z进行逆运算以恢复得到x。
其中,为向量按元素除法。逆过程需要计算xi=zi/si+ti。给定正过程输出的r∈[0,2C),相应的数值计算方法的流程可以如下:首先计算yi=2k·zi-round(2k·ti);对于i=1,2,...,db:此时对于i=db,...,2,1:v=yi·mi+r;yi←floor(v/mi-1),r←v mod mi-1;此时xi≈yi/si;输出和r。
在一种实现中,可以参照图10示出的保体积流模型的架构,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标卷积层的输出为所述第一数据,且所述目标卷积层用于对输入数据与权重矩阵进行除法运算。在一种实现中,目标卷积层为1x1卷积层。
具体的,可以获取权重矩阵;对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵。
首先可以对所述输入数据与所述第一矩阵的逆矩阵进行乘法运算,以得到第六结果;对所述第六结果与所述第二矩阵的逆矩阵进行乘法运算,以得到第七结果;对所述第七结果与所述第三矩阵的逆矩阵进行乘法运算,以得到第八结果;对所述第八结果与所述第四矩阵的逆矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述输入数据与所述权重矩阵进行除法运算得到的结果。关于如何进行上述目标卷积层的逆向运算可以参照图3对应的实施例中关于目标卷积层的逆向运算的描述,这里不再赘述。
由于在一种实现中,在编码的过程中,可以对待编码数据进行反编码操作等预处理,为了可以恢复出原始的待编码数据,在得到解码结果之后可以进行编码时预处理的逆操作。示例性的,可以算出解码输出x的定点数,其中,之后用U(0,2-h)δ编码u;并输出x=2h·(x+0.5),其中,0.5为预置的参数。
如下表1所示,与目前最优的基于流模型无损压缩方法局部反编码模型(localbits-back cocding,LBB)相比,本申请实施例中的编码次数减少180余次,压缩效率提升7倍。
表1
以待编码数据为图像数据为例,如表2所示,本申请实施例在各类图像数据集上取得了良好的压缩率,本申请实施例能够有效应用在图像无损压缩任务。在CIFAR10、ImageNet32、ImageNet等数据集均取得了最优的无损压缩率。取得良好压缩率的重要原因是使用的保体积流模型的拟合数据分布能力强。
表2
此外,如下表3所示,本申请实施例中的保体积流模型具有良好的泛化性能,能够使用单一模型,完成各类、各种大小图像的压缩。用ImageNet64数据集训练保体积流模型(输入大小64x64),自然图像做无损压缩测试(自然图像切块成64x64大小,对于小于64x64的图像用合适像素值的色块填充图像到64x64大小),取得了超过3倍的压缩率,该压缩率远远超过现有的无损压缩方法。
表3
图11是本申请实施例提供的一种***架构的示意图,在图11中,执行设备110配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据(例如可以是待编码数据或者编码数据)。
在执行设备120对输入数据进行预处理,或者在执行设备120的计算模块111执行计算等相关的处理(比如进行本申请中神经网络的功能实现)过程中,执行设备120可以调用数据存储***150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储***150中。
最后,I/O接口112将处理结果(例如编码数据或解码数据)返回给客户设备140,从而提供给用户。
可选地,客户设备140,例如可以是自动驾驶***中的控制单元、手机终端中的功能算法模块,例如该功能算法模块可以用于实现相关的任务。
值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则(例如本实施例中的目标神经网络模型),该相应的目标模型/规则即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在图11中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,图11仅是本申请实施例提供的一种***架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图11中,数据存储***150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储***150置于执行设备110中。
在图3至图11所对应的实施例的基础上,为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体参阅图12,图12为本申请实施例提供的数据编码装置1200的一种结构示意图,数据编码装置1200可以是终端设备或服务器,数据编码装置1200包括:
获取模块1201,用于获取待编码数据;
保体积流模块1202,用于通过保体积流模型对所述待编码数据进行处理,得到隐变量输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1;
编码模块1203,用于对所述隐变量输出进行编码,得到编码数据。
在一种可能的实现中,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的乘法运算,包括:
进行所述第一数据中每个元素与对应的系数的乘法运算,以得到乘积结果。
在一种可能的实现中,所述保体积流模块,用于通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,所述获取模块,用于获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
在一种可能的实现中,所述目标保体积流层的输出包括所述第二数据。
在一种可能的实现中,所述目标保体积流层还用于将所述第一数据与预设系数的乘积结果与常数项进行加和运算,所述常数项不为0。
在一种可能的实现中,所述保体积流模块,用于通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,所述所述保体积流模块,用于获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分母与所述第二分子相同;
将所述第一定点数与所述第一分子进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分母进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的乘法结果;
将所述第二定点数与所述第二分子进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分母进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的乘法结果。
在一种可能的实现中,所述第二目标元素为在进行所述第一数据与预设系数的乘法运算的过程中,所述N个元素中最后一个与对应系数进行乘法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。
在一种可能的实现中,所述目标保体积流层还用于输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,所述所述保体积流模块,用于获取所述第一保体积流层输出的余数结果;
将所述第一定点数与第一分子进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
在一种可能的实现中,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个保体积流层的输出为所述隐变量输出。
在一种可能的实现中,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标保体积流层的输出用于作为所述目标卷积层的输入,且所述目标卷积层用于对所述目标保体积流层的输出与权重矩阵进行乘法运算。
在一种可能的实现中,所述保体积流模块,用于获取所述权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述目标保体积流层的输出与所述第四矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第三矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第二矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第一矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述目标保体积流层的输出与权重矩阵进行乘法运算得到的结果。
在一种可能的实现中,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且第i个保体积流层的输出用于作为第i个卷积层的输入,所述第i个卷积层的输出用于作为第i+1个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个卷积层的输出为所述隐变量输出。
参阅图13,图13为本申请实施例提供的数据解码装置1300的一种结构示意图,数据解码装置1300可以是终端设备或服务器,数据解码装置1300包括:
获取模块1301,用于获取编码数据;
解码模块1302,用于对所述编码数据进行解码,以得到隐变量输出;
保体积流模块1303,用于通过所述保体积流模型对所述隐变量输出进行处理,得到解码输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1。
在一种可能的实现中,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的除法运算,包括:
进行所述第一数据中每个元素与对应的系数的除法运算,以得到除法结果。
在一种可能的实现中,所述保体积流模块,用于通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,所述获取模块,用于获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
在一种可能的实现中,所述目标保体积流层的输出包括所述第二数据。
在一种可能的实现中,所述目标保体积流层还用于进行所述第一数据与常数项的减法运算,以得到减法结果,所述常数项不为0;
所述获取模块,用于将所述减法结果与所述预设系数进行除法运算。
在一种可能的实现中,所述保体积流模块,用于通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,所述保体积流模块,用于获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分子与所述第二分母相同;
将所述第一定点数与所述第一分母进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分子进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的除法结果;
将所述第二定点数与所述第二分母进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分子进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的除法结果。
在一种可能的实现中,所述第二目标元素为在进行所述第一数据与预设系数的除法运算的过程中,所述N个元素中最后一个与对应系数进行除法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,所述获取模块,用于获取所述第一保体积流层输出的余数结果;将所述第一定点数与所述第一分母进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
在一种可能的实现中,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述隐变量输出,所述第M个保体积流层的输出为所述解码输出。
在一种可能的实现中,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标卷积层的输出为所述第一数据,且所述目标卷积层用于对输入数据与权重矩阵进行除法运算。
在一种可能的实现中,所述保体积流模块,用于获取权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述输入数据与所述第一矩阵的逆矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第二矩阵的逆矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第三矩阵的逆矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第四矩阵的逆矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述输入数据与所述权重矩阵进行除法运算得到的结果。
在一种可能的实现中,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且所述第i个卷积层的输出用于作为第i个保体积流层的输入,所述第i个保体积流层的输出用于作为第i+1个卷积层的输入,所述i为不大于M的正整数,第1个卷积层的输入为所述待隐变量输出,第M个保体积流层的输出为所述解码输出。
接下来介绍本申请实施例提供的一种执行设备,请参阅图14,图14为本申请实施例提供的执行设备的一种结构示意图,执行设备1400具体可以表现为虚拟现实VR设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备、服务器等,此处不做限定。其中,执行设备1400上可以部署有图3对应实施例中所描述的数据编码装置或图7对应实施例中所描述的数据解码装置。具体的,执行设备1400可以包括:接收器1401、发射器1402、处理器1403和存储器1404(其中执行设备1400中的处理器1403的数量可以一个或多个,图15中以一个处理器为例),其中,处理器1403可以包括应用处理器14031和通信处理器14032。在本申请的一些实施例中,接收器1401、发射器1402、处理器1403和存储器1404可通过总线或其它方式连接。
存储器1404可以包括只读存储器和随机存取存储器,并向处理器1403提供指令和数据。存储器1404的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器1404存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器1403控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线***耦合在一起,其中总线***除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线***。
上述本申请实施例揭示的方法可以应用于处理器1403中,或者由处理器1403实现。处理器1403可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1403中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1403可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1403可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1404,处理器1403读取存储器1404中的信息,结合其硬件完成上述方法的步骤。
接收器1401可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器1402可用于通过第一接口输出数字或字符信息;发射器1402还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器1402还可以包括显示屏等显示设备。
具体的,应用处理器14031,用于获取待编码数据;
其中,待编码数据可以是图像、视频或者文本的数据。
以待编码数据为图像的数据为例,图像可以是上述终端设备通过摄像头拍摄到的图像,或者,该图像还可以是从终端设备内部获得的图像(例如,终端设备的相册中存储的图像,或者,终端设备从云端获取的图片)。应理解,上述图像可以是具有图像压缩需求的图像,本申请并不对待处理图像的来源作任何限定。
通过保体积流模型对所述待编码数据进行处理,得到隐变量输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1;
其中,目标保体积流层也可以称之为目标保体积耦合层;
其中,所述保体积流约束可以指所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致,所谓体积大小一致,是指输入空间的数据与输出空间的数据之间是一一对应的,不同的输出数据对应于不同的输入数据。为了能保证目标保体积流层对应的运算满足保体积流约束,需要使得目标保体积流层对应的运算中一次项的系数的乘积为1,具体的,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,预设系数中的N个系数为目标保体积流层对应的运算中一次项的系数,且所述N个系数的乘积为1。
其中,所谓可逆运算,是指该运算既可以通过输入数据得到输出数据,也可以通过输出数据反推出输入数据,例如,设输入数据为x,输出数据为z=f(x),而x也可以通过逆运算,从输出数据z中恢复x。
对所述隐变量输出进行编码,得到编码数据。
本申请实施例中,隐变量输出z可以由概率分布pZ(z)表示,可以根据概率分布pZ(z)对隐变量输出z做编码,以得到编码数据。
在一种可选的实现中,编码数据为二进制的码流,可以利用熵估计网络得到隐变量输出中各点概率估计,利用该概率估计对隐变量输出进行熵编码,得到二进制的码流,需要说明的是,本申请提及的熵编码过程可采用现有的熵编码技术,本申请对此不再赘述。
本申请利用保体积流模型实现无损压缩,与整数流模型相比,由于保体积流模型中的目标保体积流层在保证可逆的前提下,其对应的运算包括除了整数加减法之外的运算(乘法运算),使得保体积流模型具有更强的表征能力,能够更加准确的确定数据分布,从而实现更优的压缩率。
另一方面,对于通用流模型,可以证明不存在离散空间下实现数值可逆的方法,因为总会因为数值误差存在隐变量的数据对应多个输入数据的情形,此时必须通过多次编码操作消除数值误差,导致算法效率低。而本申请实施例中的保体积流模型,利用数值可逆的目标保体积流层能够实现数值可逆运算,在保证模型具有很强的表征能力前提下,压缩过程实现极少的编码次数,从而实现更高的压缩吞吐率和更低的压缩率。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的乘法运算,包括:
进行所述第一数据中每个元素与对应的系数的乘法运算,以得到乘积结果。
在一种可能的实现中,具体的,应用处理器14031,用于通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。在一种实现中,预设运算为以自然常数e为底的指数运算。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,具体的,应用处理器14031,用于获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
为了能保证预设系数中N个系数的乘积为1,可以将第一网络输出包括的每个元素减去平均数。具体的,所述第一网络输出为向量,所述第一网络输出包括N个元素,可以获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素,对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
在一种可能的实现中,所述目标保体积流层的输出包括所述第二数据。
在一种可能的实现中,所述目标保体积流层还用于将所述第一数据与预设系数的乘积结果与常数项进行加和运算,所述常数项不为0。
在一种可能的实现中,具体的,应用处理器14031,用于通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,具体的,应用处理器14031,用于获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分母与所述第二分子相同;
将所述第一定点数与所述第一分子进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分母进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的乘法结果;
将所述第二定点数与所述第二分子进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分母进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的乘法结果。
本实施例中,通过使用带余除法解决可逆计算问题。具体得,将一次项系数变为分数形式,且每个维度的分子为上一个维度的分母。对每一维的数据乘以当前一次项系数的分子并加上上一个维度的余数,再用分母做带余除法,得到当前维度结果。同时将带余除法的余数传递到下一维度,消除数值误差。
示例性的,第一数据x的定点数可以为[44/16,55/16,66/16],其中16表示定点数的精度并不在乘法运算中,则第一数据的定点数为x=[44,55,66],预设系数s为[0.65,0.61,2.52],预设系数s对应的分数表示为[2/3,3/5,5/2],其中,第一定点数为44,第二定点数为55,第一目标系数为0.65,第二目标系数为0.61,第一分数为2/3,第二分数为3/5,第一分子为2,第一分母为3,第二分子为3,第二分母为5。将第一定点数(44)与所述第一分子(2)进行乘法运算,以得到第一结果(88),将所述第一结果(88)与所述第一分母(3)进行除法运算,以得到第二结果,所述第二结果包括第一商结果(29)和第一余数结果(1),所述第一商结果(29)用于作为所述第一目标元素与所述第一目标系数的乘法结果,将所述第二定点数(55)与所述第二分子(3)进行乘法运算,以得到第三结果(165),将所述第三结果(165)与所述第一余数结果(1)进行加法运算,以得到第四结果(166),将所述第四结果(166)与所述第二分母(5)进行除法运算,以得到第五结果,所述第五结果包括第二商结果(33)和第二余数结果(1),所述第二商结果(33)用于作为所述第二目标元素与所述第二目标系数的乘法结果。
在一种可能的实现中,所述第二目标元素为在进行所述第一数据与预设系数的乘法运算的过程中,所述N个元素中最后一个与对应系数进行乘法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。具体的,所述目标保体积流层可以输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。也就是说,第一数据中每个元素都基于上述方式得到一个余数结果,并输入到下一个元素的计算过程中,直到完成第一数据中最后一个元素的乘积运算,此时得到的余数结果可以输入到相邻的下一个保体积流层中。
在一种可能的实现中,所述目标保体积流层还用于输出所述第二余数结果至与所述目标保体积流层相邻的下一个保体积流层。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,具体的,应用处理器14031,用于
获取所述第一保体积流层输出的余数结果;
将所述第一定点数与第一分子进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
在一种实现中,如果目标保体积流层是保体积流模型中的第一个保体积流层(也就是处理待编码数据的保体积流层),则第一结果就是第一定点数与第一分子进行乘法运算的乘法结果,如果目标保体积流层不是保体积流模型中的第一个保体积流层(也就是不处理待编码数据的保体积流层,而是处理其他中间层的输出结果),则第一定点数就是第一定点数与第一分子进行乘法运算的乘法结果与相邻上一个保体积流层输出的余数结果的加和结果。
在一种可能的实现中,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个保体积流层的输出为所述隐变量输出。保体积流模型可以是多个保体积流层的堆叠。
在一种可能的实现中,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标保体积流层的输出用于作为所述目标卷积层的输入,且所述目标卷积层用于对所述目标保体积流层的输出与权重矩阵进行乘法运算。
在一种可能的实现中,具体的,应用处理器14031,用于获取所述权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述目标保体积流层的输出与所述第四矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第三矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第二矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第一矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述目标保体积流层的输出与权重矩阵进行乘法运算得到的结果。
本实施例中将目标卷积层转化成连续上三角阵、对角阵、下三角阵和置乱阵的矩阵乘法运算,对四种矩阵乘法分别使用迭代计算、耦合层的数值计算、迭代计算、元素重排。在进行卷积层中与权重矩阵的乘法运算时,将目标卷积层转化成连续上三角阵、对角阵、下三角阵和置乱阵的矩阵乘法运算,对四种矩阵乘法分别使用迭代计算、目标保体积流层的数值计算、迭代计算、元素重排四种计算方式,并给出了各个计算方式的可逆计算方法,以此实现了目标卷积层的数值可逆计算。
在一种可能的实现中,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且第i个保体积流层的输出用于作为第i个卷积层的输入,所述第i个卷积层的输出用于作为第i+1个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个卷积层的输出为所述隐变量输出。保体积流模型可以是多个保体积流层以及卷积层的堆叠。
具体的,应用处理器14031,用于获取编码数据;
对所述编码数据进行解码,以得到隐变量输出;
通过所述保体积流模型对所述隐变量输出进行处理,得到解码输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1。
在一种可能的实现中,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的除法运算,包括:
进行所述第一数据中每个元素与对应的系数的除法运算,以得到除法结果。
在一种可能的实现中,具体的,应用处理器14031,用于通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。
在一种可能的实现中,所述第一网络输出为向量,所述第一网络输出包括N个元素,具体的,应用处理器14031,用于获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
在一种可能的实现中,所述目标保体积流层的输出包括所述第二数据。
在一种可能的实现中,所述目标保体积流层还用于进行所述第一数据与常数项的减法运算,以得到减法结果,所述常数项不为0;
将所述减法结果与所述预设系数进行除法运算。
在一种可能的实现中,具体的,应用处理器14031,用于通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
在一种可能的实现中,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,具体的,应用处理器14031,用于获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分母与所述第二分子相同;
将所述第一定点数与所述第一分母进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分子进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的除法结果;
将所述第二定点数与所述第二分母进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分子进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的除法结果。
在一种可能的实现中,所述第二目标元素为在进行所述第一数据与预设系数的除法运算的过程中,所述N个元素中最后一个与对应系数进行除法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。
在一种可能的实现中,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,具体的,应用处理器14031,用于获取所述第一目标元素的第一定点数,并将所述第一定点数与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一目标元素对应的第一定点数。
在一种可能的实现中,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述隐变量输出,所述第M个保体积流层的输出为所述解码输出。
在一种可能的实现中,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标卷积层的输出为所述第一数据,且所述目标卷积层用于对输入数据与权重矩阵进行除法运算。
在一种可能的实现中,具体的,应用处理器14031,用于获取权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述输入数据与所述第一矩阵的逆矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第二矩阵的逆矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第三矩阵的逆矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第四矩阵的逆矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述输入数据与所述权重矩阵进行除法运算得到的结果。
在一种可能的实现中,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且所述第i个卷积层的输出用于作为第i个保体积流层的输入,所述第i个保体积流层的输出用于作为第i+1个卷积层的输入,所述i为不大于M的正整数,第1个卷积层的输入为所述待隐变量输出,第M个保体积流层的输出为所述解码输出。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图14所示实施例描述的方法中执行设备所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述图14所示实施例描述的方法中执行设备所执行的步骤。
本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述图3所示实施例描述的数据编码方法,或者,以使训练设备内的芯片执行上述图7所示实施例描述的数据解码方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图15,图15为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 1500,NPU 1500作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1503,通过控制器1504控制运算电路1503提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1503内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1503是二维脉动阵列。运算电路1503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1503是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1502中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1501中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1508中。
统一存储器1506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1505,DMAC被搬运到权重存储器1502中。输入数据也通过DMAC被搬运到统一存储器1506中。
BIU为Bus Interface Unit即,总线接口单元1510,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1509的交互。
总线接口单元1510(Bus Interface Unit,简称BIU),用于取指存储器1509从外部存储器获取指令,还用于存储单元访问控制器1505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1506或将权重数据搬运到权重存储器1502中或将输入数据数据搬运到输入存储器1501中。
向量计算单元1507包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1507能将经处理的输出的向量存储到统一存储器1506。例如,向量计算单元1507可以将线性函数和/或非线性函数应用到运算电路1503的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1507生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1503的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1504连接的取指存储器(instruction fetch buffer)1509,用于存储控制器1504使用的指令;
统一存储器1506,输入存储器1501,权重存储器1502以及取指存储器1509均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述第一方面方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (34)
1.一种数据编码方法,其特征在于,所述方法包括:
获取待编码数据;
通过保体积流模型对所述待编码数据进行处理,得到隐变量输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1;
对所述隐变量输出进行编码,得到编码数据。
2.根据权利要求1所述的方法,其特征在于,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
3.根据权利要求1或2所述的方法,其特征在于,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的乘法运算,包括:
进行所述第一数据中每个元素与对应的系数的乘法运算,以得到乘积结果。
4.根据权利要求1至3任一所述的方法,其特征在于,
所述方法还包括:通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。
5.根据权利要求4所述的方法,其特征在于,所述第一网络输出为向量,所述第一网络输出包括N个元素,所述对所述第一神经网络的输出进行预设运算,包括:
获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
6.根据权利要求4或5所述的方法,其特征在于,所述目标保体积流层的输出包括所述第二数据。
7.根据权利要求1至6任一所述的方法,其特征在于,所述目标保体积流层还用于将所述第一数据与预设系数的乘积结果与常数项进行加和运算,所述常数项不为0。
8.根据权利要求7所述的方法,其特征在于,
所述方法还包括:
通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
9.根据权利要求1至8任一所述的方法,其特征在于,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,所述进行所述第一数据与预设系数的乘法运算,包括:
获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分母与所述第二分子相同;
将所述第一定点数与所述第一分子进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分母进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的乘法结果;
将所述第二定点数与所述第二分子进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分母进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的乘法结果。
10.根据权利要求9所述的方法,其特征在于,所述第二目标元素为在进行所述第一数据与预设系数的乘法运算的过程中,所述N个元素中最后一个与对应系数进行乘法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。
11.根据权利要求1至10任一所述的方法,其特征在于,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个保体积流层的输出为所述隐变量输出。
12.根据权利要求11所述的方法,其特征在于,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,所述将所述第一定点数与所述第一分子进行乘法运算,以得到第一结果,包括:
获取所述第一保体积流层输出的余数结果;
将所述第一定点数与第一分子进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
13.根据权利要求1至12任一所述的方法,其特征在于,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标保体积流层的输出用于作为所述目标卷积层的输入,且所述目标卷积层用于对所述目标保体积流层的输出与权重矩阵进行乘法运算。
14.根据权利要求13所述的方法,其特征在于,所述对所述目标保体积流层的输出与权重矩阵进行乘法运算,包括:
获取所述权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述目标保体积流层的输出与所述第四矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第三矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第二矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第一矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述目标保体积流层的输出与权重矩阵进行乘法运算得到的结果。
15.根据权利要求13或14所述的方法,其特征在于,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且第i个保体积流层的输出用于作为第i个卷积层的输入,所述第i个卷积层的输出用于作为第i+1个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述待编码数据,所述第M个卷积层的输出为所述隐变量输出。
16.一种数据解码方法,其特征在于,所述方法包括:
获取编码数据;
对所述编码数据进行解码,以得到隐变量输出;
通过所述保体积流模型对所述隐变量输出进行处理,得到解码输出;其中,所述保体积流模型包括目标保体积流层,所述目标保体积流层对应的运算为满足保体积流约束的可逆运算,且所述目标保体积流层用于将输入所述目标保体积流层的第一数据与预设系数的进行乘法运算,所述预设系数不为1。
17.根据权利要求16所述的方法,其特征在于,所述保体积流约束包括:所述保体积运算层对应的运算的输入空间与输出空间的体积大小一致。
18.根据权利要求16或17所述的方法,其特征在于,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,且所述N个系数的乘积为1;所述进行所述第一数据与预设系数的除法运算,包括:
进行所述第一数据中每个元素与对应的系数的除法运算,以得到除法结果。
19.根据权利要求16至18任一所述的方法,其特征在于,所述方法还包括:通过第一神经网络对输入所述目标保体积流层的第二数据进行处理,以得到第一网络输出,并对所述第一网络输出进行预设运算,以得到所述预设系数。
20.根据权利要求19所述的方法,其特征在于,所述第一网络输出为向量,所述第一网络输出包括N个元素,所述对所述第一神经网络的输出进行预设运算,包括:
获取所述第一网络输出包括的N个元素的平均数,并将所述第一网络输出包括的每个元素减去所述平均数,得到处理后的N个元素;
对所述处理后的N个元素中的每个元素进行以自然常数e为底的指数运算,以得到所述预设系数,所述预设系数包括N个系数。
21.根据权利要求19或20所述的方法,其特征在于,所述目标保体积流层的输出包括所述第二数据。
22.根据权利要求16至21任一所述的方法,其特征在于,所述目标保体积流层还用于进行所述第一数据与常数项的减法运算,以得到减法结果,所述常数项不为0;
所述进行所述第一数据与预设系数的除法运算,包括:
将所述减法结果与所述预设系数进行除法运算。
23.根据权利要求22所述的方法,其特征在于,所述方法还包括:
通过第二神经网络对输入所述目标保体积流层的第二数据进行处理,以得到所述常数项。
24.根据权利要求16至23任一所述的方法,其特征在于,所述第一数据和所述预设系数为向量,所述第一数据包括N个元素,所述预设系数包括N个系数,所述第一数据包括的N个元素与所述N个系数一一对应,所述N个元素包括第一目标元素和第二目标元素,所述第一目标元素对应于第一目标系数,所述第二目标元素对应于第二目标系数,所述进行所述第一数据与预设系数的除法运算,包括:
获取所述第一目标元素对应的第一定点数以及所述第二目标元素对应的第二定点数;
获取所述第一目标系数对应的第一分数以及所述第二目标系数对应的第二分数,所述第一分数包括第一分子和第一分母,所述第二分数包括第二分子和第二分母,且所述第一分子、第一分母、第二分子和第二分母为整数,且所述第一分子与所述第二分母相同;
将所述第一定点数与所述第一分母进行乘法运算,以得到第一结果;
将所述第一结果与所述第一分子进行除法运算,以得到第二结果,所述第二结果包括第一商结果和第一余数结果,所述第一商结果用于作为所述第一目标元素与所述第一目标系数的除法结果;
将所述第二定点数与所述第二分母进行乘法运算,以得到第三结果;
将所述第三结果与所述第一余数结果进行加法运算,以得到第四结果;
将所述第四结果与所述第二分子进行除法运算,以得到第五结果,所述第五结果包括第二商结果和第二余数结果,所述第二商结果用于作为所述第二目标元素与所述第二目标系数的除法结果。
25.根据权利要求24所述的方法,其特征在于,所述第二目标元素为在进行所述第一数据与预设系数的除法运算的过程中,所述N个元素中最后一个与对应系数进行除法运算的元素,所述目标保体积流层还用于输出所述第二余数结果。
26.根据权利要求24或25所述的方法,其特征在于,所述保体积流模型还包括第一保体积流层,所述第一保体积流层为所述目标保体积流层之前相邻的保体积流层,所述将所述第一定点数与所述第一分母进行乘法运算,以得到第一结果,包括:
获取所述第一保体积流层输出的余数结果;
将所述第一定点数与所述第一分母进行乘法运算,并将乘法运算结果与所述第一保体积流层输出的余数结果进行加法运算,以得到所述第一结果。
27.根据权利要求24至26任一所述的方法,其特征在于,所述保体积流模型包括M个串行的保体积流层,所述M个串行的保体积流层包括所述目标保体积流层,且第i-1个保体积流层的输出用于作为第i个保体积流层的输入,所述i为不大于M的正整数,第1个保体积流层的输入为所述隐变量输出,所述第M个保体积流层的输出为所述解码输出。
28.根据权利要求16至27任一所述的方法,其特征在于,所述保体积流模型还包括与所述目标保体积流层连接的目标卷积层,所述目标卷积层的输出为所述第一数据,且所述目标卷积层用于对输入数据与权重矩阵进行除法运算。
29.根据权利要求28所述的方法,其特征在于,所述对输入数据与权重矩阵进行除法运算,包括:
获取权重矩阵;
对所述权重矩阵进行LU分解,以得到第一矩阵、第二矩阵、第三矩阵和第四矩阵,所述第一矩阵为置乱阵,所述第二矩阵为下三角矩阵,所述第三矩阵为对角线元素的积为1的单位矩阵,所述第四矩阵为上三角矩阵;
对所述输入数据与所述第一矩阵的逆矩阵进行乘法运算,以得到第六结果;
对所述第六结果与所述第二矩阵的逆矩阵进行乘法运算,以得到第七结果;
对所述第七结果与所述第三矩阵的逆矩阵进行乘法运算,以得到第八结果;
对所述第八结果与所述第四矩阵的逆矩阵进行乘法运算,以得到第九结果,所述第九结果用于作为所述对所述输入数据与所述权重矩阵进行除法运算得到的结果。
30.根据权利要求28或29所述的方法,其特征在于,所述保体积流模型包括串行连接的M个保体积流层以及M个卷积层,所述M个保体积流层包括所述目标保体积流层,所述M个卷积层包括所述目标卷积层,且所述第i个卷积层的输出用于作为第i个保体积流层的输入,所述第i个保体积流层的输出用于作为第i+1个卷积层的输入,所述i为不大于M的正整数,第1个卷积层的输入为所述待隐变量输出,第M个保体积流层的输出为所述解码输出。
31.一种数据编码装置,其特征在于,包括存储介质、处理电路以及总线***;其中,所述存储介质用于存储指令,所述处理电路用于执行存储器中的指令,以执行所述权利要求1至15中任一项所述的方法的步骤。
32.一种数据解码装置,其特征在于,包括存储介质、处理电路以及总线***;其中,所述存储介质用于存储指令,所述处理电路用于执行存储器中的指令,以执行所述权利要求16至30中任一项所述的方法的步骤。
33.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至30中任一项所述的方法的步骤。
34.一种计算机程序产品,其特征在于,所述计算机程序产品包括代码,当所述代码被执行时,用于实现权利要求1至30任一项所述的方法的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221722.XA CN114978189A (zh) | 2021-02-27 | 2021-02-27 | 一种数据编码方法以及相关设备 |
PCT/CN2022/077808 WO2022179588A1 (zh) | 2021-02-27 | 2022-02-25 | 一种数据编码方法以及相关设备 |
EP22758952.0A EP4283876A1 (en) | 2021-02-27 | 2022-02-25 | Data coding method and related device |
US18/455,844 US20230401756A1 (en) | 2021-02-27 | 2023-08-25 | Data Encoding Method and Related Device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221722.XA CN114978189A (zh) | 2021-02-27 | 2021-02-27 | 一种数据编码方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114978189A true CN114978189A (zh) | 2022-08-30 |
Family
ID=82973563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110221722.XA Pending CN114978189A (zh) | 2021-02-27 | 2021-02-27 | 一种数据编码方法以及相关设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230401756A1 (zh) |
EP (1) | EP4283876A1 (zh) |
CN (1) | CN114978189A (zh) |
WO (1) | WO2022179588A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471398A (zh) * | 2022-08-31 | 2022-12-13 | 北京科技大学 | 图像超分辨率方法、***、终端设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115913245A (zh) * | 2021-09-30 | 2023-04-04 | 华为技术有限公司 | 数据编码方法、数据解码方法以及数据处理装置 |
CN117971160B (zh) * | 2024-03-29 | 2024-06-14 | 西北工业大学 | 一种包括错误预测的乘法器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7328150B2 (en) * | 2002-09-04 | 2008-02-05 | Microsoft Corporation | Innovations in pure lossless audio compression |
WO2013050612A1 (en) * | 2011-10-06 | 2013-04-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Entropy coding buffer arrangement |
-
2021
- 2021-02-27 CN CN202110221722.XA patent/CN114978189A/zh active Pending
-
2022
- 2022-02-25 EP EP22758952.0A patent/EP4283876A1/en active Pending
- 2022-02-25 WO PCT/CN2022/077808 patent/WO2022179588A1/zh unknown
-
2023
- 2023-08-25 US US18/455,844 patent/US20230401756A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471398A (zh) * | 2022-08-31 | 2022-12-13 | 北京科技大学 | 图像超分辨率方法、***、终端设备及存储介质 |
CN115471398B (zh) * | 2022-08-31 | 2023-08-15 | 北京科技大学 | 图像超分辨率方法、***、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4283876A1 (en) | 2023-11-29 |
US20230401756A1 (en) | 2023-12-14 |
WO2022179588A1 (zh) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112529150B (zh) | 一种模型结构、模型训练方法、图像增强方法及设备 | |
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
US10417525B2 (en) | Object recognition with reduced neural network weight precision | |
WO2020014590A1 (en) | Generating a compressed representation of a neural network with proficient inference speed and power consumption | |
CN113259665B (zh) | 一种图像处理方法以及相关设备 | |
CN112236779A (zh) | 基于卷积神经网络的图像处理方法和图像处理装置 | |
CN113326930B (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN112001914A (zh) | 深度图像补全的方法和装置 | |
CN114978189A (zh) | 一种数据编码方法以及相关设备 | |
US20230177641A1 (en) | Neural network training method, image processing method, and apparatus | |
WO2022021938A1 (zh) | 图像处理方法与装置、神经网络训练的方法与装置 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
CN112561028A (zh) | 训练神经网络模型的方法、数据处理的方法及装置 | |
WO2023207836A1 (zh) | 一种图像编码方法、图像解压方法以及装置 | |
CN114698395A (zh) | 神经网络模型的量化方法和装置、数据处理的方法和装置 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
CN113536970A (zh) | 一种视频分类模型的训练方法及相关装置 | |
CN113627163A (zh) | 一种注意力模型、特征提取方法及相关装置 | |
CN114071141A (zh) | 一种图像处理方法及其设备 | |
CN115409697A (zh) | 一种图像处理方法及相关装置 | |
WO2023174256A1 (zh) | 一种数据压缩方法以及相关设备 | |
CN114066914A (zh) | 一种图像处理方法以及相关设备 | |
US20230143985A1 (en) | Data feature extraction method and related apparatus | |
CN112532251A (zh) | 一种数据处理的方法及设备 | |
CN115913245A (zh) | 数据编码方法、数据解码方法以及数据处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |