CN111565318A - 一种基于稀疏样本的视频压缩方法 - Google Patents
一种基于稀疏样本的视频压缩方法 Download PDFInfo
- Publication number
- CN111565318A CN111565318A CN202010372156.8A CN202010372156A CN111565318A CN 111565318 A CN111565318 A CN 111565318A CN 202010372156 A CN202010372156 A CN 202010372156A CN 111565318 A CN111565318 A CN 111565318A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- encoder
- training
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种基于稀疏样本的视频压缩方法,属于视频压缩技术领域。该方法包括:S1:数据预处理;S2:首先通过变分自编码器与生成对抗网络结合的视频生成方法,利用变分自编码器对数据集中视频的每一帧进行学习,构建具有良好连续性的隐空间,隐空间中的每一点对应视频中的一帧;然后将噪声与文本输入生成对抗网络的生成器,生成器则生成潜变量空间中的多个相关联的点,最后通过变分自编码器的解码器生成连续图像;S3:将生成的连续图像输入视频压缩模型,通过CNN网络筛选背景帧,然后使用YOLO神经网络对每一帧图像当中的目标进行识别。本发明能够提高视频压缩效率,同时减少网络传输时延和本地资源的消耗。
Description
技术领域
本发明属于视频压缩技术领域,涉及一种基于稀疏样本的视频压缩方法。
背景技术
视频压缩技术常用于视频数据的传输、保存等,在日常生活中常有应用。视频监控成为越来越流行,随之带来的是海量的视频存储,因此视频压缩成为一个需求非常强烈的技术,视频压缩也成为了视频监控领域的研究热点。随着人工智能技术快速发展,尤其是深度学习的已经成功的应用到很多领域中,例如图像识别、语音识别、NLP和目标检测等领域中。因此可以考虑利用深度学习到视频压缩,来实现更高效的视频压缩。然而一个健壮的视频压缩神经网络通常需要大量的训练数据进行长期的训练才能成型,训练数据的采集制作需要长期且大量的人员、设备、时间投入,增加项目的研发成本,也使得模型的计算复杂性很高。因此需要在保证模型质量的前提下,减小数据集的采集难度和体量,确保视频压缩模型既能保证原视频的分辨率等信息,又能降低视频的存储代价是目前现有技术中急需解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于稀疏样本的视频压缩方法,提高视频压缩效率的同时,减少网络传输时延和本地资源的消耗。
为达到上述目的,本发明提供如下技术方案:
一种基于稀疏样本的视频压缩方法,具体包括以下步骤:
S1:数据预处理;
S2:构建训练稀疏视频样本扩充模型,首先通过变分自编码器与生成对抗网络结合的视频生成方法,利用变分自编码器对数据集中视频的每一帧进行学习,构建具有良好连续性的隐空间,隐空间中的每一点对应视频中的一帧;然后将噪声与文本输入生成对抗网络的生成器,生成器则生成潜变量空间中的多个相关联的点,最后将这些相关联的点通过变分自编码器的解码器生成多帧相关联连续图像,这些图像组成所要生成的视频;
S3:构建训练视频压缩网络模型,并将生成的连续图像输入视频压缩模型,通过CNN网络进行背景帧的筛选,然后使用基于卷积神经网络的YOLO神经网络对每一帧图像当中的目标进行识别,并保存识别信息,即为压缩视频。
进一步,步骤S1中,所述数据预处理具体包括:针对少量采集视频,先将视频文件做音频抽离处理,得到“视频-音频”数据,对收集的视频及音频数据做归一化处理,得到生成对抗网络训练过程中使用的数据集;并将视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的音频片段,得到稀疏样本扩充模型的基础数据集。
进一步,步骤S2中,构建的稀疏视频样本扩充模型包括训练变分自编码器和生成对抗网络,模型训练具体包括:
1)从预处理得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练;变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值mx和方差vx,将图像映射到专属于该图像的正态分布N(mx,vx),再从该分布中随机采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像;同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mi附近,这个均值通过神经网络计算得到;然后从预处理之后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对;将取得的样本对进行视频-音频随机配对,得到M个不匹配样本对,随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练;
2)生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LossG为目标,判别器D的训练以最小化LossD为目标;训练过程中先训练判别器D,再训练生成器G,重复训练过程,直到生成的视频样本质量达到要求。
进一步,所述变分自编码器的损失函数为:
生成器G的损失函数为:
LossG=-log(D(xg,xvg)) (2)
其中,xg为输入生成器G生成的视频样本,xvg为生成器G输入的音频样本;
判别器D的损失函数为:
LoosD=-log(D(zr,sr))-log(1-D(zm,sm))-log(1-D(zf,sg)) (3)
其中,zr、zm、zf分别是xr、xm、xg经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
进一步,步骤S3中,通过CNN网络进行背景帧的筛选,具体包括:使用OpenCV将已有的数据集和生成的数据集分帧,提取出匹配的音频,音频不继续做处理,将得到的图像帧进行卷及神经网络分类得到类别G,分别在Gi当中取得该类别当中置信度最高的Gij为背景帧。
进一步,步骤S3中,构建训练视频压缩网络模型具体包括:基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来,并将运动物体所在的位置行成矩形框裁剪出来,保存为图片;所述目标检测算法为基于区域的卷积神经网络为YOLO,目标检测算法用于检测出物体的种类,定位物体的位置;
首先,将运动物体所在的位置行成矩形框裁剪出来保存为图片的过程中,将运动物体所在的位置作为感兴趣区域,滤除非感兴趣区域如其他静止物体,取得运动帧为m-1帧,根据第m-1帧重构帧及第m帧计算运动向量,得到第m帧预测帧;计算重构m帧和实际第m帧的残差,作用于重构计算网络,优化运动向量,当残差足够小后,将运动向量保存为帧信息;将矩形框图像的边缘和背景图像RGB颜色信息数值求均值,使背景和目标物两张图像之间的色彩平滑过渡,以便于将解码还原的所有图像帧组合形成视频;
然后,将裁剪的运动物体矩形框图片、定位信息、以及所处理的帧信息作为一组保存到链表中,完成所有帧图像的压缩。
本发明的有益效果在于:本发明的视频压缩方法,支持少量样本通过生成对抗网络进行扩充,进一步训练视频压缩YOLO模型,结合监控视频背景变化小的特点,对每一帧进行关键信息抽取,只关心运动物体,减少了大量的冗余信息,提高了视频的压缩率,同时,还提高了监控的视频传输速率,节省了大量的视频存储空间,减少了监控视频的传输时延,减少了其他无关因素对视频的影响。同时本发明方法结合神经网络模型进行视频压缩,随着压缩视频的量逐渐增加,模型的压缩效果会越来越好。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于稀疏样本的视频压缩方法的框架图;
图2为视频背景帧选取流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,图1为一种基于稀疏样本的视频压缩方法的框架图,本发明方法使用生成对抗网络生成新的训练数据对采集的稀疏视频数据进行扩充,然后使用这类数据训练视频压缩网络,实现视频背景帧和运动物体的抽取。
生成对抗网络以生成器生成样本,以判别器区分生成器生成的样本与真样本,二者以对抗的方式进行学习,构成动态的博弈,当最终达到纳什均衡时,判别器不能区分生成样本与真样本,那么使用生成对抗网络根据已有稀疏样本,生成新视频数据进行训练,此时采用生成数据训练得到的视频压缩模型和使用实际数据训练得到的视频压缩模型也就几乎没有差异。
本发明优选了一种基于稀疏样本的视频压缩方法,具体包括以下步骤:
1)数据预处理
少量采集视频,并将视频文件做音频抽离处理,得到“视频-音频”数据,对收集的视频及音频数据做归一化处理,得到生成对抗网络训练过程中使用的数据集;并且将视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的音频片段,得到稀疏样本扩充模型的基础数据集。
2)定义生成对抗网络模型
从上述得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值mx和方差vx,将图像映射到专属于该图像的正态分布N(mx,vx),再从该分布随机中采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mi附近,这个均值通过神经网络计算得到。然后从预处理之后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对;将取得的样本对进行视频-音频随机配对,得到M个不匹配样本对,随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练。
变分自编码器的损失函数:
生成器G的损失函数为:
LossG=-log(D(xg,xvg)) (2)
其中,xg为输入生成器G生成的视频样本,xvg为生成器G输入的音频样本。
判别器D的损失函数为:
LoosD=-log(D(zr,sr))-log(1-D(zm,sm))-log(1-D(zf,sg)) (3)
其中,zr、zm、zf分别是xr、xm、xg经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LossG为目标,判别器D的训练以最小化LossD为目标。训练过程中先训练判别器D,再训练生成器G,重复训练过程,直到生成的视频样本质量达到要求。
3)选取视频的背景帧
如图2所示,使用OpenCV将已有的数据集和生成的数据集分帧,提取出匹配的音频,音频不继续做处理,将得到的图像帧进行卷及神经网络分类得到类别G,分别在Gi当中取得该类别当中置信度最高的Gij为背景帧。
4)定义视频压缩网络模型
基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来,并将运动物体所在的位置行成矩形框裁剪出来,保存为图片,所述目标检测算法为基于区域的卷积神经网络为YOLO,目标检测算法用于检测出物体的种类,定位物体的位置。
首先,将运动物体所在的位置行成矩形框裁剪出来保存为图片的过程中,将运动物体所在的位置作为感兴趣区域,滤除非感兴趣区域如其他静止物体,取得运动帧为m-1帧,根据第m-1帧重构帧及第m帧计算运动向量,得到第m帧预测帧。计算重构m帧和实际第m帧的残差,作用于重构计算网络,优化运动向量,当残差足够小后,将运动向量保存为帧信息。将矩形框图像的边缘和背景图像RGB颜色信息数值求均值,使背景和目标物两张图像之间的色彩平滑过渡,以便于将解码还原的所有图像帧组合形成视频。
然后,将裁剪的运动物体矩形框图片、定位信息、所处理的帧信息这三项作为一组保存到链表中,完成所有帧图像的压缩。
5)视频解压还原
首先从链表中依次取出运动物体的裁剪矩形框、位置和图像帧的编号作为一组,把每一组覆盖到背景帧中,完成所有帧图像的解码还原。
对比实验:利用本实施例方法在实验工程中进行多参数对比试验,本发明建立的压缩模型的压缩效果很好。在实验中,保持其他参数不变,改变其中一个参数,分别记录实验结果。其中压缩效率是源视频大小与压缩视频大小之比,值越大,效率越高。
表1实验结果一览表
表1中数据可以看出,视频压缩效率和一次性压缩视频体积、视频帧数有一定的关系,剪辑源视频大小为341M、1001M时,帧数不同,压缩效果不同,帧数高的源视频,压缩效率普遍高于帧数低的视频。压缩过程中,模型可以设置输出视频的帧数和原视频一致,但考虑到增加该参数会导致模型强行凑帧数,使得解压视频失真率大大提高,故输出帧率是根据模型实际的情况得到的。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于稀疏样本的视频压缩方法,其特征在于,该方法具体包括以下步骤:
S1:数据预处理;
S2:构建训练稀疏视频样本扩充模型,首先通过变分自编码器与生成对抗网络结合的视频生成方法,利用变分自编码器对数据集中视频的每一帧进行学习,构建具有良好连续性的隐空间,隐空间中的每一点对应视频中的一帧;然后将噪声与文本输入生成对抗网络的生成器,生成器则生成潜变量空间中的多个相关联的点,最后将这些相关联的点通过变分自编码器的解码器生成多帧相关联连续图像;
S3:构建训练视频压缩网络模型,并将生成的连续图像输入视频压缩模型,通过CNN网络进行背景帧的筛选,然后使用基于卷积神经网络的YOLO神经网络对每一帧图像当中的目标进行识别,并保存识别信息,即为压缩视频。
2.根据权利要求1所述的一种基于稀疏样本的视频压缩方法,其特征在于,步骤S1中,所述数据预处理具体包括:针对少量采集视频,先将视频文件做音频抽离处理,得到“视频-音频”数据,对收集的视频及音频数据做归一化处理,得到生成对抗网络训练过程中使用的数据集;并将视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的音频片段,得到稀疏样本扩充模型的基础数据集。
3.根据权利要求1所述的一种基于稀疏样本的视频压缩方法,其特征在于,步骤S2中,构建的稀疏视频样本扩充模型包括训练变分自编码器和生成对抗网络,模型训练具体包括:
1)从预处理得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练;变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值mx和方差vx,将图像映射到专属于该图像的正态分布N(mx,vx),再从该分布中随机采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像;同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mi附近,这个均值通过神经网络计算得到;然后从预处理之后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对;将取得的样本对进行视频-音频随机配对,得到M个不匹配样本对,随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练;
2)生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LossG为目标,判别器D的训练以最小化LossD为目标;训练过程中先训练判别器D,再训练生成器G,重复训练过程,直到生成的视频样本质量达到要求。
4.根据权利要求3所述的一种基于稀疏样本的视频压缩方法,其特征在于,所述变分自编码器的损失函数为:
生成器G的损失函数为:
LossG=-log(D(xg,xvg)) (2)
其中,xg为输入生成器G生成的视频样本,xvg为生成器G输入的音频样本;
判别器D的损失函数为:
LoosD=-log(D(zr,sr))-log(1-D(zm,sm))-log(1-D(zf,sg)) (3)
其中,zr、zm、zf分别是xr、xm、xg经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
5.根据权利要求1所述的一种基于稀疏样本的视频压缩方法,其特征在于,步骤S3中,通过CNN网络进行背景帧的筛选,具体包括:使用OpenCV将已有的数据集和生成的数据集分帧,提取出匹配的音频,音频不继续做处理,将得到的图像帧进行卷及神经网络分类得到类别G,分别在Gi当中取得该类别当中置信度最高的Gij为背景帧。
6.根据权利要求1所述的一种基于稀疏样本的视频压缩方法,其特征在于,步骤S3中,构建训练视频压缩网络模型具体包括:基于深度学习的注意力机制和目标检测算法将每一帧图像中的运动物体检测出来,并将运动物体所在的位置行成矩形框裁剪出来,保存为图片;所述目标检测算法为基于区域的卷积神经网络为YOLO;
首先,将运动物体所在的位置行成矩形框裁剪出来保存为图片的过程中,将运动物体所在的位置作为感兴趣区域,滤除非感兴趣区域如其他静止物体,取得运动帧为m-1帧,根据第m-1帧重构帧及第m帧计算运动向量,得到第m帧预测帧;计算重构m帧和实际第m帧的残差,作用于重构计算网络,优化运动向量,当残差足够小后,将运动向量保存为帧信息;将矩形框图像的边缘和背景图像RGB颜色信息数值求均值,使背景和目标物两张图像之间的色彩平滑过渡,以便于将解码还原的所有图像帧组合形成视频;
然后,将裁剪的运动物体矩形框图片、定位信息、以及所处理的帧信息作为一组保存到链表中,完成所有帧图像的压缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010372156.8A CN111565318A (zh) | 2020-05-06 | 2020-05-06 | 一种基于稀疏样本的视频压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010372156.8A CN111565318A (zh) | 2020-05-06 | 2020-05-06 | 一种基于稀疏样本的视频压缩方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111565318A true CN111565318A (zh) | 2020-08-21 |
Family
ID=72074498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010372156.8A Pending CN111565318A (zh) | 2020-05-06 | 2020-05-06 | 一种基于稀疏样本的视频压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111565318A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348806A (zh) * | 2020-11-14 | 2021-02-09 | 四川大学华西医院 | 一种无参考数字病理切片模糊度评价算法 |
CN112906561A (zh) * | 2021-02-18 | 2021-06-04 | 上海明略人工智能(集团)有限公司 | 用于获取动作识别模型的方法、装置及设备 |
CN112929662A (zh) * | 2021-01-29 | 2021-06-08 | 中国科学技术大学 | 解决码流结构化图像编码方法中对象重叠问题的编码方法 |
CN113191266A (zh) * | 2021-04-30 | 2021-07-30 | 江苏航运职业技术学院 | 船舶动力装置远程监控管理方法及*** |
US11403069B2 (en) | 2017-07-24 | 2022-08-02 | Tesla, Inc. | Accelerated mathematical engine |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
CN114900714A (zh) * | 2022-04-12 | 2022-08-12 | 科大讯飞股份有限公司 | 一种基于神经网络的视频生成方法及相关装置 |
CN114926555A (zh) * | 2022-03-25 | 2022-08-19 | 江苏预立新能源科技有限公司 | 一种安防监控设备数据智能压缩方法与*** |
US11487288B2 (en) | 2017-03-23 | 2022-11-01 | Tesla, Inc. | Data synthesis for autonomous control systems |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
CN115599984A (zh) * | 2022-09-09 | 2023-01-13 | 北京理工大学(Cn) | 一种检索方法 |
CN115619882A (zh) * | 2022-09-29 | 2023-01-17 | 清华大学 | 一种视频的压缩方法 |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11665108B2 (en) | 2018-10-25 | 2023-05-30 | Tesla, Inc. | QoS manager for system on a chip communications |
US11681649B2 (en) | 2017-07-24 | 2023-06-20 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11734562B2 (en) | 2018-06-20 | 2023-08-22 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11748620B2 (en) | 2019-02-01 | 2023-09-05 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11790664B2 (en) | 2019-02-19 | 2023-10-17 | Tesla, Inc. | Estimating object properties using visual image data |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11841434B2 (en) | 2018-07-20 | 2023-12-12 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11893774B2 (en) | 2018-10-11 | 2024-02-06 | Tesla, Inc. | Systems and methods for training machine models with augmented data |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US12014553B2 (en) | 2019-02-01 | 2024-06-18 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070024635A1 (en) * | 2002-11-14 | 2007-02-01 | Microsoft Corporation | Modeling variable illumination in an image sequence |
CN105701480A (zh) * | 2016-02-26 | 2016-06-22 | 江苏科海智能***有限公司 | 一种视频语义分析方法 |
CN108596958A (zh) * | 2018-05-10 | 2018-09-28 | 安徽大学 | 一种基于困难正样本生成的目标跟踪方法 |
US20190377955A1 (en) * | 2018-06-08 | 2019-12-12 | Adobe Inc. | Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks |
CN110572696A (zh) * | 2019-08-12 | 2019-12-13 | 浙江大学 | 一种变分自编码器与生成对抗网络结合的视频生成方法 |
CN110659628A (zh) * | 2019-10-09 | 2020-01-07 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习的煤矿监控视频解压缩方法及*** |
CN110728203A (zh) * | 2019-09-23 | 2020-01-24 | 清华大学 | 基于深度学习的手语翻译视频生成方法及*** |
-
2020
- 2020-05-06 CN CN202010372156.8A patent/CN111565318A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070024635A1 (en) * | 2002-11-14 | 2007-02-01 | Microsoft Corporation | Modeling variable illumination in an image sequence |
CN105701480A (zh) * | 2016-02-26 | 2016-06-22 | 江苏科海智能***有限公司 | 一种视频语义分析方法 |
CN108596958A (zh) * | 2018-05-10 | 2018-09-28 | 安徽大学 | 一种基于困难正样本生成的目标跟踪方法 |
US20190377955A1 (en) * | 2018-06-08 | 2019-12-12 | Adobe Inc. | Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks |
CN110572696A (zh) * | 2019-08-12 | 2019-12-13 | 浙江大学 | 一种变分自编码器与生成对抗网络结合的视频生成方法 |
CN110728203A (zh) * | 2019-09-23 | 2020-01-24 | 清华大学 | 基于深度学习的手语翻译视频生成方法及*** |
CN110659628A (zh) * | 2019-10-09 | 2020-01-07 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习的煤矿监控视频解压缩方法及*** |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11487288B2 (en) | 2017-03-23 | 2022-11-01 | Tesla, Inc. | Data synthesis for autonomous control systems |
US12020476B2 (en) | 2017-03-23 | 2024-06-25 | Tesla, Inc. | Data synthesis for autonomous control systems |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11403069B2 (en) | 2017-07-24 | 2022-08-02 | Tesla, Inc. | Accelerated mathematical engine |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11681649B2 (en) | 2017-07-24 | 2023-06-20 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11797304B2 (en) | 2018-02-01 | 2023-10-24 | Tesla, Inc. | Instruction set architecture for a vector computational unit |
US11734562B2 (en) | 2018-06-20 | 2023-08-22 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11841434B2 (en) | 2018-07-20 | 2023-12-12 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11983630B2 (en) | 2018-09-03 | 2024-05-14 | Tesla, Inc. | Neural networks for embedded devices |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
US11893774B2 (en) | 2018-10-11 | 2024-02-06 | Tesla, Inc. | Systems and methods for training machine models with augmented data |
US11665108B2 (en) | 2018-10-25 | 2023-05-30 | Tesla, Inc. | QoS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11908171B2 (en) | 2018-12-04 | 2024-02-20 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US12014553B2 (en) | 2019-02-01 | 2024-06-18 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US11748620B2 (en) | 2019-02-01 | 2023-09-05 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US11790664B2 (en) | 2019-02-19 | 2023-10-17 | Tesla, Inc. | Estimating object properties using visual image data |
CN112348806A (zh) * | 2020-11-14 | 2021-02-09 | 四川大学华西医院 | 一种无参考数字病理切片模糊度评价算法 |
CN112348806B (zh) * | 2020-11-14 | 2022-08-26 | 四川大学华西医院 | 一种无参考数字病理切片模糊度评价方法 |
CN112929662A (zh) * | 2021-01-29 | 2021-06-08 | 中国科学技术大学 | 解决码流结构化图像编码方法中对象重叠问题的编码方法 |
CN112906561A (zh) * | 2021-02-18 | 2021-06-04 | 上海明略人工智能(集团)有限公司 | 用于获取动作识别模型的方法、装置及设备 |
CN113191266A (zh) * | 2021-04-30 | 2021-07-30 | 江苏航运职业技术学院 | 船舶动力装置远程监控管理方法及*** |
CN114926555A (zh) * | 2022-03-25 | 2022-08-19 | 江苏预立新能源科技有限公司 | 一种安防监控设备数据智能压缩方法与*** |
CN114926555B (zh) * | 2022-03-25 | 2023-10-24 | 江苏预立新能源科技有限公司 | 一种安防监控设备数据智能压缩方法与*** |
CN114900714A (zh) * | 2022-04-12 | 2022-08-12 | 科大讯飞股份有限公司 | 一种基于神经网络的视频生成方法及相关装置 |
CN114900714B (zh) * | 2022-04-12 | 2023-11-21 | 科大讯飞股份有限公司 | 一种基于神经网络的视频生成方法及相关装置 |
CN115599984A (zh) * | 2022-09-09 | 2023-01-13 | 北京理工大学(Cn) | 一种检索方法 |
CN115599984B (zh) * | 2022-09-09 | 2023-06-09 | 北京理工大学 | 一种检索方法 |
CN115619882B (zh) * | 2022-09-29 | 2024-02-13 | 清华大学 | 一种视频的压缩方法 |
CN115619882A (zh) * | 2022-09-29 | 2023-01-17 | 清华大学 | 一种视频的压缩方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111565318A (zh) | 一种基于稀疏样本的视频压缩方法 | |
Singh et al. | Muhavi: A multicamera human action video dataset for the evaluation of action recognition methods | |
CN111353395A (zh) | 一种基于长短期记忆网络的换脸视频检测方法 | |
CN113269787A (zh) | 一种基于门控融合的遥感图像语义分割方法 | |
Li et al. | Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement | |
CN112801068B (zh) | 一种视频多目标跟踪与分割***和方法 | |
CN114723760B (zh) | 人像分割模型的训练方法、装置及人像分割方法、装置 | |
WO2023151529A1 (zh) | 人脸图像的处理方法及相关设备 | |
De Souza et al. | Detection of violent events in video sequences based on census transform histogram | |
CN116399588A (zh) | 一种小样本下基于WPD和AFRB-LWUNet的滚动轴承故障诊断方法 | |
CN112508121B (zh) | 一种工业机器人感知外界的方法和*** | |
CN111260577A (zh) | 基于多引导图和自适应特征融合的人脸图像复原*** | |
CN114926883A (zh) | 一种满足多种降质模型的人脸图像处理方法 | |
CN110782458A (zh) | 一种非对称编码网络的物体图像3d语义预测分割方法 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN116434759B (zh) | 一种基于srs-cl网络的说话人识别方法 | |
Ouyang et al. | The comparison and analysis of extracting video key frame | |
CN111507279A (zh) | 一种基于UNet++网络的掌纹识别方法 | |
CN116665053A (zh) | 顾及阴影信息的高分辨遥感影像建筑物识别方法及*** | |
CN104243986A (zh) | 基于数据驱动张量子空间的压缩视频采集与重构*** | |
CN114387553A (zh) | 一种基于帧结构感知聚合的视频人脸识别方法 | |
CN114554220A (zh) | 一种基于抽象特征的固定场景视频超限压缩与解码方法 | |
CN111950496A (zh) | 一种蒙面人身份识别方法 | |
CN115240106B (zh) | 任务自适应的小样本行为识别方法及*** | |
CN111291602A (zh) | 视频检测方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200821 |
|
RJ01 | Rejection of invention patent application after publication |