CN117915096A - Ai大模型的目标识别高精度高分辨率视频编码方法及*** - Google Patents
Ai大模型的目标识别高精度高分辨率视频编码方法及*** Download PDFInfo
- Publication number
- CN117915096A CN117915096A CN202311716249.8A CN202311716249A CN117915096A CN 117915096 A CN117915096 A CN 117915096A CN 202311716249 A CN202311716249 A CN 202311716249A CN 117915096 A CN117915096 A CN 117915096A
- Authority
- CN
- China
- Prior art keywords
- image
- main body
- video
- signal
- video image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 64
- 230000000007 visual effect Effects 0.000 claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 238000009432 framing Methods 0.000 claims abstract description 27
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 238000003709 image segmentation Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 78
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000009467 reduction Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 7
- 238000005065 mining Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000008439 repair process Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Landscapes
- Image Processing (AREA)
Abstract
本发明涉及视频编码技术领域,提供了一种AI大模型的目标识别高精度高分辨率视频编码方法及***,包括:对高清视频流进行视频分帧处理,得到分帧视频,识别分帧视频中的视频图像,对视频图像进行优化处理,得到优化视频图像;对优化视频图像进行信号解析,得到图像信号,计算图像信号对应的信号幅度值;对目标视频图像进行主体识别,得到图像主体,对目标视频图像进行图像分割,得到关键主体图像和非关键主体图像,对关键主体图像进行编码处理,得到编码图像;提取非关键主体图像对应的视觉特征,构建非关键主体图像对应的虚拟图像,生成目标视频图像对应的最终编码图像。本发明在于提高高精度高分辨率视频的编码效率。
Description
技术领域
本发明涉及视频编码技术领域,尤其涉及一种AI大模型的目标识别高精度高分辨率视频编码方法及***。
背景技术
高精度高分辨率视频是指具有较高的图像质量和分辨率的视频,它可以提供更清晰、更逼真的图像细节,目前的体育赛事直播或者国际间会议的转播都会采用高精度高分辨率视频,使观看者能够更好地欣赏和感受视频内容,视频在处理时都需要进行编码处理,以便于更好的进行视频传递。
但是现有的高精度高分辨率视频编码方法主要是采用H.264/AVC方法,该方法通过运动估计、变换编码、量化和熵编码等处理方式,以此得到高质量的编码视频,但是该方法在处理的过程中会对视频中无关紧要的内容也进行编码处理,如球场中的草地或者观众等实物场景,从而增加了视频编码的计算量,使得高精度高分辨率视频的编码效率降低,因此需要一种能够提高高精度高分辨率视频编码效率的方法。
发明内容
本发明提供一种AI大模型的目标识别高精度高分辨率视频编码方法及***,其主要目的在于提高高精度高分辨率视频的编码效率。
为实现上述目的,本发明提供的一种AI大模型的目标识别高精度高分辨率视频编码方法,包括:
获取待编码的高清视频流,对所述高清视频流进行视频分帧处理,得到分帧视频,识别所述分帧视频中的视频图像,对所述视频图像进行优化处理,得到优化视频图像;
对所述优化视频图像进行信号解析,得到图像信号,计算所述图像信号对应的信号幅度值,根据所述信号幅度值,对所述优化视频图像进行去重处理,得到目标视频图像,挖掘所述目标视频图像中每个图像对应的图像信息,根据所述图像信息,分析所述视频图像对应的图像场景;
对所述目标视频图像进行主体识别,得到图像主体,提取所述图像主体对应的主体特征,分析所述图像场景与所述主体特征之间的关联关系,结合所述关联关系,确定所述图像主体中的关键主体和非关键主体;
根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,得到关键主体图像和非关键主体图像,对所述关键主体图像进行编码处理,得到编码图像;
将所述非关键主体图像输入到训练好的AI大模型中,利用所述AI大模型中的卷积神经网络提取所述非关键主体图像对应的视觉特征,根据所述视觉特征,利用所述AI大模型中的自编码器构建所述非关键主体图像对应的虚拟图像,根据所述编码图像和所述虚拟图像,生成所述目标视频图像对应的最终编码图像。
可选地,所述对所述视频图像进行优化处理,得到优化视频图像,包括:
对所述视频图像进行降噪处理,得到降噪视频图像;
对所述去噪视频图像进行失真修复处理,得到修复视频图像;
对所述修复视频图像进行畸变校正处理,得到校正视频图像;
计算所述校正视频图像的像素点对应的像素强度值,对所述像素强度值进行均衡处理,得到均衡像素;
根据所述均衡像素,对所述校正视频图像进行像素优化处理,得到优化视频图像。
可选地,所述对所述视频图像进行降噪处理,得到降噪视频图像,包括:
通过下述公式对所述视频图像进行降噪处理:
其中,A表示降噪视频图像,a和b分别表示的是卷积窗口对应的长和宽,Ba,b表示对视频图像中的像素点进行降噪处理的卷积窗口,D(x,y)表示视频图像。
可选地,所述计算所述图像信号对应的信号幅度值,包括:
通过下述公式计算所述图像信号对应的信号幅度值:
其中,E表示图像信号对应的信号幅度值,F表示图像信号对应的长度值,βd表示图像信号中第d个信号采样点对应的时域能量,d表示图像信号的信号其实采样点,t表示图像信号的信号采样点数量,f(d)表示图像信号第d个信号采样点对应的频域能量,α表示图像信号对应的频域转换系数。
可选地,所述根据所述图像信息,分析所述视频图像对应的图像场景,包括:
提取所述图像信息对应的信息描述字符;
对所述信息描述字符进行语义解析,得到字符释义;
根据所述字符释义,确定所述图像信息对应的信息场景;
统计所述信息场景对应的场景频次,根据所述场景频次,确定所述图像信息的目标场景。
可选地,所述提取所述图像主体对应的主体特征,包括:
识别所述图像主体对应的主体纹理,计算所述主体纹理中每个像素点对应的像素灰度值;
根据所述像素灰度值,构建所述主体纹理对应的纹理矩阵,计算所述纹理矩阵对应的矩阵均值;
根据预设阈值和所述矩阵均值,提取所述主体纹理对应的纹理特征;
提取所述图像主体对应的颜色特征,将所述纹理特征和所述颜色特征作为所述图像主体的主体特征。
可选地,所述提取所述图像主体对应的颜色特征,包括:
通过下述公式提取所述图像主体对应的颜色特征:
其中,Q表示图像主体对应的颜色特征,LN表示归一化算法,We表示图像主体中第e个主体对应的像素均值,e表示图像主体的主体序列号,ω表示图像主体的主体数量,Rei表示第e个主体中第i个像素点对应的像素值,i表示图像主体的像素点序列号,Ve表示图像主体中第e个主体对应的像素方差,Ue表示图像主体中第e个主体对应的像素偏度系数。
可选地,所述分析所述图像场景与所述主体特征之间的关联关系,包括:
分析所述主体特征中的特征元素,并分析所述图像场景对应的视觉元素;
计算所述视觉元素和所述特征元素之间的关联系数;
分别对所述特征元素和所述视觉元素进行向量化处理,得到特征元素向量和视觉元素向量;
计算所述特征元素向量和所述视觉元素向量之间的向量相似度;
结合所述向量相似度和所述关联系数,分析所述图像场景与所述主体特征之间的关联关系。
可选地,所述计算所述特征元素向量和所述视觉元素向量之间的向量相似度,包括:
通过下述公式计算所述特征元素向量和所述视觉元素向量之间的向量相似度:
其中,N表示特征元素向量和视觉元素向量之间的向量相似度,j和j+1分别表示特征元素向量和视觉元素的序列号,μ表示特征元素向量的向量总数,Mj表示特征元素向量中第j个向量的向量值,Gj+1表示视觉元素向量中第j+1个向量的向量值。
一种AI大模型的目标识别高精度高分辨率视频编码***,其特征在于,所述***包括:
图像优化模块,用于获取待编码的高清视频流,对所述高清视频流进行视频分帧处理,得到分帧视频,识别所述分帧视频中的视频图像,对所述视频图像进行优化处理,得到优化视频图像;
场景分析模块,用于对所述优化视频图像进行信号解析,得到图像信号,计算所述图像信号对应的信号幅度值,根据所述信号幅度值,对所述优化视频图像进行去重处理,得到目标视频图像,挖掘所述目标视频图像中每个图像对应的图像信息,根据所述图像信息,分析所述视频图像对应的图像场景;
主体分析模块,用于对所述目标视频图像进行主体识别,得到图像主体,提取所述图像主体对应的主体特征,分析所述图像场景与所述主体特征之间的关联关系,结合所述关联关系,确定所述图像主体中的关键主体和非关键主体;
图像编码模块,用于根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,得到关键主体图像和非关键主体图像,对所述关键主体图像进行编码处理,得到编码图像;
图像构建模块,用于将所述非关键主体图像输入到训练好的AI大模型中,利用所述AI大模型中的卷积神经网络提取所述非关键主体图像对应的视觉特征,根据所述视觉特征,利用所述AI大模型中的自编码器构建所述非关键主体图像对应的虚拟图像,根据所述编码图像和所述虚拟图像,生成所述目标视频图像对应的最终编码图像。
本发明对所述高清视频流进行视频分帧处理,可以将所述高清视频流分解为单个帧视频,以此降低了视频图像识别处理的难度,相对于多帧视频,识别单个帧视频对应的视频图像效率更高,本发明通过对所述优化视频图像进行信号解析,可以得到所述优化视频图像的电信号,计算所述图像信号对应的信号幅度值,从而便于后续可以将所述优化视频图像中的重复图像去除掉,避免后续对重复图像进行计算处理,本发明提取所述图像主体对应的主体特征,可以得到所述图像主体的相关表征,通过根据相关表征,进而提高后续关联关系分析的准确性,本发明根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,可以对所述目标视频图像进行有效分离,便于后续对所述目标视频图像进行混合编码处理,从而提高了图像的编码效率。因此,本发明实施例提供的一种AI大模型的目标识别高精度高分辨率视频编码方法及***,能够提高高精度高分辨率视频的编码效率。
附图说明
图1为本发明一实施例提供的一种AI大模型的目标识别高精度高分辨率视频编码方法的流程示意图;
图2为本发明一实施例提供的一种AI大模型的目标识别高精度高分辨率视频编码***的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种AI大模型的目标识别高精度高分辨率视频编码方法。本申请实施例中,所述一种AI大模型的目标识别高精度高分辨率视频编码方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述一种AI大模型的目标识别高精度高分辨率视频编码方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的一种AI大模型的目标识别高精度高分辨率视频编码方法的流程示意图。在本实施例中,所述一种AI大模型的目标识别高精度高分辨率视频编码方法包括步骤S1—S5。
S1、获取待编码的高清视频流,对所述高清视频流进行视频分帧处理,得到分帧视频,识别所述分帧视频中的视频图像,对所述视频图像进行优化处理,得到优化视频图像。
本发明对所述高清视频流进行视频分帧处理,可以将所述高清视频流分解为单个帧视频,以此降低了视频图像识别处理的难度,相对于多帧视频,识别单个帧视频对应的视频图像效率更高,其中,所述高清视频流是具有较高分辨率、高帧率和高码率的视频数据流,它能够提供更清晰、更细腻、更真实的图像和更平滑的动画效果,如体育赛事直播或者国际间会议的转播的场景,都是采用高清视频流,所述分帧视频是所述高清视频流对应的单个帧的视频,所述视频图像是所述分帧视频对应的静态图像,可选地,对所述高清视频流进行视频分帧处理可以通过视频分帧工具,如OpenCV工具,识别所述分帧视频中的视频图像可以通过图像识别工具实现,所述图像识别工具是由脚本语言编译。
本发明通过对所述视频图像进行优化处理,可以提高所述视频图像的图像质量,从而使后续信号解析得到的图像信号更加准确,其中,所述优化视频图像是所述视频图像经过优化处理后得到的高质量图像。
作为本发明的一个实施例,所述对所述视频图像进行优化处理,得到优化视频图像,包括:对所述视频图像进行降噪处理,得到降噪视频图像,对所述去噪视频图像进行失真修复处理,得到修复视频图像,对所述修复视频图像进行畸变校正处理,得到校正视频图像,计算所述校正视频图像的像素点对应的像素强度值,对所述像素强度值进行均衡处理,得到均衡像素,根据所述均衡像素,对所述校正视频图像进行像素优化处理,得到优化视频图像。
其中,所述降噪视频图像是所述视频图像中的噪点进行抑制后得到的图像,所述修复视频图像是所述去噪视频图像中的失真伪像经过修复后得到的图像,所述校正视频图像是所述修复视频图像中的几何畸变或者镜头畸变经过修复后得到的图像,所述像素强度值是所述校正视频图像的像素点对应的数值,所述均衡像素是所述像素强度值经过均衡化处理后得到的像素。
可选的,对所述去噪视频图像进行失真修复处理可以通过盲去卷积方法实现,对所述修复视频图像进行畸变校正处理可以通过畸变模型实现,如Brown模型,所述校正视频图像的像素点对应的像素强度值可以使用以下公式计算:像素强度值=0.299R+0.587*G+0.114*B,其中R、G、B分别为红、绿、蓝通道的像素值,对所述像素强度值进行均衡处理可以通过像素直方图均衡化方法实现,可以通过利用所述均衡像素对所述校正视频图像进行像素更新处理,进而对所述校正视频图像进行像素优化处理。
进一步的,作为本发明的一个可选实施例,所述对所述视频图像进行降噪处理,得到降噪视频图像,包括:
通过下述公式对所述视频图像进行降噪处理:
其中,A表示降噪视频图像,a和b分别表示的是卷积窗口对应的长和宽,Ba,b表示对视频图像中的像素点进行降噪处理的卷积窗口,D(x,y)表示视频图像。
S2、对所述优化视频图像进行信号解析,得到图像信号,计算所述图像信号对应的信号幅度值,根据所述信号幅度值,对所述优化视频图像进行去重处理,得到目标视频图像,挖掘所述目标视频图像中每个图像对应的图像信息,根据所述图像信息,分析所述视频图像对应的图像场景。
本发明通过对所述优化视频图像进行信号解析,可以得到所述优化视频图像的电信号,计算所述图像信号对应的信号幅度值,从而便于后续可以将所述优化视频图像中的重复图像去除掉,避免后续对重复图像进行计算处理,其中,所述图像信号是所述优化视频图像进行传输或者处理时对应的电信号,所述信号幅度值表示所述图像信号对应的信号强度,可选的,对所述优化视频图像进行信号解析可以通过信号解析工具实现,如视频解码器。
作为本发明的一个实施例,所述计算所述图像信号对应的信号幅度值,包括:
通过下述公式计算所述图像信号对应的信号幅度值:
其中,E表示图像信号对应的信号幅度值,F表示图像信号对应的长度值,βd表示图像信号中第d个信号采样点对应的时域能量,d表示图像信号的信号其实采样点,t表示图像信号的信号采样点数量,f(d)表示图像信号第d个信号采样点对应的频域能量,α表示图像信号对应的频域转换系数。
本发明根据所述信号幅度值,对所述优化视频图像进行去重处理,可以减小所述优化视频图像的图像数量,降低后续关于图像的计算成本,挖掘所述目标视频图像中每个图像对应的图像信息,可以得到所述目标视频图像中每个图像包含的内容,从而为后续的图像场景分析提供了依据,其中,所述图像信息是所述目标视频图像中每个图像内包含的内容,如图像中的物体或者人物等,可选的,对所述优化视频图像进行去重处理可以通过感知哈希算法实现,具体步骤为:利用感知哈希函数计算所述优化视频图像对应的hash值,然后比较hash值的差异程度判断所述优化视频图像的相似度,在相似度大于预设阈值相似度时,挖掘所述目标视频图像中每个图像对应的图像信息可以通过神经网络模型实现,如循环神经网络。
本发明根据所述图像信息,分析所述视频图像对应的图像场景,从而可以确定所述视频图像对应的具体应用场景,从而便于后续的图像主体的区分,其中,所述图像场景是所述视频图像对应的具体应用场景,如国际视频或者体育赛事直播等。
作为本发明的一个实施例,所述根据所述图像信息,分析所述视频图像对应的图像场景,包括:提取所述图像信息对应的信息描述字符,对所述信息描述字符进行语义解析,得到字符释义,根据所述字符释义,确定所述图像信息对应的信息场景,统计所述信息场景对应的场景频次,根据所述场景频次,确定所述图像信息的目标场景。
其中,所述信息描述字符是所述图像信息对应的描述文本,所述字符释义是所述信息描述字符对应的含义,所述信息场景是所述图像信息中每个信息对应的场景,所述场景频次表示所述信息场景对应的场景出现次数。
可选的,提取所述图像信息对应的信息描述字符可以通过OCR文本识别技术实现,对所述信息描述字符进行语义解析可以通过语义解析法实现,可以根据所述字符释义对应的解释内容,根据解释内容确定所述图像信息对应的信息场景,统计所述信息场景对应的场景频次可以通过计数法实现,可以将所述场景频次中出现次数最多的信息场景作为所述图像信息的目标场景。
S3、对所述目标视频图像进行主体识别,得到图像主体,提取所述图像主体对应的主体特征,分析所述图像场景与所述主体特征之间的关联关系,结合所述关联关系,确定所述图像主体中的关键主体和非关键主体。
本发明提取所述图像主体对应的主体特征,可以得到所述图像主体的相关表征,通过根据相关表征,进而提高后续关联关系分析的准确性,其中,所述图像主体是所述目标视频图像中的最重要的目标或者物体,所述主体特征是所述图像主体对应的表征,可选地,对所述目标视频图像进行主体识别可以通过目标检测算法实现,如FasterR-CNN算法。
作为本发明的一个实施例,所述提取所述图像主体对应的主体特征,包括:识别所述图像主体对应的主体纹理,计算所述主体纹理中每个像素点对应的像素灰度值,根据所述像素灰度值,构建所述主体纹理对应的纹理矩阵,计算所述纹理矩阵对应的矩阵均值,根据预设阈值和所述矩阵均值,提取所述主体纹理对应的纹理特征,并提取所述图像主体对应的颜色特征,将所述纹理特征和所述颜色特征作为所述图像主体的主体特征。
其中,所述主体纹理是所述图像主体对应的纹路,所述像素灰度值是所述主体纹理只采用单一色调表达的图像对应的亮度值,所述纹理矩阵是所述像素灰度值构建的方阵,所述预设阈值是所述矩阵均值评判的标准值,所述纹理特征是所述主体纹理对应的纹理表征,所述颜色特征是所述图像主体对应的颜色表征。
可选地,识别所述图像主体对应的主体纹理可以通过LBP算法实现,计算所述主体纹理中每个像素点对应的像素灰度值可以通过平均值法实现,对每个像素的红、绿、蓝三个通道的像素值求平均,得到像素灰度值,构建所述主体纹理对应的纹理矩阵可以通过矩阵函数实现,如zero矩阵函数,计算所述纹理矩阵对应的矩阵均值可以通过average函数实现,提取所述主体纹理对应的纹理特征可以通过灰度共生矩算法实现,将所述纹理特征和所述颜色特征作为所述图像主体的主体特征。
可选的,作为本发明的一个可选实施例,所述提取所述图像主体对应的颜色特征,包括:
通过下述公式提取所述图像主体对应的颜色特征:
其中,Q表示图像主体对应的颜色特征,LN表示归一化算法,We表示图像主体中第e个主体对应的像素均值,e表示图像主体的主体序列号,ω表示图像主体的主体数量,Rei表示第e个主体中第i个像素点对应的像素值,i表示图像主体的像素点序列号,Ve表示图像主体中第e个主体对应的像素方差,Ue表示图像主体中第e个主体对应的像素偏度系数。
本发明通过分析所述图像场景与所述主体特征之间的关联关系,可以通过所述关联关系了解所述图像场景与所述主体特征之间的关联程度,从而便于后续确定所述图像主体中的关键主体和非关键主体,为后续的图像分割提供了依据,其中,所述关联关系是所述图像场景与所述主体特征之间的关联程度,所述关键主体是所述图像主体中和所述图像场景对应的所述关联关系最高的主体,如体育赛事中的运动员,所述非关键主体是所述图像主体中和所述图像场景对应的所述关联关系最低的主体,如球场中的观众,可选的,所述图像主体中的关键主体和非关键主体可以根据所述关联关系的高低确定。
作为本发明的一个实施例,所述分析所述图像场景与所述主体特征之间的关联关系,包括:分析所述主体特征中的特征元素,并分析所述图像场景对应的视觉元素,计算所述视觉元素和所述特征元素之间的关联系数,分别对所述特征元素和所述视觉元素进行向量化处理,得到特征元素向量和视觉元素向量,计算所述特征元素向量和所述视觉元素向量之间的向量相似度,结合所述向量相似度和所述关联系数,分析所述图像场景与所述主体特征之间的关联关系。
其中,所述特征元素是所述主体特征存在的元素,如物体或者颜色等,所述视觉元素是所述图像场景中存在的元素,如存在的人物,所述关联系数表示所述视觉元素和所述特征元素之间的关联度,所述特征元素向量和所述视觉元素向量分别是所述特征元素和所述视觉元素对应的表达向量,所述向量相似度表示所述特征元素向量和所述视觉元素向量之间的相似程度。
可选的,分析所述主体特征中的特征元素可以通过角点检测算法实现,如Harris角点检测算法,所述视觉元素与所述特征元素的分析方法一致,在此不做过多赘述,计算所述视觉元素和所述特征元素之间的关联系数可以通过皮尔逊相关系数算法实现,分别对所述特征元素和所述视觉元素进行向量化处理可以通过word2vec算法实现,结合所述向量相似度和所述关联系数,分析所述图像场景与所述主体特征之间的关联关系
可选的,作为本发明的一个可选实施例,所述计算所述特征元素向量和所述视觉元素向量之间的向量相似度,包括:
通过下述公式计算所述特征元素向量和所述视觉元素向量之间的向量相似度:
其中,N表示特征元素向量和视觉元素向量之间的向量相似度,j和j+1分别表示特征元素向量和视觉元素的序列号,μ表示特征元素向量的向量总数,Mj表示特征元素向量中第j个向量的向量值,Gj+1表示视觉元素向量中第j+1个向量的向量值。
S4、根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,得到关键主体图像和非关键主体图像,对所述关键主体图像进行编码处理,得到编码图像。
本发明根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,可以对所述目标视频图像进行有效分离,便于后续对所述目标视频图像进行混合编码处理,从而提高了图像的编码效率,其中,所述关键主体图像是所述关键主体在所述目标视频图像对应的图像,所述非关键主体图像是所述非关键主体在所述目标视频图像对应的图像,所述编码图像是所述关键主体图像经过编码处理后得到的图像,可选地,对所述目标视频图像进行图像分割可以通过阈值分割法实现,对所述关键主体图像进行编码处理的步骤为:对所述关键主体图像进行预处理,包括裁剪、调整大小、色彩空间转换等操作,得到目标主体图像,对目标主体图像进行分块处理,将目标主体图像分成大小相等或不等的图像块,每个块包含一定数量的像素,对图像块进行像素预测,根据已编码的像素值或周围像素值的统计信息,对图像块中的像素进行预测,得到预测像素值,可以使用线性模型方法进行预测,将预测像素值与实际像素值进行比较,得到预测误差,使用无损编码算法对预测误差进行编码和压缩,得到压缩像素值,无损编码方法包括Huffman编码,对压缩像素值进行重建处理,得到编码图像。
S5、将所述非关键主体图像输入到训练好的AI大模型中,利用所述AI大模型中的卷积神经网络提取所述非关键主体图像对应的视觉特征,根据所述视觉特征,利用所述AI大模型中的自编码器构建所述非关键主体图像对应的虚拟图像,根据所述编码图像和所述虚拟图像,生成所述目标视频图像对应的最终编码图像。
本发明通过利用所述AI大模型中的卷积神经网络提取所述非关键主体图像对应的视觉特征,可以得到所述非关键主体图像对应的视觉特有属性,从而便于后续构建所述非关键主体图像对应的虚拟图像,其中,所述AI大模型是用于对图像中的非关键物体进行建模,所述卷积神经网络是用于提取图像的特征的神经网络,通过虚拟的模型替换部分实物图像,可以提高所述高清视频流的编码效率,所述自编码器是用于对图像物体进行建模的神经网络,通过建模的模型来实现实物图像的编码,所述虚拟图像是所述非关键主体图像中实物图像通过模型来代替编码得到的图像,可选的,可以通过所述卷积神经网络中的卷积核提取所述非关键主体图像对应的视觉特征,可以通过所述自编码器中的编码器和解码器构建所述非关键主体图像对应的虚拟图像,生成所述目标视频图像对应的最终编码图像可以通过图像生成器实现,所述图像生成器是由JAVA语言编译。
本发明对所述高清视频流进行视频分帧处理,可以将所述高清视频流分解为单个帧视频,以此降低了视频图像识别处理的难度,相对于多帧视频,识别单个帧视频对应的视频图像效率更高,本发明通过对所述优化视频图像进行信号解析,可以得到所述优化视频图像的电信号,计算所述图像信号对应的信号幅度值,从而便于后续可以将所述优化视频图像中的重复图像去除掉,避免后续对重复图像进行计算处理,本发明提取所述图像主体对应的主体特征,可以得到所述图像主体的相关表征,通过根据相关表征,进而提高后续关联关系分析的准确性,本发明根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,可以对所述目标视频图像进行有效分离,便于后续对所述目标视频图像进行混合编码处理,从而提高了图像的编码效率。因此,本发明实施例提供的一种AI大模型的目标识别高精度高分辨率视频编码方法,能够提高高精度高分辨率视频的编码效率。
如图2所示,是本发明一实施例提供的一种AI大模型的目标识别高精度高分辨率视频编码***的功能模块图。
本发明所述一种AI大模型的目标识别高精度高分辨率视频编码***100可以安装于电子设备中。根据实现的功能,所述一种AI大模型的目标识别高精度高分辨率视频编码***100可以包括图像优化模块101、场景分析模块102、主体分析模块103、图像编码模块104及图像构建模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述图像优化模块101,用于获取待编码的高清视频流,对所述高清视频流进行视频分帧处理,得到分帧视频,识别所述分帧视频中的视频图像,对所述视频图像进行优化处理,得到优化视频图像;
所述场景分析模块102,用于对所述优化视频图像进行信号解析,得到图像信号,计算所述图像信号对应的信号幅度值,根据所述信号幅度值,对所述优化视频图像进行去重处理,得到目标视频图像,挖掘所述目标视频图像中每个图像对应的图像信息,根据所述图像信息,分析所述视频图像对应的图像场景;
所述主体分析模块103,用于对所述目标视频图像进行主体识别,得到图像主体,提取所述图像主体对应的主体特征,分析所述图像场景与所述主体特征之间的关联关系,结合所述关联关系,确定所述图像主体中的关键主体和非关键主体;
所述图像编码模块104,用于根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,得到关键主体图像和非关键主体图像,对所述关键主体图像进行编码处理,得到编码图像;
所述图像构建模块105,用于将所述非关键主体图像输入到训练好的AI大模型中,利用所述AI大模型中的卷积神经网络提取所述非关键主体图像对应的视觉特征,根据所述视觉特征,利用所述AI大模型中的自编码器构建所述非关键主体图像对应的虚拟图像,根据所述编码图像和所述虚拟图像,生成所述目标视频图像对应的最终编码图像。
详细地,本申请实施例中所述一种AI大模型的目标识别高精度高分辨率视频编码***100中所述的各模块在使用时采用与上述图1中所述的一种AI大模型的目标识别高精度高分辨率视频编码方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
在本发明所提供的几个实施例中,应该理解到,所提供的方法和***,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人工的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或***也可以由一个单元或***通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述方法包括:
获取待编码的高清视频流,对所述高清视频流进行视频分帧处理,得到分帧视频,识别所述分帧视频中的视频图像,对所述视频图像进行优化处理,得到优化视频图像;
对所述优化视频图像进行信号解析,得到图像信号,计算所述图像信号对应的信号幅度值,根据所述信号幅度值,对所述优化视频图像进行去重处理,得到目标视频图像,挖掘所述目标视频图像中每个图像对应的图像信息,根据所述图像信息,分析所述视频图像对应的图像场景;
对所述目标视频图像进行主体识别,得到图像主体,提取所述图像主体对应的主体特征,分析所述图像场景与所述主体特征之间的关联关系,结合所述关联关系,确定所述图像主体中的关键主体和非关键主体;
根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,得到关键主体图像和非关键主体图像,对所述关键主体图像进行编码处理,得到编码图像;
将所述非关键主体图像输入到训练好的AI大模型中,利用所述AI大模型中的卷积神经网络提取所述非关键主体图像对应的视觉特征,根据所述视觉特征,利用所述AI大模型中的自编码器构建所述非关键主体图像对应的虚拟图像,根据所述编码图像和所述虚拟图像,生成所述目标视频图像对应的最终编码图像。
2.如权利要求1所述的一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述对所述视频图像进行优化处理,得到优化视频图像,包括:
对所述视频图像进行降噪处理,得到降噪视频图像;
对所述去噪视频图像进行失真修复处理,得到修复视频图像;
对所述修复视频图像进行畸变校正处理,得到校正视频图像;
计算所述校正视频图像的像素点对应的像素强度值,对所述像素强度值进行均衡处理,得到均衡像素;
根据所述均衡像素,对所述校正视频图像进行像素优化处理,得到优化视频图像。
3.如权利要求2所述的一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述对所述视频图像进行降噪处理,得到降噪视频图像,包括:
通过下述公式对所述视频图像进行降噪处理:
其中,A表示降噪视频图像,a和b分别表示的是卷积窗口对应的长和宽,Ba,b表示对视频图像中的像素点进行降噪处理的卷积窗口,D(x,y)表示视频图像。
4.如权利要求1所述的一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述计算所述图像信号对应的信号幅度值,包括:
通过下述公式计算所述图像信号对应的信号幅度值:
其中,E表示图像信号对应的信号幅度值,F表示图像信号对应的长度值,βd表示图像信号中第d个信号采样点对应的时域能量,d表示图像信号的信号其实采样点,t表示图像信号的信号采样点数量,f(d)表示图像信号第d个信号采样点对应的频域能量,α表示图像信号对应的频域转换系数。
5.如权利要求1所述的一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述根据所述图像信息,分析所述视频图像对应的图像场景,包括:
提取所述图像信息对应的信息描述字符;
对所述信息描述字符进行语义解析,得到字符释义;
根据所述字符释义,确定所述图像信息对应的信息场景;
统计所述信息场景对应的场景频次,根据所述场景频次,确定所述图像信息的目标场景。
6.如权利要求1所述的一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述提取所述图像主体对应的主体特征,包括:
识别所述图像主体对应的主体纹理,计算所述主体纹理中每个像素点对应的像素灰度值;
根据所述像素灰度值,构建所述主体纹理对应的纹理矩阵,计算所述纹理矩阵对应的矩阵均值;
根据预设阈值和所述矩阵均值,提取所述主体纹理对应的纹理特征;
提取所述图像主体对应的颜色特征,将所述纹理特征和所述颜色特征作为所述图像主体的主体特征。
7.如权利要求6所述的一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述提取所述图像主体对应的颜色特征,包括:
通过下述公式提取所述图像主体对应的颜色特征:
其中,Q表示图像主体对应的颜色特征,LN表示归一化算法,We表示图像主体中第e个主体对应的像素均值,e表示图像主体的主体序列号,ω表示图像主体的主体数量,Rei表示第e个主体中第i个像素点对应的像素值,i表示图像主体的像素点序列号,Ve表示图像主体中第e个主体对应的像素方差,Ue表示图像主体中第e个主体对应的像素偏度系数。
8.如权利要求1所述的一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述分析所述图像场景与所述主体特征之间的关联关系,包括:
分析所述主体特征中的特征元素,并分析所述图像场景对应的视觉元素;
计算所述视觉元素和所述特征元素之间的关联系数;
分别对所述特征元素和所述视觉元素进行向量化处理,得到特征元素向量和视觉元素向量;
计算所述特征元素向量和所述视觉元素向量之间的向量相似度;
结合所述向量相似度和所述关联系数,分析所述图像场景与所述主体特征之间的关联关系。
9.如权利要求8所述的一种AI大模型的目标识别高精度高分辨率视频编码方法,其特征在于,所述计算所述特征元素向量和所述视觉元素向量之间的向量相似度,包括:
通过下述公式计算所述特征元素向量和所述视觉元素向量之间的向量相似度:
其中,N表示特征元素向量和视觉元素向量之间的向量相似度,j和j+1分别表示特征元素向量和视觉元素的序列号,μ表示特征元素向量的向量总数,Mj表示特征元素向量中第j个向量的向量值,Gj+1表示视觉元素向量中第j+1个向量的向量值。
10.一种AI大模型的目标识别高精度高分辨率视频编码***,所述***基于权利要求1-9任一项所述的方法,其特征在于,所述***包括:
图像优化模块,用于获取待编码的高清视频流,对所述高清视频流进行视频分帧处理,得到分帧视频,识别所述分帧视频中的视频图像,对所述视频图像进行优化处理,得到优化视频图像;
场景分析模块,用于对所述优化视频图像进行信号解析,得到图像信号,计算所述图像信号对应的信号幅度值,根据所述信号幅度值,对所述优化视频图像进行去重处理,得到目标视频图像,挖掘所述目标视频图像中每个图像对应的图像信息,根据所述图像信息,分析所述视频图像对应的图像场景;
主体分析模块,用于对所述目标视频图像进行主体识别,得到图像主体,提取所述图像主体对应的主体特征,分析所述图像场景与所述主体特征之间的关联关系,结合所述关联关系,确定所述图像主体中的关键主体和非关键主体;
图像编码模块,用于根据所述关键主体和所述非关键主体,对所述目标视频图像进行图像分割,得到关键主体图像和非关键主体图像,对所述关键主体图像进行编码处理,得到编码图像;
图像构建模块,用于将所述非关键主体图像输入到训练好的AI大模型中,利用所述AI大模型中的卷积神经网络提取所述非关键主体图像对应的视觉特征,根据所述视觉特征,利用所述AI大模型中的自编码器构建所述非关键主体图像对应的虚拟图像,根据所述编码图像和所述虚拟图像,生成所述目标视频图像对应的最终编码图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311716249.8A CN117915096A (zh) | 2023-12-14 | 2023-12-14 | Ai大模型的目标识别高精度高分辨率视频编码方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311716249.8A CN117915096A (zh) | 2023-12-14 | 2023-12-14 | Ai大模型的目标识别高精度高分辨率视频编码方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117915096A true CN117915096A (zh) | 2024-04-19 |
Family
ID=90691429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311716249.8A Pending CN117915096A (zh) | 2023-12-14 | 2023-12-14 | Ai大模型的目标识别高精度高分辨率视频编码方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117915096A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310343A (zh) * | 2019-05-28 | 2019-10-08 | 西安万像电子科技有限公司 | 图像处理方法及装置 |
CN111031032A (zh) * | 2019-12-12 | 2020-04-17 | 深圳市万佳安物联科技股份有限公司 | 云端视频转码方法及装置、解码方法及装置、及电子设备 |
WO2021164176A1 (zh) * | 2020-02-20 | 2021-08-26 | 北京大学 | 基于深度学习的端到端视频压缩方法、***及存储介质 |
CN114554220A (zh) * | 2022-01-13 | 2022-05-27 | 北京信息科技大学 | 一种基于抽象特征的固定场景视频超限压缩与解码方法 |
CN115690615A (zh) * | 2022-10-11 | 2023-02-03 | 杭州视图智航科技有限公司 | 一种面向视频流的深度学习目标识别方法及*** |
-
2023
- 2023-12-14 CN CN202311716249.8A patent/CN117915096A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310343A (zh) * | 2019-05-28 | 2019-10-08 | 西安万像电子科技有限公司 | 图像处理方法及装置 |
CN111031032A (zh) * | 2019-12-12 | 2020-04-17 | 深圳市万佳安物联科技股份有限公司 | 云端视频转码方法及装置、解码方法及装置、及电子设备 |
WO2021164176A1 (zh) * | 2020-02-20 | 2021-08-26 | 北京大学 | 基于深度学习的端到端视频压缩方法、***及存储介质 |
CN114554220A (zh) * | 2022-01-13 | 2022-05-27 | 北京信息科技大学 | 一种基于抽象特征的固定场景视频超限压缩与解码方法 |
CN115690615A (zh) * | 2022-10-11 | 2023-02-03 | 杭州视图智航科技有限公司 | 一种面向视频流的深度学习目标识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9282330B1 (en) | Method and apparatus for data compression using content-based features | |
Zhang et al. | Low-rank decomposition-based restoration of compressed images via adaptive noise estimation | |
CN103002289B (zh) | 面向监控应用的视频恒定质量编码装置及其编码方法 | |
Hadizadeh et al. | Video error concealment using a computation-efficient low saliency prior | |
CN110944200B (zh) | 一种评估沉浸式视频转码方案的方法 | |
CN114363623A (zh) | 图像处理方法、装置、介质及电子设备 | |
CN111626178B (zh) | 一种基于新时空特征流的压缩域视频动作识别方法和*** | |
CN115396669A (zh) | 一种基于兴趣区域增强的视频压缩方法及装置 | |
CN111754430A (zh) | 基于纯四元数字典学习的彩色图像去噪方法 | |
Zou et al. | A nonlocal low-rank regularization method for fractal image coding | |
Katakol et al. | Distributed learning and inference with compressed images | |
Kekre et al. | Image Reconstruction using Fast Inverse Half tone and Huffman Coding Technique | |
CN110136164B (zh) | 基于在线透射变换、低秩稀疏矩阵分解去除动态背景的方法 | |
CN117915096A (zh) | Ai大模型的目标识别高精度高分辨率视频编码方法及*** | |
US11928855B2 (en) | Method, device, and computer program product for video processing | |
Farah et al. | Full-reference and reduced-reference quality metrics based on SIFT | |
Xie et al. | Just noticeable visual redundancy forecasting: a deep multimodal-driven approach | |
US20230342986A1 (en) | Autoencoder-based segmentation mask generation in an alpha channel | |
CN114422795A (zh) | 一种面部视频编码方法、解码方法及装置 | |
CN114549302A (zh) | 一种图像超分辨率重建方法及*** | |
Zhang et al. | Reduced-reference image quality assessment based on entropy differences in DCT domain | |
CN117337449A (zh) | 点云质量增强方法、编码和解码方法及装置、存储介质 | |
WO2015128302A1 (en) | Method and apparatus for filtering and analyzing a noise in an image | |
CN110933402B (zh) | 基于运动纹理特征的无参考立体视频质量评价方法 | |
CN115510271B (zh) | 一种面向内容的动画视频无参考质量评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |