CN116468960A - 一种视频图像分析检索方法及*** - Google Patents

一种视频图像分析检索方法及*** Download PDF

Info

Publication number
CN116468960A
CN116468960A CN202310720303.XA CN202310720303A CN116468960A CN 116468960 A CN116468960 A CN 116468960A CN 202310720303 A CN202310720303 A CN 202310720303A CN 116468960 A CN116468960 A CN 116468960A
Authority
CN
China
Prior art keywords
image
api interface
similarity
knowledge graph
graph model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310720303.XA
Other languages
English (en)
Other versions
CN116468960B (zh
Inventor
李玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Duosheng Information Technology Co ltd
Original Assignee
Nanjing Duosheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Duosheng Information Technology Co ltd filed Critical Nanjing Duosheng Information Technology Co ltd
Priority to CN202310720303.XA priority Critical patent/CN116468960B/zh
Publication of CN116468960A publication Critical patent/CN116468960A/zh
Application granted granted Critical
Publication of CN116468960B publication Critical patent/CN116468960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频图像分析检索方法及***,方法包括:步骤1,建立图像类别‑API接口‑知识图谱之间的映射关系表;步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配。本发明实现了API接口集成化管理模式,通过建立反映图像类别‑API接口‑知识图谱之间的映射关系表的方式来进行图像分类分级式相似度计算,且方法是并行方式,提高了视频图像分析检索的效率,具有很好且广泛的计算机处理应用前景。

Description

一种视频图像分析检索方法及***
技术领域
本发明涉及图像处理领域,具体涉及一种视频图像分析检索方法及***。
背景技术
现如今,网络安全问题是社会重点关注的问题,网络中存在的各类视频及图像繁多,各类显示屏、服务器、计算机等设备都会进行实时或不定时的播放、放映,如何针对视频图像类的大数据进行有效的检索,是当前研究的热点问题。传统的图像检索方法多少通过相关技术提取图像特征,将图像特征直接进行相似度计算,与阈值进行比较来实现图像的筛选匹配。例如CN101639858A(公开日20100203)公开一种基于目标区域匹配的图像检索方法,包括下列步骤:a.选择一幅待检索图像,利用边缘检测算法对待检索图像进行自动分割;b.判断分割效果,若用户对自动分割的目标区域满意,则确定检索的目标区域;若用户对自动分割的目标区域不满意,则用户自行在未分割图像中选择感兴趣的目标区域作为检索对象;c.提取目标区域的特征值;d.将用户确定的目标区域作为模板,使用模板匹配方式在图像库中进行模板匹配和相似度计算,当相似度达到预设的阈值时,则将此被搜索图像作为命中目标;否则,继续进行模板匹配和相似度计算,直至图像被完全覆盖为止;e.当数据库中的图像按要求检索完毕,则按照相似度顺序显示检索结果。但是该类方法只能针对特定领域图像的检索,没有充分利用图像分类的优势,且方法无法实现一体化、集成化处理,导致针对不同类别图像进行检索的效率比较低。因此亟需一种能够实现集成化管理的视频图像分析检索方法。
发明内容
针对现有技术中的以上缺陷,本发明的目的在于提供一种视频图像分析检索方法及***,实现了API接口集成化管理模式,通过建立反映图像类别-API接口-知识图谱之间的映射关系表的方式来进行图像分类分级式相似度计算,且方法是并行方式,提高了视频图像分析检索的效率和准确度。
为实现上述发明目的,本发明采用如下技术方案:
第一方面,本发明提供一种视频图像分析检索方法,该方法包括:
步骤1,建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
步骤1.1,基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
步骤1.2,在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述步骤1.1,基于预设的图像集合进行图像分类器训练,具体包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块EACA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
进一步地,还包括:
知识图谱模型中用于图像相关特征相似度计算的方法包括:余弦距离、均值哈希算法、差值哈希算法、感知哈希算法、直方图距离、SSIM结构相似度算法、欧氏距离和汉明距离。
进一步地,在所述步骤2中,还包括:
将所述当前视频图像输入所述分类器得到对应的图像类别;
根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索。
进一步地,还包括:
所述图像类别具体分为城市、森林、山脉和沙漠;
所述API接口包括第一API接口、第二API接口、第三API接口和第四API接口;
所述知识图谱模型包括第一知识图谱模型、第二知识图谱模型、第三知识图谱模型和第四知识图谱模型;其中,所述第一知识图谱模型中进行图像匹配相似度计算的方法是余弦距离和均值哈希算法的融合算法;所述第二知识图谱模型中进行图像匹配相似度计算的方法是差值哈希算法和感知哈希算法的融合算法;所述第三知识图谱模型中进行图像匹配相似度计算的方法是直方图距离和SSIM结构相似度算法的融合算法;所述第四知识图谱模型中进行图像匹配相似度计算的方法是欧氏距离和汉明距离的融合算法;
所述映射关系表具体包括:反映城市-第一API接口-第一知识图谱模型关系的第一映射关系表、反映森林-第二API接口-第二知识图谱模型关系的第二映射关系表、反映山脉-第三API接口-第三知识图谱模型关系的第三映射关系表以及反映沙漠-第四API接口-第四知识图谱模型关系的第四映射关系表。
进一步地,还包括:所述根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索,具体包括:
若当前视频图像输入所述分类器得到的图像类别为城市类型,则根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为森林类型,则根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为山脉类型,则根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为沙漠类型,则根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索。
进一步地,还包括:所述根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用余弦距离和均值哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
进一步地,还包括:所述根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用差值哈希算法和感知哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
进一步地,还包括:所述根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用直方图距离和SSIM结构相似度算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
进一步地,还包括:所述根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用欧氏距离和汉明距离分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
第二方面,本发明还提供一种视频图像分析检索***,该***包括:
映射关系表建立模块,用于建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
映射模块,用于在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
图像匹配模块,用于确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练中,该图像分类器训练模块中的具体训练步骤包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块EACA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
有益效果:
1.本发明公开了一种视频图像分析检索方法及***,方法包括:步骤1,建立图像类别-API接口-知识图谱之间的映射关系表;步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配。本发明实现了API接口集成化管理模式,通过在API接口中集成知识图谱模型,创新性的通过建立反映图像类别-API接口-知识图谱之间的映射关系表的方式来进行图像分类分级式相似度计算,且方法是并行方式,提高了视频图像分析检索的效率,具有很好的计算机处理应用前景。
2.本发明图像分类器的训练过程中,通过非下采样小波变换NSWT、增量PCA、SwinTransformer层级网络各类技术的结合,使得图像提取的特征更具广泛性和代表性;进一步通过对AlexNet模型的训练得到图像分类器,使得图像分类的准确度和效果更佳,为后续的分析检索方法奠定了基础。
3. 本发明根据映射关系表调用图像类别对应的API接口,基于API接口中的对应知识图谱模型来进行图像相似度的计算匹配,且知识图谱模型中针对每类图像设定了不同的相似度融合计算算法,大大提高了视频图像分析检索的准确度。
附图说明
图1为视频图像检索分析方法的流程示意图。
图2为图像分类器训练方法的流程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
API接口作为集成式应用接口,通过黑匣子模式,相关计算机或设备只需要直接调用该API接口,就可以实现高效率的应用。
如图1-图2所示,本实施例提供一种视频图像分析检索方法,该方法包括:
步骤1,建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
步骤1.1,基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
步骤1.2,在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述步骤1.1,基于预设的图像集合进行图像分类器训练,具体包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块EACA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
具体地,对于给定的训练样本标签H和预测的分类标签h,通过如下公式来计算样本误差:
其中,T为样本标签的总个数;为可调节参数,i表示其中的某一个标签。
当所述样本误差满足在预设阈值范围内,则结束对AlexNet模型的训练。
在可选的实施方式中,还包括:
知识图谱模型中用于图像相关特征相似度计算的方法包括:余弦距离、均值哈希算法、差值哈希算法、感知哈希算法、直方图距离、SSIM结构相似度算法、欧氏距离和汉明距离。
在可选的实施方式中,在所述步骤2中,还包括:
将所述当前视频图像输入所述分类器得到对应的图像类别;
根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索。
具体地,根据计算的相似度从高到低进行匹配图像的排序,将排序靠前的图像作为检索结果。
在可选的实施方式中,还包括:
所述图像类别具体分为城市、森林、山脉和沙漠;
所述API接口包括第一API接口、第二API接口、第三API接口和第四API接口;
所述知识图谱模型包括第一知识图谱模型、第二知识图谱模型、第三知识图谱模型和第四知识图谱模型;其中,所述第一知识图谱模型中进行图像匹配相似度计算的方法是余弦距离和均值哈希算法的融合算法;所述第二知识图谱模型中进行图像匹配相似度计算的方法是差值哈希算法和感知哈希算法的融合算法;所述第三知识图谱模型中进行图像匹配相似度计算的方法是直方图距离和SSIM结构相似度算法的融合算法;所述第四知识图谱模型中进行图像匹配相似度计算的方法是欧氏距离和汉明距离的融合算法;
所述映射关系表具体包括:反映城市-第一API接口-第一知识图谱模型关系的第一映射关系表、反映森林-第二API接口-第二知识图谱模型关系的第二映射关系表、反映山脉-第三API接口-第三知识图谱模型关系的第三映射关系表以及反映沙漠-第四API接口-第四知识图谱模型关系的第四映射关系表。
具体地,图像类别可以分别根据城市、森林、山脉和沙漠类别逐级进行更详细的支链分类,针对最下位的每一类支链,均可以建立反映图像类别-API接口-知识图谱之间的映射关系表。
在可选的实施方式中,还包括:所述根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索,具体包括:
若当前视频图像输入所述分类器得到的图像类别为城市类型,则根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为森林类型,则根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为山脉类型,则根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为沙漠类型,则根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索。
在可选的实施方式中,还包括:所述根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用余弦距离和均值哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
在可选的实施方式中,还包括:所述根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用差值哈希算法和感知哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
在可选的实施方式中,还包括:所述根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用直方图距离和SSIM结构相似度算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
在可选的实施方式中,还包括:所述根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用欧氏距离和汉明距离分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
基于相同的发明构思,本实施例提供一种视频图像分析检索***,该***包括:
映射关系表建立模块,用于建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
映射模块,用于在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
图像匹配模块,用于确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练中,该图像分类器训练模块中的具体训练步骤包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块EACA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
本发明实现了API接口集成化管理模式,通过在API接口中集成知识图谱模型,创新性的通过建立反映图像类别-API接口-知识图谱之间的映射关系表的方式来进行图像分类分级式相似度计算,且方法是并行方式,提高了视频图像分析检索的效率,具有很好且广泛的计算机处理应用前景。

Claims (10)

1.一种视频图像分析检索方法,其特征在于,该方法包括:
步骤1,建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
步骤1.1,基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
步骤1.2,在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
步骤2,确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述步骤1.1,基于预设的图像集合进行图像分类器训练,具体包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块EACA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
2.根据权利要求1所述的一种视频图像分析检索方法,其特征在于,还包括:
知识图谱模型中用于图像相关特征相似度计算的方法包括:余弦距离、均值哈希算法、差值哈希算法、感知哈希算法、直方图距离、SSIM结构相似度算法、欧氏距离和汉明距离。
3.根据权利要求1所述的一种视频图像分析检索方法,其特征在于,在所述步骤2中,还包括:
将所述当前视频图像输入所述分类器得到对应的图像类别;
根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索。
4.根据权利要求3所述的一种视频图像分析检索方法,其特征在于,还包括:
所述图像类别具体分为城市、森林、山脉和沙漠;
所述API接口包括第一API接口、第二API接口、第三API接口和第四API接口;
所述知识图谱模型包括第一知识图谱模型、第二知识图谱模型、第三知识图谱模型和第四知识图谱模型;其中,所述第一知识图谱模型中进行图像匹配相似度计算的方法是余弦距离和均值哈希算法的融合算法;所述第二知识图谱模型中进行图像匹配相似度计算的方法是差值哈希算法和感知哈希算法的融合算法;所述第三知识图谱模型中进行图像匹配相似度计算的方法是直方图距离和SSIM结构相似度算法的融合算法;所述第四知识图谱模型中进行图像匹配相似度计算的方法是欧氏距离和汉明距离的融合算法;
所述映射关系表具体包括:反映城市-第一API接口-第一知识图谱模型关系的第一映射关系表、反映森林-第二API接口-第二知识图谱模型关系的第二映射关系表、反映山脉-第三API接口-第三知识图谱模型关系的第三映射关系表以及反映沙漠-第四API接口-第四知识图谱模型关系的第四映射关系表。
5.根据权利要求4所述的一种视频图像分析检索方法,其特征在于,还包括:所述根据所述映射关系表调用图像类别对应的API接口,基于所述API接口中的知识图谱模型来进行图像相似度的计算匹配,完成视频图像的分析检索,具体包括:
若当前视频图像输入所述分类器得到的图像类别为城市类型,则根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为森林类型,则根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为山脉类型,则根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索;
若当前视频图像输入所述分类器得到的图像类别为沙漠类型,则根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,完成视频图像的分析检索。
6.根据权利要求5所述的一种视频图像分析检索方法,其特征在于,所述根据第一映射关系表调用第一API接口中的第一知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用余弦距离和均值哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
7.根据权利要求5所述的一种视频图像分析检索方法,其特征在于,所述根据第二映射关系表调用第二API接口中的第二知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用差值哈希算法和感知哈希算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
8.根据权利要求5所述的一种视频图像分析检索方法,其特征在于,所述根据第三映射关系表调用第三API接口中的第三知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用直方图距离和SSIM结构相似度算法分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
9.根据权利要求5所述的一种视频图像分析检索方法,其特征在于,所述根据第四映射关系表调用第四API接口中的第四知识图谱模型进行图像相似度的融合计算匹配,具体包括:
利用欧氏距离和汉明距离分别进行图像特征相似度计算,并将加权求和之后的相似度作为最终的计算结果。
10.一种视频图像分析检索***,其特征在于,该***包括:
映射关系表建立模块,用于建立图像类别-API接口-知识图谱之间的映射关系表,具体包括:
图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练,针对每一类图像建立对应API接口;
映射模块,用于在每个API接口中集成了每一类图像对应的知识图谱模型,以建立反映图像类别-API接口-知识图谱之间关系的映射表;
图像匹配模块,用于确定当前视频图像的图像类别,根据所述映射关系表调用对应API接口,基于所述API接口中的知识图谱模型来进行图像匹配;
所述图像分类器训练模块,用于基于预设的图像集合进行图像分类器训练中,该图像分类器训练模块中的具体训练步骤包括:
通过对所述预设的图像集合进行消噪、归一化和增强的预处理操作,以增强图像质量;
采用非下采样小波变换NSWT对增强后的图像进行细化处理,得到图像的高频分量特征和低频分量特征,并选择将所述低频分量特征作为第一特征向量
采用增量PCA对增强后的图像进行特征提取,提取有效的图像分类特征,组成第二特征向量
采用Swin Transformer层级网络对增强后的图像进行由浅入深的级联特征提取,得到高分辨率的底层特征和低分辨率的高层特征,在Swin Transformer层级网络的末端通道上添加注意力模块EACA和FFM融合模块,实现将所述高分辨率的底层特征和所述低分辨率的高层特征进行多尺度融合,得到第三特征向量
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行特征融合,将融合后的特征作为AlexNet模型的输入,通过专家对图像类别进行标记,作为AlexNet模型的输出,建立图像分类的训练样本集;
根据所述训练样本集对所述AlexNet模型进行迭代训练学习,构建用于图像分类的分类器。
CN202310720303.XA 2023-06-19 2023-06-19 一种视频图像分析检索方法及*** Active CN116468960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310720303.XA CN116468960B (zh) 2023-06-19 2023-06-19 一种视频图像分析检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310720303.XA CN116468960B (zh) 2023-06-19 2023-06-19 一种视频图像分析检索方法及***

Publications (2)

Publication Number Publication Date
CN116468960A true CN116468960A (zh) 2023-07-21
CN116468960B CN116468960B (zh) 2023-08-25

Family

ID=87175752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310720303.XA Active CN116468960B (zh) 2023-06-19 2023-06-19 一种视频图像分析检索方法及***

Country Status (1)

Country Link
CN (1) CN116468960B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075546A1 (en) * 2012-08-16 2014-03-13 Tencent Technology (Shenzhen) Company Limited Method and device for controlling invocation of an application programming interface
CN111198959A (zh) * 2019-12-30 2020-05-26 郑州轻工业大学 一种基于卷积神经网络的两阶段图像检索方法
CN113190699A (zh) * 2021-05-14 2021-07-30 华中科技大学 一种基于类别级语义哈希的遥感图像检索方法及装置
CN113918753A (zh) * 2021-07-23 2022-01-11 腾讯科技(深圳)有限公司 基于人工智能的图像检索方法及相关设备
US20230054330A1 (en) * 2021-08-17 2023-02-23 Integral Ad Science, Inc. Methods, systems, and media for generating video classifications using multimodal video analysis
CN115827895A (zh) * 2022-12-12 2023-03-21 绿盟科技集团股份有限公司 一种漏洞知识图谱处理方法、装置、设备及介质
CN116129286A (zh) * 2023-02-10 2023-05-16 北京数慧时空信息技术有限公司 基于知识图谱的图神经网络遥感图像分类方法
CN116204673A (zh) * 2022-12-14 2023-06-02 宁波大学 一种关注图像块间关系的大规模图像检索哈希方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075546A1 (en) * 2012-08-16 2014-03-13 Tencent Technology (Shenzhen) Company Limited Method and device for controlling invocation of an application programming interface
CN111198959A (zh) * 2019-12-30 2020-05-26 郑州轻工业大学 一种基于卷积神经网络的两阶段图像检索方法
CN113190699A (zh) * 2021-05-14 2021-07-30 华中科技大学 一种基于类别级语义哈希的遥感图像检索方法及装置
CN113918753A (zh) * 2021-07-23 2022-01-11 腾讯科技(深圳)有限公司 基于人工智能的图像检索方法及相关设备
US20230054330A1 (en) * 2021-08-17 2023-02-23 Integral Ad Science, Inc. Methods, systems, and media for generating video classifications using multimodal video analysis
CN115827895A (zh) * 2022-12-12 2023-03-21 绿盟科技集团股份有限公司 一种漏洞知识图谱处理方法、装置、设备及介质
CN116204673A (zh) * 2022-12-14 2023-06-02 宁波大学 一种关注图像块间关系的大规模图像检索哈希方法
CN116129286A (zh) * 2023-02-10 2023-05-16 北京数慧时空信息技术有限公司 基于知识图谱的图神经网络遥感图像分类方法

Also Published As

Publication number Publication date
CN116468960B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
Dong et al. Tablesense: Spreadsheet table detection with convolutional neural networks
EP2701098B1 (en) Region refocusing for data-driven object localization
US9626585B2 (en) Composition modeling for photo retrieval through geometric image segmentation
Unar et al. Detected text‐based image retrieval approach for textual images
CN111651636A (zh) 视频相似片段搜索方法及装置
dos Santos Belo et al. Summarizing video sequence using a graph-based hierarchical approach
CN104038792B (zh) 用于iptv监管的视频内容分析方法及设备
CN109299305A (zh) 一种基于多特征融合的空间图像检索***及检索方法
CN110427517A (zh) 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN104850822A (zh) 基于多特征融合的简单背景下的叶片识别方法
Zhou et al. Modeling perspective effects in photographic composition
Mallick et al. Video retrieval using salient foreground region of motion vector based extracted keyframes and spatial pyramid matching
Li et al. Low-rank weighted co-saliency detection via efficient manifold ranking
CN116468960B (zh) 一种视频图像分析检索方法及***
Moumtzidou et al. Discovery of environmental resources based on heatmap recognition
Kong SIFT Feature‐Based Video Camera Boundary Detection Algorithm
Memon et al. Region based localized matching image retrieval system using color-size features for image retrieval
Mao et al. An image authentication technology based on depth residual network
Misra et al. Text extraction and recognition from image using neural network
Qi et al. Graph-Boolean map for salient object detection
Chen et al. Boosting image object retrieval and indexing by automatically discovered pseudo-objects
Lu et al. Complementary pseudolabel based on global-and-channel information for unsupervised person reidentification
Yuan et al. Traffic sign recognition based on a context-aware scale-invariant feature transform approach
CN116343104B (zh) 视觉特征与向量语义空间耦合的地图场景识别方法及***
Ge et al. Robust visual object clustering and its application to sightseeing spot assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant