CN116304163B - 一种图像检索方法、装置、计算机设备及介质 - Google Patents

一种图像检索方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN116304163B
CN116304163B CN202310529432.0A CN202310529432A CN116304163B CN 116304163 B CN116304163 B CN 116304163B CN 202310529432 A CN202310529432 A CN 202310529432A CN 116304163 B CN116304163 B CN 116304163B
Authority
CN
China
Prior art keywords
image
images
sub
frame
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310529432.0A
Other languages
English (en)
Other versions
CN116304163A (zh
Inventor
黄婷婷
杨金祥
何理达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Rabbit Exhibition Intelligent Technology Co ltd
Original Assignee
Shenzhen Rabbit Exhibition Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Rabbit Exhibition Intelligent Technology Co ltd filed Critical Shenzhen Rabbit Exhibition Intelligent Technology Co ltd
Priority to CN202310529432.0A priority Critical patent/CN116304163B/zh
Publication of CN116304163A publication Critical patent/CN116304163A/zh
Application granted granted Critical
Publication of CN116304163B publication Critical patent/CN116304163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种图像检索方法、装置、计算机设备及介质,其中方法包括:确定用户输入的待检索图像为动态图像时,将待检索图像输入至目标识别模型进行动态特效识别得到动态特效类别;对待检索图像进行图像特征提取得到图像特征;基于历史动态图像的标准特征、该图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备;本发明在进行图像检索时,不仅对待检索图像的图像特征进行特征提取,还会进一步提取待检索图像的动态特效类别,能够从多维度挖掘到准确的原始图像信息,从而提高了图像检索的准确性。

Description

一种图像检索方法、装置、计算机设备及介质
技术领域
本发明涉及图像检索技术领域,尤其是一种图像检索方法、装置、计算机设备及介质。
背景技术
伴随着互联网与移动终端的飞速发展,互联网上的数量快速增长,如何从海量的图片数据中筛选出想要的图片,成为人们日常生活常遇到的问题。以图搜图,是根据用户提供的指定图像检索得到目标图像的功能;这一功能不需要用户自行整理关键词、分析检索方式,可以直接根据图片快速检索到对应图像,降低用户在检索图像过程中所需要耗费的时间。
现有的以图搜图技术中,一般是计算用户指定图像与数据库中各个历史动态图像的特征相似度,从而检索得到用户需要的目标图像。但这类方式准确性不足,容易忽略用户指定图像的重要信息,导致图像检索结果不准确。
发明内容
本发明提供一种图像检索方法、装置、计算机设备及介质,以解决现有图像检索方法容易忽略用户指定图像的重要信息,导致图像检索结果不准确的问题。
提供了一种图像检索方法,包括:
获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像;
若待检索图像为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别,目标识别模型为基于多个历史动态图像的动态特效标签进行深度学习得到的神经网络模型;
对待检索图像进行图像特征提取,得到待检索图像的图像特征;
获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征,并基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;
基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备。
可选地,标准特征为对历史动态图像的标准动态特效特征和标准图像特征融合得到的标准融合特征,基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值,包括:
根据动态特效类别确定待检索图像的动态特效特征;
将待检索图像的图像特征和动态特效特征进行融合,得到待检索图像的融合特征;
对待检索图像的融合特征与每一历史动态图像的标准融合特征进行相似度计算,得到每一历史动态图像对应的相似度值;
按照相似度值对多个历史动态图像进行降序排序,得到待检索图像的检索数据。
可选地,标准特征为历史动态图像的标准图像特征,每一历史动态图像对应有一个动态特效标签,基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值,包括:
将动态特效类别与每一历史动态图像的动态特效标签进行匹配,并将匹配成功的历史动态图像记为待确认图像;
对待检索图像的图像特征与每一待确认图像的图像特征进行相似度计算,得到每一待确认图像对应的相似度值;
将相似度值大于第一预设值的待确认图像,记为待检索图像的检索数据。
可选地,对待检索图像进行图像特征提取,得到待检索图像的图像特征,包括:
对待检索图像进行分帧处理,得到待检索图像的多帧子图像,并对每帧子图像进行元素检测,得到每帧子图像的组成元素数据;
对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的图像特征;
按照各子图像的动态展示顺序对每帧子图像的图像特征进行拼接,得到待检索图像的图像特征。
可选地,对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的图像特征,包括:
对每帧子图像的组成元素数据进行图像特征提取,得到每帧子图像的完整图像特征;
对每帧子图像进行去色处理得到每帧子图像的去色图像,并对每帧子图像的去色图像进行特征提取,得到每帧子图像的基础图像特征;
计算每帧子图像的基础图像特征与对应完整图像特征的相似度,得到每帧子图像的相似度矩阵;
对每帧子图像的相似度矩阵进行权重激活,得到每帧子图像的权重数据;
基于每帧子图像的权重数据对对应子图像的完整图像特征进行特征增强,得到每帧子图像的图像特征。
可选地,组成元素数据包括文本数据、图案数据和符号数据,对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的完整图像特征,包括:
对每帧子图像的文本数据进行文本特征提取,得到每帧子图像的文本特征;
对每帧子图像的图案数据进行特征提取,得到每帧子图像的图案特征;
对每帧子图像的符号数据进行符号特征提取,得到每帧子图像的符号特征;
融合文本特征、图案特征和符号特征,得到每帧子图像的完整图像特征。
可选地,将待检索图像输入至目标识别模型进行动态特效识别之前,该方法还包括:
确定待检索图像中是否包含预先埋点的动态特效数据;
若待检索图像中未包含预先埋点的动态特效数据,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别。
可选地,确定待检索图像中是否包含预先埋点的动态特效数据之后,该方法还包括:
若待检索图像中包含预先埋点的动态特效数据,则对动态特效数据进行解析,得到待检索图像的动态特效类别,动态特效标签包括动画拼贴、动态排版、故障艺术、等距形状、肌理效果、变形过渡和液体运动。
提供一种图像检索装置,包括:
第一确定模块,用于获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像;
特效识别模块,用于若待检索图像为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别,目标识别模型为基于多个历史动态图像的动态特效标签进行深度学习得到的神经网络模型;
特征提取模块,用于对待检索图像进行图像特征提取,得到待检索图像的图像特征;
第二确定模块,用于获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征,并基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;
第三确定模块,用于基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备。
提供一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述图像检索方法的步骤。
提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述图像检索方法的步骤。
上述图像检索方法、装置、计算机设备及介质所提供的一个技术方案中,通过获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像;若为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别,目标识别模型为基于多个历史动态图像的动态特效标签进行深度学习得到的神经网络模型;对待检索图像进行图像特征提取,得到待检索图像的图像特征;获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征,并基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备;本发明在进行图像检索时,不仅对待检索图像的图像特征进行特征提取,还会进一步提取待检索图像的动态特效类别,然后基于待检索图像的图像特征和动态特效类别对历史动态图像进行检索,能够从多维度挖掘到准确的原始图像信息,从而提高了图像检索的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中图像检索方法的一应用环境示意图;
图2是本发明一实施例中图像检索方法的一流程示意图;
图3是本发明一实施例中图像检索方法的另一流程示意图;
图4是图2中步骤S30的一实现流程示意图;
图5是图2中步骤S40的一实现流程示意图;
图6是本发明一实施例中图像检索装置的一结构示意图;
图7是本发明一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的图像检索方法,可应用在如图1的应用场景中。终端设备通过网络与服务器进行通信。当用户需要进行图像检索时,通过终端设备输入待检索图像,然后服务器获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像;若待检索图像为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别,目标识别模型为基于多个历史动态图像,以及各历史动态图像的动态特效标签进行深度学习得到的神经网络模型;对待检索图像进行图像特征提取,得到待检索图像的图像特征;获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征,并基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备。本实施例中,在进行图像检索时,不仅对待检索图像的图像特征进行特征提取,还会进一步提取待检索图像的动态特效类别,然后基于待检索图像的图像特征和动态特效类别对历史动态图像进行检索,有效考虑到了检索信息的准确性,能够从多维度挖掘到准确的原始图像信息,有效得到用户指向动态特效的图像,从而提高了图像检索的准确性,尤其能够满足用户对图像的动态特效要求,提高用户体验。此外,本实施例中通过动态特效类别对历史动态图像进行筛选,减少了检索动态图像时的数量处理量。
其中,终端设备装置可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑等设备;服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种图像检索方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像。
当用户在进行数字化产品设计、编辑时,用户可能需要通过终端设备进行图像检索。例如,当用户在编辑平台,编辑H5、海报和活动页面时,需要新增或替换某一图片,此时用户已有的图像质量不高,或者已有图像不够满意,则需要以该已有图像为输入图像,检索该已有图像的高质量原始图像,或者与该已有图像相似的图像,此时可以利用该编辑平台上已有的检索引擎进行图像检索。用户通过终端设备将待检索图像输入检索引擎,终端设备将用户输入的待检索图像发送至编辑平台的服务器。
然后,服务器获取用户通过终端设备发送的待检索图像,需要对待检索图像进行数据分析,以确定待检索图像是否为动态图像。其中,编辑平台的数据库存储有多个历史图像,该多个历史图像包括多个动态图像和多个静态图像。
在确定待检索图像是否为动态图像之后,若分析确定待检索图像为静态图像,则可使用常规的图像检索技术,即先对待检索图像进行图像特征提取,得到待检索图像的图像特征,然后基于该待检索图像的图像特征,对数据库中每一历史静态图像的图像特征进行相似度计算,得到该待检索图像与每一历史静态图像的相似度,选取相似度满足要求的历史静态图像作为待检索图像的检索数据,发送至终端设备。
S20:若待检索图像为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别。
在确定待检索图像是否为动态图像之后,若分析确定待检索图像为动态图像,则服务器需要获取预先训练得到的目标识别模型,然后将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别。
其中,目标识别模型为基于多个历史动态图像,以及各历史动态图像的动态特效标签进行深度学习得到的神经网络模型。该目标识别模型通过如下方式获取:
获取多个包含动态特效的历史图像,即获取多个历史动态图像,然后对每一个历史动态图像进行动态特效识别,得到每一历史动态图像的动态特效标签(即动态特效类别),然后采用包含初始参数的分类模型对其中一个历史动态图像进行动态特效识别处理,得到该历史动态图像的动态特效识别结果;基于动态特效识别结果和该历史动态图像的动态特效标签计算总损失值,以根据总损失值判断分类模型是否满足收敛条件;当总损失值大于预设损失值时,确定该分类模型未达到收敛条件,则继续基于其他历史动态图像对分类模型的参数进行迭代更新,直至总损失值小于或等于预设损失值时,或者,模型迭代次数为预设次数(如1000次)时,则确定分类模型达到收敛条件,此时将收敛的分割模型输出为目标识别模型。动态特效标签包括动画拼贴、动态排版、故障艺术、等距形状、肌理效果、变形过渡和液体运动。
本实施例中,通过使用多个历史动态图像作为训练样本,能够训练得到准确性较高的目标识别模型,进而使用目标识别模型对待搜索图像进行动态特效识别处理,能够准确地识别出该待检索图像的动态特效类别,为后续的相似度计算和图像检索提供了准确的数据基础。
S30: 对待检索图像进行图像特征提取,得到待检索图像的图像特征。
然后,服务器还需要对待检索图像进行图像特征提取,得到待检索图像的图像特征。其中,可以先对待检索图像进行组成元素检测,得到该待检索图像的组成元素数据,然后对组成元素数据进行特征提取,最后得到待检索图像的图像特征。通过对待检索图像的组成元素进行识别,进而基于组成元素数据提取得到图像特征,提供了图像特征的准确性。
例如,当确定待检索图像为动态图像时,表示该待检索图像存在多帧图像,则在识别得到待检索图像的动态特效类别之后,需要对待检索图像进行分帧处理,得到待检索图像的多帧子图像,然后对每帧子图像进行图像特征提取,得到每帧子图像的图像特征,再对每帧子图像的图像特征进行拼接,得到待检索图像的图像特征。当确定待检索图像不为动态图像,即为静态图像时,表示该待检索图像不存在多帧图像,也无需进行动态特效识别,因此可以直接对该待检索图像进行图像特征提取,得到该待检索图像的图像特征。本实施例中,该待检索图像的图像特征也包括各组成元素的元素特征、颜色特征和/或位置特征等特征信息,通过增加特效信息的多样化,提高图像特征的准确性,为后续计算提供了准确的数据基础。在其他实施例中,还可以直接使用特征提取模型对待检索图像的图案特征和颜色特征进行提取,然后将图案特征和颜色特征融合得到待检索图像的图像特征,简单高效。
S40:基于每一历史动态图像的标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值。
在对待检索图像进行图像特征提取,得到待检索图像的图像特征之后,服务器还需要获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征。然后,服务器会基于每一历史动态图像的标准特征、待检索图像的图像特征和动态特效类别,计算待检索图像与每一历史动态图像的相似度,即得到多个相似度值。
其中,标准特征为对历史动态图像进行图像特征提取得到的标准图像特征,每一历史动态图像对应有一个动态特效标签。在步骤S40中,即基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值,具体包括:将动态特效类别与每一历史动态图像的动态特效标签进行匹配,并将匹配成功的历史动态图像记为待确认图像;对待检索图像的图像特征与每一待确认图像的图像特征进行相似度计算,得到每一待确认图像对应的相似度值。
S50:基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备。
在确定待检索图像与每一历史动态图像的相似度,得到多个相似度值之后,基于该多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备,以便用户及时浏览到该待检索图像的检索数据,并选取满意的图像。本实施例中通过动态特效类别对历史动态图像进行筛选,减少了检索动态图像时的数量处理量。
本实施例中,可以是按照对应相似度值的大小,将多个历史动态图像进行降序排序,从而得到待检索图像的检索数据,进而发送至终端设备以推送给用户,使得用户能够及时看到相似度最大的历史动态图像,提高用户体验。此外,也可以将相似度值大于预设值的待确认图像,记为待检索图像的检索数据,进而发送至终端设备以推送给用户,在保证推荐数据满足准确性的基础上,减少数据传输量,从而进一步提高检索数据反馈的速度,提高用户体验。
本实施例中,当用户需要进行图像检索时,通过终端设备输入待检索图像,然后服务器获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像;若待检索图像为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别,目标识别模型为基于多个历史动态图像,以及各历史动态图像的动态特效标签进行深度学习得到的神经网络模型;对待检索图像进行图像特征提取,得到待检索图像的图像特征;获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征,并基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备。本实施例中,在进行图像检索时,不仅对待检索图像的图像特征进行特征提取,还会进一步提取待检索图像的动态特效类别,然后基于待检索图像的图像特征和动态特效类别对历史动态图像进行检索,有效考虑到了检索信息的准确性,能够从多维度挖掘到准确的原始图像信息,有效得到用户指向动态特效的图像,从而提高了图像检索的准确性,尤其能够满足用户对图像的动态特效要求,提高用户体验。
在一实施例中,如图3所示,步骤S20之前,即将待检索图像输入至目标识别模型进行动态特效识别之前,该方法还具体包括如下步骤:
S01:确定待检索图像中是否包含预先埋点的动态特效数据。
在确定待检索图像为动态图像之后,可以先确定待检索图像中是否包含预先埋点的动态特效数据,根据判断结果确定是否需要采用目标识别模型对其进行动态特效识别,而不是直接将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别之前。
其中,动态特效数据为预先埋点在该待检索图像中,用于指示该图像的动态特效类别的标志数据。在本编辑平台将多个历史图像存储至数据库之前,需要对该历史图像进行动态图像进行识别,若该历史图像为静态图像,则将该历史图像的图像类型标记为静态图像,并存储至数据库中;若该历史图像为动态图像,则需进一步识别该历史图像的动态特效类别,然后将该动态特效类别所对应的动态特效标记(动态特效数据)埋点至该历史图像中,最后将埋点后的该历史图像的图像类型标记为动态图像,并存储至数据库中。不同的动态特效类别对应有不同的动态特效标记,以便后续可以通过快速读取待检索图像中预先埋点的动态特效数据进行动态特效类别确定;此外,埋点数据仅是简单的标记,可以减少埋点的数据量。在其他实施例中,还可以直接将具体的动态特效类别作为动态特效数据埋点至历史图像中,后续可以直接读取得到动态特效类别,简单直观。
例如,动态特效类别包括动画拼贴、动态排版、故障艺术、等距形状、肌理效果、变形过渡和液体运动等类别,则其对应的标记可以用T1、T2、T3、T4、T5、T6、T7。本实施例中,动态特效类别包括动画拼贴、动态排版、故障艺术、等距形状、肌理效果、变形过渡和液体运动仅为示例性说明,其对应的标记也可以是其他简单标记,在此不再赘述。
S02:若待检索图像中未包含预先埋点的动态特效数据,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别。
在确定待检索图像中是否包含预先埋点的动态特效数据之后,若待检索图像中未包含预先埋点的动态特效数据,表示该待检索图像可能不是编辑平台服务器中存储的图像,无法通过待检索图像不包含预先埋点的、用于指示该图像的动态特效类别的标志数据进行动态特效类别确定,则执行步骤S2,需要将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别。
在待检索图像输入至目标识别模型进行动态特效识别之前,先确定待检索图像中是否包含预先埋点的动态特效数据,在确定待检索图像中未包含预先埋点的动态特效数据之后,才将待检索图像输入至目标识别模型进行动态特效识别,减少了服务器使用大数据量的目标识别模型所需的计算量,降低了服务器负载。
S03:若待检索图像中包含预先埋点的动态特效数据,则对动态特效数据进行解析,得到待检索图像的动态特效类别。
在确定待检索图像中是否包含预先埋点的动态特效数据之后,若待检索图像中包含预先埋点的动态特效数据,表示该待检索图像可能是编辑平台服务器中存储的图像,可以通过其上预先埋点的、用于指示该图像的动态特效类别的标志数据确定其动态特效类别,此时,则可以直接对动态特效数据进行解析,得到待检索图像的动态特效类别。通过为数据库中的历史图像进行埋点,在用户输入的待检索图像为编辑平台存储的图像时,仅需对待检索图像中预先埋点的动态特效数据进行解析,即可快速得到待检索图像的动态特效类别,无效使用目标识别模型,减少了服务器调用目标识别模型的计算量,降低了服务器负载,也提高了检索响应速度。
例如,动态特效类别包括动画拼贴、动态排版、故障艺术、等距形状、肌理效果、变形过渡和液体运动,其对应的标记可以用T1、T2、T3、T4、T5、T6、T7。在若待检索图像中包含预先埋点的动态特效数据为T5,则对动态特效数据进行解析,得到待检索图像的动态特效类别为肌理效果。
本实施例中,在确定待检索图像为动态图像之后,需要先确定待检索图像中是否包含预先埋点的动态特效数据,若待检索图像中未包含预先埋点的动态特效数据,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别;若待检索图像中包含预先埋点的动态特效数据,则对动态特效数据进行解析,得到待检索图像的动态特效类别,通过为数据库中的历史图像进行埋点,在用户输入的待检索图像为编辑平台存储的图像时,仅需对待检索图像中预先埋点的动态特效数据进行解析,即可快速得到待检索图像的动态特效类别,无效使用目标识别模型,减少了服务器调用目标识别模型的计算量,降低了服务器负载,也提高了检索响应速度。
在一实施例中,如图4所示,步骤S40中,即对待检索图像进行图像特征提取,得到待检索图像的图像特征,具体包括如下步骤:
S31:对待检索图像进行分帧处理,得到待检索图像的多帧子图像,并对每帧子图像进行元素检测,得到每帧子图像的组成元素数据;
S32:对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的图像特征;
S33:按各子图像的动态展示顺序对每帧子图像的图像特征进行拼接,得到待检索图像的图像特征。
在识别得到待检索图像的动态特效类别之后,需要对待检索图像进行分帧处理,得到待检索图像的多帧子图像,然后对每帧子图像进行元素检测,得到每帧子图像的组成元素数据。再对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的图像特征,再按照各子图像的动态展示顺序对每帧子图像的图像特征进行拼接,得到待检索图像的图像特征。按照动态展示顺序对每帧子图像的图像特征进行拼接得到待检索图像的图像特征,进一步确保的图像特征准确性。
其中,组成元素数据包括各组成元素、组成元素的位置及其元素等信息,组成元素包括图形、图案、符号等元素。对应地,该待检索图像的图像特征也包括各组成元素的元素特征、颜色特征和位置特征等。对组成元素及其颜色、位置进行识别,能够提高组成元素数据的准确性,进而提高图像特征的准确性,为后续计算提供了准确的数据基础。
本实施例中,通过对待检索图像进行分帧处理,得到待检索图像的多帧子图像,并对每帧子图像进行元素检测,得到每帧子图像的组成元素数据,然后对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的图像特征,再按照各子图像的动态展示顺序对每帧子图像的图像特征进行拼接,得到待检索图像的图像特征。该过程细化了对待检索图像进行图像特征提取,得到待检索图像的图像特征的具体步骤,对每帧图像的组成元素及其颜色、位置进行识别,能够提高组成元素数据的准确性,进而提高图像特征的准确性,为后续计算提供了准确的数据基础。
在一实施例中,步骤S32中,即对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的图像特征,具体包括如下步骤:
S321:对每帧子图像的组成元素数据进行图像特征提取,得到每帧子图像的完整图像特征。
在对每帧子图像进行元素检测,得到每帧子图像的组成元素数据之后,服务器先对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的完整图像特征。该完整图像特征包括每帧子图像中各组成元素,以及各组成元素的位置和颜色等信息。
S322:对每帧子图像进行去色处理得到每帧子图像的去色图像,并对每帧子图像的去色图像进行特征提取,得到每帧子图像的基础图像特征。
同时,服务器还会对每帧子图像进行去色处理,即去掉每帧子图像中的颜色进行清除处理,得到每帧子图像的灰度图像,即每帧子图像的去色图像。然后,还需要对每帧子图像的去色图像进行特征提取,得到每帧子图像的基础图像特征,其中,其基础图像特征的提取过程参照前文所述,区别在于该基础图像特征不包括组成元素的颜色信息。
S323:计算每帧子图像的基础图像特征与对应完整图像特征的相似度,得到每帧子图像的相似度矩阵。
在得到每帧子图像的完整图像特征和基础图像特征之后,需要计算每帧子图像的基础图像特征与对应完整图像特征的相似度,得到每帧子图像的相似度矩阵。例如,采用协方差算法计算每帧子图像的基础图像特征与对应完整图像特征的相似度,将得到的协方差矩阵作为每帧子图像的相似度矩阵;通过协方差算法,可以计算两组特征中两两子特征(即两两像素点)之间的相似度,提高了相似度矩阵的准确性。
S324:对每帧子图像的相似度矩阵进行权重激活,得到每帧子图像的权重数据;
在得到每帧子图像的相似度矩阵之后,需要采用预设激活函数对每帧子图像的相似度矩阵进行权重激活,得到每帧子图像的权重数据。即采用预设激活函数对每帧子图像中的每个子特征进行激活,得到每帧子图像中每一子特征的权重值,从而汇总得到每帧子图像的权重数据。
其中,该预设激活函数可以是非线性函数,优选sigmoid函数,采用sigmoid函数进行权重计算,可以将输入挤压进0到1区间,与概率的取值范围一致,且可以加快计算速度。
S325:基于每帧子图像的权重数据对对应子图像的完整图像特征进行特征增强,得到每帧子图像的图像特征。
在得到每帧子图像的权重数据之后,基于每帧子图像的权重数据对对应子图像的完整图像特征进行特征增强,得到每帧子图像的图像特征。即,将每帧子图像的权重数据中每一子特征的权重值赋予至对应子图像的完整图像特征中的各个子特征(像素点)上,实现完整图像特征的全局自适应增强,从而得到每帧子图像增强后的图像特征。
本实施例中,通过对每帧子图像的组成元素数据进行图像特征提取,得到每帧子图像的完整图像特征;对每帧子图像进行去色处理得到每帧子图像的去色图像,并对每帧子图像的去色图像进行特征提取,得到每帧子图像的基础图像特征;然后计算每帧子图像的基础图像特征与对应完整图像特征的相似度,得到每帧子图像的相似度矩阵,再对每帧子图像的相似度矩阵进行权重激活,得到每帧子图像的权重数据,最后基于每帧子图像的权重数据对对应子图像的完整图像特征进行特征增强,得到每帧子图像的图像特征。明确了对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的图像特征的具体过程,将每帧子图像的基础图像特征作为对应完整图像特征的辅助,将两组特征的相似度关系转换为权重值,并赋予至完整图像特征的各个特征点,实现对完整图像特征的全局自适应权重激活,为各个特征点进行特征增强,提升了图像特征对图像信息表达能力。
在一实施例中,在计算每帧子图像的基础图像特征与对应完整图像特征的相似度的过程中,需要对基础图像特征以及对应完整图像特征进行压缩处理,减少了网络参数量,从而便于计算而提高数据处理效率。具体地,计算每帧子图像的基础图像特征与对应完整图像特征的相似度,得到每帧子图像的相似度矩阵,包括如下步骤:
S301:对每帧子图像的完整图像特征进行矩阵维度转换,并对矩阵维度转换后的每帧子图像的完整图像特征进行非线性激活,得到第一特征。
在得到每帧子图像的完整图像特征和基础图像特征之后,服务器先对每帧子图像的完整图像特征进行矩阵维度转换,并对矩阵维度转换后的每帧子图像的完整图像特征进行非线性激活,得到第一特征。其中,可以采用非线性激活函数对矩阵维度转换后的每帧子图像的完整图像特征进行非线性激活,例如非线性激活函数softmax、 softplus、sigmoid、tanh、ReLU等。采用非线性激活函数对矩阵维度转换后的每帧子图像的完整图像特征进行非线性激活,可以增强特征表达能力。
其中,在对每帧子图像的完整图像特征进行矩阵维度转换之前,可以先采用维度压缩参数对每帧子图像的完整图像特征进行压缩处理,可以减少后续的处理量,然后再对每帧子图像的完整图像特征进行矩阵维度转换,进一步进行降维处理,从而可以进一步减少第一特征的数据量,检索后续计算量。
S302:对每帧子图像的基础图像特征进行全局平均池化处理,并对全局平均池化后的每帧子图像的基础图像特征进行非线性激活,得到第二特征。
同时,服务器还需要对每帧子图像的基础图像特征进行全局平均池化处理,以实现对特征进行降维处理,可以减少后续的处理量,然后对全局平均池化后的每帧子图像的基础图像特征进行非线性激活,得到第二特征,可以增强特征表达能力。此时进行非线性激活的非线性激活函数可以与处理完整图像特征的非线性激活函数相同,也可以不同,根据实际需要确定。
此外,为确保后续得到的第二特征与第一特征的维度一致,在对每帧子图像的基础图像特征进行全局平均池化处理之前,也可以先采用维度压缩参数对每帧子图像的完整图像特征进行压缩处理,可以减少后续的处理量。
S303:采用矩阵乘法对第一特征和第二特征进行协方差矩阵计算,得到每帧子图像的完整图像特征和基础图像特征的相似度矩阵。
在得到第一特征和第二特征之后,采用矩阵乘法对第一特征和第二特征进行协方差矩阵计算,得到每帧子图像的完整图像特征和基础图像特征的相似度矩阵,即得到第一特征中各个像素点与第二特征中各个像素点的相似度。
本实施例中,通过对每帧子图像的完整图像特征进行矩阵维度转换,并对矩阵维度转换后的每帧子图像的完整图像特征进行非线性激活,得到第一特征,并对每帧子图像的基础图像特征进行全局平均池化处理,并对全局平均池化后的每帧子图像的基础图像特征进行非线性激活,得到第二特征,然后采用矩阵乘法对第一特征和第二特征进行协方差矩阵计算,得到每帧子图像的完整图像特征和基础图像特征的相似度矩阵,明确了计算每帧子图像的基础图像特征与对应完整图像特征的相似度,得到每帧子图像的相似度矩阵的具体过程。在进行特征间的相似度计算之前,先对两类图像特征进行特征降维,极大地减少了网络参数量,提高数据处理效率,然后对平均池化的完整图像特征进行非线性激活,便于后续计算。
在一实施例中,组成元素数据包括文本数据、图案数据和符号数据。步骤S40中,即对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的完整图像特征,具体包括如下步骤:
S3211:对每帧子图像的文本数据进行文本特征提取,得到每帧子图像的文本特征;
S3212:对每帧子图像的图案数据进行特征提取,得到每帧子图像的图案特征;
S3213:对每帧子图像的符号数据进行符号特征提取,得到每帧子图像的符号特征;
S3214:融合文本特征、图案特征和符号特征,得到每帧子图像的完整图像特征。
本实施例中,待检索图像的组成元素包括文本、图案和符号(音符、标点符号等)等元素,对应的,每帧子图像的组成元素数据也包括文本数据、图案数据和符号数据。
在获得每帧子图像的组成元素数据,即文本数据、图案数据和符号数据之后,需要对每帧子图像的文本数据进行文本特征提取,得到每帧子图像的文本特征;对每帧子图像的图案数据进行特征提取,得到每帧子图像的图案特征;对每帧子图像的符号数据进行符号特征提取,得到每帧子图像的符号特征,然后,融合文本特征、图案特征和符号特征,得到每帧子图像的完整图像特征。
例如,可以直接将文本特征、图案特征和符号特征进行拼接得到每帧子图像的完整图像特征,简单便捷且不损失图像信息。还可以将文本特征、图案特征和符号特征中的各个特征作为节点,按照各个特征在每帧子图像的位置信息,对文本特征、图案特征和符号特征等各个特征进行构图,得到包含各特征空间关系的图特征,并将该图特征作为每帧子图像的完整图像特征,使得完整图像特征更能准确地表述每帧子图像。
在其他实施例中,若组成元素数据仅包括文本数据、图案数据和符号数据的任意一类或者两类数据,则仅对包含的组成元素数据进行特征提取,并将提取的特征信息进行融合得到每帧子图像的完整图像特征,具体过程参照前文,在此不再赘述。
本实施例中,通过对每帧子图像的文本数据进行文本特征提取,得到每帧子图像的文本特征,然后对每帧子图像的图案数据进行特征提取,得到每帧子图像的图案特征,对每帧子图像的符号数据进行符号特征提取,得到每帧子图像的符号特征,最后融合文本特征、图案特征和符号特征,得到每帧子图像的完整图像特征,明确了对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的完整图像特征的具体步骤,对图像的组成元素进行细分,从而得到更为精确的组成元素特征,提高了每帧子图像的完整图像特征的准确性。
在一实施例中,标准特征为对历史动态图像的标准动态特效特征和标准图像特征融合得到的标准融合特征。如图5所示,步骤S40中,即基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值,具体包括如下步骤:
S41:根据动态特效类别确定待检索图像的动态特效特征。
本实施例中,动态特效特征可以是动态特效类别的语义特征,即对该动态特效类别的特效描述文本进行语义提取后得到的特征。不同动态特效类别具有不同的文本描述,因此不同的动态特效类别能够提取到完全不同的语义特征。
例如,动态特效类别包括动画拼贴、动态排版、故障艺术、等距形状、肌理效果、变形过渡和液体运动等类别,分别对动画拼贴、动态排版、故障艺术、等距形状、肌理效果、变形过渡、液体运动的特效描述文本进行语义提取,得到对应动态特效类别的动态特效特征。
在得到待检索图像的动态特效类别之后,需要根据待检索图像的动态特效类别确定待检索图像的动态特效特征。其中,可以将多个动态特效类别与其对应的特效描述文本绑定存储至数据库中,在得到待检索图像的动态特效类别之后,先在数据库中拉取待检索图像的动态特效类别所对应的特效描述文本,作为目标描述文本,然后对该目标描述文本进行语义特征提取,得到待检索图像的动态特效特征。将对该动态特效类别的特效描述文本进行语义提取后得到的特征,作为动态特效特征,比直接使用动态特效类别的主题(如动态特效类别的动画拼贴的主题即为动画拼贴)特征更为准确,可以提高动态特效特征的准确性,从而提高后续计算得到的图像特征的准确性。
在其他实施例中,为了 减少语义特征提取的时间,可以预先对每一动态特效类别的特效描述文本进行语义提取,得到每一动态特效类别的动态特效特征,然后将每一动态特效类别及其动态特效特征绑定存储至数据库。在得到待检索图像的动态特效类别之后,服务器直接数据库中拉取待检索图像的动态特效类别所对应的动态特效特征,作为待检索图像的动态特效特征,简单快速。
其中,动画拼贴的特效描述文本为:将文字、绘画、照片、印刷品、纹理、图案和影像等转化为数字摄影,然后以拼贴的形式放在图像画面上,让这些元素动起来。动态排版特效描述文本为:把图像中文字进行设计,添加旋转、波浪形、变形、镜像等各种效果,让整个画面都采用动态效果,排版和动画结合在一起。故障艺术的特效描述文本为:将颜色和图像进行失真破碎、错位变形处理,形成新的数码故障艺术,实现对版面设计进行艺术加工,形成特殊的美感。等距形状的特效描述文本为:将二维的图形绘制成等距的三维图像,在一个框架中显示更多的图形,等距形状的设计可以减少杂乱的信息,可以有更多的空间来放置有用的元素。肌理效果的特效描述文本为:给元素添加上肌理的元素,可以采用手绘或材质上的设计,制造出一种不一样的质感。变形过渡的特效描述文本为:通过无缝过渡,将一个图像变化为另一个图像时没有卡顿,流线型的完全传递,保持效果的流畅。液体运动的特效描述文本为:给图像主体添加液体的设计效果,可以从涟漪到波浪,再到潮起潮落,还可以再加上拉伸、涂抹和漩涡等元素。
在其他实施例中,动态特效类别还可以包括其他类别,对应的其特效描述文本还可以是其他,例如还可以包括复古风格,其特效描述文本可以是:对图像的纹理、颜色或者组成元素进行复古设计,或者增加年代元素,使得图像具备一种年代感。
S42:将待检索图像的图像特征和动态特效特征进行融合,得到待检索图像的融合特征。
在根据动态特效类别确定待检索图像的动态特效特征之后,将待检索图像的图像特征和动态特效特征进行融合,得到待检索图像的融合特征。例如,可以将待检索图像的图像特征和动态特效特征进行拼接,直接得到待检索图像的融合特征,简单便捷,且融合特征既包含图像特征也保护动态特效特征,能够描述更多的信息,提高了融合特征的准确性,从而提高后续相似度值的准确性。
S43:对待检索图像的融合特征与每一历史动态图像的标准融合特征进行相似度计算,得到每一历史动态图像对应的相似度值。
在得到待检索图像的融合特征之后,服务器需要对待检索图像的融合特征与每一历史动态图像的标准融合特征进行相似度计算,得到每一历史动态图像对应的相似度值,即得到多个相似度值。
其中, 标准特征为预先对历史动态图像的标准动态特效特征和标准图像特征融合得到的标准融合特征,以提高标准特征对历史动态图像描述的准确性,并确保该标准特征与待检索图像的融合特征想适应,提高了相似度值的准确性。其中,历史动态图像的标准动态特效特征和标准图像特征获取过程,分别与待检索图像的动态特效特征、融合特征的获取方式一致,在此不再赘述。
S44:按照相似度值对多个历史动态图像进行降序排序,得到待检索图像的检索数据。
在得到每一历史动态图像对应的相似度值之后,按照相似度值对多个历史动态图像进行降序排序,得到待检索图像的检索数据。在其他实施例中,也可以选取相似度值大于预设值的历史动态图像,记为待检索图像的检索数据。
本实施例中,标准特征为对历史动态图像的标准动态特效特征和标准图像特征融合得到的标准融合特征,先根据动态特效类别确定待检索图像的动态特效特征,然后将待检索图像的图像特征和动态特效特征进行融合,得到待检索图像的融合特征,再对待检索图像的融合特征与每一历史动态图像的标准融合特征进行相似度计算,得到每一历史动态图像对应的相似度值,按照相似度值对多个历史动态图像进行降序排序,得到待检索图像的检索数据,明确了基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值的具体步骤,先将待检索图像的图像特征和动态特效特征融合得到融合特征,提高了特征的准确性,再以该融合特征进行相似度计算,从而提高了相似度值的准确性,进而能够得到与待检索图像更为相似的历史动态图像,确保了检索数据的准确性。
在一实施例中,待检索图像的图像特征包括待检索图像中每帧子图像的图像特征。步骤S42中,即将待检索图像的图像特征和动态特效特征进行融合,得到待检索图像的融合特征,具体包括如下步骤:
S421:基于动态特效特征进行预设激活函数的权重激活,得到激活权重数据。
例如,预设激活函数可以是线性激活函数,采用线性激活函数将动态特效特征进行线性激活,得到线性激活数据,然后对线性激活数据进行基于注意力机制的处理,得到包含多个权重值的激活权重数据。其中,激活权重数据的权重值数量与融合特征的维数相同,便于后续进行特征融合。
S422:基于激活权重数据对每帧子图像的图像特征进行融合,得到每帧子图像的激活特征。
在得到激活权重数据之后,基于激活权重数据对每帧子图像的图像特征进行融合,得到每帧子图像的激活特征,即将激活权重数据中的各个权重值赋予至图像特征的每个特征(即每个像素点)上,从而得到每帧子图像的融合特征。在对每帧子图像的图像特征进行融和时,需要对其中的每一子特征进行融合,以提高激活特征的准确性。
S423:按照待检索图像中每帧子图像的动态展示顺序,将每帧子图像的激活特征进行拼接,得到待检索图像的融合特征。
最后,按照待检索图像中每帧子图像的动态展示顺序,将每帧子图像的激活特征进行拼接,得到待检索图像的融合特征。
本实施例中,基于动态特效特征进行预设激活函数的权重激活,得到激活权重数据,得到包括多个权重值的激活权重数据,然后基于激活权重数据对待检索图像的图像特征进行融合,即将激活权重数据中的各个权重值赋予至图像特征的每个特征(即每个像素点)上,从而得到待检索图像的融合特征。其将动态特效特征转换为权重数据,进而将动态特效特征赋予至每帧子图像的图像特征,实现了图像特征的有效融合,进一步提高了融合特征的信息描述精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种图像检索装置,该图像检索装置与上述实施例中图像检索方法一一对应。如图6所示,该图像检索装置包括第一确定模块601、特效识别模块602、特征提取模块603、第二确定模块604和第三确定模块605。各功能模块详细说明如下:
第一确定模块601,用于获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像;
特效识别模块602,用于若待检索图像为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别,目标识别模型为基于多个历史动态图像的动态特效标签进行深度学习得到的神经网络模型;
特征提取模块603,用于对待检索图像进行图像特征提取,得到待检索图像的图像特征;
第二确定模块604,用于获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征,并基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;
第三确定模块605,用于基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备。
可选地,标准特征为对历史动态图像的标准动态特效特征和标准图像特征融合得到的标准融合特征,第二确定模块604具体用于:
根据动态特效类别确定待检索图像的动态特效特征;
将待检索图像的图像特征和动态特效特征进行融合,得到待检索图像的融合特征;
对待检索图像的融合特征与每一历史动态图像的标准融合特征进行相似度计算,得到每一历史动态图像对应的相似度值;
按照相似度值对多个历史动态图像进行降序排序,得到待检索图像的检索数据。
可选地,特征提取模块603具体用于:
对待检索图像进行分帧处理,得到待检索图像的多帧子图像,并对每帧子图像进行元素检测,得到每帧子图像的组成元素数据;
对每帧子图像的组成元素数据进行特征提取,得到每帧子图像的图像特征;
按照各子图像的动态展示顺序对每帧子图像的图像特征进行拼接,得到待检索图像的图像特征。
可选地,特征提取模块603具体还用于:
对每帧子图像的组成元素数据进行图像特征提取,得到每帧子图像的完整图像特征;
对每帧子图像进行去色处理得到每帧子图像的去色图像,并对每帧子图像的去色图像进行特征提取,得到每帧子图像的基础图像特征;
计算每帧子图像的基础图像特征与对应完整图像特征的相似度,得到每帧子图像的相似度矩阵;
对每帧子图像的相似度矩阵进行权重激活,得到每帧子图像的权重数据;
基于每帧子图像的权重数据对对应子图像的完整图像特征进行特征增强,得到每帧子图像的图像特征。
可选地,组成元素数据包括文本数据、图案数据和符号数据,特征提取模块603具体还用于:
对每帧子图像的文本数据进行文本特征提取,得到每帧子图像的文本特征;
对每帧子图像的图案数据进行特征提取,得到每帧子图像的图案特征;
对每帧子图像的符号数据进行符号特征提取,得到每帧子图像的符号特征;
融合文本特征、图案特征和符号特征,得到每帧子图像的完整图像特征。
可选地,将待检索图像输入至目标识别模型进行动态特效识别之前,第一确定模块601还用于确定待检索图像中是否包含预先埋点的动态特效数据;
若待检索图像中未包含预先埋点的动态特效数据,则特效识别模块602将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别。
若待检索图像中包含预先埋点的动态特效数据,则特效识别模块602对动态特效数据进行解析,得到待检索图像的动态特效类别。
关于图像检索装置的具体限定可以参见上文中对于图像检索方法的限定,在此不再赘述。上述图像检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述图像检索方法用到、生成的数据,包括多个历史动态图像、目标识别模型和多个相似度值等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像检索方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像;
若待检索图像为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别,目标识别模型为基于多个历史动态图像的动态特效标签进行深度学习得到的神经网络模型;
对待检索图像进行图像特征提取,得到待检索图像的图像特征;
获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征,并基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;
基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取用户通过终端设备输入的待检索图像,并确定待检索图像是否为动态图像;
若待检索图像为动态图像,则将待检索图像输入至目标识别模型进行动态特效识别,得到待检索图像的动态特效类别,目标识别模型为基于多个历史动态图像的动态特效标签进行深度学习得到的神经网络模型;
对待检索图像进行图像特征提取,得到待检索图像的图像特征;
获取历史动态图像库中的多个历史动态图像和每一历史动态图像的标准特征,并基于标准特征、图像特征和动态特效类别,确定待检索图像与每一历史动态图像的相似度,得到多个相似度值;
基于多个相似度值在多个历史动态图像中确定待检索图像的检索数据,并将检索数据发送至终端设备。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种图像检索方法,其特征在于,包括:
获取用户通过终端设备输入的待检索图像,并确定所述待检索图像是否为动态图像;
若所述待检索图像为所述动态图像,则将所述待检索图像输入至目标识别模型进行动态特效识别,得到所述待检索图像的动态特效类别,所述目标识别模型为基于多个历史动态图像的动态特效标签进行深度学习得到的神经网络模型;
对所述待检索图像进行图像特征提取,得到所述待检索图像的图像特征;
获取历史动态图像库中的多个历史动态图像和每一所述历史动态图像的标准特征,并基于所述标准特征、所述图像特征和所述动态特效类别,确定所述待检索图像与每一所述历史动态图像的相似度,得到多个相似度值;
基于多个所述相似度值在多个所述历史动态图像中确定所述待检索图像的检索数据,并将所述检索数据发送至所述终端设备;
所述对所述待检索图像进行图像特征提取,得到所述待检索图像的图像特征,包括:
对所述待检索图像进行分帧处理,得到所述待检索图像的多帧子图像,并对每帧所述子图像进行元素检测,得到每帧所述子图像的组成元素数据;
对每帧所述子图像的组成元素数据进行特征提取,得到每帧所述子图像的图像特征;
按照各所述子图像的动态展示顺序对每帧所述子图像的图像特征进行拼接,得到所述待检索图像的图像特征;
所述对每帧所述子图像的组成元素数据进行特征提取,得到每帧所述子图像的图像特征,包括:
对每帧所述子图像的组成元素数据进行图像特征提取,得到每帧所述子图像的完整图像特征;
对每帧所述子图像进行去色处理得到每帧所述子图像的去色图像,并对每帧所述子图像的去色图像进行特征提取,得到每帧所述子图像的基础图像特征;
计算每帧所述子图像的基础图像特征与对应所述完整图像特征的相似度,得到每帧所述子图像的相似度矩阵;
对每帧所述子图像的相似度矩阵进行权重激活,得到每帧所述子图像的权重数据;
基于每帧所述子图像的权重数据对对应所述子图像的完整图像特征进行特征增强,得到每帧所述子图像的图像特征。
2.如权利要求1所述的图像检索方法,其特征在于,所述标准特征为对所述历史动态图像的标准动态特效特征和标准图像特征融合得到的标准融合特征,所述基于所述标准特征、所述图像特征和所述动态特效类别,确定所述待检索图像与每一所述历史动态图像的相似度,得到多个相似度值,包括:
根据所述动态特效类别确定所述待检索图像的动态特效特征;
将所述待检索图像的图像特征和所述动态特效特征进行融合,得到所述待检索图像的融合特征;
对所述待检索图像的融合特征与每一所述历史动态图像的标准融合特征进行相似度计算,得到每一所述历史动态图像对应的相似度值;
按照所述相似度值对多个所述历史动态图像进行降序排序,得到所述待检索图像的检索数据。
3.如权利要求1所述的图像检索方法,其特征在于,所述组成元素数据包括文本数据、图案数据和符号数据,所述对每帧所述子图像的组成元素数据进行特征提取,得到每帧所述子图像的完整图像特征,包括:
对每帧所述子图像的文本数据进行文本特征提取,得到每帧所述子图像的文本特征;
对每帧所述子图像的图案数据进行特征提取,得到每帧所述子图像的图案特征;
对每帧所述子图像的符号数据进行符号特征提取,得到每帧所述子图像的符号特征;
融合所述文本特征、所述图案特征和所述符号特征,得到每帧所述子图像的完整图像特征。
4.如权利要求1-3任一项所述的图像检索方法,其特征在于,所述将所述待检索图像输入至目标识别模型进行动态特效识别之前,所述方法还包括:
确定所述待检索图像中是否包含预先埋点的动态特效数据;
若所述待检索图像中未包含所述预先埋点的动态特效数据,则将所述待检索图像输入至所述目标识别模型进行动态特效识别,得到所述待检索图像的动态特效类别。
5.如权利要求4所述的图像检索方法,其特征在于,所述确定所述待检索图像中是否包含预先埋点的动态特效数据之后,所述方法还包括:
若所述待检索图像中包含所述预先埋点的动态特效数据,则对所述动态特效数据进行解析,得到所述待检索图像的动态特效类别。
6.一种图像检索装置,其特征在于,包括:
第一确定模块,用于获取用户通过终端设备输入的待检索图像,并确定所述待检索图像是否为动态图像;
特效识别模块,用于若所述待检索图像为所述动态图像,则将所述待检索图像输入至目标识别模型进行动态特效识别,得到所述待检索图像的动态特效类别,所述目标识别模型为基于多个历史动态图像的动态特效标签进行深度学习得到的神经网络模型;
特征提取模块,用于对所述待检索图像进行图像特征提取,得到所述待检索图像的图像特征;
第二确定模块,用于获取历史动态图像库中的多个历史动态图像和每一所述历史动态图像的标准特征,并基于所述标准特征、所述图像特征和所述动态特效类别,确定所述待检索图像与每一所述历史动态图像的相似度,得到多个相似度值;
第三确定模块,用于基于多个所述相似度值在多个所述历史动态图像中确定所述待检索图像的检索数据,并将所述检索数据发送至所述终端设备;
所述对所述待检索图像进行图像特征提取,得到所述待检索图像的图像特征,包括:
对所述待检索图像进行分帧处理,得到所述待检索图像的多帧子图像,并对每帧所述子图像进行元素检测,得到每帧所述子图像的组成元素数据;
对每帧所述子图像的组成元素数据进行特征提取,得到每帧所述子图像的图像特征;
按照各所述子图像的动态展示顺序对每帧所述子图像的图像特征进行拼接,得到所述待检索图像的图像特征;
所述对每帧所述子图像的组成元素数据进行特征提取,得到每帧所述子图像的图像特征,包括:
对每帧所述子图像的组成元素数据进行图像特征提取,得到每帧所述子图像的完整图像特征;
对每帧所述子图像进行去色处理得到每帧所述子图像的去色图像,并对每帧所述子图像的去色图像进行特征提取,得到每帧所述子图像的基础图像特征;
计算每帧所述子图像的基础图像特征与对应所述完整图像特征的相似度,得到每帧所述子图像的相似度矩阵;
对每帧所述子图像的相似度矩阵进行权重激活,得到每帧所述子图像的权重数据;
基于每帧所述子图像的权重数据对对应所述子图像的完整图像特征进行特征增强,得到每帧所述子图像的图像特征。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述图像检索方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述图像检索方法的步骤。
CN202310529432.0A 2023-05-11 2023-05-11 一种图像检索方法、装置、计算机设备及介质 Active CN116304163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310529432.0A CN116304163B (zh) 2023-05-11 2023-05-11 一种图像检索方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310529432.0A CN116304163B (zh) 2023-05-11 2023-05-11 一种图像检索方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN116304163A CN116304163A (zh) 2023-06-23
CN116304163B true CN116304163B (zh) 2023-07-25

Family

ID=86781795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310529432.0A Active CN116304163B (zh) 2023-05-11 2023-05-11 一种图像检索方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN116304163B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319886A (ja) * 1994-05-30 1995-12-08 Nippon Telegr & Teleph Corp <Ntt> 動画連動図面画像検索装置及び動画連動図面画像検索方法
JP2009060413A (ja) * 2007-08-31 2009-03-19 Kddi Corp 動画特徴抽出方法およびシステムならびに動画検索方法およびシステム
CN103247036A (zh) * 2012-02-10 2013-08-14 株式会社理光 多曝光图像融合方法和装置
CN107454405A (zh) * 2016-05-31 2017-12-08 三星显示有限公司 包括图像编码方法和图像解码方法的图像显示方法
CN114372169A (zh) * 2021-12-07 2022-04-19 厦门市美亚柏科信息股份有限公司 一种同源视频检索的方法、装置以及存储介质
WO2022142855A1 (zh) * 2020-12-31 2022-07-07 深圳市优必选科技股份有限公司 回环检测方法、装置、终端设备和可读存储介质
CN116049490A (zh) * 2023-02-07 2023-05-02 北京字跳网络技术有限公司 素材搜索方法、装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319886A (ja) * 1994-05-30 1995-12-08 Nippon Telegr & Teleph Corp <Ntt> 動画連動図面画像検索装置及び動画連動図面画像検索方法
JP2009060413A (ja) * 2007-08-31 2009-03-19 Kddi Corp 動画特徴抽出方法およびシステムならびに動画検索方法およびシステム
CN103247036A (zh) * 2012-02-10 2013-08-14 株式会社理光 多曝光图像融合方法和装置
CN107454405A (zh) * 2016-05-31 2017-12-08 三星显示有限公司 包括图像编码方法和图像解码方法的图像显示方法
WO2022142855A1 (zh) * 2020-12-31 2022-07-07 深圳市优必选科技股份有限公司 回环检测方法、装置、终端设备和可读存储介质
CN114372169A (zh) * 2021-12-07 2022-04-19 厦门市美亚柏科信息股份有限公司 一种同源视频检索的方法、装置以及存储介质
CN116049490A (zh) * 2023-02-07 2023-05-02 北京字跳网络技术有限公司 素材搜索方法、装置和电子设备

Also Published As

Publication number Publication date
CN116304163A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US11657602B2 (en) Font identification from imagery
US9501724B1 (en) Font recognition and font similarity learning using a deep neural network
EP3843004A1 (en) Portrait segmentation method, model training method and electronic device
WO2019075130A1 (en) IMAGE PROCESSING DEVICE AND METHOD
CN109726712A (zh) 文字识别方法、装置及存储介质、服务器
CN111488873B (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN113822116A (zh) 文本识别方法、装置、计算机设备和存储介质
CN110597965A (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
Kantipudi et al. Scene text recognition based on bidirectional LSTM and deep neural network
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN108717436B (zh) 一种基于显著性检测的商品目标快速检索方法
CN116610304B (zh) 页面代码生成方法、装置、设备和存储介质
CN116361502B (zh) 一种图像检索方法、装置、计算机设备及存储介质
Rakesh et al. Sign language recognition using convolutional neural network
CN111914850B (zh) 图片特征提取方法、装置、服务器和介质
CN116304163B (zh) 一种图像检索方法、装置、计算机设备及介质
WO2023284670A1 (zh) 图形码提取模型构建方法、识别方法、装置、设备和介质
CN113837157B (zh) 题目类型识别方法、***和存储介质
CN115034177A (zh) 演示文稿转换方法、装置、设备及存储介质
CN114969544A (zh) 基于热点数据的推荐内容生成方法、装置、设备及介质
CN114647361A (zh) 一种基于人工智能的触摸屏物体定位方法及装置
CN112597328B (zh) 标注方法、装置、设备及介质
US20240193918A1 (en) Techniques for automated component classification
CN111062207B (zh) 表情图像处理方法、装置、计算机存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant