CN111694978B - 图像相似度检测方法、装置、存储介质与电子设备 - Google Patents
图像相似度检测方法、装置、存储介质与电子设备 Download PDFInfo
- Publication number
- CN111694978B CN111694978B CN202010431756.7A CN202010431756A CN111694978B CN 111694978 B CN111694978 B CN 111694978B CN 202010431756 A CN202010431756 A CN 202010431756A CN 111694978 B CN111694978 B CN 111694978B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- similarity
- text information
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种图像相似度检测方法、图像相似度检测装置、计算机可读存储介质与电子设备,涉及图像处理技术领域。所述方法包括:提取第一图像中的文本内容,得到第一文本信息,以及提取第二图像中的文本内容,得到第二文本信息;检测所述第一图像与所述第二图像之间的第一相似度;检测所述第一文本信息与所述第二文本信息之间的第二相似度;基于所述第一相似度和所述第二相似度,确定所述第一图像与所述第二图像是否相似。本公开通过从图像内容与文本两个方面检测图像的相似度,能够体现出图像中文本部分的差别对图像语义的影响,从而提高图像相似度的准确性,特别适用于文本图像的相似度检测。
Description
背景技术
图像相似度检测是指通过特定的算法计算两张图像相似的程度,是计算机视觉领域的一项重要技术,在图像检索、视觉跟踪、视频处理等场景中都有广泛应用。
相关技术中,如果两张图像中大面积背景部分相同,容易被计算出高相似度。对于包含文本的图像,如在课件幻灯片展示中对前一页与后一页分别截图得到两张图像,其背景部分几乎完全相同,仅有文字内容的变化,因而相关技术将对这两张图像输出高相似度,但是文字内容的变化实际上导致了图像语义的巨大偏差。可见,相关技术中存在图像相似度准确性不高的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供了一种图像相似度检测方法、图像相似度检测装置、计算机可读存储介质与电子设备,进而一定程度上解决相关技术中图像相似度准确性不高的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种图像相似度检测方法,包括:提取第一图像中的文本内容,得到第一文本信息,以及提取第二图像中的文本内容,得到第二文本信息;检测所述第一图像与所述第二图像之间的第一相似度;检测所述第一文本信息与所述第二文本信息之间的第二相似度;基于所述第一相似度和所述第二相似度,确定所述第一图像与所述第二图像是否相似。
根据本公开的第二方面,提供一种图像相似度检测装置,包括:文本提取模块,用于提取第一图像中的文本内容,得到第一文本信息,以及提取第二图像中的文本内容,得到第二文本信息;第一检测模块,用于检测所述第一图像与所述第二图像之间的第一相似度;第二检测模块,用于检测所述第一文本信息与所述第二文本信息之间的第二相似度;相似度综合模块,用于基于所述第一相似度和所述第二相似度,确定所述第一图像与所述第二图像是否相似。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的图像相似度检测方法及其可能的实施方式。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的图像相似度检测方法及其可能的实施方式。
本公开的技术方案具有以下有益效果:
通过从图像内容与文本两个方面检测图像的相似度,能够体现出图像中文本部分的差别对图像语义的影响,从而提高图像相似度的准确性,特别适用于文本图像的相似度检测。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出相关技术计算相似度的流程图;
图2示出本示例性实施方式中移动终端的结构示意图;
图3示出本示例性实施方式中一种图像相似度检测方法的流程图;
图4示出本示例性实施方式中一种检测第一相似度的流程图;
图5示出本示例性实施方式中一种检测第二相似度的流程图;
图6示出本示例性实施方式中一种图像相似度检测方法的子流程图;
图7示出本示例性实施方式中一种图像相似度检测装置的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
相关技术的一种方案中,通常对图片提取特征后进行相似度的计算,其过程可以参考图1所示:对于图片1和图片2,分别提取图像特征,得到特征1和特征2,然后对特征1和2计算相似度,即得到两个图片的相似度。对于文本图像(即包含文本的图像),采用该方案会丢失图像中的文本信息,而文本信息又是图像中最重要的信息,因而导致计算出的相似度无法反映实际情况,准确性不高。例如,对于一份PPT(PowerPoint,演示文稿)文件,对其中相邻两页截图,然后计算两张截图的相似度,由于背景、页面布局、颜色分布、素材样式等方面基本一致,可能计算出两张截图非常高的相似度
鉴于上述一个或多个问题,本公开的示例性实施方式提供一种图像相似度检测方法,该方法主要应用于文本图像的相似度检测,例如拍摄文件资料的图像,幻灯片或图形用户界面截图的图像,包含道路指示牌的图像等。
本公开的示例性实施方式提供一种用于实现上述图像相似度检测方法的电子设备,如计算机、智能手机、平板电脑、游戏机、PDA(Personal Digital Assistant,个人数字助理)、智能可穿戴设备等。该电子设备一般包括处理器和存储器。其中,存储器用于存储处理器的可执行指令;处理器通过执行可执行指令,来实现各种软件程序,例如实现本示例性实施方式的图像相似度检测方法。
下面以图2中的移动终端200为例,对电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图2中的构造也能够应用于固定类型的设备。在另一些实施方式中,移动终端200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出,并不构成对移动终端200的结构限定。在另一些实施方式中,移动终端200也可以采用与图2不同的接口连接方式,或多种接口连接方式的组合。
如图2所示,移动终端200具体可以包括:处理器210、内部存储器221、外部存储器接口222、USB接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏幕290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber Identification Module,SIM)卡接口295等。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(Application Processor,AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit,GPU)、图像信号处理器(Image Signal Processor,ISP)、控制器、编码器、解码器、数字信号处理器(Digital Signal Processor,DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。编码器可以对图像或视频数据进行编码(即压缩),形成码流数据;解码器可以对图像或视频的码流数据进行解码(即解压缩),以还原出图像或视频数据。
在一些实施方式中,处理器210可以包括一个或多个接口。接口可以包括集成电路(Inter-Integrated Circuit,I2C)接口、集成电路内置音频(Inter-Integrated CircuitSound,I2S)接口、脉冲编码调制(Pulse Code Modulation,PCM)接口、通用异步收发传输器(Universal Asynchronous Receiver/Transmitter,UART)接口、移动产业处理器接口(Mobile Industry Processor Interface,MIPI)、通用输入输出(General-PurposeInput/Output,GPIO)接口、用户标识模块(Subscriber Identity Module,SIM)接口和/或通用串行总线(Universal Serial Bus,USB)接口等。通过不同的接口和移动终端200的其他部件形成连接。
USB接口230是符合USB标准规范的接口,具体可以是MiniUSB接口,MicroUSB接口,USBTypeC接口等。USB接口230可以用于连接充电器为移动终端200充电,也可以连接耳机,通过耳机播放音频,还可以用于移动终端200连接其他电子设备,例如连接电脑、***设备等。
充电管理模块240用于从充电器接收充电输入。充电管理模块240为电池242充电的同时,还可以通过电源管理模块241为设备供电。
电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入,为移动终端200的各个部分供电,还可以用于监测电池的状态。
移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。移动终端200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。移动通信模块250可以提供应用在移动终端200上的包括2G/3G/4G/5G等无线通信的解决方案。
无线通信模块260可以提供应用在移动终端200上的包括无线局域网(WirelessLocal Area Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络)、蓝牙(Bluetooth,BT)、全球导航卫星***(Global Navigation Satellite System,GNSS)、调频(Frequency Modulation,FM)、近距离无线通信技术(Near Field Communication,NFC)、红外技术(Infrared,IR)等无线通信解决方案。无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施方式中,移动终端200的天线1和移动通信模块250耦合,天线2和无线通信模块260耦合,使得移动终端200可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(Global System for Mobilecommunications,GSM),通用分组无线服务(General Packet Radio Service,GPRS),码分多址接入(Code Division Multiple Access,CDMA),宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA),时分码分多址(Time Division-Synchronous CodeDivision Multiple Access,TD-SCDMA),长期演进(Long Term Evolution,LTE),新空口(New Radio,NR),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。
移动终端200通过GPU、显示屏幕290及应用处理器等实现显示功能。GPU用于执行数学和几何计算,以实现图形渲染,并连接显示屏幕290和应用处理器。处理器210可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。移动终端200可以包括一个或多个显示屏幕290,用于显示图像,视频等。
移动终端200可以通过ISP、摄像模组291、编码器、解码器、GPU、显示屏幕290及应用处理器等实现拍摄功能。
摄像模组291用于捕获静态图像或视频,通过感光元件采集光信号,转换为电信号。ISP用于处理摄像模组291反馈的数据,将电信号转换成数字图像信号。
外部存储器接口222可以用于连接外部存储卡,例如Micro SD卡,实现扩展移动终端200的存储能力。
内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储移动终端200使用过程中所创建的数据(比如图像,视频)等。处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令,执行移动终端200的各种功能应用以及数据处理。
移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。音频模块270用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。扬声器271,用于将音频电信号转换为声音信号。受话器272,用于将音频电信号转换成声音信号。麦克风273,用于将声音信号转换为电信号。耳机接口274用于连接有线耳机。
传感器模块280可以包括触摸传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804等。触摸传感器2801用于感应外部输入的触摸事件,其可以设置于显示屏幕290的下方,使显示屏幕290成为触控屏。压力传感器2802用于感受压力信号,可以将压力信号转换成电信号,用于实现压力触控等功能。陀螺仪传感器2803可以用于确定移动终端200的运动姿态,可用于拍摄防抖、导航、体感游戏等场景。气压传感器2804用于测量气压,可通过计算海拔高度,辅助定位和导航。此外,根据实际需要,还可以在传感器模块280中设置其他功能的传感器,例如深度传感器、加速度传感器、距离传感器等。
指示器292可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
马达293可以产生振动提示,例如来电、闹钟、接收信息等的振动提示,也可以用于触摸振动反馈等。
按键294包括开机键,音量键等。按键294可以是机械按键。也可以是触摸式按键。移动终端200可以接收按键输入,产生与移动终端200的用户设置以及功能控制有关的键信号输入。
移动终端200可以支持一个或多个SIM卡接口295,用于连接SIM卡,使移动终端200通过SIM卡和网络交互,实现通话以及数据通信等功能。
下面结合图3对本公开示例性实施方式的图像相似度检测方法进行具体说明。如图3所示,该图像相似度检测方法可以包括以下步骤S310至S340:
步骤S310,提取第一图像中的文本内容,得到第一文本信息,以及提取第二图像中的文本内容,得到第二文本信息。
其中,第一图像和第二图像是需要进行相似度检测的两张图像,两张图像中均可能包含有文本内容和其他类型的图像内容,通过提取文本内容,分别得到第一文本信息和第二文本信息。
在一种可选的实施方式中,步骤S310可以通过以下方式实现:
对第一图像进行OCR(Optical Character Recognition,光学字符识别)处理,并将所识别出的字符转换为对应的第一文本信息;
对第二图像进行OCR处理,并将所识别出的字符转换为对应的第二文本信息。
OCR处理是指通过检测暗、亮的方式确定图像中所包含的字符形状,然后用字符识别的方式将其翻译成计算机文字。以第一图像为例,首先可以将第一图像进行灰度处理并进行二值化,以区分图像的背景和前景;然后对图像进行优化校正,例如降噪、倾斜校正等;再对前景部分提取字符特征;最后通过与字符数据库中的数据进行对比,识别出第一图像中的字符。在识别字符后,可以将字符转换为特定格式的文本(采用任意格式即可,主要保证第一文本信息与第二文本信息的格式一致),即得到第一图像对应的第一文本信息。
进一步的,为了提高文本识别的准确性,可以先对第一图像和第二图像进行文字区域检测,提取出包含文字的图像子区域,例如可以采用MSER(Maximally StableExtremal Regions,最大稳定极值区域)算法实现;然后对图像子区域进行OCR处理,提取相应的文本信息。
在一种可选的实施方式中,从第一图像或第二图像提取文本内容时,可能提取不止一段文本,且不同文本在图像中处于不同的位置。因此可以记录每段文本及其位置,得到第一文本信息和第二文本信息。具体的,第一文本信息可以包括:从第一图像中所提取的至少一段第一图像文本,以及每段第一图像文本在第一图像中的位置;第二文本信息可以包括:从第二图像中所提取的至少一段第二图像文本,以及每段第二图像文本在第二图像中的位置。其中,第一图像文本和第二图像文本只是限定从第一图像或第二图像中提取的文本,并非对文本内容或格式进行限定。举例:第一图像为一份通知单的拍摄图像,在提取文本内容时,可以分别提取标题内容、正文内容和落款内容;记录每段内容在第一图像中的位置,如通过矩形检测框检测标题内容,记录矩形检测框左上与右下两个角点的位置信息(如可以是角点在第一图像中的像素坐标),对于正文内容和落款内容,同样记录两个角点的位置信息;由此形成三组数据,每组数据包括一段文本和两个角点的位置信息;将这三组数据形成一个集合,即第一文本信息。
步骤S320,检测第一图像与第二图像之间的第一相似度。
其中,第一相似度是指从图像内容的角度所检测的第一图像与第二图像之间的相似度。
在一种实施方式中,参考图4所示,步骤S320可以具体包括以下步骤S410和S420:
步骤S410,利用预设的图像特征提取模型对第一图像提取特征,得到第一特征,以及对第二图像提取特征,得到第二特征;
步骤S420,确定第一特征与第二特征之间的第一相似度。
其中,第一特征和第二特征可以是向量或矩阵等形式,第一特征和第二特征的形式、维度数量等可以保持一致。以向量为例,将第一图像输入图像特征提取模型,输出第一特征向量,将第二图像输入图像特征提取模型,输出第二特征向量;然后计算第一特征向量与第二特征向量的相似度,例如计算余弦相似度、1/(1+欧式距离)等,得到的结果即第一图像与第二图像之间的第一相似度。
图像特征提取模型可以采用图像分类、图像识别、目标检测等常用的CNN(Convolutional Neural Network,卷积神经网络)模型。以图像分类模型为例,通过大量的样本图像及其分类标签训练模型,以更新模型参数,直到达到一定的准确率;在使用中,将第一图像(或第二图像)输入图像分类模型,从某一中间层(一般可以是全连接层)提取中间向量,作为第一图像对应的第一特征。
此外,也可以训练一图像分类模型;截取图像分类模型中从输入层到全连接层(例如可以选择第一全连接层,其维度较为丰富)的部分,得到图像特征提取模型。这样在使用中,将第一图像输入图像特征提取模型,可以直接输出对应的第一特征。
在一种实施方式中,通过大量成对的样本图像以及每对样本图像的相似度标签,可以训练图像相似检测模型,其输入层设置为双通道,用于输入待检测的两张图像,输出为两张图像的相似度回归结果。在使用中,将第一图像和第二图像分别输入模型的双通道,可以直接输出第一相似度的结果。
在一种实施方式中,还可以对第一图像与第二图像进行像素级的对比,计算每一对位置相同的像素之间的颜色相似度,例如采用1/(1+颜色距离)进行计算,然后综合每个像素的颜色相似度,得到第一图像与第二图像整体的第一相似度。
步骤S330,检测第一文本信息与第二文本信息之间的第二相似度。
其中,第二相似度是指从文本内容的角度所检测的第一文本信息与第二文本信息之间的相似度。
在一种可选的实施方式中,基于第一文本信息中的第一图像文本及其位置,与第二文本信息中的第二图像文本及其位置,可以通过图5中的步骤S510至S530实现上述步骤S330的过程:
步骤S510,根据每段第一图像文本在第一图像中的位置和每段第二图像文本在第二图像中的位置,将位置相同或相近的一段第一图像文本和一段第二图像文本生成一组图像文本对。
该步骤即对第一图像文本和第二图像文本进行两两配对,配对时可以采用位置最近原则,例如按顺序从第一文本信息中逐个取出第一图像文本,在第二文本信息中查找距离最近的第二图像文本,如第一图像文本A1的两个角点为a1、a2,第二图像文本B1的两个角点为b1、b2,可以分别计算作为A1和B1的距离;如果第一文本信息中存在两段或两段以上第一图像文本,其所对应的距离最近的第二图像文本相同,如第一图像文本A1与A2查找到距离最近的第二图像文本均为B1,则将A1与A2中距离B1更近的一个与B1形成一组图像文本对,剩余的一个可以和其他第二图像文本成对,或者单独成对。需要说明的是,第一图像文本与第二图像文本的数量可能不相同,这样数量较多的一方可以单独成对,即形成一组仅包含一段第一图像文本的图像文本对,将其中的第二图像文本视为空值。后续确定单独成对的图像文本对的相似度为0或其他预设值。
步骤S520,基于每组图像文本对中第一图像文本与第二图像文本之间的文本相似度与位置相似度,确定每组图像文本对的相似度;
其中,文本相似度可以通过对两段文本分别进行编码(例如采用word2vec等模型编码得到对应的文本特征向量),然后对两个编码计算相似度而得到,或者对两段文本双向(即从头部开始,以及从尾部开始)对比字符,计算字符相同的比例,综合双向对比的结果,得到文本相似度。位置相似度可以通过两段文本位置之间的距离进行表征,例如采用1/(1+位置距离)的方式计算并表征。通过对文本相似度与位置相似度求平均或者加权,可以综合两方面因素,确定每组图像文本对的相似度。换而言之,第一图像文本与第二图像文本之间,除了文本内容相似外,位置也应当相近,才能得到较高的相似度。
步骤S530,综合各组图像文本对的相似度,确定第一文本信息与第二文本信息之间的第二相似度。
例如可以对各组图像文本对的相似度求平均,也可以加权计算,得到第二相似度。在进行加权时,可以根据图像文本对中第一图像文本和第二图像文本的尺寸确定权重。例如,图像文本对(A1,B1)中,第一图像文本A1的字符数为k1,第二图像文本的字符数为k2,图像文本对(A1,B1)的字符数为k1+k2;通过这种方式计算每组图像文本对的字符数,以全部图像文本对的字符总数量为分母,每组图像文本对的字符数为分子,计算每组图像文本对的权重。在上述计算中,也可以将字符数替换为第一图像文本和第二图像文本在图像中的矩形框面积,例如第一图像文本A1的两个角点位置为(x1,y1)、(x2,y2),计算A1的矩形框面积为S(A1)=|x2-x1||y2-y1|,并以S(A1)+S(B1)作为图像文本对(A1,B1)的面积,以计算权重。
步骤S340,基于上述第一相似度和第二相似度,确定第一图像与第二图像是否相似。
一般的,第一相似度和第二相似度需要均达到一定的水平,例如为第一相似度设置第一阈值,第二相似度设置第二阈值,两阈值可以相同,也可以不同,当第一相似度达到第一阈值,且第二相似度达到第二阈值时,确定第一图像与第二图像相似。这样从图像内容与文本两方面保证了图像相似
在一种可选的实施方式中,参考图6所示,步骤S340可以包括以下步骤S610和S620:
步骤S610,将上述第一相似度和第二相似度进行加权计算,得到第一图像与第二图像之间的综合相似度;
步骤S620,根据上述综合相似度确定第一图像与第二图像是否相似。
例如,可以以1/2为权重,对第一相似度和第二相似度求平均,将平均值作为综合相似度;或者根据经验以及具体场景设置权重,例如在文字使用较多的场景中,为第二相似度设置较高的权重;或者根据文本部分在图像中所占的比例,确定第二相似度的权重;等等。在计算综合相似度后,可以通过设定的第三阈值进行衡量,以确定第一图像与第二图像是否相似。或者根据综合相似度对图像进行排序,例如输入第一图像作为检索图像,在图像数据库中,分别以每张图像作为第二图像,计算其与第一图像的综合相似度,然后按照综合相似度的排序结果展示检索结果。
上述图像相似度检测还可以用于手机上的相册管理。用户在日常使用中会存储大量的界面截图,其中一些截图仅存在文本微小差异,容易被***判断为重复图片并导致误删。通过上述图像相似度检测方法,可以减少误判的发生,提供更加优质的相册管理服务。
基于上述内容,本示例性实施方式中,通过从图像内容与文本两个方面检测图像的相似度,能够体现出图像中文本部分的差别对图像语义的影响,从而提高图像相似度的准确性,特别适用于文本图像的相似度检测。
本公开的示例性实施方式还提供一种图像相似度检测装置。如图7所示,该图像相似度检测装置700可以包括:
文本提取模块710,用于提取第一图像中的文本内容,得到第一文本信息,以及提取第二图像中的文本内容,得到第二文本信息;
第一检测模块720,用于检测第一图像与第二图像之间的第一相似度;
第二检测模块730,用于检测第一文本信息与第二文本信息之间的第二相似度;
相似确定模块740,用于基于上述第一相似度和第二相似度,确定第一图像与第二图像是否相似。
在一种可选的实施方式中,文本提取模块710,被配置为:
对第一图像进行光学字符识别处理,并将所识别出的字符转换为对应的第一文本信息;
对第二图像进行光学字符识别处理,并将所识别出的字符转换为对应的第二文本信息。
在一种可选的实施方式中,第一文本信息包括:从第一图像中所提取的至少一段第一图像文本,以及每段第一图像文本在第一图像中的位置;第二文本信息包括:从第二图像中所提取的至少一段第二图像文本,以及每段第二图像文本在第二图像中的位置。
在一种可选的实施方式中,第二检测模块730,被配置为:
根据每段第一图像文本在第一图像中的位置和每段第二图像文本在第二图像中的位置,将位置相同或相近的一段第一图像文本和一段第二图像文本生成一组图像文本对;
基于每组图像文本对中第一图像文本与第二图像文本之间的文本相似度与位置相似度,确定每组图像文本对的相似度;
综合各组图像文本对的相似度,确定第一文本信息与第二文本信息之间的第二相似度。
在一种可选的实施方式中,第一检测模块720,被配置为:
利用预设的图像特征提取模型对第一图像提取特征,得到第一特征,以及对第二图像提取特征,得到第二特征;
确定第一特征与第二特征之间的第一相似度。
在一种可选的实施方式中,第一检测模块720,还用于通过以下方式获取图像特征提取模型:
训练一图像分类模型;
截取图像分类模型中从输入层到全连接层的部分,得到图像特征提取模型。
在一种可选的实施方式中,相似确定模块740,被配置为:
将第一相似度和第二相似度进行加权计算,得到第一图像与第二图像之间的综合相似度;
根据综合相似度确定第一图像与第二图像是否相似。
上述装置中各部分的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为***、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤,例如可以执行图3至图6中任意一个或多个步骤。该程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (10)
1.一种图像相似度检测方法,其特征在于,包括:
提取第一图像中的文本内容,得到第一文本信息,以及提取第二图像中的文本内容,得到第二文本信息;
检测所述第一图像与所述第二图像之间的第一相似度;
检测所述第一文本信息与所述第二文本信息之间的第二相似度;
基于所述第一相似度和所述第二相似度,确定所述第一图像与所述第二图像是否相似;
其中,所述第一文本信息包括:从所述第一图像中所提取的至少一段第一图像文本,以及每段所述第一图像文本在所述第一图像中的位置;所述第二文本信息包括:从所述第二图像中所提取的至少一段第二图像文本,以及每段所述第二图像文本在所述第二图像中的位置;
所述检测所述第一文本信息与所述第二文本信息之间的第二相似度,包括:
根据每段所述第一图像文本在所述第一图像中的位置和每段所述第二图像文本在所述第二图像中的位置,将位置相同或相近的一段所述第一图像文本和一段所述第二图像文本生成一组图像文本对;
基于每组所述图像文本对中所述第一图像文本与所述第二图像文本之间的文本相似度与位置相似度,确定每组所述图像文本对的相似度;所述第一图像文本与所述第二图像文本之间的位置相似度为:1/(1+位置距离);其中,位置距离为所述第一图像文本与所述第二图像文本之间的位置距离;
综合各组所述图像文本对的相似度,确定所述第一文本信息与所述第二文本信息之间的第二相似度。
2.根据权利要求1所述的方法,其特征在于,所述提取第一图像中的文本内容,得到第一文本信息,以及提取第二图像中的文本内容,得到第二文本信息,包括:
对所述第一图像进行光学字符识别处理,并将所识别出的字符转换为对应的第一文本信息;
对所述第二图像进行光学字符识别处理,并将所识别出的字符转换为对应的第二文本信息。
3.根据权利要求1所述的方法,其特征在于,所述检测所述第一文本信息与所述第二文本信息之间的第二相似度,还包括:
若所述第一图像文本与所述第二图像文本的数量不同,则将未组成图像文本对的所述第一图像文本或所述第二图像文本与空值组成单独成对的图像文本对,并确定所述单独成对的图像文本对的相似度为0。
4.根据权利要求1所述的方法,其特征在于,所述综合各组所述图像文本对的相似度,确定所述第一文本信息与所述第二文本信息之间的第二相似度,包括:
根据每组所述图像文本对的字符数与全部所述图像文本对的总字符数的比值,计算每组所述图像文本对的权重;或者,根据每组所述图像文本对的面积与全部所述图像文本对的总面积的比值,计算每组所述图像文本对的权重;
采用每组所述图像文本对的权重对各组所述图像文本对的相似度加权,得到所述第一文本信息与所述第二文本信息之间的第二相似度。
5.根据权利要求1所述的方法,其特征在于,所述检测所述第一图像与所述第二图像之间的第一相似度,包括:
利用预设的图像特征提取模型对所述第一图像提取特征,得到第一特征,以及对所述第二图像提取特征,得到第二特征;
确定所述第一特征与所述第二特征之间的第一相似度。
6.根据权利要求5所述的方法,其特征在于,所述图像特征提取模型,通过以下方式获取:
训练一图像分类模型;
截取所述图像分类模型中从输入层到全连接层的部分,得到所述图像特征提取模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述基于所述第一相似度和所述第二相似度,确定所述第一图像与所述第二图像是否相似,包括:
将所述第一相似度和所述第二相似度进行加权计算,得到所述第一图像与所述第二图像之间的综合相似度;
根据所述综合相似度确定所述第一图像与所述第二图像是否相似。
8.一种图像相似度检测装置,其特征在于,包括:
文本提取模块,用于提取第一图像中的文本内容,得到第一文本信息,以及提取第二图像中的文本内容,得到第二文本信息;
第一检测模块,用于检测所述第一图像与所述第二图像之间的第一相似度;
第二检测模块,用于检测所述第一文本信息与所述第二文本信息之间的第二相似度;
相似确定模块,用于基于所述第一相似度和所述第二相似度,确定所述第一图像与所述第二图像是否相似;
其中,所述第一文本信息包括:从所述第一图像中所提取的至少一段第一图像文本,以及每段所述第一图像文本在所述第一图像中的位置;所述第二文本信息包括:从所述第二图像中所提取的至少一段第二图像文本,以及每段所述第二图像文本在所述第二图像中的位置;
所述检测所述第一文本信息与所述第二文本信息之间的第二相似度,包括:
根据每段所述第一图像文本在所述第一图像中的位置和每段所述第二图像文本在所述第二图像中的位置,将位置相同或相近的一段所述第一图像文本和一段所述第二图像文本生成一组图像文本对;
基于每组所述图像文本对中所述第一图像文本与所述第二图像文本之间的文本相似度与位置相似度,确定每组所述图像文本对的相似度;所述第一图像文本与所述第二图像文本之间的位置相似度为:1/(1+位置距离);其中,位置距离为所述第一图像文本与所述第二图像文本之间的位置距离;
综合各组所述图像文本对的相似度,确定所述第一文本信息与所述第二文本信息之间的第二相似度。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010431756.7A CN111694978B (zh) | 2020-05-20 | 2020-05-20 | 图像相似度检测方法、装置、存储介质与电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010431756.7A CN111694978B (zh) | 2020-05-20 | 2020-05-20 | 图像相似度检测方法、装置、存储介质与电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111694978A CN111694978A (zh) | 2020-09-22 |
CN111694978B true CN111694978B (zh) | 2023-04-28 |
Family
ID=72478112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010431756.7A Active CN111694978B (zh) | 2020-05-20 | 2020-05-20 | 图像相似度检测方法、装置、存储介质与电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111694978B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780268A (zh) * | 2020-12-28 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 商标识别方法、装置与电子设备 |
CN113221536A (zh) * | 2020-12-29 | 2021-08-06 | 广东电网有限责任公司 | 一种基于自然语言分析文件中相似段落的方法及装置 |
CN112801217B (zh) * | 2021-03-19 | 2021-07-06 | 北京世纪好未来教育科技有限公司 | 文本相似度判断方法、装置、电子设备以及可读存储介质 |
CN112988976A (zh) * | 2021-04-21 | 2021-06-18 | 百度在线网络技术(北京)有限公司 | 搜索方法、搜索装置、电子设备、存储介质和程序产品 |
CN114022893A (zh) * | 2021-11-08 | 2022-02-08 | 支付宝(杭州)信息技术有限公司 | 纸张文件的销毁方法及装置 |
CN114118278A (zh) * | 2021-11-29 | 2022-03-01 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN114117112B (zh) * | 2022-01-25 | 2022-05-24 | 深圳爱莫科技有限公司 | 通用的文本图片查重方法、存储介质及处理设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092707A (ja) * | 2003-09-19 | 2005-04-07 | Seiko Epson Corp | 類似度算出システムおよび類似度算出プログラム、並びに類似度算出方法 |
CN102207974A (zh) * | 2011-06-23 | 2011-10-05 | 天津海量信息技术有限公司 | 一种上下文web页面合并方法 |
CN102254296A (zh) * | 2011-07-13 | 2011-11-23 | 南京师范大学 | 一种gis矢量数据图像水印的相似度计算方法 |
CN109657213A (zh) * | 2018-12-21 | 2019-04-19 | 北京金山安全软件有限公司 | 文本相似度检测方法、装置和电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298749A (zh) * | 2014-10-14 | 2015-01-21 | 杭州淘淘搜科技有限公司 | 一种图像视觉和文本语义融合商品检索方法 |
CN106777177A (zh) * | 2016-12-22 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 检索方法和装置 |
CN108416028B (zh) * | 2018-03-09 | 2021-09-21 | 北京百度网讯科技有限公司 | 一种搜索内容资源的方法、装置及服务器 |
CN108920580B (zh) * | 2018-06-25 | 2020-05-26 | 腾讯科技(深圳)有限公司 | 图像匹配方法、装置、存储介质及终端 |
KR102048638B1 (ko) * | 2018-08-31 | 2019-11-25 | 망고슬래브 주식회사 | 콘텐츠 인식 방법 및 시스템 |
CN110472002B (zh) * | 2019-08-14 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 一种文本相似度获取方法和装置 |
CN110598037B (zh) * | 2019-09-23 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种图像搜索方法、装置和存储介质 |
-
2020
- 2020-05-20 CN CN202010431756.7A patent/CN111694978B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092707A (ja) * | 2003-09-19 | 2005-04-07 | Seiko Epson Corp | 類似度算出システムおよび類似度算出プログラム、並びに類似度算出方法 |
CN102207974A (zh) * | 2011-06-23 | 2011-10-05 | 天津海量信息技术有限公司 | 一种上下文web页面合并方法 |
CN102254296A (zh) * | 2011-07-13 | 2011-11-23 | 南京师范大学 | 一种gis矢量数据图像水印的相似度计算方法 |
CN109657213A (zh) * | 2018-12-21 | 2019-04-19 | 北京金山安全软件有限公司 | 文本相似度检测方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
廖开际 等.基于加权语义网的文本相似度计算的研究.情报杂志.2012,第31卷(第07期),182-186. * |
Also Published As
Publication number | Publication date |
---|---|
CN111694978A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694978B (zh) | 图像相似度检测方法、装置、存储介质与电子设备 | |
CN111598776B (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN111429517A (zh) | 重定位方法、重定位装置、存储介质与电子设备 | |
CN108594997B (zh) | 手势骨架构建方法、装置、设备及存储介质 | |
CN111179282A (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN110807361A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
CN111462170B (zh) | 运动估计方法、运动估计装置、存储介质与电子设备 | |
CN110991457B (zh) | 二维码处理方法、装置、电子设备及存储介质 | |
CN111598919B (zh) | 运动估计方法、运动估计装置、存储介质与电子设备 | |
CN111343356A (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN112954251A (zh) | 视频处理方法、视频处理装置、存储介质与电子设备 | |
CN112489036A (zh) | 图像评价方法、图像评价装置、存储介质与电子设备 | |
CN112990197A (zh) | 车牌识别方法及装置、电子设备和存储介质 | |
CN113343895B (zh) | 目标检测方法、目标检测装置、存储介质与电子设备 | |
CN114170554A (zh) | 视频检测方法、视频检测装置、存储介质与电子设备 | |
CN113763931A (zh) | 波形特征提取方法、装置、计算机设备及存储介质 | |
CN110728167A (zh) | 文本检测方法、装置及计算机可读存储介质 | |
CN110377914B (zh) | 字符识别方法、装置及存储介质 | |
CN110232417B (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN111444749A (zh) | 路面导向标志的识别方法、装置及存储介质 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN111310701B (zh) | 手势识别方法、装置、设备及存储介质 | |
CN111859001B (zh) | 图像相似度检测方法、装置、存储介质与电子设备 | |
CN113627314A (zh) | 人脸图像模糊检测方法、装置、存储介质与电子设备 | |
CN111951168B (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |