CN111310613A - 一种图像检测方法、装置以及计算机可读存储介质 - Google Patents
一种图像检测方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111310613A CN111310613A CN202010075777.XA CN202010075777A CN111310613A CN 111310613 A CN111310613 A CN 111310613A CN 202010075777 A CN202010075777 A CN 202010075777A CN 111310613 A CN111310613 A CN 111310613A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- target object
- pixel
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像检测方法、装置以及计算机可读存储介质,该方法包括:获取待检测图像,待检测图像包括目标对象;获取待检测图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;像素属性特征矩阵中的特征元素包含目标对象的每个像素点的属性信息;像素结构特征包含目标对象的每个像素点之间的结构信息;根据像素结构特征中的评估参数,确定针对待检测图像中的目标对象的检测结果;评估参数用于评估目标对象在原始图像中为异常显示的概率。采用本申请,可提高针对待检测图像中的目标对象的异常显示检测效率。
Description
技术领域
本申请涉及数据处理的技术领域,尤其涉及一种图像检测方法、装置以及计算机可读存储介质。
背景技术
随着计算机网络的发展,各式各样的游戏层出不穷,对于一个热门游戏而言,其面向的玩家不仅包括国内玩家,还包括国外玩家。一个游戏的游戏界面中通常会包含大量的文字,例如游戏设置界面中的设置选项所包含的文字以及游戏道具界面中的道具详情所包含的文字等。因此,当某个游戏的玩家既有国内玩家也有国外玩家时,就会涉及到游戏界面中的文字的语种变换问题。
其中,当将游戏界面中的一种语言(例如中文)变换成另一种语言(例如英文)时,游戏界面中的文字的长度通常会有所变化,这就很有可能会造成文字重叠(两个文字组之间相互重叠)、文字越界(即一个文字组超过了其在游戏界面中的文字框)以及文字遮挡(例如游戏界面中的按钮和文字之间的相互遮挡)等文字异常显示问题。
现有技术中,通常是需要游戏的测试人员在测试一款游戏时,手动对游戏界面中的文字显示有异常的区域进行标记。但是,对于一款游戏而言,承载游戏的终端设备的型号变化以及游戏界面中的文字的语种变化,都会使得游戏界面中的文字显示得有差异。因此,测试人员需要对每一种型号的终端设备中的游戏界面以及每一种语种条件下的游戏界面中的每一帧图像进行人工检测,导致针对游戏界面中的文字异常显示的检测效率低。
发明内容
本申请提供了一种图像检测方法、装置以及计算机可读存储介质,可提高针对目标对象的异常显示检测效率。
本申请一方面提供了一种图像检测方法,包括:
获取待检测图像,待检测图像包括目标对象;
获取待检测图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;像素属性特征矩阵中的特征元素包含目标对象的每个像素点的属性信息;像素结构特征包含目标对象的每个像素点之间的结构信息;
根据像素结构特征中的评估参数,确定针对待检测图像中的目标对象的检测结果;评估参数用于评估目标对象在待检测图像中为异常显示的概率;检测结果包括异常显示结果。
其中,获取待检测图像,包括:
获取原始图像,识别原始图像中的文本对象,将文本对象确定为目标对象;
将目标对象在原始图像中的图像区域所包含的图像,确定为待检测图像。
其中,还包括:
若显示检测结果为异常显示结果,则根据异常显示结果对原始图像中的目标对象的对象位置进行标记,得到标记图像;
将标记图像发送至测试装置,以使测试装置根据标记图像对目标对象进行更新。
其中,根据像素结构特征中的评估参数,确定针对待检测图像中的目标对象的检测结果,包括:
基于注意力机制对像素结构特征中的评估参数进行加权,得到加权后的像素结构特征;
根据加权后的像素结构特征,确定检测区域中的目标对象对应的异常显示概率;
若异常显示概率大于或者等于异常显示概率阈值,则确定目标对象对应的显示检测结果为异常显示结果。
其中,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征,包括:
获得像素属性特征矩阵中的特征元素之间的位置关联关系,基于位置关联关系获得特征元素对应的特征序列;
将特征序列输入循环神经网络,得到像素结构特征。
本申请一方面提供了一种数据训练方法,包括:
获取样本图像;样本图像中包括目标对象;样本图像携带显示类型标签;
通过原始检测模型获取样本图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;
根据像素结构特征中的评估参数,确定目标对象在样本图像中为异常显示的异常显示概率;
根据异常显示概率和样本图像所携带的显示类型标签,修正原始检测模型的模型参数,得到检测模型。
其中,样本图像包括正样本图像和负样本图像;显示类型标签包括异常显示标签和正常显示标签;正样本图像携带正常显示标签;负样本图像携带异常显示标签;异常显示标签表征目标对象为异常显示;正常显示标签表征目标对象为正常显示;正样本图像包括真实正样本图像和模拟正样本图像;负样本图像包括真实负样本图像和模拟负样本图像。
其中,异常显示概率包括第一概率和第二概率;
根据异常显示概率和样本图像所携带的显示类型标签,修正原始检测模型的模型参数,得到检测模型,包括:
通过第一概率、模拟正样本图像所携带的正常显示标签和模拟负样本图像所携带的异常显示标签,修正原始检测模型的模型参数,得到预修正检测模型;第一概率是由原始检测模型根据模拟正样本图像和模拟负样本图像所预测得到的概率;
通过第二概率、真实正样本图像所携带的正常显示标签和真实负样本图像所携带的异常显示标签,修正预修正检测模型的模型参数,得到检测模型;第二概率是由预修正检测模型根据真实正样本图像和真实负样本图像所预测得到的概率。
其中,获取样本图像,包括:
获取素材图像,获取样本对象;样本对象与目标对象为同一类型的对象;
将素材图像和样本对象进行异常组合,得到第一组合图像,为第一组合图像添加异常显示标签,将已添加异常显示标签的第一组合图像确定为模拟负样本图像;
将素材图像和样本对象进行正常组合,得到第二组合图像,为第二组合图像添加正常显示标签,将已添加正常显示标签的第二组合图像确定为模拟正样本图像。
其中,样本对象为文本类型对象;获取素材图像,获取样本对象,包括:
从素材图像数据库中获取素材图像,从语种类型库中获取文本语种类型,从文本格式库中获取文本排版格式;
根据文本语种类型和文本排版格式,生成样本对象。
其中,素材图像包括背景图像和遮挡图像;将素材图像和样本对象进行异常组合,得到第一组合图像,包括:
将样本对象添加至背景图像中,得到第一过渡组合图像;
将遮挡图像覆盖添加于第一过渡组合图像中的样本对象上,得到第一组合图像。
其中,样本对象包括第一样本对象和第二样本对象;
将素材图像和样本对象进行异常组合,得到第一组合图像,包括:
将第一样本对象添加至素材图像中,得到第二过渡组合图像;
将第二样本对象重合添加于第二过渡组合图像中的第一样本对象上,得到第一组合图像。
其中,样本对象为文本类型对象;素材图像中包括文本框;
将素材图像和样本对象进行异常组合,得到第一组合图像,包括:
将样本对象中的部分对象内容添加至素材图像中的文本框中,得到第一组合图像;
则,将素材图像和样本对象进行正常组合,得到第二组合图像,包括:
将样本对象中的全部对象内容添加至素材图像中的文本框中,得到第二组合图像。
本申请一方面提供了一种图像检测装置,包括:
图像获取模块,用于获取待检测图像,待检测图像包括目标对象;
特征生成模块,用于获取待检测图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;像素属性特征矩阵中的特征元素包含目标对象的每个像素点的属性信息;像素结构特征包含目标对象的每个像素点之间的结构信息;
结果确定模块,用于根据像素结构特征中的评估参数,确定针对待检测图像中的目标对象的检测结果;评估参数用于评估目标对象在待检测图像中为异常显示的概率;检测结果包括异常显示结果。
其中,图像获取模块,包括:
对象确定单元,用于获取原始图像,识别原始图像中的文本对象,将文本对象确定为目标对象;
区域确定单元,用于将目标对象在原始图像中的图像区域所包含的图像,确定为待检测图像。
其中,结果确定模块,包括:
加权单元,用于基于注意力机制对像素结构特征中的评估参数进行加权,得到加权后的像素结构特征;
概率确定单元,用于根据加权后的像素结构特征,确定检测区域中的目标对象对应的异常显示概率;
第一结果确定单元,用于若异常显示概率大于或者等于异常显示概率阈值,则确定目标对象对应的显示检测结果为异常显示结果。
其中,特征生成模块,包括:
序列获取单元,用于获得像素属性特征矩阵中的特征元素之间的位置关联关系,基于位置关联关系获得特征元素对应的特征序列;
序列输入单元,用于将特征序列输入循环神经网络,得到像素结构特征。
其中,图像检测装置,还包括:
标记模块,用于若显示检测结果为异常显示结果,则根据异常显示结果对原始图像中的目标对象的对象位置进行标记,得到标记图像;
发送模块,用于将标记图像发送至测试装置,以使测试装置根据标记图像对目标对象进行更新。
本申请一方面提供了一种数据训练装置,包括:
样本获取模块,用于获取样本图像;样本图像中包括目标对象;样本图像携带显示类型标签;
特征提取模块,用于通过原始检测模型获取样本图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;
概率确定模块,用于根据像素结构特征中的评估参数,确定目标对象在样本图像中为异常显示的异常显示概率;
修正模块,用于根据异常显示概率和样本图像所携带的显示类型标签,修正原始检测模型的模型参数,得到检测模型。
其中,样本图像包括正样本图像和负样本图像;显示类型标签包括异常显示标签和正常显示标签;正样本图像携带正常显示标签;负样本图像携带异常显示标签;异常显示标签表征目标对象为异常显示;正常显示标签表征目标对象为正常显示;正样本图像包括真实正样本图像和模拟正样本图像;负样本图像包括真实负样本图像和模拟负样本图像。
其中,异常显示概率包括第一概率和第二概率;
修正模块,包括:
第一修正单元,用于通过第一概率、模拟正样本图像所携带的正常显示标签和模拟负样本图像所携带的异常显示标签,修正原始检测模型的模型参数,得到预修正检测模型;第一概率是由原始检测模型根据模拟正样本图像和模拟负样本图像所预测得到的概率;
第二修正单元,用于通过第二概率、真实正样本图像所携带的正常显示标签和真实负样本图像所携带的异常显示标签,修正预修正检测模型的模型参数,得到检测模型;第二概率是由预修正检测模型根据真实正样本图像和真实负样本图像所预测得到的概率。
其中,样本获取模块,包括:
获取单元,用于获取素材图像,获取样本对象;样本对象与目标对象为同一类型的对象;
第一组合单元,用于将素材图像和样本对象进行异常组合,得到第一组合图像,为第一组合图像添加异常显示标签,将已添加异常显示标签的第一组合图像确定为模拟负样本图像;
第二组合单元,用于将素材图像和样本对象进行正常组合,得到第二组合图像,为第二组合图像添加正常显示标签,将已添加正常显示标签的第二组合图像确定为模拟正样本图像。
其中,样本对象为文本类型对象;获取单元,包括:
获取子单元,用于从素材图像数据库中获取素材图像,从语种类型库中获取文本语种类型,从文本格式库中获取文本排版格式;
对象生成子单元,用于根据文本语种类型和文本排版格式,生成样本对象。
其中,素材图像包括背景图像和遮挡图像;第一组合单元,包括:
第一添加子单元,用于将样本对象添加至背景图像中,得到第一过渡组合图像;
第一添加子单元,用于将遮挡图像覆盖添加于第一过渡组合图像中的样本对象上,得到第一组合图像。
其中,样本对象包括第一样本对象和第二样本对象;
第一组合单元,包括:
第三添加子单元,用于将第一样本对象添加至素材图像中,得到第二过渡组合图像;
第四添加子单元,用于将第二样本对象重合添加于第二过渡组合图像中的第一样本对象上,得到第一组合图像。
其中,样本对象为文本类型对象;素材图像中包括文本框;
第一组合单元,还用于:
将样本对象中的部分对象内容添加至素材图像中的文本框中,得到第一组合图像;
则,第二组合单元,还用于:
将样本对象中的全部对象内容添加至素材图像中的文本框中,得到第二组合图像。
本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如本申请中一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述一方面中的方法。
本申请可以对检测图像(包括上述样本图像和待检测图像)中的图像特征进行提取,并可以对所提取到的图像特征进行上下文理解,得到像素结构特征,进而可以通过所得到的像素结构特征判断检测图像中的目标对象是否显示异常。由此可见,本申请提出的方法可以通过进行上下文理解所得到的图像特征(即像素结构特征)对检测图像(例如待检测图像和样本图像)中的目标对象的显示情况(包括异常显示和正常显示)进行检测识别,提高了针对目标对象的异常显示的检测效率和检测准确性。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种***架构示意图;
图2是本申请提供的一种图像检测的场景示意图;
图3是本申请提供的一种图像检测方法的流程示意图;
图4是本申请提供的一种获取特征序列的场景示意图;
图5是本申请提供的一种获取加权后的像素结构特征的场景示意图;
图6是本申请提供的一种终端设备的页面示意图;
图7是本申请提供的一种数据训练方法的流程示意图;
图8是本申请提供的一种生成模拟样本图像的流程示意图;
图9是本申请提供的一种生成模拟样本图像的场景示意图;
图10是本申请提供的另一种生成模拟样本图像的场景示意图;
图11是本申请提供的另一种生成模拟样本图像的场景示意图;
图12是本申请提供的一种数据检测的流程示意图;
图13是本申请提供的一种图像检测装置的结构示意图;
图14是本申请提供的一种数据训练装置的结构示意图;
图15是本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)和机器学习(Machine Learning,ML)。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本申请中,尤其涉及到场景文本异常显示检测,场景文本异常显示检测是指识别场景图像中的文字在该场景图像中是否是异常显示,不仅需要使用计算机视觉技术来获取场景图像中文字所在的位置区域,还需要借助机器学习来判断该位置区域中的文字是否是异常显示。
请参见图1,是本申请提供的一种***架构示意图。如图1所示,该***架构示意图包括服务器100以及多个终端设备,多个终端设备具体包括终端设备200a、终端设备200b和终端设备200c。其中,终端设备200a、终端设备200b和终端设备200c均能通过网络与服务器100之间相互通信,终端设备可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)。此处以终端设备200a与服务器100之间的通信为例进行说明。
请一并参见图2,是本申请提供的一种图像检测的场景示意图。如图2所示,终端设备200a可以是游戏测试设备,终端设备200a中可以安装游戏应用。因此,游戏测试人员可以使用终端设备200a对所安装的游戏应用进行测试,测试的内容可以包含测试游戏应用的游戏界面中的文字是否显示异常。其中,游戏界面中的文字显示异常的情况可以包括:文字之间相互重叠,文字显示区域超过了文字本身能够显示的区域,文字被其他功能按钮所遮挡等。终端设备200a可以运行所安装的游戏应用,终端设备200a在运行游戏应用的过程中,可以对游戏应用中所显示的每一帧游戏画面都进行截图。如图2所示,终端设备200a的终端页面114a中显示的画面即是运行游戏应用时的游戏画面,因此,终端设备200a对游戏画面进行截图,可以得到图像101a。此处需要进行说明的是,上述说明了终端设备200a会对运行中的游戏应用的每一帧游戏画面都进行截图,因此,得到的截图不仅仅包括图像101a,还可以包含其他若干个截图。终端设备200a可以将截取得到的所有图像(包括图像101a)都发送给服务器100,服务器100可以对获取到的每个图像均进行检测,即检测每个图像中的文字是否显示异常。对于截取得到的每一个图像而言,服务器100检测其图像中的文字是否是显示异常的过程均相同,因此,此处以图像101a为例,对服务器100如何检测图像中的文字是否显示异常进行具体说明。
如图2所示,服务器100可以通过文字识别模型对图像101a中的文字进行识别,其中,文字识别模型可以是已有的OCR模型(一种光学字符识别模型)。通过文字识别模型可以对识别出的图像101a中文字所在的图像区域进行截取,即截取得到图像101a中文字(该文字为足球小子势不可挡)所在的图像区域,此处通过文字检测模型得到的图像101a中文字所在的图像区域为图像102a。因此,服务器100只需要对截取得到的图像102a(局部图像)进行检测,而无需对图像101a(全局图像)直接进行检测。如图2所示,“输入:待检测文字图像”即是表明服务器100可以将图像102a输入检测模型103a中进行检测。其中,检测模型103a为已经训练好的可以对图像中的图像特征进行提取,并根据提取得到的图像特征判断该图像中的文字是否异常显示的模型,对检测模型的训练过程可以参见下述图5对应的实施例中的描述。
检测模型中可以包括卷积神经网络、循环神经网络、注意力机制网络、全连接层和分类器。具体的,当服务器100将图像102a输入检测模型103a中时,卷积神经网络可以对图像102a中的图像特征进行提取,由于通过卷积神经网络提取得到的图像102a的图像特征为分散的特征,该分散的特征是指提取得到多类特征,而未将每一类特征进行关联理解所得到的特征。因此,通过卷积神经网络可以得到针对图像102a的多个特征图,该多个特征图即是集合104a中的各个特征图。其中,集合104a中的每个特征图分别对应于图像102a所包含的某一类图像特征。可以通过集合104a中的各个特征图得到特征序列,其中,特征序列可以是对集合104a中的每个特征图中的各个特征元素进行串行排列所得到的序列,得到序列的具体过程可以参见下述图3对应的实施例中对步骤S102的描述。其中,上述循环神经网络为可以对特征进行上下文理解(可以理解为是理解前后图像特征之间的变化趋势)的网络,其输入为序列,输出也为序列。因此,可以将上述特征序列输入循环神经网络,该循环神经网络可以对所输入的特征序列进行双向循环计算,综合考虑图像102a中的图像特征的上下文信息特征,得到序列105a。换句话说,通过上述卷积神经网络提取得到的是针对图像102a的多类图像特征(即分散的特征,集合104a中的一个特征图对应于一种图像特征,其中,特征图在检测模型中是以像素属性特征矩阵的形式存在),而通过循环神经网络可以对该多种类型的图像特征进行综合理解,得到全局的图像特征,该全局的图像特征就是通过序列105a所体现的,该序列105a即为通过循环神经网络所得到的针对图像102a的像素结构特征。
接着,可以将序列105a输入注意力机制网络,该注意力机制网络主要是用于对序列105a中的各个元素进行加权。由于检测模型103a为已经训练好的模型,因此,检测模型103a可以知道重点需要关注的图像特征是什么,换句话说,检测模型103a知道重点需要对序列105a中的哪些特征元素进行加权。即通过注意力机制网络可以对序列105a中的每个特征元素进行加权,但是,对于检测模型重点关注的图像特征所对应的特征元素,注意力机制网络会给予更高的权重,对于不是检测模型重点关注的图像特征所对应的特征元素,注意力机制网络会给予更低的权重。需要进行说明的是,检测模型为通过大量异常样本图像(指图像中包含异常显示的文字的样本图像)和正常样本图像(指图像中包含正常显示的文字的样本图像,而不包含异常显示的文字的样本图像)进行训练所得到的模型,因此,检测模型已经学习到了异常样本图像具备哪些图像特征,正常样本图像具备哪些图像特征,检测模型重点关注的图像特征即是异常样本图像所具备的图像特征,更具体的说明则是,检测模型重点关注的图像特征为异常样本图像中文字显示异常部分的图像所具有的图像特征。上述注意力机制网络就是用于突出能够表征图像102a中的文字是异常显示的图像特征。
通过上述注意力机制网络对序列105a进行加权之后,可以得到序列106a。序列106a即是检测模型得到的表征图像102a的图像特征的最终的序列。可以将序列106a输入全连接层,全连接层可以根据序列106a得到一个向量107a。可以理解为向量107a即是检测模型最终得到的图像102a的图像特征,即在检测模型中,图像102a的图像特征是通过向量107a所表示的。由于检测模型已经被训练完毕,因此,检测模型中的分类器可以根据该向量107a判别图像102a是哪一类图像,即判断图像102a中的文字是正常显示的还是的异常显示的。具体的,通过分类器可以得到针对图像102a的一个异常显示概率108a,通过该异常显示概率即可得到针对图像102a的显示检测结果109a。异常显示概率108a越高,表明检测出的图像102a中的文字为异常显示的概率就更大,异常显示概率108a越低,表明检测出的图像102a中的文字为异常显示的概率就更小。其中,显示检测结果可以包含两种结果,一种是异常显示结果,另一种是正常显示结果。异常显示结果表征图像中的文字有异常显示的文字部分,正常显示结果表征图像中的文字是正常显示的,不包含异常显示的文字部分。可以设定一个异常显示概率阈值,当异常显示概率108a大于或者等于该异常显示概率阈值时,则得到的显示检测结果109a可以是上述异常显示结果,表征图像102a中的文字为异常显示。当异常显示概率108a小于该异常显示概率阈值时,则得到的显示检测结果109a可以是上述正常显示结果,表征图像102a中的文字为正常显示。当需要精度更高的检测模型,则可以将异常显示概率阈值的数值设置得更高,当精度要求不是太高,则可以将异常显示概率阈值的数值设置得更低,异常显示概率阈值的数值可以根据实际应用场景进行设置,对其不进行限定。
如图2所示,“输出:文字图像是否异常”即是输出上述显示检测结果109a。其中,若图像101a中包含多个文字组,则可以截取得到图像101a中的多个截图(包括图像102a,一个文字组对应于一个截图),每个截图的检测过程与上述图像102a的检测过程相同。只要该多个截图中存在一个截图的显示检测结果为异常显示结果,则图像101a对应的显示检测结果也为异常显示结果。当该多个截图中的每个截图对应的显示检测结果均为正常显示结果,则图像101a对应的显示检测结果也为正常显示结果。
更多的,当上述显示检测结果109a为异常显示结果时,表明图像101a的显示检测结果也为异常显示结果,则服务器100可以将该图像101a保存下来,例如保存在异常图像数据集110a中,异常图像数据集用于存储包含异常显示的文字的游戏画面对应的截图。后续,服务器100可以将图像110a发送给开发装置111a,该开发装置111a可以是开发人员所持有的装置。开发人员可以通过开发装置111a对造成图像101a中文字显示异常的***设置重新进行设置,重新设置之后,图像101a中的文字可以显示为图像112a中的文字的形式,即文字之间无重合,是正常显示的。因此,后续当终端设备200a再次运行更新之后的游戏应用时,对于上述图像101a在该游戏应用中对应位置处的游戏画面可以是终端页面113a中所显示的样子,终端页面113a中文字显示的样子即是图像112a中文字所显示的样子。
通过本申请提供的方法,可以通过被大量异常样本图像和正常样本图像训练完成的检测模型,对图像中的文字是否是异常显示的进行机器检测,无需测试人员人工进行检测和标注(标注文字显示异常的区域),提高了针对图像中的文字异常显示检测的效率。
请参见图3,是本申请提供的一种图像检测方法的流程示意图,如图3所示,方法可以包括:
步骤S101,获取待检测图像,待检测图像包括目标对象;
具体的,本申请所提供的图像检测方法可以通过已经训练好的检测模型来实现,检测模型的训练过程可以参见下述图7对应的实施例中的描述。因此,本申请所提供的图像检测方法中的执行主体可以是能够调用该检测模型的终端设备,也可以是能够调用该检测模型的服务器。其中,终端设备中可以安装客户端,终端设备可以通过该客户端来实现对检测模型的调用。下述过程中以服务器作为执行主体为例进行本申请所提供的图像检测方法的具体说明。
服务器可以获取到待检测图像,该待检测图像中包括目标对象,该目标对象是文本类型的对象,换句话说,该目标对象为文字。服务器所获取到的待检测图像可以是从包含目标对象的原始图像中截取下来的图像。本申请所提供的方法可以应用在游戏测试阶段,具体指在测试一款游戏应用时,对该游戏应用中的每一帧游戏画面中的文字(该文字即为目标对象)是否是异常显示进行检测。因此,上述原始图像可以是在游戏应用的测试阶段中,运行该游戏应用时,对该游戏应用中的每一帧游戏画面进行截图所得到的图像。其中,文字异常显示(即目标对象异常显示)的的情形可以包括文字与文字之间相互重叠遮挡显示,文字与游戏界面中的按钮相互遮挡显示以及文字超过用于显示其的文字框(即越界/超框)等情形。
服务器从原始图像中截取出待检测图像的过程可以是:服务器可以通过文字识别模型对原始图像中的文字进行检测,并将检测到的文字作为目标对象。文字识别模型在检测到原始图像中的文字之后,可以得到所检测到的文字在原始图像中所在的图像区域(该图像区域可以理解为是所检测到的文字在原始图像中的文字框对应的区域),服务器可以在原始图像中将该图像区域所包含的图像截取下来,作为待检测图像。需要进行说明的是,上述文字识别模型可以是本领域已经训练好的任意一个文字识别模型,例如,上述文字识别模型可以是已有的OCR模型(一种光学字符识别模型)。
步骤S102,获取待检测图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;
具体的,服务器可以将上述得到的待检测图像输入到检测模型中,检测模型中包括CNN(Convolutional Neural Network,卷积神经网络)网络,检测模型可以通过CNN网络提取该待检测图像中的图像特征,得到待检测图像对应的多个特征图,该特征图在检测模型中是以矩阵的形式所存在的。因此,可以将CNN网络所得到的待检测图像的多个特征图称之为多个像素属性特征矩阵,一个特征图对应于一个像素属性特征矩阵。在本申请中,上述CNN网络的滤波器通道可以是32~256个,卷积核大小可以是3~7,卷积步幅可以是1~4。CNN网络中滤波器通道个数、卷积核大小和卷积步幅均可以根据实际应用场景决定,对此不作限制。
需要进行说明的是,通过CNN网络提取得到的待检测图像中的图像特征为分散的特征,该分散的特征指多种类型的特征。通过上述可以知道,通过CNN网络可以得到待检测图像对应的多个像素属性特征矩阵,每个像素属性特征矩阵都是通过对整个待检测图像进行特征提取所得到的。一个像素属性特征矩阵包含了待检测图像中的一类图像特征,因此,多个像素属性特征矩阵就包含了待检测图像中的多类图像特征,该多类图像特征之间没有关联,因此,是分散的图像特征。其中,像素属性特征矩阵主要包含了待检测图像中的角点、边缘、曲线以及直线等图像特征,该图像特征是通过待检测图像中的各个像素点的像素值所得到的。因此,其中一个像素属性特征矩阵可以包含待检测图像中的角点特征,其中一个像素属性特征矩阵可以包含待检测图像中的边缘特征,其中一个像素属性特征矩阵可以包含待检测图像中的曲线特征,其中一个像素属性特征矩阵还可以包括待检测图像中的直线特征。像素属性特征矩阵中的特征元素包含了目标对象的每个像素点的属性信息,该属性信息可以指上述角点、边缘、曲线以及直线等图像信息。
检测模型中还可以包括RNN(Recurrent Neural Network,循环神经网络)网络,其中,RNN网络是一类用于处理序列数据的神经网络。由于上述通过CNN网络得到的待检测图像的图像特征是分散的多种类型的图像特征,因此,可以通过RNN网络对CNN网络所得到的多种分散的图像特征进行融合,使得在检测待检测图像中的目标物体的显示情况(包括异常显示的情况和正常显示的情况)时,检测得会更加准确。
在本申请中,RNN网络可以采用双向的GRU结构,具体原因如下:RNN网络通常会包含3个门控,分别为遗忘门、输入门和输出门,通过该3个门控使得网络可以知道哪些数据需要保留用以更新网络参数,哪些数据需要丢弃。常规的RNN网络,例如采用LSTM(LongShort-Term Memory,一种长序列处理网络)结构的RNN网络,所包含的上述3个门控,通常是独立工作的,但是对于GRU结构的RNN网络而言,则是将遗忘门和输入门合并为了一个门控,可以将合并得到的门控称之为重置门。因此,可以理解为,采用GRU结构的RNN网络中只有重置门和输出门2个门控。由于RNN网络中仅有两个门控,这会使得RNN网络的网络结构更加简单,网络参数更少,当RNN网络在对数据进行计算处理时,RNN网络的计算量也会相应变少,因此,在通过RNN网络对上述CNN网络所得到的多种分散的图像特征进行融合处理时,也会有更高的处理效率。并且,由于采用GUR结构之后,会使得RNN网络的网络结构更加简单,因此,当后续需要扩大检测模型的模型规模(例如增加检测模型中的网络层数)时,也会变得更加容易实现。
其中,RNN网络具备对不同图像特征进行关联理解以实现特征融合的能力,RNN网络主要用于对序列进行处理,其输入是序列,输出也是序列。通过RNN网络可以对上述CNN网络得到的多种分散的图像特征进行上下文理解,即理解多种图像特征之间的关联,得到像素结构特征。该像素结构特征包含了待检测图像中的各个像素点之间的上下文关联信息(也就是像素属性特征矩阵中的各个特征元素之间的位置关联关系,像素属性特征矩阵中的一个值代表一个特征元素),该像素结构特征可以理解为是包含了待检测图像中的文字结构特征和文字的背景图像特征。像素结构特征包含了目标对象的每个像素点之间的结构信息,可以将该结构信息理解为目标对象的每个像素点之间的分布信息。
RNN网络对CNN网络所得到的多种分散的图像特征进行融合的过程可以是:首先,可以通过CNN网络所得到的多个像素属性特征矩阵中的各个特征元素,得到一个或者多个特征序列,该特征序列实际上是将像素属性特征矩阵中的各个特征元素进行排列组合所得到的。接着,可以将得到的特征序列输入RNN网络中,RNN网络可以对所获取到的特征序列进行计算处理,得到像素结构特征,该像素结构特征也是一个序列。像素结构特征的序列长度与RNN网络的网络参数设置相关,因此,对于像素结构特征的序列长度不做限制。下述图4对应的实施例中具体举例说明了如何通过多个像素属性特征矩阵得到特征序列。
请参见图4,是本申请提供的一种获取特征序列的场景示意图。如图4所示,假设上述获取到的像素属性特征矩阵包括矩阵100c和矩阵101c。矩阵100c中的特征元素包括6、3、8、3、5、7、2、4和5,矩阵101c中的特征元素包括1、7、9、2、4、3、8、6和5。其中,可以以列方向获取特征图对应的特征序列,也可以以行方向获取特征图对应的特征序列。例如,可以以列方向获取矩阵100c对应的特征序列,得到特征序列6、3、2、3、5、4、8、7、5,也可以以行方向获取矩阵100c对应的特征序列6、3、8、3、5、7、2、4、5。同理,若是以行方向获取的矩阵100c对应的特征序列,那么也可以以行方向获取矩阵101c对应的特征序列,得到特征序列1、7、9、2、4、3、8、6、5。此时,可以直接将矩阵100c对应的特征序列6、3、8、3、5、7、2、4、5和矩阵101c对应的特征序列1、7、9、2、4、3、8、6、5作为输入到RNN网络中的特征序列。可选的,也可以将上述矩阵100c对应的特征序列6、3、8、3、5、7、2、4、5和矩阵101c对应的特征序列1、7、9、2、4、3、8、6、5进行拼接,得到特征序列6、3、8、3、5、7、2、4、5、1、7、9、2、4、3、8、6、5,将该特征序列6、3、8、3、5、7、2、4、5、1、7、9、2、4、3、8、6、5作为输入到RNN网络中。其中,特征序列的获取方式(例如是以行方向获取还是以列方向获取,是否进行拼接)根据实际应用场景决定,对此不作限制。上述位置关联关系是指每个特征图中的特征元素之间的位置关联关系,例如,矩阵100c中的特征元素6、3、8、3、5、7、2、4、5在矩阵100c中的位置关联关系,又例如,矩阵101c中的特征元素1、7、9、2、4、3、8、6、5在矩阵101c中的位置关联关系。可以理解的是,由于每个像素属性特征矩阵分别为检测图像对应的每类图像特征,因此,每个像素属性特征矩阵中相同位置处的特征元素对应于检测图像中同一位置的图像特征。例如,矩阵100c中的第一行第一列处的特征元素6与矩阵101c中的第一行第一列处的特征元素1对应于检测图像中同一图像位置处的图像特征。其中,上述像素属性特征矩阵的尺寸与CNN网络的网络参数设置有关,因此,对此不作限制。
步骤S103,根据像素结构特征中的评估参数,确定针对待检测图像中的目标对象的检测结果;
具体的,像素结构特征为一个序列,该序列中的一个数值可以为像素结构特征中的一个特征元素。由于上述检测模型为已经训练好的模型,因此,该检测模型可以识别出待检测图像中文字(即目标对象)是异常显示的像素位置处的图像特征,可以将该图像特征称之为异常图像特征,并识别出待检测图像中文字是正常显示的像素位置处的图像特征,可以将该图像特征称之为正常图像特征。上述像素结构特征中包含了异常图像特征对应的特征元素以及正常图像特征对应的特征元素,通过RNN网络所得到的像素结构特征中,异常图像特征对应的特征元素会被给予更高的数值,正常图像特征对应的特征元素会被给予更低的数值。因此,像素结构特征中的每个特征元素的数值高低可以表征该特征元素对应的像素位置处的图像特征偏向于是异常图像特征的概率。特征元素的数值越高,表明对应像素位置处的图像特征为异常图像特征的概率就越大。因此,可以直接将像素结构特征中的各个特征元素称之为评估参数,该评估参数用于评估目标对象在待检测图像中是异常显示的概率。
因此,可以理解的是,像素结构特征中检测出文字是异常显示的部分图像的图像特征所对应的特征元素的数值会更大(即文字是异常显示的图像特征对应的评估参数越大),像素结构特征中检测出文字是正常显示的部分图像的图像特征所对应的特征元素的数值会更小(即文字是正常显示的图像特征对应的评估参数越小)。
其中,检测模型中还可以包括注意力机制网络,该注意力机制网络的作用就是对像素结构特征中的各个特征元素进行加权,也就是对像素结构特征中的各个评估参数进行加权,得到加权之后的像素结构特征。通过该注意力机制网络可以给予像素结构特征中表征文字是异常显示的特征元素更高的权重,给予像素结构特征中表征文字是正常显示的特征元素更低的权重。换句话说,注意力机制网络是用于突出像素结构特征中表征文字是异常显示的图像特征。通过使用注意力机制矩阵来对像素结构特征中各个评估参数进行加权,可以使得检测模型对像素结构特征中表征文字是异常显示的图像特征更加敏感,从而使得最终检测模型所检测得到的针对待检测图像的检测结果(包括异常显示结果和正常显示结果)更加准确。
请参见图5,是本申请提供的一种获取加权后的像素结构特征的场景示意图。其中,集合101b中为通过CNN网络所得到的3个像素属性特征矩阵。将通过集合101b中的3个像素属性特征矩阵所得到的特征序列输入RNN网络可以得到像素结构特征102b,像素结构特征102b也就是特征序列3、6、9、4、7、5、8。通过注意力机制网络可以对像素结构特征102b进行加权,其中,注意力机制网络对像素结构特征102b进行加权的权重依次可以是0.3、0.5、1、0.1、0.5、0.4、0.7,该加权权重也是检测模型在训练阶段中所学习到的权重,即给予异常图像特征对应的评估参数更高的权重,给予正常图像特征对应的评估参数更低的权重。因此,通过加权权重0.3、0.5、1、0.1、0.5、0.4、0.7对像素结构特征102b进行加权所得到的加权后的像素结构特征104b为特征序列0.9、3、9、0.4、3.5、2、5.6。
检测模型中还包括全连接层和分类器(该分类器可以是softmax),可以将上述加权后的像素结构特征输入全连接层,通过全连接层可以得到该加权后的像素结构特征所对应的特征向量,该特征向量可以理解为是检测模型最终所学习到的待检测图像对应的图像特征。其中,全连接层结点个数可以取32~128,全连接层的节点个数可以根据实际应用场景决定,对此不作限制。可以将得到的特征向量输入分类器,由于检测模型为已经训练好的可以识别出待检测图像中文字是异常显示的模型,因此,检测模型中的分类器可以通过该特征向量输出一个待检测图像中的目标对象为异常显示的异常显示概率。异常显示概率越大,表明检测出的目标对象在待检测图像中为异常显示的概率就越大,异常显示概率越小,表明检测出的目标对象在待检测图像中为异常显示的概率就越小。检测模型所得到的待检测图像的检测结果包括异常显示结果和正常显示结果,异常显示结果表征检测模型识别出目标对象在待检测图像中是异常显示的,正常显示结果表征检测模型识别出目标对象在待检测图像中是正常显示的。可以设定一个异常显示概率阈值,当上述异常显示概率大于或者等于该异常显示概率阈值,就判定目标对象在原始图像中为异常显示,得到异常显示结果。当上述异常显示概率小于该异常显示概率阈值,就判定目标对象在原始图像中为正常显示,得到正常显示结果。
可以通过所得到的待检测图像对应的检测结果,进一步得到针对原始图像的检测结果,原始图像的检测结果也包括异常显示结果和正常显示结果。需要进行说明的是,由于原始图像中有可能存在多个文字组(一个文字组对应于一个文字框),一个文字组为一个目标对象,因此,可能会得到原始图像中的多个待检测图像(一个文字组对应于一个待检测图像)。可以理解的是,当该多个待检测图像中的至少一个待检测图象对应的异常显示概率大于或者等于异常显示概率阈值,就判定原始图像对应的检测结果为异常显示结果。换句话说,只要原始图像中存在文字是异常显示的,那么,原始图像对应的检测结果就为异常显示结果。当原始图像中的多个待检测图像对应的异常显示概率均小于异常显示概率阈值时,则判定原始图像对应的显示检测结果为正常显示结果。
当检测出原始图像对应的检测结果为异常显示结果时,服务器可以将该原始图像先存储下来。服务器在存储检测结果为异常显示结果的原始图像之前,还可以对该原始图像中为异常显示的目标对象的对象位置进行标记,例如,用一个标记框将异常显示的目标对象框出来,服务器可以将进行标记之后的原始图像存储下来。当服务器对游戏应用中的每一帧游戏画面的截图(即所有的原始图像)均检测完毕时,服务器可以将所存储的检测结果为异常显示结果的所有原始图像(标记了异常显示的目标对象的对象位置)发送至测试装置,测试装置可以根据被标记的异常显示的目标对象的对象位置来对目标对象的排版进行更新。对目标对象的排版进行更新的过程可以包括:若目标对象对应的文字之间是相互重叠显示的,则可以调整文字之间的间距,使得文字之间不再重叠显示;若目标对象对应的文字于按钮之间是相互遮挡显示的,则可以调整文字于按钮之间的间距,使得文字与按钮之间不再相互遮挡显示;若目标对象对应的文字超过出了原本承载其的文字框,则可以调整文字的大小或者将文字进行换行显示,使得文字全部存在于承载其的文字框中。其中,上述测试装置可以是开发人员所持有的装置,上述对显示异常的目标对象所在的游戏画面(即原始图像对应的游戏画面)进行修正更新的操作可以是开发人员通过测试装置所完成的。
本申请可以对检测图像(包括上述样本图像和待检测图像)中的图像特征进行提取,并可以对所提取到的图像特征进行上下文理解,得到像素结构特征,进而可以通过所得到的像素结构特征判断检测图像中的目标对象是否显示异常。由此可见,本申请提出的方法可以通过进行上下文理解所得到的图像特征(即像素结构特征)对检测图像(例如待检测图像和样本图像)中的目标对象的显示情况(包括异常显示和正常显示)进行检测识别,提高了针对目标对象的异常显示的检测效率和检测准确性。
请参见图6,是本申请提供的一种终端设备的页面示意图。如图6所示,终端设备100k中安装有游戏应用,终端页面101k是终端设备100k登录所安装的游戏应用时,游戏应用中的“设置”页面。终端设备101k中的文字是中文,当将游戏应用中的文字从中文翻译成英文时,游戏应用中的“设置”页面可以是终端页面105k所显示的画面。如终端页面105k所示,当将终端页面101k中的中文翻译成英文之后,终端页面中105k中的文字就有异常显示的情况。该异常显示的情况包括区域102k中的文字“General Settings”越界显示,即文字“General Settings”显示的区域超过了原本用于显示其的文字框107k。异常显示的情况还包括区域103k中的文字“Expansion Download”越界显示,即文字“Expansion Download”显示的区域超过了原本用于显示其的文字框。异常显示的情况还包括区域104k中的文字“Sound Effect”和文字“On”之间相互重叠显示。
在本申请中,在对游戏应用进行测试时,可以得到终端页面105k中的完整游戏画面的截图,该截图即是上述原始图像。首先可以从该原始图像中截取得到多个待检测图像,一个文字组对应于一个待检测图像。该多个待检测图像包括对区域102k的截图(可以将该截图称之为第一截图)、对区域103k的截图(可以将该截图称之为第二截图)以及对区域104k的截图(可以将该截图称之为第三截图)等。通过本申请中的检测模型可以对所得到的第一截图、第二截图以及第三截图中的文字(即目标对象)进行检测,并可以检测出第一截图、第二截图以及第三截图对应的检测结果均为异常显示结果,进而可以确定包含第一截图、第二截图以及第三截图的原始图像对应的检测结果也为异常显示结果。因此,服务器可以将该原始图像发送给开发人员,开发人员可以根据该原始图像对终端页面105k中的文字进行更新(例如文字大小的更新、文字间距的更新以及文字位置的更新等),更新完毕之后,使得游戏应用的“设置”页面可以是终端页面106k中所显示的画面,在终端页面106k中,文字“General Settings”不再是超框显示,文字“Expansion Download”也不再是超框显示,文字“Sound Effect”和文字“On”之间也不再重叠显示。
通过下述图4对应的实施例所提供的方法中训练完成的检测模型,即是应用于上述图3对应的实施例中的检测模型,即对原始检测模型进行训练之后,可以得到相应的检测模型。
请参见图7,是本申请提供的一种数据训练方法的流程示意图,如图7所示,该方法可以包括:
步骤S201,获取样本图像;样本图像中包括目标对象;样本图像携带显示类型标签;
具体的,原始检测模型可以获取样本图像,该样本图像可以是从游戏画面截图中截取下来的图像。样本图像为包含目标对象的图像,目标对象可以指游戏画面截图中的文字。由于一个游戏画面截图中可能会包括多个文字组,一个文字组就是一个目标对象,因此,通过对一个文字组在游戏画面截图中所在的图像区域可以得到一个样本图像。当一个游戏画面截图中包括多个文字组,那么就可以在这个游戏画面截图中截取到多个样本图像。
其中,样本图像可以包括正样本图像和负样本图像。正样本图像指只包括正常显示的文字的图像,即正样本图像为所包含的目标对象是正常显示的样本图像。负样本图像指包含异常显示的文字的图像,即负样本图像为所包含的目标对象是异常显示的样本图像。其中,目标对象为异常显示的情况可以包括文字与文字之间相互遮挡重叠显示、文字与游戏画面中的按钮之间的遮挡重叠显示以及文字超过原本用于显示其的文字框等情况。每个样本图像均被添加有显示类型标签,该显示类型标签包括异常显示标签和正常显示标签。正样本图像均被添加有正常显示标签,该正常显示标签表征了正样本图像中的目标对象是正常显示的。负样本图像均被添加有异常显示标签,该异常显示标签表征了负样本图像中的目标对象是异常显示的。样本图像的标签(包括正常显示标签和异常显示标签)用以对检测模型的模型参数进行修正,修正的具体过程可以参见下述步骤S204。
由于样本图像所携带的标签通常是需要人工手动添加的,为了能以更高的效率获取到大量的样本图像,并节省人力,本申请提供了一种用以生成样本图像的样本生成器。可以将通过人工添加标签的样本图像称之为真实样本图像,该真实样本图像是指从运行中的游戏应用的游戏画面中截取出来的真实的样本图像。真实样本图像包括真实正样本图像和真实负样本图像,真实正样本图像携带正常显示标签,真实负样本图像携带异常显示标签。可以将通过样本生成器生成的样本图像称之为模拟样本图像。模拟样本图像包括模拟正样本图像和模拟负样本图像,模拟正样本图像携带正常显示标签,模拟负样本图像携带异常显示标签。换句话说,上述正样本图像包括真实正样本图像和模拟正样本图像,上述负样本图像包括真实负样本图像和模拟负样本图像。
可以将上述样本生成器集成在原始检测模型中,因此,下述所描述的原始检测模型生成模拟负样本图像和生成模拟正样本图像,实际上是指样本生成器生成模拟负样本图像和生成模拟正样本图像。因此,原始检测模型生成上述模拟负样本图像和模拟正样本图像的具体过程可以是:
原始检测模型可以通过素材图像和样本对象来生成模拟样本图像。其中,素材图像可以包括背景图像和遮挡图像。背景图像和遮挡图像可以是随机生成的没有目标对象的图像,即没有文字的图像。背景图像还可以是从运行中的游戏应用的游戏画面中截取出来的不包含文字的图像。背景图像用于承载样本对象和遮挡图像。遮挡图像也可以是从运行中的游戏应用的游戏画面中截取出来的按钮类型的图像,遮挡图像可以用以对需要生成的模拟负样本图像中的样本对象造成遮挡。样本对象为与目标对象是同一类型的对象,即样本对象也为文字,被添加到模拟样本图像中的样本对象即是模拟样本图像中的目标对象。
上述素材图像可以是原始检测模型从素材图像数据库中获取到的,上述样本对象可以是原始检测模型随机生成的文字或者文字组。原始检测模型生成的样本对象可以是不同语种、不同排版格式的文字,因此,通过样本对象所生成的样本图像也是多样化的。由于样本图像的多样化(所包含文字的语种的多样化以及排版格式的多样化),因此,本申请中所训练出来的检测模型也可以对包含多样化的目标对象的待检测图像进行检测。
原始检测模型生成样本对象的过程可以是:
原始检测模型可以从语种类型库中获取文本语种类型,从文本格式库中获取文本排版格式。其中,上述语种类型库中包括多种文本语种类型,例如语种类型库中可以包括中文的语种、***文的语种、英文的语种、韩文的语种、日文的语种以及法文的语种等,因此获取到的文本语种类型可以是语种类型库中的任意一种语种,例如,文本语种类型可以是英文的语种。上述文本格式库中可以包括多种文本排版的格式,例如文本格式库中可以包括字体加粗的文本排版格式、下划线的文本排版格式、字体斜体的文本排版格式、字体类型(例如楷体、行体、黑体和宋体等)的文本排版格式、字体间隔的排版格式和字体大小的排版格式等。因此,获取到的文本排版格式可以是文本格式库中的一种或者多种文本排版格式,例如,获取到的文本排版格式可以是字体加粗的文本排版格式和字体斜体的文本排版格式。
原始检测模型可以通过获取到的文本语种类型和文本排版格式随机生成样本对象(即生成的样本对象的文字内容可以是随机的,任何文字内容都可以),例如,若获取到的文本语种类型是英文的语种,获取到的文本排版格式包括斜体的文本排版格式以及下划线的文本排版格式,则生成的样本对象可以是英文的、斜体显示的以及具有下划线的文字“Good Job”。原始检测模型可以生成一个或者多个样本对象。原始检测模型可以向背景图像(从素材图像库中获取到的素材图像)中添加样本对象以得到模拟样本图像,或者,可以向背景图像中添加样本对象和遮挡图像以得到模拟样本图像。
其中,原始检测模型通过将素材图像与样本对象进行异常组合(组合方式可以参见下述),可以得到第一组合图像,该第一组合图像中包括异常显示的样本对象。可以为该第一组合图像添加异常显示标签,可以将添加有异常显示标签的第一组合图像称之为上述模拟负样本图像。由于是通过样本生成器自动生成模拟正样本图像和模拟负样本图像,因此,样本生成器可以知道自己所生成的模拟样本图像是模拟正样本图像还是模拟负样本图像。因此,当通过样本生成器得到上述第一组合图像之后,样本生成器可以自动为该第一组合图像添加异常显示标签。通过将素材图像与样本对象进行正常组合(组合方式可以参见下述),可以得到第二组合图像,该第二组合图像中包括正常显示的样本对象。可以为该第二组合图像添加正常显示标签,可以将添加有正常显示标签的第二组合图像称之为上述模拟正样本图像。因此,当通过样本生成器得到上述第二组合图像之后,样本生成器可以自动为该第二组合图像添加正常显示标签。
其中,对素材图像与样本对象进行异常组合以得到上述第一组合图像的过程可以是:
第一种异常组合方式,当素材图像只有背景图像,没有遮挡图像时,通过样本生成器可以生成多个样本对象,例如生成两个样本对象,该两个样本对象可以分别称之为第一样本对象和第二样本对象。第一样本对象和第二样本对象可以分别为一句话,即第一样本对象和第二样本对象可以分别为一个文字组。样本生成器首先可以将第一样本对象添加到背景图像中,可以将已添加第一样本对象的背景图像称之为第二过渡组合图像。接着,样本生成器可以将第二样本对象也添加到第二过渡组合图像中,但是,样本生成器是将第二样本对象重合添加于第二过渡组合图像中的第一样本对象之上的,第一样本对象与第二样本对象是相互重叠显示(可以是部分重叠显示,也可以是全部重叠显示)的,可以将添加有第一样本对象和第二样本对象的第二过渡组合图像称之为上述第一组合图像。
第二种异常组合方式,上述素材图像既包括背景图像也包括遮挡图像,该遮挡图像用于模拟游戏画面中的按钮,并对样本对象造成遮挡。假设此处只有一个样本对象,即只生成了一句话,也就是只有一个文字组。首先,样本生成器可以将样本对象添加至背景图像中,此处可以将添加有样本对象的背景图像称之为第一过渡组合图像。接着,样本生成器可以将遮挡图像也添加至第一过渡组合图像中,但是样本生成器是将遮挡图像覆盖添加于第一过渡组合图像中的样本对象之上。可以将添加有样本对象以及遮挡图像的第一过渡组合图像称之为第一组合图像。在该第一组合图像中遮挡图像对样本对象造成了遮挡,因此,样本对象在第一组合图像中是异常显示的。
第三种异常组合方式,素材图像只有背景图像,假设只有一个样本对象,即样本对象只有一句话,也就是样本对象只有一个文字组,并且该背景图像中包括文本框(即文字框)。则样本生成器可以将该样本对象的部分对象内容添加至背景图像中的文本框中,得到上述第一组合图像。即在该第一组合图像中,文本框中只显示有部分样本对象,而部分样本对象显示在文本框外。举个例子,假如,样本对象包括5个字,那么第一组合图像中只显示了该样本对象中的2个字,而样本对象中的另外3个字显示在文本框外面。这种情况下,生成的模拟负样本图像就为包含越界/超框显示的目标对象的样本图像。
对素材图像与样本对象进行正常组合以得到上述第二组合图像的过程可以是:样本对象的数量不限,样本对象可以是一个也可以是多个,素材图像可以包括背景图像和遮挡图像。可以将一个或者多个样本对象添加到背景图像中得到第二组合图像,也可以将一个或者多个样本对象以及遮挡图像添加至背景图像中,得到第二组合图像。但是,需要进行说明的是,在第二组合图像中,样本对象与样本对象之间,样本对象和遮挡图像之间均没有相互重叠显示、相互遮挡显示或者超框(超出文本框)显示的情况。
请参见图8,是本申请提供的一种生成模拟样本图像的流程示意图。如图8所示,样本生成器可以从文本语种库中获取文本语种类型,从文本格式库中获取文本排版格式,从图像素材库中获取素材图像。样本生成器可以通过获取到的文本语种类型、文本排版格式以及素材图像生成模拟样本图像。
请参见图9,是本申请提供的一种生成模拟样本图像的场景示意图。如图9所示,当样本生成要求为要求100f(即文本语种类型为中文、文本排版格式为加粗和斜体以及样本类型为重叠)时,样本生成器可以通过素材图像101f(只有背景图像)和样本对象102f(包括样本对象“今天天气真好呀”和样本对象“我们去爬山吧”)生成第一组合图像103f,在第一组合图像103f中样本对象“今天天气真好呀”和样本对象“我们去爬山吧”之间相互重叠显示。可以为第一组合图像103f添加异常显示标签,得到模拟负样本图像106f。当样本生成要求为要求109f(即文本语种类型为中文、文本排版格式为加粗和斜体以及样本类型为正常)时,样本生成器可以通过素材图像101f和样本对象102f中的样本对象“今天天气真好呀”生成第二组合图像104f,在第二组合图像104f中样本对象“今天天气真好呀”为正常显示。可以为第二组合图像104f添加正常显示标签,得到模拟正样本图像107f。样本生成器可以通过素材图像101f和样本对象102f中的样本对象“今天天气真好呀”和样本对象“我们去爬山吧”生成第二组合图像105f,在第二组合图像105f中样本对象“今天天气真好呀”和样本对象“我们去爬山吧”为正常显示。可以为第二组合图像105f添加正常显示标签,得到模拟正样本图像108f。
请参见图10,是本申请提供的另一种生成模拟样本图像的场景示意图。如图10所示,当样本生成要求为要求107g(即文本语种类型为英文、文本排版格式为下划线以及样本类型为正常)时,样本生成器可以通过素材图像101g(只包括背景图像)和样本对象102g中的样本对象“Good job”生成第二组合图像103g,在第二组合图像103g中样本对象“Goodjob”为正常显示。可以为第二组合图像103g添加正常显示标签,得到模拟正样本图像105g。当样本生成要求为要求100g(即文本语种类型为英文、文本排版格式为下划线以及样本类型为越界)时,样本生成器可以通过素材图像101g和样本对象102g中的样本对象“To be ornot to be”生成第一组合图像104g,在第一组合图像104g中样本对象“To be or not tobe”为异常显示,即样本对象“To be or not to be”显示区域超过了素材图像101g中的文本框。可以为第一组合图像104g添加异常显示标签,得到模拟负样本图像106g。
请参见图11,是本申请提供的另一种生成模拟样本图像的场景示意图。如图11所示,当样本生成要求为要求100h(即文本语种类型为中文、文本排版格式为楷体以及样本类型为遮挡)时,样本生成器可以通过素材图像(包括背景图像102h和遮挡图像101h)和样本对象103h“学习雷锋好榜样”生成第一组合图像105h和第一组合图像107h,在第一组合图像105h和第一组合图像107h中样本对象103h“学习雷锋好榜样”和遮挡图像101h之间相互遮挡显示,即异常显示。可以为第一组合图像105h添加异常显示标签,得到模拟负样本图像110h,可以为第一组合图像107h添加异常显示标签,得到模拟负样本图像111h。当样本生成要求为要求106h(即文本语种类型为中文、文本排版格式为楷体以及样本类型为正常)时,样本生成器可以通过素材图像(包括背景图像102h和遮挡图像101h)和样本对象103h“学习雷锋好榜样”生成第二组合图像104h,在第二组合图像104h中样本对象103h“学习雷锋好榜样”和遮挡图像101h为正常显示。可以为第二组合图像104h添加正常显示标签,得到模拟正样本图像108h。
步骤S202,通过原始检测模型获取样本图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;
具体的,原始检测模型如何获取样本图像对应的像素属性特征矩阵,以及如何根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征的过程,与上述图3对应的实施例的步骤S102中所描述的检测模型如何获取待检测图像对应的像素属性特征矩阵,以及如何根据像素属性特征矩阵中的特征元素之间的位置关联关系,生成像素结构特征的过程相同,此处不再进行赘述。
步骤S203,根据像素结构特征中的评估参数,确定目标对象在样本图像中为异常显示的异常显示概率;
具体的,原始检测模型如何通过像素结构特征对应的评估参数,得到目标对象在样本图像中为异常显示的异常显示概率的过程,与上述图3对应的实施例的步骤S103中所描述的检测模型如何通过像素结构特征对应的评估参数,得到目标对象在待检测图像中为异常显示的异常显示概率的过程相同,此处不再进行赘述。
步骤S204,根据异常显示概率和样本图像所携带的显示类型标签,修正原始检测模型的模型参数,得到检测模型;
具体的,原始检测模型可以根据异常显示概率、正样本图像所携带的正常显示标签以及负样本图像所携带的异常显示标签,修正原始检测模型的模型参数(修正过程请参见下述)。可以将对模型参数修正完成后的原始检测模型称之为检测模型。该检测模型用于检测得到待检测图像(例如上述图3中的待检测图像)中的目标对象(例如上述图3中的待检测图像中的目标对象)对应的显示检测结果,该显示检测结果包括正常显示结果和异常显示结果。正常显示结果表示检测出待检测图像中的目标对象是正常显示的,异常显示结果表示待检测图像中的目标对象是异常显示的。得到待检测图像中的目标对象对应的显示检测结果的具体步骤可以参见上述图3对应的实施例中对步骤S103的描述,此处不再进行赘述。
其中,样本图像所携带的显示类型标签是用于告知原始检测模型每个样本图像中的目标对象是正常显示,还是异常显示的。由于原始检测模型可以检测出样本图像中的目标对象是异常显示的概率(即得到异常显示概率),因此,原始检测模型可以根据得到的异常显示概率与样本图像中的目标对象的真实显示情况之间的差异来修正原始检测模型的模型参数。具体为,当样本图像所携带的显示类型标签是异常显示标签,则原始检测模型可以调整模型参数,使得该样本图像对应的异常显示概率越大。当样本图像所携带的显示类型标签是正常显示标签,则原始检测模型可以调整模型参数,使得该样本图像对应的异常显示概率越小。由于原始检测模型的损失函数中的损失值,是由原始检测模型检测出的样本图像的异常显示概率和样本图像中的目标对象真实显示情况之间的差异所带来的,因此,通过这种差异来调整原始检测模型的模型参数,可以使得原始检测模型的损失函数的损失值达到最小,最终得到能够准确检测出样本图像中的目标对象对应的异常显示概率的检测模型。其中,当已经通过指定数量的样本图像以及样本图像的指定迭代训练次数对原始检测模型训练完毕时,可以认为对原始检测模型的模型参数修正完成,可以将此时的原始检测模型称之为检测模型。其中,原始检测模型的模型结构可以与上述检测模型的模型结构相同,原始检测模型中可以包括卷积神经网络、循环神经网络、全连接层和分类器,因此修正检测模型的模型参数可以是修正卷积神经网络的网络参数、循环神经网络的网络参数、全连接层的网络参数和分类器的网络参数。
更多的,上述原始检测模型的训练阶段可以分为两个训练阶段,第一个训练阶段是通过模拟正样本图像和模拟负样本图像对原始检测模型进行训练,第一训练阶段完成之后,可以将此时的原始检测模型称之为预修正检测模型。第二个训练阶段是通过真实正样本图像和真实负样本图像接着对预修正检测模型继续进行训练,可以将通过第二训练训练阶段完成的预修正检测模型称之为上述检测模型。可选的,上述第一训练阶段和第二训练阶段还可以交叉迭代进行训练,例如,迭代训练次数为10次,可以将上述模拟样本图像(包括模拟正样本图像和模拟负样本图像)和真实样本图像(包括真实正样本图像和真实负样本图像)分为10组,一次迭代训练训练一组,即第一训练阶段要通过模拟样本图像的10个分组进行10次,第二训练阶段也要通过真实样本图像的10个分组进行10次。那么,第一训练阶段和第二训练阶段的训练次序依次可以是第一训练阶段、第二训练阶段、第一训练阶段、第二训练节点、第一训练阶段、...、第二训练阶段。10次迭代训练完成之后,即可得到检测模型。
请参见图12,是本申请提供的一种数据检测的流程示意图。如图12所示,首先,可以通过模拟样本图像(即输入:自动生成样本,该自动生成样本即是模拟样本图像)和真实样本图像(即输入:人工标记样本,该人工标记样本即是真实样本图像)训练原始检测模型100e。原始检测模型100e训练完成之后,则可以向训练好的原始检测模型100e中输入待检测文字图像(例如上述原始图像),通过训练好的原始检测模型100e可以对该待检测文字图像进行检测,并输出文字图像是否异常,即得到针对待检测图像的显示检测结果,该显示检测结果可以包括异常显示结果和正常显示结果。其中,原始检测模型100e中可以包括异常判断模型和文字特征提取模块,文字特征提取模块用于提取待检测文字图像中的文字所具备的图像特征,异常判断模块用于根据所提取得到的图像特征判断待检测文字图像是否显示异常。
本申请可以对检测图像(包括上述样本图像和待检测图像)中的图像特征进行提取,并可以对所提取到的图像特征进行上下文理解,得到像素结构特征,进而可以通过所得到的像素结构特征判断检测图像中的目标对象是否显示异常。由此可见,本申请提出的方法可以通过进行上下文理解所得到的图像特征(即像素结构特征)对检测图像(例如待检测图像和样本图像)中的目标对象的显示情况(包括异常显示和正常显示)进行检测识别,提高了针对目标对象的异常显示的检测效率和检测准确性。
请参见图13,是本申请提供的一种图像检测装置的结构示意图。如图13所示,该图像检测装置1可以执行上述图3对应的实施例中的各个步骤。该图像检测装置1可以包括:图像获取模块11、特征生成模块12和结果确定模块13;
图像获取模块11,用于获取待检测图像,待检测图像包括目标对象;
特征生成模块12,用于获取待检测图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;
结果确定模块14,用于根据像素结构特征中的评估参数,确定针对待检测图像中的目标对象的检测结果;评估参数用于评估目标对象在待检测图像中为异常显示的概率;检测结果包括异常显示结果。
其中,图像获取模块11、特征生成模块12和结果确定模块13的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S103,这里不再进行赘述。
其中,图像获取模块11,包括:对象确定单元111和区域确定单元112;
对象确定单元111,用于获取原始图像,识别原始图像中的文本对象,将文本对象确定为目标对象;
区域确定单元112,用于将目标对象在原始图像中的图像区域所包含的图像,确定为待检测图像。
其中,对象确定单元111和区域确定单元112的具体功能实现方式请参见图3对应的实施例中的步骤S101,这里不再进行赘述。
其中,结果确定模块13,包括:加权单元131、概率确定单元132和第一结果确定单元133;
加权单元131,用于基于注意力机制对像素结构特征中的评估参数进行加权,得到加权后的像素结构特征;
概率确定单元132,用于根据加权后的像素结构特征,确定检测区域中的目标对象对应的异常显示概率;
第一结果确定单元133,用于若异常显示概率大于或者等于异常显示概率阈值,则确定目标对象对应的显示检测结果为异常显示结果。
其中,加权单元141、概率确定单元142和第一结果确定单元143的具体功能实现方式请参见图3对应的实施例中的步骤S103,这里不再进行赘述。
其中,特征生成模块12,包括:序列获取单元121和序列输入单元122;
序列获取单元121,用于获得像素属性特征矩阵中的特征元素之间的位置关联关系,基于位置关联关系获得特征元素对应的特征序列;
序列输入单元122,用于将特征序列输入循环神经网络,得到像素结构特征。
其中,序列获取单元121和序列输入单元122的具体功能实现方式请参见图3对应的实施例中的步骤S102,这里不再进行赘述。
其中,图像检测装置1,还包括:标记模块14和发送模块15;
标记模块14,用于若显示检测结果为异常显示结果,则根据异常显示结果对原始图像中的目标对象的对象位置进行标记,得到标记图像;
发送模块15,用于将标记图像发送至测试装置,以使测试装置根据标记图像对目标对象进行更新。
其中,标记模块14和发送模块15的具体功能实现方式请参见图3对应的实施例中的步骤S103,这里不再进行赘述。
本申请可以对检测图像(包括上述样本图像和待检测图像)中的图像特征进行提取,并可以对所提取到的图像特征进行上下文理解,得到像素结构特征,进而可以通过所得到的像素结构特征判断检测图像中的目标对象是否显示异常。由此可见,本申请提出的方法可以通过进行上下文理解所得到的图像特征(即像素结构特征)对检测图像(例如待检测图像和样本图像)中的目标对象的显示情况(包括异常显示和正常显示)进行检测识别,提高了针对目标对象的异常显示的检测效率和检测准确性。
请参见图14,是本申请提供的一种数据训练装置的结构示意图。如图14所示,该数据训练装置2可以执行上述图7对应的实施例中的各个步骤。该数据训练装置2可以包括:样本获取模块21、特征提取模块22、概率确定模块23和修正模块24;
样本获取模块21,用于获取样本图像;样本图像中包括目标对象;样本图像携带显示类型标签;
特征提取模块22,用于通过原始检测模型获取样本图像对应的像素属性特征矩阵,根据像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;像素属性特征矩阵中的特征元素包含目标对象的每个像素点的属性信息;像素结构特征包含目标对象的每个像素点之间的结构信息;
概率确定模块23,用于根据像素结构特征中的评估参数,确定目标对象在样本图像中为异常显示的异常显示概率;
修正模块24,用于根据异常显示概率和样本图像所携带的显示类型标签,修正原始检测模型的模型参数,得到检测模型。
其中,样本获取模块21、特征提取模块22、概率确定模块23和修正模块24的具体功能实现方式请参见图7对应的实施例中的步骤S201-步骤S204,这里不再进行赘述。
其中,样本图像包括正样本图像和负样本图像;显示类型标签包括异常显示标签和正常显示标签;正样本图像携带正常显示标签;负样本图像携带异常显示标签;异常显示标签表征目标对象为异常显示;正常显示标签表征目标对象为正常显示;正样本图像包括真实正样本图像和模拟正样本图像;负样本图像包括真实负样本图像和模拟负样本图像。
其中,异常显示概率包括第一概率和第二概率;
修正模块24,包括:第一修正单元241和第二修正单元242;
第一修正单元241,用于通过第一概率、模拟正样本图像所携带的正常显示标签和模拟负样本图像所携带的异常显示标签,修正原始检测模型的模型参数,得到预修正检测模型;第一概率是由原始检测模型根据模拟正样本图像和模拟负样本图像所预测得到的概率;
第二修正单元242,用于通过第二概率、真实正样本图像所携带的正常显示标签和真实负样本图像所携带的异常显示标签,修正预修正检测模型的模型参数,得到检测模型;第二概率是由预修正检测模型根据真实正样本图像和真实负样本图像所预测得到的概率。
其中,第一修正单元241和第二修正单元242的具体功能实现方式请参见图7对应的实施例中的步骤S204,这里不再进行赘述。
其中,样本获取模块21,包括:获取单元211、第一组合单元212和第二组合单元213;
获取单元211,用于获取素材图像,获取样本对象;样本对象与目标对象为同一类型的对象;
第一组合单元212,用于将素材图像和样本对象进行异常组合,得到第一组合图像,为第一组合图像添加异常显示标签,将已添加异常显示标签的第一组合图像确定为模拟负样本图像;
第二组合单元213,用于将素材图像和样本对象进行正常组合,得到第二组合图像,为第二组合图像添加正常显示标签,将已添加正常显示标签的第二组合图像确定为模拟正样本图像。
其中,获取单元211、第一组合单元212和第二组合单元213的具体功能实现方式请参见图7对应的实施例中的步骤S201,这里不再进行赘述。
其中,样本对象为文本类型对象;获取单元211,包括:获取子单元2111和对象生成子单元2112;
获取子单元2111,用于从素材图像数据库中获取素材图像,从语种类型库中获取文本语种类型,从文本格式库中获取文本排版格式;
对象生成子单元2112,用于根据文本语种类型和文本排版格式,生成样本对象。
其中,获取子单元2111和对象生成子单元2112的具体功能实现方式请参见图7对应的实施例中的步骤S201,这里不再进行赘述。
其中,素材图像包括背景图像和遮挡图像;将素材图像和样本对象进行异常组合,得到第一组合图像,包括:第一添加子单元2121和第二添加子单元2122;
第一添加子单元2121,用于将样本对象添加至背景图像中,得到第一过渡组合图像;
第二添加子单元2122,用于将遮挡图像覆盖添加于第一过渡组合图像中的样本对象上,得到第一组合图像。
其中,第一添加子单元2121和第二添加子单元2122的具体功能实现方式请参见图7对应的实施例中的步骤S201,这里不再进行赘述。
其中,样本对象包括第一样本对象和第二样本对象;
第一组合单元212,包括:第三添加子单元2123和第四添加子单元2124;
第三添加子单元2123,用于将第一样本对象添加至素材图像中,得到第二过渡组合图像;
第四添加子单元2124,用于将第二样本对象重合添加于第二过渡组合图像中的第一样本对象上,得到第一组合图像。
其中,第三添加子单元2123和第四添加子单元2124的具体功能实现方式请参见图7对应的实施例中的步骤S201,这里不再进行赘述。
其中,样本对象为文本类型对象;素材图像中包括文本框;
第一组合单元212,还用于:
将样本对象中的部分对象内容添加至素材图像中的文本框中,得到第一组合图像;
则,第二组合单元213,还用于:
将样本对象中的全部对象内容添加至素材图像中的文本框中,得到第二组合图像。
本申请可以对检测图像(包括上述样本图像和待检测图像)中的图像特征进行提取,并可以对所提取到的图像特征进行上下文理解,得到像素结构特征,进而可以通过所得到的像素结构特征判断检测图像中的目标对象是否显示异常。由此可见,本申请提出的方法可以通过进行上下文理解所得到的图像特征(即像素结构特征)对检测图像(例如待检测图像和样本图像)中的目标对象的显示情况(包括异常显示和正常显示)进行检测识别,提高了针对目标对象的异常显示的检测效率和检测准确性。
请参见图15,是本申请提供的一种计算机设备的结构示意图。如图15所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图15所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图3所对应实施例中对图像检测方法的描述和前文图7所对应实施例中对数据训练方法的描述。应当理解,本申请中所描述的计算机设备1000既可执行前文图13所对应实施例中对图像检测装置1的描述,也可执行前文图14所对应实施例中对数据训练装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的图像检测装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对图像检测方法的描述和前文图7所对应实施例中对数据训练方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖范围。
Claims (15)
1.一种图像检测方法,其特征在于,包括:
获取待检测图像,所述待检测图像包括目标对象;
获取所述待检测图像对应的像素属性特征矩阵,根据所述像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;所述像素属性特征矩阵中的特征元素包含所述目标对象的每个像素点的属性信息;所述像素结构特征包含所述目标对象的每个像素点之间的结构信息;
根据所述像素结构特征中的评估参数,确定针对所述待检测图像中的所述目标对象的检测结果;所述评估参数用于评估所述目标对象在所述待检测图像中为异常显示的概率;所述检测结果包括异常显示结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测图像,包括:
获取原始图像,识别所述原始图像中的文本对象,将所述文本对象确定为所述目标对象;
将所述目标对象在所述原始图像中的图像区域所包含的图像,确定为所述待检测图像。
3.根据权利要求2所述的方法,其特征在于,还包括:
若所述显示检测结果为所述异常显示结果,则根据所述异常显示结果对所述原始图像中的所述目标对象的对象位置进行标记,得到标记图像;
将所述标记图像发送至测试装置,以使所述测试装置根据所述标记图像对所述目标对象进行更新。
4.根据权利要求1所述的方法,其特征在于,所述根据所述像素结构特征中的评估参数,确定针对所述待检测图像中的所述目标对象的检测结果,包括:
基于注意力机制对所述像素结构特征中的评估参数进行加权,得到加权后的像素结构特征;
根据所述加权后的像素结构特征,确定所述检测区域中的所述目标对象对应的异常显示概率;
若所述异常显示概率大于或者等于异常显示概率阈值,则确定所述目标对象对应的显示检测结果为所述异常显示结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征,包括:
获得所述像素属性特征矩阵中的特征元素之间的所述位置关联关系,基于所述位置关联关系获得所述特征元素对应的特征序列;
将所述特征序列输入循环神经网络,得到所述像素结构特征。
6.一种数据训练方法,其特征在于,包括:
获取样本图像;所述样本图像中包括目标对象;所述样本图像携带显示类型标签;
通过原始检测模型获取所述样本图像对应的像素属性特征矩阵,根据所述像素属性特征矩阵中的特征元素之间的位置关联关系,获得像素结构特征;所述像素属性特征矩阵中的特征元素包含所述目标对象的每个像素点的属性信息;所述像素结构特征包含所述目标对象的每个像素点之间的结构信息;
根据所述像素结构特征中的评估参数,确定所述目标对象在所述样本图像中为异常显示的异常显示概率;
根据所述异常显示概率和所述样本图像所携带的所述显示类型标签,修正所述原始检测模型的模型参数,得到检测模型。
7.根据权利要求6所述的方法,其特征在于,所述样本图像包括正样本图像和负样本图像;所述显示类型标签包括异常显示标签和正常显示标签;所述正样本图像携带所述正常显示标签;所述负样本图像携带所述异常显示标签;所述异常显示标签表征所述目标对象为异常显示;所述正常显示标签表征所述目标对象为正常显示;所述正样本图像包括真实正样本图像和模拟正样本图像;所述负样本图像包括真实负样本图像和模拟负样本图像。
8.根据权利要求7所述的方法,其特征在于,所述异常显示概率包括第一概率和第二概率;
所述根据所述异常显示概率和所述样本图像所携带的所述显示类型标签,修正所述原始检测模型的模型参数,得到检测模型,包括:
通过所述第一概率、所述模拟正样本图像所携带的正常显示标签和所述模拟负样本图像所携带的异常显示标签,修正所述原始检测模型的模型参数,得到预修正检测模型;所述第一概率是由所述原始检测模型根据所述模拟正样本图像和所述模拟负样本图像所预测得到的概率;
通过所述第二概率、所述真实正样本图像所携带的正常显示标签和所述真实负样本图像所携带的异常显示标签,修正所述预修正检测模型的模型参数,得到所述检测模型;所述第二概率是由所述预修正检测模型根据所述真实正样本图像和所述真实负样本图像所预测得到的概率。
9.根据权利要求7所述的方法,其特征在于,所述获取样本图像,包括:
获取素材图像,获取样本对象;所述样本对象与所述目标对象为同一类型的对象;
将所述素材图像和所述样本对象进行异常组合,得到第一组合图像,为所述第一组合图像添加异常显示标签,将已添加所述异常显示标签的第一组合图像确定为所述模拟负样本图像;
将所述素材图像和所述样本对象进行正常组合,得到第二组合图像,为所述第二组合图像添加正常显示标签,将已添加所述正常显示标签的第二组合图像确定为所述模拟正样本图像。
10.根据权利要求9所述的方法,其特征在于,所述样本对象为文本类型对象;所述获取素材图像,获取样本对象,包括:
从素材图像数据库中获取所述素材图像,从语种类型库中获取文本语种类型,从文本格式库中获取文本排版格式;
根据所述文本语种类型和所述文本排版格式,生成所述样本对象。
11.根据权利要求9所述的方法,其特征在于,所述素材图像包括背景图像和遮挡图像;所述将所述素材图像和所述样本对象进行异常组合,得到第一组合图像,包括:
将所述样本对象添加至所述背景图像中,得到第一过渡组合图像;
将所述遮挡图像覆盖添加于所述第一过渡组合图像中的所述样本对象上,得到所述第一组合图像。
12.根据权利要求9所述的方法,其特征在于,所述样本对象包括第一样本对象和第二样本对象;
所述将所述素材图像和所述样本对象进行异常组合,得到第一组合图像,包括:
将所述第一样本对象添加至所述素材图像中,得到第二过渡组合图像;
将所述第二样本对象重合添加于所述第二过渡组合图像中的所述第一样本对象上,得到所述第一组合图像。
13.根据权利要求9所述的方法,其特征在于,所述样本对象为文本类型对象;所述素材图像中包括文本框;
所述将所述素材图像和所述样本对象进行异常组合,得到第一组合图像,包括:
将所述样本对象中的部分对象内容添加至所述素材图像中的所述文本框中,得到所述第一组合图像;
则,所述将所述素材图像和所述样本对象进行正常组合,得到第二组合图像,包括:
将所述样本对象中的全部对象内容添加至所述素材图像中的所述文本框中,得到所述第二组合图像。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-13中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-13任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075777.XA CN111310613B (zh) | 2020-01-22 | 2020-01-22 | 一种图像检测方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075777.XA CN111310613B (zh) | 2020-01-22 | 2020-01-22 | 一种图像检测方法、装置以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310613A true CN111310613A (zh) | 2020-06-19 |
CN111310613B CN111310613B (zh) | 2023-04-07 |
Family
ID=71147079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010075777.XA Active CN111310613B (zh) | 2020-01-22 | 2020-01-22 | 一种图像检测方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310613B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112221156A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 数据异常识别方法、装置、存储介质以及电子设备 |
CN112565763A (zh) * | 2020-11-30 | 2021-03-26 | 北京达佳互联信息技术有限公司 | 异常图像样本生成方法及装置、图像检测方法及装置 |
CN112580738A (zh) * | 2020-12-25 | 2021-03-30 | 特赞(上海)信息科技有限公司 | 基于改进的AttentionOCR文本识别方法及装置 |
CN113205512A (zh) * | 2021-05-26 | 2021-08-03 | 北京市商汤科技开发有限公司 | 图像异常检测方法、装置、设备及计算机可读存储介质 |
CN113657361A (zh) * | 2021-07-23 | 2021-11-16 | 阿里巴巴(中国)有限公司 | 页面异常检测方法、装置及电子设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070116365A1 (en) * | 2005-11-23 | 2007-05-24 | Leica Geosytems Geiospatial Imaging, Llc | Feature extraction using pixel-level and object-level analysis |
US20100328690A1 (en) * | 2009-06-25 | 2010-12-30 | Canon Kabushiki Kaisha | Image processing device and image processing apparatus |
JP2012257065A (ja) * | 2011-06-09 | 2012-12-27 | Fuji Xerox Co Ltd | 画像形成装置および処理プログラム |
US20140085680A1 (en) * | 2012-09-27 | 2014-03-27 | Oki Data Corporation | Image processing apparatus, medium, and method of processing image data |
WO2014205231A1 (en) * | 2013-06-19 | 2014-12-24 | The Regents Of The University Of Michigan | Deep learning framework for generic object detection |
CN106874942A (zh) * | 2017-01-21 | 2017-06-20 | 江苏大学 | 一种基于正则表达式语义的目标模型快速构建方法 |
US20170295293A1 (en) * | 2016-04-12 | 2017-10-12 | Konica Minolta, Inc. | Image forming system, image forming apparatus and program |
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108805131A (zh) * | 2018-05-22 | 2018-11-13 | 北京旷视科技有限公司 | 文本行检测方法、装置及*** |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN109977956A (zh) * | 2019-04-29 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
CN110322416A (zh) * | 2019-07-09 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置以及计算机可读存储介质 |
US20190318099A1 (en) * | 2018-04-16 | 2019-10-17 | International Business Machines Corporation | Using Gradients to Detect Backdoors in Neural Networks |
CN110717486A (zh) * | 2018-07-13 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 文本检测方法、装置、电子设备和存储介质 |
-
2020
- 2020-01-22 CN CN202010075777.XA patent/CN111310613B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070116365A1 (en) * | 2005-11-23 | 2007-05-24 | Leica Geosytems Geiospatial Imaging, Llc | Feature extraction using pixel-level and object-level analysis |
US20100328690A1 (en) * | 2009-06-25 | 2010-12-30 | Canon Kabushiki Kaisha | Image processing device and image processing apparatus |
JP2012257065A (ja) * | 2011-06-09 | 2012-12-27 | Fuji Xerox Co Ltd | 画像形成装置および処理プログラム |
US20140085680A1 (en) * | 2012-09-27 | 2014-03-27 | Oki Data Corporation | Image processing apparatus, medium, and method of processing image data |
WO2014205231A1 (en) * | 2013-06-19 | 2014-12-24 | The Regents Of The University Of Michigan | Deep learning framework for generic object detection |
US20170295293A1 (en) * | 2016-04-12 | 2017-10-12 | Konica Minolta, Inc. | Image forming system, image forming apparatus and program |
CN106874942A (zh) * | 2017-01-21 | 2017-06-20 | 江苏大学 | 一种基于正则表达式语义的目标模型快速构建方法 |
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
US20190318099A1 (en) * | 2018-04-16 | 2019-10-17 | International Business Machines Corporation | Using Gradients to Detect Backdoors in Neural Networks |
CN108805131A (zh) * | 2018-05-22 | 2018-11-13 | 北京旷视科技有限公司 | 文本行检测方法、装置及*** |
CN110717486A (zh) * | 2018-07-13 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 文本检测方法、装置、电子设备和存储介质 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN109977956A (zh) * | 2019-04-29 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
CN110322416A (zh) * | 2019-07-09 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置以及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
LIU, X等: "Research on remote sensing image pixel attribute data acquisition method in AutoCAD" * |
韦星星: "基于结构化信息的图像内容分析与理解" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112221156A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 数据异常识别方法、装置、存储介质以及电子设备 |
CN112565763A (zh) * | 2020-11-30 | 2021-03-26 | 北京达佳互联信息技术有限公司 | 异常图像样本生成方法及装置、图像检测方法及装置 |
CN112580738A (zh) * | 2020-12-25 | 2021-03-30 | 特赞(上海)信息科技有限公司 | 基于改进的AttentionOCR文本识别方法及装置 |
CN113205512A (zh) * | 2021-05-26 | 2021-08-03 | 北京市商汤科技开发有限公司 | 图像异常检测方法、装置、设备及计算机可读存储介质 |
CN113205512B (zh) * | 2021-05-26 | 2023-10-24 | 北京市商汤科技开发有限公司 | 图像异常检测方法、装置、设备及计算机可读存储介质 |
CN113657361A (zh) * | 2021-07-23 | 2021-11-16 | 阿里巴巴(中国)有限公司 | 页面异常检测方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111310613B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310613B (zh) | 一种图像检测方法、装置以及计算机可读存储介质 | |
CN109961008B (zh) | 基于文字定位识别的表格解析方法、介质及计算机设备 | |
CN111582241B (zh) | 视频字幕识别方法、装置、设备及存储介质 | |
CN112100063A (zh) | 界面语言的显示测试方法、装置、计算机设备和存储介质 | |
CN111339321B (zh) | 知识图谱中三元组真实性检测方法和装置 | |
CN110110726A (zh) | 电力设备铭牌识别方法、装置、计算机设备和存储介质 | |
CN114155244B (zh) | 缺陷检测方法、装置、设备及存储介质 | |
CN111310057B (zh) | 在线学习挖掘方法、装置、在线学习***及服务器 | |
CN111507330A (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN116311279A (zh) | 样本图像的生成、模型训练、字符识别方法、设备及介质 | |
CN111444905A (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN111444906A (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN113537207B (zh) | 视频处理方法、模型的训练方法、装置以及电子设备 | |
CN111126243A (zh) | 一种图像数据检测方法、装置以及计算机可读存储介质 | |
CN112835807B (zh) | 界面识别方法、装置、电子设备和存储介质 | |
CN111767923B (zh) | 一种图像数据检测方法、装置以及计算机可读存储介质 | |
CN112163400B (zh) | 信息处理方法及装置 | |
CN113434722A (zh) | 图像分类方法、装置、设备及计算机可读存储介质 | |
CN116258931B (zh) | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和*** | |
CN117011616A (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN112231507A (zh) | 识别方法、装置及电子设备 | |
CN115659221A (zh) | 一种教学质量的评估方法、装置及计算机可读存储介质 | |
CN110851349B (zh) | 页面异常显示的检测方法、终端设备及存储介质 | |
CN113407676A (zh) | 题目批改方法和***、电子设备和计算机可读介质 | |
CN114676705A (zh) | 一种对话关系处理方法、计算机及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024070 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |