CN115512203A - 信息检测方法、装置、设备及存储介质 - Google Patents

信息检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115512203A
CN115512203A CN202211192830.XA CN202211192830A CN115512203A CN 115512203 A CN115512203 A CN 115512203A CN 202211192830 A CN202211192830 A CN 202211192830A CN 115512203 A CN115512203 A CN 115512203A
Authority
CN
China
Prior art keywords
image
target
sub
images
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211192830.XA
Other languages
English (en)
Inventor
曾进
霍明德
童贞理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202211192830.XA priority Critical patent/CN115512203A/zh
Publication of CN115512203A publication Critical patent/CN115512203A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/36User authentication by graphic or iconic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2133Verifying human interaction, e.g., Captcha

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种信息检测方法、装置、设备及存储介质,涉及计算机技术领域,用于提高对信息进行检测的效率和准确度,包括:获取目标待检测网站对应的目标图像,并将目标图像转化为灰度图,目标图像中包括的目标内容用于验证并登录目标待检测网站;将灰度图进行图像分割得到多个子图像,并从多个子图像中确定出目标子图像;通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容,基于目标内容自动验证并登录目标待检测网站,确定目标待检测网站的备案信息。本申请应用于对信息进行检测的场景中。

Description

信息检测方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息检测方法、装置、设备及存储介质。
背景技术
随着运营商合作伙伴的不断增多,为了提高网络安全,需要保证合作伙伴的各种网站为合法的备案网站。因此,运营商需要验证和查实合作伙伴的各种网站是否合法。长期以来,运营商进行网站备案检查,都是通过人工登录网站识别图片文字验证码,以检查网站备案的合法性。
在上述方法中,当运营商合作伙伴的各种网站数量较多时,需要登录大量网站检测网站是否备案,而采用人工登录网站识别图片文字验证码,然后查看备案信息的方式的效率较低,并且准确度较低。因此,当前对信息进行检测的效率较低、准确度较低。
发明内容
本申请提供一种信息检测方法、装置、设备及存储介质,用于提高对信息进行检测的效率和准确度。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供了一种信息检测方法,该方法包括:获取目标待检测网站对应的目标图像,并将目标图像转化为灰度图,目标图像中包括的目标内容用于验证并登录目标待检测网站;将灰度图进行图像分割得到多个子图像,并从多个子图像中确定出目标子图像;通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容,基于目标内容自动验证并登录目标待检测网站,确定目标待检测网站的备案信息。
在一种可能的实现方式中,获取目标待检测网站对应的目标图像,并将目标图像转化为灰度图之前,方法还包括:获取多个网站对应的多个图像,并将多个图像划分为训练集和测试集,一个网站对应一个图像,多个图像中的每个图像中包括的内容用于验证并登录对应的网站;基于训练集和测试集,训练得到CNN算法模型。
在一种可能的实现方式中,从多个子图像中确定出目标子图像,包括:确定多个子图像中每个子图像对应的灰度直方图;基于每个子图像对应的灰度直方图,将多个子图像中像素数量第二多的子图像确定为目标子图像。
在一种可能的实现方式中,通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容之前,方法还包括:对目标子图像进行二值化处理,并将目标子图像划分为多个图像区域。
在一种可能的实现方式中,通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容,包括:通过CNN算法模型对目标子图像划分的多个图像区域进行识别,确定并获取目标子图像中包括的目标内容。
第二方面,提供了一种信息检测装置,该信息检测装置包括:获取单元和处理单元;获取单元,用于获取目标待检测网站对应的目标图像;处理单元,用于将目标图像转化为灰度图,目标图像中包括的目标内容用于验证并登录目标待检测网站;处理单元,用于将灰度图进行图像分割得到多个子图像,并从多个子图像中确定出目标子图像;处理单元,用于通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容,基于目标内容自动验证并登录目标待检测网站,确定目标待检测网站的备案信息。
在一种可能的实现方式中,获取单元,用于获取多个网站对应的多个图像,并将多个图像划分为训练集和测试集,一个网站对应一个图像,多个图像中的每个图像中包括的内容用于验证并登录对应的网站;处理单元,用于基于训练集和测试集,训练得到CNN算法模型。
在一种可能的实现方式中,处理单元,用于确定多个子图像中每个子图像对应的灰度直方图;处理单元,用于基于每个子图像对应的灰度直方图,将多个子图像中像素数量第二多的子图像确定为目标子图像。
在一种可能的实现方式中,处理单元,用于对目标子图像进行二值化处理,并将目标子图像划分为多个图像区域。
在一种可能的实现方式中,处理单元,用于通过CNN算法模型对目标子图像划分的多个图像区域进行识别,确定并获取目标子图像中包括的目标内容。
第三方面,一种电子设备,包括:处理器以及存储器;其中,存储器用于存储一个或多个程序,一个或多个程序包括计算机执行指令,当电子设备运行时,处理器执行存储器存储的计算机执行指令,以使电子设备执行如第一方面的一种信息检测方法。
第四方面,提供了一种存储一个或多个程序的计算机可读存储介质,该一个或多个程序包括指令,上述指令当被计算机执行时使计算机执行如第一方面的一种信息检测方法。
本申请提供了一种信息检测方法、装置、设备及存储介质,应用于对网站信息进行检测的场景中。在需要检测目标待检测网站的备案信息时,可以获取目标待检测网站对应的,包括用于验证并登录目标待检测网站的目标内容的目标图像,并将目标图像转化为灰度图,进一步的将灰度图进行图像分割得到多个子图像,并从多个子图像中确定出目标子图像;以通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容,从而基于目标内容自动验证并登录目标待检测网站,确定目标待检测网站的备案信息。通过上述方法,在需要登录大量网站以检测网站是否备案时,无需通过人工登录网站识别图片文字验证码,然后查看备案信息的方式对网站信息进行检测,而是在对包括用于验证并登录目标待检测网站的目标内容的目标图像进行处理后,通过CNN算法模型获取目标图像中包括的目标内容,从而自动验证并登录目标待检测网站。可以提高查看网站备案信息的效率及准确度。
附图说明
图1为本申请的实施例提供的一种信息检测***结构示意图;
图2为本申请的实施例提供的一种信息检测方法流程示意图一;
图3为本申请的实施例提供的一种信息检测方法流程示意图二;
图4为本申请的实施例提供的一种CNN算法模型训练示意图一;
图5为本申请的实施例提供的一种CNN算法模型训练示意图二;
图6为本申请的实施例提供的一种信息检测方法流程示意图三;
图7为本申请的实施例提供的一种信息检测方法流程示意图四;
图8为本申请的实施例提供的一种信息检测方法流程示意图五;
图9为本申请的实施例提供的一种网站的登陆界面示意图;
图10为本申请的实施例提供的一种图像特征示意图一;
图11为本申请的实施例提供的一种可视化图像示意图;
图12为本申请的实施例提供的一种图像特征示意图二;
图13为本申请的实施例提供的一种图像特征示意图三;
图14为本申请的实施例提供的一种字符图示意图;
图15为本申请的实施例提供的一种信息检测装置结构示意图;
图16为本申请的实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在本申请的描述中,除非另有说明,“/”表示“或”的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。此外,“至少一个”“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
当前,运营商的合作伙伴逐渐增多,为了网络安全需要保证合作伙伴的各种网站已经进行了合法备案。而确定这些网站是否合法备案,是运营商需要验证和查实的一个基础性工作。长期以来,运营商进行网站备案检查,都是通过人工登录网站检查网站备案合法性的方法,期间如何使自动识别图片文字验证码并自动登录网站,大批量自动检查网站备案信息,是亟需面对和解决的问题。
本申请提供一种信息检测方法,可以快速高效的对网站备案信息进行自动检查,通过将需要登录的大量网站对应的图片文字采用卷积神经网络算法自动批量识别,并通过自动批量识别出来的文字自动登录网站,自行查阅该网站是否具备合法备案信息,整个过程全程高效、自动化程度高,准确性和效率相比传统方式大大提升。
本申请实施例提供的一种信息检测方法,可以适用于信息检测***。图1示出了该信息检测***的一种结构示意图。如图1所示,信息检测***20包括:电子设备21和服务器22。其中,电子设备21和服务器22之间进行数据交互,电子设备21可以从服务器22中获取所需的数据(例如目标图像),或者,电子设备21可以通过服务器22登录对应的网站,以确定网站的备案信息。
电子设备21可以用于物联网,电子设备21可以对获取到的图像进行处理,以将图像转化为灰度图,并将灰度图进行图像分割得到多个子图像,并从多个子图像中确定出目标子图像,以通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容。
服务器22可以用于物联网,为电子设备21执行信息检测方法提供所需的数据信息。
下面结合附图对本申请实施例提供的一种信息检测方法进行描述。
如图2所示,本申请实施例提供的一种信息检测方法,包括S201-S203:
S201、获取目标待检测网站对应的目标图像,并将目标图像转化为灰度图。
其中,目标图像中包括的目标内容用于验证并登录目标待检测网站。
可选的,目标图像为彩色图像,因此需要对目标图像进行图像处理,以将彩色图像转换成灰度图,才能进行相关的计算、识别。
可选的,彩色图像是由R/G/B三个分量组成,其文件存储格式为BITMAPFILEHEADER+BITMAPINFOHEADER,如果目标图像是24位真彩图,则每个点是由三个字节分别表示R/G/B,文件存储格式后面跟着图像的色彩信息。
可选的,如果目标图像是8位(256色)、4位(16色)、1位(单色)的图像,则文件存储格式后面跟着调色板数据,一个RGBQUAD类型的数组,其长度由BITMAPINFOHEADER.biClrUsed决定。进一步的,才是图像数据(24位真彩图是真实的图像数据,其他的则是调色板的索引数据)。
需要说明的是,灰度图是指只含亮度信息,不含色彩信息的图像,如黑白照片:亮度由暗到明,变化是连续的。因此,要表示灰度图,就需要把亮度值进行量化。通常划分成0到255共256个级别,其中0最暗(全黑),255最亮(全白)。在表示颜色的方法中,除了RGB外,还可以通过YUV的表示方式,应用也很多,其中,电视信号中用的就是一种类似于YUV的颜色表示方法。在这种表示方法中,Y分量的物理含义就是亮度,Y分量包含了灰度图的所有信息,只用Y分量就能完全能够表示出一幅灰度图来。从RGB到YUV空间的Y转换公式为:Y=0.299R+0.587G+0.114B。
因此,彩色图像转换为灰色图如下:灰度图中有调色板,首先需要确定调色板的具体颜色取值,图的三个分量相等。当转换为8位的时候,调色板中有256个颜色,每个正好从0到255个,三个分量都相等。当转换为4位的时候,调色板中16个颜色,等间隔平分255个颜色值,三个分量都相等。当转换为2位的时候,调色板中4个颜色,等间隔平分255个颜色,三个分量相等。当转换为1位的时候,调色板中两个颜色,是0和255,表示黑和白。
可选的,将彩色图像转换为灰度图时,按照公式计算出对应的值,该值实际上是亮度的级别;亮度从0到255,由于不同的位有不同的亮度级别,所以Y的具体取值如下:Y=Y/(1<<(8-转换的位数))。
所以,要将彩色图像转化成灰度图,并且存储成一幅可以看到的图像,需要做如下转换:16位以上的图像不带调色板,只需要把图像数据按每个点的位数都转换成相同的灰度值即可;16位以下的图像,则需要修改调色板的数值,并且按照每个点所占位数修改灰度值索引即可。
S202、将灰度图进行图像分割得到多个子图像,并从多个子图像中确定出目标子图像。
可选的,在得到灰度图之后,可以通过图像分割把灰度图进行分割,以去除掉边框和部分噪声,得到多个子图像。
可选的,可以从多个子图像中任意选取一张子图像作为目标子图像,或者,根据每个子图像对应的灰度直方图从多个子图像中确定出目标子图像。
S203、通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容,基于目标内容自动验证并登录目标待检测网站,确定目标待检测网站的备案信息。
可选的,上述卷积神经网络(Convolutional Neural Networks,CNN)算法模型为预先通过多个网站对应的多个图像进行训练得到的模型,CNN算法模型用于识别并获取目标子图像中包括的目标内容。
可选的,在通过CNN算法模型识别出目标子图像中包括的文字验证码(即目标内容)之后,可以根据登录目标待检测网站的用户名和密码,登录网站检查网站备案信息。
本申请提供了一种信息检测方法,在需要检测目标待检测网站的备案信息时,可以获取目标待检测网站对应的,包括用于验证并登录目标待检测网站的目标内容的目标图像,并将目标图像转化为灰度图,进一步的将灰度图进行图像分割得到多个子图像,并从多个子图像中确定出目标子图像;以通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容,从而基于目标内容自动验证并登录目标待检测网站,确定目标待检测网站的备案信息。通过上述方法,在需要登录大量网站以检测网站是否备案时,无需通过人工登录网站识别图片文字验证码,然后查看备案信息的方式对网站信息进行检测,而是在对包括用于验证并登录目标待检测网站的目标内容的目标图像进行处理后,通过CNN算法模型获取目标图像中包括的目标内容,从而自动验证并登录目标待检测网站。可以提高查看网站备案信息的效率及准确度。
在一种设计中,如图3所示,本申请实施例提供的一种信息检测方法中,在上述步骤S201之前,具体还可以包括步骤S301-S302:
S301、获取多个网站对应的多个图像,并将多个图像划分为训练集和测试集。
其中,一个网站对应一个图像,多个图像中的每个图像中包括的内容用于验证并登录对应的网站。
可选的,在预先通过多个网站对应的多个图像进行训练得到CNN算法模型时,可以从需要进行检测的多个网站,获取需要进行备案检查网站的现有图片数据或者采集网络图片库,在训练有监督的机器学习模型时需要把数据集划分为训练集和测试集,划分的比例可以按0.6:0.4(或0.5:0.5)的比例划分。
S302、基于训练集和测试集,训练得到CNN算法模型。
可选的,首先可以将训练集包括的网站对应的图像输入至预设模型中,以对预设模型进行训练,在通过训练集包括的网站对应的图像对预设模型进行训练结束之后,可以进一步的将测试集包括的网站对应的图像输入至预设模型中,以对预设模型进行测试,以确定训练得到的模型的准确度和效率,从而在准确度和效率满足预设条件时,得到所需的CNN算法模型。
可选的,CNN算法模型由CNN特征提取器和广义回归神经网络(generalregression neural network,GRNN)分类器两部分组成。
首先,如图4所示,将样本图像(即训练集包括的网站对应的图像)送入预设模型的输入层,经过多次卷积和降采样操作,得到若干幅特征图像。然后,将特征图像拉伸为一列向量,该列向量即是从样本图像中提取出的特征向量。其次,依旧保留与特征向量全连接的输出层,用于CNN特征提取器的训练。最后,利用特征提取器将提取到的特征向量送入GRNN分类器,分类器进行相关的运算后,输出最终分类结果。
特征提取器包括输入层、隐含层、隐含单元和输出层4个部分。输入层模型的特征提取器采用的是CNN模型,直接将图像输入至模型的输入层中,无须对样本图像进行过多的预处理操作。隐含层由卷积层和降采样层组成,用于对输入层图像进行卷积滤波和降采样操作。卷积层的主要功能是特征抽取,利用若个卷积核对上一层图像进行卷积操作,从而获得多个特征图像。
其中,卷积层的计算形式为:
Figure BDA0003870177830000081
其中,l表示所在层数,k为卷积核,Mj为输入层的感受野,B为偏置项,f为激活函数,此处采用Sigmoid函数作为激活函数。采样层可降低网络的空间分辨率,消除偏移和图像扭曲,实现位移不变性。特征图像个数不因降采样操作发生任何变化,但图像尺寸会根据降采样窗口和步长发生相应改变。采样层的计算形式为:
Figure BDA0003870177830000082
其中,P为采样函数;β为权重系数。隐含单元,经过多次卷积与降采样操作,得到若干幅特征图像,然后,将该层所有的特征图像变换为一列向量,该列向量即是从样本图像中提取出的特征向量。输出层,输出层神经元个数与样本图像标签个数相同,与上层神经元采用全连接方式,在本模型中用于训练CNN特征提取器。
分类器选用由Specht提出的GRNN,它是人工神经网络的一种变化形式,是以非参数估计为基础的非线性回归神经网络,具有很强的非线性映射与泛化能力,适用于小样本数据,最终收敛样本聚集较多的优化面。GRNN由4层网络组成,如图5所示,分别为输入层、模式层、求和层和输出层。其中,输入层神经元个数等于CNN特征提取器从图像样本中抽取的特征向量的维数,并传递给模式层;模式层神经元个数与输入层相同,不同的神经元对应不同样本数据;求和层仅有2个神经元,与上层节点采用全连接方式;输出层通过计算求和层的2个输出商数,得到模型预测值。
对于输入X,GRNN模型的估计值
Figure BDA0003870177830000083
通过公式一表示:
Figure BDA0003870177830000084
其中,Xi,Yi为样本观测值,δ为光滑因子,n为样本数量。
CNN特征提取器的训练,首先初始化网络模型中所有的卷积核权值与偏置项,同时将训练集样本图像送入网络,输入图像经过网络的前向过程得到输出o,再与样本标Y进行计算,可得到模型误差值E。通过误差值判断模型是否收敛,若收敛则训练结束;若未收敛则计算输出层的残差,入公式二和公式三所示:
Figure BDA0003870177830000091
Figure BDA0003870177830000092
其中,nl是指输出层,y为样本标签,a为输出值,m为每批样本数,f是激活函数,z为输出层上层神经元。
进一步的,残差从输出层反向传递,逐层计算残差值,该残差表明了该节点对最终输出值的残差产生了相应的影响,如公式四所示:
δ(1)=((Wl)Tδ(l+1))·f′(z(l)) 公式四
其中,Wl表示第l层的权值。
进一步的,计算权值与偏置项的更新值,如公式五和公式六所示:
Figure BDA0003870177830000093
Figure BDA0003870177830000094
其中,b(l)是第l层的偏置项,a是学习率。
需要说明的是,GRNN分类器同样需要训练,训练过程为:先将所有训练图像送入训练完毕的CNN中,得到所有训练图像的特征向量,再将所得特征向量输入待训练的GRNN分类器。由于GRNN分类器采用有监督式训练因此要将对应图像标签一并送入分类器,最后得到训练完毕的GRNN分类器。
在一种设计中,如图6所示,本申请实施例提供的一种信息检测方法中,上述步骤S202中的方法,具体可以包括S401-S402:
S401、将灰度图进行图像分割得到多个子图像,并确定多个子图像中每个子图像对应的灰度直方图。
S402、基于每个子图像对应的灰度直方图,将多个子图像中像素数量第二多的子图像确定为目标子图像。
可选的,在将灰度图进行图像分割得到多个子图像之后,可以进一步的统计每个子图像对应的灰度直方图(设置bins),并根据每个子图像对应的灰度直方图,从多个子图像中找到像素数量第二多的子图像,取像素范围的中位数mode,然后保留(mode±biases)的像素,这样就可以将大部分噪声去除掉。
可以理解,将灰度图进行图像分割得到的多个子图像中,像素数量最多的是白色图像(即空白图像),因此需要将多个子图像中像素数量第二多的子图像确定为目标子图像。
在本申请实施例中,可以通过确定多个子图像中每个子图像对应的灰度直方图,以基于每个子图像对应的灰度直方图,从多个子图像中确定出目标子图像,从而可以提高确定目标子图像的准确度。
在一种设计中,如图7所示,本申请实施例提供的一种信息检测方法中,在上述步骤S203中的方法之前,具体还可以包括S501:
S501、对目标子图像进行二值化处理,并将目标子图像划分为多个图像区域。
可选的,对目标子图像进行二值化处理,将目标子图像划分为多个图像区域之后,可以从目标子图像中随机确定一个黑色像素点,然后对这个像素点周围的8个像素点进行判断,确定是否访问过这些像素点,如果没有访问过,则保存这些像素点。最后,根据得到的数组的最小值和最大值,确定对目标子图像进行划分得到多个图像区域的分界线位置。
需要说明的是,上述划分方法适用于没有粘连的验证码,可以处理图像中位置比较奇怪的验证码。
在一种设计中,如图8所示,本申请实施例提供的一种信息检测方法中,上述步骤S203中的“通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容”方法,具体可以包括S601:
S601、通过CNN算法模型对目标子图像划分的多个图像区域进行识别,确定并获取目标子图像中包括的目标内容。
示例性的,假设需要对5000个网站进行备案检查,如果采用传统的人工检查方法,只有依赖人工识别文字验证码然后登录网站,进行备案信息合法性检查,至少需要1个多月才能够完成,效率十分低下。通过本申请的方法进行图像文字验证码自动批量识别,并自动登录网站检查备案信息,整个过程大致在数个小时之内即可完成,整个处理过程高效准确。
对于图像中文字验证码的具体提取过程如下:如图9所示,为某网站的登陆界面,需要实现自动的识别验证码,以获取验证信息。具体的,需要识别出如图10所示的图像特征,从图10所示的图像特征中可以得到如下信息:验证码中的字符数始终为6,并且是灰度图像,字符间的间隔看起来每次都一样,每个字符都是完全定义的,图像有许多杂散的黑暗像素,以及穿过图像的线条作为干扰因素。
进一步的,对图10所示的图像特征进行图像分析,如图11所示,通过使用工具(binary-image)以二进制形式得到可视化图像(其中,像素值0表示黑色,1表示白色像素)。并对图像进行去杂,清理干扰因子,为了清理图像中的干扰因素(删除不必要的线和点)。通过阈值处理将字符中的所有像素都确定为纯黑色(像素值为0),如果不是完全黑色的,将它当成白色像素点。因此,对于像素值大于0的每个像素,将给其重新赋值为255。使用load()函数将图像转换为45x180的数字矩阵,然后对其进行处理,如图12所示,得到算法矫正后的图像。
具体的处理过程为:
pixel_matrix=cropped_image.load()
for col in range(0,cropped_image.height):
for row in range(0,cropped_image.width):
if pixel_matrix[row,col]!=0:
pixel_matrix[row,col]=255
image.save(“thresholded_image.png”)
从图12中可以看得到,并非完全黑暗的所有像素都被删除了,比如穿过图像的线条。去除图像中的黑点之后,图像中有许多散杂黑点像素的干扰因子。通过循环遍历图像矩阵,并且如果相邻像素是白色的,并且与相邻像素相对的像素也是白色的,并且中心像素是黑色的,则设定中心像素为白色,得到如图13所示的图像。
具体的处理过程为:
for column in range(1,image.height-1):
for row in range(1,image.width-1):
if pixel_matrix[row,column]==0and pixel_matrix[row,column-1]==255and pixel_matrix[row,column+1]==255:
pixel_matrix[row,column]=255
if pixel_matrix[row,column]==0and pixel_matrix[row–1,column]==255and pixel_matrix[row+1,column]==255:
pixel_matrix[row,column]=255
图13所示的图像已经只剩下字符框架了,虽然有些字符已经丢失了一些基础像素,但是每个字符的图像骨架基本上都完备,以为每个可能的字符都截取生成合适的字符图,字符图如图14所示。
具体的处理过程通过python编写图像裁剪模块程序,图像裁剪的语法具体为:
from PIL import Image
image=Image.open(“filename.png”)
cropped_image=image.crop((left,upper,right,lower))
比如要裁剪第一个字符:
from PIL import Image
image=Image.open(“captcha.png”).convert(“L”)
cropped_image=image.crop((0,0,30,45))
cropped_image.save(“cropped_image.png”)
最终,通过得到的CNN算法模型实现对图像的自动识别,得到字符为Z5M3MQ,验证码被成功识别出来之后自动登录网站,检查备案合法性,结果直接呈现出来,全程自动高效无需人工干预。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对一种信息检测装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图15为本申请实施例提供的一种信息检测装置的结构示意图。如图15所示,一种信息检测装置40用于提高对信息进行检测的效率和准确度,例如用于执行图2所示的一种信息检测方法。该信息检测装置40包括:获取单元401和处理单元402;
获取单元401,用于获取目标待检测网站对应的目标图像;
处理单元402,用于将目标图像转化为灰度图,目标图像中包括的目标内容用于验证并登录目标待检测网站;
处理单元402,用于将灰度图进行图像分割得到多个子图像,并从多个子图像中确定出目标子图像;
处理单元402,用于通过卷积神经网络CNN算法模型获取目标子图像中包括的目标内容,基于目标内容自动验证并登录目标待检测网站,确定目标待检测网站的备案信息。
在一种可能的实现方式中,在本申请实施例提供的一种信息检测装置40中,获取单元401,用于获取多个网站对应的多个图像,并将多个图像划分为训练集和测试集,一个网站对应一个图像,多个图像中的每个图像中包括的内容用于验证并登录对应的网站;
处理单元402,用于基于训练集和测试集,训练得到CNN算法模型。
在一种可能的实现方式中,在本申请实施例提供的一种信息检测装置40中,处理单元402,用于确定多个子图像中每个子图像对应的灰度直方图;
处理单元402,用于基于每个子图像对应的灰度直方图,将多个子图像中像素数量第二多的子图像确定为目标子图像。
在一种可能的实现方式中,在本申请实施例提供的一种信息检测装置40中,处理单元402,用于对目标子图像进行二值化处理,并将目标子图像划分为多个图像区域。
在一种可能的实现方式中,在本申请实施例提供的一种信息检测装置40中,处理单元402,用于通过CNN算法模型对目标子图像划分的多个图像区域进行识别,确定并获取目标子图像中包括的目标内容。
在采用硬件的形式实现上述集成的模块的功能的情况下,本申请实施例提供了上述实施例中所涉及的电子设备的另外一种可能的结构示意图。如图16所示,一种电子设备60,用于提高对信息进行检测的效率和准确度,例如用于执行图2所示的一种信息检测方法。该电子设备60包括处理器601,存储器602以及总线603。处理器601与存储器602之间可以通过总线603连接。
处理器601是通信装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器601可以是一个通用中央处理单元(central processing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
作为一种实施例,处理器601可以包括一个或多个CPU,例如图16中所示的CPU 0和CPU 1。
存储器602可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
作为一种可能的实现方式,存储器602可以独立于处理器601存在,存储器602可以通过总线603与处理器601相连接,用于存储指令或者程序代码。处理器601调用并执行存储器602中存储的指令或程序代码时,能够实现本申请实施例提供的一种信息检测方法。
另一种可能的实现方式中,存储器602也可以和处理器601集成在一起。
总线603,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、***设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图16中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
需要指出的是,图16示出的结构并不构成对该电子设备60的限定。除图16所示部件之外,该电子设备60可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
作为一个示例,结合图15,电子设备中的获取单元401和处理单元402实现的功能与图16中的处理器601的功能相同。
可选的,如图16所示,本申请实施例提供的电子设备60还可以包括通信接口604。
通信接口604,用于与其他设备通过通信网络连接。该通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLAN)等。通信接口604可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
在一种设计中,本申请实施例提供的电子设备中,通信接口还可以集成在处理器中。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元的划分进行举例说明。在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机执行该指令时,该计算机执行上述方法实施例所示的方法流程中的各个步骤。
本申请的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行上述方法实施例中的一种信息检测方法。
其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘。随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的人以合适的组合、或者本领域数值的任何其他形式的计算机可读存储介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。
在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
由于本申请的实施例中的电子设备、计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本申请实施例在此不再赘述。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。

Claims (12)

1.一种信息检测方法,其特征在于,所述方法包括:
获取目标待检测网站对应的目标图像,并将所述目标图像转化为灰度图,所述目标图像中包括的目标内容用于验证并登录所述目标待检测网站;
将所述灰度图进行图像分割得到多个子图像,并从所述多个子图像中确定出目标子图像;
通过卷积神经网络CNN算法模型获取所述目标子图像中包括的所述目标内容,基于所述目标内容自动验证并登录所述目标待检测网站,确定所述目标待检测网站的备案信息。
2.根据权利要求1所述的方法,其特征在于,所述获取目标待检测网站对应的目标图像,并将所述目标图像转化为灰度图之前,所述方法还包括:
获取多个网站对应的多个图像,并将所述多个图像划分为训练集和测试集,一个网站对应一个图像,所述多个图像中的每个图像中包括的内容用于验证并登录对应的网站;
基于所述训练集和所述测试集,训练得到所述CNN算法模型。
3.根据权利要求1或2所述的方法,其特征在于,所述从所述多个子图像中确定出目标子图像,包括:
确定所述多个子图像中每个子图像对应的灰度直方图;
基于每个子图像对应的灰度直方图,将所述多个子图像中像素数量第二多的子图像确定为所述目标子图像。
4.根据权利要求1或2所述的方法,其特征在于,所述通过卷积神经网络CNN算法模型获取所述目标子图像中包括的所述目标内容之前,所述方法还包括:
对所述目标子图像进行二值化处理,并将所述目标子图像划分为多个图像区域。
5.根据权利要求4所述的方法,其特征在于,所述通过卷积神经网络CNN算法模型获取所述目标子图像中包括的所述目标内容,包括:
通过所述CNN算法模型对所述目标子图像划分的所述多个图像区域进行识别,确定并获取所述目标子图像中包括的所述目标内容。
6.一种信息检测装置,其特征在于,所述信息检测装置包括:获取单元和处理单元;
所述获取单元,用于获取目标待检测网站对应的目标图像;
所述处理单元,用于将所述目标图像转化为灰度图,所述目标图像中包括的目标内容用于验证并登录所述目标待检测网站;
所述处理单元,用于将所述灰度图进行图像分割得到多个子图像,并从所述多个子图像中确定出目标子图像;
所述处理单元,用于通过卷积神经网络CNN算法模型获取所述目标子图像中包括的所述目标内容,基于所述目标内容自动验证并登录所述目标待检测网站,确定所述目标待检测网站的备案信息。
7.根据权利要求6所述的信息检测装置,其特征在于,所述获取单元,用于获取多个网站对应的多个图像,并将所述多个图像划分为训练集和测试集,一个网站对应一个图像,所述多个图像中的每个图像中包括的内容用于验证并登录对应的网站;
所述处理单元,用于基于所述训练集和所述测试集,训练得到所述CNN算法模型。
8.根据权利要求6或7所述的信息检测装置,其特征在于,所述处理单元,用于确定所述多个子图像中每个子图像对应的灰度直方图;
所述处理单元,用于基于每个子图像对应的灰度直方图,将所述多个子图像中像素数量第二多的子图像确定为所述目标子图像。
9.根据权利要求6或7所述的信息检测装置,其特征在于,所述处理单元,用于对所述目标子图像进行二值化处理,并将所述目标子图像划分为多个图像区域。
10.根据权利要求9所述的信息检测装置,其特征在于,所述处理单元,用于通过所述CNN算法模型对所述目标子图像划分的所述多个图像区域进行识别,确定并获取所述目标子图像中包括的所述目标内容。
11.一种电子设备,其特征在于,包括:处理器以及存储器;其中,所述存储器用于存储一个或多个程序,所述一个或多个程序包括计算机执行指令,当所述电子设备运行时,处理器执行所述存储器存储的所述计算机执行指令,以使所述电子设备执行权利要求1-5中任一项所述的一种信息检测方法。
12.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如权利要求1-5中任一项所述的一种信息检测方法。
CN202211192830.XA 2022-09-28 2022-09-28 信息检测方法、装置、设备及存储介质 Pending CN115512203A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211192830.XA CN115512203A (zh) 2022-09-28 2022-09-28 信息检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211192830.XA CN115512203A (zh) 2022-09-28 2022-09-28 信息检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115512203A true CN115512203A (zh) 2022-12-23

Family

ID=84506665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211192830.XA Pending CN115512203A (zh) 2022-09-28 2022-09-28 信息检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115512203A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797590A (zh) * 2023-07-03 2023-09-22 深圳市拓有软件技术有限公司 一种基于机器视觉的Mura缺陷检测方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797590A (zh) * 2023-07-03 2023-09-22 深圳市拓有软件技术有限公司 一种基于机器视觉的Mura缺陷检测方法及***

Similar Documents

Publication Publication Date Title
CN110060237B (zh) 一种故障检测方法、装置、设备及***
CN111257341B (zh) 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法
CN110516577B (zh) 图像处理方法、装置、电子设备及存储介质
CN111079764B (zh) 一种基于深度学习的低照度车牌图像识别方法及装置
CN113344826B (zh) 图像处理方法、装置、电子设备及存储介质
CN113688838B (zh) 红色笔迹提取方法、***、可读存储介质及计算机设备
CN109886059B (zh) 一种基于宽度学习的qr码图像检测方法
CN110059666A (zh) 一种注意力检测方法及装置
CN116910752B (zh) 一种基于大数据的恶意代码检测方法
CN115358952B (zh) 一种基于元学习的图像增强方法、***、设备和存储介质
CN112507897A (zh) 跨模态人脸识别方法、装置、设备及存储介质
CN115512203A (zh) 信息检测方法、装置、设备及存储介质
CN117191816B (zh) 基于多光谱融合的电子元器件表面缺陷检测方法和装置
CN113051901B (zh) 一种身份证文本识别方法、***、介质及电子终端
CN114841974A (zh) 一种水果内部结构无损检测方法、***、电子设备及介质
CN114463764A (zh) 表格线检测方法、装置、计算机设备和存储介质
CN113793343A (zh) 基于图像的缺陷定位分割方法、***、终端及存储介质
CN113139577A (zh) 一种基于可变形卷积网络的深度学习图像分类方法及***
CN116226789B (zh) 基于人工智能的数据同分布判别方法、装置、设备及介质
CN116071625B (zh) 深度学习模型的训练方法、目标检测方法及装置
CN117132989B (zh) 基于卷积神经网络的字符验证码识别方法、***及设备
CN114022419A (zh) 电机状态识别方法、装置、设备以及存储介质
CN110189272B (zh) 用于处理图像的方法、装置、设备和存储介质
CN116311290A (zh) 基于深度学习的手写及打印文本检测方法和装置
CN117173147A (zh) 钢带加工用表面处理设备及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination