CN112749294B - 页面隐藏文案识别方法、装置、计算机设备和存储介质 - Google Patents
页面隐藏文案识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112749294B CN112749294B CN201911037454.5A CN201911037454A CN112749294B CN 112749294 B CN112749294 B CN 112749294B CN 201911037454 A CN201911037454 A CN 201911037454A CN 112749294 B CN112749294 B CN 112749294B
- Authority
- CN
- China
- Prior art keywords
- page
- text
- identified
- display
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003384 imaging method Methods 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 25
- 238000001914 filtration Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及一种页面隐藏文案识别方法、装置、计算机设备和存储介质,所述方法包括:获取待识别页面;根据待识别页面的源代码,获得待识别页面包含的全量文案;对待识别页面的展示内容进行图像化处理,获得对应的展示图片;对展示图片进行文字识别,获得待识别页面包含的展示文案;基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案。本申请提供的方案可以提高页面隐藏文案的识别效率和准确率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种页面隐藏文案识别方法、装置、计算机设备和存储介质。
背景技术
网络上的页面资源,除了包含通过页面展示出来的内容之外,可能还包含未展示的隐藏内容,这些隐藏内容在某些特定的情况下会显示出来,因此在引用页面资源时,有必要先识别出其中包含的隐藏内容。
然而,目前通过人工识别页面隐藏内容的方式,存在效率低下、准确率不高的问题。
发明内容
基于此,有必要针对目前通过人工识别页面隐藏内容存在的效率低下、准确率不高的技术问题,提供一种页面隐藏文案识别方法、装置、计算机设备和存储介质。
一种页面隐藏文案识别方法,所述方法包括:
获取待识别页面;
根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;
对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;
对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;
基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。
一种页面隐藏文案识别装置,所述装置包括:
获取模块,用于获取待识别页面;
源代码处理模块,用于根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;
图像化处理模块,用于对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;
文字识别模块,用于对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;
确定模块,用于基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待识别页面;
根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;
对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;
对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;
基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待识别页面;
根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;
对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;
对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;
基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。
上述页面隐藏文案识别方法、装置、计算机设备和计算机可读存储介质,对待识别页面的展示内容进行图像化处理,再对图像化处理后得到的图片进行文字识别,获得页面展示出来的展示文案,通过图片文字识别的方式可以批量快速地获得展示文案,然后根据展示文案与全量文案的差异,确定页面是否包含隐藏文案,无需人工一步步根据文档结构查看页面是否有未显示的内容,从而可以减少人为工作量以及人为失误引起的问题,提高页面隐藏文案的识别效率和准确率。
附图说明
图1为一个实施例中页面隐藏文案识别方法的应用环境图;
图2为一个实施例中页面隐藏文案识别方法的流程示意图;
图3为一个实施例中页面隐藏文案识别方法的流程示意图;
图4为一个实施例中页面隐藏文案识别装置的结构框图;
图5为一个实施例中计算机设备的结构框图;
图6为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中页面隐藏文案识别方法的应用环境图。如图1所示,该应用环境涉及用户终端110和服务器120,用户终端110和服务器120通过网络连接。用户可以通过用户终端110访问内容分享平台,服务器120可以是该内容分享平台所在的服务器。终端110或者服务器120,可以获取网络上的页面资源,并识别页面中是否包含隐藏文案。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种页面隐藏文案识别方法。本实施例主要以该方法应用于上述图1中的终端110或者服务器120来举例说明。参照图2,该页面隐藏文案识别方法具体包括如下步骤S202至步骤S210。
S202,获取待识别页面。
其中,待识别页面可以是HTML(超级文本标记语言)页面,HTML页面包含的隐藏内容可以通过CSS(层叠样式表)隐藏起来。具体地,可以通过待识别页面的网络地址,例如URL(统一资源定位符),获取待识别页面。
S204,根据待识别页面的源代码,获得待识别页面包含的全量文案。
其中,待识别页面的源代码记载了待识别页面包含的所有内容。具体地,可以使用inner Text获得源代码中记载的所有文本内容,即获得待识别页面包含的全量文案,这里的全量文案不仅包括待识别页面展示出来的文案,在待识别页面有隐藏文案的情况下,还包括隐藏的文案。
S206,对待识别页面的展示内容进行图像化处理,获得对应的展示图片。
其中,待识别页面的展示内容可以是通过网页浏览器打开待识别页面后,显示出来的能够被直接看到的内容。展示图片是图片格式的展示内容,包含展示内容相应的信息。具体地,可以采用任何可能的方式进行图像化处理,例如网页截图,在此不做限定。
S208,对展示图片进行文字识别,获得待识别页面包含的展示文案。
其中,展示文案对应展示图片中的文字内容,即对应待识别页面的展示内容中的文字展示内容。具体地,可以采用任何可能的方式进行图片文字识别,例如OCR(光学字符识别),在此不做限定。
S210,基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案。
具体地,全量文案对应待识别页面的全部文案,展示文案对应待识别页面展示出来的文案,全量文案与展示文案的差异,可以用来作为判断待识别页面是否包含隐藏文案的依据。
上述页面隐藏文案识别方法,对待识别页面的展示内容进行图像化处理,再对图像化处理后得到的图片进行文字识别,获得页面展示出来的展示文案,通过图片文字识别的方式可以批量快速地获得展示文案,然后根据展示文案与全量文案的差异,确定页面是否包含隐藏文案,无需人工一步步根据文档结构查看页面是否有未显示的内容,从而可以减少人为工作量以及人为失误引起的问题,提高页面隐藏文案的识别效率和准确率。
在一个实施例中,对待识别页面的展示内容进行截图,获得对应的展示图片。具体地,可以采用开源的项目puppeteer,直接展示待识别页面并截图,如果页面是可滚动页面,截图截取的不仅仅是页面当前可视内容,而是完整的页面展示内容。
在一个实施例中,对待识别页面的展示内容进行截图,获得对应的展示图片,包括以下步骤:对待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容;对文字展示内容进行截图,获得对应的展示图片。
其中,非文字展示内容可以包括图片和视频格式的展示内容。具体地,可以在利用puppeteer截图的过程中,过滤掉待识别页面中相关的图片和视频,使得截图获得的展示图片中只包含待识别页面的文字展示内容,提高后续图片文字识别的效率和准确度。
在一个实施例中,基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案,包括以下步骤:比较全量文案和展示文案,获得差异化文案;根据差异化文案,确定待识别页面是否包含隐藏文案。
具体地,可以采用文字比较算法,例如jsdiff(GitHub上开源的内容对比库),比较全量文案和展示文案,得到全量文案与展示文案之间的差别,即差异化文案,用来作为判断待识别页面是否包含隐藏文案的依据。
理想情况下,展示文案应包含于全量文案中,差异化文案应为全量文案相对于展示文案的增量内容,即差异化文案可以认为是待识别页面包含的隐藏文案。但是,由于图片文字识别难以达到百分之百的正确率,因此展示文案中可能包含与全量文案不相同的内容,因此,差异化文案应为全量文案相对于展示文案有差别的内容,其中包括全量文案中有而展示文案中没有的内容,还可以包括全量文案没有而展示文案中有的内容。
在一个实施例中,根据差异化文案,确定待识别页面是否包含隐藏文案,包括以下步骤:对差异化文案中包含的标点符号进行剔除,得到清理后的差异化文案;根据清理后的差异化文案、以及展示文案,确定待识别页面是否包含隐藏文案。
图片文字识别结果可能存在细小的识别误差,例如将中文的分号识别为英文的分号,将中文的逗号识别为英文的逗号等等。假设待识别页面的展示内容中的一个中文逗号(该中文逗号在全量文案中也为中文逗号),通过图片文字识别后,在相应的展示文案中变成一个英文逗号,该英文逗号与全量文案中对应的中文逗号有区别,该区别会体现在差异化文案中,而该区别原本是不存在的,从而会对隐藏文案的判断造成影响。
本实施例中,对差异化文案进行初步清理,清理的程度可以结合实际需要进行设定。具体地,可以对差异化文案中的分号、逗号、句号等标点符号进行剔除,得到清理后的差异化文案,利用清理后的差异化文案作为判断待识别页面是否包含隐藏文案的依据,可以减小图片文字识别误差对于判断结果的影响,提高判断准确性。
在一个实施例中,根据清理后的差异化文案、以及展示文案,确定待识别页面是否包含隐藏文案,包括以下步骤:计算清理后的差异化文案的第一字符串长度、以及展示文案的第二字符串长度;根据第一字符串长度与第二字符串长度的比值,确定待识别页面是否包含隐藏文案。
本实施例中,在获得清理后的差异化文案后,计算清理后的差异化文案的第一字符串长度、以及展示文案的第二字符串长度,并利用第一字符串长度与第二字符串长度的比值作为判断待识别页面是否包含隐藏文案的依据,可以进一步减小图片文字识别误差对于判断结果的影响,提高判断准确性。
在一个实施例中,若第一字符串长度与第二字符串长度的比值小于阈值,则确定待识别页面不包含隐藏文案;若第一字符串长度与第二字符串长度的比值大于或等于阈值,则确定待识别页面包含隐藏文案。
其中,阈值可以结合实际需要进行设定。例如,阈值可以设为10%,若清理后的差异化文案的字符串长度除以展示文案的字符串长度所得到的比值大于或等于10%,则认为待识别页面包含有未展示出来的隐藏文案。
如图3所示,在一个实施例中,提供了一种页面隐藏文案识别方法,具体包括如下步骤S302至步骤S318。
S302,获取待识别页面。
S304,根据待识别页面的源代码,获得待识别页面包含的全量文案。
S306,对待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容。
S308,对文字展示内容进行截图,获得对应的展示图片。
S310,对展示图片进行文字识别,获得待识别页面包含的展示文案。
S312,比较全量文案和展示文案,获得差异化文案。
S314,对差异化文案中包含的标点符号进行剔除,得到清理后的差异化文案。
S316,计算清理后的差异化文案的第一字符串长度、以及展示文案的第二字符串长度。
S318,根据第一字符串长度与第二字符串长度的比值,确定待识别页面是否包含隐藏文案。
对于该实施例各步骤的具体限定可以参考上文实施例,此处不再赘述。应该理解的是,虽然图2、图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图4所示,在一个实施例中,提供了一种页面隐藏文案识别装置400,包括:获取模块410、源代码处理模块420、图像化处理模块430、文字识别模块440和确定模块450。
获取模块410,用于获取待识别页面。
源代码处理模块420,用于根据待识别页面的源代码,获得待识别页面包含的全量文案。
图像化处理模块430,用于对待识别页面的展示内容进行图像化处理,获得对应的展示图片。
文字识别模块440,用于对展示图片进行文字识别,获得待识别页面包含的展示文案。
确定模块450,用于基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案。
上述页面隐藏文案识别装置,对待识别页面的展示内容进行图像化处理,再对图像化处理后得到的图片进行文字识别,获得页面展示出来的展示文案,通过图片文字识别的方式可以批量快速地获得展示文案,然后根据展示文案与全量文案的差异,确定页面是否包含隐藏文案,无需人工一步步根据文档结构查看页面是否有未显示的内容,从而可以减少人为工作量以及人为失误引起的问题,提高页面隐藏文案的识别效率和准确率。
在一个实施例中,图像化处理模块430在对待识别页面的展示内容进行图像化处理,获得对应的展示图片时,具体用于对待识别页面的展示内容进行截图,获得对应的展示图片。
在一个实施例中,图像化处理模块430在对待识别页面的展示内容进行截图,获得对应的展示图片时,具体用于:对待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容;对文字展示内容进行截图,获得对应的展示图片。
在一个实施例中,确定模块450包括比较单元和确定单元,比较单元用于比较全量文案和展示文案,获得差异化文案;确定单元用于根据差异化文案,确定待识别页面是否包含隐藏文案。
在一个实施例中,确定单元在根据差异化文案,确定待识别页面是否包含隐藏文案时,具体用于:对差异化文案中包含的标点符号进行剔除,得到清理后的差异化文案;根据清理后的差异化文案、以及展示文案,确定待识别页面是否包含隐藏文案。
在一个实施例中,确定单元在根据清理后的差异化文案、以及展示文案,确定待识别页面是否包含隐藏文案时,具体用于:计算清理后的差异化文案的第一字符串长度、以及展示文案的第二字符串长度;根据第一字符串长度与第二字符串长度的比值,确定待识别页面是否包含隐藏文案。
在一个实施例中,确定单元在根据第一字符串长度与第二字符串长度的比值,确定待识别页面是否包含隐藏文案时,具体用于:若第一字符串长度与第二字符串长度的比值小于阈值,则确定待识别页面不包含隐藏文案;若第一字符串长度与第二字符串长度的比值大于或等于阈值,则确定待识别页面包含隐藏文案。
关于页面隐藏文案识别装置的具体限定可以参见上文中对于页面隐藏文案识别方法的限定,在此不再赘述。上述页面隐藏文案识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图5所示,该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现页面隐藏文案识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行页面隐藏文案识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图6所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现页面隐藏文案识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行页面隐藏文案识别方法。
本领域技术人员可以理解,图5或图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的页面隐藏文案识别装置可以实现为一种计算机程序的形式,计算机程序可在如图5或图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该页面隐藏文案识别装置的各个程序模块,比如,图4所示的获取模块、源代码处理模块、图像化处理模块、文字识别模块和确定模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的页面隐藏文案识别方法中的步骤。
例如,图5或图6所示的计算机设备可以通过如图4所示的页面隐藏文案识别装置中的获取模块执行步骤S202。计算机设备可通过源代码处理模块执行步骤S204。计算机设备可通过图像化处理模块执行步骤S206。计算机设备可通过文字识别模块执行步骤S208。计算机设备可通过确定模块执行步骤S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待识别页面;根据待识别页面的源代码,获得待识别页面包含的全量文案;对待识别页面的展示内容进行图像化处理,获得对应的展示图片;对展示图片进行文字识别,获得待识别页面包含的展示文案;基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案。
在一个实施例中,计算机程序使得处理器在执行对待识别页面的展示内容进行图像化处理,获得对应的展示图片的步骤时,具体执行以下步骤:对待识别页面的展示内容进行截图,获得对应的展示图片。
在一个实施例中,计算机程序使得处理器在执行对待识别页面的展示内容进行截图,获得对应的展示图片的步骤时,具体执行以下步骤:对待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容;对文字展示内容进行截图,获得对应的展示图片。
在一个实施例中,计算机程序使得处理器在执行基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案的步骤时,具体执行以下步骤:比较全量文案和展示文案,获得差异化文案;根据差异化文案,确定待识别页面是否包含隐藏文案。
在一个实施例中,计算机程序使得处理器在执行根据差异化文案,确定待识别页面是否包含隐藏文案的步骤时,具体执行以下步骤:对差异化文案中包含的标点符号进行剔除,得到清理后的差异化文案;根据清理后的差异化文案、以及展示文案,确定待识别页面是否包含隐藏文案。
在一个实施例中,计算机程序使得处理器在执行根据清理后的差异化文案、以及展示文案,确定待识别页面是否包含隐藏文案的步骤时,具体执行以下步骤:计算清理后的差异化文案的第一字符串长度、以及展示文案的第二字符串长度;根据第一字符串长度与第二字符串长度的比值,确定待识别页面是否包含隐藏文案。
在一个实施例中,计算机程序使得处理器在执行根据第一字符串长度与第二字符串长度的比值,确定待识别页面是否包含隐藏文案的步骤时,具体执行以下步骤:若第一字符串长度与第二字符串长度的比值小于阈值,则确定待识别页面不包含隐藏文案;若第一字符串长度与第二字符串长度的比值大于或等于阈值,则确定待识别页面包含隐藏文案。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待识别页面;根据待识别页面的源代码,获得待识别页面包含的全量文案;对待识别页面的展示内容进行图像化处理,获得对应的展示图片;对展示图片进行文字识别,获得待识别页面包含的展示文案;基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案。
在一个实施例中,计算机程序使得处理器在执行对待识别页面的展示内容进行图像化处理,获得对应的展示图片的步骤时,具体执行以下步骤:对待识别页面的展示内容进行截图,获得对应的展示图片。
在一个实施例中,计算机程序使得处理器在执行对待识别页面的展示内容进行截图,获得对应的展示图片的步骤时,具体执行以下步骤:对待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容;对文字展示内容进行截图,获得对应的展示图片。
在一个实施例中,计算机程序使得处理器在执行基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案的步骤时,具体执行以下步骤:比较全量文案和展示文案,获得差异化文案;根据差异化文案,确定待识别页面是否包含隐藏文案。
在一个实施例中,计算机程序使得处理器在执行根据差异化文案,确定待识别页面是否包含隐藏文案的步骤时,具体执行以下步骤:对差异化文案中包含的标点符号进行剔除,得到清理后的差异化文案;根据清理后的差异化文案、以及展示文案,确定待识别页面是否包含隐藏文案。
在一个实施例中,计算机程序使得处理器在执行根据清理后的差异化文案、以及展示文案,确定待识别页面是否包含隐藏文案的步骤时,具体执行以下步骤:计算清理后的差异化文案的第一字符串长度、以及展示文案的第二字符串长度;根据第一字符串长度与第二字符串长度的比值,确定待识别页面是否包含隐藏文案。
在一个实施例中,计算机程序使得处理器在执行根据第一字符串长度与第二字符串长度的比值,确定待识别页面是否包含隐藏文案的步骤时,具体执行以下步骤:若第一字符串长度与第二字符串长度的比值小于阈值,则确定待识别页面不包含隐藏文案;若第一字符串长度与第二字符串长度的比值大于或等于阈值,则确定待识别页面包含隐藏文案。
需要理解的是,上述实施例中的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种页面隐藏文案识别方法,包括:
获取待识别页面;
根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;
对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;
对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;
比较所述全量文案和所述展示文案,获得差异化文案,根据所述差异化文案,确定所述待识别页面是否包含隐藏文案。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片,包括:
对所述待识别页面的展示内容进行截图,获得对应的展示图片。
3.根据权利要求2所述的方法,其特征在于,所述对所述待识别页面的展示内容进行截图,获得对应的展示图片,包括:
对所述待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容;
对所述文字展示内容进行截图,获得对应的展示图片。
4.根据权利要求3所述的方法,其特征在于,所述对所述待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容,包括:
对所述待识别页面的展示内容中的图片和视频进行过滤,得到文字展示内容。
5.根据权利要求1所述的方法,其特征在于,所述根据所述差异化文案,确定所述待识别页面是否包含隐藏文案,包括:
对所述差异化文案中包含的标点符号进行剔除,得到清理后的差异化文案;
根据所述清理后的差异化文案、以及所述展示文案,确定所述待识别页面是否包含隐藏文案。
6.根据权利要求5所述的方法,其特征在于,所述根据所述清理后的差异化文案、以及所述展示文案,确定所述待识别页面是否包含隐藏文案,包括:
计算所述清理后的差异化文案的第一字符串长度、以及所述展示文案的第二字符串长度;
根据所述第一字符串长度与所述第二字符串长度的比值,确定所述待识别页面是否包含隐藏文案。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一字符串长度与所述第二字符串长度的比值,确定所述待识别页面是否包含隐藏文案,包括:
若所述第一字符串长度与所述第二字符串长度的比值小于阈值,则确定所述待识别页面不包含隐藏文案;
若所述第一字符串长度与所述第二字符串长度的比值大于或等于所述阈值,则确定所述待识别页面包含隐藏文案。
8.一种页面隐藏文案识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别页面;
源代码处理模块,用于根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;
图像化处理模块,用于对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;
文字识别模块,用于对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;
确定模块,用于基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案;
所述确定模块包括比较单元和确定单元,所述比较单元,用于比较所述全量文案和所述展示文案,获得差异化文案;所述确定单元,用于根据所述差异化文案,确定所述待识别页面是否包含隐藏文案。
9.根据权利要求8所述的装置,其特征在于,所述图像化处理模块,还用于对所述待识别页面的展示内容进行截图,获得对应的展示图片。
10.根据权利要求9所述的装置,其特征在于,所述图像化处理模块,还用于对所述待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容;对所述文字展示内容进行截图,获得对应的展示图片。
11.根据权利要求10所述的装置,其特征在于,所述图像化处理模块,还用于对所述待识别页面的展示内容中的图片和视频进行过滤,得到文字展示内容。
12.根据权利要求8所述的装置,其特征在于,所述确定单元,还用于对所述差异化文案中包含的标点符号进行剔除,得到清理后的差异化文案;根据所述清理后的差异化文案、以及所述展示文案,确定所述待识别页面是否包含隐藏文案。
13.根据权利要求12所述的装置,其特征在于,所述确定单元,还用于计算所述清理后的差异化文案的第一字符串长度、以及所述展示文案的第二字符串长度;根据所述第一字符串长度与所述第二字符串长度的比值,确定所述待识别页面是否包含隐藏文案。
14.根据权利要求13所述的装置,其特征在于,所述确定单元,还用于若所述第一字符串长度与所述第二字符串长度的比值小于阈值,则确定所述待识别页面不包含隐藏文案;若所述第一字符串长度与所述第二字符串长度的比值大于或等于所述阈值,则确定所述待识别页面包含隐藏文案。
15.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911037454.5A CN112749294B (zh) | 2019-10-29 | 2019-10-29 | 页面隐藏文案识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911037454.5A CN112749294B (zh) | 2019-10-29 | 2019-10-29 | 页面隐藏文案识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749294A CN112749294A (zh) | 2021-05-04 |
CN112749294B true CN112749294B (zh) | 2023-10-31 |
Family
ID=75640926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911037454.5A Active CN112749294B (zh) | 2019-10-29 | 2019-10-29 | 页面隐藏文案识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749294B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344370A (zh) * | 2018-08-23 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 敏感内容脱敏、还原方法、装置及设备 |
CN109785222A (zh) * | 2019-01-17 | 2019-05-21 | 杭州基尔区块链科技有限公司 | 一种用于网页的信息快速嵌入和提取的方法 |
-
2019
- 2019-10-29 CN CN201911037454.5A patent/CN112749294B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344370A (zh) * | 2018-08-23 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 敏感内容脱敏、还原方法、装置及设备 |
CN109785222A (zh) * | 2019-01-17 | 2019-05-21 | 杭州基尔区块链科技有限公司 | 一种用于网页的信息快速嵌入和提取的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112749294A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595583B (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
KR101955732B1 (ko) | 캡처된 이미지 데이터를 스프레드시트와 연관시키는 방법 | |
CN111767228B (zh) | 基于人工智能的界面测试方法、装置、设备和介质 | |
US9256798B2 (en) | Document alteration based on native text analysis and OCR | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN107294918B (zh) | 一种钓鱼网页检测方法及装置 | |
CN110955608B (zh) | 测试数据处理方法、装置、计算机设备和存储介质 | |
CN112417899A (zh) | 文字翻译方法、装置、计算机设备和存储介质 | |
CN112988557A (zh) | 一种搜索框定位方法、数据采集方法、装置及介质 | |
CN113869789A (zh) | 一种风险监控的方法、装置、计算机设备及存储介质 | |
CN112749294B (zh) | 页面隐藏文案识别方法、装置、计算机设备和存储介质 | |
CN112528832A (zh) | 对pdf格式的继电保护定值单进行处理的方法和*** | |
CN116225956A (zh) | 自动化测试方法、装置、计算机设备和存储介质 | |
WO2008136558A1 (en) | Module and method for checking composed text | |
CN113868411A (zh) | 合同比对方法、装置、存储介质及计算机设备 | |
CN110515618B (zh) | 页面信息录入优化方法、设备、存储介质及装置 | |
CN113127117A (zh) | 基于Qt开发框架的界面分页显示方法、装置、***及介质 | |
CN113868210A (zh) | 一种导入数据的有效性验证方法、***、设备及存储介质 | |
CN113268617A (zh) | 论文元数据的检测方法及装置 | |
CN113010527A (zh) | 检测数据的处理方法、装置、计算机设备和存储介质 | |
CN112257408A (zh) | 一种文本对比的方法及相关装置 | |
CN116232760B (zh) | 一种诈骗网址识别预警方法、装置、设备及存储介质 | |
US20240078824A1 (en) | System of detecting cheating on an online examination | |
CN116991978B (zh) | 一种cms碎片特征提取方法、***、电子设备及存储介质 | |
CN110990551B (zh) | 文本内容的处理方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |