CN110275958B - 网站信息识别方法、装置和电子设备 - Google Patents

网站信息识别方法、装置和电子设备 Download PDF

Info

Publication number
CN110275958B
CN110275958B CN201910565890.3A CN201910565890A CN110275958B CN 110275958 B CN110275958 B CN 110275958B CN 201910565890 A CN201910565890 A CN 201910565890A CN 110275958 B CN110275958 B CN 110275958B
Authority
CN
China
Prior art keywords
content
target website
text
picture
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910565890.3A
Other languages
English (en)
Other versions
CN110275958A (zh
Inventor
白冰
栗阳力
李国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bohui Technology Inc
Original Assignee
Beijing Bohui Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bohui Technology Inc filed Critical Beijing Bohui Technology Inc
Priority to CN201910565890.3A priority Critical patent/CN110275958B/zh
Publication of CN110275958A publication Critical patent/CN110275958A/zh
Application granted granted Critical
Publication of CN110275958B publication Critical patent/CN110275958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网站信息识别方法、装置和电子设备,其中,该方法包括:根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图;根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果;根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果。本发明在获取目标网站的内容后,对文本内容进行精确匹配和/或自然语言分析处理以获得文本识别结果;对图片文件和展示效果截图进行深度学习以获得图片识别结果。可以有效地判断该网站是否存在不良内容,减少误判率。

Description

网站信息识别方法、装置和电子设备
技术领域
本发明涉及网站监测技术领域,尤其是涉及一种网站信息识别方法、装置和电子设备。
背景技术
近年来随着互联网的发展,网络上不良信息逐渐增加,如何对网络不良信息进行自动有效的判别和筛查是互联网发展目前有待解决的问题。现有的解决方案是通过爬虫方式获取内容数据,进行敏感分词匹配;或者爬取图片识别分析。
部分网站在处理反爬时会用假数据,导致现有的互联网不良信息识别方法无法正确有效地判断该网站是否存在不良内容,增加了现有的互联网不良信息识别方法的误判率。
发明内容
有鉴于此,本发明的目的在于提供一种网站信息识别方法、装置和电子设备,以有效地判断该网站是否存在不良内容,减少误判率,增加信息识别的准确性。
第一方面,本发明实施例提供了一种网站信息识别方法,包括:根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图;根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果;根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果。
在本发明较佳的实施例中,根据目标网站的地址获取目标网站的内容的步骤,包括:获取目标网站的地址;根据地址通过普通请求的方式获取目标网站的文本内容;根据地址通过无头浏览器获取目标网站的图片文件和展示效果截图。
在本发明较佳的实施例中,根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果的步骤,包括:对文本内容进行分词;根据预设的***配置文件判断是否采用文本精确匹配和/或NLP(Natural LanguageProcessing,自然语言处理)学习模型匹配分析文本内容;如果采用文本精确匹配分析文本内容,则将分词后的文本内容与敏感违规词库进行匹配,确定出目标网站的文本识别结果;如果采用NLP学习模型匹配分析文本内容,则将分词后的文本内容输入预先学习完成的NLP学习模型中,输出目标网站的文本识别结果;NLP学习模型是根据敏感违规词库进行学习得到的。
在本发明较佳的实施例中,根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果的步骤,包括:将图片文件和展示效果截图分别输入至预先学习完成的图像审核学习模型中,输出目标网站的图片识别结果;图像审核学习模型是根据样本图片进行学习得到的。
在本发明较佳的实施例中,根据目标网站的地址获取目标网站的内容的步骤之后,方法还包括:通过Kafka集群对内容进行数据清洗。
在本发明较佳的实施例中,上述方法还包括:保存图片文件和展示效果截图至预设存储区;和/或,保存文本识别结果和图片识别结果至预设存储区。
在本发明较佳的实施例中,上述方法还包括:发送文本识别结果和图片识别结果至指定的终端。
第二方面,本发明实施例还提供一种网站信息识别装置,包括:内容获取模块,用于根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图;文本识别模块,用于根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果;图片识别模块,用于根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述网站信息识别方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述网站信息识别方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种网站信息识别方法、装置和电子设备,获取目标网站的文本内容、图片文件和展示效果截图后,根据敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理以获得文本识别结果;根据样本图片对得到图片文件和展示效果截图进行基于深度学习的图像分类识别以获得图片识别结果。可以有效地判断该网站是否存在不良内容,减少误判率,增加信息识别的准确性。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网站信息识别方法的流程图;
图2为本发明实施例提供的另一种网站信息识别方法的流程图;
图3为本发明实施例提供的另一种网站信息识别方法的流程图;
图4为本发明实施例提供的另一种网站信息识别方法的流程图;
图5为本发明实施例提供的一种网站信息识别***的结构示意图;
图6为本发明实施例提供的一种网站信息识别***的原理框图;
图7为本发明实施例提供的一种网站信息识别装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有的互联网不良信息识别方法无法正确有效地判断该网站是否存在不良内容,误判率较高的问题,本发明实施例提供一种网站信息识别方法、装置和电子设备,该技术可以应用于网站监测***,主要涉及机器学习自然语言分析及基于深度学习的图像识别技术。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种网站信息识别方法进行详细介绍,如图1所示,该方法包括如下步骤:
步骤S102,根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图。
目标网站是指待检测的网站,文本内容是指网站中的文字内容,图片文件和展示效果截图均为图片,其中,图片文件是网站的图片资源文件,展示效果截图是指网站的实际使用过程中的效果图,即用户侧打开该网站展示的效果的截图。目标网站的内容由内容捕获器从待检测的目标网站上爬取。
步骤S104,根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果。
敏感违规词库是由管理员预设的,敏感违规词库中包括的词均为不良信息。如果文本内容含有敏感违规词库中的词,则大概率说明该目标网站可能含有不良信息。文本识别结果可以包括与文本内容中与敏感违规词库相匹配的词、数量和附近段落,也可以对该文本内容进行打分并根据得分排序,还可以对文本内容打上不同的标签。
步骤S106,根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果。
不同类型标签的样本图片是由管理员预设的,该样本图片的数量不固定,可以随时删减,如果在图片文件和展示效果截图中发现与样本图片存在一定的类似度,则说明该目标网站可能含有不良信息。图片识别结果包括图片文件和展示效果截图中与样本图片相同或类似的数量和比例,也可以对该图片文件和展示效果截图进行打分并根据得分排序,还可以对图片文件和展示效果截图打上不同的标签。
本发明实施例提供的一种网站信息识别方法,获取目标网站的文本内容、图片文件和展示效果截图后,根据敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理以获得文本识别结果;根据样本图片对得到图片文件和展示效果截图进行基于深度学习的图像分类识别以获得图片识别结果。可以有效地判断该网站是否存在不良内容,减少误判率,增加信息识别的准确性。
本发明实施例还提供另一种人机交互方法,该方法在上述实施例方法的基础上实现;该方法重点描述目标网站的内容获取的具体实现方式。
如图2所示,该方法包括如下步骤:
步骤S202,获取目标网站的地址。
在获取目标网站的内容之前,还需要获得待检测的目标网站的地址,爬取目标网站的网站层级。网址和网站层级通过监测应用接口获得。网站层级一般情况下,将首页分为第一层,栏目页为第二层、内容详情为第三层。采集网站的内容一般只爬取前三层的内容。
步骤S204,根据地址通过普通请求的方式获取目标网站的文本内容。
网站地址由内部采集适配方法进行判断采集方式,选择对应的采集方法。读取配置文件中数据,判断能否直接通过普通请求访问获取内容;如果可以访问,则直接通过普通请求的方式获取内容数据;没有不可以访问,则用无头浏览器的方式进行请求。其中,普通请求方式是指用脚本发送HTTP(HyperText Transfer Protocol,超文本传输协议)请求,获取内容数据。无头浏览器方式是指发送HTTP请求,并自动加载渲染页面;无头浏览器方式可能包含不仅仅单个HTTP请求。
具体地说,返回数据类型的请求地址http://xxxx.aa/text,返回JSON类型格式:{'desc':'这是一个神奇网站'}。文本类型的请求地址:http://xxx/aa/demo.txt。当判断为返回数据类型或者请求为文本类型,配置文件会采用普通请求的方式获取目标网站的文本内容。
步骤S206,根据地址通过无头浏览器获取目标网站的图片文件和展示效果截图。
当爬取类型为普通网站时,则需要通过无头浏览器进行爬取,由无头浏览器通过内容捕获器获取加网页中的图片文件延迟加载的展示效果截图。
步骤S208,根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果。
步骤S210,根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果。
上述方式中,根据不同的网址类型采用普通请求的方式或者无头浏览器获取目标网站的内容,可以增加目标网站的内容的获取效率。
本发明实施例还提供另一种人机交互方法,该方法在上述实施例方法的基础上实现;该方法重点描述文本内容的匹配方法的具体实现方式。
如图3所示,该方法包括如下步骤:
步骤S302,根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图。
步骤S304,对文本内容进行分词。
文本内容一般为连续的语句,为了保证匹配的精确,首先需要对文本内容分词处理。将文本内容分为间隔的一些词。分词过程通常由分词器实现。
步骤S306,根据预设的***配置文件判断是否采用文本精确匹配和/或NLP学习模型匹配分析文本内容。如果采用文本精确匹配分析文本内容,则执行步骤S308;如果采用NLP学习模型匹配分析文本内容,则执行步骤S310。
***配置文件会说明对该文本内容采用何种检测方式,一般有文本精确匹配和NLP学习模型两种方式。
步骤S308,将分词后的文本内容与敏感违规词库进行匹配,确定出目标网站的文本识别结果。
文本精确匹配就是将分词后的文本内容与敏感违规词库的词语一一对应,查看分词后的文本内容是否包括敏感违规词库的词语。
步骤S310,将分词后的文本内容输入预先学习完成的NLP学习模型中,输出目标网站的文本识别结果;NLP学习模型是根据敏感违规词库进行学习得到的。
NLP学习模型会提前自动学习敏感违规词库,分析文本内容含有何种类型的不良信息,并给出匹配得分情况;NLP学习模型会分情况判断文本内容匹配的违规类型。需要说明的是,文本精确匹配和NLP学习模型可以同时使用,以增加不良信息识别的准确性。
步骤S312,根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果。
上述方式中,采用文本精确匹配和/或NLP学习模型匹配分析文本内容,可以增加文本内容的识别效率和识别准确率。
本发明实施例还提供另一种人机交互方法,该方法在上述实施例方法的基础上实现;该方法重点描述图片文件和展示效果截图的匹配方法的具体实现方式。
如图4所示,该方法包括如下步骤:
步骤S402,根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图。
步骤S404,根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果。
步骤S406,将图片文件和展示效果截图分别输入至预先学习完成的图像审核学习模型中,输出目标网站的图片识别结果;图像审核学习模型是根据样本图片进行学习得到的。
图像审核学习模型在获取图片文件和展示效果截图后根据不同的类型分类对图片文件和展示效果截图进行评价,并给出得分。图像审核学习模型预先根据带有不同类型标签的样本图片进行学习;图像审核学习模型对外提供接口,允许外部调用时传入需要分析的图片,内部把需要分析图片交给预测模型进行计算并给出得分。
在获取目标网站的内容之后,因为获取的文本内容、图片文件和展示效果截图可能存在一些问题,例如:文本内容、图片文件重复获取、文本内容叠词、文本内容错乱等。需要进行数据清洗,根据目标网站的地址获取目标网站的内容的步骤之后,方法还包括:通过Kafka集群对内容进行数据清洗。数据清洗是指发现并纠正数据文件中可识别的错误的一道程序,包括检查数据一致性,处理无效值和缺失值等。Kafka是一种高吞吐量的分布式发布订阅消息***,它可以处理消费者在网站中的所有动作流数据。数据清洗可以获得更加准确的目标网站的内容,减少后续获得文本识别结果和图片识别结果的工作量,节约时间,增加不良信息识别准确性。
对于目标网站的内容和识别结果,还需要存储,以方便后续的审计和查验,上述方法还包括:保存图片文件和展示效果截图至预设存储区;和/或,保存文本识别结果和图片识别结果至预设存储区。预设存储区是指保存的位置,预设存储区可以是磁盘阵列。磁盘阵列是由很多块独立的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘***效能。
在获得识别结果后,需要将识别结果发送至指定的终端,有该终端的工作人员进行展示和分析,上述方法还包括:发送文本识别结果和图片识别结果至指定的终端。指定的终端可以是电脑、手机、平板电脑等剧本展示功能的可以联网的设备。通过终端可以获取识别结果,分析识别结果并做出统计。
对于网站信息识别***,如图5所示,采集探针通过监测应用接口获取目标网站和目标网站层级,通过普通请求的方式或者无头浏览器的方式下载目标网站的内容,其中,目标网站的内容包括:文本内容、图片文件和展示效果截图。目标网站的内容发送至消息中转清洗模块,清洗完成后的文本内容发送到内容分析模块,获得文本识别结果。清洗完成后的图片文件和展示效果截图发送至图像分析模块,获得图片识别结果。磁盘阵列用于存储下载获得的网站内容、文本识别结果以及图像识别结果。业务分析模块用于获取磁盘阵列上分析后的文本识别结果、图片识别结果,统计分析本次爬取网站数据含有不良信息的网站个数,并把统计后的数据存储磁盘阵列上;监测应用模块用于由平台或者第三方应用控制下发采集网站,采集网站层级和采集数据分析策略;数据提取接口用于由平台或者第三方应用调用,提供分析后的数据结果,供平台或者第三方应用展示。
网站信息识别***的数据流向如图6,图6中采集探针爬取网站数据,采集探针中转储模块把图片文件存储到磁盘阵列上,采集探针把数据发布到数据中转清洗模块(Kafka集群)。分析模块(内容分析、图像分析),订阅数据中转清洗模块数据获取需要处理数据,实时分析模块(内容分析、图像分析)由数据类型不同分别调用图像审核学习模型接口、文本内容匹配接口,实时分析模块(内容分析、图像分析),把分析后的内容数据存储到磁盘阵列上。
上述方式中,通过图像审核学习模型识别图片文件和展示效果截图,可以增加图片文件和展示效果截图的识别效率和识别准确率。
需要说明的是,上述各方法实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对应于上述方法实施例,本发明实施例提供了一种网站信息识别装置,如图7所示,该装置包括:
内容获取模块71,用于根据目标网站的地址获取目标网站的内容;内容包括:文本内容、图片文件和展示效果截图;
文本识别模块72,用于根据预设的敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理,确定出目标网站的文本识别结果;
图片识别模块73,用于根据预设的带有不同类型标签的样本图片对图片文件和展示效果截图分别进行基于深度学习的图像分类识别,确定出目标网站的图片识别结果。
本发明实施例提供的一种网站信息识别装置,获取目标网站的文本内容、图片文件和展示效果截图后,根据敏感违规词库对文本内容进行精确匹配和/或自然语言分析处理以获得文本识别结果;根据样本图片对得到图片文件和展示效果截图进行基于深度学习的图像分类识别以获得图片识别结果。可以有效地判断该网站是否存在不良内容,减少误判率,增加信息识别的准确性。
在一些实施例中,内容获取模块,用于:获取目标网站的地址;根据地址通过普通请求的方式获取目标网站的文本内容;根据地址通过无头浏览器获取目标网站的图片文件和展示效果截图。
在一些实施例中,文本识别模块,用于:对文本内容进行分词;根据预设的***配置文件判断是否采用文本精确匹配和/或NLP学习模型匹配分析文本内容;如果采用文本精确匹配分析文本内容,则将分词后的文本内容与敏感违规词库进行匹配,确定出目标网站的文本识别结果;如果采用NLP学习模型匹配分析文本内容,则将分词后的文本内容输入预先学习完成的NLP学习模型中,输出目标网站的文本识别结果;NLP学习模型是根据敏感违规词库进行学习得到的。
在一些实施例中,图片识别模块,用于:将图片文件和展示效果截图分别输入至预先学习完成的图像审核学习模型中,输出目标网站的图片识别结果;图像审核学习模型是根据样本图片进行学习得到的。
在一些实施例中,上述装置还包括:数据清洗模块,用于通过Kafka集群对内容进行数据清洗。
在一些实施例中,上述装置还包括:数据存储模块,用于保存图片文件和展示效果截图至预设存储区;和/或,保存文本识别结果和图片识别结果至预设存储区。
在一些实施例中,上述装置还包括:数据发送模块,用于发送文本识别结果和图片识别结果至指定的终端。
本发明实施例提供的网站信息识别装置,与上述实施例提供的网站信息识别方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例还提供了一种电子设备,用于运行上述网站信息识别方法;参见图8所示,该电子设备包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述网站信息识别方法。
进一步地,图8所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述人机交互方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的网站信息识别方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和/或电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种网站信息识别方法,其特征在于,包括:
根据目标网站的地址获取所述目标网站的内容;所述内容包括:文本内容、图片文件和展示效果截图;
根据预设的敏感违规词库对所述文本内容进行精确匹配和/或自然语言分析处理,确定出所述目标网站的文本识别结果;
根据预设的带有不同类型标签的样本图片对所述图片文件和所述展示效果截图分别进行基于深度学习的图像分类识别,确定出所述目标网站的图片识别结果;
根据目标网站的地址获取所述目标网站的内容的步骤之后,所述方法还包括:
通过Kafka集群对所述内容进行数据清洗。
2.根据权利要求1所述的方法,其特征在于,根据目标网站的地址获取所述目标网站的内容的步骤,包括:
获取目标网站的地址;
根据所述地址通过普通请求的方式获取所述目标网站的文本内容;
根据所述地址通过无头浏览器获取所述目标网站的图片文件和展示效果截图。
3.根据权利要求1所述的方法,其特征在于,根据预设的敏感违规词库对所述文本内容进行精确匹配和/或自然语言分析处理,确定出所述目标网站的文本识别结果的步骤,包括:
对所述文本内容进行分词;
根据预设的***配置文件判断是否采用文本精确匹配和/或NLP学习模型匹配分析所述文本内容;
如果采用所述文本精确匹配分析所述文本内容,则将分词后的所述文本内容与所述敏感违规词库进行匹配,确定出所述目标网站的文本识别结果;
如果采用所述NLP学习模型匹配分析所述文本内容,则将分词后的所述文本内容输入预先学习完成的NLP学习模型中,输出所述目标网站的文本识别结果;所述NLP学习模型是根据所述敏感违规词库进行学习得到的。
4.根据权利要求1所述的方法,其特征在于,根据预设的带有不同类型标签的样本图片对所述图片文件和所述展示效果截图分别进行基于深度学习的图像分类识别,确定出所述目标网站的图片识别结果的步骤,包括:
将所述图片文件和所述展示效果截图分别输入至预先学习完成的图像审核学习模型中,输出所述目标网站的图片识别结果;所述图像审核学习模型是根据所述样本图片进行学习得到的。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:保存所述图片文件和所述展示效果截图至预设存储区;和/或,保存所述文本识别结果和所述图片识别结果至所述预设存储区。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
发送所述文本识别结果和所述图片识别结果至指定的终端。
7.一种网站信息识别装置,其特征在于,包括:
内容获取模块,用于根据目标网站的地址获取所述目标网站的内容;所述内容包括:文本内容、图片文件和展示效果截图;
文本识别模块,用于根据预设的敏感违规词库对所述文本内容进行精确匹配和/或自然语言分析处理,确定出所述目标网站的文本识别结果;
图片识别模块,用于根据预设的带有不同类型标签的样本图片对所述图片文件和所述展示效果截图分别进行基于深度学习的图像分类识别,确定出所述目标网站的图片识别结果;
根据目标网站的地址获取所述目标网站的内容的步骤之后,方法还包括:
通过Kafka集群对所述内容进行数据清洗。
8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至6任一项所述的网站信息识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1至6任一项所述的网站信息识别方法的步骤。
CN201910565890.3A 2019-06-26 2019-06-26 网站信息识别方法、装置和电子设备 Active CN110275958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910565890.3A CN110275958B (zh) 2019-06-26 2019-06-26 网站信息识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910565890.3A CN110275958B (zh) 2019-06-26 2019-06-26 网站信息识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN110275958A CN110275958A (zh) 2019-09-24
CN110275958B true CN110275958B (zh) 2021-07-27

Family

ID=67962420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910565890.3A Active CN110275958B (zh) 2019-06-26 2019-06-26 网站信息识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110275958B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3783854B1 (en) * 2019-08-23 2021-12-01 Worldline Security server for dynamic verification of web content, end user's remote device, system comprising said end user's remote device and server, and method implemented by said system
CN110807197A (zh) * 2019-10-31 2020-02-18 支付宝(杭州)信息技术有限公司 识别模型的训练方法及装置、风险网站识别方法及装置
CN111078979A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于ocr和文本处理技术识别网贷网站的方法及***
CN111126373A (zh) * 2019-12-23 2020-05-08 北京中科神探科技有限公司 基于跨模态识别技术的互联网短视频判违装置及方法
CN111311554B (zh) * 2020-01-21 2023-09-01 腾讯科技(深圳)有限公司 图文内容的内容质量确定方法、装置、设备及存储介质
CN111767918A (zh) * 2020-02-21 2020-10-13 北京沃东天骏信息技术有限公司 一种图片识别方法和装置
CN111652622B (zh) * 2020-05-26 2023-08-01 支付宝(杭州)信息技术有限公司 一种风险网址的识别方法、装置及电子设备
CN111767493A (zh) * 2020-07-07 2020-10-13 杭州安恒信息技术股份有限公司 一种网站的内容数据的展示方法、装置、设备及存储介质
CN112101335B (zh) * 2020-08-25 2022-04-15 深圳大学 一种基于ocr和迁移学习的app违规监测方法
CN112347402A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 非法网站/app自动识别方法、***和电子装置
CN112199569A (zh) * 2020-10-29 2021-01-08 重庆撼地大数据有限公司 一种违禁网址识别方法、***、计算机设备及存储介质
CN112508627B (zh) * 2020-12-21 2022-11-04 苏州三六零智能安全科技有限公司 广告地址确定方法、装置、设备以及存储介质
CN112738567B (zh) * 2020-12-22 2023-03-10 北京百度网讯科技有限公司 平台内容处理方法、装置、电子设备和存储介质
CN113177409B (zh) * 2021-05-06 2024-05-31 上海慧洲信息技术有限公司 一种智能敏感字词识别***
CN113221890A (zh) * 2021-05-25 2021-08-06 深圳市瑞驰信息技术有限公司 一种基于ocr的云手机文字内容监管方法和***和***
CN113688346A (zh) * 2021-08-16 2021-11-23 杭州安恒信息技术股份有限公司 一种违法网站识别方法、装置、设备及存储介质
CN116939292B (zh) * 2023-09-15 2023-11-24 天津市北海通信技术有限公司 轨道交通环境下的视频文本内容监测方法及***

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055621A (zh) * 2006-04-10 2007-10-17 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及***
CN102521284A (zh) * 2011-11-28 2012-06-27 优视科技有限公司 基于移动终端浏览器的页面截图处理方法和装置
US8819022B1 (en) * 2011-08-08 2014-08-26 Aol Inc. Systems and methods for identifying and managing topical content for websites
CN105302884A (zh) * 2015-10-19 2016-02-03 天津海量信息技术有限公司 基于深度学习的网页模式识别方法及视觉结构学习方法
CN105975523A (zh) * 2016-04-28 2016-09-28 浙江乾冠信息安全研究院有限公司 一种基于栈的暗链检测方法
CN106095903A (zh) * 2016-06-08 2016-11-09 成都三零凯天通信实业有限公司 一种基于深度学习技术的广播电视舆情分析方法及***
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及***
CN106528769A (zh) * 2016-11-04 2017-03-22 乐视控股(北京)有限公司 一种数据采集方法及装置
CN107403200A (zh) * 2017-08-10 2017-11-28 北京亚鸿世纪科技发展有限公司 改进图像分割算法结合深度学习的多重不良图片分类方法
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测***及方法
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、***
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和***
CN108200191A (zh) * 2018-01-29 2018-06-22 杭州电子科技大学 利用微扰法的客户端动态url相关脚本字符串检测***
CN108647309A (zh) * 2018-05-09 2018-10-12 达而观信息科技(上海)有限公司 基于敏感词的聊天内容审核方法及***
CN109660552A (zh) * 2019-01-03 2019-04-19 杭州电子科技大学 一种将地址跳变和WAF技术相结合的Web防御方法
CN109831751A (zh) * 2019-01-04 2019-05-31 上海创蓝文化传播有限公司 一种基于自然语言处理的短信内容风控***及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223742B2 (en) * 2015-08-26 2019-03-05 Google Llc Systems and methods for selecting third party content based on feedback

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055621A (zh) * 2006-04-10 2007-10-17 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及***
US8819022B1 (en) * 2011-08-08 2014-08-26 Aol Inc. Systems and methods for identifying and managing topical content for websites
CN102521284A (zh) * 2011-11-28 2012-06-27 优视科技有限公司 基于移动终端浏览器的页面截图处理方法和装置
CN105302884A (zh) * 2015-10-19 2016-02-03 天津海量信息技术有限公司 基于深度学习的网页模式识别方法及视觉结构学习方法
CN105975523A (zh) * 2016-04-28 2016-09-28 浙江乾冠信息安全研究院有限公司 一种基于栈的暗链检测方法
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及***
CN106095903A (zh) * 2016-06-08 2016-11-09 成都三零凯天通信实业有限公司 一种基于深度学习技术的广播电视舆情分析方法及***
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN106528769A (zh) * 2016-11-04 2017-03-22 乐视控股(北京)有限公司 一种数据采集方法及装置
CN107403200A (zh) * 2017-08-10 2017-11-28 北京亚鸿世纪科技发展有限公司 改进图像分割算法结合深度学习的多重不良图片分类方法
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、***
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和***
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测***及方法
CN108200191A (zh) * 2018-01-29 2018-06-22 杭州电子科技大学 利用微扰法的客户端动态url相关脚本字符串检测***
CN108647309A (zh) * 2018-05-09 2018-10-12 达而观信息科技(上海)有限公司 基于敏感词的聊天内容审核方法及***
CN109660552A (zh) * 2019-01-03 2019-04-19 杭州电子科技大学 一种将地址跳变和WAF技术相结合的Web防御方法
CN109831751A (zh) * 2019-01-04 2019-05-31 上海创蓝文化传播有限公司 一种基于自然语言处理的短信内容风控***及方法

Also Published As

Publication number Publication date
CN110275958A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110275958B (zh) 网站信息识别方法、装置和电子设备
CN107943954B (zh) 网页敏感信息的检测方法、装置及电子设备
US20150324478A1 (en) Detection method and scanning engine of web pages
CN110704304B (zh) 一种应用程序测试方法、装置、存储介质和服务器
CN104956372A (zh) 使用运行时和静态代码分析来确定动态安全扫描的覆盖率
CN110401580B (zh) 基于心跳机制的网页状态监听方法及相关设备
CN113271322B (zh) 异常流量的检测方法和装置、电子设备和存储介质
CN109657459A (zh) 网页后门检测方法、设备、存储介质及装置
CN103744941A (zh) 一种基于网站属性信息确定网站评测结果的方法和装置
CN114996103A (zh) 页面异常检测方法、装置、电子设备和存储介质
CN111783159A (zh) 网页篡改的验证方法、装置、计算机设备和存储介质
CN113364784B (zh) 检测参数生成方法、装置、电子设备及存储介质
CN110798481A (zh) 基于深度学习的恶意域名检测方法及装置
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN111125704B (zh) 一种网页挂马识别方法及***
CN110874475A (zh) 漏洞挖掘方法、漏洞挖掘平台及计算机可读存储介质
CN111784053A (zh) 交易风险检测方法、设备及可读存储介质
CN110852091A (zh) 错别字的监测方法、装置、电子设备和计算机可读介质
CN115018783A (zh) 一种视频水印检测方法和装置、电子设备和存储介质
CN110634018A (zh) 一种流失用户的特征刻画方法、识别方法及相关装置
CN110990558B (zh) 电子书内容展示方法、计算设备及计算机存储介质
CN112929458B (zh) App应用的服务端地址确定方法、装置以及存储介质
CN115292187A (zh) 无编码的页面自动测试方法、装置、电子设备和介质
CN114218574A (zh) 一种数据检测方法、装置、电子设备以及存储介质
CN112487398A (zh) 一种字符型验证码自动识别方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant