CN109815395A

CN109815395A - 网页垃圾信息过滤方法、装置及存储介质

Info

Publication number: CN109815395A
Application number: CN201811608345.XA
Authority: CN
Inventors: 郭建彬; 孔庆超; 王磊; 罗引; 张西娜; 彭鑫; 赵菲菲; 曹家
Original assignee: Beijing Zhongke Song Polytron Technologies Inc
Current assignee: Beijing Zhongke Song Polytron Technologies Inc
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-28
Anticipated expiration: 2038-12-26
Also published as: CN109815395B

Abstract

本发明实施例涉及一种网页垃圾信息过滤方法、装置及存储介质，所述方法包括：按照设定处理规则对输入的原始文本进行分割，得到多个目标数据；对多个所述目标数据进行预处理；将经预处理后的多个目标数据进行向量化；确定经过向量化处理后的多个目标数据对应的多个相似度值；基于多个所述相似度值确定所述原始文本中的异常文本，够准确的提高内容识别***的准确性和鲁棒性。

Description

网页垃圾信息过滤方法、装置及存储介质

技术领域

本发明实施例涉及文字处理技术领域，尤其涉及一种网页垃圾信息过滤方法、装置及存储介质。

背景技术

中文文本的内容识别问题实际上是对文本中存在的不相关文本片段进行识别、过滤的问题，是文本预处理的一项关键环节。例如，利用网络爬虫爬去的互联网文本信息中含有推荐广告、相关新闻等不相关信息，这些信息的存在提升了互联网文本信息在特定领域的应用难度。

针对上述问题，现有方案常采用关键词匹配的算法对原始文本进行不相关内容识别。然而由于文本中的不相关信息通常没有固定的主题，因此使用关键词匹配的算法求解上述问题会出现识别结果的召回率和精确率较低的问题，导致无法识别不相关内容或相关内容误识别的问题。

针对关键词匹配算法识别准确率较低的问题，还采用基于词向量的内容识别解决方案。虽然基于词向量的内容识别的解决方案的最终准确度较高，但是由于获取词向量需要语言模型的预训练过程，识别算法所需的运行时间过长，无法满足用户需求。

发明内容

鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供一种网页垃圾信息过滤方法、装置及存储介质。

第一方面，本发明实施例提供一种网页垃圾信息过滤方法，包括：

按照设定处理规则对输入的原始文本进行分割，得到多个目标数据；

对多个所述目标数据进行预处理；

将经预处理后的多个目标数据进行向量化；

确定经过向量化处理后的多个目标数据对应的多个相似度值；

基于多个所述相似度值确定所述原始文本中的异常文本。

在一个可能的实施方式中，所述确定经过向量化处理后的多个目标数据对应的多个相似度值，包括：

采用余弦相似度函数，确定每个目标数据与其它目标数据的相似度值。

在一个可能的实施方式中，所述方法，还包括：

将每个目标数据与其它目标数据的多个相似度值进行累加，得到每个目标数据的相似度和值。

在一个可能的实施方式中，所述基于多个所述相似度值确定所述原始文本中的异常文本，包括：

基于每个所述目标数据的相似度和值，确定多个所述目标数据的相似度和值的平均值；

基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值；

将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。

在一个可能的实施方式中，所述按照设定处理规则对输入的原始文本进行分割，得到多个目标数据，包括：

将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据；

其中，每个所述目标数据对应一个段落的文本。

在一个可能的实施方式中，所述语句的处理规则，包括：按照分号、句号或叹号对所述原始文本进行划分；

所述按照设定处理规则对输入的原始文本进行分割，得到多个目标数据，还包括：

将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据；

其中，每个所述目标数据对应一个语句的文本。

在一个可能的实施方式中，所述按照设定处理规则对输入的原始文本进行分割，得到多个目标数据，还包括：将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。

在一个可能的实施方式中，所述对多个所述目标数据进行预处理，包括：

对多个所述目标数据进行分词处理；

将经过分词后的多个目标数据进行去停用词、及去标点符号处理。

第二方面，本发明实施例提供一种网页垃圾信息过滤装置，包括：

分割模块，用于按照设定处理规则对输入的原始文本进行分割，得到多个目标数据；

处理模块，用于对多个所述目标数据进行预处理；

处理模块，还用于将经预处理后的多个目标数据进行向量化；

确定模块，用于确定经过向量化处理后的多个目标数据对应的多个相似度值；

所述确定模块，还用于基于多个所述相似度值确定所述原始文本中的异常文本。

第三方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以上述第一方面中任一所述的网页垃圾信息过滤方法。

本发明实施例提供的网页垃圾信息过滤方法，通过按照设定处理规则对输入的原始文本进行分割，得到多个目标数据；对多个所述目标数据进行预处理；将经预处理后的多个目标数据进行向量化；确定经过向量化处理后的多个目标数据对应的多个相似度值；基于多个所述相似度值确定所述原始文本中的异常文本。采用TF-IDF文本向量化方法和余弦相似度度量方法的组合，借助于文本的稀疏表示可以较为精确地度量文本之间的相似程度；采用标准分常模算法用于对不相关内容的识别，基于数据的服从正态分布的假设可以以较高的置信度识别出文本中的不相关内容。

检测的对象是段落的相似度得分而非直接使用段落的余弦相似性数值。段落的相似性得分是该标准段落与文本其他各标准段落之间的余弦相似度值的累加和(放大了不相关段落与其他段落的差异性)，采用段落相似性得分进行异常检测可以提高异常值检测的置信度。

附图说明

图1为本发明实施例提供的一种网页垃圾信息过滤方法的流程示意图；

图2为本发明实施例提供的一种确定原始文本中的异常文本的流程示意图；

图3为本发明实施例提供一种网页垃圾信息过滤装置的结构图；

图4为本发明实施例提供一种网页垃圾信息过滤设备的硬件结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

图1为本发明实施例提供的一种网页垃圾信息过滤方法的流程示意图，如图1所示，该方法具体包括：

S101、按照设定处理规则对输入的原始文本进行分割，得到多个目标数据。

本实施例提供的网页垃圾信息过滤方法，应用于对互联网文本信息中垃圾信息的过滤，如夹杂在互联网文本信息中的推荐广告、相关新闻等不相关的信息。

对按照设定处理规则对输入的原始文本(互联网文本信息)进行分割，得到多个目标数据可采用如下三种方式：

其一、将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据；其中，每个所述目标数据对应一个段落的文本。

如，输入的原始文本包括10个段落的文本，将原始文本分割为10个目标数据。

其二、将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据；其中，每个所述目标数据对应一个语句的文本。

其中，语句的处理规则为按照分号、句号或叹号对所述原始文本进行划分。

如，输入的原始文本包括10个段落的文本，按照分号、句号或叹号进行划分，得到160个目标数据。

其三、将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。

如，定义文本分割函数，按照固定长度将原始文本分割为多个目标数据，譬如，固定长度取200个字符，对于具体数值可根据实际需求进行限定，对此，本实施不作具体限定。

S102、对多个所述目标数据进行预处理。

对多个所述目标数据进行分词处理，如采用分词工具对目标数据进行分词处理，如中文文本采用jieba汉语分词技术进行分词。Jieba分词有三种分词模式，分别为精确模式、全模式和搜索引擎模式，本实施例中科采用进准模式。

在本实施例中，除采用jieba外，还可以采用SnowNLP、THULAC、NLPIR等对原始文本进行分词，可根据实际需求进行设定，对此，本实施例不作具体限定。

进一步地，利用哈工大的停用词库和GB_T15834_2011标准标点符号集合对分词后的目标数据进行停用词和标点符号的过滤。

S103、将经预处理后的多个目标数据进行向量化。

在本实施例中，可以对经预处理后的多个目标数据进行TF-IDF向量化处理。

词频(Term Frequency，TF)计算是指计算某一个给定的词语在该目标数据中出现的频率，可通过如下公式计算：

逆向文档频率(Inverse Document Frequency，IDF)计算是指：计算一个词语普遍重要性的度量，可通过如下公式计算：

其中，D为文档的个数，{j,t_i∈d_j}为出现词i的总目标数据数。

TF-IDF向量可通过如下公式计算：

TF-IDF_i,j＝TF_i,j*IDF_i

S104、确定经过向量化处理后的多个目标数据对应的多个相似度值。

如，目标数据A对应的向量为A＝(A1,A2,...,An)，目标数据B对应的向量为B＝(B1,B2,...,Bn)，目标数据A与目标数据B之间的余弦相似度为：

其中，采用余弦相似度函数确定相似度时，其输出的范围为{-1,1}，其中，1表示完全相同，0表示完全不相同，-1表示内容相同但方式相反。

进一步地，将每个目标数据与其它目标数据的多个相似度值进行累加，得到每个目标数据的相似度和值。

如现有10个目标数据(目标数据A、目标数据B…目标数据J),

目标数据A的相似度和值为：目标数据A与目标数据B的余弦相似度值，…，目标数据A与目标数据J余弦相似度值的累加和。

依此，得到目标数据A、目标数据B…目标数据J对应的相似度和值。

S105、基于多个所述相似度值确定所述原始文本中的异常文本。

图2为本发明实施例提供的一种确定原始文本中的异常文本的流程示意图，具体包括：

S1051、基于每个所述目标数据的相似度和值，确定多个所述目标数据的相似度和值的平均值。

基于目标数据A、目标数据B…目标数据J对应的相似度和值，确定多个所述目标数据的相似度和值的平均值

S1052、基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值。

其中，第一公式包括：

其中，X为目标数据的目标数据的相似度和值、为多个目标数据的相似度和值的平均值，σ为目标数据的标准差。

S1053、将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。

在本实施例中，阈值范围可根据实际情况进行设定，如将设定的阈值设置为3，得到的概率为0.003％，可以理解为每个目标数据的相似度为99.997％，存在0.003％的异常文本，即垃圾信息。

在本发明实施例的一可选方案中，对于确定的异常文本，可以采用多种处理方式，如直接删除，向用户显示标准的文本，又如，采用标记的方式，对异常文本进行突出显示，提示用户该标记的文本为垃圾信息，在阅读到此处时，可跳过该处，进行下一位置的阅读。

图3为本发明实施例提供一种网页垃圾信息过滤装置的结构图，如图3所示，该装置具体包括：

分割模块301，用于按照设定处理规则对输入的原始文本进行分割，得到多个目标数据；

处理模块302，用于对多个所述目标数据进行预处理；

所述处理模块302，还用于将经预处理后的多个目标数据进行向量化；

确定模块303，用于确定经过向量化处理后的多个目标数据对应的多个相似度值；

所述确定模块303，还用于基于多个所述相似度值确定所述原始文本中的异常文本。

可选地，所述确定模块303，具体用于采用余弦相似度函数，确定每个目标数据与其它目标数据的相似度值。

可选地，所述确定模块303，还用于将每个目标数据与其它目标数据的多个相似度值进行累加，得到每个目标数据的相似度和值。

可选地，所述确定模块303，具体用于基于每个所述目标数据的相似度和值，确定多个所述目标数据的相似度和值的平均值；基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值；将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。

可选地，分割模块301，具体用于将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据；

其中，每个所述目标数据对应一个段落的文本。

可选地，所述语句的处理规则，包括：按照分号、句号或叹号对所述原始文本进行划分；

分割模块301，具体用于将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据；

其中，每个所述目标数据对应一个语句的文本。

可选地，分割模块301，具体用于将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。

可选地，处理模块302，具体用于对多个所述目标数据进行分词处理；将经过分词后的多个目标数据进行去停用词、及去标点符号处理。

本实施例提供的网页垃圾信息过滤装置可以是如图3中所示的网页垃圾信息过滤装置，可执行如图1中网页垃圾信息过滤方法的所有步骤，进而实现图1所示网页垃圾信息过滤方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

图4为本发明实施例提供一种网页垃圾信息过滤设备的硬件结构图，如图4所示，该设备具体包括：

处理器410、存储器420、收发器430。

处理器410可以是中央处理器(central processing unit，CPU)，或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integratedcircuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

存储器420用于存储各种应用，操作***和数据。存储器420可以将存储的数据传输给处理器410。存储器420可以包括易失性存储器，非易失性动态随机存取内存(nonvolatile random access memory，NVRAM)、相变化随机存取内存(phase change RAM，PRAM)、磁阻式随机存取内存(magetoresistive RAM，MRAM)等，例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(electrically erasable programmable read-onlymemory，EEPROM)、闪存器件，例如反或闪存(flash memory，NOR)或是反及闪存(flashmemory，NAND)、半导体器件，例如固态硬盘(solid state disk，SSD)等。存储器420还可以包括上述种类的存储器的组合。

收发器430，用于发送和/或接收数据，收发器430可以是天线等。

所述各器件的工作过程如下：

处理器410，用于按照设定处理规则对输入的原始文本进行分割，得到多个目标数据；对多个所述目标数据进行预处理；将经预处理后的多个目标数据进行向量化；确定经过向量化处理后的多个目标数据对应的多个相似度值；基于多个所述相似度值确定所述原始文本中的异常文本。

可选地，处理器410，具体用于采用余弦相似度函数，确定每个目标数据与其它目标数据的相似度值。

可选地，处理器410，还用于将每个目标数据与其它目标数据的多个相似度值进行累加，得到每个目标数据的相似度和值。

可选地，处理器410，具体用于基于每个所述目标数据的相似度和值，确定多个所述目标数据的相似度和值的平均值；基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值；将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。

可选地，处理器410，具体用于将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据；其中，每个所述目标数据对应一个段落的文本。

可选地，所述语句的处理规则，包括：按照分号、句号或叹号对所述原始文本进行划分；处理器410，具体用于将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据；

其中，每个所述目标数据对应一个语句的文本。

可选地，处理器410，具体用于将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。

可选地，处理器410，具体用于对多个所述目标数据进行分词处理；

本实施例提供的网页垃圾信息过滤设备可以是如图4中所示的网页垃圾信息过滤设备，可执行如图1中网页垃圾信息过滤方法的所有步骤，进而实现图1所示网页垃圾信息过滤方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在网页垃圾信息过滤设备侧执行的网页垃圾信息过滤方法。

所述处理器用于执行存储器中存储的网页垃圾信息过滤程序，以实现以下在网页垃圾信息过滤设备侧执行的网页垃圾信息过滤方法的步骤：

对多个所述目标数据进行预处理；

将经预处理后的多个目标数据进行向量化；

基于多个所述相似度值确定所述原始文本中的异常文本。

可选地，采用余弦相似度函数，确定每个目标数据与其它目标数据的相似度值。

可选地，将每个目标数据与其它目标数据的多个相似度值进行累加，得到每个目标数据的相似度和值。

可选地，基于每个所述目标数据的相似度和值，确定多个所述目标数据的相似度和值的平均值；

可选地，将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据；

其中，每个所述目标数据对应一个段落的文本。

其中，每个所述目标数据对应一个语句的文本。

可选地，将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。

可选地，对多个所述目标数据进行分词处理；将经过分词后的多个目标数据进行去停用词、及去标点符号处理。

本实施例提供的存储介质，可执行如图1中网页垃圾信息过滤方法的所有步骤，进而实现图1所示网页垃圾信息过滤方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页垃圾信息过滤方法，其特征在于，包括：

对多个所述目标数据进行预处理；

将经预处理后的多个目标数据进行向量化；

基于多个所述相似度值确定所述原始文本中的异常文本。

2.根据权利要求1所述的方法，其特征在于，所述确定经过向量化处理后的多个目标数据对应的多个相似度值，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于多个所述相似度值确定所述原始文本中的异常文本，包括：

5.根据权利要求1所述的方法，其特征在于，所述按照设定处理规则对输入的原始文本进行分割，得到多个目标数据，包括：

其中，每个所述目标数据对应一个段落的文本。

6.根据权利要求1所述的方法，其特征在于，所述语句的处理规则，包括：按照分号、句号或叹号对所述原始文本进行划分；

其中，每个所述目标数据对应一个语句的文本。

7.根据权利要求1所述的方法，其特征在于，所述按照设定处理规则对输入的原始文本进行分割，得到多个目标数据，还包括：

将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。

8.根据权利要求1所述的方法，其特征在于，所述对多个所述目标数据进行预处理，包括：

对多个所述目标数据进行分词处理；

9.一种网页垃圾信息过滤装置，其特征在于，包括：

处理模块，用于对多个所述目标数据进行预处理；

所述处理模块，还用于将经预处理后的多个目标数据进行向量化；

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～8中任一所述的网页垃圾信息过滤方法。