CN109815395A - 网页垃圾信息过滤方法、装置及存储介质 - Google Patents

网页垃圾信息过滤方法、装置及存储介质 Download PDF

Info

Publication number
CN109815395A
CN109815395A CN201811608345.XA CN201811608345A CN109815395A CN 109815395 A CN109815395 A CN 109815395A CN 201811608345 A CN201811608345 A CN 201811608345A CN 109815395 A CN109815395 A CN 109815395A
Authority
CN
China
Prior art keywords
urtext
target datas
multiple target
datas
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811608345.XA
Other languages
English (en)
Other versions
CN109815395B (zh
Inventor
郭建彬
孔庆超
王磊
罗引
张西娜
彭鑫
赵菲菲
曹家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Song Polytron Technologies Inc
Original Assignee
Beijing Zhongke Song Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Song Polytron Technologies Inc filed Critical Beijing Zhongke Song Polytron Technologies Inc
Priority to CN201811608345.XA priority Critical patent/CN109815395B/zh
Publication of CN109815395A publication Critical patent/CN109815395A/zh
Application granted granted Critical
Publication of CN109815395B publication Critical patent/CN109815395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种网页垃圾信息过滤方法、装置及存储介质,所述方法包括:按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;对多个所述目标数据进行预处理;将经预处理后的多个目标数据进行向量化;确定经过向量化处理后的多个目标数据对应的多个相似度值;基于多个所述相似度值确定所述原始文本中的异常文本,够准确的提高内容识别***的准确性和鲁棒性。

Description

网页垃圾信息过滤方法、装置及存储介质
技术领域
本发明实施例涉及文字处理技术领域,尤其涉及一种网页垃圾信息过滤方法、装置及存储介质。
背景技术
中文文本的内容识别问题实际上是对文本中存在的不相关文本片段进行识别、过滤的问题,是文本预处理的一项关键环节。例如,利用网络爬虫爬去的互联网文本信息中含有推荐广告、相关新闻等不相关信息,这些信息的存在提升了互联网文本信息在特定领域的应用难度。
针对上述问题,现有方案常采用关键词匹配的算法对原始文本进行不相关内容识别。然而由于文本中的不相关信息通常没有固定的主题,因此使用关键词匹配的算法求解上述问题会出现识别结果的召回率和精确率较低的问题,导致无法识别不相关内容或相关内容误识别的问题。
针对关键词匹配算法识别准确率较低的问题,还采用基于词向量的内容识别解决方案。虽然基于词向量的内容识别的解决方案的最终准确度较高,但是由于获取词向量需要语言模型的预训练过程,识别算法所需的运行时间过长,无法满足用户需求。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种网页垃圾信息过滤方法、装置及存储介质。
第一方面,本发明实施例提供一种网页垃圾信息过滤方法,包括:
按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;
对多个所述目标数据进行预处理;
将经预处理后的多个目标数据进行向量化;
确定经过向量化处理后的多个目标数据对应的多个相似度值;
基于多个所述相似度值确定所述原始文本中的异常文本。
在一个可能的实施方式中,所述确定经过向量化处理后的多个目标数据对应的多个相似度值,包括:
采用余弦相似度函数,确定每个目标数据与其它目标数据的相似度值。
在一个可能的实施方式中,所述方法,还包括:
将每个目标数据与其它目标数据的多个相似度值进行累加,得到每个目标数据的相似度和值。
在一个可能的实施方式中,所述基于多个所述相似度值确定所述原始文本中的异常文本,包括:
基于每个所述目标数据的相似度和值,确定多个所述目标数据的相似度和值的平均值;
基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值;
将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。
在一个可能的实施方式中,所述按照设定处理规则对输入的原始文本进行分割,得到多个目标数据,包括:
将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个段落的文本。
在一个可能的实施方式中,所述语句的处理规则,包括:按照分号、句号或叹号对所述原始文本进行划分;
所述按照设定处理规则对输入的原始文本进行分割,得到多个目标数据,还包括:
将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个语句的文本。
在一个可能的实施方式中,所述按照设定处理规则对输入的原始文本进行分割,得到多个目标数据,还包括:将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。
在一个可能的实施方式中,所述对多个所述目标数据进行预处理,包括:
对多个所述目标数据进行分词处理;
将经过分词后的多个目标数据进行去停用词、及去标点符号处理。
第二方面,本发明实施例提供一种网页垃圾信息过滤装置,包括:
分割模块,用于按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;
处理模块,用于对多个所述目标数据进行预处理;
处理模块,还用于将经预处理后的多个目标数据进行向量化;
确定模块,用于确定经过向量化处理后的多个目标数据对应的多个相似度值;
所述确定模块,还用于基于多个所述相似度值确定所述原始文本中的异常文本。
第三方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以上述第一方面中任一所述的网页垃圾信息过滤方法。
本发明实施例提供的网页垃圾信息过滤方法,通过按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;对多个所述目标数据进行预处理;将经预处理后的多个目标数据进行向量化;确定经过向量化处理后的多个目标数据对应的多个相似度值;基于多个所述相似度值确定所述原始文本中的异常文本。采用TF-IDF文本向量化方法和余弦相似度度量方法的组合,借助于文本的稀疏表示可以较为精确地度量文本之间的相似程度;采用标准分常模算法用于对不相关内容的识别,基于数据的服从正态分布的假设可以以较高的置信度识别出文本中的不相关内容。
检测的对象是段落的相似度得分而非直接使用段落的余弦相似性数值。段落的相似性得分是该标准段落与文本其他各标准段落之间的余弦相似度值的累加和(放大了不相关段落与其他段落的差异性),采用段落相似性得分进行异常检测可以提高异常值检测的置信度。
附图说明
图1为本发明实施例提供的一种网页垃圾信息过滤方法的流程示意图;
图2为本发明实施例提供的一种确定原始文本中的异常文本的流程示意图;
图3为本发明实施例提供一种网页垃圾信息过滤装置的结构图;
图4为本发明实施例提供一种网页垃圾信息过滤设备的硬件结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种网页垃圾信息过滤方法的流程示意图,如图1所示,该方法具体包括:
S101、按照设定处理规则对输入的原始文本进行分割,得到多个目标数据。
本实施例提供的网页垃圾信息过滤方法,应用于对互联网文本信息中垃圾信息的过滤,如夹杂在互联网文本信息中的推荐广告、相关新闻等不相关的信息。
对按照设定处理规则对输入的原始文本(互联网文本信息)进行分割,得到多个目标数据可采用如下三种方式:
其一、将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据;其中,每个所述目标数据对应一个段落的文本。
如,输入的原始文本包括10个段落的文本,将原始文本分割为10个目标数据。
其二、将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据;其中,每个所述目标数据对应一个语句的文本。
其中,语句的处理规则为按照分号、句号或叹号对所述原始文本进行划分。
如,输入的原始文本包括10个段落的文本,按照分号、句号或叹号进行划分,得到160个目标数据。
其三、将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。
如,定义文本分割函数,按照固定长度将原始文本分割为多个目标数据,譬如,固定长度取200个字符,对于具体数值可根据实际需求进行限定,对此,本实施不作具体限定。
S102、对多个所述目标数据进行预处理。
对多个所述目标数据进行分词处理,如采用分词工具对目标数据进行分词处理,如中文文本采用jieba汉语分词技术进行分词。Jieba分词有三种分词模式,分别为精确模式、全模式和搜索引擎模式,本实施例中科采用进准模式。
在本实施例中,除采用jieba外,还可以采用SnowNLP、THULAC、NLPIR等对原始文本进行分词,可根据实际需求进行设定,对此,本实施例不作具体限定。
将经过分词后的多个目标数据进行去停用词、及去标点符号处理。
进一步地,利用哈工大的停用词库和GB_T15834_2011标准标点符号集合对分词后的目标数据进行停用词和标点符号的过滤。
S103、将经预处理后的多个目标数据进行向量化。
在本实施例中,可以对经预处理后的多个目标数据进行TF-IDF向量化处理。
词频(Term Frequency,TF)计算是指计算某一个给定的词语在该目标数据中出现的频率,可通过如下公式计算:
逆向文档频率(Inverse Document Frequency,IDF)计算是指:计算一个词语普遍重要性的度量,可通过如下公式计算:
其中,D为文档的个数,{j,ti∈dj}为出现词i的总目标数据数。
TF-IDF向量可通过如下公式计算:
TF-IDFi,j=TFi,j*IDFi
S104、确定经过向量化处理后的多个目标数据对应的多个相似度值。
采用余弦相似度函数,确定每个目标数据与其它目标数据的相似度值。
如,目标数据A对应的向量为A=(A1,A2,...,An),目标数据B对应的向量为B=(B1,B2,...,Bn),目标数据A与目标数据B之间的余弦相似度为:
其中,采用余弦相似度函数确定相似度时,其输出的范围为{-1,1},其中,1表示完全相同,0表示完全不相同,-1表示内容相同但方式相反。
进一步地,将每个目标数据与其它目标数据的多个相似度值进行累加,得到每个目标数据的相似度和值。
如现有10个目标数据(目标数据A、目标数据B…目标数据J),
目标数据A的相似度和值为:目标数据A与目标数据B的余弦相似度值,…,目标数据A与目标数据J余弦相似度值的累加和。
依此,得到目标数据A、目标数据B…目标数据J对应的相似度和值。
S105、基于多个所述相似度值确定所述原始文本中的异常文本。
图2为本发明实施例提供的一种确定原始文本中的异常文本的流程示意图,具体包括:
S1051、基于每个所述目标数据的相似度和值,确定多个所述目标数据的相似度和值的平均值。
基于目标数据A、目标数据B…目标数据J对应的相似度和值,确定多个所述目标数据的相似度和值的平均值
S1052、基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值。
其中,第一公式包括:
其中,X为目标数据的目标数据的相似度和值、为多个目标数据的相似度和值的平均值,σ为目标数据的标准差。
S1053、将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。
在本实施例中,阈值范围可根据实际情况进行设定,如将设定的阈值设置为3,得到的概率为0.003%,可以理解为每个目标数据的相似度为99.997%,存在0.003%的异常文本,即垃圾信息。
在本发明实施例的一可选方案中,对于确定的异常文本,可以采用多种处理方式,如直接删除,向用户显示标准的文本,又如,采用标记的方式,对异常文本进行突出显示,提示用户该标记的文本为垃圾信息,在阅读到此处时,可跳过该处,进行下一位置的阅读。
本发明实施例提供的网页垃圾信息过滤方法,通过按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;对多个所述目标数据进行预处理;将经预处理后的多个目标数据进行向量化;确定经过向量化处理后的多个目标数据对应的多个相似度值;基于多个所述相似度值确定所述原始文本中的异常文本。采用TF-IDF文本向量化方法和余弦相似度度量方法的组合,借助于文本的稀疏表示可以较为精确地度量文本之间的相似程度;采用标准分常模算法用于对不相关内容的识别,基于数据的服从正态分布的假设可以以较高的置信度识别出文本中的不相关内容。
检测的对象是段落的相似度得分而非直接使用段落的余弦相似性数值。段落的相似性得分是该标准段落与文本其他各标准段落之间的余弦相似度值的累加和(放大了不相关段落与其他段落的差异性),采用段落相似性得分进行异常检测可以提高异常值检测的置信度。
图3为本发明实施例提供一种网页垃圾信息过滤装置的结构图,如图3所示,该装置具体包括:
分割模块301,用于按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;
处理模块302,用于对多个所述目标数据进行预处理;
所述处理模块302,还用于将经预处理后的多个目标数据进行向量化;
确定模块303,用于确定经过向量化处理后的多个目标数据对应的多个相似度值;
所述确定模块303,还用于基于多个所述相似度值确定所述原始文本中的异常文本。
可选地,所述确定模块303,具体用于采用余弦相似度函数,确定每个目标数据与其它目标数据的相似度值。
可选地,所述确定模块303,还用于将每个目标数据与其它目标数据的多个相似度值进行累加,得到每个目标数据的相似度和值。
可选地,所述确定模块303,具体用于基于每个所述目标数据的相似度和值,确定多个所述目标数据的相似度和值的平均值;基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值;将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。
可选地,分割模块301,具体用于将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个段落的文本。
可选地,所述语句的处理规则,包括:按照分号、句号或叹号对所述原始文本进行划分;
分割模块301,具体用于将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个语句的文本。
可选地,分割模块301,具体用于将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。
可选地,处理模块302,具体用于对多个所述目标数据进行分词处理;将经过分词后的多个目标数据进行去停用词、及去标点符号处理。
本实施例提供的网页垃圾信息过滤装置可以是如图3中所示的网页垃圾信息过滤装置,可执行如图1中网页垃圾信息过滤方法的所有步骤,进而实现图1所示网页垃圾信息过滤方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
图4为本发明实施例提供一种网页垃圾信息过滤设备的硬件结构图,如图4所示,该设备具体包括:
处理器410、存储器420、收发器430。
处理器410可以是中央处理器(central processing unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integratedcircuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
存储器420用于存储各种应用,操作***和数据。存储器420可以将存储的数据传输给处理器410。存储器420可以包括易失性存储器,非易失性动态随机存取内存(nonvolatile random access memory,NVRAM)、相变化随机存取内存(phase change RAM,PRAM)、磁阻式随机存取内存(magetoresistive RAM,MRAM)等,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(electrically erasable programmable read-onlymemory,EEPROM)、闪存器件,例如反或闪存(flash memory,NOR)或是反及闪存(flashmemory,NAND)、半导体器件,例如固态硬盘(solid state disk,SSD)等。存储器420还可以包括上述种类的存储器的组合。
收发器430,用于发送和/或接收数据,收发器430可以是天线等。
所述各器件的工作过程如下:
处理器410,用于按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;对多个所述目标数据进行预处理;将经预处理后的多个目标数据进行向量化;确定经过向量化处理后的多个目标数据对应的多个相似度值;基于多个所述相似度值确定所述原始文本中的异常文本。
可选地,处理器410,具体用于采用余弦相似度函数,确定每个目标数据与其它目标数据的相似度值。
可选地,处理器410,还用于将每个目标数据与其它目标数据的多个相似度值进行累加,得到每个目标数据的相似度和值。
可选地,处理器410,具体用于基于每个所述目标数据的相似度和值,确定多个所述目标数据的相似度和值的平均值;基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值;将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。
可选地,处理器410,具体用于将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据;其中,每个所述目标数据对应一个段落的文本。
可选地,所述语句的处理规则,包括:按照分号、句号或叹号对所述原始文本进行划分;处理器410,具体用于将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个语句的文本。
可选地,处理器410,具体用于将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。
可选地,处理器410,具体用于对多个所述目标数据进行分词处理;
将经过分词后的多个目标数据进行去停用词、及去标点符号处理。
本实施例提供的网页垃圾信息过滤设备可以是如图4中所示的网页垃圾信息过滤设备,可执行如图1中网页垃圾信息过滤方法的所有步骤,进而实现图1所示网页垃圾信息过滤方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在网页垃圾信息过滤设备侧执行的网页垃圾信息过滤方法。
所述处理器用于执行存储器中存储的网页垃圾信息过滤程序,以实现以下在网页垃圾信息过滤设备侧执行的网页垃圾信息过滤方法的步骤:
按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;
对多个所述目标数据进行预处理;
将经预处理后的多个目标数据进行向量化;
确定经过向量化处理后的多个目标数据对应的多个相似度值;
基于多个所述相似度值确定所述原始文本中的异常文本。
可选地,采用余弦相似度函数,确定每个目标数据与其它目标数据的相似度值。
可选地,将每个目标数据与其它目标数据的多个相似度值进行累加,得到每个目标数据的相似度和值。
可选地,基于每个所述目标数据的相似度和值,确定多个所述目标数据的相似度和值的平均值;
基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值;
将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。
可选地,将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个段落的文本。
可选地,所述语句的处理规则,包括:按照分号、句号或叹号对所述原始文本进行划分;
将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个语句的文本。
可选地,将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。
可选地,对多个所述目标数据进行分词处理;将经过分词后的多个目标数据进行去停用词、及去标点符号处理。
本实施例提供的存储介质,可执行如图1中网页垃圾信息过滤方法的所有步骤,进而实现图1所示网页垃圾信息过滤方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页垃圾信息过滤方法,其特征在于,包括:
按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;
对多个所述目标数据进行预处理;
将经预处理后的多个目标数据进行向量化;
确定经过向量化处理后的多个目标数据对应的多个相似度值;
基于多个所述相似度值确定所述原始文本中的异常文本。
2.根据权利要求1所述的方法,其特征在于,所述确定经过向量化处理后的多个目标数据对应的多个相似度值,包括:
采用余弦相似度函数,确定每个目标数据与其它目标数据的相似度值。
3.根据权利要求2所述的方法,其特征在于,所述方法,还包括:
将每个目标数据与其它目标数据的多个相似度值进行累加,得到每个目标数据的相似度和值。
4.根据权利要求3所述的方法,其特征在于,所述基于多个所述相似度值确定所述原始文本中的异常文本,包括:
基于每个所述目标数据的相似度和值,确定多个所述目标数据的相似度和值的平均值;
基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值;
将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。
5.根据权利要求1所述的方法,其特征在于,所述按照设定处理规则对输入的原始文本进行分割,得到多个目标数据,包括:
将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个段落的文本。
6.根据权利要求1所述的方法,其特征在于,所述语句的处理规则,包括:按照分号、句号或叹号对所述原始文本进行划分;
所述按照设定处理规则对输入的原始文本进行分割,得到多个目标数据,还包括:
将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个语句的文本。
7.根据权利要求1所述的方法,其特征在于,所述按照设定处理规则对输入的原始文本进行分割,得到多个目标数据,还包括:
将输入的原始文本按照设定字符长度的处理规则所述将原始文本分割为多个目标数据。
8.根据权利要求1所述的方法,其特征在于,所述对多个所述目标数据进行预处理,包括:
对多个所述目标数据进行分词处理;
将经过分词后的多个目标数据进行去停用词、及去标点符号处理。
9.一种网页垃圾信息过滤装置,其特征在于,包括:
分割模块,用于按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;
处理模块,用于对多个所述目标数据进行预处理;
所述处理模块,还用于将经预处理后的多个目标数据进行向量化;
确定模块,用于确定经过向量化处理后的多个目标数据对应的多个相似度值;
所述确定模块,还用于基于多个所述相似度值确定所述原始文本中的异常文本。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~8中任一所述的网页垃圾信息过滤方法。
CN201811608345.XA 2018-12-26 2018-12-26 网页垃圾信息过滤方法、装置及存储介质 Active CN109815395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811608345.XA CN109815395B (zh) 2018-12-26 2018-12-26 网页垃圾信息过滤方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811608345.XA CN109815395B (zh) 2018-12-26 2018-12-26 网页垃圾信息过滤方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109815395A true CN109815395A (zh) 2019-05-28
CN109815395B CN109815395B (zh) 2021-06-08

Family

ID=66602483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811608345.XA Active CN109815395B (zh) 2018-12-26 2018-12-26 网页垃圾信息过滤方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109815395B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347934A (zh) * 2019-07-18 2019-10-18 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004724A (zh) * 2010-12-23 2011-04-06 哈尔滨工业大学 文档段落分割方法
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN105183784A (zh) * 2015-08-14 2015-12-23 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置
CN107273432A (zh) * 2017-05-23 2017-10-20 合肥智权信息科技有限公司 一种基于大数据的专利文章整合***和方法
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004724A (zh) * 2010-12-23 2011-04-06 哈尔滨工业大学 文档段落分割方法
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN105183784A (zh) * 2015-08-14 2015-12-23 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置
CN107273432A (zh) * 2017-05-23 2017-10-20 合肥智权信息科技有限公司 一种基于大数据的专利文章整合***和方法
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347934A (zh) * 2019-07-18 2019-10-18 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110347934B (zh) * 2019-07-18 2023-12-08 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质

Also Published As

Publication number Publication date
CN109815395B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN110765770A (zh) 一种合同自动生成方法及装置
CN111475603B (zh) 企业标识识别方法、装置、计算机设备及存储介质
CN102262765B (zh) 一种发布商品信息的方法及装置
CN106610931B (zh) 话题名称的提取方法及装置
CN110741376A (zh) 用于不同自然语言的自动文档分析
CN110705302A (zh) 命名实体的识别方法、电子设备及计算机存储介质
WO2020143301A1 (zh) 一种训练样本有效性检测方法、计算机设备及计算机非易失性存储介质
CN109597983A (zh) 一种拼写纠错方法及装置
US10127442B2 (en) Non-sequential comparison of documents
CN111814481B (zh) 购物意图识别方法、装置、终端设备及存储介质
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及***
CN111666868A (zh) 保险单识别方法、装置以及计算机设备
CN108985289A (zh) 乱码检测方法及装置
CN111858942A (zh) 一种文本抽取方法、装置、存储介质和电子设备
CN109815395A (zh) 网页垃圾信息过滤方法、装置及存储介质
CN111241269B (zh) 一种短信文本分类方法、装置、电子设备及存储介质
CN111222051A (zh) 一种趋势预测模型的训练方法及装置
US20160092729A1 (en) Information processing device, information processing method, and computer program product
CN112182448A (zh) 页面信息处理方法、装置及设备
CN113919352A (zh) 数据库敏感数据识别方法及装置
CN113139379B (zh) 信息识别方法和***
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113158117A (zh) 一种网站访问量预测方法、装置及设备
CN111914868A (zh) 模型训练方法、异常数据检测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant