CN110019763B - 文本过滤方法、***、设备及计算机可读存储介质 - Google Patents

文本过滤方法、***、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110019763B
CN110019763B CN201711449882.XA CN201711449882A CN110019763B CN 110019763 B CN110019763 B CN 110019763B CN 201711449882 A CN201711449882 A CN 201711449882A CN 110019763 B CN110019763 B CN 110019763B
Authority
CN
China
Prior art keywords
text
junk
text data
target text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711449882.XA
Other languages
English (en)
Other versions
CN110019763A (zh
Inventor
陆韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711449882.XA priority Critical patent/CN110019763B/zh
Publication of CN110019763A publication Critical patent/CN110019763A/zh
Application granted granted Critical
Publication of CN110019763B publication Critical patent/CN110019763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本数据过滤方法、***、设备及计算机可读存储介质,其中,所述方法包括:创建垃圾文本信息库,所述垃圾文本信息库存储有至少一垃圾文本数据;对垃圾文本数据进行特征提取,生成垃圾文本特征向量,结合每一特征的权重训练垃圾文本预测模型;对目标文本数据进行特征提取,生成目标文本特征向量,将目标文本特征向量输入垃圾文本预测模型,以计算目标文本数据为垃圾文本数据的概率;根据概率判断目标文本数据是否为垃圾文本数据。本发明能够弥补现有技术中通过人工审核管理论坛、社区或贴吧等发布内容而导致对管理员的粘性过大、占用较多资源的不足,智能化地过滤属于垃圾文本数据的目标文本数据,提高判别效率。

Description

文本过滤方法、***、设备及计算机可读存储介质
技术领域
本发明涉及文本处理领域,尤其涉及一种文本过滤方法、***、设备及计算机可读存储介质。
背景技术
现在网络上存在很多论坛、社区或贴吧等多种形式的、可供人们发表自身看法或评论的网站或渠道,这类网站或渠道在给人们提供自由言论的空间的同时,也可能出现一些毫无意义的垃圾评论或涉及敏感主题的不当言论,因此,对这类网站或渠道提供适当的监管也是十分必要的。
现阶段的监管方式通常是由网站管理员配合预设的关键词对论坛内容、社区文章内容、帖子内容或评论内容等进行人工的筛选和过滤,删除毫无意义的垃圾信息或敏感信息。
这种监管方式十分依赖于人工审核管理。管理员需要实时地浏览论坛、社区或贴吧等,对于较为热门的内容由于浏览人员数目过多、信息量较大,管理员难以一一过滤,很容易出错,对管理员的粘性过大,占用了较多的资源。
发明内容
本发明要解决的技术问题是为了克服现有技术中通过人工审核管理论坛、社区或贴吧等发布内容而导致对管理员的粘性过大、占用较多资源的缺陷,提供一种能够自动过滤垃圾文本的文本过滤方法、***、设备及计算机可读存储介质。
本发明是通过以下技术方案解决上述技术问题的:
本发明提供一种文本数据过滤方法,其特点是,所述文本数据过滤方法包括:
创建垃圾文本信息库,所述垃圾文本信息库存储有至少一垃圾文本数据;
对所述垃圾文本数据进行特征提取,生成垃圾文本特征向量,结合每一特征的权重训练垃圾文本预测模型;
对目标文本数据进行特征提取,生成目标文本特征向量,将所述目标文本特征向量输入所述垃圾文本预测模型,以计算所述目标文本数据为垃圾文本数据的概率;
根据所述概率判断所述目标文本数据是否为垃圾文本数据。
较佳地,所述垃圾文本数据包括垃圾文本内容,所述目标文本数据包括目标文本内容;
对所述垃圾文本数据进行特征提取,包括:将所述垃圾文本内容转为数值化表示;
对所述目标文本数据进行特征提取,包括:将所述目标文本内容转为数字化表示。
较佳地,将所述垃圾文本内容转为数值化表示,包括:
从所述垃圾文本内容提取关键词;
统计所述垃圾文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第一空间向量,所述第一空间向量在生成垃圾文本特征向量时作为所述垃圾文本特征向量或所述垃圾文本特征向量中的部分维度的值;
将所述目标文本内容转为数值化表示,包括:
从所述目标文本内容提取关键词;
统计所述目标文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第二空间向量,所述第二空间向量在生成目标文本特征向量时作为所述目标文本特征向量或所述目标文本特征向量中的部分维度的值。
较佳地,所述垃圾文本数据包括垃圾文本发布时间,所述目标文本数据包括目标文本发布时间;
对所述垃圾文本数据进行特征提取,还包括:将所述垃圾文本发布时间转为数值化表示;
对所述目标文本数据进行特征提取,还包括:将所述目标文本发布时间转为数值化表示。
较佳地,将所述垃圾文本发布时间转为数值化表示,包括:
划分若干时间段,并且为每一时间段分别设置一个数值量;
判断所述垃圾文本发布时间所属的第一时间段,并确定所述第一时间段对应的数值量,所述第一时间段对应的数值量在生成垃圾文本特征向量时作为所述垃圾特征向量的一个维度的值,与所述第一空间向量合并后,形成所述垃圾文本特征向量;
将所述目标文本发布时间转为数值化表示,包括:
按照已划分的时间段,判断所述目标文本发布时间所属的第二时间段,并确定所述第二时间段对应的数值量,所述第二时间段对应的数值量在生成目标文本特征向量时作为所述目标文本特征向量的一个维度的值,与所述第二空间向量合并后,形成所述目标文本特征向量。
较佳地,每一特征的权重通过ReliefF算法计算而得,所述垃圾文本预测模型基于ReliefF算法训练而成。
较佳地,所述文本数据过滤方法还包括:
对判定为垃圾文本数据的目标文本数据进行人工核查;
和/或,将利用所述垃圾文本预测模型判定为垃圾文本数据的目标文本数据或经过人工核查确认为垃圾文本数据的目标文本数据存入所述垃圾文本信息库。
本发明还提供一种文本数据过滤***,其特点是,所述文本数据过滤***包括:数据单元、模型单元和判断单元;
所述数据单元用于创建垃圾文本信息库,所述垃圾文本信息库存储有至少一垃圾文本数据;
所述模型单元包括:
第一特征提取模块,用于对所述垃圾文本数据进行特征提取;
第一特征向量模块,用于生成垃圾文本特征向量;
模型训练模块,用于结合每一特征的权重训练垃圾文本预测模型;
所述判断单元包括:
第二特征提取模块,用于对目标文本数据进行特征提取;
第二特征向量模块,用于生成目标文本特征向量;
概率计算模块,用于将所述目标文本特征向量输入所述垃圾文本预测模型,以计算所述目标文本数据是垃圾文本数据的概率,以及根据所述概率判断所述目标文本数据是否为垃圾文本数据。
较佳地,所述垃圾文本数据包括垃圾文本内容,所述目标文本数据包括目标文本内容;
所述第一特征提取模块用于将所述垃圾文本内容转为数值化表示;
所述第二特征提取模块用于将所述目标文本内容转为数字化表示。
较佳地,将所述垃圾文本内容转为数值化表示,包括:
从所述垃圾文本内容提取关键词;
统计所述垃圾文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第一空间向量,所述第一空间向量在生成垃圾文本特征向量时作为所述垃圾文本特征向量或所述垃圾文本特征向量中的部分维度的值;
将所述目标文本内容转为数值化表示,包括:
从所述目标文本内容提取关键词;
统计所述目标文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第二空间向量,所述第二空间向量在生成目标文本特征向量时作为所述目标文本特征向量或所述目标文本特征向量中的部分维度的值。
较佳地,所述垃圾文本数据包括垃圾文本发布时间,所述目标文本数据包括目标文本发布时间;
所述第一特征提取模块还用于将所述垃圾文本发布时间转为数值化表示;
所述第二特征提取模块还用于将所述目标文本发布时间转为数值化表示。
较佳地,将所述垃圾文本发布时间转为数值化表示,包括:
划分若干时间段,并且为每一时间段分别设置一个数值量;
判断所述垃圾文本发布时间所属的第一时间段,并确定所述第一时间段对应的数值量,所述第一时间段对应的数值量在生成垃圾文本特征向量时作为所述垃圾特征向量的一个维度的值,与所述第一空间向量合并后,形成所述垃圾文本特征向量;
将所述目标文本发布时间转为数值化表示,包括:
按照已划分的时间段,判断所述目标文本发布时间所属的第二时间段,并确定所述第二时间段对应的数值量,所述第二时间段对应的数值量在生成目标文本特征向量时作为所述目标文本特征向量的一个维度的值,与所述第二空间向量合并后,形成所述目标文本特征向量。
较佳地,所述模型训练模块中,每一特征的权重通过ReliefF算法计算而得,所述垃圾文本预测模型基于ReliefF算法训练而成。
较佳地,所述文本数据过滤***还包括:
核查单元,用于对判定为垃圾文本数据的目标文本数据进行人工核查;
和/或,存储单元,用于将利用所述垃圾文本预测模型判定为垃圾文本数据的目标文本数据或经过人工核查确认为垃圾文本数据的目标文本数据存入所述垃圾文本信息库。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特点是,所述处理器执行所述程序时实现上述各优选条件任意组合的文本数据过滤方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特点是,所述程序被处理器执行时实现上述各优选条件任意组合的文本数据过滤方法的步骤。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:本发明能够根据垃圾文本信息库中的垃圾文本数据训练垃圾文本预测模型,并利用垃圾文本预测模型智能化地过滤属于垃圾文本数据的目标文本数据,减少对管理员的粘性,降低占用资源,提高判别效率。
附图说明
图1为本发明较佳实施例1的文本数据过滤方法的流程图
图2为本发明较佳实施例1的文本数据过滤方法中步骤102的流程图。
图3为本发明较佳实施例1的文本数据过滤方法中步骤103的流程图。
图4为本发明较佳实施例2的文本数据过滤***的示意框图。
图5为本发明较佳实施例3的电子设备的硬件结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
图1示出了本实施例的文本数据过滤方法的流程图。所述文本数据过滤方法主要用于判断目标文本数据是否为垃圾文本数据,以实现过滤发布的垃圾文本数据。通常来讲,所述垃圾文本数据是指其内容属于毫无意义或是涉及敏感主题的、不适合在公开场合发布或发表的评论、帖子、文章等任何形式的文本。
所述文本过滤方法包括以下步骤:
步骤101、创建垃圾文本信息库,所述垃圾文本信息库存储有至少一垃圾文本数据。所述垃圾文本信息库通过收集历史的垃圾文本数据形成,具体可以以数据库的形式建立。
步骤102、对所述垃圾文本数据进行特征提取,生成垃圾文本特征向量,结合每一特征的权重训练垃圾文本预测模型。其中,所述垃圾文本预测模型用于预测文本数据是否为垃圾文本数据。
步骤103、对目标文本数据进行特征提取,生成目标文本特征向量,将所述目标文本特征向量输入所述垃圾文本预测模型,以计算所述目标文本数据为垃圾文本数据的概率。其中,所述目标文本数据可以为论坛、社区、贴吧或其它网站上发布或发表的评论、帖子、文章等任何形式的文本,或是其它文本。
步骤104、根据所述概率判断所述目标文本数据是否为垃圾文本数据。
本实施例中垃圾文本数据包括垃圾文本发布时间和垃圾文本内容,但是本发明并不局限于此,还可以包括其它相关信息,如发布垃圾文本的账号、IP等。下表给出了一种存储数据可采用的具体格式:
Figure BDA0001528304080000071
下面以垃圾文本数据包括垃圾文本内容和垃圾文本发布时间为例,对步骤102做进一步说明,如图2所示,步骤102具体包括以下步骤:
步骤1021、将所述垃圾文本内容转为数值化表示以及将所述垃圾文本发布时间转为数值化表示。以此实现对所述垃圾文本数据的特征提取。
其中,将所述垃圾文本内容转为数值化表示的具体过程为:
从所述垃圾文本内容提取关键词,其中,所述关键词通常是一些不雅或是涉及敏感主题的词语或是经常在垃圾文本内容中经常出现的词语,预先设置并制定有固定唯一的索引顺序;
统计所述垃圾文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第一空间向量。
在具体实施时,可以通过Word2vec模型实现从所述垃圾文本内容提取关键词,亦可根据实际需求通过其它方式实现从所述垃圾文本内容提取关键词。Word2vec是一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练把对文本内容的处理简化为K维向量空间中的向量运算,将语句中的单词转化为低维度的连续值,并将其中意思相近的词映射到向量空间中相近的位置,而向量空间上的相似度可以用来表示文本语义上的相似度。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看作是一些单词的集合,而文本的每个单词都是独立的。利用Word2vec模型的优点在于去掉了神经网络的隐藏层,减少了计算量。
假设两个简单的文本如下:
John likes to watch movies.Mary likes too.
John also likes to watch football games.
基于上述两个文档中出现的单词,构建如下一个词典(dictionary):
{"John":1,"likes":2,"to":3,"watch":4,"movies":5,"also":6,"football":7,"games":8,"Mary":9,"too":10}
上面的词典中包含10个单词,每个单词有唯一的索引,那么每个文本可以使用一个10维的向量来表示。如下:
[1,2,1,1,1,0,0,0,1,1]
[1,1,1,1,0,1,1,1,0,0]
生成的向量与原来的文本中的词汇出现顺序没有关系,表示的是每个单词在对应的文本中出现的次数。
本实施例把每个关键词当作特征,获得每一关键词在向量空间上的表示,将垃圾文本内容最终转换为第一空间向量。
将所述垃圾文本发布时间转为数值化表示的具体过程为:
划分若干时间段,并且为每一时间段分别设置一个数值量;
判断所述垃圾文本发布时间所属的第一时间段,并确定所述第一时间段对应的数值量。
其中,时间段可以自由划分或者结合以往经验中垃圾文本发布的集中时段划分,每一时间段对应的数值量亦可自由设定。本实施例中,将一天的时间划分为4个时间段,其中,
0:00~10:00,为晨间时段,设置对应的数值量为0;
10:00~14:00,为中午时段,设置对应的数值量为1;
14:00~19:00,为下午时段,设置对应的数值量为2;
19:00~24:00,为晚上时段,设置对应的数值量为3。
如果一条垃圾文本数据的垃圾文本发布时间为11:00,那么该垃圾文本发布时间所属的时间段为10:00~14:00,对应的数值量则为1。
步骤1022、将所述第一时间段对应的数值量作为所述垃圾特征向量的一个维度的值,与所述第一空间向量合并后,形成所述垃圾文本特征向量。以此实现所述垃圾文本特征向量的生成。
比如一条垃圾文本数据,于7:00发布,那么对应的特征向量为:
[0,1,2,3,2,1,0,4,…],其中第一个数字0是代表垃圾文本发布时间,后面的数字代表垃圾文本内容通过Word2Vec转换而成的第一空间向量。
当然,若是垃圾文本数据中只包括垃圾文本内容而不包括垃圾文本发布时间,则可以直接将所述第一空间向量作为垃圾文本特征向量;若是垃圾文本数据中还包括其它相关信息,则也可以将其数值化后作为垃圾文本特征向量中部分维度的值,参与垃圾文本预测模型的计算。
步骤1023、结合每一特征的权重训练垃圾文本预测模型。本实施例中,每一特征的权重具体通过ReliefF算法来计算而得,每一特征的权重均被保存在ReliefF算法的模型中,训练出基于ReliefF算法的垃圾文本预测模型。当然亦可采用其它算法来计算每一特征的权重并训练相应的算法模型。
ReliefF算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为NearHit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更新每个特征的权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和NearHit在某个特征的距离大于R和Near Miss上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。在多分类文本中,每次训练都会从样本集中随机抽取一个样本R,然后基于样本相似的样本集中找出K个近邻样本(near Hits),从每个R的不同类的样本集中均找出k个近邻样本(nearMisses),然后更新每个特征的权重。
ReliefF算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加,因而运行效率非常高。
本实施例中目标文本数据包括目标文本发布时间和目标文本内容,但是本发明并不局限于此,还可以包括其它相关信息,如发布目标文本的账号、IP等。
下面以目标文本数据包括目标文本内容和目标文本发布时间为例,对步骤103做进一步说明,如图3所示,步骤103具体包括以下步骤:
步骤1031、将所述目标文本内容转为数字化表示以及将所述目标文本发布时间转为数值化表示。以此实现对所述目标文本数据的特征提取。
其中,将所述目标文本内容转为数值化表示的具体过程为:
从所述目标文本内容提取关键词,所述关键词与步骤1021中设置的关键词相同且具有相同的索引顺序;
统计所述目标文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第二空间向量。
在具体实施时,同样可以通过Word2vec实现从所述目标文本内容提取关键词,亦可根据实际需求通过其它方式实现从所述垃圾文本内容提取关键词。形成第二空间向量的具体过程可以参考形成第一空间向量的过程,在此不再赘述。
将所述目标文本发布时间转为数值化表示的具体过程为:
按照已划分的时间段,判断所述目标文本发布时间所属的第二时间段,并确定所述第二时间段对应的数值量。
步骤1032、将所述第二时间段对应的数值量作为所述目标文本特征向量的一个维度的值,与所述第二空间向量合并后,形成所述目标文本特征向量。以此实现所述目标文本特征向量的生成。
比如目标文本数据,于18:00发布,那么对应的特征向量为:
[2,1,3,0,1,2,0,4,…],其中第一个数字2是代表目标文本发布时间,后面的数字代表目标文本内容通过Word2Vec转换而成的第二空间向量。
当然,若是目标文本数据中只包括目标文本内容而不包括目标文本发布时间,则可以直接将所述第二空间向量作为目标文本特征向量;若是目标文本数据中还包括其它相关信息,则也可以将其数值化后作为目标文本特征向量中部分维度的值,最终形成目标文本特征向量。
步骤1033、将所述目标文本特征向量输入所述垃圾文本预测模型并计算模型输出量,所述模型输出量即代表了所述目标文本数据是垃圾文本数据的概率。
另外,步骤104中具体可以设置为:判断所述概率是否大于概率阈值,若是,则判定所述目标文本数据为垃圾文本数据,若否,则判定所述目标文本数据为非垃圾文本数据。其中,所述概率阈值可自行设定,概率阈值设定的越大,则判定为垃圾文本数据的要求越严格,反之,概率阈值设定的越小,则判定为垃圾文本数据的要求越宽松。
对于判定为垃圾文本数据的目标文本数据可以自动对其进行删除,或是通过管理员进行处理。
为了进一步确认步骤104的判断结果是否正确,所述文本数据过滤方法还可以进一步包括在步骤104之后:
对判定为垃圾文本数据的目标文本数据进行人工核查。对于人工确定被误判为垃圾文本数据的目标数据修正判断结果,追溯误判的原因,进一步修正垃圾文本预测模型,提高判断的准确性。
为了收集更多的垃圾文本数据,扩充垃圾文本信息库,所述文本数据过滤方法还可以进一步包括在步骤104之后:
将利用所述垃圾文本预测模型判定为垃圾文本数据的目标文本数据或经过人工核查确认为垃圾文本数据的目标文本数据存入所述垃圾文本信息库。
实施例2
图4示出了本实施例的文本数据过滤***的示意框图。所述文本数据过滤***主要用于判断目标文本数据是否为垃圾文本数据,以实现过滤发布的垃圾文本数据。
所述文本数据过滤***包括:数据单元201、模型单元202和判断单元203。
所述数据单元201用于创建垃圾文本信息库,所述垃圾文本信息库存储有至少一垃圾文本数据。所述垃圾文本信息库通过收集历史的垃圾文本数据形成,具体可以以数据库的形式建立。本实施例中垃圾文本数据包括垃圾文本发布时间和垃圾文本内容,但是本发明并不局限于此,还可以包括其它相关信息,如发布垃圾文本的账号、IP等。
所述模型单元202包括:第一特征提取模块2021、第一特征向量模块2022和模型训练模块2023。
所述第一特征提取模块2021用于对所述垃圾文本数据进行特征提取。
所述第一特征向量模块2022用于生成垃圾文本特征向量。
所述模型训练模块2023用于结合每一特征的权重训练垃圾文本预测模型。其中,所述垃圾文本预测模型用于预测文本数据是否为垃圾文本数据。
所述判断单元包括:第二特征提取模块2031、第二特征向量模块2032和概率计算模块2033。
所述第二特征提取模块2031用于对目标文本数据进行特征提取。其中,所述目标文本数据可以为论坛、社区、贴吧或其它网站上发布或发表的评论、帖子、文章等任何形式的文本,或是其它文本。本实施例中目标文本数据包括目标文本发布时间和目标文本内容,但是本发明并不局限于此,还可以包括其它相关信息,如发布目标文本的账号、IP等。
所述第二特征向量模块2032用于生成目标文本特征向量。
所述概率计算模块2033用于将所述目标文本特征向量输入所述垃圾文本预测模型,以计算所述目标文本数据是垃圾文本数据的概率,以及根据所述概率判断所述目标文本数据是否为垃圾文本数据。
下面对所述第一特征提取模块2021、所述第一特征向量模块2022和所述模型训练模块模块2023做进一步说明:
所述第一特征提取模块2021将所述垃圾文本内容转为数值化表示以及将所述垃圾文本发布时间转为数值化表示。以此实现对所述垃圾文本数据的特征提取。
其中,将所述垃圾文本内容转为数值化表示,包括:
从所述垃圾文本内容提取关键词,其中,所述关键词预先设置并制定有固定唯一的索引顺序;
统计所述垃圾文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第一空间向量。
将所述垃圾文本发布时间转为数值化表示,包括:
划分若干时间段,并且为每一时间段分别设置一个数值量;
判断所述垃圾文本发布时间所属的第一时间段,并确定所述第一时间段对应的数值量。
所述第一特征向量模块2022将所述第一时间段对应的数值量作为所述垃圾特征向量的一个维度的值,与所述第一空间向量合并后,形成所述垃圾文本特征向量。以此实现对所述垃圾文本数据的特征提取。当然,若是垃圾文本数据中只包括垃圾文本内容而不包括垃圾文本发布时间,则可以直接将所述第一空间向量作为垃圾文本特征向量;若是垃圾文本数据中还包括其它相关信息,则也可以将其数值化后作为垃圾文本特征向量中部分维度的值,参与垃圾文本预测模型的计算。
所述模型训练模块2023通过ReliefF算法计算每一特征的权重,每一特征的权重均被保存在ReliefF算法的模型中,训练出基于ReliefF算法的垃圾文本预测模型。当然亦可采用其它算法来计算每一特征的权重并训练相应的算法模型。
下面对所述第二特征提取模块2031、所述第二特征向量模块2032和所述概率计算模块2033做进一步说明:
所述第二特征提取模块2031将所述目标文本内容转为数字化表示以及将所述目标文本发布时间转为数值化表示。以此实现对所述垃圾目标文本数据的特征提取。其中,将所述目标文本内容转为数值化表示,包括:
从所述目标文本内容提取关键词;
统计所述目标文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第二空间向量。
在具体实施时,同样可以通过Word2vec实现从所述目标文本内容提取关键词,亦可根据实际需求通过其它方式实现从所述垃圾文本内容提取关键词。形成第二空间向量的具体过程可以参考形成第一空间向量的过程,在此不再赘述。
将所述目标文本发布时间转为数值化表示,包括:
按照已划分的时间段,判断所述目标文本发布时间所属的第二时间段,并确定所述第二时间段对应的数值量。
所述第二特征向量模块2032将所述第二时间段对应的数值量作为所述目标文本特征向量的一个维度的值,与所述第二空间向量合并后,形成所述目标文本特征向量。以此实现对所述目标文本数据的特征提取。当然,若是目标文本数据中只包括目标文本内容而不包括目标文本发布时间,则可以直接将所述第二空间向量作为目标文本特征向量;若是目标文本数据中还包括其它相关信息,则也可以将其数值化后作为目标文本特征向量中部分维度的值,最终形成目标文本特征向量。
所述概率计算模块2033用于将所述目标文本特征向量输入所述垃圾文本预测模型并计算模型输出量,所述模型输出量即代表了计算所述目标文本数据是垃圾文本数据的概率,若所述概率大于概率阈值,则判定所述目标文本数据为垃圾文本数据。若所述概率不大于所述概率阈值,则判定所述目标文本数据为非垃圾文本数据。其中,所述概率阈值可自行设定,概率阈值设定的越大,则判定为垃圾文本数据的要求越严格,反之,概率阈值设定的越小,则判定为垃圾文本数据的要求越宽松。
对于判定为垃圾文本数据的目标文本数据可以自动对其进行删除,或是通过管理员进行处理。
为了进一步确认所述判断单元203的判断结果是否正确,所述文本数据过滤***还包括:
核查单元204,用于对判定为垃圾文本数据的目标文本数据进行人工核查。对于人工确定被误判为垃圾文本数据的目标数据修正判断结果,追溯误判的原因,进一步修正垃圾文本预测模型,提高判断的准确性。
为了收集更多的垃圾文本数据,扩充垃圾文本信息库,所述文本数据过滤***还包括:
存储单元205,用于将利用所述垃圾文本预测模型判定为垃圾文本数据的目标文本数据或经过人工核查确认为垃圾文本数据的目标文本数据存入所述垃圾文本信息库。
实施例3
图5为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的文本数据过滤方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同***组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的文本数据过滤方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的文本数据过滤方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所述的文本数据过滤方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种文本数据过滤方法,其特征在于,所述文本数据过滤方法包括:
创建垃圾文本信息库,所述垃圾文本信息库存储有至少一垃圾文本数据;
对所述垃圾文本数据进行特征提取,生成垃圾文本特征向量,结合每一特征的权重训练垃圾文本预测模型;
对目标文本数据进行特征提取,生成目标文本特征向量,将所述目标文本特征向量输入所述垃圾文本预测模型,以计算所述目标文本数据为垃圾文本数据的概率;
根据所述概率判断所述目标文本数据是否为垃圾文本数据;
所述垃圾文本数据包括垃圾文本发布时间,所述目标文本数据包括目标文本发布时间;
对所述垃圾文本数据进行特征提取,还包括:将所述垃圾文本发布时间转为数值化表示;
对所述目标文本数据进行特征提取,还包括:将所述目标文本发布时间转为数值化表示;
所述垃圾文本数据包括垃圾文本内容,所述目标文本数据包括目标文本内容;
对所述垃圾文本数据进行特征提取,包括:将所述垃圾文本内容转为数值化表示;
对所述目标文本数据进行特征提取,包括:将所述目标文本内容转为数字化表示;
将所述垃圾文本内容转为数值化表示,包括:
从所述垃圾文本内容提取关键词,所述关键词是一些不雅或是涉及敏感主题的词语或是在垃圾文本内容中经常出现的词语;
统计所述垃圾文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第一空间向量,所述第一空间向量在生成垃圾文本特征向量时作为所述垃圾文本特征向量或所述垃圾文本特征向量中的部分维度的值;
将所述目标文本内容转为数值化表示,包括:
从所述目标文本内容提取关键词;
统计所述目标文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第二空间向量,所述第二空间向量在生成目标文本特征向量时作为所述目标文本特征向量或所述目标文本特征向量中的部分维度的值。
2.如权利要求1所述的文本数据过滤方法,其特征在于,将所述垃圾文本发布时间转为数值化表示,包括:
划分若干时间段,并且为每一时间段分别设置一个数值量;
判断所述垃圾文本发布时间所属的第一时间段,并确定所述第一时间段对应的数值量,所述第一时间段对应的数值量在生成垃圾文本特征向量时作为垃圾特征向量的一个维度的值,与所述第一空间向量合并后,形成所述垃圾文本特征向量;
将所述目标文本发布时间转为数值化表示,包括:
按照已划分的时间段,判断所述目标文本发布时间所属的第二时间段,并确定所述第二时间段对应的数值量,所述第二时间段对应的数值量在生成目标文本特征向量时作为所述目标文本特征向量的一个维度的值,与所述第二空间向量合并后,形成所述目标文本特征向量。
3.如权利要求1所述的文本数据过滤方法,其特征在于,每一特征的权重通过ReliefF算法计算而得,所述垃圾文本预测模型基于ReliefF算法训练而成。
4.如权利要求1所述的文本数据过滤方法,其特征在于,所述文本数据过滤方法还包括:
对判定为垃圾文本数据的目标文本数据进行人工核查;
和/或,将利用所述垃圾文本预测模型判定为垃圾文本数据的目标文本数据或经过人工核查确认为垃圾文本数据的目标文本数据存入所述垃圾文本信息库。
5.一种文本数据过滤***,其特征在于,所述文本数据过滤***包括:数据单元、模型单元和判断单元;
所述数据单元用于创建垃圾文本信息库,所述垃圾文本信息库存储有至少一垃圾文本数据;
所述模型单元包括:
第一特征提取模块,用于对所述垃圾文本数据进行特征提取;
第一特征向量模块,用于生成垃圾文本特征向量;
模型训练模块,用于结合每一特征的权重训练垃圾文本预测模型;
所述判断单元包括:
第二特征提取模块,用于对目标文本数据进行特征提取;
第二特征向量模块,用于生成目标文本特征向量;
概率计算模块,用于将所述目标文本特征向量输入所述垃圾文本预测模型,以计算所述目标文本数据是垃圾文本数据的概率,以及根据所述概率判断所述目标文本数据是否为垃圾文本数据;
所述垃圾文本数据包括垃圾文本发布时间,所述目标文本数据包括目标文本发布时间;
所述第一特征提取模块还用于将所述垃圾文本发布时间转为数值化表示;
所述第二特征提取模块还用于将所述目标文本发布时间转为数值化表示;
所述垃圾文本数据包括垃圾文本内容,所述目标文本数据包括目标文本内容;
所述第一特征提取模块用于将所述垃圾文本内容转为数值化表示;
所述第二特征提取模块用于将所述目标文本内容转为数字化表示;
将所述垃圾文本内容转为数值化表示,包括:
从所述垃圾文本内容提取关键词,所述关键词是一些不雅或是涉及敏感主题的词语或是在垃圾文本内容中经常出现的词语;
统计所述垃圾文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第一空间向量,所述第一空间向量在生成垃圾文本特征向量时作为所述垃圾文本特征向量或所述垃圾文本特征向量中的部分维度的值;
将所述目标文本内容转为数值化表示,包括:
从所述目标文本内容提取关键词;
统计所述目标文本内容中每一关键词出现的次数;
按照关键词的索引顺序列出每一关键词出现的次数,形成第二空间向量,所述第二空间向量在生成目标文本特征向量时作为所述目标文本特征向量或所述目标文本特征向量中的部分维度的值。
6.如权利要求5所述的文本数据过滤***,其特征在于,将所述垃圾文本发布时间转为数值化表示,包括:
划分若干时间段,并且为每一时间段分别设置一个数值量;
判断所述垃圾文本发布时间所属的第一时间段,并确定所述第一时间段对应的数值量,所述第一时间段对应的数值量在生成垃圾文本特征向量时作为垃圾特征向量的一个维度的值,与所述第一空间向量合并后,形成所述垃圾文本特征向量;
将所述目标文本发布时间转为数值化表示,包括:
按照已划分的时间段,判断所述目标文本发布时间所属的第二时间段,并确定所述第二时间段对应的数值量,所述第二时间段对应的数值量在生成目标文本特征向量时作为所述目标文本特征向量的一个维度的值,与所述第二空间向量合并后,形成所述目标文本特征向量。
7.如权利要求5所述的文本数据过滤***,其特征在于,所述模型训练模块中,每一特征的权重通过ReliefF算法计算而得,所述垃圾文本预测模型基于ReliefF算法训练而成。
8.如权利要求5所述的文本数据过滤***,其特征在于,所述文本数据过滤***还包括:
核查单元,用于对判定为垃圾文本数据的目标文本数据进行人工核查;
和/或,存储单元,用于将利用所述垃圾文本预测模型判定为垃圾文本数据的目标文本数据或经过人工核查确认为垃圾文本数据的目标文本数据存入所述垃圾文本信息库。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4中任一项所述的文本数据过滤方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至4中任一项所述的文本数据过滤方法的步骤。
CN201711449882.XA 2017-12-27 2017-12-27 文本过滤方法、***、设备及计算机可读存储介质 Active CN110019763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711449882.XA CN110019763B (zh) 2017-12-27 2017-12-27 文本过滤方法、***、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711449882.XA CN110019763B (zh) 2017-12-27 2017-12-27 文本过滤方法、***、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110019763A CN110019763A (zh) 2019-07-16
CN110019763B true CN110019763B (zh) 2022-04-12

Family

ID=67187050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711449882.XA Active CN110019763B (zh) 2017-12-27 2017-12-27 文本过滤方法、***、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110019763B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516066B (zh) * 2019-07-23 2022-04-15 同盾控股有限公司 一种文本内容安全防护方法和装置
CN110442875A (zh) * 2019-08-12 2019-11-12 北京思维造物信息科技股份有限公司 一种文本审核方法、装置及***
CN113538002B (zh) * 2020-04-14 2024-06-18 北京沃东天骏信息技术有限公司 用于审核文本的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
JP2011048488A (ja) * 2009-08-25 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> データフロー解析装置、データフロー解析システム、データフロー解析方法およびデータフロー解析プログラム
CN103186845A (zh) * 2011-12-29 2013-07-03 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN103473369A (zh) * 2013-09-27 2013-12-25 清华大学 基于语义的信息采集方法及***
CN104111925A (zh) * 2013-04-16 2014-10-22 ***通信集团公司 项目推荐方法和装置
CN107256245A (zh) * 2017-06-02 2017-10-17 河海大学 面向垃圾短信分类的离线模型改进与选择方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
JP2011048488A (ja) * 2009-08-25 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> データフロー解析装置、データフロー解析システム、データフロー解析方法およびデータフロー解析プログラム
CN103186845A (zh) * 2011-12-29 2013-07-03 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN104111925A (zh) * 2013-04-16 2014-10-22 ***通信集团公司 项目推荐方法和装置
CN103473369A (zh) * 2013-09-27 2013-12-25 清华大学 基于语义的信息采集方法及***
CN107256245A (zh) * 2017-06-02 2017-10-17 河海大学 面向垃圾短信分类的离线模型改进与选择方法

Also Published As

Publication number Publication date
CN110019763A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
Alam et al. Processing social media images by combining human and machine computing during crises
Zhao et al. Cyberbullying detection based on semantic-enhanced marginalized denoising auto-encoder
CN106874292B (zh) 话题处理方法及装置
CN111460153B (zh) 热点话题提取方法、装置、终端设备及存储介质
US11354340B2 (en) Time-based optimization of answer generation in a question and answer system
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
US20150356203A1 (en) Determining Temporal Categories for a Domain of Content for Natural Language Processing
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取***
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN110019763B (zh) 文本过滤方法、***、设备及计算机可读存储介质
Sun et al. Efficient event detection in social media data streams
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其***
CN105512300B (zh) 信息过滤方法及***
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
KR20220074576A (ko) 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
Phuvipadawat et al. Detecting a multi-level content similarity from microblogs based on community structures and named entities
CN111767404A (zh) 一种事件挖掘方法和装置
Voronov et al. Forecasting popularity of news article by title analyzing with BN-LSTM network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant