CN104715037B - 一种网络数据的过滤方法、装置和*** - Google Patents
一种网络数据的过滤方法、装置和*** Download PDFInfo
- Publication number
- CN104715037B CN104715037B CN201510122267.2A CN201510122267A CN104715037B CN 104715037 B CN104715037 B CN 104715037B CN 201510122267 A CN201510122267 A CN 201510122267A CN 104715037 B CN104715037 B CN 104715037B
- Authority
- CN
- China
- Prior art keywords
- variable
- user
- picture
- text message
- thumb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种网络数据的过滤方法、装置和***;本发明实施例采用获取目标信息类型的种子库,以及用户行为数据,根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集,然后基于该候选集构造转移矩阵,并初始化用户打分向量和页面打分向量,并根据转移矩阵、用户打分向量和页面打分向量对该候选集中的信息进行过滤,得到目标信息,将目标信息加入该种子库;该方案不仅可以大大提高识别的准确率和过滤效果,而且,还可以提高处理效率。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种网络数据的过滤方法、装置和***。
背景技术
随着互联网技术的发展,网络信息也越来越为丰富繁多,这些信息在给我们带来便利的同时,也带来一些负面的影响,比如,充斥在其中的一些关于色情或暴力的图文消息,就会给青少年的成长以及社会的稳定带来不利的影响。因此,如何在这庞大的信息中,将一些负面信息过滤掉,是一个极为重要的问题。
在现有技术中,一般会通过人工标识一些敏感词,然后通过文本挖掘和分析来从各种网络数据中过滤掉相应的词汇,以达到识别某类信息的目的。而对于图片类型的数据,则需要通过人工标注的方式来进行识别。
在对现有技术的研究和实践过程中,本发明的发明人发现,由于作弊者用词***,同一类敏感词常常会出现非常多的变种,因此,单纯依靠文本挖掘和分析难以长久保证较高的准确率和效果,而仅靠人工标注来识别***等图片数据,计算量也很大,导致处理效率较低,效果也不佳。
发明内容
本发明实施例提供一种网络数据的过滤方法、装置和***,不仅可以提高识别的准确率和过滤效果,而且可以提高处理效率。
本发明实施例提供一种网络数据的过滤方法,包括:
获取目标信息类型的种子库,以及用户行为数据;
根据所述用户行为数据和预置过滤规则对所述种子库进行初步过滤,得到候选集;
基于所述候选集构造转移矩阵,并初始化用户打分向量和页面打分向量;
根据所述转移矩阵、用户打分向量和页面打分向量对所述候选集中的信息进行过滤,得到目标信息;
将目标信息加入所述种子库。
相应的,本发明实施例提供一种网络数据的过滤装置,包括:
获取单元,用于获取目标信息类型的种子库,以及用户行为数据;
第一过滤单元,用于根据所述用户行为数据和预置过滤规则对所述种子库进行初步过滤,得到候选集;
构造单元,用于基于所述候选集构造转移矩阵,并初始化用户打分向量和页面打分向量;
第二过滤单元,用于根据所述转移矩阵、用户打分向量和页面打分向量对所述候选集中的信息进行过滤,得到目标信息;
添加单元,用于将目标信息加入所述种子库。
一种通信***,包括本发明实施例提供的任一种网络数据的过滤装置。
本发明实施例采用获取目标信息类型的种子库,以及用户行为数据,根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集,然后基于该候选集构造转移矩阵,并初始化用户打分向量和页面打分向量,并根据转移矩阵、用户打分向量和页面打分向量对该候选集中的信息进行过滤,得到目标信息,将目标信息加入该种子库,从而实现在识别出目标信息的同时,对该种子库自行进行学习和实时更新的目的;相对于现有技术中单纯依靠文本挖掘分析的方案而言,可以避免由于敏感词汇变种所导致的识别不出的情况的发生,大大提高了识别的准确率和过滤效果,而且,由于该方案可以自动进行识别,而无需进行人工标注,因此,也可以大大提高处理效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的网络数据的过滤方法的流程图;
图2是本发明实施例提供的网络数据的过滤方法的另一流程图;
图3是本发明实施例提供的网络数据的过滤装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种网络数据的过滤方法、装置和***。以下分别进行详细说明。
实施例一、
本实施例将从网络数据的过滤装置的角度进行描述,该网络数据的过滤装置具体可以集成在服务器等网络设备中。
一种网络数据的过滤方法,包括:获取目标信息类型的种子库,以及用户行为数据,根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集,基于该候选集构造转移矩阵,并初始化用户打分向量和页面打分向量,根据该转移矩阵、用户打分向量和页面打分向量对该候选集中的信息进行过滤,得到目标信息;将目标信息加入所述种子库。
如图1所示,该网络数据的过滤方法的具体流程可以如下:
101、获取目标信息类型的种子库,以及用户行为数据。
其中,目标信息类型可以根据实际应用的需求进行设置,比如,如果需要对色情图文进行识别,则可以将该目标信息类型设置为色情图文,而如果需要对一些政治敏感图文进行识别,则可以将该目标信息类型设置为政治敏感图文,等等。
初始时,该种子库可以由人工预先进行构造,例如,以目标信息类型为色情图文为例,则可以预先收集一些色情消息、网址、以及人工标注一些***,然后添加到种子库中,等等。
102、根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集。
其中,过滤规则可以根据实际应用的需求进行设置。例如,步骤“根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集”(即步骤102)具体可以如下:
(1)根据该用户行为数据,拉取对该种子库中的图文消息有用户行为的用户,得到第一用户集合。
例如,以该种子库为色情图文消息集合为例,如果用户对该色情图文消息集合中的色情图文消息有兴趣,则表明该用户有可能是色情用户,因此,将其添加至第一用户集合。
(2)确定该第一用户集合中各个用户对该种子库的关注度。
其中,关注度可以通过多种方式来衡量,比如,可以通过用户对该种子库中图文消息的浏览时间长度、和/或浏览的图文消息的数量等来进行统计,浏览时间越长、和/或数量越多则表明关注度越高,否则,则关注度越低。
例如,以该目标信息类型为色情图文为例,若一个用户浏览了很多色情图文消息,或者浏览的色情图文消息的时间很长,则表明该用户对色情图文消息的关注度较高,等等。
(3)将关注度大于预置第一阈值的用户添加至第二用户集合中。
例如,以色情图文为例,若一个用户对色情图文消息的关注度很高(即超过第一阈值),则表明该用户为色情用户,因此,将该用户添加至第二用户集合,比如潜在色情用户集合中。
其中,该第一阈值可以根据实际应用的需求进行设置。
(4)查询该第二用户集合中用户的行为数据,以拉取用户有行为的图文消息,得到第一图文消息集合。
例如,还是以该目标信息类型为色情图文为例,若一个图文消息被很多色情用户所关注,那么,该图文消息就可能是色情图文消息,因此,可以通过查询该第二用户集合,比如潜在色情用户集合中用户的行为数据,以拉取用户有行为的图文消息,作为潜在的色情图文消息集合。
(5)确定该第一图文消息集合中各图文消息的覆盖度。
其中,该覆盖度指示图文消息被该第二用户集合中用户所关注的程度。具体可以通过浏览次数等来衡量,被越多的第二用户集合中用户所浏览,则覆盖度越高,否则,则覆盖度越低。
(6)将覆盖度大于第二阈值的图文消息添加至第二图文消息集合;
例如,还是以该目标信息类型为色情图文为例,若一个图文消息被很多色情用户浏览,即覆盖度很高(超过第二阈值),则表明该图文消息是潜在色情图文消息。
其中,第二阈值可以根据实际应用的需求进行设置。
(7)将该第二用户集合和第二图文消息集合作为候选集。
例如,以该目标信息类型为色情图文为例,则具体可以将得到的潜在色情用户集合(即第二用户集合)和潜在色情图文消息集合(即第二图文消息集合)作为候选集,以供后续使用。
103、基于该候选集构造转移矩阵,并初始化用户打分向量(UserRank)和页面打分向量(PageRank)。
其中,基于该候选集构造转移矩阵的方式可以由多种,例如,具体可以如下:
(1)基于该候选集中用户对图文消息的预设行为特征分别计算每个用户对每条图文消息的行为的权重。
其中,该预设行为特征可以根据实际应用的需求进行设置,比如,该行为特征可以包括转发、收藏、点赞和阅读等特征。
例如,以该行为特征可以包括转发、收藏、点赞和阅读为例,可以基于这些行为特征,设置相应的变量,如转发变量、收藏变量、点赞变量和阅读变量,则,该权重的计算方式可以如下:
a、在该候选集中确定当前用户和当前图文消息;
b、确定当前用户是否转发了该当前图文消息,若转发了,则将转发变量设置为1,否则将转发变量设置为0;
c、确定当前用户是否收藏了该当前图文消息,若收藏了,则将收藏变量设置为1,否则将收藏变量设置为0;
d、确定当前用户是否点赞了该当前图文消息,若点赞了,则将点赞变量设置为1,否则将点赞变量设置为0;
e、确定当前用户是否阅读了该当前图文消息,若阅读了,则将阅读变量设置为1,否则将阅读变量设置为0;
f、根据该转发变量、收藏变量、点赞变量和阅读变量计算该当前用户对当前图文消息的行为的权重。例如,具体可以如下:
分别获取所述转发变量、收藏变量、点赞变量和阅读变量对应的特征权重和时间衰减系数;将该转发变量、收藏变量、点赞变量和阅读变量分别乘以各自对应的特征权重和时间衰减系数后进行相加,得到该当前用户对当前图文消息的行为的权重。
g、确定该候选集中还存在尚未计算的用户和图文消息时,返回执行在该候选集中确定当前用户和当前图文消息的步骤,直至遍历该候选集中的每一个用户和每一条图文消息。
可选的,在计算该权重时,还可以将该图文消息“是否曾经因符合所述目标信息类型而被标注”也作为考量因素之一,即在步骤“根据所述转发变量、收藏变量、点赞变量和阅读变量计算所述当前用户对当前图文消息的行为的权重”之前,该方法还可以包括:
确定该当前图文消息是否曾经因符合所述目标信息类型而被标注,若是,则将标注变量设置为1,否则,将标注变量设置为0;
则此时,步骤“根据所述转发变量、收藏变量、点赞变量和阅读变量计算所述当前用户对当前图文消息的行为的权重”具体可以为:根据该转发变量、收藏变量、点赞变量、阅读变量和标注变量计算所述当前用户对当前图文消息的行为的权重。
例如,可以分别获取该转发变量、收藏变量、点赞变量、阅读变量和标注变量对应的特征权重和时间衰减系数,然后将该转发变量、收藏变量、点赞变量、阅读变量和标注变量分别乘以各自对应的特征权重和时间衰减系数后进行相加,得到所述当前用户对当前图文消息的行为的权重。
(2)根据该行为的权重构造转移矩阵。
例如,如果该候选集中有M个用户,N条图文消息,则可以构造一个M*N的矩阵,作为转移矩阵A,其中,Aij代表用户i对图文消息j的行为的权重。用公式表示可以如下:
Aij=W1×repostij×time_decay1+W2×collectij×time_decay2+W3×upij×time_decay3+W4×readij×time_decay4+W5×bizaccount_punish_historyj×time_decay5
其中,各个参数的说明如下:
repostij:转发变量,指示用户i是否转发了图文消息j,若已转发,则取值为1,若未转发,则取值为0;
collectij:收藏变量,指示用户i是否收藏了图文消息j,若已收藏,则取值为1,若未收藏,则取值为0;
upij:点赞变量,指示用户i是否点赞了图文消息j,若已点赞,则取值为1,若未点赞,则取值为0;
readij:阅读变量,指示用户i是否阅读了图文消息j,若已阅读,则取值为1,若未阅读,则取值为0;
bizaccount_punish_historyj:标注变量,指示图文消息j对应的公众号是否曾经因符合该目标信息类型而被标注,比如是否曾经因符合色情内容而被警告,等等,若被标注,则取值为1,若未被标注,则取值为0;
W1~W5:分别是各维特征的权重,可以根据实际应用的需求进行设置;
time_decay1~time_decay5:取值为(0,1],转发、收藏、点赞、阅读行为和图文消息对应公众号是否曾经因符合该目标信息类型而被标注等多个特征的时间衰减系数;其中,该时间衰减系数time_decay的计算方式可以如下:
其中Tu是行为发生时间,T0是图文消息的曝光时间;d是时间衰减因子,可以根据实际应用的需求进行设置。
此外,需说明的是,用户打分向量和页面打分向量可以分别记为u和v,用户打分向量u是一个M维向量,其中ui代表用户i的用户打分向量值;页面打分向量v是一个N维向量,其中vj代表图文消息j的页面打分向量值。对于种子库中的有标注图文消息(即因符合所述目标信息类型而被标注的图文消息,比如,色情图文消息),初始化其页面打分向量值为vj=1;对于其他未标注的图文消息,初始化其页面打分向量值vj=0;用户打分向量的初始值根据v0计算得到。
104、根据该转移矩阵、用户打分向量和页面打分向量对所述候选集中的信息进行过滤,得到目标信息。例如,具体可以如下:
(1)根据该转移矩阵,对该用户打分向量和页面打分向量进行迭代运算,得到迭代后用户打分向量和迭代后页面打分向量,具体可以如下:
Input:matrix A and vector v0andα //输入矩阵A和向量v0和α
Output:v* //输出v*
repeat //重复
ut+1=Avt
vt+1=αATut+(1-α)v0
until vt converges to v*。 //直至vt收敛于v*,其中,v*为收敛后的页面打分向量,即迭代后页面打分向量;
即反复迭代“ut+1=Avt”以及“vt+1=αATut+(1-α)v0”操作,向量vt+1和ut+1最后分别收敛于对应的页面打分向量和用户打分向量,便可得到迭代后页面打分向量和迭代用户打分向量。
(2)根据该迭代后用户打分向量和迭代后页面打分向量对所述候选集中的信息进行过滤,得到目标信息,其中,该目标信息可以包括目标用户和目标图文消息等。例如,具体可以如下:
根据该迭代后用户打分向量的大小进行降序排序,并确定排序在前的N个迭代后用户打分向量在所述候选集中所对应的用户,得到目标用户;
根据该迭代后页面打分向量的大小进行降序排序,并确定排序在前的M个迭代后页面打分向量在所述候选集中所对应的图文消息,得到目标图文消息。
其中,N和M为正整数,具体取值可以根据实际应用的需求进行设置,在此不再赘述。
105、将目标信息加入该种子库,从而使得该种子库可以得到不断的更新。
需说明的是,将目标信息加入种子库时,可以保留原种子库中相应的信息,当然,为了节省存储空间,也可对原种子库中相应的信息进行覆盖,即只保存更新后的信息。
由上可知,本实施例采用获取目标信息类型的种子库,以及用户行为数据,根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集,然后基于该候选集构造转移矩阵,并初始化用户打分向量和页面打分向量,并根据转移矩阵、用户打分向量和页面打分向量对该候选集中的信息进行过滤,得到目标信息,将目标信息加入该种子库,从而实现在识别出目标信息的同时,对该种子库自行进行学习和实时更新的目的;相对于现有技术中单纯依靠文本挖掘分析的方案而言,该方案可以避免由于敏感词汇变种所导致的识别不出的情况的发生,大大提高了识别的准确率和过滤效果;而且,由于该方案可以自动进行识别,而无需进行人工标注,因此,也可以大大提高处理效率。
实施例二、
根据实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该网络数据的过滤装置具体集成在服务器中,且该目标信息类型具体为色情图文为例进行说明。
如图2所示,一种网络数据的过滤方法,具体流程可以如下:
201、服务器获取色情图文的种子库,以及获取用户行为数据。
其中,该种子库可以由人工预先进行构造,比如可以预先收集一些色情消息、网址、以及人工标注一些***,然后添加到种子库中,等等。该种子库可以存储在该服务器中,也可以存储在其他的网络设备中。
202、服务器根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集;例如,具体可以如下:
(1)根据该用户行为数据,拉取对该种子库中的图文消息有用户行为的用户,得到第一用户集合。
(2)确定该第一用户集合中各个用户对该种子库的关注度。
其中,关注度可以通过多种方式来衡量,比如,可以通过用户对该种子库中图文消息的浏览时间长度、和/或浏览的图文消息的数量等来进行统计,浏览时间越长、和/或数量越多则表明关注度越高,否则,则关注度越低。
(3)将关注度大于预置第一阈值的用户添加至第二用户集合,即潜在色情用户集合中。
其中,该第一阈值可以根据实际应用的需求进行设置。
(4)查询该第二用户集合(即潜在色情用户集合)中用户的行为数据,以拉取用户有行为的图文消息,得到第一图文消息集合。
(5)确定该第一图文消息集合中各图文消息的覆盖度。
其中,该覆盖度指示图文消息被该第二用户集合中用户所关注的程度。具体可以通过浏览次数等来衡量,被越多的第二用户集合中用户所浏览,则覆盖度越高,否则,则覆盖度越低。
(6)将覆盖度大于第二阈值的图文消息添加至第二图文消息集合,即潜在色情图文消息集合中;
其中,第二阈值可以根据实际应用的需求进行设置。
(7)将该第二用户集合(潜在色情用户集合)和第二图文消息集合(即潜在色情图文消息集合)作为候选集。
203、服务器基于该候选集中用户对图文消息的预设行为特征分别计算每个用户对每条图文消息的行为的权重,并根据该行为的权重构造转移矩阵。
其中,该预设行为特征可以根据实际应用的需求进行设置,比如,该行为特征可以包括转发、收藏、点赞和阅读等特征。
例如,以该行为特征可以包括转发、收藏、点赞和阅读,且该候选集中有M个用户,N条图文消息为例,则该转移矩阵可以是一个M*N的矩阵A,具体可以如下:
Aij=W1×repostij×time_decay1+W2×collectij×time_decay2+W3×upij×time_decay3+W4×readij×time_decay4+W5×bizaccount_punish_historyj×time_decay5
其中,各个参数的说明如下:
Aij代表用户i对图文消息j的行为的权重;
repostij:转发变量,指示用户i是否转发了图文消息j,若已转发,则取值为1,若未转发,则取值为0;
collectij:收藏变量,指示用户i是否收藏了图文消息j,若已收藏,则取值为1,若未收藏,则取值为0;
upij:点赞变量,指示用户i是否点赞了图文消息j,若已点赞,则取值为1,若未点赞,则取值为0;
readij:阅读变量,指示用户i是否阅读了图文消息j,若已阅读,则取值为1,若未阅读,则取值为0;
bizaccount_punish_historyj:标注变量,指示图文消息j对应的公众号是否曾经因符合色情内容而被警告,若是,则取值为1,若否,则取值为0;
W1~W5:分别是各维特征的权重,可以根据实际应用的需求进行设置;
time_decay1~time_decay5:取值为(0,1],转发、收藏、点赞、阅读行为和图文消息对应公众号是否曾经因符合色情内容而被警告等多个特征的时间衰减系数;其中,该时间衰减系数time_decay的计算方式可以如下:
其中Tu是行为发生时间,T0是图文消息的曝光时间;d是时间衰减因子,可以根据实际应用的需求进行设置。
204、服务器始化用户打分向量(UserRank)和页面打分向量(PageRank)。
用户打分向量和页面打分向量可以分别记为u和v,用户打分向量u是一个M维向量,其中ui代表用户i的用户打分向量值;页面打分向量v是一个N维向量,其中vj代表图文消息j的页面打分向量值。对于种子库中的色情图文消息(即曾经因符合色情内容而被警告的图文消息),初始化其页面打分向量值为vj=1;对于其他未被警告过的图文消息,初始化其页面打分向量值vj=0;用户打分向量的初始值根据v0计算得到。
205、服务器根据该转移矩阵A,对该用户打分向量和页面打分向量进行迭代运算,得到迭代后用户打分向量和迭代后页面打分向量,具体可以如下:
Input:matrix A and vector v0andα //输入矩阵A和向量v0和α
Output:v* //输出v*
repeat //重复
ut+1=Avt
vt+1=αATut+(1-α)v0
until vt converges to v*。 //直至vt收敛于v*
即反复迭代“ut+1=Avt”以及“vt+1=αATut+(1-α)v0”操作,向量vt+1和ut+1最后分别收敛于对应的页面打分向量和用户打分向量,便可得到迭代后页面打分向量和迭代用户打分向量。
206、服务器根据该迭代后用户打分向量和迭代后页面打分向量对候选集中的信息进行过滤,得到目标信息,其中,该目标信息可以包括目标用户和目标图文消息,即包括色情用户和色情图文消息。例如,具体可以如下:
根据该迭代后用户打分向量的大小进行降序排序,并确定排序在前的N个迭代后用户打分向量在所述候选集中所对应的用户,得到目标用户,即色情用户;
根据该迭代后页面打分向量的大小进行降序排序,并确定排序在前的M个迭代后页面打分向量在所述候选集中所对应的图文消息,得到目标图文消息,即色情图文消息。
其中,N和M为正整数,具体取值可以根据实际应用的需求进行设置,在此不再赘述。
207、服务器将目标信息,即色情用户和色情图文消息加入该种子库,从而实现对该种子库的实时更新。
需说明的是,在本实施例中,仅仅以色情图文为例进行说明,应当理解的是,该方法同样适用于其他信息类似的数据的过滤,比如,可以用于政治敏感图文、诱导分享、养生、假货/仿货等内容的识别和发现,在此不再赘述。
由上可知,本实施例采用获取色情图文的种子库,以及用户行为数据,根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集,然后基于该候选集构造转移矩阵,并初始化用户打分向量和页面打分向量,并根据转移矩阵、用户打分向量和页面打分向量对该候选集中的信息进行过滤,得到色情用户和色情图文消息,并加入该种子库,从而实现在识别出色情图文消息的同时,对该种子库自行进行学习和实时更新的目的;相对于现有技术中单纯依靠文本挖掘分析的方案而言,该方案可以避免由于敏感词汇变种所导致的识别不出的情况的发生,大大提高了识别的准确率和过滤效果;而且,由于该方案可以自动进行识别,而无需进行人工标注,因此,也可以大大提高处理效率。
实施例三、
为了更好地实施以上方法,本发明实施例还提供一种网络数据的过滤装置,如图3所示,该网络数据的过滤装置可以包括获取单元301、第一过滤单元302、构造单元303、第二过滤单元304和添加单元305,如下:
获取单元301,用于获取目标信息类型的种子库,以及用户行为数据。
其中,目标信息类型可以根据实际应用的需求进行设置,比如,如果需要对色情图文进行识别,则可以将该目标信息类型设置为色情图文,而如果需要对一些政治敏感图文进行识别,则可以将该目标信息类型设置为政治敏感图文,等等。
初始时,该种子库可以由人工预先进行构造,例如,以目标信息类型为色情图文为例,则可以预先收集一些色情消息、网址、以及人工标注一些***,然后添加到种子库中,等等。
第一过滤单元302,用于根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集。
构造单元303,用于基于该候选集构造转移矩阵,并初始化用户打分向量和页面打分向量。
第二过滤单元304,用于根据该转移矩阵、用户打分向量和页面打分向量对所述候选集中的信息进行过滤,得到目标信息。
添加单元305,用于将目标信息加入所述种子库。
其中,对种子库进行初步过滤的方式可以有多种,例如,可以采用下述方式:
第一过滤单元302,具体可以用于根据该用户行为数据,拉取对该种子库中的图文消息有用户行为的用户,得到第一用户集合;确定该第一用户集合中各个用户对该种子库的关注度;将关注度大于预置第一阈值的用户添加至第二用户集合中;查询该第二用户集合中用户的行为数据,以拉取用户有行为的图文消息,得到第一图文消息集合;确定该第一图文消息集合中各图文消息的覆盖度,该覆盖度指示图文消息被该第二用户集合中用户所关注的程度;将覆盖度大于第二阈值的图文消息添加至第二图文消息集合;将该第二用户集合和第二图文消息集合作为候选集。
而第二过滤单元304的过滤方式也可以有多种,例如,第二过滤单元304可以包括迭代子单元和过滤子单元,如下:
迭代子单元,用于根据该转移矩阵,对该用户打分向量和页面打分向量进行迭代运算,得到迭代后用户打分向量和迭代后页面打分向量,具体的迭代运算方法可参见前面的方法实施例,在此不再赘述。
过滤子单元,用于根据该迭代后用户打分向量和迭代后页面打分向量对该候选集中的信息进行过滤,得到目标信息。
其中,该目标信息可以包括目标用户和目标图文消息等。例如具体可以如下:
过滤子单元,具体可以用于根据该迭代后用户打分向量的大小进行降序排序,并确定排序在前的N个迭代后用户打分向量在该候选集中所对应的用户,得到目标用户;该迭代后页面打分向量的大小进行降序排序,并确定排序在前的M个迭代后页面打分向量在该候选集中所对应的图文消息,得到目标图文消息。
其中,N和M为正整数,具体取值可以根据实际应用的需求进行设置,在此不再赘述。
可选的,构造单元303可以包括计算子单元、构造子单元和初始化子单元,如下:
(1)计算子单元;
计算子单元,用于基于所述候选集中用户对图文消息的预设行为特征分别计算每个用户对每条图文消息的行为的权重。
其中,该预设行为特征可以根据实际应用的需求进行设置,比如,该行为特征可以包括转发、收藏、点赞和阅读等特征。
例如,以该行为特征可以包括转发、收藏、点赞和阅读为例,可以基于这些行为特征,设置相应的变量,如转发变量、收藏变量、点赞变量和阅读变量,则该计算子单元可以包括确定子级单元和运算子级单元,如下:
确定子级单元,用于在该候选集中确定当前用户和当前图文消息;确定当前用户是否转发了所述当前图文消息,若转发了,则将转发变量设置为1,否未转发,则将转发变量设置为0;确定当前用户是否收藏了所述当前图文消息,若收藏了,则将收藏变量设置为1,否未收藏,则将收藏变量设置为0;确定当前用户是否点赞了所述当前图文消息,若点赞了,则将点赞变量设置为1,若未点赞,则将点赞变量设置为0;确定当前用户是否阅读了所述当前图文消息,若阅读了,则将阅读变量设置为1,若未阅读,则将阅读变量设置为0;
运算子级单元,可以用于根据该转发变量、收藏变量、点赞变量和阅读变量计算该当前用户对当前图文消息的行为的权重,并在确定该候选集中还存在尚未计算的用户和图文消息时,触发确定子级单元执行在该候选集中确定当前用户和当前图文消息的操作。
例如,“根据该转发变量、收藏变量、点赞变量和阅读变量计算该当前用户对当前图文消息的行为的权重”具体可以如下:
分别获取所述转发变量、收藏变量、点赞变量和阅读变量对应的特征权重和时间衰减系数;将该转发变量、收藏变量、点赞变量和阅读变量分别乘以各自对应的特征权重和时间衰减系数后进行相加,得到该当前用户对当前图文消息的行为的权重。
可选的,在计算该权重时,还可以将该图文消息“是否曾经因符合所述目标信息类型而被标注”也作为考量因素之一,即:
确定子级单元,还可以用于确定该当前图文消息是否曾经因符合所述目标信息类型而被标注,若是,则将标注变量设置为1,否则,将标注变量设置为0;
则此时,运算子级单元,具体可以用于根据该转发变量、收藏变量、点赞变量、阅读变量和标注变量计算所述当前用户对当前图文消息的行为的权重。例如,具体可以如下:
分别获取所述转发变量、收藏变量、点赞变量、阅读变量和标注变量对应的特征权重和时间衰减系数;将该转发变量、收藏变量、点赞变量、阅读变量和标注变量分别乘以各自对应的特征权重和时间衰减系数后进行相加,得到该当前用户对当前图文消息的行为的权重。
(2)构造子单元;
构造子单元,用于根据所述行为的权重构造转移矩阵。
例如,如果该候选集中有M个用户,N条图文消息,则可以构造一个M*N的矩阵,作为转移矩阵A,其中,Aij代表用户i对图文消息j的行为的权重。用公式表示可以如下:
Aij=W1×repostij×time_decay1+W2×collectij×time_decay2+W3×upij×time_decay3+W4×readij×time_decay4+W5×bizaccount_punish_historyj×time_decay5
其中,各个参数的说明具体可参见实施例一,在此不再赘述。
(3)初始化子单元;
初始化子单元,用于初始化用户打分向量和页面打分向量。
其中,用户打分向量和页面打分向量可以分别记为u和v,用户打分向量u是一个M维向量,其中ui代表用户i的用户打分向量值;页面打分向量v是一个N维向量,其中vj代表图文消息j的页面打分向量值。对于种子库中的有标注图文消息(即因符合所述目标信息类型而被标注的图文消息,比如,色情图文消息),初始化其页面打分向量值为vj=1;对于其他未标注的图文消息,初始化其页面打分向量值vj=0;用户打分向量的初始值根据v0计算得到。
该网络数据的过滤装置具体可以集成在服务器等网络设备中。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的网络数据的过滤装置的获取单元301可以获取目标信息类型的种子库,以及用户行为数据,由第一过滤单元302根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集,然后由构造单元303基于该候选集构造转移矩阵,并初始化用户打分向量和页面打分向量,并由第二过滤单元304根据转移矩阵、用户打分向量和页面打分向量对该候选集中的信息进行过滤,得到目标信息,再由添加单元305将目标信息加入该种子库,从而实现在识别出目标信息的同时,对该种子库自行进行学习和实时更新的目的;相对于现有技术中单纯依靠文本挖掘分析的方案而言,该方案可以避免由于敏感词汇变种所导致的识别不出的情况的发生,大大提高了识别的准确率和过滤效果;而且,由于该方案可以自动进行识别,而无需进行人工标注,因此,也可以大大提高处理效率。
实施例四、
相应的,本发明实施例还提供一种通信***,包括本发明实施例提供的任一种网络数据的过滤装置,具体可参见实施例三;其中,该网络数据的过滤装置具体可以集成在服务器等网络设备中,例如,以集成在服务器为例,则具体可以如下:
服务器,用于获取目标信息类型的种子库,以及用户行为数据,根据该用户行为数据和预置过滤规则对该种子库进行初步过滤,得到候选集,基于该候选集构造转移矩阵,并初始化用户打分向量和页面打分向量,根据该转移矩阵、用户打分向量和页面打分向量对该候选集中的信息进行过滤,得到目标信息;将目标信息加入所述种子库。
其中,其中,目标信息类型可以根据实际应用的需求进行设置,比如,如果需要对色情图文进行识别,则可以将该目标信息类型设置为色情图文,而如果需要对一些政治敏感图文进行识别,则可以将该目标信息类型设置为政治敏感图文,等等。
初始时,该种子库可以由人工预先进行构造,例如,以目标信息类型为色情图文为例,则可以预先收集一些色情消息、网址、以及人工标注一些***,然后添加到种子库中,等等。
其中,候选集的获取方式,以及迭代运算的具体操作可参见前面的实施例,在此不再赘述。
此外,可选的,该通信***还可以包括其他的设备,比如,还可以包括多个用户终端,如下:
用户终端,用于生成用户行为数据,比如对图文消息进行发送、接收、点赞、阅读、转发或收藏等。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由于该通信***可以包括本发明实施例提供的任一种网络数据的过滤装置,因此,可以实现本发明实施例所提供的任一种网络数据的过滤装置所能实现的有益效果,具体可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种网络数据的过滤方法、装置和***进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (17)
1.一种网络数据的过滤方法,其特征在于,包括:
获取目标信息类型的种子库,以及用户行为数据;
根据所述用户行为数据和预置过滤规则对所述种子库进行初步过滤,得到候选集;
基于所述候选集中用户对图文消息的预设行为特征分别计算每个用户对每条图文消息的行为的权重,根据所述行为的权重构造转移矩阵,并初始化用户打分向量和页面打分向量;
根据所述转移矩阵、用户打分向量和页面打分向量对所述候选集中的信息进行过滤,得到目标信息;
将目标信息加入所述种子库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述转移矩阵、用户打分向量和页面打分向量对所述候选集中的信息进行过滤,得到目标信息,包括:
根据所述转移矩阵,对所述用户打分向量和页面打分向量进行迭代运算,得到迭代后用户打分向量和迭代后页面打分向量;
根据所述迭代后用户打分向量和迭代后页面打分向量对所述候选集中的信息进行过滤,得到目标信息。
3.根据权利要求1所述的方法,其特征在于,所述预设行为特征包括转发、收藏、点赞和阅读,则所述基于所述候选集中用户对图文消息的预设行为特征分别计算每个用户对每条图文消息的行为的权重,包括:
在所述候选集中确定当前用户和当前图文消息;
确定当前用户是否转发了所述当前图文消息,若转发了,则将转发变量设置为1,否则将转发变量设置为0;
确定当前用户是否收藏了所述当前图文消息,若收藏了,则将收藏变量设置为1,否则将收藏变量设置为0;
确定当前用户是否点赞了所述当前图文消息,若点赞了,则将点赞变量设置为1,否则将点赞变量设置为0;
确定当前用户是否阅读了所述当前图文消息,若阅读了,则将阅读变量设置为1,否则将阅读变量设置为0;
根据所述转发变量、收藏变量、点赞变量和阅读变量计算所述当前用户对当前图文消息的行为的权重;
确定所述候选集中还存在尚未计算的用户和图文消息时,返回执行在所述候选集中确定当前用户和当前图文消息的步骤。
4.根据权利要求3所述的方法,其特征在于,所述根据所述转发变量、收藏变量、点赞变量和阅读变量计算所述当前用户对当前图文消息的行为的权重,包括:
分别获取所述转发变量、收藏变量、点赞变量和阅读变量对应的特征权重和时间衰减系数;
将所述转发变量、收藏变量、点赞变量和阅读变量分别乘以各自对应的特征权重和时间衰减系数后进行相加,得到所述当前用户对当前图文消息的行为的权重。
5.根据权利要求3所述的方法,其特征在于,所述根据所述转发变量、收藏变量、点赞变量和阅读变量计算所述当前用户对当前图文消息的行为的权重之前,还包括:
确定所述当前图文消息是否曾经因符合所述目标信息类型而被标注,若是,则将标注变量设置为1,否则,将标注变量设置为0;
所述根据所述转发变量、收藏变量、点赞变量和阅读变量计算所述当前用户对当前图文消息的行为的权重,具体为:根据所述转发变量、收藏变量、点赞变量、阅读变量和标注变量计算所述当前用户对当前图文消息的行为的权重。
6.根据权利要求5所述的方法,其特征在于,所述根据所述转发变量、收藏变量、点赞变量、阅读变量和标注变量计算所述当前用户对当前图文消息的行为的权重,包括:
分别获取所述转发变量、收藏变量、点赞变量、阅读变量和标注变量对应的特征权重和时间衰减系数;
将所述转发变量、收藏变量、点赞变量、阅读变量和标注变量分别乘以各自对应的特征权重和时间衰减系数后进行相加,得到所述当前用户对当前图文消息的行为的权重。
7.根据权利要求2所述的方法,其特征在于,所述目标信息包括目标用户和目标图文消息,则所述根据所述迭代后用户打分向量和迭代后页面打分向量对所述候选集中的信息进行过滤,得到目标信息,包括:
根据所述迭代后用户打分向量的大小进行降序排序,并确定排序在前的N个迭代后用户打分向量在所述候选集中所对应的用户,得到目标用户;
根据所述迭代后页面打分向量的大小进行降序排序,并确定排序在前的M个迭代后页面打分向量在所述候选集中所对应的图文消息,得到目标图文消息。
8.根据权利1至6任一项所述的方法,其特征在于,所述根据所述用户行为数据和预置过滤规则对所述种子库进行初步过滤,得到候选集,包括:
根据所述用户行为数据,拉取对所述种子库中的图文消息有用户行为的用户,得到第一用户集合;
确定所述第一用户集合中各个用户对所述种子库的关注度;
将关注度大于预置第一阈值的用户添加至第二用户集合中;
查询所述第二用户集合中用户的行为数据,以拉取用户有行为的图文消息,得到第一图文消息集合;
确定所述第一图文消息集合中各图文消息的覆盖度,所述覆盖度指示图文消息被所述第二用户集合中用户所关注的程度;
将覆盖度大于第二阈值的图文消息添加至第二图文消息集合;
将所述第二用户集合和第二图文消息集合作为候选集。
9.一种网络数据的过滤装置,其特征在于,包括获取单元、第一过滤单元、构造单元、第二过滤单元和添加单元,所述构造单元包括计算子单元、构造子单元和初始化子单元;
获取单元,用于获取目标信息类型的种子库,以及用户行为数据;
第一过滤单元,用于根据所述用户行为数据和预置过滤规则对所述种子库进行初步过滤,得到候选集;
计算子单元,用于基于所述候选集中用户对图文消息的预设行为特征分别计算每个用户对每条图文消息的行为的权重;
构造子单元,用于根据所述行为的权重构造转移矩阵;
初始化子单元,用于初始化用户打分向量和页面打分向量;
第二过滤单元,用于根据所述转移矩阵、用户打分向量和页面打分向量对所述候选集中的信息进行过滤,得到目标信息;
添加单元,用于将目标信息加入所述种子库。
10.根据权利要求9所述的装置,其特征在于,所述第二过滤单元包括迭代子单元和过滤子单元;
所述迭代子单元,用于根据所述转移矩阵,对所述用户打分向量和页面打分向量进行迭代运算,得到迭代后用户打分向量和迭代后页面打分向量;
所述过滤子单元,用于根据所述迭代后用户打分向量和迭代后页面打分向量对所述候选集中的信息进行过滤,得到目标信息。
11.根据权利要求9所述的装置,其特征在于,所述预设行为特征包括转发、收藏、点赞和阅读,则计算子单元包括确定子级单元和运算子级单元;
所述确定子级单元,用于在所述候选集中确定当前用户和当前图文消息;确定当前用户是否转发了所述当前图文消息,若转发了,则将转发变量设置为1,否未转发,则将转发变量设置为0;确定当前用户是否收藏了所述当前图文消息,若收藏了,则将收藏变量设置为1,否未收藏,则将收藏变量设置为0;确定当前用户是否点赞了所述当前图文消息,若点赞了,则将点赞变量设置为1,若未点赞,则将点赞变量设置为0;确定当前用户是否阅读了所述当前图文消息,若阅读了,则将阅读变量设置为1,若未阅读,则将阅读变量设置为0;
所述运算子级单元,用于根据所述转发变量、收藏变量、点赞变量和阅读变量计算所述当前用户对当前图文消息的行为的权重,并在确定所述候选集中还存在尚未计算的用户和图文消息时,触发确定子级单元执行在所述候选集中确定当前用户和当前图文消息的操作。
12.根据权利要求11所述的装置,其特征在于,所述运算子级单元,具体用于:
分别获取所述转发变量、收藏变量、点赞变量和阅读变量对应的特征权重和时间衰减系数;
将所述转发变量、收藏变量、点赞变量和阅读变量分别乘以各自对应的特征权重和时间衰减系数后进行相加,得到所述当前用户对当前图文消息的行为的权重。
13.根据权利要求11所述的装置,其特征在于,所述确定子级单元,还用于:
确定所述当前图文消息是否曾经因符合所述目标信息类型而被标注,若是,则将标注变量设置为1,否则,将标注变量设置为0;
所述运算子级单元,具体用于根据所述转发变量、收藏变量、点赞变量、阅读变量和标注变量计算所述当前用户对当前图文消息的行为的权重。
14.根据权利要求13所述的装置,其特征在于,所述运算子级单元具体用于:
分别获取所述转发变量、收藏变量、点赞变量、阅读变量和标注变量对应的特征权重和时间衰减系数;
将所述转发变量、收藏变量、点赞变量、阅读变量和标注变量分别乘以各自对应的特征权重和时间衰减系数后进行相加,得到所述当前用户对当前图文消息的行为的权重。
15.根据权利要求10所述的装置,其特征在于,所述目标信息包括目标用户和目标图文消息,则过滤子单元,具体用于:
根据所述迭代后用户打分向量的大小进行降序排序,并确定排序在前的N个迭代后用户打分向量在所述候选集中所对应的用户,得到目标用户;
根据所述迭代后页面打分向量的大小进行降序排序,并确定排序在前的M个迭代后页面打分向量在所述候选集中所对应的图文消息,得到目标图文消息。
16.根据权利要求9至14任一项所述的装置,其特征在于,第一过滤单元,具体用于:
根据所述用户行为数据,拉取对所述种子库中的图文消息有用户行为的用户,得到第一用户集合;
确定所述第一用户集合中各个用户对所述种子库的关注度;
将关注度大于预置第一阈值的用户添加至第二用户集合中;
查询所述第二用户集合中用户的行为数据,以拉取用户有行为的图文消息,得到第一图文消息集合;
确定所述第一图文消息集合中各图文消息的覆盖度,所述覆盖度指示图文消息被所述第二用户集合中用户所关注的程度;
将覆盖度大于第二阈值的图文消息添加至第二图文消息集合;
将所述第二用户集合和第二图文消息集合作为候选集。
17.一种通信***,其特征在于,包括权利要求9至16任一项所述的网络数据的过滤装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510122267.2A CN104715037B (zh) | 2015-03-19 | 2015-03-19 | 一种网络数据的过滤方法、装置和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510122267.2A CN104715037B (zh) | 2015-03-19 | 2015-03-19 | 一种网络数据的过滤方法、装置和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104715037A CN104715037A (zh) | 2015-06-17 |
CN104715037B true CN104715037B (zh) | 2017-06-16 |
Family
ID=53414364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510122267.2A Active CN104715037B (zh) | 2015-03-19 | 2015-03-19 | 一种网络数据的过滤方法、装置和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104715037B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468684B (zh) * | 2015-11-17 | 2019-06-11 | 贵阳朗玛信息技术股份有限公司 | 敏感词过滤***及其通信方法 |
CN113254503B (zh) * | 2021-06-08 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种内容挖掘方法、装置及相关产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100205191A1 (en) * | 2009-02-09 | 2010-08-12 | Yahoo! Inc. | User access time based content filtering |
EP2438539B1 (en) * | 2009-06-03 | 2018-08-08 | Google LLC | Co-selected image classification |
CN102236652B (zh) * | 2010-04-27 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 一种信息的分类方法和装置 |
-
2015
- 2015-03-19 CN CN201510122267.2A patent/CN104715037B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN104715037A (zh) | 2015-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10049132B2 (en) | Personalizing query rewrites for ad matching | |
Thompson et al. | Detection, forecasting and control of infectious disease epidemics: modelling outbreaks in humans, animals and plants | |
JP3648051B2 (ja) | 関連情報検索装置及びプログラム記録媒体 | |
Egele et al. | Removing web spam links from search engine results | |
CN107105031A (zh) | 信息推送方法和装置 | |
CN109189934A (zh) | 舆情推荐方法、装置、计算机设备及存储介质 | |
CN102142033B (zh) | 一种在搜索结果中提供相关子链接信息的方法和设备 | |
CN105430100A (zh) | 一种用户价值的评估方法、装置及其应用方法和*** | |
CN107516235A (zh) | 商品偏好预估方法和装置 | |
CN103150663A (zh) | 一种网络投放数据投放的方法和装置 | |
US20240211496A1 (en) | Systems and Methods for Determining Entity Attribute Representations | |
CN107437026A (zh) | 一种基于广告网络拓扑的恶意网页广告检测方法 | |
CN106899549A (zh) | 一种网络安全检测方法及装置 | |
CN106960248A (zh) | 一种基于数据驱动预测用户问题的方法及装置 | |
CN102811207A (zh) | 网络信息推送方法及*** | |
CN101909018A (zh) | 根据用户浏览网页返回即时通信群组的方法与*** | |
CN102063454A (zh) | 一种搜索与应用相结合的方法和设备 | |
CN103248677A (zh) | 互联网行为分析***及其工作方法 | |
JP2011227721A (ja) | 関心抽出装置、関心抽出方法、及び関心抽出プログラム | |
CN112765482A (zh) | 产品投放方法、装置、设备及计算机可读介质 | |
CN104715037B (zh) | 一种网络数据的过滤方法、装置和*** | |
CN107480227A (zh) | 一种基于大数据的信息推送方法 | |
CN103262079B (zh) | 检索装置及检索方法 | |
KR101556743B1 (ko) | 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법 | |
WO2017086992A1 (en) | Malicious web content discovery through graphical model inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |