CN104580100A - 一种恶意消息的识别方法及装置、服务器 - Google Patents
一种恶意消息的识别方法及装置、服务器 Download PDFInfo
- Publication number
- CN104580100A CN104580100A CN201310501326.8A CN201310501326A CN104580100A CN 104580100 A CN104580100 A CN 104580100A CN 201310501326 A CN201310501326 A CN 201310501326A CN 104580100 A CN104580100 A CN 104580100A
- Authority
- CN
- China
- Prior art keywords
- malicious messages
- malicious
- dimension
- message
- information source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种恶意消息的识别方法及装置,该方法包括:识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;若每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合;当检测到用户输入的信息源时,若判断用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。能够提高恶意消息的识别率。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种恶意消息的识别方法及装置、服务器。
背景技术
众所周知,用户可以通过互联网工具(如论坛)来进行信息源发表(即发帖),而在实践中发现,用户通过互联网工具发表的信息源中可能会包括用户反复灌水的恶意消息。为了识别这些恶意消息,现有技术中通常会在固定的分析周期内切割信息源,以获得某一维度(如发帖的用户信息、用户IP等)的消息特征,进一步地可以分析这一维度的相同消息特征的聚集度,当聚集度大于等于预设聚集度时,可以识别出消息特征所属消息为恶意消息。然而,仅将某一维度的消息特征作为分析对象而忽略了其他维度的消息特征,会降低恶意消息的识别率。
发明内容
本发明实施例公开了一种恶意消息的识别方法及装置,能够提高恶意消息的识别率。
本发明实施例第一方面公开一种恶意消息的识别方法,包括:
识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
判断所述每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于所述维度对应的聚集阈值,若存在,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入所述恶意消息特征集合;
当检测到用户输入的信息源时,判断所述用户输入的信息源包括的消息特征是否属于所述恶意消息特征集合包括的恶意消息特征,若属于,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例第二方面公开一种恶意消息的识别装置,包括:
第一识别单元,用于识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
第一判断单元,用于判断所述每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于所述维度对应的聚集阈值;
第一提取单元,用于在所述第一判断单元的辨别结果为是时,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入所述恶意消息特征集合;
第二判断单元,用于当检测到用户输入的信息源时,判断所述用户输入的信息源包括的消息特征是否属于所述恶意消息特征集合包括的恶意消息特征,
第二识别单元,用于在所述第二判断单元的判断结果为是时,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例第三方面公开一种服务器,所述服务器包括本发明实施例第二方面公开的恶意消息的识别装置。
本发明实施例中,在识别出每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,若判断出每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,则提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合,以及从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合,从而可以提高对恶意消息特征的覆盖度,在此基础上,当判断出用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征时,即可识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,从而可以提高恶意消息的识别率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种恶意消息的识别方法的流程示意图;
图2是本发明实施例公开的一种不同分析周期下训练信息源的各个维度的消息特征的分布示意图;
图3是本发明实施例公开的另一种恶意消息的识别方法的流程示意图;
图4是本发明实施例公开的又一种恶意消息的识别方法的流程示意图;
图5是本发明实施例公开的一种恶意消息的识别装置的结构示意图;
图6是本发明实施例公开的另一种恶意消息的识别装置的结构示意图;
图7是本发明实施例公开的又一种恶意消息的识别装置的结构示意图;
图8是本发明实施例公开的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种恶意消息的识别方法及装置,可以提高对恶意消息特征的覆盖度,从而能够提高恶意消息的识别率。以下分别进行详细说明。
请参阅图1,图1是本发明实施例公开的一种恶意消息的识别方法的流程示意图。其中,图1所示的恶意消息的识别方法可以适用于论坛服务器、社交服务器以及其他具有信息发布功能的服务器、平台,本发明实施例不作限定。如图1所示,该恶意消息的识别方法可以包括以下步骤。
S101、识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度。
本发明实施例中,可以由论坛服务器、社交服务器等服务器来识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度。
本发明实施例中,每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度是指,每一分析周期内训练信息源的每一维度的各类相同消息特征的数目。如图2所示,假设在分析周期A、B、C内,训练信息源包括3个维度,分别是维度α、维度β以及维度σ,在每一维度中小方块均表示消息特征,而且相同颜色的小方块代表一类相同的消息特征,其中,不同维度在同一垂直线上的消息特征属于同一消息。如图2所示,在分析周期A内维度α的白色小方块表示的一类相同消息特征的聚集度为2,黑色小方块表示的另一类相同消息特征的聚集度为3。如图2所示,在分析周期A内维度β的灰色小方块表示的一类相同消息特征的聚集度为2。如图2所示,在分析周期A内维度σ的浅色小方块表示的一类相同消息特征的聚集度为5。
S102、判断每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于该维度对应的聚集阈值,若存在,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合。
本发明实施例中,服务器在识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,可以执行上述步骤S102。
举例来说,在图2中假设维度α对应的聚集阈值为3,那么服务器通过执行上述步骤S102,在分析周期A内可以判断出维度α中的黑色小方块表示的一类相同消息特征的聚集度(即3)大于等于维度α对应的聚集阈值3,因此,服务器可以提取维度α中的黑色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度α中的黑色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度β以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
举例来说,在图2中假设维度β对应的聚集阈值为2,那么服务器通过执行上述步骤S102,在分析周期A内可以判断出维度β中的灰色小方块表示的一类相同消息特征的聚集度(即2)大于等于维度β对应的聚集阈值2,因此,服务器可以提取维度β中的灰色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度β中的灰色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度α以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
举例来说,在图2中假设维度σ对应的聚集阈值为3,那么服务器通过执行上述步骤S102,在分析周期A内可以判断出维度σ中的浅色小方块表示的一类相同消息特征的聚集度(即5)大于等于维度σ对应的聚集阈值3,因此,服务器可以提取维度σ中的浅色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度σ中的浅色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度α以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
S103、当检测到用户输入的信息源时,判断用户输入的信息源包括的消息特征是否属于恶意消息特征集合包括的恶意消息特征,若属于,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例中,训练信息源的维度可以包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。举例来说,当训练信息源的维度为文本内容、图片或音视频时,消息特征可以是文本内容、图片或音视频的链接地址;当训练信息源的维度为发帖用户信息时,消息特征可以是发帖用户的账号信息;当训练信息源的维度为发帖用户IP时,消息特征可以是发帖用户IP。
在图1所描述的方法中,在识别出每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,若判断出每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,则提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合,以及从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合,从而可以提高对恶意消息特征的覆盖度,在此基础上,当判断出用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征时,即可识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,从而可以提高恶意消息的识别率。
请参阅图3,图3是本发明实施例公开的另一种恶意消息的识别方法的流程示意图。其中,图3所示的恶意消息的识别方法可以适用于论坛服务器、社交服务器以及其他具有信息发布功能的服务器、平台,本发明实施例不作限定。如图3所示,该恶意消息的识别方法可以包括以下步骤。
S301、服务器识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度。
本发明实施例中,每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度是指,每一分析周期内训练信息源的每一维度的各类相同消息特征的数目。如图2所示,假设在分析周期A、B、C内,训练信息源包括3个维度,分别是维度α、维度β以及维度σ,在每一维度中小方块均表示消息特征,而且相同颜色的小方块代表一类相同的消息特征,其中,不同维度在同一垂直线上的消息特征属于同一消息。如图2所示,在分析周期A内维度α的白色小方块表示的一类相同消息特征的聚集度为2,黑色小方块表示的另一类相同消息特征的聚集度为3。如图2所示,在分析周期A内维度β的灰色小方块表示的一类相同消息特征的聚集度为2。如图2所示,在分析周期A内维度σ的浅色小方块表示的一类相同消息特征的聚集度为5。
S302、服务器判断每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于该维度对应的聚集阈值,若存在,执行步骤S303;若不存在,结束本流程。
S303、服务器提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合。
举例来说,在图2中假设维度α对应的聚集阈值为3,那么服务器通过执行上述步骤S302,在分析周期A内可以判断出维度α中的黑色小方块表示的一类相同消息特征的聚集度(即3)大于等于维度α对应的聚集阈值3,因此,服务器可以提取维度α中的黑色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度α中的黑色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度β以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
S304、当检测到用户输入的信息源时,服务器判断用户输入的信息源包括的消息特征是否属于恶意消息特征集合包括的恶意消息特征,若属于,执行步骤S305;若不属于,结束本流程。
S305、服务器判断用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息的总数量的比值是否大于等于预设阈值,如果是,执行步骤S306;如果否,执行步骤S307。
S306、服务器识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,结束本流程。
S307、服务器识别出用户输入的信息源包括的恶意消息特征所属消息为非恶意消息,结束本流程。
本发明实施例中,训练信息源的维度可以包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。举例来说,当训练信息源的维度为文本内容、图片或音视频时,消息特征可以是文本内容、图片或音视频的链接地址;当训练信息源的维度为发帖用户信息时,消息特征可以是发帖用户的账号信息;当训练信息源的维度为发帖用户IP时,消息特征可以是发帖用户IP。
在图3所描述的方法中,在识别出每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,若判断出每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,则提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合,以及从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合,从而可以提高对恶意消息特征的覆盖度,在此基础上,当判断出用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征,且用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息的总数量的比值大于等于预设阈值时,即可识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,从而可以提高恶意消息的识别率。
请参阅图4,图4是本发明实施例公开的又一种恶意消息的识别方法的流程示意图。其中,图4所示的恶意消息的识别方法可以适用于论坛服务器、社交服务器以及其他具有信息发布功能的服务器、平台,本发明实施例不作限定。如图4所示,该恶意消息的识别方法可以包括以下步骤。
S401、服务器识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度。
本发明实施例中,每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度是指,每一分析周期内训练信息源的每一维度的各类相同消息特征的数目。如图2所示,假设在分析周期A、B、C内,训练信息源包括3个维度,分别是维度α、维度β以及维度σ,在每一维度中小方块均表示消息特征,而且相同颜色的小方块代表一类相同的消息特征,其中,不同维度在同一垂直线上的消息特征属于同一消息。如图2所示,在分析周期A内维度α的白色小方块表示的一类相同消息特征的聚集度为2,黑色小方块表示的另一类相同消息特征的聚集度为3。如图2所示,在分析周期A内维度β的灰色小方块表示的一类相同消息特征的聚集度为2。如图2所示,在分析周期A内维度σ的浅色小方块表示的一类相同消息特征的聚集度为5。
S402、服务器判断每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于该维度对应的聚集阈值,若存在,执行步骤S403;若不存在,结束本流程。
S403、服务器提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合。
举例来说,在图2中假设维度α对应的聚集阈值为3,那么服务器通过执行上述步骤S402,在分析周期A内可以判断出维度α中的黑色小方块表示的一类相同消息特征的聚集度(即3)大于等于维度α对应的聚集阈值3,因此,服务器可以提取维度α中的黑色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度α中的黑色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度β以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
S404、服务器从训练信息源中,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及将用户属性加入恶意用户属性集合。
本发明实施例中,用户属性可以包括用户名称、账号、用户IP等,本发明实施例不作限定。
本发明实施例中,将用户属性加入恶意用户属性集合,可以形成长期信用度及短期作恶记录。
S405、当检测到用户输入的信息源时,服务器判断用户输入的信息源包括的消息特征是否属于恶意消息特征集合包括的恶意消息特征,若属于,执行步骤S406;若不属于,结束本流程。
S406、服务器判断用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息的总数量的比值是否大于等于预设阈值,如果是,执行步骤S407;如果否,执行步骤S409。
S407、服务器判断用户输入的信息源包括的恶意消息特征所属消息的用户属性是否属于恶意用户属性集合包括的恶意用户属性,若属于,执行步骤S408;若不属于,执行步骤S409。
S408、服务器识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,结束本流程。
S409、服务器识别出用户输入的信息源包括的恶意消息特征所属消息为非恶意消息,结束本流程。
本发明实施例中,训练信息源的维度可以包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。举例来说,当训练信息源的维度为文本内容、图片或音视频时,消息特征可以是文本内容、图片或音视频的链接地址;当训练信息源的维度为发帖用户信息时,消息特征可以是发帖用户的账号信息;当训练信息源的维度为发帖用户IP时,消息特征可以是发帖用户IP。
在图4所描述的方法中,在识别出每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,若判断出每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,则提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合,以及从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合,从而可以提高对恶意消息特征的覆盖度,在此基础上,还可以从训练信息源中,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及将用户属性加入恶意用户属性集合,当判断出用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征,且用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息的总数量的比值大于等于预设阈值,且用户输入的信息源包括的恶意消息特征所属消息的用户属性属于恶意用户属性集合包括的恶意用户属性时,即可识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,从而可以提高恶意消息的识别率。
请参阅图5,图5是本发明实施例公开的一种恶意消息的识别装置的结构示意图。其中,图5所示的恶意消息的识别装置既可以是一种独立装置,也可以是对论坛服务器、社交服务器以及其他具有信息发布功能的服务器、平台所新增的一部分,本发明实施例不作限定。如图5所示,该恶意消息的识别装置可以包括:
第一识别单元501,用于识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
第一判断单元502,用于判断每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于该维度对应的聚集阈值;
第一提取单元503,用于在第一判断单元502的辨别结果为是时,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合;
第二判断单元504,用于当检测到用户输入的信息源时,判断用户输入的信息源包括的消息特征是否属于恶意消息特征集合包括的恶意消息特征,
第二识别单元505,用于在第二判断单元504的判断结果为是时,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例中,恶意消息特征集合可以存储在第一提取单元503中。
请一并参阅图6,图6是本发明实施例公开的另一种恶意消息的识别装置的结构示意图。其中,图6所示的恶意消息的识别装置是由图5所示的一种恶意消息的识别装置进行优化得到的,与图5所示的一种恶意消息的识别装置相比较,图6所示的一种恶意消息的识别装置还包括:
第三判断单元506,用于在第二判断单元504的判断结果为是时,判断用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息的总数量的比值是否大于等于预设阈值;
第三识别单元507,用于在第三判断单元506的判断结果为是时,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例中,在图6所示的恶意消息的识别装置中,可以有管理人员根据实际情况自行决定是启动第二识别单元505,还是启动第三判断单元506和第三识别单元507。例如,当管理人员想进行一步提高恶意消息的识别率时,管理人员可以不启动第二识别单元505,而启动第三判断单元506和第三识别单元507。
请一并参阅图7,图7是本发明实施例公开的另一种恶意消息的识别装置的结构示意图。其中,图7所示的恶意消息的识别装置是由图5所示的一种恶意消息的识别装置进行优化得到的,与图5所示的一种恶意消息的识别装置相比较,图7所示的一种恶意消息的识别装置还包括:
第二提取单元508,用于从训练信息源中,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及,将用户属性加入恶意用户属性集合。
第四判断单元509,用于在第二判断单元504的判断结果为是时,判断用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息的总数量的比值是否大于等于预设阈值,如果是,判断用户输入的信息源包括的恶意消息特征所属消息的用户属性是否属于恶意用户属性集合包括的恶意用户属性;
第四识别单元510,用于在第四判断单元509判断出用户输入的信息源包括的恶意消息特征所属消息的用户属性属于恶意用户属性集合包括的恶意用户属性结果时,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例中,在图7所示的恶意消息的识别装置中,可以有管理人员根据实际情况自行决定是启动第二识别单元505,还是启动第二提取单元508、第四判断单元509和第四识别单元510。例如,当管理人员想进行一步提高恶意消息的识别率时,管理人员可以不启动第二识别单元505,而启动第二提取单元508、第四判断单元509和第四识别单元510。
本发明实施例中,训练信息源的维度可以包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。举例来说,当训练信息源的维度为文本内容、图片或音视频时,消息特征可以是文本内容、图片或音视频的链接地址;当训练信息源的维度为发帖用户信息时,消息特征可以是发帖用户的账号信息;当训练信息源的维度为发帖用户IP时,消息特征可以是发帖用户IP。
本发明实施例公开的恶意消息的识别装置可以提高对恶意消息特征的覆盖度,在此基础上,可以提高恶意消息的识别率。
请参阅图8,图8是本发明实施例公开的一种服务器的结构示意图。其中,图8所示的服务器可以包括恶意消息的识别装置,该恶意消息的识别装置的结构、功能可以和图5~图7中任一个恶意消息的识别装置的结构、功能相同,本发明实施例不作赘述。其中,图8公开的一种服务器可以提高对恶意消息特征的覆盖度,在此基础上,可以提高恶意消息的识别率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
以上对本发明实施例公开的一种恶意消息的识别方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (11)
1.一种恶意消息的识别方法,其特征在于,包括:
识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
判断所述每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于所述维度对应的聚集阈值,若存在,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入所述恶意消息特征集合;
当检测到用户输入的信息源时,判断所述用户输入的信息源包括的消息特征是否属于所述恶意消息特征集合包括的恶意消息特征,若属于,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
2.根据权利要求1所述的方法,其特征在于,若判断所述用户输入的信息源包括的消息特征属于所述恶意消息特征集合包括的恶意消息特征,所述方法还包括:
判断所述用户输入的信息源包括的恶意消息特征的数量与所述恶意消息特征集合包括的恶意消息的总数量的比值是否大于等于预设阈值,如果是,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述训练信息源中,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及将所述用户属性加入恶意用户属性集合。
4.根据权利要求3所述的方法,其特征在于,若判断所述用户输入的信息源包括的消息特征属于所述恶意消息特征集合包括的恶意消息特征,所述方法还包括:
判断所述用户输入的信息源包括的恶意消息特征的数量与所述恶意消息特征集合包括的恶意消息的总数量的比值是否大于等于预设阈值,如果是,判断所述用户输入的信息源包括的恶意消息特征所属消息的用户属性是否属于所述恶意用户属性集合包括的恶意用户属性,若属于,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述训练信息源的维度包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。
6.一种恶意消息的识别装置,其特征在于,包括:
第一识别单元,用于识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
第一判断单元,用于判断所述每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于所述维度对应的聚集阈值;
第一提取单元,用于在所述第一判断单元的辨别结果为是时,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入所述恶意消息特征集合;
第二判断单元,用于当检测到用户输入的信息源时,判断所述用户输入的信息源包括的消息特征是否属于所述恶意消息特征集合包括的恶意消息特征,
第二识别单元,用于在所述第二判断单元的判断结果为是时,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三判断单元,用于在所述第二判断单元的判断结果为是时,判断所述用户输入的信息源包括的恶意消息特征的数量与所述恶意消息特征集合包括的恶意消息的总数量的比值是否大于等于预设阈值;
第三识别单元,用于在所述第三判断单元的判断结果为是时,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二提取单元,用于从所述训练信息源中,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及,将所述用户属性加入恶意用户属性集合。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第四判断单元,用于在所述第二判断单元的判断结果为是时,判断所述用户输入的信息源包括的恶意消息特征的数量与所述恶意消息特征集合包括的恶意消息的总数量的比值是否大于等于预设阈值,如果是,判断所述用户输入的信息源包括的恶意消息特征所属消息的用户属性是否属于所述恶意用户属性集合包括的恶意用户属性;
第四识别单元,用于在所述第四判断单元判断出所述用户输入的信息源包括的恶意消息特征所属消息的用户属性属于所述恶意用户属性集合包括的恶意用户属性结果时,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
10.根据权利要求6~9任一项所述的装置,其特征在于,所述训练信息源的维度包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。
11.一种服务器,其特征在于,所述服务器包括权利要求6~10任一项所述的恶意消息的识别装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310501326.8A CN104580100B (zh) | 2013-10-23 | 2013-10-23 | 一种恶意消息的识别方法及装置、服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310501326.8A CN104580100B (zh) | 2013-10-23 | 2013-10-23 | 一种恶意消息的识别方法及装置、服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104580100A true CN104580100A (zh) | 2015-04-29 |
CN104580100B CN104580100B (zh) | 2018-12-07 |
Family
ID=53095298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310501326.8A Active CN104580100B (zh) | 2013-10-23 | 2013-10-23 | 一种恶意消息的识别方法及装置、服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104580100B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018161576A1 (zh) * | 2017-03-10 | 2018-09-13 | 广东欧珀移动通信有限公司 | 一种广播的控制方法、装置、存储介质及移动终端 |
CN111193697A (zh) * | 2019-08-07 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 社交账号的不可信度检测方法、装置及*** |
CN111818089A (zh) * | 2020-07-31 | 2020-10-23 | 北京微步在线科技有限公司 | 一种网络攻击事件的展示方法及存储介质 |
US20230020623A1 (en) * | 2020-12-10 | 2023-01-19 | Abnormal Security Corporation | Deriving and surfacing insights regarding security threats |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182872A1 (en) * | 2008-01-16 | 2009-07-16 | Hong Jack L | Method and Apparatus for Detecting Events Indicative of Inappropriate Activity in an Online Community |
CN102315952A (zh) * | 2010-06-29 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于社区网络中检测垃圾帖子的方法与设备 |
CN102591854A (zh) * | 2012-01-10 | 2012-07-18 | 凤凰在线(北京)信息技术有限公司 | 针对文本特征的广告过滤***及其过滤方法 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
CN103176984A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种用户生成内容中欺骗性垃圾意见检测方法 |
-
2013
- 2013-10-23 CN CN201310501326.8A patent/CN104580100B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182872A1 (en) * | 2008-01-16 | 2009-07-16 | Hong Jack L | Method and Apparatus for Detecting Events Indicative of Inappropriate Activity in an Online Community |
CN102315952A (zh) * | 2010-06-29 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于社区网络中检测垃圾帖子的方法与设备 |
CN103176984A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种用户生成内容中欺骗性垃圾意见检测方法 |
CN102591854A (zh) * | 2012-01-10 | 2012-07-18 | 凤凰在线(北京)信息技术有限公司 | 针对文本特征的广告过滤***及其过滤方法 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018161576A1 (zh) * | 2017-03-10 | 2018-09-13 | 广东欧珀移动通信有限公司 | 一种广播的控制方法、装置、存储介质及移动终端 |
US11086697B2 (en) | 2017-03-10 | 2021-08-10 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Broadcast-controlling method in operating system and mobile terminal |
CN111193697A (zh) * | 2019-08-07 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 社交账号的不可信度检测方法、装置及*** |
CN111193697B (zh) * | 2019-08-07 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 社交账号的不可信度检测方法、装置及*** |
CN111818089A (zh) * | 2020-07-31 | 2020-10-23 | 北京微步在线科技有限公司 | 一种网络攻击事件的展示方法及存储介质 |
US20230020623A1 (en) * | 2020-12-10 | 2023-01-19 | Abnormal Security Corporation | Deriving and surfacing insights regarding security threats |
US11704406B2 (en) * | 2020-12-10 | 2023-07-18 | Abnormal Security Corporation | Deriving and surfacing insights regarding security threats |
Also Published As
Publication number | Publication date |
---|---|
CN104580100B (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104717124B (zh) | 一种好友推荐方法、装置及服务器 | |
CN108920947B (zh) | 一种基于日志图建模的异常检测方法和装置 | |
KR101530941B1 (ko) | 피싱 웹사이트들을 검출하기 위한 방법, 시스템 및 클라이언트 단말기 | |
WO2018001078A1 (zh) | 一种url匹配方法、装置及存储介质 | |
CN105634855B (zh) | 网络地址的异常识别方法及装置 | |
CN110442712B (zh) | 风险的确定方法、装置、服务器和文本审理*** | |
CN102957664B (zh) | 一种识别钓鱼网站的方法及装置 | |
CN104836781A (zh) | 区分访问用户身份的方法及装置 | |
CN111163072B (zh) | 机器学习模型中特征值的确定方法、装置及电子设备 | |
CN107784205B (zh) | 一种用户产品审核的方法、装置、服务器和存储介质 | |
CN110569334A (zh) | 一种自动生成评论的方法及装置 | |
US20190317950A1 (en) | Interest tag determining method, computer device, and storage medium | |
CN104580100A (zh) | 一种恶意消息的识别方法及装置、服务器 | |
CN108880879B (zh) | 用户身份识别方法、装置、设备及计算机可读存储介质 | |
KR20140138494A (ko) | 스팸 댓글 차단 시스템 및 방법 | |
CN103188347B (zh) | 互联网事件分析方法与装置 | |
CN114157568B (zh) | 一种浏览器安全访问方法、装置、设备及存储介质 | |
CN110460593B (zh) | 一种移动流量网关的网络地址识别方法、装置及介质 | |
US20160277430A1 (en) | System and method for detecting mobile cyber incident | |
CN107948022B (zh) | 一种对等网络流量的识别方法及识别装置 | |
CN110427971A (zh) | 用户及ip的识别方法、装置、服务器和存储介质 | |
CN105099996B (zh) | 网站验证方法及装置 | |
JP6122138B2 (ja) | インタラクションの類似性によってリンクされるコミュニティの間の情報拡散を最適化するための方法およびデバイス | |
CN110020057B (zh) | 一种垃圾评论信息识别方法及装置 | |
CN114143571B (zh) | 一种用户处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190731 Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Co-patentee after: Tencent cloud computing (Beijing) limited liability company Patentee after: Tencent Technology (Shenzhen) Co., Ltd. Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |