CN102946400B

CN102946400B - 一种基于行为分析的海量短信内容安全过滤方法和***

Info

Publication number: CN102946400B
Application number: CN201210498100.2A
Authority: CN
Inventors: 陈炽昌; 莫剑斌; 刘子畅; 聂文青; 林子龙
Original assignee: GUANGDONG QTONE EDUCATION CO Ltd
Current assignee: All pass education group (Guangdong) Limited by Share Ltd
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2016-03-09
Anticipated expiration: 2032-11-29
Also published as: CN102946400A

Abstract

本发明公开的一种基于行为分析的海量短信内容安全过滤方法和***，采用从同一终端发送的内容相同的批量短信中抽取一条作为待验证短信；对所述待验证短信进行敏感词第一匹配，若匹配成功，则判定批量短信不通过；如果匹配不成功则对待验证短信进行用户行为分析，验证发送人的行为信息是否与通常信息一致，如果一致则判定批量短信通过，否则进行敏感词第二匹配，若匹配成功，则判定批量短信不通过，否则判定批量短信通过。本发明所述的方法和***不仅提高了短信过滤的性能，并且其过滤效率高，可以为通信用户提供一个更加安全的信息环境。

Description

一种基于行为分析的海量短信内容安全过滤方法和***

技术领域

本发明涉及移动通信领域，尤其涉及一种基于行为分析的海量短信内容安全过滤方法和***。

背景技术

随着科技的飞速发展，人们对高科技产品越来越依赖，特别是对手机和网络的使用率越来越高。手机和网络在给我们提供很多信息化便利的同时也存在很多安全隐患，垃圾信息也日趋增多，比如手机中常常会收到内容涉及到广告、黄色信息或者反动宣传信息等垃圾短信，特别是有可能收到欺诈内容的短信，对我们的日常生活造成一定的干扰。

在现有技术中，已经出现了对海量信息进行过滤的技术，但是此项技术只是简单的对信息内容的关键词进行过滤，并且是逐条对短信进行过滤，导致其性能低下。

有鉴于此，现有技术有待改进和提高。

发明内容

鉴于现有技术的不足，本发明的目的在于提供一种基于行为分析的海量短信内容安全过滤方法和***，旨在与对现有技术中存在的基于关键词的过滤技术中出现的性能低下的问题进行改进，提供一种可以高速过滤短信内容的方法和***。

本发明的技术方案如下：

一种基于行为分析的海量短信内容安全过滤方法，其中，包括以下步骤：

S1、从同一终端发送的内容相同的批量短信中抽取一条作为待验证短信；

S2、对所述待验证短信进行敏感词第一匹配，若匹配成功，则判定批量短信不通过，否则进行步骤S3；

S3、对待验证短信进行用户行为分析，验证发送人的行为信息是否与通常信息一致，如果一致则判定批量短信通过，否则进行步骤S4；

S4、对待验证短信进行敏感词第二匹配，若匹配成功，则判定批量短信不通过，否则判定批量短信通过。

所述一种基于行为分析的海量短信内容安全过滤方法，其中，所述步骤S3中，发送人的行为信息包括：短信发送时间、IP地址、浏览器信息和发送对象信息。

所述一种基于行为分析的海量短信内容安全过滤方法，其中，所述步骤S3中对用户行为分析具体包括：当短信发送时间、IP地址、浏览器信息和发送对象信息中有两项与通常信息不一致，则视为不一致。

所述一种基于行为分析的海量短信内容安全过滤方法，其中，所述敏感词第二匹配为敏感词模糊匹配。

一种基于行为分析的海量短信内容安全过滤***，其中，所述***包括：

抽取模块，用于从同一终端发送的内容相同的批量短信中抽取一条作为待验证短信；

第一匹配模块，用于对所述待验证短信进行敏感词第一匹配，若匹配成功，则判定批量短信不通过，否则送入所述行为分析模块进行分析；

行为分析模块，用于对待验证短信进行用户行为分析，验证发送人的行为信息是否与通常信息一致，如果一致则判定批量短信通过，否则送入所述第二匹配模块进行分析；

第二匹配模块，用于对待验证短信进行敏感词第二匹配，若匹配成功，则判定批量短信不通过，否则判定批量短信通过。

所述基于行为分析的海量短信内容安全过滤***，其中，所述行为分析模块中，发送人的行为信息包括：短信发送时间、IP地址、浏览器信息和发送对象信息。

所述基于行为分析的海量短信内容安全过滤***，其中，所述行为分析模块中对用户行为分析具体包括：当短信发送时间、IP地址、浏览器信息和发送对象信息中有两项与通常信息不一致，则视为不一致。

有益效果：本发明提供的一种基于行为分析的海量短信内容安全过滤方法和***，通信运营商采用对同一批次的其中任一条短信进行敏感词精确匹配处理，并使用行为分析技术对没有通过敏感词匹配的短信进行验证，对其中存在用户行为与通常行为不一致的短信进行敏感词模糊匹配，从而对海量短信内容进行层层过滤，清除其中内容含有欺诈、黄色、推销的垃圾短信，为通信网络使用者提供一个安全可靠的信息环境。

附图说明

图1为本申请的一种基于行为分析的海量短信内容安全过滤方法流程图。

图2为本申请的一种基于行为分析的海量短信内容安全过滤***的结构原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明最佳实施例提供的基于行为分析的海量短信内容安全过滤方法，其包括以下步骤：

S1、从同一终端发送的内容相同的批量短信中抽取一条作为待验证短信。

通信运营商对从同一终端发送的内容相同的批量短信进行处理，从中抽取一条作为待验证短信。具体的，从批量短信发出的端口或者个人通信号码和发出的时间来判断是否为从同一终端发出的内容相同的批量短信。如果是从同一端口或者个人通信号码发送的并且为同一时间发出的批量短信，可以判定为短信的内容相同。因短信内容相同，所以可以从中任意抽出一条短信，作为待验证短信，从而减少过滤***的工作量，提高效率。

S2、对所述待验证短信进行敏感词第一匹配，若匹配成功，则判定批量短信不通过，否则进行步骤S3。

对上述步骤抽出的短信进行敏感词第一匹配。所述第一匹配，为对短信内容中出现的敏感词进行精确匹配。

在现有技术中已经出现很多对敏感词进行精确匹配的技术，主要有简单文本搜索与替换、DFA算法（亦称自动机算法）和TTMP算法（字符串多模式精确匹配）等等，其核心为在***中建立一个敏感词库，然后基于该敏感词库对目标文本进行敏感词提取操作，因此各自动化处理方式的唯一差别就在于敏感词提取算法的不同，因为算法不同，效率不同、结果也可能不同。

在本方法与***中优选的，使用现有技术中的DFA算法对短信内容进行敏感词精确匹配，使用该算法对短信内容的词进行逐个过滤，查看其中是否存在敏感词所组成的词库中，一旦发现短信内容中存在敏感词库中出现的词，则此次匹配成功，则认为该批次短信含有不安全或者垃圾的信息，判定该批次短信不通过。如果没有发现敏感词，判断此次匹配不成功，则对该短信进行下一步S3步骤中的处理。

S3、对待验证短信进行用户行为分析，验证发送人的行为信息是否与通常信息一致，如果一致则判定批量短信通过，否则进行步骤S4。

对上述步骤中与敏感词库中的敏感词不匹配的短信进行用户行为分析。所述用户行为分析，为对用户平常表现出的行为进行分析，从中获取用户一般的行为轨迹，将此次用户的行为与其之前的行为进行比对，从而预测此次短信发送是否异常。

具体的，用户行为分析的内容包括：短信发送时间、IP地址、浏览器信息和发送对象信息等进行分析。

通信运营商可以查询到发送批次短信用户在使用通信情况的历史记录，从历史记录中查找到以下信息：此用户之前短信发送大致的时间段、IP地址信息、浏览器信息和发送对象信息等，并将这些信息与此次发送批次信息的时间、使用的IP地址、浏览器信息和发送对象进行对比。详细的对比为：用户发送短信的时间是否和以前是相近的，使用的IP地址是否是相同的，使用的浏览器是否是一致的，发送的对象是否与之前相同或者接近相同的，如果与之前的记录保持两项以上是一致的，则判定此次批次短信息发送通过，否则，进行下一步的处理。

例如：如果此次批量短信发送的时间为上午10点，此前使用此IP地址发送批量短信的时间也同样为上午9点到11点之间，并且此前批量发送短信的数量为40-60条之间，此次为50条，则该用户此次批量短信的发送与此前的记录至少有这3项是保持一致的，判定此次短信息发送通过，否则如果此IP地址发送批量短信的时间为凌晨1点左右，批量发送短信数量为300条，则判定此次发送短信与此前的记录不一致，不能通过验证，需要将此验证短信进行下一步的验证处理。

对在步骤S3中没有通过的验证短信进行再一次的处理，此次处理为对短信的内容进行第二匹配，其具体的内容为对短信内容进行敏感词模糊匹配。此次使用的算法为对短信内容中的敏感词进行模糊的匹配，在敏感词库中加入敏感词的替换词语、禁用词语、报警词语，如果短信内容中存在敏感词的替换词。这样的话，即使敏感词中出现了标点符号也一样可以被检测出来。

将短信息内容进行敏感词第二匹配，如果匹配出短信内容中出现敏感词的替换词或者出现禁用词语，则判定匹配成功，此短信内容中含有敏感词，判定批量信息不通过。如果匹配不成功，则判定验证短信内容是安全的，该批次短信通过验证。

本发明提供的一种基于行为分析的海量短信内容安全过滤方法，通过对批量短信中任抽取一条作为待验证短信，对此验证短信进行敏感词第一匹配、用户行为分析和敏感词第二匹配中的一项或者多项验证，进而判定出该验证短信中是否含有敏感词和/或该批量发送短信的用户是否与之前的记录保持一致，最终判定出此验证短信是否为安全信息，由此验证短信的结果来判定该批次短信是否为安全信息，从而为用户提供一个安全的信息环境。

本发明还提供一种基于行为分析的海量短信内容安全过滤***，如图2所述，其具体包括以下部分：

抽取模块110，用于从同一终端发送的内容相同的批量短信中抽取一条作为待验证短信。

抽取模块110用于从同一终端发送的内容相同的批量短信中抽取一条作为待验证短信，对同样内容的批量短信中任意抽取一条来进行验证，大大减少了***的工作量，提高了验证信息的效率。具体与步骤S1相同。

第一匹配模块120，用于对所述待验证短信进行敏感词第一匹配，若匹配成功，则判定批量短信不通过，否则送入所述行为分析模块进行分析。

第一匹配模块120用于对抽取模块110抽取出的待验证短信进行敏感词第一匹配，具体的，所述敏感词第一匹配为敏感词精确匹配，在第一匹配模块中设置有敏感词库与敏感词精确匹配算法，在本实施例中，此算法为现有技术中的DFA算法对此验证短信中的内容中的词进行逐个比对，检测其中的词是否与敏感词相关，如果匹配成功，则与此验证短信相关的同批次短信被判定为其中含有敏感性词语，不能通过验证。如果匹配失败则将此验证信息传送到行为分析模块中进行下一步的验证。具体的，第一匹配模块120的功能与步骤S2相同。

行为分析模块130，用于对待验证短信进行用户行为分析，验证发送人的行为信息是否与通常信息一致，如果一致则判定批量短信通过，否则送入所述第二匹配模块进行分析。具体与上述方法中步骤S3相同。

行为分析模块130用于对接收到的第一匹配模块120中匹配失败的验证短信进行用户行为分析。所述用户行为分析的内容包括：当短信发送时间、IP地址、浏览器信息和发送对象信息。

本发明提供的一种基于行为分析的海量短信内容安全过滤方法和***，通过采用批量过滤和用户行为分析对海量短信内容进行安全高速的过滤，不仅提高了短信过滤的性能，并且其效率相比与现有技术中仅仅采用对关键词进行过滤的方法有很大的提高。本发明公开的***可以为通信用户提供一个更加安全的信息环境。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于行为分析的海量短信内容安全过滤方法，其特征在于，包括以下步骤：

S4、对待验证短信进行敏感词第二匹配，若匹配成功，则判定批量短信不通过，否则判定批量短信通过;

所述步骤S3中，发送人的行为信息包括：短信发送时间、IP地址、浏览器信息和发送对象信息;

所述敏感词第二匹配为敏感词模糊匹配;此次使用的算法为对短信内容中的敏感词进行模糊的匹配，在敏感词库中加入敏感词的替换词语、禁用词语、报警词语;

所述步骤S3中对用户行为分析具体包括：当短信发送时间、IP地址、浏览器信息和发送对象信息中有两项与通常信息不一致，则视为不一致；

查询到发送批次短信用户在使用通信情况的历史记录，从历史记录中查找到以下信息：此用户之前短信发送的时间段、IP地址信息、浏览器信息和发送对象信息，并将这些信息与此次发送批次信息的时间、使用的IP地址、浏览器信息和发送对象进行对比；

详细的对比为：用户发送短信的时间是否和以前是相近的，使用的IP地址是否是相同的，使用的浏览器是否是一致的，发送的对象是否与之前相同或者接近相同的，如果与之前的记录保持两项以上是一致的，则判定此次批次短信息发送通过，否则，进行下一步的处理。

2.一种基于行为分析的海量短信内容安全过滤***，其特征在于，所述***包括：

行为分析模块，用于对待验证短信进行用户行为分析，验证发送人的行为信息是否与通常信息一致，如果一致则判定批量短信通过，否则送入第二匹配模块进行分析；

第二匹配模块，用于对待验证短信进行敏感词第二匹配，若匹配成功，则判定批量短信不通过，否则判定批量短信通过;

所述行为分析模块中，发送人的行为信息包括：短信发送时间、IP地址、浏览器信息和发送对象信息;

所述敏感词第二匹配为敏感词模糊匹配，此次使用的算法为对短信内容中的敏感词进行模糊的匹配，在敏感词库中加入敏感词的替换词语、禁用词语、报警词语;

所述行为分析模块中对用户行为分析具体包括：当短信发送时间、IP地址、浏览器信息和发送对象信息中有两项与通常信息不一致，则视为不一致;