CN106681980B

CN106681980B - 一种垃圾短信分析方法和装置

Info

Publication number: CN106681980B
Application number: CN201510744742.XA
Authority: CN
Inventors: 冉鹏; 粟栗; 张峰; 戴晶; 邵研; 胡俊
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2019-06-28
Anticipated expiration: 2035-11-05
Also published as: CN106681980A

Abstract

本发明公开了一种垃圾短信分析方法和装置，用以提高正则策略的覆盖率和垃圾短信过滤效率。垃圾短信分析方法，包括：对预处理后的待分析垃圾短信进行分词得到多个词语；利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词；以及利用根据垃圾短信样本集确定出的关键词组训练模型，从关键词中提取组成关键词组的关键词；针对关键词组所包含的每一关键词，按照各关键词在待分析垃圾短信中的出现顺序，确定相邻两个关键字在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离；根据关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略。

Description

一种垃圾短信分析方法和装置

技术领域

本发明涉及移动通信技术领域，尤其涉及一种垃圾短信分析方法和装置。

背景技术

随着移动通信服务的不断发展，利用短信编造、散布各种谣言，引发社会恐慌、破坏社会稳定，传播黄色信息、毒化社会风气，进行勒索、诈骗的违法犯罪活动层出不穷。垃圾短信发送者通过不断变化短信内容以逃脱现有短信监管，研究提高垃圾短信治理灵活性，及时拦截垃圾短信有着十分重要的意义。

在现有技术方案中，垃圾短信实时拦截主要在通信网络侧进行，对监控到的短信根据白名单、黑名单、正则表达式策略和流量策略进行实时监控判别并进行相应的放行、拦截、加入黑名单、审核等处理。正则表达式策略由精确关键字(词)加上正则表达式的元字符组成，如“精装\w{1,9}别\w{1,5}墅\w{1,8}抢购)”。当垃圾短信实时监控***监控到的短信命中正则表达式策略时，则依据策略处置动作对该短信以及发送该短信发送号码进行相应的处理，例如对该短信进行拦截处理，并将发送该短信的发送号码进行加入黑名单处理，或者转发到人工审核单元进行人工审核处理等。

现有的技术方案使用正则表达式策略对垃圾短信进行实时拦截过滤，正则表达式策略采用模糊匹配方式，策略配置和策略匹配灵活度较高，但因正则表达式本身语法较复杂，编写正则表达式策略对个人能力要求较高，而现有生产中基本是根据人工个人经验制定的正则策略，策略垃圾短信覆盖率较低(内容相近的短信可能因为人为原因制定多条正则策略)，导致策略较多，短信过滤效率降低。

发明内容

本发明实施例提供一种垃圾短信分析方法和装置，用以提高正则策略的覆盖率和垃圾短信过滤效率。

本发明实施例提供一种垃圾短信分析方法，包括：

对预处理后的待分析垃圾短信进行分词得到多个词语；

利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词；以及

利用根据所述垃圾短信样本集确定出的关键词组训练模型，从所述关键词中提取组成关键词组的关键词；

针对所述关键词组所包含的每一关键词，按照各关键词在所述待分析垃圾短信中的出现顺序，确定相邻两个关键字在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离；

根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略。

本发明实施例提供一种垃圾短信分析装置，包括：

第一分词单元，用于对预处理后的待分析垃圾短信进行分词得到多个词语；

关键词提取单元，用于利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词；

关键词组提取单元，用于利用根据所述垃圾短信样本集确定出的关键词组训练模型，从所述关键词中提取组成关键词组的关键词；

第一确定单元，用于针对所述关键词组所包含的每一关键词，按照各关键词在所述待分析垃圾短信中的出现顺序，确定相邻两个关键字在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离；

生成单元，用于根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略。

本发明实施例提供的垃圾短信分析方法和装置，首先通过关键词提取模型从待分析垃圾短信中提取关键词，进而利用关键词组训练模型从提取的关键词中提取能够组成关键词组的关键词，并根据得到的关键词组中包含的关键词在垃圾短信样本中的最大距离和最小距离生成用于过滤垃圾短信的正则策略，这样，使得生成的正则策略中包含的各关键词之间的距离是可变的，从而增加了正则策略的覆盖率，提高了垃圾短信的过滤效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中，垃圾短信分析方法的实施流程示意图；

图2为本发明实施例中，关键词提取模型确定方法的实施流程示意图；

图3为本发明实施例中，关键词组训练模型确定方法的实施流程示意图；

图4为本发明实施例中，垃圾短信分析装置的结构示意图。

具体实施方式

为了提高正则策略的覆盖率和垃圾短信过滤效率，本发明实施例提供了一种垃圾短信分析方法和装置。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

如图1所示，为本发明实施例提供的垃圾短信分析方法的实施流程示意图，可以包括以下步骤：

S11、对预处理后的待分析垃圾短信进行分词得到多个词语。

具体实施时，首先需要对待分析的垃圾短信进行预处理，主要包括：剔除停用词、依据特殊字符(如☆、等)库删除待分析垃圾短信中的特殊字符，并进行数字变换，例如，将⑩、Ⅷ、壹等均转换成***数字。预处理完成之后再对待分析垃圾短信进行分词处理。

具体实施时，可以使用开源分词工具对预处理后的待分析垃圾短信进行中文分词。具体的，首先提取出电话号码、URL、邮箱、银行账号等回联号码，再剔除标点符号后进行中文分词并提取一般分词结果得到多个词语，分词结果可以分为回联号码和一般分词结果。

由于回联号码具有较高的辨识度，因此，本发明实施例中对于提取出的回联号码可以直接与后续对垃圾短信进行分析提取出的关键词或者关键词组一起生成正则策略。

S12、利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词。

S13、利用根据垃圾短信样本集确定出的关键词组训练模型，从关键词中提取组成关键词组的关键词。

S14、针对关键词组所包含的每一关键词，按照各关键词在待分析垃圾短信中的出现顺序，确定相邻两个关键字在垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离。

S15、根据关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略。

其中，步骤S12中，关键词提取模型可以根据垃圾短信样本集确定出。其中，垃圾短信样本集中包含若干的垃圾短信样本，垃圾短信样本可以为通过人工审核方式确定出的。具体实施时，可以从垃圾短信中央管理平台获取人工审核后的正常短信样本集(R)和垃圾短信样本集(S)作为训练集。

根据垃圾短信样本集，本发明实施例中，可以按照图2所示的流程确定关键词提取模型：

S21、对预处理后的、垃圾短信样本集中包含的垃圾短信进行分词得到多个词语。

具体实施时，对于垃圾短信样本集中包含的各垃圾短信同样需要根据步骤S11中的预处理方式对各垃圾短信进行预处理，并未预处理后的每一垃圾短信进行分词，分词结果同样可以分为回联号码和一般分词结果。根据分词结果，分别统计每一垃圾短信包含的词语数量和各垃圾短信包含的词语数量之和。

对于正常短信样本集可以采用同样的方式进行分词处理，得到回联号码和一般分词结果。同样，可以根据分词结果，分别统计每一正常短信包含的词语数量和各正常短信包含的词语数量之和。

S22、将分词得到的各词语按照预设划分原则划分为关键词集合和非关键词集合。

具体实施时，可以按照预设的关键词库从对各垃圾短信样本进行分词得到的词语中提取关键词组成关键词集合，确定其它词语为非关键词组成非关键词集合。分别统计各垃圾短信包含的关键词数量和非关键词的数量，以及垃圾短信样本集包含的关键词数量之和K_s和非关键词数量之和N_s。

需要说明的是，相同的词语在不同的短信中，其属性可能不同。例如，“贷款”在经济诈骗类短信中属于关键词，而在一些类似反动类短信中并不属于非关键词。因此，具体实施时，为了提高关键词提取结果的准确性，可以结合人工提取方式以准确区分关键词和非关键词。

同样，可以对正常短信样本集进行划分，得到关键词集合和非关键词集合，并分别统计各正常短信包含的关键词数量和非关键词的数量，以及正常短信样本集包含的关键词数量之和K_r和非关键词数量之和N_r。

S23、针对关键词集合包含的每一词语，根据预设的特征项统计该词语的特征项在关键词集合中的第一特征项值。

本发明实施例中，使用的特征项包括词语出现首位置(loc)，词性(ps)和词语的TF-IDF(ti，词频-逆向文件频率)。其中，可以按照以下公式确定各特征项对应的特征项值定义如下：

词语出现首位置特征项值是指在包含该词语的垃圾短信中，该词语之前出现的词语总数与该词语所在垃圾短信包含的词语总数，即：loc需要针对每一垃圾短信分别进行统计，该特征项中，需要依据该词语之前出现的词语总数以及该词语所在垃圾短信包含的词语总数。

词性特征项值是指该类词性词语总数与词语总数的比值，即词性特征项值可以针对垃圾短信样本集进行统计，即统计垃圾短信样本集中包含的各垃圾短信分词得到的各个词语中，某类词性词语总数与垃圾短信样本集包含的词语总数的比值。

TF-IDF特征项值可以利用如下公式进行计算：ti＝TF*IDF，TF(词频，TermFrequency)，是指词语在垃圾短信样本中出现的频率，即对垃圾短信样本集分词得到的分词结果中、该词语的数量与词语总数的比值；IDF可以按照以下公式进行计算：包含该词语的短信越少，IDF越大，说明该词语具有很好的类别区分能力，对于回联号码(如电话号码、URL(统一资源定位符)、邮箱和银行账号等)可以增加其IDF值。

S24、针对非关键词集合包含的每一词语，根据所述特征项统计该词语的特征项在非关键词集合中的第二特征项值。

对于非关键词集合中包含的每一词语，同样可以按照步骤S23中分别计算每一词语的各特征项对应的特征项值，这里不再赘述。

S25、针对任一词语，根据该词语对应的第一特征项值和第二特征项值分别确定该词语的特征项在关键词集合中对应的第一概率值和在非关键词集合中对应的第二概率值。

具体的，以P(loc|K_s)表示该词语的词语出现首位置对应的特征项值在关键词集合中出现的第一概率值，则P(loc|K_s)可以表示为某位置的关键词的总数与关键词集合包含的关键词总数的比值，即对于某关键词来说，可以统计与该关键词的词语出现首位置对应的特征项值相同的关键词数量，作为某位置的关键词的总数。

以P(pi|K_s)表示该词语的词性在关键词集合中出现的第一概率值，则P(pi|K_s)可以表示为某位置的关键词的总数与关键词集合包含的关键词总数的比值，即对于某关键词来说，可以统计与该关键词的词性对应的特征项值相同的关键词数量，作为某词性的关键词的总数。

以P(ti|K_s)表示该词语的TF-IDF在关键词集合中出现的第一概率值，则P(ti|K_s)可以表示为相同ti的关键词的总数与关键词集合包含的关键词总数的比值，即对于某关键词来说，可以统计与该关键词的ti值相同关键词数量，作为某词性的关键词的总数。

同样，可以确定出非关键词集合包含的每一词语的特征项值在非关键词集合中对应的第二概率值。

以P(loc|N_s)表示该词语的词语出现首位置对应的特征项值在非关键词集合中出现的第二概率值，则P(loc|N_s)可以表示为某位置的非关键词的总数与非关键词集合包含的非关键词总数的比值，即对于某非关键词来说，可以统计与该非关键词的词语出现首位置对应的特征项值相同的非关键词数量，作为某位置的非关键词的总数。

以P(pi|N_s)表示该词语的词性在非关键词集合中出现的第二概率值，则P(pi|N_s)可以表示为某位置的非关键词的总数与非关键词集合包含的非关键词总数的比值，即对于某非关键词来说，可以统计与该非关键词的词性对应的特征项值相同的非关键词数量，作为某词性的非关键词的总数。

以P(ti|N_s)表示该词语的TF-IDF在非关键词集合中出现的第二概率值，则P(ti|N_s)可以表示为相同ti的非关键词的总数与非关键词集合包含的非关键词总数的比值，即对于某非关键词来说，可以统计与该非关键词的ti值相同非关键词数量，作为某词性的非关键词的总数。

S26、根据确定出的第一概率值和第二概率值以及垃圾短信中出现关键词和非关键词的概率值，分别确定该词语在垃圾短信中成为关键词的第三概率值和在非垃圾短信中成为非关键词的第四概率值。

具体实施时，可以按照以下公式确定该词语在垃圾短信中成为关键词的第三概率值：(为了便于描述，以P(K_s|loc,ps,ti)表示第三概率值)

其中，P(K_s)表示垃圾短信中出现关键词的概率，具体的，可以按照以下公式进行计算，

按照以下公式确定该词语在垃圾短信中成为非关键词的第四概率值：(为了便于描述，以P(N_s|loc,ps,ti)表示第四概率值)

其中，P(N_s)表示垃圾短信中出现非关键词的概率，具体的，可以按照以下公式进行计算，

S27、根据确定出的第三概率值和第四概率值，确定该词语对应的关键词提取模型。

具体的，可以按照以下公式确定该词语对应的关键词提取模型(P)：P值越大，表明该词语在垃圾短信中成为关键词的概率更大。

具体实施时，步骤S12中，针对待分析垃圾短信进行分词得到的多个词语，如果根据关键词提取模型确定出的该词语对应的P值大于等于预设阈值时，可以确定该词语为关键词。

由于正则策略通常由多个关键词和正则字符组成，因此，本发明实施例中，在根据关键词提取模型提取出关键词后，还可以进一步根据提取的关键词得到关键词组训练模型。具体的，可以按照图3所示的流程实施：

S31、根据第三概率值由大至小的顺序依次选择预设数量的关键词。

本发明实施例中，可以根据第三概率值通过排序方式选择排序靠前的关键词，即按照第三概率值由大至小的顺序选择预设数量的关键词。

S32、针对选择出的任两个关键词，统计该两个关键词在同一垃圾短信中同时出现时，该两个关键词之间的词间距离。

由于关键词词间距离对垃圾短信判定影响较大，因此，本发明实施例中选择词间距离(dis)作为关键词组选择的特征项之一。该两个关键词之间的词间距离可以定义为该两个关键词之间包含的单字的数量。

S33、针对选择出的任两个关键词，统计该两个关键词在同一垃圾短信中同时出现时的TF-IDF值。

为了提高关键词组提取的准确性，本发明实施例中，选择的另外一个提取关键词组的特征项为TF-IDF，即两个关键词同时在同一垃圾短信中出现时的TF-IDF值(ti’)。ti'＝TF’*IDF’，其中，TF’为该两个关键词在同一短信中出现的次数，IDF’可以按照以下公式计算：

S34、分别确定该两个关键词的词间距离在关键词集合中出现的第五概率值和在非关键词集合中出现的第六概率值。

以P(dis|K_s')表示第五概率值，则以P(dis|N_s')表示第六概率值，则

S35、分别确定该两个关键词的TF-IDF值在关键词集合中出现的第七概率值和在非关键词集合中出现的第八概率值。

以P(dw|K_s')表示第七概率值，则以P(dw|N_s')表示第八概率值，则

其中，关键词组和非关键词组可以根据经验值进行设置。

S36、根据第五概率值和第七概率值以及垃圾短信中出现关键词组的概率值，确定该两个关键词在垃圾短信中成为关键词组的第九概率值。

具体实施时，可以按照以下公式确定第九概率值：

其中，P(K_s')表示垃圾短信中出现关键词组的概率，P_i(W_s')表示词语i出现在垃圾短信中的概率，P_j(W_s')表示词语i出现在垃圾短信中的概率，

S37、根据第六概率值和第八概率值以及垃圾短信中出现非关键词组的概率值，确定该两个关键词在垃圾短信中成为非关键词组的第十概率值。

具体实施时，可以按照以下公式确定第十概率值：

其中，P(N_s')表示垃圾短信中出现非关键词组的概率，

S38、根据第九概率值和第十概率值，确定该两个关键词对应的关键词组训练模型。

具体的，根据第九概率值和第十概率值，可以按照以下公式确定该两个关键词对应的关键词组训练模型

同样，在利用关键词组提取模型从提取的关键词中提取关键词组时，如果根据关键词组提取模型确定出的任两个关键词对应的P'值大于等于预设阈值时，可以确定该两个关键词组成关键词组。

具体实施时，在利用关键词组训练模型从待分析垃圾短信中提取出关键词组后，可以针对关键词组所包含的每一关键词，按照各关键词在所述待分析垃圾短信中的出现顺序，确定相邻两个关键字在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小词间距离(dismin)和最大词间距离(dismax)，并据此生成正则策略。

具体的，提取的关键词组包含的关键词按照各关键词在待分析垃圾短信中的出现顺序写入正则表达式中，各关键词间限定符的长度(如：？，{n}，{n,m}，因为短信内容长度较短，不会出现限定符：*、+、{n,})，使用词语间距离结果dismin，dismax。若dismin，dismax值相等，则用{n}作为词语间限定符；若dismin，dismax值不相等，且dismax值为1，则使用？作为词语间限定符；若dismin，dismax值不相等，且dismax值大于1，则使用{dismin，dismax}作为词语间限定符。

由于垃圾短信发送者通常会以同音词或者近似词来替代常用的关键词以避免短信被过滤，例如，其可能使用代款替换贷款，车仑替换轮等，为了进一步提高生成的正则策略的覆盖率，本发明实施例中，在执行步骤S15之前。根据预设的编辑距离算法，对有一定转换的近似中文、英文词语进行识别，主要进行词语的拼音、笔画的编辑距离计算新识别的词语与预设的词语库中包含的词语的相似度，在生成正则策略时合并相似度满足条件的词语。

具体的，针对对待分析垃圾短信进行分词得到的每一词语，根据预设的词语库确定该词语与所述词语库中包含的词语之间的编辑距离；根据该编辑距离确定该词语与词语库中包含的词语之间的相似参数值。例如，代款：贷款，拼音编辑距离为0，相似度为1；车仑：轮，笔画编辑距离0，相似度1，这样，在生成正则策略时，可以首先判断该词语是否存在于关键词组所包含的关键词中，如果包含，则在生成正则策略时，合并该词语与所述词语库中包含的、与该词语之间的相似参数值不大于预设值的相似词语，例如，可将上述经过转换的词语进行合并，得到的正则策略如下：(代|贷)款，(车仑|轮)。

具体实施时，对于一些在垃圾短信中出现频率较高的关键词，由于垃圾短信发送者通常对其进行变换，例如，在关键词内部字间增加英文字母，标点符号等，影响垃圾短信判定，为此，本发明实施例中在执行步骤S15之前，还可以对一些高频关键词包含的单个字间生成限定范围，该限定范围的取值可以根据经验值进行设置，例如，可以设置为\w{0,4}。

基于此，本发明实施例提供的垃圾短信分析方法，还可以包括以下步骤：针对分词得到的每一词语，根据所述关键词提取模型和该词语在垃圾短信中出现的概率值确定该词语对应的词频参数值；如果所述词频参数值大于预设阈值，则在根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略时，还可以包括：判断该词语是否存在于所述关键词组所包含的关键词中；如果是，则在生成所述正则策略时，在该词语包含的各字之间生成预设的限定范围。

例如，有待分析短信内容：“宁波银行房产抵押代款，手续简便，灵活方便，多种产品满足您各类融资需求，联系人：田经理咨询电话：51808376。”，根据本发明实施例可以按照以下步骤生成正则策略：假设利用关键词提取模型和关键词组训练模型提取到的关键词组为：“抵押代款融资51808376”，对提取的关键词与预设的词语库进行编辑距离计算，发现有：“代款”与“贷款”相似，则生成规则：(代|贷)款；另外，需要对高频垃圾关键词增加正则限定范围，如关键词“抵押”在高频垃圾关键词库中，则可以生成规则：抵\w{0,4}押；根据垃圾短信样本集进行统计，抵押、代款同时出现在垃圾短信样本集包含的垃圾短信中时，两者之间最小词间距离dismin和最大词间距离dismax分别为1和7；代款、融资同时出现在垃圾短信样本集包含的垃圾短信中时，两者之间最小词间距离dismin和最大词间距离dismax分别为0和16；融资、51808376同时出现在垃圾短信样本集包含的垃圾短信中时，两者之间最小词间距离dismin和d最大词间距离ismax分别都为2。则生成如下的正则策略：抵\w{0,4}押\w{1,7}代款\w{0,16}融资\w{2}51808376。

最后，可以将生成的正则策略输出至垃圾短信拦截***用于垃圾短信的实时拦截过滤。

本发明实施例中，首先通过关键词提取模型从待分析垃圾短信中提取关键词，进而利用关键词组训练模型从提取的关键词中提取能够组成关键词组的关键词，并根据得到的关键词组中包含的关键词在垃圾短信样本中的最大距离和最小距离生成用于过滤垃圾短信的正则策略，这样，使得生成的正则策略中包含的各关键词之间的距离是可变的，从而增加了正则策略的覆盖率，提高了垃圾短信的过滤效率。另外，在生成正则策略时，对于高频关键词包含的单字之间生成限定范围，还可以根据预设的词语库进一步计算提取出的关键词组包含的各关键词与该词语库中词语之间的编辑距离，根据编辑距离确定两个词语之间的相似参数值，并合并相似参数值不大于预设阈值的词语，以提高正则策略的覆盖率，进而提高垃圾短信的过滤效率。

基于同一发明构思，本发明实施例中还提供了一种垃圾短信分析装置，由于上述装置解决问题的原理与垃圾短信分析方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图4所示，为本发明实施例提供的垃圾短信分析装置的结构示意图，可以包括：

第一分词单元41，用于对预处理后的待分析垃圾短信进行分词得到多个词语；

关键词提取单元42，用于利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词；

关键词组提取单元43，用于利用根据所述垃圾短信样本集确定出的关键词组训练模型，从所述关键词中提取组成关键词组的关键词；

第一确定单元44，用于针对所述关键词组所包含的每一关键词，按照各关键词在所述待分析垃圾短信中的出现顺序，确定相邻两个关键字在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离；

生成单元45，用于根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略。

具体实施时，本发明实施例提供的垃圾短信分析装置还可以包括：

第二分词单元，用于对预处理后的、所述垃圾短信样本集中包含的垃圾短信进行分词得到多个词语；

划分单元，用于将分词得到的各词语按照预设划分原则划分为关键词集合和非关键词集合；

第一统计单元，用于针对关键词集合包含的每一词语，根据预设的特征项统计该词语的特征项在关键词集合中的第一特征项值；以及针对非关键词集合包含的每一词语，根据所述特征项统计该词语的特征项在非关键词集合中的第二特征项值；

第二确定单元，用于针对任一词语，根据该词语对应的第一特征项值和第二特征项值分别确定该词语的特征项在关键词集合中对应的第一概率值和在非关键词集合中对应的第二概率值；根据所述第一概率值和第二概率值以及垃圾短信中出现关键词和非关键词的概率值，分别确定该词语在垃圾短信中成为关键词的第三概率值和在非垃圾短信中成为非关键词的第四概率值；

根据所述第三概率值和第四概率值，确定该词语对应的关键词提取模型。

具体实施时，本发明实施例提供的垃圾短信分析装置，还可以包括：

选择单元，用于根据所述第三概率值由大至小的顺序依次选择预设数量的关键词；

第二统计单元，用于针对选择出的任两个关键词，统计该两个关键词在同一垃圾短信中同时出现时，该两个关键词之间的词间距离；以及该两个关键词在同一垃圾短信中同时出现时的词频逆向文件频率TF-IDF值；

第三确定单元，用于分别确定该两个关键词的词间距离在关键词集合中出现的第五概率值和在非关键词集合中出现的第六概率值；以及分别确定该两个关键词的TF-IDF值在关键词集合中出现的第七概率值和在非关键词集合中出现的第八概率值；根据所述第五概率值和第七概率值以及垃圾短信中出现关键词组的概率值，确定该两个关键词在垃圾短信中成为关键词组的第九概率值；根据所述第六概率值和第八概率值以及垃圾短信中出现非关键词组的概率值，确定该两个关键词在垃圾短信中成为非关键词组的第十概率值；根据所述第九概率值和第十概率值，确定该两个关键词对应的关键词组训练模型。

具体实施时，本发明实施例提供的垃圾短信分析装置，还可以包括第四确定单元，其中：

第四确定单元，用于在所述关键词提取单元利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词之前，针对对待分析垃圾短信进行分词得到的每一词语，根据预设的词语库判断该词语与所述词语库中包含的词语之间的编辑距离；以及根据所述编辑距离确定该词语与所述词语库中包含的词语之间的相似参数值；

所述生成单元45，还用于如果所述相似参数值不大于预设阈值，则在根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略时，判断该词语是否存在于所述关键词组所包含的关键词中；以及若判断结果为是，则在生成所述正则策略时，合并该词语与所述词语库中包含的、与该词语之间的相似参数值不大于预设值的相似词语。

具体实施时，本发明实施例提供的垃圾短信分析装置，还可以包括第五确定单元：

第五确定单元，用于针对分词得到的每一词语，根据所述关键词提取模型和该词语在垃圾短信中出现的概率值确定该词语对应的词频参数值；

所述生成单元45，还用于如果所述词频参数值大于预设阈值，则在根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略时，判断该词语是否存在于所述关键词组所包含的关键词中；以及若判断结果为是，则在生成所述正则策略时，在该词语包含的各字之间生成预设的限定范围。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种垃圾短信分析方法，其特征在于，包括：

对预处理后的待分析垃圾短信进行分词得到多个词语；

针对所述关键词组所包含的每一关键词，按照各关键词在所述待分析垃圾短信中的出现顺序，确定相邻两个关键词在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离；

2.如权利要求1所述的方法，其特征在于，所述关键词提取模型为根据所述垃圾短信样本集按照以下过程确定出的：

对预处理后的、所述垃圾短信样本集中包含的垃圾短信进行分词得到多个词语；

将分词得到的各词语按照预设划分原则划分为关键词集合和非关键词集合；

针对关键词集合包含的每一词语，根据预设的特征项统计该词语的特征项在关键词集合中的第一特征项值；以及

针对非关键词集合包含的每一词语，根据所述特征项统计该词语的特征项在非关键词集合中的第二特征项值；

针对任一词语，根据该词语对应的第一特征项值和第二特征项值分别确定该词语的特征项在关键词集合中对应的第一概率值和在非关键词集合中对应的第二概率值；

根据所述第一概率值和第二概率值以及垃圾短信中出现关键词和非关键词的概率值，分别确定该词语在垃圾短信中成为关键词的第三概率值和在非垃圾短信中成为非关键词的第四概率值；

3.如权利要求2所述的方法，其特征在于，所述关键词组训练模型为根据所述垃圾短信样本集按照以下过程确定出的：

根据所述第三概率值由大至小的顺序依次选择预设数量的关键词；

针对选择出的任两个关键词，统计该两个关键词在同一垃圾短信中同时出现时，该两个关键词之间的词间距离；以及

该两个关键词在同一垃圾短信中同时出现时的词频逆向文件频率TF-IDF值；

分别确定该两个关键词的词间距离在关键词集合中出现的第五概率值和在非关键词集合中出现的第六概率值；以及

分别确定该两个关键词的TF-IDF值在关键词集合中出现的第七概率值和在非关键词集合中出现的第八概率值；

根据所述第五概率值和第七概率值以及垃圾短信中出现关键词组的概率值，确定该两个关键词在垃圾短信中成为关键词组的第九概率值；

根据所述第六概率值和第八概率值以及垃圾短信中出现非关键词组的概率值，确定该两个关键词在垃圾短信中成为非关键词组的第十概率值；

根据所述第九概率值和第十概率值，确定该两个关键词对应的关键词组训练模型。

4.如权利要求1、2或3所述的方法，其特征在于，在利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词之前，还包括：

针对对待分析垃圾短信进行分词得到的每一词语，根据预设的词语库确定该词语与所述词语库中包含的词语之间的编辑距离；

根据所述编辑距离确定该词语与所述词语库中包含的词语之间的相似参数值；以及

如果所述相似参数值不大于预设阈值，则在根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略时，还包括：

判断该词语是否存在于所述关键词组所包含的关键词中；

如果是，则在生成所述正则策略时，合并该词语与所述词语库中包含的、与该词语之间的相似参数值不大于预设值的相似词语。

5.如权利要求2所述的方法，其特征在于，还包括：

针对分词得到的每一词语，根据所述关键词提取模型和该词语在垃圾短信中出现的概率值确定该词语对应的词频参数值；

如果所述词频参数值大于预设阈值，则在根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略时，还包括：

判断该词语是否存在于所述关键词组所包含的关键词中；

如果是，则在生成所述正则策略时，在该词语包含的各字之间生成预设的限定范围。

6.一种垃圾短信分析装置，其特征在于，包括：

第一确定单元，用于针对所述关键词组所包含的每一关键词，按照各关键词在所述待分析垃圾短信中的出现顺序，确定相邻两个关键词在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离；

7.如权利要求6所述的装置，其特征在于，还包括：

8.如权利要求7所述的装置，其特征在于，还包括：

9.如权利要求6、7或8所述的装置，其特征在于，还包括第四确定单元，其中：

所述生成单元，还用于如果所述相似参数值不大于预设阈值，则在根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略时，判断该词语是否存在于所述关键词组所包含的关键词中；以及若判断结果为是，则在生成所述正则策略时，合并该词语与所述词语库中包含的、与该词语之间的相似参数值不大于预设值的相似词语。

10.如权利要求7所述的装置，其特征在于，还包括第五确定单元：

所述生成单元，还用于如果所述词频参数值大于预设阈值，则在根据所述关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略时，判断该词语是否存在于所述关键词组所包含的关键词中；以及若判断结果为是，则在生成所述正则策略时，在该词语包含的各字之间生成预设的限定范围。