CN108268554A

CN108268554A - 一种生成垃圾短信过滤策略的方法和装置

Info

Publication number: CN108268554A
Application number: CN201710001400.8A
Authority: CN
Inventors: 孙洋; 粟栗; 刘子君; 胡俊
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2017-01-03
Filing date: 2017-01-03
Publication date: 2018-07-10

Abstract

本发明实施例提供了一种生成垃圾短信过滤策略的方法和装置，该方法包括：获取多个垃圾短信关键词；确定每个垃圾短信关键词的语义类别，并根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇；对各个聚类簇内的垃圾短信关键词进行分析，得到每个聚类簇内垃圾短信关键词的关联规则；根据各个聚类簇内的垃圾短信关键词的关联规则生成垃圾短信过滤策略，解决现有垃圾短信过滤策略误判和漏判的情况比较严重的问题。

Description

一种生成垃圾短信过滤策略的方法和装置

技术领域

本发明涉及通信技术领域，尤其涉及一种生成垃圾短信过滤策略的方法和装置。

背景技术

垃圾短信是指，用户未定制过的包含有欺骗、教唆、无聊和色情等信息。据有关部门不完全统计，我国持机人平均每天接收的“垃圾短信”多达十几亿条。垃圾短信***，从本质上可以大体为四种：推广型的商业广告等，欺诈型的栏目中奖、代开***等，违法型的涉黑、涉黄等。商业短信严重干扰了人们的日常生活，而后三者的危害却防不胜防，诈骗者可以通过多种手段获得用户的详细信息，然后进行精准诈骗，尤其对于防骗意识比较薄弱的群体，造成的损失是巨大的。如何应用技术手段，及时有效的发现这些垃圾短信是一个重要的课题。

目前使用策略识别垃圾短信仍然是主流的一种方法，主要方法包括：快速模板匹配、简单策略匹配、N-gram模型、词汇共现图模型等。其中快速模板匹配，例如使用“大家好，我换号了，新号码*”这样的模板；简单策略匹配，使用历史人工审核的样本集训练提取关键词，可以按照“与”、“或”、“非”关系组合出策略，例如包含“获奖”、“返话费”、“周年庆”等策略词组合极有可能是垃圾短信；N-gram模型，利用词汇周围两个或者三个词之间共现的关系；词汇共现图模型，词与词连接形成一个无向图，然后挖掘图模型。

针对现有的技术进行分析，发现其存在的缺点如下：

1.快速模板匹配：更适合正常短信的匹配。目前很多垃圾短信为了绕过***拦截变形很多，如“您在十二周年庆典中被选为淘明星，将给您获送$130,000与MAC BOOK电脑一台，详情请至WMD12.COM”和“购十二周年庆典顾客，我们将为您献上￥160,000与苹果笔记本一台，请查看ttbsse.com”。

2.简单策略匹配：时效性较强，而且依赖人工参与工作比较多。提取的策略过粗会导致很多正常短信被误判(或者较长的正常短信容易命中策略造成误判)，策略过细则会导致垃圾短信被漏拦。另一方面某些垃圾短信为了绕过***的拦截，会故意把一些敏感词汇使用同音(同义)字代替，模仿正常短信口语化，这样策略词库不能及时发现会造成漏拦。

3.N-gram模型：统计待计算词汇前后N个词的共现，限于计算能力目前使用最多的为二元(Bi-gram)和三元(Tri-gram)两种方式，在短文本应用上效果很差而且只能针对目前有限的训练语料进行学习，所以扩展能力比较差。

4.词语共现图模型：也是一种计算词汇共现的图模型，利用词间的共现度强度作为图划分的依据，将图划分成不连通的簇集，使得不同簇间不连通，簇内连通，此时一个簇是一个对应着某个基本观点的连通子图，从而构成了某个特定主题，这样簇内的词汇形成一组或几组策略词组。但是在海量数据的情况下，只会发现词汇间有千丝万缕的关系，无法有效的构建簇集。

综上而言，现有策略识别技术过度依赖人为因素，即使目前借用一些机器学习的算法计算词汇间的共现关系，也无法解决技术无法精确处理的弊端，导致误判和漏判的情况比较严重。

发明内容

鉴于上述技术问题，本发明实施例提供一种生成垃圾短信过滤策略的方法和装置，解决现有垃圾短信过滤策略误判和漏判的情况比较严重的问题。

依据本发明实施例的一个方面，提供了一种生成垃圾短信过滤策略的方法，包括：

获取多个垃圾短信关键词；

确定每个垃圾短信关键词的语义类别，并根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇；

对各个聚类簇内的垃圾短信关键词进行分析，得到每个聚类簇内垃圾短信关键词的关联规则；

根据各个聚类簇内的垃圾短信关键词的关联规则生成垃圾短信过滤策略；

所述确定每个垃圾短信关键词的语义类别，并根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇，包括：

计算出每个垃圾短信关键词的词向量；

基于计算得到的每个垃圾短信关键词的词向量对所述垃圾短信关键词进行语义分类，得到所述垃圾短信关键词的语义类别；

根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇。

可选地，所述垃圾短信关键词的聚类簇内垃圾短信关键词的相似度不小于阈值的词汇形成“或”关系。

可选地，所述对各个聚类簇内的垃圾短信关键词进行分析，得到每个聚类簇内垃圾短信关键词的关联规则，包括：

使用关联规则挖掘算法挖掘每个垃圾短信关键词的聚类簇内的频繁项集；

根据每个垃圾短信关键词的聚类簇内的频繁项集得到每个聚类簇内垃圾短信关键词的关联规则。

可选地，使用关联规则挖掘算法挖掘每个垃圾短信关键词的聚类簇内的频繁项集，包括：

设置最小支持度，其中，最小支持度表示垃圾短信关键词出现的最小次数；

统计每个垃圾短信关键词的聚类簇内垃圾短信关键词的词频，并根据所述最小支持度，生成每个垃圾短信关键词的聚类簇内的频繁项集。

可选地，所述根据每个垃圾短信关键词的聚类簇内的频繁项集得到每个聚类簇内垃圾短信关键词的关联规则，包括：

将训练语料内所有短信数据使用每个垃圾短信关键词的聚类簇内的垃圾短信关键词进行特征化表示；利用特征化表示的垃圾短信关键词，生成多叉树；

利用关联规则挖掘算法挖掘多叉树上的频繁项集，生成每个垃圾短信关键词的关联规则。

可选地，所述根据各个聚类簇的垃圾短信关键词的关联规则生成垃圾短信过滤策略，包括：

根据各个聚类簇的每个垃圾短信关键词的关联规则生成垃圾短信过滤策略；

对所述垃圾短信过滤策略进行评估，所述垃圾短信过滤策略的评估结果为丢弃或保留；

将评估结果为保留的所述垃圾短信过滤策略进行策略合并，得到垃圾短信过滤策略集。

可选地，对所述垃圾短信过滤策略进行评估，包括：

利用所述垃圾短信过滤策略对训练语料中的正常短信和垃圾短信进行识别，计算出所述垃圾短信过滤策略的垃圾短信命中率；

根据所述垃圾短信命中率对所述垃圾短信过滤策略进行评估。

可选地，所述将评估结果为保留的所述垃圾短信过滤策略进行策略合并，得到垃圾短信过滤策略集，包括：

统计每条垃圾短信过滤策略内每个垃圾短信关键词的频次；

按照频次对每条垃圾短信过滤策略内的各个垃圾关键词进行排序；

根据经过频次排序后的垃圾短信过滤策略，生成二叉树；

遍历所述二叉树，将垃圾短信过滤策略进行合并，得到垃圾短信过滤策略集。

本发明实施例还提供了一种生成垃圾短信过滤策略的装置，包括：

获取模块，用于获取多个垃圾短信关键词；

聚类簇确定模块，用于确定每个垃圾短信关键词的语义类别，并根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇；

关联规则生成模块，用于对各个聚类簇内的垃圾短信关键词进行分析，得到每个聚类簇内垃圾短信关键词的关联规则；

策略生成模块，用于根据各个聚类簇内的垃圾短信关键词的关联规则生成垃圾短信过滤策略；

所述聚类簇确定模块包括：

计算单元，用于计算出每个垃圾短信关键词的词向量；

语义类别确定单元，用于基于计算得到的每个垃圾短信关键词的词向量对所述垃圾短信关键词进行语义分类，得到所述垃圾短信关键词的语义类别；

聚类簇确定单元，用于根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇。

可选地，所述关联规则生成模块包括：

频繁项集确定单元，用于使用关联规则挖掘算法挖掘每个垃圾短信关键词的聚类簇内的频繁项集；

关联规则确定单元，用于根据每个垃圾短信关键词的聚类簇内的频繁项集得到每个聚类簇内垃圾短信关键词的关联规则。

可选地，所述频繁项集确定单元包括：

设置子单元，用于设置最小支持度，其中，最小支持度表示垃圾短信关键词出现的最小次数；

频繁项集确定子单元，用于统计每个垃圾短信关键词的聚类簇内垃圾短信关键词的词频，并根据所述最小支持度，生成每个垃圾短信关键词的聚类簇内的频繁项集。

可选地，所述关联规则确定单元包括：

特征化子单元，用于将训练语料内所有短信数据使用每个垃圾短信关键词的聚类簇内的垃圾短信关键词进行特征化表示；

多叉树生成子单元，用于利用特征化表示的垃圾短信关键词，生成多叉树；

关联规则生成子单元，用于利用关联规则挖掘算法挖掘多叉树上的频繁项集，生成每个垃圾短信关键词的关联规则。

可选地，所述策略生成模块包括：

垃圾短信过滤策略生成单元，用于根据各个聚类簇的每个垃圾短信关键词的关联规则生成垃圾短信过滤策略；

策略评估单元，用于对所述垃圾短信过滤策略进行评估，所述垃圾短信过滤策略的评估结果为丢弃或保留；

策略合并单元，用于将评估结果为保留的所述垃圾短信过滤策略进行策略合并，得到垃圾短信过滤策略集。

可选地，所述策略评估单元包括：

命中率计算子单元，用于利用所述垃圾短信过滤策略对训练语料中的正常短信和垃圾短信进行识别，计算出所述垃圾短信过滤策略的垃圾短信命中率；

评估子单元，用于根据所述垃圾短信命中率对所述垃圾短信过滤策略进行评估。

可选地，所述策略合并单元包括：

统计子单元，用于统计每条垃圾短信过滤策略内每个垃圾短信关键词的频次；

排序子单元，用于按照频次对每条垃圾短信过滤策略内的各个垃圾关键词进行排序；

二叉树生成子单元，用于根据经过频次排序后的垃圾短信过滤策略，生成二叉树；

合并子单元，用于遍历所述二叉树，将垃圾短信过滤策略进行合并，得到垃圾短信过滤策略集。

上述技术方案中的一个技术方案具有如下优点或有益效果：本实施例提出的基于语义空间的聚类方式，不但解决短文本的“数据稀疏”和“词语鸿沟”等缺陷，而且在语义空间聚类，使得无监督的聚类效果更好；在聚类簇上进行关联规则挖掘，不但高效的统计了大数据中的共现词汇而且获得可扩展的策略；最后使用策略在训练语料的正常和垃圾短信的占比评估，获得最终适用于垃圾短信识别的策略。此方法可以高效的对海量数据进行训练来挖掘策略，提高了准确率和覆盖率，降低误判、漏判，具有较高的实用价值。

附图说明

图1为本发明实施例一中挖掘垃圾短信过滤策略的方法流程图；

图2为本发明实施例二中挖掘垃圾短信过滤策略的方法流程图；

图3为本发明实施例二中CBOW模型的网络结构示意图；

图4为本发明实施例二中FP-tree树结构示意图；

图5为本发明实施例二中二叉树结构示意图；

图6为本发明实施例三中挖掘垃圾短信过滤策略的装置框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本发明的实施例可以具体实现为以下形式：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

参见图1，图中示出了一种生成垃圾短信过滤策略的方法，具体步骤如下：

步骤101、获取多个垃圾短信关键词；

例如通过TF-IDF(Term Frequency/Inverse Document Frequency)算法从训练语料中提取垃圾短信关键词，当然也并不限于此。

步骤102、确定每个垃圾短信关键词的语义类别，并根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇；

语义类别是指根据垃圾短信关键词的语义划分的类别，包括但不限于：推广类、欺诈类、违法类等。

在本实施例中，可以根据垃圾短信关键词的词向量确定垃圾短信关键词的语义类别，当然也并不限于此。

首先计算出每个垃圾短信关键词的词向量(例如采用Word2Vec算法计算词向量)；然后基于计算得到的每个垃圾短信关键词的词向量对所述垃圾短信关键词进行语义分类，得到所述垃圾短信关键词的语义类别；最后根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇。需要说明的是，垃圾短信关键词的聚类簇内垃圾短信关键词的相似度不小于阈值的词汇形成“或”关系。其中，在一些实施例中将阈值设置为0.98，在一些实施例中，出于不同情况下对处理量、处理速度、准确度不同的平衡需求，阈值设置为0.90、0.95、0.99，或在上述范围内取值，均可以得到较好效果。

步骤103、对各个聚类簇内的垃圾短信关键词进行分析，得到每个聚类簇内垃圾短信关键词的关联规则；

例如，使用FP-Growth关联规则挖掘算法挖掘每个聚类簇内垃圾短信关键词的关联规则，该关联规则可以是布尔型关联规则：{“与(&)”、“或(|)”、“非(！)”}，表现形式可以为：

(A₁|A₂)&(B₁|B2|B₃)&…！(F₁|F₂|F₃)

具体地，步骤1031、使用FP-Growth关联规则挖掘算法挖掘每个垃圾短信关键词的聚类簇内的频繁项集；

例如设置最小支持度，其中，最小支持度表示垃圾短信关键词出现的最小次数；统计每个垃圾短信关键词的聚类簇内垃圾短信关键词的词频，并根据所述最小支持度，生成每个垃圾短信关键词的聚类簇内的频繁项集。

步骤1032、根据每个垃圾短信关键词的聚类簇内的频繁项集得到每个聚类簇内垃圾短信关键词的关联规则。

具体地，将训练语料内所有短信数据使用每个垃圾短信关键词的聚类簇内的垃圾短信关键词进行特征化表示；利用特征化表示的垃圾短信关键词，生成一颗多叉树(例如FP-tree多叉树)；利用关联规则挖掘算法(例如FP-Growth)挖掘多叉树上的频繁项集，生成每个垃圾短信关键词的关联规则。

步骤104、根据各个聚类簇内的垃圾短信关键词的关联规则生成垃圾短信过滤策略。

在步骤104中，可以对得到的各个聚类簇内的垃圾短信关键词的关联规则进行评估，例如，评估基于该关联规则的垃圾短信命中率，如果垃圾短信命中率符合要求，则保留该关联规则；如果不符合要求，则丢弃该关联规则。评估后，还可以对保留的关联规则进行合并处理，避免垃圾短信过滤策略中出现大量的垃圾短信关键词重复现象。

可选地，上述步骤104包括：

步骤1041、根据各个聚类簇的每个垃圾短信关键词的关联规则生成垃圾短信过滤策略；

步骤1042、对所述垃圾短信过滤策略进行评估，所述垃圾短信过滤策略的评估结果为丢弃或保留；

例如，利用所述垃圾短信过滤策略对训练语料中的正常短信和垃圾短信进行识别，计算出所述垃圾短信过滤策略的垃圾短信命中率；根据所述垃圾短信命中率对所述垃圾短信过滤策略进行评估。

步骤1043、将评估结果为保留的所述垃圾短信过滤策略进行策略合并，得到垃圾短信过滤策略集。

例如，统计每条垃圾短信过滤策略内每个垃圾短信关键词的频次；按照频次对每条垃圾短信过滤策略内的各个垃圾关键词进行排序；根据经过频次排序后的垃圾短信过滤策略，生成一颗二叉树；遍历所述二叉树，将垃圾短信过滤策略进行合并，得到垃圾短信过滤策略集。

本实施例提出的基于语义空间的聚类方式，不但解决短文本的“数据稀疏”和“词语鸿沟”等缺陷，而且在语义空间聚类，使得无监督的聚类效果更好；在聚类簇上进行关联规则挖掘，不但高效的统计了大数据中的共现词汇而且获得可扩展的策略；最后使用策略在训练语料的正常和垃圾短信的占比评估，获得最终适用于垃圾短信识别的策略。此方法可以高效的对海量数据进行训练来挖掘策略，提高了准确率和覆盖率，降低误判、漏判，具有较高的实用价值。

实施例二

本实施例涉及一种基于语义空间挖掘关联规则然后生成垃圾短信过滤策略的方案，此方案生成的垃圾短信过滤策略不仅考虑了词汇间的共现关系，而且能够挖掘出词汇间潜在的关系，有很好的扩展能力，同时解决了目前很多提取方法过度依赖训练语料，容易造成过拟合现象。

但是采用关联规则挖掘对短文本也是个非常大的挑战，有两个待解决的问题：

(1)短文本“词汇鸿沟”问题：

短文本比较长文本有很明显的缺陷，每条短信长度为1-71个字，用词随机性大并且口语化严重，尤其垃圾短信为了绕过***的拦截，经常使用一些不带感情色彩的词汇，偏重口语化；

(2)“数据稀疏”问题：

关联规则挖掘是对一颗多叉树的挖掘过程，在海量数据且“数据稀疏”严重的情况下，容易造成内存溢出和挖掘速度慢等弊端。

所以针对以上两个问题引入了利用语义空间的关联规则挖掘，首先将短文本映射到语义空间进行聚类，然后在聚类簇上挖掘关联规则，对海量数据采用“分而治之”的方式既解决了数据量问题又解决了“词汇鸿沟”问题。基于机器学习的算法进行自动学习和调优过程，减少了人工工作，提高了判定的准确率降低了漏拦率。

参见图2，图中示出了生成垃圾短信过滤策略的方法的流程，具体步骤如下：步骤201、根据垃圾短信和正常短信词汇权重占比获得垃圾短信关键词；步骤202、构建关键词的语义空间并进行聚类；步骤203、关联规则挖掘；步骤204、利用训练语料评估关联规则形成基本策略；步骤205、策略合并，缩减策略。

步骤201包括：短信预处理子步骤和垃圾短信关键词提取子步骤。

1)、短信预处理子步骤。

文本信息预处理的主要功能是对含有干扰项的待测信息样本按规则进行归一化处理，例如繁体字、数字序列、干扰符号等，并按匹配转换规则将原始信息样本转换为统一的文本序列。

例如，短信样本：

(1)本#公司*代开各种Fa票，代刻公章，电联13②88057&898；

(2)澳门赌场提供百家乐、体育投注、彩票、轮盘、电子游戏，存⑤萬送壹萬，网址ambjl。cc；

(3)你的手机号码已选为《淘宝周年庆》获奖用户，获得16万奖金登陆tkeux.c0m验证码：7768领取。

短信预处理的方式如下：

处理数字：按照数字对照表进行转换短信样本中所包含数字，然后根据上下文将相对连续的数字序列提取出来，如Ⅲ→3、陆→6、②→2、㈤→5等；

处理干扰字符：将待测短信中的如，#、&、％、α、β、я、ы、щ、■、●、★和※等特殊符号剔除；

处理繁简体：提供繁简体的对照表，将繁体转换成简体，如電話→电话。

按照以上三个流程将含有干扰项的短信样本转化成统一的短信数据。

2)垃圾短信关键词提取子步骤。

该垃圾短信关键词提取子步骤包括：分词、去停用词和无用词以及垃圾短信关键词提取。

(1)分词；

分词采用最大正向、逆向匹配法和隐马模型，生成分词结果并带有词性标注。

(2)去停用词和无用词；

首先按照停用词表删除一部分停用词，如“我们”“好的”等词汇。然后删除无用词，一个句子中能够真正表达句子含义的为名词、名词性短语、动词和动词性短语等词性的词汇，像数词如电话号码、银行***等在策略提取中的意义很小，所以可以根据词性只保留上述四种词性的词汇。

(3)垃圾短信关键词提取；

垃圾短信关键词指区分垃圾和正常短信类明显的词汇，此部分词汇作为策略词会使生成的策略效果更优。将训练语料中的正常短信和垃圾短信看成为两大类，引入权重计算公式：

W_i＝TF_i*IDF_i

W_i表示第i个词的权重；

TF_i表示第i个词的词频；

IDFi表示第i个词的反文档频率。

按照词汇权重由高到低排序，权重≤γ的词汇删除，这样有效剔除了对分类作用小的高频和低频的词汇。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术：

单词权重最为有效的实现方法就是TF*IDF，它是由Salton在1988年提出的。其中TF称为词频，用于计算该词描述文档内容的能力；IDF称为反文档频率，用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上:在一个文本中出现很多次的单词，在另一个同类文本中出现次数也会很多，反之亦然。所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点。另外还要考虑单词区别不同类别的能力，TF*IDF法认为一个单词出现的文本频率越小，它区别不同类别的能力就越大，所以引入了逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度。

步骤202、构建关键词的语义空间并进行聚类。

具体地，去除了无用词汇后，计算剩余关键词的词汇间的关系，需要将词汇映射到空间中的点。传统的办法是采用“词袋”形式，词汇映射到N维的向量空间(VSM)中，其中N为词汇的个数，这种方法的弊端为：(1)容易受维数灾难的困扰，尤其是将其应用于深度学习的一些算法；(2)无法很好地刻画词与词之间的相似性，词汇间孤立性比较严重容易引起“词汇鸿沟”现象，比如“苹果”和“iphone”两个词：

“苹果”表示为[0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0...]1*N

“iphone”表示为[0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0...]1*N

每个词都是茫茫“0“海中的一个“1”。

为了解决“词汇鸿沟”问题，引入了语义空间也叫词向量空间的概念，词汇使用词向量来表示，这样不会因为词汇太多而造成稀疏向量，不仅大大减少了计算量而且解决了从语义层面计算词汇的问题，设置一个N(N＝100)维的空间。

“苹果”表示为[0.01 0.07 0.96 0.32 0.24...]1*100

“iphone”表示为[0.02 0.24 0.84 0.45 0.01...]1*100

在本实施例中，可以根据词汇的词向量构建语义空间。

例如，采用word2vec计算词汇的词向量。

Word2vec是一个借助神经网络思想来解决问题的三层网络，并不算严格的神经网络，使用CBOW(Continuous Bag-of-Words Model)模型求解每个词汇的词向量，COWB模型的网络结构如图3所示：

CBOW模型的详细网络结构如下：

第一层：为输入层，输入词向量V(t)前后n个词汇的词向量；

第二层：中间层为隐藏层，是输入的若干个词向量的累加和，则还是一个向量V(c)；

第三层：是方框里面二叉树为输出层，隐藏层的那个节点跟输出层的二叉树的所有非叶节点Vsyn连接，为了进行最优化的解法，二叉树采用霍夫曼树(Huffman_tree)形式，其中每个非叶节点也是一个向量，代表某一类别的词向量的参数，每个叶子节点代表一个词向量统一用W表示，代表了语料库里面的所有词。

这样可以用Huffman-tree上的非叶子节点和霍夫曼编码来计算词向量：

其中表示上下文的词向量累加后的向量；

K为Huffman-tree上Root节点到词向量所在的叶子节点间的层级数；

σ(x)＝1/(1+e^-x)是sigmoid公式；

qk表示从根节点下来到叶子节点的路径上的那些非叶节点；

dk∈{0，1}是Huffman编码，当w_i在当前节点的左子树的节点上时dk＝0，否则dk＝1。

在步骤202中，基于语义空间聚类。

对语义空间词汇进行聚类的目的是对所有数据进行“分而治之”，训练语料(正常类+垃圾类)达到千万条，如果全部用来做关联规挖掘会增加***负担而且很多规则也是无效的。

为了加快挖掘速度，本实施例可以使用K-Means聚类将语义上相近的词汇聚在一起，其中类簇内相似度不小于阈值0.98的词汇自动形成“或”关系(如A1|A2|A3…|An)继而成为近义词典，而其它词汇构成一个该领域空间，然后在此基础上挖掘关联规则，不但降低了挖掘的难度而且提高了挖掘的准确度。

表1基于语义聚类的部分类簇的词汇表

在步骤204中，对语义相近的聚类簇挖掘关联规则，构建扩展性比较好的关联规则；

一条策略由N个策略词和关联关系组成，其中关联关系是简单的布尔型关联规则：{“与(&)”、“或(|)”、“非(！)”}，表现形式为：

(A₁|A₂)&(B₁|B2|B₃)&…！(F₁|F₂|F₃)

本实施例可以使用FP-Growth关联规则挖掘算法挖掘每个类簇语义空间内的频繁项集然后生成策略。

例如，从关联规则挖掘的经典案例“啤酒与尿布关系”，发现购买啤酒在一定概率下会购买尿布，{啤酒}->{尿布}就是一条关联规则，所以关联规则挖掘一定程度上刻画了大量词汇间潜在的关系，更适合于从短信数据这样的短文本中挖掘词汇间的关联规则。此关联规则挖掘算法的主要思路：使用频繁项集性质的先验知识：如果集合I不是频繁项集，那么所有包含集合I的更大的集合也不会是频繁项集。挖掘频繁项集的步骤如下：

(1)设置最小支持度和置信度：

项集：在FP-tree内每个关键词成为项集；

最小支持度MIN_SUPPORT：项集在所有训练元组中同时出现的最小次数；

置信度CONFIDENCE：形如A->B若置信度设置为80％，表示A出现的同时B也出现的概率为80％。

垃圾短信和正常短信的最大区别为在指定的时间窗口内垃圾短信重复发送量至少是正常短信的十几倍，所以可以设置MIN_SUPPORT＝10，CONFIDENCE＝80％，支持度和置信度设置的高减小误命中正常短信的概率。

(2)统计每个类簇内关键词的词频，生成一级频繁项集：

第一次扫描垃圾短信训练数据，统计每个类簇内的关键词出现的频次，生成一级频繁项集。利用MIN_SUPPORT初次过滤，按关键词词频由大到小排序，因为满足规则的频繁项集要求一级频繁项集的频次≥MIN_SUPPORT，所以将小于最小支持度的词汇删除，这样按照词频排序形成类簇内关键词顺序表，如下表所示：

表2类簇内关键词顺序表

(3)训练数据预处理：

将训练集内所有短信数据使用每个类簇内的关键词表进行特征化表示(短文本中词汇多次出现对句子的影响很小，所以如果出现多次只表现一次即可)。

如原文：“工作不要太累了，有时间出来坐坐哦，(龙帝国会所)现推出辣妹热舞服务！激情四射！包厢酒水打折活动！感受辣妹热情哦！”。

特征化表示，其中“热情”出现两次只保留一个词：

“辣妹|小妹|***|美女|小妞|洋妞，热舞，服务，激情，酒水，打折，热情”

表3数据集部分数据在聚类簇内表示的记录表

(4)关联规则挖掘：

首先，扫描上一步骤的数据记录表，生成一颗FP-tree多叉树，参见图4。

其次，应用FP-Growth算法挖掘FP-tree上的频繁项集，生成关联规则表。

表4关联规则表

(5)垃圾短信过滤策略评估

FP-Growth生成的关联规则可以作为垃圾短信过滤策略，其中每条垃圾短信过滤策略包含2～N个垃圾短信过滤词不等，如下所示：

“<游戏，ktv|***>、<游戏，情趣，ktv|***>、

<辣妹|小妹|***|美女|小妞|洋妞，情趣，ktv|***>、

……

<游戏，mm|美眉|美女|小妞|洋妞，情趣，ktv|***>”

生成的原始垃圾短信过滤策略有如下问题：(1)垃圾短信过滤策略内的垃圾短信关键词个数过多，会导致命中的垃圾短信少限制了其作用；(2)垃圾短信关键词个数过少，会命中很多正常短信，所以垃圾短信过滤策略内的垃圾短信关键词个数限制在2～4个之间；(3)有些关键词比较中性如“<游戏，ktv|***>”，容易误命中正常短信，不适合作为过滤垃圾短信的关键词。所以通过训练语料的正常和违规短信的占比来确定保留哪些垃圾短信过滤策略：

垃圾短信命中率：

表5策略过滤规则表

因为每组垃圾短信过滤策略的垃圾短信关键词个数不同，命中的精确情况也不尽相同，所以每种情况的阈值也不同，根据要求的准确率和召回率指标情况进行调整。

在步骤505中进行垃圾短信过滤策略合并。

通过FP-Growth生成的垃圾短信过滤策略，在策略评估后会出现大量的部分元素交叉重复现象，如以下的策略形式：

“0001 t1&t6、0002 t2&t6、0003 t1&t2&t6、0004 t1&t5&t6、0005 t1&t2&t5&t6”等策略，可以通过构建二叉树的形式，将垃圾短信过滤策略有效的进行合并。

(1)统计元素频次：首先统计每条垃圾短信过滤策略内的每个垃圾短信关键词的频次：

表6元素次数表

元素(垃圾短信关键词)	频次
		t6	5
t1	4
		t2	3
t5	2

(2)策略元素排序：各个垃圾短信关键词按照表6排序后的垃圾短信过滤策略顺序为：

表7垃圾短信过滤策略排序对比表

ID	排序前	排序后
			0001	t1&t6	t6&t1
0002	t2&t6	t6&t2
			0003	t1&t2&t6	t6&t1&t2
0004	t1&t5&t6	t6&t1&t5
			0005	t1&t2&t5&t6	t6&t1&t2&t5

(3)构建二叉树：按照频次重新对垃圾短信过滤策略进行顺序，扫描所有垃圾短信过滤策略构建一颗二叉树，参见图5。

构建原则为所有垃圾短信过滤策略都从root节点出发，孩子节点放在左侧，兄弟节点放于右侧，其中节点中带有标号的ID由本条垃圾短信过滤策略的最后一个垃圾短信关键词附带ID；

(4)遍历二叉树合并策略：最后通过遍历二叉树将能够合并的垃圾短信过滤策略进行合并，合并原则为对二叉树进行递归的中序遍历：

遍历发现最后一个节点包含ID证明从跟节点到此路径上所有节点为一条垃圾短信过滤策略；

一旦发现该节点有右子树，则一直向右子树进行扫描，如果包含ID则成为或关系，同时将该节标记为已经提取状态，避免二次生成策略；

生成后的垃圾短信过滤策略为：

0005 t6&t1&t2&t5、0003 t6&t1&t2|t5、0001 t6&t1|t2

对垃圾短信过滤策略进行1/3-1/2数量级上的压缩，达到了很好的压缩效果。

基于语义空间进行聚类，应用word2vec算法将所有关键词映射到一个更抽象的语义空间中，在一定程度上解决了同义词问题，同时解决了短文本的“数据稀疏”和“词语鸿沟”等严重问题，使得聚类更精准。在此聚类结果上进行关联规则挖掘，避免了挖掘大数据时采用关联规则存在的缺陷，对数据“分而治之“在保证质量的前提下提高工作效率，同时关联规则挖掘算法有更好的学习扩展能力，最后利用二叉树技术对策略进行合理有效的压缩。

本实施例提出的基于语义空间的聚类方式，不但解决短文本的“数据稀疏“和“词语鸿沟”等缺陷，而且在语义空间聚类，使得无监督的聚类效果更好；在聚类簇上进行关联规则挖掘，不但高效的统计了大数据中的共现词汇而且获得可扩展的策略；最后使用策略在训练语料的正常和垃圾短信的占比评估，获得最终适用于垃圾短信识别的策略。此方法可以高效的对海量数据进行训练来挖掘策略，提高了准确率和覆盖率，降低误判、漏判，具有较高的实用价值。

实施例三

参见图6，图中示出了一种生成垃圾短信过滤策略的装置，该装置600包括：

获取模块601，用于获取多个垃圾短信关键词；

聚类簇确定模块602，用于确定每个垃圾短信关键词的语义类别，并根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇；

关联规则生成模块603，用于对各个聚类簇内的垃圾短信关键词进行分析，得到每个聚类簇内垃圾短信关键词的关联规则；

策略生成模块604，用于根据各个聚类簇内的垃圾短信关键词的关联规则生成垃圾短信过滤策略。

在本实施例中，所述聚类簇确定模块包括：

计算单元，用于计算出每个垃圾短信关键词的词向量；

在本实施例中，可选地，所述垃圾短信关键词的聚类簇内垃圾短信关键词的相似度不小于阈值的词汇形成“或”关系。

在本实施例中，可选地，所述关联规则生成模块包括：

在本实施例中，可选地，所述频繁项集确定单元包括：

在本实施例中，可选地，所述关联规则确定单元包括：

在本实施例中，可选地，所述策略生成模块包括：

在本实施例中，可选地，所述策略评估单元包括：

在本实施例中，可选地，所述策略合并单元包括：

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定

另外，本文中术语“***”和“网络”在本文中常可互换使用。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在本申请所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以做出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种生成垃圾短信过滤策略的方法，其特征在于，包括：

获取多个垃圾短信关键词；

其中，所述确定每个垃圾短信关键词的语义类别，并根据所述垃圾短信关键词的语义类别对所述多个垃圾短信关键词进行聚类，得到垃圾短信关键词的聚类簇，包括：

计算出每个垃圾短信关键词的词向量；

2.根据权利要求1所述的方法，其特征在于，所述垃圾短信关键词的聚类簇内垃圾短信关键词的相似度不小于阈值的词汇形成“或”关系。

3.根据权利要求1所述的方法，其特征在于，所述对各个聚类簇内的垃圾短信关键词进行分析，得到每个聚类簇内垃圾短信关键词的关联规则，包括：

4.根据权利要求3所述的方法，其特征在于，使用关联规则挖掘算法挖掘每个垃圾短信关键词的聚类簇内的频繁项集，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据每个垃圾短信关键词的聚类簇内的频繁项集得到每个聚类簇内垃圾短信关键词的关联规则，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据各个聚类簇的垃圾短信关键词的关联规则生成垃圾短信过滤策略，包括：

7.根据权利要求6所述的方法，其特征在于，对所述垃圾短信过滤策略进行评估，包括：

8.根据权利要求6所述的方法，其特征在于，所述将评估结果为保留的所述垃圾短信过滤策略进行策略合并，得到垃圾短信过滤策略集，包括：

统计每条垃圾短信过滤策略内每个垃圾短信关键词的频次；

根据经过频次排序后的垃圾短信过滤策略，生成二叉树；

9.一种生成垃圾短信过滤策略的装置，其特征在于，包括：

获取模块，用于获取多个垃圾短信关键词；

其中，所述聚类簇确定模块包括：

计算单元，用于计算出每个垃圾短信关键词的词向量；

10.根据权利要求9所述的装置，其特征在于，所述垃圾短信关键词的聚类簇内垃圾短信关键词的相似度不小于阈值的词汇形成“或”关系。

11.根据权利要求9所述的装置，其特征在于，所述关联规则生成模块包括：

12.根据权利要求11所述的装置，其特征在于，所述频繁项集确定单元包括：

13.根据权利要求11所述的装置，其特征在于，所述关联规则确定单元包括：

14.根据权利要求9所述的装置，其特征在于，所述策略生成模块包括：

15.根据权利要求14所述的装置，其特征在于，所述策略评估单元包括：

16.根据权利要求14所述的装置，其特征在于，所述策略合并单元包括：