CN102833713A

CN102833713A - 识别垃圾短信的方法及装置

Info

Publication number: CN102833713A
Application number: CN201210320796XA
Authority: CN
Inventors: 周桂英
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2012-12-19

Abstract

本发明提供一种识别垃圾短信的方法和装置，方法包括：获取发送短信源号码对应的多条待检测短信；从所述待检测短信中选取一条作为基准检验短信，并将所述待检测短信中除去所述基准检验短信之外的各条短信作为待比较短信；从所述基准检验短信中抽取待比较词汇；根据所述待比较词汇和所述待比较短信获取所述发送短信源号码的内容相似度；当所述内容相似度大于第一预设阈值时，将所述发送短信源号码对应的所有短信识别为垃圾短信。根据本发明的识别垃圾短信的方法和装置，能够有效识别垃圾短信。

Description

识别垃圾短信的方法及装置

技术领域

本发明涉及通信技术，尤其涉及一种识别垃圾短信的方法及装置。

背景技术

随着手机等便携式移动终端的普及和短信业务的迅速发展，人们越来越多地使用短信进行通信，但是这样伴随而来的是日趋泛滥的垃圾短信。现实生活中，大量的垃圾短信通常是由专门发送垃圾短信的短信源群发的。垃圾短信不仅增加了网络的负担，而且给人们的生活带来极大的不便。

现有技术中，在短信中心过滤垃圾短信的方法主要是采用短信内容分析的关键词提取技术、用户黑名单以及机器分类学习等技术。短信中心需要将各条短信的每个词均与预设的包含垃圾词汇的垃圾词库进行比较，当识别出某一条短信的垃圾词汇超过预设阈值时，将该短信定义为垃圾短信，并禁止转发。但是，这种在短信中心采用单一逐条逐字的分析方法，难于适用于海量短信的分析处理，容易造成短信中心网络堵塞。

因此，需要一种方法，能够有效识别垃圾短信。

发明内容

本发明提供一种识别垃圾短信的方法和装置，以有效识别垃圾短信。

本发明第一个方面提供一种识别垃圾短信的方法，包括：

获取发送短信源号码对应的多条待检测短信；

从所述待检测短信中选取一条作为基准检验短信，并将所述待检测短信中除去所述基准检验短信之外的各条短信作为待比较短信；

从所述基准检验短信中抽取待比较词汇；

根据所述待比较词汇和所述待比较短信，获取所述发送短信源号码的内容相似度；

当所述内容相似度大于第一预设阈值时，将所述发送短信源号码对应的所有短信识别为垃圾短信。

本发明另一个方面提供一种识别垃圾短信的装置，包括：

获取模块，用于获取发送短信源号码对应的多条待检测短信；

第一抽取模块，用于从所述待检测短信中选取一条作为基准检验短信，并将所述待检测短信中除去所述基准检验短信之外的各条短信作为待比较短信；

第二抽取模块，用于从所述基准检验短信中抽取待比较词汇；

获取内容相似度模块，用于根据所述待比较词汇和所述待比较短信，获取所述发送短信源号码的内容相似度；

第一判断模块，用于当所述内容相似度大于第一预设阈值时，将所述发送短信源号码对应的所有短信识别为垃圾短信。

由上述技术方案可知，本发明提供的识别垃圾短信的方法和装置，通过比较同一发送短信源号码所对应的短信内容，以判断该发送短信源号码是否发送了大量相同的短信，从而进一步判断该发送短信源号码是否为专门发送垃圾短信的号码，以有效识别垃圾短信。

附图说明

图1为根据本发明一实施例的识别垃圾短信的方法流程示意图；

图2为根据本发明另一实施例的识别垃圾短信的方法流程示意图；

图3为根据本发明又一实施例的识别垃圾短信的装置结构示意图；

图4为根据本发明再一实施例的识别垃圾短信的装置结构示意图。

具体实施方式

本实施例一提供一种识别垃圾短信的方法，该识别垃圾短信的方法适用于现有的无线通信网络架构，该无线通信网络架构包括短信中心，该短信中心用于识别垃圾短信，其所包括的硬件设备例如是服务器。

如图1所示，为根据本实施例的识别垃圾短信的方法的流程示意图，具体包括：

步骤101，获取发送短信源号码对应的多条待检测短信。

本实施例中获取发送短信源号码发送的待检测短信可以为在短信中心缓存区中的短信。为了描述清楚，将使用发送短信源号码的终端所发送的短信简称为该发送短信源号码发送的短信。短信中心在接收到发送短信源号码发送的短信时，可以存储在缓存区中，在缓存区中的短信存满时或缓存时间大于预设时间时，统计各短信的发送短信源号码，当某个发送短信源号码对应短信的数量大于预设发送数量时，该发送短信源号码有可能发送的均是垃圾短信，此时，获取该发送短信源号码发送的位于缓存区中的待检测短信并执行后续操作以判断该发送短信源号码是否为专门发送垃圾短信的号码。

这里的待检测短信可以是缓存区内该发送短信源号码对应的所有短信，也可以是该发送短信源号码对应的一定比例的短信，该比例例如为50%或60%。

步骤102，从待检测短信中选取一条作为基准检验短信，并将待检测短信中除去基准检验短信之外的各条短信作为待比较短信。

短信中心选取基准检验短信的方法可以采用随机抽取的方法，例如从待检测短信中随机抽取一条作为基准检验短信，或者是按照待检测短信的长度进行选择，例如将长度最短或最长的待检测短信作为基准检验短信，具体可以根据实际需要进行设定，在此不再赘述。

步骤103，从基准检验短信中抽取待比较词汇。

短信中心可以现有技术中的自动分词技术将基准检验短信进行分词，例如基于字符串匹配的分词方法或基于统计的分词方法。具体举例来说，基准检验短信为“我的爸爸是李刚”，采用自动分词技术进行分词之后的结果为“我”、“的”、“爸爸”、“是”和“李刚”。

本实施例中，可以去除所获取的分词中无特别含义的词汇，例如“的”、“是”等等。具体方式可以为，首先预设待去除词汇的词库，该词库中包括“的”、“是”、“了”、“和”、“呢”和“啊”等等，经过匹配，去除基准检验短信中的无特别含义的词汇。短信中心可以将剩下的所有词汇作为待比较词汇，也可以剩下的词汇中选取一部分作为待比较词汇，具体可以根据实际需要进行选取。

步骤104，根据待比较词汇和各待比较短信，获取发送短信源号码的内容相似度。

该步骤具体可以包括下列步骤：

步骤104a：根据待比较词汇和各待比较短信获取各待比较短信的短信相似度；

步骤104b：根据各相似度获取发送短信短信源号码的内容相似度。

这里的短信相似度指的是各条待比较短信与待比较词汇的相似度。步骤104a具体可以是：

将N个待比较词汇分别与待比较短信M_i进行匹配，其中i为整数，且1≤i≤P，P为待比较短信的个数，N、P和i均为大于0的整数，当S个待比较词汇匹配成功时，该待比较短信的短信相似度为R_i=S/N，其中S为大于或等于0的整数。例如，选取了N个待比较词汇，将N个待比较词汇与某个待比较短信进行匹配，当匹配成功S个待比较词汇时，该待比较短信的短信相似度为S/N。

步骤104b具体可以包括：获取短信相似度总和R=∑R_i，根据短信相似度总和获取短信号码的内容相似度为Q=R/P。

步骤105，当内容相似度大于第一预设阈值时，将发送短信源号码对应的所有短信识别为垃圾短信。

即当该发送短信源号码的内容相似度Q大于第一预设阈值时，判断该发送短信源号码所发送的所有短信均为垃圾短信。这里的所有短信可以是缓存区中该发送短信源号码对应的所有短信。当将发送短信源号码对应的所有短信识别为垃圾短信时，可以进行如下操作：清除该发送短信源号码在缓存区内所有的短信，并将该待发送短信源号码加入黑名单，短信中心不再转发黑名单中的号码所对应的任何短信。

根据本实施例的识别垃圾短信的方法，通过比较同一发送短信源号码所对应的短信内容，以判断该发送短信源号码是否发送了大量相同的短信，从而进一步判断该发送短信源号码是否为专门发送垃圾短信的号码，以有效识别垃圾短信。

本实施例二基于上述实施例提供一种识别垃圾短信的方法。如图2所示，具体如下：

步骤201，当缓存区的短信数量存满时或缓存时间大于预设时间时，获取缓存区中对应短信条数大于第二预设阈值的发送短信源号码，并获取该发送短信源号码对应的多条待检测短信。当缓存区中存在其它发送短信条数不大于第二预设阈值的发送短信源号码时，转发这些发送短信源号码在缓存区中对应的所有短信。

可选地，短信中心可以设置一个、两个甚至更多个缓存区，用来存储移动终端发送的短信。优选地，短信中心设置两个缓存区交替缓存，例如当一个缓存区已满或缓存时间大于预设时间时，启动另一个缓存区，这样既可以不影响后续的操作，又避免了设置过多的缓存区占用短信中心的存储空间，降低成本。这里的缓存时间指的是该缓存区从缓存第一条短信时开始计算的时间。

短信中心在接收到移动终端发送的短信之后，可以首先判断发送该短信的发送短信源号码是否位于白名单或黑名单，当发送短信源号码位于白名单中时，直接转发该短信，当位于发送短信源号码黑名单时，直接拦截或删除该短信，当发送短信源号码既不位于白名单也不位于黑名单时，放入缓存区，进行后续的操作之后再决定是否向其它移动终端转发该短信。

短信中心首先判断该发送短信源号码所对应的短信的条数是否大于第二预设阈值，例如，当缓存区中该发送短信源号码所对应的短信的条数小于或等于第二预设阈值时，直接转发该发送短信源号码在缓存区中的所有短信。这是由于，如果某一发送短信源号码在缓存区中的数量没有达到第二预设阈值时，第二预设阈值例如是100条，即可以看作该发送短信源号码只是群发了几条正常的短信，并非大量发送了垃圾短信。当判断出该发送短信源号码所发送的短信的条数已经大于第二预设阈值时，获取该发送短信源号码对应的待检测短信。

步骤202，获取大于第二预设阈值的发送短信源号码对应的不同接收号码的条数，判断不同接收号码的条数与待检测短信的条数的比例是否大于第三预设阈值，例如80%，当判断结果为是时，转为步骤203，否则，判断该发送短信源号码为非发送垃圾短信的号码，即转为步骤209。

该步骤中，首先获取同一发送短信源号码对应的不同接收号码的条数A，假设待检测短信的条数为B时，判断A/B是否大于第三预设阈值，当判断结果为是时，再执行后续的操作，这是由于，垃圾短信的群发特性使得同一条垃圾短信往往针对多条不同的接收号码，即根据现有的统计，垃圾短信都是在同一时间内发送给大量不同的接收号码，而非垃圾短信往往是有针对性的发送给某些有需要的人，数量远远小于垃圾短信，因此，当不同接收号码的条数与待检测短信的条数的比例小于或等于第三预设阈值时，可以识别该发送短信源号码为非发送垃圾短信的号码，转为步骤209。否则，转为步骤203。

步骤203，从待检测短信中选取一条作为基准检验短信，并将其余的各条待检测短信作为待比较短信。

假设经过步骤202之后，该发送短信源号码剩下的短信为P条，依次为M₁、M₂、M₃…M_i...Mp，其中i为整数，1≤i≤P，N、P和i均为大于0的整数，短信中心可以从待检测短信中随机抽取一条作为基准检验短信，也可以根据其它预设规则从待检测短信中随机抽取一条作为基准检验短信，具体可以根据实际需要进行设置，在此不再赘述。

步骤204，从基准检验短信中抽取待比较词汇。

短信中心可以根据现有的自动分词技术从基准检验短信中抽取待比较词汇。例如，短信中心可以先将基准检验短信划分为N个词汇，去除其中的不必要词汇，该不必要词汇可以预先设定，例如“啊”、“的”、“了”或“吧”等等。由于这些词汇在通常的短信中都会存在，没有实际特别的含义，去除这些词汇可以减轻短信中心后续操作的负担。

本实施例中所抽取的待比较词汇，可以是去除了不必要词汇之后的所有待比较词汇，也可以是其中的一部分，例如去除了不必要词汇之后剩余词汇的1/3，以减轻短信中心的负担，

步骤205，根据待比较词汇和各待比较短信获取各待比较短信的短信相似度，并根据各短信相似度获取发送短信源号码的内容相似度。

将N个待比较词汇分别与待比较短信M_i进行匹配，当S个待比较词汇匹配成功时，该待比较短信的短信相似度为R_i=S/N，其中S为大于或等于0的整数。例如，选取了N个待比较词汇，将N个待比较词汇与某个待比较短信进行匹配，当匹配成功S个待比较词汇时，该待比较短信的短信相似度为S/N。接下来获取该发送短信源号码的对应的短信相似度总和R=∑R_i，并根据短信相似度总和获取短信号码的内容相似度为Q=R/P。

步骤206，当内容相似度大于第一预设阈值时，转为步骤207，否则，执行步骤209。

该第一预设阈值可以根据实际需要进行设定，在此不再赘述。

步骤207，根据预设的垃圾词库判断待比较词汇中放入垃圾词汇是否大于预设的垃圾词汇阈值，当判断结果为否时，执行步骤209，否则，识别缓存区内该发送短信源号码对应的所有短信为垃圾短信，即转为步骤208。

垃圾词库是由垃圾词汇组成的，垃圾词汇即根据历史的垃圾短信统计出的词汇，例如“中奖”、“获赠”、“中大奖”或“***功”等，首先根据垃圾词库对待比较词汇进行匹配，当匹配的结果为待比较词汇中有大于或等于M个词汇属于垃圾词汇时，判断该发送短信源号码为专门发送垃圾短信的号码。这里的M为预设的垃圾词汇阈值，具体为大于0的整数，具体可以根据实际需要进行设定，例如为1、2或5个。识别垃圾词汇是为了能够尽块分辨出专门发送垃圾短信的号码，并减轻短信中心的负担。

步骤208，识别缓存区内该发送短信源号码对应的所有短信为垃圾短信，并将发送短信源号码加入黑名单，以不再转发该发送短信源号码所发送的任何短信。

步骤209，转发该发送短信源号码在缓存区中对应的所有短信。

根据本实施例的识别垃圾短信的方法，短信中心根据实际统计情况首先对缓存区的短信进行过滤操作，以减少需要检测的发送短信源号码的数量，能够减轻短信中心的操作，并有效识别出垃圾短信。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例三提供一种识别垃圾短信的装置，用于执行上述识别垃圾短信的方法。

如图3所示，为根据本实施例的识别垃圾短信的装置的结构示意图。

该识别垃圾短信的装置的结构包括：获取模块301、第一抽取模块302、第二抽取模块303、获取内容相似度模块304和第一判断模块305。

其中，获取模块301用于获取发送短信源号码对应的多条待检测短信；第一抽取模块302与获取模块301连接，用于从待检测短信中选取一条作为基准检验短信，并将待检测短信中除去基准检验短信之外的各条短信作为待比较短信；第二抽取模块303与第一抽取模块302连接，用于从基准检验短信中抽取待比较词汇；获取内容相似度模块304分别与第一抽取模块302、第二抽模块303连接，用于根据待比较词汇和待比较短信，获取发送短信源号码的内容相似度；第一判断模块305与获取内容相似度模块304连接，用于当内容相似度大于第一预设阈值时，将发送短信源号码对应的所有短信识别为垃圾短信。

本实施例的具体操作步骤与实施例一一致，在此不再赘述。

根据本实施例的识别垃圾短信的装置，通过比较同一发送短信源号码所对应的短信内容，以判断该发送短信源号码所对应的终端是否发送了大量相同的短信，从而进一步判断该发送短信源号码是否为专门对应垃圾短信的号码，以有效识别垃圾短信。

本实施例四基于实施例三提供一种识别垃圾短信的装置。

如图4所示，为根据本实施例的识别垃圾短信的装置的结构示意图。该识别垃圾短信的装置包括：获取模块301、第一抽取模块302、第二抽取模块303、获取内容相似度模块304和第一判断模块305。

其中，第一判断模块305可以包括：比较子模块410、识别垃圾词汇子模块401、识别子模块411。具体地，比较子模块410可与获取内容相似度模块304连接，用于当比较出内容相似度大于第一预设阈值时，触发识别垃圾词汇子模块401；识别垃圾词汇子模块401分别与比较子模块410和识别子模块411连接，用于根据预设的垃圾词库判断待比较词汇中的垃圾词汇是否大于预设的垃圾词汇阈值，当判断结果为是时，触发识别子模块411；识别子模块411用于将发送短信源号码对应的所有短信识别为垃圾短信。

其中，获取内容相似度模块304可具体用于：

将N个待比较词汇分别与待比较短信M_i进行匹配，其中1≤i≤P，P为待比较短信的个数，N、P和i均为大于0的整数；

当S个待比较词汇匹配成功时，该待比较短信的短信相似度为R_i=S/N，其中S为大于或等于0的整数；

获取短信相似度总和R=∑R_i；

根据短信相似度总和获取短信号码的内容相似度为Q=R/P。

可选地，本实施例的识别垃圾短信的装置还包括第二判断模块402，该第二判断模块402与获取模块301连接，用于当缓存区的短信数量存满时或缓存时间大于预设时间时，获取缓存区中对应短信条数大于第二预设阈值的发送短信源号码，并触发获取模块301。

可选地，本实施例的识别垃圾短信的装置还包括第三判断模块403，该第三判断模块403可以分别与402和获取模块301连接，用于获取大于第二预设阈值的发送短信源号码对应的不同接收号码的个数，判断不同接收号码的个数与待检测短信的个数的比例是否大于第三预设阈值，当判断结果为是时，触发获取模块301。

图4中示出了同时包含第二获取模块402和第三获取模块403的情况，第二获取模块402和第三获取模块403可以只存在一个，具体可以根据实际需要进行设定。

本实施例的识别垃圾短信的装置的具体操作方法与上述实施例一致，在此不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种识别垃圾短信的方法，其特征在于，包括：

获取发送短信源号码对应的多条待检测短信；

从所述基准检验短信中抽取待比较词汇；

2.根据权利要求1所述的识别垃圾短信的方法，其特征在于，当所述内容相似度大于第一预设阈值之后，且在将所述发送短信源号码对应的所有短信识别为垃圾短信之前，还包括：

根据预设的垃圾词库判断所述待比较词汇中的垃圾词汇是否大于预设垃圾词汇阈值；

当判断结果为是时，执行将所述发送短信号码对应的所有短信识别为垃圾短信的操作。

3.根据权利要求1所述的识别垃圾短信的方法，其特征在于，所述根据所述待比较词汇和各所述待比较短信获取所述发送短信源号码的内容相似度包括：

根据所述待比较词汇和各所述待比较短信获取各所述待比较短信的短信相似度；

根据各所述短信相似度获取所述发送短信源号码的内容相似度。

4.根据权利要求3所述的识别垃圾短信的方法，其特征在于，所述根据所述待比较词汇和各所述待比较短信获取各所述待比较短信的短信相似度包括：

将N个待比较词汇分别与所述待比较短信M_i进行匹配，其中1≤i≤P，P为待比较短信的个数，N、P和i均为大于0的整数；

所述根据各所述短信相似度获取所述短信号码的内容相似度包括：

获取短信相似度总和R=∑R_i；

根据所述短信相似度总和获取所述短信号码的内容相似度为Q=R/P。

5.根据权利要求1~4中任一条所述的识别垃圾短信的方法，其特征在于，在获取发送短信源号码对应的待检测短信之前，还包括：

当缓存区的短信数量存满时或缓存时间大于预设时间时，获取缓存区中对应短信条数大于第二预设阈值的发送短信源号码，并执行获取发送短信源号码对应的待检测短信的操作。

6.根据权利要求5所述的识别垃圾短信的方法，其特征在于，在获取缓存中对应短信条数大于第二预设阈值的发送短信源号码之后，且在执行获取发送短信源号码对应的待检测短信的操作之前，还包括：

获取所述大于第二预设阈值的发送短信源号码对应的不同接收号码的个数，判断所述不同接收号码的个数与所述待检测短信的个数的比例是否大于第三预设阈值，当判断结果为是时，执行获取发送短信源号码对应的待检测短信的操作。

7.一种识别垃圾短信的装置，其特征在于，包括：

8.根据权利要求7所述的识别垃圾短信的装置，其特征在于，所述第一判断模块包括：

比较子模块，用于当比较出所述内容相似度大于第一预设阈值时，触发所述识别垃圾词汇子模块，

识别垃圾词汇子模块，用于根据预设的垃圾词库判断所述待比较词汇中的垃圾词汇是否大于预设的垃圾词汇阈值，当判断结果为是时，触发识别子模块；

所述识别子模块，用于将所述发送短信源号码对应的所有短信识别为垃圾短信。

9.根据权利要求7所述的识别垃圾短信的装置，其特征在于，所述获取内容相似度模块具体用于：

获取短信相似度总和R=∑R_i；

10.根据权利要求7~9中任一项所述的识别垃圾短信的装置，其特征在于，还包括：

第二判断模块，用于当缓存区的短信数量存满时或缓存时间大于预设时间时，获取缓存区中对应短信条数大于第二预设阈值的发送短信源号码，并触发所述获取模块；

第三判断模块，用于获取所述大于第二预设阈值的发送短信源号码对应的不同接收号码的个数，判断所述不同接收号码的个数与所述待检测短信的个数的比例是否大于第三预设阈值，当判断结果为是时，触发所述获取模块。