CN104346337A - 一种拦截垃圾信息的方法和装置 - Google Patents

一种拦截垃圾信息的方法和装置 Download PDF

Info

Publication number
CN104346337A
CN104346337A CN201310313807.6A CN201310313807A CN104346337A CN 104346337 A CN104346337 A CN 104346337A CN 201310313807 A CN201310313807 A CN 201310313807A CN 104346337 A CN104346337 A CN 104346337A
Authority
CN
China
Prior art keywords
information
character
tackled
preset format
english alphabet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310313807.6A
Other languages
English (en)
Other versions
CN104346337B (zh
Inventor
刘严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310313807.6A priority Critical patent/CN104346337B/zh
Priority to PCT/CN2014/070089 priority patent/WO2015010453A1/en
Priority to US14/219,528 priority patent/US20150032830A1/en
Publication of CN104346337A publication Critical patent/CN104346337A/zh
Application granted granted Critical
Publication of CN104346337B publication Critical patent/CN104346337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种拦截垃圾信息的方法和装置,属于互联网通信领域。所述方法包括:接收待拦截的信息;将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的***数字字符;将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。所述装置包括:接收模块、转换模块、第一确定模块和拦截模块。本发明不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。

Description

一种拦截垃圾信息的方法和装置
技术领域
本发明涉及互联网通信领域,特别涉及一种拦截垃圾信息的方法和装置。
背景技术
随着互联网通信技术的快速发展,我们的生活当中出现了各种各类的垃圾信息,比如诈骗信息和非法广告等,并且好多用户因为该类垃圾信息而上当受骗,所以拦截该类垃圾信息是避免用户上当受骗的当务之急。
目前,拦截垃圾信息的方法具体为:技术人员向信息拦截***输入垃圾信息样本,假如该垃圾信息样本为“中央电视台《非常6+1》:恭喜您被评选为非常6+1幸运观众,获得二等奖,奖品为三星笔记本Q40+48000元奖金,请登录www.cctv3yx.cn领取,验证码为:【1006】。客服:400-6162-066”。信息拦截***提取该垃圾信息样本的样本特征包括“非常6+1”、“幸运观众”、“二等奖”和“奖品”,将提取的样本特征存储在特征库中。信息拦截***接收待拦截的信息,并提取待拦截的信息中的特征包括“非常6+1”、“幸运观众”、“二等奖”和“礼品”,计算提取的特征与特征库中包括的每个样本特征之间的相似度,选择与提取的特征之间的相似度大于预设数值的样本特征包括“非常6+1”、“幸运观众”和“二等奖”,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于特征库中存储的样本特征是根据每个样本信息中描述的文字提取出来的,当垃圾信息发布者发现该垃圾信息被拦截时,垃圾信息发布者会马上将该垃圾信息中的文字进行替换,快速地改变该垃圾信息的特征,使信息拦截***无法识别并拦截该垃圾信息。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种拦截垃圾信息的方法和装置。所述技术方案如下:
一方面,提供了一种拦截垃圾信息的方法,所述方法包括:
接收待拦截的信息;
将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的***数字字符;
将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;
如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。
另一方面,提供了一种拦截垃圾信息的装置,所述装置包括:
接收模块,用于接收待拦截的信息;
转换模块,用于将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的***数字字符;
第一确定模块,用于将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;
拦截模块,用于如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。
在本发明实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种拦截垃圾信息的方法流程图;
图2是本发明实施例二提供的一种拦截垃圾信息的方法流程图;
图3是本发明实施例三提供的一种拦截垃圾信息的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种拦截垃圾信息的方法,参见图1,该方法包括:
步骤101:接收待拦截的信息;
步骤102:将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,预设格式的英文字母为单字节的小写英文字母,预设格式的数字字符为单字节的***数字字符;
步骤103:将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹;
步骤104:如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息。
其中,将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,包括:
获取待拦截的信息中的非预设格式的英文字母和数字字符;
根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。
进一步地,获取待拦截的信息中的非预设格式的英文字母和数字字符,包括:
获取待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母;
获取待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
其中,将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹,包括:
提取转换后的待拦截的信息中的英文字母和数字字符;
将提取的英文字母和数字字符组成一个字符序列,并将该字符序列确定为待拦截的信息的特征指纹。
其中,如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息之前,还包括:
如果样本特征指纹库中存在与待拦截的信息的特征指纹相同的字符串或者存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中存在待拦截的信息的特征指纹。
进一步地,该方法还包括:
接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
进一步地,该方法还包括:
接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。
在本发明实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。
实施例二
本发明实施例提供了一种拦截垃圾信息的方法,参见图2,该方法包括:
步骤201:业务***接收待拦截的信息,并将待拦截的信息发送给信息拦截***;
具体地,业务***接收待拦截的信息,通过拦截接口将待拦截的信息发送给信息拦截***。
其中,业务***发送给信息拦截***的待拦截的信息都是统一编码的,例如,将待拦截的信息都统一用GBK进行编码。
步骤202:信息拦截***接收待拦截的信息,获取该待拦截的信息中的非预设格式的英文字母和数字字符;
具体地,信息拦截***通过拦截接口接收待拦截的信息,获取该待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母,以及获取该待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
步骤203:信息拦截***根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,预设格式的英文字母为单字节的小写英文字母,预设格式的数字字符为单字节的***数字字符;
具体地,信息拦截***根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中以形近字表示的字母转换为单字节的小写英文字母,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的以多字节表示的字母转换为单字节的小写英文字母,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的大写的英文字母转换为单字节的小写英文字母;以及根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的以形近字表示的数字字符转换为单字节的***数字字符,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的以汉字表示的数字字符转换为单字节的***数字字符,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的以多字节表示的数字字符转换为单字节的***数字字符。
其中,当垃圾信息的发布者发现经过多次对垃圾信息进行文字描述后其发布的信息还是被拦截后,该垃圾信息发布者可能会将待拦截的信息中的联系方式进行伪装,即将联系方式转换为非预设格式的字符,例如,将联系方式转换为火星文。信息拦截***将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,如此,可以精确地拦截垃圾信息,不至于字符的改变而漏拦截垃圾信息。
例如,待拦截的信息为“中央电视台《非常6+1》:恭喜您被评选为非常6+1幸运观众,获得二等奖,奖品为三星笔记本Q40+48000元奖金,请登录www.cctv3yx.cn领取,验证码为:【1006】。客服:400-6162-066”,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符之后,该待拦截的信息变为“中央电视台《非常6+1》:恭喜您被评选为非常6+1幸运观众,获得2等奖,奖品为3星笔记本q40+48000元奖金,请登录www.cctv3yx.cn领取,验证码为:【1006】。客服:400-6162-066”。
步骤204:信息拦截***将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹;
具体地,信息拦截***提取转换后的待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符组成一个字符序列,将该字符序列确定为待拦截的信息的特征指纹。
其中,将提取的英文字母和数字字符组成一个字符序列具体操作可以为:从该待拦截的信息的第一个字符开始,逐个字符的进行过滤,保留该待拦截的信息中的单字节的英文字母和数字字符,将保留下的单字节的英文字母和数字字符依次进行串接,组成字符序列。
例如,信息拦截***提取的该待拦截的信息中的英文字母和数字字符组成的字符序列为:616123q4048000wwwcctv3yxcn10064006162066,将该字符序列确定为待拦截的信息的特征指纹。
步骤205:信息拦截***根据样本特征指纹库和待拦截的信息的特征指纹,确定样本特征指纹库中是否存在待拦截的信息的特征指纹;
具体地,信息拦截***将样本特征指纹库中的样本特征指纹和待拦截的信息的特征指纹进行比较,如果样本特征指纹库中存在与待拦截的信息的特征指纹相同的字符串或者存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中存在待拦截的信息的特征指纹。
其中,可以事先根据样本特征指纹库中的样本特征指纹建立Trie树,通过遍历一遍待拦截的信息的特征指纹,确定样本特征指纹库中是否存在待拦截的信息的特征指纹,如此通过Trie树比较样本特征指纹库中的样本特征指纹和待拦截的信息的特征指纹,可以提高比较的效率。
其中,Trie树是现有技术,在此不再赘述。
进一步地,如果样本特征指纹库中不存在与待拦截的信息的特征指纹相同的字符串或者不存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中不存在待拦截的信息的特征指纹。
例如,样本特征指纹库中的样本特征指纹包括“wwwcctv3yxcn”、“httppthqxzcn”、“098868229112”和“4006162066”,当从待拦截的信息的特征指纹的第一个字符开始遍历待拦截的信息的特征指纹“616123q4048000wwwcctv3yxcn10064006162066”时,确定出样本特征指纹库中存在待拦截的信息的子串“wwwcctv3yxcn”时,则确定样本特征指纹库中存在待拦截的信息的特征指纹。
步骤206:如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则信息拦截***将待拦截的信息确定为垃圾信息并向业务***发送拦截标识;
具体地,如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则信息拦截***将待拦截的信息确定为垃圾信息并通过拦截接口向业务***发送拦截标识。
进一步地,如果样本特征指纹库中不存在待拦截的信息的特征指纹,则确定该待拦截的信息不是垃圾信息,则向业务***发送不拦截的标识。
步骤207:业务***接收该拦截标识,根据该拦截标识拦截该垃圾信息。
具体地,业务***通过拦截接口接收该拦截标识,并根据该拦截标识拦截该垃圾信息。
进一步地,当管理员发现存在漏拦截的垃圾信息时,如果该漏拦截的垃圾信息中存在非预设格式的字符和预设格式的字符之间的对应关系没有的记录,则该管理员向信息拦截***输入该漏拦截的垃圾信息中的非预设格式的字符和其对应的预设格式的字符,信息拦截***将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
其中,当管理员从其他地方找到一个垃圾信息时,如果该垃圾信息中存在非预设格式的字符和预设格式的字符之间的对应关系没有的记录,则该管理员向信息拦截***输入该垃圾信息中的非预设格式的字符和其对应的预设格式的字符,信息拦截***将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
其中,当信息拦截***将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中之后,管理员将该漏拦截的垃圾信息和/或该管理员从其他地方找到的垃圾信息输入到信息拦截***;信息拦截***接收该垃圾信息,根据非预设格式的字符和预设格式的字符之间的对应关系,将该垃圾信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,将该垃圾信息中的英文字母和数字字符作为该垃圾信息的特征指纹。管理员从该特征指纹中截取联系方式的字符序列,并将截取的字符序列作为样本特征指纹输入信息拦截***;信息拦截***接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库。
其中,业务***还可以周期性的将其显示的信息发送给信息拦截***,使信息拦截***巡查接收的信息中是否存在漏拦截的垃圾信息,如果存在,则使该业务***删除该垃圾信息。
在本发明实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。
实施例三
参见图3,本发明实施例提供了一种拦截垃圾信息的装置,该装置包括:
接收模块301,用于接收待拦截的信息;
转换模块302,用于将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,预设格式的英文字母为单字节的小写英文字母,预设格式的数字字符为单字节的***数字字符;
第一确定模块303,用于将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹;
拦截模块304,用于如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息。
其中,转换模块302包括:
获取单元,用于获取待拦截的信息中的非预设格式的英文字母和数字字符;
转换单元,用于根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。
进一步地,获取单元包括:
第一获取子单元,用于获取待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母;
第二获取子单元,用于获取待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
其中,第一确定模块303包括:
提取单元,用于提取转换后的待拦截的信息中的英文字母和数字字符;
确定单元,用于将提取的英文字母和数字字符组成一个字符序列,并将该字符序列确定为待拦截的信息的特征指纹。
进一步地,该装置还包括:
第二确定模块,用于如果样本特征指纹库中存在与待拦截的信息的特征指纹相同的字符串或者存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中存在待拦截的信息的特征指纹。
进一步地,该装置还包括:
第一存储模块,用于接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
进一步地,该装置还包括:
第二存储模块,用于接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。
在本发明实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。
需要说明的是:上述实施例提供的拦截垃圾信息的装置在拦截垃圾信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的拦截垃圾信息的装置与拦截垃圾信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种拦截垃圾信息的方法,其特征在于,所述方法包括:
接收待拦截的信息;
将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的***数字字符;
将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;
如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,包括:
获取所述待拦截的信息中的非预设格式的英文字母和数字字符;
根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。
3.如权利要求2所述的方法,其特征在于,所述获取所述待拦截的信息中的非预设格式的英文字母和数字字符,包括:
获取所述待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母;
获取所述待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
4.如权利要求1所述的方法,其特征在于,所述将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹,包括:
提取转换后的所述待拦截的信息中的英文字母和数字字符;
将提取的英文字母和数字字符组成一个字符序列,并将所述字符序列确定为所述待拦截的信息的特征指纹。
5.如权利要求1所述的方法,其特征在于,所述如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息之前,还包括:
如果所述样本特征指纹库中存在与所述待拦截的信息的特征指纹相同的字符串或者存在所述待拦截的信息的特征指纹的子串,则确定所述样本特征指纹库中存在所述待拦截的信息的特征指纹。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。
8.一种拦截垃圾信息的装置,其特征在于,所述装置包括:
接收模块,用于接收待拦截的信息;
转换模块,用于将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的***数字字符;
第一确定模块,用于将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;
拦截模块,用于如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。
9.根据权利要求8所述的装置,其特征在于,所述转换模块包括:
获取单元,用于获取所述待拦截的信息中的非预设格式的英文字母和数字字符;
转换单元,用于根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。
10.如权利要求9所述的装置,其特征在于,所述获取单元包括:
第一获取子单元,用于获取所述待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母;
第二获取子单元,用于获取所述待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
11.如权利要求8所述的装置,其特征在于,所述第一确定模块包括:
提取单元,用于提取转换后的所述待拦截的信息中的英文字母和数字字符;
确定单元,用于将提取的英文字母和数字字符组成一个字符序列,并将所述字符序列确定为所述待拦截的信息的特征指纹。
12.如权利要求8所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于如果所述样本特征指纹库中存在与所述待拦截的信息的特征指纹相同的字符串或者存在所述待拦截的信息的特征指纹的子串,则确定所述样本特征指纹库中存在所述待拦截的信息的特征指纹。
13.如权利要求8所述的装置,其特征在于,所述装置还包括:
第一存储模块,用于接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
14.如权利要求8所述的装置,其特征在于,所述装置还包括:
第二存储模块,用于接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。
CN201310313807.6A 2013-07-24 2013-07-24 一种拦截垃圾信息的方法和装置 Active CN104346337B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310313807.6A CN104346337B (zh) 2013-07-24 2013-07-24 一种拦截垃圾信息的方法和装置
PCT/CN2014/070089 WO2015010453A1 (en) 2013-07-24 2014-01-03 Systems and methods for spam interception
US14/219,528 US20150032830A1 (en) 2013-07-24 2014-03-19 Systems and Methods for Spam Interception

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310313807.6A CN104346337B (zh) 2013-07-24 2013-07-24 一种拦截垃圾信息的方法和装置

Publications (2)

Publication Number Publication Date
CN104346337A true CN104346337A (zh) 2015-02-11
CN104346337B CN104346337B (zh) 2017-02-08

Family

ID=52392670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310313807.6A Active CN104346337B (zh) 2013-07-24 2013-07-24 一种拦截垃圾信息的方法和装置

Country Status (2)

Country Link
CN (1) CN104346337B (zh)
WO (1) WO2015010453A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573696A (zh) * 2017-03-10 2018-09-25 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN109145284A (zh) * 2017-06-19 2019-01-04 阿里巴巴集团控股有限公司 信息处理方法和装置
CN111090787A (zh) * 2018-10-23 2020-05-01 阿里巴巴集团控股有限公司 一种消息处理方法、设备、***及存储介质
CN113011165A (zh) * 2021-03-19 2021-06-22 支付宝(杭州)信息技术有限公司 一种识别被封锁关键词的方法、装置、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110913397B (zh) * 2019-12-17 2023-05-30 腾讯云计算(北京)有限责任公司 短信校验方法、装置、存储介质和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070179951A1 (en) * 2006-01-30 2007-08-02 Aldo Monteforte Content Acquisition and Management System and Method
US20080034286A1 (en) * 2006-07-19 2008-02-07 Verizon Services Organization Inc. Intercepting text strings
CN101656927A (zh) * 2009-09-22 2010-02-24 中兴通讯股份有限公司 一种基于内容识别技术的彩信内容监控***和方法
CN102045652A (zh) * 2009-10-21 2011-05-04 深圳市彩讯科技有限公司 基于特征相似度的垃圾短信拦截方法
CN102323929A (zh) * 2011-08-23 2012-01-18 上海粱江通信技术有限公司 一种实现中文短信模糊匹配关键字的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITFI20070177A1 (it) * 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
CN103108290A (zh) * 2011-11-09 2013-05-15 北京华中融合科技有限公司 短信处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070179951A1 (en) * 2006-01-30 2007-08-02 Aldo Monteforte Content Acquisition and Management System and Method
US20080034286A1 (en) * 2006-07-19 2008-02-07 Verizon Services Organization Inc. Intercepting text strings
CN101656927A (zh) * 2009-09-22 2010-02-24 中兴通讯股份有限公司 一种基于内容识别技术的彩信内容监控***和方法
CN102045652A (zh) * 2009-10-21 2011-05-04 深圳市彩讯科技有限公司 基于特征相似度的垃圾短信拦截方法
CN102323929A (zh) * 2011-08-23 2012-01-18 上海粱江通信技术有限公司 一种实现中文短信模糊匹配关键字的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573696A (zh) * 2017-03-10 2018-09-25 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN109145284A (zh) * 2017-06-19 2019-01-04 阿里巴巴集团控股有限公司 信息处理方法和装置
CN111090787A (zh) * 2018-10-23 2020-05-01 阿里巴巴集团控股有限公司 一种消息处理方法、设备、***及存储介质
CN113011165A (zh) * 2021-03-19 2021-06-22 支付宝(杭州)信息技术有限公司 一种识别被封锁关键词的方法、装置、设备及介质
CN113011165B (zh) * 2021-03-19 2024-06-07 支付宝(中国)网络技术有限公司 一种识别被封锁关键词的方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2015010453A1 (en) 2015-01-29
CN104346337B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN104346337A (zh) 一种拦截垃圾信息的方法和装置
CN104462509A (zh) 垃圾评论检测方法及装置
CN106445484A (zh) 通过软件开发工具包实现数据跟踪的方法及***
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN101197793B (zh) 一种垃圾信息检测方法和装置
CN104915334A (zh) 一种基于语义分析的招投标项目关键信息自动化提取方法
CN104135498A (zh) 一种跨平台的信息推送***及其推送方法
CN104717674A (zh) 号码属性识别方法、装置、终端和服务器
CN105426759A (zh) Url的合法性识别方法及装置
CN103905379A (zh) 一种标识互联网用户的方法,及装置
CN105868284B (zh) 一种企业通讯录的部署方法及***
CN107895122A (zh) 一种专用敏感信息主动防御方法、装置及***
CN103369486A (zh) 诈骗短信防范***与防范方法
CN104994128A (zh) 一种数据编码类型识别及转码方法和装置
CN102572745A (zh) 垃圾短消息确定方法及装置
CN103902906A (zh) 基于应用图标的移动终端恶意代码检测方法及***
CN104407839A (zh) 一种复杂运算逻辑的解析方法及装置
CN114241501A (zh) 影像文档处理方法、装置及电子设备
CN103929499A (zh) 一种物联网异构标识识别方法和***
CN106777061B (zh) 基于网页文本和图像的信息隐藏***、方法及提取方法
CN105681523A (zh) 一种自动发送生日祝福短信的方法及装置
CN103473657A (zh) 旅馆信息采集***及其信息采集方法
CN107391695A (zh) 一种基于大数据的信息提取方法
CN113472686A (zh) 信息识别方法、装置、设备及存储介质
CN106600408A (zh) 一种企业知识产权信息获取、处理和评价***以及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200827

Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right