CN111669451A - 私人邮箱判断方法及判断装置 - Google Patents
私人邮箱判断方法及判断装置 Download PDFInfo
- Publication number
- CN111669451A CN111669451A CN201910173126.1A CN201910173126A CN111669451A CN 111669451 A CN111669451 A CN 111669451A CN 201910173126 A CN201910173126 A CN 201910173126A CN 111669451 A CN111669451 A CN 111669451A
- Authority
- CN
- China
- Prior art keywords
- character
- inbox
- prefix
- sender
- outbox
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/30—Types of network names
- H04L2101/37—E-mail addresses
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/30—Types of network names
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/30—Types of network names
- H04L2101/35—Types of network names containing special prefixes
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种私人邮箱判断方法及判断装置,包括获取收件箱、发件箱、发件人的姓名和发件人的手机号;对收件箱、发件箱和发件人的姓名进行预处理;分别计算收件箱前缀字符与发件箱前缀字符、发件人姓名扩展字符之间的类编辑距离,和收件箱前缀字符与发件人手机号重合的位数;计算相似度比率,判断该比率是否不小于设定值,若是,则认定该收件箱为当前发件人的私人邮箱。根据本申请实施例提供的技术方案,提供了一种邮件外发至私人邮箱时对于私人邮箱的识别技术,其中通过将收件邮箱分别与发件邮箱、发件人姓名信息以及发件人手机号等进行比较,判断收件邮箱与发件人的关联程度,进一步的判断出该收件箱是否为发件人的私人邮箱。
Description
技术领域
本发明一般涉及计算机技术领域,尤其涉及私人邮箱判断方法及判断装置。
背景技术
企业在管理过程中普遍存在因邮件外发导致的内部数据泄漏的事件发生,因无法获得员工的私人邮箱,难以及时阻止员工外发企业内部数据至私人邮箱的行为,因此,及时的对员工使用的邮箱是否是私人邮箱进行判断较为重要。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种私人邮箱判断方法及判断装置。
第一方面,提供一种私人邮箱判断方法,包括步骤:
获取收件箱、发件箱、发件人的姓名和发件人的手机号;
对所述收件箱、发件箱和发件人的姓名进行预处理,获取收件箱前缀字符、发件箱前缀字符和发件人姓名扩展字符;
分别计算所述收件箱前缀字符与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号之间的类编辑距离,和所述收件箱前缀字符与所述发件人手机号重合的位数;
根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号长度之和计算相似度比率,根据所述收件箱前缀字符与所述发件人手机号扩展字符重合的位数确定相似度比率;
判断上述相似度比率是否不小于设定值,若是,则认定该收件箱为当前发件人的私人邮箱。
第二方面,提供一种私人邮箱判断装置,包括:
获取单元,用于获取收件箱、发件箱、发件人的姓名和发件人的手机号;
预处理单元,用于对所述收件箱、发件箱和发件人的姓名进行预处理,获得收件箱前缀字符、发件箱前缀字符和发件人姓名扩展字符;
第一计算单元,用于分别计算所述收件箱前缀字符与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号之间的类编辑距离;
第二计算单元,用于计算所述收件箱前缀字符与所述发件人手机号重合的位数;
第三计算单元,用于根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号长度之和计算相似度比率;
第四计算单元,根据所述收件箱前缀字符与所述发件人手机号扩展字符重合的位数确定相似度比率;
私人邮箱确定单元,用于判断上述相似度比率是否不小于设定值,若是,则认定该收件箱为当前发件人的私人邮箱。
根据本申请实施例提供的技术方案,提供了一种邮件外发至私人邮箱时对于私人邮箱的识别技术,其中通过将收件邮箱分别与发件邮箱、发件人姓名信息以及发件人手机号等进行比较,判断收件邮箱与发件人的关联程度,进一步的判断出该收件箱是否为发件人的私人邮箱。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本实施例中私人邮箱判断方法流程图;
图2为本实施例中私人邮箱判断装置结构示意图;
图3为根据本申请实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,本实施例中提供一种私人邮箱判断方法,包括步骤:
获取收件箱、发件箱、发件人的姓名和发件人的手机号;
对所述收件箱、发件箱和发件人的姓名进行预处理,获取收件箱前缀字符、发件箱前缀字符和发件人姓名扩展字符;
分别计算所述收件箱前缀字符与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号之间的类编辑距离,和所述收件箱前缀字符与所述发件人手机号重合的位数;
根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号长度之和计算相似度比率,根据所述收件箱前缀字符与所述发件人手机号扩展字符重合的位数确定相似度比率;
判断上述相似度比率是否不小于设定值,若是,则认定该收件箱为当前发件人的私人邮箱。
本实施例的判断方法在发件人在发送邮件的时候,对该发件人的发件箱、收件箱、发件人的姓名、发件人手机号进行获取,并且对获取的信息进行预处理,将需要进行操作处理的信息提取出来,需要提取出的信息包括发件箱的前缀、收件箱的前缀以及对发件人姓名的扩展,将收件箱前缀分别与发件箱前缀、发件人姓名的扩展以及发件人的手机号进行比较,其中采用了两种比较方式,一是计算类编辑距离即计算一个字符串转换成另一个字符串所需要的个编辑方式指定数值和,二是判断收件箱与发件人手机号的重合位数,进一步的判断收件箱前缀与发件人的关联度,若与发件人姓名或者手机号等私人信息的关联度较大,则进一步的判断收件箱是否为该发件人的私人邮箱。
进一步的,所述“获取所述发件人姓名的扩展字符”包括步骤:根据发件人的姓名拼音进行扩展,所述扩展字符至少包括:姓名任意组合全拼、姓名任意两字组合全拼、姓名首字母任意组合、某一字首字母和其他全拼任意组合。
经过观察发现大部分人会按照自己的姓名来设置邮箱账号,因此本实施例中首先需要对发件人的姓名进行预处理,将员工的姓名转换成拼音进行扩展,求解扩展后的字符与收件箱前缀的类编辑距离,进一步的确定该邮箱是否为私人邮箱;对员工姓名拼音的扩展至少包括上述几个方面,例如顺序全拼、倒叙全拼、混合顺序全拼、顺序首字母、倒叙首字母、混合顺序首字母等等,本实施例中提供较多种可能性的姓名扩展字符,以便尽可能的覆盖与发件人姓名相关的情况;例如:发件人姓名为刘德华,拼音全称为liudehua,对该姓名进行扩展,可以得到以下姓名扩展字符:dehualiu、huadeliu、liuhuade、ldh、dhl、hdl、lhd、liudh、dhliu、hdliu、dliuh、hliud、ldhua、lhuad、huadl、huald、huadl、dlhua、dhual、ldeh、lhde、dehl、delh、hlde、hdel等等,尽可能进行拼音的全扩展,以便增加后续比较计算的准确度。
进一步的,计算所述类编辑距离为:计算将所述收件箱前缀字符编辑为所述发件箱前缀字符或者所述发件人姓名扩展字符或者发件人手机号的编辑次数,所述编辑方式为***或者删除或者替换,所述类编辑距离等于各编辑方式指定数值之和,所述删除和***指定数值为1、所述替换指定数值为2。
本实施例中根据上述预处理后的字符进行类编辑距离的计算,例如,将‘victoria’转换成‘victory’的编辑距离有两种求解:
a)‘victoria’删除‘i’和‘a’,再***‘y’得到‘victory’,共经过2次删除,1次***,因此类编辑距离为3;
b)‘victoria’删除‘i’或者‘a’,再用‘y’替换,得到‘victory’,共经过1次删除,1次替换,因此类编辑距离为3。
进一步的,若所述收件箱前缀字符或者所述发件箱前缀字符包括多个数字,则还包括步骤:对所述收件箱前缀字符和/或者所述发件箱前缀字符进行预处理,去除所述收件箱前缀字符中的数字和字母,分别获取收件箱前缀第一字符和收件箱前缀第二字符;和/或者所述发件箱前缀字符中的数字,获取发件箱前缀第一字符;
计算所述收件箱前缀字符与所述发件箱前缀字符之间的类编辑距离还包括:分别计算所述收件箱前缀字符与发件箱前缀字符、所述收件箱前缀第一字符与发件箱前缀字符、所述收件箱前缀字符与发件箱前缀第一字符、所述收件箱前缀第一字符与发件箱前缀第一字符之间的类编辑距离,取最小值为所述收件箱前缀字符与所述发件箱前缀字符之间的类编辑距离;
计算所述收件箱前缀字符与所述发件人手机号之间的类编辑距离为:计算所述收件箱前缀第二字符与所述发件人手机号之间的类编辑距离。
在实际操作过程中还需要考虑进行收件箱和发件箱的比较的时候,收件箱或者发件箱前缀字符中存在太多数字以及数字太多造成字符串长度相差太大的情况,上述情况会造成类编辑距离变大,进一步的影响私人邮箱的判断,本实施例中提供了上述情况的处理方式,将存在较多数字的邮箱前缀字符进行预处理,形成两种不同的字符,例如发件箱为liudehua12345,预处理后形成字符liudehua12345和第一字符liudehua,分别计算两种字符与收件箱之间的类编辑距离,取类编辑距离数字最小值,以减少数字过多造成的影响;
本实施例中还通过收件箱前缀字符与发件人手机号之间进行比较,确定类编辑距离或者直接确定相似度比率,当收件箱前缀中既有字母又有数字时,除了通过确定与发件人手机号的重合位数之外,还将去除了字母的收件箱前缀与发件人手机号进行比较,去除了字母为收件箱前缀第二字符,计算该第二字符与发件人手机号之间的类编辑距离,能够全面的对收件箱和发件人手机号进行比对,防止出现漏比较的情况。
进一步的,根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号长度之和计算相似度比率为:(所述收件箱前缀字符长度+所述发件箱前缀字符长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件箱前缀字符长度),或者(所述收件箱前缀字符长度+所述发件人姓名扩展字符长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件人姓名扩展字符长度),或者(所述收件箱前缀字符长度+所述发件人手机号长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件人手机号长度)。
不同邮箱、不同姓名之间的类编辑距离不相同,类编辑距离小也并不能说明该邮箱就为私人邮箱,因此,根据计算出的类编辑距离除以用于计算的字符之和,确定相似度比率,根据该相似度比率进行私人邮箱的判断,本实施例中主要采用三种方式进行收件箱前缀字符的比较,可以反馈三种方式的最大比率,返回的相似度比率取值范围为0-1,表示该收件箱为发件人私人邮箱的可能性,根据实际情况选取设定值,大于等于该设定值的相似度比率都认定该收件箱为私人邮箱,本实施例中优选的取0.8为设定值,能够较为精确的识别出员工的私人邮箱,及时阻止企业内部***露。
本实施例中给出相似度比率计算的公式,该相似度比率又称为莱文斯坦比Levenshtein.ratio(str1,str2)=(sum-ldist)/sum。其中sum指str1和str2字符串的长度总和,ldist是类编辑距离。上面实施例中将‘victoria’转换成‘victory’的相似度比率计算为:由于这两种情况的编辑距离相同,因此类编辑距离为3,二者的字符串长度总和为8+7=15,根据莱文斯坦比公式,得到二者的相似度比率为:(15-3)/15=0.8。
进一步的,根据所述收件箱前缀字符与所述发件人手机号重合的位数确定相似度比率包括步骤:当所述收件箱前缀字符与所述发件人手机号扩展字符重合位数大于等于8时,设定所述相似度比率为1。
本实施例中通过发件人手机号进行私人邮箱的判断时,通过收件箱前缀字符与手机号重合的位数进行确定,该重合的位数为手机号任意N位连续数字,若收件箱与发件人手机号重合的位数较多,则基本可以确定其相似度比率较高,根据不同的重合位数设定不同的相似度比率;本实施例中优选的重合位数大于等于八位时,设定该相似度比率为1。
本实施例中的私人邮箱判断方法中还包括一个前提条件,在进行私人邮箱的判断之前,首先通过对收件箱后缀字符的判断,将正常客户等邮箱首先排除出去,能够有效缩小判断的范围以及提高判断的效率和准确率。
如图2所示,本实施例还提供了一种私人邮箱判断装置200,包括:获取单元201,用于获取收件箱、发件箱、发件人的姓名和发件人的手机号;
预处理单元202,用于对所述收件箱、发件箱和发件人的姓名进行预处理,获得收件箱前缀字符、发件箱前缀字符和发件人姓名扩展字符;
第一计算单元205,用于分别计算所述收件箱前缀字符与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号之间的类编辑距离;
第二计算单元206,用于计算所述收件箱前缀字符与所述发件人手机号重合的位数;
第三计算单元207,用于根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号长度之和计算相似度比率;
第四计算单元208,根据所述收件箱前缀字符与所述发件人手机号扩展字符重合的位数确定相似度比率;
私人邮箱确定单元209,用于判断上述相似度比率是否不小于设定值,若是,则认定该收件箱为当前发件人的私人邮箱。
本实施例中的私人邮箱判断装置200的工作原理参考图1所示的判断方法,此处不再赘述。
进一步的,所述预处理单元202还包括字符扩展模块203,用于根据发件人的姓名拼音进行扩展,所述扩展字符至少包括:姓名任意组合全拼、姓名任意两字组合全拼、姓名首字母任意组合、某一字首字母和其他全拼任意组合。
本实施例中描述的字符扩展模块的工作原理参考前述的获取发件人姓名的扩展字符的具体方法,此处不再赘述。
进一步的,所述第一计算单元具体计算方式为:计算将所述收件箱前缀字符编辑为所述发件箱前缀字符或者所述发件人姓名扩展字符或者发件人手机号的类编辑距离,所述编辑方式为***或者删除或者替换,所述类编辑距离等于各编辑方式指定数值之和,所述删除和***指定数值为1、所述替换指定数值为2。
该第一计算单元用来计算类编辑距离,其中采用***或者删除或者替换的方式进行编辑,具体参考上述的处理方法。
进一步的,所述预处理单元202还包括字符调整模块204,用于在所述收件箱前缀字符或者所述发件箱前缀字符包括多个数字时对所述收件箱前缀字符或者所述发件箱前缀字符进行处理,具体包括:去除所述收件箱前缀字符中的数字和字母,分别获取收件箱前缀第一字符和收件箱前缀第二字符;和/或者所述发件箱前缀字符中的数字,获取发件箱前缀第一字符。
本实施例中通过字符调整模块对收件箱或者发件箱前缀字符中存在太多数字以及数字太多造成字符串长度相差太大的情况进行了调整,具体参考上述的调整方法;调整以后通过第一计算单元进行类编辑距离的计算,其中要分别计算所述收件箱前缀字符与发件箱前缀字符、所述收件箱前缀第一字符与发件箱前缀字符、所述收件箱前缀字符与发件箱前缀第一字符、所述收件箱前缀第一字符与发件箱前缀第一字符之间的类编辑距离,取最小值为所述收件箱前缀字符与所述发件箱前缀字符之间的类编辑距离;
计算所述收件箱前缀字符与所述发件人手机号之间的类编辑距离为:计算所述收件箱前缀第二字符与所述发件人手机号之间的类编辑距离。
进一步的,所述第三计算单元计算公式为:相似度比率=(所述收件箱前缀字符长度+所述发件箱前缀字符长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件箱前缀字符长度),或者(所述收件箱前缀字符长度+所述发件人姓名扩展字符长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件人姓名扩展字符长度)。
本实施例中第三计算单元参照上述的计算方法进行相似的比率的计算,不再赘述。
进一步的,所述第四计算单元具体用于根据所述收件箱前缀字符与所述发件人手机号重合的位数确定相似度比率包括步骤:当所述收件箱前缀字符与所述发件人手机号重合位数大于等于8时,设定所述相似度比率为1。
本实施例中详细说明了第四计算单元对手机号进行重合位数判断确定相似的比率的具体操作,参考上述的确定方法。
进一步参考图3,作为另一方面,本申请还提供了一种设备300,包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有装置操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口303也连接至总线304。
以下部件连接至I/O接口303:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口303。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本发明的实施例,上文参考流程图1描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的装置中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的私人邮箱判断方法。
例如,所述电子设备可以实现如图1中所示的步骤:获取收件箱、发件箱、发件人的姓名和发件人的手机号;对所述收件箱、发件箱和发件人的姓名进行预处理,获取收件箱前缀字符、发件箱前缀字符和发件人姓名扩展字符;分别计算所述收件箱前缀字符与所述发件箱前缀字符、所述发件人姓名扩展字符之间的类编辑距离,和所述收件箱前缀字符与所述发件人手机号重合的位数;根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符长度之和计算相似度比率,根据所述收件箱前缀字符与所述发件人手机号扩展字符重合的位数确定相似度比率,选取最大值作为该收件箱为私人邮箱的比率;判断该比率是否不小于设定值,若是,则认定该收件箱为当前发件人的私人邮箱。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种私人邮箱判断方法,其特征在于,包括步骤:
获取收件箱、发件箱、发件人的姓名和发件人的手机号;
对所述收件箱、发件箱和发件人的姓名进行预处理,获取收件箱前缀字符、发件箱前缀字符和发件人姓名扩展字符;
分别计算所述收件箱前缀字符与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号之间的类编辑距离,和所述收件箱前缀字符与所述发件人手机号重合的位数;
根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号长度之和计算相似度比率,根据所述收件箱前缀字符与所述发件人手机号扩展字符重合的位数确定相似度比率;
判断上述相似度比率是否不小于设定值,若是,则认定该收件箱为当前发件人的私人邮箱。
2.根据权利要求1所述的私人邮箱判断方法,其特征在于,所述获取所述发件人姓名的扩展字符包括步骤:根据发件人的姓名拼音进行扩展,所述扩展字符至少包括:姓名任意组合全拼、姓名任意两字组合全拼、姓名首字母任意组合、某一字首字母和其他全拼任意组合。
3.根据权利要求1所述的私人邮箱判断方法,其特征在于,计算所述类编辑距离为:计算将所述收件箱前缀字符编辑为所述发件箱前缀字符或者所述发件人姓名扩展字符或者发件人手机号的类编辑距离,所述编辑方式为***或者删除或者替换,所述类编辑距离等于各编辑方式指定数值之和,所述删除和***指定数值为1、所述替换指定数值为2。
4.根据权利要求1所述的私人邮箱判断方法,其特征在于,若所述收件箱前缀字符或者所述发件箱前缀字符包括多个数字,则还包括步骤:对所述收件箱前缀字符和/或者所述发件箱前缀字符进行预处理,去除所述收件箱前缀字符中的数字和字母,分别获取收件箱前缀第一字符和收件箱前缀第二字符;和/或者所述发件箱前缀字符中的数字,获取发件箱前缀第一字符;
计算所述收件箱前缀字符与所述发件箱前缀字符之间的类编辑距离还包括:分别计算所述收件箱前缀字符与发件箱前缀字符、所述收件箱前缀第一字符与发件箱前缀字符、所述收件箱前缀字符与发件箱前缀第一字符、所述收件箱前缀第一字符与发件箱前缀第一字符之间的类编辑距离,取最小值为所述收件箱前缀字符与所述发件箱前缀字符之间的类编辑距离;
计算所述收件箱前缀字符与所述发件人手机号之间的类编辑距离为:计算所述收件箱前缀第二字符与所述发件人手机号之间的类编辑距离。
5.根据权利要求2所述的私人邮箱判断方法,其特征在于,“根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号长度之和计算相似度比率”为:(所述收件箱前缀字符长度+所述发件箱前缀字符长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件箱前缀字符长度),或者(所述收件箱前缀字符长度+所述发件人姓名扩展字符长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件人姓名扩展字符长度),或者(所述收件箱前缀字符长度+所述发件人手机号长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件人手机号长度)。
6.一种私人邮箱判断装置,其特征在于,包括:
获取单元,用于获取收件箱、发件箱、发件人的姓名和发件人的手机号;
预处理单元,用于对所述收件箱、发件箱和发件人的姓名进行预处理,获得收件箱前缀字符、发件箱前缀字符和发件人姓名扩展字符;
第一计算单元,用于分别计算所述收件箱前缀字符与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号之间的类编辑距离;
第二计算单元,用于计算所述收件箱前缀字符与所述发件人手机号重合的位数;
第三计算单元,用于根据所述类编辑距离和所述收件箱前缀字符分别与所述发件箱前缀字符、所述发件人姓名扩展字符、所述发件人手机号长度之和计算相似度比率;
第四计算单元,根据所述收件箱前缀字符与所述发件人手机号扩展字符重合的位数确定相似度比率;
私人邮箱确定单元,用于判断上述相似度比率是否不小于设定值,若是,则认定该收件箱为当前发件人的私人邮箱。
7.根据权利要求6所述的私人邮箱判断装置,其特征在于,所述预处理单元还包括字符扩展模块,用于根据发件人的姓名拼音进行扩展,所述扩展字符至少包括:姓名任意组合全拼、姓名任意两字组合全拼、姓名首字母任意组合、某一字首字母和其他全拼任意组合。
8.根据权利要求6所述的私人邮箱判断装置,其特征在于,所述第一计算单元具体计算方式为:计算将所述收件箱前缀字符编辑为所述发件箱前缀字符或者所述发件人姓名扩展字符或者发件人手机号的类编辑距离,所述编辑方式为***或者删除或者替换,所述类编辑距离等于各编辑方式指定数值之和,所述删除和***指定数值为1、所述替换指定数值为2。
9.根据权利要求6所述的私人邮箱判断装置,其特征在于,所述预处理单元还包括字符调整模块,用于在所述收件箱前缀字符或者所述发件箱前缀字符包括多个数字时对所述收件箱前缀字符或者所述发件箱前缀字符进行处理,具体包括:去除所述收件箱前缀字符中的数字和字母,分别获取收件箱前缀第一字符和收件箱前缀第二字符;和/或者所述发件箱前缀字符中的数字,获取发件箱前缀第一字符。
10.根据权利要求6所述的私人邮箱判断装置,其特征在于,所述第三计算单元计算公式为:相似度比率=(所述收件箱前缀字符长度+所述发件箱前缀字符长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件箱前缀字符长度),或者(所述收件箱前缀字符长度+所述发件人姓名扩展字符长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件人姓名扩展字符长度),或者(所述收件箱前缀字符长度+所述发件人手机号长度-所述类编辑距离)/(所述收件箱前缀字符长度+所述发件人手机号长度)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910173126.1A CN111669451B (zh) | 2019-03-07 | 2019-03-07 | 私人邮箱判断方法及判断装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910173126.1A CN111669451B (zh) | 2019-03-07 | 2019-03-07 | 私人邮箱判断方法及判断装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111669451A true CN111669451A (zh) | 2020-09-15 |
CN111669451B CN111669451B (zh) | 2022-10-21 |
Family
ID=72382278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910173126.1A Active CN111669451B (zh) | 2019-03-07 | 2019-03-07 | 私人邮箱判断方法及判断装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111669451B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069374A (zh) * | 2020-09-18 | 2020-12-11 | 中国工商银行股份有限公司 | 一种银行多个客户编号的识别方法及装置 |
CN113255324A (zh) * | 2021-03-09 | 2021-08-13 | 西安循数信息科技有限公司 | 一种用于专利数据中发明人姓名消歧的方法 |
CN115099832A (zh) * | 2022-06-29 | 2022-09-23 | 广州华多网络科技有限公司 | 异常用户检测方法及其装置、设备、介质、产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101068217A (zh) * | 2006-06-16 | 2007-11-07 | 腾讯科技(深圳)有限公司 | 一种简化电子邮件操作的方法及装置 |
CN101978669A (zh) * | 2008-03-19 | 2011-02-16 | 网圣公司 | 用于分析电子信息散布事件的***及方法 |
CN104899267A (zh) * | 2015-05-22 | 2015-09-09 | 中国电子科技集团公司第二十八研究所 | 一种社交网站账号相似度的综合数据挖掘方法 |
JP2017054533A (ja) * | 2016-11-04 | 2017-03-16 | エヌ・ティ・ティ・ソフトウェア株式会社 | 不正メール判定装置、及びプログラム |
US20170251006A1 (en) * | 2016-02-25 | 2017-08-31 | Verrafid LLC | System for detecting fraudulent electronic communications impersonation, insider threats and attacks |
CN107707745A (zh) * | 2017-09-25 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN108256587A (zh) * | 2018-02-05 | 2018-07-06 | 武汉斗鱼网络科技有限公司 | 一种字符串相似度的确定方法、装置、计算机及存储介质 |
-
2019
- 2019-03-07 CN CN201910173126.1A patent/CN111669451B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101068217A (zh) * | 2006-06-16 | 2007-11-07 | 腾讯科技(深圳)有限公司 | 一种简化电子邮件操作的方法及装置 |
CN101978669A (zh) * | 2008-03-19 | 2011-02-16 | 网圣公司 | 用于分析电子信息散布事件的***及方法 |
CN104899267A (zh) * | 2015-05-22 | 2015-09-09 | 中国电子科技集团公司第二十八研究所 | 一种社交网站账号相似度的综合数据挖掘方法 |
US20170251006A1 (en) * | 2016-02-25 | 2017-08-31 | Verrafid LLC | System for detecting fraudulent electronic communications impersonation, insider threats and attacks |
JP2017054533A (ja) * | 2016-11-04 | 2017-03-16 | エヌ・ティ・ティ・ソフトウェア株式会社 | 不正メール判定装置、及びプログラム |
CN107707745A (zh) * | 2017-09-25 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN108256587A (zh) * | 2018-02-05 | 2018-07-06 | 武汉斗鱼网络科技有限公司 | 一种字符串相似度的确定方法、装置、计算机及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069374A (zh) * | 2020-09-18 | 2020-12-11 | 中国工商银行股份有限公司 | 一种银行多个客户编号的识别方法及装置 |
CN112069374B (zh) * | 2020-09-18 | 2024-04-30 | 中国工商银行股份有限公司 | 一种银行多个客户编号的识别方法及装置 |
CN113255324A (zh) * | 2021-03-09 | 2021-08-13 | 西安循数信息科技有限公司 | 一种用于专利数据中发明人姓名消歧的方法 |
CN115099832A (zh) * | 2022-06-29 | 2022-09-23 | 广州华多网络科技有限公司 | 异常用户检测方法及其装置、设备、介质、产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111669451B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105389349B (zh) | 词典更新方法及装置 | |
CN111669451B (zh) | 私人邮箱判断方法及判断装置 | |
KR20100087356A (ko) | 문서 병합 | |
CN103810212A (zh) | 一种数据库索引的自动创建方法及*** | |
CN105976302A (zh) | 一种可配置的数据比对方法及*** | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN112560453A (zh) | 语音信息校验方法、装置、电子设备及介质 | |
CN110609908A (zh) | 案件串并方法及装置 | |
CN109241247A (zh) | 多方协作项目的问题处理方法、***及服务器 | |
CN111177401A (zh) | 一种电网自由文本知识抽取方法 | |
CN114706950A (zh) | 一种长文本数据检索方法、装置、设备、存储介质 | |
CN112597748A (zh) | 语料生成方法、装置、设备及计算机可读存储介质 | |
CN116244386B (zh) | 应用于多源异构数据存储***的实体关联关系的识别方法 | |
CN112433757A (zh) | 一种确定接口调用关系的方法和装置 | |
KR101291076B1 (ko) | 스팸 문서 판단 방법 및 그 판단 장치 | |
CN115204123B (zh) | 协同编辑文档的分析方法、分析装置以及存储介质 | |
CN108090084A (zh) | 一种知识管理方法和*** | |
CN112785335A (zh) | 一种面向电子政务绩效考核***的数据处理方法和*** | |
CN106649386A (zh) | 一种客户信息搜索云*** | |
JP2017010376A (ja) | マートレス検証支援システムおよびマートレス検証支援方法 | |
CN117892355B (zh) | 一种基于隐私保护的多方数据联合分析方法及*** | |
CN112989814B (zh) | 检索图谱构建方法、检索方法、装置、设备及存储介质 | |
CN117150215B (zh) | 一种考核结果确定方法、装置、电子设备及存储介质 | |
CN108415930A (zh) | 一种数据解析方法及装置 | |
CN115757413B (zh) | 一种数据编码的方法、装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |