CN106656655A - 一种手机号码提取方法和装置 - Google Patents

一种手机号码提取方法和装置 Download PDF

Info

Publication number
CN106656655A
CN106656655A CN201610974722.6A CN201610974722A CN106656655A CN 106656655 A CN106656655 A CN 106656655A CN 201610974722 A CN201610974722 A CN 201610974722A CN 106656655 A CN106656655 A CN 106656655A
Authority
CN
China
Prior art keywords
phone number
information
number information
mobile
informations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610974722.6A
Other languages
English (en)
Other versions
CN106656655B (zh
Inventor
刘书良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
All communications (Beijing) Network Technology Co., Ltd.
Original Assignee
Haina Cheng (beijing) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haina Cheng (beijing) Information Technology Co Ltd filed Critical Haina Cheng (beijing) Information Technology Co Ltd
Priority to CN201610974722.6A priority Critical patent/CN106656655B/zh
Publication of CN106656655A publication Critical patent/CN106656655A/zh
Application granted granted Critical
Publication of CN106656655B publication Critical patent/CN106656655B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种手机号码提取方法及装置,其中所述方法包括:从移动网络发送的HTTP Get报文中,提取含有手机号码信息的移动网络URL特征信息;获取固网发送的HTTP Get报文;依据移动网络URL特征信息,解析固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息;从固网URL特征信息中提取第一手机号码信息;从固网发送的HTTP Get报文中分离缓存文本Cookie字段信息;从Cookie字段信息中提取第二手机号码信息;依据固网URL特征信息和Cookie字段信息,提取第三手机号码信息;对提取的各号码信息进行过滤,获得目标手机号码,能够准确提取手机号码。

Description

一种手机号码提取方法和装置
技术领域
本发明涉及移动通信与移动互联网技术领域,更具体地,涉及一种手机号码提取方法和装置。
背景技术
现如今,互联网的普及率越来越高,在人们的日常生活中,互联网几乎在每个领域与我们24小时相伴,不仅为人们带来了非常多的便利,也在很大程度是成为了我们的一种生活习惯。在我国的网络用户中,移动网络用户和固网用户占据了绝大多数比例。
移动网络(Mobile Web)指的是使用移动设备,如手机,掌上电脑或其它便携式工具连接到公共网络,实现互联网访问的方式。移动网络不需要固定的设备进行访问。移动网络主要指的是基于浏览器的万维网(Web)服务。然而,由于不兼容格式的大量信息在互联网上提供的移动设备和部分是由于物理尺寸的小屏幕的移动设备和其他设备的限制等多种原因,移动网络接入今天仍然存在着互操作性和可用性问题。
固网指的是固定电话网络,一般指在固定电话公司提供的固定点与点之间的通信网路***。目前,中国的固网公司有:***、中国电信等。固定电话网络用户上网报文中含有丰富的用户身份信息,如手机号码,邮箱,即时通讯服务账号等。这些信息里就包含用户的手机号码,例如很多网站的用户账号、用户注册邮箱的用户名等。
然而,现有的从固网用户发送的超文本传输协议(Hypertext TransferProtocol,HTTP)Get报文中识别和提取用户手机号码的技术,所提取的手机号准确度低。
发明内容
本发明提供了一种手机号码提取方法和装置,以解决现有技术中从固网HTTP Get报文中提取用户手机号码准确度低的问题。
为了解决上述问题,本发明公开了一种手机号码提取方法,所述方法包括:从移动网络发送的超文本传输协议HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;获取固网发送的HTTP Get报文;依据所述移动网络URL特征信息,解析所述固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息;从所述固网URL特征信息中提取第一手机号码信息;从所述固网发送的HTTP Get报文中分离缓存文本Cookie字段信息;通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息;依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息;对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。
优选地,在所述从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络URL特征信息的步骤之前,所述方法还包括:获取移动网络发送的HTTP Get报文。
优选地,所述通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息的步骤包括:利用正则表达式,从所述Cookie字段信息中解析邮箱用户名信息;过滤所述邮箱用户名信息,获得第二手机号码信息。
优选地,所述依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息的步骤包括:从所述Cookie字段信息中提取包含手机号信息的数据;依据固网URL特征信息对所述数据进行校验,统计可提取手机号信息的Cookie特征信息;依据所述Cookie特征信息,从所述Cookie字段信息中提取第三手机号码。
优选地,所述对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码的步骤包括:汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;提取所述固网发送的HTTP Get报文和所述移动网络发送的HTTP Get报文中的地域信息;获取所述汇总信息中,各号码所对应的归属地信息;利用所述地域信息和所述归属地信息,过滤所述汇总信息,获得目标手机号码。
为了解决上述问题,本发明公开了一种手机号码提取装置,所述装置包括:特征提取模块,用于从移动网络发送的超文本传输协议HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;固网报文获取模块,用于获取固网发送的HTTP Get报文;固网报文解析模块,用于依据所述移动网络URL特征信息,解析所述固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息;第一手机号码提取模块,用于从所述固网URL特征信息中提取第一手机号码信息;Cookie字段信息模块,用于从所述固网发送的HTTP Get报文中分离缓存文本Cookie字段信息;第二手机号码提取模块,用于通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息;第三手机号码提取模块,用于依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息;过滤模块,用于对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。
优选地,所述装置还包括:移动网络报文获取模块,用于获取移动网络发送的HTTPGet报文。
优选地,所述第二手机号码提取模块包括:解析子模块,用于利用正则表达式,从所述Cookie字段信息中解析邮箱用户名信息;过滤子模块,用于过滤所述邮箱用户名信息,获得第二手机号码信息。
优选地,所述第三手机号码提取模块包括:Cookie字段提取子模块,用于从所述Cookie字段信息中提取包含手机号信息的数据;统计子模块,用于依据固网URL特征信息对所述数据进行校验,统计可提取手机号信息的Cookie特征信息;手机号提取子模块,用于依据所述Cookie特征信息,从所述Cookie字段信息中提取第三手机号码。
优选地,所述过滤模块包括:汇总子模块,用于汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;地域信息子模块,用于提取所述固网发送的HTTP Get报文和所述移动网络发送的HTTP Get报文中的地域信息;归属地信息子模块,用于获取所述汇总信息中,各号码所对应的归属地信息;过滤执行子模块,用于利用所述地域信息和所述归属地信息,过滤所述汇总信息,获得目标手机号码。
与现有技术相比,本发明具有以下优点:
本发明实施例提供的一种手机号码提取方法和装置,能通过利用移动网的HTTPGet报文的特征,解析固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息,同时分离固网报文中的缓存文本Cookie字段信息,从URL特征信息及Cookie信息中获取手机号并过滤,从而提高了从固网HTTP Get报文中提取用户手机号码的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一的一种手机号码提取方法的步骤流程图;
图2为本发明实施例二的一种手机号码提取方法的步骤流程图;
图3为本发明实施例三提供的一种手机号码提取装置的结构示意图;
图4为本发明实施例四提供的一种手机号码提取装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了本发明实施例一的一种手机号码提取方法的步骤流程图,本发明实施例的手机号码提取方法包括以下步骤:
步骤101:从移动网络发送的HTTP Get报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息。
使用移动网络中的用户上网报文,找到可以匹配到用户手机号的URL特征集合。移动网络的用户上网报文中,含有用户上网手手机号信息和用户访问的URL信息。比如,通过对含有手机号18969339626的一条上网报文的query string parameters参数进行解析,获得如表1中所示以下结果:
表1
role 1
imei A0000049B3069D
area 0
os 4.3
uuid 43BB65F3297C6813B75E14489F8B246E
city_id 0
dviceid 5bfc8075a90a8d6e84f2ce4f130783a6
phone_num 18969339626
model HUAWEI Y535-C00
appversion 4.2.3
phone 18969339626
maptype soso
sig de9f2469657de452cce493ceca382d0bd9817f5a
channel 92
lat 0
userlng 0
对参数进行判断,发现phone_num参数和phone参数对应的值的长度是11位数字,并且是以特定数字开头(13,14,18…),认为是疑似手机号,输出如表2中所示的记录:
表2
用户手机号 Host URL参数关键字 疑似手机号
18969339626 api.abc.com phone_num 18969339626
18969339626 api.abc.com phone 18969339626
对一定时间内的数据(一般是一周)进行统计分析,可以统计出在特定host和url参数关键字作为特征的条件下,疑似手机号和用户真实手机号一致的比率,把这个比率认为正确率,得到类似如表3中所示的特征集合:
表3
需要说明的是,在具体实现过程中,对疑似手机号的特定数字开头,数据进行统计分析的时间段以及phone_num参数和phone参数对应的值的长度等,可以由本领域技术人员根据实际需求进行设置,本发明实施例中对此不作具体限定。
步骤102:获取固网发送的HTTP Get报文。
步骤103:依据移动网络URL特征信息,解析固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息。
将步骤101产生的特征集合中,正确率大于70%的特征作为有效特征,对固网的HTTP Get报文中进行解析,对满足上述特征的用户数据进行输出,就可以相应的获得含有手机号码信息的固网URL特征信息。
需要说明的是,在具体实现过程中,有效特征的正确率并不局限于70%,具体数值可以由本领域技术人员根据实际需求进行设置,本发明实施例中对此不作具体限定。
步骤104:从固网URL特征信息中提取第一手机号码信息。
步骤105:从固网发送的HTTP Get报文中分离Cookie字段信息。
其中,Cookie即缓存文本。
对于使用ADSL拨号上网的用户,可以进一步解析出来用户ADSL帐号和手机号的关系,这个数据会做为一个验证数据集对步骤103中产出的数据进行验证。从固网的HTTP Get报文的Cookie数据中,产出可以匹配手机号的Cookie特征集合。对于ADSL拨号上网用户,上网的报文含有信息及示例如下:其中,表4中所示的为上网的报文含有信息。
表4
通过解析一段时间(一周)用户上网报文中的cookie字段,把疑似手机号的cookie字段信息输出,形成如表5中所示的记录:
表5
ADSL Cookie域 Cookie参数 疑似手机号
OHsEfEp8XAQ= abc.com c_mobil 13135573886
OHsEfEp8XAQ= abc.com u_account 13135573886
将这个结果和步骤103中产出的验证数据进行比较。具体方法为,在相同ADSL下面,通过Cookie解析出来的疑似手机号和步骤103中的手机号比较是否一致。可以得到如表6中所示的cookie特征集合:
表6
步骤106:通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息。
步骤107:依据固网URL特征信息和Cookie字段信息,提取第三手机号码信息。
步骤108:对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。
通过本发明实施例提供的一种手机号码提取方法,能通过利用移动网的HTTP Get报文的特征,解析固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息,同时分离固网报文中的缓存文本Cookie字段信息,从URL特征信息及Cookie信息中获取手机号并过滤,从而提高了从固网HTTPGet报文中提取用户手机号码的准确度。
实施例二
参照图2,示出了本发明实施例二的一种手机号码提取方法流程图,本发明实施例的一种手机号码提取方法包括以下步骤:
步骤201:获取移动网络发送的HTTP Get报文。
步骤202:从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息。
步骤203:获取固网发送的HTTP Get报文。
步骤204:依据移动网络URL特征信息,解析固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息。
步骤205:从固网URL特征信息中提取第一手机号码信息。
步骤206:从固网发送的HTTP Get报文中分离Cookie字段信息;
步骤207:通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息。
一种优选的通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息的方式如下:
S1:利用正则表达式,从Cookie字段信息中解析邮箱用户名信息;
S2:过滤邮箱用户名信息,获得第二手机号码信息。
步骤208:从Cookie字段信息中提取包含手机号信息的数据。
步骤209:依据固网URL特征信息对数据进行校验,统计可以提取手机号信息的Cookie特征信息。
步骤210:依据Cookie特征信息,从Cookie字段信息中提取第三手机号码信息。
步骤211:对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。
一种优选的对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码的方式如下:
S1:汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;
S2:提取固网发送的HTTP Get报文和移动网络发送的HTTP Get报文中的地域信息;
S3:获取汇总信息中,各号码所对应的归属地信息;
提取出来的第一手机号码信息、第二手机号码信息和第三手机号码信息,仍然有大量的噪声,如长度为11位的数字,也可能是随机ID。固网数据是哪个省的用户请求信息是已知的,通过判断手机号段的归属地,可以进一步对手机号的有效性进行过滤。
S4:利用地域信息和归属地信息,过滤汇总信息,获得目标手机号码。
本发明实施例提供的一种手机号码提取方法,除了具有实施例一中的手机号码提取方法所具有的有益效果外,还通过利用固网地域信息和手机归属地信息过滤获取的手机号码,进一步提高了从固网HTTP Get报文中提取用户手机号码准确度。
实施例三
参照图3,示出了本发明的一种手机号码提取装置的结构示意图。本实施例所示的手机号码提取装置包括:
特征提取模块301,用于从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;
固网报文获取模块302,用于获取固网发送的HTTP Get报文。
固网报文解析模块303,用于依据移动网络URL特征信息,解析固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息。
第一手机号码提取模块304,用于从固网URL特征信息中提取第一手机号码信息。
Cookie字段信息模块305,用于从固网发送的HTTP Get报文中分离缓存文本Cookie字段信息。
第二手机号码提取模块306,用于通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息。
第三手机号码提取模块307,用于依据固网URL特征信息和Cookie字段信息,提取第三手机号码信息。
过滤模块308,用于对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。
通过本发明实施例提供的一种手机号码提取装置,能通过利用移动网的HTTP Get报文的特征,解析固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息,同时分离固网报文中的缓存文本Cookie字段信息,从URL特征信息及Cookie信息中获取手机号并过滤,从而提高了从固网HTTPGet报文中提取用户手机号码的准确度。
实施例四
参照图4,示出了本发明的一种手机号码提取装置的结构示意图。本实施例所示的手机号码提取装置包括:
特征提取模块401,用于从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;固网报文获取模块402,用于获取固网发送的HTTP Get报文;固网报文解析模块403,用于依据移动网络URL特征信息,解析固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息;第一手机号码提取模块404,用于从固网URL特征信息中提取第一手机号码信息;Cookie字段信息模块405,用于从固网发送的HTTP Get报文中分离缓存文本Cookie字段信息;第二手机号码提取模块406,用于通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息;第三手机号码提取模块407,用于依据固网URL特征信息和Cookie字段信息,提取第三手机号码信息;过滤模块408,用于对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。
优选地,本实施例所示的手机号码提取装置还包括:移动网络报文获取模块409,用于获取移动网络发送的HTTP Get报文。
优选地,第二手机号码提取模块406包括:解析子模块4061,用于利用正则表达式,从Cookie字段信息中解析邮箱用户名信息;过滤子模块4062,用于过滤邮箱用户名信息,获得第二手机号码信息。
优选地,第三手机号码提取模块407包括:Cookie字段提取子模块4071,用于从Cookie字段信息中提取包含手机号信息的数据;统计子模块4072,用于依据固网URL特征信息对数据进行校验,统计可提取手机号信息的Cookie特征信息;手机号提取子模块4073,用于依据Cookie特征信息,从Cookie字段信息中提取第三手机号码。
优选地,过滤模块包括408:汇总子模块4081,用于汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;地域信息子模块4082,用于提取固网发送的HTTP Get报文和移动网络发送的HTTP Get报文中的地域信息;归属地信息子模块4083,用于获取汇总信息中,各号码所对应的归属地信息;过滤执行子模块4084,用于利用地域信息和归属地信息,过滤汇总信息,获得目标手机号码。
本发明实施例的装置用于实现前述实施例一以及实施例二中相应的手机号码提取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的手机号码提取方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的实施步骤及实现装置进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词固网、移动网、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种手机号码提取方法,其特征在于,所述方法包括:
从移动网络发送的超文本传输协议HTTP Get报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;
获取固网发送的HTTP Get报文;
依据所述移动网络URL特征信息,解析所述固网发送的HTTP Get报文,获得含有手机号码信息的固网URL特征信息;
从所述固网URL特征信息中提取第一手机号码信息;
从所述固网发送的HTTP Get报文中分离缓存文本Cookie字段信息;
通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息;
依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息;
对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。
2.根据权利要求1所述的方法,其特征在于,在所述从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络URL特征信息的步骤之前,所述方法还包括:
获取移动网络发送的HTTP Get报文。
3.根据权利要求1所述的方法,其特征在于,所述通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息的步骤包括:
利用正则表达式,从所述Cookie字段信息中解析邮箱用户名信息;
过滤所述邮箱用户名信息,获得第二手机号码信息。
4.根据权利要求3所述的方法,其特征在于,所述依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息的步骤包括:
从所述Cookie字段信息中提取包含手机号信息的数据;
依据固网URL特征信息对所述数据进行校验,统计可提取手机号信息的Cookie特征信息;
依据所述Cookie特征信息,从所述Cookie字段信息中提取第三手机号码。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码的步骤包括:
汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;
提取所述固网发送的HTTP Get报文和所述移动网络发送的HTTP Get报文中的地域信息;
获取所述汇总信息中,各号码所对应的归属地信息;
利用所述地域信息和所述归属地信息,过滤所述汇总信息,获得目标手机号码。
6.一种手机号码提取装置,其特征在于,所述装置包括:
特征提取模块,用于从移动网络发送的超文本传输协议HTTP Get报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;
固网报文获取模块,用于获取固网发送的HTTP Get报文;
固网报文解析模块,用于依据所述移动网络URL特征信息,解析所述固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息;
第一手机号码提取模块,用于从所述固网URL特征信息中提取第一手机号码信息;
Cookie字段信息模块,用于从所述固网发送的HTTP Get报文中分离缓存文本Cookie字段信息;
第二手机号码提取模块,用于通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息;
第三手机号码提取模块,用于依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息;
过滤模块,用于对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:移动网络报文获取模块,用于获取移动网络发送的HTTP Get报文。
8.根据权利要求6所述的装置,其特征在于,所述第二手机号码提取模块包括:
解析子模块,用于利用正则表达式,从所述Cookie字段信息中解析邮箱用户名信息;
过滤子模块,用于过滤所述邮箱用户名信息,获得第二手机号码信息。
9.根据权利要求8所述的装置,其特征在于,所述第三手机号码提取模块包括:
Cookie字段提取子模块,用于从所述Cookie字段信息中提取包含手机号信息的数据;
统计子模块,用于依据固网URL特征信息对所述数据进行校验,统计可提取手机号信息的Cookie特征信息;
手机号提取子模块,用于依据所述Cookie特征信息,从所述Cookie字段信息中提取第三手机号码。
10.根据权利要求9所述的终端,其特征在于,所述过滤模块包括:
汇总子模块,用于汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;
地域信息子模块,用于提取所述固网发送的HTTP Get报文和所述移动网络发送的HTTPGet报文中的地域信息;
归属地信息子模块,用于获取所述汇总信息中,各号码所对应的归属地信息;
过滤执行子模块,用于利用所述地域信息和所述归属地信息,过滤所述汇总信息,获得目标手机号码。
CN201610974722.6A 2016-10-31 2016-10-31 一种手机号码提取方法和装置 Expired - Fee Related CN106656655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610974722.6A CN106656655B (zh) 2016-10-31 2016-10-31 一种手机号码提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610974722.6A CN106656655B (zh) 2016-10-31 2016-10-31 一种手机号码提取方法和装置

Publications (2)

Publication Number Publication Date
CN106656655A true CN106656655A (zh) 2017-05-10
CN106656655B CN106656655B (zh) 2019-07-23

Family

ID=58821808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610974722.6A Expired - Fee Related CN106656655B (zh) 2016-10-31 2016-10-31 一种手机号码提取方法和装置

Country Status (1)

Country Link
CN (1) CN106656655B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395421A (zh) * 2017-07-27 2017-11-24 浙江宇视科技有限公司 采集方法及***
CN109462598A (zh) * 2018-12-11 2019-03-12 江苏省未来网络创新研究院 一种从网络报文中提取账号信息的方法
CN113127767A (zh) * 2019-12-31 2021-07-16 ***通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1838680A (zh) * 2006-03-21 2006-09-27 北京三桥科技有限公司 融无线通信与固定通信于一体的终端设备及其使用方法
US20110185354A1 (en) * 2010-01-26 2011-07-28 Emdigo Inc. Mobile Application Delivery Management System
CN105959173A (zh) * 2016-04-05 2016-09-21 王攀 一种基于dpi的固定宽带互联网流量中提取手机号码的方法v1.0

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1838680A (zh) * 2006-03-21 2006-09-27 北京三桥科技有限公司 融无线通信与固定通信于一体的终端设备及其使用方法
US20110185354A1 (en) * 2010-01-26 2011-07-28 Emdigo Inc. Mobile Application Delivery Management System
CN105959173A (zh) * 2016-04-05 2016-09-21 王攀 一种基于dpi的固定宽带互联网流量中提取手机号码的方法v1.0

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395421A (zh) * 2017-07-27 2017-11-24 浙江宇视科技有限公司 采集方法及***
CN107395421B (zh) * 2017-07-27 2020-09-01 浙江宇视科技有限公司 采集方法及***
CN109462598A (zh) * 2018-12-11 2019-03-12 江苏省未来网络创新研究院 一种从网络报文中提取账号信息的方法
CN109462598B (zh) * 2018-12-11 2021-08-17 江苏省未来网络创新研究院 一种从网络报文中提取账号信息的方法
CN113127767A (zh) * 2019-12-31 2021-07-16 ***通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN113127767B (zh) * 2019-12-31 2023-02-10 ***通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN106656655B (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN103218431B (zh) 一种能识别网页信息自动采集的***
CN102239673B (zh) 剖析电信网络中的数据业务的方法和***
US20130191890A1 (en) Method and system for user identity recognition based on specific information
EP2698967A1 (en) Social network data mining method for terminal user, and relevant method, device and system
CN106603734B (zh) Cdn服务ip检测方法和***
US20100076955A1 (en) Data network service based on profiling client-addresses
CN109729044B (zh) 一种通用的互联网数据采集反反爬***及方法
US20130311283A1 (en) Data mining method for social network of terminal user and related methods, apparatuses and systems
CN102073960A (zh) 一种网站营销过程中运行效果的评估方法
KR20090008196A (ko) 단문 메시지 스팸 필터링 방법 및 단문 메시지 스팸 필터링시스템
CN102143224A (zh) 基于手机上网用户行为的分析方法和装置
CN106656655B (zh) 一种手机号码提取方法和装置
US20130132567A1 (en) Mobile terminal, method and system for shielding mobile terminal from accessing wireless network information
WO2013039832A1 (en) System and method for automated classification of web pages and domains
US20130179421A1 (en) System and Method for Collecting URL Information Using Retrieval Service of Social Network Service
CN103581909A (zh) 一种疑似手机恶意软件的定位方法及其装置
CN108462615A (zh) 一种网络用户分组方法和装置
Mulliner Privacy leaks in mobile phone internet access
CN107491997A (zh) 信息推送方法及***
CN102301678A (zh) 在电信网络中为越顶服务提供身份相关的***和方法
Fang et al. Fine-grained HTTP web traffic analysis based on large-scale mobile datasets
CN101998226A (zh) 移动搜索方法和***
CN102447788A (zh) 一种通过手机浏览器阅读彩信的方法及装置
CN102025701A (zh) 身份位置分离网络中用户登录icp网站的方法和***
CN109639770A (zh) 一种数据访问方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180809

Address after: 100029 Beijing Chaoyang District world Olympic International Center A 1007

Applicant after: All communications (Beijing) Network Technology Co., Ltd.

Address before: 101101 281B 043, 1 to 2, Binhe Middle Road, Tongzhou District, Beijing, 043

Applicant before: Haina Cheng (Beijing) Information Technology Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190723

Termination date: 20191031

CF01 Termination of patent right due to non-payment of annual fee