CN106021439A - 一种对通信号码的处理方法及装置 - Google Patents

一种对通信号码的处理方法及装置 Download PDF

Info

Publication number
CN106021439A
CN106021439A CN201610323535.1A CN201610323535A CN106021439A CN 106021439 A CN106021439 A CN 106021439A CN 201610323535 A CN201610323535 A CN 201610323535A CN 106021439 A CN106021439 A CN 106021439A
Authority
CN
China
Prior art keywords
website
character string
character
search
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610323535.1A
Other languages
English (en)
Inventor
王逐尘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610323535.1A priority Critical patent/CN106021439A/zh
Publication of CN106021439A publication Critical patent/CN106021439A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种对通信号码的处理方法及装置,其中,所述方法包括:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;若验证结果为搜索到通信号码,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。采用本发明,能够快速、准确地确定出包括通信号码及其附属特征的号码信息,方便后续快速地完成黄页数据库的更新。

Description

一种对通信号码的处理方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种对通信号码的处理方法及装置。
背景技术
世界上第一本黄页电话号簿在美国问世,至今已有100多年的历史,黄页是国际通用按企业性质和产品类别编排的工商电话号码薄。黄页电话号薄中一般包括名称、电话号码等信息。历史上黄页的信息来源于各种渠道,如统计部门、管理部门、海关、***、工商局、行业协会、金融机构、企业信息出版物等。
传统的黄页电话号薄一般是由相应的电信运营商根据安装电话时用户上报的装机用户资料进行收录并更新的。受装机用户资料的限制,传统的黄页电话号薄更新速度慢,通信号码数据的容量也受到限制。
发明内容
本发明实施例提供一种对通信号码的处理方法及装置,可通过网络搜索的方式快速获取号码信息,以便于进行黄页电话号薄的更新。
为了解决上述技术问题,本发明实施例提供了一种对通信号码的处理方法,包括:
调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;
根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;
若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。
相应地,本发明实施例还提供了一种对通信号码的处理装置,包括:
网络爬虫模块;
调用模块,用于调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;
号码提取验证模块,用于根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;
生成模块,用于若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。
本发明实施例能够基于指定的网络来搜索可以作为通信号码的字符串,并基于本发明实施例设置的字典树对这些字符串的每一个字符进行验证,能够快速、准确地确定出包括通信号码及其附属特征的号码信息,方便后续快速地完成黄页数据库的更新。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种网络结构示意图;
图2是本发明实施例的一种字典树的结构示意图;
图3是本发明实施例的一种对通信号码的处理方法的流程示意图;
图4是本发明实施例的另一种对通信号码的处理方法的流程示意图;
图5是本发明实施例的对号码字符串进行采集及验证的方法流程示意图;
图6是本发明实施例的一种对通信号码的处理装置的结构示意图;
图7是本发明实施例的另一种对通信号码的处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例能够通过仅在指定的有限网站内,由网络爬虫模块进行字符搜索和网页下载,并按照预置的字典树对搜索下载到的网页中的网页文本进行字符串搜索和验证,一旦验证出搜索到的字符串为通信号码时,则可以根据该字符串以及其所在的网站页面,进一步提取该字符串的附属特征,例如名称、地址、其他通信方式(如即时通信联系方式),得到关于该通信号码的号码信息,以便于最终得到关于该通信号码的电话黄页,并记录到对应的黄页数据库中。
具体请参见图1,是本发明实施例的一种网络结构示意图,本发明实施例对通信号码的处理可以由一台服务器执行,或多台服务器构成的服务器组执行。当然,也可以由其他的能够进行网络搜索以及数据处理的智能设备来执行。
如图1所示,在网站搜索名录中可以记录多个黄页网站或者其他的可能存在大量通信联系方式的网站。可以通过人工整理的方式,整理收集目前互联网上存在通信号码的网站,这些网站按性质可以分为多种:政府机构网站、公司企业官网、地区生活网站以及社区论坛网站等。在分好类之后加入到所述网站搜索名录当中提供给网络爬虫模块搜索、号码提取验证模块采集提取其中的号码信息。具体的,配置在网站搜索名录中的网站主要是指纯域名的网站,例如,可以为:http://a.b.com/x/y.htm,而非增加了后缀的http://a.b.com/x/y/1000.htm等网站。
现有的传统网络爬虫等搜索模块,比如搜索引擎的爬虫,它们抓取范围覆盖全网,遇到网页中的超链接基本都会进行跟踪爬取,网页中大部分内容都是其采集对象,然后再经过分析整理后形成内容摘要。本发明实施例的所述网络爬虫模块主要用于进行网站页面的通信号码搜索,并且所述网络爬虫模块被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块被配置为禁止执行跨域名搜索。也就是说,首先,本发明实施例的网络爬虫模块在遇到链接时会检测是否属于跨域链接,只在预先规定的域名或者站点下爬行,对于一些友情交换链接或站外的链接不会跟踪,可避免了不必要的资源消耗。具体的,调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载主要包括:调用网络爬虫模块在所述目标网站上进行字符搜索和网页下载;提取所述目标网站上包括的该目标网站的域名内链接网站,并在所述域名内链接网站上进行字符搜索和网页下载。另外,为了减小对号码信息的来源网站的记录,可以将在所述目标网站上进行字符搜索后得到的号码信息和在所述域名内链接网站进行字符搜索得到的号码信息标记为所述目标网站的号码信息。也就是说,在某个目标网站站点内搜索到的所有号码信息,其来源网站均记录为所述目标网站,而非该目标网站下的域名内链接网站。
其次,如果在所述目标网站的站点内进行字符搜索时,若没有验证得到通信号码的页面超过预设的页面数阈值,则将所述目标网站配置为停止执行字符搜索的网站。网络爬虫模块在爬取站点内的链接时,会将路径进行聚类分析统计,如果发现某条路径下无通信号码的页面超过阈值,则放弃搜索这条路径,如,从http://a.b.com/x/y/1.htm到http://a.b.com/x/y/1000.htm都未发现号码,则以后http://a.b.com/x/y这条路径开头的链接都不再进行爬取,相当于一种剪枝策略大大节省了站点爬取时间。
对于网络爬虫模块搜索到的字符的验证,本发明实施例设置了关于数字的字典Trie树。具体如图2所示,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数,还包括电话号码的编号规则特征。在字典树种,可以分为固定号码子树和移动手机号码子树。将各地区号和各手机段号加入到前缀Trie树中,除去区号/段号剩下的号码部分形成压缩的后继分支和叶子节点完成Trie树构造。并且,在Trie树的构造过程中,一些不可能存在通信号码会被过滤掉,例如,由于并不存在011的区号,因此,在图2所示的Trie树中并不存在根节点为0、下一级节点为1、再下一级节点为1的子树。同样,由于并不存在12开头的手机号码,因此,也不存在根节点为1、下一级节点为2的子树。
在字符串的验证过程中,在网络爬虫模块搜索下载到包括疑似号码的网页文本后,号码提取验证模块扫描该网页文本,逐个字符从根结点开始查找,并根据树中当前位置和目标字符选择对应的子树并转移到该子树继续进行检索,在相应的子树上继续迭代查找后续字符,直到到达叶子节点。如果查找过程中无对应子树则转移失败,重置查找树回到根节点,并从下一个数字字符(该数字字符之前必须是非数字字符)重新开始。而如果查找到对应子树则转移成功。在字符查找过程中,还可以先判断该字符是否为特殊的分隔符,例如为空白符、左括号“(”、右括号“)”、横线“-”等特殊字符,这些字符一般为用于隔开区号与具体固定号码的字符,因此,可以跳过这些特殊的字符,进而对该特殊的字符的下一个字符继续进行子树的查找处理。本发明实施例中,基于字典树对页面上搜索到的字符进行验证的方式,相对现有的通过模版反复搜索的方式的计算复杂度从O(m*n)降到了O(n),即在本发明实施例中,只需要一次全文扫描即可发现所有号码,并且在发现的过程中同时也验证了号码的合法性且不会遗漏号码。
在确定出某个字符串为通信号码后,对于该通信号码的附属特征的提取可以通过关键字提取,即根据预置的关键字对所述字符串在目标网络站点内所在的网页进行检索,获取该字符串的附属特征。通常可以设立一组关键字信息库,信息库中包括常用的号码信息关键字,比如“学校、公司、诈骗电话”等,在确定出某个字符串为通信号码后,可以在该字符串附件检索查找“学校、公司、诈骗电话”等字样,从而确定出该通信号码所对应的名称。例如,在确定了字符串“010-82345678”为通信号码后,在对应页面上离该号码最近的词包括:北京小学校,那么可以将北京小学校作为该“010-82345678”的附属特征。附属特征除了包括上述提到一些企业名称、学校名称等名称外,还可以包括即时通信联系信息、通讯地址信息等。
进一步地,本发明实施例还采用一种基于自然语义的附属特征采集方式,具体可以为检测所述字符串在目标网站站点内所在网页中的上下文信息,根据检测的上下文信息获取该字符串的附属特征。比如该确定为通信号码的字符串的上文中含有“北京小学校:”,则将“北京小学校”作为通信号码的附属特征。
进一步地,还可以基于HTML(HyperText Mark-up Language,超文本标记语言)标签语义,具体根据HTML标签语义进行附属特征的采集,并根据所述字符串在目标网站站点内所在网页中所在的标签,获取该字符串的附属特征。比如“<dt>北京小学校</dt><dd>号码</dd>”那么“北京小学校”则作为通信号码的附属特征。
在确定得到了通信号码及其附属特征后,即可根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。在得到号码信息后,需要作进一步的筛选过滤,首先包括过滤号码中无关信息、错误信息或违法违规的信息,例如,如果提取到的附属特征中,例如名称中包括“***交易中心”,则该条号码信息需要过滤掉,又例如,在名称中包括了“北京小学校欢迎您”,则可以将“欢迎您”作为无关信息过滤掉。
在通过上述的筛选过滤后,可以将包括由字符串生成的通信号码及其附属特征的号码信息存储到某个数据库中。在生成一个关于字符串的号码信息时或者电话黄页更新时间到来时等情况下,可以在这个数据库中获取已生成的关于某个字符串的所有号码信息;当生成的关于所述字符串的号码信息包括多个时,计算各个号码信息之间的相似度;将相似度大于预设的第一阈值的号码信息进行合并处理,根据合并后的号码信息确定出关于所述字符串的电话黄页。也就是说,如果在该数据库中有字符串确定的同一个通信号码有多条号码信息,先计算号码信息之间的相似度,合并相似信息。信息相似的计算可以采用但不限于LCS(Longest common subsequence problem,最大公共序列)算法或编辑距离算法(Levenshtein算法)。例如,被确定的通信号码为“010-82345678”的两个号码信息中,附属特征分别为“北京小学校”和“北京小学”,通过相似度算法确定两者的相似度大于第一阈值,则可以将两个号码信息进行合并,仅保留包括“北京小学校”和“010-82345678”的号码信息作为对应字符串即通信号码的电话黄页,或者仅保留包括“北京小学”和“010-82345678”的号码信息作为对应字符串即通信号码的电话黄页。
如果上述的合并后还有冲突,即相似度小于预设的第一阈值或者小于第二阈值(第一阈值可以大于或等于第二阈值),则可以优先选择来源网站可信度高的号码信息。也就是说,可以为所述网站搜索名录中记录的网站设置优先级,可以在上述提到的保存号码信息的数据库中获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息有多个、且两个号码信息之间的相似度小于预设的第二阈值时,确定相似度小于预设的第二阈值的各号码信息对应的网站,即号码信息对应字符串以及附属特征的来源网站;获取各确定的网站对应的优先级,根据其中的优先级高的网站所对应的号码信息确定出关于所述字符串的电话黄页。可以以100为最高优先级,数值越高则优先级越高。一般来讲,可以设置政府机构网站的优先级最高,而论坛社区网站则较低。如果同一个确定出的通信号码分别来源于政府机构网站和论坛社区网站,且生成的两个包括该通信号码及其附属特征的号码信息相似度较低,则可以直接删除来源于论坛社区完整的号码信息,仅保留来源于政府机构网站的号码信息作为对应字符串即通信号码的电话黄页。
在得到了一个或者多个字符串对应的电话黄页后,本发明实施例还可以判断预置的黄页数据库中是否已存在关于所述字符串的电话黄页;若是,则将所述预置的黄页数据库中已存在的关于所述字符串的电话黄页,更新为所述确定的关于所述字符串的电话黄页,完成对已有电话黄页的更新维护。若否,则将所述确定的关于所述字符串的电话黄页记录到所述预置的黄页数据库中,完成电话黄页的补充更新。
在完成了黄页数据库的更新后,可以进一步添加其他算法或者使用规则,方便为用户提供黄页服务。例如,提供检索功能,使得用户可以通过直接输入号码找到其所属的企业名称,或者输入企业名称,找到该企业对于的通信号码。
进一步地,本发明实施例由于是通过基于互联网上内容获得的黄页信息,因此每条黄页都可以记录该号码信息对应的来源网页的统一资源定位符URL,只要利用网络爬虫等网络爬虫模块定期自动监视原网页的变化,感知黄页的更新和销户,及时更新黄页数据库即可,既克服了传统电话黄页销户、变更反应慢的特点,也大大减少了后期人工维护的成本。
具体的,再请参见图3,是本发明实施例的一种对通信号码的处理方法的流程示意图,本发明实施例的所述方法可以由服务器来执行,具体的,所述方法包括如下步骤。
S301:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载。所述网络爬虫模块被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块被配置为禁止执行跨域名搜索。
S302:根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数。。其中,所述字典树的构成可参见图2所示。
S303:若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。附属特征包括名称、即时通信联系方式、通讯地址等特征。
本发明实施例能够基于指定的网络来搜索可以作为通信号码的字符串,并基于本发明实施例设置的字典树对这些字符串的每一个字符进行验证,能够快速、准确地确定出包括通信号码及其附属特征的号码信息,方便后续快速地完成黄页数据库的更新。
再请参见图4,是本发明实施例的另一种对通信号码的处理方法的流程示意图,本发明实施例的所述方法可以由服务器来执行,具体的,所述方法包括如下步骤。
S401:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;所述网络爬虫模块被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块被配置为禁止执行跨域名搜索。
具体的,在本发明实施例中,所述S401具体可以包括:调用网络爬虫模块在所述目标网站上进行字符搜索;提取所述目标网站上包括的该目标网站的域名内链接网站,并在所述域名内链接网站上进行字符搜索。并且,还可以将在所述目标网站上进行字符搜索后得到的号码信息和在所述域名内链接网站进行字符搜索得到的号码信息标记为所述目标网站的号码信息,即为号码信息设置来源网站。另外,在所述目标网站的站点内进行字符搜索时,若没有验证得到通信号码的页面超过预设的页面数阈值,则将所述目标网站配置为停止执行字符搜索的网站。
S402:根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数。当然,还可以包括其他的特征,包括固定号码的编号规则特征,例如,不存在区号为“011”的固定电话。手机号码的编号规则,例如,不存在“11”或“12”开头的手机号。字典树的形式具体可参考图2所示。
S403:若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。具体的,所述S403具体可以包括以下三个步骤的任意一个步骤或多个步骤。
根据预置的关键字对所述字符串在目标网络站点内所在的网页进行检索,获取该字符串的附属特征;检测所述字符串在目标网站站点内所在网页中的上下文信息,根据检测的上下文信息获取该字符串的附属特征;根据超文本标记语言HTML标签语义,并根据所述字符串在目标网站站点内所在网页中所在的标签,获取该字符串的附属特征。
S404:对已生成的号码信息进行优化,得到所述字符串的电话黄页。
所述S404具体可以包括:获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息包括多个时,计算各个号码信息之间的相似度;将相似度大于预设的第一阈值的号码信息进行合并处理,根据合并后的号码信息确定出关于所述字符串的电话黄页。同时,当生成的关于所述字符串的号码信息有多个、且两个号码信息之间的相似度小于预设的第二阈值时,确定相似度小于预设的第二阈值的各号码信息对应的网站;获取各确定的网站对应的优先级,根据其中的优先级高的网站所对应的号码信息确定出关于所述字符串的电话黄页。
S405:判断预置的黄页数据库中是否已存在关于所述字符串的电话黄页。
S406:若是,则将所述预置的黄页数据库中已存在的关于所述字符串的电话黄页,更新为所述确定的关于所述字符串的电话黄页。
S407:若否,则将所述确定的关于所述字符串的电话黄页记录到所述预置的黄页数据库中。
在通过S406和S407对黄页数据库的更新或新增后,可以进一步添加其他算法或者使用规则,方便为用户提供黄页服务。例如,提供检索功能,使得用户可以通过直接输入号码找到其所属的企业名称,或者输入企业名称,找到该企业对于的通信号码。
再请参见图5,是本发明实施例的对号码字符串进行采集及验证的方法流程示意图,本发明实施例的所述方法可以对应于上述实施例中的S302或S402。具体的,所述方法包括如下步骤。
S501:重置查找字典树。
S502:将读取的字符作为目标字符。将在所述目标网站的站点内进行通信号码搜索并下载到的网页文本中的字符作为目标字符。在搜索到目标网站的站点内某个页面上包括多个可能为通信号码的字符串后,可以扫描这些字符对应的文本,从第一个字符作为目标字符开始逐个对各字符进行验证,以验证确定是否为号码。
S503:判断所述目标字符是否为分隔符。即判断所述目标字符是否为空白符、“-”等制定的分隔符。在判断结果为是时,执行S502,在判断结果为否时执行下述的S504。
S504:判断所述目标字符是否为数字字符。在判断为是时执行下述的S505,在判断结果为否时,返回执行所述S501。
S505:字典树查找。即针对图2的Trie树的查找。
S506:判断转移是否成功。若是,则执行下述的S507。否则,执行S509。
S507:判断是否为叶子节点。即判断转移成功时的树节点是否为叶子节点。在判断结果为是时,执行S511。否则,执行S508。
S508:读取下一个字符。在读取下一个字符后,返回执行所述S502,即将读取的该下一个字符也作为目标字符继续执行上述的S503至S507。
S509:读取下一个字符。并执行下述的S510。
S510:判断该下一个字符是否为数字或分隔符,在判断结果为是时,执行S509,否则返回执行所述S501。
S511:确定验证结果为进行通信号码搜索得到的作为目标字符的字符所组成的字符串为通信号码。
本发明实施例能够基于指定的网络来搜索可以作为通信号码的字符串,并基于本发明实施例设置的字典树对这些字符串的每一个字符进行验证,能够快速、准确地确定出包括通信号码及其附属特征的号码信息,方便后续快速地完成黄页数据库的更新。
下面对本发明实施例的一种对通信号码的处理装置进行详细描述。
请参见图6,是本发明实施例的一种对通信号码的处理装置的结构组成示意图,本发明实施例的所述装置可应用在电话黄页服务器等设备中。具体的,所述装置包括如下模块。
网络爬虫模块601;调用模块602,用于调用网络爬虫模块601在目标网站的站点内进行字符搜索;号码提取验证模块603,用于根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;生成模块604,用于若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。
所述网络爬虫模块601主要为本发明实施例特指的用于进行网站业务的号码数字搜索的网络爬虫。所述字典树的具体组成可参考图2及其所对应实施例的描述,验证过程则可以参考图5所对应实施例的描述。所述网络爬虫模块601、调用模块602、号码提取验证模块603以及生成模块604的具体功能可以由服务器中的一个或者多个处理器来实现。
进一步地,请参考图7,是本发明实施例的另一种对通信号码的处理装置的结构组成示意图,本发明实施例的所述装置可应用在电话黄页服务器等设备中。具体的,所述装置包括上述的网络爬虫模块601、调用模块602、号码提取验证模块603以及生成模块604。在本发明实施例中,所述装置还包括以下结构。
在本发明实施例中,所述网络爬虫模块601被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块601被配置为禁止执行跨域名搜索。
进一步可选地,本发明实施例的所述装置还可以包括:处理模块605,用于获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息包括多个时,计算各个号码信息之间的相似度;将相似度大于预设的第一阈值的号码信息进行合并处理,根据合并后的号码信息确定出关于所述字符串的电话黄页。
进一步可选地,所述网站搜索名录中记录的网站设置有优先级,本发明实施例的所述装置还可以包括:处理模块605,用于获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息有多个、且两个号码信息之间的相似度小于预设的第二阈值时,确定相似度小于预设的第二阈值的各号码信息对应的网站;获取各确定的网站对应的优先级,根据其中的优先级高的网站所对应的号码信息确定出关于所述字符串的电话黄页。
进一步可选地,本发明实施例的所述装置还可以包括:更新模块606,用于判断预置的黄页数据库中是否已存在关于所述字符串的电话黄页;若是,则将所述预置的黄页数据库中已存在的关于所述字符串的电话黄页,更新为所述确定的关于所述字符串的电话黄页;若否,则将所述确定的关于所述字符串的电话黄页记录到所述预置的黄页数据库中。
进一步可选地,所述调用模块602,具体用于调用网络爬虫模块601在所述目标网站上进行字符搜索;提取所述目标网站上包括的该目标网站的域名内链接网站,并在所述域名内链接网站上进行字符搜索。
进一步可选地,本发明实施例的所述装置还可以包括:标记模块607,用于将在所述目标网站上进行字符搜索后得到的号码信息和在所述域名内链接网站进行字符搜索得到的号码信息标记为所述目标网站的号码信息。
进一步可选地,本发明实施例的所述装置还可以包括:配置模块608,用于在所述目标网站的站点内进行字符搜索时,若没有验证得到通信号码的页面超过预设的页面数阈值,则将所述目标网站配置为停止执行字符搜索的网站。
进一步可选地,所述生成模块604,具体用于根据预置的关键字对所述字符串在目标网络站点内所在的网页进行检索,获取该字符串的附属特征;或具体用于检测所述字符串在目标网站站点内所在网页中的上下文信息,根据检测的上下文信息获取该字符串的附属特征;或具体用于根据超文本标记语言HTML标签语义,并根据所述字符串在目标网站站点内所在网页中所在的标签,获取该字符串的附属特征。
进一步可选地,所述号码提取验证模块603,具体用于读取在所述目标网站的站点内搜索并下载到的网页文本,将在该文本中搜索并读取的字符作为目标字符;在预置的记录数字的字典树中,根据该目标字符选择对应的子树进行检索,并判断基于该子树的查找转移是否成功,若是,进一步判断转移成功的树节点是否为叶子节点,若否,则读取下一字符,并将读取的下一字符作为目标字符,重复本步骤直至判断结果为转移成功的树节点为叶子节点;当判断结果为转移成功的树节点为叶子节点时,则确定验证结果为搜索到的各个作为目标字符所组成的字符串为通信号码。
进一步可选地,所述号码提取验证模块603,具体还用于判断读取的字符是否为指定的分隔符;若是,则跳过该读取的字符,若否,则将该读取的字符作为目标字符。
需要说明的是,本发明实施例的所述装置的各个模块的具体实现可参考上述方法项各个实施例的相关步骤的描述。
本发明实施例能够基于指定的网络来搜索可以作为通信号码的字符串,并基于本发明实施例设置的字典树对这些字符串的每一个字符进行验证,能够快速、准确地确定出包括通信号码及其附属特征的号码信息,方便后续快速地完成黄页数据库的更新。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (22)

1.一种对通信号码的处理方法,其特征在于,包括:
调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;
根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;
若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。
2.如权利要求1所述的方法,其特征在于,所述网络爬虫模块被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块被配置为禁止执行跨域名搜索。
3.如权利要求1所述的方法,其特征在于,还包括:
获取已生成的关于所述字符串的所有号码信息;
当生成的关于所述字符串的号码信息包括多个时,计算各个号码信息之间的相似度;
将相似度大于预设的第一阈值的号码信息进行合并处理,根据合并后的号码信息确定出关于所述字符串的电话黄页。
4.如权利要求2所述的方法,其特征在于,所述网站搜索名录中记录的网站设置有优先级,所述方法还包括:
获取已生成的关于所述字符串的所有号码信息;
当生成的关于所述字符串的号码信息有多个、且两个号码信息之间的相似度小于预设的第二阈值时,确定相似度小于预设的第二阈值的各号码信息对应的网站;
获取各确定的网站对应的优先级,根据其中的优先级高的网站所对应的号码信息确定出关于所述字符串的电话黄页。
5.如权利要求3或4所述的方法,其特征在于,还包括:
判断预置的黄页数据库中是否已存在关于所述字符串的电话黄页;
若是,则将所述预置的黄页数据库中已存在的关于所述字符串的电话黄页,更新为所述确定的关于所述字符串的电话黄页;
若否,则将所述确定的关于所述字符串的电话黄页记录到所述预置的黄页数据库中。
6.如权利要求1-4任一项所述的方法,其特征在于,所述调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载,包括:
调用网络爬虫模块在所述目标网站上进行字符搜索和网页下载;
提取所述目标网站上包括的该目标网站的域名内链接网站,并在所述域名内链接网站上进行字符搜索和网页下载。
7.如权利要求6所述的方法,其特征在于,还包括:
将在所述目标网站上进行字符搜索后得到的号码信息和在所述域名内链接网站进行字符搜索得到的号码信息标记为所述目标网站的号码信息。
8.如权利要求6所述的方法,其特征在于,还包括:
在所述目标网站的站点内进行字符搜索时,若没有验证得到通信号码的页面超过预设的页面数阈值,则将所述目标网站配置为停止执行字符搜索的网站。
9.如权利要求1-4任一项所述的方法,其特征在于,所述在所述目标网站的站点内获取该字符串的附属特征,包括以下步骤中任一个或多个:
根据预置的关键字对所述字符串在目标网络站点内所在的网页进行检索,获取该字符串的附属特征;
检测所述字符串在目标网站站点内所在网页中的上下文信息,根据检测的上下文信息获取该字符串的附属特征;
根据超文本标记语言HTML标签语义,并根据所述字符串在目标网站站点内所在网页中所在的标签,获取该字符串的附属特征。
10.如权利要求1-4任一项所述的方法,其特征在于,所述根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,包括:
读取在所述目标网站的站点内搜索并下载到的网页文本,将在该文本中搜索并读取的字符作为目标字符;
在预置的记录数字的字典树中,根据该目标字符选择对应的子树进行检索,并判断基于该子树的查找转移是否成功,若是,进一步判断转移成功的树节点是否为叶子节点,若否,则读取下一字符,并将读取的下一字符作为目标字符,重复本步骤直至判断结果为转移成功的树节点为叶子节点;
当判断结果为转移成功的树节点为叶子节点时,则确定验证结果为各个作为目标字符的字符所组成的字符串为通信号码。
11.如权利要求10所述的方法,其特征在于,将读取的字符作为目标字符,包括:
判断读取的字符是否为指定的分隔符;
若是,则跳过该读取的字符,若否,则将该读取的字符作为目标字符。
12.一种对通信号码的处理装置,其特征在于,包括:
网络爬虫模块;
调用模块,用于调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;
号码提取验证模块,用于根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;
生成模块,用于若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。
13.如权利要求12所述的装置,其特征在于,所述网络爬虫模块被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块被配置为禁止执行跨域名搜索。
14.如权利要求12所述的装置,其特征在于,还包括:
处理模块,用于获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息包括多个时,计算各个号码信息之间的相似度;将相似度大于预设的第一阈值的号码信息进行合并处理,根据合并后的号码信息确定出关于所述字符串的电话黄页。
15.如权利要求13所述的装置,其特征在于,所述网站搜索名录中记录的网站设置有优先级,所述装置还包括:
处理模块,用于获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息有多个、且两个号码信息之间的相似度小于预设的第二阈值时,确定相似度小于预设的第二阈值的各号码信息对应的网站;获取各确定的网站对应的优先级,根据其中的优先级高的网站所对应的号码信息确定出关于所述字符串的电话黄页。
16.如权利要求14或15所述的装置,其特征在于,还包括:
更新模块,用于判断预置的黄页数据库中是否已存在关于所述字符串的电话黄页;若是,则将所述预置的黄页数据库中已存在的关于所述字符串的电话黄页,更新为所述确定的关于所述字符串的电话黄页;若否,则将所述确定的关于所述字符串的电话黄页记录到所述预置的黄页数据库中。
17.如权利要求12-16任一项所述的装置,其特征在于,
所述调用模块,具体用于调用网络爬虫模块在所述目标网站上进行字符搜索和网页下载;提取所述目标网站上包括的该目标网站的域名内链接网站,并在所述域名内链接网站上进行字符搜索和网页下载。
18.如权利要求17所述的装置,其特征在于,还包括:
标记模块,用于将在所述目标网站上进行字符搜索后得到的号码信息和在所述域名内链接网站进行字符搜索得到的号码信息标记为所述目标网站的号码信息。
19.如权利要求17所述的装置,其特征在于,还包括:
配置模块,用于在所述目标网站的站点内进行字符搜索时,若没有验证得到通信号码的页面超过预设的页面数阈值,则将所述目标网站配置为停止执行字符搜索的网站。
20.如权利要求12-16任一项所述的装置,其特征在于,
所述生成模块,具体用于根据预置的关键字对所述字符串在目标网络站点内所在的网页进行检索,获取该字符串的附属特征;或具体用于检测所述字符串在目标网站站点内所在网页中的上下文信息,根据检测的上下文信息获取该字符串的附属特征;或具体用于根据超文本标记语言HTML标签语义,并根据所述字符串在目标网站站点内所在网页中所在的标签,获取该字符串的附属特征。
21.如权利要求12-16任一项所述的装置,其特征在于,
所述号码提取验证模块,具体用于读取在所述目标网站的站点内搜索并下载到的网页文本,将在该文本中搜索并读取的字符读取的字符作为目标字符;在预置的记录数字的字典树中,根据该目标字符选择对应的子树进行检索,并判断基于该子树的查找转移是否成功,若是,进一步判断转移成功的树节点是否为叶子节点,若否,则读取下一字符,并将读取的下一字符作为目标字符,重复本步骤直至判断结果为转移成功的树节点为叶子节点;当判断结果为转移成功的树节点为叶子节点时,则确定验证结果为各个作为目标字符的字符所组成的字符串为通信号码。
22.如权利要求21所述的装置,其特征在于,
所述号码提取验证模块,具体还用于判断读取的字符是否为指定的分隔符;若是,则跳过该读取的字符,若否,则将该读取的字符作为目标字符。
CN201610323535.1A 2016-05-16 2016-05-16 一种对通信号码的处理方法及装置 Pending CN106021439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610323535.1A CN106021439A (zh) 2016-05-16 2016-05-16 一种对通信号码的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610323535.1A CN106021439A (zh) 2016-05-16 2016-05-16 一种对通信号码的处理方法及装置

Publications (1)

Publication Number Publication Date
CN106021439A true CN106021439A (zh) 2016-10-12

Family

ID=57098032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610323535.1A Pending CN106021439A (zh) 2016-05-16 2016-05-16 一种对通信号码的处理方法及装置

Country Status (1)

Country Link
CN (1) CN106021439A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182180A (zh) * 2018-01-30 2018-06-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108563685A (zh) * 2018-03-13 2018-09-21 阿里巴巴集团控股有限公司 一种银行标识代码的查询方法、装置及设备
CN108959646A (zh) * 2018-07-30 2018-12-07 携程旅游信息技术(上海)有限公司 自动验证通信号码的方法、***、设备及存储介质
CN110246593A (zh) * 2018-03-08 2019-09-17 腾讯科技(深圳)有限公司 一种电话随访方法、装置及计算机可读存储介质
CN110516140A (zh) * 2019-08-15 2019-11-29 北京泰迪熊移动科技有限公司 一种信息处理方法、设备及计算机存储介质
CN111078962A (zh) * 2019-12-24 2020-04-28 北京海致星图科技有限公司 一种发现相似网站版块的方法、***、介质及设备
CN111930899A (zh) * 2020-09-25 2020-11-13 成都数联铭品科技有限公司 一种关键词处理方法及***、关键词搜索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663105A (zh) * 2012-04-13 2012-09-12 北京搜狗科技发展有限公司 号码信息数据库的建立方法及***
CN103778200A (zh) * 2014-01-09 2014-05-07 中国科学院计算技术研究所 一种报文信息源抽取方法及其***
CN104021202A (zh) * 2014-06-16 2014-09-03 百度在线网络技术(北京)有限公司 一种知识共享平台的词条处理装置和方法
CN104199851A (zh) * 2014-08-11 2014-12-10 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
CN104715064A (zh) * 2015-03-31 2015-06-17 北京奇虎科技有限公司 一种实现在网页上标注关键词的方法和服务器
CN105095369A (zh) * 2015-06-29 2015-11-25 北京金山安全软件有限公司 网址匹配方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663105A (zh) * 2012-04-13 2012-09-12 北京搜狗科技发展有限公司 号码信息数据库的建立方法及***
CN103778200A (zh) * 2014-01-09 2014-05-07 中国科学院计算技术研究所 一种报文信息源抽取方法及其***
CN104021202A (zh) * 2014-06-16 2014-09-03 百度在线网络技术(北京)有限公司 一种知识共享平台的词条处理装置和方法
CN104199851A (zh) * 2014-08-11 2014-12-10 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
CN104715064A (zh) * 2015-03-31 2015-06-17 北京奇虎科技有限公司 一种实现在网页上标注关键词的方法和服务器
CN105095369A (zh) * 2015-06-29 2015-11-25 北京金山安全软件有限公司 网址匹配方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182180A (zh) * 2018-01-30 2018-06-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108182180B (zh) * 2018-01-30 2019-10-11 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110246593A (zh) * 2018-03-08 2019-09-17 腾讯科技(深圳)有限公司 一种电话随访方法、装置及计算机可读存储介质
CN108563685A (zh) * 2018-03-13 2018-09-21 阿里巴巴集团控股有限公司 一种银行标识代码的查询方法、装置及设备
CN108563685B (zh) * 2018-03-13 2022-03-22 创新先进技术有限公司 一种银行标识代码的查询方法、装置及设备
CN108959646A (zh) * 2018-07-30 2018-12-07 携程旅游信息技术(上海)有限公司 自动验证通信号码的方法、***、设备及存储介质
CN108959646B (zh) * 2018-07-30 2021-03-12 携程旅游信息技术(上海)有限公司 自动验证通信号码的方法、***、设备及存储介质
CN110516140A (zh) * 2019-08-15 2019-11-29 北京泰迪熊移动科技有限公司 一种信息处理方法、设备及计算机存储介质
CN111078962A (zh) * 2019-12-24 2020-04-28 北京海致星图科技有限公司 一种发现相似网站版块的方法、***、介质及设备
CN111930899A (zh) * 2020-09-25 2020-11-13 成都数联铭品科技有限公司 一种关键词处理方法及***、关键词搜索方法
CN111930899B (zh) * 2020-09-25 2021-04-09 成都数联铭品科技有限公司 一种关键词处理方法及***、关键词搜索方法

Similar Documents

Publication Publication Date Title
CN106021439A (zh) 一种对通信号码的处理方法及装置
CN100565526C (zh) 一种针对网页作弊的反作弊方法及***
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与***
JP5431727B2 (ja) 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム
CN101971172B (zh) 移动站点地图
AU2004240188B8 (en) Building and using subwebs for focused search
CN101283353B (zh) 通过分析标签找到相关文档的***和方法
CN102663105B (zh) 号码信息数据库的建立方法及***
CN103605715B (zh) 用于多个数据源的数据整合处理方法和装置
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN105512864A (zh) 一种基于互联网的岗位职业能力需求的自动获取方法
CN107633081A (zh) 一种失信用户信息的查询方法及***
CN106095979A (zh) Url合并处理方法和装置
CN106446115A (zh) 移动上网用户分类方法及装置
CN106021418A (zh) 新闻事件的聚类方法及装置
CN108197243A (zh) 一种基于用户身份的输入联想推荐方法及装置
CN109104421A (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN101310277B (zh) 获得文本的表示的方法和***
NL2024002A (en) Method and computing device for informing about malicious web resources
CN110502680A (zh) 一种中标公告相关字段的抽取方法及装置
CN109194605B (zh) 一种基于开源信息的可疑威胁指标主动验证方法和***
CN108681571A (zh) 基于Word2Vec的主题爬虫***和方法
CN108009219A (zh) 一种发现互联网金融舆情监管目标的方法
US20150269268A1 (en) Search server and search method
US8630992B1 (en) URL rank variability determination

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012