CN105227737A - 电话号码的识别方法及装置 - Google Patents

电话号码的识别方法及装置 Download PDF

Info

Publication number
CN105227737A
CN105227737A CN201510643027.7A CN201510643027A CN105227737A CN 105227737 A CN105227737 A CN 105227737A CN 201510643027 A CN201510643027 A CN 201510643027A CN 105227737 A CN105227737 A CN 105227737A
Authority
CN
China
Prior art keywords
telephone number
place
identified
strings
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510643027.7A
Other languages
English (en)
Other versions
CN105227737B (zh
Inventor
马健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510643027.7A priority Critical patent/CN105227737B/zh
Publication of CN105227737A publication Critical patent/CN105227737A/zh
Application granted granted Critical
Publication of CN105227737B publication Critical patent/CN105227737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种电话号码的识别方法及装置。该方法包括:从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征;若是,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全。本发明实施例采用后向探测位数判定的方案,对目标待识别电话号码串进行探测、识别,提高了电话号码识别的准确性。

Description

电话号码的识别方法及装置
技术领域
本发明涉及互联网应用技术领域,特别是一种电话号码的识别方法及装置。
背景技术
POI(PointofInterest),即兴趣点,是整个地图导航产业的基石,尤其在当前移动互联网时代,地图信息数据就变得更加不可或缺了。海量网页中包含大量的POI信息,每个POI信息包含名称、地址、经纬度、电话号码等信息,不同网页的POI数据质量层次不齐,而电话作为联系兴趣点的重要方式,其准确性是衡量一个POI数据质量的重要指标。
海量网页中包含了数以亿计的POI信息,电话号码的呈现方式也复杂多样,同一个POI信息可能会包含多个固定电话或者移动电话,并且交错合并到一起。此外,从互联网中提取的POI信息可能存在大量的错误的数据,POI的电话号码也是如此,而错误的电话号码在应用时会给用户带来体验上的伤害,所以如何准确地识别出网页POI信息中的电话号码成为目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电话号码的识别方法及相应的装置。
依据本发明的一方面,提供了一种电话号码的识别方法,包括:
从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;
判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征;
若是,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全。
可选地,所述分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果,包括:
对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。
可选地,根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全,包括:
比较所述各个探测位数对应的号码相同的位数;
从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
对所述第一指定位数的号码串补全所述最优探测位数。
可选地,在判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征之后,还包括:
若所述第一指定位数的号码串不符合第一类别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定位数的号码串;
判断所述第二指定位数的号码串是否符合第二类别电话号码的属性特征;
若是,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串进行补全。
可选地,从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,包括:
对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;
从初始位置起,根据符合电话号码格式的划分规则对所述处理后的目标待识别电话号码串进行划分。
可选地,对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串,包括:
确定所述目标待识别电话号码串中是否包含指定的分隔符;
若所述目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述目标待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
可选地,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖杆。
可选地,在得到切分后的至少两个目标待识别电话号码串之后,还包括:
对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
若是,则去除该目标待识别电话号码串头部的国家区号。
可选地,在去除该目标待识别电话号码串头部的国家区号之后,还包括:
分析去除了国家区号之后的所述目标待识别电话号码串;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
可选地,通过以下步骤获取所述目标待识别电话号码串:
从网页中获取兴趣点POI信息;
从所述POI信息中提取所述目标待识别电话号码串。
可选地,在对所述第一指定位数或所述第二指定位数的号码串进行补全之后,还包括:
若存在剩余的待识别电话号码串,则再次执行预处理操作、划分操作、判断操作、确定操作、切分操作以及补全操作,直至剩余的待识别电话号码串被全部识别完。
依据本发明的另一方面,还提供了一种电话号码的识别装置,包括:
划分模块,适于从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;
判断模块,适于判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征;
确定模块,适于若所述判断模块判断所述第一指定位数的号码串符合第一类别电话号码的属性特征,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
切分模块,适于分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
补全模块,适于根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全。
可选地,所述切分模块还适于:
对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。
可选地,所述补全模块还适于:
比较所述各个探测位数对应的号码相同的位数;
从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
对所述第一指定位数的号码串补全所述最优探测位数。
可选地,所述划分模块,还适于若所述判断模块判断第一指定位数的号码串不符合第一类别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定位数的号码串;
所述判断模块,还适于判断所述第二指定位数的号码串是否符合第二类别电话号码的属性特征;
所述补全模块,还适于若所述判断模块判断所述第二指定位数的号码串符合第二类别电话号码的属性特征,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串进行补全。
可选地,所述划分模块包括:
预处理单元,适于对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;
划分单元,适于从初始位置起,根据符合电话号码格式的划分规则对所述处理后的目标待识别电话号码串进行划分。
可选地,所述预处理单元还适于:
确定所述目标待识别电话号码串中是否包含指定的分隔符;
若所述目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述原始待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
可选地,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖杆。
可选地,所述预处理单元还适于:
在得到切分后的至少两个目标待识别电话号码串之后,对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
若是,则去除该目标待识别电话号码串头部的国家区号。
可选地,所述预处理单元还适于:
在去除该目标待识别电话号码串头部的国家区号之后,分析去除了国家区号之后的所述目标待识别电话号码串;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
可选地,所述装置还包括获取模块,适于通过以下步骤获取所述目标待识别电话号码串:
从网页中获取兴趣点POI信息;
从所述POI信息中提取所述目标待识别电话号码串。
可选地,所述装置还包括:
递归模块,适于若存在剩余的待识别电话号码串,则触发所述预处理单元再次执行预处理操作、所述划分模块再次执行划分操作、所述判断模块再次执行判断操作、所述确定模块再次执行确定操作、所述切分模块再次执行切分操作以及所述补全模块再次执行补全操作,直至剩余的待识别电话号码串被全部识别完。
在本发明实施例中,从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,即结合不同类别的电话号码(如固定电话或移动电话等)具有的特征,采用不同类别的电话号码对应的电话号码格式的划分规则对目标待识别电话号码串进行划分,根据划分得到的第一指定位数的号码串识别出其对应的电话号码的类别,实现对不同类别的电话号码的有效识别。进一步,本发明实施例结合同一个电话单元中的两个固定电话或移动电话有很大的相似性的特点,根据第一类别电话号码的属性特征,确定至少两个探测位数,随后采用后向探测位数判定的方案,对目标待识别电话号码串进行探测、识别,进一步提高了电话号码识别的准确性。
另外,本发明实施例在根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分之前,还可以对目标待识别电话号码串进行与电话号码格式相关的预处理操作,使得预处理操作后的目标待识别电话号码串与电话号码格式一致,以便于后续基于预处理操作后的目标待识别电话号码串进行电话号码的识别,提高电话号码的识别率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一实施例的电话号码的识别方法的流程图;
图2示出了根据本发明另一实施例的电话号码的识别方法的流程图;
图3示出了根据本发明一实施例的电话号码的识别装置的结构示意图;以及
图4示出了根据本发明另一实施例的电话号码的识别装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种电话号码的识别方法。图1示出了根据本发明一实施例的电话号码的识别方法的流程图。参见图1,该方法至少可以包括步骤S102至步骤S110。
步骤S102,从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串。
步骤S104,判断第一指定位数的号码串是否符合第一类别电话号码的属性特征,若是,则继续执行步骤S106。
步骤S106,根据第一类别电话号码的属性特征,确定至少两个探测位数。
步骤S108,分别采用各个探测位数对目标待识别电话号码串进行切分,得到切分结果。
步骤S110,根据切分结果,从至少两个探测位数中选取最优探测位数对第一指定位数的号码串进行补全。
在本发明实施例中,从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,即结合不同类别的电话号码(如固定电话或移动电话等)具有的特征,采用不同类别的电话号码对应的电话号码格式的划分规则对目标待识别电话号码串进行划分,根据划分得到的第一指定位数的号码串识别出其对应的电话号码的类别,实现对不同类别的电话号码的有效识别。进一步,本发明实施例结合同一个电话单元中的两个固定电话或移动电话有很大的相似性的特点,根据第一类别电话号码的属性特征,确定至少两个探测位数,随后采用后向探测位数判定的方案,对目标待识别电话号码串进行探测、识别,进一步提高了电话号码识别的准确性。
本发明实施例提供的电话号码的识别方法可以对POI信息中的电话号码进行有效识别,即,在上文步骤S102之前,可以首先获取目标待识别电话号码串,具体地,可以从网页中获取POI信息,进而从POI信息中提取目标待识别电话号码串。
网页中的电话信息主要分为移动电话和固定电话,以中国市、区、县电话号码为例,移动电话包含11位,根据其前7位可以判断其正确性及所属区域,这里,移动电话一般以13、14、15、17、18或19开头,可以利用移动电话归属表判断前7位的正确性及所属区域;固定电话分为官方400或800开头的10位号码电话、包含3位或4位区号的普通7位或8位的区域电话、特殊官方5位电话号码(比如10086、95522等)以及特殊3位电话号码(比如110、119、114等),且固定电话可能会包含分机号。
海量网页中包含了数以亿计的POI信息,电话号码的呈现方式也复杂多样,同一个POI信息可能会包含多个固定电话或者移动电话,并且交错合并到一起。表1列举了一些网页中中国市、区、县电话号码的呈现方式。本发明实施例后续根据上文提及的中国市、区、县电话号码的特点,对网页中杂乱的电话号码进行识别。
需要说明的是,本发明实施例提供的识别电话号码的方法也可以结合其他国家的电话号码的特点,对其他国家的电话号码进行有效识别。
表1
电话号码 关于电话号码的说明
400-890-0000转805530 分机号通过汉字说明
86-0877-70104577010457 电话前面包含86,且多个电话号码无分隔符
0852-8719889 86 8719669 电话号码中间有国家区号86
028-84876877,1380233318 移动电话和固定电话叠加,移动电话不完整
0771 0771 324579718602365784 地区区号重复
286990619869906199 地区区号缺少0
0755-13651464541 移动电话前面包含地区区号
从表1可以看出网页中的电话号码呈现方式复杂多样,本发明实施例为了提高电话号码的识别率,在上文步骤S102中,可以首先对目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串,从而使得预处理操作后的目标待识别电话号码串与电话号码格式尽可能保持一致。进而,从初始位置起,根据符合电话号码格式的划分规则对处理后的目标待识别电话号码串进行划分。
在本发明实施例中,对目标待识别电话号码串进行与电话号码格式相关的预处理操作,可以包括根据分隔符预切分、国家区号的识别和去除、地区区号的补充和去重等等。
首先,在根据分隔符进行预切分时,可以确定目标待识别电话号码串中是否包含指定的分隔符,若目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分目标待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。反之,若目标待识别电话号码串中不包含指定的分隔符,则不进行预切分操作。这里,指定的分隔符可以是顿号“、”、逗号“,”、分号“;”、斜杠“/”、反斜杠“\”、竖杆“|”等,本发明不限于此。
例如,上文表1中的目标待识别电话号码串“028-84876877,1380233318”,确定该目标待识别电话号码串中包含指定的分隔符(即,逗号“,”),按照该分隔符“,”切分目标待识别电话号码串,得到切分后的目标待识别电话号码串为“028-84876877”和“1380233318”。
其次,国家区号的识别和去除。在现有的电话号码中,为了区分各个国家的电话号码,通常会在电话号码前加上国家区号。以中国的电话号码为例,通常会在电话号码前加86以表示区分,然而在不进行跨国拨打电话中,国家区号并没有实质用处,因而可以对其进行去除处理。
在本发明实施例中,在得到切分后的至少两个目标待识别电话号码串之后,对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号,若是,则去除该目标待识别电话号码串头部的国家区号。反之,若该目标待识别电话号码串的头部不具有国家区号,则不进行去除操作。
在根据分隔符进行预切分的步骤中,对于不需要进行预切分操作的目标待识别电话号码串,则进一步确定该目标待识别电话号码串的头部是否具有国家区号,若是,则去除该目标待识别电话号码串头部的国家区号。反之,若该目标待识别电话号码串的头部不具有国家区号,则不进行去除操作。
在本发明实施例中,以中国区号86为例,常见的86形式包括+86、086、0086、86等,本发明实施例可以根据剩余电话位数来判断86是否为中国区号。例如,上文表1中的目标待识别电话号码串“86-0877-70104577010457”,根据剩余电话位数来判断86为中国区号,则对86进行去除处理,得到处理后的目标待识别电话号码串为“0877-70104577010457”,这里对86后面的符号“-”也进行去除处理。
再者,在对地区区号进行补充和去重时,可以对去除了国家区号之后的目标待识别电话号码串进行分析,若分析得到目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;若分析得到目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
在根据分隔符进行预切分的步骤中,对于不需要进行预切分操作的目标待识别电话号码串,或者在对国家区号进行识别和去除的步骤中,对于不需要进行去除操作的目标待识别电话号码串,则进一步对该目标待识别电话号码串进行分析,若分析得到该目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;若分析得到该目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
例如,上文表1中的目标待识别电话号码串“286990619869906199”,对该目标待识别电话号码串进行分析,得到该目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整,得到地区区号补充完整后的目标待识别电话号码串“0286990619869906199”。
再例如,上文表1中的目标待识别电话号码串“07710771324579718602365784”,对该目标待识别电话号码串进行分析,得到该目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理,得到去除地区区号后的目标待识别电话号码串“0771324579718602365784”。
在本发明实施例中,上文表1所示的中国市、区、县电话号码经过上文的预处理操作后,得到处理后的目标待识别电话号码串,如表2所示。对于上文提及的预处理操作,即,包括根据分隔符预切分、国家区号的识别和去除、地区区号的补充和去重等,本发明并不限制它们执行的先后顺序,在实际操作中,可以根据实际需求来设置它们执行的先后顺序。例如,先根据分隔符预切分,接着进行国家区号的识别和去除,然后进行地区区号的补充和去重。又如,先进行国家区号的识别和去除,接着进行地区区号的补充和去重,然后根据分隔符预切分。再例如,先进行国家区号的识别和去除,接着根据分隔符预切分,然后进行地区区号的补充和去重,等等。
表2
需要说明的是,本发明实施例中对目标待识别电话号码串进行与电话号码格式相关的预处理操作,并不局限于上述几种预处理方式,在实际操作中,可以结合不同国家的电话号码的特点进行相应的预处理操作,使得预处理操作后的目标待识别电话号码串与电话号码格式尽可能保持一致,从而提高电话号码的识别率。
进一步,从初始位置起,根据符合电话号码格式的划分规则对处理后的目标待识别电话号码串进行划分,得到第一指定位数的号码串,这里可以结合不同类别的电话号码(如固定电话或移动电话等)的特点,选取相应的划分规则进行划分。
以中国市、区、县电话号码为例,在选取符合移动电话号码格式的划分规则时,由于移动电话包含11位,根据其前7位可以判断其正确性及所属区域,因而可以根据符合移动电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数为7位的号码串。
另外,在选取符合固定电话号码格式的划分规则时,由于固定电话分为官方400或800开头的10位号码电话、包含3位或4位区号的普通7位或8位的区域电话及特殊官方5位电话号码,因而可以根据符合固定电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数为3位、4位或5位的号码串。
例如,从POI信息中提取的目标待识别电话号码串为“+8613651464541,28-84876877”,对该目标待识别电话号码进行与电话号码格式相关的预处理操作,依次为根据分隔符预切分、国家区号的识别和去除、地区区号的识别和补充,则处理后的目标待识别电话号码串为“13651464541”和“028-84876877”。进一步,从初始位置起,根据符合移动电话号码格式的划分规则对目标待识别电话号码串“13651464541”进行划分,得到第一指定位数为7位的号码串“1365146”。或者,从初始位置起,根据符合固定电话号码格式的划分规则对目标待识别电话号码串“028-84876877”进行划分,得到第一指定位数为3位的号码串“028”。
再例如,上文表2中,进行与电话号码格式相关的预处理操作后的目标待识别电话号码串为“0286990619869906199”,接下来从初始位置起,根据符合固定电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数为3位的号码串“028”,该第一指定位数为3位的号码串满足第一类别电话号码(即,固定电话)的属性特征。
需要说明的是,以上列举的第一指定位数为7位,第一类别电话号码为移动电话;或者,第一指定位数为3位、4位或5位,第一类别电话号码为固定电话,是根据中国市、区、县电话号码的特点进行的设置,对于其他国家的电话号码的识别,可以结合其他国家的电话号码的特点对第一指定位数、第一类别电话号码进行相应的设置。
在步骤S106中,若第一指定位数的号码串符合第一类别电话号码的属性特征,则根据第一类别电话号码的属性特征,确定至少两个探测位数。之后,步骤S108分别采用各个探测位数对目标待识别电话号码串进行切分,得到切分结果,本发明实施例提供了一种可选的方案,即,对于各个探测位数,利用该探测位数对目标待识别电话号码串的、第一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码,比较第一切分号码和第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。随后,在步骤S110中,比较各个探测位数对应的号码相同的位数,从各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数,对第一指定位数的号码串补全最优探测位数。
在上面的例子中,识别出第一指定位数为3位的号码串“028”对应的电话号码为固定电话,且该固定电话由于不是以400或800开头,则确定7位和8位两个探测位数。
对于7位的探测位数,利用该探测位数对目标待识别电话号码串的、第一指定位数的号码串之后的电话号码串(即,6990619869906199)进行切分,得到第一切分号码“6990619”和第二切分号码“8699061”,确定两者对应位置上号码相同的位数为1。
对于8位的探测位数,利用该探测位数对目标待识别电话号码串的、第一指定位数的号码串之后的电话号码串(即,6990619869906199)进行切分,得到第一切分号码“69906198”和第二切分号码“69906199”,确定两者对应位置上号码相同的位数为7。
随后,从7位和8位的探测位数中,选取对应号码相同的位数最大的作为最优探测位数,即选取8位的探测位数作为最优探测位数,对第一指定位数的号码串“028”补全最优探测位数得到的固定电话为“02869906198”。这里,选择此计算方法的依据是出现在同一个电话单元中的两个固定电话或移动电话有很大的相似性。
进一步,在步骤S104中判断第一指定位数的号码串是否符合第一类别电话号码的属性特征之后,若第一指定位数的号码串不符合第一类别电话号码的属性特征,则可以选取新的符合电话号码格式的划分规则对目标待识别电话号码串重新进行划分,得到第二指定位数的号码串,随后判断第二指定位数的号码串是否符合第二类别电话号码的属性特征,若是,则根据第二类别电话号码的属性特征,对第二指定位数的号码串进行补全。
例如,从POI信息中提取的目标待识别电话号码串为“+8613651464541,28-84876877”,对该目标待识别电话号码进行与电话号码格式相关的预处理操作,如删除国家区号,得到处理后的目标待识别电话号码串为“13651464541,28-84876877”。进一步,从初始位置起,根据符合固定电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数为3位的号码串“136”,该第一指定位数的号码串“136”不符合第一类别电话号码(即,固定电话)的属性特征,则可以选取移动电话号码格式的划分规则对目标待识别电话号码串重新进行划分,得到第二指定位数为7位的号码串“1365146”,该第二指定位数为7位的号码串“1365146”符合第二类别电话号码(即,移动电话)的属性特征,根据第二类别电话号码的属性特征,对第二指定位数的号码串进行补全,得到补全的第二指定位数的号码串对应的电话号码“13651464541”。
以上列举的第一指定位数为7位,第一类别电话号码为移动电话,第二指定位数为3位、4位或5位,第二类别电话号码为固定电话;或者,第一指定位数为3位、4位或5位,第一类别电话号码为固定电话,第二指定位数为7位,第二类别电话号码为移动电话,是根据中国市、区、县电话号码的特点进行的设置,需要说明的是,对于其他国家的电话号码的识别,可以结合其他国家的电话号码的特点对第一指定位数、第一类别电话号码、第二指定位数以及第二类别电话号码进行相应的设置。
在本发明实施例中,在补全得到第一指定位数或第二指定位数的号码串对应的电话号码之后,可以输出补全得到第一指定位数或第二指定位数的号码串对应的电话号码。例如,在从目标待识别电话号码串“0286990619869906199”中识别出固定电话“02869906198”后,可以输出固定电话“02869906198”。
进一步,对于剩余的待识别电话号码串“69906199”,则需要再次执行预处理操作、判断操作、确定操作、切分操作以及补全操作,直至剩余的待识别电话号码串被全部识别完。即,首先补全地区区号“028”,得到目标待识别电话号码串“02869906199”。接着,从初始位置起,根据符合固定电话号码格式的划分规则对目标待识别电话号码串“02869906199”进行划分,得到第一指定位数为3位的号码串“028”,进而识别出第一指定位数为3位的号码串对应的电话号码为固定电话“02869906199”。
再例如,上文表2中,目标待识别电话号码串为“400-890-0000转805530”,从初始位置起,根据符合固定电话号码格式的划分规则对目标待识别电话号码串“400-890-0000转805530”进行划分,得到第一指定位数为3位的号码串“400”,进而根据步骤S108可以识别出第一指定位数为3位的号码串对应的电话号码为固定电话“400-890-0000”。对于剩余的待识别电话号码串“转805530”识别出为分机号,则添加到固定电话“400-890-0000”的末尾,得到“400-890-0000转805530”。
下面通过一具体实施例详细介绍本发明提供的电话号码的识别方法的实现过程,在该实施例中,以中国市、区、县电话号码为例,从网页中获取POI信息,并从POI信息中提取目标待识别电话号码串。图2示出了根据本发明另一实施例的电话号码的识别方法的流程图。参见图2,该方法至少可以包括步骤S202至步骤S216。
步骤S202,对目标待识别电话号码串,根据分隔符进行预切分处理。
在该步骤中,可以确定目标待识别电话号码串中是否包含指定的分隔符,若目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分目标待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。反之,若目标待识别电话号码串中不包含指定的分隔符,则不进行预切分操作。这里,指定的分隔符可以是顿号“、”、逗号“,”、分号“;”、斜杠“/”、反斜杠“\”、竖杆“|”等,本发明不限于此。
例如,上文表1中的目标待识别电话号码串“028-84876877,1380233318”,确定该目标待识别电话号码串中包含指定的分隔符(即,逗号“,”),按照该分隔符“,”切分目标待识别电话号码串,得到切分后的目标待识别电话号码串为“028-84876877”和“1380233318”。
步骤S204,去除开头86。
在该步骤中,在得到切分后的至少两个目标待识别电话号码串之后,对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号,若是,则去除该目标待识别电话号码串头部的国家区号。反之,若该目标待识别电话号码串的头部不具有国家区号,则不进行去除操作。
在根据分隔符进行预切分的步骤中,对于不需要进行预切分操作的目标待识别电话号码串,则进一步确定该目标待识别电话号码串的头部是否具有国家区号,若是,则去除该目标待识别电话号码串头部的国家区号。反之,若该目标待识别电话号码串的头部不具有国家区号,则不进行去除操作。
以中国区号86为例,常见的86形式包括+86、086、0086、86等,本发明实施例可以根据剩余电话位数来判断86是否为中国区号。例如,上文表1中的目标待识别电话号码串“86-0877-70104577010457”,根据剩余电话位数来判断86为中国区号,则对86进行去除处理,得到处理后的目标待识别电话号码串为“0877-70104577010457”,这里对86后面的符号“-”也进行去除处理。
步骤S206,地区区号补充和去重。
在该步骤中,可以对去除了国家区号之后的目标待识别电话号码串进行分析,若分析得到目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;若分析得到目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
在根据分隔符进行预切分的步骤中,对于不需要进行预切分操作的目标待识别电话号码串,或者在对国家区号进行识别和去除的步骤中,对于不需要进行去除操作的目标待识别电话号码串,则进一步对该目标待识别电话号码串进行分析,若分析得到该目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;若分析得到该目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
例如,上文表1中的目标待识别电话号码串“286990619869906199”,对该目标待识别电话号码串进行分析,得到该目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整,得到地区区号补充完整后的目标待识别电话号码串“0286990619869906199”。
再例如,上文表1中的目标待识别电话号码串“07710771324579718602365784”,对该目标待识别电话号码串进行分析,得到该目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理,得到去除地区区号后的目标待识别电话号码串“0771324579718602365784”。
步骤S208,根据目标待识别电话号码串的前7位判定是否为移动电话,若否,则继续执行步骤S210,若是,继续执行步骤S212。
在该步骤中,选取符合移动电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数为7位的号码串,判断第一指定位数为7位的号码串是否满足第一类别电话号码(即,移动电话)的属性特征,若是,则根据第一类别电话号码(即,移动电话)的属性特征,对第一指定位数为7位的号码串进行补全,得到第一指定位数为7位的号码串对应的电话号码(即,移动电话)。
步骤S210,后向探测位数判定。
在该步骤中,若步骤S208中第一指定位数为7位的号码串不满足第一类别电话号码(即,移动电话)的属性特征,则选取符合固定电话号码格式的划分规则对目标待识别电话号码串重新进行划分,得到第二指定位数为3位、4位或5位的号码串,进而判断第二指定位数为3位、4位或5位的号码串是否满足第二类别电话号码(即,固定电话)的属性特征,若是,则根据第二类别电话号码(即,固定电话)的属性特征,对第二指定位数为3位、4位或5位的号码串进行补全,得到第二指定位数为3位、4位或5位的号码串对应的电话号码(即,固定电话)。
例如,上文表2中,在对目标待识别电话号码串“286990619869906199”进行预处理操作后,得到目标待识别电话号码串为“0286990619869906199”,接下来从初始位置起,根据符合移动电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数为7位的号码串为“0286990”,该第一指定位数为7位的号码串不满足第一类别电话号码(即,移动电话)的属性特征,则选取符合固定电话号码格式的划分规则对目标待识别电话号码串重新进行划分,得到第二指定位数为3位的号码串为“028”,识别出第二指定位数为3位的号码串“028”对应的电话号码为固定电话,分别为7位的“0286990619”或者8位的“02869906198”。
在上文的例子中,从目标待识别电话号码串“0286990619869906199”中识别出第二指定位数为3位的号码串对应的电话号码为固定电话,分别为7位的“0286990619”或者8位的“02869906198”。为了选取合适的补全位,提高电话号码的识别率,本发明实施例在根据第二类别电话号码的属性特征,对第二指定位数的号码进行补全时,提供了一种后向探测位数判定的方案,即,可以根据第二类别电话号码的属性特征,确定至少两个探测位数,随后分别采用各个探测位数对目标待识别电话号码串进行切分,得到切分结果。之后,根据切分结果,从至少两个探测位数中选取最优探测位数对第二指定位数的号码串进行补全。
进一步,对于各个探测位数,利用该探测位数对目标待识别电话号码串的、第二指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码,比较第一切分号码和第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。随后,比较各个探测位数对应的号码相同的位数,从各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数,对第二指定位数的号码串补全最优探测位数。
在上面的例子中,识别出第二指定位数为3位的号码串“028”对应的电话号码为固定电话,分别为7位的“0286990619”或者8位的“02869906198”,为了选取合适的补全位,确定7位和8位两个探测位数。
对于7位的探测位数,利用该探测位数对目标待识别电话号码串的、第二指定位数的号码串之后的电话号码串(即,6990619869906199)进行切分,得到第一切分号码“6990619”和第二切分号码“8699061”,确定两者对应位置上号码相同的位数为1。
对于8位的探测位数,利用该探测位数对目标待识别电话号码串的、第二指定位数的号码串之后的电话号码串(即,6990619869906199)进行切分,得到第一切分号码“69906198”和第二切分号码“69906199”,确定两者对应位置上号码相同的位数为7。
随后,从7位和8位的探测位数中,选取对应号码相同的位数最大的作为最优探测位数,即选取8位的探测位数作为最优探测位数,对第二指定位数的号码串“028”补全最优探测位数得到的固定电话为“02869906198”。这里,选择此计算方法的依据是出现在同一个电话单元中的两个固定电话或移动电话有很大的相似性。
步骤S212,判断是否错误,若否,则继续执行步骤S214,若是,则结束本次流程。
在该步骤中,可以判断第一指定位数为7位的号码串对应的电话号码是否准确,如是否缺少位数或者是否为空号等。还可以判断S210中后向探测位数判定得到的电话号码是否准确。
步骤S214,输出电话号码。
步骤S216,判断剩余的电话号码串的长度是否大于0,若是,则返回执行步骤S204,若否,则结束本次流程。
在本发明实施例中,首先对目标待识别电话号码串进行与电话号码格式相关的预处理操作(依次为根据分隔符预切分、国家区号的识别和去除、地区区号的补充和去重),使得预处理操作后的目标待识别电话号码串与电话号码格式一致,以便于后续基于预处理操作后的目标待识别电话号码串进行电话号码的识别,提高电话号码的识别率。进一步,本发明实施例结合不同类别的电话号码(固定电话和移动电话)具有的特征,采用不同类别的电话号码对应的电话号码格式的划分规则对目标待识别电话号码串进行划分,根据划分得到的第一指定位数的号码串识别出其对应的电话号码的类别,实现对不同类别的电话号码的有效识别。进一步,本发明实施例结合同一个电话单元中的两个固定电话或移动电话有很大的相似性的特点,采用后向探测位数判定的方案,对目标待识别电话号码串进行探测、识别,进一步提高了电话号码识别的准确性。进一步,本发明实施例对于剩余的电话号码串,采用递归的方式进行识别,直至剩余的电话号码串被全部识别完。
基于上文各个实施例提供的电话号码的识别方法,基于同一发明构思,本发明实施例还提供了一种电话号码的识别装置,图3示出了根据本发明一实施例的电话号码的识别装置的结构示意图。如图3所示,该装置至少可以包括划分模块310、判断模块320、确定模块330、切分模块340以及补全模块350。
现介绍本发明实施例的电话号码的识别装置的各组成或器件的功能以及各部分间的连接关系:
划分模块310,适于从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;
判断模块320,与划分模块310相耦合,适于判断第一指定位数的号码串是否符合第一类别电话号码的属性特征;
确定模块330,与判断模块320相耦合,适于若判断模块判断第一指定位数的号码串符合第一类别电话号码的属性特征,则根据第一类别电话号码的属性特征,确定至少两个探测位数;
切分模块340,与确定模块330相耦合,适于分别采用各个探测位数对目标待识别电话号码串进行切分,得到切分结果;
补全模块350,与切分模块340相耦合,适于根据切分结果,从至少两个探测位数中选取最优探测位数对第一指定位数的号码串进行补全。
在本发明一实施例中,切分模块340还适于:
对于各个探测位数,利用该探测位数对目标待识别电话号码串的、第一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
比较第一切分号码和第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。
在本发明一实施例中,补全模块350还适于:
比较各个探测位数对应的号码相同的位数;
从各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
对第一指定位数的号码串补全最优探测位数。
在本发明一实施例中,划分模块310还适于若判断模块判断第一指定位数的号码串不符合第一类别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对目标待识别电话号码串重新进行划分,得到第二指定位数的号码串;
判断模块320还适于判断第二指定位数的号码串是否符合第二类别电话号码的属性特征;
补全模块350还适于若判断模块判断第二指定位数的号码串符合第二类别电话号码的属性特征,则根据第二类别电话号码的属性特征,对第二指定位数的号码串进行补全。
在本发明一实施例中,划分模块310包括:
预处理单元,适于对目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;
划分单元,适于从初始位置起,根据符合电话号码格式的划分规则对处理后的目标待识别电话号码串进行划分。
在本发明一实施例中,预处理单元还适于:
确定目标待识别电话号码串中是否包含指定的分隔符;
若目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分原始待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
在本发明一实施例中,指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖杆。
在本发明一实施例中,预处理单元还适于:
在得到切分后的至少两个目标待识别电话号码串之后,对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
若是,则去除该目标待识别电话号码串头部的国家区号。
在本发明一实施例中,预处理单元还适于:
在去除该目标待识别电话号码串头部的国家区号之后,分析去除了国家区号之后的目标待识别电话号码串;
若目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;
若目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
在本发明一实施例中,如图4所示,图3展示的装置还可以包括获取模块360,与划分模块310相耦合,适于通过以下步骤获取目标待识别电话号码串:
从网页中获取兴趣点POI信息;
从POI信息中提取目标待识别电话号码串。
在本发明一实施例中,如图4所示,图3展示的装置还可以包括:
递归模块370,与补全模块350相耦合,适于若存在剩余的待识别电话号码串,则触发预处理单元再次执行预处理操作、划分模块再次执行划分操作、判断模块再次执行判断操作、确定模块再次执行确定操作、切分模块再次执行切分操作以及补全模块再次执行补全操作,直至剩余的待识别电话号码串被全部识别完。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明实施例中,从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,即结合不同类别的电话号码(如固定电话或移动电话等)具有的特征,采用不同类别的电话号码对应的电话号码格式的划分规则对目标待识别电话号码串进行划分,根据划分得到的第一指定位数的号码串识别出其对应的电话号码的类别,实现对不同类别的电话号码的有效识别。进一步,本发明实施例结合同一个电话单元中的两个固定电话或移动电话有很大的相似性的特点,根据第一类别电话号码的属性特征,确定至少两个探测位数,随后采用后向探测位数判定的方案,对目标待识别电话号码串进行探测、识别,进一步提高了电话号码识别的准确性。
另外,本发明实施例在根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分之前,还可以对目标待识别电话号码串进行与电话号码格式相关的预处理操作,使得预处理操作后的目标待识别电话号码串与电话号码格式一致,以便于后续基于预处理操作后的目标待识别电话号码串进行电话号码的识别,提高电话号码的识别率。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的电话号码的识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例还公开了:A1、一种电话号码的识别方法,包括:
从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;
判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征;
若是,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全。
A2、根据A1所述的方法,其中,所述分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果,包括:
对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。
A3、根据A1或A2所述的方法,其中,根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全,包括:
比较所述各个探测位数对应的号码相同的位数;
从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
对所述第一指定位数的号码串补全所述最优探测位数。
A4、根据A1-A3任一项所述的方法,其中,在判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征之后,还包括:
若所述第一指定位数的号码串不符合第一类别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定位数的号码串;
判断所述第二指定位数的号码串是否符合第二类别电话号码的属性特征;
若是,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串进行补全。
A5、根据A1-A4任一项所述的方法,其中,从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,包括:
对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;
从初始位置起,根据符合电话号码格式的划分规则对所述处理后的目标待识别电话号码串进行划分。
A6、根据A1-A5任一项所述的方法,其中,对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串,包括:
确定所述目标待识别电话号码串中是否包含指定的分隔符;
若所述目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述目标待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
A7、根据A1-A6任一项所述的方法,其中,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖杆。
A8、根据A1-A7任一项所述的方法,其中,在得到切分后的至少两个目标待识别电话号码串之后,还包括:
对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
若是,则去除该目标待识别电话号码串头部的国家区号。
A9、根据A1-A8任一项所述的方法,其中,在去除该目标待识别电话号码串头部的国家区号之后,还包括:
分析去除了国家区号之后的所述目标待识别电话号码串;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
A10、根据A1-A9任一项所述的方法,其中,通过以下步骤获取所述目标待识别电话号码串:
从网页中获取兴趣点POI信息;
从所述POI信息中提取所述目标待识别电话号码串。
A11、根据A1-A10任一项所述的方法,其中,在对所述第一指定位数或所述第二指定位数的号码串进行补全之后,还包括:
若存在剩余的待识别电话号码串,则再次执行预处理操作、划分操作、判断操作、确定操作、切分操作以及补全操作,直至剩余的待识别电话号码串被全部识别完。
B12、一种电话号码的识别装置,包括:
划分模块,适于从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;
判断模块,适于判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征;
确定模块,适于若所述判断模块判断所述第一指定位数的号码串符合第一类别电话号码的属性特征,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
切分模块,适于分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
补全模块,适于根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全。
B13、根据B12所述的装置,其中,所述切分模块还适于:
对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。
B14、根据B12或B13所述的装置,其中,所述补全模块还适于:
比较所述各个探测位数对应的号码相同的位数;
从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
对所述第一指定位数的号码串补全所述最优探测位数。
B15、根据B12-B14任一项所述的装置,其中,
所述划分模块,还适于若所述判断模块判断第一指定位数的号码串不符合第一类别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定位数的号码串;
所述判断模块,还适于判断所述第二指定位数的号码串是否符合第二类别电话号码的属性特征;
所述补全模块,还适于若所述判断模块判断所述第二指定位数的号码串符合第二类别电话号码的属性特征,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串进行补全。
B16、根据B12-B15任一项所述的装置,其中,所述划分模块包括:
预处理单元,适于对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;
划分单元,适于从初始位置起,根据符合电话号码格式的划分规则对所述处理后的目标待识别电话号码串进行划分。
B17、根据B12-B16任一项所述的装置,其中,所述预处理单元还适于:
确定所述目标待识别电话号码串中是否包含指定的分隔符;
若所述目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述原始待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
B18、根据B12-B17任一项所述的装置,其中,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖杆。
B19、根据B12-B18任一项所述的装置,其中,所述预处理单元还适于:
在得到切分后的至少两个目标待识别电话号码串之后,对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
若是,则去除该目标待识别电话号码串头部的国家区号。
B20、根据B12-B19任一项所述的装置,其中,所述预处理单元还适于:
在去除该目标待识别电话号码串头部的国家区号之后,分析去除了国家区号之后的所述目标待识别电话号码串;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
B21、根据B12-B20任一项所述的装置,其中,还包括获取模块,适于通过以下步骤获取所述目标待识别电话号码串:
从网页中获取兴趣点POI信息;
从所述POI信息中提取所述目标待识别电话号码串。
B22、根据B12-B21任一项所述的装置,其中,还包括:
递归模块,适于若存在剩余的待识别电话号码串,则触发所述预处理单元再次执行预处理操作、所述划分模块再次执行划分操作、所述判断模块再次执行判断操作、所述确定模块再次执行确定操作、所述切分模块再次执行切分操作以及所述补全模块再次执行补全操作,直至剩余的待识别电话号码串被全部识别完。

Claims (10)

1.一种电话号码的识别方法,包括:
从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;
判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征;
若是,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全。
2.根据权利要求1所述的方法,其中,所述分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果,包括:
对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。
3.根据权利要求1或2所述的方法,其中,根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全,包括:
比较所述各个探测位数对应的号码相同的位数;
从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
对所述第一指定位数的号码串补全所述最优探测位数。
4.根据权利要求1-3任一项所述的方法,其中,在判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征之后,还包括:
若所述第一指定位数的号码串不符合第一类别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定位数的号码串;
判断所述第二指定位数的号码串是否符合第二类别电话号码的属性特征;
若是,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串进行补全。
5.根据权利要求1-4任一项所述的方法,其中,从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,包括:
对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;
从初始位置起,根据符合电话号码格式的划分规则对所述处理后的目标待识别电话号码串进行划分。
6.根据权利要求1-5任一项所述的方法,其中,对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串,包括:
确定所述目标待识别电话号码串中是否包含指定的分隔符;
若所述目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述目标待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
7.根据权利要求1-6任一项所述的方法,其中,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖杆。
8.根据权利要求1-7任一项所述的方法,其中,在得到切分后的至少两个目标待识别电话号码串之后,还包括:
对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
若是,则去除该目标待识别电话号码串头部的国家区号。
9.根据权利要求1-8任一项所述的方法,其中,在去除该目标待识别电话号码串头部的国家区号之后,还包括:
分析去除了国家区号之后的所述目标待识别电话号码串;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地区区号进行去重处理。
10.一种电话号码的识别装置,包括:
划分模块,适于从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;
判断模块,适于判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征;
确定模块,适于若所述判断模块判断所述第一指定位数的号码串符合第一类别电话号码的属性特征,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
切分模块,适于分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
补全模块,适于根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全。
CN201510643027.7A 2015-09-30 2015-09-30 电话号码的识别方法及装置 Active CN105227737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510643027.7A CN105227737B (zh) 2015-09-30 2015-09-30 电话号码的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510643027.7A CN105227737B (zh) 2015-09-30 2015-09-30 电话号码的识别方法及装置

Publications (2)

Publication Number Publication Date
CN105227737A true CN105227737A (zh) 2016-01-06
CN105227737B CN105227737B (zh) 2018-01-05

Family

ID=54996405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510643027.7A Active CN105227737B (zh) 2015-09-30 2015-09-30 电话号码的识别方法及装置

Country Status (1)

Country Link
CN (1) CN105227737B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109246623A (zh) * 2018-08-31 2019-01-18 张彬 一种通信号码补全方法、装置及存储介质
CN111866207A (zh) * 2020-06-29 2020-10-30 厦门亿联网络技术股份有限公司 一种音视频会议***号码分配方法及***
CN112003988A (zh) * 2020-08-05 2020-11-27 云南电网有限责任公司红河供电局 一种识别号码准确度的装置和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070082712A1 (en) * 2004-04-05 2007-04-12 Matsushita Electric Industrial Co., Ltd. Mobile phone apparatus
CN102088697A (zh) * 2010-12-17 2011-06-08 北京华中融合科技有限公司 垃圾短信的处理方法和***
CN104731977A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 电话号码数据的发现与分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070082712A1 (en) * 2004-04-05 2007-04-12 Matsushita Electric Industrial Co., Ltd. Mobile phone apparatus
CN102088697A (zh) * 2010-12-17 2011-06-08 北京华中融合科技有限公司 垃圾短信的处理方法和***
CN104731977A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 电话号码数据的发现与分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109246623A (zh) * 2018-08-31 2019-01-18 张彬 一种通信号码补全方法、装置及存储介质
CN111866207A (zh) * 2020-06-29 2020-10-30 厦门亿联网络技术股份有限公司 一种音视频会议***号码分配方法及***
CN111866207B (zh) * 2020-06-29 2022-11-22 厦门亿联网络技术股份有限公司 一种音视频会议***号码分配方法及***
CN112003988A (zh) * 2020-08-05 2020-11-27 云南电网有限责任公司红河供电局 一种识别号码准确度的装置和方法

Also Published As

Publication number Publication date
CN105227737B (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107609186B (zh) 信息处理方法及装置、终端设备及计算机可读存储介质
CN105653537B (zh) 一种数据库应用***的分页查询方法和装置
CN105227737A (zh) 电话号码的识别方法及装置
CN105335956B (zh) 同源图像的校验方法及装置
CN103559313B (zh) 搜索方法及装置
CN112632213A (zh) 地址信息标准化方法及装置、电子设备、存储介质
CN110362563A (zh) 数据表的处理方法及装置、存储介质、电子装置
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN112000884A (zh) 一种用户内容推荐方法及装置、服务器、存储介质
CN105260440A (zh) 识别电话号码的方法及装置
CN105159921A (zh) 地图中兴趣点poi数据去重的方法及装置
CN105187600A (zh) 基于递归的电话号码的识别方法及装置
CN105653540B (zh) 文件属性信息的处理方法和装置
CN110472019A (zh) 舆情搜索方法及装置
CN113627509B (zh) 数据分类方法、装置、计算机设备及计算机可读存储介质
CN102135961A (zh) 一种领域特征词确定方法和装置
CN110414579A (zh) 元数据模型合标性检查方法及装置、存储介质
CN108614811B (zh) 一种数据分析方法及装置
CN106933896B (zh) 最短访问路径识别方法及装置
CN108874795A (zh) 服务器与待查询对象信息获取方法及装置
CN106934276A (zh) 一种检测移动终端***安全性的方法、装置及移动终端
CN106919601B (zh) 从查询词中提取兴趣点的方法和装置
CN112184742A (zh) 图形共边检测方法、装置、设备及计算机可读介质
CN106570024B (zh) 数据增量处理的方法和装置
CN103761477A (zh) 一种病毒程序样本的获取方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220715

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.