CN106547770B - 一种基于用户地址信息的用户分类、用户识别方法及装置 - Google Patents

一种基于用户地址信息的用户分类、用户识别方法及装置 Download PDF

Info

Publication number
CN106547770B
CN106547770B CN201510604704.4A CN201510604704A CN106547770B CN 106547770 B CN106547770 B CN 106547770B CN 201510604704 A CN201510604704 A CN 201510604704A CN 106547770 B CN106547770 B CN 106547770B
Authority
CN
China
Prior art keywords
address information
user
processed
standard
user address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510604704.4A
Other languages
English (en)
Other versions
CN106547770A (zh
Inventor
王教团
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510604704.4A priority Critical patent/CN106547770B/zh
Publication of CN106547770A publication Critical patent/CN106547770A/zh
Application granted granted Critical
Publication of CN106547770B publication Critical patent/CN106547770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Instructional Devices (AREA)

Abstract

本申请公开了一种基于用户地址信息的用户分类、用户识别方法及装置,所述方法包括:获取待处理的用户地址信息,根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,每一所述标准地址信息表示一个地理区域,所述用户地址信息集合中包含至少一个所述待处理的用户地址信息。通过本方法,能够有效且准确地将用户地址信息按照不同的标准地址信息进行分类,分类后形成的用户地址信息集合中的用户地址信息均表征着同一地理区域,在此基础上,就可以准确地识别用户所属的具体地理区域。

Description

一种基于用户地址信息的用户分类、用户识别方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于用户地址信息的用户分类、用户识别方法及装置。
背景技术
随着信息技术的发展,用户自身的用户地址信息(如:通讯地址等)已经成为一种重要的用户信息,对于用户而言,用户地址信息可使用户准确地获得相应的业务服务(如:物流寄送服务)。对于服务提供商(如:网站、电信运营商、银行等)而言,可以对用户地址信息进行分类,以确定出不同用户各自所属的地理区域,从而对用户提供相应的业务服务或对用户所属区域进行识别等。
现有技术中,服务提供商对用户地址信息进行分类以识别用户,通常采用的方式为:提取用户地址信息中的关键词缀,根据关键词缀确定用户地址信息所属区域,进而确定用户所属区域。例如:假设用户地址信息为“XX市XX大学”、“教务处X室”,这些用户地址信息中的“大学”、“教务处”就是一种关键词缀,表明用户地址信息对应的区域是学校,因此将上述的用户地址信息划分为“学校”类。那么,也就可以识别出提供该用户地址信息的用户属于“学校”类的用户。
但是,采用上述对用户地址信息进行分类以识别用户的方式,并不能满足实际应用中对用户精确识别的要求。例如:在医疗保险的出险服务中,服务提供商会对接收到的出险证明的真实性进行识别(其中,出险证明中包含相应的出险医院的地址信息和证明人信息),根据现有技术的方式,根据证明人提供的地址信息中的关键词缀,只能将该地址信息划分为“医院”这一大类,相应地,也只能识别出该证明人属于“医院”类,却无法判断出该证明人是属于哪家医院的医务人员。
综上所述,亟需一种基于用户地址信息的用户分类、用户识别方法,以解决现有技术中对用户提供的用户地址信息进行分类,分类粒度较粗的问题,导致利用分类结果无法准确识别该用户身份的问题。
发明内容
本申请实施例提供一种基于用户地址信息的用户分类、用户识别方法及装置,用以解决现有技术中对用户提供的用户地址信息进行分类,分类粒度较粗的问题,导致利用分类结果无法准确识别该用户身份的问题。
本申请实施例提供的一种基于用户地址信息的用户分类方法,包括:
获取待处理的用户地址信息;
根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,其中,每一个所述标准地址信息表示一个地理区域,所述用户地址信息集合中包含至少一个所述待处理的用户地址信息。
本申请实施例提供的一种基于用户地址信息的用户识别方法,包括:
获取待处理的用户地址信息;
确定所述待处理的用户地址信息所属的用户地址信息集合;
根据用户地址信息集合与标准地址信息之间的对应关系,确定所述待处理的用户地址信息所属的用户地址信息集合对应的标准地址信息,其中,每一所述标准地址信息表示一个地理区域;
根据所述标准地址信息,识别所述待处理的用户地址信息对应的用户所属的地理区域。
本申请实施例提供的一种基于用户地址信息的用户分类装置,包括:
获取模块,用于获取待处理的用户地址信息;
分类模块,用于根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,其中,每一个所述标准地址信息表示一个地理区域,所述用户地址信息集合中包含至少一个所述待处理的用户地址信息。
本申请实施例还提供的一种基于用户地址信息的用户识别装置,包括:
获取模块,用于获取待处理的用户地址信息;
第一确定模块,用于确定所述待处理的用户地址信息所属的用户地址信息集合;
第二确定模块,用于根据用户地址信息集合与标准地址信息之间的对应关系,确定所述待处理的用户地址信息所属的用户地址信息集合对应的标准地址信息,其中,每一所述标准地址信息表示一个地理区域;
识别模块,用于根据所述标准地址信息,识别所述待处理的用户地址信息对应的用户所属的地理区域。
本申请实施例提供一种基于用户地址信息的用户分类、用户识别方法及装置,在本方法中,服务器针对待处理的用户地址信息,根据区域信息库中的标准地址信息,对待处理的用户地址信息进行分类,而区域信息库中的每一个标准地址信息准确地表示一个地理区域,经过分类,可将属于同一地理区域的待处理的用户地址信息确定出来,确定出的属于同一地理区域的待处理的用户地址信息也就形成了相应的用户地址信息集合,这样即可得到该地理区域的标准地址信息对应的用户地址信息集合,实现利用标准地址信息构建圈人框架;此外,采用这样的方式,能够有效且准确地将用户地址信息按照不同的标准地址信息进行分类,使得分类后形成的用户地址信息集合中的用户地址信息均属于同一地理区域,进而提升用户地址信息分类的精度,并且根据分类后的用户地址信息集合,能够比较准确地定位用户所属的地理区域。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的基于用户地址信息的用户分类过程示意图;
图2为本申请实施例提供的根据标准地址信息对待处理的用户地址信息进行分类的示意图;
图3为本申请实施例提供的查找包含与标准地址词相匹配的地址索引词的待处理用户地址信息的示意图;
图4为本申请实施例提供的对筛选后的用户地址信息进行排序的示意图;
图5为本申请实施例提供的基于用户地址信息的用户识别过程示意图;
图6为本申请实施例提供的实际应用中的架构示意图;
图7为本申请实施例提供的基于用户地址信息的用户分类装置结构示意图;
图8为本申请实施例提供的基于用户地址信息的用户识别装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在实际应用中,用户地址信息通常都对应着某一处具体的地理区域,如:住宅小区、建筑物、学校、企业、医院等等。如果能够获知该地理区域对应的用户地址信息集合,也就获知了该地理区域对应的用户群,这样,服务提供商在为用户提供某些业务服务(如前述的保险业务)时,可以基于用户地址信息角度对用户进行初步判断。那么本申请实施例中服务提供商通过用户地址信息对用户进行识别,也就是基于用户地址信息识别用户是否属于某一地理区域的用户群。
正是基于此,本申请实施例中提出了下述的基于用户地址信息的用户分类、用户识别方法。在本申请中,可由服务提供商后台的服务器执行所述方法,具体而言,如图1所示,为本申请实施例提供的基于用户地址信息的用户分类过程,该过程具体包括以下步骤:
S101,获取待处理的用户地址信息。
当用户想要从相应的服务提供商处获得某种业务服务时,用户向服务提供商提供用户地址信息,使得服务提供商根据该用户地址信息为该用户提供业务服务。
例如:用户在一网站上购买一件产品,在提交产品订单时,向产品卖家提供用户地址信息,这样产品卖家可以根据该用户地址信息,将用户订购的产品寄送给用户。
本申请实施例中所述涉及到的用户地址信息可以是指用户的通讯地址信息,也可以是指用户提供的物流配送地址信息,还可以是其他形式的地址信息,这里不做限定。
在本申请实施例中获取待处理的用户地址信息可以是指服务提供商所获得的由不同用户所提供的用户地址信息。
S102,根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合。
其中,每一个所述标准地址信息表示一个地理区域,所述用户地址信息集合中包含至少一个所述待处理的用户地址信息。
在本申请实施例中,所述标准地址信息是指诸如学校、企业、住宅小区、建筑物等实际的地理区域的地址信息。标准地址信息可认为是相应的地理区域的准确地址信息。例如:一条标准地址信息为“浙江省杭州市上城区浣纱路261号杭州第一人民医院”,该标准地址信息就是地理区域“杭州第一人民医院”的准确地址信息。可见,本申请实施例中的标准地址信息,是包含省、市、区、街道、门牌号的完整的地址信息。
此外,为了增加对地理区域的地址信息表示的准确度,标准地址信息中还可以包含地理区域的经纬度、名称信息等,这里对于地址信息中包含的内容并不作具体限定。
在实际应用中,服务提供商后台的服务器可通过不同的途径获取到不同地理区域的标准地址信息。获取标准地址信息的途径包括但不限于:从专门用于记录并维护标准地址信息的数据库中获取、或通过定位测量后获取等,这里并不作为对本申请的限定。服务器会将获取到的地理区域的标准地址信息存储在区域信息库中。
可见,在本申请中,区域信息库中包含至少一个标准地址信息,每一所述标准地址信息表示一个地理区域。
通过上述步骤,服务器针对待处理的用户地址信息,根据区域信息库中的标准地址信息,对待处理的用户地址信息进行分类,而区域信息库中的每一个标准地址信息则准确地表示一个地理区域,经过分类,可将表征同一地理区域的待处理的用户地址信息确定出来,确定出的属于同一地理区域的待处理的用户地址信息,得到了该地理区域的标准地址信息对应的用户地址信息集合,采用这样的方式,能够有效且准确地将用户地址信息按照不同的标准地址信息进行分类。
分类后形成的用户地址信息集合中的用户地址信息均属于同一地理区域,在此基础上,可以准确地识别用户所述的具体地理区域。所以,上述如图1所示的方法还包括:在得到所述标准地址信息对应的用户地址信息集合时,建立所述标准地址信息与所述用户地址信息集合之间的对应关系。其中,所述对应关系用于识别属于所述用户地址信息集合中的所述待处理的用户地址信息对应的用户所属的地理区域。
例如:假设用户地址信息集合中的某一条用户地址信息为:“浙江省杭州市杭州第一人民医院”,而标准地址信息为:“浙江省杭州市上城区浣纱路261号杭州第一人民医院”。那么,根据用户地址信息集合和该标准地址信息之间的对应关系,也就可以识别:提供用户地址“浙江省杭州市杭州第一人民医院”的用户,其所属的地理位置就是“杭州第一人民医院”。
这里需要说明的是,在分类的过程中,待处理的用户地址信息的格式、所使用的地址词可能并不标准,在实际应用中会与标准地址信息存在一定的差异。
正如上例所示:对于标准的地址信息“浙江省杭州市上城区浣纱路261号杭州第一人民医院”,以及待处理的用户地址信息为“浙江省杭州市杭州第一人民医院”而言,虽然待处理的用户地址信息与标准地址信息,均表征着相同的地理区域,即“杭州第一人民医院”,但显然,待处理的用户地址信息与标准地址信息的格式并不一致。为了准确地将待处理的用户地址信息进行分类,本申请实施例中提供了一种根据标准地址信息对待处理的用户地址信息进行分类的方式,如图2所示。
在图2中,根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,包括:
S201,从预设的区域信息库中选择一个标准地址信息,确定选择的所述标准地址信息中包含的标准地址词。
S202,对所述待处理的用户地址信息进行地址结构化处理,得到所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词。
S203,根据所述标准地址词和所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合。
下面对上述过程进行分析:
对于上述步骤S201而言,在本申请实施例中,服务提供商的服务器通过不同途径所获得的地理区域的地址,可能存在不同的地址格式,这样的地址也可以称为原始地址信息,例如:服务器获得一条原始地址信息,即,“杭州市第一人民医院,地址:浣纱路261号”。显然,该原始地址信息中,“浣纱路261号”是缩略的地址信息。这样的原始地址信息可能影响后续过程中识别用户的准确性。故在本申请实施例中,服务器会对所获得的原始地址信息进行相应的转换处理,以生成完整的标准地址信息。
具体地,生成标准地址信息的过程为:获取原始地址信息,对所述原始地址信息进行地址结构化处理,生成标准地址信息,其中,标准地址信息中包含表征不同地理层级的多个标准地址词。
例如:对上述的原始地址信息“浣纱路261号”进行地址结构化处理后,得到相应的标准地址信息“浙江省杭州市上城区浣纱路261号”,该标准地址信息中,包含有多个标准地址词,分别为:[浙江省]、[杭州市]、[上城区]、[浣纱路]、[261号]。从而,原始地址信息:“杭州市第一人民医院,地址:浣纱路261号”转换为了标准地址信息:“杭州市第一人民医院”,地址:“浙江省杭州市上城区浣纱路261号”。
在一种优选的方式下,为了提升对地理区域描述的准确性,标准地址信息中还包括地理区域的经纬度,这里的经纬度是根据多个标准地址词进行经纬度解析得到的,这里并不构成对本申请的限定。例如:对上述标准地址词进行经纬度解析,就可确定出“[浙江省,杭州市,上城区,浣纱路,261号]”的经纬度:[120.166448,30.254878]。
所以,在该优选的方式下,一条标准地址信息可以为:
名称:杭州市第一人民医院;
地址:[浙江省,杭州市,上城区,浣纱路,261号];
经纬度:[120.166448,30.254878]。
当然,这里的标准地址信息只是本申请中的一种示例,并不构成对本申请的限定。
对于上述步骤S202而言,考虑到任一用户地址信息,也是由不同的地址词所构成,例如:用户地址信息为:“杭州浣纱路261号”,该用户地址信息中包含的地址词为:[杭州]、[浣纱路]、[261号]。那么,也就可以将标准地址信息和用户地址信息都拆分成不同的地址词,以此来进行查找匹配。具体地,步骤S202包括:
解析所述待处理的用户地址信息,得到所述待处理的用户地址信息中包含的表征不同地理层级的地址词,根据地理层级与地址索引词之间的预设关系,确定所述待处理的用户地址信息中包含的每一个表征地理层级的地址词对应的地址索引词。
其中,每一个所述地址索引词对应一个地理层级。
例如:对某待处理的用户地址信息为:“浣纱路261号”,进行解析后可知,这条待处理的用户地址信息中至少包括两个地址词:“浣纱路”和“261号”,但这条待处理的用户地址信息是不完整的,其缺失了省、市等地理层级,所以,对这条待处理的用户地址信息进行解析时,会自动补全该用户地址信息中的所有地理层级(自动补全的过程也称为地址结构化处理),之后,就得到了完整的多个地址词:“[浙江省,杭州市,上城区,浣纱路,261号]”。这些地址词,分别表征省、市、区、街道等不同的地理层级。
上述地理层级与地址索引词之间的预设关系,可以是一个地址索引词对应一种地理层级,所以,上述的“[浙江省,杭州市,上城区,浣纱路,261号]”5个地址词,也就可以作为5个地址索引词。
在实际应用中的某些场景下,部分待处理的用户地址信息中还包含一些特定词,如:“浙大”。这类特定词并不属于标准的地址词,所以,在本申请对待处理的用户地址信息进行解析的过程中,就需要识别这些特定词,并进行相应的转换处理。具体而言,上述过程中,解析所述待处理的用户地址信息,包括:
根据预设的特定词库中包含的特定词,判断所述待处理的用户地址信息中是否包含所述特定词,在判断出所述待处理的用户地址信息中包含所述特定词时,利用所述特定词对应的地址词转换规则,将所述待处理的用户地址信息中包含的所述特定词转换为标准地址词。
在本场景中,所述的特定词包括缩写词;所述特定词转换规则包括缩写词与所述缩写词对应的全称词之间的转换关系。
需要说明的是,缩写词通常是地理区域的名称的缩写词,例如:“浙江大学”的缩写词为“浙大”;“中信银行股份有限公司”的缩写词为“中信银行”等等。而全称词就是这些地理区域的实际名称。
所以,当待处理的用户信息中包含有缩写词时,根据特定词库中保存的缩写词和全称词之间的转换关系,将这些缩写词转换为全称词。
当然,作为本申请实施例中的一种优选方式,为了提升对待处理的用户地址信息描述的准确性,对待处理的用户地址信息进行结构化的过程中,还可以对地址词进行经纬度解析,生成用户地址信息的经纬度。当然,这里并不构成对本申请的限定。
下面以一具体应用实例对上述得到地址索引词的过程进行说明。
例如:假设在服务器中,用户甲和乙提供的各自的用户地址信息I和II。其中,用户地址信息I为:杭州万塘路18号黄龙时代广场B座;用户地址信息II为:浙江省杭州市西湖区古荡街道万塘路18号黄龙时代广场B座。
服务器针对这两条用户地址信息进行地址结构化处理,确定出每个用户地址信息中包含的每一个地址词对应的地址索引词。
那么,对于用户地址信息I而言,其中存在着缩写词“杭州”(相应的全程为“杭州市”),且用户地址信息I缺失一些表征地理层级的地址词,故地址结构化处理后得到的多个地址词为:[浙江省,杭州市,西湖区,万塘路,18号,黄龙时代广场,B座]。
相应地,对于用户地址信息II而言,地址结构化处理后得到的多个地址词为:[浙江省,杭州市,西湖区,古荡街道,万塘路,18号,黄龙时代广场,B座]。
此时,可将上述的每一个地址词作为一个地址索引词,确定出各地址索引词对应的用户地址信息(也就是该地址索引词出现在哪些结构化后的用户地址信息中)。最终形成的地址索引词如下表1所示。
地址索引词(key) 用户地址信息(valve)
浙江省 I、II
杭州市 I、II
西湖区 I、II
古荡街道 II
万塘路 I、II
18号 I、II
黄龙时代广场 I、II
B座 I、II
表1
表1中的地址索引词具有着与相应的用户地址信息的对应关系,该对应关系可看作由相应的键(key)-值(valve)构成,也即,地址索引词就是key,与其对应的用户地址信息就是valve(当然,在valve中除了包含用户地址信息集合之外,还包含用户地址信息的经纬度,这里并未在上表1中示出)。
从表1中可见,对于地址索引词“古荡街道”而言,其只出现在用户地址信息II的结构化的地址词中,所以,可以认为“古荡街道”只对应用户地址信息II。
经过上述两个步骤S201和S202,服务器就可得到待处理的用户地址信息所对应的地址索引词,从而根据所述地址索引词和标准地址信息中的标准地址词,对待处理的用户地址信息进行分类,也即,执行上述步骤S203。本申请实施例中,对于上述步骤S203而言,包括:
根据所述标准地址词,查找包含与所述标准地址词相匹配的地址索引词的待处理用户地址信息,将查找到的所述待处理用户地址信息作为所述标准地址信息对应的用户地址信息集合。
这里需要说明的是,查找包含与所述标准地址词相匹配的地址索引词的待处理用户地址信息,其具体的实现过程如图3所示。在图3中,根据所述标准地址词,查找包含与所述标准地址词相匹配的地址索引词的待处理用户地址信息,具体包括:
S301,根据所述标准地址词,查找与所述标准地址词相同的所述地址索引词。
S302,根据所述地址索引词,确定包含所述地址索引词的待处理的用户地址信息。
S303,对确定的所述待处理的用户地址信息进行筛选,得到筛选后的用户地址信息。
S304,对所述筛选后的用户地址信息进行排序,并根据排序结果,选择满足设定排序条件的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息。
对于上述步骤S301而言,例如:针对标准地址词“杭州市”而言,可根据该标准地址词在地址索引词中,查找地址索引词“杭州市”,并将地址索引词“杭州市”对应的用户地址信息作为该标准地址词的用户地址信息。但是,在实际应用中,“杭州市”表示的地理范围很大,那么,标准地址词“杭州市”将对应大量的用户地址信息,这将增加计算量。
所以,作为本申请中的一种优选方式,上述步骤S301具体包括:针对确定选择的所述标准地址信息中包含的标准地址词,选择满足设定条件的标准地址词,根据选择的所述标准地址词和所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,查找与选择的所述标准地址词相同的地址索引词。
其中,所述设定条件可以包括至少一个地理层级。
在根据所述标准地址词,查找与所述标准地址词相同的所述地址索引词的过程中,设定条件可以是选定一个合适的地理层级,例如:只选定地理层级为街道:“浣纱路”,那么就可以只查找与表征街道的标准地址词“浣纱路”相同地理层级的地址索引词。另外,设定条件还可以是选定的多个地理层级,例如:选定地理层级为市、区、街道,其对应的三个标准地址词可以为“杭州市上城区浣纱路”,那么就可以只查找相同地理层级的地址索引词。显然,通过设定的条件,使得有效减少查找数据量的个数。
对于步骤S302而言,根据所述地址索引词,就可以确定出包含所述地址索引词的待处理的用户地址信息。然而对于表征的地理范围较大的标准地址词来说,与其对应的包含所述地址索引词的待处理的用户地址信息的数量较多,在该标准地址词所表征的范围之内,可能存在多个地理区域,那么,就有可能存在表征其他的地理区域的用户地址信息。
例如:对于标准地址信息“浙江省杭州市上城区浣纱路261号杭州市第一人民医院”中的标准地址词“杭州市”而言,同样包含有该“杭州市”的地址索引词的待处理的用户地址信息,可能是诸如“杭州市万塘路18号黄龙时代广场”、“杭州市南宋御街速8酒店”等等用户地址信息,显然,这些用户地址信息与“杭州第一人民医院”无关。这就需要对这些用户地址信息集合中的用户地址信息进行筛选,也即,执行步骤S303。
步骤S303中的筛选方式属于快速筛选,这是因为:实际应用中,待处理的用户地址信息的数量巨大(通常是千万级至上亿级),那么所生成的地址索引词的数量也十分巨大,这样一来,每个标准地址词都对应着大量包含与该标准地址词相同的地址索引词的待处理的用户地址信息,而这些待处理的用户地址信息中存在这大量无关的用户地址信息,均可以通过一些较为简单的方式直接进行过滤排除。
对于上述步骤S303而言,本申请中筛选的方式有两种:
在其中一种筛选方式下,考虑到地址索引词中通常具有各用户地址信息对应的经纬度,而标准地址信息中也包含着地理区域的经纬度,根据经纬度之间的距离,就可以实现对用户地址信息的快速筛选。所以,该方式具体包括:
针对确定的所述待处理的用户地址信息中包含的每一个所述待处理的用户地址信息,执行以下操作:选择其中一个所述待处理的用户地址信息,并确定选择的所述待处理的用户地址信息对应的第一经纬度,根据所述第一经纬度以及选择的所述标准地址信息对应的第二经纬度,计算所述第一经纬度以及所述第二经纬度之间的距离值;
在得到确定的所述待处理的用户地址信息中包含的每一个所述待处理的用户地址信息对应的距离值时,筛选出距离值不大于设定门限值对应的所述待处理的用户地址信息,并将筛选出的所述待处理的用户地址信息作为得到的筛选后的用户地址信息。
沿用上例,根据标准地址信息“浙江省杭州市上城区浣纱路261号杭州市第一人民医院”中的标准地址词“杭州市”,确定出了包含有该“杭州市”的地址索引词的待处理的用户地址信息“杭州市万塘路18号黄龙时代广场”,该待处理的用户地址信息的第一经纬度为:(120.125702,30.272724),而标准地址信息的第二经纬度为:(120.166448,30.254878),第一经纬度和第二经纬度之间的距离值为4.4KM,假设设定门限值为1KM,显然,该距离值大于设定门限值,故将被滤除。通过经纬度筛选的方式,可以快速地且准确地筛选出符合设定门限值的待处理的用户地址信息。
在另一种筛选方式下,由于标准地址信息中含有标准地址词,且待处理的用户地址信息中也包含有地址索引词,那么,就可以在标准地址信息的标准地址词中,选定一些标准地址词,并基于选定的这些标准地址词,在待处理的用户地址信息对应的地址索引词中进行筛选。所以,该方式下,具体包括:
在确定选择的所述标准地址信息中包含的标准地址词的个数大于1时,确定每一个标准地址词的地理层级,选择地理层级不小于设定地理层级的标准地址词,根据选择的所述标准地址词,从确定的所述待处理的用户地址信息中,查找包含与选择的所述标准地址词相同的地址索引词的用户地址信息,将查找到的所述用户地址信息作为筛选后的用户地址信息。
例如:假设标准地址信息的标准地址词为[天津市,和平区,南京路,231号]。其中,标准地址词“南京路”对应的第一用户地址信息集合中,包含有“上海市黄浦区南京路……”以及“广州市荔湾区南京路……”等无关信息,从而,可以在上述标准地址词中,设定相应的地理层级的标准地址词,这里设定为“南京路”,从而,选择出地理层级不小于设定地理层级的标准地址词“[天津市,和平区,南京路]”,并在各用户地址信息的地址索引词中进行筛选,这样,经过筛选后,就会把含有与上述标准地址词相同的地址索引词的用户地址信息选中,而排除其他无关的待处理的用户地址信息。
通过筛选的方式,可以快速排除大量与地理区域不相关的待处理的用户地址信息,筛选后的用户地址信息均处在地理区域周围。但是,这些用户地址信息中可能存在部分并非表示上述地理区域的用户地址信息,或者可能存在非标准格式的用户地址信息,这部分用户信息会对确定结果的准确性产生一定的影响。
例如:筛选后的用户地址信息中,某用户地址信息为“浙江省杭州市上城区浣纱路261号杭州第一人民医院旁沙县小吃”,显然,该用户地址信息并非表示“杭州市第一人民医院”,而表示的是名为“沙县小吃”的餐馆。
又例如:地址词“万塘路18号”以及“天目山路266号”均表示杭州市的黄龙时代广场,筛选后的用户地址信息中,可能某些用户地址信息中使用“杭州市天目山路266号”,而标准地址信息为“黄龙时代广场,万塘路18号”。显然,该用户地址信息和标准地址信息表征的是相同的地理区域,但有可能因为使用的地址词不相同,而被滤除。
正是由于筛选后的用户地址信息中可能存在上述的用户地址信息,那么,也就需要在筛选后的用户地址信息中,进一步确定出与标准地址信息相匹配准确的用户地址信息。在本申请实施例中,仍可以使用特定词库的方式进一步确定出筛选后的用户地址信息中更为精准的用户地址信息。
在本场景下的特定词库,包括但不限于:过滤词信息、地理区域对应关系等信息。通过特定词库,可准确快速地对筛选后的用户地址信息中的用户地址信息进行识别。当识别出用户地址信息中包含特定词时,将采用不同的处理方式。
具体地,在特定词包括过滤词的场景下,将滤除含有过滤词的用户地址信息。例如:假设以用户地址信息:“浙江省杭州市上城区浣纱路261号杭州第一人民医院旁沙县小吃”为例,本申请中的过滤词可包括:“旁”、“东”、“西”、“南”、“北”等方位词,这类方位词的出现通常表示另一地理区域,而该用户地址信息中出现了方位词“旁”,就证明该用户地址信息表示的地理区域非“杭州第一人民医院”,故可将该用户地址信息滤除。
当然,本申请中的过滤词并不仅限于上述的方位词,还可以根据标准地址信息对应的地理区域,进行动态变化,如:若要确定的地理区域为医院,那么,过滤词组信息中的过滤词就是与医院不相关的各类地理区域词。这里并不构成对本申请的限定。
而在所述特定词库包括地理区域对应关系的场景下,可对准用户地址信息中的地址词进行转换。
例如:以上述用户地址信息包括“杭州市天目山路266号”为例,这里的地理区域对应关系包括:“天目山路266号”-“万塘路18号”,所以,可将不常用的地理区域词“天目山路266号”转换为标准地址词“万塘路18号”。
通过本申请中的上述特定词库,不仅可以准确排除无关的用户信息,还可以将表征相同地理区域的用户地址信息选中,从而极大地提升了对用户地址信息识别的准确率。
经过了上述的过程,在当前的筛选后的用户地址信息中的用户地址信息,与标准地址信息基本一致,可能只存在极少一部分的用户地址信息是无关的地址信息,或者难以准确确定。那么,就需要执行上述步骤S304。本申请中,上述步骤S304中的过程具体如图4所示,包括:
S401,确定所述筛选后的用户地址信息中包含的每一个所述用户地址信息与确定选择的所述标准地址信息匹配的关联程度值。
具体地,针对所述筛选后的用户地址信息中包含的每一个所述用户地址信息,执行以下操作:选择其中一个用户地址信息,选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,按照预设的特征信息的优先级权重,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息的优先级权重,以及根据选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,计算选择的所述用户地址信息对应的特征值,根据所述特征值和所述优先级权重,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的关联程度值。
其中,所述特征信息包括:经纬度信息、文本格式的地址信息、名称信息中的至少一种。
S402,在得到所述筛选后的用户地址信息中包含的每一个所述用户地址信息的关联程度值时,根据所述关联程度值,对所述筛选后的用户地址信息进行排序。
筛选后的用户地址信息中,用户地址信息与标准地址信息相匹配的特征信息,有可能不完全相同,例如:用户地址信息与标准地址信息的经纬度相近,或者,用户地址信息与标准地址信息的文本格式的地址信息相近,在这种情况下,为了能够直观的反映出用户地址信息与标准地址信息相匹配的特征信息的关系,所以可以对特征信息进行量化,也即,确定出特征信息的特征值。
具体地,根据选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,计算选择的所述用户地址信息对应的特征值,包括:
当所述特征信息包括经纬度时,根据确定选择的所述标准地址信息对应的经纬度与选择的所述用户地址信息对应的经纬度,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值。
当所述特征信息包括文本格式的地址信息时,根据确定选择的所述标准地址信息中文本格式的地址信息与选择的所述用户地址信息中文本格式的地址信息,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值。
当所述特征信息包括名称信息时,根据确定选择的所述标准地址信息中表示的地理区域的名称信息与选择的所述用户地址信息中表示地理区域的名称信息,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值。
当然,在本申请实施例中,确定相似度可以采用不同的相似度算法,包括:Jaccard相似度、编辑距离相似度、高斯相似度、余弦相似度等,这里不作具体限定。
特征信息的相似度已经可以较为准确的确定出与标准地址信息相对应的用户地址信息,但在实际应用中,存在某些特殊的用户地址信息,如:用户地址信息为“浙江省杭州市浣纱路261号”,该用户地址信息所既有可能表示“杭州第一人民医院”,也有可能不表示“杭州第一人民医院”,这是因为“浣纱路261号”对应着一定的地理范围,在该地理范围中可能存在着多个地理区域。该用户地址信息的特征值(与“杭州第一人民医院”的相似度)较高,可能导致后续确定结果的误差。为了选择出与标准地址信息相同的可能性最大的用户地址信息,可以进一步采用上述步骤中确定用户地址信息对应的优先级权重,排除上述特殊用户地址信息。
其中,优先级权重的顺序可以是:名称、文本格式的地址信息、经纬度同时匹配>文本格式的地址信息匹配>名称匹配>经纬度匹配。
沿用上例:上述用户地址信息“浙江省杭州市浣纱路261号”中并未出现地理区域的名称,只是文本格式的地址信息相匹配,所以,该优先级权重属于第二级别(此时,可以假设该优先级权重的权重值为y2)。
一旦确定出了特征值和优先级权重,就可以进一步确定用户地址信息与标准地址信息的关联程度值,也即上述步骤S304。本申请中,关联程度值为:特征值*优先级权重。继续沿用上例:用户地址信息“浙江省杭州市浣纱路261号”的特征值为:经纬度相似度(a1)+文本地址信息相似度(a2)+名称相似度(0);其优先级权重为y2。所以,关联程度值为:(a1+a2)y2。本示例中,由于用户地址信息“浙江省杭州市浣纱路261号”中并未出现地理区域的名称,那么,其对应的关联程度值将不是最高的。
在实际应用中,根据排序结果,选择满足设定排序条件的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息,具体包括:根据排序结果,选择所述关联程度值大于设定阈值的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息。
当然,通常会将选出关联程度值最高的用户地址信息,作为与所述标准地址信息相匹配的用户地址信息。此时,用户地址信息,均准确地表示了相应的地理区域,从而可以认为,与所述标准地址信息相匹配的用户地址信息集合所对应的用户群,就是当前地理区域的用户群。当然,在实际应用中,不同的服务提供商可以根据实际应用的需要,关联程度值进行选择,在某些要求准确性较低的业务场景中,也可以选择不同的关联程度值的用户地址信息作为与所述标准地址信息相匹配的用户地址信息。这里并不作为对本申请的限定。
针对上述内容,需要说明的是,待处理的用户地址信息所表征的通常都是某个具体的地理区域,换言之,不同的待处理的用户地址信息,往往都对应着相应的标准的地址信息。例如:标准的地址信息为“浙江省杭州市上城区浣纱路261号杭州第一人民医院”,而某待处理的用户地址信息为“浙江省杭州市杭州第一人民医院”,可见,本示例中待处理的用户地址信息与标准地址信息,均表征着相同的地理区域,即“杭州第一人民医院”。
正是通过本申请中的上述内容,就可以根据不同的标准地址信息,对表征相同地理区域的用户地址信息进行分类,正如上例中,可以将所有表征“杭州第一人民医院”的用户地址信息分为一类,也即,得到所述标准地址信息对应的用户地址信息集合。显然,所述用户地址信息集合中包含至少一个所述待处理的用户地址信息。
更进一步地,由于用户地址信息集合中的用户地址信息往往对应着相应的的用户,那么,通过上述内容,还可以准确地确定出不同地理区域的用户群,从而,服务提供商可以根据不同地理区域的用户群,确定出用户地址信息对应的地理区域中的用户群,进一步确定出用户是否在该用户群中。这样的方式可以作为对用户进行校验识别的手段之一。
例如:在用户使用商业医疗保险在某医院出险后,可针对出险证明中的医务人员进行识别。出险证明中通常包含医务人员的地址和姓名,那么,保险服务提供商可以根据预先确定出的该医院的用户群,来判定该医务人员是否属于该医院的用户群,若不是,则该出险证明就有伪造嫌疑,后续可由保险服务提供商根据其他风险识别方法进行鉴定。当然,该实例只是本申请基于用户地址信息的用户识别方法的具体应用之一,并不构成对本申请的限定。
基于此,在本申请实施例中还提供了一种基于用户地址信息的用户识别方法,如图5所示,包括:
S501,获取待处理的用户地址信息。
S502,确定所述待处理的用户地址信息所属的用户地址信息集合。
在S502中,确定所述待处理的用户地址信息所属的用户地址信息集合的方式可以将所述待处理的用户地址信息与区域信息库中包含的用户地址信息集合中包含的每一个用户地址信息进行匹配操作,在匹配成功时,确定所述待处理的用户地址信息所属的用户地址信息集合。
这里的区域信息库可以是指图1中所述的用户分类方法中所描述的区域信息库,也可以是其他包含用户地址信息的区域信息库,这里不做具体限定。
S503,根据用户地址信息集合与标准地址信息之间的对应关系,确定所述待处理的用户地址信息所属的用户地址信息集合对应的标准地址信息,其中,每一所述标准地址信息表示一个地理区域。
在S503中,所述对应关系用于识别属于所述用户地址信息集合中的所述待处理的用户地址信息对应的用户所属的地理区域。这里对于用户地址信息集合与标准地址信息之间的对应关系的建立方式可以采用图1中所述的用户分类方法中所记载的建立方法得到,还可以采用其他方式得到,这里不做具体限定。
S504,根据所述标准地址信息,识别所述待处理的用户地址信息对应的用户所属的地理区域。
以上为本申请实施例提供的基于用户地址信息的用户分类方法和基于用户地址信息的用户识别方法,在实际应用中,为了实现上述方法,在服务提供商的服务器中,可以采用如图6所示的***架构,来执行上述方法。
在图6中,“垂直库”就是由标准地址信息所构建的数据库,“索引库”就是由地址索引词所构建的数据库,而“资源库”就是特定词库。在构建了垂直库、索引库和资源库后,通过匹配和排序的方式融合上述数据库中的各种数据,从而得到与每一地理区域相匹配的用户地址信息集合。
基于同样的思路,本申请实施例还提供一种基于用户地址信息的用户识别装置,如图7所示。
图7中的基于用户地址信息的用户识别装置,设置在服务提供商后台的服务器中,所述装置包括:获取模块701、分类模块702,其中,
所述获取模块701,用于获取待处理的用户地址信息。
所述分类模块702,用于根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,其中,每一所述标准地址信息表示一个地理区域,所述用户地址信息集合中包含至少一个所述待处理的用户地址信息。
作为本申请实施例中的一种可选方式,所述分类模块702,还用于:在得到所述标准地址信息对应的用户地址信息集合时,建立所述标准地址信息与所述用户地址信息集合之间的对应关系,其中,所述对应关系用于识别属于所述用户地址信息集合中的所述待处理的用户地址信息对应的用户所属的地理区域。
所述分类模块702,具体用于:从预设的区域信息库中选择一个标准地址信息,确定选择的所述标准地址信息中包含的标准地址词,对所述待处理的用户地址信息进行地址结构化处理,得到所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,根据所述标准地址词和所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合。
在对所述待处理的用户地址信息进行地址结构化处理的过程中,所述分类模块702,具体用于:解析所述待处理的用户地址信息,得到所述待处理的用户地址信息中包含的表征不同地理层级的地址词,根据地理层级与地址索引词之间的预设关系,确定所述待处理的用户地址信息中包含的每一个表征地理层级的地址词对应的地址索引词;其中,每一个所述地址索引词对应一个地理层级。
在此基础上,所述分类模块702,具体用于:根据预设的特定词库中包含的特定词,判断所述待处理的用户地址信息中是否包含所述特定词,在判断出所述待处理的用户地址信息中包含所述特定词时,利用所述特定词对应的地址词转换规则,将所述待处理的用户地址信息中包含的所述特定词转换为标准地址词,其中,所述特定词包括缩写词;所述特定词转换规则包括缩写词与所述缩写词对应的全称词之间的转换关系。
在对所述待处理的用户地址信息进行分类的过程中,所述分类模块702,具体用于:根据所述标准地址词,查找包含与所述标准地址词相匹配的地址索引词的待处理用户地址信息,将查找到的所述待处理用户地址信息作为所述标准地址信息对应的用户地址信息集合。
进一步地,所述分类模块702,具体用于:根据所述标准地址词,查找与所述标准地址词相同的所述地址索引词,根据所述地址索引词,确定包含所述地址索引词的待处理的用户地址信息,对确定的所述待处理的用户地址信息进行筛选,得到筛选后的用户地址信息,对所述筛选后的用户地址信息进行排序,并根据排序结果,选择满足设定排序条件的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息。
在一种优选的方式下,所述分类模块702,具体用于:针对确定选择的所述标准地址信息中包含的标准地址词,选择满足设定条件的标准地址词,根据选择的所述标准地址词和所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,查找与选择的所述标准地址词相同的地址索引词。
而对于筛选过程,本实施例提供两种方式:
在一种实施方式下,所述分类模块702,具体用于:针对确定的所述待处理的用户地址信息中包含的每一个所述待处理的用户地址信息,执行以下操作:选择其中一个所述待处理的用户地址信息,并确定选择的所述待处理的用户地址信息对应的第一经纬度,根据所述第一经纬度以及选择的所述标准地址信息对应的第二经纬度,计算所述第一经纬度以及所述第二经纬度之间的距离值;
在得到确定的所述待处理的用户地址信息中包含的每一个所述待处理的用户地址信息对应的距离值时,筛选出距离值不大于设定门限值对应的所述待处理的用户地址信息,并将筛选出的所述待处理的用户地址信息作为得到的筛选后的用户地址信息。
在一种另实施方式下,所述分类模块702,具体用于:在确定选择的所述标准地址信息中包含的标准地址词的个数大于1时,确定每一个标准地址词的地理层级,选择地理层级不小于设定地理层级的标准地址词,根据选择的所述标准地址词,从确定的所述待处理的用户地址信息中,查找包含与选择的所述标准地址词相同的地址索引词的用户地址信息,将查找到的所述用户地址信息作为筛选后的用户地址信息。
对于排序过程,所述分类模块702,具体用于:针对所述筛选后的用户地址信息中包含的每一个所述用户地址信息,执行以下操作:选择其中一个用户地址信息,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,其中,所述特征信息包括:经纬度信息、文本格式的地址信息、名称信息中的至少一种,按照预设的特征信息的优先级权重,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息的优先级权重,以及根据选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,计算选择的所述用户地址信息对应的特征值,根据所述特征值和所述优先级权重,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的关联程度值;
在得到所述筛选后的用户地址信息中包含的每一个所述用户地址信息的关联程度值时,根据所述关联程度值,对所述筛选后的用户地址信息进行排序。
进一步地,所述分类模块702,具体用于:当所述特征信息包括经纬度时,根据确定选择的所述标准地址信息对应的经纬度与选择的所述用户地址信息对应的经纬度,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值;
当所述特征信息包括文本格式的地址信息时,根据确定选择的所述标准地址信息中文本格式的地址信息与选择的所述用户地址信息中文本格式的地址信息,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值;
当所述特征信息包括名称信息时,根据确定选择的所述标准地址信息中表示的地理区域的名称信息与选择的所述用户地址信息中表示地理区域的名称信息,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值。
在得到了排序结果后,所述分类模块702,具体用于:根据排序结果,选择所述关联程度值大于设定阈值的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息。
此外,本申请实施例中还提供一种基于用户地址信息的用户识别装置,如图8所示,包括:
获取模块801,用于获取待处理的用户地址信息。
第一确定模块802,用于确定所述待处理的用户地址信息所属的用户地址信息集合。
第二确定模块803,用于根据用户地址信息集合与标准地址信息之间的对应关系,确定所述待处理的用户地址信息所属的用户地址信息集合对应的标准地址信息,其中,每一所述标准地址信息表示一个地理区域。
识别模块804,用于根据所述标准地址信息,识别所述待处理的用户地址信息对应的用户所属的地理区域。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (21)

1.一种基于用户地址信息的用户分类方法,其特征在于,包括:
获取待处理的用户地址信息;
根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,其中,每一个所述标准地址信息表示一个地理区域,所述用户地址信息集合中包含至少一个所述待处理的用户地址信息;
所述对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,包括:筛选与所述标准地址信息具有相同地址词的所述待处理的用户地址信息;根据筛选出的各所述待处理的用户地址信息与所述标准地址信息之间的关联程度,对筛选出的所述待处理的用户地址信息进行排序;选择满足设定排序条件的用户地址信息作为所述标准地址信息对应的用户地址信息集合。
2.如权利要求1所述的用户分类方法,其特征在于,所述方法还包括:
在得到所述标准地址信息对应的用户地址信息集合时,建立所述标准地址信息与所述用户地址信息集合之间的对应关系,其中,所述对应关系用于识别属于所述用户地址信息集合中的所述待处理的用户地址信息对应的用户所属的地理区域。
3.如权利要求1所述的用户分类方法,其特征在于,根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,包括:
从预设的区域信息库中选择一个标准地址信息,确定选择的所述标准地址信息中包含的标准地址词;
对所述待处理的用户地址信息进行地址结构化处理,得到所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词;
根据所述标准地址词和所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合。
4.如权利要求3所述的用户分类方法,其特征在于,根据所述标准地址词和所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,包括:
根据所述标准地址词,查找包含与所述标准地址词相匹配的地址索引词的待处理用户地址信息;
将查找到的所述待处理用户地址信息作为所述标准地址信息对应的用户地址信息集合。
5.如权利要求4所述的用户分类方法,其特征在于,根据所述标准地址词,查找包含与所述标准地址词相匹配的地址索引词的待处理用户地址信息,包括:
根据所述标准地址词,查找与所述标准地址词相同的所述地址索引词;
根据所述地址索引词,确定包含所述地址索引词的待处理的用户地址信息;
对确定的所述待处理的用户地址信息进行筛选,得到筛选后的用户地址信息;
对所述筛选后的用户地址信息进行排序,并根据排序结果,选择满足设定排序条件的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息;
其中,所述对所述筛选后的用户地址信息进行排序,包括:
针对所述筛选后的用户地址信息中包含的每一个所述用户地址信息,执行以下操作:
选择其中一个用户地址信息;
确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,其中,所述特征信息包括:经纬度信息、文本格式的地址信息、名称信息中的至少一种;
按照预设的特征信息的优先级权重,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息的优先级权重,以及根据选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,计算选择的所述用户地址信息对应的特征值;
根据所述特征值和所述优先级权重,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的关联程度值;
在得到所述筛选后的用户地址信息中包含的每一个所述用户地址信息的关联程度值时,根据所述关联程度值,对所述筛选后的用户地址信息进行排序。
6.如权利要求5所述的用户分类方法,其特征在于,根据所述标准地址词,查找与所述标准地址词相同的所述地址索引词,包括:
针对确定选择的所述标准地址信息中包含的标准地址词,选择满足设定条件的标准地址词;
根据选择的所述标准地址词和所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,查找与选择的所述标准地址词相同的地址索引词。
7.如权利要求5所述的用户分类方法,其特征在于,对确定的所述待处理的用户地址信息进行筛选,得到筛选后的用户地址信息,包括:
针对确定的所述待处理的用户地址信息中包含的每一个所述待处理的用户地址信息,执行以下操作:
选择其中一个所述待处理的用户地址信息,并确定选择的所述待处理的用户地址信息对应的第一经纬度;
根据所述第一经纬度以及选择的所述标准地址信息对应的第二经纬度,计算所述第一经纬度以及所述第二经纬度之间的距离值;
在得到确定的所述待处理的用户地址信息中包含的每一个所述待处理的用户地址信息对应的距离值时,筛选出距离值不大于设定门限值对应的所述待处理的用户地址信息,并将筛选出的所述待处理的用户地址信息作为筛选后的用户地址信息。
8.如权利要求5所述的用户分类方法,其特征在于,对确定的所述待处理的用户地址信息进行筛选,得到筛选后的用户地址信息,包括:
在确定选择的所述标准地址信息中包含的标准地址词的个数大于1时,确定每一个标准地址词的地理层级,选择地理层级不小于设定地理层级的标准地址词;
根据选择的所述标准地址词,从确定的所述待处理的用户地址信息中,查找包含与选择的所述标准地址词相同的地址索引词的用户地址信息;
将查找到的所述用户地址信息作为筛选后的用户地址信息。
9.如权利要求5所述的用户分类方法,其特征在于,根据选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,计算选择的所述用户地址信息对应的特征值,包括:
当所述特征信息包括经纬度时,根据确定选择的所述标准地址信息对应的经纬度与选择的所述用户地址信息对应的经纬度,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值;
当所述特征信息包括文本格式的地址信息时,根据确定选择的所述标准地址信息中文本格式的地址信息与选择的所述用户地址信息中文本格式的地址信息,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值;
当所述特征信息包括名称信息时,根据确定选择的所述标准地址信息中表示的地理区域的名称信息与选择的所述用户地址信息中表示地理区域的名称信息,计算确定选择的所述标准地址信息与选择的所述用户地址信息之间的相似度,将所述相似度作为选择的所述用户地址信息对应的特征值。
10.如权利要求5所述的用户分类方法,其特征在于,根据排序结果,选择满足设定排序条件的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息,包括:
根据排序结果,选择所述关联程度值大于设定阈值的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息。
11.如权利要求3所述的用户分类方法,其特征在于,对所述待处理的用户地址信息进行地址结构化处理,得到所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,包括:
解析所述待处理的用户地址信息,得到所述待处理的用户地址信息中包含的表征不同地理层级的地址词;
根据地理层级与地址索引词之间的预设关系,确定所述待处理的用户地址信息中包含的每一个表征地理层级的地址词对应的地址索引词;
其中,每一个所述地址索引词对应一个地理层级。
12.如权利要求11所述的用户分类方法,其特征在于,解析所述待处理的用户地址信息,包括:
根据预设的特定词库中包含的特定词,判断所述待处理的用户地址信息中是否包含所述特定词;
在判断出所述待处理的用户地址信息中包含所述特定词时,利用所述特定词对应的地址词转换规则,将所述待处理的用户地址信息中包含的所述特定词转换为标准地址词;
其中,所述特定词包括缩写词;所述特定词转换规则包括缩写词与所述缩写词对应的全称词之间的转换关系。
13.一种基于用户地址信息的用户识别方法,其特征在于,包括:
获取待处理的用户地址信息;
确定所述待处理的用户地址信息所属的用户地址信息集合;
根据用户地址信息集合与标准地址信息之间的对应关系,确定所述待处理的用户地址信息所属的用户地址信息集合对应的标准地址信息,其中,每一所述标准地址信息表示一个地理区域;
根据所述标准地址信息,识别所述待处理的用户地址信息对应的用户所属的地理区域;
其中,所述用户地址信息集合与标准地址信息之间的对应关系通过以下方法确定:筛选与所述标准地址信息具有相同地址词的所述待处理的用户地址信息;根据筛选出的各所述待处理的用户地址信息与所述标准地址信息之间的关联程度,对筛选出的所述待处理的用户地址信息进行排序;选择满足设定排序条件的用户地址信息作为所述标准地址信息对应的用户地址信息集合。
14.一种基于用户地址信息的用户分类装置,其特征在于,包括:
获取模块,用于获取待处理的用户地址信息;
分类模块,用于根据预设的区域信息库中包含的标准地址信息,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,其中,每一个所述标准地址信息表示一个地理区域,所述用户地址信息集合中包含至少一个所述待处理的用户地址信息;
所述对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合,包括:筛选与所述标准地址信息具有相同地址词的所述待处理的用户地址信息;根据筛选出的各所述待处理的用户地址信息与所述标准地址信息之间的关联程度,对筛选出的所述待处理的用户地址信息进行排序;选择满足设定排序条件的用户地址信息作为所述标准地址信息对应的用户地址信息集合。
15.如权利要求14所述的用户分类装置,其特征在于,所述分类模块,还用于:
在得到所述标准地址信息对应的用户地址信息集合时,建立所述标准地址信息与所述用户地址信息集合之间的对应关系,其中,所述对应关系用于识别属于所述用户地址信息集合中的所述待处理的用户地址信息对应的用户所属的地理区域。
16.如权利要求14所述的用户分类装置,其特征在于,所述分类模块,具体用于:
从预设的区域信息库中选择一个标准地址信息,确定选择的所述标准地址信息中包含的标准地址词,对所述待处理的用户地址信息进行地址结构化处理,得到所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,根据所述标准地址词和所述待处理的用户地址信息中包含的每一个地址词对应的地址索引词,对所述待处理的用户地址信息进行分类,得到所述标准地址信息对应的用户地址信息集合。
17.如权利要求16所述的用户分类装置,其特征在于,所述分类模块,具体用于:
根据所述标准地址词,查找包含与所述标准地址词相匹配的地址索引词的待处理用户地址信息,将查找到的所述待处理用户地址信息作为所述标准地址信息对应的用户地址信息集合。
18.如权利要求17所述的用户分类装置,其特征在于,所述分类模块,具体用于:
根据所述标准地址词,查找与所述标准地址词相同的所述地址索引词,根据所述地址索引词,确定包含所述地址索引词的待处理的用户地址信息,对确定的所述待处理的用户地址信息进行筛选,得到筛选后的用户地址信息,对所述筛选后的用户地址信息进行排序,并根据排序结果,选择满足设定排序条件的用户地址信息,并将选择的所述用户地址信息作为查找到的待处理的用户地址信息;
其中,所述对所述筛选后的用户地址信息进行排序,包括:针对所述筛选后的用户地址信息中包含的每一个所述用户地址信息,执行以下操作:选择其中一个用户地址信息;确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,其中,所述特征信息包括:经纬度信息、文本格式的地址信息、名称信息中的至少一种;按照预设的特征信息的优先级权重,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息的优先级权重,以及根据选择的所述用户地址信息与确定选择的所述标准地址信息匹配的特征信息,计算选择的所述用户地址信息对应的特征值;根据所述特征值和所述优先级权重,确定选择的所述用户地址信息与确定选择的所述标准地址信息匹配的关联程度值;在得到所述筛选后的用户地址信息中包含的每一个所述用户地址信息的关联程度值时,根据所述关联程度值,对所述筛选后的用户地址信息进行排序。
19.如权利要求16所述的用户分类装置,其特征在于,所述分类模块,具体用于:
解析所述待处理的用户地址信息,得到所述待处理的用户地址信息中包含的表征不同地理层级的地址词,根据地理层级与地址索引词之间的预设关系,确定所述待处理的用户地址信息中包含的每一个表征地理层级的地址词对应的地址索引词;其中,每一个所述地址索引词对应一个地理层级。
20.如权利要求19所述的用户分类装置,其特征在于,所述分类模块,具体用于:
根据预设的特定词库中包含的特定词,判断所述待处理的用户地址信息中是否包含所述特定词,在判断出所述待处理的用户地址信息中包含所述特定词时,利用所述特定词对应的地址词转换规则,将所述待处理的用户地址信息中包含的所述特定词转换为标准地址词,其中,所述特定词包括缩写词;所述特定词转换规则包括缩写词与所述缩写词对应的全称词之间的转换关系。
21.一种基于用户地址信息的用户识别装置,其特征在于,包括:
获取模块,用于获取待处理的用户地址信息;
第一确定模块,用于确定所述待处理的用户地址信息所属的用户地址信息集合;
第二确定模块,用于根据用户地址信息集合与标准地址信息之间的对应关系,确定所述待处理的用户地址信息所属的用户地址信息集合对应的标准地址信息,其中,每一所述标准地址信息表示一个地理区域;
识别模块,用于根据所述标准地址信息,识别所述待处理的用户地址信息对应的用户所属的地理区域;
其中,所述用户地址信息集合与标准地址信息之间的对应关系通过以下方法确定:筛选与所述标准地址信息具有相同地址词的所述待处理的用户地址信息;根据筛选出的各所述待处理的用户地址信息与所述标准地址信息之间的关联程度,对筛选出的所述待处理的用户地址信息进行排序;选择满足设定排序条件的用户地址信息作为所述标准地址信息对应的用户地址信息集合。
CN201510604704.4A 2015-09-21 2015-09-21 一种基于用户地址信息的用户分类、用户识别方法及装置 Active CN106547770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510604704.4A CN106547770B (zh) 2015-09-21 2015-09-21 一种基于用户地址信息的用户分类、用户识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510604704.4A CN106547770B (zh) 2015-09-21 2015-09-21 一种基于用户地址信息的用户分类、用户识别方法及装置

Publications (2)

Publication Number Publication Date
CN106547770A CN106547770A (zh) 2017-03-29
CN106547770B true CN106547770B (zh) 2020-06-02

Family

ID=58364487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510604704.4A Active CN106547770B (zh) 2015-09-21 2015-09-21 一种基于用户地址信息的用户分类、用户识别方法及装置

Country Status (1)

Country Link
CN (1) CN106547770B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置
CN110019472A (zh) * 2017-12-15 2019-07-16 深圳市丰巢科技有限公司 一种地址数据匹配方法及智能终端
CN108376141B (zh) * 2017-12-27 2020-06-30 ***通信集团福建有限公司 室内指纹库构建方法、装置、设备及存储介质
CN108416062A (zh) * 2018-03-26 2018-08-17 国家电网公司客户服务中心 一种基于地址匹配技术的电网数据关联方法
CN108563381A (zh) * 2018-04-16 2018-09-21 腾讯科技(深圳)有限公司 用户数据处理方法、装置、存储介质和计算机设备
CN109657163B (zh) * 2018-12-19 2022-01-18 拉扎斯网络科技(上海)有限公司 目的地址确定方法、装置、电子设备和存储介质
CN111435360B (zh) * 2019-01-15 2023-08-29 菜鸟智能物流控股有限公司 地址类型识别方法和装置以及电子设备
CN111784215B (zh) * 2019-04-03 2024-05-24 北京京东振世信息技术有限公司 一种获取站点信息的方法和装置
CN111984748A (zh) * 2019-05-22 2020-11-24 深圳中兴飞贷金融科技有限公司 地址信息处理方法和装置、存储介质及电子设备
CN111538797A (zh) * 2020-03-26 2020-08-14 中国平安人寿保险股份有限公司 确定收信地址的方法及相关设备
CN111797145A (zh) * 2020-07-17 2020-10-20 贵州电网有限责任公司电力科学研究院 一种电力客户容忍度评价分类方法
CN112395320B (zh) * 2020-11-26 2023-03-07 深圳市房多多网络科技有限公司 楼盘信息合并方法、装置、设备及计算机可读存储介质
CN113642313B (zh) * 2021-09-02 2024-03-29 阿里巴巴达摩院(杭州)科技有限公司 地址文本的处理方法、装置、设备、存储介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8989483B2 (en) * 2011-06-10 2015-03-24 Sri International Method and apparatus for inferring the geographic location of captured scene depictions
EP2629249A4 (en) * 2010-10-13 2015-04-22 Ntt Docomo Inc DEVICE FOR DETECTING POSITION INFORMATION AND METHOD FOR DETECTING POSITION INFORMATION

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350012B (zh) * 2007-07-18 2013-01-16 北京灵图软件技术有限公司 一种地址匹配的方法和***
CN104375992B (zh) * 2013-08-12 2018-01-30 ***通信集团浙江有限公司 一种地址匹配的方法和装置
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104462059B (zh) * 2014-12-01 2017-06-30 银联智惠信息服务(上海)有限公司 商户地址信息识别方法和装置
CN104850641B (zh) * 2015-05-26 2018-08-21 无线生活(杭州)信息科技有限公司 一种推荐信息的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2629249A4 (en) * 2010-10-13 2015-04-22 Ntt Docomo Inc DEVICE FOR DETECTING POSITION INFORMATION AND METHOD FOR DETECTING POSITION INFORMATION
US8989483B2 (en) * 2011-06-10 2015-03-24 Sri International Method and apparatus for inferring the geographic location of captured scene depictions

Also Published As

Publication number Publication date
CN106547770A (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
CN106547770B (zh) 一种基于用户地址信息的用户分类、用户识别方法及装置
CN108446281B (zh) 确定用户亲密度的方法、装置及存储介质
Schulz et al. A multi-indicator approach for geolocalization of tweets
CN106649331B (zh) 商圈识别方法及设备
Han et al. A stacking-based approach to twitter user geolocation prediction
US8364689B2 (en) Methods and apparatus for providing a location based search
CN111767407B (zh) 用可搜索的地理时间值对知识图条目进行编码以评估实体提及的传递地理时间接近度
SA515370002B1 (ar) طريقة وجهاز للتعرف على المواقع والاتصال بينها
CN110263117B (zh) 一种用于确定兴趣点poi数据的方法与装置
WO2013134287A1 (en) Automatic input signal recognition using location based language modeling
CN109800280B (zh) 地址匹配方法及装置
CN105824840A (zh) 一种用于区域标签管理的方法及装置
CN110866091A (zh) 一种数据检索方法及装置
CN105224610A (zh) 一种地址比较的方法及设备
EP3557514A1 (en) Entity information verification method and device
CN111522838A (zh) 地址相似度计算方法及相关装置
JP2018517218A (ja) 位置情報提供方法及び装置
KR102184048B1 (ko) Gis 기반 토지 이용 계획 검토 시스템 및 방법
CN111597279A (zh) 基于深度学习的信息预测方法及相关设备
de Assis et al. Geographical prioritization of social network messages in near real-time using sensor data streams: an application to floods.
CN104166659A (zh) 一种地图数据判重的方法及***
CN107247716B (zh) 一种增加电子眼信息的方法及装置、导航芯片及服务器
Almeida et al. Automatic poi matching using an outlier detection based approach
CN110750537A (zh) 一种客户身份识别方法及装置、设备、介质
CN111353011B (zh) 地点数据集及其建立方法和装置、数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.