CN109739997B - 地址对比方法、装置及*** - Google Patents

地址对比方法、装置及*** Download PDF

Info

Publication number
CN109739997B
CN109739997B CN201910080631.1A CN201910080631A CN109739997B CN 109739997 B CN109739997 B CN 109739997B CN 201910080631 A CN201910080631 A CN 201910080631A CN 109739997 B CN109739997 B CN 109739997B
Authority
CN
China
Prior art keywords
address
entity
administrative division
knowledge graph
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910080631.1A
Other languages
English (en)
Other versions
CN109739997A (zh
Inventor
王征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puxin Hengye Technology Development Beijing Co ltd
Zhicheng Afu Technology Development Beijing Co ltd
Original Assignee
Puxin Hengye Technology Development Beijing Co ltd
Zhicheng Afu Technology Development Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Puxin Hengye Technology Development Beijing Co ltd, Zhicheng Afu Technology Development Beijing Co ltd filed Critical Puxin Hengye Technology Development Beijing Co ltd
Priority to CN201910080631.1A priority Critical patent/CN109739997B/zh
Publication of CN109739997A publication Critical patent/CN109739997A/zh
Application granted granted Critical
Publication of CN109739997B publication Critical patent/CN109739997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供了一种地址对比方法、装置及***,其中,该方法包括:获取第一地址;利用预设行政区划知识图谱对所述第一地址执行标准化操作,获得第一标准地址;对比所述第一标准地址和预设的第二标准地址,获得对比结果。本申请可以借助于预设行政区划知识图谱来规范地址,从而使得第一地址更加标准化;在地址标准化后,可以对比第一标准地址和预设的第二标准地址,从而能够获得更加准确的对比结果。

Description

地址对比方法、装置及***
技术领域
本申请涉及互联网技术领域,尤其涉及地址对比方法、装置及***。
背景技术
在互联网领域中,很多应用场景涉及到地址对比,以核实两个地址是否为相同地址。例如,在信贷领域中的反欺诈与信审环节,需要对客户的当前地址与历史地址进行比对,以用于发现潜在关联客户或者欺诈客户。
由于地址类信息的不规范性、中文语义的多样性等问题,目前提供的地址对比方法无法高效且精准的进行地址对比。
发明内容
鉴于此,本申请提供一种地址对比方法、装置及***,可以高效且精准的进行地址对比。
为了实现上述目的,本申请提供了下述技术特征:
一种地址对比方法,其特征在于,包括:
获取第一地址;
利用预设行政区划知识图谱对所述第一地址执行标准化操作,获得第一标准地址;
对比所述第一标准地址和预设的第二标准地址,获得对比结果。
可选的,在对比所述第一标准地址和预设的第二标准地址获得对比结果之前,还包括:
获取第二地址;
利用所述预设行政区划知识图谱对所述第二地址执行标准化操作,获得所述第二标准地址。
可选的,所述预设行政区划知识图谱的构建过程包括:
依据五级行政区划数据构建基础知识图谱,其中每个行政区划为一实体;
于互联网中搜索五级行政区划的多个下属条目;
按所属关系添加多个下属条目至所述基础知识图谱;其中每个下属条目为一实体;
向所述基础知识图谱中添加实体的近似实体,获得行政区划知识图谱。
可选的,所述向所述基础知识图谱中添加实体的近似实体,获得行政区划知识图谱,包括:
对于所述基础知识图谱中第四级实体和第五级实体中每个实体而言:
获取实体的一个或多个近似实体;
添加一个或多个近似实体至该实体。
可选的,所述获取实体的一个或多个近似实体包括:
获取该实体的一个或多个模糊音实体;
获取该实体的一个或多个形近字实体。
可选的,所述利用预设行政区划知识图谱对所述第一地址执行标准化操作获得第一标准地址,包括:
利用地址分词技术对所述第一地址执行分词操作,获得所述第一地址的多个分词结果,每个分词结果作为一实体;
从所述分词结果中确定五级行政区划的第一实体集,以及,其余实体组成的第二实体集;
于所述预设行政区划知识图谱中搜索所述第一实体集中的各个实体;
判断第一实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;其中,所述预设知识图谱中搜索到的实体组成的链路为子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则利用所述第一实体集和所述第二实体集,于所述预设行政区划知识图谱中搜索所述第一实体集和所述第二实体集中的各个实体;
判断第二实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则确定无法利用预设行政区划知识图谱对所述第一地址执行标准化操作。
可选的,在确定无法利用预设行政区划知识图谱对所述第一地址执行标准化操作之后,还包括:
于互联网采用模糊匹配机制搜索所述第一地址的多个近似地址;
于所述多个近似地址中确定与所述第一地址编辑距离最近的近似地址;
将所述近似地址作为第一地址,继续执行地址标准化操作。
可选的,还包括:
在检测到行政区划数据或五级行政区划的下属条目发生变化,则更新预设行政区划知识图谱。
一种地址对比装置,包括:
获取单元,用于获取第一地址;
标准化单元,用于利用预设行政区划知识图谱对所述第一地址执行标准化操作,获得第一标准地址;
对比单元,用于对比所述第一标准地址和预设的第二标准地址,获得对比结果。
一种地址对比***,包括:
终端,用于向服务器提供第一地址;
服务器,用于获取所述第一地址,利用预设行政区划知识图谱对所述第一地址执行标准化操作获得第一标准地址,对比所述第一标准地址和预设的第二标准地址获得对比结果。
通过以上技术手段,可以实现以下有益效果:
本申请可以借助于预设行政区划知识图谱来规范地址,从而使得第一地址更加标准化;在地址标准化后,可以对比第一标准地址和第二标准地址,从而能够获得更加准确的对比结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种构建知识图谱的流程图;
图2为本申请实施例公开的一种地址对比方法的流程图;
图3为本申请实施例公开的一种行政区划知识图谱的构建流程图;
图4为本申请实施例公开的又一种地址对比方法的流程图;
图5为本申请实施例公开的一种地址对比装置的结构示意图;
图6为本申请实施例公开的一种地址对比***的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请首先介绍构建知识图谱的过程,参见图1,包括以下步骤:
步骤101:依据五级行政区划数据构建基础知识图谱,其中每个行政区划为一实体。
根据国家行政区划的迁移变更后最新行政区划数据(省级-市级-县级/区级-乡级/街道-村级/社区),抽取最新行政区划数据中的省级名称、市级名称、县级名称、乡级/街道名称和村级/社区名称分别作为实体,并依据所属关系构建实体与实体之间的所属关系,生成包含五级行政区划,以及,各级行政区划所属关系的基础知识图谱。
例如,以“河北”和“石家庄”两个实体为例,构建“河北”与“石家庄”两个实体的所属关系,即“石家庄”实体属于“河北”实体。
步骤S102:于互联网中搜索五级行政区划的多个下属条目。
将五级行政区划作为搜索关键词,于互联网中搜索五级行政区划下包含的路、街、小区、门牌号等下属条目,通过自然语言处理技术将路名、街名、小区名、门牌号等下属条目。
下属条目可以分为6个级别,分别为:路,弄/胡同/门牌号,小区/大厦/楼名,栋/座/楼号,单元/层/楼,详细地址/房间号。
步骤S103:按所属关系添加多个下属条目至所述基础知识图谱;其中每个下属条目为一实体。
为了扩展基础知识图谱,在五级行政区划下添加下属条目,即,在基础知识图谱的第五级行政区划下,按所属关系添加下属条目,以用于完善基础知识图谱。
步骤S101~S103采用基础知识图谱中的实体表示五级行政区划,五级行政区划的下属条目,并采用实体与实体之间的所属关系,表示各级行政区划的所属关系。
其中基础知识图谱中,第1~5级别为行政区划包括:第1级:省级;第2级:市级;第3级:县级/区级;第4级:乡级/街道;第5级:村级/社区;第6~12级分别为:路,弄/胡同/门牌号,小区/大厦/楼名,栋/座/楼号,单元/层/楼,详细地址/房间号。
步骤S104:向基础知识图谱中添加实体的近似实体,获得行政区划知识图谱。
由于人工拼写地址时可能会出现不准确的情况,以及,采用OCR技术识别地址时可能出现不准确的情况,当然还有其它意外情况,可能会使得用户撰写地址中出现错别字。
为了便于后续利用知识图谱来标准化地址,在知识图谱中融入实体的近似实体。本申请可以针对基础知识图谱中每个实体来添加近似实体的操作。
考虑到五级行政区划中第一级行政区划-第三级行政区划通常为大众所熟知,一般不会出错,所以可以仅针对五级行政区划中第四级行政区划和第五级行政区划对应的各个实体执行添加近似实体的操作。
对一个实体添加近似实体主要包括两个步骤:获取实体的一个或多个近似实体;添加一个或多个近似实体至该实体。其中,获取实体的一个或多个近似实体包括:获取该实体的一个或多个模糊音实体;获取该实体的一个或多个形近字实体。
形近字实体可以通汉语大字典和新华字典的相关数据解析整理形成形近字数据库,其中包含:(1)笔画相同,位置不同,如“人、入、八”。(2)字形相近,笔形不同,如“己、已、巳”。(3)字形相近,偏旁不同,如“峰和锋”。(4)字形相近,笔画不同,如“木和本”。(5)字形相近,读音相同,如“眯和咪”。(6)字形相近,读音不同,如“治和冶”。
模糊音实体,可以根据汉字转化为拼音后,结合前鼻音与后鼻音,平舌与翘舌音的相似度来确定模糊音实体。本申请还可以将基础知识图谱中每个实体名的每个汉字的拼音和声调都预先转换并存储于基础知识图谱之中。
步骤S105:更新行政区划知识图谱。
在检测到行政区划数据或五级行政区划的下属条目发生变化,则更新预设行政区划知识图谱。具体而言,可以通过互联网数据采集技术,对知识图谱中的实体采取动态更新机制和定期更新机制。
动态更新机制:每次通过知识图谱对比两个地址都会触发一次动态数据采集。动态更新机制可以分别采集到两个地址的相似地址集(相似地址集可以包括10个以内该地址的相似地址),对相似地址集分别按照标准化地址的过程抽取实体,并将各实体与现存知识图谱中的位置实体匹配,对于可以匹配一致的实体相似地址集中的下属条目更新到行政区划知识图谱中。
定期更新机制:行政区划知识图谱中每个实体都会保留上次更新时间戳信息,***会对更新间隔超过3个月的实体放入定期更新队列进行更新操作。
本申请提供了一种地址对比方法,应用于地址对比设备。参见图2,包括以下步骤:
步骤S201:获取第一地址和第二地址。
步骤S202:对第一地址和第二地址进行清洗操作。
对第一地址和第二地址执行清洗操作,去除不符合地址的符号内容,以便于后续可以方便进行地址处理。
步骤S203:利用预设行政区划知识图谱对所述第一地址和第二地址执行标准化操作,获得第一标准地址和第二标准地址。
参见图3,由于对第一地址和第二地址的处理过程是一致的,所以以第一地址为例,对本步骤进行解释说明。
S1:利用地址分词技术对所述第一地址执行分词操作,获得所述第一地址的多个分词结果,每个分词结果作为一实体。
S2:从所述分词结果中确定五级行政区划的第一实体集,以及,其余实体组成的第二实体集。
在分词结果中确定第1~5级别为行政区划为第一实体集,第6~12级行政区划为第二实体集。
S3:于所述预设行政区划知识图谱中搜索所述第一实体集中的各个实体。
针对行政区划知识图谱中没有近似实体的实体,第一实体集中的实体需与该实体完全一致则表示匹配成功。
针对行政区划知识图谱中具有近似实体的实体,第一实体集中实体与该实体或该实体的近似实体匹配均表示匹配成功。并且,还会更正第一实体集中的实体与近似实体匹配成功的基础上,可以将第一实体集中的实体更正为近似实体对应的实体。也即,将第一实体集中的具有错别字的实体,变更为正确字体的实体。
S4:判断第一实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;其中,所述预设知识图谱中搜索到的第一实体集中各个实体组成的链路为子图。
在行政区划知识图谱中可以将搜索到第一实体集中实体组成链路,一条链路即为一个子图。若搜索到的实体可以组成一条唯一链路,也即具有唯一子图,则表示利用第一实体集可以匹配到唯一子图。
S5:若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
可以理解的是,利用第一实体集匹配到的唯一子图是标准化的地址,所以可以利用唯一子图对第一地址进行补全操作,以补充第一地址中缺失的行政区划,从而获得第一标准地址。
S6:若否,则利用所述第一实体集和所述第二实体集,于所述预设行政区划知识图谱中搜索所述第一实体集和所述第二实体集中的各个实体;
在利用第一实体集无法匹配到唯一子图的情况下,再借助于第一实体集和第二实体集,再执行一次搜索操作,以用于匹配到唯一子图。
S7:判断第二实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图。
S8:若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若利用第一实体集和第二实体集可以在行政区划知识图谱中匹配到唯一子图,则利用唯一子图补全第一地址,从而获得第一标准地址。
S9:若否,于互联网采用模糊匹配机制搜索所述第一地址的多个近似地址。
在确定第一地址无法执行标准化操作的情况下,可以于互联网中采用模糊匹配机制搜索到多个与第一地址近似的近似地址。
S10:于所述多个近似地址中确定与所述第一地址编辑距离最近的近似地址。
分别计算第一地址与多个近似地址的编辑距离,并在多个编辑距离中确定距离近似地址最近的近似地址。
S11:将所述近似地址作为第一地址,继续执行地址标准化操作。
将与第一地址编辑距离最近的近似地址确定为第一地址,进入步骤S1继续执行地址标准化操作,若能够进行标准化操作,则使用近似地址执行标准化后的地址作为第一标准地址。
若近似地址仍然无法实现地址标准化,则表示无法对第一地址进行标准化,所以表示第一地址无法执行后续的地址对比操作。
步骤S204:对比所述第一标准地址和第二标准地址,获得对比结果。
本实施中根据预先设定对比策略,对比第一标准地址和第二标准地址进行对比,其中第1~5级别逐个对比,第6~12级别可以根据实际情况来进行逐一对比或模糊匹配,依据对比情况获得对比结果。
本申请可以具有如下有益效果:
本申请通过采用行政区划知识图谱来对地址进行标准化,由于对地址进行标准化,所以再进行地址对比时,其对比准确率会大大提高。
由于利用行政区划知识图谱中添加了近似实体,所以利用行政区划进行标准化过程中,可以对第一地址和第二地址中由于人工录入的拼写错误、OCR识别不准的形近字、地址不全不规范的地址进行标准化,从而大大解决因为地址不规范而导致的对比不准确的问题。
本申请还提供了一种地址对比方法,应用于地址对比设备。参见图4,包括:
步骤S401:获取第一地址。
地址对比设备可以从地址对比设备之外获取用户A的地址,为了便于区分称为第一地址,或者,从地址对比设备内部的存储空间获取用户A的第一地址,本申请不限定获取第一地址的方式。
步骤S402:利用预设行政区划知识图谱对所述第一地址执行标准化操作,获得第一标准地址;
关于步骤S402已经在图2所示的实施例中详细描述,在此不再一一赘述。
步骤S403:对比所述第一标准地址和预设的第二标准地址,获得对比结果。
地址对比设备可以从第三方权威地址数据库中获取的用户A的地址,为了便于区分称为第二地址。例如,第三方地址数据库为人民银行的地址数据库。
为了与用户A的第一标准化地址进行对比,地址对比设备可以预先对第二地址执行标准化操作,获得第二标准地址,当然,也可以在对第一地址进行标准化操作时,也对第二地址执行标准化操作,对于第二地址执行标准化操作的时间不做限定。
可以理解的是,地址对比设备可以利用预设行政区划知识图谱对第二地址执行标准化操作,获得所述第二标准地址。当然,还可以采用其它方式对第二地址执行标准化操作,本申请不限定对第二地址进行标准化操作的方式。
在地址对比设备确定第一标准地址和第二标准地址后,将第一标准地址和第二标准地址进行对比,从而获得对比结果。关于对比过程可以详见图2所示的实施例,在此不再赘述。
参见图5,本申请提供了一种地址对比装置,包括:
获取单元41,用于获取第一地址;
标准化单元42,用于利用预设行政区划知识图谱对所述第一地址执行标准化操作,获得第一标准地址;
对比单元43,用于对比所述第一标准地址和预设的第二标准地址,获得对比结果。
其中,在对比单元43之前,获取单元41和标准化单元42还可以用于获取第二地址,并利用所述预设行政区划知识图谱对所述第二地址执行标准化操作,获得所述第二标准地址。
构建单元40,用于构建所述预设行政区划知识图谱。
其中所述预设行政区划知识图谱的构建过程包括:
依据五级行政区划数据构建基础知识图谱,其中每个行政区划为一实体;
于互联网中搜索五级行政区划的多个下属条目;
按所属关系添加多个下属条目至所述基础知识图谱;其中每个下属条目为一实体;
向所述基础知识图谱中添加实体的近似实体,获得行政区划知识图谱。
其中,所述向所述基础知识图谱中添加实体的近似实体,获得行政区划知识图谱,包括:
对于所述基础知识图谱中第四级实体和第五级实体中每个实体而言:
获取实体的一个或多个近似实体;
添加一个或多个近似实体至该实体。
其中,所述获取实体的一个或多个近似实体包括:
获取该实体的一个或多个模糊音实体;
获取该实体的一个或多个形近字实体。
其中,标准化单元42,包括:
利用地址分词技术对所述第一地址执行分词操作,获得所述第一地址的多个分词结果,每个分词结果作为一实体;
从所述分词结果中确定五级行政区划的第一实体集,以及,其余实体组成的第二实体集;
于所述预设行政区划知识图谱中搜索所述第一实体集中的各个实体;
判断第一实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;其中,所述预设知识图谱中搜索到的实体组成的链路为子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则利用所述第一实体集和所述第二实体集,于所述预设行政区划知识图谱中搜索所述第一实体集和所述第二实体集中的各个实体;
判断第二实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则确定无法利用预设行政区划知识图谱对所述第一地址执行标准化操作。
所述地址对比装置,在确定无法利用预设行政区划知识图谱对所述第一地址执行标准化操作之后,还包括:
确定近似地址单元44,用于于互联网采用模糊匹配机制搜索所述第一地址的多个近似地址;于所述多个近似地址中确定与所述第一地址编辑距离最近的近似地址;将所述近似地址作为第一地址,继续执行地址标准化操作。
更新单元45,用于在检测到行政区划数据或五级行政区划的下属条目发生变化,则更新预设行政区划知识图谱。
本申请可以具有如下有益效果:
本申请通过采用行政区划知识图谱来对地址进行标准化,由于对地址进行标准化,所以再进行地址对比时,其对比准确率会大大提高。
由于利用行政区划知识图谱中添加了近似实体,所以利用行政区划进行标准化过程中,可以对第一地址和第二地址中由于人工录入的拼写错误、OCR识别不准的形近字、地址不全不规范的地址进行标准化,从而大大解决因为地址不规范而导致的对比不准确的问题。
参见图6,本申请提供了一种地址对比***,包括:
终端100,用于向服务器200提供第一地址;
服务器200,用于获取所述第一地址,利用预设行政区划知识图谱对所述第一地址执行标准化操作获得第一标准地址,对比所述第一标准地址和预设的第二标准地址获得对比结果。
关于服务器的执行过程可以详见图2或图4中地址对比设备执行过程的实施例,在此不再赘述。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种地址对比方法,其特征在于,包括:
获取第一地址;
利用预设行政区划知识图谱对所述第一地址执行标准化操作,获得第一标准地址;
对比所述第一标准地址和预设的第二标准地址,获得对比结果;
其中,所述利用预设行政区划知识图谱对所述第一地址执行标准化操作获得第一标准地址,包括:
利用地址分词技术对所述第一地址执行分词操作,获得所述第一地址的多个分词结果,每个分词结果作为一实体;
从所述分词结果中确定五级行政区划的第一实体集,以及,其余实体组成的第二实体集;
于所述预设行政区划知识图谱中搜索所述第一实体集中的各个实体;
判断第一实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;其中,所述预设行政区划知识图谱中搜索到的实体组成的链路为子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则利用所述第一实体集和所述第二实体集,于所述预设行政区划知识图谱中搜索所述第一实体集和所述第二实体集中的各个实体;
判断第二实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则确定无法利用预设行政区划知识图谱对所述第一地址执行标准化操作。
2.如权利要求1所述的方法,其特征在于,在对比所述第一标准地址和预设的第二标准地址获得对比结果之前,还包括:
获取第二地址;
利用所述预设行政区划知识图谱对所述第二地址执行标准化操作,获得所述第二标准地址。
3.如权利要求1或2所述的方法,其特征在于,所述预设行政区划知识图谱的构建过程包括:
依据五级行政区划数据构建基础知识图谱,其中每个行政区划为一实体;
于互联网中搜索五级行政区划的多个下属条目;
按所属关系添加多个下属条目至所述基础知识图谱;其中每个下属条目为一实体;
向所述基础知识图谱中添加实体的近似实体,获得行政区划知识图谱。
4.如权利要求3所述的方法,其特征在于,所述向所述基础知识图谱中添加实体的近似实体,获得行政区划知识图谱,包括:
对于所述基础知识图谱中第四级实体和第五级实体中每个实体而言:
获取实体的一个或多个近似实体;
添加一个或多个近似实体至该实体。
5.如权利要求4所述的方法,其特征在于,所述获取实体的一个或多个近似实体包括:
获取该实体的一个或多个模糊音实体;
获取该实体的一个或多个形近字实体。
6.如权利要求1所述的方法,其特征在于,在确定无法利用预设行政区划知识图谱对所述第一地址执行标准化操作之后,还包括:
于互联网采用模糊匹配机制搜索所述第一地址的多个近似地址;
于所述多个近似地址中确定与所述第一地址编辑距离最近的近似地址;
将所述近似地址作为第一地址,继续执行地址标准化操作。
7.如权利要求3所述的方法,其特征在于,还包括:
在检测到行政区划数据或五级行政区划的下属条目发生变化,则更新预设行政区划知识图谱。
8.一种地址对比装置,其特征在于,包括:
获取单元,用于获取第一地址;
标准化单元,用于利用预设行政区划知识图谱对所述第一地址执行标准化操作,获得第一标准地址;
对比单元,用于对比所述第一标准地址和预设的第二标准地址,获得对比结果;
其中,所述利用预设行政区划知识图谱对所述第一地址执行标准化操作获得第一标准地址,包括:
利用地址分词技术对所述第一地址执行分词操作,获得所述第一地址的多个分词结果,每个分词结果作为一实体;
从所述分词结果中确定五级行政区划的第一实体集,以及,其余实体组成的第二实体集;
于所述预设行政区划知识图谱中搜索所述第一实体集中的各个实体;
判断第一实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;其中,所述预设行政区划知识图谱中搜索到的实体组成的链路为子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则利用所述第一实体集和所述第二实体集,于所述预设行政区划知识图谱中搜索所述第一实体集和所述第二实体集中的各个实体;
判断第二实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则确定无法利用预设行政区划知识图谱对所述第一地址执行标准化操作。
9.一种地址对比***,其特征在于,包括:
终端,用于向服务器提供第一地址;
服务器,用于获取所述第一地址,利用预设行政区划知识图谱对所述第一地址执行标准化操作获得第一标准地址,对比所述第一标准地址和预设的第二标准地址获得对比结果;
其中,所述利用预设行政区划知识图谱对所述第一地址执行标准化操作获得第一标准地址,包括:
利用地址分词技术对所述第一地址执行分词操作,获得所述第一地址的多个分词结果,每个分词结果作为一实体;
从所述分词结果中确定五级行政区划的第一实体集,以及,其余实体组成的第二实体集;
于所述预设行政区划知识图谱中搜索所述第一实体集中的各个实体;
判断第一实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;其中,所述预设行政区划知识图谱中搜索到的实体组成的链路为子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则利用所述第一实体集和所述第二实体集,于所述预设行政区划知识图谱中搜索所述第一实体集和所述第二实体集中的各个实体;
判断第二实体集中搜索到的实体是否于所述预设行政区划知识图谱中具有唯一子图;
若是,则利用所述唯一子图补全所述第一地址,获得第一标准地址;
若否,则确定无法利用预设行政区划知识图谱对所述第一地址执行标准化操作。
CN201910080631.1A 2019-01-28 2019-01-28 地址对比方法、装置及*** Active CN109739997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910080631.1A CN109739997B (zh) 2019-01-28 2019-01-28 地址对比方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910080631.1A CN109739997B (zh) 2019-01-28 2019-01-28 地址对比方法、装置及***

Publications (2)

Publication Number Publication Date
CN109739997A CN109739997A (zh) 2019-05-10
CN109739997B true CN109739997B (zh) 2021-03-23

Family

ID=66366256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910080631.1A Active CN109739997B (zh) 2019-01-28 2019-01-28 地址对比方法、装置及***

Country Status (1)

Country Link
CN (1) CN109739997B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223784A (zh) * 2019-06-17 2019-09-10 ***科技(杭州)有限公司 临床试验患者匹配方法
CN111144117B (zh) * 2019-12-26 2023-08-29 同济大学 知识图谱中文地址消除歧义方法
CN111291277A (zh) * 2020-01-14 2020-06-16 浙江邦盛科技有限公司 一种基于语义识别和高级语言搜索的地址标准化方法
CN111274408B (zh) * 2020-01-16 2024-05-14 广州拉卡拉信息技术有限公司 地址信息验证方法及装置
CN111694823A (zh) * 2020-05-15 2020-09-22 平安科技(深圳)有限公司 机构标准化方法、装置、电子设备及存储介质
CN111859849B (zh) * 2020-07-01 2023-11-24 邦道科技有限公司 一种用电地址的管理方法和装置
CN112445976A (zh) * 2020-12-01 2021-03-05 苏州金螳螂怡和科技有限公司 一种基于拥堵指数图谱的城市地址定位方法
CN113505190B (zh) * 2021-09-10 2021-12-17 南方电网数字电网研究院有限公司 地址信息修正方法、装置、计算机设备和存储介质
CN114048797A (zh) * 2021-10-20 2022-02-15 盐城金堤科技有限公司 确定地址相似度的方法、装置、介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***
WO2018067388A1 (en) * 2016-10-07 2018-04-12 Microsoft Technology Licensing, Llc Repairing data through domain knowledge

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679867B (zh) * 2015-03-05 2018-05-29 深圳市华傲数据技术有限公司 基于图的地址知识处理方法及装置
CN107679160A (zh) * 2017-09-28 2018-02-09 深圳市华傲数据技术有限公司 基于图数据库的数据处理方法及装置
CN109033086A (zh) * 2018-08-03 2018-12-18 银联数据服务有限公司 一种地址解析、匹配的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018067388A1 (en) * 2016-10-07 2018-04-12 Microsoft Technology Licensing, Llc Repairing data through domain knowledge
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***

Also Published As

Publication number Publication date
CN109739997A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109739997B (zh) 地址对比方法、装置及***
CN112446351B (zh) 医疗票据智能识别方法
Matci et al. Address standardization using the natural language process for improving geocoding results
CN112560450B (zh) 一种文本纠错方法及装置
CN109508458B (zh) 法律实体的识别方法及装置
CN112329055A (zh) 用户数据脱敏的方法及装置、电子设备、存储介质
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN113935710A (zh) 一种合同审核的方法、装置、电子设备及存储介质
CN112883734A (zh) 区块链安全事件舆情监测方法及***
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN113761137B (zh) 一种提取地址信息的方法及装置
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN111104481B (zh) 一种识别匹配字段的方法、装置及设备
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN111611793B (zh) 数据处理方法、装置、设备及存储介质
CN110941638B (zh) 应用分类规则库构建方法、应用分类方法及装置
JP2018101244A (ja) データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム
CN113988878B (zh) 一种基于图数据库技术的反欺诈方法及***
CN112416754B (zh) 一种模型评测方法、终端、***及存储介质
CN114065762A (zh) 一种文本信息的处理方法、装置、介质及设备
CN114049642A (zh) 一种表格证件影像件的文本识别方法及计算设备
CN112416993A (zh) 一种商标变更判断方法、***、设备及可读存储介质
CN114003812A (zh) 地址匹配方法、***、设备及存储介质
CN112861532A (zh) 地址标准化处理方法、装置、设备及在线搜索***
CN115270800B (zh) 终端门店名称的提取方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant