CN113836357B - 基于文本相似度计算的地址库数据处理方法和控制*** - Google Patents

基于文本相似度计算的地址库数据处理方法和控制*** Download PDF

Info

Publication number
CN113836357B
CN113836357B CN202111184456.4A CN202111184456A CN113836357B CN 113836357 B CN113836357 B CN 113836357B CN 202111184456 A CN202111184456 A CN 202111184456A CN 113836357 B CN113836357 B CN 113836357B
Authority
CN
China
Prior art keywords
address
mapping
level
data
addresses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111184456.4A
Other languages
English (en)
Other versions
CN113836357A (zh
Inventor
王晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shangyue Network Technology Co ltd
Original Assignee
Beijing Shangyue Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shangyue Network Technology Co ltd filed Critical Beijing Shangyue Network Technology Co ltd
Priority to CN202111184456.4A priority Critical patent/CN113836357B/zh
Publication of CN113836357A publication Critical patent/CN113836357A/zh
Application granted granted Critical
Publication of CN113836357B publication Critical patent/CN113836357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于文本相似度计算的地址库数据处理方法和控制***,通过获取第一地址库数据和第二地址库数据,并根据所述第一地址库数据建立按照地址层级排序的映射数据表;根据所述映射数据表,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集;将所述第二地址库数中的源地址与所述地址映射集中的每一个地址进行相似度计算;根据相似度计算结果排序,将相似度最大值的地址作为所述源地址的目标地址。通过相似度计算,从映射地址表中获取不同地址层级的地址信息数据,将地址进行一层转换,精装且快速的匹配两个地址库,使得转换后的地址可直接应用于电商平台,加快电商交流。

Description

基于文本相似度计算的地址库数据处理方法和控制***
技术领域
本公开涉及通信技术领域,尤其涉及一种基于文本相似度计算的地址库数据处理方法和控制***。
背景技术
电商交易是当下市场进行商品交易的流行方式,用户在电商平台保存地址信息、下单、支付等,即可等待电商卖家发货。因此,电商经济为用户日常生活带来了即为方便的购物体验。
用户的地址数据,是电商物流等环节中的一项必不可少的数据。申请人发现,用户在电商平台进行交易的初期,在对接电商过程中,买家和卖家的地址不能直接给电商直接用,因为A企业的采购商城需要对接B企业的采购商城,A企业的地址不能在B企业采购商城直接使用,需要做一层转换。
因此,有必要提供一种方法将两者的地址数据进行转换,使得转换后的地址信息可以直接匹配并用于电商的使用平台。
发明内容
有鉴于此,本公开提出了一种基于文本相似度计算的地址库数据处理方法和控制***,通过将地址进行一层转换,可以精装且快速的匹配两个地址库,使得转换后的地址可以直接应用于电商平台,加快电商平台信息交流和物流对接速度。
根据本公开的一方面,提供了一种基于文本相似度计算的地址库数据处理方法,包括如下步骤:
S1、获取第一地址库数据和第二地址库数据,并根据所述第一地址库数据建立按照地址层级排序的映射数据表;
S2、根据所述映射数据表,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集;
S3、将所述第二地址库数中的源地址与所述地址映射集中的每一个地址进行相似度计算;
S4、根据相似度计算结果排序,将相似度最大值的地址作为所述源地址的目标地址。
在一种可能的实现方式中,优选地,所述从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集,包括:
查询所述源地址在所述映射数据表中是否存在父级地址数据:
是,则寻址结束;
否,则判断父编码是否等于零。
在一种可能的实现方式中,优选地,还包括:
如果判断父编码等于零,则获取所述源地址在所述映射数据表中的所有子地址;
根据所有子地址,获取映射在所述第一地址库数据中的所有子地址名称;
将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表。
在一种可能的实现方式中,优选地,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值不为零,则根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;
将目标地址保存至数据库。
在一种可能的实现方式中,优选地,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值为零,则寻址结束。
在一种可能的实现方式中,优选地,还包括:
如果判断父编码不等于零,则获取所述映射数据表中存在的下一个所述父级地址数据;
判断所述父级地址数据是否存在:
如果存在,则获取所述源地址在所述映射数据表中的所有子地址;根据所有子地址,获取映射在所述第一地址库数据中的所有子地址名称;将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表;
如果不存在,则执行结束。
在一种可能的实现方式中,优选地,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值不为零,则根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;
将目标地址保存至数据库。
在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值为零,则寻址结束。
在一种可能的实现方式中,优选地,所述父级地址数据包括在所述映射数据表中的省级地址数据、市级地址数据和县级地址数据。
在一种可能的实现方式中,优选地,根据本公开的另一方面,一种控制***,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现上述所述的一种基于文本相似度计算的地址库数据处理方法。
本发明技术效果:
本申请通过获取第一地址库数据和第二地址库数据,并根据所述第一地址库数据建立按照地址层级排序的映射数据表;根据所述映射数据表,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集;将所述第二地址库数中的源地址与所述地址映射集中的每一个地址进行相似度计算;根据相似度计算结果排序,将相似度最大值的地址作为所述源地址的目标地址。能够通过相似度计算,从映射地址表中获取不同地址层级的精准地址信息数据,通过将地址进行一层转换,可以精装且快速地匹配两个地址库,使得转换后的地址可以直接应用于电商平台,加快电商平台信息交流和物流对接速度。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出为本发明基于文本相似度计算的地址库数据处理方法的实施流程示意图;
图2示出为本发明按照地址层级匹配各地级地址的总流程示意图;
图3示出为本发明执行省级寻址的执行流程示意图;
图4示出为本发明按照父编码进行寻址的实施流程示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
如图1所示,提供了一种基于文本相似度计算的地址库数据处理方法,包括如下步骤:
S1、获取第一地址库数据和第二地址库数据,并根据所述第一地址库数据建立按照地址层级排序的映射数据表;
本申请需要转换第一用户和第二用户的地址库数据,其中,第一用户可以是买家或者商户,第二用户可以是商户或者电商平台上经营者,采用本实施例,可以根据电商项目或者市场环境灵活设定第一用户和第二用户的身份,本处不做限制。
如图2所示,本实施例,将第一地址库数据作为A企业的地址的全数据,将第二地址库数据作为B企业的地址的全数据,全数据即包括一个企业地址的所有的省市区县地址,比如获取A企业的地址的全数据,获取的是A企业地址的各个地级地址数据,包括省市区县的地址信息。
首先需要准备数据,获得A企业的地址的全数据和B企业的地址的全数据,分别作为第一地址库数据和第二地址库数据;
本技术需要将B企业的地址经过本方法转换为A企业可以直接用于电商平台的地址,以此从省级、市级、县级和镇级,进行地址查询、映射匹配,最终获得一个和A企业的地址相匹配的转换地址,以此作为A企业对应B企业的电商应用地址,以此建立地址映射而进行电商物流;
因此,本申请首先建立一个地址映射表,按照地址层级“省市县镇”的排序方式,根据第一地址库数据建立地址映射数据表,地址映射数据表中包含A企业的地址编码和B企业的地址编码关系,地址映射数据表可以是通过表格或者其他方式建立,各级地址1对1对应建立即可,通过表格建立两个地址之间的映射表格的方式为常规手段,本处不再赘述。其中,A企业的地址库,可以包含不同地址的地址数据,具体根据需求设定即可。
此外,地址映射表需要建立A-B地址之间的映射匹配关系,映射匹配关系在表中体现为:每行数据为 A地址编码 - B地址编码,地址编码由用户在程序设定时进行具体设定;映射匹配关系便于在再查询匹配地址映射表时,可以根据映射匹配关系索引到相关联的地址数据,即根据映射匹配关系,从A企业的地址库找到对应B企业的地址信息,采集这些在地址映射表中的数据作为转化后的地址数据;
映射匹配关系可以由用户根据市场需求和自定义方式进行设定,本处不做限制。在映射匹配关系设置好后,将其配置并存储在数据库或者内存中即可。
S2、根据所述映射数据表,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集;
在进行映射地址数据匹配获取时,根据数据库中的匹配关系,可以按照地址层级“省市县镇”的排序方式,逐级从地址映射表中获得关联的地址信息,其中,每次获取的地址数据信息,是根据同级地址来获取的,如B企业地址中的省级,映射获取时对应的是地址映射表中的省级映射结果;逐一映射获取所有满足的地址信息即可。
其中,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,具体是根据源地址的类型而匹配出所有的同级地址数据,比如,当源地址为第二地址库数据中的一个地址的省级地址如浙江省,那么此时根据映射关系从映射数据表获取所有对应该源地址的省级映射地址,映射地址可能包含多个,将这些都是省级的映射地址集合作为一个地址映射集;依次获取源地址为市级、县级和镇级的地址映射集即可。对于每个地址集,需要获得一个最匹配的地址,比如一个市级地址映射集,包含多个省的不同市级地址或者一个省下面的多个市级地址,就需要按照相似度计算方式获得最相似的那个地址,以此作为最匹配的地级地址,按照此方式获得映射匹配的最佳地址。
本实施例,以省为例,将B企业的省级地址如江苏省,从地址映射表中索引出来,将B的省级地址和地址映射表中的所有满足映射匹配关系的省进行匹配,经过相似度计算而获得最大相似度值的省即作为B的省级地址在地址映射表中的替换地址,以此将B企业的省级地址信息转换为映射后的替换省级地址了;如此,逐一获取市、县、镇的地址即可。
本申请在每一级地级地址匹配时,需要在横向匹配每一层的地级地址后,针对该地级地址,纵向以此映射匹配下一级即子级的映射地址;如图2所示,在执行一个“省级”映射匹配,即执行一个从映射匹配后的省级地址,对该省级下的市级地址、省级下的县级地址和省级下的镇级地址进行映射匹配之后,还需要执行下一个省,需要对下一个省下面的所有的市级地址、下一个省下面的所有的县级地址和下面的所有的镇级地址进行映射匹配,获得匹配的市级地址、县级地址和镇级地址;执行下一个省直到所有省匹配完成,在省级地址映射匹配之后,进一步按照上述方法获取满足条件的省级地址下面的所有的市级地址、满足条件的省级地址下面的所有的县级地址和满足条件的省级地址下面的所有的镇级地址。
S3、将所述第二地址库数中的源地址与所述地址映射集中的每一个地址进行相似度计算;
所述相似度计算,具体为:
根据文本相似度计算方式,计算所述每层地址级别所对应的地址与所述地址映射集中的每一个地址的相似度值。第二地址库数中的源地址指的是需要和地址映射表中地址进行计算的地址,如B企业的省级地址。
本实施例,根据python的 text2vec包下的文本相似度,来计算相似度值;
如,将B企业地址中的省级信息和地址映射表中的所有满足匹配关系的省进行相似度计算,需要将B企业地址中的省级信息和地址映射表中的所有满足匹配关系的每一个省进行相似度计算,计算后取相似度最大的那个地址,作为和B地址库中此省匹配的省。
需要说明的是,本申请对市级、县级和镇级地址的映射匹配,是按照“省级以下的”所有该级地址进行的映射匹配的,比如所有省级以下的市级地址、省级以下的县级地址等。
S4、根据相似度计算结果排序,将相似度最大值的地址作为所述源地址的目标地址。
具体的,将B企业地址按照地址层级分组,进行匹配,然后以此执行相似度计算、匹配地级地址:如图3所示,先匹配省级,根据相似度计算,匹配成功,获得映射匹配后的省级信息,然后进行下一级市级的地址匹配;按照上述步骤,市级匹配完毕,匹配县级地址,最后匹配镇级地址;最终获得一个各级地级相似度最大值的地址作为所述源地址的目标地址。
根据上述计算方式,根据相似度计算结果,可以得到相似度值,将相似度值输入数据库的排序列表,可以得到相似度计算结果排序,按照地址分级,将相似度最大值的地址作为所述源地址的目标地址。
如图4所示,在一种可能的实现方式中,优选地,所述从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集,包括:查询所述源地址在所述映射数据表中是否存在父级地址数据:是,则寻址结束;否,则判断父编码是否等于零。
在映射表中寻址时,是按照上述地级层级来逐一查取的,因此需要首先寻址判断是否具有父编码,即一级编码/父级编码,有父级编码则表明有对应的地级地址,比如寻址时判断有父编码,则表示存在一级地址,根据父级编码判断存在省级地址,寻址后再寻找父级下一级的市级地址即位于父级编码下的子级编码,即市级地址(二级编码)。依次循环而寻址获得其他地址。
其中,在地址存储的时候每个地址都会有父编码,例如:name: 海淀区 code :110108 parent_code :110100,其获取的方式可以放在内存中也可以查询数据库获取,也可以在数据库中查询获取,查询源地址时,即可根据该地址储存位置,查看对应的父编码。查询并判断编码的类型,是程序上的常规技术手段,本处不再赘述。
当判断所述映射数据表中存在父级地址数据,则表示有对应的映射地址,寻址成功,结束寻址;如图4所示,当对B企业地址进行映射寻址时,若是进行匹配时,直接获得对应的映射地址,则直接将其作为B企业转换后的地址数据,用于A企业作为电商的应用地址;
当判断所述映射数据表中不存在父级地址数据,则表示未匹配到对应的父级地址,此时需要判断父编码是否等于零,进而进一步地判断寻址。
父级编码的储存和编排方式等由用户进行编辑设定,对应的一级地级地址是省级或者市级或者县级可以根据映射规则进行编辑。本实施例根据父级编码进行映射寻址,其可以在映射匹配到对应地址时直接获取转换后的地址数据。也可以在地址无法直接映射匹配到的情况下通过逐级寻址匹配到相似数据,进行按级寻址,可以提高寻址精度。
在一种可能的实现方式中,优选地,还包括:
如果判断父编码等于零,则获取所述源地址在所述映射数据表中的所有子地址;父编码的编辑和级别设定由用户设定即可;当寻址判断一处的父编码等于零时,即表明发现此处的父级地址不匹配,此时就需要在映射表中逐一寻址,直到寻址发现父编码不等于零时,结束寻址;因此,父编码等于零时,需要可以从映射表中获取此地址并根据此父级地址映射获取所述源地址在所述映射数据表中的所有子地址,进行逐一匹配计算,根据匹配得分将所有的匹配结果排序进行判断,当判断还存在下一个地址,即再次进行匹配得分计算并排序;如图4所示,可以根据B企业地址的省级名称,根据父级即省级编码获得省级映射地址,并进一步寻址获得所有在地址映射表中的省级下面的所有市级A企业子地址;并根据所有子地址,获取映射在所述第一地址库数据中的所有子地址名称;获取对应的A企业地址的子地址名称;将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表。
本申请将所有寻址的A企业地址子地址名称和商户公司地址的名称进行匹配,可以按照上述文本相似度计算方式进行计算,将匹配结果计算并有序输出。可以在父级编码寻址逻辑下,获得所有相关的地级地址数据,在父级编码为零的情况下,可以按照寻址流程映射匹配出所有省级以下地级地址数据并执行下一个省级寻址流程,实现从纵向到横向的全程寻址匹配,提高地址匹配精度。
在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;在有序列表中,可以查询出匹配得分最大值的子地址名称,并获得对应的子地址名称的位置信息,以便根据位置信息获取地址信息。
在匹配计算时,需要判断所述匹配得分最大值是否为零;如果匹配得分最大值不为零,则将匹配值排序,以此将地址的相似度值计算排序,并根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;目标地址即为相似度最大的映射地址,根据最大得分的位置找到最匹配的A企业地址,将此地址作为B企业的映射地址;将最匹配的A企业地址编辑脚本经过数据持久化处理后,将其保存至数据库。
按照匹配分值排序,可以快速获得分值排序结果,进而获知最大分值即最匹配的地址位置,提高寻址效率;在最大值为零时,即不匹配而寻址结束。
在一种可能的实现方式中,优选地,还包括:获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值为零,则寻址结束。
若是在排序计算匹配分值的最大值为零,表明映射出的地址在相似度上不符合要求,则此时执行结束,寻址失败。
在一种可能的实现方式中,优选地,所述父级地址数据包括在所述映射数据表中的省级地址数据、市级地址数据和县级地址数据。
本实施例,需要从省级依次寻址,因此,父级编码设定的级别设定省市县即可。
如图4所示,在将匹配得分记录在有序列表中后,表明一个映射地址的得分记录完毕,此时需要判断是否有多个映射地址,若是有多个,则需要将下一个的映射地址匹配得分继续记录在有序列表中。
需要说明的是,尽管以省级映射方式作为示例介绍了如上寻址模式和文本相似度计算,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定映射匹配关系,只要可以按照本技术提供的按照地址层级逐一寻址即可。
这样,通过相似度计算,从映射地址表中获取不同地址层级的精准地址信息数据,通过将地址进行一层转换,可以精装且快速的匹配两个地址库,使得转换后的地址可以直接应用于电商平台,加快电商平台信息交流和物流对接速度。
实施例2
基于上述实施例1提供的一种基于文本相似度计算的地址库数据处理方法,
如图4所示,
在一种可能的实现方式中,优选地,还包括:
如果判断父编码不等于零,则获取所述映射数据表中存在的下一个所述父级地址数据;
当寻址发现此处的父编码不等于零,表明此处的父级地址存在,获取此处对应的映射地址即对应的A企业地址,依次寻址判断是否还有其他地址存在;若是寻址发现不存在其他匹配的地址,则寻址结束;
若是判断所述父级地址数据是否存在:
如果存在,则获取所述源地址在所述映射数据表中的所有子地址,即获取所有A企业地址的子地址;根据所有子地址,获取映射在所述第一地址库数据中的所有A企业地址的子地址名称;将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表;将所有寻址的A企业地址子地址名称和商户公司地址的名称进行匹配,可以按照上述文本相似度计算方式进行计算,将匹配结果计算并有序输出。
如果不存在,则执行结束。
在一种可能的实现方式中,优选地,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值不为零,则根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;
将目标地址保存至数据库。
在一种可能的实现方式中,优选地,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值为零,则寻址结束。
上述按照匹配得分进行有序排列而获取最匹配的子地址名称的位置信息,详见实施例1,本实施例,不再赘述。
实施例3
更进一步地,根据本公开的另一方面,还提供了一种控制***。
本公开实施例控制***包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行可执行指令时实现前面实施例1或2任一所述的一种基于文本相似度计算的地址库数据处理方法。
此处,应当指出的是,处理器的个数可以为一个或多个。同时,在本公开实施例的控制***中,还可以包括输入装置和输出装置。其中,处理器、存储器、输入装置和输出装置之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的一种基于文本相似度计算的地址库数据处理方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块,从而执行控制***的各种功能应用及数据处理。
输入装置可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种基于文本相似度计算的地址库数据处理方法,其特征在于,包括如下步骤:
S1、获取第一地址库数据和第二地址库数据,并根据所述第一地址库数据建立按照地址层级排序的映射数据表;地址映射数据表中包含A企业的地址编码和B企业的地址匹配关系,地址匹配关系在表中体现为:每行数据为 A地址编码 - B地址编码;映射匹配关系便于在查询匹配地址映射表时,根据映射匹配关系索引到相关联的地址数据,即根据映射匹配关系,从A企业的地址库找到对应B企业的地址信息,采集这些在地址映射表中的数据作为转化后的地址数据;
S2、根据所述映射数据表,从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集:根据源地址的类型而匹配出所有的同级地址数据,当源地址为第二地址库数据中的一个地址的省级地址,此时根据映射关系从映射数据表获取所有对应该源地址的省级映射地址,将这些都是省级的映射地址集合作为一个地址映射集;依次获取源地址为市级、县级和镇级的地址映射集;
在每一级地级地址匹配时,需要在横向匹配每一层的地级地址后,针对该地级地址,纵向匹配下一级即子级的映射地址;在执行一个“省级”映射匹配,即执行一个从映射匹配后的省级地址,对该省级下的市级地址、省级下的县级地址和省级下的镇级地址进行映射匹配之后,还需要执行下一个省,需要对下一个省下面的所有的市级地址、下一个省下面的所有的县级地址和下面的所有的镇级地址进行映射匹配,获得匹配的市级地址、县级地址和镇级地址;执行下一个省直到所有省匹配完成,在省级地址映射匹配之后,进一步按照上述方法获取满足条件的省级地址下面的所有的市级地址、满足条件的省级地址下面的所有的县级地址和满足条件的省级地址下面的所有的镇级地址;
S3、将所述第二地址库数据中的源地址与所述地址映射集中的每一个地址进行相似度计算;将B企业地址中的省级信息和地址映射表中的所有满足匹配关系的省进行相似度计算,需要将B企业地址中的省级信息和地址映射表中的所有满足匹配关系的每一个省进行相似度计算,计算后取相似度最大的那个地址,作为和B地址库中此省匹配的省;同理,对市级、县级和镇级地址的映射匹配,是按照“省级以下的”所有该级地址进行的映射匹配的;
S4、根据相似度计算结果排序,将相似度最大值的地址作为所述源地址的目标地址。
2.根据权利要求1所述的一种基于文本相似度计算的地址库数据处理方法,其特征在于,所述从所述映射数据表获取所有与所述第二地址库数据中的源地址同级的映射地址,并将所有映射地址的集合作为地址映射集,包括:
查询所述源地址在所述映射数据表中是否存在父级地址数据:
是,则寻址结束;
否,则判断父编码是否等于零。
3.根据权利要求2所述的一种基于文本相似度计算的地址库数据处理方法,其特征在于,还包括:
如果判断父编码等于零,则获取所述源地址在所述映射数据表中的所有子地址;
根据所有子地址,获取映射在所述第一地址库数据中的所有子地址名称;
将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表。
4.根据权利要求3所述的一种基于文本相似度计算的地址库数据处理方法,其特征在于,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值不为零,则根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;
将目标地址保存至数据库。
5.根据权利要求4所述的一种基于文本相似度计算的地址库数据处理方法,其特征在于,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值为零,则寻址结束。
6.根据权利要求2所述的一种基于文本相似度计算的地址库数据处理方法,其特征在于,还包括:
如果判断父编码不等于零,则获取所述映射数据表中存在的下一个所述父级地址数据;
判断所述父级地址数据是否存在:
如果存在,则获取所述源地址在所述映射数据表中的所有子地址;根据所有子地址,获取映射在所述第一地址库数据中的所有子地址名称;将所有所述子地址名称与用户地址名称匹配,并将匹配结果记入有序列表;
如果不存在,则执行结束。
7.根据权利要求6所述的一种基于文本相似度计算的地址库数据处理方法,其特征在于,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值不为零,则根据所述匹配得分最大值的子地址名称的位置信息,获得目标地址;
将目标地址保存至数据库。
8.根据权利要求7所述的一种基于文本相似度计算的地址库数据处理方法,其特征在于,还包括:
获取所述有序列表中的匹配得分最大值的子地址名称和对应所述子地址名称的位置信息;
判断所述匹配得分最大值是否为零;
如果匹配得分最大值为零,则寻址结束。
9.根据权利要求2所述的一种基于文本相似度计算的地址库数据处理方法,其特征在于,所述父级地址数据包括在所述映射数据表中的省级地址数据、市级地址数据和县级地址数据。
10.一种控制***,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1至9中任意一项所述的一种基于文本相似度计算的地址库数据处理方法。
CN202111184456.4A 2021-10-12 2021-10-12 基于文本相似度计算的地址库数据处理方法和控制*** Active CN113836357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111184456.4A CN113836357B (zh) 2021-10-12 2021-10-12 基于文本相似度计算的地址库数据处理方法和控制***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111184456.4A CN113836357B (zh) 2021-10-12 2021-10-12 基于文本相似度计算的地址库数据处理方法和控制***

Publications (2)

Publication Number Publication Date
CN113836357A CN113836357A (zh) 2021-12-24
CN113836357B true CN113836357B (zh) 2022-09-16

Family

ID=78968595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111184456.4A Active CN113836357B (zh) 2021-10-12 2021-10-12 基于文本相似度计算的地址库数据处理方法和控制***

Country Status (1)

Country Link
CN (1) CN113836357B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101122629B1 (ko) * 2011-11-18 2012-03-09 김춘기 데이터베이스의 데이터를 변환하여 xml 문서를 생성하는 방법
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN112347222A (zh) * 2020-10-22 2021-02-09 中科曙光南京研究院有限公司 一种基于知识库推理的将非标准地址转换为标准地址的方法及***
CN112988755A (zh) * 2021-04-14 2021-06-18 北京商越网络科技有限公司 关联数据的自动选值方法和装置、设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678708B (zh) * 2013-12-30 2017-01-18 小米科技有限责任公司 一种识别预设地址的方法及装置
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN110147418B (zh) * 2019-04-18 2022-04-29 厦门市美亚柏科信息股份有限公司 一种判断地址是否标准化、地址标准化的方法及***
CN111966766A (zh) * 2020-02-18 2020-11-20 上海寻梦信息技术有限公司 地址信息的检测方法、***、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101122629B1 (ko) * 2011-11-18 2012-03-09 김춘기 데이터베이스의 데이터를 변환하여 xml 문서를 생성하는 방법
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN112347222A (zh) * 2020-10-22 2021-02-09 中科曙光南京研究院有限公司 一种基于知识库推理的将非标准地址转换为标准地址的方法及***
CN112988755A (zh) * 2021-04-14 2021-06-18 北京商越网络科技有限公司 关联数据的自动选值方法和装置、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多源地名地址数据融合更新技术方法研究;马春林;《经纬天地》;20200428(第02期);第23-26页 *

Also Published As

Publication number Publication date
CN113836357A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN106126630B (zh) 一种业务对象的收藏、搜索方法和装置
CN105027115B (zh) 对文档的查询和索引
CN108846133B (zh) 基于b-m树的区块链存储结构、b-m树建立算法及查找算法
CN102841904B (zh) 一种搜索方法及设备
CN111639253B (zh) 一种数据判重方法、装置、设备及存储介质
CN110263022B (zh) 酒店数据匹配方法及装置
CN112347377A (zh) Ip地址段查找方法与业务调度方法、装置、电子设备
CN111522989A (zh) 用于图像检索的方法、计算设备和计算机存储介质
US9342812B2 (en) Taxonomy based database partitioning
CN111680489A (zh) 目标文本的匹配方法和装置、存储介质及电子设备
CN112435087A (zh) 一种零部件商品搜索方法、装置、设备及存储介质
CN115328883A (zh) 一种数据仓库建模方法和***
CN113836357B (zh) 基于文本相似度计算的地址库数据处理方法和控制***
CN110490748A (zh) 基于订单的项目推荐方法以及装置
US8463799B2 (en) System and method for consolidating search engine results
JPWO2007004521A1 (ja) マーカ特定装置及びマーカ特定方法
CN108874873A (zh) 数据查询方法、装置、存储介质及处理器
CN107292694A (zh) 采购单的生成方法及***
CN105159921A (zh) 地图中兴趣点poi数据去重的方法及装置
CN111475165A (zh) 一种应用程序智能编译方法、***、终端及存储介质
CN110188274B (zh) 搜索纠错方法及装置
CN112035432B (zh) 数据的置换迁移方法、装置计算机设备
CN114219589A (zh) 虚拟实体对象的生成和页面显示方法、装置和电子设备
CN111506756B (zh) 相似图片的查找方法及***、电子设备、存储介质
CN113379499A (zh) 物品筛选方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant