CN114004232A - 一种切割地址的方法、装置、设备及可读存储介质 - Google Patents

一种切割地址的方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114004232A
CN114004232A CN202111263277.XA CN202111263277A CN114004232A CN 114004232 A CN114004232 A CN 114004232A CN 202111263277 A CN202111263277 A CN 202111263277A CN 114004232 A CN114004232 A CN 114004232A
Authority
CN
China
Prior art keywords
address
text
word
labels
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111263277.XA
Other languages
English (en)
Inventor
邹倩霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202111263277.XA priority Critical patent/CN114004232A/zh
Publication of CN114004232A publication Critical patent/CN114004232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Remote Sensing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种切割地址的方法、装置、设备及可读存储介质,该方法包括:获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;将所述地址文本中的地址要素和地址要素类型标签成对的进行展示;本发明能够使得切割地址更准确、高效。

Description

一种切割地址的方法、装置、设备及可读存储介质
技术领域
本发明涉及语义解析技术领域,特别涉及一种切割地址的方法、装置、设备及可读存储介质。
背景技术
目前,地址切割技术在各个领域的应用越来越广泛,例如:收发快递、户籍地址管理或信件邮寄等都需要对地址信息进行切割处理,地址切割的不规范会给人们带来诸多不便。
由于中国的地址信息较为复杂,按照现有的方式需要利用地址切割模板人为的对地址文本进行地址切割,但切割的效果不够准确,只能切割达到地址切割模板规定的四类地址要素:省、市、区、县,对这四类地址要素后续的地址文本无法进一步切割;同时,在对地址信息进行切割的过程中地址切割模板也容易出现切割错误的情况,需要对切割结果进行人为修改,从而导致地址切割的效率下降。
因此,如何自动、准确、高效的对地址文本进行地址切割,成为了本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的在于提供一种切割地址的方法、装置、设备及可读存储介质,解决了现有技术存在的技术问题,达到了更准确、高效的地址切割效果。
根据本发明的一个方面,提供了一种切割地址的方法,该方法包括以下步骤:
获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;
利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;
利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;
当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;
将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。
可选的,所述BERT算法层为所述地址文本中的每个字添加对应的标注,具体包括:
利用所述BERT算法层计算出所述地址文本中每个字在各种预设的标注下的概率值;其中,所述预设的标注包括:地址头部标注、地址非头部标注和非地址标注;
根据所述地址文本中目标字在各种预设的标注下的概率值,将最大概率值所对应的标注添加给所述目标字。
可选的,所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率,具体包括:
从所述地址文本的第一个字开始,依次判断所述地址文本中每个字的标注是否满足预设的标注规则,并统计出满足所述标注规则的字数;
将统计出的满足所述标注规则的字数与所述地址文本的总字数的比值作为所述标注准确率。
可选的,所述当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,具体包括:
根据所述地址文本中添加有地址头部标注的字和添加有地址非头部标注的字,确定出所述地址文本中的地址要素;
其中,所述地址要素为所述地址文本中连续的N个字,且所述地址要素中第一个字添加有地址头部标注以及所述地址要素中除第一个字之外的其他字均添加有地址非头部标注。
可选的,所述分别为每个地址要素添加对应的地址要素类型标签,具体包括:
判断所述地址要素是否存在于预设的中国地址树中;
若是,则从所述中国地址树中获取与所述地址要素对应的地址要素类型标签;
若否,则为所述地址要素添加非地址要素标签。
可选的,所述方法还包括:
从预设的地图数据库中分别获取每个省份的地址要素数据;
将目标省份的地址要素数据按照预设的地址要素类型进行划分,得到所述目标省份在各个地址要素类型下的地址要素数据,并为每个地址要素类型下的地址要素数据添加对应的地址要素类型标签,以构建出所述目标省份的地址树;
根据所有省份的地址树构建出所述中国地址树。
可选的,所述方法还包括:
若所述地址文本中连续的M个字均为非地址标注,则为所述连续的M个字添加非地址要素标签。
为了实现上述目的,本发明还提供一种切割地址的装置,该装置具体包括以下组成部分:
获取模块,用于获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;
标注模块,用于利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;
校准模块,用于利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;
确定模块,用于当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;
展示模块,用于将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。
为了实现上述目的,本发明还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的切割地址的方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的切割地址的方法的步骤。
本发明提供的切割地址的方法、装置、设备及可读存储介质,能够通过将地址文本输入至地址切割模型中BERT算法层以识别出地址文本中的地址要素并对识别出的地址要素进行标注,从而实现了按照地址要素对地址文本进行切割的效果;再将BERT算法层输出的标注结果输入CRF算法层中并根据标注规则对标注结果进行校准,从而减少在分词或标注过程中出现标注错误的情况,使得地址切割的效果更准确;最后对地址文本中的地址要素进行展示,达到了自动、准确、高效的地址切割效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为实施例一提供的切割地址的方法的一种可选的流程示意图;
图2为实施例二提供的切割地址的装置的一种可选的程序模块示意图;
图3为实施例三提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种切割地址的方法,如图1所示,该方法具体包括以下步骤:
步骤S101:获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层。
其中,在所述地址文本中包含若干个表征地址要素的词,地址要素是构成地址的组成单元,例如:xx省、xx市、xx区、xx街道等均为地址要素。
所述地址切割模型是基于大量的地址样本数据训练出的可用于识别文本中的地址要素的模型,所述地址切割模型是由BERT算法层和CRF算法层组成的。
BERT(Bidirectional Encoder Representation from Transformers,基于语义理解的深度双向预训练前序编解码预测器)算法层是基于Transformer的双向编码器表征算法,可以经过预训练来理解文本中词语的含义和句子之间的上下文关系,在本实施例中利用BERT算法层理解包含在文本中的地址要素,并对每个地址要素进行标注。
CRF(Conditional Random Field,条件随机场)算法层是在给定一组输入序列条件下另一组输出序列的条件概率分布算法,用于判断BERT算法层输出的标注结果是否满足约束性的标注规则,并根据该标注结果计算标注准确率。
在本实施中,利用由BERT算法层和CRF算法层组成的地址切割模型,代替了现有技术中仅能按照地址切割模板对固定格式的地址文本进行切割的方式,能够更自动、准确、高效的切割地址。
步骤S102:利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素。
具体的,步骤S102,包括:
步骤A1:利用所述BERT算法层计算出所述地址文本中每个字在各种预设的标注下的概率值;其中,所述预设的标注包括:地址头部标注、地址非头部标注和非地址标注;
在本实施例中,利用BIO(Beginning-Inside-Outside,命名实体识别)标注的方式对地址文本中的每个字进行标注,即用“B”代表地址头部标注,“I”代表地址非头部标注,“O”代表非地址标注;将一段地址文本输入BERT算法层后,先经过BERT算法层分词器将该地址文本分成若干字,再计算每个字分别在“B”、“I”、“O”下的概率值。需要特别说明的是,在本实施例中,BERT算法层分词器会将连续的数字或连续的英文作为一个字来处理。
例如:将“我来自江苏省苏州市”输入BERT算法层,先分词得到“我”、“来”、“自”、“江”、“苏”、“省”、“苏”、“州”、“市”,再计算得出每个字对应BIO标注的概率值,即“我(B-0.2;I-0.1;O-0.7)”、“来(B-0.2;I-0.2;O-0.6)”、“自(B-0.2;I-0.1;O-0.7)”、“江(B-0.6;I-0.1;O-0.3)”、“苏(B-0.1;I-0.7;O-0.2)”、“省(B-0.1;I-0.6;O-0.3)”、“苏(B-0.5;I-0.2;O-0.3)”、“州(B-0.1;I-0.7;O-0.2)”、“市(B-0.1;I-0.8;O-0.1)”。
步骤A2:根据所述地址文本中目标字在各种预设的标注下的概率值,将最大概率值所对应的标注添加给所述目标字。
例如:根据最大概率值,对应“我来自江苏省苏州市”这段地址文本的标注结果为“我(O)来(O)自(O)江(B)苏(I)省(I)苏(B)州(I)市(I)”。
此外,上述步骤S102,还包括:
步骤B1:利用所述BERT算法层对所述地址文本进行分词处理得到各个分词;
步骤B2:依次判断所述各个分词是否存在于预设的中国地址树中;
步骤B3:若是,则为所述分词中第一个字添加地址头部标注,并为所述分词中除第一个字之外的其他字添加地址非头部标注;若否,则为所述分词中的每个字均添加非地址标注。
本实施例提供了两种对地址文本中的每个字进行标注的方式,在实际应用中可根据需要基于上述两种情况对标注方式进行改进,本实施例并不做具体限定。
步骤S103:利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率。
其中,标注准确率用于表征经过BERT算法层对地址文本中每个字的标注结果是否正确的概率。
具体的,步骤S103,包括:
步骤C1:从所述地址文本的第一个字开始,依次判断所述地址文本中每个字的标注是否满足预设的标注规则,并统计出满足所述标注规则的字数;
其中,所述标注规则至少包括以下之一:
地址文本中第一个字的标注必须是地址头部标注或非地址标注;
一个标注了地址头部标注的字的后一个字的标注必须是地址非头部标注;
一个标注了非地址标注的字的后一个字的标注不能是地址非头部标注。
步骤C2:将统计出的满足所述标注规则的字数与所述地址文本的总字数的比值作为所述标注准确率。
进一步的,步骤C1,还包括:
若在所述地址文本中出现不满足所述标注规则的字,则对不满足所述标注规则的字的标注按照所述标注规则进行修正。
在本实施例中,依次判断地址文本中每个字的标注是否满足标注规则,若出现不满足标注规则,例如:我(O)来(O)自(O)江(B)苏(I)省(I)苏(B)州(B)市(I),其中,“州”字对应的标注不满足标注规则,即一个标注了地址头部标注的字的后一个字的标注必须是地址非头部标注,因此,将“州”字对应的标注B按照标注规则修改为I,修改后的地址文本为我(O)来(O)自(O)江(B)苏(I)省(I)苏(B)州(I)市(I)。
在本实施例中,利用地址切割模型CRF算法层对BERT算法层的标注结果根据标注规则进行校验,可以减少在分词或标注过程中出现标注错误的情况使得标注结果更准确。
步骤S104:当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签。
其中,地址要素类型标签用于表征地址要素的类型,地址切割模型可根据地址要素查找对应的地址要素类型标签,在本实施例中,为地址文本预先设计了21个可用的地址要素类型标签,具体包括:省(prov)、市(city)、县(district)、区(devzone)、镇(town)、村(community)、组(village group)、路(road)、路号(roadno)、兴趣点(poi)、子兴趣点(subpoi)、楼栋号(houseno)、单元号(cellno)、楼层号(floorno)、户号(roomno)、层级关系(detail)、辅助定位词(assist,例如附近)、距离定位词(distance,例如米数)、交叉口(intersection)、非地址要素(redundant)以及上述未覆盖区域(others,在地址文本中出现词语错误或无法通过中国地址树查询到的地址要素)。
具体的,所述当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,包括:
根据所述地址文本中添加有地址头部标注的字和添加有地址非头部标注的字,确定出所述地址文本中的地址要素;
其中,所述地址要素为所述地址文本中连续的N个字,且所述地址要素中第一个字添加有地址头部标注以及所述地址要素中除第一个字之外的其他字均添加有地址非头部标注;其中,N为正整数。
在本实施例中,从第一个字开始,逐字判断地址文本中的每个字的标注是否为地址头部标签;在为地址头部标签的情况下,判断在带有地址头部标注的字的后面是否有一个或多个连续带有地址非头部标注的字,若是,则将带有地址头部标签的字和这些连续带有地址非头部标注的字作为一个地址要素。
进一步的,所述分别为每个地址要素添加对应的地址要素类型标签,具体包括:
步骤D1:判断所述地址要素是否存在于预设的中国地址树中;
若是,则从所述中国地址树中获取与所述地址要素对应的地址要素类型标签;
若否,则为所述地址要素添加非地址要素标签。
进一步的,在步骤D1之前,所述方法还包括:
步骤E1:从预设的地图数据库中分别获取每个省份的地址要素数据;
其中,地图数据库通过国家官方地址网站爬取包含中国的地址要素数据,并按照省份为单位存储每个省份的地址要素数据。
步骤E2:将目标省份的地址要素数据按照预设的地址要素类型进行划分,得到所述目标省份在各个地址要素类型下的地址要素数据,并为每个地址要素类型下的地址要素数据添加对应的地址要素类型标签,以构建出所述目标省份的地址树;
步骤E3:根据所有省份的地址树构建出所述中国地址树。
进一步的,步骤S104,还包括:
若所述地址文本中连续的M个字均为非地址标注,则为所述连续的M个字添加非地址要素标签;其中,M为正整数。
其中,在地址要素类型标签中利用非地址要素(redundant)标签对带有非地址要素标注的字添加标签。
进一步的,步骤S104,还包括:
判断所述地址文本的每个字是否添加有地址要素类型标签或非地址要素标签,若否,则添加非地址要素标签。
在本实施例中,从地址文本中根据标注确定地址要素,再利用预设的中国地址树判断地址要素是否在中国地址树中以及地址要素在中国地址树中对应的地址要素类型标签,最后为地址文本中确定存在于中国地址树的地址要素添加对应的地址要素类型标签,为地址文本中出地址要素之外的字添加非地址要素标签。由于通过地址切割模型识别出的地址要素可能存在误差,所以在本实施例中通过增设中国地址树以对通过地址切割模型识别出的地址要素进行校验,从而保证识别出的地址要素的准确性。
更进一步的,所述方法还包括:
若所述标注准确率小于预设阈值,则将所述地址文本返回所述BERT算法层并重新标注所述地址文本中的每个字;再将重新标注后的地址文本输入所述CRF算法层,以重新计算标注准确率,直至计算出的标注准确率大于预设阈值。
步骤S105:将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。
在本实施例中,对地址切割模型输入一段“广西壮族自治区柳州市鱼峰区荣军街道永意山语城1栋2单元6楼注_快递哥不用打电话直接放物业办公室谢谢哈不用电话了_本人电话太多请理解”的地址文本,则经过地址切割模型输出得到的目标地址文本表示为“prov=广西壮族自治区city=柳州市district=鱼峰区town=荣军街道poi=永意山语城houseno=1栋cellno=2单元floorno=6楼O=注_快递哥不用打电话直接放物业办公室谢谢哈不用电话了_本人电话太多请理解”。
在本实施例中,通过将地址文本输入至地址切割模型中BERT算法层以识别出地址文本中的地址要素并对识别出的地址要素进行标注,从而实现了按照地址要素对地址文本进行切割的效果;再将BERT算法层输出的标注结果输入CRF算法层中并根据标注规则对标注结果进行校准,从而减少在分词或标注过程中出现标注错误的情况,使得地址切割的效果更准确;最后对地址文本中的地址要素进行展示,达到了更自动、准确、高效的地址切割效果。
实施例二
本发明实施例提供了一种切割地址的装置,如图2所示,该装置具体包括以下组成部分:
获取模块201,用于获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;
标注模块202,用于利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;
校准模块203,用于利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;
确定模块204,用于当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;
展示模块205,用于将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。
具体的,所述标注模块202,用于:
利用所述BERT算法层计算出所述地址文本中每个字在各种预设的标注下的概率值;其中,所述预设的标注包括:地址头部标注、地址非头部标注和非地址标注;
根据所述地址文本中目标字在各种预设的标注下的概率值,将最大概率值所对应的标注添加给所述目标字。
此外,所述标注模块202,还用于:
利用所述BERT算法层对所述地址文本进行分词处理得到各个分词;
依次判断所述各个分词是否存在于预设的中国地址树中;
若是,则为所述分词中第一个字添加地址头部标注,并为所述分词中除第一个字之外的其他字添加地址非头部标注;若否,则为所述分词中的每个字均添加非地址标注。
具体的,所述校准模块203,包括:
统计单元,用于从所述地址文本的第一个字开始,依次判断所述地址文本中每个字的标注是否满足预设的标注规则,并统计出满足所述标注规则的字数;
计算单元,用于将统计出的满足所述标注规则的字数与所述地址文本的总字数的比值作为所述标注准确率。
进一步的,所述统计单元,具体用于:
若在所述地址文本中出现不满足所述标注规则的字,则对不满足所述标注规则的字的标注按照所述标注规则进行修正。
具体的,所述确定模块204,用于:
根据所述地址文本中添加有地址头部标注的字和添加有地址非头部标注的字,确定出所述地址文本中的地址要素;
其中,所述地址要素为所述地址文本中连续的N个字,且所述地址要素中第一个字添加有地址头部标注以及所述地址要素中除第一个字之外的其他字均添加有地址非头部标注;其中,N为正整数。
进一步的,所述确定模块204,还用于:
判断所述地址要素是否存在于预设的中国地址树中;
若是,则从所述中国地址树中获取与所述地址要素对应的地址要素类型标签;
若否,则为所述地址要素添加非地址要素标签。
进一步的,所述装置还包括:
构件模块,用于从预设的地图数据库中分别获取每个省份的地址要素数据;将目标省份的地址要素数据按照预设的地址要素类型进行划分,得到所述目标省份在各个地址要素类型下的地址要素数据,并为每个地址要素类型下的地址要素数据添加对应的地址要素类型标签,以构建出所述目标省份的地址树;根据所有省份的地址树构建出所述中国地址树。
进一步的,所述确定模块204,还用于:
判断所述地址文本的每个字是否添加有地址要素类型标签或非地址要素标签,若否,则添加非地址要素标签;
若所述地址文本中连续的M个字均为非地址标注,则为所述连续的M个字添加非地址要素标签。
更进一步的,所述装置还包括:
返回模块,用于若所述标注准确率小于预设阈值,则将所述地址文本返回所述BERT算法层并重新标注所述地址文本中的每个字;再将重新标注后的地址文本输入所述CRF算法层,以重新计算标注准确率,直至计算出的标注准确率大于预设阈值。
在本实施例中,通过将地址文本输入至地址切割模型中BERT算法层以识别出地址文本中的地址要素并对识别出的地址要素进行标注,从而实现了按照地址要素对地址文本进行切割的效果;再将BERT算法层输出的标注结果输入CRF算法层中并根据标注规则对标注结果进行校准,从而减少在分词或标注过程中出现标注错误的情况,使得地址切割的效果更准确;最后对地址文本中的地址要素进行展示,达到了更自动、准确、高效的地址切割效果。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,本实施例的计算机设备30至少包括但不限于:可通过***总线相互通信连接的存储器301、处理器302。需要指出的是,图3仅示出了具有组件301-302的计算机设备30,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器301(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器301可以是计算机设备30的内部存储单元,例如该计算机设备30的硬盘或内存。在另一些实施例中,存储器301也可以是计算机设备30的外部存储设备,例如该计算机设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器301还可以既包括计算机设备30的内部存储单元也包括其外部存储设备。在本实施例中,存储器301通常用于存储安装于计算机设备30的操作***和各类应用软件。此外,存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器302在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器302通常用于控制计算机设备30的总体操作。
具体的,在本实施例中,处理器302用于执行存储器301中存储的切割地址的方法的程序,所述切割地址的方法的程序被执行时实现如下步骤:
获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;
利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;
利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;
当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;
将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。
上述方法步骤的具体实施例过程可参见第一实施例,本实施例在此不再重复赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;
利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;
利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;
当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;
将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。
上述方法步骤的具体实施例过程可参见第一实施例,本实施例在此不再重复赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种切割地址的方法,其特征在于,所述方法包括:
获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;
利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;
利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;
当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;
将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。
2.根据权利要求1所述的切割地址的方法,其特征在于,所述BERT算法层为所述地址文本中的每个字添加对应的标注,具体包括:
利用所述BERT算法层计算出所述地址文本中每个字在各种预设的标注下的概率值;其中,所述预设的标注包括:地址头部标注、地址非头部标注和非地址标注;
根据所述地址文本中目标字在各种预设的标注下的概率值,将最大概率值所对应的标注添加给所述目标字。
3.根据权利要求1或2所述的切割地址的方法,其特征在于,所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率,具体包括:
从所述地址文本的第一个字开始,依次判断所述地址文本中每个字的标注是否满足预设的标注规则,并统计出满足所述标注规则的字数;
将统计出的满足所述标注规则的字数与所述地址文本的总字数的比值作为所述标注准确率。
4.根据权利要求2所述的切割地址的方法,其特征在于,所述当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,具体包括:
根据所述地址文本中添加有地址头部标注的字和添加有地址非头部标注的字,确定出所述地址文本中的地址要素;
其中,所述地址要素为所述地址文本中连续的N个字,且所述地址要素中第一个字添加有地址头部标注以及所述地址要素中除第一个字之外的其他字均添加有地址非头部标注。
5.根据权利要求1或4所述的切割地址的方法,其特征在于,所述分别为每个地址要素添加对应的地址要素类型标签,具体包括:
判断所述地址要素是否存在于预设的中国地址树中;
若是,则从所述中国地址树中获取与所述地址要素对应的地址要素类型标签;
若否,则为所述地址要素添加非地址要素标签。
6.根据权利要求5所述的切割地址的方法,其特征在于,所述方法还包括:
从预设的地图数据库中分别获取每个省份的地址要素数据;
将目标省份的地址要素数据按照预设的地址要素类型进行划分,得到所述目标省份在各个地址要素类型下的地址要素数据,并为每个地址要素类型下的地址要素数据添加对应的地址要素类型标签,以构建出所述目标省份的地址树;
根据所有省份的地址树构建出所述中国地址树。
7.根据权利要求2所述的切割地址的方法,其特征在于,所述方法还包括:
若所述地址文本中连续的M个字均为非地址标注,则为所述连续的M个字添加非地址要素标签。
8.一种切割地址的装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;
标注模块,用于利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;
校准模块,用于利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;
确定模块,用于当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;
展示模块,用于将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。
9.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202111263277.XA 2021-10-28 2021-10-28 一种切割地址的方法、装置、设备及可读存储介质 Pending CN114004232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111263277.XA CN114004232A (zh) 2021-10-28 2021-10-28 一种切割地址的方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111263277.XA CN114004232A (zh) 2021-10-28 2021-10-28 一种切割地址的方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114004232A true CN114004232A (zh) 2022-02-01

Family

ID=79924595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111263277.XA Pending CN114004232A (zh) 2021-10-28 2021-10-28 一种切割地址的方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114004232A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及***
CN111104802A (zh) * 2019-12-11 2020-05-05 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111209362A (zh) * 2020-01-07 2020-05-29 苏州城方信息技术有限公司 基于深度学习的地址数据解析方法
CN111985240A (zh) * 2020-08-19 2020-11-24 腾讯云计算(长沙)有限责任公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN112633002A (zh) * 2020-12-29 2021-04-09 上海明略人工智能(集团)有限公司 样本标注、模型训练、命名实体识别方法和装置
US20210224651A1 (en) * 2020-01-21 2021-07-22 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及***
CN111104802A (zh) * 2019-12-11 2020-05-05 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111209362A (zh) * 2020-01-07 2020-05-29 苏州城方信息技术有限公司 基于深度学习的地址数据解析方法
US20210224651A1 (en) * 2020-01-21 2021-07-22 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models
CN111985240A (zh) * 2020-08-19 2020-11-24 腾讯云计算(长沙)有限责任公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN112633002A (zh) * 2020-12-29 2021-04-09 上海明略人工智能(集团)有限公司 样本标注、模型训练、命名实体识别方法和装置

Similar Documents

Publication Publication Date Title
CN112016273B (zh) 文档目录生成方法、装置、电子设备及可读存储介质
CN110765770A (zh) 一种合同自动生成方法及装置
CN109255564B (zh) 一种取件点地址推荐方法及装置
CN106462565A (zh) 在文档内更新文本
CN110334162B (zh) 地址识别方法及装置
CN112069276A (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN111159982B (zh) 文档编辑方法、装置、电子设备及计算机可读存储介质
Li et al. A hybrid method for Chinese address segmentation
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN111625748A (zh) 网站的导航栏信息提取方法、装置、电子设备及存储介质
CN116796726A (zh) 简历解析方法、装置、终端设备及介质
CN114461761A (zh) 基于标签匹配的搜索方法、***、计算机设备及存储介质
CN111369294A (zh) 软件造价估算方法及装置
CN112069824B (zh) 基于上下文概率和引证的地域识别方法、装置及介质
CN113886512A (zh) 地址要素解析方法、装置和电子设备
WO2022134577A1 (zh) 翻译错误识别方法、装置、计算机设备及可读存储介质
CN111444368B (zh) 构建用户画像的方法、装置、计算机设备及存储介质
CN114004232A (zh) 一种切割地址的方法、装置、设备及可读存储介质
CN115481599A (zh) 文档的处理方法、装置、电子设备和存储介质
CN114169306A (zh) 一种生成电子回执单的方法、装置、设备及可读存储介质
CN113255369A (zh) 文本相似度分析的方法、装置及存储介质
CN112819622A (zh) 一种信息的实体关系联合抽取方法、装置及终端设备
CN112836498A (zh) 数据处理方法、识别方法、装置及计算设备
CN116227479B (zh) 一种实体识别方法、装置、计算机设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination