CN115081449B

CN115081449B - 一种地址识别方法及***

Info

Publication number: CN115081449B
Application number: CN202211010641.6A
Authority: CN
Inventors: 靳雯; 于伟; 赵洲洋; 石江枫; 王全修; 王明超
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-04
Anticipated expiration: 2042-08-23
Also published as: CN115081449A

Abstract

本发明涉及地址识别技术领域，具体涉及一种地址识别方法及***，该方法包括：提取待识别文本信息中的标准地址信息DR，在DR中包括两个相同地址级别的路段地址字段，且路段地址字段{DR_i‑1,DR_i}在DR中相邻时，获取所述待识别文本信息中{DR_i‑1,DR_i}之间的中间文本T的字符长度S，比较S与预设字符长度阈值S₀的大小，若S＜S₀，则提取待识别文本信息中的T，并对待识别文本信息进行分词得到多个词，并提取与DR_i相邻的M个后缀词，当T与连词词表匹配成功，且FL_m与后缀词词表匹配成功时，将地址字段、中间文本和后缀词组合为地址位置，达到识别具体地址位置的目的，解决了现有技术中能够识别相应的地址字段但无法识别具***置的问题。

Description

一种地址识别方法及***

技术领域

本发明涉及地址识别技术领域，具体涉及一种地址识别方法及***。

背景技术

在地址识别的场景中，需要根据地址的文本信息识别具***置。目前地址的识别通常是根据地址的指示词进行识别，例如标准化的一个位置信息：“XX省XX市XX区XX路XX号”，其中“省”“市”“区”“路”和“号”均为指示词，根据这些指示词模型很容易识别相应的地址位置。但是对于非标准化的一个位置信息，例如“北京市朝阳区平安路与幸福街交叉口北侧30米”，根据指示词相应的机器学***安路”和“幸福街”这两个具体的地址，但是无法提取到与这两个地址相关的具***置：平安路与幸福街交叉口北侧30米，这样会造成地址信息的提取的不完整或者提取错误的问题。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种地址识别方法及***，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种地址识别方法，所述识别方法包括：

S100，提取待识别文本信息中的标准地址信息DR，其中，所述标准地址信息DR为按照标准的地址分级体系提取得到的由N个地址字段组成的DR={DR₁,DR₂,…,DR_N},其中，N为正整数；

S200，在DR中包括两个相同地址级别的路段地址字段，且路段地址字段{DR_i-1,DR_i}在DR中相邻时，获取所述待识别文本信息中{DR_i-1,DR_i}之间的中间文本T的字符长度S，其中DR_i-1为第i-1个地址字段，DR_i为第i个地址字段，i的取值范围为1到N，S为正整数；

S300，比较S与预设字符长度阈值S₀的大小，若S＜S₀，则提取待识别文本信息中的T，并对待识别文本信息进行分词得到多个词，并提取与DR_i相邻的M个后缀词{FL₁,FL₂,…,FL_M}，M为正整数；

S400，当T与连词词表匹配成功，且FL_m与后缀词词表匹配成功时，其中m的取值范围为1到M，将地址字段、中间文本和后缀词组合为地址位置。

第二方面，本发明另一个实施例提供了一种地址识别***，其特征在于，所述***包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一项所述的识别方法。

本发明具有如下有益效果：

本发明实施例通过提取待识别文本信息中的地址字段，当提取的字段中包括两个相同级别的路段指示词时，提取路段指示词之间的中间文本，在中间文本的长度小于预设的字符长度阈值时，提取在后的路段指示词的后缀词，并将中间文本与连词词表进行匹配，将后缀词与后缀词词表进行匹配，在两者均匹配成功时，将相应的地址字段、中间文本和后缀词组合为地址位置，达到识别具体地址位置的目的，解决了现有技术中能够识别相应的地址字段但无法识别具***置的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种地址识别方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种地址识别方法及***，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种地址识别方法及***的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种地址识别方法流程图，所述识别方法包括以下步骤：

S100，提取待识别文本信息中的标准地址信息DR，其中，所述标准地址信息DR为按照标准的地址分级体系提取得到的由N个地址字段组成的DR={DR₁,DR₂,…,DR_N},其中，N为正整数。

其中，标准的地址分级体系是指将地址按照地理位置的大小划分为X个等级，X大于N。一般情况下划分为六个等级，则六个等级的标准地址分级体系为：“省”为一级地址，“市”为二级地址，“区”和“县”为三级地址，“乡”、“镇”和“街道”为四级地址，“村”、“庄”和“社区”为五级地址，“路”、“街”、“大道”、“巷”、“弄”、“胡同”为六级地址。其中省、市、区/县、乡/镇/街道、村/社区为相应等级地址的指示词。

其中，提取待识别文本信息中的标准地址信息DR的方法为利用机器学习模型进行提取。可选的，机器学习模型为BERT模型。其中机器学习模型的训练过程包括以下步骤：

S110，获取包括Q个样本的训练集R={r₁,r₂,…,r_Q}，其中Q为正整数，第q个样本r_q为包括地址字段的文本信息，q的取值范围为1到Q；

S120，按照标准地址分级体系为r_q中所包含的地址字段进行标注得到E个标签{eq1,eq 2,…,eq E}，其中E为正整数；

作为一个示例，对“北京市朝阳区平安路与幸福街交叉口北侧30米”进行标注，“北京市”中的“北”标注为“B-省”、“京”标注为“I-省”、“市”标注为“I-省”；“朝阳区”中的“朝”标注为“B-区”、“阳”标注为“I-区”、“区”标注为“I-区”；“平安路”中的“平”标注为“B-路”、“安”标注为“I-路”、“路”标注为“I-路”；“与”标注为“o”；“幸福街”中的“幸”标注为“B-路”、“福”标注为“I-路”、“街”标注为“I-路”；“交叉口北侧30米”标注为“oooooooo”。

S130，将{eq 1,eq 2,…,eq E}和r_q输入机器学习模型中进行训练得到预测结果。模型的损失函数采用交叉熵损失函数，损失函数收敛时，模型训练完成。其中，在预测结果与标注结果完全相同时，预测正确。

在提取DR时，通过机器学***安路与幸福街交叉口北侧30米，则能够提取得到的由四个地址字段组成的标准地址信息DR={北京市,朝阳区,平安路,幸福街}。

S200，在DR中包括两个相同地址级别的路段指示词，且路段指示词对应的地址字段{DR_i-1,DR_i}在DR中相邻时，提取所述待识别文本信息中{DR_i-1,DR_i}之间的中间文本T，其中T为非地址字段，DR_i-1为第i-1个地址字段，DR_i为第i个地址字段，i的取值范围为1到N；计算所述T的字符长度S，S为正整数。

其中，路段指示词为六级地址指示词，也即：“路”、“街”、“大道”、“巷”、“弄”、“胡同”。例如平安路和幸福街中的“路”和“街”即为同一地址级别的路段指示词。

其中，地址字段相邻是指在DR中相邻，例如对于：北京市朝阳区平安路与幸福街交叉口北侧30米，其中平安路和幸福街为相同级别的地址字段且在DR={北京市,朝阳区,平安路,幸福街}中相邻。再如：北京市朝阳区平安路以及北京市海淀区复兴路，在这段文本中有三个相同级别的地址字段，但相同级别的地址字段不相邻。

其中，中间文本是指待识别文本信息中相同级别的路段地址之间的中间文本，例如对于：北京市朝阳区平安路与幸福街交叉口北侧30米，相同级别的路段地址为：平安路、幸福街，在平安路、幸福街中间的文本“与”即为中间文本。识别中间文本的目的在于判断两个相同级别的路段地址之间是否存在相互关系。

S300，比较S与预设字符长度阈值S₀的大小，若S＜S₀，则提取待识别文本信息中的T；并对待识别文本信息进行分词得到多个词，并提取与DR_i相邻的M个后缀词{FL₁,FL₂,…,FL_M}，M为正整数。

其中，提取T的步骤为：以地址字段{DR_i-1,DR_i}作为约束条件，提取待识别文本信息中地址字段{DR_i-1,DR_i}之间的文本T。

其中，后缀词是指待识别文本信息中位于DR_i后面的词语，例如：平安路与幸福街交叉口北侧30米，其中DR_i为幸福街，在幸福街后面的词语分别为：交叉口、北侧和30米。后缀词包括方位词、数量词和名词，其中名词包括小区的名称、建筑物的名称、店铺的名称、交叉口等与地里位置相关的名词。

可选的，分词采用概率语言模型。进一步，概率语言模型为jieba。

可选的，预设字符长度阈值S₀为3。

可选的，M的取值为3。

其中，将T与连词词表进行匹配的步骤包括：

步骤S401，在连词词表中对T进行查找匹配，若直接命中，则匹配成功。

步骤S402，若未直接命中，则采用相似度匹配，计算T与连词词表中每个连词之间的相似度，获取最大相似度，若最大相似度大于预设的第一相似度阈值，则匹配成功。先利用查找匹配再相似度匹配的方式，由于查找匹配的速度远远大于相似度匹配的速度，查找匹配的方式不但准确而且匹配速度快，在查找匹配失败之后再采用相似度匹配，能够在一定程度上缩短匹配的时间，而且相似度匹配能够进一步保证识别连词的准确性，防止遗漏。

同理，将FL_m与后缀词词表进行匹配的步骤与将T与连词词表进行匹配的步骤相同：

步骤S410，在后缀词词表中对FL_m进行查找匹配，若直接命中，则匹配成功。

步骤S420，若未直接命中，则采用相似度匹配，计算FL_m与后缀词词表中每个连词之间的相似度获取最大相似度，若最大相似度大于预设的第二相似度阈值，则匹配成功。

需要说明的是，在M个后缀词{FL₁,FL₂,…,FL_M}中至少一个后缀词匹配成功，即为匹配成功，则利用匹配成功的后缀词执行将地址字段、中间文本和后缀词组合为地址位置的步骤。例如：北京市朝阳区平安路与幸福街交叉口北侧30米，其中“与”作为连词与连词词表匹配成功，“交叉口”、“北侧”和“30米”作为后缀词分别与后缀词词表进行匹配都匹配成功，则根据分级地址组合得到的具***置为：北京市朝阳区平安路与幸福街交叉口北侧30米。

可选的，第一相似度阈值和第二相似度阈值均为0.9。

其中，相似度的计算步骤包括：将T转为词向量，将连词词表中的连词转为词向量，计算T的词向量和连词的词向量之间的相似度。

可选的，相似度算法为欧氏距离、余弦距离或者海明距离。

优选的，连词词表的获取步骤包括：在利用机器学习模型识别样本r_q中的地址字段之后，对于存在相同级别路段地址的样本，再次判断在样本中在两个相同级别的路段地址之间中间文本的长度是否小于S₀，若小于S₀，则将中间文本取出，并对该中间文本进行人工标注，标注为连词，将连词放入连词词表。其中人工标注的过程能够进一步确认相应的中间文本是否为连词，达到在自动筛选的基础上再进行人工筛选的目的，能够使得到的连词词表中的数据更加准确。

优选的，后缀词词表的获取步骤包括：在利用机器学习模型识别样本r_q中的地址字段之后，对于存在相同级别路段地址的样本，通过jieba分词对样本进行分词，提取样本中与在后的路段地址相邻的多个后缀词，将所有样本的后缀词转为词向量，对词向量进行聚类得到多个类别，人工删除与地址无关的类别，并将每个类别中词向量标注为后缀词，并将后缀词放入后缀词词表。人工删除能够保证得到的类别中，每类均为与地址相关的类别，且在人工标注的过程中，能够对每个类别中的词做再次筛选，因为在聚类的过程中可能会存在聚类误差，在相应的类别中可能会混入不属于该类的后缀词，因此人工标注的过程中能够达到二次筛选的目的，使得到的后缀词词表中的数据更加准确。

可选的，聚类算法为K-means算法。

优选的，机器学习模型的训练步骤S120进一步包括：

S121，对于训练集R，统计已标注的样本数据中包含地址指示词的地址字段数量n_pos以及不包含地址指示词的地址字段数量n_neg；

S122，将不包含地址指示词的地址字段与未标注的真实地址数据集进行字符串匹配，统计出不包含提示词的地址数量N_pos以及包含提示词的地址数量N_neg；

需要说明的是，不包含地址指示词的地址字段可以是一个地址词库，该地址词库包括按照标准地址分级体系命名的所有真实的地址字段信息，既有包含指示词的地址字段，也有不包含指示词的地址字段。例如包括湖北省武汉市青山区武东街道向阳村红卫路等多个级别的地址字段，以及湖北省和湖北等。

需要说明的是，真实地址数据集是由大量真实的地址构成的数据集。

其中，不包含提示词的标注地址字段的占比p=n_pos/(n_pos+n_neg)，不包含提示词的真实地址字段的占比P=N_pos/(N_pos+N_neg)；则去除训练集R中提示词的地址数量满足：

result=(n_pos+n_neg)×(p+1/2×(P-p))-n_pos

通过去除部分数据的提示词，能够使模型对没有指示词的地址字段进行识别，提高模型的识别能力。例如，将北京市中的地址指示词“市”字去除之后对模型进行训练，模型后续则能够识别出北京为一个地址信息。

综上所述，本发明实施例提供了一种地址识别方法，通过提取待识别文本信息中的地址字段，当提取的字段中包括两个相同级别的路段指示词时，提取路段指示词之间的中间文本，在中间文本的长度小于预设的字符长度阈值时，提取在后的路段指示词的后缀词，并将中间文本与连词词表进行匹配，将后缀词与后缀词词表进行匹配，在两者均匹配成功时，将相应的地址字段、中间文本和后缀词组合为地址位置，达到识别具体地址位置的目的，解决了现有技术中能够识别相应的地址字段但无法识别具***置的问题。

基于与上述方法实施例相同的发明构思，本发明实施例还提供了一种地址识别***，所述***包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所述地址的识别方法。其中，一种地址识别方法在上述实施例中已经详细说明，不再赘述。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种地址识别方法，其特征在于，所述识别方法包括：

2.根据权利要求1所述的识别方法，其特征在于，所述连词词表的获取步骤包括：

对于存在相同级别的路段地址字段的样本，判断在样本中在两个相同级别的路段地址字段之间中间文本的长度是否小于S₀，若小于S₀，则将中间文本取出，并对该中间文本进行人工标注，标注为连词，将连词放入连词词表。

3.根据权利要求1所述的识别方法，其特征在于，所述后缀词词表的获取步骤包括：

对于存在相同级别的路段地址字段的样本，对样本进行分词，提取样本中与在后的路段地址字段相邻的多个后缀词，将所有样本的后缀词转为词向量，对词向量进行聚类得到多个类别，人工删除与地址无关的类别，并将每个类别中词向量标注为后缀词，将后缀词放入后缀词词表。

4.根据权利要求1所述的识别方法，其特征在于，所述S400包括：

S401，在连词词表中对T进行查找匹配，若直接命中，则匹配成功；

S402，若未直接命中，计算T与连词词表中每个连词之间的相似度获取最大相似度，若最大相似度大于预设的第一相似度阈值，则匹配成功。

5.根据权利要求4所述的识别方法，其特征在于，S402进一步包括：

将T转为词向量，将连词词表中的连词转为词向量，计算T的词向量和连词的词向量之间的相似度。

6.根据权利要求1所述的识别方法，其特征在于，所述S400包括：

S410，在后缀词词表中对FL_m进行查找匹配，若直接命中，则匹配成功；

S420，若未直接命中，计算FL_m与后缀词词表中每个后缀词之间的相似度获取最大相似度，若最大相似度大于预设的第二相似度阈值，则匹配成功。

7.根据权利要求1所述的识别方法，其特征在于，所述S100中采用机器学习模型提取待识别文本信息中的标准化的地址信息DR。

8.根据权利要求7所述的识别方法，其特征在于，所述机器学习模型的训练步骤包括：

S120，按照标准地址分级体系为r_q中所包含的地址字段进行标注得到E个标签{e^q ₁,e^q ₂,…,e^q _E},其中，其中E为正整数；

S130，将{e^q ₁,e^q ₂,…,e^q _E }和r_q输入机器学习模型中进行训练得到预测结果。

9.根据权利要求8所述的识别方法，其特征在于，所述S120进一步包括：

S122，将不包含地址指示词的地址字段与未标注的真实地址数据集进行字符串匹配，统计出不包含地址指示词的真实地址字段的数量N_pos以及包含地址指示词的真实地址字段的数量N_neg；

其中，不包含地址指示词的标注地址字段的占比p满足：p=n_pos/(n_pos+n_neg)，不包含地址指示词的真实地址字段的占比P满足：P=N_pos/(N_pos+N_neg)；则去除R中地址指示词的地址数量result满足：result=(n_pos+n_neg)×(p+1/2×(P-p))-n_pos。

10.一种地址识别***，其特征在于，所述***包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现权利要求1-9任意一项所述的识别方法。