CN116992880A - 建筑物名称的识别方法、装置、电子设备和存储介质 - Google Patents
建筑物名称的识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116992880A CN116992880A CN202310838486.5A CN202310838486A CN116992880A CN 116992880 A CN116992880 A CN 116992880A CN 202310838486 A CN202310838486 A CN 202310838486A CN 116992880 A CN116992880 A CN 116992880A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- building
- name
- identifying
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 239000013598 vector Substances 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提供一种建筑物名称的识别方法、装置、电子设备和存储介质,涉及人工智能技术领域。其中方法包括:获取待查询企业的企业数据;基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;其中,所述多层级算法至少包括BERT‑CRF算法与电子围栏算法。本发明利用包括BERT‑CRF算法与电子围栏算法的多层级算法识别建筑物名称,以避免不能精准识别带有方位词的名称,还弥补了利用注册地址无法识别的缺口,使可识别的数据的覆盖范围更加全面,匹配更加精准,进而提高了识别建筑物名称的准确率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种建筑物名称的识别方法、装置、电子设备和存储介质。
背景技术
随着在营企业的不断增多,且这些在营企业大多在数字化转型的过程中,为了拓展这些在营企业的市场,通过识别政企客户聚集的建筑物名称来辅助客户经理进行精准营销已然成为新模式。
目前政企市场通常是采用基于正则匹配的方法进行建筑物名称的识别,但是,正则匹配的方法无法精准识别一词多义的词语,且针对注册地址没有名称且地址无法匹配的数据无法进行建筑物名称识别,最终导致建筑物名称的识别准确率低下。
发明内容
本发明提供一种建筑物名称的识别方法、装置、电子设备和存储介质,用以解决现有技术中无法识别一词多义的词语,且针对注册地址无法匹配的数据无法进行建筑物名称识别,导致建筑物名称的识别准确率下降的缺陷。
本发明提供一种建筑物名称的识别方法,包括:
获取待查询企业的企业数据;
基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;
其中,所述多层级算法至少包括BERT-CRF算法与电子围栏算法。
根据本发明提供的一种建筑物名称的识别方法,所述基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称,包括:
基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量;
基于所述BERT-CRF算法中的CRF模型,对所述句向量进行解码,确定所述句向量的标注序列;
从所述标注序列中识别出表征实体名称的目标序列;
识别与所述目标序列对应的目标句向量,并基于所述目标句向量,确定所述待查询企业所属的建筑物的目标名称。
根据本发明提供的一种建筑物名称的识别方法,所述识别与所述目标序列对应的目标句向量,并基于所述目标句向量,确定所述待查询企业所属的建筑物的目标名称,包括:
识别与所述目标序列对应的目标句向量;
若所述目标句向量中不包括所述待查询企业所属的建筑物的目标名称,则基于预设的语料库,对所述目标句向量进行词典匹配,确定所述待查询企业所属的建筑物的目标名称。
根据本发明提供的一种建筑物名称的识别方法,所述基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称,还包括:
若不能基于所述BERT-CRF算法与所述企业数据中的注册地址,识别出所述待查询企业所属的建筑物的目标名称,则从所述企业数据中筛选出所述待查询企业的经纬度信息;
基于所述电子围栏算法与所述经纬度信息,识别出所述待查询企业所属的建筑物的目标名称。
根据本发明提供的一种建筑物名称的识别方法,所述基于所述电子围栏算法与所述经纬度信息,识别出所述待查询企业所属的建筑物的目标名称,包括:
基于所述经纬度信息与预设的查询范围,从预设的电子围栏表库中确定待测围栏;
基于所述经纬度信息,确定所述待查询企业的经纬点;
将所述经纬点作为端点,向两个相反的方向各引出一条虚拟射线,判断每条所述虚拟射线与每个所述待测围栏的相交点数;
基于所述相交点数,确定所述待查询企业所对应的目标围栏,并确定所述目标围栏对应的建筑物名称。
根据本发明提供的一种建筑物名称的识别方法,所述基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量,之前还包括:
获取标记有完整的实体名称的样本数据;
基于所述样本数据,训练预设的待训练模型,得到BERT-CRF初代模型,并基于所述BERT模型预识别,得到训练名称;
若所述训练名称与标记的所述实体名称之间存在差异,则基于所述差异调整样本数据的标签,再训练所述BERT-CRF初代模型,直至所述训练名称与所述实体名称之间无差异,则确定BERT-CRF算法;
其中,待训练模型是基于BERT模型框架与CRF模型框架叠加后的得到的。
根据本发明提供的一种建筑物名称的识别方法,所述基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量,之前还包括:
若从所述企业数据的注册地址中筛选出实体名称,则基于所述实体名称,从预设的语料库中识别出所述待查询企业所属的建筑物的目标名称;
若从所述注册地址中筛选不出所述实体名称,或基于所述实体名称,不能识别出所述待查询企业所属的建筑物的目标名称,则再利用所述BERT-CRF算法识别所述待查询企业所属的建筑物的目标名称。
本发明还提供一种建筑物名称的识别装置,包括:
获取模块,用于获取待查询企业的企业数据;
第一识别模块,用于基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;
其中,所述多层级算法至少包括BERT-CRF算法与电子围栏算法。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述建筑物名称的识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述建筑物名称的识别方法。
本发明提供的建筑物名称的识别方法、装置、电子设备和存储介质,与现有技术中无法识别一词多义的词语,且针对注册地址无法匹配的数据无法进行建筑物名称识别,导致建筑物名称的识别准确率下降,在本申请中,获取待查询企业的企业数据;基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;其中,多层级算法至少包括BERT-CRF算法与电子围栏算法。在本申请中,获取待查询企业的数据后,依次利用BERT-CRF算法与电子围栏算法,从企业数据中识别待查询企业的建筑物名称,其中,BERT-CRF(Bidirectional Encoder Representation from Transformers-ConditionalRandom Field,双向变换的编码器-无向图模型条件随机场)算法可以解析词与词之间的语义关系,并对企业数据进行序列标注,且利用电子围栏法可以弥补BERT-CRF算法的解析问题、数据覆盖更全、匹配更准确,即在本申请中,利用包括BERT-CRF算法与电子围栏算法的多层级算法识别建筑物名称,以避免不能精准识别带有方位词的名称,还弥补了利用注册地址无法识别的问题,使可识别的数据的覆盖范围更加全面,匹配更加精准,进而提高了识别建筑物名称的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的建筑物名称的识别方法的流程示意图之一;
图2为本发明提供的建筑物名称的识别方法的流程示意图之二;
图3为本发明提供的建筑物名称的识别方法的工作流程示意图;
图4为本发明提供的建筑物名称的识别方法中BERT-CRF算法识别过程示意图;
图5为本发明提供的建筑物名称的识别方法中电子围栏表库搭建过程示意图;
图6为本发明提供的建筑物名称的识别方法中BERT-CRF算法训练流程示意图;
图7为本发明提供的建筑物名称的识别方法中射线法判断说明示意图;
图8为本发明提供的建筑物名称的识别装置的结构示意图;
图9为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种建筑物名称的识别方法,在本申请建筑物名称的识别方法的第一实施例中,参照图1,建筑物名称的识别方法包括:
步骤S10,获取待查询企业的企业数据;
步骤S20,基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;
其中,多层级算法至少包括BERT-CRF算法与电子围栏算法。
本实施例旨在:精准识别企业数据中歧义词的具体含义,并在基于注册地址识别不出待查询企业所属的建筑物的目标名称时,可以扩大识别数据的范围,以提高识别建筑物名称的准确率。
在本实施例中,需要说明的是,建筑物名称的识别方法可以应用于建筑物名称的识别装置,该建筑物名称的识别装置从属于建筑物名称的识别设备,该建筑物名称的识别设备属于建筑物名称的识别***。
其中,建筑物名称识别主要是指实体名称的识别,也即,识别文本中具有特定意义的实体,其中,实体可以是人名、地名、机构名、专有名词等,具体不做限定。
其中,BERT-CRF算法是由BERT模型与CRF模型共同叠加组成的。
其中,BERT模型能够同时考虑词的前后文信息,以更准确地识别注册地址中方位词或歧义词所表达的意思。
其中,CRF模型可以根据语义信息,准确地从企业数据中标注出状态序列的关系。
在本实施例中,参考图3,多层级算法还包括词典匹配法,在接收到企业数据(工商企业数据信息)后先利用词典匹配法识别待查询企业所属的建筑物的目标名称,若利用词典匹配法无法识别待查询企业所属的建筑物的目标名称,则再利用BERT-CRF算法识别待查询企业所属的建筑物的目标名称,若利用BERT-CRF算法也无法准确识别出待查询企业所属的建筑物的目标名称,则再利用电子围栏法识别BERT-CRF算法得到的结果,最终得到待查询企业所属的建筑物的目标名称。也即,利用多层级算法,逐层级识别企业数据,直至从企业数据中识别出待查询企业所属的建筑物的目标名称,以提高识别的精准度。
需要说明的是,利用词典匹配法可以直接识别企业数据中的注册地址,并从注册地址中直接筛选出实体名称,避免了对注册地址市级地址开始识别,提高识别建筑物名称的效率。
在本实施例中,利用BERT-CRF算法识别待查询企业所属建筑物名称时可以是通过识别注册地址中的实体名称识别的,在注册地址不完整时,通过BERT-CRF算法可以预测出待查询企业大致所在的建筑物名称,在预测后需要再次通过词典匹配法完善或检查,并确定出预测的准确部分,以提高识别的准确性。
需要说明的是,通过BERT-CRF算法预测出更加详细的待查询企业的注册地址,在根据该地址仍不能识别出建筑物名称时,则利用该地址进一步确定待查询企业的经纬度信息,以提高经纬度信息的准确性,提高利用电子围栏算法识别待查询企业所属建筑物名称的可识别率与准确率。
在本实施例中,利用BERT-CRF算法识别注册地址中的实体名称时,可以利用BERT模型识别自然语言中语义,以便准确地判断方位词在注册地址中所代表的具体含义,进而降低识别错误的概率,提高识别建筑物名称的准确率。例如,“A市B区西天寺庙”中的“西”为专有名词中的一部分,并不代表方位,所以在识别“A市B区西天寺庙”时BERT-CRF算法会根据语义将“西”当作专有名词处理,而不会将“西”当作方位词处理。
具体步骤如下:
步骤S10,获取待查询企业的企业数据;
其中,企业数据可以是一个企业的数据,还可以是多个企业的数据集。
其中,企业数据至少包括企业的注册地址、企业名称与企业的经纬度信息等。
步骤S20,基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;
其中,多层级算法至少包括BERT-CRF算法与电子围栏算法。
在本实施例中,多层级算法还包括词典匹配法,在获取到企业数据后,首先利用词典匹配法识别待查询企业所属的建筑物的目标名称,也即,待查询企业所在的建筑物的名称。例如,Q公司的注册地址为A市B区we园区14号楼1234号,经过识别词典匹配法识别后得到的建筑物名称为we园区。
在本实施例中,利用多层级算法识别建筑物名称,是逐层级识别的,也即,首先利用词典匹配法识别,在词典匹配法识别不出后,再用BERT-CRF算法识别,若BERT-CRF算法也识别不出或识别失败,则再用电子围栏算法是识别。
需要说明的是,利用BERT-CRF算法可以预测出完整的注册地址,并从注册地址中精准地识别出每个字词在该注册地址中的含义,也即,精准识别出一词多义的词在该注册地址中所表达意思,以提高识别建筑物名称的准确率。
需要说明的是,利用电子围栏算法识别建筑物名称,可以弥补利用关键字(实体名称)识别不出建筑物名称的缺陷,使可识别的数据的覆盖范围更加全面,匹配更加精准。
具体地,所述基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称的步骤,包括:
步骤S21,基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量;
步骤S22,基于所述BERT-CRF算法中的CRF模型,对所述句向量进行解码,确定所述句向量的标注序列;
步骤S23,从所述标注序列中识别出表征实体名称的目标序列;
步骤S24,识别与所述目标序列对应的目标句向量,并基于所述目标句向量,确定所述待查询企业所属的建筑物的目标名称。
需要说明的是,BERT-CRF算法包括BERT模型与CRF模型,先利用BERT模型,将企业数据中的注册地址转化为句向量,并分析出注册地址中字词之间的语义关系,以准确识别出注册地址中每个字词的意思,再利用CRF模型根据语义关系对句向量进行标序,以识别注册地址中的实体名称,进而提高识别建筑物名称的准确率。
在本实施例中,CRF模型的标注格式可以采用BIO标注法,也即,B(begin)代表实体的开头,I(inside)代表实体的中间和结尾,O(outside)代表非实体的部分。例如,“A市B区we园区14号楼1234号”的标注序列为“OOOOBIIIOOOOOOOOO”,也即,对应关系为“A(O)市(O)B(O)区(O)w(B)e(I)园(I)区(I)1(O)4(O)号(O)楼(O)1(O)2(O)3(O)4(O)”。
在本实施例中,将注册地址转化为句向量后,利用CRF模型与语义关系对注册地址进行标注序列,再根据标注序列识别出注册地址内的实体名称,并输出实体名称,也即,待查询企业所属的建筑物的目标名称。
在本实施例中,利用BERT-CRF算法强大的语言表征能力和特征提取能力,可以实现特征的自动学习,以减少人工参与并解决严重依赖语料库的问题,同时在分词、词性标注和命名实体识别等更加准确,进而提高了识别建筑物名称的准确率。
具体地,所述识别与所述目标序列对应的目标句向量,并基于所述目标句向量,确定所述待查询企业所属的建筑物的目标名称的步骤,包括:
步骤A10,识别与所述目标序列对应的目标句向量;
步骤A20,若所述目标句向量中不包括所述待查询企业所属的建筑物的目标名称,则基于预设的语料库,对所述目标句向量进行词典匹配,确定所述待查询企业所属的建筑物的目标名称。
其中,语料库包括企业名称与该企业对应详细的地址信息;地址信息包括该企业所属的城市、区域与园区或建筑地址等。
在本实施例中,由于获取到的企业数据中注册地址可以会存在不详细的情况,例如“A市B区14号楼”,则需要BERT-CRF算法对该注册地址进行预测,以完善该注册地址,再通过预设的语料库进行词典匹配,以确定预测的准确性。
在本实施例中,参考图4,在注册地址缺少实体名称,或注册地址不详细时,会使语料库无法匹配出待查询企业所属的建筑物的目标名称,且由于BERT-CRF算法是深度学习算法,所以将注册地址输入至BERT-CRF算法中后,BERT-CRF算法先判断将注册地址的详细程度,并根据详细程度,预测出该待查询企业所属的建筑物的目标名称,并通过词典匹配法检测预测结果,以提高识别建筑物名称的准确性。
具体地,所述基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称的步骤,还包括:
步骤B10,若不能基于所述BERT-CRF算法与所述企业数据中的注册地址,识别出所述待查询企业所属的建筑物的目标名称,则从所述企业数据中筛选出所述待查询企业的经纬度信息;
步骤B20,基于所述电子围栏算法与所述经纬度信息,识别出所述待查询企业所属的建筑物的目标名称。
在本实施例中,若经过BERT-CRF算法预测后的注册地址仍不能正确识别出待查询企业所属的建筑物的目标名称,则从企业数据中筛选出待查询企业的经纬度信息,再利用电子围栏算法与经纬度信息,确定待查询企业的建筑物名称。
需要说明的是,在利用电子围栏算法确定待查询企业所属的建筑物的目标名称时,需要初步判断待查询企业所属的范围,以减少计算电子围栏的数量,提高识别效率。
在本实施例中,利用电子围栏算法弥补BERT-CRF算法的不可解释性和数据未识别情况,既解决了包含方向词和数据利用率低的问题,也有效减少了人工标注和人工参与维护的成本,避免造成资源浪费和人工误差的问题,增强了模型的鲁棒性和泛化能力。
在本实施例中,利用电子围栏算法识别待查询企业所属的建筑物的目标名称之前,需要搭建建筑物清单样本库,参考图5,建筑物的清单来源可以是运营商各分公司收集到的清单、通过互联网数据获取的清单,还可以是通过深度学习识别到的清单,在获取到建筑物清单样本库后,再利用互联网爬虫技术采集清单中每个建筑物的经纬度,根据经纬度形成每个建筑物的电子围栏,并将各个电子围栏收集后得到经纬度表库;为了避免建筑物清单样本库中存在重复数据与异常数据,还需要对收集到的建筑物清单与经纬度表库进行清洗,以确保采集结果和输入建筑物名称一致,使电子围栏算法识别出的建筑物名称准确。
具体地,所述基于所述电子围栏算法与所述经纬度信息,识别出所述待查询企业所属的建筑物的目标名称的步骤,包括:
步骤B21,基于所述经纬度信息与预设的查询范围,从预设的电子围栏表库中确定待测围栏;
步骤B22,基于所述经纬度信息,确定所述待查询企业的经纬点;
步骤B23,将所述经纬点作为端点,向两个相反的方向各引出一条虚拟射线,判断每条所述虚拟射线与每个所述待测围栏的相交点数;
步骤B24,基于所述相交点数,确定所述待查询企业所对应的目标围栏,并确定所述目标围栏对应的建筑物名称。
其中,电子围栏表库为建筑物清单样本库与经纬度表库整合后得到的。
在本实施例中,经纬度信息可以是企业数据中的经纬度信息,还可以是经过BERT-CRF算法预测出待查询企业后更新的经纬度信息,具体不做限定。
在本实施例中,先根据经纬度信息与电子围栏表库初步确定出待查询企业可能所在的范围,并将该范围内的电子围栏定义为待测围栏,以减少需要识别的电子围栏的数量,进而减少计算量,并提高识别建筑物名称的效率。
在本实施例中,在利用电子围栏算法识别待查询企业所属的建筑物的目标名称时,利用射线法进行识别,也即,以待查询机企业的经纬度为端点,向某一方向延伸射线,计算该射线与电子围栏相交的点数,并根据点数确定待查询企业具体所属的建筑物的名称。其中,相交点数为奇数时在电子围栏内,相交点数为偶数时在电子围栏外,也即,相交点数为奇数时,待查询企业位于识别出的建筑物内;相交点数为偶数时,待查询企业位于识别出的建筑物外。
具体地,参考图7,(a)中黑点向右发出一条射线,与多边形(电子围栏)相交有1个交点(灰点),为奇数,故判断该点在多边形内,也即,待查询企业位于该建筑物内,识别结果为该建筑物的名称;(b)中黑点发出的射线正好穿过了多边形两条边的交点,若按照右侧射线有1个交点,则会判断黑点在多边形内,会出现误差。因此,针对该特殊情况,向左侧再发出一条射线(也即,右侧射线的延长线),发现与该多边形没有相交点,也即,相交点数为0,为偶数,故判断该点不在多边形内,也即,待查询企业不在该建筑物内;(c)中射线正好与多边形的边重合,则认为重叠边与射线有1个交点,因此判断黑点在多边形内;(d)中黑点位于多边形的边上,右侧有一个交点,左侧延长线射线没有交点,基于这种情况可以判断黑点不在多边形内,也可以判断黑点在多边形内,具体不做限定。
需要说明的是,若待查询企业不在任何建筑物内,则可以以该查询企业附近的建筑物为参考物,标定出具体的建筑物名称,并用该建筑物名称更新语料库。
在本实施例中,通过引入BERT-CRF算法和电子围栏算法的融合方法,相较于传统单一的正则匹配模型,该模型利用多层级算法融合,聚焦企业注册地址和经纬度两个主要特性参数,以在通过注册地址不能识别时,还可以通过经纬度进行识别,以提高识别建筑物名称的灵活性,提高了数据的利用率。
本申请提供一种建筑物名称的识别方法、装置、设备及存储介质,与现有技术中无法识别一词多义的词语,且针对注册地址无法匹配的数据无法进行建筑物名称识别,导致建筑物名称的识别准确率下降,在本申请中,获取待查询企业的企业数据;基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;其中,多层级算法至少包括BERT-CRF算法与电子围栏算法。在本申请中,获取待查询企业的数据后,依次利用BERT-CRF算法与电子围栏算法,从企业数据中识别待查询企业的建筑物名称,其中,BERT-CRF(Bidirectional Encoder Representation from Transformers-ConditionalRandom Field,双向变换的编码器-无向图模型条件随机场)算法可以解析词与词之间的语义关系,并对企业数据进行序列标注,且利用电子围栏法可以弥补BERT-CRF算法的解析问题、数据覆盖更全、匹配更准确,即在本申请中,利用包括BERT-CRF算法与电子围栏算法的多层级算法识别建筑物名称,以避免不能精准识别带有方位词的名称,还弥补了利用注册地址无法识别的问题,使可识别的数据的覆盖范围更加全面,匹配更加精准,进而提高了识别建筑物名称的准确率。
进一步地,基于本申请中上述实施例,提供本申请的另一实施例,在该实施例中,参考图2,所述基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量的步骤之前,还包括:
步骤S01,若从所述企业数据的注册地址中筛选出实体名称,则基于所述实体名称,从预设的语料库中识别出所述待查询企业所属的建筑物的目标名称;
步骤S02,若从所述注册地址中筛选不出所述实体名称,或基于所述实体名称,不能识别出所述待查询企业所属的建筑物的目标名称,则再利用所述BERT-CRF算法识别所述待查询企业所属的建筑物的目标名称。
在本实施例中,在利用BERT-CRF算法识别待查询企业所属的建筑物的目标名称之前,可以先利用词典匹配法,基于预设的语料库,从注册地址中筛选出实体名称。若基于语料库识别不出实体名称,则判定通过词典匹配法识别失败,再利用BERT-CRF算法识别待查询企业所属的建筑物的目标名称。
需要说明的是,在通过词典匹配法识别时,可以直接基于语料库,从注册地址中筛选出实体名称,并将实体名称作为目标名称输出,以保证在提高识别建筑物名称准确率的前提下,提高识别速率。
进一步地,基于本申请中上述实施例,提供本申请的另一实施例,在该实施例中,所述基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量的步骤之前,所述方法还包括:
步骤C10,获取标记有完整的实体名称的样本数据;
步骤C20,基于所述样本数据,训练预设的待训练模型,得到BERT-CRF初代模型,并基于所述BERT模型预识别,得到训练名称;
步骤C30,若所述训练名称与标记的所述实体名称之间存在差异,则基于所述差异调整样本数据的标签,再训练所述BERT-CRF初代模型,直至所述训练名称与所述实体名称之间无差异,则确定BERT-CRF算法;
其中,待训练模型是基于BERT模型框架与CRF模型框架叠加后的得到的。
在本实施例中,获取标记有完整的实体名称的样本数据可以从语料库中获取,还可以基于各聚类市场名称的特征及规则和运营商的分公司提供的建筑物清单,再通过词典匹配的方法输出样本数据。
其中,样本数据至少包括企业注册地址、标注的建筑物名称。
在本实施例中,参考图6,在获取到样本数据后,将样本数据转化为计算机可理解的标注数据,也即标记实体名称;其中,标记实体名称可以利用BIO标注法,B(begin)代表实体的开头,I(inside)代表实体的中间和结尾,O(outside)代表非实体的部分;标记实体名称后,利用标记的样本数据训练待训练模型。
需要说明的是,在训练待训练模型时,将输出的预测结果与标记的实体名称进行对比,并根据两者的差异调整标注数据,以提高BERT-CRF算法预测的精准度。
下面对本发明提供的建筑物名称的识别装置进行描述,下文描述的建筑物名称的识别装置与上文描述的建筑物名称的识别方法可相互对应参照。
图8为本发明提供的建筑物名称的识别装置的结构示意图,如图8所示,该建筑物名称的识别装置,包括:
获取模块810,用于获取待查询企业的企业数据;
第一识别模块820,用于基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;
其中,所述多层级算法至少包括BERT-CRF算法与电子围栏算法。
本发明实施例提供的建筑物名称的识别装置,与现有技术中无法识别一词多义的词语,且针对注册地址无法匹配的数据无法进行建筑物名称识别,导致建筑物名称的识别准确率下降,在本申请中,获取待查询企业的企业数据;基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;其中,多层级算法至少包括BERT-CRF算法与电子围栏算法。在本申请中,获取待查询企业的数据后,依次利用BERT-CRF算法与电子围栏算法,从企业数据中识别待查询企业的建筑物名称,其中,BERT-CRF(Bidirectional Encoder Representation from Transformers-Conditional RandomField,双向变换的编码器-无向图模型条件随机场)算法可以解析词与词之间的语义关系,并对企业数据进行序列标注,且利用电子围栏法可以弥补BERT-CRF算法的解析问题、数据覆盖更全、匹配更准确,即在本申请中,利用包括BERT-CRF算法与电子围栏算法的多层级算法识别建筑物名称,以避免不能精准识别带有方位词的名称,还弥补了利用注册地址无法识别的问题,使可识别的数据的覆盖范围更加全面,匹配更加精准,进而提高了识别建筑物名称的准确率。
可选地,所述第一识别模块820包括:
转化模块,用于基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量;
解码模块,用于基于所述BERT-CRF算法中的CRF模型,对所述句向量进行解码,确定所述句向量的标注序列;
第一识别子模块,用于从所述标注序列中识别出表征实体名称的目标序列;
第二识别子模块,用于识别与所述目标序列对应的目标句向量,并基于所述目标句向量,确定所述待查询企业所属的建筑物的目标名称。
可选地,所述第二识别子模块包括:
第一识别单元,用于识别与所述目标序列对应的目标句向量;
匹配模块,用于若所述目标句向量中不包括所述待查询企业所属的建筑物的目标名称,则基于预设的语料库,对所述目标句向量进行词典匹配,确定所述待查询企业所属的建筑物的目标名称。
可选地,所述匹配模块包括:
筛选模块,用于若不能基于所述BERT-CRF算法与所述企业数据中的注册地址,识别出所述待查询企业所属的建筑物的目标名称,则从所述企业数据中筛选出所述待查询企业的经纬度信息;
第三识别子模块,用于基于所述电子围栏算法与所述经纬度信息,识别出所述待查询企业所属的建筑物的目标名称。
可选地,所述第三识别子模块包括:
第一确定模块,用于基于所述经纬度信息与预设的查询范围,从预设的电子围栏表库中确定待测围栏;
第二确定模块,用于基于所述经纬度信息,确定所述待查询企业的经纬点;
判断模块,用于将所述经纬点作为端点,向两个相反的方向各引出一条虚拟射线,判断每条所述虚拟射线与每个所述待测围栏的相交点数;
第二识别单元,用于基于所述相交点数,确定所述待查询企业所对应的目标围栏,并确定所述目标围栏对应的建筑物名称。
可选地,所述建筑物名称的识别装置还包括:
获取子模块,用于获取标记有完整的实体名称的样本数据;
第一训练模块,用于基于所述样本数据,训练预设的待训练模型,得到BERT-CRF初代模型,并基于所述BERT模型预识别,得到训练名称;
第二训练模块,用于若所述训练名称与标记的所述实体名称之间存在差异,则基于所述差异调整样本数据的标签,再训练所述BERT-CRF初代模型,直至所述训练名称与所述实体名称之间无差异,则确定BERT-CRF算法;
其中,待训练模型是基于BERT模型框架与CRF模型框架叠加后的得到的。
可选地,所述装置还包括:
第二识别模块,用于若从所述企业数据的注册地址中筛选出实体名称,则基于所述实体名称,从预设的语料库中识别出所述待查询企业所属的建筑物的目标名称;
选择模块,用于若从所述注册地址中筛选不出所述实体名称,或基于所述实体名称,不能识别出所述待查询企业所属的建筑物的目标名称,则再利用所述BERT-CRF算法识别所述待查询企业所属的建筑物的目标名称。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行建筑物名称的识别方法,该方法包括:获取待查询企业的企业数据;基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;其中,多层级算法至少包括BERT-CRF算法与电子围栏算法。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的建筑物名称的识别方法,该方法包括:获取待查询企业的企业数据;基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;其中,多层级算法至少包括BERT-CRF算法与电子围栏算法。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的建筑物名称的识别方法,该方法包括:获取待查询企业的企业数据;基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;其中,多层级算法至少包括BERT-CRF算法与电子围栏算法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种建筑物名称的识别方法,其特征在于,包括:
获取待查询企业的企业数据;
基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;
其中,所述多层级算法至少包括BERT-CRF算法与电子围栏算法。
2.根据权利要求1所述的建筑物名称的识别方法,其特征在于,所述基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称,包括:
基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量;
基于所述BERT-CRF算法中的CRF模型,对所述句向量进行解码,确定所述句向量的标注序列;
从所述标注序列中识别出表征实体名称的目标序列;
识别与所述目标序列对应的目标句向量,并基于所述目标句向量,确定所述待查询企业所属的建筑物的目标名称。
3.根据权利要求2所述的建筑物名称的识别方法,其特征在于,所述识别与所述目标序列对应的目标句向量,并基于所述目标句向量,确定所述待查询企业所属的建筑物的目标名称,包括:
识别与所述目标序列对应的目标句向量;
若所述目标句向量中不包括所述待查询企业所属的建筑物的目标名称,则基于预设的语料库,对所述目标句向量进行词典匹配,确定所述待查询企业所属的建筑物的目标名称。
4.根据权利要求1所述的建筑物名称的识别方法,其特征在于,所述基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称,还包括:
若不能基于所述BERT-CRF算法与所述企业数据中的注册地址,识别出所述待查询企业所属的建筑物的目标名称,则从所述企业数据中筛选出所述待查询企业的经纬度信息;
基于所述电子围栏算法与所述经纬度信息,识别出所述待查询企业所属的建筑物的目标名称。
5.根据权利要求4所述的建筑物名称的识别方法,其特征在于,所述基于所述电子围栏算法与所述经纬度信息,识别出所述待查询企业所属的建筑物的目标名称,包括:
基于所述经纬度信息与预设的查询范围,从预设的电子围栏表库中确定待测围栏;
基于所述经纬度信息,确定所述待查询企业的经纬点;
将所述经纬点作为端点,向两个相反的方向各引出一条虚拟射线,判断每条所述虚拟射线与每个所述待测围栏的相交点数;
基于所述相交点数,确定所述待查询企业所对应的目标围栏,并确定所述目标围栏对应的建筑物名称。
6.根据权利要求2所述的建筑物名称的识别方法,其特征在于,所述基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量,之前还包括:
获取标记有完整的实体名称的样本数据;
基于所述样本数据,训练预设的待训练模型,得到BERT-CRF初代模型,并基于所述BERT模型预识别,得到训练名称;
若所述训练名称与标记的所述实体名称之间存在差异,则基于所述差异调整样本数据的标签,再训练所述BERT-CRF初代模型,直至所述训练名称与所述实体名称之间无差异,则确定BERT-CRF算法;
其中,待训练模型是基于BERT模型框架与CRF模型框架叠加后的得到的。
7.根据权利要求2所述的建筑物名称的识别方法,其特征在于,所述基于所述BERT-CRF算法中的BERT模型,将所述企业数据中的注册地址转化为句向量,之前还包括:
若从所述企业数据的注册地址中筛选出实体名称,则基于所述实体名称,从预设的语料库中识别出所述待查询企业所属的建筑物的目标名称;
若从所述注册地址中筛选不出所述实体名称,或基于所述实体名称,不能识别出所述待查询企业所属的建筑物的目标名称,则再利用所述BERT-CRF算法识别所述待查询企业所属的建筑物的目标名称。
8.一种建筑物名称的识别装置,其特征在于,包括:
获取模块,用于获取待查询企业的企业数据;
第一识别模块,用于基于预设的多层级算法,从所述企业数据中识别出所述待查询企业所属的建筑物的目标名称;
其中,所述多层级算法至少包括BERT-CRF算法与电子围栏算法。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述建筑物名称的识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述建筑物名称的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310838486.5A CN116992880A (zh) | 2023-07-10 | 2023-07-10 | 建筑物名称的识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310838486.5A CN116992880A (zh) | 2023-07-10 | 2023-07-10 | 建筑物名称的识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116992880A true CN116992880A (zh) | 2023-11-03 |
Family
ID=88520550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310838486.5A Pending CN116992880A (zh) | 2023-07-10 | 2023-07-10 | 建筑物名称的识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992880A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117472885A (zh) * | 2023-12-27 | 2024-01-30 | 图灵人工智能研究院(南京)有限公司 | 一种用于区域边界内企业信息统计的方法及*** |
-
2023
- 2023-07-10 CN CN202310838486.5A patent/CN116992880A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117472885A (zh) * | 2023-12-27 | 2024-01-30 | 图灵人工智能研究院(南京)有限公司 | 一种用于区域边界内企业信息统计的方法及*** |
CN117472885B (zh) * | 2023-12-27 | 2024-03-19 | 图灵人工智能研究院(南京)有限公司 | 一种用于区域边界内企业信息统计的方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN110837550A (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN116303971A (zh) | 面向桥梁管养领域的少样本表格问答方法 | |
CN116992880A (zh) | 建筑物名称的识别方法、装置、电子设备和存储介质 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
CN117743601B (zh) | 一种自然资源知识图谱补全方法、装置、设备及介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN110866172B (zh) | 一种面向区块链***的数据分析方法 | |
CN113886602B (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN115187839B (zh) | 图文语义对齐模型训练方法及装置 | |
CN116431827A (zh) | 信息处理方法、装置、存储介质及计算机设备 | |
CN116431746A (zh) | 基于编码库的地址映射方法、装置、电子设备及存储介质 | |
CN113886547B (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 | |
CN115658845A (zh) | 一种适用于开源软件供应链的智能问答方法及装置 | |
CN111143691B (zh) | 一种联合信息抽取方法及装置 | |
CN111950875A (zh) | 一种合同智能评审方法 | |
CN112926309B (zh) | 一种安全信息判别方法、装置和电子设备 | |
CN118132738B (zh) | 针对桥梁检评文本的抽取式问答方法 | |
CN113515677B (zh) | 地址匹配方法、装置及计算机可读存储介质 | |
CN112579841B (zh) | 一种多模态数据库建立方法、检索方法及*** | |
CN118332071A (zh) | 文本检索模型的训练方法、文本检索方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |