CN112825112B - 数据处理方法、装置及计算机终端 - Google Patents
数据处理方法、装置及计算机终端 Download PDFInfo
- Publication number
- CN112825112B CN112825112B CN201911143220.9A CN201911143220A CN112825112B CN 112825112 B CN112825112 B CN 112825112B CN 201911143220 A CN201911143220 A CN 201911143220A CN 112825112 B CN112825112 B CN 112825112B
- Authority
- CN
- China
- Prior art keywords
- named entity
- entity
- named
- candidate
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000011156 evaluation Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 6
- 239000000758 substrate Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000013138 pruning Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000004091 panning Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种数据处理方法、装置及计算机终端。其中,该方法包括:获取待检测文本的至少一个命名实体;对于至少一个命名实体中的每个命名实体,从命名实体知识库中确定与每个命名实体对应的候选命名实体,得到至少一个候选命名实体,候选命名实体中至少包括命名实体的描述信息;确定至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;至少基于一致性指标从至少一个候选命名实体中选择与每个命名实体对应的预设数量个目标命名实体;输出预设数量个目标命名实体。本申请解决了通过人工对地名实体进行地名消歧,成本较高,效率较低的技术问题。
Description
技术领域
本申请涉及计算机领域,具体而言,涉及一种数据处理方法、装置及计算机终端。
背景技术
在一些非结构化文本中包含了很多重要地名信息,比如事件发生地址、目标人员所在的地址等,这些地址往往存在歧义,例如“目标人员在印象城用餐之后前往……”,该文本片段中出现了地名实体“印象城”,仅杭州市就有多家“印象城”,为了梳理人物和事件内容之间的逻辑关系,需要对“印象城”进行地名消歧。
地名消歧任务是识别出文本中的地名实体,例如“印象城”、“淘宝城”,并将地名实体链接到地名知识库中的唯一一条实体记录,并返回地名知识库对应的详细地址描述信息和经纬度坐标信息。对文本进行地名消歧,在事件合并处理、事件检索等场景中具有重要意义。
目前,解决文本地名消歧的解决方案较少,主要通过人工方法:依靠工作人员人工对文本进行理解、分析,识别文本中的地名实体,并通过人工的方式在地名知识库检索出与之对应的实体记录;完全依赖专业背景的人员进行地名消歧,成本较高且效率低下,对于海量事件文本的处理,不具备可实施性。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据处理方法、装置及计算机终端,以至少解决通过人工对地名实体进行地名消歧,成本较高,效率较低的技术问题。
根据本申请实施例的一个方面,提供了一种数据处理方法,包括:获取待检测文本的至少一个命名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出所述预设数量个目标命名实体。
根据本申请实施例的一个方面,提供了一种数据处理方法,包括:获取待检测文本的命名实体;确定与所述命名实体对应的至少一个候选命名实体,所述至少一个候选命名实体中至少包括所述命名实体的描述信息;从所述至少一个候选命名实体中选择与所述命名实体匹配度最高的目标命名实体;输出所述目标命名实体。
根据本申请实施例的另一方面,还提供了一种数据处理装置,包括:获取模块,用于获取待检测文本的至少一个命名实体;第一确定模块,用于对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;选择模块,用于至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出模块,用于输出所述预设数量个目标命名实体。
根据本申请实施例的另一方面,还提供了一种计算机设备,包括:处理器;以及存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:获取待检测文本的至少一个命名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出所述预设数量个目标命名实体。
在本申请实施例中,采用获取待检测文本的至少一个命名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出所述预设数量个目标命名实体的方式,达到了自动获取检测文本的命名实体,并输出目标命名实体的目的,从而实现了节省人力消耗,提高目标命名实体的确定效率的技术效果,进而解决了通过人工对地名实体进行地名消歧,成本较高,效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种计算机终端的硬件结构框图;
图2是根据本申请实施例的一种可选的数据处理方法的流程示意图;
图3为根据本申请实施例的一种Mention-Entity图结构的示意图;
图4是根据本申请实施例的一种可选的数据处理方法的流程示意图;
图5是根据本申请实施例的一种可选的数据处理方法的流程示意图;
图6是根据本申请实施例的一种可选的数据处理装置的结构示意图;
图7是根据本申请实施例的一种可选的计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
地名消歧:地名作为一种实体,往往存在歧义,比如“印象城”,在古墩路有一个印象城,在五常大道也有一个,地名消歧就是对地名实体进行歧义消除并返回真实地址坐标的过程。
命名实体识别:Named Entity Recognition,简称NER,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
地名知识库:记录了地名实体的标准地址描述信息、结构化信息、经纬度信息的知识库,结构化信息包括了省、市、区、街道、社区、道路、路号、POI(Point Of Interest,兴趣点)等地址要素。
Mention:实体指称,表示事件文本中识别出来但未经过消歧的实体词,其中,事件文本包括:用于记录事件情况的文本,具体地,用于记录与特定类型事件有关的人、事、物、时间、空间等一切相关情况的文本。
Entity:候选地名实体,能够对应地址知识库中的唯一一条记录。
同义词扩展:将Mention通过地名同义词扩展为更过Mention的过程,例如对“淘宝城”做同义词扩展可以得到“阿里巴巴西溪园区”、“西溪园区”、“淘宝城二期”等。
稠密图:在给定的一个大的无向图中,密度最大的图,其中图密度定义为:图中的边的数量与节点数量的比值。
实施例1
根据本申请实施例,还提供了一种数据处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的数据处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请实施例提供了如图2所示的数据处理方法。图2是根据本申请实施例一的数据处理方法的流程图,该方法至少包括以下步骤S202至步骤S210:
步骤S202,获取待检测文本的至少一个命名实体;
具体地,其中,所述命名实体可以为待检测文本中的地址信息。待检测文本可以为用于描述事件内容的事件文本,每次可仅处理一篇文本,命名实体可以为地名实体;可以使用开源NER工具识别出文本中的地名实体,例如“五常大道”、“印象城”、“淘宝城”,这些地名实体后文称之为Mention,每一个地名实体为一个Mention。
步骤S204,对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息。
可选地,地名实体消歧任务离不开地名实体知识库,而地名实体知识库往往都是预先建立好的,其中包含了很多地名实体的描述信息,每条地名实体的描述信息由三部分组成:实体ID:唯一确定地名实体知识库中的一条实体记录;地名结构信息:省市区街道等行政区划信息和道路、门牌号、POI名称等地址元素信息;经纬度坐标。
步骤S206,确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;
具体地,这里的一致性指标计算的是所属不同Mention的Entity之间的一致性得分,例如Mention“淘宝城”的一个Entity“阿里巴巴西溪园区”与Mention“印象城”的一个Entity“西溪印象城”进行计算一致性得分。该一致性得分又称为Entity-Entity一致性得分。一致性得分通过如下几个方面确定:
Entity地名结构信息相似度:省、市、区、街道、道路等的相似度。
经纬度相似度:经纬度的相似度。
所属Mention在事件文本中的距离:所属的Mention在事件文本中越靠近(同一句话、同一个段落)则一致性得分越高。
在本申请的一些可选的实施例中,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体可包括以下执行步骤:确定所述每个命名实体的同义词;基于所述同义词确定与所述同义词对应的第一类候选命名实体;基于所述每个命名实体确定与所述每个命名实体对应的第二类候选命名实体;基于所述第一类候选命名实体和第二类候选命名实体共同确定与每个命名实体对应的所有候选命名实体。
具体地,地名实体知识库提供API接口可以通过Mention名称查询,检索到与之相关的候选命名实体记录,这个过程称之为候选实体召回,召回的候选命名实体后文称之为Entity。本申请实施例利用同义词扩展、模糊查询等方式,提高了Entity召回率,比如“淘宝城”与“阿里巴巴西溪园区”为同义词POI,则将“淘宝城”这个Mention名称扩展为“阿里巴巴西溪园区”进行知识库查询,可以召回“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”的Entity。同义词扩展、模糊查询扩大了Entity召回范围。
步骤S208,至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;
在本申请的一些可选的实施例中,候选命名实体下文称为Entity,至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体,可以通过执行以下步骤S2082至步骤S2084进行实现:
步骤S2082,确定所述每个命名实体与相应候选命名实体之间的相似度,其中,所述相应候选实体为与所述每个命名实体对应的候选命名实体;
具体地,在当前事件文本中,所有的Mention均召回了一个或多个Entity之后,将通过名称匹配计算Mention名称与其对应的Entity名称之间的文本相似度,方法有编辑距离、Jaccard相似度等,该相似度的值确定为Mention-Entity匹配得分。
步骤S2084,基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述预设数量个目标命名实体。
在本申请的一些可选的实施例中,基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述预设数量个目标命名实体,可以通过以下方式进行实现:以所述命名实体和候选命名实体分别作为节点,以所述相似度作为所述命名实体所对应节点之间的边,以所述一致性指标作为所述候选命名实体所对应节点之间的边,构建稠密图;遍历所述稠密图中的节点,并去除所述稠密图中的目标节点和与所述目标节点对应的边,直至所述每个命名实体所对应的候选命名实体的数量为所述预设数量。可选地,上述预设数量为1。
可选地,去除稠密图中的目标节点和与目标节点对应的边之前,还需执行以下步骤:分别确定去除稠密图中每个节点后的剩余节点;计算稠密图的评价指标,其中,该评价指标为基于剩余节点所对应的相似度的取值,与剩余节点所对应候选命名实体之间的一致性指标共同确定的;确定评价指标中的最小值;将评价指标取最小值时去除的节点作为所述目标节点。例如:选择一个Entity节点从图中去掉,并去掉该节点相连接Mention-Entity边和Entity-Entity边,保证全图得分降低的最少。如果该Entity节点为所对应的Mention唯一的一个Entity,则不选取该节点,从其他Entity节点进行选择。
可选地,在得到Mention-Entity匹配得分(即Mention和相应的Entity的相似度)、Entity-Entity一致性得分(即)后,可以构建Mention-Entity图结构,以每一个Mention和Entity为节点,Mention-Entity匹配得分构成了Mention到Entity的边,Entity-Entity一致性得分构成了Entity到Entity的边。如图3所示,图3为根据本申请实施例提供的一种Mention-Entity图结构的示意图。
图3中“M”指代Mention,“M-E”指代Mention-Entity,“E”指代Entity,“E-E”指代Entity-Entity。
对上述Mention-Entity图结构进行剪枝则可得到Mention-Entity的稠密图。剪枝步骤包括以下步骤S2086至步骤S20812:
步骤S2086,以全图为考察对象,计算全图得分,即所有Mention-Entity匹配得分与所有Entity-Entity一致性得分之和;
步骤S2088,选择一个Entity节点从图中去掉,该Entity节点为目标节点,并去掉该节点相连接的Mention-Entity边和Entity-Entity边,例如,图3中的“古墩路588号印象城”的Entity节点,保证全图得分降低的最少。
步骤S20810,如果该Entity节点为所对应的Mention唯一的一个Entity,例如“浙江省杭州市余杭区五常大道”节点,则不选取该节点,从其他Entity节点进行选择。
步骤S20812,重复以上步骤,直到所有的Mention都只剩下唯一一个Entity,则剪枝完成。
步骤S210,输出所述预设数量个目标命名实体。
当完成剪枝生成稠密图之后,每个Mention都链接到唯一一个Entity,也即完成了地名消歧工作,输出当前事件文本的地名消歧结果。例如图4中虚线框标识的Entity。
在本申请的一些可选的实施例中,确定所述至少一个命名实体对应的候选命名实体之间的一致性指标可以通过以下方式进行实现:确定所述候选命名实体的地名结构信息之间的第一相似度;确定所述候选命名实体之间的经纬度的第二相似度;确定不同的候选命名实体所对应的不同命名实体在所述待检测文本中的距离;基于所述第一相似度、第二相似度和距离中的至少之一确定所述一致性指标。其中,不同命名实体在所述待检测文本中的距离可以根据不同命名实体之间间隔的字数或段落确定。具体地,确定所述第一相似度、第二相似度和距离各自的权重;基于所述第一相似度、第二相似度和距离及各自对应的权重确定所述一致性指标。
在本申请实施例中,采用获取待检测文本的至少一个命名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出所述预设数量个目标命名实体的方式,达到了自动获取检测文本的命名实体,并输出目标命名实体的目的,从而实现了节省人力消耗,提高目标命名实体的确定效率的技术效果,进而解决了通过人工对地名实体进行地名消歧,成本较高,效率较低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
根据本申请实施例,还提供了一种数据处理方法,如图4所示,图4是根据本申请实施例2的数据处理方法的流程图,该方法包括以下处理流程:
步骤S402,获取待检测文本的命名实体;
具体地,待检测文本可以为事件文本,每次可仅处理一篇事件文本,命名实体可以为地名实体;可以使用开源NER工具识别出事件文本中的地名实体,例如“五常大道”、“印象城”、“淘宝城”,这些地名实体后文称之为Mention,每一个地名实体为一个Mention。
步骤S404,确定与所述命名实体对应的至少一个候选命名实体,所述至少一个候选命名实体中至少包括所述命名实体的描述信息;
具体地,对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息。
步骤S406,从所述至少一个候选命名实体中选择与所述命名实体匹配度最高的目标命名实体;
可选地,地名实体消歧任务离不开地名实体知识库,而地名实体知识库往往都是预先建立好的,其中包含了很多地名实体的描述信息,每条地名实体的描述信息由三部分组成:实体ID:唯一确定地名实体知识库中的一条实体记录;地名结构信息:省市区街道等行政区划信息和道路、门牌号、POI名称等地址元素信息;经纬度坐标。
具体地,地名实体知识库提供API接口可以通过Mention名称查询,检索到与之相关的候选命名实体记录,这个过程称之为候选实体召回,召回的候选命名实体后文称之为Entity。本申请实施例利用同义词扩展、模糊查询等方式,提高了Entity召回率,比如“淘宝城”与“阿里巴巴西溪园区”为同义词POI,则将“淘宝城”这个Mention名称扩展为“阿里巴巴西溪园区”进行知识库查询,可以召回“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”的Entity。同义词扩展、模糊查询扩大了Entity召回范围。
在本申请的一些可选的实施例中,候选命名实体下文称为Entity,从所述至少一个候选命名实体中选择与所述每个命名实体对应的目标命名实体,可以通过执行以下步骤S1至步骤S3进行实现:
步骤S1,确定所述每个命名实体与相应候选命名实体之间的相似度,其中,所述相应候选实体为与所述每个命名实体对应的候选命名实体;
具体地,在当前事件文本中,所有的Mention均召回了一个或多个Entity之后,将通过名称匹配计算Mention名称与其对应的Entity名称之间的文本相似度,方法有编辑距离、Jaccard相似度等,该相似度的值确定为Mention-Entity匹配得分。
步骤S2,确定不同命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;
具体地,这里的一致性指标计算的是所属不同Mention的Entity之间的一致性得分,例如Mention“淘宝城”的一个Entity“阿里巴巴西溪园区”与Mention“印象城”的一个Entity“西溪印象城”进行计算一致性得分。该一致性得分又称为Entity-Entity一致性得分。一致性得分通过如下几个方面确定:
Entity地名结构信息相似度:省、市、区、街道、道路等的相似度。
经纬度相似度:经纬度的相似度。
所属Mention在事件文本中的距离:所属的Mention在事件文本中越靠近(同一句话、同一个段落)则一致性得分越高。
步骤S3,基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择目标命名实体。
在本申请的一些可选的实施例中,基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述目标命名实体,可以通过以下方式进行实现:以所述命名实体和候选命名实体分别作为节点,以所述相似度作为所述命名实体所对应节点之间的边,以所述一致性指标作为所述候选命名实体所对应节点之间的边,构建稠密图;遍历所述稠密图中的节点,并去除所述稠密图中的目标节点和与所述目标节点对应的边,直至所述每个命名实体所对应的候选命名实体的数量为1。
可选地,去除所述稠密图中的目标节点和与所述目标节点对应的边之前,还需执行以下步骤:分别确定去除所述稠密图中每个节点后的剩余节点;计算所述稠密图的评价指标,其中,该评价指标为基于所述剩余节点所对应的所述相似度的取值,与所述剩余节点所对应候选命名实体之间的一致性指标共同确定的;确定所述评价指标中的最小值;将所述评价指标取所述最小值时去除的节点作为所述目标节点。例如:选择一个Entity节点从图中去掉,并去掉该节点相连接Mention-Entity边和Entity-Entity边,保证全图得分降低的最少。如果该Entity节点为所对应的Mention唯一的一个Entity,则不选取该节点,从其他Entity节点进行选择。
可选地,有了Mention-Entity匹配得分、Entity-Entity一致性得分两种得分,可以构建Mention-Entity图结构,以每一个Mention和Entity为节点,Mention-Entity匹配得分构成了Mention到Entity的边,Entity-Entity一致性得分构成了Entity到Entity的边。如图3所示,图3为根据本申请实施例提供的一种Mention-Entity图结构的示意图。
图3中“M”指代Mention,“M-E”指代Mention-Entity,“E”指代Entity,“E-E”指代Entity-Entity。
对上述Mention-Entity图结构进行剪枝则可得到Mention-Entity的稠密图。剪枝步骤包括以下步骤S1至步骤S4:
步骤S1,以全图为考察对象,计算全图得分,即所有Mention-Entity匹配得分与所有Entity-Entity一致性得分之和;
步骤S2,选择一个Entity节点从图中去掉,该Entity节点为目标节点,并去掉该节点相连接的Mention-Entity边和Entity-Entity边,例如,图3中的“古墩路588号印象城”的Entity节点,保证全图得分降低的最少。
步骤S3,如果该Entity节点为所对应的Mention唯一的一个Entity,例如“浙江省杭州市余杭区五常大道”节点,则不选取该节点,从其他Entity节点进行选择。
步骤S4,重复以上步骤,直到所有的Mention都只剩下唯一一个Entity,则剪枝完成。
步骤S408,输出所述目标命名实体。
当完成剪枝生成稠密图之后,每个Mention都链接到唯一一个Entity,也即完成了地名消歧工作,输出当前事件文本的地名消歧结果。例如图4中虚线框标识的Entity。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例3
根据本申请实施例,还提供了一种数据处理方法,如图5所示,图5是根据本申请实施例3的数据处理方法的流程图,该方法包括以下处理流程:
步骤S502,获取事件文本;
步骤S504,从所述事件文本中检测出地名实体;
具体地,每次可仅处理一篇事件文本,可以使用开源NER工具识别出事件文本中的地名实体,例如“五常大道”、“印象城”、“淘宝城”,这些地名实体后文称之为Mention,每一个地名实体为一个Mention。
步骤S506,候选命名实体召回;
具体地,可从命名实体知识库中确定与所述地名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息。
可选地,地名实体消歧任务离不开地名实体知识库,而地名实体知识库往往都是预先建立好的,其中包含了很多地名实体的描述信息,每条地名实体的描述信息由三部分组成:实体ID:唯一确定地名实体知识库中的一条实体记录;地名结构信息:省市区街道等行政区划信息和道路、门牌号、POI名称等地址元素信息;经纬度坐标。
具体地,地名实体知识库提供API接口可以通过Mention名称查询,检索到与之相关的候选命名实体记录,这个过程称之为候选实体召回,召回的候选命名实体后文称之为Entity。本申请实施例利用同义词扩展、模糊查询等方式,提高了Entity召回率,比如“淘宝城”与“阿里巴巴西溪园区”为同义词POI,则将“淘宝城”这个Mention名称扩展为“阿里巴巴西溪园区”进行知识库查询,可以召回“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”的Entity。同义词扩展、模糊查询扩大了Entity召回范围。
步骤S508,Mention-Entity图构建;
在本申请的一些可选的实施例中,候选命名实体下文称为Entity,需要从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体,具体地,可以通过执行以下步骤S1至步骤S3进行实现:
步骤S1,确定所述每个命名实体与相应候选命名实体之间的相似度,其中,所述相应候选实体为与所述每个命名实体对应的候选命名实体;
具体地,在当前事件文本中,所有的Mention均召回了一个或多个Entity之后,将通过名称匹配计算Mention名称与其对应的Entity名称之间的文本相似度,方法有编辑距离、Jaccard相似度等,该相似度的值确定为Mention-Entity匹配得分。
步骤S2,确定不同命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;
具体地,这里的一致性指标计算的是所属不同Mention的Entity之间的一致性得分,例如Mention“淘宝城”的一个Entity“阿里巴巴西溪园区”与Mention“印象城”的一个Entity“西溪印象城”进行计算一致性得分。该一致性得分又称为Entity-Entity一致性得分。一致性得分通过如下几个方面确定:
Entity地名结构信息相似度:省、市、区、街道、道路等的相似度。
经纬度相似度:经纬度的相似度。
所属Mention在事件文本中的距离:所属的Mention在事件文本中越靠近(同一句话、同一个段落)则一致性得分越高。
步骤S3,基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述预设数量个目标命名实体。
在本申请的一些可选的实施例中,该方法还需要基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述预设数量个目标命名实体,具体地,可以通过以下方式进行实现:以所述命名实体和候选命名实体分别作为节点,以所述相似度作为所述命名实体所对应节点之间的边,以所述一致性指标作为所述候选命名实体所对应节点之间的边,构建稠密图;遍历所述稠密图中的节点,并去除所述稠密图中的目标节点和与所述目标节点对应的边,直至所述每个命名实体所对应的候选命名实体的数量为所述预设数量。可选地,上述预设数量为1。
可选地,去除所述稠密图中的目标节点和与所述目标节点对应的边之前,还需执行以下步骤:分别确定去除所述稠密图中每个节点后的剩余节点;计算所述稠密图的评价指标,其中,该评价指标为基于所述剩余节点所对应的所述相似度的取值,与所述剩余节点所对应候选命名实体之间的一致性指标共同确定的;确定所述评价指标中的最小值;将所述评价指标取所述最小值时去除的节点作为所述目标节点。例如:选择一个Entity节点从图中去掉,并去掉该节点相连接Mention-Entity边和Entity-Entity边,保证全图得分降低的最少。如果该Entity节点为所对应的Mention唯一的一个Entity,则不选取该节点,从其他Entity节点进行选择。
可选地,有了Mention-Entity匹配得分、Entity-Entity一致性得分两种得分,可以构建Mention-Entity图结构,以每一个Mention和Entity为节点,Mention-Entity匹配得分构成了Mention到Entity的边,Entity-Entity一致性得分构成了Entity到Entity的边。
步骤S510,Mention-Entity的稠密图的构建。
对上述Mention-Entity图结构进行剪枝则可得到Mention-Entity的稠密图。剪枝步骤包括以下步骤S1至步骤S4:
步骤S1,以全图为考察对象,计算全图得分,即所有Mention-Entity匹配得分与所有Entity-Entity一致性得分之和;
步骤S2,选择一个Entity节点从图中去掉,该Entity节点为目标节点,并去掉该节点相连接的Mention-Entity边和Entity-Entity边,例如,图3中的“古墩路588号印象城”的Entity节点,保证全图得分降低的最少。
步骤S3,如果该Entity节点为所对应的Mention唯一的一个Entity,例如“浙江省杭州市余杭区五常大道”节点,则不选取该节点,从其他Entity节点进行选择。
步骤S4,重复以上步骤,直到所有的Mention都只剩下唯一一个Entity,则剪枝完成。
步骤S512,输出目标命名实体,消歧完成。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例4
根据本申请实施例,还提供了一种用于实施上述数据处理方法的数据处理装置,如图6所示,该装置包括:获取模块62、第一确定模块64、选择模块66、输出模块68,其中:
获取模块62,用于获取待检测文本的至少一个命名实体;
第一确定模块64,用于对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;
选择模块66,用于至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;
输出模块68,用于输出所述预设数量个目标命名实体。
所述选择模块66还用于确定所述每个命名实体与相应候选命名实体之间的相似度,其中,所述相应候选实体为与所述每个命名实体对应的候选命名实体;基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述预设数量个目标命名实体。
所述选择模块66还用于以所述命名实体和候选命名实体分别作为节点,以所述相似度作为所述命名实体所对应节点之间的边,以所述一致性指标作为所述候选命名实体所对应节点之间的边,构建稠密图;遍历所述稠密图中的节点,并去除所述稠密图中的目标节点和与所述目标节点对应的边,直至所述每个命名实体所对应的候选命名实体的数量为所述预设数量。所述预设数量可以为1。
所述装置还包括第二确定模块,用于分别确定去除所述稠密图中每个节点后的剩余节点;计算所述稠密图的评价指标,其中,该评价指标为基于所述剩余节点所对应的所述相似度的取值,与所述剩余节点所对应候选命名实体之间的一致性指标共同确定的;确定所述评价指标中的最小值;将所述评价指标取所述最小值时去除的节点作为所述目标节点。
所述第一确定模块64还用于确定所述候选命名实体的地名结构信息之间的第一相似度;确定所述候选命名实体之间的经纬度的第二相似度;确定不同的候选命名实体所对应的不同命名实体在所述待检测文本中的距离;基于所述第一相似度、第二相似度和距离中的至少之一确定所述一致性指标。
所述装置还包括第三确定模块,用于确定所述第一相似度、第二相似度和距离各自的权重;基于所述第一相似度、第二相似度和距离及各自对应的权重确定所述一致性指标。
所述第一确定模块,还用于确定所述每个命名实体的同义词;基于所述同义词确定与所述同义词对应的第一类候选命名实体。基于所述每个命名实体确定与所述每个命名实体对应的第二类候选命名实体;基于所述第一类候选命名实体和第二类候选命名实体共同确定与每个命名实体对应的所有候选命名实体。
此处需要说明的是,上述获取模块62对应于实施例1中的步骤S202、第一确定模块64对应于实施例1中的步骤S204至步骤S206。选择模块66、输出模块68分别对应于实施例1中的步骤S208、步骤S210,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例5
本申请的实施例可以提供一种计算机设备,该计算机设备可以是计算机设备群中的任意一个计算机设备。可选地,在本实施例中,上述计算机设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机设备可以执行应用程序的数据处理方法中以下步骤的程序代码:
获取待检测文本的至少一个命名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出所述预设数量个目标命名实体。
可选地,图7是根据本申请实施例的一种计算机设备的结构框图。如图7所示,该计算机设备700可以包括:一个或多个(图中仅示出一个)处理器702、存储器704。
其中,存储器704可用于存储软件程序以及模块,如本申请实施例中的数据处理方法和装置对应的程序指令/模块,处理器702通过运行存储在存储器704内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器704可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器704可进一步包括相对于处理器702远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器702可以通过传输模块调用存储器704存储的信息及应用程序,以执行下述步骤:
获取待检测文本的至少一个命名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出所述预设数量个目标命名实体。所述预设数量可以为1,所述命名实体可以为:所述待检测文本中的地址信息。
可选地,上述处理器702还可以执行如下步骤的程序代码:确定所述每个命名实体与相应候选命名实体之间的相似度,其中,所述相应候选实体为与所述每个命名实体对应的候选命名实体;基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述预设数量个目标命名实体。
可选地,上述处理器702还可以执行如下步骤的程序代码:以所述命名实体和候选命名实体分别作为节点,以所述相似度作为所述命名实体所对应节点之间的边,以所述一致性指标作为所述候选命名实体所对应节点之间的边,构建稠密图;遍历所述稠密图中的节点,并去除所述稠密图中的目标节点和与所述目标节点对应的边,直至所述每个命名实体所对应的候选命名实体的数量为所述预设数量。
可选地,上述处理器702还可以执行如下步骤的程序代码:分别确定去除所述稠密图中每个节点后的剩余节点;计算所述稠密图的评价指标,其中,该评价指标为基于所述剩余节点所对应的所述相似度的取值,与所述剩余节点所对应候选命名实体之间的一致性指标共同确定的;确定所述评价指标中的最小值;将所述评价指标取所述最小值时去除的节点作为所述目标节点。
可选地,上述处理器702还可以执行如下步骤的程序代码:确定所述候选命名实体的地名结构信息之间的第一相似度;确定所述候选命名实体之间的经纬度的第二相似度;确定不同的候选命名实体所对应的不同命名实体在所述待检测文本中的距离;基于所述第一相似度、第二相似度和距离中的至少之一确定所述一致性指标。
可选地,上述处理器702还可以执行如下步骤的程序代码:确定所述第一相似度、第二相似度和距离各自的权重;基于所述第一相似度、第二相似度和距离及各自对应的权重确定所述一致性指标。
可选地,上述处理器702还可以执行如下步骤的程序代码:确定所述每个命名实体的同义词;基于所述同义词确定与所述同义词对应的第一类候选命名实体。基于所述每个命名实体确定与所述每个命名实体对应的第二类候选命名实体;基于所述第一类候选命名实体和第二类候选命名实体共同确定与每个命名实体对应的所有候选命名实体。
在本申请实施例中,采用获取待检测文本的至少一个命名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出所述预设数量个目标命名实体的方式,达到了自动获取检测文本的命名实体,并输出目标命名实体的目的,从而实现了节省人力消耗,提高目标命名实体的确定效率的技术效果,进而解决了通过人工对地名实体进行地名消歧,成本较高,效率较低的技术问题。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机设备700也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机设备700还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种非易失性存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待检测文本的至少一个命名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;输出所述预设数量个目标命名实体。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (11)
1.一种数据处理方法,其特征在于,包括:
获取待检测文本的至少一个命名实体,其中,所述命名实体包括:地名实体;
对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;
确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,包括:
确定所述候选命名实体的地名结构信息之间的第一相似度;
确定所述候选命名实体之间的经纬度的第二相似度;
确定不同的候选命名实体所对应的不同命名实体在所述待检测文本中的距离;
基于所述第一相似度、第二相似度和距离中的至少之一确定所述一致性指标;其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;
至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;
输出所述预设数量个目标命名实体。
2.根据权利要求1所述的方法,其特征在于,至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体,包括:
确定所述每个命名实体与相应候选命名实体之间的相似度,其中,所述相应候选命名实体为与所述每个命名实体对应的候选命名实体;
基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述预设数量个目标命名实体。
3.根据权利要求2所述的方法,其特征在于,基于所述相似度和所述一致性指标从所述至少一个候选命名实体中选择所述预设数量个目标命名实体,包括:
以所述命名实体和候选命名实体分别作为节点,以所述相似度作为所述命名实体所对应节点与候选命名实体对应节点之间的边,以所述一致性指标作为所述候选命名实体所对应节点与候选命名实体所对应节点之间的边,构建稠密图;
遍历所述稠密图中的节点,并去除所述稠密图中的目标节点和与所述目标节点对应的边,直至所述每个命名实体所对应的候选命名实体的数量为所述预设数量,其中,所述目标节点为评价指标取最小值时去除的节点,所述稠密图中的每个节点对应的评价指标通过以下方式确定:确定删除所述稠密图中的所述每个节点后的剩余节点所对应的相似度的取值,并确定与所述剩余节点所对应所述候选命名实体之间的所述一致性指标;依据所述相似度的取值和所述一致性指标确定所述评价指标。
4.根据权利要求3所述的方法,其特征在于,去除所述稠密图中的目标节点和与所述目标节点对应的边之前,所述方法还包括:
分别确定去除所述稠密图中每个节点后的剩余节点;计算所述稠密图的评价指标,其中,该评价指标为基于所述剩余节点所对应的所述相似度的取值,与所述剩余节点所对应候选命名实体之间的一致性指标共同确定的;
确定所述评价指标中的最小值;将所述评价指标取所述最小值时去除的节点作为所述目标节点。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述第一相似度、第二相似度和距离各自的权重;
基于所述第一相似度、第二相似度和距离及各自对应的权重确定所述一致性指标。
6.根据权利要求1所述的方法,其特征在于,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体包括:
确定所述每个命名实体的同义词;
基于所述同义词确定与所述同义词对应的第一类候选命名实体;
基于所述每个命名实体确定与所述每个命名实体对应的第二类候选命名实体;
基于所述第一类候选命名实体和第二类候选命名实体共同确定与每个命名实体对应的所有候选命名实体。
7.根据权利要求1所述的方法,其特征在于,
所述预设数量为1;和/或
所述命名实体包括:所述待检测文本中的地址信息。
8.一种数据处理方法,其特征在于,包括:
获取待检测文本的命名实体,其中,所述命名实体包括:地名实体;
确定与所述命名实体对应的至少一个候选命名实体,所述至少一个候选命名实体中至少包括所述命名实体的描述信息;
确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,包括:
确定所述候选命名实体的地名结构信息之间的第一相似度;
确定所述候选命名实体之间的经纬度的第二相似度;
确定不同的候选命名实体所对应的不同命名实体在所述待检测文本中的距离;
基于所述第一相似度、第二相似度和距离中的至少之一确定所述一致性指标;其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;
从所述至少一个候选命名实体中选择与所述命名实体匹配度最高的目标命名实体;
输出所述目标命名实体。
9.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待检测文本的至少一个命名实体,其中,所述命名实体包括:地名实体;
第一确定模块,用于对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,包括:确定所述候选命名实体的地名结构信息之间的第一相似度;确定所述候选命名实体之间的经纬度的第二相似度;确定不同的候选命名实体所对应的不同命名实体在所述待检测文本中的距离;基于所述第一相似度、第二相似度和距离中的至少之一确定所述一致性指标;其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;
选择模块,用于至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;
输出模块,用于输出所述预设数量个目标命名实体。
10.一种非易失性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的数据处理方法。
11.一种计算机设备,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取待检测文本的至少一个命名实体,其中,所述命名实体包括:地名实体;对于所述至少一个命名实体中的每个命名实体,从命名实体知识库中确定与所述每个命名实体对应的候选命名实体,得到至少一个候选命名实体,所述候选命名实体中至少包括所述命名实体的描述信息;
确定所述至少一个命名实体对应的候选命名实体之间的一致性指标,包括:
确定所述候选命名实体的地名结构信息之间的第一相似度;
确定所述候选命名实体之间的经纬度的第二相似度;
确定不同的候选命名实体所对应的不同命名实体在所述待检测文本中的距离;
基于所述第一相似度、第二相似度和距离中的至少之一确定所述一致性指标;其中,该一致性指标用于量化不同候选命名实体之间的匹配程度;
至少基于所述一致性指标从所述至少一个候选命名实体中选择与所述每个命名实体对应的预设数量个目标命名实体;
输出所述预设数量个目标命名实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911143220.9A CN112825112B (zh) | 2019-11-20 | 2019-11-20 | 数据处理方法、装置及计算机终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911143220.9A CN112825112B (zh) | 2019-11-20 | 2019-11-20 | 数据处理方法、装置及计算机终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112825112A CN112825112A (zh) | 2021-05-21 |
CN112825112B true CN112825112B (zh) | 2024-05-31 |
Family
ID=75906329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911143220.9A Active CN112825112B (zh) | 2019-11-20 | 2019-11-20 | 数据处理方法、装置及计算机终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112825112B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182420A (zh) * | 2013-05-27 | 2014-12-03 | 华东师范大学 | 一种基于本体的中文人名消歧方法 |
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与*** |
CN105550227A (zh) * | 2015-12-07 | 2016-05-04 | 中国建设银行股份有限公司 | 一种命名实体识别方法及装置 |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和*** |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108491375A (zh) * | 2018-03-02 | 2018-09-04 | 复旦大学 | 基于CN-DBpedia的实体识别与链接***和方法 |
CN108572960A (zh) * | 2017-03-08 | 2018-09-25 | 富士通株式会社 | 地名消岐方法和地名消岐装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100501413B1 (ko) * | 2003-10-23 | 2005-07-18 | 한국전자통신연구원 | 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적개체명을 인식하는 장치 및 그 방법 |
US9594831B2 (en) * | 2012-06-22 | 2017-03-14 | Microsoft Technology Licensing, Llc | Targeted disambiguation of named entities |
-
2019
- 2019-11-20 CN CN201911143220.9A patent/CN112825112B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182420A (zh) * | 2013-05-27 | 2014-12-03 | 华东师范大学 | 一种基于本体的中文人名消歧方法 |
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与*** |
CN105550227A (zh) * | 2015-12-07 | 2016-05-04 | 中国建设银行股份有限公司 | 一种命名实体识别方法及装置 |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和*** |
CN108572960A (zh) * | 2017-03-08 | 2018-09-25 | 富士通株式会社 | 地名消岐方法和地名消岐装置 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108491375A (zh) * | 2018-03-02 | 2018-09-04 | 复旦大学 | 基于CN-DBpedia的实体识别与链接***和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112825112A (zh) | 2021-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9880012B2 (en) | Hybrid road network and grid based spatial-temporal indexing under missing road links | |
CN101350012B (zh) | 一种地址匹配的方法和*** | |
CN109478184B (zh) | 识别、处理和显示数据点聚类 | |
CN103914498A (zh) | 一种地图搜索的搜索建议方法和装置 | |
CN111382212B (zh) | 关联地址获取方法、装置、电子设备及存储介质 | |
CN111324679A (zh) | 地址信息的处理方法、装置和*** | |
CN111177568B (zh) | 基于多源数据的对象推送方法、电子装置及存储介质 | |
WO2017173783A1 (zh) | 兴趣点数据显示方法及终端 | |
CN111597279B (zh) | 基于深度学习的信息预测方法及相关设备 | |
WO2020057432A1 (zh) | 地址的标准化方法、装置、存储介质及计算机终端 | |
CN112825112B (zh) | 数据处理方法、装置及计算机终端 | |
CN108345607B (zh) | 搜索方法和装置 | |
Jammalamadaka et al. | Testing exponentiality by comparing the empirical distribution function of the normalized spacings with that of the original data | |
KR101781995B1 (ko) | 명칭 검색 정보를 이용한 관심지점 데이터베이스 업데이트 방법 | |
CN111382220A (zh) | 一种poi数据划分方法和装置 | |
CN111241103B (zh) | 数据存储方法、数据查询方法及相关装置 | |
CN111829530B (zh) | 一种评估方法、装置、存储介质以及电子设备 | |
CN107967300B (zh) | 机构名称的检索方法、装置、设备及存储介质 | |
CN112861023A (zh) | 地图信息处理方法、装置、设备、存储介质及程序产品 | |
CN111061878A (zh) | 一种页面聚类方法、装置、介质及设备 | |
CN105956189B (zh) | 基于人工智能的信息推荐方法和装置 | |
CN110838078A (zh) | 裁判结果的预警方法和*** | |
CN113569564B (zh) | 一种地址信息的处理、显示方法和装置 | |
CN115052270B (zh) | 业务指标确定方法、装置、电子设备及非易失性存储介质 | |
CN112825083B (zh) | 群体关系网的构建方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |