CN116258138A - 知识库构建方法、实体链接方法、装置及设备 - Google Patents
知识库构建方法、实体链接方法、装置及设备 Download PDFInfo
- Publication number
- CN116258138A CN116258138A CN202310269188.9A CN202310269188A CN116258138A CN 116258138 A CN116258138 A CN 116258138A CN 202310269188 A CN202310269188 A CN 202310269188A CN 116258138 A CN116258138 A CN 116258138A
- Authority
- CN
- China
- Prior art keywords
- organization
- entity
- determining
- candidate
- reference text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000009411 base construction Methods 0.000 title claims abstract description 55
- 230000008520 organization Effects 0.000 claims abstract description 574
- 238000004458 analytical method Methods 0.000 claims description 40
- 238000011156 evaluation Methods 0.000 claims description 40
- 230000007246 mechanism Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 230000000474 nursing effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- DWDGSKGGUZPXMQ-UHFFFAOYSA-N OPPO Chemical compound OPPO DWDGSKGGUZPXMQ-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种知识库构建方法、实体链接方法、装置、设备、存储介质以及程序产品,涉及数据处理技术领域,尤其涉及大数据、智能搜索技术领域。具体实现方案为:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及大数据、智能搜索技术领域,具体涉及一种知识库构建方法、实体链接方法、装置、设备、存储介质以及程序产品。
背景技术
知识库是用于知识管理的一种数据库,知识库可以用于相关领域的知识的收集、整理和抽取。如何准确、高效地进行知识抽取是一个亟需解决的技术问题。
发明内容
本公开提供了一种知识库构建方法、实体链接方法、装置、设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种知识库构建方法,包括:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
根据本公开的另一方面,提供了一种实体链接方法,包括:确定输入文本中的引用文本;根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体;根据候选实体与引用文本之间的相关性,确定与引用文本链接的目标实体,其中,组织机构知识库是利用以下操作构建得到的:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
根据本公开的另一方面,提供了一种知识库构建装置,包括:组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;知识库构建模块,用于根据组织机构实体,构建组织机构知识库。
根据本公开的另一方面,提供了一种实体链接装置,包括:引用文本确定模块,用于确定输入文本中的引用文本;候选实体确定模块,用于根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体;目标实体确定模块,用于根据候选实体,确定与引用文本链接的目标实体,其中,组织机构知识库是利用以下模块构建得到的:知识库构建模块,用于组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;根据组织机构实体,构建组织机构知识库。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序在被处理器执行时实现本公开实施例的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A示意性示出了在搜索引擎根据输入的查询内容进行搜索的具体示例;
图1B示意性示出了一种实施方式的利用排序模型对候选实体排序以确定目标实体的示意图;
图1C示意性示出了一种实施方式的利用二分类模型对候选实体排序以确定目标实体的示意图;
图1D示意性示出了一种实施方式的利用多分类模型对候选实体排序以确定目标实体的示意图;
图2示意性示出了根据本公开实施例的知识库构建方法、实体链接方法和装置的***架构图;
图3示意性示出了根据本公开实施例的知识库构建方法的流程图;
图4示意性示出了根据本公开实施例的实体链接方法的示意图;
图5示意性示出了根据本公开另一实施例的实体链接方法的示意图;
图6示意性示出了根据本公开实施例的知识库构建装置的框图;
图7示意性示出了根据本公开实施例的实体链接装置的框图;以及
图8示意性示出了可以实现本公开实施例的知识库构建方法、实体链接方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
知识库是用于知识管理的一种数据库,知识库可以用于相关领域的知识的收集、整理和抽取。
实体链接(Entity Linking,简称为EL)是一种知识抽取的方式,实体链接可以理解为将自由文本中已识别的实体对象(例如:人名、地名、机构名等),无歧义地指向知识库中目标实体的过程,即根据自由文本中的实体对象匹配到知识库中最符合该实体的目标实体,如果可以准确查询到对应的目标实体,则可以推送该目标实体的具体内容。实体链接在知识工程和数据挖掘领域发挥着重要作用,是例如知识融合、内容分析、知识索引等各种下游应用的基础。
图1A示意性示出了在搜索引擎根据输入的查询内容(查询内容即query)进行搜索的具体示例。如图1A所示。可以根据输入的查询内容匹配知识库102中的实体,例如可以将匹配到的实体Entity-1、实体Entity-2、实体Entity-3以及实体Entity-4的具体内容101进行推送。实体Entity-1对应的具体内容例如为Text-1,实体Entity-2对应Text-2,实体Entity-3对应Text-3,实体Entity-4对应Text-4,在此不再赘述。
如图1A所示,根据查询内容匹配到的实体之间例如还具有关联关系,图1的示例中以边Edge1表征实体Entity-1与实体Entity-2之间的关联关系,边Edge2至边Edge5在此不再赘述。
实体链接具体涉及以下过程:根据输入文本的引用文本,从知识库中确定候选实体;对候选实体进行排序,以确定与引用文本匹配的目标实体。
图1B示意性示出了一种实施方式的利用排序模型对候选实体排序以确定目标实体的示意图。即,通过计算输入文本(待消歧文本)和知识库中的实体之间的相似度,通过神经网络对输入文本和知识库中的实体分别建模并得到各自的向量表示,然后通过相似度度量方法进行匹配度打分,选择得分最高的作为目标实体。
图1C示意性示出了一种实施方式的利用二分类模型对候选实体排序以确定目标实体的示意图。即,输入文本中的引用文本编码为向量CLS(Special ClassificationEmbedding,用于分类的向量,会聚集所有的分类信息,一般是整体序列的向量表示),并与知识库中的实体两两组合形成样本,如果组合中的实体与训练数据中的标签一致,则将当前组合作为正样本,该引用文本构成的其他组合作为负样本,例如ERNIE/BERT等模型对这些组合进行二分类。
图1D示意性示出了一种实施方式的利用多分类模型对候选实体排序以确定目标实体的示意图。即,将输入文本和待消歧实体的描述文本分别输入到ERNIE/BERT等模型,将输入文本的编码向量CLS位置的输出向量和实体文本编码向量CLS位置的输出向量连接到一起得到实体的向量表示,经过Dropout网络层和全连接层(全连接层即FC,FullConnection),最后进行分类。
图2示意性示出了根据本公开一实施例的知识库构建方法、实体链接方法和装置的***架构。需要注意的是,图2所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图2所示,根据该实施例的***架构200可以包括客户端201、202、203,网络204、第一服务器205和第二服务器206。网络204用以在客户端201、202、203、第一服务器205和第二服务器206之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用客户端201、202、203通过网络204与第一服务器205、第二服务器206交互,以接收或发送消息等。客户端201、202、203上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
客户端201、202、203可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。本公开实施例的客户端201、202、203例如可以运行应用程序。
第一服务器205、第二服务器206可以是提供各种服务的服务器,例如对用户利用客户端201、202、203所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给客户端。另外,第一服务器205、第二服务器206还可以是云服务器,即服务器205具有云计算功能。
示例性地,第一服务器205可以用于构建组织机构知识库,第二服务器206可以用于实体链接,第二服务器206例如可以获取来自客户端201、202、203的输入文本和由第一服务器205构建的组织机构知识库。
示例性地,还可以利用同一个服务器构建组织机构知识库以及执行实体链接。
需要说明的是,本公开实施例所提供的知识库构建方法可以由第一服务器205执行。相应地,本公开实施例所提供的知识库构建装置可以设置于第一服务器205中。本公开实施例所提供的知识库构建方法也可以由不同于第一服务器205且能够与客户端201、202、203和/或第一服务器205通信的服务器或服务器集群执行。相应地,本公开实施例所提供的知识库构建装置也可以设置于不同于第一服务器205且能够与客户端201、202、203和/或第一服务器205通信的服务器或服务器集群中。本公开实施例所提供的知识库构建方法可以由第一服务器205执行。相应地,本公开实施例所提供的知识库构建装置可以设置于第一服务器205中。本公开实施例所提供的实体链接方法也可以由不同于第二服务器206且能够第一服务器205通信的服务器或服务器集群执行。相应地,本公开实施例所提供的知识库构建装置也可以设置于不同于第二服务器206且能够与第一服务器205通信的服务器或服务器集群中。
应该理解,图2中的客户端、网络、第一服务器和第二服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端、网络、第一服务器和第二服务器。
应注意,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
本公开实施例提供了一种知识库构建方法,下面结合图2的***架构,参考图3来描述根据本公开示例性实施方式的知识库构建方法。本公开实施例的知识库构建方法例如可以由图2所示的第一服务器105来执行。
图3示意性示出了根据本公开一实施例的知识库构建方法的流程图。
如图3所示,本公开实施例的知识库构建方法300例如可以包括操作S310~操作S320。
在操作S310,根据组织机构数据,确定组织机构实体。
组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征。
组织机构可以理解为组织发展、完善到一定程度,在其内部形成的结构严密、相对独立,并彼此传递或转换能量、物质和信息的社会***。组织机构作为具有特定意义的实体,也是自然语言处理领域中的常见实体。需要说明的是,本公开实施例中提到的“组织机构实体”、“组织机构属性”是指表征组织机构实体的数据、表征组织机构实体的属性的数据。
组织机构数据例如可以通过相应的组织机构管理部门得到,具体地,组织机构数据例如可以通过相应的组织机构管理部门提供的网站、接口等得到。组织机构管理部门例如包括组织机构统一社会信用代码数据服务中心、相关的标准化管理部门、登记管理部门等。
在操作S320,根据组织机构实体,构建组织机构知识库。
示例性地,例如可以将组织机构实体存储于数据库中,实现构建根据组织机构实体构建组织机构知识库的具体示例。
根据本公开实施例的知识库构建方法,通过根据组织机构数据,确定组织机构实体,由于组织机构实体具有自定义属性,该自定义属性表征组织机构实体的组织机构特征,因此组织机构实体的属性更加丰富,根据组织机构实体构建的组织机构知识库也更加丰富,便于后续准确、高效地进行知识抽取。
以下将以根据本公开实施例的知识库构建方法构建的组织机构知识库用于实体链接为例进行说明,但是根据本公开实施例的知识库构建方法得到的组织机构知识库并不仅限于进行实体链接。
示例性地,自定义属性可以包括描述属性、读音属性中的至少一个。
描述属性用于表征组织机构实体相关的职能信息、品牌信息、产品信息、领域信息、地址信息、组织机构名称简称、组织机构名称全称、人物信息中的至少一个。
读音属性用于表征组织机构名称的读音。示例性地,读音属性例如可以利用拼音表征。
示例性地,例如可以从相关网站获取组织机构实体相关的品牌信息、产品信息、领域信息等描述属性。
例如,针对企业组织机构,可以在例如买购网(https://www.maigoo.com/brand/search/)等相关网站获得一些描述属性。例如,针对“索尼(中国)有限公司”这一企业组织机构,可以通过买购网网站获得“索尼始于1946年日本,全球知名的大型综合性跨国集团,为世界视听、电子游戏、通讯产品和信息技术等领域的先导者,于1 978年进入中国,以索尼“随身听”等产品风靡全国而家喻户晓,生产和销售的产品包括彩电、笔记本电脑、音响、数码照相机、摄像机、投影仪等”的描述,由此,可以确定例如“信息技术领域”的领域信息、“彩电、笔记本电脑、音响、数码照相机、摄像机、投影仪”的产品信息。
例如,针对上市的企业组织机构,可以在例如东方财富网(http://data.eastmoney.com/gstc/)等相关网站获得一些描述属性。
组织机构可以分为企业组织机构和社会组织机构。存在以下情况:
(1)多个企业组织机构的名称比较相似,但是实际上不同名称的企业组织机构的例如旗下品牌、产品、涉及的领域(这里的领域可以理解为经营领域)等均不相同。例如不同的社会组织机构对应的职能信息也不相同。
(2)由于笔误或者其他原因,可能会出现具有错别字的组织机构名称,尤其是读音正确但字符错误的错别字,在后续根据组织机构知识库进行实体链接的情况下,会召回错误的候选实体,降低实体链接的准确性。
根据本公开实施例的知识库构建方法,通过描述属性可以更准确地、差异化地表征组织机构实体;对应组织机构名称出现错别字,可以通过读音属性使得针对组织机构名称还具有容错特性,由此确定的组织机构实体的表达更加丰富、更加差异化也更加准确,适应于组织机构这一场景,进而确定的组织机构知识库更加丰富,例如可以用于准确进行组织机构相关的实体链接。
示例性地,根据本公开另一实施例的知识库构建方法,例如可以利用以下实施例实现根据组织机构实体,构建组织机构知识库的具体示例:对组织机构实体进行结构化,确定用于表征组织机构类别的类别信息。对类别信息进行聚类,确定至少一个组织机构类别簇。根据组织机构类别簇,确定组织机构类别的知识词典。根据知识词典和组织机构实体,构建组织机构知识库。
组织机构实体包括组织机构名称,组织机构名称包括类别信息。
知识词典可以理解为以词典形式表征的知识,这里的“词典”可以是以数据表的形式存储于计算机等电子设备中。
由于组织机构实体包括组织机构名称,组织机构名称包括类别信息,例如可以通过对组织机构名称进行结构化解析处理,确定用于表征组织机构类别的类别信息,以实现对组织机构实体进行结构化,确定用于表征组织机构类别的类别信息的具体示例。
组织机构名称例如可以是遵循命名规则得到的,则可以根据命名规则对组织机构名称进行结构化解析,得到组织机构名称的构词成分,构词成分例如可以包括地名信息、字号信息、行业信息以及类别信息。
根据本公开实施例的知识库构建方法,通过对组织机构实体进行结构化,确定用于表征组织机构类别的类别信息。类别信息可以表征组织机构的功能等,通过对类别信息进行聚类,可以将例如功能类似的组织机构聚类在一起。根据组织机构类别簇,确定的组织机构类别的知识词典表征归纳整理后的组织机构的相关知识,根据知识词典和组织机构实体构建的组织机构知识库也更加丰富,这使得后续通过组织机构知识库进行实体链接的准确性和效率更高。
示例性地,例如可以将知识词典和组织机构实体存储于组织机构知识库中,以构建得到组织机构知识库。
示例性地,例如可以采用密度聚类算法、层级聚类算法等各种聚类算法对类别信息进行聚类,确定至少一个组织机构类别簇。
示例性地,根据本公开又一实施例的知识库构建方法,知识词典可以包括同类别词典。例如可以利用以下实施例实现根据组织机构类别簇,确定组织机构类别的知识词典的具体示例:根据关联同一个组织机构类别簇的类别信息,确定同类别信息。根据同类别信息,确定同类别词典。
可以理解的是,针对同一组织机构或者同类别的组织机构,由于每一个人的表达习惯不同,存在针对组织机构的表述不一致等情况。
示例性地,以同类别词典为数据表形式为例,该数据表例如可以包括至少一个类别字段,每一个组织机构类别簇对应各自的类别字段,针对任意一个组织机构类别簇,相关的类别信息与该组织机构类别簇对应的类别字段映射,得到同类别信息。各个同类别信息对应的字段构成同类别词典。
根据本公开实施例的知识库构建方法,通过根据关联同一个组织机构类别簇的类别信息可以确定表征同类别组织机构的同类别信息,根据同类别信息确定同类别词典,同类别词典是对组织机构的类别信息进行归纳整理得到的,针对同一类别的组织机构类别簇可以覆盖数量更多、功能相似的组织机构。基于同类别词典进行实体链接可以准确地匹配到更多数量以及更相关的候选实体。
示例性地,“***敬老院”、“**养老院”分别为两个组织机构名称,通过对与该组织机构名称进行结构化,可以得到“敬老院”和“养老院”这两个表征组织机构类别的类别信息,可以理解的是,“敬老院”和“养老院”较为类似,通过聚类对类别信息进行聚类,可以将“敬老院”和“养老院”确定为关联同一个组织机构类别簇的类别信息。
示例性地,根据本公开又一实施例的知识库构建方法,知识词典还可以包括简称词典。例如可以利用以下实施例实现根据组织机构类别簇,确定组织机构类别的知识词典的具体示例:针对任意一个组织机构类别簇,根据组织机构名称的解析结果,确定每一个组织机构的简称集合;以及根据每一个组织机构的简称集合,确定组织机构类别的简称词典。
针对同一组织机构或者同类别的组织机构,由于每一个人的表达习惯不同,存在针对组织机构的表述不一致等情况。例如还存在利用简称表达组织机构的情况。
根据本公开实施例的知识库构建方法,针对任意一个组织机构类别簇,通过根据组织机构名称的解析结果,确定每一个组织机构的简称集合以及通过根据每一个组织机构的简称集合,确定组织机构类别的简称词典可以从组织机构的简称维度对组织机构的相关知识进行整理归纳,基于简称词典进行实体链接可以准确地匹配到更多数量以及更相关的候选实体。
例如,实体链接的输入文本包括“城管委”、“规自局”等简称,相应的组织机构实体的全称分别为“城市管理委员会”和“规划和自然资源局”。
示例性地,例如还可以将简称集合中的每一个组织机构名称简称与组织机构名称全称相映射,例如后续用于实体链接的情况下可以通过组织机构名称简称映射得到组织机构名称全称。
示例性地,根据本公开又一实施例的知识库构建方法,例如可以利用以下实施例实现针对任意一个组织机构类别簇,根据组织机构名称的解析结果,确定每一个组织机构的简称集合的具体示例:针对任意一个组织机构类别簇,根据组织机构名称的解析结果和简称组合规则,确定每一个组织机构的简称集合。
简称组合规则表征由组织机构名称的组成部分生成组织机构名称简称的规则,组织机构名称的组成部分是由组织机构名称解析得到的。
仍以上述的“城市管理委员会”的其中一个简称为“城管委”为例进行说明,组织机构名称“城市管理委员会”例如遵循命名规则得到,组织机构名称进行结构化解析后得到例如包括“城市”、“管理”和“委员会”的解析结果,例如可以取“城市”、“管理”、“委员会”的第一个字符并连接得到“城管委”这一简称。
示例性地,根据本公开又一实施例的知识库构建方法,知识词典例如还包括用于表征人物信息与组织机构实体之间的映射关系的人物映射词典。
可以理解的是,组织机构可以分为企业组织机构和社会组织机构,例如针对社会组织机构,可能会有特定的人物承担该社会组织机构的相应职能,因此可以根据人物信息准确匹配到对应的组织机构实体。例如,“警察”这一人物信息是与“公安局”这一社会组织机构关联的。
根据本公开实施例的知识构建方法,通过表征人物信息与组织机构实体之间的映射关系的人物映射词典,可以根据人物映射词典准确地根据人物信息匹配到对应的组织机构实体。
例如后续根据组织机构知识库进行实体链接的情况下可以准确召回候选实体。
示例性地,人物映射词典例如可以由相关人员进行管理和维护。
示例性地,知识词典例如还包括别名词典。
别名词典例如也可以由相关人员进行管理和维护,别名词典包括组织机构名称别名。
示例性地,别名例如可以包括历史名称等。例如“OPPO广东移动通信有限公司”的历史名称为“东莞市欧珀移动通讯有限公司”。由此,可以使得例如后续进行实体链接的情况下,可以根据别名准确召回候选实体。
示例性地,例如可以将组织机构名称输入序列标注模型,由该序列标注模型对组织机构名称进行解析,得到组织机构名称的构词成分。需要说明的是,根据组织机构名称的构词成分可以确定组织机构名称别名、组织机构名称简称等。序列标注模型的输入为长度为N的输入序列,对其中的每个元素打上标签,得到长度也为N的标签,标签例如包括地名标签、字号标签等。
示例性地,序列标注模型的模型结构例如可以包括双向长短期记忆网络(bilstm)和条件随机场网络(crf)。
本公开实施例还提供了一种实体链接方法,下面结合图2的***架构,参考图4~图5来描述根据本公开示例性实施方式的实体链接方法。本公开实施例的实体链接方法例如可以由图2所示的第二服务器106来执行。
图4示意性示出了根据本公开一实施例的实体链接方法的流程图。
如图4所示,本公开实施例的实体链接方法400例如可以包括操作S410~操作S430。
在操作S410,确定输入文本中的引用文本。
实体链指的情况下,初始数据可以是输入文本还可以是引用文本,引用文本可以理解为mention,即初始数据中提及的具体内容。
在操作S420,根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体。
在操作S430,根据候选实体,确定与引用文本链接的目标实体。
组织机构知识库是利用以下操作构建得到的:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
需要说明的是,组织机构知识库是根据上述的知识库构建方法得到的,有关于组织机构知识库的构建,已在上述实施例中详细说明,在此不再赘述。
根据本公开实施例的实体链接方法采用上述实施例的知识库构建方法得到的,由于组织机构实体具有自定义属性,该自定义属性表征组织机构实体的组织机构特征,因此组织机构实体的属性以及根据组织机构实体构建的组织机构知识库也更加丰富。根据引用文本从该组织机构知识库中确定的候选实体的数量和准确性也更高,进而可以确定与引用文本准确链接的目标实体。
示例性地,根据本公开另一实施例的实体链接方法,候选实体包括第一候选实体。例如可以利用以下实施例实现根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体的具体示例:根据引用文本对应的输入文本以及引用文本的解析结果,确定引用文本对应的地址信息;将引用文本对应的地址信息与组织机构知识库中的组织机构实体进行匹配,确定第一候选实体。
组织机构实体的自定义属性包括描述属性,描述属性用于表征组织机构实体相关的地址信息。
尤其是针对社会组织机构,该社会组织机构通常具有地址前缀,但是实际表述可能习惯省略地址信息。例如,一些情况下会以“市教育局”或者“教育局”表征“A市教育局”,“市教育局”或者“教育局”作为引用文本的情况下,可以从组织机构知识库中召回大量的候选实体,但是召回的候选实体并不准确。
针对初始数据为输入文本的情况,输入文本可以表达完整的语义,例如输入文本中可能包括地址信息,该地址信息大概率与引用文本对应的组织机构是关联的,因此,根据本公开实施例的实体链接方法,通过根据引用文本对应的输入文本以及引用文本的解析结果,确定的引用文本对应的地址信息可以作为引用文本前缀的、参考的地址信息,由此可以确定包括地址信息的引用文本,将地址信息作为组织机构实体匹配的一个参数,可以提高匹配准确性,得到准确的第一候选实体。
开放域信息抽取模型抽取输入文本中的信息,包括但不限于命名实体、关系、事件论元、事件描述片段、评价、评价维度、观点词、情感倾向。开放与信息抽取模型例如可以包括UIE模型。
示例性地,例如可以通过开放域信息抽取模型抽取输入文本中的地址信息。
示例性地,根据本公开又一实施例的实体链接方法,例如可以利用以下实施例实现将引用文本对应的地址信息与组织机构知识库中的组织机构实体进行匹配,确定第一候选实体的具体示例:将引用文本对应的地址信息与组织机构知识库中的组织机构实体,基于地址层级结构的每一个层级地址进行匹配,得到每一个层级地址的匹配结果。根据每一个层级地址的匹配结果,确定第一候选实体。
地址层级结构包括行政区划地址,行政区划地址包括多个层级地址。例如,行政区划地址可以包括:省份-市-县/区-乡/镇-村、直辖市-县/区-乡/镇-村。
根据本公开实施例的实体链接方法,通过将引用文本对应的地址信息与组织机构知识库中的组织机构实体,基于地址层级机构的每一个层级地址进行匹配,可以实现基于每一个层级地址的地址信息准确匹配,由此也可以确定准确的第一候选实体。
示例性地,例如可以利用以下实施例实现根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体的具体示例:对引用文本进行实体类别识别,得到引用文本相关的实体类别。根据引用文本的实体类别与组织机构实体的实体类别两者之间的相关性,确定与引用文本相关的候选实体。
需要说明的是,“实体类别”可以理解为针对实体的类别,在上述实施例提到的“表征组织机构类别的类别信息”是针对组织机构的类别,例如,组织机构的类别信息可以包括“公安局”、“教育局”等,实体类别可以包括术语、生物、饮食、组织机构等。组织机构实体的实体类别即为组织机构。
可以理解的是,同一类别的实体的相关性较高,为了准确、高效地进行实体链指,例如可以就同一实体类别进行实体链接。例如,在引用文本的实体类别为组织机构的情况下,可以不再将引用文本与非组织机构实体进行匹配,或者,在引用文本的实体类别不是组织机构的情况下,例如可以不再将引用文本与组织机构知识库的组织机构实体进行匹配。
例如,在引用文本的实体类别为“术语实体”、“生物实体”等与组织机构实体不同的实体类别时,可以不再从组织机构知识库中进行实体链接。
本公开实施例的实体链接方法,通过识别引用文本的实体类别,可以根据实体类别筛选例如同类别或者相关类别的实体,由该同类别或者相关类别的实体可以表征相关性较高的实体,通过根据引用文本的实体类别与组织机构实体的实体类别两者之间的相关性,可以确定与引用文本高相关性的候选实体,提高实体链接的准确性。
示例性地,根据本公开又一实施例的实体链接方法,候选实体包括第二候选实体。例如可以利用以下实施例实现根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体的具体示例:根据引用文本的解析结果,确定引用文本对应的组织机构名称简称。根据引用文本对应的组织机构名称简称与简称词典,确定候选简称。将候选简称与组织机构知识库中的组织机构实体进行匹配,确定第二候选实体。
组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的组织机构名称简称。
示例性地,例如可以根据引用文本的解析结果和简称组合规则确定引用文本对应的组织机构名称简称。
示例性地,例如可以将引用文本的组织机构名称简称与简称词典进行对比,确定相关性较高的至少一个简称作为候选简称。
根据本公开实施例的实体链接方法,组织机构知识库的知识词典包括简称词典,通过根据组织机构名称简称与简称词典,确定候选简称以及通过将候选简称与组织机构知识库中的组织机构实体进行匹配,可以从组织机构名称简称的维度进行实体召回,提高实体链接的准确性,适应于组织机构这一频繁使用名称简称的场景。
示例性地,例如还可以根据引用文本对应的组织机构名称别名与别名词典,确定候选别名。将候选别名与组织机构知识库中的组织机构实体进行匹配,确定候选实体。组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的组织机构名称别名。
示例性地,根据本公开又一实施例的实体链接方法,候选实体包括第三候选实体。例如可以利用以下实施例实现根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体的具体示例:根据引用文本的解析结果,确定引用文本对应的组织机构名称全称。根据引用文本对应的组织机构名称全称与组织机构知识库中的组织机构实体进行匹配,确定第三候选实体。
组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的组织机构名称全称。
示例性地,例如可以根据引用文本的解析结果,确定引用文本对应的组织机构名称简称;根据组织机构名称简称与名称映射关系确定对应的组织机构名称全称。名称映射关系例如表征组织机构名称简称与组织机构名称全称之间的映射关系。
根据本公开实施例实体链接方法,通过根据引用文本的解析结果,确定引用文本对应的组织机构名称全称。以及根据引用文本对应的组织机构名称全称与组织机构知识库中的组织机构实体进行匹配,确定第三候选实体,可以从组织机构名称全称的维度进行实体召回,提高实体链接的准确性。
示例性地,根据本公开又一实施例的实体链接方法,候选实体包括第四候选实体。例如可以利用以下实施例实现根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体的具体示例:根据引用文本的解析结果,确定引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个。根据引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个与组织机构知识库中的组织机构实体进行匹配,确定第四候选实体。
示例性地,引用文本可以包括组织机构实体的相关描述内容,所以引用文本例如也可以包括表征职能的职能信息、表征品牌的品牌信息、表征产品的产品信息、表征领域的领域信息中的至少一个。
组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的职能信息、品牌信息、产品信息、领域信息中的至少一个。
根据本公开实施例的实体链接方法,通过上述操作可以从例如职能信息、品牌信息、产品信息、领域信息等自定义属性的维度进行实体召回,可以通过实体的更丰富的自定义属性提高实体链接的准确性。
示例性地,根据本公开又一实施例的实体链接方法,候选实体包括第五候选实体。例如可以利用以下实施例实现根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体的具体示例:根据引用文本的解析结果,确定引用文本对应的读音信息。根据引用文本对应的读音信息与组织机构知识库中的组织机构实体进行匹配,确定第五候选实体。
组织机构实体的自定义属性包括读音属性,读音属性用于表征组织机构名称的读音。
根据本公开实施例的实体链接方法,通过上述操作还可以从读音属性的维度进行实体召回,可以通过实体的更丰富的自定义属性提高实体链接的准确性。
示例性地,考虑到组织机构实体的名称包括地址信息、字号信息、类别信息等多种信息,这些信息中例如字号(字号是实质性的名称)对于准确匹配实体更重要,例如还可以通过引用文本的解析结果,确定引用文本的字号信息,并根据引用文本对应的字号信息的读音信息与组织机构知识库中的组织机构实体进行匹配,确定第五候选实体。对应地,在构建组织机构知识库阶段,组织机构实体的读音属性例如可以是该组织机构实体的字号信息的读音信息。
示例性地,根据本公开又一实施例的实体链接方法,候选实体包括第六候选实体。例如可以利用以下实施例实现根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体的具体示例:根据引用文本的解析结果,确定引用文本对应的人物信息;根据引用文本对应的人物信息与人物映射词典,确定候选人物信息;以及将候选人物信息与组织机构知识库中的组织机构实体进行匹配,确定第六候选实体。
组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的人物信息。
根据本公开实施例的实体链接方法,组织机构知识库的知识词典包括人物映射词典,通过根据引用文本对应的人物信息与人物映射词典,确定候选人物信息;以及将候选人物信息与组织机构知识库中的组织机构实体进行匹配,确定第六候选实体,可以从人物信息的维度进行实体召回,提高实体链接的准确性,适应于人物信息与组织机构相关联的场景。
示例性地,例如可以通过中文词类知识标注工具WordTag确定引用文本中的人物信息。
示例性地,根据本公开又一实施例的实体链接方法,例如可以利用以下实施例实现根据候选实体与引用文本之间的相关性,确定与引用文本链接的目标实体的具体示例:根据候选实体的基准评估值和权重,确定候选实体的相关性评估值。根据候选实体的相关性评估值,从候选实体中确定目标实体。
候选实体包括第一候选实体、第二候选实体、第三候选实体、第四候选实体、第五候选实体以及第六候选实体中的至少一个。
示例性地,基准评估值和权重例如可以预先确定。基准评估值和权重例如还可以调整。
根据本公开实施例的实体链接方法,通过根据候选实体的基准评估值和权重,确定候选实体的相关性评估值以及根据候选实体的相关性评估值,可以准确地从候选实体中确定与引用文本更相关的目标实体,通过可调整的基准评估值和权重还可以适应不同场景下的需求,具有更高的灵活性。
示例性地,例如可以将第一候选实体、第二候选实体、第三候选实体、第四候选实体、第五候选实体以及第六候选实体中的至少一个转换为词向量并进行拼接,得到候选实体词向量,可以将候选实体词向量输入排序模型,得到目标向量。
排序模型例如可以是相似度匹配模型、二分类模型以及多分类模型等(例如如图1B-图1C所示)。
示例性地,根据本公开又一实施例的实体链接方法,例如可以利用以下实施例实现根据候选实体的基准评估值和权重,确定候选实体的相关性评估值的具体示例:对候选实体进行解析,得到候选实体的构词成分。针对任意一个候选实体,根据构词成分的基准评估值和权重,确定候选实体的相关性评估值。
示例性地,例如可以通过将候选实体的组织机构名称输入序列标注模型,由该序列标注模型对候选实体的组织机构名称进行解析,得到候选实体的组织机构名称的构词成分。
根据本公开实施例的实体链接方法,通过对候选实体进行解析,可以得到候选实体的更加细粒度的构词成分。针对任意一个候选实体,根据构词成分的基准评估值和权重,确定的候选实体的相关性评估值更加准确,后续根据候选实体确定的目标实体也更加准确,即实体链接的准确性和效率更高。
图5示意性示出了根据本公开又一实施例的实体链接方法的示意图。
如图5所示,输入文本为“市卫健委:上海疫情总体较平稳,近期感染者均为有外省市旅居史的人员及关联人员|疫情防控发布会”。该输入文本中的引用文本mention为市卫健委。通过对引用文本进行实体类别识别(图5中的“概念识别”即为“实体类别识别”),可以确定该引用文本的实体类别为组织机构(利用图5中的“组织机构类”表征组织机构这一实体类别),还可以根据引入文本以及输入文本中的地址信息,确定与该引入文本相关的地址信息为“上海市”。还可以根据该引用文本的解析结果确定对应的组织机构名称简称“市卫健委”。
在确定候选实体阶段,可以通过地址匹配、同类词词典匹配、组织机构名称全称匹配、组织机构名称简称匹配、读音属性匹配、人物信息匹配以及例如品牌信息、产品信息等描述属性匹配等。由此可以召回候选实体。在图5的示例中,并没有从“市卫健委”这一引用文本中解析得到人物信息,因此不用将引用文本与人物映射词典进行比较。
在确定目标实体阶段,例如可以对每一个候选实体的相关性评估值进行排序,例如可以将排序在首位和/或相关性评估值大于预定阈值的候选实体作为目标实体。如果所有的候选实体的相关性评估值均小于预定阈值,则可以认为当前的引用文本无法从组织机构知识库中链接到目标实体。在图5的示例中,引用文本对应的构词成分包括“卫健委”和地址信息“上海市”,“卫健委”的基准评估值为3,地址信息“上海市”的基准评估值为2,两者的权重例如可以是相同的。
在图5的示例中,可以从组织机构知识库中链接到目标实体,该目标实体为“上海市卫生健康委员会”。
在图5的示例中,利用“离线知识库”表征组织机构知识库,“组织机构库”例如包括组织机构实体,知识词典包括同类别词典(即类型同义词词典)、人物映射词典(即特殊人物-组织机构映射表)、简称词典(即政府机构简称词典)。
图6示意性示出了根据本公开一实施例的知识库构建装置的框图。
如图6所示,本公开实施例的知识库构建装置600例如包括组织机构实体确定模块610、知识库构建模块620。
组织机构实体确定模块610,用于根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征。
知识库构建模块620,用于根据组织机构实体,构建组织机构知识库。
示例性地,知识库构建模块包括:类别信息确定子模块,用于对组织机构实体进行结构化,确定用于表征组织机构类别的类别信息,其中,组织机构实体包括组织机构名称,组织机构名称包括类别信息;类别簇确定子模块,用于对类别信息进行聚类,确定至少一个组织机构类别簇;知识词典确定子模块,用于根据组织机构类别簇,确定组织机构类别的知识词典;以及知识库确定子模块,用于根据知识词典和组织机构实体,构建组织机构知识库。
示例性地,知识词典确定子模块包括:同类别信息确定单元,用于根据关联同一个组织机构类别簇的类别信息,确定同类别信息;以及同类别词典确定单元,用于根据同类别信息,确定同类别词典。
示例性地,知识词典还包括简称词典;知识词典确定子模块包括:简称集合确定单元,用于针对任意一个组织机构类别簇,根据组织机构名称的解析结果,确定每一个组织机构的简称集合;以及简称词典确定单元,用于根据每一个组织机构的简称集合,确定组织机构类别的简称词典。
示例性地,简称集合确定单元包括:简称集合确定子单元,用于针对任意一个组织机构类别簇,根据组织机构名称的解析结果和简称组合规则,确定每一个组织机构的简称集合,其中,简称组合规则表征由组织机构名称的组成部分生成组织机构名称简称的规则,组织机构名称的组成部分是由组织机构名称解析得到的。
示例性地,知识词典还包括用于表征人物信息与组织机构实体之间的映射关系的人物映射词典。
示例性地,自定义属性包括描述属性、读音属性中的至少一个;描述属性用于表征组织机构实体相关的职能信息、品牌信息、产品信息、领域信息、地址信息、组织机构名称简称、组织机构名称全称、人物信息中的至少一个;读音属性用于表征组织机构名称的读音。
图7示意性示出了根据本公开一实施例的实体链接装置的框图。
如图7所示,本公开实施例的实体链接装置700例如包括引用文本确定模块710、候选实体确定模块720以及目标实体确定模块730。
引用文本确定模块710,用于确定输入文本中的引用文本。
候选实体确定模块720,用于根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体。
目标实体确定模块730,用于根据候选实体,确定与引用文本链接的目标实体。
组织机构知识库是利用以下模块构建得到的:知识库构建模块,用于组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
示例性地,候选实体包括第一候选实体;候选实体确定模块包括:地址信息确定子模块,用于根据引用文本对应的输入文本以及引用文本的解析结果,确定引用文本对应的地址信息;以及第一候选实体确定子模块,用于将引用文本对应的地址信息与组织机构知识库中的组织机构实体进行匹配,确定第一候选实体,其中,组织机构实体的自定义属性包括描述属性,描述属性用于表征组织机构实体相关的地址信息。
示例性地,第一候选实体确定子模块包括:层级匹配单元,用于将引用文本对应的地址信息与组织机构知识库中的组织机构实体,基于地址层级结构的每一个层级地址进行匹配,得到每一个层级地址的匹配结果;以及第一候选实体确定单元,用于根据每一个层级地址的匹配结果,确定第一候选实体,其中,地址层级结构包括行政区划地址,行政区划地址包括多个层级地址。
示例性地,候选实体确定模块包括:实体类别确定子模块,用于对引用文本进行实体类别识别,得到引用文本相关的实体类别;以及候选实体确定子模块,用于根据引用文本的实体类别与组织机构实体的实体类别两者之间的相关性,确定与引用文本相关的候选实体。
示例性地,候选实体确定模块包括:实体类别确定子模块,用于对引用文本进行实体类别识别,得到引用文本相关的实体类别;以及候选实体确定子模块,用于根据引用文本的实体类别与组织机构实体的实体类别两者之间的相关性,确定与引用文本相关的候选实体。
示例性地,候选实体包括第二候选实体;候选实体确定模块包括:简称确定子模块,用于根据引用文本的解析结果,确定引用文本对应的组织机构名称简称;候选简称确定子模块,用于根据引用文本对应的组织机构名称简称与简称词典,确定候选简称;以及第二候选实体确定子模块,用于将候选简称与组织机构知识库中的组织机构实体进行匹配,确定第二候选实体,其中,组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的组织机构名称简称。
示例性地,候选实体包括第三候选实体;候选实体确定模块包括:全称确定子模块,用于根据引用文本的解析结果,确定引用文本对应的组织机构名称全称;以及第三候选实体确定子模块,用于根据引用文本对应的组织机构名称全称与组织机构知识库中的组织机构实体进行匹配,确定第三候选实体,其中,组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的组织机构名称全称。
示例性地,候选实体包括第四候选实体;候选实体确定模块包括:信息确定子模块,用于根据引用文本的解析结果,确定引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个;以及第四候选实体确定子模块,用于根据引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个与组织机构知识库中的组织机构实体进行匹配,确定第四候选实体,其中,组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的职能信息、品牌信息、产品信息、领域信息中的至少一个。
示例性地,候选实体包括第五候选实体;候选实体确定模块包括:读音信息确定子模块,用于根据引用文本的解析结果,确定引用文本对应的读音信息;以及第五候选实体确定子模块,用于根据引用文本对应的读音信息与组织机构知识库中的组织机构实体进行匹配,确定第五候选实体,其中,组织机构实体的自定义属性包括读音属性,读音属性用于表征组织机构名称的读音。
示例性地,候选实体包括第六候选实体;候选实体确定模块包括:人物信息确定子模块,用于根据引用文本的解析结果,确定引用文本对应的人物信息;候选人物信息确定子模块,用于根据引用文本对应的人物信息与人物映射词典,确定候选人物信息;以及第六候选实体确定子模块,用于将候选人物信息与组织机构知识库中的组织机构实体进行匹配,确定第六候选实体,其中,组织机构实体的自定义属性包括描述属性,描述属性还用于表征组织机构实体相关的人物信息。
示例性地,目标实体确定模块包括:相关性评估值确定子模块,用于根据候选实体的基准评估值和权重,确定候选实体的相关性评估值;以及目标实体确定子模块,用于根据候选实体的相关性评估值,从候选实体中确定目标实体,其中,候选实体包括第一候选实体、第二候选实体、第三候选实体、第四候选实体、第五候选实体以及第六候选实体中的至少一个。
示例性地,相关性评估值确定子模块包括:构词成分确定单元,用于对候选实体进行解析,得到候选实体的构词成分;以及相关性评估值确定单元,用于针对任意一个候选实体,根据构词成分的基准评估值和权重,确定候选实体的相关性评估值。
应该理解,本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似,所解决的技术问题和所达到的技术效果也对应相同或类似,本公开在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如知识库构建方法、实体链接方法。例如,在一些实施例中,知识库构建方法、实体链接方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的知识库构建方法、实体链接方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行知识库构建方法、实体链接方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (39)
1.一种知识库构建方法,包括:
根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及
根据所述组织机构实体,构建组织机构知识库。
2.根据权利要求1所述的方法,其中,所述根据所述组织机构实体,构建组织机构知识库包括:
对所述组织机构实体进行结构化,确定用于表征组织机构类别的类别信息,其中,所述组织机构实体包括组织机构名称,所述组织机构名称包括所述类别信息;
对所述类别信息进行聚类,确定至少一个组织机构类别簇;
根据所述组织机构类别簇,确定所述组织机构类别的知识词典;以及
根据所述知识词典和所述组织机构实体,构建所述组织机构知识库。
3.根据权利要求2所述的方法,其中,所述知识词典包括同类别词典;所述根据所述组织机构类别簇,确定所述组织机构类别的知识词典包括:
根据关联同一个所述组织机构类别簇的所述类别信息,确定同类别信息;以及
根据所述同类别信息,确定所述同类别词典。
4.根据权利要求2所述的方法,其中,所述知识词典还包括简称词典;所述根据所述组织机构类别簇,确定所述组织机构类别的知识词典包括:
针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果,确定每一个所述组织机构的简称集合;以及
根据每一个所述组织机构的简称集合,确定所述组织机构类别的简称词典。
5.根据权利要求4所述的方法,其中,所述针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果,确定每一个组织机构的简称集合包括:
针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果和简称组合规则,确定每一个组织机构的简称集合,其中,所述简称组合规则表征由所述组织机构名称的组成部分生成组织机构名称简称的规则,所述组织机构名称的组成部分是由所述组织机构名称解析得到的。
6.根据权利要求2所述的方法,其中,所述知识词典还包括用于表征人物信息与所述组织机构实体之间的映射关系的人物映射词典。
7.根据权利要求1-6中任一项所述的方法,其中,所述自定义属性包括描述属性、读音属性中的至少一个;所述描述属性用于表征所述组织机构实体相关的职能信息、品牌信息、产品信息、领域信息、地址信息、组织机构名称简称、组织机构名称全称、人物信息中的至少一个;所述读音属性用于表征所述组织机构名称的读音。
8.一种实体链接方法,包括:
确定输入文本中的引用文本;
根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体;
根据所述候选实体,确定与所述引用文本链接的目标实体,其中,所述组织机构知识库是利用以下操作构建得到的:
根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及
根据所述组织机构实体,构建组织机构知识库。
9.根据权利要求8所述的方法,其中,所述候选实体包括第一候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:
根据所述引用文本对应的输入文本以及所述引用文本的解析结果,确定所述引用文本对应的地址信息;以及
将所述引用文本对应的地址信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第一候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性用于表征所述组织机构实体相关的地址信息。
10.根据权利要求9所述的方法,其中,所述将所述引用文本对应的地址信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第一候选实体包括:
将所述引用文本对应的地址信息与所述组织机构知识库中的所述组织机构实体,基于地址层级结构的每一个层级地址进行匹配,得到每一个所述层级地址的匹配结果;以及
根据每一个所述层级地址的匹配结果,确定所述第一候选实体,其中,所述地址层级结构包括行政区划地址,所述行政区划地址包括多个所述层级地址。
11.根据权利要求8所述的方法,其中,所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:
对所述引用文本进行实体类别识别,得到所述引用文本相关的实体类别;以及
根据所述引用文本的实体类别与组织机构实体的实体类别两者之间的相关性,确定与所述引用文本相关的候选实体。
12.根据权利要求8-11中任一项所述的方法,其中,所述候选实体包括第二候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:
根据所述引用文本的解析结果,确定所述引用文本对应的组织机构名称简称;
根据所述引用文本对应的组织机构名称简称与简称词典,确定候选简称;以及
将所述候选简称与所述组织机构知识库中的组织机构实体进行匹配,确定所述第二候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的组织机构名称简称。
13.根据权利要求8-11中任一项所述的方法,其中,所述候选实体包括第三候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:
根据所述引用文本的解析结果,确定所述引用文本对应的组织机构名称全称;以及
根据所述引用文本对应的组织机构名称全称与所述组织机构知识库中的组织机构实体进行匹配,确定所述第三候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的组织机构名称全称。
14.根据权利要求8-11中任一项所述的方法,其中,所述候选实体包括第四候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:
根据所述引用文本的解析结果,确定所述引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个;以及
根据所述引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个与所述组织机构知识库中的组织机构实体进行匹配,确定所述第四候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的职能信息、品牌信息、产品信息、领域信息中的至少一个。
15.根据权利要求8-11中任一项所述的方法,其中,所述候选实体包括第五候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:
根据所述引用文本的解析结果,确定所述引用文本对应的读音信息;以及
根据所述引用文本对应的读音信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第五候选实体,其中,所述组织机构实体的所述自定义属性包括读音属性,所述读音属性用于表征所述组织机构名称的读音。
16.根据权利要求8-11中任一项所述的方法,其中,所述候选实体包括第六候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:
根据所述引用文本的解析结果,确定所述引用文本对应的人物信息;
根据所述引用文本对应的人物信息与人物映射词典,确定候选人物信息;以及
将所述候选人物信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第六候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的人物信息。
17.根据权利要求8-11中任一项所述的方法,其中,所述根据所述候选实体与所述引用文本之间的相关性,确定与所述引用文本链接的目标实体包括:
根据所述候选实体的基准评估值和权重,确定所述候选实体的相关性评估值;以及
根据所述候选实体的所述相关性评估值,从所述候选实体中确定所述目标实体,其中,所述候选实体包括所述第一候选实体、所述第二候选实体、所述第三候选实体、所述第四候选实体、所述第五候选实体以及所述第六候选实体中的至少一个。
18.根据权利要求17所述的方法,其中,所述根据所述候选实体的基准评估值和权重,确定所述候选实体的相关性评估值包括:
对所述候选实体进行解析,得到所述候选实体的构词成分;以及
针对任意一个所述候选实体,根据所述构词成分的基准评估值和权重,确定所述候选实体的相关性评估值。
19.一种知识库构建装置,包括:
组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及
知识库构建模块,用于根据所述组织机构实体,构建组织机构知识库。
20.根据权利要求19所述的装置,其中,所述知识库构建模块包括:
类别信息确定子模块,用于对所述组织机构实体进行结构化,确定用于表征组织机构类别的类别信息,其中,所述组织机构实体包括组织机构名称,所述组织机构名称包括所述类别信息;
类别簇确定子模块,用于对所述类别信息进行聚类,确定至少一个组织机构类别簇;
知识词典确定子模块,用于根据所述组织机构类别簇,确定所述组织机构类别的知识词典;以及
知识库确定子模块,用于根据所述知识词典和所述组织机构实体,构建所述组织机构知识库。
21.根据权利要求20所述的装置,其中,所述知识词典包括同类别词典;所述知识词典确定子模块包括:
同类别信息确定单元,用于根据关联同一个所述组织机构类别簇的所述类别信息,确定同类别信息;以及
同类别词典确定单元,用于根据所述同类别信息,确定所述同类别词典。
22.根据权利要求20所述的装置,其中,所述知识词典还包括简称词典;所述知识词典确定子模块包括:
简称集合确定单元,用于针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果,确定每一个所述组织机构的简称集合;以及
简称词典确定单元,用于根据每一个所述组织机构的简称集合,确定所述组织机构类别的简称词典。
23.根据权利要求22所述的装置,其中,所述简称集合确定单元包括:
简称集合确定子单元,用于针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果和简称组合规则,确定每一个组织机构的简称集合,其中,所述简称组合规则表征由所述组织机构名称的组成部分生成组织机构名称简称的规则,所述组织机构名称的组成部分是由所述组织机构名称解析得到的。
24.根据权利要求20所述的装置,其中,所述知识词典还包括用于表征人物信息与所述组织机构实体之间的映射关系的人物映射词典。
25.根据权利要求19-24中任一项所述的装置,其中,所述自定义属性包括描述属性、读音属性中的至少一个;所述描述属性用于表征所述组织机构实体相关的职能信息、品牌信息、产品信息、领域信息、地址信息、组织机构名称简称、组织机构名称全称、人物信息中的至少一个;所述读音属性用于表征所述组织机构名称的读音。
26.一种实体链接装置,包括:
引用文本确定模块,用于确定输入文本中的引用文本;
候选实体确定模块,用于根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体;
目标实体确定模块,用于根据所述候选实体,确定与所述引用文本链接的目标实体,其中,所述组织机构知识库是利用以下模块构建得到的:
知识库构建模块,用于组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及
根据所述组织机构实体,构建组织机构知识库。
27.根据权利要求26所述的装置,其中,所述候选实体包括第一候选实体;所述候选实体确定模块包括:
地址信息确定子模块,用于根据所述引用文本对应的输入文本以及所述引用文本的解析结果,确定所述引用文本对应的地址信息;以及
第一候选实体确定子模块,用于将所述引用文本对应的地址信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第一候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性用于表征所述组织机构实体相关的地址信息。
28.根据权利要求27所述的装置,其中,所述第一 候选实体确定子模块包括:
层级匹配单元,用于将所述引用文本对应的地址信息与所述组织机构知识库中的所述组织机构实体,基于地址层级结构的每一个层级地址进行匹配,得到每一个所述层级地址的匹配结果;以及
第一候选实体确定单元,用于根据每一个所述层级地址的匹配结果,确定所述第一候选实体,其中,所述地址层级结构包括行政区划地址,所述行政区划地址包括多个所述层级地址。
29.根据权利要求26所述的装置,其中,所述候选实体确定模块包括:
实体类别确定子模块,用于对所述引用文本进行实体类别识别,得到所述引用文本相关的实体类别;以及
候选实体确定子模块,用于根据所述引用文本的实体类别与组织机构实体的实体类别两者之间的相关性,确定与所述引用文本相关的候选实体。
30.根据权利要求26-29中任一项所述的装置,其中,所述候选实体包括第二候选实体;所述候选实体确定模块包括:
简称确定子模块,用于根据所述引用文本的解析结果,确定所述引用文本对应的组织机构名称简称;
候选简称确定子模块,用于根据所述引用文本对应的组织机构名称简称与简称词典,确定候选简称;以及
第二候选实体确定子模块,用于将所述候选简称与所述组织机构知识库中的组织机构实体进行匹配,确定所述第二候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的组织机构名称简称。
31.根据权利要求26-29中任一项所述的装置,其中,所述候选实体包括第三候选实体;所述候选实体确定模块包括:
全称确定子模块,用于根据所述引用文本的解析结果,确定所述引用文本对应的组织机构名称全称;以及
第三候选实体确定子模块,用于根据所述引用文本对应的组织机构名称全称与所述组织机构知识库中的组织机构实体进行匹配,确定所述第三候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的组织机构名称全称。
32.根据权利要求26-29中任一项所述的装置,其中,所述候选实体包括第四候选实体;所述候选实体确定模块包括:
信息确定子模块,用于根据所述引用文本的解析结果,确定所述引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个;以及
第四候选实体确定子模块,用于根据所述引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个与所述组织机构知识库中的组织机构实体进行匹配,确定所述第四候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的职能信息、品牌信息、产品信息、领域信息中的至少一个。
33.根据权利要求26-29中任一项所述的装置,其中,所述候选实体包括第五候选实体;所述候选实体确定模块包括:
读音信息确定子模块,用于根据所述引用文本的解析结果,确定所述引用文本对应的读音信息;以及
第五候选实体确定子模块,用于根据所述引用文本对应的读音信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第五候选实体,其中,所述组织机构实体的所述自定义属性包括读音属性,所述读音属性用于表征所述组织机构名称的读音。
34.根据权利要求26-29中任一项所述的装置,其中,所述候选实体包括第六候选实体;所述候选实体确定模块包括:
人物信息确定子模块,用于根据所述引用文本的解析结果,确定所述引用文本对应的人物信息;
候选人物信息确定子模块,用于根据所述引用文本对应的人物信息与人物映射词典,确定候选人物信息;以及
第六候选实体确定子模块,用于将所述候选人物信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第六候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的人物信息。
35.根据权利要求26-29中任一项所述的装置,其中,所述目标实体确定模块包括:
相关性评估值确定子模块,用于根据所述候选实体的基准评估值和权重,确定所述候选实体的相关性评估值;以及
目标实体确定子模块,用于根据所述候选实体的所述相关性评估值,从所述候选实体中确定所述目标实体,其中,所述候选实体包括所述第一候选实体、所述第二候选实体、所述第三候选实体、所述第四候选实体、所述第五候选实体以及所述第六候选实体中的至少一个。
36.根据权利要求35所述的装置,其中,所述相关性评估值确定子模块包括:
构词成分确定单元,用于对所述候选实体进行解析,得到所述候选实体的构词成分;以及
相关性评估值确定单元,用于针对任意一个所述候选实体,根据所述构词成分的基准评估值和权重,确定所述候选实体的相关性评估值。
37.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法或者8-18中任一项所述的方法。
38.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法或者8-18中任一项所述的方法。
39.一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法或者8-18中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310269188.9A CN116258138B (zh) | 2023-03-15 | 2023-03-15 | 知识库构建方法、实体链接方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310269188.9A CN116258138B (zh) | 2023-03-15 | 2023-03-15 | 知识库构建方法、实体链接方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116258138A true CN116258138A (zh) | 2023-06-13 |
CN116258138B CN116258138B (zh) | 2024-01-02 |
Family
ID=86687899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310269188.9A Active CN116258138B (zh) | 2023-03-15 | 2023-03-15 | 知识库构建方法、实体链接方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116258138B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110225155A1 (en) * | 2010-03-10 | 2011-09-15 | Xerox Corporation | System and method for guiding entity-based searching |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和*** |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN111428478A (zh) * | 2020-03-20 | 2020-07-17 | 北京百度网讯科技有限公司 | 一种词条同义判别的寻证方法、装置、设备和存储介质 |
CN112182312A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 一种机构名称匹配方法、装置、电子设备及可读存储介质 |
CN114328937A (zh) * | 2022-03-10 | 2022-04-12 | 中国医学科学院医学信息研究所 | 一种科研机构信息处理方法及装置 |
CN115757689A (zh) * | 2022-09-21 | 2023-03-07 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种信息查询***、方法及设备 |
-
2023
- 2023-03-15 CN CN202310269188.9A patent/CN116258138B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110225155A1 (en) * | 2010-03-10 | 2011-09-15 | Xerox Corporation | System and method for guiding entity-based searching |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和*** |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN111428478A (zh) * | 2020-03-20 | 2020-07-17 | 北京百度网讯科技有限公司 | 一种词条同义判别的寻证方法、装置、设备和存储介质 |
CN112182312A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 一种机构名称匹配方法、装置、电子设备及可读存储介质 |
CN114328937A (zh) * | 2022-03-10 | 2022-04-12 | 中国医学科学院医学信息研究所 | 一种科研机构信息处理方法及装置 |
CN115757689A (zh) * | 2022-09-21 | 2023-03-07 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种信息查询***、方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116258138B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN110727779A (zh) | 基于多模型融合的问答方法及*** | |
EP3729231A1 (en) | Domain-specific natural language understanding of customer intent in self-help | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN110737774A (zh) | 图书知识图谱的构建、图书推荐方法、装置、设备及介质 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN111538815A (zh) | 一种文本查询方法、装置、设备及存储介质 | |
Mehrbod et al. | Tender calls search using a procurement product named entity recogniser | |
CN111966781A (zh) | 数据查询的交互方法及装置、电子设备和存储介质 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN114357951A (zh) | 生成标准报告的方法、装置、设备及存储介质 | |
CN112597768B (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN110457436B (zh) | 信息标注方法、装置、计算机可读存储介质及电子设备 | |
CN111555960A (zh) | 信息生成的方法 | |
CN112906368A (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN110019714A (zh) | 基于历史结果的多意图查询方法、装置、设备及存储介质 | |
CN114201622B (zh) | 获取事件信息的方法、装置、电子设备和存储介质 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN111125445A (zh) | 社区主题生成方法、装置、电子设备及存储介质 | |
CN116258138B (zh) | 知识库构建方法、实体链接方法、装置及设备 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
CN115048523A (zh) | 文本分类方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |