CN114595686A - 知识抽取方法、知识抽取模型的训练方法及装置 - Google Patents

知识抽取方法、知识抽取模型的训练方法及装置 Download PDF

Info

Publication number
CN114595686A
CN114595686A CN202210239483.5A CN202210239483A CN114595686A CN 114595686 A CN114595686 A CN 114595686A CN 202210239483 A CN202210239483 A CN 202210239483A CN 114595686 A CN114595686 A CN 114595686A
Authority
CN
China
Prior art keywords
entity
target
text block
knowledge
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210239483.5A
Other languages
English (en)
Other versions
CN114595686B (zh
Inventor
夏琦
黄昉
史亚冰
蒋烨
柴春光
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210239483.5A priority Critical patent/CN114595686B/zh
Publication of CN114595686A publication Critical patent/CN114595686A/zh
Application granted granted Critical
Publication of CN114595686B publication Critical patent/CN114595686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种知识抽取方法、知识抽取模型的训练方法及装置,涉及计算机技术领域,尤其涉及知识图谱等人工智能技术领域。实现方案为:获取第一实体、所述第一实体的待抽取的目标关系和第一实体对应的知识文本,所述知识文本包括至少一个文本块;基于所述第一实体和所述目标关系,从所述至少一个文本块中确定目标文本块;以及从所述目标文本块中抽取与所述第一实体具有所述目标关系的第二实体。

Description

知识抽取方法、知识抽取模型的训练方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及知识图谱等人工智能技术领域,具体涉及一种知识抽取方法及装置、知识抽取模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
知识图谱是一种结构化的语义知识库,其可以被表示为由节点和边组成的网络拓扑图的形式,其中节点代表实体,节点之间的边代表实体之间的关系。知识图谱具有极强的知识表达能力和灵活性,能够为信息检索、机器问答、内容推荐等不同应用场景提供知识支持。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种知识抽取方法及装置、知识抽取模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种知识抽取方法,包括:获取第一实体、所述第一实体的待抽取的目标关系和所述第一实体对应的知识文本,所述知识文本包括至少一个文本块;基于所述第一实体和所述目标关系,从所述至少一个文本块中确定目标文本块;以及从所述目标文本块中抽取与所述第一实体具有所述目标关系的第二实体。
根据本公开的一方面,提供了一种知识抽取模型的训练方法,包括:从目标数据中提取三元组和文本块,所述三元组包括第一实体、关系和与所述第一实体具有所述关系的第二实体,所述文本块包括至少一个语句;基于所述三元组,生成所述文本块的分类标签,所述分类标签用于指示所述文本块是否包括所述第二实体;基于所述三元组、所述文本块和所述分类标签,生成所述知识抽取模型的训练样本;以及基于所述训练样本,训练所述知识抽取模型。
根据本公开的一方面,提供了一种知识抽取装置,包括:获取模块,被配置为获取第一实体、所述第一实体的待抽取的目标关系和所述第一实体对应的知识文本,所述知识文本包括至少一个文本块;确定模块,被配置为基于所述第一实体和所述目标关系,从所述至少一个文本块中确定目标文本块;以及抽取模块,被配置为从所述目标文本块中抽取与所述第一实体具有所述目标关系的第二实体。
根据本公开的一方面,提供了一种知识抽取模型的训练装置,包括:提取模块,被配置为从目标数据中提取三元组和文本块,所述三元组包括第一实体、关系和与所述第一实体具有所述关系的第二实体,所述文本块包括至少一个语句;标签生成模块,被配置为基于所述三元组,生成所述文本块的分类标签,所述分类标签用于指示所述文本块是否包括所述第二实体;样本生成模块,被配置为基于所述三元组、所述文本块和所述分类标签,生成所述知识抽取模型的训练样本;以及训练模块,被配置为基于所述训练样本,训练所述知识抽取模型。
根据本公开的一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器,该存储器存储有可被上述至少一个处理器执行的指令,该指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述任一方面的方法。
根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行上述任一方面的方法。
根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述任一方面的方法。
根据本公开的一个或多个实施例,能够提高知识抽取的效率和准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开实施例的可以在其中实施本文描述的各种方法的示例性***的示意图;
图2示出了根据本公开实施例的知识抽取方法的流程图;
图3示出了根据本公开实施例的知识查询界面的示意图;
图4示出了根据本公开实施例的知识抽取模型的训练方法的流程图;
图5示出了根据本公开实施例的目标数据中的第一实体、键值对和文本块的示意图;
图6示出了根据本公开实施例的训练样本的生成过程的示意图;
图7示出了根据本公开实施例的知识抽取***的示意图;
图8示出了根据本公开实施例的知识抽取装置的结构框图;
图9示出了根据本公开实施例的知识抽取模型的训练装置的结构框图;以及
图10示出了能够用于实现本公开实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
知识可以表示为形如(S,P,O)的三元组,即SPO三元组。其中,S(Subject)为第一实体,O(Object)为第二实体,P(Predicate)为第一实体与第二实体的关系。一个SPO三元组在知识图谱中呈现为两个相邻的节点(实体)及其连边(关系)。
在一些场景中,需要对原始语料进行知识挖掘,即,在给定第一实体S和关系P的情况下,从原始语料(例如文章、段落、语句等)中抽取出与第一实体S具有关系P的第二实体O,从而生成知识三元组(S,P,O)。所生成的知识三元组可以用于构建知识图谱、向用户提供知识问答服务等应用场景中。
在相关技术中,通常采用基于模版匹配或实体识别的方法来进行知识挖掘。
在模版匹配方法中,将预定义的模版与语料进行匹配,将匹配到的字符串作为第二实体O。模版由人工构建,构建效率低,需要消耗大量的人力和时间成本。并且,模版数量有限,难以全面覆盖各种语义场景,准确性低,容易发生知识抽取错误的问题。
在实体识别方法中,采用实体识别工具(例如命名实体识别模型)来抽取语料中的实体,然后采用分类器来判断该实体是否是关系P对应的第二实体O。通常地,语料中会识别出多个实体,并且存在一定的识别错误的概率。在识别出语料中的多个实体后,采用分类器对多个实体一一进行判别,容易导致不必要的计算和错误积累,计算效率和准确性较低。
并且,该方法需要人工对大量的语料进行标注,以训练实体识别工具和分类器。数据标注的成本高、效率低,难以获取大量的标注数据。而知识抽取效果与标注数据的数据量高度正相关,导致知识抽取的准确性较低。
针对上述问题,本公开实施例提供一种知识抽取方法和知识抽取模型的训练方法,以提高知识抽取的效率和准确性。
下面将结合附图详细描述本公开的实施例。
图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性***100的示意图。参考图1,该***100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。
在本公开的实施例中,服务器120可以运行使得能够执行知识抽取方法和/或知识抽取模型的训练方法的一个或多个服务或软件应用。
在某些实施例中,服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。
在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的***配置是可能的,其可以与***100不同。因此,图1是用于实施本文所描述的各种方法的***的一个示例,并且不旨在进行限制。
用户可以使用客户端设备101、102、103、104、105和/或106来进行导航。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备,但是本领域技术人员将能够理解,本公开可以支持任何数量的客户端设备。
客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏***、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作***,例如MICROSOFT Windows、APPLE iOS、类UNIX操作***、Linux或类Linux操作***(例如GOOGLE Chrome OS);或包括各种移动操作***,例如MICROSOFT WindowsMobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器(诸如智能眼镜)和其他设备。游戏***可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序,例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序,并且可以使用各种通信协议。
网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、Wi-Fi)和/或这些和/或其他网络的任意组合。
服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作***的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。
服务器120中的计算单元可以运行包括上述任何操作***以及任何商业上可用的服务器操作***的一个或多个操作***。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。
在一些实施方式中,服务器120可以包括一个或多个应用程序,以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序,以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。
在一些实施方式中,服务器120可以为分布式***的服务器,或者是结合了区块链的服务器。服务器120也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。
***100还可以包括一个或多个数据库130。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储诸如音乐文件的信息。数据库130可以驻留在各种位置。例如,由服务器120使用的数据库可以在服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库130可以是不同的类型。在某些实施例中,由服务器120使用的数据库例如可以是关系数据库或非关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件***支持的常规存储库。
图1的***100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。
图2示出了根据本公开实施例的知识抽取方法200的流程图。方法200通常在服务器(例如图1中所示的服务器120)处执行,也可以在客户端设备(例如图1中所示的客户端设备101、102、103、104、105和106)处执行。也即,方法200的各个步骤的执行主体可以是图1中所示的服务器120,也可以是客户端设备101、102、103、104、105和106。
如图2所示,方法200包括:
步骤210、获取第一实体、第一实体的待抽取的目标关系和第一实体对应的知识文本,知识文本包括至少一个文本块;
步骤220、基于第一实体和目标关系,从至少一个文本块中确定目标文本块;以及
步骤230、从目标文本块中抽取与第一实体具有目标关系的第二实体。
根据本公开的实施例,基于第一实体和目标关系,从知识文本中筛选出部分语句(即目标文本块),然后从筛选出的目标文本块中抽取第二实体,能够减少参与计算的文本数据量,从而提高计算效率。并且,通过筛选,能够保证目标文本块与第一实体和目标关系的相关性,从而提高知识抽取的准确性。
以下详细描述方法200的各个步骤。
在步骤210中,获取第一实体、第一实体的待抽取的目标关系和第一实体对应的知识文本,知识文本包括至少一个文本块。
在本公开的实施例中,步骤210中获取的第一实体、目标关系和步骤230中抽取得到的第二实体分别对应于SPO三元组中的S、P和O。
在本公开的实施例中,第一实体可以是任意类型的对象,例如人物、公司、地点、事件、抽象概念、技术术语等。
不同类型的实体可以与其他实体产生不同类型的关系,即,不同类型的实体具有不同类型的关系。例如,人物实体可以与其他人物实体具有父子、母子、夫妻、朋友等多种关系;公司实体可以与其他公司实体具有投资、担保等关系,与人物实体具有股东、高管、董事长等关系;等。
实体具有的关系可以作为该实体的属性(属性名),相应地,与实体具有该关系的其他实体可以作为该属性的属性值。例如,在上文的公司实体的例子中,公司实体可以与人物实体具有董事长关系,公司A的董事长是人物B,那么,“董事长”是公司A具有的关系(即属性、属性名),人物B是与公司A具有董事长关系的实体(即属性值)。
如上所述,应当理解,第一实体可以具有一种或多种不同类型的关系。
在本公开的实施例中,目标关系指的是第一实体的待抽取的关系,即,根据本公开的实施例抽取出的第二实体与第一实体具有目标关系。
在本公开的实施例中,第一实体对应的知识文本是用于描述该第一实体的纯文本内容。例如,第一实体可以是某个商业品牌,其对应的知识文本可以是用于介绍该商业品牌的百科网站页面中的文本内容,也可以是该商业品牌的官方网站中的文本内容。又例如,第一实体可以是某个技术术语,其对应的知识文本可以是用于介绍该技术术语的百科网站页面中的文本内容,也可以是以该技术术语为关键词的论文中的文本内容。
在本公开的实施例中,知识文本可以按照预设的粒度被划分为多个文本块。预设的粒度例如可以是语句、段落、章节等,相应地,每个文本块可以包括一个或多个语句。根据一些实施例,为了提高知识抽取的准确性,可以以语句为粒度来将知识文本划分为多个文本块,每个文本块包括一个语句。
根据一些实施例,步骤210中的第一实体、目标关系和知识文本可以是基于特定业务场景的知识抽取需求而获取的。例如,为了构建企业知识图谱,需要对企业文档进行知识抽取。相应地,在步骤210中,可以从企业文档中获取第一实体和目标关系,并将该企业文档作为相应的知识文本。
根据另一些实施例,步骤210中的第一实体、目标关系和知识文本可以是响应于用户发出的知识查询请求而获取的。
例如,用户可以通过客户端设备(例如图1中所示的客户端设备101-106)发送知识查询请求,知识查询请求包括第一实体、目标关系和知识文本,即,第一实体、目标关系和知识文本均由用户输入。相应地,在步骤210中,可以通过对用户发送的知识查询请求进行解析,以获取第一实体、目标关系和知识文本。
又例如,用户可以通过客户端设备发送知识查询请求,知识查询请求可以仅包括第一实体和目标关系,即,第一实体和目标关系由用户输入。相应地,在步骤210中,可以通过对用户发送的知识查询请求进行解析,以获取第一实体和目标关系。进一步地,基于获取到的第一实体,对数据库中已存储的多个候选文本进行搜索,以从中获取第一实体对应的知识文本。
如上所述,第一实体和目标关系可以由用户输入。但是,由于用户输入的不确定性和不规范性,用户输入的第一实体和目标关系可能并不匹配,即,用户输入的目标关系可能不是第一实体具有的关系。如果直接基于用户输入的第一实体和目标关系来进行知识抽取,很容易产生错误。
因此,根据一些实施例,在通过步骤210获取到第一实体和目标关系后,进一步判断第一实体和目标关系是否匹配。响应于第一实体和目标关系匹配,继续执行步骤220,以进行知识抽取。响应于第一实体和目标关系不匹配,结束方法200,进一步地,可以输出用于指示知识抽取失败的提示消息。基于该实施例,仅在第一实体与目标关系相匹配的情况下才进行知识抽取,能够保证第一实体与目标关系的相关性,避免不必要的计算,从而提高知识抽取的效率和准确性。
根据一些实施例,可以按照以下步骤来判断第一实体和目标关系是否匹配:获取目标关系对应的实体类型集合,实体类型集合包括与目标关系匹配的至少一个实体类型;以及响应于确定第一实体的类型属于实体类型集合,确定第一实体和目标关系匹配。
应当理解,某些关系仅有特定类型的实体才具有。通过设置实体类型集合并对实体类型集合进行查找,能够快速判断第一实体与目标关系的匹配性,从而提高知识抽取的效率。
例如,目标关系可以是“出道时间”。仅明星、演员、歌手等类型的实体才具有“出道时间”,相应地,“出道时间”对应的实体类型集合可以是{明星,演员,歌手}。若第一实体为“演员A”,则第一实体的类型为“演员”,属于实体类型集合,因此第一实体“演员A”与目标关系“出道时间”匹配;若第一实体为“素人B”,则第一实体的类型为“素人”,不属于实体类型集合,因此第一实体“素人B”与目标关系“出道时间”不匹配。
在步骤220中,基于第一实体和目标关系,从至少一个文本块中确定目标文本块。
根据一些实施例,步骤220可以包括:对于上述至少一个文本块中的任一文本块,将第一实体、目标关系和该文本块输入分类模型,以得到分类模型输出的该文本块是否包括第二实体的预测结果;以及响应于预测结果指示该文本块包括第二实体,将该文本块确定为目标文本块。
基于上述实施例,能够从知识文本中筛选出可能包含第二实体的目标文本块,从而减少待处理的文本数据量,并且提高知识抽取的准确性。并且,采用分类模型来判断文本块是否包括第二实体,能够提高文本块筛选的泛化性和灵活性。
分类模型可以是任意结构的神经网络模型。根据一些实施例,分类模型可以是在大规模预训练语言模型(例如ERNIE模型、BERT模型等)的基础上进行微调(fine-tuning)训练而得到。分类模型的训练过程可以参考下文的方法400。
在步骤230中,从目标文本块中抽取与第一实体具有目标关系的第二实体。
根据一些实施例,步骤230可以包括:将第一实体、目标关系和目标文本块输入槽填充模型,以得到槽填充模型输出的从目标文本块中提取出的目标短语;以及对目标短语进行规范化,以得到第二实体。
基于上述实施例,针对性地从目标文本块中抽取第二实体,能够提高知识抽取的准确性。采用槽填充模型来抽取第二实体,能够提高知识抽取的泛化性和灵活性。
槽填充模型可以是任意结构的神经网络模型。根据一些实施例,槽填充模型可以是在大规模预训练语言模型(例如ERNIE模型、BERT模型等)的基础上进行微调训练而得到。槽填充模型的训练过程可以参考下文的方法400。
槽填充模型输出的目标短语可能与预期抽取的第二实体不完全相同。因此,在本公开的实施例中,需要对槽填充模型输出的目标短语进行规范化,以得到第二实体。由此,能够提高抽取出的知识的质量,使之符合实际业务场景的需求。
例如,槽填充模型输出的目标短语可能包含多余的修饰词,例如“著名的演员张三”中的“著名的”。在这种情况下,可以通过识别停用词“的”并删除“的”之前的词来得到准确的第二实体“演员张三”。
又例如,在某些业务场景中,需要准确抽取人物的姓名,而不希望同时抽取出人物的职业、职位等信息。例如,“演员张三”中的“演员”,“CEO李四”中的“CEO”均为业务场景不希望抽取的信息。在这种情况下,可以基于预设的职业名称列表、职位名称列表,从目标短语中筛选出不必要的职业、职位信息并删除,从而得到符合业务场景需求的第二实体“张三”、“李四”。
又例如,在某些业务场景中,需要抽取精确到“日”的时间,例如2022年1月1日。精确到“年”或“月”的时间,例如2022年、2022年1月等,不符合业务场景需求。在这种情况下,可以通过设置正则表达式来识别不符合要求的目标短语并删除,从而实现第二实体的提纯和过滤。
基于方法200,可以得到与第一实体具有目标关系的第二实体,从而完成知识抽取。方法200可以被应用于不同的场景中。
根据一些实施例,方法200可以被应用于一些知识问答场景中。具体地,在该场景中,方法200进一步包括:接收用户发送的知识查询请求,知识查询请求包括第一实体、目标关系和知识文本;以及将第二实体作为知识查询请求的查询结果返回给用户。
根据一些实施例,方法200可以被应用于另一些知识问答场景中。具体地,在该场景中,方法200进一步包括:接收用户发送的知识查询请求,知识查询请求包括第一实体和目标关系;从多个候选文本中确定第一实体对应的知识文本;以及将第二实体作为知识查询请求的查询结果返回给用户。
图3示出了根据本公开实施例的客户端设备上的知识查询界面300的示意图。如图3所示,用户在搜索框310中输入查询语句“A是哪国的”,然后点击搜索按钮320,发起知识查询请求。服务器接收到用户发来的知识查询请求后,对该请求进行解析,从中提取出第一实体“A”和目标关系(属性名)“国”。随后,对数据库中已存储的多个百科网站页面进行查找,将百科词条“A”对应的百科页面中的文本内容作为知识文本。随后,基于上述步骤210-230,确定第一实体“A”的“国”属性的值,即第二实体“B”,并将第二实体“B”以及百科页面中的与第二实体“B”相关的段落返回给客户端设备。客户端设备接收到服务器返回的数据后,在答案框330处显示这些数据。进一步地,如图3所示,知识查询界面300还可以包括链接340,用户可以通过点击链接340来进入第一实体“A”的百科页面,以查看详情信息。
根据一些实施例,方法200可以被应用于知识图谱构建场景中。具体地,在该场景中,方法200进一步包括:基于由第一实体、目标关系和第二实体组成的三元组(即SPO三元组),构建知识图谱。
根据本公开的实施例,还提供了一种知识抽取模型的训练方法。知识抽取模型可以包括上文所述的分类模型和槽填充模型。
图4示出了根据本公开实施例的知识抽取模型的训练方法400的流程图。方法400通常在服务器(例如图1中所示的服务器120)处执行,也可以在客户端设备(例如图1中所示的客户端设备101-106)处执行。也即,方法400的各个步骤的执行主体可以是图1中所示的服务器120,也可以是客户端设备101-106。
如图4所示,方法400包括:
步骤410、从目标数据中提取三元组和文本块,三元组包括第一实体、关系和与第一实体具有上述关系的第二实体,文本块包括至少一个语句;
步骤420、基于三元组,生成文本块的分类标签,分类标签用于指示文本块是否包括第二实体;
步骤430、基于三元组、文本块和分类标签,生成知识抽取模型的训练样本;以及
步骤440、基于训练样本,训练知识抽取模型。
根据本公开的实施例,通过从目标数据中提取三元组、文本块及其分类标签来生成知识抽取模型的训练样本,无需人工标注即可自动生成大量训练样本,提高了模型训练的效率。并且,由于知识抽取模型的效果与样本数量高度正相关,因此根据本公开的实施例,能够提高知识抽取的准确性。
以下详细介绍方法400的各个步骤。
在步骤410中,从目标数据中提取三元组和文本块,三元组包括第一实体、关系和与第一实体具有上述关系的第二实体,文本块包括至少一个语句。
目标数据例如可以是文档、网页等,但不限于此。根据一些实施例,目标数据可以是百科网页。百科网页通常包括丰富的、结构化的数据,将百科网页作为用于生成训练样本的目标数据,能够提高样本的生成效率和质量,从而提高知识抽取模型的训练效率和质量。
根据一些实施例,从目标数据中提取三元组可以包括:确定目标数据对应的第一实体;从目标数据中提取键值对;以及基于键值对,确定上述关系和第二实体,其中,该关系对应于键值对中的键,第二实体对应于键值对中的值。
根据一些实施例,在目标数据为百科网页的情况下,相应地,可以将百科网页对应的百科词条作为第一实体(S)。
键值对即Key:Value形式的数据,每个键值对包括一个键Key(又称属性名)和一个值Value(又称属性值)。应当理解,目标数据可以包括多个键值对。
根据一些实施例,在目标数据为百科网页的情况下,可以对该百科网页的HTML源代码进行解析,从中提取出<table>、<dl>、<dt>、<dd>等表格标签所对应的数据,作为键值对。
进一步地,可以基于键值对来确定三元组中的关系(P)和第二实体(O)。具体地,关系(P)对应于键值对中的键(Key),即三元组中的关系是基于键值对中的键来生成的。第二实体(O)对应于键值对中的值(Value),即三元组中的第二实体是基于键值对中的值来生成的。
根据一些实施例,三元组中的关系(P)为键值对中的键(Key)或键的同义词,三元组中的第二实体(O)为键值对中的值(Value)。通过将关系设置为键或键的同义词,能够实现三元组数量的扩充,从而实现样本数量的扩充;同时,保持第二实体为键值对中的值,能够保证标签数据的准确性,从而保证知识抽取的准确性。
例如,第一实体(S)为“品牌A”。针对键值对“公司名称:甲乙丙丁”,键“公司名称”的同义词包括“名称”、“公司名”、“中文名”、“企业名称”等,相应地,可以将“公司名称”、“名称”、“公司名”、“中文名”、“企业名称”中的任一作为三元组中的关系(P),将值“甲乙丙丁”作为三元组中的第二实体(O)。可见,基于“公司名称:甲乙丙丁”一个键值对,可以生成五个三元组,实现了三元组数量的扩充。
根据一些实施例,在目标数据为网页(例如百科网页)的情况下,可以基于网页的源代码中的HTML标签,提取出源代码中的纯文本内容;以及基于预设粒度,将纯文本内容划分为至少一个文本块。具体地,可以解析该网页的HTML源代码,过滤掉源代码中的HTML标签(例如<head>、<style>、<div>等),提取出纯文本内容。进一步地,按照预设粒度(例如语句、段落、章节等)将提取出的纯文本内容划分为一个或多个文本块,每个文本块可以包括至少一个语句,从而便于并行处理,提高数据处理效率和知识抽取的准确性。
图5示出了根据本公开实施例的目标数据500中的第一实体、键值对和文本块的示意图。
目标数据500是百科词条A对应的百科网页。百科词条A即为第一实体,如图中的矩形框510所示。矩形框520示出了文本块,矩形框530示出了六个键值对532。
在步骤420中,基于三元组,生成文本块的分类标签,分类标签用于指示文本块是否包括第二实体。
分类标签例如可以包括正标签和负标签,其中,正标签指示文本块包括第二实体,负标签指示文本块不包括第二实体。
根据一些实施例,在目标数据为百科网页的情况下,由于百科网页总是与特定的百科词条,即第一实体相关,因此,可以认为百科网页中的所有文本块均包括第一实体(S)。相应地,对于百科网页中的文本块,可以通过判断该文本块是否同时包括关系(P)和第二实体(O)来确定该文本块的分类标签。若文本块同时包括关系(P)和第二实体(O),则将该文本块的分类标签确定为正标签;否则,将该文本块的分类标签确定为负标签。
根据另一些实施例,也可以仅通过判断文本块是否包括第二实体(O)来确定该文本块的分类标签,而不考虑该文本块是否包括第一实体(S)或关系(P)。若文本块包括第二实体(O),则将该文本块的分类标签确定为正标签;若文本块不包括第二实体(O),将该文本块的分类标签确定为负标签。
在步骤430中,基于三元组、文本块和分类标签,生成知识抽取模型的训练样本。
具体地,训练样本在分类标签指示文本块包括第二实体的情况下为正样本,在分类标签指示文本块不包括第二实体的情况下为负样本。换言之,在分类标签为正标签的情况下,训练样本为正样本;在分类标签为负标签的情况下,训练样本为负样本。
基于上述步骤410-430,通过对多组目标数据进行处理,能够自动生成大量的用于训练知识抽取模型的正、负样本。
图6示出了根据本公开实施例的训练样本的生成过程600的示意图。
如图6所示,在步骤630中,可以对百科集合中的各个百科网页的HTML源代码进行解析,从中提取出键值对。各个键值对中的键组成键集合620。
在步骤640中,扩展键的别名。具体地,对键集合620中的每个键进行同义词扩展,键的同义词也可以理解为键的别名。
在步骤650中,进行HTML清洗。具体地,对百科网页的HTML源代码进行解析和清洗,从中提取出纯文本内容,纯文本内容通常包括多个段落。
在步骤660中,将段落切分成语句。具体地,将步骤650提取出的各个段落进行切分,得到多个语句(即文本块)。
在步骤670中,生成正负样本。具体地,分别判断各语句是否包括某个键值对中的值,以生成各语句的分类标签,分类标签包括正标签和负标签。将百科网页对应的百科词条作为第一实体(S),将键值对中的键或键的别名作为关系(P),将键值对中的值作为第二实体(O),生成SPO三元组。将三元组、语句以及语句的分类标签进行组合,生成知识抽取模型的训练样本。若语句的分类标签为正标签,则相应的训练样本为正样本;若语句的分类标签为负标签,则相应的训练样本为负样本。
在步骤680中,平衡正负样本的数量。
在步骤690中,基于调整数量后的正负样本,生成训练样本数据集。
根据一些实施例,方法400还包括:调整用于训练知识抽取模型的正样本的第一数量和/或负样本的第二数量,以使第一数量与第二数量的比值为预设值。通过合理调整正负样本的数量,能够提高模型的知识抽取效果。
例如,对于下文的分类模型,可以将预设值设置为一个较小的数值,例如1:10。这是因为,通常在目标数据中,负标签文本块的数量远多于正标签文本块的数量。通过将预设值设置为较小的数值,可以使分类模型与实际数据情况相符,从而提高分类模型的准确性。
对于下文的槽填充模型,可以将预设值设置一个接近1的数值,例如设置为1:1。这是因为在经过分类模型的筛选后,筛选出的目标文本块大概率包括第二实体。
在通过步骤430生成训练样本后,可以执行步骤440,基于训练样本,训练知识抽取模型。
根据一些实施例,知识抽取模型包括分类模型和槽填充模型。其中,分类模型的输入为第一实体(S)、关系(P)和文本块,输出为该文本块是否包括SP对应的第二实体(O)。槽填充模型的输入为第一实体(S)、关系(P)和文本块,输出为从该文本块中抽取出的第二实体(O)。
根据一些实施例,基于训练样本,训练分类模型包括:将第一实体、关系和文本块输入分类模型,以得到分类模型输出的预测标签,预测标签用于指示文本块是否包括第二实体;基于预测标签和分类标签,确定分类模型的损失值;以及基于损失值,调整分类模型的参数。
根据一些实施例,基于训练样本,训练槽填充模型包括:将第一实体、关系和文本块输入槽填充模型,以得到槽填充模型输出的从文本块中提取出的预测实体;基于预测实体和第二实体,确定槽填充模型的损失值;以及基于损失值,调整槽填充模型的参数。
需要说明的是,在训练阶段,分类模型和槽填充模型可以分别训练。二者的训练过程相互独立,没有固定的先后顺序。
在应用阶段,分类模型和槽填充模型需要按照固定的顺序使用。具体地,首先,使用分类模型,识别出包括第二实体的目标文本块;然后,使用槽填充模型,从目标文本块中抽取出第二实体。
基于本公开实施例的方法400,可以得到训练后的知识抽取模型。训练后的知识抽取模型可以用于进行知识抽取,例如,用于执行上文的知识抽取方法200的步骤220和230。
本公开实施例的知识抽取模型的训练过程和应用过程可以进行组合,以得到本公开实施例的知识抽取***。
图7示出了根据本公开实施例的知识抽取***的数据处理过程的示意图。如图7所示,知识抽取***的数据处理过程包括训练态710和应用态720。
训练态710包括步骤712和713。
在步骤712中,生成训练数据。具体地,基于百科集合711中的各个百科网页,生成知识抽取模型的训练数据。
在步骤712中,训练模型。具体地,基于训练数据,对知识抽取模型进行训练,以得到训练后的模型。
应用态720包括步骤722-726。
在步骤722中,进行SP有效性判定。具体地,从用户输入的查询语句721中提取出第一实体S和目标关系P。随后,对SP的有效性进行判定,即,判断S和P是否匹配。
在步骤723中,生成输入数据。具体地,在步骤722判定SP有效的情况下,将S、P作为模型的输入数据。
在步骤724中,抽取O值。具体地,采用模型来从S对应的百科网页中抽取出SP对应的第二实体O。
在步骤725中,对O值进行后处理。具体地,可以采用上文对目标短语的规范化处理方式来对O值进行后处理。
在步骤726中,将SPO合并,以生成三元组(S,P,O)。
生成的三元组(S,P,O)可以被应用于知识图谱构建、知识问答等多种应用场景中。
根据本公开的实施例,还提供了一种知识抽取装置。图8示出了根据本公开实施例的知识抽取装置800的结构框图。如图8所示,装置800包括:
获取模块810,被配置为获取第一实体、所述第一实体的待抽取的目标关系和所述第一实体对应的知识文本,其中,所述知识文本包括至少一个文本块;
确定模块820,被配置为基于所述第一实体和所述目标关系,从所述至少一个文本块中确定目标文本块;以及
抽取模块830,被配置为从所述目标文本块中抽取与所述第一实体具有所述目标关系的第二实体。
根据本公开的实施例,基于第一实体和目标关系,从知识文本中筛选出部分语句(即目标文本块),然后从筛选出的目标文本块中抽取第二实体,能够减少参与计算的文本数据量,从而提高计算效率。并且,通过筛选,能够保证目标文本块与第一实体和目标关系的相关性,从而提高知识抽取的准确性。
根据本公开的实施例,还提供了一种知识抽取模型的训练装置。图9示出了根据本公开实施例的知识抽取模型的训练装置900的结构框图。如图9所述,装置900包括:
提取模块910,被配置为从目标数据中提取三元组和文本块,其中,所述三元组包括第一实体、关系和与所述第一实体具有所述关系的第二实体,所述文本块包括至少一个语句;
标签生成模块920,被配置为基于所述三元组,生成所述文本块的分类标签,其中,所述分类标签用于指示所述文本块是否包括所述第二实体;
样本生成模块930,被配置为基于所述三元组、所述文本块和所述分类标签,生成所述知识抽取模型的训练样本;以及
训练模块940,被配置为基于所述训练样本,训练所述知识抽取模型。
根据本公开的实施例,通过从目标数据中提取三元组、文本块及其分类标签来生成知识抽取模型的训练样本,无需人工标注即可自动生成大量训练样本,提高了模型训练的效率。并且,由于知识抽取模型的效果与样本数量高度正相关,因此根据本公开的实施例,能够提高知识抽取的准确性。
应当理解,图8中所示装置800的各个模块或单元可以与参考图2描述的方法200中的各个步骤相对应,图9中所示装置900的各个模块或单元可以与参考图4描述的方法400中的各个步骤相对应。由此,上面针对方法200描述的操作、特征和优点同样适用于装置800及其包括的模块以及单元,上面针对方法400描述的操作、特征和优点同样适用于装置900及其包括的模块以及单元。为了简洁起见,某些操作、特征和优点在此不再赘述。
虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。例如,上面描述的确定模块820和抽取模块830在一些实施例中可以组合成单个模块。
还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图8、图9描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些模块可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在非瞬时计算机可读存储介质中。可替换地,这些模块可以被实现为硬件逻辑/电路。例如,在一些实施例中,模块810-940中的一个或多个可以一起被实现在片上***(System on Chip,SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如,中央处理单元(Central Processing Unit,CPU)、微控制器、微处理器、数字信号处理器(Digital Signal Processor,DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
根据本公开的实施例,还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述知识抽取方法和/或知识抽取模型的训练方法。
根据本公开的实施例,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行上述知识抽取方法和/或知识抽取模型的训练方法。
根据本公开的实施例,还提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现上述知识抽取方法和/或知识抽取模型的训练方法。
参考图10,现将描述可以作为本公开的服务器或客户端的电子设备1000的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,电子设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
电子设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向电子设备1000输入信息的任何类型的设备,输入单元1006可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1007可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1008可以包括但不限于磁盘、光盘。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、802.11设备、Wi-Fi设备、WiMAX设备、蜂窝通信设备和/或类似物。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如方法200和/或方法400。例如,在一些实施例中,方法200和/或方法400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的方法200和方法400的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200和/或方法400。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、***和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (21)

1.一种知识抽取方法,包括:
获取第一实体、所述第一实体的待抽取的目标关系和所述第一实体对应的知识文本,其中,所述知识文本包括至少一个文本块;
基于所述第一实体和所述目标关系,从所述至少一个文本块中确定目标文本块;以及
从所述目标文本块中抽取与所述第一实体具有所述目标关系的第二实体。
2.根据权利要求1所述的方法,还包括:判断所述第一实体和所述目标关系是否匹配,所述基于所述第一实体和所述目标关系,从所述至少一个文本块中确定目标文本块包括:
响应于确定所述第一实体和所述目标关系匹配,基于所述第一实体和所述目标关系,从所述至少一个文本块中确定所述目标文本块。
3.根据权利要求2所述的方法,其中,所述判断所述第一实体和所述目标关系是否匹配包括:
获取所述目标关系对应的实体类型集合,所述实体类型集合包括与所述目标关系匹配的至少一个实体类型;以及
响应于确定所述第一实体的类型属于所述实体类型集合,确定所述第一实体和所述目标关系匹配。
4.根据权利要求1-3所述的方法,其中,基于所述第一实体和所述目标关系,从所述至少一个文本块中确定目标文本块包括:
对于所述至少一个文本块中的任一文本块,将所述第一实体、所述目标关系和该文本块输入分类模型,以得到所述分类模型输出的该文本块是否包括所述第二实体的预测结果;以及
响应于所述预测结果指示该文本块包括所述第二实体,将该文本块确定为目标文本块。
5.根据权利要求1-4中任一项所述的方法,其中,从所述目标文本块中抽取与所述第一实体具有所述目标关系的第二实体包括:
将所述第一实体、所述目标关系和所述目标文本块输入槽填充模型,以得到所述槽填充模型输出的从所述目标文本块中提取出的目标短语;以及
对所述目标短语进行规范化,以得到所述第二实体。
6.根据权利要求1-5中任一项所述的方法,还包括:
接收用户发送的知识查询请求,所述知识查询请求包括所述第一实体、所述目标关系和所述知识文本;以及
将所述第二实体作为所述知识查询请求的查询结果返回给所述用户。
7.根据权利要求1-5中任一项所述的方法,还包括:
接收用户发送的知识查询请求,所述知识查询请求包括所述第一实体和所述目标关系;
从多个候选文本中确定所述第一实体对应的知识文本;以及
将所述第二实体作为所述知识查询请求的查询结果返回给所述用户。
8.根据权利要求1-7中任一项所述的方法,还包括:
基于由所述第一实体、所述目标关系和所述第二实体组成的三元组,构建知识图谱。
9.一种知识抽取模型的训练方法,包括:
从目标数据中提取三元组和文本块,其中,所述三元组包括第一实体、关系和与所述第一实体具有所述关系的第二实体,所述文本块包括至少一个语句;
基于所述三元组,生成所述文本块的分类标签,其中,所述分类标签用于指示所述文本块是否包括所述第二实体;
基于所述三元组、所述文本块和所述分类标签,生成所述知识抽取模型的训练样本;以及
基于所述训练样本,训练所述知识抽取模型。
10.根据权利要求9所述的方法,其中,所述从目标数据中提取三元组包括:
确定所述目标数据对应的第一实体;
从所述目标数据中提取键值对;以及
基于所述键值对,确定所述关系和所述第二实体,其中,所述关系对应于所述键值对中的键,所述第二实体对应于所述键值对中的值。
11.根据权利要求10所述的方法,其中,所述关系为所述键值对中的键或所述键的同义词,所述第二实体为所述键值对中的值。
12.根据权利要求9-11中任一项所述的方法,其中,所述知识抽取模型包括分类模型,并且其中,所述基于所述训练样本,训练所述知识抽取模型包括:
将所述第一实体、所述关系和所述文本块输入所述分类模型,以得到所述分类模型输出的预测标签,所述预测标签用于指示所述文本块是否包括所述第二实体;
基于所述预测标签和所述分类标签,确定所述分类模型的损失值;以及
基于所述损失值,调整所述分类模型的参数。
13.根据权利要求9-12中任一项所述的方法,其中,所述知识抽取模型包括槽填充模型,并且其中,所述基于所述训练样本,训练所述知识抽取模型包括:
将所述第一实体、所述关系和所述文本块输入所述槽填充模型,以得到所述槽填充模型输出的从所述文本块中提取出的预测实体;
基于所述预测实体和所述第二实体,确定所述槽填充模型的损失值;以及
基于所述损失值,调整所述槽填充模型的参数。
14.根据权利要求9-13中任一项所述的方法,其中,所述训练样本在所述分类标签指示所述文本块包括所述第二实体的情况下为正样本,所述训练样本在所述分类标签指示所述文本块不包括所述第二实体的情况下为负样本,所述方法还包括:
调整用于训练所述知识抽取模型的正样本的第一数量和/或负样本的第二数量,以使所述第一数量与所述第二数量的比值为预设值。
15.根据权利要求9-14中任一项所述的方法,其中,所述目标数据为网页,并且其中,从目标数据中提取文本块包括:
基于所述网页的源代码中的HTML标签,提取出所述源代码中的纯文本内容;以及
基于预设粒度,将所述纯文本内容划分为至少一个文本块。
16.根据权利要求9-15中任一项所述的方法,其中,所述目标数据为百科网页,所述第一实体为所述百科网页对应的百科词条。
17.一种知识抽取装置,包括:
获取模块,被配置为获取第一实体、所述第一实体的待抽取的目标关系和所述第一实体对应的知识文本,其中,所述知识文本包括至少一个文本块;
确定模块,被配置为基于所述第一实体和所述目标关系,从所述至少一个文本块中确定目标文本块;以及
抽取模块,被配置为从所述目标文本块中抽取与所述第一实体具有所述目标关系的第二实体。
18.一种知识抽取模型的训练装置,包括:
提取模块,被配置为从目标数据中提取三元组和文本块,其中,所述三元组包括第一实体、关系和与所述第一实体具有所述关系的第二实体,所述文本块包括至少一个语句;
标签生成模块,被配置为基于所述三元组,生成所述文本块的分类标签,其中,所述分类标签用于指示所述文本块是否包括所述第二实体;
样本生成模块,被配置为基于所述三元组、所述文本块和所述分类标签,生成所述知识抽取模型的训练样本;以及
训练模块,被配置为基于所述训练样本,训练所述知识抽取模型。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-16中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-16中任一项所述的方法。
CN202210239483.5A 2022-03-11 2022-03-11 知识抽取方法、知识抽取模型的训练方法及装置 Active CN114595686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210239483.5A CN114595686B (zh) 2022-03-11 2022-03-11 知识抽取方法、知识抽取模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210239483.5A CN114595686B (zh) 2022-03-11 2022-03-11 知识抽取方法、知识抽取模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN114595686A true CN114595686A (zh) 2022-06-07
CN114595686B CN114595686B (zh) 2023-02-03

Family

ID=81808455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210239483.5A Active CN114595686B (zh) 2022-03-11 2022-03-11 知识抽取方法、知识抽取模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN114595686B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114942971A (zh) * 2022-07-22 2022-08-26 北京拓普丰联信息科技股份有限公司 一种结构化数据的抽取方法及装置
CN115080742A (zh) * 2022-06-24 2022-09-20 北京百度网讯科技有限公司 文本信息抽取方法、装置、设备、存储介质以及程序产品
CN115688920A (zh) * 2022-11-22 2023-02-03 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质
CN117112809A (zh) * 2023-10-25 2023-11-24 卓世科技(海南)有限公司 一种知识追踪方法及***

Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078554A1 (en) * 2009-09-30 2011-03-31 Microsoft Corporation Webpage entity extraction through joint understanding of page structures and sentences
JP2013246795A (ja) * 2012-05-29 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置、方法、及びプログラム
US20160217500A1 (en) * 2015-01-23 2016-07-28 Conversica, Llc Systems and methods for management of automated dynamic messaging
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
US10592544B1 (en) * 2019-02-12 2020-03-17 Live Objects, Inc. Generation of process models in domains with unstructured data
KR20200071877A (ko) * 2018-12-06 2020-06-22 한국과학기술원 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
CN111694967A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN112069818A (zh) * 2020-08-06 2020-12-11 北京捷通华声科技股份有限公司 三元组预测模型生成方法、关系三元组提取方法和装置
CN112100343A (zh) * 2020-08-17 2020-12-18 深圳数联天下智能科技有限公司 一种扩充知识图谱的方法、电子设备及存储介质
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN112507706A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 知识预训练模型的训练方法、装置和电子设备
CN112507040A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 多元关系生成模型的训练方法、装置、电子设备及介质
CN112507061A (zh) * 2020-12-15 2021-03-16 康键信息技术(深圳)有限公司 多关系医学知识提取方法、装置、设备及存储介质
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN112559770A (zh) * 2020-12-15 2021-03-26 北京邮电大学 文本数据的关系抽取方法、装置、设备及可读存储介质
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN112883197A (zh) * 2021-02-08 2021-06-01 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与***
CN112948676A (zh) * 2021-02-26 2021-06-11 网易传媒科技(北京)有限公司 文本特征提取模型的训练方法、文本推荐方法及装置
US20210216715A1 (en) * 2020-01-15 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining entity focus in text
CN113204616A (zh) * 2021-04-30 2021-08-03 北京百度网讯科技有限公司 文本抽取模型的训练与文本抽取的方法、装置
CN113282762A (zh) * 2021-05-27 2021-08-20 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113282757A (zh) * 2021-07-14 2021-08-20 国网电子商务有限公司 基于电商领域表示模型的端到端三元组提取方法及***
US20210342689A1 (en) * 2020-04-29 2021-11-04 Robert Bosch Gmbh Computer-implemented method, and device for producing a knowledge graph
CN113722501A (zh) * 2021-08-06 2021-11-30 深圳清华大学研究院 基于深度学习的知识图谱构建方法、设备及存储介质
WO2022029852A1 (ja) * 2020-08-03 2022-02-10 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
EP3964998A1 (en) * 2019-05-16 2022-03-09 Huawei Technologies Co., Ltd. Text processing method and model training method and apparatus

Patent Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078554A1 (en) * 2009-09-30 2011-03-31 Microsoft Corporation Webpage entity extraction through joint understanding of page structures and sentences
JP2013246795A (ja) * 2012-05-29 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置、方法、及びプログラム
US20160217500A1 (en) * 2015-01-23 2016-07-28 Conversica, Llc Systems and methods for management of automated dynamic messaging
KR20200071877A (ko) * 2018-12-06 2020-06-22 한국과학기술원 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
US10592544B1 (en) * 2019-02-12 2020-03-17 Live Objects, Inc. Generation of process models in domains with unstructured data
EP3964998A1 (en) * 2019-05-16 2022-03-09 Huawei Technologies Co., Ltd. Text processing method and model training method and apparatus
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
US20210216715A1 (en) * 2020-01-15 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining entity focus in text
US20210342689A1 (en) * 2020-04-29 2021-11-04 Robert Bosch Gmbh Computer-implemented method, and device for producing a knowledge graph
CN111694967A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
WO2022029852A1 (ja) * 2020-08-03 2022-02-10 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
CN112069818A (zh) * 2020-08-06 2020-12-11 北京捷通华声科技股份有限公司 三元组预测模型生成方法、关系三元组提取方法和装置
CN112100343A (zh) * 2020-08-17 2020-12-18 深圳数联天下智能科技有限公司 一种扩充知识图谱的方法、电子设备及存储介质
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN112507061A (zh) * 2020-12-15 2021-03-16 康键信息技术(深圳)有限公司 多关系医学知识提取方法、装置、设备及存储介质
CN112559770A (zh) * 2020-12-15 2021-03-26 北京邮电大学 文本数据的关系抽取方法、装置、设备及可读存储介质
CN112507040A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 多元关系生成模型的训练方法、装置、电子设备及介质
CN112507706A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 知识预训练模型的训练方法、装置和电子设备
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN112883197A (zh) * 2021-02-08 2021-06-01 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与***
CN112948676A (zh) * 2021-02-26 2021-06-11 网易传媒科技(北京)有限公司 文本特征提取模型的训练方法、文本推荐方法及装置
CN113204616A (zh) * 2021-04-30 2021-08-03 北京百度网讯科技有限公司 文本抽取模型的训练与文本抽取的方法、装置
CN113282762A (zh) * 2021-05-27 2021-08-20 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113282757A (zh) * 2021-07-14 2021-08-20 国网电子商务有限公司 基于电商领域表示模型的端到端三元组提取方法及***
CN113722501A (zh) * 2021-08-06 2021-11-30 深圳清华大学研究院 基于深度学习的知识图谱构建方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEIDONG DENG ET AL: ""Chinese Triple Extraction Based on BERT Model"", 《2021 15TH INTERNATIONAL CONFERENCE ON UBIQUITOUS INFORMATION MANAGEMENT AND COMMUNICATION (IMCOM)》 *
蒋歆禹: ""基于领域知识图谱的任务型对话理解方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080742A (zh) * 2022-06-24 2022-09-20 北京百度网讯科技有限公司 文本信息抽取方法、装置、设备、存储介质以及程序产品
CN115080742B (zh) * 2022-06-24 2023-09-05 北京百度网讯科技有限公司 文本信息抽取方法、装置、设备、存储介质以及程序产品
CN114942971A (zh) * 2022-07-22 2022-08-26 北京拓普丰联信息科技股份有限公司 一种结构化数据的抽取方法及装置
CN115688920A (zh) * 2022-11-22 2023-02-03 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质
CN115688920B (zh) * 2022-11-22 2023-08-25 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质
CN117112809A (zh) * 2023-10-25 2023-11-24 卓世科技(海南)有限公司 一种知识追踪方法及***
CN117112809B (zh) * 2023-10-25 2024-01-26 卓世科技(海南)有限公司 一种知识追踪方法及***

Also Published As

Publication number Publication date
CN114595686B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN114595686B (zh) 知识抽取方法、知识抽取模型的训练方法及装置
US10102191B2 (en) Propagation of changes in master content to variant content
CN113836333A (zh) 图文匹配模型的训练方法、实现图文检索的方法、装置
WO2019153685A1 (zh) 文本处理方法、装置、计算机设备和存储介质
CN116501960B (zh) 内容检索方法、装置、设备及介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
US20220237376A1 (en) Method, apparatus, electronic device and storage medium for text classification
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN115168545A (zh) 群组搜索方法、装置、电子设备及介质
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN114547270B (zh) 文本处理方法、文本处理模型的训练方法、装置和设备
CN115719066A (zh) 基于人工智能的搜索文本理解方法、装置、设备和介质
CN115600592A (zh) 文本内容的关键信息提取方法、装置、设备及介质
CN114238745A (zh) 一种提供搜索结果的方法及装置、电子设备和介质
CN114281990A (zh) 文档分类方法及装置、电子设备和介质
CN114490986A (zh) 计算机实施的数据挖掘方法、装置、电子设备及存储介质
CN113609370B (zh) 数据处理方法、装置、电子设备及存储介质
CN114201607B (zh) 一种信息处理的方法和装置
CN112954025B (zh) 基于分层知识图谱推送信息方法、装置、设备、介质
CN115809364B (zh) 对象推荐方法和模型训练方法
US20220398291A1 (en) Smart browser history search
CN116842130A (zh) 数据检索方法、模型训练方法、装置及设备
CN116028593A (zh) 文本中的人物身份信息识别方法及装置、电子设备和介质
CN113901314A (zh) 处理用户查询内容的方法、装置、设备和介质
CN116166858A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant