CN112507125A - 三元组信息提取方法、装置、设备及计算机可读存储介质 - Google Patents

三元组信息提取方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112507125A
CN112507125A CN202011415288.0A CN202011415288A CN112507125A CN 112507125 A CN112507125 A CN 112507125A CN 202011415288 A CN202011415288 A CN 202011415288A CN 112507125 A CN112507125 A CN 112507125A
Authority
CN
China
Prior art keywords
information
text
triple
training
triplet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011415288.0A
Other languages
English (en)
Inventor
侯丽
刘翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011415288.0A priority Critical patent/CN112507125A/zh
Publication of CN112507125A publication Critical patent/CN112507125A/zh
Priority to PCT/CN2021/082660 priority patent/WO2022116417A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种三元组信息提取方法、装置、设备及计算机可读存储介质,包括:通过爬虫工具在互联网数据中爬取海量的词条信息,其中,词条信息包含多个不同领域的数据;基于词条信息,确定词条信息中包含三元组信息的句子,并初步提取句子中的三元组信息,得到初始三元组信息;基于初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将标注后的普通文本作为训练文本;基于训练文本对bert预训练语言模型进行训练,在训练bert预训练语言模型完成时得到三元组抽取模型,并基于三元组抽取模型确定任意文本对应的三元组信息。本发明可以识别出任意文本中可能的三元组信息,从而最终可以抽取出最终的高质量的三元组信息。

Description

三元组信息提取方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种三元组信息提取方法、装置、设备及计算机可读存储介质。
背景技术
目前,互联网上只有极少数知识被人类手工整理成了机器可以解析的格式,如各种百科栏目和垂直领域数据库,然而这些信息仅仅是沧海之一粟,无论是覆盖范围、更新频率、可靠程度都无法满足日益增长的自动化和智能化需求。
知识图谱构建技术发展至今,已有部分成熟的算法可用于少量特征明显的特定类型实体和关系的抽取,也有一些开源的NLP工具可用于特定类型实体的抽取。例如斯坦福大学开源的NLP工具stanford-corenlp支持对人名、地名、机构名、数字、货币、日期、时间等23类实体的抽取,哈工大开源的NLP工具LTP支持人名、机构名、地名三类实体的识别。而在三元组的关系抽取中,现有技术的实现方式均是把关系约束在已知的若干种类中,然后使用分类模型对包含实体的句子进行关系分类,进而抽取出三元组中的关系。
但是,随着互联网技术的发展,海量的文本中包含类型各异的实体和关系类型,现有的三元组信息抽取技术仅抽取特定类型的几种实体和关系,即提取出预先约定好的有限的几种类型,无法提取海量文本中类型各异的三元组信息。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种三元组信息提取方法、装置、设备及计算机可读存储介质,旨在解决现有的三元组信息抽取技术仅抽取特定类型的几种实体和关系,无法提取文本中类型各异的三元组信息的技术问题。
为实现上述目的,本发明提供一种三元组信息提取方法,所述三元组信息提取方法包括以下步骤:
通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
可选地,所述基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息的步骤包括:
通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
提取所述句子中的三元组信息,得到初始三元组信息。
可选地,所述基于所述三元组抽取模型确定任意文本对应的三元组信息的步骤之后,还包括:
将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
可选地,所述三元组信息包括关联信息,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤包括:
将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
可选地,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤之后,还包括:
若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体系图谱中以得到更新后的知识体系图谱。
可选地,所述基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型的步骤包括:
将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型。
可选地,所述bert预训练语言模型包括transformer结构,所述将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系的步骤包括:
将所述训练文本输入到所述bert预训练语言模型中,通过所述transformer结构,得到所述训练文本中每个字符的向量表示;
将所述训练文本中实体信息的向量表示作为所述训练文本中实体的实体链接关系。
此外,为实现上述目的,本发明还提供一种三元组信息提取装置,所述三元组信息提取装置包括:
爬取模块,用于通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
第一提取模块,用于基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
标注模块,用于基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
第二提取模块,用于基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
此外,为实现上述目的,本发明还提供一种三元组信息提取设备,所述三元组信息提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三元组信息提取程序,所述三元组信息提取程序被所述处理器执行时实现如上述的三元组信息提取方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有三元组信息提取程序,所述三元组信息提取程序被处理器执行时实现如上述的三元组信息提取方法的步骤。
本发明通过从百度百科中爬取海量的跨领域词条信息,在词条信息中找出包含三元组信息的句子,并初步提取句子中的三元组信息得到初始三元组信息,之后把初始三元组信息对齐到预先获取的普通文本中,对普通文本进行自动化的三元组信息标注,这些标注数据即标注后的普通文本作为后续bert预训练语言模型的训练文本;然后利用得到的训练文本作为深度学习算法的输入,训练得到三元组抽取模型,从而在训练完成三元组抽取模型后,根据训练完成的三元组抽取模型可以识别出任意文本中的三元组信息,从而最终可以抽取出最终的高质量的三元组信息。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的三元组信息提取设备结构示意图;
图2为本发明三元组信息提取方法第一实施例的流程示意图;
图3为本发明三元组信息提取方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的三元组信息提取设备结构示意图。
本发明实施例三元组信息提取设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该三元组信息提取设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,三元组信息提取设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在三元组信息提取设备移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别三元组信息提取设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,三元组信息提取设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的三元组信息提取设备结构并不构成对三元组信息提取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及三元组信息提取程序。
在图1所示的三元组信息提取设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的三元组信息提取程序,并执行本发明实施例提供的三元组信息提取方法。
本发明还提供一种三元组信息提取方法,参照图2,图2为本发明三元组信息提取方法第一实施例的流程示意图。
在本实施例中,该三元组信息提取方法包括以下步骤:
步骤S10,通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
在本实施例中,使用爬虫工具在互联网数据中自动爬取百度百科大量的词条信息,所爬取的词条信息的领域涵盖人物、生活、文化、科学、体育、经济、历史、社会、地理、自然、艺术等百度百科中包含的全部领域,并且至少包括20万篇。其中,爬虫工具为一种收集大量信息的应用程序,是一种按照一定的规则,按需求自动地抓取万维网信息的程序或者脚本,爬虫工具由通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(FocusedWeb Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep WebCrawler)中的一种或者几种爬虫技术相结合实现的。
步骤S20,基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
在本实施例中,得到各个不同领域的词条信息后,先初步提取词条信息中的三元组信息。具体地,从所爬取的词条信息中,对词条信息先执行预处理操作,其中,预处理操作可以是对词条信息依次进行解析、分词、过滤等操作,从而初步过滤掉词条信息中的多余信息。在对词条信息执行预处理操作即初步过滤掉词条信息中的多余信息后,对执行预处理操作后的词条信息进行解析,解析出词条信息中包含三元组信息的句子;得到词条信息中包含三元组信息的句子后,再从包含三元组信息的句子中初步提取其中的三元组信息,得到初始三元组信息。
进一步地,步骤S20包括:
步骤S21,通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
步骤S22,对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
步骤S23,提取所述句子中的三元组信息,得到初始三元组信息。
在本实施例中,从所爬取的词条信息中,对词条信息先执行预处理操作,以过滤掉词条信息中的多余信息。之后,将过滤多余信息后的词条信息输入职预先训练好的文本识别模型中进行提取词条信息中的有用文本,以提取出词条信息中的有用文本得到文本信息,文本信息包括半结构化的第一文本信息和非结构化的第二文本信息,即半结构化的第一文本信息以及信息零散的非结构化的第二文本信息,从而解析出词条信息中半结构化的第一文本信息和非结构化的第二文本信息。其中,半结构化的第一文本信息指的是具有一定结构的文本,比如简历信息,有一定的结构但是不是非常工整的严格的结构,不是非常固定的结构,因此简历信息属于半结构化的文本信息。非结构化的第二文本信息指的是没有结构的文本信息,比如一篇新闻,撰稿人是自由的编写,没有固定的结构。其中,文本识别模型用于提取词条信息中的半结构化的文本信息以及非结构化的文本信息,文本识别模型包含文本框识别模块和文字识别模块,文本框识别模块用于识别词条信息中的文字位置,文字识别模块用于识别文本框中的文字,文本识别模型可以是OCR模型。
得到半结构化的第一文本信息以及非结构化的第二文本信息之后,根据预设解析规则,对第一文本信息和第二文本信息进行解析,从而过滤出第一文本信息和第二文本信息二者所包含三元组信息的句子;之后,提取句子中的三元组信息,得到初始三元组信息。
步骤S30,基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
在本实施例中,在得到词条信息中的初始三元组信息后,获取普通文本,把上述提取出来的的初始三元组信息对齐到普通文本的句子中,对普通文本的句子中的每一个文字字符进行自动化的序列标注。其中,可以对普通文本中实体信息的开头字符标注为SUB-B,可以对普通文本中关联信息的开头字符标注为PDC-B,可以对普通文本中属性信息的开头字符标注为OBJ-B,普通文本中其他非三元组信息的字符全部标注为O。对普通文本标注完成后,将已标注的普通文本作为bert预训练语言模型的训练文本,以对bert预训练语言模型进行训练。
步骤S40,基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
在本实施例中,把上述标注好的训练文本,输入到bert预训练语言模型中进行训练,获得bert预训练语言模型的最后一层隐藏层输出的矩阵,进行一个全连接层操作,并计算训练文本每一个字符预测为不同标签的概率值,再计算此概率对应的交差熵损失值,根据该交差熵损失值反向更新学习模型的参数,训练到模型收敛后保存起来,用于后续的三元组抽取。其中,句子的三元组信息包括句子的实体信息、关联信息和属性信息,实体信息为对客观物体的抽象,属性信息表示客体的性质,关联信息表示实体与实体之间的关系。
在训练完成三元组抽取模型后,可以对任意文本进行预测,具体地,从互联网中随便选取一个新闻文本(或者其他文本),对新闻文本进行句子切分,再对新闻文本中的每一个句子使用三元组抽取模型进行三元组抽取,把所有句子抽取出来的三元组合并,得到三元组信息。之后,对所得到的三元组信息进行校验和过滤,对三元组抽取模型所提取出来的三元组信息进行进一步的过滤,以提升三元组抽取模型抽取三元组的质量,其中,最后使用NLP组件进行对识别的结果进行一进步的校验和过滤,可以抽取出最终的高质量的三元组结果。具体地,把提取出某个三元组信息的句子进行分词和词性标注,并对该句子进行实体识别,如果提取出来的三元组信息中,提取出来的三元组信息的实体信息为识别出来的实体或者词性标注结果中的名词和习惯用语,则保留该三元组信息作为预测结果,从而得到预测文本的三元组信息,否则丢弃该三元组信息,重新对三元组信息抽取模型进行调整。
需要强调的是,为进一步保证上述三元组信息的私密和安全性,上述三元组信息还可以存储于一区块链的节点中。
本实施例提出的三元组信息提取方法,通过从百度百科中爬取海量的跨领域词条信息,在词条信息中找出包含三元组信息的句子,并初步提取句子中的三元组信息得到初始三元组信息,之后把初始三元组信息对齐到预先获取的普通文本中,对普通文本进行自动化的三元组信息标注,这些标注数据即标注后的普通文本作为后续bert预训练语言模型的训练文本;然后利用得到的训练文本作为深度学习算法的输入,训练得到三元组抽取模型,从而在训练完成三元组抽取模型后,根据训练完成的三元组抽取模型可以识别出任意文本中可能的三元组信息,从而最终可以抽取出最终的高质量的三元组信息。
基于第一实施例,提出本发明三元组信息提取方法的第二实施例,参照图3,在本实施例中,步骤S40之后,还包括:
步骤S50,将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
步骤S60,在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
在本实施例中,识别到任意文本的三元组信息后,可以将所得到的三元组信息即实体信息、关联信息以及属性信息输入至预设的知识体系框架,即可构建得到具有关联性的知识体系图谱。其中,知识体系框架是一种用于构建三元组信息之间关联关系的模板框架,通过使用知识体系框架能够使三元组信息本身的信息得以存储,并能够被计算机设备理解和处理。知识体系图谱即是通过知识体系框架构建得到的用于对三元组信息进行存储及关联的数据库。在基于三元组信息构建完成知识体系图谱后,知识体系图谱对应的***提供信息检索的功能,即可以向知识体系图谱对应的***输入提问信息,知识体系图谱则根据提问信息,在知识图谱中的知识数据进行查询,在查询到与提问信息相匹配的相关信息时,按照预设语序对与提问信息相匹配的相关信息进行组装得到回答信息,并输出该回答信息。
进一步地,所述三元组信息包括关联信息,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤包括:
步骤S501,将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
步骤S502,根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
步骤S503,基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
在本实施例中,识别到任意文本的三元组信息后,可以将所得到的三元组信息即实体信息、关联信息以及属性信息输入至预设的知识体系框架,以获取各三元组信息的关联信息。之后,根据各数据信息所对应的数据关联信息对所得到的多个三元组进行关联整理,以梳理出具有关联关系的三元组信息之间的关联关系的三元组信息树;将三元组信息树按照预设的知识体系框架对应的模板进行存储,即可得到具有关联性的知识体系图谱。知识图谱中包含多个三元组信息树,每一个三元组信息树中存储有具有关联性的三元组信息以及三元组信息之间的关系。
进一步地,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤之后,还包括:
步骤S70,若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
步骤S80,若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体系图谱中以得到更新后的知识体系图谱。
在本实施例中,若接收到新增数据信息进行处理的请求信息,根据预设的信息校验规则对所需添加的新增数据信息进行校验。其中,新增数据信息即是对知识体系图谱中的知识数据进行补充的数据信息,新增数据信息中包含多个新增知识数据,预设的信息校验规则即是用于对知识图谱中所包含的知识数据进行校验处理的校验信息。
具体地,信息校验规则包括知识数据归类校验信息、标准统一校验信息、去重校验信息和关联校验信息。归类校验信息即是用于依据新增知识数据的属性信息对该新增知识数据进行分类处理的信息;标准统一校验信息即是对新增知识数据中的时间、金额等数据的单位进行标准化处理的信息;去重校验信息即是对新增知识数据与知识图谱中原有知识数据之间是否存在重复进行判断处理的信息,若新增知识数据与知识图谱中原有知识数据之间重复,则不将该新增知识数据添加至知识图谱中;关联校验信息即是用于对新增知识数据与其他知识数据之间的关联关系进行整理的信息。
通过预设的信息校验规则对新增数据信息进行校验处理,能够避免更新后所得到的知识体系图谱中存在分类错误、单位标准不统一等问题,实现了对知识图谱中新增数据信息的规范化。
进一步地,所述基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型的步骤包括:
步骤S41,将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
步骤S42,根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
步骤S43,基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型。
在本实施例中,把标注好的训练文本输入到bert预训练语言模型中进行训练,获得bert预训练语言模型的最后一层隐藏层输出的矩阵,进行一个全连接层操作,确定训练文本中实体的实体链接关系,并根据普通文本对应的实际实体链接关系以及实体链接关系计算训练文本每一个字符预测为不同标签的概率值,再计算此概率值对应的模型调整参数,根据该模型调整参数反向更新bert预训练语言模型的模型参数,训练到模型收敛后保存起来,用于后续的三元组抽取。其中,模型调整参数可以是交差熵损失值。
进一步地,所述bert预训练语言模型包括transformer结构,所述将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系的步骤包括:
步骤S411,将所述训练文本输入到所述bert预训练语言模型中,通过所述transformer结构,得到所述训练文本中每个字符的向量表示;
步骤S412,将所述训练文本中实体信息的向量表示作为所述训练文本中实体的实体链接关系。
在本实施例中,把标注好的训练文本输入到bert预训练语言模型中进行训练,通过bert预训练语言模型中的transformer结构,获得bert预训练语言模型的最后一层隐藏层输出的矩阵,进行一个全连接层操作,得到训练文本中每个字符的向量表示;得到训练文本中每个字符的向量表示后,将训练文本中实体信息的向量表示作为训练文本中实体链接关系。
本实施例提出的三元组信息提取方法,通过将所述三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;在接收到用户输入的提问信息时,根据提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。在本实施例中,可以对不同领域的任意文本进行三元组信息提取后,基于提取得到的三元组信息输入至预设的知识体系框架中,进行包含各个领域数据的知识体系图谱,从而构建了可解析、可检索、可溯源的知识体系图谱,以供在构建完成知识体系图谱之后,根据知识体系图谱输出对输入提问信息对应的回答信息。
此外,本发明实施例还提出一种三元组信息提取装置,所述三元组信息提取装置包括:
爬取模块,用于通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
第一提取模块,用于基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
标注模块,用于基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
第二提取模块,用于基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
进一步地,所述第一提取模块,还用于:
通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
提取所述句子中的三元组信息,得到初始三元组信息。
进一步地,所述第二提取模块,还用于:
将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
进一步地,所述第二提取模块,还用于:
将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
进一步地,所述第二提取模块,还用于:
若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体系图谱中以得到更新后的知识体系图谱。
进一步地,所述第二提取模块,还用于:
将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型。
进一步地,所述第二提取模块,还用于:
将所述训练文本输入到所述bert预训练语言模型中,通过所述transformer结构,得到所述训练文本中每个字符的向量表示;
将所述训练文本中实体信息的向量表示作为所述训练文本中实体的实体链接关系。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有三元组信息提取程序,所述三元组信息提取程序被处理器执行时实现如上述中任一项所述的三元组信息提取方法的步骤。
本发明计算机可读存储介质具体实施例与上述三元组信息提取方法的各实施例基本相同,在此不再详细赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种三元组信息提取方法,其特征在于,所述三元组信息提取方法包括以下步骤:
通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
2.如权利要求1所述的三元组信息提取方法,其特征在于,所述基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息的步骤包括:
通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
提取所述句子中的三元组信息,得到初始三元组信息。
3.如权利要求1所述的三元组信息提取方法,其特征在于,所述基于所述三元组抽取模型确定任意文本对应的三元组信息的步骤之后,还包括:
将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
4.如权利要求3所述的三元组信息提取方法,其特征在于,所述三元组信息包括关联信息,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤包括:
将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
5.如权利要求3所述的三元组信息提取方法,其特征在于,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤之后,还包括:
若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体系图谱中以得到更新后的知识体系图谱。
6.如权利要求1至5任一项所述的三元组信息提取方法,其特征在于,所述基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型的步骤包括:
将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型。
7.如权利要求6所述的三元组信息提取方法,其特征在于,所述bert预训练语言模型包括transformer结构,所述将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系的步骤包括:
将所述训练文本输入到所述bert预训练语言模型中,通过所述transformer结构,得到所述训练文本中每个字符的向量表示;
将所述训练文本中实体信息的向量表示作为所述训练文本中实体的实体链接关系。
8.一种三元组信息提取装置,其特征在于,所述三元组信息提取装置包括:
爬取模块,用于通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
第一提取模块,用于基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
标注模块,用于基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
第二提取模块,用于基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
9.一种三元组信息提取设备,其特征在于,所述三元组信息提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三元组信息提取程序,所述三元组信息提取程序被所述处理器执行时实现如权利要求1至7中任一项所述的三元组信息提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有三元组信息提取程序,所述三元组信息提取程序被处理器执行时实现如权利要求1至7中任一项所述的三元组信息提取方法的步骤。
CN202011415288.0A 2020-12-03 2020-12-03 三元组信息提取方法、装置、设备及计算机可读存储介质 Pending CN112507125A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011415288.0A CN112507125A (zh) 2020-12-03 2020-12-03 三元组信息提取方法、装置、设备及计算机可读存储介质
PCT/CN2021/082660 WO2022116417A1 (zh) 2020-12-03 2021-03-24 三元组信息提取方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011415288.0A CN112507125A (zh) 2020-12-03 2020-12-03 三元组信息提取方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112507125A true CN112507125A (zh) 2021-03-16

Family

ID=74970684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011415288.0A Pending CN112507125A (zh) 2020-12-03 2020-12-03 三元组信息提取方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112507125A (zh)
WO (1) WO2022116417A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051356A (zh) * 2021-04-21 2021-06-29 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113094469A (zh) * 2021-04-02 2021-07-09 清华大学 文本数据分析方法、装置、电子设备及存储介质
CN113282762A (zh) * 2021-05-27 2021-08-20 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN114398943A (zh) * 2021-12-09 2022-04-26 北京百度网讯科技有限公司 样本增强方法及其装置
CN114595686A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
WO2022116417A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168599B (zh) * 2022-06-20 2023-06-20 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN115168606B (zh) * 2022-07-01 2024-05-24 北京理工大学 一种面向半结构化工艺数据的映射模板知识抽取方法
CN115238688B (zh) * 2022-08-15 2023-08-01 广州市刑事科学技术研究所 电子信息数据关联关系分析方法、装置、设备和存储介质
CN115309870B (zh) * 2022-10-11 2022-12-20 启元世界(北京)信息技术服务有限公司 一种知识获取方法及装置
CN115909386B (zh) * 2023-01-06 2023-05-12 中国石油大学(华东) 一种管道仪表流程图的补全和纠错方法、设备及存储介质
CN116701665A (zh) * 2023-08-08 2023-09-05 滨州医学院 基于深度学习的中医古籍知识图谱构建方法
CN117033667B (zh) * 2023-10-07 2024-01-09 之江实验室 一种知识图谱构建方法、装置、存储介质及电子设备
CN117131208B (zh) * 2023-10-24 2024-02-02 北京中企慧云科技有限公司 产业科技文本数据推送方法、装置、设备和介质
CN117150050B (zh) * 2023-10-31 2024-01-26 卓世科技(海南)有限公司 一种基于大语言模型的知识图谱构建方法及***
CN117151659B (zh) * 2023-10-31 2024-03-22 浙江万维空间信息技术有限公司 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN117435928B (zh) * 2023-12-20 2024-06-18 粤港澳大湾区数字经济研究院(福田) 实体关系抽取模型的训练方法、实体关系抽取方法及设备
CN117540035B (zh) * 2024-01-09 2024-05-14 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002129B1 (en) * 2017-02-15 2018-06-19 Wipro Limited System and method for extracting information from unstructured text
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及***、存储介质、电子设备
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建***及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055243A1 (en) * 2014-08-22 2016-02-25 Ut Battelle, Llc Web crawler for acquiring content
CN106294593B (zh) * 2016-07-28 2019-04-09 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
CN108733792B (zh) * 2018-05-14 2020-12-01 北京大学深圳研究生院 一种实体关系抽取方法
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002129B1 (en) * 2017-02-15 2018-06-19 Wipro Limited System and method for extracting information from unstructured text
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及***、存储介质、电子设备
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建***及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116417A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN113094469A (zh) * 2021-04-02 2021-07-09 清华大学 文本数据分析方法、装置、电子设备及存储介质
CN113094469B (zh) * 2021-04-02 2022-07-05 清华大学 文本数据分析方法、装置、电子设备及存储介质
CN113051356A (zh) * 2021-04-21 2021-06-29 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113282762A (zh) * 2021-05-27 2021-08-20 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113282762B (zh) * 2021-05-27 2023-06-02 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN114398943A (zh) * 2021-12-09 2022-04-26 北京百度网讯科技有限公司 样本增强方法及其装置
CN114595686A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
CN114595686B (zh) * 2022-03-11 2023-02-03 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置

Also Published As

Publication number Publication date
WO2022116417A1 (zh) 2022-06-09

Similar Documents

Publication Publication Date Title
CN112507125A (zh) 三元组信息提取方法、装置、设备及计算机可读存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答***
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
CN111695439A (zh) 图像结构化数据提取方法、电子装置及存储介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112101437A (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113779358B (zh) 一种事件检测方法和***
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN111753522A (zh) 事件抽取方法、装置、设备以及计算机可读存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN116704528A (zh) 票据识别核验方法、装置、计算机设备及存储介质
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN113609833A (zh) 文件的动态生成方法、装置、计算机设备及存储介质
CN114064893A (zh) 一种异常数据审核方法、装置、设备及存储介质
CN112069807A (zh) 文本数据的主题提取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination