CN112883197A - 一种用于封闭开关设备的知识图谱构建方法与*** - Google Patents

一种用于封闭开关设备的知识图谱构建方法与*** Download PDF

Info

Publication number
CN112883197A
CN112883197A CN202110188162.2A CN202110188162A CN112883197A CN 112883197 A CN112883197 A CN 112883197A CN 202110188162 A CN202110188162 A CN 202110188162A CN 112883197 A CN112883197 A CN 112883197A
Authority
CN
China
Prior art keywords
relation
entity
layer
model
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110188162.2A
Other languages
English (en)
Other versions
CN112883197B (zh
Inventor
尹旷
钟连宏
陈曦
方健
喇元
莫文雄
王红斌
覃煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202110188162.2A priority Critical patent/CN112883197B/zh
Publication of CN112883197A publication Critical patent/CN112883197A/zh
Application granted granted Critical
Publication of CN112883197B publication Critical patent/CN112883197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于计算机及信息服务技术领域,涉及一种用于封闭开关设备的知识图谱构建方法与***。本发明包括从封闭开关设备质量检验报告的扫描图像中识别文本数据;对识别出的设备描述的文字信息进行文本标注,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);构建基于BERT的关系三元组抽取模型;基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。本发明可广泛应用于扫描图像的文字提取、命名识别、关系抽取、知识图谱构建等领域。

Description

一种用于封闭开关设备的知识图谱构建方法与***
技术领域
本发明属于计算机及信息服务技术领域,特别涉及对特定扫描图像的语义解析与知识图谱构建的方法和***。
背景技术
知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,已经成为结构化知识集成的重要任务。
封闭开关设备质量检验报告是对特定设备的检验报告,包括封闭开关设备的整体性能、零部件性能、运行性能等方面测试结果的综合报告。现阶段,封闭开关设备的质量检验报告的验收需要通过人工完成,耗费人力,而通过构造封闭开关设备质量的标准知识图谱,则可以自动化的方式完成设备检验报告的智能理解与自动验收。而该项技术的难点在于检验报告以非结构化的形式呈现,需要首先对其进行文字识别,再在语义层面上对其中的命名实体和关系进行抽取,进而构建知识图谱。
目前,构建知识图谱的关键性技术在于实体关系抽取,按照机器学习的方法对于语料库的不同需求大致可以分为三类:无监督关系抽取、有监督关系抽取和弱监督关系抽取。无监督关系抽取希望把相同关系的模版聚合起来,不需要人工标注的数据,自动地提取出来实体关系。有监督关系抽取是使用人工标注的语料进行训练,这种方法是目前取得效果最好的,但是需要大量的人力标注,费时费力。还有学者提出利用知识库回标文本自动获取大量的弱监督数据,但是准确率不高。
发明内容
本发明针对现有封闭开关设备质量检验的不足之处,提出了一种用于封闭开关设备的知识图谱构建方法与***。
本发明对标准质量检验报告的扫描图像进行基于BERT(Bidirectional EncoderRepresentation from Transformers)的命名实体与实体关系抽取,从而构建标准封闭开关设备信息的知识图谱,再对测试样本进行关系抽取进行比对,从而实现设备合格性的检验。
本发明的技术方案为一种用于封闭开关设备的知识图谱构建方法,包括如下步骤:
步骤1,对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
步骤2,对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
步骤3,构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
步骤4,对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本,基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
进一步的,步骤1的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
进一步的,三元组抽取模型的具体实现过程如下;
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和多个编码层;在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体或实体属性的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词。
进一步的,所述BERT模型的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multi head self attention和Feed forward network之后都接了一层normalize归一化层,其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
Figure BDA0002942328650000031
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,dk为预设常量参数;
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果。
本发明还提供一种用于封闭开关设备的知识图谱构建***,包括如下模块:
文字识别模块,用于对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
数据标注模块,用于对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
三元组抽取模型构建模块,用于构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
样本测试模块,用于对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本,基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
进一步的,文字识别模块的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
进一步的,三元组抽取模型的具体实现过程如下;
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和多个编码层;在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体或实体属性的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词。
进一步的,所述BERT模型的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multi head self attention和Feed forward network之后都接了一层normalize归一化层,其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
Figure BDA0002942328650000051
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,dk为预设常量参数;
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果。
本发明具有以下优点和有益效果:
1)模型可自动提取质检报告中的实体及属性;
2)模型的训练和使用分离:一个模型可用于多份质检报告;
3)模型可以用于封闭开关设备的自动验收;
本发明可广泛应用于扫描图像的文字提取、命名识别、关系抽取、知识图谱构建等领域。
附图说明
图1为本发明流程示意图;
图2为实例中封闭开关设备检验报告扫描图像;
图3为实例中抽取出的封闭开关设备的三元组关系;
图4为实例中获得的封闭开关设备知识图谱。
具体实施方式
本发明主要基于知识图谱构造方法,提出了一种用于封闭开关设备的知识图谱构建方法。通过本方法,可以实现质量检验报告扫描图像的知识抽取,完成封闭开关设备的自动验收。
本发明提供的方法能够使用计算机软件技术实现流程,参见图1。实施例以从一份封闭开关设备质量检验报告扫描图像知识抽取为例对本发明的流程进行一个具体的阐述,如下:
一种用于封闭开关设备的知识图谱构建方法,包括以下步骤:
步骤1,对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
进一步的,步骤1的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
步骤2,对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过512个字,超过的部分作为第二个句子,以句子为单位,标注出每个句子中描述设备属性的(实体,关系,实体属性)三元组关系,例如(设备,高度,3米);
进一步的,步骤2中对文字信息的标注关系应涵盖所有质量验收时需要检验的关系,并以json文件格式存储。
步骤3,构建基于BERT的关系三元组抽取模型,包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
进一步的,步骤3的具体实现方式如下,
将关系三元组抽取框架分为两个过程,第一个过程为关系抽取过程,识别出每个句子中含有的所有关系;第二个过程为实体识别过程,对每个句子与对应关系识别出三元组剩下的实体和实体属性。
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和编码层。
其中,BERT的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multi head self attention和Feed forward network之后都接了一层normalize归一化层。其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
Figure BDA0002942328650000071
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,dk为预设常量参数。
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果。
BERT中文预训练模型由一层输入层和12层编码层构成,在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体、实体属性或非实体的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词,如“设备”两个字为“实体”的概率最大、“3米”两个字为“实体属性”的概率最大;
训练过程采用分布训练的方式,首先训练关系抽取模型,然后训练实体识别模型,完成针对封闭开关设备的三元组关系抽取模型训练。
步骤4,基于训练好的三元组抽取模型,对测试样本(如图2所示,为需要进行验证的开关柜设备质量检验报告,这里的测试样本即为需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后的样本)进行关系抽取,获取描述设备属性的三元组关系(如图3所示),然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱(如图4所示),并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
进一步的,步骤4的具体实现方式如下,
首先取标准封闭开关设备的质量检验报告,利用训练好的三元组抽取模型对光学文字识别的结果进行三元组关系抽取,然后构建标准设备的关系知识图谱数据;取需要进行验证的开关柜设备质量检验报告进行三元组关系抽取,并构建测试样本的关系知识图谱,将两者进行比对,检验测试样本三元组的合格性,实现设备合格性的检验。
此外,本发明还提供一种用于封闭开关设备的知识图谱构建***,包括以下模块:
文字识别模块,用于对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
数据标注模块,用于对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
三元组抽取模型构建模块,用于构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
样本测试模块,用于基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
各模块的具体实现和各步骤相对应,本实施例中不予撰述。
本文中所描述的具体实施例仅仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种用于封闭开关设备的知识图谱构建方法,其特征在于,包括如下步骤:
步骤1,对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
步骤2,对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
步骤3,构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
步骤4,对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本,基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
2.如权利要求1所述的一种用于封闭开关设备的知识图谱构建方法,其特征在于:步骤1的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
3.如权利要求2所述的一种用于封闭开关设备的知识图谱构建方法,其特征在于:三元组抽取模型的具体实现过程如下;
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和多个编码层;在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体或实体属性的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词。
4.如权利要求3所述的一种用于封闭开关设备的知识图谱构建方法,其特征在于:所述BERT模型的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multihead self attention和Feed forward network之后都接了一层normalize归一化层,其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
Figure FDA0002942328640000021
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,dk为预设常量参数;
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果。
5.一种用于封闭开关设备的知识图谱构建***,其特征在于,包括如下模块:
文字识别模块,用于对标准封闭开关设备质量检验报告扫描图像进行光学文字识别,提取扫描图像中对设备描述的文字信息;
数据标注模块,用于对识别出的设备描述的文字信息进行文本标注,将一段话的所有子句直接拼接为一个句子,拼接的句子不超过N个字,超过的部分作为第二个句子,以句子为单位,标注出每句中描述设备属性的三元组关系(实体,关系,实体属性);
三元组抽取模型构建模块,用于构建基于BERT的关系三元组抽取模型,所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型,所述关系抽取用于抽取出文字信息中每个句子含义的所有关系,所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性;
样本测试模块,用于对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本,基于训练好的三元组抽取模型,对测试样本进行关系抽取,获取描述设备属性的三元组关系,然后将实体和实体属性作为节点,关系作为边,形成图结构的关系知识图谱,并对标准封闭开关设备构建关系知识图谱,将测试样本的关系知识图谱与标准设备关系知识图谱进行比对,实现设备检验。
6.如权利要求5所述的一种用于封闭开关设备的知识图谱构建***,其特征在于:文字识别模块的具体实现方式为,选取标准封闭开关设备的质量检验报告扫描图像一份,基于tesseract对扫描图像进行文字识别,选取其中描述开关设备的正文部分。
7.如权利要求6所述的一种用于封闭开关设备的知识图谱构建方法,其特征在于:三元组抽取模型的具体实现过程如下;
首先,进行关系抽取,输入步骤1得到的开关设备正文部分,基于中文预训练的BERT模型提取文字特征,所述BERT模型包括输入层和多个编码层;在BERT模型后面加一层全连接层,使用sigmoid函数作为损失函数,将关系抽取模型转化为分类任务,类别是针对封闭开关设备的所有需要检验的关系,得到关系抽取结果;
其次,输入关系抽取结果和步骤1的正文部分的拼接,基于BERT搭建一个实体识别模型,模型分为三层,第一层为相同的中文预训练BERT模型,第二层为全连接层,第三层为损失函数层,在损失函数部分加入关系损失和实体标识损失,损失函数均使用softmax函数,将实体识别任务转化为一个多标签分类模型,标签种类限定为“实体”、“实体属性”、“非实体”三种类型,输入句子通过实体识别模型得到每个字为实体或实体属性的概率,训练得到概率最大的类型为当前字的类型,然后将多个连续同为实体或者同为实体属性的字连成一个词。
8.如权利要求7所述的一种用于封闭开关设备的知识图谱构建方法,其特征在于:所述BERT模型的输入层的编码向量是3个嵌入特征的单位和,这三个嵌入特征是:1)词嵌入,即将词库长度向量映射为固定长度特征向量,词库为标注语料中所包含所有不同字的统计;2)位置嵌入,将每个字的位置信息编码成特征向量;3)分割嵌入,用于区分以逗号相隔的多个子句,即不同子句用不同编码表示,相同子句中的每个字用相同编码表示;
编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成,Multihead self attention和Feed forward network之后都接了一层normalize归一化层,其中,Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到,通过输入层编码向量的自注意实现单个句子的进一步编码,Attention计算公式为,
Figure FDA0002942328640000041
其中Q,K,V为输入层编码向量乘以权重WQ,WK,WV分别得到的向量,代表对当前句子以三种不同方式进一步编码的向量,WQ,WK,WV为随机初始化参数,dk为预设常量参数;
经过Multi-Head Self Attention层后的编码向量输入Feed forward network层,该层为传统的两层前馈全连接网络,输出对当前句子的最终编码结果。
CN202110188162.2A 2021-02-08 2021-02-08 一种用于封闭开关设备的知识图谱构建方法与*** Active CN112883197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110188162.2A CN112883197B (zh) 2021-02-08 2021-02-08 一种用于封闭开关设备的知识图谱构建方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110188162.2A CN112883197B (zh) 2021-02-08 2021-02-08 一种用于封闭开关设备的知识图谱构建方法与***

Publications (2)

Publication Number Publication Date
CN112883197A true CN112883197A (zh) 2021-06-01
CN112883197B CN112883197B (zh) 2023-02-07

Family

ID=76056505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110188162.2A Active CN112883197B (zh) 2021-02-08 2021-02-08 一种用于封闭开关设备的知识图谱构建方法与***

Country Status (1)

Country Link
CN (1) CN112883197B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792155A (zh) * 2021-08-30 2021-12-14 北京百度网讯科技有限公司 基于知识图谱的文本校验方法、装置、电子设备和介质
CN114595686A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
CN115358239A (zh) * 2022-08-17 2022-11-18 北京中科智加科技有限公司 一种命名实体和关系识别方法及存储介质
CN115391569A (zh) * 2022-10-27 2022-11-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备
CN117473102A (zh) * 2023-11-17 2024-01-30 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和***
CN117473102B (zh) * 2023-11-17 2024-07-05 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
US20190213258A1 (en) * 2018-01-10 2019-07-11 International Business Machines Corporation Machine Learning to Integrate Knowledge and Natural Language Processing
CN110334130A (zh) * 2019-07-09 2019-10-15 北京万维星辰科技有限公司 一种交易数据的异常检测方法、介质、装置和计算设备
CN110362660A (zh) * 2019-07-23 2019-10-22 重庆邮电大学 一种基于知识图谱的电子产品质量自动检测方法
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111581395A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度学习的模型融合三元组表示学习***及方法
CN111860882A (zh) * 2020-06-17 2020-10-30 国网江苏省电力有限公司 一种电网调度故障处理知识图谱的构建方法及装置
CN112307777A (zh) * 2020-09-27 2021-02-02 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190213258A1 (en) * 2018-01-10 2019-07-11 International Business Machines Corporation Machine Learning to Integrate Knowledge and Natural Language Processing
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN110334130A (zh) * 2019-07-09 2019-10-15 北京万维星辰科技有限公司 一种交易数据的异常检测方法、介质、装置和计算设备
CN110362660A (zh) * 2019-07-23 2019-10-22 重庆邮电大学 一种基于知识图谱的电子产品质量自动检测方法
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111581395A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度学习的模型融合三元组表示学习***及方法
CN111860882A (zh) * 2020-06-17 2020-10-30 国网江苏省电力有限公司 一种电网调度故障处理知识图谱的构建方法及装置
CN112307777A (zh) * 2020-09-27 2021-02-02 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张坤丽等: "面向医疗文本的实体及关系标注平台的构建及应用", 《中文信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792155A (zh) * 2021-08-30 2021-12-14 北京百度网讯科技有限公司 基于知识图谱的文本校验方法、装置、电子设备和介质
CN114595686A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
CN114595686B (zh) * 2022-03-11 2023-02-03 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
CN115358239A (zh) * 2022-08-17 2022-11-18 北京中科智加科技有限公司 一种命名实体和关系识别方法及存储介质
CN115358239B (zh) * 2022-08-17 2023-08-22 北京中科智加科技有限公司 一种命名实体和关系识别方法及存储介质
CN115391569A (zh) * 2022-10-27 2022-11-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种从研报自动构建产业链图谱的方法及相关设备
CN117473102A (zh) * 2023-11-17 2024-01-30 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和***
CN117473102B (zh) * 2023-11-17 2024-07-05 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和***

Also Published As

Publication number Publication date
CN112883197B (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN112883197B (zh) 一种用于封闭开关设备的知识图谱构建方法与***
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理***及方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别***
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱***
CN114926150B (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN115292461B (zh) 基于语音识别的人机交互学习方法及***
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取***和方法
CN115617990B (zh) 基于深度学习算法的电力设备缺陷短文本分类方法和***
CN116089610A (zh) 一种基于行业知识的标签识别方法及装置
CN112257425A (zh) 一种基于数据分级模型的电力数据分析方法及***
CN114860934A (zh) 一种基于nlp技术的智慧问答方法
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN113378024B (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN113065352B (zh) 一种电网调度工作文本的操作内容识别方法
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN115186683B (zh) 一种基于跨模态翻译的属性级多模态情感分类方法
CN116843175A (zh) 一种合同条款风险检查方法、***、设备和存储介质
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN113487194B (zh) 一种基于文本分类的电力***调度员等级评估***
CN116226371A (zh) 一种数字经济专利分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant