CN114398492B - 一种在数字领域的知识图谱构建方法、终端及介质 - Google Patents

一种在数字领域的知识图谱构建方法、终端及介质 Download PDF

Info

Publication number
CN114398492B
CN114398492B CN202111601561.3A CN202111601561A CN114398492B CN 114398492 B CN114398492 B CN 114398492B CN 202111601561 A CN202111601561 A CN 202111601561A CN 114398492 B CN114398492 B CN 114398492B
Authority
CN
China
Prior art keywords
data
initial
model
sample
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111601561.3A
Other languages
English (en)
Other versions
CN114398492A (zh
Inventor
聂海姣
吴高丽
邱银贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Senzongai Digital Beijing Technology Co ltd
Original Assignee
Senzongai Digital Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Senzongai Digital Beijing Technology Co ltd filed Critical Senzongai Digital Beijing Technology Co ltd
Priority to CN202111601561.3A priority Critical patent/CN114398492B/zh
Publication of CN114398492A publication Critical patent/CN114398492A/zh
Application granted granted Critical
Publication of CN114398492B publication Critical patent/CN114398492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种在数字领域的知识图谱构建方法、终端及介质,其方法包括以下步骤:获取非结构化数据,对所述非结构化数据进行预处理,得到初始数据;基于所述初始数据对预设的预训练模型进行无监督预训练,获得判别模型;对所述初始数据进行初步标注,获得样本标注数据;基于所述判别模型和所述样本标注数据构建并训练目标模型,基于所述目标模型对所述初始数据进行命名实体识别微调,得到标注数据;对所述标注数据进行实体消歧,得到最终数据;基于所述最终数据构建知识图谱。本申请具有减少人工标注代价,并利用了非结构化数据的丰富的语义信息的效果。

Description

一种在数字领域的知识图谱构建方法、终端及介质
技术领域
本申请涉及知识图谱构建的技术领域,尤其是涉及一种在数字领域的知识图谱构建方法、终端及介质。
背景技术
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。
现有的知识图谱的构建方法都是通过高质量的有标注的数据集来训练一个高精度的知识图谱构建模型,训练一个高质量的模型严重依赖于有标注的数据,但是互联网上获取的数据大多都是无监督的数据,又称非结构化数据,即没有标签,因为没有标签,所以不能够被现有的监督模型直接拿来训练。目前标注数据的方法一般是人工标注,代价非常大,不仅费时费力,还没有利用好互联网上的非结构化数据丰富的语义信息,因此需要改进。
发明内容
为了减少了人工标注代价,本申请提供一种在数字领域的知识图谱构建方法、终端及介质。
第一方面,本申请提供一种在数字领域的知识图谱构建方法,采用如下的技术方案:
一种在数字领域的知识图谱构建方法,包括以下步骤:
获取非结构化数据,对所述非结构化数据进行预处理,得到初始数据;
基于所述初始数据对预设的预训练模型进行无监督预训练,获得判别模型;
对所述初始数据进行初步标注,获得样本标注数据;
基于所述判别模型和所述样本标注数据构建并训练目标模型,基于所述目标模型对所述初始数据进行命名实体识别微调,得到标注数据;
对所述标注数据进行实体消歧,得到最终数据;
基于所述最终数据构建知识图谱。
通过采用上述技术方案,对初始数据进行无监督预训练,能够减少庞大数据量对模型造成的噪声影响;通过初步标注,得到样本标注数据,根据样本标注数据和预设的模型通过训练得到目标模型,通过目标模型对余下的初始数据进行标注,在极大程度上减少了人力数据标注的投入,节约了时间和物质成本。
可选的,所述获取非结构化数据,对所述非结构化数据进行预处理,得到初始数据包括以下步骤:
从所述多种类型的非结构化数据中提取文本数据;
对所述文本数据进行切分,过滤掉特殊字符,并对所述文本数据进行纠错处理,得到初始数据。
通过采用上述技术方案,对非结构化数据进行预处理,减少了在后续过程中对模型的影响,利于知识图谱构建工作的顺利进行。
可选的,所述基于所述初始数据对预设的预训练模型进行无监督预训练,获得判别模型包括以下步骤:
根据所述初始数据加载预设的预训练模型;
通过所述预训练模型学习所述初始数据的语义特征,得到经过预训练的判别模型。
通过采用上述技术方案,无监督预训练能够利用非结构化数据丰富的语义信息,得到判别模型。
可选的,所述对所述样本初始数据进行初步标注,获得样本标注数据包括以下步骤:
从所述初始数据中选择样本初始数据和若干组非样本初始数据;
基于预设的命名实体识别模型对所述样本初始数据进行初步标注,获得初步标注数据;
对所述初步标注数据进行补充标记和纠错,获得样本标注数据。
通过采用上述技术方案,只需对样本初始数据进行标注,可以用样本标注数据为基础训练模型。
可选的,所述基于所述判别模型和所述样本标注数据训练目标模型,基于所述目标模型对所述初始数据进行命名实体识别微调,得到标注数据包括以下步骤:
在所述判别模型后加入优化层,构建初始目标模型;
基于所述样本标注数据对所述初始目标模型进行训练,得到目标模型;
基于所述目标模型对第一组所述非样本初始数据进行初步标注,得到第一初始标注数据;
对所述第一初始标注数据进行修正处理,得到第一标注数据;
基于第一标注数据对所述目标模型进行训练,得到第一目标模型;
基于所述第一目标模型对第二组所述非样本初始数据进行初步标注,得到第二初始标注数据;
对所述第二初始标注数据进行修正处理,得到第二标注数据;
基于迭代处理方法,通过所述目标模型对所述非样本初始数据进行标注和修正,得到标注数据。
通过采用上述技术方案,以样本标注数据为基础,对目标模型进行迭代训练,极大程度上减少了人力数据标注的投入。
可选的,所述对所述标注数据进行实体消歧,得到最终数据包括以下步骤:
从所述标注数据中提取实体,从所述实体中选择样本实体和多组非样本实体;
构建同义词表,挖掘所述样本实体及所述样本实体的同义词,并记录进所述同义词表中;
根据所述样本实体及所述样本实体的同义词构建初始同义词挖掘训练集;
通过所述同义词挖掘训练集迭代训练预设的同义词挖掘模型,获得目标同义词挖掘模型;
基于所述目标同义词挖掘模型挖掘所述实体以及对应的同义词,并将所述实体及对应的同义词记录进所述同义词表中;
基于所述同义词表对所述标注数据进行实体消歧,得到最终数据。
通过采用上述技术方案,只需人为挖掘样本实体中的同义词,并根据样本实体及其同义词构建同义词挖掘训练集,对同义词挖掘训练模型进行训练,极大程度上减少了实体歧义的人工复杂规则的构建工作。
可选的,所述基于所述最终数据构建知识图谱包括以下步骤:
从所述最终数据中提取实体,得到所述实体的关系和属性;
基于所述关系和所述属性构建知识图谱。
第二方面,本申请提供一种终端设备,采用如下的技术方案:
一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了上述的在数字领域的知识图谱构建方法。
通过采用上述技术方案,通过将上述的在数字领域的知识图谱构建方法生成计算机程序,并存储于存储器中,以被处理器加载并执行,从而,根据存储器及处理器制作终端设备,方便使用。
第三方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,采用了上述的在数字领域的知识图谱构建方法。
通过采用上述技术方案,通过将上述的在数字领域的知识图谱构建方法生成计算机程序,并存储于计算机可读存储介质中,以被处理器加载并执行,通过计算机可读存储介质,方便计算机程序的可读及存储。
附图说明
图1是本申请实施例中一种在数字领域的知识图谱构建方法的整体流程示意图。
图2是本申请实施例一种在数字领域的知识图谱构建方法中步骤S201-步骤S202的流程示意图。
图3是本申请实施例一种在数字领域的知识图谱构建方法中步骤S301-步骤S302的流程示意图。
图4是是本申请实施例一种在数字领域的知识图谱构建方法中的ELECTRA模型示意图。
图5是本申请实施例一种在数字领域的知识图谱构建方法中步骤S501-步骤S503的流程示意图。
图6是本申请实施例一种在数字领域的知识图谱构建方法中步骤S501-步骤S508的流程示意图。
图7是本申请实施例一种在数字领域的知识图谱构建方法中目标模型示意图。
图8是本申请实施例一种在数字领域的知识图谱构建方法中步骤S601-步骤S606的流程示意图。
图9是本申请实施例一种在数字领域的知识图谱构建方法中两种同义词挖掘模型示意图。
图10是本申请实施例一种在数字领域的知识图谱构建方法中步骤S701-步骤S702的流程示意图。
具体实施方式
以下结合附图1-10对本申请作进一步详细说明。
本申请实施例公开一种在数字领域的知识图谱构建方法,参照图1,包括以下步骤:
S101、获取非结构化数据,对非结构化数据进行预处理,得到初始数据;
S102、基于初始数据对预设的预训练模型进行无监督预训练,获得判别模型;
S103、对初始数据进行初步标注,获得样本标注数据;
S104、基于判别模型构建目标模型,基于样本标注数据和目标模型对初始数据进行命名实体识别微调,得到标注数据;
S105、对标注数据进行实体消歧,得到最终数据;
S106、基于最终数据构建知识图谱。
其中,步骤S101中,获取非结构化数据,获取初始数据之后,需要对非结构化数据进行处理,将非结构化数据转化为方便处理的初始数据,参照图2,具体包括以下步骤:
S201、从多种类型的非结构化数据中提取文本数据;
S202、对文本数据进行切分,过滤掉特殊字符,并对文本数据进行纠错处理,得到初始数据。
具体地,步骤S201中,一般来讲,非结构化数据包括办公文档、数据、图片、XML,HTML、各类报表、图像和音频/视频信息等多种格式,需要将这些格式转化为文本数据,转化方法如下:
PDF文档转换:通过PDF解析工具等对PDF文档进行解析,得到文本数据;
图像转换:通过OCR(光学字符识别)将图像转换成文字,作为文本数据;
音频转换:通过语音识别技术识别音频中的文字并提取,作为文本数据;
视频转换:通过抽取视频帧,通过OCR(光学字符识别)将图像转换成文字;也可以从视频中提取音频,通过语音识别技术识别音频中的文字并提取,作为文本数据。例如,通过各种渠道,最终获得的文本数据为“云服务器ECS(Elastic Compute Service)是一种固定可伸缩的云计算服务……”
步骤S202中,需要对获取的文本数据进行初步处理,在本实施例中,首先对文本数据进行切分,将切分后的文本数据中的特殊字符给过滤掉,比如换行符、空格以及表情符号等等,然后对句子进行初步的纠错处理,将文本数据中较明显的错误进行处理,得到初始数据。
其中,步骤S102中,一般来讲,非结构化数据的量级要很大,至少为千万级别的数据量,因此得到的初始数据的量级同样很大,在进行其他任务之前,需要对初始数据进行无监督预训练,以训练针对本批初始数据的模型,参照图3,具体包括以下步骤:
S301、根据初始数据加载预设的预训练模型;
S302、通过预训练模型学习初始数据的语义特征,得到经过预训练的判别模型。
具体地,预训练一般会采用BERT等模型,使用掩码(Masked Language Model)的任务和NSP(Next Sentence Prediction)两个任务进行预训练,但是采用BERT模型会出现预训练和下游任务不一致的情况。
在本实施例中,为了改善这一情况,选择采用ELECTRA模型对预训练初始数据进行预训练,ELECTRA采用的是RTD(replaced token detection)的方式,ELECTRA模型由两部分组成,分别是Generator(生成器)以及Discriminator(判别器),训练中的Discriminator接受的输入就是原数据,并不包含被Mask的字符,这样就不会造成跟下游任务的差异。
另外,ELECTRA的训练做的是token级别的二分类任务,类似于下游任务的命名实体识别,跟下游任务类似,减少了出现预训练和下游任务不一致的可能性,并且训练的代价会比较小。
更具体地,参照图4,初始数据输入ELECTRA模型后,数据上的掩模位置是随机生成的,将带有掩模的数据输入到Generator中,Generator把掩模的位置预测出来,Discriminator(判别器)来判断哪些位置的是Generator(生成器)生成的,生成的标注为1,不是生成的标注为0,Discriminator(判别器)学习初始数据中的语义特征,形成仅包含Discriminator(判别器)的判别模型。
其中,步骤S103中,由于在得到初始数据时,并没有训练好的模型对初始数据进行标注,因此需要借助公开的命名实体识别微调模型对部分初始数据进行标注,然后人工对标注情况进行修正,参照图5,具体包括以下步骤:
S401、从初始数据中选择样本初始数据和若干组非样本初始数据;
S402、基于预设的命名实体识别模型对样本初始数据进行初步标注,获得初步标注数据;
S403、对初步标注数据进行补充标记和纠错,获得样本标注数据。
具体地,步骤S401,假设获取1000万条初始数据,我们选择1000条数据作为样本初始数据,其余的非样本初始数据同样按照1000条/组的情况进行划分。
具体地,步骤S402,在本实施例中,选择已经公开的训练好的BERT的命名实体识别模型,对样本初始数据进行初步标注,得到初步标注数据。
具体地,步骤S403,得到初步标记数据后,由于选择的BERT命名实体识别模型识别标注的实体准确度有限,因此需要人工对初步标注数据中未标注的实体进行补充标记,同时对一些标注错误的实体进行修正,获得样本标注数据。
其中,步骤S104中,获得判别模型以及样本标记数据之后,根据判别模型和样本标注数据构建并训练目标模型,并基于目标模型对非样本初始数据进行命名实体识别微调训练,得到标注数据。参照图6,具体包括以下步骤:
S501、在判别模型后加入优化层,构建初始目标模型;
S502、基于标注数据对初始目标模型进行实体识别训练,得到目标模型;
S503、基于目标模型对第一组非样本初始数据进行初步标注,得到第一初始标注数据;
S504、对第一初始标注数据进行修正处理,得到第一标注数据;
S505、基于第一标注数据对目标模型进行训练,得到第一目标模型;
S506、基于第一目标模型对第二组非样本初始数据进行初步标注,得到第二初始标注数据;
S507、对第二初始标注数据进行修正处理,得到第二标注数据;
S508、基于迭代处理方法,通过目标模型对非样本初始数据进行标注,得到标注数据。
具体地,参照图7,在本实施例中,为了进一步对初始数据的命名实体识别进行优化,在判别模型后加入CRF层,构建初始目标模型,能够基于马尔科夫性质,对字的相关关系建模,能够提升命名实体识别的准确性。
具体地,构建初始目标之后,根据样本标注数据加载初始目标模型,进行实体识别训练,得到目标模型。此时,目标模型已经能够识别样本标注数据中的实体,使用目标模型对非样本初始数据进行标注,极大减少了人工标注的工作量。
具体地,由于样本标注数据数量较少,目标模型标注还具有准确率不高的问题,因此,需要持续训练目标模型。使用目标模型标注第一组非样本初始数据,得到第一初始标注数据。得到第一初始标注数据之后,人工对第一初始标注数据进行补充标注和纠错处理,得到准确的第一标注数据。根据准确的第一标注数据训练目标模型,得到第一目标模型。再次使用第一目标模型对第二组非样本初始数据进行标注,得到第二初始标注数据,人工对第二初始标注数据进行补充标注和纠错处理,得到准确的第二标注数据。通过使用目标模型标注和人工修正的迭代处理方法,最终获得标注出来所有实体的标注数据。
更具体地,对于已经初步标注的非样本初始数据,通过准确度来确定是否需要训练对应的目标模型,在本实施例中,假设当第N初始标注数据的准确率已经到达90%以上,则确定第N-1目标模型即可作为所需要的命名实体识别微调模型,后续标注可以直接采用该模型;若后续抽取测试某组非样本初始数据的标注准确率未到达90%,则人工对该组数据进行修正,并基于修正后的数据对模型进行训练,得到训练后的新模型。
另外,由于前期的标注实体的标注数据可能比较少,所以需要在初始目标模型中加入label smooting的正则化方法防止过拟合,对于类别不平衡的影响,需要加入focalloss进行缓解。等数据量大了以后,去除focal loss和label smoothing等trick,目标模型进行正常的训练即可。
其中,步骤S105中,当获得标注数据后,因为标注数据中的实体有很多别名,并且别名千奇百怪,所以需要继续对标注数据进行实体消歧处理,参照图8,具体包括以下步骤:
S601、从标注数据中提取实体,从实体中选择样本实体和多组非样本实体;
S602、构建同义词表,挖掘样本实体及样本实体的同义词,并记录进同义词表中;
S603、根据样本实体及样本实体的同义词构建初始同义词挖掘训练集;
S604、通过同义词挖掘训练集迭代训练预设的同义词挖掘模型,获得目标同义词挖掘模型;
S605、基于目标同义词挖掘模型挖掘实体以及对应的同义词,并将实体及对应的同义词记录进同义词表中;
S606、基于同义词表对标注数据进行实体消歧,得到最终数据。
具体地,从标注数据中提取实体,从实体中选择样本实体和多组非样本实体,对样本实体进行分析,人为定义挖掘样本的同义词,并将样本实体以及样本实体的同义词记录进构建的同义词表中。
具体地,根据样本实体以及样本实体的同义词构建初始同义词挖掘训练集,在本实施例中,构建的训练集包括context(上下文)和query(查询),其中context分两种情况,第一种是一个context包含2种以上的实体,例如“A公司旗下的B产品降价后,销量暴增”,相应的query以“A公司和B产品是否是同义词”这样来构造样本;另一种是2个context分别包含至少一个实体,例如,两个context为“A公司与B公司战略投资C公司1.5亿美元”,“A集团是一家专注于早期创业的投资机构,曾与B公司联合投资过C公司”,相应的query以“A公司与A集团是否是同义词”这样来构造样本。
具体地,参照图9,在本实施例中,选择BERT模型或者BERT模型的变体模型,比如Roberta,Bert-wwm等模型作为预设的同义词挖掘模型,利用构建的初始同义词挖掘训练集训练BERT模型,训练之后得到第一同义词挖掘模型。选择第一组非样本实体构建训练集,并将训练集输入进第一同义词挖掘模型,得到非样本实体中的一些实体是否为同义词的结果,若是同义词,则输出“1”,若不是,则输出“0”。
具体地,当第一同义词挖掘模型生成同义词挖掘结果后,人为对结果进行检查,把错误的同义词实体进行修正,减少错误的同义词实体,并将正确的同义词实体记录进同义词表中。并根据修正后的同义词挖掘结果对第一同义词挖掘模型进行训练,得到第二同义词挖掘模型。再使用第二同义词挖掘模型对第二组非样本实体构建的训练集进行同义词挖掘处理。迭代训练过程在此不再赘述,最终形成对于初始数据较为完善的同义词表以及同义词挖掘准确率高的同义词挖掘模型。在构建同义词表后,将余下的非样本实体中的陌生实体通过同义词表找到对应的已知实体,即可对应将陌生实体与已知实体构建成最终句子,也即构建知识图谱所需的最终数据。
由于训练集包括两种情况,对应的同义词挖掘模型也具有两种情况。参照图9,第一种情况是同义词实体出现在同一个句子中,输入就是一个context语句和一个问句;第二种情况就是同义词实体出现在不同的句子中,输入就是2个context语句和一个问句。这两种情况能够覆盖大部分的情况,能够从无监督的语料中挖掘出来很多同义词实体。
其中,步骤S106中,在获得最终数据之后,即可根据最终数据构建知识图谱了,参照图10,具体包括以下步骤:
S701、从最终数据中提取实体,得到实体的关系和属性;
S702、基于关系和属性构建知识图谱。
具体地,在本实施例中,知识图谱构建采用neo4j(图数据库)和mysql(关系数据库)结合的方式,neo4j主要存储的是实体及其实体之间的关系,mysql主要存放实体相关的属性,根据neo4j和mysql构建知识图谱。在使用知识图谱的时候,通过neo4j找到想要的实体,然后再通过mysql获取相应实体的属性。
本申请实施例一种在数字领域的知识图谱构建方法的实施原理为:获取非结构化数据,对非结构化数据进行预处理,得到初始数据;通过对初始数据进行无监督预训练,得到判别模型,根据判别模型构建目标模型;通过人工对样本初始数据进行标注,得到样本标注数据,通过样本标注数据以及非样本初始数据迭代训练目标模型,得到标注数据,在训练过程中人工参与修正即可,通过人工少量的标注数据,以极小的代价得到一个高精度的模型;从标注数据中提取实体,人工根据样本实体构建初始同义词挖掘训练集,并根据初始同义词挖掘训练集训练同义词挖掘模型;通过同义词挖掘模型挖掘非样本实体中的同义词,人工进行修正,再次使用修正后的同义词挖掘训练集对同义词挖掘模型进行训练,通过迭代训练,构建同义词表,从同义词表中选择与陌生实体对应的已知实体,得到最终数据,减少了人工挖掘的工作量。最终根据最终数据构建知识图谱。本申请利用了非结构化数据的丰富的语义信息,减少了人为的工作量,节省了人力成本开销。
本申请实施例还公开一种终端设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,其中,处理器执行计算机程序时,采用了上述实施例中的在数字领域的知识图谱构建方法。
其中,终端设备可以采用台式电脑、笔记本电脑或者云端服务器等计算机设备,并且,终端设备包括但不限于处理器以及存储器,例如,终端设备还可以包括输入输出设备、网络接入设备以及总线等。
其中,处理器可以采用中央处理单元(CPU),当然,根据实际的使用情况,也可以采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以采用微处理器或者任何常规的处理器等,本申请对此不做限制。
其中,存储器可以为终端设备的内部存储单元,例如,终端设备的硬盘或者内存,也可以为终端设备的外部存储设备,例如,终端设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等,并且,存储器还可以为终端设备的内部存储单元与外部存储设备的组合,存储器用于存储计算机程序以及终端设备所需的其他程序和数据,存储器还可以用于暂时地存储已经输出或者将要输出的数据,本申请对此不做限制。
其中,通过本终端设备,将上述实施例中的在数字领域的知识图谱构建方法存储于终端设备的存储器中,并且,被加载并执行于终端设备的处理器上,方便使用。
本申请实施例还公开一种计算机可读存储介质,并且,计算机可读存储介质存储有计算机程序,其中,计算机程序被处理器执行时,采用了上述实施例中的在数字领域的知识图谱构建方法。
其中,计算机程序可以存储于计算机可读介质中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间件形式等,计算机可读介质包括能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等,需要说明的是,计算机可读介质包括但不限于上述元器件。
其中,通过本计算机可读存储介质,将上述实施例中的在数字领域的知识图谱构建方法存储于计算机可读存储介质中,并且,被加载并执行于处理器上,以方便上述方法的存储及应用。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (8)

1.一种在数字领域的知识图谱构建方法,其特征在于,包括以下步骤:
获取非结构化数据,对所述非结构化数据进行预处理,得到初始数据;
基于所述初始数据对预设的预训练模型进行无监督预训练,获得判别模型;
对所述初始数据进行初步标注,获得样本标注数据;
基于所述判别模型和所述样本标注数据构建并训练目标模型,基于所述目标模型对所述初始数据进行命名实体识别微调,得到标注数据;
从所述标注数据中提取实体,从所述实体中选择样本实体和多组非样本实体;
构建同义词表,挖掘所述样本实体及所述样本实体的同义词,并记录进所述同义词表中;
根据所述样本实体及所述样本实体的同义词构建初始同义词挖掘训练集;
通过所述同义词挖掘训练集迭代训练预设的同义词挖掘模型,获得目标同义词挖掘模型;
基于所述目标同义词挖掘模型挖掘所述实体以及对应的同义词,并将所述实体及对应的同义词记录进所述同义词表中;
基于所述同义词表对所述标注数据进行实体消歧,得到最终数据;
基于所述最终数据构建知识图谱。
2.根据权利要求1所述的一种在数字领域的知识图谱构建方法,其特征在于,所述获取非结构化数据,对所述非结构化数据进行预处理,得到初始数据包括以下步骤:
从多种类型的所述非结构化数据中提取文本数据;
对所述文本数据进行切分,过滤掉特殊字符,并对所述文本数据进行纠错处理,得到初始数据。
3.根据权利要求2所述的一种在数字领域的知识图谱构建方法,其特征在于,所述基于所述初始数据对预设的预训练模型进行无监督预训练,获得判别模型包括以下步骤:
根据所述初始数据加载预设的预训练模型;
通过所述预训练模型学习所述初始数据的语义特征,得到经过预训练的判别模型。
4.根据权利要求3所述的一种在数字领域的知识图谱构建方法,其特征在于,所述对所述初始数据进行初步标注,获得样本标注数据包括以下步骤:
从所述初始数据中选择样本初始数据和若干组非样本初始数据;
基于预设的命名实体识别模型对所述样本初始数据进行初步标注,获得初步标注数据;
对所述初步标注数据进行补充标记和纠错,获得样本标注数据。
5.根据权利要求4所述的一种在数字领域的知识图谱构建方法,其特征在于,所述基于所述判别模型和所述样本标注数据训练目标模型,基于所述目标模型对所述初始数据进行命名实体识别微调,得到标注数据包括以下步骤:
在所述判别模型后加入优化层,构建初始目标模型;
基于所述样本标注数据对所述初始目标模型进行训练,得到目标模型;
基于所述目标模型对第一组所述非样本初始数据进行初步标注,得到第一初始标注数据;
对所述第一初始标注数据进行修正处理,得到第一标注数据;
基于第一标注数据对所述目标模型进行训练,得到第一目标模型;
基于所述第一目标模型对第二组所述非样本初始数据进行初步标注,得到第二初始标注数据;
对所述第二初始标注数据进行修正处理,得到第二标注数据;
基于迭代处理方法,通过所述目标模型对所述非样本初始数据进行标注和修正,得到标注数据。
6.根据权利要求1所述的一种在数字领域的知识图谱构建方法,其特征在于,所述基于所述最终数据构建知识图谱包括以下步骤:
从所述最终数据中提取实体,得到所述实体的关系和属性;
基于所述关系和所述属性构建知识图谱。
7.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述处理器加载并执行计算机程序时,采用了权利要求1-6中任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器加载并执行时,采用了权利要求1-6中任一项所述的方法。
CN202111601561.3A 2021-12-24 2021-12-24 一种在数字领域的知识图谱构建方法、终端及介质 Active CN114398492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111601561.3A CN114398492B (zh) 2021-12-24 2021-12-24 一种在数字领域的知识图谱构建方法、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111601561.3A CN114398492B (zh) 2021-12-24 2021-12-24 一种在数字领域的知识图谱构建方法、终端及介质

Publications (2)

Publication Number Publication Date
CN114398492A CN114398492A (zh) 2022-04-26
CN114398492B true CN114398492B (zh) 2022-08-30

Family

ID=81226619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111601561.3A Active CN114398492B (zh) 2021-12-24 2021-12-24 一种在数字领域的知识图谱构建方法、终端及介质

Country Status (1)

Country Link
CN (1) CN114398492B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN110020438A (zh) * 2019-04-15 2019-07-16 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110990590A (zh) * 2019-12-20 2020-04-10 北京大学 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别***及方法
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及***
CN113283244A (zh) * 2021-07-20 2021-08-20 湖南达德曼宁信息技术有限公司 一种基于预训练模型的招投标数据命名实体识别方法
CN113449113A (zh) * 2020-03-27 2021-09-28 京东数字科技控股有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
CN113672737A (zh) * 2020-05-13 2021-11-19 复旦大学 知识图谱实体概念描述生成***
CN113779272A (zh) * 2021-09-15 2021-12-10 上海泓笛数据科技有限公司 基于知识图谱的数据处理方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241078B (zh) * 2018-08-30 2021-07-20 中国地质大学(武汉) 一种基于混合数据库的知识图谱组织查询方法
US10902203B2 (en) * 2019-04-23 2021-01-26 Oracle International Corporation Named entity disambiguation using entity distance in a knowledge graph
CN112084752B (zh) * 2020-09-08 2023-07-21 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN110020438A (zh) * 2019-04-15 2019-07-16 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110990590A (zh) * 2019-12-20 2020-04-10 北京大学 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN113449113A (zh) * 2020-03-27 2021-09-28 京东数字科技控股有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
CN113672737A (zh) * 2020-05-13 2021-11-19 复旦大学 知识图谱实体概念描述生成***
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别***及方法
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及***
CN113283244A (zh) * 2021-07-20 2021-08-20 湖南达德曼宁信息技术有限公司 一种基于预训练模型的招投标数据命名实体识别方法
CN113779272A (zh) * 2021-09-15 2021-12-10 上海泓笛数据科技有限公司 基于知识图谱的数据处理方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种准确而高效的领域知识图谱构建方法;杨玉基 等;《软件学报》;20180208;第29卷(第10期);2931-2947 *
基于关联图和文本相似度的实体消歧技术研究;王章辉 等;《计算机与数字工程》;20211220;第49卷(第12期);2469-2475 *

Also Published As

Publication number Publication date
CN114398492A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN111177326B (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN109635288B (zh) 一种基于深度神经网络的简历抽取方法
CN111259631B (zh) 一种裁判文书结构化方法及装置
CN110598000A (zh) 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN111428467A (zh) 生成阅读理解的问题题目的方法、装置、设备及存储介质
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和***
CN116304023A (zh) 一种基于nlp技术的招投标要素抽取方法、***及存储介质
Kim Analysis of standard vocabulary use of the open government data: the case of the public data portal of Korea
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN112347121B (zh) 一种可配置的自然语言转sql的方法及***
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN114661900A (zh) 一种文本标注推荐方法、装置、设备及存储介质
CN109657207B (zh) 条款的格式化处理方法和处理装置
CN112507060A (zh) 一种领域语料库构建方法及***
CN117852637B (zh) 一种基于定义的学科概念知识体系自动构建方法与***
CN112818099B (zh) 基于多粒度分词的应用题解答处理方法、***和存储介质
CN113297845B (zh) 一种基于多层次双向循环神经网络的简历块分类方法
US20240071047A1 (en) Knowledge driven pre-trained form key mapping
CN116151219A (zh) 一种基于命名实体识别的中标数据解析治理方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant