CN116628229B - 一种利用知识图谱生成文本语料的方法及装置 - Google Patents
一种利用知识图谱生成文本语料的方法及装置 Download PDFInfo
- Publication number
- CN116628229B CN116628229B CN202310906808.5A CN202310906808A CN116628229B CN 116628229 B CN116628229 B CN 116628229B CN 202310906808 A CN202310906808 A CN 202310906808A CN 116628229 B CN116628229 B CN 116628229B
- Authority
- CN
- China
- Prior art keywords
- graph
- sentence
- sentences
- node
- templates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000009795 derivation Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 8
- 235000013361 beverage Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 235000015205 orange juice Nutrition 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供了一种利用知识图谱生成文本语料的方法及装置。知识图谱的图谱元素包含代表实体的节点以及体现节点之间关系的连接边。利用知识图谱能够将隐私数据组织成结构化数据。在该方法中,读取知识图谱中子图的图数据和本体信息,图数据包括子图中的图谱元素形成的若干三元组,本体信息至少包括子图中各图谱元素的类型。接着,基于预先构建的若干句子模板、上述图数据以及本体信息,生成若干句子,归入生成句子集;其中,若干句子模板中的至少一个句子模板基于本体信息构建;基于生成句子集,确定子图对应的文本语料,该文本语料用于语言模型训练。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种利用知识图谱生成文本语料的方法及装置。
背景技术
语言模型是基于深度学习技术和大规模语料库训练的自然语言处理模型,其主要功能是预测文本中的下一个词或字符等。通过学习大量的语言样本,语言模型可以学习到语言的结构和规律,并能够生成合理的自然语言文本。当采用包含隐私数据的语言材料作为训练语料时,还要对训练语料进行隐私保护。语言模型目前广泛应用于机器翻译、文本生成、情感分析、语音识别等领域,是自然语言处理中的重要技术之一。目前,存在提高语言模型质量的需求,而语料库的质量直接影响语言模型的质量。
因此,希望能有改进的方案,可以提供质量更高、逻辑性更强的训练语料。
发明内容
本说明书一个或多个实施例描述了一种利用知识图谱生成文本语料的方法及装置,以提供质量更高、逻辑性更强的训练语料。具体的技术方案如下。
第一方面,实施例提供了一种利用知识图谱生成文本语料的方法,所述知识图谱的图谱元素包含代表实体的节点以及体现节点之间关系的连接边;所述方法包括:
读取所述知识图谱中子图的图数据和本体信息,所述图数据包括所述子图中的图谱元素形成的若干三元组,所述本体信息至少包括所述子图中各图谱元素的类型;
基于预先构建的若干句子模板、所述图数据以及所述本体信息,生成若干句子,归入生成句子集;其中,所述若干句子模板中的至少一个句子模板基于所述本体信息构建;
基于所述生成句子集,确定所述子图对应的文本语料;文本语料用于语言模型训练。
在一种实施方式中,所述若干三元组中的任意三元组包括:头节点、连接边和尾节点;所述生成若干句子的步骤,包括:
基于预先构建的若干句子模板,生成该任意三元组对应的若干句子。
在一种实施方式中,所述若干句子模板包括第一类模板,所述若干句子包括第一句子,所述第一句子以所述头节点的名称作为主语,以所述连接边对应的关系类型作为谓语,以所述尾节点的名称作为宾语。
在一种实施方式中,所述若干句子模板包括第二类模板,所述若干句子包括第二句子,所述第二句子以所述头节点的类型作为主语,以所述连接边对应的关系类型作为谓语,以所述尾节点的类型作为宾语。
在一种实施方式中,所述生成若干句子的步骤,包括:
从所述图数据和所述本体信息中提取目标节点的节点信息,所述节点信息包括节点名称和节点类型;
基于预先构建的若干句子模板以及所述节点信息,生成所述目标节点对应的若干句子。
在一种实施方式中,所述若干句子模板包括第三类模板,所述若干句子包括第三句子,所述第三句子以所述节点类型作为主语,以预设的表示包含关系的词语作为谓语,以所述节点名称作为宾语。
在一种实施方式中,方法还包括:
获取从所述知识图谱中确定的若干逻辑推导规则,所述逻辑推导规则通过所述知识图谱的本体信息构成;
将所述图数据和所述本体信息分别与所述若干逻辑推导规则进行匹配,得到匹配规则;
将所述图数据与所述匹配规则结合,生成对应的句子,归入所述生成句子集。
在一种实施方式中,任意一条逻辑推导规则包括逻辑条件和推导结果;
所述将所述图数据和所述本体信息分别与所述若干逻辑推导规则进行匹配的步骤,包括:
将所述图数据和所述本体信息分别与所述若干逻辑推导规则的逻辑条件进行匹配;
所述生成对应的句子的步骤,包括:
将所述图数据中的节点信息与所述匹配规则的推导结果进行结合。
在一种实施方式中,所述匹配规则的置信度为第一置信度;所述生成对应的句子的步骤,包括:
从预先设置的置信度与概率描述词的对应关系中,确定所述第一置信度对应的第一概率描述词;
将所述图数据与所述匹配规则结合,且在生成的句子中加入所述第一概率描述词。
在一种实施方式中,所述确定所述子图对应的文本语料的步骤,包括:
对生成句子集中的多个句子进行合并,将合并后的句子作为所述子图对应的文本语料。
在一种实施方式中,所述对所述生成句子集中的多个句子进行合并的步骤,包括:
对所述生成句子集中的多个句子进行去重,对去重后的所述生成句子集进行合并。
在一种实施方式中,所述对所述生成句子集中的多个句子进行合并的步骤,包括:
从所述生成句子集中筛选出待合并句子,对所述待合并句子进行合并;所述待合并句子包括:具有相同主语和谓语的句子,以及具有相同谓语和宾语的句子。
第二方面,实施例提供了一种利用知识图谱生成文本语料的装置,所述知识图谱的图谱元素包含代表实体的节点以及体现节点之间关系的连接边;所述装置包括:
读取模块,配置为读取所述知识图谱中子图的图数据和本体信息,所述图数据包括所述子图中的图谱元素形成的若干三元组,所述本体信息至少包括所述子图中各图谱元素的类型;
生成模块,配置为基于预先构建的若干句子模板、所述图数据以及所述本体信息,生成若干句子,归入生成句子集;其中,所述若干句子模板中的至少一个句子模板基于所述本体信息构建;
确定模块,配置为基于所述生成句子集,确定所述子图对应的文本语料;所述文本语料用于语言模型训练。
第三方面,实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面中任一项所述的方法。
第四方面,实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面中任一项所述的方法。
本说明书实施例提供的方法及装置,利用子图的图数据和本体信息,与句子模板中的本体信息进行对应,从而能够基于子图的图数据和本体信息构建句子。这种方法能够将知识图谱中丰富的、有逻辑的知识数据转换为文本,将这些文本作为训练语料,能够得到质量更高、逻辑性更强的训练语料。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2为实施例提供的一种利用知识图谱生成文本语料的方法的流程示意图;
图3为实施例提供的一种利用知识图谱生成文本语料的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。从知识图谱中提取子图的图数据和本体信息,输入计算设备。计算设备可以利用句子模板中定义的句子生成逻辑,基于与图数据和本体信息之间的对应,将其转为文本。句子模板可以包含多种,针对子图中的图数据,基于不同的句子模板可以生成不同的文本,从而提取子图中不同层面的文本。计算设备也可以利用逻辑推导规则将图数据转为文本。计算设备对转换的文本进行处理后得到的文本可以作为文本语料,用来训练语言模型。
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,是对知识进行表达的一种知识库。它能够将庞大且繁杂的知识以更加有序的方式表达出来。知识图谱中的数据可以是从业务平台等多种数据源中提取,并经过严谨的逻辑关系构建的,通常具有事实正确性高、可控可解释等特点。知识图谱可以应用在多个领域,例如可以应用在基于语义的搜索领域,应用在推荐领域,或应用在生成用户画像等领域。当知识图谱中的数据是利用隐私数据构建时,需要对知识图谱中的数据进行隐私保护。需要着重说明的是,本说明书实施例中提及的信息或数据,均是在获取相应数据对象的授权的情况下使用的。
知识图谱包含多个节点以及节点之间的连接边,节点代表实体(entity),因此也可以将节点称为实体节点,节点之间的连接边用于体现实体节点之间的关系(relation)。实体指的是现实世界中的事物,例如人、地名、概念、药物、公司、组织、机构、设备、数字、日期、货币和地址,等等,不胜枚举。实体可以采用实体词来表示,实体词具有名词性质。例如,可乐、饮料等都是实体。关系用来表达不同实体之间的某种联系,例如在连接关系“可乐-属于-饮料”中,关系是“属于”,体现了可乐属于饮料这样的关系数据。
在创建知识图谱时,可以预先定义知识图谱的本体(Schema)。知识图谱的本体是用于描述和组织领域知识的形式化表示方法。本体信息包括用于定义实体、属性和关系之间的概念和规则的信息,并用于构建和维护知识图谱。本体信息通常还可以包含以一组术语和定义组成的实体概念,以便帮助计算机理解领域知识,并使其能够更好地应用于自然语言处理、信息检索、智能推荐等领域。本体信息包括实体具有的实体类型,以及体现实体与实体之间关系的关系类型,也就是节点的实体类型和连接边的关系类型。实体类型也可以采用节点的节点类型表示。本体信息可以包括多种实体类型和多种关系类型。本体信息可以存储在知识图谱中,也可以以与知识图谱进行耦合的本体关系图的形式单独存在。知识图谱通过本体定义实体之间的关系,这使得知识图谱中繁杂的知识逻辑性更强。
在图1所示知识图谱中,黑色圆点代表节点,节点之间的箭头线表示节点之间的关系。节点旁边标注了节点名称和节点类型,箭头线上标注了关系类型。例如,猫粮是节点名称,商品是该节点的节点类型或实体类型,偏好是关系类型。图1中左侧的关系图可以理解为知识图谱中以xx商店为中心节点的子图。计算设备从该子图提取到的文本显示在图1的右下侧部分的框中。
文本语料也可以称为训练语料,是用于训练自然语言处理模型的文本数据集,它包含了大量的语言样本,可以用于训练机器学习算法和深度学习模型,以提高自然语言处理的效果。训练语料的质量和数量对于机器学习模型的性能和效果具有重要影响。
上述语言模型可以是自然语言处理模型,也可以是大语言模型。语言模型是指基于深度学习技术和大规模语料库训练的自然语言处理模型,其主要功能是预测文本中的下一个单词或字符等。通过学习大量的语言样本,可以学习到语言的结构和规律,并能够生成合理的自然语言文本。语言模型目前广泛应用于机器翻译、文本生成、情感分析、语音识别等领域,是自然语言处理中的重要技术之一。
为了得到质量更高、逻辑性更强的训练语料,本说明书实施例提供了一种文本语料生成方法。在该方法中,读取知识图谱中子图的图数据和本体信息,该图数据包括子图中的图谱元素形成的若干三元组,本体信息至少包括子图中各图谱元素的类型;接着,基于预先构建的若干句子模板、上述图数据以及本体信息,生成若干句子,归入生成句子集,若干句子模板中的至少一个句子模板基于本体信息构建。基于生成句子集可以确定该子图对应的文本语料。
知识图谱中包含庞大且繁杂的逻辑性强的知识,将这部分知识充分地挖掘出来并转为文本,从而作为训练语料,能够显著地提升训练语料的质量,利用这样的训练语料训练语言模型之后,能够提高利用语言模型进行文本预测时的准确性。下面结合图2对实施例进行详细说明。
图2为实施例提供的一种利用知识图谱生成文本语料的方法的流程示意图。该知识图谱的图谱元素包含代表实体的节点以及体现节点之间关系的连接边。该方法可以通过计算设备执行,计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该计算设备可以是服务平台中的设备。该方法包括以下步骤。
在步骤S210中,读取知识图谱中子图K1的图数据D1和本体信息B1。
知识图谱数据可以存储在文件中,文件存储在计算设备或存储设备中。计算设备可以从文件中读取知识图谱中的子图的图数据和子图的本体信息。子图是指以一个节点作为中心节点,该中心节点与其若干跳邻居节点构成的关系图。若干跳包括一跳、两跳或更多跳。子图K1可以是知识图谱中的任意一个子图。例如,在图1左侧的子图中包含了以xx商店为中心节点的两跳邻居节点。当子图中的邻居节点过多时,可以对邻居节点进行采样。
本步骤中获取的本体信息B1是该子图K1的本体信息。本步骤获取的图数据D1包括子图中的图谱元素形成的若干三元组。即三元组包括相互连接的头节点、连接边和尾节点。该本体信息至少包括该子图中各图谱元素的类型,例如包括头节点的类型、连接边的关系类型和尾节点的类型。头节点的类型和尾节点的类型都是节点类型或实体类型。
在读取子图K1的本体信息B1时,可以直接从子图K1中读取,也可以从与知识图谱耦合的本体关系图中读取。以图1中的子图为例,图数据D1可以包括图1中示出的节点和/或连接边,具体包括节点属性和/或边属性,节点属性包括节点标识(id)、节点名称以及其他信息。边属性包括节点指向和连接边的建立时间等信息。图1中子图的本体信息可以包括图1中所有节点的节点类型和所有连接边的关系类型。
在步骤S220中,基于预先构建的若干句子模板M、上述图数据D1以及上述本体信息B1,生成若干句子,归入生成句子集A。
其中,若干包括一个或多个等情况。当句子模板M不同时,从图数据中生成的句子也不同。不同的句子模板M可以用于提取子图中不同层面的知识,得到对应的句子。
若干句子模板M中的至少一个句子模板基于本体信息构建。这里的本体信息可以是上述子图的本体信息,也可以是知识图谱的本体信息。
本步骤在执行时,可以基于句子模板M中包含的图数据、本体信息与句子成分的对应关系,与获取的上述图数据D1和上述本体信息B1进行匹配,确定获取的图数据和/或上述本体信息对应的句子成分,从而生成句子。
在一种实施方式中,可以利用图数据中的三元组来生成句子。例如,当若干三元组中的任意三元组包括:头节点、连接边和尾节点时,在生成若干句子时,可以基于预先构建的若干句子模板,生成该任意三元组对应的若干句子。利用三元组来生成句子时,可以包含多种实施方式。
若干句子模板M可以包括第一类模板M1。生成的若干句子包括第一句子,第一句子是利用第一类模板M1生成的。第一句子以头节点的名称作为主语,以连接边对应的关系类型作为谓语,以尾节点的名称作为宾语。
在生成第一句子时,可以将图数据D1中的三元组的头节点的名称作为主语,将该三元组的关系类型作为谓语,将尾节点的名称作为宾语。
在具体实施时,第一类模板M1也可以是当关系类型是第一类关系类型时应用的模板。当关系类型是第二类关系类型时,第一句子可以以尾节点的名称作为主语,以连接边对应的关系类型作为谓语,以头节点的名称作为宾语。第一类关系类型和第二类关系类型是完全不同的关系类型,第一类关系类型连接的头节点与尾节点中,头节点起主导作用,尾节点起从属作用。例如,在三元组“猫-偏好-猫粮”中,“猫”起主导作用,“猫粮”起从属作用。而在第二类关系类型连接的头节点与尾节点中,尾节点起主导作用,头节点起从属作用。在本实施方式这种情况中,充分利用知识图谱的本体信息,能够生成更符合逻辑的文本,避免出现逻辑混乱的文本。
在利用第一类模板M1生成句子时,可以将子图K1中的所有三元组或部分三元组匹配第一类模板M1,从而生成多个句子。例如,基于第一类模板M1,利用图1中的子图可以生成表1中的句子。
表1
表1中第一行的前三列是句子模板中图数据、本体信息与句子成分的对应关系,头节点的名称和尾节点的名称属于图数据,关系类型属于本体信息。
若干句子模板M包括第二类模板M2。生成的若干句子包括第二句子,第二句子是基于第二类模板M2生成的。第二句子以头节点的类型作为主语,以连接边对应的关系类型作为谓语,以尾节点的类型作为宾语。在利用第二类模板M2生成句子时,可以将子图K1中的所有三元组或部分三元组匹配第二类模板M2,从而生成多个句子。
例如,基于第二类模板M2,利用图1中的子图可以生成表2中的句子。
表2
表2中第一行的前三列是句子模板中本体信息与句子成分的对应关系,头节点的类型和尾节点的类型属于以及关系类型属于本体信息。每一三元组都可以基于第二类模板M2生成句子,因此在这种方式中生成重复句子。表2并没有重复显示所有句子,而是对于重复的句子只显示了一个。
在生成句子时,不仅可以利用图数据中的三元组,还可以利用图数据中的节点信息,生成包含节点更多信息的句子。
例如,可以从图数据D1和本体信息B1中提取目标节点的节点信息,基于预先构建的若干句子模板M以及该节点信息,生成目标节点对应的若干句子。具体的,可以将节点信息与句子模板M进行匹配,确定节点信息在句子中的成分,从而生成句子。
其中,节点信息包括节点名称和节点类型。目标节点可以是子图K1中的任意节点,也可以是子图K1中的中心节点或者其他指定节点。
句子模板M可以包括第三类模板M3。若干句子包括第三句子,第三句子是基于第三类模板M3生成的。第三句子以节点信息中的节点类型作为主语,以预设的表示包含关系的词语作为谓语,以节点信息中的节点名称作为宾语。预设的表示包含关系的词语可以包括“包括”和“包含”等。例如,基于第三类模板M3,利用图1中的子图可以生成表3中的句子。
表3
表3中第一行的前三列是句子模板中图数据、本体信息与句子成分之间的对应关系。节点名称属于图数据,节点类型属于本体信息。子图K1中的每个节点都可以基于第三类模板M3生成句子,也可以从子图K1中选择部分节点,基于第三类模板M3生成句子。
在一种实施方式中,可以利用逻辑推导规则生成句子。逻辑推导规则可以是利用规则提取算法从知识图谱中提取的,也可以是专家根据经验总结得到的。在具体实施时,可以按照以下步骤1至3生成句子,这种生成句子的方式可以称为基于规则模板生成句子。
步骤1,在读取子图K1的图数据D1和本体信息B1之后,可以获取从知识图谱中确定的若干逻辑推导规则;
步骤2,将图数据D1和本体信息B1分别与若干逻辑推导规则进行匹配,得到匹配规则;
步骤3,将图数据D1与匹配规则结合,生成对应的句子,归入生成句子集A。
其中,任意一条逻辑推导规则包括逻辑条件和推导结果。逻辑推导规则通过知识图谱的本体信息构成。例如,一条规则a是“商家进货商品(多次),商品属于类目→商家偏好类目”,箭头前后分别是逻辑条件和推导结果。在该规则a中,“商家”“商品”和“类目”是节点类型,“进货”“属于”是关系类型,都属于本体信息。
在步骤2中,将图数据D1和本体信息B1分别与若干逻辑推导规则进行匹配时,可以将图数据D1和本体信息B1分别与若干逻辑推导规则的逻辑条件进行匹配。在步骤3执行时,具体可以将图数据D1中的节点信息与匹配规则的推导结果进行结合。其中,节点信息可以包括节点名称和节点类型。
在匹配时,可以将子图K1中的所有三元组分别与若干逻辑推导规则进行匹配。例如,将三元组1“xx商店-进货-可乐”与规则a进行匹配时,可以判断该三元组1的头节点的类型是否为商家,关系类型是否为进货,尾节点的类型是否为商品,继续判断与三元组1相连的三元组2“可乐-属于-饮料”中头节点的类型是否为商品,关系类型是否为属于,饮料是否为类目,如果上述判断的结果均为是,则确定一次匹配成功。当子图中的三元组多次与该逻辑条件匹配成功时,将该规则1称为匹配规则。
将图数据D1和本体信息B1与若干逻辑推导规则进行匹配之后,得到的匹配规则可以是一条或多条。对于每一条匹配规则,将图数据D1与该匹配规则进行结合,可以得到与该匹配规则对应的句子。
在步骤3中,节点信息可以是节点名称,从而可以将图数据D1中的节点名称与匹配规则的推导结果进行对应,并将节点名称替换至推导结果中,得到生成的句子。在一个例子中,将三元组与匹配规则进行结合的过程可以参见表4。
表4
其中,第一行为规则1的逻辑条件和推导结果,第二行至第四行是子图中与规则1匹配的三元组以及匹配次数,将图数据中的节点名称与推导结果中的节点类型进行对应,得到生成的句子:xx商店偏好饮料。
在获取逻辑推导规则时,还可以对应地获取该逻辑推导规则的置信度。例如,匹配规则的置信度为第一置信度。在生成对应的句子时,可以从预先设置的置信度与概率描述词的对应关系中,确定第一置信度对应的第一概率描述词,将图数据与匹配规则结合,且在生成的句子中加入第一概率描述词。第一概率描述词可以在预设位置处添加,比如在谓语与主语之间加入第一概率描述词。
概率描述词可以包括非常、有可能、有一些可能等表示不同置信度的词语。使得生成的句子含义更加准确,且接近自然语言。
在步骤S230中,基于生成句子集A,确定子图K1对应的文本语料。该文本语料用于语言模型的训练。
生成句子集A可以包含利用不同句子模板生成的多个句子。例如,其中包含了表1至表4中生成的句子。为了使得文本语料更加精炼,可以对生成句子集A中的多个句子进行去重,对去重后的生成句子集A进行合并,将合并后的句子作为子图K1对应的文本语料。
例如,基于第二类模板M2生成句子时,会重复生成句子,参见表2处的说明。这种情况中需要对重复句子进行去重处理。
在对句子进行合并时,可以从生成句子集A中筛选出具有相同主语和谓语的句子,以及具有相同谓语和宾语的句子,作为待合并句子,对待合并句子进行合并。
对于具有相同主语和谓语的句子,可以将其合并为多宾语句子。多个宾语之间可以添加预设分隔符号。对于具有相同谓语和宾语的句子,可以将其合并为多主语句子,多个主语之间可以添加预设分隔符号。预设分隔符号例如包括顿号或逗号等。还可以在最后两个并列主语或并列宾语之间添加“和”之类的连接字符。
例如,在表1中,完整句子部分可以进行宾语合并以及主语合并,得到:xx商店进货可乐、苏打水、橙汁和猫粮,可乐、苏打水和橙汁属于饮料。
在本说明书提供的实施例中,句子模板都是符合语法要求的,具有主谓宾结构。多类模板从四个逻辑角度将数据组织为训练语料。其中,第一类模板M1采用主谓宾结构陈述数据事实,第二类模板M2用于描述本体知识,第三类模板M3陈述了节点类型下包含哪些节点名称,规则模板描述了规则的推理过程。这四种模板是四种明确的逻辑陈述。并且,上述模板将本体信息和逻辑推理规则与事实数据结合,最大化利用了知识图谱宝贵的本体信息和规则知识,能够生成大量逻辑严谨、事实正确、符合语法的训练语料,能够满足语言模型,甚至大语言模型对巨量高质量训练语料的需求。
本说明书中,第一类模板、第一置信度和第一概率描述词等词语中的“第一”,以及文中相应的“第二”(如果存在)等,仅仅是为了区分和描述方便,并不具有任何限定意义。
上述内容对本说明书的特定实施例进行了描述,其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行,并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的,或者可能是有利的。
图3为实施例提供的一种利用知识图谱生成文本语料的装置的示意性框图。所述知识图谱的图谱元素包含代表实体的节点以及体现节点之间关系的连接边。该装置300部署在计算设备中。该计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该装置实施例与图2所示方法实施例相对应。该装置300包括:
读取模块310,配置为读取所述知识图谱中子图的图数据和本体信息,所述图数据包括所述子图中的图谱元素形成的若干三元组,所述本体信息至少包括所述子图中各图谱元素的类型;
生成模块320,配置为基于预先构建的若干句子模板、所述图数据以及所述本体信息,生成若干句子,归入生成句子集;其中,所述若干句子模板中的至少一个句子模板基于所述本体信息构建;
确定模块330,配置为基于所述生成句子集,确定所述子图对应的文本语料;所述文本语料用于语言模型训练。
在一种实施方式中,所述若干三元组中的任意三元组包括:头节点、连接边和尾节点;所述生成模块320具体配置为:
基于预先构建的若干句子模板,生成该任意三元组对应的若干句子。
在一种实施方式中,所述若干句子模板包括第一类模板,所述若干句子包括第一句子,所述第一句子以所述头节点的名称作为主语,以所述连接边对应的关系类型作为谓语,以所述尾节点的名称作为宾语。
在一种实施方式中,所述若干句子模板包括第二类模板,所述若干句子包括第二句子,所述第二句子以所述头节点的类型作为主语,以所述连接边对应的关系类型作为谓语,以所述尾节点的类型作为宾语。
在一种实施方式中,所述生成模块320包括:提取子模块和生成子模块(图中未示出);
提取子模块,配置为从所述图数据和所述本体信息中提取目标节点的节点信息,所述节点信息包括节点名称和节点类型;
生成子模块,配置为基于预先构建的若干句子模板以及所述节点信息,生成所述目标节点对应的若干句子。
在一种实施方式中,所述若干句子模板包括第三类模板,所述若干句子包括第三句子,所述第三句子以所述节点类型作为主语,以预设的表示包含关系的词语作为谓语,以所述节点名称作为宾语。
在一种实施方式中,所述装置300还包括:获取模块、匹配模块和结合模块(图中未示出);
获取模块,配置为获取从所述知识图谱中确定的若干逻辑推导规则,所述逻辑推导规则通过所述知识图谱的本体信息构成;
匹配模块,配置为将所述图数据和所述本体信息分别与若干逻辑推导规则进行匹配,得到匹配规则;
结合模块,配置为将所述图数据与所述匹配规则结合,生成对应的句子,归入所述生成句子集。
在一种实施方式中,任意一条逻辑推导规则包括逻辑条件和推导结果;
所述匹配模块,具体配置为将所述图数据和所述本体信息分别与所述若干逻辑推导规则的逻辑条件进行匹配;
所述结合模块,具体配置为将所述图数据中的节点信息与所述匹配规则的推导结果进行结合。
在一种实施方式中,所述匹配规则的置信度为第一置信度;所述结合模块包括:确定子模块和结合子模块(图中未示出);
确定子模块,配置为从预先设置的置信度与概率描述词的对应关系中,确定所述第一置信度对应的第一概率描述词;
结合子模块,配置为将所述图数据与所述匹配规则结合,且在生成的句子中加入所述第一概率描述词。
在一种实施方式中,所述确定模块330具体配置为:
对生成句子集中的多个句子进行合并,将合并后的句子作为所述子图对应的文本语料。
在一种实施方式中,所述确定模块330,对生成句子集中的多个句子进行合并时包括:
对所述生成句子集中的多个句子进行去重,对去重后的所述生成句子集进行合并。
在一种实施方式中,所述确定模块330对生成句子集中的多个句子进行合并时,包括:
从所述生成句子集中筛选出待合并句子,对所述待合并句子进行合并;所述待合并句子包括:具有相同主语和谓语的句子,以及具有相同谓语和宾语的句子。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图1至图2任一项所述的方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图1至图2任一项所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (15)
1.一种利用知识图谱生成文本语料的方法,所述知识图谱的图谱元素包含代表实体的节点以及体现节点之间关系的连接边;所述方法包括:
读取所述知识图谱中子图的图数据和本体信息,所述图数据包括所述子图中的图谱元素形成的若干三元组,所述本体信息至少包括所述子图中各图谱元素的类型;
基于预先构建的若干句子模板、所述图数据以及所述本体信息,生成若干句子,归入生成句子集;其中,所述若干句子模板中的至少一个句子模板基于所述本体信息构建;
基于所述生成句子集,确定所述子图对应的文本语料;所述文本语料用于语言模型训练。
2.根据权利要求1所述的方法,所述若干三元组中的任意三元组包括:头节点、连接边和尾节点;所述生成若干句子的步骤,包括:
基于预先构建的若干句子模板,生成该任意三元组对应的若干句子。
3.根据权利要求2所述的方法,所述若干句子模板包括第一类模板,所述若干句子包括第一句子,所述第一句子以所述头节点的名称作为主语,以所述连接边对应的关系类型作为谓语,以所述尾节点的名称作为宾语。
4.根据权利要求2所述的方法,所述若干句子模板包括第二类模板,所述若干句子包括第二句子,所述第二句子以所述头节点的类型作为主语,以所述连接边对应的关系类型作为谓语,以所述尾节点的类型作为宾语。
5.根据权利要求1所述的方法,所述生成若干句子的步骤,包括:
从所述图数据和所述本体信息中提取目标节点的节点信息,所述节点信息包括节点名称和节点类型;
基于预先构建的若干句子模板以及所述节点信息,生成所述目标节点对应的若干句子。
6.根据权利要求5所述的方法,所述若干句子模板包括第三类模板,所述若干句子包括第三句子,所述第三句子以所述节点类型作为主语,以预设的表示包含关系的词语作为谓语,以所述节点名称作为宾语。
7.根据权利要求1所述的方法,还包括:
获取从所述知识图谱中确定的若干逻辑推导规则,所述逻辑推导规则通过所述知识图谱的本体信息构成;
将所述图数据和所述本体信息分别与所述若干逻辑推导规则进行匹配,得到匹配规则;
将所述图数据与所述匹配规则结合,生成对应的句子,归入所述生成句子集。
8.根据权利要求7所述的方法,任意一条逻辑推导规则包括逻辑条件和推导结果;
所述将所述图数据和所述本体信息分别与所述若干逻辑推导规则进行匹配的步骤,包括:
将所述图数据和所述本体信息分别与所述若干逻辑推导规则的逻辑条件进行匹配;
所述生成对应的句子的步骤,包括:
将所述图数据中的节点信息与所述匹配规则的推导结果进行结合。
9.根据权利要求7所述的方法,所述匹配规则的置信度为第一置信度;
所述生成对应的句子的步骤,包括:
从预先设置的置信度与概率描述词的对应关系中,确定所述第一置信度对应的第一概率描述词;
将所述图数据与所述匹配规则结合,且在生成的句子中加入所述第一概率描述词。
10.根据权利要求1所述的方法,所述确定所述子图对应的文本语料的步骤,包括:
对所述生成句子集中的多个句子进行合并,将合并后的句子作为所述子图对应的文本语料。
11.根据权利要求10所述的方法,所述对所述生成句子集中的多个句子进行合并的步骤,包括:
对所述生成句子集中的多个句子进行去重,对去重后的所述生成句子集进行合并。
12.根据权利要求10所述的方法,所述对所述生成句子集中的多个句子进行合并的步骤,包括:
从所述生成句子集中筛选出待合并句子,对所述待合并句子进行合并;所述待合并句子包括:具有相同主语和谓语的句子,以及具有相同谓语和宾语的句子。
13.一种利用知识图谱生成文本语料的装置,所述知识图谱的图谱元素包含代表实体的节点以及体现节点之间关系的连接边;所述装置包括:
读取模块,配置为读取所述知识图谱中子图的图数据和本体信息,所述图数据包括所述子图中的图谱元素形成的若干三元组,所述本体信息至少包括所述子图中各图谱元素的类型;
生成模块,配置为基于预先构建的若干句子模板、所述图数据以及所述本体信息,生成若干句子,归入生成句子集;其中,所述若干句子模板中的至少一个句子模板基于所述本体信息构建;
确定模块,配置为基于所述生成句子集,确定所述子图对应的文本语料;所述文本语料用于语言模型训练。
14.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项所述的方法。
15.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310906808.5A CN116628229B (zh) | 2023-07-21 | 2023-07-21 | 一种利用知识图谱生成文本语料的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310906808.5A CN116628229B (zh) | 2023-07-21 | 2023-07-21 | 一种利用知识图谱生成文本语料的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116628229A CN116628229A (zh) | 2023-08-22 |
CN116628229B true CN116628229B (zh) | 2023-11-10 |
Family
ID=87602988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310906808.5A Active CN116628229B (zh) | 2023-07-21 | 2023-07-21 | 一种利用知识图谱生成文本语料的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628229B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077792B (zh) * | 2023-10-12 | 2024-01-09 | 支付宝(杭州)信息技术有限公司 | 一种基于知识图谱生成提示数据的方法及装置 |
CN117391192B (zh) * | 2023-12-08 | 2024-03-15 | 杭州悦数科技有限公司 | 基于图数据库的利用llm从pdf构建知识图谱的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309252A (zh) * | 2018-02-28 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 一种自然语言处理方法及装置 |
CN110347798A (zh) * | 2019-07-12 | 2019-10-18 | 之江实验室 | 一种基于自然语言生成技术的知识图谱辅助理解*** |
CN111177342A (zh) * | 2019-12-13 | 2020-05-19 | 天津大学 | 基于双向转换的知识图谱交互式可视化查询语言 |
CN111914534A (zh) * | 2020-07-30 | 2020-11-10 | 上海数策软件股份有限公司 | 构建知识图谱语义映射方法及*** |
CN113761174A (zh) * | 2020-11-17 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 一种文本生成方法和装置 |
CN114372153A (zh) * | 2022-01-05 | 2022-04-19 | 重庆大学 | 基于知识图谱的法律文书结构化入库方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11861311B2 (en) * | 2020-12-09 | 2024-01-02 | Beijing Wodong Tianjun Information Technology Co., Ltd. | System and method for knowledge graph construction using capsule neural network |
-
2023
- 2023-07-21 CN CN202310906808.5A patent/CN116628229B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309252A (zh) * | 2018-02-28 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 一种自然语言处理方法及装置 |
CN110347798A (zh) * | 2019-07-12 | 2019-10-18 | 之江实验室 | 一种基于自然语言生成技术的知识图谱辅助理解*** |
CN111177342A (zh) * | 2019-12-13 | 2020-05-19 | 天津大学 | 基于双向转换的知识图谱交互式可视化查询语言 |
CN111914534A (zh) * | 2020-07-30 | 2020-11-10 | 上海数策软件股份有限公司 | 构建知识图谱语义映射方法及*** |
CN113761174A (zh) * | 2020-11-17 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 一种文本生成方法和装置 |
CN114372153A (zh) * | 2022-01-05 | 2022-04-19 | 重庆大学 | 基于知识图谱的法律文书结构化入库方法及*** |
Non-Patent Citations (2)
Title |
---|
SRDF: A Novel Lexical Knowledge Graph for Whole Sentence Knowledge Extraction;Sangha Nam et al;《International Conference on Language ,Data and Knowledge》;第315-329页 * |
基于自然语言处理的材料领域知识图谱构建方法;魏晓 等;《上海大学学报(自然科学版)》;第28卷(第3期);第386-398页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116628229A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107436864B (zh) | 一种基于Word2Vec的中文问答语义相似度计算方法 | |
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
US11250042B2 (en) | Taxonomy enrichment using ensemble classifiers | |
US10783451B2 (en) | Ensemble machine learning for structured and unstructured data | |
Rain | Sentiment analysis in amazon reviews using probabilistic machine learning | |
CN116628229B (zh) | 一种利用知识图谱生成文本语料的方法及装置 | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
CN111475623A (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
US8577938B2 (en) | Data mapping acceleration | |
US20180060306A1 (en) | Extracting facts from natural language texts | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN112650840A (zh) | 一种基于知识图谱推理的医疗智能问答处理方法及*** | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US20200342059A1 (en) | Document classification by confidentiality levels | |
US20140180728A1 (en) | Natural Language Processing | |
KR102379674B1 (ko) | 문서 내 테이블 분석방법 및 장치 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN111553160B (zh) | 一种获取法律领域问句答案的方法和*** | |
Hamed et al. | The importance of neutral class in sentiment analysis of Arabic tweets | |
KR20150084706A (ko) | 온톨로지의 지식 학습 장치 및 그의 방법 | |
CN114118053A (zh) | 一种合同信息提取方法及装置 | |
CN112686025A (zh) | 一种基于自由文本的中文选择题干扰项生成方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
JP5812534B2 (ja) | 質問応答装置、方法、及びプログラム | |
Korade et al. | Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |