CN117094396A - 知识抽取方法、装置、计算机设备及存储介质 - Google Patents

知识抽取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117094396A
CN117094396A CN202311352348.2A CN202311352348A CN117094396A CN 117094396 A CN117094396 A CN 117094396A CN 202311352348 A CN202311352348 A CN 202311352348A CN 117094396 A CN117094396 A CN 117094396A
Authority
CN
China
Prior art keywords
knowledge
query
text
words
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311352348.2A
Other languages
English (en)
Other versions
CN117094396B (zh
Inventor
王伟
贾惠迪
邹克旭
郭东宸
常鹏慧
孙悦丽
朱珊娴
田启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingshi Ruida Technology Co ltd
Original Assignee
Beijing Yingshi Ruida Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingshi Ruida Technology Co ltd filed Critical Beijing Yingshi Ruida Technology Co ltd
Priority to CN202311352348.2A priority Critical patent/CN117094396B/zh
Publication of CN117094396A publication Critical patent/CN117094396A/zh
Application granted granted Critical
Publication of CN117094396B publication Critical patent/CN117094396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种知识抽取方法、装置、计算机设备及存储介质,涉及数据处理技术领域,其中,该方法包括:接收查询知识的疑问语句,将疑问语句划分为多个第一文本块,提取疑问语句中的疑问词;将疑问词与预存疑问词数据集进行匹配,获得疑问词的同义词组,同义词组包括与疑问词语义相同的疑问词;将供查询的知识文本数据划分为多个第二文本块;通过匹配模型将同义词组中的疑问词、第一文本块分别与每个第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,提取目标文本块,匹配模型是通过训练大语言模型得到的;将提取的各个目标文本块整合为疑问语句的知识应答。该方案可以准确、便捷、高效地实现知识抽取。

Description

知识抽取方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种知识抽取方法、装置、计算机设备及存储介质。
背景技术
知识抽取是指从大量文本中自动抽取出有用的信息和知识。目前知识抽取的方法主要有以下几种:
规则模式匹配是基于人工定义的规则或模式来抽取特定类型的知识。通过设计匹配模式或规则,***可以从文本中识别出实体、关系等。
但是,规则模式匹配方法存在的缺陷是:需要手动编写规则,对于复杂的知识抽取任务和大规模文本处理可能不够灵活和高效;遇到规则未覆盖的语言结构或文本变化时,规则匹配难以进行准确的抽取;无法捕捉到丰富的上下文信息,因为规则匹配通常是基于局部的语法和关键词匹配,难以进行全局的语义理解。
机器学习方法包括监督学习和无监督学习。在监督学习中,可以使用已标注的训练数据来训练分类器或序列标注模型,以识别实体和关系。在无监督学习中,可以使用聚类或关联规则等技术来发现潜在的知识模式。
但是,机器学习方法存在的缺陷是:虽然能够自动从数据中学习规律,但需要大量的标注数据和特征工程;另外,该方法在知识抽取中通常采用特征工程和浅层模型,其泛化能力有限。
知识图谱的方法是一种结构化的知识表示方式,可以用于存储和组织大量的实体、属性和关系。该方法从文本中提取具有特定类别的实体、识别实体之间的关联关系、再构建实体链接,从而形成一个结构化的、可查询和可推理的知识库。
但是,知识图谱方法存在的缺陷是:需要大量的高质量数据,在多个领域下实现困难,且需要不断更新新知识。
因此,目前对于如何基于大模型确准、便捷地实现知识抽取的问题尚未解决。
发明内容
有鉴于此,本发明实施例提供了一种知识抽取方法,以解决现有技术中无法准确、便捷地实现知识抽取的技术问题。该方法包括:
接收查询知识的疑问语句,将所述疑问语句划分为多个第一文本块,提取所述疑问语句中的疑问词;
将所述疑问词与预存疑问词数据集进行匹配,获得所述疑问词的同义词组,其中,所述同义词组包括与所述疑问词语义相同的疑问词;
将供查询的知识文本数据划分为多个第二文本块;
通过匹配模型将所述同义词组中的疑问词、所述第一文本块分别与每个所述第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,提取所述目标文本块,其中,所述匹配模型是通过训练大模型得到的;
将提取的各个所述目标文本块整合为所述疑问语句的知识应答。
本发明实施例还提供了一种知识抽取装置,以解决现有技术中无法准确、便捷地实现知识抽取的技术问题。该装置包括:
数据接收模块,用于接收查询知识的疑问语句,将所述疑问语句划分为多个第一文本块,提取所述疑问语句中的疑问词;
匹配模块,用于将所述疑问词与预存疑问词数据集进行匹配,获得所述疑问词的同义词组,其中,所述同义词组包括与所述疑问词语义相同的疑问词;
数据分块模块,用于将供查询的知识文本数据划分为多个第二文本块;
提取模块,用于通过匹配模型将所述同义词组中的疑问词、所述第一文本块分别与每个所述第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,提取所述目标文本块,其中,所述匹配模型是通过训练大模型得到的;
整合模块,用于将提取的各个所述目标文本块整合为所述疑问语句的知识应答。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的知识抽取方法,以解决现有技术中无法准确、便捷地实现知识抽取的技术问题。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的知识抽取方法的计算机程序,以解决现有技术中无法准确、便捷地实现知识抽取的技术问题。
与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:提出了确定查询知识的疑问语句中疑问词的同义词组,将所述疑问语句划分为多个第一文本块,并将供查询的知识文本数据划分为多个第二文本块,进而可以通过匹配模型将同义词组中的疑问词、所述第一文本块分别与每个第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块提取出来,最后,将目标文本块整合为疑问语句的知识应答。实现了将知识文本以文本块的形式与疑问语句中疑问词的同义词组进行匹配,可以确保在知识抽取过程中更加专注和准确地针对同义词组中的疑问词进行知识抽取,有利于提高知识抽取的准确性;同时,在提取目标文本块的过程中,基于同义词组中的疑问词可以帮助匹配模型更好地理解上下文并准确解析疑问语句的含义,有利于匹配模型更好地理解和准确地抽取目标文本块,以减少歧义性,进而提高知识抽取的准确性和提高回答的准确性;此外,匹配模型的通过训练大模型实现的,大模型的应用,通过结合疑问词和文本块,可以将大模型的关注点集中在与疑问词相关的文本块上,这样可以减少大模型处理的文本量,进而提高知识抽取的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种知识抽取方法的流程图;
图2是本发明实施例提供的一种计算机设备的结构框图;
图3是本发明实施例提供的一种知识抽取装置的结构框图。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中,提供了一种知识抽取方法,如图1所示,该方法包括:
步骤S101:接收查询知识的疑问语句,将所述疑问语句划分为多个第一文本块,提取所述疑问语句中的疑问词;
步骤S102:将所述疑问词与预存疑问词数据集进行匹配,获得所述疑问词的同义词组,其中,所述同义词组包括与所述疑问词语义相同的疑问词;
步骤S103:将供查询的知识文本数据划分为多个第二文本块;
步骤S104:通过匹配模型将所述同义词组中的疑问词、所述第一文本块分别与每个第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,提取所述目标文本块,其中,所述匹配模型是通过训练大模型得到的;
步骤S105:将提取的各个目标文本块整合为所述疑问语句的知识应答。
由图1所示的流程可知,在本发明实施例中,实现了将知识文本以文本块的形式与疑问语句中疑问词的同义词组进行匹配,可以确保在知识抽取过程中更加专注和准确地针对同义词组中的疑问词进行知识抽取,有利于提高知识抽取的准确性;同时,在提取目标文本块的过程中,基于同义词组中的疑问词可以帮助匹配模型更好地理解上下文并准确解析疑问语句的含义,有利于匹配模型更好地理解和准确地抽取目标文本块,以减少歧义性,进而提高知识抽取的准确性和提高回答的准确性;此外,匹配模型的通过训练大模型实现的,大模型的应用,通过结合疑问词和文本块,可以将大模型的关注点集中在与疑问词相关的文本块上,这样可以减少大模型处理的文本量,进而提高知识抽取的效率。
具体实施时,上述知识抽取方法可以用于各种需要抽取专业知识的应用场景,例如,可以有针对性地提取指定领域或指定主题的知识。
具体实施时,为了提高知识文本数据划分文本块的准确性,并避免语义歧义,提出了可以通过以下划分主题的方式将供查询的知识文本数据划分为多个第二文本块:
识别供查询的知识文本数据中的不同主题,其中,每个主题包括多个单词,每个单词由一个主题生成;
针对供查询的知识文本数据中的每个文档,计算每个文档的主题概率分布和单词概率分布,其中,主题概率分布包括不同主题出现在该文档中的概率,单词概率分布包括不同单词由该主题生成的概率;
根据所述主题概率分布,将概率大于第一概率阈值的主题确定为出现在该文档的主题;根据所述单词概率分布,将概率大于第二概率阈值的单词确定为由该主题生成的;
针对每个文档中出现的每个主题,将每个主题所生成的单词按照语义单元划分为多个第二文本块。
具体实施时,可以通过以下公式计算主题概率分布:
可以通过以下公式计算单词概率分布:
其中,为第m篇文档出现第k个主题的概率,/>为第m篇文档中属于第k个主题的单词总数,/>为主题先验参数向量的第k个值,/>为第k个主题生成第t个单词的概率,/>为第k个主题在所有文档中生成第t个单词的总数,/>为单词先验参数向量的第t个值,V为单词总数,K为主题总数。
具体实施时,在基于主题划分第二文本块的过程中,可以使用主题建模方法(如Latent Dirichlet Allocation,LDA),将知识文本数据按照主题进行分块。该方法能够识别文本数据中的不同主题或话题。LDA假设文档中的每个单词是由一个主题生成的(即每个单词仅由一个主题生成),每个主题又由一组单词的概率分布生成。
首先,将知识文本数据转换为适合主题建模的数学表示,如词袋模型或TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)。以词袋模型为例,一个文本数据的词袋向量表示如下,表示第i个单词在文本中的出现次数:
.../>...,/>
其次,确定要划分的主题数量,确定提取的主题的数量根据领域知识或通过实验来选择。为每个主题生成对应的单词概率分布,为每个文档生成对应的主题概率分布。假设有K个主题,M个文档,主题概率分布与单词概率分布的表达式如下:
其中,为第m篇文档出现第k个主题的概率,/>为第m篇文档中属于第k个主题的单词总数,/>为主题先验参数向量的第k个值,/>为第k个主题生成第t个单词的概率,/>为第k个主题在所有文档中生成第t个单词的总数,/>为单词先验参数向量的第t个值,V为单词总数。
然后,采用Gibbs Sampling算法,求解上述主题概率分布与单词概率分布。
(1)初始时随机给文本中的每个单词分配主题
(2)计算每篇文档属于第k个主题的单词总数,以及第k个主题在所有文档中生成第t个单词的总数。
(3)去除当前单词的主题,根据该文档中其他单词的主题评估当前单词被赋予各个主题的概率。其中,
其中,为第i个词对应的主题,/>表示去除第i个词对应的主题的其他主题分布,/>为整体单词的分布。
(4)在得到当前单词的主题概率分布后,根据这个概率分布为该单词采样一个新的主题。例如,将概率大于第二概率阈值的主题采样为生成该单词的主题。同理,将概率大于第一概率阈值的主题采样为出现在该文档中的主题,进而确定出每个文档中出现的主题以及每个主题所生成的单词。
(5)再从步骤(2)重新开始,不断更新下一个单词的主题,直到(第m个文当下的主题分布)与/>(第k个主题下的单词分布)收敛。
具体实施时,得到每个主题所生成的单词后,可以直接按照语义单元将每个主题所生成的单词划分为多个第二文本块。为了提高文本块划分的精准、准确性,提出了在每个主题中基于知识层次划分第二文本块,例如,按照知识的概念范围将每个主题所生成的单词划分为不同的知识层次,其中,所述知识层次包括知识定义原理层次、多领域知识交叉扩展层次以及知识应用层次;在每个知识层次中,按照语义单元,将每个知识层次的单词划分为多个第二文本块。
具体实施时,上述第二文本块即为从知识文本数据中划分出来的文本数据块。上述语义单元可以是名词等具备完整语义的文本单元,一个第二文本块可以是一个名词。
具体实施时,为了提高文本块划分的精准、准确性,还提出了直接基于知识层次将供查询的知识文本数据划分为多个第二文本块的方法,例如,
按照知识的概念范围将供查询的知识文本数据划分为不同的知识层次,其中,所述知识层次包括知识定义原理层次、多领域知识交叉扩展层次以及知识应用层次;
在每个知识层次中,按照语义单元,将每个知识层次的数据划分为多个所述第二文本块。该语义单元可以是句子、段落、名词等具备完整语义的文本单元,一个第二文本块可以是一个句子,可以是一个段落,还可以是一个名词。
具体实施时,知识层次是指知识文本数据中不同的知识概念范围的知识,例如,知识层次可以包括知识定义原理层次、多领域知识交叉扩展层次以及知识应用层次,知识定义原理层次是指包括知识的定义、知识的原理等知识的基础概念;多领域知识交叉扩展层次是指包括一种知识与其他知识交叉扩展的知识内容,即至少两种知识的交叉扩展知识,也可称为知识的中级概念;知识应用层次是指包括知识在应用领域中的知识内容,也可称为知识的高级概念,例如,知识在应用领域的应用相关知识、更新的最新知识等。
例如,以PM2.5的知识文本数据为例,首先,可以划分为以下知识层次的知识:
基础概念:细颗粒物又称细粒、细颗粒、PM2.5。细颗粒物定义:指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物,它能较长时间悬浮于空气中,其在空气中含量浓度越高,就代表空气污染越严重。
中级概念:细颗粒物(PM2.5)对人体健康和环境都产生重要影响。由于其微小的大小,PM2.5能够深入到呼吸道最深的部位,甚至进入血液循环***。长期暴露于高浓度的PM2.5与呼吸***疾病、心血管疾病以及癌症等健康问题有关。此外,PM2.5也可以影响能见度、大气透明度以及降水模式,对气候产生影响。
高级概念:为了监测和控制细颗粒物(PM2.5)的影响,许多国家建立了空气质量监测网络。监测站点定期测量PM2.5的浓度,并将数据报告给政府和公众。政府和环保组织采取措施来减少PM2.5的排放,如加强车辆尾气排放标准、推动清洁能源使用以及改善工业生产过程。此外,一些研究还在探索利用空气净化技术、建筑设计等方式来减少室内和室外的PM2.5污染。
再对每个概念层级或知识层级基于语义单元划分,得到多个第二文本块,例如,以基础概念层级为例,可以划分为以下第二文本块,每个用“/”隔开的内容表示一个第二文本块:
细颗粒物 / 又称/ 细粒、细颗粒、PM2.5/细颗粒物定义:/ 指 / 环境空气中 /空气动力学当量直径 / 小于等于/ 2.5微米 / 的 / 颗粒物/它能 / 较长时间/ 悬浮 /于 / 空气中/其在空气中 / 含量浓度 / 越高/就代表 / 空气污染 / 越严重。
具体实施时,划分知识层次、基于知识层次划分第二文本块的过程均可以通过训练后的大语言模型实现,大语言模型可以是基于Transformer架构的模型。通过收集文本数据,包括不同知识层次的知识内容;标注数据,将每个文本样本与适当的知识层次标签关联起来,以表示其在知识层次结构中的位置。将文本样本输入大模型进行训练,使训练后的大模型具备划分文本块的能力。
具体实施时,在将疑问语句划分为多个第一文本块的过程中,可以基于语义单元的方式实现,也可以基于知识层次和语义单元的方式实现,还可以基于主题、知识层次和语义单元的方式实现。
具体实施时,在匹配目标文本的过程中,可以采用现有的相似度计算方法实现,但是为了可以更好地理解和准确地抽取目标文本块,以减少歧义性,在本实施例中,提出了基于Triplet网络通过以下步骤实现通过匹配模型将所述同义词组中的疑问词、所述第一文本块分别与每个所述第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块:
将所述同义词组中的疑问词和所述第二文本块输入训练后的Triplet网络,通过所述Triplet网络计算每个所述疑问词与每个所述第二文本块之间的第一距离,得到多个第一距离;
将多个所述第一距离按照由小到大的顺序映射到特征空间中;
在所述特征空间中将小于预设距离阈值的第一距离对应的第二文本块确定为目标文本块;
将所述第一文本块和所述第二文本块输入训练后的Triplet网络,通过所述Triplet网络计算每个所述第一文本块与每个所述第二文本块之间的第二距离,得到多个第二距离;
将多个所述第二距离按照由小到大的顺序映射到特征空间中;
在所述特征空间中将小于预设距离阈值的第二距离对应的第二文本块确定为目标文本块。
具体实施时,在计算第一距离、第二距离的过程中可以使用欧氏距离、余弦距离等方法实现。
具体实施时,计算疑问词与第二文本块、第一文本块与第二文本块之间的相似度的过程可以采用训练后的Triplet网络实现。Triplet网络包含三个子网络,每个子网络处理一个输入文本样本。这三个子网络处理的文本样本分别表示“锚”、“正”和“负”样本。输入的文本分别经过子网络的编码并计算特征向量。从数据集中构建三元组(锚、正、负),其中“锚”样本是要度量的样本,“正”样本是与“锚”样本相似的样本,“负”样本是与“锚”样本不相似的样本。计算“锚”样本与“正”样本之间的距离,以及“锚”样本与“负”样本之间的距离。距离可以使用欧氏距离、余弦距离等。Triplet网络的训练使用三元损失作为目标函数。三元损失希望“锚”样本与“正”样本之间的距离小于“锚”样本与“负”样本之间的距离。在训练期间,Triplet网络通过最小化三元损失来调整权重,以使相似的样本距离较近,不相似的样本距离较远。通过训练过程,训练后的Triplet网络学习到了一种表示,可以将相似的文本样本映射到特征空间中距离较近的位置,将不相似的文本样本映射到距离较远的位置。
具体实施时,提取出目标文本块之后,可以通过以下方式便捷、准确地输出知识应答,例如,将提取的各个所述目标文本块输入训练后的选择生成式模型Transformer中,通过所述选择生成式模型Transformer将各个所述目标文本块按照语义串联成知识序列,获得所述疑问语句的知识应答。
具体实施时,利用选择生成式模型Transformer,将多个目标文本块的知识抽取结果作为模型的输入,实现将它们按照语义串联起来,形成一个输出知识文本序列。在训练选择生成式模型Transformer的过程中,可以设置生成目标为所期望生成的连贯知识文本。可以使用适当的损失函数(如交叉熵损失)来衡量生成的文本与目标文本之间的差异,并进行反向传播优化模型参数。
具体实施时,以下详细介绍实施上述知识抽取方法的具体过程,该过程包括以下步骤:
步骤一:构造疑问词库(即上述疑问词数据集)。基于用户输入的历史知识查询问题收集相关的疑问词,并将语义相同的疑问词进行关联,形成同义词组。
比如,用户提问:“什么是PM2.5?”,其中的“什么”即为疑问词。与“什么”语义相同的疑问词有“定义”、“概念”、“何”等,即“什么=定义=概念=何”形成一个同义词组。
步骤二:将供查询的知识文本数据分块。分块时采用两种分块方法。首先对知识采取知识层次分块方法,该方法将文本划分为不同的知识层次,划分为基础概念(知识定义、原理)、中级概念(多领域知识交叉扩展)、高级概念(应用相关知识、最新的)。再根据对知识文本数据进行划分。
首先采取知识层次分块方法:
基础概念:细颗粒物又称细粒、细颗粒、PM2.5。细颗粒物定义:指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物,它能较长时间悬浮于空气中,其在空气中含量浓度越高,就代表空气污染越严重。
中级概念:细颗粒物(PM2.5)对人体健康和环境都产生重要影响。由于其微小的大小,PM2.5能够深入到呼吸道最深的部位,甚至进入血液循环***。长期暴露于高浓度的PM2.5与呼吸***疾病、心血管疾病以及癌症等健康问题有关。此外,PM2.5也可以影响能见度、大气透明度以及降水模式,对气候产生影响。
高级概念:为了监测和控制细颗粒物(PM2.5)的影响,许多国家建立了空气质量监测网络。监测站点定期测量PM2.5的浓度,并将数据报告给政府和公众。政府和环保组织采取措施来减少PM2.5的排放,如加强车辆尾气排放标准、推动清洁能源使用以及改善工业生产过程。此外,一些研究还在探索利用空气净化技术、建筑设计等方式来减少室内和室外的PM2.5污染。
再对每个概念基于语义分块,以基础概念为例:
细颗粒物 / 又称/ 细粒、细颗粒、PM2.5/细颗粒物定义:/ 指 / 环境空气中 /空气动力学当量直径 / 小于等于/ 2.5微米 / 的 / 颗粒物/它能 / 较长时间/ 悬浮 /于 / 空气中/其在空气中 / 含量浓度 / 越高/就代表 / 空气污染 / 越严重。
两种方法均通过训练大模型实现。模型架构基于Transformer架构,收集文本数据,包括不同层次的内容。标注数据,将每个文本样本与适当的层次标签关联起来,以表示其在知识层次结构中的位置。将样本输入模型进行训练,使大模型具备划分文本块的能力。
步骤三:用户提问语句分块。将用户输入的问题(即上述查询知识的疑问语句)进行分块,并将问题中的疑问词与疑问词库进行关联匹配,确定对应的同义词组。
例如,用户输入的问题分块后为:什么 / 是 / PM2.5,“什么”为疑问词,将该疑问词与疑问词库进行匹配,得到该疑问词对应的同义词组,例如,“什么”对应的同义词组为“什么=定义=概念=何”。
步骤四:大模型文本块提取。利用大模型(即上述匹配模型)将分块后的用户问题、问题中疑问词的同义语义词与将待抽取知识的文本块进行匹配,将待抽取知识的文本块中相似度最高的文本块(即上述目标文本块)。
相似度的计算采用Triplet网络。Triplet网络包含三个子网络,每个子网络处理一个输入文本样本。这三个子网络分别用于表示“锚”、“正”和“负”样本。输入的文本分别经过子网络的编码并计算特征向量。从数据集中构建三元组(锚、正、负),其中“锚”样本是要度量的样本,“正”样本是与“锚”样本相似的样本,“负”样本是与“锚”样本不相似的样本。计算“锚”样本与“正”样本之间的距离,以及“锚”样本与“负”样本之间的距离。距离可以使用欧氏距离、余弦距离等。Triplet网络的训练使用三元损失作为目标函数。三元损失希望“锚”样本与“正”样本之间的距离小于“锚”样本与“负”样本之间的距离。在训练期间,Triplet网络通过最小化三元损失来调整权重,以使相似的样本距离较近,不相似的样本距离较远。通过训练过程,Triplet网络学习到了一种表示,可以将相似的文本样本映射到特征空间中距离较近的位置,不相似的文本样本映射到距离较远的位置。
步骤五:相关文本块结果整合。将提取出的文本块再次输入大模型中,大模型会将不同文本块的知识抽取结果进行整合,生成最终的知识抽取结果。
利用选择生成式模型Transformer,将多个文本块的知识抽取结果作为模型的输入,将它们串联起来,形成一个输入序列。设置生成目标为所期望生成的连贯知识文本。使用适当的损失函数(如交叉熵损失)来衡量生成的文本与目标文本之间的差异,并进行反向传播优化模型参数。
在本实施例中,提供了一种计算机设备,如图2所示,包括存储器201、处理器202及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的知识抽取方法。
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的知识抽取方法的计算机程序。
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
基于同一发明构思,本发明实施例中还提供了一种知识抽取装置,如下面的实施例所述。由于知识抽取装置解决问题的原理与知识抽取方法相似,因此知识抽取装置的实施可以参见知识抽取方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是本发明实施例的知识抽取装置的一种结构框图,如图3所示,该装置包括:
数据接收模块301,用于接收查询知识的疑问语句,将所述疑问语句划分为多个第一文本块,提取所述疑问语句中的疑问词;
匹配模块302,用于将所述疑问词与预存疑问词数据集进行匹配,获得所述疑问词的同义词组,其中,所述同义词组包括与所述疑问词语义相同的疑问词;
数据分块模块303,用于将供查询的知识文本数据划分为多个第二文本块;
提取模块304,用于通过匹配模型将所述同义词组中的疑问词、所述第一文本块分别与每个第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,提取所述目标文本块,其中,所述匹配模型是通过训练大模型得到的;
整合模块305,用于将提取的各个目标文本块整合为所述疑问语句的知识应答。
一个实施例中,数据分块模块,包括:
主题识别单元,用于识别供查询的知识文本数据中的不同主题,其中,每个主题包括多个单词,每个单词由一个主题生成;
计算单元,用于针对供查询的知识文本数据中的每个文档,计算每个文档的主题概率分布和每个主题的单词概率分布,其中,主题概率分布包括不同主题出现在该文档中的概率,单词概率分布包括不同单词由该主题生成的概率;
确定单元,用于根据所述主题概率分布,将概率大于第一概率阈值的主题确定为出现在该文档的主题;根据所述单词概率分布,将概率大于第二概率阈值的单词确定为由该主题生成的;
第一分块单元,用于针对每个文档中出现的每个主题,将每个主题所生成的单词按照语义单元划分为多个第二文本块。
一个实施例中,第一分块单元,用于按照知识的概念范围将每个主题所生成的单词划分为不同的知识层次,其中,所述知识层次包括知识定义原理层次、多领域知识交叉扩展层次以及知识应用层次;在每个知识层次中,按照语义单元,将每个知识层次的单词划分为多个第二文本块。
一个实施例中,计算单元用于通过以下公式计算主题概率分布:
通过以下公式计算单词概率分布:
其中,为第m篇文档出现第k个主题的概率,/>为第m篇文档中属于第k个主题的单词总数,/>为主题先验参数向量的第k个值,/>为第k个主题生成第t个单词的概率,/>为第k个主题在所有文档中生成第t个单词的总数,/>为单词先验参数向量的第t个值,V为单词总数,K为主题总数。
一个实施例中,数据分块模块,包括:
第二分块单元,用于按照知识的概念范围将供查询的知识文本数据划分为不同的知识层次,其中,所述知识层次包括知识定义原理层次、多领域知识交叉扩展层次以及知识应用层次;在每个知识层次中,按照语义单元,将每个知识层次的数据划分为多个所述第二文本块。
一个实施例中,匹配模块,用于将所述同义词组中的疑问词和所述第二文本块输入训练后的Triplet网络,通过所述Triplet网络计算每个所述疑问词与每个所述第二文本块之间的第一距离,得到多个第一距离;将多个所述第一距离按照由小到大的顺序映射到特征空间中;在所述特征空间中将小于预设距离阈值的第一距离对应的第二文本块确定为目标文本块;将所述第一文本块和所述第二文本块输入训练后的Triplet网络,通过所述Triplet网络计算每个所述第一文本块与每个所述第二文本块之间的第二距离,得到多个第二距离;将多个所述第二距离按照由小到大的顺序映射到特征空间中;在所述特征空间中将小于预设距离阈值的第二距离对应的第二文本块确定为目标文本块。
一个实施例中,整合模块,用于将提取的各个所述目标文本块输入训练后的选择生成式模型Transformer中,通过所述选择生成式模型Transformer将各个所述目标文本块按照语义串联成知识序列,获得所述疑问语句的知识应答。
本发明实施例实现了如下技术效果:实现了将知识文本以文本块的形式与疑问语句中疑问词的同义词组进行匹配,可以确保在知识抽取过程中更加专注和准确地针对同义词组中的疑问词进行知识抽取,有利于提高知识抽取的准确性;同时,在提取文本块的过程中,基于同义词组中的疑问词可以帮助匹配模型更好地理解上下文并准确解析疑问语句的含义,有利于匹配模型更好地理解和准确地抽取目标文本块以及与目标文本块存在上下文关联的文本块,以减少歧义性,进而提高知识抽取的准确性和提高回答的准确性;此外,匹配模型的通过训练大模型实现的,大模型的应用,通过结合疑问词和文本块,可以将大模型的关注点集中在与疑问词相关的文本块上,这样可以减少大模型处理的文本量,进而提高知识抽取的效率。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种知识抽取方法,其特征在于,包括:
接收查询知识的疑问语句,将所述疑问语句划分为多个第一文本块,提取所述疑问语句中的疑问词;
将所述疑问词与预存疑问词数据集进行匹配,获得所述疑问词的同义词组,其中,所述同义词组包括与所述疑问词语义相同的疑问词;
将供查询的知识文本数据划分为多个第二文本块;
通过匹配模型将所述同义词组中的疑问词、所述第一文本块分别与每个所述第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,提取所述目标文本块,其中,所述匹配模型是通过训练大语言模型得到的;
将提取的各个所述目标文本块整合为所述疑问语句的知识应答。
2.如权利要求1所述的知识抽取方法,其特征在于,将供查询的知识文本数据划分为多个第二文本块,包括:
识别供查询的知识文本数据中的不同主题,其中,每个主题包括多个单词,每个单词由一个主题生成;
针对供查询的知识文本数据中的每个文档,计算每个文档的主题概率分布和每个主题的单词概率分布,其中,主题概率分布包括不同主题出现在该文档中的概率,单词概率分布包括不同单词由该主题生成的概率;
根据所述主题概率分布,将概率大于第一概率阈值的主题确定为出现在该文档的主题;根据所述单词概率分布,将概率大于第二概率阈值的单词确定为由该主题生成的;
针对每个文档中出现的每个主题,将每个主题所生成的单词按照语义单元划分为多个第二文本块。
3.如权利要求2所述的知识抽取方法,其特征在于,将每个主题所生成的单词按照语义单元划分为多个第二文本块,包括:
按照知识的概念范围将每个主题所生成的单词划分为不同的知识层次,其中,所述知识层次包括知识定义原理层次、多领域知识交叉扩展层次以及知识应用层次;
在每个知识层次中,按照语义单元,将每个知识层次的单词划分为多个第二文本块。
4.如权利要求2所述的知识抽取方法,其特征在于,计算每个文档的主题概率分布和单词概率分布,包括:
通过以下公式计算主题概率分布:
通过以下公式计算单词概率分布:
其中,为第m篇文档出现第k个主题的概率,/>为第m篇文档中属于第k个主题的单词总数,/>为主题先验参数向量的第k个值,/>为第k个主题生成第t个单词的概率,为第k个主题在所有文档中生成第t个单词的总数,/>为单词先验参数向量的第t个值,V为单词总数,K为主题总数。
5.如权利要求1所述的知识抽取方法,其特征在于,将供查询的知识文本数据划分为多个第二文本块,包括:
按照知识的概念范围将供查询的知识文本数据划分为不同的知识层次,其中,所述知识层次包括知识定义原理层次、多领域知识交叉扩展层次以及知识应用层次;
在每个知识层次中,按照语义单元,将每个知识层次的数据划分为多个所述第二文本块。
6.如权利要求1所述的知识抽取方法,其特征在于,通过匹配模型将所述同义词组中的疑问词、所述第一文本块分别与每个所述第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,包括:
将所述同义词组中的疑问词和所述第二文本块输入训练后的Triplet网络,通过所述Triplet网络计算每个所述疑问词与每个所述第二文本块之间的第一距离,得到多个第一距离;
将多个所述第一距离按照由小到大的顺序映射到特征空间中;
在所述特征空间中将小于预设距离阈值的第一距离对应的第二文本块确定为目标文本块;
将所述第一文本块和所述第二文本块输入训练后的Triplet网络,通过所述Triplet网络计算每个所述第一文本块与每个所述第二文本块之间的第二距离,得到多个第二距离;
将多个所述第二距离按照由小到大的顺序映射到特征空间中;
在所述特征空间中将小于预设距离阈值的第二距离对应的第二文本块确定为目标文本块。
7.如权利要求1所述的知识抽取方法,其特征在于,将提取的各个所述目标文本块整合为所述疑问语句的知识应答,包括:
将提取的各个所述目标文本块输入训练后的选择生成式模型Transformer中,通过所述选择生成式模型Transformer将各个所述目标文本块按照语义串联成知识序列,获得所述疑问语句的知识应答。
8.一种知识抽取装置,其特征在于,包括:
数据接收模块,用于接收查询知识的疑问语句,将所述疑问语句划分为多个第一文本块,提取所述疑问语句中的疑问词;
匹配模块,用于将所述疑问词与预存疑问词数据集进行匹配,获得所述疑问词的同义词组,其中,所述同义词组包括与所述疑问词语义相同的疑问词;
数据分块模块,用于将供查询的知识文本数据划分为多个第二文本块;
提取模块,用于通过匹配模型将所述同义词组中的疑问词、所述第一文本块分别与每个文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,提取所述目标文本块,其中,所述匹配模型是通过训练大模型得到的;
整合模块,用于将提取的各个所述目标文本块整合为所述疑问语句的知识应答。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的知识抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7中任一项所述的知识抽取方法的计算机程序。
CN202311352348.2A 2023-10-19 2023-10-19 知识抽取方法、装置、计算机设备及存储介质 Active CN117094396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311352348.2A CN117094396B (zh) 2023-10-19 2023-10-19 知识抽取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311352348.2A CN117094396B (zh) 2023-10-19 2023-10-19 知识抽取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN117094396A true CN117094396A (zh) 2023-11-21
CN117094396B CN117094396B (zh) 2024-01-23

Family

ID=88777655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311352348.2A Active CN117094396B (zh) 2023-10-19 2023-10-19 知识抽取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117094396B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN112686025A (zh) * 2021-01-27 2021-04-20 浙江工商大学 一种基于自由文本的中文选择题干扰项生成方法
CN113312922A (zh) * 2021-04-14 2021-08-27 中国电子科技集团公司第二十八研究所 一种改进的篇章级三元组信息抽取方法
CN116150311A (zh) * 2022-08-16 2023-05-23 马上消费金融股份有限公司 文本匹配模型的训练方法、意图识别方法及装置
CN116166782A (zh) * 2023-02-07 2023-05-26 山东浪潮科学研究院有限公司 一种基于深度学习的智能问答方法
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及***
CN116822530A (zh) * 2023-01-10 2023-09-29 杭州电子科技大学 一种基于知识图谱的问答对生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN112686025A (zh) * 2021-01-27 2021-04-20 浙江工商大学 一种基于自由文本的中文选择题干扰项生成方法
CN113312922A (zh) * 2021-04-14 2021-08-27 中国电子科技集团公司第二十八研究所 一种改进的篇章级三元组信息抽取方法
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及***
CN116150311A (zh) * 2022-08-16 2023-05-23 马上消费金融股份有限公司 文本匹配模型的训练方法、意图识别方法及装置
CN116822530A (zh) * 2023-01-10 2023-09-29 杭州电子科技大学 一种基于知识图谱的问答对生成方法
CN116166782A (zh) * 2023-02-07 2023-05-26 山东浪潮科学研究院有限公司 一种基于深度学习的智能问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIYANG LI等: "Graph Reasoning for Question Answering with Triplet Retrieval", 《ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》, pages 3366 *

Also Published As

Publication number Publication date
CN117094396B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN109472033B (zh) 文本中的实体关系抽取方法及***、存储介质、电子设备
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其***
CN109284363A (zh) 一种问答方法、装置、电子设备及存储介质
CN112182230B (zh) 一种基于深度学习的文本数据分类方法和装置
Tang et al. Tree-structured conditional random fields for semantic annotation
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及***
CN114625858A (zh) 一种基于神经网络的政务问答智能回复方法及装置
Yang et al. Place deduplication with embeddings
Garrido-Munoz et al. A holistic approach for image-to-graph: application to optical music recognition
Purwandari et al. Twitter-based classification for integrated source data of weather observations
CN117114112B (zh) 基于大模型的垂直领域数据整合方法、装置、设备及介质
CN117094396B (zh) 知识抽取方法、装置、计算机设备及存储介质
CN115730221A (zh) 基于溯因推理的虚假新闻识别方法、装置、设备及介质
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置
CN111126053A (zh) 一种信息处理方法及相关设备
CN111339446B (zh) 一种兴趣点挖掘方法、装置、电子设备和存储介质
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品
CN105808522A (zh) 一种语义联想的方法及装置
CN116227601B (zh) 一种基于动词时态的泛化因果网络构建方法、设备及介质
CN117973544B (zh) 基于语义距离的文本单位推理方法装置、存储介质和终端
Yang et al. Enhanced Video BERT for Fast Video Advertisement Retrieval
Söderman A study of hierarchical attention networks for text classification with an emphasis on biased news
Banu S Graph-Based Rumor Detection on social media Using Posts and Reactions
JIANG et al. A FEATURE VECTOR REPRESENTATION APPROACH FOR SHORT TEXT BASED ON RNNLM AND POOLING COMPUTATION.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant