CN113010676A - 一种文本知识提取方法、装置及自然语言推断*** - Google Patents

一种文本知识提取方法、装置及自然语言推断*** Download PDF

Info

Publication number
CN113010676A
CN113010676A CN202110277326.9A CN202110277326A CN113010676A CN 113010676 A CN113010676 A CN 113010676A CN 202110277326 A CN202110277326 A CN 202110277326A CN 113010676 A CN113010676 A CN 113010676A
Authority
CN
China
Prior art keywords
knowledge
module
inference
sentence
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110277326.9A
Other languages
English (en)
Other versions
CN113010676B (zh
Inventor
于东
李博涵
王炳宁
赵涵珺
阙孟溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202110277326.9A priority Critical patent/CN113010676B/zh
Publication of CN113010676A publication Critical patent/CN113010676A/zh
Application granted granted Critical
Publication of CN113010676B publication Critical patent/CN113010676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本知识提取方法、装置及自然语言推断***,该方法适用于自然语言推断***,其包括:通过多层次的检索,基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句作为外部知识;通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断。本发明引入非结构化的纯文本资源作为外部知识,并可用于多种基线模型,从而提高了模型在较难样例上的分类性能。

Description

一种文本知识提取方法、装置及自然语言推断***
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种文本知识提取方法、装置及自然语言推断***。
背景技术
自然语言推断(NLI)是自然语言理解中的一项重要任务。给定一个前提句(P)和一个假设句(H),该任务要求模型正确分类两者之间的关系(蕴含、矛盾或中立),从而检验模型对句子语义的理解能力。其中蕴含表示通过P的内容能够推出H的内容,矛盾表示P的内容与H的内容矛盾,中立表示通过P的内容无法判断H的内容是否正确。
近年来,端到端的深度学习在NLI任务上展现出了出色的性能。传统的深度学习模型分为基于单句独立编码的模型、基于句子间注意力的模型和预训练语言模型,这三类模型的结构都包含在由四个部分构成的通用框架中。深度学习模型对特征的有效拟合保证了其较高的正确率,但端到端的特性导致模型仅能通过训练数据学习特征,因此模型在一部分包含了背景知识的样例上不易做出正确分类。为了提升模型性能,通常向模型中引入外部知识来协助训练。在传统深度学习模型的基础上,加入外部知识的NLI模型则在通用框架内的不同模块上融合知识表示与文本特征。以下将介绍传统深度学习NLI模型及其通用框架,以及在通用框架的不同模块上引入外部知识的现有方法。
传统深度学习的NLI模型只通过训练数据学习特征,而不借助外部知识。该类模型的结构可概括为如图1所示的由四个部分构成的通用框架:即向量表示层、编码层、信息交互层及预测层。其中向量表示层将字符串表示为低维连续的向量形式,编码层使用神经网络对词向量进行编码提取其隐藏状态的特征,信息交互层使用注意力、记忆、门控等机制和元素间的运算得到元素间的交互信息,预测层则对上述特征进行池化、softmax等操作得到最后的预测结果。
基于上述通用框架的传统深度学习NLI模型分为三类:(1)基于单句独立编码的模型包含了向量表示层、编码层和预测层,这类模型首先使用预训练的静态词向量表示P和H,并用CNN、BiLSTM等编码器对P和H的词向量分别编码,最后将编码后的特征直接送入预测层进行分类。(2)基于句子间注意力的模型包含向量表示层、编码层、信息交互层和预测层,不同于前一种模型只专注两个句子独立的表示,基于句子间注意力的模型在编码后通过信息交互层关注P、H之间交互信息对分类的影响。(3)预训练语言模型包括向量表示层、信息交互层及预测层,其中信息交互层为包含多头自注意力机制的Transformer结构,同时预训练语言模型凭借在大量语料上的预训练已获得一定的先验知识。
由于神经网络对特征较强的拟合能力,以上三类模型在NLI任务上都先后取得了突破的效果。后文介绍的引入知识的模型以及本发明的知识提取方法都将上述传统模型作为基础,通过向传统模型通用框架的不同模块引入外部知识。
为了提升深度学习模型在NLI任务上的性能,有工作向模型中引入外部知识。以下将通过知识来源、知识表示和知识融入三个角度分别介绍现有引入知识的深度学习NLI模型。
在知识来源方面,绝大部分模型使用了三元组形式的结构化知识库,如WordNet、ConceptNet等,通过检索等方式找到与P、H相关的三元组作为外部知识。极少部分模型采用非结构化的纯文本作为外部知识。
在知识表示方面,绝大部分工作对知识的表示可分为离散与连续两种情况,其中离散的表示包括使用共现矩阵、相似度等方式,将知识转化为低维、离散的数字;连续的表示包括使用词向量编码、图结构编码、图神经网络、三元组编码等方法,将知识表示为高维、稠密的连续向量。
在知识融入方面,通常基于上述通用框架中的不同模块向模型中加入外部知识的表示。(1)编码层:在编码层中将知识表示与P和H的文本编码结合在一起,如图2所示。具体方法包括将知识表示与文本编码直接连接在一起形成新的编码,或使用注意力机制、向量运算等计算知识表示和文本编码的联合编码。(2)信息交互层:在信息交互层中向P和H之间的注意力矩阵加入知识的共现矩阵,或在特征组合中加入知识表示,如图3所示。(3)预测层:在预测层的池化操作之前,将知识表示与文本特征并列连接在一起,再进行随后的池化、预测等操作,或构造与知识相关的池化特征,将其与最大、平均池化并列在一起进行随后的预测操作,如图4所示。
整体来说,大部分的现有方法具有一定局限性:
从知识来源的角度来看,绝大部分工作采用的结构化知识库有两种问题:
一、从为模型提供的有效知识量来看,结构化知识库较为稀疏。结构化知识库采用“头实体-关系-尾实体”的三元组形式,其中实体间的关系是支撑知识库整体框架的核心脉络。但是,知识库中的关系种类通常是固定的,如ConceptNet中有34种关系,而WordNet中只有9种关系,且在NLI任务中通常只用到其中一部分的关系类型。有限的关系种类远远无法支持对海量世界知识的充分描述,限制了知识库中三元组的数量和丰富度,导致了知识库的稀疏性问题。因此模型从结构化知识库中得到的知识的多样性和数量有限。
二、从对领域的覆盖度及更新速度来看,结构化知识库的覆盖度和时效性较难保障。结构化知识库的构建通常需要大量的人工指导,导致其构建成本高、耗时长,难以大规模快速覆盖有需求的新领域。同时,近年来各领域快速更新的研究进展和***式增长的信息,为少量已经构建了结构化资源的领域带来了资源更新的需求,但资源的更新效率及更新成本也成为不容忽视的问题。
从模型的角度来看,现有的工作通常拥有固定的架构。这类固定架构意味着基于某一特定的传统NLI基线模型,向其框架中的某一模块中添加外部知识。这种情况下,基线模型与知识融合方法是“绑定”的,即现有工作通常基于不同的基线模型分别独立提出相应的知识融合方法,导致知识融合方法在其他基线模型上的表现难以迁移及验证。同时,由于不同基线模型的内部构造不同,它们捕捉特征的能力及特点自然不同。考虑到实际应用中工业界、学术界在不同的领域、项目、数据集上的不同需求,在选择基线模型时不可一概而论,不宜界定最佳或最优的唯一选择。因此,在某些应用情况下受到基线模型的限制,难以保证能够将现有工作中固定架构的知识模块有效迁移。
发明内容
本发明提供了一种文本知识提取方法及自然语言推断***,以解决现有技术中引入结构化知识库方法面临的知识稀疏、多样性不足和领域覆盖不全面的问题,以及模型固定架构导致的知识模块可能无法有效迁移的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一种文本知识提取方法,该方法包括:
基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句,作为外部知识;
通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断。
进一步地,基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句作为外部知识,包括:
使用K-means方法,无监督地将所述纯文本资源按照主题分为N1类;将P和H拼接为一个长句L;利用相似度,在N1个类别的纯文本资源中检索与L最相关的N2个类别;
通过BM25,在与L最相关的N2个类别的纯文本资源中检索得到与L相似度最高的N3个句子;
基于BERT模型,分别检索与P和与H相似度最大的N4条句子,经过去重后连接为一个长句子K,将K作为P和H的外部知识。
进一步地,所述BERT模型为在语义文本相似度STS-B数据集上进行微调的BERT模型。
进一步地,所述通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断,包括:
获取P、H、K的向量表示
Figure BDA0002977168030000041
利用注意力机制分别得到
Figure BDA0002977168030000042
Figure BDA0002977168030000043
关于
Figure BDA0002977168030000044
和关于彼此的注意力信息,并将两者相加,分别得到P、H的增强表示
Figure BDA0002977168030000045
构造如下:
Figure BDA0002977168030000046
Figure BDA0002977168030000047
其中,Attention(·,·)表示注意力机制;
Figure BDA0002977168030000048
Figure BDA0002977168030000049
输入自然语言推断***,实现P和H间的推断。
一种文本知识提取装置,该装置包括:
知识检索模块,用于基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句,作为外部知识;
插件式非结构化文本知识提取模块,用于通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断。
进一步地,所述知识检索模块具体用于:
使用K-means方法,无监督地将所述纯文本资源按照主题分为N1类;将P和H拼接为一个长句L;利用相似度,在N1个类别的纯文本资源中检索与L最相关的N2个类别;
通过BM25,在与L最相关的N2个类别的纯文本资源中检索得到与L相似度最高的N3个句子;
基于BERT模型,分别检索与P和与H相似度最大的N4条句子,经过去重后连接为一个长句子K,将K作为P和H的外部知识;其中,所述BERT模型为在语义文本相似度STS-B数据集上进行微调的BERT模型。
进一步地,所述插件式非结构化文本知识提取模块具体用于:
获取P、H、K的向量表示
Figure BDA0002977168030000051
利用注意力机制分别得到
Figure BDA0002977168030000052
Figure BDA0002977168030000053
关于
Figure BDA0002977168030000054
和关于彼此的注意力信息,并将两者相加,分别得到P、H的增强表示
Figure BDA0002977168030000055
构造如下:
Figure BDA0002977168030000056
Figure BDA0002977168030000057
其中,Attention(·,·)表示注意力机制;
Figure BDA0002977168030000058
Figure BDA0002977168030000059
输入自然语言推断***,实现P和H的推断。
一种自然语言推断***,包括向量表示模块、编码模块、预测模块,以及上述的知识检索模块和插件式非结构化文本知识提取模块;其中,所述插件式非结构化文本知识提取模块设置于所述编码模块与所述预测模块之间;
所述向量表示模块用于在通过所述知识检索模块得到辅助P、H间推断的外部知识语句K之后,分别得到P、H、K的向量表示;
所述编码模块用于将P、H、K的向量表示输入编码器进行编码;
所述插件式非结构化文本知识提取模块用于根据编码后的P、H、K的向量表示得到P、H的增强表示
Figure BDA00029771680300000510
所述预测模块用于从所述插件式非结构化文本知识提取模块处获取
Figure BDA00029771680300000511
Figure BDA00029771680300000512
并基于
Figure BDA00029771680300000513
Figure BDA00029771680300000514
实现P和H间的推断。
一种自然语言推断***,包括向量表示模块、编码模块、信息交互模块、预测模块,以及上述的知识检索模块和插件式非结构化文本知识提取模块;其中,所述插件式非结构化文本知识提取模块设置于所述编码模块与所述信息交互模块之间;
所述向量表示模块用于在通过所述知识检索模块得到辅助P、H间推理的外部知识语句K之后,分别得到P、H、K的向量表示;
所述编码模块用于将P、H、K的向量表示输入编码器进行编码;
所述插件式非结构化文本知识提取模块用于根据编码后的P、H、K的向量表示得到P、H的增强表示
Figure BDA0002977168030000061
所述信息交互模块用于将
Figure BDA0002977168030000062
Figure BDA0002977168030000063
进行交互,得到两者之间的推理信息C;
所述预测模块用于基于C实现P和H间的推断。
一种自然语言推断***,包括向量表示模块、信息交互模块、预测模块,以及上述的知识检索模块和插件式非结构化文本知识提取模块;其中,所述插件式非结构化文本知识提取模块设置于所述向量表示模块与信息交互模块之间;
所述向量表示模块用于在通过所述知识检索模块得到辅助P、H间推理的外部知识语句K之后,分别得到P、H、K的向量表示;
所述插件式非结构化文本知识提取模块用于根据P、H、K的向量表示得到P、H的增强表示
Figure BDA0002977168030000064
所述信息交互模块用于将
Figure BDA0002977168030000065
Figure BDA0002977168030000066
进行交互,得到交互信息;
所述预测模块用于基于所述交互信息实现P和H间的推断。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明通过引入非结构化的文本作为知识,提升了基线模型的表现。同时,这种方法避免了现有工作中使用结构化知识带来的知识稀疏、多样性不足和领域覆盖不全面等问题,丰富的纯文本资源能够保证知识的数量。而且,插件式的知识融合结构突破了现有工作固定结构的限制,可以应用在多种基线模型上。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为不引入知识的NLI基线模型及其框架结构示意图;
图2为向编码层中添加知识的两种方法原理示意图;
图3为向信息交互层中添加知识的两种方法原理示意图;
图4为向预测层中添加知识的方法原理示意图;
图5为本发明实施例提供的知识检索模块结构示意图;
图6为本发明实施例提供的插件式非结构化文本知识提取模块结构示意图;
图7为添加了插件式非结构化文本知识提取模块的基于单句编码器的NLI模型结构示意图;
图8为添加了插件式非结构化文本知识提取模块的基于句子间注意力交互的NLI模型结构示意图;
图9为添加了插件式非结构化文本知识提取模块的预训练语言模型结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种文本知识提取方法,该方法可以由电子设备实现,该电子设备可以是终端或者服务器。该方法的执行流程包括以下步骤:
基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句,作为外部知识;
通过注意力机制将外部知识引入自然语言推断***,实现P和H间的推断。
进一步地,基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句作为外部知识,包括:
使用K-means方法,无监督地将所述纯文本资源按照主题分为N1类;由于P和H两句的主题类似,将P和H拼接为一个长句L;利用相似度,在N1个类别的纯文本资源中检索与L最相关的N2个类别;
其中,所述纯文本资源可以是***、百度百科等外部文本资源中任意一种或多种的组合,本实施例在此不作具体限定。
使用上一轮检索的与L最相关的N2个类别的纯文本资源作为输入,通过BM25来进一步检索得到与L相似度最高的N3个句子;
为了涉及更深层次的语义信息,在语义文本相似度STS-B数据集上微调BERT模型。用该模型分别检索与P和与H相似度最大的N4条句子,经过去重后连接为一个长句子K,将K作为P和H的外部知识,辅助后续推理过程。
进一步地,所述通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断,包括:
获取P、H、K的向量表示
Figure BDA0002977168030000081
利用注意力机制分别得到
Figure BDA0002977168030000082
Figure BDA0002977168030000083
关于
Figure BDA0002977168030000084
和关于彼此的注意力信息,并将两者相加,分别得到P、H的增强表示
Figure BDA0002977168030000085
构造如下:
Figure BDA0002977168030000086
Figure BDA0002977168030000087
其中,Attention(·,·)表示注意力机制;
Figure BDA0002977168030000088
Figure BDA0002977168030000089
输入自然语言推断***,实现P和H间的推断。
综上,针对结构化知识库的局限性问题,本实施例采用非结构化的纯文本资源作为知识。不同于结构化资源存在稀缺性问题,互联网上具有大量的纯文本资源,数量多且覆盖率高,如百度百科、***、各领域专业文档等。同时,由于文本是人类沟通信息、传递文明的重要渠道之一,它天然地包含丰富的信息,如模型可能欠缺的语言知识和世界知识。另外,现在存在较为成熟的信息检索工具可大大降低文本的获取难度。因此,采用非结构化的纯文本作为知识来源在一定程度上避免了结构化知识库的稀疏性问题,同时能够保证知识的数量和获取难度较低。
针对模型固定架构导致的难以迁移问题,本实施例提出了插件式非结构化文本知识提取方法,其核心功能是检索辅助P、H间推理的文本作为知识,并通过插件式部件将知识融入基线模型中。因此,不同于现有工作的固定架构,本实施例的插件式模块作为一种通用架构,可与多种深度学习基线模型自由组合。
第二实施例
本实施例提供了一种文本知识提取装置,该装置包括知识检索模块和插件式非结构化文本知识提取模块;其中,
知识检索模块用于基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句作为外部知识;
插件式非结构化文本知识提取模块用于通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断。
进一步地,所述知识检索模块如图5所示,其具体用于:
使用K-means方法,无监督地将所述纯文本资源按照主题分为N1类;由于P和H两句的主题类似,将P和H拼接为一个长句L;利用相似度,在N1个类别的纯文本资源中检索与L最相关的N2个类别;
其中,所述纯文本资源可以是***、百度百科等外部文本资源中任意一种或多种的组合,本实施例在此不作具体限定。
使用上一轮检索的与L最相关的N2个类别的纯文本资源作为输入,通过BM25来进一步检索得到与L相似度最高的N3个句子;
为了涉及更深层次的语义信息,在语义文本相似度STS-B数据集上微调BERT模型。用该模型分别检索与P和与H相似度最大的N4条句子,经过去重后连接为一个长句子K,将K作为P和H的外部知识,辅助后续推理过程。
进一步地,所述插件式非结构化文本知识提取模块如图6所示,具体用于:
将P、H、K三句的向量表示记为
Figure BDA0002977168030000091
Figure BDA0002977168030000092
其中,n,m,l分别为三个句子的长度,且pi,hi,ki∈Rn。作为数据集的外部知识,
Figure BDA0002977168030000093
包含了
Figure BDA0002977168030000094
Figure BDA0002977168030000095
通过内部交互可能仍然缺少的一些信息,因此插件式非结构化文本知识提取模块的主要作用为将
Figure BDA0002977168030000096
的信息加入到模型中。本实施例使用了注意力机制作为知识融合的手段,因为注意力机制能够通过交互有效地抽取序列中的重要特征,并被广泛用于NLP任务中。给定
Figure BDA0002977168030000097
Figure BDA0002977168030000098
利用注意力机制分别得到它们关于
Figure BDA0002977168030000099
和关于彼此的注意力信息,并将两者相加得到原句的增强表示,如图6。具体构造如下:
Figure BDA00029771680300000910
Figure BDA00029771680300000915
其中Attention(·,·)表示注意力机制,
Figure BDA00029771680300000911
由以下公式计算:
Figure BDA00029771680300000912
这样得到的
Figure BDA00029771680300000913
Figure BDA00029771680300000914
包含来自彼此以及外部知识K的交互信息,相比于原始对输入句子的单一表示,可以携带更丰富的特征。
通过将本实施例的插件式非结构化文本知识提取模块与现有深度学习基线模型结合即可实现相应的自然语言推断。而且作为通用的插件式模块,本实施例提出的知识融合方法可灵活应用到多种结构上。如背景技术部分所述,我们将不加知识的深度学习基线模型划分为三类:基于单句独立编码的模型、基于句子间注意力的模型及预训练语言模型。以下将对插件式模块与三类模型的结合方法分别论述。
1、基于单句独立编码的模型
此类模型强调句子的表示,使用编码器对P、H分别编码,并在推理预测过程中彼此独立。该模型架构通常分为向量表示层、编码层、预测层三个部分。如图7所示,在本实施例中,我们将插件式非结构化文本知识提取模块放置于编码层及预测层之间:
(1)向量表示层,通过信息检索***得到辅助P、H间推理的K句之后,将K与P、H一起,利用预训练的词向量查表得到embedding表示,即P={p0,p1,…,pn},H={h0,h1,…,hm}和K={k1,k2,…,kl},其中pi、hi和ki是前提句、假设句和知识文本中第i个词的d维词向量。
(2)编码层,将三个句子的向量表示输入编码器进行编码,得到
Figure BDA0002977168030000101
Figure BDA0002977168030000102
的隐藏状态。其中,常用的编码器(Encoder)有:CNN、LSTM、GRU、Transformer等。
Figure BDA0002977168030000103
(3)插件式非结构化文本知识提取模块,如上文所述,将编码后的
Figure BDA0002977168030000104
送入插件式知识提取模块中进行信息交互,得到知识增强的
Figure BDA0002977168030000105
Figure BDA0002977168030000106
(4)预测层从插件式知识提取模块获得
Figure BDA0002977168030000107
Figure BDA0002977168030000108
后,使用tanh激活函数进行激活,随后进行最大池化操作。将得到的表示输入到softmax以确定最终的标签。
2、基于句子间注意力的模型
在前文基于单句独立编码的模型的基础上,基于句子间注意力的模型考虑到P、H之间关系对预测的影响。该类模型包括向量表示层、编码层、信息交互层、预测层四个部分,如图8所示。其中较为经典的模型有InferSent和ESIM。对于这一类模型,我们将插件式知识提取模块放置到编码层和信息交互层之间。以下将以InferSent和ESIM为例介绍引入插件式非结构化文本知识提取模块后的模型结构,其中,由于两者在信息交互层与预测层的结构不同,因此将分别陈述:
(1)向量表示层,该向量表示层与单句注意力的方法相同,首先用预训练好的词向量表示P、H、K三句得到P={p0,p1,…,pn},H={h0,h1,…,hm}和K={k1,k2,…,kl}。
(2)编码层,该编码层与基于单句独立编码的的模型相同,将三个句子的词向量表示输入编码器进行编码,得到
Figure BDA0002977168030000111
的隐藏状态。
(3)插件式非结构化文本知识提取模块,将编码后的
Figure BDA0002977168030000112
送入插件式非结构化文本知识提取模块中进行信息交互,得到用知识增强的
Figure BDA0002977168030000113
(4)信息交互层,将
Figure BDA0002977168030000114
进行交互,得到两者间的推理信息。由于不同模型中信息交互层的结构不同,以下以InferSent和ESIM为例,对两者分别介绍。
InferSent
对于InferSent,我们计算
Figure BDA0002977168030000115
之间的差和元素点积,并将得到的两个结果与原始的向量
Figure BDA0002977168030000116
Figure BDA0002977168030000117
连接起来得到C,C中包含了
Figure BDA0002977168030000118
之间的区别和相关性的信息。
Figure BDA0002977168030000119
ESIM
对于ESIM,我们对
Figure BDA00029771680300001110
之间和
Figure BDA00029771680300001111
之间分别计算差和元素点积。将得到的结果与各自的表示分别拼接,得到对应的CP和CH。然后先后使用带有ReLU激活的单层前馈神经网络f和BiLSTM对CP和CH编码得到
Figure BDA00029771680300001112
Figure BDA00029771680300001113
Figure BDA00029771680300001114
Figure BDA00029771680300001115
(5)预测层
InferSent将上文的C传递给200维的全连接层,随后输入3通道的softmax结构。
ESIM对
Figure BDA00029771680300001116
Figure BDA00029771680300001117
使用最大池化和平均池化,并连接两个池化结果作为最终的推理特征。最后,把推理特征输入两层的前馈神经网络进行分类,该神经网络包含带有tanh激活函数的隐藏层和softmax输出层。
3、预训练语言模型
预训练的语言模型在NLU任务中取得了优异的成绩。我们使用BERT-base模型作为基线模型,使用时先在训练数据上进行微调,再进行预测。模型结构包括向量表示层、信息交互层、预测层三个部分,如图9所示。对于这一类模型,我们将插件式非结构化文本知识提取模块放置到向量表示层和信息交互层之间。以下将介绍引入插件式知识提取模块后的模型结构:
(1)向量表示层,将P、H、K三句使用WordPiece进行分词,在P前加入[CLS],在句子之间加入[SEP]的分隔符,以此作为BERT的输入。BERT中的初始表示包含三类:词向量、位置向量和段向量。其中,词向量与上文另外两类模型的词向量类似,位置向量则将输入序列中的每个元素的序号转化为低维稠密的向量,段向量则根据句子的顺序,逐一标记相应句子中的单词,即P、H、K中的单词依次标记为0、1、2。
(2)插件式非结构化文本知识提取模块,将编码后的P、H、K送入插件式知识提取模块中进行信息交互,得到用知识增强的
Figure BDA0002977168030000121
(3)信息交互层,BERT-base采用Transformer模型中的编码器,将其叠加n层。每一层的Transformer编码器依次包括多头注意力机制、残差网络、全连接网络及残差网络。
(4)预测层对于最后的预测,直接取第一个[CLS]标识处的隐藏层表示作为预测的特征信息Cn,加上一层权重W后用softmax预测分类结果。
综上,本实施例的知识检索模块基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句作为外部知识;插件式非结构化文本知识提取模块对
Figure BDA0002977168030000122
(或预训练语言模型中的P)分别做关于
Figure BDA0002977168030000123
(或预训练语言模型中的K)和
Figure BDA0002977168030000124
(或预训练语言模型中的H)的attention并将两者相加得到
Figure BDA0002977168030000125
类似地,对
Figure BDA0002977168030000126
(或预训练语言模型中的H)分别做关于
Figure BDA0002977168030000127
(或预训练语言模型中的K)和
Figure BDA0002977168030000128
(或预训练语言模型中的P)的attention并将两者相加得到
Figure BDA0002977168030000129
通过此结构,将外部知识的信息融入模型,得到增强的句子表示。从而通过注意力机制将外部知识引入自然语言推断***,实现P和H间的推断。提升了基线模型的表现,避免了现有工作中使用结构化知识带来的知识稀疏、多样性不足和领域覆盖不全面等问题,并保证了知识的数量。而且,插件式的知识融合结构突破了现有工作固定结构的限制,可以应用在多种基线模型上。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述第一实施例的方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种文本知识提取方法,其特征在于,所述方法包括:
基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句,作为外部知识;
通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断。
2.如权利要求1所述的文本知识提取方法,其特征在于,所述基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句,作为外部知识,包括:
使用K-means方法,无监督地将所述纯文本资源按照主题分为N1类;将P和H拼接为一个长句L;利用相似度,在N1个类别的纯文本资源中检索与L最相关的N2个类别;
通过BM25,在与L最相关的N2个类别的纯文本资源中检索得到与L相似度最高的N3个句子;
基于BERT模型,分别检索与P和与H相似度最大的N4条句子,经过去重后连接为一个长句子K,将K作为P和H的外部知识。
3.如权利要求2所述的文本知识提取方法,其特征在于,所述BERT模型为在语义文本相似度STS-B数据集上进行微调的BERT模型。
4.如权利要求2或3所述的文本知识提取方法,其特征在于,所述通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断,包括:
获取P、H、K的向量表示
Figure FDA0002977168020000011
利用注意力机制分别得到
Figure FDA0002977168020000012
Figure FDA0002977168020000013
关于
Figure FDA0002977168020000014
和关于彼此的注意力信息,并将两者相加,分别得到P、H的增强表示
Figure FDA0002977168020000015
构造如下:
Figure FDA0002977168020000016
Figure FDA0002977168020000017
其中,Attention(·,·)表示注意力机制;
Figure FDA0002977168020000018
Figure FDA0002977168020000019
输入自然语言推断***,实现P和H间的推断。
5.一种文本知识提取装置,其特征在于,所述装置包括:
知识检索模块,用于基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句,作为外部知识;
插件式非结构化文本知识提取模块,用于通过注意力机制将所述外部知识引入自然语言推断***,实现P和H间的推断。
6.如权利要求5所述的文本知识提取装置,其特征在于,所述知识检索模块具体用于:
使用K-means方法,无监督地将所述纯文本资源按照主题分为N1类;将P和H拼接为一个长句L;利用相似度,在N1个类别的纯文本资源中检索与L最相关的N2个类别;
通过BM25,在与L最相关的N2个类别的纯文本资源中检索得到与L相似度最高的N3个句子;
基于BERT模型,分别检索与P和与H相似度最大的N4条句子,经过去重后连接为一个长句子K,将K作为P和H的外部知识;其中,所述BERT模型为在语义文本相似度STS-B数据集上进行微调的BERT模型。
7.如权利要求6所述的文本知识提取装置,其特征在于,所述插件式非结构化文本知识提取模块具体用于:
获取P、H、K的向量表示
Figure FDA0002977168020000021
利用注意力机制分别得到
Figure FDA0002977168020000022
Figure FDA0002977168020000023
关于
Figure FDA0002977168020000024
和关于彼此的注意力信息,并将两者相加,分别得到P、H的增强表示
Figure FDA0002977168020000025
构造如下:
Figure FDA0002977168020000026
Figure FDA0002977168020000027
其中,Attention(·,·)表示注意力机制;
Figure FDA0002977168020000028
Figure FDA0002977168020000029
输入自然语言推断***,实现P和H的推断。
8.一种自然语言推断***,包括向量表示模块、编码模块和预测模块,其特征在于,所述自然语言推断***还包括如权利要求5~7中任一项所述的知识检索模块和插件式非结构化文本知识提取模块;其中,所述插件式非结构化文本知识提取模块设置于所述编码模块与所述预测模块之间;
所述向量表示模块用于在通过所述知识检索模块得到辅助P、H间推断的外部知识语句K之后,分别得到P、H、K的向量表示;
所述编码模块用于将P、H、K的向量表示输入编码器进行编码;
所述插件式非结构化文本知识提取模块用于根据编码后的P、H、K的向量表示得到P、H的增强表示
Figure FDA0002977168020000031
所述预测模块用于从所述插件式非结构化文本知识提取模块处获取
Figure FDA0002977168020000032
Figure FDA0002977168020000033
并基于
Figure FDA0002977168020000034
Figure FDA0002977168020000035
实现P和H间的推断。
9.一种自然语言推断***,包括向量表示模块、编码模块、信息交互模块和预测模块,其特征在于,所述自然语言推断***还包括如权利要求5~7中任一项所述的知识检索模块和插件式非结构化文本知识提取模块;其中,所述插件式非结构化文本知识提取模块设置于所述编码模块与所述信息交互模块之间;
所述向量表示模块用于在通过所述知识检索模块得到辅助P、H间推理的外部知识语句K之后,分别得到P、H、K的向量表示;
所述编码模块用于将P、H、K的向量表示输入编码器进行编码;
所述插件式非结构化文本知识提取模块用于根据编码后的P、H、K的向量表示得到P、H的增强表示
Figure FDA0002977168020000036
所述信息交互模块用于将
Figure FDA0002977168020000037
Figure FDA0002977168020000038
进行交互,得到两者之间的推理信息C;
所述预测模块用于基于C实现P和H间的推断。
10.一种自然语言推断***,包括向量表示模块、信息交互模块和预测模块,其特征在于,所述自然语言推断***还包括如权利要求5~7中任一项所述的知识检索模块和插件式非结构化文本知识提取模块;其中,所述插件式非结构化文本知识提取模块设置于所述向量表示模块与所述信息交互模块之间;
所述向量表示模块用于在通过所述知识检索模块得到辅助P、H间推理的外部知识语句K之后,分别得到P、H、K的向量表示;
所述插件式非结构化文本知识提取模块用于根据P、H、K的向量表示得到P、H的增强表示
Figure FDA0002977168020000039
所述信息交互模块用于将
Figure FDA00029771680200000310
Figure FDA00029771680200000311
进行交互,得到交互信息;
所述预测模块用于基于所述交互信息实现P和H间的推断。
CN202110277326.9A 2021-03-15 2021-03-15 一种文本知识提取方法、装置及自然语言推断*** Active CN113010676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110277326.9A CN113010676B (zh) 2021-03-15 2021-03-15 一种文本知识提取方法、装置及自然语言推断***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110277326.9A CN113010676B (zh) 2021-03-15 2021-03-15 一种文本知识提取方法、装置及自然语言推断***

Publications (2)

Publication Number Publication Date
CN113010676A true CN113010676A (zh) 2021-06-22
CN113010676B CN113010676B (zh) 2023-12-08

Family

ID=76407452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110277326.9A Active CN113010676B (zh) 2021-03-15 2021-03-15 一种文本知识提取方法、装置及自然语言推断***

Country Status (1)

Country Link
CN (1) CN113010676B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817469B (zh) * 2022-04-27 2023-08-08 马上消费金融股份有限公司 文本增强方法、文本增强模型的训练方法及装置

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171999A1 (en) * 2007-12-27 2009-07-02 Cloudscale Inc. System and Methodology for Parallel Stream Processing
CN101661331A (zh) * 2008-08-28 2010-03-03 北京搜狗科技发展有限公司 一种字词输入的方法和输入法***
CN103729395A (zh) * 2012-10-12 2014-04-16 国际商业机器公司 用于推断查询答案的方法和***
US20140316768A1 (en) * 2012-12-14 2014-10-23 Pramod Khandekar Systems and methods for natural language processing
CN106534291A (zh) * 2016-11-04 2017-03-22 广东电网有限责任公司电力科学研究院 基于大数据处理的电压监测方法
CN107168955A (zh) * 2017-05-23 2017-09-15 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN107239560A (zh) * 2017-06-12 2017-10-10 浙江大学 一种基于深度学习的文本蕴含关系识别方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN107766325A (zh) * 2017-09-27 2018-03-06 百度在线网络技术(北京)有限公司 文本拼接方法及其装置
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法
CN109189848A (zh) * 2018-09-19 2019-01-11 平安科技(深圳)有限公司 知识数据的抽取方法、***、计算机设备和存储介质
CN109214006A (zh) * 2018-09-18 2019-01-15 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109344404A (zh) * 2018-09-21 2019-02-15 中国科学技术大学 情境感知的双重注意力自然语言推理方法
CN109446334A (zh) * 2019-01-16 2019-03-08 深兰人工智能芯片研究院(江苏)有限公司 一种实现英文文本分类的方法及相关设备
CN109478205A (zh) * 2016-06-24 2019-03-15 元素认知有限责任公司 用于计算机学习和理解的体系结构和方法
CN109523127A (zh) * 2018-10-17 2019-03-26 平安科技(深圳)有限公司 基于大数据分析的员工培训评测方法及相关设备
CN109766994A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种自然语言推理的神经网络架构
CN110083705A (zh) * 2019-05-06 2019-08-02 电子科技大学 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN110121747A (zh) * 2016-10-28 2019-08-13 伊鲁米那股份有限公司 用于执行二级和/或三级处理的生物信息学***、设备和方法
CN110390397A (zh) * 2019-06-13 2019-10-29 成都信息工程大学 一种文本蕴含识别方法及装置
CN110569369A (zh) * 2019-09-16 2019-12-13 神州数码融信软件有限公司 银行金融***知识图谱的生成方法及装置、应用方法及装置
CN111666405A (zh) * 2019-03-06 2020-09-15 百度在线网络技术(北京)有限公司 用于识别文本蕴含关系的方法和装置
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话***

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171999A1 (en) * 2007-12-27 2009-07-02 Cloudscale Inc. System and Methodology for Parallel Stream Processing
CN101661331A (zh) * 2008-08-28 2010-03-03 北京搜狗科技发展有限公司 一种字词输入的方法和输入法***
CN103729395A (zh) * 2012-10-12 2014-04-16 国际商业机器公司 用于推断查询答案的方法和***
US20140316768A1 (en) * 2012-12-14 2014-10-23 Pramod Khandekar Systems and methods for natural language processing
CN109478205A (zh) * 2016-06-24 2019-03-15 元素认知有限责任公司 用于计算机学习和理解的体系结构和方法
CN110121747A (zh) * 2016-10-28 2019-08-13 伊鲁米那股份有限公司 用于执行二级和/或三级处理的生物信息学***、设备和方法
CN106534291A (zh) * 2016-11-04 2017-03-22 广东电网有限责任公司电力科学研究院 基于大数据处理的电压监测方法
CN107168955A (zh) * 2017-05-23 2017-09-15 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN107239560A (zh) * 2017-06-12 2017-10-10 浙江大学 一种基于深度学习的文本蕴含关系识别方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN107766325A (zh) * 2017-09-27 2018-03-06 百度在线网络技术(北京)有限公司 文本拼接方法及其装置
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法
CN109214006A (zh) * 2018-09-18 2019-01-15 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109189848A (zh) * 2018-09-19 2019-01-11 平安科技(深圳)有限公司 知识数据的抽取方法、***、计算机设备和存储介质
CN109344404A (zh) * 2018-09-21 2019-02-15 中国科学技术大学 情境感知的双重注意力自然语言推理方法
CN109523127A (zh) * 2018-10-17 2019-03-26 平安科技(深圳)有限公司 基于大数据分析的员工培训评测方法及相关设备
CN109766994A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种自然语言推理的神经网络架构
CN109446334A (zh) * 2019-01-16 2019-03-08 深兰人工智能芯片研究院(江苏)有限公司 一种实现英文文本分类的方法及相关设备
CN111666405A (zh) * 2019-03-06 2020-09-15 百度在线网络技术(北京)有限公司 用于识别文本蕴含关系的方法和装置
CN110083705A (zh) * 2019-05-06 2019-08-02 电子科技大学 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN110390397A (zh) * 2019-06-13 2019-10-29 成都信息工程大学 一种文本蕴含识别方法及装置
CN110569369A (zh) * 2019-09-16 2019-12-13 神州数码融信软件有限公司 银行金融***知识图谱的生成方法及装置、应用方法及装置
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
VINYALS 等: "Pointer networks", 《PROCEEDINGS OF THE ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEM》, pages 2692 - 2700 *
严明;刘茂福;胡慧君;: "基于多层注意力机制的中文文本蕴涵识别方法", 计算机工程与设计, no. 08, pages 197 - 203 *
刘凯;符海东;邹玉薇;顾进广;: "基于卷积神经网络的中文医疗弱监督关系抽取", 计算机科学, no. 10, pages 254 - 258 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817469B (zh) * 2022-04-27 2023-08-08 马上消费金融股份有限公司 文本增强方法、文本增强模型的训练方法及装置

Also Published As

Publication number Publication date
CN113010676B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN107798140B (zh) 一种对话***构建方法、语义受控应答方法及装置
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
Daelemans et al. MBT: A memory-based part of speech tagger-generator
CN111581401A (zh) 一种基于深度相关性匹配的局部引文推荐***及方法
CN113254616B (zh) 面向智能问答***的句向量生成方法及***
CN113343683A (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN112364132A (zh) 基于依存句法的相似度计算模型和***及搭建***的方法
CN111651973A (zh) 一种基于句法感知的文本匹配方法
CN113516198A (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN117010387A (zh) 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别***
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN116010553A (zh) 一种基于双路编码和精确匹配信号的观点检索***
CN116186216A (zh) 基于知识增强和双图交互的问题生成方法及***
CN114880347A (zh) 一种基于深度学习的自然语言转化为sql语句的方法
CN113177113A (zh) 任务型对话模型预训练方法、装置、设备及存储介质
CN113010676B (zh) 一种文本知识提取方法、装置及自然语言推断***
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN117763363A (zh) 基于知识图谱与提示学习的跨网络学术社区资源推荐方法
CN112434513A (zh) 一种基于依存语义注意力机制的词对上下位关系训练方法
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
Deng et al. Chinese triple extraction based on bert model
CN113010662B (zh) 一种层次化会话式机器阅读理解***和方法
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法
Wang et al. An advanced bert-based decomposition method for joint extraction of entities and relations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant