CN113536801A - 阅读理解模型的训练方法及装置、阅读理解方法及装置 - Google Patents

阅读理解模型的训练方法及装置、阅读理解方法及装置 Download PDF

Info

Publication number
CN113536801A
CN113536801A CN202010302227.7A CN202010302227A CN113536801A CN 113536801 A CN113536801 A CN 113536801A CN 202010302227 A CN202010302227 A CN 202010302227A CN 113536801 A CN113536801 A CN 113536801A
Authority
CN
China
Prior art keywords
sample
training
reading understanding
semantic
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010302227.7A
Other languages
English (en)
Inventor
李长亮
殷章志
唐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202010302227.7A priority Critical patent/CN113536801A/zh
Publication of CN113536801A publication Critical patent/CN113536801A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种阅读理解模型的训练方法及装置、阅读理解方法及装置。其中,训练方法包括:获取语义训练样本,其中,语义训练样本包括第一样本词语、第二样本词语以及与第一样本词语和第二样本词语对应的语义关系标签;将语义训练样本输入至预训练的阅读理解模型中进行迭代训练,直至达到训练停止条件,获得语义训练的阅读理解模型;获取文本训练样本,其中,文本训练样本包括样本文本、样本问题和样本答案;将文本训练样本输入至语义训练的阅读理解模型中进行迭代训练,直至达到训练停止条件,获得目标阅读理解模型。本申请所述的训练方法及装置,可以有效提升答***率,提高模型训练效果。

Description

阅读理解模型的训练方法及装置、阅读理解方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种阅读理解模型的训练方法及装置、阅读理解方法及装置、计算设备及计算机可读存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的应用场景,是对于语言文字的智能处理,包括阅读理解、问答对话、写作、翻译等等。
机器阅读理解(Machine Reading Comprehension)主要是根据问题通过对应的段落给出该问题的答案,对于自然语言处理中的阅读理解模型,其训练方法通常包括两个阶段,其一为使用大量的无监督文本对模型进行预训练,其二是使用预训练的模型在具体的下游任务即阅读理解任务中进行微调。微调阶段主要对与编码层连接的线性网络层进行训练。其中,预训练的模型的网络架构由多层的Transformer的编码器组成,线性网络对编码器最后一层的输出进行线性变换,得到模型最后的输出结果。
但是,对于阅读理解模型以及阅读理解任务而言,挖掘文本与问题之间的关系最为重要,文本和问题中通常包含了大量的语义关系,比如文本中出现的“汽车”与问题中出现的“二手车”之间存在上下位关系、文本中出现的“快乐”与问题中出现的“开心”之间存在同义关系等等,阅读理解模型的编码器可以分别对文本与问题进行编码,但是目前的阅读理解模型无法基于上述编码充分地挖掘出文本与问题之间的语义关系,进而导致根据模型得出的输出结果效果不理想。
发明内容
有鉴于此,本申请实施例提供了一种阅读理解模型的训练方法及装置、阅读理解方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种阅读理解模型的训练方法,包括:
获取语义训练样本,其中,所述语义训练样本包括第一样本词语、第二样本词语以及与所述第一样本词语和所述第二样本词语对应的语义关系标签;
将所述语义训练样本输入至预训练的阅读理解模型中进行迭代训练,获得语义训练的阅读理解模型;
获取文本训练样本,其中,所述文本训练样本包括样本文本、样本问题和样本答案;
将所述文本训练样本输入至语义训练的阅读理解模型中进行迭代训练,获得目标阅读理解模型。
可选地,在所述获取语义训练样本之前,还包括:
获取预训练样本,其中,所述预训练样本包括预训练样本文本;
将所述预训练样本文本输入至阅读理解模型中进行迭代训练,直至达到训练停止条件,获得预训练的阅读理解模型。
可选地,所述将所述语义训练样本输入至所述预训练的阅读理解模型中进行迭代训练,包括:
将所述第一样本词语和所述第二样本词语输入至所述预训练的阅读理解模型中进行处理,生成所述第一样本词语和所述第二样本词语之间的预测语义关系;
基于所述预测语义关系与所述语义关系标签对所述预训练的阅读理解模型进行迭代训练。
可选地,所述预训练的阅读理解模型包括嵌入层、注意力层和线性层;
所述将所述第一样本词语和所述第二样本词语输入至预训练的阅读理解模型中进行处理,包括:
将所述第一样本词语和第二样本词语输入至所述嵌入层中进行处理,生成第一样本词向量和第二样本词向量;
将所述第一样本词向量和所述第二样本词向量输入至所述注意力层中进行处理,生成语义关系矩阵;
将所述语义关系矩阵输入至线性层中进行处理,生成所述第一样本词语与所述第二样本词语之间的预测语义关系。
可选地,所述基于所述预测语义关系与所述语义关系标签对所述预训练的阅读理解模型进行迭代训练,包括:
基于所述预测语义关系与所述语义关系标签计算语义损失值;
基于所述语义损失值对所述预训练的阅读理解模型进行迭代训练。
可选地,将所述文本训练样本输入至所述语义训练的阅读理解模型中进行迭代训练,包括:
将所述样本文本和所述样本问题输入至所述语义训练的阅读理解模型中进行处理,生成预测答案;
基于所述预测答案与所述样本答案对所述语义训练的阅读理解模型进行迭代训练。
可选地,所述语义训练的阅读理解模型包括嵌入层、注意力层和线性层;
所述将所述样本文本和所述样本问题输入至所述语义训练的阅读理解模型中进行处理,生成预测答案,包括:
将所述样本文本和所述样本问题输入至所述嵌入层中进行处理,生成所述样本文本的词向量和所述样本问题的词向量;
将所述样本文本的词向量和所述样本问题的词向量输入至所述注意力层中进行处理,生成文本问题矩阵;
将所述文本问题矩阵输入至所述线性层中进行处理,生成所述样本问题的预测答案。
可选地,所述基于所述预测答案与所述样本答案对所述语义训练的阅读理解模型进行迭代训练,包括:
基于所述预测答案与所述样本答案计算答案损失值;
基于所述答案损失值对所述语义训练的阅读理解模型进行迭代训练。
本申请还公开了一种阅读理解方法,包括:
获取待分析文本和待回答问题;
将所述待分析文本和所述待回答问题输入至目标阅读理解模型中进行处理,获得所述待回答问题的答案,其中,所述目标阅读理解模型是通过所述的阅读理解模型的训练方法训练得到的。
本申请还公开了一种阅读理解模型的训练装置,包括:
第一获取模块,被配置为获取语义训练样本,其中,所述语义训练样本包括第一样本词语、第二样本词语以及与所述第一样本词语和所述第二样本词语对应的语义关系标签;
第一训练模块,被配置为将所述语义训练样本输入至预训练的阅读理解模型中进行迭代训练,获得语义训练的阅读理解模型;
第二获取模块,被配置为获取文本训练样本,其中,所述文本训练样本包括样本文本、样本问题和样本答案;
第二训练模块,被配置为将所述文本训练样本输入至语义训练的阅读理解模型中进行迭代训练,获得目标阅读理解模型。
本申请还公开了一种阅读理解装置,包括:
文本问题获取模块,被配置为获取待分析文本和待回答问题;
文本问题分析模块,被配置为将所述待分析文本和所述待回答问题输入至目标阅读理解模型中进行处理,获得所述待回答问题的答案,其中,所述目标阅读理解模型是通过所述的阅读理解模型的训练方法训练得到的。
本申请还公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述阅读理解模型的训练方法或阅读理解方法的步骤。
本申请还公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述阅读理解模型的训练方法或阅读理解方法的步骤。
本申请提供的阅读理解模型的训练方法及装置,通过将语义训练样本的第一样本词语、第二样本词语以及与第一样本词语和第二样本词语对应的语义关系标签输入至预训练的阅读理解模型中迭代训练,使得阅读理解模型可以更全面、更深层次的对词语与词语之间的语义关系进行挖掘与理解,再将文本训练样本的样本文本、样本问题和样本答案输入至语义训练的阅读理解模型中迭代训练,从而可以更好地结合段落和问题之间的信息,使得阅读理解模型在深刻理解词语语义的基础上,更进一步地对段落、文章等的语句进行透彻的理解与分析,预测出正确答案,进而提升答***率,提高模型训练效果。
本申请提供的阅读理解方法及装置,通过将待分析文本与待回答问题输入至经过预训练、语义训练以及文本训练的阅读理解模型中进行处理,通过关注文本与问题中词语之间的语义关系,进一步提升对于文本和问题之间的分析能力,对待分析文本以及待回答问题进行全方位深层次的语义分析以及语句分析,有效提高答***率。
附图说明
图1是本申请一实施例所述的计算设备的结构示意图;
图2是本申请一实施例所述的阅读理解模型的训练方法的步骤流程示意图;
图3是本申请一实施例所述的线性处理流程示意图;
图4是本申请一实施例所述的阅读理解模型的训练方法的步骤流程示意图;
图5是本申请一实施例所述的阅读理解模型的结构示意图;
图6是本申请一实施例所述的阅读理解方法的步骤流程示意图;
图7是本申请一实施例所述的阅读理解模型的训练装置的结构示意图;
图8是本申请一实施例所述的阅读理解装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
阅读理解模型:用于分析文本,可以基于文本内容得出问题的答案的自然语言处理模型,在本申请中,阅读理解接模型为BERT模型。
预训练的阅读理解模型:利用预训练样本对阅读理解模型进行训练,并基于训练结果调整模型的各项参数后得到的模型。
语义训练的阅读理解模型:利用语义训练样本对预训练的阅读理解模型进行训练,并基于训练结果调整模型的各项参数后得到的模型。
目标阅读理解模型:利用文本训练样本对语义训练的阅读理解模型进行训练,并基于训练结果调整模型的各项参数后得到的模型。
预训练样本:用于对模型进行预训练以使模型具备基础的文本理解分析能力的训练样本,包括预训练样本文本。
预训练样本文本:可以是一句话、几句话、一段文字、多段文字、一篇文章、多篇文章等各种篇幅长度的文本。
语义训练样本:用于对模型进行语义训练以使模型具备分析词语与词语之间语义关系能力的训练样本,包括多个第一样本词语、第二样本词语以及第一样本词语与第二样本词语之间的语义关系标签。
第一样本词语:可以是各种词性词语,比如“书包”、“小猫”等名词、“跑步”、“打开”等动词,以此类推,不再赘述。
第二样本词语:与第一样本词语具有语义关系的词语,同样可以是各种词性的词语,其词性既可以与第一样本词语的词性相同,也可以与第一样本词语的词性不同。
语义关系标签:用于表示词语与词语之间的真实存在的相关关系的标签。
预测语义关系:通过模型分析得到的词语与词语之间的相关关系。
编码:信息从一种形式或格式转换为另一种形式的过程,在本申请中是指文本转换为向量的过程,即采用嵌入式编码,通过阅读理解模型的嵌入层实现。
嵌入层:位于网络模型中的输入层,用于对输入的文本数据进行编码即嵌入式编码处理并输出文本向量;对输入的图像数据进行嵌入式编码处理并输出图像特征。
注意力层:位于网络模型中的一个层级结构,用于对文本向量进行自注意力或互注意力处理并输出向量矩阵;对图像特征进行自注意力或互注意力处理并输出特征矩阵。
线性层:为网络模型的输出层,用于对向量矩阵或特征矩阵进行线性处理,输出结果。
待分析文本:待接受阅读理解模型分析的文本,可以是一句话、多句话、一段文字、多段文字、一篇文章、多篇文章等各种篇幅长度的文本。
待回答问题:待阅读理解模型给出答案的问题,待回答问题与待分析文本的内容具有一定相关性。
BERT模型(Bidirectional Encoder Representations from Transformers):一种双向注意力神经网络模型,一种通用预训练语言表示模型。BERT模型可以通过当前次的左、右两侧上下文来预测当前词,还可以通过当前句子预测下一个句子的语义。BERT模型的目标是利用大规模无标注语料训练、获得包含丰富语义信息的文本语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。
自然语言处理(Natural Language Processing,NLP):是人工智能的一个子域,也是深度学习的一个分支,自然语言处理的应用包括机器翻译、情感分析、智能问答、信息提取、语言输入、舆论分析、知识图谱等方面。
机器翻译(Transformer):基于自注意力(self-attention)的特征抽取器。
在本申请中,提供了一种阅读理解模型的训练方法及装置、阅读理解方法及装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤,图2是示出了根据本申请一实施例的阅读理解模型的训练方法的示意性流程图,包括步骤S210至步骤S240。
S210、获取语义训练样本,其中,所述语义训练样本包括第一样本词语、第二样本词语以及与所述第一样本词语和所述第二样本词语对应的语义关系标签。
具体地,语义训练样本是对阅读理解模型进行语义训练的样本,其通过接口调用语义知识库,并在语义知识库中抽取得到,在本实施例中,语义知识库优选为Hownet知网语义关系知识库,语义训练样本中的第一样本词语和第二样本词语可以为名词、动词、形容词等各种词性的词语,本申请对此不做限制。第一样本词语与第二样本词语之间具有一定的关联性,具备语义关系,第一样本词语与第二样本词语之间的语义关系标签用于标识第一样本词语与第二样本词语之间的实际存在的语义关系即真实语义关系,真实语义关系可以为上下位关系、同义关系、近义关系、反义关系、整体与部分关系等,本申请对此不做限制。
例如,假设第一样本词语为汽车,第二样本词语为二手车,那么第一样本词语与第二样本词语之间的语义关系标签即为上下位关系;假设第一样本词语为开心,第二样本词语为快乐,那么第一样本词语与第二样本词语之间的语义关系标签即为同义关系,其他情况可以此类推,在此不再赘述。
在本实施例中,获取包括第一样本词语、第二样本词语以及上述样本词语之间语义关系标签的语义训练样本,为模型语义训练的进行提供基础与支持。
S220、将所述语义训练样本输入至预训练的阅读理解模型中进行迭代训练,获得语义训练的阅读理解模型。
其中,预训练的阅读理解模型是指利用预训练样本对阅读理解模型进行训练,并基于训练结果调整各项参数后得到的模型;语义训练的阅读理解模型是指利用语义训练样本对预训练的阅读理解模型进行训练,并基于训练结果调整上述预训练的阅读理解模型的各项参数,对上述预训练的阅读理解模型进行更新后得到的模型。需要说明的是,在预训练的阅读理解模型经过语义训练后,得到的语义训练的阅读理解模型会替代原有的预训练阅读理解模型。在本实施例中,阅读理解模型为BERT模型,预训练的阅读理解模型通过以下步骤训练得到:
获取预训练样本,其中,所述预训练样本包括预训练样本文本;将所述预训练样本文本输入至阅读理解模型中进行迭代训练,直至达到训练停止条件,获得预训练的阅读理解模型。
具体地,预训练样本包括多个预训练样本文本,每一个预训练样本文本可以为一段文字、多段文字、一篇文章、多篇文章等,也可以为中文文本、英文文本、法文文本等各种语言文本,本申请对此不做限制。
获取预训练样本文本,将预训练样本文本输入至阅读理解模型中后,阅读理解模型的预训练过程具体可以概括为如下三种方式:
(1)随机选取预训练样本文本中的一个或多个词作为目标词,采用[MASK]标志对上述目标词进行替换,并基于上下文对上述目标词进行预测。例如,假设预训练样本文本包括“The apple is red”,选择“red”作为目标词,采用[MASK]标志对上述目标词进行替换后得到“The apple is[MASK]”,基于上下文对上述目标词进行预测,即计算预设词表中的每一个词作为目标词的概率,并将概率最大的词作为预测结果,将预测结果与真实结果“red”进行对比,反向调整所述阅读理解模型,直至达到训练停止条件。
具体地,假设预测结果为q,真实结果为p,采用交叉熵函数计算上述预测结果与真实结果之间的损失值,公式如下:
Figure BDA0002454432110000121
其中,H(p,q)即代表预测结果与真实结果之间的损失值,基于上述损失值自模型的输出层起到模型的输入层为止依次调整更新模型中每层神经元节点的权重值,直至损失值小于或等于预设阈值,即损失值小于或等于达到训练停止条件的损失值,停止训练。
(2)随机选取预训练样本文本中的一个或多个词作为目标词,采用随机词对上述目标词进行替换,并基于上下文对上述目标词进行预测。例如,假设预训练样本文本包括“The apple is red”,选择“red”作为目标词,采用随机词“book”对上述训练样本文本中的目标词“red”进行替换后得到“The apple is book”,基于上下文对上述目标词进行预测,并将预测结果与真实结果“red”进行对比,反向调整所述阅读理解模型,直至达到训练停止条件。
需要说明的是,上述随机词既可以与目标词具有一定相关性,如词性相同或相似,也可以与目标词完全无关,本申请对此不做限制,后续预测过程、对比过程、反向调整过程可以参考(1)中的内容,在此不再赘述。
(3)随机选取预训练样本文本中的一个或多个词作为目标词,目标词保持原词不变,并基于上下文对上述目标词进行预测,例如,假设预训练样本文本包括“The apple isred”,选择“red”作为目标词,基于上下文对上述目标词进行预测,并将预测结果与真实结果“red”进行对比,反向调整所述阅读理解模型,直至达到训练停止条件。预测过程、对比过程、反向调整过程可以参考(1)中的内容,在此不再赘述。
在实际应用中,采用上述三种方式对阅读理解模型进行满足预设比例次数的预训练,优选地,阅读理解模型通过上述三种训练方式进行预训练的训练次数比8:1:1,采用如上所述方式对阅读理解模型进行预训练,可以有效提高阅读理解模型对文章、问题等文本的理解和分析能力,提高模型效果。
具体地,上述将所述第一样本词语、第二样本词语和所述语义关系标签输入至预训练的阅读理解模型中进行迭代训练的过程,还可以包括步骤S221至步骤S222。
S221、将所述第一样本词语和所述第二样本词语输入至预训练的阅读理解模型中进行处理,生成所述第一样本词语和所述第二样本词语之间的预测语义关系。
其中,预测语义关系是通过预训练的阅读理解模型对第一样本词语与第二样本词语进行分析得到的二者之间的语义关系,在预训练的阅读理解模型预测正确的情况下,其与语义关系标签相同,在预训练的阅读理解模型预测错误的情况下,其与语义关系标签不同。
具体地,所述预训练的阅读理解模型包括嵌入层、注意力层和线性层,所述步骤S221还可以包括步骤S2211至步骤S2213。
S2211、将所述第一样本词语和第二样本词语输入至所述嵌入层中进行处理,生成第一样本词向量和第二样本词向量。
嵌入层是用于对语义训练样本的第一样本词语、第二样本词语以及语义关系标签进行嵌入式编码处理的层级结构,第一样本词语经过嵌入层的嵌入式编码处理生成第一样本词向量,第二样本词语经过嵌入层的嵌入式编码处理生成第二样本词向量,语义关系标签经过嵌入层的嵌入式编码处理生成语义关系标签向量。
具体地,对第一样本词语、第二样本词语以及样本关系标签进行嵌入式编码处理,即通过Word Embedding矩阵给每个单词分配一个固定长度的向量表示,这个长度可以视情况而定,比如300。
通过嵌入层对语义训练样本进行嵌入式编码处理,可以为模型的后续训练过程做好准备工作,有助于提高模型训练的效率。
S2212、将所述第一样本词向量和所述第二样本词向量输入至所述注意力层中进行处理,生成语义关系矩阵。
注意力层是用于对第一样本词向量、第二样本词向量进行自注意力和/或互注意力处理的层级结构,第一样本词向量及第二样本词向量经过注意力层的自注意力和/或互注意力处理生成语义关系矩阵。
具体地,将第一样本词向量和第二样本词向量输入至注意力层中,首先根据每一个样本词向量得到其对应的Q向量(Query向量)、K向量(Key向量)和V向量(Value向量),再将Q向量和K向量进行相似度计算得到权重矩阵,其中相似度函数包括点积、拼接等,而后采用softmax函数对上述权重矩阵进行归一化处理,即除以
Figure BDA0002454432110000151
并对权重矩阵施以softmax激活函数计算,将上述softmax激活函数计算的结果点乘V向量即Value值,得到加权的每个样本向量的评分v,最后将每一个样本向量的评分v相加即得到注意力矩阵即语义关系矩阵z,z=∑v。
更为具体地,softmax函数的公式如下:
Figure BDA0002454432110000152
其中,Si表示第i个权重矩阵对应的softmax值;i代表第i个权重矩阵;j代表权重矩阵的总个数。
本实施例通过注意力层对第一样本词向量和第二样本词向量进行处理,可以有效训练模型中每一个节点对样本词向量的处理能力,提高模型的训练效果。
S2213、将所述语义关系矩阵输入至线性层中进行处理,生成所述第一样本词语与所述第二样本词语之间的预测语义关系。
线性层是用于对语义关系矩阵进行线性变换处理的层级结构,语义关系矩阵经过线性处理获得预测语义关系向量,并对预测语义关系向量进行解码得到预测语义关系。其中,预测语义关系可以在多个候选关系中确定,以其中概率值最大的候选关系作为预测语义关系,或是其他确定预测语义关系的方式均可,本申请对此不做限制。
具体地,以图3为例,其中从左到右依次为嵌入层、注意力层和线性层,xi(i=1,2,3)为输入层即嵌入层的值,ai (k)(k=1,2,3...,K;i=1,2,3...,Nk),表示第k层中第i个神经元的激活值,Nk表示第k层的神经元个数。当k=1时即为嵌入层,即ai (1)=xi,而x0=1与a0 (2)=1为偏置项。θji (k)表示第k层的参数(边权),其中下标j表示第k+1层的第j个神经元,i表示第k层的第i个神经元。那么注意力层的激活值可以由下式表示:
Figure BDA0002454432110000161
Figure BDA0002454432110000162
Figure BDA0002454432110000163
基于上述激活值与偏置项a0 (2)、a1 (2)、a2 (2)、a3 (2)计算得到输出层即线性层的激活值即输出为:
Figure BDA0002454432110000164
其中,g(z)为非线性变换函数(激活函数)。
本实施例通过线性层对语义矩阵进行处理,获得预测语义关系向量可以有效提高模型训练的效率,提高模型的准确率。
S222、基于所述预测语义关系与所述语义关系标签对所述预训练的阅读理解模型进行迭代训练。
具体地,所述步骤S222包括步骤S2221至步骤S2222。
S2221、基于所述预测语义关系与所述语义关系标签计算语义损失值。
在实际应用中,可以基于预测语义关系与语义关系标签计算交叉熵函数,得到语义损失值。
具体地,基于预测语义关系向量与语义关系表标签向量计算交叉熵函数,交叉熵是表示两个概率分布p、q的差异,其中p表示真实分布即语义关系标签向量,q表示非真实分布即预测语义关系向量,那么H(p,q)就称为交叉熵,其计算公式如下所示:
Figure BDA0002454432110000171
通过交叉熵函数计算语义损失值,有助于模型基于训练结果对自身节点进行精确调整,进而提高模型性能。
S2222、基于所述语义损失值对所述预训练的阅读理解模型进行迭代训练。
在实际应用中,可以基于语义损失值反向调整阅读理解模型的参数,以达到对阅读理解模型进行语义训练的目的。同时,还可以通过判断语义损失值是否小于预设阈值来确定是否停止训练,在语义损失值大于或等于预设阈值的情况下,则继续对阅读理解模型迭代训练,在语义损失值小于预设阈值的情况下,则停止训练。预设阈值的具体数值可视具体情况而定,本申请对此不做限制。
例如,假设预设阈值为0.2,若语义损失值为0.5,大于预设阈值,继续训练,若语义损失值为0.1,小于预设阈值,停止训练。
在本实施例中,语义训练的过程是执行有监督的模型分类任务的过程,通过对预训练的阅读理解模型进行语义训练,锻炼模型对于词语之间语义关系的预测能力,提高阅读理解模型的语义分析能力,有助于阅读理解模型准确理解多个词语之间的语义关系,为句子、段落、文章的分析打下坚实基础。
S230、获取文本训练样本,其中,所述文本训练样本包括样本文本、样本问题和样本答案。
具体地,样本文本是对阅读理解模型进行阅读理解训练的基础文本,样本文本可以为各种语言、各种篇幅长度的文本,本申请对此不做限制。样本问题是与样本文本的内容具有一定关联的问题,样本答案是基于样本问题在样本文本中得到的答案。
例如,假设样本文本包括“‘落霞与孤鹜齐飞,秋水共长天一色’出自王勃所作的《滕王阁序》”,样本问题包括“《滕王阁序》的作者是谁?”,那么样本答案为“王勃”。
在本实施例中,获取包括样本文本、样本问题以及样本答案的文本训练样本,为模型的后续训练的进行提供基础与支持。
S240、将所述文本训练样本输入至语义训练的阅读理解模型中进行迭代训练,获得目标阅读理解模型。
其中,语义训练的阅读理解模型是指利用语义训练样本对预训练的阅读理解模型进行训练,并基于训练结果调整上述预训练的阅读理解模型的各项参数,对上述预训练的阅读理解模型进行更新后得到的模型目标阅读理解模型是指利用文本训练样本对语义训练的阅读理解模型进行训练,并基于训练结果调整上述语义训练的阅读理解模型的各项参数,对上述语义训练的阅读理解模型进行更新后得到的模型。需要说明的是,在语义训练的阅读理解模型经过文本训练样本的训练后,得到的目标阅读理解模型会替代原有的预训练阅读理解模型。
具体地,所述步骤S240包括步骤S241至步骤S242。
S241、将所述样本文本和所述样本问题输入至语义训练的阅读理解模型中进行处理,生成预测答案。
其中,预测答案是通过阅读理解模型对样本文本的分析得到的样本问题的答案,其可能与样本答案相同,也可能与样本答案存在差异。
具体地,所述语义训练的阅读理解模型包括嵌入层、注意力层和线性层,所述步骤S241包括步骤S2411至步骤S2413。
S2411、将所述样本文本和所述样本问题输入至所述嵌入层中进行处理,生成所述样本文本向量和所述样本问题向量。
嵌入层是用于对文本训练样本的样本文本、样本问题和样本答案进行嵌入式编码处理的层级结构,样本文本通过嵌入层的嵌入式编码处理生成与其相对应的词向量集合即样本文本向量,样本问题通过嵌入层的嵌入式编码处理生成与其相对应的词向量集合即样本问题向量。
S2412、将所述样本文本向量和所述样本问题向量输入至所述注意力层中进行处理,生成文本问题矩阵。
注意力层是用于对样本文本的所有词向量以及样本问题的所有词向量进行自注意力和/或互注意力处理的层级结构,样本文本的词向量和样本问题的词向量经过自注意力和/或互注意力处理生成文本问题矩阵。
S2413、将所述文本问题矩阵输入至所述线性层中进行处理,生成所述样本问题的预测答案。
线性层是用于对文本问题矩阵进行线性变换处理的层级结构,经过线性层的线性变换处理,得到答案在待分析文本中的开始位置以及结束位置的概率,将开始位置概率最大的词单元作为答案的开始,将结束位置概率最大的词单元作为答案的结束,即得到样本问题的预测答案。
需要说明的是,步骤S2411至S2413中嵌入层、注意力层和线性层的具体处理过程可以参考步骤S2211至S2213,在此不再赘述。
S242、基于所述预测答案与所述样本答案对所述语义训练的阅读理解模型进行迭代训练。
具体地,所述步骤S242包括步骤S2421至步骤S2422。
S2421、基于所述预测答案与所述样本答案计算答案损失值。
在实际应用中,可以基于预测答案与样本答案计算交叉熵函数,得到答案损失值。
S2422、基于所述答案损失值对所述语义训练的阅读理解模型进行迭代训练。
步骤S2411至步骤S2422的内容可以参见步骤S2221至步骤S2222,在此不再赘述。
在实际应用中,可以基于答案损失值反向调整阅读理解模型的参数,以达到对阅读理解模型进行阅读理解分析训练的目的。同时,还可以通过判断答案损失值是否小于预设阈值来确定是否停止训练,在答案损失值大于或等于预设阈值的情况下,则继续对阅读理解模型迭代训练,在答案损失值小于预设阈值的情况下,则停止训练。预设阈值的具体数值可视具体情况而定,本申请对此不做限制。
本实施例通过对语义训练的阅读理解模型进行阅读理解分析训练,在阅读理解模型理解词语语义关系的基础上,更进一步准确地理解与分析句子、段落、文章的含义,提高阅读理解模型的语句分析能力以及问题回答的准确率。
本申请提供的阅读理解模型的训练方法,通过将语义训练样本的第一样本词语、第二样本词语以及与第一样本词语和第二样本词语对应的语义关系标签输入至预训练的阅读理解模型中迭代训练,使得阅读理解模型可以更全面、更深层次的挖掘与理解词语与词语之间的语义关系,再将文本训练样本的样本文本、样本问题和样本答案输入至语义训练的阅读理解模型中迭代训练,使得阅读理解模型在深刻理解词语语义的基础上,更进一步地对段落、文章等的语句进行透彻的理解与分析,提升答***率,提高模型训练效果。
如图4所示,本实施例提供一种阅读理解模型的训练方法,包括步骤S410至步骤S480,在本实施例中结合具体实例进行详细说明。
S410、获取预训练样本,其中,所述预训练样本包括预训练样本文本。
在本实施例中,预训练样本文本包括“燕子去了,有再来的时候;杨柳枯了,有再青的时候;桃花谢了,有再开的时候……”。
S420、将所述预训练样本文本输入至阅读理解模型中进行迭代训练,直至达到训练停止条件,获得预训练的阅读理解模型。
在本实施例中,将上述预训练样本输入至阅读理解模型中进行迭代训练。
(1)采用[MASK]标志替代预训练样本文本中的多个词,得到“[MASK]去了,有再来的时候;杨柳枯了,有再[MASK]的时候;[MASK]谢了,有再开的时候……”,基于上下文对上述被[MASK]标志替换的词进行预测,并将预测结果与真实结果进行对比,基于预测结果与真实结果计算损失值,并基于损失值调整阅读理解模型的参数,对阅读理解模型迭代训练,直至损失值小于0.2。
(2)采用随机词替代预训练样本文本中的多个词,得到“星星去了,有再来的时候;杨柳枯了,有再转动的时候;太阳谢了,有再开的时候……”,基于上下文对被替换掉的词进行预测,并将预测结果与真实结果进行对比,基于预测结果与真实结果计算损失值,并基于损失值调整阅读理解模型的参数,对阅读理解模型迭代训练,直至损失值小于0.2。
(3)保持预训练样本文本中的内容不变,采用阅读理解模型对预训练样本文本进行理解分析处理,并调整阅读理解模型的参数,直至达到训练停止条件。
满足上述三个训练停止条件,停止预训练,获得预训练的阅读理解模型。
S430、获取语义训练样本,其中,所述语义训练样本包括第一样本词语、第二样本词语以及所述第一样本词语与所述第二样本词语之间的语义关系标签。
在本实施例中,共抽取上下位关系、同义关系、反义关系、部分与整体关系等16种语义关系及每一种语义关系相对应的第一样本词语和第二样本词语。以语义训练样本中的子样本A和子样本B为例,假设子样本A包括“猫咪-宠物-上下位关系”、子样本B包括“高兴-开心-同义关系”。
S440、将所述第一样本词语和所述第二样本词语输入至预训练的阅读理解模型中进行处理,生成所述第一样本词语和所述第二样本词语之间的预测语义关系。
所述预训练的阅读理解模型包括嵌入层、注意力层和线性层;步骤S340包括步骤S441至步骤S443。
S441、将所述第一样本词语和第二样本词语输入至所述嵌入层中进行处理,生成第一样本词向量和第二样本词向量。
在本实施例中,将子样本A的第一样本词语“猫咪”和第二样本词语“宠物”输入至嵌入层中进行处理,生成第一样本词向量A1和第二样本词向量A2;将子样本B的第一样本词语“高兴”和第二样本词语“开心”输入至嵌入层中进行处理,生成第一样本词向量B1和第二样本词向量B2。
S442、将所述第一样本词向量和所述第二样本词向量输入至所述注意力层中进行处理,生成语义关系矩阵。
在本实施例中,将子样本A的第一样本词向量A1和第二样本词向量A2输入至注意力层中进行处理,生成语义关系矩阵a;将子样本B的第一样本词向量B1和第二样本词向量B2输入至注意力层中进行处理,生成语义关系矩阵b。
S443、将所述语义关系矩阵输入至线性层中进行处理,生成所述第一样本词语与所述第二样本词语之间的预测语义关系。
在本实施例中,将子样本A的语义关系矩阵a输入至线性层中进行处理,得到第一样本词语“猫咪”和第二样本词语“宠物”的预测语义关系为“同义词关系”;将子样本B的语义关系矩阵b输入至线性层中进行处理,得到第一样本词语“高兴”和第二样本词语“开心”的预测语义关系为“近义词关系”。
S450、基于所述预测语义关系与所述语义关系标签对所述预训练的阅读理解模型进行迭代训练,直至达到训练停止条件,获得语义训练的阅读理解模型。
具体地,步骤S450包括步骤S451至步骤S452。
S451、基于所述预测语义关系与所述语义关系标签计算语义损失值。
在本实施例中,基于子样本A的预测语义关系“同义词关系”与语义关系标签“上下位关系”计算得到子样本A的语义损失值为0.8;基于子样本B的预测语义关系“近义词关系”与语义关系标签“同义词关系”计算得到子样本B的语义损失值为0.1。
S452、基于所述语义损失值对所述预训练的阅读理解模型进行迭代训练。
在本实施例中,子样本A的语义损失值0.8大于预设阈值0.2,基于子样本A的语义损失值调整预训练的阅读理解模型的参数,进行训练;子样本B的语义损失值0.1小于预设阈值0.2,停止训练。
S460、获取文本训练样本,其中,所述文本训练样本包括样本文本、样本问题和样本答案。
在本实施例中,以文本训练样本C为例,假设文本训练样本C包括样本文本“唐朝时期,书法家辈出,欧阳询、虞世南都是初唐著名书法家”,样本问题“欧阳询生活于哪个朝代”,样本答案“唐朝”。
S470、将所述样本文本和所述样本问题输入至语义训练的阅读理解模型中进行处理,生成预测答案。
所述语义训练的阅读理解模型包括嵌入层、注意力层和线性层;步骤S470包括步骤S471至步骤S473。
S471、将所述样本文本和所述样本问题输入至所述嵌入层中进行处理,生成所述样本文本的词向量和所述样本问题的词向量。
在本实施例中,将上述样本文本输入至嵌入层中进行处理,得到样本文本的词向量C1;将上述样本问题输入至嵌入层中进行处理,得到样本问题的词向量C2。
S472、将所述样本文本的词向量和所述样本问题的词向量输入至所述注意力层中进行处理,生成文本问题矩阵。
在本实施例中,将上述样本文本的词向量C1和样本问题的词向量C2输入至注意力层中进行处理,生成文本问题矩阵c。
S473、将所述文本问题矩阵输入至所述线性层中进行处理,生成所述样本问题的预测答案。
在本实施例中,将所述文本矩阵c输入至线性层中进行处理,得到样本文本中每个词单元作为答案开始位置和答案结束位置的概率,其中第二十一个词单元“初”作为答案开始位置的概率最高,第二十二个词单元“唐”作为答案结束位置的概率最高,则样本问题的预测答案为“初唐”。
S480、基于所述预测答案与所述样本答案对所述语义训练的阅读理解模型进行迭代训练,直至达到训练停止条件,获得目标阅读理解模型。
步骤S480包括步骤S481至步骤S482。
S481、基于所述预测答案与所述样本答案计算答案损失值。
在本实施例中,基于上述预测答案“初唐”和样本答案“唐朝”计算得到答案损失值为0.1。
S482、基于所述答案损失值对所述语义训练的阅读理解模型进行迭代训练。
在本实施例中,由于答案损失值0.1小于预设阈值0.2,停止训练。
本申请提供的阅读理解模型的训练方法,通过将语义训练样本的第一样本词语、第二样本词语以及第一样本词语与第二样本词语之间的语义关系标签输入至预训练的阅读理解模型中迭代训练,使得阅读理解模型可以更全面、更深层次的挖掘与理解词语与词语之间的语义关系,再将文本训练样本的样本文本、样本问题和样本答案输入至语义训练的阅读理解模型中迭代训练,使得阅读理解模型在深刻理解词语语义的基础上,更进一步地对段落、文章等的语句进行透彻的理解与分析,提升答***率,提高模型训练效果。
如图5所示,本实施例提供一种阅读理解模型的结构示意图,用于本申请所述的阅读理解方法,所述阅读理解模型为BERT模型,包括依次排列的嵌入层、注意力层和线性层。
嵌入层是用于对待分析文本和待回答问题进行嵌入式编码处理的层级结构,待分析文本通过嵌入层的嵌入式编码处理生成与其相对应的词向量集合,待回答问题通过嵌入层的嵌入式编码处理生成与其相对应的词向量集合。
注意力层是用于对待分析文本的所有词向量以及待回答问题的所有词向量进行自注意力和/或互注意力处理的层级结构,待分析文本的词向量和待回答问题的词向量经过自注意力和/或互注意力处理生成文本问题矩阵。
线性层是用于对文本问题矩阵进行线性变换处理的层级结构,经过线性层的线性变换处理,得到答案在待分析文本中的开始位置以及结束位置的概率,将开始位置概率最大的词单元作为答案的开始,将结束位置概率最大的词单元作为答案的结束,即得到待回答问题的答案。
本实施例提供的阅读理解模型,通过理解待分析文本与待回答问题中词语之间的语义关系,进而对待分析文本与待回答问题进行深层次的分析,答案准确率高,模型效果好。
如图6所示,本实施例提供一种阅读理解方法,包括步骤S610至步骤S620。
S610、获取待分析文本和待回答问题。
其中,待分析文本可以是各种语言、各种篇幅长度的文本,本申请对此不做限制。待回答问题是与待分析文本内容具有一定关联的问题。
S620、将所述待分析文本和所述待回答问题输入至目标阅读理解模型中进行处理,获得所述待回答问题的答案。
其中,所述目标阅读理解模型是通过所述的阅读理解模型的训练方法训练得到的,在本实施例中为BERT模型,包括嵌入层、注意力层和线性层。
在实际应用中,首先将待分析文本和待回答问题输入至目标阅读理解模型的嵌入层中进行处理,生成待分析文本的词向量和所述待回答问题的词向量;再将待分析文本的词向量和所述待回答问题的词向量输入至目标阅读理解模型的注意力层中进行处理,生成文本问题矩阵,最后将文本问题矩阵输入至目标阅读理解模型的线性层中进行处理,得到待回答问题的答案。
下面结合具体的例子对本实施例进行进一步说明。
例如,假设获取到的待分析文本包括“人有人言,兽有兽语。动物是不会听懂人说话的”,待回答问题包括“老鼠听得懂人话吗?”。
将上述待分析文本和待回答问题输入至阅读理解模型的嵌入层中进行处理,得到待分析文本的词向量X1和待回答问题的词向量X2。
将上述待分析文本的词向量X1和待回答问题的词向量X2输入至注意力层进行处理,得到文本问题矩阵x。
将上述文本问题矩阵x输入至线性层中进行处理,得到待分析文本中第十四个词单元作为答案开始位置的概率最大,第二十个词单元作为答案结束位置的概率最大,即待回答问题的答案为“不会听懂人说话”。
本实施例所述的阅读理解方法,通过编码文本与问题中词语之间的语义关系,比如“老鼠”和“人”、“兽”、“动物”之间的关系,通过这些语义关系从而可以更好地预测出正确答案,答案准确率高,模型效果好。
如图7所示,本实施例提供一种阅读理解模型的训练装置,包括:
第一获取模块710,被配置为获取语义训练样本,其中,所述语义训练样本包括第一样本词语、第二样本词语以及与所述第一样本词语和所述第二样本词语对应的语义关系标签;
第一训练模块720,被配置为将所述语义训练样本输入至预训练的阅读理解模型中进行迭代训练,获得语义训练的阅读理解模型;
第二获取模块730,被配置为获取文本训练样本,其中,所述文本训练样本包括样本文本、样本问题和样本答案;
第二训练模块740,被配置为将所述文本训练样本输入至语义训练的阅读理解模型中进行迭代训练,获得目标阅读理解模型。
可选地,所述阅读理解模型的训练装置,还包括:
预获取模块,被配置为获取预训练样本,其中,所述预训练样本包括预训练样本文本;
预训练模块,被配置为将所述预训练样本文本输入至阅读理解模型中进行迭代训练,直至达到训练停止条件,获得预训练的阅读理解模型。
可选地,所述第一训练模块720,进一步被配置为:
将所述第一样本词语和所述第二样本词语输入至预训练的阅读理解模型中进行处理,生成所述第一样本词语和所述第二样本词语之间的预测语义关系;
基于所述预测语义关系与所述语义关系标签对所述预训练的阅读理解模型进行迭代训练。
可选地,所述预训练的阅读理解模型包括嵌入层、注意力层和线性层;
所述第一训练模块720,进一步被配置为:
将所述第一样本词语和第二样本词语输入至所述嵌入层中进行处理,生成第一样本词向量和第二样本词向量;
将所述第一样本词向量和所述第二样本词向量输入至所述注意力层中进行处理,生成语义关系矩阵;
将所述语义关系矩阵输入至线性层中进行处理,生成所述第一样本词语与所述第二样本词语之间的预测语义关系。
可选地,所述第一训练模块720,进一步被配置为:
基于所述预测语义关系与所述语义关系标签计算语义损失值;
基于所述语义损失值对所述预训练的阅读理解模型进行迭代训练。
可选地,所述第二训练模块740,进一步被配置为:
将所述样本文本和所述样本问题输入至语义训练的阅读理解模型中进行处理,生成预测答案;
基于所述预测答案与所述样本答案对所述语义训练的阅读理解模型进行迭代训练。
可选地,所述语义训练的阅读理解模型包括嵌入层、注意力层和线性层;
所述第二训练模块740,进一步被配置为:
将所述样本文本和所述样本问题输入至所述嵌入层中进行处理,生成所述样本文本的词向量和所述样本问题的词向量;
将所述样本文本的词向量和所述样本问题的词向量输入至所述注意力层中进行处理,生成文本问题矩阵;
将所述文本问题矩阵输入至所述线性层中进行处理,生成所述样本问题的预测答案。
可选地,所述第二训练模块740,进一步被配置为:
基于所述预测答案与所述样本答案计算答案损失值;
基于所述答案损失值对所述语义训练的阅读理解模型进行迭代训练。
本申请提供的阅读理解模型的训练装置,通过将语义训练样本的第一样本词语、第二样本词语以及第一样本词语与第二样本词语之间的语义关系标签输入至预训练的阅读理解模型中迭代训练,使得阅读理解模型可以更全面、更深层次的挖掘与理解词语与词语之间的语义关系,再将文本训练样本的样本文本、样本问题和样本答案输入至语义训练的阅读理解模型中迭代训练,使得阅读理解模型在深刻理解词语语义的基础上,更进一步地对段落、文章等的语句进行透彻的理解与分析,提升答***率,提高模型训练效果。
如图8所示,本实施例提供一种阅读理解装置,包括:
文本问题获取模块810,被配置为获取待分析文本和待回答问题;
文本问题分析模块820,被配置为将所述待分析文本和所述待回答问题输入至目标阅读理解模型中进行处理,获得所述待回答问题的答案,其中,所述目标阅读理解模型是通过所述的阅读理解模型的训练方法训练得到的。
本申请提供的阅读理解装置,通过将待分析文本与待回答问题输入至经过预训练、语义训练以及文本训练的阅读理解模型中进行处理,通过关注文本与问题中词语之间的语义关系,可以进一步提升对于文本和问题之间的分析能力,对待分析文本以及待回答问题进行全方位深层次的语义分析以及语句分析,有效提高答***率。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取语义训练样本,其中,所述语义训练样本包括第一样本词语、第二样本词语以及所述第一样本词语与所述第二样本词语之间的语义关系标签;
将所述语义训练样本输入至预训练的阅读理解模型中进行迭代训练,获得语义训练的阅读理解模型;
获取文本训练样本,其中,所述文本训练样本包括样本文本、样本问题和样本答案;
将所述文本训练样本输入至语义训练的阅读理解模型中进行迭代训练,获得目标阅读理解模型。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述阅读理解模型的训练方法或阅读理解方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的阅读理解模型的训练方法或阅读理解方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述阅读理解模型的训练方法或阅读理解方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种阅读理解模型的训练方法,其特征在于,包括:
获取语义训练样本,其中,所述语义训练样本包括第一样本词语、第二样本词语以及与所述第一样本词语和所述第二样本词语对应的语义关系标签;
将所述语义训练样本输入至预训练的阅读理解模型中进行迭代训练,获得语义训练的阅读理解模型;
获取文本训练样本,其中,所述文本训练样本包括样本文本、样本问题和样本答案;
将所述文本训练样本输入至所述语义训练的阅读理解模型中进行迭代训练,获得目标阅读理解模型。
2.根据权利要求1所述的阅读理解模型的训练方法,其特征在于,在所述获取语义训练样本之前,还包括:
获取预训练样本,其中,所述预训练样本包括预训练样本文本;
将所述预训练样本文本输入至阅读理解模型中进行迭代训练,直至达到训练停止条件,获得预训练的阅读理解模型。
3.根据权利要求1所述的阅读理解模型的训练方法,其特征在于,所述将所述语义训练样本输入至所述预训练的阅读理解模型中进行迭代训练,包括:
将所述第一样本词语和所述第二样本词语输入至所述预训练的阅读理解模型中进行处理,生成所述第一样本词语和所述第二样本词语之间的预测语义关系;
基于所述预测语义关系与所述语义关系标签对所述预训练的阅读理解模型进行迭代训练。
4.根据权利要求3所述的阅读理解模型的训练方法,其特征在于,所述预训练的阅读理解模型包括嵌入层、注意力层和线性层;
所述将所述第一样本词语和所述第二样本词语输入至预训练的阅读理解模型中进行处理,包括:
将所述第一样本词语和第二样本词语输入至所述嵌入层中进行处理,生成第一样本词向量和第二样本词向量;
将所述第一样本词向量和所述第二样本词向量输入至所述注意力层中进行处理,生成语义关系矩阵;
将所述语义关系矩阵输入至线性层中进行处理,获得所述第一样本词语与所述第二样本词语之间的预测语义关系。
5.根据权利要求3所述的阅读理解模型的训练方法,其特征在于,所述基于所述预测语义关系与所述语义关系标签对所述预训练的阅读理解模型进行迭代训练,包括:
基于所述预测语义关系与所述语义关系标签计算语义损失值;
基于所述语义损失值对所述预训练的阅读理解模型进行迭代训练。
6.根据权利要求1所述的阅读理解模型的训练方法,其特征在于,将所述文本训练样本输入至所述语义训练的阅读理解模型中进行迭代训练,包括:
将所述样本文本和所述样本问题输入至所述语义训练的阅读理解模型中进行处理,生成预测答案;
基于所述预测答案与所述样本答案对所述语义训练的阅读理解模型进行迭代训练。
7.根据权利要求6所述的阅读理解模型的训练方法,其特征在于,所述语义训练的阅读理解模型包括嵌入层、注意力层和线性层;
所述将所述样本文本和所述样本问题输入至所述语义训练的阅读理解模型中进行处理,生成预测答案,包括:
将所述样本文本和所述样本问题输入至所述嵌入层中进行处理,生成所述样本文本向量和所述样本问题向量;
将所述样本文本向量和所述样本问题向量输入至所述注意力层中进行处理,生成文本问题矩阵;
将所述文本问题矩阵输入至所述线性层中进行处理,生成所述样本问题的预测答案。
8.根据权利要求6所述的阅读理解模型的训练方法,其特征在于,所述基于所述预测答案与所述样本答案对所述语义训练的阅读理解模型进行迭代训练,包括:
基于所述预测答案与所述样本答案计算答案损失值;
基于所述答案损失值对所述语义训练的阅读理解模型进行迭代训练。
9.一种阅读理解方法,其特征在于,包括:
获取待分析文本和待回答问题;
将所述待分析文本和所述待回答问题输入至目标阅读理解模型中进行处理,获得所述待回答问题的答案,其中,所述目标阅读理解模型是通过权利要求1-8任意一项所述的阅读理解模型的训练方法训练得到的。
10.一种阅读理解模型的训练装置,其特征在于,包括:
第一获取模块,被配置为获取语义训练样本,其中,所述语义训练样本包括第一样本词语、第二样本词语以及与所述第一样本词语和所述第二样本词语对应的语义关系标签;
第一训练模块,被配置为将所述语义训练样本输入至预训练的阅读理解模型中进行迭代训练,获得语义训练的阅读理解模型;
第二获取模块,被配置为获取文本训练样本,其中,所述文本训练样本包括样本文本、样本问题和样本答案;
第二训练模块,被配置为将所述文本训练样本输入至所述语义训练的阅读理解模型中进行迭代训练,获得目标阅读理解模型。
11.一种阅读理解装置,其特征在于,包括:
文本问题获取模块,被配置为获取待分析文本和待回答问题;
文本问题分析模块,被配置为将所述待分析文本和所述待回答问题输入至目标阅读理解模型中进行处理,获得所述待回答问题的答案,其中,所述目标阅读理解模型是通过权利要求1-8任意一项所述的阅读理解模型的训练方法训练得到的。
12.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8或者9任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8或者9任意一项所述方法的步骤。
CN202010302227.7A 2020-04-16 2020-04-16 阅读理解模型的训练方法及装置、阅读理解方法及装置 Pending CN113536801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302227.7A CN113536801A (zh) 2020-04-16 2020-04-16 阅读理解模型的训练方法及装置、阅读理解方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302227.7A CN113536801A (zh) 2020-04-16 2020-04-16 阅读理解模型的训练方法及装置、阅读理解方法及装置

Publications (1)

Publication Number Publication Date
CN113536801A true CN113536801A (zh) 2021-10-22

Family

ID=78088452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302227.7A Pending CN113536801A (zh) 2020-04-16 2020-04-16 阅读理解模型的训练方法及装置、阅读理解方法及装置

Country Status (1)

Country Link
CN (1) CN113536801A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706942A (zh) * 2022-03-16 2022-07-05 马上消费金融股份有限公司 文本转换模型训练方法、文本转换方法、装置及电子设备
CN114881040A (zh) * 2022-05-12 2022-08-09 桂林电子科技大学 一种段落的语义信息处理方法、装置及存储介质
CN114925660A (zh) * 2022-05-23 2022-08-19 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置
CN114970569A (zh) * 2022-05-12 2022-08-30 北京云思智学科技有限公司 一种汉译英翻译试题的自动解题方法、装置及存储介质
CN115048906A (zh) * 2022-08-17 2022-09-13 北京汉仪创新科技股份有限公司 一种文档结构化方法、装置、电子设备和存储介质
CN117290483A (zh) * 2023-10-09 2023-12-26 成都明途科技有限公司 答案确定方法、模型训练方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096698A (zh) * 2019-03-20 2019-08-06 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与***
CN110781663A (zh) * 2019-10-28 2020-02-11 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096698A (zh) * 2019-03-20 2019-08-06 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与***
CN110781663A (zh) * 2019-10-28 2020-02-11 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706942A (zh) * 2022-03-16 2022-07-05 马上消费金融股份有限公司 文本转换模型训练方法、文本转换方法、装置及电子设备
CN114706942B (zh) * 2022-03-16 2023-11-24 马上消费金融股份有限公司 文本转换模型训练方法、文本转换方法、装置及电子设备
CN114881040A (zh) * 2022-05-12 2022-08-09 桂林电子科技大学 一种段落的语义信息处理方法、装置及存储介质
CN114970569A (zh) * 2022-05-12 2022-08-30 北京云思智学科技有限公司 一种汉译英翻译试题的自动解题方法、装置及存储介质
CN114881040B (zh) * 2022-05-12 2022-12-06 桂林电子科技大学 一种段落的语义信息处理方法、装置及存储介质
CN114925660A (zh) * 2022-05-23 2022-08-19 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置
CN114925660B (zh) * 2022-05-23 2023-07-28 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置
CN115048906A (zh) * 2022-08-17 2022-09-13 北京汉仪创新科技股份有限公司 一种文档结构化方法、装置、电子设备和存储介质
CN117290483A (zh) * 2023-10-09 2023-12-26 成都明途科技有限公司 答案确定方法、模型训练方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN113536801A (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN109977428B (zh) 一种答案获取的方法及装置
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN113127624B (zh) 问答模型的训练方法及装置
CN110347802B (zh) 一种文本分析方法及装置
CN110609886A (zh) 一种文本分析方法及装置
CN110929015B (zh) 一种多文本分析方法及装置
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN113961686A (zh) 问答模型的训练方法及装置、问答方法及装置
CN114138947A (zh) 文本处理方法及装置
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
CN116029303A (zh) 语言表达方式识别方法、装置、电子设备和存储介质
CN115221315A (zh) 文本处理方法以及装置、句向量模型训练方法以及装置
CN114647717A (zh) 一种智能问答方法及装置
CN116089589B (zh) 问句生成方法及装置
CN114492387B (zh) 基于句法结构的领域自适应方面术语抽取方法及***
CN117688449A (zh) 题目分类方法、题目分类模型训练方法及装置
CN114969313A (zh) 摘要抽取方法、装置、计算机设备及计算机可读存储介质
CN117251540A (zh) 问答模型训练方法及装置、文本问答方法及装置
CN117574241A (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination