CN114691850A - 生成问答对的方法、神经网络模型的训练方法和装置 - Google Patents

生成问答对的方法、神经网络模型的训练方法和装置 Download PDF

Info

Publication number
CN114691850A
CN114691850A CN202210352786.8A CN202210352786A CN114691850A CN 114691850 A CN114691850 A CN 114691850A CN 202210352786 A CN202210352786 A CN 202210352786A CN 114691850 A CN114691850 A CN 114691850A
Authority
CN
China
Prior art keywords
network model
answer
text data
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210352786.8A
Other languages
English (en)
Inventor
崔震
张士存
聂砂
罗奕康
熊衍琴
朱志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202210352786.8A priority Critical patent/CN114691850A/zh
Publication of CN114691850A publication Critical patent/CN114691850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种使用神经网络模型来生成问答对的方法,可以应用于金融技术领域。该使用神经网络模型来生成问答对的方法包括:将第一目标文本数据输入至第一网络模型,得到与第一目标文本数据对应的答案抽取结果;将第二目标文本数据和答案抽取结果输入至第二网络模型,得到与第二目标文本数据对应的问题结果;以及基于答案抽取结果和问题结果,生成问答对。本公开还提供了一种神经网络模型的训练方法、装置、设备、存储介质和程序产品。

Description

生成问答对的方法、神经网络模型的训练方法和装置
技术领域
本公开涉及人工智能技术领域,可以应用于金融技术领域,更具体地涉及一种使用神经网络模型来生成问答对的方法、神经网络模型的训练方法、装置、电子设备、存储介质和程序产品。
背景技术
随着智能问答的兴起,知识库的构建变得尤为重要。知识库应该包含丰富的问答对内容来支撑智能问答。
然而,当前智能问答知识库的构建需要人工通过经验在语料中提取问答对,不同人员提取问答对的结果不同,容易限制知识库构建的范围,且人工处理的方式效率较差,提取的问答对不够完备。
发明内容
鉴于上述问题,本公开提供了提高问答对提取效率的使用神经网络模型来生成问答对的方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种使用神经网络模型来生成问答对的方法,所述神经网络模型包括第一网络模型和第二网络模型,所述方法包括:将第一目标文本数据输入至所述第一网络模型,得到与所述第一目标文本数据对应的答案抽取结果;将第二目标文本数据和所述答案抽取结果输入至所述第二网络模型,得到与所述第二目标文本数据对应的问题结果;以及基于所述答案抽取结果和所述问题结果,生成问答对。
根据本公开实施例,所述第一目标文本数据,和/或,所述第二目标文本数据是通过以下方式得到的:获取文本数据;其中,所述文本数据包括标准文档的文本数据;获取标准文档的相关信息,所述相关信息包括:标准文档以及与所述标准文档对应的格式信息;基于所述标准文档的相关信息对所述文本数据进行文本分解处理,得到与所述文本数据对应的文本分解处理结果;以及基于与所述文本数据对应的文本分解处理结果,得到所述第一目标文本数据和所述第二目标文本数据中的一种或多种;其中,所述文本分解处理包括正则法。
根据本公开实施例,所述第一网络模型包括语言表征模型,所述第二网络模型包括序列到序列模型。
根据本公开实施例,所述序列到序列模型包括语言表征模型和语言模型。
本公开的第二方面提供了一种神经网络模型的训练方法,包括:基于语言表征模型和语言模型,构建待训练的神经网络模型;解析文本数据,得到标题数据、与所述标题数据对应的正文数据和答案数据;以及将所述标题数据、与所述标题数据对应的正文数据和答案数据作为样本输入数据,采用机器学习算法训练所述待训练的神经网络模型。
根据本公开实施例,所述答案数据包括答案抽取结果;所述答案抽取结果是通过以下操作得到的:将所述文本数据作为样本输入数据;以及根据所述样本输入数据,采用机器学习算法训练待训练的语言表征模型,得到与所述样本输入数据对应的答案抽取结果
本公开的第三方面提供了一种使用神经网络模型来生成问答对的装置,所述神经网络模型包括第一网络模型和第二网络模型,所述装置包括:确定答案模块,用于将第一目标文本数据输入至所述第一网络模型,得到与所述第一目标文本数据对应的答案抽取结果;确定问题模块,用于将第二目标文本数据和所述答案抽取结果输入至所述第二网络模型,得到与所述第二目标文本数据对应的问题结果;以及生成问答对模块,用于基于所述答案抽取结果和所述问题结果,生成问答对。
本公开的第四方面提供了一种神经网络模型的训练装置,包括:构建模块,用于基于语言表征模型和语言模型,构建待训练的神经网络模型;解析模块,用于解析文本数据,得到标题数据、与所述标题数据对应的正文数据和答案数据;以及训练模块,用于将所述标题数据、与所述标题数据对应的正文数据和答案数据作为样本输入数据,采用机器学习算法训练所述待训练的神经网络模型。
本公开的第五方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述公开的方法。
本公开的第六方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述公开的方法。
本公开的第七方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述公开的方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的使用神经网络模型来生成问答对的方法、神经网络模型的训练方法、装置、设备、介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的使用神经网络模型来生成问答对的方法的流程图;
图3示意性示出了根据本公开一实施例的利用语言表征模型抽取答案的流程图;
图4示意性示出了根据本公开实施例的神经网络模型的训练方法的流程图;
图5示意性示出了根据本公开实施例的序列到序列模型的执行示意图;
图6示意性示出了根据本公开实施例的使用神经网络模型来生成问答对的装置的结构框图;
图7示意性示出了根据本公开实施例的神经网络模型的训练装置的结构框图;以及
图8示意性示出了根据本公开实施例的适于实现使用神经网络模型来生成问答对的方法和/或神经网络模型的训练方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
本公开的实施例提供了一种使用神经网络模型来生成问答对的方法和装置,神经网络模型包括第一网络模型和第二网络模型,方法包括:将第一目标文本数据输入至第一网络模型,得到与第一目标文本数据对应的答案抽取结果;将第二目标文本数据和答案抽取结果输入至第二网络模型,得到与第二目标文本数据对应的问题结果;以及基于答案抽取结果和问题结果,生成问答对。
图1示意性示出了根据本公开实施例的使用神经网络模型来生成问答对的方法、神经网络模型的训练方法、装置、设备、介质和程序产品的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的使用神经网络模型来生成问答对的方法和/或神经网络模型的训练方法一般可以由服务器105执行。相应地,本公开实施例所提供的使用神经网络模型来生成问答对的装置和/或神经网络模型的训练装置一般可以设置于服务器105中。本公开实施例所提供的使用神经网络模型来生成问答对的方法和/或神经网络模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的使用神经网络模型来生成问答对的装置和/或神经网络模型的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2对公开实施例的使用神经网络模型来生成问答对的方法进行详细描述。
图2示意性示出了根据本公开实施例的使用神经网络模型来生成问答对的方法的流程图。
如图2所示,该实施例包括操作S210~操作S230,该使用神经网络模型来生成问答对的方法可以通过服务器执行,神经网络模型包括第一网络模型和第二网络模型。
在操作S210,将第一目标文本数据输入至第一网络模型,得到与第一目标文本数据对应的答案抽取结果。
在操作S220,将第二目标文本数据和答案抽取结果输入至第二网络模型,得到与第二目标文本数据对应的问题结果。
在操作S230,基于答案抽取结果和问题结果,生成问答对。
第一目标文本数据、第二目标文本数据,可以包括公文语料库中的文本数据,可以包括经过预处理的文本数据,预处理可以包括数据清洗数量、数据去重处理等。
第一网络模型、第二网络模型,可以包括采用机器学习算法训练待训练的神经网络模型。
与在文本数据中直接提取问答对(问题,答案)不同的是,本实施例提供的使用神经网络模型来生成问答对的方法,将提取问答对的过程分为多阶段进行。经过反复分析实践发现:问答对中的答案部分是通过从文本数据中的正文原文中抽取得到的,问答对中的问题部分可以是通过从文本数据中的正文原文中抽取得到的,也可以从答案中抽取得到,即问题与原文和答案均有关系。因此,本实施例提供的使用神经网络模型来生成问答对的方法,将提取问答对的过程分为三个阶段进行,如第一阶段,文本数据→答案、第二阶段,(文本数据,答案)→问题以及第三阶段,(答案抽取结果,问题结果)→问答对。
与根据关键词定位答案范围不同的是,本实施例提供的使用神经网络模型来生成问答对的方法,可以利用第一网络模型直接得到与第一目标文本数据对应的答案抽取结果。可见,该抽取答案的过程,无需人为给定关键词,并且避免了依赖关键词的词性,导致只能抽取到某方面的答案,从而不再限制知识库构建的范围。
本实施例提供的使用神经网络模型来生成问答对的方法,通过将第二目标文本数据和答案抽取结果输入至第二网络模型,得到与第二目标文本数据对应的问题结果,解决了问题的相关关键词在答案内容之外的情况,例如在公文处理中,问题的相关关键词可以在文章的标题中。如果只在答案中生成问题,则容易引发错误的生成结果;因此,将第二目标文本数据和答案抽取结果作为网络模型的输入数据,避免生成错误的问题生成结果;且不再限制知识库构建的范围。
本实施例提供的使用神经网络模型来生成问答对的方法,将提取问答对的过程分为多阶段进行,将答案生成和问题生成解耦;通过将第一目标文本数据输入至第一网络模型,得到与第一目标文本数据对应的答案抽取结果;将第二目标文本数据和答案抽取结果输入至第二网络模型,得到与第二目标文本数据对应的问题结果;以及基于答案抽取结果和问题结果,生成问答对;能够避免答案的生成过程依赖关键词的词性,导致只能抽取到某方面的答案,从而不再限制知识库构建的范围;将第二目标文本数据和答案抽取结果作为网络模型的输入数据,避免生成错误的问题生成结果;同时,利用网络模型的方式提升问答对的提取效率,提取的问答对更加完备。
第一目标文本数据,和/或,第二目标文本数据是通过以下方式得到的:获取文本数据;其中,文本数据包括标准文档的文本数据;获取标准文档的相关信息,相关信息包括:标准文档以及与标准文档对应的格式信息;基于标准文档的相关信息对文本数据进行文本分解处理,得到与文本数据对应的文本分解处理结果;以及基于与文本数据对应的文本分解处理结果,得到第一目标文本数据和第二目标文本数据中的一种或多种;其中,文本分解处理包括正则法。
标准文档可以是国家标准委员会或行业标准委员会这类标准委员会发布的标准文档或者规章制度类公文这类标准文档。与标准文档对应的格式信息可以包括标准文档的格式要求的相关信息,标准文档有固定的格式要求,如术语信息和术语的解释信息,在目次章节会有术语这一章,对于一些专有名词即术语有标准定义;如封面要求信息,如一级标题要求信息、二级标题要求信息、页面设置的要求信息以及页眉页脚的要求信息等,具体地可以包括字体要求、段落要求、以及制表位的相关要求等。
举例来说,以规章制度类公文这类标准文档为例,包括公文标题、目录、正文以及附件等。如获取公文语料,即文本数据,从而在该公文语料中得到第一目标文本数据、和第二目标文本数据中的一种或多种。获取标准文档的相关信息,可以理解的,公文语料按照固定格式撰写,如规章制度类公文,包括公文标题、目录、正文以及附件等,正文内容包括一级标题(如第一章XXX)、二级标题(如第一条XXX)、以及条目具体的内容;基于标准文档的相关信息对文本数据进行文本分解处理,从而基于与文本数据对应的文本分解处理结果得到第一目标文本数据和第二目标文本数据中的一种或多种。
例如采用正则法分解正文内容,将正文内容表述为树状结构,如表1所示:
表1分解处理对比表
Figure BDA0003576521800000081
Figure BDA0003576521800000091
本实施例提供的使用神经网络模型来生成问答对的方法,通过标准文档的相关信息对文本数据进行文本分解处理,利用正则匹配,得到第一目标文本数据、和第二目标文本数据中的一种或多种;其中,标准文档有固定的格式要求,有利于更为智能的进行文本分解处理;同时正则法相比于分析器来说具有更强的捕获字符串的能力,可以快速且灵活的得到第一目标文本数据、和第二目标文本数据中的一种或多种;。
第一网络模型包括语言表征模型,第二网络模型包括序列到序列模型。
语言表征模型,可以包括BERT模型,即Bidirectional Encoder Representationfrom Transformers模型。BERT通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,可以直接使用Bert的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。Bert最大的特点是抛弃了传统的RNN和CNN,通过Attention机制将任意位置的两个单词的距离转换成1,有效的解决了NLP中棘手的长期依赖问题。
图3示意性示出了根据本公开一实施例的利用语言表征模型抽取答案的流程图,参见图3。将文本数据310进行处理得到句子sen1320、sen2 321和senn 322;将句子sen1320、sen2 321和senn 322输入语言表征模型中转换成vec向量,得到Vec1 340、Vec2 341和Vecn 342;基于Vec1 340、Vec2 341和Vecn 342,进行多标签分类350处理,得到答案抽取结果360。
举例来说,首先对正文文本分割成句子sen输入到bert模型中,转换成vec向量。为了方便模型batch训练,可以对输入文本进行填充(padding)操作,将文本padding成m*n个code,其中m为句子统一长度,n为文章统一句子个数。通过bert模型后,转换成756*n个句向量。假设要识别文本句子序列长度为n,可以假定每个待识别答案实体是该序列的一个连续片段,长度不限,并且可以相互嵌套(两个实体之间有交集),那么该序列有多少个“候选实体”呢?答案是n(n+1)/2个,即长度为n个句子的序列有n(n+1)/2个不同的连续子序列,这些子序列包含了所有可能的答案,进而从这n(n+1)/2个“候选答案”里边挑出真正的答案组合,处理“n(n+1)/2选k”的多标签分类问题,k为答案个数,若sen3和sen4为答案句子,1所在的矩阵位置决定了答案的起始句子和结束句子,即得到答案抽取结果。
序列到序列模型,可以包括Seq2Seq模型,即Sequence-to-Sequence模型。举例来说,序列到序列模型包括语言表征模型和语言模型,即通过BERT(语言表征模型)+UniLM(语言模型,Unified Language Model Pre-training for Natural Language Understandingand Generaion)的方式来构建一个Seq2Seq(序列到序列模型)。
语言模型UniLM是一个多层Transformer网络,但是UniLM能够同时完成三种预训练目标,包括sequence-to-sequence训练方式,所以其在NLG任务上有很好的表现。
本实施例提供的使用神经网络模型来生成问答对的方法,第一网络模型包括语言表征模型,第二网络模型包括序列到序列模型,有利于在不同的训练阶段,得到答案抽取结果和问题结果,从而生成问答对。
序列到序列模型包括语言表征模型和语言模型。
语言表征模型,可以包括BERT模型,即Bidirectional Encoder Representationfrom Transformers模型。语言模型,可以包括UniLM模型,即Unified Language ModelPre-training for Natural Language Understanding and Generation)模型。
本实施例提供的使用神经网络模型来生成问答对的方法,通过语言表征模型和语言模型构建的序列到序列模型,能够快速准确的得到问题结果。
图4示意性示出了根据本公开实施例的神经网络模型的训练方法的流程图。
如图4所示,该实施例包括操作S410~操作S430,该神经网络模型的训练方法可以通过服务器执行。
在操作S410,基于语言表征模型和语言模型,构建待训练的神经网络模型。
在操作S420,解析文本数据,得到标题数据、与标题数据对应的正文数据和答案数据。
在操作S430,将标题数据、与标题数据对应的正文数据和答案数据作为样本输入数据,采用机器学习算法训练待训练的神经网络模型。
待训练的神经网络模型,可以包括Seq2Seq模型,即Sequence-to-Sequence模型。语言表征模型,可以包括BERT模型,即Bidirectional Encoder Representation fromTransformers模型。语言模型,Unified Language Model Pre-training for NaturalLanguage Understanding and Generation模型,语言模型UniLM是一个多层Transformer网络,但是UniLM能够同时完成三种预训练目标,包括sequence-to-sequence训练方式,所以其在NLG任务上有很好的表现。
由于文本数据是按照固定格式撰写的,因此,解析文本数据,可以得到标题数据、与标题数据对应的正文数据和答案数据。通过将标题数据、与标题数据对应的正文数据和答案数据作为样本输入数据,能够应对问题中的相关关键词出现在章节名或答案某句的两种情况,提供了丰富的提问方式,如在文本截取时,篇章为“章节名”+“章节首句”+“章节末句”,答案为“答案某句”。还可以采用设置阈值的方式,若问题相对较短小于阈值,则不作截取。进而,采用机器学习算法训练待训练的神经网络模型,在训练的过程中,当答案发送嵌套情况时,取文本最长的答案。
图5示意性示出了根据本公开实施例的序列到序列模型的执行示意图,参见图5。获取文本数据510,处理该文本数据510,如解析得到标题数据520、与标题数据对应的正文数据521和答案数据522;然后将标题数据520、与标题数据对应的正文数据521和答案数据522作为样本输入数据,输入至基于语言表征模型和语言模型,构建的待训练的神经网络模型,如序列到序列模型530,并采用机器学习算法训练序列到序列模型530,得到由序列到序列模型530输出的问题结果540。
本实施例提供的神经网络模型的训练方法,通过将标题数据、与标题数据对应的正文数据和答案数据作为样本输入数据,采用机器学习算法训练待训练的神经网络模型,有效解决了问题的相关关键词不在篇章内的情况,该神经网络模型能够利用标题数据、与标题数据对应的正文数据和答案数据共同生成问题,有利于实现如将第二目标文本数据和答案抽取结果输入至第二网络模型,得到与第二目标文本数据对应的问题结果。
答案数据包括答案抽取结果;答案抽取结果是通过以下操作得到的:将文本数据作为样本输入数据;以及根据样本输入数据,采用机器学习算法训练待训练的语言表征模型,得到与样本输入数据对应的答案抽取结果。
答案数据可以包括答案抽取结果。该答案抽取结果,可以利用训练好的语言表征模型得到,即该语言表征模型,是采用机器学习算法训练得到的,可以将文本数据作为样本输入数据,将与样本输入数据对应的答案抽取结果作为输出结果。
本实施例提供的神经网络模型的训练方法,有利于快速得到答案数据,即将答案抽取结果作为答案数据,该答案抽取结果,可以利用训练好的语言表征模型直接得到。
图6示意性示出了根据本公开实施例的使用神经网络模型来生成问答对的装置的结构框图。
如图6所示,该实施例的使用神经网络模型来生成问答对的装置600包括确定答案模块610、确定问题模块620和生成问答对模块630。
确定答案模块610,用于将第一目标文本数据输入至第一网络模型,得到与第一目标文本数据对应的答案抽取结果;确定问题模块620,用于将第二目标文本数据和答案抽取结果输入至第二网络模型,得到与第二目标文本数据对应的问题结果;以及生成问答对模块630,用于基于答案抽取结果和问题结果,生成问答对。
在一些实施例中,所述第一目标文本数据,和/或,所述第二目标文本数据是通过以下方式得到的:获取文本数据;其中,所述文本数据包括标准文档的文本数据;获取标准文档的相关信息,所述相关信息包括:标准文档以及与所述标准文档对应的格式信息;基于所述标准文档的相关信息对所述文本数据进行文本分解处理,得到与所述文本数据对应的文本分解处理结果;以及基于与所述文本数据对应的文本分解处理结果,得到所述第一目标文本数据和所述第二目标文本数据中的一种或多种;其中,所述文本分解处理包括正则法。
在一些实施例中,所述第一网络模型包括语言表征模型,所述第二网络模型包括序列到序列模型。
在一些实施例中,所述序列到序列模型包括语言表征模型和语言模型。
根据本公开的实施例,确定答案模块610、确定问题模块620和生成问答对模块630中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,确定答案模块610、确定问题模块620和生成问答对模块630中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,确定答案模块610、确定问题模块620和生成问答对模块630中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图7示意性示出了根据本公开实施例的神经网络模型的训练装置的结构框图。
如图7所示,该实施例的神经网络模型的训练装置700包括构建模块710、解析模块720和训练模块730。
构建模块710,用于基于语言表征模型和语言模型,构建待训练的神经网络模型;解析模块720,用于解析文本数据,得到标题数据、与所述标题数据对应的正文数据和答案数据;以及训练模块730,用于将所述标题数据、与所述标题数据对应的正文数据和答案数据作为样本输入数据,采用机器学习算法训练所述待训练的神经网络模型。
在一些实施例中,所述答案数据包括答案抽取结果;所述答案抽取结果是通过以下操作得到的:将所述文本数据作为样本输入数据;以及根据所述样本输入数据,采用机器学习算法训练待训练的语言表征模型,得到与所述样本输入数据对应的答案抽取结果。
根据本公开的实施例,构建模块710、解析模块720和训练模块730中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,构建模块710、解析模块720和训练模块730中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,构建模块710、解析模块720和训练模块730中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的适于实现使用神经网络模型来生成问答对的方法和/或神经网络模型的训练方法的电子设备的方框图。
如图8示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机***中运行时,该程序代码用于使计算机***实现本公开实施例所提供的使用神经网络模型来生成问答对的方法和神经网络模型的训练方法。
在该计算机程序被处理器801执行时执行本公开实施例的***/装置中限定的上述功能。根据本公开的实施例,上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分809被下载和安装,和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的***中限定的上述功能。根据本公开的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (11)

1.一种使用神经网络模型来生成问答对的方法,所述神经网络模型包括第一网络模型和第二网络模型,所述方法包括:
将第一目标文本数据输入至所述第一网络模型,得到与所述第一目标文本数据对应的答案抽取结果;
将第二目标文本数据和所述答案抽取结果输入至所述第二网络模型,得到与所述第二目标文本数据对应的问题结果;以及
基于所述答案抽取结果和所述问题结果,生成问答对。
2.根据权利要求1所述的方法,其中,所述第一目标文本数据,和/或,所述第二目标文本数据是通过以下方式得到的:
获取文本数据;其中,所述文本数据包括标准文档的文本数据;
获取标准文档的相关信息,所述相关信息包括:标准文档以及与所述标准文档对应的格式信息;
基于所述标准文档的相关信息对所述文本数据进行文本分解处理,得到与所述文本数据对应的文本分解处理结果;以及
基于与所述文本数据对应的文本分解处理结果,得到所述第一目标文本数据和所述第二目标文本数据中的一种或多种;
其中,所述文本分解处理包括正则法。
3.根据权利要求1或2所述的方法,其中,所述第一网络模型包括语言表征模型,所述第二网络模型包括序列到序列模型。
4.根据权利要求3所述的方法,其中,所述序列到序列模型包括语言表征模型和语言模型。
5.一种神经网络模型的训练方法,包括:
基于语言表征模型和语言模型,构建待训练的神经网络模型;
解析文本数据,得到标题数据、与所述标题数据对应的正文数据和答案数据;以及
将所述标题数据、与所述标题数据对应的正文数据和答案数据作为样本输入数据,采用机器学习算法训练所述待训练的神经网络模型。
6.根据权利要求5所述的方法,其中,所述答案数据包括答案抽取结果;所述答案抽取结果是通过以下操作得到的:
将所述文本数据作为样本输入数据;以及
根据所述样本输入数据,采用机器学习算法训练待训练的语言表征模型,得到与所述样本输入数据对应的答案抽取结果。
7.一种使用神经网络模型来生成问答对的装置,所述神经网络模型包括第一网络模型和第二网络模型,所述装置包括:
确定答案模块,用于将第一目标文本数据输入至所述第一网络模型,得到与所述第一目标文本数据对应的答案抽取结果;
确定问题模块,用于将第二目标文本数据和所述答案抽取结果输入至所述第二网络模型,得到与所述第二目标文本数据对应的问题结果;以及
生成问答对模块,用于基于所述答案抽取结果和所述问题结果,生成问答对。
8.一种神经网络模型的训练装置,包括:
构建模块,用于基于语言表征模型和语言模型,构建待训练的神经网络模型;
解析模块,用于解析文本数据,得到标题数据、与所述标题数据对应的正文数据和答案数据;以及
训练模块,用于将所述标题数据、与所述标题数据对应的正文数据和答案数据作为样本输入数据,采用机器学习算法训练所述待训练的神经网络模型。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~6中任一项所述的方法。
CN202210352786.8A 2022-03-31 2022-03-31 生成问答对的方法、神经网络模型的训练方法和装置 Pending CN114691850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210352786.8A CN114691850A (zh) 2022-03-31 2022-03-31 生成问答对的方法、神经网络模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210352786.8A CN114691850A (zh) 2022-03-31 2022-03-31 生成问答对的方法、神经网络模型的训练方法和装置

Publications (1)

Publication Number Publication Date
CN114691850A true CN114691850A (zh) 2022-07-01

Family

ID=82142373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210352786.8A Pending CN114691850A (zh) 2022-03-31 2022-03-31 生成问答对的方法、神经网络模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN114691850A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080722A (zh) * 2022-08-19 2022-09-20 科大讯飞股份有限公司 问题生成方法、问题生成设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080722A (zh) * 2022-08-19 2022-09-20 科大讯飞股份有限公司 问题生成方法、问题生成设备及存储介质
CN115080722B (zh) * 2022-08-19 2023-02-17 科大讯飞股份有限公司 问题生成方法、问题生成设备及存储介质

Similar Documents

Publication Publication Date Title
US11151177B2 (en) Search method and apparatus based on artificial intelligence
US20210232761A1 (en) Methods and systems for improving machine learning performance
US11062089B2 (en) Method and apparatus for generating information
US11232140B2 (en) Method and apparatus for processing information
US11651236B2 (en) Method for question-and-answer service, question-and-answer service system and storage medium
US20210081611A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN106874467B (zh) 用于提供搜索结果的方法和装置
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN111428010B (zh) 人机智能问答的方法和装置
US20220027569A1 (en) Method for semantic retrieval, device and storage medium
US20190251087A1 (en) Method and apparatus for providing aggregate result of question-and-answer information
US9619209B1 (en) Dynamic source code generation
US20170220327A1 (en) Dynamic source code generation
US11651015B2 (en) Method and apparatus for presenting information
CN108268450B (zh) 用于生成信息的方法和装置
CN112214601A (zh) 一种社交短文本情感分类方法、装置及存储介质
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN110738056B (zh) 用于生成信息的方法和装置
CN109325197B (zh) 用于提取信息的方法和装置
CN107766498B (zh) 用于生成信息的方法和装置
CN116955561A (zh) 问答方法、装置、电子设备以及存储介质
US20190139432A1 (en) Methods and systems for animated walkthroughs in an online educational platform
CN114691850A (zh) 生成问答对的方法、神经网络模型的训练方法和装置
CN113360660A (zh) 文本类别识别方法、装置、电子设备和存储介质
CN111126073B (zh) 语义检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination