CN111611808A - 用于生成自然语言模型的方法和装置 - Google Patents

用于生成自然语言模型的方法和装置 Download PDF

Info

Publication number
CN111611808A
CN111611808A CN202010440926.8A CN202010440926A CN111611808A CN 111611808 A CN111611808 A CN 111611808A CN 202010440926 A CN202010440926 A CN 202010440926A CN 111611808 A CN111611808 A CN 111611808A
Authority
CN
China
Prior art keywords
text
model
natural language
teacher
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010440926.8A
Other languages
English (en)
Other versions
CN111611808B (zh
Inventor
何烩烩
王乐义
安思宇
刘明浩
郭江亮
李旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010440926.8A priority Critical patent/CN111611808B/zh
Publication of CN111611808A publication Critical patent/CN111611808A/zh
Application granted granted Critical
Publication of CN111611808B publication Critical patent/CN111611808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了用于生成自然语言模型的方法和装置,涉及人工智能技术领域。具体实现方案为:基于目标任务,确定教师任务,其中,目标任务用于预测文本与细粒度分类结果的对应关系,教师任务用于预测文本与粗粒度分类结果的对应关系;构建自然语言模型,其中,自然语言模型包括用于训练目标任务的目标任务模型和用于训练教师任务的教师任务模型;利用预设的文本训练样本集合训练自然语言模型,以使目标任务模型和教师任务模型交互学习,其中,文本训练样本包括标注有细粒度分类结果的文本样本。该实现方式使得训练得到自然语言模型的对细粒度分类结果预测更加准确,提高了生成的自然语言模型的预测性能。

Description

用于生成自然语言模型的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及人工智能技术领域。
背景技术
随着人工智能技术(Artificial Intelligence,AI)和互联网技术的飞速发展,面对快速增长的海量文本信息,如何有效地对文本进行分类是后续查找内容、提取信息价值的重要前提。
相关技术中,可以采用训练好的自然语言模型来预测文本的分类。作为示例,在法律领域,可以采用预先训练的自然语言模型对法律案情描述进行分类,从而得到法律案情描述相应的法律类型和/或法律条款。因此,如何训练得到可对文本准确分类的自然语言模型是当前亟需解决的问题。
发明内容
提供了一种用于生成自然语言模型的方法、装置、设备以及存储介质。
根据第一方面,提供了一种用于生成自然语言模型的方法,该方法包括:基于目标任务,确定教师任务,其中,目标任务用于预测文本与细粒度分类结果的对应关系,教师任务用于预测文本与粗粒度分类结果的对应关系;构建自然语言模型,其中,自然语言模型用于预测输入文本与细粒度分类结果的对应关系,自然语言模型包括用于训练目标任务的目标任务模型和用于训练教师任务的教师任务模型;利用预设的文本训练样本集合训练自然语言模型,以使目标任务模型和教师任务模型交互学习,其中,文本训练样本包括标注有细粒度分类结果的文本样本。
根据第二方面,提供了一种用于生成自然语言模型的装置,该装置包括:确定单元,被配置成基于目标任务,确定教师任务,其中,目标任务用于预测文本与细粒度分类结果的对应关系,教师任务用于预测文本与粗粒度分类结果的对应关系;构建单元,被配置成构建自然语言模型,其中,自然语言模型用于预测输入文本与细粒度分类结果的对应关系,自然语言模型包括用于训练目标任务的目标任务模型和用于训练教师任务的教师任务模型;训练单元,被配置成利用预设的文本训练样本集合训练自然语言模型,以使目标任务模型和教师任务模型交互学习,其中,文本训练样本包括标注有细粒度分类结果的文本样本。
第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述方法。
根据本申请的技术解决了现有的模型训练方法训练得到自然语言模型的分类效果差的问题,提高了训练得到的自然语言模型分类结果预测的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请的用于生成自然语言模型的方法的第一实施例的示意图;
图2是根据本申请的用于生成自然语言模型的方法的第二实施例的示意图;
图3是根据第二实施例中的自然语言模型的结构的示意图;
图4是基于长短期记忆网络构建第二实施例中的自然语言模型得到的结构示意图;
图5是根据本申请的用于生成自然语言模型的装置的实施例的示意图;
图6是用来实现本申请实施例的用于生成自然语言模型的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
请参考图1,其示出了根据本申请的用于生成自然语言模型的方法的第一实施例的示意图。该用于生成自然语言模型的方法,可以包括以下步骤:
步骤101,基于目标任务,确定教师任务。
在本实施例中,用于生成自然语言模型的方法的执行主体可以为用于生成自然语言模型的装置,该用于生成自然语言模型的装置可以为一个电子实体(例如服务器),或者也可以为采用软件集成的应用程序。使用时,可以利用该用于生成自然语言模型的装置可以确定教师任务,构建自然语言模型,并进行模型训练。该用于生成自然语言模型的装置可以采用本实施例的用于生成自然语言模型的方法,训练得到自然语言模型。
在本实施例中,目标任务可以表征训练自然语言模型的目的。上述执行主体(例如,服务器)可以首先确定出目标任务,而后对目标任务进行层次分析,从而确定出教师任务。其中,目标任务可以用于预测文本的细粒度分类结果,教师任务可以用于预测文本的粗粒度分类结果。作为示例,上述目标任务可以用于预测文本细粒度的情感分类结果,教师任务可以用于预测文本粗粒度的情感分类结果,例如,细粒度的情感分类结果可以为大怒,粗粒度的情感分类结果可以为生气。
可以理解的是,对于确定的目标任务,在对该目标任务进行模型训练之前可以对该目标任务进行层次结构分析。如果确定出该目标任务预测的分类结果可以分为至少两个层次,则可以对所确定的层次进行提取,构建出分类结果粒度大于目标任务分类结果粒度的教师任务。该教师任务可以辅助目标任务的训练。本实施例公开的方案可以适用于所有目标任务的预测分类结果可层次划分的模型训练。
在本实施例的一些可选的实现方式中,本实施例提供的方案可以应用在法律领域,上述目标任务可以用于预测法律案情描述与法律条文的对应关系。上述教师任务可以用于预测法律案情描述与法律类型的关系。法律条文粒度预测的任务可以分为法律类型粒度预测和法律条文粒度预测两个层次,且与法律类型粒度相比,法律条文粒度更细,因此,在确定目标任务是用于预测细粒度法律分类结果,所确定出的教师任务可以是用于预测粗粒度法律分类结果。例如,上述法律条文可以为《中华人民共和国治安管理处罚法》第七十条、《中华人民共和国刑法》第十条等,法律类型可以为《中华人民共和国治安管理处罚法》、《中华人民共和国刑法》等。该实现方式可以基于法律条文预测的细粒度法律分类任务,确定出法律类型预测的粗粒度法律分类任务,上述执行主体通过交互训练教师任务和目标任务,可以提高训练得到的自然语言模型预测法律条文分类结果的准确性。
步骤102,构建自然语言模型。
在本实施例中,基于步骤101确定的教师任务,上述执行主体可以采用各种方式构建自然语言模型,该自然语言模型可以用于预测输入文本与细分类结果的对应关系。需要说明的是,上述自然语言模型可以包括用于目标任务模型和教师任务模型,其中,目标任务模型可以用于训练上述目标任务,教师任务模型可以用于训练上述教师任务。因此,上述目标任务模型可以用于预测文本的细粒度分类结果,上述教师任务可以预测文本的粗粒度分类结果。作为示例,上述执行主体可以采用循环神经网络构建自然语言模型,即采用循环神经网络构建教师任务模型和目标任务模型。
步骤103,利用预设的文本训练样本集合训练自然语言模型,以使目标任务模型和教师任务模型交互学习。
在本实施例中,可以预先设置用于训练自然语言模型的文本训练样本集合。该文本训练样本集合可以包括多个文本训练样本,各文本训练样本可以包括标注有细粒度分类结果的文本样本。可以理解的是,文本训练样本中的文本样本标注有细粒度分类结果,明显地,文本训练样本中的文本样本也标注有粗粒度分类结果。因此,对于同一文本训练样本集合既可以用于训练目标任务模型,也可以用于训练教师任务模型,无需单独为教师任务模型构建训练样本集合,提高了文本训练样本集合的利用率。
作为示例,文本训练样本中的文本样本可以为“在我县某镇某村委会中节村张某开设的麻将室内,包某和陈某、陈某、包某四人利用麻将进行赌博,采取现金结账,后被我派出所民警查获”,文本样本的标注(细粒度的法律条文)可以为“《中华人民共和国治安管理处罚法》第七十条、《中华人民共和国治安管理处罚法》第十一条”。明显地,该示例中,文本样本也标注(粗粒度的法律类型)有“《中华人民共和国治安管理处罚法》”。从而使得同于文本训练样本可以同时用于训练教师任务模型和目标任务模型。
在本实施例中,基于步骤102构建的自然语言模型,上述执行主体可以利用上述文本训练样本集合训练自然语言模型,从而使得自然语言模型中的目标任务模型和教师任务模型可以交互学习。具体地,上述执行主体可以将文本训练样本中的文本样本的向量化结果作为上述自然语言模型的输入,将文本样本的标注作为期望输出训练上述自然语言模型。需要说明的是,在自然语言模型训练的过程中,教师任务模型的输出可以用于训练目标任务模型,目标任务模型的输出也可以用于训练教师任务,从而实现教师任务模型与目标任务模型的交互学习。
本实施例提供的方案中,自然语言模型在训练过程中,教师任务模型和目标任务模型的学习是交互的。相关技术中,模型的联合学习通常是单向学习,如自然语言模型先进行教师任务模型的学习,而后将学习结果提供给目标任务模型进行学习。与现有的单向学习相比,本实施例提供的教师任务模型与目标任务模型的交互学习,可以充分利用文本训练样本,实现了知识的交互与更新,从而可以提高训练得到的自然语言模型的性能。
本申请的上述实施例提供的用于生成自然语言模型的方法,基于目标任务,可以确定教师任务,而后构建包括用于训练目标任务的目标任务模型和用于训练教师任务的教师任务模型的自然语言模型,最后可以利用预设的文本训练样本集合训练自然语言模型,以使目标任务模型和教师任务模型可以交互学习,从而使得训练得到自然语言模型的对细粒度分类结果预测更加准确,提高了生成的自然语言模型的预测性能。
接下来请继续参考图2,图2是根据本申请的用于生成自然语言模型的方法的第二实施例的示意图。该用于生成自然语言模型的方法,可以包括以下步骤:
步骤201,基于目标任务,确定教师任务。
步骤202,构建自然语言模型。
在本实施例中,上述步骤201~步骤202所公开的内容与上述实施例中的步骤101~步骤102公开的内容相同或相似,这里不再赘述。
步骤203,针对文本训练样本集合中的文本训练样本,执行迭代操作。
在本实施例中,基于步骤202构建的包含用于训练目标任务的目标任务模型和用于训练教师任务的教师任务模型的自然语言模型,在自然语言模型的训练过程中,可以通过迭代执行如下步骤2031~步骤2032实现教师任务模型和目标任务模型的交互学习。
在本实施例的一些可选的实现方式中,在对自然语言模型训练之前,可以利用预先训练的向量转换模型对文本训练样本中的文本样本进行向量转化,得到文本样本的样本向量。作为示例,上述向量转化模型可以为ERNIE模型(Enhanced Representation fromkNowledge IntEgration,知识增强语义表示模型),该ERNIE模型可以将输入的文本转换为向量,且ERNIE模型在处理中文时具有明显的优势。或者,上述向量转换模型还可以为BERT模型(Bidirectional Encoder Representations from Transformers,通用训练语言表示模型),这里没有唯一的限定。可选的,在自然语言模型训练的过程中还可以并行对上述向量转换模型进行训练,从而进一步提高向量转换模型的向量转换效果。可以理解的是,上述执行主体还可以采用one-hot编码等方式将文本样本向量化,对于样本文本向量化转换的方式这里也没有唯一的限定。该实现方式公开的利用预先训练的向量转换模型对文本训练样本中的文本样本进行向量转化,可以提高向量转化的效率和效果。
步骤2031,在教师任务模型中输入上一次迭代操作中目标任务模型的输出和该文本训练样本中文本样本的样本向量。
在本实施例中,在任意一次迭代操作中,上述执行主体可以将上一次迭代操作中目标任务模型的输出和文本训练样本中文本样本的样本向量输入教师任务模型来训练教师任务模型。
步骤2032,将本次迭代操作中教师任务模型的输出和该文本训练样本中文本样本的样本向量输入目标任务模型。
在本实施例中,基于步骤2031可以得到教师任务模型的输出,上述执行主体可以将得到的教师任务模型的输出和训练样本中的文本样本的样本向量输入目标任务模型来训练目标任务模型。因此,上述执行主体不仅可以利用文本训练样本训练目标任务模型,还可以利用教师任务模型来指导目标任务模型的训练。在多次执行步骤2031~步骤2032的迭代操作之后,可以提高训练得到的目标任务模型的性能,即可以提高训练得到的自然语言模型的性能。
在本实施例中,自然语言模型的结构可以如图3所示,图3示出了第二实施例中的自然语言模型的结构示意图。在图3中,虚线所形成的圈可以表示一次迭代操作,在每次迭代操作中教师任务模型和目标任务模型之间可以交互学习。需要说明的是,在每次迭代操作教师任务模型和目标任务模型交互学习的过程中,文本训练样本的样本向量同时也作为输入,训练教师任务模型和目标任务模型。具体地,对于自然语言模型中的教师任务模型和目标任务模型,在每次按照图3中箭头进行迭代操作的过程中,文本训练样本中文本样本的样本向量和对方的输出均可以作为自身的输入来进行自身模型训练。
步骤204,基于预设的联合损失函数和文本训练样本的细粒度分类结果,得到自然语言模型。
在本实施例中,上述执行主体在每次迭代操作完成之后,可以依据自然语言模型的输出结果和文本训练样本标注的细粒度分类结果,对预设联合损失函数进行计算得到联合损失函数值,如果所得到的联合损失函数值小于设定值,则可以结束迭代操作,得到训练完成的自然语言模型。
当然,如果所得到的联合损失函数值大于或等于设定值,则可以基于反向传播算法更新教师任务模型和目标任务模型中的参数,继续执行迭代操作来对自然语言模型进行训练。
可以理解的是,上述执行主体可以预先为教师任务模型和学生任务模型构建损失函数,而后为每个损失函数赋予特定的损失权重因子,将赋予损失权重因子后的各损失函数进行联合可以得到自然语言模型的联合损失函数。因此,在自然语言模型训练的过程中,可以采用例如交叉熵法分别计算教师任务模型的损失函数值和目标任务模型的损失函数值,而后将得到教师任务模型的损失函数值和目标任务模型的损失函数值代入联合损失函数中,即可以得到联合损失函数值。
在本实施例的一些可选的实现方式中,上述执行主体可以采用长短期记忆网络(Long Short-Term Memory,LSTM)来构建上述目标任务模型和教师任务模型。如图4所示,图4示出了基于长短期记忆网络构建本实施例中的自然语言模型得到的结构示意图。在图4中,第一LSTM可以为构建教师任务模型的长短期记忆网络,第二LSTM可以为构建目标任务模型的长短期记忆网络。在本实现方式中,采用长短期记忆网络来构建自然语言模型,使得长短期记忆网络可以通过输入门、输出门和遗忘门三个门控单元对进入其中的信息进行判断,将符合规则的信息留下,不符合规则的信息遗忘,从而可以解决神经网络中长序列依赖的问题,更适用于自然语言处理技术领域。
在本实现方式中,针对文本训练样本集合中的文本训练样本,上述执行主体可以执行如下迭代操作:在教师任务模型的长短期记忆网络中输入上一次迭代操作中目标任务模型的长短期记忆网络的隐藏状态输出和该文本训练样本中文本样本的样本向量;将本次迭代操作中教师任务的长短期记忆网络的隐藏状态输出和该文本训练样本中文本样本的样本向量输入目标任务模型的长短期记忆网络。
具体地,对于教师任务模型的第一LSTM,可以通过以下公式得到该第一LSTM的隐藏状态输出:
Figure BDA0002504112240000091
Figure BDA0002504112240000092
Figure BDA0002504112240000093
Figure BDA0002504112240000094
Figure BDA0002504112240000095
Figure BDA0002504112240000096
其中,e表示当前迭代操作,e-1表示上一轮迭代操作。
Figure BDA0002504112240000097
Figure BDA0002504112240000098
表示目标任务模型在上一轮迭代操作中的隐藏状态,
Figure BDA0002504112240000099
Figure BDA00025041122400000910
表示当前迭代操作中教师任务模型的隐藏状态。
Figure BDA00025041122400000911
分别为第一LSTM中的输入门it、遗忘门ft、输出门ot的参数。
进一步地,对于目标任务模型的第二LSTM,可以通过以下公式得到该第二LSTM的隐藏状态输出:
Figure BDA00025041122400000912
Figure BDA00025041122400000913
Figure BDA00025041122400000914
Figure BDA00025041122400000915
Figure BDA00025041122400000916
Figure BDA00025041122400000917
其中,
Figure BDA00025041122400000918
Figure BDA00025041122400000919
表示当前迭代操作中教师任务模型的隐藏状态,
Figure BDA00025041122400000920
Figure BDA00025041122400000921
表示当前迭代操作中目标任务模型的隐藏状态。
Figure BDA00025041122400000922
分别为第二LSTM的输入门is、遗忘门fs、输出门os的参数。
通过上述公式可以看出,在每次迭代操作中,可以采用当前迭代操作中教师任务模型的隐藏状态
Figure BDA00025041122400000923
Figure BDA00025041122400000924
初始化目标任务模型的第二LSTM,采用当前迭代操作中目标任务模型的隐藏状态
Figure BDA00025041122400000925
Figure BDA00025041122400000926
初始化下一轮迭代中的教师任务模型的第一LSTM,从而实现了教师任务模型与目标任务模型的交互学习。
在本实现方式中,上述执行主体在多次执行迭代操作之后,可以基于预设的联合损失函数和文本训练样本标注的细粒度分类结果,得到训练完成的自然语言模型。
从图3中可以看出,与图1对应的实施例相比,本实施例中的用于生成自然语言模型的方法可以采用迭代操作,在教师任务模型中输入上一次迭代操作中目标任务模型的输出和该文本训练样本中文本样本的样本向量,并将本次迭代操作中教师任务模型的输出和该文本训练样本中文本样本的样本向量输入目标任务模型,在迭代操作之后采用预设的联合损失函数和文本训练样本标注的细粒度分类结果可以得到训练完成的自然语言模型,在本实施例公开的方案中,自然语言模型在训练的过程中不仅使得教师任务模型和目标任务模型各自的输出作为对方的输入进行交互学习,同时还输入文本样本的样本向量,最后还采用教师任务模型和目标任务模型的联合损失函数对教师任务模型和目标任务模型进行同时训练,从而使得教师任务模型和目标任务模型的训练可以相辅相成,进一步提高了训练得到的自然语言模型的性能。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于生成自然语言模型的装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于生成自然语言模型的装置500包括:确定单元501、构建单元502、训练单元503。其中,确定单元501被配置成基于目标任务,确定教师任务,其中,目标任务用于预测文本与细粒度分类结果的对应关系,教师任务用于预测文本与粗粒度分类结果的对应关系;构建单元502被配置成构建自然语言模型,其中,自然语言模型用于预测输入文本与细粒度分类结果的对应关系,自然语言模型包括用于训练目标任务的目标任务模型和用于训练教师任务的教师任务模型;训练单元503被配置成利用预设的文本训练样本集合训练自然语言模型,以使目标任务模型和教师任务模型交互学习,其中,文本训练样本包括标注有细粒度分类结果的文本样本。
在本实施例的一些可选的实现方式中,装置500还包括:输入单元,被配置成将文本训练样本中的文本样本输入预先训练的向量转换模型,得到文本样本的样本向量。
在本实施例的一些可选的实现方式中,训练单元503进一步被配置成:针对文本训练样本集合中的文本训练样本,执行迭代操作:在教师任务模型中输入上一次迭代操作中目标任务模型的输出和该文本训练样本中文本样本的样本向量;将本次迭代操作中教师任务模型的输出和该文本训练样本中文本样本的样本向量输入目标任务模型;基于预设的联合损失函数和文本训练样本标注的细粒度分类结果,得到自然语言模型。
在本实施例的一些可选的实现方式中,目标任务模型和教师任务模型为采用长短期基于网络构建的模型;训练单元503进一步被配置成:针对文本训练样本集合中的文本训练样本,执行迭代操作:在教师任务模型的长短期记忆网络中输入上一次迭代操作中目标任务模型的长短期记忆网络的隐藏状态输出和该文本训练样本中文本样本的样本向量;将本次迭代操作中教师任务的长短期记忆网络的隐藏状态输出和该文本训练样本中文本样本的样本向量输入目标任务模型的长短期记忆网络;基于预设的联合损失函数和文本训练样本标注的细粒度分类结果,得到自然语言模型。
在本实施例的一些可选的实现方式中,目标任务用于预测法律案情描述文本与法律条文之间的对应关系;教师任务用于预测法律案情描述文本与法律类型之间的对应关系。
装置500中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的用于生成自然语言模型的装置的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的用于生成自然语言模型的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于生成自然语言模型的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于生成自然语言模型的方法对应的程序指令/模块(例如,附图5所示的确定单元501、构建单元502、训练单元503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于生成自然语言模型的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据用于生成自然语言模型的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至用于生成自然语言模型的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于生成自然语言模型的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与用于生成自然语言模型的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,基于目标任务,可以确定教师任务,而后构建包括用于训练目标任务的目标任务模型和用于训练教师任务的教师任务模型的自然语言模型,最后可以利用预设的文本训练样本集合训练自然语言模型,以使目标任务模型和教师任务模型可以交互学习,从而使得训练得到自然语言模型的对细粒度分类结果预测更加准确,提高了生成的自然语言模型的预测性能。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (12)

1.一种用于生成自然语言模型的方法,包括:
基于目标任务,确定教师任务,其中,所述目标任务用于预测文本与细粒度分类结果的对应关系,所述教师任务用于预测文本与粗粒度分类结果的对应关系;
构建自然语言模型,其中,所述自然语言模型用于预测输入文本与细粒度分类结果的对应关系,所述自然语言模型包括用于训练所述目标任务的目标任务模型和用于训练所述教师任务的教师任务模型;
利用预设的文本训练样本集合训练所述自然语言模型,以使所述目标任务模型和教师任务模型交互学习,其中,文本训练样本包括标注有细粒度分类结果的文本样本。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将所述文本训练样本中的文本样本输入预先训练的向量转换模型,得到所述文本样本的样本向量。
3.根据权利要求1或2所述的方法,其中,所述利用预设的文本训练样本集合训练所述自然语言模型,以使所述目标任务模型和教师任务模型交互学习,包括:
针对所述文本训练样本集合中的文本训练样本,执行迭代操作:在所述教师任务模型中输入上一次迭代操作中所述目标任务模型的输出和该文本训练样本中文本样本的样本向量;将本次迭代操作中所述教师任务模型的输出和该文本训练样本中文本样本的样本向量输入所述目标任务模型;
基于预设的联合损失函数和所述文本训练样本标注的细粒度分类结果,得到所述自然语言模型。
4.根据权利要求1所述的方法,其中,所述目标任务模型和教师任务模型为采用长短期基于网络构建的模型;
所述利用预设的文本训练样本集合训练所述自然语言模型,以使所述目标任务模型和教师任务模型交互学习,包括:
针对所述文本训练样本集合中的文本训练样本,执行迭代操作:在所述教师任务模型的长短期记忆网络中输入上一次迭代操作中所述目标任务模型的长短期记忆网络的隐藏状态输出和该文本训练样本中文本样本的样本向量;将本次迭代操作中所述教师任务的长短期记忆网络的隐藏状态输出和该文本训练样本中文本样本的样本向量输入所述目标任务模型的长短期记忆网络;
基于预设的联合损失函数和所述文本训练样本标注的细粒度分类结果,得到所述自然语言模型。
5.根据权利要求1所述的方法,其中,所述目标任务用于预测法律案情描述文本与法律条文之间的对应关系;
所述教师任务用于预测法律案情描述文本与法律类型之间的对应关系。
6.一种用于生成自然语言模型的装置,包括:
确定单元,被配置成基于目标任务,确定教师任务,其中,所述目标任务用于预测文本与细粒度分类结果的对应关系,所述教师任务用于预测文本与粗粒度分类结果的对应关系;
构建单元,被配置成构建自然语言模型,其中,所述自然语言模型用于预测输入文本与细粒度分类结果的对应关系,所述自然语言模型包括用于训练所述目标任务的目标任务模型和用于训练所述教师任务的教师任务模型;
训练单元,被配置成利用预设的文本训练样本集合训练所述自然语言模型,以使所述目标任务模型和教师任务模型交互学习,其中,文本训练样本包括标注有细粒度分类结果的文本样本。
7.根据权利要求6所述的装置,其中,所述装置还包括:
输入单元,被配置成将所述文本训练样本中的文本样本输入预先训练的向量转换模型,得到所述文本样本的样本向量。
8.根据权利要求6或7所述的装置,其中,所述训练单元进一步被配置成:
针对所述文本训练样本集合中的文本训练样本,执行迭代操作:在所述教师任务模型中输入上一次迭代操作中所述目标任务模型的输出和该文本训练样本中文本样本的样本向量;将本次迭代操作中所述教师任务模型的输出和该文本训练样本中文本样本的样本向量输入所述目标任务模型;
基于预设的联合损失函数和所述文本训练样本标注的细粒度分类结果,得到所述自然语言模型。
9.根据权利要求6所述的装置,其中,所述目标任务模型和教师任务模型为采用长短期基于网络构建的模型;
所述训练单元进一步被配置成:
针对所述文本训练样本集合中的文本训练样本,执行迭代操作:在所述教师任务模型的长短期记忆网络中输入上一次迭代操作中所述目标任务模型的长短期记忆网络的隐藏状态输出和该文本训练样本中文本样本的样本向量;将本次迭代操作中所述教师任务的长短期记忆网络的隐藏状态输出和该文本训练样本中文本样本的样本向量输入所述目标任务模型的长短期记忆网络;
基于预设的联合损失函数和所述文本训练样本标注的细粒度分类结果,得到所述自然语言模型。
10.根据权利要求6所述的装置,其中,所述目标任务用于预测法律案情描述文本与法律条文之间的对应关系;
所述教师任务用于预测法律案情描述文本与法律类型之间的对应关系。
11.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
CN202010440926.8A 2020-05-22 2020-05-22 用于生成自然语言模型的方法和装置 Active CN111611808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010440926.8A CN111611808B (zh) 2020-05-22 2020-05-22 用于生成自然语言模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010440926.8A CN111611808B (zh) 2020-05-22 2020-05-22 用于生成自然语言模型的方法和装置

Publications (2)

Publication Number Publication Date
CN111611808A true CN111611808A (zh) 2020-09-01
CN111611808B CN111611808B (zh) 2023-08-01

Family

ID=72199601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010440926.8A Active CN111611808B (zh) 2020-05-22 2020-05-22 用于生成自然语言模型的方法和装置

Country Status (1)

Country Link
CN (1) CN111611808B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527127A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 输入法长句预测模型的训练方法、装置、电子设备及介质
CN112861548A (zh) * 2021-02-10 2021-05-28 百度在线网络技术(北京)有限公司 自然语言生成及模型的训练方法、装置、设备和存储介质
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126213A1 (en) * 2016-12-30 2018-07-05 Google Llc Multi-task learning using knowledge distillation
US20190236132A1 (en) * 2018-01-26 2019-08-01 Ge Inspection Technologies, Lp Generating natural language recommendations based on an industrial language model
CN110364144A (zh) * 2018-10-25 2019-10-22 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
CN110427484A (zh) * 2018-04-26 2019-11-08 上海意仕腾教育科技有限公司 一种基于深度学习的中文自然语言处理方法
CN110442871A (zh) * 2019-08-06 2019-11-12 北京百度网讯科技有限公司 文本信息处理方法、装置及设备
US20190354688A1 (en) * 2018-05-17 2019-11-21 Royal Bank Of Canada System and method for machine learning architecture with adversarial attack defence
CN110569350A (zh) * 2019-08-08 2019-12-13 河北省讯飞人工智能研究院 法条推荐方法、设备和存储介质
CN111079406A (zh) * 2019-12-13 2020-04-28 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及***
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN111179962A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 语音分离模型的训练方法、语音分离方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018126213A1 (en) * 2016-12-30 2018-07-05 Google Llc Multi-task learning using knowledge distillation
US20190236132A1 (en) * 2018-01-26 2019-08-01 Ge Inspection Technologies, Lp Generating natural language recommendations based on an industrial language model
CN110427484A (zh) * 2018-04-26 2019-11-08 上海意仕腾教育科技有限公司 一种基于深度学习的中文自然语言处理方法
US20190354688A1 (en) * 2018-05-17 2019-11-21 Royal Bank Of Canada System and method for machine learning architecture with adversarial attack defence
CN110364144A (zh) * 2018-10-25 2019-10-22 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
CN110442871A (zh) * 2019-08-06 2019-11-12 北京百度网讯科技有限公司 文本信息处理方法、装置及设备
CN110569350A (zh) * 2019-08-08 2019-12-13 河北省讯飞人工智能研究院 法条推荐方法、设备和存储介质
CN111079406A (zh) * 2019-12-13 2020-04-28 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及***
CN111179962A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 语音分离模型的训练方法、语音分离方法及装置
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
AI科技大本营: "让学生网络相互学习,为什么深度相互学习优于传统蒸馏模型", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1526631》 *
AI科技大本营: "让学生网络相互学习,为什么深度相互学习优于传统蒸馏模型", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1526631》, 24 October 2019 (2019-10-24), pages 1 - 6 *
JEREMY H. M. WONG: "Learning Between Different Teacher and Student Models in ASR", 《IEEE》 *
刘娇;李艳玲;林民;: "人机对话***中意图识别方法综述", 计算机工程与应用, no. 12 *
周滋楷: "面向开放领域文本的实体关系抽取技术研究", 《中国优秀硕士学位论文全文数据库》 *
宋双永等: "面向智能客服***的情感分析技术", 《中文信息学报》 *
宋双永等: "面向智能客服***的情感分析技术", 《中文信息学报》, no. 02, 15 February 2020 (2020-02-15) *
李昊泽;: "基于深度学习的自然语言推理模型研究", 信息与电脑(理论版), no. 09 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527127A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 输入法长句预测模型的训练方法、装置、电子设备及介质
CN112861548A (zh) * 2021-02-10 2021-05-28 百度在线网络技术(北京)有限公司 自然语言生成及模型的训练方法、装置、设备和存储介质
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN111611808B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
JP7250052B2 (ja) 自然言語及び知識グラフに基づく表現学習方法及び装置
KR102532396B1 (ko) 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
CN111079442B (zh) 文档的向量化表示方法、装置和计算机设备
US20220019736A1 (en) Method and apparatus for training natural language processing model, device and storage medium
CN111539514A (zh) 用于生成神经网络的结构的方法和装置
CN111061868B (zh) 读法预测模型获取及读法预测方法、装置及存储介质
JP7149993B2 (ja) 感情分析モデルの事前トレーニング方法、装置及び電子機器
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
JP2021119381A (ja) 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
CN111737995A (zh) 基于多种词向量训练语言模型的方法、装置、设备及介质
JP2021190124A (ja) 言語モデルに基づいて単語ベクトルを取得する方法、装置、デバイス及び記憶媒体
CN111611808B (zh) 用于生成自然语言模型的方法和装置
CN111079945B (zh) 端到端模型的训练方法及装置
KR102630243B1 (ko) 구두점 예측 방법 및 장치
CN110807331B (zh) 一种多音字读音预测方法、装置和电子设备
CN111259671A (zh) 文本实体的语义描述处理方法、装置及设备
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
CN111667056A (zh) 用于搜索模型结构的方法和装置
CN111326251A (zh) 一种问诊问题输出方法、装置以及电子设备
CN111738015B (zh) 文章情感极性分析方法、装置、电子设备及存储介质
CN111539209A (zh) 用于实体分类的方法和装置
CN112417156A (zh) 多任务学习方法、装置、设备以及存储介质
CN112329453A (zh) 样本章节的生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant