CN112668671A - 预训练模型的获取方法和装置 - Google Patents

预训练模型的获取方法和装置 Download PDF

Info

Publication number
CN112668671A
CN112668671A CN202110274515.0A CN202110274515A CN112668671A CN 112668671 A CN112668671 A CN 112668671A CN 202110274515 A CN202110274515 A CN 202110274515A CN 112668671 A CN112668671 A CN 112668671A
Authority
CN
China
Prior art keywords
corpus
modal
training
text
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110274515.0A
Other languages
English (en)
Other versions
CN112668671B (zh
Inventor
牛国成
李伟
高参
肖欣延
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110274515.0A priority Critical patent/CN112668671B/zh
Publication of CN112668671A publication Critical patent/CN112668671A/zh
Priority to EP21197865.5A priority patent/EP4060565A1/en
Priority to US17/502,108 priority patent/US20220292269A1/en
Application granted granted Critical
Publication of CN112668671B publication Critical patent/CN112668671B/zh
Priority to KR1020220004125A priority patent/KR20220128935A/ko
Priority to JP2022020375A priority patent/JP2022141587A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Image Analysis (AREA)

Abstract

本公开公开了一种预训练模型的获取方法和装置,涉及人工智能技术领域中的自然语言处理和深度学习技术。具体实现方案为:获取训练数据,所述训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对;利用所述训练数据对预训练模型进行多任务训练,所述多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;本公开得到的预训练语言模型可以从不同形式的语料即包括单模语料、多模语料中学习,使得预训练语言模型能够有效地处理各种不同模态的信息。

Description

预训练模型的获取方法和装置
技术领域
本公开涉及计算机应用技术领域,尤其涉及人工智能技术领域中的自然语言处理和深度学习技术。
背景技术
大规模的预训练模型由于其强大的泛化能力和对规模数据的高效利用而得到了广泛关注。显然现有的预训练方法大多仅用于单模态场景,例如仅仅针对图像,或者仅仅针对文本。
然而,人类通过多种方式感知世界,例如视觉、语言、声音等等。多种模态的信息结合能够更好地进行信息理解,因此一个优秀的人工智能***应该能够有效地处理各种不同模态的信息。
发明内容
本公开提供了一种跨模态的预训练模型的获取方法、装置、设备、计算机存储介质和程序产品。
根据本公开的第一方面,提供了一种预训练模型的获取方法,包括:
获取训练数据,所述训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对;
利用所述训练数据对预训练模型进行多任务训练,所述多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;
其中所述跨模态对比学习任务包括:利用所述预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示,确定所述多模语料中第一模态语料和第二模态语料之间的相似度;训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度,最小化负例多模语料中第一模态语料和第二模态语料之间的相似度;
所述单模学习任务包括:利用所述预训练模型对单模语料中第一部分内容的向量表示,预测该单模语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。
根据本公开的第二方面,提供了一种预训练模型的获取装置,包括:
获取单元,用于获取训练数据,所述训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对;
训练单元,用于利用所述训练数据对预训练模型进行多任务训练,所述多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;
其中所述跨模态对比学习任务包括:利用所述预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示,确定所述多模语料中第一模态语料和第二模态语料之间的相似度;训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度,最小化负例多模语料中第一模态语料和第二模态语料之间的相似度;
所述单模学习任务包括:利用所述预训练模型对单模语料中第一部分内容的向量表示,预测该单模语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。
根据本公开的第三方面,本公开提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本公开的第四方面,本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本公开的第五方面,本公开提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据如上所述的方法。
由以上技术方案可以看出,本公开得到的预训练语言模型可以从不同形式的语料即包括单模语料、多模语料中学习,使得预训练语言模型能够有效地处理各种不同模态的信息。并且,在学习过程中不同模态语料之间互相增强,使得得到的预训练语言模型具有更好地语义理解能力和可泛化的表示。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的主要方法流程图;
图2是根据本公开实施例提供的训练预训练语言模型的示意图;
图3为本公开实施例提供的一个场景图示意图;
图4为本公开实施例提供的预训练模型的获取装置的结构示意图;
图5是用来实现本公开实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在现有的预训练模型中,大多仅能够处理单模数据,例如,BERT(BidirectionalEncoder Representation from Transformers,来自转换器的双向编码表示)模型仅能够学习并处理文本数据。SimCLR(Simple Framework for Contrastive Learning of VisualRepresentations,视觉表征对比学习的建议框架)模型仅能够学习并处理图像数据。VilBERT(Vision-and-Language BERT,视觉-语言BERT)模型虽然能够学习并处理图文对(即图像和文本构成的语料对),但对于单纯图像或文本数据则处理能力很差。本公开则提供了一种能够实现跨模态数据学习的预训练模型的获取方法,充分利用多种模态的信息使得预训练模型能够将各种模态的数据映射到同一的语义表示空间。下面结合实施例对本公开提供的方法进行详细描述。
图1为本公开实施例提供的主要方法流程图,该方法的执行主体可以是服务器端的装置,也可以是计算机终端中的装置。该装置可以体现为应用,也可以体现为应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本公开实施例对此不加以特别限定。如图1中所示,该方法可以包括以下步骤:
在101中,获取训练数据,训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对。
本公开涉及的单模语料指的是单一模态的语料,例如图像、文本、视频或音频等模态的语料。在本公开中可以仅包含一种单模语料,也可以包括多于一种的单模语料。
多模语料指的是由两种模态的语料构成的语料对,例如图像和文本构成的语料对、图像和音频构成的语料对、文本和视频构成的语料对,等等。
作为一种优选的实施方式,在多模语料中可以包括正例多模语料和负例多模语料,其中正例多模语料所包含的第一模态语料和第二模态语料之间表达相同语义,而负例多模语料所包含的第一模态语料和第二模态语料之间表达不同语义。
在102中,利用训练数据对预训练模型进行多任务训练,多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;
其中跨模态对比学习任务包括:利用预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示,确定多模语料中第一模态语料和第二模态语料之间的相似度;训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度,最小化负例多模语料中第一模态语料和第二模态语料之间的相似度;
单模学习任务包括:利用预训练模型对单模语料中第一部分内容的向量表示,预测该单模语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。
本公开中预训练语言模型可以使用多层Transformer作为主模型,如图2中所示,将训练数据作为预训练语言模型的输入,由预训练语言模型将训练数据中的语料均映射至统一的向量空间,即输出每个语料(包括单模语料的各语料以及多模语料中的各第一模态语料和第二模态语料)的向量表示。
更具体地,对于其中一个语料而言,将该语料所包含的各Token(语义元素)输入预训练语言模型,由预训练语言模型输出各Token的向量表示。其中对于文本类语料而言,各Token可以是文本包含的各字符,也可以是各词语等。对于图像类语料而言,各Token可以是图像包含的各目标区域或者各像素等。对于视频类语料而言,可以分解为各帧图像,各Token可以是各帧图像或者关键帧的图像等。对于音频类语料而言,各Token可以是各音频帧、音频段,也可以是根据音频的频率、强度等得到的各帧频谱图。
在预训练语言模型的训练过程中,使用多任务训练。其中跨模态对比学习任务主要是利用多模语料进行训练,单模学习任务是利用单模语料进行训练。多任务可以进行联合训练,也可以交替训练,或者也可以分别依次进行训练。
为了更好地对本公开进行理解,下面以单模语料为图像、文本,多模语料为图-文对为例,对上述方法中的各步骤进行详细描述。
首先结合实施例对上述步骤101即“获取训练数据”进行详细描述。
在网络中大量存在不同模态的数据,主要是文本信息和视觉信息,文本知识和视觉知识通常是相辅相成的。在人类大脑中负责视觉的部分也可以学习和处理其他模态的信息,包括触觉和声音。统一不同模态的数据最大的挑战是将其统一到相同的语义空间,这些语义空间可以概括为不同的数据模式。因此,在本步骤中获取的训练数据包括多种模态的数据,体现为多模语料和单模语料。
其中,多模语料来自于网络上在语义上成对(pair)出现的数据。以图-文对为例。可以预先从网络中爬取图-文对构成图-文对数据库,本步骤中可以直接从该图-文对数据库中获取多模语料。至于如何从网络中爬取图-文对可以采用已有技术来实现。例如,可以从网络上爬取图像,然后从图像的上下文本中提取该图像的描述文本,然后由该图像和描述文本构成图-文对。再例如,可以从网络上爬取图像,然后人工标注描述文本,由该图像和描述人文构成图-文对。等等。
除了pair形态的多模语料之外,在网络上存在着更大规模的非pair形态的单模语料,例如单纯的文本语料、图像语料等。可以从网络上爬取这些单模语料后,经过筛选构成文本数据库、图像数据库等单模语料库。本步骤中可以直接从单模语料库中获取单模语料,例如获取文本语料和图像语料。
更进一步地,对于训练数据中从多模语料数据库中获取的多模语料可以进行正例和/或负例的扩展,采用的扩展方式可以包括改写扩展和检索扩展中的至少一种;然后将得到的多模语料添加至训练数据中。由于在后续的跨模态对比学习过程中,正例多模语料和负例多模语料的质量对预训练模型最终的效果有着重要影响,因此为了得到高质量的正例多模语料和负例多模语料,以及融合更多的单模语料来帮助学习,可以采用以下扩展方式中的至少一种:
第一种扩展方式:改写扩展。
对于正例多模语料的扩展可以包括:若正例多模语料中的第一模态语料为第一语种的文本,则利用翻译模型将该第一语种的文本翻译为第二语种的文本后再翻译回第一语种,将翻译后得到的第一语种的文本与该正例多模语料中的第二模态语料构建新的正例多模语料。
上述针对正例多模语料的扩展主要是基于回译(back translation)。例如,某正例多模语料由图像1和文本1构成的图-文对。假设文本1为中文,则可以将中文采用机器翻译模型翻译为英文和法文等,再将得到的英文和法文等文本翻译回中文,得到文本2、文本3等。那么可以分别将图像1和文本2构成的图-文对、图像1和文本3构成的图-文对作为新的正例多模语料添加至训练数据,从而实现了对正例多模语料的扩展。这一扩展通常是基于句子级别的文本改写式扩展。
对于负例多模语料的扩展可以包括:将正例多模语料中的第一模态语料解析为场景图,随机替换掉场景图中的实体、属性和关系中的至少一种,将替换后得到的场景图转换回第一模态语料,将转换后得到的第一模态语料与该正例多模语料中的第二模态语料构建新的负例多模语料。
场景图是一种数据结构,包括三种节点:实体节点、属性节点和关系节点。实体节点对应于实体词、属性节点对应于属性词,关系节点对应于关系词。举个例子:对于正例图-文对中由图像1和文本1构成,文本1为“女人穿着蓝色的裙子”。其中“女人”和“裙子”是实体节点。“蓝色”为属性节点,体现了实体节点“裙子”的属性,“穿着”是关系节点,体现了实体节点“女人”和“裙子”之间的关系。其产生的场景图可以如图3中所示,图中圆形节点代表实体节点,方形节点代表关系节点,平行四边形节点代表属性节点。
将场景图中的实体、属性和关系节点中的至少一种进行替换,形成诸如:文本2“女人穿着红色的裙子”,文本3“女人穿着蓝色的裤子”,文本4“女人穿着红色的裤子”等。然后分别将图像1和文本2组成一个新的图-文对,将图像1和文本3组成一个新的图-文对,将图像1和文本4组成一个新的图-文对,这些新的文本对作为负例多模语料添加至训练数据中,从而实现了对负例多模语料的扩展。这一扩展主要是基于短语级别、词汇级别进行改写扩展。
第二种扩展方式:检索扩展。
将正例多模语料中的第一模态语料在第一模态语料库中进行检索,利用检索得到的语料与该正例多模语料中的第二模态语料构建新的正例多模语料。
例如由图像1和文本1构成的正例图-文对。
作为其中一种实现方式,可以利用文本1在文本数据库中进行检索,得到与文本1之间的相似度大于或等于预设相似度阈值的文本,将检索得到的文本分别与图像1组合得到新的正例图-文对。其中检索得到的文本可以看做图像1和文本1构成的正例图-文对的文本层面的背景知识,作为训练样本的补充。
在检索过程中确定文本之间的相似度时,可以采用多种相似度确定方式。例如基于BERT的强语义表示能力,确定各文本的向量表示,通过计算向量表示之间的相似度来作为文本之间的相似度。再例如,可以基于TF-IDF统计手段,分别确定各文本中的关键词(即TF-IDF大于或等于预设统计阈值的词语)得到各文本的词集合;基于词集合中各词语在各文本中的词频,得到各文本对应的词频向量;通过计算词频向量之间的相似度来作为对应文本之间的相似度。
作为另一种实现方式,可以利用图像1在图像文本库中进行搜索,得到与图像1之间的相似度大于或等于预设相似度阈值的图像,将检索得到的图像分别与文本1组合得到新的正例图-文对。其中检索得到的图像可以看做图像1和文本1构成的正例图-文对的图像层面的背景知识,作为训练样本的补充。
在检索过程中确定图像之间的相似度时,可以采用多种相似度确定方式。在此提供一种方式:可以采用目标检测工具分别对各图像进行检测,确定检测得到的各图像所包含的对象的重叠率来作为对应图像之间相似度的体现。例如,如果图像1包含对象“女人”、“花朵”、“绿草”和“太阳”,图像2包含“女人”、“花朵”、“彩虹”和“书包”,图像3包含“女人”、“花朵”和“绿草”,那么图像1与图像3之间对象的重叠率高于图像1与图像2之间对象的重叠率,也就是说,图像3相比较图像2而言与图像1更相似。
结合实施例对上述步骤102即“利用训练数据对预训练模型进行多任务训练,多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务”进行详细描述。
假设训练数据包括:图像、文本以及图-文对。
对于被表示为
Figure DEST_PATH_IMAGE001
的文本,被拆分为各Token构成序列作为预训练语言模型的输入, 表示为{[CLS],
Figure 989671DEST_PATH_IMAGE002
,[SEP]}。其中,特殊符号[CLS]和[SEP]分别表示序列的起始 位置和结束位置,
Figure DEST_PATH_IMAGE003
为正整数。经过预训练语言模型的多层注意力机制后,得到各Token对 应的语义表示,体现为向量表示的序列{
Figure 472605DEST_PATH_IMAGE004
}。
对于被表示为
Figure DEST_PATH_IMAGE005
的图像,可以通过目标检测工具检测出图像所包含的对象区域, 将各对象区域的特征作为各Token连同整个图像的特征构成序列作为预训练语言模型的输 入,表示为{[Image],
Figure 7491DEST_PATH_IMAGE006
},
Figure DEST_PATH_IMAGE007
为正整数。其中[Image]表示整个图像的特征。上述特 征可以是对应图像或区域经过线性变换或神经网络变换得到的特征。经过预训练语言模型 的多层注意力机制后,得到各Token对应的语义表示,体现为向量表示的序列{
Figure 183257DEST_PATH_IMAGE008
}。
对于被表示为(
Figure 639647DEST_PATH_IMAGE005
,
Figure 660692DEST_PATH_IMAGE001
)的图-文对,将
Figure 270926DEST_PATH_IMAGE005
Figure 86435DEST_PATH_IMAGE001
的各Token拼接起来构成序列作为预 训练语言模型的输入,表示为
{[Image],
Figure DEST_PATH_IMAGE009
,[CLS],
Figure 561279DEST_PATH_IMAGE010
,[SEP]}
经过预训练语言模型的多层注意力机制后,得到各Token对应的语义表示,体现为向量表示的序列:
{
Figure DEST_PATH_IMAGE011
,
Figure 651594DEST_PATH_IMAGE012
}
对于被表示为(
Figure 364335DEST_PATH_IMAGE005
,
Figure 85167DEST_PATH_IMAGE001
)的图-文对,还可以分别将
Figure 516148DEST_PATH_IMAGE005
Figure 613417DEST_PATH_IMAGE001
的序列作为输入,由预训 练语言模型分别得到
Figure 649506DEST_PATH_IMAGE005
的向量表示和
Figure 337977DEST_PATH_IMAGE001
的向量表示。
在跨模态对比学习任务中,主要思想是使得含义相同的图-文对即正例图-文对在语义空间上更加接近,含义不同的图-文对即负例图-文对在语义空间上距离更远。即训练目标为最大化正例图-文对中图像和文本之间的相似度,最小化负例图-文对中图像和文本之间的相似度。
作为一种优选的实施方式,可以对改写扩展方式和检索扩展方式得到的图-文对在计算相似度的方式上进行区分。
其中,对于改写扩展得到的图-文对中图像和文本之间的相似度采用如下方式确定:将图像和文本进行拼接,将预训练模型对拼接后语料得到的向量表示映射为相似度取值。这种相似度计算方式被称为“单流式”。这种方式下,图像的序列和文本的序列是进行拼接后输入预训练模型的。预训练模型针对拼接后得到的序列得到整体的向量表示,经过对该向量表示进行映射(例如Softmax)后,得到相似度取值。
对于检索扩展得到的图-文对中图像和文本之间的相似度采用如下方式确定:将预训练模型对图像得到的向量表示和预训练模型对文本得到的向量表示进行相似度计算,例如计算两个向量表示之间的余弦相似度。这种相似度计算方式被称为“双塔式”。在这种方式下,图-文对中的图像的序列(由图像所包含各Token构成的序列)和文本的序列(由文本所包含各Token构成的序列)是分别输入预训练模型,由预训练模型分别得到图像的向量表示和文本的向量表示。
之所以对改写扩展方式和检索扩展方式得到的图-文对在计算相似度的方式上进行区分,是因为“单流式”的相似度计算方式是将图像和文本拼接后进行强相关的映射,这种方式更适用于进行“区分”,即区分出改写方式得到的图-文对和原始正例的图-文对。而检索扩展得到的图像或文本是作为原始图-文对的“背景知识”存在的正例图-文对。“双塔式”的相似度计算方式是将图像和文本分别进行编码后通过距离进行弱相关的计算,这种方式适用于更好地理解图像或文本的内容,因此检索扩展方式更适合于“双塔式”的相似度计算方式,其能够使得预训练模型能够更好地理解图像或文本的内容。
而训练数据中原始的图-文对则可以采用上述相似度计算方式中的任意一种。
如图2中所示,在跨模态对比学习任务中,可以根据上述两种相似度确定方式构造 损失函数。例如,可以采用如下损失函数
Figure DEST_PATH_IMAGE013
Figure 990675DEST_PATH_IMAGE014
其中,E是指取期望值的运算函数,
Figure DEST_PATH_IMAGE015
Figure 422793DEST_PATH_IMAGE016
表示通过改写扩展得到的正例图-文对 和负例图-文对,
Figure 844547DEST_PATH_IMAGE017
Figure 172760DEST_PATH_IMAGE018
表示通过检索扩展得到的正例图-文对和负例图-文对。
Figure 312755DEST_PATH_IMAGE019
表示相 似度函数。
Figure DEST_PATH_IMAGE020
表示训练数据集,在本损失函数中具体指图-文对语料的数据集。
Figure 548564DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
分别 表示正例图-文对中的文本和图像。
Figure 621562DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
分别表示既可以取自正例图-文对中的文本和 图像,也可以取自负例图-文对中的文本和图像。
如图2中所示,单模学习任务中包括视觉学习任务和文本学习任务。
视觉学习任务是针对图像进行的学习。在视觉学习任务中,采用类似掩码语言模型的方法。从图像中随机选取一部分区域进行掩码(Mask),利用预训练模型对未被Mask的区域的向量表示重建被Mask的区域,训练目标为最小化重建的区域与图像中被Mask的区域的差异。
例如,可以构建视觉学习任务的损失函数
Figure 651835DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
其中,
Figure 810284DEST_PATH_IMAGE027
为图像
Figure 53046DEST_PATH_IMAGE005
中被Mask的区域,
Figure DEST_PATH_IMAGE028
为图像
Figure 980551DEST_PATH_IMAGE005
中未被Mask的区域,
Figure 650567DEST_PATH_IMAGE029
为KL距离 (相对熵)函数,
Figure DEST_PATH_IMAGE030
表示训练数据集,在本损失函数中可以具体指图像语料的数据集,也可以 进一步包括图-文对语料的数据集中的图像。
类似地,对于图-文对,可以将图-文对中的图像进行一部分区域的Mask,利用预训练模型对文本的向量表示和对图像中未被Mask的区域的向量表示重建图像中被Mask的区域,训练目标为最小化重建的区域与图像中未被Mask的区域的差异。
此时,构建视觉学习任务的损失函数可以为:
Figure 561891DEST_PATH_IMAGE031
其中,图像
Figure 348625DEST_PATH_IMAGE001
和文本
Figure 865057DEST_PATH_IMAGE005
构成图-文对,
Figure 705974DEST_PATH_IMAGE020
表示训练数据集,在本损失函数中具体指 图-文对语料的数据集。
文本学习任务是针对文本进行的学习。在文本学习任务中,可以仍然采用类似掩码语言模型的方法。从单模语料的文本中随机选取一部分Token进行Mask,利用预训练模型对未被Mask的Token的向量表示还原被Mask的Token。训练目标定位最小化还原的Token与文本中被Mask的Token的差异。
其中上述还原可以采用预测模型实现,也可以采用生成模型实现。当采用预测模 型实现时,可以是双向预测模型,采用的损失函数
Figure DEST_PATH_IMAGE032
可以是:
Figure 839015DEST_PATH_IMAGE033
其中,
Figure DEST_PATH_IMAGE034
为文本
Figure 954738DEST_PATH_IMAGE001
中被Mask的Token,
Figure 325677DEST_PATH_IMAGE035
为文本
Figure 337495DEST_PATH_IMAGE001
中未被Mask的Token,
Figure DEST_PATH_IMAGE036
为似 然函数,
Figure 692253DEST_PATH_IMAGE020
表示训练数据集,在本损失函数中可以具体指文本语料的数据集,还可以进一步 包括图-文对语料的数据集中的文本。
当采用生成模型实现时,可以是序列生成模型。在采用序列生成模型时,需要从文 本
Figure 80509DEST_PATH_IMAGE001
中随机选择一部分连续的Token,记为
Figure 305954DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
,剩余的Token记为
Figure 19832DEST_PATH_IMAGE039
。这种情 况下,采用的损失函数
Figure DEST_PATH_IMAGE040
可以是:
Figure 861886DEST_PATH_IMAGE041
其中,
Figure 53833DEST_PATH_IMAGE020
表示训练数据集,在本损失函数中具体指文本语料的数据集,还可以进一 步包括图-文对语料的数据集中的文本。
类似地,在文本学习任务中也可以针对图-文对(
Figure 133785DEST_PATH_IMAGE005
,
Figure 752985DEST_PATH_IMAGE001
)中的文本
Figure 551177DEST_PATH_IMAGE001
进行学习,文 本中随机选取一部分Token进行Mask,利用预训练模型对未被Mask的Token的向量表示以及 图-文对中的图像
Figure 281235DEST_PATH_IMAGE001
的向量表示还原被Mask的Token。训练目标定位最小化还原的Token与 文本中被Mask的Token的差异。
同样地,上述还原可以采用预测模型实现,也可以采用生成模型实现。当采用预测 模型实现时,可以是双向预测模型,采用的损失函数
Figure DEST_PATH_IMAGE042
可以是:
Figure 950114DEST_PATH_IMAGE043
其中,
Figure 740215DEST_PATH_IMAGE020
表示训练数据集,在本损失函数中具体指图-文对语料的数据集。
当采用生成模型实现时,可以是序列生成模型。采用的损失函数
Figure DEST_PATH_IMAGE044
可以 是:
Figure 822441DEST_PATH_IMAGE045
其中,
Figure 90611DEST_PATH_IMAGE020
表示训练数据集,在本损失函数中具体指图-文对语料的数据集。
在进行上述多任务训练时,如图2中所示,可以采用联合训练的方式。作为一种优 选的实施方式,可以利用各任务的损失函数构建总损失函数,利用构建的总损失函数更新 预训练模型的参数。例如,可以构建总的损失函数
Figure DEST_PATH_IMAGE046
为:
Figure 879576DEST_PATH_IMAGE047
除了上述联合训练的方式之外,也可以采用交替训练的方式。例如,各训练任务依次交替训练,各训练任务在训练时采用各自的损失函数。
除了联合训练和交替训练的方式之外,也可以采用依次训练的方式。例如先对利用跨模态对比学习任务进行训练。训练结束后,在训练得到的预训练模型的基础上再进行视觉学习任务。训练结束后,在训练得到的预训练模型的基础上再进行文本学习任务,最终得到预训练模型。训练过程中各训练任务采用各自的损失函数。
在完成预训练模型的训练后,还可以挂接下游任务,并根据该下游任务对应的训练数据对预训练模型进行微调。其中下游任务可以是诸如:单模数据的分类任务、多模态的理解和生成任务、单模态数据的理解和生成任务,等等。例如,下游任务可以是文本分类任务、图像分类任务、针对图像生成问答的任务,针对文本生成图像的任务等等。
由以上描述可以看出,上述方法实施例可以具备以下优点:
1)本公开实施例得到的预训练语言模型可以从不同形式的语料即包括单模语料、多模语料中学习,使得预训练语言模型能够有效地处理各种不同模态的信息。
2)在学习过程中不同模态语料之间互相增强,使得得到的预训练语言模型具有更好的语义理解能力和可泛化的表示。这对于人工智能技术思路的革新是具有巨大创新意义的。
3)可以充分利用网络上大量的非配对文本语料库和图像集合,学习更多可概括的文本和视觉表征,提高视觉和语言理解和生成能力。
以上是对本公开所提供方法进行的详细描述,下面结合实施例对本公开提供的装置进行详细描述。
图4为本公开实施例提供的预训练模型的获取装置的结构示意图,如图4中所示,该装置400包括:获取单元401和训练单元402,还可以进一步包括扩展单元403。其中各组成单元的主要功能如下:
获取单元401,用于获取训练数据,训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对。
训练单元402,用于利用训练数据对预训练模型进行多任务训练,多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务。
其中跨模态对比学习任务包括:利用预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示,确定多模语料中第一模态语料和第二模态语料之间的相似度;训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度,最小化负例多模语料中第一模态语料和第二模态语料之间的相似度。
单模学习任务包括:利用预训练模型对单模语料中第一部分内容的向量表示,预测该单模语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。
扩展单元403,用于对训练数据中的多模语料进行改写扩展和检索扩展中的至少一种,将扩展得到的多模语料添加至训练数据中。
其中,上述检索扩展包括:将正例多模语料中的第一模态语料在第一模态语料库中进行检索,利用检索得到的语料与该正例多模语料中的第二模态语料构建新的正例多模语料。
上述改写扩展包括:若正例多模语料中的第一模态语料为第一语种的文本,则利用翻译模型将该第一语种的文本翻译为第二语种的文本后再翻译回第一语种,将翻译后得到的第一语种的文本与该正例多模语料中的第二模态语料构建新的正例多模语料;或者,
将正例多模语料中的第一模态语料解析为场景图,随机替换掉场景图中的实体、属性和关系中的至少一种,将替换后得到的场景图转换回第一模态语料,将转换后得到的第一模态语料与该正例多模语料中的第二模态语料构建新的负例多模语料。
作为一种可实现的方式,训练单元402在执行跨模态对比学习任务中,对于检索扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定:将预训练模型对第一模态语料得到的向量表示和预训练模型对第二模态语料得到的向量表示进行相似度计算;对于改写扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定:将第一模态语料和第二模态语料进行拼接,将预训练模型对拼接后语料得到的向量表示映射为相似度取值。
训练单元402,还用于在执行单模学习任务时,进一步利用预训练模型对多模语料中第一模态语料中第一部分内容的向量表示以及第二模态语料的向量表示,预测该第一模态语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该第一模态语料中第二部分内容的差异。
具体地,训练单元402可以在进行多任务训练时,利用构建的总损失函数更新预训练模型的参数。其中,总损失函数由至少一个跨模态对比学习任务的损失函数和至少一个单模学习任务的损失函数之和得到。
上述装置中各单元的具体处理方式可以参见前述方法实施例中的相关描述,在此不做赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图5所示,是根据本公开实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503 中的计算机程序,来执行各种适当的动作和处理。在 RAM 503 中,还可存储设备 500 操作所需的各种程序和数据。计算单元 501、ROM 502 以及 RAM 503 通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法 和处理,例如预训练模型的获取方法。例如,在一些实施例中,预训练模型的获取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。
在一些实施例中,计算机程序的部分或者全部可以经由 ROM 802 和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到 RAM 503并由计算单元501执行时,可以执行上文描述的预训练模型的获取方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行预训练模型的获取方法。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控30 制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设 备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM 或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (18)

1.一种预训练模型的获取方法,包括:
获取训练数据,所述训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对;
利用所述训练数据对预训练模型进行多任务训练,所述多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;
其中所述跨模态对比学习任务包括:利用所述预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示,确定所述多模语料中第一模态语料和第二模态语料之间的相似度;训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度,最小化负例多模语料中第一模态语料和第二模态语料之间的相似度;
所述单模学习任务包括:利用所述预训练模型对单模语料中第一部分内容的向量表示,预测该单模语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。
2.根据权利要求1所述的方法,其中,所述单模语料包括:图像和文本;所述多模语料包括图像-文本对。
3.根据权利要求1所述的方法,还包括:
对所述训练数据中的多模语料进行改写扩展和检索扩展中的至少一种,将扩展得到的多模语料添加至所述训练数据中。
4.根据权利要求3所述的方法,其中,所述改写扩展包括:
若正例多模语料中的第一模态语料为第一语种的文本,则利用翻译模型将该第一语种的文本翻译为第二语种的文本后再翻译回第一语种,将翻译后得到的第一语种的文本与该正例多模语料中的第二模态语料构建新的正例多模语料;或者,
将正例多模语料中的第一模态语料解析为场景图,随机替换掉所述场景图中的实体、属性和关系中的至少一种,将替换后得到的场景图转换回第一模态语料,将转换后得到的第一模态语料与该正例多模语料中的第二模态语料构建新的负例多模语料。
5.根据权利要求3所述的方法,其中,所述检索扩展包括:
将正例多模语料中的第一模态语料在第一模态语料库中进行检索,利用检索得到的语料与该正例多模语料中的第二模态语料构建新的正例多模语料。
6.根据权利要求3、4或5所述的方法,其中,在所述跨模态对比学习任务中,对于检索扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定:将所述预训练模型对第一模态语料得到的向量表示和所述预训练模型对第二模态语料得到的向量表示进行相似度计算;
对于改写扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定:将第一模态语料和第二模态语料进行拼接,将所述预训练模型对拼接后语料得到的向量表示映射为相似度取值。
7.根据权利要求1所述的方法,其中,所述单模学习任务还包括:
利用所述预训练模型对所述多模语料中第一模态语料中第一部分内容的向量表示以及第二模态语料的向量表示,预测该第一模态语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该第一模态语料中第二部分内容的差异。
8.根据权利要求1所述的方法,其中,在所述多任务训练时,利用构建的总损失函数更新所述预训练模型的参数;
所述总损失函数由所述至少一个跨模态对比学习任务的损失函数和所述至少一个单模学习任务的损失函数之和得到。
9.一种预训练模型的获取装置,包括:
获取单元,用于获取训练数据,所述训练数据包括单模语料和多模语料,其中多模语料包括第一模态语料和第二模态语料构成的语料对;
训练单元,用于利用所述训练数据对预训练模型进行多任务训练,所述多任务包括:至少一个跨模态对比学习任务和至少一个单模学习任务;
其中所述跨模态对比学习任务包括:利用所述预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示,确定所述多模语料中第一模态语料和第二模态语料之间的相似度;训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度,最小化负例多模语料中第一模态语料和第二模态语料之间的相似度;
所述单模学习任务包括:利用所述预训练模型对单模语料中第一部分内容的向量表示,预测该单模语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。
10.根据权利要求9所述的装置,其中,所述单模语料包括:图像和文本;所述多模语料包括图像-文本对。
11.根据权利要求9所述的装置,还包括:
扩展单元,用于对所述训练数据中的多模语料进行改写扩展和检索扩展中的至少一种,将扩展得到的多模语料添加至所述训练数据中。
12.根据权利要求11所述的装置,其中,所述扩展单元在执行所述改写扩展时,具体用于:
若正例多模语料中的第一模态语料为第一语种的文本,则利用翻译模型将该第一语种的文本翻译为第二语种的文本后再翻译回第一语种,将翻译后得到的第一语种的文本与该正例多模语料中的第二模态语料构建新的正例多模语料;或者,
将正例多模语料中的第一模态语料解析为场景图,随机替换掉所述场景图中的实体、属性和关系中的至少一种,将替换后得到的场景图转换回第一模态语料,将转换后得到的第一模态语料与该正例多模语料中的第二模态语料构建新的负例多模语料。
13.根据权利要求11所述的装置,其中,所述扩展单元在执行所述检索扩展时,具体用于:
将正例多模语料中的第一模态语料在第一模态语料库中进行检索,利用检索得到的语料与该正例多模语料中的第二模态语料构建新的正例多模语料。
14.根据权利要求11、12或13所述的装置,其中,所述训练单元在执行所述跨模态对比学习任务中,对于检索扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定:将所述预训练模型对第一模态语料得到的向量表示和所述预训练模型对第二模态语料得到的向量表示进行相似度计算;对于改写扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定:将第一模态语料和第二模态语料进行拼接,将所述预训练模型对拼接后语料得到的向量表示映射为相似度取值。
15.根据权利要求9所述的装置,其中,所述训练单元,还用于在执行所述单模学习任务时,进一步利用所述预训练模型对所述多模语料中第一模态语料中第一部分内容的向量表示以及第二模态语料的向量表示,预测该第一模态语料中第二部分内容;训练目标为最小化预测得到的第二部分内容与该第一模态语料中第二部分内容的差异。
16.根据权利要求9所述的装置,其中,所述训练单元,具体用于在进行所述多任务训练时,利用构建的总损失函数更新所述预训练模型的参数;
所述总损失函数由所述至少一个跨模态对比学习任务的损失函数和所述至少一个单模学习任务的损失函数之和得到。
17. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN202110274515.0A 2021-03-15 2021-03-15 预训练模型的获取方法和装置 Active CN112668671B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202110274515.0A CN112668671B (zh) 2021-03-15 2021-03-15 预训练模型的获取方法和装置
EP21197865.5A EP4060565A1 (en) 2021-03-15 2021-09-21 Method and apparatus for acquiring pre-trained model
US17/502,108 US20220292269A1 (en) 2021-03-15 2021-10-15 Method and apparatus for acquiring pre-trained model
KR1020220004125A KR20220128935A (ko) 2021-03-15 2022-01-11 사전 트레이닝 모델의 획득 방법 및 장치
JP2022020375A JP2022141587A (ja) 2021-03-15 2022-02-14 事前トレーニングモデルの取得方法、および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110274515.0A CN112668671B (zh) 2021-03-15 2021-03-15 预训练模型的获取方法和装置

Publications (2)

Publication Number Publication Date
CN112668671A true CN112668671A (zh) 2021-04-16
CN112668671B CN112668671B (zh) 2021-12-24

Family

ID=75399354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110274515.0A Active CN112668671B (zh) 2021-03-15 2021-03-15 预训练模型的获取方法和装置

Country Status (5)

Country Link
US (1) US20220292269A1 (zh)
EP (1) EP4060565A1 (zh)
JP (1) JP2022141587A (zh)
KR (1) KR20220128935A (zh)
CN (1) CN112668671B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139391A (zh) * 2021-04-26 2021-07-20 北京有竹居网络技术有限公司 翻译模型的训练方法、装置、设备和存储介质
CN113239162A (zh) * 2021-05-11 2021-08-10 山东新一代信息产业技术研究院有限公司 一种用于智能问答的文本嵌入式表达方法
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113435529A (zh) * 2021-07-06 2021-09-24 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113590865A (zh) * 2021-07-09 2021-11-02 北京百度网讯科技有限公司 图像搜索模型的训练方法及图像搜索方法
CN113641804A (zh) * 2021-07-19 2021-11-12 北京百度网讯科技有限公司 预训练模型获取方法、装置、电子设备及存储介质
CN113656613A (zh) * 2021-08-20 2021-11-16 北京百度网讯科技有限公司 训练图文检索模型的方法、多模态图像检索方法及装置
CN113722570A (zh) * 2021-08-13 2021-11-30 苏州浪潮智能科技有限公司 一种预训练语料库的构建方法、装置、设备及可读介质
EP3940580A1 (en) * 2020-07-14 2022-01-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Multi-modal pre-training model acquisition method and apparatus, electrnonic device and storage medium
CN114372414A (zh) * 2022-01-06 2022-04-19 腾讯科技(深圳)有限公司 多模态模型构建方法、装置和计算机设备
WO2022247562A1 (zh) * 2021-05-25 2022-12-01 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备
CN115829058A (zh) * 2022-12-23 2023-03-21 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN115906835A (zh) * 2022-11-23 2023-04-04 之江实验室 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN116229332A (zh) * 2023-05-06 2023-06-06 浪潮电子信息产业股份有限公司 一种视频预训练模型的训练方法、装置、设备及存储介质
CN116798427A (zh) * 2023-06-21 2023-09-22 支付宝(杭州)信息技术有限公司 基于多模态的人机交互方法及数字人***
CN114372414B (zh) * 2022-01-06 2024-07-09 腾讯科技(深圳)有限公司 多模态模型构建方法、装置和计算机设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11797611B2 (en) * 2021-07-07 2023-10-24 International Business Machines Corporation Non-factoid question answering across tasks and domains
CN115391588B (zh) * 2022-10-31 2023-02-10 阿里巴巴(中国)有限公司 视觉语言预训练模型的微调方法和图文检索方法
KR102549730B1 (ko) 2022-11-14 2023-06-30 주식회사 플랜티넷 객체 군집화 기반 문서 분류 방법 및 장치
KR102572549B1 (ko) 2022-11-15 2023-08-30 주식회사 플랜티넷 객체 선택 기반 문서 분류 방법 및 장치
CN115545572B (zh) * 2022-11-29 2023-03-21 支付宝(杭州)信息技术有限公司 一种业务风控的方法、装置、设备及存储介质
CN116306917B (zh) * 2023-05-17 2023-09-08 卡奥斯工业智能研究院(青岛)有限公司 任务处理方法、装置、设备和计算机存储介质
CN116386800B (zh) * 2023-06-06 2023-08-18 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和***
CN116758402B (zh) * 2023-08-16 2023-11-28 中国科学技术大学 图像人物关系识别方法、***、设备及存储介质
CN116932731B (zh) * 2023-09-18 2024-01-30 上海帜讯信息技术股份有限公司 面向5g消息的多模态知识问答方法及***
CN117876940B (zh) * 2024-03-11 2024-05-31 浪潮电子信息产业股份有限公司 视频语言任务执行及其模型训练方法、装置、设备、介质
CN117972141B (zh) * 2024-03-29 2024-06-18 中国科学技术大学 基于纯文本数据训练的图像理解方法、***、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521368A (zh) * 2011-12-16 2012-06-27 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN105740888A (zh) * 2016-01-26 2016-07-06 天津大学 一种用于零样本学习的联合嵌入模型
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108664999A (zh) * 2018-05-03 2018-10-16 北京图森未来科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
US20190370616A1 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
CN111507111A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN112257465A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10522186B2 (en) * 2017-07-28 2019-12-31 Adobe Inc. Apparatus, systems, and methods for integrating digital media content
US10614118B2 (en) * 2018-02-28 2020-04-07 Microsoft Technology Licensing, Llc Increasing inclusiveness of search result generation through tuned mapping of text and images into the same high-dimensional space
CN109902166A (zh) * 2019-03-12 2019-06-18 北京百度网讯科技有限公司 视觉问答模型、电子设备及存储介质
JP7434762B2 (ja) * 2019-09-10 2024-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
US11797530B1 (en) * 2020-06-15 2023-10-24 Amazon Technologies, Inc. Artificial intelligence system for translation-less similarity analysis in multi-language contexts
US11423072B1 (en) * 2020-07-31 2022-08-23 Amazon Technologies, Inc. Artificial intelligence system employing multimodal learning for analyzing entity record relationships
CN112257445B (zh) * 2020-10-19 2024-01-26 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN112464993B (zh) * 2020-11-05 2022-12-09 苏州浪潮智能科技有限公司 一种多模态模型训练方法、装置、设备及存储介质
US20220147838A1 (en) * 2020-11-09 2022-05-12 Adobe Inc. Self-supervised visual-relationship probing
US20220284321A1 (en) * 2021-03-03 2022-09-08 Adobe Inc. Visual-semantic representation learning via multi-modal contrastive training

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521368A (zh) * 2011-12-16 2012-06-27 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN105740888A (zh) * 2016-01-26 2016-07-06 天津大学 一种用于零样本学习的联合嵌入模型
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108664999A (zh) * 2018-05-03 2018-10-16 北京图森未来科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
US20190370616A1 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
CN111507111A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN112257465A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器之心PRO: "UNIMO:百度提出统一模态学习方法,同时解决单模与多模任务", 《HTTPS://MI.MBD.BAIDU.COM/R/MM08EPUMPM?F=CP&U=B7D196CBE6F85C6D》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928432B2 (en) 2020-07-14 2024-03-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Multi-modal pre-training model acquisition method, electronic device and storage medium
EP3940580A1 (en) * 2020-07-14 2022-01-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Multi-modal pre-training model acquisition method and apparatus, electrnonic device and storage medium
CN113139391A (zh) * 2021-04-26 2021-07-20 北京有竹居网络技术有限公司 翻译模型的训练方法、装置、设备和存储介质
CN113139391B (zh) * 2021-04-26 2023-06-06 北京有竹居网络技术有限公司 翻译模型的训练方法、装置、设备和存储介质
WO2022228041A1 (zh) * 2021-04-26 2022-11-03 北京有竹居网络技术有限公司 翻译模型的训练方法、装置、设备和存储介质
CN113239162A (zh) * 2021-05-11 2021-08-10 山东新一代信息产业技术研究院有限公司 一种用于智能问答的文本嵌入式表达方法
WO2022247562A1 (zh) * 2021-05-25 2022-12-01 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备
CN113435529A (zh) * 2021-07-06 2021-09-24 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113435529B (zh) * 2021-07-06 2023-11-07 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113590865A (zh) * 2021-07-09 2021-11-02 北京百度网讯科技有限公司 图像搜索模型的训练方法及图像搜索方法
JP2022137145A (ja) * 2021-07-12 2022-09-21 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチモーダルデータ連合学習モデルトレーニング方法及び装置
JP7429734B2 (ja) 2021-07-12 2024-02-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチモーダルデータ連合学習モデルトレーニング方法及び装置
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113641804A (zh) * 2021-07-19 2021-11-12 北京百度网讯科技有限公司 预训练模型获取方法、装置、电子设备及存储介质
CN113722570A (zh) * 2021-08-13 2021-11-30 苏州浪潮智能科技有限公司 一种预训练语料库的构建方法、装置、设备及可读介质
CN113722570B (zh) * 2021-08-13 2023-07-18 苏州浪潮智能科技有限公司 一种预训练语料库的构建方法、装置、设备及可读介质
CN113656613A (zh) * 2021-08-20 2021-11-16 北京百度网讯科技有限公司 训练图文检索模型的方法、多模态图像检索方法及装置
CN114372414A (zh) * 2022-01-06 2022-04-19 腾讯科技(深圳)有限公司 多模态模型构建方法、装置和计算机设备
CN114372414B (zh) * 2022-01-06 2024-07-09 腾讯科技(深圳)有限公司 多模态模型构建方法、装置和计算机设备
CN115906835A (zh) * 2022-11-23 2023-04-04 之江实验室 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN115906835B (zh) * 2022-11-23 2024-02-20 之江实验室 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN115829058A (zh) * 2022-12-23 2023-03-21 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN115829058B (zh) * 2022-12-23 2024-04-23 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN116229332A (zh) * 2023-05-06 2023-06-06 浪潮电子信息产业股份有限公司 一种视频预训练模型的训练方法、装置、设备及存储介质
CN116229332B (zh) * 2023-05-06 2023-08-04 浪潮电子信息产业股份有限公司 一种视频预训练模型的训练方法、装置、设备及存储介质
CN116798427A (zh) * 2023-06-21 2023-09-22 支付宝(杭州)信息技术有限公司 基于多模态的人机交互方法及数字人***

Also Published As

Publication number Publication date
CN112668671B (zh) 2021-12-24
EP4060565A1 (en) 2022-09-21
JP2022141587A (ja) 2022-09-29
US20220292269A1 (en) 2022-09-15
KR20220128935A (ko) 2022-09-22

Similar Documents

Publication Publication Date Title
CN112668671B (zh) 预训练模型的获取方法和装置
EP4024232A1 (en) Text processing model training method, and text processing method and apparatus
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
JP2023535709A (ja) 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN113806552B (zh) 信息提取方法、装置、电子设备和存储介质
WO2021082086A1 (zh) 机器阅读方法、***、装置及存储介质
CN115688920B (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN115640520B (zh) 跨语言跨模态模型的预训练方法、设备和存储介质
CN116681810B (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114782722A (zh) 图文相似度的确定方法、装置及电子设备
CN114120166A (zh) 视频问答方法、装置、电子设备及存储介质
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
CN115357710B (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及***
CN116414988A (zh) 基于依赖关系增强的图卷积方面级情感分类方法及***
CN116956869A (zh) 文本标准化方法、装置、电子设备及存储介质
CN114510942A (zh) 获取实体词的方法、模型的训练方法、装置及设备
CN114239583A (zh) 实体链指模型的训练及实体链指方法、装置、设备及介质
CN113792537A (zh) 一种动作生成方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant