CN113722570A - 一种预训练语料库的构建方法、装置、设备及可读介质 - Google Patents

一种预训练语料库的构建方法、装置、设备及可读介质 Download PDF

Info

Publication number
CN113722570A
CN113722570A CN202110932826.1A CN202110932826A CN113722570A CN 113722570 A CN113722570 A CN 113722570A CN 202110932826 A CN202110932826 A CN 202110932826A CN 113722570 A CN113722570 A CN 113722570A
Authority
CN
China
Prior art keywords
data set
scale
training corpus
quality data
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110932826.1A
Other languages
English (en)
Other versions
CN113722570B (zh
Inventor
于彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110932826.1A priority Critical patent/CN113722570B/zh
Publication of CN113722570A publication Critical patent/CN113722570A/zh
Application granted granted Critical
Publication of CN113722570B publication Critical patent/CN113722570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种预训练语料库的构建方法,包括:基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;基于每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算单个高质量数据集的权重;基于爬虫数据的权重对爬虫数据进行采样,基于单个高质量数据集的权重分别对单个高质量数据集进行采样,以得到预训练语料库。本发明还公开了一种预训练语料库的构建装置、计算机设备和可读存储介质。本发明对不同规模的预训练采用不同的采样方式,提高了预训练语料库的质量。

Description

一种预训练语料库的构建方法、装置、设备及可读介质
技术领域
本发明涉及预训练语言模型技术领域,尤其涉及一种预训练语料库的构建方法、装置、设备及可读介质。
背景技术
预训练语言模型在近几年已经成为了一个非常流行的研究方向。所谓预训练语言模型,需要利用大量在人们生活中出现过的文本来训练,使语言模型在这些文本中学习到每一个词或字出现的概率分布,从而建模出符合这些文本分布的模型。语言模型的语料的标签就是它的上下文,相对于标注过的语料,无标签语料的获取要容易得多。这就使得人们几乎可以无限制地利用无标签语料来训练语言模型,大规模的语料令预训练语言模型得以获得强大的学习能力,从而使之进一步在下游任务上展现出色的效果。预训练模型提供了更好的模型初始化,这通常会带来更好的泛化性能,加速对目标任务的收敛,并且预训练也可以看作是一种正则化,以避免小数据的过拟合。
对于大规模预训练模型来说,对预训练语料的准备和清理是很重要的一步。一般来说,数据分为两类:一类为一些公开发布的自然语言处理数据集,另一类为爬虫数据。公开发布的数据集通常都经历了清理,数据比较干净,基本可以确保数据的来源,如新闻、百科、书籍、档案、问答等,其中还有些人工标注的标签,我们称之为高质量数据集。但公开数据集存在的问题是,人工标签也限定了自然语言处理的问题空间,在一定程度上削弱了模型的泛化能力,此外,公开发布的数据集通常针对上述提到的某一领域,如果预训练语料集中在某一领域,同样也会影响模型在下游任务上的表现。而爬虫数据相比起已有的公开数据集就会凌乱一些,转码清理时需要注意数据源,以防止不适合拿来预训练的数据混入,其中的敏感词、乱码、表格等也需要额外的处理。如果用爬虫数据做预训练语料的话,预处理的工作量会大很多,并且处理后的数据质量往往也不如公开数据集。但爬虫数据集的优势是数据量会大得多,并且数据集的来源也更丰富。
当预训练语料准备好后,还有一个重要问题就是如何在语料库中采样,从而组成预训练的数据集和验证集。如果采用通常的随机采样得到数据集的话,数据集的构成比例几乎就是各个来源语料的大小比例。由于爬虫数据的数据量大,就会在训练集中占据比较大的比例;而质量相对更高的公开数据集占比就会比较低。根据以往的研究,采样的时候对某个语料多重复几次不会对预训练结果造成影响,但对于大规模的预训练模型而言,语料库还是尽可能大比较好,因为大规模更容易在较小规模的数据集上过拟合。
当前的大部分预训练模型,无论语料规模的大小,几乎都是在语料之间等比例随机采样,即不同语料来源的大小决定了他们在预训练数据集中占据的比例。即使某些方法中提到了非等比例采样,对于采样比例如何确定也没有给出明确的规则。
发明内容
现有技术由于爬虫数据的数据量远大于其他公开数据集且质量相对较低,等比例采样会降低训练集的质量,从而影响预训练效果。而且针对不同规模的预训练模型没有不同的数据采样方案。对于非等比例采样的方案没有给出明确的规则,后续工作不易参考。
随着预训练模型体量的增加,预训练语料的规模也随之增加,公开的高质量数据集无法满足预训练的需要。需要我们解决的问题包括:什么时候需要引入非高质量数据集;对于不同规模的模型与训练语料的组成有什么不同;在预训练语料中引入非高质量数据集时如何最大程度确保训练集、验证集合测试集的质量;提出可供后续工作参考的定量的采集方案。
有鉴于此,本发明实施例的目的在于提出一种预训练语料库的构建方法、装置、设备及可读介质,对不同规模的预训练采用不同的采样方式,控制了爬虫数据在预训练数据集中的占比,防止规模较小的数据来源被模型过度学习,提高预训练语料库的质量。
基于上述目的,本发明实施例的一方面提供了一种预训练语料库的构建方法,包括以下步骤:基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重;以及基于所述爬虫数据的权重对所述爬虫数据进行采样,基于所述单个高质量数据集的权重分别对所述单个高质量数据集进行采样,以得到预训练语料库。
在一些实施方式中,方法还包括:若是需要数据集规模为小规模数据集,则从高质量数据集中随机采样以得到预训练语料库。
在一些实施方式中,若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量包括:若是需要数据集规模为中规模数据集,则基于低预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;若是需要数据集规模为大规模数据集,则基于高预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量。
在一些实施方式中,基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重包括:判断是否存在所述单个高质量数据集的权重超过预设权重;若是存在所述单个高质量数据集的权重超过预设权重,则将所述单个高质量数据集的权重设置为所述预设权重的数值,并重新计算其他所述单个高质量数据集的权重。
在一些实施方式中,方法还包括:基于语言模型的参数量确定待构建预训练语料库的大小。
在一些实施方式中,基于语言模型的参数量确定待构建预训练语料库的大小包括:若是语言模型的参数量不超过1字节,则确认待构建预训练语料库的大小不超过100吉字节;若是语言模型的参数量不超过10字节且超过1字节,则确认待构建预训练语料库的大小不超过1000吉字节且超过100吉字节;若是语言模型的参数量不超过100字节且超过10字节,则确认待构建预训练语料库的大小超过1太字节。
在一些实施方式中,基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集包括:若是待构建预训练语料库的大小不超过100吉字节,则确认需要数据集规模为小规模数据集;若是待构建预训练语料库的大小不超过1000吉字节且超过100吉字节,则需要数据集规模不为小规模数据集且为中规模数据集;若是待构建预训练语料库的大小超过1太字节,则确认需要数据集规模不为小规模数据集且为大规模数据集。
本发明实施例的另一方面,还提供了一种预训练语料库的构建装置,包括:第一模块,配置用于基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;第二模块,配置用于若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;第三模块,配置用于基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重;以及第四模块,配置用于基于所述爬虫数据的权重对所述爬虫数据进行采样,基于所述单个高质量数据集的权重分别对所述单个高质量数据集进行采样,以得到预训练语料库。
本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述方法的步骤。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明至少具有以下有益技术效果:对不同规模的预训练采用不同的采样方式,控制了爬虫数据在预训练数据集中的占比,防止规模较小的数据来源被模型过度学习,提高了预训练语料库的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的预训练语料库的构建方法的实施例的示意图;
图2为本发明提供的预训练语料库的构建装置的实施例的示意图;
图3为本发明提供的计算机设备的实施例的示意图;
图4为本发明提供的计算机可读存储介质的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”、“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了预训练语料库的构建方法的实施例。图1示出的是本发明提供的预训练语料库的构建方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
S01、基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;
S02、若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;
S03、基于每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算单个高质量数据集的权重;以及
S04、基于爬虫数据的权重对爬虫数据进行采样,基于单个高质量数据集的权重分别对单个高质量数据集进行采样,以得到预训练语料库。
在本实施例中,对不同规模的预训练采用不同的采样比例,预训练语料在几十BG规模时,不适用爬虫数据,使用随机采样的方式;预训练语料在百GB规模时,确保爬虫数据不超过20%,并尽量保证每个高质量数据来源所占比例相等;预训练语料在1T规模时,确保爬虫数据不超过60%,并尽量保证每个高质量数据来源所占比例相等;对于规模比较小的数据来源,尽量保证训练时的权重不超过4,以避免数据集被过度学习。
在本实施例中,以参数量在10B规模,或者预训练语料在百GB规模为例,采样时需要增加一定的权重,以确保爬虫数据在训练集中所占的token数不超过20%,其余不同来源的高质量数据集a1,a2,…,an在训练集中所占token数尽量相等。具体的,如果我们在预训练模型时希望训练N个token,爬虫数据的总token数是B,高质量数据集的token总token数分别是A1,A2,…,An。我们希望爬虫数据b在训练集中的所占的token数不超过0.2N,则爬虫数据在采样时所用的权重则为wb=0.2N/B。我们希望每个高质量数据集所占的token比重相等,则理想状态下,每个高质量数据集的采样权重分别为:
Figure BDA0003211732430000061
其中为了避免过拟合,wai≤4。如果某个或某些高质量数据集过小,使得wai的计算值大于4时,则令wai=4,其余采样权重依次调整为:
Figure BDA0003211732430000062
依次类推。
简单用数据举例,除爬虫数据以外其余高质量数据集有10个,则尽量确保每个数据集占token的8%,爬虫数据占20%。
在本实施例中,以参数量在100B规模,或者预训练语料在1T规模为例,采样时需要增加一定的权重,以确保爬虫数据所占的token数不超过60%,其余不同来源的高质量数据集在训练集中所占token数尽量相等。具体的,如果我们在预训练模型时希望训练N个tokens,爬虫数据的总token数是B,高质量数据集的token总token数分别是A1,A2,…,An。我们希望爬虫数据b在训练集中的所占的token数不超过0.6N,则爬虫数据在采样时所用的权重则为wb=0.6N/B。我们希望每个高质量数据集所占的token比重相等,则理想状态下,每个高质量数据集的采样权重分别为:
Figure BDA0003211732430000071
其中为了避免过拟合,wai≤4。如果某个或某些高质量数据集过小,使得wai的计算值大于4时,则令wai=4,其余采样权重依次调整为:
Figure BDA0003211732430000072
依次类推。
比如,除爬虫数据以外其余高质量数据集有10个,则尽量确保每个数据集占token的4%,爬虫数据占60%。
在本发明的一些实施例中,方法还包括:若是需要数据集规模为小规模数据集,则从高质量数据集中随机采样以得到预训练语料库。
在本实施例中,对于参数量在1B规模或更小,或者预训练语料在几十BG规模时,全部使用高质量数据集,并可以从高质量数据集中随机采样,得到预训练的训练集和验证集,不同数据集贡献token的比例就是数据集大小的比例。
在本发明的一些实施例中,若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量包括:若是需要数据集规模为中规模数据集,则基于低预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;若是需要数据集规模为大规模数据集,则基于高预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量。
在本实施例中,对于参数量在10B规模,或者预训练语料在百GB规模的中规模数据集时,采样时需要增加一定的权重,以确保爬虫数据b在训练集中所占的token数不超过20%,其余不同来源的高质量数据集在训练集中所占token数尽量相等。
在本实施例中,对于参数量在100B规模,或者预训练语料在1T规模的大规模数据集时,采样时需要增加一定的权重,以确保爬虫数据所占的token数不超过60%,其余不同来源的高质量数据集在训练集中所占token数尽量相等。
在本发明的一些实施例中,基于每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算单个高质量数据集的权重包括:判断是否存在单个高质量数据集的权重超过预设权重;若是存在单个高质量数据集的权重超过预设权重,则将单个高质量数据集的权重设置为预设权重的数值,并重新计算其他单个高质量数据集的权重。
在本实施例中,如果某个或某些高质量数据集过小,使得单个高质量数据集的权重的计算值大于4时,则令单个高质量数据集的权重等于4,其余采样权重依次进行调整。
在本发明的一些实施例中,方法还包括:基于语言模型的参数量确定待构建预训练语料库的大小。
在本实施例中,根据OpenAI提出的预训练语料大小D(tokens)和模型参数N之间的关系,对于与GPT模型结构相似的自回归模型来说:D≥(5×103)N0.74。如果是其他模型结构,这样的定量关系会有或多或少的不同。此处D的单位是数据的token数,如果换算成GB的话也会因为token长度的不同以及中英文数据的不同而略有差异。
在本发明的一些实施例中,基于语言模型的参数量确定待构建预训练语料库的大小包括:若是语言模型的参数量不超过1字节,则确认待构建预训练语料库的大小不超过100吉字节;若是语言模型的参数量不超过10字节且超过1字节,则确认待构建预训练语料库的大小不超过1000吉字节且超过100吉字节;若是语言模型的参数量不超过100字节且超过10字节,则确认待构建预训练语料库的大小超过1太字节。
在本发明的一些实施例中,基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集包括:若是待构建预训练语料库的大小不超过100吉字节,则确认需要数据集规模为小规模数据集;若是待构建预训练语料库的大小不超过1000吉字节且超过100吉字节,则需要数据集规模不为小规模数据集且为中规模数据集;若是待构建预训练语料库的大小超过1太字节,则确认需要数据集规模不为小规模数据集且为大规模数据集。
在本实施例中,在实践中,目前存在的共识是语料库越大,预训练模型的质量就越有利;并且规模大的模型,就越容易在数据不足的情况下发生过拟合。基于以上两点,会建议准备尽量大的语料库用以预训练。通常,如果训练千亿规模(100B)参数的模型,通常要准备1TB数量级的语料;而1B或10B参数的模型,则使用100GB数量级的语料就足够;对于更小规模的,则基本可以用以近线性关系递减。模型预训练语料和模型参数之间的定量关系,可以根据不同模型结构以及经验确定。
在本发明的一些实施例中,方法可以扩展到无标签的图片数据和多模态数据。
需要特别指出的是,上述预训练语料库的构建方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于预训练语料库的构建方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种预训练语料库的构建装置。图2示出的是本发明提供的预训练语料库的构建装置的实施例的示意图。如图2所示,本发明实施例的预训练语料库的构建装置包括如下模块:第一模块S11,配置用于基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;第二模块S12,配置用于若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;第三模块S13,配置用于基于每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算单个高质量数据集的权重;以及第四模块S14,配置用于基于爬虫数据的权重对爬虫数据进行采样,基于单个高质量数据集的权重分别对单个高质量数据集进行采样,以得到预训练语料库。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示,本发明实施例的计算机设备包括如下装置:至少一个处理器S21;以及存储器S22,存储器S22存储有可在处理器上运行的计算机指令S23,指令由处理器执行时实现以上方法的步骤。
本发明还提供了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质S31存储有被处理器执行时执行如上方法的计算机程序S32。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,预训练语料库的构建方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及***单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种预训练语料库的构建方法,其特征在于,包括以下步骤:
基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;
若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;
基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重;以及
基于所述爬虫数据的权重对所述爬虫数据进行采样,基于所述单个高质量数据集的权重分别对所述单个高质量数据集进行采样,以得到预训练语料库。
2.根据权利要求1所述的预训练语料库的构建方法,其特征在于,还包括:
若是需要数据集规模为小规模数据集,则从高质量数据集中随机采样以得到预训练语料库。
3.根据权利要求1所述的预训练语料库的构建方法,其特征在于,若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量包括:
若是需要数据集规模为中规模数据集,则基于低预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;
若是需要数据集规模为大规模数据集,则基于高预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量。
4.根据权利要求1所述的预训练语料库的构建方法,其特征在于,基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重包括:
判断是否存在所述单个高质量数据集的权重超过预设权重;
若是存在所述单个高质量数据集的权重超过预设权重,则将所述单个高质量数据集的权重设置为所述预设权重的数值,并重新计算其他所述单个高质量数据集的权重。
5.根据权利要求1所述的预训练语料库的构建方法,其特征在于,还包括:
基于语言模型的参数量确定待构建预训练语料库的大小。
6.根据权利要求5所述的预训练语料库的构建方法,其特征在于,基于语言模型的参数量确定待构建预训练语料库的大小包括:
若是语言模型的参数量不超过1字节,则确认待构建预训练语料库的大小不超过100吉字节;
若是语言模型的参数量不超过10字节且超过1字节,则确认待构建预训练语料库的大小不超过1000吉字节且超过100吉字节;
若是语言模型的参数量不超过100字节且超过10字节,则确认待构建预训练语料库的大小超过1太字节。
7.根据权利要求1所述的预训练语料库的构建方法,其特征在于,基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集包括:
若是待构建预训练语料库的大小不超过100吉字节,则确认需要数据集规模为小规模数据集;
若是待构建预训练语料库的大小不超过1000吉字节且超过100吉字节,则需要数据集规模不为小规模数据集且为中规模数据集;
若是待构建预训练语料库的大小超过1太字节,则确认需要数据集规模不为小规模数据集且为大规模数据集。
8.一种预训练语料库的构建装置,其特征在于,包括:
第一模块,配置用于基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;
第二模块,配置用于若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;
第三模块,配置用于基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重;以及
第四模块,配置用于基于所述爬虫数据的权重对所述爬虫数据进行采样,基于所述单个高质量数据集的权重分别对所述单个高质量数据集进行采样,以得到预训练语料库。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN202110932826.1A 2021-08-13 2021-08-13 一种预训练语料库的构建方法、装置、设备及可读介质 Active CN113722570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110932826.1A CN113722570B (zh) 2021-08-13 2021-08-13 一种预训练语料库的构建方法、装置、设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110932826.1A CN113722570B (zh) 2021-08-13 2021-08-13 一种预训练语料库的构建方法、装置、设备及可读介质

Publications (2)

Publication Number Publication Date
CN113722570A true CN113722570A (zh) 2021-11-30
CN113722570B CN113722570B (zh) 2023-07-18

Family

ID=78675848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110932826.1A Active CN113722570B (zh) 2021-08-13 2021-08-13 一种预训练语料库的构建方法、装置、设备及可读介质

Country Status (1)

Country Link
CN (1) CN113722570B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079447A (zh) * 2020-03-23 2020-04-28 深圳智能思创科技有限公司 一种面向中文的预训练方法及***
CN112668671A (zh) * 2021-03-15 2021-04-16 北京百度网讯科技有限公司 预训练模型的获取方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079447A (zh) * 2020-03-23 2020-04-28 深圳智能思创科技有限公司 一种面向中文的预训练方法及***
CN112668671A (zh) * 2021-03-15 2021-04-16 北京百度网讯科技有限公司 预训练模型的获取方法和装置

Also Published As

Publication number Publication date
CN113722570B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN105740349B (zh) 一种结合Doc2vec和卷积神经网络的情感分类方法
CN107980130A (zh) 自动回答方法、装置、存储介质及电子设备
CN110929772A (zh) 模型训练方法、样本生成方法、装置、电子设备及存储介质
CN110941964B (zh) 双语语料筛选方法、装置及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN106383891A (zh) 一种基于深度哈希的医学图像分布式检索方法
CN111930895B (zh) 基于mrc的文档数据检索方法、装置、设备及存储介质
US20200042547A1 (en) Unsupervised text simplification using autoencoders with a constrained decoder
CN116097248A (zh) 用于可控文本概述的***和方法
WO2024103609A1 (zh) 一种对话模型的训练方法及装置、对话响应方法及装置
US20230133981A1 (en) Method of training image generation model, and method of generating image
CN116136957A (zh) 一种基于意图一致性的文本纠错方法、装置和介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN114580444A (zh) 文本翻译模型的训练方法、设备及存储介质
CN113722570A (zh) 一种预训练语料库的构建方法、装置、设备及可读介质
CN117111952A (zh) 基于生成式人工智能的代码补全方法和装置、介质
CN116662515A (zh) 检索式多轮对话方法及装置、存储介质、电子设备
CN111581929A (zh) 基于表格的文本生成方法及相关装置
CN116521860A (zh) 基于对比学习的医疗问题摘要生成方法和装置
CN116757207A (zh) 基于人工智能的icd自动编码方法及相关设备
WO2023129352A1 (en) Using token level context to generate ssml tags
CN112948561B (zh) 一种问答知识库自动扩建的方法和装置
CN116230146A (zh) 数据处理方法、icd编码模型的训练方法及相关设备
CN111400484B (zh) 一种关键词提取方法和***
CN114861610A (zh) 标题的生成方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant