CN111611769A - 一种多种语言模型的文本转换方法及装置 - Google Patents

一种多种语言模型的文本转换方法及装置 Download PDF

Info

Publication number
CN111611769A
CN111611769A CN201910138889.2A CN201910138889A CN111611769A CN 111611769 A CN111611769 A CN 111611769A CN 201910138889 A CN201910138889 A CN 201910138889A CN 111611769 A CN111611769 A CN 111611769A
Authority
CN
China
Prior art keywords
language model
target
training
text
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910138889.2A
Other languages
English (en)
Inventor
刘纯一
王鹏
薛艳云
柳俊宏
李奘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201910138889.2A priority Critical patent/CN111611769A/zh
Publication of CN111611769A publication Critical patent/CN111611769A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种多种语言模型的文本转换方法及装置,该方法包括:获取待转换文本和目标语言模型标识;根据目标语言模型标识从多种语言模型信息库中获取对应的目标配置文件、目标编码规则和目标语言模型参数;利用目标编码规则对待转换文本进行编码获得编码序列;基于目标配置文件和目标语言模型参数构建目标语言模型,并利用目标语言模型对编码序列进行计算转换获得数字向量。装置用于执行上述方法。本发明实施例通过将多种语言模块进行预训练,并整合在一起形成多种语言模型信息库,用户可以通过从多种语言模型信息库中获取所需的语言模型参数,不需要根据语言模型的不同进行不同的配置,在需要切换所需的语言模型时,降低了切换的成本。

Description

一种多种语言模型的文本转换方法及装置
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种多种语言模型的文本转换方法及装置。
背景技术
语言模型(Language Model)简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。
目前,就现有的预训练的语言模型而言,其多关注于对预训练的语言模型的表示学习上,也就是通过不同的特征抽取模块对文本数据进行建模,获取文本数据的嵌入(embedding)表示。这些模型相对独立,当采取某种语言模型的效果较差时,需要切换模型,但是由于不同的模型其配置不同,因此若切换了语言模型,则需要重新调整输入及配置信息等,切换成本较高。
发明内容
有鉴于此,本发明实施例的目的在于提供一种多种语言模型的文本转换方法、装置、电子设备及存储介质,能够通过将多种语言模块进行预训练,并整合在一起形成多种语言模型信息库,用户可以通过从多种语言模型信息库中获取所需的语言模型参数,并且将输入的文本转换为通用的数字向量,使得满足后续语言模型的要求,达到了不需要根据语言模型的不同进行不同的配置,在需要切换所需的语言模型时,降低了切换的成本。
根据本发明的一个方面,提供一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行一个或多个以下操作:
获取转换请求,所述转换请求包括待转换文本和目标语言模型标识;
根据所述目标语言模型标识从多种语言模型信息库中获取对应的目标语言模型信息,所述目标语言模型信息包括目标配置文件、目标编码规则和目标语言模型参数;
利用所述目标编码规则对所述待转换文本进行编码,获得对应的编码序列;
基于所述目标配置文件和所述目标语言模型参数构建目标语言模型,并利用所述目标语言模型对所述编码序列进行计算转换,获得所述待转换文本的数字向量。
本发明实施例通过将多种语言模块进行预训练,并整合在一起形成多种语言模型信息库,用户可以通过从多种语言模型信息库中获取所需的语言模型参数、配置文件和编码规则,根据语言模型参数和配置文件构成所需的语言模型,将输入的待转换文本通过该语言模型转换为多种语言模型通用的数字向量,由于多种语言模型被预先整合在一起,因此,只需要在输入文本时选择使用的语言模型即可,无需根据不同的语言模型进行相应的配置,从而节省了切换语言模型时的配置时间,降低了切换成本。
在一些实施例中,所述方法,还包括:
获取训练样本集,所述训练样本集包括多个训练文本;
利用所述训练样本集对多个语言模型进行预训练,获得每一语言模型对应的第一配置文件和语言模型参数;
将所有的语言模型分别对应的第一配置文件、语言模型参数和编码规则进行存储,获得所述多种语言模型信息库;
其中,通过以下方法对一个语言模型进行预训练:
获取语言模型对应的第二配置文件、词典和编码规则;
根据所述第二配置文件构建对应的语言模型,所述语言模型中的参数为初始化参数;
根据所述词典,利用所述编码规则对所述多个训练文本进行编码,获得对应训练编码序列;
利用训练编码序列对应的语言模型进行预训练,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
本发明实施例通过对多种语言模型进行预训练获得多种语言模型分别对应的语言模型参数,当需要构建新的语言模型时,构建的新的语言模型中的参数可以初始化为预训练获得的语言模型参数,以保存预训练时学习到的知识,提高新的语言模型处理的效率。
在一些实施例中,在获取语言模型对应的第二配置文件和编码规则之前,所述方法,还包括:
获取标准文本,并统计所述标准文本中的单词;
根据统计获得的单词生成对应的词典以及所述词典对应的编码规则。
本发明实施例通过将标准文本中的单词生成词典,并根据生成的词典获取编码规则,保证输入的一致性。
在一些实施例中,所述第二配置文件包括迭代次数和训练精度,相应的,
所述利用训练编码序列对应的语言模型进行预训练,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件,包括:
利用训练编码序列对应的语言模型进行预训练,直至所述迭代次数满足预设阈值和/或所述训练精度满足要求为止,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
本发明实施例通过根据预先配置的迭代次数和/或训练精度对多种语言模型进行训练,当训练的与语言模型满足要求后即可停止训练,一方面保证了训练获得满足预设要求的语言模型,另一方面,使得训练模型的功耗最少。
在一些实施例中,所述基于所述目标配置文件和所述目标语言模型参数构建目标语言模型,包括:
根据所述目标配置文件构建初始语言模型,所述初始语言模型中的参数为初始值;
利用所述目标语言模型参数替换所述初始语言模型中的初始值,获得所述目标语言模型。
本发明实施例通过目标配置文件构建初始语言模型,然后利用目标语言模型参数替换初始语言模型中的参数,从而提高新的语言模型处理的效率。
在一些实施例中,所述目标编码规则为:根据所述待转换文本中各单词在对应词典中的位置进行编码;相应的,
所述利用所述目标编码规则对所述待转换文本进行编码,获得对应的编码序列,包括:
根据所述待转换文本中各单词在对应词典中的位置进行编码,获得初始编码序列;
对所述初始编码序列添加起始符和结束符,获得所述编码序列。
本发明实施例通过在利用目标编码规则获得待转换文本的初始编码序列后,在初始编码序列的首部添加起始符,尾部添加结束符,以保证编码序列的完整性。
另一方面,本发明实施例提供一种多种语言模型的文本转换装置,包括:
转换请求获取模块,用于获取转换请求,所述转换请求包括待转换文本和目标语言模型标识;
模型信息获取模块,用于根据所述目标语言模型标识从多种语言模型信息库中获取对应的目标语言模型信息,所述目标语言模型信息包括目标配置文件、目标编码规则和目标语言模型参数;
编码模块,用于利用所述目标编码规则对所述待转换文本进行编码,获得对应的编码序列;
转换模块,用于基于所述目标配置文件和所述目标语言模型参数构建目标语言模型,并利用所述目标语言模型对所述编码序列进行计算转换,获得所述待转换文本的数字向量。
在一些实施例中,所述装置,还包括:
样本获取模块,用于获取训练样本集,所述训练样本集包括多个训练文本;
训练模块,用于利用所述训练样本集对多个语言模型进行预训练,获得每一语言模型对应的第一配置文件和语言模型参数;
存储模块,用于将所有的语言模型分别对应的第一配置文件、语言模型参数和编码规则进行存储,获得所述多种语言模型信息库;
其中,通过以下方法对一个语言模型进行预训练:
获取语言模型对应的第二配置文件、词典和编码规则;
根据所述第二配置文件构建对应的语言模型,所述语言模型中的参数为初始化参数;
根据所述词典,利用所述编码规则对所述多个训练文本进行编码,获得对应训练编码序列;
利用训练编码序列对应的语言模型进行预训练,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
在一些实施例中,所述装置,还包括:
标准文本获取模块,用于获取标准文本,并统计所述标准文本中的单词;
词典生成模块,用于根据统计获得的单词生成对应的词典以及所述词典对应的编码规则。
在一些实施例中,所述第二配置文件包括迭代次数和训练精度,相应的,
所述训练模块,具体用于:
利用训练编码序列对应的语言模型进行预训练,直至所述迭代次数满足预设阈值和/或所述训练精度满足要求为止,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
在一些实施例中,所述转换模块,具体用于:
根据所述目标配置文件构建初始语言模型,所述初始语言模型中的参数为初始值;
利用所述目标语言模型参数替换所述初始语言模型中的初始值,获得所述目标语言模型。
在一些实施例中,所述编码规则为:根据所述待转换文本中各单词在对应词典中的位置进行编码;相应的,
所述编码模块,具体用于:
根据所述待转换文本中各单词在对应词典中的位置进行编码,获得初始编码序列;
对所述初始编码序列添加起始符和结束符,获得所述训练编码序列。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的电子设备的示例性硬件和软件组件的示意图;
图2为本发明实施例提供的一种多种语言模型整合框架示意图;
图3为本发明实施例提供的训练阶段代码示意图;
图4为本发明实施例提供的模型训练流程示意图;
图5为本发明实施例提供的一种多种语言模型的文本转换方法流程示意图;
图6为本发明实施例提供的配置文件代码示意图;
图7为本发明的一些实施例的多种语言模型的文本转换装置的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,本发明中附图仅起到说明和描述的目的,并不用于限定本发明的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明提出申请之前,以某网约车服务平台为例,该平台每天会产生大量相关的文本数据,包括司机、乘客和客服之间的对话,以及公司内部的工单数据等。大量的文本数据为自然语言处理工作提供了基础,同时,需要根据具体的应用场景进行构建相符的预训练的方法来提高自然语言处理相关任务的效果。但是不同的语言模型的代码逻辑不同,使用方法也不同,对于使用者而言,使用不同的语言模型需要进行不同的配置。因此,本发明提供的多种语言模型的文本转换方法可以将多种语言模型整合在一起供使用者进行选择。通过将多种语言模型进行预训练,并整合在一起形成多种语言模型信息库,用户可以通过从多种语言模型信息库中获取所需的语言模型参数,并且将输入的文本转换为通用的数字向量,使得满足后续语言模型的要求,达到了不需要根据语言模型的不同进行不同的配置,在需要切换所需的语言模型时,降低了切换的成本。
图1为本发明实施例提供的电子设备的示例性硬件和软件组件的示意图。
电子设备100可以是通用计算机或特殊用途的计算机,两者都可以用于实现本发明的多种语言模型的文本转换方法。本发明尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本发明描述的功能,以均衡处理负载。
例如,电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本发明的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口150。
为了便于说明,在电子设备100中仅描述了一个处理器。然而,应当注意,本发明中的电子设备100还可以包括多个处理器,因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备100的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
本发明实施例从多种语言模型出发,将多种语言模型整合到一个框架中,统一对多种语言模型进行管理。图2为本发明实施例提供的一种多种语言模型整合框架示意图,如图2所示,该框架可以分为训练阶段和使用阶段,其中,训练阶段为对多个语音模型进行训练,获得语音模型参数的过程,使用阶段为用户选择一个训练完成的语音模型参数将输入的待转换文本转换为数字向量,以便于语音模型下游的任务处理。这两个阶段的代码流程虽然不同,但是共享相同的配置、输入格式和输出结果。因此,本发明实施例综合考虑训练阶段和使用阶段,将输入、配置和输出进行了如下统一:
输入:所有的语音模型的输入为空格分割的分好词的字符串,在内部通过统一的方法对文档进行编码,保证模型在训练阶段和使用阶段的一致性,同时避免使用者对预处理模块进行开发。应当说明的是,若接收到的是语音对话,则将语音对话转换为文本格式。
配置:所有语音模型参数统一通过Json格式的配置文件进行管理,保证参数的完整性和易迁移性,并方便进行参数调整和迭代。
输出:统一语音模型的输出为输入文本的每个词的嵌入(embedding)表示,通过词语级别的表示,下游的自然语言处理任务可以更灵活的选择合适的整合方法来获取句子级别的文本表示。其中,embedding表示是对单词的数值型表示,通过一个固定维度的向量表示一个单词。单词表示为数值向量才可以被计算机处理。
应当说明的是,在进行预训练之前,需要获取标准文本,这些标准文本可以通过网络爬取或者经验收集到的文本,其应用场景不同,获取到的标准文本不同,统计这些标准文本中的单词个数,并将标准文本中的单词生成词典,并且根据词典能够获取到该词典的编码规则。
图3为本发明实施例提供的训练阶段代码示意图,如图3所示,在训练阶段,将训练文件和配置文件传入给DataLoader。接下来,将DataLoader生成的数据和配置文件传入给TrainHelper。TrainHelper会读取词典并进行编码。当其调用train()方法时,则对模型进行训练;调用save()方法时,则在内部调用了ModelSaver对模型进行了保存。
训练阶段可以包括数据加载模块、配置模块、训练模块和存储模块,在配置模块中预先存储有开源的ELMo(Embeddings from Language Models)和BERT(BidirectionalEncoder Representations from Transformers)模型,还可以存储GPT(Generative Pre-Training)、Word2Vec、Fasttext等建模单词表示的语言模型。
图4为本发明实施例提供的模型训练流程示意图,如图4所示:
步骤401:获取训练文本集;数据加载模块获取训练样本集,其中,训练样本集中包括多个训练文本,在对某个语言模型进行训练时,每一个训练文本均为经过分词后且各个单词之间可以通过空格连接。
步骤402:生成语言模型;将待预训练的语言模型的第二配置文件加载到配置模块中,配置模块根据第二配置文件生成对应的语言模型,其中,该语言模型中的参数为随机生成的初始值,生成后将语言模型发送至训练模块;
步骤403:模型训练;训练模块从数据加载模块中获取预先生成的词典以及该词典对应的编码规则,应当说明的是,每种语言模型对应一个词典以及编码规则,利用该编码规则对训练文本进行编码,获得训练编码序列,然后利用训练编码序列对语言模型进行预训练,从而获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。应当说明的是,第一配置文件与第二配置文件的不同之处在于,第一配置文件中多了在预训练过程中生成的一些动态参数,例如:词典中的单词个数等。
步骤404:数据存储;当训练模块完成对语言模型的预训练后,将获得的语言模块参数、第二配置文件和编码规则存储在存储模块中。
应当说明的是,以上是对一个语言模型的预训练过程,其他语言模块的训练过程与上述一致。因此,存储模块中存储有多个语言模块对应的语言模块参数、第一配置文件和编码规则,该存储模块与使用阶段的获取模块对应,获取模块能够从存储模块中获取所需的数据。另外,在训练时,可以在第二配置文件中配置迭代次数和训练精度,在对一个语言模型进行训练时,其训练结束的标志可以为训练的迭代次数满足了配置的迭代次数,或者训练精度达到的配置的训练精度。并且,还可以在第二配置文件中配置学习率、保存步数、批训练的批大小、最大文本长度等参数,方便用户控制训练流程,提高训练效率。
使用阶段包括获取模块、配置模块和转换模块,转换模块在获取到待转换文本后,通过获取模块从存储模块中获取所需的语音模型参数、第一配置文件和编码规则;然后将语音模型参数、第一配置文件和编码规则发送给转换模块,转换模块将语音模型参数和第一配置文件发送给配置模块,并根据编码规则对待转换文本进行转换,获得编码序列,然后将编码序列也发送给配置模块;配置模块在接收到语音模型参数和第一配置文件后生成语音模型,然后利用语音模块对编码序列进行转换,生成数字向量,然后将数字向量发送给转换模块,由转换模块输出,进行语音模型后续任务的输入。因此,使用阶段可以看作是语音模型的上游处理过程。
本发明实施例通过对多种语言模型进行预训练获得多种语言模型分别对应的语言模型参数,当需要构建新的语言模型时,构建的新的语言模型中的参数可以初始化为预训练获得的语言模型参数,以保存预训练时学习到的知识,提高新的语言模型处理的效率。
图5为本发明实施例提供的一种多种语言模型的文本转换方法流程示意图,如图5所示,该方法,包括:
步骤501:获取转换请求,所述转换请求包括待转换文本和目标语言模型标识。
在具体的实施过程中,装置获取转换请求,其中转换请求中包括待转换文本和目标语言模型标识。若待转换文本没有经过分词,则需要对待转换文本进行分词处理,并将分词后的单词用空格隔开。目标语音模型标识为用来唯一标识语音模型的,即,可以预先为每个语言模型设置一个唯一的标识,该标识可以为语言模型的名称。应当说明的是,若装置接收到的为语音,则需要预先将语音转换为文本格式。
步骤502:根据所述目标语言模型标识从多种语言模型信息库中获取对应的目标语言模型信息,所述目标语言模型信息包括目标配置文件、目标编码规则和目标语言模型参数。
在具体的实施过程中,在获取到目标语言模型标识后,根据该目标语言模型标识从存储的多种语言模型信息库中进行查找,获取对应的目标语言模型信息。应当说明的是,目标语言模型信息包括目标配置文件、目标编码规则和目标语言模型参数。其中,目标配置文件为存储的第一配置文件中的一个。
步骤503:利用所述目标编码规则对所述待转换文本进行编码,获得对应的编码序列。
在具体的实施过程中,装置在获取到目标编码规则后,对待转换文本进行编码,由于每个语言模型对应一个词典,目标编码规则可以为待转换文本中每个单词在词典中的位置作为编码数字,从而整个待转换文本被转换为了数字序列,即编码序列。
应当说明的是,为了保证编码序列的完整性,在通过目标编码规则将待转换文本进行编码后,获得初始编码序列,然后在初始编码序列的首部添加起始符,以及在初始编码序列的尾部添加结束符,从而使得装置在编码的过程中能够获知编码序列的起始和终止。
步骤504:基于所述目标配置文件和所述目标语言模型参数构建目标语言模型,并利用所述目标语言模型对所述编码序列进行计算转换,获得所述待转换文本的数字向量。
在具体的实施过程中,根据获取到的目标配置文件和目标语言模型参数构建目标语言模型,在构建时,根据配置文件通过调用目标语言模型的生成函数来构建初始语言模型,然后利用目标语言模型参数覆盖初始语言模型中的参数,获得目标语言模型。
应当说明的是,装置在获取到目标配置文件后,根据目标配置文件构建初始语言模型,其中,初始语言模型中的参数为初始值,该初始值可以为随机生成的,然后装置将获取到的目标语言模型参数替换初始语言模型中的参数,获得目标语言模型。
以BERT模型为例,图6为本发明实施例提供的配置文件代码示意图,如图6所示,该目标配置文件中的参数结构为json结构,其中设置了目标语言模型的名称、保存路径、模型中神经元的输入输出大小、以及transformer编码器中相关参数。根据这些参数设置目标语言模型中的参数。注意,配置文件中的model_name是使用的目标语言模型,model_base是目标语言模型保存的路径,cp_path是目标语言模型的参数的临时保存位置。其余的参数则和语言模型本身的设计有关。因此,配置文件的参数可以根据模型进行灵活的定制。使用者自行开发的模型中,可以根据自己的需求进行个性化的配置。
本发明实施例通过将多种语言模块进行预训练,并整合在一起形成多种语言模型信息库,用户可以通过从多种语言模型信息库中获取所需的语言模型参数、配置文件和编码规则,根据语言模型参数和配置文件构成所需的语言模型,将输入的待转换文本通过该语言模型转换为多种语言模型通用的数字向量,由于多种语言模型被预先整合在一起,因此,只需要在输入文本时选择使用的语言模型即可,无需根据不同的语言模型进行相应的配置,从而节省了切换语言模型时的配置时间,降低了切换成本。
图7为本发明的一些实施例的多种语言模型的文本转换装置的框图,该多种语言模型的文本转换装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本发明功能的组件,如图所示,多种语言模型的文本转换装置可以包括转换请求获取模块701、模型信息获取模块702、编码模块703和转换模块704,其中:
转换请求获取模块701用于获取转换请求,所述转换请求包括待转换文本和目标语言模型标识;模型信息获取模块702用于根据所述目标语言模型标识从多种语言模型信息库中获取对应的目标语言模型信息,所述目标语言模型信息包括目标配置文件、目标编码规则和目标语言模型参数;编码模块703用于利用所述目标编码规则对所述待转换文本进行编码,获得对应的编码序列;转换模块704用于基于所述目标配置文件和所述目标语言模型参数构建目标语言模型,并利用所述目标语言模型对所述编码序列进行计算转换,获得所述待转换文本的数字向量。
在上述实施例的基础上,所述装置,还包括:
样本获取模块,用于获取训练样本集,所述训练样本集包括多个训练文本;
训练模块,用于利用所述训练样本集对多个语言模型进行预训练,获得每一语言模型对应的第一配置文件和语言模型参数;
存储模块,用于将所有的语言模型分别对应的第一配置文件、语言模型参数和编码规则进行存储,获得所述多种语言模型信息库;
其中,通过以下方法对一个语言模型进行预训练:
获取语言模型对应的第二配置文件、词典和编码规则;
根据所述第二配置文件构建对应的语言模型,所述语言模型中的参数为初始化参数;
根据所述词典,利用所述编码规则对所述多个训练文本进行编码,获得对应训练编码序列;
利用训练编码序列对应的语言模型进行预训练,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
在上述实施例的基础上,所述装置,还包括:
标准文本获取模块,用于获取标准文本,并统计所述标准文本中的单词;
词典生成模块,用于根据统计获得的单词生成对应的词典以及所述词典对应的编码规则。
在上述实施例的基础上,所述第二配置文件包括迭代次数和训练精度,相应的,
所述训练模块,具体用于:
利用训练编码序列对应的语言模型进行预训练,直至所述迭代次数满足预设阈值和/或所述训练精度满足要求为止,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
在上述实施例的基础上,所述转换模块,具体用于:
根据所述目标配置文件构建初始语言模型,所述初始语言模型中的参数为初始值;
利用所述目标语言模型参数替换所述初始语言模型中的初始值,获得所述目标语言模型。
在上述实施例的基础上,所述目标编码规则为:根据所述待转换文本中各单词在对应词典中的位置进行编码;相应的,
所述编码模块,具体用于:
根据所述待转换文本中各单词在对应词典中的位置进行编码,获得初始编码序列;
对所述初始编码序列添加起始符和结束符,获得所述编码序列。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考方法实施例中的对应过程,本发明中不再赘述。在本发明所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种多种语言模型的文本转换方法,其特征在于,包括:
获取转换请求,所述转换请求包括待转换文本和目标语言模型标识;
根据所述目标语言模型标识从多种语言模型信息库中获取对应的目标语言模型信息,所述目标语言模型信息包括目标配置文件、目标编码规则和目标语言模型参数;
利用所述目标编码规则对所述待转换文本进行编码,获得对应的编码序列;
基于所述目标配置文件和所述目标语言模型参数构建目标语言模型,并利用所述目标语言模型对所述编码序列进行计算转换,获得所述待转换文本的数字向量。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取训练样本集,所述训练样本集包括多个训练文本;
利用所述训练样本集对多个语言模型进行预训练,获得每一语言模型对应的第一配置文件和语言模型参数;
将所有的语言模型分别对应的第一配置文件、语言模型参数和编码规则进行存储,获得所述多种语言模型信息库;
其中,通过以下方法对一个语言模型进行预训练:
获取语言模型对应的第二配置文件、词典和编码规则;
根据所述第二配置文件构建对应的语言模型,所述语言模型中的参数为初始化参数;
根据所述词典,利用所述编码规则对所述多个训练文本进行编码,获得对应训练编码序列;
利用训练编码序列对应的语言模型进行预训练,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
3.根据权利要求2所述的方法,其特征在于,在获取语言模型对应的第二配置文件和编码规则之前,所述方法,还包括:
获取标准文本,并统计所述标准文本中的单词;
根据统计获得的单词生成对应的词典以及所述词典对应的编码规则。
4.根据权利要求2所述的方法,其特征在于,所述第二配置文件包括迭代次数和训练精度,相应的,
所述利用训练编码序列对应的语言模型进行预训练,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件,包括:
利用训练编码序列对应的语言模型进行预训练,直至所述迭代次数满足预设阈值和/或所述训练精度满足要求为止,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标配置文件和所述目标语言模型参数构建目标语言模型,包括:
根据所述目标配置文件构建初始语言模型,所述初始语言模型中的参数为初始值;
利用所述目标语言模型参数替换所述初始语言模型中的初始值,获得所述目标语言模型。
6.根据权利要求1所述的方法,其特征在于,所述目标编码规则为:根据所述待转换文本中各单词在对应词典中的位置进行编码;相应的,
所述利用所述目标编码规则对所述待转换文本进行编码,获得对应的编码序列,包括:
根据所述待转换文本中各单词在对应词典中的位置进行编码,获得初始编码序列;
对所述初始编码序列添加起始符和结束符,获得所述编码序列。
7.一种多种语言模型的文本转换装置,其特征在于,包括:
转换请求获取模块,用于获取转换请求,所述转换请求包括待转换文本和目标语言模型标识;
模型信息获取模块,用于根据所述目标语言模型标识从多种语言模型信息库中获取对应的目标语言模型信息,所述目标语言模型信息包括目标配置文件、目标编码规则和目标语言模型参数;
编码模块,用于利用所述目标编码规则对所述待转换文本进行编码,获得对应的编码序列;
转换模块,用于基于所述目标配置文件和所述目标语言模型参数构建目标语言模型,并利用所述目标语言模型对所述编码序列进行计算转换,获得所述待转换文本的数字向量。
8.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
样本获取模块,用于获取训练样本集,所述训练样本集包括多个训练文本;
训练模块,用于利用所述训练样本集对多个语言模型进行预训练,获得每一语言模型对应的第一配置文件和语言模型参数;
存储模块,用于将所有的语言模型分别对应的第一配置文件、语言模型参数和编码规则进行存储,获得所述多种语言模型信息库;
其中,通过以下方法对一个语言模型进行预训练:
获取语言模型对应的第二配置文件、词典和编码规则;
根据所述第二配置文件构建对应的语言模型,所述语言模型中的参数为初始化参数;
根据所述词典,利用所述编码规则对所述多个训练文本进行编码,获得对应训练编码序列;
利用训练编码序列对应的语言模型进行预训练,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
9.根据权利要求8所述的装置,其特征在于,所述装置,还包括:
标准文本获取模块,用于获取标准文本,并统计所述标准文本中的单词;
词典生成模块,用于根据统计获得的单词生成对应的词典以及所述词典对应的编码规则。
10.根据权利要求8所述的装置,其特征在于,所述第二配置文件包括迭代次数和训练精度,相应的,
所述训练模块,具体用于:
利用训练编码序列对应的语言模型进行预训练,直至所述迭代次数满足预设阈值和/或所述训练精度满足要求为止,获得预训练完成后的语言模型对应的语言模型参数和第一配置文件。
11.根据权利要求7所述的装置,其特征在于,所述转换模块,具体用于:
根据所述目标配置文件构建初始语言模型,所述初始语言模型中的参数为初始值;
利用所述目标语言模型参数替换所述初始语言模型中的初始值,获得所述目标语言模型。
12.根据权利要求7所述的装置,其特征在于,所述目标编码规则为:根据所述待转换文本中各单词在对应词典中的位置进行编码;相应的,
所述编码模块,具体用于:
根据所述待转换文本中各单词在对应词典中的位置进行编码,获得初始编码序列;
对所述初始编码序列添加起始符和结束符,获得所述编码序列。
13.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至6任一所述的多种语言模型的文本转换方法的步骤。
14.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的多种语言模型的文本转换方法的步骤。
CN201910138889.2A 2019-02-25 2019-02-25 一种多种语言模型的文本转换方法及装置 Pending CN111611769A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910138889.2A CN111611769A (zh) 2019-02-25 2019-02-25 一种多种语言模型的文本转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910138889.2A CN111611769A (zh) 2019-02-25 2019-02-25 一种多种语言模型的文本转换方法及装置

Publications (1)

Publication Number Publication Date
CN111611769A true CN111611769A (zh) 2020-09-01

Family

ID=72199984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910138889.2A Pending CN111611769A (zh) 2019-02-25 2019-02-25 一种多种语言模型的文本转换方法及装置

Country Status (1)

Country Link
CN (1) CN111611769A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329391A (zh) * 2020-11-02 2021-02-05 上海明略人工智能(集团)有限公司 目标编码器生成方法、装置、电子设备和计算机可读介质
CN112363699A (zh) * 2020-11-16 2021-02-12 佳都新太科技股份有限公司 一种应用于多语言开发平台的交互方法及装置
CN112686021A (zh) * 2021-01-04 2021-04-20 北京小米松果电子有限公司 文本特征提取方法、文本特征提取装置及存储介质
CN113033150A (zh) * 2021-03-18 2021-06-25 深圳市元征科技股份有限公司 一种程序文本的编码处理方法、装置以及存储介质
CN113225213A (zh) * 2021-04-30 2021-08-06 中国工商银行股份有限公司 网络设备配置文件转译和网络仿真的方法、装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别***和方法
CN102314440A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 利用网络维护语言模型库的方法和***
US20160163310A1 (en) * 2014-12-08 2016-06-09 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及***
CN108549703A (zh) * 2018-04-17 2018-09-18 内蒙古工业大学 一种基于循环神经网络的蒙古语语言模型的训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314440A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 利用网络维护语言模型库的方法和***
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别***和方法
US20160163310A1 (en) * 2014-12-08 2016-06-09 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及***
CN108549703A (zh) * 2018-04-17 2018-09-18 内蒙古工业大学 一种基于循环神经网络的蒙古语语言模型的训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LOVELIUZZ: "Tensorflow加载预训练模型和保存模型(ckpt文件)以及迁移学习finetuning", HTTPS://BLOG.CSDN.NET/LOVELIUZZ/ARTICLE/DETAILS/81661875, pages 1 - 7 *
关毅,张凯,付国宏: "基于统计的计算语言模型", no. 06, pages 26 - 28 *
蔡圆媛: "大数据环境下基于知识整合的语义计算技术与应用", 31 August 2018, 北京理工大学出版社, pages: 35 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329391A (zh) * 2020-11-02 2021-02-05 上海明略人工智能(集团)有限公司 目标编码器生成方法、装置、电子设备和计算机可读介质
CN112363699A (zh) * 2020-11-16 2021-02-12 佳都新太科技股份有限公司 一种应用于多语言开发平台的交互方法及装置
CN112363699B (zh) * 2020-11-16 2022-08-02 佳都科技集团股份有限公司 一种应用于多语言开发平台的交互方法及装置
CN112686021A (zh) * 2021-01-04 2021-04-20 北京小米松果电子有限公司 文本特征提取方法、文本特征提取装置及存储介质
CN113033150A (zh) * 2021-03-18 2021-06-25 深圳市元征科技股份有限公司 一种程序文本的编码处理方法、装置以及存储介质
CN113225213A (zh) * 2021-04-30 2021-08-06 中国工商银行股份有限公司 网络设备配置文件转译和网络仿真的方法、装置
CN113225213B (zh) * 2021-04-30 2023-02-28 中国工商银行股份有限公司 网络设备配置文件转译和网络仿真的方法、装置

Similar Documents

Publication Publication Date Title
CN111611769A (zh) 一种多种语言模型的文本转换方法及装置
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111488211A (zh) 基于深度学习框架的任务处理方法、装置、设备及介质
CN114840327B (zh) 多模态多任务的处理方法、设备及***
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN111274797A (zh) 用于终端的意图识别方法、装置、设备及存储介质
CN113434642B (zh) 文本摘要生成方法、装置及电子设备
CN115510232A (zh) 文本语句分类方法和分类装置、电子设备及存储介质
WO2023029354A1 (zh) 文本信息提取方法、装置、存储介质及计算机设备
CN115810068A (zh) 一种图像描述生成方法、装置、存储介质及电子设备
CN111241843A (zh) 基于复合神经网络的语义关系推断***和方法
CN113268989A (zh) 多音字处理方法及装置
CN113822272A (zh) 数据处理方法和装置
CN114490969B (zh) 基于表格的问答方法、装置以及电子设备
CN111695350B (zh) 一种文本的分词方法及分词装置
CN114816422A (zh) 转换plsql代码的方法、装置、电子设备及存储介质
CN113486647A (zh) 一种语义解析方法、装置、电子设备及存储介质
CN115577060B (zh) 一种基于das的高效字段计算表达方法、装置、介质及产品
CN114186043B (zh) 预训练方法、装置、设备和存储介质
WO2024018533A1 (ja) 学習装置、学習方法及び学習プログラム
CN115796405B (zh) 针对优化模型的求解报告生成方法及计算设备
CN113066498B (zh) 信息处理方法、设备和介质
CN118071310B (zh) 一种基于流程引擎的业务处理方法及***
CN115906798A (zh) 文本匹配、文本匹配模型训练、文本预测方法以及装置
CN112015876A (zh) 时间解析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination