CN115114933A

CN115114933A - 用于文本处理的方法、装置、设备和存储介质

Info

Publication number: CN115114933A
Application number: CN202210773089.XA
Authority: CN
Inventors: 章峻珲; 鲍吴迪; 马泽君
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-27

Abstract

根据本公开的实施例，提供了用于文本处理的方法、装置、设备和存储介质。在该方法中，基于第一语言的原文本中的多个文本单元生成多个第一特征表示，多个第一特征表示指示相应文本单元的语义；将多个第一特征表示与第二特征表示结合以形成特征表示序列，第二特征表示指示多个文本单元中的各个文本单元是否为文本单元组的边界；以及基于特征表示序列，生成第二语言的转换文本。以此方式，可以显著提高文本转换的准确度和效率。

Description

用于文本处理的方法、装置、设备和存储介质

技术领域

本公开的示例实施例总体涉及计算机领域，特别地涉及用于文本处理的方法、装置、设备和计算机可读存储介质。

背景技术

文本转语音(Text-to-speech，简称为TTS)是一种语音合成应用，其将文本转换成自然语音输出。TTS***一般包括前端***和后端***。前端***负责把输入的文本转化为一些中间结果，诸如文本分词分句、韵律(用于控制说话节奏和语调等)、音素的信息等等，然后将这些中间结果发送给后端***。后端***根据已有的录音数据生成尽量符合这些结果的声音。例如，后端***可以首先从音频中总结出一些音频特征(例如，梅尔谱)，然后使用训练算法来训练用于将前端结果映射到这些音频特征的转换器，即声学模型。后端***可以用声码器将这些音频特征还原成可以听到的声音。

汉语方言TTS***可以用于将方言文本转换成方言语音。然而，该***通常只能由方言专家使用，因为汉语方言与汉语普通话的字词、惯用语、语法和用法往往有很大差别，即使是本土人士也很难输入正确的语句。

发明内容

在本公开的第一方面，提供了一种文本处理的方法。该方法包括基于第一语言的原文本中的多个文本单元生成多个第一特征表示，多个第一特征表示指示相应文本单元的语义；将多个第一特征表示与第二特征表示结合以形成特征表示序列，第二特征表示指示多个文本单元中的各个文本单元是否为文本单元组的边界；以及基于特征表示序列，生成第二语言的转换文本。

在本公开的第二方面，提供了一种文本处理的方法。该方法包括获取训练文本对，训练文本对包括第一语言的原文本和第二语言的目标文本；利用转换模型，将原文本转换为第二语言的转换文本，包括：基于原文本中的多个文本单元生成多个第一特征表示，多个第一特征表示指示相应文本单元的语义，将多个第一特征表示与第二特征表示结合形成特征表示序列，第二特征表示指示多个文本单元中的各个文本单元是否为文本单元组的边界，以及基于特征表示序列，生成转换文本；以及至少基于转换文本与目标文本之间的差异，来训练转换模型。

在本公开的第三方面，提供了一种文本处理的装置。该装置包括特征生成模块，被配置为基于第一语言的原文本中的多个文本单元生成多个第一特征表示，多个第一特征表示指示相应文本单元的语义；特征结合模块，被配置为将多个第一特征表示与第二特征表示结合以形成特征表示序列，第二特征表示指示多个文本单元中的各个文本单元是否为文本单元组的边界；以及转换模块，被配置为基于特征表示序列，生成第二语言的转换文本。

在本公开的第四方面，提供了一种文本处理的装置。该装置包括文本获取模块，被配置为获取训练文本对，训练文本对包括第一语言的原文本和第二语言的目标文本；文本转换模块，被配置为利用转换模型，将原文本转换为第二语言的转换文本，文本转换模块进一步被配置为：基于原文本中的多个文本单元生成多个第一特征表示，多个第一特征表示指示相应文本单元的语义，将多个第一特征表示与第二特征表示结合形成特征表示序列，第二特征表示指示多个文本单元中的各个文本单元是否为文本单元组的边界，以及基于特征表示序列，生成转换文本；以及训练模块，被配置为至少基于转换文本与目标文本之间的差异，来训练转换模型。

在本公开的第五方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面或第二方面的方法。

在本公开的第六方面，提供了一种计算机可读存储介质。介质上存储有计算机程序，程序被处理器执行时实现第一方面或第二方面的方法。

应当理解，该内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2A示出了根据本公开的一些实施例的汉语方言TTS前端的处理过程的流程图；

图2B示出了根据本公开的一些实施例的在汉语方言TTS前端处理中的字到音转换过程的流程图；

图3示出了根据本公开的一些实施例的文本处理过程的流程图；

图4示出了根据本公开的一些实施例的用于文本转换的模型的示例架构的示意图；

图5示出了根据本公开的一些实施例的模型训练过程的流程图；

图6A和图6B示出了根据本公开的一些实施例的对齐维度转换前后目标对齐矩阵的变化情况的示意图；

图7示出了根据本公开的一些实施例的文本处理的装置的框图；

图8示出了根据本公开的一些实施例的文本处理的装置的框图；以及

图9示出了能够实施本公开的多个实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的一些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

在此使用的术语“文本单元”是指文本处理的基本单元，其粒度可以根据应用而改变和设置。例如，文本单元可以包括字、词、短语、字符、前述的组合，或者任何其他在自然语言表达中会出现的单元。在一些示例中，文本单元也被称为令牌(token)。

在此使用的术语“文本单元组”是指多个文本单元的集合。例如，在文本单元是字的情况下，文本单元组可以包括词、短语或者句子等等。

在此使用的术语“特征表示”是指反映文本或文本单元的某种特点的表示形式，其从文本或文本单元中提取，或者可以基于文本或文本单元生成。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获得或使用)应当遵循相应法律法规及相关规定的要求。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，响应于接收到用户的主动请求，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获得和使用到用户的个人信息，从而使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限制性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式，例如可以是弹出窗口的方式，弹出窗口中可以以文字的方式呈现提示信息。此外，弹出窗口中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获得用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其他满足相关法律法规的方式也可应用于本公开的实现方式中。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联关系，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代更新参数值，直到模型能够从训练数据中获得一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在应用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

如以上提及的，由于汉语方言的字词、惯用语、语法和用法有很强的特殊性，所以方言TTS***通常只能由方言专家使用。已有的主要解决方案是直接在方言TTS任务上复用普通话前端。由于方言缺少分词工具和词汇表，通常将普通话词典进行补充后代替方言词典。这种方言TTS***通常在输入与普通话表达相似的汉语方言的情况下才运行良好。这是因为方言录音是基于方言文本进行录制的，后端***所使用的声学模型通常也是基于方言的文本和音频进行训练的；而普通话前端缺少对方言的支持，其基于普通话表达习惯对方言的分词、韵律、音素等信息进行预测，导致了前端结果不准确。

然而，用户使用方言TTS时通常会输入表达不准确的方言文本或直接输入普通话文本。如果输入的文本与训练时所用的方言文本表达差别较大，则后端***的声学模型会出现不适应的问题，生成的音频音质和自然度相对较差。例如，粤语方言中将“你先吃饭”表达为“你食饭先”，如果TTS***基于“你食饭先”进行音频合成，则能够生成表达比较地道，流畅度较好的粤语音频。但因用户对粤语方言不熟悉，将“你先吃饭”或者“你吃饭先”这种不够地道的表达输入了TTS***，而后端的模型在训练中没有见过这样的表达，所以生成的粤语音频的地道程度和流畅度就会大幅降低。

图1示出了本公开的实施例能够在其中实现的示例环境100。

如图1所示，示例环境100包括电子设备110，其包括文本转换***115。文本转换***115被配置为将一种语言(称为“第一语言”，例如，汉语普通话)的文本(称为“原文本”)120转换成另一种语言(称为“第二语言”，例如，汉语方言)的文本(称为“转换文本”)122。仅仅出于说明的目的，在图1中示出了原文本是普通话文本“他说要给大家做点好吃的，显显本领”，第二文本是粤语方言文本“佢话要煮啲好嘢畀大家食，骚吓quali”。

应当理解，文本转换***115可以用于任何两种语言文本之间的转换。例如，文本转换***115可以将普通话文本转成其他方言文本，将方言文本转换成普通话文本，将一种方言文本转换成另一种方言文本，或者可以在中文文本与其他语言文本之间进行转换，等等。

文本转换***115可以采用任意适当方式来进行文本转换操作。在环境100中，文本转换可以利用转换模型130来实现。转换模型130可以是任意适当机器学习模型，例如，Transformer模型。

电子设备110可以是终端设备或是服务端设备。终端设备例如可以是各种便携式或固定终端，诸如、平板电脑、台式计算机、笔记本计算机、手机、通用电子设备等。服务端设备例如可以是集中式服务器、分布式服务器、大型机、边缘电子设备、或者云等。

应当理解，电子设备110中的文本转换***115以及下文中将描述的其他附图中的各***、单元、模块、组件和/或部件可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。

还应当理解，图1中所示出的电子设备110的结构仅仅示例而非限制。取决于具体实现，电子设备110还可以包括其他任意适当***、单元、模块、组件和/或部件，以用于实现相应的功能。例如，在一些实施例中，电子设备110可以执行TTS处理，将由文本转换***115生成的转换文本125进一步转换成相应的音频输出。在这些实施例中，电子设备110可以包括用于执行TTS过程的组件或部件。

在一些实施例中，文本转换***115可以应用于汉语方言专用TTS前端。下面结合图2A和图2B讨论这方面的一些实施例。

图2A示出了根据本公开的一些实施例的汉语方言TTS前端的处理过程200。过程200可以在电子设备110处实现。为便于讨论，将结合图1的环境100来描述过程200。

在过程200中，原文本120经过文本转换***115处理后得到转换文本125。作为示例，原文本120可以是普通话文本“你在那干什么？膝盖都破皮了！”转换文本可以是东北话文本“你搁那儿干哈呢？波罗盖儿都秃噜皮了！”如图2A所示，文本转换***115可以在框202利用转换模型130来进行文本转换，将上述普通话文本转换成相应的东北话文本。

在一些实施例中，为了保护用户输入的不规则字符或字符串按原样输出，可以将一些无法翻译的字符或字符串替换为特殊标记，在文本转换完成后再将这些特殊标记重新替换为原始字符串。例如，如图2A所示，在框202进行文本转换之前，先在框204进行字符替换，例如，将一些预定字符或字符串(如表情符号、缩写、网址等)替换为预定标记(例如<rep>)。在转换模型130推理结束后，在框206，进行字符反替换，将预定标记恢复或重新替换为原始字符。

在过程200中，在框208，进行文本预处理，例如，可以执行非法字符去除、文本半角化、繁简转换等等诸多统一文本格式的操作。在框210，进行文本正则化处理。例如，可以将不可读文本(例如，数字、符号等非文字形式)转写成可读文本(例如，纯文字形式)。由此，可以消除TTS***可能出现的读音错误，提升所生成的语音的自然度。例如，原文本120是普通话文本“我花了666块住进了一个房号是666的房间”。在这句话中，TTS***很难分辨出前后的两个“666”应该读成“六六六”还是“六百六十六”。通过框210处的文本正则化处理可以将前一个“666”转写成“六百六十六”，后一个“666”转写成“六六六”。

在框212，进行分词、词性和韵律预测。例如，可以使用模型或规则，预测转换文本(例如，方言文本)的分词和韵律边界及词性。分词正确与否对句意理解有很大影响。例如，“广州市长隆马戏欢迎你”的正确分词为“广州市”“长隆”“马戏”“欢迎你”。如果错误地分词为“广州”“市长”“隆马戏”“欢迎你”，会导致句意完全不正确。韵律预测可以例如根据停顿时长和前后音高特征分为韵律词边界、韵律短语边界和语调短语边界，通过预测不同的边界达到语句抑扬顿挫的效果，增强合成音频真实感。

在框214，进行字到音(graphemes to phonemes，简称G2P)转换，用于顺序地将文本转成音素。由于中文中多音字的存在，前端***需要根据前面操作得到的辅助信息(例如，分词和词性等)和一些算法来正确的决策每个字的读音。使用G2P转换可以将文本转成音素序列。下面将结合图2B讨论G2P转换的示例过程。

图2B示出了根据本公开的一些实施例的在汉语方言TTS前端处理中的G2P转换的示例过程216。

如2B所示，在框218，使用方言专用字典对每个单字进行注音。在框220，使用多音字模型预测的字音覆盖字典的注音。在框222，根据词典进行词条级别的注音覆盖单字注音。在框224，使用不同方言的变调规则覆盖注音。例如，在转换文本125是东北话文本的实施例中，东北话“一”、“七”、“八”在4调之前分别读“yi2”、“qi2”、“ba2”，而“还”、“没”、“别”在1、2、3调之前分别读“hai4”、“mei4”、“bie4”。在框226，根据合成效果差的音频提出后修正规则，修正注音。

接下来，继续参考图2，在进行了G2P转换之后，在框228，输出TTS前端结果。通过过程200，可以将普通话文本转换为具有正确字法和语法的方言文本，从而提高合成语音的可理解性和自然度。

应当理解，仅仅出于说明的目的，而无意于提出任何限制，在图2示出了文本转换***115应用于汉语方言TTS前端处理并且使用转换模型130来进行文本转换。在一些实施例中，文本转换***115可以用于自动语音识别处理的后端。例如，在将英文语音识别成英文文本后，可以利用文本转换***115将英文文本转换成中文文本。而且，文本转换***115可以采用其他适当方式来进行文本转换。

为了提高文本转换的性能和效果，本公开的一些实施例提出了一种文本转换机制，以供文本转换***115使用。根据该机制，在将第一语言的原文本转换成第二语言的转换文本的过程中，不仅考虑原文本各文本单元(例如，字)的语义特征，还考虑各文本单元是否为文本单元组(例如，词)边界这一特征。由此，在转换过程中，可以将文本单元以及文本单元组层面的语义信息一并考虑，提高了转换后文本的准确度。

下面将结合图3和图4讨论这方面的一些实施例。

图3示出了根据本公开的一些实施例的文本处理过程300。过程300可以在图1中的文本转换***115处实现。为便于讨论，将结合图1的环境100来描述过程300。

在框305，基于第一语言的原文本120中的多个文本单元生成多个特征表示(称为“第一特征表示”)。这些第一特征表示指示相应文本单元的语义。第一特征表示可以在原文本的任意处理阶段生成。例如，在利用转换模型130来进行文本转换的实施例中，第一特征表示可以是经过自注意力计算的原文本的中间嵌入表示。

在框310，将多个第一特征表示与另一特征表示(称为“第二特征表示”)结合形成特征表示序列。第二特征表示指示各个文本单元是否为文本单元组的边界。例如，可以使用数字“1”表示相应文本单元是分词边界，数字“0”表示相应文本单元不是边界。由此，所得到的第二特征表示的长度与第一特征表示的数目相等。

第二特征表示可以实现为任意适当形式。例如，在第一特征表示是经过自注意力计算的原文本的中间嵌入表示的实施例中，第二特征表示也可以实现为嵌入表示的形式，以便与第一特征表示拼接在一起，例如，拼接在第一特征表示的后面，形成特征表示序列。

考虑文本单元是字并且文本单元组是词的例子，在进行文本转换过程中，可以在从原文本中提取的指示各文本单元(例如，字级别)语义的第一特征表示之后，额外拼接指示各文本单元是否为文本单元组的边界(例如，分词边界)的第二特征表示。这样，在进行文本转换过程中，可以组合考虑文本单元级别(例如，字级别)以及文本单元组级别(例如，词级别)的语义，提高了文本转换的准确度。

在框315，基于第一特征表示和第二特征表示结合形成的特征表示序列，生成第二语言的转换文本125。

为了进一步提高文本转换的效率，在一些实施例中，在生成各文本单元的第一特征表示的过程中，可以对文本单元分组来利用注意力权重进行加权。例如，可以将文本单元各自的向量表示分成多个向量表示组。针对一个向量表示组，确定各向量表示的注意力权重，并且通过利用这些注意力权重对各向量表示加权来确定各向量表示的第一特征表示。向量表示可以是在原文本的任意处理阶段中生成的用于代表相应文本单元的表示形式。例如，向量表示可以是原文本初始化过程中所生成的向量形式的嵌入表示。

采用多分支的策略来计算自注意力，可以减少计算注意力所消耗的计算量。例如，如果分支数为n(其中n为任意适当整数)，对于每个分支分别计算注意力，所消耗的总体计算量减少为1/n。

在一些实施例中，在执行文本转换之前，可以将预定字符或字符串替换为预定标记，以使得一些无法转换的不规则字符或字符串可以按原样输出。在这些实施例中，原文本120和转换文本125可以都包括与至少一个预定字符或字符串相对应的预定标记。在这种情况下，可以将转换文本125中的预定标记恢复为预定字符或字符串。通过重新用原始字符或字符串替换预定标记，可以保留用户所期望的原始内容。

作为示例，原始的用户输入是普通话文本“怎么不登QQ了？”，其可以通过用预定标记“<rep>”替换字符串“QQ”而被预处理为“怎么不登<rep>了？”，作为原文本120。经过文本转换后得到粤语文本“点解唔登录<rep>啊？”，作为转换文本125。最后，将“<rep>”其替换为“QQ”，得到“点解唔登录QQ啊？”作为最终输出。

为了进一步提高文本转换效率，在一些实施例中，文本转换***115可以使用非自回归机器学习模型来实现文本转换。例如，图1中所示的转换模型130可以基于诸如GLAT(Glancing Transformer)模型的轻量非自回归模型，以进一步提高推理速度，从而能够更好地适应方言TTS前端中的文本转换任务或者其他对时效性要求较高的文本转换任务。下面将结合图4讨论使用非自回归机器学习模型来进行文本转换的一些实施例。

图4示出了根据本公开的一些实施例的用于文本转换的转换模型130的示例架构400。

在架构400中，转换模型130整体上包括如下四个部分：多分支Transformer编码器402、多分支非自回归Transformer解码器404、决定何时停止预测的长度预测器406以及用于将中间表示解码成文字翻译结果的翻译预测器408。

如图4所示，转换模型130首先接收原文本120输入。作为示例，原文本120是普通话文本“那我现在给你打电话了。”原文本120的初始化向量表示为字级别的嵌入表示410，向其增加位置编码412后输入编码器402。

编码器402通过多分支计算多头自注意力414，并通过前馈网络416拼接得到的注意力，计算出中间嵌入表示418。采用多分支的策略计算自注意力，可以减少模型130计算注意力操作在前馈网络416消耗的计算量。例如，假设分支数为n，则在编码器402中将输入的字级别的嵌入表示410分为n个分支，对于每个分支分别计算注意力，再通过前馈网络416将其拼接在一起。如此，前馈网络416消耗的总体计算量减少为1/n。

在中间嵌入表示418中增加作为分词边界信息的嵌入表示420。每个字都具有相应的分词边界指示，由此得到与输入的字级别嵌入表示410的序列等长的分词嵌入序列。例如，“那我现在给你打电话了。”的分词结果为“那|我|现在|给|你|打电话|了|。|”。如果使用数字1表示分词边界，0表示非边界，则分词嵌入序列为“11101110011”。如图4所示，分词嵌入表示420作为单独的一层嵌入表示拼接在编码器402生成的中间嵌入表示418后。继而，可以通过一层全连接层恢复原始维度，作为最终的嵌入表示422。

由于模型130在单字级别对原文本进行嵌入表示，在编码器402生成的中间嵌入表示418中添加额外的分词边界信息将有助于模型130理解词语层面的语义信息，由此可以进一步提高文本转换的准确度。

长度预测器406接收编码器与解码器间的注意力424，并计算目标语句的长度信息，将其输入解码器404。解码器404接收中间嵌入表示422和长度信息426，使用同样的多分支计算注意力428。最终翻译预测器408接收解码器404的输出，并结合词典将其映射成转换文本125，例如，粤语文本“咁我而家打电话俾你啦。”

如图4所示，架构400还利用了随机采样策略430。根据该策略，在训练模型130的过程中解码器404执行两步解码，而在预测或转换过程中进行一次解码。在两步解码的第一步中，解码器404直接进行解码，根据输出语句的好坏来估计模型130需要看到的目标词语的数目，然后采样相应数目的目标词语并替换到解码器404的输入中。第二步，解码器404解码过程中使用经目标词语替换的输入来使模型130学习剩余词语的输出。例如，输入“那我现在给你打电话了。”后，第一步的转换结果是“咁我在在给你打电话”，该结果与目标语句“咁我而家打电话俾你啦。”进行对比后，发现当前结果较差。因此，随机采样了字“而”、“家”、“俾”、“你”，并把其相应的向量形式的字级中间嵌入表示替换到相应位置的解码器404输入中。执行第二步解码过程中，解码器404需要预测剩下的字并与“咁”，“我”，“打”，“电”，“话”，“啦”，“。”进行比对，从而进一步训练模型130。由此，实现了一个高性能的基于非自回归神经网络的转换模型130。

为了增强转换模型130的推理性能，本公开的一些实施例提出了一种模型训练方案。下面将结合图5、图6A和图6B讨论这方面的一些实施例。

图5示出了根据本公开的一些实施例的模型训练过程500。过程500可以在图1所示的电子设备110处实现，或者在与电子设备110物理上分离的其他设备处实现，或者一部分在电子设备110处、一部分在其他设备处实现。为便于讨论，将结合图1的环境100来描述过程500。

如图5所示，在框505，获取训练文本对，其中包括第一语言的原文本和第二语言的目标文本。

在框510，利用转换模型130，将原文本转换为第二语言的转换文本。根据本公开的一些实施例，在进行文本转换过程中，基于原文本中的多个文本单元生成多个第一特征表示，其指示相应文本单元的语义。将这些第一特征表示与指示各文本单元是否为文本单元组的边界的第二特征表示结合，形成特征表示序列。转换文本基于该特征表示序列而生成。

如此，训练后的模型130可以学习到文本单元级别(例如，字级别)和文本单元组级别(例如，词级别)的语义信息，有助于其在文本单元和文本单元组层面理解原文的语义，从而可以提高模型130的预测性能。

为了进一步提高模型训练效率，在一些实施例中，在生成各文本单元的第一特征表示的过程中，可以分组利用注意力权重对文本单元进行加权。例如，可以将文本单元各自的向量表示分成多个向量表示组。针对一个向量表示组，确定各向量表示的注意力权重，并且利用这些注意力权重对各向量表示进行加权，以确定各向量表示的第一特征表示。

在框515，至少基于转换文本与目标文本之间的差异，来训练转换模型130。

在一些实施例中，还可以基于转换文本和原文本之间的对齐信息来进一步训练模型130。例如，可以确定与原文本和目标文本相关联的目标对齐信息，并且进一步基于转换文本和原文本之间的预测对齐信息与目标对齐信息之间的对齐损失，来训练转换模型130。对齐信息可以表示转换前后的文本中各字词的对应关系，学习到合理的对齐信息能够提升模型130的预测效果。

可以任意适当方式来得到目标对齐信息。例如，可以使用GIZA++v2工具来产生目标对齐信息。GIZA++v2工具所得到的对齐信息通常是词维度的。在转换模型130使用单字分词的实施例中，模型130预测出的对齐信息是字维度的。在这种情况下，可以将所产生的词维度的目标对齐信息转换为字维度，以便与模型130的字维度对齐信息计算对齐损失。

在转换维度过程中，可以将对应的目标词语的字与原词语的第一个字对齐。下面将结合图6A和图6B讨论维度转换前后目标对齐矩阵的变化情况。

图6A示出了根据本公开的一些实施例的词维度的目标对齐矩阵，而图6B示出了根据本公开的一些实施例的字维度的目标对齐矩阵。

如所示出的，作为原文本的普通话文本“一大早起来吃点什么去呢？”被转换成作为目标文本的粤语文本“一大早起身食啲咩去咧？”在词维度的对齐中，“起身”对应原词语“起床”，而转换为字维度对齐中，“起”“身”两个字则都对应于“起床”的第一个字“起”。由此，可以便于计算目标对齐信息与模型130产生的预测对齐信息之间的对齐损失，使模型130可以在词语层面上进一步理解原文本含义。

对齐损失可以采用任意适当算法来计算。在一些实施例中，可以计算目标对齐信息与预测对齐信息之间的均方误差对齐损失，以减小模型130产生的预测对齐信息与目标对齐信息的差距。

在一些实施例中，为了增强训练数据集，可以使用自回归机器学习模型获得更多的训练数据。例如，可以利用自回归模型将第一语言的多个原文本转换成相应的第二语言的多个目标文本，继而基于多个原文本和目标文本生成增强的训练数据集。在对模型130进行训练的过程中，从增强的训练数据集中获取训练文本对。

在生成训练数据集的过程中，可以收集不同领域、不同句长的第一语言(例如，汉语普通话)的单语料库，并利用自回归模型将所有的第一语言的原文本翻译成第二语言的目标文本(例如，目标方言文本)作为增强后的数据集，从而可以进一步避免预测出叠字。还可以预先对自回归模型进行训练，以进一步提高其性能。

为了使模型130可以将一些无法翻译的不规则的字符或字符串(如表情符号、缩写、网址等)按原样输出，在一些实施例中，可以对训练数据集进行预处理，将其中的原文本和目标文本中的预定字符或字符串(例如，不规则字符或字符串)替换为相应的预定标记，以生成更新后的训练数据集。在对模型130进行训练的过程中，从更新后的训练数据集中获取训练文本对。例如，可以使用正则表达式匹配不规则字符或字符串，并将每个字符或字符串依次替换为一个预定标记。这样，模型130就可以学习到原文本与目标文本之间预定标记的对应关系。

为了进一步提高模型训练效率，在一些实施例中，在生成各文本单元的第一特征表示的过程中，可以分组利用注意力权重对文本单元进行加权。例如，可以将文本单元各自的向量表示分成多个向量表示组。针对一个向量表示组，确定各向量表示的注意力权重，并且相应地进行加权后得到各向量表示的第一特征表示。向量表示可以是原文本初始化过程中得到的向量形式的嵌入表示或者在原文本处理的其他阶段中生成的用于代表相应文本单元的表示形式。

图7示出了根据本公开的一些实施例的文本处理的装置700的示意性结构框图。装置700可以被实现为或者被包括在电子设备110中。装置700中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如所示出的，装置700包括特征生成模块710、特征结合模块720和转换模块730。特征生成模块710被配置为基于第一语言的原文本中的多个文本单元生成多个第一特征表示，多个第一特征表示指示相应文本单元的语义。特征结合模块720被配置为将多个第一特征表示与第二特征表示结合以形成特征表示序列，第二特征表示指示多个文本单元中的各个文本单元是否为文本单元组的边界。转换模块730被配置为基于特征表示序列，生成第二语言的转换文本。

在一些实施例中，特征生成模块710可以进一步被配置为：获取多个文本单元各自的向量表示；将向量表示分成多个向量表示组；以及针对多个向量表示组中的一个向量表示组，确定向量表示组中的各向量表示的注意力权重，以及利用所确定的注意力权重对各向量表示进行加权，以确定各向量表示的第一特征表示。

在一些实施例中，原文本和转换文本中可以都包括与至少一个预定字符或字符串相对应的至少一个预定标记。装置700还可以包括字符恢复模块，其被配置为将转换文本中的至少一个预定标记恢复为至少一个预定字符或字符串。

在一些实施例中，装置700可以基于非自回归机器学习模型来操作。

图8示出了根据本公开的一些实施例的文本处理的装置800的示意性结构框图。装置800可以被实现为或者被包括在电子设备110中，或者可以被实现为或者被包括在与电子设备110物理上分离的其他设备中，或者一部分被实现为或者被包括在电子设备110中、一部分被实现为或者被包括在其他设备处中。装置800中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如所示出的，装置800包括文本获取模块810、文本转换模块820和训练模块830。文本获取模块810被配置为获取训练文本对，训练文本对包括第一语言的原文本和第二语言的目标文本。文本转换模块820被配置为利用转换模型，将原文本转换为第二语言的转换文本。文本转换模块820进一步被配置为：基于原文本中的多个文本单元生成多个第一特征表示，多个第一特征表示指示相应文本单元的语义，将多个第一特征表示与第二特征表示结合形成特征表示序列，第二特征表示指示多个文本单元中的各个文本单元是否为文本单元组的边界，以及基于特征表示序列，生成转换文本。训练模块830被配置为至少基于转换文本与目标文本之间的差异，来训练转换模型。

在一些实施例中，训练模块830可以进一步被配置为：确定与原文本和目标文本相关联的目标对齐信息；以及进一步基于转换文本和原文本之间的预测对齐信息与目标对齐信息之间的对齐损失，来训练转换模型。

在一些实施例中，文本获取模块810可以进一步被配置为：利用自回归模型，将第一语言的多个原文本转换成相应的第二语言的多个目标文本；基于多个原文本和多个目标文本生成训练数据集；以及从训练数据集中获取训练文本对。

在一些实施例中，文本获取模块810可以进一步被配置为：将训练数据集中的原文本和目标文本中的多个预定字符或字符串替换为相应的多个预定标记，以生成更新后的训练数据集；以及从更新后的训练数据集中获取训练文本对。

在一些实施例中，文本转换模块820可以进一步被配置为获取多个文本单元相应的多个向量表示；将多个向量表示分成多个向量表示组；以及针对多个向量表示组中的一个向量表示组，确定向量表示组中的各向量表示的注意力权重，以及利用所确定的注意力权重对各向量表示进行加权，以确定各向量表示的第一特征表示。

在一些实施例中，转换模型可以是非自回归机器学习模型。

应当理解，上文参考图1至图6B讨论的关于过程300和500的特征和效果同样适用于装置700和800，在此不再赘述。另外，装置700和/或装置800中所包括的模块可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。在一些实施例中，一个或多个模块可以使用软件和/或固件来实现，例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代，装置700和/或装置800中的部分或者全部模块可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制，可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上***(SOC)、复杂可编程逻辑器件(CPLD)，等等。

图9示出了其中可以实施本公开的一个或多个实施例的电子设备900的框图。应当理解，图9所示出的电子设备900仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。

如图9所示，电子设备900是通用电子设备的形式。电子设备900的组件可以包括但不限于一个或多个处理器或处理单元910、存储器920、存储设备930、一个或多个通信单元940、一个或多个输入设备950以及一个或多个输出设备960。处理单元910可以是实际或虚拟处理器并且能够根据存储器920中存储的程序来执行各种处理。在多处理器***中，多个处理单元并行执行计算机可执行指令，以提高电子设备900的并行处理能力。

电子设备900通常包括多个计算机存储介质。这样的介质可以是电子设备900可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器920可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备930可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在电子设备900内被访问。

电子设备900可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图9中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器920可以包括计算机程序产品925，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元940实现通过通信介质与其他电子设备进行通信。附加地，电子设备900的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，电子设备900可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备950可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备960可以是一个或多个输出设备，例如显示器、扬声器、打印机等。电子设备900还可以根据需要通过通信单元940与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与电子设备900交互的设备进行通信，或者与使得电子设备900与一个或多个其他电子设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种文本处理的方法，包括：

基于第一语言的原文本中的多个文本单元生成多个第一特征表示，所述多个第一特征表示指示相应文本单元的语义；

将所述多个第一特征表示与第二特征表示结合以形成特征表示序列，所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界；以及

基于所述特征表示序列，生成第二语言的转换文本。

2.根据权利要求1所述的方法，其中基于所述多个文本单元生成所述多个第一特征表示包括：

获取所述多个文本单元各自的向量表示；

将所述向量表示分成多个向量表示组；以及

针对所述多个向量表示组中的一个向量表示组，

确定所述向量表示组中的各向量表示的注意力权重，以及

利用所确定的注意力权重对所述各向量表示进行加权，以确定所述各向量表示的所述第一特征表示。

3.根据权利要求1所述的方法，其中所述原文本和所述转换文本中都包括与至少一个预定字符或字符串相对应的至少一个预定标记，并且所述方法还包括：

将所述转换文本中的所述至少一个预定标记恢复为所述至少一个预定字符或字符串。

4.根据权利要求1所述的方法，其中所述方法是使用非自回归机器学习模型实现的。

5.一种文本处理的方法，包括：

获取训练文本对，所述训练文本对包括第一语言的原文本和第二语言的目标文本；

利用转换模型，将所述原文本转换为所述第二语言的转换文本，包括：

基于所述原文本中的多个文本单元生成多个第一特征表示，所述多个第一特征表示指示相应文本单元的语义，

将所述多个第一特征表示与第二特征表示结合形成特征表示序列，所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界，以及

基于所述特征表示序列，生成所述转换文本；以及

至少基于所述转换文本与所述目标文本之间的差异，来训练所述转换模型。

6.根据权利要求5所述的方法，其中训练所述转换模型还包括：

确定与所述原文本和所述目标文本相关联的目标对齐信息；以及

进一步基于所述转换文本和所述原文本之间的预测对齐信息与所述目标对齐信息之间的对齐损失，来训练所述转换模型。

7.根据权利要求5所述的方法，其中获取所述训练文本对包括：

利用自回归模型，将所述第一语言的多个原文本转换成相应的所述第二语言的多个目标文本；

基于所述多个原文本和所述多个目标文本生成训练数据集；以及

从所述训练数据集中获取所述训练文本对。

8.根据权利要求5所述的方法，其中获取所述训练文本对包括：

将训练数据集中的原文本和目标文本中的多个预定字符或字符串替换为相应的多个预定标记，以生成更新后的训练数据集；以及

从所述更新后的训练数据集中获取所述训练文本对。

9.根据权利要求5所述的方法，其中基于所述多个文本单元生成所述多个第一特征表示包括：

获取所述多个文本单元相应的多个向量表示；

将所述多个向量表示分成多个向量表示组；以及

针对所述多个向量表示组中的一个向量表示组，

确定所述向量表示组中的各向量表示的注意力权重，以及

10.根据权利要求5所述的方法，其中所述转换模型是非自回归机器学习模型。

11.一种文本处理的装置，包括：

特征生成模块，被配置为基于第一语言的原文本中的多个文本单元生成多个第一特征表示，所述多个第一特征表示指示相应文本单元的语义；

特征结合模块，被配置为将所述多个第一特征表示与第二特征表示结合以形成特征表示序列，所述第二特征表示指示所述多个文本单元中的各个文本单元是否为文本单元组的边界；以及

转换模块，被配置为基于所述特征表示序列，生成第二语言的转换文本。

12.一种文本处理的装置，包括：

文本获取模块，被配置为获取训练文本对，所述训练文本对包括第一语言的原文本和第二语言的目标文本；

文本转换模块，被配置为利用转换模型，将所述原文本转换为所述第二语言的转换文本，所述文本转换模块进一步被配置为：

基于所述特征表示序列，生成所述转换文本；以及

训练模块，被配置为至少基于所述转换文本与所述目标文本之间的差异，来训练所述转换模型。

13.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述设备执行根据权利要求1至4或者权利要求5至10中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至4或者权利要求5至10中任一项所述的方法。