CN114564932A

CN114564932A - 篇章对齐方法、装置、计算机设备和介质

Info

Publication number: CN114564932A
Application number: CN202111411704.4A
Authority: CN
Inventors: 施杨斌; 葛鑫
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-05-31

Abstract

本公开提供了一种篇章对齐方法、装置、计算机设备和介质。该篇章对齐方法用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐，第一文本包括第二篇章的多个预对齐篇章且第二文本包括第一篇章的多个预对齐篇章，该方法包括：确定第一篇章和第二篇章各自篇章向量的余弦相似度，得到目标相似度；确定第一篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第一相似度；确定第二篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第二相似度；根据目标相似度与多个第一相似度和多个第二相似度的差距，确定第一篇章和第二篇章是否对齐。本公开使得篇章对的判别精准度得以提高。

Description

篇章对齐方法、装置、计算机设备和介质

技术领域

本公开涉及人工智能领域，具体而言，涉及一种篇章对齐方法、装置、计算机设备和介质。

背景技术

高质量、大数量的双语平行语料是训练机器翻译模型的关键。双语平行语料的来源众多，常见的不仅有***语料、字幕语料和词典例句语料，还有近些年来随互联网发展而越来越多的互联网语料。

从互联网语料中提取双语平行语料，离不开互译篇章对的挖掘(即需要执行篇章对齐的步骤)。以苹果公司为例，该公司具有中英日韩等几乎所有国家的本地化官网，这些本地化官网各自提供以本地语言描述iPhone 13的互联网语料，从这些互联网语料中提取双语平行语料，首先需要从两个本地化官网中挖掘出描述iPhone 13的互译篇章对，在得到篇章对后方可通过篇章对中挖掘互译句对来得到所需的双语平行语料。

目前，篇章对齐方法在确定两篇章是否对齐时只考虑了两篇章各自所对应篇章向量的余弦相似度，这种方法会因多语言嵌入信息部分丢失或不准而降低篇章对判别的精准度。

发明内容

有鉴于此，本公开旨在改善篇章对齐方法，从而使得确定的篇章对具有较高的对齐准确度。

根据本公开的第一方面，提供一种篇章对齐方法，用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐，第一文本包括所述第二篇章的多个预对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章，所述方法包括：

确定所述第一篇章和所述第二篇章各自篇章向量的余弦相似度，得到目标相似度；

确定所述第一篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第一相似度；

确定所述第二篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第二相似度；

根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距，确定所述第一篇章和所述第二篇章是否对齐。

可选地，根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距，确定所述第一篇章和所述第二篇章是否对齐，包括：

根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐；

其中，所述第相似一信息为所述目标相似度和相似度平均值的商，所述相似度平均值为所述多个第一相似度和所述多个第二相似度的平均值。

可选地，所述第一文本和所述第二文本包括的各篇章皆为一个网页中的文本内容，根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐，包括：

根据所述第一相似信息和第二相似信息的加权和确定所述第一篇章和所述第二篇章是否对齐；

其中，所述第二相似信息为确定第一文档信息和第二文档信息是否相似的信息，所述第一文档信息为所述第一篇章所对应网页的元信息，所述第二文档信息为所述第二篇章所对应网页的元信息

可选地，所述篇章对齐方法，还包括确定所述第一篇章和所述第二篇章各自预对齐篇章的篇章向量，且确定步骤如下：

获取当前文本中各篇章的篇章向量，得到多个候选篇章向量；

获取当前篇章的篇章向量，得到一个当前篇章向量；

在所述多个候选篇章向量中检索出与所述当前篇章向量较接近的预设数量个候选篇章向量，并将检索出的各候选篇章向量确定为所述当前篇章的预对齐篇章的篇章向量；

其中，所述当前篇章为所述第一篇章和所述第二篇章中的一个，所述当前篇章为所述第一篇章的情况下所述当前文本为所述第二文本，所述当前篇章为所述第二篇章的情况下所述当前文本为所述第一文本。

可选地，获取当前文本中各篇章的篇章向量，包括：获取所述当前文本所包括篇章中各个句子在多语言向量空间的句子向量，对该篇章得到的多个句子向量进行各维度的池化操作，以得到该篇章的篇章向量。

可选地，获取当前文本中各篇章的篇章向量，还包括：

通过向量调节模型对池化操作得到的向量进行以下任一种调节：增大向量维度、减小向量维度、调节向量元素取值；

以及，将调节得到的向量确定为该篇章的篇章向量。

可选地，所述向量调节模型通过以下步骤预先训练得到：

构造由篇章向量样本构成的样本集，所述篇章向量样本关联有篇章期望向量；

将所述样本集中每个篇章向量样本输入所述向量调节模型，由所述向量调节模型得到每个篇章向量样本的篇章预测向量；

将所述样本集中每个篇章向量样本的所述篇章期望向量和所述篇章预测向量进行比较，如果一致的比例未超过预定比例则调整所述向量调节模型的权重，直到一致的比例超过所述预定比例。

根据本公开的第二方面，提供一种篇章对齐装置，用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐，第一文本包括所述第二篇章的多个预对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章，所述装置包括：

第一确定单元，用于确定所述第一篇章和所述第二篇章各自篇章向量的余弦相似度，得到目标相似度；

第二确定单元，用于确定所述第一篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第一相似度；

第三确定单元，用于确定所述第二篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第二相似度；

第四确定单元，用于根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距，确定所述第一篇章和所述第二篇章是否对齐。

根据本公开的第三方面，提供一种计算机设备，包括：

存储器，用于存储计算机可执行代码；

处理器，用于执行所述计算机可执行代码，以实现第一方面所述的任一种方法。

根据本公开的第四方面，提供一种计算机可读介质，包括计算机可执行代码，所述计算机可执行代码被处理器执行时实现第一方面所述的任一种方法。

本公开实施例中，第一文本包括第二篇章的多个预对齐篇章，第二文本包括第一篇章的多个预对齐篇章，第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐是根据目标相似度与多个第一相似度和多个第二相似度的差距确定，差距越大表示第一篇章和第二篇章不对齐的可能性越大。其中，目标相似度为第一篇章和第二篇章各自篇章向量的余弦相似度，第一相似度为第一篇章和其预对齐篇章各自篇章向量的余弦相似度，第二相似度为第二篇章和其预对齐篇章各自篇章向量的余弦相似度，因而，第一篇章和第二篇章对齐的情况下，不仅需要第一篇章和第二篇章足够相似，还需要第一篇章和其预对齐篇章的相似度、第二篇章和其预对齐篇章的相似度远小于第一篇章和第二篇章的相似度。这种确定两篇章对齐方法更加贴合篇章对的要求，因而在一定程度上能够抵消多语言嵌入信息部分丢失或不准而导致的篇章对判别精准度的下降部分，达到了提高篇章对判别精准度的技术效果。

附图说明

通过参考以下附图对本公开实施例的描述，本公开的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1示出了应用本公开实施例篇章对齐方法的一个体系架构图；

图2A-2C示出了本公开实施例的篇章对齐方法应用时的一种界面状态图；

图3示出了根据本公开一个实施例的篇章对齐方法的流程图；

图4示出了在当前文本中确定当前篇章的预对齐篇章的篇章向量方法流程图；

图5示出了多语言嵌入的向量空间图；

图6示出了根据本公开一个实施例的篇章对齐装置的结构示意图；

图7示出了根据本公开一个实施例的计算机设备的结构图。

具体实施方式

以下基于实施例对本公开进行描述，但是本公开并不仅仅限于这些实施例。在下文对本公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本公开。为了避免混淆本公开的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

本公开应用的场景和体系架构

篇章对齐在从互联网语料提取双语平行语料的场景中较为常见。从互联网语料提取双语平行语料，需要执行如下步骤：从互联网下载文本→从文本挖掘互译的篇章对→从互译的篇章对挖掘互译的句对。

互联网语料，即来自互联网的文本。很多跨国公司会提供多语言平行的网站。以苹果公司为例，该公司就有中英日韩等几乎所有国家的本地化官网，这些本地化官网各自以本地语言描述同一产品(例如iPhone 13)或同一事件(例如新品发布)，因而能够提供有着互译关系的互联网语料。通常情况下，同一跨国公司的不同本地化官网的域名会包含相同的公司表征部分和不同的地区表征部分。因而，从互联网下载文本，可以是依据域名从同一跨国公司的不同本地化官网下载有着互译关系的文本。网站内容以网页为单位提供同一主题的信息，本公开实施例中将某一公司的任一本地化官网下载的文本称作一个文本，而一个文本中来自一个网页的内容称作一个篇章，因而一个文本会包括大量篇章。本公开实施例旨在从两个各自包括大量篇章的文本中挖掘出具有互译关系的篇章对。

双语平行语料，即两种语言表达的有着互译关系的语料，上述互译的句对即为双语平行语料。示例性地，互译的篇章对由英文篇章和中文篇章组成，英文篇章包括句子“Discover the innovative world of Apple”，中文篇章包括句子“了解苹果公司的这个创新世界”，最后从该篇章对挖掘出的句对“Discover the innovative world of Apple”和“了解苹果公司的这个创新世界”即为一份双语平行语料。

高质量、大数量的双语平行语料是训练机器翻译模型的关键。在将双语平行语料应用于训练机器翻译模型的场景时，本公开实施例的篇章对齐方法可以应用在图 1所示的体系架构中。参照图1，该体系架构包括语料平台110和多个用户终端120，语料平台110包括语料数据库112、和语料数据库112分别连接的前端服务器111 和句对提取设备113、和句对提取设备113连接的篇章对其设备114，其中，篇章对其设备114接收第一文本和第二文本并从第一文本和第二文本中提取出篇章对，所述第一文本和第二文本例如为同一跨国公司的两不同本地化官网下载的文本；然后，篇章对其设备114将提取出的篇章对输入到句对提取设备113，句对提取设备从篇章对中提取句对并将提取的句对输出到语料数据库102进行存储；接下来，若和前端服务器111连接的某一用户终端120向前端服务器111发送语料获取请求，则前端服务器101能够从语料数据库102中调取一定数量的句对作为双语平行语料推送给用户终端110。

篇章对其设备114即为执行本公开实施例所述篇章对齐方法的设备。篇章对齐设备114可以采用单台计算机或多台联合工作的计算机。下面参照图2A-C，简要描述本公开实施例的篇章对齐方法应用在图1所示体系架构时篇章对齐设备114的界面状态变化。

如图2A所示，篇章对齐设备114接收管理员输入的第一文本和第二文本。由于第一文本和第二文本各自包括来自一个网站的大量互联网内容，因而管理员可以采用基于域名进行文件导入的方式将第一文本和第二文本导入到图2A的文本框中。图2A中，第一文本通过语言X表示，第二文本通过不同于语言X的语言Y表示。第一文本和第二文本导入后，管理员可以通过图2A所示的滑块来浏览导入的文本是否是所需网站的文本或者是否出现乱码的情况。若管理员确认导入的第一文本和第二文本有误，则管理员点击按钮“返回”并重新导入第一文本和第二文本；若管理员确认第一文本和第二文本正确，则管理员点击按钮“继续”以便进行下一步。

如图2B所示，篇章对齐设备114在接收到正确的第一文本和第二文本后则执行篇章对齐方法，之后显示屏上显示篇章对齐方法的执行结果，即显示从第一文本和第二文本中提取出的篇章对。由于任一跨国公司的一个本地化官网都包含众多网页，因而提取出的篇章对往往不只一个。参照图2B，管理员可以通过最右侧的滑块来浏览提取出的多个篇章对(包括第一篇章对、第二篇章对、……)。各个篇章对的标题框内还可以设置标对号的选取按钮和标叉号的删除按钮，其中，选取按钮用于供管理员选取对应的篇章对，删除按钮用于供管理员删除对应的篇章对。

在管理员对图2B所示的若干篇章对皆进行选取或删除处理后，如图2C所示，篇章对齐设备114的显示屏上显示“是否输出选取的篇章对？”的请求信息。若管理员点击该显示界面的按钮“是”，则篇章对齐设备114将管理员选取的篇章对输入到句对提取设备113；若管理员点击该显示界面的按钮“否”，则篇章对齐设备 114不向句对提取设备113输入管理员选取的篇章对，此情况下篇章对齐设备114 可以将管理员选取的篇章对在本地存储。

根据本公开一个实施例的篇章对齐方法

现有技术中的篇章对齐方法在确定两篇章是否对齐时，只考虑了两篇章各自所对应篇章向量的余弦相似度，这样在第二文本中确定第一文本中某一篇章的互译篇章(本公开实施例中亦称该互译篇章为对齐篇章)是计算第二文本中各篇章和第一文本中该篇章的篇章向量的余弦相似度，然后从计算得到的众多余弦相似度中查找最大余弦相似度，并将查找到的最大余弦相似度所对应的第二文本中的篇章确定为第一文本中该篇章的对齐篇章。这种方法会因多语言嵌入信息在所涉及篇章向量中部分丢失或不准而降低篇章对判别的精准度。

鉴于此，本公开的一个实施例提供了一种篇章对齐方法，和现有技术的主要区别在于：在确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐时，不仅考虑第一篇章和第二篇章各自所对应篇章向量的余弦相似度，还考虑第一篇章和其在第二文本中的预对齐篇章的相似度、第二篇章和其在第一文本中的预对齐篇章的相似度。

图3所示为根据本公开一个实施例的篇章对齐方法流程图。参见图3，该篇章对齐方法包括：

步骤S110，确定第一篇章和第二篇章各自篇章向量的余弦相似度，得到目标相似度；

步骤S120，确定第一篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第一相似度；

步骤S130，确定第二篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第二相似度；

步骤S140，根据目标相似度与多个第一相似度和多个第二相似度的差距，确定第一篇章和第二篇章是否对齐。

下面对上述步骤进行详细描述。

上述步骤S120-步骤S130涉及到第一篇章和第二篇章各自预对齐篇章的篇章向量，因而先需要在第二文本中确定第一篇章的预对齐篇章的篇章向量以及在第一文本中确定第二篇章的预对齐篇章的篇章向量。

若记第一篇章和第二篇章中当前确定预对齐篇章篇章向量的一个为当前篇章，且当前篇章的预对齐篇章所在文本记为当前文本(当前篇章为第一篇章的情况下当前文本为第二文本，当前篇章为第二篇章的情况下当前文本为第一文本)，则在一些可选实施例中，上述确定第一篇章/第二篇章预对齐篇章的篇章向量，转换为：在当前文本中确定当前篇章的预对齐篇章的篇章向量，具体如图4所示包括如下步骤：

步骤S101，获取当前文本中各篇章的篇章向量，得到多个候选篇章向量；

步骤S102，获取当前篇章的篇章向量，得到一个当前篇章向量；

步骤S103，在多个候选篇章向量中检索出与当前篇章向量较接近的预设数量个候选篇章向量，并将检索出的各候选篇章向量确定为当前篇章的预对齐篇章的篇章向量。

本公开实施例中，多个候选篇章向量中与当前篇章向量较接近的预设数量个候选篇章向量，能够合理地作为当前篇章的预对齐篇章的篇章向量，因而不影响篇章对齐方法对篇章对的判别精准度。基于此，第一文本作为第二篇章的预对齐篇章的潜在文本，第一文本包括的篇章只有部分作为第二篇章的预对齐篇章参与上述步骤 S130的计算，同样第二文本包括的篇章只有部分作为第一篇章的预对齐篇章参与上述步骤S120的计算，这样减少了步骤S120和步骤S130的计算复杂度，提高了步骤 S120和步骤S130的计算速率；并且，在多个候选篇章向量中检索与当前篇章向量较接近的预设数量个候选篇章向量，可以采用现有的较成熟的向量检索技术，检索能够达到需要的速度，整个篇章对齐过程的执行速度也能够提高。

上述步骤S101，获取当前文本中各篇章的篇章向量，需要执行如下步骤：

(a)从互联网下载网页并从各网页中抽取出文本内容以生成包括多个篇章的当前文本。

(b)识别当前文本所使用语种，并根据识别出来的语种对当前文本包括的各个篇章进行切句。通常以句号乃至分号作为一个句子结束的标志。由于不同语种采用的分号和句号的形式不同，因而要识别出语种并根据识别出的语种所采用的句号或分号的形式对篇章切句。

示例性地，若识别出来的语种为中文，则以分号“；”和句号“。”作为切句所依据的标点符号；若识别出来的语种为英文，则以分号“；”和句号“.”作为切句所依据的标点符号。

对于图2B所示的，第一文本包括的篇章“了解苹果公司的这个创新世界；购买诸如手机、平板和手表之类的各种产品。探索配件、娱乐和专业的设备支持。”经切句后得到如下三个句子“了解苹果公司的这个创新世界”、“购买诸如手机、平板和手表之类的各种产品”、“探索配件、娱乐和专业的设备支持”；第二文本包括的篇章“Discover theinnovative world of Apple；shop everything such as iPhone,iPad and AppleWatch.Explore accessories,entertainment,and expert device support.”经切句后得到如下三个句子“Discover the innovative world of Apple”、“shop everything suchas iPhone,iPadandApple Watch”、“Explore accessories,entertainment,and expertdevice support”。应当理解的是，通常基于一个网页生成的篇章会包含大量信息，这里只是为了理解作简要举例。

这一步处理后得到的各个文本数据可以文本为单位分文件存储。示例性地，文件命名为“source_lang_doc”，其中，“source”标识公司，“lang”标识语言，例如来自苹果公司两个本地化官网的第一文本和第二文本经该步处理后得到文件 “apple_zn_doc”和“apple_en_doc”，其中，文件“apple_zn_doc”对应简体中文，文件“apple_en_doc”对应英文。

(c)对于当前文本中任一篇章经切句得到各个句子，先进行分词，以得到多个最小语义单元(token)；然后根据一个句子中各最小语义单元在多语言向量空间的映射位置得到该句子在多语言向量空间的句子向量。

上述句子分词过程中，若句子是中文句子，可以使用结巴分词(即jieba分词)，jieba分词主要通过词典来进行分词，因而能够很好地将中文句子划分为多个最小语义单元；若句子是其它语种的句子，可以直接使用空格分词，例如，句子“Discover theinnovative world of Apple”，使用空格分词后得到多个词“Discover”、“the”、“innovative”、“world”、“of”、“Apple”。

一些示例中，得到最小语义单元后可以先对最小语义单元进行BPE处理，以通过BPE处理得到最小语义单元的语义并根据得到的语义将最小语义单元映射到向量空间。BPE，全称“Byte Pair Encoding”，是一种数据压缩的方式，用于将字符串中原始连续字符数据替换成该字符串中不存在的连续字符数据，后续再通过一个词表重建原始连续字符数据。如“loved”、“loving”、“loves”这三个单词，其本身的语义都是”爱”的意思，BPE处理上述三个单词即将这三个单词分别替换成 “lov”+“ed”、“lov”+“ing”、“lov”+“es”，这样可以把词的本身意思和时态分开，最后三个单词借助时态后缀“ed”、“ing”、“es”皆对应到同一个词 “lov”的意思上，从而确定单词意思的词表无需包括所有单词的意思，即达到了有效减小词表规模的目的。

无论是否进行BPE处理，上述各最小语义单元在多语言向量空间的映射位置，是基于多语言向量嵌入(multilingual embdding)技术得到的。多语言向量嵌入技术，使得每种语言包括的文本都能够嵌入到同一个多语言向量空间中，并且不同语言中具有类似含义的文本在多语言向量空间中紧密聚合。以多种语言各自包括的文本是单个词为例，如图5所示，土耳其语中的“futbol”、英语中的“soccer”和中文中的“足球”在三维的多语言向量空间中非常接近，土耳其语中的“top”、英语中的“ball”和中文中的“球”在三维的多语言向量空间中非常接近。当然，多种语言各自包括的文本还可以为句子，句子的意思由组成句子的词决定，因而根据一个句子中各最小语义单元在多语言向量空间的映射位置即可确定该句子在多语言向量空间中的句子向量，并且具有类似含义的句子在多语言向量空间中紧密聚合。

需要说明的是，多语言向量空间是一个矢量空间，因而不同语言中具有类似含义的文本在多语言向量空间中对应同一个向量，具有相同含义的句子在多语言向量空间中也对应同一个向量(即同一个句子向量)。多语言向量空间的维度确定后，句子向量的维度则唯一确定。根据一个句子中各最小语义单元在多语言向量空间的映射位置得到该句子在多语言向量空间的句子向量，属于现有技术，这里不进行详述。

(d)在得到当前文本所包括篇章中各个句子在多语言向量空间的句子向量后，对该篇章得到的多个句子向量进行各维度的池化操作，以得到该篇章的篇章向量。

池化(pooling)，本质上就是采样，即通过采样使得输入数据维度降低，本公开实施例中池化操作是使得多个句子向量降维为一个篇章向量。采用较多的两种池化过程为最大池化(Max Pooling)和平均池化(Average Pooling)。

对该篇章得到的多个句子向量进行各维度的最大池化，即选取多个句子向量中各维度的最大值，然后由选出的最大值组成一个向量，即生成了篇章向量。例如，一个篇章中多个句子的句子向量分别为(1,2,4,5)和(3,4,6,3)，则经多个句子向量的各维度最大池化后，得到该篇章的篇章向量为(3,4,6,5)。

对该篇章得到的多个句子向量进行各维度的平均池化，即计算多个句子向量中各维度的平均值，然后由计算得到的平均值组成一个向量，即生成了篇章向量。同样以一个篇章中多个句子的句子向量分别为(1,2,4,5)和(3,4,6,3)进行说明，则经多个句子向量的各维度平均池化后，得到该篇章的篇章向量为(2,3,5,4)。

该步骤通过池化操作得到的篇章向量的维度和句子向量的维度相同。池化操作使得篇章向量采样了多个句子向量的特征信息，且篇章向量无需包括多个句子向量的全部特征，篇章向量的维度得以降低，因而后续基于篇章向量的计算复杂度也能够有效降低，同时计算速率得到提升。

进一步，步骤S101，获取当前文本中各篇章的篇章向量，还包括：通过向量调节模型对池化操作得到的向量进行以下任一种调节：增大向量维度、减小向量维度、调节向量元素取值；以及，将调节得到的向量确定为该篇章的篇章向量。

需要说明的是，增大向量维度和调节向量元素取值都是为了提高篇章向量的精准度，以使得经调节得到的篇章向量能更贴切地表征篇章特征。增大向量维度可以是在池化操作得到的向量的末尾增加一个或多个向量元素，这些增加的向量元素可以是基于篇章向量中已有向量元素的排列规律或取值规律得出的，起到使调节后的篇章向量增强某一方面特征的作用。调节向量元素是使得经调节得到的向量元素配置有更符合实际意义的取值，例如将取值大于阈值的向量元素赋值为阈值。

一些情况下，基于上述多语言向量空间得到的篇章向量仍然具有较大的维度，篇章对齐设备114当前计算能力无法承受该维度的相关计算，因而需要减小篇章向量的向量维度。减小篇章向量的向量维度，需确保篇章向量的精准度尽可能不受影响。例如从池化操作得到的向量中删除较大概率上表示虚词的向量元素。

上述向量调节模型可以选用深度神经网络(Deep Neural Networks，简称DNN)，该深度神经网络通过以下步骤预先训练得到：构造由篇章向量样本构成的样本集，篇章向量样本关联有篇章期望向量；将样本集中每个篇章向量样本输入向量调节模型，由向量调节模型得到每个篇章向量样本的篇章预测向量；将样本集中每个篇章向量样本的篇章期望向量和篇章预测向量进行比较，如果一致的比例未超过预定比例(例如95％)则调整向量调节模型的权重，直到一致的比例超过预定比例。

上述步骤S101执行后，第一文本中各篇章的篇章向量和第二文本中各篇章的篇章向量都已得到。因而根据篇章和篇章向量的对应关系即可获取当前篇章的篇章向量，这样步骤S102得以实施。第一文本中各篇章的篇章向量和第二文本中各篇章的篇章向量，可以文本为单位分文件存储。示例性地，存储第一文本的篇章向量的文件命名为“src_doc_embeddings”，存储第二文本的篇章向量的文件命名为 “tgt_doc_embeddings”。

步骤S103中，在多个候选篇章向量中检索出与当前篇章向量较接近的预设数量个候选篇章向量，可以使用已有向量检索工具在多个候选篇章向量中检索当前篇章向量的k近邻。

假设第一篇章的篇章向量为文件“src_doc_embeddings”中存储的向量x，第二篇章的篇章向量为文件“tgt_doc_embeddings”中存储的向量y。在当前篇章为第一篇章的情况下，步骤S103是要在文件“tgt_doc_embeddings”中寻找向量x的 k近邻(即寻找向量x的k个最近的邻居)，这里寻找到的k个最近的邻居可以记为NN_k(x)；在当前篇章为第二篇章的情况下，步骤S103是要在文件 “src_doc_embeddings”中寻找向量y的k个最近的邻居，这里寻找到的k个最近的邻居可以记为NN_k(y)。

上述寻找某一向量的k个最近的邻居，是通过计算两向量的余弦相似度实现的，即通过向量空间内两个向量夹角的余弦值衡量两个向量的距离大小(余弦值越接近 1，表明两向量夹角越接近0°，也就是两向量越相似，即所谓的“余弦相似性”)，具体可以使用阿里巴巴的proxima向量检索工具，也可以是利用facebook的faiss 向量检索工具，这两种向量检索工具都可以在很短的时间内寻找到一个向量的k个最近邻居。

在通过以上方法得到第一篇章的篇章向量、第二篇章的篇章向量、第一篇章的预对齐篇章的篇章向量以及第二篇章的预对齐篇章的篇章向量后，通过步骤S110-S130即可得到目标相似度、第一相似度和第二相似度。此时即可执行上述步骤S140。

目标相似度与多个第一相似度和多个第二相似度的差距，可以是目标相似度与多个第一相似度以及多个第二相似度进行求差运算后得到的结果。例如，目标相似度与相似度平均值进行求差运算且求差运算的结果表征目标相似度与多个第一相似度和多个第二相似度的差距，其中，相似度平均值为多个第一相似度和多个第二相似度的平均值。此情况下，若求差运算的结果大于零，则求差运算的结果越大，目标相似度与多个第一相似度和多个第二相似度的差距越大；若求差运算的结果不大于零，则第一篇章和第二篇章无法作为篇章对。

目标相似度与多个第一相似度和多个第二相似度的差距，也可以是目标相似度与多个第一相似度以及多个第二相似度进行求商运算后得到的结果。例如，目标相似度与相似度平均值进行求商运算且求商运算的结果表征目标相似度与多个第一相似度和多个第二相似度的差距。

本公开实施例中，亦称目标相似度和相似度平均值的商为第一信息。此情况下，步骤S140即根据第一信息确定第一篇章和第二篇章是否对齐，第一信息可以根据公式(1)确定。

其中，margin_score(x,y)表示第一相似信息，cos(x,y)表示目标相似度， cos(x,z)表示一个第一相似度，cos(y,z)表示一个第二相似度，k表示第一相似度的数量也表示第二相似度的数量，其它如以上内容所述。

在根据第一信息确定第一篇章和第二篇章是否对齐的情况下，若第一信息大于1，则第一信息越大，目标相似度与多个第一相似度和多个第二相似度的差距越大，第一篇章和第二篇章对齐的可能性越大，这里通过目标相似度是相似度平均值的多少倍来体现目标相似度与多个第一相似度和多个第二相似度的差距，所体现差距更具有参考意义；若第一信息小于1，第一篇章和第二篇章的相似性很小，第一篇章和第二篇章无法作为篇章对。

一个可选的实施例中，上述根据第一信息确定第一篇章和第二篇章是否对齐，包括：根据第一相似信息和第二相似信息的加权和确定第一篇章和第二篇章是否对齐，具体即根据公式(2)所表示的参数f(x,y)确定第一篇章和第二篇章是否对齐。

f(x,y)＝w1×margin_sco re(x,y)+w2×meta_sim(x,y) (2)

公式(2)中，meta_sim(x,y)表示第二相似信息，第二相似信息为确定第一文档信息和第二文档信息是否相似的信息，第一文档信息为下载下来第一文本的网站上第一篇章所对应网页的元信息，第二文档信息为下载下来第二文本的网站上第二篇章所对应网页的元信息，这里确定第二相似信息meta_sim(x,y)的过程属于现有技术，不进行详述。

网页的元信息(meta-information)由meta元素提供，是关于信息的信息，用于描述网页内信息的结构、语义、用途和用法等。meta元素是meta标签所储存的元素，meta标签是超级文本标记语言(英文缩写：HTML)头部区的一个辅助性标签。同一个网页的元信息是相同的，同一跨国公司的两个本地化官网的网页元信息具有一定程度的相似性(例如描述网页内信息的用途和用法的元信息相同，但描述网页内信息结构的元信息可能会因语种的不同而存在差别)。

公式(2)中，W1表示第一权重，是第一相似信息margin_score的权重，W2表示第二权重，是第二相似信息meta_sim(x,y)的权重，W1+W2＝1。实践中，可以根据同一跨国公司的两本地化官网的元信息的相似程度调节W1和W2，且越相似W2越大。

实践中，对于有着互译关系的第一文本和第二文本来说，第一文本中的一个篇章可以最终在第二文本中匹配唯一的一个篇章作为篇章对，也可以在第二文本中匹配多个篇章作为篇章对，前者对篇章对的精度要求较高，后者对篇章对的精度要求较低。对于第一文本包括的第一篇章在第二文本中匹配唯一的一个篇章作为篇章对的情况，上述确定第一篇章和第二篇章是否对齐的方案，可以将NN_k(y)中各个篇章向量所对应篇章作为上述第二篇章以计算f(x,y)，并将计算得到的最大f(x,y)在第二文本对应的篇章作为第一篇章在第二文本中匹配的篇章。对于第一文本包括的第一篇章在第二文本中匹配多个篇章作为篇章对的情况，上述确定第一篇章和第二篇章是否对齐的方案，可以将NN_k(y)中各个篇章向量所对应篇章作为上述第二篇章以计算f(x,y)，并将计算得到的大于预设数值的f(x,y)在第二文本对应的篇章作为第一篇章在第二文本中匹配的篇章。

本公开实施例中，第一相似信息为基于篇章向量确定的相似信息，第二相似信息为基于网页元信息确定的相似信息，根据第一相似信息和第二相似信息的加权和确定第一篇章和第二篇章是否对齐，提高了篇章对的辨别精准度。

本公开的商业用途

本公开实施例在确定第一篇章和第二篇章是否对齐时，不仅考虑了第一篇章和第二篇章是否足够相似，还考虑了第一篇章和其预对齐篇章的相似度、第二篇章和其预对齐篇章的相似度是否远小于第一篇章和第二篇章的相似度。这种篇章对确定方法更加贴合篇章对的要求，因而在一定程度上能够抵消多语言嵌入信息部分丢失或不准而导致的篇章对判别精准度的下降部分，实现篇章对判别精准度的提高。

进一步，第一篇章的预对齐篇章为使用向量检索技术从第二文本包括的所有篇章中检索出的部分篇章，同样第二篇章的预对齐篇章为使用向量检索技术从第一文本包括的所有篇章中检索出的部分篇章，因而篇章对齐过程的实施效率得以充分提高，最终可以保证在有限机器资源(包括中央处理器、图形处理器、存储器等)下每日处理数亿的网页对齐任务，这适应了从互联网中提取大量双语平行语料的需求。

此外，由于本公开实施例提供的篇章对齐过程是基于多语言向量空间内映射的句子向量实施，而已有的laser模型可以支持93个语种的文本在4278个语向(即维度)的多语言向量空间内映射，因而本公开实施例提供的向量对齐方案适用于大量语种，具有较好的扩展性。

综上，本公开实施例提供的篇章对齐方案基于其在准确度、效率以及扩展性这多个方面的优良表现，能够满足工业化的大规模篇章对齐任务的需求，在双语平行语料的提取中具有良好的市场前景。

本公开实施例的篇章对齐装置

根据本公开的一个实施例，还提供了一种篇章对齐装置，该篇章对齐装置用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐，第一文本包括所述第二篇章的多个预对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章。

参照图6，该篇章对齐装置600包括：

第一确定单元610，用于确定第一篇章和第二篇章各自篇章向量的余弦相似度，得到目标相似度；

第二确定单元620，用于确定第一篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第一相似度；

第三确定单元630，用于确定第二篇章和其预对齐篇章各自篇章向量的余弦相似度，得到多个第二相似度；

第四确定单元650，用于根据目标相似度与多个第一相似度和多个第二相似度的差距，确定第一篇章和第二篇章是否对齐。

由于上述装置的实现细节在上文的方法实施例的详细介绍中已经描述，为节约篇幅，故不赘述。

根据本公开的一个实施例的篇章对齐方法可以由图7所示的计算机设备800实现。下面参照图7来描述根据本公开实施例的计算机设备800。图7显示的计算机设备800仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备800以通用计算设备的形式表现。计算机设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同***组件(包括存储单元820和处理单元810)的总线830。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元810 执行，使得所述处理单元810执行本说明书上述示例性方法的描述部分中描述的本公开各种示例性实施方式的步骤。例如，所述处理单元810可以执行如图2中所示的各个步骤。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM) 8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

计算机设备800也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该计算机设备800交互的设备通信，和/或与使得该计算机设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O) 接口850进行。并且，计算机设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与计算机设备800的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

需要领会，以上所述仅为本公开的优选实施例，并不用于限制本公开，对于本领域技术人员而言，本说明书的实施例存在许多变型。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

应该理解，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

应该理解，上述对本说明书特定实施例进行了描述。其它实施例在权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

应该理解，本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外，本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件，且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。

还应理解，本文采用的术语和表述方式只是用于描述，本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

Claims

1.一种篇章对齐方法，用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐，第一文本包括所述第二篇章的多个预对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章，所述方法包括：

2.根据权利要求1所述的篇章对齐方法，其中，根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距，确定所述第一篇章和所述第二篇章是否对齐，包括：

3.根据权利要求2所述的篇章对齐方法，其中，所述第一文本和所述第二文本包括的各篇章皆为一个网页中的文本内容，根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐，包括：

其中，所述第二相似信息为确定第一文档信息和第二文档信息是否相似的信息，所述第一文档信息为所述第一篇章所对应网页的元信息，所述第二文档信息为所述第二篇章所对应网页的元信息。

4.根据权利要求1所述的篇章对齐方法，还包括确定所述第一篇章和所述第二篇章各自预对齐篇章的篇章向量，且确定步骤如下：

获取当前篇章的篇章向量，得到一个当前篇章向量；

5.根据权利要求4所述的篇章对齐方法，其中，获取当前文本中各篇章的篇章向量，包括：获取所述当前文本所包括篇章中各个句子在多语言向量空间的句子向量，对该篇章得到的多个句子向量进行各维度的池化操作，以得到该篇章的篇章向量。

6.根据权利要求5所述的篇章对齐方法，其中，获取当前文本中各篇章的篇章向量，还包括：

以及，将调节得到的向量确定为该篇章的篇章向量。

7.根据权利要求6所述的篇章对齐方法，其中，所述向量调节模型通过以下步骤预先训练得到：

8.一种篇章对齐装置，用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐，第一文本包括所述第二篇章的多个预对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章，所述装置包括：

9.一种计算机设备，包括：

存储器，用于存储计算机可执行代码；

处理器，用于执行所述计算机可执行代码，以实现权利要求1-7中任一个所述的方法。

10.一种计算机可读介质，包括计算机可执行代码，所述计算机可执行代码被处理器执行时实现权利要求1-7中任一个所述的方法。