CN112906371B

CN112906371B - 一种平行语料获取方法、装置、设备及存储介质

Info

Publication number: CN112906371B
Application number: CN202110181644.5A
Authority: CN
Inventors: 张闯; 吴培昊
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2024-03-01
Anticipated expiration: 2041-02-08
Also published as: CN112906371A

Abstract

本公开实施例公开了一种平行语料获取方法、装置、设备及存储介质。该方法包括：拆分预先获取的第一文本和第二文本，得到第一句子列表和第二句子列表，第一文本和第二文本为同一语种，用于描述同一内容；确定第一句子列表中每一个第一语句与第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵；根据相似值矩阵确定第一语句与第二语句的映射关系，映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数；根据映射关系获取与第一语句关联的目标第二语句，并将第一语句与目标第二语句记为平行语料。上述方案基于句子间的语义相似值，确定语句间的映射关系，提高了关联语句对的准确性，进而提高了平行语料的准确性。

Description

一种平行语料获取方法、装置、设备及存储介质

技术领域

本公开实施例涉及自然语言处理技术，尤其涉及一种平行语料获取方法、装置、设备及存储介质。

背景技术

文本简化是指将包含难词和复杂句式的文本，通过改写来降低文本的难度，使知识水平低或者认知障碍的人群更易于理解和阅读。随着深度学***行语料来训练。

传统的获取平行语料的方式主要包括距离法、基于TF-IDF向量求语句间相似度的方法以及基于word2vec向量的方法，但都无法准确的获取平行语料。

公开内容

本公开实施例提供一种平行语料获取方法、装置、设备及存储介质，可以提高平行语料的准确性。

第一方面，本公开实施例提供了一种平行语料获取方法，包括：

拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表，所述第一文本和第二文本为同一语种，用于描述同一内容；

确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵；

根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，所述映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数；

根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。

第二方面，本公开实施例还提供了一种平行语料获取装置，包括：

拆分模块，用于拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表，所述第一文本和第二文本为同一语种，用于描述同一内容；

相似值矩阵确定模块，用于确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵；

映射关系确定模块，用于根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，所述映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数；

平行语料获取模块，用于根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。

第三方面，本公开实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时实现如第一方面所述的平行语料获取方法。

第四方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的平行语料获取方法。

本公开实施例提供一种平行语料获取方法、装置、设备及存储介质，通过拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表，所述第一文本和第二文本为同一语种，用于描述同一内容；确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵；根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，所述映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数；根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。上述方案基于句子间的语义相似值，确定语句间的映射关系，提高了关联语句对的准确性，进而提高了平行语料的准确性。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例一提供的一种平行语料获取方法的流程图；

图2为本公开实施例二提供的一种平行语料获取方法的流程图；

图3为本公开实施例三提供的一种平行语料获取方法的流程图；

图4为本公开实施例四提供的一种平行语料获取装置的结构图；

图5为本公开实施例五提供的一种电子设备的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的对象进行区分，并非用于限定这些对象所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

实施例一

图1为本公开实施例一提供的一种平行语料获取方法的流程图，本实施可适用于获取平行语料的情况。平行语料是具有一定关联的语句，例如可以是相似程度较高的语句。该方法可以由平行语料获取装置来执行，该装置可以采用软件和/或硬件的方式实现，并可配置在具备数据处理功能的电子设备中。如图1所示，该方法可以包括如下步骤：

S110、拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表。

其中，所述第一文本和第二文本为同一语种，用于描述同一内容。第一文本可以是包含难理解词汇和复杂句式的文本，也可以称为复杂文本，这类文本的难度较高。第二文本可以是包含简单词汇和简单句式的文本，也可以称为简单文本，这类文本的难度较低，对于外语学***低或认知障碍的人群比较容易理解。本实施例的第一文本和第二文本用于描述同一内容，例如可以描述同一对象或同一事件，而且为同一语种，即第一文本和第二文本的语言类型相同，实施例对具体的语言类型不进行限定，例如可以是中文、英文或日文等。可选的，可以从分级阅读网站或本地获取对同一内容描述的第一文本和第二文本，分级阅读网站用于存储不同难度等级的文本。

第一句子列表用于存储拆分第一文本得到的语句，第二句子列表用于存储拆分第二文本得到的语句。可选的，可以通过NLTK(Natural Language Toolkit，自然语言处理工具包)中的句子分割函数分别拆分第一文本和第二文本。当然也可以采用其他方式拆分第一文本和第二文本，实施例不进行限定。为了区分拆分得到的各语句，可选的，可以按照其在对应文本中的先后顺序对各语句进行数字编号，数字编号越小表示其在文本中的位置越靠前。第一句子列表的长度与第一文本包含的句子数量相同，第二句子列表的长度与第二文本包含的句子数量相同。第一文本包含的句子数量与第二文本包含的句子数量可以相同，也可以不同。

S120、确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵。

第一语句为拆分第一文本得到的语句，第二语句为拆分第二文本得到的语句。语义相似值用于表示两个语句之间的语义相似程度，本实施例用于表示第一语句和第二语句之间的语义相似程度。可选的，可以用0-5之间的数值表示两个语句之间的语义相似程度，数值越小表示两个语句之间的语义相似程度越低，例如0表示两个语句之间的语义相似程度最低，也可以认为两个语句的语义完全不同，5表示两个语句之间的语义相似程度最高，也可以认为两个语句的语义完全相同。本实施例确定语句间的语义相似值，在后续获取平行语料时，可以将语句语义信息相同，但词汇差异较大的句子进行关联，从而提高平行语料的准确性。可选的，可以将第一语句和第二语句输入神经网络模型，由神经网络模型输出第一语句和第二语句之间的语义相似值。实施例对神经网络模型的具体结构不进行限定，例如可以采用深度语义模型(Deep Structured Sematic models，DSSM)或文本到文本转换模型(Transfer Text-to-Text Transformer，简称T5模型)等。当然也可以采用其他方式确定第一语句和第二语句之间的语义相似值，实施例不进行限定。

相似值矩阵用于存储第一语句和第二语句之间的语义相似值，可选的，可以以行为单位存储每一个第一语句与各第二语句之间的语义相似值，即相似值矩阵的每一行代表一个第一语句，相似值矩阵的每一列代表一个第二语句，即相似值矩阵的行数等于第一句子列表包含的第一语句的数量，相似值矩阵的列数等于第二句子列表包含的第二语句的数量。例如相似值矩阵表示为T＝t_xy，x＝1,2,...,m，y＝1,2,...,n，m为第一语句的数量，n为第二语句的数量，则t₂₃表示第一句子列表中的第二个第一语句与第二句子列表中的第三个第二语句之间的语义相似值。

S130、根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系。

其中，所述映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数。一对N表示一个第一语句与多个第二语句关联，N对一表示多个第一语句与一个第二语句关联，一对一表示一个第一语句与一个第二与关联。可选的，可以根据语义相似值确定第一语句和第二语句的映射关系，例如当语义相似值等于设定阈值时，认为该语义相似值对应的第一语句和第二语句之间的映射关系为一对一，设定阈值用于表示第一语句和第二语句之间的语义相似程度最高，例如可以是5，即当第一语句和第二语句之间的语义相似值为5时，认为该第一语句和第二语句之间的映射关系为一对一。

当语义相似值小于设定阈值时，在一个示例中，可以结合该第一语句与其他第二语句之间的语义相似值以及其他第一语句与该第二语句之间的语义相似值确定该第一语句和第二语句之间的映射关系。例如如果某个第一语句与不同的第二语句之间的语义相似值的差值小于或等于预设差值，则认为该第一语句与这多个不同的第二语句关联。预设差值的大小可以根据实际情况设定，例如可以设定为0.1。示例性的，第一句子列表中第二个第一语句与第二句子列表中第三个第二语句之间的语义相似值为2，第二个第一语句与第二句子列表中第四个第二语句之间的语义相似值为2.1，与第二句子列表中第二个第二语句之间的语义相似值为0.5，第三个第二语句与第一句子列表中的其他第一语句之间的语义相似值均小于1，则认为第一句子列表中的第二个第一语句与第二句子列表中的第三个第二语句之间的映射关系为一对二，即第一句子列表中的第二个第一语句与第二句子列表中的第三个第二语句和第四个第二语句关联。

当语义相似值小于设定阈值时，在一个示例中，也可以对多个第一语句或第二语句进行合并，基于合并的语句之间的语义相似值判断第一语句和第二语句之间的映射关系。例如当第一句子列表中第三个第一语句与第二句子列表中的第一个第二语句之间的语义相似值小于5时，可以合并第一个第二语句到第二个第二语句，以及合并第三个第一语句和第四个第一语句，如果第三个第一语句与合并后的第二语句之间的语义相似值>合并后的第一语句与第一个第二语句之间的语义相似值>第四个第一语句和第二个第二语句之间的语义相似值，则认为第一句子列表中第三个第一语句与第二句子列表中的第一个第二语句之间的映射关系为一对N，如果合并后的第一语句与第一个第二语句之间的语义相似值>第三个第一语句与合并后的第二语句之间的语义相似值>第四个第一语句和第二个第二语句之间的语义相似值，则认为第一句子列表中第三个第一语句与第二句子列表中的第一个第二语句之间的映射关系为N对一。当然还可以采用其他方式确定第一语句和第二语句之间的映射关系，实施例不进行限定。

需要注意的是，第一语句和第二语句之间的映射关系除了可以是上述的一对一、一对N或N对一，还有可能是N对N，N对N的映射关系可以通过分析两个语句之间的一对N或N对一的映射关系得到。例如第二个第一语句与第三个第二语句和第四个第二语句关联，第三个第一语句与第三个第二语句和第四个第二语句关联，则认为第一文本中的第二句和第三句与第二文本中的第三句和第四句关联，即2对2。第N个第一语句为第一文本的第N句，类似的，第N个第二语句为第二文本的第N句。

S140、根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。

目标第二语句为与第一语句关联的语句，可以是单个第二语句，也可以是由多个第二语句合并得到的语句。具体的，如果第一语句与第二语句的映射关系为一对一，可以将该映射关系对应的第一语句和第二语句关联，作为一组平行语料，并将该第二语句称为目标第二语句；如果第一语句与第二语句的映射关系为一对N，可以将N个第二语句合并，并将第一语句和合并后的语句关联，作为一组平行语料，此时目标第二语句为N个第二语句合并之后的语句；如果第一语句与第二语句的映射关系为N对一，可以将N个第一语句合并，并将合并后的第一语句与该第二语句关联，作为一组平行语料，此时目标第二语句为单个第二语句。如果多个第一语句和多个第二语句关联，可以合并多个第一语句以及合并多个第二语句，将合并后的语句进行关联，作为一组平行语料，此时目标第二语句为多个第二语句合并后的语句。

本实施例基于语句的语义信息确定语句之间的语义相似值，根据语义相似值确定语句之间的映射关系，提高了关联语句对的准确性，进而提高了平行语料的准确性。后续在利用平行语料训练文本简化模型时可以提高文本简化模型的准确性，在利用训练好的文本简化模型将复杂文本转换为简单文本时，可以提高转换结果的准确性。

本公开实施例一提供一种平行语料获取方法，通过拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表，所述第一文本和第二文本为同一语种，用于描述同一内容；确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵；根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，所述映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数；根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。上述方案基于句子间的语义相似值，确定语句间的映射关系，提高了关联语句对的准确性，进而提高了平行语料的准确性。

实施例二

图2为本公开实施例二提供的一种平行语料获取方法的流程图，本实施例是在上述实施例的基础上进行优化，参考图2，该方法可以包括如下步骤：

S210、拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表。

S220、将所述第一句子列表中的第一语句和所述第二句子列表中的第二语句输入语义相似值模型，由所述语义相似值模型输出所述第一语句与所述第二语句的语义相似值。

其中，所述语义相似值模型通过语义相似值不同的语句对训练得到。语义相似值模型用于在后续确定任意两个语句之间的语义相似值，本实施例的语义相似值模型以T5模型为例。应用之前，可以对T5模型进行训练。可选的，可以从公开数据集STS-B中获取语义相似值不同的语句对作为训练样本。公开数据集STS-B用于存储语义相似值不同的语句对。语义相似值可以用0-5之间的数字表示，其中，0可以表示两个语句之间的语义完全不同；1可以表示两个语句之间的语义不同，但描述的主题一致；2可以表示两个语句之间的语义不同，但一小部分信息一致；3可以表示两个语句之间的语义基本一致，但存在部分重要信息不一致或丢失；4可以表示两个语句之间的语义非常相似，但存在部分不重要信息不一致；5可以表示两个语句之间的语义完全相同。

本实施例利用语义相似值不同的语句对作为训练样本，输入语义相似值模型，训练语义相似值模型，使得训练后的语义相似值模型可以确定任意两个语句之间的语义相似值。可选的，针对每一个第一语句，可以将该第一语句和第二句子列表中的一个第二语句输入训练后的语义相似值模型，依次确定该第一语句和每一个第二语句之间的语义相似值；也可以将该第一语句和全部的第二语句输入训练后的语义相似值模型，同时确定第一语句与各第二语句之间的语义相似值；还可以针对每一个第二语句，将该第二语句和全部的第一语句输入训练后的语义相似值模型，同时确定该第二语句和各第一语句之间的语义相似值；还可以将全部的第一语句和全部的第二语句输入训练后的语义相似值模型，同时确定每一个第一语句和各第二语句之间的语义相似值，可以提高效率。本实施例确定语句之间的语义相似值，在后续确定平行语料时，可以准确的关联到语义信息相同但词汇差异较大的语句，提高平行语料的准确性。此外，对于句法改变较大，词汇删除较多的复杂句也可以准确的关联到简单句。

S230、顺序排列各所述第一语句对应的语义相似值，得到相似值矩阵。

其中，所述相似值矩阵的行数等于所述第一句子列表包含的第一语句的数量，所述相似值矩阵的列数等于所述第二句子列表包含的第二语句的数量。例如可以用T表示相似值矩阵，T_n ^m表示m个第一语句和n个第二语句之间的语义相似值，m和n分别为第一句子列表的长度和第二句子列表的长度，例如T_n1表示第一文本的第一个语句与第二文本的各语句之间的语义相似值，T₁ ^m表示第二文本的第一个语句与第一文本的各语句之间的语义相似值。

S240、根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系。

S250、根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。

S260、将所述平行语料输入文本简化模型，训练所述文本简化模型，得到目标文本简化模型。

其中，所述目标文本简化模型用于将复杂文本转换为简单文本。平行语料确定之后，可以将第一语句输入文本简化模型，由文本简化模型输出预测语句，根据预测语句和第二语句的偏差调整文本简化模型的参数，直至预测语句和第二语句的偏差满足设定条件，得到目标文本简化模型，从而可以将复杂文本输入目标文本简化模型，由目标文本简化模型输出简单文本，实现由复杂文本到简单文本的转换。

本公开实施例二提供一种平行语料获取方法，在上述实施例的基础上，利用语义相似值不同的语句对训练语义相似值模型，利用训练后的语义相似值模型确定语句之间的语义相似值，得到相似值矩阵，进而根据相似值矩阵确定语句之间的映射关系，得到关联的语句对，提高了关联语句对的准确性。

实施例三

图3为本公开实施例三提供的一种平行语料获取方法的流程图，本实施例是在上述实施例的基础上进行优化，参考图3，该方法可以包括如下步骤：

S310、拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表。

S320、确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵。

S330、将所述相似值矩阵第一个元素的位置记为当前元素位置。

假定相似矩阵为m行n列，则第一个元素可以是相似矩阵第一行第一列对应的元素，第二个元素可以是相似矩阵第一行第二列对应的元素，第n+1个元素可以是第二行第一列对应的元素，依次类推。本实施例对相似矩阵中的每一个元素执行类似的过程，这里将第一个元素作为当前元素，将第一个元素的位置作为当前元素位置，对其需要执行的过程进行描述。每一个元素位置对应一个语义相似值，该语义相似值为该元素位置对应的第一语句和第二语句之间的语义相似值，例如第二行第三列的元素位置对应的语义相似值为第一文本中第二个语句与第二文本中第三个语句之间的语义相似值，也可以称为第一文本的第二个第一语句与第二文本的第三个第二语句之间的语义相似值。

S340、所述当前元素位置对应的语义相似值是否等于第一预设值，若是，执行S350，否则，执行S360。

其中，第一预设值用于表示所述当前元素位置对应的第一语句与第二语句的语义相似程度最高。第一预设值与训练语义相似值模型采用的训练样本的语义相似值有关，例如训练语义相似值模型时采用的训练样本的语义相似值介于0-5之间，则第一预设值可以是5，以表示两个语句的语义相似程度最高，也就是说当前元素位置对应的语义相似值要么等于5，要么小于5。

S350、确定所述当前元素位置对应的第一语句与第二语句的映射关系为一对一。

具体的，如果当前元素位置对应的第一语句与第二语句之间的语义相似值为5，则认为第一语句与第二语句之间的语义完全相同，可以确定当前元素位置对应的第一语句与第二语句之间的映射关系为一对一。然后执行S380，将下一个元素位置作为当前元素位置，并返回执行S340，继续判断当前元素位置对应的第一语句与第二语句之间的映射关系。

S360、合并所述当前元素位置对应的第二语句与下一个元素位置对应的第二语句，得到第一合并语句；以及合并所述当前元素位置对应的第一语句与下一个元素位置对应的第一语句，得到第二合并语句。

考虑到平行语料是语义相似程度较高的两个语句，因此当当前元素位置对应的语义相似值小于5并大于设定阈值时，可以进一步判断当前元素位置对应的第一语句和第二语句之间是否为一对N或N对一的关系。例如可以合并一定数量的语句，根据与合并语句之间的语义相似值确定当前元素位置对应的第一语句和第二语句之间是否为一对N或N对一的关系。设定阈值的大小可以根据实际情况确定，例如当语义相似值为3时，表示两个语句的语义基本相同，因此可以将设定阈值设置为3或3附近的某个数值。

可选的，可以合并当前元素位置对应的第二语句与下一个元素位置对应的第二语句，得到第一合并语句S(t_y:t_y+1)，t_y表示当前元素位置对应的第二语句，t_y+1表示下一个元素位置对应的第二语句，y＝1,2,...,n-1。类似的，可以合并当前元素位置对应的第一语句与下一个元素位置对应的第一语句，得到第二合并语句C(t_x:t_x+1)，t_x表示当前元素位置对应的第一语句，t_x+1表示下一个元素位置对应的第一语句，x＝1,2,...,m-1。

S370、根据所述当前元素位置对应的第一语句与所述第一合并语句的语义相似值、所述第二合并语句与所述当前元素位置对应的第二语句的语义相似值以及所述下一个元素位置对应的语义相似值，确定所述当前元素位置对应的第一语句与第二语句的映射关系。

可选的，可以确定当前元素位置对应的第一语句t_x与第一合并语句S(t_y:t_y+1)之间的语义相似值sim₁、第二合并语句C(t_x:t_x+1)与当前元素位置对应的第二语句t_y的语义相似值sim₂，根据sim₁、sim₂以及下一个元素位置对应的语义相似值确定当前元素位置对应的第一语句t_x与第二语句t_y之间的映射关系。为了便于描述，可以将当前元素位置对应的第一语句t_x与第一合并语句S(t_y:t_y+1)的语义相似值sim₁记为第一语义相似值、第二合并语句C(t_x:t_x+1)与当前元素位置对应的第二语句t_y的语义相似值sim₂记为第二语义相似值、当前元素位置对应的语义相似值记为第三语义相似值以及下一个元素位置对应的语义相似值记为第四语义相似值。

在一个示例中，可以通过如下方式确定第一语句和第二语句之间的映射关系：

如果所述第一语义相似值小于或等于所述第三语义相似值，或者所述第一语义相似值小于或等于所述第四语义相似值，则调小所述第一语义相似值，否则，保持所述第一语义相似值不变；

如果所述第二语义相似值小于或等于所述第三语义相似值，或者所述第二语义相似值小于或等于第四语义相似值，则调小所述第二语义相似值，否则，保持所述第二语义相似值不变；

确定所述第一语义相似值、第二语义相似值和第四语义相似值中的最大值；

如果最大值为所述第四语义相似值，则确定所述当前元素位置对应的第一语句与第二语句的映射关系为一对一；如果最大值为所述第一语义相似值，则确定所述当前元素位置对应的第一语句与第二语句的映射关系为一对N；如果最大值为所述第二语义相似值，则确定所述当前元素位置对应的第一语句与第二语句的映射关系为N对一。

具体的，如果第一语义相似值sim₁小于或等于第三语义相似值，或者第一语义相似值sim₁小于或等于第四语义相似值，则调小第一语义相似值sim₁的值，否则保持第一语义相似值sim₁不变，然后比较第二语义相似值sim₂与第三语义相似值和第四语义相似值的关系，例如如果第二语义相似值sim₂小于或等于第三语义相似值，或者第二语义相似值sim₂小于或等于第四语义相似值，则调小第二语义相似值sim₁的值，否则保持第二语义相似值sim₂不变。当然也可以先比较第二语义相似值sim₂与第三语义相似值和第四语义相似值的关系，再比较第一语义相似值sim₁与第三语义相似值和第四语义相似值的关系，过程类似。在此基础上，比较第一语义相似值sim₁、第二语义相似值sim₂和第四语义相似值的大小，这里的第一语义相似值sim₁、第二语义相似值sim₂为执行上述调整操作后的值，如果比较结果为第一语义相似值sim₁最大，则认为当前元素位置的第一语句与第二语句之间的映射关系为一对N，如果比较结果为第二语义相似值sim₂最大，则认为当前元素位置的第一语句与第二语句之间的映射关系为N对一，如果比较结果为第四语义相似值最大，则认为当前元素位置的第一语句与第二语句之间的映射关系为一对一。

上述过程中当需要调小第一语义相似值sim₁或第二语义相似值sim₂时，实施例对具体的调小量不进行限定，只要保证后续在比较第一语义相似值sim₁、第二语义相似值sim₂和第四语义相似值的大小时具有区分性即可，从而可以准确的确定第一语句和第二语句之间的映射关系。例如当需要调小第一语义相似值sim₁时，可以直接将第一语义相似值sim₁置为0，当需要调小第二语义相似值sim₂时，可以直接将第二语义相似值sim₂置为0。

在确定当前元素位置的第一语句与第二语句之间的映射关系为一对N或N对一时，进一步确定N的大小。例如当确定当前元素位置对应的第一语句与第二语句的映射关系为一对N时，可以通过如下方式确定N的大小：

合并所述当前元素位置对应的第二语句到目标元素位置对应的第二语句之间的第二语句，得到第三合并语句，所述目标元素位置所在的列为所述当前元素位置所在的列与N-1的和，N＝3；

如果所述当前元素位置对应的第一语句与所述第三合并语句的语义相似值小于或等于所述当前元素位置对应的语义相似值，则确定N＝2；

否则令N＝N+1，并重复执行上述操作，直至得到的当前元素位置对应的第一语句与所述第三合并语句的语义相似值小于或等于所述当前元素位置对应的语义相似值，并确定N＝N-1。

一对N表示一个第一语句对应多个第二语句，N大于或等于2，此时可以先将N加1，即确定N是否为3，例如可以合并三个第二语句，即可以将当前元素位置对应的第二语句、下一个元素位置对应的第二语句以及下下一个元素位置对应的第二语句合并，得到第三合并语句，需要注意的是，这里合并的三个第二语句所在的元素位置对应同一个第一语句。然后确定当前元素位置对应的第一语句与第三合并语句之间的语义相似值，如果当前元素位置对应的第一语句与第三合并语句之间的语义相似值小于或等于当前元素位置对应的语义相似值，则停止搜索，并确定N＝2，如果当前元素位置对应的第一语句与第三合并语句之间的语义相似值大于当前元素位置对应的语义相似值，则N加1，并继续判断，直至得到的当前元素位置对应的第一语句与第三合并语句的语义相似值小于或等于当前元素位置对应的语义相似值，此时N＝N-1。

本实施例在相似值矩阵的基础上进一步确定第一语句与多个第二语句合并之后的语义相似值，或者多个第一语句合并之后的语句与第二语句之间的语义相似值，在此基础上确定第一语句和第二语句之间的映射关系，提高了关联语句对的准确性，也使得一些语义相同或相近但词汇差异较大的句子可以被准确关联到，以及一些句法改变大、词汇删除较多的复杂句可以关联到简单句，增加了平行语料的数量。例如通过本实施例可以将“You should also be careful when taking selfies”和“Think before you take aselfie”、“It’s more comfortable high up in its clouds”和“But up in the clouds,it’s calmer”以及“The surface of Venus has burning temperatures and crushingpressures”和“It is very hot and has strong pressures”可以被准确的关联到。

当确定当前元素位置对应的第一语句与第二语句的映射关系为N对一时，可以通过如下方式确定N的大小：

合并所述当前元素位置对应的第一语句到目标元素位置对应的第一语句之间的第一语句，得到第四合并语句，所述目标元素位置所在的列为所述当前元素位置所在的列与N-1的和，N＝3；

如果所述第四合并语句与所述当前元素位置对应的第二语句的语义相似值小于或等于所述当前元素位置对应的语义相似值，则确定N＝2；

否则令N＝N+1，并重复执行上述操作，直至得到的第四合并语句与所述当前元素位置对应的第二语句的语义相似值小于或等于所述当前元素位置对应的语义相似值，确定N＝N-1。

当当前元素位置对应的第一语句与第二语句的映射关系为N对一时，N的大小的确定过程与当前元素位置对应的第一语句与第二语句的映射关系为一对N时，N的大小的确定过程类似，此处不再赘述。

S380、所述当前元素位置是否为相似值矩阵中最后一个元素的位置，若是执行S3100，否则执行S390后返回执行S340。

S390、将下一个元素的位置记为当前元素位置。

S3100、根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。

相似值矩阵中的元素位置遍历结束后，根据映射关系获取与第一语句关联的目标第二语句，并将第一语句与目标第二语句记为平行语料。

S3110、将所述平行语料输入文本简化模型，训练所述文本简化模型，得到目标文本简化模型。

在一个示例中，为了便于统计平行语料，在得到相似值矩阵后，可以同步初始化一个句子关联矩阵P，以用于存储第一语句与第二语句是否关联，句子关联矩阵P中各个元素的初始值为0，句子关联矩阵P的行和列与相似值矩阵T相同，句子关联矩阵P的某个元素位置对应的值表示相似值矩阵T中相同元素位置中第一语句和第二语句是否关联，后续可以直接根据句子关联矩阵P中各个元素位置的值得到平行语料。例如在确定第一文本的第二个第一语句与第二文本的第三个第二语句之间的映射关系为一对一时，可以同步将句子关联矩阵P的第二行第三列置为1，以表示该位置的第一语句与第二语句关联。再如，在确定第一文本的第二个第一语句与第二文本的第二个至第四个第二语句关联时，可以同步将句子关联矩阵P的第二行第二列至第二行第四列置为1。再如，在确定第一文本的第二个至第五个第一语句与第二文本的第三个第二语句关联时，可以同步将句子关联矩阵P的第二行第三列、第三行第三列、第四行第三列以及第五行第三列列置为1。遍历结束后，即可根据句子关联矩阵P中为1的元素位置取出，并将该元素位置对应的语句组合为复杂句-简单句，得到平行语料。

本公开实施例三提供一种平行语料获取方法，在上述实施例的基础上，确定语句间的语义相似值，根据语义相似值确定语句之间的映射关系，提高了关联语句对的准确性，也使得一些语义相同或相近但词汇差异较大的句子可以被准确关联到，以及一些句法改变大、词汇删除较多的复杂句可以关联到简单句，增加了平行语料的数量。

实施例四

图4为本公开实施例四提供的一种平行语料获取装置的结构图，该装置可以执行上述实施例所述的平行语料获取方法，如图4所示，该装置可以包括：

拆分模块41，用于拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表，所述第一文本和第二文本为同一语种，用于描述同一内容；

相似值矩阵确定模块42，用于确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵；

映射关系确定模块43，用于根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，所述映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数；

平行语料获取模块44，用于根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。

本公开实施例四提供一种平行语料获取装置，通过拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表，所述第一文本和第二文本为同一语种，用于描述同一内容；确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵；根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，所述映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数；根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。上述方案基于句子间的语义相似值，确定语句间的映射关系，提高了关联语句对的准确性，进而提高了平行语料的准确性。

在上述实施例的基础上，相似值矩阵确定模块42，具体用于：

将所述第一句子列表中的第一语句和所述第二句子列表中的第二语句输入语义相似值模型，由所述语义相似值模型输出所述第一语句与所述第二语句的语义相似值，所述语义相似值模型通过语义相似值不同的语句对训练得到；

顺序排列各所述第一语句对应的语义相似值，得到相似值矩阵，所述相似值矩阵的行数等于所述第一句子列表包含的第一语句的数量，所述相似值矩阵的列数等于所述第二句子列表包含的第二语句的数量。

在上述实施例的基础上，映射关系确定模块43，具体用于：

将所述相似值矩阵第一个元素的位置记为当前元素位置；

如果所述当前元素位置对应的语义相似值等于第一预设值，则确定所述当前元素位置对应的第一语句与第二语句的映射关系为一对一，所述第一预设值用于表示所述当前元素位置对应的第一语句与第二语句的语义相似程度最高；

将下一个元素的位置记为当前元素位置，并重复执行上述操作。

在上述实施例的基础上，映射关系确定模块43，具体用于：

将所述相似值矩阵第一个元素的位置记为当前元素位置；

如果所述当前元素位置对应的语义相似值小于第一预设值，则合并所述当前元素位置对应的第二语句与下一个元素位置对应的第二语句，得到第一合并语句，所述第一预设值用于表示所述当前元素位置对应的第一语句与第二语句的语义相似程度最高；以及合并所述当前元素位置对应的第一语句与下一个元素位置对应的第一语句，得到第二合并语句；

根据所述当前元素位置对应的第一语句与所述第一合并语句的语义相似值、所述第二合并语句与所述当前元素位置对应的第二语句的语义相似值以及所述下一个元素位置对应的语义相似值，确定所述当前元素位置对应的第一语句与第二语句的映射关系；

在上述实施例的基础上，将所述当前元素位置对应的第一语句与所述第一合并语句的语义相似值记为第一语义相似值、所述第二合并语句与所述当前元素位置对应的第二语句的语义相似值记为第二语义相似值、所述当前元素位置对应的语义相似值记为第三语义相似值以及所述下一个元素位置对应的语义相似值记为第四语义相似值；

所述映射关系确定模块43，具体用于：

在上述实施例的基础上，当所述当前元素位置对应的第一语句与第二语句的映射关系为一对N时，N的大小的确定过程如下：

在上述实施例的基础上，当所述当前元素位置对应的第一语句与第二语句的映射关系为N对一时，N的大小的确定过程如下：

在上述实施例的基础上，平行语料获取模块44，具体用于：

如果所述映射关系为一对一，将所述映射关系对应的第二语句记为目标第二语句；

如果所述映射关系为一对N，合并与所述映射关系对应的第二语句，得到目标第二语句；

如果所述映射关系为N对一，合并所述映射关系对应的第一语句，并将所述映射关系对应的第二语句记为目标第二语句。

在上述实施例的基础上，该装置还可以包括：

训练模块，用于在将所述第一语句与所述目标第二语句记为平行语料之后，将所述平行语料输入文本简化模型，训练所述文本简化模型，得到目标文本简化模型，所述目标文本简化模型用于将复杂文本转换为简单文本。

本公开实施例提供的平行语料获取装置与上述实施例提供的平行语料获取方法属于同一构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例具备执行平行语料获取方法相同的有益效果。

实施例五

下面参考图5，其示出了适于用来实现本公开实施例的电子设备)500的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

实施例六

本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表，所述第一文本和第二文本为同一语种，用于描述同一内容；确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵；根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，所述映射关系包括一对N、N对一和一对一中的至少一种，N为大于或等于2的整数；根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，拆分模块还可以被描述为“拆分预先获取的第一文本和第二文本，得到所述第一文本对应的第一句子列表和所述第二文本对应的第二句子列表的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，本公开提供了一种平行语料获取方法，包括：

根据本公开的一个或多个实施例，本公开提供的平行语料获取方法中，所述确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵，包括：

根据本公开的一个或多个实施例，本公开提供的平行语料获取方法中，所述根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，包括：

将所述相似值矩阵第一个元素的位置记为当前元素位置；

根据本公开的一个或多个实施例，本公开提供的平行语料获取方法中，将所述当前元素位置对应的第一语句与所述第一合并语句的语义相似值记为第一语义相似值、所述第二合并语句与所述当前元素位置对应的第二语句的语义相似值记为第二语义相似值、所述当前元素位置对应的语义相似值记为第三语义相似值以及所述下一个元素位置对应的语义相似值记为第四语义相似值；

所述根据所述当前元素位置对应的第一语句与所述第一合并语句的语义相似值、所述第二合并语句与所述当前元素位置对应的第二语句的语义相似值以及所述下一个元素位置对应的语义相似值，确定所述当前元素位置对应的第一语句与第二语句的映射关系，包括：

根据本公开的一个或多个实施例，本公开提供的平行语料获取方法中，当所述当前元素位置对应的第一语句与第二语句的映射关系为一对N时，N的大小的确定过程如下：

根据本公开的一个或多个实施例，本公开提供的平行语料获取方法中，当所述当前元素位置对应的第一语句与第二语句的映射关系为N对一时，N的大小的确定过程如下：

根据本公开的一个或多个实施例，本公开提供的平行语料获取方法中，所述根据所述映射关系获取与所述第一语句关联的目标第二语句，包括：

根据本公开的一个或多个实施例，本公开提供的平行语料获取方法中，在将所述第一语句与所述目标第二语句记为平行语料之后，还包括：

将所述平行语料输入文本简化模型，训练所述文本简化模型，得到目标文本简化模型，所述目标文本简化模型用于将复杂文本转换为简单文本。

根据本公开的一个或多个实施例，本公开提供了一种平行语料获取装置，包括：

根据本公开的一个或多个实施例，本公开提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时实现如本公开任一所述的平行语料获取方法。

根据本公开的一个或多个实施例，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开任一所述的平行语料获取方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种平行语料获取方法，其特征在于，包括：

确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵，其中，所述语义相似值用于表示两个语句之间的语义相似程度；

根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料；

所述根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，包括：

将所述相似值矩阵第一个元素的位置记为当前元素位置；

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述相似值矩阵确定所述第一语句与所述第二语句的映射关系，包括：

将所述相似值矩阵第一个元素的位置记为当前元素位置；

4.根据权利要求3所述的方法，其特征在于，将所述当前元素位置对应的第一语句与所述第一合并语句的语义相似值记为第一语义相似值、所述第二合并语句与所述当前元素位置对应的第二语句的语义相似值记为第二语义相似值、所述当前元素位置对应的语义相似值记为第三语义相似值以及所述下一个元素位置对应的语义相似值记为第四语义相似值；

5.根据权利要求4所述的方法，其特征在于，当所述当前元素位置对应的第一语句与第二语句的映射关系为一对N时，N的大小的确定过程如下：

6.根据权利要求4所述的方法，其特征在于，当所述当前元素位置对应的第一语句与第二语句的映射关系为N对一时，N的大小的确定过程如下：

7.根据权利要求1所述的方法，其特征在于，所述根据所述映射关系获取与所述第一语句关联的目标第二语句，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，在将所述第一语句与所述目标第二语句记为平行语料之后，还包括：

9.一种平行语料获取装置，其特征在于，包括：

相似值矩阵确定模块，用于确定所述第一句子列表中每一个第一语句与所述第二句子列表中各第二语句之间的语义相似值，得到相似值矩阵，其中，所述语义相似值用于表示两个语句之间的语义相似程度；

平行语料获取模块，用于根据所述映射关系获取与所述第一语句关联的目标第二语句，并将所述第一语句与所述目标第二语句记为平行语料；

所述映射关系确定模块，具体用于：

将所述相似值矩阵第一个元素的位置记为当前元素位置；

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时实现如权利要求1-8任一项所述的平行语料获取方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任一项所述的平行语料获取方法。