CN111563387A

CN111563387A - 语句相似度确定方法及装置、语句翻译方法及装置

Info

Publication number: CN111563387A
Application number: CN201910111777.8A
Authority: CN
Inventors: 欧夺标; 赵宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2020-08-21
Anticipated expiration: 2039-02-12
Also published as: CN111563387B

Abstract

本发明公开了一种语句相似度确定方法及装置、语句翻译方法及装置。其中，该方法包括：根据目标语句，搜索目标语句的记忆单元，其中，目标语句含有标签；分别对目标语句和记忆单元进行标签归一化处理；对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句和记忆单元的相似度。本发明解决了相关技术中，存在的带有xml标签的待翻译的句子和不带有或者类似的标签的记忆单元的相似度低的问题的技术问题。

Description

语句相似度确定方法及装置、语句翻译方法及装置

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种语句相似度确定方法及装置、语句翻译方法及装置。

背景技术

在翻译过程中，待翻译的句子和翻译记忆单元都有可能带有原始文档格式信息的xml标签，传统的相似度算法，比如编辑距离算法，往往以字符作为单位，从而导致有大量不需要翻译的标签参与相似度计算，本应相似度很高的翻译记忆单元无法被匹配出来，降低记忆库的复用率，无法降低翻译成本。例如：(1)HTML格式的句子：This isboldtext(2)中间格式XLIFF的句子：This is<bpt id＝"1"ctype＝"bold"/>bold<ept id＝"1"/>text(3)记忆单元：This is bold text传统的编辑距离算法计算(1)和(3)的相似度为30，未达到业界的最低标准：75。因此，相关技术中，存在的带有xml标签的待翻译的句子和不带有或者类似的标签的记忆单元的相似度低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语句相似度确定方法及装置、语句翻译方法及装置，以至少解决相关技术中，存在的带有xml标签的待翻译的句子和不带有或者类似的标签的记忆单元的相似度低的问题的技术问题。

根据本发明实施例的一个方面，提供了一种语句相似度确定方法，包括：根据目标语句，搜索所述目标语句的记忆单元，其中，所述目标语句含有标签；分别对所述目标语句和所述记忆单元进行标签归一化处理；对标签归一化处理后的所述目标语句和所述记忆单元进行相似度计算，确定所述目标语句和所述记忆单元的相似度。

根据本发明实施例的另一方面，还提供了一种语句翻译方法，包括：根据待翻译语句，搜索所述待翻译语句的记忆单元；分别对所述待翻译语句和所述记忆单元进行标签归一化处理；对标签归一化处理后的所述待翻译语句和所述记忆单元进行相似度计算，确定所述待翻译语句和所述记忆单元的相似度；根据所述待翻译语句和所述记忆单元的相似度，匹配所述待翻译语句的记忆单元，生成所述待翻译语句的翻译语句。

根据本发明实施例的另一方面，还提供了一种语句相似度确定装置，包括：搜索模块，用于根据目标语句，搜索所述目标语句的记忆单元，其中，所述目标语句含有标签；处理模块，用于分别对所述目标语句和所述记忆单元进行标签归一化处理；确定模块，用于对标签归一化处理后的所述目标语句和所述记忆单元进行相似度计算，确定所述目标语句和所述记忆单元的相似度。

根据本发明实施例的另一方面，还提供了一种语句翻译装置，包括：搜索模块，用于根据待翻译语句，搜索所述待翻译语句的记忆单元；处理模块，用于分别对所述待翻译语句和所述记忆单元进行标签归一化处理；确定模块，用于对标签归一化处理后的所述待翻译语句和所述记忆单元进行相似度计算，确定所述待翻译语句和所述记忆单元的相似度；翻译模块，用于根据所述待翻译语句和所述记忆单元的相似度，匹配所述待翻译语句的记忆单元，生成所述待翻译语句的翻译语句。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的方法。

在本发明实施例中，采用根据目标语句，搜索所述目标语句的记忆单元，其中，所述目标语句含有标签；分别对所述目标语句和所述记忆单元进行标签归一化处理；对标签归一化处理后的所述目标语句和所述记忆单元进行相似度计算，确定所述目标语句和所述记忆单元的相似度的方式，通过标签归一化处理将标签转化成字符，达到了减少标签中的大量字符对文本表达的内容相似计算的影响的目的，从而实现了提高的语句相似度的技术效果，进而解决了相关技术中，存在的带有xml标签的待翻译的句子和不带有或者类似的标签的记忆单元的相似度低的问题的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现语句相似度确定方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例1的语句相似度确定方法的流程图；

图3是根据本发明实施例1中可选的语句相似度确定方法的流程图；

图4是根据本发明实施例2的一种语句翻译方法的流程图；

图5是根据本发明实施例3的一种语句相似度确定装置的示意图；

图6是根据本发明实施例4的一种语句翻译装置的示意图；

图7是根据本发明实施例6的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

CAT：Computer Aided Translation,计算机辅助翻译***，能够帮助翻译者优质、高效、轻松地完成翻译工作。

记忆库：简写TM(translation memory),翻译记忆库,是一个存储了一个个“段”的数据库，这些存储了源文本和相应的语言的翻译，这个“段”就是翻译单元。翻译记忆可以是用于帮助翻译人员翻译已翻译的句子，段落或类似句子的单元(标题或列表元素)，从而大幅度减轻译员的负担。

XLIFF:XML Localization Interchange File Format,是由软件开发商、本地化服务提供商、本地化工具提供商等团体共同倡议和设计，由OASIS标准组织发布的用于本地化数据交换的格式标准。它基于XML技术制定软件资源文件格式的转换规格，其目的在于提高软件的本地化作业效率。

TMX:Translation Memory Exchange format，翻译记忆交换格式，TMX标准实现不同翻译软件供应商之间翻译记忆库的互换，为翻译社群所采纳的汇入汇出翻译记忆的最佳办法。

文本相似度算法：能够提供不同短文本之间相似度的计算,输出的相似度是一个介于0到1之间的实数值,越大则相似度越高。

编辑距离算法：文本相似度算法的一种，是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。

实施例1

根据本发明实施例，还提供了一种语句相似度确定方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语句相似度确定方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的语句相似度确定方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的语句相似度确定方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

图1示出的硬件结构框图，不仅可以作为上述计算机终端10(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器，例如安全服务器、资源服务器、游戏服务器等。一种可选实施例中，上述计算机终端10(或移动设备)可以是任意移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接，或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务，诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。

在翻译场景中，传统相似度算法是将xml标签的每一个字符进行相似度计算，比如<bpt/>当做6个字符处理。在混有大量标签的实际的内容一致的句子之间进行匹配，相似度严重降低，记忆库复用率极低。另外，还可以先去除待翻译的句子和记忆单元的格式标签，然后应用传统的相似度算法，比如'This is<bpt id＝"1"ctype＝"bold"/>bold<ept id＝"1"/>text'变成了'This is bold text',使得相似度达到100，但是格式标签在CAT***中是有意义的，因为需要保持译文和原文具有相同的格式信息，这使得限定译员在固定的格式布局内填写译文，这让译文能够重新合成新的译后文档。去标签的相似度计算的100分值会让译员忽略这些差异，并进行合理调整，从而无法合成和原文文档一样格式布局的译文文档。所以计算出的相似度必须凸显出格式上的差异。

在上述运行环境下，针对相关技术中所存在的上述问题，本申请提供了如图2所示的语句相似度确定方法。图2是根据本发明实施例1的语句相似度确定方法的流程图。如图2所示，该方法包括以下步骤：

步骤S202，根据目标语句，搜索目标语句的记忆单元，其中，目标语句含有标签；

作为一种可选的实施例，上述目标语句可以为待翻译语句，上述记忆单元可以为存储于记忆库中，可用的已翻译的句子，段落或类似句子的单元，还可以是标题，列表元素等。其中，记忆单元可以带有标签，也可能不带有标签。上述记忆单元可以包括两个原文字段，一个是去除标签的，用来索引，一个是真实原文可能具有标签，用来参与标签归一化处理和相似度计算。

作为一种可选的实施例，上述目标语句含有标签，即搜索含有标签的目标语句的记忆单元，也即对含有标签的实际内容的一致性进行匹配，召回与上述目标语句相似的记忆单元。

作为一种可选的实施例，上述标签可以是各种形式的标签，例如，xml格式的标签，或者其他格式的标签等。

步骤S204，分别对目标语句和记忆单元进行标签归一化处理；

作为一种可选的实施例，上述目标语句在标签归一化处理之前，已经进行了去标签化的处理，通过去标签化后的目标语句可以得到记忆单元，例如，从存储数据库中获取记忆单元。

作为一种可选的实施例，在具体实施过程中，目标语句和记忆单元存在多种情形，其中，在存在格式标签的情况下，为避免格式标签对目标语句和记忆单元的翻译结果的影响，需要将上述格式标签对目标语句和记忆单元的文本相似度的影响消除，本实施例中采用标签归一化处理的方式，减弱或者消除上述格式标签对目标语句和记忆单元的文本相似度的影响。

作为一种可选的实施例，标签归一化处理可以是将xml标签等格式标签转化成特定字符,比如不可见字符，使得格式标签都被当作同一个字符处理，避免了各种格式标签的相似度对目标语句和记忆单元的文本相似度造成影响。该特定字符可以包括“？”，“！”等。

步骤S206，对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句和记忆单元的相似度。

作为一种可选的实施例，可以通过传统的相似度算法来实现对标签归一化处理后的待翻译语句和记忆单元进行相似度计算，从而确定待翻译语句和记忆单元的相似度。

作为一种可选的实施例，上述相似度算法可以包括编辑距离算法，还可以采用余弦方法计算相似度。在具体实施过程中，并不仅限于上述实施方法。

通过上述步骤，采用根据目标语句，搜索目标语句的记忆单元，其中，目标语句含有标签；分别对目标语句和记忆单元进行标签归一化处理；对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句和记忆单元的相似度的方式，通过标签归一化处理将标签转化成字符，达到了减少标签中的大量字符对文本表达的内容相似计算的影响的目的，从而实现了提高的语句相似度的技术效果，进而解决了相关技术中，存在的带有xml标签的待翻译的句子和不带有或者类似的标签的记忆单元的相似度低的问题的技术问题。

作为一种可选的实施例，对目标语句进行标签归一化处理包括：确定目标语句中的至少一个第一标签；将多个第一标签替换成至少一个第一字符，其中，至少一个第一字符相同或不同。

作为一种可选的实施例，首先要确定目标语句中的第一标签，该第一标签可以是一个，也可以是多个，需要说明的是，上述第一标签可以通过多种方法确定，例如，可以通过正则表达式确定上述第一标签等。

作为一种可选的实施例，在上述第一标签为多个的情况下，在确定目标语句中多个的第一标签后，进一步可以将上述多个的第一标签分别替换为一个字符，即相同的第一字符，还可以将上述多个第一标签分别替换为不同的第一字符，例如，第一标签<a/>和第一标签,可以均替换成相同的第一字符？，也可以替换成不一样的第一字符？和第一字符！，在这种情况下，只要保证记忆单元归一化要和目标语句归一化保持一致。在上述目标语句的第一标签<a/>替换为第一字符？，第一标签替换为第一字符！的情况下，在记忆单元出现相同的第二标签<a/>也需要替换为相同的第二字符？，相同的第二标签也需要替换为第二字符！。从而实现对目标语句的标签归一化处理。

作为一种可选的实施例，根据目标语句，搜索目标语句的记忆单元包括：将目标语句的标签去除；根据去除标签的目标语句，搜索目标语句的记忆单元。

作为一种可选的实施例，上述将目标语句的标签去除可以解决在混有大量标签的实际的内容一致的句子之间进行匹配，相似度严重降低，记忆库复用率极低的问题。减少了标签中的大量字符对文本表达的内容相似计算的影响。

作为一种可选的实施例，由于对目标语句的标签进行去除，避免了标签对相似度匹配的不利影响，根据去除标签的目标语句，可以准确地搜索目标语句的记忆单元，提高匹配效率。

作为一种可选的实施例，搜索目标语句的记忆单元之后，对记忆单元进行标签归一化处理，包括：在记忆单元具有标签的情况下，确定记忆单元的至少一个第二标签；将至少一个第二标签替换为至少一个第二字符，其中，至少一个第二字符相同或不同。

作为一种可选的实施例，可以通过正则表达式确定记忆单元的标签，在记忆单元具有标签的情况下，确定记忆单元的第二标签；这里需要说明的是，上述第二标签可以是一个，也可能是多个。

作为一种可选的实施例，在多个第二标签的情况下，可以将多个第二标签替换为同一第二字符，还可以将上述多个第二标签分别替换为不同的第二字符。例如，第二标签<c/>和第二标签<d/>,可以均替换成相同的第一字符#，也可以替换成不一样的第二字符#和第二字符*，在这种情况下，只要保证记忆单元归一化要和目标语句归一化保持一致。在上述记忆单元的第二标签<c/>替换为第二字符#，第二标签<d/>替换为第二字符*的情况下，在目标语句出现相同的第一标签<c/>也需要替换为相同的第一字符#，相同的第一标签<d/>也需要替换为第一字符*。

作为一种可选的实施例，根据目标语句，搜索目标语句的记忆单元包括：根据目标语句，通过搜索引擎搜索目标语句的记忆单元：接收搜索引擎发送的记忆单元。

作为一种可选的实施例，上述搜索引擎可以是定制搜索引擎，也可以是通用的搜索引擎，其中，通用搜索引擎可以包括现有的开源或商业的搜索引擎等，由于上述搜索引擎可以访问不同的数据库，例如，翻译记忆库等，可以实现根据目标语句，通过搜索引擎搜索目标语句的记忆单元，进而可以接收搜索引擎发送的记忆单元。

作为一种可选的实施例，通过编辑距离算法对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句与记忆单元的文本相似度。

作为一种可选的实施例，上述利用编辑距离算法可以计算出编辑距离，其中，编辑距离是将两个字符串之间，在一个字符串转化成另一个字符串时所需要的最少的编辑次数。一般情况下，字符串编辑距离越小，两个字符串的相似度越大。同时，通过编辑距离算法可以动态规划实现增加，删除以及替换等操作以减少编辑次数。此外，在本发明实施例中，还可以采用余弦方法来计算相似度。

作为一种可选的实施例，上述编辑距离算法对标签归一化处理后的目标语句和记忆单元进行相似度计算，相比于现有技术对未做归一化处理而进行相似度计算，本发明经过标签归一化处理后大大提高了相似度。

作为一种可选的实施例，上述标签归一化处理可以通过定制搜索引擎实现，也可以结合通用的搜索引擎实现，其中，通过定制搜索引擎实现需要单独开发，前期投入较大，由于专门为标签归一化设计，可以将多种影响因素考虑进去，提高标签归一化的效率。此外，还能够采用通用搜索引擎，其中，标签归一化不会在该搜索引擎实现，需要在索引阶段或者搜索查询之前进行去除标签处理，同样可以达到定制搜索引擎的效果。因此，可以大大提高召回率，再将搜索结果进行标签处理化以后，进行相似度计算，相比于现有技术而言，可以使得相似度大幅度提高。

作为一种可选的实施例，标签为目标语句或记忆单元的格式标签。

作为一种可选的实施例，上述标签包括xml标签，其中，该标签可以***注释，声明需要解析的环境设置和***特殊指令等。需要说明的是，上述标签存在于目标语句或记忆单元，在标签归一化处理之前，影响匹配，使得相似度降低，而在经过标签化处理以后，可以大大降低上述不利影响。

下面对本发明可选的实施例进行详细说明。

本实施方式通过将待译语句和记忆单元做标签归一化处理之后，再用传统的相似度算法进行计算。同时为了在使用主流通用的搜索引擎的情况下提高召回率，在索引记忆单元和搜索查询之前都去除格式化标签。

图3是根据本发明实施例1中可选的语句相似度确定方法的流程图，如图3所示，具体实施步骤如下：

(1)带标签的待翻译语句去除标签后作为搜索查询，到通用的搜索引擎搜索，召回相似记忆单元，这些记忆单元可能带有标签。其中，复用现有的开源或商业的搜索引擎，降低开发费用。

(2)将召回的记忆单元tu进行标签归一化处理，记做tu'。

(3)带标签的待翻译语句进行标签归一化处理,记做seg'。其中，将查询的待翻译语句标签归一化处理，解决了相似度过低导致记忆库复用低的问题。

(4)将tu'和seg'用传统的相似度算法进行计算相似度，比如编辑距离算法。

本实施方式通过标签归一化处理提高相似度，以及复用通用的搜索引擎提高召回率。下面详细介绍：

1、标签归一化处理核心思想就是将xml标签转化成特定字符,比如不可见字符，使得标签被当做一个字符处理。比如，语句'This is<bpt/>bold<ept/>text'中有2个标记bpt和ept，首先用正则表达式找到这些标签，然后替换成一个字符，所以上述语句做标签归一化之后变成'This is？bold？text'，注意其中的'？'是特定字符。未做归一化之前，与语句'This is bold text'的编辑距离相似度为33,做了归一化之后的编辑距离相似度为88。

2、通用的搜索引擎召回率通用的搜索引擎是没有标签归一化处理，但是实现一个标签归一化处理的特定搜索引擎，往往花费很大成本的，同时带有标签的记忆单元直接利用通用的搜索引擎索引，在搜索的时候，可能存在召回率低的问题。所以为了利用现有通用搜索引擎，标签归一化处理不会在搜索引擎实现，转而先在索引阶段之前和搜索查询之前需要去除标签，这样可以大大提高召回率，然后再拿到搜索结果后再进行标签归一化相似度计算。需要说明的是，上述通用搜索引擎可以是开源或者自研，上述标签归一化处理可能与搜索引擎一起实现。

本实施方式通过将标签转化成字符，即减少了标签中的大量字符对文本表达的内容相似计算的影响，又能在CAT这一特定场景中，将格式信息对相似度的影响表现出来，做到了文本表达的内容相同或类似，但是格式却不同的效果，能够让译员发现记忆单元与待译语句的区别，从而进行调整。

实施例2

根据本发明实施例的另一方面，还提供了一种语句翻译方法，图4是根据本发明实施例2的一种语句翻译方法的流程图，如图4所示，该方法包括：

步骤S402，根据待翻译语句，搜索待翻译语句的记忆单元；

作为一种可选的实施例，上述待翻译语句为去除格式化标签后的语句，进而再搜索待翻译语句的记忆单元，这样可以有效地减少标签对召回率的影响，召回更多的记忆单元参与相似度计算，从而大大提高记忆库复用率。

作为一种可选的实施例，上述搜索可以采用特定搜索引擎实现，也可以复用现有的开源或商业的搜索引擎实现，其中，采用后者充分利用现有资源和技术，可以降低开发费用。

步骤S404，分别对待翻译语句和记忆单元进行标签归一化处理；

作为一种可选的实施例，由于之前对待翻译语句进行了去除格式化标签的操作，经过搜索待翻译语句而得到的记忆单元的去除标签的字段是没有标签的，其中，上述记忆单元可以包括两个原文字段，一个是去除标签的，用来索引，一个是真实原文可能具有标签，用来参与标签归一化处理和相似度计算。进一步，需要对上述待翻译语句和记忆单元进行标签归一化处理。

作为一种可选的实施例，在具体实施过程中可以采用多种方法进行标签归一化处理，例如，可以采用特定搜索引擎，该引擎不仅具备搜索功能，同时还具备标签归一化功能，还可以采用先可以结合通用搜索引擎，在经过通用搜索引擎搜索之后，进而采用其他方法对待翻译语句和记忆单元进行标签归一化处理。

需要说明的是，通用搜索引擎为现有已知的搜索引擎，该引擎并不具备标签归一化功能，因此，需要在得到搜索结果，经由其他的进行标签归一化处理。

步骤S406，对标签归一化处理后的待翻译语句和记忆单元进行相似度计算，确定待翻译语句和记忆单元的相似度；

作为一种可选的实施例，可以通过相似度算法来实现对标签归一化处理后的待翻译语句和记忆单元进行相似度计算，从而确定待翻译语句和记忆单元的相似度。其中，相似度算法包括编辑距离算法，还可以采用余弦方法计算相似度。在具体实施过程中，并不仅限于上述实施方法。

步骤S408，根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句。

作为一种可选的实施例，上述相似度用于比较两个事物的相似性，例如，待翻译语句和记忆单元的相似性。在本发明实施例中，采用编辑距离算法计算相似度时，距离越小，相似度越大，反之，距离越大，相似度越小。

作为一种可选的实施例，在得到待翻译语句和记忆单元的相似度后，选取相似度较大的对应的记忆单元，进而生成翻译语句。

作为一种可选的实施例，根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句之后还包括：根据翻译语句进行搜索。

作为一种可选的实施例，上述翻译语句是根据相似度较高的记忆单元匹配出来的，能够减少记忆库的复用率，降低翻译成本。

作为一种可选的实施例，上述根据翻译语句进行搜索，可以准确地从记忆库中得到对应的翻译语句。

作为一种可选的实施例，根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句包括：确定于待翻译语句的相似度高于一定阈值的记忆单元，为有效记忆单元；根据有效记忆单元生成待翻译语句的翻译语句。

作为一种可选的实施例，上述阈值可以采用默认形式，也可以自行设置，当待翻译语句的相似度高于一定阈值的记忆单元时，将上述记忆单元定义为有效记忆单元。例如，将阈值设置为75时，确定待翻译语句的相似度高于75的记忆单元，为有效记忆单元，进而将上述有效记忆单元生成待翻译语句的翻译语句。当然，可以合理的提高阈值，这样可以使最终得到的翻译语句质量更高。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的语句翻译方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例3

根据本发明实施例，还提供了一种用于实施上述实施例1语句相似度确定方法的装置，图5是根据本发明实施例3的一种语句相似度确定装置的示意图，如图5所示，该装置包括：搜索模块502，处理模块504和确定模块506，下面对该装置进行详细说明。

搜索模块502，用于根据目标语句，搜索目标语句的记忆单元，其中，目标语句含有标签；处理模块504，连接至上述搜索模块502，用于分别对目标语句和记忆单元进行标签归一化处理；确定模块506，连接至上述处理模块504，用于对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句和记忆单元的相似度。

此处需要说明的是，上述搜索模块502，处理模块504和确定模块506对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例4

根据本发明实施例，还提供了一种用于实施上述实施例2语句翻译方法的装置，图6是根据本发明实施例2的一种语句翻译装置的示意图，如图6所示，该装置包括：搜索模块602，处理模块604，确定模块606和翻译模块608，下面对该装置进行详细说明。

搜索模块602，用于根据待翻译语句，搜索待翻译语句的记忆单元；处理模块604，连接至上述搜索模块602，用于分别对待翻译语句和记忆单元进行标签归一化处理；确定模块606，连接至上述处理模块604，用于对标签归一化处理后的待翻译语句和记忆单元进行相似度计算，确定待翻译语句和记忆单元的相似度；翻译模块608，连接至上述确定模块606，用于根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句。

此处需要说明的是，上述搜索模块602，处理模块604，确定模块606和翻译模块608对应于实施例2中的步骤S302至步骤S308，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的语句相似度确定方法和上述实施例2所提供的语句翻译方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据目标语句，搜索目标语句的记忆单元，其中，目标语句含有标签；分别对目标语句和记忆单元进行标签归一化处理；对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句和记忆单元的相似度。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对目标语句进行标签归一化处理包括：确定目标语句中的至少一个第一标签；将至少一个第一标签替换成至少一个第一字符，其中，至少一个第一字符相同或不同。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据目标语句，搜索目标语句的记忆单元包括：将目标语句的标签去除；根据去除标签的目标语句，搜索目标语句的记忆单元。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：搜索目标语句的记忆单元之后，对记忆单元进行标签归一化处理，包括：在记忆单元具有标签的情况下，确定记忆单元的至少一个第二标签；将至少一个第二标签均替换为至少一个第二字符，其中，至少一个第二字符相同或不同。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据目标语句，搜索目标语句的记忆单元包括：根据目标语句，通过搜索引擎搜索目标语句的记忆单元：接收搜索引擎发送的记忆单元。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过编辑距离算法对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句与记忆单元的文本相似度。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：标签为目标语句或记忆单元的格式标签。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据待翻译语句，搜索待翻译语句的记忆单元；分别对待翻译语句和记忆单元进行标签归一化处理；对标签归一化处理后的待翻译语句和记忆单元进行相似度计算，确定待翻译语句和记忆单元的相似度；根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句之后还包括：根据翻译语句进行搜索。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句包括：确定于待翻译语句的相似度高于一定阈值的记忆单元，为有效记忆单元；根据有效记忆单元生成待翻译语句的翻译语句。

实施例6

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的语句相似度确定方法中以下步骤的程序代码根据目标语句，搜索目标语句的记忆单元，其中，目标语句含有标签；分别对目标语句和记忆单元进行标签归一化处理；对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句和记忆单元的相似度。

可选地，图7是根据本发明实施例6的一种计算机终端的结构框图。如图7所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器702、存储器704、以及外设接口。

根据本发明实施例的另一方面，还提供了一种计算机设备，包括：存储器和处理器，存储器存储有计算机程序；处理器，用于执行存储器中存储的计算机程序，计算机程序运行时执行以下步骤：根据目标语句，搜索目标语句的记忆单元，其中，目标语句含有标签；分别对目标语句和记忆单元进行标签归一化处理；对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句和记忆单元的相似度。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：对目标语句进行标签归一化处理包括：确定目标语句中的至少一个第一标签；将至少一个第一标签替换成至少一个第一字符，其中，至少一个第一字符相同或不同。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：根据目标语句，搜索目标语句的记忆单元包括：将目标语句的标签去除；根据去除标签的目标语句，搜索目标语句的记忆单元。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：搜索目标语句的记忆单元之后，对记忆单元进行标签归一化处理，包括：在记忆单元具有标签的情况下，确定记忆单元的至少一个第二标签；将至少一个第二标签替换为至少一个第二字符，其中，至少一个第二字符相同或不同。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：根据目标语句，搜索目标语句的记忆单元包括：根据目标语句，通过搜索引擎搜索目标语句的记忆单元：接收搜索引擎发送的记忆单元。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：通过编辑距离算法对标签归一化处理后的目标语句和记忆单元进行相似度计算，确定目标语句与记忆单元的文本相似度。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：标签为目标语句或记忆单元的格式标签。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：根据待翻译语句，搜索待翻译语句的记忆单元；分别对待翻译语句和记忆单元进行标签归一化处理；对标签归一化处理后的待翻译语句和记忆单元进行相似度计算，确定待翻译语句和记忆单元的相似度；根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句之后还包括：根据翻译语句进行搜索。

可选地，在本实施例中，上述处理器执行的存储器中存储的计算机程序还可以执行如下步骤：根据待翻译语句和记忆单元的相似度，匹配待翻译语句的记忆单元，生成待翻译语句的翻译语句包括：确定于待翻译语句的相似度高于一定阈值的记忆单元，为有效记忆单元；根据有效记忆单元生成待翻译语句的翻译语句。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语句相似度确定方法，其特征在于，包括：

根据目标语句，搜索所述目标语句的记忆单元，其中，所述目标语句含有标签；

分别对所述目标语句和所述记忆单元进行标签归一化处理；

对标签归一化处理后的所述目标语句和所述记忆单元进行相似度计算，确定所述目标语句和所述记忆单元的相似度。

2.根据权利要求1所述的方法，其特征在于，对所述目标语句进行标签归一化处理包括：

确定所述目标语句中的至少一个第一标签；

将至少一个所述第一标签替换成至少一个第一字符，其中，至少一个第一字符相同或不同。

3.根据权利要求1所述的方法，其特征在于，根据目标语句，搜索所述目标语句的记忆单元包括：

将所述目标语句的标签去除；

根据去除标签的所述目标语句，搜索所述目标语句的记忆单元。

4.根据权利要求3所述的方法，其特征在于，搜索所述目标语句的记忆单元之后，对所述记忆单元进行标签归一化处理，包括：

在所述记忆单元具有标签的情况下，确定所述记忆单元的至少一个第二标签；

将至少一个所述第二标签替换为至少一个第二字符，其中，至少一个第二字符相同或不同。

5.根据权利要求1所述的方法，其特征在于，根据目标语句，搜索所述目标语句的所述记忆单元包括：

根据所述目标语句，通过搜索引擎搜索所述目标语句的所述记忆单元：

接收所述搜索引擎发送的所述记忆单元。

6.根据权利要求1所述的方法，其特征在于，通过编辑距离算法对标签归一化处理后的所述目标语句和所述记忆单元进行相似度计算，确定所述目标语句与所述记忆单元的文本相似度。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述标签为所述目标语句或所述记忆单元的格式标签。

8.一种语句翻译方法，其特征在于，包括：

根据待翻译语句，搜索所述待翻译语句的记忆单元；

分别对所述待翻译语句和所述记忆单元进行标签归一化处理；

对标签归一化处理后的所述待翻译语句和所述记忆单元进行相似度计算，确定所述待翻译语句和所述记忆单元的相似度；

根据所述待翻译语句和所述记忆单元的相似度，匹配所述待翻译语句的记忆单元，生成所述待翻译语句的翻译语句。

9.根据权利要求8所述的方法，其特征在于，根据所述待翻译语句和所述记忆单元的相似度，匹配所述待翻译语句的记忆单元，生成所述待翻译语句的翻译语句之后还包括：

根据所述翻译语句进行搜索。

10.根据权利要求8所述的方法，其特征在于，根据所述待翻译语句和所述记忆单元的相似度，匹配所述待翻译语句的记忆单元，生成所述待翻译语句的翻译语句包括：

确定于所述待翻译语句的相似度高于一定阈值的记忆单元，为有效记忆单元；

根据所述有效记忆单元生成所述待翻译语句的翻译语句。

11.一种语句相似度确定装置，其特征在于，包括：

搜索模块，用于根据目标语句，搜索所述目标语句的记忆单元，其中，所述目标语句含有标签；

处理模块，用于分别对所述目标语句和所述记忆单元进行标签归一化处理；

确定模块，用于对标签归一化处理后的所述目标语句和所述记忆单元进行相似度计算，确定所述目标语句和所述记忆单元的相似度。

12.一种语句翻译装置，其特征在于，包括：

搜索模块，用于根据待翻译语句，搜索所述待翻译语句的记忆单元；

处理模块，用于分别对所述待翻译语句和所述记忆单元进行标签归一化处理；

确定模块，用于对标签归一化处理后的所述待翻译语句和所述记忆单元进行相似度计算，确定所述待翻译语句和所述记忆单元的相似度；

翻译模块，用于根据所述待翻译语句和所述记忆单元的相似度，匹配所述待翻译语句的记忆单元，生成所述待翻译语句的翻译语句。

13.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的方法。

14.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至10中任意一项所述的方法。