CN100562870C

CN100562870C - 翻译装置和翻译方法

Info

Publication number: CN100562870C
Application number: CNB2007101047541A
Authority: CN
Inventors: 刘绍明
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2006-09-04
Filing date: 2007-04-26
Publication date: 2009-11-25
Anticipated expiration: 2027-04-26
Also published as: US8239188B2; US20080059146A1; CN101140570A; JP2008065395A

Abstract

本发明涉及翻译装置、翻译方法。提供了一种翻译装置，该翻译装置包括：双语例句词典，该双语例句词典存储了第一种语言的多个例句和作为所述多个例句的译文的第二种语言的多个例句；输入单元，该输入单元输入所述第一种语言的输入句；第一搜索单元，该第一搜索单元搜索所述输入句是否与所述第一种语言的所述多个例句中的任一例句匹配；第二搜索单元，该第二搜索单元在所述第一搜索单元没有找到匹配例句时，从所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句；以及输出单元，该输出单元输出作为所述第一搜索单元搜索到的例句的译文或者作为所述第二搜索单元搜索到的所述候选例句的译文的所述第二种语言的例句。

Description

翻译装置和翻译方法

技术领域

本发明涉及利用双语例句词典的翻译装置、翻译方法以及翻译程序。

背景技术

机器翻译是一种利用计算机来进行的从一种语言到另一种语言的转换。全世界对机器翻译已经进行了半个世纪的研究与开发。可以将用于机器翻译的方法大致分成三种：(1)基于分析的机器翻译方法，(2)基于示例的机器翻译方法，以及(3)基于统计的机器翻译方法。

基于分析的机器翻译方法是这样一种技术，即，该技术例如执行对第一种语言的词素分析、句法和语义分析，接着，将分析的结果转换成第二种语言，并且生成第二种语言的译句。这种用于分析自然语言的技术仍然不够成熟，由此，基于分析的机器翻译方法的实际用途已经面临限制。另外，因为缺乏学习能力，所以其难于改进或改变翻译引擎。

基于统计的机器翻译方法是这样一种技术，即，该技术利用语言模型和统计模型来构建翻译模型。用于构建各模型所需的学习数据(语料库)是有限的，由此，其难于进行实际应用。

基于示例的机器翻译方法模仿了人类学习外语的机制。其通过参照已经学到的例句的译文来翻译新文档。这种方法首先由Nagao教授于19世纪80年代提出。此后，已经进行了对这种方法的深入研究和开发。

另选的是，存在用于辅助翻译工作的辅助翻译***。辅助翻译软件与机器翻译软件的不同之处在于，当句子不能被正确翻译时，辅助翻译软件根据存储的双语例句词典向翻译者提供相似的例句和所述例句的译句或部分翻译结果。

JP 2005-107597A叙述了一种例句搜索装置，并且公开了一种利用示例数据库搜索与输入句相似的例句(尤其是包括输入句在内的这种句子)的技术。JP 06-83864A叙述了一种自动翻译装置，并且公开了一种利用输入句的词素之间的关系从例句数据库中选择最接近的例句的技术。JP08-106474A公开了这样一种方法，即，该方法采用易于观看的方式对相似的例句进行分组，以显示翻译输入句所需的相似的例句。

图23例示了双语例句词典的概要。图23所示双语例句词典包括存储器1，存储器1存储有由中文例句和与所述中文例句相对应的日文例句组成的多个例句对。当用户输入中文的输入句2时，例句搜索部3搜索与输入句2匹配的中文例句，并且输出与输入句2对应的日文译句4。

利用现有技术的双语例句词典，搜索输入句与例句之间的匹配，由此，除了获得与例句匹配的例句译文的信息以外，不能获得该译文句子的其它信息。因此，即使存储有与输入句相似的例句，用户也不能使用该相似的例句，这意味着未能有效地使用该双语例句词典。另外，当把利用OCR(光学字符识别)***扫描的文档数据用于输入句时，如果在扫描中存在任何误识别，则与例句的匹配发生失配，从而尽管存储有匹配例句，但也不能获得输入句的译文。

作为用于搜索双语例句词典中的例句的方法，存在字符索引方法和单词索引方法。前者针对存在于双语语料库中的每个字符创建字符索引。利用这种方法，因要搜索的数据量变得非常庞大而难于进行实时翻译。后者针对存在于双语语料库中的每个单词创建单词索引。这需要词素分析，以从输入句中提取单词，由此，如果词素分析的结果不正确，则翻译将变得困难起来。词素分析尤其不适于技术术语和成语。

发明内容

本发明的一个方面提供了一种翻译装置，该翻译装置包括：双语例句词典，该双语例句词典存储了第一种语言的多个例句和作为所述第一种语言的所述多个例句的译文的第二种语言的多个例句；输入单元，该输入单元输入所述第一种语言的输入句；第一搜索单元，该第一搜索单元通过如下方式来搜索所述输入句是否与所述双语例句词典中的所述第一种语言的所述多个例句中的任一例句匹配：所述第一搜索单元生成所述输入句的散列值，并且基于所生成的所述散列值来搜索与所述输入句匹配的例句；第二搜索单元，该第二搜索单元在所述第一搜索单元没有找到匹配例句时，通过如下方式来从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句：所述第二搜索单元生成所述输入句的N-gram串，并基于所生成的所述N-gram串来搜索相似的例句，其中N为自然数，其中，所述第二搜索单元对每个例句中包含的根据所述输入句生成的N-gram的数量进行计数，从而基于所述计数的结果来确定所述输入句与所述例句之间的相似性，并基于所述确定的结果来选择候选例句；；以及输出单元，该输出单元输出作为所述第一搜索单元搜索到的例句的译文的或者作为所述第二搜索单元搜索到的所述候选例句的译文的所述第二种语言的例句。

优选的是，当从所述输入单元输入所述第二种语言的输入句时，所述第一搜索单元搜索所述第二种语言的所述输入句是否与所述双语例句词典中的所述第二种语言的所述多个例句中的任一例句匹配；当所述第一搜索单元没有找到匹配例句时，所述第二搜索单元从所述双语例句词典中的所述第二种语言的所述多个例句中搜索与所述第二种语言的所述输入句相似的至少一个候选例句；并且所述输出单元输出作为所述第一搜索单元搜索到的例句的译文的或者作为所述第二搜索单元搜索到的所述候选例句的译文的所述第一种语言的例句。即，所述翻译装置能够实现分别对第一种语言和第二种语言的所述输入句的双向翻译。

优选的是，所述第一搜索单元生成所述输入句的散列值，并且基于生成的散列值来搜索与所述输入句匹配的例句。通过使用所述散列值进行搜索，可以精确且快速地搜索所述匹配例句。

优选的是，所述第二搜索单元生成所述输入句的N-gram(N元文法，N为自然数)串，并且基于生成的N-gram串来搜索相似的例句。通过利用N-gram串，可以容易地实现对所述相似例句的搜索。

优选的是，当所述生成的N-gram串与预先提供的搜索无用N-gram匹配时，所述第二搜索单元从所述生成的N-gram串中去除匹配的无用N-gram。通过预先去除搜索无用N-gram串，可以快速地搜索所述相似的例句。

优选的是，所述第二搜索单元包括N-gram索引部，该N-gram索引部按N-gram字典树(TRIE)结构存储所述第一种语言的所述多个例句和所述第二种语言的所述多个例句。通过利用TRIE结构，可以快速地搜索例句。更优选的是，所述第二搜索单元根据所述输入句生成Bi-gram(两个连续的字符，2-gram)字符串；并且所述N-gram索引部按Bi-gram字典树结构存储所述例句。与字符索引的方法相比，可以实现快速搜索。与单词索引的方法相比，可以容易地进行搜索。

优选的是，所述第二搜索单元按每例句来对根据所述输入句生成的N-gram的数量进行计数，并且基于所述计数的结果来确定所述输入句与所述例句之间的相似性，从而基于所述确定的结果来选择候选例句。通过选择所述候选例句并且通过能够输出其对应的译文，可以执行针对用户的辅助翻译。

本发明的一个方面提供了一种利用双语例句词典的翻译方法，该双语例句词典存储了第一种语言的多个例句和作为所述第一种语言的所述多个例句的译文的第二种语言的多个例句，所述翻译方法包括以下步骤：输入步骤，该输入步骤输入所述第一种语言的输入句；第一搜索步骤，该第一搜索步骤通过如下方式来搜索所述输入句是否与所述双语例句词典中的所述第一种语言的所述多个例句中的任一个例句匹配：生成所述输入句的散列值，并且基于所生成的所述散列值来搜索与所述输入句匹配的例句；第二搜索步骤，该第二搜索步骤在所述第一搜索步骤没有找到匹配例句时，通过如下方式来从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句：所述第二搜索步骤生成所述输入句的N-gram串，并且基于所生成的所述N-gram串来搜索相似的例句，其中N为自然数，其中，所述第二搜索步骤通过对每个例句中包含的根据所述输入句生成的N-gram的数量进行计数，从而基于所述计数的结果来确定所述输入句与所述例句之间的相似性，并基于所述确定的结果来选择候选例句；以及输出步骤，该输出步骤输出作为所述第一搜索步骤搜索到的例句的译文的或者作为所述第二搜索步骤搜索到的所述候选例句的译文的所述第二种语言的例句。

本发明的一个方面提供了一种利用双语例句词典的翻译方法或存储了利用双语例句词典的程序的介质，该双语例句词典存储了第一种语言的多个例句和作为所述第一种语言的所述多个例句的译文的第二种语言的多个例句，所述翻译方法包括以下步骤：输入步骤，该输入步骤输入所述第一种语言的输入句；第一搜索步骤，该第一搜索步骤搜索所述输入句是否与所述双语例句词典中的所述第一种语言的所述多个例句中的任一例句匹配；第二搜索步骤，该第二搜索步骤在所述第一搜索步骤没有找到匹配例句时，从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句；以及输出步骤，该输出步骤输出作为所述第一搜索步骤搜索到的例句的译文的或者作为所述第二搜索步骤搜索到的所述候选例句的译文的所述第二种语言的例句。

根据本发明，针对不能找到与输入句匹配的例句的情况，提供了同一语言的与输入例句相似的候选例句和该候选例句的对应译文。因此，双语例句词典获得有效使用，并且可以执行针对用户的辅助翻译。而且，通过实现分别对采用第一种语言和第二种语言的输入句的双向翻译，所述翻译装置被简化设置并且防止了成本增加。另外，即使对输入句的单词的词素分析不正确，也可以从存储的双语例句词典中正确地提取双语例句数据。同样，即使从OCR获得的句子数据没有被正确识别，也可以正确地提取存储的双语例句数据。

附图说明

将基于下列附图，对本发明的实施例进行详细说明，其中，

图1是例示了机器翻译***的构成的框图；

图2是示意性地例示了根据本发明一示例的翻译存储器装置的框图；

图3例示了翻译存储器装置的第一种语言(第二种语言)的搜索词典的构成；

图4例示了翻译存储器装置的硬件构成；

图5是根据一示例的翻译存储器装置的功能框图；

图6例示了散列值计算部的示例；

图7示出了双语例句词典与散列值索引部之间的关系；

图8是例示根据一示例搜索与输入句匹配的例句的操作的流程图；

图9例示了N-gram索引的TRIE结构；

图10例示了Bi-gram字典树结构；

图11是例示相似例句搜索部的操作的流程图；

图12例示了双语例句词典部的例句计数区；

图13是根据Bi-gram索引方法的翻译存储器的功能框图；

图14是例示Bi-gram生成部的操作的流程图；

图15例示了根据第二示例的Bi-gram索引部的构成；

图16例示了图15所示Bi-gram索引部的第一种语言Bi-gram第一字符列表的细节；

图17例示了图15所示Bi-gram索引部的第一种语言Bi-gram列表的细节；

图18例示了图15所示Bi-gram索引部的第一种语言例句编号列表的细节；

图19例示了根据第二示例的Bi-gram索引部的操作；

图20例示了根据第二示例的Bi-gram索引部的具体操作；

图21是例示了根据第二示例的相似例句搜索部的搜索操作的流程图；

图22例示了根据本发明一示例的由翻译存储器装置生成的具体翻译示例；以及

图23例示了现有技术的句子到句子例句词典的概要。

具体实施方式

图1例示了根据本发明一示例的机器翻译***的总图。机器翻译***10被设计成用于执行从较简单翻译到较复杂翻译的翻译，以加快翻译的速度。另外，机器翻译***10具有对没有译出的部分进行自动收集并提供准确的对应译文的学习功能。

机器翻译***10包括：翻译存储器装置14，其对从原始语言文本句子输入部12输入的句子以句子为单位进行翻译；基于示例的翻译装置16，其输入在翻译存储器装置14中未匹配的输入句(即，被指出为不恰当的输入句)，并且对例如经词素分析的输入句的单词的示例句型进行翻译；单词直译装置18，其输入在基于示例的翻译装置16中没有翻译出来的单词作为不恰当的单词，并且翻译该单词；以及目标语言文本句子输出部20，其基于由上述翻译装置恰当翻译的结果，生成并输出目标语言的文本句子。

机器翻译***10还包括：不恰当翻译句自动收集部22，其收集在基于示例的翻译装置16中没有翻译出的句子并且生成针对收集的句子的恰当译文；学习装置24，其执行对由不恰当译句自动收集部22生成的译文的检查或修正；以及翻译词典26。翻译词典26包括：双语单词词典26a，其存储第一种语言的单词和作为所述单词的译文的第二种语言的单词；双语例句词典26b，其存储第一种语言的例句和作为所述例句的译文的第二种语言的例句；以及基于示例句型(example sentence pattern)的句型词典26c，其存储第一种语言的示例句型和作为所述示例句型的译文的第二种语言的示例句型。可以将翻译词典26用于翻译存储器装置14、基于示例的翻译装置16，以及单词直译装置18中。图1的机器翻译***是示范构成，并且例如可以包括基于其它模式的引擎的翻译引擎。

在这个示例中，用于机器翻译***10的翻译存储器装置14具有新特征。图2例示了根据本发明一示例的翻译存储器装置的构成。翻译存储器装置14包括第一种语言搜索词典14-1和第二种语言搜索词典14-2。当输入第一种语言或第二种语言的输入句时，第一种语言和第二种语言搜索词典14-1和14-2搜索与该输入句匹配的例句或候选例句，从而提取并输出其译文。

图3是例示了第一种语言或第二种语言搜索词典的构成的框图。当输入第一种语言的输入句时，散列索引搜索部30生成输入句的散列值，并且从双语例句词典26b中搜索与第一种语言的输入句的散列值完全匹配的例句的散列值，并且提取例句的译文。对于散列索引搜索部30没有找到与输入句完全匹配的例句的情况，N-gram索引搜索部32根据输入句生成N-gram，并且利用生成的N-gram字符串从双语例句词典26b中搜索第一种语言的相似候选例句，并且提取该候选例句的译文。

如下所述，为了进一步提高速度并节省存储空间，在生成Bi-gram(2-gram)时，可以使用无用字符列表，以去除包含有在每个例句中都具有高的出现概率的字符的N-gram。另外，利用无用Bi-gram列表，可以去除在每个例句中都具有高出现概率的Bi-gram。对于输入了第二种语言的输入句的情况，可以与第一种语言的情况下的过程类似地执行这些过程。

图4例示了翻译存储器装置的硬件构成。翻译存储器装置包括：输入单元40、显示单元42、主存储单元44、外部存储单元46、中央处理单元(CPU)48，以及连接这些单元的总线50。输入单元40可以包括可以提供用户接口或光学地读取打印在文本上的单词的光学读取器等。显示单元42可以包括用于显示原始语言的文本句子或翻译结果的显示器等。主存储单元44可以包括ROM或RAM，以存储用于控制翻译操作的程序或包含操作结果等的数据。外部存储单元46可以包括诸如硬盘的大存储装置，并且可以在其中存储双语例句词典26b。CPU 48可以基于存储在主存储单元44中的程序来控制翻译操作。

图5是一示例的翻译存储器装置的功能框图。根据一示例的翻译存储器装置包括：第一种语言输入部100，其输入第一种语言的输入句；散列值计算部102，其接收来自第一种语言输入部100的输入句，并且计算该输入句的散列值；N-gram生成部104，其从第一种语言输入部100接收输入句，并且生成该输入句的N-gram字符串；无用N-gram列表106，其存储第一种语言的无用N-gram；散列值索引部108，其存储第一种语言的多个例句的散列值；N-gram索引部110，其按N-gram字典树结构存储第一种语言的例句；例句匹配部112，其比较在散列值计算部102中计算的输入句的散列值和存储在散列值索引部108中的例句的散列值，并且搜索与输入句匹配的例句；相似例句搜索部114，其在例句匹配部112中进行的匹配失败时，基于由N-gram生成部104生成的输入句的N-gram字符串从N-gram索引部110中搜索相似的候选例句；双语例句词典116，其存储第一种语言的例句和作为所述例句的译文的第二种语言的例句，并且提取作为例句匹配部112中搜索到的例句或相似例句搜索部114中搜索到的候选例句的译文的第二种语言的例句或候选例句；以及输出部118，其将双语例句词典部116提取的例句输出至显示器、打印机等。

翻译存储器装置包括：第二种语言输入部200；散列值计算部202，其计算第二种语言的输入句的散列值；N-gram生成部204，其生成第二种语言的输入句的N-gram字符串；无用N-gram列表206，其存储第二种语言的无用N-gram；散列值索引部208，其存储第二种语言的多个例句的散列值；N-gram索引部210，其按N-gram字典树结构存储第二种语言的例句；例句匹配部212，其搜索与第二种语言的输入句匹配的第二种语言的例句；以及相似例句搜索部214，其在例句匹配部212中进行的匹配失败时，基于第二种语言的输入句的N-gram字符串从N-gram索引部210中搜索第二种语言的相似的候选例句。对于第二种语言的输入句，执行与针对第一种语言执行的搜索过程类似的搜索过程，并且输出作为输入句的译文的第一种语言的例句。

第一种语言输入部100或第二种语言输入部200从外部输入要翻译的第一种语言或第二种语言的文档的句子。可以利用OCR或存储在介质中的电子信息来输入输入句。

第一种语言的例句散列值计算部102或第二种语言的例句散列值计算部202计算输入句的散列值。如下所述执行对散列值的计算。如果输入句是S并且包含在输入句中的字符是Ci(i＝1、2、…、n；n为自然数)，则可以将输入句表示为S＝C1C2…Cn，并且可以将输入句S的散列值表示为Hash(S)。Hash(S)的默认值为0，并且可以通过图6所示公式计算Hash(S)。在图6中，“or”意指逐位“或”操作，“and”意指逐位“与”操作，“A＜＜(m)”意指将A向左移位m位，而“mod”操作意指模操作。L是Hash索引表的长度(例句对的数量)。11101101＜＜4表示将11101101向左移位4位从而变成11010000的例子。当然，除了上述方法以外，还可以通过其它方法来计算输入句的散列值。

第一种语言的散列索引部108或第二种语言的散列索引部208中的每一个都存储有例句的散列值和双语例句词典的地址，该双语例句词典存储有例句和该例句的译文。基于该地址，每一个例句匹配部112和212都搜索例句的译文。图7示出了双语例句词典与散列索引部之间的关系。

出于对与散列值对应的例句进行标识的目的，第一种语言的散列索引部108包括多个记录，该多个记录存储了针对存储在双语例句词典中的第一种语言的所有例句的散列值(Hash(C)＝0到Hash(C)＝L-1)和地址，该地址是存储所述例句的地址。类似的是，第二种语言的散列索引部208包括多个记录，该多个记录存储了针对第二种语言的所有例句的散列值(Hash(J)＝0到Hash(J)＝L-1)和地址，该地址用于标识与散列值对应的例句。

双语例句词典部116存储多对第一种语言的例句和第二种语言的例句，(SC1、SJ1)、(SC2、SJ2)、…、(SCL、SJL)。SCi(i＝1、2、…、L)表示第一种语言的例句(第二种语言的句子SJi的译文)，而SJi(i＝1、2、…、L)表示句子SCi(第一种语言的例句)的第二种语言的译文。针对所述多对例句中的每一对，分别设置了对应的地址。通过下一个例句地址链接具有同一散列值的多个例句。另外，针对所述多对例句中的每一对，分配了针对N-gram的数量的计数区250，该计数区在如下所述搜索相似例句时使用。

下面，参照图8的流程图，对搜索与输入句匹配的例句的操作进行说明。下面说明对第一种语言的输入句的搜索。当从第一种语言输入部100输入了第一种语言的输入句SC时(步骤S101)，散列值计算部102根据上述计算方法计算输入句SC的散列值Hash(SC)(步骤S102)。将计算出的散列值Hash(SC)提供给例句匹配部112。例句匹配部112从索引部108搜索与Hash(SC)匹配的记录，并读取该记录(步骤S103)。接着，例句匹配部112获得一地址(该地址是在所述记录中存储的例句的标识信息)(步骤S104)，并且基于该地址读取存储在双语例句词典部116中的例句对(步骤S105)。

例句匹配部112将所述例句对中包括的第一种语言的例句Sci与输入句SC相比较，并且确定例句SCi和输入句SC是否相同(步骤S106)。如果例句SCi和输入句SC相同，则例句匹配部112从输出部118输出第二种语言的例句SCj(其是例句SCi的译文)(步骤S107)。另一方面，如果例句SCi和输入句SC不相同，则例句匹配部112确定第一种语言的下一个例句的地址是否为空值(Null)(步骤S108)。如果该地址为空值，则表明不存在与输入句的散列值(SC)匹配的例句，从而完成搜索。如果下一个地址存在，则例句匹配部112获得下一个地址(步骤S109)，并且读取该下一个地址中的例句对(S105)，接着重复与输入句的比较。

对于输入第二种语言的输入句的情况，与第一种语言的输入句类似，从散列索引部208读取与散列值匹配的记录，并且按该记录中存储的地址搜索第二种语言的例句，从而输出作为该例句的译文的第一种语言的例句。

当不存在具有与输入句的散列值匹配的散列值的例句时，相似例句搜索部114和214利用输入句的N-gram字符串搜索相似的例句。下面，对根据输入句生成N-gram字符串的N-gram生成部104和204进行说明。如图9所示，N-gram索引部110和210以TRIE结构存储所有N-gram(其包含在双语例句词典部的例句中)。在N-gram字典树结构中，一个结点存储一个字符，从而通过存在于从叶端到根部的结点来指定N-gram。一个结点包括：结点ID、字符信息(字符C)、标志、当标志为1时指向例句编号列表记录的指针、父结点的结点ID，以及左侧同辈结点的结点ID。TRIE结构中的每一个结点的结点ID都按深度优先搜索的搜索顺序设置。字符信息是一个字符，并且使用双字节字符集。然而，考虑到搜索速度，在搜索TRIE结构的第一级处的各结点可以存储一个单词的第一字符的高位字节，而在第二级处的各结点可以存储一个单词的第一字符的低位字节。根部是第0级。最左侧子结点的结点ID是当前结点ID+1，并且从左到右按字符信息值的升序来排列同辈结点。标志0指结点为内部结点，而标志1指存在于从根部到结点的路径中的结点是N-gram。

N-gram是由N个字符组成的字符串。如果输入句S＝C1C2…CnCn+1…Cm，则可以将其N-gram字符串表示如下：(C1C2…Cn)、(C2C3…Cn+1)、(C3C4…Cn+2)、…、(CkCk+1…Cn+k-1)。在根据这个示例的TRIE结构中，结点ID的标志为1。这意味着例句编号列表与结点ID的叶端关联。例句编号列表包括多个记录对，该多个记录对中的每一对记录都是由对包含N-gram“字符i…字符j”的例句进行标识的编号和指向包含该N-gram“字符i…字符j”的下一个例句编号列表的指针组成。换句话说，例句编号列表是一组对包含字符的例句进行标识的信息的记录，所述字符根据从叶端到根部的结点来指定。

例如，如图10所示，当N-gram索引部是Bi-gram字典树结构时，从叶端到根部的结点存储了Bi-gram字符串(C11、C21)、(C11、C22)、(C12、C23)、…、(C1m、C2c)、(C1m、C2t)。例句编号列表与Bi-gram叶端中的每一个叶端关联。与(C11、C21)关联的例句编号列表包括记录260、262、…、270。记录260存储有对包含(C11、C21)的例句进行标识的编号S010和指向记录262的指针P1。记录262存储有对包含(C11、C21)的下一个例句进行标识的编号S015和指向下一个记录的指针P2。在最后的记录270中，存储有对最后的例句进行标识的标号S020和为空值的指针。这样，通过例句编号列表指定了包含(C11、C21)的所有例句。按类似的方式，针对其它Bi-gram分别提供例句编号列表。

下面，参照图11的流程图，对相似例句搜索部的操作进行说明。假定输入了第一种语言的输入句。从输入部100输入第一种语言的输入句SC(步骤S201)。如果不能根据散列值获得匹配的例句，则将输入句SC输入至N-gram生成部104，接着，N-gram生成部104生成输入句SC的N-gram串(C1C2C3、C2C3C4、…、Ch…Cn；h个N-gram)(步骤S202)。在这个步骤中，N-gram生成部104参照预先存储有无用N-gram的第一种语言无用N-gram列表106，并且排除与该列表中存储的N-gram匹配的任何N-gram。无用N-gram列表是利用统计方法和人工方法构建的。通过排除无助于搜索相似例句的N-gram，可以改进搜索相似例句的效率和处理速度。

将由N-gram生成部104生成的N-gram字符串提供给相似例句搜索部114。相似例句搜索部114执行针对所有例句ID的Num(ID)＝0、Sim(ID)＝0的处理，作为初始化操作(步骤S203)。Num(ID)表示例句包含的N-gram的编号，而Sim(ID)表示例句的相似性。

当输入句SC的N-gram的数量为h个时，相似例句搜索部114从i＝1到i＝h搜索包含该N-gram的例句。换句话说，相似例句搜索部114参照N-gram索引部110，并且从N-gram字典树结构搜索N-gram(CiCi+1…Ck)(步骤S204)。如果在N-gram字典树结构中找到任何匹配N-gram(CiCi+1…Ck)(步骤S205)，则相似例句搜索部114利用存储有字符Ck的结点中的“指向例句编号列表记录的指针”，从例句编号列表获得包含(CiCi+1…Ck)的所有例句ID(ID1、ID2、…)(步骤S206)。通过这个步骤，执行Num(ID1)＝Num(ID1)+1、Num(ID2)＝Num(ID2)+1、…的处理，针对每一个例句，将匹配N-gram的数目加“1”。优选的是，将添加后的Num(ID)的数目写入计数区250，该计数区对应于双语例句词典中的各例句。

当完成对匹配N-gram的数目的增加时，并且在N-gram字典树结构中没有找到N-gram(CiCi+1…Ck)时，相似例句搜索部114执行i＝i+1的处理(步骤S207)，并且从N-gram字典树结构中搜索输入句SC的下一个N-gram(步骤S204)。当通过上述类似步骤搜索到下一个N-gram时，将对应例句的匹配N-gram的数目加“1”。重复这种处理i＝h次，即，与根据输入句SC生成的N-gram的字符串数量一样多的次数。

如图12所示，当完成对输入句的N-gram的搜索时，将N-gram的数目保留在双语例句词典部中的例句的计数区250中。相似例句搜索部114针对Num(IDj)＞0的所有例句(其在计数区250中的N-gram的数目等于或大于1)，执行对Sim(IDj)＝Num(IDj)/n的计算(步骤S208)。n的值确定了相似性Sim(IDj)的阈值。

相似例句搜索部114针对Sim(IDj)＞阈值的所有例句，从双语例句词典部116读取第IDj个例句对信息(SCj、SJj)。根据该信息，输出部118输出与输入句SC相似的候选例句和该候选例句的译文(SCj、SJj)(步骤S209)。

上述相似性Sim(IDj)的计算是一个示例，而不必限于这个示例。例如，针对Num(IDj)＞0的所有例句，可以执行对Sim(IDj)＝2×Num(IDj)/(NumBG(SCj)+NumBG(SJj))的计算。NumBG(SC)表示输入句SC的N-gram的数目。

尽管图1 1和图12示出了针对第一种语言的输入句来搜索相似例句的示例，但是，类似的是，还可以针对第二种语言的输入句执行搜索处理。

图13是根据一示例的利用Bi-gram索引方法构成的翻译存储器的框图。图13所示构成除了增加第一种语言和第二种语言的无用字符列表120和220以外，基本上与图5所示构成类似。针对将N-gram改变成Bi-gram的框，在它们的标号之后添加了“a”。

当没有找到与第一种语言的输入句CS匹配的例句时，搜索与输入句CS相似的例句。通过Bi-gram索引方法执行所述搜索。下面，参照图14，对Bi-gram生成部104a的操作进行说明。在第一种语言输入部100中输入第一种语言的输入句CS(步骤S301)，接着，Bi-gram生成部104a根据输入句CS＝C1C2…Cn获得Bi-gram串C1C2、C2C3、…、Cn-1Cn(步骤S302)。

接着，Bi-gram生成部104a参照无用字符列表120，从Bi-gram串C1C2、C2C3、…、Cn-1Cn中去除包含该无用字符列表中的字符的任何Bi-gram，从而获得Bi-gram字符串C1C2、C2C3、…、ChCk(步骤S303)。另外，Bi-gram生成部104a参照无用Bi-gram列表106a，从Bi-gram字符串C1C2、C2C3、…、ChCk中去除在无用Bi-gram列表中包含的任何Bi-gram(步骤S304)，从而最终获得Bi-gram串C1C2、C2C3、…、CuCv(步骤S305)。可以按与N-gram的情况下类似的方式执行随后的处理，并且输出与第一种语言的输入句相似的第一种语言的候选例句和该候选例句的译文。针对根据第二种语言的输入句生成Bi-gram的情况，可以与第一种语言的情况下的处理类似地执行处理。

下面，对本发明的第二示例进行说明。尽管在上述示例中，利用Bi-gram索引部110a的Bi-gram字典树结构来搜索Bi-gram，但是根据第二示例的Bi-gram索引部在不利用TRIE结构的情况下，就可以搜索根据输入句生成的Bi-gram串。

图15例示了针对第一种语言的Bi-gram索引部的构成。Bi-gram索引部300包括：第一种语言字符散列值计算部302、第一种语言Bi-gram第一字符列表304、第一种语言Bi-gram列表306，以及第一种语言例句编号列表308。尽管未示出，但是可以类似地构成针对第二种语言的Bi-gram索引部。

字符散列值计算部302是将第一种语言或第二种语言的所有字符码转换成顺序码的函数。如图16所示，Bi-gram第一字符列表304包括Bi-gram第一字符(即，第一字符0、1、…、i)和指向Bi-gram列表的指针。如图17所示，Bi-gram列表306包括：Bi-gram第二字符、指向包含Bi-gram“字符i字符j”的例句的编号列表的指针、以及指向下一个Bi-gram“字符i字符h”的Bi-gram列表的指针。如图18所示，例句编号列表308包括包含Bi-gram“字符i字符j”的例句的编号和包含下一个相同Bi-gram的例句的编号列表记录的指针。

图19例示了图18所示Bi-gram索引部的细节。例如，如果第一种语言字符散列值计算部302计算的散列值与Bi-gram第一字符列表304中的第一字符C0匹配，则第一字符C0的对应指针搜索Bi-gram列表306中的记录310。记录310中存储的是：Bi-gram第二字符C01、对与Bi-gram字符C0和C01相对应的例句进行标识的编号、以及指向下一个记录312的指针。记录312中存储的是：Bi-gram第二字符C02、对与Bi-gram字符C0和C02相对应的例句进行标识的编号，以及指向下一个记录的指针。在例句编号列表308中的由记录310指向的记录320中，存储有例句编号S010和指针，该例句编号S010对应于Bi-gram字符C0和C01，而该指针指向包含Bi-gram字符C0和C01的下一个例句编号的记录。可以类似地设置针对第二种语言的Bi-gram索引的构成。

图20例示了搜索Bi-gram索引的示例。例如，当通过散列值计算部根据Bi-gram第一字符列表指定了“测”时，“测”的指针指向Bi-gram列表中的记录。在图20中，作为跟随“测”的第二字符，示出了“定”、“算”以及“地”。通过指向例句编号列表的指针访问包含这些Bi-gram(“测定”、“测算”、“测地”)的例句。

参照图21，对第二示例的相似例句搜索操作的操作流程进行说明。当输入第一种语言的输入句，并且没有找到与该输入句匹配的例句时执行该操作。在输入部100中输入第一种语言的输入句SC(步骤S401)。Bi-gram生成部104a生成输入句SC的Bi-gram串(C1C2、C2C3、…、Cn-1Cn)(步骤S402)。在这个步骤中，Bi-gram生成部104a参照无用Bi-gram列表106a和无用字符列表120，并且从所述Bi-gram串中去除在这些列表中包含的字符或字符串。

当生成输入句SC的Bi-gram串时，相似例句搜索部114针对所有例句ID，初始化Num(ID)、Sim(ID)，并且重置成Num(ID)＝0、Sim(ID)＝0(步骤S403)。其还设置为i＝1，以便执行与输入句SC中包含的Bi-gram串的数量一样多次数的例行搜索处理。

接着，相似例句搜索部114使Bi-gram索引部110a的字符散列值计算部302计算字符Ci的散列值Hash(Ci)(步骤S404)。接下来，相似例句搜索部114参照第一种语言的Bi-gram第一字符列表304，并且读取指向在第Hash(Ci)个记录中存储的Bi-gram列表306的指针信息BP(Ci)(步骤S405)。

接着，相似例句搜索部114读取由指针信息BP(Ci)指示的记录信息，并且搜索字符＝Ci+1的记录(步骤S406)。相似例句搜索部114确定字符＝Ci+1的记录是否存在(步骤S407)。针对字符＝Ci+1的记录存在的情况，相似例句搜索部114参照在Bi-gram列表306中的字符＝“Ci+1”的记录中存储的“指向例句的编号列表的指针”，并且从第一种语言例句编号列表308获得包含Bi-gram串CiCi+1的所有例句ID(ID1、ID2、…)，并计算Num(ID1)＝Num(ID1)+1、Num(ID2)＝Num(ID2)+1、…(步骤S408)。可以将该计算结果存储在相似例句搜索部114中，或者可以将该计算值写入与双语例句词典部116的例句对应的区域中。

当完成该计算时，对于字符＝Ci+1的记录不存在的情况，执行i＝i+1的处理(步骤S409)，接着，字符散列值计算部302继续计算并搜索下一个Bi-gram串的第一字符的散列值(步骤S404)。同样，对于根据输入句SC生成的所有Bi-gram串中的每一个来说，搜索包含这些Bi-gram串的例句，并且保存对所包含的Bi-gram串的数目的计数结果。

当完成对输入句SC的Bi-gram的搜索时，相似例句搜索部114针对Num(IDj)＞0(其中Bi-gram的数目等于或大于1)的所有例句，执行Sim(IDj)＝Num(IDj)/n的计算(步骤S410)。n的值确定了相似性的阈值Sim(IDj)。接着，相似例句搜索部114针对Sim(IDj)＞阈值的所有例句，从双语例句词典部116读取第IDj个例句对信息(SCj、SJj)。根据该信息，输出部118输出与输入句SC相似的候选例句和该候选例句的译文(SCj、SJj)(步骤S411)。可以按照与对第一种语言的输入句的搜索操作类似的步骤执行对第二种语言的输入句的搜索操作。

用于计算相似性的方法不限于上述示例。例如，针对Num(IDj)＞0的所有例句，可以执行Sim(IDj)＝2×Num(IDj)/(NumBG(SCj)+NumBG(SJj))的计算。NumBG(SC)表示输入句SC的N-gram的数目。

图22例示了一具体翻译示例。SC1表示中文输入句，而SJ1表示作为该中文句的译文的日文例句。类似的是，SC2和SJ2、SC3和SJ3分别为例句对。Hash(SC1)、Hash(SC2)、Hash(SC3)分别为中文例句的散列值，而Hash(SJ1)、Hash(SJ2)、Hash(SJ3)分别为日文例句的散列值。

当在图5所示翻译存储器装置中输入中文例句SC1时，散列值计算部102计算出散列值5878。例句匹配部112参照散列索引部108，并且搜索与散列值5878匹配的记录。对于匹配记录存在的情况，例句匹配部112参照该记录中存储的指针(地址)，并且参照在双语例句词典部116中的中文例句，并输出与该中文句的译文对应的日文例句SJ1。当输入其它中文例句SC2、SC3时，执行类似的处理。

另一方面，当输入日文例句SJ1时，散列值计算部202计算出散列值5914。例句匹配部212参照散列索引部208，并且搜索与散列值5914匹配的记录。对于匹配记录存在的情况，例句匹配部212参照该记录中存储的指针(地址)，并且参照在双语例句词典部116中的日文例句，并输出作为该日文句的译文的中文例句SC1。当输入其它日文例句SJ2、SJ3时，执行类似的处理。

尽管已经对本发明的示范实施例进行了详细说明，但应当理解，实施例仅是出于例示性的目的，并且在不脱离所附权利要求限定的发明范围的情况下，可以对本发明进行各种修改或改变。

可以将根据本发明一方面的翻译装置用于翻译存储器或翻译***。尤其是，可以用于利用具有双语例句词典的翻译存储器的辅助翻译***。

Claims

1、一种翻译装置，该翻译装置包括：

双语例句词典，该双语例句词典存储了第一种语言的多个例句和作为所述第一种语言的所述多个例句的译文的第二种语言的多个例句；

输入单元，该输入单元输入所述第一种语言的输入句；

第一搜索单元，该第一搜索单元通过如下方式来搜索所述输入句是否与所述双语例句词典中的所述第一种语言的所述多个例句中的任一例句匹配：所述第一搜索单元生成所述输入句的散列值，并且基于所生成的所述散列值来搜索与所述输入句匹配的例句；

第二搜索单元，该第二搜索单元在所述第一搜索单元没有找到匹配例句时，通过如下方式来从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句：所述第二搜索单元生成所述输入句的N-gram串，并基于所生成的所述N-gram串来搜索相似的例句，其中N为自然数，其中，所述第二搜索单元对每个例句中包含的根据所述输入句生成的N-gram的数量进行计数，从而基于所述计数的结果来确定所述输入句与所述例句之间的相似性，并基于所述确定的结果来选择候选例句；以及

输出单元，该输出单元输出作为所述第一搜索单元搜索到的例句的译文的或者作为所述第二搜索单元搜索到的所述候选例句的译文的所述第二种语言的例句。

2、根据权利要求1所述的翻译装置，其中，

当从所述输入单元输入所述第二种语言的输入句时，所述第一搜索单元搜索所述第二种语言的所述输入句是否与所述双语例句词典中的所述第二种语言的所述多个例句中的任一例句匹配；

当所述第一搜索单元没有找到匹配例句时，所述第二搜索单元从所述双语例句词典中的所述第二种语言的所述多个例句中搜索与所述第二种语言的所述输入句相似的至少一个候选例句；并且

所述输出单元输出作为所述第一搜索单元搜索到的例句的译文的或者作为所述第二搜索单元搜索到的所述候选例句的译文的所述第一种语言的例句。

3、根据权利要求1所述的翻译装置，其中，当所生成的所述N-gram串与预先提供的搜索无用N-gram匹配时，所述第二搜索单元从所生成的所述N-gram串中去除匹配的所述无用N-gram。

4、根据权利要求1所述的翻译装置，其中，所述第二搜索单元包括N-gram索引部，该N-gram索引部以N-gram字典树结构存储所述第一种语言的所述多个例句和所述第二种语言的所述多个例句。

5、根据权利要求4所述的翻译装置，其中，

所述第二搜索单元根据所述输入句生成Bi-gram字符串；并且

所述N-gram索引部以Bi-gram字典树结构存储所述例句。

6、一种利用双语例句词典的翻译方法，该双语例句词典存储了第一种语言的多个例句和作为所述第一种语言的所述多个例句的译文的第二种语言的多个例句，所述翻译方法包括以下步骤：

输入步骤，该输入步骤输入所述第一种语言的输入句；

第一搜索步骤，该第一搜索步骤通过如下方式来搜索所述输入句是否与所述双语例句词典中的所述第一种语言的所述多个例句中的任一个例句匹配：生成所述输入句的散列值，并且基于所生成的所述散列值来搜索与所述输入句匹配的例句；

第二搜索步骤，该第二搜索步骤在所述第一搜索步骤没有找到匹配例句时，通过如下方式来从所述双语例句词典中的所述第一种语言的所述多个例句中搜索与所述输入句相似的至少一个候选例句：所述第二搜索步骤生成所述输入句的N-gram串，并且基于所生成的所述N-gram串来搜索相似的例句，其中N为自然数，其中，所述第二搜索步骤通过对每个例句中包含的根据所述输入句生成的N-gram的数量进行计数，从而基于所述计数的结果来确定所述输入句与所述例句之间的相似性，并基于所述确定的结果来选择候选例句；以及

输出步骤，该输出步骤输出作为所述第一搜索步骤搜索到的例句的译文的或者作为所述第二搜索步骤搜索到的所述候选例句的译文的所述第二种语言的例句。

7、根据权利要求6所述的翻译方法，其中，

当输入所述第二种语言的输入句时，所述第一搜索步骤搜索所述第二种语言的所述输入句是否与所述双语例句词典中的所述第二种语言的所述多个例句中的任一例句匹配；

当所述第一搜索步骤没有找到匹配例句时，所述第二搜索步骤从所述双语例句词典中的所述第二种语言的所述多个例句中搜索与所述第二种语言的所述输入句相似的至少一个候选例句；并且

所述输出步骤输出作为所述第一搜索步骤搜索到的例句的译文或者作为所述第二搜索步骤搜索到的所述候选例句的译文的所述第一种语言的例句。