CN100454294C - 用于将日文翻译成中文的设备 - Google Patents

用于将日文翻译成中文的设备 Download PDF

Info

Publication number
CN100454294C
CN100454294C CNB2005100713796A CN200510071379A CN100454294C CN 100454294 C CN100454294 C CN 100454294C CN B2005100713796 A CNB2005100713796 A CN B2005100713796A CN 200510071379 A CN200510071379 A CN 200510071379A CN 100454294 C CN100454294 C CN 100454294C
Authority
CN
China
Prior art keywords
japanese
adjunct
chinese
string
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100713796A
Other languages
English (en)
Other versions
CN1702650A (zh
Inventor
出羽达也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1702650A publication Critical patent/CN1702650A/zh
Application granted granted Critical
Publication of CN100454294C publication Critical patent/CN100454294C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种日文-中文机器翻译设备,包括未登记词确定单元,其确定日文句子的日文单词是否是未在日文-中文翻译字典文件中登记的未登记词。日文-中文翻译字典包含与中文词相关的、由日文句子划分成的日文单词。所述设备还包括未登记词翻译生成单元,当未登记词确定单元确定日文单词是未登记词时,该未登记词翻译生成单元将未登记词划分成平假名串和非平假名串、生成非平假名串的翻译、且不生成平假名串的翻译。

Description

用于将日文翻译成中文的设备
本申请以2004年5月28日提交的在先日本专利申请第2004-159499号为基础,并要求其优先权权益;该优先权文件的整体内容通过引用结合于此。
技术领域
本发明涉及将自然日文句子翻译成中文句子的日文-中文机器翻译设备和日文-中文机器翻译方法,以及使得计算机执行所述方法的计算机程序产品。
背景技术
接受自然日文句子以输出中文翻译的日文-中文机器翻译设备通常使用日文-中文翻译字典,在该字典中,汉语与日语逐个词或逐个词素地相关联。
由于汉语由大量的中文字符(汉字)组成,因此这样的日文-中文翻译字典具有用于翻译词的最大的容量,并且具有最大的数据量。使用具有有限数目的翻译词的日文-中文翻译字典,从日文句子的中文机器翻译在所接受的日文句子中遇到一些未登记的词。在日文-中文翻译字典中没有登记与未登记的词相对应的中文词。很好地处理和输出未登记的词是日文-中文机器翻译的一个主要挑战。
例如,日本专利申请公开号H04-256171公开了处理所述未登记的词的翻译设备。当未登记的词是汉字,特别是专有名词,例如人名和地名时,这一日文-中文机器翻译设备使用其中日文汉字与中文汉字相关联的日文-中文匹配数据,来自动地生成翻译。这一翻译设备还输出包含在未登记词中的平假名字符,而不进行翻译(即,作为它们的副本)。
但是,中文句子不包含平假名。因此,具有平假名的中文翻译输出产生明显的翻译错误,并且对用户产生负面影响。换句话说,用户认为具有平假名的中文翻译是不可能的翻译或错译,从而推定机器翻译的质量是较差的。
发明内容
根据本发明的一个方面,一种日文-中文机器翻译设备包括:存储单元,其存储日文-中文翻译字典文件,在该文件中日文单词与中文词相关联;未登记词确定单元,其确定日文句子的日文单词是否是未在日文-中文翻译字典文件中登记的未登记词;和未登记词翻译生成单元,当未登记词确定单元确定日文单词是未登记词时,该未登记词翻译生成单元将未登记词划分成平假名串和非平假名串、参照日文-中文翻译字典文件生成非平假名串的翻译、且不生成平假名串的翻译。
根据本发明的一个方面,一种日文-中文机器翻译设备包括:存储单元,其存储日文-中文翻译字典文件,在该文件中日文单词与中文词相关联;未登记词确定单元,其确定日文句子的日文单词是否是未在日文-中文翻译字典文件中登记的未登记词;和未登记词翻译生成单元,当未登记词确定单元确定日文单词是未登记词时,该未登记词翻译生成单元将未登记词划分成平假名串和非平假名串,且不生成字符或音节数目不大于预定值的平假名串的翻译。
根据本发明的又一个方面,一种日文-中文机器翻译设备包括:存储单元,其存储日文-中文翻译字典文件,在该文件中日文单词与作为该日文单词的翻译的中文词相关联;未登记词确定单元,其确定日文句子中包含的日文单词是否是未在日文-中文翻译字典文件中登记的未登记词;和未登记词翻译生成单元,当未登记词确定单元确定日文单词是未登记词时,该未登记词翻译生成单元将未登记词划分成平假名串和非平假名串,且不生成作为可连接到其他日文单词的附属词的平假名串的翻译。
根据本发明的又一个方面,一种日文-中文机器翻译方法包括:确定日文句子中包含的日文单词是否是未在日文-中文翻译字典文件中登记的未登记词,其中在所述日文-中文翻译字典文件中日文单词与中文词相关联;和当所述日文单词是未登记词时,将未登记词划分成平假名串和非平假名串,并参照日文-中文翻译字典文件生成非平假名串的翻译,而不生成平假名串的翻译。
根据本发明的又一个方面,一种日文-中文机器翻译方法包括:确定日文句子中包含的日文单词是否是未在日文-中文翻译字典文件中登记的未登记词,其中在所述日文-中文翻译字典文件中日文单词与中文词相关联;和当所述日文单词是未登记词时,将未登记词划分成平假名串和非平假名串,并且不生成字符或音节数目不大于预定值的平假名串的翻译。
根据本发明的再一个方面,一种日文-中文机器翻译方法包括:确定日文句子中包含的日文单词是否是未在日文-中文翻译字典文件中登记的未登记词,其中在所述日文-中文翻译字典文件中日文单词与中文词相关联;和当所述日文单词是未登记词时,将未登记词划分成平假名串和非平假名串,并且不生成作为可连接到其他日文单词的附属词的平假名串的翻译。
根据本发明的再一个方面的计算机程序产品使得计算机执行根据本发明的方法。
附图说明
图1是根据本发明第一实施例的日文-中文机器翻译设备的功能框图;
图2示出了日文-中文翻译文件;
图3示出了日文-中文汉字数据库;
图4是日文-中文机器翻译的整个处理的流程图;
图5A示出了日文句子,图5B示出了在处理未登记词之前的语形学(morphological)分析表;
图6是通过未登记词翻译生成单元生成未登记词的翻译的流程图;
图7A示出了未登记词串数组,图7B是未登记词串数组的另一个示例;
图8示出了当生成未登记词的翻译完成时翻译缓冲区的内容;
图9示出了当生成未登记词的翻译完成时的语形学分析表;
图10A示出了根据第一实施例的日文-中文机器翻译设备的输出,图10B示出了传统日文-中文机器翻译设备的输出;
图11是通过根据第二实施例的日文-中文机器翻译设备的未登记词翻译生成单元生成未登记词的翻译的处理的流程图;
图12A示出了包含附属词(dependent-word)的日语,图12B是包含附属词的另一个示例日语;
图13是根据第三实施例的日文-中文机器翻译设备的功能框图;
图14是未登记翻译生成单元的功能框图;
图15是附属词词典文件的数据结构;
图16示出了附属词连接表的数据结构;
图17示出了包含附属词串的未登记词;
图18是通过根据第三实施例的日文-中文机器翻译设备的未登记词翻译生成单元生成未登记词的翻译的流程图;
图19是通过附属词提取器提取附属词的处理的流程图;
图20示出了附属词表的数据结构;
图21示出了附属词索引表的数据结构;
图22示出了在提取附属词的处理中提取的部分串;和
图23是执行附属词串分析决定的决定功能FUNC的处理的流程图。
具体实施方式
下面将参考附图描述涉及本发明的日文-中文机器翻译设备和日文-中文机器翻译方法的示例性实施例。
根据第一实施例的日文-中文机器翻译设备将接受的日文句子划分成日文单词,以显示每个日文单词以及中文翻译。特别的,日文-中文机器翻译设备不输出未在日文-中文翻译文件中登记的日文单词中包含的任何平假名字符。
图1是根据本发明第一实施例的日文-中文机器翻译设备的功能框图。根据本发明第一实施例的日文-中文机器翻译设备100包括输入处理单元101、语形学分析单元102、翻译单元103、未登记词确定单元104、未登记词翻译生成单元105、输出处理单元106、输入装置107、输出装置108、硬盘驱动器(HDD)110、和随机存取存储器(RAM)120。
输入处理单元101经由诸如键盘的输入装置107接受日文句子。语形学分析单元102在参考日文-中文翻译文件111执行公知的语形学分析时,将由输入处理单元101接受的日文句子划分成日文单词,并在语形学分析表121中登记划分的日文单词,其中每个所述日文单词是一个词素。
可以使用不同于语形学分析的其他分析和处理将日文句子划分成词。
未登记词确定单元104确定在语形学分析表121中登记的日文单词是否是未登记的词。具体来说,确定与日文单词对应的中文词是否未在日文-中文翻译文件中登记。
当未登记词确定单元104确定在语形学分析表121中登记的日文单词是未登记词时,未登记词翻译生成单元105生成未登记词的翻译。具体地,未登记词翻译生成单元105进一步将作为未登记词的日文单词划分成字符或每种字符类型(汉字、平假名、片假名、字母数字字符等)的串。参考日文-中文汉字数据库112将所述字符中的每个日文汉字指定给相应的中文汉字,但是指定不翻译所述串中的平假名串。例如片假名和字母数字字符等其他字符的翻译以他们的原始表记(transcription)来表示。
当在语形学分析表121中登记的日文单词是登记的词时,翻译单元103确定与该日文单词对应的中文词为其翻译。
输出处理单元106将由翻译单元103和未登记词翻译生成单元105生成的翻译输出到例如显示器和打印机的输出装置108。
在HDD 110中存储日文-中文翻译文件111和日文-中文汉字数据库112。
日文-中文翻译文件111是字典文件,其中每个日文单词与日文表记、词性、以及相应的中文翻译相关。
图2示出了日文-中文翻译文件111的示例。如图2中所示,日文-中文翻译文件111包含与每个词相关的日文表记、词性、以及相应的中文翻译。与特定翻译符号“-”相关的日文单词的翻译不显示在输出装置108上。
日文-中文汉字数据库112是在其中登记了每个与日文汉字相对应的诸如简体中文和繁体中文的中文字符的数据库,并且当生成未登记词的翻译时由未登记词翻译生成单元105查阅该数据库。
图3示出了日文-中文汉字数据库112的n个示例。如图3所示,在日文-中文汉字数据库112中登记了日文汉字以及每个与日文汉字相对应的诸如简体中文和繁体中文的中文汉字。
语形学分析单元102在RAM 120中生成语形学分析表121。未登记词翻译生成单元105在RAM 120中生成翻译缓冲区和未登记词串数组123。语形学分析表121、翻译缓冲区122和未登记词串数组124可以在HDD中生成,而不是在RAM 120中生成。
语形学分析表121由语形学分析单元102生成,并且是包含日文表记、词性、和相应的逐字翻译的数据文件。
翻译缓冲区122和未登记词串数组123由未登记词翻译生成单元105生成,并且是在生成未登记词的翻译时临时地存储例如汉字和平假名等字符的缓冲区。
下面将描述根据这一实施例由日文-中文机器翻译设备进行的日文-中文机器翻译的整个处理。
图4是日文-中文机器翻译的整个处理的流程图。
当输入装置107接收日文句子时,输入处理单元101接受日文句子(步骤S401)。语形学分析单元102参考日文-中文翻译文件111将接受的日文句子划分成日文单词(步骤S402)。同时,语形学分析单元102从日文-中文翻译文件111获得对于每个日文单词的词性和翻译。将日文句子划分成日文单词可以使用不同于语形学分析的其他技术。
语形学分析单元102在RAM 120中生成语形学分析表121,并且在语形学分析表121中为每个日语表记登记日文单词以及所获得的词性和翻译(步骤S403)。如果日文单词是未在日文-中文翻译文件111中登记的未登记词,则在语形学分析表121中将词性登记为“未知”,并将翻译登记为空白数据。
将图5A中所示的日语句子J1作为由输入处理单元101接受的示例,用来理解语形学分析表121。
图5B示出了在接受日文句子J1之后步骤S403的处理完成时语形学分析表121的示例。在语形学分析表121中登记日文单词编号和单词以及从日文-中文翻译文件111获取的词性和翻译。如果日文单词是未在日文-中文翻译文件111中登记的未登记词,例如如图5A中所示的词W1,则其词性被登记为“未知”并且其翻译被登记为空白数据。
翻译单元103从语形学分析表121获取日文单词(步骤S404)。日文单词的获取从语形学分析表121的头部开始。未登记词确定单元104确定在步骤S404中从语形学分析表121获取的日文单词的词性是否是“未知”(步骤S405)。换句话说,确定是否在日文-中文翻译文件中登记了获取的日文单词。如果该日文单词的词性并非指示未知词(步骤S405:否),则确定该日文单词不是未登记词,并且翻译单元103从语形学分析表121获取与该日文单词对应的翻译(步骤S407)。
如果日文单词的词性指示未知词(步骤S405:是),则确定日文单词是未登记词,并且未登记词翻译生成单元105执行生成未登记词翻译的处理(步骤S406)。下文中将详细描述在步骤S406中生成未登记词翻译的处理。
在步骤S406之后,重复从步骤S404到S407的处理,直到处理了在语形学分析表121中登记的所有的日文单词(步骤S408)。结果,生成所有日文单词的翻译,并且输出处理单元106将日文句子和翻译输出至输出装置108(步骤S409)。
下面将描述在步骤S406中由未登记词翻译生成单元105生成未登记词翻译的处理。
图6是由未登记词翻译生成单元105生成未登记词的翻译的处理的流程图。
未登记词翻译生成单元105将未在日文-中文翻译文件111中登记的日文单词划分成汉字、平假名、片假名和字母数字字符等每种字符类型的串,然后以出现的顺序将所述串存储在RAM 120的未登记词串数组123的分离数组元素中(步骤S601)。
图7A和7B示出了未登记词串数组123的示例。由于图5A中所示日文句子J1的词W1是未在日文-中文翻译文件111中登记的词,汉字D1和平假名D2中的每一个存储在未登记词串数组123的分离数组元素中,如图7A所示。如图7B所示,如果未登记词是词W2,汉字D1’和平假名D2’的每一个存储在未登记词串数组123的分离数组元素中。
在步骤S601取决于未登记词串数组123中的字符类型对于每个串存储了未登记词之后,从未登记词串数组123中获取存储在每个数组元素中的串,以确定所获得的串是否是日文汉字(步骤S603)。当所获得的串是日文汉字时(步骤S603:是),则从日文-中文汉字数据库(112)中获取与日文汉字对应的中文汉字(步骤S605),并将其添加到RAM 120的翻译缓冲区122(步骤S606)。
当在步骤S603中从未登记词串数组123的数组元素中获得的串不是中文汉字(步骤S603:否),则确定该串是否是平假名(步骤S604)。当该串不是平假名时(步骤S604:否),则将所获得的不同于平假名的串(下文中也称为“非平假名串”)添加到翻译缓冲区122中(步骤S606)。
当串是平假名时(步骤S604:是),则不把该串(即平假名)添加到翻译缓冲区122中。换句话说,未登记词中的平假名处理为不翻译。
对于存储在未登记词串数组123的所有数组元素中的串执行从步骤S602到S606的处理(步骤S607),然后将翻译缓冲区122的内容设定到语形学分析表121中(步骤S608)。将语形学分析表121作为日文句子的翻译提供至输出处理单元106,因此只有未登记词中的汉字处理为未登记词的翻译,而平假名不作为翻译输出。
图8示出了在接受了图5A所示的日文句子J1之后,当生成未登记词翻译的处理完成时,翻译缓冲区122的内容的示例。如图8所示,只有与日文句子的未登记词W1中的日文汉字D1相对应的中文汉字C1被添加到翻译缓冲区122中,而平假名D2未被添加到缓冲区122中。
图9示出了在接受了图5A所示的日文句子J1之后,当生成未登记词翻译的处理完成时,语形学分析表121中的内容的示例。将图8所示的翻译缓冲区122中的内容(即仅仅是与日文汉字D1对应的中文汉字C1)设定为未登记词W1的翻译,而不设定平假名字符D2。因此,即使当所接受的日文句子包含将要在日文-中文翻译文件111中登记的未登记词时,将要输出到输出装置108的中文翻译不包含平假名。
图10A示出了在根据这一实施例的日文-中文机器翻译设备100中接受日文句子J1之后,输出装置108的输出的示例。图10B示出了在传统的日文-中文机器翻译设备中接受日文句子J1之后,输出装置的输出的示例。
如图10B所示的传统日文-中文机器翻译设备的输出——未登记词W1的中文翻译——包含不是汉语的表记的平假名D2,以及对应于日文汉字D1的中文汉字。但是,图10A所示的根据这一实施例的日文-中文机器翻译设备的输出在中文翻译中不包含这样的平假名。
根据第一实施例的日文-中文机器翻译设备100将接受的日文句子划分成日文单词作为词素,以便与中文翻译一起显示每个日文单词。特别的,日文-中文机器翻译设备100不输出未在日文-中文翻译文件111中登记的日文单词中包含的任何平假名。结果,可以对机器翻译的质量产生一个好的印象。
根据第一实施例的日文-中文机器翻译设备100不输出未在日文-中文翻译文件111中登记的日文单词中包含的任何平假名。但是,平假名有时用来表示专有名词。
根据第二实施例的日文-中文机器翻译设备100仅仅在未登记词的平假名串的音节的数目或字符的数目不大于预定的整数n时,将这样的平假名串识别为例如变格的假名结尾,并且不将其作为翻译输出。
根据第二实施例的日文-中文机器翻译设备100具有与第一实施例的日文-中文机器翻译设备相同的功能结构,因此将省略其描述。根据这一实施例,当未登记词的平假名串的音节的数目或字符的数目不大于预定整数n时,未登记词翻译生成单元105不将平假名串添加到翻译缓冲区122。此外,当平假名串的音节数目或字符数目大于整数n时,未登记词翻译生成单元105将平假名串添加到翻译缓冲区122。第二实施例在这一点上不同于第一实施例。
由根据第二实施例的日文-中文机器翻译设备进行的日文-中文机器翻译的整个处理与第一实施例中相同。
图11是通过根据第二实施例的日文-中文机器翻译设备100的未登记词翻译生成单元105生成未登记词的翻译的处理的流程图。在这一实施例中,整数n代表字符的数目,但是其也可以代表音节的数目。
在从步骤S1101到S1104的处理中,将未登记词划分成每种字符类型的串、将所述串存储在未登记词串数组123中、并确定所存储的串是否是平假名。所述从步骤S1101到S1104的处理与第一实施例中从步骤S601到S604的处理相同,
当所获得的串不是平假名时(步骤S1104:否),将非平假名串添加到翻译缓冲区122(步骤S1107)。
当所获得的串是平假名时(步骤S1104:是),确定该串(即平假名串)的字符数目是否大于整数n。整数n可以定义为例如未登记词的变格假名结尾的统计最大长度,但可以是不同的值。n的值为例如2或3。n的值可以由用户设定。
当平假名串的字符数目不大于n时(步骤S1106:是),不将平假名串添加到翻译缓冲区122。当平假名串的字符数目大于n时(步骤S1106:否),将平假名串添加到翻译缓冲区122(步骤S1107)。结果,确定字符数目不大于n的平假名串是动词的变格的假名结尾,并且不将其作为翻译输出。此外,确定字符数目大于n的平假名串是专有名词,并且将其作为翻译输出。
在将所述串添加到翻译缓冲区122中之后,对存储在未登记词串数组123的所有数组元素中的串重复执行从步骤S1102到S1107的处理(步骤S1108),然后将翻译缓冲区122中的内容设定到语义学分析表121中(步骤S1109)。将语形学分析表121提供至输出处理单元106作为日文句子的翻译,从而将来登记词中字符数目大于n的汉字和平假名串处理为未登记词的翻译,而字符数目不大于n的平假名串不作为翻译输出。
如上所述,根据第二实施例的日文-中文机器翻译设备100不输出字符或音节数目不大于预定整数n的平假名串作为翻译。此外,所有的平假名串总是不输出,并将具有较长的长度的平假名串(例如专有名词)输出作为原始表记。结果,可以对机器翻译的质量产生较好的印象。
但是,即使当平假名串的字符数目或音节数目大于整数n时,具有一连串的附属词的平假名串可能不是专有名词。附属词是指未识别为单个短语的词,例如如图12A中所示助动词W3中的词D3,或者如图12B所示日文W4中的助词D4。
根据第三实施例的日文-中文机器翻译设备使用附属词词典和附属词连接表。附属词词典包含作为附属词的、能够连接到其他日文单词的平假名字符和平假名串。该日文-中文机器翻译设备还确定平假名串是否包含可以连接到后续日文单词的附属词。当平假名串的所有附属词可相互连接时,确定该平假名串不是专有名词并且不输出。
图13是根据本发明第三实施例的日文-中文机器翻译设备的功能框图。根据第三实施例的日文-中文机器翻译设备2100包括输入处理单元101、语形学分析单元102、翻译单元103、未登记词确定单元104、未登记词翻译生成单元1205、输出处理单元106、输入装置107、输出装置108、HDD 110和RAM 120。
输入处理单元101、语形学分析单元102、翻译单元103、未登记词确定单元104、未登记词翻译生成单元1205、输出处理单元106、输入装置107和输出装置108与根据第一实施例的日文-中文机器翻译设备100中的那些相同,因此,将省略对这些元件的描述。
当未登记词确定单元104确定在语形学分析表121中登记的日文单词是未登记词时,未登记词翻译生成单元1205生成未登记词的翻译。根据这一实施例,未登记词翻译生成单元1205将作为未登记词的日文单词划分成字符或每种字符类型(汉字、平假名、片假名、字母数字字符等)的串。此外,从平假名串中提取组成一个或多个附属词的串,并且当所提取的平假名的附属词之一不能连接到下一个附属词时,确定该平假名串为翻译。与第一实施例中未登记词翻译生成单元105的情形相同,未登记词翻译生成单元1205还参考日文-中文汉字数据库111确定对应于日文汉字的中文汉字为将要输出的翻译。例如片假名和字母数字字符等其他字符的翻译以他们的原始表记来表示。
图14是未登记词翻译生成单元1205的功能框图。如图14中所示,未登记词翻译生成单元1205包括附属词提取器1301、附属词串分析确定单元1302、和翻译生成单元1303。
附属词提取器1301参照如后面所述的附属词字典文件1211从未登记词的平假名串中提取附属词串。附属词串分析确定单元1302确定所提取的附属词串中的每一个是否能够连接到随后的附属词,即是否可以参照附属词连接表1212分析该附属词串。本实施例中的附属词串被称为由能够相互连接的附属词组成的平假名串。翻译单元1303不生成下述平假名串的翻译:该平假名串的每个附属词能够连接到下一个附属词,并且通过附属词串分析确定单元1302确定该平假名串可以分析为附属词串。翻译单元1303还将不能被分析为附属词串、并且其一个附属词不能连接到下一个附属词的平假名串指定为原始表记作为翻译。
回到图13,日文-中文汉字数据库、日文-中文翻译文件112、附属词字典文件1211、附属词连接表1212都存储在HDD 110中。日文-中文汉字数据库111和日文-中文翻译文件112与第一实施例中的那些相同,因此将省略对这些元件的描述。
附属词字典文件1211是包含平假名字符和平假名串的字典文件,其由附属词及它们的词性组成。
图15是出了附属词字典文件1211的数据结构。如图15所示,在附属词字典文件1211中,识别每个附属词的附属词编号、附属词(单词)、和词性相互关联。如图15中所示,附属词的词性主要是助词、助动词和活用词尾。
附属词连接表1212是指示可连接附属词的数据。
图16示出了附属词连接表1212的数据结构。如图16中所示,在附属词连接表1212中,每个附属词编号与连接列表相关。联接列表包含多个附属词编号,每一个所述附属词编号指示可以连接到一个附属词的下一个附属词。
在图16中,附属词编号“2”的附属词指示图15中的单词WW1,其后面可以跟随附属词编号“29”、“33”或“45”的附属词。
如果未登记词是例如如图17所示的词W10,则可将平假名串D10分析为附属词串。参见图15的附属词字典文件1211,平假名串D10可以划分为附属词WW2(附属词编号“6”)、附属词WW3(附属词编号“0”)、和附属词WW4(附属词编号“1”)。参照附属词连接表1212,附属词编号“6”的附属词WW2后可以跟随附属词编号“0”的附属词WW3,所述附属词编号“0”的附属词WW3后可以跟随附属词编号“1”的附属词WW4。因此,平假名串D10的附属词WW2、WW3和WW4可以顺序地相互连接,并且平假名串D10可以分析为附属词。因此,不生成平假名串D10的翻译。
回到图13,语形学分析单元102在RAM 120中生成语形学分析表121。未登记词翻译生成单元1205在RAM 120中生成翻译缓冲区122和未登记词串数组123。此外,附属词提取器1301在RAM 120中生成附属词表1221和附属词索引表1222。语形学分析表121、翻译缓冲区122、未登记词串数组123、附属词表、附属词索引表1222可以在HDD110中生成,而不是在RAM 120中生成。
语形学分析表121、翻译缓冲区122、未登记词串123与在第一实施例中的那些相同,因此将省略对这些元件的描述。
附属词表1221包含在未登记词的平假名串中包含的附属词的数据,附属词索引表1222包含在未登记词的平假名串中包含的附属词的索引数据。下文中将详细描述附属词表1221和附属词索引表1222。
下面将描述通过根据这一实施例的日文-中文机器翻译设备1200进行的日文-中文机器翻译的整个处理。通过根据第三实施例的日文-中文机器翻译设备1200进行的日文-中文机器翻译的整个处理与第一实施例中的处理相同。
图18是通过根据第三实施例的日文-中文机器翻译设备1200的未登记词翻译生成单元1205生成未登记词的翻译的处理的流程图。
从步骤S1601到S1604的处理与第一实施例中从步骤S601到S604的处理相同,在所述从步骤S1601到S1604的处理中,将未登记词划分成每种字符类型的串、将所述串存储在未登记词串数组123中、并确定所存储的串是否是平假名。
当所述串不是平假名时(步骤S1604:否),将获得的非平假名串添加到翻译缓冲区122(步骤S1609)。
当所获得的串是平假名时(步骤S1604:是),附属词提取器1301执行提取附属词的处理(步骤S1606)。然后,附属词串分析确定单元1302执行确定附属词串分析的处理,在该处理中确定所提取串的附属词是否可以相互连接(步骤S1607)。通过发出确定函数FUNC(-1,0)来正确地执行这一处理,且该确定函数FUNC(-1,0)的返回值表示提取串是否可以分析为附属词串。具体地,返回值“1”指示该串可以分析为附属词串,而返回值“0”指示该串不能分析为附属词串。下面将详细描述提取附属词的处理和确定附属词串的处理。
在步骤S1607的确定附属词串分析的处理中,确定平假名串是否可以分析为附属词串,即确定函数FUNC(-1,0)的返回值是否是“1”。如果可以分析平假名串(步骤S1608:是),则不生成平假名串的翻译,因为未登记词的平假名串是附属词串。
如果确定平假名串不能分析为附属词串(步骤S1608:否),则将平假名串添加到翻译缓冲区122(步骤S1609)。
在将所述串添加到翻译缓冲区122中之后,对存储在未登记词串数组123的所有数组元素中的串重复地执行从步骤S1602到步骤S1609地处理(步骤S1610),然后将翻译缓冲区122中的内容设定到语形学分析表121中(步骤S1611)。将语形学分析表121提供到输出处理单元106,作为日文句子的翻译,从而确定可以分析为附属词串的平假名串为例如变格的假名结尾或助词,并且不作为翻译输出。但是,如果未登记词的平假名串不能分析为附属词,则确定平假名串为例如专有名词,并且作为翻译输出。
下面将描述在步骤S1606中由附属词提取器1301执行的提取附属词的处理。
图19是通过附属词提取器1301执行的提取附属词的处理的流程图。
首先,附属词提取器1301将“0”设定给指针P1,并用未登记词的平假名串的串长度代替串长度L(步骤S1701)。P1是指示将从平假名串提取的部分串的起点的指针,P1为“0”指示从串的头部提取了部分串。
然后,起初将指示部分串的终点的指针P2设定为P1+1(步骤S1702)。这时,当没有后续字符时,假设存在后续字符地改变指针P2的值。
然后,通过搜索附属词字典文件1211来确定是否将指针P1处的部分串起点和指针P2处的终点登记为附属词(步骤S1703)。并且,确定是否返回了搜索结果,换句话说,是否将部分串登记为附属词(步骤S1704)。当返回了搜索结果时(步骤S1704:是),在附属词表1221和附属词索引表1222中登记作为搜索结果的附属词(部分串)(步骤S1705)。
当没有返回搜索结果时,换句话说,如果没有将部分串登记为附属词(步骤S1704:否),则不在附属词表1221和附属词索引表1222中登记部分串。
接着,将指针P2递增一个字符(步骤S1706),重复从步骤S1703到S1706的处理,直到指示部分串的终点的指针P2变为平假名串的串长度L的值,换句话说,直到指针P2到达平假名串的结尾(步骤S1707)。当在步骤S1707中指针P2到达串长度L时,将指针P1递增一个字符,并重复从步骤S1702到S1708的处理,直到指示部分串的起点的指针P1变为平假名串的串长度L的值,换句话说,直到指针P1到达平假名串的结尾(步骤S1709)。当在步骤S1709中指针P1到达串长度L时,处理结束。结果,提取并在附属词表1221和附属词索引表1222中登记了平假名串中所有的附属词。
图20示出了附属词表1221的数据结构,具体来说,示出了当未登记词是图17的词W10,采用图15的附属词字典文件1211时搜索到的附属词。图21示出了附属词索引表1222的数据结构,具体来说示出了图20所示的附属词表1221的索引。
具体的,参见图22,由于未登记词的平假名串D10的部分串PS1到PS6中在附属词字典文件1211中登记的附属词是部分串PS1,PS4和PS6,因此每个部分串(即,附属词)PS1,PS4和PS6与附属词编号、起点和终点一起登记在附属词表1221中,并且被分配了唯一的附属词表编号。通过使用起点这一主键对在附属词表1221中登记的附属词进行分类,来生成附属词索引表1222。参见图19,对于每个起点,在“附属词表编号列表”字段中登记一个附属词表编号。但是,一个起点可以与多个附属词表编号相关或者可以与附属词表编号无关。
现在将描述步骤S1607中用于确定附属词串分析的确定函数FUNC的处理。
图23是确定函数FUNC的处理的流程图。
确定函数FUNC使用两个参数。第一个参数是附属词表编号,第二个参数是起点。确定函数FUNC确定由指示附属词表编号的第一参数识别的附属词是否可以连接到(具体地,跟随有)在指示起点的第二参数处开始的串的附属词。如果两个附属词能够相互连接,则返回一个返回值“1”。如果两个附属词不能相互连接,则返回一个返回值“0”。首先,附属词串分析确定单元1302设定第一参数为变量F,并设定第二参数为变量S(步骤S2001)。然后,从附属词索引表1222中获取对于起点S的附属词表编号列表(步骤S2002)。并且确定是否是附属词表编号列表的终点(步骤S2003)。当不是列表的终点时(步骤S2003:否),从列表中获取一个附属词表编号,并代替变量Fi(步骤S2004)。
接着,参照附属词连接表1212确定由对应于附属词表编号Fi的附属词编号标识的附属词是否可以连接到由对应于附属词表编号F的附属词编号识别的附属词(步骤S2005,S2006)。参考附属词表1221获取对应于附属词表编号的附属词编号。注意,除了F是-1的情况之外,对应于附属词表编号Fi的附属词连接到对应于附属词表编号F的附属词,所述F是-1的情况指示在附属词表1221中没有使用的特定ID。
如果由对应于附属词表编号Fi的附属词编号标识的附属词可以连接到由对应于附属词表编号F的附属词编号识别的附属词(S2006:是),则确定终点Ei是否到达平假名串的终点(步骤S2007)。当终点Ei到达平假名串的终点时,则将返回值设定为一(步骤S2007:是),并且处理结束。
当终点Ei没有到达平假名串的终点时(步骤S2007:否),则将Fi设定给第一参数,将Ei设定给第二参数,并且递归调用确定函数FUNC(步骤S2008)。然后,确定确定函数FUNC的返回值是否是一(即,可连接)(步骤S2009)。当返回值是一时(步骤S2007:是),则将返回值设定为一(步骤S2010),并且处理结束。
当递归调用的FUNC的返回值不是一时(步骤S2009:否),从附属词表编号列表中获得随后的附属词表编号,所述附属词表编号列表是在步骤S2002中从附属词索引表1222中获取的,并且重复执行从步骤S2003到S2008的处理。当所获得的附属词表编号是附属词表编号列表的结尾时,换句话说,如果列表为空,则将返回值设定为零,并且处理结束。
当附属词表1221和附属词索引表1222具有与图20和21中所示的那些相同的内容时,换句话说,当图23的流程图中F=-1且S=0时,只有附属词表编号0具有起点“0”。接着,获取附属词表编号,以使得Fi=0。由于F=-1,Fi能够无条件地连接到F。由于Fi的终点Ei(=1)没有达到平假名串的终点(=3),因此递归地计算FUNC(0,1)。具体来说,当F=0且S=1时,再次执行图23中所示的流程图。仅当附属词表编号1具有起始点“1”时,使Fi=1。参见图20,对应于F=0的附属词编号为6,并且对应于Fi=1的附属词编号为0,因此附属词表编号Fi的附属词可以连接到附属词表编号F的附属词。
由于Fi的终点Ei(=2)还没有达到平假名串的终点(=3),因此递归地计算FUNC(0,1)。具体来说,当F=1和S=2时,再次执行图23中所示的流程图。仅当附属词表编号2具有起始点“2”时,使Fi=2。参考图20中所示的附属词表1221,对应于F=1的附属词编号为0,对应于Fi=2的附属词编号为1。因此,参考图16中所示的附属词连接表1212,附属词表编号Fi的附属词可以连接到附属词表编号F的附属词。当Fi的终点Ei(=3)到达平假名串的终点时,返回返回值1,并且当前处理返回到FUNC(-1,0)的嵌套级的步骤S2009。此外,由于返回了返回值1,图18的步骤S1607中的输出变为1。因此,可以将平假名串D10分析为附属词串。如上所述,不生成平假名串D10的翻译。
根据第三实施例的日文-中文机器翻译设备1200使用包含有可以作为附属词连接到其他日文单词的平假名字符或平假名串的附属词字典,和包含有将要被连接的附属词的附属词连接表。这一日文-中文机器翻译设备1200还确定平假名串是否包含可以连接到后续日文单词的附属词。如果平假名串的所有附属词可以相互连接,则确定该平假名串不是专有名词并且不进行输出。因此,基于未登记串的平假名串是否是专有名词的决定来自动确定是将平假名串作为原始表记输出还是不翻译的输出。结果,可以对机器翻译的质量产生好的印象。
根据第一到第三实施例的日文-中文机器翻译设备包括例如CPU的控制器、例如ROM(只读存储器)或RAM的存储器、例如HDD或CD驱动器的外部存储装置、例如CRT或LCD的显示器、例如键盘或鼠标的输入装置,并且被设计为包括通用计算机的硬件***。
由根据第一到第三实施例的日文-中文机器翻译设备执行的日文-中文机器翻译程序作为可安装或可执行文件记录在计算机可读记录介质上,例如CD-ROM、软盘(FD)、CD-R、和DVD(数字通用盘)。
由根据第一到第三实施例的日文-中文机器翻译设备执行的日文-中文机器翻译程序可以配置为存储在与例如因特网的网络相连接的计算机中,从而从网络下载。日文-中文机器翻译程序可以配置为经由网络来提供和分发。
日文-中文机器翻译程序可以配置为通过事先嵌入在ROM等等中来提供。
日文-中文机器翻译程序被实现为包含如上所述的部件的模块,所述部件即输入处理单元101、语形学分析单元102、翻译单元103、未登记词确定单元104、未登记词翻译生成单元105或1205、输出处理单元106。作为实际的硬件,CPU(处理器)读取和执行日文-中文机器翻译程序,从而将部件载入到主存储器中,换句话说,输入处理单元101、语形学分析单元102、翻译单元103、未登记词确定单元104、未登记词翻译生成单元1205以及输出处理单元106都在主存储器中实现。
尽管采用日文-中文机器翻译设备作为简化设备的示例,其中所接受的日文句子被划分成词,并且为每个词指定一个中文词,但是根据本发明的日文-中文机器翻译设备也可以用来将日文句子翻译成中文句子。
本领域的技术人员可以容易地想到其他优点和修改。因此,本发明较宽的方面不限于此处示出和描述的特定的细节和代表性实施例。因此,可以在不背离如所附的权利要求和他们的等价物所定义的一般发明概念的精神和范围的情况下进行各种修改。

Claims (4)

1.一种日文-中文机器翻译设备,包括:
存储单元,其存储其中日文单词与中文单词相关联的日文-中文翻译字典文件、包含有可连接到平假名串中的其他日文单词的附属词的附属词字典数据库、和在其中附属词与可连接至该附属词的其他附属词相关联的附属词连接数据;
未登记词确定单元,其确定日文句子中包含的日文单词是否是未在日文-中文翻译字典文件中登记的未登记词;
附属词提取单元,当未登记词确定单元确定日文单词是未登记词时,该附属词提取单元将未登记词划分成平假名串和非平假名串,并且从平假名串中提取在附属词字典数据库中登记的附属词;
附属词串分析确定单元,其通过参照所述附属词连接数据确定所提取的附属词是否能够连接到随后的附属词;和
翻译生成单元,其不生成所提取的附属词可以通过附属词串分析确定单元连接到随后的附属词的平假名串的翻译,并且生成非平假名串的翻译和除了可连接到随后的附属词的所提取的附属词之外的平假名串的翻译。
2.如权利要求1所述的日文-中文机器翻译设备,其中翻译生成单元采用平假名串的表记作为所提取的附属词不能通过附属词串分析确定单元连接到随后的附属词的平假名串的翻译。
3.如权利要求1所述的日文-中文机器翻译设备,其中存储单元存储日文-中文汉字数据库,在该数据库中,日文汉字字符与对应于该日文汉字字符的中文汉字字符的表记相关联,
其中所述翻译生成单元参考日文-中文汉字数据库,采用对应于日文汉字字符的中文汉字字符作为非平假名串中的日文汉字字符的翻译。
4.如权利要求3所述的日文-中文机器翻译设备,其中所述翻译生成单元采用除了日文汉字字符以外的字符的表记作为非平假名串中除了日文汉字字符以外的字符的翻译。
CNB2005100713796A 2004-05-28 2005-05-27 用于将日文翻译成中文的设备 Expired - Fee Related CN100454294C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004159499A JP4018668B2 (ja) 2004-05-28 2004-05-28 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2004159499 2004-05-28

Publications (2)

Publication Number Publication Date
CN1702650A CN1702650A (zh) 2005-11-30
CN100454294C true CN100454294C (zh) 2009-01-21

Family

ID=35450121

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100713796A Expired - Fee Related CN100454294C (zh) 2004-05-28 2005-05-27 用于将日文翻译成中文的设备

Country Status (3)

Country Link
US (1) US20050273316A1 (zh)
JP (1) JP4018668B2 (zh)
CN (1) CN100454294C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149528A1 (en) * 2005-01-05 2006-07-06 Inventec Corporation System and method of automatic Japanese kanji labeling
JP4256891B2 (ja) * 2006-10-27 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳の精度を向上させる技術
KR100886687B1 (ko) 2007-12-12 2009-03-04 한국전자통신연구원 중국어 미등록어 자동 추출 방법 및 장치
US10574932B2 (en) * 2008-07-28 2020-02-25 Fox Digital Enterprises, Inc. System and method of generating subtitling for media
JP5528420B2 (ja) * 2011-12-05 2014-06-25 シャープ株式会社 翻訳装置、翻訳方法及びコンピュータプログラム
CN103714053B (zh) * 2013-11-13 2017-05-10 北京中献电子技术开发中心 一种面向机器翻译的日语动词识别方法
JP2015185115A (ja) * 2014-03-26 2015-10-22 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム
JP2015185116A (ja) * 2014-03-26 2015-10-22 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム
JP2015191430A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04256171A (ja) * 1991-02-08 1992-09-10 Fujitsu Ltd 未登録語処理装置
JPH06266758A (ja) * 1993-03-15 1994-09-22 Csk Corp 日中機械翻訳方式
JP2003323425A (ja) * 2002-05-02 2003-11-14 Just Syst Corp 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
CN1103953C (zh) * 1997-01-24 2003-03-26 三泽家庭株式会社 键输入装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04256171A (ja) * 1991-02-08 1992-09-10 Fujitsu Ltd 未登録語処理装置
JPH06266758A (ja) * 1993-03-15 1994-09-22 Csk Corp 日中機械翻訳方式
JP2003323425A (ja) * 2002-05-02 2003-11-14 Just Syst Corp 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム

Also Published As

Publication number Publication date
US20050273316A1 (en) 2005-12-08
JP4018668B2 (ja) 2007-12-05
CN1702650A (zh) 2005-11-30
JP2005339347A (ja) 2005-12-08

Similar Documents

Publication Publication Date Title
CN100454294C (zh) 用于将日文翻译成中文的设备
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
EP1703419A1 (en) Translation judgment device, method, and program
CN105930452A (zh) 一种识别自然语言的智能应答方法
JPH06314294A (ja) 機械翻訳方法及び機械翻訳装置
KR100853173B1 (ko) 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법
KR100911372B1 (ko) 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
EP3267327A1 (en) Entailment pair expansion device, computer program therefor, and question-answering system
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN101520778A (zh) 用于确定中文词性的设备和方法
JP6160438B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
Nastase et al. Correction of OCR word segmentation errors in articles from the ACL collection through neural machine translation methods
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
CN114185573A (zh) 一种人机交互机器翻译***的实现和在线更新***及方法
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
CN113971212A (zh) 多语种问答方法、装置、电子设备及存储介质
Shetty et al. An approach to identify Indic languages using text classification and natural language processing
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
JP2004280316A (ja) 分野判定装置及び言語処理装置
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
KR102338949B1 (ko) 기술문서 번역 지원 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090121