CN107861937B - 对译语料库的更新方法、更新装置以及记录介质 - Google Patents

对译语料库的更新方法、更新装置以及记录介质 Download PDF

Info

Publication number
CN107861937B
CN107861937B CN201710650696.6A CN201710650696A CN107861937B CN 107861937 B CN107861937 B CN 107861937B CN 201710650696 A CN201710650696 A CN 201710650696A CN 107861937 B CN107861937 B CN 107861937B
Authority
CN
China
Prior art keywords
word
database
sentence
gram
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710650696.6A
Other languages
English (en)
Other versions
CN107861937A (zh
Inventor
藤原菜菜美
山内真树
今出昌宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2017097489A external-priority patent/JP6830226B2/ja
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN107861937A publication Critical patent/CN107861937A/zh
Application granted granted Critical
Publication of CN107861937B publication Critical patent/CN107861937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及对译语料库的更新方法、更新装置以及更新程序。更新方法包括:输入将第1文的第1词句替换成第2词句而得到的第3文;判定第3词句是否包含于第1数据库,第1数据库至少包括书面语的文句中所使用的词句;在判定为第3词句不包含于第1数据库的情况下,基于第1数据库,对将第3词句中的第2词句替换成第6词句而得到的第7词句算出第1数据库中的第1评价值;判定第3词句是否包含于第2数据库,并且判断基于第1评价值算出的第2评价值是否满足预定条件,第2数据库至少包括口语的文句中所使用的词句;在判定为第3词句包含于第2数据库、并且第2评价值满足预定条件的情况下,将成对的第3文和第2文追加到对译语料库中。

Description

对译语料库的更新方法、更新装置以及记录介质
技术领域
本公开涉及识别根据原文制作出的同义转换文(换言文、说法变换文)是否良好,对对译语料库(Translation Corpus)进行更新(升级)的同义转换文识别方法、同义转换文识别装置以及同义转换文识别程序。
背景技术
近年来,正在研究和开发将第1语言的语句(文)翻译成与第1语言不同的第2语言的语句的机器翻译,要提高这种机器翻译的性能,需要收集有大量的可利用于翻译的例文的对译语料库。为此,可进行根据一个原文来制作与该原文类似的一个或者多个同义转换文,同义转换文是否良好会决定对译语料库是否良好,并最终决定翻译是否良好。
为了判断如上所述的同义转换文的优劣,例如,专利文献1中公开了一种针对进行语句替换而得到的变换结果,以语言模型(N-gram语言模型)和/或口语表达的语句集合等多个评价轴来进行对语句的优劣的评价的语言变换处理***。
另外,专利文献2中公开了如下方法:为了从对象领域外的语料库中高效地收集与对象领域的语料库所包含的语句类似的语句,通过从对象领域外语料库中参照缺空单词串(其中有空缺的单词串),从而学习可扩展通用性的语言模型的方法,所述对象领域外的语料库是与该对象领域的语料库不同的领域的语料库。
现有技术文献
专利文献1:日本专利第4041876号公报
专利文献2:日本特开2016-24759号公报
发明内容
发明所要解决的问题
然而,要提高机器翻译性能,则可利用于翻译的例文越多越好,对于对可作为例文使用的同义转换文的识别,需要进一步的改善。
用于解决问题的技术方案
本公开的一个技术方案的方法,是更新对译语料库的方法,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述方法包括:输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所述第3词句中的所述第2词句替换成第6词句而得到的第7词句,算出在所述第1数据库中的第1评价值,所述第6词句与所述第2词句不同;判定所述第3词句是否包含于第2数据库,并且判定基于所述第1评价值算出的第2评价值是否满足预定条件,所述第2数据库至少包括口语的文句中所使用的词句,将所述口语的文句中所使用的词句与所述口语的文句中所使用的词句的在所述第2数据库中的出现频度进行关联;在判定为所述第3词句包含于所述第2数据库,并且所述第2评价值满足所述预定条件的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
发明效果
根据本公开,能够高效并且高精度地识别根据原文制作出的同义转换文是否良好。
附图说明
图1是表示具备本公开的一个实施方式中的同义转换文识别装置的同义转换文识别***的构成的一例的框图。
图2是表示图1所示的同义转换DB的数据结构的一例的图。
图3是表示图1所示的通用N-gramDB的数据结构的一例的图。
图4是表示图1所示的口语表达N-gramDB的数据结构的一例的图。
图5是表示由图1所示的通用N-gram判定部进行的通用N-gram判定处理的一例的流程图。
图6是表示由图1所示的口语表达N-gram判定部进行的口语表达N-gram判定处理的一例的流程图。
标号说明
1:同义转换文制作装置 2:同义转换文识别装置
11:输入部 12:同义转换部
13:同义转换DB 21:通用N-gram判定部
22:通用N-gramDB 23:口语表达N-gram判定部
24:口语表达N-gramDB 25:输出部
26:第1判定部 27:第2判定部
28:表层表现判定部 29:词性表现判定部
30:替换部分判定部
具体实施方式
(成为本公开的基础的见解)
如上所述,要提高机器翻译性能,则可利用于翻译的例文越多越好,希望在自动生成机器翻译的原文的类似对译语料库的过程中,高效并且高精度地进行对以同义转换(换句话说)的方式从原文作出的同义转换文是否良好(优劣)的判断。
然而,要制作如包括大量口语表达那样的语言模型的数据库,会花费非常大的成本,相反,在基于“Twitter”(注册商标)、“Facebook”(注册商标)等的信息来制作语言模型的数据库的情况下,数据的品质不能说良好,还会包括大量不良品质的数据。
另外,在用语言模型(例如通用N-gram语言模型)的数据库来评价同义转换文是否良好的情况下,同义转换文的良好与否的评价严重依赖于数据库所保持的数据的质量和/或数量,尤其是在同义转换文所包含的短语等没有包含于数据库、从原文替换的部分附近的短语本身没有包含于数据库的情况下,无法对同义转换文进行评价。再者,包括大量方言和/或口语表达等的数据库无法保证质量,因此不能仅通过它们来判断同义转换文是否良好。
在本公开的一个技术方案中,例如当在包括同义转换文的替换部分在内的N-gram中,N-gram没有全部匹配(hit,命中),但局部一致的情况下,能从通用N-gram数据库中求取仅是一致的部分的出现概率。例如,将文句“その服めっちゃ良いね(那件衣服非常好啊)”中的“めっちゃ(非常地)”替换成作为通配符的“*”,求取“その服*良いね(那件衣服*好啊)”的出现概率,对于未知词“*”,参照另外所拥有的口语表达N-gram数据库。
在该口语表达N-gram数据库中,不会以严格到词一致为止的方式进行评价,对于“*”的周边,也对在“词性”级别的一致进行判定。例如,将“服”替换成“名词”,将“良い”替换成“形容词”,对口语表达N-gram数据库中有没有“名词めっちゃ形容词”进行判定。如此,在本公开的一个技术方案中,结合语言模型和口语表达的数据库,对同义转换文是否良好进行判断。
其结果,在本公开的一个技术方案中,使用现存的语言模型以外的数据时,即使在追加的数据本身的数量及精度不够的情况下,也能够高精度地判断同义转换文是否良好。即,能够不仅有效利用规模大并且质量好的数据库(例如,通用N-gram语言模型的数据库)的信息,而且还并用与口语和/或近来的表达对应的数据库(例如,口语表达N-gram数据库),并且对同义转换文是否良好进行判断。
因此,在本公开的一个技术方案中,通过高效地对规模大并且质量好的数据库、和数据的质量得不到保证但包括口语表达和/或方言等的数据库双方的好的部分进行参照,能够混合(hybrid)地评价同义转换文是否良好。即,通过对在语法上破绽少的书面语表达的数据库和在语法上有破绽但包括多样的表达的口语表达的数据库进行并用,能够高效并且高精度地识别根据原文制作出的同义转换文是否良好。
基于上述见解,本申请发明人用心对应该如何识别根据原文制作出的同义转换文是否良好进行了研究,其结果,完成了本公开。
(1)本公开的一个技术方案涉及的方法,是更新对译语料库的方法,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述方法包括:输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所述第3词句中的所述第2词句替换成第6词句而得到的第7词句,算出在所述第1数据库中的第1评价值,所述第6词句与所述第2词句不同;判定所述第3词句是否包含于第2数据库,并且判定基于所述第1评价值算出的第2评价值是否满足预定条件,所述第2数据库至少包括口语的文句中所使用的词句,将所述口语的文句中所使用的词句与所述口语的文句中所使用的词句的在所述第2数据库中的出现频度进行关联;在判定为所述第3词句包含于所述第2数据库,并且所述第2评价值满足所述预定条件的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,输入将构成第1文的多个词句中的第1词句替换成第2词句而得到的第3文;判定第3词句是否包含于第1数据库,第3词句至少包括第3文中的第2词句和第2词句紧前面的第4词句、或者第3文中的第2词句和第2词句紧后面的第5词句,第1数据库至少包括书面语的文句中所使用的词句;在判定为第3词句不包含于第1数据库的情况下,基于第1数据库,对将第3词句中的第2词句替换成第6词句而得到的第7词句,算出在第1数据库中的第1评价值,第6词句与第2词句不同;判定第3词句是否包含于第2数据库,并且判定基于第1评价值算出的第2评价值是否满足预定条件,第2数据库至少包括口语的文句中所使用的词句,将口语的文句中所使用的词句与口语的文句中所使用的词句的在第2数据库中的出现频度进行关联;在判定为第3词句包含于第2数据库,并且第2评价值满足预定条件的情况下,将成对的第3文和第2文追加到对译语料库中,因此,能够高效并且高精度地识别根据作为原文的第1文制作出的作为同义转换文的第3文是否良好。
(2)在上述技术方案中,也可以为,所述第3文通过将所述第1词句替换成第3数据库所包含的所述第2词句来生成,所述第3数据库将词句与和所述词句意思相同、表达不同的词句进行关联。
根据这种构成,能够根据第3数据库来制作成为同义转换文的第3文。
(3)在上述技术方案中,也可以为,所述第2数据库基于社交网络服务中所使用的词句来生成。
根据这种构成,第2数据库成为比第1数据库包括更多口语表达的数据库。
(4)在上述技术方案中,也可以为,在判定为所述第3词句包含于所述第1数据库的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,能够使用第1数据库来高效并且高精度地识别根据作为原文的第1文制作出的作为同义转换文的第3文是否良好。
(5)在上述技术方案中,也可以为,在判定为所述第3词句不包含于所述第1数据库的情况下,将所述第7词句中的所述第6词句排除在判定对象之外,判定所述第7词句是否存在于所述第1数据库,在所述第7词句不存在于所述第1数据库的情况下,不将所述第3文追加到所述对译语料库中。
根据这种构成,在判定为第3词句不包含于第1数据库的情况下,将第7词句中的第6词句排除在判定对象之外,判定第7词句是否存在于第1数据库,在第7词句不存在于第1数据库的情况下,不将第3文追加到对译语料库中,因此,能够放宽判定基准来判定作为同义转换文的第3文是否良好,并使得仅仅不将不满足放宽后的判定基准的同义转换文追加到对译语料库中,并且,对于满足放宽后的判定基准的同义转换文,能够根据其他判定基准来进一步判定同义转换文是否良好,所述其他判定基准使用数据的质量得不到保证但包括口语表达和/或方言等的数据库等。
(6)在上述技术方案中,也可以为,使用包括所述第2词句的N个词的N-gram来作为所述第3词句,并且使用N-gram语言模型的数据库来作为所述第1数据库,判定所述N-gram是否存在于所述N-gram语言模型的数据库,在所述N-gram存在于所述N-gram语言模型的数据库的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,在成为判定对象部分的N-gram存在于N-gram语言模型的数据库的情况下,将成对的同义转换文(第3文)和对译文(第2文)追加到对译语料库中,因此,能够将更多的同义转换文追加到对译语料库中。
(7)在上述技术方案中,也可以为,使用包括所述第2词句的N个词的N-gram来作为所述第3词句,并且使用N-gram语言模型的数据库作为所述第1数据库,根据所述N-gram语言模型的数据库来求取所述N-gram的出现概率或者出现频度,在根据所述N-gram的出现概率或者出现频度所算出的第3评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,在根据成为判定对象部分的N-gram的出现概率或者出现频度所算出的第3评价值大于等于预定阈值的情况下,判定为将成对的同义转换文(第3文)和对译文(第2文)追加到对译语料库中,因此,能够高精度地判定同义转换文是否良好,并将成对的同义转换文和对译文追加到对译语料库中。
(8)在上述技术方案中,也可以为,在判定为所述第3词句不包含于所述第1数据库的情况下,判定将所述第2词句排除在判定对象之外的所述N-gram是否存在于所述N-gram语言模型的数据库,在将所述第2词句排除在判定对象之外的所述N-gram不存在于所述N-gram语言模型的数据库的情况下,不将所述第3文追加到所述对译语料库中。
根据这种构成,在将替换部分(第2词句)排除在判定对象之外的N-gram不存在于N-gram语言模型的数据库的情况下,不将同义转换文(第3文)追加到对译语料库中,因此,能够使得仅仅不将不满足比通常的N-gram语言模型宽松的判定基准的同义转换文追加到对译语料库中,并且,对满足比通常的N-gram语言模型宽松的判定基准的同义转换文,能够根据其他判定基准来高效并且高精度地判定同义转换文是否良好。
(9)在上述技术方案中,也可以为,在判定为所述第3词句不包含于所述第1数据库的情况下,根据所述N-gram语言模型的数据库来求取将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度,在根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的第4评价值比预定阈值低的情况下,不将所述第3文追加到所述对译语料库中。
根据这种构成,在根据将替换部分(第2词句)排除在判定对象之外的N-gram的出现概率或者出现频度所算出的第4评价值比预定阈值低的情况下,不将同义转换文(第3文)追加到对译语料库中,因此,能够通过根据比通常的N-gram语言模型放宽了判定基准的N-gram的出现概率或者出现频度所算出的评价值来高精度地将同义转换文判定为不良,并且,对于满足根据比通常的N-gram语言模型放宽了的N-gram的出现概率或者出现频度所算出的评价值的同义转换文,能够根据其他判定基准来高效并且高精度地判定同义转换文是否良好。
(10)在上述技术方案中,也可以为,在所述第7词句存在于所述第1数据库的情况下,判定包括所述N-gram的所述第2词句、所述第4词句和所述第5词句而成的表层表现前后部分是否存在于所述第2数据库,在所述表层表现前后部分存在于所述第2数据库、并且根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的表层表现前后评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,在包括替换部分(第2词句)和前后的词(第4词句以及第5词句)而成的表层表现前后部分存在于第2数据库、并且根据将替换部分(第2词句)排除在判定对象之外的N-gram的出现概率或者出现频度所算出的表层表现前后评价值大于等于预定阈值的情况下,将成对的同义转换文(第3文)和对译文(第2文)追加到对译语料库中,因此,即使在第2数据库的数据量和/或精度不够的情况下,也能够基于包括替换部分和前后的词而成的表层表现前后部分,高效并且高精度地判断同义转换文是否良好,将成对的同义转换文和对译文追加到对译语料库中。
(11)在上述技术方案中,也可以为,在所述第7词句存在于所述第1数据库的情况下,判定包括所述N-gram的所述第2词句和所述第4词句而成的表层表现前词部分、或者包括所述第2词句和所述第5词句而成的表层表现后词部分是否存在于所述第2数据库,在所述表层表现前词部分或者所述表层表现后词部分存在于所述第2数据库、并且根据将所述第2词句排除在判定对象以外的所述N-gram的出现概率或者出现频度所算出的表层表现一方评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,在包括之前的词(第4词句)和替换部分(第2词句)而成的表层表现前词部分或者包括替换部分(第2词句)和之后的词(第5词句)而成的表层表现后词部分存在于第2数据库、并且根据将替换部分(第2词句)排除在判定对象以外的N-gram的出现概率或者出现频度所算出的表层表现一方评价值大于等于预定阈值的情况下,将成对的同义转换文(第3文)和对译文(第2文)追加到对译语料库中,因此,即使在第2数据库的数据量和/或精度不够的情况下,也能够基于包括之前的词和替换部分而成的表层表现前词部分或者包括替换部分和之后的词而成的表层表现后词部分,高效并且高精度地判断同义转换文是否良好,将成对的同义转换文和对译文追加到对译语料库中。
(12)在上述技术方案中,也可以为,所述表层表现前后评价值是对根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所求出的所述第1评价值乘以预定的第1权重而得到的值,所述表层表现一方评价值是对所述第1评价值乘以比所述第1权重小的第2权重而得到的值。
根据这种构成,能够基于包括替换部分和前后的词而成的表层表现前后部分、以及包括替换部分和之前的词而成的表层表现前词部分或者包括替换部分和之后的词而成的表层表现后词部分,更高精度地判断同义转换文是否良好。
(13)在上述技术方案中,也可以为,在所述表层表现前后部分不存在于所述第2数据库、所述表层表现前后评价值不大于等于预定阈值、所述表层表现前词部分或所述表层表现后词部分不存在于所述第2数据库、或者所述表层表现一方评价值不大于等于预定阈值的情况下,判定包括所述N-gram的所述第2词句、将所述第4词句替换成所述第4词句的词性而得到的前词性部分、和将所述第5词句替换成所述第5词句的词性而得到的后词性部分而成的词性表现前后部分是否存在于所述第2数据库,在所述词性表现前后部分存在于所述第2数据库、并且根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的词性表现前后评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,在包括前词性部分、替换部分(第2词句)和后词性部分而成的词性表现前后部分存在于第2数据库、并且根据将替换部分(第2词句)排除在判定对象之外的N-gram的出现概率或者出现频度所算出的词性表现前后评价值大于等于预定阈值的情况下,将成对的同义转换文(第3文)和对译文(第2文)追加到对译语料库中,因此,即使在第2数据库的数据量和/或精度不够的情况下,也能够基于包括前词性部分、替换部分和后词性部分而成的词性表现前后部分,高效并且高精度地判断同义转换文是否良好。
(14)在上述技术方案中,也可以为,在所述表层表现前后部分不存在于所述第2数据库、所述表层表现前后评价值不大于等于预定阈值、所述表层表现前词部分或所述表层表现后词部分不存在于所述第2数据库、或者所述表层表现一方评价值不大于等于预定阈值的情况下,判定包括所述N-gram的所述第2词句和将所述第4词句替换成所述第4词句的词性而得到的前词性部分而成的词性表现前词部分、或者包括所述第2词句和将所述第5词句替换成所述第5词句的词性而得到的后词性部分而成的词性表现后词部分是否存在于所述第2数据库,在所述词性表现前词部分或者所述词性表现后词部分存在于所述第2数据库、并且根据将所述替换部分排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的词性表现一方评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,在包括前词性部分和替换部分(第2词句)而成的词性表现前词部分或者包括替换部分(第2词句)和后词性部分而成的词性表现后词部分存在于第2数据库、并且根据将替换部分(第2词句)排除在判定对象之外的N-gram的出现概率或者出现频度所算出的词性表现一方评价值大于等于预定阈值的情况下,将成对的同义转换文(第3文)和对译文(第2文)追加到所述对译语料库中,因此,即使在第2数据库的数据量和/或精度不够的情况下,也能够基于包括前词性部分和替换部分而成的词性表现前词部分或者包括替换部分和后词性部分而成的词性表现后词部分,高效并且高精度地判断同义转换文是否良好。
(15)在上述技术方案中,也可以为,所述表层表现前后评价值是对根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所求出的所述第1评价值乘以预定的第1权重而得到的值,所述表层表现一方评价值是对所述第1评价值乘以比所述第1权重小的第2权重而得到的值,所述词性表现前后评价值是对所述第1评价值乘以比所述第2权重小的第3权重而得到的值,所述词性表现一方评价值是对所述第1评价值乘以比所述第3权重小的第4权重而得到的值。
根据这种构成,能够基于包括替换部分(第2词句)和前后的词而成的表层表现前后部分、包括之前的词和替换部分(第2词句)而成的表层表现前词部分或者包括替换部分(第2词句)和之后的词而成的表层表现后词部分、包括前词性部分、替换部分(第2词句)和后词性部分而成的词性表现前后部分、以及包括前词性部分和替换部分(第2词句)而成的词性表现前词部分或者包括替换部分(第2词句)和后词性部分而成的词性表现后词部分,更高精度地判断同义转换文是否良好。
(16)在上述技术方案中,也可以为,在所述词性表现前后部分不存在于所述第2数据库、所述词性表现前后评价值不大于等于预定阈值、所述词性表现前词部分或所述词性表现后词部分不存在于所述第2数据库、或者所述词性表现一方评价值不大于等于预定阈值的情况下,判定所述第2词句是否存在于所述第2数据库,在所述第2词句存在于所述第2数据库、并且根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的替换部分评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
根据这种构成,在替换部分(第2词句)存在于第2数据库、并且根据将替换部分(第2词句)排除在判定对象之外的N-gram的出现概率或者出现频度所算出的替换部分评价值大于等于预定阈值的情况下,将成对的同义转换文(第3文)和对译文(第2文)追加到对译语料库中,因此,即使在第2数据库的数据量和/或精度不够的情况下,也能够基于替换部分,高效并且高精度地判断同义转换文是否良好。
(17)在上述技术方案中,也可以为,所述表层表现前后评价值是对根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所求出的所述第1评价值乘以预定的第1权重而得到的值,所述表层表现一方评价值是对所述第1评价值乘以比所述第1权重小的第2权重而得到的值,所述词性表现前后评价值是对所述第1评价值乘以比所述第2权重小的第3权重而得到的值,所述词性表现一方评价值是对所述第1评价值乘以比所述第3权重小的第4权重而得到的值,所述替换部分评价值是对所述第1评价值乘以比所述第4权重小的第5权重而得到的值。
根据这种构成,能够基于包括替换部分(第2词句)和前后的词而成的表层表现前后部分、包括之前的词和替换部分(第2词句)而成的表层表现前词部分或者包括替换部分(第2词句)和之后的词而成的表层表现后词部分、包括前词性部分、替换部分(第2词句)和后词性部分而成的词性表现前后部分、包括前词性部分和替换部分(第2词句)而成的词性表现前词部分或者包括替换部分(第2词句)和后词性部分而成的词性表现后词部分、以及替换部分(第2词句),更高精度地判断同义转换文是否良好。
(18)在上述技术方案中,也可以为,所述第2数据库是与所述N-gram语言模型的数据库相比包括更多的口语表达的数据库。
根据这种构成,通过对在语法上破绽少的书面语表达的N-gram语言模型的数据库和在语法上有破绽但包括多样的表达的口语表达的第2数据库进行并用,能够高效并且高精度地识别根据原文制作出的同义转换文是否良好。
另外,本公开不仅能够作为执行如上所述的特征性处理的同义转换文识别方法而实现,而且也能够作为具备与由同义转换文识别方法所执行的特征性处理对应的特征性构成的同义转换文识别装置等而实现。另外,还能够作为计算机程序而实现,所述计算机程序使计算机执行这种同义转换文识别方法所包含的特征性的处理。因此,在以下的另一技术方案中,也能够实现与上述同义转换文识别方法同样的效果。
本公开的另一技术方案涉及的装置,是更新对译语料库的装置,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述装置具备:输入部,其输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;第1数据库判定部,其判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;算出部,其在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所述第3词句中的所述第2词句替换成第6词句而得到的第7词句,算出在所述第1数据库中的第1评价值,所述第6词句与所述第2词句不同;第2数据库判定部,其判定所述第3词句是否包含于第2数据库,并且判定基于所述第1评价值算出的第2评价值是否满足预定条件,所述第2数据库至少包括口语的文句中所使用的词句,将所述口语的文句中所使用的词句与所述口语的文句中所使用的词句的在所述第2数据库中的出现频度进行关联;以及输出部,其在判定为所述第3词句包含于所述第2数据库,并且所述第2评价值满足所述预定条件的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
本公开的另一技术方案涉及的程序,是用于使计算机作为更新对译语料库的装置而发挥功能的程序,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述程序使计算机执行如下处理:输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所述第3词句中的所述第2词句替换成第6词句而得到的第7词句,算出在所述第1数据库中的第1评价值,所述第6词句与所述第2词句不同;判定所述第3词句是否包含于第2数据库,并且判定基于所述第1评价值算出的第2评价值是否满足预定条件,所述第2数据库至少包括口语的文句中所使用的词句,将所述口语的文句中所使用的词句与所述口语的文句中所使用的词句的在所述第2数据库中的出现频度进行关联;在判定为所述第3词句包含于所述第2数据库,并且所述第2评价值满足所述预定条件的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
而且,毫无疑问也可以通过CD-ROM等计算机可读取的非瞬时性的记录介质或者互联网等通信网络来使如上所述的计算机程序流通。
另外,也可以作为使本公开的一个实施方式涉及的同义转换文识别装置的构成要素的一部分和除此以外的构成要素分散于多个计算机的***来构成。
此外,以下说明的实施方式均用于表示本公开的一个具体例。在以下的实施方式中表示的数值、形状、构成要素、步骤、步骤的顺序等仅为一例,并非旨在限定本公开。另外,对于以下的实施方式中的构成要素中的、没有记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。另外,在所有的实施方式中,也可以组合各自的内容。
(实施方式)
以下,参照附图,对本公开的一个实施方式进行说明。图1是表示具备本公开的一个实施方式中的同义转换文识别装置的同义转换文识别***的构成的一例的框图。图1所示的同义转换文识别***具备同义转换文制作装置1以及同义转换文识别装置2。
同义转换文制作装置1具备输入部11、同义转换部12以及同义转换DB(数据库)13。同义转换文制作装置1根据一个原文,将其一部分或者全部按照预先设定的预定规则进行同义转换,由此制作与原文类似的(同义的)一个或者多个同义转换文,将制作出的同义转换文输出给同义转换文识别装置2。
输入部11受理由用户进行的预定的操作输入,将用户输入的原文输出给同义转换部12。同义转换DB13是按照各种规则将第1片段(第1词句)与用其他表达表现第1片段而得到的第2片段(第2词句)相互关联,存储多个这些数据的数据库。例如,作为同义转换DB13,可以使用从互联网上的预定网页收集到的同义词或者近义词的、数据的质量没有那么好但数据的量多的数据库。
图2是表示图1所示的同义转换DB13的数据结构的一例的图。如图2所示,同义转换DB13中保持有同义转换前的词句和同义转换后的词句。例如,对“良い(好的)”这一同义转换前的词句,关联存储有“いい(好的)”(在日语中“いい”与“良い”同义不同形)这一同义转换后的词句。另外,例如使“今日”与“きょう”(中文意思为“今天”,在日语中,两个词同义不同形)关联;“良い”与“ええ”(中文意思为“好的”,在日语中,“ええ”是“良い”的方言表达)关联;“まっすぐです”与“まっすぐ行きます”(中文意思为“直走”,在日语中,“まっすぐです”是“まっすぐ行きます”的口语表达形式)关联;“めっちゃ”与“とても”(中文意思为“非常地”,在日语中,“めっちゃ”是“とても”的口语表达形式)关联;“すごく”与“とても”(中文意思为“非常地”,在日语中,两个词是同义词,“すごく”比“とても”偏口语化)关联。如此,同义转换DB13是第3数据库的一例,将词句与意思和该词句相同而表达不同的词句进行关联。
同义转换部12参照同义转换DB13,通过将按照预先设定的预定规则分割原文所形成的多个片段中的一个或者多个片段同义转换(替换)成其他表达,即、将原文的替换部分替换成类似意思的单词和/或短语,由此制作一个或者多个同义转换文,将制作出的同义转换文输出给同义转换文识别装置2。如此,通过将原文的替换部分(第1词句)替换成同义转换DB13(第3数据库)所包含的替换部分(第2词句)来生成同义转换文(第3文)。
此外,作为上述的同义转换文的制作方法,可以使用现有的各种同义转换文的制作方法,在本实施方式中,例如通过将原文按词性切分并分割,制作以词性为单位的多个词,将原文内的一个词性的词改写成其他表达的词,由此制作同义转换文。
同义转换文识别装置2具备通用N-gram判定部21、通用N-gramDB(数据库)22、口语表达N-gram判定部23、口语表达N-gramDB(数据库)24以及输出部25。同义转换文识别装置2对同义转换文制作装置1制作出的同义转换文是否良好进行识别,输出识别结果。另外,同义转换文识别装置2是更新对译语料库(省略图示)的装置。对译语料库包括多对用第1语言(例如日语)记述的文和用第2语言(例如英语)记述的对译文。即,对译语料库包括成对的用第1语言记述的原文(第1文)和用第2语言记述的对译文(第2文),第2文是对第1文的对译文。
通用N-gramDB22是规模大并且质量好的N-gram语言模型的通用数据库。在此,N-gram语言模型是以可能会是人使用的“语言符合程度”来作为概率进行建模得到的概率性语言模型。例如在有“今日の夕食はカレーです(今天的晚餐是咖喱饭)”这一文句S1和“今日の夕食は野球です(今天的晚餐是棒球)”这一文句S2的情况下,作为日文语句,可以说文句S1比文句S2更合适,从N-gram语言模型的通用数据库中取得的文句S1的出现概率会大于文句S2的出现概率。
图3是表示图1所示的通用N-gramDB22的数据结构的一例的图。如图3所示,在通用N-gramDB22中,保持有作为表达而被分着写的词和该词的出现频度。例如,对于“その服とても(那件衣服非常)”这一表达,意味着其在本数据库内出现了1000次,基于该出现频度,例如能够求取出现概率。
如此,通用N-gramDB22是第1数据库的一例,至少包括书面语的文句中所使用的词句,将书面语的文句中所使用的词句与书面语的文句中所使用的词句的在通用N-gramDB22中的出现频度进行关联。
通用N-gram判定部21被输入同义转换文制作装置1所制作出的同义转换文,从通用N-gramDB22取得同义转换文中的包括替换部分的短语的出现概率或者出现频度,判定同义转换文是否良好,将判定结果等输出给口语表达N-gram判定部23以及输出部25。通用N-gram判定部21具备第1判定部26以及第2判定部27。
第1判定部26判定同义转换文中的、包括根据原文替换出的替换部分、以及替换部分之前的部分和之后的部分中的至少一方的判定对象部分是否存在于通用N-gramDB22,基于判定结果来判定同义转换文是否良好,将判定结果输出给第2判定部27以及输出部25。
具体而言,第1判定部26使用包括替换部分的N个词的N-gram来作为判定对象部分,并且使用通用N-gramDB22,判定N-gram是否存在于通用N-gramDB22,在N-gram存在于通用N-gramDB22的情况下,将同义转换文判定为良好,并将判定结果输出给输出部25,在N-gram不存在于通用N-gramDB22的情况下,将判定结果输出给第2判定部27。
此外,第1判定部26的判定基准不特别限定于上述的例子,也可以为,根据通用N-gramDB22来求取上述的N-gram的出现概率或者出现频度,在根据N-gram的出现概率或者出现频度所算出的评价值大于等于预定阈值的情况下,将同义转换文判定为良好。
第2判定部27在第1判定部26没能将同义转换文判定为良好的情况下(N-gram不存在于通用N-gramDB22的情况下),判定将替换部分排除在判定对象之外的N-gram是否存在于通用N-gramDB22,在将替换部分排除在判定对象之外的N-gram不存在于通用N-gramDB22的情况下,将同义转换文判定为不良,并将判定结果输出给输出部25。另外,第2判定部27在未将替换部分作为判定对象的判定对象部分存在于通用N-gramDB22的情况下,从通用N-gramDB22取得未将替换部分作为判定对象的N-gram的出现概率或者出现频度,将根据未将替换部分作为判定对象的N-gram的出现概率或者出现频度所求出的判定对象外评价值输出给口语表达N-gram判定部23。
此外,第2判定部27的判定基准不特别限定于上述的例子,也可以为,在第1判定部26没能将同义转换文判定为良好的情况下,根据通用N-gramDB22来求取将替换部分排除在判定对象之外的N-gram的出现概率或者出现频度,在根据将替换部分排除在判定对象之外的N-gram的出现概率或者出现频度所算出的评价值比预定阈值低的情况下,将同义转换文判定为不良,或在评价值大于等于预定阈值的情况下,将同义转换文判定为良好。
口语表达N-gramDB24是基于“Twitter”(注册商标)、“Facebook”(注册商标)等的信息制作出的、包括许多口语表达和/或方言等的、质量未必能说好的N-gram语言模型的口语表达数据库。
图4是表示图1所示的口语表达N-gramDB24的数据结构的一例的图。如图4所示,在口语表达N-gramDB24中,保持有作为表达而被分着写的词和该词的出现频度。例如,对于“その服めっちゃ(那件衣服非常)”这一表达,意味着其在本数据库内出现了200次,基于该出现频度,例如能够求取出现概率。
如此,口语表达N-gramDB24是第2数据库的一例,基于SNS(社交网络服务)中所使用的词句来生成,至少包括口语的文句中所使用的词句,将口语的文句中所使用的词句与口语的文句中所使用的词句的在口语表达N-gramDB24中的出现频度进行关联。
口语表达N-gram判定部23针对包括替换部分的短语,从口语表达N-gramDB24取得信息,结合来自通用N-gram判定部21的信息,判定同义转换文是否良好,并将判定结果输出给输出部25。口语表达N-gram判定部23具备表层表现判定部28、词性表现判定部29以及替换部分判定部30。
表层表现判定部28在第2判定部27没能将同义转换文判定为不良的情况下,判定包括替换部分和N-gram的替换部分前后的词而成的表层表现前后部分是否存在于口语表达N-gramDB24,在表层表现前后部分存在于口语表达N-gramDB24、并且根据将替换部分排除在判定对象之外的N-gram的出现概率或者出现频度所算出的表层表现前后评价值大于等于预定阈值的情况下,将同义转换文判定为良好,并将判定结果输出给输出部25。
另外,表层表现判定部28在第2判定部27没能将同义转换文判定为不良的情况下,判定包括替换部分和N-gram的替换部分之前的词而成的表层表现前词部分、或者包括替换部分和N-gram的替换部分之后的词而成的表层表现后词部分是否存在于口语表达N-gramDB24,在表层表现前词部分或者表层表现后词部分存在于口语表达N-gramDB24、并且根据将替换部分排除在判定对象之外的N-gram的出现概率或者出现频度所算出的表层表现一方评价值大于等于预定阈值的情况下,将同义转换文判定为良好,并将判定结果输出给输出部25。
词性表现判定部29在表层表现判定部28没能将同义转换文判定为良好的情况下,判定包括替换部分、将N-gram的替换部分之前的词替换成该之前的词的词性而得到的前词性部分、和将N-gram的替换部分之后的词替换成该之后的词的词性而得到的后词性部分而成的词性表现前后部分是否存在于口语表达N-gramDB24,在词性表现前后部分存在于口语表达N-gramDB24、并且根据将替换部分排除在判定对象之外的N-gram的出现概率或者出现频度所算出的词性表现前后评价值大于等于预定阈值的情况下,将同义转换文判定为良好,并将判定结果输出给输出部25。
在此,在本实施方式中,作为词性,例如使用了动词、形容词、形容动词、名词、代词、副词、连体词、连词、感叹词、助动词、助词这11种,将替换部分之前的词及之后的词替换成上述的11种中的一种并进行判定。此外,词性的分类不特别限定于上述的例子,也可以省略代词,或进一步增加固有名词这一分类。
另外,词性表现判定部29在表层表现判定部28没能将同义转换文判定为良好的情况下,判定包括替换部分和将N-gram的替换部分之前的词替换成该之前的词的词性而得到的前词性部分而成的词性表现前词部分、或者包括替换部分和将N-gram的替换部分之后的词替换成该之后的词的词性而得到的后词性部分而成的词性表现后词部分是否存在于口语表达N-gramDB24,在词性表现前词部分或者词性表现后词部分存在于口语表达N-gramDB24、并且根据将替换部分排除在判定对象之外的N-gram的出现概率或者出现频度所算出的词性表现一方评价值大于等于预定阈值的情况下,将同义转换文判定为良好,并将判定结果输出给输出部25。
替换部分判定部30在词性表现判定部29没能将同义转换文判定为良好的情况下,判定替换部分是否存在于口语表达N-gramDB24,在替换部分存在于口语表达N-gramDB24、并且根据将替换部分排除在判定对象之外的N-gram的出现概率或者出现频度所算出的替换部分评价值大于等于预定阈值的情况下,将同义转换文判定为良好,或在替换部分评价值比所述阈值小的情况下,将同义转换文判定为不良,并将判定结果输出给输出部25。
输出部25将同义转换文是否良好、即是否作为同义转换文进行采用的判定结果输出到外部的设备等。例如也可以为,输出部25将被判定为良好的同义转换文输出给类似对译语料库,类似对译语料库采用同义转换文作为新的原本的语句(原文)。
此外,同义转换文识别装置2的构成不特别限定于如上所述那样按各功能由专用的硬件来构成的例子,也可以构成为,具备CPU(Central Processing Unit,中央处理单元)、ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)以及辅助存储装置等的一台或多台计算机或者服务器(信息处理装置)安装用于执行上述处理的同义转换文识别程序,作为同义转换文识别装置而发挥其功能。另外,通用N-gramDB22以及口语表达N-gramDB24不特别限定于设置在同义转换文识别装置2内部的例子,也可以为,对外部的服务器等设置通用N-gramDB22以及口语表达N-gramDB24,同义转换文识别装置2经由预定网络取得所需的信息。
接着,详细说明由如上所述构成的同义转换文识别装置2进行的同义转换文识别处理。由同义转换文识别装置2进行的同义转换文识别处理构成为包括由通用N-gram判定部21进行的通用N-gram判定处理、和由口语表达N-gram判定部23进行的口语表达N-gram判定处理。
图5是表示由图1所示的通用N-gram判定部21进行的通用N-gram判定处理的一例的流程图,图6是表示由图1所示的口语表达N-gram判定部23进行的口语表达N-gram判定处理的一例的流程图。此外,在以下处理中,使用出现概率算出了各种评价值,但不特别限定于本例,例如也可以使用出现频度。
首先,在步骤S101中,通用N-gram判定部21的第1判定部26从同义转换部12取得同义转换文,并从通用N-gramDB22取得包括替换部分的N-gram的出现概率。如此,在同义转换文识别装置2中,被输入构成原文(第1文)的多个词句中的第1词句被替换成替换部分(第2词句)而得到的同义转换文(第3文)。
例如,原文为“その服とても良いね(那件衣服非常好啊)”,原文的“とても”被同义转换为“めっちゃ”,“その服めっちゃ良いね”作为同义转换文而被输入,在将N-gram的N(正整数)设为3的3-gram的情况下,第1判定部26将“その服めっちゃ良いね”分割成“その”、“服”、“めっちゃ”、“良い”、“ね”,将“めっちゃ”作为替换部分,从通用N-gramDB22取得3-gram的出现概率。
在此,若用“W1”表示“その”、用“W2”表示“服”、用“W3”表示“めっちゃ”、用“W4”表示“良い”、用“W5”表示“ね”,则第1判定部26从通用N-gramDB22取得“W1 W2 W3”的出现概率R1、“W2 W3 W4”的出现概率R2、“W3 W4 W5”的出现概率R3来作为包括替换部分W3的3-gram的出现概率。
接着,在步骤S102中,第1判定部26根据包括替换部分的N-gram的出现概率,判定包括替换部分的N-gram是否存在于通用N-gramDB22。例如,第1判定部26在R1=0、R2=0、R3=0的情况下,判定为包括替换部分W3的3-gram不存在于通用N-gramDB22,将处理移至步骤S103,第1判定部26在R1、R2和R3中的至少一个为0以外的数值的情况下,判定为包括替换部分W3的3-gram存在于通用N-gramDB22,将处理移至步骤S107。
如此,在步骤S102中,判定成为判定对象部分的包括替换部分的N-gram(第3词句)是否包含于通用N-gramDB22(第1数据库)。包括替换部分的N-gram(第3词句)至少包括同义转换文(第3文)中的替换部分(第2词句)和替换部分(第2词句)的紧前面的第4词句、或者同义转换文(第3文)中的替换部分(第2词句)和替换部分(第2词句)的紧后面的第5词句。
此外,对包括替换部分的N-gram是否存在于通用N-gramDB22的判定基准不特别限定于上述的例子,例如,也可以为,将出现概率的平均值或者最大值与预定阈值进行比较,在平均值或者最大值大于等于预定阈值的情况下,判定为包括替换部分的N-gram存在于通用N-gramDB22。如此,也可以为,使用包括替换部分(第2词句)的N个词的N-gram来作为成为判定对象部分的包括替换部分的N-gram(第3词句),并且使用通用N-gramDB22来作为第1数据库,根据通用N-gramDB22来求取N-gram的出现概率或者出现频度,在根据N-gram的出现概率或者出现频度所算出的评价值大于等于预定阈值的情况下,将成对的同义转换文(第3文)和对译文(第2文)追加到所述对译语料库中。
在包括替换部分的N-gram存在于通用N-gramDB22的情况下(步骤S102:是),在步骤S107中,第1判定部26判定在通用N-gramDB22中的出现概率或者出现频度是否大于等于预定阈值。
当在通用N-gramDB22中的出现概率或者出现频度不大于等于预定阈值的情况下(步骤S107:否),在步骤S108中,第1判定部26将同义转换文判定为不良(非良好文)作为仅是通用N-gramDB22的判定结果,并输出给输出部25。接着,在步骤S109中,输出部25将被判定为不良(非良好文)的同义转换文废弃,并结束处理。
具体地举例进行说明。假设对译语料库为日语的“その服とても良いね”和英语的“That clothes are very good”。假设原文的“とても”被同义转换成“非常に(非常地)”(在日语中,“非常に”是“とても”的同义词),生成“その服非常に良いね”这一语句作为同义转换文。在判定其是否良好时,判定为不良(非良好文)的情况下,不会追加日语的“その服非常に良いね”和英语的“That clothes are very good”这一对译语料库,而将其废弃。
另一方面,当在通用N-gramDB22中的出现概率或者出现频度大于等于预定阈值的情况下(步骤S107:是),在步骤S110中,第1判定部26将同义转换文判定为良好(良好文)作为仅是通用N-gramDB22的判定结果,并输出给输出部25。接着,在步骤S111中,输出部25使被判定为良好(良好文)的同义转换文和成对的对译文(在生成日语的同义转换文的情况下为英语的对译文)成为一组,作为新的对译语料库进行追加,并结束处理。
具体地举例进行说明。假设对译语料库为日语的“その服とても良いね”和英语的“That clothes are very good”。假设原文的“とても”被同义转换成“非常に”,生成“その服非常に良いね”这一语句作为同义转换文。在判定其是否良好时,判定为良好(良好文)的情况下,将日语的“その服非常に良いね”和英语的“That clothes are very good”作为新的对译语料库进行追加。
此外,在上述例子中,第1判定部26通过在通用N-gramDB22中的出现概率等的阈值判定,判定了同义转换文是否良好,但不特别限定于本例,第1判定部26也可以将同义转换文判定为良好来作为仅是通用N-gramDB22的判定结果,并将其追加到对译语料库中。另外,本实施方式将判定为良好的结果或者判定为不良的结果作为判定结果进行了输出,但不特别限定于本例,也可以通过用数值输出判定结果来判定同义转换文是否良好。
另一方面,在包括替换部分的N-gram不存在于通用N-gramDB22的情况下(步骤S102:否),在步骤S103中,第2判定部27从通用N-gramDB22取得将替换部分设为通配符(任意文字)的N-gram的出现概率。例如,若用“*”表示通配符,则从通用N-gramDB22取得“W1W2*”的出现概率Q1、“W2*W4”的出现概率Q2、“*W4 W5”的出现概率Q3。
接着,在步骤S104中,第2判定部27根据将替换部分设为通配符的N-gram的出现概率,判定将替换部分设为通配符的N-gram是否存在于通用N-gramDB22。例如,第2判定部27在Q1=0、Q2=0、Q3=0的情况下,判定为将替换部分W3设为通配符的3-gram不存在于通用N-gramDB22,将处理移至步骤S106,在Q1、Q2和Q3中的至少一个为0以外的数值的情况下,判定为将替换部分W3设为通配符的3-gram存在于通用N-gramDB22,将处理移至步骤S105。
此外,对将替换部分设为通配符的N-gram是否存在于通用N-gramDB22的判定基准不特别限定于上述的例子,例如,也可以为,将出现概率的平均值或者最大值与预定阈值进行比较,在平均值或者最大值大于等于预定阈值的情况下,判定为将替换部分设为通配符的N-gram存在于通用N-gramDB22。
在将替换部分设为通配符的N-gram不存在于通用N-gramDB22的情况下(步骤S104:否),在步骤S106中,第2判定部27将同义转换文判定为不良(非良好文)作为仅是通用N-gramDB22的判定结果,并输出给输出部25。接着,在步骤S109中,输出部25将被判定为不良(非良好文)的同义转换文废弃,并结束处理。
如此,在判定为包括替换部分的N-gram(第3词句)不包含于通用N-gramDB22(第1数据库)的情况下,将不将替换部分作为判定对象的判定对象部分(第7词句)中的通配符(第6词句)排除在判定对象之外,判定不将替换部分作为判定对象的判定对象部分(第7词句)是否存在于通用N-gramDB22(第1数据库),在不将替换部分作为判定对象的判定对象部分(第7词句)不存在于通用N-gramDB22(第1数据库)的情况下,不将同义转换文(第3文)追加到对译语料库中。
另一方面,在将替换部分设为通配符的N-gram存在于通用N-gramDB22的情况下(步骤S104:是),在步骤S105中,第2判定部27从通用N-gramDB22取得将替换部分设为通配符的N-gram的出现概率,根据将替换部分排除在判定对象之外的N-gram的出现概率或者出现频度来算出通配符出现概率Q,作为通用N-gram的值(判定对象外评价值)。第2判定部27将通配符出现概率Q输出给口语表达N-gram判定部23,并将处理移至图6所示的步骤S201。
例如,第2判定部27求取将替换部分设为通配符的N-gram的出现概率的平均值或者最大值(例如,出现概率Q1~Q3的平均值或者最大值),将求出的平均值或者最大值作为通配符出现概率Q。在上述的3-gram的例子中,在“その服*”的出现概率为0.05、“服*良い”的出现概率为0.12、“*良いね”的出现概率为0.45的情况下,第2判定部27算出这些出现概率的平均值来作为通配符出现概率Q。此外,通配符出现概率Q不特别限定于上述的平均值或者最大值,也可以是中值等其他的值。
如此,对将包括替换部分的N-gram(第3词句)中的替换部分(第2词句)替换成通配符(第6词句)后的、将替换部分排除在判定对象之外的判定对象部分(第7词句),算出通用N-gramDB22(第1数据库)中的通配符出现概率Q(第1评价值),通配符(第6词句)不同于替换部分(第2词句)。
接着,参照图6,在步骤S201中,口语表达N-gram判定部23的表层表现判定部28从第2判定部27取得通配符出现概率Q,判定根据替换部分两侧的表层表现的口语表达N-gram是否存在于口语表达N-gramDB24,并且对通配符出现概率Q赋予了预定权重后的表层表现前后评价值是否大于等于预定阈值。
具体而言,表层表现判定部28确认作为根据替换部分附近两侧的表层表现的口语表达N-gram,包括替换部分和替换部分前后的词而成的表层表现前后部分是否存在于口语表达N-gramDB24,在表层表现前后部分存在于口语表达N-gramDB24的情况下,求取对通配符出现概率Q乘以权重v1而得到的表层表现前后评价值,判定表层表现前后评价值是否大于等于阈值t1。
例如,在替换部分为“W3”的情况下,表层表现判定部28确认短语“W2 W3 W4”(替换部分的两侧)是否存在于口语表达N-gramDB24,在“W2 W3 W4”存在于口语表达N-gramDB24的情况下,确认对通配符出现概率Q(例如0.26)乘以权重v1(例如0.9)而得到的表层表现前后评价值是否大于等于阈值t1(例如0.15)。在该情况下,表层表现前后评价值成为0.234,因此表层表现判定部28判定为其大于等于阈值t1。
在根据替换部分附近两侧的表层表现的口语表达N-gram存在于口语表达N-gramDB24、并且对通配符出现概率Q赋予了预定权重后的表层表现前后评价值大于等于预定阈值的情况下(步骤S201:是),在步骤S208中,表层表现判定部28将同义转换文判定为良好(良好文)并输出给输出部25。接着,在步骤S209中,输出部25使被判定为良好(良好文)的同义转换文和成对的对译文(在生成日语的同义转换文的情况下为英语的对译文)成为一组,作为新的对译语料库进行追加,并结束处理。
具体地举例进行说明。假设对译语料库为日语的“その服とても良いね”和英语的“That clothes are very good”。假设原文的“とても”被同义转换成“非常に”,生成“その服非常に良いね”这一语句作为同义转换文。在判定其是否良好时,判定为良好(良好文)的情况下,将日语的“その服非常に良いね”和英语的“That clothes are very good”作为新的对译语料库进行追加。
另一方面,在根据替换部分附近两侧的表层表现的口语表达N-gram不存在于口语表达N-gramDB24、或者对通配符出现概率Q赋予了预定权重后的表层表现前后评价值不大于等于预定阈值的情况下(步骤S201:否),表层表现判定部28将处理移至步骤S202。
接着,在步骤S202中,表层表现判定部28判定根据替换部分附近单侧的表层表现的口语表达N-gram是否存在于口语表达N-gramDB24,并且对通配符出现概率Q赋予了预定权重后的表层表现一方评价值是否大于等于预定阈值。
具体而言,表层表现判定部28确认作为根据替换部分附近单侧的表层表现的口语表达N-gram,包括替换部分和替换部分之前的词而成的表层表现前部分、或者包括替换部分和替换部分之后的词而成的表层表现后部分是否存在于口语表达N-gramDB24,在表层表现前部分或者表层表现后部分存在于口语表达N-gramDB24的情况下,求取对通配符出现概率Q乘以权重v2而得到的表层表现一方评价值,判定表层表现一方评价值是否大于等于阈值t1。在此,优选为权重v2小于权重v1。
例如,在替换部分为“W3”的情况下,表层表现判定部28确认短语“W2 W3”或者“W3W4”(替换部分的单侧)是否存在于口语表达N-gramDB24,在“W2 W3”或者“W3 W4”存在于口语表达N-gramDB24的情况下,确认对通配符出现概率Q(例如0.26)乘以权重v2(例如0.8)而得到的表层表现一方评价值是否大于等于阈值t1(例如0.15)。在该情况下,表层表现一方评价值成为0.208,因此表层表现判定部28判定为其大于等于阈值t1。
在根据替换部分附近单侧的表层表现的口语表达N-gram存在于口语表达N-gramDB24、并且对通配符出现概率Q赋予了预定权重后的表层表现一方评价值大于等于预定阈值的情况下(步骤S202:是),在步骤S208中,表层表现判定部28将同义转换文判定为良好(良好文)并输出给输出部25。接着,在步骤S209中,输出部25使被判定为良好(良好文)的同义转换文和成对的对译文(在生成日语的同义转换文的情况下为英语的对译文)成为一组,作为新的对译语料库进行追加,并结束处理。
如上所述,对判定对象部分(第3词句)是否包含于口语表达N-gramDB24(第2数据库)进行判定,并且判定基于通配符出现概率Q(第1评价值)算出的表层表现前后评价值或者表层表现一方评价值(第2评价值)是否满足预定条件。在判定为判定对象部分(第3词句)包含于口语表达N-gramDB24(第2数据库)、并且表层表现前后评价值或者表层表现一方评价值(第2评价值)满足预定条件的情况下,将成对的同义转换文(第3文)和对译文(第2文)追加到对译语料库中。
另一方面,在根据替换部分附近单侧的表层表现的口语表达N-gram不存在于口语表达N-gramDB24、或者对通配符出现概率Q赋予了预定权重后的表层表现一方评价值不大于等于预定阈值的情况下(步骤S202:否),表层表现判定部28将处理移至步骤S203。
接着,在步骤S203中,口语表达N-gram判定部23的词性表现判定部29从第2判定部27取得通配符出现概率Q,判定根据替换部分两侧的词性表现的口语表达N-gram是否存在于口语表达N-gramDB24,并且对通配符出现概率Q赋予了预定权重后的词性表现前后评价值是否大于等于预定阈值。
具体而言,词性表现判定部29确认作为根据替换部分附近两侧的词性表现的口语表达N-gram,包括替换部分、将替换部分之前的词替换成词性而得到的前词性部分、和将替换部分之后的词替换成词性而得到的后词性部分而成的词性表现前后部分是否存在于口语表达N-gramDB24,在词性表现前后部分存在于口语表达N-gramDB24的情况下,求取对通配符出现概率Q乘以权重v3而得到的词性表现前后评价值,判定词性表现前后评价值是否大于等于阈值t1。在此,优选为权重v3小于权重v2。
例如,在用“P1”表示“W1”的词性、用“P2”表示“W2”的词性、用“P3”表示“W3”的词性、用“P4”表示“W4”的词性、用“P5”表示“W5”的词性、替换部分为“W3”的情况下,词性表现判定部29确认短语“P2 W3 P4”(替换部分的两侧)是否存在于口语表达N-gramDB24,在“P2W3 P4”存在于口语表达N-gramDB24的情况下,确认对通配符出现概率Q(例如0.26)乘以权重v3(例如0.7)而得到的词性表现前后评价值是否大于等于阈值t1(例如0.15)。在该情况下,词性表现前后评价值成为0.182,因此词性表现判定部29判定为其大于等于阈值t1。
在根据替换部分附近两侧的词性表现的口语表达N-gram存在于口语表达N-gramDB24、并且对通配符出现概率Q赋予了预定权重后的词性表现前后评价值大于等于预定阈值的情况下(步骤S203:是),在步骤S208中,词性表现判定部29将同义转换文判定为良好(良好文)并输出给输出部25。接着,在步骤S209中,输出部25使被判定为良好(良好文)的同义转换文和成对的对译文(在生成日语的同义转换文的情况下为英语的对译文)成为一组,作为新的对译语料库进行追加,并结束处理。
另一方面,在根据替换部分附近两侧的词性表现的口语表达N-gram不存在于口语表达N-gramDB24、或者对通配符出现概率Q赋予了预定权重后的词性表现前后评价值不大于等于预定阈值的情况下(步骤S203:否),词性表现判定部29将处理移至步骤S204。
接着,在步骤S204中,词性表现判定部29判定根据替换部分附近单侧的词性表现的口语表达N-gram是否存在于口语表达N-gramDB24,并且对通配符出现概率Q赋予了预定权重后的词性表现一方评价值是否大于等于预定阈值。
具体而言,词性表现判定部29确认作为根据替换部分附近单侧的词性表现的口语表达N-gram,包括替换部分和将替换部分之前的词替换成词性而得到的前词性部分而成的词性表现前部分、或者包括替换部分和将替换部分之后的词替换成词性而得到的后词性部分而成的词性表现后部分是否存在于口语表达N-gramDB24,在词性表现前部分或者词性表现后部分存在于口语表达N-gramDB24的情况下,求取对通配符出现概率Q乘以权重v4而得到的词性表现一方评价值,判定词性表现一方评价值是否大于等于阈值t1。在此,优选为权重v4小于权重v3。
例如,在替换部分为“W3”、替换部分之前的词性为“P2”、替换部分之后的词性为“P4”的情况下,词性表现判定部29确认短语“P2 W3”或者“W3 P4”(替换部分的单侧)是否存在于口语表达N-gramDB24,在“P2 W3”或者“W3 P4”存在于口语表达N-gramDB24的情况下,确认对通配符出现概率Q(例如0.26)乘以权重v4(例如0.6)而得到的词性表现一方评价值是否大于等于阈值t1(例如0.15),在该情况下,词性表现一方评价值成为0.156,因此词性表现判定部29判定为其大于等于阈值t1。
在根据替换部分附近单侧的词性表现的口语表达N-gram存在于口语表达N-gramDB24、并且对通配符出现概率Q赋予了预定权重后的词性表现一方评价值大于等于预定阈值的情况下(步骤S204:是),在步骤S208中,词性表现判定部29将同义转换文判定为良好(良好文)并输出给输出部25。接着,在步骤S209中,输出部25使被判定为良好(良好文)的同义转换文和成对的对译文(在生成日语的同义转换文的情况下为英语的对译文)成为一组,作为新的对译语料库进行追加,并结束处理。
另一方面,在根据替换部分附近单侧的词性表现的口语表达N-gram不存在于口语表达N-gramDB24、或者对通配符出现概率Q赋予了预定权重后的词性表现一方评价值不大于等于预定阈值的情况下(步骤S204:否),词性表现判定部29将处理移至步骤S205。
接着,在步骤S205中,口语表达N-gram判定部23的替换部分判定部30从第2判定部27取得通配符出现概率Q,判定替换部分其本身是否存在于口语表达N-gramDB24,并且对通配符出现概率Q赋予了预定权重后的替换部分评价值是否大于等于预定阈值。
具体而言,替换部分判定部30确认替换部分是否存在于口语表达N-gramDB24,在替换部分存在于口语表达N-gramDB24的情况下,求取对通配符出现概率Q乘以权重v5而得到的替换部分评价值,判定替换部分评价值是否大于等于阈值t1。
例如,在替换部分为“W3”的情况下,替换部分判定部30确认“W3”是否存在于口语表达N-gramDB24,在“W3”存在于口语表达N-gramDB24的情况下,确认对通配符出现概率Q(例如0.26)乘以权重v5(例如0.5)而得到的替换部分评价值是否大于等于阈值t1(例如0.15),在该情况下,替换部分评价值成为0.13,因此替换部分判定部30判定为其不大于等于阈值t1。
在此,优选为权重v5小于权重v4。因此,优选为权重v1>权重v2>权重v3>权重v4>权重v5。此外,权重的大小关系不特别限定于上述的例子,也可以使用其他大小关系。另外,各评价值不特别限定于上述的加权,可以进行各种变更,例如,可以作为出现频度和/或出现概率等来求取,另外也可以将它们与通用N-gram的值(例如通配符出现概率Q)一并进行判断。另外,将各评价值与阈值t1比较而进行了判定,但各评价值的判定基准不特别限定于本例,可以进行各种变更,例如,也可以对每个评价值使用不同的阈值。
在替换部分存在于口语表达N-gramDB24、并且对通配符出现概率Q赋予了预定权重后的替换部分评价值大于等于预定阈值的情况下(步骤S205:是),在步骤S208中,替换部分判定部30将同义转换文判定为良好(良好文)并输出给输出部25。接着,在步骤S209中,输出部25使被判定为良好(良好文)的同义转换文和成对的对译文(在生成日语的同义转换文的情况下为英语的对译文)成为一组,作为新的对译语料库进行追加,并结束处理。
另一方面,在替换部分不存在于口语表达N-gramDB24、或者对通配符出现概率Q赋予了预定权重后的替换部分评价值不大于等于预定阈值的情况下(步骤S205:否),在步骤S206中,替换部分判定部30将同义转换文判定为不良(非良好文)并输出给输出部25。接着,在步骤S207中,输出部25将被判定为不良(非良好文)的同义转换文废弃,并结束处理。
具体地举例进行说明。假设对译语料库为日语的“その服とても良いね”和英语的“That clothes are very good”。假设原文的“とても”被同义转换成“非常に”,生成“その服非常に良いね”这一语句作为同义转换文。在判定其是否良好时,判定为不良(非良好文)的情况下,不会追加日语的“その服非常に良いね”和英语的“That clothes are verygood”这一对译语料库,而将其废弃。
根据上述处理,在本实施方式中,通过高效地对规模大并且质量好的通用N-gramDB22、和数据的质量得不到保证但包括口语表达和/或方言等的口语表达N-gramDB24双方的好的部分进行参照,能够混合地评价同义转换文是否良好,因此,能够高效并且高精度地识别根据原文制作出的同义转换文是否良好。
此外,在本实施方式中,作为数据库,使用了通用N-gramDB22以及口语表达N-gramDB24,但数据库不特别限定于本例,可以使用各种数据库,另外,也可以仅使用一个数据库(例如通用N-gramDB22),或使用三种以上的数据库。

Claims (21)

1.一种方法,是更新对译语料库的方法,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述方法包括:
输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;
判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;
在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所述第3词句中的所述第2词句替换成第6词句而得到的第7词句,算出在所述第1数据库中的第1评价值,所述第6词句与所述第2词句不同;
判定所述第3词句是否包含于第2数据库,并且判定基于所述第1评价值算出的第2评价值是否满足预定条件,所述第2数据库至少包括口语的文句中所使用的词句,将所述口语的文句中所使用的词句与所述口语的文句中所使用的词句的在所述第2数据库中的出现频度进行关联;
在判定为所述第3词句包含于所述第2数据库,并且所述第2评价值满足所述预定条件的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
2.根据权利要求1所述的方法,
所述第3文通过将所述第1词句替换成第3数据库所包含的所述第2词句来生成,所述第3数据库将词句与和所述词句意思相同、表达不同的词句进行关联。
3.根据权利要求1所述的方法,
所述第2数据库基于社交网络服务中所使用的词句来生成。
4.根据权利要求1所述的方法,
在判定为所述第3词句包含于所述第1数据库的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
5.根据权利要求1所述的方法,
在判定为所述第3词句不包含于所述第1数据库的情况下,将所述第7词句中的所述第6词句排除在判定对象之外,判定所述第7词句是否存在于所述第1数据库,在所述第7词句不存在于所述第1数据库的情况下,不将所述第3文追加到所述对译语料库中。
6.根据权利要求5所述的方法,
使用包括所述第2词句的N个词的N-gram来作为所述第3词句,并且使用N-gram语言模型的数据库来作为所述第1数据库,判定所述N-gram是否存在于所述N-gram语言模型的数据库,在所述N-gram存在于所述N-gram语言模型的数据库的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
7.根据权利要求5所述的方法,
使用包括所述第2词句的N个词的N-gram来作为所述第3词句,并且使用N-gram语言模型的数据库作为所述第1数据库,根据所述N-gram语言模型的数据库来求取所述N-gram的出现概率或者出现频度,在根据所述N-gram的出现概率或者出现频度所算出的第3评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
8.根据权利要求6或7所述的方法,
在判定为所述第3词句不包含于所述第1数据库的情况下,判定将所述第2词句排除在判定对象之外的所述N-gram是否存在于所述N-gram语言模型的数据库,在将所述第2词句排除在判定对象之外的所述N-gram不存在于所述N-gram语言模型的数据库的情况下,不将所述第3文追加到所述对译语料库中。
9.根据权利要求6或7所述的方法,
在判定为所述第3词句不包含于所述第1数据库的情况下,根据所述N-gram语言模型的数据库来求取将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度,在根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的第4评价值比预定阈值低的情况下,不将所述第3文追加到所述对译语料库中。
10.根据权利要求6或7所述的方法,
在所述第7词句存在于所述第1数据库的情况下,判定包括所述N-gram的所述第2词句、所述第4词句和所述第5词句而成的表层表现前后部分是否存在于所述第2数据库,在所述表层表现前后部分存在于所述第2数据库、并且根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的表层表现前后评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
11.根据权利要求10所述的方法,
在所述第7词句存在于所述第1数据库的情况下,判定包括所述N-gram的所述第2词句和所述第4词句而成的表层表现前词部分、或者包括所述第2词句和所述第5词句而成的表层表现后词部分是否存在于所述第2数据库,在所述表层表现前词部分或者所述表层表现后词部分存在于所述第2数据库、并且根据将所述第2词句排除在判定对象以外的所述N-gram的出现概率或者出现频度所算出的表层表现一方评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
12.根据权利要求11所述的方法,
所述表层表现前后评价值是对根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所求出的所述第1评价值乘以预定的第1权重而得到的值,
所述表层表现一方评价值是对所述第1评价值乘以比所述第1权重小的第2权重而得到的值。
13.根据权利要求11所述的方法,
在所述表层表现前后部分不存在于所述第2数据库、所述表层表现前后评价值不大于等于预定阈值、所述表层表现前词部分或所述表层表现后词部分不存在于所述第2数据库、或者所述表层表现一方评价值不大于等于预定阈值的情况下,判定包括所述N-gram的所述第2词句、将所述第4词句替换成所述第4词句的词性而得到的前词性部分、和将所述第5词句替换成所述第5词句的词性而得到的后词性部分而成的词性表现前后部分是否存在于所述第2数据库,在所述词性表现前后部分存在于所述第2数据库、并且根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的词性表现前后评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
14.根据权利要求13所述的方法,
在所述表层表现前后部分不存在于所述第2数据库、所述表层表现前后评价值不大于等于预定阈值、所述表层表现前词部分或所述表层表现后词部分不存在于所述第2数据库、或者所述表层表现一方评价值不大于等于预定阈值的情况下,判定包括所述N-gram的所述第2词句和将所述第4词句替换成所述第4词句的词性而得到的前词性部分而成的词性表现前词部分、或者包括所述第2词句和将所述第5词句替换成所述第5词句的词性而得到的后词性部分而成的词性表现后词部分是否存在于所述第2数据库,在所述词性表现前词部分或者所述词性表现后词部分存在于所述第2数据库、并且根据将所述替换部分排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的词性表现一方评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
15.根据权利要求14所述的方法,
所述表层表现前后评价值是对根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所求出的所述第1评价值乘以预定的第1权重而得到的值,
所述表层表现一方评价值是对所述第1评价值乘以比所述第1权重小的第2权重而得到的值,
所述词性表现前后评价值是对所述第1评价值乘以比所述第2权重小的第3权重而得到的值,
所述词性表现一方评价值是对所述第1评价值乘以比所述第3权重小的第4权重而得到的值。
16.根据权利要求14所述的方法,
在所述词性表现前后部分不存在于所述第2数据库、所述词性表现前后评价值不大于等于预定阈值、所述词性表现前词部分或所述词性表现后词部分不存在于所述第2数据库、或者所述词性表现一方评价值不大于等于预定阈值的情况下,判定所述第2词句是否存在于所述第2数据库,在所述第2词句存在于所述第2数据库、并且根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的替换部分评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
17.根据权利要求16所述的方法,
所述表层表现前后评价值是对根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所求出的所述第1评价值乘以预定的第1权重而得到的值,
所述表层表现一方评价值是对所述第1评价值乘以比所述第1权重小的第2权重而得到的值,
所述词性表现前后评价值是对所述第1评价值乘以比所述第2权重小的第3权重而得到的值,
所述词性表现一方评价值是对所述第1评价值乘以比所述第3权重小的第4权重而得到的值,
所述替换部分评价值是对所述第1评价值乘以比所述第4权重小的第5权重而得到的值。
18.根据权利要求10所述的方法,
所述第2数据库是与所述N-gram语言模型的数据库相比包括更多的口语表达的数据库。
19.根据权利要求11至17中任一项所述的方法,
所述第2数据库是与所述N-gram语言模型的数据库相比包括更多的口语表达的数据库。
20.一种装置,是更新对译语料库的装置,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述装置具备:
输入部,其输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;
第1数据库判定部,其判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;
算出部,其在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所述第3词句中的所述第2词句替换成第6词句而得到的第7词句,算出在所述第1数据库中的第1评价值,所述第6词句与所述第2词句不同;
第2数据库判定部,其判定所述第3词句是否包含于第2数据库,并且判定基于所述第1评价值算出的第2评价值是否满足预定条件,所述第2数据库至少包括口语的文句中所使用的词句,将所述口语的文句中所使用的词句与所述口语的文句中所使用的词句的在所述第2数据库中的出现频度进行关联;以及
输出部,其在判定为所述第3词句包含于所述第2数据库,并且所述第2评价值满足所述预定条件的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
21.一种计算机可读的记录介质,其存储有用于使计算机作为更新对译语料库的装置而发挥功能的程序,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述程序使计算机执行如下处理:
输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;
判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;
在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所述第3词句中的所述第2词句替换成第6词句而得到的第7词句,算出在所述第1数据库中的第1评价值,所述第6词句与所述第2词句不同;
判定所述第3词句是否包含于第2数据库,并且判定基于所述第1评价值算出的第2评价值是否满足预定条件,所述第2数据库至少包括口语的文句中所使用的词句,将所述口语的文句中所使用的词句与所述口语的文句中所使用的词句的在所述第2数据库中的出现频度进行关联;
在判定为所述第3词句包含于所述第2数据库,并且所述第2评价值满足所述预定条件的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。
CN201710650696.6A 2016-09-21 2017-08-02 对译语料库的更新方法、更新装置以及记录介质 Active CN107861937B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2016183908 2016-09-21
JP2016-183908 2016-09-21
JP2017097489A JP6830226B2 (ja) 2016-09-21 2017-05-16 換言文識別方法、換言文識別装置及び換言文識別プログラム
JP2017-097489 2017-05-16

Publications (2)

Publication Number Publication Date
CN107861937A CN107861937A (zh) 2018-03-30
CN107861937B true CN107861937B (zh) 2023-02-03

Family

ID=61621369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710650696.6A Active CN107861937B (zh) 2016-09-21 2017-08-02 对译语料库的更新方法、更新装置以及记录介质

Country Status (2)

Country Link
US (1) US10354646B2 (zh)
CN (1) CN107861937B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161730B (zh) * 2019-12-27 2022-10-04 中国联合网络通信集团有限公司 语音指令匹配方法、装置、设备及存储介质
CN112257414A (zh) * 2020-10-21 2021-01-22 网娱互动科技(北京)股份有限公司 一种计算机自动进行句式表达改写的方法
US11922129B2 (en) * 2021-06-22 2024-03-05 International Business Machines Corporation Causal knowledge identification and extraction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072594A (ja) * 2005-09-05 2007-03-22 Sharp Corp 翻訳装置、翻訳方法および翻訳プログラム、媒体
WO2008120360A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 多言語検索プログラム
CN101295298A (zh) * 2007-04-23 2008-10-29 株式会社船井电机新应用技术研究所 翻译***、翻译***的控制方法以及对译数据生成方法
JP2015087823A (ja) * 2013-10-28 2015-05-07 富士通株式会社 情報処理装置、訳語選択方法、および情報処理システム
JP2015191430A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4041876B2 (ja) 2001-09-05 2008-02-06 独立行政法人情報通信研究機構 複数尺度の利用による言語変換処理システムおよびその処理プログラム
US20050256715A1 (en) * 2002-10-08 2005-11-17 Yoshiyuki Okimoto Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method
US20060106604A1 (en) * 2002-11-11 2006-05-18 Yoshiyuki Okimoto Speech recognition dictionary creation device and speech recognition device
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
JP5126068B2 (ja) * 2006-12-22 2013-01-23 日本電気株式会社 文言い換え方法、プログラムおよびシステム
JP6004452B2 (ja) 2014-07-24 2016-10-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072594A (ja) * 2005-09-05 2007-03-22 Sharp Corp 翻訳装置、翻訳方法および翻訳プログラム、媒体
WO2008120360A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 多言語検索プログラム
CN101295298A (zh) * 2007-04-23 2008-10-29 株式会社船井电机新应用技术研究所 翻译***、翻译***的控制方法以及对译数据生成方法
JP2015087823A (ja) * 2013-10-28 2015-05-07 富士通株式会社 情報処理装置、訳語選択方法、および情報処理システム
JP2015191430A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于语料库的译文选择;刘小虎等;《情报学报》;19970624(第03期);第29-34页 *
跨语言相似文档检索;王洪俊等;《中文信息学报》;20070125(第01期);第32-39页 *
面向汉英机器翻译的双语语料库的建设及其管理;常宝宝等;《术语标准化与信息技术》;20030325(第01期);第29-32页 *

Also Published As

Publication number Publication date
US10354646B2 (en) 2019-07-16
US20180082681A1 (en) 2018-03-22
CN107861937A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
Saunders et al. Neural Machine Translation Doesn't Translate Gender Coreference Right Unless You Make It
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US7584093B2 (en) Method and system for generating spelling suggestions
US20080040095A1 (en) System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
US20170286408A1 (en) Sentence creation system
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN107861937B (zh) 对译语料库的更新方法、更新装置以及记录介质
Richter et al. Korektor–a system for contextual spell-checking and diacritics completion
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP6830226B2 (ja) 換言文識別方法、換言文識別装置及び換言文識別プログラム
CN105320650A (zh) 一种机器翻译方法及其***
Wu et al. Wiktionary normalization of translations and morphological information
Soumya et al. Development of a POS tagger for Malayalam-an experience
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
Garay-Vitoria et al. Modelling text prediction systems in low-and high-inflected languages
Sembok et al. A rule and template based stemming algorithm for Arabic language
Gupta et al. Quality Estimation of Machine Translation Outputs Through Stemming
KR100916645B1 (ko) 공기 정보, 주요 문법 요소 및 제목 정보를 이용한 문장요약 방법
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Kolajo et al. Sentiment analysis on Naija-tweets
JP3752535B2 (ja) 訳語選択装置、及び翻訳装置
Mosquera et al. TENOR: A lexical normalisation tool for spanish web 2.0 texts
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant