CN103140849A - 音译处理装置、程序、记录媒体及方法 - Google Patents

音译处理装置、程序、记录媒体及方法 Download PDF

Info

Publication number
CN103140849A
CN103140849A CN2012800031719A CN201280003171A CN103140849A CN 103140849 A CN103140849 A CN 103140849A CN 2012800031719 A CN2012800031719 A CN 2012800031719A CN 201280003171 A CN201280003171 A CN 201280003171A CN 103140849 A CN103140849 A CN 103140849A
Authority
CN
China
Prior art keywords
transliteration
character string
probability
spelling
former
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012800031719A
Other languages
English (en)
Other versions
CN103140849B (zh
Inventor
萩原正人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lotte Group Co.,Ltd.
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of CN103140849A publication Critical patent/CN103140849A/zh
Application granted granted Critical
Publication of CN103140849B publication Critical patent/CN103140849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Stored Programmes (AREA)

Abstract

本发明的音译处理装置(100)包括生成部(105),所述生成部(105)生成包含多个为音译而由原片段经覆写为音译片段的覆写概率且与彼此不同的K个语言相对应的覆写表、及与K个语言相对应的音译表。而且,音译处理装置(100)包括更新部(107),所述更新部(107)在将以与所使用的覆写表相对应的语言为起源的原拼写字符串音译为目标拼写字符串的音译概率保存在与该语言相对应的音译表后,以使算出K个音译表的似然度的似然函数的期待值最大化的方式,更新K个覆写表。

Description

音译处理装置、程序、记录媒体及方法
技术领域
本发明涉及一种音译处理装置、音译处理程序、记录有音译处理程序的计算机可读取的记录媒体及音译处理方法。
背景技术
以前,已知有如下方法:对将某种语言的字符串sn音译为其他语言的字符串tn的音译模式,根据由该某种语言的字符串sn表示的人名是以中文、日文及英文中的哪一个为起源来进行切换,并且使用经切换的模式来进行音译(例如,非专利文献1)。
而且,从以前开始便已知有一种αβ法,该αβ法根据将构成某种语言的字符串sn的字符串或字符(以下称为片段)α覆写为构成其他语言的字符串tn的片段β的覆写概率,算出将该某种语言的字符串sn音译为该其他语言的字符串tn的音译概率(例如,非专利文献2)。
[非专利文献1]Haizhou Li及其他3人编着、“个人姓名的语义音译(SemanticTransliteration of Personal Names)”、2007年6月、p.120-127
[非专利文献2]Eric Brill、及另1人编着、“噪声信道拼写修正的错误模型改良(Animproved error model for noisy channel spelling Correction)”、2000年、p.286-293
发明内容
[发明所欲解决的问题]
此处,在非专利文献1的方法中,当不明确由某种语言的字符串sn表示的人名以何种语言为起源时,无法切换音译模式。而且,在非专利文献2的方法中,当不明确某个字符串sn以何种语言为起源时,也无法算出音译概率。因此,在这些方法中,存在无法高精度地确定某种语言的字符串sn是否为其他语言的字符串tn的音译的问题。
本发明是鉴于所述问题而完成的,其目的在于提供一种即便在不明确成为音译对象的字符串以何种语言为起源的情形时,也可相比于以前而高精度地确定所音译的字符串是否为对该对象进行音译而成的音译处理装置、音译处理程序、记录有音译处理程序的计算机可读取的记录媒体、及音译处理方法。
[解决问题的技术手段]
为达成所述目的,本发明的第一态样的音译处理装置的特征在于包括:
生成部,其自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新部,其针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性(likelihood)的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
而且,在第一态样的音译处理装置中,也可为,
还包含将所述K个音译表的加权参数初始化的初始化部,所述K个音译表的加权参数分别表示以与所述K个音译表分别相对应的起源语言为起源的原拼写字符串在所述训练集合中所含的多个原拼写字符串中所占的比例;
所述更新部针对所述训练集合中所含的多个音译对的各者,根据所述K个音译表中所含的该音译概率的所述加权参数的加权平均,分别算出所述原拼写字符串的起源语言为与该音译表相对应的起源语言的起源概率后,以使进而使用该起源概率算出的所述似然函数的期待值最大化的方式,更新所述K个加权参数后,重复进行所述起源概率的算出及所述加权参数的更新。
而且,在第一态样的音译处理装置中,也可为,
所述生成部在生成1个所述覆写表后,使所述所生成的1个覆写表中所含的覆写概率针对所述K个语言中的每一语言而变化,由此生成与所述K个语言相对应的K个覆写表。
而且,在第一态样的音译处理装置中,也可为,
所述生成部在通过使用了1个所述覆写表的αβ法生成1个所述音译表后,使所述所生成的1个音译表中所含的音译概率变化,由此生成与所述K个语言相对应的K个音译表;
所述更新部利用EM(Expectation Maximization,期望最大)演算法更新所述K个音译表的各者中所含的音译概率。
而且,在第一态样的音译处理装置中,也可为,
所述更新部在借助于所述更新的所述似然函数的期待值的变化量未达特定大小之前重复进行所述更新。
而且,在第一态样的音译处理装置中,可还包含:
受理部,其受理包含所述任意起源语言的拼写的第一字符串、及包含所述特定目标语言的拼写的第二字符串;及
概率输出部,其求出通过使用所述K个音译表的各者而将所述所受理的第一字符串音译为所述所受理的第二字符串的音译概率,并输出该求出的音译概率。
而且,在第一态样的音译处理装置中,可还包含:
受理部,其受理包含所述任意起源语言的拼写的第一字符串;及
候选输出部,其求出通过使用所述K个音译表的各者而可音译所述所受理的第一字符串的所述特定目标语言的候选字符串、及将该第一字符串音译为该候选字符串的音译概率,并且按照该求出的音译概率由高到低的顺序输出该求出的候选字符串。
而且,在第一态样的音译处理装置中,也可为,
所述受理部受理不包含在所述训练集合中的第一字符串。
为达成所述目的,本发明的第二态样的音译处理程序的特征在于:
使计算机作为如下各部而发挥功能:
生成部,其自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新部,其针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
为达成所述目的,本发明的第三态样的计算机可读取的记录媒体记录有音译处理程序,该音译处理程序的特征在于:使计算机作为如下各部而发挥功能:
生成部,其自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新部,其针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
为达成所述目的,本发明的第四态样的音译处理方法的特征在于:其由包含生成部及更新部的音译处理装置所执行,且包括:
生成步骤,所述生成部自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新步骤,所述更新部针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
[发明的效果]
根据本发明的音译处理装置、音译处理程序、记录有音译处理程序的计算机可读取的记录媒体、及音译处理方法,即便在不明确成为音译对象的字符串以何种语言为起源的情形时,也可相比于以前而高精度地确定所音译的字符串是否为对该对象进行音译而成。
附图说明
图1是表示本发明的实施例的音译处理***的一构成例的***构成图。
图2A是表示终端装置所显示的输入画面的一例的图。
图2B是表示终端装置所显示的结果显示画面的一例的图。
图3是表示本发明的实施例的音译处理装置的一构成例的硬件构成图。
图4是表示本发明的实施例的音译处理装置所执行的训练集合生成处理的一例的流程图。
图5是表示本发明的实施例的音译处理装置所发挥的功能的一例的功能方块图。
图6A是表示基础音译表的一例的图。
图6B是表示第一音译表的一例的图。
图6C是表示第二音译表的一例的图。
图6D是表示第三音译表的一例的图。
图7是表示音译处理装置所执行的音译处理的一例的流程图。
图8A是表示基础覆写表的一例的图。
图8B是表示第一覆写表的一例的图。
图8C是表示第二覆写表的一例的图。
图8D是表示第三覆写表的一例的图。
图9是表示覆写次数表的一例的图。
图10是表示音译处理装置所执行的第一生成处理的一例的流程图。
图11是表示音译处理装置所执行的第二生成处理的一例的流程图。
图12A是用于说明通过执行依据EM演算法的处理而产生的音译概率的变化的图。
图12B是用于说明加权音译概率的变化的图。
图12C是用于说明覆写概率的变化的图。
图13A是表示本发明的实施例的变形例2的终端装置所显示的输入画面的一例的图。
图13B是表示变形例2的终端装置所显示的结果显示画面的一例的图。
图14是表示本发明的实施例的变形例2的音译处理装置所执行的音译处理的另一例的流程图。
图15是表示本发明的实施例的变形例2的音译处理装置所发挥的功能的一例的功能方块图。
图16是表示本发明的实施例的变形例3的音译处理***的一构成例的***构成图。
图17是表示检索引擎所回复的检索结果画面的一例的图。
图18是表示本发明的实施例的变形例3的音译处理装置所执行的音译处理的另一例的流程图。
[符号的说明]
10       通信网
100      音译处理装置
100a     CPU
100b     ROM
100c     RAM
100d     硬盘
100e     媒体控制器
100f     LAN卡
100g     视频卡
100h     LCD
100i     键盘
100j     扬声器
100k     鼠标
101      训练集合生成部
102      信息获取部
103      信息存储部
104      受理部
105      生成部
105a     第一生成部
105b     第二生成部
106      初始化部
107      更新部
107a     期待值算出部
107b     判定部
107c     最大化部
108      概率输出部
109      候选输出部
200      终端装置
301      日文DB服务器
302      外文DB服务器
400      检索引擎
具体实施方式
以下,参照附图对本发明的实施例进行说明。
图1的音译处理***1包含计算机通信网10(以下仅称为通信网10)、本发明的音译处理装置100、终端装置200、日文数据库服务器(以下称为日文DB(Date Base)服务器)301及外文数据库服务器(以下称为外文DB服务器)302。
通信网10例如包含互联网。通信网10可为LAN(Local Area Network,局域网)或公用网。
在对音译处理装置100进行说明之前,对终端装置200、日文DB服务器301及外文DB服务器302进行说明。
终端装置200包含个人计算机,所述个人计算机例如包含LCD(Liquid CrystalDisplay,液晶显示器)等显示部、键盘等输入部。终端装置200通过显示如图2A所示的输入画面FI1而进行提醒输入对输入的显示。该输入对是指包含任意起源语言的拼写的第一字符串、与包含特定目标语言的拼写的第二字符串的对,该第二字符串是被用户认为将该第一字符串音译为特定目标语言的字符串而成的字符串。
另外,所谓音译是指例如将“Barak Obama”翻译为“バラクオバマ”般,标记体系不同的语言间的音韵翻译。本实施例中,对特定目标语言为日文,任意起源语言例如只要为英文、法语、西班牙语、德语、波兰语、及俄语等标记中使用字母的语言则可为任何语言的情形进行说明,但并不限定于此。
而且,所谓第一字符串的起源语言是指规定该第一字符串的读法的语言。例如,列举第一字符串为“monget”,且该字符串构成文字商标的情形为例进行说明。如该商标的使用者将该文字商标用法语阅读时称为“Monge”,当依赖于附有该商标的商品的销售者或广告公司等的情形时,该第一字符串的起源语言为法语。而且,例如列举第一字符串为“Monet”,且该字符串表示法国人的姓名的情形为例进行说明。于此情形时,由于第一字符串“Monet”用法语阅读时读为“Mone”,因此该第一字符串的起源语言为法语。即,第一字符串的起源语言可为使用第一字符串者所规定的语言,也可为根据由第一字符串表示的内容而必然规定者。然而,起源语言并非指例如英文“etc”是以拉丁语“et cetera”为起源的成为某个字符串的语源的语言。
在显示图2A的输入画面FI1后,终端装置200将对应于用户的操作的各种信号输入至音译处理***1,根据所输入的信号生成输入对,将表示所生成的输入对的信息发送至音译处理装置100。其后,终端装置200接收自音译处理装置100回复的信息,根据所接收的信息,显示如图2B所示的结果显示画面FO1。其后,终端装置200将构成该输入对的第一字符串及第二字符串、以及该第二字符串为该第一字符串的音译的概率显示于结果显示画面FO1。
日文DB服务器301及外文DB服务器302例如具有如下数据库,该数据库对表示Wikipedia(注册商标)及DBpedia等允许不特定的用户编集的在线百科词典的解说页的信息进行管理。而且,日文DB服务器301及外文DB服务器302将由该数据库管理的信息公开于互联网上。另外,日文DB服务器301管理及公开表示日文解说页的信息,外文DB服务器302管理及公开表示外文解说页的信息。于日文DB服务器301所公开的日文解说页记载有对与该日文解说页相同的物或人进行解说的外文解说页(以下称为对应页)的URL(Uniform Resource Locator,统一资源***)。
音译处理装置100是安装有网络服务器软件的服务器。音译处理装置100从终端装置200接收表示输入对的信息,算出由所接收的信息表示的输入对彼此存在音译关系的概率,并将表示所算出的概率的信息回复至终端装置200。
如图3所示,音译处理装置100包含CPU(Central Processing Unit,中央处理器)100a、ROM(Read Only Memory,只读存储器)100b、RAM(Random Access Memory,随机存取存储器)100c、硬盘100d、媒体控制器100e、LAN卡(Local Area Network)100f、视频卡100g、LCD(Liquid Crystal Display)100h、键盘100i、扬声器100j、及鼠标100k。
CPU100a通过根据保存在ROM100b或硬盘100d的程序执行软件处理,来进行音译处理装置100的整体控制。RAM100c在由CPU100a执行程序时,暂时存储成为处理对象的数据。
硬盘100d是存储保存有各种数据的表格的信息存储部。另外,音译处理装置100也可包含闪存,以代替硬盘100d。
媒体控制器100e从包含闪存、CD(Compact Disc,光盘)、DVD(Digital Versatile Disc,数字多功能光盘)、及蓝光光盘(Blu-ray Disc)(注册商标)的记录媒体中读取各种数据及程序。
LAN卡100f与经由通信网10而连接的终端装置200、日文DB服务器301、及外文DB服务器302之间收发数据。键盘100i及鼠标100k输入对应于用户的操作的信号。LAN卡100f构成信息获取部、受理部、及概率输出部。
视频卡100g根据从CPU100a输出的数字信号描绘(即呈现)图像,并且输出表示所描绘的图像的图像信号。LCD100h根据从视频卡100g输出的图像信号来显示图像。另外,音译处理装置100也可包含PDP(Plasma Display Panel,等离子显示面板)或EL(Electroluminescence,电激发光)显示器,以代替LCD100h。扬声器100j根据从CPU100a输出的信号而输出音频。
音译处理装置100的CPU100a通过使用图3的硬件执行图4的训练集合生成处理,而作为如图5所示的训练集合生成部101发挥功能。而且,CPU100a与LAN卡100f协动而作为信息获取部102发挥功能。此外,CPU100a与硬盘100d协动而作为信息存储部103发挥功能。
在对图4的训练集合生成处理进行说明之前,对信息存储部103所存储的表格,即保存有用于执行训练集合生成处理的数据的表格进行说明。
信息存储部103存储有如图6A所示的基础音译表。图6A的基础音译表是用于由图6B至图6D所示的第一音译表生成第三音译表的表格。另外,关于第一音译表至第三音译表,于下文进行叙述。
在图6A的基础音译表中,将如下信息建立关联而加以保存,即,表示包含任意起源语言的拼写的原拼写字符串sn的信息,表示包含将该拼写字符串sn音译为特定目标语言的拼写的目标拼写字符串tn的信息,表示识别该原拼写字符串sn与该目标拼写字符串tn的对(以下称为音译对)的编号(以下称为音译对编号)n的信息,及表示将该原拼写字符串sn音译为该目标拼写字符串tn的音译概率Pαβ(sn|tn)的信息。
作为具体例,由音译对编号“1”识别的音译对是包含“flextime”的原拼写字符串与“フレツクスタイム”的目标拼写字符串。另外,将以由保存在图6A的基础音译表中的多个信息表示的音译对为要素的集合称为训练集合。
当图4的训练集合生成处理开始时,训练集合生成部101将训练集合设为空集合,通过将值“1”代入至表示追加至训练集合的音译对的数目(其与音译对编号一致)的变数n,而将该变数n初始化(步骤S01)。然后,图5的信息获取部102从日文DB服务器301获取表示构成日文的在线百科辞典的任意解说页的信息,即尚未获取的信息(步骤S02)。然后,训练集合生成部101从以所获取的信息表示的解说页获取记载于该解说页的解说项目的日文字符串(步骤S03)。
其后,训练集合生成部101根据该日文字符串是否仅由片假名构成来判定所获取的日文字符串是否为对其他语言(即外文)字符串进行音译而成者(步骤S04)。其原因在于,日文中仅用片假名来标记外来语。
在步骤S04中,当判定为所获取的日文字符串并非经音译而成者时(步骤S04为否(No)),训练集合生成部101返回至步骤S02重复进行所述处理。与此相对,当判定为所获取的日文字符串为经音译而成者时(步骤S04为是(Yes)),训练集合生成部101判定所获取的日文字符串是否为固有名词(步骤S05)。另外,步骤S05的判定方法例如可为判定所获取的日文字符串是否与由预先存储在信息存储部103的信息表示的固有名词一致的方法,也可为其他公知的方法。
在步骤S05中,如果判定为所获取的日文字符串并非固有名词(步骤S05为否),则训练集合生成部101从步骤S02起重复进行所述处理。其原因在于,通常在解说页的解说项目中记载有表示由该解说页解说的物的名称或人的姓名等固有名词的字符串,因此在从解说项目获取的字符串并非固有名词的情形时,未准确获取字符串的可能性较高。
在步骤S05中,如果判定为所获取的日文字符串为固有名词(步骤S05为是),则训练集合生成部101从步骤S02所获取的日文解说页中抽出与该日文解说页相对应的对应页(即,外文的在线百科辞典的对应页)的URL。然后,训练集合生成部101根据所抽出的URL从外文DB服务器302获取表示该页的信息(步骤S06)。
另外,日文解说页记载有对与该日文解说页相同的物或人进行解说的外文对应页的URL,对训练集合生成部101抽出预先记载于日文解说页的对应页的URL进行说明,但并不限定于此。例如,训练集合生成部101也可通过将日文解说页的URL中所含的子域(sub domain)即识别设置有日文DB服务器301的国家的子域由“jp”变更为“en”、“de”或“fr”等,而获取外文对应页的URL。
在步骤S06后,训练集合生成部101从由所获取的信息表示的解说页获取记载于该解说页的解说项目的外文字符串(步骤S07)。然后,训练集合生成部101从所获取的日文字符串及外文字符串中去除括弧及由该括弧括起来的字符串。其原因在于,例如山田××(滑稽演员)这样当存在多位相同姓名的名人时等,去除该姓名后附带括弧的说明内容等噪声(noise)。
其后,训练集合生成部101将步骤S03中所获取的日文字符串设为原拼写字符串sn,将步骤S07中所获取的外文字符串设为目标拼写字符串tn。然后,训练集合生成部101在将该原拼写字符串sn与该目标拼写字符串tn的对设为音译对后(步骤S08),将该音译对追加至训练集合(步骤S09)。其后,训练集合生成部101将表示该音译对的音译编号n的信息、表示构成该音译对的原拼写字符串sn的信息、及表示目标拼写字符串tn的信息建立关联而保存在图6A的基础音译表中(步骤S10)。
其后,训练集合生成部101在对表示音译编号的变数n的值仅增量值“1”后(步骤S11),判定变数n的值是否为特定值m以上(步骤S12)。另外,表示特定值m的信息存储在图5的信息存储部103。本实施例中,对将特定值m设为“11,000”进行说明,但并不限定于此,本领域技术人员可通过实验来规定较佳的值。
在步骤S12中,如果判定为变数n的值未达特定值m(步骤S12为否),则训练集合生成部101从步骤S02起重复进行所述处理。与此相对,如果判定为变数n的值为特定值m以上(步骤S12为是),则训练集合生成部101结束训练集合生成处理的执行。
音译处理装置100的CPU100a通过使用图3的硬件来执行图7的音译处理,进而作为如图5所示的具备第一生成部105a及第二生成部105b的生成部105、初始化部106、以及具备期待值算出部107a、判定部107b、及最大化部107c的更新部107来发挥功能。而且,CPU100a与LAN卡100f协动而进而作为概率输出部108发挥功能。
在对图7的音译处理进行说明之前,对信息存储部103所存储的表格、即保存有用于执行音译处理的信息的表格进行说明。
信息存储部103存储有如图8A所示的基础覆写表。图8A基础覆写表是用于由图8B至图8D的第一覆写表制成第三覆写表的表格。另外,关于第一覆写表至第三覆写表,于下文进行叙述。
在图8A的基础覆写表中,将如下信息建立关联而加以保存,即,表示由保存在图6A的基础音译表的信息表示的原拼写字符串sn的片段(以下称为原片段)α的信息,表示对该原拼写字符串进行音译所得的目标拼写字符串tn的片段、即与该原片段α相对应的片段(以下称为音译片段)β的信息,表示识别该原片段α与该音译片段β的对(以下称为片段对)的片段对编号j的信息,及表示为进行音译而将该原片段α覆写为该音译片段β的概率(以下称为覆写概率)。另外,原片段及音译片段均可为1个字符,也可为包含2个字符以上的字符串。
作为具体例,由片段对编号“1”识别的片段对包含“^f”的原片段α及“^フ”的音译片段β。而且,由片段对编号“5”识别的片段对包含“get$”的原片段α及“ジエ$”的音译片段β,由片段对编号“6”识别的片段对包含“get$”的原片段α及“ゲツト$”的音译片段β。这样,相对于相同的原片段“get$”而不同的音译片段“ジエ$”与“ゲツト$”建立关联是由于在训练集合中包含以下说明的2个音译对。一者是末尾为“get$”的原拼写字符串sn与基于法语阅读该原拼写字符串sn的音韵而进行音译所得的目标拼写字符串tn的音译对。另一者是末尾为“get$”的原拼写字符串sn与基于英文阅读该原拼写字符串sn的音韵而进行音译所得的目标拼写字符串tn的音译对。另外,“^”是表示紧接其后的字符为字符串的前端的符号,“$”是表示前一个字符为字符串的末尾的符号。
此外,信息存储部103存储有如图9所示的覆写次数表。在图9的覆写次数表中,表示音译对编号n的信息、表示片段对编号j的信息、及表示覆写次数fn(α→β)的信息建立关联而保存。该覆写次数fn(α→β)为如下次数,即,为将构成由该编号n识别的音译对的原拼写字符串sn音译为构成该音译对的目标拼写字符串tn,而将由片段对编号j识别的片段对的原片段α覆写为音译片段β的次数。
作为具体例,为将构成由音译对编号“1”识别的音译对的原拼写字符串“flextime”音译为目标拼写字符串“フレツクスタイム”,而将构成由片段对编号“2”识别的片段对的原片段“le”覆写为音译片段“レ”的覆写次数为“1”次。与此相对,为将原拼写字符串“flextime”音译为目标拼写字符串“フレツクスタイム”,而将由片段对编号“3”识别的片段对的原片段“le”覆写为音译片段“ル”的覆写次数为“0”次。而且,为将由音译对编号“9”识别的音译对的原拼写字符串“mama”音译为目标拼写字符串“可マ”,而将由片段对编号“100”识别的片段对的原片段“ma”覆写为音译片段“マ”的覆写次数为2次。
在图7的音译处理开始后,图5的受理部104受理由从终端装置200发送的信息表示的输入对(步骤S31)。然后,生成部105将所受理的输入对视为音译对。其后,生成部105将该音译对追加至训练集合,将该音译对的音译对编号设为m+1,将表示属于训练集合的音译对的数目的变数N设为m+1。然后,生成部105将表示音译对编号N的信息与表示该音译对的信息建立关联而追加保存在图6A的基础音译表(步骤S32)。
其后,生成部105所具有的第一生成部105a执行如图10所示的第一生成处理(步骤S33)。
当图10的第一生成处理开始时,第一生成部105a在通过参照图6A的基础音译表而获取训练集合中所含的音译对后,使用所获取的音译对生成图9的覆写次数表(步骤S51)。具体来说,第一生成部105a从训练集合取出所有音译对。然后,第一生成部105a针对所取出的所有音译对,在构成该音译对的原拼写字符串sn的前端追加特殊字符“^”,在末尾追加特殊字符“$”。其后,第一生成部105a通过将追加有特殊字符的字符串sn分割而生成原片段α。
此处,在原拼写字符串sn的长度为A的情形时(即,原拼写字符串sn为A字符的字符串时),原拼写字符串sn的分割方法S存在2(A-1)-1种。第一生成部105a利用所有分割方法S将原拼写字符串sn分割,由此生成多种原片段α。而且,第一生成部105a将以所述原拼写字符串sn的所有分割方法S为要素的集合设为Part(sn)。同样,第一生成部105a在确定了目标拼写字符串tn的所有分割方法T后,生成以所确定的所有分割方法T为要素的集合Part(tn)。其后,第一生成部105a通过利用所有分割方法T将目标拼写字符串tn分割而获取多种音译片段β。
其后,第一生成部105a生成原片段α与音译片段β的所有组合,并且针对所生成的每个组合算出所述覆写次数fn(α→β)。然后,第一生成部105a将表示所算出的覆写次数fn(α→β)的信息与表示音译对编号n的信息及表示包含原片段α与音译片段β的片段对的片段对编号j的信息建立关联而保存在图9的覆写次数表中。
在图10的步骤S51后,第一生成部105a根据图9的覆写次数表生成图8A的基础覆写表(步骤S52)。具体来说,第一生成部105a通过将所算出的覆写次数fn(α→β)用于下述式(1)中而算出将原片段α覆写为音译片段β的覆写概率P(α→β)。
[数1]
P ( α → β ) = Σ n = 1 N f n ( α → β ) Σ α → β f n ( α → β ) . . . ( 1 )
其后,第一生成部105a将表示所算出的覆写概率P(α→β)的信息与表示包含原片段α及音译片段β的片段对的片段对编号j的信息建立关联而保存在图8A的基础覆写表中。
在图10的步骤S52后,第一生成部105a在根据图8A的基础覆写表重新生成图6A的基础音译表后(步骤S53),结束第一生成处理的执行。具体来说,首先,第一生成部105a着眼于属于训练集合的音译对中未处理的音译对。然后,第一生成部105a通过将构成所着眼的音译对(以下称为着眼音译对)的原拼写字符串sn及目标拼写字符串tn、以及所算出的覆写概率P(α→β)用于下述式(2)中,而对着眼音译对执行αβ法。另外,关于αβ法的执行方法的详情,记载于非专利文献2中,因而省略说明。而且,本说明书以参照的形式引用非专利文献2的内容。
[数2]
P α β ( t n | s n ) = T ∈ Part ( t n ) , S ∈ Part ( s n ) max Π i = 1 | S | P ( α i → β i ) . . . ( 2 )
其中,T表示目标拼写字符串tn的分割方法,Part(tn)是以所有分割方法T为要素的集合。同样,S是表示原拼写字符串sn的分割方法,Part(sn)是以所有分割方法S为要素的集合。此外,|S|表示利用分割方法S分割原拼写字符串sn时所生成的原片段α的数目。而且,此外,αi表示从利用分割方法S分割原拼写字符串sn时所生成的前端起第i个原片段,βi表示从利用分割方法T分割目标拼写字符串tn时所生成的前端起第i个音译片段。
通过执行该αβ法,第一生成部105a算出将构成着眼音译对的原拼写字符串sn音译为该目标拼写字符串tn的音译概率Pαβ(sn|tn)。然后,第一生成部105a将表示所算出的音译概率Pαβ(sn|tn)的信息与表示着眼音译对的音译对编号n的信息建立关联而保存在图6A的基础音译表中。其后,第一生成部105a重复进行所述处理直至不存在未处理的音译对。
在图7的步骤S33后,图5的受理部104受理由从终端装置200发送的信息表示的语言数K(步骤S34)。该语言数K是表示根据起源语言将分别构成属于训练集合的多个音译对的原拼写字符串sn潜在(即并未明示)分类为几种类型的值。具体来说,列举训练集合中所含的多个原拼写字符串sn以英文、法语、西班牙语、德语、波兰语、及俄语中的任一个为起源语言的情形为例进行说明。在此情形时,如果所受理的语言数K为值“7”,则多数情形时将该多个原拼写字符串sn分别根据起源语言潜在分类为英文类型、法语类型、德语类型、波兰语类型、及俄语类型该7种类型。
与此相对,如果所受理的语言数K为值“3”,则例如多数情形时潜在分类为英文及德语类型、法语及西班牙语类型、以及波兰语及俄语类型的语言学上的语派。其原因在于,包含属于相同语派的起源语言的原拼写字符串sn大多使用比起包含其他起源语言的字符串sn而彼此更类似的标记及标记所对应的音韵。
另外,如法语及西班牙语这样,将潜在分类为相同类型的原拼写字符串sn的起源语言统称为潜在语言。本实施例中,对将潜在语言的数目K设为“3”个进行说明,但并不限定于此。“3”个潜在语言分别由语言编号“1”、“2”及“3”识别。将分别由该语言编号“1”、“2”及“3”识别的潜在语言称为第一语言、第二语言及第三语言。本实施例中,语言编号z为潜在变数,由语言编号z识别的潜在语言未具体确定为何种语言。
在图7的步骤S34后,图5的第二生成部105b执行如图11所示的第二生成处理。
当图11的第二生成处理开始时,第二生成部105b读取图8A的基础覆写表(步骤S61)。其后,第二生成部105b通过复制K个所读取的基础覆写表而生成第一覆写表至第K覆写表为止的K个覆写表(步骤S62)。具体来说,第二生成部105b生成第一覆写表,该第一覆写表将表示识别保存在图8A的基础覆写表的片段对的编号j的信息、表示构成该片段对的原片段α的信息、表示构成该片段对的音译片段β的信息、及表示覆写概率P(α→β|z=1)的信息建立关联而保存。该覆写概率P(α→β|z=1)是指在包含该原片段α的原拼写字符串sn的起源语言为第一语言的条件下将该原片段α覆写为音译片段β的概率。同样,第二生成部105b生成保存有表示覆写概率P(α→β|z=2)的信息的第二覆写表、及保存有表示覆写概率P(α→β|z=3)的信息的第三覆写表。
在步骤S62后,第二生成部105b读取图6A的基础音译表(步骤S63)。其后,第二生成部105b在通过复制K个所读取的基础音译表而生成第一音译表至第K音译表为止的K个音译表后(步骤S64),结束第二生成处理的执行。具体来说,第二生成部105b生成如图6B所示的第一音译表,该第一音译表将表示识别保存在基础音译表的音译对的编号n的信息、表示构成该音译对的原拼写字符串sn的信息、表示构成该音译对的目标拼写字符串tn的信息、及表示音译概率P(tn|sn,z=1)的信息建立关联而保存。该音译概率P(tn|sn,z=1)是指在该原拼写字符串sn的起源语言为第一语言的条件下该原拼写字符串sn的音译为目标拼写字符串tn的概率。同样,第二生成部105b生成如图6C所示的保存有表示音译概率P(tn|sn,z=2)的信息的第二音译表、及如图6D所示的保存有表示音译概率P(tn|sn,z=3)的信息的第三音译表。
另外,第二生成部105b将音译概率P(tn|sn,z=1)、音译概率P(tn|sn,z=2)、及音译概率P(tn|sn,z=3)分别变更为特定量以上且彼此不同的值。其原因在于,在这些音译概率分别为特定量以上且并非彼此不同的情形时,下述EM(ExpectationMaximization)演算法的E步骤及M步骤不会重复执行。本实施例中,第二生成部105b将与表示相同音译对编号n的信息建立关联的音译概率P(tn|sn,z=1)、音译概率P(tn|sn,z=2)、及音译概率P(tn|sn,z=3),设为相对于已与表示该音译对编号n的信息建立关联的音译概率Pαβ(tn|sn)分别加上、减去、乘以、及除以随机值等所得的值进行说明。但并不限定于此,也可将所述音译概率P(tn|sn,z=1)至音译概率P(tn|sn,z=3)针对K=3个的每种语言分别设定为与音译概率Pαβ(tn|sn)相差特定量的不同值。
在图7的步骤S35后,图5的初始化部106执行将用于执行下述EM演算法的参数初始化的初始化处理(步骤S36)。具体来说,初始化部106将加权参数πk分别初始化为特定值“1/K”,所述加权参数πk表示构成属于训练集合的音译对的N个原拼写字符串sn中,以由语言编号k识别的潜在语言为起源语言的原拼写字符串sn的比例。
另外,表示特定值的信息存储在信息存储部103。而且,由该信息表示的加权参数πk的初始值并不限定于“1/K”,本领域技术人员可通过实验来规定较佳的值。而且,将加权参数π1称为图6B所示的第一音译表的加权参数,同样将加权参数π2称为图6C所示的第二音译表的加权参数,将加权参数π3称为图6D所示的第三音译表的加权参数。
在步骤S36后,图5的期待值算出部107a执行EM演算法的E步骤(步骤S37)。具体来说,E步骤包含第一E步骤至第三E步骤。期待值算出部107a在初次执行E步骤的情形时,在构成E步骤的第一E步骤至第三E步骤中,仅执行第二E步骤及第三E步骤。与此相对,期待值算出部107a在第二次以后执行E步骤的情形时,从第一E步骤起依序执行至第三E步骤为止。其原因在于,第一E步骤通过使用覆写概率P(α→β|z=1)至P(α→β|z=3)执行αβ法而算出音译概率P(tn|sn,z=1)至P(tn|sn,z=3)的处理。其原因在于,相当于初次的第一E步骤的处理是图10的步骤S53及图11的步骤S64的处理,并且已执行。
期待值算出部107a在第一E步骤开始时,着眼于语言编号“1”的第一语言,并且将该第一语言设为着眼语言。然后,期待值算出部107a从对应于着眼语言的图8B的第一覆写表参照覆写概率P(α→β|z=1)。其后,期待值算出部107a着眼于由保存在图6B的第一音译表的信息表示的一个未处理的音译对。其后,期待值算出部107a通过将构成所着眼的音译对(以下称为着眼音译对)的原拼写字符串sn与目标拼写字符串tn、及所参照的覆写概率P(α→β|z=1)用于下述式(3)而执行αβ法。
[数3]
P ( t n | s n , z ) = T ∈ Part ( t n ) , S ∈ Part ( s n ) max Π i = 1 | S | P ( α i → β i | z ) . . . ( 3 )
其中,S及T、Part(sn)及Part(tn)、|S|、αi以及βi分别与所述式(2)中所使用者相同,因此省略说明。
通过使用所述式(3)执行αβ法而算出着眼音译对的音译概率P(tn|sn,z=1),并且由表示算出的值的信息来更新图6B的第一音译表。其后,期待值算出部107a在重复进行所述处理直至不存在未处理的音译对后,将由语言编号“2”识别的第二语言设为着眼语言并重复进行所述处理。其后,期待值算出部107a在将由语言编号“3”识别的第三语言设为着眼语言并重复进行所述处理后,结束第一E步骤。
在第二E步骤中,期待值算出部107a针对所有音译对编号n及所有语言编号k使用下述式(4)算出概率变数znk的期待值γnk(即E[znk])。该概率变数znk在由音译对编号n识别的音译对的原拼写字符串sn以由语言编号k识别的潜在语言为起源时成为值“1”,除此以外的情形时成为值“0”的变数。另外,期待值γnk是将音译概率P(tn|sn,z=1)由加权参数πk进行加权的加权音译概率,有时也为原拼写字符串sn的起源语言为由语言编号k识别的潜在语言的概率(以下称为起源概率)。
[数4]
γ nk = π k P ( t n | s n , z = k ) Σ k = 1 K π k P ( t n | s n , z = k ) . . . ( 4 )
于第三E步骤中,期待值算出部107a使用期待值γnk算出似然函数L的期待值Q。另外,似然函数L是算出似然度的函数,由下述式(5)表示。由该似然函数L算出的似然度是表示在获得(即已观察到)训练集合的情形时,根据语言编号“1”至“3”的3个潜在语言将该训练集合的要素即多个音译对潜在分类的音译模式中的图6B至图6D中分别所示的第一音译表至第三音译表的或然性。
[数5]
L = Σ n = 1 N Σ k = 1 K π k P ( t n | s n , z = k ) . . . ( 5 )
在图7的步骤S37后,图5的判定部107b判定本次是否初次算出似然函数L的期待值Q(即,是否初次执行E步骤)(步骤S38)。此时,如果判定为本次并非初次算出似然函数L的期待值Q(步骤S38为否),则更新部107算出步骤S37中前次算出的似然函数L的期待值Q与本次算出的似然函数L的期待值Q的变化量的绝对值。然后,更新部107判定所算出的变化量的绝对值是否为特定值Z以上(步骤S39)。另外,表示特定值Z的信息存储在图5的信息存储部103,特定值Z的较佳值可由本领域技术人员通过实验而规定。另外,此处利用变化量的绝对值来进行判定,但也可通过比例而并非绝对值来进行判定。例如,也可判定本次算出的似然函数L的期待值Q相对于前次算出的似然函数L的期待值Q的比例是否为特定值Z以上,或者判定本次算出的期待值γnk相对于前次算出的期待值γnk的比例是否为特定值Z以上。
在步骤S38中,在更新部107判定为本次为初次算出似然函数L的期待值Q的情形时(步骤S38为是),或判定为期待值Q的变化量的绝对值为特定值Z以上的情形时(步骤S39为是),图5的最大化部107c执行使似然函数L的期待值Q最大化的M步骤(步骤S40)。
具体来说,最大化部107c将由保存在图9的覆写次数表的信息表示的覆写次数fn(α→β)、及由图7的步骤S37(即E步骤)算出的期待值γnk用于下述式(6)及(7)。由此,最大化部107c针对所有音译对编号n及语言编号k分别算出使似然函数L的期待值Q最大化的加权参数πk 、及音译概率P(tn|sn,z=k)
[数6]
π k * = N k N , N k = Σ n = 1 N γ nk . . . ( 6 )
P ( α → β | z = k ) * = 1 N k Σ n = 1 N γ nk f n ( α → β ) Σ α → β f n ( α → β ) . . . ( 7 )
在图7的步骤S40后,更新部107执行参数更新处理(步骤S41)。在该参数更新处理中,更新部107将步骤S37中用于算出似然函数L的期待值Q的加权参数πk更新为步骤S40中所算出的最佳的加权参数πk *(即,使似然函数L的期待值Q最大的最佳解)。而且,更新部107将表示分别保存在图6B至图6D的第一音译表至第三音译表的音译概率P(tn|sn,z=1)至音译概率P(tn|sn,z=3)的信息分别更新为表示最佳的音译概率P(tn|sn,z=1)至P(tn|sn,z=3)的信息。其后,从步骤S37起重复进行所述处理。
在判定部107b判定为本次算出的似然函数L的期待值Q与前次算出的似然函数L的期待值Q的变化量的绝对值未达特定值Z的情形时(步骤S39为否),执行音译概率输出处理(步骤S42)。在该音译概率输出处理中,图5的概率输出部108从图6B的第一音译表至图6D的第三音译表中参照表示与表示识别输入对的编号N的信息建立关联的音译概率P(tN|sN,z=1)至P(tN|sN,z=3)的信息。其后,概率输出部108将表示所参照的音译概率P(tN|sN,z=1)至P(tN|sN,z=3)中最大的音译概率的信息输出(即发送)至终端装置200。在执行音译概率输出处理后,概率输出部108结束音译处理的执行。
然后,对伴随EM演算法的执行的覆写概率P(α→β|z=1)、音译概率P(tn|sn,z=1)、及加权音译概率(即,概率变数znk的期待值、起源概率)γnk的变化进行说明。
在图11的步骤S62中,将构成由保存在图8B的第一覆写表的片段对编号“5”识别的片段对的原片段“get$”覆写为音译片段“ジエ$”的覆写概率P(α→β|z=1)设定为高于其他覆写概率P(α→β|z=2)及P(α→β|z=3)的值。在此情形时,将包含原片段“get$”的原拼写字符串s2“××aget”音译为包含音译片段“ジエ”的目标拼写字符串t2“Δアジエ”的音译概率P(t2|s2,z=1)使用所述式(3)而算出。因此,如图12A所示,音译概率P(t2|s2,z=1)高于其他音译概率P(t2|s2,z=2)及P(t2|s2,z=3)。
如果音译概率P(t2|s2,z=1)高于其他音译概率P(t2|s2,z=2)及P(t2|s2,z=3),则由所述式(4)算出的加权音译概率γ21如图12B所示,比其他加权音译概率γ22及γ23高。
如果加权音译概率γ21变高,则由所述式(6)算出的最佳的加权参数π1 *比其他加权参数π2 *及π3 *大。因此,由所述式(4)算出的加权音译概率γ21进一步变高。
如果加权音译概率γ21进一步变高,则如图12C所示,由所述式(7)算出的覆写概率P(α→β|z=1)更新为高于其他覆写概率P(α→β|z=2)及P(α→β|z=3)的值。因此,音译概率P(t2|s2,z=1)比其他音译概率P(t2|s2,z=2)及P(t2|s2,z=3)进一步变高。
以上,对第一音译表进行了说明,该第一音译表中将构成原拼写字符串s2的末尾的原片段“get$”覆写为音译片段“ジエ”的覆写概率P(α→β|z=1)较高,且例如对应于如法语的潜在语言。在所述第一音译表中,如上所述,即便未确定潜在语言为何种语言,例如,根据该起源语言的音韵将以如法语的潜在语言为起源语言的原拼写字符串s2“××aget”音译为目标拼写字符串t2“Δアジエ”的音译概率P(t2|s2,z=1)也变为较高的值。
根据这些构成,在使用覆写概率P(α→β,z=k)算出音译概率P(tn|sn,z=k)后,以使得使用该音译概率P(tn|sn,z=k)而算出的似然函数L的期待值Q最大化的方式,更新覆写概率P(α→β,z=k)。其后,重复进行音译概率P(tn|sn,z=k)的算出及覆写概率P(α→β,z=k)的更新。因此,即便与保存有表示覆写概率P(α→β,z=k)的信息的覆写表相对应的潜在语言及与保存有表示音译概率P(tn|sn,z=k)的信息的音译表相对应的潜在语言均不明确(即,即便在不明确成为音译对象的原拼写字符串sn以何种语言为起源的情形时),也可根据音译概率P(tn|sn,z=k)而相比于以前更准确地确定所音译的目标拼写字符串tn是否为对该对象进行音译而成者。
而且,根据这些构成,使用音译概率P(tn|sn,z=k)及加权参数πk来算出起源概率(即,概率变数znk的期待值、起源概率)γnk。其后,也以使进而使用起源概率γnk而并非音译概率P(tn|sn,z=k)算出的似然函数L的期待值最大化的方式,更新加权参数πk而并非音译概率P(tn|sn,z=k)。因此,似然函数L的期待值相比于以前而进一步最大化。由此,即便在不明确成为音译对象的原拼写字符串sn以何种语言为起源的情形时,也可高精度地确定所音译的目标拼写字符串tn是否为对该对象进行音译而成者。
根据这些构成,通过从1个基础覆写表执行αβ法而生成1个基础音译表中所含的音译概率Pαβ(sn|tn)。然后,通过使所生成的音译概率Pαβ(sn|tn)针对K个语言的每一个变化而生成与K个语言相对应的K个音译表。其后,利用EM演算法来更新所生成的K个音译表的各者中所含的音译概率P(tn|sn,z=k)。因此,可削减K个音译表的生成所需的计算量,并且可相比于以前而更确实地使似然函数L的期待值最大化。
而且,根据这些构成,在似然函数L的期待值Q的变化量未达特定大小之前重复进行音译概率P(tn|sn,z=k)及加权参数πk的更新,因此可相比于以前而更确实地使似然函数L的期待值Q最大化。
此外,根据这些构成,在受理第一字符串及第二字符串后,输出所受理的第二字符串是对第一字符串进行音译而成者的概率。因此,即便在不明确第一字符串以何种语言为起源的情形时,只要受理第一字符串及第二字符串,则可相比于以前而更准确地算出并输出第二字符串是对第一字符串进行音译而成者的概率。由此,即便在使用音译处理装置100的用户并未知晓第一字符串的起源语言的情形时,只要将第一字符串及被认为是第一字符串的音译的第二字符串输入至音译处理装置100,则也可获知第一字符串与第二字符串的音译概率。因此,用户可根据音译概率容易且准确地判断第二字符串是否为第一字符串的正确的音译。
而且,根据这些构成,受理不包含在训练集合的第一字符串,算出所受理的第一字符串与第二字符串的音译概率。因此,即便为未预先包含于训练集合的第一字符串与第二字符串的对(即输入对),也可相比于以前而更准确地算出并且输出第二字符串是对第一字符串进行音译而成者的概率。
另外,本实施例中,在图7的步骤S34中受理由从终端装置200发送的信息表示的语言数K,但也可在音译处理装置100中预先设定K的值。而且,所设定的语言数K的值并非为1,也可为多个。例如,只要将值“3”、“4”、“5”该3者设为K,则用户可根据由这些求出的音译概率中最高的音译概率来判断第二字符串是否为第一字符串的正确的音译。
<变形例1>
然后,对本实施例的变形例1进行说明。
本实施例中,对如下进行说明:图5的生成部105在图10的步骤S53中,生成保存有表示音译概率Pαβ(sn|tn)的信息的图6A的基础音译表后,在图11的步骤S64中,根据该基础音译表生成第一音译表至第三音译表。而且,本实施例中,对图5的更新部107在图7的步骤S37(即E步骤)的初次执行时,未执行第一E步骤进行说明。另外,第一E步骤是通过执行使用了第一覆写表至第三覆写表的αβ法来算出音译概率P(tn|sn,z=k)的步骤。
但是,并不限定于此,在变形例1中,图5的生成部105在图10的步骤S53中生成未保存表示音译概率Pαβ(sn|tn)的信息的基础音译表。然后,生成部105在图11的步骤S62中,根据基础覆写表生成第一基础覆写表至第三基础音译表。其后,图5的更新部107在图7的步骤S37的初次执行时,从第一E步骤起依序执行直至第三E步骤为止。在该变形例1中,生成部105可将与表示相同片段对编号j的信息建立关联的覆写概率P(α→β,z=1)至P(α→β,z=3)设为相对于与表示该片段对编号j的信息建立关联的覆写概率P(α→β)分别加上、减去、乘以、及除以随机值等所得的值,也可针对K个语言的每一个分别设定为相差特定量的不同值。
根据这些构成,通过1个基础覆写表中所含的覆写概率P(α→β)变化,即便生成与K个语言相对应的K个覆写表,也重复进行音译概率P(tn|sn,z=k)的算出及覆写概率P(α→β,z=k)的更新。因此,可削减K个覆写表的生成所需的计算量,并且可相比于以前而更确实地使似然函数L的期待值Q最大化。
<变形例2>
然后,对本实施例的变形例2进行说明。
在变形例2中,图1的终端装置200通过显示如图13A所示的输入画面FI2而并非图2A的输入画面FI1,来进行提醒输入包含任意起源语言的拼写的第一字符串的显示。然后,终端装置200将对应于用户的操作的各种信号输入至音译处理***1,根据所输入的信号来生成第一字符串,并且将表示所生成的第一字符串的信息发送至音译处理装置100。其后,终端装置200接收从音译处理装置100回复的信息。然后,终端装置200显示如图13B所示的结果显示画面FO2而并非图2B的结果显示画面FO1。其后,终端装置200根据所接收的信息,将第一字符串、可音译该第一字符串的所述特定目标语言的候选字符串、及将该第一字符串音译为该候选字符串的概率,以该概率由高到低的顺序一览显示在结果显示画面FO2上。另外,终端装置200也可将候选字符串以该概率由低至高的顺序而一览显示。而且,终端装置200也可仅显示该概率最高的第一字符串、候选字符串及该概率中的一个。此外,终端装置200只有在最高概率超过特定阈值的情形时,才可仅显示该最高的概率、1个字符串、候选字符串及该概率中的一个。
变形例2的音译处理装置100的CPU100a使用图3的硬件,并且通过执行图14并非图7的音译处理,而作为如图15并非图5所示的各功能部101至107、及候选输出部109发挥功能。
在图14的音译处理开始后,图15的受理部104受理由从终端装置200发送的信息表示的第一字符串(步骤S71)。然后,生成部105执行图10的第一生成处理(步骤S72)。其后,生成部105重复生成所受理的第一字符串的候选字符串(步骤S73)。
具体来说,生成部105针对第一字符串利用任意分割方法S进行分割,获取多个片段字符串或片段字符(以下称为片段)。然后,生成部105生成构成由保存在图8A的基础覆写表的信息表示的片段对的原片段α中与所获取的片段相同者的所有组合(即所有排列)。然后,生成部105确定所生成的所有组合中成为第一字符串者。其后,生成部105从图8A的基础覆写表中全部获取表示包含构成所确定的组合的原片段α的片段对的信息。然后,生成部105根据成为该音译片段β的对的原片段α的组合顺序(即排列顺序),将构成由所获取的信息表示的片段对的音译片段β加以组合。这样,生成部105生成被认为第一字符串的音译的所有候选字符串。
在图14的步骤S73后,生成部105针对所生成的多个候选字符串的每个,生成步骤S71中所受理的第一字符串与被认为第一字符串的音译的该候选字符串的对(以下称为候选对)(步骤S74)。其后,生成部105将候选对视为音译对而追加至训练集合,使训练集合中所含的音译对的数目N的值增加与所追加的候选对的数目相对应的量。然后,生成部105将表示该候选对的信息与表示识别该候选对的编号n的信息建立关联并且追加保存在图6A的基础音译表(步骤S75)。
其后,执行与图7的步骤S34至步骤S41的处理相同的处理即图14的步骤S76至步骤S83的处理。
于所述处理的执行中,在步骤S81中,当判定部107b判定为前次算出的似然函数L的期待值Q与本次算出的似然函数L的期待值Q的变化量的绝对值未达特定值Z的情形时(步骤S81为否),在执行步骤S84的处理后结束音译处理的执行。在步骤S84中,图15的候选输出部109从图6B的第一音译表至图6D的第三音译表中参照表示与表示识别各自的候选对的编号n的信息建立关联的音译概率P(tN|sN,z=1)至P(tN|sN,z=3)的信息。其后,候选输出部109生成将表示各自的候选对的信息与表示所参照的音译概率P(tN|sN,z=1)至P(tN|sN,z=3)中最大的音译概率的信息建立关联的候选列表信息。其后,候选输出部109根据所述最大的音译概率将由所生成的候选列表信息表示的候选字符串的列表(以下称为候选列表)按升序或降序排序。其后,候选输出部109将所排序的列表从列表的前端依序输出(即发送)至终端装置200后,结束步骤S84的处理。
根据这些构成,在受理第一字符串时,根据该候选字符串为第一字符串的音译的音译概率而输出被认为是第一字符串的音译的多个候选字符串。因此,即便在不明确第一字符串以何种语言为起源的情形时,只要受理第一字符串,则也可将多个候选字符串按音译概率由高到低或由低到高的顺序加以输出。由此,即便在使用音译处理装置100的用户并未知晓第一字符串的起源语言的情形时,只要将第一字符串输入至音译处理装置100,则也可获取被认为是第一字符串的音译的多个候选字符串。
而且,根据这些构成,受理不包含在训练集合的第一字符串,生成所受理的第一字符串的候选字符串,并且算出与所生成的候选字符串的音译概率。因此,即便为未预先包含于训练集合的第一字符串,只要受理第一字符串,则也可将多个候选字符串按音译概率由高到低或由低到高的顺序加以输出。
<变形例3>
然后,对本实施例的变形例3进行说明。
变形例3的音译处理***1不包含图1的外文DB服务器302,而如图16所示包含检索引擎400。
检索引擎400将表示检索关键字的信息、表示记载有包含该检索关键字的内容的Web(World Wide Web,全球信息网)页的URL的信息、及表示记载于该Web页的内容中包含该关键字的部分即摘录(snippet)的信息建立关联而加以存储。检索引擎400从音译处理装置100接收表示检索关键字的信息及需要检索的请求后,检索多个表示摘录的信息,该摘录与表示所接收的检索关键字的信息建立关联而存储。其后,检索引擎400将表示如图17所示的包含摘录SP1及SP2的检索结果画面FS的信息回复至音译处理装置100。
变形例3的音译处理装置100在图4的训练集合生成处理的执行中,如果判定为从日文的在线百科词典的解说项目所获取的字符串为固有名词(步骤S05为是),则不执行步骤S06,而执行图18的步骤S91。在步骤S91中,音译处理装置100将该日文字符串作为检索关键字,并且将该关键字及检索请求对图16的检索引擎400输出。然后,图5所示的音译处理装置100的信息获取部102从检索引擎400获取多个表示基于检索关键字而检索到的摘录的信息(步骤S92)。
其后,图5所示的音译处理装置100的训练集合生成部101获取摘录中所记载的检索关键字(即,记载于日文解说项目中的字符串)之前或之后特定数的单词(步骤S93)。其后,训练集合生成部101根据所获取的单词是否由包含字母的字符串来标记,而判定该单词是否由包含外文的拼写的字符串来标记(步骤S94)。此时,如果判定为所获取的单词并非由包含外文中的拼写的字符串标记(步骤S94为否),则从图4的步骤S02起重复进行处理。
与此相对,如果判定为所获取的单词由包含外文中的拼写的字符串来标记(步骤S94为是),则训练集合生成部101将该获取的外文字符串作为检索关键字,而执行与所述步骤S91及步骤S92相同的处理(步骤S95及步骤S96)。
其后,训练集合生成部101判定所获取的单词是否由包含日文中的拼写的字符串来标记(步骤S98)。具体来说,如果训练集合生成部101判定为所获取的单词由包含汉字、平假名及片假名中的任一个以上的字符串来标记,则判定为该单词由包含日文中的拼写的字符串来标记。与此相对,如果训练集合生成部101判定为所获取的单词由并非包含汉字、平假名及片假名中的任一个的字符串来标记,则判定为该单词并非由包含日文中的拼写的字符串来标记。
在步骤S98中,如果判定为所获取的单词并非由包含日文中的拼写的字符串来标记(步骤S98为否),则从图4的步骤S02起重复进行处理。与此相对,如果判定为所获取的单词由包含日文中的拼写的字符串来标记(步骤S98为是),则训练集合生成部101判定图4的步骤S03中从日文解说项目获取的字符串与图18的步骤97中从摘录获取的日文字符串是否一致(步骤S99)。此时,如果判定为2个字符串不一致(步骤S99为否),则从图4的步骤S02起重复进行处理。
在步骤S99中,如果判定为2个字符串一致(步骤S99为是),则训练集合生成部101将从日文解说项目获取的日文字符串与从基于该日文字符串而检索的摘录获取的外文字符串设为音译对(步骤S100)。然后,训练集合生成部101将该外文字符串设为原拼写字符串sn,并将该日文字符串设为目标拼写字符串tn(即,原拼写字符串sn的音译)。其后,从将该音译对追加至训练集合的图4的步骤S09的处理起继续执行图4的训练集合生成处理。
另外,在本变形例4中,音译处理装置100从下述摘录获取外文字符串,该摘录基于从日文的在线百科词典的解说项目获取的日文字符串而检索。然后,音译处理装置100从基于所获取的外文字符串而检索的摘录获取日文字符串。其后,音译处理装置100在这些2个日文字符串一致的情形时,将外文字符串设为原拼写字符串sn,并将日文字符串设为目标拼写字符串tn进行说明。但是,并不限定于此,也可采用以下变形例。在该变形例中,音译处理装置100从下述摘录获取日文字符串,该摘录基于从外文在线百科词典的解说项目获取的外文字符串而检索。然后,音译处理装置100从基于所获取的日文字符串而检索的摘录获取外文字符串。其后,音译处理装置100在这些2个字符串一致的情形时,也可将外文字符串设为原拼写字符串sn,并将日文字符串设为目标拼写字符串tn
通常,多数情形时彼此存在音译关系的原拼写字符串sn与目标拼写字符串tn在Web页上,以彼此位于前后位置的方式记载。因此,根据这些构成,即便在不明确原拼写字符串sn的起源语言的情形时,也可相比于以前更高精度且简单地获取原拼写字符串sn与目标拼写字符串tn的音译对。而且,即便在明确原拼写字符串sn的起源语言,但不明确该起源语言的原拼写字符串sn的音韵的情形时,也可相比于以前更高精度且简单地获取原拼写字符串sn与目标拼写字符串tn的音译对。
本实施例中,如图6A至图6D及图9所示,目标拼写字符串tn由片假名表示而进行图示及说明,但并不限定于此,例如,也可由包含罗马字或发音符号的其他字符表示。同样,如图8A至图8D及图9所示,音译片段β由片假名表示而进行图示及说明,但并不限定于此,例如也可由罗马字或发音符号表示。
本实施例与变形例1至3可彼此组合。当然可提供一种包含用于实现本实施例的功能的构成的音译处理装置100,也可提供一种包含多个装置的音译处理***,即包含用于实现本实施例的功能的构成作为整个***的音译处理***。
另外,当然可提供一种预先包含用于实现本实施例的功能的构成的音译处理装置100,也可通过应用程序而使原有的音译处理装置100作为本实施例的音译处理装置100发挥功能。即,应用由所述实施例所例示的音译处理装置100的用于实现各功能构成的音译处理程序以使得控制原有的音译处理装置的计算机(CPU等)能够执行该程序,由此可作为本实施例的音译处理装置100发挥功能。
所述程序的分配方法为任意,例如可存储且分配在存储卡、CD-ROM(Compact DiscRead Only Memory,只读存储光盘)或DVD-ROM等记录媒体中,除此以外也可经由互联网等通信媒体进行分配。而且,本发明的音译处理方法可使用本发明的音译处理装置100来实施。
而且,本发明的音译处理方法可使用音译处理装置100来实施。
以上对本发明的较佳的实施例进行了详细叙述,但本发明并不限定于所述特定的实施例,在权利要求中所记载的本发明的主旨的范围内,可进行各种变形、变更。而且,所述实施形态用于对本发明进行说明,并不限定本发明的范围。即,本发明的范围并非由实施形态表示而由权利要求来表示。而且,在申请专利范围内及与其同等的发明含义的范围内实施的各种变形视为本发明的范围内。
本申请案基于2011年3月4日提出申请的日本专利申请案2011-48384号。将日本专利申请案2011-48384号的说明、申请专利范围、所有附图以参照的形式并入本说明书中。
[工业上的利用可能性]
本发明适用于响应终端装置的请求而提供服务的服务器装置,该服务确定从终端装置接收到的字符串是否为对成为音译对象的字符串进行音译而成。

Claims (11)

1.一种音译处理装置,其特征在于包括:
生成部,其自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新部,其针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
2.根据权利要求1的所述的音译处理装置,其特征在于:
还包含将所述K个音译表的加权参数初始化的初始化部,所述K个音译表的加权参数分别表示以与所述K个音译表分别相对应的起源语言为起源的原拼写字符串在所述训练集合中所含的多个原拼写字符串中所占的比例;
所述更新部针对所述训练集合中所含的多个音译对的各者,根据所述K个音译表中所含的该音译概率的所述加权参数的加权平均,分别算出所述原拼写字符串的起源语言为与该音译表相对应的起源语言的起源概率后,以使进而使用该起源概率算出的所述似然函数的期待值最大化的方式,更新所述K个加权参数后,重复进行所述起源概率的算出及所述加权参数的更新。
3.根据权利要求1或2所述的音译处理装置,其特征在于:
所述生成部在生成1个所述覆写表后,使所述所生成的1个覆写表中所含的覆写概率针对所述K个语言中的每一语言变化,由此生成与所述K个语言相对应的K个覆写表。
4.根据权利要求1或2所述的音译处理装置,其特征在于:
所述生成部在通过使用了1个所述覆写表的αβ法生成1个所述音译表后,使所述所生成的1个音译表中所含的音译概率变化,由此生成与所述K个语言相对应的K个音译表;
所述更新部利用EM演算法更新所述K个音译表的各者中所含的音译概率。
5.根据权利要求1至4中任一项所述的音译处理装置,其特征在于:
所述更新部在借助于所述更新的所述似然函数的期待值的变化量未达特定大小之前重复进行所述更新。
6.根据权利要求1至5中任一项所述的音译处理装置,其特征在于还包含:
受理部,其受理包含所述任意起源语言的拼写的第一字符串、及包含所述特定目标语言的拼写的第二字符串;及
概率输出部,其求出通过使用所述K个音译表的各者而将所述所受理的第一字符串音译为所述所受理的第二字符串的音译概率,并且输出该求出的音译概率。
7.根据权利要求1至5中任一项所述的音译处理装置,其特征在于还包含:
受理部,其受理包含所述任意起源语言的拼写的第一字符串;及
候选输出部,其求出通过使用所述K个音译表的各者而可音译所述所受理的第一字符串的所述特定目标语言的候选字符串、及将该第一字符串音译为该候选字符串的音译概率,并且按照该求出的音译概率由高到低的顺序输出该求出的候选字符串。
8.根据权利要求6或7所述的音译处理装置,其特征在于:
所述受理部受理不包含在所述训练集合的第一字符串。
9.一种音译处理程序,其特征在于:其使计算机作为如下各部而发挥功能:
生成部,其自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新部,其针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
10.一种记录有音译处理程序的计算机可读取的记录媒体,其特征在于:使计算机作为如下各部而发挥功能:
生成部,其自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新部,其针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
11.一种音译处理方法,其特征在于:其由包括生成部及更新部的音译处理装置所执行,且包括:
生成步骤,所述生成部自包含多个音译对的训练集合而生成K个覆写表及K个音译表;所述音译对是包含任意起源语言的拼写的原拼写字符串、与包含将该原拼写字符串音译为特定目标语言的拼写的目标拼写字符串的音译对;所述K个覆写表包含多个构成所述原拼写字符串的原片段、构成所述目标拼写字符串的音译片段、及为音译而由该原片段经覆写为该音译片段的覆写概率的组,且与彼此不同的K个起源语言相对应;所述K个音译表包含多个所述训练集合中所含的音译对,且与所述K个起源语言相对应;及
更新步骤,所述更新部针对所述训练集合中所含的多个音译对的各者,通过使用所述K个覆写表中所含的覆写概率的各者,算出以与该覆写表相对应的起源语言为起源的情形时将该音译对的原拼写字符串音译为该音译对的目标拼写字符串的音译概率,并将该音译概率与该音译对建立关联而保存在与该起源语言相对应的音译表后,以使算出表示获得所述训练集合的情形时的所述K个音译表的或然性的似然度的似然函数的期待值、即使得用该音译概率算出的值最大化的方式,更新所述K个覆写表的各者中所含的覆写概率后,重复进行所述音译概率的算出及所述覆写概率的更新。
CN201280003171.9A 2011-03-04 2012-02-28 音译处理装置及方法 Active CN103140849B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011-048384 2011-03-04
JP2011048384A JP5090547B2 (ja) 2011-03-04 2011-03-04 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法
PCT/JP2012/054956 WO2012121063A1 (ja) 2011-03-04 2012-02-28 翻字処理装置、プログラム、記録媒体、及び方法

Publications (2)

Publication Number Publication Date
CN103140849A true CN103140849A (zh) 2013-06-05
CN103140849B CN103140849B (zh) 2015-01-14

Family

ID=46798031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280003171.9A Active CN103140849B (zh) 2011-03-04 2012-02-28 音译处理装置及方法

Country Status (9)

Country Link
US (1) US9323744B2 (zh)
EP (1) EP2672395A4 (zh)
JP (1) JP5090547B2 (zh)
KR (1) KR101326354B1 (zh)
CN (1) CN103140849B (zh)
BR (1) BR112013007127A2 (zh)
CA (1) CA2813218C (zh)
TW (1) TWI465941B (zh)
WO (1) WO2012121063A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5825639B2 (ja) * 2012-07-20 2015-12-02 日本電信電話株式会社 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
JP6044996B2 (ja) * 2013-07-18 2016-12-14 日本電信電話株式会社 文字列対応付け装置、方法、及びプログラム
KR101609184B1 (ko) * 2014-05-27 2016-04-06 네이버 주식회사 사전 기능을 제공하는 방법과 시스템, 그리고 기록 매체 및 파일 배포 시스템
CN105786802B (zh) * 2014-12-26 2019-04-12 广州爱九游信息技术有限公司 一种外语的音译方法及装置
CN107534772B (zh) * 2015-05-19 2020-05-19 联发科技股份有限公司 图像或者视频数据的熵编解码的方法及熵编解码装置
US10185710B2 (en) * 2015-06-30 2019-01-22 Rakuten, Inc. Transliteration apparatus, transliteration method, transliteration program, and information processing apparatus
RU2632137C2 (ru) * 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
KR101917648B1 (ko) * 2016-09-08 2018-11-13 주식회사 하이퍼커넥트 단말 및 그 제어 방법
KR102197227B1 (ko) * 2019-05-23 2020-12-31 한국과학기술원 문자 변환 방법 및 이를 수행하는 장치들
CN110728156B (zh) * 2019-12-19 2020-07-10 北京百度网讯科技有限公司 翻译方法、装置、电子设备及可读存储介质
US20230128406A1 (en) 2021-10-27 2023-04-27 Bank Of America Corporation Recursive Logic Engine for Efficient Transliteration of Machine Interpretable Languages
JP2023183618A (ja) * 2022-06-16 2023-12-28 国立研究開発法人情報通信研究機構 機械翻訳用訓練データ生成方法、機械翻訳処理用の学習可能モデルの作成方法、機械翻訳処理方法、および、機械翻訳用訓練データ生成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101630333A (zh) * 2008-07-18 2010-01-20 谷歌公司 用于查询扩展的音译

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272464B1 (en) * 2000-03-27 2001-08-07 Lucent Technologies Inc. Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition
US7369986B2 (en) * 2003-08-21 2008-05-06 International Business Machines Corporation Method, apparatus, and program for transliteration of documents in various Indian languages
JP2005092682A (ja) * 2003-09-19 2005-04-07 Nippon Hoso Kyokai <Nhk> 翻字装置、及び翻字プログラム
US7310605B2 (en) * 2003-11-25 2007-12-18 International Business Machines Corporation Method and apparatus to transliterate text using a portable device
JP4266222B2 (ja) * 2005-11-30 2009-05-20 日本電信電話株式会社 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US8655643B2 (en) * 2007-10-09 2014-02-18 Language Analytics Llc Method and system for adaptive transliteration
US8275600B2 (en) * 2008-10-10 2012-09-25 Google Inc. Machine learning for transliteration
US8306806B2 (en) * 2008-12-02 2012-11-06 Microsoft Corporation Adaptive web mining of bilingual lexicon
US20110218796A1 (en) * 2010-03-05 2011-09-08 Microsoft Corporation Transliteration using indicator and hybrid generative features
US8326600B2 (en) * 2010-08-11 2012-12-04 Google Inc. Evaluating and modifying transliteration rules

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101630333A (zh) * 2008-07-18 2010-01-20 谷歌公司 用于查询扩展的音译

Also Published As

Publication number Publication date
WO2012121063A1 (ja) 2012-09-13
EP2672395A4 (en) 2015-07-01
TWI465941B (zh) 2014-12-21
BR112013007127A2 (pt) 2016-06-14
KR101326354B1 (ko) 2013-11-11
CA2813218A1 (en) 2012-09-13
KR20130038959A (ko) 2013-04-18
CA2813218C (en) 2014-04-15
JP5090547B2 (ja) 2012-12-05
TW201250498A (en) 2012-12-16
JP2012185679A (ja) 2012-09-27
EP2672395A1 (en) 2013-12-11
US9323744B2 (en) 2016-04-26
CN103140849B (zh) 2015-01-14
US20130246042A1 (en) 2013-09-19

Similar Documents

Publication Publication Date Title
CN103140849B (zh) 音译处理装置及方法
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
Kestemont et al. Cross-genre authorship verification using unmasking
US20200073996A1 (en) Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms
JP5379138B2 (ja) 領域辞書の作成
CN102859515B (zh) 复合词拆分
Luyckx Scalability issues in authorship attribution
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
CN107077640B (zh) 经由经验归属来分析、资格化和摄取非结构化数据源的***和处理
CN112287684A (zh) 融合变体词识别的短文本审核方法及装置
US11520835B2 (en) Learning system, learning method, and program
US20190303437A1 (en) Status reporting with natural language processing risk assessment
Baker Al Barghuthi et al. Sentiment analysis on predicting presidential election: Twitter used case
Bhatti et al. Phonetic-based sindhi spellchecker system using a hybrid model
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
Brown et al. How the Word Adjacency Network (WAN) works
Murauer et al. Generating cross-domain text classification corpora from social media comments
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
Rios et al. Authorship Verification in software engineering education: Forget ChatGPT and focus on students' academic writing profiles
Hünemörder et al. SePass: Semantic Password Guessing Using k-nn Similarity Search in Word Embeddings
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
Mostafa et al. Sentiment analysis of Arabic language influence on Spanish vocabulary: An El País newspaper and Twitter case study
Asif et al. Hashtag the tweets: Experimental evaluation of semantic relatedness measures

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: Tokyo, Japan

Patentee after: Lotte Group Co.,Ltd.

Address before: Tokyo, Japan

Patentee before: Rakuten, Inc.

CP03 Change of name, title or address