CN109977426A - 一种翻译模型的训练方法、装置以及机器可读介质 - Google Patents

一种翻译模型的训练方法、装置以及机器可读介质 Download PDF

Info

Publication number
CN109977426A
CN109977426A CN201711448599.5A CN201711448599A CN109977426A CN 109977426 A CN109977426 A CN 109977426A CN 201711448599 A CN201711448599 A CN 201711448599A CN 109977426 A CN109977426 A CN 109977426A
Authority
CN
China
Prior art keywords
languages
text
transmogrified
received text
translation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711448599.5A
Other languages
English (en)
Inventor
施亮亮
王宇光
姜里羊
阳家俊
李响
卫林钰
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201711448599.5A priority Critical patent/CN109977426A/zh
Publication of CN109977426A publication Critical patent/CN109977426A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种翻译模型的训练方法、装置及机器可读介质,其中,所述方法包括:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。通过本发明实施例提供的翻译模型的训练方案训练出的翻译模型,可以精准地对用户输入的口语化语音进行同声翻译,提高翻译模型的翻译性能。

Description

一种翻译模型的训练方法、装置以及机器可读介质
技术领域
本发明涉及双语翻译技术领域,特别是涉及一种翻译模型的训练方法、装置以及机器可读介质。
背景技术
随着国际***流的增加,使用不同语种的语种沟通越来越频繁。为克服语种交流障碍,基于客户端中安装翻译模型,通过翻译模型进行在线语音翻译即同声翻译得到广泛的应用。
在线语音翻译一般涉及两个环节,第一是进行语音识别,即将用户输入的第一语种的语音信号转换为文本;第二是通过翻译模型对文本进行翻译,得到作为翻译结果的第二语种的文本,最后向用户提供第二语种文本或语言信息。
翻译模型基于双语句对训练生成,用于训练翻译模型的双语句对均为正式的书面语即为标准文本,因此翻译模型仅能精准的对用户输入的标准文本对应的语音进行同声翻译。而在实际应用过程中,碍于用户的说话习惯用户输入的待翻译语音过于口语化,此时翻译模型将无法精准地对用户输入的语音进行同声翻译,影响翻译模型的翻译性能。
发明内容
本发明提供了一种翻译模型的训练方法、装置以及机器可读介质,可以精准地对用户输入的口语化语音进行同声传译,提高翻译模型的传译性能。
为了解决上述问题,本发明公开了一种翻译模型的训练方法,其中,所述方法包括:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
为了解决上述问题,本发明还公开了一种翻译模型的训练装置,其中所述装置包括:转化模块,用于将第一语种的标准文本转化成第一语种的变形文本;训练模块,用于将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
为了解决上述问题,本发明又公开了一种用于翻译模型训练的装置,包括存储器,以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
为了解决上述问题,本发明还公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如本发明中所述的任意一种翻译模型的训练方法。
与现有技术相比,本发明具有以下优点:
本发明实施例提供的翻译模型的训练方法、装置以及机器可读介质,可以将用于训练模型的第一语种的标准文本转化成第一语种的变形文本;将第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据对翻译模型进行训练。由于训练得到的翻译模型中存在变形文本与标准文本的对应关系,因此当用户输入口语化语音时识别到其对应的变形文本后,可进一步确定该变形文本对应的翻译文本或翻译文本的语音输出,故可以精准地对用户输入的口语化语音进行同声翻译,提高翻译模型的翻译性能。
附图说明
图1是根据本发明实施例一的一种翻译模型的训练方法的步骤流程图;
图2是根据本发明实施例二的一种翻译模型的训练方法的步骤流程图;
图3是根据本发明实施例三的一种翻译模型的训练装置的结构框图;
图4是根据本发明实施例四的一种翻译模型的训练装置的结构框图;
图5是根据本发明实施例五的一种用于翻译模型训练的装置的结构框图;以及
图6是本发明实施例五中的服务器的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例中将用于训练的第一语种的标准文本转换成第一语种的变形文本,基于第一语种的标准文本、第一语种的变形文本和第一语种的标准文本翻译得到的第二语种文本训练翻译模型,通过训练得到的翻译模型可确定用户输入的第一语种口语化语音对应的第一语种的标准文本,从而得到第一语种的标准文本对应的第二语种文本,输出第二语种文本或者第二语种文本对应的语音,从而实现对口语化语音的精准翻译。
本发明实施例可以应用于语音翻译、同声翻译等任意的需要对语言是不结果进行在线翻译的场景中。第一语种和第二语种可用于表示不同的两种语言,上述第一语种和第二语种可由用户预置得到,也可以通过分析用户的历史行为得到。可选地,可以将用户最常用的语种作为第一语种,将除第一语种之外的其他语种确定为第二语种。例如:对于以中文(汉语)为母语的用户而言,第一语种可以为中文(汉语),第二语种可以为英文、日文、韩文、日文、德文、法文、少数民族语言种的一种或者组合。
实施例一
参照图1,示出了本发明实施例一的一种翻译模型的训练方法的步骤流程图。
本发明实施例的翻译模型的训练方法包括以下步骤:
步骤101:将第一语种的标准文本转化成第一语种的变形文本。
在实际训练过程中,需要依据多组双语句对翻译模型进行训练,本发明实施例中以一组双语句对的训练为例进行说明。每组双语句对包括第一语种的标准文本以及该标准文本对应的第二语种文本,第二语种文本也为标准文本。所训练的翻译模型可以将第一语种的文本或语音翻译成第二语种的文本或语音。
第一语种的变形文本为接近于口语的表达文本,我们可以通过对标准文本进行相应处理,使得转化后的文本更加接近于实际的口语表达方式。通常口语化的语音输入会存在如下几种问题:词语重复、存在冗余语气词、句子残缺或者词序颠倒等。为确保所训练出的翻译模型能够精准地对口语化语音进行同声翻译,则需要在翻译模型训练时引入与口语表达方式接近的变形文本。
相应地,可以通过如下任意一种或多种方式结合将用于训练的第一语种的标准文本转化成第一语种的变形文本:将第一语种的标准文本中的分词以一定概率进行重复以适应口语化语音中词语重复的问题;在第一语种的标准文本中以一定概率***预设***词以适应口语化语音中存在冗余语气词的问题;将第一语种的标准文本中的分词以一定概率进行删除以适应口语化语音中句子残缺的问题;将第一语种的标准文本中的分词以一定概率进行位置替换以适应口语化语音中词序颠倒的问题。在具体实现过程中,本领域技术人员可以根据实际需求选择上述任意一种或多种方式的组合,将第一语种的标准文本转化成第一语种的变形文本。
步骤102:将第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据训练数据对翻译模型进行训练。
在训练过程中,可以将第一语种的标准文本、第一语种的变形文本作为一个整体,与第二语种文本构成一个组双语句对,依据组成的双语句对对翻译模型进行训练。对于依据双语句对对模型进行训练的具体方式,参照现有相关技术即可,本发明实施例中对此不做具体限制。
训练后的翻译模型中,存在第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本。因此,在具体应用过程中,若用户输入口语化的第一语种语音,翻译模型可对口语化的第一语种语音识别得到第一语种的变形文本,确定第一语种变形文本对应的第一语种的标准文本,从而得到第一语种的标准文本对应的第二语种文本,输出第二语种文本或者第二语种文本对应的语音,从而实现对口语化语音的精准翻译。
综上,本发明实施例提供的翻译模型的训练方法,可以将用于训练模型的第一语种的标准文本转化成第一语种的变形文本;将第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据对翻译模型进行训练。由于训练得到的翻译模型中存在接近于口语表达的变形文本与标准文本的对应关系,因此当用户输入口语化语音时识别到其对应的变形文本后,可进一步确定该变形文本对应的翻译文本或翻译文本的语音输出,故可以精准地对用户输入的口语化语音进行同声翻译,提高翻译模型的翻译性能。
实施例二
参照图2,示出了本发明实施例二的一种翻译模型的训练方法的步骤流程图。
本发明实施例的翻译模型训练方法具体包括以下步骤:
步骤201:将第一语种的标准文本进行分词处理。
所训练的翻译模型支持第一语种语音、第二语语音间的同声翻译。在实际训练过程中,需要依据多组双语句对翻译模型进行训练,本发明实施例中以一组双语句对的训练为例进行说明。每组双语句对包括第一语种的标准文本以及该标准文本对应的第二语种文本。为使所训练出的翻译模型能够精准翻译输入的第一语种的口语语音,在训练翻译模型时引入第一语种的标准文本对应的口语化文本,故需要将第一语种的标准文本转化为对应的变形文本,其中,步骤201至步骤202为一种可行性的转化方式。
第一语种的标准文本可以为一个短句也可以为一段文字,因此标准文本中包含多个分词。在对标准文本进行分词划分时,可以依据***中预设的分词表进行划分。例如:第一语句语种的标准文本为“我们下午开会”,则可分词处理后得到“我们”、“下午”“开会”三个分词。
步骤202:针对每个分词,生成第一随机概率值;依据预设的重复次数概率分布确定第一随机概率值对应的重复次数,将分词重复该重复次数次。
翻译模型训练***中预设有重复次数概率分布,重复次数概率分布可以由本领域技术人员预先设置,也可以通过对用户日常语音输入习惯分析得到。重复次数概率分布实质上是重复概率与重复次数的对应关系。例如:设置重复概率为0.6对应重复次数为1,重复概率为0.2对应重复次数为2,重复概率为0.12对应重复次数为3,重复概率为0.08对应重复次数为4。
第一语种的标准文本中包含多个分词,在进行变形文本转化时,逐个判断各分词是否需要重复,在每次判断时均会生成第一随机概率值,判断生成的第一随机概率值对应的重复次数,若对应的重复次数大于或等于1,则确定对该分词进行重复,若对应的重复次数为0,则该分词不进行重复。每次生成的第一随机概率值可能相同也可能不同。
例如:判断分词“我们”是否需要重复时,翻译模型训练***生成第一随机概率值为0.6,通过重复次数概率分布可确定重复概率0.6对应的重复次数为1,因此,可确定需要重复一次“我们”这一分词。
采用步骤202中所示的方法逐个对第一语种的标准文本中的各分词进行处理,即可得到第一语种的变形文本。通过该种方式转化后的口语文本训练翻译模型,在翻译存在词语重复问题的口语化语音时,具有良好的翻译性能。
步骤201至步骤202为将第一语种的标准文本中的一个或多个分词进行重复,得到第一语种的变形文本的具体实现方式。在具体实现过程中,将第一语种的标准文本转化成第一语种的变形文本并不局限于对分词进行重复这一种实现方式,还可以通过如下方式实现:
方式一、在第一语种的标准文本中的一个或者多个***位置处,添加***词得到第一语种的变形文本。
其中,第一语种的标准文本的句首位置、句尾位置以及第一语种的标准文本中任意两分词间均为***位置。通过该种方式转化后的变形文本训练翻译模型,在翻译存在冗余语气词问题的口语化语音时,具有良好的翻译性能。
一种可行性地在第一语种的标准文本中的一个或者多个***位置处,添加***词得到第一语种的变形文本的方式如下:
首先,确定第一语种的标准文本中的各***位置;
例如:第一语种的标准文本为“原来是这样”,则分词处理后得到“原来”“是”“这样”三个分词,则可确定“原来”前为一个***位置;“原来”与“是”之间为一个***位置;“是”与“这样”之间为一个***位置,“这样”之后为一个***位置。
其次,针对每个***位置,生成第二随机概率值;依据预设的***次数概率分布,确定第二随机概率值对应的***次数,从***词列表中确定与***位置匹配的***次数的***词,并***确定的各***词。
例如:第二随机概率值对应的***次数为三,则从***次列表中确定与该***位置匹配的三个***词,将确定的这三个***词依次***该***位置处。***次数概率分布可以由本领域技术人员预先设置,也可以通过对用户日常语音输入习惯分析得到。
***词列表中可以包括多个语气词,***词列表可以由本领域技术人员预设在翻译模型训练***中,也可以由翻译模型训练***对用户日常输入的语音分析得出。本发明实施例中对于***词列表中包含的具体词不做具体限制。采用本步骤中所示的方法逐个对第一语种的标准文本中的各***位置进行处理,即可得到第一语种的变形文本。
方式二、将第一语种的标准文本中的一个或多个分词删除,得到第一语种的变形文本。通过该种方式转化后的变形文本训练翻译模型,在翻译存在句子残缺问题的口语化语音时,具有良好的翻译性能。
一种可行性地将第一语种的标准文本中的一个或多个分词删除,得到第一语种的变形文本的方式如下:
首先,将第一语种的标准文本进行分词处理;
其次,针对每个分词,生成第三随机概率值;依据预设的删除概率分布判断第三随机概率值是否指示删除,若是将该分词从第一语种的标准文本中删除。
删除概率分布可以由本领域技术人员预先设置,也可以通过对用户日常语音输入习惯分析得到。在删除概率分布中可以仅设置两个概率分布区间,一个概率分布区间对应删除,另一个概率分布区间对应保留。
第一语种的标准文本中包含多个分词,在进行变形文本转化时,逐个判断各分词是否需要删除,在每次判断时均会生成第三随机概率值,判断生成的第三随机概率值是否指示删除,若是,则确定将该分词删除,若否,则保留该分词。每次生成的第三随机概率值可能相同也可能不同。采用本步骤中所示的方法逐个对第一语种的标准文本中的各分词进行处理,即可得到第一语种的变形文本。
方式三、将第一语种的标准文本中的一个或多个分词进行位置替换,得到第一语种的变形文本。通过该种方式转化后的变形文本训练翻译模型,在翻译存在词序颠倒问题的口语化语音时,具有良好的翻译性能。
一种可行性地将第一语种的标准文本中的一个或多个分词进行位置替换,得到第一语种的变形文本的方式如下:
首先,将第一语种的标准文本进行分词处理;
其次,针对每个分词,生成第四随机概率值;依据预设的替换概率分布判断第四随机概率值是否指示替换,若是将该分词与相邻分词进行位置替换。在替换概率分布中可以仅设置两个概率分布区间,一个概率分布区间对应替换,另一个概率分布区间对应不替换。
替换概率分布可以由本领域技术人员预先设置,也可以通过对用户日常语音输入习惯分析得到。
第一语种的标准文本中包含多个分词,在进行变形文本转化时,逐个判断各分词是否需要进行位置替换,在每次判断时均会生成第四随机概率值,判断生成的第四随机概率值是否指示替换,若是,则确定将该分词进行位置替换,若否,则不进行替换。每次生成的第四随机概率值可能相同也可能不同。采用本步骤中所示的方法逐个对第一语种的标准文本中的各分词进行处理,即可得到第一语种的变形文本。
***中可预先设置概率阈值,通过设置的概率阈值判断第四随机概率值是否指示替换。具体判断时,可以比较第四随机概率值与概率阈值的大小,依据比较结果确定第四随机概率值是否指示替换;例如:若判断结果为第四随机概率值大于概率阈值,则确定用于指示替换;若判断结果为第四随机概率值小于或等于概率阈值,则确定用于指示不进行替换。
本发明实施例中分别列举中了四种将第一语种的标准文本转化为第一语种的变形文本的方式。在具体实现过程中,可以仅依据上述所列举的方式中的任意一种方式进行文本转化,也可以将上述四种方式中的任意两种或者多种结合使用。
步骤203:将第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据训练数据对翻译模型进行训练。
通过本发明实施例提供的输入方法除具有实施例一中所示的翻译模型的训练方法所具有的有益效果外,提供了多种将第一语种的标准文本转化成第一语种的变形文本的具体方式,本领域技术人员可以根据实际需求选择任意一种或者多种转化方式,灵活性强。
实施例三
参照图3,示出了本发明实施例三的一种翻译模型的训练装置的结构框图。
本发明实施例的翻译模型的训练装置可以包括:转化模块301,用于将第一语种的标准文本转化成第一语种的变形文本;训练模块302,用于将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
通过本发明实施例提供的翻译模型的训练装置,可以将用于训练模型的第一语种的标准文本转化成第一语种的变形文本;将第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据对翻译模型进行训练。由于训练得到的翻译模型中存在变形文本与标准文本的对应关系,因此当用户输入口语化语音时识别到其对应的变形文本后,可进一步确定该变形文本对应的翻译文本或翻译文本的语音输出,故可以精准地对用户输入的口语化语音进行同声翻译,提高翻译模型的翻译性能。
实施例四
参照图4,示出了本发明实施例四的一种翻译模型的训练装置的结构框图。
本发明实施例是对实施例三中的翻译模型的训练装置的进一步优化,优化后的翻译模型的训练装置可以包括:转化模块401,用于将第一语种的标准文本转化成第一语种的变形文本;训练模块402,用于将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
可选地,所述转化模块401可以包括:重复子模块4011,用于将所述第一语种的标准文本中的一个或多个分词进行重复,得到第一语种的变形文本。
可选地,所述重复子模块4011可以包括:第一拆分单元,用于将所述第一语种的标准文本进行分词处理;第一处理单元,用于依据预设的重复次数概率分布,确定所述第一随机概率值对应的重复次数。
可选地,所述转化模块401可以包括:***子模块4012,用于在所述第一语种的标准文本中的一个或者多个***位置处,添加***词得到第一语种的变形文本;其中,所述第一语种的标准文本的句首位置、句尾位置以及所述第一语种的标准文本中任意两分词间均为***位置。
可选地,所述***子模块4012可以包括:第二确定单元,用于确定所述第一语种的标准文本中的各***位置;第三确定单元,用于确定各***位置对应的***概率;第二处理单元,用于针对每个***位置,生成第二随机概率值;依据预设的***次数概率分布,确定所述第二随机概率值对应的***次数,从***词列表中确定与所述***位置匹配的所述***次数的***词,并***确定的各所述***词。
可选地,所述转化模块401可以包括:删除子模块4013,用于将所述第一语种的标准文本中的一个或多个分词删除,得到第一语种的口语文本。
可选地,所述删除子模块4013可以包括:第二拆分单元,用于将所述第一语种的标准文本进行分词处理;第四确定单元,用于确定各分词对应的删除概率;第三处理单元,用于针对每个分词,生成第三随机概率值;依据预设的删除概率分布判断所述第三随机概率值是否指示删除,若是将所述分词从所述第一语种的标准文本中删除。
可选地,所述转化模块401可以包括:替换子模块4014,用于将所述第一语种的标准文本中的一个或多个分词进行位置替换,得到第一语种的变形文本。
可选地,所述替换子模块4014可以包括:第三拆分单元,用于将所述第一语种的标准文本进行分词处理;第四处理单元,用于针对每个分词,生成第四随机概率值;依据预设的替换概率分布判断所述第四随机概率值是否指示替换,若是将所述分词与相邻分词进行位置替换。
本发明实施例的翻译模型的训练装置用于实现前述实施例一以及实施例二中相应的翻译模型的训练方法,并且具有相应的方法实施例的有益效果,在此不再赘述。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例五
本发明实施例还提供了一种用于翻译模型训练的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
参照图5,示出了本发明实施例五的一种用于翻译模型训练的装置的结构框图。
图5是根据一示例性实施例示出的一种用于翻译模型训练的装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理***,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的机器可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述机器可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种机器可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种翻译模型的训练方法,所述方法包括:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种翻译模型的训练方法、装置及机器可读介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种翻译模型的训练方法,其特征在于,包括:
将第一语种的标准文本转化成第一语种的变形文本;
将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述将第一语种的标准文本转化成第一语种的变形文本的步骤,包括:
将所述第一语种的标准文本中的一个或多个分词进行重复,得到第一语种的变形文本。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一语种的标准文本中的一个或多个分词进行重复,得到第一语种的变形文本的步骤,包括:
将所述第一语种的标准文本进行分词处理;
针对每个分词,生成第一随机概率值;依据预设的重复次数概率分布,确定所述第一随机概率值对应的重复次数,将所述分词重复所述重复次数次。
4.根据权利要求1所述的方法,其特征在于,所述将第一语种的标准文本转化成第一语种的变形文本的步骤,包括:
在所述第一语种的标准文本中的一个或者多个***位置处,添加***词得到第一语种的变形文本;其中,所述第一语种的标准文本的句首位置、句尾位置以及所述第一语种的标准文本中任意两分词间均为***位置。
5.根据权利要求4所述的方法,其特征在于,在所述第一语种的标准文本中的一个或者多个***位置处,添加***词得到第一语种的变形文本的步骤,包括:
确定所述第一语种的标准文本中的各***位置;
针对每个***位置,生成第二随机概率值;依据预设的***次数概率分布,确定所述第二随机概率值对应的***次数,从***词列表中确定与所述***位置匹配的所述***次数的***词,并***确定的各所述***词。
6.根据权利要求1所述的方法,其特征在于,所述将第一语种的标准文本转化成第一语种的变形文本的步骤,包括:
将所述第一语种的标准文本中的一个或多个分词删除,得到第一语种的变形文本。
7.根据权利要求6所述的方法,其特征在于,所述将所述第一语种的标准文本中的一个或多个分词删除,得到第一语种的变形文本的步骤,包括:
将所述第一语种的标准文本进行分词处理;
针对每个分词,生成第三随机概率值;依据预设的删除概率分布判断所述第三随机概率值是否指示删除,若是将所述分词从所述第一语种的标准文本中删除。
8.根据权利要求1所述的方法,其特征在于,所述将第一语种的标准文本转化成第一语种的变形文本的步骤,包括:
将所述第一语种的标准文本中的一个或多个分词进行位置替换,得到第一语种的变形文本。
9.根据权利要求8所述的方法,其特征在于,所述将所述第一语种的标准文本中的一个或多个分词进行位置替换,得到第一语种的变形文本的步骤,包括:
将所述第一语种的标准文本进行分词处理;
针对每个分词,生成第四随机概率值;依据预设的替换概率分布判断所述第四随机概率值是否指示替换,若是将所述分词与相邻分词进行位置替换。
10.一种翻译模型的训练装置,其特征在于,包括:
转化模块,用于将第一语种的标准文本转化成第一语种的变形文本;
训练模块,用于将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
11.一种用于翻译模型训练的装置,其特征在于,包括存储器,以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将第一语种的标准文本转化成第一语种的变形文本;
将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
12.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至9中一个或多个所述的翻译模型的训练方法。
CN201711448599.5A 2017-12-27 2017-12-27 一种翻译模型的训练方法、装置以及机器可读介质 Pending CN109977426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711448599.5A CN109977426A (zh) 2017-12-27 2017-12-27 一种翻译模型的训练方法、装置以及机器可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711448599.5A CN109977426A (zh) 2017-12-27 2017-12-27 一种翻译模型的训练方法、装置以及机器可读介质

Publications (1)

Publication Number Publication Date
CN109977426A true CN109977426A (zh) 2019-07-05

Family

ID=67071176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711448599.5A Pending CN109977426A (zh) 2017-12-27 2017-12-27 一种翻译模型的训练方法、装置以及机器可读介质

Country Status (1)

Country Link
CN (1) CN109977426A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027332A (zh) * 2019-12-11 2020-04-17 北京百度网讯科技有限公司 生成翻译模型的方法和装置
CN111291560A (zh) * 2020-03-06 2020-06-16 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN112487833A (zh) * 2020-12-01 2021-03-12 中译语通科技(青岛)有限公司 一种机器翻译方法及其翻译***
CN112597779A (zh) * 2020-12-24 2021-04-02 语联网(武汉)信息技术有限公司 文档翻译方法及装置
CN112784612A (zh) * 2021-01-26 2021-05-11 浙江香侬慧语科技有限责任公司 基于迭代修改的同步机器翻译的方法、装置、介质及设备
CN113345422A (zh) * 2021-04-23 2021-09-03 北京巅峰科技有限公司 语音数据处理方法、装置、设备及存储介质
CN111258991B (zh) * 2020-01-08 2023-11-07 北京小米松果电子有限公司 一种数据处理方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591415A (zh) * 2003-09-01 2005-03-09 株式会社国际电气通信基础技术研究所 机器翻译装置以及机器翻译计算机程序
TW200805091A (en) * 2005-10-28 2008-01-16 Rozetta Corp Apparatus, method, and program for determining naturalness of array of words
CN103956162A (zh) * 2014-04-04 2014-07-30 上海元趣信息技术有限公司 针对儿童的语音识别方法及装置
CN106547743A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 一种进行翻译的方法及其***
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置
CN106782502A (zh) * 2016-12-29 2017-05-31 昆山库尔卡人工智能科技有限公司 一种儿童机器人用的语音识别装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591415A (zh) * 2003-09-01 2005-03-09 株式会社国际电气通信基础技术研究所 机器翻译装置以及机器翻译计算机程序
TW200805091A (en) * 2005-10-28 2008-01-16 Rozetta Corp Apparatus, method, and program for determining naturalness of array of words
CN103956162A (zh) * 2014-04-04 2014-07-30 上海元趣信息技术有限公司 针对儿童的语音识别方法及装置
CN106547743A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 一种进行翻译的方法及其***
CN106708812A (zh) * 2016-12-19 2017-05-24 新译信息科技(深圳)有限公司 机器翻译模型的获取方法及装置
CN106782502A (zh) * 2016-12-29 2017-05-31 昆山库尔卡人工智能科技有限公司 一种儿童机器人用的语音识别装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027332A (zh) * 2019-12-11 2020-04-17 北京百度网讯科技有限公司 生成翻译模型的方法和装置
CN111258991B (zh) * 2020-01-08 2023-11-07 北京小米松果电子有限公司 一种数据处理方法、装置及存储介质
CN111291560A (zh) * 2020-03-06 2020-06-16 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN112487833A (zh) * 2020-12-01 2021-03-12 中译语通科技(青岛)有限公司 一种机器翻译方法及其翻译***
CN112597779A (zh) * 2020-12-24 2021-04-02 语联网(武汉)信息技术有限公司 文档翻译方法及装置
CN112784612A (zh) * 2021-01-26 2021-05-11 浙江香侬慧语科技有限责任公司 基于迭代修改的同步机器翻译的方法、装置、介质及设备
CN112784612B (zh) * 2021-01-26 2023-12-22 浙江香侬慧语科技有限责任公司 基于迭代修改的同步机器翻译的方法、装置、介质及设备
CN113345422A (zh) * 2021-04-23 2021-09-03 北京巅峰科技有限公司 语音数据处理方法、装置、设备及存储介质
CN113345422B (zh) * 2021-04-23 2024-02-20 北京巅峰科技有限公司 语音数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109977426A (zh) 一种翻译模型的训练方法、装置以及机器可读介质
WO2021077529A1 (zh) 神经网络模型压缩方法、语料翻译方法及其装置
CN106202150B (zh) 信息显示方法及装置
CN107992812A (zh) 一种唇语识别方法及装置
CN106251869B (zh) 语音处理方法及装置
CN111524521A (zh) 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN105335754A (zh) 文字识别方法及装置
CN107992485A (zh) 一种同声传译方法及装置
CN110767234B (zh) 音频信息处理方法、装置、电子设备及存储介质
CN110210310A (zh) 一种视频处理方法、装置和用于视频处理的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN108073572B (zh) 信息处理方法及其装置、同声翻译***
CN109002184A (zh) 一种输入法候选词的联想方法和装置
CN107870904A (zh) 一种翻译方法、装置以及用于翻译的装置
CN107274903A (zh) 文本处理方法和装置、用于文本处理的装置
WO2022037600A1 (zh) 摘要记录方法、装置、计算机设备和存储介质
CN105139848B (zh) 数据转换方法和装置
CN108538284A (zh) 同声翻译结果的展现方法及装置、同声翻译方法及装置
CN108628813A (zh) 处理方法和装置、用于处理的装置
CN107291704A (zh) 处理方法和装置、用于处理的装置
CN109471919A (zh) 零代词消解方法及装置
CN109961791A (zh) 一种语音信息处理方法、装置及电子设备
KR20210032875A (ko) 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체
CN108650543A (zh) 视频的字幕编辑方法及装置
CN108628819A (zh) 处理方法和装置、用于处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination