CN108763222A - 一种漏译检测、翻译方法及装置、服务器及存储介质 - Google Patents

一种漏译检测、翻译方法及装置、服务器及存储介质 Download PDF

Info

Publication number
CN108763222A
CN108763222A CN201810473017.7A CN201810473017A CN108763222A CN 108763222 A CN108763222 A CN 108763222A CN 201810473017 A CN201810473017 A CN 201810473017A CN 108763222 A CN108763222 A CN 108763222A
Authority
CN
China
Prior art keywords
participle
translation
probability
translated
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810473017.7A
Other languages
English (en)
Other versions
CN108763222B (zh
Inventor
郑吴杰
邓月堂
刘思凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810473017.7A priority Critical patent/CN108763222B/zh
Publication of CN108763222A publication Critical patent/CN108763222A/zh
Application granted granted Critical
Publication of CN108763222B publication Critical patent/CN108763222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种漏译检测、翻译方法及装置、服务器及存储介质,本发明实施例对原始内容进行翻译,生成翻译内容之后,解析原始内容,获取其包含的至少一个分词,然后根据分词的不译概率从至少一个分词中确定目标分词,并获取目标分词对应的候选翻译内容,以进行漏译检测,例如当翻译内容不包括目标分词对应的候选翻译内容时,确定翻译内容存在漏译,因此,本发明实施例可以检测翻译是否存在漏译,并可以基于检测结果优化翻译模型,保证了翻译模型的翻译准确率,同时也提高了用户使用体验。

Description

一种漏译检测、翻译方法及装置、服务器及存储介质
技术领域
本发明涉及翻译领域,具体涉及一种漏译检测、翻译方法及装置、服务器及存储介质。
背景技术
文本翻译可以使得同一文本在多个语种之间进行转换,是使用不同语种的用户之间进行交流所必须的,常规的翻译方式包括人工翻译和机器翻译,因为人工翻译需要大量的人力物力,实现成本高,因此机器翻译是翻译领域的通用技术。机器翻译又包括SMT(Statistical Machine Translation,统计机器翻译)和NMT(Neural MachineTranslation,神经机器翻译)两个方向。
SMT是一种基于统计的机器翻译方法,其基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译,但是该方式是基于统计翻译,翻译比较僵硬,不流畅,而不是有明显语法错误;因此基于模型的机器翻译方法NMT是机器翻译目前主流的发展方向。
NMT也存在一些问题,例如漏译等,在以下翻译句对中:
原始内容:我给你的红包给你妈妈了。
翻译内容:I gave you a red envelope.
在这个例子中,原文中的"妈妈"没有被翻译到翻译内容中,因此“妈妈”属于漏译。
若一个翻译模型的翻译结果存在漏译,则说明这个翻译模型需要改进或者更换,以提高用户的使用体验,因此,为了保证翻译模型的翻译准确率,需要准确对翻译结果进行漏译等校验。
发明内容
本发明实施例提供一种漏译检测、翻译方法及装置、服务器及存储介质,可以检测翻译是否存在漏译。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种漏译检测方法,包括:
获取原始内容、以及所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
一种翻译方法,包括:
使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;
统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;
根据统计结果,对机器翻译模型进行优化处理;
使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
一种漏译检测装置,包括:
第一获取模块,用于获取原始内容、以及所述原始内容对应的翻译内容对原始内容进行翻译,得到所述原始内容对应的翻译内容;
第一解析模块,用于对所述原始内容进行分词处理,得到至少一个分词;
第二获取模块,用于获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
第三获取模块,用于根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
第一校验模块,用于当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
一种翻译装置,包括:
第一翻译模块,用于使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;
第二解析模块,用于对所述原始内容进行分词处理,得到至少一个分词;
第四获取模块,用于获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
第五获取模块,用于根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
第二校验模块,用于当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;
统计模块,用于统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;
优化模块,用于根据统计结果,对机器翻译模型进行优化处理;
第二翻译模块,用于使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
一种服务器,包括处理器和存储器,所述存储器存储有多条指令,所述指令适于处理器进行加载,以执行上述漏译检测方法中的步骤,或者上述的翻译方法中的步骤。
一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述漏译检测方法中的步骤,或者上述的翻译方法中的步骤。
本发明实施例在对原始内容进行翻译,生成翻译内容之后,解析原始内容,获取其包含的至少一个分词,然后根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容,以进行漏译检测,例如当翻译内容不包括目标分词对应的候选翻译内容时,确定翻译内容存在漏译,因此,本发明实施例可以对翻译是否存在漏译进行检测,并可以基于漏译统计结果对翻译模型进行优化,保证了翻译模型的翻译准确率,同时也提高了用户使用体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的翻译***的第一种组网示意图;
图2是本发明实施例提供的漏译检测方法的第一种流程示意图;
图3是本发明实施例提供的漏译检测装置的结构示意图;
图4是本发明实施例提供的翻译方法的流程示意图;
图5是本发明实施例提供的翻译装置的结构示意图;
图6是本发明实施例提供的翻译***的第二种组网示意图;
图7是本发明实施例提供的漏译检测方法的第二种流程示意图;
图8是本发明实施例提供的漏译检测方法的第三种流程示意图;
图9是本发明实施例提供的用户界面的第一种示意图;
图10是本发明实施例提供的用户界面的第二种示意图;
图11是本发明实施例提供的数据界面的第一种示意图;
图12是本发明实施例提供的数据界面的第二种示意图;
图13是本发明实施例提供的数据界面的第三种示意图;
图14是本发明实施例提供的终端的结构示意图;
图15是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例所提供的翻译***的场景示意图,该翻译***可以包括接口服务器11、翻译服务器12、校验服务器13以及提供各种数据支持的数据服务器14;其中:
数据服务器14用于提供翻译模型数据、校验数据等,翻译模型数据用于翻译服务器12对原始内容进行翻译,以输出对应的翻译内容,校验数据用于校验服务器13对翻译内容进行校验,判断是否存在漏译等问题;
接口服务器11用于为用户提供访问接口,接收用户通过终端发送的翻译请求等,并转发至翻译服务器12;
翻译服务器12用于从翻译请求中提取需要翻译的原始内容,并使用翻译模型对其进行翻译输出对应的翻译内容;
校验服务器13用于获取原始内容、以及所述原始内容对应的翻译内容,对所述原始内容进行分词处理,得到至少一个分词;获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
分词是指单个单词或者短语或者词组等,其基于分词处理算法实现,在一实施例中,为了保证校验准确性,采用单个单词实现。
候选翻译内容是指分词在翻译内容对应语种中的常用或者通用文本,一个原始内容单元可以对应多个候选翻译单元。例如,在将英文翻译为中文时,“Peking”这个分词就可以对应“北京大学”、“京剧”等多个中文文本的候选翻译内容,在将中文翻译为英文时,“爱”这个分词就可以对应“love”、“like”等多个英文文本的候选翻译内容。
需要说明的是,图1所示的***场景示意图仅仅是一个示例,本发明实施例描述的服务器以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着***的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别针对漏译检测方法以及装置进行详细说明。
图2是本发明实施例提供的漏译检测方法的第一种流程示意图,请参阅图2,该漏译检测方法包括以下步骤:
S201:对原始内容进行翻译,得到所述原始内容对应的翻译内容。
原始内容可以直接获取用户通过终端发送的原始内容,例如图9所示的“It’s afine day today”,或者图10所示的“我给你的红包给你妈妈了”,也可以是直接在翻译服务器进行调用。
翻译内容是指采用预设的翻译模型对原始内容进行翻译生成的,这个翻译内容可能存在漏译的问题。
S202:对所述原始内容进行分词处理,得到至少一个分词。
本步骤可以采用常规的分词算法实现,例如将“It’s a fine day today”解析为“It’s”、“a”、“fine”、“day”以及“today”等多个分词,或者将“我给你的红包给你妈妈了”解析为“我”、“给”、“你”、“红包”以及“妈妈”等多个分词。
S203:获取所述分词的不译概率。
所述不译概率为所述原始内容单元在翻译样本中不被翻译的概率;
本步骤可以通过以下方式实现:
统计所述分词在所述翻译样本中出现次数的第一数值;如图11所示,翻译样本包括很多个翻译句对(一个翻译句对包括一个原始内容和翻译内容)组成,可以预计的是,翻译样本的数据越多,计算越准确。
统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值;
获取所述第一数值与所述第二数值的第一差值;
获取所述第一差值与所述第一数值的第一比值,作为所述分词对应的不译概率。
例如,在图11所示的翻译样本中,翻译样本包括4个翻译句对(英文对中文翻译),英文分词“I”在翻译样本的4个翻译句对中的出现次数为3次,即分词“I”的第一数值为3次,对应候选翻译内容“我”在所述翻译样本中的出现次数为3次,即分词“I”对应的候选翻译内容“我”的第二数值为3次;那么,第一数值与所述第二数值的第一差值为0,第一差值与所述第一数值的第一比值为0,即分词“I”对应的不译概率为0;同样的,分词“have”在所述翻译样本中出现次数的第一数值为3次,对应候选翻译内容“有”在所述翻译样本中出现次数的第二数值为2次;那么,第一数值与所述第二数值的第一差值为1,第一差值与所述第一数值的第一比值为33%,即分词“have”对应的不译概率为33%。
S204:根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容。
本步骤中的根据所述分词的不译概率从所述至少一个分词中确定目标分词,可以通过以下方式中的一种实现:
方式1:获取预设条件中的错误率阈值;比对所述分词的不译概率与所述错误率阈值;若所述分词的不译概率小于所述错误率阈值,则将所述分词确定为目标分词。例如,错误率阈值为10%,若某分词的不译概率为50%,则不能作为目标分词,若某分词的不译概率为0.5%,则作为目标分词。
方式2:获取预设条件中的校验数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。例如,校验数为200个,若总共有10000个分词,将这10000个分词的不译概率按照从小到大进行排序,在排序结果中,从小到大选择所述200的不译概率;若某分词的不译概率被选中,则将分词确定为目标分词。
方式3:获取预设条件中的校验率;根据所述原始内容包含的分词的总数、以及所述校验率,计算校验总数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验总数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。例如,校验率为2%,若总共有10000个分词,则需要校验200个分词,将这10000个分词的不译概率按照从小到大进行排序,在排序结果中,从小到大选择所述200的不译概率;若某分词的不译概率被选中,则将分词确定为目标分词。
针对原始内容单元的候选翻译单元,可以通过直接查翻译词典、词对齐模型挖掘单词翻译、或者推荐算法来获取单词的常见翻译,针对查翻译词典以及词对齐模型挖掘单词翻译这两种方式可以参照现有技术,不再赘述,针对推荐算法来获取单词的常见翻译,参加下文描述。
本步骤中的获取所述目标分词对应的候选翻译内容可以通过以下方式实现:
将所述翻译样本中每个翻译句对作为一个用户;
将所述翻译样本中每个分词作为一个项目;
构建用户-项目矩阵;
根据所述用户-项目矩阵,获取各项目的相似项目;
将项目的相似项目对应的分词,作为该项目对应分词的候选翻译内容。
针对所述根据所述用户-项目矩阵,获取各项目的相似项目的步骤,可以通过以下方式实现:采用相似度计算方法,计算各项目之间的余弦相似度;采用协同过滤算法,基于各项目之间的余弦相似度,获得各项目的相似项目。
例如,如图11所示,翻译样本为中英文句对,将每个中英句对看成用户user,每个词看成项目item,得到用户-项目user-item矩阵,采用item-based算法,获得每个词的外文相似词,作为翻译候选,可以选的,相似度计算采用cosine相似度。其中,item-based算法为以项目为基础的协同过滤算法,其具体实现可以参照现有技术,不再赘述。
具体的,翻译样本为图11所示的4个中英句对,将中文进行分词,将每个句对看成一个user,每个词看成一个item,从而得到对应的user-item矩阵,图10给出示例矩阵的部分内容,从图12中可以得到I最相似的是“我”,have最相似的是“我”和“有”。随着数据的增加,推荐的相关词会逐渐贴近日常的翻译。例如图13所示,分别给出“peking”和“北京大学”最相关的外文词。
S205:当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
对一个原文句子和它的翻译,如果一个原文单词的常见翻译在译文中不存在,且估计的错误率较低,就认为是漏译,并指出具体错误的单词。算法如下:
a)对原文每个单词w,获取其常见翻译。
b)检查译文,如果不存在w的常见翻译中的任何一个词,判定w漏译了。
下面给出一个检查结果的示例:
原文:The China's Economic Life Survey,sponsored by CCTV,the NationalBureau of Statistics,China Post and National School of Development at PekingUniversity,suggests new trends in income,expenditure,social security,and lifequality of Chinese people.
翻译:中国经济生活调查,由中央电视台、国家***、中国邮政和国家发展学院赞助,显示了中国人的收入、支出、社会保障和生活质量方面的新趋势。
分词“peking”对应的所有候选翻译内容都没有出现在翻译中,因此翻译存在漏译,并且漏译词为peking。
在一实施例中,在步骤S205之后,还可以包括以下步骤:
统计在所述翻译内容中不存在候选翻译内容的分词;
根据统计结果,对机器翻译模型进行优化处理;
使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
在一实施例中,在步骤S204之后,还可以包括以下步骤:
获取所述分词在所述原始内容中出现次数的第三数值;
获取所述分词的候选翻译内容在所述翻译内容中出现次数的第四数值;
获取所述第三数值与所述第四数值的第二差值;
获取所述第二差值与所述第三数值的第二比值;
若所述第二比值大于所述分词的不译概率,则确定所述翻译内容存在漏译。
例如,分词“peking”在所述原始内容中出现次数的第三数值为10,候选翻译内容在所述翻译内容中出现次数的第四数值为9,第三数值与所述第四数值的第二差值为1,第二差值与所述第三数值的第二比值为10%,大于“peking”不译概率0,因此翻译内容存在漏译。
相应的,图3是本发明实施例提供的漏译检测装置的结构示意图,请参阅图3,该漏译检测装置包括以下模块:
第一获取模块31,用于获取原始内容、以及所述原始内容对应的翻译内容;
第一解析模块32,用于对所述原始内容进行分词处理,得到至少一个分词;
第二获取模块33,用于获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
第三获取模块34,用于根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
第一校验模块35,用于当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
在一实施例中,第一校验模块35还可以具体用于:获取所述分词在所述原始内容中出现次数的第三数值;获取所述分词的候选翻译内容在所述翻译内容中出现次数的第四数值;获取所述第三数值与所述第四数值的第二差值;获取所述第二差值与所述第三数值的第二比值;若所述第二比值大于所述分词的不译概率,则确定所述翻译内容存在漏译。
在一实施例中,第一校验模块35还可以具体用于:统计在所述翻译内容中不存在候选翻译内容的分词;根据统计结果,对机器翻译模型进行优化处理;使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
在一实施例中,第一校验模块35还可以具体用于通过以下方式中的一种,以实现根据所述分词的不译概率从所述至少一个分词中确定目标分词:
方式1:获取预设条件中的错误率阈值;比对所述分词的不译概率与所述错误率阈值;若所述分词的不译概率小于所述错误率阈值,则将所述分词确定为目标分词;
方式2:获取预设条件中的校验数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词;
方式3:获取预设条件中的校验率;根据所述原始内容包含的分词的总数、以及所述校验率,计算校验总数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验总数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。
在一实施例中,第三获取模块34具体用于:将所述翻译样本中每个翻译句对作为一个用户;将所述翻译样本中每个分词作为一个项目;构建用户-项目矩阵;根据所述用户-项目矩阵,获取各项目的相似项目;将项目的相似项目对应的分词,作为该项目对应分词的候选翻译内容。
在一实施例中,第三获取模块34具体用于:采用相似度计算方法,计算各项目之间的余弦相似度;采用协同过滤算法,基于各项目之间的余弦相似度,获得各项目的相似项目。
在一实施例中,第二获取模块33具体用于:统计所述分词在所述翻译样本中出现次数的第一数值;统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值;获取所述第一数值与所述第二数值的第一差值;获取所述第一差值与所述第一数值的第一比值,作为所述分词对应的不译概率。
以下分别针对翻译方法以及装置进行详细说明。
图4是本发明实施例提供的翻译方法的流程示意图,请参阅图4,该翻译方法包括以下步骤:
S401:使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容。
机器翻译模型是使用训练样本库对机器模型进行学习训练得到的模型,用于将原始内容翻译为翻译内容。
例如,翻译服务器在接收到翻译请求后,提取需要翻译的内容“The China'sEconomic Life Survey,sponsored by CCTV,the National Bureau of Statistics,China Post and National School of Development at Peking University,suggestsnew trends in income,expenditure,social security,and life quality of Chinesepeople”,然后使用机器翻译模型将其翻译为“中国经济生活调查,由中央电视台、国家***、中国邮政和国家发展学院赞助,显示了中国人的收入、支出、社会保障和生活质量方面的新趋势”。
S402:对所述原始内容进行分词处理,得到至少一个分词。
S403:获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率。
S404:根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容。
S405:当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
步骤S402至步骤S405的实现与步骤S202至步骤S205相同,不再赘述。
S406:统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词。
分词“peking”对应的所有候选翻译内容都没有出现在翻译中,因此将分词“peking”作为漏译分词。
S407:根据统计结果,对机器翻译模型进行优化处理。
在训练样本库中,增加漏译分词“peking”以及对应的候选翻译内容“北京大学”,然后使用新的训练样本库重新进行训练,得到新的机器翻译模型,实现对机器翻译模型的优化处理。
S408:使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
使用优化处理后的机器翻译模型,将“The China's Economic Life Survey,sponsored by CCTV,the National Bureau of Statistics,China Post and NationalSchool of Development at Peking University,suggests new trends in income,expenditure,social security,and life quality of Chinese people”翻译为“中国经济生活调查,由中央电视台、国家***、北京大学中国邮政和国家发展学院赞助,显示了中国人的收入、支出、社会保障和生活质量方面的新趋势”
相应的,图5是本发明实施例提供的翻译装置的结构示意图,请参阅图5,翻译装置包括以下模块:
第一翻译模块51,用于使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;
第二解析模块52,用于对所述原始内容进行分词处理,得到至少一个分词;
第四获取模块53,用于获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
第五获取模块54,用于根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
第二校验模块55,用于当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;
统计模块56,用于统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;
优化模块57,用于根据统计结果,对机器翻译模型进行优化处理;
第二翻译模块58,用于使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
在一实施例中,优化模块57具体用于在训练样本库中,增加漏译分词“peking”以及对应的候选翻译内容“北京大学”,然后使用新的训练样本库重新进行训练,得到新的机器翻译模型,实现对机器翻译模型的优化处理。
在一实施例中,第二校验模块55还可以具体用于:获取所述分词在所述原始内容中出现次数的第三数值;获取所述分词的候选翻译内容在所述翻译内容中出现次数的第四数值;获取所述第三数值与所述第四数值的第二差值;获取所述第二差值与所述第三数值的第二比值;若所述第二比值大于所述分词的不译概率,则确定所述翻译内容存在漏译。
在一实施例中,第二校验模块55还可以具体用于:统计在所述翻译内容中不存在候选翻译内容的分词;根据统计结果,对机器翻译模型进行优化处理;使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
在一实施例中,第二校验模块55还可以具体用于通过以下方式中的一种,以实现根据所述分词的不译概率从所述至少一个分词中确定目标分词:
方式1:获取预设条件中的错误率阈值;比对所述分词的不译概率与所述错误率阈值;若所述分词的不译概率小于所述错误率阈值,则将所述分词确定为目标分词;
方式2:获取预设条件中的校验数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词;
方式3:获取预设条件中的校验率;根据所述原始内容包含的分词的总数、以及所述校验率,计算校验总数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验总数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。
在一实施例中,第五获取模块54具体用于:将所述翻译样本中每个翻译句对作为一个用户;将所述翻译样本中每个分词作为一个项目;构建用户-项目矩阵;根据所述用户-项目矩阵,获取各项目的相似项目;将项目的相似项目对应的分词,作为该项目对应分词的候选翻译内容。
在一实施例中,第五获取模块54具体用于:采用相似度计算方法,计算各项目之间的余弦相似度;采用协同过滤算法,基于各项目之间的余弦相似度,获得各项目的相似项目。
在一实施例中,第四获取模块53具体用于:统计所述分词在所述翻译样本中出现次数的第一数值;统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值;获取所述第一数值与所述第二数值的第一差值;获取所述第一差值与所述第一数值的第一比值,作为所述分词对应的不译概率。
现以用户社交软件翻译***为例,对本发明进行说明,请参阅图6,该***包括用户终端61和社交服务器62,社交服务器62可以具备图1中所有服务器的功能,用户终端61主要是用户安装用户社交软件客户端之后,在与其他用户进行交互时,可以将英文翻译为中文,或者将中文翻译为英文。
场景1,社交服务器采用推荐算法确定分词的候选翻译内容。
具体的,如图7所示,本实施例提供的漏译检测方法包括以下步骤:
S701:社交服务器对翻译样本进行训练,获得各单词的候选翻译内容。
推荐***是很常见的智能***,例如购物推荐,文章推荐,音乐推荐等等。其中常用的一种算法是协同过滤算法(collaborative filtering)。协同过滤是基于user-item矩阵,根据已有的用户评价/购买信息,预测用户对未见过item的喜爱程度,推荐用户可能感兴趣的item。例如一个电影推荐***,会根据一个用户对电影的打分信息,通过查找相似用户,以及这些相似用户的电影打分,来预测指定用户对没看过的电影的喜爱程度(user-based算法)。此外,也可以先查找每个电影的相似电影,再根据用户喜欢的电影列表,推荐和他喜欢的电影相似的他没看过的电影(item-based算法)。
在本实施例中,社交服务器采用推荐算法对翻译样本进行训练,获得各单词的候选翻译内容,具体的,翻译样本为图11所示的4个中英句对,将中文进行分词,将每个句对看成一个user,每个词看成一个item,从而得到对应的user-item矩阵,图12给出示例矩阵的部分内容,从图12中可以得到I最相似的是“我”,have最相似的是“我”和“有”。随着数据的增加,推荐的相关词会逐渐贴近日常的翻译。
假定本步骤确定:分词“fine”的候选翻译内容“好”,以及分词“today”的候选翻译内容“今天”。
S702:社交服务器统计并获得各单词的不译概率。
不译概率是指分词不需要翻译的概率,这种不翻译不会导致翻译错误等,例如“have”就可以选择翻译或者不翻译。
例如,分词“today”在所述翻译样本中出现次数的第一数值为3次,对应候选翻译内容“今天”在所述翻译样本中出现次数的第二数值为3次;那么,第一数值与所述第二数值的第一差值为0,第一差值与所述第一数值的第一比值为0,即分词“today”对应的不译概率为0。
S703:用户终端发送翻译请求。
如图9所示,用户检测界面选择翻译“It’s a fine day today”。
S704:社交服务器翻译原始内容,获得翻译内容。
社交服务器使用机器翻译模型,将原始内容“It’s a fine day today”翻译为“好天啊”。
S705:社交服务器对原始内容进行分词处理,得到至少一个分词。
本步骤可以采用常规的分词算法实现,例如将“It’s a fine day today”解析为“It’s”、“a”、“fine”、“day”以及“today”等多个分词。
S706:社交服务器根据所述分词的不译概率从所述至少一个分词中确定目标分词。
假定预设条件包括错误率阈值为10%,若分词“It’s”的不译概率为15%、“day”的不译概率为25%、“a”的不译概率为50%,则分词“It’s”、“a”以及“day”不能作为目标分词,若分词“fine”的不译概率为0.5%、分词“today”的不译概率为0%,则将分词“fine”以及“today”作为目标分词。
S707:社交服务器获取目标分词对应的候选翻译内容。
获取分词“fine”的候选翻译内容“好”,以及分词“today”的候选翻译内容“今天”。
S708:社交服务器判断翻译内容是否存在漏译。
因为翻译内容为“好天啊”,不包括“today”的候选翻译内容“今天”,因此存在漏译。
S709:社交服务器重新进行翻译并校验,直至不存在漏译。
社交服务器使用新机器翻译模型将原始内容“It’s a fine day today”翻译为“今天好天啊”,进行漏译检测后,包括“today”的候选翻译内容“今天”以及“fine”的候选翻译内容“好”,因此不存在漏译。
S710:社交服务器向用户终端发送翻译内容。
社交服务器将翻译内容发送到用户终端,如图9所示,翻译内容为“今天好天啊”。
场景2,社交服务器采集字典确定分词的候选翻译内容。
具体的,如图8所示,本实施例提供的漏译检测方法包括以下步骤:
S801:社交服务器对翻译字典进行解析,获得各单词的候选翻译内容。
在本实施例中,为了降低***计算负担,社交服务器对翻译字典进行解析,获得各单词的候选翻译内容。
假定本步骤确定:分词“妈妈”的候选翻译内容“mother”。
S802:社交服务器统计并获得各单词的不译概率。
不译概率是指分词不需要翻译的概率,这种不翻译不会导致翻译错误等,例如“have”就可以选择翻译或者不翻译。
例如,分词“妈妈”在所述翻译样本中出现次数的第一数值为3次,对应候选翻译内容“mother”在所述翻译样本中出现次数的第二数值为3次;那么,第一数值与所述第二数值的第一差值为0,第一差值与所述第一数值的第一比值为0,即分词“被迫”对应的不译概率为0。
S803:用户终端发送翻译请求。
如图10所示,用户检测界面选择翻译“我给你的红包给你妈妈了”。
S804:社交服务器翻译原始内容,获得翻译内容。
社交服务器使用机器翻译模型,将原始内容“我给你的红包给你妈妈了”翻译为“Igave you’re a red envelope”。
S805:社交服务器对原始内容进行分词处理,得到至少一个分词。
本步骤可以采用常规的分词算法实现,例如将“我给你的红包给你妈妈了”解析为“我”、“给”、“你”、“红包”以及“妈妈”等多个分词。
S806:社交服务器从所述至少一个分词中确定目标分词。
假定预设条件包括校验数为2个,若分词“我”的不译概率为10%、“给”的不译概率为10%、“你”的不译概率为10%、“红包”的不译概率为0%、“妈妈”的不译概率为0%,则将分词“红包”以及“妈妈”作为目标分词。
S807:社交服务器获取目标分词对应的候选翻译内容。
获取分词“红包”的候选翻译内容“red envelope”,以及分词“妈妈”的候选翻译内容“mother”。
S808:社交服务器判断翻译内容是否存在漏译。
因为翻译内容为“I gave your red envelope to you”,不包括“妈妈”的候选翻译内容“mother”,因此存在漏译。
S809:社交服务器重新进行翻译并校验,直至不存在漏译。
社交服务器使用新机器翻译模型将原始内容“我给你的红包给你妈妈了”翻译为“I gave your red envelope to your mother”,进行漏译检测后,分词“红包”的候选翻译内容“red envelope”,以及分词“妈妈”的候选翻译内容“mother”,因此不存在漏译。
S810:社交服务器向用户终端发送翻译内容。
社交服务器将翻译内容发送到用户终端,如图10所示,翻译内容为“I gave yourred envelope to your mother”。
相应的,本发明实施例还提供一种终端,如图14所示,该终端可以包括射频(RF,Radio Frequency)电路1401、包括有一个或一个以上计算机可读存储介质的存储器1402、输入单元1403、显示单元1404、传感器1405、音频电路1406、无线保真(WiFi,WirelessFidelity)模块1407、包括有一个或者一个以上处理核心的处理器1408、以及电源1409等部件。本领域技术人员可以理解,图14中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路1401可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1408处理;另外,将涉及上行的数据发送给基站。通常,RF电路1401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路1401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器1402可用于存储软件程序以及模块,处理器1408通过运行存储在存储器1402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1402还可以包括存储器控制器,以提供处理器1408和输入单元1403对存储器1402的访问。
输入单元1403可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元1403可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。在一实施例中,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1408,并能接收处理器1408发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元1403还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1404可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1404可包括显示面板,在一实施例中,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器1408以确定触摸事件的类型,随后处理器1408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图14中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器1405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1406、扬声器,传声器可提供用户与终端之间的音频接口。音频电路1406可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路1406接收后转换为音频数据,再将音频数据输出处理器1408处理后,经RF电路1401以发送给比如另一终端,或者将音频数据输出至存储器1402以便进一步处理。音频电路1406还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块1407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1407,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1408是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1402内的软件程序和/或模块,以及调用存储在存储器1402内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。在一实施例中,处理器1408可包括一个或多个处理核心;优选的,处理器1408可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1408中。
终端还包括给各个部件供电的电源1409(比如电池),优选的,电源可以通过电源管理***与处理器1408逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源1409还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。
具体在本实施例中,终端中的处理器1408会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1402中,并由处理器1408来运行存储在存储器1402中的应用程序,从而实现各种功能:
获取原始内容,以及所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
在一实施例中,实现功能:统计所述分词在所述翻译样本中出现次数的第一数值;统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值;获取所述第一数值与所述第二数值的第一差值;获取所述第一差值与所述第一数值的第一比值,作为所述分词对应的不译概率。
在一实施例中,实现功能:将所述翻译样本中每个翻译句对作为一个用户;将所述翻译样本中每个分词作为一个项目;构建用户-项目矩阵;根据所述用户-项目矩阵,获取各项目的相似项目;将项目的相似项目对应的分词,作为该项目对应分词的候选翻译内容。
在一实施例中,实现功能:采用相似度计算方法,计算各项目之间的余弦相似度;采用协同过滤算法,基于各项目之间的余弦相似度,获得各项目的相似项目。
在一实施例中,实现功能:获取预设条件中的错误率阈值;比对所述分词的不译概率与所述错误率阈值;若所述分词的不译概率小于所述错误率阈值,则将所述分词确定为目标分词。
在一实施例中,实现功能:获取预设条件中的校验数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。
在一实施例中,实现功能:获取预设条件中的校验率;根据所述原始内容包含的分词的总数、以及所述校验率,计算校验总数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验总数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。
在一实施例中,实现功能:统计在所述翻译内容中不存在候选翻译内容的分词;根据统计结果,对机器翻译模型进行优化处理;使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
在一实施例中,实现功能:获取所述分词在所述原始内容中出现次数的第三数值;获取所述分词的候选翻译内容在所述翻译内容中出现次数的第四数值;获取所述第三数值与所述第四数值的第二差值;获取所述第二差值与所述第三数值的第二比值;若所述第二比值大于所述分词的不译概率,则确定所述翻译内容存在漏译。
具体在一实施例中,终端中的处理器1408会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1402中,并由处理器1408来运行存储在存储器1402中的应用程序,从而实现各种功能:
使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;
统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;
根据统计结果,对机器翻译模型进行优化处理;
使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
相应的,本发明实施例还提供一种服务器,如图15所示,该服务器可以包括有一个或一个以上计算机可读存储介质的存储器1501、、包括有一个或者一个以上处理核心的处理器1502等部件。本领域技术人员可以理解,图15中示出的结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
存储器1501可用于存储软件程序以及模块,处理器1502通过运行存储在存储器1501的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1501可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1501还可以包括存储器控制器,以提供处理器1502对存储器1501的访问。
具体在本实施例中,服务器中的处理器1502会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1501中,并由处理器1502来运行存储在存储器1501中的应用程序,从而实现各种功能:
获取原始内容,以及所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
在一实施例中,实现功能:统计所述分词在所述翻译样本中出现次数的第一数值;统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值;获取所述第一数值与所述第二数值的第一差值;获取所述第一差值与所述第一数值的第一比值,作为所述分词对应的不译概率。
在一实施例中,实现功能:将所述翻译样本中每个翻译句对作为一个用户;将所述翻译样本中每个分词作为一个项目;构建用户-项目矩阵;根据所述用户-项目矩阵,获取各项目的相似项目;将项目的相似项目对应的分词,作为该项目对应分词的候选翻译内容。
在一实施例中,实现功能:采用相似度计算方法,计算各项目之间的余弦相似度;采用协同过滤算法,基于各项目之间的余弦相似度,获得各项目的相似项目。
在一实施例中,实现功能:获取预设条件中的错误率阈值;比对所述分词的不译概率与所述错误率阈值;若所述分词的不译概率小于所述错误率阈值,则将所述分词确定为目标分词。
在一实施例中,实现功能:获取预设条件中的校验数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。
在一实施例中,实现功能:获取预设条件中的校验率;根据所述原始内容包含的分词的总数、以及所述校验率,计算校验总数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验总数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。
在一实施例中,实现功能:统计在所述翻译内容中不存在候选翻译内容的分词;根据统计结果,对机器翻译模型进行优化处理;使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
在一实施例中,实现功能:获取所述分词在所述原始内容中出现次数的第三数值;获取所述分词的候选翻译内容在所述翻译内容中出现次数的第四数值;获取所述第三数值与所述第四数值的第二差值;获取所述第二差值与所述第三数值的第二比值;若所述第二比值大于所述分词的不译概率,则确定所述翻译内容存在漏译。
具体在一实施例中,服务器中的处理器1502会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1501中,并由处理器1502来运行存储在存储器1501中的应用程序,从而实现各种功能:
使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;
统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;
根据统计结果,对机器翻译模型进行优化处理;
使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对资源管理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种漏译检测方法中的步骤。例如,该指令可以执行如下步骤:
获取原始内容,以及所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
在一实施例中,实现功能:统计所述分词在所述翻译样本中出现次数的第一数值;统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值;获取所述第一数值与所述第二数值的第一差值;获取所述第一差值与所述第一数值的第一比值,作为所述分词对应的不译概率。
在一实施例中,实现功能:将所述翻译样本中每个翻译句对作为一个用户;将所述翻译样本中每个分词作为一个项目;构建用户-项目矩阵;根据所述用户-项目矩阵,获取各项目的相似项目;将项目的相似项目对应的分词,作为该项目对应分词的候选翻译内容。
在一实施例中,实现功能:采用相似度计算方法,计算各项目之间的余弦相似度;采用协同过滤算法,基于各项目之间的余弦相似度,获得各项目的相似项目。
在一实施例中,实现功能:获取预设条件中的错误率阈值;比对所述分词的不译概率与所述错误率阈值;若所述分词的不译概率小于所述错误率阈值,则将所述分词确定为目标分词。
在一实施例中,实现功能:获取预设条件中的校验数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。
在一实施例中,实现功能:获取预设条件中的校验率;根据所述原始内容包含的分词的总数、以及所述校验率,计算校验总数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验总数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。
在一实施例中,实现功能:统计在所述翻译内容中不存在候选翻译内容的分词;根据统计结果,对机器翻译模型进行优化处理;使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
在一实施例中,实现功能:获取所述分词在所述原始内容中出现次数的第三数值;获取所述分词的候选翻译内容在所述翻译内容中出现次数的第四数值;获取所述第三数值与所述第四数值的第二差值;获取所述第二差值与所述第三数值的第二比值;若所述第二比值大于所述分词的不译概率,则确定所述翻译内容存在漏译。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的翻译方法中的步骤。例如,该指令可以执行如下步骤:
使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;
统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;
根据统计结果,对机器翻译模型进行优化处理;
使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种资源管理方法中的步骤,因此,可以实现本发明实施例所提供的任一种资源管理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种漏译检测、翻译方法及装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种漏译检测方法,其特征在于,包括:
获取原始内容、以及所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
2.根据权利要求1所述的漏译检测方法,其特征在于,所述获取所述分词的不译概率的步骤包括:
统计所述分词在所述翻译样本中出现次数的第一数值;
统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值;
获取所述第一数值与所述第二数值的第一差值;
获取所述第一差值与所述第一数值的第一比值,作为所述分词对应的不译概率。
3.根据权利要求1所述的漏译检测方法,其特征在于,所述获取所述目标分词对应的候选翻译内容的步骤包括:
将所述翻译样本中每个翻译句对作为一个用户;
将所述翻译样本中每个分词作为一个项目;
构建用户项目矩阵;
根据所述用户项目矩阵,获取各项目的相似项目;
将项目的相似项目对应的分词,作为该项目对应分词的候选翻译内容。
4.根据权利要求3所述的漏译检测方法,其特征在于,所述根据所述用户项目矩阵,获取各项目的相似项目的步骤包括:
采用相似度计算方法,计算各项目之间的余弦相似度;
采用协同过滤算法,基于各项目之间的余弦相似度,获得各项目的相似项目。
5.根据权利要求1所述的漏译检测方法,其特征在于,所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括:
获取预设条件中的错误率阈值;
比对所述分词的不译概率与所述错误率阈值;
若所述分词的不译概率小于所述错误率阈值,则将所述分词确定为目标分词。
6.根据权利要求1所述的漏译检测方法,其特征在于,所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括:
获取预设条件中的校验数;
将各分词的不译概率按照从小到大进行排序;
在排序结果中,从小到大选择所述校验数对应数量的不译概率;
若所述分词的不译概率被选中,则将所述分词确定为目标分词。
7.根据权利要求1所述的漏译检测方法,其特征在于,所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括:
获取预设条件中的校验率;
根据所述原始内容包含的分词的总数、以及所述校验率,计算校验总数;
将各分词的不译概率按照从小到大进行排序;
在排序结果中,从小到大选择所述校验总数对应数量的不译概率;
若所述分词的不译概率被选中,则将所述分词确定为目标分词。
8.根据权利要求1至7任一项所述的漏译检测方法,其特征在于,在获取所述目标分词对应的候选翻译内容的步骤之后,还包括:
获取所述分词在所述原始内容中出现次数的第三数值;
获取所述分词的候选翻译内容在所述翻译内容中出现次数的第四数值;
获取所述第三数值与所述第四数值的第二差值;
获取所述第二差值与所述第三数值的第二比值;
若所述第二比值大于所述分词的不译概率,则确定所述翻译内容存在漏译。
9.一种翻译方法,其特征在于,包括:
使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;
对所述原始内容进行分词处理,得到至少一个分词;
获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;
统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;
根据统计结果,对机器翻译模型进行优化处理;
使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
10.一种漏译检测装置,其特征在于,包括:
第一获取模块,用于获取原始内容、以及所述原始内容对应的翻译内容;
第一解析模块,用于对所述原始内容进行分词处理,得到至少一个分词;
第二获取模块,用于获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
第三获取模块,用于根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
第一校验模块,用于当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。
11.一种翻译装置,其特征在于,包括:
第一翻译模块,用于使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;
第二解析模块,用于对所述原始内容进行分词处理,得到至少一个分词;
第四获取模块,用于获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;
第五获取模块,用于根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;
第二校验模块,用于当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;
统计模块,用于统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;
优化模块,用于根据统计结果,对机器翻译模型进行优化处理;
第二翻译模块,用于使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。
12.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的漏译检测方法中的步骤,或者以执行权利要求9所述的翻译方法中的步骤。
13.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的漏译检测方法中的步骤,或者以执行权利要求9所述的翻译方法中的步骤。
CN201810473017.7A 2018-05-17 2018-05-17 一种漏译检测、翻译方法及装置、服务器及存储介质 Active CN108763222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810473017.7A CN108763222B (zh) 2018-05-17 2018-05-17 一种漏译检测、翻译方法及装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810473017.7A CN108763222B (zh) 2018-05-17 2018-05-17 一种漏译检测、翻译方法及装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN108763222A true CN108763222A (zh) 2018-11-06
CN108763222B CN108763222B (zh) 2020-08-04

Family

ID=64008371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810473017.7A Active CN108763222B (zh) 2018-05-17 2018-05-17 一种漏译检测、翻译方法及装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN108763222B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414013A (zh) * 2019-07-31 2019-11-05 腾讯科技(深圳)有限公司 数据处理方法、装置及电子设备
CN111931519A (zh) * 2019-04-28 2020-11-13 阿里巴巴集团控股有限公司 翻译测评方法及装置、存储介质和处理器
CN114936566A (zh) * 2022-04-26 2022-08-23 北京百度网讯科技有限公司 机器翻译方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950286A (zh) * 2010-09-14 2011-01-19 传神联合(北京)信息技术有限公司 软件翻译***中的纠错模块及其纠错方法
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
KR20130102926A (ko) * 2012-03-08 2013-09-23 한국전자통신연구원 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치
CN108009158A (zh) * 2017-11-27 2018-05-08 环宇爱译(北京)信息技术有限责任公司 交互提示翻译方法、装置、存储介质和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950286A (zh) * 2010-09-14 2011-01-19 传神联合(北京)信息技术有限公司 软件翻译***中的纠错模块及其纠错方法
KR20130102926A (ko) * 2012-03-08 2013-09-23 한국전자통신연구원 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN108009158A (zh) * 2017-11-27 2018-05-08 环宇爱译(北京)信息技术有限责任公司 交互提示翻译方法、装置、存储介质和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931519A (zh) * 2019-04-28 2020-11-13 阿里巴巴集团控股有限公司 翻译测评方法及装置、存储介质和处理器
CN111931519B (zh) * 2019-04-28 2023-11-17 阿里巴巴集团控股有限公司 翻译测评方法及装置、存储介质和处理器
CN110414013A (zh) * 2019-07-31 2019-11-05 腾讯科技(深圳)有限公司 数据处理方法、装置及电子设备
CN114936566A (zh) * 2022-04-26 2022-08-23 北京百度网讯科技有限公司 机器翻译方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN108763222B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
JP6695389B2 (ja) オンライン・ソーシャル・ネットワーク用のクライアント側検索テンプレート
CN104239535B (zh) 一种为文字配图的方法、服务器、终端及***
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
US9589149B2 (en) Combining personalization and privacy locally on devices
CN104123937B (zh) 提醒设置方法、装置和***
CN106227774B (zh) 信息搜索方法及装置
CN103702297B (zh) 短信增强方法、装置及***
CN105447036B (zh) 一种基于观点挖掘的社交媒体信息可信度评估方法及装置
CN106250837A (zh) 一种视频的识别方法、装置和***
CN110033851A (zh) 信息推荐方法、装置、存储介质及服务器
CN103745193B (zh) 一种肤色检测方法及装置
CN108763887A (zh) 数据库操作请求验证方法、装置、服务器及存储介质
CN108549538A (zh) 一种代码检测方法、装置、存储介质及测试终端
US20230237277A1 (en) Aspect prompting framework for language modeling
WO2014176750A1 (en) Reminder setting method, apparatus and system
CN110825863B (zh) 一种文本对融合方法及装置
CN110196795A (zh) 检测移动终端应用运行状态的方法及相关装置
US20150310119A1 (en) Systems and Methods for Filtering Microblogs
CN107885718B (zh) 语义确定方法及装置
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN108563965A (zh) 文字输入方法和装置、计算机可读存储介质、终端
CN110335386A (zh) 一种身份验证方法、装置、终端以及存储介质
CN110163051A (zh) 文本提取方法、装置及存储介质
CN108763222A (zh) 一种漏译检测、翻译方法及装置、服务器及存储介质
CN110335629A (zh) 音频文件的音高识别方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant