CN111460836A

CN111460836A - 一种数据处理方法、装置和用于数据处理的装置

Info

Publication number: CN111460836A
Application number: CN201910046779.3A
Authority: CN
Inventors: 冯静静; 周纤
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2020-07-28
Anticipated expiration: 2039-01-18
Also published as: CN111460836B

Abstract

本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括：确定源语言文本对应的目标语言文本；若所述目标语言文本中存在符合替换条件的目标分词，则将所述目标分词替换为目标预置词，以得到替换后目标语言文本；输出所述替换后目标语言文本。本发明实施例可以将目标语言文本中的目标分词替换为目标预置词，能够使得替换后的目标语言文本更加符合用户的输入习惯，更加符合用户的实际需求。

Description

一种数据处理方法、装置和用于数据处理的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、装置和用于数据处理的装置。

背景技术

机器翻译，又称为自动翻译，是利用计算机将源语言转换为目标语言的过程。随着计算机计算的不断发展，机器翻译的翻译方式主要经历了如下三个发展阶段：基于规则的翻译方式、基于统计的翻译方式、以及基于人工神经网络的翻译方式。

目前，上述翻译方式的关注点集中在如何向用户提供更加准确的翻译结果，因此，得到的翻译结果通常为标准化的内容，然而，这样的翻译结果并不适用于所有的用户或者所有的应用场景。

例如，用户在即时通讯应用中聊天的过程中，会使用更多的口语进行交流，这样，标准化的翻译结果将不符合用户的口语表达习惯。例如，源语言“what are you doing？”，可能会被翻译为“你在做什么？”，但是，用户在聊天场景中可能更倾向于使用口语表达：“你在干啥？”，可以看出，目前的机器翻译得到的翻译结果不能符合用户的口语表达习惯。

发明内容

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置，可以提高翻译耳机的翻译效率，以及提高用户使用翻译耳机的便利性。

为了解决上述问题，本发明实施例公开了一种数据处理方法，包括：

确定源语言文本对应的目标语言文本；

若所述目标语言文本中存在符合替换条件的目标分词，则将所述目标分词替换为目标预置词，以得到替换后目标语言文本；

输出所述替换后目标语言文本。

另一方面，本发明实施例公开了一种数据处理装置，包括：

确定模块，用于确定源语言文本对应的目标语言文本；

替换模块，用于在所述目标语言文本中存在符合替换条件的目标分词的情况下，将所述目标分词替换为目标预置词，以得到替换后目标语言文本；

输出模块，用于输出所述替换后目标语言文本。

再一方面，本发明实施例公开了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定源语言文本对应的目标语言文本；

输出所述替换后目标语言文本。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的数据处理方法。

本发明实施例包括以下优点：

本发明实施例在确定源语言文本对应的目标语言文本之后，可以进一步判断所述目标语言文本中是否存在符合替换条件的目标分词，若存在，则将所述目标分词替换为目标预置词，以得到替换后目标语言文本，并且输出所述替换后目标语言文本。所述目标预置词具体可以为在当前场景下更符合用户输入习惯的词，将目标语言文本中的目标分词替换为目标预置词，能够使得替换后的目标语言文本更加符合用户的输入习惯，更加符合用户的实际需求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明的一种数据处理装置实施例的结构框图；

图3是本发明的一种用于数据处理的装置800的框图；及

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、确定源语言文本对应的目标语言文本；

步骤102、若所述目标语言文本中存在符合替换条件的目标分词，则将所述目标分词替换为目标预置词，以得到替换后目标语言文本；

步骤103、输出所述替换后目标语言文本。

本发明实施例可应用于翻译场景，所述翻译场景对应的翻译客户端可以根据用户设置的源语言以及目标语言的种类，将源语言文本翻译成目标语言文本。可以理解，本发明实施例对源语言和目标语言的种类不加以限制，例如，所述源语言可以为中文，所述目标语言可以为英文；或者，所述源语言可以为英文，所述目标语言可以为日文等。

本发明实施例对所述翻译客户端的形式不加以限制，例如，所述翻译客户端可以为翻译APP(Application，应用程序)，用户可以在终端中下载安装并使用该APP；或者，所述翻译客户端可以为网页在线工具，用户可以打开网页，使用网页中的在线翻译客户端等。

所述翻译客户端可以运行在终端上，所述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

在本发明实施例中，所述源语言文本可用于表征待翻译的文本，本发明实施例可以将所述源语言文本翻译为目标语言文本。可以理解，本发明实施例对所述源语言文本的具体来源不加以限制。

在本发明的一种可选实施例中，所述源语言文本可以为根据即时通讯应用中获取的即时通讯消息所得到。例如，所述源语言文本可以为用户通过即时通讯应用向通讯对端发送的即时通讯消息中的文本，或者，所述源语言文本可以为用户通过即时通讯应用接收的、来自通讯对端的即时通讯消息中的文本，或者，所述源语言文本还可以为用户在即时通讯应用的输入框中输入的文本等。

所述目标语言可以为依据用户的设置得到，或者可以为依据用户的历史语言得到，或者还可以通过对输入场景进行智能分析得到。例如，以输入场景为即时通讯应用为例，本发明实施例可以根据即时通讯应用接收到的通讯消息，确定目标语言，如果接收到的通讯消息为英文，则可以确定目标语言为英文，如果接收到的通讯消息从英文变为日文，则可以自动将目标语言从英文切换为日文，进而可以减少用户手动操作的成本，提高用户的输入效率。

可选地，可以提供多种语言供用户选择，并将用户选择的语言作为目标语言；历史语言可以为用户使用过的语言，可以从除了源语言之外的历史语言中获取目标语言。

对于待翻译的源语言文本，本发明实施例可以先根据已有的翻译方法确定源语言文本对应的目标语言文本。可以理解，本发明实施例对确定源语言文本对应的目标语言文本的具体翻译方法不加以限制。在本发明的一种可选实施例中，所述确定源语言文本对应的目标语言文本，具体可以包括：根据***翻译模型或用户翻译模型，确定源语言文本对应的目标语言文本；其中，所述***翻译模型用于描述无用户翻译偏好的源语言文本到目标语言文本的翻译概率；所述用户翻译模型用于描述有用户翻译偏好的源语言文本到目标语言文本的翻译概率。

在确定源语言文本对应的目标语言文本之后，可以判断所述目标语言文本中是否存在目标分词，所述目标分词为可以被目标预置词所替换的分词。

在本发明的一种可选实施例中，所述替换条件具体可以包括：所述目标分词的语义与所述目标预置词的语义相关，且所述目标预置词的使用次数超过第一阈值。

其中，所述目标预置词与所述目标分词的语义相关，且所述目标预置词的使用次数超过第一阈值，说明用户使用目标预置词的次数较多，因此，在语义相关的情况下，用户可能更倾向于使用所述目标预置词而非目标分词，也即，所述目标预置词比所述目标分词更符合用户的输入习惯，因此，可以确定该目标分词满足替换条件，则可以将目标语言文本中的目标分词替换为目标预置词，并输出替换后的目标语言文本。

其中，所述语义相关具体可以指目标预置词与目标分词的语义相同或者相近，例如，目标预置词和目标分词可以为同义词或者近义词，或者，目标预置词和目标分词可以分别为语义相同的口语词和书面语词等。

可以理解，本发明实施例对所述第一阈值的具体取值不加以限制，本领域技术人员可以根据实际需要进行设置，例如，可以设置所述第一阈值为20等。

在本发明的一种应用示例中，假设在即时通讯应用中获取源语言文本为“whatare you doing？”，根据***翻译模型，可以确定该源语言文本对应的目标语言文本为“你在做什么？”，根据用户在即时通讯应用中的历史输入记录可知，用户使用与“做什么”语义相关的目标预置词“干啥”的次数超过第一阈值20，因此，可以确定该目标语言文本中存在符合替换条件的目标分词为“做什么”，并且可以将目标分词“做什么”替换为目标预置词“干啥”，得到替换后目标语言文本为“你在干啥？”，使得替换后的目标语言文本更加符合用户在即时通讯应用中的输入习惯。

在本发明的一种可选实施例中，所述方法还可以包括：获取当前的输入环境；所述替换条件具体可以包括：所述目标分词的语义与所述目标预置词的语义相关，且所述目标预置词与所述输入环境的关联系数大于所述目标分词与所述输入环境的关联系数。

其中，所述输入环境具体可以包括：即时通讯应用、文本编辑应用、新闻网页、游戏界面等任意可以输入文本的应用环境。

本发明实施例可以获取当前的输入环境，并且判断目标语言文本中是否存在与当前的输入环境不匹配的目标分词。具体地，本发明实施例可以收集大量用户的输入数据，并且根据收集的输入数据，统计各分词与不同输入环境之间的关联系数，关联系数越大，表示该分词越符合当前的输入环境。

如果存在目标预置词，该目标预置词与目标语言文本中的目标分词语义相关，且该目标预置词与当前输入环境的关联系数大于该目标分词与当前输入环境的关联系数，则可以确定所述目标语言文本中存在符合替换条件的目标分词。

由此得到的替换后的目标语言文本更加符合当前的输入环境。例如，若当前输入环境为即时通讯应用，则替换后的目标语言文本更加符合及时通讯应用中的口语输入习惯；若当前输入环境为文本编辑应用，则替换后的目标语言文本更加符合文本编辑应用中的书面语习惯等。

在本发明的一种可选实施例中，本发明实施例的翻译客户端的功能可以应用在输入法程序中，例如，可以在输入法程序的输入界面中添加用于触发所述翻译客户端的按钮，以使用户可以通过输入法程序输入源语言文本，并且可以通过该按钮触发翻译客户端执行翻译操作，以将输入的源语言文本翻译为目标语言文本，以及对目标语言文本中的目标分词进行替换，输出替换后的目标语言文本，由此可以节省用户查找以及打开翻译客户端的操作时间，进而可以提高翻译效率。

可以理解，上述翻译客户端可以应用在输入法程序中，具体可以包括：可以将所述翻译客户端的功能集成在输入法程序中，或者，可以通过输入法程序调用翻译客户端以通过翻译客户端执行翻译功能，本发明实施例对此不加以限制。

此外，由于输入法程序具有跨平台的特性，可寄宿于任意的宿主应用中，例如，输入法程序可寄宿于即时通讯、邮箱、文本编辑等应用中。用户在宿主应用中触发输入操作即可触发输入法程序，例如用户在宿主应用的输入框中点击鼠标左键，即可触发输入法程序，进而可以通过输入法程序输入源语言文本，可以进一步提高翻译效率。

再者，本发明实施例还可以通过输入法程序获取宿主应用的类型，以及根据用户在宿主应用中的历史输入记录，确定目标语言文本中目标分词对应的目标预置词，以使替换后目标语言文本更加符合用户使用该宿主应用的习惯。例如，若宿主应用为即时通讯应用，则替换后的目标语言文本更加符合用户的口语习惯；若宿主应用为文本编辑应用，则替换后的目标语言文本更加符合用户的书面语习惯等。

在本发明的一种可选实施例中，所述确定所述目标语言文本中存在符合替换条件的目标分词，具体可以包括：

步骤S11、对所述目标语言文本进行分词，以得到所述目标语言文本对应的分词序列；

步骤S12、根据所述分词序列中分词对应的语义、以及预置词库中预置词对应的语义，判断所述预置词库中是否存在与所述分词序列中分词的语义相关的候选预置词，若存在，且所述候选预置词的使用次数超过第一阈值，则确定所述目标语言文本中存在符合替换条件的目标分词；其中，所述预置词库中包括预置词、以及预置词的使用次数；

步骤S13、确定所述使用次数超过第一阈值的候选预置词为目标预置词，以及确定所述分词序列中与所述目标预置词的语义相关的分词为目标分词。

本发明实施例可以建立预置词库，所述预置词库可用于反映用户的输入习惯，所述预置词库中可以包括预置词以及预置词的使用次数，所述预置词可以为用户输入的历史词，所述预置词的使用次数可以为用户输入历史词的次数。

可选地，本发明实施例可以根据当前用户输入的历史词，建立当前用户对应的预置词库，以使该预置词库可以反映当前用户的个性化的输入习惯；或者，本发明实施例还可以根据全部或部分全网用户输入的历史词，建立全网用户对应的预置词库，以使该预置词库可以反映大多数用户的通用的输入习惯；可以理解，本发明实施例对此不加以限制。

在本发明的一种可选实施例中，所述预置词库可以为根据用户在即时通讯应用中输入的历史词、以及所述历史词的输入次数得到。由此，所述预置词库可以反映用户在即时通讯应用中的输入习惯。

可选地，本发明实施例可以分别建立与宿主应用相对应的预置词库，例如，可以建立即时通讯应用对应的预置词库，或者，可以建立文本编辑应用对应的预置词库等。由此，对于不同的宿主应用，可以查询与宿主应用相对应的预置词库，例如，用户在使用即时通讯应用的情况下，对即时通讯应用中源语言文本对应的目标语言文本，可以查询即时通讯应用对应的预置词库，使得查询得到的目标预置词符合用户在即时通讯应用中的输入习惯；再如，用户在使用文本编辑应用的情况下，对文本编辑应用中源语言文本对应的目标语言文本，可以查询本编辑应用对应的预置词库，使得查询得到的目标预置词符合用户在本编辑应用中的输入习惯等。

具体地，在用户使用即时通讯应用的过程中，本发明实施例可以获取用户输入的文本内容，并且对所述文本内容进行分词，以得到所述文本内容中的历史词，若预置词库中存在与该历史词相匹配的预置词，则将该预置词对应的使用次数增加1；若预置词库中不存在与该历史词相匹配的预置词，则将该历史词作为预置词添加在预置词库中，并且记录该新添加的预置词的使用次数为1。

其中，所述用户输入的文本内容具体可以包括：当前光标位置之前已上屏的文本内容、或者用户拷贝的文本内容等。所述用户输入的文本内容具体可以为用户在即时通讯应用中输入的向通信对端发送的文本内容，或者，还可以为用户在浏览器、文档、微博、邮件等输入环境中输入的文本内容；可以理解，本发明实施例对于用户输入的文本内容的具体来源不加以限制。

此外，所述输入的文本内容还可以为根据用户输入的语音转换得到的文本内容，例如，用户可以在即时通讯等应用中输入语音信息，本发明实施例可以把所述语音信息转换为文本内容。

在本发明的一种应用示例中，假设在用户使用即时通讯应用的过程中，获取用户输入的文本内容为“你在干啥呢？”，对该文本内容进行分词可以得到如下历史词：“你”、“在”、“干啥”、“呢”。假设预置词库中记录有与上述历史词相匹配的如下预置词：“你(9)”、“在(7)”、“干啥(19)”、“呢(8)”，括号中的数字表示预置词对应的使用次数，则可以将预置词库中的上述预置词的使用次数增加1，得到如下更新后的预置词对应的使用次数：“你(10)”、“在(8)”、“干啥(20)”、“呢(9)”。

在本发明的另一种应用示例中，在用户使用即时通讯应用的过程中，获取用户输入的文本内容为“啥啥啥？啥情况？”，对该文本内容进行分词可以得到如下历史词：“啥啥啥”、“啥情况”。假设预置词库中记录有与上述历史词相匹配的如下预置词：“啥啥啥(29)”、“啥情况(9)”，则可以将预置词库中的上述预置词的使用次数增加1，得到如下更新后的预置词对应的使用次数：“啥啥啥(30)”、“啥情况(10)”。

在确定源语言文本对应的目标语言文本之后，可以对所述目标语言文本进行分词，以得到所述目标语言文本对应的分词序列；对所述分词序列中的分词进行语义分析，并且查询预置词库，以判断预置词库中是否存在与分词序列中分词的语义相关的候选词预置词，若存在，且所述候选预置词的使用次数超过第一阈值，说明用户使用该候选预置词的次数较多，则可以确定所述目标语言文本中存在符合替换条件的目标分词，并且可以确定所述使用次数超过第一阈值的候选预置词为目标预置词，以及确定所述分词序列中与所述目标预置词的语义相关的分词为目标分词。

在实际应用中，预置词库中可能存在多个与分词序列中分词的语义相关的候选词预置词，在这种情况下，可以进一步判断这多个候选词预置词的使用次数是否超过第一阈值，并且将使用次数超过第一阈值的候选预置词为目标预置词，如果使用次数超过第一阈值的候选预置词的个数大于1，则可以将使用次数最高的候选预置词作为目标预置词。

可选地，如果使用次数超过第一阈值的候选预置词的个数大于1，且存在多个使用次数相同的候选预置词，则可以将使用次数超过第一阈值、且字符数最少的候选预置词作为目标预置词。由于用户在即时通讯应用中使用口语的概率较高，而口语通常具有语句较短、易于理解的特点，因此，在这种情况下，从多个使用次数超过第一阈值的候选预置词中选择字符数最少的候选预置词作为目标预置词，可以使得确定的目标预置词更加符合用户在即时通讯应用中的口语表达习惯。

在本发明的一种可选实施例中，所述预置词库中可以包括分词、预置词、以及语义关系值之间的映射关系，所述判断所述预置词库中是否存在与所述分词序列中分词的语义相关的候选预置词，具体可以包括：

步骤S21、根据所述分词序列中的分词，查询所述预置词库中的映射关系，以得到与所述分词序列中的分词相匹配的目标映射关系；

步骤S22、若所述目标映射关系中的语义关系值超过第二阈值，则确定所述预置词库中存在与所述分词序列中分词的语义相关的候选预置词，且确定所述目标映射关系中的预置词为候选预置词。

为了提高查询目标预置词的准确率以及查询效率，本发明实施例可以在预置词库中存储分词、预置词、以及语义关系值之间的映射关系。参见表1，示出了本发明的一种分词、预置词、以及语义关系值之间的映射关系的具体示意。

表1

序号	分词	预置词	语义关系值
				1	什么	啥啥啥	95
2	母亲	妈	99
				3	智慧	聪明	80

其中，所述语义关系值可用于表示分词与预置词之间的语义相关程度，例如，所述语义关系值越高，则说明语义相关程度越高。可以理解，表1所示的语义关系值仅作为本发明的一种应用示例，本发明实施例对所述语义关系值的数据类型以及具体数值均不加以限制。如果分词和预置词的语义关系值超过第二阈值，则说明二者的语义相同或者相近，可以互相替换。可以理解，本发明实施例对所述第二阈值的具体数值不加以限制，例如，可以设置所述第二阈值为80等。

在本发明的一种应用示例中，假设在即时通讯应用中获取的源语言文本为“what？”，根据***翻译模型，可以确定该源语言文本对应的目标语言文本为“什么？”，首先可以对该目标语言文本进行分词，得到该目标语言文本对应的分词序列为“什么”，其中只包括一个分词“什么”，根据该分词，查询预置词库中的映射关系，可以得到与该分词相匹配的目标映射关系，即表1中序号为1的映射关系；该目标映射关系中的语义关系值为95，超过第二阈值80，则可以确定预置词库中存在与该分词序列中分词的语义相关的候选预置词，且确定所述目标映射关系中的预置词“啥啥啥”为候选预置词。由于预置词库中存储的预置词“啥啥啥”对应的使用次数为30，超过第一阈值20，因此，可以确定该候选预置词“啥啥啥”为目标预置词，以及确定所述分词序列中与所述目标预置词的语义相关的分词“什么”为目标分词，则可以将目标分词“什么”替换为目标预置词“啥啥啥”，得到替换后目标语言文本为：“啥啥啥？”，最后，可以向用户输出替换后的目标文本，以使最终的翻译结果更加符合用户的输入习惯。

综上，本发明实施例在确定源语言文本对应的目标语言文本之后，可以进一步判断所述目标语言文本中是否存在符合替换条件的目标分词，若存在，则将所述目标分词替换为目标预置词，以得到替换后目标语言文本，并且输出所述替换后目标语言文本。由于所述目标分词的语义与所述目标预置词的语义相关，且所述目标预置词的使用次数超过第一阈值，说明在语义相同或者相近的情况下，用户更倾向于使用目标预置词而非目标分词，因此，将目标语言文本中的目标分词替换为目标预置词，使得替换后的目标语言文本更加符合用户的输入习惯，更符合用户的实际需求。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括：

确定模块201，用于确定源语言文本对应的目标语言文本；

替换模块202，用于在所述目标语言文本中存在符合替换条件的目标分词的情况下，将所述目标分词替换为目标预置词，以得到替换后目标语言文本；

输出模块203，用于输出所述替换后目标语言文本。

可选地，所述确定模块201，具体可以包括：

分词子模块，用于对所述目标语言文本进行分词，以得到所述目标语言文本对应的分词序列；

判断子模块，用于根据所述分词序列中分词对应的语义、以及预置词库中预置词对应的语义，判断所述预置词库中是否存在与所述分词序列中分词的语义相关的候选预置词，若存在，且所述候选预置词的使用次数超过第一阈值，则确定所述目标语言文本中存在符合替换条件的目标分词；其中，所述预置词库中包括预置词、以及预置词的使用次数；

第一确定子模块，用于确定所述使用次数超过第一阈值的候选预置词为目标预置词，以及确定所述分词序列中与所述目标预置词的语义相关的分词为目标分词。

可选地，所述第一确定子模块，具体可以包括：

第一确定单元，用于若所述使用次数超过第一阈值的候选预置词的个数大于1，则从所述使用次数超过第一阈值的候选预置词中，确定使用次数最多的候选预置词为目标预置词；或者

第二确定单元，用于若存在多个使用次数相同、且使用次数超过第一阈值的候选预置词，则从所述多个使用次数相同、且使用次数超过第一阈值的候选预置词中，确定字符数最短的候选预置词为目标预置词。

可选地，所述判断子模块，具体可以包括：

查询单元，用于根据所述分词序列中的分词，查询所述预置词库中的映射关系，以得到与所述分词序列中的分词相匹配的目标映射关系；

第三确定单元，用于若所述目标映射关系中的语义关系值超过第二阈值，则确定所述预置词库中存在与所述分词序列中分词的语义相关的候选预置词，且确定所述目标映射关系中的预置词为候选预置词。

可选地，所述预置词库为根据用户在即时通信应用中输入的历史词、以及所述历史词的输入次数得到。

可选地，所述源语言文本为根据即时通讯应用中获取的即时通讯消息所得到。

可选地，所述确定模块201，具体可以包括：

第二确定子模块，用于根据***翻译模型或用户翻译模型，确定源语言文本对应的目标语言文本；其中，所述***翻译模型用于描述无用户翻译偏好的源语言文本到目标语言文本的翻译概率；所述用户翻译模型用于描述有用户翻译偏好的源语言文本到目标语言文本的翻译概率。

可选地，所述替换条件具体可以包括：

所述目标分词的语义与所述目标预置词的语义相关，且所述目标预置词的使用次数超过第一阈值；和/或

所述目标分词的语义与所述目标预置词的语义相关，且所述目标预置词与所述输入环境的关联系数大于所述目标分词与所述输入环境的关联系数。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：确定源语言文本对应的目标语言文本；若所述目标语言文本中存在符合替换条件的目标分词，则将所述目标分词替换为目标预置词，以得到替换后目标语言文本；输出所述替换后目标语言文本。

图3是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频数据处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的数据处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：确定源语言文本对应的目标语言文本；若所述目标语言文本中存在符合替换条件的目标分词，则将所述目标分词替换为目标预置词，以得到替换后目标语言文本；输出所述替换后目标语言文本。

本发明实施例公开了A1、一种数据处理方法，包括：

确定源语言文本对应的目标语言文本；

输出所述替换后目标语言文本。

A2、根据A1所述的方法，所述确定所述目标语言文本中存在符合替换条件的目标分词，包括：

对所述目标语言文本进行分词，以得到所述目标语言文本对应的分词序列；

根据所述分词序列中分词对应的语义、以及预置词库中预置词对应的语义，判断所述预置词库中是否存在与所述分词序列中分词的语义相关的候选预置词，若存在，且所述候选预置词的使用次数超过第一阈值，则确定所述目标语言文本中存在符合替换条件的目标分词；其中，所述预置词库中包括预置词、以及预置词的使用次数；

确定所述使用次数超过第一阈值的候选预置词为目标预置词，以及确定所述分词序列中与所述目标预置词的语义相关的分词为目标分词。

A3、根据A2所述的方法，所述确定所述使用次数超过第一阈值的候选预置词为目标预置词，包括：

若所述使用次数超过第一阈值的候选预置词的个数大于1，则从所述使用次数超过第一阈值的候选预置词中，确定使用次数最多的候选预置词为目标预置词；或者

若存在多个使用次数相同、且使用次数超过第一阈值的候选预置词，则从所述多个使用次数相同、且使用次数超过第一阈值的候选预置词中，确定字符数最短的候选预置词为目标预置词。

A4、根据A2所述的方法，所述预置词库中包括分词、预置词、以及语义关系值之间的映射关系，所述判断所述预置词库中是否存在与所述分词序列中分词的语义相关的候选预置词，包括：

根据所述分词序列中的分词，查询所述预置词库中的映射关系，以得到与所述分词序列中的分词相匹配的目标映射关系；

若所述目标映射关系中的语义关系值超过第二阈值，则确定所述预置词库中存在与所述分词序列中分词的语义相关的候选预置词，且确定所述目标映射关系中的预置词为候选预置词。

A5、根据A2至A4中任一所述的方法，所述预置词库为根据用户在即时通信应用中输入的历史词、以及所述历史词的输入次数得到。

A6、根据A1至A4中任一所述的方法，所述源语言文本为根据即时通讯应用中获取的即时通讯消息所得到。

A7、根据A1至A4中任一所述的方法，所述替换条件包括：

本发明实施例公开了B8、一种数据处理装置，包括：

确定模块，用于确定源语言文本对应的目标语言文本；

输出模块，用于输出所述替换后目标语言文本。

B9、根据B8所述的装置，所述确定模块，包括：

B10、根据B9所述的装置，所述第一确定子模块，包括：

B11、根据B9所述的装置，所述判断子模块，包括：

B12、根据B9至B11中任一所述的装置，所述预置词库为根据用户在即时通信应用中输入的历史词、以及所述历史词的输入次数得到。

B13、根据B8至B11中任一所述的装置，所述源语言文本为根据即时通讯应用中获取的即时通讯消息所得到。

B14、根据B8至B11中任一所述的装置，所述替换条件包括：

本发明实施例公开了C15、一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定源语言文本对应的目标语言文本；

输出所述替换后目标语言文本。

C16、根据C15所述的装置，所述确定所述目标语言文本中存在符合替换条件的目标分词，包括：

C17、根据C16所述的装置，所述确定所述使用次数超过第一阈值的候选预置词为目标预置词，包括：

C18、根据C16所述的装置，所述预置词库中包括分词、预置词、以及语义关系值之间的映射关系，所述判断所述预置词库中是否存在与所述分词序列中分词的语义相关的候选预置词，包括：

C19、根据C16至C18中任一所述的装置，所述预置词库为根据用户在即时通信应用中输入的历史词、以及所述历史词的输入次数得到。

C20、根据C15至C18中任一所述的装置，所述源语言文本为根据即时通讯应用中获取的即时通讯消息所得到。

C21、根据C15至C18中任一所述的装置，所述替换条件包括：

本发明实施例公开了D22、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

确定源语言文本对应的目标语言文本；

输出所述替换后目标语言文本。

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标语言文本中存在符合替换条件的目标分词，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述使用次数超过第一阈值的候选预置词为目标预置词，包括：

4.根据权利要求2所述的方法，其特征在于，所述预置词库中包括分词、预置词、以及语义关系值之间的映射关系，所述判断所述预置词库中是否存在与所述分词序列中分词的语义相关的候选预置词，包括：

5.根据权利要求2至4中任一所述的方法，其特征在于，所述预置词库为根据用户在即时通信应用中输入的历史词、以及所述历史词的输入次数得到。

6.根据权利要求1至4中任一所述的方法，其特征在于，所述源语言文本为根据即时通讯应用中获取的即时通讯消息所得到。

7.根据权利要求1至4中任一所述的方法，其特征在于，所述替换条件包括：

8.一种数据处理装置，其特征在于，包括：

确定模块，用于确定源语言文本对应的目标语言文本；

输出模块，用于输出所述替换后目标语言文本。

9.一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定源语言文本对应的目标语言文本；

输出所述替换后目标语言文本。

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的数据处理方法。