CN113589954A

CN113589954A - 一种数据处理方法、装置和电子设备

Info

Publication number: CN113589954A
Application number: CN202010368472.8A
Authority: CN
Inventors: 姚波怀
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-11-02

Abstract

本发明实施例提供了一种数据处理方法、装置和电子设备，其中，所述方法包括：获取输入序列和输入关联信息；采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选；进而通过统计模型，结合输入序列和输入关联信息进行长句预测，提高长句预测的准确性，从而提高用户输入效率。

Description

一种数据处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据处理方法、装置和电子设备。

背景技术

随着计算机技术的发展，诸如手机、平板电脑等电子设备越来越普及，给人们的生活、学习、工作带来了极大的便利。这些电子设备通常安装有输入法应用程序(简称输入法)，使得用户可使用该输入法进行信息输入。

在用户输入过程中，输入法可以预测出与输入序列匹配的各种类型的候选，如句子候选、人名候选、联想等等，以供用户上屏，从而提高用户输入效率。然而现有技术中，句子候选的预测准确不高，无法很好的满足用户的输入需求，从而无法很好的提高用户输入效率。

发明内容

本发明实施例提供一种数据处理方法，以通过提高长句预测的准确性，提高用户输入效率。

相应的，本发明实施例还提供了一种数据处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种数据处理方法，具体包括：获取输入序列和输入关联信息；采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

可选地，所述采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选，包括：将所述输入序列和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

可选地，所述输入序列包括拼音序列，所述采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选，包括：对所述拼音序列进行解析，得到对应的目标音节网络；将所述目标音节网络和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

可选地，所述将对所述拼音序列进行解析，得到对应的目标音节网络，包括：对所述拼音序列进行纠错，得到对应的纠错序列；对所述拼音序列和纠错序列进行解析，得到对应的目标音节网络。

可选地，所述对所述拼音序列进行解析，得到对应的目标音节网络，包括：将所述拼音序列解析为多种形式的拼音；针对目标形式的拼音，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识，得到所述目标形式的拼音对应的音节路径；采用多条音节路径，生成目标音节网络。

可选地，所述的方法还包括生成所述统计模型的步骤：收集多组训练数据，每组训练数据包括：历史输入关联信息、历史输入序列，以及在所述历史输入关联信息和所述历史输入序列的条件下用户输入的句子；统计在历史输入关联信息相同和历史输入序列相同的条件下，每个句子的频次；依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

可选地，所述的方法还包括生成所述统计模型的步骤：收集多组训练数据，每组训练数据包括：历史输入关联信息、历史拼音序列对应的音节网络，以及在所述历史输入关联信息和所述历史拼音序列对应音节网络的条件下用户输入的句子；统计在历史输入关联信息相同和音节网络相同的条件下，每个句子的频次；依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

本发明实施例还公开了一种数据处理装置，具体包括：获取模块，用于获取输入序列和输入关联信息；预测模块，用于采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

可选地，所述预测模块，包括：第一句子候选预测子模块，用于将所述输入序列和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

可选地，所述输入序列包括拼音序列，所述预测模块，包括：解析子模块，用于对所述拼音序列进行解析，得到对应的目标音节网络；第二句子候选预测子模块，用于将所述目标音节网络和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

可选地，所述解析子模块，包括：纠错解析单元，用于对所述拼音序列进行纠错，得到对应的纠错序列；对所述拼音序列和纠错序列进行解析，得到对应的目标音节网络。

可选地，所述解析子模块，包括：音节网络转换单元，用于将所述拼音序列解析为多种形式的拼音；针对目标形式的拼音，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识，得到所述目标形式的拼音对应的音节路径；采用多条音节路径，生成目标音节网络。

可选地，所述的装置还包括：第一模型生成模块，用于收集多组训练数据，每组训练数据包括：历史输入关联信息、历史输入序列，以及在所述历史输入关联信息和所述历史输入序列的条件下用户输入的句子；统计在历史输入关联信息相同和历史输入序列相同的条件下，每个句子的频次；依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

可选地，所述的装置还包括：第二模型生成模块，用于收集多组训练数据，每组训练数据包括：历史输入关联信息、历史拼音序列对应的音节网络，以及在所述历史输入关联信息和所述历史拼音序列对应音节网络的条件下用户输入的句子；统计在历史输入关联信息相同和音节网络相同的条件下，每个句子的频次；依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的数据处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取输入序列和输入关联信息；采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

可选地，还包含用于进行以下生成所述统计模型指令：收集多组训练数据，每组训练数据包括：历史输入关联信息、历史输入序列，以及在所述历史输入关联信息和所述历史输入序列的条件下用户输入的句子；统计在历史输入关联信息相同和历史输入序列相同的条件下，每个句子的频次；依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

可选地，还包含用于进行以下生成所述统计模型的指令：收集多组训练数据，每组训练数据包括：历史输入关联信息、历史拼音序列对应的音节网络，以及在所述历史输入关联信息和所述历史拼音序列对应音节网络的条件下用户输入的句子；统计在历史输入关联信息相同和音节网络相同的条件下，每个句子的频次；依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

本发明实施例包括以下优点：

本发明实施例中，可以获取输入序列和输入关联信息，然后采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选；进而通过统计模型，结合输入序列和输入关联信息进行长句预测，提高长句预测的准确性，从而提高用户输入效率。

附图说明

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明的一种模型生成方法实施例的步骤流程图；

图3是本发明的一种数据处理方法可选实施例的步骤流程图；

图4是本发明的又一种模型生成方法实施例的步骤流程图；

图5是本发明的又一种数据处理方法可选实施例的步骤流程图；

图6是本发明的一种数据处理装置实施例的结构框图；

图7是本发明的一种数据处理装置可选实施例的结构框图；

图8根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图；

图9是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取输入序列和输入关联信息。

本发明实施例中，可以在用户输入输入序列过程中，进行长句预测，生成对应的句子候选。

其中，本发明实施例可以应用于多种输入方式的场景中进行长句预测。例如可以应用于笔画输入场景中进行长句预测；又如应用于拼音输入场景中进行长句预测；又例如应用于语音输入场景中进行长句预测；等等，本发明实施例对此不作限制。

此外，本发明实施例还可以应用于多种语言场景中进行长句预测。例如可以应用于中文输入场景中进行长句预测；又例如可以应用于英文输入场景中进行长句预测；还例如可以应用于韩文输入场景中进行长句预测；等等，本发明实施例对此不作限制。

对应的，所述输入序列可以包括笔画序列、拼音序列、外文字符串等，本发明实施例对此不作限制。

其中，可以在用户使用输入法输入的过程中，获取用户输入的输入序列和输入关联信息；然后基于获取的输入序列和输入关联信息，预测对应的句子候选。

其中，所述输入关联信息可以包括与输入相关的信息，如上文信息、输入环境信息等等，本发明实施例对此不作限制。

本发明的一个示例中，一种基于获取的输入序列和输入关联信息进行长句预测的方式，可以参照如下步骤104：

步骤104、采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

本发明实施例中，可以预先进行统计，生成统计模型；然后采用预先生成的统计模型进行长句预测。其中，统计模型的生成过程在后续实施例进行说明。其中，可以由统计模型基于所述输入关联信息和输入序列，为每个句子进行打分；然后基于各句子的分值，输出句子候选。其中，统计模型输出的句子候选可以是分值大于第一预设阈值的句子，也可以是分值最大的前X个句子，本发明实施例对此不作限制。所述第一预设阈值可以按照需求设置，X为正整数也可以按照需求设置，本发明实施例对此也不作限制。

综上，本发明实施例中，可以获取输入序列和输入关联信息，然后采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选；进而通过统计模型，结合输入序列和输入关联信息进行长句预测，提高长句预测的准确性，从而提高用户输入效率。

本发明实施例中，生成统计模型的方式可以包括多种，其中一种方式可以如下：

参照图2，示出了本发明的一种模型生成方法实施例的步骤流程图。

步骤202、收集多组训练数据，每组训练数据包括：历史输入关联信息、历史输入序列，以及在所述历史输入关联信息和所述历史输入序列的条件下用户输入的句子。

本发明实施例中，可以收集用户历史输入的输入序列，用户输入该输入序列时的输入关联信息，以及用户在该输入关联信息的条件下，输入该输入序列后，输入的句子。

其中，为了便于后续说明，可以将用户历史输入的输入序列称为历史输入序列，用户输入该历史输入序列时的输入关联信息称为历史输入关联信息。其中，可以将一个历史输入序列，该历史输入序列对应的历史输入关联信息，以及在该历史输入关联信息和该历史输入序列的条件下用户输入的句子，作为一组训练数据。

步骤204、统计在历史输入关联信息相同和历史输入序列相同的条件下，每个句子的频次。

步骤206、依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

本发明实施例中，收集的多组训练数据中，可能存在历史输入关联信息、历史输入序列和用户输入的句子均相同的多组训练数据；也可能存在历史输入关联信息相同且历史输入序列相同，但用户输入的句子不同的多组训练数据。当然，还可能存在历史输入关联信息、历史输入序列和用户输入的句子均不相同的多组训练数据。

由于大多数用户的输入习惯都是相似的，因此在长句预测过程中，可以将在某一历史输入序列和对应历史输入关联信息的条件下，用户输入的频率满足预设条件的句子，预测为用户在该历史输入序列和对应历史输入关联信息条件下可能会输入的句子。本发明实施例中，可以统计在历史输入关联信息相同和历史输入序列相同的条件下，每个句子的频次。然后针对每个句子，可以基于该句子的频次，确定该句子的条件概率；再基于各句子的条件概率，生成统计模型。

其中，条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P(A|B)。在本发明实施例中，条件概率是指在历史输入关联信息和历史输入序列的条件下，用户输入的句子的概率P(句子|历史输入关联信息，历史输入序列)。

在一种示例中，可以确定条件概率大于第二预设阈值的句子，然后过滤条件概率小于或等于第二预设阈值的句子；再采用条件概率大于阈值的句子，生成统计模型。其中，可以将各条件概率大于第二预设阈值的句子，各条件概率大于第二预设阈值的句子对应的条件概率，和各条件概率大于第二预设阈值的句子对应的条件(即各条件概率大于第二预设阈值的句子对应的历史输入关联信息和历史输入序列)，存储至统计模型中。其中，所述第二预设阈值可以按照需求设置，本发明实施例对此不作限制。

在另一种示例中，可以确定条件概率最大的前N个的句子，然后过滤其他句子；再采用条件概率最大的前N个的句子，生成统计模型。其中，可以将条件概率最大的前N个的句子，条件概率最大的前N个的句子中各句子对应的条件概率，和条件概率最大的前N个的句子中各句子对应的条件(即条件概率最大的前N个的句子中各句子对应的历史输入关联信息和历史输入序列)，存储至统计模型中。其中，所述N为正整数，具体可以按照需求设置，本发明实施例对此不作限制。

例如，在条件为：历史输入关联信息：“你对我”，历史输入序列为拼音序列：“h”的情况下，用户输入的三个句子分别为：“你对我很好的”，“你对我很重要”，“你对我很好”；这三个句子的条件概率分别为：0.02，0.15，0.1。若第二预设阈值为0.015，则可以将这三个句子，对应的条件和对应的条件概率，存储到统计模型。

以下以采用步骤202-步骤206生成的统计模型进行长句预测，输出句子候选为例进行说明。

参照图3，示出了本发明的一种数据处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤302、获取输入序列和输入关联信息。

其中，所述输入序列可以包括单个编码，也可以包括多个编码，本发明实施例对此不作限制。所述输入关联信息可以包括：上文信息和输入环境信息，当然也可以包括其他信息，本发明实施例对此也不作限制；所述上文信息可以包括交互信息和/或编辑框中的内容。

本发明实施例中，一种采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选的方式，可以参照步骤304：

步骤304、将所述输入序列和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

本发明实施例中，可以直接将获取的输入序列和输入关联信息，输入至按照步骤202-步骤206生成的统计模型中；由该统计模型计算在该输入序列和输入关联信息这种条件下，用户输入各句子的条件概率。然后可以将条件概率大于概率第一预设阈值的句子作为句子候选输出；也可以将条件概率最大的前X个句子作为句子候选输出，本发明实施例对此不作限制。

综上，本发明实施例中，在获取输入序列和输入关联信息后，可以直接将所述输入序列和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选；进而无需对输入至统计模型中的信息进行处理，能够快速的得到句子候选。

本发明的一个可选实施例中，还可以对输入序列进行纠错，得到纠错序列；然后将输入序列、纠错序列和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选；进而在用户错输的情况下，也可以给出命中用户需求的句子候选。

以下以输入序列为拼音序列为例，说明本发明实施例的另一种生成统计模型的方式。

参照图4，示出了本发明的又一种模型生成方法实施例的步骤流程图。

步骤402、收集多组训练数据，每组训练数据包括：历史输入关联信息、历史拼音序列对应的音节网络，以及在所述历史输入关联信息和所述历史拼音序列对应的音节网络的条件下用户输入的句子。

本发明实施例中，可以收集用户历史输入的拼音序列，用户输入该拼音序列时的输入关联信息，以及用户在该输入关联信息的条件下，输入该拼音序列后，输入的句子。

其中，为了便于后续说明，可以将用户历史输入的拼音序列称为历史拼音序列，用户输入该历史拼音序列时的输入关联信息称为历史输入关联信息。其中，可以将历史拼音序列转换为对应的音节网络，然后可以将一个历史拼音序列对应的音节网络，该历史拼音序列对应的历史输入关联信息，以及在该历史拼音序列对应的音节网络和该历史输入关联信息的条件下用户输入的句子，作为一组训练数据。

在本发明实施例的一种示例中，一种将历史拼音序列转换为对应的音节网络的方式，可以参照子步骤22-子步骤26：

子步骤22，将历史拼音序列解析为多种形式的拼音。

本发明实施例中，同一拼音序列可以对应多种形式的拼音，例如，拼音序列：“fangan”，对应拼音的形式可以包括：“fang’an”、“fan’gan”,“fa’n’gan”等。因此可以对历史拼音序列进行解析，将该历史拼音序列解析为多种形式的拼音；其中，每一种形式的拼音可以包括至少M个音节的拼音，M为正整数。例如：一种形式的拼音为“fang’an”，对应包括两个音节的拼音：“fang”和“an”；一种形式的拼音为“fan’gan”，对应包括两个音节的拼音：“fan”和“gan”；一种形式的拼音为“fa’n’gan”，对应包括两个音节的拼音：“fa”、“n”和“gan”。

子步骤24，针对目标形式的拼音，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识，得到所述目标形式的拼音对应的音节路径。

本发明实施例中，可以从多种形式的拼音中，选取一种形式的拼音作为目标形式的拼音；然后目标形式的拼音，转换为对应的音节路径。其中，一种形式的拼音可以包括M个音节的拼音，M为正整数。

由于大多数用户在输入拼音序列时，通常习惯只输入目标文字的第一个拼音字符，或前几个拼音字符；因此本发明实施例为了能够在用户没有输入完整的拼音序列时，为用户提供与其目标输入相关的句子候选，提高用户输入效率；可以在将目标形式的拼音，转换为对应音节路径时，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识，得到所述目标形式的拼音对应的音节路径；以增加训练数据的全面性，从而提高后续预测句子候选的全面性。

其中，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识的一种方式是：将所述目标形式的拼音中第M个音节的拼音转换为与所述第M个音节的拼音前缀匹配的拼音标识。其中，前缀匹配可以是指拼音标识对应的拼音包含目标形式的拼音中音节对应的拼音。以及确定所述目标形式的拼音序列中前M-1个音节中，对应拼音包含声母和韵母的音节，以及拼音仅包含声母的音节；将所述目标形式的拼音序列中前M-1个音节中，对应拼音包含声母和韵母的音节，转换为与对应拼音完全匹配的拼音标识。以及将所述目标形式的拼音序列中前M-1个音节中，对应拼音仅包含声母的音节转换为与对应声母匹配的拼音标识。

其中，可以通过查询拼音与拼音标识(如拼音ID)之间的映射关系，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识。例如，目标形式的拼音中第M个音节的拼音为“h”，与“h”前缀匹配的拼音有“h”、“hen”、“he”、“heng”和“ha”等等；然后将“h”对应的拼音标识99、“hen”对应的拼音标识120、“he”对应的拼音标识110、“heng”对应的拼音标识122和“ha”对应的拼音标识105，确定为与第M个音节对应拼音前缀匹配的拼音标识。又例如，目标形式的拼音的前M-1个音节存在一个音节的拼音为“he”，则只能将“he”对应的标识110，作为与该音节对应拼音的拼音标识。

然后可以将目标形式的拼音中每个音节对应的拼音标识，作为一个音节节点；目标形式的拼音中第M个音节对应的拼音标识可以包括Y个，Y为正整数。再将所述目标形式的拼音中前M-1个音节节点，分别与第M个音节对应的Y个音节节点，组成一条音节路径；进而可以得到目标形式的拼音对应的Y条音节路径。

子步骤26，采用多条音节路径，生成目标音节网络。

然后再采用各种形式的拼音对应的音节路径，生成历史拼音序列对应的音节网络；进而历史拼音序列的音节网络可以包括多条音节路径。

在本发明实施例的另一种示例中，另一种将历史输入序列转换为对应的音节网络的方式可以参照如下子步骤42-子步骤44：

子步骤42，对所述历史拼音序列进行纠错，得到对应的历史纠错序列。

子步骤44，对所述历史拼音序列和历史纠错序列进行解析，得到对应的音节网络。

由于用户在输入的过程中，可能会出现错输的情况；因此在获取到历史拼音序列后，可以对历史拼音序列进行纠错，确定对应的历史纠错序列。然后可以分别对所述历史拼音序列和历史纠错序列进行解析，得到对应的音节网络；进而在用户错输的情况下，也能够采用正确的历史拼音序列转换为对应的音节网络。其中，可以将对历史纠错序列进行解析得到的音节网络，以及对历史拼音序列进行解析得到的音节网络，均称为目标音节网络。其中，对历史纠错序列进行解析，得到对应的音节网络的方式，与上述对历史拼音序列进行解析，得到对应的音节网络的方式类似，在此不再赘述。

步骤404、统计在历史输入关联信息相同和音节网络相同的条件下，每个句子的频次。

步骤406、依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

其中，步骤404-步骤406，与上述步骤204-步骤206类似，在此不再赘述。

其中，本发明实施例中的条件概率是指在历史输入关联信息、历史拼音序列对应的音节网络的条件下，句子的概率P(句子|历史输入关联信息，历史拼音序列对应的音节网络)。

其中，一种示例中，可以将各条件概率大于第二预设阈值的句子，各条件概率大于第二预设阈值的句子对应的条件概率，和各条件概率大于第二预设阈值的句子对应的条件(即各条件概率大于第二预设阈值的句子对应的历史输入关联信息和音节网络)，存储至统计模型中。

其中，另一种示例中，可以将条件概率最大的前N个的句子，条件概率最大的前N个的句子中各句子对应的条件概率，和条件概率最大的前N个的句子中各句子对应的条件(即条件概率最大的前N个的句子中各句子对应的历史输入关联信息和音节网络)，存储至统计模型中。

相对于按照步骤202-步骤206生成统计模型而言，按照步骤402-步骤406生成的统计模型存储空间小，且还能够在长句预测的过程中进行纠错。

以下以采用步骤402-步骤406生成的统计模型进行长句预测，输出句子候选为例进行说明。

参照图5，示出了本发明的又一种数据处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤502、获取拼音序列和输入关联信息。

步骤502与上述步骤302类似，在此不再赘述。

本发明实施例中，一种采用统计模型基于所述拼音序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选的方式，可以参照步骤504-步骤506：

步骤504、对所述拼音序列进行解析，得到对应的目标音节网络。

在本发明实施例的一种示例中，所述步骤504可以包括如下子步骤62-子步骤66：

子步骤62，将所述拼音序列解析为多种形式的拼音。

子步骤64，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识，得到所述目标形式的拼音对应的音节路径。

子步骤66，采用多条音节路径，生成目标音节网络。

其中，子步骤62-子步骤66，与上述子步骤22-子步骤26类似，在此不再赘述。

在本发明实施例的一种示例中，所述步骤504可以包括如下子步骤82-子步骤84：

子步骤82、对所述拼音序列进行纠错，得到对应的纠错序列；

子步骤84、对所述拼音序列和纠错序列进行解析，得到对应的目标音节网络。

其中，子步骤82-子步骤84，与上述子步骤42-子步骤44类似，在此不再赘述。

步骤506、将所述目标音节网络和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

本发明实施例中，可以拼音序列的音节网络和输入关联信息，输入至按照步骤402-步骤406生成的统计模型中；由该统计模型计算在获取的拼音序列对应目标网络音节和输入关联信息这种条件下，预测用户输入各句子的条件概率。然后可以将条件概率大于第一预设阈值的句子作为句子候选输出；也可以将条件概率最大的前X个句子作为句子候选输出，本发明实施例对此不作限制。

综上，本发明实施例中，在获取拼音序列和输入关联信息后，可以对所述拼音序列进行解析，得到对应的目标音节网络；然后将所述目标音节网络和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选；相对于将统计模型基于拼音序列和输入关联信息进行长句预测而言，本发明实施例的统计模型进行长句预测的效率更高。

其次，本发明实施例中，在将对所述拼音序列进行解析，得到对应的目标音节网络的过程中，可以对所述拼音序列进行纠错，得到对应的纠错序列；然后对所述拼音序列和纠错序列进行解析，得到对应的目标音节网络；进而统计模型能够基于准确的拼音序列进行转换，得到准确的字词候选；从而在用户错输的情况下，也能够为用户预测准确的句子候选，进一步提高句子候选的准确性。

进一步，本发明实施例中，可以将所述拼音序列解析为多种形式的拼音；然后将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识，得到所述目标形式的拼音对应的音节路径；再采用多条音节路径生成目标音节网络，进而能够得到更全面的音节网络，从而提高句子候选的全面性和准确性。

此外，统计模型输出各句子候选的同时，还可以输出各句子候选的条件概率；以便于后续根据各句子候选的条件概率进行排序，并依据排序后的结果，对各句子候选进行展示。

本发明实施例中，当输入关联信息较多时，可以将输入序列与部分输入关联信息输入至统计模型中，或者将输入序列的音节网络与部分输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选；以降低统计模型的计算量。因此在得到句子候选后，在对句子候选进行排序的过程中，可以基于完整的输入信息和句子候选的概率条件，对句子候选进行排序；进而能够提高对各句子候选排序的准确性。当然，也可以基于完整的输入关联信息，对句子候选进行排序，本发明实施例对此不作限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括如下模块：

获取模块602，用于获取输入序列和输入关联信息；

预测模块604，用于采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

参照图7，示出了本发明的一种数据处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述预测模块604，包括：

第一句子候选预测子模块6042，用于将所述输入序列和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

本发明一个可选的实施例中，所述输入序列包括拼音序列，所述预测模块604，包括：

解析子模块6044，用于对所述拼音序列进行解析，得到对应的目标音节网络；

第二句子候选预测子模块6046，用于将所述目标音节网络和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

本发明一个可选的实施例中，所述解析子模块6044，包括：

纠错解析单元60442，用于对所述拼音序列进行纠错，得到对应的纠错序列；对所述拼音序列和纠错序列进行解析，得到对应的目标音节网络。

本发明一个可选的实施例中，所述解析子模块6044，包括：

音节网络转换单元60444，用于将所述拼音序列解析为多种形式的拼音；针对目标形式的拼音，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识，得到所述目标形式的拼音对应的音节路径；采用多条音节路径，生成目标音节网络。

本发明一个可选的实施例中，所述的装置还包括：

第一模型生成模块606，用于收集多组训练数据，每组训练数据包括：历史输入关联信息、历史输入序列，以及在所述历史输入关联信息和所述历史输入序列的条件下用户输入的句子；统计在历史输入关联信息相同和历史输入序列相同的条件下，每个句子的频次；依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

本发明一个可选的实施例中，所述的装置还包括：

第二模型生成模块608，用于收集多组训练数据，每组训练数据包括：历史输入关联信息、历史拼音序列对应的音节网络，以及在所述历史输入关联信息和所述历史拼音序列对应音节网络的条件下用户输入的句子；统计在历史输入关联信息相同和音节网络相同的条件下，每个句子的频次；依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图8是根据一示例性实施例示出的一种用于数据处理的电子设备800的结构框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理***，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件814经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件814还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种数据处理方法，所述方法包括：获取输入序列和输入关联信息；采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

图9是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备900的结构示意图。该电子设备900可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器上执行存储介质930中的一系列指令操作。

服务器还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，一个或一个以上键盘956，和/或，一个或一个以上操作***941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取输入序列和输入关联信息；采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

获取输入序列和输入关联信息；

采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

2.根据权利要求1所述的方法，其特征在于，所述采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选，包括：

将所述输入序列和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

3.根据权利要求1所述的方法，其特征在于，所述输入序列包括拼音序列，所述采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选，包括：

对所述拼音序列进行解析，得到对应的目标音节网络；

将所述目标音节网络和输入关联信息输入至统计模型中，得到所述统计模型输出的句子候选。

4.根据权利要求3所述的方法，其特征在于，所述将对所述拼音序列进行解析，得到对应的目标音节网络，包括：

对所述拼音序列进行纠错，得到对应的纠错序列；

对所述拼音序列和纠错序列进行解析，得到对应的目标音节网络。

5.根据权利要求3所述的方法，其特征在于，所述对所述拼音序列进行解析，得到对应的目标音节网络，包括：

将所述拼音序列解析为多种形式的拼音；

针对目标形式的拼音，将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识，得到所述目标形式的拼音对应的音节路径；

采用多条音节路径，生成目标音节网络。

6.根据权利要求2所述的方法，其特征在于，所述的方法还包括生成所述统计模型的步骤：

收集多组训练数据，每组训练数据包括：历史输入关联信息、历史输入序列，以及在所述历史输入关联信息和所述历史输入序列的条件下用户输入的句子；

统计在历史输入关联信息相同和历史输入序列相同的条件下，每个句子的频次；

依据各句子的频次确定各句子的条件概率，基于各句子的条件概率生成统计模型。

7.根据权利要求3所述的方法，其特征在于，所述的方法还包括生成所述统计模型的步骤：

收集多组训练数据，每组训练数据包括：历史输入关联信息、历史拼音序列对应的音节网络，以及在所述历史输入关联信息和所述历史拼音序列对应音节网络的条件下用户输入的句子；

统计在历史输入关联信息相同和音节网络相同的条件下，每个句子的频次；

8.一种数据处理装置，其特征在于，包括：

获取模块，用于获取输入序列和输入关联信息；

预测模块，用于采用统计模型基于所述输入序列和输入关联信息进行长句预测，得到所述统计模型输出的句子候选。

9.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取输入序列和输入关联信息；

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的数据处理方法。