CN102640089B

CN102640089B - 电子设备的文本输入***及文本输入方法

Info

Publication number: CN102640089B
Application number: CN201080051346.4A
Authority: CN
Inventors: 本杰明·麦德洛克; 乔纳森·雷诺兹
Original assignee: Touchtype Ltd
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2009-10-09
Filing date: 2010-10-11
Publication date: 2016-01-20
Anticipated expiration: 2030-10-11
Also published as: CN102640089A; EP2486470A1; EP2486470B1; GB0917753D0; US9046932B2; WO2011042710A1; US20120197825A1

Abstract

本发明主要涉及一种文本预测的***和方法，特别是一种文本预测自适应加权的***和方法。本发明提供了一种基于模块化语言模型的文本预测***，用于文本预测元素的自适应加权；以及一种实现文本预测元素自适应加权的方法。所述***使用由时序聚集感知分类器生成的分类预测，以使用加权模块加权由包括至少一个预测器的文本预测引擎生成的文本预测。

Description

电子设备的文本输入***及文本输入方法

技术领域

本发明涉及电子设备的文本输入***及文本输入方法，特别是指一种文本预测自适应加权的文本输入***及文本输入方法。

背景技术

目前，存在着大量的电子设备文本输入技术，例如，台式电脑或笔记本电脑的标准键盘文本输入，PDA（个人数字助理）市场中的手写识别，使用移动电话9位数字键的字母字符输入，标准及移动计算装置的语音识别文本输入***，以及触屏装置。

在移动电话技术中，有一些现存的文本输入技术，其中比较有名的文本输入技术包括特捷通讯公司（TegicCommunications）的“T9”，摩托罗拉（Motorola）的“iTap”，Nuance通讯公司的“XT9”、“eZiType”和“eZiText”，黑莓的“SureType”，KeyPoint科技公司（KeyPointTechnology）的“AdapTxt”和上海汉翔信息技术有限公司（CooTek）的“TouchPal”。这些技术大多是基于字符的文本输入技术，并利用了一些文本预测（或歧义消除）技术。在不同的已知模型中，支持一本具有合法词条的词典（或多本词典），并且词典被赋予特定的输入序列，文本输入***从该词典中选择一条（或一组）合法的词条，并将该词条作为潜在填充的候选词条呈现给用户。可由用户输入新的词条来扩充上述基础词典，这一扩充受限于设备的可用内存容量。

在这些文本输入***中，根据使用频率的统计，在某些***（诸如“eZiText”、“AdapTxt”、“TouchPal”）中根据即时的词汇语境，对潜在填充的候选词条进行排序。

发明内容

本发明对这种仅以使用时间或频率为依据进行文本预测排序的文本输入***进行了显著的改进，其允许对受到已生成的诸如主题、类型或作者等高层文本特征影响的文本预测进行排序。

本发明由此提供了一个更加精确的文本输入***文本预测的排序方法，从而降低了用户的文本输入强度（因为用户基本不必滚动预测词条列表或输入额外字符来找出他们的目标词条）。

本发明提供了一种具有机器学习技术和分类能力的***，以便对用户输入的文本片段做出实时的分类预测。该***使用分类预测重新排序和/或选择由文本预测引擎生成的文本预测。然后将生成的文本预测呈现给用户，以供用户选择输入电子设备中的输入文本。

利用分类预测对文本预测进行重新排序具有以下优点，可将那些与当前文本主题/类型等最为相关的文本预测置于显示列表的顶部供用户选择。由此使用户的文本输入更加便利。可将所述分类预测分级，以划分出宽泛的分类，并在该分类中提取出精炼分类的文本预测。举例来说，可将宽泛的“体育”分类划分为任意数量的子类，并可继续划分这些子类。假设“体育”的一个子类为“足球”，则可将“足球”这一子类进一步划分为“足球俱乐部”、“球员”、“球队经理”等子类。因此，本发明提供的文本输入***能够从用户输入的文本中精确地预测出与该文本相关的分类。在此之后，该文本输入***可以通过减少不大可能出现在用户输入文本的给定分类文本预测中的文本预测的出现概率，来精炼由文本预测引擎（该引擎优选生成基于字符的文本预测）生成的文本预测。

本发明提供了一种计算装置的文本输入***，该***包括具有至少一个预测器的文本预测引擎，用于接收用户输入至计算装置中的文本并使用所述预测器生成多条文本预测；分类器，用于接收输入文本并生成至少一个文本预测分类；以及，加权模块，用于接收所述文本预测和所述文本预测分类并使用所述文本预测分类加权所述文本预测以生成新的文本预测呈现给用户。

优选地，根据文本源训练所述预测器。所述***包括多个由单独文本源训练的预测器。优选地，多个所述预测器同时生成多条文本预测。

在本发明的一个实施例中，所述***还包括特征向量生成器，该特征向量生成器用于通过从所述输入文本中提取特征，计算所述输入文本中每个特征的词条逆向文档频率并标准化结果向量为单位长度，来生成用以表示由用户输入至所述计算装置中的文本输入的特征向量。优选地，所述特征向量生成器还用于通过从所述文本源中提取一组特征，计算所述输入文本中每个特征的词条逆向文档频率并标准化结果向量为单位长度，来为所述文本源或每个单独文本源生成至少一个特征向量。

在本发明的一个优选实施例中，所述***还包括分类器训练模块，该模块用于根据所述文本源生成的特征向量训练所述分类器。优选地，所述文本源包括至少用一个代表分类预先标记的文本数据。所述分类器可以是时序聚集感知分类器。优选地，所述分类器用于生成与所述分类相关的置信度向量。

在一优选实施例中，所述加权模块用于根据所述置信度向量生成加权向量。优选地，所述加权模块通过将所述置信度向量中的最大正值设置为1，将所述置信度向量中的其他所有正值除以所述置信度向量中的最大正值与一常数因子之积，并将任意负置信度值设为0，来生成加权向量。所述加权模块可用来使用所述加权向量甄选由所述文本预测引擎生成的文本预测，以生成新的文本预测。

优选地，所述加权模块用于将所述新的文本预测***至多重映射结构，并返回p个最概然的新文本预测，所述多重映射结构包括映射有概率值的文本预测。

所述预测器可为单语言模型、多语言模型或自适应预测***中的一种。所述文本预测引擎包括至少两个预测器，其中至少一个预测器为自适应预测***。在本实施例中，所述自适应预测***包括第二文本预测引擎，该文本预测引擎包括至少一个预测器，用于接收输入文本并利用所述预测器生成多条文本预测；第二分类器，用于接收所述输入文本并生成至少一个文本分类预测；第二加权模块，用于接收来自于所述第二文本预测引擎的所述文本预测和来自于所述第二分类器的至少一个分类预测，使用所述分类预测加权所述文本预测由此生成新的文本预测。

优选地，所述计算装置为移动电话、PDA（个人电子助理）或诸如台式电脑、笔记本电脑、平板电脑等电脑、移动网络设备、超级移动电脑、游戏机或车载***之一。

本发明还提供了一种根据用户输入文本生成文本预测的方法，该方法包括：基于用户输入文本生成多条文本预测的步骤；基于用户输入文本生成一组文本分类预测的步骤；生成一组分类加权文本预测的步骤；以及，将这组分类加权文本预测呈现给用户的步骤。优选地，该方法还包括：从这组分类加权文本预测中选出一个分类加权文本预测作为文本输入。

所述文本预测由至少一个预测器生成，所述生成文本预测的方法优选包括：基于文本源训练所述预测器。在一实施例中，具有多个预测器，基于各独立文本源训练每个预测器。优选地，所述文本预测由多个预测器同时生成。

在一实施例中，所述方法还包括：通过从所述输入文本中提取特征，计算所述输入文本中每个特征的词条逆向文档频率，并标准化结果向量为单位长度，来生成用以表示由用户输入至所述计算装置中的输入文本的特征向量。优选地，所述方法还包括：通过从所述文本源中提取一组特征，计算所述输入文本中每个特征的词条逆向文档频率，并标准化结果向量为单位长度，来为所述文本源或每个独立文本源生成至少一个特征向量。

优选地，所述文本分类预测由分类器生成。所述分类器可为时序聚集感知分类器。优选地，所述方法包括：基于从文本源中生成的特征向量训练所述分类器。优选地，所述文本源包括至少以一个代表分类预标记的文本数据。

在一实施例中，所述方法包括：将分类加权的文本预测***到多重映射结构中，并返回p个最概然的分类加权文本预测，所述多重映射结构包括映射有概率值的分类加权文本预测。

所述生成文本分类预测的步骤包括：生成与分类相关的置信度向量。所述生成一组分类加权文本预测的步骤包括：基于所述置信度向量生成加权向量。所述加权向量可由如下步骤生成：将所述置信度向量中的最大正值设为1，将所述置信度向量中的其他所有正值除以所述置信度向量中的最大正值与一常数因子之积，并将任意负置信度值设为0。生成一组分类加权文本预测的步骤包括：利用所述加权向量甄选由所述文本预测引擎生成的文本预测。

在一实施例中，生成文本预测的步骤包括：使用至少两个预测器生成文本预测。优选地，使用至少两个预测器中的一个来生成文本预测的步骤包括：基于用户输入文本生成多条文本预测；生成第二组文本分类预测，并通过使用所述第二组文本分类预测加权由所述第二预测器生成的所述文本预测，以生成一组新的文本预测。

下面，将结合以下附图详细介绍本发明。

附图说明

图1为本发明的自适应预测结构示意图；

图2为本发明的自适应预测结构实例示意图；

图3为本发明的用于生成分类加权文本预测的方法流程图。

具体实施方式

本发明提供了一种基于文本预测成分自适应加权的文本预测***的模块化语言模型。该***（称为自适应预测器）利用机器学习技术，以及根据以代表性的分类预标记的文本数据进行训练的分类技术，对用户输入的文本片段进行实时分类预测。

如上所述，所述***利用用户输入文本片段的实时分类预测重新排序其根据用户输入文本生成的文本预测。所述***由此可将最概然的文本预测（如果存在局部语境、分类预测和当前词信息的话，可基于局部语境、分类预测和当前词信息）置于显示有文本预测且供用户选择的文本预测列表的顶部，因此有助于用户进行选择及文本输入。

本发明***可应用于多种电子装置中。经非限制性实例验证，本发明***可用于移动电话的文本输入、PDA设备的文本输入或电脑的文本输入（例如，通过按键敲击和鼠标滚动方式选择相关文本预测，或者对于使用触屏技术的装置来说，通过触摸屏幕的方式选择相关文本预测）。

所述分类器可专注于某一特定分类，如主题/类型/作者等，以辅助主题/类型/作者等给定分类的文本输入。举例来说，专注于体育主题的分类器可包括一些体育范畴内的子类。体育记者可使用具有上述分类器的***来辅助文本输入（即，以电子邮件或文字处理文档的形式）。类似地，还可在使用专业语言（例如法律、金融或商务文档）的公司或组织中使用本发明***，在该领域的一些文本源上训练本发明***的分类器。

图1示出了本发明***。下面参照图1详细介绍该***的组成部分。

该***包括文本源1,2,3。每个文本源包括至少一个、优选为多个的文档。文本源1,2,3为一种电子文本，其中存在有涉及文本属性方面的分类标签。所述分类标签可涉及一种特定的语言、一种特定的主题（例如体育、金融等）、一种特定的类型（例如法定形式、日常使用形式等）、一个特定的作者、一个或一组特定的收件人、一种特定的语义指向或任意一种可被识别的文本属性。所述文本源可用来训练一个或多个预测器6,7,8以及分类器9。

本发明***包括文本预测引擎100，该文本预测引擎包括至少一个预测器6,7,8。预测器可为能够生成一个或多个文本预测的任意预测组件。本发明***由此可使用任意现有的预测器。优选地，所述预测器基于用户输入文本的语境生成文本预测，即所述预测器基于第n-1个词条的语境生成第n个词条的文本预测。所述预测器可以为单语言模型、多语言模型（多语言模型通过结合来源于多个语言模型中的预测文本，生成一组预测文本）、如图1所示的自适应预测模型或任意其他种类的语言模型中的一种。根据文本源1,2,3训练预测器6,7,8，其中每个文本源用于训练一独立的预测器。所述***可以使用任意数量个文本源。预测器将文本预测11作为一组与概率值映射的词条/短语返回。在国际专利申请PCT/GB2010/000622中记载了一种使用预测器生成文本预测的完整说明，该申请主张申请号为0905457.8的英国专利《向电子装置中输入文本的***及方法》的优先权，通过整体引用的方式将其引入本文。在申请号为1016385.5的英国专利《向电子装置中输入文本的***及方法》中记载了另一种使用预测器（多模型）生成文本预测的完整说明，通过整体引用的方式将其引入本文。

用户输入文本14被输入至所述***。所述用户输入文本包括由用户输入的从当前文档起始位至光标当前位之间的文本序列。将未加工的用户输入文本14直接输入至所述预测引擎100。所述预测引擎100可使用与当前部分完整的词条相关的信息，优选使用语境信息。所述未加工的输入文本还被输入至特征向量生成器4。

所述***包括特征向量生成器4，该特征向量生成器用于将用户输入文本14（不包括部分完整的当前词条）的语境词条转换成准备用于分类的特征向量。所述特征向量生成器（根据文本源）还用于生成训练分类器用的特征向量。特征向量是D-维实值向量R^D。每个维度代表一用来表示文本的特定特征。通常，这些特征为单个词条或短语（n元语法）。通过词法分析将文本序列划分为多个词条（每个词条表示字，以及诸如标点等额外的拼写项）并丢弃多余的词条（例如，像“stopwords”这种没有语义的词条），以从文本序列中提取单个词条的特征。在某些情况下，文本特征还可以是字形标准化，即转换成小写字母。通过将邻近词条连接成为最小字符实体，生成N元语法特征。举例来说，已知文本序列“Dearspecialfriends”，单词条特征为“Dear”、“special”和“friends”，此时双连词（二元语法）特征为“Dearspecial”和“specialfriends”。

向量空间值D由语言模型中使用的特征总数决定，一般地，对于现实世界中的分类问题而言，特征总量能够达到10000以上。所述特征向量生成器4用于根据与词条在给定文本片段中的出现频率相关、且由该词条贯穿整个所述文本片段中的逆向出现频率标准化的值，加权每个单元，以将文本（例如单个文档、电子邮件等）的不连续片段转换成向量。已知实现上述加权的公式为TF-IDF，即TermFrequency-InverseDocumentFrequency（词频-逆向文档频率，一种用于资讯检索与文本挖掘的常用加权技术），其定义如下：

TF - IDF (t) = \frac{tf (t)}{df (t)}

其中，tf(t)为词条t在当前文档（或电子邮件等）中的出现次数，df(t)为文档数量，在这些文档中词条t贯穿整个集合，即所有文本源。然后，由所述特征向量生成器4将每个向量标准化为单位长度。

所述特征向量生成器4用于将用户输入文本划分成多个特征（一般为单字或短语），以根据这些特征生成特征向量。所述特征向量被转给分类器（由该分类器使用所述特征向量生成分类预测）。

本发明***包括分类器9。由训练模块5使用经过所述特征向量生成器4的所述文本源1,2,3训练所述分类器9。由此，所述分类器9受到一批预先标记有代表分类、且被转换成为多个特征向量的电子文本的训练。经过训练的分类器9以特征向量生成器根据用户输入文本14的片段生成的特征向量作为输入，生成分类预测10。作为输出的该分类预测10包括一组与概率值映射的分类。所述分类预测10提取自由文本源1,2,3上的标签定义的分类空间。所述分类器以批量感知器原理（batchperceptronprinciple）为基础，在训练过程中，尽管使用了合适的分类器，但仍同时在所有误分类实例的方向上更新加权向量。所述分类器优选为时序聚集感知（TAP,TimedAggregatePerceptron）分类器9。所述TAP分类器9本身为二值（2-类）分类模型。可采用1-对-多的组合处理多类问题，其中将分类器训练为每个分类-对-除其之外其他所有分类。举例来说，已知体育、金融和政治这个三个分类，则将三个TAP分类器训练为：

1）体育-对-金融和政治；

2）金融-对-体育和政治；

3）政治-对-体育和金融。

分类器训练模块5实现了上述训练过程。所述分类器训练模块5为各个分类器生成一加权向量如下：

1）体育：

2）金融：

3）政治：

已知一组与目标标签(x_i,y_i)配对的D维度样本向量N，TAP分类器训练过程返回一优化加权向量由下列函数给出新样本的预测：

f (x) = sign (\hat{w} \cdot x) - - - (1)

其中，sign函数基于任意实数的正负号将任意实数转换成+1或-1。虽然可以通过导入阈值来修正偏离，但默认决策边界沿无偏超平面延伸。

在第t次训练迭代中的类标准化经验性损失落入范围（0,1）内，该类标准化经验性损失的定义如下：

L_{t} = \frac{1}{2} [\frac{| Q_{t}^{+} |}{N^{+}} + \frac{| Q_{t}^{-} |}{N^{-}}] - - - (2)

其中，Q_t表示在第t次训练迭代中的一组误分类的样本，N表示在已知类中训练样本的总数，+/-表示类的特性。误分类的条件给定如下：

w_t·x_iy_i<1（3）

垂直于所述决策边界的+1/-1边际是用来校正训练样本分类所不可缺少的。

在每次迭代中，通过对误分类样本进行求和，构建聚集向量a_t，并标准化所述聚集向量a_t：

a_{t} = norm (Σ_{x_{i} &Element; Q_{i}} x_{i} y_{i}, T) - - - (4)

其中，norm(v，T)函数将v标准化至量级T，Q_t为迭代t中的一组误分类样本。

在训练过程开始时将时序变量设为1，并逐渐递减，这一过程由下列公式支配：

T_{t} = T_{t - 1} - \{\begin{matrix} r - 1 & L_{t - 1} > L_{t} \\ rt (L_{t} - L_{t - 1}) b & otherwise \end{matrix}\} - - - (5)

r为时序快速性超参数，可手动调整所述超参数r以调节所述分类器的性能。所述超参数r的默认值为1。b为训练分布尺度平衡量，可由以下公式求得：

b = \frac{\min (N^{+ .}, N^{- .})}{N} - - - (6)

以上限值0.5为理想平衡。当所述时序变量或经验性损失为0时，所述训练过程终止。TAP方案对于训练数据的适用程度取决于时序排程的快速性：时序排程终止得越早，TAP方案对于训练数据的适用程度则越好。

在本发明中，优选地使用所述分类公式（1）的变形，而无需sign函数来为每个分类器生成一置信度值，由此生成M维置信度值向量，其中，M为分类的数量。由此，举例来说，设定一新的、未见过的且由向量所表示的文本片段，生成以下置信度向量

c = (\begin{matrix} {\hat{w}}_{S} \cdot x \\ {\hat{w}}_{F} \cdot x \\ {\hat{w}}_{P} \cdot x \end{matrix})

为了在特定数据集上优化所述TAP分类器9的性能，可实验性地调节所述时序快速性超函数r。

本发明***还包括加权模块12。所述加权模块12使用由所述分类器9生成的分类预测10加权由所述文本预测引擎100生成的文本预测11。来自于预测器6,7,8的文本预测11的权重受所述分类器9指定的置信度值分布的支配。所述加权模块12使用由所述分类器9生成的置信度值向量加权来自于预测器6,7,8的文本预测11，以生成分类加权的文本预测13。

一特定加权模块12在位于分层预测结构（将在下文中介绍）上层的自适应预测器中。将输出的概率带入随后的任意次比较中。因此，加权模块12遵守指定给一组文本预测的绝对概率是很重要的，以免带来不合逻辑的非对称后继比较。因此，所述加权模块12总是留下最概然预测成分中未发生变化的文本预测11，并适当地缩减掉最不可能的预测成分。

通过使用来自于所述分类器9的置信度向量，所述加权模块12构造对应的M维加权向量，以使用该M维加权向量从M个预测成分中选出文本预测11。

在TAP模型中，类属关系的决策边界为0。因此，如果所述置信度向量中的个别单元为负值，则这种迹象表明所述分类器已将低可能度指定给某一假设，即文本具有那一分类属性的假设。在这种情况下，将所述加权向量中相应的单元设为0。在实际操作中，将会高效地过滤掉来自于0值权重预测成分中的文本预测。

将权重“1”指定给与最大正值置信度元素相对应的加权向量元素，并相对于正置信度值之间的差异甄选其余加权向量元素。

根据置信度向量构造加权向量的算法如下：

对于每个正置信度值c_i及其相应的权重值w_i：

else w_{i} = \frac{c_{i}}{\underset{k}{m} [c_{k}]}

例如，上述3-类的实例，将如下置信度向量

c = (\begin{matrix} 0.41 \\ - 0.62 \\ 1.83 \end{matrix})

转换成如下加权向量

w = (\begin{matrix} 0.22 \\ 0 \\ 1 \end{matrix})

如果需要，可导入常量以增加最概然成分与其他成分相比之下的广泛度。然后使用如下公式计算加权向量：

w_{i} = \frac{c_{i}}{v \cdot \max_{k} [c_{k}]}

上述算法适用于除最大正置信度值之外的所有正置信度值。人工选择v值，继续上述实例，当v=3时可求出以下加权向量：

w = (\begin{matrix} 0.07 \\ 0 \\ 1 \end{matrix})

所述加权模块12根据所述加权向量单元的对应单元值，从每个预测成分中甄选预测文本11，以生成一组分类加权的文本预测。所述加权模块12用于将所述分类加权的文本预测***至“多重映射”结构，以将p个最概然词条作为最终的文本预测13返回。多重映射为一种映射或关联数组。在该关联数组中，多个值与一给定键关联，并与给定键一起返回。

在本发明中，优选地，所述多重映射为STL（StandardTemplateLibrary,标准模板库）多重映射，在该映射中，关联键值对被放在二叉树结构中。二叉树结构允许存在重复键。所述多重映射可用于存放作为有序节点树的元素序列，每个节点存放一个元素。元素包含一用于序列排序的键值以及一映射值。在本***的STL多重映射中，文本预测为映射有概率值的字符串值，且以概率值为基础为这种映射关系排序，即：在所述多重映射中，将所述概率值作为键来使用，而将所述字符串作为值来使用。

举例来说，已知根据加权所述第一预测器生成的文本预测而获得的分类加权文本预测“a”→0.2和“the”→0.3，根据加权所述第二预测器生成的文本预测而获得的分类加权文本预测“an”→0.1和“these”→0.2，所述加权模块将这些加权文本预测***多重映射结构((0.1→“an”),(0.2→“a”),(0.2→“these”),(0.3→“the”))，然后逆向读取这一多重映射结构以获得一组最终的文本预测。

可将根据所述加权模块12生成的最终文本预测13输出至所述***的显示部分，以供用户选择向电子设备中输入的文本。之后，被选中的文本预测作为用户输入文本14的一部分用来生成新的一组文本预测13，以供显示和用户选择。

一般而言，按照但不限于图1示出的实施方式实施本发明***。图1是本发明自适应预测结构的框图。用户向所述***输入文本14。随即，这一输入文本14被传送至所述文本预测引擎100和所述特征向量生成器4。所述特征向量生成器4将用户输入文本14转换成特征向量后，将该特征向量传送至所述分类器9。

所述文本预测引擎100基于所述输入文本14使用至少一个预测器生成至少两个文本预测11。在预测器是一种多语言模型的情况下，通过将文本预测***到STL多重映射结构并返回p个最概然值，将来自于（多语言模型中的）每个语言模型的文本预测结合起来。文本预测的结果集合被传送至所述加权模块12。

所述TAP分类器9使用所述特征向量来生成M个分类预测10（包括M维置信度向量，表示为在预先标记的文本源中有M个分类）。所述分类预测被传送至所述加权模块12。

所述加权模块12根据所述分类预测10的M维置信度向量生成M维加权向量，并使用该加权向量从所述文本预测引擎的M个预测器中甄选文本预测11，由此生成分类加权的文本预测。由所述加权模块将所述分类加权文本预测***至多重映射结构，并将p个最概然文本预测13返回给所述***的用户，以供其选择和文本输入。

所述文本预测显示于列表格式中，其中最概然词条位于所述列表的顶部或尾部。由用户选中并输入所述***的文本预测成为用户输入文本14的下一段。所述***使用这一输入文本14，优选地连同一段或多段先前的输入文本段，生成新的文本预测13，以显示给用户并供其选择。

如上所述，预测器6,7,8可构成如图1示出的自适应预测***。本发明***由此定义了一个递归结构，该递归结构允许分层构建任意数量个自适应预测器。下面参照图2介绍自适应预测的具体实施方式。图2示出了权利要求1的自适应预测结构，其中，文本预测引擎200的预测器26,27,28之一为自适应预测器26。在自适应预测器26中的每一个预测器46,47,48可以是单语言模型、多语言模型或自适应预测模型。因此，所述自适应预测结构定义了一个递归结构，该递归结构允许分层构建任意数量个自适应预测器。

图2仅以图示为目的，描述了两层自适应结构。这是本发明自适应结构中无数个潜在结构中的一种。

在第一层上，使用了三个文本源21,22,23，分别代表三个主题：体育、金融和政治。这些文本源及其代表的分类经过所述特征向量生成器24被传送至TAP训练模块25，以生成3-类TAP分类器29。分别代表金融和政治分类的文本源22,23被用于训练单语言模块27,28，而代表体育的文本源21被用于训练自适应预测器26。

在所述自适应预测器26中，所述体育文本源被划分成三个子类：足球41、高尔夫42和赛马43。这些子类经过第二层特征向量生成器44被传送至第二层TAP分类器训练模块45，以生成第二个3-类TAP分类器49。此外，每个子类文本源41,42,43被分别用来训练单语言模型46,47,48。

所述用户文本输入34被传送至第一层TAP分类器29和第二层TAP分类器49，以生成第一层分类预测30和第二层分类预测50。第一层加权模块32使用所述第一层分类预测30加权由第一层文本预测引擎200生成的文本预测33；第二层加权模块52使用第二层分类预测50加权由第二层文本预测引擎400生成的文本预测51。

将第二层分类加权的文本预测53作为一组来自于第一层文本预测引擎200的第一层预测组件26（自适应预测器26）的文本预测进行处理。由此，可使用第一层加权向量（基于第一层分类文本预测30）甄选（由第一层加权模块32执行）第二层分类加权的文本预测53。

下面参照图3详细介绍本发明的文本输入方法。图3为处理用户输入文本及生成分类加权文本预测的方法流程图。所述方法具体为：第一步包括：接收用户输入文本14，并根据该用户输入文本14生成文本预测11。所述方法还包括：通过使用特征向量生成器4将用户输入文本转换成特征向量，来规定所述用户输入文本的格式。所述方法包括：使用分类器9生成置信度向量，该置信度向量与预先标记的文本源1,2,3所代表的分类相关。所述方法还包括：使用加权模块12根据置信度向量生成加权向量，并通过所述加权向量甄选（使用加权模块）文本预测11，以生成一组最终的文本预测13。如果所述预测器6,7,8和分类器9未经训练，则所述方法还包括：根据至少一个文本源，训练至少一个预测器和分类器。

下面参照图2和特定方案，更加详细地介绍一组加权输出文本预测的生成方法。假设，TAP分类器29,49已经过相关文本源21,22,23,41,42,43的训练；同样，语言模型26,27,28,46,47,48也经过了训练。

举例来说，用户输入了以下文本序列34：

“Today’smatchwasclassiclocalderby.ThevisitorswereclearlymotivatedfollowingtherecenttakeoveroftheclubbytheAEGgroup.Thefirst”

将这一输入文本34传送至第一层文本预测引擎200和第二层文本预测引擎400，以生成第一层文本预测31和第二次文本预测51。在通过上述步骤将所述输入文本34预先处理为TAP输入格式后，还将所述输入文本34传送至第一、第二TAP分类器29,49。所述分类器29,49各生成一个三元置信度向量。所述输入文本34还被传送至第一层文本预测引擎200和第二层文本预测引擎400，以生成第一层文本预测31和第二层文本预测51。

在本实施方式中，所述第一层分类器29在体育、金融和政治分类之间进行辨别，并生成第一层置信度向量如下：

c_{1} = (\begin{matrix} 1.41 \\ 0.52 \\ - 0.83 \end{matrix})

其中，第一元素为体育，第二元素为金融，第三元素为政治。通过第一层加权模块（根据上文介绍的方法）可将第一层置信度向量转换成第一层加权向量如下：

w_{1} = (\begin{matrix} 1 \\ 0.37 \\ 0 \end{matrix})

所述第二层分类器49在足球、高尔夫和赛马子类之间进行辨别，并生成第二层置信度向量如下：

c_{2} = (\begin{matrix} 1.2 \\ 0.31 \\ 0.09 \end{matrix})

其中，第一元素为足球，第二元素为高尔夫，第三元素为赛马。（通过使用第二层加权模块）可将第二层置信度向量转换成第二层加权向量如下：

w_{2} = (\begin{matrix} 1 \\ 0.26 \\ 0.08 \end{matrix})

已知目标文本预测集合具有三个词条，金融和政治的第一层预测器生成文本预测31如下（记住局部语境“Thefirst”）：

finance : (\begin{matrix} (quarter, 0.25) \\ (accounting, 0.1) \\ (merger, 0.05) \end{matrix})

politics : (\begin{matrix} (term, 0.15) \\ (constituent, 0.1) \\ (vote, 0.02) \end{matrix})

体育元素（自适应预测器）生成三组与每个子类对应的内部文本预测51如下：

football : (\begin{matrix} (half, 0.22) \\ (goal, 0.15) \\ (tackle, 0.05) \end{matrix})

golf : (\begin{matrix} (hole, 0.25) \\ (round, 0.2) \\ (birdie, 0.04) \end{matrix})

racing : (\begin{matrix} (lap, 0.2) \\ (incident, 0.18) \\ (position, 0.05) \end{matrix})

然后，根据上述第二层加权向量w₂加权这些子类的文本预测51，以生成：

football : (\begin{matrix} (half, 0.22 \cdot 1 = 0.22) \\ (goal, 0.15 \cdot 1 = 0.15) \\ (tackle, 0.05 \cdot 1 = 0.05) \end{matrix})

golf : (\begin{matrix} (hole, 0.25 \cdot 0.26 = 0.07) \\ (round, 0.2 \cdot 0.26 = 0.05) \\ (birdie, 0.04 \cdot 0.26 = 0.01) \end{matrix})

racing : (\begin{matrix} (lap, 0.2 \cdot 0.08 = 0.02) \\ (incident, 0.18 \cdot 0.08 = 0.01) \\ (position, 0.05 \cdot 0.08 = 0.004) \end{matrix})

将第一层加权向量w₁应用到来自于三个第一层文本预测元素的文本预测中，由此生成如下：

football : (\begin{matrix} (half, 0.22) \\ (goal, 0.15) \\ (tackle, 0.05) \end{matrix})

golf : (\begin{matrix} (hole, 0.07) \\ (round, 0.05) \\ (birdie, 0.01) \end{matrix})

racing : (\begin{matrix} (lap, 0.02) \\ (incident, 0.01) \\ (position, 0.004) \end{matrix})

finance : (\begin{matrix} (quarter, 0.09) \\ (accounting, 0.04) \\ (merger, 0.02) \end{matrix})

politics : (\begin{matrix} (term, 0) \\ (constituent, 0) \\ (vote, 0) \end{matrix})

所述加权模块将加权文本预测***至STL多重映射结构，以返回三个最概然词条（其中，p=3）作为最终的加权文本预测33：

(\begin{matrix} (half, 0.22) \\ (goal, 0.15) \\ (quarter, 0.09) \end{matrix})

将所述最终的文本预测13输出给所述***显示，以供用户选择并将向电子设备中输入文本14。将用户选择的预测词条输入电子设备，并由所述***使用该预测词条预测下一组文本预测13，以显示给用户并供其选择。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在计算装置上生成文本输入的***，包括：

文本预测引擎，包括至少一个预测器，用于接收用户输入所述计算装置中的输入文本，并使用所述预测器生成多条文本预测，其中，各条所述文本预测包括映射有概率值的词条或短语；

分类器，用于接收所述输入文本，并基于所述输入文本生成至少一个文本分类预测，其中，所述文本分类预测包括映射有概率值的分类；

加权模块，用于接收所述文本预测和至少一个所述文本分类预测，并使用所述至少一个文本分类预测的相应文本分类预测的概率值加权所述文本预测的概率值，以生成多个分类加权的文本预测并输出n个最可能的分类加权的文本预测呈现给用户。

2.根据权利要求1所述的***，其特征在于，根据文本源训练所述预测器。

3.根据权利要求2所述的***，其特征在于，还包括多个根据独立文本源训练的预测器。

4.根据前述任意一项权利要求所述的***，其特征在于，还包括：

特征向量生成器，用于通过从所述输入文本中提取特征，计算所述输入文本中每个特征的词条逆向文档频率并标准化结果向量为单位长度，来生成用以表示由用户输入至所述计算装置中的文本输入的特征向量。

5.根据引用权利要求2或3的权利要求4所述的***，其特征在于，所述特征向量生成器还用于通过从所述文本源中提取一组特征，计算所述输入文本中每个特征的词条逆向文档频率并标准化结果向量为单位长度，来为文本源或每个独立文本源生成至少一个特征向量。

6.根据权利要求5所述的***，其特征在于，还包括：

分类器训练模块，用于根据所述文本源生成的特征向量训练所述分类器。

7.根据权利要求2或3所述的***，其特征在于，所述文本源包括至少以一个代表分类预标记的文本数据。

8.根据权利要求1至3中任意一项权利要求所述的***，其特征在于，还包括：多个同时生成文本预测的预测器。

9.根据权利要求1至3中任意一项权利要求所述的***，其特征在于，所述分类器为时序聚集感知分类器。

10.根据权利要求1至3中任意一项权利要求所述的***，其特征在于，所述分类器用于生成置信度向量，该置信度向量与至少一个分类相关联。

11.根据权利要求10所述的***，其特征在于，所述加权模块用于根据所述置信度向量生成加权向量。

12.根据权利要求11所述的***，其特征在于，所述加权模块通过将所述置信度向量中的最大正值设定为1，将所述置信度向量中的其他所有正值除以所述置信度向量中的最大正值与一常数因子之积，并将任意负置信度值设为0，来生成加权向量。

13.根据权利要求12所述的***，其特征在于，所述加权模块用于使用所述加权向量甄选由所述文本预测引擎生成的文本预测，以生成分类加权的文本预测。

14.根据权利要求1至3中任意一项权利要求所述的***，其特征在于，所述加权模块用于将所述分类加权的文本预测***至多重映射结构；所述多重映射结构包括映射有概率值的文本预测，并返回p个最概然的分类加权的文本预测。

15.根据权利要求1至3中任意一项权利要求所述的***，其特征在于，所述预测器为单语言模型、多语言模型或自适应预测***中的一种。

16.根据权利要求1至3中任意一项权利要求所述的***，其特征在于，所述文本预测引擎包括至少两个预测器；至少这两个预测器的其中之一为自适应预测***。

17.根据权利要求16所述的***，其特征在于，所述自适应***包括：

第二文本预测引擎，包括至少一个预测器，用于接收输入文本并使用所述预测器生成文本预测；

第二分类器，用于接收输入文本并生成至少一个文本分类预测；

第二加权模块，用于接收来自于所述第二文本预测引擎的文本预测和来自于所述第二分类器的文本分类预测，并使用所述文本分类预测加权所述文本预测以生成新的文本预测。

18.根据权利要求1至3中任意一项权利要求所述的***，其特征在于，所述计算装置为移动电话、个人电子助理或电脑。

19.一种根据用户输入文本生成文本预测的方法，包括：

根据输入文本生成多条文本预测的步骤，其中，各条所述文本预测包括映射有概率值的词条或短语；

根据输入文本使用分类器生成一组文本分类预测的步骤，其中，每一所述文本分类预测包括映射有概率值的分类；

通过使用所述文本分类预测中至少一个文本分类预测的相应文本分类预测的概率值加权所述文本预测的概率值，生成一组分类加权的文本预测的步骤；以及

输出n个最可能的分类加权的文本预测呈现给用户的步骤。

20.根据权利要求19所述的方法，其特征在于，还包括：

从所述分类加权的文本预测中选出一个作为输入文本。

21.根据权利要求19或20所述的方法，其特征在于，由至少一个预测器生成所述文本预测；并且，所述方法还包括：

根据文本源训练所述预测器。

22.根据权利要求21所述的方法，其特征在于，由多个预测器生成所述文本预测；并且，根据独立文本源训练每个预测器。

23.根据权利要求19至20中任意一项所述的方法，其特征在于，还包括：

通过从所述输入文本中提取特征，计算所述输入文本中每个特征的词条逆向文档频率并标准化结果向量为单位长度，来生成用以表示由用户输入至所述计算装置中的输入文本的特征向量。

24.根据权利要求23所述的方法，其特征在于，还包括：

通过从所述文本源中提取一组特征，计算所述输入文本中每个特征的词条逆向文档频率并标准化结果向量为单位长度，来为所述文本源或每个单独文本源生成至少一个特征向量。

25.根据权利要求19至20中任意一项所述的方法，其特征在于，

所述文本预测由多个预测器同时生成。

26.根据权利要求19所述的方法，其特征在于，所述分类器为时序聚集感知分类器。

27.根据权利要求24所述的方法，其特征在于，还包括：

根据由所述文本源生成的特征向量训练所述分类器。

28.根据权利要求22、权利要求24或27中的任意一项所述的方法，其特征在于，所述文本源包括至少以一个代表分类预标记的文本数据。

29.根据权利要求19至20中任意一项所述的方法，其特征在于，还包括：

将所述分类加权的文本预测***至多重映射结构；所述多重映射结构包括映射有概率值的分类加权预测文本，并返回p个最概然的分类加权文本预测。

30.根据权利要求19至20中任意一项所述的方法，其特征在于，所述生成一组文本分类预测的步骤包括：

生成与所述分类相关的置信度向量。

31.根据权利要求30所述的方法，其特征在于，所述生成一组分类加权文本预测的步骤包括：

根据所述置信度向量，生成加权向量。

32.根据权利要求31所述的方法，其特征在于，通过将所述置信度向量中的最大正值设定为1，将所述置信度向量中的其他所有正值除以所述置信度向量中的最大正值与一常数因子之积，并将任意负置信度值设为0，来生成所述加权向量。

33.根据权利要求32所述的方法，其特征在于，所述生成一组分类加权文本预测的步骤包括：

使用所述加权向量甄选由所述文本预测引擎生成的所述文本预测。

34.根据权利要求19至20中任意一项所述的方法，其特征在于，所述生成多条文本预测的步骤包括：

使用至少两个预测器生成所述文本预测。

35.根据权利要求34所述的方法，其特征在于，所述使用至少两个预测器生成所述文本预测的步骤包括：

根据用户输入文本生成多条文本预测；

生成第二组文本分类预测；以及

通过使用所述第二组文本分类预测加权由第二预测器生成的所述文本预测，以生成一组新的文本预测。