WO2013143252A1

WO2013143252A1 - 一种基于上下文场景的输入候选词提示方法及***

Info

Publication number: WO2013143252A1
Application number: PCT/CN2012/079960
Authority: WO
Inventors: 李静
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2012-03-28
Filing date: 2012-08-10
Publication date: 2013-10-03
Also published as: CN103365833A; CN103365833B

Abstract

本发明提供一种基于上下文场景的输入候选词提示方法，包括：接收用户输入的词条；基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景，生成第一候选词集合；以及将所述第一候选词集合提供给所述用户。本发明还提供一种用于该方法的***。本发明充分利用上下文场景进行候选词推荐，有效提高了输入过程中的候选首词命中率。

Description

一种基于上下文场景的输入候选词提示方法及***

[0001】本申请要求了 2012月 3月 28日提交的、申请号为 201210086810.4、发明名称为 "一种基于上下文场景的输入候选词提示方法及***"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

[0002]本发明涉及输入法领域，具体地说涉及一种基于上下文场景的输入候选词提示方法及***。背景技术

[0003】不同的人因为兴趣、爱好、习惯不同，常用输入内容也各有不同。现有的输入法候选字提示忽略了用户的差异性，在相同的已输入字的情况下，候选词没有考虑用户的个性化信息，使得用户无法快捷、方便地查找到候选词。现有的输入法主要是以大规模词频统计方法为主，结合本地上下文情境来实现候选词概率统计和提示。目前的主流输入法能够对用户最近、最频繁的输入进行统计，加权优先显示用户的最近、最频繁的使用的词汇。

[0004]常用的输入法主要分为以下几类：

1、用于智能手机的输入法，可以结合手机特性，提供电话薄中姓名、电话的候选词提示或者用户指定固定的候选词。

2、根据词汇分类不同，可以提供某项领域的专有用词，如 "股票代号" 快速输入装置等。

3、结合设备属性进行候选词提示，通常用在互联网搜索时，参考输入法承载设备的型号、相应的功能等信息进行候选词提示。

4、利用多用户的个性化信息挖掘出用户特征、进行候选词提示，如，通过统计用户客户端的词表，挖掘出兴趣爱好一致的用户，建立相似度关系，从而将兴趣相近的用户词表推荐给其他用户。

[0005]但是目前常用的输入法只考虑了用户输入的上下文，忽略了用户所使用设备同时也是信息的接受者，接收到的信息对设备使用者的行为习惯的改变。以手机为例，当用户接收到短消息时，可能针对不同的短信进行回复不同的信息；当用户进行网页浏览时，可能针对互联网上不同页面使用回帖、搜索等输入功能，因此用户使用的词汇会因当时的情境有所不同。在这种情况下，现有输入法并不能很好地为用户提供候选词。发明内容

[0006]本发明提供一种基于上下文场景的输入候选词提示方法，用于通过统计用户的短信输入的历史信息，同时考虑非本地用户输入的上下文场景，弥补现有输入法的不足，提高候选词的 "首字命中率" 和 "候选词命中率" ，使得输入内容真正达到 "个性化" 。

[0007]根据本发明的一个方面，提供一种基于上下文场景的输入候选词提示方法，其中，包括以下步骤：

a ) 接收用户输入的词条；

b ) 基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景，生成第一候选词集合；以及

c ) 将所述第一候选词集合提供给所述用户。

[0008]根据本发明的另一个方面，提供一种基于上下文场景的输入候选词提示***，其中，包括：

[0009】接收装置，用于接收用户输入的词条；

[0010】生成装置，用于基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景，生成第一候选词集合；以及

[0011]提供装置，用于将所述第一候选词集合提供给所述用户。

[0012]本发明提供的基于上下文场景的输入候选词提示方法及***，本发明应用于各种具有上下文场景的可输入平台，所述上下文场景包含任何非本地用户输入的上下文场景。根据用户输入的词条，并结合对用户历史输入记录和所述上下文场景的分析，生成候选词集合，并将所述候选词集合提供给用户。本发明充分利用非本地用户资源信息，尤其是以移动通信设备为代表，如手机进行短信聊天时，如果能够考虑到上下文场景再生成候选词集合，将对用户的输入有很大的帮助，从而提高手机输入的候选首字命中率。附图说明

[0013]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

[0014] 图 1为根据本发明的一种基于上下文场景的输入候选词提示方法的一种具体实施方式的流程示意图；

[0015] 图 2为根据本发明的一种基于上下文场景的输入候选词提示***的一种具体实施方式的结构示意图；

[0016] 图 3为本发明的一种基于上下文场景的输入候选词提示***中的生成装置的一种具体实施方式的结构示意图。

[0017]附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式

[0018】为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施例作详细描述。

[0019]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

[0020]下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了筒化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和 /或字母。这种重复是为了筒化和清楚的目的，其本身不指示所讨论各种实施例和 /或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

[0021]如图 1所示，图 1为根据本发明提供的基于上下文场景的输入候选词提示方法的一个具体实施方式的流程示意图，包括步骤 S101~S103 , 下面结合具体的实施例对图 1所示的方法进行说明。 [0022]步骤 S101 , 接收用户输入的词条。本发明的方法可以应用于任何可以装载输入法的设备中，所述设备包括但不限于： PC、笔记本电脑、 PDA (个人掌上电脑）、手机、平板电脑等终端，优选为能够装载输入法的手机。因此以下以手机为例进行阐释。

[0023】用户输入的词条可以是各种语言的字符、拼音中的一种或者它们的组合。例如： "百度" 、 "woxihuan" 、 "百度 ditu" 等等。

[0024]步骤 S102 , 基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景，生成第一候选词集合。

[0025】优选的，可以首先基于所述用户对所述词条输入的历史记录，生成第二候选词集合。当接收到输入词条之后，需要对该词条进行语义分析，例如分析其词性，输入历史等，来确定候选词。例如：用户输入的词条为 "开" ，那么根据对该词条的分析，得知该词条通常情况下以动词词性出现，其后会出现一名词词性的词条，如：会、电脑、机等；根据输入历史，还会出现如：始、了、导等经常在词条 "开" 之后出现的词条。

[0026】对于某一词条的输入历史分析，除了对大多数用户的输入历史进行海量数据分析外，还需要结合本机输入法的使用情况，对候选词词条的顺序进行调整，以便能够更灵活地匹配个性化的用户需求。例如该用户为一心理咨询师，那么可能在输入完词条 "开" 之后，候选词的第一位即为 "导" ，之后为：电脑、机、始、了、会等；而当用户为一经常开会的人士时，那么在输入完词条 "开" 之后，候选词的第一位即为 "会" ，之后为：电脑、机、始、了、导等。对于本机输入法的使用历史的分析，可采取本机用户的账号信息、 cookie等常用的分析手段进行。上述根据用户词条输入的历史记录的分析生成的候选词集合即为第二候选词集合。

[0027】此外，为了使候选词更加贴近用户需求，对于上下文情境的分析也很重要。随着互联网、以及无线通信的发展，信息交互越来越重要了，因此对于非本地的且与所述词条相关的上下文场景进行分析就至关重要，接下来基于任意非本地的与所述词条相关的上下文场景，生成第三候选词集合。例如，在通常情况下，用户输入词条 "科" 时，候选词通常是：技、学、目、长、室等等；而当用户在浏览一与 NBA球员有关的网页时，那么当用户需要进行回帖、搜索等操作时，输入了词条 "科" ，第一候选词则为：比。又如：当用户在一足球网站进行浏览时，需要进行输入操作时，当用户输入了词条"贝" 时，候选词可能为：利、肯鲍尔、隆等。上述候选词集合即为第三候选词集合。

[0028]下面以智能手机编辑短信为例，进行说明。

[0029]用户 A收到用户 B的一条短信： "今天我去上地软件园了，那里很不错！ " 由于用户 A并不知道 "上地软件园" 在哪里，因此想回复一条短信给用户 B进行询问。但是因为 "上地"不是一个常见词，即未登录词，当用户 A输入 "上" 时，现有的候选词提示法根本无法将 "地"设为候选词。因此，用户 A需要分别输入 "上" 和 "地" 两个字。而本发明中的方法可以基于非本地的与所述词条相关的上下文场景提示候选词，因此本发明中的输入法可以将 "地" 作为候选词。

[0030]首先，根据每次用户输入信息，生成用户常用词表。计算以 "上" 开头的词出现的概率 a。其次，接收非本地用户（用户 B )所输入的文本信息，对所述文本信息进行切词，形成至少一个类词。即切分原短信内容，利用逆向最大匹配法，切分后结果为 "今天 \我\去 \上\地\软件园 \了" 。之后将所述类词存储于预存词汇库，即将切分结果中连续两个单字组为一个词，存入预存词汇库，如 "我去" 、 "去上" 、 "上地" 等。其连续出现的概率值可以利用 n-gram模型计算，假设 "上地" 出现的概率为 b。再次，根据所述用户输入的词条，基于所述预存词汇库，生成第三候选词集合。由于用户 A的回复输入有 "上" 那么会比较 a *a与 β * b的值， a与 β是经过训练得到的参数，使得在候选提示框了优先考虑 "地" ，而不是传统的 "上班" 、 "上车" 、 "上网" 等。即，第三候选词集合可能为地、班、车、网等。优选地，对上下文中出现的新词条赋予更高的权重，使得这些上下文中出现的词条优先出现在用户输入的候选词集合中。

[0031]根据所述第二候选词集合和所述第三候选词生成第一候选词集合。优选的，将所述第二候选词集合和所述第三候选词集合进行加权，生成第一候选词集合。第二候选词集合和第三候选词集合的权重可以根据需求由用户进行设定。优选的，第三候选词集合的权重要高于第二候选词集合，通常情况下，第三候选词集合的首位候选词即为第一候选词集合的首位候选词。

[0032]步骤 S103 , 将所述第一候选词集合提供给所述用户。上述步骤结束后，可以得到与用户输入词条最相关的第一候选词集合，并将该第一候选词集合提供给用户，供用户选择。通常情况下，首位候选词会采用与其他候选词不同的显示，例如：反白、不同色等等。

[0033]参考图 2 , 图 2示出根据本发明的一种基于上下文场景的输入候选词提示*** 10的一种具体实施方式的结构示意图。 *** 10包括：接收装置 1 1、生成装置 12和提供装置 13。

[0034】接收装置 1 1 , 用于接收用户输入的词条。本发明的***可以应用于任何可以装载输入法的设备中，所述设备包括但不限于： PC、笔记本电脑、 PDA (个人掌上电脑）、手机、平板电脑等终端，优选为能够装载输入法的手机。因此以下以手机为例进行阐释。

[0035]用户输入的词条可以是各种语言的字符、拼音中的一种或者它们的组合。例如： "百度" 、 "woxihuan" 、 "百度 ditu" 等等。

[0036】生成装置 12 , 用于基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景，生成第一候选词集合。

[0037】优选的，生成装置 12可以进一步用于，首先基于所述用户对所述词条输入的历史记录，生成第二候选词集合。当接收到输入词条之后，需要对该词条进行语义分析，例如分析其词性，输入历史等，来确定候选词。例如：用户输入的词条为 "开" ，那么根据对该词条的分析，得知该词条通常情况下以动词词性出现，其后会出现一名词词性的词条，如：会、电脑、机等，根据输入历史，还会出现如：始、了、导等经常在词条 "开" 之后出现的词条。

[0038]对于某一词条的输入历史分析，除了对大多数用户的输入历史进行海量数据分析外，还需要结合本机输入法的使用情况，对候选词词条的顺序进行调整，以便能够更灵活地匹配个性化的用户需求。例如该用户为一心理咨询师，那么可能在输入完词条 "开" 之后，候选词的第一位即为 "导" ，之后为电脑、机、始、了、会等；而当用户为一经常开会的人士时，那么在输入完词条 "开" 之后，候选词的第一位即为 "会" ，之后为电脑、机、始、了、导等。对于本机输入法的使用历史的分析，可采取本机用户的账号信息、 cookie等常用的分析手段进行。上述根据用户词条输入的历史记录的分析生成的候选词集合即为第二候选词集合。

[0039】此外，为了使候选词更加贴近用户需求，对于上下文情境的分析也很重要。随着互联网、以及无线通信的发展，信息交互越来越重要了，因此对于非本地的且与所述词条相关的上下文场景进行分析就至关重要，接下来生成装置 12 , 用于基于任意非本地的与所述词条相关的上下文场景，生成第三候选词集合。例如，在通常情况下，用户输入词条 "科" 时，候选词通常是：技、学、目、长、室等等；而当用户在浏览一与 NBA球员有关的网页时，那么当用户需要进行回帖、搜索等操作时，输入了词条 "科" ，第一候选词则为：比。又如：当用户在一足球网站进行浏览时，需要进行输入操作时，当用户输入了词条 "贝" 时，候选词可能为：利、肯鲍尔、隆等。上述候选词集合即为第三候选词集合。

[0040]下面以智能手机编辑短信为例，进行说明。

[0041]用户 A收到用户 B的一条短信： "今天我去上地软件园了，那里很不错！ " 由于用户 A并不知道上地软件园在哪里，因此想回复一条短信给用户 B进行询问。但是因为 "上地" 不是一个常见词，即未登录词，当用户 A输入 "上" 时，现有的候选词提示法根本无法将 "地"设为候选词。因此，用户 A需要分别输入 "上" 和 "地" 两个字。而本发明中的方法可以基于非本地的与所述词条相关的上下文场景提示候选词，因此本发明中的输入法可以将 "地" 作为候选词。

[0042] *** 10会根据每次用户输入信息，生成用户常用词表。如计算以 "上" 开头的词出现的概率 a。参考图 3 , 生成装置 12还包括：类词生成模块 121、存储模块 122和生成模块 123。所述类词生成模块 121用于接收非本地用户（用户 B )所输入的文本信息，对所述文本信息进行切词，形成至少一个类词。即切分原短信内容，利用逆向最大匹配法，切分后结果为 "今天 \我\去\上\地\软件园\了" 。存储模块 122用于将所述类词存储于预存词汇库，即将切分结果中连续两个单字组为一个词，存入预存词汇库，如 "我去" 、 "去上" 、 "上地" 等。其连续出现的概率值可以利用 n-gram模型计算，假设 "上地" 出现的概率为13。生成模块 123 , 用于根据所述用户输入的词条，基于所述预存词汇库，生成第三候选词集合。由于用户 A的回复输入有 "上" 那么会比较 a *a与 β · b的值， a与 β是经过训练得到的参数，使得在候选提示框了优先考虑 "地" ，而不是传统的 "上班" 、 "上车" 、 "上网" 等。即，第三候选词集合可能为地、班、车、网等。优选地，对上下文中出现的新词条赋予更高的权重，使得这些上下文中出现的词条优先出现在用户输入的候选词集合中。

[0043]进一步地，生成装置 12用于根据所述第二候选词集合和所述第三候选词生成第一候选词集合。优选的，将所述第二候选词集合和所述第三候选词集合进行加权，生成第一候选词集合。第二候选词集合和第三候选词集合的权重可以根据需求由用户进行设定。优选的，第三候选词集合的权重要高于第二候选词集合，通常情况下，第三候选词集合的首位候选词即为第一候选词集合的首位候选词。

[0044】提供装置 13 , 用于将所述第一候选词集合提供给所述用户。上述步骤结束后，可以得到与用户输入词条最相关的第一候选词集合，并将该第一候选词集合提供给用户，供用户选择。通常情况下，首位候选词会采用与其他候选词不同的显示，例如：反白、不同色等等。

[0045]采用本发明的方法和***，可以充分利用非本地上下文场景进行候选词推荐，有效提高输入过程中的候选词命中率。

[0046]对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然"包括"一词不排除其他模块或步骤，单数不排除复数。

Claims

权利要求

1、一种基于上下文场景的输入候选词提示方法，其中，包括以下步骤： a )接收用户输入的词条；

b )基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景，生成第一候选词集合；以及

c )将所述第一候选词集合提供给所述用户。

2、根据权利要求 1所述的方法，其中，所述步骤 b )进一步包括步骤：基于所述用户对所述词条输入的历史记录，生成第二候选词集合；基于任意非本地的与所述词条相关的上下文场景，生成第三候选词集合；根据所述第二候选词集合和所述第三候选词集合生成第一候选词集合。

3、根据权利要求 2所述的方法，其中，所述步骤 b )进一步包括步骤：接收非本地用户所输入的文本信息，并对所述文本信息进行切词，形成至少一个类词；

将所述类词存储于预存词汇库；

根据所述用户输入的词条，基于所述预存词汇库，生成第三候选词集合。

4、根据权利要求 2或 3所述的方法，其中，将所述第二候选词集合和所述第三候选词集合进行加权，生成第一候选词集合。

5、根据权利要求 1~4任意一项所述的方法，其中，所述词条是各种语言的字符、拼音中的一种或者它们的组合。

6、根据权利要求 1或 2所述的方法，其中，所述上下文场景为用户接收的短信或浏览的网页的上下文信息。

7、根据权利要求 6所述的方法，其中，在所述上下文信息中出现的词条优先出现在用户输入的第一候选词集合中。

8、一种基于上下文场景的输入候选词提示***，其中，包括：

接收装置，用于接收用户输入的词条；

生成装置，用于基于所述用户对所述词条的输入历史和任意非本地的与所述词条相关的上下文场景，生成第一候选词集合；以及

提供装置，用于将所述第一候选词集合提供给所述用户。

9、根据权利要求 8所述的***，其中，所述生成装置进一步用于：基于所述用户对所述词条输入的历史记录，生成第二候选词集合；基于任意非本地的与所述词条相关的上下文场景，生成第三候选词集合；根据所述第二候选词集合和所述第三候选词集合生成第一候选词集合。

10、根据权利要求 9所述的***，其中，所述生成装置还包括：

类词生成模块，用于接收非本地用户所输入的文本信息，并对所述文本信息进行切词，形成至少一个类词；

存储模块，用于将所述类词存储于预存词汇库；

生成模块，用于根据所述用户输入的词条，基于所述预存词汇库，生成第三候选词集合。

1 1、根据权利要求 9或 10所述的***，其中，所述生成装置用于将所述第二候选词集合和所述第三候选词集合进行加权，生成第一候选词集合。

12、根据权利要求 8~1 1任意一项所述的***，其中，所述词条是各种语言的字符、拼音中的一种或者它们的组合。

13、根据权利要求 8或 9所述的***，其中，所述上下文场景为用户接收的短信或浏览的网页的上下文信息。

14、根据权利要求 8所述的***，其中，在所述上下文信息中出现的词条优先出现在用户输入的第一候选词集合中。