CN101645065A - 确定需要加载的辅助词库的方法、装置及输入法*** - Google Patents

确定需要加载的辅助词库的方法、装置及输入法*** Download PDF

Info

Publication number
CN101645065A
CN101645065A CN200810117750A CN200810117750A CN101645065A CN 101645065 A CN101645065 A CN 101645065A CN 200810117750 A CN200810117750 A CN 200810117750A CN 200810117750 A CN200810117750 A CN 200810117750A CN 101645065 A CN101645065 A CN 101645065A
Authority
CN
China
Prior art keywords
feature
user
auxiliary lexicon
information
write down
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810117750A
Other languages
English (en)
Other versions
CN101645065B (zh
Inventor
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN200810117750.1A priority Critical patent/CN101645065B/zh
Priority to CN200910137634.0A priority patent/CN101645088B/zh
Publication of CN101645065A publication Critical patent/CN101645065A/zh
Application granted granted Critical
Publication of CN101645065B publication Critical patent/CN101645065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种确定需要加载的辅助词库的方法,该方法包括:采集用户的输入信息;分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;根据所记录的特征确定需要加载的辅助词库。本发明还公开了一种确定需要加载的辅助词库的装置及输入法***。通过本发明实施例,提高了判断用户兴趣的准确度,为确定需要加载的辅助词库提供了可靠的依据。

Description

确定需要加载的辅助词库的方法、装置及输入法***
技术领域
本发明涉及输入法领域,特别是涉及确定需要加载的辅助词库的方法、装置及输入法***。
背景技术
随着计算机技术的发展,输入法作为人机交互的重要手段受到了越来越高的关注。用户对输入准确性和输入速度的要求,推动了输入法向着智能化、人性化、个性化的方向发展。
当前的输入法***(包括中文、日文、韩文等)都是基于其词库***为使用者在输入过程中提供候选词的。为提升用户输入的流畅度,输入法软件的一个发展方向是扩充收录的词条数量,尽可能减少逐字选词的次数,提高首选词的准确率。因此,输入法***除了基本词库外,还可以具有辅助词库,即通常所说的细胞词库。其中,基本词库中的词条是大多数输入法用户接受并广为使用的,具有一定的通用性。辅助词库中的词条具有专业化、个性化的特点,例如化工词库、理财词库、欧美电影词库等等,这种词库针对不同专业领域、不同兴趣的用户对于输入法智能化的要求而设计。充分、合理地利用这些词库可以有助于提高用户输入准确性及输入速度。
但是词库规模不能一味追求大而全,否则会带来重码冲突、性能下降、软件规模变大等不利影响。同时用户的专业领域和兴趣也是多种多样的,统一到一个大而全的词库并不现实。一种处理方案是根据每个用户在特定领域的具体需要,加载相关的辅助词库,其中,如何判断用户需要加载哪些辅助词库成为比较关键的问题。
目前加载辅助词库的方法是,根据用户当前输入环境的相关信息,加载相应的辅助词库,因为当前输入环境可能会表征用户的专业领域或兴趣。其中所述当前输入环境包括当前应用程序名称、当前窗口名称、文件名称等。例如,用户当前的输入环境是某网络游戏界面,则自动加载该游戏的辅助词库;用户在某文档中使用输入法时,则自动加载与该文档名称或者文档中的内容相匹配的辅助词库。
但是,由于文档的名称通常是由用户随意编辑的,简称“文档”、“工作”、“备忘”等,有些文档则直接用默认的“新建文件1”、“新建文件2”等泛泛的名称,因此从文件名、程序名来判断并加载相关辅助词库具有局限性。另外,根据文档中的内容进行判断也不够精确,因为该文档不一定是当前用户编辑的,其内容不一定能表征当前用户的兴趣。而且可能造成错误的判断,例如文档中出现了“化工”一词,于是加载了化工词库,但实际上文档中出现的是“流程化工作”,显然该文档并不一定与化工相关,这样加载反而会伤害用户体验。
因此,现阶段需要本领域技术人员迫切解决的一个技术问题是,如何准确判断用户所属领域或用户兴趣,为加载需要的辅助词库提供可靠的依据。
发明内容
有鉴于此,本发明的目的在于提供确定需要加载的辅助词库的方法、装置及输入法***,以解决现有技术确定需要加载的用户词库时的不准确问题。
为实现上述目的,本发明提供了如下方案:
一种确定需要加载的辅助词库的方法,包括:
采集用户的输入信息;
分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
根据所记录的特征确定需要加载的辅助词库。
优选的:
判断所述信息中是否存在与预置特征列表中的特征相匹配的特征,如果存在,则记录所述相匹配的特征。
优选的,满足触发条件时,根据所记录的特征确定需要加载的辅助词库。
优选的,对所记录的特征进行统计,根据统计结果确定需要加载的辅助词库。
优选的,基于预置的统计模型对所记录的特征进行统计。
优选的:
基于预置统计模型,根据所记录的特征对每个辅助词库进行评分,将评分结果高于预置阈值的辅助词库确定为需要加载的辅助词库。
优选的:
基于预置统计模型,根据所记录的特征对所有辅助词库进行综合评定,计算每个辅助词库需要加载的概率,将概率排序在预置阈值前的辅助词库确定为需要加载的辅助词库。
优选的,基于预置的规则模型对所记录的特征进行统计。
优选的,所述用户的输入信息包括:
用户的输入序列、用户词库中的内容、用户输入的环境信息及输入行为。
优选的,还包括:
推荐或自动加载所述需要加载的辅助词库。
优选的,将已加载辅助词库的相关信息保存到服务器。
一种确定需要加载的辅助词库的装置,包括:
信息采集单元,用于采集用户的输入信息;
分析单元,用于分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
判断单元,用于根据所记录的特征确定需要加载的辅助词库。
优选的,所述分析单元包括:
判断子单元,用于判断所述信息中是否存在与预置特征列表中的特征相匹配的特征;
记录子单元,用于记录所述相匹配的特征。
优选的,所述判断单元包括:
触发子单元,用于判断是否满足触发条件;
第一执行子单元,用于根据所记录的特征确定需要加载的辅助词库。
优选的,所述判断单元包括:
统计子单元,用于对所记录的特征进行统计;
第二执行子单元,用于根据统计结果确定需要加载的辅助词库。
优选的:
所述统计子单元基于预置的统计模型对所记录的特征进行统计。
优选的,所述统计子单元包括:
评分子单元,用于基于预置统计模型,根据所记录的特征对每个辅助词库进行评分;
比较子单元,用于将评分高于预置阈值的辅助词库确定为需要加载的辅助词库。
优选的,所述统计子单元包括:
概率计算子单元,用于基于预置统计模型,根据所记录的特征对所有辅助词库进行综合评定,计算每个辅助词库可能需要加载的概率;
选择子单元,用于将概率排序在预置阈值前的辅助词库确定为需要加载的辅助词库。
优选的:
所述统计子单元基于预置的规则模型对所记录的特征进行统计。
优选的:
所述信息采集单元采集用户的输入序列、用户词库中的内容、用户输入的环境信息及输入行为。
优选的,还包括:
事件响应单元,用于推荐或自动加载所述需要加载的辅助词库。
优选的,还包括:
账户管理单元,用于绑定用户,并将已加载辅助词库的相关信息保存到服务器。
一种输入法***,包括:
信息采集单元,用于采集用户的输入信息,所述输入信息包括用户的输入序列、用户词库中的内容、用户输入的环境信息及输入行为;
分析单元,用于分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
判断单元,用于根据所记录的特征确定需要加载的辅助词库;
事件响应单元,用于推荐或自动加载所述需要加载的辅助词库。
优选的,所述判断单元包括:
触发子单元,用于判断是否满足触发条件;
第一执行子单元,用于根据所记录的特征确定需要加载的辅助词库。
优选的,所述判断单元包括:
统计子单元,用于对所记录的特征进行统计;
第二执行子单元,用于根据统计结果确定需要加载的辅助词库。
优选的:
所述统计子单元基于预置的统计模型对所记录的特征进行统计。
优选的:所述统计子单元基于预置的规则模型对所记录的特征进行统计。
优选的,还包括:
账户管理单元,用于绑定用户,并将已加载辅助词库的相关信息保存到服务器。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
第一,本发明对用户的输入信息进行分析,以此作为分析评判用户兴趣的主要依据;由于用户的输入信息中能够更准确地提取到表征用户兴趣的特征,因此提高了判断用户兴趣的准确度,为确定需要加载的辅助词库提供了可靠的依据。
第二,可以通过一段时期的数据积累,对记录的特征进行统计,可以进一步提高判断的准确度。
第三,采集用户输入信息时,不仅采集用户的输入序列,还可以结合用户当前的输入环境、用户输入行为、用户词库中的词条(用户的长期输入)等综合信息进行分析,有助于过滤掉干扰信息,使判断出的用户兴趣更加准确。
第四,通过账户管理可以将已加载辅助词库的相关信息(加载的辅助词库列表、词条列表、辅助词库使用情况等)保存在服务器上,用户完成账户登录后从服务器上获取已加载辅助词库的相关信息,使得用户在其他计算机上也能够使用已加载辅助词库的相关信息。另外,由于存在多人使用同一台计算机的情况,使用账户管理机制还可以避免不同使用者之间的干扰。
第五,在获知用户的专业领域或兴趣后,本发明可以在第一次安装向导时、升级安装向导时或用户实时输入时进行相应的辅助词库的加载,加载的方式也可以是推荐提示或自动加载,因此使得加载的方式更加灵活且人性化;其中推荐加载的方式中体现了与用户之间的互动,有助于获取到更加真实表征用户兴趣的信息,降低了伤害用户体验的可能性。
附图说明
图1是本发明实施例提供的方法的流程图;
图2是本发明实施例提供的第一装置的示意图;
图3是本发明实施例提供的第二装置的示意图;
图4是本发明实施例提供的第三装置的示意图;
图5是本发明实施例提供的第四装置的示意图;
图6是本发明实施例提供的第五装置的示意图;
图7是本发明实施例提供的第六装置的示意图;
图8是本发明实施例提供的第一输入法***的示意图;
图9是本发明实施例提供的第二输入法***的示意图;
图10是本发明实施例提供的第三输入法***的示意图;
图11是本发明实施例提供的第四输入法***的示意图;
图12是本发明实施例提供的第五输入法***的示意图。
具体实施方式
本发明提供了一种确定需要加载的辅助词库的方法,为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细地说明。
参见图1,本发明提供的确定需要加载的辅助词库的方法包括以下步骤:
S101:采集用户的输入信息;
本发明实施例中,所述输入信息可以是输入序列、用户的输入环境或用户的输入行为等信息。本发明实施例中,输入方式可以包括键盘符号、手写信息及语音输入等,因此所述输入序列可以包括编码字符串、手写信息、语音输入信息等。
S102:分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
本发明将用户输入的信息作为评判用户兴趣的依据,因此直接从用户的输入信息中提取能够表征用户兴趣的特征。例如,在用户的输入序列中,所述特征可以包括“化工”、“魔兽”等特征词的词条、频率等,由于特征词本身可能具有一定区分度,例如,词条“求组”经常出现在网络游戏中,但这个词并不具有判定具体哪款网络游戏的区分度。因此,所述特征不仅可以包括特征词的频率、词条数,以及输入序列中特征词的紧密程度,还可以包括特征词的区分度等信息。
S103:根据所记录的特征确定需要加载的辅助词库。
可见,本发明实施例对用户的输入信息进行分析,并从中提取能够表征用户兴趣的特征,由于这些特征能够在更大程度上表征用户的兴趣,因此与依靠外在的输入环境进行兴趣判断相比,可以更加准确地提取到代表用户兴趣的信息。为确定需要加载的辅助词库提供了更加可靠的依据。
在实际应用中,为了方便记录用户输入信息中的特征,可以采用预置特征表的方式,将能够表征用户兴趣的特征保存在该特征词表中,并在用户调用输入法时加载到内存中,这样分析用户输入信息时,可以直接将输入信息与特征词表中的特征进行比对,例如,如果输入信息中出现与特征表中的特征相匹配的特征词,则记录该相匹配的特征词的词条、词频、区分度等特征。
为了使本发明的方法更加有效,可以经过一段时期的信息收集进行数据积累,然后根据积累的数据去判断用户的兴趣。因此,可以采用设定触发条件的方式,当满足触发条件时,根据记录的特征确定需要加载的辅助词库。其中,所述触发条件可以是积累时间是否达到预定长度、积累的数据是否达到预定数量或用户是否结束调用输入法等等。另外,也可以对累计记录的特征进行统计,根据统计的结果来确定需要加载的辅助词库。
其中,对所记录的特征进行统计的方式可以有多种,下面介绍几种优选的方式,仅仅用于举例说明本发明的实现,而不应理解为对本发明的限制。
方式一:基于预置的统计模型,对记录的特征进行统计。所述预置的统计模型可以是在开发阶段由开发人员训练好的,该统计模型可以是根据标注好的语料(若干各用户输入样本,一般每个样本由人工确定是否该加载某词库,可以看作是机器学习里的一个多目标分类问题)训练模型。由于每个特征对判断用户兴趣的参考价值有所不同,因此可以通过对不同的特征赋予不同的权重来实现。例如,每个词条存在区分度和频度:“奥特兰克山谷”、“蛮爪洞穴”的区分度很高,它们的出现几乎可以推断出魔兽方面的兴趣,但它们出现的频度相对较低;而“魔法”、“伤害”则正好相反,因为这两个词条在其他语境中也常常出现。一般是要综合考虑这两个因素,给每个词条以比合适的权重。因此,训练出的统计模型可以表现为若干特征的权重向量,比如某个类别辅助词库中各特征的权重向量为<0.33,-0.11,0.1......0.03,0.001>,可以表示特征1的权重是0.33,特征2的权重是-0.11(负的值表示该特征的出现对推荐这个词库不利,是负面特征)。记录输入内容中的特征时,可以表示为向量的形式,每个特征参数可以简单地记录为出现为1、不出现为0,也可以由一系列离散值来表示。这样就将判断用户兴趣这一定性的问题转化为定量的问题,使统计得到的结果具有较高的可靠性,然后根据这个结果来确定可能需要加载的辅助词库。
在根据预置的模型对记录的特征进行统计、以确定可能需要加载的辅助词库时,也可以采用多种方式,例如可以基于预置的统计模型,根据所记录的特征对每个辅助词库进行评分,将评分高于某预置阈值的辅助词库确定为可能需要加载的辅助词库。其中打分结果可以由记录的特征向量与模型中的特征权重向量进行点积得到。例如在一次统计中,记录得到关于某类别辅助词库的特征向量为<1,0,1.33,......,0.78,0.46>,统计模型中的特征权重向量为<0.33,-0.11,0.1......0.03,0.001>,则该次统计针对该类别辅助词库的打分结果为:1×0.33+0×(-0.11)+......+0.46×0.001,然后判断该打分结果是否大于某预置的阈值,如果大于,则将该类别的辅助词库确定为需要加载的辅助词库。此外,还可以基于预置模型,根据所记录的特征计算每个辅助词库需要加载的概率,将概率高于预置阈值的辅助词库确定为可能需要加载的辅助词库,或者将各概率值按从高到低进行排序,排名前几位的辅助词库确定为需要加载的辅助词库。
方式二:基于预置的规则模型对所记录的特征进行统计。这种规则模型可以是开发人员通过经验等各种手段整理的规则,可以制定为很简单的形式,例如:如果用户连续输入的50个词语里有7个及以上命中魔兽词库的特征表,则将魔兽词库确定为可能需要加载的辅助词库。
其中,本发明实施例所采集的所述用户的输入信息可以是指用户的直接输入序列;同时,由于用户输入的环境信息、用户的输入行为以及用户以前输入过的内容,对于评判用户的兴趣都具有一定的帮助,如果综合考虑这些信息,则可以更加准确地判断用户的兴趣,为确定需要加载的辅助词库提供更加有力的依据。因此,在本发明的优选实施例中,采集的输入信息可以不仅包括用户直接的输入序列,还可以包括输入的环境信息(包括宿主程序、安装程序列表、防火墙设置等)、用户的输入行为(包括是否逐字上屏、是否使用退格键、平均翻页选词次数等)及用户词库里的词条(用户以前输入过的词条),同样对这些信息进行分析,记录其中出现的特征。例如,在分析时,可以将用户的直接输入序列作为评判的主要依据,同时根据用户的输入行为信息,将偶然输入的错误的词条,由用户删除后不再纳入特征候选词,因此具备了过滤数据噪音的功能。最后将记录的所有特征进行统计,可以更加准确地获得表征用户兴趣的信息,确定哪些辅助词库可能是需要加载的辅助词库。
利用上述方法判断出可能需要加载的辅助词库后,可以完成加载辅助词库的步骤。在加载辅助词库时,本发明可以采用自动加载的方式,即在判断出可能需要加载的辅助词库后,如果该判断的可信度较高,则可以直接加载这些辅助词库;但是在判断的可信度不是很高的情况下,自动加载可能反而会伤害到用户的体验,引起用户的反感,因此本发明还可以采用推荐加载的方式,即在判断出可能需要加载的辅助词库后,首先向用户做出推荐,提示用户可以加载这些辅助词库,然后在用户确定后或做出选择后再进行加载。
采用推荐加载的好处还在于,可以实现与用户间的互动,接收用户的反馈可以更好地判断用户的真实兴趣。同时自动加载的方式可能存在这样一种隐患:用户同时打开多个应用程序,并可能在程序间进行切换。此时可能会判断出多个需要加载的辅助词库,如果全部自动加载这些辅助词库,则可能使得占用内存过多,影响***性能。因此利用推荐的方式,用户根据实际需要来选择需要加载哪些词库,而判断出需要加载、但用户没有选择的辅助词库将不被加载,从而避免了上述问题。
但是,无论是自动加载还是推荐加载,都可能面临这样一个问题:如果当时用户程序处于全屏模式(如魔兽等网络游戏),判断出可以向用户自动加载辅助词库或做出推荐,于是向网络服务器发送下载该词库或弹出推荐提示的请求。这个请求如果被网络防火墙拦截导致提示框弹出,将会带给正在进行游戏的用户极大反感,伤害用户体验。因此,本发明实施例还可以制定推荐规则,比如规定“用户在全屏模式下运行程序则不予推荐或自动加载”。在实际应用中,该推荐规则可以与判断时的统计模型或规则模型相结合,例如:统计评分大于某阈值后,还需要满足这个推荐规则才能推荐或自动加载。当然,也可以不这样制定推荐规则,而将是否全屏这个特征作为统计模型的一个负面影响,将其权重设为绝对值较高的负值,也可以达到同样的目的。
以上所述都是在用户实时输入时进行推荐或自动加载辅助词库的,为了使应用更加灵活,本发明也可以在第一次利用安装向导安装输入法时进行加载或推荐,此时主要根据环境信息、已安装程序等信息判断出可能需要加载的辅助词库;还可以在升级安装向导时进行加载或推荐,此时主要根据用户词库中的内容信息及环境信息判断出可能需要加载的辅助词库。
另外,本发明可以实现迭代的推荐过程,当积累数据判断出新的用户兴趣,进而判断出新的可能需要加载的辅助词库时,则给出新的推荐;同时,当判断出用户对某辅助词库的使用情况有限时,可以提示用户卸载该词库。
以上所述的方法中,已加载辅助词库的相关信息(包括加载的辅助词库列表、词条列表、辅助词库使用情况等信息)通常可以保存在计算机本地。但是在实际应用中,还可能存在这样两种情况:一种是家庭中的不同成员使用同一台计算机,网吧等公共场所中则有更多的人使用同一台计算机。由于不同的人通常都具有不同的专业领域或兴趣,保存在同一台计算机上的已加载辅助词库的相关信息,可能会造成不同使用者之间的干扰。另一种情况是,同一个用户可能使用不同的计算机,如办公室计算机、家用计算机、其他便携式计算机等,如果将已加载辅助词库的相关信息保存在本地,则该用户将无法在其他计算机上使用这些信息。因此,在本发明的优选实施例中,可以采用账户管理机制,根据账户名区分不同的用户,并利用账户管理服务器进行信息同步,使得已加载辅助词库的相关信息可以保存在服务器上。这样用户登录后,则可以根据不同的用户做出相应的推荐,同时,用户可以从服务器上获取更新,将已加载辅助词库的相关信息更新到当前使用的任意计算机上,使得用户即使更换计算机,也可以在更换后的计算机上直接使用已加载辅助词库的相关信息。
为了使以上介绍的本发明实施例更加明显易懂,下面通过两个具体应用场景中的实例进行进一步的介绍。
使用场景一:输入法用户A将输入法升级到支持辅助词库推荐的新版时进行推荐。安装程序分析本地的用户词库,判断出用户A的用户词库中的输入词条涉及化工、理财、欧美电影几个专业/兴趣类别且可信度较高,而江西、户外运动、汽车、房产四个类别的可信度相对低些。在安装向导的某一步骤,程序动态生成的对话框,提示用户是否需要加载这些辅助词库:默认勾选了化工、理财、欧美电影词库,提示但未勾选江西、户外运动、汽车、房产四个词库,提供“更多词库”以供词库搜索功能。用户A在此基础上勾选了“江西”和“户外运动”辅助词库。辅助词库加载后,用户的输入数据仍会用于后续的分析,当发现用户兴趣发生变化时,可能会推荐新的辅助词库,提示卸载已有词库。
使用场景二:用户B在一家网吧玩网络游戏魔兽世界,进入全屏模式后该用户调出输入法与一位玩家商量一起去奥特兰克山谷战场任务练级。输入法软件获取的特征信息包括:宿主程序魔兽世界;用户输入内容中包含“奥特兰克山谷”、“蛮爪洞穴”、“霜狼”、“拉格隆德”、“雷矛勋章”等区分度较高的特征词;包含“组队”、“联盟”、“坐标”、“战场”、“魔法瓶”等区分度相对较低的辅助特征词;用户在输入这些特征词时采取逐字上屏方式。经分析输入法判断出该用户有加载魔兽辅助词库需求,而探测到的该机器防火墙规则为网络交互时提示当前用户。这种情况下输入法选择在网游退出后提示用户是否加载。用户选择“加载”,同时允许防火墙规则修改为词库加载相关网络操作为“自动”。输入法软件在用户B再次进入魔兽世界后加载魔兽辅助词库,该词库有更新时自动下载。该场景在网吧环境下,用户未进行输入法账户登录,对用户兴趣判断采取的是针对用户输入序列的实时方式。
与本发明实施例提供的方法相对应,本发明实施例还提供了一种确定需要加载的辅助词库的装置,参见图2,该装置包括:
信息采集单元U201,用于采集用户的输入信息;
分析单元U202,用于分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
判断单元U203,用于根据所记录的特征确定需要加载的辅助词库。
用户调用输入法进行输入时,信息采集单元U201采集用户的输入信息;分析单元U202对采集到的信息进行分析,记录所述采集到的信息中出现的能够表征用户兴趣的特征,然后判断单元U203根据所记录的特征确定出需要加载的辅助词库。
分析单元U202可以采用多种方式完成对采集到的信息的分析,优选的,判断所述采集到的信息中是否存在与预置特征列表中的特征相匹配的特征,如果存在,则记录所述相匹配的特征。参见图3,分析单元U302可以进一步包括:
判断子单元U3021,用于判断所述采集到的信息中是否存在与预置特征列表中的特征相匹配的特征;
记录子单元U3022,用于记录所述相匹配的特征。
图3中的信息采集单元U301和判断单元U303,与图2中的信息采集单元U201和判断单元U203相同。
为了更利于判断用户的兴趣,可以在经过一段时间的数据积累后再确定需要加载的辅助词库,因此,参见图4,判断单元U403可以包括以下两个子单元:
触发子单元U4031,用于判断是否满足触发条件;
第一执行子单元U4032,用于根据所记录的特征确定需要加载的辅助词库。
图4中的信息采集单元U401、分析单元U402,与图2中的信息采集单元U201、分析单元U202相同。
另外,参见图5,判断单元U503也可以包括以下两个子单元:
统计子单元U5031,用于对所记录的特征进行统计;
第二执行子单元U5032,用于根据统计结果确定需要加载的辅助词库。
其中,统计子单元U5031也可以采用多种方式对所记录的特征进行统计,一种优选的方式是基于预置的统计模型对所记录的特征进行统计。在这种方式下,统计子单元U5031可以包括:
评分子单元U50311,用于基于预置模型,根据所记录的特征对每个辅助词库进行评分;
比较子单元U50312,用于将评分高于预置阈值的辅助词库确定为需要加载的辅助词库。
图5中的信息采集单元U501、分析单元U502,与图2中的信息采集单元U201、分析单元U202相同。
参见图6,统计子单元U6031也可以进一步包括:
概率计算子单元U60311,用于基于预置模型,根据所记录的特征对所有辅助词库进行综合评定,计算每个辅助词库可能需要加载的概率;
选择子单元U60312,用于将概率排序在预置阈值前的辅助词库确定为需要加载的辅助词库。
图6中的信息采集单元U601、分析单元U602、判断单元U603、第二执行子单元U6032,与图5中的信息采集单元U501、分析单元U502、判断单元U503、第二执行子单元U5032相同。
另一种优选的方式是,统计子单元U6031基于预置的规则对所记录的特征进行统计。
为了准确地获取到表征用户兴趣的信息,过滤掉干扰信息,在本发明的优选实施例中,信息采集单元U201采集的用户输入信息可以包括用户的输入序列、用户词库中的内容、用户输入的环境信息及输入行为,分析单元U202对所有这些信息进行分析,并记录其中能够表征用户兴趣的特征。
判断出需要加载的辅助词库后,可以向用户推荐加载所述需要加载的辅助词库,或自动加载,参见图7,该装置还包括事件响应单元U704,用于推荐或自动加载所述需要加载的辅助词库。
为了避免多个用户使用一台计算机时产生的用户间的干扰问题,及同一用户使用多台计算机时无法直接使用已加载辅助词库相关信息的问题,该装置还可以包括账户管理单元U705,用于绑定用户,并将已加载辅助词库的相关信息保存到服务器中。用户可以通过该账户管理单元U705登录到服务器,便可以识别出用户的身份,根据不同的用户分别做出相应的推荐,并将已加载辅助词库的相关信息保存到服务器上。用户即使在其他计算机上调用输入法时,也可以通过该账户管理单元U705从服务器上获取已加载辅助词库的信息。
图7中的信息采集单元U701、分析单元U702、判断单元U703分别与图2中的信息采集单元U201、分析单元U202、判断单元U203相同。
参见图8,该图示出了一种输入法***,该***包括:
信息采集单元U801,用于采集用户的输入信息,所述输入信息包括用户的直接输入序列、用户词库中的内容、用户输入的环境信息及输入行为;
分析单元U802,用于分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
判断单元U803,用于根据所记录的特征确定需要加载的辅助词库;
事件响应单元U804,用于推荐或自动加载所述需要加载的辅助词库。
在实际应用中,可以在原有输入法***中增加上述各单元,来实现确定需要加载的辅助词库,并推荐或自动加载所述需要加载的辅助词库的功能。为方便起见,下面通过一个应用中的具体实例对该***进行详细地描述。
参见图9,该输入法***可以包括:
输入内容接收单元U901,用于接收终端用户通过各种输入工具(QWERTY键盘、9键键盘、手写板等)输入的序列(拼音、五笔、自然码、手写识别结果、语音序列或其他输入形式),将其映射成统一的编码序列。
解码单元U902,用于将输入内容接收单元U901传入的编码序列进行解析,交由候选生成单元U903生成候选。
候选生成单元U903,用于对获得的解码序列进行处理,生成候选列表,由事件响应单元U908交由用户选择。候选生成的过程,可以是先查找资源管理单元U904提供的输入法词库(基本词库/辅助词库)和用户词库查看是否存在匹配输入序列的词条,否则进行组词,赋予不同来源的词库以不同权重,使用动态规划寻找最优路径。用户兴趣相关辅助词库的载入,是输入法词库的一个重要补充,能在一定程度上提升用户输入的流畅度。
资源管理单元U904,用于为候选生成单元U903生成候选提供各种词库资源,包括输入法基本词库、组词信息库,本地用户词库、用户配置信息,以及由用户选择或自动加载的辅助词库。
信息采集单元U905,用于采集用户的输入信息,所述输入信息包括用户输入的长期数据(用户词库中的内容)及短期数据(用户当前输入的内容),还包括当前输入的环境信息、用户的输入行为信息。
分析单元U906,用于分析采集到的信息,记录所述信息中能够表征用户兴趣的特征。
判断单元U907,用于根据所记录的特征确定需要加载的辅助词库。
事件响应单元U908,用于推荐或自动加载所述需要加载的辅助词库。
其中,输入内容接收单元U901、解码单元U902、候选生成单元U903、资源管理单元U904都可以是输入法***的基本功能单元。本发明所述的输入法***可以是原有的输入法***收集用户的输入序列及相关环境信息等,并以此来判断需要加载的辅助词库,然后通过推荐或自动加载的方式加载所述需要加载的辅助词库,以达到方便用户输入的目的。
参见图10,判断单元U1007可以包括以下两个子单元:
触发子单元U10071,用于判断是否满足触发条件;
第一执行子单元U10072,用于根据所记录的特征确定需要加载的辅助词库。
图10中的输入内容接收单元U1001、解码单元U1002、候选生成单元U1003、资源管理单元U1004、信息采集单元U1005、分析单元U1006、事件响应单元U1008,分别与图9中的输入内容接收单元U901、解码单元U902、候选生成单元U903、资源管理单元U904、信息采集单元U905、分析单元U906、事件响应单元U908相同。
参见图11,判断单元1107也可以包括以下两个子单元:
统计子单元U11071,用于对所记录的特征进行统计;
第二执行子单元U11072,用于根据统计结果确定需要加载的辅助词库。
其中,统计子单元U11071可以采用基于预置的统计模型对所记录的特征进行统计,或基于预置的规则对所记录的特征进行统计等统计方式。
图11中的输入内容接收单元U1101、解码单元U1102、候选生成单元U1103、资源管理单元U1104、信息采集单元U1105、分析单元U1106、事件响应单元U1108,分别与图9中的输入内容接收单元U901、解码单元U902、候选生成单元U903、资源管理单元U904、信息采集单元U905、分析单元U906、事件响应单元U908相同。
为了避免多个用户使用一台计算机产生的干扰问题,及同一用户使用多台计算机时产生的无法直接使用辅助词库相关信息的问题,参见图12,该输入法***还可以包括账户管理单元U1209,用于绑定用户,并将已加载辅助词库的相关信息保存到服务器中,其中,所述已加载辅助词库的相关信息可以包括加载的辅助词库列表、词条列表、辅助词库使用情况等。用户在通过该账户管理单元U1209登录后,可以同远程服务器交互,以获得用户词库、用户配置信息及已加载辅助词库的相关信息等内容的更新。
图12中的输入内容接收单元U1201、解码单元U1202、候选生成单元U1203、资源管理单元U1204、信息采集单元U1205、分析单元U1206、判断单元U1207、事件响应单元U1208,分别与图9中的输入内容接收单元U901、解码单元U902、候选生成单元U903、资源管理单元U904、信息采集单元U905、分析单元U906、判断单元U907、事件响应单元U908相同。
以上对本发明所提供的确定需要加载的辅助词库的方法、装置及输入法***,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (28)

1、一种确定需要加载的辅助词库的方法,其特征在于,包括:
采集用户的输入信息;
分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
根据所记录的特征确定需要加载的辅助词库。
2、根据权利要求1所述的方法,其特征在于:
判断所述信息中是否存在与预置特征列表中的特征相匹配的特征,如果存在,则记录所述相匹配的特征。
3、根据权利要求1所述的方法,其特征在于,满足触发条件时,根据所记录的特征确定需要加载的辅助词库。
4、根据权利要求1所述的方法,其特征在于,对所记录的特征进行统计,根据统计结果确定需要加载的辅助词库。
5、根据权利要求4所述的方法,其特征在于,基于预置的统计模型对所记录的特征进行统计。
6、根据权利要求5所述的方法,其特征在于:
基于预置统计模型,根据所记录的特征对每个辅助词库进行评分,将评分结果高于预置阈值的辅助词库确定为需要加载的辅助词库。
7、根据权利要求5所述的方法,其特征在于:
基于预置统计模型,根据所记录的特征对所有辅助词库进行综合评定,计算每个辅助词库需要加载的概率,将概率排序在预置阈值前的辅助词库确定为需要加载的辅助词库。
8、根据权利要求4所述的方法,其特征在于,基于预置的规则模型对所记录的特征进行统计。
9、根据权利要求1所述的方法,其特征在于,所述用户的输入信息包括:
用户的输入序列、用户词库中的内容、用户输入的环境信息及输入行为。
10、根据权利要求1所述的方法,其特征在于,还包括:
推荐或自动加载所述需要加载的辅助词库。
11、根据权利要求10所述的方法,其特征在于,将已加载辅助词库的相关信息保存到服务器。
12、一种确定需要加载的辅助词库的装置,其特征在于,包括:
信息采集单元,用于采集用户的输入信息;
分析单元,用于分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
判断单元,用于根据所记录的特征确定需要加载的辅助词库。
13、根据权利要求12所述的装置,其特征在于,所述分析单元包括:
判断子单元,用于判断所述信息中是否存在与预置特征列表中的特征相匹配的特征;
记录子单元,用于记录所述相匹配的特征。
14、根据权利要求12所述的装置,其特征在于,所述判断单元包括:
触发子单元,用于判断是否满足触发条件;
第一执行子单元,用于根据所记录的特征确定需要加载的辅助词库。
15、根据权利要求12所述的装置,其特征在于,所述判断单元包括:
统计子单元,用于对所记录的特征进行统计;
第二执行子单元,用于根据统计结果确定需要加载的辅助词库。
16、根据权利要求15所述的装置,其特征在于:
所述统计子单元基于预置的统计模型对所记录的特征进行统计。
17、根据权利要求16所述的装置,其特征在于,所述统计子单元包括:
评分子单元,用于基于预置统计模型,根据所记录的特征对每个辅助词库进行评分;
比较子单元,用于将评分高于预置阈值的辅助词库确定为需要加载的辅助词库。
18、根据权利要求16所述的装置,其特征在于,所述统计子单元包括:
概率计算子单元,用于基于预置统计模型,根据所记录的特征对所有辅助词库进行综合评定,计算每个辅助词库可能需要加载的概率;
选择子单元,用于将概率排序在预置阈值前的辅助词库确定为需要加载的辅助词库。
19、根据权利要求15所述的装置,其特征在于:
所述统计子单元基于预置的规则模型对所记录的特征进行统计。
20、根据权利要求12所述的装置,其特征在于:
所述信息采集单元采集用户的输入序列、用户词库中的内容、用户输入的环境信息及输入行为。
21、根据权利要求12所述的装置,其特征在于,还包括:
事件响应单元,用于推荐或自动加载所述需要加载的辅助词库。
22、根据权利要求21所述的装置,其特征在于,还包括:
账户管理单元,用于绑定用户,并将已加载辅助词库的相关信息保存到服务器。
23、一种输入法***,其特征在于,包括:
信息采集单元,用于采集用户的输入信息,所述输入信息包括用户的输入序列、用户词库中的内容、用户输入的环境信息及输入行为;
分析单元,用于分析采集到的信息,记录所述信息中能够表征用户兴趣的特征;
判断单元,用于根据所记录的特征确定需要加载的辅助词库;
事件响应单元,用于推荐或自动加载所述需要加载的辅助词库。
24、根据权利要求23所述的***,其特征在于,所述判断单元包括:
触发子单元,用于判断是否满足触发条件;
第一执行子单元,用于根据所记录的特征确定需要加载的辅助词库。
25、根据权利要求23所述的***,其特征在于,所述判断单元包括:
统计子单元,用于对所记录的特征进行统计;
第二执行子单元,用于根据统计结果确定需要加载的辅助词库。
26、根据权利要求25所述的***,其特征在于:
所述统计子单元基于预置的统计模型对所记录的特征进行统计。
27、根据权利要求25所述的***,其特征在于:
所述统计子单元基于预置的规则模型对所记录的特征进行统计。
28、根据权利要求23所述的***,其特征在于,还包括:
账户管理单元,用于绑定用户,并将已加载辅助词库的相关信息保存到服务器。
CN200810117750.1A 2008-08-05 2008-08-05 确定需要加载的辅助词库的方法、装置及输入法*** Active CN101645065B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200810117750.1A CN101645065B (zh) 2008-08-05 2008-08-05 确定需要加载的辅助词库的方法、装置及输入法***
CN200910137634.0A CN101645088B (zh) 2008-08-05 2008-08-05 确定需要加载的辅助词库的方法、装置及输入法***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810117750.1A CN101645065B (zh) 2008-08-05 2008-08-05 确定需要加载的辅助词库的方法、装置及输入法***

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN200910137634.0A Division CN101645088B (zh) 2008-08-05 2008-08-05 确定需要加载的辅助词库的方法、装置及输入法***

Publications (2)

Publication Number Publication Date
CN101645065A true CN101645065A (zh) 2010-02-10
CN101645065B CN101645065B (zh) 2016-02-24

Family

ID=41656953

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200810117750.1A Active CN101645065B (zh) 2008-08-05 2008-08-05 确定需要加载的辅助词库的方法、装置及输入法***
CN200910137634.0A Active CN101645088B (zh) 2008-08-05 2008-08-05 确定需要加载的辅助词库的方法、装置及输入法***

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN200910137634.0A Active CN101645088B (zh) 2008-08-05 2008-08-05 确定需要加载的辅助词库的方法、装置及输入法***

Country Status (1)

Country Link
CN (2) CN101645065B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929401A (zh) * 2012-09-27 2013-02-13 百度国际科技(深圳)有限公司 基于输入行为的输入法应用资源或功能的处理方法及装置
CN103262073A (zh) * 2010-11-10 2013-08-21 纽昂斯通讯公司 使用通过搜索共享语料库补充的词预测、补全或校正进行的文本输入
CN103399890A (zh) * 2013-07-22 2013-11-20 百度在线网络技术(北京)有限公司 在输入法客户端收集字词的方法和设备
CN103870553A (zh) * 2014-03-03 2014-06-18 百度在线网络技术(北京)有限公司 一种输入资源推送方法及***
CN104133855A (zh) * 2014-07-11 2014-11-05 中安消技术有限公司 一种输入法智能联想的方法及装置
CN104156365A (zh) * 2013-05-14 2014-11-19 ***通信集团湖南有限公司 一种文件的监控方法、装置及***
CN104765609A (zh) * 2015-04-03 2015-07-08 安一恒通(北京)科技有限公司 软件关联资源推荐方法、获取方法及相应的装置
CN106293119A (zh) * 2016-07-29 2017-01-04 百度在线网络技术(北京)有限公司 一种在输入法中进行信息推荐的方法与装置
CN106896932A (zh) * 2016-06-07 2017-06-27 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
CN107346182A (zh) * 2016-05-05 2017-11-14 北京搜狗科技发展有限公司 一种构建用户词库的方法、及用于构建用户词库的装置
CN108536480A (zh) * 2017-12-28 2018-09-14 广东欧珀移动通信有限公司 输入法配置方法及相关产品
US10210148B2 (en) 2010-08-02 2019-02-19 Lenovo (Beijing) Limited Method and apparatus for file processing
CN110222256A (zh) * 2019-05-06 2019-09-10 北京搜狗科技发展有限公司 一种信息推荐方法、装置和用于信息推荐的装置
WO2020047709A1 (zh) * 2018-09-03 2020-03-12 华为技术有限公司 一种中文输入法候选词的搜索方法、终端及服务器

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389979B (zh) * 2012-05-08 2018-10-12 深圳市世纪光速信息技术有限公司 在输入法中推荐分类词库的***、装置及方法
CN103870000B (zh) * 2012-12-11 2018-12-14 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1089375A (zh) * 1992-12-31 1994-07-13 陈劲松 文字忆频环境输入法
CN1490701A (zh) * 2002-10-15 2004-04-21 英业达股份有限公司 可动态调整词库的输入法***及其方法
CN100483416C (zh) * 2007-05-22 2009-04-29 北京搜狗科技发展有限公司 一种字符输入的方法、输入法***及词库更新的方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210148B2 (en) 2010-08-02 2019-02-19 Lenovo (Beijing) Limited Method and apparatus for file processing
CN103262073A (zh) * 2010-11-10 2013-08-21 纽昂斯通讯公司 使用通过搜索共享语料库补充的词预测、补全或校正进行的文本输入
CN103262073B (zh) * 2010-11-10 2017-12-22 纽昂斯通讯公司 使用通过搜索共享语料库补充的词预测、补全或校正进行的文本输入
US9626429B2 (en) 2010-11-10 2017-04-18 Nuance Communications, Inc. Text entry with word prediction, completion, or correction supplemented by search of shared corpus
CN102929401A (zh) * 2012-09-27 2013-02-13 百度国际科技(深圳)有限公司 基于输入行为的输入法应用资源或功能的处理方法及装置
CN104156365A (zh) * 2013-05-14 2014-11-19 ***通信集团湖南有限公司 一种文件的监控方法、装置及***
CN103399890B (zh) * 2013-07-22 2016-10-26 百度在线网络技术(北京)有限公司 在输入法客户端收集字词的方法和设备
CN103399890A (zh) * 2013-07-22 2013-11-20 百度在线网络技术(北京)有限公司 在输入法客户端收集字词的方法和设备
US9716767B2 (en) 2014-03-03 2017-07-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, system, computer storage medium, and apparatus for pushing input resources
CN103870553B (zh) * 2014-03-03 2018-07-10 百度在线网络技术(北京)有限公司 一种输入资源推送方法及***
WO2015131510A1 (zh) * 2014-03-03 2015-09-11 百度在线网络技术(北京)有限公司 输入资源推送方法、***、计算机存储介质和设备
CN103870553A (zh) * 2014-03-03 2014-06-18 百度在线网络技术(北京)有限公司 一种输入资源推送方法及***
CN104133855A (zh) * 2014-07-11 2014-11-05 中安消技术有限公司 一种输入法智能联想的方法及装置
CN104765609A (zh) * 2015-04-03 2015-07-08 安一恒通(北京)科技有限公司 软件关联资源推荐方法、获取方法及相应的装置
CN104765609B (zh) * 2015-04-03 2018-12-07 安一恒通(北京)科技有限公司 软件关联资源推荐方法、获取方法及相应的装置
CN107346182A (zh) * 2016-05-05 2017-11-14 北京搜狗科技发展有限公司 一种构建用户词库的方法、及用于构建用户词库的装置
CN107346182B (zh) * 2016-05-05 2021-11-02 北京搜狗科技发展有限公司 一种构建用户词库的方法、及用于构建用户词库的装置
CN106896932A (zh) * 2016-06-07 2017-06-27 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
CN106896932B (zh) * 2016-06-07 2019-10-15 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
CN106293119A (zh) * 2016-07-29 2017-01-04 百度在线网络技术(北京)有限公司 一种在输入法中进行信息推荐的方法与装置
CN108536480A (zh) * 2017-12-28 2018-09-14 广东欧珀移动通信有限公司 输入法配置方法及相关产品
WO2020047709A1 (zh) * 2018-09-03 2020-03-12 华为技术有限公司 一种中文输入法候选词的搜索方法、终端及服务器
CN111868668A (zh) * 2018-09-03 2020-10-30 华为技术有限公司 一种中文输入法候选词的搜索方法、终端及服务器
CN111868668B (zh) * 2018-09-03 2024-06-18 华为技术有限公司 一种中文输入法候选词的搜索方法、终端及服务器
CN110222256A (zh) * 2019-05-06 2019-09-10 北京搜狗科技发展有限公司 一种信息推荐方法、装置和用于信息推荐的装置

Also Published As

Publication number Publication date
CN101645065B (zh) 2016-02-24
CN101645088A (zh) 2010-02-10
CN101645088B (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN101645065A (zh) 确定需要加载的辅助词库的方法、装置及输入法***
CN108509619B (zh) 一种语音交互方法及设备
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US10332514B2 (en) Using multiple modality input to feedback context for natural language understanding
CN108459874B (zh) 融合深度学习和自然语言处理的代码自动化摘要方法
CN110442859B (zh) 标注语料生成方法、装置、设备及存储介质
CN107102993B (zh) 一种用户诉求分析方法和装置
CN101382946A (zh) 信息处理设备、信息处理方法和程序
CN103870000A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN105956053A (zh) 一种基于网络信息的搜索方法及装置
CN111324771A (zh) 视频标签的确定方法、装置、电子设备及存储介质
MXPA04011788A (es) Aprendizaje y uso de patrones de cadena generalizados para extraccion de informacion.
CN109960790B (zh) 摘要生成方法及装置
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN109615009B (zh) 一种学习内容推荐方法及电子设备
CN108345694B (zh) 一种基于主题数据库的文献检索方法及***
CN111291551A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113220847B (zh) 基于神经网络的知识掌握程度测评方法、装置及相关设备
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
Luo et al. Query ambiguity identification based on user behavior information
CN112861510A (zh) 纪要处理方法、装置、设备和存储介质
CN117370190A (zh) 测试用例生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant