CN108664141A - 具有文档上下文自学习功能的输入法 - Google Patents

具有文档上下文自学习功能的输入法 Download PDF

Info

Publication number
CN108664141A
CN108664141A CN201710209575.8A CN201710209575A CN108664141A CN 108664141 A CN108664141 A CN 108664141A CN 201710209575 A CN201710209575 A CN 201710209575A CN 108664141 A CN108664141 A CN 108664141A
Authority
CN
China
Prior art keywords
word
dictionary
response
input
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710209575.8A
Other languages
English (en)
Other versions
CN108664141B (zh
Inventor
张威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201710209575.8A priority Critical patent/CN108664141B/zh
Publication of CN108664141A publication Critical patent/CN108664141A/zh
Application granted granted Critical
Publication of CN108664141B publication Critical patent/CN108664141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开的各种实施例提供了一种由输入法模块实现的方法。在该输入方法中,从已经被包含在电子文档中的一个或多个词中获取在输入法模块的已有词库以外的第一词。将第一词添加到输入法模块的定制词库,定制词库特定于电子文档并且不同于已有词库。此外,响应于接收到与第一词相关联的输入,从定制词库中获取第一词。此外,将第一词显示在输入法模块的候选词窗口中,以供用户选择。

Description

具有文档上下文自学习功能的输入法
技术领域
本公开的实施例涉及信息输入,并且更具体地,涉及具有文档上下文自学习功能的输入法。
背景技术
输入法模块或简称输入法允许用户向诸如移动设备或者个人计算机(PC)之类的电子设备通过字符、表情等信息。在中文等输入法中,用户通过输入拼音字母来输入词。如已知的,很多输入法支持用户一次输入包含多个单字的词。因为在汉语中包含大量同音词,因此用户通常需要在对应于相同拼音的多个候选词中选择他/她想要输入的词。为此,已经提出了词频调整基数。
另外,当用户输入法模块的词库中没有的“新词”时,用户可能不得不逐个输入词中所包含的单字。为此,有些输入法能够随着用户的输入而学习用户创造的新词。这些学习到的新词可以被保存在词库中,例如特定于用户的新词词库中。这样,在用户随后在向例如其他文档输入之前创建的新词时,这些新词就可以作为候选词被提示给用户,从而方便用户的输入过程。
发明内容
为了进一步改进用户在使用输入法时的效率和体验,本公开的各种实施例提供了一种由输入法模块实现的方法。根据该方法,可以从已经被包含在电子文档中的一个或多个词中获取在输入法模块的已有词库以外的第一词。第一词被添加到输入法模块的定制词库,其中该定制词库特定于电子文档并且不同于已有词库。此后,如果接收到与第一词相关联的输入,便可以从定制词库中获取第一词,并且将其显示在输入法模块的候选词窗口中以供用户选择。这样,不需要随着用户的输入而在相对较长的时间段内学习新词,而是可以直接基于已有的文档上下文而实现新词的学习。
提供发明内容部分是为了简化的形式来介绍对概念的标识,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1是示出根据本公开的实施例的计算机***图;
图2示出了根据本公开的一个实施例的电子文档的示意图;
图3示出了传统输入方法的用户界面;
图4示出了根据本公开的一个实施例的输入方法的流程图;
图5示出了根据本公开的一个实施例的输入方法的用户界面;
图6示出了根据本公开的一个实施例的输入方法的用户界面;以及
图7示出了根据本公开的一个实施例的输入方法的用户界面。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实施例来论述本公开。应当理解,论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本公开的范围的任何限制。
如本文所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
以下参考附图来说明本公开的基本原理和若干示例实施例。图1示出了能够实施本公开的多个实施例的设备100的框图。应当理解,图1所示出的设备100仅仅是示例性的,而不应当构成对本公开所描述的实施例的功能和范围的任何限制。如图1所示,设备100包括通用计算设备形式的设备100。设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。
在一些实施例中,设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端,包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器***中,多个处理单元并行执行计算机可执行指令,以提高设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。
设备100通常包括多个计算机存储介质。这样的介质可以是设备100可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包输入法模块122,其被配置为执行本文所描述的各种实施例的功能。主语,在本公开中,“输入法”、“输入法模块”和“输入法平台”这两个术语可互换使用。输入法模块122可以由处理单元110访问和运行,以实现相应功能。存储设备130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,其能够用于存储信息和/或数据并且可以在设备100内被访问。
通信单元140实现通过通信介质与另外的计算设备进行通信。附加地,设备100的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与设备100交互的设备进行通信,或者与使得设备100与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
输入设备150可以是一个或多个各种输入设备,例如鼠标、键盘、触摸屏、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备,例如显示器、扬声器、打印机等。
下面以中文拼音输入法为例来讨论本公开的实施例的原理。然而,需要指出,本公开并不旨在限定输入法的具体类型。例如,用于英文等基于字母的语言或者日文等基于字根的语言的输入法均适用本公开的实施例。
用户可以借助于键盘等输入设备150输入英文、拼音字母或字根。输入法模块122中可以从输入设备150接收用户输入,并且将输出(例如,候选词等)提供给显示器等输出设备160以供用户选择。将会理解,输入法模块122与输入和输出模块150和160之间的通信可借助于设备100上的操作***(OS)所提供的接口来实现。这种接口的示例包括但不限于各种应用编程接口(API)。
图2示出了根据本公开的一个实施例的电子文档200的示意图。图3示出了传统输入方法的用户界面300。在某些实施例中,电子文档200可以是具有文本输入和编辑功能的文档、具有信息输入字段的web页面、电子列表或者任何能够接收文字输入的文档。在一些实施例中,电子文档200可以是用户在设备100的本地创建的。备选地,在某些实施例中,电子文档200可以是该用户从设备100的远程接收到的,诸如通过电子邮件等方式。
在图2示出的示例中,电子文档200已经包含了如下内容210:
弦理论的雏形是在1968年由维内奇诺(Gabriele Veneziano)发明。有说法称,他原本是要找能描述原子核内的强作用力的数学函数,然后在一本老旧的数学书里找到了有200年历史的欧拉贝他函数,这函数能够描述他所要求解的强作用力。
现在,用户希望通过传统输入方法来对该文档200进行编辑或后续输入,其中编辑或后续输入可能包括与该文档中已有内容相同的内容。例如,用户可能希望在后续输入中再次输入词“维内奇诺”。如图3所示,用户首先输入与“维内奇诺”相对应的拼音字母序列“weineiqinuo”310。然后,传统输入法通过其界面300的候选词窗口返回一些候选词。例如,这些候选词可以包括“胃内奇诺”、“胃内”、“维内”等。
可以看出,在传统的输入法模块下,由于“维内奇诺”在大多数领域中并不常用,属于用户的自创新词,因此“维内奇诺”并没有作为候选词被显示出来。此时,用户不得不逐个选择“维”、“内”、“奇”、“诺”这四个单字,这增加了输入负担。在用户最初几次输入这个词时,已知的新词学习功能无法将用户期望的词显示在候选词窗口中。这不利于操作效率和用户体验,特别是对于一些相对生僻但是却在特定领域(例如,数学、物理学等学科)中需要频繁输入的词。
本公开的实施例所提出的输入法包括基于文档上下文的自学习功能,即,在用户没有察觉或无需用户获知的情况下,从打开的电子文档中的已有内容中自动学习主词库等已有词库以外的一些所谓的“新词”。这样,当用户在对同一文档的后续编辑中需要再次输入该新词时,这种自学习功能将显著提升操作效率和用户体验。也就是说,不同于传统的随着用户输入过程而逐渐学习新词的“被动”学习,本公开的实施例可以直接利用文档中的已有信息而“主动地”学习。这样,新词学习的速度将会极大提升。
图4示出了该输入法模块实现的方法400的流程图。将会理解,方法400可由输入法模块122来实现。为了讨论方便,下文的描述仍然将参考图2所述的示例进行。
在410处,从已经被包含在电子文档200中的一个或多个词中获取词,所获取的词在输入法模块122的已有词库以外。也就是说,该词不在输入法模块122的已有词库中,并且由此无法在用户输入的过程中被作为候选词呈现给用户。为讨论方便起见,将在410处从电子文档中获取的词称为“第一词”。注意,在410可以获取不止一个第一词。
根据本公开的实施例,可以从电子文档中的任何文字部分获取第一词。例如,在如图2所示的示例中,可以从正文部分210获取一个或多个词,也可以从结尾处的参考文献部分、页眉或页脚(未示出)等任何部分获取词。
在某些实施例中,可以响应于电子文档200被用户打开而获取第一词。例如,在一些实施例中,可以响应于用户打开他/她自己先前编辑并保存的电子文档200而获取第一词。备选地或附加地,在另一些实施例中,如果用户在例如电子邮件应用中预览接收到的电子文档200,也可以触发对第一词的获取。
在一些示例性实施例中,在410,可以通过切词来获取第一词。具体而言,包含在电子文档200中的多个词(例如,文字段210中的词)可被分割为长度大于或等于两个汉字的多个词。此后,可以从分割后的多个词中选择未被包括在输入法模块122的已有词库中的词作为第一词。
在一个示例实施例中,对一个或多个词的分割可以通过诸如条件随机场(CRF)算法之类的基于人工智能的算法来实现,其具体过程是已知的,在此不再赘述。需要指出,CRF仅仅是一个示例,无意以任何方式限制本公开的范围。相反,任何能够实现词分割的方法均可与本公开的实施例结合使用,不论是现在已知的还是将来开发的。
在图2的示例中,借助于CRF算法,内容210可被分割如下:
弦理论/的/雏形/是/在/1968/年/由/维内奇诺/(/Gabriele//Veneziano/)/发明/。/有/说法/称/,/他/原本/是/要/找/能/描述/原子核/内/的/强/作用力/的/数学/函数/,/然后/在/一本/老旧/的/数学/书/里/找到了/有/200/年/历史/的/欧拉贝他/函数/,/这/函数/能够/描述/他/所要/求解/的/强/作用力/。/
然后,从分割后的上述内容210中选取提取词。例如,对于中文而言,可以提取长度大于或等于2的词。在这些长度大于或等于2的词之中,假设“弦理论”、“雏形”、“发明”、“说法”、“原本”、“描述”、“原子核”、“作用力”、“数学”、“函数”、“然后”、“一本”、“老旧”、“数学”、“找到了”、“历史”、“函数”、“能够”、“描述”、“所要”、“求解”和“作用力”是包含在已有词库(例如,主词库、热词库、或者任何其他特定于用户的词库)中。另一方面,“维内奇诺”和“欧拉贝他”则是在上述已有词库以外的第一词,并且因此可以被获取作为第一词。
继续参考图4,在420处,将在410处获取的第一词(在图2的例子中是“维内奇诺”和“欧拉贝他”)添加到输入法模块122的定制词库。如上所述,该定制词库是特定于电子文档200并且不同于已有词库的。在一个实施例中,该定制词库可以响应于电子文档200的打开或者其他预定义的触发条件而被生成。在某些实施例中,定制词库还可以随着电子文档200的关闭或者其他预定条件而被移除。以此方式,定制词库仅与特定的电子文档200绑定。这节约了存储资源,避免输入法模块122占用越来越多的资源。
输入法模块122可以继续操作以处理用户的输入。如果接收到与之前保存在定制词库中的任何一个词对应的用户输入,则在430处,从定制词库中获取该词,并且在440将其作为候选词呈现给用户,以便用户选择从而输入到电子文档中。
图5示出了根据本公开的一个实施例的输入法模块122所提呈现的用户界面500。继续参照图2中的示例,假设用户希望在电子文档200中再次输入“维内奇诺”。为此,用户通过界面500输入拼音“weineiqinuo”510。作为响应,输入法模块122检索定制词库,并且发现与用户输入对应的、先前从文档上下文中学习到的新词“维内奇诺”。该词由此从定制词库中被获取并且被呈现在用户界面500中。更具体地,在此例中,词“维内奇诺”被显示在候选词窗口520中的第二个位置522以供用户选择。
在某些实施例中,从上下文中学习到的新词在候选词窗口520中的位置,可以根据用户的交互行为而调整。例如,如果该新词被用户选择,则在用户再次输入该词时,它可以被显示在候选词窗口520中的首位。这在图6中示出,在此示例中,响应于用户再次输入“weineiqinuo”510,对应的词“维内奇诺”被显示在候选词窗口520的首位521。
在某些情况下,从电子文档200的已有内容中学习到的新词可能由于各种原因而并不是用户所期望的。例如,学习到的新词中可能包含有拼写错误。由此,用户在后续操作中可能不会再选择该新词。在另一种情况下,学习到的新词可能本身就是比较冷僻的,因此被再次输入的可能性也就相对较低。此时,如果仍旧将这样词显示在候选窗口中比较靠前的位置,则会对用户的输入造成不良的影响。在本文中,可以将这种影响量化为对用户在认知心理学上的“干扰程度”,并且根据干扰程度来调整候选词的位置。
在某些实施例中,如果在410处学习到的第一词在作为候选词被显示之后并未被用户选择,则立刻决定后移该词在候选词窗口中被呈现的位置。也即,当下一次用户输入与该词对应的字母时,该词的位置被后移例如一位。当然,也可以根据任何适当的策略将候选词在候选词窗口中后移不止一位。
在另一些实施例中,如果所述第一词未被选择,可以基于该词先前未被选择的次数和其当前在候选窗口中所处的位置,来确定该词对用户输入造成的干扰程度。如果干扰程度达到了预定阈值,则可以将相关联的词从定制词库中移除。下面仍然参考图2来描述这样的实施例。
在图2所示的示例中,如果在学习到的第一词“维内奇诺”出现在候选词窗口之后,可以记录该词出现在候选词窗口中但未被选择的次数。同时,并且记录该词每一次出现在候选词窗口520中的位置。候选词窗口520中的每个位置被赋予相应的权重值。总体上,候选词窗口520中靠前的位置具有相对较高的权重。例如,表1示出了候选词位置的示例权重。在此示例中,候选词窗口中的第2个位置具有权重“3”,第3-5个位置具有权重“2”,第6-7个位置具有权重“1”,此后的所有位置(如果有的话)权重为“0”。应当理解,这些数值仅仅是示例性的,无意以任何方式限制本公开的范围。
表1.候选词窗口中的位置和对应权重
假设从定制词库中移除新词的阈值为6。在上表所示的示例中,如果定制词库中的一个给定词出现在候选词窗口中的第2位置处两次而不被选择时,其干扰程度可被认为是2*3=6,已经达到预定阈值,因此就将第一词从候选词窗口中删除。或者,当第一词出现在候选词窗口中的第3至5位置区间中的任何位置处三次而不被选择时,其干扰程度可被认为是3*2=6,已经达到预定阈值,因此就将第一词从候选词窗口中删除。或者,当第一词分别出现在候选词窗口中的第2位置处一次、出现在第3至5位置区间中的任何位置处一次、以及出现在第6至7位置区间中的任何位置处一次而均不被选择时,其干扰程度可被认为是1*3+1*2+1*1=6,已经达到预定阈值,因此就将第一词从候选词窗口中删除。当候选词出现在第7位置之后,可以将其视为不对用户的后续输入造成任何影响,因此,可以不删除出现在第7位置之后的第一词。
以此方式,上述包含拼写错误的词或是冷僻的词不会长时间占据候选词窗口而对用户的后续输入造成干扰,而是可以根据预先确定的阈值而被迅速地从候选词窗口中移除。
在某些实施例中,除了在410处学习的第一词之外,用户的后续输入还可能同时对应于输入法模块122的其他词库(例如,主词库)中的其他词,而这些词库的优先级可能高于定制词库。为讨论方便,这种更高级词库中的词被称为“第二词”。当第一词和第二词同时出现时,在某些实施例中,第二词在候选词窗口中被显示在第一词之前。
仍然参考图5,在此示例中,当用户输入“weineiqinuo”510时,同样与“weineiqinuo”510对应的、存储在已有已有词库中的第二词“胃内奇诺”被显示在学习到的第一词“维内奇诺”之前,并且只有当用户选择“维内奇诺”之后,才在用户下一次输入“weineiqinuo”510将第一词“维内奇诺”显示在第二词“胃内奇诺”之前,如图6所示。
上面描述的这种实施例可能是有益的。可以理解,相对于基于文档上下文学习而生成的定制词库而言,主词库等其他优先级更高的词库可能具有更高的可靠性和置信度。因此,将来自这些词库的候选词显示在来自定制词库的候选词之前,可能为用户更准确地推荐候选词。而且,以此方式,可以提供给用户多一次机会来确认学习到的词是否就是用户期望输入的正确的词。
上文已经以中文输入为例讨论了本公开的原理和思想。但是应当理解,上述本公开的实施例的原理同样适用于其他语言。下面仍然参考图4中所示的流程图400来描述英文输入实施例。此时。可以从已经被包含在电子文档中的一个或多个词中获取已有词库之外的单词或词组(框410)。例如,电子文档中包含有如下内容:
MircoSmartInput says:“Hello World”!
假设“MircoSmartInput”与“Hello World”分别为输入法模块122的已有词库以外的单词和词组。相应地,这些新词被添加到特定于文档的定制词库中(框420)。参见图7,当用户希望在该文档中再次输入“MircoSmartInput”而开始输入与其对应的英文字母序列的一部分时,例如“micro”710,可以从定制词库中检索到之前学习到的单词“MircoSmartInput”(框430),并且将其完整地显示在候选词窗口520中的例如第四位置524以供用户选择(框440)。类似地,用户可以方便地输入先前学习并且被保存在定制词库中的词。
应当注意,上文描述的所有特征均适用于汉语之外的其他语言,在此不再赘述。而且,汉语仅仅是基于字根的语言的示例,而英文是基于字母的语言的示例。本公开的实施例适用于任何其他语言,语言本身并不构成对本公开范围的任何限制。
以下列出了本公开的一些示例实施例。
根据一些实施例,提供了一种由输入法模块实现的方法。该方法包括:从已经被包含在电子文档中的一个或多个词中获取第一词,第一词在输入法模块的已有词库以外;将第一词添加到输入法模块的定制词库,定制词库特定于电子文档并且不同于已有词库;响应于接收到与第一词相关联的输入,从定制词库中获取第一词;以及将第一词显示在输入法模块的候选词窗口中,以供用户选择。
在一些实施例中,获取第一词包括:响应于电子文档被打开而获取第一词。
在一些实施例中,该方法还包括:响应于电子文档被关闭,移除定制词库。
在一些实施例中,该方法还包括:响应于第一词在至少一词后续操作中未被选择,降低第一词在候选词窗口中被呈现的位置。
在一些实施例中,降低第一词在候选词窗口中被呈现的位置包括:响应于第一词未被选择,基于第一词先前未被选择的次数和第一词当前在候选窗口中的位置,来确定第一词对用户输入造成的干扰程度;响应于干扰程度达到预定阈值,从定制词库中移除第一词。
在一些实施例中,该方法还包括:响应于输入还与已有词库中不同于第一词的第二词相关联,在候选词窗口中在第一词之前显示第二词。
在一些实施例中,第一词为汉字并且与第一词相关联的输入为至少一个拼音字母,并且其中获取第一词包括:通过对所述电子文档中包含的内容进行分词来获得一个或多个词;以及从一个或多个词中选择所述已有词库以外的词作为第一词。
根据一些实施例,提供了一种设备。该设备包括:处理单元;以及存储器,耦合至处理单元并且存储有指令,指令在由处理单元执行时执行以下动作:从已经被包含在电子文档中的一个或多个词中获取第一词,第一词在输入法模块的已有词库以外;将第一词添加到输入法模块的定制词库,定制词库特定于电子文档并且不同于已有词库;响应于接收到与第一词相关联的输入,从定制词库中获取第一词;以及将第一词显示在输入法模块的候选词窗口中,以供用户选择。
在一些实施例中,获取第一词包括:响应于电子文档被打开而获取第一词。
在一些实施例中,动作还包括:响应于电子文档被关闭,移除定制词库。
在一些实施例中,动作还包括:响应于第一词在至少一词后续操作中未被选择,降低第一词在候选词窗口中被呈现的位置。
在一些实施例中,降低第一词在候选词窗口中被呈现的位置包括:响应于第一词未被选择,基于第一词先前未被选择的次数和第一词当前在候选窗口中的位置,来确定第一词对用户输入造成的干扰程度;以及响应于干扰程度达到预定阈值,从定制词库中移除第一词。
在一些实施例中,动作还包括:响应于输入还与已有词库中不同于第一词的第二词相关联,在候选词窗口中在第一词之前显示第二词。
在一些实施例中,第一词为汉字并且与第一词相关联的输入为至少一个拼音字母,并且其中获取第一词包括:通过对所述电子文档中包含的内容进行分词来获得一个或多个词分;以及从一个或多个词中选择所述已有词库以外的词作为第一词。
根据一些实施例,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行时使机器执行以下动作:从已经被包含在电子文档中的一个或多个词中获取第一词,第一词在输入法模块的已有词库以外;将第一词添加到输入法模块的定制词库,定制词库特定于电子文档并且不同于已有词库;响应于接收到与第一词相关联的输入,从定制词库中获取第一词;以及将第一词显示在输入法模块的候选词窗口中,以供用户选择。
在一些实施例中,获取第一词包括:响应于电子文档被打开而获取第一词。
在一些实施例中,动作还包括:响应于电子文档被关闭,移除定制词库。
在一些实施例中,动作还包括:响应于第一词在至少一词后续操作中未被选择,降低第一词在候选词窗口中被呈现的位置。
在一些实施例中,降低第一词在候选词窗口中被呈现的位置包括:响应于第一词未被选择,基于第一词先前未被选择的次数和第一词当前在候选窗口中的位置,来确定第一词对用户输入造成的干扰程度;响应于干扰程度达到预定阈值,从定制词库中移除第一词。
在一些实施例中,动作还包括:响应于输入还与已有词库中不同于第一词的第二词相关联,在候选词窗口中在第一词之前显示第二词。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (20)

1.一种由输入法模块实现的方法,包括:
从已经被包含在电子文档中的一个或多个词中获取第一词,所述第一词在所述输入法模块的已有词库以外;
将所述第一词添加到所述输入法模块的定制词库,所述定制词库特定于所述电子文档并且不同于所述已有词库;
响应于接收到与所述第一词相关联的输入,从所述定制词库中获取所述第一词;以及
将所述第一词显示在所述输入法模块的候选词窗口中,以供用户选择。
2.根据权利要求1所述的方法,其中获取所述第一词包括:
响应于所述电子文档被打开而获取所述第一词。
3.根据权利要求1所述的方法,还包括:
响应于所述电子文档被关闭,移除所述定制词库。
4.根据权利要求1所述的方法,还包括:
响应于所述第一词在至少一词后续操作中未被选择,降低所述第一词在所述候选词窗口中被呈现的位置。
5.根据权利要求4所述的方法,其中降低所述第一词在所述候选词窗口中被呈现的位置包括:
响应于所述第一词未被选择,基于所述第一词先前未被选择的次数和所述第一词当前在所述候选窗口中的位置,来确定所述第一词对用户输入造成的干扰程度;
响应于所述干扰程度达到预定阈值,从所述定制词库中移除所述第一词。
6.根据权利要求1所述的方法,其中所述已有词库的优先级高于所述定制词库,所述方法还包括:
响应于所述输入还与所述输入法模块的已有词库中不同于所述第一词的第二词相关联,在所述候选词窗口中在所述第一词之前显示所述第二词。
7.根据权利要求1所述的方法,其中所述第一词为汉字并且与所述第一词相关联的输入为至少一个拼音字母,并且其中获取所述第一词包括:
通过对所述电子文档中包含的内容进行分词来获得所述一个或多个词;以及
从所述一个或多个词中选择所述已有词库以外的词作为所述第一词。
8.一种设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且存储有指令,所述指令在由所述处理单元执行时执行以下动作:
从已经被包含在电子文档中的一个或多个词中获取第一词,所述第一词在所述输入法模块的已有词库以外;
将所述第一词添加到所述输入法模块的定制词库,所述定制词库特定于所述电子文档并且不同于所述已有词库;
响应于接收到与所述第一词相关联的输入,从所述定制词库中获取所述第一词;以及
将所述第一词显示在所述输入法模块的候选词窗口中,以供用户选择。
9.根据权利要求8所述的设备,其中获取所述第一词包括:
响应于所述电子文档被打开而获取所述第一词。
10.根据权利要求8所述的设备,其中所述动作还包括:
响应于所述电子文档被关闭,移除所述定制词库。
11.根据权利要求8所述的设备,其中所述动作还包括:
响应于所述第一词在至少一词后续操作中未被选择,降低所述第一词在所述候选词窗口中被呈现的位置。
12.根据权利要求11所述的设备,其中降低所述第一词在所述候选词窗口中被呈现的位置包括:
响应于所述第一词未被选择,基于所述第一词先前未被选择的次数和所述第一词当前在所述候选窗口中的位置,来确定所述第一词对用户输入造成的干扰程度;
响应于所述干扰程度达到预定阈值,从所述定制词库中移除所述第一词。
13.根据权利要求8所述的设备,其中所述动作还包括:
响应于所述输入还与所述输入法模块的已有词库中不同于所述第一词的第二词相关联,在所述候选词窗口中在所述第一词之前显示所述第二词。
14.根据权利要求8所述的设备,其中所述第一词为汉字并且与所述第一词相关联的输入为至少一个拼音字母,并且其中获取所述第一词包括:
通过对所述电子文档中包含的内容进行分词来获得所述一个或多个词;以及
从所述多个词中选择所述已有词库以外的词作为所述第一词。
15.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行以下动作:
从已经被包含在电子文档中的一个或多个词中获取第一词,所述第一词在所述输入法模块的已有词库以外;
将所述第一词添加到所述输入法模块的定制词库,所述定制词库特定于所述电子文档并且不同于所述已有词库;
响应于接收到与所述第一词相关联的输入,从所述定制词库中获取所述第一词;以及
将所述第一词显示在所述输入法模块的候选词窗口中,以供用户选择。
16.根据权利要求15所述的计算机程序产品,其中获取所述第一词包括:
响应于所述电子文档被打开而获取所述第一词。
17.根据权利要求15所述的计算机程序产品,其中所述动作还包括:
响应于所述电子文档被关闭,移除所述定制词库。
18.根据权利要求15所述的计算机程序产品,其中所述动作还包括:
响应于所述第一词在至少一词后续操作中未被选择,降低所述第一词在所述候选词窗口中被呈现的位置。
19.根据权利要求15所述的计算机程序产品,其中降低所述第一词在所述候选词窗口中被呈现的位置包括:
响应于所述第一词未被选择,基于所述第一词先前未被选择的次数和所述第一词当前在所述候选窗口中的位置,来确定所述第一词对用户输入造成的干扰程度;
响应于所述干扰程度达到预定阈值,从所述定制词库中移除所述第一词。
20.根据权利要求15所述的计算机程序产品,其中所述动作还包括:
响应于所述输入还与所述输入法模块的已有词库中不同于所述第一词的第二词相关联,在所述候选词窗口中在所述第一词之前显示所述第二词。
CN201710209575.8A 2017-03-31 2017-03-31 具有文档上下文自学习功能的输入法 Active CN108664141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710209575.8A CN108664141B (zh) 2017-03-31 2017-03-31 具有文档上下文自学习功能的输入法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710209575.8A CN108664141B (zh) 2017-03-31 2017-03-31 具有文档上下文自学习功能的输入法

Publications (2)

Publication Number Publication Date
CN108664141A true CN108664141A (zh) 2018-10-16
CN108664141B CN108664141B (zh) 2022-08-09

Family

ID=63784053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710209575.8A Active CN108664141B (zh) 2017-03-31 2017-03-31 具有文档上下文自学习功能的输入法

Country Status (1)

Country Link
CN (1) CN108664141B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669551A (zh) * 2018-11-06 2019-04-23 闽江学院 一种输入法信息处理方法及装置
CN109683723A (zh) * 2018-11-06 2019-04-26 闽江学院 一种在输入法***中处理文库的控制方法及装置
CN109683724A (zh) * 2018-11-12 2019-04-26 闽江学院 一种添加输入法文库的方法及装置
CN109725740A (zh) * 2018-11-12 2019-05-07 闽江学院 一种文本编辑处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060088356A1 (en) * 2004-08-13 2006-04-27 Bjorn Jawerth One-row keyboard and approximate typing
CN1912872A (zh) * 2006-07-25 2007-02-14 北京搜狗科技发展有限公司 一种提取新词的方法和***
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法***
CN101694608A (zh) * 2008-12-04 2010-04-14 北京搜狗科技发展有限公司 一种输入法及输入法***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060088356A1 (en) * 2004-08-13 2006-04-27 Bjorn Jawerth One-row keyboard and approximate typing
CN1912872A (zh) * 2006-07-25 2007-02-14 北京搜狗科技发展有限公司 一种提取新词的方法和***
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法***
CN101694608A (zh) * 2008-12-04 2010-04-14 北京搜狗科技发展有限公司 一种输入法及输入法***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李中才等编著: "《快易通中文速录键盘教程》", 31 March 2011, 西南交通大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669551A (zh) * 2018-11-06 2019-04-23 闽江学院 一种输入法信息处理方法及装置
CN109683723A (zh) * 2018-11-06 2019-04-26 闽江学院 一种在输入法***中处理文库的控制方法及装置
CN109683724A (zh) * 2018-11-12 2019-04-26 闽江学院 一种添加输入法文库的方法及装置
CN109725740A (zh) * 2018-11-12 2019-05-07 闽江学院 一种文本编辑处理方法及装置

Also Published As

Publication number Publication date
CN108664141B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
US11947911B2 (en) Method for training keyword extraction model, keyword extraction method, and computer device
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
EP3920075A1 (en) Text recognition method and apparatus, electronic device, and storage medium
US20210200947A1 (en) Event argument extraction method and apparatus and electronic device
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
US11050685B2 (en) Method for determining candidate input, input prompting method and electronic device
KR101465770B1 (ko) 단어 확률 결정
CN108664142A (zh) 具有文档间自学习功能的输入法
US9442902B2 (en) Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages
US11720757B2 (en) Example based entity extraction, slot filling and value recommendation
US20170270092A1 (en) System and method for predictive text entry using n-gram language model
KR20210154705A (ko) 시맨틱 매칭 방법, 장치, 기기 및 저장 매체
US20180173694A1 (en) Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion
CN108664141A (zh) 具有文档上下文自学习功能的输入法
CN112000792A (zh) 自然灾害事件的抽取方法、装置、设备以及存储介质
CN109933217B (zh) 用于推送语句的方法和装置
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN111460135B (zh) 用于生成文本摘要的方法和装置
CN113657113B (zh) 文本处理方法、装置和电子设备
CN111931500A (zh) 搜索信息的处理方法、装置
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN111522944A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN113761923A (zh) 命名实体识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant