CN102063504A - 在线输入中文的方法、客户端和*** - Google Patents

在线输入中文的方法、客户端和*** Download PDF

Info

Publication number
CN102063504A
CN102063504A CN2011100018586A CN201110001858A CN102063504A CN 102063504 A CN102063504 A CN 102063504A CN 2011100018586 A CN2011100018586 A CN 2011100018586A CN 201110001858 A CN201110001858 A CN 201110001858A CN 102063504 A CN102063504 A CN 102063504A
Authority
CN
China
Prior art keywords
server
input
user
word
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100018586A
Other languages
English (en)
Inventor
邵付东
屈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2011100018586A priority Critical patent/CN102063504A/zh
Publication of CN102063504A publication Critical patent/CN102063504A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种在线输入中文的方法、客户端和***,属于计算机技术领域。本发明实施例通过对监听客户端网页的用户输入,根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,并将所述取词结果输出到所述客户端网页。实现了用户在需要进行输入的页面中直接进行中文输入的操作,摆脱了传统的必须在特定网页中进行中文输入,还需将输出的文字拷贝到需要进行输入的网页中的过程。另一方面,服务器通过多元组概率计算模型,可以使用户进行单字、词、句子的输入,同时更精确的与用户输入的字母组合进行匹配,提高了对用户输入意图的理解程度,并提高了用户输入的效率与用户的输入体验。

Description

在线输入中文的方法、客户端和***
技术领域
本发明涉及输入法领域,特别涉及一种在线输入中文的方法、客户端和***。
背景技术
随着互联网技术的发展,云计算技术的普及,越来越多的网络应用程序将会代替传统的单机应用程序。在线输入法就是一种利用服务器和网页编程技术,将输入法取词的过程放在服务器上,以服务器强大计算能力和存储能力的来实现精确匹配候选词的一种在线输入中文的网络应用程序。
现有的在线输入法是通过一个网站提供的一个页面来实现在线的中文输入。用户在需要输入文字时,先要到指定的的页面进行文字的输入,然后将该页面输出的文字复制并拷贝到用户需要输入文字的页面中完成输入过程。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有技术中用户不能在需要输入的网页中直接进行输入操作,需要在专用的网面中进行输入和选字。还需将输入结果复制并拷贝到用户进行输入的网页的输入框中才能完成整个输入的过程。使得用户的输入速度慢,输入过程不方便,同时用户的输入体验也很不理想。
发明内容
为了解决现有技术中每次输入都要到指定的页面进行中文输入的问题。本发明实施例提出了在线输入中文的方法、客户端和***。所述技术方案如下:
本发明实施例提出了一种在线中文输入的方法,包括:
监听客户端网页的用户输入;
根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词;
将所述取词结果输出到所述客户端网页。
作为上述技术方案的优选,所述根据所述用户输入向服务器发送获取候选字词请求信息,包括:
每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
作为上述技术方案的优选,所述服务器根据所述获取候选字词请求信息进行取词,包括:
服务器根据所述获取候选字词请求信息中的字母组合数,确定所述字母组合数所对应的多元组概率计算模型,根据所述对应的概率计算模型进行取词。
作为上述技术方案的优选,所述监听客户端网页的用户输入,之前还包括:
预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
作为上述技术方案的优选,所述根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,之后还包括:
向服务器发送候选字词选取习惯的参数,使服务器根据所述参数进行候选字词选取的调整。
作为上述技术方案的优选,所述方法还包括:
根据用户选词结果对服务器词库进行全局词频调整。
本发明实施例还提出了一种在线中文输入的客户端,包括:
监听模块,用于监听客户端网页的用户输入;
发送模块,用于根据所述用户输入向服务器发送获取候选字词请求信息;
输出模块,用于将取词结果输出到所述客户端网页。
作为上述技术方案的优选,所述发送模块至少包括:
所述发送模块具体用于每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
作为上述技术方案的优选,所述客户端还包括:
预处理模块,用于预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
作为上述技术方案的优选,所述客户端还包括:
设置模块,用于向服务器发送候选字词选取习惯的参数。
本发明实施例还提出了一种在线中文输入的***,包括:客户端和服务器;其特征在于,所述客户端包括:
监听模块,用于监听客户端网页的用户输入;
发送模块,用于根据所述用户输入向服务器发送获取候选字词请求信息;
输出模块,用于将取词结果输出到所述客户端网页。
所述服务器包括:
取词模块,用于接收客户端发送的获取候选字词请求信息,根据所述获取候选字词请求信息进行取词。
作为上述技术方案的优选,所述发送模块至少包括:
所述发送模块具体用于每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
作为上述技术方案的优选,所述取词模块至少包括:
所述取词模块具体用于服务器根据所述获取候选字词请求信息中的字母组合数,确定所述字母组合数所对应的多元组概率计算模型,根据所述对应的概率计算模型进行取词。
作为上述技术方案的优选,所述客户端还包括:
预处理模块,用于预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
作为上述技术方案的优选,所述客户端还包括:
设置模块,用于向服务器发送候选字词选取习惯的参数。
作为上述技术方案的优选,所述服务器还包括:
第一调整模块,用于根据所述客户端发送的候选字词选取习惯的参数进行候选字词的调整。
作为上述技术方案的优选,所述服务器还包括:
第二调整模块,用于根据客户端选词结果对服务器词库进行全局词频调整。
作为上述技术方案的优选,所述服务器还包括:
更新模块,用于服务器自动搜寻热门词汇进行词库更新。
本发明实施例提供的技术方案的有益效果是:通过对监听客户端网页的用户输入,根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,并将所述取词结果输出到所述客户端网页。实现了用户在需要进行输入的页面中直接进行中文输入的操作,摆脱了传统的必须在特定网页中进行中文输入,还需将输出的文字拷贝到需要进行输入的网页中的过程。另一方面,服务器通过多元组概率计算模型,可以使用户进行单字、词、句子的输入,同时更精确的与用户输入的字母组合进行匹配,提高了对用户输入意图的理解程度,并提高了用户输入的效率与用户的输入体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是为本发明实施例1提供的在线中文输入的方法流程示意图;
图2是为本发明实施例2提供的在线中文输入的方法流程示意图;
图3是为本发明实施例3提供的在线中文输入的装置结构示意图;
图4是为本发明实施例4提供的在线中文输入的装置结构示意图;
图5是为本发明实施例5提供的在线中文输入的装置结构示意图;
图6是为本发明实施例6提供的在线中文输入的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
本发明第一实施例提出了一种在线中文输入的方法,其流程如图1所示,包括:
步骤101:监听客户端网页的用户输入;
步骤102:根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词;
步骤103:将所述取词结果输出到所述客户端网页。
本发明实施例中,通过对监听客户端网页的用户输入,根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,并将所述取词结果输出到所述客户端网页。实现了用户在需要进行输入的页面中直接进行中文输入的操作,摆脱了传统的必须在特定网页中进行中文单字输入,还需将输出的文字拷贝到需要进行输入的网页中的过程。提高了用户输入的效率,并提高了用户的输入体验。
实施例2
本发明第二实施例是对第一实施例的进一步证明,其流程如图2所示,包括:
步骤201:监听客户端网页的用户输入。
具体的,在本实施例中在客户端网页中生成在线输入法并对用户所输入的内容进行监听。因此,步骤201可以具体为:
步骤2011:预先存储启动输入法的代码的链接。
具体的,用户在使用在线输入法之前,预先将启动在线输入法的代码的链接保存在浏览器的收藏夹中。
进一步,当用户在浏览网页并且需要在网页内使用输入法输入中文时,只需在浏览器收藏夹中点击该链接,执行其中的代码,进而启动在线输入法使用户进行输入操作。
此链接不同于一般的网址,它是由一段JavaScript(客户端脚本语言)代码组成的。JavaScript是一种面向对象的、描述性的客户端脚本语言,可以***到HTML(超文本标记语言)代码中,由浏览器解析并运行。使用JavaScript可以在网页中创建动态效果,并能与用户或服务器进行互动。脚本语言的共同点都是作用在客户端,让客户端的浏览器解析并执行。点击该链接后,浏览器会对链接所对应的代码进行解析并执行,这段代码的作用是指引浏览器通过指定的链接访问在线输入法的CDN(Content Delivery Network,内容分发网络)服务器获取最新版本的JavaScript文件。CDN服务器通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络“边缘”,使用户可以就近取得所需的内容,解决Internet网络拥挤的状况,提高用户访问网站的响应速度。
步骤2012:获取在线输入法程序文件。
具体的,从在线输入法的CDN服务器中获取最新版本的JavaScript文件,这些JavaScript文件存储的是用于在客户端生成输入法的状态栏、输入栏、候选词栏以及设置输入各种属性的状态栏等交互界面并构成在线输入法的脚本语言代码。
步骤2013:启动在线输入法并生成输入法,并监听客户端网页的用户输入。
具体的,浏览器在获取到在线输入法的客户端JavaScript文件后,对JavaScript代码进行解析并执行,在所述需要进行输入文字的页面上生成在线输入法的状态栏,此界面中包括输入法的基本设置,如中英文输入的切换按钮,全角字符与半角字符的切换按钮,简体中文与繁体中文输入的切换按钮,中文与英文标点符号的切换按钮,属性设置的开关按钮,点击属性设置按钮,会生成输入习惯设置栏的界面。当用户进行输入操作时,会生成输入栏和候选词栏的界面。客户端浏览器生成在线输入法后,会通过监听网页内输入栏中的按键事件来捕获用户的输入,并将用户所输入的内容显示到在线输入法的输入栏内。
进一步的,在现有技术中,需要一个特定的网页来进行文字输入,在选字后需将输出的文字复制并拷贝到需要输入文字的页面中才能完成输入过程。本发明完全改变了这种繁琐的输入过程,直接在需要进行输入的页面中进行输入操作,且可以实现字、词语、整句话、整段话的各种输入方式的输入。同时可以根据网页环境为用户提供更智能的候选词。
与传统的单机输入法相比,本发明不用下载和安装输入法的客户端应用程序。并且由于服务器强大的计算能力和存储能力,使得用户得到单机输入法无法比拟的输入体验。
步骤2014:预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
具体的,在线输入法初始化完毕后,客户端会将所在网页内的实时网页环境采集并上报服务器。所述网页环境是指用户进行输入操作的网页中的文字信息,服务器会从这些文字信息从中找出关键字,通过关键字计算出与当前网页环境最匹配的词库。用户进行输入过程时,服务器的智能取词服务器通过预先匹配到的最适合此次输入的词库进行筛选,缩小了选词范围,将尽可能精确的匹配到用户输入意图的词语,提高了匹配候选词的时间。当用户切换页面时,客户端会重新上报当前的网页环境,服务器会根据新采集的网页环境重新计算并给出匹配的词库。本步骤是可选的,也可以不执行本步骤的操作。
进一步的,客户端JavaScript代码上报网页环境这个过程,无需对网页进行刷新操作即可与在线输入法服务器进行通信。这个过程使用的是AJAX(Asynchronous JavaScript and XML,异步JavaScript和XML)异步通信技术。传统Web应用程序都使用请求/响应模型从服务器上获得客户端请求的数据,AJAX异步通信技术的工作原理可以看作在用户和服务器之间加了一个中间层,使用户操作与服务器响应异步化,它提供客户端同服务器异步通信的协议,通过这个协议,AJAX可以使页面像桌面程序一样同服务器进行数据层面的交换,而无需刷新页面便可向服务器传输或读写数据,也不用每次将数据处理的工作提交给服务器来做,这样即减轻了服务器的负担又加快了响应速度、缩短了用户等候时间。AJAX异步通信技术属于现有技术,本发明实施例中并不对此做出限定。
步骤202:根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词。
具体的,客户端将用户所输入的字母或字母组合发送至服务器进行取词。因此步骤202可以具体为:
步骤2021:每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
具体的,在线输入法的词库存储和智能取词计算都是在大规模服务器集群上完成的,这些服务器不仅存储能力巨大,而且处理器性能超强,能够同时支持成千上万的用户进行在线输入的取词计算。用户端只需要通过网络把复杂的计算任务请求发送到服务器集群上然后等待服务器集群返回计算结果即可。当用户开始进行输入操作时,在线输入法会监听按键事件中用户输入的字母,并将用户所输入的字母显示在输入法的输入栏内。通过AJAX异步通信技术,根据用户输入的字母或字母组合,生成一条向服务器获取候选字词的请求,客户端将此请求异步的发送至服务器。服务器的智能取词服务器会根据发送来的用户输入的字母或字母组合,并结合所述客户端上报的用户网页环境所匹配到的词库进行取词。用户使用拼音输入中文,在输入组成一个文字的每一个字母的时候,从输入的第一个字母到输入完构成该文字的每一个字母的过程中,客户端对用户输入的进行记录,并实时的根据用户对词语的输入情况将用户输入的从第一字母开始到每增加一个字母的字母组合逐一的发送取词请求至服务器,进行发送请求的次数即构成该文字或词语的拼音字母的个数,服务器会根据取词请求逐一的将每一条请求的字母组合进行分词,并返回每一条请求的取词结果。假如在输入的过程中有输入错误的情况,通过backspace键删除输入错误的字母,在每删除一个字母后,客户端也会发送一条包含用户输入所有字母的获取候选字词的请求信息至服务器,对这些字母组合进行取词,并返回客户端。在线输入法不仅包含拼音输入法,本发明实施例中并不对此做出限定。
进一步的,在现有技术的应用中,是在一个网站提供的一个页面中来实现简单的基于拼音单字的输入。用户将想要输入的文字一个一个的输入并分别进行选词后,再将输出的结果拷贝到需要进行文字输入的输入框中。这种方法不能进行文字的整句、整段的输入,而且不能在所需要进行输入的页面直接输入,需要专用的页面才能输出选字,效率很低。
传统的单机输入法,用户在输入文字时,经常会进行整句、整段甚至整篇文章的输入,中途不进行候选词的选取过程。由于中文同音字的特殊性,输入法要想输出符合用户需求的准确结果,理论上必须要求用户对于每一个输入的单字进行选择。而要想让输入法提升效率,最合理的解决方案便是尽可能“智能化”地把最准确的结果显示在候选词栏的第一顺位。对常用词组、上下文语境等判断是传统单机输入法用于决定候选词排列顺序的重要方式,从理论上讲,用户输入的拼音代码越长,输入法对于用户输入意图的理解也应该越清晰,假设用户输入的所有拼音代码都能被输入法准确的识别,那么输入一整句话的准确率应该远高于输入一个字的准确率,输入的效率就会极大的提高。
但受限于单机输入法的计算能力、字库等客观因素,传统单机输入法在整句输入方面很难有所作为。因为用户每多输入一个字,要求输入法所做出的计算就呈几何级数增长。也正是因为这样的原因,尽管“整句判断”理论上是提高准确性最有效的办法,但在单机输入法上很难实现。在线输入法完全可以忽略这些限制,因为相对于单机的计算能力和存储能力来说,服务器采用的是大规模服务器集群的存储与计算能力,相对于单机输入法的词库容量,服务器也是有着极大的优势。存储的词库容量大,可以做到无论是口语、古文、散文、现代文、诗词歌赋等不同文体,还是政治、经济、体育、娱乐等不同领域,都能面面俱到,应有尽有。权威词条,高频口语,方言俚语,专业词汇等都可以统统纳入词库而不受任何限制。同时服务器还会实时的在网络中搜寻热门词汇,将热门词汇进行整理分类后实时的更新到词库中,还可以收集用户输入的选词信息,对词库中词语的词频进行实时的调整,由此可以提高用户取词的智能性和关联性。用户使用的客户端只是一个终端,所有复杂的运算都由服务器进行处理,因此在线输入法可以实现整句,甚至整篇文章输入,并且输入的准确率比现有技术单机输入法有着极大的提高。
步骤2022:向服务器发送候选字词选取习惯的参数,使服务器根据所述参数进行候选字词选取的调整。
具体的,用户可以根据输入习惯和爱好分别进行设置项的调整。本步骤是可选的,也可以不执行本步骤的操作。因此,步骤2022可以具体如下:
步骤20221:将输入习惯调整后的参数附加在获取候选字词的请求信息中发送至服务器。
具体的,用户可以针对个人的输入习惯进行具体设置项的设置。例如:对模糊音的开启或关闭设置,每页候选词个数的设置,简体或繁体字的输入。用户在进行了输入习惯的设置后,在进行下一次输入的时候,客户端会将用户更改的设置以参数的形式附加到获取候选字词的请求信息中发送至服务器。服务器会根据请求信息中附加的参数进行具体的设置更改,然后对候选词结果进行重新筛选,生成适合用户设置习惯的候选词并返回客户端。输入习惯设置项内容和参数如表1所示:
Figure BDA0000042884810000091
表1
步骤20222:调整设置重新生成客户端交互界面。
具体的,用户也可以根据自己的爱好设置客户端的交互界面。例如:候选词横排或竖排的显示方式,候选词字体的大小,为候选词增加文本修饰的设置。更改了客户端界面爱好设置后,在线输入法会根据更改的项目重新读取配置文件进而对界面进行重新的生成,以更友好的交互界面来提高用户的体验。
步骤2023:服务器根据所述获取候选字词请求信息中的字母组合数,确定所述字母组合数所对应的多元组概率计算模型,根据所述对应的概率计算模型进行取词。
具体的,通过服务器取词CGI(Common Gate Interface,通用网关接口)接收来自客户端的取词请求,根据客户端选择的不同的输入法,将获取候选字词的请求信息分别发送至对应的智能取词服务器。所述智能取词服务器根据请求信息中用户输入的字母组合进行分词,并结合上报的网页环境所匹配的词库进行取词。
进一步的,传统的单机输入法使用的是基于“二元组”的概率计算模型,即对相邻的两个词语关系出现的概率进行计算,最后输出出现概率最大的两个词语,这种计算方法局限于词语的规模以及机器的计算存储能力,从计算效率和效果上,都不能令人满意。例如输入“缓解工作压力”,通过二元概率计算模型进行词语输出的单机输入法得到的输出结果为“换届工作压力”,这是因为输入法通过二元概率计算模型对换届和工作这两个词的所有同音的词语进行计算,得出换届和工作这两个词是出现概率最高的二元组合,但是却无法将缓解和压力这两个词的联系体现出来。在线输入法可以弥补二元概率计算模型的局限性,借助服务器强大的计算能力和存储能力,除了使用二元概率计算模型进行取词,还可以通过对三元组甚至更多词语组合的多元组的概率进行存储并且在计算整体概率时使用。
以拼音输入法来说,多元组概率计算模型是通过对用户输入的三个或三个以上的词语拼音组合进行相关性概率计算,在所有同音的拼音组合中输出计算后概率最高的词语组合。理论上讲,词语相关性概率计算的组合越多,输入法计算后所得到的词语组合或者句子的准确性越高,越符合输入者的输入意图。以上例为例,多元组概率计算模型会对缓解,工作,压力这三个词的拼音进行相关性概率计算,在众多同音的拼音组合中,会找到这三个词构成的句子出现概率最高,是最符合用户输入意图的。多元组的计算方法一种更合理的整句概率计算方法,进一步加强了前后词之间的联系,使得输入法可以输出更高准确率的取词结果。
步骤203:将所述取词结果输出到所述客户端网页。
具体的,智能取词服务器将取词结果转化为JSON数据格式,返回给客户端。JSON数据格式是一种轻量级的数据交换格式,非常适合于服务器与客户端JavaScript的交互。将返回的候选词按照词频顺序显示到在线输入法的候选词栏中。此时在线输入法会对用户所进行的候选词选择进行监听,用户在候选词中选择符合自己输入意图的词语后,会将用户所选择的候选词回调到网页上用户所进行输入的输入栏中,同时将输入栏和候选词栏隐藏,等待用户再一次的输入操作。
步骤204:根据用户选词结果对服务器词库进行全局词频调整。
具体的,在线输入法记录用户的选词信息,通过AJAX异步通信技术将记录在客户端的选词信息传送至服务器。服务器词库的词序会根据用户的词语使用情况进行变动,提高常用词汇的词频,使得取词效率得到进一步提高。本步骤是可选的,也可以不执行本步骤的操作。因此,步骤204可以具体如下:
步骤2041:获取用户选词信息。
具体的,客户端的JavaScript程序会记录下用户的选词信息,可以根据预设置的选词次数或者使用时间,将用户的选词信息发送至服务器进行处理。通过服务器上报CGI接收来自客户端上报的用户选词信息。预设置的选词次数或者使用时间等触发上报选词信息的条件,本发明实施例中并不对此做出限定。
步骤2042:根据用户选词结果进行词语使用频率统计。
具体的,将所有收集来的用户选词信息汇总,进行用户选词统计,按照用户对词语的使用情况,对频繁使用的词语进行调频,使其获得更高的词频,在返回给用户的候选词列表中的候选位置会比其原来的位置更靠前。
另一方面,收集来的信息会发送至在线统计服务器,对在线输入法的在线使用人数进行统计,进而对在线输入法进行优化处理。例如对长时间闲置不用的客户端,对其与服务器的连接进行切断处理,保证服务器的资源利用率得到最高效的利用。
步骤2043:根据所述统计结果更新服务器词库的词频。
具体的,将调整词频后的用户选词信息更新到服务器的词库中,对服务器词库中的词频实现实时的更新,随时对词库的词频做出合理的调整。用户在进行文字输入的时候,服务器按照用户的输入将实时调整后的词频与之匹配,按实时更新后的词频顺序将候选词返回给客户端以备用户选取。
步骤205:服务器自动搜寻热门词汇进行词库更新。
具体的,服务器通过词库采集整理服务器实时的在网络中搜寻热门词汇,并将热门词汇进行整理分类后实时的更新到词库服务器中,并调整词库服务器中词语的词频,无需等待热门词汇被用户频繁输入后服务器对其词频的调高,从而使用户取词的智能性和关联性更高,由此提高了服务器取词的效率,并且用户的体验也得到了提高。本步骤是可选的,也可以不执行本步骤的操作。
本发明实施例提供的技术方案的有益效果是:通过对监听客户端网页的用户输入,根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,并将所述取词结果输出到所述客户端网页。实现了用户在需要进行输入的页面中直接进行中文输入的操作,摆脱了传统的必须在特定网页中进行中文输入,还需将输出的文字拷贝到需要进行输入的网页中的过程。另一方面,服务器通过多元组概率计算模型,可以使用户进行单字、词、句子的输入,同时更精确的与用户输入的字母组合进行匹配,提高了对用户输入意图的理解程度,并提高了用户输入的效率与用户的输入体验。
实施例3
本发明第三实施例提出了一种在线中文输入的客户端,其结构如图3所示,包括:
监听模块1,用于监听客户端网页的用户输入;
发送模块2,用于根据所述用户输入向服务器发送获取候选字词请求信息;
输出模块3,用于将取词结果输出到所述客户端网页。
本发明实施例中,通过对监听客户端网页的用户输入,根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,并将所述取词结果输出到所述客户端网页。实现了用户在需要进行输入的页面中直接进行中文输入的操作,摆脱了传统的必须在特定网页中进行中文单字输入,还需将输出的文字拷贝到需要进行输入的网页中的过程。提高了用户输入的效率,并提高了用户的输入体验。
实施例4
本发明第四实施例提出了一种在线中文输入的客户端,是对第三实施例的进一步证明,其结构如图4所示,在线中文输入的装置包括:监听模块1、发送模块2和输出模块3,还可以包括预处理模块4,设置模块5。
监听模块1,用于监听客户端网页的用户输入。
监听模块1可以具体包括:
预存储单元11,用于预先存储启动输入法的代码的链接。
第一获取单元12,用于获取在线输入法程序文件。
监听单元13,用于在客户端生成输入法,并监听客户端网页的用户输入。
预处理模块4,用于预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
发送模块2,用于根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词。
可以具体用于每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
设置模块5,用于向服务器发送候选字词选取习惯的参数。
设置模块5可以具体包括:
第一设置单元51,用于将输入习惯调整后的参数附加在获取候选字词的请求信息中发送至服务器。
第二设置单元52,用于调整设置重新生成客户端交互界面。
输出模块3,用于将取词结果输出到所述客户端网页。
本发明实施例中,通过对监听客户端网页的用户输入,根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,并将所述取词结果输出到所述客户端网页。实现了用户在需要进行输入的页面中直接进行中文输入的操作,摆脱了传统的必须在特定网页中进行中文单字输入,还需将输出的文字拷贝到需要进行输入的网页中的过程。提高了用户输入的效率,并提高了用户的输入体验。
本发明实施例第三和第四实施例的客户端,与前述的第一和第二实施例的方法构思和原理相同,因此在第三和第四实施例中对与第一和第二实施例中相同的部分不再赘述。
实施例5
本发明第五实施例提出了一种终端登录***,其结构如图5所示,包括:客户端1和服务器2;
其中,客户端1包括:
监听模块11,用于监听客户端网页的用户输入。
预处理模块12,用于预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
发送模块13,用于根据所述用户输入向服务器发送获取候选字词请求信息。
设置模块14,用于向服务器发送候选字词选取习惯的参数。
输出模块15,用于将取词结果输出到所述客户端网页。
其中,服务器2包括:
取词模块21,用于接收客户端发送的获取候选字词请求信息,根据所述获取候选字词请求信息进行取词。
第一调整模块22,用于根据所述客户端发送的候选字词选取习惯的参数进行候选字词的调整。
第二调整模块23,用于根据客户端选词结果对服务器词库进行全局词频调整。
更新模块24,用于服务器自动搜寻热门词汇进行词库更新。
本发明实施例提供的技术方案的有益效果是:通过对监听客户端网页的用户输入,根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,并将所述取词结果输出到所述客户端网页。实现了用户在需要进行输入的页面中直接进行中文输入的操作,摆脱了传统的必须在特定网页中进行中文输入,还需将输出的文字拷贝到需要进行输入的网页中的过程。另一方面,服务器通过多元组概率计算模型,可以使用户进行单字、词、句子的输入,同时更精确的与用户输入的字母组合进行匹配,提高了对用户输入意图的理解程度,并提高了用户输入的效率与用户的输入体验。
实施例6
本发明第六实施例提出了一种终端登录***,是对第五实施例的进一步证明,其结构如图6所示,包括:终端1和服务器2;
其中,客户端1包括:
监听模块11,用于监听客户端网页的用户输入。
监听模块11可以具体包括:
预存储单元111,用于预先存储启动输入法的代码的链接。
第一获取单元112,用于获取在线输入法程序文件。
监听单元113,用于在客户端生成输入法,并监听客户端网页的用户输入。
预处理模块12,用于预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
发送模块13,用于根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词。
可以具体用于每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
设置模块14,用于向服务器发送候选字词选取习惯的参数。
设置模块14可以具体包括:
第一设置单元141,用于将输入习惯调整后的参数附加在获取候选字词的请求信息中发送至服务器。
第二设置单元142,用于调整设置重新生成客户端交互界面。
输出模块15,用于将取词结果输出到所述客户端网页。
其中,服务器2包括:
取词模块21,用于接收客户端发送的获取候选字词请求信息,根据所述获取候选字词请求信息进行取词。
具体用于服务器根据所述获取候选字词请求信息中的字母组合数,确定所述字母组合数所对应的多元组概率计算模型,根据所述对应的概率计算模型进行取词。
第一调整模块22,用于根据所述客户端发送的候选字词选取习惯的参数进行候选字词的调整。
第二调整模块23,用于根据客户端选词结果对服务器词库进行全局词频调整。
第二调整模块23可以为:
第二获取单元231,用于获取用户选词信息。
统计单元232,用于根据用户选词结果进行词语使用频率统计。
调整单元233,用于根据所述统计结果更新服务器词库的词频。
更新模块3,用于服务器自动搜寻热门词汇进行词库更新。
本发明实施例提供的技术方案的有益效果是:通过对监听客户端网页的用户输入,根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,并将所述取词结果输出到所述客户端网页。实现了用户在需要进行输入的页面中直接进行中文输入的操作,摆脱了传统的必须在特定网页中进行中文输入,还需将输出的文字拷贝到需要进行输入的网页中的过程。另一方面,服务器通过多元组概率计算模型,可以使用户进行单字、词、句子的输入,同时更精确的与用户输入的字母组合进行匹配,提高了对用户输入意图的理解程度,并提高了用户输入的效率与用户的输入体验。
本发明实施例第五和第六的***,与前述的第一和第二实施例的方法构思和原理相同,因此在第五和第六实施例中对与第一和第二实施例中相同的部分不再赘述。
本发明实施例所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,网站,或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种在线输入中文的方法,其特征在于,所述方法包括:
监听客户端网页的用户输入;
根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词;
将所述取词结果输出到所述客户端网页。
2.根据权利要求1所述的一种在线输入中文的方法,其特征在于,所述根据所述用户输入向服务器发送获取候选字词请求信息,包括:
每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
3.根据权利要求1所述的一种在线输入中文的方法,其特征在于,所述服务器根据所述获取候选字词请求信息进行取词,包括:
服务器根据所述获取候选字词请求信息中的字母组合数,确定所述字母组合数所对应的多元组概率计算模型,根据所述对应的概率计算模型进行取词。
4.根据权利要求1所述的一种在线输入中文的方法,其特征在于,所述监听客户端网页的用户输入,之前还包括:
预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
5.根据权利要求1所述的一种在线输入中文的方法,其特征在于,所述根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词,之后还包括:
向服务器发送候选字词选取习惯的参数,使服务器根据所述参数进行候选字词选取的调整。
6.根据权利要求1所述的一种在线输入中文的方法,其特征在于,所述方法还包括:
根据用户选词结果对服务器词库进行全局词频调整。
7.一种在线输入中文的客户端,其特征在于,所述装置包括:
监听模块,用于监听客户端网页的用户输入;
发送模块,用于根据所述用户输入向服务器发送获取候选字词请求信息,使服务器根据所述获取候选字词请求信息进行取词;
输出模块,用于将取词结果输出到所述客户端网页。
8.根据权利要求7所述的一种在线输入中文的客户端,其特征在于,所述发送模块具体用于每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
9.根据权利要求7所述的一种在线输入中文的客户端,其特征在于,所述装置还包括:
预处理模块,用于预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
10.根据权利要求7所述的一种在线输入中文的客户端,其特征在于,所述装置还包括:
设置模块,用于向服务器发送候选字词选取习惯的参数。
11.一种在线输入中文的***,包括:客户端和服务器;其特征在于,所述客户端包括:
监听模块,用于监听客户端网页的用户输入;
发送模块,用于根据所述用户输入向服务器发送获取候选字词请求信息;
输出模块,用于将取词结果输出到所述客户端网页;
所述服务器包括:
取词模块,用于接收客户端发送的获取候选字词请求信息,根据所述获取候选字词请求信息进行取词。
12.根据权利要求11所述的一种在线输入中文的***,其特征在于,所述发送模块具体用于每当所述用户进行输入操作,实时向服务器发送一条包含所有用户输入的字母或字母组合的获取候选字词请求信息。
13.根据权利要求11所述的一种在线输入中文的***,其特征在于,所述取词模块具体用于服务器根据所述获取候选字词请求信息中的字母组合数,确定所述字母组合数所对应的多元组概率计算模型,根据所述对应的概率计算模型进行取词。
14.根据权利要求11所述的一种在线输入中文的***,其特征在于,所述客户端还包括:
预处理模块,用于预先采集所述客户端网页的网页信息发送至服务器,使服务器选出一个与所述网页信息最匹配的词库,用于根据所述获取候选字词请求信息进行取词。
15.根据权利要求11所述的一种在线输入中文的***,其特征在于,所述客户端还包括:
设置模块,用于向服务器发送候选字词选取习惯的参数。
16.根据权利要求11所述的一种在线输入中文的***,其特征在于,所述服务器还包括:
第一调整模块,用于根据所述客户端发送的候选字词选取习惯的参数进行候选字词的调整。
17.根据权利要求11所述的一种在线输入中文的***,其特征在于,所述服务器还包括:
第二调整模块,用于根据客户端选词结果对服务器词库进行全局词频调整。
18.根据权利要求11所述的一种在线输入中文的***,其特征在于,所述服务器还包括:
更新模块,用于服务器自动搜寻热门词汇进行词库更新。
CN2011100018586A 2011-01-06 2011-01-06 在线输入中文的方法、客户端和*** Pending CN102063504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100018586A CN102063504A (zh) 2011-01-06 2011-01-06 在线输入中文的方法、客户端和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100018586A CN102063504A (zh) 2011-01-06 2011-01-06 在线输入中文的方法、客户端和***

Publications (1)

Publication Number Publication Date
CN102063504A true CN102063504A (zh) 2011-05-18

Family

ID=43998779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100018586A Pending CN102063504A (zh) 2011-01-06 2011-01-06 在线输入中文的方法、客户端和***

Country Status (1)

Country Link
CN (1) CN102063504A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419643A (zh) * 2011-10-26 2012-04-18 南京华设科技有限公司 基于云的远程文字录入方法及***
CN103257718A (zh) * 2012-02-17 2013-08-21 腾讯科技(深圳)有限公司 汉字输入方法、设备及***
CN104424163A (zh) * 2013-08-29 2015-03-18 北大方正集团有限公司 文字处理方法和***
CN106557178A (zh) * 2016-11-29 2017-04-05 百度国际科技(深圳)有限公司 用于更新输入法词条的方法及装置
CN109426357A (zh) * 2017-09-01 2019-03-05 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN111104836A (zh) * 2019-01-11 2020-05-05 孙向东 多功能社交***及方法
CN112114684A (zh) * 2020-09-28 2020-12-22 深圳哇哇鱼网络科技有限公司 一种多语言输入法、人机界面自定义方法、终端及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697109A (zh) * 2009-10-26 2010-04-21 北京搜狗科技发展有限公司 一种获取输入法候选项的方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697109A (zh) * 2009-10-26 2010-04-21 北京搜狗科技发展有限公司 一种获取输入法候选项的方法及***

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419643A (zh) * 2011-10-26 2012-04-18 南京华设科技有限公司 基于云的远程文字录入方法及***
CN102419643B (zh) * 2011-10-26 2014-07-23 南京华设科技股份有限公司 基于云的远程文字录入方法及***
CN103257718A (zh) * 2012-02-17 2013-08-21 腾讯科技(深圳)有限公司 汉字输入方法、设备及***
CN103257718B (zh) * 2012-02-17 2018-05-29 深圳市世纪光速信息技术有限公司 汉字输入方法、设备及***
CN104424163A (zh) * 2013-08-29 2015-03-18 北大方正集团有限公司 文字处理方法和***
CN104424163B (zh) * 2013-08-29 2017-09-22 北大方正集团有限公司 文字处理方法和***
CN106557178A (zh) * 2016-11-29 2017-04-05 百度国际科技(深圳)有限公司 用于更新输入法词条的方法及装置
CN106557178B (zh) * 2016-11-29 2021-03-09 百度国际科技(深圳)有限公司 用于更新输入法词条的方法及装置
CN109426357A (zh) * 2017-09-01 2019-03-05 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN111104836A (zh) * 2019-01-11 2020-05-05 孙向东 多功能社交***及方法
CN112114684A (zh) * 2020-09-28 2020-12-22 深圳哇哇鱼网络科技有限公司 一种多语言输入法、人机界面自定义方法、终端及介质

Similar Documents

Publication Publication Date Title
US11586805B2 (en) Machine-learning-based natural language processing techniques for low-latency document summarization
CN102063504A (zh) 在线输入中文的方法、客户端和***
CN102163198B (zh) 提供新词或热词的方法及***
CN110619053A (zh) 实体关系抽取模型的训练方法和抽取实体关系的方法
JP2021182392A (ja) 情報検索方法、装置、設備、記憶媒体、及びプログラム
JP6529761B2 (ja) 話題提供システム、及び会話制御端末装置
US20200134511A1 (en) Systems and methods for identifying documents with topic vectors
CN105389389B (zh) 一种网络舆情传播态势媒体联动分析方法
US20120323554A1 (en) Systems and methods for tuning parameters in statistical machine translation
CN102110140A (zh) 基于网络离散文本的舆情信息分析方法
WO2022077880A1 (zh) 模型训练方法、短信审核方法、装置、设备以及存储介质
RU2720074C2 (ru) Способ и система создания векторов аннотации для документа
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
CN102314439A (zh) 与应用接口相结合的输入方法和设备
CN107092639A (zh) 一种搜索引擎***
CN103390038A (zh) 一种基于HBase的构建和检索增量索引的方法
US20170124090A1 (en) Method of discovering and exploring feature knowledge
CN103984731A (zh) 微博环境下自适应话题追踪方法和装置
CN105324768A (zh) 使用准确度简档的动态查询解析
Dritsas et al. Aspect-based community detection of cultural heritage streaming data
CN103631779A (zh) 一种基于社交化词典的单词推荐***
CN113590797A (zh) 一种智能运维客服***及实现方法
Jiang et al. A personalized search engine model based on RSS User's interest
Cai et al. Term-level semantic similarity helps time-aware term popularity based query completion
JP2015102957A (ja) 情報検索システム、情報検索装置、情報検索方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110518