CN108874175A - 一种数据处理方法、装置、设备和介质 - Google Patents

一种数据处理方法、装置、设备和介质 Download PDF

Info

Publication number
CN108874175A
CN108874175A CN201810637434.0A CN201810637434A CN108874175A CN 108874175 A CN108874175 A CN 108874175A CN 201810637434 A CN201810637434 A CN 201810637434A CN 108874175 A CN108874175 A CN 108874175A
Authority
CN
China
Prior art keywords
word
dictionary
upper screen
time
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810637434.0A
Other languages
English (en)
Inventor
孟可丰
贺亮
马鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810637434.0A priority Critical patent/CN108874175A/zh
Publication of CN108874175A publication Critical patent/CN108874175A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置设备和介质,涉及计算机和信息检索技术领域。该方法包括:根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;根据所述词语的衰减比例对所述词库中各词语的权重进行更新。本发明实施例提供一种数据处理方法、装置设备和介质,实现了对词库中老旧的词语的管理,解决老旧词语干扰用户正常输入的问题。

Description

一种数据处理方法、装置、设备和介质
技术领域
本发明实施例涉及计算机和信息检索技术领域,尤其涉及一种数据处理方法、装置设备和介质。
背景技术
随着数字时代的兴起,人们越来越习惯将资料、信息及文档电子化,日常交流也更倾向于通过电子邮件和即时通信软件进行。因此在电子时代,作为用户在电子设备上“书写”工具的输入法,也在人们的学习、工作及生活中占据着愈加重要的地位。
为了提高用户的输入效率,当今主流的输入法都会以自学习的方式将用户曾经输入的词(通常称为自造词)记录下来,以便以后的使用。这项技术让用户在输入自造词时不用再逐字的去拼凑。并且将权重高的自造词以前置的方式放在候选词序列的前列,以方便用户选择,从而大大降低了用户的输入成本。其中自造词的权重由自造词的使用词频决定。
然而,伴随用户对输入法使用时长的增长,越来越多的词开始被自造出来并且堆积在候选词的前列。一些老旧的自造词排在了用户真正期望输入的词的前面,从而干扰用户正常输入,降低用户输入效率。
发明内容
本发明实施例提供一种数据处理方法、装置设备和介质,以实现对词库中老旧的词语的管理,解决老旧词语干扰用户正常输入的问题。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
衰减比例确定模块,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
权重更新模块,用于根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据处理方法。
本发明实施例通过根据词语最近上屏时间与所述词库最近一次的上屏时间之间的时间段内,所述词库中词语上屏的数量,对词库中词语的权重进行衰减。避免老旧自造词排列在候选词序列的前列,影响用户输入。
同时,计算一个时间段内所述词库中词语上屏的数量的计算量相比,计算词语最近上屏时间与当前时间之间的时间长度的计算量小。又因为词库中存储有大量词语,所以基于时间段内所述词库中词语上屏的数量对词库中词语的权重进行衰减可以降低***的运算量。
附图说明
图1为本发明实施例一提供的一种数据处理方法的流程图;
图2是本发明实施二提供的一种数据处理方法的流程图;
图3是本发明实施三提供的一种数据处理方法的流程图;
图4是本发明实施四提供的一种数据处理方法的流程图;
图5是本发明实施例五提供的一种数据处理装置的结构示意图;
图6为本发明实施例六提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据处理方法的流程图。本实施例可适用于对词库中的老旧的词语进行管理的情况,典型的该词语可以是自造词。该方法可以由一种数据处理装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本实施例提供的数据处理方法包括:
S110、根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例。
其中,所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段。词库上屏次数是指词库中词语上屏的次数。
上屏是指根据用户的选择信号,从候选词序列中确定候选词输入屏幕显示的编辑文本中。其中,候选词是预置的词库中与待匹配按键序列相匹配的词语,待匹配按键序列由接收的用户输入的按键信号生成。按照候选词的权重对候选词进行排序构成候选词序列。
具体的,词库中每个词语在所述词语的上屏时间段内的词库上屏次数与所述词语的衰减比例正相关,即上屏次数越多,表明所述词语越长时间没有使用,所述词语的衰减比例也越大,衰减的也就越厉害,以避免所述词语排列在候选系序列的前列干扰用户正常输入。
具体的,根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例包括:
根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间;
根据上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近上屏时间与所述词库的最近一次的上屏时间之间的时间段。
可选的,根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间的方法可以是:选取最近至少两次的上屏时间中的一次上屏时间作为最近上屏时间作为词语的最近上屏时间。
为实现对词语衰减比例的准确判断,根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间的方法可以是:将最近至少两次的上屏时间的均值作为词语的最近上屏时间。
上述最近上屏时间的确定方法可以达到这样一种效果:衰减比例的确定还结合考虑了词语最近一次上屏之前的上屏频率,从而更准确地确定词语的实际使用情况,进而提高衰减比例的确定准确率。
示例性的,当前时间为第6时刻,第一词语在第1时刻和第5时刻各上屏一次,第二词语在第3时刻和第4时刻各上屏一次。如果基于第一词语的最近一次的上屏时间(即第5时刻)与词库的最近一次的上屏时间(即第5时刻)之间的时间段为上屏时间段,那么该上屏时间段内的词库上屏次数为0。
如果基于第一词语的最近两次的上屏时间(即第1时刻和第5时刻)的平均时间(即第3时刻)与词库的最近一次的上屏时间(即第5时刻)之间的时间段为上屏时间段(即第3时刻与第5时刻之间的时间段),那么在该上屏时间段内的词库上屏次数为1.
由此可见,如果词语最近一次上屏之前的上屏频率越小,也即上屏时间间隔较大,那么根据该上屏时间确定的上屏时间段将会拉长,该上屏时间段内的词库上屏次数也会越多;否则,根据该上屏时间确定的上屏时间段会缩短,该上屏时间段内的词库上屏次数也会越少。又因为,上屏时间段内的词库上屏次数越多,词语的衰减比例越大。从而实现词语最近一次上屏之前的上屏频率越小,确定词库上屏次数也会越多,进而对该词语的衰减比例越大。
S120、根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
具体的,根据所述词语的衰减比例对所述词库中各词语的权重进行更新包括:
根据词语的词频确定词语的权重,其中词频是指词语在设定时间段内上屏的次数;
利用所述词语的衰减比例对确定的权重进行衰减;
将衰减后的权重更新为所述词语的新权重,并以此完成词库中各词语权重的更新。
示例性的,继续以当前时间为第6时刻,第一词语在第1时刻和第5时刻各上屏一次,第二词语在第3时刻和第4时刻各上屏一次为例。基于本实施例的方法对词库中第二词语的更新可以描述为:根据第二词语的最近一次的上屏时间(即第4时刻)与词库的最近一次的上屏时间(即第5时刻),确定上屏时间段(即第4时刻与第5时刻之间的时间段);确定上屏时间段内词库上屏次数为0;因为词库上屏次数为0,所以根据词库上屏次数确定第二词语的衰减比例为0,以不对第二词语的权重进行衰减;根据确定的衰减比例对第二词语的权重进行更新。
本发明实施例的技术方案,通过根据词语最近上屏时间与所述词库最近一次的上屏时间之间的时间段内,所述词库中词语上屏的数量,对词库中词语的权重进行衰减。避免老旧自造词排列在候选词序列的前列,影响用户输入。
同时,计算一个时间段内所述词库中词语上屏的数量的计算量相比,计算词语最近上屏时间与当前时间之间的时间长度的计算量小。又因为词库中存储有大量词语,所以基于时间段内所述词库中词语上屏的数量对词库中词语的权重进行衰减可以降低***的运算量。
为实现对词库中老旧词语的清理,在根据所述词语的衰减比例对所述词库中各词语的权重进行更新之后,还包括:
若衰减后词语的权重小于设定清除权重阈值,则将所述词语从词库中删除。
其中,设定清除权重阈值可以根据实际需要确定。
进一步的,所述的方法,还包括:
根据候选词序列中的候选词在所述候选词的上屏时间段内的词库上屏次数,和/或,根据候选词序列中的候选词最近至少一次的上屏时间与当前时间之间的时间长度,对所述候选词的权重进行衰减;
根据衰减后的权重确定所述候选词在候选词序列中的排序。
具体的,可以根据衰减后的权重对候选词在词库的权重进行更新。但因为频繁更新会导致候选词的权重衰减过快,所以在候选词排序之前仅利用重新确定的衰减后的权重进行排序,不对候选词在词库中的权重进行更新。
实施例二
图2是本发明实施二提供的一种数据处理方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的数据处理方法包括:
S210、根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度,确定所述词语的衰减比例。
相似的,词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度与所述词语的衰减比例正相关,即上屏次数时间长度越长,表明所述词语越长时间没有使用,所述词语的衰减比例也越大。
具体的,确定词库中每个词语最近至少两次的上屏时间与当前时间之间的时间长度的方法可以是:选取最近至少两次的上屏时间中的一次上屏时间作为最近上屏时间;确定最近上屏时间与当前时间之间的时间长度。
为实现对词语衰减比例的准确判断,确定词库中每个词语最近至少两次的上屏时间与当前时间之间的时间长度的方法可以是:将最近至少两次的上屏时间的均值作为最近上屏时间;确定最近上屏时间与当前时间之间的时间长度。
上述时间长度的确定方法可以达到这样一种效果:衰减比例的确定不仅仅考虑了词语最近一次上屏与当前时间之间的时间长度,而且结合了词语在最近一次上屏之间的上屏频率,从而更准确地反应词语的实际使用情况,进而提高衰减比例的确定准确率。
具体的,根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度,确定所述词语的衰减比例包括:
若词库中每个词语在所述词语的上屏时间段内的词库上屏次数大于第一设定次数阈值,且词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度大于第一设定时间长度阈值,则确定所述词语的衰减比例较大;
若词库中每个词语在所述词语的上屏时间段内的词库上屏次数小于第二设定次数阈值,且词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度大于第二设定时间长度阈值,则确定所述词语的衰减比例为100%,也即所述词语的权重为0,以根据新的输入对候选词序列进行符合新用户输入喜欢的重新排序。
其中,第一设定次数阈值大于第二设定次数阈值,第二设定时间长度阈值大于或等于第一设定时间长度阈值。
上述方法可以有效解决如下问题:
针对用户将数据处理装置搁置较长时间不用的情况,因为在搁置的时间段内没有进行输入操作,所以上屏时间段内的词库上屏次数也不会增加,从而不能实现对数据处理装置中搁置前的老旧词语进行权重的衰减的问题。
同时,上述方法可以识别出用户的不同使用习惯,根据用户的不同使用习惯可以设计词语的不同衰减策略。
具体的,如果上屏时间段内的词库上屏次数较多,且词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度较短,说明该用户使用输入操作频繁,那么可以适当增大词语的衰减权重,以对词库中词语的权重进行及时的更新。
基于该技术启示,本领域技术人员容易想到的多种对词库中老旧词语的衰减方法,本实施例对此并不进行任何限定。
S220、根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
本发明实施例的技术方案,通过将词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度结合,可以准确判断出词语的实际使用情况。据此,对所述词语的权重进行准确的衰减,从而实现对词库中老旧自造词的准确管理。
实施例三
图3是本发明实施三提供的一种数据处理方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3,本实施例提供的数据处理方法包括:
S310、若词库中词语上屏的总次数大于设定上屏次数阈值,则获取词库中每个词语在所述词语的上屏时间段内的词库上屏次数。
可选的,对词库中词语进行衰减的触发条件有很多。例如,设定时间间隔或词库中词语的数量大于设定阈值等。
通过当词库中词语上屏的总次数大于设定上屏次数阈值时,触发对自造词库的管理。相比基于词库中的词语的数量触发,基于上屏次数的触发可以实现对词语的数量较少的词库中老旧词语的管理。
S320、根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例。
S330、根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
本发明实施例的技术方案,通过当词库中词语上屏的总次数大于设定上屏次数阈值时,触发对自造词库的管理。相比基于词库中的词语的数量触发,基于上屏次数的触发可以实现对词语的数量较少的词库中老旧词语的准确,及时地管理。
实施例四
图4是本发明实施四提供的一种数据处理方法的流程图。本实施例是在上述实施例的基础上以自造词为例提出的一种可选方案。参见图4,本实施例提供的数据处理方法包括:
获取用户输入的按键序列,判断按键序列是否符合自造条件,其中自造条件是判断按键序列对应的词是否为自造词的条件;
若是,则将自造词及所述自造词的相关信息关联存储至自造词库中,其中自造词的相关信息至少包括自造词的词频,关联存储的方式可以是以多元组的方式存储;
若满足自造词衰减条件,则根据自造词的相关信息对自造词库中的自造词的权重进行衰减,根据衰减结果对自造词库进行清理。
具体的,根据自造词的相关信息对自造词库中的自造词的权重进行衰减包括:
若自增计数器的当前值大于设定计数阈值,则枚举自造词库中的自造词,根据自造词的当前词频、时间索引及自增计数器的当前值确定所述自造词衰减后的权重。
其中,自造词库中每上屏一个自造词自增计数器自动加一,并将自造词上屏时自增计数器的值作为该自造词的时间索引。因此自增计数器的当前值表示自造词库当前时间的自造词库的总上屏次数。自造词的时间索引表示自造词上屏时的自造词库的总上屏次数。
根据自造词的当前词频、时间索引及自增计数器的当前值确定所述自造词衰减后的权重中包括:
根据自造词的当前词频确定自造词的权重;
根据自造词时间索引中最近一次上屏时自增计数器的值与自增计数器的当前值的差值,确定衰减比例;
根据确定的衰减比例对自造词的权重进行衰减。
其中,根据自造词时间索引中最近一次上屏时自增计数器的值与自增计数器的当前值的差值反应的是:自造词库中每个自造词在所述自造词的上屏时间段内的自造词库上屏次数。
可选的,自造词衰减条件包括但不限于:衰减后的权重过小或时间索引和自增技术器的当前值之差过大等。
进一步的,当自造词库中的自造词符合用户的当前输入条件,进而作为候选词时,获取自造词库中以三元组存储的候选词的当前词频、时间索引以及自增计数器的当前值;将候选词的当前词频、时间索引以及自增计数器的当前值进行拟合,确定候选词衰减后的权重;根据衰减后的权重确定候选词在候选序列中的排序位置。
其中,拟合是基于自造词的当前词频、时间索引以及自增计数器的当前值中至少一项的任意方式的计算,以确定出自造词衰减后的权重。
实际应用中,对自造词权重的衰减还可以描述为:
若满足自造词衰减条件(比如,自造词库中自造词个数大于设定阈值),则对自造词库中所有自造词的权重进行调整,以对自造词库中的自造词进行衰减,其中调整的方式包括但不限于加性调整、乘性调整、指数调整、幂调整及混合调整。
该方法可以实现如下效果:每满足自造词衰减条件,就对自造词库中自造词的权重进行一次衰减。如果衰减后的自造词使用频繁,那么该自造词的权重会根据该自造词较高的词频增加上来。如果衰减后的自造词使用不频繁或不使用,那么该自造词的权重就不会增加上来,并在经过多次衰减后该自造词可能会因为权重过低而从自造词库中删除。
实际应用中,对自造词权重的衰减还可以描述为:
若满足自造词衰减条件,枚举自造词库中的每一个自造词,根据对自造词的当前词频及最近上屏的时间戳的拟合结果,确定出自造词衰减后的权重。
其中,最近上屏的时间戳可以是多次上屏对应的时间戳序列,也可以是最近一次上屏的时间戳。
具体的,根据对自造词的当前词频及最近上屏的时间戳的拟合结果,确定出自造词衰减后的权重包括:
根据自造词的当前词频确定自造词的权重;
根据自造词最近一次上屏的时间戳与当前时间的差值,确定衰减比例;
根据确定的衰减比例对自造词的权重进行衰减。
相应的,对自造词库进行清理的条件包括但不限于:衰减后自造词的权重过小或自造词最近一次上屏的时间戳与当前时间的差值过大等。
相似的,当自造词库中的自造词符合用户的当前输入条件,进而作为候选词时,获取自造词库中以三元组存储的自造词的当前词频、时间戳序列以及当前***时间;将自造词的当前词频、时间戳序列以及当前***时间进行拟合,确定自造词衰减后的权重;根据该权重确定候选词在候选序列中的排序位置。
本发明实施例的技术方案,通过根据自造词的相关信息对自造词库中的自造词的权重进行衰减,根据衰减结果对自造词库进行清理。从而实现对老旧自造的自动管理及清除,让一些用户早已弃置的自造词不再干扰用户正常输入,提高用户的输入效率。需要说明的是,经过本实施例的技术教导,本领域技术人员有动机将上述实施例中描述的任一种实施方式进行方案的组合,以实现对词库中老旧词语的管理。
实施例五
图5是本发明实施例五提供的一种数据处理装置的结构示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图5,本实施例提供的数据处理装置包括:衰减比例确定模块10和权重更新模块20.
其中,衰减比例确定模块10,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
权重更新模块20,用于根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
本发明实施例的技术方案,通过根据词语最近上屏时间与所述词库最近一次的上屏时间之间的时间段内,所述词库中词语上屏的数量,对词库中词语的权重进行衰减。避免老旧自造词排列在候选词序列的前列,影响用户输入。
同时,计算一个时间段内所述词库中词语上屏的数量的计算量相比,计算词语最近上屏时间与当前时间之间的时间长度的计算量小。又因为词库中存储有大量词语,所以基于时间段内所述词库中词语上屏的数量对词库中词语的权重进行衰减可以降低***的运算量。
进一步的,衰减比例确定模块包括:上屏时间确定单元和衰减比例确定单元。
其中,上屏时间确定单元,用于根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间;
衰减比例确定单元,用于根据上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近上屏时间与所述词库的最近一次的上屏时间之间的时间段。
进一步的,衰减比例确定模块包括:结合时间衰减单元。
其中,结合时间衰减单元,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度,确定所述词语的衰减比例。
进一步的,所述数据处理装置还包括:触发条件判断模块。
其中,触发条件判断模块,用于在根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例之前,若词库中词语上屏的总次数大于设定上屏次数阈值,则获取词库中每个词语在所述词语的上屏时间段内的词库上屏次数。
进一步的,所述数据处理装置还包括:词语清理模块。
其中,词语清理模块,用于在根据所述词语的衰减比例对所述词库中各词语的权重进行更新之后,若衰减后词语的权重小于设定清除权重阈值,则将所述词语从词库中删除。
进一步的,所述数据处理装置还包括:权重衰减模块和候选词排序模块。
其中,权重衰减模块,用于根据候选词序列中的候选词在所述候选词的上屏时间段内的词库上屏次数,对所述候选词的权重进行衰减;
候选词排序模块,用于根据衰减后的权重确定所述候选词在候选词序列中的排序。
实施例六
图6为本发明实施例六提供的一种设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性设备12的框图。图6显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据处理方法。
实施例七
本发明实施例七还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据处理方法,该方法包括:
根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
2.根据权利要求1所述的方法,其特征在于,根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例包括:
根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间;
根据上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近上屏时间与所述词库的最近一次的上屏时间之间的时间段。
3.根据权利要求1所述的方法,其特征在于,根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例包括:
根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度,确定所述词语的衰减比例。
4.根据权利要求1所述的方法,其特征在于,在根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例之前,还包括:
若词库中词语上屏的总次数大于设定上屏次数阈值,则获取词库中每个词语在所述词语的上屏时间段内的词库上屏次数。
5.根据权利要求1所述的方法,其特征在于,在根据所述词语的衰减比例对所述词库中各词语的权重进行更新之后,还包括:
若衰减后词语的权重小于设定清除权重阈值,则将所述词语从词库中删除。
6.根据权利要求1-5中任一权利要求所述的方法,其特征在于,还包括:
根据候选词序列中的候选词在所述候选词的上屏时间段内的词库上屏次数对所述候选词的权重进行衰减;
根据衰减后的权重确定所述候选词在候选词序列中的排序。
7.一种数据处理装置,其特征在于,包括:
衰减比例确定模块,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
权重更新模块,用于根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
8.根据权利要求7所述的装置,其特征在于,衰减比例确定模块包括:
上屏时间确定单元,用于根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间;
衰减比例确定单元,用于根据上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近上屏时间与所述词库的最近一次的上屏时间之间的时间段。
9.根据权利要求7所述的装置,其特征在于,衰减比例确定模块包括:
结合时间衰减单元,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度,确定所述词语的衰减比例。
10.根据权利要求7所述的装置,其特征在于,还包括:
触发条件判断模块,用于在根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例之前,若词库中词语上屏的总次数大于设定上屏次数阈值,则获取词库中每个词语在所述词语的上屏时间段内的词库上屏次数。
11.根据权利要求7所述的装置,其特征在于,还包括:
词语清理模块,用于在根据所述词语的衰减比例对所述词库中各词语的权重进行更新之后,若衰减后词语的权重小于设定清除权重阈值,则将所述词语从词库中删除。
12.根据权利要求7-11中任一权利要求所述的装置,其特征在于,还包括:
权重衰减模块,用于根据候选词序列中的候选词在所述候选词的上屏时间段内的词库上屏次数,对所述候选词的权重进行衰减;
候选词排序模块,用于根据衰减后的权重确定所述候选词在候选词序列中的排序。
13.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的数据处理方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的数据处理方法。
CN201810637434.0A 2018-06-20 2018-06-20 一种数据处理方法、装置、设备和介质 Pending CN108874175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810637434.0A CN108874175A (zh) 2018-06-20 2018-06-20 一种数据处理方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810637434.0A CN108874175A (zh) 2018-06-20 2018-06-20 一种数据处理方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN108874175A true CN108874175A (zh) 2018-11-23

Family

ID=64340095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810637434.0A Pending CN108874175A (zh) 2018-06-20 2018-06-20 一种数据处理方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN108874175A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114327355A (zh) * 2021-12-30 2022-04-12 科大讯飞股份有限公司 语音输入方法、电子设备以及计算机存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030157A (zh) * 2007-04-20 2007-09-05 北京搜狗科技发展有限公司 一种用户词库同步更新的方法和***
CN102209083A (zh) * 2010-03-31 2011-10-05 北京搜狗科技发展有限公司 一种用户词库同步更新方法、更新服务器及输入法***
CN103049458A (zh) * 2011-10-17 2013-04-17 北京搜狗科技发展有限公司 一种修正用户词库的方法和***
CN104536976A (zh) * 2014-12-05 2015-04-22 苏州沃斯麦机电科技有限公司 基于九宫格输入模式的联想输入***
CN106896937A (zh) * 2017-02-28 2017-06-27 百度在线网络技术(北京)有限公司 用于输入信息的方法和装置
CN106933380A (zh) * 2017-02-13 2017-07-07 北京奇虎科技有限公司 一种词库的更新方法和装置
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107665206A (zh) * 2016-07-27 2018-02-06 北京搜狗科技发展有限公司 清理用户词库的方法、***和用于清理用户词库的装置
US20180129300A1 (en) * 2015-04-01 2018-05-10 Beijing Qihoo Technology Company Limited Input-based candidate word display method and apparatus

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030157A (zh) * 2007-04-20 2007-09-05 北京搜狗科技发展有限公司 一种用户词库同步更新的方法和***
CN102209083A (zh) * 2010-03-31 2011-10-05 北京搜狗科技发展有限公司 一种用户词库同步更新方法、更新服务器及输入法***
CN103049458A (zh) * 2011-10-17 2013-04-17 北京搜狗科技发展有限公司 一种修正用户词库的方法和***
CN104536976A (zh) * 2014-12-05 2015-04-22 苏州沃斯麦机电科技有限公司 基于九宫格输入模式的联想输入***
US20180129300A1 (en) * 2015-04-01 2018-05-10 Beijing Qihoo Technology Company Limited Input-based candidate word display method and apparatus
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107665206A (zh) * 2016-07-27 2018-02-06 北京搜狗科技发展有限公司 清理用户词库的方法、***和用于清理用户词库的装置
CN106933380A (zh) * 2017-02-13 2017-07-07 北京奇虎科技有限公司 一种词库的更新方法和装置
CN106896937A (zh) * 2017-02-28 2017-06-27 百度在线网络技术(北京)有限公司 用于输入信息的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114327355A (zh) * 2021-12-30 2022-04-12 科大讯飞股份有限公司 语音输入方法、电子设备以及计算机存储介质

Similar Documents

Publication Publication Date Title
KR20100115818A (ko) 스프레드시트 셀들을 위한 동적 수식들
CN106155699B (zh) 一种后台进程的管理方法及移动终端
CN103645950A (zh) 一种计算机的加速方法和装置
CN104346148A (zh) 获取程序性能消耗信息的方法、装置及***
US11151180B2 (en) Messaging digest
CN109714636A (zh) 一种用户识别方法、装置、设备及介质
CN112214155B (zh) 一种视图信息播放方法、装置、设备和存储介质
CN107729538A (zh) 评论信息处理方法、装置、终端设备及存储介质
CN105117107A (zh) 应用程序图标管理方法及***
CN108121716A (zh) 处理问题单的方法和问题单处理***
CN108920651A (zh) 信息推送方法、装置、服务器和存储介质
CN107168610A (zh) 弹窗处理方法及装置、存储介质和电子设备
CN110795185A (zh) 防退出误操作的方法、装置及电子设备
US20040044954A1 (en) Data-bidirectional spreadsheet
CN108874175A (zh) 一种数据处理方法、装置、设备和介质
US8700606B2 (en) Methods for calculating a combined impact analysis repository
CN104580704B (zh) 一种短信内容详情的查看方法及装置
CN108897886A (zh) 页面展示方法、计算设备及计算机存储介质
CN109543027A (zh) 分页数据的获取方法及装置、设备及存储介质
CN110489598A (zh) 一种用户社团划分方法及装置
CN107168776B (zh) 一种事件统计方法、装置、设备及存储介质
CN110059312A (zh) 短语挖掘方法、装置和电子设备
CN109726166A (zh) 电子书的显示方法、装置、计算机设备和可读存储介质
CN105630991B (zh) Id自动生成方法及装置
CN108255810A (zh) 近义词挖掘方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123

RJ01 Rejection of invention patent application after publication