CN105446977A - 一种信息处理方法及电子设备 - Google Patents

一种信息处理方法及电子设备 Download PDF

Info

Publication number
CN105446977A
CN105446977A CN201410299742.9A CN201410299742A CN105446977A CN 105446977 A CN105446977 A CN 105446977A CN 201410299742 A CN201410299742 A CN 201410299742A CN 105446977 A CN105446977 A CN 105446977A
Authority
CN
China
Prior art keywords
vocabulary
feature vocabulary
feature
electronic equipment
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410299742.9A
Other languages
English (en)
Other versions
CN105446977B (zh
Inventor
葛付江
苗振兴
贾鹏程
赵凯
卓雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201410299742.9A priority Critical patent/CN105446977B/zh
Publication of CN105446977A publication Critical patent/CN105446977A/zh
Application granted granted Critical
Publication of CN105446977B publication Critical patent/CN105446977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及计算机领域,公开了一种信息处理方法及电子设备,以解决现有技术中对特定用户群体的群体特征词汇更新速度慢的技术问题,该方法应用于电子设备中,包括:获得电子设备的用户的N个特征词汇,N为正整数;判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇,进而从N个特征词汇中确定出M个群体特征词汇,其中,群体特征词汇为特定用户群体中的至少两个用户的特征词汇,M为小于等于N的正整数;通过M个群体特征词汇对电子设备的用户词典进行更新。

Description

一种信息处理方法及电子设备
技术领域
本发明涉及计算机领域,特别涉及一种信息处理方法及电子设备。
背景技术
随着科学技术的不断发展,电子技术也得到了飞速的发展,电子产品的种类也越来越多,人们也享受到了科技发展带来的各种便利。现在人们可以通过各种类型的电子设备,享受随着科技发展带来的舒适生活。
而在电子设备的应用中,汉字输入法已经成为用户与电子设备交互的重要手段,汉字输入法技术需要将用户的一连串键盘按键翻译成用户想要的汉字串,通常汉字输入法都需要具备用户词典,用于存储用户最可能会使用的汉字、词语和短语,而通常情况下,特定用户群体中多个用户可能会有相同的特征词汇,该词即为群体特征词汇,现有技术中都需要通过服务器来确定特定用户群体的群体特征词汇,例如:服务器端从互联网上收集整理,然后下发给输入法客户端;又例如:服务器端收集输入法客户端用户的输入词汇及其词频然后进行统计,再下发给输入法客户端等等。然而,这两种方式都需要服务器端通过较长的周期收集整理用户的特征词汇,故而现有技术中存在着对特定用户群体的群体特征词汇更新速度慢的技术问题。
发明内容
本发明实施例提供一种信息处理方法及电子设备,以解决现有技术中对特定用户群体的群体特征词汇更新速度慢的技术问题。
第一方面,本发明实施例提供一种信息处理方法,应用于电子设备中,包括:获得所述电子设备的用户的N个特征词汇,N为正整数;判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇,进而从所述N个特征词汇中确定出M个群体特征词汇,其中,所述群体特征词汇为所述特定用户群体中的至少两个用户的特征词汇,M为小于等于N的正整数;通过所述M个群体特征词汇对所述电子设备的用户词典进行更新。
结合第一方面,在第一种可能的实现方式中,所述判断所述特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇,具体包括:依次取i为1至N的整数,确定所述N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,所述第i传播跳数具体为:所述第i个特征词汇从第一次出现到传输至所述电子设备所经过的节点数量,所述第i共现跳数具体为:在所述第i个特征词汇的传播过程中,将所述第i个特征词汇作为特征词汇的节点数量;判断所述第i共现跳数除以所述第i传播跳数的商值是否大于第一预设阈值;在所述商值大于所述第一预设阈值时,则确定所述第i个特征词汇为所述群体特征词汇。
结合第一方面,在第二种可能的实现方式中,所述获得所述电子设备的用户的N个特征词汇,具体为:获得所述电子设备的用户使用频率超过第二预设阈值的词汇作为所述N个特征词汇;或接收另一电子设备发送至所述N个特征词汇;或获得所述电子设备的用户的使用频率超过第二预设阈值的N1个词汇,以及接收另一电子设备的发送至的N2个特征词汇,所述N1个词汇与所述N2个特征词汇组成所述N个特征词汇。
结合第一方面,在第三种可能的实现方式中,在所述判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇之前,所述方法还包括:依次取i为1至N的整数,确定所述N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,所述第i传播跳数具体为:所述第i个特征词汇从第一次出现到传输至所述电子设备所经过的节点数量,所述第i共现跳数具体为:所述第i个特征词汇在传播过程中,将所述第i个特征词汇作为特征词汇的节点数量;判断所述第i传播跳数减去第i共现跳数的差值是否大于第三预设阈值;在所述差值大于所述第三预设阈值时,将所述第i个特征词汇从所述N个特征词汇中去除,进而在i等于N时,获得所述用户的L个特征词汇,L为小于等于N的正整数;所述判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇,具体为:逐一判断所述L个特征词汇中的任一特征词汇是否为所述群体特征词汇。
结合第一方面或第一方面的第一至三种可能的实现方式中的任一一种可能的实现方式,在第四种可能的实现方式中,所述通过所述M个群体特征词汇对所述电子设备的用户词典进行更新,具体为:取j为1至M的整数,确定所述M个群体特征词汇中的第j个特征词汇的源节点与所述电子设备的第j距离值;判断所述第j距离值是否小于预设距离值;在所述第j距离值小于所述预设距离值时,将所述第j个特征词汇加入所述用户词典;否则,不将所述第j个特征词汇加入所述用户词典。
结合第一方面或第一方面的第一至三种可能的实现方式中的任一一种可能的实现方式,在第五种可能的实现方式中,在所述从所述N个特征词汇中确定出M个群体特征词汇之后,所述方法还包括:将所述M个群体特征词汇发送至所述电子设备的邻居节点,所述M个群体特征词汇用于对所述邻居节点的所述用户词典进行更新。
第二方面,本发明实施例提供一种电子设备,包括:获得模块,用于获得所述电子设备的用户的N个特征词汇,N为正整数;第一判断模块,用于判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇,进而从所述N个特征词汇中确定出M个群体特征词汇,其中,所述群体特征词汇为所述特定用户群体中的至少两个用户的特征词汇,M为小于等于N的正整数;更新模块,用于通过所述M个群体特征词汇对所述电子设备的用户词典进行更新。
结合第二方面,在第一种可能的实现方式中,所述第一判断模块,具体包括:第一确定单元,用于依次取i为1至N的整数,确定所述N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,所述第i传播跳数具体为:所述第i个特征词汇从第一次出现到传输至所述电子设备所经过的节点数量,所述第i共现跳数具体为:在所述第i个特征词汇的传播过程中,将所述第i个特征词汇作为特征词汇的节点数量;第一判断单元,用于判断所述第i共现跳数除以所述第i传播跳数的商值是否大于第一预设阈值;第二确定单元,用于在所述商值大于所述第一预设阈值时,则确定所述第i个特征词汇为所述群体特征词汇。
结合第二方面,在第二种可能的实现方式中,所述获得模块,具体用于:获得所述电子设备的用户使用频率超过第二预设阈值的词汇作为所述N个特征词汇;或接收另一电子设备发送至所述N个特征词汇;获得所述电子设备的用户的使用频率超过第二预设阈值的N1个词汇,以及接收另一电子设备的发送至的N2个特征词汇,所述N1个词汇与所述N2个特征词汇组成所述N个特征词汇。
结合第二方面,在第三种可能的实现方式中,所述电子设备还包括:确定模块,用于在判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇之前,依次取i为1至N的整数,确定所述N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,所述第i传播跳数具体为:所述第i个特征词汇从第一次出现到传输至所述电子设备所经过的节点数量,所述第i共现跳数具体为:所述第i个特征词汇在传播过程中,将所述第i个特征词汇作为特征词汇的节点数量;第二判断模块,用于判断所述第i传播跳数减去第i共现跳数的差值是否大于第三预设阈值;筛选模块,用于在所述差值大于所述第三预设阈值时,将所述第i个特征词汇从所述N个特征词汇中去除,进而在i等于N时,获得所述用户的L个特征词汇,L为小于等于N的正整数;所述第一判断模块,具体用于:逐一判断所述L个特征词汇中的任一特征词汇是否为所述群体特征词汇。
结合第二方面或第二方面的第一至三种可能的实现方式中的任一一种可能的实现方式,在第四种可能的实现方式中,所述更新模块,具体包括:第三确定单元,用于取j为1至M的整数,确定所述M个群体特征词汇中的第j个特征词汇的源节点与所述电子设备的第j距离值;第二判断单元,用于判断所述第j距离值是否小于预设距离值;更新单元,用于在所述第j距离值小于所述预设距离值时,将所述第j个特征词汇加入所述用户词典;否则,不将所述第j个特征词汇加入所述用户词典。
结合第二方面或第二方面的第一至三种可能的实现方式中的任一一种可能的实现方式,在第五种可能的实现方式中,所述电子设备还包括:发送模块,用于在从所述N个特征词汇中确定出M个群体特征词汇之后,将所述M个群体特征词汇发送至所述电子设备的邻居节点,所述M个群体特征词汇用于对所述邻居节点的所述用户词典进行更新。
本发明有益效果如下:
由于在本申请实施例中,首先获得电子设备的用户的N个特征词汇,然后从这N个特征词汇中确定出用户所在特定用户群体的M个群体特征词汇,而群体特征词汇为用户所在特定用户群体中至少两个用户的特征词汇,然后通过这M个特征词汇对电子设备的用户词典进行更新,由于直接在本地获得用户所在特定用户群体的群体特征词汇,而不需要通过服务器收集整理,故而达到了提高对特定用户群体的群体特征词汇的更新速度的技术效果。
附图说明
图1为本发明实施例中信息处理方法流程图;
图2为本发明实施例信息处理方法中判断特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇的流程图;
图3为本发明实施例信息处理方法中***中所包含的电子设备示意图;
图4为本发明实施例信息处理方法中从N个特征词汇中筛选出L个特征词汇的流程图;
图5本发明实施例信息处理方法中通过M个群体特征词汇对电子设备的用户词典进行更新的流程图;
图6为本发明实施例中电子设备的结构图。
具体实施方式
本发明实施例提供一种信息处理方法及电子设备,以解决现有技术中对特定用户群体的群体特征词汇更新速度慢的技术问题。
本申请实施例中的技术方案为解决上述的技术问题,总体思路如下:
首先获得电子设备的用户的N个特征词汇,然后从这N个特征词汇中确定出用户所在特定用户群体的M个群体特征词汇,而群体特征词汇为用户所在特定用户群体中至少两个用户的特征词汇,然后通过这M个特征词汇对电子设备的用户词典进行更新,由于直接在本地获得用户所在特定用户群体的群体特征词汇,而不需要通过服务器收集整理,故而达到了提高对特定用户群体的群体特征词汇的更新速度的技术效果。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
第一方面,本发明实施例提供一种信息处理方法,应用于电子设备中,电子设备例如为:笔记本电脑、平板电脑、手机等等,请参考图1,该方法包括以下步骤:
步骤S101:获得电子设备的用户的N个特征词汇,N为正整数;
步骤S102:判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇,进而从N个特征词汇中确定出M个群体特征词汇,其中,群体特征词汇为特定用户群体中的至少两个用户的特征词汇,M为小于等于N的正整数;
步骤S103:通过M个群体特征词汇对电子设备的用户词典进行更新。
步骤S101中,N个特征词汇中每个特征词汇W由以下属性组成:
①词汇w,词汇w可以由词汇本身或词汇的唯一标识符表示;
②词汇的使用频率f,词汇的使用频率f可以为当前节点的用户输入该词汇的次数f(w);或
词汇的使用频率f也可以为p(w),通过本节点所有用户特征词汇的频率做归一化处理得到
其中,wi指当前特征词汇,wk是当前节点的任一特征词汇,n是当前节点的特征词汇个数,p(w)指的是次数f(w)在当前节点的用户的所有输入次数中所占的比例;
③词汇的使用场景s,词汇的使用场景s由一种或多种特征组成,例如:用户输入词汇时所在的应用程序、用户输入该词汇之前或之后输入的若干词汇、用户输入词汇时的时间、地理位置等。
④词汇的源节点h,词汇在传播过程中以节点h的特征词汇出现时h即为该词汇的源节点,以该节点的IP地址或节点的其它唯一标识符表示;
⑤词汇的传播跳数m,词汇从第一次出现到传输至当前电子设备所经过的节点数量;
⑥词汇的共现跳数t,在词汇传播过程中,将词汇作为特征词汇的节点数量。
在特征词汇的上面多个属性中,“词汇w”属性是必须属性,其它词汇不是必须属性。
步骤S101中,可以通过多种方式获得N个特征词汇,下面列举其中的三种方式,当然,在具体实施过程中,不限于以下三种情况。
第一种,获得电子设备的用户的N个特征词汇,具体为:
获得电子设备的用户的使用频率超过第二预设阈值的N1个词汇,以及接收另一电子设备的发送至的N2个特征词汇,N1个词汇与N2个特征词汇组成N个特征词汇。
在具体实施过程中,如果某个词汇被用户的使用频率超过第二预设阈值,则说明该词汇为用户的常用词汇,故而将其确定为用户的特征词汇,其中第二预设阈值可以为任意值,本发明实施例不作限制;而除此之外,与当前电子设备相连的其它电子设备也会有用户的特征词汇,故而,也可以将其发送至当前电子设备,进而使当前电子设备获得N个特征词汇,其中,另一电子设备在将N2个特征词汇发送至当前电子设备时,通过点对点方式传输,以提高传输速度。
另外,如果N1个词汇和N2个词汇中包含相同的词汇,则将其汇合成一个词汇,例如:进行词汇频率的累加、传播跳数的计算、共现跳数的计算等等。
第二种,获得电子设备的用户的N个特征词汇,具体为:
获得电子设备的用户使用频率超过第二预设阈值的词汇作为N个特征词汇。
例如:如果当前电子设备为确定特征词汇的起点,那么在获得电子设备的N个特征词汇时,就没有其它电子设备传输至的特征词汇,而是仅仅获取电子设备本地的用户的特征词汇。
第三种,获得电子设备的用户的N个特征词汇,具体为:
接收另一电子设备发送至N个特征词汇。
例如:如果当前电子设备并没有用户的常用词汇,故而可能仅仅获取另一电子设备发送的其它电子设备的特征词汇作为N个特征词汇。
步骤S102中,可以通过多种方式判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于以下两种情况。
作为进一步的优选实施例,电子设备在获得N个特征词汇之后,则可以将其传递至该电子设备的邻居节点,进而对邻居节点的特征词汇进行更新,其更新过程和当前电子设备类似。
第一种,判断特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇,请参考图2,具体包括:
步骤S201:依次取i为1至N的整数,确定N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,第i传播跳数具体为:第i个特征词汇从第一次出现到传输至电子设备所经过的节点数量,第i共现跳数具体为:在第i个特征词汇的传播过程中,将第i个特征词汇作为特征词汇的节点数量;
步骤S202:判断第i共现跳数除以第i传播跳数的商值是否大于第一预设阈值;
步骤S203a:在商值大于第一预设阈值时,则确定第i个特征词汇为群体特征词汇。
进一步的,该方法还包括:步骤S203b:在商值不大于第一预设阈值时,则确定第i个特征词汇不为群体特征词汇。
步骤S201中,在具体实施过程中,一个节点即为一个电子设备,第i个特征词汇在出现时,则将其属性信息中的第i传播跳数设置为1,第i共现跳数设置为1,然后其每次从一个电子设备传递至下一个电子设备,则将其对应的第i传播跳数加1,而如果第i特征词汇在传播至某个电子设备时,发现其也为该电子设备的特征词汇,则将其对应的第i共现跳数加1。
例如:如图3所示,***中包含10个电子设备,第i特征词汇第一次出现为电子设备h1,当前电子设备h6,其间经过电子设备h2、h3、h4、h5,并且也是电子设备h4、h6的特征词汇,那么可以确定出第i传播跳数为6、第i共现跳数为3,当然以上数值仅仅为第i传播跳数、第i共现跳数的举例,在具体实施过程中,并不限于上述数值。
步骤S202中,还是以第i传播跳数为6、第i共现跳数为3为例,那么所确定出的商值为0.5。
步骤S203a中,第一预设阈值可以设置的任意值,比如:0.4、0.6、0.8等等,本发明实施例不作限制,通常可以由用户根据需要或者经验自行设定,其中如果第一预设阈值为0.4,则由于0.5大于0.4,则可以确定第i特征词汇为群体特征词汇;而如果第一预设阈值为0.8,则由于0.5小于0.8,那么则可以确定第i特征词汇不为群体特征词汇。
由于在上述方案中,在确定某特征词汇是否为群体特征词汇时,综合考了该特征词汇的传播跳数与共现跳数,而不同的用户群体所包含的用户数量具有较大的差异,从而特征词汇的传播跳数也存在较大差异,故而通过上述所确定的群体特征词汇更加准确,更加满足特定用户群体的使用需求。例如:在用户群体的人数较少的情况下,特征词汇的传播跳数也较小,在这种情况下,较小的共现跳数就能够确定该特征词汇为群体特征词汇;而在用户群体的人数较多的情况下,特征词汇的传播跳数也较多,在这种情况下,较大的共现跳数才能够确定该特征词汇为群体特征词汇。
第二种,判断特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇,具体包括:
判断特征词汇中任一特征词汇的共现跳数是否大于预设阈值,在大于预设阈值时,则确定其为群体特征词汇。
该预设阈值可以为任意值,比如10、15等等,本发明实施例不作限制,由于在上述方案中,仅仅需要考虑特征词汇的共现跳数,故而具有提高电子设备的处理速度的技术效果。
作为进一步的优选实施例,在判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇之前,请参考图4,方法还包括:
步骤S401:依次取i为1至N的整数,确定N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,第i传播跳数具体为:第i个特征词汇从第一次出现到传输至电子设备所经过的节点数量,第i共现跳数具体为:第i个特征词汇在传播过程中,将第i个特征词汇作为特征词汇的节点数量;
步骤S402:判断第i传播跳数减去第i共现跳数的差值是否大于第三预设阈值;
步骤S403a:在差值大于第三预设阈值时,将第i个特征词汇从N个特征词汇中去除,进而在i等于N时,获得用户的L个特征词汇,L为小于等于N的正整数;
步骤S403b:在差值小于第三预设阈值时,则将第i个特征词汇保留。
进而步骤S102中,判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇,具体为:
逐一判断L个特征词汇中的任一特征词汇是否为群体特征词汇。
步骤S401中,对于确定确定第i特征词汇的第i传播跳数和第i共现跳数,在前面已作介绍,故而在此不再赘述。
步骤S402中,还是以第i传播跳数为6、第i共现跳数为3为例,那么所确定的差值为3,第三预设阈值可以为任意值,例如:10、20等等,通常情况下为用户根据经验或者需求设置;
步骤S403a中,通常在第i传播跳数大于第i共现跳数时,则说明第i特征词汇仅仅为该特定用户群体中少数用户的特征词汇,而并非大部分用户的常用词汇,故而其并不会成为该特定用户群体的常用特征词汇,故而可以将第i个特征词汇从N个特征词汇中去除,从而获得L特特征词汇。
进而,在后续判断N个特征词汇是否为群体特征词汇时,由于前面已经筛选掉部分特征词汇,故而一来可以降低特征词汇在多个节点之间的传播负担,二来,只需要从L个特征词汇中确定出群体特征词汇,也提高了处理效率。
在具体实施过程中,步骤S103中可以通过多种方式对用户的用户词典进行更新,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于以下两种情况。
第一种,通过M个群体特征词汇对电子设备的用户词典进行更新,请参考图5,具体包括:
步骤S501:取j为1至M的整数,确定M个群体特征词汇中的第j个特征词汇的源节点与电子设备的第j距离值;
步骤S502:判断第j距离值是否小于预设距离值;
步骤S503a:在第j距离值小于预设距离值时,将第j个特征词汇加入用户词典;
步骤S503b:否则,不将第j个特征词汇加入用户词典。
步骤S501中,对每个特征词汇可以根据其属性计算其源节点与当前电子设备之间的距离值,其计算方法例如为:特征词汇的词汇w与其属性可以形成一个向量,这样每一个特征词汇W都是一个向量,向量中的每一维都有自己的权重,这些权重事先设定,默认都为1(当然也可以为其它值,本发明实施例不作限制),节点的所有特征词汇集合H是一个向量集合,不同节点的距离用其特征词汇的集合之间的距离计算。两个向量集合的距离的计算方法:分别计算两个向量集合的中心点,然后用计算两个中心点的距离,计算中心点的距离的方法例如为:欧式距离、马氏距离、余弦距离等。
另外,在具体实施过程中,特征词汇W用向量表示只是一种形式,也可以用集合或图的方式来表示,本发明实施例不作限制。
步骤S502中,预设距离值可以为任意值,通常为经验值,与第i特征词汇所在源节点的用户群体的用户数量呈正相关,可以由用户预先设定。
步骤S503a中,由于第j距离值大于预设距离值,通常表明第i特征词汇已经传播至与其源节点不同的另一用户群体,例如:第i特征词汇的源节点所在的用户群体为从事法律行业的用户群体,而当前电子设备所在用户群体为从事IT行业的用户的群体,通常这两个行业的用户所需要的特征词汇并不相同而如果第j距离值小于预设距离值的话,则表明第i特征词汇的源节点与当前电子设备位于相同的特定用户群体,故而将其加入用户的用户词典。
步骤S503b中,由于第i特征词汇已经传输至于其源节点不同的另一用户群体,则不需要将其加入电子设备的用户词典,
由于在上述方案中,能够筛选掉属于另一特定用户群体的用户的特征词汇,一方面能够降低当前电子设备的存储负担,另一方面,由于减少了干扰词汇的数量,故而所确定的用户词典更方便用户进入输入操作。
第二种,通过M个群体特征词汇对电子设备的用户词典进行更新,具体为:
将M个群体特征词汇加入用户的用户词典。
具体来讲,也就是只要确定第i共现跳数除以第i传播跳数的商值大于第一预设阈值,则将其加入用户的特征词汇,由于在上述方案中,不需要再对M个群体特征进行筛选操作,故而降低了电子设备的处理负担。
作为进一步的优选实施例,在从N个特征词汇中确定出M个群体特征词汇之后,方法还包括:
将M个群体特征词汇发送至电子设备的邻居节点,M个群体特征词汇用于对邻居节点的用户词典进行更新。
通常情况下,为了提高传输速率,这M个群体特征词汇通过点对点方式发送至电子设备的邻居节点,由于群体特征词汇通常为电子设备所在用户的特定用户群体中至少两个用户的特征词汇,说明群体特征词汇为该特定用户群体的常用词汇,故而将其发送至邻居节点,并用于对邻居节点的用户词典进行更新的话,首先提高了群体特征词汇的更新速率,其次及时对邻居节点的用户词典进行更新,从而也提高了用户的输入效率。
第二方面,基于同一发明构思,本发明实施例提供一种电子设备,请参考图6,具体包括:
获得模块60,用于获得电子设备的用户的N个特征词汇,N为正整数;
第一判断模块61,用于判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇,进而从N个特征词汇中确定出M个群体特征词汇,其中,群体特征词汇为特定用户群体中的至少两个用户的特征词汇,M为小于等于N的正整数;
更新模块62,用于通过M个群体特征词汇对电子设备的用户词典进行更新。
可选的,第一判断模块61,具体包括:
第一确定单元,用于依次取i为1至N的整数,确定N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,第i传播跳数具体为:第i个特征词汇从第一次出现到传输至电子设备所经过的节点数量,第i共现跳数具体为:在第i个特征词汇的传播过程中,将第i个特征词汇作为特征词汇的节点数量;
第一判断单元,用于判断第i共现跳数除以第i传播跳数的商值是否大于第一预设阈值;
第二确定单元,用于在商值大于第一预设阈值时,则确定第i个特征词汇为群体特征词汇。
可选的,获得模块60,具体用于:
获得电子设备的用户使用频率超过第二预设阈值的词汇作为N个特征词汇;或
接收另一电子设备发送至N个特征词汇;或
获得电子设备的用户的使用频率超过第二预设阈值的N1个词汇,以及接收另一电子设备的发送至的N2个特征词汇,N1个词汇与N2个特征词汇组成N个特征词汇。
可选的,电子设备还包括:
确定模块,用于在判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇之前,依次取i为1至N的整数,确定N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,第i传播跳数具体为:第i个特征词汇从第一次出现到传输至电子设备所经过的节点数量,第i共现跳数具体为:第i个特征词汇在传播过程中,将第i个特征词汇作为特征词汇的节点数量;
第二判断模块,用于判断第i传播跳数减去第i共现跳数的差值是否大于第三预设阈值;
筛选模块,用于在差值大于第三预设阈值时,将第i个特征词汇从N个特征词汇中去除,进而在i等于N时,获得用户的L个特征词汇,L为小于等于N的正整数;
第一判断模块,具体用于:
逐一判断L个特征词汇中的任一特征词汇是否为群体特征词汇。
可选的,更新模块62,具体包括:
第三确定单元,用于取j为1至M的整数,确定M个群体特征词汇中的第j个特征词汇的源节点与电子设备的第j距离值;
第二判断单元,用于判断第j距离值是否小于预设距离值;
更新单元,用于在第j距离值小于预设距离值时,将第j个特征词汇加入用户词典;否则,不将第j个特征词汇加入用户词典。
可选的,电子设备还包括:
发送模块,用于在从N个特征词汇中确定出M个群体特征词汇之后,将M个群体特征词汇发送至电子设备的邻居节点,M个群体特征词汇用于对邻居节点的用户词典进行更新。
本发明的一个或多个实施例,至少具有以下有益效果:
由于在本申请实施例中,首先获得电子设备的用户的N个特征词汇,然后从这N个特征词汇中确定出用户所在特定用户群体的M个群体特征词汇,而群体特征词汇为用户所在特定用户群体中至少两个用户的特征词汇,然后通过这M个特征词汇对电子设备的用户词典进行更新,由于直接在本地获得用户所在特定用户群体的群体特征词汇,而不需要通过服务器收集整理,故而达到了提高对特定用户群体的群体特征词汇的更新速度的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的嵌入式控制器以产生一个机器,使得通过计算机或其他可编程数据处理设备的嵌入式控制器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
具体来讲,本申请实施例中的信息处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与信息处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
获得电子设备的用户的N个特征词汇,N为正整数;
判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇,进而从N个特征词汇中确定出M个群体特征词汇,其中,群体特征词汇为特定用户群体中的至少两个用户的特征词汇,M为小于等于N的正整数;
通过M个群体特征词汇对电子设备的用户词典进行更新。
可选的,存储介质中存储的与步骤判断特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇对应的计算机指令,在被执行过程中包括以下步骤:
依次取i为1至N的整数,确定N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,第i传播跳数具体为:第i个特征词汇从第一次出现到传输至电子设备所经过的节点数量,第i共现跳数具体为:在第i个特征词汇的传播过程中,将第i个特征词汇作为特征词汇的节点数量;
判断第i共现跳数除以第i传播跳数的商值是否大于第一预设阈值;
在商值大于第一预设阈值时,则确定第i个特征词汇为群体特征词汇。
可选的,存储介质中存储的与步骤获得电子设备的用户的N个特征词汇对应的计算机指令,在被执行过程中包括以下步骤:
获得电子设备的用户使用频率超过第二预设阈值的词汇作为N个特征词汇;或
接收另一电子设备发送至N个特征词汇;或
获得电子设备的用户的使用频率超过第二预设阈值的N1个词汇,以及接收另一电子设备的发送至的N2个特征词汇,N1个词汇与N2个特征词汇组成N个特征词汇。
可选的,存储介质中还存储有另外一些计算机指令,这些计算机指令在步骤在判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇之前被执行,在被执行过程中包括以下步骤:
依次取i为1至N的整数,确定N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,第i传播跳数具体为:第i个特征词汇从第一次出现到传输至电子设备所经过的节点数量,第i共现跳数具体为:第i个特征词汇在传播过程中,将第i个特征词汇作为特征词汇的节点数量;
判断第i传播跳数减去第i共现跳数的差值是否大于第三预设阈值;
在差值大于第三预设阈值时,将第i个特征词汇从N个特征词汇中去除,进而在i等于N时,获得用户的L个特征词汇,L为小于等于N的正整数;
存储介质中存储的与步骤判断N个特征词汇中的任一特征词汇是否为用户所在特定用户群体的群体特征词汇对应的计算机指令在被执行过程中,包括以下步骤:
逐一判断L个特征词汇中的任一特征词汇是否为群体特征词汇。
可选的,存储介质中存储的与步骤通过M个群体特征词汇对电子设备的用户词典进行更新对应的计算机指令,在被执行过程中包括以下步骤:
取j为1至M的整数,确定M个群体特征词汇中的第j个特征词汇的源节点与电子设备的第j距离值;
判断第j距离值是否小于预设距离值;
在第j距离值小于预设距离值时,将第j个特征词汇加入用户词典;否则,不将第j个特征词汇加入用户词典。
可选的,存储介质中还存有有另外一些计算机指令,这些计算机指令从N个特征词汇中确定出M个群体特征词汇之后被执行,在被执行过程中,包括以下步骤:
将M个群体特征词汇发送至电子设备的邻居节点,M个群体特征词汇用于对邻居节点的用户词典进行更新。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种信息处理方法,应用于电子设备中,其特征在于,包括:
获得所述电子设备的用户的N个特征词汇,N为正整数;
判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇,进而从所述N个特征词汇中确定出M个群体特征词汇,其中,所述群体特征词汇为所述特定用户群体中的至少两个用户的特征词汇,M为小于等于N的正整数;
通过所述M个群体特征词汇对所述电子设备的用户词典进行更新。
2.如权利要求1所述的方法,其特征在于,所述判断所述特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇,具体包括:
依次取i为1至N的整数,确定所述N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,所述第i传播跳数具体为:所述第i个特征词汇从第一次出现到传输至所述电子设备所经过的节点数量,所述第i共现跳数具体为:在所述第i个特征词汇的传播过程中,将所述第i个特征词汇作为特征词汇的节点数量;
判断所述第i共现跳数除以所述第i传播跳数的商值是否大于第一预设阈值;
在所述商值大于所述第一预设阈值时,则确定所述第i个特征词汇为所述群体特征词汇。
3.如权利要求1所述的方法,其特征在于,所述获得所述电子设备的用户的N个特征词汇,具体为:
获得所述电子设备的用户使用频率超过第二预设阈值的词汇作为所述N个特征词汇;或
接收另一电子设备发送至所述N个特征词汇;或
获得所述电子设备的用户的使用频率超过第二预设阈值的N1个词汇,以及接收另一电子设备的发送至的N2个特征词汇,所述N1个词汇与所述N2个特征词汇组成所述N个特征词汇。
4.如权利要求1所述的方法,其特征在于,在所述判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇之前,所述方法还包括:
依次取i为1至N的整数,确定所述N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,所述第i传播跳数具体为:所述第i个特征词汇从第一次出现到传输至所述电子设备所经过的节点数量,所述第i共现跳数具体为:所述第i个特征词汇在传播过程中,将所述第i个特征词汇作为特征词汇的节点数量;
判断所述第i传播跳数减去第i共现跳数的差值是否大于第三预设阈值;
在所述差值大于所述第三预设阈值时,将所述第i个特征词汇从所述N个特征词汇中去除,进而在i等于N时,获得所述用户的L个特征词汇,L为小于等于N的正整数;
所述判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇,具体为:
逐一判断所述L个特征词汇中的任一特征词汇是否为所述群体特征词汇。
5.如权利要求1-4任一所述的方法,其特征在于,所述通过所述M个群体特征词汇对所述电子设备的用户词典进行更新,具体为:
取j为1至M的整数,确定所述M个群体特征词汇中的第j个特征词汇的源节点与所述电子设备的第j距离值;
判断所述第j距离值是否小于预设距离值;
在所述第j距离值小于所述预设距离值时,将所述第j个特征词汇加入所述用户词典;否则,不将所述第j个特征词汇加入所述用户词典。
6.如权利要求1-4任一所述的方法,其特征在于,在所述从所述N个特征词汇中确定出M个群体特征词汇之后,所述方法还包括:
将所述M个群体特征词汇发送至所述电子设备的邻居节点,所述M个群体特征词汇用于对所述邻居节点的所述用户词典进行更新。
7.一种电子设备,其特征在于,包括:
获得模块,用于获得所述电子设备的用户的N个特征词汇,N为正整数;
第一判断模块,用于判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇,进而从所述N个特征词汇中确定出M个群体特征词汇,其中,所述群体特征词汇为所述特定用户群体中的至少两个用户的特征词汇,M为小于等于N的正整数;
更新模块,用于通过所述M个群体特征词汇对所述电子设备的用户词典进行更新。
8.如权利要求7所述的电子设备,其特征在于,所述第一判断模块,具体包括:
第一确定单元,用于依次取i为1至N的整数,确定所述N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,所述第i传播跳数具体为:所述第i个特征词汇从第一次出现到传输至所述电子设备所经过的节点数量,所述第i共现跳数具体为:在所述第i个特征词汇的传播过程中,将所述第i个特征词汇作为特征词汇的节点数量;
第一判断单元,用于判断所述第i共现跳数除以所述第i传播跳数的商值是否大于第一预设阈值;
第二确定单元,用于在所述商值大于所述第一预设阈值时,则确定所述第i个特征词汇为所述群体特征词汇。
9.如权利要求7所述的电子设备,其特征在于,所述获得模块,具体用于:
获得所述电子设备的用户使用频率超过第二预设阈值的词汇作为所述N个特征词汇;或
接收另一电子设备发送至所述N个特征词汇;或
获得所述电子设备的用户的使用频率超过第二预设阈值的N1个词汇,以及接收另一电子设备的发送至的N2个特征词汇,所述N1个词汇与所述N2个特征词汇组成所述N个特征词汇。
10.如权利要求7所述的电子设备,其特征在于,所述电子设备还包括:
确定模块,用于在判断所述N个特征词汇中的任一特征词汇是否为所述用户所在特定用户群体的群体特征词汇之前,依次取i为1至N的整数,确定所述N个特征词汇中第i个特征词汇的第i传播跳数和第i共现跳数,所述第i传播跳数具体为:所述第i个特征词汇从第一次出现到传输至所述电子设备所经过的节点数量,所述第i共现跳数具体为:所述第i个特征词汇在传播过程中,将所述第i个特征词汇作为特征词汇的节点数量;
第二判断模块,用于判断所述第i传播跳数减去第i共现跳数的差值是否大于第三预设阈值;
筛选模块,用于在所述差值大于所述第三预设阈值时,将所述第i个特征词汇从所述N个特征词汇中去除,进而在i等于N时,获得所述用户的L个特征词汇,L为小于等于N的正整数;
所述第一判断模块,具体用于:
逐一判断所述L个特征词汇中的任一特征词汇是否为所述群体特征词汇。
11.如权利要求7-10任一所述的电子设备,其特征在于,所述更新模块,具体包括:
第三确定单元,用于取j为1至M的整数,确定所述M个群体特征词汇中的第j个特征词汇的源节点与所述电子设备的第j距离值;
第二判断单元,用于判断所述第j距离值是否小于预设距离值;
更新单元,用于在所述第j距离值小于所述预设距离值时,将所述第j个特征词汇加入所述用户词典;否则,不将所述第j个特征词汇加入所述用户词典。
12.如权利要求7-10任一所述的电子设备,其特征在于,所述电子设备还包括:
发送模块,用于在从所述N个特征词汇中确定出M个群体特征词汇之后,将所述M个群体特征词汇发送至所述电子设备的邻居节点,所述M个群体特征词汇用于对所述邻居节点的所述用户词典进行更新。
CN201410299742.9A 2014-06-26 2014-06-26 一种信息处理方法及电子设备 Active CN105446977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410299742.9A CN105446977B (zh) 2014-06-26 2014-06-26 一种信息处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410299742.9A CN105446977B (zh) 2014-06-26 2014-06-26 一种信息处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN105446977A true CN105446977A (zh) 2016-03-30
CN105446977B CN105446977B (zh) 2019-03-29

Family

ID=55557185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410299742.9A Active CN105446977B (zh) 2014-06-26 2014-06-26 一种信息处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN105446977B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052568A (zh) * 2017-12-07 2018-05-18 百度在线网络技术(北京)有限公司 一种特征筛选方法、装置、终端和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101943991A (zh) * 2010-07-23 2011-01-12 百度在线网络技术(北京)有限公司 一种基于云计算的输入方法与设备
US20110099133A1 (en) * 2009-10-28 2011-04-28 Industrial Technology Research Institute Systems and methods for capturing and managing collective social intelligence information
CN102083043A (zh) * 2009-11-27 2011-06-01 ***通信集团山东有限公司 确定向用户提供的资费优惠方案的方法及相关装置
CN102843476A (zh) * 2012-09-12 2012-12-26 惠州Tcl移动通信有限公司 一种移动终端及其输入法管理方法
CN103078913A (zh) * 2012-12-27 2013-05-01 北京百度网讯科技有限公司 输入法应用程序的词库更新方法和***
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
JP2013533996A (ja) * 2010-05-31 2013-08-29 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 英文と別の文字の混在入力に用いられる方法と装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110099133A1 (en) * 2009-10-28 2011-04-28 Industrial Technology Research Institute Systems and methods for capturing and managing collective social intelligence information
CN102083043A (zh) * 2009-11-27 2011-06-01 ***通信集团山东有限公司 确定向用户提供的资费优惠方案的方法及相关装置
JP2013533996A (ja) * 2010-05-31 2013-08-29 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 英文と別の文字の混在入力に用いられる方法と装置
CN101943991A (zh) * 2010-07-23 2011-01-12 百度在线网络技术(北京)有限公司 一种基于云计算的输入方法与设备
CN102843476A (zh) * 2012-09-12 2012-12-26 惠州Tcl移动通信有限公司 一种移动终端及其输入法管理方法
CN103078913A (zh) * 2012-12-27 2013-05-01 北京百度网讯科技有限公司 输入法应用程序的词库更新方法和***
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052568A (zh) * 2017-12-07 2018-05-18 百度在线网络技术(北京)有限公司 一种特征筛选方法、装置、终端和介质

Also Published As

Publication number Publication date
CN105446977B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN108664812A (zh) 信息脱敏方法、装置及***
CN111158693B (zh) 数据的增量并行处理
JP2020074193A (ja) サーチ方法、装置、設備および不揮発性計算機メモリ
CN104267874A (zh) 一种调整终端上应用图标布局的方法及终端
CN110874396B (zh) 一种关键词抽取方法、装置以及计算机存储介质
CN112434188B (zh) 一种异构数据库的数据集成方法、装置及存储介质
CN108932320B (zh) 文章搜索方法、装置及电子设备
CN111723298A (zh) 基于改进标签传播的社交网络社团发现方法、装置及介质
WO2020248365A1 (zh) 智能分配模型训练内存方法、装置及计算机可读存储介质
CN104616173B (zh) 预测用户流失的方法以及设备
CN103309893A (zh) 一种字符串的比较方法及装置
CN103577547B (zh) 网页类型识别方法及装置
CN110058861A (zh) 源码处理方法及装置、存储介质、电子设备
CN104834759A (zh) 电子设计的实现方法和装置
KR102002732B1 (ko) 앙상블 모델을 이용한 심층 신경망 기반 데이터 처리 방법 및 장치
CN102804174B (zh) 顺序布局构建器体系结构
CN103455938A (zh) 一种数据处理方法、装置及服务器设备
WO2017200586A1 (en) Prioritizing topics of interest determined from product evaluations
CN105446977A (zh) 一种信息处理方法及电子设备
JP2017507411A (ja) 動的言語でのインラインキャッシュのためのハードウェアアクセラレーション
KR20190030435A (ko) 자연어 처리를 이용한 지정상품 추천 방법, 장치 및 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
EP3374860B1 (en) Communicating information about an update of an application
CN114185902A (zh) 模型训练方法、装置及计算机存储介质
CN114676272A (zh) 多媒体资源的信息处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant