CN110286775A - 一种词库管理方法及装置 - Google Patents
一种词库管理方法及装置 Download PDFInfo
- Publication number
- CN110286775A CN110286775A CN201810226154.0A CN201810226154A CN110286775A CN 110286775 A CN110286775 A CN 110286775A CN 201810226154 A CN201810226154 A CN 201810226154A CN 110286775 A CN110286775 A CN 110286775A
- Authority
- CN
- China
- Prior art keywords
- word
- hot word
- hot
- associational
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 25
- 238000005065 mining Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 238000000034 method Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 241000209140 Triticum Species 0.000 description 5
- 235000021307 Triticum Nutrition 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000012092 media component Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种词库管理方法,包括:基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。本发明实现了方便快捷地对热词及相关联想词进行收集和整理,效率较高,且不易造成疏漏的技术效果。同时,本发明还公开了一种词库管理装置。
Description
技术领域
本发明涉及输入法技术领域,尤其涉及一种词库管理方法及装置。
背景技术
输入法是指为将各种符号输入计算机或其他设备(如手机)而采用的编码方法,是文字生产力发展到一定阶段的产物。现如今,人们在使用手机或平板电脑等终端设备时,经常会用到输入法,输入法的应用大大提高了用户输入文字的速度。
目前,对于一些热点事件相关的输入,通常是需要通过人工方式收集并整理出热词及相关联想词,并下发到输入法客户端中。但是,这种人工的方式非常不方便,效率很低,也容易造成疏漏。
发明内容
本申请实施例通过提供一种词库管理方法及装置,解决了现有技术中需要人工方式获得热词及相关联想词,效率较低,且容易造成疏漏的技术问题,实现了方便快捷地对热词及相关联想词进行收集和整理,效率较高,且不易造成疏漏的技术效果。
第一方面,本申请通过本申请的一实施例提供如下技术方案:
一种词库管理方法,包括:
基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;
将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。
优选地,所述基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词,包括:
基于第一用户已输入的内容,进行热词挖掘,获得至少一个热词;
基于所述热词,挖掘出与所述热词相关的联想词。
优选地,所述基于第一用户已输入的内容,进行热词挖掘,获得至少一个热词,包括:
统计全网用户或预设群体用户的第一输入操作,获得所述全网用户输入的第一词汇、以及每个第一词汇对应的第一输入频率,将第一输入频率大于等于第一预设频率的第一词汇作为所述热词。
优选地,所述基于所述热词,挖掘出与所述热词相关的联想词,包括:
统计全网用户或预设群体用户在所述热词之后输入的第二词汇,以及每个第二词汇对应的第二输入频率,将第二输入频率大于等于第二预设频率的第二词汇作为所述热词相关的联想词;或
将所述热词作为搜索关键词,利用搜索引擎进行搜索,获得与所述热词对应的热点事件相关的文章,在所述文章的文章标题或文章正文中确定出所述热词相关的联想词。
优选地,所述将所述热词、以及所述联想词添加到预设词库中之后,还包括:
判断所述热词是否在有效期内;
若否,则对所述热词、以及所述联想词进行失效处理。
优选地,所述判断所述热词是否在有效期内,包括:
获取全网用户或预设群体用户近期输入所述热词的第三输入频率;
判断所述第三输入频率是否大于等于第三预设频率;
若是,则所述热词在所述有效期内;
否则,所述热词不在所述有效期内。
优选地,所述对所述热词、以及所述联想词进行失效处理,包括:
将所述热词、以及所述联想词从所述预设词库中删除。
第二方面,本申请通过本申请的一实施例,提供如下技术方案:
一种词库管理装置,包括:
获得单元,用于基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;
添加单元,用于将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词输出。
优选地,所述获得单元,包括:
第一挖掘子单元,用于基于第一用户已输入的内容,进行热词挖掘,获得至少一个热词;
第二挖掘子单元,用于基于所述热词,挖掘出与所述热词相关的联想词。
优选地,所述第一子挖掘单元,具体用于:
统计全网用户或预设群体用户输入的第一词汇、以及每个第一词汇对应的第一输入频率,将第一输入频率大于等于第一预设频率的第一词汇作为所述热词。
优选地,所述第二挖掘子单元,具体用于:
统计全网用户或预设群体用户在所述热词之后输入的第二词汇,以及每个第二词汇对应的第二输入频率,将第二输入频率大于等于第二预设频率的第二词汇作为所述热词相关的联想词;或
将所述热词作为搜索关键词,利用搜索引擎进行搜索,获得与所述热词对应的热点事件相关的文章,在所述文章的文章标题或文章正文中确定出所述热词相关的联想词。
优选地,所述的词库管理装置,还包括:
判断单元,用于所述将所述热词、以及所述联想词添加到预设词库中之后,判断所述热词是否在有效期内;
失效单元,用于若否,则对所述热词、以及所述联想词进行失效处理。
优选地,所述判断单元,具体用于:
获取全网用户或预设群体用户近期输入所述热词的第三输入频率;判断所述第三输入频率是否大于等于第三预设频率;若是,则所述热词在所述有效期内;否则,所述热词不在所述有效期内。
优选地,所述失效单元,具体用于:
将所述热词、以及所述联想词从所述预设词库中删除。
第三方面,本申请通过本申请的一实施例,提供如下技术方案:
一种词库管理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词输出。
第四方面,本申请通过本申请的一实施例,提供如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在本发明实施例中,公开了一种词库管理方法,包括:基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。由于基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词,故而无需通过人工方式编辑热词及相关联想词,更加方便快捷,所以,有效解决了现有技术中需要人工方式获得热词及相关联想词,效率较低,且容易造成疏漏的技术问题,实现了方便快捷地对热词及相关联想词进行收集和整理,效率较高,且不易造成疏漏的技术效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种库管理方法的流程图;
图2为本发明实施例中一种库管理装置的结构示意图;
图3为本发明实施例中一种库管理装置的结构示意图;
图4是本发明实施例中一种词库管理装置作为服务器时的结构示意图。
具体实施方式
本申请实施例通过提供一种词库管理方法及装置,解决了现有技术中需要人工方式获得热词及相关联想词,效率较低,且容易造成疏漏的技术问题,实现了方便快捷地对热词及相关联想词进行收集和整理,效率较高,且不易造成疏漏的技术效果。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种词库管理方法,包括:基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词输出。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
如图1所示,本实施例提供了一种词库管理方法,包括:
步骤S101:基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词。
在具体实施过程中,所谓“热词”是指热度高的词,也就是近期用户使用比较频繁的词汇,反映在输入法客户端侧,热词则是用户输入频率高的词汇。热词的产生往往与近期(例如:最近12小时、或最近24小时、或最近48小时、或最近72小时、或最近一周、等等)的热点事件有关,由于某一热点事件的突发,导致用户(例如:全网用户)对热点事件的关注度急剧上升,进而导致用户近期输入与该热点事件相关的词汇(即:热词)的频率暴增。
作为一种可选的实施例,步骤S101,包括:
基于第一用户已输入的内容,进行热词挖掘,获得至少一个热词;基于所述热词,挖掘出与所述热词相关的联想词。
在具体实施过程中,可以基于第一用户已输入的内容来挖掘热词,其中,第一用户可以是使用上述输入法客户端的多个用户(例如:预设群体用户或者全网用户),此处,第一用户的数量越多越好,本实施例不做具体限定。
其中,“全网用户”可以是:使用上述输入法客户端的大量用户,用户数量越多越好,优选地,是使用该输入法客户端的全部用户。
其中,所述“预设群体用户”是指:具有某共同特征的预设群体用户,例如,同一个城市的用户,或者同一个年龄段的用户,或者具有相同使用习惯的用户,或者具有相同爱好的用户,等等。
作为一种可选的实施例,所述基于第一用户已输入的内容,进行热词挖掘,获得至少一个热词,包括:
统计全网用户(或预设群体用户)输入的第一词汇、以及每个第一词汇对应的第一输入频率,将第一输入频率大于第一预设频率的第一词汇作为热词。
在具体实施过程中,对于全网用户(或预设群体用户)中每个用户所使用的输入法客户端,可以将对应用户近期(例如:最近12小时、或最近24小时、或最近48小时、或最近72小时、或最近一周、等等)的输入操作(即:第二输入操作)信息上传至服务器,由服务器基于每个用户的输入操作,确定每个用户近期所输入的词汇;或者,输入法客户端直接将每个用户近期输入的每个词汇上传至服务器。进一步,由服务器统计出全网用户近期输入的每个词汇的频率(即:第二输入频率),并将输入频率大于第一预设频率的词汇确定为热词。
举例来讲,“麦当劳改名金拱门”事件是近期的热点事件,网民对该事件的关注度很高,经常会输入该事件的相关信息,此时,服务器统计出全网用户近期输入“麦当劳”的频率显著升高,以往全网用户输入“麦当劳”的频率不足50万次/天,而近期全网用户输入“麦当劳”高于500万次/天。此处,可以设置第一预设频率为100万次/天,服务器统计出全网用户近期输入“麦当劳”的频率(例如:500万次/天),发现其大于第一预设频率(100万次/天),所以可以确定“麦当劳”为近期的热词。
在具体实施过程中,第一预设频率可以根据实际情况灵活设置,此处不做具体限定。
在具体实施过程中,服务器可以统计出每个词汇在一预设时间段(例如:半年或一年)内被全网用户的平均输入频率,该平均频率可以反映出每个词汇在“正常时期”时用户对其的关注程度。进一步,可以将第一预设频率设置为每个词汇的平均输入频率的W倍(例如:1.5倍、或2倍、或3倍、等等)(W为正是),若某一词汇近期被全网用户输入的输入频率大于第一预设频率,这极有可能是由于某一热点事件引起的,此时该词汇处于“热点时期”,则可以确定该词汇为近期的热词。具体实施过程中,服务器在基于全网用户(或预设群体用户)已输入的内容挖掘出热词之后,即可进一步挖掘出该热词相关的联想词。
作为一种可选的实施例,所述基于所述热词,挖掘出与所述热词相关的联想词,包括:
统计全网用户(或预设群体用户)在热词之后输入的第二词汇,以及每个第二词汇对应的第二输入频率,将第二输入频率大于等于第二预设频率的第二词汇作为热词相关的联想词;或
将热词作为搜索关键词,利用搜索引擎进行搜索,获得与热词对应的热点事件相关的文章,在文章的文章标题或文章正文中确定出热词相关的联想词。
在具体实施过程中,服务器可以对全网用户(或预设群体用户)的输入行为进行统计,获取用户在输入完热词后,紧接着又输入的词汇(即:第二词汇),并获取该词汇的输入频率,若该词汇的输入频率(即:第二输入频率)大于第二预设频率,则可以确定该词汇为热词相关的联想词。其中,所述联想词包含二元联想词、三元联想词、等等。
举例来讲,以“麦当劳改名金拱门”事件为例,在该事件成为近期的热点事件后,用户在输入完“麦当老”之后紧接着输入“改名”的概率明显升高,以往全网用户输入“改名”的频率不足50万次/天,而近期全网用户输入“改名”高于500万次/天。此处,可以设置第二预设频率为100万次/天,服务器获取全网用户近期输入“改名”的频率(例如:为500万次/天),大于第二预设频率(100万次/天),则可以确定“改名”是“麦当劳”的联想词。类似地,还可以进一步分析挖掘出“金拱门”也是“麦当劳”的联想词。
其中,“二元联想词”指的是用户输入过程中连续输入的两个词,如:“麦当劳#改名”;在后续进行“二元联想”时,在用户输入“麦当劳”的时候,输入法客户端可以根据上述二元联想词信息“麦当劳#改名”自动联想出“改名”这个词。
其中,“三元联想词”指的是用户输入过程中连续输入的三个词,如:“麦当劳#改名#金拱门”;在后续进行“三元联想”时,在用户输入“麦当劳”+“改名”两个词之后,输入法客户端可以根据上述三元联想词信息“麦当劳#改名#金拱门”自动联想出“金拱门”这个词。
在具体实施过程中,第二预设频率可以与第一预设频率相同,当然也可以不同。
在具体实施过程中,还可以将挖掘出的热词作为搜索关键词,利用搜索引擎(例如:“搜狗”搜索、或“百度”搜索、或“Google”搜索、等等)在网络上进行搜索,搜索出该热词对应的热点事件的相关文章,并在文章标题或文章正文中进一步挖掘出与该热词相关的联想词。
举例来讲,在挖掘出“麦当劳”是近期的热词之后,则可以将“麦当劳”作为搜索关键词,在网络上进行搜索,并按照搜索结果的点击率由高到低的顺序,对搜索结果进行排序,获取排序靠前的N个搜索结果,N为正整数。再分别访问所述N个搜索结果各自对应的网页,若页面内容为文章,则根据文章标题或文章正文,将热词“麦当劳”附近的词汇(例如:后面的第1个词汇“改名”、或后面的第2个词汇“金拱门”)作为“麦当劳”的联想词。
步骤S102:将热词、以及联想词添加到预设词库中,以使得在第二用户输入热词时,能够从预设词库中提取联想词,并将联想词作为热词的候选词。
在具体实施过程中,服务器在挖掘到热词、以及该热词相关的联想词之后,则将该热词与该联想词添加到一预设词库中,该预设词库可以是云词库。此后,服务器可以将该预设词库下发到全网用户中每个用户所使用的输入法客户端中。这样,在全网用户中的任一用户使用输入法客户端输入热词之后,输入法客户端则可以在该预设词库中提取出热词相关的联想词,并在输入法界面的候选区域中输出该联想词,该联想词即为热词的候选词。
举例来讲,在某一用户输入“麦当劳”之后,输入法客户端从该预设词库中提取“麦当劳”相关的联想词“改名”、“金拱门”,并在输入法界面的候选区域中输出候选词“改名”、“金拱门”。其中,在进行“二元联想”时,在用户输入“麦当劳”的时候,输入法客户端可以根据上述二元联想词信息“麦当劳#改名”自动联想出“改名”这个词;在进行“三元联想”时,在用户输入“麦当劳”+“改名”两个词之后,输入法客户端可以根据上述三元联想词信息“麦当劳#改名#金拱门”自动联想出“金拱门”这个词。这样,用户若想输入“改名”或“金拱门”,则可以直接在候选区域中选中想要的候选词,方便快捷。
在具体实施过程中,服务器可以定期对该预设词库进行更新,获得最新的热词及其联想词,并将最新的预设词库下发到全网用户中每个用户所使用的输入法客户端中。
在本实施例中,由于基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词,故而无需通过人工编辑热词及相关联想词,更加方便快捷。所以有效解决了现有技术中需要人工方式获得热词及相关联想词,效率较低,且容易造成疏漏的技术问题,实现了方便快捷地对热词及相关联想词进行收集和整理,效率较高,且不易造成疏漏的技术效果。
进一步,作为一种可选的实施例,步骤S102之后,还包括:
判断热词是否在有效期内;
若否(即:该热词不在有效期内),则对热词、以及联想词进行失效处理。
在具体实施过程中,在热点事件发生过后,随着时间的推移,用户对热点事件的关注程度也会降低,原来的热点事件也就不再是热点事件,这时,与事件相关的热词也不再是热词,热词及其联想词被输入的频率也会随之下降。因此,可以对每个热词进行监控,判断热词是否在有效期内,若在,则保留该热词(例如:在预设词库中保留该热词及其联想词),若不在,则对热词进行失效处理。在对某一热词进行失效处理后,若用户再次输入该热词,则不再将该热词的联想词作为候选词输出。
作为一种可选的实施例,所述判断热词是否在有效期内,包括:
获取全网用户(或预设群体用户)近期输入热词的第三输入频率;判断第三输入频率是否大于等于第三预设频率;若大于等于,则热词在有效期内;否则,热词不在有效期内。其中,第三预设频率与上文中的第一预设频率可以相同,也可以不同。
在具体实施过程中,服务器可以实时对每个热词的热度进行监控,若发现全网用户(或预设群体用户)对某一热词的输入频率(即:第三输入频率)低于第三预设频率时(例如:回落到“正常时期”的平均输入频率),则确定该热词不在有效期内,则对该热词进行失效处理;若发现该热词的输入频率大于等于第三预设频率,则在预设词库中保留该热词及其联想词。
作为一种可选的实施例,所述对热词、以及联想词进行失效处理,包括:将热词、以及联想词从预设词库中删除。
在具体实施过程中,所谓“失效处理”即是将不在有效期内的热词及其联想词从预设词库中删除,这样可以减少预设词库的大小,保证该预设词库精简实用。并且,由于原先的热词现在已不在是热词,那么预设词库中的该热词的联想词被用户输入的频率也会大大降低,若继续将该联想词作为候选词输出,则会对用户造成干扰,同时也会降低候选词推荐的成功率。此处,将不在有效期内的热词及其联想词从预设词库中删除,可以避免对用户造成不必要的干扰,提高推荐候选词的成功率。
举例来讲,若“麦当劳”已不在有效期内,则表明“麦当劳”已不再是热词,则将“麦当劳”以及其联想词“改名”、“金拱门”从预设词库中删除。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
在本发明实施例中,公开了一种词库管理方法,包括:基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。由于基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词,故而无需通过人工方式编辑热词及相关联想词,更加方便快捷,所以,有效解决了现有技术中需要人工方式获得热词及相关联想词,效率较低,且容易造成疏漏的技术问题,实现了方便快捷地对热词及相关联想词进行收集和整理,效率较高,且不易造成疏漏的技术效果。
实施例二
基于同一发明构思,如图2所示,本实施例提供了一种词库管理装置,包括:
获得单元201,用于基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;
添加单元202,用于将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词输出。
作为一种可选的实施例,获得单元201,包括:
第一挖掘子单元,用于基于第一用户已输入的内容,进行热词挖掘,获得至少一个热词;
第二挖掘子单元,用于基于所述热词,挖掘出与所述热词相关的联想词。
作为一种可选的实施例,第一子挖掘单元,具体用于:
统计全网用户或预设群体用户输入的第一词汇、以及每个第一词汇对应的第一输入频率,将第一输入频率大于等于第一预设频率的第一词汇作为所述热词。
作为一种可选的实施例,第二子挖掘单元,具体用于:
统计全网用户或预设群体用户在所述热词之后输入的第二词汇,以及每个第二词汇对应的第二输入频率,将第二输入频率大于等于第二预设频率的第二词汇作为所述热词相关的联想词;或
将所述热词作为搜索关键词,利用搜索引擎进行搜索,获得与所述热词对应的热点事件相关的文章,在所述文章的文章标题或文章正文中确定出所述热词相关的联想词。
作为一种可选的实施例,所述的词库管理装置,还包括:
判断单元,用于所述将所述热词、以及所述联想词添加到预设词库中之后,判断所述热词是否在有效期内;
失效单元,用于若否,则对所述热词、以及所述联想词进行失效处理。
作为一种可选的实施例,所述判断单元,具体用于:
获取全网用户或预设群体用户近期输入所述热词的第三输入频率;判断所述第三输入频率是否大于等于第三预设频率;若是,则所述热词在所述有效期内;否则,所述热词不在所述有效期内。
作为一种可选的实施例,所述失效单元,具体用于:
将所述热词、以及所述联想词从所述预设词库中删除。
由于本实施例所介绍的词库管理装置为实施本申请实施例中词库管理的方法所采用的装置,故而基于本申请实施例中所介绍的词库管理的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中词库管理的方法所采用的电子设备,都属于本申请所欲保护的范围。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
在本发明实施例中,公开了一种词库管理装置,包括:获得单元,基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;添加单元,用于将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词输出。由于基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词,故而无需通过人工方式编辑热词及相关联想词,更加方便快捷,所以,有效解决了现有技术中需要人工方式获得热词及相关联想词,效率较低,且容易造成疏漏的技术问题,实现了方便快捷地对热词及相关联想词进行收集和整理,效率较高,且不易造成疏漏的技术效果。
关于上述实施例中的词库管理装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种词库管理装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种词库管理方法,所述方法包括:基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词输出。
图4是本发明实施例中词库管理装置作为服务器时的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(centralprocessing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种词库管理方法,其特征在于,包括:
基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;
将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。
2.如权利要求1所述的词库管理方法,其特征在于,所述基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词,包括:
基于第一用户已输入的内容,进行热词挖掘,获得至少一个热词;
基于所述热词,挖掘出与所述热词相关的联想词。
3.如权利要求2所述的词库管理方法,其特征在于,所述基于第一用户已输入的内容,进行热词挖掘,获得至少一个热词,包括:
统计全网用户或预设群体用户输入的第一词汇、以及每个第一词汇对应的第一输入频率,将第一输入频率大于等于第一预设频率的第一词汇作为所述热词。
4.如权利要求2所述的词库管理方法,其特征在于,所述基于所述热词,挖掘出与所述热词相关的联想词,包括:
统计全网用户或预设群体用户在所述热词之后输入的第二词汇,以及每个第二词汇对应的第二输入频率,将第二输入频率大于等于第二预设频率的第二词汇作为所述热词相关的联想词;或
将所述热词作为搜索关键词,利用搜索引擎进行搜索,获得与所述热词对应的热点事件相关的文章,在所述文章的文章标题或文章正文中确定出所述热词相关的联想词。
5.如权利要求1~4任一所述的词库管理方法,其特征在于,所述将所述热词、以及所述联想词添加到预设词库中之后,还包括:
判断所述热词是否在有效期内;
若否,则对所述热词、以及所述联想词进行失效处理。
6.如权利要求5所述的词库管理方法,其特征在于,所述判断所述热词是否在有效期内,包括:
获取全网用户或预设群体用户近期输入所述热词的第三输入频率;
判断所述第三输入频率是否大于等于第三预设频率;
若是,则所述热词在所述有效期内;
否则,所述热词不在所述有效期内。
7.如权利要求5所述的词库管理方法,其特征在于,所述对所述热词、以及所述联想词进行失效处理,包括:
将所述热词、以及所述联想词从所述预设词库中删除。
8.一种词库管理装置,其特征在于,包括:
获得单元,用于基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;
添加单元,用于将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。
9.一种词库管理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
基于第一用户已输入的内容,获得至少一个热词,以及与所述热词相关的联想词;将所述热词、以及所述联想词添加到预设词库中,以使得在第二用户输入所述热词时,能够从所述预设词库中提取所述联想词,并将所述联想词作为所述热词的候选词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810226154.0A CN110286775A (zh) | 2018-03-19 | 2018-03-19 | 一种词库管理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810226154.0A CN110286775A (zh) | 2018-03-19 | 2018-03-19 | 一种词库管理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110286775A true CN110286775A (zh) | 2019-09-27 |
Family
ID=68001141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810226154.0A Pending CN110286775A (zh) | 2018-03-19 | 2018-03-19 | 一种词库管理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110286775A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765239A (zh) * | 2019-10-29 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN113254588A (zh) * | 2021-06-02 | 2021-08-13 | 竹间智能科技(上海)有限公司 | 一种数据搜索方法及*** |
CN113761141A (zh) * | 2020-09-03 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种词条显示方法、装置、电子设备以及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218447A (zh) * | 2013-04-24 | 2013-07-24 | 东莞宇龙通信科技有限公司 | 一种联想输入方法及装置 |
CN103544266A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN103631929A (zh) * | 2013-12-09 | 2014-03-12 | 江苏金智教育信息技术有限公司 | 一种用于搜索的智能提示的方法、模块和*** |
CN103853746A (zh) * | 2012-12-01 | 2014-06-11 | 上海斐讯数据通信技术有限公司 | 词库生成方法及其***、输入法及输入*** |
CN105867649A (zh) * | 2016-03-29 | 2016-08-17 | 维沃移动通信有限公司 | 一种基于设备信息的输入方法和移动终端 |
CN107346182A (zh) * | 2016-05-05 | 2017-11-14 | 北京搜狗科技发展有限公司 | 一种构建用户词库的方法、及用于构建用户词库的装置 |
CN107665217A (zh) * | 2016-07-29 | 2018-02-06 | 苏宁云商集团股份有限公司 | 一种用于搜索业务的词汇处理方法及*** |
-
2018
- 2018-03-19 CN CN201810226154.0A patent/CN110286775A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853746A (zh) * | 2012-12-01 | 2014-06-11 | 上海斐讯数据通信技术有限公司 | 词库生成方法及其***、输入法及输入*** |
CN103218447A (zh) * | 2013-04-24 | 2013-07-24 | 东莞宇龙通信科技有限公司 | 一种联想输入方法及装置 |
CN103544266A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN103631929A (zh) * | 2013-12-09 | 2014-03-12 | 江苏金智教育信息技术有限公司 | 一种用于搜索的智能提示的方法、模块和*** |
CN105867649A (zh) * | 2016-03-29 | 2016-08-17 | 维沃移动通信有限公司 | 一种基于设备信息的输入方法和移动终端 |
CN107346182A (zh) * | 2016-05-05 | 2017-11-14 | 北京搜狗科技发展有限公司 | 一种构建用户词库的方法、及用于构建用户词库的装置 |
CN107665217A (zh) * | 2016-07-29 | 2018-02-06 | 苏宁云商集团股份有限公司 | 一种用于搜索业务的词汇处理方法及*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765239A (zh) * | 2019-10-29 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN110765239B (zh) * | 2019-10-29 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN113761141A (zh) * | 2020-09-03 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种词条显示方法、装置、电子设备以及可读存储介质 |
CN113254588A (zh) * | 2021-06-02 | 2021-08-13 | 竹间智能科技(上海)有限公司 | 一种数据搜索方法及*** |
CN113254588B (zh) * | 2021-06-02 | 2023-08-22 | 竹间智能科技(上海)有限公司 | 一种数据搜索方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6415554B2 (ja) | 迷惑電話番号確定方法、装置及びシステム | |
CN105488112B (zh) | 信息推送方法及装置 | |
CN105099877B (zh) | 即时通信消息处理方法和装置 | |
WO2017114020A1 (zh) | 语音输入方法和终端设备 | |
WO2021027343A1 (zh) | 一种人脸图像识别方法及装置、电子设备和存储介质 | |
CN107291772B (zh) | 一种搜索访问方法、装置及电子设备 | |
CN106484138B (zh) | 一种输入方法及装置 | |
CN112068762A (zh) | 应用程序的界面显示方法、装置、设备及介质 | |
CN110391966B (zh) | 一种消息处理方法、装置和用于消息处理的装置 | |
CN104636164B (zh) | 启动页面生成方法及装置 | |
WO2016154893A1 (zh) | 一种处理与应用关联的新消息的方法和装置 | |
CN108073606A (zh) | 一种新闻推荐方法和装置、一种用于新闻推荐的装置 | |
CN108038102A (zh) | 表情图像的推荐方法、装置、终端及存储介质 | |
CN107967271A (zh) | 一种信息搜索方法及装置 | |
CN104735243A (zh) | 联系人列表显示方法及装置 | |
CN108874939A (zh) | 一种信息搜索方法及装置 | |
CN110286775A (zh) | 一种词库管理方法及装置 | |
CN109213942A (zh) | 一种搜索结果展示方法及装置 | |
CN109634913A (zh) | 文档的存储方法、装置及电子设备 | |
US8260268B2 (en) | Method for transmitting and receiving data in mobile terminal and mobile terminal using the same | |
CN105302335B (zh) | 词汇推荐方法和装置及计算机可读存储介质 | |
CN110019885A (zh) | 一种表情数据推荐方法及装置 | |
CN105187597B (zh) | 一种语音记录的管理方法、装置及其移动终端 | |
CN110020082B (zh) | 一种搜索方法及装置 | |
CN108121720A (zh) | 一种资源推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |