CN105653058B - 输入法词库的创建及加载方法、装置、终端及服务器 - Google Patents

输入法词库的创建及加载方法、装置、终端及服务器 Download PDF

Info

Publication number
CN105653058B
CN105653058B CN201510982390.1A CN201510982390A CN105653058B CN 105653058 B CN105653058 B CN 105653058B CN 201510982390 A CN201510982390 A CN 201510982390A CN 105653058 B CN105653058 B CN 105653058B
Authority
CN
China
Prior art keywords
input method
dictionary
website
name entity
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510982390.1A
Other languages
English (en)
Other versions
CN105653058A (zh
Inventor
汪平仄
侯文迪
龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510982390.1A priority Critical patent/CN105653058B/zh
Publication of CN105653058A publication Critical patent/CN105653058A/zh
Application granted granted Critical
Publication of CN105653058B publication Critical patent/CN105653058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种输入法词库的创建及加载方法、装置、终端及服务器,所述方法的一具体实施方式包括:获取指定网站的网页的文本信息;基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;获取所述频繁字符串中的命名实体;基于所述命名实体创建所述指定网站的输入法关联词库。该实施方式使用户终端能够随时获取与指定网站相关的输入法词库,提高了用户使用输入法输入文字的效率。

Description

输入法词库的创建及加载方法、装置、终端及服务器
技术领域
本公开涉及计算机技术领域,特别涉及一种输入法词库的创建及加载方法、装置、终端及服务器。
背景技术
随着科学技术的不断发展,计算机人工智能技术变得日益完善和成熟,人工智能技术越来越广泛的应用于人们的日常生活和工作中,使人们的生活越来越便利。目前,很多智能终端设备都安装有输入法程序,具有输入文字的功能。每种输入法都具有多个不同类别的字库,以方便用户输入一些专业词汇或者使用频率较高的词汇。
在相关技术中,用户只能手动添加有限的输入法词库,无法随时获取与指定网站(如,用户当前正在浏览的网站)相关的输入法词库。从而降低了用户使用输入法输入文字的效率。
发明内容
本公开提供一种输入法词库的创建及加载方法、装置、终端及服务器,以解决相关技术中用户使用输入法输入文字的效率低下的问题。
根据本公开实施例的第一方面,提供一种输入法词库的创建方法,包括:
获取指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库。
可选的,所述基于所述文本信息提取频繁字符串,包括:
构建对应于所述文本信息的后缀树;
基于所述后缀树提取词频大于等于预定词频的字符串作为频繁字符串。
可选的,所述构建对应于所述文本信息的后缀树,包括:
解析出所述文本信息中的句子;
获取每个所述句子的全部后缀,以生成后缀集合;
基于所述后缀集合构建后缀树。
可选的,所述获取所述频繁字符串中的命名实体,包括:
对所述频繁字符串进行过滤停用词的处理,以得到处理后的频繁字符串;
获取所述处理后的频繁字符串中的命名实体。
可选的,所述获取所述处理后的频繁字符串中的命名实体,包括:
从所述文本信息中获取所述处理后的频繁字符串所属的句子;
基于所述处理后的频繁字符串所属的句子,采用条件随机场CRF算法识别出所述处理后的频繁字符串中的命名实体。
可选的,所述基于所述命名实体创建所述指定网站的输入法关联词库,包括:
计算每个所述命名实体在所述指定网站中的权重值;
提取出所述权重值大于等于预定权重值的命名实体;
将提取出的所述命名实体作为元素,创建所述指定网站的输入法关联词库。
根据本公开实施例的第二方面,提供一种用于加载输入法词库的方法,包括:
判断是否加载有当前浏览的网站的输入法关联词库;
若未加载所述输入法关联词库,基于所述网站的网站标识从预存的输入法词库中查找所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
将创建的所述输入法关联词库加载到内存中,以供输入法程序调用;
其中,所述输入法关联词库通过如下方法创建:
获取当前浏览的网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述当前浏览的网站的输入法关联词库。
可选的,所述方法还包括:
将创建的所述输入法关联词库与所述输入法关联词库的相关信息进行关联地存储,其中,所述输入法关联词库的相关信息包括所述输入法关联词库对应的网站的网站标识。
可选的,所述输入法关联词库的相关信息还包括所述输入法关联词库的创建时间;
所述方法还包括:
基于已存储的所述输入法关联词库对应的创建时间,检测出已过预定使用期的所述输入法关联词库;
删除所述已过预定使用期的所述输入法关联词库。
根据本公开实施例的第三方面,提供一种用于加载输入法词库的方法,包括:
接收终端发送的获取指定网站的输入法关联词库的请求;
基于所述请求中包含的所述指定网站的网站标识从预存的输入法词库中查找已创建的所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
向所述终端发送创建的所述输入法关联词库,以供所述终端加载所述输入法关联词库;
其中,所述输入法关联词库通过如下方法创建:
获取所述指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库。
可选的,所述方法还包括:
将创建的所述输入法关联词库与所述输入法关联词库的相关信息进行关联地存储,其中,所述输入法关联词库的相关信息包括所述输入法关联词库对应的网站的网站标识。
可选的,所述方法还包括:
所述输入法关联词库的相关信息还包括所述输入法关联词库的创建时间;
所述方法还包括:
基于已存储的所述输入法关联词库对应的创建时间,检测出已过预定使用期的所述输入法关联词库;
更新所述已过预定使用期的所述输入法关联词库。
根据本公开实施例的第四方面,提供一种输入法词库的创建装置,包括:
第一获取模块,被配置为获取指定网站的网页的文本信息;
提取模块,被配置为基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
第二获取模块,被配置为获取所述频繁字符串中的命名实体;
创建模块,被配置为基于所述命名实体创建所述指定网站的输入法关联词库。
可选的,所述提取模块包括:
构建子模块,被配置为构建对应于所述文本信息的后缀树;
频繁字符串提取子模块,被配置为基于所述后缀树提取词频大于等于预定词频的字符串作为频繁字符串。
可选的,所述构建子模块包括:
解析子模块,被配置为解析出所述文本信息中的句子;
生成子模块,被配置为获取每个所述句子的全部后缀,以生成后缀集合;
后缀树构建子模块,被配置为基于所述后缀集合构建后缀树。
可选的,所述第二获取模块包括:
过滤子模块,被配置为对所述频繁字符串进行过滤停用词的处理,以得到处理后的频繁字符串;
命名实体获取子模块,被配置为获取所述处理后的频繁字符串中的命名实体。
可选的,所述命名实体获取子模块包括:
句子获取子模块,被配置为从所述文本信息中获取所述处理后的频繁字符串所属的句子;
识别子模块,被配置为基于所述处理后的频繁字符串所属的句子,采用条件随机场CRF算法识别出所述处理后的频繁字符串中的命名实体。
可选的,所述创建模块包括:
计算子模块,被配置为计算每个所述命名实体在所述指定网站中的权重值;
提取子模块,被配置为提取出所述权重值大于等于预定权重值的命名实体;
词库创建子模块,被配置为将提取出的所述命名实体作为元素,创建所述指定网站的输入法关联词库。
根据本公开实施例的第五方面,提供一种用于加载输入法词库的装置,包括:
判断模块,被配置为判断是否加载有当前浏览的网站的输入法关联词库;
查找模块,被配置为在未加载所述输入法关联词库时,基于所述网站的网站标识从预存的输入法词库中查找所述输入法关联词库;
词库创建模块,被配置为在未查找出所述输入法关联词库时,创建所述输入法关联词库;
加载模块,被配置为将创建的所述输入法关联词库加载到内存中,以供输入法程序调用;
其中,所述词库创建模块包括:
第一获取模块,被配置为获取当前浏览的网站的网页的文本信息;
提取模块,被配置为基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
第二获取模块,被配置为获取所述频繁字符串中的命名实体;
创建模块,被配置为基于所述命名实体创建所述当前浏览的网站的输入法关联词库。
可选的,所述装置还包括:
存储模块,被配置为将创建的所述输入法关联词库与所述输入法关联词库的相关信息进行关联地存储,其中,所述输入法关联词库的相关信息包括所述输入法关联词库对应的网站的网站标识。
可选的,所述输入法关联词库相关信息还包括所述输入法关联词库的创建时间;
所述装置还包括:
检测模块,被配置为基于已存储的所述输入法关联词库对应的创建时间,检测出已过预定使用期的所述输入法关联词库;
删除模块,被配置为删除所述已过预定使用期的所述输入法关联词库。
根据本公开实施例的第六方面,提供一种用于加载输入法词库的装置,包括:
接收模块,被配置为接收终端发送的获取指定网站的输入法关联词库的请求;
查找模块,被配置为基于所述请求中包含的所述指定网站的网站标识从预存的输入法词库中查找已创建的所述输入法关联词库;
词库创建模块,被配置为在未查找出所述输入法关联词库时,创建所述输入法关联词库;
发送模块,被配置为向所述终端发送创建的所述输入法关联词库,以供所述终端加载所述输入法关联词库;
其中,所述词库创建模块包括:
第一获取模块,被配置为获取所述指定网站的网页的文本信息;
提取模块,被配置为基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
第二获取模块,被配置为获取所述频繁字符串中的命名实体;
创建模块,被配置为基于所述命名实体创建所述指定网站的输入法关联词库。
可选的,所述装置还包括:
存储模块,被配置为将创建的所述输入法关联词库与所述输入法关联词库的相关信息进行关联地存储,其中,所述输入法关联词库的相关信息包括所述输入法关联词库对应的网站的网站标识。
可选的,所述装置还包括:
所述输入法关联词库的相关信息还包括所述输入法关联词库的创建时间;
所述装置还包括:
检测模块,被配置为基于已存储的所述输入法关联词库对应的创建时间,检测出已过预定使用期的所述输入法关联词库;
更新模块,被配置为更新所述已过预定使用期的所述输入法关联词库。
根据本公开实施例的第七方面,提供一种装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库。
根据本公开实施例的第八方面,提供一种终端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
判断是否加载有当前浏览的网站的输入法关联词库;
若未加载所述输入法关联词库,基于所述网站的网站标识从预存的输入法词库中查找所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
将创建的所述输入法关联词库加载到内存中,以供输入法程序调用;
其中,所述输入法关联词库通过如下方法创建:
获取当前浏览的网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述当前浏览的网站的输入法关联词库。
根据本公开实施例的第九方面,提供一种服务器,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收终端发送的获取指定网站的输入法关联词库的请求;
基于所述请求中包含的所述指定网站的网站标识从预存的输入法词库中查找已创建的所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
向所述终端发送创建的所述输入法关联词库,以供所述终端加载所述输入法关联词库;
其中,所述输入法关联词库通过如下方法创建:
获取所述指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开的上述实施例提供的一种输入法词库的创建方法,通过基于获取到的指定网站的网页的文本信息,提取频繁字符串,获取该频繁字符串中的命名实体,并基于该命名实体创建指定网站的输入法关联词库。从而使用户终端能够随时获取与指定网站相关的输入法词库,提高了用户使用输入法输入文字的效率。
本公开的上述实施例提供的另一种输入法词库的创建方法,通过采用后缀树的方法识别出对应于指定网站的频繁字符串,并对频繁字符串进行过滤处理,提取出处理后的频繁字符串中的命名实体,并获取权重值大于等于预定权重值的命名实体作为词库元素,创建指定网站的输入法关联词库。从而使用户终端能够随时获取与指定网站相关的输入法词库,提高了用户使用输入法输入文字的效率。
本公开的上述实施例提供的一种用于加载输入法词库的方法,在未加载当前浏览的网站的输入法关联词库时,基于该网站的网站标识从预存的输入法词库中查找该输入法关联词库,在若未查找出该输入法关联词库时,创建该输入法关联词库,并将创建的关联词库加载到内存中,以供输入法程序调用。从而使用户终端能够随时获取与当前浏览的网站相关的输入法词库,提高了用户使用输入法输入文字的效率。
本公开的上述实施例提供的另一种用于加载输入法词库的方法,通过基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的关联词库,并删除上述已过预定使用期的关联词库。从而节省了终端的存储空间,提高了终端存储空间的利用率。
本公开的上述实施例提供的一种用于加载输入法词库的方法,在接收到终端发送的获取指定网站的输入法关联词库的请求时,基于请求中包含的指定网站的网站标识从预存的输入法词库中查找已创建的上述输入法关联词库,在未查找出上述输入法关联词库时,创建上述输入法关联词库,并向上述终端发送创建的该输入法关联词库,以供该终端加载上述输入法关联词库。从而使用户终端能够随时获取与指定网站相关的输入法词库,提高了用户使用输入法输入文字的效率。
本公开的上述实施例提供的另一种用于加载输入法词库的方法,通过基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的关联词库,并更新上述已过预定使用期的关联词库。从而使反馈给终端的网站的输入法关联词库更全面,进一步提高了用户使用输入法输入文字的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的一种输入法词库的创建方法的流程图;
图2是本公开根据一示例性实施例示出的另一种输入法词库的创建方法的流程图;
图3是本公开根据一示例性实施例示出的一种用于加载输入法词库的方法的流程图;
图4是本公开根据一示例性实施例示出的另一种用于加载输入法词库的方法的流程图;
图5是本公开根据一示例性实施例示出的另一种用于加载输入法词库的方法的流程图;
图6是本公开根据一示例性实施例示出的另一种用于加载输入法词库的方法的流程图;
图7是本公开根据一示例性实施例示出的一种输入法词库的创建装置的框图;
图8是本公开根据一示例性实施例示出的另一种输入法词库的创建装置的框图;
图9是本公开根据一示例性实施例示出的另一种输入法词库的创建装置的框图;
图10是本公开根据一示例性实施例示出的另一种输入法词库的创建装置的框图;
图11是本公开根据一示例性实施例示出的另一种输入法词库的创建装置的框图;
图12是本公开根据一示例性实施例示出的另一种输入法词库的创建装置的框图;
图13是本公开根据一示例性实施例示出的一种用于加载输入法词库的装置的框图;
图14是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置的框图;
图15是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置的框图;
图16是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置的框图;
图17是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置的框图;
图18是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置的框图;
图19是本公开根据一示例性实施例示出的一种可以应用本公开实施例的示例性***架构图;
图20是本公开根据一示例性实施例示出的一种输入法词库的创建及加载的装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示,图1是根据一示例性实施例示出的一种输入法词库的创建方法的流程图,该方法可以应用于终端中,也可以应用于服务器中。在本实施例中,为了便于理解,结合能够安装输入法程序,具有输入文字功能的终端设备来举例说明。本领域技术人员可以理解,该终端设备可以包括但不限于诸如智能手机的移动终端设备、智能穿戴式设备、平板电脑、个人数字助理、台式电脑、膝上便携式电脑等等。该方法包括以下步骤:
在步骤101中,获取指定网站的网页的文本信息。
在本实施例中,该方法可以由终端执行,当该方法由终端执行时,在本步骤中可以获取指定网站的部分或全部网页的文本信息。指定网站可以是用户当前正在浏览的网站,也可以是浏览器正在访问的所有网页所属的所有网站。该方法也可以由服务器执行,当该方法由服务器执行时,指定网站可以是在该服务器上架设的网站,也可以是用户终端发送的请求中包含的网站。可以理解,指定网站还可以是其它的网站,本公开对此方面不限定。
一般来说,一个网站可以包含多个网页,这些网页上可以承载各种形式的信息,例如,文本形式的信息,图像形式的信息或者视频形式的信息。通常地,文本形式的信息更能体现对应的网站的语言环境,因此,在本实施例中,需要获取指定网站的部分或全部网页的文本信息,以基于该文本信息分析指定网站的语言环境,提取出一些常用语言词汇。
在本实施例中,可以通过爬取网页的方式,获取指定网站的部分或全部网页的文本信息。也可以直接通过架设指定网站的服务器,获取指定网站的部分或全部网页的文本信息。本公开对获取指定网站的部分或全部网页的文本信息的具体方面,不限定。
在步骤102中,基于上述文本信息提取频繁字符串,该频繁字符串出现的频繁程度大于等于预定的频繁程度。
在本实施例中,在获取到上述文本信息后,可以对该文本信息进行解析,从而获取该文本信息对应的所有字符串。然后,从所有字符串中提取出频繁字符串,其中,频繁字符串出现的频繁程度大于等于预定的频繁程度。
在本实施例中,字符串出现的频繁程度可以通过任意能够合理的衡量字符串出现的频繁程度的量化参数来表示,例如,字符串出现的频繁程度可以通过字符串出现的频率(词频)来表示,也可以通过字符串出现的次数所占比例来表示等。可以理解,还可以通过其它形式的量化参数来表示字符串出现的频繁程度,本公开对用来表示频繁程度的量化参数的具体形式方面不限定。
在本实施例中,可以基于上述文本信息对应的后缀树提取频繁字符串,还可以采用枚举的方法提取频繁字符串,可以理解,还可以通过其它任意可以实现的方法提取频繁字符串,本公开对提取频繁字符串所采用的具体方式方面不限定。
在步骤103中,获取上述频繁字符串中的命名实体。
通常来说,命名实体可以是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还可以包括数字、日期、货币、地址等。在本实施例中,可以采用任意可以实现的方式识别上述频繁字符串中的命名实体。例如,可以采用CRF(Conditional RandomField,条件随机场)算法识别出上述频繁字符串中的命名实体。可以理解,还可以采用其它的方式识别上述频繁字符串中的命名实体。
在步骤104中,基于上述命名实体创建指定网站的输入法关联词库。
一般来说,用户需要在终端上安装输入法软件,才能使用终端输入文字,目前,市面上出现了多种输入法软件,例如,搜狗输入法、百度输入法、QQ输入法等等。每种输入法软件对应多个类型的词库,如核心词库,用户词库、分类词库等。在本实施例中,指定网站的输入法关联词库为与该指定网站关联的输入法的词库,该输入法关联词库中包含该指定网站中常用的一些词句,短语等。
在本实施例中,可以将上述命名实体作为词库的元素,从而创建指定网站的输入法关联词库。也可以对上述命名实体进行处理,从上述命名实体中进一步筛选出一些命名实体(如,在该指定网站中权重足够高的命名实体等)作为词库的元素,从而创建指定网站的输入法关联词库。
本公开的上述实施例提供的输入法词库的创建方法,通过基于获取到的指定网站的网页的文本信息,提取频繁字符串,获取该频繁字符串中的命名实体,并基于该命名实体创建指定网站的输入法关联词库。从而使用户终端能够随时获取与指定网站相关的输入法词库,提高了用户使用输入法输入文字的效率。
如图2所示,图2根据一示例性实施例示出的另一种输入法词库的创建方法的流程图,该实施例详细描述了创建指定网站的输入法关联词库的过程,该方法可以应用于终端中,也可以应用于服务器中。包括以下步骤:
在步骤201中,获取指定网站的网页的文本信息。
在步骤202中,构建对应于上述文本信息的后缀树。
在本实施例中,可以采用后缀树的方法提取频繁字符串,因此,首先,需要构建对应于上述文本信息的后缀树。具体来说,首先,解析出上述文本信息中的所有句子,生成句子集合(如,可以用S表示句子集合)。然后,获取句子集合中所有句子的全部后缀,并生成后缀集合(如,可以用Suffix表示后缀集合)。根据该后缀集合构建后缀树(如,可以用Suffix_tree表示后缀树),作为对应于上述文本信息的后缀树。
在步骤203中,基于该后缀树提取词频大于等于预定词频的字符串作为频繁字符串。
在本实施例中,可以基于该后缀树也可以直接基于该后缀集合提取频繁字符串。首先,获取预先设置的预定词频,然后,从该后缀树中查找出词频大于等于预定词频的字符串作为频繁字符串,并生成频繁字符串集合(如,可以用F’表示频繁字符串集合)。
在步骤204中,对上述频繁字符串进行过滤停用词的处理,以得到处理后的频繁字符串。
在本实施例中,可以过滤上述频繁字符串中的停用词,从而得到处理后的频繁字符串,并生成处理后的频繁字符串集合(如,可以用F表示处理后的频繁字符串集合)。其中,停用词可以是一些没有实际意义的虚词,例如,助词、介词、连词等等。
在步骤205中,获取处理后的频繁字符串中的命名实体。
在本实施例中,首先,从上述文本信息中获取处理后的频繁字符串(如,可以用Fi表示处理后的任意频繁字符串)所属的句子(如,可以用S(Fi)表示处理后的任意频繁字符串所属的句子)。然后,基于处理后的频繁字符串所属的句子,采用CRF算法识别出处理后的频繁字符串中的命名实体,并生成命名实体的集合(如,可以用NE表示实体的集合)。
在步骤206中,计算每个命名实体在指定网站中的权重值。
在步骤207中,提取出权重值大于等于预定权重值的命名实体。
在步骤208中,将提取出的命名实体作为元素,创建指定网站的输入法关联词库。
一般来说,每个命名实体在指定网站中的权重是不同的,权重越高表明该命名实体与该指定网站的关联度越高,该命名实体更有可能属于该指定网站的专属语句。如果命名实体在指定网站中出现的频率较大,但权重较小,表明该命名实体可能在任何网站中出现的频率均较大,该语句更有可能是日常用语,而非指定网站的专属语句。因此,可以通过计算每个命名实体在指定网站中的权重值,从而进一步筛选出一些更有可能属于指定网站专属语句的命名实体。
在本实施例中,可以采用任意合理的算法计算每个命名实体在指定网站中的权重值。例如,可以采用TF-IDF(term frequency–inverse document frequency,词频-反转文件频率)的算法计算每个命名实体在指定网站中的权重值。又例如,也可以基于信息增益计算每个命名实体在指定网站中的权重值。再例如,还可以采用卡方验证的方法计算每个命名实体在指定网站中的权重值。可以理解,还可以采用其它的算法计算每个命名实体在指定网站中的权重值,本公开对计算命名实体在指定网站中的权重值的具体方法方面不限定。
在本实施例中,可以预先设置一个预定权重值,将该预定权重值进行存储,在计算出每个命名实体在指定网站中的权重值后,获取该预定权重值,将每个命名实体在指定网站中的权重值与该预定权重值逐一进行比较,提取出权重值大于等于预定权重值的命名实体,认为提取出的这些命名实体属于指定网站专属语句。将提取出的这些命名实体作为元素,创建指定网站的输入法关联词库。
可以理解,预定权重值可以是一个经验值,并且预定权重值不是一个唯一固定的值,任意合理的数值均可以作为预定权重值,本公开对预定权重值的具体取值方面不限定。
需要说明的是,对于与图1实施例中相同的步骤,在上述图2实施例中不再进行赘述,相关内容可参见图1实施例。
本公开的上述实施例提供的输入法词库的创建方法,通过采用后缀树的方法识别出对应于指定网站的频繁字符串,并对频繁字符串进行过滤处理,提取出处理后的频繁字符串中的命名实体,并获取权重值大于等于预定权重值的命名实体作为词库元素,创建指定网站的输入法关联词库。从而使用户终端能够随时获取与指定网站相关的输入法词库,提高了用户使用输入法输入文字的效率。
如图3所示,图3是根据一示例性实施例示出的一种用于加载输入法词库的方法的流程图,该方法可以用于终端中,包括以下步骤:
在步骤301中,判断是否加载有当前浏览的网站的输入法关联词库。
在步骤302中,若未加载上述输入法关联词库,基于上述网站的网站标识从预存的输入法词库中查找该输入法关联词库。
在本实施例中,当用户使用终端浏览网站时,终端首先判断其内存中是否加载有当前浏览的网站的输入法关联词库。若未加载上述输入法关联词库,则基于上述网站的网站标识从预存的输入法词库中查找该输入法关联词库。具体来说,可以预先将某些网站的输入法关联词库存储在终端中。这些词库可以是终端自己创建的,也可以是终端从服务器获取到的,可以理解,本公开对上述这些已存储的输入法关联词库的具体来源方面不限定。当终端存储某些网站的输入法关联词库时,同时可以关联地存储该网站的网站标识,以便后续可以基于网站的网站标识查找出该输入法关联词库。
在本实施例中,网站的标识信息可以是能够区分网站的任意信息,例如,网站的标识信息可以是网站的首页地址,也可以是网站的标志,还可以是网站的站点标题等,可以理解,网站的标识信息还可以是其它形式的信息,本公开对网站的标识信息的具体形式方面不限定。
在本实施例中,若查找出该输入法关联词库,则将该输入法关联词库加载到内存中,以供输入法程序调用。
在步骤303中,若未查找出该输入法关联词库,创建该输入法关联词库。
在本实施例中,若未查找出该输入法关联词库,则由终端自己创建该输入法关联词库。其中,该输入法关联词库通过如下方法创建:首先,获取当前浏览的网站的网页的文本信息。可以基于网页爬取技术获取当前浏览的网站的部分或全部网页的文本信息。然后,基于该文本信息提取频繁字符串,该频繁字符串出现的频繁程度大于等于预定的频繁程度。获取该频繁字符串中的命名实体,并基于该命名实体创建当前浏览的网站的输入法关联词库。
在步骤304中,将创建的该输入法关联词库加载到内存中,以供输入法程序调用。
需要说明的是,对于与图1实施例中相同的步骤,在上述图3实施例中不再进行赘述,相关内容可参见图1实施例。
本公开的上述实施例提供的用于加载输入法词库的方法,在未加载当前浏览的网站的输入法关联词库时,基于该网站的网站标识从预存的输入法词库中查找该输入法关联词库,在若未查找出该输入法关联词库时,创建该输入法关联词库,并将创建的关联词库加载到内存中,以供输入法程序调用。从而使用户终端能够随时获取与当前浏览的网站相关的输入法词库,提高了用户使用输入法输入文字的效率。
如图4所示,图4是根据一示例性实施例示出的另一种用于加载输入法词库的方法的流程图,该实施例进一步详细描述了存储与网站相关的输入法词库以及清理上述词库的过程,该方法可以用于终端中,包括以下步骤:
在步骤401中,判断是否加载有当前浏览的网站的输入法关联词库。
在步骤402中,若未加载上述输入法关联词库,基于上述网站的网站标识从预存的输入法词库中查找该输入法关联词库。
在步骤403中,若未查找出该输入法关联词库,创建该输入法关联词库。
在步骤404中,将创建的该输入法关联词库加载到内存中,以供输入法程序调用。
在步骤405中,将创建的上述输入法关联词库与该输入法关联词库的相关信息进行关联地存储。
在本实施例中,上述输入法关联词库的相关信息可以包括该输入法关联词库对应的网站的网站标识,也可以包括上述输入法关联词库的创建时间,可以理解,上述输入法关联词库的相关信息还可以包括其它方面的信息,本公开对上述输入法关联词库的相关信息包括的具体内容方面不限定。
在本实施例中,上述输入法关联词库的相关信息至少包括该输入法关联词库对应的网站的网站标识,将创建的上述输入法关联词库与该输入法关联词库的相关信息进行关联地存储后,当用户以后再次访问该网站时,就可以基于网站的网站标识从预存的输入法词库中查找出该输入法关联词库。
在步骤406中,基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的输入法关联词库。
在步骤407中,删除上述已过预定使用期的输入法关联词库。
在本实施例中,一方面,对于用户浏览过的部分网站,用户再次访问的可能性较小,随着用户浏览过的网站的增多,存储的输入法关联词库会越来越多,那些访问的次数较少的网站的输入法关联词库会降低存储空间的存储效率。另一方面,网站的内容一般会不断更新,如果某些网站的输入法关联词库创建时间较久,随着该网站的更新,其很久之前创建的输入法关联词库也会相对滞后。因此,每隔一定时间段,可以基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的输入法关联词库,并删除上述已过预定使用期的输入法关联词库。
具体来说,网站的输入法关联词库的相关信息还可以包括输入法关联词库的创建时间,并且,预先设置一个时间期限(例如,一个月,或者两个月,或者一年等等),每隔一定时间段,对已存储的所有上述输入法关联词库进行检测,判断这些输入法关联词库是否已过预定使用期,如果有过预定使用期的输入法关联词库,可以直接删除。
需要说明的是,对于与图3实施例中相同的步骤,在上述图4实施例中不再进行赘述,相关内容可参见图3实施例。
本公开的上述实施例提供的用于加载输入法词库的方法,通过基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的关联词库,并删除上述已过预定使用期的输入法关联词库。从而节省了终端的存储空间,提高了终端存储空间的利用率。
如图5所示,图5是根据一示例性实施例示出的一种用于加载输入法词库的方法的流程图,该方法可以用于服务器中,包括以下步骤:
在步骤501中,接收终端发送的获取指定网站的输入法关联词库的请求。
在本实施例中,当用户使用终端浏览网站时,终端首先判断其是否加载有当前浏览的网站的输入法关联词库。若未加载上述输入法关联词库,则需要从已存储的数据中获取上述输入法关联词库,可以从本地获取该输入法关联词库,也可以从服务器获取该输入法关联词库。若从服务器获取该输入法关联词库,则需要向指定服务器发送请求,该请求中可以包含上述指定网站的网站标识,以便服务器可以基于上述指定网站的网站标识查找对应的输入法关联词库。然后,服务器接收终端发送的获取指定网站的输入法关联词库的请求。
在步骤502中,基于上述请求中包含的指定网站的网站标识从预存的输入法词库中查找已创建的上述输入法关联词库。
在本实施例中,可以预先将某些网站的输入法关联词库存储在服务器中。这些词库可以是服务器自己创建的,也可以是服务器从其它终端或服务器中获取到的,可以理解,本公开对上述这些已存储的输入法关联词库的具体来源方面不限定。当服务器存储某些网站的输入法关联词库时,同时可以关联地存储该网站的网站标识,以便后续可以基于网站的网站标识查找出该输入法关联词库。
在本实施例中,网站的标识信息可以是能够区分网站的任意信息,例如,网站的标识信息可以是网站的首页地址,也可以是网站的标志,还可以是网站的站点标题等,可以理解,网站的标识信息还可以是其它形式的信息,本公开对网站的标识信息的具体形式方面不限定。
在本实施例中,若查找出该输入法关联词库,则直接将该输入法关联词库发送给上述终端,以供该终端将该输入法关联词库加载到内存中。
在步骤503中,若未查找出该输入法关联词库,创建该输入法关联词库。
在本实施例中,若未查找出该输入法关联词库,则由服务器自己创建该输入法关联词库。其中,该输入法关联词库通过如下方法创建:首先,获取上述指定网站的部分或全部网页的文本信息。然后,基于该文本信息提取频繁字符串,该频繁字符串出现的频繁程度大于等于预定的频繁程度。获取该频繁字符串中的命名实体,并基于该命名实体创建当前浏览的网站的输入法关联词库。
在步骤504中,向上述终端发送创建的上述输入法关联词库,以供该加载上述输入法关联词库。
需要说明的是,对于与图1实施例中相同的步骤,在上述图5实施例中不再进行赘述,相关内容可参见图1实施例。
本公开的上述实施例提供的用于加载输入法词库的方法,在接收到终端发送的获取指定网站的输入法关联词库的请求时,基于请求中包含的指定网站的网站标识从预存的输入法词库中查找已创建的上述输入法关联词库,在未查找出上述输入法关联词库时,创建上述输入法关联词库,并向上述终端发送创建的该输入法关联词库,以供该终端加载上述输入法关联词库。从而使用户终端能够随时获取与指定网站相关的输入法词库,提高了用户使用输入法输入文字的效率。
如图6所示,图6是根据一示例性实施例示出的另一种用于加载输入法词库的方法的流程图,该实施例进一步详细描述了存储与指定网站相关的输入法词库以及更新上述词库的过程,该方法可以用于服务器中,包括以下步骤:
在步骤601中,接收终端发送的获取指定网站的输入法关联词库的请求。
在步骤602中,基于上述请求中包含的指定网站的网站标识从预存的输入法词库中查找已创建的上述输入法关联词库。
在步骤603中,若未查找出该输入法关联词库,创建该输入法关联词库。
在步骤604中,向上述终端发送创建的上述输入法关联词库,以供该加载上述输入法关联词库。
在步骤605中,将创建的上述输入法关联词库与该输入法关联词库的相关信息进行关联地存储。
在本实施例中,上述输入法关联词库的相关信息可以包括该输入法关联词库对应的网站的网站标识,也可以包括上述输入法关联词库的创建时间,可以理解,上述输入法关联词库的相关信息还可以包括其它方面的信息,本公开对上述输入法关联词库的相关信息包括的具体内容方面不限定。
在本实施例中,上述输入法关联词库的相关信息至少包括该输入法关联词库对应的网站的网站标识,将创建的上述输入法关联词库与该输入法关联词库的相关信息进行关联地存储后,当该终端或者其它终端以后再次请求获取该输入法关联词库时,就可以基于请求中包含的网站的网站标识从预存的输入法词库中查找出该输入法关联词库。
在步骤606中,基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的输入法关联词库。
在步骤607中,更新上述已过预定使用期的输入法关联词库。
在本实施例中,网站的内容一般会不断更新,如果某些网站的输入法关联词库创建时间较久,随着该网站的更新,其很久之前创建的输入法关联词库也会相对滞后。因此,每隔一段时间,可以基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的输入法关联词库,并更新上述已过预定使用期的输入法关联词库。
具体来说,网站的输入法关联词库的相关信息还可以包括输入法关联词库的创建时间,并且,预先设置一个时间期限(例如,一个月,或者两个月,或者一年等等),每隔一定时间段,对已存储的所有上述输入法关联词库进行检测,判断这些输入法关联词库是否已过预定使用期,如果有过预定使用期的输入法关联词库,可以更新上述输入法关联词库。
需要说明的是,对于与图5实施例中相同的步骤,在上述图6实施例中不再进行赘述,相关内容可参见图5实施例。
本公开的上述实施例提供的用于加载输入法词库的方法,通过基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的输入法关联词库,并更新上述已过预定使用期的输入法关联词库。从而使反馈给终端的网站的输入法关联词库更全面,进一步提高了用户使用输入法输入文字的效率。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
与前述输入法词库的创建及加载方法实施例相对应,本公开还提供了输入法词库的创建及加载装置及其所应用的终端和服务器的实施例。
如图7所示,图7是本公开根据一示例性实施例示出的一种输入法词库的创建装置框图,该装置包括:第一获取模块701,提取模块702,第二获取模块703以及创建模块704。
其中,第一获取模块701,被配置为获取指定网站的网页的文本信息。
提取模块702,被配置为基于上述文本信息提取频繁字符串,该频繁字符串出现的频繁程度大于等于预定的频繁程度。
第二获取模块703,被配置为获取上述频繁字符串中的命名实体。
创建模块704,被配置为基于上述命名实体创建指定网站的输入法关联词库。
如图8所示,图8是本公开根据一示例性实施例示出的另一种输入法词库的创建装置框图,该实施例在前述图7所示实施例的基础上,提取模块702可以包括:构建子模块801以及频繁字符串提取子模块802。
其中,构建子模块801,被配置为构建对应于上述文本信息的后缀树。
频繁字符串提取子模块802,被配置为基于上述后缀树提取词频大于等于预定词频的字符串作为频繁字符串。
如图9所示,图9是本公开根据一示例性实施例示出的另一种输入法词库的创建装置框图,该实施例在前述图8所示实施例的基础上,构建子模块801可以包括:解析子模块901,生成子模块902以及后缀树构建子模块903。
其中,解析子模块901,被配置为解析出上述文本信息中的句子。
生成子模块902,被配置为获取每个句子的全部后缀,以生成后缀集合。
后缀树构建子模块903,被配置为基于上述后缀集合构建后缀树。
如图10所示,图10是本公开根据一示例性实施例示出的另一种输入法词库的创建装置框图,该实施例在前述图7所示实施例的基础上,第二获取模块703可以包括:过滤子模块1001以及命名实体获取子模块1002。
其中,过滤子模块1001,被配置为对上述频繁字符串进行过滤停用词的处理,以得到处理后的频繁字符串。
命名实体获取子模块1002,被配置为获取上述处理后的频繁字符串中的命名实体。
如图11所示,图11是本公开根据一示例性实施例示出的另一种输入法词库的创建装置框图,该实施例在前述图10所示实施例的基础上,命名实体获取子模块1002可以包括:句子获取子模块1101以及识别子模块1102。
其中,句子获取子模块1101,被配置为从上述文本信息中获取处理后的频繁字符串所属的句子。
识别子模块1102,被配置为基于处理后的频繁字符串所属的句子,采用条件随机场CRF算法识别出处理后的频繁字符串中的命名实体。
如图12所示,图12是本公开根据一示例性实施例示出的另一种输入法词库的创建装置框图,该实施例在前述图7所示实施例的基础上,创建模块704可以包括:计算子模块1201,提取子模块1202以及词库创建子模块1203。
其中,计算子模块1201,被配置为计算每个上述命名实体在指定网站中的权重值。
提取子模块1202,被配置为提取出权重值大于等于预定权重值的命名实体。
词库创建子模块1203,被配置为将提取出的命名实体作为元素,创建指定网站的输入法关联词库。
应当理解,上述装置可以预先设置在终端或服务器中,也可以通过下载等方式而加载到终端或服务器中。上述装置中的相应模块可以与终端或服务器中的模块相互配合以实现输入法词库的创建的方案。
如图13所示,图13是本公开根据一示例性实施例示出的一种用于加载输入法词库的装置框图,该装置包括:判断模块1301,查找模块1302,词库创建模块1303以及加载模块1304。
其中,判断模块1301,被配置为判断是否加载有当前浏览的网站的输入法关联词库。
查找模块1302,被配置为在未加载上述输入法关联词库时,基于上述网站的网站标识从预存的输入法词库中查找上述输入法关联词库。
词库创建模块1303,被配置为在未查找出上述输入法关联词库时,创建上述输入法关联词库。
加载模块1304,被配置为将创建的上述输入法关联词库加载到内存中,以供输入法程序调用。
其中,词库创建模块1303包括:第一获取模块,提取模块,第二获取模块以及创建模块。
第一获取模块,被配置为获取当前浏览的网站的网页的文本信息。
提取模块,被配置为基于上述文本信息提取频繁字符串,该频繁字符串出现的频繁程度大于等于预定的频繁程度。
第二获取模块,被配置为获取该频繁字符串中的命名实体。
创建模块,被配置为基于上述命名实体创建当前浏览的网站的输入法关联词库。
如图14所示,图14是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置框图,该实施例在前述图13所示实施例的基础上,该装置还可以进一步包括:存储模块1305。存储模块1305,被配置为将创建的上述输入法关联词库与该输入法关联词库的相关信息进行关联地存储,其中,该输入法关联词库的相关信息包括该输入法关联词库对应的网站的网站标识。
如图15所示,图15是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置框图,该实施例在前述图14所示实施例的基础上,该装置还可以进一步包括:检测模块1306,删除模块1307。
其中,上述输入法关联词库相关信息还可以包括该输入法关联词库的创建时间。
检测模块1306,被配置为基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的输入法关联词库。
删除模块1307,被配置为删除上述已过预定使用期的输入法关联词库。
应当理解,上述装置可以预先设置在终端中,也可以通过下载等方式而加载到终端中。上述装置中的相应模块可以与终端中的模块相互配合以实现用于加载输入法词库的方案。
如图16所示,图16是本公开根据一示例性实施例示出的一种用于加载输入法词库的装置框图,该装置包括:接收模块1601,查找模块1602,词库创建模块1603以及发送模块1604。
其中,接收模块1601,被配置为接收终端发送的获取指定网站的输入法关联词库的请求。
查找模块1602,被配置为基于上述请求中包含的所述指定网站的网站标识从预存的输入法词库中查找已创建的上述输入法关联词库。
词库创建模块1603,被配置为在未查找出上述输入法关联词库时,创建该输入法关联词库。
发送模块1604,被配置为向上述终端发送创建的该输入法关联词库,以供该终端加载该输入法关联词库。
其中,词库创建模块1603包括:第一获取模块,提取模块,第二获取模块以及创建模块。
第一获取模块,被配置为获取上述指定网站的网页的文本信息;
提取模块,被配置为基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
第二获取模块,被配置为获取所述频繁字符串中的命名实体;
创建模块,被配置为基于所述命名实体创建所述指定网站的输入法关联词库。
如图17所示,图17是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置框图,该实施例在前述图16所示实施例的基础上,该装置还可以进一步包括:存储模块1605。存储模块1605,被配置为将创建的上述输入法关联词库与该输入法关联词库的相关信息进行关联地存储,其中,该输入法关联词库的相关信息包括该输入法关联词库对应的网站的网站标识。
如图18所示,图18是本公开根据一示例性实施例示出的另一种用于加载输入法词库的装置框图,该实施例在前述图17所示实施例的基础上,该装置还可以进一步包括:检测模块1606,更新模块1607。
其中,上述输入法关联词库相关信息还可以包括该输入法关联词库的创建时间。
检测模块1606,被配置为基于已存储的上述输入法关联词库对应的创建时间,检测出已过预定使用期的输入法关联词库。
更新模块1607,被配置为更新上述已过预定使用期的输入法关联词库。
应当理解,上述装置可以预先设置在服务器中,也可以通过下载等方式而加载到服务器中。上述装置中的相应模块可以与服务器中的模块相互配合以实现用于加载输入法词库的方案。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为单元模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
图19示出了可以应用本公开实施例的示例性***架构。
如图19所示,***架构1900可以包括终端设备1901、1902、网络1903和服务器1904。网络1903用于在终端设备1901、1902和服务器1904之间提供通信链路的介质。网络1903可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户1910可以使用终端设备1901、1902通过网络1903与服务器1904交互,以接收或发送消息等。终端设备1901、1902上可以安装有各种客户端应用,例如各种即时通讯工具、输入法程序、新闻客户端、浏览器等。
终端设备1901、1902可以是各种电子设备,包括但不限于智能手机的移动终端设备、智能穿戴式设备、平板电脑、个人数字助理、台式电脑、膝上便携式电脑等等。
服务器1904可以是提供各种服务的服务器。服务器可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端设备。服务器可以响应于用户的服务请求而提供服务。例如,服务器可以向终端设备提供指定网站的输入法关联词库等。可以理解,一个服务器可以提供一种或多种服务,同一种服务也可以由多个服务器来提供。
应该理解,图19中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
相应的,本公开还提供一种装置,该装置包括有处理器;用于存储处理器可执行指令的存储器;其中,该处理器被配置为:
获取指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库。
相应的,本公开还提供一种终端,该终端包括有处理器;用于存储处理器可执行指令的存储器;其中,该处理器被配置为:
判断是否加载有当前浏览的网站的输入法关联词库;
若未加载所述输入法关联词库,基于所述网站的网站标识从预存的输入法词库中查找所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
将创建的所述输入法关联词库加载到内存中,以供输入法程序调用;
其中,所述输入法关联词库通过如下方法创建:
获取当前浏览的网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述当前浏览的网站的输入法关联词库。
相应的,本公开还提供一种服务器,该服务器包括有处理器;用于存储处理器可执行指令的存储器;其中,该处理器被配置为:
接收终端发送的获取指定网站的输入法关联词库的请求;
基于所述请求中包含的指定网站的网站标识从预存的输入法词库中查找已创建的所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
向所述终端发送创建的所述输入法关联词库,以供所述终端加载所述输入法关联词库;
其中,所述输入法关联词库通过如下方法创建:
获取上述指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库。
图20是根据一示例性实施例示出的一种输入法词库的创建及加载的装置2000的一结构示意图。例如,装置2000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图20,装置2000可以包括以下一个或多个组件:处理组件2002,存储器2004,电源组件2006,多媒体组件2008,音频组件2010,输入/输出(I/O)的接口2012,传感器组件2014,以及通信组件2016。
处理组件2002通常控制装置2000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件2002可以包括一个或多个处理器2020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件2002可以包括一个或多个模块,便于处理组件2002和其他组件之间的交互。例如,处理组件2002可以包括多媒体模块,以方便多媒体组件2008和处理组件2002之间的交互。
存储器2004被配置为存储各种类型的数据以支持在装置2000的操作。这些数据的示例包括用于在装置2000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器2004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件2006为装置2000的各种组件提供电力。电源组件2006可以包括电源管理***,一个或多个电源,及其他与为装置2000生成、管理和分配电力相关联的组件。
多媒体组件2008包括在所述装置2000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件2008包括一个前置摄像头和/或后置摄像头。当装置2000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件2010被配置为输出和/或输入音频信号。例如,音频组件2010包括一个麦克风(MIC),当装置2000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器2004或经由通信组件2016发送。在一些实施例中,音频组件2010还包括一个扬声器,用于输出音频信号。
I/O接口2012为处理组件2002和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件2014包括一个或多个传感器,用于为装置2000提供各个方面的状态评估。例如,传感器组件2014可以检测到装置2000的打开/关闭状态,组件的相对定位,例如所述组件为装置2000的显示器和小键盘,传感器组件2014还可以检测装置2000或装置2000一个组件的位置改变,用户与装置2000接触的存在或不存在,装置2000方位或加速/减速和装置2000的温度变化。传感器组件2014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件2014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件2014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器,微波传感器或温度传感器。
通信组件2016被配置为便于装置2000和其他设备之间有线或无线方式的通信。装置2000可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件2016经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件2016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置2000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器2004,上述指令可由装置2000的处理器2020执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (25)

1.一种输入法词库的创建方法,其特征在于,所述方法包括:
获取指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库;
其中,所述基于所述命名实体创建所述指定网站的输入法关联词库,包括:
计算每个所述命名实体在所述指定网站中的权重值;
提取出所述权重值大于等于预定权重值的命名实体;
将提取出的所述命名实体作为元素,创建所述指定网站的输入法关联词库。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本信息提取频繁字符串,包括:
构建对应于所述文本信息的后缀树;
基于所述后缀树提取词频大于等于预定词频的字符串作为频繁字符串。
3.根据权利要求2所述的方法,其特征在于,所述构建对应于所述文本信息的后缀树,包括:
解析出所述文本信息中的句子;
获取每个所述句子的全部后缀,以生成后缀集合;
基于所述后缀集合构建后缀树。
4.根据权利要求1所述的方法,其特征在于,所述获取所述频繁字符串中的命名实体,包括:
对所述频繁字符串进行过滤停用词的处理,以得到处理后的频繁字符串;
获取所述处理后的频繁字符串中的命名实体。
5.根据权利要求4所述的方法,其特征在于,所述获取所述处理后的频繁字符串中的命名实体,包括:
从所述文本信息中获取所述处理后的频繁字符串所属的句子;
基于所述处理后的频繁字符串所属的句子,采用条件随机场CRF算法识别出所述处理后的频繁字符串中的命名实体。
6.一种用于加载输入法词库的方法,其特征在于,所述方法包括:
判断是否加载有当前浏览的网站的输入法关联词库;
若未加载所述输入法关联词库,则基于所述网站的网站标识从预存的输入法词库中查找所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
将创建的所述输入法关联词库加载到内存中,以供输入法程序调用;
其中,所述输入法关联词库通过如下方法创建:
获取当前浏览的网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述当前浏览的网站的输入法关联词库;
其中,所述基于所述命名实体创建所述当前浏览的网站的输入法关联词库,包括:
计算每个所述命名实体在所述当前浏览的网站中的权重值;
提取出所述权重值大于等于预定权重值的命名实体;
将提取出的所述命名实体作为元素,创建所述当前浏览的网站的输入法关联词库。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将创建的所述输入法关联词库与所述输入法关联词库的相关信息进行关联地存储,其中,所述输入法关联词库的相关信息包括所述输入法关联词库对应的网站的网站标识。
8.根据权利要求7所述的方法,其特征在于,
所述输入法关联词库的相关信息还包括所述输入法关联词库的创建时间;
所述方法还包括:
基于已存储的所述输入法关联词库对应的创建时间,检测出已过预定使用期的所述输入法关联词库;
删除所述已过预定使用期的所述输入法关联词库。
9.一种用于加载输入法词库的方法,其特征在于,所述方法包括:
接收终端发送的获取指定网站的输入法关联词库的请求;
基于所述请求中包含的所述指定网站的网站标识从预存的输入法词库中查找已创建的所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
向所述终端发送创建的所述输入法关联词库,以供所述终端加载所述输入法关联词库;
其中,所述输入法关联词库通过如下方法创建:
获取所述指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库;
其中,所述基于所述命名实体创建所述指定网站的输入法关联词库,包括:
计算每个所述命名实体在所述指定网站中的权重值;
提取出所述权重值大于等于预定权重值的命名实体;
将提取出的所述命名实体作为元素,创建所述指定网站的输入法关联词库。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
将创建的所述输入法关联词库与所述输入法关联词库的相关信息进行关联地存储,其中,所述输入法关联词库的相关信息包括所述输入法关联词库对应的网站的网站标识。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
所述输入法关联词库的相关信息还包括所述输入法关联词库的创建时间;
所述方法还包括:
基于已存储的所述输入法关联词库对应的创建时间,检测出已过预定使用期的所述输入法关联词库;
更新所述已过预定使用期的所述输入法关联词库。
12.一种输入法词库的创建装置,其特征在于,所述装置包括:
第一获取模块,被配置为获取指定网站的网页的文本信息;
提取模块,被配置为基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
第二获取模块,被配置为获取所述频繁字符串中的命名实体;
创建模块,被配置为基于所述命名实体创建所述指定网站的输入法关联词库;
其中,所述创建模块包括:
计算子模块,被配置为计算每个所述命名实体在所述指定网站中的权重值;
提取子模块,被配置为提取出所述权重值大于等于预定权重值的命名实体;
词库创建子模块,被配置为将提取出的所述命名实体作为元素,创建所述指定网站的输入法关联词库。
13.根据权利要求12所述的装置,其特征在于,所述提取模块包括:
构建子模块,被配置为构建对应于所述文本信息的后缀树;
频繁字符串提取子模块,被配置为基于所述后缀树提取词频大于等于预定词频的字符串作为频繁字符串。
14.根据权利要求13所述的装置,其特征在于,所述构建子模块包括:
解析子模块,被配置为解析出所述文本信息中的句子;
生成子模块,被配置为获取每个所述句子的全部后缀,以生成后缀集合;
后缀树构建子模块,被配置为基于所述后缀集合构建后缀树。
15.根据权利要求12所述的装置,其特征在于,所述第二获取模块包括:
过滤子模块,被配置为对所述频繁字符串进行过滤停用词的处理,以得到处理后的频繁字符串;
命名实体获取子模块,被配置为获取所述处理后的频繁字符串中的命名实体。
16.根据权利要求15所述的装置,其特征在于,所述命名实体获取子模块包括:
句子获取子模块,被配置为从所述文本信息中获取所述处理后的频繁字符串所属的句子;
识别子模块,被配置为基于所述处理后的频繁字符串所属的句子,采用条件随机场CRF算法识别出所述处理后的频繁字符串中的命名实体。
17.一种用于加载输入法词库的装置,其特征在于,所述装置包括:
判断模块,被配置为判断是否加载有当前浏览的网站的输入法关联词库;
查找模块,被配置为在未加载所述输入法关联词库时,基于所述网站的网站标识从预存的输入法词库中查找所述输入法关联词库;
词库创建模块,被配置为在未查找出所述输入法关联词库时,创建所述输入法关联词库;
加载模块,被配置为将创建的所述输入法关联词库加载到内存中,以供输入法程序调用;
其中,所述词库创建模块包括:
第一获取模块,被配置为获取当前浏览的网站的网页的文本信息;
提取模块,被配置为基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
第二获取模块,被配置为获取所述频繁字符串中的命名实体;
创建模块,被配置为基于所述命名实体创建所述当前浏览的网站的输入法关联词库;
其中,所述创建模块包括:
计算子模块,被配置为计算每个所述命名实体在所述当前浏览的网站中的权重值;
提取子模块,被配置为提取出所述权重值大于等于预定权重值的命名实体;
词库创建子模块,被配置为将提取出的所述命名实体作为元素,创建所述当前浏览的网站的输入法关联词库。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
存储模块,被配置为将创建的所述输入法关联词库与所述输入法关联词库的相关信息进行关联地存储,其中,所述输入法关联词库的相关信息包括所述输入法关联词库对应的网站的网站标识。
19.根据权利要求18所述的装置,其特征在于,
所述输入法关联词库相关信息还包括所述输入法关联词库的创建时间;
所述装置还包括:
检测模块,被配置为基于已存储的所述输入法关联词库对应的创建时间,检测出已过预定使用期的所述输入法关联词库;
删除模块,被配置为删除所述已过预定使用期的所述输入法关联词库。
20.一种用于加载输入法词库的装置,其特征在于,所述装置包括:
接收模块,被配置为接收终端发送的获取指定网站的输入法关联词库的请求;
查找模块,被配置为基于所述请求中包含的所述指定网站的网站标识从预存的输入法词库中查找已创建的所述输入法关联词库;
词库创建模块,被配置为在未查找出所述输入法关联词库时,创建所述输入法关联词库;
发送模块,被配置为向所述终端发送创建的所述输入法关联词库,以供所述终端加载所述输入法关联词库;
其中,所述词库创建模块包括:
第一获取模块,被配置为获取所述指定网站的网页的文本信息;
提取模块,被配置为基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
第二获取模块,被配置为获取所述频繁字符串中的命名实体;
创建模块,被配置为基于所述命名实体创建所述指定网站的输入法关联词库;
其中,所述创建模块包括:
计算子模块,被配置为计算每个所述命名实体在所述指定网站中的权重值;
提取子模块,被配置为提取出所述权重值大于等于预定权重值的命名实体;
词库创建子模块,被配置为将提取出的所述命名实体作为元素,创建所述指定网站的输入法关联词库。
21.根据权利要求20所述的装置,其特征在于,所述装置还包括:
存储模块,被配置为将创建的所述输入法关联词库与所述输入法关联词库的相关信息进行关联地存储,其中,所述输入法关联词库的相关信息包括所述输入法关联词库对应的网站的网站标识。
22.根据权利要求21所述的装置,其特征在于,所述装置还包括:
所述输入法关联词库的相关信息还包括所述输入法关联词库的创建时间;
所述装置还包括:
检测模块,被配置为基于已存储的所述输入法关联词库对应的创建时间,检测出已过预定使用期的所述输入法关联词库;
更新模块,被配置为更新所述已过预定使用期的所述输入法关联词库。
23.一种输入法词库的创建装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库;
其中,所述基于所述命名实体创建所述指定网站的输入法关联词库,包括:
计算每个所述命名实体在所述指定网站中的权重值;
提取出所述权重值大于等于预定权重值的命名实体;
将提取出的所述命名实体作为元素,创建所述指定网站的输入法关联词库。
24.一种终端,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
判断是否加载有当前浏览的网站的输入法关联词库;
若未加载所述输入法关联词库,基于所述网站的网站标识从预存的输入法词库中查找所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
将创建的所述输入法关联词库加载到内存中,以供输入法程序调用;
其中,所述输入法关联词库通过如下方法创建:
获取当前浏览的网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述当前浏览的网站的输入法关联词库;
其中,所述基于所述命名实体创建所述当前浏览的网站的输入法关联词库,包括:
计算每个所述命名实体在所述当前浏览的网站中的权重值;
提取出所述权重值大于等于预定权重值的命名实体;
将提取出的所述命名实体作为元素,创建所述当前浏览的网站的输入法关联词库。
25.一种服务器,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收终端发送的获取指定网站的输入法关联词库的请求;
基于所述请求中包含的所述指定网站的网站标识从预存的输入法词库中查找已创建的所述输入法关联词库;
若未查找出所述输入法关联词库,创建所述输入法关联词库;
向所述终端发送创建的所述输入法关联词库,以供所述终端加载所述输入法关联词库;
其中,所述输入法关联词库通过如下方法创建:
获取所述指定网站的网页的文本信息;
基于所述文本信息提取频繁字符串,所述频繁字符串出现的频繁程度大于等于预定的频繁程度;
获取所述频繁字符串中的命名实体;
基于所述命名实体创建所述指定网站的输入法关联词库;
其中,所述基于所述命名实体创建所述指定网站的输入法关联词库,包括:
计算每个所述命名实体在所述指定网站中的权重值;
提取出所述权重值大于等于预定权重值的命名实体;
将提取出的所述命名实体作为元素,创建所述指定网站的输入法关联词库。
CN201510982390.1A 2015-12-23 2015-12-23 输入法词库的创建及加载方法、装置、终端及服务器 Active CN105653058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510982390.1A CN105653058B (zh) 2015-12-23 2015-12-23 输入法词库的创建及加载方法、装置、终端及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510982390.1A CN105653058B (zh) 2015-12-23 2015-12-23 输入法词库的创建及加载方法、装置、终端及服务器

Publications (2)

Publication Number Publication Date
CN105653058A CN105653058A (zh) 2016-06-08
CN105653058B true CN105653058B (zh) 2019-03-12

Family

ID=56476751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510982390.1A Active CN105653058B (zh) 2015-12-23 2015-12-23 输入法词库的创建及加载方法、装置、终端及服务器

Country Status (1)

Country Link
CN (1) CN105653058B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109725738A (zh) * 2017-10-31 2019-05-07 北京金山安全软件有限公司 一种基于命名实体的信息展示方法、装置及***
CN109597498B (zh) * 2018-11-29 2021-01-19 北京蓦然认知科技有限公司 一种词库维护管理方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和***
CN101271459A (zh) * 2007-03-22 2008-09-24 北京搜狗科技发展有限公司 一种生成词库的方法、一种输入的方法和一种输入法***
CN103377217A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 专业英语词库的建构方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101099010B1 (ko) * 2010-03-05 2011-12-28 엔에이치엔(주) 온라인 사전 서비스 제공 방법 및 장치, 그 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체
CN104063400B (zh) * 2013-03-22 2017-05-24 腾讯科技(深圳)有限公司 数据搜索方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和***
CN101271459A (zh) * 2007-03-22 2008-09-24 北京搜狗科技发展有限公司 一种生成词库的方法、一种输入的方法和一种输入法***
CN103377217A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 专业英语词库的建构方法及***

Also Published As

Publication number Publication date
CN105653058A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105488112B (zh) 信息推送方法及装置
CN111581488B (zh) 一种数据处理方法及装置、电子设备和存储介质
CN108121736B (zh) 一种主题词确定模型的建立方法、装置及电子设备
US20150154303A1 (en) System and method for providing content recommendation service
CN107330019A (zh) 搜索方法及装置
CN105740263B (zh) 页面显示方法和装置
CN109614482A (zh) 标签的处理方法、装置、电子设备及存储介质
CN111125344B (zh) 相关词推荐方法和装置
CN104636164B (zh) 启动页面生成方法及装置
US20210374470A1 (en) Method for optimizing image classification model, and terminal and storage medium thereof
CN106341481A (zh) 信息推送的处理方法、装置和设备
CN108073606A (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN109144285A (zh) 一种输入方法和装置
CN105930536A (zh) 索引建立方法、页面跳转方法及装置
CN104111979A (zh) 搜索推荐方法和装置
CN107515870B (zh) 一种搜索方法和装置、一种用于搜索的装置
KR101777035B1 (ko) 주소 필터링 방법, 장치, 프로그램 및 기록매체
CN113705210A (zh) 一种文章大纲生成方法、装置和用于生成文章大纲的装置
CN111046210A (zh) 一种信息推荐方法、装置和电子设备
CN104572848B (zh) 基于浏览器的搜索方法及装置
CN105653058B (zh) 输入法词库的创建及加载方法、装置、终端及服务器
WO2013029239A1 (zh) 词库更新装置、输入***和输入方法及终端
CN105187597B (zh) 一种语音记录的管理方法、装置及其移动终端
CN114816180A (zh) 一种内容浏览引导方法、装置、电子设备和存储介质
CN106209889B (zh) 检测网页中劫持信息的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant