CN101364220A - 基于用户特性的词频库的生成方法 - Google Patents

基于用户特性的词频库的生成方法 Download PDF

Info

Publication number
CN101364220A
CN101364220A CNA2007101707166A CN200710170716A CN101364220A CN 101364220 A CN101364220 A CN 101364220A CN A2007101707166 A CNA2007101707166 A CN A2007101707166A CN 200710170716 A CN200710170716 A CN 200710170716A CN 101364220 A CN101364220 A CN 101364220A
Authority
CN
China
Prior art keywords
word frequency
user
webpage
frequency base
generation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101707166A
Other languages
English (en)
Inventor
林正昱
王正明
林国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI APE-TECH CORP
Original Assignee
SHANGHAI APE-TECH CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI APE-TECH CORP filed Critical SHANGHAI APE-TECH CORP
Priority to CNA2007101707166A priority Critical patent/CN101364220A/zh
Publication of CN101364220A publication Critical patent/CN101364220A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于用户特性的词频库的生成方法,特别是涉及一种实时更新的、个性化的基于用户特性的词频库的生成方法包括用户通过浏览器访问网页、浏览器调用取词插件、对网页信息进行分词处理、对词条进行词频统计和保存并实时更新词频库等步骤。本发明的基于用户特性的词频库的生成方法实时更新,无需下载,不需要进行更新操作,不需要对所有网页进行处理,只要分析个体用户所浏览的网页,用户特性的个性化词频库,成本低,可操作性强。

Description

基于用户特性的词频库的生成方法
技术领域
本发明涉及一种基于用户特性的词频库的生成方法,特别是涉及一种实时更新的、个性化的基于用户特性的词频库的生成方法。
背景技术
输入法为了提高输入速度都支持词组方式的输入,因此在某种意义上来说,词库的容量以及词的使用频率成了影响输入速度的重要因素。在较早的输入法中,词库的容量在第一次安装时便确定下来,不会自动更新。但是随着信息时代的来临,不断会有新的词组加入到日常交流中来,这些词都无法自动在这些输入法的词库中体现出来。
为了解决这些问题,Google和Sogou的输入法都提供了自动更新词库的功能。由于两家公司都有自己的搜索引擎,因此他们会收集用户在搜索引擎上搜索最多的词,把这些词定期整理到一个词库中并放到服务器上,供他们的输入法定期下载更新。这种方式解决了词库中的词无法自动更新的问题,但是这些更新的词都是热门词,但并不一定是当前输入法使用者关心的内容;同时这些新的词都需要通过网络下载来获得,这样的方式在用户网络不太好的情况下会影响用户获得最新的词库。
中国发明专利申请200610086577.4“基于互联网信息的输入法词频库的生成方法和***”公开了一种基于互联网信息的输入法词频库的生成方法,通过网络爬虫技术获取互联网的网页,对网页进行分词处理统计后保存到词频库,该方法所得到的词频库是基于非常庞大的互联网网页,每个网站都需要分配一只爬虫时刻关注,可想而知有一个非常巨大的工作量和超量的投入,所提供的词也是普遍关心的热门词,并且该方法的词频库是通过定期下载更新来实现的。
世上三百六十行,每个行业都有其特殊性,所有人都很乐意把自己最关心的词用最快的速度得到表达。比如专利工作者希望把和专利相关联的词排序尽量靠前,如专利申请常用到“背景”一词,在输入拼音“beijing”后几乎无一例外地会把“北京”排在第一位,而前面所述的现有技术统计结果肯定也是“北京”多于“背景”,但是在北京以外地方从事专利工作的人或许用到“背景”的次数远远超过“北京”,他们希望“背景”能够排在词序第一位。另外,由于用户每天会访问很多网页,每个网页的关键词都会被记入到词库中去。有些词会是用户需要的,但并不是所有的词都如此,因此浏览器插件把这些词加入词频库后,并不会调整它的词频到最前面。打个比方说,一个婚庆行业的人,那么“新郎”加入的他的词频库中并被列为第一位是正确的,但是如果他连续访问新浪网站看新闻,“新浪”也进入了他的词频库,而且还超过了“新郎”排在了第一个就不太合适了。
综上所述,现有技术提供的都是热门词,是使用频率比较多的词,代表了普遍性;同时这些新的词都需要通过网络定期下载来获得,这样的方式在用户网络不太好的情况下更会影响用户获得最新的词库,而且经常要进行更新操作。每个人都希望词频库是当前输入法使用者关心的内容,这就需要词频库具备个性化特点,并且具备即时更新功能。
发明内容
本发明的目的是提供一种基于用户特性的词频库的生成方法,也就是提供一种实时更新的、个性化的基于用户特性的词频库的生成方法。为了解决目前输入法对词库更新的问题,本发明通过浏览器与取词插件的结合,在用户浏览网页的时候,就会自动对网页内容进行分析,获得用户关注的内容,并把这些内容作为词加入到输入法词库中。
本发明解决了词频库需要通过定期下载更新、无法实时更新的问题,弥补了现有技术只能针对大众而不能体现个性化的不足。
本发明的基于用户特性的词频库的生成方法通过用户浏览互联网网页或本地网页,由取词插件调用Html分析器分析用户访问网页的内容,取词插件是一个浏览器的扩展,具有同浏览器进行通信的能力,能获得浏览器当前的状态,并改变浏览器的默认行为。通过它来实现对用户访问过的网页进行分析,并将结构记录入指定位置,Html分析器调用Html解释器,请求网页的抽象语法树,Html解释器返回网页的抽象语法树,浏览器调用Html分析器请求对取得的抽象语法树进行分析,Html分析器取到抽象语法树中属性为Meta,Title等存放网页关键内容的节点,返回网页关键词,浏览器调用Html分析器对取得的网页关键词进行分词,Html分析器返回分词后的词组列表,浏览器把所有找出的词组,调用输入法的添加词组方法,输入法添加词组方法把收到的词组存入到词库中去。
作为优选的技术方案:
基于用户特性的词频库的生成方法,包括以下步骤:
(1)用户通过浏览器访问网页;
(2)浏览器调用取词插件;
(3)对网页信息进行分词处理;
(4)对词条进行词频统计;
(5)保存并实时更新词频库。
所述的网页包括互联网的网页和本地网页。
所述的本地网页包括局域网网页和本地硬盘上的网页。
所述的用户是单台终端的个体用户。
所述的取词插件仅在每个被激活的网页中进行分析。
所述的步骤不间断循环。
本发明的有益效果是:
1、实时更新,无需下载,不需要进行更新操作;
2、不需要对所有网页进行处理,只要分析个体用户所浏览的网页;
3、用户特性的个性化词频库;
4、成本低,可操作性强;
5、包括搜索引擎搜索不到的局域网或本地网页内容。
附图说明
图1是本发明实施例的抽象语法树图。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
实施例1
假设词频库中有且仅有拼音为“Xing’Lang”“新郎”这个词组。某天用户访问了www.sina.com.cn,拼音同样为”Xing’Lang”“新浪”的词组被加入到了词频库中,但“新浪”是排在了“新郎”之后。原因在于用户每天会访问很多网页,每个网页的关键词都会被记入到词库中去。有些词会是用户需要的,但并不是所有的词都如此,因此浏览器插件把这些词加入词频库后,并不会调整它的词频到最前面。某天用户需要输入“新浪”,他只要输入“Xing’Lang”,输入法会依此列出“新郎”于“新浪”之前,用户选中第二个词“新浪”。之后某天用户需要再次输入“新浪”他只要输入“Xing’Lang”,这次输入法列出的顺序改变成了“新浪”、“新郎”,第一个词即为他需要的“新浪”。反之亦然,浏览器插件不会因为经常访问新浪网而使“新浪”永远排在第一位。
实施例2
获得网页的关键词,以如下网页为例:
Figure A200710170716D00071
通过Html解释器获得抽象语法树(见附图1)。
对于抽象语法树的Meta节点来说,包含两个属性Name与Content,其中Content被绝大多数网站用来表示网页的关键内容,这些内容往往是由符号分隔的词组或短语。Html分析器负责把相关的节点(类似于Meta表示或包含网页关键内容的节点)的包含关键内容的属性取出,并对这些内容进行进一步的细分,分成用户可以接受的词组。
经多次试验证明,本发明基于用户特性的词频库的生成方法确实能够实时更新,无需下载,不需要进行更新操作;本发明不需要对所有网页进行处理,只要分析个体用户所浏览的网页;本发明得到了用户特性的个性化词频库;本发明的成本低,可操作性强,包括搜索引擎搜索不到的局域网或本地网页内容。

Claims (6)

1.基于用户特性的词频库的生成方法,包括以下步骤:
(1)用户通过浏览器访问网页;
(2)浏览器调用取词插件;
(3)对网页信息进行分词处理;
(4)对词条进行词频统计;
(5)保存并实时更新词频库。
2.如权利要求1所述的词频库的生成方法,其特征在于所述的网页包括互联网的网页和本地网页。
3.如权利要求1或2所述的网页,其特征在于所述的本地网页包括局域网网页和本地硬盘上的网页。
4.如权利要求1所述的词频库的生成方法,其特征在于所述的用户是单台终端的个体用户。
5.如权利要求1所述的词频库的生成方法,其特征在于所述的取词插件仅在每个被激活的网页中进行分析。
6.如权利要求1所述的词频库的生成方法,其特征在于所述的步骤不间断循环。
CNA2007101707166A 2007-11-21 2007-11-21 基于用户特性的词频库的生成方法 Pending CN101364220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101707166A CN101364220A (zh) 2007-11-21 2007-11-21 基于用户特性的词频库的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101707166A CN101364220A (zh) 2007-11-21 2007-11-21 基于用户特性的词频库的生成方法

Publications (1)

Publication Number Publication Date
CN101364220A true CN101364220A (zh) 2009-02-11

Family

ID=40390591

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101707166A Pending CN101364220A (zh) 2007-11-21 2007-11-21 基于用户特性的词频库的生成方法

Country Status (1)

Country Link
CN (1) CN101364220A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399890A (zh) * 2013-07-22 2013-11-20 百度在线网络技术(北京)有限公司 在输入法客户端收集字词的方法和设备
CN103425742A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种网站的搜索方法和装置
CN103823849A (zh) * 2014-02-11 2014-05-28 百度在线网络技术(北京)有限公司 词条的获取方法及装置
CN106933379A (zh) * 2017-02-13 2017-07-07 北京奇虎科技有限公司 一种词库的生成方法和装置
CN113515618A (zh) * 2020-04-09 2021-10-19 北京搜狗科技发展有限公司 语音处理方法、装置和介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425742A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种网站的搜索方法和装置
CN103399890A (zh) * 2013-07-22 2013-11-20 百度在线网络技术(北京)有限公司 在输入法客户端收集字词的方法和设备
CN103399890B (zh) * 2013-07-22 2016-10-26 百度在线网络技术(北京)有限公司 在输入法客户端收集字词的方法和设备
CN103823849A (zh) * 2014-02-11 2014-05-28 百度在线网络技术(北京)有限公司 词条的获取方法及装置
WO2015120713A1 (zh) * 2014-02-11 2015-08-20 百度在线网络技术(北京)有限公司 词条的获取方法、装置、计算机存储介质及设备
CN106933379A (zh) * 2017-02-13 2017-07-07 北京奇虎科技有限公司 一种词库的生成方法和装置
CN113515618A (zh) * 2020-04-09 2021-10-19 北京搜狗科技发展有限公司 语音处理方法、装置和介质

Similar Documents

Publication Publication Date Title
JP5205684B2 (ja) ブックマーク管理システム及びブックマーク管理方法
CN107463591B (zh) 响应于搜索查询对待与内容匹配的图像动态排序的方法和***
US8832058B1 (en) Systems and methods for syndicating and hosting customized news content
CA2673110C (en) Method and system for intellegent processing of electronic information
JP5133984B2 (ja) 入力候補提供装置、入力候補提供システム、入力候補提供方法、および入力候補提供プログラム
US20090006388A1 (en) Search result ranking
US20050091203A1 (en) Method and apparatus for improving the readability of an automatically machine-generated summary
US20080177731A1 (en) Data processing apparatus, data processing method and search apparatus
CN101853308A (zh) 一种个性化元搜索的方法及其应用终端
US20100125781A1 (en) Page generation by keyword
JP2002073677A (ja) 閲覧者の個人嗜好情報収集装置およびこれを利用した情報閲覧支援装置
CN101188521B (zh) 一种挖掘用户行为数据的方法和网站服务器
Sethi et al. A novel page ranking mechanism based on user browsing patterns
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
CN101364220A (zh) 基于用户特性的词频库的生成方法
JPWO2007046445A1 (ja) 検索装置及び検索方法
JP4469432B2 (ja) インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20020022977A (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
JP2002149668A (ja) インターネット補助ソフトウェア及び該プログラムを記録した記録媒体
Liu et al. Digging for gold on the Web: Experience with the WebGather
CN102375835B (zh) 一种信息搜索***和方法
KR100839619B1 (ko) 인터넷 검색 이력 관리방법
JP2006235882A (ja) 複数情報の閲覧方法およびシステム
JPWO2002044946A1 (ja) サーチエンジン、検索システム、検索システムにおけるデータベース作成方法、および記憶媒体
JP5559725B2 (ja) 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Shanghai Ape-Tech Corp.

Document name: the First Notification of an Office Action

DD01 Delivery of document by public notice

Addressee: Shanghai Ape-Tech Corp.

Document name: Notification that Application Deemed to be Withdrawn

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090211