CN104008126A - 一种基于网页内容分类进行分词处理的方法和装置 - Google Patents

一种基于网页内容分类进行分词处理的方法和装置 Download PDF

Info

Publication number
CN104008126A
CN104008126A CN201410126465.1A CN201410126465A CN104008126A CN 104008126 A CN104008126 A CN 104008126A CN 201410126465 A CN201410126465 A CN 201410126465A CN 104008126 A CN104008126 A CN 104008126A
Authority
CN
China
Prior art keywords
participle
word segmentation
classification
word
text message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410126465.1A
Other languages
English (en)
Inventor
项碧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410126465.1A priority Critical patent/CN104008126A/zh
Publication of CN104008126A publication Critical patent/CN104008126A/zh
Priority to PCT/CN2014/093396 priority patent/WO2015149533A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于网页内容分类进行分词处理的方法和装置,所述的方法包括:提取搜索资源中网页内容的文本信息;依据所述网页内容类别划分所述文本信息所属类别;按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理。本发明实施例对搜索资源中网页内容的文本信息划分类别,基于该类别的分词词典对本文信息进行分词,更好地适应不同类别的语言特性,同时也提高了不同类别的分词准确度,实现了局部分词的最优处理;并且,分词准确度的提高,更加贴近用户的意图,提升了用户体验,继而减少了用户重新输入、搜索等操作,提高了操作的简便性,同时也减少了设备对用户操作的响应,减少了设备***资源的耗费。

Description

一种基于网页内容分类进行分词处理的方法和装置
技术领域
本发明涉及搜索的技术领域,特别是涉及一种基于网页内容类别进行分词处理的方法和一种基于网页内容类别进行分词处理的装置。
背景技术
随着互联网的高速发展,网络应用趋向多元化,网上的信息量急剧增加。
在各种场合下,用户经常需要输入关键信息进行关联信息的获取。例如,在搜索引擎中输入关键词搜索网页信息、在论坛中输入关键词搜索帖子等等。
分词是进行信息处理、信息检索的基础,所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中,而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程,同时由于中文语言的固有的特性:没有明确的词的定义、词和词之间没有分隔符、新词、专有名词不断涌现等这些因素导致分词很难做到100%的准确。
当前分词***使用的主要方法是基于统计的分词。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。
一方面,分词的结果错误致使后期获取的关联信息与当初的预期有很大差别,用户体验十分差,浪费了设备***资源。另一方面,用户需要获取关联信息,会再次输入关键信息进行搜索,设备要再次进行海量信息的搜索、对比、筛选等获取与搜索关键词相关的信息,不仅用户操作更加繁琐,耗费用户的时间,而且将大大增加设备的负担,耗费更多的设备资源。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于网页内容类别进行分词处理的方法和相应的一种基于网页内容类别进行分词处理的装置。
依据本发明的一个方面,提供了一种基于网页内容类别进行分词处理的方法,包括:
提取搜索资源中网页内容的文本信息;
依据所述网页内容类别划分所述文本信息所属类别;
按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理。
可选地,还包括:
针对所述类别,采用分词处理获得的第一分词建立倒排索引。
可选地,所述针对所述类别,采用分词处理获得的第一分词建立倒排索引的步骤包括:
针对所述类别,记录出现的所述类别对应的第一分词的出现位置;
将所述第一分词及其对应的出现位置记录在倒排索引中。
可选地,所述分词词典通过以下方式生成:
获取第一训练文档;
划分所述第一训练文档所属类别;
对所述类别对应的所述第一训练文档进行分词处理,获得第二分词;
统计所述类别对应的所述第二分词的词频数和第一同现率;
采用所述第二分词及其第一同现率生成所述类别对应的分词词典。
可选地,所述第一同现率包括第一词频数与第二词频数的比值;
其中,所述第一词频数包括当前第二分词出现在目标第二分词之后的词频数;所述目标第二分词包括出现在当前环境分词之前的一个或多个第二分词;
所述第二词频数包括所述目标第二分词总的词频数。
可选地,所述分词词典通过以下方式更新:
获取第二训练文档;
划分所述第二训练文档所属的类别;
按照所述类别对应的分词词典,对所述文本信息进行分词处理,获得第三分词
统计所述类别对应的所述第三分词的词频数和第二同现率;
采用所述第三分词及其第二同现率更新所述类别对应的分词词典。
可选地,所述第二同现率包括第三词频数与第四词频数的比值;
其中,所述第三词频数包括当前第三分词出现在目标第三分词之后的词频数;所述目标第三分词包括出现在当前环境分词之前的一个或多个第三分词;
所述第四词频数包括所述目标第三分词总的词频数。
可选地,所述按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理的步骤包括:
按照所述文本信息所属类别对应的分词词典,以及通用词典,对所述文本信息进行分词处理;
将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
可选地,所述按照所述文本信息所属的类别对应的分词词典,对所述文本信息进行分词处理的步骤包括:
当所述文本信息所属的类别为多个时,分别按照所述类别对应的分词词典,对所述文本信息进行分词处理;
将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
根据本发明的另一方面,提供了一种基于网页内容类别进行分词处理的装置,包括:
提取模块,适于提取搜索资源中网页内容的文本信息;
划分模块,适于依据所述网页内容类别划分所述文本信息所属类别;
分词模块,适于按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理。
可选地,还包括:
建立模块,适于针对所述类别,采用分词处理获得的第一分词建立倒排索引。
可选地,所述建立模块还适于:
针对所述类别,记录出现的所述类别对应的第一分词的出现位置;
将所述第一分词及其对应的出现位置记录在倒排索引中。
可选地,所述分词词典通过以下方式生成:
获取第一训练文档;
划分所述第一训练文档所属类别;
对所述类别对应的所述第一训练文档进行分词处理,获得第二分词;
统计所述类别对应的所述第二分词的词频数和第一同现率;
采用所述第二分词及其第一同现率生成所述类别对应的分词词典。
可选地,所述第一同现率包括第一词频数与第二词频数的比值;
其中,所述第一词频数包括当前第二分词出现在目标第二分词之后的词频数;所述目标第二分词包括出现在当前环境分词之前的一个或多个第二分词;
所述第二词频数包括所述目标第二分词总的词频数。
可选地,所述分词词典通过以下方式更新:
获取第二训练文档;
划分所述第二训练文档所属的类别;
按照所述类别对应的分词词典,对所述文本信息进行分词处理,获得第三分词
统计所述类别对应的所述第三分词的词频数和第二同现率;
采用所述第三分词及其第二同现率更新所述类别对应的分词词典。
可选地,所述第二同现率包括第三词频数与第四词频数的比值;
其中,所述第三词频数包括当前第三分词出现在目标第三分词之后的词频数;所述目标第三分词包括出现在当前环境分词之前的一个或多个第三分词;
所述第四词频数包括所述目标第三分词总的词频数。
可选地,所述分词模块还适于:
按照所述文本信息所属类别对应的分词词典,以及通用词典,对所述文本信息进行分词处理;
将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
可选地,所述分词模块还适于:
当所述文本信息所属的类别为多个时,分别按照所述类别对应的分词词典,对所述文本信息进行分词处理;
将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
本发明实施例对搜索资源中网页内容的文本信息划分类别,基于该类别的分词词典对本文信息进行分词,更好地适应不同类别的的语言特性,同时也提高了不同类别的分词准确度,实现了局部分词的最优处理;并且,分词准确度的提高,更加贴近用户的意图,提升了用户体验,继而减少了用户重新输入、搜索等操作,提高了操作的简便性,同时也减少了设备对用户操作的响应,减少了设备***资源的耗费。
本发明实施例对搜索资源中网页内容的文本信息划分类别,基于该类别的分词词典对本文信息进行分词,再采用分词处理获得的第一分词建立倒排索引,避免了基于全局文本信息的倒排索引的单一性和片面性,提升了在各个类别中倒排索引的准确率,继而提升了倒排索引的索引运行效率,减少索引的时间;并且,搜索资源中网页的文本信息包括新、奇、特等各种符合该类别语言特性的文本信息,利用搜索资源中搜集的他人和集体的智慧,弥补了自身定义、自己人工的不足,大大减少了人工运营成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种基于网页内容类别进行分词处理的方法实施例的步骤流程图;以及
图2示出了根据本发明一个实施例的一种基于网页内容类别进行分词处理的装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种基于网页内容类别进行分词处理的方法实施例的步骤流程图,可以包括如下步骤:
步骤101,提取搜索资源中网页内容的文本信息;
搜索引擎的处理流程一般可以分为二个部分,第一部分是前端用户请求,第二部分是后端制作数据。
一、前端用户请求处理过程可以包括:
1.用户输入关键字;
2.查询词分析,搜索引擎对关键字分词;
3.检索,根据分词结果,从事先制作的索引中,找出相关的网页集合;
4.排序,对候选的网页集合,根据内容相关性、时效性等维度进行排序;
5.展现:将排序后的网页进行展现。
二、后端制作数据过程可以包括:
1.网页抓取,爬虫通过网页间的链接关系,抓取互联网的网页并保存;
2.索引制作,对已抓取保存的网页进行分析,对网页标题和页面文本分词,根据分词结果制作倒排索引,供前端检索使用。
爬虫抓取的网页可以保存在网页数据库中形成大量的搜索资源,而网页内容中可以包括大量的文本信息。则在本发明实施例中,可以从网页数据库中提取搜索资源中网页内容的文本信息。
步骤102,依据所述网页内容类别划分所述文本信息所属类别;
在一种情形中,可以基于网页的网址获得网页类别,再依据网页类别划分文本信息所属类别。例如,动漫领域的网页网址一般带有“comic”标识的域名,体育领域的网页网址一般带有“sports”标识的域名,如comic.XXX.com,sports.XXX.com,在网页网址中检测出“comic”或“sports”标识的域名时,则可以识别出该网页类别为动漫领域或体育领域,继而可以将文本信息划分为动漫领域或体育领域。
在又一种情形中,访问的网页通常带有标签(tag)信息,可以基于标签信息获得网页类别,再依据网页类别划分文本信息所属类别。例如,某网页带有视频、电影、喜剧电影等标签信息,则可以识别出该网页类别为电影领域,继而将文本信息划分为电影领域。
再一种情况中,可以分析网页内容标题(topic)中特定词获知网页类别,比如标题中含有篮球、足球、NBA或世界杯等特定词可知是体育领域。
在又一种情形中,可以在网页导航(比如面包屑导航BreadcrumbTrail)中获知网页类别,再依据网页类别划分文本信息所属类别。面包屑导航通常在页面顶部水平出现,一般会位于标题或页头的下方。面包屑导航提供给用户返回之前任何一个页面的链接(这些链接也是能到达当前页面的路径),在层级架构中通常是这个页面的父级页面。面包屑导航提供给用户回溯到网站首页或入口页面的一条路径,通常是以大于号(>)出现,还有一些设计是其他的符号(如>>)。例如,“首页>分类页>次级分类页”或者“首页>>分类页>>次级分类页”。从面包屑导航中分类即可获知网页的自定义分类,例如网页的面包屑导航为“XX门户网站>体育>中国足球>中超”,其对应的网页分类为体育、中国足球、中超,选取与本发明实施例实际应用中匹配的分类即可。
需要说明的是,本发明实施例可以根据实际需要,划分类别的等级,例如,对于体育领域,除了可以划分针对整个体育领域的类别外,也可以划分篮球、足球等下一级的类别,还可以划分NBA(National BasketballAssociation,国家篮球协会)、CBA(Chinese Basketball Association,中国篮球协会)、西甲(西班牙足球甲级联赛)、中超(中国足球超级联赛)等更下一级的类别,本发明实施例对此不加以限制。
而随着类别的等级划分精度越高,其所收集的文本信息重叠的概率也就越低,反之精确就越高,则本发明实施例中分词的精确度也会越高。
步骤103,按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理。
在具体实现中,每一个类别都可以对应有一个特定的分词词典,以对文本信息进行合乎该类别语言特点的分词。
在本发明的一种优选实施例中,所述分词词典可以通过以下方式生成:
子步骤S11,获取第一训练文档;
在本发明实施中,第一训练文档可以为搜索资源中网页的文本信息。
子步骤S12,划分所述第一训练文档所属类别;
在具体实现中,当第一训练文档可以为搜索资源中网页的文本信息时,可以依据该网页类别划分第一训练文档所属类别。
需要说明的是,由于子步骤S11、子步骤S12与步骤101、步骤102的应用基本相似,所以描述的比较简单,相关之处参见步骤101、步骤102的部分说明即可,本发明实施例在此不加以详述。
子步骤S13,对所述类别对应的所述第一训练文档进行分词处理,获得第二分词;
应用本发明实施例,可以采用通用的分词词典第一训练文档进行分词处理。通用的分词词典可以是通用领域的分词词典,没有特定的具体领域中的技术术语划分,比如中草药领域的当归、草乌等,其主要包含通用的、出现频率高于预设阈值的词条。具体地,通用的分词词典中可以包括通用词和确定意义词。通用词可以包括形容词、连词和一些通用意义的动词,例如高兴、但是、参加等。确定意义词可以为能够表达一定意义范围的词,通常是一些名词和动词。
子步骤S14,统计所述类别对应的所述第二分词的词频数和第一同现率;
在本发明实施例的一种优选示例中,可以基于第二分词训练N-Gram模型。
则在此示例中,第一同现率可以为两个或两个以上第二分词同时出现的概率。具体地,所述第一同现率可以包括第一词频数与第二词频数的比值;
其中,所述第一词频数包括当前第二分词出现在目标第二分词之后的词频数;所述目标第二分词包括出现在当前环境分词之前的一个或多个第二分词;
所述第二词频数包括所述目标第二分词总的词频数。
N-Gram模型为大词汇连续语音识别中常用的一种语言模型,基于马尔科夫假设,即一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。对于一个句子T,可以假设T是由词序列W1,W2,W3,…,Wn组成,那么这个句子T由W1,W2,W3,…,Wn连接组成的连接概率为P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)。
如果一个词的出现仅依赖于它前面出现的一个词,则称之为bigram。即P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)。
如果一个词的出现仅依赖于它前面出现的两个词,则称之为trigram。在N-Gram模型的实际应用中以bigram和trigram为主,而高于四元的N-Gram模型应用较少,因为训练四元的N-Gram模型需要更庞大的语料,而且数据稀疏严重,时间复杂度高,精度却提高的不多。
以下以文本信息“I want to eat Chinese food lunch”为例进行说明:
对某个环境类型中的第二文本信息“I want eat Chinese food lunch”进行分词,得到第二分词“I”、“want”、“to”、“eat”、“Chinese”、“food”、“lunch”,该第二分词及其词频数表1和表2所示。
表1第二分词的总词频数统计表
第二分词 总词频数
I 3437
want 1215
to 3256
eat 938
Chinese 213
food 1506
lunch 459
表2当前第二分词出现在目标第二分词前的词频数统计表
I want to eat Chinese food lunch
I 8 1087 0 13 0 0 0
want 3 0 786 0 6 8 6
to 3 0 10 860 3 0 12
eat 0 0 2 0 19 2 52
Chinese 2 0 0 0 0 120 1
food 19 0 17 0 0 0 0
lunch 4 0 0 0 0 1 0
例如,第二行第三列中的1087表示当前第二分词“want”出现在目标第二分词“I”后面的词频数为1087。
子步骤S15,采用所述第二分词及其第一同现率生成所述类别对应的分词词典。
在基于分词词典的分词过程中,一般用到的查询方式可以包括:哈希查询、TRIE树(又称单词查找树或键树)查询、二分查询和顺序查询等等。而在实际的分词过程中可以用到多种查询方式,例如在哈希机制的分词词典中,可以采用哈希查询和二分查询相结合的方式,在TRIE机制的分词词典中采用了TRIE树查询和二分查询相结合的方式,将多种查询方式相结合进行查询,可以提高查询效率。
则在本发明实施例中,可以按照哈希查询、TRIE树查询、二分查询和顺序查询等等查询方式中的一种或多种形成的查询机制,生成分词词典,以实现哈希查询、TRIE树查询、二分查询和顺序查询等等查询方式中的一种或多种形成的查询机制。
在本发明的一种优选实施例中,所述分词词典可以通过以下方式更新:
子步骤S21,获取第二训练文档;
在本发明实施中,第二训练文档可以为搜索资源中网页的文本信息。
子步骤S22,划分所述第二训练文档所属的类别;
在具体实现中,当第二训练文档可以为搜索资源中网页的文本信息时,可以依据该网页类别划分第二训练文档所属类别。
需要说明的是,由于子步骤S21、子步骤S22与步骤101、步骤102的应用基本相似,所以描述的比较简单,相关之处参见步骤101、步骤102的部分说明即可,本发明实施例在此不加以详述。
子步骤S23,按照所述类别对应的分词词典,对所述文本信息进行分词处理,获得第三分词;
应用本发明实施例,可以采用第二训练文档所属的类别对应的分词词典第二训练文档进行分词处理。对给定第二训练文档中待分词的字符串,按照某种确定的原则,例如正向最大匹配法(MM)、反向最大匹配法(RMM)或双向扫描法等等,切取字符串的子串,若该子串与分词词典中某词条相匹配,则认为该子串为第三分词,***切分标志,继续分割剩余的部分,知道剩余部分为空;否则该子串不是第三分词,重新切取字符串的子串进行下一次匹配。
子步骤S24,统计所述类别对应的所述第三分词的词频数和第二同现率;
在本发明实施例的一种优选示例中,可以基于第三分词训练N-Gram模型。
则在此示例中,第二同现率可以为两个或两个以上第三分词同时出现的概率。具体地,所述第二同现率可以包括第三词频数与第四词频数的比值;
其中,所述第三词频数包括当前第三分词出现在目标第三分词之后的词频数;所述目标第三分词包括出现在当前环境分词之前的一个或多个第三分词;
所述第四词频数包括所述目标第三分词总的词频数。
子步骤S25,采用所述第三分词及其第二同现率更新所述类别对应的分词词典。
在本发明实施例中,可以按照哈希查询、TRIE树查询、二分查询和顺序查询等等查询方式中的一种或多种形成的查询机制,更新分词词典。
在本发明的一种优选实施例中,可以直接采用该文本信息所属类别对应的分词词典,对文本信息进行分词处理。
在本发明的一种优选实施例中,步骤103可以包括如下子步骤:
子步骤S31,按照所述文本信息所属类别对应的分词词典,以及通用词典,对所述文本信息进行分词处理;
子步骤S32,将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
在本发明实施例中,可以同时使用文本信息所属类别对应的分词词典,以及通用词典(通用的分词词典)对文本信息进行分词处理。
例如,对于文本信息“人参与当归”,由于在整体语料中必然是“人”、“参与”的词频大于“人参”、“与”的词频,所以基于通用词典分词,这个文本信息会被切分成“人”、“参与”、“当归”,但显然这样切分其实是错误的。“人参与当归”这个文本信息经常出现在医疗保健类的文档中,如果基于其所属的医疗保健类的分词词典进行分词,这个信息会被切分成“人参”、“与”、“当归”。比较词频数之后,会发现“人参”的相对词频数会显著高于整体语料中的相对词频数,因此,最终会选取“人参”、“与”、“当归”作为“人参与当归”的分词结果。
在本发明的又一种优选实施例中,步骤103可以包括如下子步骤:
子步骤S41,当所述文本信息所属的类别为多个时,分别按照所述类别对应的分词词典,对所述文本信息进行分词处理;
子步骤S42,将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
在本发明实施例中,文本信息可以划分为多个类别,属于交叉领域。例如,关于飞机的文本信息的分类可以为机械领域,也可以为航空领域。
在此种交叉领域的情况中,可以分别基于所属分类对应的分词词典对本文信息进行分词处理,最终以词频最高的作为分词结果。
当前分词***使用的主要方法是基于统计的分词,简单的说就是在决定词的切分点的时候主要依靠候选词之间的词频、转移概率等信息。既然是统计,必然是满足大多数牺牲小部分,也就是说追求的是全局的统计意义上的最优,而非每个局部的最优,使得在局部的分词处理准确度很低。
本发明实施例对搜索资源中网页内容的文本信息划分类别,基于该类别的分词词典对本文信息进行分词,更好地适应不同类别的的语言特性,同时也提高了不同类别的分词准确度,实现了局部分词的最优处理;并且,分词准确度的提高,更加贴近用户的意图,提升了用户体验,继而减少了用户重新输入、搜索等操作,提高了操作的简便性,同时也减少了设备对用户操作的响应,减少了设备***资源的耗费。
在本发明的一种优选实施例中,还可以包括如下步骤:
步骤104,针对所述类别,采用分词处理获得的第一分词建立倒排索引。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件称为倒排索引文件,简称倒排文件(inverted file)。
倒排文件(倒排索引),索引对象是文档或者文档集合(例如网页)中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种常用的索引机制。
在本发明的一种优选实施例中,步骤104可以包括如下子步骤:
子步骤S51,针对所述类别,记录出现的所述类别对应的第一分词的出现位置;
子步骤S52,将所述第一分词及其对应的出现位置记录在倒排索引中。
在具体实现中,第一分词的出现位置可以包括出现的网页,或者,出现的网页及其在该网页中的位置。
以英文为例,以下为要被索引的网页中的文本信息:
T1="it is what it is";
T2="what is it";
T3="it is a banana";
以下为倒排索引:
"a":     {(2,2)}
"banana":{(2,3)}
"is":     {(0,1),(0,4),(1,1),(2,1)}
"it":     {(0,0),(0,3),(1,2),(2,0)}
"what":{(0,2),(1,0)}
其中,"banana":{(2,3)}为"banana"在第三个网页(T3)的文本信息里,而且在第三个网页的位置是第四个单词(地址为3)。
本发明实施例对搜索资源中网页内容的文本信息划分类别,基于该类别的分词词典对本文信息进行分词,再采用分词处理获得的第一分词建立倒排索引,避免了基于全局文本信息的倒排索引的单一性和片面性,提升了在各个类别中倒排索引的准确率,继而提升了倒排索引的索引运行效率,减少索引的时间;并且,搜索资源中网页的文本信息包括新、奇、特等各种符合该类别语言特性的文本信息,利用搜索资源中搜集的他人和集体的智慧,弥补了自身定义、自己人工的不足,大大减少了人工运营成本。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了根据本发明一个实施例的示出了根据本发明一个实施例的一种基于网页内容类别进行分词处理的装置实施例的结构框图,可以包括如下模块:
提取模块201,适于提取搜索资源中网页内容的文本信息;
划分模块202,适于依据所述网页内容类别划分所述文本信息所属类别;
分词模块203,适于按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理。
在本发明的一种优选实施例中,还可以包括如下模块:
建立模块,适于针对所述类别,采用分词处理获得的第一分词建立倒排索引。
在本发明的一种优选实施例中,所述建立模块还可以适于:
针对所述类别,记录出现的所述类别对应的第一分词的出现位置;
将所述第一分词及其对应的出现位置记录在倒排索引中。
在本发明的一种优选实施例中,所述分词词典可以通过以下方式生成:
获取第一训练文档;
划分所述第一训练文档所属类别;
对所述类别对应的所述第一训练文档进行分词处理,获得第二分词;
统计所述类别对应的所述第二分词的词频数和第一同现率;
采用所述第二分词及其第一同现率生成所述类别对应的分词词典。
在本发明的一种优选实施例中,所述第一同现率可以包括第一词频数与第二词频数的比值;
其中,所述第一词频数包括当前第二分词出现在目标第二分词之后的词频数;所述目标第二分词包括出现在当前环境分词之前的一个或多个第二分词;
所述第二词频数包括所述目标第二分词总的词频数。
在本发明的一种优选实施例中,所述分词词典可以通过以下方式更新:
获取第二训练文档;
划分所述第二训练文档所属的类别;
按照所述类别对应的分词词典,对所述文本信息进行分词处理,获得第三分词
统计所述类别对应的所述第三分词的词频数和第二同现率;
采用所述第三分词及其第二同现率更新所述类别对应的分词词典。
在本发明的一种优选实施例中,所述第二同现率可以包括第三词频数与第四词频数的比值;
其中,所述第三词频数包括当前第三分词出现在目标第三分词之后的词频数;所述目标第三分词包括出现在当前环境分词之前的一个或多个第三分词;
所述第四词频数包括所述目标第三分词总的词频数。
在本发明的一种优选实施例中,所述分词模块203还可以适于:
按照所述文本信息所属类别对应的分词词典,以及通用词典,对所述文本信息进行分词处理;
将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
在本发明的一种优选实施例中,所述分词模块203还可以适于:
当所述文本信息所属的类别为多个时,分别按照所述类别对应的分词词典,对所述文本信息进行分词处理;
将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于网页内容类别进行分词处理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种基于网页内容类别进行分词处理的方法,包括:
提取搜索资源中网页内容的文本信息;
依据所述网页内容类别划分所述文本信息所属类别;
按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理。
2.如权利要求1所述的方法,其特征在于,还包括:
针对所述类别,采用分词处理获得的第一分词建立倒排索引。
3.如权利要求1至2任一项所述的方法,其特征在于,所述针对所述类别,采用分词处理获得的第一分词建立倒排索引的步骤包括:
针对所述类别,记录出现的所述类别对应的第一分词的出现位置;
将所述第一分词及其对应的出现位置记录在倒排索引中。
4.如权利要求1至3任一项所述的方法,其特征在于,所述分词词典通过以下方式生成:
获取第一训练文档;
划分所述第一训练文档所属类别;
对所述类别对应的所述第一训练文档进行分词处理,获得第二分词;
统计所述类别对应的所述第二分词的词频数和第一同现率;
采用所述第二分词及其第一同现率生成所述类别对应的分词词典。
5.如权利要求1至4任一项所述的方法,其特征在于,所述第一同现率包括第一词频数与第二词频数的比值;
其中,所述第一词频数包括当前第二分词出现在目标第二分词之后的词频数;所述目标第二分词包括出现在当前环境分词之前的一个或多个第二分词;
所述第二词频数包括所述目标第二分词总的词频数。
6.如权利要求1至5任一项所述的方法,其特征在于,所述分词词典通过以下方式更新:
获取第二训练文档;
划分所述第二训练文档所属的类别;
按照所述类别对应的分词词典,对所述文本信息进行分词处理,获得第三分词
统计所述类别对应的所述第三分词的词频数和第二同现率;
采用所述第三分词及其第二同现率更新所述类别对应的分词词典。
7.如权利要求1至6任一项所述的方法,其特征在于,所述第二同现率包括第三词频数与第四词频数的比值;
其中,所述第三词频数包括当前第三分词出现在目标第三分词之后的词频数;所述目标第三分词包括出现在当前环境分词之前的一个或多个第三分词;
所述第四词频数包括所述目标第三分词总的词频数。
8.如权利要求1至7任一项所述的方法,其特征在于,所述按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理的步骤包括:
按照所述文本信息所属类别对应的分词词典,以及通用词典,对所述文本信息进行分词处理;
将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
9.如权利要求1至8任一项所述的方法,其特征在于,所述按照所述文本信息所属的类别对应的分词词典,对所述文本信息进行分词处理的步骤包括:
当所述文本信息所属的类别为多个时,分别按照所述类别对应的分词词典,对所述文本信息进行分词处理;
将分词处理后获得的词频数最高的分词,作为分词处理获得的第一分词。
10.一种基于网页内容类别进行分词处理的装置,包括:
提取模块,适于提取搜索资源中网页内容的文本信息;
划分模块,适于依据所述网页内容类别划分所述文本信息所属类别;
分词模块,适于按照所述文本信息所属类别对应的分词词典,对所述文本信息进行分词处理。
CN201410126465.1A 2014-03-31 2014-03-31 一种基于网页内容分类进行分词处理的方法和装置 Pending CN104008126A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410126465.1A CN104008126A (zh) 2014-03-31 2014-03-31 一种基于网页内容分类进行分词处理的方法和装置
PCT/CN2014/093396 WO2015149533A1 (zh) 2014-03-31 2014-12-09 一种基于网页内容分类进行分词处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410126465.1A CN104008126A (zh) 2014-03-31 2014-03-31 一种基于网页内容分类进行分词处理的方法和装置

Publications (1)

Publication Number Publication Date
CN104008126A true CN104008126A (zh) 2014-08-27

Family

ID=51368783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410126465.1A Pending CN104008126A (zh) 2014-03-31 2014-03-31 一种基于网页内容分类进行分词处理的方法和装置

Country Status (2)

Country Link
CN (1) CN104008126A (zh)
WO (1) WO2015149533A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636465A (zh) * 2015-02-10 2015-05-20 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN104881403A (zh) * 2015-06-04 2015-09-02 百度在线网络技术(北京)有限公司 分词方法和装置
WO2015149533A1 (zh) * 2014-03-31 2015-10-08 北京奇虎科技有限公司 一种基于网页内容分类进行分词处理的方法和装置
CN107368489A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种资讯数据处理方法及装置
CN108334610A (zh) * 2018-02-06 2018-07-27 北京神州泰岳软件股份有限公司 一种新闻文本分类方法、装置及服务器
CN108763200A (zh) * 2018-05-15 2018-11-06 达而观信息科技(上海)有限公司 中文分词方法及装置
CN108874869A (zh) * 2018-04-24 2018-11-23 中国地质大学(武汉) 一种基于数据协同的地质分类词库的建立方法
WO2019024755A1 (zh) * 2017-08-01 2019-02-07 阿里巴巴集团控股有限公司 网页信息提取方法、装置、***及电子设备
CN109326279A (zh) * 2018-11-23 2019-02-12 北京羽扇智信息科技有限公司 一种文本转语音的方法、装置、电子设备和存储介质
CN110096695A (zh) * 2018-01-30 2019-08-06 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN111079428A (zh) * 2019-12-27 2020-04-28 出门问问信息科技有限公司 一种分词和行业词典构建方法、装置以及可读存储介质
CN111414648A (zh) * 2020-03-04 2020-07-14 传神语联网网络科技股份有限公司 语料鉴权方法及装置
CN112069288A (zh) * 2019-05-23 2020-12-11 ***通信集团河南有限公司 数据的处理方法、装置和电子设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020420B (zh) * 2018-01-10 2023-07-21 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法
CN109740152B (zh) * 2018-12-25 2023-02-17 腾讯科技(深圳)有限公司 文本类目的确定方法、装置、存储介质和计算机设备
CN110516259B (zh) * 2019-08-30 2023-03-07 盈盛智创科技(广州)有限公司 一种技术关键词的识别方法、装置、计算机设备和存储介质
CN113268978A (zh) * 2020-02-17 2021-08-17 北京搜狗科技发展有限公司 一种信息生成方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及***
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错***及方法
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及***
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206653A (zh) * 2006-12-22 2008-06-25 英业达股份有限公司 自动收集网络信息的***及其方法
CN101763395A (zh) * 2009-12-31 2010-06-30 浙江大学 采用人工智能技术自动生成网页的方法
CN104008126A (zh) * 2014-03-31 2014-08-27 北京奇虎科技有限公司 一种基于网页内容分类进行分词处理的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及***
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错***及方法
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及***
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149533A1 (zh) * 2014-03-31 2015-10-08 北京奇虎科技有限公司 一种基于网页内容分类进行分词处理的方法和装置
CN104636465B (zh) * 2015-02-10 2018-11-16 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN104636465A (zh) * 2015-02-10 2015-05-20 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN104881403A (zh) * 2015-06-04 2015-09-02 百度在线网络技术(北京)有限公司 分词方法和装置
CN107368489A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种资讯数据处理方法及装置
CN107368489B (zh) * 2016-05-12 2020-07-03 阿里巴巴集团控股有限公司 一种资讯数据处理方法及装置
WO2019024755A1 (zh) * 2017-08-01 2019-02-07 阿里巴巴集团控股有限公司 网页信息提取方法、装置、***及电子设备
CN110096695A (zh) * 2018-01-30 2019-08-06 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN110096695B (zh) * 2018-01-30 2023-01-03 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN108334610A (zh) * 2018-02-06 2018-07-27 北京神州泰岳软件股份有限公司 一种新闻文本分类方法、装置及服务器
CN108874869A (zh) * 2018-04-24 2018-11-23 中国地质大学(武汉) 一种基于数据协同的地质分类词库的建立方法
CN108763200A (zh) * 2018-05-15 2018-11-06 达而观信息科技(上海)有限公司 中文分词方法及装置
CN109326279A (zh) * 2018-11-23 2019-02-12 北京羽扇智信息科技有限公司 一种文本转语音的方法、装置、电子设备和存储介质
CN112069288A (zh) * 2019-05-23 2020-12-11 ***通信集团河南有限公司 数据的处理方法、装置和电子设备
CN111079428A (zh) * 2019-12-27 2020-04-28 出门问问信息科技有限公司 一种分词和行业词典构建方法、装置以及可读存储介质
CN111079428B (zh) * 2019-12-27 2023-09-19 北京羽扇智信息科技有限公司 一种分词和行业词典构建方法、装置以及可读存储介质
CN111414648A (zh) * 2020-03-04 2020-07-14 传神语联网网络科技股份有限公司 语料鉴权方法及装置
CN111414648B (zh) * 2020-03-04 2023-05-12 传神语联网网络科技股份有限公司 语料鉴权方法及装置

Also Published As

Publication number Publication date
WO2015149533A1 (zh) 2015-10-08

Similar Documents

Publication Publication Date Title
CN104008126A (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN111460787B (zh) 一种话题提取方法、装置、终端设备及存储介质
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US9495358B2 (en) Cross-language text clustering
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及***
CN106021572B (zh) 二元特征词典的构建方法和装置
WO2019229769A1 (en) An auto-disambiguation bot engine for dynamic corpus selection per query
US20160140123A1 (en) Generating a query statement based on unstructured input
CN104077275A (zh) 一种基于语境进行分词的方法和装置
US20130060769A1 (en) System and method for identifying social media interactions
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
CN102214189B (zh) 基于数据挖掘获取词用法知识的***及方法
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN101796508A (zh) 歧义敏感自然语言处理***中的共指消解
AU2019203783B2 (en) Extraction of tokens and relationship between tokens from documents to form an entity relationship map
CN102253930A (zh) 一种文本翻译的方法及装置
GB2555207A (en) System and method for identifying passages in electronic documents
CN103544266A (zh) 一种搜索建议词生成的方法以及装置
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
CN110532354A (zh) 内容的检索方法及装置
Hamdi et al. In-depth analysis of the impact of OCR errors on named entity recognition and linking
US8670974B2 (en) Acquisition of out-of-vocabulary translations by dynamically learning extraction rules
Wijeratne et al. Sinhala language corpora and stopwords from a decade of sri lankan facebook
CN106372038A (zh) 关键词的抽取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140827