CN103123624A - 确定中心词的方法及装置、搜索方法及装置 - Google Patents

确定中心词的方法及装置、搜索方法及装置 Download PDF

Info

Publication number
CN103123624A
CN103123624A CN2011103696514A CN201110369651A CN103123624A CN 103123624 A CN103123624 A CN 103123624A CN 2011103696514 A CN2011103696514 A CN 2011103696514A CN 201110369651 A CN201110369651 A CN 201110369651A CN 103123624 A CN103123624 A CN 103123624A
Authority
CN
China
Prior art keywords
keyword unit
keyword
unit
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103696514A
Other languages
English (en)
Other versions
CN103123624B (zh
Inventor
谈云兵
李连华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110369651.4A priority Critical patent/CN103123624B/zh
Publication of CN103123624A publication Critical patent/CN103123624A/zh
Priority to HK13108746.5A priority patent/HK1181509A1/zh
Application granted granted Critical
Publication of CN103123624B publication Critical patent/CN103123624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种确定中心词的方法及装置、搜索方法及装置,该确定中心词的方法包括步骤:将用户输入的搜索关键词划分为各关键词单元;并确定划分出的各关键词单元的词性;从划分出的各关键词单元中,提取出词性为名词的关键词单元;并将提取出的关键词单元确定为所述搜索关键词的中心词。本发明技术方案解决了现有技术中在确定中心词时浪费了网站较多的处理资源的问题。

Description

确定中心词的方法及装置、搜索方法及装置
技术领域
本申请涉及信息处理技术领域,尤其涉及一种确定中心词的方法及装置、搜索方法及装置。
背景技术
随着互联网技术的不断发展,越来越多的信息资源选择网络作为传播的载体。为了使用户能够在海量的互联网信息中获取所需要的信息,大多数网站都提供搜索功能,用户需要搜索某信息时,可以在网站中输入搜索关键词,该网站查找与该搜索关键词相关的信息,然后提供给用户。但是,当用户输入的搜索关键词太长时,网站就可能搜索不到与该搜索关键词相关的信息,用户就无法获取到所需要的信息。
针对上述问题,现有技术提出,网站在为用户查找信息时,先从用户输入的搜索关键词中提取出至少一个中心词,然后查找与提取出的中心词相关的信息,将查找到的信息提供给用户。这样,即使用户输入的搜索关键词过长,网站也能够根据提取出的中心词在海量的信息中搜索到相关信息。
如图1所示,其为现有技术中从搜索关键词中提取中心词的方法流程示意图,具体处理流程如下:
步骤11,当用户需要在网站中搜索某信息时,在该网站中输入一个搜索关键词,然后确认搜索,该网站就获得了用户输入的搜索关键词。
步骤12,网站将该搜索关键词划分为各关键词单元。
其中,网站可以基于统计的分词算法,使用语料库来划分关键词单元。例如,用户输入的搜索关键词为“纯色长袖衬衫”,网站将该搜索关键词进行划分后,得到的各关键词单元分别为“纯色”、“长袖”和“衬衫”。
步骤13,网站预先统计出规定时间段内搜索次数较多的各关键词单元,并针对统计出的每个关键词单元,分别设定该关键词单元的提取分数,其中,关键词单元在该规定时间段内的搜索次数越多,那么为该关键词单元设定的提取分数就越大,也可以直接将关键词单元在该规定时间段内的搜索次数设定为提取分数,网站将统计出的各关键词单元及其提取分数对应保存到中心词词典中。
步骤14,网站将步骤12划分出的各关键词单元,分别与中心词词典中存储的各关键词单元进行匹配。
步骤15,网站针对步骤14匹配成功的每个关键词单元,分别在上述中心词词典中查找该关键词单元对应的提取分数。
步骤16,网站按照提取分数由高到低的顺序,将步骤14匹配成功的各关键词单元进行排序,并将前预定数目个关键词单元确定为该搜索关键词的中心词。
由上述处理过程可知,现有技术是根据中心词词典从搜索关键词中提取中心词的,而中心词词典是预先根据规定时间段内关键词单元的搜索次数设定的,但是搜索次数并不能反映用户的搜索意图,这样就会出现根据上述中心词词典提取出的中心词并不能准确反映用户搜索意图的情况。例如,用户输入的搜索关键词为“打折手机”,进行关键词单元划分后得到“打折”和“手机”这两个关键词单元,由于“打折”这个关键词单元在规定时间段内的搜索次数比“手机”这个关键词单元在规定时间段内的搜索次数多,因此在上述中心词词典中,“打折”的提取分数要比“手机”的提取分数高,从而网站将“打折”确定为中心词,但是在划分出的两个关键词单元中,能够反映用户搜索意图的关键词单元应该是“手机”,而不是“打折”。由上可见,网站根据中心词词典提取出的中心词可能不准确,不能准确反映用户的搜索意图,如果网站按照这些中心词来为用户搜索信息,那么搜索到的信息中可能并不包含用户想要获取的信息,用户也就不会点击浏览这些信息,但是网站依然会将这些信息提供给用户,从而浪费了网站较多的处理资源。
发明内容
本申请实施例提供一种确定中心词的方法及装置、搜索方法及装置,用以解决现有技术中在确定中心词时浪费了网站较多的处理资源的问题。
本申请实施例技术方案如下:
一种确定中心词的方法,该方法包括:将用户输入的搜索关键词划分为各关键词单元;并确定划分出的各关键词单元的词性;从划分出的各关键词单元中,提取出词性为名词的关键词单元;并将提取出的关键词单元确定为所述搜索关键词的中心词。
一种搜索方法,该方法包括:接收用户输入的搜索关键词;根据上述确定中心词的方法,确定所述搜索关键词的中心词;根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。
一种确定中心词的装置,包括:关键词划分单元,用于将用户输入的搜索关键词划分为各关键词单元;词性确定单元,用于确定关键词划分单元划分出的各关键词单元的词性;关键词提取单元,用于从关键词划分单元划分出的各关键词单元中,提取出词性为名词的关键词单元;第一中心词确定单元,用于将关键词提取单元提取出的关键词单元确定为所述搜索关键词的中心词。
一种搜索装置,包括:接收单元,用于接收用户输入的搜索关键词;上述的确定中心词的装置,用于确定所述搜索关键词的中心词;搜索单元,用于根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。
本申请实施例技术方案中,将用户输入的搜索关键词划分为各关键词单元,并确定划分出的各关键词单元的词性,从划分出的各关键词单元中,提取出词性为名词的关键词单元,并将提取出的关键词单元确定为所述搜索关键词的中心词。由上可见,由于在搜索关键词对应的各关键词单元中,能够表达用户购买意图的通常都是名词,因此本申请实施例技术方案中,将用户输入的搜索关键词划分为各关键词单元后,不是将各关键词单元与预先人工定义的中心词词典中的各关键词单元进行匹配,而是将词性为名词的各关键词单元提取出来作为该搜索关键词的中心词,这样就避免了网站根据中心词词典提取出的中心词不准确、不能准确反映用户的搜索意图的问题,有效地提高了提取中心词的准确性,也节省了网站较多的处理资源。
附图说明
图1为现有技术中,从搜索关键词中提取中心词的方法流程示意图;
图2为本申请实施例一中,确定中心词的方法流程示意图;
图3为本申请实施例二中,确定中心词的优选实施方式的方法流程示意图;
图4为本申请实施例三中,确定各词性搭配模型的方法流程示意图;
图5为本申请实施例四中,确定中心词的优选实施方式的方法流程示意图;
图6为本申请实施例六中,确定中心词的装置结构示意图。
具体实施方式
下面结合各个附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
实施例一
如图2所示,其为本申请实施例一中确定中心词的方法流程示意图,具体处理过程如下:
步骤21,将用户输入的搜索关键词划分为各关键词单元。
当用户想要在网站中搜索信息时,可以通过网页浏览器输入搜索关键词,网站获得用户输入的搜索关键词后,首先将获得的搜索关键词进行归一化处理,例如,去除不必要的词、去除多余空格、大小写字母的转换、全角半角的转换、简体繁体的转换、去除标点符号、数字格式的转换等,完成归一化处理后,再将该搜索关键词划分为各关键词单元,其中,可以但不限于基于统计的分词算法来划分关键词单元,具体的:使用语料库来划分关键词单元,将搜索关键词与语料库中的各个分词进行匹配,将匹配出的各个分词确认为划分后的各关键词单元,例如,对获得的搜索关键词“纯色长袖衬衫”进行划分后,得到的各关键词单元分别为“纯色”、“长袖”和“衬衫”。
基于统计的分词算法可以分为大粒度分词算法和小粒度分词算法,由于采用小粒度分词算法得到的各关键词单元的文本长度较短,因此为了提高划分关键词单元的精确性,优先采用小粒度分词算法,例如,采用小粒度分词算法将搜索关键词“去油面膜”进行关键词单元划分后得到两个关键词单元,分别为“去油”和“面膜”。
步骤22,确定划分出的各关键词单元的词性。
本申请实施例一中,关键词单元的词性可以但不限于为名词、动词、形容词等,例如,用户输入的搜索关键词为“***”,步骤21将该搜索关键词划分为两个关键词单元“打折”和“机票”,步骤22分别确定上述两个关键词单元的词性,确定出关键词单元“打折”的词性为动词,关键词单元“机票”的词性为名词。
步骤23,从划分出的各关键词单元中,提取出词性为名词的关键词单元。
例如,搜索关键词“***”对应的两个关键词单元中,“打折”的词性为动词,“机票”的词性为名词,因此将“机票”这个词性为名词的关键词单元提取出来。
其中,在执行步骤23之前,还可以先判断用户输入的搜索关键词的字符数以及步骤22划分出的关键词单元的数量是否满足预设条件,若判断结果为满足预设条件,则执行步骤23,即从划分出的各关键词单元中,提取出词性为名词的关键词单元,若判断结果为不满足预设条件,则可以直接将划分出的各关键词单元作为该搜索关键词的中心词,如果将搜索关键词只划分为两个关键词单元,则除了将这两个关键词单元作为该搜索关键词的中心词之外,还可以将这两个关键词单元进行组合,并将组合后的词作为该搜索关键词的中心词。
上述预设条件可以但不限于为:
所述搜索关键词的字符数不小于第一规定阈值;或
划分出的关键词单元的数量不小于第二规定阈值;或
所述搜索关键词的字符数不小于第一规定阈值,且划分出的关键词单元的数量不小于第二规定阈值。
其中,上述第一规定阈值和第二规定阈值可以预先进行设定,例如将第一规定阈值设为12,将第二规定阈值设为2,此时的预设条件为所述搜索关键词的字符数不小于12,且划分出的关键词单元的数量不小于2,若用户输入的搜索关键词为“打折手机”,由于该搜索关键词的字符数为8,小于12,因此不满足预设条件,从而将划分出的关键词单元“打折”和“手机”,以及这两个关键词单元的组合“打折手机”作为该搜索关键词的中心词。
步骤24,将提取出的关键词单元确定为所述搜索关键词的中心词。
本申请实施例一提出,当用户在网站中搜索信息时,输入的搜索关键词中,最能表达用户搜索意图的词一般均为名词。例如,用户输入的搜索关键词为“***”,其中在“打折”和“机票”两个词中,最能反映用户搜索意图的词应该为“机票”,而“机票”的词性为名词;再例如,用户输入的搜索关键词为“长袖衬衫”,其中在“长袖”和“衬衫”两个词中,最能反映用户搜索意图的词应该为“衬衫”,而“衬衫”的词性为名词。因此,本申请实施例一将用户输入的搜索关键词对应的各关键词单元中,词性为名词的各关键词单元作为该搜索关键词的中心词,后续网站可以根据确定出的各中心词来搜索相关信息,并将搜索到的信息提供给该用户,而根据中心词来搜索信息的过程和现有技术的过程一致,这里不再赘述。
由上述处理过程可知,本申请实施例技术方案中,将用户输入的搜索关键词划分为各关键词单元,并确定划分出的各关键词单元的词性,从划分出的各关键词单元中,提取出词性为名词的关键词单元,并将提取出的关键词单元确定为所述搜索关键词的中心词。由上可见,由于在搜索关键词对应的各关键词单元中,能够表达用户购买意图的通常都是名词,因此本申请实施例技术方案中,将用户输入的搜索关键词划分为各关键词单元后,不是将各关键词单元与预先人工定义的中心词词典中的各关键词单元进行匹配,而是将词性为名词的各关键词单元提取出来作为该搜索关键词的中心词,这样就避免了网站根据中心词词典提取出的中心词不准确、不能准确反映用户的搜索意图的问题,有效地提高了提取中心词的准确性,也节省了网站较多的处理资源。
实施例二
本申请实施例一提出将搜索关键词对应的各关键词单元中,词性为名词的关键词单元提取为该搜索关键词的中心词,进一步地,为了更加准确地反映用户的搜索意图,本申请实施例二提出一种优选的实施方式,即将词性为名词的关键词单元与预定词性的关键词单元进行组合,并将该组合也作为该搜索关键词的中心词,下面介绍详细流程。
如图3所示,其为本申请实施例二中确定中心词的优选实施方式的方法流程示意图,具体处理过程如下:
步骤31,将用户输入的搜索关键词划分为各关键词单元。
步骤32,确定划分出的各关键词单元的词性。
步骤33,从划分出的各关键词单元中,提取出词性为名词的关键词单元。
步骤34,将提取出的关键词单元确定为所述搜索关键词的中心词。
其中,本申请实施例二中的步骤31至步骤34的实施流程分别和本申请实施例一中的步骤21至步骤24的实施流程一致,这里不再赘述。
步骤35,针对提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合。
其中,所述预定词性可以预先设置,例如将预定词性设置为下述词性中的至少一种:动词、形容词、名词。
若上述预定词性为动词、形容词和名词,对用户输入的搜索关键词进行关键词单元划分,得到的各关键词单元分别为v1、v2、a1、n1、a2、n2、v3、n3(v代表词性为动词的关键词单元,a代表词性为形容词的关键词单元,n代表词性为名词的关键词单元),步骤33将其中词性为名词的关键词单元(即n1、n2、n3)提取出来,步骤34将这些关键词单元确定为该搜索关键词的中心词,进一步的,步骤35针对提取出的每个词性为名词的关键词单元,分别将该关键词单元和词性为动词的关键词单元进行组合,以及和词性为名词的关键词单元进行组合,以及和词性为形容词的关键词单元进行组合,得到该关键词单元对应的各关键词单元组合,如表一所示。
表一:
Figure BDA0000109984850000081
步骤36,将得到的各关键词单元组合,确定为所述搜索关键词的中心词。
例如,得到的各关键词单元组合如表一所示,那么步骤36将表一包含的各关键词单元组合也确定为该搜索关键词的中心词。也就是说,搜索关键词对应的中心词除了包含词性为名词的关键词单元,还包含词性为名词的关键词单元与预定词性的关键词单元组合成的关键词单元组合。
本申请实施例二提出,可以直接将步骤35得到的各关键词单元组合确定为搜索关键词的中心词,也可以将步骤35得到的各关键词单元组合先进行筛选,筛选掉一部分关键词单元组合,然后将剩余的关键词单元组合确定为搜索关键词的中心词。下面详细介绍筛选关键词单元组合的过程。
预先设定各词性搭配模型,每个词性搭配模型分别对应一种词性搭配类型,若词性为名词的关键词单元与词性为动词的关键词单元进行组合,那么组合得到的关键词单元组合对应的词性搭配类型就为n*v词性搭配类型;若词性为名词的关键词单元与词性为形容词的关键词单元进行组合,那么组合得到的关键词单元组合对应的词性搭配类型就为n*a词性搭配类型;若词性为名词的关键词单元与词性为名词的关键词单元进行组合,那么组合得到的关键词单元组合对应的词性搭配类型就为n*n词性搭配类型。
每种词性搭配类型都对应一个词性搭配模型,词性搭配模型中包含词性搭配类型为该类型的各关键词单元组合。例如,n*v词性搭配类型对应n*v词性搭配模型,n*v词性搭配模型中包含各词性为名词的关键词单元对应的、词性搭配类型为n*v词性搭配类型的各关键词单元组合,如表二所示:
表二:
Figure BDA0000109984850000091
n*a词性搭配类型对应n*a词性搭配模型,n*a词性搭配模型中包含各词性为名词的关键词单元对应的、词性搭配类型为n*a词性搭配类型的各关键词单元组合,如表三所示:
表三:
Figure BDA0000109984850000092
n*n词性搭配类型对应n*n词性搭配模型,n*n词性搭配模型中包含各词性为名词的关键词单元对应的、词性搭配类型为n*n词性搭配类型的各关键词单元组合,如表四所示:
表四:
Figure BDA0000109984850000101
在步骤35得到各关键词单元组合后,先针对得到的每个关键词单元组合,分别确定该关键词单元组合所对应的词性搭配类型,以及获得预先确定的、所述词性搭配类型对应的词性搭配模型,判断该关键词单元组合是否出现在所述词性搭配模型中,将判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词。
其中,本申请实施例二提出,可以将判断得到出现在所述词性搭配模型中的所有关键词单元组合,均确定为所述搜索关键词的中心词,此外,还可以针对判断得到出现在所述词性搭配模型中的各关键词单元组合,分别获得预先确定的、该关键词单元组合中词性为名词的关键词单元在所述词性搭配模型中的权重值以及该关键词单元组合在所述词性搭配模型中出现的次数,其中所述权重值和所述次数是在预先确定词性搭配模型时一并确定出的,判断获得的所述次数是否大于所述权重值的预设倍数,将判断出所述次数大于所述权重值的预设倍数的各关键词单元组合,确定为所述搜索关键词的中心词,那么判断出所述次数不大于所述权重值的预设倍数的各关键词单元组合,则不为所述搜索关键词的中心词。
下面介绍确定各词性搭配模型的线下处理过程。
实施例三
如图4所示,其为本申请实施例三中确定各词性搭配模型的方法流程示意图,具体处理过程如下:
步骤41,获取各用户在预设时间段内输入的搜索关键词。
所述预设时间段可以进行设置,例如设置为一个月或者设置为一天。
网站将各用户在网站中搜索信息时所输入的搜索关键词保存在日志记录中,后续网站可以直接从日志记录中提取在各用户预设时间段内输入的搜索关键词。
步骤42,针对获取的每一个搜索关键词,分别将该搜索关键词划分为各关键词单元。
将搜索关键词划分为各关键词单元的过程和本申请实施例一中步骤21的过程一致,这里不再赘述。
步骤43,确定划分出的各关键词单元的词性。
确定各关键词单元的词性的方法和本申请实施例一中步骤22的方法一致,这里不再赘述。
步骤44,按照划分出的各关键词单元在搜索关键词中由先到后的顺序,提取出最后一个词性为名词的关键词单元。
用户在进行搜索时,一般将最能表达搜索意图的名词放在搜索关键词的最后,将限定该名词的形容词、动词或其他名词放在前面,因此搜索关键词的最后一个词性为名词的关键词单元最能反映用户的搜索意图。
例如,搜索关键词“茶树净痘去油面膜”对应的各关键词单元分别为“茶树”、“净痘”、“去油”、“面膜”,其中词性为名词的关键词单元为“茶树”和“面膜”,其中“面膜”为最后一个词性为名词的关键词单元,这个关键词单元最能反映用户的搜索意图。
步骤45,针对提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合。
其中,所述预定词性可以预先设置,例如将预定词性设置为下述词性中的至少一种:动词、形容词、名词。
步骤46,针对得到的每个关键词单元组合,分别确定该关键词单元组合的词性搭配类型,并且将该关键词单元组合添加进该词性搭配类型对应的词性搭配模型中。
例如,获取的搜索关键词分别为:“***”、“预定机票”、“预定***”和“预定机票”,将各搜索关键词划分为各关键词单元,如表五所示。
表五:
  搜索关键词   关键词单元
  ***   打折、机票
  预定机票   预定、机票
  预定***   预定、打折、机票
  预定机票   预定、机票
针对表五中的各关键词单元,分别确定各关键词单元的词性,如表六所示。
表六:
Figure BDA0000109984850000121
Figure BDA0000109984850000131
由表六可知,从第一个搜索关键词“***”的各关键词单元中提取出最后一个词性为名词的关键词单元“机票”,而预定词性为动词、形容词和名词,则针对提取出的该关键词单元,将该关键词单元与关键词单元“打折”进行组合,得到关键词单元组合“机票:打折”;同样的,从第二个搜索关键词“预定机票”的各关键词单元中提取出最后一个词性为名词的关键词单元“机票”,针对提取出的该关键词单元,将该关键词单元与关键词单元“预定”进行组合,得到关键词单元组合“机票:预定”;从第三个搜索关键词“预定***”的各关键词单元中提取出最后一个词性为名词的关键词单元“机票”,针对提取出的该关键词单元,将该关键词单元与关键词单元“打折”和“预定”分别进行组合,得到关键词单元组合“机票:预定”和“机票:打折”;从第四个搜索关键词“预定机票”的各关键词单元中提取出最后一个词性为名词的关键词单元“机票”,针对提取出的该关键词单元,将该关键词单元与关键词单元“预定”进行组合,得到关键词单元组合“机票:预定”。
由于得到的各关键词单元组合的词性搭配类型均为n*v词性搭配类型,所以将得到的各关键词单元组合均添加进n*v词性搭配模型中,n*v词性搭配模型如表七所示。
表七:
Figure BDA0000109984850000132
为了得到关键词单元组合中词性为名词的关键词单元在词性搭配模型中的权重值以及该关键词单元组合在词性搭配模型中出现的次数,本申请实施例三提出,在确定词性搭配模型时,记录每个关键词单元组合在该词性搭配模型中出现的次数,例如,“机票:打折”这一关键词单元组合在n*v词性搭配模型中出现的次数为2次(分别由第一个搜索关键词“***”和第三个搜索关键词“预定***”得到),“机票:预定”这一关键词单元组合在n*v词性搭配模型中出现的次数为3次(分别由第二个搜索关键词“预定机票”、第三个搜索关键词“预定***”和第四个搜索关键词“预订机票”得到),如表八所示:
表八:
Figure BDA0000109984850000141
通过如下方式确定关键词单元组合中词性为名词的关键词单元在词性搭配模型中的权重值:
ikf = n _ freqsum vn _ count
其中,ikf为该关键词单元在词性搭配模型中的权重值,n_freqsum为词性搭配模型中包含该关键词单元的关键词单元组合出现的次数的和,vn_count为词性搭配模型中与该关键词单元进行组合的其他关键词单元的数目。
关键词单元组合“机票:打折”和“机票:预定”在n*v词性搭配模型中出现的次数如表八所示,针对“机票”这一词性为名词的关键词单元,n_freqsum=2+3=5,vn_count=2,所以“机票”这一关键词单元在n*v词性搭配模型中的权重值
Figure BDA0000109984850000143
本申请实施例一提出将搜索关键词对应的各关键词单元中,词性为名词的关键词单元提取为该搜索关键词的中心词,进一步的,为了更加准确地反映用户的搜索意图,本申请实施例四提出一种优选的实施方式,除了将词性为名词的关键词单元提取为中心词之外,还可以根据各关键词单元的商业属性,进一步确定出中心词。下面介绍详细流程。
实施例四
如图5所示,其为本申请实施例四中确定中心词的优选实施方式的方法流程示意图,具体处理过程如下:
步骤51,将用户输入的搜索关键词划分为各关键词单元。
步骤52,确定划分出的各关键词单元的词性。
步骤53,从划分出的各关键词单元中,提取出词性为名词的关键词单元。
步骤54,将提取出的关键词单元确定为所述搜索关键词的中心词。
其中,本申请实施例四中的步骤51至步骤54的实施流程分别和本申请实施例一中的步骤21至步骤24的实施流程一致,这里不再赘述。
步骤55,确定划分出的各关键词单元的商业属性。
其中,关键词单元可以具有商业属性,也可以不具有商业属性,所述商业属性可以但不限于为型号属性、品牌属性或产品属性等。例如,划分出的各关键词单元为“n73”、“诺基亚”、“手机”,其中,“n73”的商业属性为型号属性,“诺基亚”的商业属性为品牌属性,“手机”的商业属性为产品属性,如表九所示。
表九:
  关键词单元   商业属性
  n73   型号属性
  诺基亚   品牌属性
  手机   产品属性
步骤56,针对每个关键词单元,分别获得预先确定的、该关键词单元的商业属性所对应的商业属性模型,并判断该关键词单元是否在获得的商业属性模型中。
预先针对每个商业属性,分别设定该商业属性对应的商业属性模型,商业属性模型中包含多个该商业属性对应的关键词单元。例如,产品属性对应的商业属性模型为产品商业属性模型,其中包含多个商业属性为产品属性对应的关键词单元;品牌属性对应的商业属性模型为品牌商业属性模型,其中包含多个商业属性为品牌属性对应的关键词单元;型号属性对应的商业属性模型为型号商业属性模型,其中包含多个商业属性为型号属性对应的关键词单元。
步骤57,将判断结果为是的各关键词单元,确定为所述搜索关键词的中心词。
若关键词单元在对应的商业属性模型中,且该关键词单元并不是词性为名词的关键词单元,则可以将该关键词单元确认为中心词,若关键词单元在对应的商业属性模型中,但是该关键词单元是词性为名词的关键词单元,那么本申请实施例一已经将其确认为中心词,那么此时可以不做任何处理。
本申请实施例四提出,将所有判断结果为是的关键词单元确认为中心词之后,还可以执行下述步骤:
针对每个关键词单元,分别将该关键词单元与商业属性不同的其他各关键词单元进行组合,得到各关键词单元组合。例如,针对表九中的关键词单元“n73”,得到两个关键词单元组合,分别为:“n73:诺基亚”和“n73:手机”。
预先设定各商业属性搭配模型,每个商业属性搭配模型分别对应一种商业属性搭配类型,若商业属性为品牌属性的关键词单元与商业属性为型号属性的关键词单元进行组合,那么组合得到的关键词单元组合对应的商业属性搭配类型就为品牌*型号商业属性搭配类型;若商业属性为品牌属性的关键词单元与商业属性为产品属性的关键词单元进行组合,那么组合得到的关键词单元组合对应的商业属性搭配类型就为品牌*产品商业属性搭配类型;若商业属性为型号属性的关键词单元与商业属性为产品属性的关键词单元进行组合,那么组合得到的关键词单元组合对应的商业属性搭配类型就为型号*产品商业属性搭配类型。
每种商业属性搭配类型都对应一个商业属性搭配模型,商业属性搭配模型中包含商业属性搭配类型为该类型的各关键词单元组合。例如,品牌*型号商业属性类型对应品牌*型号商业属性搭配模型,品牌*型号商业属性搭配模型中包含各商业属性为品牌和型号的关键词单元组成得到的各关键词单元组合。
得到各关键词单元组合后,再针对每个关键词组合,分别确定该关键词单元组合所对应的商业属性搭配类型,以及获得预先确定的、所述商业属性搭配类型对应的商业属性搭配模型,并判断该关键词单元组合是否出现在所述商业属性搭配模型中,将判断结果为是的各关键词单元组合,确定为所述搜索关键词的中心词。
根据本申请实施例一、实施例二和实施例四提出的方法确定出各中心词后,还可以进行去重操作,将相同的中心词合并为一个。
实施例五
相应的,本申请实施例五提供一种搜索方法,包括:
接收用户输入的搜索关键词;
根据上述确定中心词的方法,确定所述搜索关键词的中心词;
根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。
实施例六
相应的,本申请实施例六提供一种确定中心词的装置,其结构如图6所示,包括关键词划分单元61、词性确定单元62、关键词提取单元63和第一中心词确定单元64,其中:
关键词划分单元61,用于将用户输入的搜索关键词划分为各关键词单元;
词性确定单元62,用于确定关键词划分单元61划分出的各关键词单元的词性;
关键词提取单元63,用于从关键词划分单元61划分出的各关键词单元中,提取出词性为名词的关键词单元;
第一中心词确定单元64,用于将关键词提取单元63提取出的关键词单元确定为所述搜索关键词的中心词。
较佳地,还包括第一关键词组合单元和第二中心词确定单元,其中:
第一关键词组合单元,用于针对关键词提取单元63提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合;
第二中心词确定单元,用于将第一关键词组合单元得到的各关键词单元组合,确定为所述搜索关键词的中心词。
更佳地,还包括词性搭配类型确定单元、词性搭配模型获得单元和第一判断单元,其中:
词性搭配类型确定单元,用于在第二中心词确定单元将第一关键词组合单元得到的各关键词单元组合,确定为所述搜索关键词的中心词之前,针对第一关键词组合单元得到的每个关键词单元组合,分别确定该关键词单元组合所对应的词性搭配类型;
词性搭配模型获得单元,用于获得预先确定的、词性搭配类型确定单元确定的词性搭配类型对应的词性搭配模型;
第一判断单元,用于判断该关键词单元组合是否出现在所述词性搭配模型中;
第二中心词确定单元,具体用于将第一判断单元判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词。
更佳地,还包括权重值及次数获得单元和第二判断单元,其中:
权重值及次数获得单元,用于在第二中心词确定单元将第一判断单元判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词之前,针对第一判断单元判断得到出现在所述词性搭配模型中的各关键词单元组合,分别获得预先确定的、该关键词单元组合中词性为名词的关键词单元在所述词性搭配模型中的权重值以及该关键词单元组合在所述词性搭配模型中出现的次数;
第二判断单元,用于判断权重值及次数获得单元获得的次数是否大于权重值及次数获得单元获得的权重值的预设倍数;
第二中心词确定单元,具体用于将第二判断单元判断出所述次数大于所述权重值的预设倍数的各关键词单元组合,确定为所述搜索关键词的中心词。
较佳地,还包括第三判断单元,用于在关键词提取单元63提取出词性为名词的关键词单元之前,判断所述搜索关键词的字符数以及划分出的关键词单元的数量是否满足预设条件;
关键词提取单元63,具体用于在第三判断单元的判断结果为是时,执行提取出词性为名词的关键词单元的操作。
较佳地,还包括商业属性确定单元、商业属性模型获得单元、第四判断单元和第三中心词确定单元,其中:
商业属性确定单元,用于确定关键词划分单元61划分出的各关键词单元的商业属性;
商业属性模型获得单元,用于针对每个关键词单元,分别获得预先确定的、该关键词单元的商业属性所对应的商业属性模型;
第四判断单元,用于判断该关键词单元是否在商业属性模型获得单元获得的商业属性模型中;
第三中心词确定单元,用于将第四判断单元判断结果为是的各关键词单元,确定为所述搜索关键词的中心词。
更佳地,还包括第二关键词组合单元、商业属性搭配类型确定单元、商业属性搭配模型获得单元、第五判断单元和第四中心词确定单元,其中:
第二关键词组合单元,用于针对每个关键词单元,分别将该关键词单元与商业属性不同的其他各关键词单元进行组合,得到各关键词单元组合;
商业属性搭配类型确定单元,用于针对第二关键词组合单元得到的每个关键词单元组合,分别确定该关键词单元组合所对应的商业属性搭配类型;
商业属性搭配模型获得单元,用于获得预先确定的、商业属性搭配类型确定单元确定的商业属性搭配类型对应的商业属性搭配模型;
第五判断单元,用于判断该关键词单元组合是否出现在商业属性搭配模型获得单元获得的商业属性搭配模型中;
第四中心词确定单元,用于将第五判断单元的判断结果为是的各关键词单元组合,确定为所述搜索关键词的中心词。
实施例七
相应的,本申请实施例七提供一种搜索装置,包括:
接收单元,用于接收用户输入的搜索关键词;
上述的确定中心词的装置,用于确定所述搜索关键词的中心词;
搜索单元,用于根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (13)

1.一种确定中心词的方法,其特征在于,包括:
将用户输入的搜索关键词划分为各关键词单元;并
确定划分出的各关键词单元的词性;
从划分出的各关键词单元中,提取出词性为名词的关键词单元;并
将提取出的关键词单元确定为所述搜索关键词的中心词。
2.如权利要求1所述的方法,其特征在于,还包括:
针对提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合;
将得到的各关键词单元组合,确定为所述搜索关键词的中心词。
3.如权利要求2所述的方法,其特征在于,将得到的各关键词单元组合,确定为所述搜索关键词的中心词之前,还包括:
针对得到的每个关键词单元组合,分别确定该关键词单元组合所对应的词性搭配类型,以及获得预先确定的、所述词性搭配类型对应的词性搭配模型,并判断该关键词单元组合是否出现在所述词性搭配模型中;
将得到的各关键词单元组合,确定为所述搜索关键词的中心词,具体包括:
将判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词。
4.如权利要求3所述的方法,其特征在于,将判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词之前,还包括:
针对判断得到出现在所述词性搭配模型中的各关键词单元组合,分别获得预先确定的、该关键词单元组合中词性为名词的关键词单元在所述词性搭配模型中的权重值以及该关键词单元组合在所述词性搭配模型中出现的次数,并判断获得的所述次数是否大于所述权重值的预设倍数;
将判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词,具体包括:
将判断出所述次数大于所述权重值的预设倍数的各关键词单元组合,确定为所述搜索关键词的中心词。
5.如权利要求4所述的方法,其特征在于,关键词单元组合中词性为名词的关键词单元在所述词性搭配模型中的权重值是通过如下方式确定的:
ikf = n _ freqsum vn _ count
其中,ikf为该关键词单元在所述词性搭配模型中的权重值;
n_freqsum为所述词性搭配模型中,包含该关键词单元的关键词单元组合出现的次数的和;
vn_count为所述词性搭配模型中,与该关键词单元进行组合的其他关键词单元的数目。
6.如权利要求2所述的方法,其特征在于,所述预定词性为下述词性中的至少一种:
动词;
形容词;
名词。
7.如权利要求1所述的方法,其特征在于,在提取出词性为名词的关键词单元之前,还包括:
判断所述搜索关键词的字符数以及划分出的关键词单元的数量是否满足预设条件;
若判断结果为是,则执行提取出词性为名词的关键词单元的操作。
8.如权利要求7所述的方法,其特征在于,所述预设条件为:
所述搜索关键词的字符数不小于第一规定阈值;和/或
划分出的关键词单元的数量不小于第二规定阈值。
9.如权利要求1所述的方法,其特征在于,还包括:
确定划分出的各关键词单元的商业属性;
针对每个关键词单元,分别获得预先确定的、该关键词单元的商业属性所对应的商业属性模型,并判断该关键词单元是否在获得的商业属性模型中;
将判断结果为是的各关键词单元,确定为所述搜索关键词的中心词。
10.如权利要求9所述的方法,其特征在于,还包括:
针对每个关键词单元,分别将该关键词单元与商业属性不同的其他各关键词单元进行组合,得到各关键词单元组合;
针对得到的每个关键词单元组合,分别确定该关键词单元组合所对应的商业属性搭配类型,以及获得预先确定的、所述商业属性搭配类型对应的商业属性搭配模型,并判断该关键词单元组合是否出现在所述商业属性搭配模型中;
将判断结果为是的各关键词单元组合,确定为所述搜索关键词的中心词。
11.一种搜索方法,其特征在于,包括:
接收用户输入的搜索关键词;
根据权利要求1至10中任一权利要求所述确定中心词的方法,确定所述搜索关键词的中心词;
根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。
12.一种确定中心词的装置,其特征在于,包括:
关键词划分单元,用于将用户输入的搜索关键词划分为各关键词单元;
词性确定单元,用于确定关键词划分单元划分出的各关键词单元的词性;
关键词提取单元,用于从关键词划分单元划分出的各关键词单元中,提取出词性为名词的关键词单元;
第一中心词确定单元,用于将关键词提取单元提取出的关键词单元确定为所述搜索关键词的中心词。
13.一种搜索装置,其特征在于,包括:
接收单元,用于接收用户输入的搜索关键词;
权利要求12所述的确定中心词的装置,用于确定所述搜索关键词的中心词;
搜索单元,用于根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。
CN201110369651.4A 2011-11-18 2011-11-18 确定中心词的方法及装置、搜索方法及装置 Active CN103123624B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110369651.4A CN103123624B (zh) 2011-11-18 2011-11-18 确定中心词的方法及装置、搜索方法及装置
HK13108746.5A HK1181509A1 (zh) 2011-11-18 2013-07-26 確定中心詞的方法及裝置、搜索方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110369651.4A CN103123624B (zh) 2011-11-18 2011-11-18 确定中心词的方法及装置、搜索方法及装置

Publications (2)

Publication Number Publication Date
CN103123624A true CN103123624A (zh) 2013-05-29
CN103123624B CN103123624B (zh) 2015-12-02

Family

ID=48454603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110369651.4A Active CN103123624B (zh) 2011-11-18 2011-11-18 确定中心词的方法及装置、搜索方法及装置

Country Status (2)

Country Link
CN (1) CN103123624B (zh)
HK (1) HK1181509A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528441A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 基于自动标注的中心词提取方法和装置
CN105608071A (zh) * 2015-12-21 2016-05-25 北京奇虎科技有限公司 用于确定中心词的机器学习算法的生成方法及装置
WO2016101765A1 (zh) * 2014-12-25 2016-06-30 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
CN106156196A (zh) * 2015-04-22 2016-11-23 富士通株式会社 提取文本特征的装置和方法
CN106294711A (zh) * 2016-08-08 2017-01-04 马岩 不同词性在大数据搜索中的实现方法及***
WO2018027464A1 (zh) * 2016-08-08 2018-02-15 马岩 不同词性在大数据搜索中的实现方法及***
CN108470289A (zh) * 2018-03-15 2018-08-31 苏宁易购集团股份有限公司 基于电商购物平台的虚拟物品发放方法及设备
CN109815404A (zh) * 2019-01-30 2019-05-28 百度在线网络技术(北京)有限公司 基于剪贴板数据的搜索处理方法和装置
CN110263127A (zh) * 2019-06-21 2019-09-20 北京创鑫旅程网络技术有限公司 基于用户查询词进行文本搜索方法及装置
CN110309375A (zh) * 2019-06-29 2019-10-08 大众问问(北京)信息科技有限公司 信息提示方法、装置及车载终端设备
CN111062210A (zh) * 2019-12-25 2020-04-24 贵州大学 一种基于神经网络的谓语中心词识别方法
CN111460797A (zh) * 2020-06-09 2020-07-28 平安国际智慧城市科技股份有限公司 关键字抽取方法、装置、电子设备及可读存储介质
CN112650914A (zh) * 2020-12-30 2021-04-13 深圳市世强元件网络有限公司 一种长尾关键词识别方法、关键词搜索方法及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149519A1 (en) * 2000-05-26 2005-07-07 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法
JP2008197952A (ja) * 2007-02-14 2008-08-28 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP2009015796A (ja) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149519A1 (en) * 2000-05-26 2005-07-07 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
JP2008197952A (ja) * 2007-02-14 2008-08-28 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP2009015796A (ja) * 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
CN101196898A (zh) * 2007-08-21 2008-06-11 新百丽鞋业(深圳)有限公司 将词组索引技术应用在互联网搜索引擎中的方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101765A1 (zh) * 2014-12-25 2016-06-30 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
CN106156196A (zh) * 2015-04-22 2016-11-23 富士通株式会社 提取文本特征的装置和方法
CN105608071A (zh) * 2015-12-21 2016-05-25 北京奇虎科技有限公司 用于确定中心词的机器学习算法的生成方法及装置
CN105528441A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 基于自动标注的中心词提取方法和装置
CN106294711A (zh) * 2016-08-08 2017-01-04 马岩 不同词性在大数据搜索中的实现方法及***
WO2018027464A1 (zh) * 2016-08-08 2018-02-15 马岩 不同词性在大数据搜索中的实现方法及***
CN108470289A (zh) * 2018-03-15 2018-08-31 苏宁易购集团股份有限公司 基于电商购物平台的虚拟物品发放方法及设备
CN109815404B (zh) * 2019-01-30 2021-07-27 百度在线网络技术(北京)有限公司 基于剪贴板数据的搜索处理方法和装置
CN109815404A (zh) * 2019-01-30 2019-05-28 百度在线网络技术(北京)有限公司 基于剪贴板数据的搜索处理方法和装置
US11836197B2 (en) 2019-01-30 2023-12-05 Baidu Online Network Technology (Beijing) Co., Ltd. Search processing method and apparatus based on clipboard data
CN110263127A (zh) * 2019-06-21 2019-09-20 北京创鑫旅程网络技术有限公司 基于用户查询词进行文本搜索方法及装置
CN110309375B (zh) * 2019-06-29 2021-07-20 大众问问(北京)信息科技有限公司 信息提示方法、装置及车载终端设备
CN110309375A (zh) * 2019-06-29 2019-10-08 大众问问(北京)信息科技有限公司 信息提示方法、装置及车载终端设备
CN111062210A (zh) * 2019-12-25 2020-04-24 贵州大学 一种基于神经网络的谓语中心词识别方法
CN111460797A (zh) * 2020-06-09 2020-07-28 平安国际智慧城市科技股份有限公司 关键字抽取方法、装置、电子设备及可读存储介质
CN111460797B (zh) * 2020-06-09 2021-01-15 平安国际智慧城市科技股份有限公司 关键字抽取方法、装置、电子设备及可读存储介质
CN112650914A (zh) * 2020-12-30 2021-04-13 深圳市世强元件网络有限公司 一种长尾关键词识别方法、关键词搜索方法及计算机设备

Also Published As

Publication number Publication date
HK1181509A1 (zh) 2013-11-08
CN103123624B (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN103729359B (zh) 一种推荐搜索词的方法及***
CN102456058B (zh) 类目信息提供方法及装置
CN104102720B (zh) 高效输入的预测方法和装置
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN103123618B (zh) 文本相似度获取方法和装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
EP2940557A1 (en) Method and device used for providing input candidate item corresponding to input character string
EP2339514A1 (en) System and method for identifying topics for short text communications
CN103927309A (zh) 一种对业务对象标注信息标签的方法及装置
CN102591880A (zh) 信息提供方法及装置
CN103425687A (zh) 一种基于关键词的检索方法和***
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN103020295B (zh) 一种问题标签标注方法及装置
CN101609459A (zh) 一种情感特征词提取***
CN102236677A (zh) 一种基于问答***的信息匹配方法及***
CN103106227A (zh) 一种基于网页文本的新词查找***及方法
CN105426514A (zh) 个性化的移动应用app推荐方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN105320734A (zh) 一种网页核心内容提取方法
CN107357777A (zh) 提取标签信息的方法和装置
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
WO2020026366A1 (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
CN103150331A (zh) 一种提供搜索引擎标签的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1181509

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1181509

Country of ref document: HK