CN101826102A - 一种图书关键字自动生成的方法 - Google Patents
一种图书关键字自动生成的方法 Download PDFInfo
- Publication number
- CN101826102A CN101826102A CN 201010133153 CN201010133153A CN101826102A CN 101826102 A CN101826102 A CN 101826102A CN 201010133153 CN201010133153 CN 201010133153 CN 201010133153 A CN201010133153 A CN 201010133153A CN 101826102 A CN101826102 A CN 101826102A
- Authority
- CN
- China
- Prior art keywords
- books
- node
- keyword
- type
- book
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012552 review Methods 0.000 claims abstract description 67
- 238000005295 random walk Methods 0.000 claims abstract description 21
- 239000002245 particle Substances 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000003068 static effect Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种图书关键字自动生成方法。确定图书与作者的关系,从互联网上抓取书评,将其分词并标注词性,留下名词作候补关键词;通过谷歌检索候补关键词在***中出现的文档数目以初步评定重要性,过滤语气词、错别字;将作者、图书、评论和候补关键词作为四种节点,将其互相间的关系作为边,构建四部图;基于四部图,运用以图书为中心的吸收态随机行走算法挑选出最重要的候补关键词作为图书关键字。本发明考虑了同一作者著作的主题一致性、内容相关性及读者反馈,关键词正确率高;充分覆盖读者不同角度的书评,关键词多样化;数据来自互联网,书评数量庞大、涵盖面广,方法覆盖面广。
Description
技术领域
本发明涉及计算机数据挖掘以及数字图书馆自动处理领域,尤其涉及一种图书关键字自动生成的方法。
背景技术
大部分的数字图书馆主要通过专家来挑选关键字以描绘馆藏图书的主题和内容。为获得准确和丰富的关键词,专家需要首先通过阅读全书等方法获得对图书的全面理解。这种方式耗费大量的人力和时间,在面对不断增加的数字图书时变得不切实际。受限于精力,专家提供的关键词也存在着数量有限、内容保守和过于主观等不足。
近年来,随着LibraryThing、豆瓣网等Web2.0社区化网站的流行,工业界提出大众标签法和专家-社区混合标注法等***来为图书增加内容、主题相关的和自适应的关键字。这些***主要使用基于社区的方法,以用户自发提供的标签为基础提供图书关键字。但是,2006年全美信息科学与科技年度会议(Annual General Meeting of the American Society for Information Science andTechnology,November 2006)和信息科学期刊2006年第二期(Journal ofInformation Science,2006)等最近的研究表明,用户提供的标签和词条等通常是不一致、不准确并且没有意义的。
发明内容
本发明的目的是克服现有技术的不足,提供一种图书关键字自动生成的方法。
图书关键字的自动生成方法包括以下步骤:
(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词;
(2)使用***衡量器,通过Google检索候补关键词在***中出现的文档数目和***文档总数,利用公式WIKIIDF(i)=log(N/W)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过***衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文***文档总数;
(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、***衡量器、文本长度和流行度构建四部图;
(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。
所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、***衡量器、文本长度和流行度构建四部图步骤包括:将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系设为边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系权重设为1,和其余作者之间的关系设为0;设置书评与图书之间的关系,将图书相对于其书评的关系权重设为1,否则为0;将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式r=(log(RC+1)+1)·min(TL/100,1)来衡量,其中r表示书评相对于图书的关系权重,RC表示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示取TL/100与1之间的最小值;设置书评与候补关键词之间的关系,将书评与其文本内包含的候补关键词的关系的权重使用公式w=TF(i,j)·WIKIIDF(i)来衡量,其中w表示关系权重,i表示某候补关键词,j表示对应的图书评论,WIKI_IDF(i)指的是利用***衡量器候补关键词i得到的全局权重,TF的计算公式如下:TF(i,j)=freq(i)/length(j),其中,freq表示一个候补关键词在该图书评论中出现的次数,length表示该图书评论包含的词语总数。
使用以下相邻矩阵M表示四部图:
其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,MAB、MBA、MBR、MRB、MRW和MWR分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵,如果i和j节点在该四部图不相邻,Mij值为0,否则为对应的边的权重。
所述基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字步骤包括:将相邻矩阵M归一化得到转移矩阵W:
其中W的各个部分的归一化公式如下:
其中,α表示图书类型节点访问作者类型节点的概率,而(1-α)则是图书类型节点访问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,1-β表示书评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词的节点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下:
其中dA、dB、dR和dW分别表示A、B、R和W类型节点的矢量,设置若X类型的节点i与该图书直接相连,否则使用随机行走模型公式s=(1-λ)WTs+λd迭代计算全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点的概率,1-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示归一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节点出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式:
其中Q和R代表转移矩阵W中对应的区域,IG代表在已经转变成吸收态的节点集合G上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长:
tA=λtDA+(1-λ)tBWBA+A
tB=λtDB+(1-λ)(tAWAB+tRWRB)+B
tR=λtDR+(1-λ)(tBWBR+tW(WWR)Q)+R
其中,Dj是一个矩阵,其值可由对应矢量(dj)T复制|Q|行而得,其中|Q|表示Q矩阵大小,(WRW)Q和(WWR)Q对应于按照范式重新排列后的WRW和WWR,ti表示随机行走从节点i开始到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下:
其中tX表示类型节点X的期望步长,tQ W表示未排序的候补关键词节点的期望步数,再定义一个值全部为1的常量矢量c:
其中cX表示类型节点X的常量矢量,cQ W表示长度和Q一样的常量矢量;将期望步长最大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节点的期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候补关键词作为关键词。
本发明与现有技术相比具有的有益效果:
1)该方法综合考虑了同一作者著作的风格和主题一致性、书评与图书内容的相关性以及读者对书评质量与图书主题的反馈,提取的关键词正确率高;
2)该方法充分覆盖不同读者对图书的不同角度的书评,不仅包含了主流的书评意见也考虑进少数读者的看法,提取的关键词更加多样化;
3)该方法的数据来自于互联网,书评数量庞大、涵盖面广,能够给大量图书提供关键词。
具体实施方式
图书关键字的自动生成方法包括以下步骤:
(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词;
(2)使用***衡量器,通过Google检索候补关键词在***中出现的文档数目和***文档总数,利用公式WIKIIDF(i)=log(N/W)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过***衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文***文档总数;
(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、***衡量器、文本长度和流行度构建四部图;
(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。
所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、***衡量器、文本长度和流行度构建四部图步骤包括:将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系设为边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系权重设为1,和其余作者之间的关系设为0;设置书评与图书之间的关系,将图书相对于其书评的关系权重设为1,否则为0;将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式r=(log(RC+1)+1)·min(TL/100,1)来衡量,其中r表示书评相对于图书的关系权重,RC表示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示取TL/100与1之间的最小值;设置书评与候补关键词之间的关系,将书评与其文本内包含的候补关键词的关系的权重使用公式w=TF(i,j)·WIKIIDF(i)来衡量,其中w表示关系权重,i表示某候补关键词,j表示对应的图书评论,WIKI_IDF(i)指的是利用***衡量器候补关键词i得到的全局权重,TF的计算公式如下:TF(i,j)=freq(i)/length(j),其中,freq表示一个候补关键词在该图书评论中出现的次数,length表示该图书评论包含的词语总数。
使用以下相邻矩阵M表示四部图:
其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,MAB、MBA、MBR、MRB、MRW和MWR分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵,如果i和j节点在该四部图不相邻,Mij值为0,否则为对应的边的权重。
所述基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字步骤包括:将相邻矩阵M归一化得到转移矩阵W:
其中W的各个部分的归一化公式如下:
其中,α表示图书类型节点访问作者类型节点的概率,而(1-α)则是图书类型节点访问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,1-β表示书评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词的节点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下:
其中dA、dB、dR和dW分别表示A、B、R和W类型节点的矢量,设置若X类型的节点i与该图书直接相连,否则使用随机行走模型公式s=(1-λ)WTs+λd迭代计算全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点的概率,1-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示归一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节点出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式:
其中Q和R代表转移矩阵W中对应的区域,IG代表在已经转变成吸收态的节点集合G上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长:
tA=λtDA+(1-λ)tBWBA+A
tB=λtDB+(1-λ)(tAWAB+tRWRB)+B
tR=λtDR+(1-λ)(tBWBR+tW(WWR)Q)+R
其中,Dj是一个矩阵,其值可由对应矢量(dj)T复制|Q|行而得,其中|Q|表示Q矩阵大小,(WRW)Q和(WWR)Q对应于按照范式重新排列后的WRW和WR,ti表示随机行走从节点i开始到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下:
其中tX表示类型节点X的期望步长,tQ W表示未排序的候补关键词节点的期望步数,再定义一个值全部为1的常量矢量c:
其中cX表示类型节点X的常量矢量,cQ W表示长度和Q一样的常量矢量;将期望步长最大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节点的期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候补关键词作为关键词。
实施例
以图书《基地》为例,图书关键词自动生成方法的具体实施的技术方案及步骤如下:
1.确定图书与作者的对应关系,从互联网上抓取对应图书的评论,分词,标注词性,将其中的名词作为候补关键词
1)本发明在确定图书与作者的对应关系时直接利用编目专家为数字图书馆内图书编著的著作关系。如《基地》的作者为阿西莫夫,该作者同时有《第二基地》等基地系列和《机器人》***等著作。
2)利用爬虫,从豆瓣网(http://www.douban.com)等富含书评的互联网上抓取对应图书的书评论网页。分析网页,将其包含的书评文本抽取并保存。在此例中,将基地系列和机器人***的书评全部抓取并提取文本。
3)利用已有中文分词器将书评切分,利用词性标注器对分词结果标注词性,只将名词(包括人名、地名、物名和专业词汇等名词)保存下来。
2.***衡量器,过滤噪音词汇
对候补关键词中词汇计算WIKI_IDF,将值过低(<2)的词和过高(>13)的词直接过滤,不加入以后的四部图中。
3.将作者、图书、评论和词合并成四部图
如所述四部图组成,按照不同的权重设置赋值相邻矩阵
4.以图书为中心的吸收态的随机行走,挑选出多样性的关键词
1)以图书为中心,赋值属性矢量d。与该图书有直接关系的作者、书评和词汇项的值为1,其余为0。
2)对该四部图进行随机行走,将词汇按照静态分布概率从高到低排列,取第一序位的词作为候选关键词。在此例中为科幻。
3)将第一序位词节点的状态转变为吸收态,接下来计算四部图的各个节点的期望步长。
4)将期望步长最大的节点挑选为第二候选关键词,也将其转为吸收态,继续计算四部图中各个节点的期望步长。在此例子中为谢顿。
5)将期望步长最大的节点挑选为第三候选词,此例中为心灵史学。按照以上步骤重复选择候选词。
Claims (3)
1.一种图书关键字的自动生成方法,其特征在于包括以下步骤:
(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词;
(2)使用***衡量器,通过Google检索候补关键词在***中出现的文档数目和***文档总数,利用公式WIKIIDF(i)=log(N/W)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过***衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文***文档总数;
(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、***衡量器、文本长度和流行度构建四部图;
(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。
2.根据权利要求1所述的一种图书关键字的自动生成方法,其特征在于所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、***衡量器、文本长度和流行度构建四部图步骤包括:将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系设为边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系权重设为1,和其余作者之间的关系设为0;设置书评与图书之间的关系,将图书相对于其书评的关系权重设为1,否则为0;将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式r=(log(RC+1)+)·min(TL/100,1)来衡量,其中r表示书评相对于图书的关系权重,RC表示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示取TL/100与1之间的最小值;设置书评与候补关键词之间的关系,将书评与其文本内包含的候补关键词的关系的权重使用公式w=TF(i,j)·WIKIIDF(i)来衡量,其中w表示关系权重,i表示某候补关键词,j表示对应的图书评论,WIKI_IDF(i)指的是利用***衡量器候补关键词i得到的全局权重,TF的计算公式如下:TF(i,j)=freq(i)/length(i),其中,freq表示一个候补关键词在该图书评论中出现的次数,length表示该图书评论包含的词语总数。使用以下相邻矩阵M表示四部图:
其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,MAB、MBA、MBR、MRB、MRW和MWR分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵,如果i和j节点在该四部图不相邻,Mij值为0,否则为对应的边的权重。
3.根据权利要求1所述的一种图书关键字的自动生成方法,其特征在于所述基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字步骤包括:将相邻矩阵M归一化得到转移矩阵W:
其中W的各个部分的归一化公式如下:
其中,α表示图书类型节点访问作者类型节点的概率,而(1-α)则是图书类型节点访问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,1-β表示书评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词的节点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下:
其中dA、dB、dR和dW分别表示A、B、R和W类型节点的矢量,设置若X类型的节点i与该图书直接相连,否则使用随机行走模型公式s=(1-λ)WTs+λd迭代计算全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点的概率,1-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示归一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节点出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式:
其中Q和R代表转移矩阵W中对应的区域,IG代表在已经转变成吸收态的节点集合G上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长:
tA=λtDA+(1-λ)tBWBA+A
tB=λtDB+(1-λ)(tAWAB+tRWRB)+B
tR=λtDR+(1-λ)(tBWBR+tW(WWR)Q)+R
其中,Dj是一个矩阵,其值可由对应矢量(dj)T复制|Q|行而得,其中|Q|表示Q矩阵大小,(WRW)Q和(WWR)Q对应于按照范式重新排列后的WRW和WWR,ti表示随机行走从节点i开始到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下:
其中tX表示类型节点X的期望步长,tQ W表示未排序的候补关键词节点的期望步数,再定义一个值全部为1的常量矢量c:
其中cX表示类型节点X的常量矢量,cQ W表示长度和Q一样的常量矢量;将期望步长最大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节点的期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候补关键词作为关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101331535A CN101826102B (zh) | 2010-03-26 | 2010-03-26 | 一种图书关键字自动生成的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101331535A CN101826102B (zh) | 2010-03-26 | 2010-03-26 | 一种图书关键字自动生成的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101826102A true CN101826102A (zh) | 2010-09-08 |
CN101826102B CN101826102B (zh) | 2012-07-25 |
Family
ID=42690020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101331535A Expired - Fee Related CN101826102B (zh) | 2010-03-26 | 2010-03-26 | 一种图书关键字自动生成的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101826102B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306298A (zh) * | 2011-07-19 | 2012-01-04 | 北京航空航天大学 | 一种基于Wiki的图像分类体系动态演化方法 |
US20130138636A1 (en) * | 2011-11-25 | 2013-05-30 | Alibaba Group Holding Limited | Image Searching |
CN106484672A (zh) * | 2015-08-27 | 2017-03-08 | 北大方正集团有限公司 | 词汇识别方法和词汇识别*** |
CN107402960A (zh) * | 2017-06-15 | 2017-11-28 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
CN109885766A (zh) * | 2019-02-11 | 2019-06-14 | 武汉理工大学 | 一种基于书评的书籍推荐方法及*** |
US10474726B2 (en) | 2015-01-30 | 2019-11-12 | Micro Focus Llc | Generation of digital documents |
CN110737774A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 图书知识图谱的构建、图书推荐方法、装置、设备及介质 |
CN111898034A (zh) * | 2020-09-29 | 2020-11-06 | 江西汉辰信息技术股份有限公司 | 新闻内容推送方法、装置、存储介质及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1535430A (zh) * | 2000-03-29 | 2004-10-06 | �ʼҷ����ֵ�������˾ | 提供自动产生关键字检索判据及其人类工程学表示的用户界面 |
CN1598816A (zh) * | 2003-09-16 | 2005-03-23 | 崇越科技股份有限公司 | 自动产生关键词分类表的*** |
JP2007334429A (ja) * | 2006-06-12 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 |
-
2010
- 2010-03-26 CN CN2010101331535A patent/CN101826102B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1535430A (zh) * | 2000-03-29 | 2004-10-06 | �ʼҷ����ֵ�������˾ | 提供自动产生关键字检索判据及其人类工程学表示的用户界面 |
CN1598816A (zh) * | 2003-09-16 | 2005-03-23 | 崇越科技股份有限公司 | 自动产生关键词分类表的*** |
JP2007334429A (ja) * | 2006-06-12 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306298A (zh) * | 2011-07-19 | 2012-01-04 | 北京航空航天大学 | 一种基于Wiki的图像分类体系动态演化方法 |
US20130138636A1 (en) * | 2011-11-25 | 2013-05-30 | Alibaba Group Holding Limited | Image Searching |
CN103136228A (zh) * | 2011-11-25 | 2013-06-05 | 阿里巴巴集团控股有限公司 | 一种图片搜索方法以及图片搜索装置 |
US9460117B2 (en) * | 2011-11-25 | 2016-10-04 | Alibaba Group Holding Limited | Image searching |
US10474726B2 (en) | 2015-01-30 | 2019-11-12 | Micro Focus Llc | Generation of digital documents |
CN106484672A (zh) * | 2015-08-27 | 2017-03-08 | 北大方正集团有限公司 | 词汇识别方法和词汇识别*** |
CN107402960A (zh) * | 2017-06-15 | 2017-11-28 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
CN107402960B (zh) * | 2017-06-15 | 2020-11-10 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
CN110737774A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 图书知识图谱的构建、图书推荐方法、装置、设备及介质 |
CN110737774B (zh) * | 2018-07-03 | 2024-05-24 | 百度在线网络技术(北京)有限公司 | 图书知识图谱的构建、图书推荐方法、装置、设备及介质 |
CN109885766A (zh) * | 2019-02-11 | 2019-06-14 | 武汉理工大学 | 一种基于书评的书籍推荐方法及*** |
CN111898034A (zh) * | 2020-09-29 | 2020-11-06 | 江西汉辰信息技术股份有限公司 | 新闻内容推送方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101826102B (zh) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101826102B (zh) | 一种图书关键字自动生成的方法 | |
CN103440329B (zh) | 权威作者和高质量论文推荐***和推荐方法 | |
CN102902806B (zh) | 一种利用搜索引擎进行查询扩展的方法及*** | |
Tuarob et al. | Automatic tag recommendation for metadata annotation using probabilistic topic modeling | |
CN101364239B (zh) | 一种分类目录自动构建方法及相关*** | |
US8463786B2 (en) | Extracting topically related keywords from related documents | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
CN102663139B (zh) | 一种情感词典构建方法及*** | |
Wan et al. | Automatic labeling of topic models using text summaries | |
CN101493819B (zh) | 一种搜索引擎作弊检测的优化方法 | |
Asadi et al. | Pseudo test collections for learning web search ranking functions | |
CN105930469A (zh) | 基于Hadoop的个性化旅游推荐***及方法 | |
CN103678629B (zh) | 一种地理位置敏感的搜索引擎方法和*** | |
CN104915446A (zh) | 基于新闻的事件演化关系自动提取方法及其*** | |
CN103020164A (zh) | 一种基于多语义分析和个性化排序的语义检索方法 | |
CN105426514A (zh) | 个性化的移动应用app推荐方法 | |
CN109408600A (zh) | 一种基于数据挖掘的图书荐购方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN103218432A (zh) | 一种基于命名实体识别的新闻搜索结果相似度计算方法 | |
CN105930507A (zh) | 一种获得用户的Web浏览兴趣的方法及装置 | |
CN103440262A (zh) | 基于相关反馈和Bag-of-Features的图像检索***及方法 | |
CN101706812A (zh) | 一种文档的检索方法和装置 | |
Zhu et al. | SEO keyword analysis and its application in website editing system | |
CN106599122A (zh) | 一种基于垂直分解的并行频繁闭序列挖掘方法 | |
CN101102316A (zh) | 一种网页去重的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120725 Termination date: 20150326 |
|
EXPY | Termination of patent right or utility model |