CN109522275B - 基于用户生产内容的标签挖掘方法、电子设备及存储介质 - Google Patents

基于用户生产内容的标签挖掘方法、电子设备及存储介质 Download PDF

Info

Publication number
CN109522275B
CN109522275B CN201811427538.5A CN201811427538A CN109522275B CN 109522275 B CN109522275 B CN 109522275B CN 201811427538 A CN201811427538 A CN 201811427538A CN 109522275 B CN109522275 B CN 109522275B
Authority
CN
China
Prior art keywords
book
candidate
tag
tags
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811427538.5A
Other languages
English (en)
Other versions
CN109522275A (zh
Inventor
柳燕煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ireader Technology Co Ltd
Original Assignee
Ireader Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ireader Technology Co Ltd filed Critical Ireader Technology Co Ltd
Priority to CN201811427538.5A priority Critical patent/CN109522275B/zh
Publication of CN109522275A publication Critical patent/CN109522275A/zh
Application granted granted Critical
Publication of CN109522275B publication Critical patent/CN109522275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户生产内容的标签挖掘方法、电子设备及存储介质,其中,基于用户生产内容的标签挖掘方法包括:提取候选标签;根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;根据各个候选标签的评分,挖掘得到书籍标签。根据本发明提供的技术方案,对各个候选标签的评分的计算充分考虑了在用户角度上候选标签与书籍在书籍内容上的关联程度,通过各个候选标签的评分能够准确地衡量各个候选标签对书籍内容的代表程度,挖掘得到的书籍标签能够更为准确地代表书籍内容,实现了在用户角度上对书籍内容的精准提取。

Description

基于用户生产内容的标签挖掘方法、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于用户生产内容的标签挖掘方法、电子设备及存储介质。
背景技术
电子书形式的书籍由于具有获取方便等优势,受到了大量用户的喜爱。用户在查找书籍时,一般会按照书籍分类进行查找。现有技术中书籍阅读平台大多是按照书籍标签进行书籍分类的。其中,书籍标签大多是按照书籍内容等挖掘得到的。现有技术中一般是基于文本挖掘得到书籍标签,这种基于文本挖掘方式需要人工对书籍全文进行阅读,之后人为归纳书籍标签。然而,这种挖掘方式工作量大,挖掘得到的书籍标签代表性也不一定好,并且,书籍标签是基于文本内容得到的,无法反映在用户角度上是否真正能够代表书籍内容,准确率较差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于用户生产内容的标签挖掘方法、电子设备及存储介质。
根据本发明的一个方面,提供了一种基于用户生产内容的标签挖掘方法,该方法包括:
提取候选标签;
根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;
根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;
根据各个候选标签的评分,挖掘得到书籍标签。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:
提取候选标签;
根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;
根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;
根据各个候选标签的评分,挖掘得到书籍标签。
根据本发明的又一方面,提供了一种存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:
提取候选标签;
根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;
根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;
根据各个候选标签的评分,挖掘得到书籍标签。
根据本发明提供的技术方案,能够基于各本书籍的用户生产内容,方便、快捷地确定每个候选标签与每本书籍的关联权重,利用每个候选标签与每本书籍的关联权重对各个候选标签的评分进行计算,对各个候选标签的评分的计算充分考虑了在用户角度上候选标签与书籍在书籍内容上的关联程度,通过各个候选标签的评分能够准确地衡量各个候选标签对书籍内容的代表程度;与现有技术中相比,本方案基于用户生产内容不仅便捷地实现了对书籍标签的挖掘,有效地减少了数据处理量,而且挖掘得到的书籍标签能够更为准确地代表书籍内容,实现了在用户角度上对书籍内容的精准提取。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例一的一种基于用户生产内容的标签挖掘方法的流程示意图;
图2示出了根据本发明实施例二的一种基于用户生产内容的标签挖掘方法的流程示意图;
图3示出了根据本发明实施例四的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了根据本发明实施例一的一种基于用户生产内容的标签挖掘方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S101,提取候选标签。
在步骤S101中,提取候选标签,以便后续通过对候选标签进行处理,从候选标签中挖掘得到能够用于标记书籍的书籍标签。具体地,可从各本书籍的用户生产内容中或者检索词词库中提取候选标签。其中,用户生产内容与书籍具有对应关系,各本书籍的用户生产内容包括:用户针对各本书籍生产的原创信息,原创信息具体可以为书籍评论信息和话题等。
在一种实施方式中,可从对各本书籍的用户生产内容进行切词得到的基础词中提取得到各本书籍对应的候选标签。其中,利用现有技术中的n-gram等切词算法对各本书籍的用户生产内容进行切词,得到各本书籍对应的基础词,考虑到基础词中可能包括有重复的词以及不适合作为候选标签的停用词,例如“的”、“了”、“在”等,那么可对所得到的基础词进行去重处理,并从基础词中滤除上述的停用词,将经过处理后的基础词提取作为各本书籍对应的候选标签。
在另一种实施方式中,从检索词词库中提取得到检索词,根据检索词确定候选标签。其中,检索词词库是基于用户在检索书籍的过程中所输入的检索内容进行构建的,检索词词库中包含有多个检索词。在具体应用中,可按照预设提取策略从检索词词库中提取得到检索词,然后根据检索词确定候选标签。
另外,随着时间的不断增长,所积累的各本书籍的用户生产内容和检索词词库中的检索词将越来越多,为了避免在提取候选标签的过程中很大程度上受到很久以前(例如若干年前)所积累的各本书籍的用户生产内容或者检索词词库中的检索词的影响,可根据预设时间范围内产生的各本书籍的用户生产内容或者检索词词库中的检索词进行候选标签的提取。本领域技术人员可根据实际需要设置预设时间范围,此处不做具体限定。例如,可将预设时间范围设置为30天的时间范围。
步骤S102,根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重。
在提取得到候选标签之后,统计每个候选标签在每本书籍的用户生产内容中出现的次数,得到每个候选标签在每本书籍的用户生产内容中的词频数据,然后根据每个候选标签在每本书籍的用户生产内容中的词频数据,计算得到每个候选标签与每本书籍的关联权重,其中,用户生产内容是由用户针对书籍内容所产生的评论等内容,具有契合用户本意、文字简练、书籍内容关联性强等特点,根据每个候选标签在每本书籍的用户生产内容中的词频数据所得到的每个候选标签与每本书籍的关联权重能够充分体现在用户角度上候选标签与书籍在书籍内容上的关联程度。
其中,每本书籍的用户生产内容包括:用户针对每本书籍生产的书籍评论信息、话题等原创信息,例如可以是用户针对书籍内容添加的评论、批注、想法、笔记,亦可以是用户针对书籍本身或作者的留言(例如在书籍详情页中的留言列表)或对留言的回复;或者还可以是用于在对应书籍的话题页面中的讨论留言,该话题页面可以理解为对应电子书的讨论群组。
以用户生产内容为书籍评论信息为例,在步骤S102中,针对每个候选标签,统计该候选标签在每本书籍的书籍评论信息中出现的次数,得到该候选标签在每本书籍的书籍评论信息中的词频数据;在得到每个候选标签在每本书籍的书籍评论信息中的词频数据之后,可利用预设加权算法,根据上述词频数据,得到每个候选标签与每本书籍的关联权重。
步骤S103,根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分。
其中,可将各个候选标签与各本书籍的关联权重代入预设算法模型中,通过计算得到各个候选标签的评分。具体地,各个候选标签的评分能够反映出各个候选标签对书籍内容的代表程度。某个候选标签的评分越高,说明该候选标签对书籍内容的代表程度越高,越能用作书籍的分类。
步骤S104,根据各个候选标签的评分,挖掘得到书籍标签。
具体地,可将各个候选标签的评分按照从高到低的顺序进行排序,挖掘评分排列靠前的预设个数的候选标签作为书籍标签。本发明中的书籍标签是基于各本书籍的用户生产内容挖掘得到的,能够在用户角度上准确地代表书籍内容。
利用本实施例提供的基于用户生产内容的标签挖掘方法,能够基于各本书籍的用户生产内容,方便、快捷地确定每个候选标签与每本书籍的关联权重,利用每个候选标签与每本书籍的关联权重对各个候选标签的评分进行计算,对各个候选标签的评分的计算充分考虑了在用户角度上候选标签与书籍在书籍内容上的关联程度,通过各个候选标签的评分能够准确地衡量各个候选标签对书籍内容的代表程度;与现有技术中基于文本挖掘方式相比,本方案基于用户生产内容不仅便捷地实现了对书籍标签的挖掘,有效地减少了数据处理量,而且挖掘得到的书籍标签能够更为准确地代表书籍内容,实现了在用户角度上对书籍内容的精准提取。
实施例二
图2示出了根据本发明实施例二的一种基于用户生产内容的标签挖掘方法的流程示意图,如图2所示,该方法包括如下步骤:
步骤S201,从检索词词库中提取检索频次排列靠前的n个检索词,将n个检索词确定为候选标签。
检索词词库是基于用户在检索书籍的过程中所输入的检索内容进行构建的,检索词词库中包含有多个检索词,检索词具有较强的代表性,能够体现出用户所感兴趣、所关注的内容。其中,检索词词库中的检索词不仅可以包括基础词,例如“悬疑”、“穿越”等,还可以包括由多个基础词组合得到的组合词,例如“宫廷穿越”、“传统武侠”等。具体地,用户在检索书籍的过程中,对用户所输入的检索内容进行切词,得到检索词,并将所得到的检索词添加至检索词词库中。通过上述切词方式,能够方便、有效地从检索内容中得到组合词形式的检索词,避免组合词形式的检索词被切分为多个基础词。
为了避免检索词词库中包括重复的检索词,在将检索词添加至检索词词库之前,可先判断该检索词是否与检索词词库中已有的检索词重复。若是,则不将该检索词添加至检索词词库中,并舍弃该检索词;若否,则将该检索词添加至检索词词库中。
具体地,针对检索词词库中的每个检索词,统计该检索词的使用次数,得到该检索词的检索频次;在得到各个检索词的检索频次之后,按照检索频次从高到低的顺序对各个检索词进行排序,从检索词词库中提取检索频次排列靠前的n个检索词,将这n个检索词确定为候选标签。本领域技术人员可根据实际需要对n进行设置,此处不做限定。例如,当将n设置为1万时,从检索词词库中提取检索频次排列靠前的1万个检索词作为候选标签。
在提取得到候选标签之后,就可根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重。在一种具体实施方式中,可利用TF-IDF(词频-逆向文件频率,Term Frequency–Inverse Document Frequency)算法对每个候选标签与每本书籍的关联权重进行计算,其中,具体计算过程可通过步骤S202和步骤S203进行实现。
步骤S202,针对每个候选标签,利用书籍总数量以及包含有该候选标签的用户生产内容对应的书籍的数量,计算得到该候选标签的逆向频率数据。
基于TF-IDF算法,候选标签与书籍的关联权重不仅会随着候选标签在书籍的用户生产内容中的词频数据成正比增加,同时也会随着候选标签在所有书籍的用户生产内容中出现频率成反比下降。如果某个候选标签在一本书籍的用户生产内容中出现次数很多(即词频数据很高),并且在其他书籍的用户生产内容中很少出现,说明该候选标签具有很好的类别区分能力,适合用于书籍分类。
为了精准地计算得到每个候选标签与每本书籍的关联权重,需要确定每个候选标签在每本书籍的用户生产内容中的词频数据以及每个候选标签的逆向频率数据。其中,针对每个候选标签,可统计该候选标签在每本书籍的用户生产内容中出现的次数,得到该候选标签在每本书籍的用户生产内容中的词频数据,从而得到每个候选标签在每本书籍的用户生产内容中的词频数据。针对每个候选标签,利用书籍总数量以及包含有该候选标签的用户生产内容对应的书籍的数量,计算得到该候选标签的逆向频率数据。
以用户生产内容为书籍评论信息为例,针对每个候选标签,统计该候选标签在书籍阅读平台中所存储的每本书籍的书籍评论信息中出现的次数,得到该候选标签在每本书籍的书籍评论信息中的词频数据,从而得到每个候选标签在每本书籍的书籍评论信息中的词频数据。另外,针对每个候选标签,利用书籍总数量以及包含有该候选标签的书籍评论信息对应的书籍的数量,计算得到该候选标签的逆向频率数据。具体地,将书籍总数量除以包含有该候选标签的书籍评论信息对应的书籍的数量,得到中间计算结果,然后对中间计算结果取以10为底的对数,将所得到的数值作为该候选标签的逆向频率数据。
步骤S203,根据每个候选标签在每本书籍的用户生产内容中的词频数据以及每个候选标签的逆向频率数据,得到每个候选标签与每本书籍的关联权重。
具体地,针对任意一个候选标签和任意一本书籍,将该候选标签在该书籍的用户生产内容中的词频数据以及该候选标签的逆向频率数据进行乘法运算,将运算得到的数值确定为该候选标签与该书籍的关联权重。
步骤S204,根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分。
各个候选标签的评分的计算步骤通过循环迭代完成。首先为各本书籍和各个候选标签设置评分初始值,例如,将各本书籍的评分初始值以及各个候选标签的评分初始值均设置为1;然后循环迭代计算各本书籍的评分以及各个候选标签的评分,使得各本书籍的评分以及各个候选标签的评分得到不断更新,直至满足迭代结束条件,得到稳定的各本书籍的评分以及各个候选标签的评分。
其中,循环迭代执行以下步骤,直至满足迭代结束条件;针对每本书籍,根据每个候选标签的评分以及每个候选标签与该书籍的关联权重,计算该书籍的评分;针对每个候选标签,根据每本书籍的评分以及该候选标签与每本书籍的关联权重,计算该候选标签的评分。其中,计算得到的各本书籍的评分能够充分地反映用户在各本书籍的用户生产内容中的活跃度,各个候选标签的评分能够反映出各个候选标签对书籍内容的代表程度。某本书籍的评分越高,说明用户在该书籍的用户生产内容中的活跃度越高;某个候选标签的评分越高,说明该候选标签对书籍内容的代表程度越高,越能用作书籍的分类。
具体地,针对每本书籍,将每个候选标签的评分以及每个候选标签与该书籍的关联权重进行加权运算,对加权运算所得到的数值进行归一化处理,将归一化处理的结果作为该书籍的评分。针对每个候选标签,将每本书籍的评分以及该候选标签与每本书籍的关联权重进行加权运算,对加权运算所得到的数值进行归一化处理,将归一化处理的结果作为该候选标签的评分。
本实施例中,对候选标签的评分进行归一化具体包括:将候选标签的评分除以候选标签总数,得到归一化结果。对书籍评分进行归一化具体包括:将书籍评分除以书籍总数,得到归一化结果。
其中,本领域技术人员可根据实际需要设置迭代结束条件,此处不做限定。例如,迭代结束条件可包括:迭代次数达到预设迭代次数;和/或,相邻两次迭代计算得到的各本书籍的评分之间的差值小于第一预设差值且各个候选标签的评分之间的差值小于第二预设差值。在具体实施方式中,可以通过判断迭代次数是否达到预设迭代次数来判断是否满足迭代结束条件,也可以计算本次迭代计算得到的各本书籍的评分与上一次迭代计算得到的各本书籍的评分之间的差值,并计算本次迭代计算得到的各个候选标签的评分与上一次迭代计算得到的各个候选标签的评分之间的差值,通过判断上述两个差值是否分别小于第一预设差值和第二预设差值来判断是否满足迭代结束条件。
步骤S205,根据各个候选标签的评分,挖掘得到书籍标签。
可将各个候选标签的评分按照从高到低的顺序进行排序,挖掘评分排列靠前的预设个数的候选标签作为书籍标签。在利用所得到的书籍标签进行书籍推荐时,可将书籍标签相关联的书籍推荐给用户,那么用户将很有可能会阅读或下载所推荐的书籍,从而有效地提高了所推荐的书籍的采用率,极大地改善了推荐效果。
其中,书籍标签是从候选标签中挖掘得到的,那么在确定书籍标签相关联的书籍时,具体地,可根据步骤S203中所得到的关联权重进行确定,该书籍标签与某本书籍的关联权重越高,说明该书籍标签与这本书籍在书籍内容上的关联程度越紧密。其中,针对某个书籍标签,可先获取该书籍标签与各本书籍的关联权重,然后将与该书籍标签的关联权重不为零的书籍确定为该书籍标签相关联的书籍,例如,在利用书籍标签进行书籍推荐时,可按照与该书籍标签的关联权重从高到低的排列顺序对多本书籍进行排列,优先向用户推荐与该书籍标签的关联权重较高的书籍。
步骤S206,在页面显示区中展现书籍标签。
在挖掘得到书籍标签之后,可在书籍阅读平台的页面显示区的推荐标签中展现书籍标签,当用户针对某个书籍标签执行点击等触发操作时,能够跳转至该书籍标签对应的书籍推荐页面。书籍推荐页面中可包括该书籍标签相关联的书籍等信息,本领域技术人员可根据实际需要对书籍推荐页面,此处不做限定。
利用本实施例提供的基于用户生产内容的标签挖掘方法,根据每个候选标签在每本书籍的用户生产内容中的词频数据以及每个候选标签的逆向频率数据,能够快速地得到每个候选标签与每本书籍的关联权重,每个候选标签与每本书籍的关联权重能够充分体现在用户角度上候选标签与书籍在书籍内容上的关联程度;根据各个候选标签与各本书籍的关联权重实现了对各个候选标签的评分的精准计算;本方案根据各个候选标签的评分便捷地实现了对书籍标签的挖掘,挖掘得到的书籍标签能够在用户角度上准确地代表书籍内容;另外,在利用本方案所得到的书籍标签进行书籍推荐时,将书籍标签相关联的书籍推荐给用户,有效地提高了所推荐的书籍的采用率,极大地改善了推荐效果。
实施例三
本发明实施例三提供了一种非易失性存储介质,存储介质存储有至少一可执行指令,该可执行指令可执行上述任意方法实施例中的基于用户生产内容的标签挖掘方法。
可执行指令具体可以用于使得处理器执行以下操作:提取候选标签;根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;根据各个候选标签的评分,挖掘得到书籍标签。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:从对各本书籍的用户生产内容进行切词得到的基础词中提取得到各本书籍对应的候选标签。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:从检索词词库中提取得到检索词,根据检索词确定候选标签。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:从检索词词库中提取检索频次排列靠前的n个检索词,将n个检索词确定为候选标签。
在一种可选的实施方式中,每本书籍的用户生产内容包括:用户针对每本书籍生产的原创信息。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:针对每个候选标签,利用书籍总数量以及包含有该候选标签的用户生产内容对应的书籍的数量,计算得到该候选标签的逆向频率数据;根据每个候选标签在每本书籍的用户生产内容中的词频数据以及每个候选标签的逆向频率数据,得到每个候选标签与每本书籍的关联权重。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:循环迭代执行以下步骤,直至满足迭代结束条件;针对每本书籍,根据每个候选标签的评分以及每个候选标签与该书籍的关联权重,计算该书籍的评分;针对每个候选标签,根据每本书籍的评分以及该候选标签与每本书籍的关联权重,计算该候选标签的评分。
在一种可选的实施方式中,迭代结束条件包括:迭代次数达到预设迭代次数;和/或,相邻两次迭代计算得到的各本书籍的评分之间的差值小于第一预设差值且各个候选标签的评分之间的差值小于第二预设差值。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:在页面显示区中展现书籍标签。
实施例四
图3示出了根据本发明实施例四的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器302,用于执行程序310,具体可以执行上述基于用户生产内容的标签挖掘方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:提取候选标签;根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;根据各个候选标签的评分,挖掘得到书籍标签。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:从对各本书籍的用户生产内容进行切词得到的基础词中提取得到各本书籍对应的候选标签。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:从检索词词库中提取得到检索词,根据检索词确定候选标签。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:从检索词词库中提取检索频次排列靠前的n个检索词,将n个检索词确定为候选标签。
在一种可选的实施方式中,每本书籍的用户生产内容包括:用户针对每本书籍生产的原创信息。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:针对每个候选标签,利用书籍总数量以及包含有该候选标签的用户生产内容对应的书籍的数量,计算得到该候选标签的逆向频率数据;根据每个候选标签在每本书籍的用户生产内容中的词频数据以及每个候选标签的逆向频率数据,得到每个候选标签与每本书籍的关联权重。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:循环迭代执行以下步骤,直至满足迭代结束条件;针对每本书籍,根据每个候选标签的评分以及每个候选标签与该书籍的关联权重,计算该书籍的评分;针对每个候选标签,根据每本书籍的评分以及该候选标签与每本书籍的关联权重,计算该候选标签的评分。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:迭代结束条件包括:迭代次数达到预设迭代次数;和/或,相邻两次迭代计算得到的各本书籍的评分之间的差值小于第一预设差值且各个候选标签的评分之间的差值小于第二预设差值。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:在页面显示区中展现书籍标签。
程序310中各步骤的具体实现可以参见上述基于用户生产内容的标签挖掘实施例中的相应步骤对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例提供的方案,对各个候选标签的评分的计算充分考虑了在用户角度上候选标签与书籍在书籍内容上的关联程度,通过各个候选标签的评分能够准确地衡量各个候选标签对书籍内容的代表程度;基于用户生产内容不仅便捷地实现了对书籍标签的挖掘,而且挖掘得到的书籍标签能够更为准确地代表书籍内容,实现了在用户角度上对书籍内容的精准提取。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (24)

1.一种基于用户生产内容的标签挖掘方法,包括:
提取候选标签;
根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;
根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;
根据各个候选标签的评分,挖掘得到书籍标签;
其中,所述根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分进一步包括:
循环迭代执行以下步骤,直至满足迭代结束条件;
针对每本书籍,根据每个候选标签的评分以及每个候选标签与该书籍的关联权重,计算该书籍的评分;
针对每个候选标签,根据每本书籍的评分以及该候选标签与每本书籍的关联权重,计算该候选标签的评分。
2.根据权利要求1所述的方法,所述提取候选标签进一步包括:
从对各本书籍的用户生产内容进行切词得到的基础词中提取得到各本书籍对应的候选标签。
3.根据权利要求1所述的方法,所述提取候选标签进一步包括:
从检索词词库中提取得到检索词,根据所述检索词确定候选标签。
4.根据权利要求3所述的方法,所述从检索词词库中提取得到检索词,根据所述检索词确定候选标签进一步包括:
从检索词词库中提取检索频次排列靠前的n个检索词,将所述n个检索词确定为候选标签。
5.根据权利要求1所述的方法,每本书籍的用户生产内容包括:用户针对每本书籍生产的原创信息。
6.根据权利要求1所述的方法,所述根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重进一步包括:
针对每个候选标签,利用书籍总数量以及包含有该候选标签的用户生产内容对应的书籍的数量,计算得到该候选标签的逆向频率数据;
根据每个候选标签在每本书籍的用户生产内容中的词频数据以及每个候选标签的逆向频率数据,得到每个候选标签与每本书籍的关联权重。
7.根据权利要求1所述的方法,所述迭代结束条件包括:迭代次数达到预设迭代次数;和/或,相邻两次迭代计算得到的各本书籍的评分之间的差值小于第一预设差值且各个候选标签的评分之间的差值小于第二预设差值。
8.根据权利要求1-7任一项所述的方法,在所述根据各个候选标签的评分,挖掘得到书籍标签之后,所述方法还包括:
在页面显示区中展现所述书籍标签。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
提取候选标签;
根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;
根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;
根据各个候选标签的评分,挖掘得到书籍标签;
其中,所述可执行指令进一步使所述处理器执行以下操作:
循环迭代执行以下步骤,直至满足迭代结束条件;
针对每本书籍,根据每个候选标签的评分以及每个候选标签与该书籍的关联权重,计算该书籍的评分;
针对每个候选标签,根据每本书籍的评分以及该候选标签与每本书籍的关联权重,计算该候选标签的评分。
10.根据权利要求9所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
从对各本书籍的用户生产内容进行切词得到的基础词中提取得到各本书籍对应的候选标签。
11.根据权利要求9所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
从检索词词库中提取得到检索词,根据所述检索词确定候选标签。
12.根据权利要求11所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
从检索词词库中提取检索频次排列靠前的n个检索词,将所述n个检索词确定为候选标签。
13.根据权利要求9所述的电子设备,每本书籍的用户生产内容包括:用户针对每本书籍生产的原创信息。
14.根据权利要求9所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
针对每个候选标签,利用书籍总数量以及包含有该候选标签的用户生产内容对应的书籍的数量,计算得到该候选标签的逆向频率数据;
根据每个候选标签在每本书籍的用户生产内容中的词频数据以及每个候选标签的逆向频率数据,得到每个候选标签与每本书籍的关联权重。
15.根据权利要求9所述的电子设备,所述迭代结束条件包括:迭代次数达到预设迭代次数;和/或,相邻两次迭代计算得到的各本书籍的评分之间的差值小于第一预设差值且各个候选标签的评分之间的差值小于第二预设差值。
16.根据权利要求9-15任一项所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
在页面显示区中展现所述书籍标签。
17.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
提取候选标签;
根据每个候选标签在每本书籍的用户生产内容中的词频数据,得到每个候选标签与每本书籍的关联权重;
根据各个候选标签与各本书籍的关联权重,计算得到各个候选标签的评分;
根据各个候选标签的评分,挖掘得到书籍标签;
其中,所述可执行指令进一步使所述处理器执行以下操作:
循环迭代执行以下步骤,直至满足迭代结束条件;
针对每本书籍,根据每个候选标签的评分以及每个候选标签与该书籍的关联权重,计算该书籍的评分;
针对每个候选标签,根据每本书籍的评分以及该候选标签与每本书籍的关联权重,计算该候选标签的评分。
18.根据权利要求17所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:
从对各本书籍的用户生产内容进行切词得到的基础词中提取得到各本书籍对应的候选标签。
19.根据权利要求17所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:
从检索词词库中提取得到检索词,根据所述检索词确定候选标签。
20.根据权利要求19所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:
从检索词词库中提取检索频次排列靠前的n个检索词,将所述n个检索词确定为候选标签。
21.根据权利要求17所述的存储介质,每本书籍的用户生产内容包括:用户针对每本书籍生产的原创信息。
22.根据权利要求17所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:
针对每个候选标签,利用书籍总数量以及包含有该候选标签的用户生产内容对应的书籍的数量,计算得到该候选标签的逆向频率数据;
根据每个候选标签在每本书籍的用户生产内容中的词频数据以及每个候选标签的逆向频率数据,得到每个候选标签与每本书籍的关联权重。
23.根据权利要求17所述的存储介质,所述迭代结束条件包括:迭代次数达到预设迭代次数;和/或,相邻两次迭代计算得到的各本书籍的评分之间的差值小于第一预设差值且各个候选标签的评分之间的差值小于第二预设差值。
24.根据权利要求17-23任一项所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:
在页面显示区中展现所述书籍标签。
CN201811427538.5A 2018-11-27 2018-11-27 基于用户生产内容的标签挖掘方法、电子设备及存储介质 Active CN109522275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811427538.5A CN109522275B (zh) 2018-11-27 2018-11-27 基于用户生产内容的标签挖掘方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811427538.5A CN109522275B (zh) 2018-11-27 2018-11-27 基于用户生产内容的标签挖掘方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109522275A CN109522275A (zh) 2019-03-26
CN109522275B true CN109522275B (zh) 2020-11-20

Family

ID=65794472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811427538.5A Active CN109522275B (zh) 2018-11-27 2018-11-27 基于用户生产内容的标签挖掘方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109522275B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334202A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 基于新闻应用软件的用户兴趣标签构建方法及相关设备
CN109976622B (zh) * 2019-04-04 2021-02-02 掌阅科技股份有限公司 书籍标签确定方法、电子设备及计算机存储介质
CN110990701B (zh) * 2019-12-03 2022-11-15 掌阅科技股份有限公司 书籍搜索方法、计算设备及计算机存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886067A (zh) * 2014-03-20 2014-06-25 浙江大学 使用标签隐含主题进行图书推荐的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020950B2 (en) * 2011-12-19 2015-04-28 Palo Alto Research Center Incorporated System and method for generating, updating, and using meaningful tags
CN105975453A (zh) * 2015-12-01 2016-09-28 乐视网信息技术(北京)股份有限公司 评论标签提取方法和装置
CN105893478B (zh) * 2016-03-29 2019-10-29 广州华多网络科技有限公司 一种标签提取方法及设备
US11093557B2 (en) * 2016-08-29 2021-08-17 Zoominfo Apollo Llc Keyword and business tag extraction
CN106649818B (zh) * 2016-12-29 2020-05-15 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN108182174B (zh) * 2017-12-27 2019-03-26 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886067A (zh) * 2014-03-20 2014-06-25 浙江大学 使用标签隐含主题进行图书推荐的方法

Also Published As

Publication number Publication date
CN109522275A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US8566303B2 (en) Determining word information entropies
US9767144B2 (en) Search system with query refinement
US20160012061A1 (en) Similar document detection and electronic discovery
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
US20060212441A1 (en) Full text query and search systems and methods of use
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
CN109522275B (zh) 基于用户生产内容的标签挖掘方法、电子设备及存储介质
CA3059929C (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
CN110019669B (zh) 一种文本检索方法及装置
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
CN111753526A (zh) 一种相似竞品数据分析方法及***
CN109597934B (zh) 确定点击推荐词的方法、装置、存储介质及电子设备
CN107908649B (zh) 一种文本分类的控制方法
CN116226515B (zh) 一种搜索结果排序方法、装置、电子设备和存储介质
CN111125543A (zh) 书籍推荐排序模型的训练方法、计算设备及存储介质
CN112528665A (zh) 一种基于语义理解的信息提取方法
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
WO2019192122A1 (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
KR101544142B1 (ko) 화제도 기반의 검색 제공 방법 및 시스템
CN112015853B (zh) 图书搜索方法、图书搜索***、电子装置及介质
CN114329206A (zh) 标题生成方法和装置、电子设备、计算机可读介质
CN113468339A (zh) 基于知识图谱的标签提取方法、***、电子设备及介质
CN111340521B (zh) 书籍制作价格处理方法、电子设备及存储介质
CN109614538A (zh) 一种农产品价格数据的提取方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant