CN106960017A - 电子书分类及其训练方法、装置和设备 - Google Patents

电子书分类及其训练方法、装置和设备 Download PDF

Info

Publication number
CN106960017A
CN106960017A CN201710124804.6A CN201710124804A CN106960017A CN 106960017 A CN106960017 A CN 106960017A CN 201710124804 A CN201710124804 A CN 201710124804A CN 106960017 A CN106960017 A CN 106960017A
Authority
CN
China
Prior art keywords
book
information
sorted
characteristic information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710124804.6A
Other languages
English (en)
Inventor
周兴博
佘建民
李帅
贾惠娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN201710124804.6A priority Critical patent/CN106960017A/zh
Publication of CN106960017A publication Critical patent/CN106960017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种电子书分类及其训练方法、装置和设备,其中,电子书分类方法包括:获取待分类的电子书的特征信息;使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类,获得对应的分类结果;按照每种分类规则对应的权重,分别对获得的分类结果进行加权;根据加权结果确定所述待分类的电子书的类型。通过本发明实施例,从多个不同维度对电子书进行分类,相较于传统的使用单一的分类算法对电子书分类,结果更为准确,出现误分类的情况也会大大减少。

Description

电子书分类及其训练方法、装置和设备
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种电子书分类方法、装置和设备,以及,一种电子书分类训练方法、装置和设备。
背景技术
电子书是利用计算机技术将文字、图片、声音、影像等信息内容数字化的出版物。随着互联网技术应用的越来越广泛,传统的纸质阅读方式已逐渐被电子书取代,人们越来越趋向于利用互联网和计算机技术,通过用于阅读电子书的电子书阅读应用下载电子书进行阅读。
在此情况下,诸如电子书推荐、搜索等多种服务成为电子书服务提供商推广电子书阅读应用,提升用户阅读体验的重要手段。但无论是推荐还是搜索,都需要基于电子书的明确分类。目前,常规做法是使用某一种特定算法先对电子书进行分类,然后基于该分类进行后续的诸如推荐或者搜索或者统计等等操作。这种常规方式虽然能够在一定程度上实现电子书的分类,但因每种算法都有自身的弱点和局限性,因此经常会出现分类不准确或者误分类的情况,使得基于电子书分类的后续操作不能得到有效实现。
发明内容
本发明实施例提供了一种电子书分类及电子书分类训练的方法、装置和设备,以解决目前电子书分类易出现分类不准确或者误分类的情况的问题。
根据本发明实施例的第一方面,提供了一种电子书分类方法,包括:获取待分类的电子书的特征信息;使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类,获得对应的分类结果;按照每种分类规则对应的权重,分别对获得的分类结果进行加权;根据加权结果确定所述待分类的电子书的类型。
根据本发明实施例的第二方面,提供了一种电子书分类训练方法,包括:获取待训练的电子书集合中的每本电子书的特征信息;使用与所述特征信息对应的至少两种分类规则,对所述待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;根据所述预分类结果为每种分类规则确定对应的权重;使用所述至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,所述测试电子书集合中的每本电子书对应有类型标注信息;根据所述测试分类结果与所述类型标注信息的差异,调整确定的所述权重,直到达到设定的训练终止条件。
根据本发明实施例的第三方面,提供了一种电子书分类装置,包括:第一获取模块,用于获取待分类的电子书的特征信息;第一分类模块,用于使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类,获得对应的分类结果;加权模块,用于按照每种分类规则对应的权重,分别对获得的分类结果进行加权;类型确定模块,用于根据加权结果确定所述待分类的电子书的类型。
根据本发明实施例的第四方面,提供了一种电子书分类训练装置,包括:第二获取模块,用于获取待训练的电子书集合中的每本电子书的特征信息;第二分类模块,用于使用与所述特征信息对应的至少两种分类规则,对所述待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;权重确定模块,用于根据所述预分类结果为每种分类规则确定对应的权重;测试模块,用于使用所述至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,所述测试电子书集合中的每本电子书对应有类型标注信息;调整模块,用于根据所述测试分类结果与所述类型标注信息的差异,调整确定的所述权重,直到达到设定的训练终止条件。
根据本发明实施例的第五方面,提供了一种电子书分类设备,包括:第一处理器、第一存储器、第一通信接口和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信;所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如第一方面所述的电子书分类方法对应的操作。
根据本发明实施例的第六方面,提供了一种电子书分类训练设备,包括:第二处理器、第二存储器、第二通信接口和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信接口通过所述第二通信总线完成相互间的通信;所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如第二方面所述的电子书分类训练方法对应的操作。
根据本发明实施例的第七方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于获取待分类的电子书的特征信息的可执行指令;用于使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类,获得对应的分类结果的可执行指令;用于按照每种分类规则对应的权重,分别对获得的分类结果进行加权的可执行指令;用于根据加权结果确定所述待分类的电子书的类型的可执行指令。
根据本发明实施例的第八方面,还提供了另一种计算机可读存储介质,所述计算机可读存储介质存储有:用于获取待训练的电子书集合中的每本电子书的特征信息的可执行指令;用于使用与所述特征信息对应的至少两种分类规则,对所述待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果的可执行指令;用于根据所述预分类结果为每种分类规则确定对应的权重的可执行指令;用于使用所述至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果的可执行指令,其中,所述测试电子书集合中的每本电子书对应有类型标注信息;用于根据所述测试分类结果与所述类型标注信息的差异,调整确定的所述权重,直到达到设定的训练终止条件的可执行指令。
根据本发明实施例提供的技术方案,在对电子书进行分类时,根据电子书的特征信息,采用多种(两种及两种以上)分类规则,获得对应的分类结果,进而通过对各分类结果进行加权,最终确定电子书的分类。与投票情形类型,通常情况下多人投票结果相较于单人投票更为客观和公正,而本发明实施例采用多种不同的分类规则,从多个不同维度对电子书进行分类,相较于传统的使用单一的分类算法对电子书分类,结果更为准确,出现误分类的情况也会大大减少。而针对每种分类规则,通过其对应的权重(该权重通过机器学习获得),对分类规则的准确度可以有进一步的评估和补充,进一步提高了分类结果的准确性。
附图说明
图1是根据本发明实施例一的一种电子书分类训练方法的步骤流程图;
图2是根据本发明实施例二的一种电子书分类训练方法的步骤流程图;
图3是根据本发明实施例三的一种电子书分类方法的步骤流程图;
图4是根据本发明实施例四的一种电子书分类方法的步骤流程图;
图5是根据本发明实施例五的一种电子书分类训练装置的结构框图;
图6是根据本发明实施例六的一种电子书分类训练装置的结构框图;
图7是根据本发明实施例七的一种电子书分类装置的结构框图;
图8是根据本发明实施例八的一种电子书分类装置的结构框图;
图9是根据本发明实施例九的一种电子书分类训练设备的结构示意图;
图10是根据本发明实施例十的一种电子书分类设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
为便于描述,本发明实施例中,首先对电子书分类训练方案进行说明,进而,以此为基础,对本发明实施例的电子书分类方案进行说明。
实施例一
参照图1,示出了根据本发明实施例一的一种电子书分类训练方法的步骤流程图。
本实施例的电子书分类训练方法包括以下步骤:
步骤S102:获取待训练的电子书集合中的每本电子书的特征信息。
待训练的电子书集合中包含有一定数量的各种类型的电子书,本实施例中,基于该电子书集合,进行电子书分类的训练。
其中,每本电子书的特征信息可以是任意适当的表征电子书的特征的信息,包括但不限于:电子书的内容特征信息、属性特征信息、用户的行为特征信息等等。
步骤S104:使用与所述特征信息对应的至少两种分类规则,对待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果。
其中,每一种分类规则从一个维度对电子书进行预分类,例如,从内容特征维度、从属性特征维度、从用户行为维度等等。通过多维度对电子书进行预分类,可以取得较为客观和准确的预分类结果。
步骤S106:根据预分类结果为每种分类规则确定对应的权重。
不同维度的分类规则对预分类结果的影响不同,某些规则可能影响较大,而另外一些则可能影响较小,根据权重对预分类结果进行加权,进一步提升电子书预分类的准确性。
其中,对权重的确定可以由本领域技术人员根据实际需求采用适当算法实现,包括但不限于:模拟退火算法、模拟爬山算法等。
经过上述过程,实现了电子书分类的一次训练,但该次训练结果是否已满足要求,可以通过后续的对测试电子书集合中的电子书进行分类测试来判断。
步骤S108:使用所述至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果。
其中,测试电子书集合中的每本电子书对应有类型标注信息,也即,该测试电子书集合中的每本电子书都预先进行了人工类型标注。
采用对待训练的电子书集合中的电子书进行预分类相同的分类规则,对测试电子书集合中的电子书进行分类,获得分类结果。
步骤S110:根据测试分类结果与类型标注信息的差异,调整确定的权重,直到达到设定的训练终止条件。
若测试分类结果与类型标注信息的差异(如通过余弦定理获得)在设定范围内,则可认为对测试电子书集合中的电子书分类基本准确,则可确定本次训练的结果(包括但不限于各分类对应的至少一个电子书子集合及分类规则对应的权重)满足要求;若测试分类结果与类型标注信息的差异超出了设定范围,则可认为不能对测试电子书集合中的电子书进行准确分类,需要重新进行训练,包括使用分类规则重新对待训练的电子书集合中的电子书进行分类,以及调整各分类规则对应的权重,并使用重新分类后的电子书子集合及调整后的权重,继续对测试电子书集合中的电子书进行分类,直至分类结果满足要求。其中,在根据测试分类结果与类型标注信息的差异调整权重,直至满足设定的训练终止条件中,训练终止条件可以是设定的训练次数,也可以是调整权重后,测试分类结果与类型标注信息的差异在设定范围内,或者达到一定的稳定趋势等。
通过本实施例的方案,在进行电子书分类训练时,根据电子书的特征信息,采用多种(两种及两种以上)分类规则,获得对应的预分类结果,进而根据各预分类结果确定每种分类规则的权重,并使用测试电子书集合测试分类及权重的准确性,根据测试结果进行权重调整,最终实现分类及权重的准确确定。与投票情形类型,通常情况下多人投票结果相较于单人投票更为客观和公正,而本实施例采用多种不同的分类规则,从多个不同维度对电子书分类进行训练,相较于传统的使用单一的电子书分类算法,结果更为准确,出现误分类的情况也会大大减少。而针对每种分类规则,通过对其对应的权重的调整和学习,可以对分类规则的准确度有进一步的评估和补充,进一步提高了电子书分类规则的有效性和准确性。
本实施例的电子书分类训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:服务器、终端设备等。
实施例二
参照图2,示出了根据本发明实施例二的一种电子书分类训练方法的步骤流程图。
本实施例的电子书分类训练方法包括以下步骤:
步骤S202:确定待训练的电子书集合。
其中,待训练的电子书集合中包括不同类型的多本电子书。
步骤S204:获取待训练的电子书集合中的每本电子书的特征信息。
其中,对每本电子书的特征信息的提取可以由本领域技术人员根据实际情况采用任意适当的方式实现,包括但不限于:最大匹配法、最大概率法分词、向量空间模型法等等。
本实施例中,电子书的特征信息包括但不限于:内容特征信息、属性特征信息、与电子书有关的用户的行为特征信息等等。
其中,电子书的内容特征信息用于表征电子书的内容特征,其可以表现为内容特征分词的形式,如通过对电子书的文字内容信息进行语义分析获得其内容特征分词;电子书的属性特征信息用于表征电子书的属性特征,包括但不限于作者信息、书名信息、评论特征信息中的至少一种,其中,评论特征信息用于表征从对电子书的评论中获取的评论特征分词的信息,如,通过对一本电子书的评论信息进行分析,提取其评论特征分词为“武侠”、“古龙”等,可以认为该电子书为“武侠类”电子书;与电子书有关的用户的行为特征信息用于表征用户针对该电子书进行的相关操作和/或用户的阅读偏好等特征,用户的行为特征信息包括但不限于:用户对电子书的操作信息,以及以下信息中的至少一种:用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息,其中,阅读习惯信息包括但不限于阅读位置信息和/或阅读时间信息。
在实际应用中,本领域技术人员可以根据实际需要,对待训练的电子书集合中的每本电子书提取上述特征信息中的部分和全部,作为电子书预分类的依据。
步骤S206:使用与获取的特征信息对应的至少两种分类规则,对待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果。
本实施例中,采用三种分类规则作为示例进行说明,但本领域技术人员应当明了,在实际使用中,可以采用两种,或者三种以上的分类规则,不同的分类规则实现从不同维度对电子书进行分类即可。
本实施例的三种分类规则包括:规则一,根据待训练的电子书集合中的每本电子书的内容特征信息,对电子书进行预分类;规则二,根据待训练的电子书集合中的每本电子书的属性特征信息,对电子书进行预分类;规则三,根据用户对每本电子书的行为特征信息,对待分类的电子书进行预分类。
以下,针对上述每一种规则进行具体说明。
规则一
根据待训练的电子书集合中的每本电子书的内容特征信息,对电子书进行预分类。
每本电子书均具有相应的内容特征信息,如内容特征分词,在进行分类时,根据每本电子书的内容特征分词,采用适当的分类算法,如,词库相似度模型算法,分类预测模型算法,相似度算法等,即可对多本电子书进行分类。其中,相似度算法包括但不限于:聚类算法、特征向量距离计算算法、机器学习算法等等。
例如,在1000本电子书中,有200本的内容特征分词涉及到“战场”、“命令”、“***”、“***”等分词,虽然这200本电子书中每本电子书对应的具体内容特征分词并不完全相同,但通过相似度算法确定这200本电子书具有较高的相似度,如相似度在70%~90%,则可以初步将这200本电子书划分为一个类型,如“战争类”等。
与此类似,可以根据电子书之间的相似度,将其它电子书划分为不同的类型。其中,具体的类型设定可以由本领域技术人员根据实际情况进行适当设定,本发明实施例对此不作限制。如,设定为“战争类”、“武侠类”、“言情类”、“互联网类”、“编程类”、“哲学类”、“逻辑类”等等。
通过本规则对电子书进行分类后,可以获得多个类型不同的电子书子集合,进而,可以针对每个电子书子集合进行内容特征信息提取,提取出的特征即可代表本子集合中的所有电子书的内容特征。
规则二
根据待训练的电子书集合中的每本电子书的属性特征信息,对电子书进行预分类。
如前所述,每本电子书的属性特征信息包括但不限于:电子书的作者信息、书名信息、评论特征信息中的至少一种。其具体的分类算法的实现可以由本领域技术人员根据实际情况采用适当的算法,包括但不限于相似度算法。
例如,在1000本电子书里,有3本电子书的作者为“古龙”,书名分别为《流星蝴蝶剑》、《三少爷的剑》、《楚留香传奇》;有5本电子书的作者为“金庸”,书名分别为《雪山飞狐》、《连城诀》、《天龙八部》、《射雕英雄传》、《白马啸西风》,则根据上述作者信息和书名信息,可以将这些电子书划分为一类,如“武侠类”。进一步地,若这些电子书还有评论特征信息,如评论特征分词中包含有“武侠”、“古龙”等,也可以进一步确定该电子书为“武侠类”。
通过本规则对电子书进行分类后,同样可以获得多个类型不同的电子书子集合,进而,可以针对每个电子书子集合进行属性特征信息提取,提取出的特征即可代表本子集合中的所有电子书的属性特征。
规则三
根据用户对每本电子书的行为特征信息,对待分类的电子书进行预分类。
其中,用户的行为特征信息除包括用户对电子书的操作信息外,还可以包括以下信息中的至少一种:用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息。用户对电子书的操作信息包括但不限于:购买行为信息、分享行为信息、下载行为信息等;阅读习惯信息包括阅读位置信息和/或阅读时间信息。
下载行为信息记录了用户使用电子书阅读应用下载过的电子书的信息;购买行为信息记录了用户使用电子书阅读应用购买过的电子书的信息;分享行为信息记录了用户使用电子书阅读应用分享给他人的电子书的信息。上述信息可以从不同角度反映电子书用户的类型,或者电子书用户偏好的电子书的类型,不同角度反映的偏好程度也可能不同,例如,从偏好程度上看,购买行为信息相比较于下载行为信息更能反映电子书用户对某些类型的电子书的偏好程度。因此,若用户A偏好“武侠类”和“编程类”电子书,其中,多次购买了“编程类”电子书,则若电子书X为用户A购买的电子书,则电子书X为“编程类”电子书的可能性较大。
用户的阅读偏好类型信息反映了该用户的阅读偏好;用户的好友关系信息反映了与该用户具有相同或者类似阅读偏好的用户的信息;用户的阅读习惯信息反映了该用户的阅读习惯。其中,阅读位置信息反映了电子书用户阅读电子书时的习惯位置,其可以通过电子书阅读应用所在的终端的位置确定;阅读时间信息反映了电子书用户阅读电子书的习惯时间。
例如,用户习惯于在工作单位阅读“编程类”电子书,而在家中阅读“武侠类”电子书;或者,用户习惯于在早上8:00~9:00阅读“编程类”电子书,而在晚上9:00~10:00阅读“武侠类”电子书等等。通过这些信息,也可以对电子书进行预分类。
再例如,用户A偏好“武侠类”和“编程类”电子书,其好友B偏好“武侠类”和“科幻类”电子书,若用户A将电子书X分享给好友B,则电子书X为“武侠类”的可能性较大;又例如,用户A在晚上9:00~10:00购买了电子书X,则电子书X为“武侠类”的可能性也较大,等等。据此,可以将电子书X预分类为“武侠类”。
在具体实现时,本分类规则可以由本领域技术人员采用适当的分类算法实现,包括但不限于:关联规则算法、频繁项集挖掘算法、协同过滤算法等。
通过本规则对电子书进行分类后,同样可以获得多个类型不同的电子书子集合;进而,可以针对每个电子书子集合进行用户的行为特征信息提取,提取出的特征即可代表本子集合中的相关用户的行为特征。
通过上述过程,实现了对待训练的电子书集合中的电子书的预分类,经预分类后,每一分类规则对应有不同类型的多个电子书子集合。
步骤S208:根据预分类结果为每种分类规则确定对应的权重。
本实施例中,根据预分类结果,使用模拟退火算法为每种分类规则确定对应的权重。
模拟退火算法是一种基于概率的算法,其来源于固体退火原理,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。用固体退火模拟组合优化问题,将内能模拟为目标函数值,温度演化成控制参数,即得到解组合优化问题的模拟退火算法。模拟退火算法由初始解和控制参数初值开始,对当前解重复“产生新解——>计算目标函数差——>接受或舍弃”的迭代,并逐步衰减控制参数初值,算法终止时的当前解即为所得近似最优解。使用模拟退火算法,不同的权重组合会得到不同准确率,最优解就是获取准确率最高的权重组合。举例说明:权重组合(1,2,3)得到电子书分类的准确率为50%,而权重组合(2,3,5)得到的准确率为70%,以此类推,通过模拟退火算法,尽可能找到准确率最高的权重组合,同时保证算法的效率。
具体到本实施例,可以将通过分类规则预分类获得的预分类结果作为模拟退火算法的初始解,将初始权重作为控制参数初值,其中,初始权重可以由本领域技术人员根据实际情况适当设置,如,根据分类规则设置,如本实施例中三个分类规则对应平均设置为0.33等。
通过模拟退火算法,可以为每种分类规则确定其对应的权重。
步骤S210:使用至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果。
其中,测试电子书集合中的每本电子书对应有类型标注信息。
测试电子书集合中的每本电子书都被预先标注了类型,在前次预分类获得的多个电子书子集合和每种分类规则对应的权重的基础上,可以通过测试电子书集合中的每本电子书与电子书子集合中的电子书的相似度,确定测试电子书集合中的每本电子书的测试分类结果。测试分类结果有可能与类型标注信息一致,也有可能不一致。
步骤S212:根据测试分类结果与类型标注信息的差异,调整确定的权重,直到达到设定的训练终止条件。
在一种可行方式中,若所有测试电子书集合中的电子书的测试分类结果与类型标注信息的差异不大,如差异在准确率不小于80%同时不小于之前的已存在的准确率范围内,则可以认为前次预分类结果较为准确,可以不对电子书子集合和权重进行调整;若差异较大,不在准确率不小于80%范围内,则需要对电子书子集合和权重进行调整,如,使用之前的分类规则重新对待训练的电子书集合中的电子书进行预分类,进而重新确定每种分类规则对应的权重等,该过程迭代执行,直至最终结果满足实际需求,如测试分类结果与类型标注信息的差异在准确率不小于80%范围内。
当然,不限于此,也可以对迭代训练设定次数,当迭代训练达至设定次数后,从历次训练结果中挑选出最优结果,也可样适用于本发明实施例的方案。
通过本实施例,采用多种不同的分类规则,从多个不同维度对电子书分类进行训练,相较于传统的使用单一的电子书分类算法,结果更为准确,出现误分类的情况也会大大减少。而针对每种分类规则,通过对其对应的权重的调整和学习,可以对分类规则的准确度有进一步的评估和补充,进一步提高了电子书分类规则的有效性和准确性。
本实施例的电子书分类训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:服务器、终端设备等。
实施例三
参照图3,示出了根据本发明实施例三的一种电子书分类方法的步骤流程图。
本实施例的电子书分类方法包括以下步骤:
步骤S302:获取待分类的电子书的特征信息。
其中,待分类的电子书的特征信息可以是任意适当的表征电子书的特征的信息,包括但不限于:电子书的内容特征信息、属性特征信息、用户的行为特征信息等等。
步骤S304:使用与特征信息对应的至少两种分类规则,对待分类的电子书进行分类,获得对应的分类结果。
其中,每一种分类规则从一个维度对电子书进行分类,例如,从内容特征维度、从属性特征维度、从用户行为维度等等。通过多维度对电子书进行分类,可以取得较为客观和准确的分类结果。
步骤S306:按照每种分类规则对应的权重,分别对获得的分类结果进行加权。
不同维度的分类规则对分类结果的影响不同,某些规则可能影响较大,而另外一些则可能影响较小,根据权重对分类结果进行加权,进一步提升电子书分类的准确性。
步骤S308:根据加权结果确定待分类的电子书的类型。
如,规则A得到的结果为电子书属于武侠类的概率为90%,其对应的权重为0.5;规则B得到的结果为电子书也属于武侠类,概率为70%,其对应的权重为0.3;规则C得到的结果为电子书属于战争类,概率为50%,其对应的权重为0.2。则90%*0.5>70%*0.3>50%*0.2,最终,该电子书将被确认为武侠类。
需要说明的是,本实施例的电子书分类方案一方面可以首先通过前述实施例一或二中对电子书分类训练,获得相应的分类规则、不同类型的电子书子集合及每种分类规则对应的权重;然后,基于获得的上述内容进行本实施例的电子书分类;另一方面,也可以不进行前述实施例一或二中的电子书分类训练,而从第三方获得已分类完成的电子书子集合、相应的分类规则及每种分类规则对应的权重,直接进行本实施例的电子书分类。
通过本实施例,在对电子书进行分类时,根据电子书的特征信息,采用多种分类规则,获得对应的分类结果,进而通过对各分类结果进行加权,最终确定电子书的分类。与投票情形类型,通常情况下多人投票结果相较于单人投票更为客观和公正,而本实施例采用多种不同的分类规则,从多个不同维度对电子书进行分类,相较于传统的使用单一的分类算法对电子书分类,结果更为准确,出现误分类的情况也会大大减少。而针对每种分类规则,通过其对应的权重,对分类规则的准确度可以有进一步的评估和补充,进一步提高了分类结果的准确性。
本实施例的电子书分类方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:服务器、终端设备等。
实施例四
参照图4,示出了根据本发明实施例四的一种电子书分类方法的步骤流程图。
本实施例的电子书分类方法包括以下步骤:
步骤S402:获取待分类的电子书。
步骤S404:提取待分类的电子书的特征信息。
其中,电子书的特征信息包括但不限于:电子书的内容特征信息、属性特征信息、用户的行为特征信息等等。
步骤S406:使用与特征信息对应的至少两种分类规则,对待分类的电子书进行分类,获得对应的分类结果。
其中,分类规则可以通过机器学习获得,如通过前述实施例一或二中的机器学习方式训练获得。
本实施例中,以三种分类规则为例,包括:根据待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对待分类的电子书进行分类;和,根据待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对待分类的电子书进行分类;和,根据接收到的用户对待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对待分类的电子书进行分类。
其中,第一电子书集合、第二电子书集合和第三电子书集合均可以为通过前述实施例一和二训练获得的电子书集合。每个第一电子书集合中包括多本同一类型的电子书,以整个集合为单位,对其中的电子书的内容进行特征提取,获得该集合对应的内容特征信息。与此类似,每一个第二电子书集合中包括多本属性相同或类似的电子书,以整个集合为单位,对其中的电子书进行属性特征提取,获得该集合对应的属性特征信息。对于每一个第三电子书集合,其中不仅包括有电子书的信息,还包括有用户的行为特征信息,如,用户A的购买行为特征及其购买的电子书的特征等,同样以整个集合为单位,对其中的信息进行特征提取,获得该集合对应的用户的行为特征信息。
相应地,不同的分类规则可能对应有不同的电子书的特征信息。因此,当分类规则包括根据待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对待分类的电子书进行分类时,获取待分类的电子书的特征信息的步骤包括:获取待分类的电子书的内容特征分词,将内容特征分词作为待分类的电子书的特征信息;其中,内容特征分词用于表征待分类的电子书的内容特征。当分类规则包括根据待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对待分类的电子书进行分类时,获取待分类的电子书的特征信息的步骤包括:获取待分类的电子书的作者信息、书名信息、评论特征信息中的至少一种,将获取的所述信息作为待分类的电子书的特征信息;其中,评论特征信息用于表征从对待分类的电子书的评论中获取的评论特征分词的信息。
而在根据接收到的用户对待分类的电子书的行为特征信息,对待分类的电子书进行分类时,用户的行为特征信息可以包括:用户对电子书的操作信息,以及以下信息中的至少一种:用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息。基于此,可以根据接收到的用户对待分类的电子书的操作信息、及用户的阅读偏好类型信息,对待分类的电子书进行分类;和/或,根据接收到的用户对待分类的电子书的操作信息、及用户的好友关系信息所指示的用户好友的阅读偏好类型信息,对待分类的电子书进行分类;和/或,根据接收到的用户对待分类的电子书的操作信息、及用户的阅读习惯信息,对待分类的电子书进行分类。其中,阅读习惯信息包括阅读位置信息和/或阅读时间信息。
例如,用户A习惯于在早上8:00~9:00阅读“编程类”电子书,而在晚上9:00~10:00阅读“武侠类”电子书,待分类的电子书X为用户A在早上8:00~9:00阅读的电子书,则根据上述信息可将电子书X分类为“编程类”电子书。
本领域技术人员应当明了,上述三种分类规则仅为示例性说明,在实际使用中,可以仅使用其中的两种,也可以在这三种的基础,增加其它维度的分类规则,还可以采用其它适当的分类规则等。
步骤S408:按照每种分类规则对应的权重,分别对获得的分类结果进行加权。
一种可行方式中,每种分类规则对应的权重可以采用如实施例一或二中所述的模拟退火算法获得。
步骤S410:根据加权结果确定待分类的电子书的类型。
对按照多个分类规则对待分类的电子书进行分类获得的分类结果进行加权,将加权后获得的值中最大的值所对应的分类结果确定为待分类的电子书的类型。
通过本实施例,采用多种不同的分类规则,从多个不同维度对电子书进行分类,相较于传统的使用单一的分类算法对电子书分类,结果更为准确,出现误分类的情况也会大大减少。而针对每种分类规则,通过其对应的权重,对分类规则的准确度可以有进一步的评估和补充,进一步提高了分类结果的准确性。
本实施例的电子书分类方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:服务器、终端设备等。
实施例五
参照图5,示出了根据本发明实施例五的一种电子书分类训练装置的结构框图。
本实施例的电子书分类训练装置包括:第二获取模块502,用于获取待训练的电子书集合中的每本电子书的特征信息;第二分类模块504,用于使用与特征信息对应的至少两种分类规则,对待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;权重确定模块506,用于根据预分类结果为每种分类规则确定对应的权重;测试模块508,用于使用至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,测试电子书集合中的每本电子书对应有类型标注信息;调整模块510,用于根据测试分类结果与类型标注信息的差异,调整确定的权重,直到达到设定的训练终止条件。
本实施例的电子书分类训练装置用于实现前述多个方法实施例中相应的电子书分类训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例六
参照图6,示出了根据本发明实施例六的一种电子书分类训练装置的结构框图。
本实施例的电子书分类训练装置包括:第二获取模块602,用于获取待训练的电子书集合中的每本电子书的特征信息;第二分类模块604,用于使用与特征信息对应的至少两种分类规则,对待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;权重确定模块606,用于根据预分类结果为每种分类规则确定对应的权重;测试模块608,用于使用至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,测试电子书集合中的每本电子书对应有类型标注信息;调整模块610,用于根据测试分类结果与类型标注信息的差异,调整确定的权重,直到达到设定的训练终止条件。
可选地,权重确定模块606用于根据预分类结果,使用模拟退火算法为每种分类规则确定对应的权重。
可选地,第二分类模块604包括以下至少两个模块:第二内容分类模块6042,用于根据待训练的电子书集合中的每本电子书的内容特征信息,对电子书进行预分类;和,第二属性分类模块6044,用于根据待训练的电子书集合中的每本电子书的属性特征信息,对电子书进行预分类;和,第二行为分类模块6046,用于根据用户对每本电子书的行为特征信息,对待分类的电子书进行预分类。
可选地,属性特征信息包括电子书的作者信息、书名信息、评论特征信息中的至少一种;其中,评论特征信息用于表征从对电子书的评论中获取的评论特征分词的信息。
可选地,用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种:用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息。
可选地,阅读习惯信息包括阅读位置信息和/或阅读时间信息。
本实施例的电子书分类训练装置用于实现前述多个方法实施例中相应的电子书分类训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例七
参照图7,示出了根据本发明实施例七的一种电子书分类装置的结构框图。
本实施例的电子书分类装置包括:第一获取模块702,用于获取待分类的电子书的特征信息;第一分类模块704,用于使用与特征信息对应的至少两种分类规则,对待分类的电子书进行分类,获得对应的分类结果;加权模块706,用于按照每种分类规则对应的权重,分别对获得的分类结果进行加权;类型确定模块708,用于根据加权结果确定所述待分类的电子书的类型。
需要说明的是,本实施例的电子书分类装置可以基于前述实施例五或六中所述的电子书分类训练装置的训练结果实现电子书分类。
本实施例的电子书分类装置用于实现前述多个方法实施例中相应的电子书分类方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例八
参照图8,示出了根据本发明实施例八的一种电子书分类装置的结构框图。
本实施例的电子书分类装置包括:第一获取模块802,用于获取待分类的电子书的特征信息;第一分类模块804,用于使用与特征信息对应的至少两种分类规则,对待分类的电子书进行分类,获得对应的分类结果;加权模块806,用于按照每种分类规则对应的权重,分别对获得的分类结果进行加权;类型确定模块808,用于根据加权结果确定待分类的电子书的类型。
可选地,第一分类模块804包括以下至少两个模块:第一内容分类模块8042,用于根据待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对待分类的电子书进行分类;和,第一属性分类模块8044,用于根据待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对待分类的电子书进行分类;和,第一行为分类模块8046,用于根据接收到的用户对待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对待分类的电子书进行分类。
可选地,当第一分类模块804包括第一内容分类模块8042时,第一获取模块802用于获取待分类的电子书的内容特征分词,将内容特征分词作为待分类的电子书的特征信息;其中,内容特征分词用于表征待分类的电子书的内容特征。
可选地,当第一分类模块804包括第一属性分类模块8044时,第一获取模块802用于获取待分类的电子书的作者信息、书名信息、评论特征信息中的至少一种,将获取的信息作为待分类的电子书的特征信息;其中,评论特征信息用于表征从对待分类的电子书的评论中获取的评论特征分词的信息。
可选地,用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息;第一行为分类模块8046用于根据接收到的用户对待分类的电子书的操作信息、及用户的阅读偏好类型信息,对待分类的电子书进行分类;和/或,根据接收到的用户对待分类的电子书的操作信息、及用户的好友关系信息所指示的用户好友的阅读偏好类型信息,对待分类的电子书进行分类;和/或,根据接收到的用户对待分类的电子书的操作信息、及用户的阅读习惯信息,对待分类的电子书进行分类。
可选地,阅读习惯信息包括阅读位置信息和/或阅读时间信息。
可选地,所述分类规则通过机器学习获得。
可选地,每种分类规则对应的权重通过对所述分类规则进行模拟退火处理获得。
需要说明的是,本实施例的电子书分类装置可以基于前述实施例五或六中所述的电子书分类训练装置的训练结果实现电子书分类。
本实施例的电子书分类装置用于实现前述多个方法实施例中相应的电子书分类方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例九
参照图9,示出了根据本发明实施例九的一种电子书分类训练设备的结构示意图,本发明具体实施例并不对电子书分类训练设备的具体实现做限定。
如图9所示,该电子书分类训练设备可以包括:第二处理器(processor)902、第二通信接口(Communications Interface)904、第二存储器(memory)906、以及第二通信总线908。
其中:
第二处理器902、第二通信接口904、以及第二存储器906通过第二通信总线908完成相互间的通信。
第二通信接口904,用于与其它设备比如客户端或服务器等的网元通信。
第二处理器902,用于执行第二程序910,具体可以执行上述电子书分类训练方法实施例中的相关步骤。
具体地,第二程序910可以包括程序代码,该程序代码包括计算机操作指令。
第二处理器902可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
第二存储器906,用于存放第二程序910。第二存储器906可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
第二程序910具体可以用于使得第二处理器902执行以下操作:获取待训练的电子书集合中的每本电子书的特征信息;使用与特征信息对应的至少两种分类规则,对待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;根据预分类结果为每种分类规则确定对应的权重;使用至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,测试电子书集合中的每本电子书对应有类型标注信息;根据测试分类结果与类型标注信息的差异,调整确定的权重,直到达到设定的训练终止条件。
在一种可选的实施方式中,第二程序910还用于使得第二处理器902在根据预分类结果为每种分类规则确定对应的权重的时:根据预分类结果,使用模拟退火算法为每种分类规则确定对应的权重。
在一种可选的实施方式中,第二程序910还用于使得第二处理器902在使用与特征信息对应的至少两种分类规则,对待训练的电子书集合中的电子书进行预分类时采用以下至少两种方式:根据待训练的电子书集合中的每本电子书的内容特征信息,对电子书进行预分类;和,根据待训练的电子书集合中的每本电子书的属性特征信息,对电子书进行预分类;和,根据用户对每本电子书的行为特征信息,对待分类的电子书进行预分类。
在一种可选的实施方式中,属性特征信息包括电子书的作者信息、书名信息、评论特征信息中的至少一种;其中,评论特征信息用于表征从对所述电子书的评论中获取的评论特征分词的信息。
在一种可选的实施方式中,用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种:用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息。
在一种可选的实施方式中,阅读习惯信息包括阅读位置信息和/或阅读时间信息。
第二程序910中各步骤的具体实现可以参见上述电子书分类训练方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子书分类训练设备,采用多种不同的分类规则,从多个不同维度对电子书分类进行训练,相较于传统的使用单一的电子书分类算法,结果更为准确,出现误分类的情况也会大大减少。而针对每种分类规则,通过对其对应的权重的调整和学习,可以对分类规则的准确度有进一步的评估和补充,进一步提高了电子书分类规则的有效性和准确性。
实施例十
参照图10,示出了根据本发明实施例十的一种电子书分类设备的结构示意图,本发明具体实施例并不对电子书分类设备的具体实现做限定。
如图10所示,该电子书分类设备可以包括:第一处理器(processor)1002、第一通信接口(Communications Interface)1004、第一存储器(memory)1006、以及第一通信总线1008。
其中:
第一处理器1002、第一通信接口1004、以及第一存储器1006通过第一通信总线1008完成相互间的通信。
第一通信接口1004,用于与其它设备比如客户端或服务器等的网元通信。
第一处理器1002,用于执行第一程序1010,具体可以执行上述电子书分类训练方法实施例中的相关步骤。
具体地,第一程序1010可以包括程序代码,该程序代码包括计算机操作指令。
第一处理器1002可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
第一存储器1006,用于存放第一程序1010。第一存储器1006可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
第一程序1010具体可以用于使得第一处理器1002执行以下操作:获取待分类的电子书的特征信息;使用与特征信息对应的至少两种分类规则,对待分类的电子书进行分类,获得对应的分类结果;按照每种分类规则对应的权重,分别对获得的分类结果进行加权;根据加权结果确定待分类的电子书的类型。
在一种可选的实施方式中,第一程序1010还用于使得第一处理器1002在使用与所述特征信息对应的至少两种分类规则,对待分类的电子书进行分类时包括以下至少两种方式:根据待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对待分类的电子书进行分类;和,根据待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对待分类的电子书进行分类;和,根据接收到的用户对待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对待分类的电子书进行分类。
在一种可选的实施方式中,当分类规则包括根据待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对待分类的电子书进行分类时,第一程序1010还用于使得第一处理器1002在获取待分类的电子书的特征信息时:获取待分类的电子书的内容特征分词,将内容特征分词作为待分类的电子书的特征信息;其中,内容特征分词用于表征待分类的电子书的内容特征。
在一种可选的实施方式中,当分类规则包括根据待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对待分类的电子书进行分类时,第一程序1010还用于使得第一处理器1002在获取待分类的电子书的特征信息时:获取待分类的电子书的作者信息、书名信息、评论特征信息中的至少一种,将获取的信息作为所述待分类的电子书的特征信息;其中,评论特征信息用于表征从对待分类的电子书的评论中获取的评论特征分词的信息。
在一种可选的实施方式中,用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息;第一程序1010还用于使得第一处理器1002在根据接收到的用户对待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对待分类的电子书进行分类时:根据接收到的用户对待分类的电子书的操作信息、及用户的阅读偏好类型信息,对待分类的电子书进行分类;和/或,根据接收到的用户对待分类的电子书的操作信息、及用户的好友关系信息所指示的用户好友的阅读偏好类型信息,对待分类的电子书进行分类;和/或,根据接收到的用户对待分类的电子书的操作信息、及用户的阅读习惯信息,对待分类的电子书进行分类。
在一种可选的实施方式中,阅读习惯信息包括阅读位置信息和/或阅读时间信息。
在一种可选的实施方式中,所述分类规则通过机器学习获得。
在一种可选的实施方式中,每种分类规则对应的权重通过对所述分类规则进行模拟退火处理获得。
第一程序1010中各步骤的具体实现可以参见上述电子书分类方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子书分类设备,采用多种不同的分类规则,从多个不同维度对电子书进行分类,相较于传统的使用单一的分类算法对电子书分类,结果更为准确,出现误分类的情况也会大大减少。而针对每种分类规则,通过其对应的权重,对分类规则的准确度可以有进一步的评估和补充,进一步提高了分类结果的准确性。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的电子书分类或电子书分类训练方法。此外,当通用计算机访问用于实现在此示出的电子书分类或电子书分类训练方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的电子书分类或方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
本发明实施例提供了A1、一种电子书分类方法,包括:获取待分类的电子书的特征信息;使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类,获得对应的分类结果;按照每种分类规则对应的权重,分别对获得的分类结果进行加权;根据加权结果确定所述待分类的电子书的类型。
A2、根据A1所述的方法,其中,所述使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类的步骤包括以下至少两种:根据所述待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对所述待分类的电子书进行分类;和,根据所述待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对所述待分类的电子书进行分类;和,根据接收到的用户对所述待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对所述待分类的电子书进行分类。
A3、根据A2所述的方法,其中,当分类规则包括根据所述待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对所述待分类的电子书进行分类时,所述获取待分类的电子书的特征信息的步骤包括:获取所述待分类的电子书的内容特征分词,将所述内容特征分词作为所述待分类的电子书的特征信息;其中,所述内容特征分词用于表征所述待分类的电子书的内容特征。
A4、根据A2所述的方法,其中,当分类规则包括根据所述待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对所述待分类的电子书进行分类时,所述获取待分类的电子书的特征信息的步骤包括:获取所述待分类的电子书的作者信息、书名信息、评论特征信息中的至少一种,将获取的所述信息作为所述待分类的电子书的特征信息;其中,所述评论特征信息用于表征从对所述待分类的电子书的评论中获取的评论特征分词的信息。
A5、根据A2所述的方法,其中,所述用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息;所述根据接收到的用户对所述待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对所述待分类的电子书进行分类的步骤包括:根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的阅读偏好类型信息,对所述待分类的电子书进行分类;和/或,根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的好友关系信息所指示的用户好友的阅读偏好类型信息,对所述待分类的电子书进行分类;和/或,根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的阅读习惯信息,对所述待分类的电子书进行分类。
A6、根据A5所述的方法,其中,所述阅读习惯信息包括阅读位置信息和/或阅读时间信息。
A7、根据A1所述的方法,其中,所述分类规则通过机器学习获得。
A8、根据A7所述的方法,其中,每种分类规则对应的权重通过对所述分类规则进行模拟退火处理获得。
B9、一种电子书分类训练方法,包括:获取待训练的电子书集合中的每本电子书的特征信息;使用与所述特征信息对应的至少两种分类规则,对所述待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;根据所述预分类结果为每种分类规则确定对应的权重;使用所述至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,所述测试电子书集合中的每本电子书对应有类型标注信息;根据所述测试分类结果与所述类型标注信息的差异,调整确定的所述权重,直到达到设定的训练终止条件。
B10、根据B9所述的方法,其中,根据所述预分类结果为每种分类规则确定对应的权重的步骤包括:根据所述预分类结果,使用模拟退火算法为每种分类规则确定对应的权重。
B11、根据B9或B10所述的方法,其中,使用与所述特征信息对应的至少两种分类规则,对所述待训练的电子书集合中的电子书进行预分类的步骤包括以下至少两种:根据所述待训练的电子书集合中的每本电子书的内容特征信息,对所述电子书进行预分类;和,根据所述待训练的电子书集合中的每本电子书的属性特征信息,对所述电子书进行预分类;和,根据用户对每本电子书的行为特征信息,对所述待分类的电子书进行预分类。
B12、根据B11所述的方法,其中,所述属性特征信息包括电子书的作者信息、书名信息、评论特征信息中的至少一种;其中,所述评论特征信息用于表征从对所述电子书的评论中获取的评论特征分词的信息。
B13、根据B11所述的方法,其中,所述用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种:用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息。
B14、根据B13所述的方法,其中,所述阅读习惯信息包括阅读位置信息和/或阅读时间信息。
C15、一种电子书分类装置,包括:第一获取模块,用于获取待分类的电子书的特征信息;第一分类模块,用于使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类,获得对应的分类结果;加权模块,用于按照每种分类规则对应的权重,分别对获得的分类结果进行加权;类型确定模块,用于根据加权结果确定所述待分类的电子书的类型。
C16、根据C15所述的装置,其中,所述第一分类模块包括以下至少两个模块:第一内容分类模块,用于根据所述待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对所述待分类的电子书进行分类;和,第一属性分类模块,用于根据所述待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对所述待分类的电子书进行分类;和,第一行为分类模块,用于根据接收到的用户对所述待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对所述待分类的电子书进行分类。
C17、根据C16所述的装置,其中,当所述第一分类模块包括所述第一内容分类模块时,所述第一获取模块,用于获取所述待分类的电子书的内容特征分词,将所述内容特征分词作为所述待分类的电子书的特征信息;其中,所述内容特征分词用于表征所述待分类的电子书的内容特征。
C18、根据C16所述的装置,其中,当所述第一分类模块包括所述第一属性分类模块时,所述第一获取模块,用于获取所述待分类的电子书的作者信息、书名信息、评论特征信息中的至少一种,将获取的所述信息作为所述待分类的电子书的特征信息;其中,所述评论特征信息用于表征从对所述待分类的电子书的评论中获取的评论特征分词的信息。
C19、根据C16所述的装置,其中,所述用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息;所述第一行为分类模块,用于根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的阅读偏好类型信息,对所述待分类的电子书进行分类;和/或,根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的好友关系信息所指示的用户好友的阅读偏好类型信息,对所述待分类的电子书进行分类;和/或,根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的阅读习惯信息,对所述待分类的电子书进行分类。
C20、根据C19所述的装置,其中,所述阅读习惯信息包括阅读位置信息和/或阅读时间信息。
C21、根据C15所述的装置,其中,所述分类规则通过机器学习获得。
C22、根据C21所述的装置,其中,每种分类规则对应的权重通过对所述分类规则进行模拟退火处理获得。
D23、一种电子书分类训练装置,包括:第二获取模块,用于获取待训练的电子书集合中的每本电子书的特征信息;第二分类模块,用于使用与所述特征信息对应的至少两种分类规则,对所述待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;权重确定模块,用于根据所述预分类结果为每种分类规则确定对应的权重;测试模块,用于使用所述至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,所述测试电子书集合中的每本电子书对应有类型标注信息;调整模块,用于根据所述测试分类结果与所述类型标注信息的差异,调整确定的所述权重,直到达到设定的训练终止条件。
D24、根据D23所述的装置,其中,所述权重确定模块,用于根据所述预分类结果,使用模拟退火算法为每种分类规则确定对应的权重。
D25、根据D23或D24所述的装置,其中,所述第二分类模块包括以下至少两个模块:第二内容分类模块,用于根据所述待训练的电子书集合中的每本电子书的内容特征信息,对所述电子书进行预分类;和,第二属性分类模块,用于根据所述待训练的电子书集合中的每本电子书的属性特征信息,对所述电子书进行预分类;和,第二行为分类模块,用于根据用户对每本电子书的行为特征信息,对所述待分类的电子书进行预分类。
D26、根据D25所述的装置,其中,所述属性特征信息包括电子书的作者信息、书名信息、评论特征信息中的至少一种;其中,所述评论特征信息用于表征从对所述电子书的评论中获取的评论特征分词的信息。
D27、根据D25所述的装置,其中,所述用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种:用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息。
D28、根据D27所述的装置,其中,所述阅读习惯信息包括阅读位置信息和/或阅读时间信息。
E29、一种电子书分类设备,包括:第一处理器、第一存储器、第一通信接口和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信;所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如A1-A8任一项所述的电子书分类方法对应的操作。
F30、一种电子书分类训练设备,包括:第二处理器、第二存储器、第二通信接口和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信接口通过所述第二通信总线完成相互间的通信;所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如B9-B14任一项所述的电子书分类训练方法对应的操作。

Claims (10)

1.一种电子书分类方法,包括:
获取待分类的电子书的特征信息;
使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类,获得对应的分类结果;
按照每种分类规则对应的权重,分别对获得的分类结果进行加权;
根据加权结果确定所述待分类的电子书的类型。
2.根据权利要求1所述的方法,其中,所述使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类的步骤包括以下至少两种:
根据所述待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对所述待分类的电子书进行分类;
和,
根据所述待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对所述待分类的电子书进行分类;
和,
根据接收到的用户对所述待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对所述待分类的电子书进行分类。
3.根据权利要求2所述的方法,其中,当分类规则包括根据所述待分类的电子书的内容特征信息与设定的多个第一电子书集合的内容特征信息的相似度,对所述待分类的电子书进行分类时,
所述获取待分类的电子书的特征信息的步骤包括:
获取所述待分类的电子书的内容特征分词,将所述内容特征分词作为所述待分类的电子书的特征信息;
其中,所述内容特征分词用于表征所述待分类的电子书的内容特征。
4.根据权利要求2所述的方法,其中,当分类规则包括根据所述待分类的电子书的属性特征信息与设定的多个第二电子书集合的属性特征信息的相似度,对所述待分类的电子书进行分类时,
所述获取待分类的电子书的特征信息的步骤包括:
获取所述待分类的电子书的作者信息、书名信息、评论特征信息中的至少一种,将获取的所述信息作为所述待分类的电子书的特征信息;
其中,所述评论特征信息用于表征从对所述待分类的电子书的评论中获取的评论特征分词的信息。
5.根据权利要求2所述的方法,其中,所述用户的行为特征信息包括:用户对电子书的操作信息,以及以下信息中的至少一种用户的阅读偏好类型信息、用户的好友关系信息、用户的阅读习惯信息;
所述根据接收到的用户对所述待分类的电子书的行为特征信息与设定的多个第三电子书集合的用户的行为特征信息的相似度,对所述待分类的电子书进行分类的步骤包括:
根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的阅读偏好类型信息,对所述待分类的电子书进行分类;
和/或,
根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的好友关系信息所指示的用户好友的阅读偏好类型信息,对所述待分类的电子书进行分类;
和/或,
根据接收到的用户对所述待分类的电子书的操作信息、及所述用户的阅读习惯信息,对所述待分类的电子书进行分类。
6.一种电子书分类训练方法,包括:
获取待训练的电子书集合中的每本电子书的特征信息;
使用与所述特征信息对应的至少两种分类规则,对所述待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;
根据所述预分类结果为每种分类规则确定对应的权重;
使用所述至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,所述测试电子书集合中的每本电子书对应有类型标注信息;
根据所述测试分类结果与所述类型标注信息的差异,调整确定的所述权重,直到达到设定的训练终止条件。
7.一种电子书分类装置,包括:
第一获取模块,用于获取待分类的电子书的特征信息;
第一分类模块,用于使用与所述特征信息对应的至少两种分类规则,对所述待分类的电子书进行分类,获得对应的分类结果;
加权模块,用于按照每种分类规则对应的权重,分别对获得的分类结果进行加权;
类型确定模块,用于根据加权结果确定所述待分类的电子书的类型。
8.一种电子书分类训练装置,包括:
第二获取模块,用于获取待训练的电子书集合中的每本电子书的特征信息;
第二分类模块,用于使用与所述特征信息对应的至少两种分类规则,对所述待训练的电子书集合中的电子书进行预分类,获得对应的预分类结果;
权重确定模块,用于根据所述预分类结果为每种分类规则确定对应的权重;
测试模块,用于使用所述至少两种分类规则及对应的权重,对测试电子书集合中的电子书进行分类,获得对应的测试分类结果,其中,所述测试电子书集合中的每本电子书对应有类型标注信息;
调整模块,用于根据所述测试分类结果与所述类型标注信息的差异,调整确定的所述权重,直到达到设定的训练终止条件。
9.一种电子书分类设备,包括:第一处理器、第一存储器、第一通信接口和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信;
所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如权利要求1-5任一项所述的电子书分类方法对应的操作。
10.一种电子书分类训练设备,包括:第二处理器、第二存储器、第二通信接口和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信接口通过所述第二通信总线完成相互间的通信;
所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如权利要求6所述的电子书分类训练方法对应的操作。
CN201710124804.6A 2017-03-03 2017-03-03 电子书分类及其训练方法、装置和设备 Pending CN106960017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710124804.6A CN106960017A (zh) 2017-03-03 2017-03-03 电子书分类及其训练方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710124804.6A CN106960017A (zh) 2017-03-03 2017-03-03 电子书分类及其训练方法、装置和设备

Publications (1)

Publication Number Publication Date
CN106960017A true CN106960017A (zh) 2017-07-18

Family

ID=59470770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710124804.6A Pending CN106960017A (zh) 2017-03-03 2017-03-03 电子书分类及其训练方法、装置和设备

Country Status (1)

Country Link
CN (1) CN106960017A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797666A (zh) * 2017-11-21 2018-03-13 出门问问信息科技有限公司 手势识别方法、装置及电子设备
CN107992193A (zh) * 2017-11-21 2018-05-04 出门问问信息科技有限公司 手势确认方法、装置及电子设备
CN108255992A (zh) * 2017-12-29 2018-07-06 广州贝睿信息科技有限公司 一种绘本可阅读性的评估推荐方法
CN108319713A (zh) * 2018-02-08 2018-07-24 邵睿锋 基于互联网的电子书处理方法
CN108520076A (zh) * 2018-04-19 2018-09-11 掌阅科技股份有限公司 电子书推荐方法、电子设备及计算机存储介质
CN109189950A (zh) * 2018-09-03 2019-01-11 腾讯科技(深圳)有限公司 多媒体资源分类方法、装置、计算机设备及存储介质
CN109858006A (zh) * 2017-11-30 2019-06-07 亿度慧达教育科技(北京)有限公司 科目识别训练方法、装置
CN109857957A (zh) * 2019-01-29 2019-06-07 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN111191665A (zh) * 2018-11-14 2020-05-22 北京奇虎科技有限公司 图像分类方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604322A (zh) * 2009-06-24 2009-12-16 北京理工大学 一种决策级文本自动分类融合方法
CN101631398A (zh) * 2009-08-05 2010-01-20 深圳市五巨科技有限公司 一种移动终端电子书管理***和方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘***及方法
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN103246725A (zh) * 2013-05-06 2013-08-14 上海河广信息科技有限公司 一种基于无线网络的数据业务推送***和方法
CN104063713A (zh) * 2014-07-04 2014-09-24 中国地质大学(武汉) 一种基于随机蕨分类器的半自主在线学习方法
CN104636402A (zh) * 2013-11-13 2015-05-20 阿里巴巴集团控股有限公司 一种业务对象的分类、搜索、推送方法和***
CN105373800A (zh) * 2014-08-28 2016-03-02 百度在线网络技术(北京)有限公司 分类方法及装置
US9361377B1 (en) * 2012-01-06 2016-06-07 Amazon Technologies, Inc. Classifier for classifying digital items
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604322A (zh) * 2009-06-24 2009-12-16 北京理工大学 一种决策级文本自动分类融合方法
CN101631398A (zh) * 2009-08-05 2010-01-20 深圳市五巨科技有限公司 一种移动终端电子书管理***和方法
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘***及方法
US9361377B1 (en) * 2012-01-06 2016-06-07 Amazon Technologies, Inc. Classifier for classifying digital items
CN103246725A (zh) * 2013-05-06 2013-08-14 上海河广信息科技有限公司 一种基于无线网络的数据业务推送***和方法
CN104636402A (zh) * 2013-11-13 2015-05-20 阿里巴巴集团控股有限公司 一种业务对象的分类、搜索、推送方法和***
CN104063713A (zh) * 2014-07-04 2014-09-24 中国地质大学(武汉) 一种基于随机蕨分类器的半自主在线学习方法
CN105373800A (zh) * 2014-08-28 2016-03-02 百度在线网络技术(北京)有限公司 分类方法及装置
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797666A (zh) * 2017-11-21 2018-03-13 出门问问信息科技有限公司 手势识别方法、装置及电子设备
CN107992193A (zh) * 2017-11-21 2018-05-04 出门问问信息科技有限公司 手势确认方法、装置及电子设备
CN109858006A (zh) * 2017-11-30 2019-06-07 亿度慧达教育科技(北京)有限公司 科目识别训练方法、装置
CN108255992A (zh) * 2017-12-29 2018-07-06 广州贝睿信息科技有限公司 一种绘本可阅读性的评估推荐方法
CN108319713A (zh) * 2018-02-08 2018-07-24 邵睿锋 基于互联网的电子书处理方法
CN108520076A (zh) * 2018-04-19 2018-09-11 掌阅科技股份有限公司 电子书推荐方法、电子设备及计算机存储介质
CN109189950A (zh) * 2018-09-03 2019-01-11 腾讯科技(深圳)有限公司 多媒体资源分类方法、装置、计算机设备及存储介质
CN109189950B (zh) * 2018-09-03 2023-04-07 腾讯科技(深圳)有限公司 多媒体资源分类方法、装置、计算机设备及存储介质
CN111191665A (zh) * 2018-11-14 2020-05-22 北京奇虎科技有限公司 图像分类方法、装置及电子设备
CN109857957A (zh) * 2019-01-29 2019-06-07 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN109857957B (zh) * 2019-01-29 2021-06-15 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN106960017A (zh) 电子书分类及其训练方法、装置和设备
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN109165688A (zh) 一种安卓恶意软件家族分类器构建方法及其分类方法
CN111259140B (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN107451118A (zh) 基于弱监督深度学习的句子级情感分类方法
CN104820724B (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN111368920A (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN110851593B (zh) 一种基于位置与语义的复值词向量构建方法
CN109726745A (zh) 一种融入描述知识的基于目标的情感分类方法
CN108846097A (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN107368526A (zh) 一种数据处理方法及装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
Qi et al. Patent analytic citation-based vsm: Challenges and applications
CN110109902A (zh) 一种基于集成学***台推荐***
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关***、设备
CN115081515A (zh) 能效评价模型构建方法、装置、终端及存储介质
CN107908757A (zh) 网站分类方法及***
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN113076490B (zh) 一种基于混合节点图的涉案微博对象级情感分类方法
CN111708865A (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN103279549A (zh) 一种目标对象的目标数据的获取方法及装置
Dong et al. Research on academic early warning model based on improved SVM algorithm
CN114925198A (zh) 一种融合字符信息的知识驱动文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718