CN111625643B

CN111625643B - 一种数据处理方法及装置、阅读对象处理方法

Info

Publication number: CN111625643B
Application number: CN201910152329.2A
Authority: CN
Inventors: 李嘉昱; 范哲铭
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2023-06-20
Anticipated expiration: 2039-02-28
Also published as: CN111625643A

Abstract

本申请公开一种数据处理方法及装置，以及一种阅读对象处理方法，其中，所述数据处理方法，包括：获取针对原数据编辑操作的编辑信息；根据所述编辑信息确定原数据中被编辑的数据内容；根据所述原数据中被编辑的数据内容在所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合，生成针对原数据的数据精要；进而能够从原数据的数据内容中提炼出数据精要，避免人工提炼的局限性而导致提炼所针对的原数据范围或原数据的数据精要的数量受限，无法实现批量提炼，同时，能够提高提取的数据精要的准确性。

Description

一种数据处理方法及装置、阅读对象处理方法

技术领域

本申请涉及计算机应用领域，具体涉及一种数据处理方法及装置。本申请同时涉及一种阅读对象处理方法。

背景技术

随着互联网的发展，生活和学习的方式变得越来越多样化以及也越来越便捷化，例如：通过电子产品阅读电子化书籍，或者通过电子产品学习网络课程等。通过电子产品阅读电子化书籍和学习网络课程可以更好的利用碎片化的时间，且地点不受限制，进而阅读和学习更加便捷。

然而，随着生活节奏的加快，时间碎片化程度也随之变的更为严重，利用碎片化时间完整的阅读电子书籍或完整的学习电子课程已然变成一件奢侈的事。

为在碎片化时间内提高阅读质量和速度，现有技术提供的书籍精要需要通过人工摘选提炼获得电子书籍的精要内容部分，因此，不论是书籍范围还是提炼量，均具有一定局限性，难以覆盖广阔的书籍市场。

发明内容

本申请提供一种数据处理方法，以解决现有技术中在提炼数据精要时的提炼范围或提炼量的局限性问题。本申请另外提供阅读对象的处理方法。

本申请提供一种数据处理方法，包括：

获取针对原数据编辑操作的编辑信息；

根据所述编辑信息确定原数据中被编辑的数据内容；

根据所述原数据中被编辑的数据内容在所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合，生成针对原数据的数据精要。

在一些实施例中，所述获取针对原数据编辑操作的编辑信息，包括：

根据原数据的标识信息，获取针对原数据编辑操作的编辑信息列表；所述根据所述编辑信息确定原数据中被编辑的数据内容，包括：

从所述编辑信息列表中获取所述原数据中被编辑的数据内容。

在一些实施例中，所述编辑操作包括至少如下一种编辑操作：

对原数据的数据内容增加下划线的编辑操作；

对原数据的数据内容改变字体颜色的编辑操作；

对原数据的数据内容标记颜色的编辑操作；

对原数据的数据内容增加批注的编辑操作；

对原数据的数据内容加粗的编辑操作；

对原数据的数据内容改变字体的编辑操作；

对原数据的数据内容实现框选的编辑操作。

在一些实施例中，所述根据编辑信息确定原数据中被编辑的数据内容，包括：

基于所述获取的针对原数据编辑操作的编辑信息，提取满足提取要求的编辑信息；

根据所述满足提取要求的编辑信息确定原数据中被编辑的数据内容。

在一些实施例中，所述基于所述获取的针对原数据编辑操作的编辑信息，提取满足提取要求的编辑信息，包括：

针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息或者提取排位次序满足排位次序要求的编辑信息。

在一些实施例中，所述针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息，包括：

按照所述编辑信息在所述原数据中所属的组成部分，对所述编辑信息进行分类，获得分类后的编辑信息；

对所述分类后的编辑信息出现次数进行统计，获得分类类别下编辑信息的出现频次；

提取所述分类类别下编辑信息的出现频次满足出现频次要求的编辑信息。

在一些实施例中，所述组成部分包括至少如下一部分：

所述原数据的数据内容分块；

所述原数据的数据内容分块的数据内容子分块。

在一些实施例中，当所述组成部分包括：数据内容分块时，所述对所述分类后的编辑信息出现频次进行统计，获得分类类别下编辑信息的出现频次，包括：

针对所述数据内容分块中编辑信息出现频次进行统计，获得所述数据内容分块下编辑信息的出现频次。

在一些实施例中，当所述组成部分包括：数据内容分块的数据内容子块时，所述对所述分类后的编辑信息出现频次进行统计，获得分类类别下编辑信息的出现频次，包括：

对所述数据内容分块下的数据内容子块中编辑信息出现频次进行统计，获得所述数据内容子块下编辑信息的出现频次。

在一些实施例中，所述针对原数据编辑操作的编辑信息，提取排位次序满足排位次序要求的编辑信息，包括：

根据所述分类类别下编辑信息的出现频次对所述编辑信息进行排序，获得分类类别下排序后的编辑信息；

在分类类别下排序后的编辑信息中，提取满足排位次序要求的编辑信息。

在一些实施例中，所述根据所述编辑信息确定原数据中被编辑的数据内容，包括：

根据所述提取的出现频次满足出现频次要求的编辑信息或者提取的排位次序满足排位次序要求的编辑信息，确定原数据中被编辑的数据内容。

在一些实施例中，还包括：

发布所述生成的针对原数据的数据精要。

本申请还提供一种数据处理装置，包括：

获取单元，用于获取针对原数据编辑操作的编辑信息；

确定单元，用于根据所述编辑信息确定原数据中被编辑的数据内容；

生成单元，用于根据所述原数据中被编辑的数据内容在所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合，生成针对原数据的数据内容精要。

本申请还提供一种阅读对象处理方法，包括：

获取待处理的阅读对象；

根据所述阅读对象，获取所述阅读对象中被标记的数据内容；

根据所述被标记的数据内容生成所述阅读对象的内容精要。

在一些实施例中，还包括：

发布所述根据所述被标记的数据内容生成所述阅读对象的内容精要。

本申请还提供一种阅读对象处理方法，包括：

获取针对阅读对象数据内容的标记信息；

向服务端提供所述标记信息；

获取所述服务端发布的所述阅读对象的内容精要；

其中，所述内容精要包括被所述标记信息标记的数据内容，或者包括根据被所述标记信息标记的数据内容生成的精要信息。

在一些实施例中，所述获取所述服务端发布的所述阅读对象的内容精要，包括：

根据针对所述阅读对象的操作行为，获取所述服务端发布的所述阅读对象的内容精要。

与现有技术相比，本申请具有以下优点:

本申请提供一种数据处理方法，通过获取针对原数据编辑操作的编辑信息，确定原数据中被编辑的数据内容，根据所述原数据中被编辑的数据内容在所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合，生成针对原数据的数据精要，进而能够从原数据的数据内容中提炼出数据精要，避免人工提炼的局限性而导致提炼所针对的原数据范围或原数据的数据精要的数量受限，无法实现批量提炼，同时，能够提高提取的数据精要的准确性。

附图说明

图1是本申请提供的一种数据处理方法的实施例的流程图；

图2是本申请提供的一种数据处理方法的实施例的结构示意图；

图3是本申请提供的一种阅读对象处理方法的实施例的流程图；

图4是本申请提供的一种阅读对象处理方法的实施例的流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请中使用的术语是仅仅出于对特定实施例描述的目的，而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如：“一种”、“第一”、和“第二”等，并非对数量上的限定或先后顺序上的限定，而是用来将同一类型的信息彼此区分。

本申请提供的一种数据处理方法，是基于原始数据进行提炼处理，将提炼出的原始数据中的精要部分作为新的数据进行输出，所述新的数据是基于原始数据而生成，是相对原始数据中较为重要的部分，该数据处理的方法无需人工参与，且处理的数据范围不受限制。

下面对本申请提供的一种数据处理方法进行详细说明，下述描述中通过采用电子阅读的实施例对本申请的数据处理方法进行说明，也就是说，通过对电子书籍的数据进行处理的过程作为实施例进行说明。

请参考图1所示，图1是本申请提供的一种数据处理方法实施例的流程图，该方法包括：

步骤S101：获取针对原数据编辑操作的编辑信息。

所述步骤S101中，所谓原数据可以是指原始数据，该原始数据是指原始发布的数据，例如：对于电子书籍，书籍内容即为原数据或原始数据。电子书籍是指通过电子设备进行阅读以及可以对电子数据内容实现相应编辑操作的电子化图书。

可以理解的是，电子书籍的书籍内容可以是文本形式或图片形式等等，电子书籍的格式不受限制，可以是Word格式、pdf格式、图片格式等。

所谓编辑操作可以是指针对电子书籍中的书籍内容完成的一种标记编辑，例如：笔记信息；通过对电子书籍中的书籍内容进行的标记编辑进而突显出编辑操作所针对的数据内容的显著性或特殊性，也可以理解为，编辑操作后的数据内容相比没有发生编辑操作的数据内容对于阅读者而言更为重要或者映像更为深刻，也可以是书籍的精华所在。在本实施例中，该编辑操作可以包括如下至少一种编辑操作：

对原数据的数据内容增加下划线的编辑操作；即为：对文字部分增加下划线的编辑操作，以突出显示该编辑操作所针对的数据内容。

对原数据的数据内容改变字体颜色的编辑操作；即为：对认为重要的字体将其字体颜色进行修改，以与原字体颜色实现区分，突出显示该编辑操作所针对的数据内容。

对原数据的数据内容标记颜色的编辑操作；即为：对精彩部分的文字采用高亮的形式表示，例如：文字添加颜色背景，以突出显示该编辑操作所针对的文字内容。

对原数据的数据内容增加批注的编辑操作；即为：对文字内容添加记录信息的形式，表达对该部分文字内容的见解或注释或说明之类的信息。

对原数据的数据内容加粗的编辑操作；即为：对文字部分实现字体加粗，以突出显示该部分文字。

对原数据的数据内容改变字体的编辑操作；即为：改变字体，以使改变字体的部分文字能够与其他文字区分，突出显示需要改变字体的文字部分的编辑操作方式。

对原数据的数据内容实现框选的编辑操作；即为：将需要记录的精彩部分的文字以边框形式框出。

所谓编辑操作信息可以理解为是对电子书籍记录的笔记信息，即：通过对电子书籍中的文字内容进行编辑操作而生成的编辑信息。其中，编辑操作可以是记录笔记的形式，编辑信息可以是笔记信息。

上述编辑操作可以是针对阅读书籍内容进行的手动编辑操作，例如：对需要编辑操作的数据内容进行增加下划线标注的操作等；也可以是针对阅读书籍内容进行的语音编辑操作，例如：对需要编辑操作的数据内容进行语音读取并进行相应的增加下划线语音操作等。

以上是对步骤S101中涉及的名词进行的解释，在本实施例中，所述步骤S101的具体实现过程可以是：

基于对电子书籍的编辑操作产生编辑信息，该编辑信息将会被存储在服务端，进而能够获取电子书籍的编辑信息，所述服务端可以是云服务器，能够存储来自不同终端设备上不同电子书籍APP的、不同用户针对不同电子书籍的编辑信息，或者，能够存储来自不同终端设备上相同电子书籍APP的、不同用户针对不同电子书籍的编辑信息，或者，能够存储来自不同终端设备上相同电子书籍APP的、不同用户针对相同电子书籍的编辑信息，或者，能够存储来自不同终端设备上相同电子书籍APP的、相同用户针对不同电子书籍的编辑信息，或者，能够存储来自不同终端设备上相同电子书籍APP的、相同用户针对相同电子书籍的编辑信息，或者，能够存储来自相同终端设备上不同电子书籍APP的、同一用户针对不同电子书籍的编辑信息或相同电子书籍的编辑信息；也就是说，编辑操作不受原数据的限制，也不受原数据的载体限制，同时也不受操作者(用户)的限制。

在本实施例中，可以通过开启电子书籍APP内的电子书籍，对电子书籍的数据内容进行编辑操作，该编辑操作将会被发送至服务端进行存储，服务端根据电子书籍的标识信息，构建编辑信息列表，从而便于编辑信息的管理。每个电子书籍对应一个编辑信息列表(编辑信息列表也可以称为笔记信息列表)。因此，所述步骤S101在获取针对原数据编辑操作的编辑信息可以是根据所述原数据的标识信息，获取针对原数据编辑操作的编辑信息列表。所述编辑信息列表中包括有编辑信息。

步骤S102：根据所述编辑信息确定原数据中被编辑的数据内容。

所述步骤S102可以根据获取的编辑信息直接确定原数据中被编辑的数据内容，也可以通过获取的编辑信息列表确定原数据中被编辑的数据内容，例如：在获取的编辑信息列表中包括有原数据的标识信息，根据原数据的标识信息获取的编辑信息列表，再根据编辑信息列表中记载的编辑内容(笔记内容)，即：被编辑的数据内容，或者针对原数据完成编辑操作的位置信息确定被编辑的数据内容。

考虑到，针对原数据进行编辑操作的操作量的大小，选取出操作量较大的作为确定的被编辑的数据内容，因此，根据所述编辑信息确定原数据中被编辑的数据内容的具体实现过程可以包括：

步骤S102-1：基于所述获取的针对原数据编辑操作的编辑信息，提取满足提取要求的编辑信息；

步骤S102-2：根据所述满足提取要求的编辑信息确定原数据中被编辑的数据内容。

其中，所述步骤S102-1中的提取要求可以设定的提取标准，例如：编辑信息出现的频次，或者编辑信息排序靠前的，当然提取标准还可以是根据编辑操作者历史编辑操作的情况的优先级确定，例如：用户A的历史编辑操作通常编辑操作所针对的数据内容较为准确，那么可以将用户A所进行针对原数据的编辑操作确定为原数据中被编辑的数据内容，也就是说，在设定提取标准是还可以根据用户的历史编辑操作经验来设定。因此，针对提取标准的设定可以有多种方式，并不限于上述举例。

所述步骤S102-1的具体实现可以包括：

步骤S102-11：针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息或者提取排位次序满足排位次序要求的编辑信息。

其中，在提取出现频次满足出现频次要求的编辑信息时，可以是针对所述原数据的分类类别下编辑信息出现频次确定提取满足出现频次要求的编辑信息，在本实施例中，以编辑信息出现频次和编辑信息排位次序两种方式进行说明。因此，当步骤S102-11为针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息时，可以包括：

S102-11-1a：按照所述编辑信息在所述原数据中所属的组成部分，对所述编辑信息进行分类，获得分类后的编辑信息。

所述步骤S102-11-1a中所述原数据中所属的组成部分可以是指，原数据可以被划分成多个组成部分，例如：针对电子书籍的书籍内容可以被划分为章，即：书籍由章构成，不同的章下记载相对应的内容。通常情况下，所述书籍至少包括两章，也可以包括类似划分为前序、中序以及结尾等组成结构。也就是说，原数据可以包括至少两个数据内容分块，例如：第一章和第二章；或者第一部分和第二部分。更进一步，所述组成部分还可以包括：所述原数据的数据内容分块的数据内容子分块，即：当所述数据内容分块为章时，所述数据内容子分块可以是章下面进一步划分的节，例如：第一章下的第一节和第二节；第二章下的第一节和第二节。也就是说，原数据的组成部分可以包括章，也可以包括每章下面的节。

所述步骤S102-11-1a的具体实现过程可以是，基于所述原数据中各个组成部分对编辑信息进行分类，进而获得分类后的编辑信息，例如：编辑信息有30条，分别确定出30条编辑信息出现在相对应章或节，确定的过程可以按照所述编辑信息位于所述原数据的位置进行确定，位置可以包括书籍的页码等，例如：第一章包括的页码，每个页码下对应的数据内容，根据所述编辑信息出现的页码，确定其所在的章或节。也就是说，可以根据页码、数据内容、编辑信息、组成部分等之间存在的映射关系，确定所述编辑信息的分类。

S102-11-1b：对所述分类后的编辑信息出现次数进行统计，获得分类类别下编辑信息的出现频次。

基于所述步骤S102-11-1a中所获得的分类后的编辑信息，对每个类别下的编辑信息进行统计，统计出各个类别下编辑信息出现的次数，即，类别下可以包括内容块，所述内容块可以是段落或句子等。统计所述内容块中编辑信息的出现次数，例如：当第一章类别下包括多个内容块时，则统计出第一章下第一段落编辑信息的出现次数，第二段落编辑信息的出现次数，第三段落编辑信息的出现次数……，第n段落编辑信息的出现次数。其中，所述第一段落、第二段落、第三段落、……、第n段落为第一章分类下的内容块。当然，第一章分类下可以仅包括一个内容块。因此，当所述组成部分包括：数据内容分块时，所述步骤S102-11-1b的实现过程可以包括：针对所述数据内容分块中编辑信息出现频次进行统计，获得所述数据内容分块下编辑信息的出现频次。可以理解的是，统计过程中，可以仅统计出现编辑信息的部分；而无需对每个数据内容分块进行统计。

当所述组成部分包括：数据内容分块的数据内容子块时，即：第一章下包括第一节、第二节……等子块。所述步骤S102-11-1b可以包括：对所述数据内容分块下的数据内容子块中编辑信息出现频次进行统计，获得所述数据内容子块下编辑信息的出现频次；即：统计第一章部分下第一节中的编辑信息的出现次数，第一章部分下第二节中的编辑信息的出现次数，依次类推，直至统计第N章部分下第n节中的编辑信息的出现次数。

可以理解的是，编辑信息的统计可以对每个数据内容分块的子分块进行统计；或者无需对每个数据内容分块进行统计，仅统计有编辑信息的分块或子块；或者对每个数据内容分块的子分块进行统计。具体是统计分块或是子块，还是统计分块和分块下的子块可以根据具体原数据的内容来确定。

S102-11-1c：提取所述分类类别下编辑信息的出现频次满足出现频次要求的编辑信息。

所述步骤S102-11-1c的具体实现过程可以是，在基于上述步骤S102-11-1b在获得分类类别下编辑信息的出现频次后，选取分类类别下编辑信息的出现频次满足出现频次要求的编辑信息。所述出现频次要求可以是设定的出现数量，例如：设定满足要求的出现频次为20条。选取过程可以是，例如：第一章中第一段落编辑信息出现频次为5条，第二段落编辑信息出现频次为10条，第三段落编辑信息出现频次为25条，第四段落编辑信息出现频次为20条，则说明第第三段落和第四段落满足设定出现频次要求，提取第三段落和第四段落的编辑信息。

上述是对满足出现频次要求的编辑信息提取过程的描述。下面将对提取要求为排位次序要求时，提取满足要求的编辑信息过程进行描述。即：当步骤S102-11为针对原数据编辑操作的编辑信息，提取排位次序满足排位次序要求的编辑信息时，可以包括：

步骤S102-11-2a：按照所述编辑信息在所述原数据中所属的组成部分，对所述编辑信息进行分类，获得分类后的编辑信息。

关于步骤S102-11-2a中组成部分以及分类等相关信息的描述与所述步骤S102-11-1a相同，故此处不再赘述。

步骤S102-11-2b：对所述分类后的编辑信息出现次数进行统计，获得分类类别下编辑信息的出现频次。

所述步骤S102-11-2b的具体实现过程可以参考所述步骤S102-11-1b，此处不再赘述。

步骤S102-11-2c：根据所述分类类别下编辑信息的出现频次对所述编辑信息进行排序，获得分类类别下排序后的编辑信息。

所述步骤S102-11-2c的具体实现过程可以对是分类类别下编辑信息的出现频次按照降序进行排序，或者按照升序进行排序；排序的过程可以是根据编辑信息的出现频次，即编辑信息的出现次数。例如：第一章中的第一段落编辑信息出现了3次，第二段落编辑信息出现了8次，第三段落编辑信息出现了2，第四段落编辑信息出现了0次，第五段落编辑信息出现了10次，那么如果按照降序排列则为10、8、3、2、0，也就是，第五段落为第一位，之后依次为第二段落，第一段落、第三段落、第四段落。

步骤S102-11-2d：在分类类别下排序后的编辑信息中，提取满足排位次序要求的编辑信息。

所述步骤S102-11-2d中排位次序要求可以包括：当排序为降序时，排位次序要求可以是设定的排位前10名或前20名等方式；当排序为升序时，则排序次序要求可以是设定的排位后10名或后20名等方式，或者按照排序百分比，例如排位前20％即排序总量的20％。也就是说，排位次序可以按照排序方式选取排序后的部分编辑信息，当然选取的范围根据设定的排位次序要求确定。

当针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息或者提取排位次序满足排位次序要求的编辑信息后，则需要根据提取的编辑信息确定原数据中被编辑的数据内容，通常情况下，编辑信息包括有原数据中被编辑的数据内容，因此，在确定了编辑信息后也就相应的确定被编辑的数据内容，当然，也可以根据编辑信息与被编辑的数据内容之间的对应关系进行确定，例如：通过编辑信息中记载的被编辑的数据内容的位置信息等获得原数据被编辑的数据内容。

确定原数据中的被编辑的数据内容后，需要将数据内容生成为原数据的数据精要，以便供阅读者在短时间内容完成阅读，对原数据内容的主要内容能够有所了解。因此，进入步骤S103中执行。

步骤S103：根据所述原数据中被编辑的数据内容，在所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合，生成针对原数据的数据精要。

因为对于电子书籍阅读过程中，不同的阅读者会进行不同的编辑操作，通常情况下，对于电子书籍的重要部分阅读者的认知出入不会有太大差别，因此，越是重要或者越是精华所在的部分，阅读者进行编辑操作的可能性越大，在上述步骤S102中详细介绍了提取编辑信息的过程，那么根据提取的编辑信息，确定被编辑的数据内容后，所述步骤S103在根据所述原数据中被编辑的数据内容，在所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合，生成针对原数据的数据精要，具体实现过程可以包括：

步骤S103-1：将所述原数据中被编辑的数据内容按照设定的整合规则进行整合，生成针对原数据的数据精要。

所述整合规则可以是将原数据的编排顺序确定为数据精要的整合规则，例如：原数据的章节顺序或者页码顺序或者目录顺序等，可以为整合规则。

需要说明的是，为保证生成的数据精要的准确性，还可以在以所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合前，对所述被编辑的数据内容进行筛选，筛选出更为重要的编辑内容。

所述筛选的方式在一些实例中可以是根据用户等级进行筛选，例如：用户等级越高说明其对原数据的编辑越重要。因此，根据用户等级对所述被编辑的数据内容进行排序，选取用户等级排名前5或前10的用户所针对原数据进行编辑的数据内容，之后根据选取的被编辑的数据内容按照被编辑的数据内容在原数据中的位置以及所述原数据的编排顺序进行整合。

以上通过用户等级进行筛选是一种实现方式，当然还可以通过编辑时间进行筛选或者被编辑的数据内容的数量。所述被编辑的数据内容可以是针对原数据被编辑的数据内容的长度或字数等。

所述步骤S103-1的具体实现过程可以是，根据所述原数据中被编辑的数据内容在所述原数据中的位置，并按照所述原数据的编排顺序，对所述原数据中被编辑的数据内容进行整合，生成针对原数据的数据精要。其中，根据所述原数据中被编辑的数据内容在所述原数据中的位置可以根据被编辑的数据内容在原数据的章节位置确定，或者是根据被编辑的数据内容在原数据的页码位置确定等等。也就是说，可以分别先确定被编辑的数据内容在原数据中的位置信息，之后按照原数据编排顺序对所述被编辑的数据内容进行整合，所谓整合可以理解为排版，从而生成针对原数据的数据精要，该数据精要相对于原数据篇幅小，进而能够减少阅读时间，有利用阅读者在碎片化的时间下快速了解电子书籍的精华内容。

基于上述内容，在生成针对原数据的数据精要后，可以将所述数据精要进行发布，进而能够在阅读者(用户)在对电子书籍进行操作时，查看电子书籍的精要部分。为了便于用户进一步了解数据精要所对应的具体原数据内容，在生成的数据精要的各部分可以添加与精要部分对应的原数据接口，用户可以通过对原数据接口的触发操作进入到与该精要部分对应的原数据内，相应的，在原数据内也可以设置返回数据精要的接口，通过对数据精要接口的触发操作可以返回到数据精要的内容下。可以理解的是，原数据内容设置的返回数据精要的接口仅为当此部分原数据内容存在数据精要的前提下方能设置，而原数据内容是否存在数据精要可以根据上述步骤S102进行标记，例如：被提取的满足提取要求的编辑信息所对应的原数据内容上设置标记。

生成的数据精要排序方式也可以按照原数据的排序方式，例如：第一章下的数据精要，第二章下的数据精要等，即：可以包括分类名称。生成的数据精要的格式可以与原数据的格式相同，也可以不同，可以是网页形式、EPub或PDF等形式。所述EPub为ElectronicPublication的缩写，意为：电子出版，是一个自由的开放标准，属于一种可以“自动重新编排”的内容；也就是文字内容可以根据阅读设备的特性，以最适于阅读的方式显示。EPub可以使用XHTML或DTBook来展现文字。

需要说明的是，本申请提供的数据处理方法，对于原数据的编辑操作的数量或范围没有限制，即便数据精要已经生成，仍然对原数据可以继续进行编辑操作，并且生成的数据精要还可以根据生成后所发生的编辑信息进一步优化数据精要，优化可以设定一个优化周期，也可以在新的编辑信息出现便对数据精要进行优化。优化周期可以按时间设定也可以按照阅读量设定，按照时间设定时可以是按照年或月或日，按照阅读量设定时可以是按照阅读人数或阅读时间或阅读长度等，一旦达到优化周期，则对数据精要进行优化，优化过程可以基于已生成数据精要的编辑信息与周期内的编辑信息进行比较，找到不同之处根据设定的优化标准进行优化，优化标准可以是按照上述步骤S102进行也可以是单独设定的编辑信息的数量进行优化。具体优化方式有很多，上述描述的优化仅为一种举例说明，本申请提供数据处理方法并不局限在生成数据精要后则无法修改，而是可以不断优化，使得数据精要达到更为准确。

以上是对本申请提供的一种数据处理方法的实施例的具体描述，与前述提供的一种数据处理方法的实施例相对应，本申请还公开一种数据处理装置的实施例，请参看图2，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图2所示，图2是本申请提供的一种数据处理方法的实施例的结构示意图，该装置包括：

获取单元201，用于获取针对原数据编辑操作的编辑信息。

可以是指针对电子书籍中的书籍内容完成的一种标记编辑，例如：笔记信息；通过对电子书籍中的书籍内容进行的标记编辑进而凸显出编辑操作所针对的数据内容的显著性或特殊性，也可以理解为，编辑操作后的数据内容相比没有发生编辑操作的数据内容对于阅读者而言更为重要或者映像更为深刻，也可以是书籍的精华所在。在本实施例中，该编辑操作可以包括如下至少一种编辑操作：

在终端设备上完成的编辑操作而产生的编辑信息将会上传到服务端，可以是云服务器，能够存储来自不同终端设备上不同电子书籍APP的、不同用户针对不同电子书籍的编辑信息，或者，能够存储来自不同终端设备上相同电子书籍APP的、不同用户针对不同电子书籍的编辑信息，或者，能够存储来自不同终端设备上相同电子书籍APP的、不同用户针对相同电子书籍的编辑信息，或者，能够存储来自不同终端设备上相同电子书籍APP的、相同用户针对不同电子书籍的编辑信息，或者，能够存储来自不同终端设备上相同电子书籍APP的、相同用户针对相同电子书籍的编辑信息，或者，能够存储来自相同终端设备上不同电子书籍APP的、同一用户针对不同电子书籍的编辑信息或相同电子书籍的编辑信息；也就是说，编辑操作不受原数据的限制，也不受原数据的载体限制，同时也不受操作者(用户)的限制。

在本实施例中，可以通过开启电子书籍APP内的电子书籍，对电子书籍的数据内容进行编辑操作，该编辑操作将会被发送至服务端进行存储，服务端根据电子书籍的标识信息，构建编辑信息列表，从而便于编辑信息的管理。每个电子书籍对应一个编辑信息列表(编辑信息列表也可以称为笔记信息列表)。因此，所述获取单元201包括：列表获取子单元，用于根据原数据的标识信息，获取针对原数据编辑操作的编辑信息列表。

确定单元202，用于根据所述编辑信息确定原数据中被编辑的数据内容。

所述确定单元202包括：提取子单元和确定子单元；

所述提取子单元，用于基于所述获取单元中的针对原数据编辑操作的编辑信息，提取满足提取要求的编辑信息；

所述确定子单元，用于根据所述提取子单元中满足提取要求的编辑信息确定原数据中被编辑的数据内容。

其中，所述提取子单元具体可以用于针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息或者提取排位次序满足排位次序要求的编辑信息。

当所述提取子单元具体为针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息时，可以包括：

分类子单元，用于按照所述编辑信息在所述原数据中所属的组成部分，对所述编辑信息进行分类，获得分类后的编辑信息。

获得子单元，用于对所述分类后的编辑信息出现次数进行统计，获得分类类别下编辑信息的出现频次。

编辑信息提取子单元，用于提取所述分类类别下编辑信息的出现频次满足出现频次要求的编辑信息。

当所述提取子单元为针对原数据编辑操作的编辑信息，提取排位次序满足排位次序要求的编辑信息时，可以包括：

排序子单元，用于根据所述分类类别下编辑信息的出现频次对所述编辑信息进行排序，获得分类类别下排序后的编辑信息。

编辑信息提取子单元，用于在分类类别下排序后的编辑信息中，提取满足排位次序要求的编辑信息。

生成单元203，用于根据所述原数据中被编辑的数据内容在所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合，生成针对原数据的数据内容精要。

所述生成单元203包括：整合生成子弹元，用于将所述原数据中被编辑的数据内容按照设定的整合规则进行整合，生成针对原数据的数据精要。

所述整合生成子单元进一步包括：整合规则设定子单元和生成子单元；

所述整合规则设定子单元，用于将所述原数据的编排顺序设定为所述整合规则；

所述生成子单元，用于根据所述原数据中被编辑的数据内容在所述原数据中的位置，并按照所述原数据的编排顺序，对所述原数据中被编辑的数据内容进行整合，生成针对原数据的数据精要。

基于上述内容，本申请提供的数据处理装置还可以包括：

发布单元，用于发布所述生成的针对原数据的数据精要。

上述内容为本申请提供的一种数据处理装置实施例的说明。基于上述数据处理方法和处理装置，本申请还提供一种阅读对象处理方法的实施例，请参考图3所示，图3主要描述的是数据处理方法的一种应用场景，可以理解为在对数据处理方法实施例的描述中阅读对象为电子书籍的描述，该应用场景可以以服务端的角度参考进行理解，因此，本申请提供的阅读对象处理方法的实施例可以包括：

步骤S301：获取待处理的阅读对象；

所述步骤S301中的阅读对象可以是电子书籍，获取待处理的阅读对象可以是获取电子书籍的标识信息，也可以是整个电子书籍内容。

步骤S302：根据所述阅读对象，获取所述阅读对象中被标记的数据内容；

所述步骤S302可以根据所述对象的标识信息，获取相应的针对阅读对象中被标记的数据内容，也就是针对阅读对象的笔记信息。具体可以参考上述数据处理方法实施例中的步骤S102的描述过程，此处不再赘述。

步骤S303：根据所述被标记的数据内容生成所述阅读对象的内容精要。

所述步骤S303也可以参考上述数据处理方法实施例中步骤S103的描述过程。

与上述数据处理方法相同，本申请提供的阅读对象处理方法实施例中还可以包括：

发布所述根据所述被标记的数据内容生成所述阅读对象的内容精要；进而便于阅读者(用户)能够阅读阅读对象的内容精要。

基于上述内容，请参考图4所示，图4是本申请提供一种阅读对象处理方法实施例的流程图，该方法包括：

步骤S401：获取针对阅读对象数据内容的标记信息；

所述步骤S401中的标记信息可以理解为上述步骤S101中的编辑信息，获取过程可以参考步骤S101，与步骤S101的不同之处在，获取方式可以是基于电子设备上安装的阅读APP的操作获得标记信息。

步骤S402：向服务端提供所述标记信息；

所述步骤S402的目的是基于所述步骤S401，将获取的标记信息发送至服务端，服务端将标记信息进行存储，存储的方式可以以标记列表的形式存储，每个阅读对象的标识信息对应标记信息。具体参考步骤S102。

步骤S403：获取所述服务端发布的所述阅读对象的内容精要；

所述步骤S403的目的是获取服务端根据所述标记信息生成的针对阅读对象的内容精要，具体可以参考步骤S103。

需要说明的是图3和图4不同之处在于，图3是以服务端的角度描述内容精要的生成，图4是以客户端的角度描述内容精要的获取或者是内容精要的显示或输出。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获取针对原数据编辑操作的编辑信息；

根据所述编辑信息确定原数据中被编辑的数据内容；

根据所述原数据中被编辑的数据内容在所述原数据中的位置以及所述原数据的编排顺序，对所述原数据中被编辑的数据内容整合，生成针对原数据的数据精要；

其中，所述根据所述编辑信息确定原数据中被编辑的数据内容，包括：

针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息或者提取排位次序满足排位次序要求的编辑信息；根据提取的所述编辑信息确定原数据中被编辑的数据内容；其中，所述针对原数据编辑操作的编辑信息，提取出现频次满足出现频次要求的编辑信息包括：按照所述编辑信息在所述原数据中所属的组成部分，对所述编辑信息进行分类，获得分类后的编辑信息；对所述分类后的编辑信息出现次数进行统计，获得分类类别下编辑信息的出现频次；提取所述分类类别下编辑信息的出现频次满足出现频次要求的编辑信息；

当所述组成部分包括所述原数据的数据内容分块时，所述对所述分类后的编辑信息出现频次进行统计，获得分类类别下编辑信息的出现频次，包括：针对所述数据内容分块中编辑信息出现频次进行统计，获得所述数据内容分块下编辑信息的出现频次；

当所述组成部分包括所述原数据的数据内容分块的数据内容子分块时，所述对所述分类后的编辑信息出现频次进行统计，获得分类类别下编辑信息的出现频次，包括：对所述数据内容分块下的数据内容子块中编辑信息出现频次进行统计，获得所述数据内容子块下编辑信息的出现频次。

2.根据权利要求1所述的数据处理方法，其特征在于，所述获取针对原数据编辑操作的编辑信息，包括：

3.根据权利要求1所述的数据处理方法，其特征在于，所述编辑操作包括至少如下一种编辑操作：

对原数据的数据内容增加下划线的编辑操作；

对原数据的数据内容改变字体颜色的编辑操作；

对原数据的数据内容标记颜色的编辑操作；

对原数据的数据内容增加批注的编辑操作；

对原数据的数据内容加粗的编辑操作；

对原数据的数据内容改变字体的编辑操作；

对原数据的数据内容实现框选的编辑操作。

4.根据权利要求1所述的数据处理方法，其特征在于，所述针对原数据编辑操作的编辑信息，提取排位次序满足排位次序要求的编辑信息，包括：

5.根据权利要求4所述的数据处理方法，其特征在于，所述根据所述编辑信息确定原数据中被编辑的数据内容，包括：

6.根据权利要求1所述的数据处理方法，其特征在于，还包括：

发布所述生成的针对原数据的数据精要。

7.一种数据处理装置，其特征在于，包括：

获取单元，用于获取针对原数据编辑操作的编辑信息；

8.一种阅读对象处理方法，其特征在于，包括：

获取待处理的阅读对象；

根据所述被标记的数据内容生成所述阅读对象的内容精要；

其中，所述根据所述阅读对象，获取所述阅读对象中被标记的数据内容，包括：

针对阅读对象的标记信息，提取出现频次满足出现频次要求的标记信息或者提取排位次序满足排位次序要求的标记信息；根据提取的所述标记信息获取阅读对象中被标记的数据内容；其中，所述针对阅读对象的标记信息，提取出现频次满足出现频次要求的标记信息，包括：按照所述标记信息在所述阅读对象中所属的组成部分，对所述标记信息进行分类，获得分类后的标记信息；对所述分类后的标记信息出现次数进行统计，获得分类类别下标记信息的出现频次；提取所述分类类别下标记信息的出现频次满足出现频次要求的标记信息；

当所述组成部分包括所述阅读对象的数据内容分块时，所述对所述分类后的标记信息出现频次进行统计，获得分类类别下标记信息的出现频次，包括：针对所述数据内容分块中标记信息出现频次进行统计，获得所述数据内容分块下标记信息的出现频次；

当所述组成部分包括所述阅读对象的数据内容分块的数据内容子分块时，所述对所述分类后的标记信息出现频次进行统计，获得分类类别下标记信息的出现频次，包括：对所述数据内容分块下的数据内容子块中标记信息出现频次进行统计，获得所述数据内容子块下标记信息的出现频次。

9.根据权利要求8所述的阅读对象处理方法，其特征在于，还包括：

10.一种阅读对象处理方法，其特征在于，包括：

获取针对阅读对象数据内容的标记信息；

向服务端提供所述标记信息；

获取所述服务端发布的所述阅读对象的内容精要；

其中，所述内容精要包括被所述标记信息标记的数据内容，或者包括根据被所述标记信息标记的数据内容生成的精要信息；

所述被所述标记信息标记的数据内容包括：针对阅读对象的标记信息，提取出现频次满足出现频次要求的标记信息或者提取排位次序满足排位次序要求的标记信息；根据提取的所述标记信息获取阅读对象中被标记的数据内容；其中，所述针对阅读对象的标记信息，提取出现频次满足出现频次要求的标记信息，包括：按照所述标记信息在所述阅读对象中所属的组成部分，对所述标记信息进行分类，获得分类后的标记信息；对所述分类后的标记信息出现次数进行统计，获得分类类别下标记信息的出现频次；提取所述分类类别下标记信息的出现频次满足出现频次要求的标记信息；

11.根据权利要求10所述的阅读对象处理方法，其特征在于，所述获取所述服务端发布的所述阅读对象的内容精要，包括：