CN107145859A

CN107145859A - 电子书转换处理方法、装置及计算机可读存储介质

Info

Publication number: CN107145859A
Application number: CN201710309205.1A
Authority: CN
Inventors: 高蕾
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-05-04
Filing date: 2017-05-04
Publication date: 2017-09-08

Abstract

本公开是关于一种电子书转换处理方法、装置及计算机可读存储介质，所述方法包括：获取目标纸质书的目标图像；对所述目标图像进行图像识别，得到电子文本信息；通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。本公开通过文本结构信息识别，获得目标纸质书的文本结构信息，使得将目标纸质书转换为电子书时，不会丢失其文本结构信息。

Description

电子书转换处理方法、装置及计算机可读存储介质

技术领域

本公开涉及电子技术领域，尤其涉及一种电子书转换处理方法、装置及计算机可读存储介质。

背景技术

近年来文字识别技术不断发展，得到了越来越广泛的应用。

对于纸质书，通过拍照、摄影、扫描等方式，可将纸质书转换为图片；然后再通过文字识别，识别出图片中的文字，从而将纸质书转换为电子书。

相关技术中，当仅需转换纸质书的部分内容(例如，带标记的内容)为电子书时，得到的电子书为内容片段，内容片段所属的章、节、段落等结构层次信息会丢失。

发明内容

为克服相关技术中存在的问题，本公开提供一种电子书转换处理方法、装置及计算机可读存储介质。

根据本公开实施例的第一方面，提供一种电子书转换处理方法，包括：获取目标纸质书的目标图像；

对所述目标图像进行图像识别，得到电子文本信息；

通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；

根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。

优选地，所述通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息，包括：

获取所述电子文本信息对应的文本格式，其中，所述文本格式包括字体、字号、行距、是否加粗和段落格式中的一者或多者；以及

根据预设文本结构分类模型和所述文本格式，确定所述电子文本信息的文本结构信息。

优选地，在所述根据预设文本结构分类模型和识别出的文字的文本格式，确定所述电子文本信息的文本结构信息之前，所述方法还包括：

获取训练样本集，所述训练样本集中包括：所述目标纸质书的图像数据和所述图像数据所对应的文本结构信息；

利用训练样本集对卷积神经网络进行训练，获得卷积神经网络的各层参数信息；

根据所述各层参数信息构建所述预设文本结构分类模型。

优选地，所述方法还包括：

获取所述电子文本信息中的笔记部分；

将所述笔记部分以及所述笔记部分所对应的文本结构信息关联存储；以及

当满足预设条件时，显示所述笔记部分以及所述笔记部分所对应的文本结构信息。

根据本公开实施例的第二方面，提供一种电子书转换处理装置，包括：

目标图像获取模块，被配置为获取目标纸质书的目标图像；

电子文本信息获取模块，被配置为对所述目标图像进行图像识别，得到电子文本信息；

结构信息确定模块，被配置为通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；

电子书生成模块，被配置为根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。

优选地，所述结构信息确定模块包括：

文本格式获取子模块，被配置为获取所述电子文本信息对应的文本格式，其中，所述文本格式包括字体、字号、行距、是否加粗和段落格式中的一者或多者；以及

结构信息确定子模块，被配置为根据预设文本结构分类模型和所述文本格式，确定所述电子文本信息的文本结构信息。

优选地，所述装置还包括：

训练样本集获取模块，被配置为获取训练样本集，所述训练样本集中包括：所述目标纸质书的图像数据和所述图像数据所对应的文本结构信息；

参数信息获取模块，被配置为利用训练样本集对卷积神经网络进行训练，获得卷积神经网络的各层参数信息；

预设分类模型构建模块，被配置为根据所述各层参数信息构建所述预设文本结构分类模型。

优选地，所述装置还包括：

笔记获取模块，被配置为获取所述电子文本信息中的笔记部分；

存储模块，被配置为将所述笔记部分以及所述笔记部分所对应的文本结构信息关联存储；以及

显示模块，被配置为在满足预设条件时，显示所述笔记部分以及所述笔记部分所对应的文本结构信息。

根据本公开实施例的第三方面，提供一种电子书转换处理装置，包括：

处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：获取目标纸质书的目标图像；对所述目标图像进行图像识别，得到电子文本信息；通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的电子书转换处理方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：在将目标纸质书转换为电子书时，可保留文本结构信息，使得将纸质书转换为电子书时，不会丢失其结构层次信息；且无需进行人工转换。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种电子书转换处理方法的流程图。

图2是本公开一实施例中获取文本结构信息的流程示意图。

图3是本公开的一实施例中，当目标图像中的文字均属于正文文本时的处理流程示意图。

图4是本公开一实施例进行训练获得预设文本结构分类模型的流程示意图。

图5是本公开一实施例对训练好的预设文本结构分类模型进行测试的流程示意图。

图6是本公开一实施例中对笔记部分进行电子书转换的流程示意图。

图7是本公开一实施例的对笔记部分和笔记部分所对应的文件结构信息进行显示的效果示意图。

图8是根据一示例性实施例示出的一种电子书转换处理装置的框图。

图9是根据一示例性实施例示出的一种用于电子书转换处理方法的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种电子书转换处理方法的流程图，如图1所示，该电子书转换处理方法用于终端中，包括以下步骤：

在步骤S11中，获取目标纸质书的目标图像。目标图像可包括正文图像和笔记图像。

用户阅读纸质书时，可在纸质书上通过划线、图形标注、手写笔记等做笔记。当需要将纸质书的某些部分(例如，带标记的字、词、句子、段落或章节等)转换为电子书时，通过图像采集装置对包含目标纸质书进行图像采集，获得目标图像。

在本公开的实施例中，图像采集装置可为相机、扫描仪、手机等。对目标纸质书进行图像采集，即通过图像采集装置对目标纸质书进行拍摄或扫描，得到目标图像。

在步骤S12中，对目标图像进行图像识别，得到电子文本信息。

通过对目标图像进行图像识别，识别目标图像中的文字，得到电子文本信息，电子文本信息至少包括文字及文字的文本格式。文本格式包括字体、字号、行距、是否加粗和段落格式中的一者或多者。

在本公开的一实施例中，可通过对目标图像进行预处理(例如，对目标图像进行灰度化、降噪、二值化、字符切分以及归一化等等)，以及对预处理后的目标图像进行特征提取和降维处理后，进行文字识别和文本格式识别。

在一个实施例中，为了提高文字识别的准确率，获得文字识别结果后，再对文字识别结果进行优化，以对文字识别结果进行校正。对文字识别结果进行校正可通过语言模型来进行校正，以纠正识别错误的文字。

在步骤S13中，通过分析电子文本信息，确定电子文本信息的文本结构信息。

文本结构信息至少包括以下信息中的一者或多者：所属部分、所属章、所属节和所属页。

参见图2，在本公开的一实施例中，通过以下方式获取文本结构信息：

在步骤S21中，获取电子文本信息对应的文本格式。

在步骤S22中，根据预设文本结构分类模型和文本格式，确定电子文本信息的文本结构信息。

在本公开的实施例中，通过对训练样本集进行训练得到预设文本结构分类模型，由此，可对文本结构信息进行识别。

应理解，根据纸质书排版格式的不同，文本结构信息可以不同的方式被识别出。例如，对于一些排版格式，所属部分、所属章和所属页均可从页眉、页脚等信息中识别出；而所属节可从正文部分，根据文本格式识别出。通过对预设文本结构分类模型进行训练，可实现准确的对文本结构信息进行识别。预设文本结构分类模型的获取将在后续进行详细介绍。

在步骤S14中，根据电子文本信息和文本结构信息，生成针对目标纸质书的电子书。

由此，本公开实施例的电子书转换处理方法，在将目标纸质书转换为电子书时，可保留文本结构信息，使得将纸质书转换为电子书时，不会丢失其结构层次信息；且无需进行人工转换。

参见图3，在本公开的一实施例中，当目标图像中的文字均属于正文文本，不包含可反应文本结构信息的文字时：

在步骤S31中，采集目标图像所在页的前一页纸质书图像。

在步骤S32中，对采集的纸质书图像的文本结构信息进行识别。

在步骤S33中，若识别到文本结构信息时，将该页最后的文本结构信息作为目标图像的文本结构信息；若未识别到文本结构信息，则继续采集目标图像前面页的纸质书图像，直到识别到文本结构信息。

由此，可快速实现目标图像文字所属文本结构信息的获取，且保证识别成功率。

参见图4，为本公开一实施例进行训练获得预设文本结构分类模型的流程示意图。

在步骤S41中，获取训练样本集。

在本公开的实施例中，通过图像采集装置对纸质书进行拍摄或扫描获取纸质书的图像数据。应理解，为了提高识别的准确率，训练样本所采用的纸质书可与目标纸质书相同；此外，也可从同一出版社的纸质书、同一类别的纸质书或同一纸质书的不同版本中获取训练样本。

在一个实施例中，获取到纸质书的图像数据后，对图像进行预处理、文字识别和优化。预处理即将采集到的图像进行灰度化、降噪、二值化、字符切分以及归一化等等。

由此，可获得训练样本集，训练样本集包括多个向量对(Y，P)，其中，Y为纸质书的图片经预处理后的图像数据，P为图像数据所对应的文本结构信息。应理解，图像数据所对应的文本结构信息可预置。

在步骤S42中，利用训练样本集对卷积神经网络进行训练，获得卷积神经网络的各层参数信息。

对卷积神经网络进行训练时，在向前传播阶段，将训练样本集中的向量对中的纸质书的图像数据Y输入网络，计算相应的实际输出。

在卷积神经网络训练的向后传播阶段，根据实际输出与相应的理想输出P，调整卷积层、池化层和全连接层的权值和偏置，使得实际输出与理想输出的偏差最小。

各层参数信息包括卷积神经网络的卷积层、池化层和全连接层的权值和偏置。

在步骤S43中，根据各层参数信息构建预设文本结构分类模型。

为了保证预设文本结构分类模型的分类效果，参见图5为本公开一实施例对训练好的卷积神经网络进行测试的流程示意图。

在步骤S51中，获取测试样本集，测试样本集中包括待识别纸质书的图像数据。

待识别纸质书的图像数据可为图像采集装置100采集，并按照上述的预处理进行处理后的图像数据。应理解，这里的待识别纸质书可为目标纸质书。

在步骤S52中，将测试样本集中的待识别纸质书的图像数据输入通过各层参数信息构建的卷积神经网络中，识别待识别纸质书的文本结构信息。

在步骤S53中，当获取到的待识别纸质书的文本结构信息不满足预设条件时，根据训练样本集，对卷积神经网络重新进行训练，以更新各层参数信息。

预设条件可为：识别出的待识别纸质书的文本结构信息与实际的文本结构信息相一致或误差最小化。

参见图6，在本公开的一实施例中，对于用户在纸质书上进行划线、图形标注(例如，画圈、化括号等)、手写笔记等进行笔记产生的笔记部分，通过以下步骤可将笔记部分以及笔记部分所对应的文本结构信息转换为电子书：

在步骤S61中，获取电子文本信息中的笔记部分。

在步骤S62中，将笔记部分以及笔记部分所对应的文本结构信息关联存储。由此，可得到笔记部分的带文本结构信息的电子书。

在步骤S63中，当满足预设条件时，显示笔记部分以及笔记部分所对应的文本结构信息。预设条件可为用户选择笔记部分进行显示，或其它条件。

在本公开的一实施例中，由于目标图像所对应的电子文本信息所对应的文本结构信息可按照上述实施例确定，由此，将笔记部分与确定了文本结构信息的电子文本信息进行匹配，即可得到笔记部分的文本结构信息。例如，将笔记部分与确定了文本结构的电子文本信息进行比较，若连续预设个数(例如，20或20以上)的文字都相同，则匹配结果为匹配。

当匹配结果为匹配时，笔记部分的文本结构信息和确定了文本结构的电子文本信息相同。

本公开该实施例的电子书转换处理方法，可获得笔记部分的文本结构信息，使得将笔记部分转换为电子书时，不会丢失其文本结构信息；另一方面，可根据笔记部分的文本结构信息进行显示，既方便用户查阅，又可去掉不需要的额外文字信息。

在本公开的一实施例中，将电子文本信息和电子文本信息所对应的文本结构信息关联存储，获取文本索引信息。文本结构信息包括：正文结构信息和笔记结构信息，相应的文本索引信息包括正文索引信息和笔记索引信息。其中，正文索引信息用于基于正文结构信息定位电子书中的正文部分，笔记索引信息用于基于笔记结构信息定位电子书中的笔记部分。应理解，正文索引信息和笔记索引信息还可合成为一个总索引。

参见图7，在本公开的一实施例中，根据上述实施例的方法，可获得笔记部分以及笔记部分对应的文件结构信息，以及将笔记部分以及笔记部分所对应的文本结构信息进行存储。当用户想阅读笔记部分时，显示笔记部分，以及笔记部分对应的文件结构信息。

本公开实施例的电子书转换处理方法，通过机器学习，在识别目标纸质书的文字的同时，也识别文字的文本结构信息，将文字和文本结构信息对应起来。在一个实施例中，在识别出文字和文字的文本结构信息后，进行文本编辑，得到包含文字和文字所属的文本结构信息的文本。

在另一些实施例中，识别出文字和文字的文本结构信息后，即将文字***其所属的文本结构中，得到包含文字和文本结构信息的电子书。

图8是根据一示例性实施例示出的一种电子书转换处理装置的框图。该装置800包括：

目标图像获取模块801，被配置为获取目标纸质书的目标图像；

电子文本信息获取模块802，被配置为对所述目标图像进行图像识别，得到电子文本信息；

结构信息确定模块803，被配置为通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；

电子书生成模块804，被配置为根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。

在一个实施例中，结构信息确定模块803包括：

在一个实施例中，装置800还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的电子书转换处理方法的步骤。

图9是根据一示例性实施例示出的一种用于电子书转换处理方法的装置900的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电力组件906，多媒体组件907，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的电子书转换处理方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件907和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理***，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件907包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件907包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述电子书转换处理方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述电子书转换处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种电子书转换处理方法，其特征在于，包括：

获取目标纸质书的目标图像；

对所述目标图像进行图像识别，得到电子文本信息；

2.根据权利要求1所述的方法，其特征在于，所述通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息，包括：

3.根据权利要求2所述的方法，其特征在于，在所述根据预设文本结构分类模型和识别出的文字的文本格式，确定所述电子文本信息的文本结构信息之前，所述方法还包括：

根据所述各层参数信息构建所述预设文本结构分类模型。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述电子文本信息中的笔记部分；

5.一种电子书转换处理装置，其特征在于，包括：

目标图像获取模块，被配置为获取目标纸质书的目标图像；

6.根据权利要求5所述的装置，其特征在于，所述结构信息确定模块包括：

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种电子书转换处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1所述方法的步骤。