CN110490182A

CN110490182A - 一种点读数据的制作方法、***、存储介质及电子设备

Info

Publication number: CN110490182A
Application number: CN201910765794.3A
Authority: CN
Inventors: 李俊
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-22

Abstract

本发明公开了一种点读数据的制作方法、***、存储介质及电子设备；其中，方法包括：获取待制作的书本资源；识别并勾勒出该书本资源中的文本区、图片区，确定该书本资源的文本点读区、及图片点读区；识别文本点读区的文字信息；根据上述文字信息，生成对应的文本点读语音文件；获得图片点读区的图片点读语音文件，并与图片点读区进行匹配；基于该书本资源的所有文本区及对应的文本点读语音文件、以及所有图片点读区及对应的图片点读语音文件，生成该书本资源的点读数据。通过本发明，将人工操作与重复操作自动化、***化，减少了人工成本，并且减少了因人工误操作引发的二次返工现象，实现了点读数据制作自动化，减少开发成本，加快开发效率。

Description

一种点读数据的制作方法、***、存储介质及电子设备

技术领域

本发明涉及数据处理领域，尤其涉及一种点读数据的制作方法、***、存储介质及电子设备。

背景技术

当前家教机点读资源制作流程采用人工勾勒区域信息，手动取出书本中的文字，再将文字进行翻译，编辑脚本，整合脚本和书本资源，最后再打包生成一个点读资源数据，上传服务器，然后品检人员进行校验是否正常。

这样的方式会存在人工操作耗时较长，手动取词会存在人为差异，翻译可能存在不准确，导致最后生成的资源文件品检不通过，二次返工现象，如此，人力成本耗费较大，且效率和准确率也难以保证。

发明内容

为解决上述技术问题，本发明提供一种点读数据的制作方法、***、存储介质及电子设备。

第一方面，本发明公开了一种点读数据的制作方法，包括：

获取待制作的书本资源；

识别并勾勒出所述书本资源中的文本区、图片区，确定所述书本资源的文本点读区、及图片点读区；

识别所述文本点读区的文字信息；

根据所述文字信息，生成对应的文本点读语音文件；

获得所述图片点读区的语音文件，并与所述图片点读区进行匹配；

基于所述书本资源的所有文本区及对应的文本点读语音文件、以及所有图片点读区及对应的图片点读语音文件，生成所述书本资源的点读数据。

进一步地，所述识别并勾勒出所述书本资源中的文本区、图片区，确定所述书本资源的文本点读区、及图片点读区具体包括：

利用训练好的神经网络识别模型将所述书本资源上的每一页进行识别勾勒；所述勾勒的区域包括图像区，文本区；

基于所述分割后的图像区及文本区进行优化勾勒处理；

对优化勾勒后的图像区、文本区进行筛选处理，去除无需点读的文本区和图片区，获得所述书本资源的文本点读区、及图片点读区；

进一步地，在识别所述文本点读区的文字信息之后还包括：

翻译所述文字信息，获得所述文字信息的双语版本；

所述根据所述文字信息，生成对应的文本点读语音文件具体包括：

根据所述文字信息的双语版本，生成对应的文本双语点读语音文件。

进一步地，在根据所述文字信息，生成对应的文本点读语音文件之前还包括：

对识别出的文字信息进行语义分析，获取所述文字信息的语义；

基于所述文字信息的语义，对所述文字信息进行纠错处理。

第二方面，本发明公开了一种点读数据的制作***，包括：

资源导入模块，用于获取待制作的书本资源；

识别勾勒模块，用于识别并勾勒出所述书本资源中的文本区、图片区，确定所述书本资源的文本点读区、及图片点读区；

文字识别模块，用于识别所述文本点读区的文字信息；

文字语音生成模块，用于根据所述文字信息，生成对应的文本点读语音文件；

图片语音处理模块，用于获得所述图片点读区的语音文件，并与所述图片点读区进行匹配；

点读数据制作模块，用于基于所述书本资源的所有文本区及对应的文本点读语音文件、以及所有图片点读区及对应的图片点读语音文件，生成所述书本资源的点读数据。

进一步地，所述识别勾勒模块包括：

识别勾勒子模块，用于利用训练好的神经网络识别模型将所述书本资源上的每一页进行识别勾勒；所述勾勒的区域包括图像区，文本区；

优化勾勒子模块，用于基于所述分割后的图像区及文本区进行优化勾勒处理；

筛选处理子模块，用于对优化勾勒后的图像区、文本区进行筛选处理，去除无需点读的文本区和图片区，获得所述书本资源的文本点读区、及图片点读区。

进一步地，所述点读数据的制作***还包括：

翻译模块，用于翻译所述文字信息，获得所述文字信息的双语版本，以便所述文字语音生成模块根据所述文字信息的双语版本，生成对应的文本双语点读语音文件。

进一步地，所述点读数据的制作***还包括：

语义理解模块，用于对所述文字识别模块识别出的文字信息进行语义分析，获取所述文字信息的语义；

纠错处理模块，用于基于所述文字信息的语义，对所述文字信息进行纠错处理。

第三方面，本发明还公开了一种存储介质，所述存储介质存储有多条指令，所述多条指令被一个或者多个处理器执行，以实现本发明任一项所述的点读数据的制作方法的步骤。

第四方面，本发明还公开了一种电子设备，包括：处理器，及用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待制作的书本资源；

识别所述文本点读区的文字信息；

根据所述文字信息，生成对应的文本点读语音文件；

本发明至少包括以下一项技术效果：

(1)本发明中，首先将所需要制作的书本图片资源导入***后，***可自动识别出可能存在的图片区域和文字区域，***自动勾勒、生产出对应的语音脚本，进而生成点读数据。采用本发明的点读数据的制作方法或***，既可减少人工成本，又可通过批量化操作解决了人工操作可能出现的失误。

(2)本发明中，采用神经网络识别模型识别勾勒书本上的图片区和文字区，并进一步对其进行优化勾勒处理，增强勾勒效果，此外，对于无需点读的区域，则会进行筛选处理，去掉无需点读的区域。这一系列操作都可进行自动化操作，既确保了点读数据制作的高效，又保障了点读数据的准确性。

(3)本发明除了可实现制作书本资源上所述的语言播放点读外，还可对点读区的文字信息进行翻译，生成另一语种的语音文件，从而可以制作出双语点读文件，满足用户的多样化需求，提升了用户体验度。

(4)本发明还会对识别的文本点读区的文字信息进行了检验纠错处理，具体的，先对识别出的文字信息进行语义理解分析，获取该段文字信息的语义，然后再基于语义理解对识别出来的文字信息进行纠错处理，改正文字信息中的错别字。如此，可提高文字识别的准确率，使得后续的文字语音文件的生成也不会出错，有利于后续点读数据制作的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种点读数据的制作方法的一个实施例的流程图；

图2为本发明一种点读数据的制作方法的另一实施例的流程图；

图3为对书本扫描页进行识别勾勒的文档区和图片区示意图；

图4为本发明一种点读数据的制作方法的另一实施例的流程图；

图5为本发明一种点读数据的制作方法的另一实施例的流程图；

图6为本发明一种点读数据的制作***的一个实施例的结构框图；

图7为本发明一种点读数据的制作***的另一实施例的结构框图；

图8为本发明一种电子设备的一个实施例的结构框图。

附图标记：

10--资源导入模块；20--识别勾勒模块；30--文字识别模块；40--文字语音生成模块；50--图片语音处理模块；60--点读数据制作模块；21--识别勾勒子模块；22--优化勾勒子模块；23--筛选处理子模块；70--语义理解模块；80--纠错处理模块；90--翻译模块；1001--存储器；1002--处理器；1003--外设接口；1004--摄像模块；1005--音频模块；1006--触控屏幕；1007--总线。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘出了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

具体实现中，本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教机或平板计算机之类的其他便携式设备。还应当理解的是，在某些实施例中，所述终端设备并非便携式通信设备，而是具有触摸敏感表面(例如：触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端设备。然而，应当理解的是，终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。

终端设备支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明公开了一种点读数据的制作方法，实施例如图1所示，该点读数据的制作方法包括：

S101，获取待制作的书本资源；

具体的，比如某本书需要制作电子数据，如果有该书本的电子版本，那么就可直接导入该书本的电子版本即可，若没有电子版本数据，则可通过扫描或拍摄的方式，获取该书本的扫描/拍摄图像，作为待制作的书本资源。

S102，识别并勾勒出该书本资源中的文本区、图片区，确定该书本资源的文本点读区、及图片点读区；

具体的，书本中可能有文字，也有图像，后期制作完成后，点击书本不同的区域，可能播放的对应的点读文件不同，因此，前期我们在制作时，需要先对书本的每一页进行识别勾勒，识别出哪块是文本区，哪块是图片区(当然，每页书中，可能有多个文本区和图片区)，初步识别出哪些是文本区，哪些是图片区之后，再进一步进行优化，确定哪些是需要点读的文本点读区，哪些是需要点读的图片点读区。

S103，识别文本点读区的文字信息；

具体的，可采用现有技术来实现文字识别功能，比如通过OCR识别技术识别文本点读区里的文字信息；OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术(可编辑的文本)。

S104，根据上述文字信息，生成对应的文本点读语音文件；

具体的，获取到文本点读区的文字信息后，便可根据该文本点读区的文字信息生成对应的语音文件。后续点击该文本点读区时，便会调用该文本点读区对应的语音文件，播放该文本点读区的文字信息。

S105，获得图片点读区的图片点读语音文件，并与图片点读区进行匹配；

具体的，每个图片点读区也对应有语音文件，用户可将每个图片点读区的语音文件导入***，然后将其与图片点读区进行匹配，比如可通过图片点读区的ID号与语音文件的ID号进行匹配，从而后续在书本上点击该图片点读区的区域时，调用匹配的语音文件的ID号，进而播放该图片点读区对应的语音文件。

S106，基于该书本资源的所有文本区及对应的文本点读语音文件、以及所有图片点读区及对应的图片点读语音文件，生成该书本资源的点读数据。

具体的，确定好了书本上的文本点读区、图片点读区，也获取到了所有的语音文件后，便可将文本点读区与文本点读文件一一匹配好，图片点读区与图片点读语音文件也一一匹配后，便可生成书本资源的点读数据，完成点读数据的制作。

本实施例将大部分人工工作量进行***自动化处理，减少人工成本，批量化操作解决了人工操作可能出现的失误，实现了点读数据制作自动化，减少开发成本，加快开发效率。

本发明点读数据的制作方法的另一实施例，如图2所示，包括：

S201，获取待制作的书本资源；

S202，利用训练好的神经网络识别模型将书本资源上的每一页进行识别勾勒；勾勒的区域包括图像区，文本区；

首先需要训练神经网络识别模型，具体的，先准备一些含有图像和文字的扫描样本，并在该样本上标注勾勒出哪些部分属于文字部分，哪些部分属于图像部分，输入给神经网络模型进行学习，通过不断训练学习，让该神经网络模型可以在输入的图像或扫描页上，识别勾勒出哪些是图像区、哪些是文本区。比如，如图3所示的扫描页，经过训练后的神经网络识别模型的勾勒识别，输出文本区Z1、Z2、Z3、Z4，以及图片区T1、T2。

S203，基于分割后的图像区及文本区进行优化勾勒处理；

具体的，比如识别出的文本区旁边，还遗漏有未识别到的文字，则需进一步优化勾勒处理，将旁边未识别的文字勾勒到相邻的文本区里，使得勾勒出的文本区更准确。

S204，对优化勾勒后的图像区、文本区进行筛选处理，去除无需点读的文本区和图片区，获得书本资源的文本点读区、及图片点读区；

具体的，对于勾勒出的图片区和文本区，并不一定都需要进行点读，比如，勾勒页码位置的文本区，或者标题位置的文本区、标题附近的图片区等一般都是不需要点读的，因此，还需要对勾勒出的文本区和图片区进行筛选，去除无需点读的文本区和图片区，剩下的文本区就是文本点读区，剩下的图片区就是图片点读区了。当然，筛选处理可通过设定预设的规则进行筛选处理，也可以通过另一训练好的神经网络模型来进行识别筛选。具体的，如图3所示的示意图中，文本区Z1、Z4则是无需点读的文本区，可做剔除处理，将剩下的Z2、Z3作为文本点读区；将T1、T2作为图片点读区。

S205，识别文本点读区的文字信息；

具体的，识别图3中文本点读区Z2、Z3的文字信息，比如，可采用OCR技术进行文字识别。

S206，根据上述文字信息，生成对应的文本点读语音文件；

比如，识别到文本点读区Z2的文字信息后，根据该文字信息生成对应的文本点读语音文件，该文本点读语音文件用于当文本点读区Z2被点击后，播放文本点读区Z2中的文字内容。

S207，获得图片点读区的图片点读语音文件，并与图片点读区进行匹配；

具体的，每个图片点读区都会配有一点读语音文件，图片不同，设置的点读语音文件一般也会不同。比如，图3中的图片点读区T1，设置的图片点读语音文件为：萨拉和山姆喜欢坐在树底下。同样的，图片点读区T2也会对应设置另一图片点读语音文件。一般的，导入这些图片点读语音文件后，需将这些图片点读语音文件与图片点读区进行配对，较佳的，可通过设置图片点读语音文件的命名来达到快速匹配的目的，比如，图片点读区Z1的ID号为：Z001，那么可在设置其对应的图片点读语音文件时，其命名的前缀增加匹配的ID号Z001，那么后续在匹配时，便可根据图片点读语音文件的命名前缀快速查找匹配到对应的图片点读区。当然，对于文字点读区与文字点读语音文件的匹配，该方法也同样适用。

S208，基于该书本资源的所有文本区及对应的文本点读语音文件、以及所有图片点读区及对应的图片点读语音文件，生成该书本资源的点读数据。

值得注意的是，本实施例中步骤S203和步骤S204可以交换顺序，并不影响最终的制作结果，也就是说在勾勒识别出文档区、图片区之后，可先对勾勒识别出的文档区、图片区进行筛选处理，然后再对筛选后的结果进行勾勒优化，从而减少勾勒优化的工作量，提高制作效率。

本实施例将一些繁杂的人工操作自动化、工具化，本实施例中，首先将所需要制作的书本图片资源导入***后，***通过AI识图自动识别出可能存在的图片区域和文字区域，然后再将无效区域删除，***自动勾勒、生产出对应的语音脚本，并进行打包，生成点读数据。采用本实施例的点读数据的制作方法制作点读数据既可减少人工成本，又可通过批量化操作解决了人工操作可能出现的失误。

本发明方法的另一实施例，如图4所示，在上述任一实施例的基础上，增加了翻译步骤，具体的，本实施例的点读数据的制作方法如下：

S301，获取待制作的书本资源；

S302，识别并勾勒出该书本资源中的文本区、图片区，确定该书本资源的文本点读区、及图片点读区；

S303，识别文本点读区的文字信息；

S304，翻译文字信息，获得文字信息的双语版本；

具体的，很多书本资源在制作点读数据的时候，有双语点读的需求，比如说点击某个点读区的时候，会先用中文播报一遍，然后再用英语表述一遍，以满足用户的需求，尤其是对于学习英文的小孩而言，如果纯粹只有英文播报，那么可能孩子听不太懂意思，而如果双语版本的话，则有助于孩子更理解内容。因此，在文档点读区的文字信息被识别出来后，便会根据识别出来的文字信息进一步进行翻译，从而获得该文字信息的另一语种版本，比如英语版本，或者西班牙与版本等，一般的，较为常用的双语版本为中文版本和英文版本。

S305，根据文字信息的双语版本，生成对应的文本双语点读语音文件；

具体的，获取到了文字点读区的双语版本后，便可据此生成对应的文本双语点读语音文件，比如双语版本为中文和英文，那么对应的双语点读语音文件便是采用中文和英文双语播报该文档点读区的内容。

S306，获得图片点读区的双语点读语音文件，并与图片点读区进行匹配；

同样的，对于图片点读区也可配置双语语音文件，然后再与图片点读区进行匹配。比如，图3中的图片点读区T1，其双语语音文件播报的内容为：

萨拉和山姆喜欢坐在树底下。

Sarah and Sam like to sit under the tree.

S307，基于该书本资源的所有文本区及对应的文本点读语音文件、基于该书本资源的所有文本区及对应的文本双语点读语音文件、以及所有图片点读区及对应的图片双语点读语音文件，生成该书本资源的点读数据。

本发明点读数据的制作方法的另一实施例，如图5所示，包括：

S401，获取待制作的书本资源；

S402，识别并勾勒出该书本资源中的文本区、图片区，确定该书本资源的文本点读区、及图片点读区；

S403，识别文本点读区的文字信息；

S404，对识别出的文字信息进行语义分析，获取文字信息的语义；

S405，基于文字信息的语义，对文字信息进行纠错处理；

S406，根据上述处理后的文字信息，生成对应的文本点读语音文件；

S407，获得图片点读区的图片点读语音文件，并与图片点读区进行匹配；

S408，基于该书本资源的所有文本区及对应的文本点读语音文件、以及所有图片点读区及对应的图片点读语音文件，生成该书本资源的点读数据。

本实施例中，对识别的文本点读区的文字信息进行了检验纠错处理，具体的，先对识别出的文字信息进行语义理解分析，获取该段文字信息的语义，然后再基于语义理解对识别出来的文字信息进行纠错处理，比如如果其中含有错别字，尤其是对于字形比较接近的文字，OCR文字识别的时候，可能会出现识别错误的情况，比如，将“曰”识别成“日”，而采用本实施例的方案的话，则可在语义理解后进行自动纠错，那么便可自动纠正过来，改正文字信息中的错别字。当然，如果中间没有错别字的话则无需修正该文字信息。如此，可提高文字识别的准确率，使得后续的文字语音文件的生成也不会出错，有利于后续点读数据制作的准确性。

基于相同的技术构思，本发明还公开了一种点读数据的制作***，该***可采用本发明上述任一实施例的制作方法来制作点读数据，具体的，本发明点读数据的制作***的一个实施例，如图6所示，包括：

资源导入模块10，用于获取待制作的书本资源；具体的，比如资源导入模块接收用户输入的电子书本资源，或者通过摄像头或扫描设备扫描获取书本图像，从而获得待制作的书本资源。

识别勾勒模块20，用于识别并勾勒出该书本资源中的文本区、图片区，确定该书本资源的文本点读区、及图片点读区；具体的，书本中可能有文字，也有图像，后期制作完成后，点击书本不同的区域，可能播放的对应的点读文件不同，因此，前期我们在制作时，需要先对书本的每一页进行识别勾勒，识别出哪块是文本区，哪块是图片区(当然，每页书中，可能有多个文本区和图片区)，初步识别出哪些是文本区，哪些是图片区之后，再进一步进行优化，确定哪些是需要点读的文本点读区，哪些是需要点读的图片点读区。

文字识别模块30，用于识别文本点读区的文字信息；具体的，可采用现有技术来实现文字识别功能，比如通过OCR识别技术识别文本点读区里的文字信息。

文字语音生成模块40，用于根据上述文字信息，生成对应的文本点读语音文件；获取到文本点读区的文字信息后，便可根据该文本点读区的文字信息生成对应的语音文件。后续点击该文本点读区时，便会调用该文本点读区对应的语音文件，播放该文本点读区的文字信息。

图片语音处理模块50，用于获得图片点读区的图片点读语音文件，并与图片点读区进行匹配；每个图片点读区也对应有语音文件，用户可将每个图片点读区的语音文件导入***，然后将其与图片点读区进行匹配，比如可通过图片点读区的ID号与语音文件的ID号进行匹配，从而后续在书本上点击该图片点读区的区域时，调用匹配的语音文件的ID号，进而播放该图片点读区对应的语音文件。

点读数据制作模块60，用于基于该书本资源的所有文本区及对应的文本点读语音文件、以及所有图片点读区及对应的图片点读语音文件，生成该书本资源的点读数据。确定好了书本上的文本点读区、图片点读区，也获取到了所有的语音文件后，便可将文本点读区与文本点读文件一一匹配好，图片点读区与图片点读语音文件也一一匹配后，便可生成书本资源的点读数据，完成点读数据的制作。

本实施例的点读数据的制作***将大部分人工工作量进行***自动化处理，减少人工成本，批量化操作解决了人工操作可能出现的失误，实现了点读数据制作自动化，减少开发成本，加快开发效率。

本发明点读数据的制作***的另一实施例，如图7所示，在上述***实施例的基础上，识别勾勒模块20包括：

识别勾勒子模块21，用于利用训练好的神经网络识别模型将书本资源上的每一页进行识别勾勒；勾勒的区域包括图像区，文本区；首先需要训练神经网络识别模型，具体的，先准备一些含有图像和文字的扫描样本，并在该样本上标注勾勒出哪些部分属于文字部分，哪些部分属于图像部分，输入给神经网络模型进行学习，通过不断训练学习，让该神经网络模型可以在输入的图像或扫描页上，识别勾勒出哪些是图像区、哪些是文本区。

优化勾勒子模块22，用于基于分割后的图像区及文本区进行优化勾勒处理；比如识别出的文本区旁边，还遗漏有未识别到的文字，则需进一步优化勾勒处理，将旁边未识别的文字勾勒到相邻的文本区里，使得勾勒出的文本区更准确。

筛选处理子模块23，用于对优化勾勒后的图像区、文本区进行筛选处理，去除无需点读的文本区和图片区，获得书本资源的文本点读区、及图片点读区。具体的，对于勾勒出的图片区和文本区，并不一定都需要进行点读，比如，勾勒页码位置的文本区，或者标题位置的文本区、标题附近的图片区等一般都是不需要点读的，因此，还需要对勾勒出的文本区和图片区进行筛选，去除无需点读的文本区和图片区，剩下的文本区就是文本点读区，剩下的图片区就是图片点读区了。

在上述任一***实施例的基础上，增加一个翻译模块90则形成另一新的***实施例，具体的，本实施例的点读数据制作***还包括：

翻译模块90，用于翻译文字信息，获得文字信息的双语版本，以便文字语音生成模块根据文字信息的双语版本，生成对应的文本双语点读语音文件。通过翻译模块可满足用户双语点读的需求，提高了用户的满意度。

较佳的，在上述任一***实施例的基础上，本实施例的点读数据的制作***还包括：

语义理解模块70，用于对文字识别模块30识别出的文字信息进行语义分析，获取文字信息的语义；

纠错处理模块80，用于基于文字信息的语义，对文字信息进行纠错处理。

对识别的文本点读区的文字信息进行了检验纠错处理，具体的，先对识别出的文字信息进行语义理解分析，获取该段文字信息的语义，然后再基于语义理解对识别出来的文字信息进行纠错处理，比如如果其中含有错别字，尤其是对于字形比较接近的文字，OCR文字识别的时候，可能会出现识别错误的情况，比如，将“睛”识别成“晴”，而采用本实施例的方案的话，则可在语义理解后进行自动纠错，那么便可自动纠正过来，改正文字信息中的错别字。当然，如果中间没有错别字的话则无需修正该文字信息。如此，可提高文字识别的准确率，使得后续的文字语音文件的生成也不会出错，有利于后续点读数据制作的准确性。

本发明***的另一实施例，资源导入模块10获取待制作的书本资源，将书本资源导入***中；然后***的识别勾勒子模块21自动将书本资源进行AI识图、文字识别，自动勾勒出区域；筛选处理子模块22将不需要的勾勒区域(图片区或文字区)去掉；而优化勾勒子模块23再自动对图片勾勒；***的文字识别模块30再自动对文字OCR；语义理解模块70则可获取识别后的文字信息的语义，纠错处理模块80基于此再确认OCR识别结果。***的翻译模块90自动对OCR结果进行文本翻译；最后，文字语音生成模块40根据文本点读区的文字信息和翻译结果，生成对应的文字双语点读文件；同样的图片语音处理模块50获取图片点读区的图片点读文件，并将其与图片点读区进行匹配，最后，点读数据制作模块60基于该书本资源的图片点读区、文档点读区、及各自对应的语音点读文件，生成成品数据---该书本资源的点读数据。

本发明将一些繁杂的人工操作自动化、工具化，减少人工成本，批量化操作解决了人工操作可能出现的失误。

第三方面，本发明还公开了一种存储介质，存储介质存储有多条指令，多条指令被一个或者多个处理器执行，以实现本发明上述任一项的点读数据的制作方法实施例的步骤。

其中，处理器被配置为：

获取待制作的书本资源；

识别并勾勒出该书本资源中的文本区、图片区，确定该书本资源的文本点读区、及图片点读区；

识别文本点读区的文字信息；

根据上述文字信息，生成对应的文本点读语音文件；

获得图片点读区的图片点读语音文件，并与图片点读区进行匹配；

基于该书本资源的所有文本区及对应的文本点读语音文件、以及所有图片点读区及对应的图片点读语音文件，生成该书本资源的点读数据。

较佳的，本发明电子设备的存储器存储有本发明上述任一点读数据的制作方法实施例的步骤指令，而处理器则执行该存储器上的指令，以实现本发明所述的点读数据的制作方法实施例的步骤。

本发明电子设备的另一实施例，如图8所示，本发明的电子设备包括：存储器1001、一个或多个(图中仅示出一个)处理器1002、外设接口1003、摄像模块1004、音频模块4005以及触控屏幕1006。这些组件通过一条或多条通讯总线1007/信号线相互通讯。

可以理解，图8所示的结构仅仅为示意，并不是对机器人的结构造成限定，机器人还可以包括比图8所示更多或者更少的组件，或者具有与图8所示不同的装置。图8所示的各组件可以采用硬件、软件或其组合实现。

存储器可用于存储软件程序以及模块，如本发明实施例中的点读数据的制作方法及***实施例对应的程序指令/模块，处理器通过允许存储在存储器内的软件程序/模块，从而执行各种功能应用以及数据处理，即实现上述的点读数据的制作方法/***。

存储器1001可包括告诉随机存储器，还可包括非易失性存储器，比如一个或多个磁性存储装置、闪存或者其他非易失性固态存储器。所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)等。

外设接口1003将各种输入/输出装置耦合至CPU一级存储器。处理器1002运行存储器内的各种软件、指令一致性机器人的各种功能以及进行数据处理。

摄像模块1004，用于拍摄视频，相当于是机器人的眼睛，比如采用CCD摄像头等。

音频模块1005，用于接收或发送声音信号，可包含一个或多个麦克风、一个或多个扬声器以及音频电路。便于机器人从环境捕捉声音信号，以及将通过麦克风或扬声器与人进行交流。

触控屏幕1006在机器人与人之间同时提供一个输出及输入界面。具体的，触控屏幕向人显示视频输出，这些视频输出的内容可包括文字、图形、视频及其任意组合。一些输入结果是对应与一些用户解密对象。触控屏幕1006还接收人类的点击、滑动等手势操作。触控屏幕1006的具体实施例包括但不限于液晶显示器或发光聚合物显示器。

本发明实施例中，所述点读数据的制作方法及***、存储介质与电子设备属于同一构思，在所述电子设备上，通过处理器执行所述存储介质中存储的指令，可以运行相应的所述点读数据的制作方法实施例中提供的方法，其具体实现过程详见前面的点读数据的制作方法实施例，此处不再赘述。

需要说明的是，本领域普通测试人员可以理解实现本发明实施例所述基于机器视觉的棋子定位方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在机器人的存储器中，并被该机器人内的至少一个处理器执行，在执行过程中可包括如所述点读数据的制作方法实施例的流程。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种点读数据的制作方法，其特征在于，包括：

获取待制作的书本资源；

识别所述文本点读区的文字信息；

根据所述文字信息，生成对应的文本点读语音文件；

2.根据权利要求1所述的一种点读数据的制作方法，其特征在于，所述识别并勾勒出所述书本资源中的文本区、图片区，确定所述书本资源的文本点读区、及图片点读区具体包括：

基于所述分割后的图像区及文本区进行优化勾勒处理；

对优化勾勒后的图像区、文本区进行筛选处理，去除无需点读的文本区和图片区，获得所述书本资源的文本点读区、及图片点读区。

3.根据权利要求1所述的一种点读数据的制作方法，其特征在于，在识别所述文本点读区的文字信息之后还包括：

翻译所述文字信息，获得所述文字信息的双语版本；

4.根据权利要求1-3任一项所述的一种点读数据的制作方法，其特征在于，在根据所述文字信息，生成对应的文本点读语音文件之前还包括：

基于所述文字信息的语义，对所述文字信息进行纠错处理。

5.一种点读数据的制作***，其特征在于，包括：

资源导入模块，用于获取待制作的书本资源；

文字识别模块，用于识别所述文本点读区的文字信息；

6.根据权利要求5所述的一种点读数据的制作***，其特征在于，所述识别勾勒模块包括：

7.根据权利要求5所述的一种点读数据的制作***，其特征在于，还包括：

8.根据权利要求5-7任一项所述的一种点读数据的制作***，其特征在于，还包括：

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述多条指令被一个或者多个处理器执行，以实现权利要求1-4中任一项所述的点读数据的制作方法的步骤。

10.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待制作的书本资源；

识别所述文本点读区的文字信息；

根据所述文字信息，生成对应的文本点读语音文件；