CN111460782B

CN111460782B - 一种信息处理方法、装置及设备

Info

Publication number: CN111460782B
Application number: CN202010252333.9A
Authority: CN
Inventors: 徐达峰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2023-08-22
Anticipated expiration: 2040-04-01
Also published as: CN111460782A; CN117113962A

Abstract

本说明书实施例公开了一种信息处理方法、装置及设备。其中信息处理方案，包括：获取待录入信息对应的电子图像；将所述电子图像分类为预设的图像类型；根据所述图像类型对分类后的所述电子图像进行目标检测，以将所述电子图像中所包含的若干目标图像内容识别为所述目标图像内容在计算机***中对应的信息元素；将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息。

Description

一种信息处理方法、装置及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种信息处理方法、装置及设备。

背景技术

随着工业互联网的发展，尤其是目前整个产业正处在消费互联网转向产业互联网的变革中，5G通信、人工智能等技术的发展无疑将助力整个变革，尤其是深度学习方面的技术进步，使得机器读图、识图的能力有了明显突破。

这时，利用机器读图、识图的应用显著增多，比如文档扫描、物体识别等。

例如，Office Lens(微软公司发布的一款软件)，用户可通过拍照、扫描等手段，将包含有文字、图形的纸质文档、名片、白板、海报等外部信息，变成电子图片录入到计算机***中，甚至可经后期一些简单处理，比如OCR(Optical Character Recognition，光学字符识别)，将电子图片导出如word、ppt等格式文件，实现Office办公套件的内容录入能力的辅助延伸。

例如，Google Lens(谷歌公司发布的一款软件)，用户可扫描产品、动物、文本或者其它存在于环境当中的事物，通过连网至谷歌后台服务器，依靠服务器中的大量样本数据，快速识别出扫描场景中的事物。

但是，传统机器读图、识图应用中，虽然能对标准场景(比如标准印刷物、标准物体)做拍照、扫描后，实现信息录入和识别处理，但仍很难满足用户日常生活中的多样化使用需求。

因此，亟需一种更便捷、更直接的信息处理方案。

发明内容

有鉴于此，本说明书实施例提供了一种信息处理方法、装置及设备，以将计算机外部信息从自然界中识别出来，并转换为方便处理的数字化信息。

本说明书实施例采用下述技术方案：

本说明书实施例提供一种信息处理方法，包括：

获取待录入信息对应的电子图像；

将所述电子图像分类为预设的图像类型；

根据所述图像类型对分类后的所述电子图像进行目标检测，以将所述电子图像中所包含的若干目标图像内容识别为所述目标图像内容在计算机***中对应的信息元素；

将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息。

本说明书实施例还提供一种信息处理装置，包括：

获取模块，获取待录入信息对应的电子图像；

分类模块，将所述电子图像分类为预设的图像类型；

检测模块，根据所述图像类型对分类后的所述电子图像进行目标检测，以将所述电子图像中所包含的若干目标图像内容识别为所述目标图像内容在计算机***中对应的信息元素；

排版模块，将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息。

本说明书实施例还提供一种用于信息处理的电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取待录入信息对应的电子图像；

将所述电子图像分类为预设的图像类型；

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

用户可直接对自然场景中的信息进行拍摄、扫描等操作，经识别处理后可获取到各类有效信息对应的数字化信息，可满足用户便捷地将计算机外部信息录入的使用要求，以提高用户使用体验。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种信息处理的示意图。

图2为本说明书实施例提供的一种信息处理方法的流程图。

图3为本说明书实施例提供的一种信息处理方法中电子图像的示意图。

图4为本说明书实施例提供的一种信息处理方法中从电子图像中识别的字符的示意图。

图5为本说明书实施例提供的一种信息处理方法中从电子图像中识别的图形的示意图。

图6(a)为本说明书实施例提供的一种信息处理方法中文本的电子图像的示意图。

图6(b)为本说明书实施例提供的一种信息处理方法中文本的数字化信息的示意图。

图7(a)为本说明书实施例提供的一种信息处理方法中脑图的电子图像的示意图。

图7(b)为本说明书实施例提供的一种信息处理方法中脑图的数字化信息的示意图。

图8(a)为本说明书实施例提供的一种信息处理方法中表格的电子图像的示意图。

图8(b)为本说明书实施例提供的一种信息处理方法中表格的数字化信息的示意图。

图9为本说明书实施例提供的一种信息处理方法中字符识别模型的示意图。

图10为本说明书实施例提供的一种信息处理方法中字符识别模型的训练示意图。

图11为本说明书实施例提供的一种信息处理方法中目标检测模型的示意图。

图12为本说明书实施例提供的一种信息处理方法中平面分割的示意图。

图13为本说明书实施例提供的一种信息处理方法中部署实施的示意图。

图14为本说明书实施例提供的一种信息处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

传统的机器读图、识图应用方案，比如Office lens、Google lens等，虽然能对标准场景(比如标准印刷物、标准物体)做拍照、扫描后，实现信息录入和识别处理，但用户使用中，仍存在较多限制，很难满足用户日常生活中的多样化使用需求。

基于此，本说明书实施例提供一种信息处理方法、装置及设备。

如图1所示，本说明书实施例提供的信息处理方案中，用户直接将自然场景中的信息转换为计算机可处理的电子图像，然后通过对电子图像进行识别处理，从该电子图像中获取出图像中所包含的各类有效信息，通过排版渲染后生成对应的数字化知识信息。因此，用户可直接将自然场景中的信息录入并生成对应的数字化信息。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图2所示，本说明书实施例提供一种信息处理方法，包括步骤：

步骤S102、获取待录入信息对应的电子图像。

其中，待录入信息可包括自然场景中需要录入计算机***中的信息，比如物体、包含文字和/或文字的文本或者其它存在于自然环境当中的事物等信息，而这些信息需要录入到计算机***中，以便计算机***将这些应用场景中的信息转换为数字化的知识信息加以利用。

具体实施中，用户可以对需要录入计算机***中的自然场景中的信息直接拍照、扫描等操作，比如利用移动终端的摄像头拍照，从而将待录入到计算机***中的场景信息变成计算机***可以处理的电子图像。

还有，所述电子图像还可以是所述待录入信息对应的、已存储于数据库中的电子图像。

如图3所示，从自然场景中通过拍照，获取到用户手写的一张脑图对应的电子图像。其中，该电子图像中包含有手写文字、线条(如箭头)、线框形状等，图中“INTERNET”的外边框原为手写红色边框(图3中已转换为灰度图)。

需要说明的是，鉴于电子图像可以是从自然场景中直接获取的图像，因而所获取的电子图像，可以为灰度图像或者RGB图像。

具体实施中，直接从自然场景下获取到的电子图像，可能受到各种不确定因素的影响，比如白板上的反光、干扰噪声等。

因此，在从自然场景中获取到待录入信息的图像后，可先进行预处理以生成所述待录入信息对应的电子图像。其中，预处理可包括如二值化处理、图像缩放等图像预处理过程。

这样，通过预处理，比如将256个亮度等级的灰度图像通过适当的阈值选取，而获得仍然可以反映图像整体和局部特征的二值化图像，从而使图像凸出感兴趣的目标的轮廓，而且图像所携带的数据量也得到减小，方面后续处理。

具体实施中，当从自然场景中获取的图像为RGB图像时，可先将图像进行灰度化处理，以获得灰度图像，然后对灰度化后的图像进行二值化处理，以获得包含有清晰轮廓的感兴趣目标的电子图像。

其中，灰度化处理，就是让RGB图像中任意一个像素点的RGB三色值转为相同的数值，以用该数值(即灰度值)替换该像素点的原RGB三个色值，通常灰度值的取值范围可为0～255。

需要说明的是，实现灰度化的方式多种多样，比如平均值算法：

f(i,j)＝(R(i,j)+G(i,j)+B(i,j))/3

其中，f(i,j)为图像中像素点(像素点坐标为(i,j))的灰度值，R(i,j)、G(i,j)和B(i,j)分别为该像素点的R(红色值)、G(绿色值)和B(蓝色值)。

因此，这里不对预处理中的灰度化方式做具体限定。

二值化处理，就是通过设定一个阈值将灰度化的图像的数据进一步简化，使得图像的轮廓进一步变清晰。

需要说明的是，二值化中阈值的设定方案多种多样，可根据实际应用进行选取二值化的阈值方案，比如比较常用是OTSU(最大类间方差法)算法，通过将图像分为A、B两类，采用类间方差求得最佳二值化阈值。

因此，这里不对预处理中的二值化进行限定。

步骤S104、将所述电子图像分类为预设的图像类型。

具体实施中，电子图像中常常包含有图形和/或文字等图像内容，而且包含有图形和/或文字等图像内容的电子图像，其图像特征常常是显著的，比如文本、表格、流程图、脑图(即思维导图)等。

因此，可根据电子图像的图像特征，将电子图像进行分类处理，以将电子图像划分为对应的预设类型，方便后续步骤有针对性地进行处理，可提高图像识别效果。

在一些实施方式中，可通过特征工程完成电子图像的分类。

具体实施中，根据实际应用中对效率、实现复杂度等因素的取舍，可采用如KNN(k-Nearest Neighbors，k最近邻)分类器、深度学习分类器等常见的分类器进行分类。

例如，可根据一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性，因而可利用KNN(k-Nearest Neighbors，k最近邻)分类算法，快速地将电子图像划分为对应的预设类型。

具体实施中，可通过相似度来表征两类图像的相似程度。

例如，可采用距离度量方式，比如欧氏距离，来表征相似度。

其中，欧氏距离可如下表示：

I₁、I₂分别表示两张图像的像素向量，p表征第p个像素点。

需要说明的是，预设的图像类型可根据实施场景而设定，比如表格、流程图、脑图、人像、动物等等，这里不再赘述。

步骤S106、根据所述图像类型对分类后的所述电子图像进行目标检测，以将所述电子图像中所包含的若干目标图像内容识别为所述目标图像内容在计算机***中对应的信息元素。

其中，信息元素是指承载或传递视觉信息的要素，如文字、线条、形状等，因此信息元素可称为图像元素。

因此，根据所述电子图像所属的图像类型，可快速地、有针对性地对电子图像中的图像内容进行目标检测，以识别出电子图像中包含的各类有效信息(即图像内容)，比如图形(如线条、形状)、文字等。

另外，虽然可通过目标检测检测出电子图像中所包含的各类图像内容。但一方面，这些文字、线条、线框图形等图像内容，计算机不能直接识别及处理；另一方面，若不对这些图像内容进行校准，可能给后续处理带入影响，比如降低处理结果的准确性，增加处理的难度等。

引用上述图3继续说明。图中，组成线框的线条因属于手画线条，既非如计算机所能描绘的直线条，所组成的线框也非如计算机所能描绘、识别的长(正)方形线框；还有，手画的箭头图形也非计算机所能描绘的箭头图形，手写文字也与计算机所能识别的标准印刷体文字有明显不同。

因此，可在目标检测后，将目标检测后获得的图像内容，识别为该图像内容在计算机***中对应的信息元素。

例如，在所获得的电子图像中，电子图像中的线条、边框等有效信息的形状，可能因拍摄的光线、角度等原因，造成变形，这时可在识别出线条、边框后，将其识别为计算机所能够描绘的线条、边框等图形。

例如，在所获得的电子图像中，电子图像中的文字，可能因拍摄原因，或者文字为手写文字等原因，造成文字与计算机所能够识别处理的印刷文字存在不同，这时可将其识别为该文字在计算机中对应的印刷体文字。

如图4所示，将电子图像中包含的文字，识别为该文字在计算机***对应的印刷体文字；

例如，将图中手写文字“SOCiAL”识别为印刷文字“SOCiAL”，以及在识别后，还可将手写文字在计算机***中对应的印刷体文字，标注在该手写文字附近。

需要说明的是，虽然图中所标注的识别结果可能与词典中的文字存在细微差异，但这些差异，可通过常用的语言处理手段加以校准，如词典、NPL(自然语音)、马尔科夫链等。比如，图中将手写文字“MARKETiNG”初步识别并标注为印刷体文字“IMARkeTiNGI”(因靠近边框，初步识别时边框容易被识别为“I”)，但可通过其他手段(如词典)进行校准，比如可将初步识别结果校准为“MARKETING”。

如图5所示，将电子图像中包含的线条、线框，识别为该线条、线框在计算机***中对应的线条、线框。

如图中所示，将手画的线框，识别并标注的规则图形区域，如square(线框图形)区域，该区域可如图中原手画线框***的浅色线框。另外，还可在该区域内添加标注文字，如标注文字为square。

如图中所示，将手画的箭头，识别并标注为line(线条)区域，该区域可如图中原手画箭头***的浅色线框。另外，还可在该区域内添加标注文字，如标注文字为line。

需要说明的是，图4、5中在标注时，并未考虑原图像内容的位置，因而造成标注和原图像内容可能存在相互重叠，因而具体实施中可采用不同颜色进行区分，以避免重叠造成区分不便，比如标注的线框采用青色，标注的线条采用绿色，标注的文字采用蓝色。

因此，通过图像分类和目标检测，从而将电子图像中与待录入信息相关联的有效信息识别出来，而无关联的目标无需识别，比如图3中的写字笔图像。

这样，在对电子图像进行目标检测后，将电子图像中所包含的图像内容识别为该图像内容在计算机***中对应的信息元素，既可降低电子图像的获取过程带入的影响，也方便后续处理，提高处理的准确性和识别效率。

步骤S108、将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息。

其中，数字化信息可包括所述待录入信息在知识库中对应的某类信息的表达形态，以方便对所述录入信息进行操作(如查看、编辑、存储、输出等)。

例如，将信息元素排版渲染后，生成待录入信息对应的数字化UI(图形界面)，进而形成知识库的某类内容的最终表达形态，如mind(脑图)、sheet(表格)、list(列表)等内容的最终表达形态。

因此，在获取到电子图像中的有效信息后，可将图中的文字、边框和/或线条等图像内容，根据对应的排版规则，重新对信息元素排版渲染后生成对应的数字化信息，比如数字化界面(UI)，从而通过该数字化信息，非常方便用户对录入信息进行操作。

具体实施中，排版规则可为与图像类型对应的排版规则，可以根据实际应用而预设设置，以便于更有针对性地对待录入信息对应的信息元素进行排版。

例如，文本场景，其中文本可为纯文字的文本，也可为图文并茂的文本，这时排版规则可为将文本中的文字和/或图形提取并排版的规则，比如字、词、句、段、间距、图文等等，不再一一展开说明。

例如，脑图场景，排版规则可为将脑图中的文字、图形提取并重新排版的规则，比如脑图中的中央节点(关键词/想法、图形)突出渲染，比如中央关键词位于中央图形的内部，其他文字位于脑图中对应的关系线末端上，不再一一展开说明。

例如，表格场景，排版规则可为将表格、表格中的文字进行排版的规则，如渲染为标准的表格，表格中填充对应的文字等等，不再一一展开说明。

为便于理解，下面以示例对数字化信息进行示意说明。

图6-8为利用本说明实施例提供的信息处理方法，从自然场景中获取的待录入信息的电子图像和对应的数字化信息的示意图。

图6为文本场景的示意图。

如图6(a)所示，用户使用已部署有本说明实施例提供的信息处理方法的移动终端，通过拍照，直接从自然场景中，获取到手写于纸上的文字内容所对应的电子图像。

如图6(b)所示，经处理后，最终输出对应的文本信息，比如包括有：场景主题“自动生成list”，待录入信息对应的文字内容有“1.这是一行文字”、“2.这时标题2”和“3.一行测字”。

图7为脑图场景的示意图。

如图7(a)所示，用户使用已部署有本说明实施例提供的信息处理方法的移动终端，通过扫描，直接从自然场景中，获取到手写脑图所对应的电子图像。

如图7(b)所示，经处理后，最终输出脑图，比如包括有：场景主题“自动生成脑图”，将中央关键词“RISK”采用颜色渲染，脑图内容整齐排版等。

图8为表格场景的示意图。

如图8(a)所示，用户使用已部署有本说明实施例提供的信息处理方法的移动终端，通过拍照，直接从自然场景中，获取到手写于白板上的表格所对应的电子图像。

如图8(b)所示，经处理后，最终输出表格信息，比如包括有：场景主题“自动生成表格”，采用表格展示原白板上的手写内容，如时间、项目等。

因此，通过将信息元素转换生成对应的数字化信息，将自然场景中不便于计算机处理的信息录入并转换为计算机能够识别、处理的数字化信息。

在一些实施方式中，还可将所述数字化信息通过数字化界面进行展示，如前述的图6-8所示。

进一步，还可通过数字化界面，向用户提供若干处理接口，以方便用户通过所述处理接口对所述数字化信息进行相应的处理操作，比如通过对应的处理接口，用户可以对待录入信息对应的数字化信息进行如查看、编辑、存储、输出(如收藏、分享、上传等)等处理操作。

根据上述步骤S102～S108，用户可直接对自然场景拍摄，从而经识别处理，获取出拍摄的电子图像中所包含的各类有效信息，进而将这些信息排版渲染转换为相应的数字化信息，非常方便用户将计算机外部信息录入到计算机***中，也方便用户对转换后的数字化信息进行操作，可提高用户使用体验。

在一些实施方式中，在进行目标检测时，若电子图像所对应的图像类型为包含有字符的图像类型，这时可将字符的目标检测过程作为一个独立处理过程，即基于OCR，将电子图像中的字符从图像中检测出来，以提高字符的检测效果，并方便后续对字符做操作，比如可将手写体字符识别并转换为印刷体字符，既便于计算机对字符的处理，还便于用户对字符进行处理。

具体实施中，OCR技术选型可为“ResNet+LSTM”，即采用ResNet和LSTM共同构建出如图9所示的字符识别模型，从而利用该模型对字符完成目标检测。

其中，先通过ResNet(残差神经网络)对电子图像进行卷积和池化，以提取出字符的特征，然后LSTM根据字符的特征以及预设的字符特征集提取出电子图像中的字符，最终获得字符的识别分类结果，以完成对字符的目标检测。

需要说明的是，ResNet结构可根据实际应用需要选型，比如Res18、Res34、Res50、Res101、Res152等成熟结构，卷积层、池化层为堆叠结构。还有，ResNet的输出，可在重构后输入到LSTM，可根据ResNet的输出维数、LSTM的输入维数确定重构层的结构，这里不做具体限定。

具体实施中，鉴于ResNet、LTSM等训练过程已比较成熟，这里对字符识别模型的训练过程做示意说明。

如图10所示，字符识别模型的训练过程包括输入层、CNN隐藏层、输出层等构建、训练过程。

首先，输入层通过将训练样本集中的每个样本，表示成计算机可读取的张量形式。

比如：3 25 25的矩阵表示一张25*25像素的彩色图，并按照RGB构造为张量(即3维矩阵)，从而可将输入层的输出结果作为下一层网络的输入。

其次，CNN训练隐藏层中，采用多个卷积层到池化层的堆叠卷积网络。

卷积中有若干filter(滤波器，作为卷积核)，每个filter拥有一组固定权重，filter的大小可根据实际应用需要自定义。当然，filter的大小应小于图像的像素尺寸。

比如：针对***数字“9”，鉴于“9”字由若干曲线组成，其中上半部分是类似圆形，而下半部分类似曲线，这时卷积处理的作用是将圆和曲线这两种特征分别抽取出来。这里，池化层可采用最大池化算法(max pooling)，可做到降采样目的，还放大特征，以去除噪声和避免过拟合情况。

这样，通过filter以指定步长依次滑动过滤样本所有区域，并进行内积运算，得出多维结果作为下一层网络的输入。

最后，输出层中，鉴于最后一步池化任务的输出为多维矩阵，这时可采用flatten层将多维实际降维到一维，并通过全连接网络送入softmax来进行分类，以获得分类结果进行输出。

通过上述训练过程，可获得最终的字符识别模型，进而可将该模型部署于用户使用的终端中，方便用户直接从自然场景中获取出字符数据。

在一些实施方式中，鉴于自然场景中出现的字符各种多样，这时可通过向字符特征集中补充大量的字符特征样本，提高字符特征集对字符识别效果。

而字符特征集中的样本，除了日常采集的样本外，还可通过迁移学习大量构造出字符样本数据，以对字符特征集补充大量样本数据，既可弥补字符识别所需的大量样本，也能提高字符识别效果。

需要说明的是，迁移学习的方式和具体算法均可根据实际应用需要进行选型，其中迁移学习方式可以有样本迁移、特征迁移、参数(模型)迁移、关系迁移等方式，迁移学习的具体算法可选用现有算法，比如image-to-image(图像到图像的转换)，这样可通过从大量的包含有手写字文字的图像中，迁移学习获得手写文字的特征集。因此，这里不对迁移学习做具体限定。

在一些实施方式中，可采用MobileNet-SSD进行目标检测(object-detection)。其中，MobileNet-SSD主要是为了适用于移动端而提出的一种轻量级深度网络模型，通过使用深度可分离卷积(Depthwise Separable Convolution)将标准卷积核进行分解计算，可减少计算量，满足移动端和嵌入式端的深度学习应用，进而通过将模型部署于用户端，可方便用户端完成目标检测。

需要说明的是，可根据实际应用需要对MobileNet选型，这里不对MobileNet做具体限定。

为便于理解，本说明书实施例提供一种MobileNet-SDD架构。

如图11所示，输入图片尺寸为300*300，可通过MobileNet-SDD，从六个不同尺度的特征图上提取特征来做Detections(检测)。其中，六个不同尺度包括38*38*512、19*19*1024、10*10*512、5*5*256、3*3*256和1*1*256。

因此，可基于预设的数据集，采用MobileNet-SSD对电子图像进行目标检测，以识别出电子图像所包含的若干图像内容。

在一些实施方式中，预设的数据集可以采用现有的数据集，比如VOCdevkit、VOC2012等。

在一些实施方式中，预设的数据集还可以为自建的数据集，比如根据VOCdevkit和/或VOC2012数据集格式，根据实际应用场景的应用数据而构造出的数据集。因此，通过自建的数据集，检测更有针对性，可提升检测效果。

在一些实施方式中，还可将从电子图像中检测获得的若干图像内容，添加到数据集中，以便于进一步利用该数据集训练MobileNet-SSD，提升检测效果。

在一些实施方式中，可采用智能化版面对信息元素进行排版，从而生成美观、实用所述待录入信息对应的数字化信息。

具体实施中，可通过智能化坐标方案实现排版。具体地，将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息，可包括：

生成所述信息元素中的字符元素对应的字符区域对象和生成所述信息元素中的图形元素对应的图形区域对象；

确定所述信息元素需占用的版面参数，所述版面参数包括用于排版所述字符区域对象的坐标值和用于排版所述图形区域对象的坐标值；

按预设的排版规则，根据所述版面参数排版所述字符区域对象和所述图形区域对象，以生成所述待录入信息对应的数字化信息。

因此，将字符区域和图形区域通过坐标加以区分，从而可方便地利用坐标参数进行智能化排版。

在一些实施方式中，在将字符区域对象和图形区域对象通过坐标排版中，可能存在字符、图形相互之间的区域进行交叉。这时，可采用平面分割方案加以解决。

具体实施中，平面分割方案的原理示意如下：

当某个区域可能存在多个对象交叉时，可通过图中所示的分割线，将该区域的第一象限分成上下两份，其中分割线的斜率的确定原则为：分割线的斜率应使得存在交叉的所述字符区域对象和所述图形区域对象之中任意一个距离分割线最近的点到分割线的直线距离最远。

例如，如图12，对象A和对象B发生交叉，这时可通过将交叉区域重新划分(分割)，以将交叉对象分开进行排版。

这样，对象B中靠近下部的区域面积将更大些，从而可将对象B归属于下面的对象C，因而对象A和对象B被分开。比如，把对象B的区域看成字符区域，对象A的区域看成图形区域，从而在将对象B拉到对象C的区域后，字符和图形将不再交叉。

在一些实施方式中，可将本说明书实施例提供的一种信息处理方法，形成信息处理模型。这样在模型部署后，本说明书实施例提供的一种信息处理方法，还可如图13所示，根据用户的使用形成反馈，然后将用户的反馈作为补充的新样本，进而在对补充的新样本标注特征区后，对信息处理模型进行训练。这样，在将训练后的模型重新部署，可进一步提升信息处理效果，以提高用户的使用体验。

基于同一个发明构思，本说明书实施例还提供用于信息处理的装置、电子设备以及非易失性计算机存储介质。

图14为本说明书提供的一种信息处理装置的结构示意图。

如图14所示，信息处理装置10包括：获取模块11，获取待录入信息对应的电子图像；分类模块12，将所述电子图像分类为预设的图像类型；检测模块13，根据所述图像类型对分类后的所述电子图像进行目标检测，以将所述电子图像中所包含的若干目标图像内容识别为所述目标图像内容在计算机***中对应的信息元素；以及，排版模块14，将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息。

可选地，当所述图像类型为包含有字符的图像类型时，根据所述图像类型对分类后的所述电子图像进行目标检测，包括：

采用残差神经网络提取所述电子图像中所包含的字符的特征；

根据所述特征和预设的字符特征集，采用长短期记忆网络提取所述电子图像中的字符，以对所述电子图像中所包含的字符完成目标检测。

可选地，信息处理装置10还包括：迁移学习模块15，通过迁移学习补充所述字符特征集中的样本数据。

可选地，根据所述图像类型对分类后的所述电子图像进行目标检测，包括：

根据所述图像类型，基于预设的数据集利用MobileNet-SSD对分类后的所述电子图像进行目标检测。

可选地，信息处理装置10还包括：

数据集模块16，根据VOCdevkit和/或VOC2012数据集格式，构造所述数据集。

可选地，在目标检测后，数据集模块16还用于：

将所述若干目标图像内容归类；

将归类后的所述目标图像内容添加到所述数据集。

可选地，信息处理装置10还包括：训练模块17，在将归类后的所述目标图像内容添加到所述数据集后，基于所述数据集，训练所述MobileNet-SSD。

可选地，信息处理装置10还包括：

展示模块18，将所述数字化信息展示在数字化界面中。

可选地，信息处理装置10还包括：

接口模块19，通过所述数字化界面提供若干处理接口，以通过所述处理接口对所述数字化信息进行所述处理接口对应的处理操作。

可选地，将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息，包括：

可选地，信息处理装置10还包括：分割模块20；

分割模块20用于：

判断所述字符区域对象与所述图形区域对象是否存在交叉；

若是，则确定所述字符区域对象与所述图形区域对象发生交叉的交叉区域；

分割所述交叉区域，其中分割所述交叉区域的分割线的斜率应满足：所述斜率使得存在交叉的所述字符区域对象和所述图形区域对象之中任意一个距离分割线最近的点到分割线的直线距离最远；

根据分割后的所述交叉区域，调整存在交叉的所述字符区域对象和所述图形区域对象的版面参数。

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待录入信息对应的电子图像；

将所述电子图像分类为预设的图像类型；

本说明书实施例还提供一种用于信息处理的非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取待录入信息对应的电子图像；

将所述电子图像分类为预设的图像类型；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例侧重说明的都是与其他实施例的不同之处。尤其，对于***、装置、设备、非易失性计算机存储介质实施例而言，由于其与方法是对应的，描述比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的***、装置、设备、非易失性计算机存储介质与方法是对应的，它们也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应的***、装置、设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种信息处理方法，包括：

获取待录入信息对应的电子图像；

将所述电子图像分类为预设的图像类型；

根据所述图像类型对分类后的所述电子图像进行目标检测，以将所述电子图像中所包含的若干目标图像内容识别为所述目标图像内容在计算机***中对应的信息元素；所述目标图像内容是所述电子图像中与所述待录入信息相关联的图像内容；

将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息；其中包括：生成所述信息元素中的字符元素对应的字符区域对象和生成所述信息元素中的图形元素对应的图形区域对象；若所述字符区域对象与所述图形区域对象存在交叉，则分割所述字符区域对象与所述图形区域对象发生交叉的交叉区域，其中分割所述交叉区域的分割线的斜率应满足：所述斜率使得存在交叉的所述字符区域对象和所述图形区域对象之中任意一个距离分割线最近的点到分割线的直线距离最远；根据分割后的所述交叉区域，调整存在交叉的所述字符区域对象和所述图形区域对象的版面参数。

2.如权利要求1所述的方法，当所述图像类型为包含有字符的图像类型时，根据所述图像类型对分类后的所述电子图像进行目标检测，包括：

3.如权利要求2所述的方法，所述方法还包括：通过迁移学习补充所述字符特征集中的样本数据。

4.如权利要求1所述的方法，根据所述图像类型对分类后的所述电子图像进行目标检测，包括：

5.如权利要求4所述的方法，所述方法还包括：

根据VOCdevkit和/或VOC2012数据集格式，构造所述数据集。

6.如权利要求4所述的方法，在目标检测后，所述方法还包括：

将所述若干目标图像内容归类；

将归类后的所述目标图像内容添加到所述数据集。

7.如权利要求6所述的方法，在将归类后的所述目标图像内容添加到所述数据集后，所述方法还包括：基于所述数据集，训练所述MobileNet-SSD。

8.如权利要求1所述的方法，所述方法还包括：将所述数字化信息展示在数字化界面中。

9.如权利要求8所述的方法，所述方法还包括：通过所述数字化界面提供若干处理接口，以通过所述处理接口对所述数字化信息进行所述处理接口对应的处理操作。

10.如权利要求1所述的方法，将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息，包括：

11.一种信息处理装置，包括：

获取模块，获取待录入信息对应的电子图像；

分类模块，将所述电子图像分类为预设的图像类型；

检测模块，根据所述图像类型对分类后的所述电子图像进行目标检测，以将所述电子图像中所包含的若干目标图像内容识别为所述目标图像内容在计算机***中对应的信息元素；所述目标图像内容是所述电子图像中与所述待录入信息相关联的图像内容；

排版模块，将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息；其中包括：生成所述信息元素中的字符元素对应的字符区域对象和生成所述信息元素中的图形元素对应的图形区域对象；若所述字符区域对象与所述图形区域对象存在交叉，则分割所述字符区域对象与所述图形区域对象发生交叉的交叉区域，其中分割所述交叉区域的分割线的斜率应满足：所述斜率使得存在交叉的所述字符区域对象和所述图形区域对象之中任意一个距离分割线最近的点到分割线的直线距离最远；根据分割后的所述交叉区域，调整存在交叉的所述字符区域对象和所述图形区域对象的版面参数。

12.如权利要求11所述的装置，当所述图像类型为包含有字符的图像类型时，根据所述图像类型对分类后的所述电子图像进行目标检测，包括：

13.如权利要求11所述的装置，根据所述图像类型对分类后的所述电子图像进行目标检测，包括：

14.如权利要求13所述的装置，所述装置还包括：

数据集模块，根据VOCdevkit和/或VOC2012数据集格式，构造所述数据集。

15.如权利要求11所述的装置，所述装置还包括：

展示模块，将所述数字化信息展示在数字化界面中。

16.如权利要求15所述的装置，所述装置还包括：

接口模块，通过所述数字化界面提供若干处理接口，以通过所述处理接口对所述数字化信息进行所述处理接口对应的处理操作。

17.如权利要求11所述的装置，将所述信息元素按预设的排版规则，排版生成所述待录入信息对应的数字化信息，包括：

18.一种用于信息处理的电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待录入信息对应的电子图像；

将所述电子图像分类为预设的图像类型；