CN109492657A

CN109492657A - 手写样本数字化方法、装置、计算机设备及存储介质

Info

Publication number: CN109492657A
Application number: CN201811085666.6A
Authority: CN
Inventors: 金晨; 刘克亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-03-19

Abstract

本发明公开了一种手写样本数字化方法、装置、计算机设备及存储介质。所述方法包括：获取手写样本数据集中的手写样本；根据样本图片中每个像素点的像素值，生成样本图片对应的图片像素矩阵；按照预设的组合方式，对图片像素矩阵和标注信息进行组合，得到手写样本对应的元素信息；对元素信息进行序列化处理，得到元素信息对应的二进制序列；将二进制序列写入预设的样本数据文件中；将样本数据文件保存到预设的样本数据库中。本发明的技术方案实现了对手写样本数据进行统一的二进制序列化，从而能够直接使用二进制的样本数据对手写文本识别模型进行训练和调优，降低计算量，减少资源消耗，提高计算效率，进而提高模型训练的效率。

Description

手写样本数字化方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种手写样本数字化方法、装置、计算机设备及存储介质。

背景技术

在对手写文本识别的研究中，需要准备大量的手写样本以支撑手写文本识别模型的模型训练。

但是，目前的手写样本往往以人工收集为主，由于手写样本的种类繁多，造成人工收集到的手写样本数据格式各异，若直接使用人工收集到的手写样本数据集进行手写文本识别模型的模型训练，会造成模型计算的数据量庞大，资源消耗多，降低模型训练的效率。

发明内容

本发明实施例提供一种手写样本数字化方法、装置、计算机设备及存储介质，以解决目前手写样本数据格式不统一导致手写文本识别模型的计算量大训练效率低的问题。

一种手写样本数字化方法，包括：

获取手写样本数据集中的手写样本，其中，所述手写样本包括样本图片和所述样本图片的标注信息；

根据所述样本图片中每个像素点的像素值，生成所述样本图片对应的图片像素矩阵；

按照预设的组合方式，对所述图片像素矩阵和所述标注信息进行组合，得到所述手写样本对应的元素信息；

对所述元素信息进行序列化处理，得到所述元素信息对应的二进制序列；

将所述二进制序列写入预设的样本数据文件中；

将所述样本数据文件保存到预设的样本数据库中。

一种手写样本数字化装置，包括：

样本获取模块，用于获取手写样本数据集中的手写样本，其中，所述手写样本包括样本图片和所述样本图片的标注信息；

矩阵生成模块，用于根据所述样本图片中每个像素点的像素值，生成所述样本图片对应的图片像素矩阵；

信息组合模块，用于按照预设的组合方式，对所述图片像素矩阵和所述标注信息进行组合，得到所述手写样本对应的元素信息；

序列化模块，用于对所述元素信息进行序列化处理，得到所述元素信息对应的二进制序列；

数据写入模块，用于将所述二进制序列写入预设的样本数据文件中；

文件保存模块，用于将所述样本数据文件保存到预设的样本数据库中。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述手写样本数字化方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述手写样本数字化方法的步骤。

上述手写样本数字化方法、装置、计算机设备及存储介质中，通过对手写样本数据集中的样本图片的图片像素矩阵和样本图片的标注信息进行组合，并对得到的元素信息进行序列化处理，得到元素信息对应的二进制序列，并将二进制序列写入预设的样本数据文件中，实现了将手写样本数据集中的每个手写样本数据转化为统一的序列化的二进制文件，从而能够直接使用该二进制文件对手写文本识别模型进行训练和调优，降低计算量，减少资源消耗，提高计算效率，进而提高模型训练的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中手写样本数字化方法的一应用环境示意图；

图2是本发明一实施例中手写样本数字化方法的一流程图；

图3是本发明一实施例中手写样本数字化方法中一具体样本图片的示意图；

图4是本发明一实施例中手写样本数字化方法中步骤S4的一流程图；

图5是本发明一实施例中手写样本数字化方法中步骤S43的一流程图；

图6是本发明一实施例中手写样本数字化方法中步骤S4的另一流程图；

图7是本发明一实施例中手写样本数字化方法中步骤S6的一流程图；

图8是本发明一实施例中手写样本数字化方法中对手写样本的恢复处理的一流程图；

图9是本发明一实施例中手写样本数字化方法中步骤S74的一流程图；

图10是本发明一实施例中手写样本数字化装置的一示意图；

图11是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的手写样本数字化方法，可应用在如图1所示的应用环境中，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，该网络可以是有线网络或者无线网络，客户端具体包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。客户端将采集到的手写样本数据集发送给服务端，服务端对接收到的手写样本数据集中的手写样本进行数字化处理。

在一实施例中，如图2所示，提供一种手写样本数字化方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S1：获取手写样本数据集中的手写样本，其中，手写样本包括样本图片和该样本图片的标注信息。

具体地，手写样本数据集中包含预先收集到的不同类型的手写样本，每个手写样本包括样本图片和该样本图片的标注信息。

样本图片的标注信息包括预设的标注属性，并且这些标注属性按照预设的格式进行组合。其中，预设的标注属性包括但不限于：样本图片的图片名称、样本图片的图片尺寸、样本图片中的文本内容和该文本内容在样本图片中的相对位置信息。

其中，相对位置信息可以表示为：(文本内容左上角像素点在样本图片中的坐标位置)，文本内容所在的区域图像的尺寸。

例如，图3所示的样本图片的标注信息可以为：

{11_bolepianti_C000008_1202_10.png|280*70|“呢绒，150万套服装”|(3，3)，270*64}

其中，11_bolepianti_C000008_1202_10.png为样本图片的图片名称，该图片名称包含了样本图片的相对存储路径；280*70为样本图片的图片尺寸，即长度为280个像素点，宽度为70个像素点；“呢绒，150万套服装”为样本图片中的文本内容；(3，3)表示文本内容左上角像素点A在样本图片中的坐标位置，即以样本图片左上角为坐标原点，向右3个像素点并且向下3个像素点的位置，270*64为文本内容所在的区域图像B的尺寸，即文本内容占用的像素点区域的长度为270个像素点，宽度为64个像素点。

S2：根据样本图片中每个像素点的像素值，生成该样本图片对应的图片像素矩阵。

具体地，根据标注信息中的样本图片的图片尺寸，获取样本图片中每个像素点的像素值，将每个像素点的像素值按照样本图片的图片尺寸构成图片像素矩阵。

S3：按照预设的组合方式，对图片像素矩阵和样本图片的标注信息进行组合，得到手写样本对应的元素信息。

具体地，将样本图片的图片像素矩阵与标注信息进行组合，预设的组合方式可以是元组方式，或者JSON(JavaScript Object Notation，JS对象简谱)方式，还可以是其他组合方式，具体可以根据实际应用的需要进行设置，此处不做限制。

例如，若图片像素矩阵为img1，标注信息为lable1，若组合方式为元组方式，则得到的手写样本对应的元素信息表示为(img1，lable1)，若组合方式为JSON方式，则得到的手写样本对应的元素信息表示为{“img”：img1，“label”：label1}。

继续以图3所示的样本图片为例，当元素信息以元组方式表示时，其中的lable1具体可以表示为：“11_bolepianti_C000008_1202_10.png|280*70|“呢绒，150万套服装”|(3，3)，270*64”；当元素信息以JSON方式表示时，其中的lable1具体可以表示为如下多个键值对：

S4：对元素信息进行序列化处理，得到该元素信息对应的二进制序列。

具体地，对步骤S3得到的元素信息进行序列化处理，将元素信息转化为二进制数字串，得到元素信息对应的二进制序列。序列化处理包括对图片像素矩阵的序列化和标注信息的序列化。

序列化(Serialization)是将对象的状态信息转换为可以存储或传输的形式的过程，通过序列化能够使得手写样本易于存储和传输。

S5：将二进制序列写入预设的样本数据文件中。

具体地，步骤S4序列化处理得到的二进制序列写入预设的样本数据文件中。在预设的样本数据文件中，每一行数据对应一个手写样本的二进制序列。样本数据文件的后缀可自定义，例如后缀为.dt。

可以理解的，样本数据文件可以为一个或者多个。

S6：将样本数据文件保存到预设的样本数据库中。

具体地，样本数据库用于存储手写样本，将步骤S5得到的写入了二进制序列的样本数据文件保存到样本数据库中。

需要说明的是，样本数文件为二进制文件，易于存储和传输，并且可以直接作为训练样本或者测试样本输入手写文本识别模型，手写文本识别模型按照该样本数据文件中数据存储结构可直接读取样本数据进行训练和调优，相对于使用原始的手写样本数据集进行模型训练的庞大计算量，使用序列化的样本数据进行模型训练，能够有效降低模型训练过程中的计算量，提高计算效率，减少资源消耗。

本实施例中，通过对手写样本数据集中的样本图片的图片像素矩阵和样本图片的标注信息进行组合，并对得到的元素信息进行序列化处理，得到元素信息对应的二进制序列，并将二进制序列写入预设的样本数据文件中，实现了将手写样本数据集中的每个手写样本数据转化为统一的序列化的二进制文件，从而易于存储和传输，并且能够直接使用该二进制文件对手写文本识别模型进行训练和调优，降低计算量，减少资源消耗，提高计算效率，进而提高模型训练的效率。

在一实施例中，样本图片的标注信息包括至少一个标注属性。标注属性用于标识样本图片的特征和样本图片中手写文本的特征。

具体地，标注属性可以是样本图片的图片名称，样本图片的图片尺寸、样本图片中的文本内容，以及文本内容在样本图片中的相对位置信息中的至少一个。

进一步地，如图4所示，在步骤S4中，对元素信息进行序列化处理，得到该元素信息对应的二进制序，具体包括如下步骤：

S41：按照预设的顺序提取图片像素矩阵中的像素值，得到像素值序列。

具体地，由于图片像素矩阵是由样本图片中每个像素点的像素值组成的矩阵，因此，在对图片像素矩阵进行序列化时，直接将矩阵中的像素值按照预设的顺序转换为像素值序列。

其中，预设的顺序可以是从左到右从上到下的顺序，也可以是其他顺序，具体可以根据需要进行设置，此处不做限制。

例如，假设图片像素矩阵为预设的顺序为从左到右从上到下的顺序，则对该图片像素矩阵序列化处理后得到的得到像素值序列为：122，130，98，210，18，70，40，55，255。

S42：按照标注信息中预设的标注格式，对标注信息进行解析，得到标注信息中的每个标注属性。

具体地，预设的标注格式为标注信息的格式，定义了标注信息中标注属性的排列格式，按照预设的标注格式，对标注信息进行解析，得到每个标注属性。

进一步地，若元素信息以元组方式表示，则先获取元组中的标注信息，再根据标注信息预设的标注格式，对标注信息进行解析，得到每个标注属性对应的字符串。若元素信息以JSON方式表示，则可以直接利用第三方提供的解析工具，如Fastjson，解析出键值对，得到每个标注属性对应的字符串。

继续以图3所示的样本图片为例，解析得到的每个标注属性分别为：11_bolepianti_C000008_1202_10.png、280*70、“呢绒，150万套服装”和(3，3)，270*64。

S43：分别对每个标注属性进行序列化，得到每个标注属性的属性序列化结果。

具体地，对步骤S42解析出的每个标注属性进行序列化处理，将每个标注属性的内容转化为二进制数字串，得到每个标注属性的属性序列化结果。

S44：按照预设的连接方式，将像素值序列和每个标注属性的属性序列化结果连接成元素信息的序列化结果，并将元素信息的序列化结果转换成二进制序列。

预设的连接方式可以是使用特定的符合或者字符连接两个不同的序列化结果。

具体地，按照预设的连接方式，将步骤S41得到的像素值序列和步骤S43得到的每个标注属性的属性序列化结果连接成元素信息的序列化结果，并将元素信息的序列化结果转换成二进制序列。

继续以图3所示的样本图片为例，若预设的连接方式为使用“；”连接两个不同的序列化结果，则该元素信息的序列化结果为：122，130，98，210，18，70，40，55，255；k1；k2；k3；k4。其中，k1、k2、k3和k4分别表示每个标注属性的属性序列化结果。

本实施例中，通过分别对图片像素举证和标注信息进行序列化，按照预设的顺序提取图片像素矩阵中的像素值，得到像素值序列，同时，按照标注信息中预设的标注格式，对标注信息进行解析，得到标注信息中的每个标注属性，并分别对每个标注属性进行序列化，得到每个标注属性的属性序列化结果，然后按照预设的连接方式，将像素值序列和每个标注属性的属性序列化结果连接成元素信息的序列化结果，并将该元素信息的序列化结果转换成二进制序列，实现了对手写样本的元素信息进行序列化处理，将元素信息转化为统一的序列化的二进制序列，从而便于对手写样本的存储和传输，并且能够直接使用二进制序列的手写样本进行手写文本识别模型的训练和调优，降低计算量，减少资源消耗，提高计算效率，进而提高模型训练的效率。

在一实施例中，标注属性包括样本图片的图片名称、样本图片的图片尺寸、样本图片中的文本内容和该文本内容在样本图片中的相对位置信息，标注属性的属性序列化结果包括图片名称的属性序列化结果、图片尺寸的属性序列化结果、文本内容的属性序列化结果和相对位置信息的属性序列化结果。

进一步地，如图5所示，在步骤S43中，分别对每个标注属性进行序列化，得到每个标注属性的属性序列化结果，具体包括如下步骤：

S431：从预设的随机数池中选取一个未被使用的随机数作为图片名称的属性序列化结果，并将该图片名称和该未被使用的随机数对应保存到预设的映射表中。

预设的随机数池中包含足够数量的不重复的随机数，每个随机数对应一个使用标识，该使用标识用于标识该随机数是否已经被使用，当从随机数池中选取一个使用标识为“未使用”的随机数之后，该随机数的使用标识被修改为“已使用”，将不会再次被使用，直到该随机数对应的样本图片被删除，该随机数的使用标识才被重新修改为“未使用”。

具体地，从随机数池中选取一个使用标识为“未使用”的随机数作为图片名称的属性序列化结果，并将该图片名称和该未被使用的随机数对应保存到预设的映射表中。

继续以图3所示的样本图片为例，从随机数池中选取4809803782这一使用标识为“未使用”的随机数作为图片名称“11_bolepianti_C000008_1202_10.png”的属性序列化结果，并将11_bolepianti_C000008_1202_10.png和4809803782对应保存到映射表中。

其中，预设的映射表用于记录每个样本图片的图片名称及其对应的随机数，以便在对样本图片的图片名称进行反序列化时使用。

S432：按照图片尺寸预设的尺寸格式，对图片尺寸进行解析以得到尺寸数据，并将得到的尺寸数据作为图片尺寸的属性序列化结果。

具体地，若图片尺寸预设的尺寸格式为样本图片的图片尺寸采用样本图片的长和宽分别包含的像素点个数的方式定义，则对图片尺寸进行解析，得到的尺寸数据为样本图片的长和宽，将该尺寸数据作为图片尺寸的属性序列化结果。

继续以图3所示的样本图片为例，图片尺寸“280*70”对应的属性序列化结果为：280，70。

S433：根据预设的字符编码字典，获取文本内容中每个字符对应的编码，将该编码作为文本内容的属性序列化结果。

在预设的字符编码字典中，按照预定的编码方式设置了汉字、标点符号、字母，以及数字等字符对应的编码，并且该编码具有全局唯一性。

具体地，根据预设的字符编码字典，获取文本内容中每个字符对应的编码，并将得到的编码作为文本内容的属性序列化结果。

继续以图3所示的样本图片为例，文本内容“呢绒，150万套服装”对应的属性序列化结果为：b1，b2，…，b10。其中，b1为字符“呢”对应的编码，b2为字符“绒”对应的编码，b3为字符“，”对应的编码，b4为字符“1”对应的编码，以此类推，b10为字符“装”对应的编码。

需要说明的是，预定的编码方式可以是Unicode(万国码)编码，也可以是one-hot编码，还可以是其他编码方式，具体可根据实际应用的需要进行选择，此处不做设置。

S434：按照相对位置信息中预设的位置表示方式，对相对位置信息进行解析，并将得到的位置数据作为相对位置信息的属性序列化结果。

具体地，若相对位置信息中预设的位置表示方式为：(文本内容左上角像素点在样本图片中的坐标位置)，文本内容所在的区域图像的尺寸，其中，坐标位置和尺寸均为数字，则直接按照该位置表示方式对相对位置信息进行解析，将得到的坐标和尺寸作为相对位置信息的序列化结果。

继续以图3所示的样本图片为例，相对位置信息“(3，3)，270*64”对应的属性序列化结果为：3，3，270，64。

需要说明的是，步骤S431、步骤432、步骤S433和步骤S434之间没有必然的先后执行顺序，其可以是并列执行的关系，此处不做限制。

本实施例中，当标注属性包括样本图片的图片名称、样本图片的图片尺寸、样本图片中的文本内容和该文本内容在样本图片中的相对位置信息时，标注属性的属性序列化结果包括图片名称的属性序列化结果、图片尺寸的属性序列化结果、文本内容的属性序列化结果和相对位置信息的属性序列化结果，分别按照每个标注属性的表示方式对每个标注属性进行解析，得到每个标注属性的属性序列化结果，从而根据每个标注属性的不同特点，针对性的进行标注属性的序列化，确保序列化结果的准确性。

在一实施例中，如图6所示，在步骤S4中，对元素信息进行序列化处理，得到该元素信息对应的二进制序，具体还包括如下步骤：

S401：计算元素信息对应的字符串的哈希值。

具体地，按照公式(1)计算每个元素信息对应的字符串中每个字符的哈希值：

hash[i]＝(hash[i-1]*p+f(s[i]))％m 公式(1)

其中，i为元素信息对应的字符串的下标，i大于等于1，并且小于等于I，I为字符串的长度，s[i]为元素信息对应的字符串中的第i个字符，f(x)函数用于定义字符x与唯一标识该字符的数字之间的映射关系，f(s[i])为字符s[i]映射的预设数字，hash[i]为第i个字符的哈希值，并且hash[0]设置为1，p和m为预设的参数。

将上述公式计算得到的第I个字符的哈希值hash[I]作为元素信息对应的字符串的哈希值H，即H＝hash[I]。

需要说明的是，预设的参数p和m通常可以分别设置为13和101，即p＝13，m＝101，但并不限于此，p和m具体的取值可以根据实际应用的需要进行设置，此处不做限制。

S402：对哈希值和预设的序列化服务器的数量之间进行取模运算，并将得到的运算结果作为目标序列号。

具体地，按照公式(2)计算目标序列号：

M＝H mod N 公式(2)

其中，N为预设的序列化服务器的数量，H为元素信息对应的字符串的哈希值，M为目标序列号。

序列化服务器用于对元素信息进行序列化处理，当手写样本的数据量庞大时，在进行元素信息的序列化处理时，尤其是对标注信息进行序列化处理时需要花费较多的时间，为了提高序列化处理的执行效率，可以使用多个序列化服务器进行并行处理。

S403：按照序列号与序列化服务器之间预设的对应关系，确定目标序列号对应的目标序列化服务器。

预设的对应关系为预选设置的序列号与序列化服务器之间的映射关系，例如，假设序列化服务器包括A、B、C和D共4个服务器，即N＝4，则序列号设置为0，1，2，3，分别对应序列化服务器A、序列化服务器B、序列化服务器C和序列化服务器D。

具体地，根据步骤S402得到的目标序列号，在对应关系中查询与该目标序列号相同的序列号对应的序列化服务器，并将该序列化服务器确定为目标序列化服务器。

S404：将元素信息发送到目标序列化服务器进行序列化处理。

具体地，根据步骤S403中确定的目标序列化服务器，将元素信息发送到该目标序列化服务器中进行序列化处理。

序列化服务器对元素信息进行序列化处理的过程可以采用与步骤S41至步骤S43，以及步骤S431至步骤S434中相同的方法，为避免重复，此处不再赘述。

S405：接收目标序列化服务器返回的元素信息对应的二进制序列。

具体地，目标序列化服务器在完成对接收到的元素信息的序列化处理后，将元素信息对应的二进制序列返回给服务端。

本实施例中，通过公式(1)计算元素信息对应的字符串的哈希值，并使用公式(2)对该哈希值和序列化服务器的数量之间进行取模运算，得到目标序列号，然后按照序列号与序列化服务器之间预设的对应关系，确定目标序列号对应的目标序列化服务器，进而将元素信息发送到目标序列化服务器进行序列化处理，实现了根据哈希值将不同的元素信息均匀分配到不同的序列化服务器进行序列化处理，使得多个序列化服务器并行完成元素信息的序列化过程，从而提高序列化的执行效率。

在一实施例中，如图7所示，在步骤S6中，将样本数据文件保存到预设的样本数据库中，具体包括如下步骤：

S61：按照预设的加密方式，对样本数据文件进行加密处理，得到加密样本文件。

具体地，在得到样本数据文件后，进一步对样本数据文件进行加密处理。预设的加密方式可以根据需要选择现有技术常用的加密算法，如DES(Data Encryption Standard，数据加密标准)、AES(Advanced Encryption Standard，高级加密标注)、RSA非对称加密算法、Base64加密算法等。

进一步地，在生成加密密钥时，可以根据手写样本的类型，分类生成对应的加密密钥。由于手写样本数据集中可以包含不同类型的手写样本，手写样本的类型可以标识手写样本所属的应用场景，在生成样本数据文件时按照类型分类生成每种类型对应的样本数据文件，为手写样本的每种类型预先设置对应的随机数，并使用该随机数按照预设的生成方式生成该类型对应的加密密钥，即每种类型的样本数据文件使用该类型的加密密钥进行加密。

S62：将加密样本文件保存到预设的样本数据库中。

具体地，将步骤S61得到的加密样本文件保存到预设的样本数据库中。

进一步地，当样本数据文件按照类型分类生成时，将加密样本文件和类型对应保存到样本数据库中。

在本实施例中，通过对样本数据文件进行加密处理，提高样本数据文件的安全性，并且进一步根据手写样本的类型分类生成加密密钥，使得不同类型的手写样本采用不同的加密密钥进行加密，使得加密后的样本数据文件的安全性更高，有效提高手写样本的数据安全性。

在一实施例中，如图8所示，在步骤S62之后，该手写样本数字化方法还包括对手写样本的恢复处理，具体包括如下步骤：

S71：若接收到用户对手写样本的获取请求，则根据该获取请求中包含的用户身份信息，确定用户的获取权限。

具体地，若用户需要查看手写样本的样本图片和标注信息，则可以向服务端发送对手写样本的获取请求，该获取请求中包含用户身份信息，用户身份信息用于唯一标识用户的身份。

服务端接收到获取请求，从该获取请求中提取用户身份信息，并根据服务端保存的合法用户的合法身份信息，判断该用户是否合法，若该用户的用户身份信息为合法身份信息，则确认该用户合法，并确定该用户的获取权限为允许获取，若该用户的用户身份信息不为合法身份信息，则确认该用户非法，并确定该用户的获取权限为不允许获取。

进一步地，若用户的获取权限为不允许获取，则服务端向用户返回获取失败的提示信息。

若用户的获取权限为允许获取，则继续执行步骤S72。

S72：若用户的获取权限为允许获取，则从样本数据库中获取加密样本文件，并按照预设的解密方式，对该加密样本文件进行解密，得到解密文件。

具体地，若用户的获取权限为允许获取，则从样本数据库中读取加密样本文件。

对加密样本文件进行解密时，预设的解密方式具体为与步骤S61中预设的加密方式相对应的解密方式。例如，若在对样本数据文件进行加密时，根据手写样本的类型，分类生成对应的加密密钥，并且在样本数据库中加密样本文件和类型对应保存，则在对加密样本文件解密时，根据加密样本文件对应的类型，获取该类型对应的随机数，并使用该随机数按照预设的生成方式生成与加密密钥对应的解密密钥，然后使用该解密密钥对加密样本文件进行解密，得到解密文件。

S73：从解密文件中读取元素信息对应的二进制序列。

具体地，从解密文件中读取元素信息对应的二进制序列。例如，若解密文件中的每一行为一个元素信息，则从解密文件中读取每一行数据得到每一个元素信息的二进制序列。

S74：对二进制序列进行反序列化处理，得到样本图片的图片像素矩阵和样本图片的标注信息。

具体地，对步骤S73得到的每一个二进制序列进行反序列化处理，反序列化处理具体可以是与步骤S4中的序列化处理相反的处理过程，通过反序列化处理，反推得到图片像素矩阵和标注信息，进而根据图片像素矩阵能够恢复出样本图像，即可得到还原后的手写样本。

本实施例中，通过对用户的获取请求进行身份校验，确定用户的获取权限，并且在获取权限为允许获取时，对加密样本文件进行解密，得到解密文件，进而对解密文件中的二进制序列进行反序列化处理，得到样本图片的图片像素矩阵和标注信息，进而根据图片像素矩阵能够恢复出样本图像，即可得到还原后的手写样本，实现了通过反序列化准确恢复手写样本，并且通过对用户的身份校验，提高数据的安全性。

在一实施例中，如图9所示，在步骤S74中，对二进制序列进行反序列化，得到样本图片的图片像素矩阵和样本图片的标注信息，具体包括如下步骤：

S741：根据预设的连接方式，从二进制序列中解析出像素值序列和每个标注属性对应的二进制数据段。

具体地，继续以图3所示的样本图片为例，若预设的连接方式为使用“；”连接两个不同的序列化结果，并且二进制序列为：p0；p1；p2；p3；p4，则解析出p0为像素值序列对应的二进制数据段，p1、p2、p3和p4分别为每个标注属性对应的二进制数据段。

S742：根据预设的映射表、预设的尺寸格式、预设的字符编码字典和预设的位置标识方式，对每个标注属性对应的二进制数据段进行解析，分别得到图片名称、图片尺寸、文本内容和相对位置信息。

具体地，根据预设的映射表，查询图片名称对应的二进制数据段的数值在映射表中对应的图片名称；根据预设的尺寸格式，解析图片尺寸对应的二进制数据段表示的图片尺寸信息，例如，长和宽；根据预设的字符编码字典，查询文本内容对应的二进制数据段中每个字符的二进制编码在字符编码字典中对应的字符；根据位置标识方式，解析相对位置信息对应的二进制数据段表示的相对位置，例如，文本内容左上角像素点在样本图片中的坐标位置和文本内容所在的区域图像的尺寸。

S743：按照预设的标注格式，将图片名称、图片尺寸、文本内容和相对位置信息组合成样本图片的标注信息。

具体地，将步骤S742解析出的图片名称、图片尺寸、文本内容和相对位置信息，按照预设的标注格式组合成标注信息。

例如，继续以图3所示的样本图片为例，若预设的标注格式为用“|”间隔相邻的标注属性，则组合得到的标注信息为：“11_bolepianti_C000008_1202_10.png|280*70|“呢绒，150万套服装”|(3，3)，270*64”。

S744：根据像素值序列和图片尺寸，还原样本图片的图片像素矩阵。

具体地，根据步骤S742解析出的样本图片的图片尺寸，确定图片像素矩阵的长和宽，再根据长和宽确定像素值序列的切分位置，按照该切分位置切分得到图片像素矩阵。

例如，像素值序列为“a1，a2，a3，a4，a5，a6”，图片尺寸为3*2，即长为3个像素点，宽为2个像素点，则确定像素值序列的切分位置为每3个连续像素值之间进行切分，即得到的图片像素矩阵为

本实施例中，首先根据预设的连接方式，从二进制序列中解析出像素值序列和每个标注属性对应的二进制数据段，之后，对每个标注属性对应的二进制数据段进行解析，得到图片名称、图片尺寸、文本内容和相对位置信息，并将图片名称、图片尺寸、文本内容和相对位置信息组合成标注信息，进而再根据像素值序列和图片尺寸，还原出图片像素矩阵，实现了对二进制序列进行反序列化，得到准确的图片像素矩阵和标注信息，从而能够准确还原出用户可以查看的手写样本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种手写样本数字化装置，该手写样本数字化装置与上述实施例中手写样本数字化方法一一对应。如图10所示，该手写样本数字化装置包括样本获取模块101、矩阵生成模块102、信息组合模块103、序列化模块104、数据写入模块105和文件保存模块106。各功能模块详细说明如下：

样本获取模块101，用于获取手写样本数据集中的手写样本，其中，手写样本包括样本图片和样本图片的标注信息；

矩阵生成模块102，用于根据样本图片中每个像素点的像素值，生成样本图片对应的图片像素矩阵；

信息组合模块103，用于按照预设的组合方式，对图片像素矩阵和标注信息进行组合，得到手写样本对应的元素信息；

序列化模块104，用于对元素信息进行序列化处理，得到元素信息对应的二进制序列；

数据写入模块105，用于将二进制序列写入预设的样本数据文件中；

文件保存模块106，用于将样本数据文件保存到预设的样本数据库中。

进一步地，标注信息包括至少一个标注属性，序列化模块104包括：

像素值提取子模块，用于按照预设的顺序提取图片像素矩阵中的像素值，得到像素值序列；

标注解析子模块，用于按照标注信息中预设的标注格式，对标注信息进行解析，得到标注信息中的每个标注属性；

属性序列化子模块，用于分别对每个标注属性进行序列化，得到每个标注属性的属性序列化结果；

二进制转换子模块，用于按照预设的连接方式，将像素值序列和每个标注属性的属性序列化结果连接成元素信息的序列化结果，并将元素信息的序列化结果转换成二进制序列。

进一步地，标注属性包括样本图片的图片名称、样本图片的图片尺寸、样本图片中的文本内容和文本内容在样本图片中的相对位置信息，标注属性的属性序列化结果包括图片名称的属性序列化结果、图片尺寸的属性序列化结果、文本内容的属性序列化结果和相对位置信息的属性序列化结果，属性序列化子模块包括：

名称序列化单元，用于从预设的随机数池中选取一个未被使用的随机数作为图片名称的属性序列化结果，并将图片名称和该未被使用的随机数对应保存到预设的映射表中；

尺寸序列化单元，用于按照图片尺寸预设的尺寸格式，对图片尺寸进行解析以得到尺寸数据，并将得到的尺寸数据作为图片尺寸的属性序列化结果；

内容序列化单元，用于根据预设的字符编码字典，获取文本内容中每个字符对应的编码，将该编码作为文本内容的属性序列化结果；

位置序列化单元，用于按照相对位置信息中预设的位置表示方式，对相对位置信息进行解析，并将得到的位置数据作为相对位置信息的属性序列化结果。

进一步地，序列化模块104还包括：

哈希值计算子模块，用于计算元素信息对应的字符串的哈希值；

序列号计算子模块，用于对哈希值和预设的序列化服务器的数量之间进行取模运算，并将得到的运算结果作为目标序列号；

服务器确定子模块，用于按照序列号与序列化服务器之间预设的对应关系，确定目标序列号对应的目标序列化服务器；

信息发送子模块，用于将元素信息发送到目标序列化服务器进行序列化处理；

序列接收子模块，用于接收目标序列化服务器返回的元素信息对应的二进制序列。

进一步地，文件保存模块106包括：

加密子模块，用于按照预设的加密方式，对样本数据文件进行加密处理，得到加密样本文件；

保存子模块，用于将加密样本文件保存到预设的样本数据库中。

进一步地，该手写样本数字化装置还包括：

请求接收模块，用于若接收到用户对手写样本的获取请求，则根据该获取请求中包含的用户身份信息，确定用户的获取权限；

文件解密模块，用于若用户的获取权限为允许获取，则从样本数据库中获取加密样本文件，并按照预设的解密方式，对该加密样本文件进行解密，得到解密文件；

序列读取模块，用于从解密文件中读取元素信息对应的二进制序列；

反序列化模块，用于对二进制序列进行反序列化处理，得到样本图片的图片像素矩阵和样本图片的标注信息。

进一步地，反序列化模块包括：

第一解析子模块，用于根据预设的连接方式，从二进制序列中解析出像素值序列和每个标注属性对应的二进制数据段；

第二解析子模块，用于根据预设的映射表、预设的尺寸格式、预设的字符编码字典和预设的位置标识方式，对每个标注属性对应的二进制数据段进行解析，分别得到图片名称、图片尺寸、文本内容和相对位置信息；

组合子模块，用于按照预设的标注格式，将图片名称、图片尺寸、文本内容和相对位置信息组合成样本图片的标注信息；

还原子模块，用于根据像素值序列和图片尺寸，还原样本图片的图片像素矩阵。

关于手写样本数字化装置的具体限定可以参见上文中对于手写样本数字化方法的限定，在此不再赘述。上述手写样本数字化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据文件和加密样本文件。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手写样本数字化方法。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例手写样本数字化方法的步骤，例如图2所示的步骤S1至步骤S6。或者，处理器执行计算机程序时实现上述实施例中手写样本数字化装置的各模块/单元的功能，例如图10所示模块101至模块106的功能。为避免重复，此处不再赘述。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中手写样本数字化方法，或者，该计算机程序被处理器执行时实现上述装置实施例中手写样本数字化装置中各模块/单元的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种手写样本数字化方法，其特征在于，所述手写样本数字化方法包括：

将所述二进制序列写入预设的样本数据文件中；

将所述样本数据文件保存到预设的样本数据库中。

2.如权利要求1所述的手写样本数字化方法，其特征在于，所述标注信息包括至少一个标注属性，所述对所述元素信息进行序列化处理，得到所述元素信息对应的二进制序列包括：

按照预设的顺序提取所述图片像素矩阵中的所述像素值，得到像素值序列；

按照所述标注信息中预设的标注格式，对所述标注信息进行解析，得到所述标注信息中的每个所述标注属性；

分别对每个所述标注属性进行序列化，得到每个所述标注属性的属性序列化结果；

按照预设的连接方式，将所述像素值序列和每个所述标注属性的属性序列化结果连接成所述元素信息的序列化结果，并将所述元素信息的序列化结果转换成二进制序列。

3.如权利要求2所述的手写样本数字化方法，其特征在于，所述标注属性包括所述样本图片的图片名称、所述样本图片的图片尺寸、所述样本图片中的文本内容和所述文本内容在所述样本图片中的相对位置信息，所述标注属性的属性序列化结果包括所述图片名称的属性序列化结果、所述图片尺寸的属性序列化结果、所述文本内容的属性序列化结果和所述相对位置信息的属性序列化结果，所述分别对每个所述标注属性进行序列化，得到每个所述标注属性的属性序列化结果包括：

从预设的随机数池中选取一个未被使用的随机数作为所述图片名称的属性序列化结果，并将所述图片名称和所述未被使用的随机数对应保存到预设的映射表中；

按照所述图片尺寸预设的尺寸格式，对所述图片尺寸进行解析以得到尺寸数据，并将得到的尺寸数据作为所述图片尺寸的属性序列化结果；

根据预设的字符编码字典，获取所述文本内容中每个字符对应的编码，将所述编码作为所述文本内容的属性序列化结果；

按照所述相对位置信息中预设的位置表示方式，对所述相对位置信息进行解析，并将得到的位置数据作为所述相对位置信息的属性序列化结果。

4.如权利要求1至3任一项所述的手写样本数字化方法，其特征在于，所述对所述元素信息进行序列化处理，得到所述元素信息对应的二进制序列还包括：

计算所述元素信息对应的字符串的哈希值；

对所述哈希值和预设的序列化服务器的数量之间进行取模运算，并将得到的运算结果作为目标序列号；

按照序列号与所述序列化服务器之间预设的对应关系，确定所述目标序列号对应的目标序列化服务器；

将所述元素信息发送到所述目标序列化服务器进行序列化处理；

接收所述目标序列化服务器返回的所述元素信息对应的二进制序列。

5.如权利要求3所述的手写样本数字化方法，其特征在于，所述将所述样本数据文件保存到预设的样本数据库中包括：

按照预设的加密方式，对所述样本数据文件进行加密处理，得到加密样本文件；

将所述加密样本文件保存到预设的样本数据库中。

6.如权利要求5所述的手写样本数字化方法，其特征在于，所述将所述加密样本文件保存到预设的样本数据库中之后，所述手写样本数字化方法还包括：

若接收到用户对所述手写样本的获取请求，则根据所述获取请求中包含的用户身份信息，确定所述用户的获取权限；

若所述获取权限为允许获取，则从所述样本数据库中获取所述加密样本文件，并按照预设的解密方式，对所述加密样本文件进行解密，得到解密文件；

从所述解密文件中读取所述元素信息对应的二进制序列；

对所述二进制序列进行反序列化处理，得到所述样本图片的图片像素矩阵和所述样本图片的标注信息。

7.如权利要求6所述的手写样本数字化方法，其特征在于，所述对所述二进制序列进行反序列化，得到所述样本图片的图片像素矩阵和所述样本图片的标注信息包括：

根据所述预设的连接方式，从所述二进制序列中解析出所述像素值序列和每个所述标注属性对应的二进制数据段；

根据所述预设的映射表、所述预设的尺寸格式、所述预设的字符编码字典和所述预设的位置标识方式，对每个所述标注属性对应的二进制数据段进行解析，分别得到所述图片名称、所述图片尺寸、所述文本内容和所述相对位置信息；

按照所述预设的标注格式，将所述图片名称、所述图片尺寸、所述文本内容和所述相对位置信息组合成所述样本图片的标注信息；

根据所述像素值序列和所述图片尺寸，还原所述样本图片的图片像素矩阵。

8.一种手写样本数字化装置，其特征在于，所述手写样本生成装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述手写样本数字化方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述手写样本数字化方法的步骤。