CN112434699A

CN112434699A - 手写汉字或偏旁、笔划的自动提取及智能评分***

Info

Publication number: CN112434699A
Application number: CN202011336351.1A
Authority: CN
Inventors: 吕福成; 张月霞; 王凯
Original assignee: Hangzhou Liupin Cultural Creativity Co ltd
Current assignee: Hangzhou Liupin Cultural Creativity Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-02

Abstract

本发明公开手写汉字或偏旁、笔划的自动提取及智能评分***，包括：练字本图像的自动提取模块、单个汉字自动提取模块、汉字识别模块、汉字评分模块。练字本自动提取模块包含对上传的手写汉字照片进行预处理、图像捕获、矫正、报错与版式判断，完善的流程提升了图像提取的准确性和自动化效果；单个汉字提取模块包含针对铅笔字提取的特殊处理方法，可有效的提取铅笔字图像；建立的深度学习识别模型可快速识别手写汉字，包括空格的识别；汉字评分采用结构+内容的综合评分方法，结构是汉字的长宽值，内容通过余弦相似度确定。本发明可自动提取随意上传的手写文字照片并进行评分，适用于初学汉字的低龄学生，对书法爱好者的日常练字也大有帮助。

Description

手写汉字或偏旁、笔划的自动提取及智能评分***

技术领域

本发明涉及手写汉字或偏旁、笔划的自动提取及智能评分***，具体为一种基于普通练字本的手写汉字或偏旁、笔划的自动提取及智能评分***，属人工智能文字图像处理技术领域。

背景技术

汉字书写是中国文化的传统，它具有悠久的历史，在汉字应用水平测试和汉字应用教学等领域，如何有效地评判书写汉字的规范性是一个比较复杂的课题。一方面，***门、老师们和家长们都日益重视书法教育，“写好中国字”是每一个中国人的基本素养，更是中华优秀传统文化的传承；另一方面，在电子产品高度发展的今天，越来越多的中国人难以写出一手漂亮、规范的汉字。与此同时，学生在练***，这是常规方法，并也在一定程度上取得了较为理想的效果，但该方法仍然存在一些问题：1、书写效果都由老师来评价，不同的老师可能有不同的标准，即使同一位老师在不同时间也有可能给出不同评价，主观性较强；2、缺乏定量化、可视化的评价方法，书写者对所写的内容只有感官上的认识，而没有定量化、可视化的评判，长此以往，他们对自己的书写水平难以评估，容易缺乏驱动力去练字，逐渐失去练字兴趣。

现有已公开的涉及汉字书写练习***方面的专利，普遍存在如下缺点：

1、现有专利规避或简化了用户练字本图像和单个汉字的自动提取功能。第一，部分专利图像自动提取功能较弱。若用户上传的练字本图像存在背景不同、拍摄角度各异、存在干扰物和光线强弱等情况，难以实现有效的自动化提取。“一种字帖练习书法的人工智能评分***及方法”(201910427401.8)通过简单的直线检测来捕获练字本图像，并规定拍照的背景为无干扰、与练字本色差明显的纯色；专利“一种字迹评分***与其评分方法”(201510565555.5)在用户拍照界面设定三个顶点，让用户去对准相应的练字本上的固定点，增加了用户的使用难度。第二，部分专利会借助外部设备的定位来替代练字本图像的自动提取。“一种汉字书写质量智能评价方法”(202010433699.6)、“数字化书写练习方法及***”(201710762777.5)、“一种智能写字评分***及方法”(201710032399.5)、“一种写字练习***及方法”(201710404401.7)、“一种书写练习评分方法及书写练习装置”(201610957317.3)等，对用户来说，既增加了设备购买成本，体验度也大打折扣。第三，由于练习本图像自动提取方式单一也会对练字本的纸张、版式的选择有较大的局限性，用户无法获得较好的使用体验。第四，大部分专利单个汉字的自动提取功能简单，且主要针对水笔汉字提取，很少提及铅笔字的提取。当用户采用铅笔练字时，由于缺乏良好的汉字自动提取单元，导致方格边框无法有效去除，导致展示效果差且影响之后的流程正常进行；同时因为阴影的存在，会导致二值化后的汉字变得模糊，部分笔划变细或缺失，给评分结果的稳定性带来了很大挑战。

2、现有专利中汉字评分的智能化程度不足，缺乏基于当今流行的人工智能技术的汉字识别模块，即手写汉字或偏旁、笔划的进行高准确率的识别模块，凸显了现有专利智能化程度不足得现状。一些专利需要用户手动输入所写汉字是什么才能进行评分，如“文字评价方法及装置”(201310488191.6)中需要用户输入评价指令，对指示的汉字才能进行评分。还有部分专利没有汉字识别功能，针对一些特定的练字本才能进行评分，如“一种字帖练习书法的人工智能评分***及方法”(201910427401.8)中练习本的样式是固定的，且第一列都是标准字，通过练习本每行的第一个字作为标准字与之后的手写汉字进行比对及评分。

3、现有专利汉字评分模块多采用简单的重合度来评价汉字效果，该方法没有去验证评价结果与专业书法评价是具有一致性，缺乏一定的科学性，也无法体现整个字形对汉字好坏的直观影响。“一种字迹评分***与其评分方法”(201510565555.5)、“一种字帖练习书法的人工智能评分***及方法”(201910427401.8)等专利都只是简单通过手写字和标准字的重合度来评价汉字的好坏等。已公开的专利CN201510565555、CN201911199560、CN201910427401中，采用简单的面积重合程度，无法体现手写字和标准字整体字形的相似程度。

发明内容

本发明的目的是针对背景技术所述不足，设计手写汉字或偏旁、笔划的自动提取及智能评分***，包括：练字本图像的自动提取模块、单个汉字自动提取模块、汉字识别模块、汉字评分模块。当用户随意地上传一张练字图像，本***即可自动化减弱光线强弱、纸质差异和印刷对练字本图像内边框边缘提取的影响，实现对练字本图像的快速提取。自动化且高准确的内边框提取主要依赖于本发明包含的多种图像预处理方法，通过报错机制单元的反馈来进行逐个预处理方法尝试，从而寻找到有效提取练字本的方式，若所有的方法都无法有效提取时，则反馈给用户上传图片无法识别，并列出常见错误的解决办法，便于用户调整后再次上传。单个汉字提取模块包含了去除图像阴影、特殊掩模版的使用、动态二值化的处理单元可有效且稳定的提取出单个汉字，从而使后续的识别和评分效果更稳定。基于深度学习方法的汉字识别模块使本***可以智能的“认识”教材中涉及的汉字或偏旁、笔划，是练习字上书写任意教材中的汉字能进行评分的保障。基于结构+内容的评分方式与专业书法老师的评价相一致，体现了本***评价的科学性。该***不仅实现了铅笔字的智能评分，还可以直观的展示给用户书写的好坏，用户体验更佳，实用性更强。

本发明的技术方案是：手写汉字或偏旁、笔划自动提取及智能评分***，包括：练字本图像的自动提取模块、单个汉字自动提取模块、汉字识别模块、汉字评分模块；所述练字本图像自动提取模块用于上传的手写汉字图像进行预处理、图像捕获、矫正、报错机制与版式判别；所述单个汉字自动提取模块用于从提取的图像中获取清晰的手写汉字，并将切割所得的米字格汉字进一步处理为具有最小外接矩形的二值化汉字；所述汉字识别模块用于手写汉字或偏旁、笔划以及空格的识别，当用户所写汉字不在规范字库中时，则出现该汉字无法识别的信息；所述汉字评分模块用于汉字识别模块获取的书写汉字与标准字库中同一规范字进行比对，并得出评判结果。

***各模块的主要特征及实现方法如下：

1、练字本图像自动提取模块包括：照片预处理单元、图像捕获单元、矫正单元、报错机制单元和版式判别单元。

(1)所述图片预处理单元用于减弱光线强弱、纸质差异和印刷质量差异对练字本图像内边框边缘提取的影响，通过版式判别模块中的报错机制来进行逐个提取尝试，照片预处理方式包括：

直接灰度化；

灰度化+灰度增强；

照片Blue颜色通道使用；

照片Blue颜色通道使用+灰度增强；

采用HSV颜色模型的颜色提取；

采用HSV颜色模型的颜色提取+Hough变换技术的边框增强。

(2)所述图像捕获单元用于采用canny算子边缘检测+轮廓提取+四边形拟合+外边框过滤来实现正确捕获和描述内边框。

(3)所述矫正单元用于针对用户拍照的练字本图像存在不同角度时，对捕获的练字本图像进行透视变换。具体来说，是通过图像捕获单元输出的拟合四边形的四个点，作为透视变换的输入，从而实现图像的矫正。无论用户拍照的角度如何，最终都矫正成正视图。

(4)所述报错机制单元用于图像自动提取模块能执行调用不同照片预处理的方法，同时用于当用户拍照不规范或者未采用规定的练习本拍照时，提示上传图片错误的反馈信息，用户可以查看常见报错解决方法。

报错机制单元输出的报错内容包括：矫正后图像的长宽比是否正常、提取的面积大小是否正常、固定位置的特征是否存在。设定的具体算法是：

长宽比在1.1～1.8范围内为正常；

提取的面积与整张照片面积的比值大于0.25为正常；

当提取了版式标题中的某个“字”的面积作为特征，提取的用户图像在指定位置也存在相似的面积大小时，则为正常。

(5)所述版式判别单元用于判定用户上传的是哪种版式的作业纸，继而调用不同图像切割单元。

版式判断内容包括：预先设定至少三种版式，依次编号为版式1、版式2和版式3；并同时设定版式3和非版式3的区别算法、版式1和版式2的区分算法；当用户任意传入一个版式照片时，首先判断是否为版式3，如是版式3，则进入下一步流程；如不是版式3，则进一步判断是版式1还是版式2。两个算法的具体实现如下：

算法1：用于区别版式3和非版式3；具体做法是将用于提取版式1和版式2的图像捕获算法与提取版式3的图像捕获算法串联，根据提取的边框数量的不同进行版式判断：

如果用户传入的版式是包含两个边框的，则首先被第一个算法检测到；

若用户传入的是一个边框的版式，则第一个算法报错，第二个算法会成功检测到。

算法2：用于区分版式1和版式2，采用的方法是运用霍夫变换来实现微小线段的检测。工程中常使用的开源数字图像库(opencv)中的霍夫变换方法是不支持检测微小线段的，本发明通过将微小线段进行拼接，继而达到现有方法可以检测的能力范围内，从而实现了版式的判别。具体做法是从矫正后的图像中截取两个版式有差别的某个固定位置的约40个像素宽度的直线区域，然后将该区域进行5次拼接变成一个长度为200像素的直线，接着采用霍夫变换检测拼接图是否存在直线与常规思路通过直接比较两个版式中直线的总长短来进行版式区别相比，本发明将其长短的比较问题转化为是否存在直线的问题，这样可以有效避免因图像质量和光线强弱对检测直线长度的影响。

2、所述单个汉字自动提取模块包括：切割前预处理单元，图像切割单元、增加掩模版单元、动态二值化单元、最小外接矩形单元。

(1)切割前的预处理单元用于去除练习本图像中的阴影并对图像进行对比度增强，去除阴影的基本思路是通过形态学膨胀操作和中值滤波分离出图像背景，然后原图像与背景图像作差即可获得去背景的图像(阴影也是一种背景图像)，此时因为作差操作，背景变成黑色，汉字是白色。接着用255的灰阶再与剥离出背景的图像作差，将背景由原先的黑变成白，字由原先的白变成黑，使其与原图像颜色一致。最后将图像归一化到0～255的范围，具体操作是将处理后图像的最大像素值设定为255，最小值设定为0，将图像的像素分布归一化到0～255的范围内，从而实现对比度的增强。

(2)所述图像切割单元用于根据每种版式的规格，将自动提取的图像进行切割，以获得一个个方格汉字.因为图像自动提取模块已经判断出练习本的版式，所有根据每种版式的排版方式，可以很容易按比例的切割成每个方格汉字，实际在切割图像时会先将矫正后的图缩放到相同的大小，且切割的时候会根据实现的矫正效果，调整切割的步长，用来降低切割的误差。

(3)所述增加掩模版单元用于处理单个汉字提取，去除米字格边框的同时尽可能不会擦除部分汉字笔划；具体处理方式是：首先是构建一个特殊的掩模版图形，以方格中心为圆心画一个圆，同时在圆的右下角画一个边长等于圆半径的正方形，正方形的左上顶点与圆心重合，如此就构造好了一个圆与正方形组合而成的特殊掩模版图形，，设置掩模版图形内部的方格图像保持不变，掩模版外部的方格图像变成白色。如此既可以去除米字格边框的影响，又保证当从练字本图像中切割出的方格有偏差时，方格右下角部分都能保留(之所以保留方格右下部分是因为汉字的最后一捺往往会比较长)。

(4)所述动态二值化单元用于提取出方格中手写汉字,二值化的基本思路是根据方格图像中手写汉字都是偏黑色的，背景都是偏白色的特点，为此需寻找一个最佳的阈值，并设定图像中低于该阈值的像素值变为0，高于该阈值的像素值变为255，从而实现图像像素的二值化及手写汉字与背景的分离。一般的阈值选择往往是静态的，即设定一个固定的值来进行二值化；由于图像质量的波动客观存在，这样的方法容易导致部分手写汉字效果提取不佳；而动态阈值分割是根据每个方格图像的不同亮度分布特征计算出不同的最佳阈值来进行分割，这种动态的阈值分割可以提取到更加清晰的汉字。具体来说本发明采用带掩模版(mask)的动态阈值分割来实现汉字的提取，带掩模版的作用是遮盖无用的图像区域，只对有用的区域根据图像亮度的分布特征进行计算来获取动态阈值，，计算方法采用经典的大津算子。

(5)所述获取最小外接矩形单元用于对于经过阈值分割的二值图像采用canny算子进行边缘提取和轮廓提取，接着通过轮廓面积和轮廓点的个数来过滤一些噪声轮廓，最后对轮廓点坐标进行选择，包括：选取所提取轮廓所在平面上的x_min、y_min和x_max、y_max坐标点，作为最小外接矩形的两个对角点坐标。平面上的x_min、y_min分别表示该最小外接矩形左下角的x、y坐标值，x_max、y_max分别表示该最小外接矩形右上角的x、y坐标值。

3、所述汉字识别模块包括：识别前的图片预处理单元、训练好的卷积神经网络模型单元、预测结果处理单元。

(1)所述图片预处理单元用于对输入图片进行统一预处理，从而可以输入卷积神经网络模型；具体包含图片的大小统一缩放为299*299，像素值的统一归一化：将0～255范围内的像素大小归一化到0～1之间便于运算。

(2)所述训练好的卷积神经网络模型单元用于训练模型参数，包括：谷歌公司提出的InceptionV3网络结构，以及本发明提供的经过训练的模型参数。进一步地，具体的模型训练过程如下：

数据集的准备：手写汉字数据集制作至少5万张，测试集至少5千张，采用分类网络进行训练，分成473类，并与教材配套的汉字和偏旁数量一致，且包含空格。需要说明的是，数据集会随着书法课程的开发，逐步增加，最终会覆盖大部分常用汉字。

模型结构的比较：比较了VGG、InceptionV3、Densnet三种网络结构对手写汉字识别效果的影响，发现相同条件下，VGG网络的识别准确率最低，Densnet的识别准确率其次，InceptionV3网络介入的识别准确率最高；

训练时数据增强的研究，共尝试了5种增强方式，分别为：

不增强；

改变明暗度+翻转+随机裁剪的方式增强；

改变明暗度+随机裁剪的方式增强；

改变明暗度+小角度旋转+随机裁剪的方式增强；

改变明暗度+小角度旋转+放大和缩小增加的方式增强；

以上5种方式中，优选：改变明暗度+随机裁剪；其有益效果是：该种数据增强方式下训练模型获得的准确率和泛化效果最佳。

(3)所述预测结果处理单元用于将只有被识别的汉字输入到汉字评分模块，模型训练时考虑到空格情况，因此该识别模型还能识别米字格、田中格等多种空格类型。在实际使用时将输出三种结果：未识别汉字、空格、识别的汉字，其中未识别汉字指模型预测的概率低于35％。

同时设定：只有被识别的汉字才会进入到汉字评分模块，可识别的空格和未识别的汉字都设定为不进入评分模块。

4、所述汉字评分模块根据所述识别模型的结果，调用制作好的具有最小外接矩形的二值图标准字，以及具有最小外接矩形的二值图手写汉字作为输入，包括：相似度计算单元、评价单元、判断单元、评价结果调整单元。

(1)所述相似度计算单元包括：相似度结构评价机制、相似度内容评价机制、综合相似度评价机制.其中相似度结构评价机制用于对该手写汉字的结构评价，采用手写汉字外接矩形的宽与标准字的宽的比值、手写汉字外接矩形的高与标准字的高的比值的乘积表示；相似度内容评价机制用于待结构评价完后，评价手写字与标准字的内容相似度。

具体实现方案：将手写汉字等比例缩放到与标准汉字相似的大小，即：手写汉字与标准汉字二者间的高度或宽度与标准字相同，然后将两张图分别添加到一个等大的背景框中，并分别将手写汉字与标准汉字置于背景框中央，通过上述操作，获取了两张大小相同的图片，一张是手写汉字，一张是标准汉字，且它们都位于图片中央。采用余弦相似度计算其内容相似度，余弦相似度的方法是将图片的二维矩阵展开成一维向量，然后计算两个向量的余弦值。最后，将余弦值和结构评价的数值相乘作为该汉字的综合相似度评分。

需要注意的是，本发明的最终综合相似度计算方法是经过一系列选择和比较最终确定的，排除了加权或结构评价指数处理等其他综合相似度的计算方法。该方法是基于能很好符合专业书法老师评价的标准作为准则的。

具体实现方案：专业书法老师从若干样品中挑选出“好”，“中”，“差”三个等级的若干样本，接着采用某种综合相似度计算方法获得任意一个汉字的综合相似度值；定义相似度值越大表示手写字越好，如出现“差”字的综合相似度值比“好”字的综合相似度值还要高时，就需要调整综合相似度值的计算方法，直到找到一种计算方法，其计算的结果与老师的评价效果相一致。

(2)所述评价单元用于根据计算出的综合相似度数值，得出：“好”、“中”、“差”三个级别的最终评价结果；该单元包含一张经过计算的阈值区分表，每一个汉字都有两个阈值，当用户手写汉字的综合相似度值高于较大的那个阈值时，则评价为好字，当用户手汉字的综合相似度值低于较小的那个阈值时，则评价为差字，介于两者之间则为中等汉字；阈值表是从基于“好”、“中”、“差”样本计算出的综合相似度值中获得。

(3)所述判断单元用于统计用户上传的一张照片中“好”、“中”、“差”三个级别的字数比例，当“好”字或“差”字的比例过低或过高时，进行评价结果调整。

(4)所述评价结果调整单元用于通过微调整标准样本的相似度值，使得部分差字能变成中等字，部分中等字能变成好字，以提高学生练字的积极性；同时为了不影响整体体现学生书法的好坏，调整只进行一次微调，且差字是不能调整成好字；输出评分结果的同时还会将该字的透明图、标准字的透明图输出，然后重叠在一起使用户能直观体验到书写的好坏，同时可以自己去比较哪里写的不是很好。

本发明技术方案的关键点是：

1、练字本图像的自动提取。本发明的图像提取模块融合了多种技术，包括RGB颜色通道的运用、灰度增强技术、HSV模式下的颜色提取及其与直线检测的组合运用，配合本发明完善的报错反馈机制，可以自动不断尝试选择不同的边框捕获算法来找到最佳捕获。相比较于CN201510565555专利中需要用户根据拍照界面上的三个定点去对准练字本固定点来获取图像，本发明显得更加自动化；相比较于CN201910427401专利中通过简单的直线检测来捕获练字本图像，本发明具有多样化的算法选择，准确率更高，图像捕获也更加智能且对拍照的实现环境和手机性能要求不那么苛刻。

2、现有的专利没有涉及到版式判别的问题，本发明通过直线的拼接和算法的串联方式，很好的实现了不同版式的区分，适用范围更广。

3、针对铅笔字颜色偏淡，汉字二值化提取过程中阴影的影响、边框残留、汉字不清晰的问题，本发明增加了去除阴影的算法，同时通过增加特殊掩模版的方式在未进行二值化前先去除边框，接着采用带掩模版的动态二值化方法清晰的提取出汉字。

4、本发明建立了一种既能有效识别汉字，又能有效识别偏旁的智能识别模型。该方法的特征在于采用InceptionV3作为卷积神经网络结构，训练模型时采用随机裁剪+改变明暗度的图片增强方式，制作的数据集有至少5万张图片。

5、本发明的相似度评分采用结构+内容这种综合评分的思路，结构基于汉字的长宽大小，内容通过余弦相似度确定，并提出了一个实际效果最佳的公式，即：综合相似度等于：

公式中，手写汉字和标准汉字的宽度分别指外接矩形下的手写汉字图像和标准汉字图像的宽度；同理，手写汉字和标准字的高度分别指外接矩形下的手写汉字图像和标准汉字图像的高度；余弦相似度表示将两个图像的矩阵展开成两个一维向量(

和

)。例如：两张图片的大小都为100*100，展开成向量后变成1*10000，然后计算两个向量夹角θ的余弦值，公式为：

需要注意的是：余弦相似度只有在两个向量包含的维度一致的情况下才好求解，即要求向量获得来源的两张图像大小一样，而外接矩形下的手写汉字长、宽和标准字是不一样的。本发明采用的措施是先将手写汉字缩放到与标准字相似的大小(手写汉字图像的高度或宽度与标准汉字一样)，紧接着将缩放后的手写图像和标准图像分别放到一个尺寸一样大的背景图中心位置生成两张等大的新图像，这样便可通过计算两张新图像的余弦相似度来表示手写汉字和标准字的的内容相似度。通过手写字缩放的操作可以很好的展示出整个汉字的字形特征(即上述提到的内容特征)，然后与标准字都放在同一个大小的背景图中采用余弦相似度很好的评价了内容方面的差异。最后综合相似度就是在一开始计算的结构相似度与后来做过一些处理后计算的余弦相似度的乘积。

与现有技术相比，本发明的优点和有益效果是：

1、进一步解决了用户随意上传照片来实现自动提取的功能。

2、运用了当下热门的深度学习技术，作为汉字识别模块。

3、本发明技术方案不仅采用余弦相似度来代替重合度算法，同时考虑了结构对评分的影响，并且选择了最佳的综合评分计算方法，使评分更加准确与专业书法老师的评价相一致。

4、优化了汉字评分的算法，既与书法角度的评价标准匹配，同时也可以展示给用户直观的汉字好坏体验。

5、既能给汉字评分，也能给书写的偏旁评分。

附图说明

图1是本发明“手写汉字或偏旁、笔划的自动提取及智能评分***”实施例的结构框图；

图2是练字本图像的自动提取的详细流程示意图；

图3是针对三种版式练字本图像的自动提取模块效果图；

图4是针对单个汉字的四步提取模块流程图，包括：切割前的预处理，图像切割，增加掩模版，阈值分割，获取最小外接矩形；

图5是针对单个汉字的自动提取模块后的效果图，自左至右依次为：切割后的汉字、增加掩模版后的汉字、阀值分割后的汉字、最小外接矩形汉字；

图6是汉字识别模块在识别汉字过程中的流程图，只有被识别的汉字才会进行汉字评分；

图7是汉字评分模块中流程图，图中自左至右有六个部分，即：相似度计算，评价，判断，评价结果调整；

图8是按本发明“手写汉字或偏旁、笔划的自动提取及智能评分***”实施例，在实际评判时所呈现的综合评判效果图，图中最左侧照片是用户上传的一页练习字共96个汉字，各个汉字或笔划被完整的提取到了位于右侧的手机屏幕上，针对书写结构及笔画好的“好”字会给予“皇冠”图案并获得积分，中等和差字不会标记和给予积分，点击各汉字后的评价会有不同。图8中位于右侧大图四角分布的四个小图中，左侧两个是好字的评语和重合的效果；右侧是两个中等字的评语和重合的效果。

具体实施方式

以下结合附图对本发明实施例作进一步说明，下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制，凡在本发明的精神和原则之内所做的任何修改、等同替换或改进等，均应包含在本发明的权利要求范围之内，本技术方案中未详细述及的，均为公知技术。

参见图1～及附图8，本发明手写汉字或偏旁、笔划的自动提取及智能评分***，包括：练字本图像的自动提取模块、单个汉字自动提取模块、汉字识别模块、汉字评分模块。所述练字本图像的自动提取模块用于上传的手写汉字照片进行预处理、图像捕获、矫正、报错与版式判别；所述单个汉字自动提取模块用于图像的切割和对比度增强，并将切割所得的米字格汉字进一步处理为具有最小外接矩形的二值化汉字，然后输入至所述汉字识别模块；所述汉字识别模块用于手写汉字或偏旁、笔划以及空格的识别，当用户所写汉字不在规范字库中时会提示该汉字无法识别的信息，通过识别模块可以调用到手写汉字对应的标准字，并将二者一起传入评估模块；所述汉字评分模块用于汉字识别模块获取的书写汉字与标准字库中同一规范字进行比对，并得出评判结果。

***各模块的主要特征及实现方法如下：

1、练字本图像自动提取模块包括：图片预处理单元、图像捕获单元、矫正单元、报错机制单元和版式判别单元。

直接灰度化；

灰度化+灰度增强；

照片Blue颜色通道使用；

照片Blue颜色通道使用+灰度增强；

采用HSV颜色模型的颜色提取；

采用HSV颜色模型的颜色提取+Hough变换技术的边框增强。

长宽比在1.1～1.8范围内为正常；

提取的面积与整张照片面积的比值大于0.25为正常；

提取了版式标题中的“天”字面积作为特征，当提取的用户图像在指定位置也存在相似的面积大小时，则为正常。

(5)所述的版式判别单元用于判定用户上传的是哪种版式的作业纸，继而调用不同图像切割单元。

如附图3所示，版式判断内容包括：图3中的三种版式依次编号为版式1、版式2、版式3。版本的基本思想是设计版式3和非版式3的区别算法，版式1和版式2的区分算法，。当用户任意传入一个版式时，首先判断是否是版式3，如是版式3，则进入下一步流程；如不是版式3，则进一步判断是版式1还是版式2。两个算法的具体实现如下：

2、所述单个汉字自动提取模块包括：切割前的预处理，图像切割单元、增加圆形掩模版单元、阈值分割单元、获取最小外接矩形单元。

(1)所述切割前的预处理单元用于去除练习本图像中的阴影并对图像进行对比度增强，去除阴影的基本思路是通过形态学膨胀操作和中值滤波分离出图像背景，然后原图像与背景图像作差即可获得去背景的图像(阴影也是一种背景图像)，此时因为作差操作，背景变成黑色，汉字是白色。接着用255的灰阶再与剥离出背景的图像作差，将背景由原先的黑变成白，字由原先的白变成黑，使其与原图像颜色一致。最后将图像归一化到0～255的范围，具体操作是将处理后图像的最大像素值设定为255，最小值设定为0，将图像的像素分布归一化到0～255的范围内，从而实现对比度的增强。

(4)所述动态二值化单元用于提取出方格中的汉字。相比较与直接设定一个阈值，低于该阈值的像素变为0，高于该阈值的像素变为255，这种静态的阈值分割来分离出汉字相比，动态阈值分割可根据具体方格图像选择出最佳的分割阈值，如此可以提取到更加清晰的汉字。具体来说本发明采用带掩模版(mask)的动态阈值分割来实现汉字的提取，带掩模版的作用是遮盖无用的图像区域，只对有用的区域进行计算并获取动态阈值，动态阈值的计算方法基于实际方格图像的亮度分布特性，采用大津算子进行计算获得。

3、所述汉字识别模块包括：图片预处理单元、训练好的卷积神经网络模型单元、预测结果处理单元。

(1)所述图片预处理单元用于对输入图片进行统一预处理，从而可以输入卷积神经网络模型；具体包含图片的大小统一处理方式是：将0～255范围内的像素大小归一化到0～1之间便于运算。

训练时数据增强的研究，共尝试了5种增强方式，分别为：

不增强；

改变明暗度+翻转+随机裁剪的方式增强；

改变明暗度+随机裁剪的方式增强；

改变明暗度+小角度旋转+随机裁剪的方式增强；

改变明暗度+小角度旋转+放大和缩小增加的方式增强；

(1)所述相似度计算单元包括：相似度结构评价机制、相似度内容评价机制.其中相似度结构评价机制用于对该手写汉字的结构评价，采用手写汉字外接矩形的宽与标准字的宽的比值、手写汉字外接矩形的高与标准字的高的比值的乘积表示；相似度内容评价机制用于待结构评价完后，评价手写字与标准字的内容相似度。

本发明技术方案的核心点在于：

5、本发明的相似度评分采用结构+内容这种综合评分的思路，结构基于汉字的长宽大小，内容通过余弦相似度确定，并提出了一个实际效果最佳的公式，即综合相似度等于：

和

需要注意的是余弦相似度只有在两个图像大小一样的情况下才好求解，只有这样才能保证两个向量包含的维度一致，而外接矩形下的手写汉字长、宽和标准字是不一样的。本发明采用的措施是先将手写汉字缩放到与标准字相似的大小(手写汉字图像的高度或宽度与标准汉字一样)，紧接着将缩放后的手写图像和标准图像分别放到一个尺寸一样大的背景图中心位置生成两张等大的新图像，这样便可通过计算两张新图像的余弦相似度来表示手写汉字和标准字的的内容相似度。通过手写字缩放的操作可以很好的展示出整个汉字的字形特征(即上述提到的内容特征)，然后与标准字都放在同一个大小的背景图中采用余弦相似度很好的评价了内容方面的差异。最后综合相似度就是在一开始计算的结构相似度与后来做过一些处理后计算的余弦相似度的乘积。

相比较于已公开的CN201510565555、CN201911199560、CN201910427401专利中采用重合度来进行汉字评分相比，其算法只是简单的面积重合程度，无法体现手写字和标准字整体字形的相似程度。本发明不仅采用余弦相似度来代替重合度算法，同时考虑了结构对评分的影响，并且选择了最佳的综合评分计算方法，使评分更加准确与专业书法老师的评价相一致。

本发明手写汉字或偏旁、笔划的自动提取及智能评分***，进一步解决了用户随意上传照片来实现自动提取的功能；运用了当下热门的深度学习技术，作为汉字识别模块；优化了汉字评分的算法，既与书法角度的评价标准匹配，同时也可以展示给用户直观的汉字好坏体验；既能给汉字评分，也能给书写的偏旁评分。

Claims

1.手写汉字或偏旁、笔划的自动提取及智能评分***，包括：练字本图像的自动提取模块、单个汉字自动提取模块、汉字识别模块、汉字评分模块；所述练字本图像自动提取模块用于上传的手写汉字图像进行预处理、图像捕获、矫正、报错机制与版式判别；所述单个汉字自动提取模块用于图像的切割和对比度增强，并将切割所得的米字格汉字进一步处理为具有最小外接矩形的二值化汉字；所述汉字识别模块用于手写汉字或偏旁、笔划以及空格的识别，当用户所写汉字不在规范字库中时，则出现该汉字无法识别的信息；所述汉字评分模块用于汉字识别模块获取的书写汉字与标准字库中同一规范字进行比对，并得出评判结果；其特征在于：

所述练字本图像自动提取模块包括：照片预处理单元、图像捕获单元、矫正单元、报错机制单元和版式判别单元；

所述单个汉字自动提取模块包括：图像切割单元、增加圆形掩模版单元、阈值分割单元、获取最小外接矩形单元；

所述汉字识别模块包括：图片预处理单元，训练好的卷积神经网络模型单元，预测结果处理单元；

所述汉字评分模块包括：相似度计算单元、评价单元、判断单元、评价结果调整单元；汉字评分模块根据所述识别模型的结果，调用制作好的具有最小外接矩形的二值图标准字以及，具有最小外接矩形的二值图手写汉字作为输入。

2.如权利要求1所述手写汉字或偏旁、笔划的自动提取及智能评分***，其特征在于：

所述图片预处理单元用于减弱光线强弱、纸质差异和印刷质量差异对练字本图像内边框边缘提取的影响，通过版式判别模块中的报错机制来进行逐个提取尝试，照片预处理方式包括：

直接灰度化；

灰度化+灰度增强；

照片Blue颜色通道使用；

照片Blue颜色通道使用+灰度增强；

采用HSV颜色模型的颜色提取；

采用HSV颜色模型的颜色提取+Hough变换技术的边框增强；

所述图像捕获单元用于采用canny算子边缘检测+轮廓提取+四边形拟合+外边框过滤来实现正确捕获和描述内边框；

所述矫正单元用于针对用户拍照的练字本图像存在不同角度时，对捕获的练字本图像进行透视变换；具体来说，是通过图像捕获单元输出的拟合四边形的四个点，作为透视变换的输入，从而实现图像的矫正；无论用户拍照的角度如何，最终都矫正成正视图；

所述报错机制单元用于图像自动提取模块能执行调用不同照片预处理的方法，同时用于当用户拍照不规范或者未采用规定的练习本拍照时，提示上传图片错误的反馈信息，用户可以查看常见报错解决方法；

报错机制单元输出的报错内容包括：矫正后图像的长宽比是否正常、提取的面积大小是否正常、固定位置的特征是否存在；设定的具体算法是：

长宽比在1.1～1.8范围内为正常；

提取的面积与整张照片面积的比值大于0.25为正常；

当提取了版式标题中的某个“字”的面积作为特征，提取的用户图像在指定位置也存在相似的面积大小时，则为正常；

所述的版式判别单元用于判定用户上传的是哪种版式的作业纸，继而调用不同图像切割单元；

版式判断内容包括：预先设定至少三种版式，依次编号为版式1、版式2和版式3；并同时设定版式3和非版式3的区别算法、版式1和版式2的区分算法；当用户任意传入一个版式照片时，首先判断是否为版式3，如是版式3，则进入下一步流程；如不是版式3，则进一步判断是版式1还是版式2；

两个算法的具体实现如下：

若用户传入的是一个边框的版式，则第一个算法报错，第二个算法会成功检测到；

算法2：用于区分版式1和版式2，采用的方法是运用霍夫变换来实现微小线段的检测；通过将微小线段进行拼接，继而达到现有方法可以检测的能力范围内，从而实现版式的判别；具体做法是：从矫正后的图像中截取两个版式有差别的某个固定位置的约40个像素宽度的直线区域，然后将该区域进行5次拼接变成一个长度为200像素的直线，接着采用霍夫变换检测拼接图是否存在直线与常规思路通过直接比较两个版式中直线的总长短来进行版式区别相比；

3.如权利要求1所述手写汉字或偏旁、笔划的自动提取及智能评分***，其特征在于：

所述切割前的预处理单元用于去除练习本图像中的阴影并对图像进行对比度增强，通过形态学膨胀操作和中值滤波分离出图像背景，然后将原图像与背景图像作差，获得去背景的图像，此时背景变成黑色，汉字为白色；接着用255的灰阶再与剥离出背景的图像作差，将背景由原先的黑变成白，汉字变成黑色；最后将图像归一化到0～255的范围，具体操作是将处理后图像的最大像素值设定为255，最小值设定为0，将图像的像素分布归一化到0～255的范围内，实现对比度的增强；

所述图像切割单元用于根据每种版式的规格，将自动提取的图像进行切割，以获得一个个方格汉字，切割图像时先将矫正后的图缩放到相同的大小，且切割时根据实现的矫正效果，调整切割的步长，用以降低切割误差；

所述增加掩模版单元用于处理单个汉字提取，去除米字格边框的同时尽可能不会擦除部分汉字笔划；具体处理方式是：首先是构建一个掩模版图形，以方格中心为圆心画一个圆，同时在圆的右下角画一个边长等于圆半径的正方形，正方形的左上顶点与圆心重合，由此构成一个圆与正方形组合而成的掩模版图形，设置掩模版图形内部的方格图像保持不变，掩模版外部的方格图像变成白色；

所述动态二值化单元用于提取出方格中的汉字，是一种采用带掩模版(mask)的动态阈值分割方式，首先设定一个阈值，并限定低于该阈值的像素变为0，高于该阈值的像素变为255；，掩模版用于遮盖无用的图像区域，操作时，只对有用的区域进行计算并获取动态阈值，动态阈值的计算方法基于实际方格图像的亮度分布特性，采用大津算子进行计算获得；

所述获取最小外接矩形单元用于对于经过阈值分割的二值图像采用canny算子进行边缘提取和轮廓提取，接着通过轮廓面积和轮廓点的个数来过滤一些噪声轮廓，最后对轮廓点坐标进行选择，包括：选取所提取轮廓所在平面上的xmin、ymin和xmax、ymax坐标点，作为最小外接矩形的两个对角点坐标；平面上的xmin、ymin分别表示该最小外接矩形左下角的x、y坐标值，xmax、ymax分别表示该最小外接矩形右上角的x、y坐标值。

4.如权利要求1所述手写汉字或偏旁、笔划的自动提取及智能评分***，其特征在于：

所述图片预处理单元用于对输入图片进行统一预处理，从而可以输入卷积神经网络模型；具体包含图片的大小统一处理方式是：将0～255范围内的像素大小归一化到0～1之间；

所述训练好的卷积神经网络模型单元用于训练模型参数，包括：谷歌公司提出的InceptionV3网络结构，以及本发明提供的经过训练的模型参数；

所述预测结果处理单元用于将只有被识别的汉字输入到汉字评分模块；实际使用时输出三种结果：未识别汉字、空格、识别的汉字；其中：未识别汉字指模型预测的概率低于35％；

设定：只有被识别的汉字才会进入到汉字评分模块，而可识别的空格和未识别的汉字不进入评分模块；

5.如权利要求4所述手写汉字或偏旁、笔划的自动提取及智能评分***，其特征在于：所述训练模型参数的训练过程如下：

数据集的准备：手写汉字数据集制作至少5万张，测试集至少5千张，采用分类网络进行训练，分成473类，并与教材配套的汉字和偏旁数量一致，且包含空格；

模型结构的比较：比较VGG、InceptionV3、Densnet三种网络结构对手写汉字识别效果的影响，在相同条件下，选择InceptionV3网络结构；

模型训练时数据增强的方式选择为：改变明暗度+随机裁剪。

6.如权利要求1所述手写汉字或偏旁、笔划的自动提取及智能评分***，其汉字评分特征在于：

所述相似度计算单元包括：相似度结构评价机制、相似度内容评价机制、综合相似度评价机制.其中相似度结构评价机制用于对该手写汉字的结构评价，采用手写汉字外接矩形的宽与标准字的宽的比值、手写汉字外接矩形的高与标准字的高的比值的乘积表示；相似度内容评价机制用于待结构评价完后，评价手写字与标准字的内容相似度；

具体评价方法是：

将手写汉字等比例缩放到与标准汉字相似的大小，即：手写汉字与标准汉字二者间的高度或宽度与标准字相同，然后将两张图分别添加到一个等大的背景框中，并分别将手写汉字与标准汉字置于背景框中央，通过上述操作，获取了两张大小相同的图片，一张是手写汉字，一张是标准汉字，且它们都位于图片中央；

采用余弦相似度计算其内容相似度，余弦相似度的方法是将图片的二维矩阵展开成一维向量，然后计算两个向量的余弦值；

将余弦值和结构评价的数值相乘作为该汉字的综合相似度评分；

所述综合相似度的计算方法是基于符合专业书法老师评价的标准作为准则；

具体做法是：

首先由专业书法老师从若干样品中挑选出“好”，“中”，“差”三个等级的样本，接着采用综合相似度计算方法获得任意一个汉字的综合相似度值；定义相似度值越大表示手写字越好，当出现“差”字的综合相似度值比“好”字的综合相似度值还要高时，即调整综合相似度值的计算方法，直至计算结果与书法老师的评价效果相一致；

所述评价单元用于根据计算出的综合相似度数值，得出：“好”、“中”、“差”三个级别的最终评价结果；评价单元包含一张经过计算的阈值区分表，每一个汉字都有两个阈值，当用户手写汉字的综合相似度值高于较大的那个阈值时，则评价为好字，当用户手汉字的综合相似度值低于较小的那个阈值时，则评价为差字，介于两者之间则为中等汉字；阈值表是从基于“好”、“中”、“差”样本计算出的综合相似度值中获得；

所述判断单元用于统计用户上传的一张照片中“好”、“中”、“差”三个级别的字数比例，当“好”字或“差”字的比例过低或过高时，进行评价结果调整；

所述评价结果调整单元用于通过微调整标准样本的相似度值，使得部分差字能变成中等字，部分中等字能变成好字；设定结果调整只进行一次，且差字不能调整成好字；输出评分结果的同时还输出所评价字的透明图以及该标准字的透明图，然后将评价字的透明图与标准字的透明图重叠在一起，使用户直观体验到书写质量。

7.如权利要求6所述手写汉字或偏旁、笔划的自动提取及智能评分***，其特征在于：所述相似度评分采用：(结构+内容)的综合评分方法；所述结构是基于汉字的长宽大小，所述内容通过余弦相似度确定，设定综合相似度计算公式如下：

公式中，手写汉字和标准汉字的宽度分别指外接矩形下的手写汉字图像和标准汉字图像的宽度；同理，手写汉字和标准字的高度分别指外接矩形下的手写汉字图像和标准汉字图像的高度；余弦相似度表示将两个图像的矩阵展开成两个一维向量，当手写汉字图像和标准汉字图像的一维向量分别为

和

时，两个向量夹角θ的余弦值按如下公式计算：