CN117894030A - 一种校园智慧纸笔的文本识别方法及*** - Google Patents
一种校园智慧纸笔的文本识别方法及*** Download PDFInfo
- Publication number
- CN117894030A CN117894030A CN202410070088.8A CN202410070088A CN117894030A CN 117894030 A CN117894030 A CN 117894030A CN 202410070088 A CN202410070088 A CN 202410070088A CN 117894030 A CN117894030 A CN 117894030A
- Authority
- CN
- China
- Prior art keywords
- character
- boundary
- image data
- text
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 claims abstract description 66
- 230000008569 process Effects 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 25
- 238000001308 synthesis method Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 51
- 230000006399 behavior Effects 0.000 claims description 45
- 238000012216 screening Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000033001 locomotion Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000005286 illumination Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 12
- 238000003708 edge detection Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
本发明涉及文本识别领域,尤其涉及一种校园智慧纸笔的文本识别方法及***,包括实时获取所述纸笔的执行指令;当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。通过将行为数据转化为图像数据,并采用连通域检测算法和轮廓检测算法,能够在较低精度的摄像头和较差的光照条件下,获取到较高质量的图像数据。
Description
技术领域
本申请涉及到文本识别技术领域,特别是涉及到一种校园智慧纸笔的文本识别方法及***。
背景技术
随着信息技术的发展,校园智慧纸笔作为一种新型的智能教育工具,逐渐受到教育行业的关注。校园智慧纸笔能够将学生在纸上的书写内容实时转化为电子文本,方便教师对学生的学习情况进行实时监控和分析。目前,校园智慧纸笔的文本识别技术主要基于图像处理和机器学习算法。
现有技术中,在将行为数据转化为图像数据的过程中,现有的技术往往依赖于高精度的摄像头和良好的光照条件,以确保获取到清晰的图像数据。然而,在实际应用场景中,由于摄像头质量、光线条件等因素的限制,导致图像数据质量不高,进而影响后续的字符识别准确率;其次,现有的技术往往依赖于边缘检测算法,如Canny算子等。然而,这些算法对于字符的连笔、倾斜等书写特点的适应性较差,容易导致字符识别错误。
因此,现有技术存在缺陷,需要改进。
发明内容
为了解决现有技术中的一个或者几个问题,本申请的主要目的为提供一种校园智慧纸笔的文本识别方法及***。
为了实现上述发明目的,本申请提出一种校园智慧纸笔的文本识别方法,所述方法包括:
实时获取所述纸笔的执行指令;
当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;
将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;
通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;
识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;
基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。
进一步地,所述将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域,包括:
接收所述纸笔的行为数据,所述行为数据包括笔在纸上的移动轨迹、速度及压力信息;
将所述行为数据进行预处理并转化成特征向量;
将所述特征向量输入预设的模型中,通过预设的模型识别所述特征向量并输出图像数据,所述图像数据包括所述移动轨迹映射到特定的像素值上;
通过连通域检测算法识别所述图像数据中的单个字符区域和/或多个字符区域;
基于所述单个字符区域和/或多个字符区域,得到字符数据。
进一步地,所述通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域,包括:
通过轮廓检测算法识别每个字符区域的字符边界;
对所述字符边界的边界坐标进行识别;
根据所述边界坐标,将所述字符边界沿着边界坐标进行分割,得到分割后的单独的字符图像;
识别每个字符图像,将每个所述字符图像按照预设的排序方式进行组合,得到文本区域。
进一步地,所述对所述字符边界的边界坐标进行识别,包括:
对提取的轮廓进行跟踪,以识别字符的边界;
判断所述字符的边界是否闭合;
当所述字符的边界出现未闭合时,对所述字符边界进行未闭合的端点进行识别;
通过预设的工具填充所述未闭合的端点,再对闭合后的所述字符边界进行去噪平滑处理;
基于处理后的所述字符边界,获取边界点标记坐标。
进一步地,所述基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息包括:
对每个字符内容进行特征提取,对每个提取的特征进行归一化处理,用于将每个特征控制在预设的数值范围内;
对归一化后的每个特征向量通过元素乘法进行元素相乘,得到新特征向量;
将所有所述新特征向量进行拼接融合,并输入已训练的文本生成模型中,得到最终文本信息。
进一步地,所述移动轨迹映射到特定的像素值上包括,包括:
获取所述移动轨迹在纸上的坐标系;
识别所述移动轨迹在纸上的坐标系,根据识别结果构建虚拟空间坐标系;
将所述移动轨迹按照所述虚拟空间坐标系映射到特定的像素值上。
进一步地,所述通过连通域检测算法识别所述图像数据中的单个字符区域和/或多个字符区域包括:
识别所述图像数据中的亮度信息,根据预设的第一阈值,将所述图像数据中亮度大于第一阈值的图像分割为背景;
根据预设的第二阈值,将图像数据中亮度小于第二阈值的图像分割为字符区域;
提取所述字符区域,对所述字符区域进行连通域标记,将相邻的像素组成一个连通域;
对所有所述连通域按照预设的筛选方式进行筛选,得到最终的单个字符区域和/或多个字符区域,其中所述筛选方式包括根据连通域的大小、宽高比及紧凑度。
本申请实施例还提供一种校园智慧纸笔的文本识别***,包括:
第一获取模块,用于实时获取所述纸笔的执行指令;
第二获取模块,用于当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;
转化模块,用于将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;
检测模块,用于通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;
识别模块,用于识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;
整合模块,用于基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请实施例的校园智慧纸笔的文本识别方法及***,通过将行为数据转化为图像数据,并采用连通域检测算法和轮廓检测算法,能够在较低精度的摄像头和较差的光照条件下,获取到较高质量的图像数据,通过轮廓检测技术对字符区域进行边界检测和分割,可以将复杂的图像数据分割成单个字符或多个字符,适应字符的连笔、倾斜等书写特点,有效降低字符识别错误。实时获取和处理书写过程中的行为数据,使得文本识别更加高效。校园智慧纸笔,还可以应用于其他需要文本识别的场景,如电子签名、手写输入等。通过预设的合成方法,将识别出的字符内容整合成文本信息,简化了字符识别的过程,提高了识别效率。通过连通域检测算法来获取图像数据的字符区域,可以有效地将文字与其他背景进行区分,准确地定位文字的位置。
附图说明
图1为本申请一实施例的校园智慧纸笔的文本识别方法的流程示意图;
图2为本申请一实施例的校园智慧纸笔的文本识别方法的流程示意图;
图3为本申请一实施例的校园智慧纸笔的文本识别***的结构示意框图;
图4为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图作进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种校园智慧纸笔的文本识别方法,包括热交换器,所述方法包括:
S1、实时获取所述纸笔的执行指令;
S2、当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;
S3、将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;
S4、通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;
S5、识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;
S6、基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。
如上述步骤S1-S2所述,用户通过校园智慧纸笔上的按钮或触摸屏发出开始书写的指令,或者通过语音识别***接收用户的语音指令,通过校园智慧纸笔内置的传感器或按钮等,实时捕捉用户的操作指令,如开始书写、停止书写等。例如:按钮、触摸屏、语音识别***;纸笔内置的传感器(如加速度传感器、陀螺仪、压力传感器)实时采集书写过程中的运动数据和压力变化。在捕捉到执行指令后,通过纸笔内置的传感器,如加速度传感器、压力传感器等,实时采集书写过程中的行为数据,如笔尖运动轨迹、书写压力等。
如上述步骤S3所述,将采集到的行为数据通过一定的算法转换为图像数据,然后利用连通域检测算法对图像数据进行处理,以获取图像中的字符区域;将传感器数据通过机器学习模型转换为图像数据,然后使用连通域检测算法(如八连通域检测)来识别图像中的闭合区域,这些区域对应于书写的字符。采用连通域检测算法和轮廓检测算法,能够在较低精度的摄像头和较差的光照条件下,获取到较高质量的图像数据,从而提高字符识别的准确率。通过连通域检测算法来获取图像数据的字符区域,可以有效地将文字与其他背景进行区分,准确地定位文字的位置。这样可以为后续的字符分割和识别提供准确的输入。
如上述步骤S4所述,对获取到的字符区域进行轮廓检测,确定字符的边界,然后根据边界将图像数据中的字符进行分割,得到单个字符的文本区域。使用图像处理技术(如轮廓检测算法)来识别字符区域的边缘,然后根据这些边缘将字符从图像中分割出来。例如:轮廓检测算法(如Canny边缘检测、Sobel边缘检测)。通过轮廓检测技术对字符区域进行边界检测和分割,可以将复杂的图像数据分割成单个字符,为后续的识别和特征提取提供准确的输入。这样可以提高字符识别的准确性和效率。
如上述步骤S5-S6所述,对分割得到的单个字符文本区域进行特征提取和匹配,以识别出字符内容。这一步骤可以采用深度学习、模板匹配等算法。将识别出的字符内容按照一定的顺序和规则进行合成,得到完整的文本信息。通过对文本区域中的字符进行特征提取和匹配,可以准确地识别字符内容。这样可以实现对纸笔书写的文字进行自动化识别和处理,提高文字信息的利用价值。基于字符内容,通过预设的合成方法将字符内容整合成文本信息,可以方便地获取纸笔书写的完整文本信息。这样可以实现对纸质文档进行数字化处理和存储,提高文档管理效率和信息检索速度。
具体的,通过将行为数据转化为图像数据,并采用连通域检测算法和轮廓检测算法,能够在较低精度的摄像头和较差的光照条件下,获取到较高质量的图像数据,通过轮廓检测技术对字符区域进行边界检测和分割,可以将复杂的图像数据分割成单个字符或多个字符,适应字符的连笔、倾斜等书写特点,有效降低字符识别错误。实时获取和处理书写过程中的行为数据,使得文本识别更加高效。校园智慧纸笔,还可以应用于其他需要文本识别的场景,如电子签名、手写输入等。通过预设的合成方法,将识别出的字符内容整合成文本信息,简化了字符识别的过程,提高了识别效率。通过连通域检测算法来获取图像数据的字符区域,可以有效地将文字与其他背景进行区分,准确地定位文字的位置。
在一可行实施例中,假设在一所学校里,老师们经常需要批改学生的作业,并对学生的书写和表达能力进行评估。利用智慧纸笔技术。老师在批改学生作业时,通过使用智慧纸笔,***能够实时获取老师的批改行为数据,如圈画、打勾、添加说明等操作。智慧纸笔将老师的批改行为数据转化为图像数据,包括批注、评分和评语等信息,便于后续处理和存储。***利用连通域检测算法来提取学生作业中的文字区域,准确地定位学生的书写内容。通过轮廓检测技术将学生作业中的文字区域进行字符分割,为后续的文字识别和评分提供准确的输入。***利用字符识别技术对学生作业中的文字进行自动化识别,包括单词、句子和段落等内容。基于字符内容,***整合学生作业中的文字内容,形成完整的电子版作业,便于老师进行存档、分析和反馈给学生。在这个场景中,智慧纸笔技术可以帮助老师们更高效地批改学生作业,提供实时的反馈和评价,同时也为学生作业的管理和分析提供了数字化的手段,可以提高教学效率。
在一个实施例中,所述将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域,包括:
接收所述纸笔的行为数据,所述行为数据包括笔在纸上的移动轨迹、速度及压力信息;
将所述行为数据进行预处理并转化成特征向量;
将所述特征向量输入预设的模型中,通过预设的模型识别所述特征向量并输出图像数据,所述图像数据包括所述移动轨迹映射到特定的像素值上;
通过连通域检测算法识别所述图像数据中的单个字符区域和/或多个字符区域;
基于所述单个字符区域和/或多个字符区域,得到字符数据。
如上所述,手写笔迹的行为数据可通过传感器或摄像头捕获。这些数据包括笔尖在纸上的移动轨迹、书写速度以及施加在笔尖上的压力。收集到的行为数据需要经过预处理以适应机器学习模型的输入要求。这可能包括归一化、切割、以及将时间序列数据转换为能够表征笔迹特征的向量。这些特征向量将用于模型训练和识别过程。预处理后的特征向量被送入一个训练好的机器学习模型。该模型可能是基于神经网络,它能够识别输入的特征向量并输出对应的图像数据。输出图像数据是将原始的笔迹轨迹映射到像素值上,形成可视化的图像。连通域检测算法用于在图像中识别出单个字符或多个字符的区域。这个过程对于后续的字符分割和识别至关重要。连通域是指图像中一组相互连接的像素点,它们在某种属性上具有相同的值。当检测到字符区域,就可以提取出单个字符的图像数据,这可以用于后续的字符识别步骤。这些字符数据会被进一步处理以识别具体的文字内容。这个过程在手写文字识别、数字化笔记以及人机交互等领域有着广泛的应用。通过这样的***,可以将手写文本快速准确地转换为数字文本,提高工作效率并促进信息的数字化存储。
参照图2,在一实施例中,所述通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域,包括:
S41、通过轮廓检测算法识别每个字符区域的字符边界;
S42、对所述字符边界的边界坐标进行识别;
S43、根据所述边界坐标,将所述字符边界沿着边界坐标进行分割,得到分割后的单独的字符图像;
S44、识别每个字符图像,将每个所述字符图像按照预设的排序方式进行组合,得到文本区域。
如上述步骤所述,轮廓检测算法用于识别图像中每个字符区域的边界。这些算法可以是基于边缘检测的,如Canny边缘检测器,或者是基于图像形状的,如Hough变换。轮廓检测的目的是找出字符的形状和边界。当检测到字符的轮廓,下一步是识别这些边界的具体坐标。这些坐标是字符分割的基础,将所有坐标组合定义了字符在图像中的精确位置和形状。根据识别的边界坐标,将每个字符的图像沿着其边界进行分割。这个过程可能涉及到图像的切割、填充和边缘平滑处理,以确保每个分割后的字符图像都是完整和清晰的。分割后的字符图像可识别每个字符,可通过模型识别,例如卷积神经网络(CNN)或其他深度学习架构。根据预设的排序方式(如从左到右、从上到下),将识别出的字符图像组合起来,形成完整的文本区域。这个过程可能需考虑字符之间的间隔和排版规则,以便生成格式化的文本。通过轮廓检测算法,***能够准确地识别每个字符区域的字符边界。这样可以确保字符分割的准确性,避免将字符分割得过大或过小。***能够对字符边界的边界坐标进行识别,确定每个字符区域的位置和大小。这样可以为后续的字符分割和排序提供准确的输入。根据边界坐标,***能够将字符边界沿着边界坐标进行分割,得到分割后的单独的字符图像。这样可以确保字符分割的准确性和可靠性,使每个字符能够被正确地分割出来。
在一实施例中,所述对所述字符边界的边界坐标进行识别,包括:
对提取的轮廓进行跟踪,以识别字符的边界;
判断所述字符的边界是否闭合;
当所述字符的边界出现未闭合时,对所述字符边界进行未闭合的端点进行识别;
通过预设的工具填充所述未闭合的端点,再对闭合后的所述字符边界进行去噪平滑处理;
基于处理后的所述字符边界,获取边界点标记坐标。
如上所述,通过对提取的轮廓进行跟踪,可以准确地识别出字符的边界。这一步骤是理解手写文本结构的关键。判断字符边界是否闭合有助于区分字符的内部结构和外部边界,确保字符的完整性。当字符边界出现未闭合的情况时,识别这些端点是为了后续能够进行有效的填充处理。通过预设的工具或算法填充未闭合的端点,确保字符边界的闭合性,这是后续字符识别准确性的基础。对闭合后的字符边界进行去噪和平滑处理,可以提高字符识别的准确性,减少因边界不平滑导致的误识别。通过填充和去噪处理,可以减少因边界问题导致的字符误识别。具体的,假设我们有一个字符边界的轮廓,它由一系列的点组成,这些点按照顺时针或逆时针方向排列。如果轮廓是闭合的,那么第一个点和最后一个点应该是同一个点。如果轮廓是未闭合的,那么最后一个点不会与第一个点重合。首先,我们需要检测轮廓的最后一个点,以确定是否与第一个点重合。如果不重合,那么这个点就是未闭合的端点。根据轮廓的旋转方向(顺时针或逆时针),确定填充的方向。例如,如果轮廓是顺时针旋转的,我们从未闭合端点开始,沿着轮廓的逆时针方向进行填充。使用一个小的、预设的填充区域(例如,一个小的圆或椭圆),从未闭合端点开始,按照确定的方向,沿着轮廓的逆时针方向移动,直到回到起点。根据需要,可以调整填充区域的大小和形状,以更好地适应字符的样式和结构。
在一实施例中,所述基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息包括:
对每个字符内容进行特征提取,对每个提取的特征进行归一化处理,用于将每个特征控制在预设的数值范围内;
对归一化后的每个特征向量通过元素乘法进行元素相乘,得到新特征向量;
将所有所述新特征向量进行拼接融合,并输入已训练的文本生成模型中,得到最终文本信息。
如上所述,特征提取中,可将字符或单词转换成数值形式,这些数值形式能捕获字符或单词的某种属性或特征。例如,在处理汉字时,可以通过提取每个汉字的笔画、部首、拼音、语义等信息作为特征。归一化是机器学习中常用的数据预处理方法,其目的是减少不同特征之间的量纲影响,使它们处于同一数量级,便于模型处理。例如,可以通过除以特征的最大值或最小值来将特征值缩放到0到1之间。元素乘法这一步骤是将归一化后的特征向量进行逐元素的乘法操作,用于强化某些特征,或是在某种合成特征表示中用于结合不同来源的信息。将所有经过元素乘法处理后的特征向量拼接起来,形成一个更为综合的特征表示。这一步骤可以看作是对多个特征向量进行加权求和的过程,权重即为各特征向量中的元素值。将拼接后的特征向量输入到一个已经训练好的文本生成模型中。型将综合特征向量转换成文本序列,输出最终的文本信息。
在一个可行实施例中,所述对归一化后的每个特征向量进行逐元素相乘,得到新特征向量包括:
对每个特征向量进行元素识别;
对相邻的两个所述元素按照元素相乘公式进行计算,得到新特征向量,
所述元素相乘公式为:c=(a 1×b 1,a 2×b 2,…,an×b n),所述a1为一个向量元素,b1为另一个向量元素,所述c为新特征向量。
如上述步骤所述,两个特征向量a和b,a的元素为(a1,a2,....,an)。首先,需要识别每个特征向量中的元素,特征向量a包含了n个元素,即(a1,a2,…,an)。然后,将对每个特征向量中的相邻元素进行相乘。这意味着将a中的每个元素与另一个特征向量b中的对应元素相乘。特征向量b也包含n个元素,即(b1,b2,…,bn)。使用提供的元素相乘公式c=(a1×b1,a2×b2,…,an×bn),其中c是新特征向量的结果。这个公式表明,新特征向量c的每个元素都是原始特征向量a和b中对应元素的乘积。例如,如果特征向量a=(1,2,3)和b=(4,5,6),那么按照上述步骤,您将得到新特征向量c:c=(a1×b1,a2×b2,an×bn)c=(1×4,2×5,3×6)c=(4,10,18)。因此,新特征向量c将是(4,10,18)。逐元素相乘可以看作是对原始特征的一种加权组合,其中每个元素的权重是另一个特征向量的对应元素。这种方法可以增强某些特征,使其在模型训练过程中更加突出。与传统的线性组合不同,逐元素相乘可以捕获特征之间的非线性关系,因为乘法操作可以放大或缩小元素的值,从而可能导致更加复杂和丰富的特征表示。通过将特征进行逐元素相乘,可以减少模型对单一特征或特定组合的依赖,从而降低过拟合的风险。由于乘法操作可以引入新的特征组合,这有助于模型学习到更加泛化的特征表示,从而提高模型在不同数据集上的表现。
在一实施例中,所述移动轨迹映射到特定的像素值上包括,包括:
获取所述移动轨迹在纸上的坐标系;
识别所述移动轨迹在纸上的坐标系,根据识别结果构建虚拟空间坐标系;
将所述移动轨迹按照所述虚拟空间坐标系映射到特定的像素值上。
如上所述,获取移动轨迹在纸上的坐标系这一步骤可捕捉移动轨迹在纸张上的位置信息。这可以通过各种方式实现,例如使用摄像头捕捉图像,并使用图像处理技术来识别轨迹在图像中的位置。对捕捉到的移动轨迹进行识别,确定其在纸张上的具***置。可通过图像识别和模式识别技术,如边缘检测、轮廓跟踪等。根据识别结果,构建一个虚拟空间坐标系。这个坐标系可以是一个二维的像素坐标系,其中每个点对应于图像中的一个像素。这个坐标系可以用来表示纸张上的整个区域,包括轨迹的位置。最后,将移动轨迹按照虚拟空间坐标系映射到图像上的特定像素值上。这意味着将轨迹的每个点转换成图像坐标系中的像素坐标,从而得到轨迹在数字图像上的表示。通过适当的映射和处理,可以增强轨迹的可读性和可理解性,使得即使是复杂的轨迹也能清晰地呈现。将原始的移动轨迹数据从纸上的坐标系转换到图像的坐标系。纸上的坐标系可能与图像的坐标系存在差异,例如旋转、缩放或者偏移等。因此,需要进行坐标系的转换,以确保移动轨迹能够准确映射到图像上。
在一实施例中,所述通过连通域检测算法识别所述图像数据中的单个字符区域和/或多个字符区域包括:
识别所述图像数据中的亮度信息,根据预设的第一阈值,将所述图像数据中亮度大于第一阈值的图像分割为背景;
根据预设的第二阈值,将图像数据中亮度小于第二阈值的图像分割为字符区域;
提取所述字符区域,对所述字符区域进行连通域标记,将相邻的像素组成一个连通域;
对所有所述连通域按照预设的筛选方式进行筛选,得到最终的单个字符区域和/或多个字符区域,其中所述筛选方式包括根据连通域的大小、宽高比及紧凑度。
如上所述,首先,算法会分析图像数据中的亮度信息,可通过计算每个像素的亮度值(例如,RGB颜色空间中的Y分量)来实现。根据预设的第一阈值,将图像数据中亮度大于第一阈值的像素分割为背景。这样做的目的是将图像中的高亮区域(例如背景或前景)与低亮区域(例如字符)区分开来。接着,根据预设的第二阈值,将图像数据中亮度小于第二阈值的像素分割为字符区域。这个阈值用来区分字符区域和背景区域。然后,提取分割出的字符区域,并对这些区域进行连通域标记。连通域标记是将相邻的像素组成一个连通域,这样就可以识别出字符的形状和结构。最后,对所有识别出的连通域按照预设的筛选方式进行筛选。筛选的目的是为了去除不符合字符特征的连通域,从而得到最终的单个字符区域和/或多个字符区域。筛选方式可能包括根据连通域的大小、宽高比及紧凑度等特征来进行。通过连通域检测,可以更准确地识别图像中的字符区域;通过筛选连通域,可以排除不符合字符特征的连通域,减少误识别的情况;连通域检测算法能够适应不同字体和大小;相比于复杂的图像处理技术,连通域检测算法相对简单,易于实现和优化。
本申请的校园智慧纸笔的文本识别方法,通过将行为数据转化为图像数据,并采用连通域检测算法和轮廓检测算法,能够在较低精度的摄像头和较差的光照条件下,获取到较高质量的图像数据,通过轮廓检测技术对字符区域进行边界检测和分割,可以将复杂的图像数据分割成单个字符或多个字符,适应字符的连笔、倾斜等书写特点,有效降低字符识别错误。实时获取和处理书写过程中的行为数据,使得文本识别更加高效。校园智慧纸笔,还可以应用于其他需要文本识别的场景,如电子签名、手写输入等。通过预设的合成方法,将识别出的字符内容整合成文本信息,简化了字符识别的过程,提高了识别效率。通过连通域检测算法来获取图像数据的字符区域,可以有效地将文字与其他背景进行区分,准确地定位文字的位置。
参照图3,本申请实施例中还提供一种校园智慧纸笔的文本识别***,包括:
第一获取模块1,用于实时获取所述纸笔的执行指令;
第二获取模块2,用于当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;
转化模块3,用于将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;
检测模块4,用于通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;
识别模块5,用于识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;
整合模块6,用于基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。
如上所述,可以理解地,本申请中提出的所述校园智慧纸笔的文本识别***的各组成部分可以实现如上所述校园智慧纸笔的文本识别方法任一项的功能,具体结构不再赘述。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于储存监控数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种校园智慧纸笔的文本识别方法。
上述处理器执行上述的校园智慧纸笔的文本识别方法,包括:实时获取所述纸笔的执行指令;当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。
上述的校园智慧纸笔的文本识别方法,通过将行为数据转化为图像数据,并采用连通域检测算法和轮廓检测算法,能够在较低精度的摄像头和较差的光照条件下,获取到较高质量的图像数据,通过轮廓检测技术对字符区域进行边界检测和分割,可以将复杂的图像数据分割成单个字符或多个字符,适应字符的连笔、倾斜等书写特点,有效降低字符识别错误。实时获取和处理书写过程中的行为数据,使得文本识别更加高效。校园智慧纸笔,还可以应用于其他需要文本识别的场景,如电子签名、手写输入等。通过预设的合成方法,将识别出的字符内容整合成文本信息,简化了字符识别的过程,提高了识别效率。通过连通域检测算法来获取图像数据的字符区域,可以有效地将文字与其他背景进行区分,准确地定位文字的位置。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种校园智慧纸笔的文本识别方法,包括步骤:实时获取所述纸笔的执行指令;当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种校园智慧纸笔的文本识别方法,其特征在于,所述方法包括:
实时获取所述纸笔的执行指令;
当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;
将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;
通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;
识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;
基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。
2.根据权利要求1所述的校园智慧纸笔的文本识别方法,其特征在于,所述将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域,包括:
接收所述纸笔的行为数据,所述行为数据包括笔在纸上的移动轨迹、速度及压力信息;
将所述行为数据进行预处理并转化成特征向量;
将所述特征向量输入预设的模型中,通过预设的模型识别所述特征向量并输出图像数据,所述图像数据包括所述移动轨迹映射到特定的像素值上;
通过连通域检测算法识别所述图像数据中的单个字符区域和/或多个字符区域;
基于所述单个字符区域和/或多个字符区域,得到字符数据。
3.根据权利要求1所述的校园智慧纸笔的文本识别方法,其特征在于,所述通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域,包括:
通过轮廓检测算法识别每个字符区域的字符边界;
对所述字符边界的边界坐标进行识别;
根据所述边界坐标,将所述字符边界沿着边界坐标进行分割,得到分割后的单独的字符图像;
识别每个字符图像,将每个所述字符图像按照预设的排序方式进行组合,得到文本区域。
4.根据权利要求3所述的校园智慧纸笔的文本识别方法,其特征在于,所述对所述字符边界的边界坐标进行识别,包括:
对提取的轮廓进行跟踪,以识别字符的边界;
判断所述字符的边界是否闭合;
当所述字符的边界出现未闭合时,对所述字符边界进行未闭合的端点进行识别;
通过预设的工具填充所述未闭合的端点,再对闭合后的所述字符边界进行去噪平滑处理;
基于处理后的所述字符边界,获取边界点标记坐标。
5.根据权利要求1所述的校园智慧纸笔的文本识别方法,其特征在于,所述基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息包括:
对每个字符内容进行特征提取,对每个提取的特征进行归一化处理,用于将每个特征控制在预设的数值范围内;
对归一化后的每个特征向量通过元素乘法进行元素相乘,得到新特征向量;
将所有所述新特征向量进行拼接融合,并输入已训练的文本生成模型中,得到最终文本信息。
6.根据权利要求2所述的校园智慧纸笔的文本识别方法,其特征在于,所述移动轨迹映射到特定的像素值上,包括:
获取所述移动轨迹在纸上的坐标系;
识别所述移动轨迹在纸上的坐标系,根据识别结果构建虚拟空间坐标系;
将所述移动轨迹按照所述虚拟空间坐标系映射到特定的像素值上。
7.根据权利要求2所述的校园智慧纸笔的文本识别方法,其特征在于,所述通过连通域检测算法识别所述图像数据中的单个字符区域和/或多个字符区域包括:
识别所述图像数据中的亮度信息,根据预设的第一阈值,将所述图像数据中亮度大于第一阈值的图像分割为背景;
根据预设的第二阈值,将图像数据中亮度小于第二阈值的图像分割为字符区域;
提取所述字符区域,对所述字符区域进行连通域标记,将相邻的像素组成一个连通域;
对所有所述连通域按照预设的筛选方式进行筛选,得到最终的单个字符区域和/或多个字符区域,其中所述筛选方式包括根据连通域的大小、宽高比及紧凑度。
8.一种校园智慧纸笔的文本识别***,其特征在于,包括:
第一获取模块,用于实时获取所述纸笔的执行指令;
第二获取模块,用于当收到所述执行指令时,获取所述纸笔在书写过程中的行为数据;
转化模块,用于将所述行为数据转化为图像数据,通过连通域检测算法来获取所述图像数据的字符区域;
检测模块,用于通过轮廓检测所述字符区域的边界,根据所述边界将所述图像数据中的字符进行字符分割,得到文本区域;
识别模块,用于识别所述文本区别的字符进行特征提取和匹配,识别出字符内容;
整合模块,用于基于所述字符内容,通过预设的合成方法将所述字符内容整合成文本信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410070088.8A CN117894030A (zh) | 2024-01-18 | 2024-01-18 | 一种校园智慧纸笔的文本识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410070088.8A CN117894030A (zh) | 2024-01-18 | 2024-01-18 | 一种校园智慧纸笔的文本识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117894030A true CN117894030A (zh) | 2024-04-16 |
Family
ID=90645418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410070088.8A Pending CN117894030A (zh) | 2024-01-18 | 2024-01-18 | 一种校园智慧纸笔的文本识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117894030A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239879A (zh) * | 2014-09-29 | 2014-12-24 | 小米科技有限责任公司 | 分割字符的方法及装置 |
CN104408449A (zh) * | 2014-10-27 | 2015-03-11 | 西安电子科技大学宁波信息技术研究院 | 智能移动终端场景文字处理方法 |
CN105005764A (zh) * | 2015-06-29 | 2015-10-28 | 东南大学 | 自然场景多方向文本检测方法 |
CN113011412A (zh) * | 2021-04-15 | 2021-06-22 | 深圳市鹰硕云科技有限公司 | 基于笔顺及ocr文字识别方法、装置、设备及存储介质 |
WO2021146951A1 (zh) * | 2020-01-21 | 2021-07-29 | 京东方科技集团股份有限公司 | 文本检测方法及装置、存储介质 |
WO2022105005A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳市鹰硕教育服务有限公司 | 智慧课堂信息交互方法、装置及电子设备 |
CN117079297A (zh) * | 2023-07-31 | 2023-11-17 | 国网青海省电力公司果洛供电公司 | 一种继电保护定值核对方法、***、设备及介质 |
-
2024
- 2024-01-18 CN CN202410070088.8A patent/CN117894030A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239879A (zh) * | 2014-09-29 | 2014-12-24 | 小米科技有限责任公司 | 分割字符的方法及装置 |
CN104408449A (zh) * | 2014-10-27 | 2015-03-11 | 西安电子科技大学宁波信息技术研究院 | 智能移动终端场景文字处理方法 |
CN105005764A (zh) * | 2015-06-29 | 2015-10-28 | 东南大学 | 自然场景多方向文本检测方法 |
WO2021146951A1 (zh) * | 2020-01-21 | 2021-07-29 | 京东方科技集团股份有限公司 | 文本检测方法及装置、存储介质 |
WO2022105005A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳市鹰硕教育服务有限公司 | 智慧课堂信息交互方法、装置及电子设备 |
CN113011412A (zh) * | 2021-04-15 | 2021-06-22 | 深圳市鹰硕云科技有限公司 | 基于笔顺及ocr文字识别方法、装置、设备及存储介质 |
CN117079297A (zh) * | 2023-07-31 | 2023-11-17 | 国网青海省电力公司果洛供电公司 | 一种继电保护定值核对方法、***、设备及介质 |
Non-Patent Citations (3)
Title |
---|
李少辉;周军;刘波;钱俞好;吴闽仪;: "基于机器视觉和神经网络的低质量文本识别研究", 机电工程, no. 09, 20 September 2018 (2018-09-20) * |
杜林;安媛;: "基于模糊匹配的手写文字识别平台设计", 信息与电脑(理论版), no. 02, 25 January 2020 (2020-01-25) * |
金东勇;陈俊霞;: "车载视频交通场景定位与文字识别方法的改进", 单片机与嵌入式***应用, no. 10, 1 October 2018 (2018-10-01) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
US7526128B2 (en) | Line extraction in digital ink | |
CN110766014A (zh) | 票据信息定位方法、***及计算机可读存储介质 | |
CN110503100B (zh) | 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN110659647A (zh) | ***图像识别方法及装置、智能***识别设备和存储介质 | |
CN109947273B (zh) | 一种点读定位方法及装置 | |
CN111914597B (zh) | 一种文档对照识别方法、装置、电子设备和可读存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN112711362B (zh) | 手绘流程图标准化生成方法及其装置 | |
CN112541922A (zh) | 基于数字图像的试卷布局分割方法、电子设备及存储介质 | |
CN114821612B (zh) | 一种证券期货场景下pdf文档的信息抽取方法和*** | |
CN113762274B (zh) | 一种答题卡目标区域检测方法、***、存储介质及设备 | |
CN110503101A (zh) | 字形评价方法、装置、设备及计算机可读存储介质 | |
CN113780116A (zh) | ***分类方法、装置、计算机设备和存储介质 | |
CN112580499A (zh) | 文本识别方法、装置、设备及存储介质 | |
CN112396057A (zh) | 一种字符识别方法、装置及电子设备 | |
CN111832551A (zh) | 文本图像处理方法、装置、电子扫描设备和存储介质 | |
CN110991371A (zh) | 一种基于坐标识别的智能阅读学习方法 | |
CN111241974A (zh) | 票据信息获取方法、装置、计算机设备和存储介质 | |
CN117894030A (zh) | 一种校园智慧纸笔的文本识别方法及*** | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
Al-Shatnawi | A skew detection and correction technique for Arabic script text-line based on subwords bounding | |
CN114241486A (zh) | 一种提高识别试卷学生信息准确率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |