CN117935296A - 一种就业质量报告生成*** - Google Patents

一种就业质量报告生成*** Download PDF

Info

Publication number
CN117935296A
CN117935296A CN202410167641.XA CN202410167641A CN117935296A CN 117935296 A CN117935296 A CN 117935296A CN 202410167641 A CN202410167641 A CN 202410167641A CN 117935296 A CN117935296 A CN 117935296A
Authority
CN
China
Prior art keywords
image
frame
pixel
pixel points
quality report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410167641.XA
Other languages
English (en)
Other versions
CN117935296B (zh
Inventor
王跃红
王书华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ducaizi Group Co ltd
Original Assignee
Guangdong Ducaizi Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ducaizi Group Co ltd filed Critical Guangdong Ducaizi Group Co ltd
Priority to CN202410167641.XA priority Critical patent/CN117935296B/zh
Publication of CN117935296A publication Critical patent/CN117935296A/zh
Application granted granted Critical
Publication of CN117935296B publication Critical patent/CN117935296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于数据处理领域,公开了一种就业质量报告生成***,包括图像识别装置,图像识别装置包括切割模块和识别模块;切割模块用于获取扫描图像中的待识别区域:第一步,对扫描图像进行灰度化处理,得到灰度图像;第二步,将灰度图像中灰度值大于自适应阈值的像素点的灰度值设置为255,得到计算图像;第三步,获取计算图像中的属于最***的边框的像素点的连通域;第四步,将计算图像中由最***的边框的像素点的连通域所围成的区域作为待识别区域;识别模块用于采用文字识别算法对待识别区域进行识别,获得待识别区域中的文字。本发明仅对很少的一部分像素点进行识别便能够得到问卷的最***的边框,从而大幅度提高了得到待识别区域的效率。

Description

一种就业质量报告生成***
技术领域
本发明涉及数据处理领域,尤其涉及一种就业质量报告生成***。
背景技术
对毕业生的基业质量分析时,通常会先向毕业生发放调查问卷,然后再对调查问卷的结果进行汇总分析,从而得到就业质量报告。为了提高分析的效率,通常需要对纸质的调查问卷进行扫描,将纸质调查问卷扫描为图像,然后对图像进行识别,从而将图像中的调查结果转换为数据库中的表进行存储,接着对表中的内容进行汇总分析,将分析的得到的内容填入到预先设计好的就业质量报告模板中,得到就业质量报告。
在对图像进行识别时,为了提高识别的效率,需要先获得调查问卷的区域,然后采用OCR等文字识别算法对图像进行识别,从而得到图像中的文字,然后将属于毕业生填写的文字写入到数据库的表中。
由于调查问卷的周围通常都会存在框线,因此,现有技术通常是使用Hough_line直线检测算法来进行直线检测,对识别出的直线进行筛选,得到属于问卷中的最***的框线,从而将扫描得到的图像中由最***的框线围成的封闭区域作为进行识别的区域。
但是,由于现有技术需要识别出所有的直线之后再进行筛选才能确定扫描得到的图像中用于进行识别的区域,因此,需要花费较多的时间,影响了生成就业质量报告的速度。
发明内容
本发明的目的在于公开一种就业质量报告生成***,解决在基于纸质的就业质量问卷生成就业质量报告的过程中,如何对提高扫描得到的图像进行识别的效率,从而提高生成基业就业质量报告的速度的问题。
为了达到上述目的,本发明提供如下技术方案:
本发明提供了一种就业质量报告生成***,包括图像识别装置,图像识别装置包括切割模块和识别模块;
切割模块用于采用如下方式获取对纸质的就业质量调查问卷进行扫描得到的扫描图像进行切割,获取扫描图像中的待识别区域:
第一步,对扫描图像进行灰度化处理,得到灰度图像;
第二步,将灰度图像中灰度值大于自适应阈值的像素点的灰度值设置为255,得到计算图像;
第三步,获取计算图像中的属于最***的边框的像素点的连通域,包括:
S1,获取计算图像中灰度值不等于255的像素点的集合A;
S2,获取集合A中横坐标最小的像素点的集合A1;
S3,对集合A1中的像素点进行筛选,获取纵坐标最大的像素点a1;
S4,获取a1的8邻域中,灰度值不等于255的像素点的集合an1;
S5,分别获取an1中的每个像素点与a1之间所确定的直线;
S6,分别对每条获得的直线进行裁剪,得到多条直线线段;
S7,分别计算得到的每条直线线段的边框概率系数;
S8,若最大的边框概率系数大于设定的边框概率阈值,则将该直线线段作为就业质量调查问卷的其中一条最***的边框,进入S9,否则,进入S10;
S9,基于获得的边框确定属于最***的边框的像素点的连通域;
S10,将a1从A删除,进入S2;
第四步,将计算图像中由最***的边框的像素点的连通域所围成的区域作为待识别区域;
识别模块用于采用文字识别算法对待识别区域进行识别,获得待识别区域中的文字。
优选地,S9包括:
S91,以S8获得的边框的其中一个端点为扩张像素点;
S92,将扩张像素点存入集合B;
S93,获取扩张像素点的8邻域中,不属于集合B的且与扩张像素点之间的灰度值差距最小的像素点;
S94,将S93中获取的像素点作为下一个扩张像素点;
S95,判断下一个扩张像素点是否为S8获得的边框的另一个端点,若是,则将集合B中的像素点与S8获得的边框中的像素点所处的区域作为最***的边框的像素点的连通域;若否,进入S92。
优选地,对扫描图像进行灰度化处理,得到灰度图像,包括:
使用改进的灰度化公式对扫描图像进行灰度化处理,得到灰度化图像;
其中,改进的灰度化公式的获取过程包括:
将传统的加权平均灰度化公式表示为:
G(x,y)=w1×R(x,y)+w2×G(x,y)+w3×B(x,y)
G(x,y)为坐标(x,y)处的像素点的灰度值,R(x,y)、G(x,y)和B(x,y)分别为坐标(x,y)处的像素点在RGB颜色空间中的红色分量、绿色分量和蓝色分量所对应的图像中的像素值;w1、w2和w3分别为R(x,y)、G(x,y)和B(x,y)的权重;
基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw1、aw2和aw3
则改进的灰度化公式为:
aG(x,y)=aw1×R(x,y)+aw2×G(x,y)+aw3×B(x,y)。
优选地,基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw1、aw2和aw3,包括:
使用如下公式计算aw1
msgwei1表示R(x,y)的数据量参数;δ表示预设的数值;
effifw1、effifw2、effifw3分别表示R(x,y)、G(x,y)和B(x,y)的数据量;
使用如下公式计算aw2
msgwei2表示G(x,y)的数据量参数;
使用如下公式计算aw3
msgwei3表示B(x,y)的数据量参数;
优选地,还包括文字分类装置;
文字分类装置用于对图像识别装置获得的文字进行分类,将文字分为属于字段的文字和属于字段对应的内容的文字。
优选地,还包括数据库装置;
数据库装置用于将属于字段对应的内容的文字填入到数据库的表中对应的字段中。
优选地,还包括分析装置;
分析装置用于根据设定的计算项目对表中的所有的数据进行统计,得到统计结果。
优选地,还包括生成装置;
生成装置用于将分别将每一项统计结果填入到预设的就业质量报告模板中,得到就业质量报告。
优选地,将文字分为属于字段的文字和属于字段对应的内容的文字,包括:
将属于同一个框格中的文字分别与数据库中的表的每个字段进行匹配,若匹配成功,则表示这个框格中的文字属于字段的文字,若匹配失败,则表示这个框格中的文字属于字段对应的内容的文字。
优选地,数据库中的数据库的表的字段包括年龄、毕业学校、性别、学历、公司名称、年收入、公司员工总数。
有益效果:
现有技术采用Hough_line直线检测算法来得到就业质量调查问卷所有框线后再从得到的框线筛选出最***的框线,这种获取方式需要对所有的像素点均进行直线检测,然后再对得到的直线进行筛选,显然计算速度比较慢。
与现有技术不同,本发明是先对灰度图像中的像素点进行灰度值的设置,将不属于文字以及边框部分的大部分的像素点的像素值均设置为255,即设置为与背景相同的白色,然后,由于扫描图像中,属于问卷的区域可能存在倾斜的情况,问卷最***的边框可能不会完全与扫描图像的边缘所平行,因此,本发明依次获取集合A中横坐标最小且纵坐标最大的像素点,基于该像素点的邻域来获得多条直线线段,然后判断得到的直线线段是否为边框,在得到其中一条边框之后,本发明便利用边框之间的像素点的灰度值非常相近的特征,来得到属于最***的边框的像素点所组成的连通域,处于该连通域中的像素点便是待识别区域中的像素点。
因此,本发明并不需要对所有的像素点进行计算,而是能够仅对很少的一部分像素点进行识别便能够得到问卷的最***的边框,从而大幅度提高了得到待识别区域的效率,进而大幅度提高生成就业质量的速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种就业质量报告生成***的一种示意图。
图2为本发明的一种就业质量报告生成***的另一种示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示的一种实施例,本发明提供了一种就业质量报告生成***,包括图像识别装置,图像识别装置包括切割模块和识别模块;
切割模块用于采用如下方式获取对纸质的就业质量调查问卷进行扫描得到的扫描图像进行切割,获取扫描图像中的待识别区域:
第一步,对扫描图像进行灰度化处理,得到灰度图像;
第二步,将灰度图像中灰度值大于自适应阈值的像素点的灰度值设置为255,得到计算图像;
第三步,获取计算图像中的属于最***的边框的像素点的连通域,包括:
S1,获取计算图像中灰度值不等于255的像素点的集合A;
S2,获取集合A中横坐标最小的像素点的集合A1;
S3,对集合A1中的像素点进行筛选,获取纵坐标最大的像素点a1;
S4,获取a1的8邻域中,灰度值不等于255的像素点的集合an1;
S5,分别获取an1中的每个像素点与a1之间所确定的直线;
S6,分别对每条获得的直线进行裁剪,得到多条直线线段;
S7,分别计算得到的每条直线线段的边框概率系数;
S8,若最大的边框概率系数大于设定的边框概率阈值,则将该直线线段作为就业质量调查问卷的其中一条最***的边框,进入S9,否则,进入S10;
S9,基于获得的边框确定属于最***的边框的像素点的连通域;
S10,将a1从A删除,进入S2;
第四步,将计算图像中由最***的边框的像素点的连通域所围成的区域作为待识别区域;
识别模块用于采用文字识别算法对待识别区域进行识别,获得待识别区域中的文字。
现有技术采用Hough_line直线检测算法来得到就业质量调查问卷所有框线后再从得到的框线筛选出最***的框线,这种获取方式需要对所有的像素点均进行直线检测,然后再对得到的直线进行筛选,显然计算速度比较慢。
与现有技术不同,本发明是先对灰度图像中的像素点进行灰度值的设置,将不属于文字以及边框部分的大部分的像素点的像素值均设置为255,即设置为与背景相同的白色,然后,由于扫描图像中,属于问卷的区域可能存在倾斜的情况,问卷最***的边框可能不会完全与扫描图像的边缘所平行,因此,本发明依次获取集合A中横坐标最小且纵坐标最大的像素点,基于该像素点的邻域来获得多条直线线段,然后判断得到的直线线段是否为边框,在得到其中一条边框之后,本发明便利用边框之间的像素点的灰度值非常相近的特征,来得到属于最***的边框的像素点所组成的连通域,处于该连通域中的像素点便是待识别区域中的像素点。
因此,本发明并不需要对所有的像素点进行计算,而是能够仅对很少的一部分像素点进行识别便能够得到问卷的最***的边框,从而大幅度提高了得到待识别区域的效率,进而大幅度提高生成就业质量的速度。
优选地,自适应阈值的获取过程包括:
将使得如下不等式成立的最大的灰度值k作为自适应阈值:
numg表示灰度图像中灰度值为g的像素点的总数,numimg表示灰度图像中的像素点的总数,adpthre表示灰度图像中,属于就业质量调查问卷的问卷内容的文字的面积与灰度图像的面积之间的比例。
这个比例可以通过人工测算的方式确定,因为不同的就业质量调查问卷中,属于问卷内容的文字的面积并不同。
在灰度图像中,属于背景的像素点占了比较大的比例,因此,本发明通过设置自适应阈值来将这些像素点排除在集合A之外,从而大幅度地减少了参与后面的计算的像素点的数量,有利于提高计算的效率。
另外,为了提高获取待识别区域的效率,本发明并没有直接采用图像分割算法来获取属于背景的像素点,因为图像分割算法需要对所有的像素点进行较为复杂的计算,会影响获得待识别区域的效率。而本发明通过设置不等式,将使得不等式成立的最大的灰度值k来作为自适应阈值,从而使得本发明的阈值能够随着扫描的图像的不同而自适应地变化,有利于快速去除大部分属于背景的像素点的同时,保证了去除的结果的准确程度。
具体的,获取集合A中纵坐标最大的像素点,能够在集合A1中存在多个横坐标最小的像素点时,快速地筛选出属于最***的边框的端点,从而避免分别对集合A中的每个像素点均计算S4-S10的计算,有利于提高计算效率。
具体的,分别获取an1中的每个像素点与a1之间所确定的直线,包括:
采用两点确定一条之间的原理来得到直线,a1的和an1中的任意一个像素点均可以确定一条直线。
优选地,分别对每条获得的直线进行裁剪,得到多条直线线段,包括:
将扫描图像中,属于最***的边框的长度和宽度分别表示为len和wid;len大于等于wid;
分别对an1中的每个像素点进行如下计算:
对于an1中的像素点b,
以a1为直线线段的其中一个端点,在基于a1和b所确定的直线上,沿着像素点b所在的方向,获取一个像素点b1,使得a1和b1之间的直线线段的长度为wid,从而得到直线线段。
通过以宽度对直线进行裁剪,能够实现基于有限的的像素点来计算边框概率系数。另外,本发明并不需要确定边框中的长边或短边来作为获取连通域的边框,因此在后续判断边框概率系数时,只需要一个阈值能够确定属于最***的边框,从而使得获取边框的效率更高。
例如,若像素点b在a1的正右方,则以a1为其中一个端点,沿着a1的正右侧进行搜索,得到满足要求的像素点b1。
优选地,边框概率系数的计算公式为:
borpro表示边框概率系数,numlin表示直线线段所经过的所有像素点中,属于集合A的像素点的总数;midgray表示直线线段所经过的所有像素点的灰度值的中值,avegray表示直线线段所经过的所有像素点的灰度值的均值,α表示第一权重,β表示第二权重,Nor表示获取括号中的变量的归一化数值。
在计算边框概率系数的过程中,一方面是考虑连续性,另一方面,则是考虑像素点的灰度值的波动程度,numlin能够对连续性进行表征,属于集合A中的像素点的数量越多,则表示线段属于最***的边框的可能性越大,而当像素点的像素点的灰度值的中值和均值之间的差值越小时,表示直线线段的波动程度越小,属于最***的边框的概率越大。因此,本发明能够从两个不同的角度对属于边框的概率进行综合表示,有利于提高最***的边框的检测的准确性。
优选地,第一权重和第二权重分别为0.55和0.45。
优选地,边框概率阈值为0.9。
优选地,S9包括:
S91,以S8获得的边框的其中一个端点为扩张像素点;
S92,将扩张像素点存入集合B;
S93,获取扩张像素点的8邻域中,不属于集合B的且与扩张像素点之间的灰度值差距最小的像素点;
S94,将S93中获取的像素点作为下一个扩张像素点;
S95,判断下一个扩张像素点是否为S8获得的边框的另一个端点,若是,则将集合B中的像素点与S8获得的边框中的像素点所处的区域作为最***的边框的像素点的连通域;若否,进入S92。
具体的,灰度值差距最小,指的是两个像素点之间的灰度值的差值的绝对值最小。另外,本发明在获取下一个扩张像素点时,通过限定不属于集合B中,从而避免获得的过程进入局部死循环中,使得属于最***的边框的像素点能够不断地往远处延伸。
优选地,对扫描图像进行灰度化处理,得到灰度图像,包括:
使用改进的灰度化公式对扫描图像进行灰度化处理,得到灰度化图像;
其中,改进的灰度化公式的获取过程包括:
将传统的加权平均灰度化公式表示为:
G(x,y)=w1×R(x,y)+w2×G(x,y)+w3×B(x,y)
G(x,y)为坐标(x,y)处的像素点的灰度值,R(x,y)、G(x,y)和B(x,y)分别为坐标(x,y)处的像素点在RGB颜色空间中的红色分量、绿色分量和蓝色分量所对应的图像中的像素值;w1、w2和w3分别为R(x,y)、G(x,y)和B(x,y)的权重;
基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw1、aw2和aw3
则改进的灰度化公式为:
aG(x,y)=aw1×R(x,y)+aw2×G(x,y)+aw3×B(x,y)。
优选地,基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw1、aw2和aw3,包括:
使用如下公式计算aw1
msgwei1表示R(x,y)的数据量参数;δ表示预设的数值;
effifw1、effifw2、effifw3分别表示R(x,y)、G(x,y)和B(x,y)的数据量;
使用如下公式计算aw2
msgwei2表示G(x,y)的数据量参数;
使用如下公式计算aw3
msgwei3表示B(x,y)的数据量参数;
现有技术中,采用加权平均的方式对图像进行灰度化时,采用的权重通常都是固定的,例如w1、w2和w3的值分别为0.11、0.6和0.3。但是,现有技术并没有考虑到三个分量图像中的数据量的分布情况,从而使得得到的灰度图像中,不能够尽可能多地保留原图像的信息,这样,在对就业质量调查问卷进行识别的过程中,出现识别错误的可能性便会比较大。因此,本发明利用数据量参数与原来的权重占比之间大小关系来对原有的权重进行调整,当数据量参数大于等于原有的权重时,就增加权重的值;反之,就减少原有的权重的值,而且权重的变化量与数据量参数的大小自适应相关,从而使得灰度化过程中,不同分量的图像对最终的灰度图像的影响程度能够随着数据量的变化而自适应地变化,使得得到的灰度图像能够更有效地保留原图像的信息。
优选地,预设的数值为0.1。
优选地,数据量的计算公式为:
datavol表示数据量,UD表示D分量图像中的像素点的集合,pixvalz表示像素值为z的像素点的总数,zspixval表示UD中的像素点的像素值的最小值,numv表示像素值为v的像素点的数量,λ1表示像素值差异权重,λ2表示信息量权重,D∈{红色,绿色,蓝色};
在计算数据量的过程中,不仅参考了像素点的像素值之间的差别,而且还参考了不同的像素值的像素点在数量上的差别,从而使得图像中所携带的原有图像的有效信息越多时,数据量越大,能够对分量图像中携带有原有图像的信息的多少进行综合的表示,从而得到更加准确的修正后的权重。
优选地,像素值差异权重和信息量权重分别为0.2和0.8。
优选地,如图2所示,还包括文字分类装置;
文字分类装置用于对图像识别装置获得的文字进行分类,将文字分为属于字段的文字和属于字段对应的内容的文字。
在就业质量调查问卷中,存在多个框格,在空白的框格的左侧的框格中的文字便是属于字段的文字。
优选地,还包括数据库装置;
数据库装置用于将属于字段对应的内容的文字填入到数据库的表中对应的字段中。
通过属于字段对应的内容的文字的左侧的框格中的文字所表示的字段,能够在数据库的表中获得对应的字段,然后将属于字段对应的内容的文字填入到表中该字段的位置。
例如,当左侧的框格为“公司名称”时,则将该框格的右侧的文字填入到表中属于“公司名称”这一字段的位置中。
优选地,还包括分析装置;
分析装置用于根据设定的计算项目对表中的所有的数据进行统计,得到统计结果。
计算项目包括占比、数量等。统计结果包括设定的各个区间的年收入的毕业生的数量、各种类型的学历的毕业生的数量、各种类型的学历的毕业生的占比等。
优选地,还包括生成装置;
生成装置用于将分别将每一项统计结果填入到预设的就业质量报告模板中,得到就业质量报告。
在就业质量报告模板中,常用的统计术语已经进行了填写,只需要将对应的统计结果填入到对应的空白位置中,便可以得到就业质量报告。
例如,在2023-2024年毕业的毕业生中,年收入大于20万的毕业生的比例为xx。只需要计算出对应的比例,然后填入“xx”的位置即可。
优选地,生成装置还用于将统计结果发送至大语言模型中,由大语言模型生成就业质量报告。
优选地,将文字分为属于字段的文字和属于字段对应的内容的文字,包括:
将属于同一个框格中的文字分别与数据库中的表的每个字段进行匹配,若匹配成功,则表示这个框格中的文字属于字段的文字,若匹配失败,则表示这个框格中的文字属于字段对应的内容的文字。
优选地,数据库中的数据库的表的字段包括年龄、毕业学校、性别、学历、公司名称、年收入、公司员工总数。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种就业质量报告生成***,其特征在于,包括图像识别装置,图像识别装置包括切割模块和识别模块;
切割模块用于采用如下方式获取对纸质的就业质量调查问卷进行扫描得到的扫描图像进行切割,获取扫描图像中的待识别区域:
第一步,对扫描图像进行灰度化处理,得到灰度图像;
第二步,将灰度图像中灰度值大于自适应阈值的像素点的灰度值设置为255,得到计算图像;
第三步,获取计算图像中的属于最***的边框的像素点的连通域,包括:
S1,获取计算图像中灰度值不等于255的像素点的集合A;
S2,获取集合A中横坐标最小的像素点的集合A1;
S3,对集合A1中的像素点进行筛选,获取纵坐标最大的像素点a1;
S4,获取a1的8邻域中,灰度值不等于255的像素点的集合an1;
S5,分别获取an1中的每个像素点与a1之间所确定的直线;
S6,分别对每条获得的直线进行裁剪,得到多条直线线段;
S7,分别计算得到的每条直线线段的边框概率系数;
S8,若最大的边框概率系数大于设定的边框概率阈值,则将该直线线段作为就业质量调查问卷的其中一条最***的边框,进入S9,否则,进入S10;
S9,基于获得的边框确定属于最***的边框的像素点的连通域;
S10,将a1从A删除,进入S2;
第四步,将计算图像中由最***的边框的像素点的连通域所围成的区域作为待识别区域;
识别模块用于采用文字识别算法对待识别区域进行识别,获得待识别区域中的文字。
2.根据权利要求1所述的一种就业质量报告生成***,其特征在于,S9包括:
S91,以S8获得的边框的其中一个端点为扩张像素点;
S92,将扩张像素点存入集合B;
S93,获取扩张像素点的8邻域中,不属于集合B的且与扩张像素点之间的灰度值差距最小的像素点;
S94,将S93中获取的像素点作为下一个扩张像素点;
S95,判断下一个扩张像素点是否为S8获得的边框的另一个端点,若是,则将集合B中的像素点与S8获得的边框中的像素点所处的区域作为最***的边框的像素点的连通域;若否,进入S92。
3.根据权利要求1所述的一种就业质量报告生成***,其特征在于,对扫描图像进行灰度化处理,得到灰度图像,包括:
使用改进的灰度化公式对扫描图像进行灰度化处理,得到灰度化图像;
其中,改进的灰度化公式的获取过程包括:
将传统的加权平均灰度化公式表示为:
G(x,y)=w1×R(x,y)+w2×G(x,y)+w3×B(x,y)
G(x,y)为坐标(x,y)处的像素点的灰度值,R(x,y)、G(x,y)和B(x,y)分别为坐标(x,y)处的像素点在RGB颜色空间中的红色分量、绿色分量和蓝色分量所对应的图像中的像素值;w1、w2和w3分别为R(x,y)、G(x,y)和B(x,y)的权重;
基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw1、aw2和aw3
则改进的灰度化公式为:
aG(x,y)=aw1×R(x,y)+aw2×G(x,y)+aw3×B(x,y)。
4.根据权利要求3所述的一种就业质量报告生成***,其特征在于,基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw1、aw2和aw3,包括:
使用如下公式计算aw1
msgwei1表示R(x,y)的数据量参数;δ表示预设的数值;
effifw1、effifw2、effifw3分别表示R(x,y)、G(x,y)和B(x,y)的数据量;
使用如下公式计算aw2
msgwei2表示G(x,y)的数据量参数;
使用如下公式计算aw3
msgwei3表示B(x,y)的数据量参数;
5.根据权利要求1所述的一种就业质量报告生成***,其特征在于,还包括文字分类装置;
文字分类装置用于对图像识别装置获得的文字进行分类,将文字分为属于字段的文字和属于字段对应的内容的文字。
6.根据权利要求5所述的一种就业质量报告生成***,其特征在于,还包括数据库装置;
数据库装置用于将属于字段对应的内容的文字填入到数据库的表中对应的字段中。
7.根据权利要求6所述的一种就业质量报告生成***,其特征在于,还包括分析装置;
分析装置用于根据设定的计算项目对表中的所有的数据进行统计,得到统计结果。
8.根据权利要求7所述的一种就业质量报告生成***,其特征在于,还包括生成装置;
生成装置用于将分别将每一项统计结果填入到预设的就业质量报告模板中,得到就业质量报告。
9.根据权利要求6所述的一种就业质量报告生成***,其特征在于,将文字分为属于字段的文字和属于字段对应的内容的文字,包括:
将属于同一个框格中的文字分别与数据库中的表的每个字段进行匹配,若匹配成功,则表示这个框格中的文字属于字段的文字,若匹配失败,则表示这个框格中的文字属于字段对应的内容的文字。
10.根据权利要求6所述的一种就业质量报告生成***,其特征在于,数据库中的数据库的表的字段包括年龄、毕业学校、性别、学历、公司名称、年收入、公司员工总数。
CN202410167641.XA 2024-02-06 2024-02-06 一种就业质量报告生成*** Active CN117935296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410167641.XA CN117935296B (zh) 2024-02-06 2024-02-06 一种就业质量报告生成***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410167641.XA CN117935296B (zh) 2024-02-06 2024-02-06 一种就业质量报告生成***

Publications (2)

Publication Number Publication Date
CN117935296A true CN117935296A (zh) 2024-04-26
CN117935296B CN117935296B (zh) 2024-06-04

Family

ID=90764696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410167641.XA Active CN117935296B (zh) 2024-02-06 2024-02-06 一种就业质量报告生成***

Country Status (1)

Country Link
CN (1) CN117935296B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172788A (zh) * 2024-05-15 2024-06-11 中国人民解放军总医院第八医学中心 一种卡介苗接种记录ocr智能识别及管理***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007082164A (ja) * 2005-09-16 2007-03-29 Ricoh Co Ltd 画像処理装置、画像形成装置、画像処理方法、プログラム及び記憶媒体
JP2008048147A (ja) * 2006-08-16 2008-02-28 Nec Engineering Ltd 2値画像の階調補正処理方法
CN106033535A (zh) * 2015-03-18 2016-10-19 成都理想境界科技有限公司 电子阅卷方法
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN106846011A (zh) * 2016-12-30 2017-06-13 金蝶软件(中国)有限公司 营业执照识别方法和装置
CN108717542A (zh) * 2018-04-23 2018-10-30 北京小米移动软件有限公司 识别文字区域的方法、装置及计算机可读存储介质
CN111414877A (zh) * 2020-03-26 2020-07-14 遥相科技发展(北京)有限公司 去除颜色边框的表格裁切方法、图像处理设备和存储介质
WO2021000702A1 (zh) * 2019-06-29 2021-01-07 华为技术有限公司 图像检测方法、设备以及***
CN114926839A (zh) * 2022-07-22 2022-08-19 富璟科技(深圳)有限公司 基于rpa和ai的图像识别方法及电子设备
CN115588208A (zh) * 2022-09-29 2023-01-10 浙江工业大学 一种基于数字图像处理技术的全线表结构识别方法
CN116168409A (zh) * 2023-04-20 2023-05-26 广东聚智诚科技有限公司 一种应用于标准、专利分析报告自动生成***
CN116343228A (zh) * 2023-03-27 2023-06-27 上海第二工业大学 一种水表智能读数方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007082164A (ja) * 2005-09-16 2007-03-29 Ricoh Co Ltd 画像処理装置、画像形成装置、画像処理方法、プログラム及び記憶媒体
JP2008048147A (ja) * 2006-08-16 2008-02-28 Nec Engineering Ltd 2値画像の階調補正処理方法
CN106033535A (zh) * 2015-03-18 2016-10-19 成都理想境界科技有限公司 电子阅卷方法
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN106846011A (zh) * 2016-12-30 2017-06-13 金蝶软件(中国)有限公司 营业执照识别方法和装置
CN108717542A (zh) * 2018-04-23 2018-10-30 北京小米移动软件有限公司 识别文字区域的方法、装置及计算机可读存储介质
WO2021000702A1 (zh) * 2019-06-29 2021-01-07 华为技术有限公司 图像检测方法、设备以及***
CN111414877A (zh) * 2020-03-26 2020-07-14 遥相科技发展(北京)有限公司 去除颜色边框的表格裁切方法、图像处理设备和存储介质
CN114926839A (zh) * 2022-07-22 2022-08-19 富璟科技(深圳)有限公司 基于rpa和ai的图像识别方法及电子设备
CN115588208A (zh) * 2022-09-29 2023-01-10 浙江工业大学 一种基于数字图像处理技术的全线表结构识别方法
CN116343228A (zh) * 2023-03-27 2023-06-27 上海第二工业大学 一种水表智能读数方法及***
CN116168409A (zh) * 2023-04-20 2023-05-26 广东聚智诚科技有限公司 一种应用于标准、专利分析报告自动生成***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ARTURO J.MENDEZ等: "Automatic detection of breast border and nipple in digital mammograms", 《COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE》, vol. 49, no. 3, 31 May 1996 (1996-05-31), pages 253 - 262 *
JINFENG BAI等: "Chinese Image Text Recognition on grayscale pixels", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》, 4 May 2014 (2014-05-04), pages 1 - 10 *
卜飞宇: "一种实用的金融票据框线去除算法", 《电脑知识与技术》, vol. 12, no. 23, 31 August 2016 (2016-08-31), pages 148 - 150 *
陈学保: "车牌字符识别算法的研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》, no. 3, 15 March 2014 (2014-03-15), pages 034 - 610 *
雷寰宇: "基于图像的表格识别问题研究", 《科技视界》, no. 13, 31 December 2021 (2021-12-31), pages 32 - 34 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172788A (zh) * 2024-05-15 2024-06-11 中国人民解放军总医院第八医学中心 一种卡介苗接种记录ocr智能识别及管理***
CN118172788B (zh) * 2024-05-15 2024-07-16 中国人民解放军总医院第八医学中心 一种卡介苗接种记录ocr智能识别及管理***

Also Published As

Publication number Publication date
CN117935296B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN111161243B (zh) 基于样本增强的工业产品表面缺陷检测方法
CN117935296B (zh) 一种就业质量报告生成***
CN105913093B (zh) 一种用于文字识别处理的模板匹配方法
CN110414538B (zh) 缺陷分类方法、缺陷分类训练方法及其装置
US8184915B2 (en) Device and method for fast computation of region based image features
US6990235B2 (en) Color image processing apparatus and pattern extracting apparatus
CN109784342B (zh) 一种基于深度学习模型的ocr识别方法及终端
CN114723705B (zh) 一种基于图像处理的布匹瑕疵的检测方法
WO2021258634A1 (zh) 一种图像审计识别方法、装置及存储介质
CN110647795A (zh) 一种表格识别方法
EP0649113A2 (en) Multifont optical character recognition using a box connectivity approach
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
CN113420669B (zh) 基于多尺度训练和级联检测的文档版面分析方法和***
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN111783885A (zh) 一种基于局部增强的毫米波图像的质量分类模型构建方法
CN115346227B (zh) 一种基于版式文件对电子文件矢量化的方法
CN111259893A (zh) 一种基于深度学习的智能工具管理方法
CN115393861B (zh) 一种手写体文本精准分割方法
CN114820625A (zh) 一种汽车顶块缺陷检测方法
CN117314940B (zh) 基于人工智能的激光切割零件轮廓快速分割方法
CN112258532B (zh) 一种超声图像中胼胝体的定位及分割方法
CN116703899B (zh) 基于图像数据的袋式包装机产品质量检测方法
CN104077562B (zh) 一种答卷的扫描方向判断方法
CN111274891B (zh) 一种面向简谱图像的音高及对应歌词提取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant