CN117935296A

CN117935296A - 一种就业质量报告生成***

Info

Publication number: CN117935296A
Application number: CN202410167641.XA
Authority: CN
Inventors: 王跃红; 王书华
Original assignee: Guangdong Ducaizi Group Co ltd
Current assignee: Guangdong Ducaizi Group Co ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-04-26
Anticipated expiration: 2044-02-06
Also published as: CN117935296B

Abstract

本发明属于数据处理领域，公开了一种就业质量报告生成***，包括图像识别装置，图像识别装置包括切割模块和识别模块；切割模块用于获取扫描图像中的待识别区域：第一步，对扫描图像进行灰度化处理，得到灰度图像；第二步，将灰度图像中灰度值大于自适应阈值的像素点的灰度值设置为255，得到计算图像；第三步，获取计算图像中的属于最***的边框的像素点的连通域；第四步，将计算图像中由最***的边框的像素点的连通域所围成的区域作为待识别区域；识别模块用于采用文字识别算法对待识别区域进行识别，获得待识别区域中的文字。本发明仅对很少的一部分像素点进行识别便能够得到问卷的最***的边框，从而大幅度提高了得到待识别区域的效率。

Description

一种就业质量报告生成***

技术领域

本发明涉及数据处理领域，尤其涉及一种就业质量报告生成***。

背景技术

对毕业生的基业质量分析时，通常会先向毕业生发放调查问卷，然后再对调查问卷的结果进行汇总分析，从而得到就业质量报告。为了提高分析的效率，通常需要对纸质的调查问卷进行扫描，将纸质调查问卷扫描为图像，然后对图像进行识别，从而将图像中的调查结果转换为数据库中的表进行存储，接着对表中的内容进行汇总分析，将分析的得到的内容填入到预先设计好的就业质量报告模板中，得到就业质量报告。

在对图像进行识别时，为了提高识别的效率，需要先获得调查问卷的区域，然后采用OCR等文字识别算法对图像进行识别，从而得到图像中的文字，然后将属于毕业生填写的文字写入到数据库的表中。

由于调查问卷的周围通常都会存在框线，因此，现有技术通常是使用Hough_line直线检测算法来进行直线检测，对识别出的直线进行筛选，得到属于问卷中的最***的框线，从而将扫描得到的图像中由最***的框线围成的封闭区域作为进行识别的区域。

但是，由于现有技术需要识别出所有的直线之后再进行筛选才能确定扫描得到的图像中用于进行识别的区域，因此，需要花费较多的时间，影响了生成就业质量报告的速度。

发明内容

本发明的目的在于公开一种就业质量报告生成***，解决在基于纸质的就业质量问卷生成就业质量报告的过程中，如何对提高扫描得到的图像进行识别的效率，从而提高生成基业就业质量报告的速度的问题。

为了达到上述目的，本发明提供如下技术方案：

本发明提供了一种就业质量报告生成***，包括图像识别装置，图像识别装置包括切割模块和识别模块；

切割模块用于采用如下方式获取对纸质的就业质量调查问卷进行扫描得到的扫描图像进行切割，获取扫描图像中的待识别区域：

第一步，对扫描图像进行灰度化处理，得到灰度图像；

第二步，将灰度图像中灰度值大于自适应阈值的像素点的灰度值设置为255，得到计算图像；

第三步，获取计算图像中的属于最***的边框的像素点的连通域，包括：

S1，获取计算图像中灰度值不等于255的像素点的集合A；

S2，获取集合A中横坐标最小的像素点的集合A1；

S3，对集合A1中的像素点进行筛选，获取纵坐标最大的像素点a1；

S4，获取a1的8邻域中，灰度值不等于255的像素点的集合an1；

S5，分别获取an1中的每个像素点与a1之间所确定的直线；

S6，分别对每条获得的直线进行裁剪，得到多条直线线段；

S7，分别计算得到的每条直线线段的边框概率系数；

S8，若最大的边框概率系数大于设定的边框概率阈值，则将该直线线段作为就业质量调查问卷的其中一条最***的边框，进入S9，否则，进入S10；

S9，基于获得的边框确定属于最***的边框的像素点的连通域；

S10，将a1从A删除，进入S2；

第四步，将计算图像中由最***的边框的像素点的连通域所围成的区域作为待识别区域；

识别模块用于采用文字识别算法对待识别区域进行识别，获得待识别区域中的文字。

优选地，S9包括：

S91，以S8获得的边框的其中一个端点为扩张像素点；

S92，将扩张像素点存入集合B；

S93，获取扩张像素点的8邻域中，不属于集合B的且与扩张像素点之间的灰度值差距最小的像素点；

S94，将S93中获取的像素点作为下一个扩张像素点；

S95，判断下一个扩张像素点是否为S8获得的边框的另一个端点，若是，则将集合B中的像素点与S8获得的边框中的像素点所处的区域作为最***的边框的像素点的连通域；若否，进入S92。

优选地，对扫描图像进行灰度化处理，得到灰度图像，包括：

使用改进的灰度化公式对扫描图像进行灰度化处理，得到灰度化图像；

其中，改进的灰度化公式的获取过程包括：

将传统的加权平均灰度化公式表示为：

G(x,y)＝w₁×R(x,y)+w₂×G(x,y)+w₃×B(x,y)

G(x,y)为坐标(x,y)处的像素点的灰度值，R(x,y)、G(x,y)和B(x,y)分别为坐标(x,y)处的像素点在RGB颜色空间中的红色分量、绿色分量和蓝色分量所对应的图像中的像素值；w₁、w₂和w₃分别为R(x,y)、G(x,y)和B(x,y)的权重；

基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw₁、aw₂和aw₃；

则改进的灰度化公式为：

aG(x,y)＝aw₁×R(x,y)+aw₂×G(x,y)+aw₃×B(x,y)。

优选地，基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw₁、aw₂和aw₃，包括：

使用如下公式计算aw₁：

msgwei₁表示R(x,y)的数据量参数；δ表示预设的数值；

effifw₁、effifw₂、effifw₃分别表示R(x,y)、G(x,y)和B(x,y)的数据量；

使用如下公式计算aw₂：

msgwei₂表示G(x,y)的数据量参数；

使用如下公式计算aw₃：

msgwei₃表示B(x,y)的数据量参数；

优选地，还包括文字分类装置；

文字分类装置用于对图像识别装置获得的文字进行分类，将文字分为属于字段的文字和属于字段对应的内容的文字。

优选地，还包括数据库装置；

数据库装置用于将属于字段对应的内容的文字填入到数据库的表中对应的字段中。

优选地，还包括分析装置；

分析装置用于根据设定的计算项目对表中的所有的数据进行统计，得到统计结果。

优选地，还包括生成装置；

生成装置用于将分别将每一项统计结果填入到预设的就业质量报告模板中，得到就业质量报告。

优选地，将文字分为属于字段的文字和属于字段对应的内容的文字，包括：

将属于同一个框格中的文字分别与数据库中的表的每个字段进行匹配，若匹配成功，则表示这个框格中的文字属于字段的文字，若匹配失败，则表示这个框格中的文字属于字段对应的内容的文字。

优选地，数据库中的数据库的表的字段包括年龄、毕业学校、性别、学历、公司名称、年收入、公司员工总数。

有益效果：

现有技术采用Hough_line直线检测算法来得到就业质量调查问卷所有框线后再从得到的框线筛选出最***的框线，这种获取方式需要对所有的像素点均进行直线检测，然后再对得到的直线进行筛选，显然计算速度比较慢。

与现有技术不同，本发明是先对灰度图像中的像素点进行灰度值的设置，将不属于文字以及边框部分的大部分的像素点的像素值均设置为255，即设置为与背景相同的白色，然后，由于扫描图像中，属于问卷的区域可能存在倾斜的情况，问卷最***的边框可能不会完全与扫描图像的边缘所平行，因此，本发明依次获取集合A中横坐标最小且纵坐标最大的像素点，基于该像素点的邻域来获得多条直线线段，然后判断得到的直线线段是否为边框，在得到其中一条边框之后，本发明便利用边框之间的像素点的灰度值非常相近的特征，来得到属于最***的边框的像素点所组成的连通域，处于该连通域中的像素点便是待识别区域中的像素点。

因此，本发明并不需要对所有的像素点进行计算，而是能够仅对很少的一部分像素点进行识别便能够得到问卷的最***的边框，从而大幅度提高了得到待识别区域的效率，进而大幅度提高生成就业质量的速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种就业质量报告生成***的一种示意图。

图2为本发明的一种就业质量报告生成***的另一种示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示的一种实施例，本发明提供了一种就业质量报告生成***，包括图像识别装置，图像识别装置包括切割模块和识别模块；

第一步，对扫描图像进行灰度化处理，得到灰度图像；

S1，获取计算图像中灰度值不等于255的像素点的集合A；

S2，获取集合A中横坐标最小的像素点的集合A1；

S4，获取a1的8邻域中，灰度值不等于255的像素点的集合an1；

S5，分别获取an1中的每个像素点与a1之间所确定的直线；

S6，分别对每条获得的直线进行裁剪，得到多条直线线段；

S7，分别计算得到的每条直线线段的边框概率系数；

S10，将a1从A删除，进入S2；

优选地，自适应阈值的获取过程包括：

将使得如下不等式成立的最大的灰度值k作为自适应阈值：

num_g表示灰度图像中灰度值为g的像素点的总数，numimg表示灰度图像中的像素点的总数，adpthre表示灰度图像中，属于就业质量调查问卷的问卷内容的文字的面积与灰度图像的面积之间的比例。

这个比例可以通过人工测算的方式确定，因为不同的就业质量调查问卷中，属于问卷内容的文字的面积并不同。

在灰度图像中，属于背景的像素点占了比较大的比例，因此，本发明通过设置自适应阈值来将这些像素点排除在集合A之外，从而大幅度地减少了参与后面的计算的像素点的数量，有利于提高计算的效率。

另外，为了提高获取待识别区域的效率，本发明并没有直接采用图像分割算法来获取属于背景的像素点，因为图像分割算法需要对所有的像素点进行较为复杂的计算，会影响获得待识别区域的效率。而本发明通过设置不等式，将使得不等式成立的最大的灰度值k来作为自适应阈值，从而使得本发明的阈值能够随着扫描的图像的不同而自适应地变化，有利于快速去除大部分属于背景的像素点的同时，保证了去除的结果的准确程度。

具体的，获取集合A中纵坐标最大的像素点，能够在集合A1中存在多个横坐标最小的像素点时，快速地筛选出属于最***的边框的端点，从而避免分别对集合A中的每个像素点均计算S4-S10的计算，有利于提高计算效率。

具体的，分别获取an1中的每个像素点与a1之间所确定的直线，包括：

采用两点确定一条之间的原理来得到直线，a1的和an1中的任意一个像素点均可以确定一条直线。

优选地，分别对每条获得的直线进行裁剪，得到多条直线线段，包括：

将扫描图像中，属于最***的边框的长度和宽度分别表示为len和wid；len大于等于wid；

分别对an1中的每个像素点进行如下计算：

对于an1中的像素点b，

以a1为直线线段的其中一个端点，在基于a1和b所确定的直线上，沿着像素点b所在的方向，获取一个像素点b1，使得a1和b1之间的直线线段的长度为wid，从而得到直线线段。

通过以宽度对直线进行裁剪，能够实现基于有限的的像素点来计算边框概率系数。另外，本发明并不需要确定边框中的长边或短边来作为获取连通域的边框，因此在后续判断边框概率系数时，只需要一个阈值能够确定属于最***的边框，从而使得获取边框的效率更高。

例如，若像素点b在a1的正右方，则以a1为其中一个端点，沿着a1的正右侧进行搜索，得到满足要求的像素点b1。

优选地，边框概率系数的计算公式为：

borpro表示边框概率系数，numlin表示直线线段所经过的所有像素点中，属于集合A的像素点的总数；midgray表示直线线段所经过的所有像素点的灰度值的中值，avegray表示直线线段所经过的所有像素点的灰度值的均值，α表示第一权重，β表示第二权重，Nor表示获取括号中的变量的归一化数值。

在计算边框概率系数的过程中，一方面是考虑连续性，另一方面，则是考虑像素点的灰度值的波动程度，numlin能够对连续性进行表征，属于集合A中的像素点的数量越多，则表示线段属于最***的边框的可能性越大，而当像素点的像素点的灰度值的中值和均值之间的差值越小时，表示直线线段的波动程度越小，属于最***的边框的概率越大。因此，本发明能够从两个不同的角度对属于边框的概率进行综合表示，有利于提高最***的边框的检测的准确性。

优选地，第一权重和第二权重分别为0.55和0.45。

优选地，边框概率阈值为0.9。

优选地，S9包括：

S91，以S8获得的边框的其中一个端点为扩张像素点；

S92，将扩张像素点存入集合B；

S94，将S93中获取的像素点作为下一个扩张像素点；

具体的，灰度值差距最小，指的是两个像素点之间的灰度值的差值的绝对值最小。另外，本发明在获取下一个扩张像素点时，通过限定不属于集合B中，从而避免获得的过程进入局部死循环中，使得属于最***的边框的像素点能够不断地往远处延伸。

其中，改进的灰度化公式的获取过程包括：

将传统的加权平均灰度化公式表示为：

G(x,y)＝w₁×R(x,y)+w₂×G(x,y)+w₃×B(x,y)

基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw₁、aw₂和aw₃；

则改进的灰度化公式为：

aG(x,y)＝aw₁×R(x,y)+aw₂×G(x,y)+aw₃×B(x,y)。

使用如下公式计算aw₁：

msgwei₁表示R(x,y)的数据量参数；δ表示预设的数值；

使用如下公式计算aw₂：

msgwei₂表示G(x,y)的数据量参数；

使用如下公式计算aw₃：

msgwei₃表示B(x,y)的数据量参数；

现有技术中，采用加权平均的方式对图像进行灰度化时，采用的权重通常都是固定的，例如w₁、w₂和w₃的值分别为0.11、0.6和0.3。但是，现有技术并没有考虑到三个分量图像中的数据量的分布情况，从而使得得到的灰度图像中，不能够尽可能多地保留原图像的信息，这样，在对就业质量调查问卷进行识别的过程中，出现识别错误的可能性便会比较大。因此，本发明利用数据量参数与原来的权重占比之间大小关系来对原有的权重进行调整，当数据量参数大于等于原有的权重时，就增加权重的值；反之，就减少原有的权重的值，而且权重的变化量与数据量参数的大小自适应相关，从而使得灰度化过程中，不同分量的图像对最终的灰度图像的影响程度能够随着数据量的变化而自适应地变化，使得得到的灰度图像能够更有效地保留原图像的信息。

优选地，预设的数值为0.1。

优选地，数据量的计算公式为：

datavol表示数据量，UD表示D分量图像中的像素点的集合，pixval_z表示像素值为z的像素点的总数，zspixval表示UD中的像素点的像素值的最小值，num_v表示像素值为v的像素点的数量，λ₁表示像素值差异权重，λ₂表示信息量权重，D∈{红色，绿色，蓝色}；

在计算数据量的过程中，不仅参考了像素点的像素值之间的差别，而且还参考了不同的像素值的像素点在数量上的差别，从而使得图像中所携带的原有图像的有效信息越多时，数据量越大，能够对分量图像中携带有原有图像的信息的多少进行综合的表示，从而得到更加准确的修正后的权重。

优选地，像素值差异权重和信息量权重分别为0.2和0.8。

优选地，如图2所示，还包括文字分类装置；

在就业质量调查问卷中，存在多个框格，在空白的框格的左侧的框格中的文字便是属于字段的文字。

优选地，还包括数据库装置；

通过属于字段对应的内容的文字的左侧的框格中的文字所表示的字段，能够在数据库的表中获得对应的字段，然后将属于字段对应的内容的文字填入到表中该字段的位置。

例如，当左侧的框格为“公司名称”时，则将该框格的右侧的文字填入到表中属于“公司名称”这一字段的位置中。

优选地，还包括分析装置；

计算项目包括占比、数量等。统计结果包括设定的各个区间的年收入的毕业生的数量、各种类型的学历的毕业生的数量、各种类型的学历的毕业生的占比等。

优选地，还包括生成装置；

在就业质量报告模板中，常用的统计术语已经进行了填写，只需要将对应的统计结果填入到对应的空白位置中，便可以得到就业质量报告。

例如，在2023-2024年毕业的毕业生中，年收入大于20万的毕业生的比例为xx。只需要计算出对应的比例，然后填入“xx”的位置即可。

优选地，生成装置还用于将统计结果发送至大语言模型中，由大语言模型生成就业质量报告。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种就业质量报告生成***，其特征在于，包括图像识别装置，图像识别装置包括切割模块和识别模块；

第一步，对扫描图像进行灰度化处理，得到灰度图像；

S1，获取计算图像中灰度值不等于255的像素点的集合A；

S2，获取集合A中横坐标最小的像素点的集合A1；

S4，获取a1的8邻域中，灰度值不等于255的像素点的集合an1；

S5，分别获取an1中的每个像素点与a1之间所确定的直线；

S6，分别对每条获得的直线进行裁剪，得到多条直线线段；

S7，分别计算得到的每条直线线段的边框概率系数；

S10，将a1从A删除，进入S2；

2.根据权利要求1所述的一种就业质量报告生成***，其特征在于，S9包括：

S91，以S8获得的边框的其中一个端点为扩张像素点；

S92，将扩张像素点存入集合B；

S94，将S93中获取的像素点作为下一个扩张像素点；

3.根据权利要求1所述的一种就业质量报告生成***，其特征在于，对扫描图像进行灰度化处理，得到灰度图像，包括：

其中，改进的灰度化公式的获取过程包括：

将传统的加权平均灰度化公式表示为：

G(x,y)＝w₁×R(x,y)+w₂×G(x,y)+w₃×B(x,y)

基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw₁、aw₂和aw₃；

则改进的灰度化公式为：

aG(x,y)＝aw₁×R(x,y)+aw₂×G(x,y)+aw₃×B(x,y)。

4.根据权利要求3所述的一种就业质量报告生成***，其特征在于，基于R(x,y)、G(x,y)和B(x,y)计算修正后的权重aw₁、aw₂和aw₃，包括：

使用如下公式计算aw₁：

msgwei₁表示R(x,y)的数据量参数；δ表示预设的数值；

使用如下公式计算aw₂：

msgwei₂表示G(x,y)的数据量参数；

使用如下公式计算aw₃：

msgwei₃表示B(x,y)的数据量参数；

5.根据权利要求1所述的一种就业质量报告生成***，其特征在于，还包括文字分类装置；

6.根据权利要求5所述的一种就业质量报告生成***，其特征在于，还包括数据库装置；

7.根据权利要求6所述的一种就业质量报告生成***，其特征在于，还包括分析装置；

8.根据权利要求7所述的一种就业质量报告生成***，其特征在于，还包括生成装置；

9.根据权利要求6所述的一种就业质量报告生成***，其特征在于，将文字分为属于字段的文字和属于字段对应的内容的文字，包括：

10.根据权利要求6所述的一种就业质量报告生成***，其特征在于，数据库中的数据库的表的字段包括年龄、毕业学校、性别、学历、公司名称、年收入、公司员工总数。