CN110390324A

CN110390324A - 一种融合视觉与文本特征的简历版面分析算法

Info

Publication number: CN110390324A
Application number: CN201910685047.9A
Authority: CN
Inventors: 丁伟峰
Original assignee: Suzhou Lairen Technology Co Ltd
Current assignee: Suzhou Lairen Technology Co Ltd
Priority date: 2019-07-27
Filing date: 2019-07-27
Publication date: 2019-10-29

Abstract

本发明公开了一种融合视觉与文本特征的简历版面分析算法，该简历版面的分析包括以下步骤：步骤1：从pdf读取程序或ocr引擎中得到文本行及其坐标；步骤2：使用神经网络对第i行的文本进行编码，得到文本嵌入向量text_emb(i)；步骤3：提取对应行的图像，得到图像嵌入向量img_emb(i)；步骤4：提取字号、文字长度特征，并进行归一化得到特征向量；步骤5：聚合步骤2、3、4得到的向量，得到行嵌入line_emb(i)；步骤6：使用神经网络对行向量序列[line_emb(i)]进行序列标注。本发明通过结合简历的视觉特征和文本语义特征，对简历进行语义划分，识别独立的段落单元。

Description

一种融合视觉与文本特征的简历版面分析算法

技术领域

本发明涉及简历解析领域，尤其涉及一种融合视觉与文本特征的简历版面分析算法。

背景技术

传统的基于视觉的版面分析能区分图片、表格、段落等版面区域，但是很难识别区域的语义信息。在简历解析领域，需要对简历做语义解析，一般主要使用文字作为版面识别的主要依据，例如CN201810489651.X，将简历转化成文本之后，对文本进行建模处理，丢失了视觉特征，不能利用一些明显的视觉特点，比如分割线，字号大小，空白区域大小等等。

也有一些方法通过规则提取简单的视觉特征。例如CN201811613437.7，通过提取字号、是否加粗、字体种类、行文本长度等视觉特征，简历一个区分标题和主体的分类器。该方法没有考虑文本内容，使用字体等简单视觉特征，先区分标题和主体，将简历分块之后，对每块进一步进行处理。无法直接识别简历中不同段落单元的语义类别。

发明内容

本发明的目的在于克服现有技术存在的以上问题，提供一种融合视觉与文本特征的简历版面分析算法，本发明通过结合简历的视觉特征和文本语义特征，对简历进行语义划分，识别独立的段落单元。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种融合视觉与文本特征的简历版面分析算法，该简历版面的分析包括以下步骤：

步骤1）：从pdf读取程序或ocr引擎中得到文本行及其坐标；

步骤2）：使用神经网络对第i行的文本进行编码，得到文本嵌入向量text_emb(i)；

步骤3）：提取对应行的图像，得到图像嵌入向量img_emb(i)；

步骤4）：提取字号、文字长度特征，并进行归一化得到特征向量；

步骤5）：聚合步骤2、3、4得到的向量，得到行嵌入line_emb(i)；

步骤6）：使用神经网络对行向量序列[line_emb(i)]进行序列标注。

作为优选，所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。

作为优选，所述步骤2中的文本进行编码前先对文本进行预处理，可以使用字符级处理或者词语级处理，然后再使用序列编码的神经网络；包括但不局限于LSTM、CNN和Transformer等等。

作为优选，所述步骤2中的文本进行编码时进一步得到文本特征，用于识别该行的语义类别。

作为优选，所述步骤3中的图像在提取时先对图像进行预处理，得到文字块的掩码图像特征，作为其中一个通道；所述图像嵌入向量采用CNN进行图片级、窗口级和/或行级提取：其中：

图片级：以整个图片作为单位，提取特征，根据坐标映射提取当前行对应的特征；

窗口级：以当前行为中心，截取一个窗口大小的图像，提取特征；

行级：截取当前行的图片，提取特征。

作为优选，所述步骤4中的归一化是指对简历中的文字、字号做归一化处理；其中，字号可以使用排序归一化；字体，可以使用计数编码。采用此技术方案，由于不同简历使用的字体字号都不相同，需要先对特征进行归一化预处理。

作为优选，所述步骤5中的聚合包括但不限于拼接、平均、最大化池化等等。

作为优选，所述步骤5中得到的向量具有多维度的特征，可以更准确的预测语义类别和段落单元的边界。

作为优选，所述步骤6中的序列标注使用CNN或Transformer融合上下行信息，得到一个行向量可以选择再接一个CRF，输出序列标注，得到每一行的语义标注，进而得到每个语义段落单元的起止行号。本发明的有益效果是：

1.本发明通过结合简历的视觉特征和文本语义特征，对简历进行语义划分，识别独立的段落单元；

2.本发明通过结合视觉与文本特征，更准确的识别语义和边界；

3.本发明通过将简历的语义识别和段落单元识别合并成一个步骤，减少分步处理中每步的累积错误。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明涉及的整体流程结构示意图。

具体实施方式

下面结合附图对本发明作进一步的描述：

参照图1所示，一种融合视觉与文本特征的简历版面分析算法，该简历版面的分析包括以下步骤：

步骤1）：从pdf读取程序或ocr引擎中得到文本行及其坐标；

步骤3）：提取对应行的图像，得到图像嵌入向量img_emb(i)；

行级：截取当前行的图片，提取特征。

作为优选，所述步骤6中的序列标注使用CNN或Transformer融合上下行信息，得到一个行向量可以选择再接一个CRF，输出序列标注，得到每一行的语义标注，进而得到每个语义段落单元的起止行号。

具体实施例

在实际使用时，先通过pdf读取程序或ocr引擎获得简历中的文本行及其坐标；再通过神经网络对第i行的文本进行编码，得到文本嵌入向量text_emb(i)；通过提取对应行的图像，得到图像嵌入向量img_emb(i)；然后，提取字号、文字长度等特征，并进行归一化处理，得到特征向量；再聚合文本嵌入向量、图像嵌入向量和特征向量，得得到行嵌入向量line_emb(i)；最后，再使用神经网络对行向量序列[line_emb(i)]进行序列标注，得到每一行的语义标注，进而得到每个语义段落单元的起止行号。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种融合视觉与文本特征的简历版面分析算法，其特征在于：该简历版面的分析包括以下步骤：

步骤1）：从pdf读取程序或ocr引擎中得到文本行及其坐标；

步骤3）：提取对应行的图像，得到图像嵌入向量img_emb(i)；

2.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。

3.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤2中的文本进行编码前先对文本进行预处理，可以使用字符级处理或者词语级处理，然后再使用序列编码的神经网络；包括但不局限于LSTM、CNN和Transformer。

4.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤2中的文本进行编码时进一步得到文本特征，用于识别该行的语义类别。

5.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤3中的图像在提取时先对图像进行预处理，得到文字块的掩码图像特征，作为其中一个通道；所述图像嵌入向量采用CNN进行图片级、窗口级和/或行级提取：其中：

行级：截取当前行的图片，提取特征。

6.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤4中的归一化是指对简历中的文字、字号做归一化处理；其中，字号可以使用排序归一化；字体，可以使用计数编码。

7.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤5中的聚合包括但不限于拼接、平均、最大化池化。

8.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤5中得到的向量具有多维度的特征，可以更准确的预测语义类别和段落单元的边界。

9.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤6中的序列标注使用CNN或Transformer融合上下行信息，得到一个行向量可以选择再接一个CRF，输出序列标注，得到每一行的语义标注，进而得到每个语义段落单元的起止行号。