CN115545009B

CN115545009B - 一种获取目标文本的数据处理***

Info

Publication number: CN115545009B
Application number: CN202211527410.2A
Authority: CN
Inventors: 刘羽; 常鸿宇; 刘宸; 傅晓航
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-07-07
Anticipated expiration: 2042-12-01
Also published as: CN115545009A

Abstract

本发明提供了一种获取目标文本的数据处理***，包括：处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：根据初始文本集中任一初始文本，获取初始文本对应的初始文本字符串，根据初始文本字符串获取初始文本字符串对应的初始字向量集，根据初始文本字符串对应的初始图像，获取初始文本字符串对应的关键特征向量，根据初始字向量集和关键特征向量，获取初始文本字符串对应的目标字向量集，根据目标字向量集获取初始文本字符串对应的目标文本。本发明丰富了向量的特征，避免了文字特征的遗漏，使得自然语言处理的准确度较高，提高了文本分类的准确度，进而使得获取到的目标文本的准确度较高。

Description

一种获取目标文本的数据处理***

技术领域

本发明涉及文本处理技术领域，特别是涉及一种获取目标文本的数据处理***。

背景技术

随着互联网的普及和发展，文本数据呈现爆发式增长，面对海量文本数据，如何从其中提取出有意义的信息是自然语言处理的研究热点，文本分类技术是自然语言处理领域和文本识别领域的一大课题，近年来文本分类技术已经应用到信息检索、信息推送、信息过滤等多个领域，通过对文本准确分类能够减少获取文本重要信息的时间。

目前，现有技术中，获取目标文本的方法为：获取文本的字向量，根据文本中的字对应的字体书写的特征、字根和拼音获取对应的特征向量，将字向量和特征向量结合生成文本向量，对文本向量进行分类获取异常文本。

综上所述对文本进行分类的方法存在的问题：一方面，文本中的字符局限于中文字符，在进行文本分类时增加了对文本的选择的局限性；另一方面，未考虑文本中文字的图像特征和字符特征信息，遗漏了文本字符的特征，使得自然语言处理的准确度较低，降低了文本分类的准确度，进而使得获取到的目标文本的准确度较低。

发明内容

本发明提供了一种获取目标文本的数据处理***，包括：初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：

S100，根据所述初始文本集中任一初始文本，获取初始文本对应的初始文本字符串A={A₁，A₂，……，A_i，……，A_m},A_i为初始文本对应的初始字符串中第i个初始文本字符，i=1，2，……，m，m为初始文本对应的初始字符串中初始文本字符的数量。

S200，根据A，获取A对应的初始字向量集B={B₁，B₂，……，B_i，……，B_m}，B_i为A_i对应的初始字向量。

S300，根据A对应的初始图像，获取A对应的关键特征向量集D={D₁，D₂，……，D_i，……，D_m}，D_i为A_i对应的关键特征向量。

S400，根据B和D，获取A对应的目标字向量集U={U₁，U₂，……，U_i，……，U_m}，U_i={B_i，D_i}。

S500，根据U，获取到A对应的目标文本。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种获取目标文本的数据处理***可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明提供了一种获取目标文本的数据处理***，***包括：处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：根据所述初始文本集中任一初始文本，获取初始文本对应的初始文本字符串，其中，初始文本字符至少包括中文字符、英文字符和标点字符，根据初始文本字符串获取初始文本字符串对应的初始字向量集，根据初始文本字符串对应的初始图像，获取初始文本字符串对应的关键特征向量，其中，关键特征向量包括初始文本的图像特征和字符特征信息，其中图像特征包括文本字符的位置，字号和颜色，字符特征信息包括下划线、斜体等，根据初始字向量集和关键特征向量，获取初始文本字符串对应的目标字向量集，根据目标字向量集获取初始文本字符串对应的目标文本。上述，一方面，文本中的字符不局限于中文字符，在进行文本分类时减少了对文本的选择的局限性；另一方面，考虑了文本中文字的图像特征和字符特征信息，避免了文本字符特征的遗漏，使得自然语言处理的准确度较高，提高了文本分类的准确度，使得获取到的目标文本的准确度较高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种获取目标文本的数据处理***的执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包括，例如，包括了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本实施例提供了一种获取目标文本的数据处理***，所述***包括：初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

具体的，所述初始文本集包括若干个初始文本，其中，所述初始文本为包括异常文本字符的文本，例如，异常文本字符为具有广告性质的文本字符。

具体的，所述初始图像为对初始文本进行处理得到的图像，其中，本领域技术人员知晓，现有技术中任一基于文本生成图像的方法，均属于本发明的保护范围，在此不再赘述。

具体的，所述初始文本字符至少包括中文字符、英文字符和标点字符。

上述，文本中的字符不局限于中文字符，在进行文本分类时减少了对文本的选择的局限性。

具体的，每一初始字向量为通过将所述初始文本输入至预设的语言模型中获取到的，本领域技术人员知晓，现有技术中任一通过语言模型获取字向量的方法，均属于本发明的保护范围，在此不再赘述。

优选的，预设的语言模型为bert模型。

具体的，所述关键特征向量包括第一关键特征向量或第二关键特征向量。

在一个具体的实施例中，所述关键特征向量为第一关键特征向量时，在S300步骤中还通过如下步骤获取D_i：

S301，将A对应的初始图像输入至预设的OCR模型中，获取A对应的第一待选特征向量集G={G₁，G₂，……，G_i，……，G_m}，G_i={G_i1，G_i2，G_i3，G_i4，G_i5}，G_i1为A_i对应的字符检测框高度，G_i2为A_i对应的字符检测框宽度，G_i3为A_i对应的字符检测框的第一顶点坐标值，G_i4为A_i对应的字符检测框的第二顶点坐标值，G_i5为A_i的字符检测框颜色。

具体的，所述第一顶点坐标值对应的第一顶点和所述第二顶点坐标值对应的第二顶点为对角顶点。

S303，根据G_i1和G_i2，获取第一特征D_i1。

具体的，在S303步骤中还包括如下步骤：

S3031，获取第一预设字号的字号优先级和第二预设字号列表H={H₁，H₂，……，H_x，……，H_p}，H_x为第x个第二预设字号对应的字号优先级和第二预设字号对应的字号尺寸信息，x=1，2，……，p，p为预设字号的数量。

具体的，当H按照第二预设字号对应的字号优先级由大至小进行排序，表征了字号优先级对应的字号尺寸信息也由大至小进行排序；即预设字号对应的字号优先级大时，所述字号优先级对应的字号尺寸信息也大。

进一步的，所述字号尺寸信息包括字号宽度和字号高度。

进一步的，所述第一预设字号为预设的非正常字号。

进一步的，所述第二预设字号为预设的正常字号，本领域技术知晓，现有技术中任一字号，均属于本发明的保护范围，在此不再赘述。

S3033，当|（G_i1/G_i2）-β|≤β⁰，获取A_i对应的字号尺寸差ΔG_i={ΔG_i1，ΔG_i2，……，ΔG_ix，……，ΔG_ip}，ΔG_ix为A_i与H_x之间的字号尺寸差，其中，β为预设的尺寸比，β⁰为预设的尺寸比阈值。

具体的，ΔG_ix符合如下条件：

ΔG_ix=|（G_i1+G_i2）-（H_x1+H_x2）|，其中，H_x1为H_x对应的字号尺寸信息中字号宽度，H_x2对应的字号尺寸信息中字号高度。

进一步的，所述尺寸比为字号高度和字号高度之间的比值。

S3035，遍历ΔG_i且将ΔG_i中最小的字号尺寸差对应的字号优先级作为D_i1。

S3037，当|（G_i1/G_i2）-β|＞β⁰时，将第一预设字号的字号优先级作为D_i1。

上述，通过判断字符字号的尺寸比对文本字符进行分类，将文本字符的字号分为两种类型，一种为第一预设字号的字号优先级，另一种为第二预设字号，能够筛选出一部分非正常文本字符，为文本分类提供了一种判断条件，提高了文本分类的准确度，进而使得目标文本的准确度较高。

S305，根据G_i3和G_i4，获取第二特征D_i2。

S3051，获取G_i3=（G¹ _i3，G² _i3）和G_i4=（G¹ _i4，G² _i4），其中，G¹ _i3为G_i3对应的像素点X轴坐标值，G² _i3为G_i3对应的像素点Y轴坐标值，G¹ _i4为G_i4对应的像素点X轴坐标值，G² _i4为G_i4对应的像素点Y轴坐标值。

S3053，根据G_i3和G_i4，确定出D_i2=（（G¹ _i3+G¹ _i4）/2，（G² _i3+G² _i4）/2）。

S307，对G_i5进行处理，生成第三特征D_i3，可以理解为：对G_i5去除掉背景色后，生成的前景色作为第三特征，本领域技术人员知晓，现有技术中任一去掉背景色的方法，均属于本发的保护范围，在此不再赘述。

S309，根据D_i1，D_i2和D_i3，确定出D_i={D_i1，D_i2，D_i3}。

上述，基于初始文本对应的初始图像，能够获取到初始文本中初始文本字符的位置和大小等特征信息，通过文本对应的图像特征能够对文本进行筛选，更加快速获取初始文本对应的图像特征发生变化的文本字符，使得自然语言处理的准确度较高，提高了文本分类的准确度。

在另一个具体的实施例中，所述关键特征向量为第二关键特征向量时，在S300步骤中还通过如下步骤获取D_i：

S301，将A对应的初始图像输入至预设的OCR模型中，获取A对应的第二待选特征向量集G⁰={G⁰ ₁，G⁰ ₂，……，G⁰ _i，……，G⁰ _m}，G⁰ _i={G⁰ _i1，G⁰ _i2}，G⁰ _i1为第一子特征向量，G⁰ _i2为第二子特征向量。

S303，根据G⁰ _i1，获取G⁰ _i1对应的第一中间特征向量Q⁰ _i1。

具体的，G⁰ _i1的特征维度与上一实施例中G_i的特征维度一致，在此不再赘述。

进一步的，根据G⁰ _i1获取Q⁰ _i1的方法可以参照获取第一关键特征向量的方法，在此不再赘述。

S305，将G⁰ _i2={G⁰¹ _i2，G⁰² _i2，……，G^0y _i2，……，G^0q _i2}，G^0y _i2为字符检测框对应的第y个字符信息，y=1，2，……，q，q为字符信息的数量，本领域技术人员知晓，现有技术中字符检测框对应的字符信息，均属于本发明的保护范围，在此不再赘述，例如，字符信息包括字符的斜体、下划线、加粗等。

S307，将G^0y _i2输入至G^0y _i2对应的分类器中，G^0y _i2对应的第二中间特征值Q^0y _i2，以使得根据所有的Q^0y _i2，构建成第二中间特征向量Q⁰ _i2={Q⁰¹ _i2，Q⁰² _i2，……，Q^0y _i2，……，Q^0q _i2}，本领域技术人员知晓，现有技术中根据分类器获取特征值的方法，均属于本发明的保护范围在此不再赘述。

进一步的，在S307步骤中还包括如下步骤：

当Q^0y _i2=0时，确定G^0y _i2对应的字符检测框中存在字符信息。

当Q^0y _i2=1时，确定G^0y _i2对应的字符检测框中未存在字符信息。

S309，根据Q⁰ _i1和Q⁰ _i2，确定出D_i={Q⁰ _i1，Q⁰ _i2}。

上述，在该实施例中，将初始文本对应的图像特征与初始文本对应的字符信息相结合作为初始文本对应的关键特征向量，丰富了文本对应的字向量的维度，避免了文本字符特征的遗漏，使得自然语言处理的准确度较高，提高了文本分类的准确度，进而使得获取到的目标文本的准确度较高。

S500，根据U，获取到A对应的目标文本。

具体的，在S500步骤中还包括如下步骤：

S501，将U输入至预设的标注模型中，获取A对应的目标标签列表F={F₁，F₂，……，F_i，……，F_m}，F_i为A_i对应的目标标签；本领域技术人员知晓，现有技术中任一通过标注模型获取标签的方法，均属于本发明的保护范围，在此不再赘述。

S503，当F_i=1时，确定A_i为异常字符且从A对应的初始文本中删除异常字符，生成A对应的目标文本。

上述，通过将初始文本对应的初始字向量和关键特征向量相结合，不再局限于文本编码模型获取到的每个字符对应的字向量，考虑了文字的图像特征和字符特征，丰富了文本目标字向量的维度，使得获取到文字的向量具有丰富的文本特征信息，提高了文本分类的准确性，使得获取的目标文本的准确度较高。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种获取目标文本的数据处理***，其特征在于，所述***包括：初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：

S100，根据所述初始文本集中任一初始文本，获取初始文本对应的初始文本字符串A={A₁，A₂，……，A_i，……，A_m},A_i为初始文本对应的初始字符串中第i个初始文本字符，i=1，2，……，m，m为初始文本对应的初始字符串中初始文本字符的数量；

S200，根据A，获取A对应的初始字向量集B={B₁，B₂，……，B_i，……，B_m}，B_i为A_i对应的初始字向量；

S300，根据A对应的初始图像，获取A对应的关键特征向量集D={D₁，D₂，……，D_i，……，D_m}，D_i为A_i对应的关键特征向量，所述关键特征向量包括第一关键特征向量或第二关键特征向量；

其中，当关键特征向量为第一关键特征向量时，在S300步骤中还通过如下步骤获取D_i：

S301，将A对应的初始图像输入至预设的OCR模型中，获取A对应的第一待选特征向量集G={G₁，G₂，……，G_i，……，G_m}，G_i={G_i1，G_i2，G_i3，G_i4，G_i5}，G_i1为A_i对应的字符检测框高度，G_i2为A_i对应的字符检测框宽度，G_i3为A_i对应的字符检测框的第一顶点坐标值，G_i4为A_i对应的字符检测框的第二顶点坐标值，G_i5为A_i的字符检测框颜色；

S303，根据G_i1和G_i2，获取第一特征D_i1，在S303步骤中还包括如下步骤：

S3031，获取第一预设字号的字号优先级和第二预设字号列表H={H₁，H₂，……，H_x，……，H_p}，H_x为第x个第二预设字号对应的字号优先级和第二预设字号对应的字号尺寸信息，x=1，2，……，p，p为预设字号的数量，第一预设字号为预设的非正常字号，第二预设字号为预设的正常字号；

S3033，当|（G_i1/G_i2）-β|≤β⁰，获取A_i对应的字号尺寸差ΔG_i={ΔG_i1，ΔG_i2，……，ΔG_ix，……，ΔG_ip}，ΔG_ix为A_i与H_x之间的字号尺寸差，其中，β为预设的尺寸比，β⁰为预设的尺寸比阈值，其中，所述尺寸比为字号高度和字号高度之间的比值；

S3035，遍历ΔG_i且将ΔG_i中最小的字号尺寸差对应的字号优先级作为D_i1；

S3037，当|（G_i1/G_i2）-β|＞β⁰时，将第一预设字号的字号优先级作为D_i1；

S305，根据G_i3和G_i4，获取第二特征D_i2，其中，在S305步骤中还包括如下步骤：

S3051，获取G_i3=（G¹ _i3，G² _i3）和G_i4=（G¹ _i4，G² _i4），其中，G¹ _i3为G_i3对应的像素点X轴坐标值，G² _i3为G_i3对应的像素点Y轴坐标值，G¹ _i4为G_i4对应的像素点X轴坐标值，G² _i4为G_i4对应的像素点Y轴坐标值；

S3053，根据G_i3和G_i4，确定出D_i2=（（G¹ _i3+G¹ _i4）/2，（G² _i3+G² _i4）/2）；

S307，对G_i5进行处理，生成第三特征D_i3，其中，对G_i5去除掉背景色后，生成的前景色作为第三特征；

S309，根据D_i1，D_i2和D_i3，确定出D_i={D_i1，D_i2，D_i3}；

其中，当关键特征向量为第二关键特征向量时，在S300步骤中还通过如下步骤获取D_i：

S301，将A对应的初始图像输入至预设的OCR模型中，获取A对应的第二待选特征向量集G⁰={G⁰ ₁，G⁰ ₂，……，G⁰ _i，……，G⁰ _m}，G⁰ _i={G⁰ _i1，G⁰ _i2}，G⁰ _i1为第一子特征向量，G⁰ _i2为第二子特征向量；

S303，根据G⁰ _i1，获取G⁰ _i1对应的第一中间特征向量Q⁰ _i1，其中，根据G⁰ _i1获取Q⁰ _i1的方法可以参照获取第一关键特征向量的方法；

S305，将G⁰ _i2={G⁰¹ _i2，G⁰² _i2，……，G^0y _i2，……，G^0q _i2}，G^0y _i2为字符检测框对应的第y个字符信息，y=1，2，……，q，q为字符信息的数量；

S307，将G^0y _i2输入至G^0y _i2对应的分类器中，G^0y _i2对应的第二中间特征值Q^0y _i2，以使得根据所有的Q^0y _i2，构建成第二中间特征向量Q⁰ _i2={Q⁰¹ _i2，Q⁰² _i2，……，Q^0y _i2，……，Q^0q _i2}；

S309，根据Q⁰ _i1和Q⁰ _i2，确定出D_i={Q⁰ _i1，Q⁰ _i2}；

S400，根据B和D，获取A对应的目标字向量集U={U₁，U₂，……，U_i，……，U_m}，U_i={B_i，D_i}；

S500，根据U，获取到A对应的目标文本。

2.根据权利要求1所述的获取目标文本的数据处理***，其特征在于，所述初始文本字符至少包括中文字符、英文字符和标点字符。

3.根据权利要求1所述的获取目标文本的数据处理***，其特征在于，在S500步骤中还包括如下步骤：

S501，将U输入至预设的标注模型中，获取A对应的目标标签列表F={F₁，F₂，……，F_i，……，F_m}，F_i为A_i对应的目标标签；