CN115545009B - 一种获取目标文本的数据处理*** - Google Patents

一种获取目标文本的数据处理*** Download PDF

Info

Publication number
CN115545009B
CN115545009B CN202211527410.2A CN202211527410A CN115545009B CN 115545009 B CN115545009 B CN 115545009B CN 202211527410 A CN202211527410 A CN 202211527410A CN 115545009 B CN115545009 B CN 115545009B
Authority
CN
China
Prior art keywords
text
initial
size
preset
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211527410.2A
Other languages
English (en)
Other versions
CN115545009A (zh
Inventor
刘羽
常鸿宇
刘宸
傅晓航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202211527410.2A priority Critical patent/CN115545009B/zh
Publication of CN115545009A publication Critical patent/CN115545009A/zh
Application granted granted Critical
Publication of CN115545009B publication Critical patent/CN115545009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种获取目标文本的数据处理***,包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据初始文本集中任一初始文本,获取初始文本对应的初始文本字符串,根据初始文本字符串获取初始文本字符串对应的初始字向量集,根据初始文本字符串对应的初始图像,获取初始文本字符串对应的关键特征向量,根据初始字向量集和关键特征向量,获取初始文本字符串对应的目标字向量集,根据目标字向量集获取初始文本字符串对应的目标文本。本发明丰富了向量的特征,避免了文字特征的遗漏,使得自然语言处理的准确度较高,提高了文本分类的准确度,进而使得获取到的目标文本的准确度较高。

Description

一种获取目标文本的数据处理***
技术领域
本发明涉及文本处理技术领域,特别是涉及一种获取目标文本的数据处理***。
背景技术
随着互联网的普及和发展,文本数据呈现爆发式增长,面对海量文本数据,如何从其中提取出有意义的信息是自然语言处理的研究热点,文本分类技术是自然语言处理领域和文本识别领域的一大课题,近年来文本分类技术已经应用到信息检索、信息推送、信息过滤等多个领域,通过对文本准确分类能够减少获取文本重要信息的时间。
目前,现有技术中,获取目标文本的方法为:获取文本的字向量,根据文本中的字对应的字体书写的特征、字根和拼音获取对应的特征向量,将字向量和特征向量结合生成文本向量,对文本向量进行分类获取异常文本。
综上所述对文本进行分类的方法存在的问题:一方面,文本中的字符局限于中文字符,在进行文本分类时增加了对文本的选择的局限性;另一方面,未考虑文本中文字的图像特征和字符特征信息,遗漏了文本字符的特征,使得自然语言处理的准确度较低,降低了文本分类的准确度,进而使得获取到的目标文本的准确度较低。
发明内容
本发明提供了一种获取目标文本的数据处理***,包括:初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:
S100,根据所述初始文本集中任一初始文本,获取初始文本对应的初始文本字符串A={A1,A2,……,Ai,……,Am},Ai为初始文本对应的初始字符串中第i个初始文本字符,i=1,2,……,m,m为初始文本对应的初始字符串中初始文本字符的数量。
S200,根据A,获取A对应的初始字向量集B={B1,B2,……,Bi,……,Bm},Bi为Ai对应的初始字向量。
S300,根据A对应的初始图像,获取A对应的关键特征向量集D={D1,D2,……,Di,……,Dm},Di为Ai对应的关键特征向量。
S400,根据B和D,获取A对应的目标字向量集U={U1,U2,……,Ui,……,Um},Ui={Bi,Di}。
S500,根据U,获取到A对应的目标文本。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种获取目标文本的数据处理***可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明提供了一种获取目标文本的数据处理***,***包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据所述初始文本集中任一初始文本,获取初始文本对应的初始文本字符串,其中,初始文本字符至少包括中文字符、英文字符和标点字符,根据初始文本字符串获取初始文本字符串对应的初始字向量集,根据初始文本字符串对应的初始图像,获取初始文本字符串对应的关键特征向量,其中,关键特征向量包括初始文本的图像特征和字符特征信息,其中图像特征包括文本字符的位置,字号和颜色,字符特征信息包括下划线、斜体等,根据初始字向量集和关键特征向量,获取初始文本字符串对应的目标字向量集,根据目标字向量集获取初始文本字符串对应的目标文本。上述,一方面,文本中的字符不局限于中文字符,在进行文本分类时减少了对文本的选择的局限性;另一方面,考虑了文本中文字的图像特征和字符特征信息,避免了文本字符特征的遗漏,使得自然语言处理的准确度较高,提高了文本分类的准确度,使得获取到的目标文本的准确度较高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种获取目标文本的数据处理***的执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包括,例如,包括了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本实施例提供了一种获取目标文本的数据处理***,所述***包括:初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
具体的,所述初始文本集包括若干个初始文本,其中,所述初始文本为包括异常文本字符的文本,例如,异常文本字符为具有广告性质的文本字符。
具体的,所述初始图像为对初始文本进行处理得到的图像,其中,本领域技术人员知晓,现有技术中任一基于文本生成图像的方法,均属于本发明的保护范围,在此不再赘述。
S100,根据所述初始文本集中任一初始文本,获取初始文本对应的初始文本字符串A={A1,A2,……,Ai,……,Am},Ai为初始文本对应的初始字符串中第i个初始文本字符,i=1,2,……,m,m为初始文本对应的初始字符串中初始文本字符的数量。
具体的,所述初始文本字符至少包括中文字符、英文字符和标点字符。
上述,文本中的字符不局限于中文字符,在进行文本分类时减少了对文本的选择的局限性。
S200,根据A,获取A对应的初始字向量集B={B1,B2,……,Bi,……,Bm},Bi为Ai对应的初始字向量。
具体的,每一初始字向量为通过将所述初始文本输入至预设的语言模型中获取到的,本领域技术人员知晓,现有技术中任一通过语言模型获取字向量的方法,均属于本发明的保护范围,在此不再赘述。
优选的,预设的语言模型为bert模型。
S300,根据A对应的初始图像,获取A对应的关键特征向量集D={D1,D2,……,Di,……,Dm},Di为Ai对应的关键特征向量。
具体的,所述关键特征向量包括第一关键特征向量或第二关键特征向量。
在一个具体的实施例中,所述关键特征向量为第一关键特征向量时,在S300步骤中还通过如下步骤获取Di
S301,将A对应的初始图像输入至预设的OCR模型中,获取A对应的第一待选特征向量集G={G1,G2,……,Gi,……,Gm},Gi={Gi1,Gi2,Gi3,Gi4,Gi5},Gi1为Ai对应的字符检测框高度,Gi2为Ai对应的字符检测框宽度,Gi3为Ai对应的字符检测框的第一顶点坐标值,Gi4为Ai对应的字符检测框的第二顶点坐标值,Gi5为Ai的字符检测框颜色。
具体的,所述第一顶点坐标值对应的第一顶点和所述第二顶点坐标值对应的第二顶点为对角顶点。
S303,根据Gi1和Gi2,获取第一特征Di1
具体的,在S303步骤中还包括如下步骤:
S3031,获取第一预设字号的字号优先级和第二预设字号列表H={H1,H2,……,Hx,……,Hp},Hx为第x个第二预设字号对应的字号优先级和第二预设字号对应的字号尺寸信息,x=1,2,……,p,p为预设字号的数量。
具体的,当H按照第二预设字号对应的字号优先级由大至小进行排序,表征了字号优先级对应的字号尺寸信息也由大至小进行排序;即预设字号对应的字号优先级大时,所述字号优先级对应的字号尺寸信息也大。
进一步的,所述字号尺寸信息包括字号宽度和字号高度。
进一步的,所述第一预设字号为预设的非正常字号。
进一步的,所述第二预设字号为预设的正常字号,本领域技术知晓,现有技术中任一字号,均属于本发明的保护范围,在此不再赘述。
S3033,当|(Gi1/Gi2)-β|≤β0,获取Ai对应的字号尺寸差ΔGi={ΔGi1,ΔGi2,……,ΔGix,……,ΔGip},ΔGix为Ai与Hx之间的字号尺寸差,其中,β为预设的尺寸比,β0为预设的尺寸比阈值。
具体的,ΔGix符合如下条件:
ΔGix=|(Gi1+Gi2)-(Hx1+Hx2)|,其中,Hx1为Hx对应的字号尺寸信息中字号宽度,Hx2对应的字号尺寸信息中字号高度。
进一步的,所述尺寸比为字号高度和字号高度之间的比值。
S3035,遍历ΔGi且将ΔGi中最小的字号尺寸差对应的字号优先级作为Di1
S3037,当|(Gi1/Gi2)-β|>β0时,将第一预设字号的字号优先级作为Di1
上述,通过判断字符字号的尺寸比对文本字符进行分类,将文本字符的字号分为两种类型,一种为第一预设字号的字号优先级,另一种为第二预设字号,能够筛选出一部分非正常文本字符,为文本分类提供了一种判断条件,提高了文本分类的准确度,进而使得目标文本的准确度较高。
S305,根据Gi3和Gi4,获取第二特征Di2
S3051,获取Gi3=(G1 i3,G2 i3)和Gi4=(G1 i4,G2 i4),其中,G1 i3为Gi3对应的像素点X轴坐标值,G2 i3为Gi3对应的像素点Y轴坐标值,G1 i4为Gi4对应的像素点X轴坐标值,G2 i4为Gi4对应的像素点Y轴坐标值。
S3053,根据Gi3和Gi4,确定出Di2=((G1 i3+G1 i4)/2,(G2 i3+G2 i4)/2)。
S307,对Gi5进行处理,生成第三特征Di3,可以理解为:对Gi5去除掉背景色后,生成的前景色作为第三特征,本领域技术人员知晓,现有技术中任一去掉背景色的方法,均属于本发的保护范围,在此不再赘述。
S309,根据Di1,Di2和Di3,确定出Di={Di1,Di2,Di3}。
上述,基于初始文本对应的初始图像,能够获取到初始文本中初始文本字符的位置和大小等特征信息,通过文本对应的图像特征能够对文本进行筛选,更加快速获取初始文本对应的图像特征发生变化的文本字符,使得自然语言处理的准确度较高,提高了文本分类的准确度。
在另一个具体的实施例中,所述关键特征向量为第二关键特征向量时,在S300步骤中还通过如下步骤获取Di
S301,将A对应的初始图像输入至预设的OCR模型中,获取A对应的第二待选特征向量集G0={G0 1,G0 2,……,G0 i,……,G0 m},G0 i={G0 i1,G0 i2},G0 i1为第一子特征向量,G0 i2为第二子特征向量。
S303,根据G0 i1,获取G0 i1对应的第一中间特征向量Q0 i1
具体的,G0 i1的特征维度与上一实施例中Gi的特征维度一致,在此不再赘述。
进一步的,根据G0 i1获取Q0 i1的方法可以参照获取第一关键特征向量的方法,在此不再赘述。
S305,将G0 i2={G01 i2,G02 i2,……,G0y i2,……,G0q i2},G0y i2为字符检测框对应的第y个字符信息,y=1,2,……,q,q为字符信息的数量,本领域技术人员知晓,现有技术中字符检测框对应的字符信息,均属于本发明的保护范围,在此不再赘述,例如,字符信息包括字符的斜体、下划线、加粗等。
S307,将G0y i2输入至G0y i2对应的分类器中,G0y i2对应的第二中间特征值Q0y i2,以使得根据所有的Q0y i2,构建成第二中间特征向量Q0 i2={Q01 i2,Q02 i2,……,Q0y i2,……,Q0q i2},本领域技术人员知晓,现有技术中根据分类器获取特征值的方法,均属于本发明的保护范围在此不再赘述。
进一步的,在S307步骤中还包括如下步骤:
当Q0y i2=0时,确定G0y i2对应的字符检测框中存在字符信息。
当Q0y i2=1时,确定G0y i2对应的字符检测框中未存在字符信息。
S309,根据Q0 i1和Q0 i2,确定出Di={Q0 i1,Q0 i2}。
上述,在该实施例中,将初始文本对应的图像特征与初始文本对应的字符信息相结合作为初始文本对应的关键特征向量,丰富了文本对应的字向量的维度,避免了文本字符特征的遗漏,使得自然语言处理的准确度较高,提高了文本分类的准确度,进而使得获取到的目标文本的准确度较高。
S400,根据B和D,获取A对应的目标字向量集U={U1,U2,……,Ui,……,Um},Ui={Bi,Di}。
S500,根据U,获取到A对应的目标文本。
具体的,在S500步骤中还包括如下步骤:
S501,将U输入至预设的标注模型中,获取A对应的目标标签列表F={F1,F2,……,Fi,……,Fm},Fi为Ai对应的目标标签;本领域技术人员知晓,现有技术中任一通过标注模型获取标签的方法,均属于本发明的保护范围,在此不再赘述。
S503,当Fi=1时,确定Ai为异常字符且从A对应的初始文本中删除异常字符,生成A对应的目标文本。
上述,通过将初始文本对应的初始字向量和关键特征向量相结合,不再局限于文本编码模型获取到的每个字符对应的字向量,考虑了文字的图像特征和字符特征,丰富了文本目标字向量的维度,使得获取到文字的向量具有丰富的文本特征信息,提高了文本分类的准确性,使得获取的目标文本的准确度较高。
本发明提供了一种获取目标文本的数据处理***,***包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据所述初始文本集中任一初始文本,获取初始文本对应的初始文本字符串,其中,初始文本字符至少包括中文字符、英文字符和标点字符,根据初始文本字符串获取初始文本字符串对应的初始字向量集,根据初始文本字符串对应的初始图像,获取初始文本字符串对应的关键特征向量,其中,关键特征向量包括初始文本的图像特征和字符特征信息,其中图像特征包括文本字符的位置,字号和颜色,字符特征信息包括下划线、斜体等,根据初始字向量集和关键特征向量,获取初始文本字符串对应的目标字向量集,根据目标字向量集获取初始文本字符串对应的目标文本。上述,一方面,文本中的字符不局限于中文字符,在进行文本分类时减少了对文本的选择的局限性;另一方面,考虑了文本中文字的图像特征和字符特征信息,避免了文本字符特征的遗漏,使得自然语言处理的准确度较高,提高了文本分类的准确度,使得获取到的目标文本的准确度较高。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (3)

1.一种获取目标文本的数据处理***,其特征在于,所述***包括:初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
S100,根据所述初始文本集中任一初始文本,获取初始文本对应的初始文本字符串A={A1,A2,……,Ai,……,Am},Ai为初始文本对应的初始字符串中第i个初始文本字符,i=1,2,……,m,m为初始文本对应的初始字符串中初始文本字符的数量;
S200,根据A,获取A对应的初始字向量集B={B1,B2,……,Bi,……,Bm},Bi为Ai对应的初始字向量;
S300,根据A对应的初始图像,获取A对应的关键特征向量集D={D1,D2,……,Di,……,Dm},Di为Ai对应的关键特征向量,所述关键特征向量包括第一关键特征向量或第二关键特征向量;
其中,当关键特征向量为第一关键特征向量时,在S300步骤中还通过如下步骤获取Di
S301,将A对应的初始图像输入至预设的OCR模型中,获取A对应的第一待选特征向量集G={G1,G2,……,Gi,……,Gm},Gi={Gi1,Gi2,Gi3,Gi4,Gi5},Gi1为Ai对应的字符检测框高度,Gi2为Ai对应的字符检测框宽度,Gi3为Ai对应的字符检测框的第一顶点坐标值,Gi4为Ai对应的字符检测框的第二顶点坐标值,Gi5为Ai的字符检测框颜色;
S303,根据Gi1和Gi2,获取第一特征Di1,在S303步骤中还包括如下步骤:
S3031,获取第一预设字号的字号优先级和第二预设字号列表H={H1,H2,……,Hx,……,Hp},Hx为第x个第二预设字号对应的字号优先级和第二预设字号对应的字号尺寸信息,x=1,2,……,p,p为预设字号的数量,第一预设字号为预设的非正常字号,第二预设字号为预设的正常字号;
S3033,当|(Gi1/Gi2)-β|≤β0,获取Ai对应的字号尺寸差ΔGi={ΔGi1,ΔGi2,……,ΔGix,……,ΔGip},ΔGix为Ai与Hx之间的字号尺寸差,其中,β为预设的尺寸比,β0为预设的尺寸比阈值,其中,所述尺寸比为字号高度和字号高度之间的比值;
S3035,遍历ΔGi且将ΔGi中最小的字号尺寸差对应的字号优先级作为Di1
S3037,当|(Gi1/Gi2)-β|>β0时,将第一预设字号的字号优先级作为Di1
S305,根据Gi3和Gi4,获取第二特征Di2,其中,在S305步骤中还包括如下步骤:
S3051,获取Gi3=(G1 i3,G2 i3)和Gi4=(G1 i4,G2 i4),其中,G1 i3为Gi3对应的像素点X轴坐标值,G2 i3为Gi3对应的像素点Y轴坐标值,G1 i4为Gi4对应的像素点X轴坐标值,G2 i4为Gi4对应的像素点Y轴坐标值;
S3053,根据Gi3和Gi4,确定出Di2=((G1 i3+G1 i4)/2,(G2 i3+G2 i4)/2);
S307,对Gi5进行处理,生成第三特征Di3,其中,对Gi5去除掉背景色后,生成的前景色作为第三特征;
S309,根据Di1,Di2和Di3,确定出Di={Di1,Di2,Di3};
其中,当关键特征向量为第二关键特征向量时,在S300步骤中还通过如下步骤获取Di
S301,将A对应的初始图像输入至预设的OCR模型中,获取A对应的第二待选特征向量集G0={G0 1,G0 2,……,G0 i,……,G0 m},G0 i={G0 i1,G0 i2},G0 i1为第一子特征向量,G0 i2为第二子特征向量;
S303,根据G0 i1,获取G0 i1对应的第一中间特征向量Q0 i1,其中,根据G0 i1获取Q0 i1的方法可以参照获取第一关键特征向量的方法;
S305,将G0 i2={G01 i2,G02 i2,……,G0y i2,……,G0q i2},G0y i2为字符检测框对应的第y个字符信息,y=1,2,……,q,q为字符信息的数量;
S307,将G0y i2输入至G0y i2对应的分类器中,G0y i2对应的第二中间特征值Q0y i2,以使得根据所有的Q0y i2,构建成第二中间特征向量Q0 i2={Q01 i2,Q02 i2,……,Q0y i2,……,Q0q i2};
S309,根据Q0 i1和Q0 i2,确定出Di={Q0 i1,Q0 i2};
S400,根据B和D,获取A对应的目标字向量集U={U1,U2,……,Ui,……,Um},Ui={Bi,Di};
S500,根据U,获取到A对应的目标文本。
2.根据权利要求1所述的获取目标文本的数据处理***,其特征在于,所述初始文本字符至少包括中文字符、英文字符和标点字符。
3.根据权利要求1所述的获取目标文本的数据处理***,其特征在于,在S500步骤中还包括如下步骤:
S501,将U输入至预设的标注模型中,获取A对应的目标标签列表F={F1,F2,……,Fi,……,Fm},Fi为Ai对应的目标标签;
S503,当Fi=1时,确定Ai为异常字符且从A对应的初始文本中删除异常字符,生成A对应的目标文本。
CN202211527410.2A 2022-12-01 2022-12-01 一种获取目标文本的数据处理*** Active CN115545009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211527410.2A CN115545009B (zh) 2022-12-01 2022-12-01 一种获取目标文本的数据处理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211527410.2A CN115545009B (zh) 2022-12-01 2022-12-01 一种获取目标文本的数据处理***

Publications (2)

Publication Number Publication Date
CN115545009A CN115545009A (zh) 2022-12-30
CN115545009B true CN115545009B (zh) 2023-07-07

Family

ID=84721969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211527410.2A Active CN115545009B (zh) 2022-12-01 2022-12-01 一种获取目标文本的数据处理***

Country Status (1)

Country Link
CN (1) CN115545009B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797849B (zh) * 2023-02-03 2023-04-28 以萨技术股份有限公司 一种基于图像确定异常行为的数据处理***
CN117454843A (zh) * 2023-11-14 2024-01-26 生命奇点(北京)科技有限公司 一种基于电子病历问答模型的数据预处理***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020103721A1 (zh) * 2018-11-19 2020-05-28 腾讯科技(深圳)有限公司 信息处理的方法、装置及存储介质
CN114022882A (zh) * 2022-01-04 2022-02-08 北京世纪好未来教育科技有限公司 文本识别模型训练、文本识别方法、装置、设备及介质
WO2022156066A1 (zh) * 2021-01-19 2022-07-28 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11704487B2 (en) * 2019-04-04 2023-07-18 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for fashion attributes extraction
CN110472002B (zh) * 2019-08-14 2022-11-29 腾讯科技(深圳)有限公司 一种文本相似度获取方法和装置
CN112446259A (zh) * 2019-09-02 2021-03-05 深圳中兴网信科技有限公司 图像处理方法、装置、终端和计算机可读存储介质
CN111507350B (zh) * 2020-04-16 2024-01-05 腾讯科技(深圳)有限公司 一种文本识别方法和装置
CN113011533B (zh) * 2021-04-30 2023-10-24 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN114581918A (zh) * 2021-07-08 2022-06-03 北京金山数字娱乐科技有限公司 一种文本识别模型训练方法及装置
CN113656587B (zh) * 2021-08-25 2023-08-04 北京百度网讯科技有限公司 文本分类方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020103721A1 (zh) * 2018-11-19 2020-05-28 腾讯科技(深圳)有限公司 信息处理的方法、装置及存储介质
WO2022156066A1 (zh) * 2021-01-19 2022-07-28 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
CN114022882A (zh) * 2022-01-04 2022-02-08 北京世纪好未来教育科技有限公司 文本识别模型训练、文本识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115545009A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN115545009B (zh) 一种获取目标文本的数据处理***
US8634644B2 (en) System and method for identifying pictures in documents
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
EP2166488B1 (en) Handwritten word spotter using synthesized typed queries
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
Bataineh et al. A novel statistical feature extraction method for textual images: Optical font recognition
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN113516136A (zh) 一种手写图像生成方法、模型训练方法、装置及设备
Sharma et al. Primitive feature-based optical character recognition of the Devanagari script
JP4470913B2 (ja) 文字列検索装置およびプログラム
Al Ghamdi A novel approach to printed Arabic optical character recognition
WO2007070010A1 (en) Improvements in electronic document analysis
Memon et al. Glyph identification and character recognition for Sindhi OCR
CN111488400A (zh) 数据分类方法、装置和计算机可读存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及***
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
Tehsin et al. A caption text detection method from images/videos for efficient indexing and retrieval of multimedia data
Rathour et al. A cross correlation approach for breaking of text captcha
Pornpanomchai et al. Printed Thai character recognition by genetic algorithm
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
CN108509955B (zh) 用于字符识别的方法、***和非瞬时计算机可读介质
Gupta et al. Offline handwritten gurumukhi character recognition system using convolution neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant