CN113159013A - 基于机器学习的段落识别方法、装置、计算机设备和介质 - Google Patents

基于机器学习的段落识别方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN113159013A
CN113159013A CN202110467091.XA CN202110467091A CN113159013A CN 113159013 A CN113159013 A CN 113159013A CN 202110467091 A CN202110467091 A CN 202110467091A CN 113159013 A CN113159013 A CN 113159013A
Authority
CN
China
Prior art keywords
paragraph
vector
feature vector
target
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110467091.XA
Other languages
English (en)
Other versions
CN113159013B (zh
Inventor
吴天博
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110467091.XA priority Critical patent/CN113159013B/zh
Publication of CN113159013A publication Critical patent/CN113159013A/zh
Application granted granted Critical
Publication of CN113159013B publication Critical patent/CN113159013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能领域,实现对由不可编辑文档转换得到的可编辑文档中的错误分段自动进行识别与合并,提高可编辑文档的可用性。涉及一种基于机器学习的段落识别方法、装置、计算机设备和介质,该方法包括:获取待进行合并的上下文数据,以及获取上下文数据对应的图像数据;将图像数据输入目标检测模型中进行特征提取,获得图像数据的图像特征向量,以及将上下文数据输入词向量模型中进行向量化,获得文字特征向量;将图像特征向量与文字特征向量输入段落预测模型中进行段落预测,获得上下文数据的段落预测结果;根据段落预测结果,对上下文数据中的属于同一段落的文字进行合并。此外,本申请还涉及区块链技术,上下文数据可存储于区块链中。

Description

基于机器学习的段落识别方法、装置、计算机设备和介质
技术领域
本申请涉及人工智能领域,尤其涉及一种基于机器学习的段落识别方法、装置、计算机设备和介质。
背景技术
PDF文档是一种可携带文档格式的文档,使用十分便捷。但在实际应用中,由于PDF文档是不可编辑文档,用户存在将PDF文档转换成可编辑的WORD文档的需求。现有的文档转换方法主要是将PDF文档分成不同的区块,识别不同区块中的文字、图片以及表格等信息,最后将所有区块对应的信息进行合并从而达到保留格式的目的。但是PDF文档中的原有段落,在转换后的WORD文档中出现错误分段,与原有段落不对应,导致WORD文档的可用性较低。
因此在将不可编辑文档转换成可编辑文档后,如何提高可编辑文档的可用性成为亟需解决的问题。
发明内容
本申请提供了一种基于机器学习的段落识别方法、装置、计算机设备和介质,通过对上下文数据以及上下文数据对应的图像数据进行特征提取,将得到的图像特征向量与文字特征向量输入段落预测模型中融合后进行段落预测,实现对由不可编辑文档转换得到的可编辑文档中的错误分段自动进行识别与合并,无需人工进行段落调整,提高可编辑文档的可用性。
第一方面,本申请提供了一种基于机器学习的段落识别方法,所述方法包括:
获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字;
将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量;
将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果;
根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。
第二方面,本申请还提供了一种基于机器学习的段落识别装置,所述装置包括:
数据获取模块,用于获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字;
特征提取模块,用于将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量;
段落预测模块,用于将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果;
段落合并模块,用于根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的基于机器学习的段落识别方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的基于机器学习的段落识别方法。
本申请公开了一种基于机器学习的段落识别方法、装置、计算机设备和介质,通过获取待进行合并的上下文数据以及获取上下文数据对应的图像数据,后续可以分别对上下文数据与图像数据进行特征提取,并对得到的两种特征向量进行融合;通过将图像数据输入目标检测模型中进行特征提取,可以获得图像数据对应的图像特征向量;通过将上下文数据输入词向量模型中进行向量化,可以获得上下文数据对应的文字特征向量;通过将图像特征向量与文字特征向量输入段落预测模型中进行段落预测,可以实现多模态信息融合后进行段落预测,提高了上下文数据对应的段落预测结果的准确性;通过根据段落预测结果,对上下文数据中的属于同一段落的文字进行合并,实现对由不可编辑文档转换得到的可编辑文档中的错误分段进行自动识别与合并,无需人工进行段落调整,提高可编辑文档的可用性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于机器学习的段落识别方法的示意性流程图;
图2是本申请实施例提供的一种图像数据的示意图;
图3是本申请实施例提供的一种对上下文数据进行段落预测的示意图;
图4是本申请实施例提供的一种对图像数据进行特征提取的子步骤的示意性流程图;
图5是本申请实施例提供的一种对图像特征向量进行预处理的示意图;
图6是本申请实施例提供的一种对文字特征向量进行预处理的示意图;
图7是本申请实施例提供的一种段落预测模型的结构示意图;
图8是本申请实施例提供的一种进行段落预测的子步骤的示意性流程图;
图9是本申请实施例提供的一种进行段落预测的示意图;
图10是本申请实施例提供的一种基于机器学习的段落识别装置的示意性框图;
图11是本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种基于机器学习的段落识别方法、装置、计算机设备和介质。其中,该基于机器学习的段落识别方法可以应用于服务器或终端中,通过对上下文数据以及上下文数据对应的图像数据进行特征提取,将得到的图像特征向量与文字特征向量输入段落预测模型中融合后进行段落预测,实现对由不可编辑文档转换得到的可编辑文档中的错误分段进行自动识别与合并,无需人工进行段落调整,提高可编辑文档的可用性。
其中,服务器可以为独立的服务器,也可以为服务器集群。终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
如图1所示,基于机器学习的段落识别方法包括步骤S10至步骤S40。
步骤S10、获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字。
需要说明的是,本申请实施例提供的基于机器学习的段落识别方法可以应用于不可编辑文档转换成可编辑文档的场景中。其中,不可编辑文档可以是PDF文档;可编辑文档可以是WORD文档。可以理解的是,在文档类型转换过程中,最重要的要求是保留原有格式。由于PDF文档本身不储存格式,因此保留格式的前提是先识别出每个数据格式的准确位置。在这种以位置为主体的转换方式中,段落的概念被淡化,导致转换得到的WORD文档并没有保留原有段落格式。
在一些实施例中,获取待进行合并的上下文数据,可以包括:基于预设的类型转换策略,对待进行文档类型转换的第一文档进行类型转换,获得对应的第二文档;根据第二文档中的每两个相邻段落的文字,确定待进行合并的上下文数据。
示例性的,待进行文档类型转换的第一文档可以是PDF文档;第二文档可以是WORD文档,例如DOC格式或DOCX格式的文档。
示例性的,预设的类型转换策略可以包括OCR(Optical Character Recognition,光学字符识别)技术或者PDF转WORD工具。需要说明的是,OCR技术用于对图片、表格等文档进行分析与识别处理,以获取文字及版面信息。
例如,在对待进行文档类型转换的PDF文档进行类型转换时,可以采用OCR技术对PDF文档中的各类数据格式(文字,图片,表格)进行定位、识别以及转换,得到WORD文档。
需要说明的是,对PDF文档进行类型转换得到的WORD文档包含多个段落,但此时的段落与PDF文档中的段落可能并不一一对应,容易被拆分成多行文字,因此需要对WORD文档中的错误分段进行识别与合并。
示例性的,在根据第二文档中的每两个相邻段落的文字,确定待进行合并的上下文数据时,可以将WORD文档中的每两个相邻段落的文字,确定待进行合并的上下文数据。从而待进行合并的上下文数据可以包括两个相邻段落的文字,也可以包括多个相邻段落的文字。
为进一步保证上述上下文数据的私密和安全性,上述上下文数据可以存储于一区块链的节点中。
示例性的,待进行合并的上下文数据如下所示:
“联邦学习技术可以在隐私不被参与方得知的前提下,安全地进行多方数据应用。银行在联邦学习
应用时,联邦成员间的数据交换缺乏数据安全与隐私保护要求,业务应用存在安全风险。亟需制定相”。
当对上下文数据进行翻译,翻译结果为:
Federated learning technology can be used for secure multi-party dataapplications without the privacy being known by the participants.Banks studyin the federal government
In the application,the data exchange between federates lacks datasecurity and privacy protection requirements,and the business application hassecurity risks.There is an urgent need to formulate a plan.
其中,原先本应该为一句连贯的话“银行在联邦学习应用时”被翻译成了“Banksstudy in the federal government/In the application”这样的两句话,从而导致翻译出现错误。因此,需要对上下文进行段落识别,并将属于同一个段落的句子都放到一起,从而增加转换后文档的可用性。
在一些实施例中,获取上下文数据对应的图像数据,可以包括:根据第一文档中的与上下文数据对应的文字区域,确定图像数据。
请参阅图2,图2是本申请实施例提供的一种图像数据的示意图。如图2所示,在确定待进行合并的上下文数据之后,可以将PDF文档中的与上下文数据对应的文字区域,确定为图像数据。
例如,可以对PDF文档中的与上下文数据对应的文字区域进行截图,从而获得图像数据。可以理解的是,上下文数据为图像数据对应的文字。
在一些实施例中,获取上下文数据对应的图像数据之后,还可以对图像数据进行图像预处理。其中,图像预处理可以包括但不限于二值化、拉普拉斯锐化以及旋转纠正等等。例如,在对图像数据进行二值化时,可以将RGB值小于127的像素点取值为0,RGB值大于127的像素点取值为255。
通过获取待进行合并的上下文数据以及获取上下文数据对应的图像数据,后续可以分别对上下文数据与图像数据进行特征提取,并对得到的两种特征向量进行融合,实现多模态信息融合后进行段落预测。
步骤S20、将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量。
请参阅图3,图3是本申请实施例提供的一种对上下文数据进行段落预测的示意图。如图3所示,将图像数据输入目标检测模型中进行特征提取,获得图像数据对应的图像特征向量,以及将上下文数据输入词向量模型中进行向量化,获得上下文数据对应的文字特征向量;将图像特征向量与文字特征向量输入段落预测模型中进行段落预测,获得上下文数据对应的段落预测结果。从而实现将多模态信息融合后进行段落预测,提高了上下文数据对应的段落预测结果的准确性。
示例性的,目标检测模型可以包括但不限于Fast R-CNN(Fast RegionConvolutional Neural Network)模型、SSD(Single Shot Detector)模型以及YOLO模型等等。其中,目标检测模型至少包括区域生成网络层和特征提取层。需要说明的是,区域生成网络层可以包括RPN(RegionProposal Network,区域生成网络)层,用于生成多个候选框;特征提取层可以包括ROI(Region of Interest,感兴趣区域)Pooling,用于通过卷积神经网络对每个候选框提取特征。
在本申请实施例中,目标检测模型可以是Fast R-CNN模型,以下将以Fast R-CNN模型为例,详细说明如何对图像数据进行特征提取。
请参阅图4,图4是本申请实施例提供的一种对图像数据进行特征提取的子步骤的示意性流程图,具体可以包括以下步骤S201至步骤S203。
步骤S201、基于所述区域生成网络层,对所述图像数据中的各行文字添加候选框,并依次将每两个相邻行确定为第一目标行与第二目标行。
示例性的,可以将图像数据输入区域生成网络层,由区域生成网络层对图像数据中的各行文字添加候选框;然后依次将每两个相邻行确定为第一目标行与第二目标行。
通过对图像数据中的各行文字添加候选框,依次将每两个相邻行确定为第一目标行与第二目标行,后续可以根据第一目标行以及第二目标行中的候选框,确定图像特征向量。
步骤S202、基于所述特征提取层,确定所述第一目标行中的最后一个候选框对应的第一位置特征向量,以及确定所述第二目标行中的第一个候选框对应的第二位置特征向量。
在本申请实施例中,在特征提取时,主要针对两个标点符号之间的且存在跨行的文字进行特征提取。因此,通过需要提取第一目标行中的最后一个候选框对应的第一位置特征向量以及提取第二目标行中的第一个候选框对应的第二位置特征向量,从而可以获得两个标点符号之间的且存在跨行的文字对应的位置特征向量。
示例性的,可以通过特征提取层,提取第一目标行中的最后一个候选框对应的第一位置特征向量,以及提取第二目标行中的第一个候选框对应的第二位置特征向量。
需要说明的是,Fast R-CNN模型采用VGG16网络结构做基础模型,通过多个卷积层,将图像数据卷积得到不同尺度的特征向量,特征向量用于预测图像数据对应的位置信息。
示例性的,特征提取层可以通过卷积层对候选框进行卷积处理,从而可以得到位置特征向量。
步骤S203、根据所述第一位置特征向量与所述第二位置特征向量,确定所述图像特征向量。
示例性的,在得到第一位置特征向量与第二位置特征向量之后,可以将第一位置特征向量与第二位置特征向量,确定为图像特征向量。此时,图像特征向量可以包括多个位置特征向量,例如,第一位置特征向量与第二位置特征向量。
通过确定第一目标行中的最后一个候选框对应的第一位置特征向量以及确定第二目标行中的第一个候选框对应的第二位置特征向量,可以实现对两个标点符号之间的且存在跨行的文字进行特征提取,获得包含文字的位置特征的图像特征向量,提高了后续进行段落预测的准确性。
在一些实施例中,可以将上下文数据输入词向量模型中进行向量化,获得上下文数据对应的文字特征向量。其中,词向量模型可以包括但不限于BERT(BidirectionalEncoder Representations from Transformer)模型、word2vec模型、glove模型以及ELMo模型等等。在本申请实施例中,以词向量模型为BERT模型为例,详细说明如何对上下文数据进行向量化。
示例性的,BERT模型可以是预先训练好的模型。例如,可以预先采用大规模、与特定NLP(Natural Language Processing,自然语言处理)任务无关的文本语料对BERT模型进行训练,得到训练后的BERT模型。在训练时,BERT模型可以通过Attention(注意力)机制将目标字和上下文各个字的语义向量表示作为输入;然后通过线性变换获得目标字的向量表示、上下文各个字的向量表示以及目标字与上下文各个字的原始值表示;最后计算目标字的向量与上下文各个字的向量的相似度作为权重,对目标字的向量和各个上下文字的向量进行加权融合,作为Attention的输出,即目标字的增强语义向量表示。
示例性的,将上下文数据输入训练好的BERT模型进行向量化,获得上下文数据对应的文字特征向量。需要说明的是,通过将上下文数据输入BERT模型进行向量化,可以获得语义增强的文字特征向量。
步骤S30、将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果。
在一些实施例中,将图像特征向量与文字特征向量输入段落预测模型中进行段落预测之前,还可以包括:分别对图像特征向量与文字特征向量进行预处理,获得目标图像特征向量与目标文字特征向量。
示例性的,预处理可以包括权重值分配、残差连接以及归一化。在本申请实施例中,权重值分配可以通过自注意力权重(self-attention)层实现,残差连接与归一化可以通过前向传播(Feed Forward)层实现。其中,残差连接是指将当前层的输入与输出作为下一层的输入。例如,当前层的输入为X,输出为F(x),则下一层的输入为F(x)+X。
需要说明的是,权重值分配可以增加特征的自身特征之间的相关性。残差连接可以减少梯度消失的情况,将当前层的输入与输出拼起来作为下一层的输入,这样即使当前层的输出出现问题也不会有毁灭性影响。归一化可以提高段落预测模型的稳定性,避免了异常数据对段落预测模型产生影响。因此,通过分别对图像特征向量与文字特征向量进行预处理,可以有效提高段落预测模型的泛化性。
请参阅图5,图5是本申请实施例提供的一种对图像特征向量进行预处理的示意图。如图5所示,可以将目标检测模型输出的图像特征向量输入自注意力权重层进行权重值分配,获得权重值分配后的图像特征向量;然后将权重值分配后的图像特征向量输入前向传播层进行残差连接与归一化,获得目标图像特征向量。
请参阅图6,图6是本申请实施例提供的一种对文字特征向量进行预处理的示意图。如图6所示,可以将文字特征向量输入自注意力权重层进行权重值分配,获得权重值分配后的文字特征向量;然后将权重值分配后的文字特征向量输入前向传播层进行残差连接与归一化,获得目标文字特征向量。
在本申请实施例中,段落预测模型可以是预先训练好的模型。段落预测模型的训练过程可以包括:获取预设数量的训练文字数据,以及获取训练文字数据对应的训练图像数据;基于目标检测模型,确定训练图像数据对应的第一特征向量,以及基于词向量模型,确定训练文字数据对应的第二特征向量;将第一特征向量与第二特征向量输入段落预测模型进行迭代训练,直至段落预测模型收敛,得到训练好的段落预测模型。
示例性的,在将第一特征向量与第二特征向量输入段落预测模型进行迭代训练时,可以先根据第一特征向量与第二特征向量,确定每一轮训练的训练样本数据;将当前轮训练样本数据输入段落预测模型中进行段落预测训练,得到当前轮训练样本数据对应的段落预测结果;基于预设的损失函数,确定段落预测结果对应的损失函数值;若损失函数值大于预设的损失值阈值,则调整段落预测模型的参数,并进行下一轮训练,直至得到的损失函数值小于或等于损失值阈值,结束训练,得到训练好的段落预测模型。
示例性的,预设的损失函数可以包括但不限于0-1损失函数、绝对值损失函数、对数损失函数、平方损失函数以及指数损失函数等等。
其中,预设的损失值阈值可以根据实际情况进行设定,具体数值在此不作限定。
示例性的,在调整段落预测模型的参数时,可以通过梯度下降算法或反向传播算法实现。
通过对段落预测模型进行训练,可以提高训练好的段落预测模型的准确性;通过计算每一轮训练的损失函数值,并根据损失函数值调整段落预测模型的参数,可以减少段落预测模型收敛所需的时间,提高训练速度。
为进一步保证上述训练好的段落预测模型的私密和安全性,上述训练好的段落预测模型还可以存储于一区块链的节点中。当需要使用训练好的段落预测模型时,可以从区块链的节点中调用。
在一些实施例,将图像特征向量与文字特征向量输入段落预测模型中进行段落预测,可以包括:将目标图像特征向量与目标文字特征向量输入段落预测模型中进行段落预测。
请参阅图7,图7是本申请实施例提供的一种段落预测模型的结构示意图。如图7所示,段落预测模型包括交叉注意层、融合层、自注意力权重层、全连接层以及输出层。需要说明的是,交叉注意层用于计算两个特征向量之间的语义相关性;融合层用于根据语义相关性对特征向量进行加权融合。自注意力权重层用于建立两种特征向量之间的联系与交互。
通过将图像特征向量与文字特征向量输入段落预测模型中进行段落预测,可以实现多模态信息融合后进行段落预测,提高了上下文数据对应的段落预测结果的准确性。
请参阅图8,图8是本申请实施例提供的一种进行段落预测的子步骤的示意性流程图,具体可以包括以下步骤S301至步骤S304。
步骤S301、将所述目标图像特征向量与所述目标文字特征向量输入所述交叉注意层进行语义相关性计算,获得所述目标文字特征向量对应的语义相关矩阵。
请参阅图9,图9是本申请实施例提供的一种进行段落预测的示意图。如图9所示,可以将目标图像特征向量与目标文字特征向量输入交叉注意层进行语义相关性计算。
需要说明的是,交叉注意层可以通过相似度算法进行语义相关性计算。其中,相似度算法可以包括但不限于欧式距离、余弦相似度、Jaccard相似系数以及Pearson相关系数等算法。
示例性的,可以基于余弦相似度,计算目标图像特征向量与目标文字特征向量之间的语义相关性。计算语义相关性的公式,如下所示:
Figure BDA0003044603100000111
式中,V表示目标图像特征向量;L表示目标文字特征向量;Ri,j表示语义相关矩阵。
通过将目标图像特征向量与目标文字特征向量输入交叉注意层进行语义相关性计算,可以实现提取目标图像特征向量与目标文字特征向量之间的相似度。
步骤S302、将所述目标文字特征向量与所述语义相关矩阵输入所述融合层,获得所述目标文字特征向量对应的特征融合向量。
在一些实施例中,将目标文字特征向量与语义相关矩阵输入融合层,获得目标文字特征向量对应的特征融合向量,包括:根据语义相关矩阵,确定融合层对应的卷积核;基于卷积核,对目标文字特征向量进行卷积,获得特征融合向量。
示例性的,语义相关矩阵的大小可以是n×n。在本申请实施例中,可以将语义相关矩阵确定为卷积核,从而卷积核的大小为n×n。其中,n的取值可以根据实际情况确定,具体数值在此不作限定。
示例性的,在进行卷积时,卷积核可以在目标文字特征向量上移动,进行点积运算。其中,移动的步长可以根据实际情况设定,具体数值在此不作限定。
通过将目标文字特征向量与语义相关矩阵输入融合层,可以获得目标文字特征向量对应的特征融合向量,实现将目标图像特征向量与目标文字特征向量进行融合,进而可以提高后续段落预测结果的准确性。
步骤S303、将所述特征融合向量输入所述自注意力权重层进行权重值分配,获得目标特征融合向量。
在一些实施例中,将特征融合向量输入自注意力权重层进行权重值分配,获得目标特征融合向量之前,还可以包括:对特征融合向量进行残差连接与归一化,获得归一化后的特征融合向量。
示例性的,可以将特征融合向量依次进行残差连接与归一化,获得归一化后的特征融合向量。
在一些实施例中,将特征融合向量输入自注意力权重层进行权重值分配,获得目标特征融合向量,包括:将归一化后的特征融合向量输入自注意力权重层进行权重值分配,获得目标特征融合向量。
示例性的,将归一化后的特征融合向量输入自注意力权重层进行权重值分配,获得目标特征融合向量。如下所示:
Figure BDA0003044603100000121
式中,
Figure BDA0003044603100000122
表示目标特征融合向量。
需要说明的是,在本申请实施例中,在每次经过子层时,都可以对数据进行残差连接与归一化。
通过将特征融合向量输入自注意力权重层进行权重值分配,可以增加特征的自身特征之间的相关性;通过对特征融合向量进行残差连接与归一化,可以提高后续段落预测的准确性。
步骤S304、将所述目标特征融合向量依次输入所述全连接层与所述输出层,获得所述段落预测结果。
在获得目标特征融合向量之后,将目标特征融合向量输入全连接层与输出层,可以获得上下文数据对应的段落预测结果。
需要说明的是,全连接层(Fully Connected layers,FC)用于连接上一层所有的特征,并将输出值送到输出层。输出层用于对全连接层输入的值进行分类,例如通过softmax函数进行分类。在本申请实施例中,输出层可以输出上下文数据对应的段落预测结果。
步骤S40、根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。
示例性的,段落预测结果可以包括0与1。其中,1表示同一段落;0表示非同一段落。
例如,当段落预测结果为1时,说明上下文数据中的两个段落文字属于同一段落,此时可以对属于同一段落的文字合并。
例如,当段落预测结果为0时,说明上下文数据中的两个段落文字不属于同一段落,此时不需要对这两个段落的文字进行合并。
通过根据段落预测结果,对上下文数据中的属于同一段落的文字进行合并,实现对由不可编辑文档转换得到的可编辑文档中的错误分段进行自动识别与合并,无需人工进行段落调整,提高可编辑文档的可用性。
上述实施例提供的基于机器学习的段落识别方法,通过获取待进行合并的上下文数据以及获取上下文数据对应的图像数据,后续可以分别对上下文数据与图像数据进行特征提取,并对得到的两种特征向量进行融合,实现多模态信息融合后进行段落预测;通过将上下文数据输入BERT模型进行向量化,可以获得语义增强的文字特征向量;通过分别对图像特征向量与文字特征向量进行预处理,可以有效提高段落预测模型的泛化性;通过对段落预测模型进行训练,可以提高训练好的段落预测模型的准确性;通过计算每一轮训练的损失函数值,并根据损失函数值调整段落预测模型的参数,可以减少段落预测模型收敛所需的时间,提高训练速度;通过将图像特征向量与文字特征向量输入段落预测模型中进行段落预测,可以实现多模态信息融合后进行段落预测,提高了上下文数据对应的段落预测结果的准确性;通过将目标图像特征向量与目标文字特征向量输入交叉注意层进行语义相关性计算,可以实现提取目标图像特征向量与目标文字特征向量之间的相似度;通过将目标文字特征向量与语义相关矩阵输入融合层,可以获得目标文字特征向量对应的特征融合向量,实现将目标图像特征向量与目标文字特征向量进行融合,进而可以提高后续段落预测结果的准确性;通过将特征融合向量输入自注意力权重层进行权重值分配,可以增加特征的自身特征之间的相关性;通过对特征融合向量进行残差连接与归一化,可以提高后续段落预测的准确性;通过根据段落预测结果,对上下文数据中的属于同一段落的文字进行合并,实现对由不可编辑文档转换得到的可编辑文档中的错误分段进行自动识别与合并,无需人工进行段落调整,提高可编辑文档的可用性。
请参阅图10,图10是本申请的实施例还提供一种基于机器学习的段落识别装置1000的示意性框图,该基于机器学习的段落识别装置用于执行前述的基于机器学习的段落识别方法。其中,该基于机器学习的段落识别装置可以配置于服务器或终端中。
如图10所示,该基于机器学习的段落识别装置1000,包括:数据获取模块1001、特征提取模块1002、段落预测模块1003和段落合并模块1004。
数据获取模块1001,用于获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字。
特征提取模块1002,用于将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量。
段落预测模块1003,用于将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果。
段落合并模块1004,用于根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
请参阅图11,该计算机设备包括通过***总线连接的处理器和存储器,其中,存储器可以包括非易失性存储介质和内存储器。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种基于机器学习的段落识别方法。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字;将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量;将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果;根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。
在一个实施例中,所述目标检测模型至少包括区域生成网络层和特征提取层;所述处理器在实现将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量时,用于实现:
基于所述区域生成网络层,对所述图像数据中的各行文字添加候选框,并依次将每两个相邻行确定为第一目标行与第二目标行;基于所述特征提取层,确定所述第一目标行中的最后一个候选框对应的第一位置特征向量,以及确定所述第二目标行中的第一个候选框对应的第二位置特征向量;根据所述第一位置特征向量与所述第二位置特征向量,确定所述图像特征向量。
在一个实施例中,所述处理器在实现将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测之前,还用于实现:
分别对所述图像特征向量与所述文字特征向量进行预处理,获得目标图像特征向量与目标文字特征向量,其中,所述预处理包括权重值分配、残差连接以及归一化。
在一个实施例中,所述处理器在实现将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测时,用于实现:
将所述目标图像特征向量与所述目标文字特征向量输入所述段落预测模型中进行段落预测。
在一个实施例中,所述段落预测模型包括交叉注意层、融合层、自注意力权重层、全连接层以及输出层;所述处理器在实现将所述目标图像特征向量与所述目标文字特征向量输入段落预测模型中进行段落预测时,用于实现:
将所述目标图像特征向量与所述目标文字特征向量输入所述交叉注意层进行语义相关性计算,获得所述目标文字特征向量对应的语义相关矩阵;将所述目标文字特征向量与所述语义相关矩阵输入所述融合层,获得所述目标文字特征向量对应的特征融合向量;将所述特征融合向量输入所述自注意力权重层进行权重值分配,获得目标特征融合向量;将所述目标特征融合向量依次输入所述全连接层与所述输出层,获得所述段落预测结果。
在一个实施例中,所述处理器在实现将所述目标文字特征向量与所述语义相关矩阵输入所述融合层,获得所述目标文字特征向量对应的特征融合向量时,用于实现:
根据所述语义相关矩阵,确定所述融合层对应的卷积核;基于所述卷积核,对所述目标文字特征向量进行卷积,获得所述特征融合向量。
在一个实施例中,所述处理器在实现将所述特征融合向量输入所述自注意力权重层进行权重值分配,获得目标特征融合向量之前,还用于实现:
对所述特征融合向量进行残差连接与归一化,获得归一化后的所述特征融合向量。
在一个实施例中,所述处理器在实现将所述特征融合向量输入所述自注意力权重层进行权重值分配,获得目标特征融合向量时,用于实现:
将归一化后的所述特征融合向量输入所述自注意力权重层进行权重值分配,获得所述目标特征融合向量。
在一个实施例中,所述处理器在实现获取待进行合并的上下文数据时,用于实现:
基于预设的类型转换策略,对待进行文档类型转换的第一文档进行类型转换,获得对应的第二文档;根据所述第二文档中的每两个相邻段落的文字,确定待进行合并的所述上下文数据。
在一个实施例中,所述处理器在实现获取所述上下文数据对应的图像数据时,用于实现:
根据所述第一文档中的与所述上下文数据对应的文字区域,确定所述图像数据。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项基于机器学习的段落识别方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字卡(Secure Digital Card,SD Card),闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于机器学习的段落识别方法,其特征在于,包括:
获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字;
将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量;
将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果;
根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。
2.根据权利要求1所述的基于机器学习的段落识别方法,其特征在于,所述目标检测模型至少包括区域生成网络层和特征提取层;所述将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,包括:
基于所述区域生成网络层,对所述图像数据中的各行文字添加候选框,并依次将每两个相邻行确定为第一目标行与第二目标行;
基于所述特征提取层,确定所述第一目标行中的最后一个候选框对应的第一位置特征向量,以及确定所述第二目标行中的第一个候选框对应的第二位置特征向量;
根据所述第一位置特征向量与所述第二位置特征向量,确定所述图像特征向量。
3.根据权利要求1所述的基于机器学习的段落识别方法,其特征在于,所述将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测之前,还包括:
分别对所述图像特征向量与所述文字特征向量进行预处理,获得目标图像特征向量与目标文字特征向量,其中,所述预处理包括权重值分配、残差连接以及归一化;
所述将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,包括:
将所述目标图像特征向量与所述目标文字特征向量输入所述段落预测模型中进行段落预测。
4.根据权利要求3所述的基于机器学习的段落识别方法,其特征在于,所述段落预测模型包括交叉注意层、融合层、自注意力权重层、全连接层以及输出层;
所述将所述目标图像特征向量与所述目标文字特征向量输入段落预测模型中进行段落预测,包括:
将所述目标图像特征向量与所述目标文字特征向量输入所述交叉注意层进行语义相关性计算,获得所述目标文字特征向量对应的语义相关矩阵;
将所述目标文字特征向量与所述语义相关矩阵输入所述融合层,获得所述目标文字特征向量对应的特征融合向量;
将所述特征融合向量输入所述自注意力权重层进行权重值分配,获得目标特征融合向量;
将所述目标特征融合向量依次输入所述全连接层与所述输出层,获得所述段落预测结果。
5.根据权利要求4所述的基于机器学习的段落识别方法,其特征在于,所述将所述目标文字特征向量与所述语义相关矩阵输入所述融合层,获得所述目标文字特征向量对应的特征融合向量,包括:
根据所述语义相关矩阵,确定所述融合层对应的卷积核;
基于所述卷积核,对所述目标文字特征向量进行卷积,获得所述特征融合向量。
6.根据权利要求4所述的基于机器学习的段落识别方法,其特征在于,所述将所述特征融合向量输入所述自注意力权重层进行权重值分配,获得目标特征融合向量之前,还包括:
对所述特征融合向量进行残差连接与归一化,获得归一化后的所述特征融合向量;
所述将所述特征融合向量输入所述自注意力权重层进行权重值分配,获得目标特征融合向量,包括:
将归一化后的所述特征融合向量输入所述自注意力权重层进行权重值分配,获得所述目标特征融合向量。
7.根据权利要求1-6任一项所述的基于机器学习的段落识别方法,其特征在于,所述获取待进行合并的上下文数据,包括:
基于预设的类型转换策略,对待进行文档类型转换的第一文档进行类型转换,获得对应的第二文档;
根据所述第二文档中的每两个相邻段落的文字,确定待进行合并的所述上下文数据;
所述获取所述上下文数据对应的图像数据,包括:
根据所述第一文档中的与所述上下文数据对应的文字区域,确定所述图像数据。
8.一种基于机器学习的段落识别装置,其特征在于,包括:
数据获取模块,用于获取待进行合并的上下文数据,以及获取所述上下文数据对应的图像数据,所述上下文数据为所述图像数据对应的文字;
特征提取模块,用于将所述图像数据输入目标检测模型中进行特征提取,获得所述图像数据对应的图像特征向量,以及将所述上下文数据输入词向量模型中进行向量化,获得所述上下文数据对应的文字特征向量;
段落预测模块,用于将所述图像特征向量与所述文字特征向量输入段落预测模型中进行段落预测,获得所述上下文数据对应的段落预测结果;
段落合并模块,用于根据所述段落预测结果,对所述上下文数据中的属于同一段落的文字进行合并。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7任一项所述的基于机器学习的段落识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7任一项所述的基于机器学习的段落识别方法。
CN202110467091.XA 2021-04-28 2021-04-28 基于机器学习的段落识别方法、装置、计算机设备和介质 Active CN113159013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110467091.XA CN113159013B (zh) 2021-04-28 2021-04-28 基于机器学习的段落识别方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110467091.XA CN113159013B (zh) 2021-04-28 2021-04-28 基于机器学习的段落识别方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN113159013A true CN113159013A (zh) 2021-07-23
CN113159013B CN113159013B (zh) 2024-05-07

Family

ID=76871926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110467091.XA Active CN113159013B (zh) 2021-04-28 2021-04-28 基于机器学习的段落识别方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN113159013B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435449A (zh) * 2021-08-03 2021-09-24 全知科技(杭州)有限责任公司 基于深度学习的ocr图像文字识别与段落输出方法
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113723312A (zh) * 2021-09-01 2021-11-30 东北农业大学 基于视觉transformer的水稻病害识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和***
CN110188781A (zh) * 2019-06-06 2019-08-30 焦点科技股份有限公司 一种基于深度学习的古诗文自动识别方法
CN110472242A (zh) * 2019-08-05 2019-11-19 腾讯科技(深圳)有限公司 一种文本处理方法、装置和计算机可读存储介质
CN110728117A (zh) * 2019-08-27 2020-01-24 达而观信息科技(上海)有限公司 基于机器学习和自然语言处理的段落自动识别方法及***
CN111222368A (zh) * 2018-11-26 2020-06-02 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN111460889A (zh) * 2020-02-27 2020-07-28 平安科技(深圳)有限公司 一种基于语音及图像特征的异常行为识别方法、装置及设备
CN111860398A (zh) * 2020-07-28 2020-10-30 河北师范大学 遥感图像目标检测方法、***及终端设备
CN112418209A (zh) * 2020-12-15 2021-02-26 润联软件***(深圳)有限公司 文字识别方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222368A (zh) * 2018-11-26 2020-06-02 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和***
CN110188781A (zh) * 2019-06-06 2019-08-30 焦点科技股份有限公司 一种基于深度学习的古诗文自动识别方法
CN110472242A (zh) * 2019-08-05 2019-11-19 腾讯科技(深圳)有限公司 一种文本处理方法、装置和计算机可读存储介质
CN110728117A (zh) * 2019-08-27 2020-01-24 达而观信息科技(上海)有限公司 基于机器学习和自然语言处理的段落自动识别方法及***
CN111460889A (zh) * 2020-02-27 2020-07-28 平安科技(深圳)有限公司 一种基于语音及图像特征的异常行为识别方法、装置及设备
CN111860398A (zh) * 2020-07-28 2020-10-30 河北师范大学 遥感图像目标检测方法、***及终端设备
CN112418209A (zh) * 2020-12-15 2021-02-26 润联软件***(深圳)有限公司 文字识别方法、装置、计算机设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435449A (zh) * 2021-08-03 2021-09-24 全知科技(杭州)有限责任公司 基于深度学习的ocr图像文字识别与段落输出方法
CN113435449B (zh) * 2021-08-03 2023-08-22 全知科技(杭州)有限责任公司 基于深度学习的ocr图像文字识别与段落输出方法
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113723312A (zh) * 2021-09-01 2021-11-30 东北农业大学 基于视觉transformer的水稻病害识别方法
CN113723312B (zh) * 2021-09-01 2024-01-23 东北农业大学 基于视觉transformer的水稻病害识别方法

Also Published As

Publication number Publication date
CN113159013B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
US10482174B1 (en) Systems and methods for identifying form fields
CN113159013B (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
US11157816B2 (en) Systems and methods for selecting and generating log parsers using neural networks
US10956673B1 (en) Method and system for identifying citations within regulatory content
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN111488732B (zh) 一种变形关键词检测方法、***及相关设备
US11557140B2 (en) Model-independent confidence values for extracted document information using a convolutional neural network
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
US10824808B2 (en) Robust key value extraction
EP4060526A1 (en) Text processing method and device
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
US20230138491A1 (en) Continuous learning for document processing and analysis
CN114724156A (zh) 表单识别方法、装置及电子设备
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
CN115039144A (zh) 手写中的数学检测
CN112381458A (zh) 项目评审方法、项目评审装置、设备及存储介质
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
EP4089568A1 (en) Cascade pooling for natural language document processing
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质
US11763585B2 (en) Multi-layer neural network and convolutional neural network for context sensitive optical character recognition
CN116523032B (zh) 一种图像文本双端迁移攻击方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant