CN113822132A - 文本检测方法及文本检测网络训练方法 - Google Patents

文本检测方法及文本检测网络训练方法 Download PDF

Info

Publication number
CN113822132A
CN113822132A CN202110780831.5A CN202110780831A CN113822132A CN 113822132 A CN113822132 A CN 113822132A CN 202110780831 A CN202110780831 A CN 202110780831A CN 113822132 A CN113822132 A CN 113822132A
Authority
CN
China
Prior art keywords
suggestion
text
feature
target
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110780831.5A
Other languages
English (en)
Inventor
刘皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110780831.5A priority Critical patent/CN113822132A/zh
Publication of CN113822132A publication Critical patent/CN113822132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种文本检测方法及文本检测网络训练方法。所述文本检测方法包括:获取文本图像;对文本图像进行目标检测,得到与文本图像对应的目标建议框;根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,上下文聚合特征用于表征目标建议框之间的关系;根据上下文聚合特征,对目标建议框进行分类,确定与分类结果对应的文本检测框;基于文本检测框对文本图像进行文本检测,得到文本检测结果。采用本方法能够提高文本检测准确度。

Description

文本检测方法及文本检测网络训练方法
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本检测方法及文本检测网络训练方法。
背景技术
随着人工智能技术的发展,出现了自然场景文本检测技术,自然场景文本检测技术是指对自然场景中出现的文本进行检测,其在日常生活中有着极其广泛的应用,例如,可应用于智能问答、文本-图片检索和高精度地图导航等中。
传统技术中,常采用基于回归的方法和基于分割的方法进行自然场景文本检测,其中,基于回归的方法通过设计具有文本形状先验信息的文本建议框生成方法以提高文本检测性能,基于分割的方法主要通过对文本区域进行像素级别的预测实现文本检测。
然而,传统方法,基于回归的方法,仅仅针对文本的形状特征进行设计,且需要将文本区域分解成独立单字预测再连接,存在检测准确度低的问题,基于分割的方法,由于图像的像素之间具有独立性和低相关性,也会存在检测准确度低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本检测准确度的文本检测方法、装置、计算机设备和存储介质及文本检测网络训练方法、装置、计算机设备和存储介质。
一种文本检测方法,所述方法包括:
获取文本图像;
对文本图像进行目标检测,得到与文本图像对应的目标建议框;
根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,上下文聚合特征用于表征目标建议框之间的关系;
根据上下文聚合特征,对目标建议框进行分类,确定与分类结果对应的文本检测框;
基于文本检测框对文本图像进行文本检测,得到文本检测结果。
一种文本检测装置,所述装置包括:
获取模块,用于获取文本图像;
目标检测模块,用于对文本图像进行目标检测,得到与文本图像对应的目标建议框;
特征提取模块,用于根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,上下文聚合特征用于表征目标建议框之间的关系;
分类模块,用于根据上下文聚合特征,对目标建议框进行分类,确定与分类结果对应的文本检测框;
文本检测模块,用于基于文本检测框对文本图像进行文本检测,得到文本检测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取文本图像;
对文本图像进行目标检测,得到与文本图像对应的目标建议框;
根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,上下文聚合特征用于表征目标建议框之间的关系;
根据上下文聚合特征,对目标建议框进行分类,确定与分类结果对应的文本检测框;
基于文本检测框对文本图像进行文本检测,得到文本检测结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取文本图像;
对文本图像进行目标检测,得到与文本图像对应的目标建议框;
根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,上下文聚合特征用于表征目标建议框之间的关系;
根据上下文聚合特征,对目标建议框进行分类,确定与分类结果对应的文本检测框;
基于文本检测框对文本图像进行文本检测,得到文本检测结果。
一种文本检测网络训练方法,包括:
获取初始文本检测网络以及携带检测框标注的样本图像,初始文本检测网络包括目标建议框生成网络、文本上下文关系网络以及文本检测框提取网络,检测框标注包括检测框位置和检测框类型;
通过目标建议框生成网络对样本图像进行目标检测,得到与样本图像对应的样本建议框;
通过文本上下文关系网络,根据样本建议框进行特征提取与上下文关系构建,得到样本建议框的样本上下文聚合特征;
通过文本检测提取网络,根据样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别;
比对样本建议框和检测框位置,以及预测建议框类别和检测框类型,得到模型损失函数;
根据模型损失函数调整初始文本检测网络,得到已训练的文本检测网络。
一种文本检测网络训练装置,包括:
样本获取模块,用于获取初始文本检测网络以及携带检测框标注的样本图像,初始文本检测网络包括目标建议框生成网络、文本上下文关系网络以及文本检测框提取网络,检测框标注包括检测框位置和检测框类型;
样本目标检测模块,用于通过目标建议框生成网络对样本图像进行目标检测,得到与样本图像对应的样本建议框;
样本特征提取模块,用于通过文本上下文关系网络,根据样本建议框进行特征提取与上下文关系构建,得到样本建议框的样本上下文聚合特征;
样本文本检测模块,用于通过文本检测提取网络,根据样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别;
比对模块,用于比对样本建议框和检测框位置,以及预测建议框类别和检测框类型,得到模型损失函数;
调整模块,用于根据模型损失函数调整初始文本检测网络,得到已训练的文本检测网络。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取初始文本检测网络以及携带检测框标注的样本图像,初始文本检测网络包括目标建议框生成网络、文本上下文关系网络以及文本检测框提取网络,检测框标注包括检测框位置和检测框类型;
通过目标建议框生成网络对样本图像进行目标检测,得到与样本图像对应的样本建议框;
通过文本上下文关系网络,根据样本建议框进行特征提取与上下文关系构建,得到样本建议框的样本上下文聚合特征;
通过文本检测提取网络,根据样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别;
比对样本建议框和检测框位置,以及预测建议框类别和检测框类型,得到模型损失函数;
根据模型损失函数调整初始文本检测网络,得到已训练的文本检测网络。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取初始文本检测网络以及携带检测框标注的样本图像,初始文本检测网络包括目标建议框生成网络、文本上下文关系网络以及文本检测框提取网络,检测框标注包括检测框位置和检测框类型;
通过目标建议框生成网络对样本图像进行目标检测,得到与样本图像对应的样本建议框;
通过文本上下文关系网络,根据样本建议框进行特征提取与上下文关系构建,得到样本建议框的样本上下文聚合特征;
通过文本检测提取网络,根据样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别;
比对样本建议框和检测框位置,以及预测建议框类别和检测框类型,得到模型损失函数;
根据模型损失函数调整初始文本检测网络,得到已训练的文本检测网络。
上述文本检测方法、装置、计算机设备和存储介质,通过获取文本图像,对文本图像进行目标检测,能够得到与文本图像对应的目标建议框,进而通过根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,能够在充分考虑目标建议框之间的关系的基础上,利用表征目标建议框之间的关系的上下文聚合特征,对目标建议框进行准确分类,确定出文本检测框,从而可以基于所确定的文本检测框对文本图像进行文本检测,得到文本检测结果,提高文本检测准确度。
上述文本检测网络训练方法、装置、计算机设备和存储介质,通过获取初始文本检测网络以及携带检测框标注的样本图像,利用初始文本检测网络对样本图像进行目标检测,得到样本建议框,根据样本建议框特征提取与进行上下文关系构建,得到样本上下文聚合特征,能够在充分考虑样本建议框之间的关系的基础上,利用表征样本建议框之间的关系的样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别,通过比对样本建议框和建议框位置,以及预测建议框类别和检测框类型,得到模型损失函数,能够在根据模型损失函数调整初始文本检测网络后,得到在充分考虑建议框之间的关系的基础上可进行准确文本检测的已训练的文本检测网络,利用已训练的文本检测网络进行文本检测即可实现提高文本检测准确度。
附图说明
图1为一个实施例中文本检测方法的流程示意图;
图2为一个实施例中文本检测网络训练方法的流程示意图;
图3为一个实施例中上下文关系网络的示意图;
图4为一个实施例中文本检测提取网络的示意图;
图5为一个实施例中通过已训练的文本检测网络得到文本检测框的示意图;
图6为一个实施例中文本检测方法在自然场景图像中应用的示意图;
图7为一个实施例中文本检测装置的结构框图;
图8为一个实施例中文本检测网络训练装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
本申请涉及人工智能技术领域,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
具体的,本申请涉及的是计算机视觉技术,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文本检测方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。此外,服务器还可以是区块链上的节点。本实施例中,该方法包括以下步骤:
步骤102,获取文本图像。
其中,文本图像是指需要进行文本检测的图像。比如,文本图像具体可以是指自然场景图像。这里的自然场景具体可以是街道等,本实施例在此处不做具体限定。
具体的,当需要进行文本检测时,服务器会获取到文本图像。
步骤104,对文本图像进行目标检测,得到与文本图像对应的目标建议框。
其中,目标检测是指利用图像处理检测出文本图像中所存在的目标,这里的目标包括文本目标和非文本目标,即环境目标。比如,文本目标具体可以是指包含文字的广告牌,非文本目标具体可以是指广告牌旁的公交站。目标建议框是指在目标检测过程中生成的用于标注出文本图像中目标的候选框。目标建议框包括文本建议框与环境建议框,其中的文本建议框用于标注出文本图像中的文本目标,环境建议框用于标注出文本图像中的非文本目标,即环境目标。
具体的,在获取到文本图像后,服务器会对文本图像进行特征提取,得到文本图像特征图,根据文本图像特征图进行场景目标检测,得到与文本图像对应的目标建议框。进一步的,在根据文本图像特征图进行场景目标检测时,为了得到更加丰富的特征信息以实现准确目标检测,服务器会对文本图像特征图进行采样,得到采样特征图,再根据采样特征图进行场景目标检测,得到与文本图像对应的目标建议框。
步骤106,根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,上下文聚合特征用于表征目标建议框之间的关系。
其中,进行特征提取是指提取出可表征目标建议框的特征的建议框特征集合。上下文关系构建是指构建文本图像中每个目标建议框所对应目标之间的关系。由于不同目标建议框所对应目标在场景方位上以及外形上具有天然的结构性和关联性,通过进行上下文关系构建得到的上下文聚合特征,能够聚合文本图像中与目标建议框所对应目标的上下文目标的信息,从而可以结合上下文目标的信息,实现对目标建议框的类型的准确判断,以提升文本检测效果。
具体的,服务器会根据目标建议框进行特征提取,提取出与目标建议框对应的建议框特征集合,再对建议框特征集合中每个建议框特征进行图构建,得到与建议框特征对应的建议框特征图,再分别对建议框特征图进行图卷积,以得到与建议框特征图对应的特征数据,综合与建议框特征图对应的特征数据,得到目标建议框的上下文聚合特征。
步骤108,根据上下文聚合特征,对目标建议框进行分类,确定与分类结果对应的文本检测框。
其中,文本检测框是指从目标建议框中分类出的所对应目标为文本对象的建议框。
具体的,在得到上下文聚合特征后,服务器会利用上下文聚合特征对目标建议框进行分类,从目标建议框中挑选出文本检测框。在进行分类时,服务器可以将分类问题转换为序列标注问题,即利用序列标注思想,为文本检测框和非文本检测框预先设置不同的标签,根据上下文聚合特征,对目标建议框进行序列标注分类,通过序列标注的所输出的目标建议框的标签,确定出目标建议框中的文本检测框。进一步的,对目标建议框进行分类可以采用已训练的transformer模块实现,该模块的输入为由目标建议框组成的序列,其特征为上下文聚合特征,输出为序列中每个目标建议框的类别。需要说明的是,在对文本图像进行目标检测后,所得到的与文本图像对应的目标建议框中包括文本建议框和环境建议框,由于环境建议框中不包括文本对象,因此此处对目标建议框进行分类,从目标建议框中挑选出文本检测框主要是指对目标建议框中文本建议框进行分类,从文本建议框中挑选出文本检测框。
步骤110,基于文本检测框对文本图像进行文本检测,得到文本检测结果。
具体的,在得到文本检测框后,服务器可以利用文本检测框从文本图像中截取出对应的待检测图像,通过对待检测图像进行文本识别实现对文本图像进行文本检测,文本识别所得到的识别结果即文本检测结果。其中,文本识别具体可以是指OCR识别。
上述文本检测方法,通过获取文本图像,对文本图像进行目标检测,能够得到与文本图像对应的目标建议框,进而通过根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,能够在充分考虑目标建议框之间的关系的基础上,利用表征目标建议框之间的关系的上下文聚合特征,对目标建议框进行准确分类,确定出文本检测框,从而可以基于所确定的文本检测框对文本图像进行文本检测,得到文本检测结果,提高文本检测准确度。
在一个实施例中,对文本图像进行目标检测,得到与文本图像对应的目标建议框包括:
对文本图像进行特征提取,得到文本图像特征图;
对文本图像特征图进行采样,得到采样特征图;
根据采样特征图进行场景目标检测,得到与文本图像对应的目标建议框。
具体的,服务器会利用已训练的基础特征提取网络对文本图像进行特征提取,得到文本图像特征图,再利用已训练的采样网络对文本图像特征图进行采样,得到采样特征图,再在采样特征图上进行带角度的场景目标检测,得到与文本图像对应的目标建议框。
其中,已训练的基础特征提取网络具体可以是指标准的50层残差网络等,本实施例在此处不做具体限定。已训练的采样网络具体可以是指特征金字塔网络等,本实施例在此处不做具体限定。当已训练的采样网络为特征金字塔网络时,此处进行的采样为上采样,通过对文本图像特征图进行上采样,可以得到大小为文本图像特征图的1/4、1/8、1/16、1/32的上采样特征图。
其中,在采样特征图上进行带角度的场景目标检测,是指利用场景目标S=(x,y,w,h,θ)进行预测,其中,(x,y)表示目标建议框的中心点,w和h则分别表示宽和高,θ表示角度,场景目标检测具体可以通过RRPN(Rotation Region Proposal Network,旋转区域建议网络)网络实现,通过将采样特征图输入已训练的RRPN网络,能够使得RRPN网络输出带角度的候选区域,即目标建议框。
本实施例中,通过对文本图像进行特征提取,得到文本图像特征图,对文本图像特征图进行采样,得到采样特征图,根据采样特征图进行场景目标检测,能够实现利用更加丰富的特征信息实现准确目标检测,得到目标建议框。
在一个实施例中,根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征包括:
根据目标建议框以及采样特征图进行特征提取,得到与目标建议框对应的建议框特征集合;
根据建议框特征集合,进行上下文关系构建,得到目标建议框的上下文聚合特征。
其中,建议框特征集合中包括建议框特征,建议框特征用于描述目标建议框的特征和/或目标建议框所框选的特征区域的特征。比如,建议框特征具体可以是指用于描述目标建议框的几何特征。这里的几何特征具体可以是指建议框的尺寸特征、角度特征等。又比如,建议框特征具体可以是指用于描述目标建议框所框选的特征区域的外观特征。这里的外观特征具体可以是指目标建议框所框选的特征区域的颜色、形状等特征。再比如,建议框特征具体可以是指综合几何特征和外观特征所得到的混合特征。
具体的,建议框特征集合包括外观特征、几何特征以及混合特征,在确定目标建议框后,服务器会根据目标建议框以及采样特征图,确定目标建议框所框选的特征区域,并获取目标建议框的建议框参数,根据目标建议框所框选的特征区域进行区域特征聚集,提取出外观特征,根据建议框参数以及文本图像的图像尺寸,得到几何特征,综合外观特征和几何特征,得到混合特征。在得到外观特征、几何特征和混合特征后,服务器会对每个建议框特征进行图构建,得到与建议框特征对应的建议框特征图,再分别对建议框特征图进行图卷积,以得到与建议框特征图对应的特征数据,综合与建议框特征图对应的特征数据,得到目标建议框的上下文聚合特征
进一步的,若在得到目标建议框时进行了采样,得到多个不同尺寸的采样特征图,服务器在提取目标建议框的建议框特征集合时,也可以先根据目标建议框的建议框参数,确定出最适合进行特征提取的采样特征图,再利用该采样特征图进行建议框特征提取,以便能够提取到更准确的建议框特征。其中,综合外观特征和几何特征,得到混合特征的方式具体可以为串联外观特征和几何特征,得到混合特征。
本实施例中,通过根据目标建议框以及采样特征图进行特征提取,得到与目标建议框对应的建议框特征集合,能够利用建议框特征集合,进行上下文关系构建,得到目标建议框的上下文聚合特征。
在一个实施例中,根据目标建议框以及采样特征图进行特征提取,得到与目标建议框对应的建议框特征集合包括:
获取目标建议框的建议框参数以及文本图像的图像尺寸;
根据建议框参数,从采样特征图中确定与目标建议框对应的目标采样特征图;
确定目标采样特征图中与目标建议框对应的特征区域,对特征区域进行区域特征聚集,得到外观特征,并比对建议框参数和图像尺寸,得到几何特征;
根据外观特征和几何特征,得到混合特征;
归集外观特征、几何特征以及混合特征,得到建议框特征集合。
其中,建议框参数是指目标建议框在文本图像上的参数,包括目标建议框的中心点坐标、宽、高以及角度。目标采样特征图是指由目标建议框的尺寸所确定的最适合用于特征提取的采样特征图。特征区域是指目标建议框在目标采样特征图上所框选的区域。
具体的,服务器会获取目标建议框的建议框参数以及文本图像的图像尺寸,根据建议框参数确定目标建议框的尺寸大小,根据目标建议框的尺寸大小从采样特征图中择优选择与目标建议框对应的目标采样特征图,根据目标建议框在文本图像中的位置,确定目标采样特征图中与目标建议框对应的特征区域,对特征区域进行区域特征聚集,得到外观特征,并比对建议框参数和图像尺寸,得到几何特征,综合外观特征和几何特征,得到混合特征,归集外观特征、几何特征以及混合特征,即可得到建议框特征集合。
其中,根据目标建议框的尺寸大小从采样特征图中择优选择与目标建议框对应的目标采样特征图的方式可以为:比对目标建议框的尺寸大小和文本图像的图像尺寸,确定目标建议框在文本图像中所占比例,选择与所占比例最接近的采样特征图作为目标采样特征图。比如,当目标建议框在文本图像中所占比例为1/4时,可以选择大小为1/4文本图像特征图的采样特征图作为目标采样特征图。
其中,对特征区域进行区域特征聚集,得到外观特征可以通过RRoI Align方法实现,ROI Align的思路为取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。值得注意的是,在具体的算法操作上,ROI Align并不是简单地补充出候选区域边界上的坐标点,然后将这些坐标点进行池化,而是重新设计了一套流程:1)遍历每一个候选区域,保持浮点数边界不做量化;2)将候选区域分割成k x k个单元,每个单元的边界也不做量化;3)在每个单元中计算固定四个坐标位置,用双线性内插的方法计算出这四个位置的值,然后进行最大池化操作。其中,这里的候选区域即特征区域,再进行最大池化操作之后即可得到外观特征。
其中,比对建议框参数和图像尺寸,得到几何特征具体可以为利用公式g=(x/W,y/H,w/W,h/H,θ)T计算与目标建议框对应的几何特征,其中,(x,y)表示目标建议框的中心点,w和h则分别表示宽和高,θ表示角度,W和H即为图像尺寸,分别表示文本图像的宽和高。综合外观特征和几何特征,得到混合特征的方式具体可以为串联外观特征和几何特征,得到混合特征。
本实施例中,通过获取目标建议框的建议框参数以及文本图像的图像尺寸,能够根据建议框参数,实现对与目标建议框对应的目标采样特征图的确定,从而可以在确定目标采样特征图中与目标建议框对应的特征区域的基础上,通过对特征区域进行区域特征聚集,得到外观特征,此外,还可以通过比对建议框参数和图像尺寸,得到几何特征,根据外观特征和几何特征,得到混合特征,从而通过归集外观特征、几何特征以及混合特征,得到建议框特征集合。
在一个实施例中,根据建议框特征集合,进行上下文关系构建,得到目标建议框的上下文聚合特征包括:
根据建议框特征集合中建议框特征进行图构建,得到与建议框特征对应的建议框特征图;
分别对建议框特征图进行图卷积,得到与建议框特征图对应的特征数据;
根据与建议框特征图对应的特征数据,得到目标建议框的上下文聚合特征。
具体的,服务器会利用预先设置的相似度函数分别对建议框特征集合中建议框特征进行图构建,得到与建议框特征对应的建议框特征图,在建议框特征图中,以目标建议框为特征节点,以通过相似度函数计算得到的目标建议框之间的特征相似度为特征节点对应的特征边。在得到建议框特征图后,服务器会分别对建议框特征图进行图卷积,以得到与建议框特征图对应的特征数据,根据与建议框特征图对应的特征数据,就可以得到目标建议框的上下文聚合特征。
其中,相似度函数具体可以为余弦相似度函数、高斯相似度函数、字符串相似度函数中的至少一种或多种组合。余弦相似度函数用于计算余弦相似度,高斯相似度函数用于计算在高斯分布上的相似度,字符串相似度用于计算字符串之间的相似度。
其中,分别对建议框特征图进行图卷积是指利用已训练的图卷积网络对建议框特征图进行卷积,已训练的图卷积网络包括三层卷积网络,每层卷积网络可定义为Z=ELU(LayerNorm(GXW))+X,其中的G是指建议框特征图,X为与建议框特征图对应的目标建议框的建议框特征集合,W为权重矩阵,ELU为非线性层,LayerNorm表示层归一化,在图卷积网络中,每层卷积网络所输出的Z均为下一层卷积网络的输入。
其中,根据与建议框特征图对应的特征数据,得到目标建议框的上下文聚合特征的方式可以为:1)先将与建议框特征图对应的特征数据在通道维度上进行串联,再送入卷积层进行处理并进行归一化,得到目标建议框的上下文聚合特征,其中卷积层中卷积核的大小可以为1×1×256,可利用L2-normalization(标准化)进行归一化。2)设置门选择函数,在得到与建议框特征图对应的特征数据后,根据与建议框特征图对应的特征函数,计算特征权重,根据特征权重择优选择与建议框特征图对应的特征函数作为上下文聚合特征。
本实施例中,通过根据建议框特征集合中建议框特征进行图构建,能够得到与建议框特征对应的建议框特征图,进而可以通过分别对建议框特征图进行图卷积,得到与建议框特征图对应的特征数据,根据与建议框特征图对应的特征数据,得到目标建议框的上下文聚合特征。
在一个实施例中,根据建议框特征集合中建议框特征进行图构建,得到与建议框特征对应的建议框特征图包括:
根据建议框特征,确定目标建议框之间的特征相似度;
将目标建议框作为建议框特征图的特征节点,根据特征相似度,得到特征节点对应的特征边;
根据特征节点和特征边,得到与建议框特征对应的建议框特征图。
具体的,服务器会根据建议框特征以及预先设置的相似度函数,确定目标建议框之间的特征相似度,将目标建议框作为建议框特征图的特征节点,根据特征相似度,确定连接每两个特征节点的特征边,根据特征节点和特征边,得到与建议框特征对应的建议框特征图。
本实施例中,通过根据建议框特征,确定目标建议框之间的特征相似度,将目标建议框作为建议框特征图的特征节点,根据特征相似度,得到特征节点对应的特征边,能够根据特征节点和特征边,得到与建议框特征对应的建议框特征图。
在一个实施例中,根据上下文聚合特征,对目标建议框进行分类,确定与分类结果对应的文本检测框包括:
根据上下文聚合特征,确定目标建议框中文本建议框之间的建议框相似度;
根据建议框相似度,确定文本建议框之间的相对权重系数;
根据相对权重系数,构建与文本建议框对应的特征向量;
根据与文本建议框对应的特征向量以及已训练的多层感知器,确定与文本建议框对应的类别标签;
根据类别标签,从文本建议框中确定文本检测框。
其中,建议框相似度用于表征目标建议框中文本建议框所对应目标之间的相似程度。相对权重系数用来表示文本建议框之间的重要程度,这里的文本建议框之间的重要程度是指对于任意文本建议框来说,其他文本建议框对它的重要程度。已训练的多层感知器是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上,本实施例中即将与文本建议框对应的特征向量映射到类别标签上。类别标签为预先设置,用于对文本建议框进行区分。比如,在训练多层感知器时,可以预先设置类别标签1表示文本检测框,类别标签0表示非文本检测框。
具体的,在目标建议框中包括文本建议框和环境建议框,由于环境建议框中不包括文本对象,因此此处在对目标建议框进行分类主要是指对目标建议框中文本建议框进行分类。文本建议框和环境建议框用不同的建议框标识表示,在对目标建议框进行分类时,服务器会首先根据建议框标识从目标建议框中筛选出文本建议框,再根据上下文聚合特征,计算目标建议框中文本建议框之间的建议框相似度,根据建议框相似度,得到与文本建议框对应的相似度矩阵,通过对相似度矩阵进行归一化,确定文本建议框之间的相对权重系数,相对权重系数即归一化后的相似度值。在得到相对权重系数后,针对每个文本建议框,服务器会根据文本图像中其他文本建议框的上下文聚合特征以及其他文本建议框与该文本建议框的相对权重系数进行向量加权,构建与文本建议框对应的特征向量。得到与文本建议框对应的特征向量后,服务器会将与文本建议框对应的特征向量输入已训练的多层感知器,以使得已训练的多层感知器输出与文本建议框对应的类别标签。根据类别标签,服务器即可确定文本检测框。
进一步的,为了深层次的挖掘文本建议框之间的关系,文本建议框之间的交互过程有时可能会执行多次,以此来模拟人类在进行阅读理解时重复阅读的行为。即在一次得到特征向量后,服务器会以特征向量作为文本建议框的新的上下文聚合特征,再次根据上下文聚合特征进行交互,以不断更新特征向量,直到交互次数达到预设的交互次数阈值为止。其中,这里的预设的交互次数阈值可按照需要自行设置。
本实施例中,通过根据上下文聚合特征,确定目标建议框中文本建议框之间的建议框相似度,能够根据建议框相似度,确定文本建议框之间的相对权重系数,进而可以在根据相对权重系数,构建与文本建议框对应的特征向量的基础上,根据与文本建议框对应的特征向量以及已训练的多层感知器,确定与文本建议框对应的类别标签,根据类别标签,从文本建议框中确定文本检测框。
在一个实施例中,如图2所示,提供了一种文本检测网络训练方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。此外,服务器还可以是区块链上的节点。本实施例中,该方法包括以下步骤:
步骤202,获取初始文本检测网络以及携带检测框标注的样本图像,初始文本检测网络包括目标建议框生成网络、文本上下文关系网络以及文本检测框提取网络,检测框标注包括检测框位置和检测框类型。
步骤204,通过目标建议框生成网络对样本图像进行目标检测,得到与样本图像对应的样本建议框。
步骤206,通过文本上下文关系网络,根据样本建议框进行特征提取与上下文关系构建,得到样本建议框的样本上下文聚合特征。
步骤208,通过文本检测提取网络,根据样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别。
步骤210,比对样本建议框和检测框位置,以及预测建议框类别和检测框类型,得到模型损失函数。
步骤212,根据模型损失函数调整初始文本检测网络,得到已训练的文本检测网络。
其中,初始文本检测网络是指尚未进行参数训练的文本检测网络。检测框位置是指检测框在样本图像中的位置。检测框类型包括文本检测框和非文本检测框。目标建议框生成网络用于生成样本建议框,样本建议框包括样本文本建议框以及样本环境建议框。比如,目标建议框生成网络具体可以为基础特征提取网络+RRPN网络,其中的基础特征提取网络具体可以为残差网络+特征金字塔网络。文本上下文关系网络用于构建样本建议框之间的上下文关系。比如,如图3所示,上下文关系网络具体可以由RRoI Align网络、图卷积网络等组成。模型损失函数包括样本建议框的物体类别分类损失、样本建议框的坐标和角度回归损失以及预测建议框类别的分类损失。
其中,文本检测提取网络用于预测建议框类别。比如,如图4所示,文本检测提取网络具体采用transformer结构,其中包括标准化、多头注意、多层感知器等,文本检测提取网络通过序列分类,可输出101000011这样的序列标注,通过序列标注可实现预测建议框类别。若预先设置序列标注1对应文本检测框,序列标注0对应非文本检测框,由图4所输出的序列标注可知,在样本图像的样本文本建议框中包括四个文本检测框,五个非文本检测框,序列标注输出的顺序与样本文本建议框输入的顺序相对应,通过所输出的序列标注,即可知道每个样本文本建议框的预测建议框类别。
具体的,在需要训练文本检测网络时,服务器会获取初始文本检测网络以及携带检测框标注的样本图像,将样本图像输入初始文本检测网络,通过目标建议框生成网络对样本图像进行目标检测,得到与样本图像对应的样本建议框,通过文本上下文关系网络,根据样本建议框进行特征提取,得到与样本建议框对应的样本建议框特征集合,根据样本建议框特征集合,进行上下文关系构建,得到样本建议框的样本上下文聚合特征,通过文本检测提取网络根据样本上下文聚合特征,对样本建议框中样本文本建议框进行分类,得到样本文本建议框的预测建议框类别,比对样本建议框中样本环境建议框和检测框类型、样本建议框和检测框位置,以及预测建议框类别和检测框类型,得到模型损失函数,根据模型损失函数调整初始文本检测网络,直到模型损失函数达到预设损失函数要求为止,得到已训练的文本检测网络。其中,预设损失函数要求可按照需要自行设置,比如,预设损失函数要求具体可以为模型损失函数小于预设损失函数阈值、模型损失函数收敛等,本实施例在此处不做具体限定。
上述文本检测网络训练方法,通过获取初始文本检测网络以及携带检测框标注的样本图像,利用初始文本检测网络对样本图像进行目标检测,得到样本建议框,根据样本建议框特征提取与进行上下文关系构建,得到样本上下文聚合特征,能够在充分考虑样本建议框之间的关系的基础上,利用表征样本建议框之间的关系的样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别,通过比对样本建议框和建议框位置,以及预测建议框类别和检测框类型,得到模型损失函数,能够在根据模型损失函数调整初始文本检测网络后,得到在充分考虑建议框之间的关系的基础上可进行准确文本检测的已训练的文本检测网络,利用已训练的文本检测网络进行文本检测即可实现提高文本检测准确度。
如图5所示,通过一个实施例来说明通过已训练的文本检测网络根据文本图像得到文本检测框的过程,已训练的文本检测网络包括目标建议框检测网络、文本上下文关系网络以及文本检测框提取网络。
服务器获取文本图像(即场景图像),将文本图像输入已训练的文本检测网络中,通过目标建议框检测网络中的基础网络中的Res50(50层Residual Networks(残差网络)对文本图像进行特征提取,得到文本图像特征图,通过基础网络中的FPN(feature pyramidnetworks,特征金字塔网络)对文本图像特征图进行上采样,得到上采样特征图,通过目标建议框检测网络中的RRPN网络根据上采样特征图进行场景目标检测,得到与文本图像对应的目标建议框,目标建议框中包括文本建议框和环境建议框。其中,如图5中进行场景目标检测后所输出的目标建议框所示,针对文本图像中的每个目标(文本(用字表示)或者环境(用全黑小块表示)),会存在多个存在重叠区域的目标建议框与其对应,此处为了清晰展示,在通过上下文图关系网络后,对于文本图像中每个目标仅用一个目标建议框来表示。
得到目标建议框后,服务器会将标注有目标建议框的文本图像输入文本上下文关系网络,文本上下文关系网络会根据目标建议框进行特征提取,得到与目标建议框对应的建议框特征集合,根据建议框特征集合中建议框特征进行图构建,得到与建议框特征对应的建议框特征图,分别对建议框特征图进行图卷积,得到与建议框特征图对应的特征数据,根据与建议框特征图对应的特征数据,得到目标建议框的上下文聚合特征。
其中,如图3所示,建议框特征集合包括外观特征(FApp)、几何特征(FGeom)以及混合特征(FMix),在文本上下文关系网络中主要通过RRoI Align得到外观特征,通过比对建议框参数和文本图像的图像尺寸得到几何特征,通过串联外观特征和几何特征得到混合特征。分别根据建议框特征进行图构建,可以得到与建议框特征对应的建议框特征图(GApp、GGeom、GMix),在得到建议框特征图后,文本上下文关系网络中的图卷积网络会分别对建议框特征图进行图卷积,得到与建议框特征图对应的特征数据(CApp、CGeom、CMix),通过融合(具体可以为直接串联或者设置门选择函数进行选择等)特征数据,即可得到目标建议框的上下文聚合特征。
在得到上下文聚合特征后,服务器会从目标建议框中筛选出文本建议框,将文本建议框的上下文聚合特征输入文本检测框提取网络(由transformer结构组成,具体可以为三层transformer结构),文本检测框提取网络会根据上下文聚合特征对文本建议框进行分类,从文本建议框中确定文本检测框。如图5所示,文本检测框即图5中检测结果所对应的建议框。
需要说明的是,在以往的方法中,无论是基于回归还是基于分割的方法,都没有充分考虑场景中文字的上下文信息,比如“公交站边上的广告牌上的文字”,而引入这个环境上下文信息对于检测目标文字是十分有必要的,特别是在应对一些极端样本的时候,这与人类辨别文字的过程是一致的。本申请中的文本检测方法,首先利用基于回归方法可以预测任意角度矩形框(即利用RRPN进行场景目标检测)的优点,在此基础上首先预测出文本图像中包括文本对象和非文本对象在内的所有目标(即预测出文本建议框和环境建议框,其中文本建议框中可能包括文本目标,环境建议框中包括非文本对象(即其他环境上下文目标)),同时对文本目标(如上面所提到的包含文字的广告牌)和其他环境上下文目标(如上面所提到的公交站)从外观和几何层面进行关系建模(即进行上下文关系构建,得到目标建议框的上下文聚合特征),这是之前文本检测方法所不具备的。举例说明,如图6所示,针对自然场景图像,本申请中的文本检测方法,首先会检测出自然场景图像中的所有目标,得到目标建议框(在目标建议框中包括检测出文本目标的文本建议框以及检测出其他环境上下文目标的环境建议框,文本建议框和环境建议框用不同的颜色进行标识(未在图中明示出)),在得到目标建议框后,为了进一步确定出文本建议框是否为文本检测框,同时对检测出文本目标的文本建议框以及检测出其他环境上下文目标的环境建议框从外观和几何层面进行关系建模,得到目标建议框的上下文聚合特征,在充分考虑环境上下文信息对于检测目标文字的影响的基础上,利用所得到的文本建议框的上下文聚合特征对文本建议框进行分类,确定出文本建议框中的文本检测框。由图6(a)可以看出,针对自然场景图像中的每个目标,会存在多个存在重叠区域的目标建议框与其对应,此处为了清晰展示,在图6(b)中,对于自然场景图像中每个目标仅用一个目标建议框来表示。
因此,在自然场景文本检测的标准数据集ICDAR2015上,本文检测方法的召回、精度和F-measure指标较主流的文本检测方法有了较大的提升。如表1(ICDAR2015数据集上方法性能比较)所示,为本申请的文本检测方法与主流的文本检测方法的性能比较,其中,F-measure为召回和精度的综合评价指标。CRAFT方法为当前最佳性能方法,该方法需要大量高成本的严格单字框标注,而本文方法则不需要,He et al为论文(Deep directregression for multi-oriented scene text detec-tion.In IEEE ICCV,pages 745–753,2017)中涉及的文本检测方法。
表1
Figure BDA0003156846230000191
应该理解的是,虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种文本检测装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块702、目标检测模块704、特征提取模块706、分类模块708和文本检测模块710,其中:
获取模块702,用于获取文本图像;
目标检测模块704,用于对文本图像进行目标检测,得到与文本图像对应的目标建议框;
特征提取模块706,用于根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,上下文聚合特征用于表征目标建议框之间的关系;
分类模块708,用于根据上下文聚合特征,对目标建议框进行分类,确定与分类结果对应的文本检测框;
文本检测模块710,用于基于文本检测框对文本图像进行文本检测,得到文本检测结果。
上述文本检测方法,通过获取文本图像,对文本图像进行目标检测,能够得到与文本图像对应的目标建议框,进而通过根据目标建议框进行特征提取与上下文关系构建,得到目标建议框的上下文聚合特征,能够在充分考虑目标建议框之间的关系的基础上,利用表征目标建议框之间的关系的上下文聚合特征,对目标建议框进行准确分类,确定出文本检测框,从而可以基于所确定的文本检测框对文本图像进行文本检测,得到文本检测结果,提高文本检测准确度。
在一个实施例中,目标检测模块还用于对文本图像进行特征提取,得到文本图像特征图,对文本图像特征图进行采样,得到采样特征图,根据采样特征图进行场景目标检测,得到与文本图像对应的目标建议框。
在一个实施例中,特征提取模块还用于根据目标建议框以及采样特征图进行特征提取,得到与目标建议框对应的建议框特征集合,根据建议框特征集合,进行上下文关系构建,得到目标建议框的上下文聚合特征。
在一个实施例中,特征提取模块还用于获取目标建议框的建议框参数以及文本图像的图像尺寸,根据建议框参数,从采样特征图中确定与目标建议框对应的目标采样特征图,确定目标采样特征图中与目标建议框对应的特征区域,对特征区域进行区域特征聚集,得到外观特征,并比对建议框参数和图像尺寸,得到几何特征,根据外观特征和几何特征,得到混合特征,归集外观特征、几何特征以及混合特征,得到建议框特征集合。
在一个实施例中,特征提取模块还用于根据建议框特征集合中建议框特征进行图构建,得到与建议框特征对应的建议框特征图,分别对建议框特征图进行图卷积,得到与建议框特征图对应的特征数据,根据与建议框特征图对应的特征数据,得到目标建议框的上下文聚合特征。
在一个实施例中,特征提取模块还用于根据建议框特征,确定目标建议框之间的特征相似度,将目标建议框作为建议框特征图的特征节点,根据特征相似度,得到特征节点对应的特征边,根据特征节点和特征边,得到与建议框特征对应的建议框特征图。
在一个实施例中,分类模块还用于根据上下文聚合特征,确定目标建议框中文本建议框之间的建议框相似度,根据建议框相似度,确定文本建议框之间的相对权重系数,根据相对权重系数,构建与文本建议框对应的特征向量,根据与文本建议框对应的特征向量以及已训练的多层感知器,确定与文本建议框对应的类别标签,根据类别标签,从文本建议框中确定文本检测框。
在一个实施例中,如图8所示,提供了一种文本检测网络训练装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:样本获取模块802、样本目标检测模块804、样本特征提取模块806、样本文本检测模块808、比对模块810和调整模块812,其中:
样本获取模块802,用于获取初始文本检测网络以及携带检测框标注的样本图像,初始文本检测网络包括目标建议框生成网络、文本上下文关系网络以及文本检测框提取网络,检测框标注包括检测框位置和检测框类型;
样本目标检测模块804,用于通过目标建议框生成网络对样本图像进行目标检测,得到与样本图像对应的样本建议框;
样本特征提取模块806,用于通过文本上下文关系网络,根据样本建议框进行特征提取与上下文关系构建,得到样本建议框的样本上下文聚合特征;
样本文本检测模块808,用于通过文本检测提取网络,根据样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别;
比对模块810,用于比对样本建议框和检测框位置,以及预测建议框类别和检测框类型,得到模型损失函数;
调整模块812,用于根据模型损失函数调整初始文本检测网络,得到已训练的文本检测网络。
上述文本检测网络训练装置,通过获取初始文本检测网络以及携带检测框标注的样本图像,利用初始文本检测网络对样本图像进行目标检测,得到样本建议框,根据样本建议框特征提取与进行上下文关系构建,得到样本上下文聚合特征,能够在充分考虑样本建议框之间的关系的基础上,利用表征样本建议框之间的关系的样本上下文聚合特征,对样本建议框进行分类,得到样本建议框的预测建议框类别,通过比对样本建议框和建议框位置,以及预测建议框类别和检测框类型,得到模型损失函数,能够在根据模型损失函数调整初始文本检测网络后,得到在充分考虑建议框之间的关系的基础上可进行准确文本检测的已训练的文本检测网络,利用已训练的文本检测网络进行文本检测即可实现提高文本检测准确度。
关于文本检测装置以及文本检测网络训练装置的具体限定可以参见上文中对于文本检测方法以及文本检测网络训练方法的限定,在此不再赘述。上述文本检测装置以及文本检测网络训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本图像等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本检测方法以及文本检测网络训练方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本检测方法,其特征在于,所述方法包括:
获取文本图像;
对所述文本图像进行目标检测,得到与所述文本图像对应的目标建议框;
根据所述目标建议框进行特征提取与上下文关系构建,得到所述目标建议框的上下文聚合特征,所述上下文聚合特征用于表征所述目标建议框之间的关系;
根据所述上下文聚合特征,对所述目标建议框进行分类,确定与分类结果对应的文本检测框;
基于所述文本检测框对所述文本图像进行文本检测,得到文本检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本图像进行目标检测,得到与所述文本图像对应的目标建议框包括:
对所述文本图像进行特征提取,得到文本图像特征图;
对所述文本图像特征图进行采样,得到采样特征图;
根据所述采样特征图进行场景目标检测,得到与所述文本图像对应的目标建议框。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标建议框进行特征提取与上下文关系构建,得到所述目标建议框的上下文聚合特征包括:
根据所述目标建议框以及采样特征图进行特征提取,得到与所述目标建议框对应的建议框特征集合;
根据所述建议框特征集合,进行上下文关系构建,得到所述目标建议框的上下文聚合特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标建议框以及采样特征图进行特征提取,得到与所述目标建议框对应的建议框特征集合包括:
获取所述目标建议框的建议框参数以及所述文本图像的图像尺寸;
根据所述建议框参数,从所述采样特征图中确定与所述目标建议框对应的目标采样特征图;
确定所述目标采样特征图中与所述目标建议框对应的特征区域,对所述特征区域进行区域特征聚集,得到外观特征,并比对所述建议框参数和所述图像尺寸,得到几何特征;
根据所述外观特征和所述几何特征,得到混合特征;
归集所述外观特征、所述几何特征以及所述混合特征,得到建议框特征集合。
5.根据权利要求3所述的方法,其特征在于,所述根据所述建议框特征集合,进行上下文关系构建,得到所述目标建议框的上下文聚合特征包括:
根据所述建议框特征集合中建议框特征进行图构建,得到与所述建议框特征对应的建议框特征图;
分别对所述建议框特征图进行图卷积,得到与所述建议框特征图对应的特征数据;
根据所述与所述建议框特征图对应的特征数据,得到所述目标建议框的上下文聚合特征。
6.根据权利要求5所述的方法,其特征在于,所述根据所述建议框特征集合中建议框特征进行图构建,得到与所述建议框特征对应的建议框特征图包括:
根据所述建议框特征,确定所述目标建议框之间的特征相似度;
将所述目标建议框作为建议框特征图的特征节点,根据所述特征相似度,得到所述特征节点对应的特征边;
根据所述特征节点和所述特征边,得到与所述建议框特征对应的建议框特征图。
7.根据权利要求1所述的方法,其特征在于,所述根据所述上下文聚合特征,对所述目标建议框进行分类,确定与分类结果对应的文本检测框包括:
根据所述上下文聚合特征,确定所述目标建议框中文本建议框之间的建议框相似度;
根据所述建议框相似度,确定所述文本建议框之间的相对权重系数;
根据所述相对权重系数,构建与所述文本建议框对应的特征向量;
根据所述与所述文本建议框对应的特征向量以及已训练的多层感知器,确定与所述文本建议框对应的类别标签;
根据所述类别标签,从所述文本建议框中确定文本检测框。
8.一种文本检测网络训练方法,其特征在于,包括:
获取初始文本检测网络以及携带检测框标注的样本图像,所述初始文本检测网络包括目标建议框生成网络、文本上下文关系网络以及文本检测框提取网络,所述检测框标注包括检测框位置和检测框类型;
通过所述目标建议框生成网络对所述样本图像进行目标检测,得到与所述样本图像对应的样本建议框;
通过所述文本上下文关系网络,根据所述样本建议框进行特征提取与上下文关系构建,得到所述样本建议框的样本上下文聚合特征;
通过所述文本检测提取网络,根据所述样本上下文聚合特征,对所述样本建议框进行分类,得到所述样本建议框的预测建议框类别;
比对所述样本建议框和所述检测框位置,以及所述预测建议框类别和所述检测框类型,得到模型损失函数;
根据所述模型损失函数调整所述初始文本检测网络,得到已训练的文本检测网络。
9.一种文本检测装置,其特征在于,所述装置包括:
获取模块,用于获取文本图像;
目标检测模块,用于对所述文本图像进行目标检测,得到与所述文本图像对应的目标建议框;
特征提取模块,用于根据所述目标建议框进行特征提取与上下文关系构建,得到所述目标建议框的上下文聚合特征,所述上下文聚合特征用于表征所述目标建议框之间的关系;
分类模块,用于根据所述上下文聚合特征,对所述目标建议框进行分类,确定与分类结果对应的文本检测框;
文本检测模块,用于基于所述文本检测框对所述文本图像进行文本检测,得到文本检测结果。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
CN202110780831.5A 2021-07-09 2021-07-09 文本检测方法及文本检测网络训练方法 Pending CN113822132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110780831.5A CN113822132A (zh) 2021-07-09 2021-07-09 文本检测方法及文本检测网络训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110780831.5A CN113822132A (zh) 2021-07-09 2021-07-09 文本检测方法及文本检测网络训练方法

Publications (1)

Publication Number Publication Date
CN113822132A true CN113822132A (zh) 2021-12-21

Family

ID=78924140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110780831.5A Pending CN113822132A (zh) 2021-07-09 2021-07-09 文本检测方法及文本检测网络训练方法

Country Status (1)

Country Link
CN (1) CN113822132A (zh)

Similar Documents

Publication Publication Date Title
CN112766244B (zh) 目标对象检测方法、装置、计算机设备和存储介质
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
Wang et al. Deep networks for saliency detection via local estimation and global search
CN106919920B (zh) 基于卷积特征和空间视觉词袋模型的场景识别方法
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN110866140A (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN112801236B (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
CN113255915A (zh) 基于结构化实例图的知识蒸馏方法、装置、设备和介质
Luotamo et al. Multiscale cloud detection in remote sensing images using a dual convolutional neural network
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN110765882A (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN111444957B (zh) 图像数据处理方法、装置、计算机设备和存储介质
Obeso et al. Saliency-based selection of visual content for deep convolutional neural networks: application to architectural style classification
CN112287935A (zh) 一种基于显著性先验的图像语义分割方法及***
Khan et al. Building discriminative features of scene recognition using multi-stages of inception-ResNet-v2
CN114358279A (zh) 图像识别网络模型剪枝方法、装置、设备及存储介质
CN116597267B (zh) 图像识别方法、装置、计算机设备和存储介质
Begum et al. A novel approach for multimodal facial expression recognition using deep learning techniques
CN113688864B (zh) 一种基于***注意力的人-物交互关系分类方法
Jyothi et al. Computational color naming for human-machine interaction
Huang et al. A flower classification framework based on ensemble of cnns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination