CN108647681A - 一种带有文本方向校正的英文文本检测方法 - Google Patents

一种带有文本方向校正的英文文本检测方法 Download PDF

Info

Publication number
CN108647681A
CN108647681A CN201810429149.XA CN201810429149A CN108647681A CN 108647681 A CN108647681 A CN 108647681A CN 201810429149 A CN201810429149 A CN 201810429149A CN 108647681 A CN108647681 A CN 108647681A
Authority
CN
China
Prior art keywords
text
filed
preliminary
text filed
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810429149.XA
Other languages
English (en)
Other versions
CN108647681B (zh
Inventor
代劲
王族
尹航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810429149.XA priority Critical patent/CN108647681B/zh
Publication of CN108647681A publication Critical patent/CN108647681A/zh
Application granted granted Critical
Publication of CN108647681B publication Critical patent/CN108647681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,具体为一种带有文本方向校正的英文文本检测方法;所述方法包括:分别对英文文本图像各个通道的进行最大稳定极值区域检测,得出候选文本区域;建立基于卷积神经网络模型的分类器,过滤错误的候选文本区域,获得初步文本区域;利用双层文本分组算法将所述初步文本区域分组;将分组后的初步文本区域进行方向校正,从而获得校正文本;本发明采用一种增强的多通道MSER模型:以得到更精细的文本区域;引入并行SPP‑CNN分类器来更好地区分文本区域和非文本区域,可以处理任意大小的图像,且可在多尺度下提取池特征,从而可以通过源图像的多层空间信息来了解更多的特征;本发明可以处理略微倾斜的场景文本。

Description

一种带有文本方向校正的英文文本检测方法
技术领域
本发明属于图像处理技术领域,具体为一种带有文本方向校正的英文文本检测方法。
背景技术
自然场景图像中的文本具有准确、丰富的信息,这对于图像分析、基于图像的翻译、图像搜索等具有重要意义。在过去的20年里,研究人员提出了一些在自然场景图像中检测文本的方法。有许多基于内容的多媒体理解应用,如自动视觉分类、图像检索、辅助导航、多语言翻译、对象识别和面向消费者的应用。
场景文本检测面临的关键问题是:(1)文档图像中的文本具有常规字体,相似颜色,均匀大小和均匀排列,但即使在同一场景中,自然场景中的文本也可能具有不同的字体,颜色,比例和方向。(2)自然场景图像的背景可能非常复杂。标志、栅栏、砖块和草地难以与真实文本区分开来,因此容易造成混淆和错误。(3)场景文字图像中的其他干扰因素。如不均匀照明,模糊,半透明效应等。
研究人员提出了许多方法来检测自然场景图像中的文本,并且有两种主要方法。
基于纹理的方法,将文本视为一种特殊类型的纹理,并使用它们的纹理属性,如局部强度、滤波器响应和小波系数来区分图像的文本区域和非文本区域。通常这些方法的计算量很大,因为要扫描所有位置和尺度。此外,这些方法主要处理横向文本,对旋转和缩放非常敏感;
基于组件的方法,将文本视为连通组件,首先通过各种方法(如颜色聚类或极端区域提取)提取文本,然后使用手动设计的规则或自动训练的分类器对非文本组件进行过滤。通常,基于组件的方法更有效,因为要处理的组件数量相对较少。另外,这些方法对旋转,缩放和字体都不敏感。检测候选文本区域(Candidate Text Region,记为CTR)的传统方法有最大稳定极值区域(Maximally Stable Extremal Regions,记为MSER),该方法对于图像的仿射变化具有很强的鲁棒性,可以有效地提取图像中的文本区域,后有学者改进了MSER的提取算法,使算法的时间复杂度达到线性时间。
这些方法按照区分文本区域和非文本区域的规则或特征,从而将文本区域和非文本区域区别开来,虽然这些方法能够检测出文本,但缺少对英文文本的校正,且对倾斜文本的区分效果并不好,识别出的文本会因为单词的倾斜而存在严重分离。
发明内容
有鉴于此,本发明提出了一种带有文本方向校正的英文文本检测方法,能够有效的识别出文本,并将识别出倾斜文本进行校正,具体包括以下步骤:
S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测,从图像中提取MSER作为文本候选;得出候选文本区域;
S2、建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征;利用softmax函数根据候选文本区域的特征,将候选文本区域分为文本类区域和非文本类区域;过滤非文本类区域,获得初步文本区域,即检测出英文文本;
S3、利用双层文本分组算法将所述初步文本区域分组;
S4、将分组后的初步文本区域进行方向校正,从而实现英文文本的校正。
进一步的,所述通道包括:红色通道、绿色通道、蓝色通道、色调通道、饱和度通道、明度通道以及灰通道。
进一步的,所述建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征包括:分别根据分类器中的五层架构获得候选文本区域的第一特征以及通过跨层获得候选文本区域的第二特征,其中,五层架构包括依次相连的第一卷积层,最大池化层、第二卷积层、金字塔池化层以及全连接层;跨层表示第一卷积层到全连接层。
进一步的,利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波;将第一次滤波后的候选文本区域在第二层架构中进行最大池化;利用第三层架构中的第二卷积核,对最大池化后的候选文本区域进行第二次滤波;对第二次滤波后的候选文本区域,在第四层架构中进行利用金字塔池化;对金字塔池化后的候选文本区域在第五层架构中进行全连接,从而获得候选文本区域的第一特征。
进一步的,利用手动添加的特征,将第一卷积核对候选文本区域进行第一次滤波;将滤波后的候选文本区域按照手动添加的特征进行全连接,从而获得候选文本区域的第二特征。
进一步的,所述手动添加的特征包括:高宽比、紧密性、笔画宽度面积比、局部对比度和边界关键点。
进一步的,所述局部对比度的计算公式为:
其中,lc表示局部对比度;Ri表示红色通道的第i个像素;Gi表示绿色通道的第i个像素;Bi表示蓝色通道的第i个像素;n表示MSER区域的像素总个数,k表示边界关键点的个数。
进一步的,所述边界关键点的获取方式为:
构建二进制图像;迭代所述二进制图像的所有像素;计算出轮廓点;使用道格拉斯-普克算法压缩轮廓点,获得边界关键点具体包括:
将属于最大稳定极值区域内像素的灰度值设置为255;将属于最大稳定极值区域外,且属于最大稳定极值区域的最小外接矩形区域内像素的灰度值设置为0;如果像素点(x,y)的像素值p(x,y)=255,且在p(x+1,y),p(x-1,y),p(x,y+1),p(x,y-1)中有一个值为0,则像素p(x,y)属于轮廓点;使用道格拉斯-普克算法压缩轮廓点,通过压缩后的剩余轮廓点是边界关键点。
进一步的,所述利用双层文本分组算法将所述初步文本区域分组包括:将初步文本区域分别进行垂直分组和水平分组;
所述垂直分组具体包括如下:
获取第n个初步文本区域中像素为255的最小Y轴坐标bn;获取第n+1个初步文本区域中像素为255的最大Y轴坐标tn+1;获取第n+1个初步文本区域的高度hn+1
计算高度差如果高度差dn,n+1大于高度阈值;则将两个初步文本区域划分为相同的类,即属于同一文本行;如果高度差dn,n+1小于或等于高度阈值,则两个初步文本区域不是同一个类,第n+1个初步文本区域被视为新类,并且新文本行在Y轴方向被拆分;
所述水平分组具体步骤包括:
获取X轴上同一文本行中两个相邻初步文本区域之间的距离差Δd;距离差Δd包括:同一单词中字母之间的距离d1、单词之间的距离d2
根据系数来表示文本行中所有字母的平均宽度,根据宽度阈值来分开单词;
获取字母宽度和间隔的比值如果字母宽度和间隔的比值dh小于宽度阈值,那么这两个相邻初步文本区域属于同一类,即同一个单词,如果字母宽度和间隔的比值dh大于或等于宽度阈值,这两个相邻初步文本区域不属于同一类,即这两个区域不属于同一个单词,将后一个初步文本区域作为一个新单词的开始。
进一步的,所述将分组后的初步文本区域进行方向校正包括:
S401、使用坐标旋转公式分别将分组后的初步文本区域以顺时针旋转α度;设定初始值i=1,α=-30°;
S402、通过模型匹配过程,将错误引入的分组框过滤;获得第i个待定校正文本区域;
S403、当i<6时,i=i+1,α=α+10°,返回步骤S401;当i=6时,将第1个待定校正文本至第6个待定校正文本叠加,从而获得最终校正文本。
进一步的,所述坐标旋转公式包括:
x'=xcosθ+ysinθ
y'=ycosθ-xsinθ
其中,x表示像素点的横坐标;y表示像素点的纵坐标;θ表示旋转角度阈值;x'表示旋转后像素点的横坐标;y'表示旋转后像素点的纵坐标;
所述分组框包括:倾斜分组框以及长间隔分组框;所述倾斜分组框包含一个字母;所述长间隔分组框包含的字母位于两端。
本发明的有益效果:本发明具有如下优点:采用一种增强的多通道MSER模型:从R、G、B、H、S、V和灰通道中检测出MSER,以得到更精细的候选文本区域。引入并行SPP-CNN(Spatial pyramid pooling(SPP)-Convolutional Neural Networks(CNN),金字塔池化-卷积神经网络)分类器来更好地区分文本区域和非文本区域,该模型可以处理任意大小的图像,而且可以在多尺度下提取池特征,从而可以通过源图像(英文文本图像)的多层空间信息来了解更多的特征;通过模型匹配过程,将错误引入的分组框过滤;可以处理倾斜的场景文本,实现对英文文本的校正。
附图说明
图1为本发明的流程图;
图2为本发明采用的跨层SPP-CNN算法架构图;
图3为现有技术中SPP工作方式的示意图;
图4为本发明的文本分组体系结构图;
图5为本发明的文本行的约束示意图;
图6为本发明未经过方向校正得出的初步文本区域;
图7为本发明经过方向校正的最终校正文本区域;
图8为本发明的方向旋转模型;
图9为本发明分组框的匹配模型;
图10本发明为不同旋转的检测结果图;
图11本发明为检测结果的案例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明提供了一种带有文本方向校正的英文文本检测方法,如图1所示,它包括如下步骤:
S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测,从图像中提取MSER作为文本候选;得出候选文本区域;
S2、建立基于卷积神经网络(Convolutional Neural Networks,CNN)模型的分类器,提取出候选文本区域的特征,利用softmax函数根据候选文本区域的特征,将候选文本区域分为文本类区域和非文本类区域;过滤非文本类区域,获得初步文本区域,即检测出英文文本;
S3、利用双层文本分组算法将所述初步文本区域分组;
S4、将分组后的初步文本区域进行方向校正,从而实现英文文本的校正,即获得校正文本,所述校正文本即为校正后的英文文本。
优选的,本发明采用的CNN模型的五层架构如图2所示:
第一层架构采用大小为7×7×5的第一卷积核;表示采用长度为7宽度为7深度为5的卷积核;
第二层架构采用5×5×5的最大池化;表示采用长度为5宽度为5深度为5的最大池化;
第三层架构应用5×3×5卷积的第二卷积核;表示采用长度为5宽度为3深度为5的卷积核;
第四层架构使用SPP池化;图3为SPP工作方式的示意图,对同一张图像分别采用3×3池化(也即是长度为3宽度的3的池化)分成9个块,2×2池化分成4个块,以及1×1池化分成1个块,分别计算每个块的最大值,从而得出输出神经元,再将任意大小的图像转换成一个固定大小的14维特征。可以理解的是,本发明可以任意设计不同维度大小,增加金字塔的层数或改变划分网格的大小。
第五层架构使用全连接层;具体包括:
利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波;将第一次滤波后的候选文本区域在第二层架构中进行最大池化;利用第三层架构中的第二卷积核,对最大池化后的候选文本区域进行第二次滤波;对第二次滤波后的候选文本区域,在第四层架构中进行利用金字塔池化;对金字塔池化后的候选文本区域在第五层架构中进行全连接,从而提取出候选文本区域的第一特征;
利用手动添加的特征,将第一卷积核对候选文本区域进行第一次滤波;将滤波后的候选文本区域按照手动添加的特征进行全连接,从而提取出候选文本区域的第二特征。
优选的,将手动设计的特征嵌入到整个CNN中,即跨层。跨层仅在第一层架构和第五层架构中工作,跨层中使用的特征也即手动添加的特征包括:
高宽比紧密性笔画宽度面积比局部对比度lc和边界关键点k。
其中w和h分别代表最大稳定极值区域的最小外接矩形的宽和高(像素点个数);a表示最大稳定极值区域的最小外接矩形的面积(区域中所有像素点个数);p表示最大稳定极值区域的最小外接矩形边界点的个数,在本发明中用边界关键点k表示p。
利用以下方程可得局部对比度:
其中,lc表示局部对比度;Ri表示红色通道的第i个像素;Gi表示绿色通道的第i个像素;Bi表示蓝色通道的第i个像素;n表示MSER区域的像素总个数,k表示边界关键点的个数。
通过将边界关键点按一定的顺序连接起来,可以近似地恢复原始区域,也即是获取到初步文本区域。
k的计算过程:
构建二进制图像;迭代所述二进制图像的所有像素;计算出轮廓点;使用道格拉斯-普克算法压缩轮廓点,经过压缩以后的轮廓点即为边界关键点;具体包括:
将属于最大稳定极值区域内像素的灰度值设置为255;将属于最大稳定极值区域外,且属于最大稳定极值区域的最小外接矩形区域内像素的灰度值设置为0;如果像素点(x,y)的像素值p(x,y)=255,且在p(x+1,y),p(x-1,y),p(x,y+1),p(x,y-1)中有一个值为0,则像素p(x,y)属于轮廓点;使用道格拉斯-普克算法(Douglas–Peucker algorithm)压缩轮廓点,通过压缩后的剩余轮廓点是边界关键点。
作为一种可选方式,应用SoftMax分类函数来获得最终特征的分类;
利用双层文本分组算法将所述初步文本区域分组进行文本分组后,再进行微倾斜方向校正,如图4所示。具体分为三部分:垂直分组、水平分组和方向校正:
垂直分组主要步骤如下:
获取第n个初步文本区域中像素为255的最小Y轴坐标bn;获取第n+1个初步文本区域中像素为255的最大Y轴坐标tn+1;获取第n+1个初步文本区域的高度hn+1;如图5所示;
计算高度差如果高度差dn,n+1大于高度阈值;则将两个初步文本区域划分为相同的类,即属于同一文本行;如果高度差dn,n+1小于或等于高度阈值,则两个初步文本区域不是相同的类,第n+1个初步文本区域被视为新文本行,且将所述新文本行在Y轴方向拆分;
其中,本发明的高度阈值取0.62;
水平分组主要步骤如下:
获取X轴上同一文本行中两个相邻初步文本区域之间的距离差Δd;距离差Δd包括:同一单词中字母之间的距离d1和单词之间的距离d2
根据系数来表示文本行中所有字母的平均宽度,根据宽度阈值来分开单词;
获取字母宽度和间隔的比值如果字母宽度和间隔的比值dh小于宽度阈值,两个相邻初步文本区域属于同一类,即同一个单词,如果字母宽度和间隔的比值dh大于或等于宽度阈值,两个相邻初步文本区域不属于同一类,即这两个相邻初步文本区域不属于同一个单词,将后一个初步文本区域作为新单词的开始。
其中,系数是根据使用来自ICDAR 2013训练集包含229张图片和1226个单词的实验获取的;
本发明的宽度阈值取2.33。
微倾斜方向校正步骤如下:
图6对初步文本区域进行说明,可以看出,单词因倾斜而严重分离,“ne1Wor”被认为是同一行的单词;根据实验,得出在轻微倾斜10度以内的单词可以被正确分组,因此采用了旋转坐标轴的策略,得出了如图7中显示的最终校正文本。
由于坐标轴的旋转,分组框“wordline1”被正确分组,但错误引入的分组框“wordline2”未被正确纠正,所以使用旋转融合策略来改进算法:
所述将分组后的文本区域进行方向校正包括:
S401、使用坐标旋转公式分别将分组后的初步文本区域以顺时针旋转α度;设定初始值i=1,α=-30°;
S402、通过模型匹配过程,将错误引入的分组框过滤;获得第i个待定校正文本区域;
S403、当i<6时,i=i+1,α=α+10°;返回步骤S401,当i=6时,将第1个待定校正文本至第6个待定校正文本叠加,从而获得最终校正文本。
具体的,
使用坐标旋转公式分别将分组后的初步文本区域以顺时针或逆时针旋转几十度;设定初始值i=1;
本发明中,分别以顺时针和逆时针旋转10,20,30度,如图8所示;
通过模型匹配过程,将错误引入的分组框过滤;获得第i个待定校正文本区域;
将第i个待定校正文本以顺时针或逆时针旋转几十度,通过模型匹配将错误引入的分组框过滤,获取第i+1个待定校正文本;
当i<6时,i=i+1;返回步骤S401,当i=6时,将第1个待定校正文本至第6个待定校正文本叠加,从而获得最终校正文本;如图9所示。
作为另一种实现方式,在步骤S403中,i可以不限于等于6,还可以为5、7、8中任意一个数。
可以理解的是,模型匹配过程是根据旋转后的初步文本区域与训练集图像中相应英文文本匹配的过程,若旋转后的图像能够与该训练集图像重叠,则保留该重叠部分,相应的,再对初步文本区域做另一次旋转,若旋转后的图像能够与另一训练集图像重叠,则再次保留重叠部分,最终,将所有的重叠部分叠加出来,获得了最终校正文本。
图9中(a)显示了一个称为“倾斜分组框”的模型,该模型描述了每个框只包含一个字母。这种错误引入的分组框主要在单个方向上文本倾斜时出现。
图9中(b)显示了一个称为“长间隔分组框”,这种错误引入的分组框表示字母位于每个框的两端,它们之间有很大的间隔。这种情况将会在不同方向排列的文本之间的距离太近时出现。
旋转增量和旋转次数是检测结果的重要因素。为了平衡性能和时间复杂度,将最大旋转角度设置为30度。如图10所示,旋转的增量从1到15度不等,增量越小,获得最大度所需的次数就越多,实验结果表明,当增量达到10度时,精度、召回率和f指标等三个指标达到峰值,此为所提出的方法的最终旋转角度阈值。
在本发明中,为了验证提出的算法的正确性和有效性,对ICDAR 2011和ICDAR2013数据集上进行了对比实验。ICDAR 2011测试集包含255个图像,ICDAR 2013测试集包含233个图像。每个图像对应一个txt文档,它记录了需要检测的文本的具体坐标。
检测效果的评估主要计算检测到的校正文本区域和实际文本区域之间的重合度。对于每个要评估的矩形,使用最大匹配值。公式如下:
m(r;R)=max{m(r,r')|r'∈R}
r表示校正文本区域,r'表示实际文本区域;a(r)表示校正文本区域r的矩形区域,R表示匹配的区域集。得到最大面积匹配,然后计算精度,召回率和f指标。公式如下:
E表示待检测的校正文本区域集合,T表示待评估的矩形集合。f-measure是精度和召回率的组合。精度和召回率的相对权重由参数α控制,通常设置为0.5,使精度和召回率具有相同的权重。
在本发明中,一些比较实验证明了所提出的方法可以提取出更多文本区域。
表1不同MSER方法的提取结果
根据表1(只考虑字母级别的性能,不考虑单词级别的最终结果),在Laplacian和多通道的预处理之后,可以提取更多的文本区域(召回率增加),但也提取了更多的非文本区域(精度降低)。
为说明本发明采用的方法的有效性,将本文方法与现有文本检测方法进行定量比较。训练集由ICDAR 2011和ICDAR 2013使用多通道MSER手动生成,它包含44908个英文文本图像和56139个非英文文本图像。将25%的训练集作为验证集,通过训练过程,准确率达到96%。对于SPP-CNN的训练,采用交叉验证和随机梯度下降(SGD)。对ICDAR 2011和ICDAR2013在5种方法中进行了比较实验,如图11为本发明所识别出的英文文本图像,可以看出本发明能够有效的识别出英文文本并能实现校正。
从表2和表3中可以看出,本发明方法在召回率和f指标上,均优于现有技术。
表2在ICDAR 2011中场景文本检测的影响
表3在ICDAR 2013中场景文本检测的影响
在表2与表3中的对比文件分别对应为:
[1]Liu Z,Li Y,Qi X,et al.Method for unconstrained text detection innatural scene image[J].Iet Computer Vision,2017,11(7):596-604.
[2]Wu H,Zou B,Zhao YQ,et al.Natural scene text detection by multi-scale adaptive color clustering and non-text filtering[J].Neurocomputing,2016,214:1011–1025.
[3]Yu C,Song Y,Zhang Y.Scene text localization using edge analysisand feature pool[J].Neurocomputing,2015,175:652-661.
[4]Yao Li,Wenjing Jia,Chunhua Shen,et al.Characterness:An Indicatorof Text in the Wild[J].IEEE transactions on image processing:a publication ofthe IEEE Signal Processing Society,2014,23(4):1666-77.
[5]Tian C,Xia Y,Zhang X,et al.Natural Scene Text Detection with MC-MRCandidate Extraction and Coarse-to-Fine Filtering[J].Neurocomputing,2017.
[6]Zhu A,Gao R,Uchida S.Could scene context be beneficial for scenetext detection?[J].Pattern Recognition,2016,58:204-215.
[7]Neumann L,Matas J.Efficient Scene text localization andrecognition with local character refinement[C]//International Conference onDocument Analysis and Recognition.IEEE,2015:746-750.
[8]Gomez L,Karatzas D.A fast hierarchical method for multi-script andarbitrary oriented scene text extraction[J].2014,19(4):1-15.
本发明可以检测轻微倾斜的文本和具有不同字体或大小的英文文本,如图9为成功检测案例。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种带有文本方向校正的英文文本检测方法,其特征在于,包括以下步骤:
S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测,从图像中提取最大稳定极值区域;得出候选文本区域;
S2、建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征;利用softmax函数根据候选文本区域的特征,将候选文本区域分为文本类区域和非文本类区域;过滤非文本类区域,获得初步文本区域,即检测出英文文本;
S3、利用双层文本分组算法将所述初步文本区域分组;
S4、将分组后的初步文本区域进行方向校正,从而实现英文文本的校正。
2.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述通道包括:红色通道、绿色通道、蓝色通道、色调通道、饱和度通道、明度通道以及灰通道。
3.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征包括:分别根据分类器中的五层架构获得候选文本区域的第一特征以及通过跨层获得候选文本区域的第二特征,其中,五层架构包括依次相连的第一卷积层,最大池化层、第二卷积层、金字塔池化层以及全连接层;跨层表示第一卷积层到全连接层。
4.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述第一特征的获取方式为:利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波;将第一次滤波后的候选文本区域在第二层架构中进行最大池化;利用第三层架构中的第二卷积核,对最大池化后的候选文本区域进行第二次滤波;对第二次滤波后的候选文本区域,在第四层架构中进行利用金字塔池化;对金字塔池化后的候选文本区域在第五层架构中进行全连接,从而提取出候选文本区域的第一特征。
5.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述第二特征的获取方式为:利用手动添加的特征,将第一卷积核对候选文本区域进行第一次滤波;将滤波后的候选文本区域按照手动添加的特征进行全连接,从而提取出候选文本区域的第二特征。
6.根据权利要求5所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述手动添加的特征包括:高宽比、紧密性、笔画宽度面积比、局部对比度和边界关键点。
7.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述利用双层文本分组算法将所述初步文本区域分组包括:将初步文本区域进行垂直分组,具体包括:
获取第n个初步文本区域中像素为255的最小Y轴坐标bn;获取第n+1个初步文本区域中像素为255的最大Y轴坐标tn+1;获取第n+1个初步文本区域的高度hn+1
计算高度差如果高度差dn,n+1大于高度阈值;则将两个初步文本区域划分为相同的类,即属于同一文本行;如果高度差dn,n+1小于或等于高度阈值,则两个初步文本区域不是相同的类,第n+1个初步文本区域被视为新文本行,且将所述新文本行在Y轴方向拆分。
8.根据权利要求7所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述利用双层文本分组算法将所述初步文本区域分组还包括:将初步文本区域进行水平分组,具体包括:
获取X轴上同一文本行中两个相邻初步文本区域之间的距离差Δd;距离差Δd包括:同一单词中字母之间的距离d1和单词之间的距离d2
根据系数来表示文本行中所有字母的平均宽度,根据宽度阈值来分开单词;
获取字母宽度和间隔的比值如果字母宽度和间隔的比值dh小于宽度阈值,两个相邻初步文本区域属于同一类,即同一个单词,如果字母宽度和间隔的比值dh大于或等于宽度阈值,两个相邻初步文本区域不属于同一类,即这两个相邻初步文本区域不属于同一个单词,将后一个初步文本区域作为新单词的开始。
9.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述将分组后的初步文本区域进行方向校正,从而实现英文文本的校正包括:
S401、使用坐标旋转公式分别将分组后的初步文本区域以顺时针旋转α度;设定初始值i=1,α=-30°;
S402、通过模型匹配过程,将错误引入的分组框过滤;获得第i个待定校正文本区域;
S403、当i<6时,i=i+1,α=α+10°;返回步骤S401,当i=6时,将第1个待定校正文本至第6个待定校正文本叠加,从而获得最终校正文本。
10.根据权利要求9所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述分组框包括:倾斜分组框以及长间隔分组框;所述倾斜分组框包含一个字母;所述长间隔分组框包含的字母位于两端。
CN201810429149.XA 2018-05-08 2018-05-08 一种带有文本方向校正的英文文本检测方法 Active CN108647681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810429149.XA CN108647681B (zh) 2018-05-08 2018-05-08 一种带有文本方向校正的英文文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810429149.XA CN108647681B (zh) 2018-05-08 2018-05-08 一种带有文本方向校正的英文文本检测方法

Publications (2)

Publication Number Publication Date
CN108647681A true CN108647681A (zh) 2018-10-12
CN108647681B CN108647681B (zh) 2019-06-14

Family

ID=63749675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810429149.XA Active CN108647681B (zh) 2018-05-08 2018-05-08 一种带有文本方向校正的英文文本检测方法

Country Status (1)

Country Link
CN (1) CN108647681B (zh)

Cited By (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800735A (zh) * 2019-01-31 2019-05-24 中国人民解放军国防科技大学 一种船目标精确检测与分割方法
CN109934229A (zh) * 2019-03-28 2019-06-25 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN110298343A (zh) * 2019-07-02 2019-10-01 哈尔滨理工大学 一种手写黑板板书识别方法
CN110674815A (zh) * 2019-09-29 2020-01-10 四川长虹电器股份有限公司 基于深度学习关键点检测的***图像畸变校正方法
CN111353493A (zh) * 2020-03-31 2020-06-30 中国工商银行股份有限公司 文本图像方向校正方法及装置
WO2021056255A1 (en) * 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
CN112825141A (zh) * 2019-11-21 2021-05-21 上海高德威智能交通***有限公司 识别文本的方法、装置、识别设备和存储介质
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
CN113298079A (zh) * 2021-06-28 2021-08-24 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2021196013A1 (zh) * 2020-03-31 2021-10-07 京东方科技集团股份有限公司 单词识别方法、设备及存储介质
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
CN113837169A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
CN114283431A (zh) * 2022-03-04 2022-04-05 南京安元科技有限公司 一种基于可微分二值化的文本检测方法
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US12026197B2 (en) 2017-06-01 2024-07-02 Apple Inc. Intelligent automated assistant for media exploration

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325099A (zh) * 2013-07-11 2013-09-25 北京智诺英特科技有限公司 图像校正方法和装置
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN105426887A (zh) * 2015-10-30 2016-03-23 北京奇艺世纪科技有限公司 一种文本图像校正的方法及装置
CN105740774A (zh) * 2016-01-25 2016-07-06 浪潮软件股份有限公司 一种图像的文本区域定位方法及装置
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN106997470A (zh) * 2017-02-28 2017-08-01 信雅达***工程股份有限公司 倾斜文本图像的校正方法及***
CN107066972A (zh) * 2017-04-17 2017-08-18 武汉理工大学 基于多通道极值区域的自然场景文本检测方法
CN107992869A (zh) * 2016-10-26 2018-05-04 深圳超多维科技有限公司 用于倾斜文字校正的方法、装置及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325099A (zh) * 2013-07-11 2013-09-25 北京智诺英特科技有限公司 图像校正方法和装置
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN105426887A (zh) * 2015-10-30 2016-03-23 北京奇艺世纪科技有限公司 一种文本图像校正的方法及装置
CN105740774A (zh) * 2016-01-25 2016-07-06 浪潮软件股份有限公司 一种图像的文本区域定位方法及装置
CN107992869A (zh) * 2016-10-26 2018-05-04 深圳超多维科技有限公司 用于倾斜文字校正的方法、装置及电子设备
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN106997470A (zh) * 2017-02-28 2017-08-01 信雅达***工程股份有限公司 倾斜文本图像的校正方法及***
CN107066972A (zh) * 2017-04-17 2017-08-18 武汉理工大学 基于多通道极值区域的自然场景文本检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI等: "Detecting Oriented Text in Natural Images by Linking Segments", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
JIN DAI等: "Scene Text Detection Based on Enhanced Multi-channels MSER and a Fast Text Grouping Process", 《2018 THE 3RD IEEE INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND BIG DATA ANALYSIS》 *
KAIMING HE等: "Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
RUI ZHU等: "Text detection based on convolutional neural networks with spatial pyramid pooling", 《2016 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
TONG HE等: "Text-Attentional Convolutional Neural Network for Scene Text Detection", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
朱其猛: "基于文字结构特征的文本图像方向的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李玉冰: "基于深度网络的视觉跟踪算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US12009007B2 (en) 2013-02-07 2024-06-11 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US12026197B2 (en) 2017-06-01 2024-07-02 Apple Inc. Intelligent automated assistant for media exploration
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
CN109800735A (zh) * 2019-01-31 2019-05-24 中国人民解放军国防科技大学 一种船目标精确检测与分割方法
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
CN109934229B (zh) * 2019-03-28 2021-08-03 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN109934229A (zh) * 2019-03-28 2019-06-25 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110298343A (zh) * 2019-07-02 2019-10-01 哈尔滨理工大学 一种手写黑板板书识别方法
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
WO2021056255A1 (en) * 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110674815A (zh) * 2019-09-29 2020-01-10 四川长虹电器股份有限公司 基于深度学习关键点检测的***图像畸变校正方法
CN112825141A (zh) * 2019-11-21 2021-05-21 上海高德威智能交通***有限公司 识别文本的方法、装置、识别设备和存储介质
CN112825141B (zh) * 2019-11-21 2023-02-17 上海高德威智能交通***有限公司 识别文本的方法、装置、识别设备和存储介质
US11928872B2 (en) 2019-11-21 2024-03-12 Shanghai Goldway Intelligent Transportation System Co., Ltd. Methods and apparatuses for recognizing text, recognition devices and storage media
CN111353493A (zh) * 2020-03-31 2020-06-30 中国工商银行股份有限公司 文本图像方向校正方法及装置
US11651604B2 (en) 2020-03-31 2023-05-16 Boe Technology Group Co., Ltd. Word recognition method, apparatus and storage medium
WO2021196013A1 (zh) * 2020-03-31 2021-10-07 京东方科技集团股份有限公司 单词识别方法、设备及存储介质
CN111353493B (zh) * 2020-03-31 2023-04-28 中国工商银行股份有限公司 文本图像方向校正方法及装置
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
CN113298079B (zh) * 2021-06-28 2023-10-27 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN113298079A (zh) * 2021-06-28 2021-08-24 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN113837169B (zh) * 2021-09-29 2023-12-19 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN113837169A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN114283431A (zh) * 2022-03-04 2022-04-05 南京安元科技有限公司 一种基于可微分二值化的文本检测方法

Also Published As

Publication number Publication date
CN108647681B (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN108647681B (zh) 一种带有文本方向校正的英文文本检测方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及***
Qureshi et al. A bibliography of pixel-based blind image forgery detection techniques
CN107491730A (zh) 一种基于图像处理的化验单识别方法
CN104408449B (zh) 智能移动终端场景文字处理方法
CN110781885A (zh) 基于图像处理的文本检测方法、装置、介质及电子设备
CN110232387B (zh) 一种基于kaze-hog算法的异源图像匹配方法
CN111539409B (zh) 一种基于高光谱遥感技术的古墓题记文字识别方法
CN110852311A (zh) 一种三维人手关键点定位方法及装置
CN116071763B (zh) 基于文字识别的教辅图书智能校编***
CN110738216A (zh) 基于改进surf算法的药品识别方法
Hallale et al. Twelve directional feature extraction for handwritten English character recognition
CN113392856A (zh) 图像伪造检测装置和方法
CN110969164A (zh) 基于深度学习端对端的低照度成像车牌识别方法及装置
CN110222660B (zh) 一种基于动态与静态特征融合的签名鉴伪方法及***
CN115311746A (zh) 一种基于多特征融合的离线签名真伪检测方法
CN104899551B (zh) 一种表单图像分类方法
CN110084229A (zh) 一种***检测方法、装置、设备及可读存储介质
CN109741351A (zh) 一种基于深度学习的类别敏感型边缘检测方法
CN112418262A (zh) 车辆再识别的方法、客户端及***
CN101727579A (zh) 变形字的检测方法、变形字中水印信息的确定方法及装置
Su et al. Skew detection for Chinese handwriting by horizontal stroke histogram
CN111612045B (zh) 一种获取目标检测数据集的通用方法
CN114862883A (zh) 一种目标边缘提取方法、图像分割方法及***
CN110555792B (zh) 基于归一化直方图综合特征向量的图像篡改盲检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant