CN112997217A - 从视频图像进行文档检测 - Google Patents

从视频图像进行文档检测 Download PDF

Info

Publication number
CN112997217A
CN112997217A CN201880099657.4A CN201880099657A CN112997217A CN 112997217 A CN112997217 A CN 112997217A CN 201880099657 A CN201880099657 A CN 201880099657A CN 112997217 A CN112997217 A CN 112997217A
Authority
CN
China
Prior art keywords
documents
document
frame
video image
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880099657.4A
Other languages
English (en)
Inventor
R·F·B·皮科利
R·里巴尼
V·拉佛卡德
J·F·C·D·梅洛
R·博尔赫斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN112997217A publication Critical patent/CN112997217A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • H04N1/3873Repositioning or masking defined only by a limited number of coordinate points or parameters, e.g. corners, centre; for trimming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Studio Devices (AREA)

Abstract

在示例实现中提供了一种装置。装置包括视频相机、检测设备、跟踪设备、显示器和处理器。视频相机用以捕获多个文档的视频图像。检测设备用以检测视频图像的帧中的多个文档。跟踪设备用以跟踪在视频图像的一系列帧中检测到的多个文档中的每个文档。显示器用以生成围绕所显示的视频图像中的多个文档中的每个文档的可视指示符。处理器与视频相机、检测设备、跟踪设备和显示器通信,以控制视频相机、检测设备、跟踪设备和显示器的执行。

Description

从视频图像进行文档检测
背景技术
用户扫描文档以将纸件文档保存为电子文件。与实体地打印的文档相比电子文件更容易存储和管理。文档可以是由各种设备扫描的。例如,平台式扫描仪或多功能设备可以扫描***到机器中的文档。最近,与扫描仪相反正在使用移动设备。例如,用户可以拍照文档的照片,并且文档可以被保存为图像。
附图说明
图1是本公开的示例***的框图;
图2是本公开的用于从视频图像检测多个文档的示例装置的框图;
图3是本公开的在从视频图像检测和跟踪多个文档时装置的示例显示的框图;
图4是本公开的用于从视频图像检测和跟踪多个文档的示例方法的流程图;以及
图5是存储由处理器执行以从视频图像检测和跟踪多个文档的指令的示例非暂态计算机可读存储介质的框图。
具体实施方式
在此描述的示例提供用以自动地检测和跟踪由移动终端设备捕获的视频图像内的多个文档的装置和方法。如在上面讨论的那样,移动终端设备被用于捕获文档的图像,而不是在传统的扫描仪中扫描图像。然而,当在单个图像中包括了多个文档时,文档可能不被分离成分离的文件或图像。分离地捕获每个文档的图像可能是乏味并且耗时的。
在此的示例提供了一种装置,其能够自动地检测和跟踪由移动终端设备捕获的视频图像内的多个文档。例如,用户可以在实况视频捕获中捕获若干个不同的文档。移动终端设备可以分析视频图像的每个帧以标识每个文档或多个文档。移动终端设备于是可以在视频图像被连续地捕获的同时跟踪每个文档或多个文档。
在一个示例中,移动终端设备可以提供围绕在视频图像中被检测和跟踪的文档的可视指示符。如果可视指示符正确地标识视频图像中的每个文档,则用户可以拍照文档的静止照片。移动终端设备于是可以针对在视频图像中被检测和跟踪的每个文档生成分离的文件或图像。作为结果,用户可以使用由移动终端设备捕获的单个图像“扫描”多个文档。
图1图示本公开的用以从视频图像检测多个文档的示例***100。在一个示例中,***100可以包括移动终端设备102。移动终端设备102可以是智能电话、平板计算机等。
移动终端设备102可以被用于捕获多个文档1061至106n(在下文中也被单独地称为文档106或整体地称为文档106)的视频图像108。视频图像108可以被在移动终端设备102的显示器104上显示给用户。
在一个示例中,文档106可以是任何类型的实体文档或纸件。移动终端设备102可以捕获文档106的视频图像108,并且针对文档1061至106n中的每个文档生成分离的电子文件1101至110n(在下文中也被单独地称为电子文件110或整体地称为电子文件110)。
换句话说,可以从包含多个文档的视频图像108生成分离的电子文件110。换句话说,移动终端设备102可以针对在视频图像108的单个帧中捕获的每个文档106生成分离的电子文件110。
为了说明,视频图像108可以包括三个文档106。可以分析视频图像108(如在下面进一步详细讨论的那样)以检测三个文档106中的每个文档。然后每个文档可以被从视频图像108分离出来并且被转换成分离的电子文件110。换句话说,文档106的分离的电子文件110可以是从多个文档106的单次同时扫描生成的。
然后可以存储电子文件110以用以稍后使用。例如,表示不同的文档106的每个电子文件110可以是与在相同的视频图像108中捕获的其它文档106分离地查看或处理的。
图2图示本公开的移动终端设备102的框图。在一个示例中,移动终端设备102可以包括处理器202、检测设备204、跟踪设备206、显示器104和视频相机208。应当注意,移动终端设备102已经被简化以便于解释,并且可以包括未示出的附加组件。例如,移动终端设备102可以包括非暂态计算机可读介质(例如,随机存取存储器、只读存储器、硬盘驱动器等)、无线电收发器、通信接口、电力源或电池等。
在一个示例中,处理器202可以被通信地耦合到检测设备204、跟踪设备206、显示器104和视频相机208。处理器202可以控制检测设备204、跟踪设备206、显示器104和视频相机208的执行。例如,处理器202可以执行存储在存储器中的用以控制与检测设备204、跟踪设备206、显示器104和视频相机208相关联的操作的指令。
在一个示例中,视频相机208可以是任何类型的红、绿、蓝(RGB)视频相机。视频相机208可以被用于捕获实况视频(例如,连续的视频帧序列)或捕获照片(例如,静止图像)。由视频相机208捕获的图像可以被显示在显示器104上。在一个示例中,视频相机208可以被用于捕获文档106的视频图像108,如在上面描述和在图1中图示那样。
在一个示例中,由视频相机208捕获的图像可以被转发到检测设备204和跟踪设备206(例如,经由处理器202)。检测设备204可以分析视频图像108的每个帧,以检测视频图像108中的文档106中的每个文档。跟踪设备206可以分析视频图像108的帧序列,以跟踪由检测设备204标识的每个文档106。
在一个示例中,在检测到文档之后,显示器104可以经由显示器104将检测到的文档106标识给用户。图3图示显示器104的示例图形用户界面(GUI)。在一个示例中,用户可以将移动终端设备102保持在文档106上方以使得视频相机208可以捕获视频图像302。
在一个示例中,移动终端设备102可以包括可以检测光的量、对比度、颜色饱和度等的传感器。视频相机208可以基于由传感器采集的信息自动地调整设置(例如,亮度、焦距、曝光补偿、曝光长度等)。在示例中,移动终端设备102可以包括闪光灯。如果传感器指示周围或环境光不足以捕获文档106的正确的视频图像,则处理器202可以引起闪光灯提供附加的光。
视频相机208可以捕获视频图像302。视频图像302可以被由检测设备204分析以检测文档106。跟踪设备206可以在逐帧基础上分析视频图像302,以跟踪在捕获到视频图像302时检测到的文档106。
当检测到文档106时,处理器202可以引起生成围绕在视频图像302中检测到的每个文档106的可视指示符304。例如,可以围绕文档1061显示可视指示符3041,可以围绕文档1062显示可视指示符3042,可以围绕文档106n显示可视指示符304n,等等。
在一个示例中,可视指示符304可以是围绕文档106中的每个文档的相同的颜色或形状。在另一示例中,可视指示符304可以是围绕文档106中的每个文档的不同的颜色、不同的形状或者这两者的组合。
可视指示符304可以在显示器104中向用户提供用以确认文档106已经被正确地标识的提示。如果用户满意文档106已经被正确地标识,则用户可以按压快门按钮306以经由视频相机208捕获文档106的静止图像。
当在视频相机208的视野内添加或移除文档时,检测设备204和跟踪设备206可以即时地标识新的文档106。当检测到新的文档或文档被移除时,可以随着视频图像302被捕获而动态地添加或移除可视指示符304。
在一个示例中,文档106的静止图像然后可以被处理以从静止图像中分离出每个文档106。然后可以针对从捕获自视频图像302的静止图像分离出的每个文档106生成分离的电子文件110。
如在上面讨论的那样,检测设备204可以分析视频图像108或302的每个帧以检测每个文档106。在一个示例中,检测设备204可以对视频的帧或图像执行预处理。预处理可以包括移除颜色或将帧从彩色图像转换成灰度图像,或者对图像应用模糊以消除高频噪声(例如,3×3高斯模糊核、双边滤波等)。
检测设备204还可以检测视频帧中的边缘。可以通过分析视频帧的像素并且标识具有亮度上的急剧改变的相邻像素来检测边缘。“急剧改变”可以是由阈值限定的。例如,大于阈值的在相邻像素之间的亮度改变可以被检测为边缘。一些其它边缘检测方法可以包括Canny边缘检测器。
在检测到边缘之后,执行外形检测。外形检测可以分析视频的帧以找到边缘的连接外形以定位页面候选。换句话说,分析被检测为可能的边缘的像素,并且可以遵从作为可能的边缘的像素的路径以形成外形的多边形近似。在找到外形之后,可以使用一组几何约束来确定可以对应于文档或页面轮廓的外形。
在一个示例中,可以被使用的约束可以包括在多边形近似中具有在4和7之间的顶点数量,多边形近似是凸的,多边形近似的面积在用户限定的阈值之上(例如,在合期望的大小或面积之上),并且多边形近似的至少两个相对的侧是平行的。平行性的量可以是由用户限定的阈值来设置的(例如在0-5度的平行内)。
在一个示例中,检测设备204可以对可以是页面的每个多边形近似执行视角校正。例如,如果文档呈现为在一定方向上旋转或伸长(例如用户以并非垂直于图像的角度握持视频相机208),则检测设备204可以校正视角。作为结果,文档可以呈现为矩形。
可以是视频帧中的页面或文档的多边形近似的坐标然后可以被转发到跟踪设备206。跟踪设备206然后可以分析视频图像108或302的帧序列,以基于由检测设备204获得的多边形近似的坐标来跟踪可能的文档。
在一个示例中,跟踪设备206可以保持多边形近似(下文中为“多边形”)的列表,多边形近似可以是由检测设备204针对每个帧检测到的可能的文档。相应的多边形列表中的每个多边形可以被在两个帧之间配对。例如,针对视频图像的第一帧的多边形列表可以被与针对视频图像的第二帧的多边形列表配对。换句话说,当前帧的多边形列表可以被与先前帧的多边形列表配对。
在对每个多边形配对之后,可以计算各多边形的质心之间的距离。如果该距离大于距离阈值,则可以利用另一多边形来修复该多边形。换句话说,视频相机208可能已经在视频图像108或302的帧之间移动,并且当前帧中的多边形可能未与先前帧中的多边形正确地配对。
然而,如果距离低于距离阈值,则多边形可以被确定为在帧之间正确配对。可以基于多边形之间的距离来生成内插四边形。在一个示例中,可以使用欧几里德内插。例如,多边形的每个像素的坐标的中点可以被用于创建内插四边形的轮廓。
在一个示例中,内插四边形可以被用于生成围绕相应的文档106的可视指示符304。换句话说,可视指示符304可以是围绕位于配对的多边形之间的距离的中间距离处的区域而绘制的。
在一个示例中,距离本身可以被用于计算多边形是更靠近第一帧还是第二帧。换句话说,可以在没有距离阈值的情况下执行当前帧中的多边形是否与先前帧中的多边形正确地配对的确定。
为了通过示例进行说明,如果距离是x个单位,则x的距离可以被归一化为在0和1之间的值,因为视频帧的大小是已知的,并且因此两个多边形之间的最大可能距离已知。归一化距离可以被用作为用以计算中间多边形的实际位置的权重。换句话说,归一化距离可以是加权平均值。换句话说,通过将距离“x”解释为配对的多边形之间的相似度或不相似度的度量,中间多边形的坐标可以是第一多边形的坐标的“x倍”加上第二多边形的坐标的“(1-x)倍”。作为结果,中间多边形可以是该对的线性混合。最终位置可以是在该对中的两个多边形之间的线中的某个位置。
在一个示例中,可以调整比例以使得距离x可以取决于距离x的最初值而与一个多边形相比更偏好另一多边形。在一种实现中,可以取距离x的平方根,其仍然可以产生在0和1之间的值,但是使权重“弯曲”,使得中间多边形的计算可以与第二多边形相比更偏好第一多边形(例如,先前帧中的多边形)。
在一个示例中,帧可以包括与先前帧相比不同数量的多边形。对于未被配对的多边形,可以将零值添加到具有更少的多边形的帧的多边形列表中。例如,如果第一帧具有10个检测到的多边形并且第二帧具有9个检测到的多边形,则可以利用零值填补针对第二帧的多边形列表。
在一个示例中,可以针对多边形列表中的每个多边形来跟踪存续时间值。存续时间值可以随着不具有对应的多边形来与来自被分析的先前帧的多边形配对的每个后续帧而递减。如果对于多边形而言存续时间值期满,则多边形可以被从列表移除并且被确定为假阳性。
例如,检测设备204可能已经标识出可能是在帧1中的文档的多边形近似。当跟踪设备206分析一系列帧时,在针对帧1的多边形列表中将针对多边形的存续时间值设置为10。检测设备204可能检测不到在帧2中的对应的多边形近似。因此,来自帧1的多边形近似保持未配对,并且存续时间值递减到9。在9个帧之后,没有检测到对应的多边形近似。作为结果,来自帧1的多边形近似可以被移除并且被标识为假阳性。
检测设备204和跟踪设备206可以针对由视频相机208捕获的每个视频帧连续地重复上面描述的功能。如上面指明那样,当用户确认已经在显示器104中示出的视频图像302中正确地标识了文档时,用户可以按压快门按钮306以捕获静止图像。检测设备204和跟踪设备206于是可以停止处理视频帧。可以分析静止图像,并且可以分离在静止图像中标识的文档106以形成在视频图像108或302中的相应的文档106的分离的电子文件110。
图4图示用于从视频图像检测和跟踪多个文档的示例方法400的流程图。在示例中,方法400可以是由在图5中图示并且在下面描述的装置100或装置500执行的。
在框402处,方法400开始。在框404处,方法400捕获多个文档的视频图像。例如,用户可能想要扫描多个文档以形成文档的电子版本。然而,并非分离地扫描每个文档,方法400可以捕获多个文档的单个视频图像,并且从该单个视频图像生成每个文档的分离的电子文件。
在框406处,方法400在视频图像的每个帧中检测多个文档。在一个示例中,移动终端设备中的检测设备可以检测视频图像的每个帧内的每个文档。例如,对于视频图像的每个帧,可以执行预处理、边缘检测和外形检测。然后,可以基于边缘检测和外形检测来检测每个文档。
在一个示例中,预处理可以包括从视频图像的帧中移除颜色并且应用模糊来消除高频噪声。在一个示例中,方法400还可以对被检测到的多个文档中的每个文档执行视角校正。例如,一些文档可能被部分地旋转,或者图像可能已经被以引起失真的角度捕获。
在框408处,方法400跟踪在视频图像的每个帧中检测到的多个文档。例如,可以从一帧到另一帧地跟踪每个文档以确保文档被正确地标识。换句话说,假设视频相机相对静止,所标识的文档应当具有最小的从一帧到另一帧的移动。
在一个示例中,可以通过保持在视频图像的每个帧中检测到的多边形的列表来跟踪文档。来自于来自第一帧的多边形列表的每个多边形然后可以被与第二帧中的相应的多边形列表中的每个多边形配对。第一帧和第二帧可以是相继的帧。
如在上面描述的那样,可以计算被配对的多边形之间的距离。然后可以围绕位于所计算的距离的中间距离处的区域绘制可视指示符。
如在上面指明的那样,如果两个帧之间的多边形列表不同,则可以将零值添加到具有更低数量的多边形的多边形列表中。可以对被与零值配对的每个多边形分配存续时间值。如果在存续时间值达到0之前没有在视频图像的与具有存续时间值的多边形配对的后续帧中找到多边形,则那么可以将多边形从多边形列表中移除。换句话说,多边形可能已经是在帧中检测到的假阳性。
在框410处,方法400显示围绕被检测和跟踪的多个文档中的每个文档的可视指示符。可视指示符可以向用户提供指示已经在视频图像中标识了文档的提示。
在框412处,方法400响应于接收到基于可视指示符正确地检测到多个文档中的每个文档的指示而捕获多个文档的照片。例如,如果用户相信在框410中正确地标识了文档,则用户可以按压快门按钮以捕获静止图像。视频帧的处理可以被重复(例如,框404-410),直到快门按钮被激活以指示正确地检测到了文档。
在框414处,方法400针对多个文档中的每个文档生成分离的图像。换句话说,可以从包含所有文档的单个视频图像生成针对每个文档的分离的文件。作为结果,用户不需要捕获每个文档的分离的照片来扫描文档并且生成电子文件。相反,用户可以将所有文档放置在视频相机的视野内,并且移动终端设备可以自动地针对每个文档生成分离的电子文件。在框416处,方法400结束。
图5图示装置500的示例。在示例中,装置500可以是装置100。在示例中,装置500可以包括处理器502和非暂态计算机可读存储介质504。非暂态计算机可读存储介质504可以包括指令506、508、510、512和514,当由处理器502执行时,这些指令引起处理器502执行各种功能。
在示例中,指令506可以包括用以检测视频图像中的多个文档的指令。指令508可以包括用以跟踪视频图像的每个帧中的多个文档的指令。指令510可以包括用以显示围绕被检测和跟踪的多个文档中的每个文档的轮廓的指令。指令512可以包括用以响应于围绕多个文档中的每个文档正确地绘制了轮廓的确认而捕获多个文档的图像的指令。指令514可以包括用以针对多个文档中的每个文档生成分离的图像的指令。
将领会的是,上面公开的和其它的特征和功能或者它们的替换的各种变型可以被组合成许多其它不同的***或应用。本领域技术人员随后可以作出各种目前未预见或未预期的替换、修改、变化或其改进,这些也意图被由随后的权利要求涵盖。

Claims (15)

1.一种装置,包括:
视频相机,用以捕获多个文档的视频图像;
检测设备,用以检测视频图像的帧中的多个文档;
跟踪设备,用以跟踪在视频图像的一系列帧中检测到的所述多个文档中的每个文档;
显示器,用以生成围绕所显示的视频图像中的所述多个文档中的每个文档的可视指示符;以及
处理器,其与视频相机、检测设备、跟踪设备和显示器通信以控制视频相机、检测设备、跟踪设备和显示器的执行。
2.根据权利要求1所述的装置,其中,视频相机用以响应于接收到的正确地检测所述多个文档中的每个文档的确认而捕获所述多个文档的静止照片。
3.根据权利要求2所述的装置,其中,处理器用以接收照片并且生成针对所述多个文档中的每个文档的分离的图像。
4.根据权利要求2所述的装置,其中,确认包括检测快门按钮的激活。
5.根据权利要求1所述的装置,其中,所述装置包括移动终端设备。
6.一种方法,包括:
由处理器捕获多个文档的视频图像;
由处理器检测视频图像的每个帧中的多个文档;
由处理器跟踪在视频图像的每个帧中检测到的所述多个文档;
由处理器显示围绕被检测和跟踪的所述多个文档中的每个文档的可视指示符;
由处理器响应于接收到基于可视指示符正确地检测到所述多个文档中的每个文档的指示而捕获所述多个文档的照片;以及
由处理器生成针对所述多个文档中的每个文档的分离的图像。
7.根据权利要求6所述的方法,其中,针对视频图像的每个帧进行检测包括:
由处理器执行视频图像的帧的预处理;
由处理器执行视频图像的帧中的边缘检测;
由处理器执行视频的帧中的外形检测;以及
由处理器基于边缘检测和外形检测标识所述多个文档中的每个文档。
8.根据权利要求7所述的方法,进一步包括:
由处理器对所述多个文档中的每个文档执行视角校正。
9.根据权利要求7所述的方法,其中,预处理包括:
由处理器从视频图像的帧中移除颜色;以及
由处理器应用模糊来消除高频噪声。
10.根据权利要求7所述的方法,其中,外形检测包括:
标识通过边缘检测形成的多边形,多边形具有预先限定的数量的顶点,具有大于预先限定的阈值的面积,并且具有在平行度阈值内平行的两个相对的侧。
11.根据权利要求6所述的方法,其中,跟踪包括:
保持通过检测在视频图像的每个帧中检测到的多边形的列表;
将第一帧中的相应的多边形列表中的每个多边形与第二帧中的相应的多边形列表中的每个多边形配对;
计算被配对的多边形之间的距离;以及
绘制围绕位于所计算的距离的中间距离处的区域的可视指示符。
12.根据权利要求11所述的方法,进一步包括:
检测与第二帧中的相应的多边形列表相比具有不同数量的多边形的第一帧中的相应的多边形列表;
将零值添加到具有更低数量的多边形的相应的多边形列表;以及
将存续时间值分配给与零值配对的每个多边形。
13.一种编码有由处理器可执行的指令的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括:
用以检测视频图像中的多个文档的指令;
用以跟踪视频图像的每个帧中的所述多个文档的指令;
用以显示围绕被检测和跟踪的所述多个文档中的每个文档的轮廓的指令;
用以响应于围绕所述多个文档中的每个文档正确地绘制了轮廓的确认而捕获所述多个文档的图像的指令;以及
用以针对所述多个文档中的每个文档生成分离的图像的指令。
14.根据权利要求13所述的非暂态计算机可读存储介质,其中,通过移动终端设备来捕获视频图像。
15.根据权利要求13所述的非暂态计算机可读存储介质,其中,当不同的文档被移除或添加到视频图像时,连续地执行用以检测的指令和用以跟踪的指令。
CN201880099657.4A 2018-11-20 2018-11-20 从视频图像进行文档检测 Pending CN112997217A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2018/061986 WO2020106277A1 (en) 2018-11-20 2018-11-20 Document detections from video images

Publications (1)

Publication Number Publication Date
CN112997217A true CN112997217A (zh) 2021-06-18

Family

ID=70774407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880099657.4A Pending CN112997217A (zh) 2018-11-20 2018-11-20 从视频图像进行文档检测

Country Status (4)

Country Link
US (1) US20210281742A1 (zh)
EP (1) EP3884431A4 (zh)
CN (1) CN112997217A (zh)
WO (1) WO2020106277A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155546A (zh) * 2022-02-07 2022-03-08 北京世纪好未来教育科技有限公司 一种图像矫正方法、装置、电子设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11663824B1 (en) * 2022-07-26 2023-05-30 Seismic Software, Inc. Document portion identification in a recorded video

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129340B1 (en) * 2010-06-08 2015-09-08 United Services Automobile Association (Usaa) Apparatuses, methods and systems for remote deposit capture with enhanced image detection
US8705836B2 (en) * 2012-08-06 2014-04-22 A2iA S.A. Systems and methods for recognizing information in objects using a mobile device
US9152858B2 (en) * 2013-06-30 2015-10-06 Google Inc. Extracting card data from multiple cards
US9247136B2 (en) * 2013-08-21 2016-01-26 Xerox Corporation Automatic mobile photo capture using video analysis
US9386235B2 (en) * 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US10417321B2 (en) * 2016-07-22 2019-09-17 Dropbox, Inc. Live document detection in a captured video stream
JP6399371B1 (ja) * 2017-04-21 2018-10-03 ウォンテッドリー株式会社 情報処理装置、情報処理装置の制御方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155546A (zh) * 2022-02-07 2022-03-08 北京世纪好未来教育科技有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN114155546B (zh) * 2022-02-07 2022-05-20 北京世纪好未来教育科技有限公司 一种图像矫正方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
US20210281742A1 (en) 2021-09-09
WO2020106277A1 (en) 2020-05-28
EP3884431A1 (en) 2021-09-29
EP3884431A4 (en) 2022-06-29

Similar Documents

Publication Publication Date Title
US10484610B2 (en) Image-capturing apparatus, captured image processing system, program, and recording medium
EP3477931A1 (en) Image processing method and device, readable storage medium and electronic device
JP4556813B2 (ja) 画像処理装置、及びプログラム
EP2252088A1 (en) Image processing method and system
US20140362422A1 (en) Handheld device document imaging
US20190166302A1 (en) Method and apparatus for blurring preview picture and storage medium
WO2014002689A1 (ja) 画像処理装置および記録媒体
KR20150037374A (ko) 카메라로 촬영한 문서 영상을 스캔 문서 영상으로 변환하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US10303969B2 (en) Pose detection using depth camera
JP2007201948A (ja) 撮像装置、画像処理方法及びプログラム
US7489832B2 (en) Imaging apparatus, image processing method for imaging apparatus and recording medium
US10455163B2 (en) Image processing apparatus that generates a combined image, control method, and storage medium
JP2005309560A (ja) 画像処理方法および装置並びにプログラム
KR102311367B1 (ko) 화상 처리 장치, 화상 처리 방법, 및 프로그램
CN111932462B (zh) 图像降质模型的训练方法、装置和电子设备、存储介质
US10692230B2 (en) Document imaging using depth sensing camera
CN113822942A (zh) 一种基于二维码的单目摄像头测量物体尺寸的方法
CN112997217A (zh) 从视频图像进行文档检测
US8488213B2 (en) Methods and systems for no-touch scanning
US10373329B2 (en) Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing
US20160275345A1 (en) Camera systems with enhanced document capture
JP7030425B2 (ja) 画像処理装置、画像処理方法、プログラム
CN115471828A (zh) 标识码识别方法、装置、终端设备及介质
US9521270B1 (en) Changing in real-time the perspective of objects captured in images
CN116521103A (zh) 一种自动获取打印信息的内容打印方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination