CN112966596B - 视频光学字符识别***方法及*** - Google Patents

视频光学字符识别***方法及*** Download PDF

Info

Publication number
CN112966596B
CN112966596B CN202110239223.3A CN202110239223A CN112966596B CN 112966596 B CN112966596 B CN 112966596B CN 202110239223 A CN202110239223 A CN 202110239223A CN 112966596 B CN112966596 B CN 112966596B
Authority
CN
China
Prior art keywords
picture frame
text information
result
frame
judging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110239223.3A
Other languages
English (en)
Other versions
CN112966596A (zh
Inventor
崔大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Second Hand Artificial Intelligence Technology Co ltd
Original Assignee
Beijing Second Hand Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Second Hand Artificial Intelligence Technology Co ltd filed Critical Beijing Second Hand Artificial Intelligence Technology Co ltd
Priority to CN202110239223.3A priority Critical patent/CN112966596B/zh
Publication of CN112966596A publication Critical patent/CN112966596A/zh
Application granted granted Critical
Publication of CN112966596B publication Critical patent/CN112966596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种精简视频光学字符识别有效结果方法及***,方法包括:视频文件获取步骤:获取至少一个视频文件;文本信息计算步骤:通过文本信息汉明计算装置对文本信息进行计算;图片帧应用步骤:通过图片帧OCR应用装置对图片帧进行应用;图片帧结果保存步骤:通过图片帧OCR结果保存装置对图片帧结果进行保存;结果汇总步骤:通过视频所有图片帧OCR结果汇总装置对图片帧处理结果进行汇总。本发明能够精简视频OCR结果,提高OCR结果的信息密度,舍弃冗余信息。

Description

视频光学字符识别***方法及***
技术领域
本发明属于视频光学字符识别领域,具体涉及一种通过汉明距离和字符数精简视频光学字符识别有效结果的方法及***。
背景技术
视频是以一定码率和算法把大量音视频信息组织保存的,对视频的OCR应用,实际是对视频的每帧图像分别应用ocr算法,并将所有图片的ocr结果重新组织;视频的OCR结果为该视频所有图片帧OCR结果的全集;现有的技术通常只是简单汇总所有图片帧的结果;每个视频内都有有大量的相似帧图片,这些相似图片重复计算浪费计算性能,同时文本结果也有大量的重复,降低了视频的OCR文本结果的信息密度;这个方案会图片帧做相似度检测,相似度较高的图片,不再重复计算。
现有技术的缺点:图片帧相似度计算减少了重复计算,但仍然会有大量重复的文本,对独立的静态图像有较好的效果,但对像字幕显示这一类的前后有时间关系的图像,因为只是字幕的变更,图片大概率是相似的,粗暴的只应用图片相似度,会导致字幕的不准确。
发明内容
为解决上述技术问题本申请实施例提供了一种视频光学字符识别方法及***。本发明提供了一种视频光学字符识别方法,其中,包括:
视频文件获取步骤:获取至少一个视频文件;
图片帧计算步骤:对所述视频文件进行计算获得图片帧;
文本信息计算步骤:对所述图片帧进行计算获得图片帧文本信息;
图片帧结果保存步骤:对所述图片帧文本信息进行保存;
结果汇总步骤:对所述图片帧文本信息进行汇总。
上述视频光学字符识别方法,其中,所述图片帧计算步骤包括,根据所述视频文件逐帧或提取关键帧计算以提取的所述图片帧。
上述视频光学字符识别方法,其中,所述文本信息计算步骤包括:
提取步骤:从所述图片帧中提取当前图片帧和所述当前图片帧的前一图片帧;
计算步骤:对所述当前图片帧和所述前一图片帧进行计算对应地获得当前图片帧文本信息和前一图片帧文本信息;
计算相似度步骤:对所述当前图片帧文本信息和前一图片帧文本信息进行计算获得相似度;
判断步骤:对所述相似度进行判断并输出判断结果。
上述视频光学字符识别方法,其中,所述判断步骤包括:若所述相似度大于一固定值,且所述当前图片帧文本信息的字符数大于前一图片帧文本信息的字符数时输出第一判断结果;
若所述相似度大于所述固定值,且所述当前图片帧文本信息的字符数小于或等于前一图片帧文本信息的字符数时输出第二判断结果;
若所述相似度小于所述固定值,输出第三判断结果。
上述视频光学字符识别方法,其中,所述图片帧结果保存步骤包括:
根据所述第一判断结果舍弃所述前一图片帧文本信息,保留所述当前图片帧文本信息进行存储;
根据所述第二判断结果舍弃所述当前图片帧文本信息,保留所述前一图片帧文本信息进行存储;
根据所述第三判断结果,保留所述当前图片帧文本信息和前一图片帧文本信息进行存储。
本发明还包括一种视频光学字符识别***,其中,包括:视频文件获取装置,获取至少一个视频文件;
文本信息汉明计算装置,对所述视频文件进行计算获得图片帧;
图片帧OCR应用装置,对所述图片帧进行计算获得图片帧文本信息;
图片帧OCR结果保存装置,对所述图片帧文本信息进行保存;
视频所有图片帧OCR结果汇总装置,对所述图片帧文本信息进行汇总。
上述视频光学字符识别***,其中,所述文本信息汉明计算装置根据所述视频文件逐帧或提取关键帧计算以提取的所述图片帧。
上述视频光学字符识别***,其中,所述图片帧OCR应用装置包括:
提取单元:从所述图片帧中提取当前图片帧和所述当前图片帧的前一图片帧;
计算单元:分别对所述当前图片帧和所述前一图片帧进行计算对应地获得当前图片帧文本信息和前一图片帧文本信息;
所述文本信息汉明计算装置包括:
计算相似度单元:对所述当前图片帧文本信息和前一图片帧文本信息进行计算获得相似度;
判断单元:对所述相似度进行判断并输出判断结果。
上述视频光学字符识别***,其中,若所述相似度计算结果大于一固定值,且所述当前图片帧文本信息的字符数大于前一图片帧文本信息的字符数时所述判断单元输出第一判断结果;
若所述相似度计算结果大于所述固定值,且所述当前图片帧文本信息的字符数小于或等于前一图片帧文本信息的字符数时所述判断单元输出第二判断结果;
若所述相似度计算结果小于所述固定值,所述判断单元输出第三判断结果。
上述视频光学字符识别***,其中,所述图片帧OCR结果保存装置根据所述第一判断结果舍弃所述前一图片帧文本信息,保留所述当前图片帧文本信息进行存储;
所述图片帧OCR结果保存装置根据所述第二判断结果舍弃所述当前图片帧文本信息,保留所述前一图片帧文本信息进行存储;
所述图片帧OCR结果保存装置根据所述第三判断结果,保留所述当前图片帧文本信息和前一图片帧文本信息进行存储。
本发明的有益效果在于:提供了一种精简视频光学字符识别有效结果方法及***,能够精简视频OCR结果,提高OCR结果的信息密度,舍弃冗余信息。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
在附图中:
图1是视频光学字符识别方法的流程图;
图2是图1中步骤S2的分步骤流程图;
图3是本发明的视频光学字符识别***的结构示意图;
图4是根据本发明实施例的计算机设备的框架图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
请参照图1,图1是视频光学字符识别有效结果方法的流程图。如图1所示,本发明视频光学字符识别方法包括:
视频文件获取步骤S1:获取至少一个视频文件;
图片帧计算步骤S2:对所述视频文件进行计算获得图片帧;
文本信息计算步骤S3:对所述图片帧进行计算获得图片帧文本信息;
图片帧结果保存步骤S4:对所述图片帧文本信息进行保存;
结果汇总步骤S5:对所述图片帧文本信息进行汇总。
其中,所述图片帧计算步骤包括,根据所述视频文件逐帧或提取关键帧计算以提取的所述图片帧。
请参照图2,图2是图1中步骤S2的分步骤流程图。如图2所示,所述文本信息计算步骤S2包括:
提取步骤S21:从所述图片帧中提取当前图片帧和所述当前图片帧的前一图片帧;
计算步骤S22:对所述当前图片帧和所述前一图片帧进行计算对应地获得当前图片帧文本信息和前一图片帧文本信息;
计算相似度步骤S23:对所述当前图片帧文本信息和前一图片帧文本信息进行计算获得相似度;
判断步骤S24:对所述相似度进行判断并输出判断结果。
其中,所述判断步骤包括:若所述相似度大于一固定值,且所述当前图片帧文本信息的字符数大于前一图片帧文本信息的字符数时输出第一判断结果;
若所述相似度大于所述固定值,且所述当前图片帧文本信息的字符数小于或等于前一图片帧文本信息的字符数时输出第二判断结果;
若所述相似度小于所述固定值,输出第三判断结果。
其中,所述图片帧结果保存步骤包括:
根据所述第一判断结果舍弃所述前一图片帧文本信息,保留所述当前图片帧文本信息进行存储;
根据所述第二判断结果舍弃所述当前图片帧文本信息,保留所述前一图片帧文本信息进行存储;
根据所述第三判断结果,保留所述当前图片帧文本信息和前一图片帧文本信息进行存储。
以下,列举实施例具体说明本发明的精简视频光学字符识别有效结果方法如下。
实施例一:
本实例揭示了基于统计的精简视频光学字符识别有效结果方法(以下简称“方法”)的具体实施方式。
文本信息汉明计算装置P1
图片帧OCR应用装置P2
图片帧OCR结果保存装置P3
视频所有图片帧OCR结果汇总装置P4
通常的处理逻辑是
视频文件->P1->图片帧->P2->图片帧文本信息->P3-P4
汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量,我们以d(x,y)表示两个字x,y 之间的汉明距离。对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离
按视频逐帧或提取关键帧计算,是按视频的播放顺序来提取的图片帧,图片帧是有序的,而播放顺序的前后帧,有更大的概率是相似的。
因此在处理每帧前检测和前一个帧的相似图,图片的相似度按图片的算法计算
对当前帧经P2得到当前帧的结果R2,获取当前帧的前一帧结果R1。
通过P1计算R1和R2的相似度,如果相似度大于30%,则判断当前帧和前一帧类似的文本结果是相似的,判断这两帧为同一字幕浮现过程中的相关帧,而字幕浮现主要是由少变多,由不清晰到清晰的过程,根据这种特点,字符数较多的结果为更准确的结果,若R1字符数较多,则舍弃当前帖的结果R2,若 R2的字符数较多,则以R2替换P3中的R1。如果相似度小于30%,则判断当前帧是新的独立场景,将R2写入P3,按播放顺序以同样的逻辑处理后续的帧。
最终经P4汇总P3的信息。
实施例二:
请参照图3,图3是本发明的通过汉明距离和字符数精简视频光学字符识别有效结果***的结构示意图。如图3所示本发明的一种通过汉明距离和字符数精简视频光学字符识别有效结果的***,其中,包括:
视频文件获取装置,获取至少一个视频文件;
文本信息汉明计算装置,对所述视频文件进行计算获得图片帧;
图片帧OCR应用装置,对所述图片帧进行计算获得图片帧文本信息;
图片帧OCR结果保存装置,对所述图片帧文本信息进行保存;
视频所有图片帧OCR结果汇总装置,对所述图片帧文本信息进行汇总。
上述视频光学字符识别***,其中,所述文本信息汉明计算装置根据所述视频文件逐帧或提取关键帧计算以提取的所述图片帧。
上述视频光学字符识别***,其中,所述图片帧OCR应用装置包括:
提取单元:从所述图片帧中提取当前图片帧和所述当前图片帧的前一图片帧;
计算单元:分别对所述当前图片帧和所述前一图片帧进行计算对应地获得当前图片帧文本信息和前一图片帧文本信息;
所述文本信息汉明计算装置包括:
计算相似度单元:对所述当前图片帧文本信息和前一图片帧文本信息进行计算获得相似度;
判断单元:对所述相似度进行判断并输出判断结果。
上述视频光学字符识别***,其中,若所述相似度计算结果大于一固定值,且所述当前图片帧文本信息的字符数大于前一图片帧文本信息的字符数时所述判断单元输出第一判断结果;
若所述相似度计算结果大于所述固定值,且所述当前图片帧文本信息的字符数小于或等于前一图片帧文本信息的字符数时所述判断单元输出第二判断结果;
若所述相似度计算结果小于所述固定值,所述判断单元输出第三判断结果。
上述视频光学字符识别***,其中,所述图片帧OCR结果保存装置根据所述第一判断结果舍弃所述前一图片帧文本信息,保留所述当前图片帧文本信息进行存储;
所述图片帧OCR结果保存装置根据所述第二判断结果舍弃所述当前图片帧文本信息,保留所述前一图片帧文本信息进行存储;
所述图片帧OCR结果保存装置根据所述第三判断结果,保留所述当前图片帧文本信息和前一图片帧文本信息进行存储。
实施例三:
结合图4所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM) 和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种通过汉明距离和字符数精简视频光学字符识别有效结果的方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图4所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构 (Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand) 互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA) 总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于通过汉明距离和字符数精简视频光学字符识别,从而实现结合图1-图3描述的方法。
另外,结合上述实施例中通过汉明距离和字符数精简视频光学字符识别有效结果的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种通过汉明距离和字符数精简视频光学字符识别有效结果的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,本专利提供了一种通过汉明距离和字符数精简视频光学字符识别有效结果的方法,能够精简视频OCR结果,提高OCR结果的信息密度,舍弃冗余信息。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种视频光学字符识别方法,其特征在于,包括:
视频文件获取步骤:获取至少一个视频文件;
图片帧计算步骤:对所述视频文件进行计算获得图片帧;
文本信息计算步骤:对所述图片帧进行计算获得图片帧文本信息;
图片帧结果保存步骤:对所述图片帧文本信息进行保存;
结果汇总步骤:对所述图片帧文本信息进行汇总;
所述文本信息计算步骤包括:
提取步骤:从所述图片帧中提取当前图片帧和所述当前图片帧的前一图片帧;
计算步骤:对所述当前图片帧和所述前一图片帧进行计算对应地获得当前图片帧文本信息和前一图片帧文本信息;
计算相似度步骤:对所述当前图片帧文本信息和前一图片帧文本信息进行计算获得相似度;
判断步骤:对所述相似度进行判断并输出判断结果;
其中,所述判断步骤包括:若所述相似度大于一固定值,且所述当前图片帧文本信息的字符数大于前一图片帧文本信息的字符数时输出第一判断结果;
若所述相似度大于所述固定值,且所述当前图片帧文本信息的字符数小于或等于前一图片帧文本信息的字符数时输出第二判断结果;
若所述相似度小于所述固定值,输出第三判断结果。
2.如权利要求1所述的视频光学字符识别方法,其特征在于,所述图片帧计算步骤包括,根据所述视频文件逐帧或提取关键帧计算以提取的所述图片帧。
3.如权利要求2所述的视频光学字符识别方法,其特征在于,所述图片帧结果保存步骤包括:
根据所述第一判断结果舍弃所述前一图片帧文本信息,保留所述当前图片帧文本信息进行存储;
根据所述第二判断结果舍弃所述当前图片帧文本信息,保留所述前一图片帧文本信息进行存储;
根据所述第三判断结果,保留所述当前图片帧文本信息和前一图片帧文本信息进行存储。
4.一种视频光学字符识别***,其特征在于,包括:视频文件获取装置,获取至少一个视频文件;
文本信息汉明计算装置,对所述视频文件进行计算获得图片帧;
图片帧OCR应用装置,对所述图片帧进行计算获得图片帧文本信息;
图片帧OCR结果保存装置,对所述图片帧文本信息进行保存;
视频所有图片帧OCR结果汇总装置,对所述图片帧文本信息进行汇总;
所述图片帧OCR应用装置包括:
提取单元:从所述图片帧中提取当前图片帧和所述当前图片帧的前一图片帧;
计算单元:分别对所述当前图片帧和所述前一图片帧进行计算对应地获得当前图片帧文本信息和前一图片帧文本信息;
所述文本信息汉明计算装置包括:
计算相似度单元:对所述当前图片帧文本信息和前一图片帧文本信息进行计算获得相似度;
判断单元:对所述相似度进行判断并输出判断结果;
其中,若所述相似度计算结果大于一固定值,且所述当前图片帧文本信息的字符数大于前一图片帧文本信息的字符数时所述判断单元输出第一判断结果;
若所述相似度计算结果大于所述固定值,且所述当前图片帧文本信息的字符数小于或等于前一图片帧文本信息的字符数时所述判断单元输出第二判断结果;
若所述相似度计算结果小于所述固定值,所述判断单元输出第三判断结果。
5.如权利要求4所述的视频光学字符识别***,其特征在于,所述文本信息汉明计算装置根据所述视频文件逐帧或提取关键帧计算以提取的所述图片帧。
6.如权利要求5所述的视频光学字符识别***,其特征在于,
所述图片帧OCR结果保存装置根据所述第一判断结果舍弃所述前一图片帧文本信息,保留所述当前图片帧文本信息进行存储;
所述图片帧OCR结果保存装置根据所述第二判断结果舍弃所述当前图片帧文本信息,保留所述前一图片帧文本信息进行存储;
所述图片帧OCR结果保存装置根据所述第三判断结果,保留所述当前图片帧文本信息和前一图片帧文本信息进行存储。
CN202110239223.3A 2021-03-04 2021-03-04 视频光学字符识别***方法及*** Active CN112966596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110239223.3A CN112966596B (zh) 2021-03-04 2021-03-04 视频光学字符识别***方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110239223.3A CN112966596B (zh) 2021-03-04 2021-03-04 视频光学字符识别***方法及***

Publications (2)

Publication Number Publication Date
CN112966596A CN112966596A (zh) 2021-06-15
CN112966596B true CN112966596B (zh) 2024-05-14

Family

ID=76276564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110239223.3A Active CN112966596B (zh) 2021-03-04 2021-03-04 视频光学字符识别***方法及***

Country Status (1)

Country Link
CN (1) CN112966596B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822860A (zh) * 2021-08-30 2021-12-21 上海明略人工智能(集团)有限公司 视频质量判断方法、***、存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT971037B (it) * 1972-11-20 1974-04-30 Fima Spa Macchina per stampare testi a piu righe di caratteri alfanumerici su un documento
JP2008141621A (ja) * 2006-12-04 2008-06-19 Nippon Hoso Kyokai <Nhk> 映像抽出装置及び映像抽出プログラム
CN103425644A (zh) * 2012-05-14 2013-12-04 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN106341703A (zh) * 2016-08-30 2017-01-18 乐视控股(北京)有限公司 弹幕处理方法及装置
CN107329947A (zh) * 2017-05-15 2017-11-07 ***通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN111290784A (zh) * 2020-01-21 2020-06-16 北京航空航天大学 适用于大规模样本的程序源代码相似度检测方法
CN111476279A (zh) * 2020-03-24 2020-07-31 平安银行股份有限公司 基于相似程度值的识别方法、装置和计算机设备
CN112101329A (zh) * 2020-11-19 2020-12-18 腾讯科技(深圳)有限公司 一种基于视频的文本识别方法、模型训练的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT971037B (it) * 1972-11-20 1974-04-30 Fima Spa Macchina per stampare testi a piu righe di caratteri alfanumerici su un documento
JP2008141621A (ja) * 2006-12-04 2008-06-19 Nippon Hoso Kyokai <Nhk> 映像抽出装置及び映像抽出プログラム
CN103425644A (zh) * 2012-05-14 2013-12-04 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN106341703A (zh) * 2016-08-30 2017-01-18 乐视控股(北京)有限公司 弹幕处理方法及装置
CN107329947A (zh) * 2017-05-15 2017-11-07 ***通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN111290784A (zh) * 2020-01-21 2020-06-16 北京航空航天大学 适用于大规模样本的程序源代码相似度检测方法
CN111476279A (zh) * 2020-03-24 2020-07-31 平安银行股份有限公司 基于相似程度值的识别方法、装置和计算机设备
CN112101329A (zh) * 2020-11-19 2020-12-18 腾讯科技(深圳)有限公司 一种基于视频的文本识别方法、模型训练的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵国毅 ; 杨晓春 ; 王斌 ; .面向相似数据的无损压缩技术.计算机科学与探索.2010,(第08期),全文. *
面向相似数据的无损压缩技术;赵国毅;杨晓春;王斌;;计算机科学与探索(第08期);全文 *

Also Published As

Publication number Publication date
CN112966596A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112966596B (zh) 视频光学字符识别***方法及***
CN111866605B (zh) 一种视频审核方法和服务器
CN111798836B (zh) 一种自动切换语种方法、装置、***、设备和存储介质
CN112015955B (zh) 一种多模态数据关联方法和装置
CN113705300A (zh) 音转文训练语料的获取方法、装置、设备以及存储介质
CN112188236B (zh) 视频插帧模型训练、视频插帧生成方法及相关装置
CN111160234A (zh) 表格识别方法、电子设备及计算机存储介质
CN111160107A (zh) 一种基于特征匹配的动态区域检测方法
CN113569687A (zh) 基于双流网络的场景分类方法、***、设备及介质
CN113569704B (zh) 分割点判断方法、***、存储介质及电子设备
CN113569703B (zh) 真实分割点判断方法、***、存储介质及电子设备
CN114466087B (zh) 数据传输方法、装置、设备以及存储介质
CN113569684A (zh) 短视频场景分类方法、***、电子设备及存储介质
CN112329445B (zh) 乱码判断方法、***、信息抽取方法及信息抽取***
CN111538622B (zh) 星载固态存储器纠错方法
CN112784569B (zh) 一种相似文本聚合的实现方法、***、设备及存储介质
CN109784226B (zh) 人脸抓拍方法及相关装置
CN114386407A (zh) 文本的分词方法及装置
CN114863442A (zh) 基于深度学习的文字识别方法、***、装置和存储介质
CN113821661B (zh) 图像检索方法、***、存储介质及电子设备
CN112560457B (zh) 基于非监督的文本去噪方法、***、电子设备及存储介质
CN112257726A (zh) 目标检测训练方法、***、电子设备及计算机可读存储介质
CN112784042B (zh) 结合文章结构与聚合词向量的文本相似度计算方法及***
CN116484856B (zh) 一种文本的关键词提取方法、装置、电子设备及存储介质
CN113569857A (zh) 字幕识别方法、***、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant