CN107203763B - 文字识别方法和装置 - Google Patents

文字识别方法和装置 Download PDF

Info

Publication number
CN107203763B
CN107203763B CN201610157743.9A CN201610157743A CN107203763B CN 107203763 B CN107203763 B CN 107203763B CN 201610157743 A CN201610157743 A CN 201610157743A CN 107203763 B CN107203763 B CN 107203763B
Authority
CN
China
Prior art keywords
language
recognition result
effective
picture
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610157743.9A
Other languages
English (en)
Other versions
CN107203763A (zh
Inventor
张明明
杨建武
于晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201610157743.9A priority Critical patent/CN107203763B/zh
Publication of CN107203763A publication Critical patent/CN107203763A/zh
Application granted granted Critical
Publication of CN107203763B publication Critical patent/CN107203763B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种文字识别方法和装置,其中,该方法包括:获取待识别图片;采用至少一种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,识别结果中包括了至少一个字符;确定各语种的识别结果的有效字符比例;根据各语种的识别结果的有效字符比例,判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。

Description

文字识别方法和装置
技术领域
本发明涉及多媒体技术,尤其涉及一种文字识别方法和装置。
背景技术
随着多媒体技术的不断发展,图片、视频等等多媒体信息素材越来越多的应用到各项技术中。在图片、视频等多媒体信息中,会配备有大量的文字信息,例如在图片中具有文字说明,在视频中具有字幕以及其他文字说明信息。在对多媒体信息进行处理的时候,需要从单张图片或者视频中的各帧图片中提取出文字,提取文字需要采用文字识别的方法。
现有技术中,对图片中的文字,在人工的确定了图片中的文字的语种之后,可以采用与该语种对应的光学字符识别(Optical Character Recognition,简称OCR)核心库进行而文字的识别。
然而现有技术中,在进行图片的文字识别的时候,通常都是对大量的图片进行文字识别,现有技术中需要人工的对每一个图片确定了图片中的文字的语种之后,才可以采用与各语种对应的OCR核心库进行文字识别,从而需要大量的人工操作,识别的时间较长,识别效率低。
发明内容
本发明提供一种文字识别方法和装置,用以解决现有技术中需要人工的对每一个图片确定了图片中的文字的语种之后,才可以采用与各语种对应的OCR核心库进行文字识别,从而需要大量的人工操作,识别的时间较长,识别效率低的问题。
本发明的一方面是提供了一种文字识别方法,包括:
获取待识别图片;
采用至少一种语种的OCR核心库对所述待识别图片进行文字识别,生成各语种的识别结果,所述识别结果中包括了至少一个字符;
确定各语种的识别结果的有效字符比例;
根据各语种的识别结果的有效字符比例,判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果。
如上所述的方法中,所述确定各语种的识别结果的有效字符比例,包括:
确定各语种的识别结果中的字符个数,并确定各语种的识别结果中的各字符的字符编码;
确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数;
根据各语种的识别结果的字符个数,以及各语种的识别结果的有效字符个数,确定各语种的识别结果的有效字符比例。
如上所述的方法中,所述根据各语种的识别结果的有效字符比例,判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果,包括:
比较各语种的识别结果的有效字符比例的大小,确定最大值有效字符比例的语种为所述待识别图片中的文字的语种,并确定最大值有效字符比例的语种的识别结果为所述待识别图片的文字的识别有效结果。
如上所述的方法中,所述采用至少一种语种的OCR核心库对所述待识别图片进行文字识别,生成各语种的识别结果,包括:
采用三种语种的OCR核心库对所述待识别图片进行文字识别,生成各语种的识别结果,其中三种语种的OCR核心库分别为中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库;
相应的,所述根据各语种的识别结果的有效字符比例,判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果,包括:
若藏文语种的识别结果的有效字符比例R1大于等于预设比例,则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1大于等于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1小于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2大于等于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为中文语种、所述待识别图片中的文字的识别有效结果为中文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2小于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果。
本发明的另一方面是提供了一种文字识别装置,包括:
获取模块,用于获取待识别图片;
识别模块,用于采用至少一种语种的OCR核心库对所述待识别图片进行文字识别,生成各语种的识别结果,所述识别结果中包括了至少一个字符;
确定模块,用于确定各语种的识别结果的有效字符比例;
判定模块,用于根据各语种的识别结果的有效字符比例,判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果。
如上所述的装置中,所述确定模块,包括:
第一确定子模块,用于确定各语种的识别结果中的字符个数,并确定各语种的识别结果中的各字符的字符编码;
第二确定子模块,用于确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数;
计算子模块,用于根据各语种的识别结果的字符个数,以及各语种的识别结果的有效字符个数,确定各语种的识别结果的有效字符比例。
如上所述的装置中,所述判定模块,具体用于:
比较各语种的识别结果的有效字符比例的大小,确定最大值有效字符比例的语种为所述待识别图片中的文字的语种,并确定最大值有效字符比例的语种的识别结果为所述待识别图片的文字的识别有效结果。
如上所述的装置中,所述识别模块,具体用于:
采用三种语种的OCR核心库对所述待识别图片进行文字识别,生成各语种的识别结果,其中三种语种的OCR核心库分别为中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库;
相应的,所述判定模块,具体用于:
若藏文语种的识别结果的有效字符比例R1大于等于预设比例,则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1大于等于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1小于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2大于等于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为中文语种、所述待识别图片中的文字的识别有效结果为中文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2小于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果。
本发明通过获取待识别图片,采用至少一种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,识别结果中包括了至少一个字符;计算出各语种的识别结果的有效字符比例,根据各语种的识别结果的有效字符比例,判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。
附图说明
图1为本发明实施例一提供的文字识别方法的流程图;
图2为本发明实施例二提供的文字识别方法的流程图;
图3为本发明实施例二提供的文字识别方法中的一种待识别图片的示意图;
图4为本发明实施例二提供的文字识别方法中的图3的中文语种识别结果的示意图;
图5为本发明实施例二提供的文字识别方法中的图3的英文语种识别结果的示意图;
图6为本发明实施例二提供的文字识别方法中的图3的藏文语种识别结果的示意图;
图7为本发明实施例三提供的文字识别方法的流程图;
图8为本发明实施例四提供的文字识别装置的结构示意图;
图9为本发明实施例五提供的文字识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的文字识别方法的流程图,如图1所示,本实施例的方法包括:
步骤101、获取待识别图片。
在本实施例中,具体的,在图片、视频等多媒体信息中,会配备有大量的文字信息,例如在图片中具有文字说明,在微博的图片中具有长微博文字图片、在视频中具有字幕以及其他文字说明信息。
首先获取待识别的图片,待识别的图片包括了一张图片,或者视频中的单帧图片。然后,可以对待识别图片进行分割,进而便于后续步骤对分割后的待识别图片中的文字一一进行识别;还可以对待识别图片进行图片预处理的工作,例如调整待识别图片的亮度和对比图、将待识别图片调整为黑白值的图片等。
步骤102、采用至少一种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,识别结果中包括了至少一个字符。
在本实施例中,具体的,OCR识别技术具有多种语种的OCR核心库,从而可以采用至少一种语种的OCR核心库对待识别图片进行文字识别,进而生成了各语种的识别结果,在各不同的识别结果中分别包括了至少一个字符。
举例来说,可以采用中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库、德文语种的OCR核心库、法文语种的OCR核心库等对待识别图片进行文字识别,从而可以生成中文语种的识别结果、英文语种的识别结果、藏文语种的识别结果、德文语种的识别结果、法文语种的识别结果。
步骤103、确定各语种的识别结果的有效字符比例。
在本实施例中,具体的,对于步骤102中生成的各个语种的识别结果,计算出各语种的识别结果的有效字符比例。从而得到不同的语种的识别结果的各自的有效字符比例。
步骤104、根据各语种的识别结果的有效字符比例,判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。
在本实施例中,具体的,根据步骤103中生成的各语种的识别结果的有效字符比例,根据预设的判决决策来判定步骤101中的待识别图片中的文字的语种,以及哪种语种的识别结果为待识别图片中的文字的识别有效结果。
举例来说,可以对待识别图片采用至少一种语种的OCR核心库进行多次识别之后,对得到的各语种的识别结果的多次的有效字符比例,求取均值,从而确定均值最大值的语种为待识别图片中的文字的语种、确定均值最大值的识别结果为待识别图片中的文字的识别有效结果。
本实施例通过获取待识别图片,采用至少一种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,识别结果中包括了至少一个字符;计算出各语种的识别结果的有效字符比例,根据各语种的识别结果的有效字符比例,判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。
图2为本发明实施例二提供的文字识别方法的流程图,如图2所示,在实施例一的基础上,本实施例的方法中,步骤103,包括:
步骤1031、确定各语种的识别结果中的字符个数,并确定各语种的识别结果中的各字符的字符编码。
在本实施例中,具体的,由于各语种的识别结果都分别由多个字符构成,从而可以确定出步骤102中生成的各语种的识别结果的字符个数,同时确定出各语种的识别结果中的各字符的字符编码。
步骤1032、确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数。
在本实施例中,具体的,由于在unicode编码下,不同的字符对应着不同的编码,不同语种的字符也对应着不同的字符编码区间。从而可以根据步骤1031中确定的各语种的识别结果中的各字符的字符编码,分别确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数。
举例来说,图3为本发明实施例二提供的文字识别方法中的一种待识别图片的示意图,如图3所示,对图3中提供的待识别图片进行识别;可以采用中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库分别对图3中的待识别图片进行文字识别,图4为本发明实施例二提供的文字识别方法中的图3的中文语种识别结果的示意图,图5为本发明实施例二提供的文字识别方法中的图3的英文语种识别结果的示意图,图6为本发明实施例二提供的文字识别方法中的图3的藏文语种识别结果的示意图,如图4、图5和图6所示,会生成中文语种的识别结果、英文语种的识别结果、藏文语种的识别结果;首先确定生成的中文语种的识别结果中的字符个数为6个字符,英文语种的识别结果中的字符个数为10个字符,藏文语种的识别结果中的字符个数为6个字符,并分别确定各语种的识别结果中的各字符的字符编码;中文语种的字符编码区间为0x4E00-0x9FA5,英文语种的字符编码区间为0x0000-0x00FF,藏文语种的字符编码区间为0x0F00-0x0FFF;并且识别结果中的特殊字符等,并不在各语种的字符编码区间中;从而确定中文语种的识别结果中的各字符的字符编码,归属于中文语种的字符编码区间内的有效字符个数为4个;确定英文语种的识别结果中的各字符的字符编码,归属于英文语种的字符编码区间内的有效字符个数为6个;确定藏文语种的识别结果中的各字符的字符编码,归属于藏文语种的字符编码区间内的有效字符个数为6个。
步骤1033、根据各语种的识别结果的字符个数,以及各语种的识别结果的有效字符个数,确定各语种的识别结果的有效字符比例。
在本实施例中,具体的,根据步骤1031中确定出的各语种的识别结果的字符个数,以及步骤1032中计算出的各语种的识别结果的有效字符个数,可以分别计算出各语种的识别结果的有效字符比例。
举例来说,可以根据中文语种的识别结果的字符个数6,中文语种的识别结果的有效字符个数4,确定中文语种的识别结果的有效字符比例为2/3;根据英文语种的识别结果的字符个数10,英文语种的识别结果的有效字符个数6,确定英文语种的识别结果的有效字符比例为3/5;根据藏文语种的识别结果的字符个数6,藏文语种的识别结果的有效字符个数6,确定藏文语种的识别结果的有效字符比例为1/1。
步骤104具体包括:
比较各语种的识别结果的有效字符比例的大小,确定最大值有效字符比例的语种为待识别图片中的文字的语种,并确定最大值有效字符比例的语种的识别结果为待识别图片的文字的识别有效结果。
在本实施例中,具体的,在确定了各语种的识别结果的有效字符比例之后,可以比较各语种的识别结果的有效字符比例的大小,取有效字符比例的值最大的语种作为最终的语种的识别结果,从而可以确定出待识别图片的语种和文字识别的结果。准确来说,将最大值有效字符比例的语种作为待识别图片中的文字的语种,将最大值有效字符比例的语种的识别结果作为待识别图片的文字的识别有效结果。
举例来说,中文语种的识别结果的有效字符比例为67%,英文语种的识别结果的有效字符比例为60%,藏文语种的识别结果的有效字符比例为100%,从而藏文语种的识别结果的有效字符比例的值最大,可以确定待识别图片中的文字的语种为藏文,将藏文语种的识别结果作为待识别图片的文字的识别有效结果。
本实施例通过确定各语种的识别结果中的字符个数;并确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数;从而可以根据各语种的识别结果的字符个数、各语种的识别结果的有效字符个数,可以分别计算出各语种的识别结果的有效字符比例;进而取最大值有效字符比例的语种为待识别图片中的文字的语种、取最大值有效字符比例的语种的识别结果为待识别图片的文字的识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。
图7为本发明实施例三提供的文字识别方法的流程图,如图7所示,在实施例一和实施例二的基础上,本实施例的方法中,步骤102具体包括:
采用三种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,其中三种语种的OCR核心库分别为中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库;
相应的,步骤104具体包括:
若藏文语种的识别结果的有效字符比例R1大于等于预设比例,则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1大于等于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1小于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2大于等于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为中文语种、待识别图片中的文字的识别有效结果为中文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2小于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果。
在本实施例中,具体的,在获取了待识别图片、对待识别图片进行了图片预处理的工作之后,可以采用采用三种语种的OCR核心库对待识别图片进行文字识别,其中,三种语种的OCR核心库分别为中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库。从而生成各语种的识别结果:中文语种的识别结果、英文语种的识别结果、藏文语种的识别结果。
分别计算出中文语种的识别结果、英文语种的识别结果、藏文语种的识别结果各自的有效字符比例。
首先,判断藏文语种的识别结果的有效字符比例R1是否大于等于预设比例T1。若藏文语种的识别结果的有效字符比例R1大于等于预设比例T1,则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果。若藏文语种的识别结果的有效字符比例R1小于预设比例T1,则判断藏文语种的识别结果的有效字符比例R1是否大于等于中文语种的识别结果的有效字符比例R2。
然后,确定在藏文语种的识别结果的有效字符比例R1小于预设比例T1,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2时,再去判断藏文语种的识别结果的有效字符比例R1是否大于等于英文语种的识别结果的有效字符比例R3,若此时藏文语种的识别结果的有效字符比例R1大于等于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果,若此时藏文语种的识别结果的有效字符比例R1小于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果。
确定在藏文语种的识别结果的有效字符比例R1小于预设比例T1,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2时,再去判断中文语种的识别结果的有效字符比例R2是否大于等于英文语种的识别结果的有效字符比例R3,若此时中文语种的识别结果的有效字符比例R2大于等于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为中文语种、待识别图片中的文字的识别有效结果为中文语种的识别结果,若此时中文语种的识别结果的有效字符比例R2小于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果。
本实施例在采用中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库分别对待识别图片进行文字识别时,采用藏文语种的识别结果的有效字符比例、中文语种的识别结果的有效字符比例、英文语种的识别结果的有效字符比例进行相互比较的决策判别方式,最终确定出待识别图片中的文字的语种、以及识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。
图8为本发明实施例四提供的文字识别装置的结构示意图,如图8所示,本实施例提供的文字识别装置,包括:
获取模块31,用于获取待识别图片;
识别模块32,用于采用至少一种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,识别结果中包括了至少一个字符;
确定模块33,用于确定各语种的识别结果的有效字符比例;
判定模块34,用于根据各语种的识别结果的有效字符比例,判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。
本实施例的文字识别装置可执行本发明实施例一提供的文字识别方法,其实现原理相类似,此处不再赘述。
本实施例通过获取待识别图片,采用至少一种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,识别结果中包括了至少一个字符;计算出各语种的识别结果的有效字符比例,根据各语种的识别结果的有效字符比例,判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。
图9为本发明实施例五提供的文字识别装置的结构示意图,在实施例四的基础上,如图9所示,本实施例提供的文字识别装置,确定模块33,包括:
第一确定子模块331,用于确定各语种的识别结果中的字符个数,并确定各语种的识别结果中的各字符的字符编码;
第二确定子模块332,用于确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数;
计算子模块333,用于根据各语种的识别结果的字符个数,以及各语种的识别结果的有效字符个数,确定各语种的识别结果的有效字符比例。
判定模块34,具体用于:
比较各语种的识别结果的有效字符比例的大小,确定最大值有效字符比例的语种为待识别图片中的文字的语种,并确定最大值有效字符比例的语种的识别结果为待识别图片的文字的识别有效结果。
或者,识别模块32,具体用于:
采用三种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,其中三种语种的OCR核心库分别为中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库;
相应的,判定模块34,具体用于:
若藏文语种的识别结果的有效字符比例R1大于等于预设比例,则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1大于等于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1小于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2大于等于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为中文语种、待识别图片中的文字的识别有效结果为中文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2小于英文语种的识别结果的有效字符比例R3,则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果。
本实施例的文字识别装置可执行本发明实施例一和实施例二提供的文字识别方法,其实现原理相类似,此处不再赘述。
本实施例通过确定各语种的识别结果中的字符个数;并确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数;从而可以根据各语种的识别结果的字符个数、各语种的识别结果的有效字符个数,可以分别计算出各语种的识别结果的有效字符比例;进而取最大值有效字符比例的语种为待识别图片中的文字的语种、取最大值有效字符比例的语种的识别结果为待识别图片的文字的识别有效结果。并且在采用中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库分别对待识别图片进行文字识别时,采用藏文语种的识别结果的有效字符比例、中文语种的识别结果的有效字符比例、英文语种的识别结果的有效字符比例进行相互比较的决策判别方式,最终确定出待识别图片中的文字的语种、以及识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种文字识别方法,其特征在于,包括:
获取待识别图片;
采用三种语种的光学字符识别OCR核心库对所述待识别图片进行文字识别,生成各语种的识别结果,所述识别结果中包括了至少一个字符;其中三种语种的OCR核心库分别为中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库;
确定各语种的识别结果的有效字符比例;
根据各语种的识别结果的有效字符比例,判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果;
所述根据各语种的识别结果的有效字符比例,判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果,包括:
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1大于等于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1大于等于预设比例,则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1小于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2大于等于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为中文语种、所述待识别图片中的文字的识别有效结果为中文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2小于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定各语种的识别结果的有效字符比例,包括:
确定各语种的识别结果中的字符个数,并确定各语种的识别结果中的各字符的字符编码;
确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数;
根据各语种的识别结果的字符个数,以及各语种的识别结果的有效字符个数,确定各语种的识别结果的有效字符比例。
3.根据权利要求1或2所述的方法,其特征在于,所述根据各语种的识别结果的有效字符比例,判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果,包括:
比较各语种的识别结果的有效字符比例的大小,确定最大值有效字符比例的语种为所述待识别图片中的文字的语种,并确定最大值有效字符比例的语种的识别结果为所述待识别图片的文字的识别有效结果。
4.一种文字识别装置,其特征在于,包括:
获取模块,用于获取待识别图片;
识别模块,用于采用三种语种的OCR核心库对所述待识别图片进行文字识别,生成各语种的识别结果,所述识别结果中包括了至少一个字符;其中三种语种的OCR核心库分别为中文语种的OCR核心库、英文语种的OCR核心库、藏文语种的OCR核心库;
确定模块,用于确定各语种的识别结果的有效字符比例;
判定模块,用于根据各语种的识别结果的有效字符比例,判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果;
所述判定模块还用于:
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1大于等于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1大于等于预设比例,则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1大于等于中文语种的识别结果的有效字符比例R2,且藏文语种的识别结果的有效字符比例R1小于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2大于等于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为中文语种、所述待识别图片中的文字的识别有效结果为中文语种的识别结果;
若藏文语种的识别结果的有效字符比例R1小于预设比例,且藏文语种的识别结果的有效字符比例R1小于中文语种的识别结果的有效字符比例R2,且中文语种的识别结果的有效字符比例R2小于英文语种的识别结果的有效字符比例R3,则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果。
5.根据权利要求4所述的装置,其特征在于,所述确定模块,包括:
第一确定子模块,用于确定各语种的识别结果中的字符个数,并确定各语种的识别结果中的各字符的字符编码;
第二确定子模块,用于确定各语种的识别结果中的各字符的字符编码,归属于各语种的字符编码区间内的有效字符个数;
计算子模块,用于根据各语种的识别结果的字符个数,以及各语种的识别结果的有效字符个数,确定各语种的识别结果的有效字符比例。
6.根据权利要求4或5所述的装置,其特征在于,所述判定模块,具体用于:
比较各语种的识别结果的有效字符比例的大小,确定最大值有效字符比例的语种为所述待识别图片中的文字的语种,并确定最大值有效字符比例的语种的识别结果为所述待识别图片的文字的识别有效结果。
CN201610157743.9A 2016-03-18 2016-03-18 文字识别方法和装置 Expired - Fee Related CN107203763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610157743.9A CN107203763B (zh) 2016-03-18 2016-03-18 文字识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610157743.9A CN107203763B (zh) 2016-03-18 2016-03-18 文字识别方法和装置

Publications (2)

Publication Number Publication Date
CN107203763A CN107203763A (zh) 2017-09-26
CN107203763B true CN107203763B (zh) 2020-03-06

Family

ID=59904263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610157743.9A Expired - Fee Related CN107203763B (zh) 2016-03-18 2016-03-18 文字识别方法和装置

Country Status (1)

Country Link
CN (1) CN107203763B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558875A (zh) * 2018-11-14 2019-04-02 广州同略信息科技有限公司 基于图像自动识别的方法、装置、终端及存储介质
CN111339787B (zh) * 2018-12-17 2023-09-19 北京嘀嘀无限科技发展有限公司 一种语种识别方法、装置、电子设备及存储介质
CN112883968B (zh) * 2021-02-24 2023-02-28 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883966B (zh) * 2021-02-24 2023-02-24 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883967B (zh) * 2021-02-24 2023-02-28 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571922A (zh) * 2008-05-04 2009-11-04 中兴通讯股份有限公司 一种用于移动终端自动化测试的文字识别工具及其方法
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN104156706A (zh) * 2014-08-12 2014-11-19 华北电力大学句容研究中心 一种基于光学字符识别技术的中文字符识别方法
CN104317847A (zh) * 2014-10-13 2015-01-28 孙伟力 一种识别网络文字信息的语种的方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090317003A1 (en) * 2008-06-22 2009-12-24 Andre Heilper Correcting segmentation errors in ocr

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571922A (zh) * 2008-05-04 2009-11-04 中兴通讯股份有限公司 一种用于移动终端自动化测试的文字识别工具及其方法
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN104156706A (zh) * 2014-08-12 2014-11-19 华北电力大学句容研究中心 一种基于光学字符识别技术的中文字符识别方法
CN104317847A (zh) * 2014-10-13 2015-01-28 孙伟力 一种识别网络文字信息的语种的方法及***

Also Published As

Publication number Publication date
CN107203763A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN107203763B (zh) 文字识别方法和装置
CN112990191B (zh) 一种基于字幕视频的镜头边界检测与关键帧提取方法
CN111476067B (zh) 图像的文字识别方法、装置、电子设备及可读存储介质
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
JP4626886B2 (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
CN103955660B (zh) 一种批量二维码图像识别方法
CN106937114B (zh) 用于对视频场景切换进行检测的方法和装置
US9965695B1 (en) Document image binarization method based on content type separation
US9613299B2 (en) Method of identifying pattern training need during verification of recognized text
CN109766883B (zh) 基于深度神经网络的网络视频字幕的快速提取方法
US9235779B2 (en) Method and apparatus for recognizing a character based on a photographed image
CN107480670A (zh) 一种字幕检测及提取的方法及设备
CN111753673A (zh) 一种视频数据的检测方法和装置
CN111901594B (zh) 面向视觉分析任务的图像编码方法、电子设备及介质
CN111541939B (zh) 一种视频拆分方法、装置、电子设备及存储介质
CN113705300A (zh) 音转文训练语料的获取方法、装置、设备以及存储介质
CN110662080B (zh) 面向机器的通用编码方法
CN113361462B (zh) 视频处理和字幕检测模型的方法及装置
CN113435438B (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
US11113537B2 (en) Image detection using multiple detection processes
CN111814508B (zh) 一种文字识别方法、***及设备
Asif et al. A novel hybrid method for text detection and extraction from news videos
CN115396690A (zh) 音频与文本组合方法、装置、电子设备及存储介质
CN108881950B (zh) 一种视频处理的方法和装置
CN113343986A (zh) 字幕时间区间确定方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220624

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200306

CF01 Termination of patent right due to non-payment of annual fee