JP2014191825A - Image processing method and image processing device - Google Patents

Image processing method and image processing device Download PDF

Info

Publication number
JP2014191825A
JP2014191825A JP2014033893A JP2014033893A JP2014191825A JP 2014191825 A JP2014191825 A JP 2014191825A JP 2014033893 A JP2014033893 A JP 2014033893A JP 2014033893 A JP2014033893 A JP 2014033893A JP 2014191825 A JP2014191825 A JP 2014191825A
Authority
JP
Japan
Prior art keywords
image processing
recognition
stroke
recognizing
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2014033893A
Other languages
Japanese (ja)
Inventor
Liu An Wang
留安 汪
Shun Son
俊 孫
Yuan He
源 何
Wei Fan
ファヌ・ウエイ
Yutaka Katsuyama
裕 勝山
Yoshinobu Hotta
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2014191825A publication Critical patent/JP2014191825A/en
Ceased legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an image processing method and an image processing device.SOLUTION: The method includes recognizing a predetermined symbol from a text area of an image, removing a part corresponding to the recognized predetermined symbol from the text area, performing optical character recognition (OCR) on the text area from which the corresponding part is removed, and adding the recognized predetermined symbol to a corresponding position in a result of the optical character recognition.

Description

本発明は、画像処理に関し、より具体的には、画像に対して光学文字認識(OCR:Optical Character Recognition)を行う方法及び装置に関する。   The present invention relates to image processing, and more specifically, to a method and apparatus for performing optical character recognition (OCR) on an image.

OCRは、画像内の文字の認識に広く使われている。通常、OCRは、単一の文字集合又は言語種別の文字を認識するように設計されており、文字とある記号とが混合する対象を認識する場合、通常のOCR方法は、十分な認識正確性を得にくい。文字と記号とが混合することは、例えば統一資源ロケータ(URL:Uniform Resource Locator)、電子メールアドレス、数学の公式、プログラムのコード等を含む。一方、特定の認識対象の特徴について、認識結果に対してエラー訂正を行うことで認識の正確性を向上する方法がある。例えば、認識対象の有する特定の文法規則又は履歴情報に基づいて認識結果に対してエラー訂正を行う方法がある。   OCR is widely used for recognition of characters in images. Usually, OCR is designed to recognize characters of a single character set or language type, and when recognizing objects where a character and a symbol are mixed, the normal OCR method has sufficient recognition accuracy. Hard to get. The mixing of characters and symbols includes, for example, a uniform resource locator (URL), an e-mail address, a mathematical formula, a program code, and the like. On the other hand, there is a method for improving the accuracy of recognition by performing error correction on the recognition result for a feature of a specific recognition target. For example, there is a method of performing error correction on the recognition result based on specific grammatical rules or history information possessed by the recognition target.

画像処理方法及び画像処理装置を提供することを目的とする。   An object is to provide an image processing method and an image processing apparatus.

以下、本発明の主旨を理解させるため、本発明を簡単に説明する。なお、これらの説明は、本発明を限定するものではない。以下の説明は、本発明の肝心又は重要な部分を決定するものではなく、本発明の範囲を限定することではない。その目的は、その後の詳しい説明の前文として、ある概念を簡単に説明するものに過ぎない。   Hereinafter, the present invention will be briefly described for the purpose of understanding the gist of the present invention. Note that these descriptions do not limit the present invention. The following description does not determine the essential or important part of the present invention and is not intended to limit the scope of the present invention. Its purpose is merely to briefly explain a concept as a preface to the detailed description that follows.

本発明の一の態様では、画像のテキスト領域から所定の記号を認識するステップと、前記テキスト領域から、前記認識された所定の記号に対応する部分を除去するステップと、前記対応する部分が除去された前記テキスト領域に対して、光学文字認識(OCR)を行うステップと、前記光学文字認識の結果内の対応の位置に、前記認識された所定の記号を追加するステップと、を含む、画像処理方法を提供する。   In one aspect of the present invention, a step of recognizing a predetermined symbol from a text region of an image, a step of removing a portion corresponding to the recognized predetermined symbol from the text region, and a step of removing the corresponding portion Performing optical character recognition (OCR) on the recognized text region, and adding the recognized predetermined symbol at a corresponding position in the result of the optical character recognition. A processing method is provided.

この態様では、前記所定の記号は、統一資源ロケータ(URL)に用いられる区切り記号を含む。   In this aspect, the predetermined symbol includes a delimiter used for a unified resource locator (URL).

この態様では、前記所定の記号は、ドットを含み、前記所定の記号を認識するステップにおいて、下記の基準(a)〜(c)に基づいて、前記テキスト領域内の字画をドットとして認識し、(a)前記テキスト領域内の他の字画に対する前記字画の相対的なサイズは、所定の基準よりも小さく、(b)前記字画は、前記テキスト領域の対応のテキスト行の中心線の下に位置し、且つ(c)前記字画の外接の矩形領域内の背景画素に対する前景画素の数の比は、所定の閾値よりも大きい。   In this aspect, the predetermined symbol includes a dot, and in the step of recognizing the predetermined symbol, the stroke in the text region is recognized as a dot based on the following criteria (a) to (c): (A) the relative size of the stroke relative to other strokes in the text area is smaller than a predetermined reference; and (b) the stroke is located below the center line of the corresponding text line in the text area. And (c) the ratio of the number of foreground pixels to the background pixels in the bounding rectangular area of the stroke is greater than a predetermined threshold.

この態様では、前記所定の記号は、スラッシュを含み、前記所定の記号を認識するステップにおいて、下記の基準(d)、(e)に基づいて、前記テキスト領域内の字画をスラッシュとして認識し、(d)前記字画の外接の矩形領域を複数のブロックに区切る場合、前記矩形領域の左下から右上への対角線のブロックは前景画素を含み、前記矩形領域の左上角及び右下角のブロックは前景画素を含まず、且つ(e)前記字画の傾斜角度は、所定の範囲内にある。   In this aspect, the predetermined symbol includes a slash, and in the step of recognizing the predetermined symbol, the stroke in the text area is recognized as a slash based on the following criteria (d) and (e): (D) When the circumscribed rectangular area of the stroke is divided into a plurality of blocks, the diagonal block from the lower left to the upper right of the rectangular area includes foreground pixels, and the upper left corner and lower right corner blocks of the rectangular area are foreground pixels. (E) The stroke angle of the stroke is within a predetermined range.

この態様では、主成分分析により、前記字画の傾斜角度を決定する。   In this aspect, the inclination angle of the stroke is determined by principal component analysis.

この態様では、前記傾斜角度の所定の範囲は、対応のテキスト行の横軸方向に対する傾斜角度が30°〜90°にある。   In this aspect, the predetermined range of the inclination angle is that the inclination angle of the corresponding text line with respect to the horizontal axis direction is 30 ° to 90 °.

この態様では、所定の文法規則に基づいて、前記光学文字認識の結果に前記所定の記号を追加することで得られた文字列から、統一資源ロケータを認識するステップ、さらに含む。   In this aspect, the method further includes a step of recognizing a unified resource locator from a character string obtained by adding the predetermined symbol to the optical character recognition result based on a predetermined grammar rule.

この態様では、前記統一資源ロケータを認識するステップにおいて、統一のコーディングフォーマットで前記文字列を表す。   In this aspect, in the step of recognizing the uniform resource locator, the character string is represented in a uniform coding format.

この態様では、前記統一のコーディングフォーマットは、ASCIIを含む。   In this aspect, the uniform coding format includes ASCII.

この態様では、前記統一資源ロケータを認識するステップにおいて、前記文字列内の英文字を小文字に変換する。   In this aspect, in the step of recognizing the unified resource locator, English characters in the character string are converted to lower case.

この態様では、前記統一資源ロケータを認識するステップにおいて、統一資源ロケータに使用禁止の記号を含む文字列を除去する。   In this aspect, in the step of recognizing the unified resource locator, a character string including a use prohibition symbol is removed from the unified resource locator.

この態様では、前記統一資源ロケータを認識するステップにおいて、前記文字列に「www」が含まれる場合、「www」の前の部分を除去する、或いは、前記文字列に「//」が含まれる場合、「//」及びその前の部分を除去する。   In this aspect, in the step of recognizing the uniform resource locator, when “www” is included in the character string, the part before “www” is removed, or “//” is included in the character string. If so, remove "//" and the part before it.

この態様では、前記統一資源ロケータを認識するステップにおいて、スペース及び/又は隣接する文字間の距離に基づいて、前記文字列を分割する。   In this aspect, in the step of recognizing the uniform resource locator, the character string is divided based on a space and / or a distance between adjacent characters.

この態様では、前記統一資源ロケータを認識するステップにおいて、前記分割された文字列から、統一資源ロケータの通常のキーワードを含む文字列部分を候補統一資源ロケータとして選択する。   In this aspect, in the step of recognizing the uniform resource locator, a character string portion including a normal keyword of the uniform resource locator is selected as a candidate uniform resource locator from the divided character strings.

この態様では、前記統一資源ロケータを認識するステップにおいて、統一資源ロケータの通常の組み合わせの規則に基づいて、前記光学文字認識の結果内の認識漏れのドットを推定し、追加する。   In this aspect, in the step of recognizing the unified resource locator, recognition missing dots in the result of the optical character recognition are estimated and added based on a rule of a normal combination of the unified resource locators.

この態様では、前記統一資源ロケータを認識するステップにおいて、位置及び形状の特徴に基づいて、前記光学文字認識の結果内のドット、ハイフン及びアンダーバーを検証する。   In this aspect, in the step of recognizing the unified resource locator, dots, hyphens, and underbars in the optical character recognition result are verified based on the position and shape characteristics.

この態様では、前記統一資源ロケータを認識するステップにおいて、統一資源ロケータの辞書とマッピングすることで、前記光学文字認識の結果に含まれる統一資源ロケータを決定する。   In this aspect, in the step of recognizing the unified resource locator, the unified resource locator included in the optical character recognition result is determined by mapping with a unified resource locator dictionary.

この態様では、編集距離に基づいて前記マッピングの信頼水準を決定する。   In this aspect, the mapping confidence level is determined based on the edit distance.

この態様では、前記画像は、映像のフレームを含む。   In this aspect, the image includes a video frame.

本発明の他の態様では、画像のテキスト領域から所定の記号を認識する記号認識手段と、前記テキスト領域から、前記認識された所定の記号に対応する部分を除去する記号除去手段と、前記対応する部分が除去された前記テキスト領域に対して、光学文字認識(OCR)を行う光学文字認識手段と、前記光学文字認識の結果内の対応の位置に、前記認識された所定の記号を追加する記号追加手段と、を含む、画像処理装置を提供する。   In another aspect of the present invention, symbol recognition means for recognizing a predetermined symbol from a text area of an image, symbol removal means for removing a part corresponding to the recognized predetermined symbol from the text area, and the correspondence Optical character recognition means for performing optical character recognition (OCR) on the text region from which the portion to be removed is removed, and the recognized predetermined symbols are added to corresponding positions in the result of the optical character recognition. An image processing apparatus including a symbol adding unit is provided.

本発明は、図面を参照しながら下記説明するものにより、よりよく理解できる。図面における素子は、比例に応じて描くものではなく、本発明の原理を示すものである。本発明のある部分を示すため、図面における対応部分が拡大又は縮小されてもよい。本発明のある図面又はある実施形態に記載された構成要件及び特徴は、一つ又は多くの他の図面又は実施形態に示された構成要件及び特徴と組み合わせてもよい。また、図面において、類似の符号は、いくつの図面における対応の部材を示してもよく、複数の実施形態に用いられる対応の部材を示してもよい。
本発明の実施例に係る画像処理方法の流れを示すフローチャート。 本発明の実施例に係る画像処理方法によるスラッシュ記号の認識を説明するための模式図。 本発明の他の実施例に係る画像処理方法の流れを示すフローチャート。 URLを認識するサブプロセスを示すフローチャート。 URLを認識するサブプロセスを示すフローチャート。 URLを認識するサブプロセスを示すフローチャート。 URLを認識するサブプロセスを示すフローチャート。 本発明の実施例に係る画像処理装置の構成を示すブロック図。 記号認識部の構成を示すブロック図。 本発明の他の実施例に係る画像処理装置の構成を示すブロック図。 URL認識部の構成を示すブロック図。 URL認識部の構成を示すブロック図。 URL認識部の構成を示すブロック図。 URL認識部の構成を示すブロック図。 本発明に係る方法及び装置を実現するコンピュータの構成の一例を示すブロック図。
The present invention can be better understood by the following description with reference to the drawings. Elements in the drawings are not drawn to scale, but illustrate the principles of the invention. Corresponding parts in the drawings may be enlarged or reduced to show certain parts of the invention. Elements and features described in one drawing or embodiment of the invention may be combined with elements and features shown in one or many other drawings or embodiments. In the drawings, similar reference numerals may indicate corresponding members in any number of drawings, and may indicate corresponding members used in a plurality of embodiments.
3 is a flowchart showing a flow of an image processing method according to an embodiment of the present invention. The schematic diagram for demonstrating recognition of the slash sign by the image processing method which concerns on the Example of this invention. 9 is a flowchart showing a flow of an image processing method according to another embodiment of the present invention. The flowchart which shows the sub process which recognizes URL. The flowchart which shows the sub process which recognizes URL. The flowchart which shows the sub process which recognizes URL. The flowchart which shows the sub process which recognizes URL. 1 is a block diagram illustrating a configuration of an image processing apparatus according to an embodiment of the present invention. The block diagram which shows the structure of a symbol recognition part. The block diagram which shows the structure of the image processing apparatus which concerns on the other Example of this invention. The block diagram which shows the structure of a URL recognition part. The block diagram which shows the structure of a URL recognition part. The block diagram which shows the structure of a URL recognition part. The block diagram which shows the structure of a URL recognition part. 1 is a block diagram showing an example of the configuration of a computer that implements a method and apparatus according to the present invention.

以下、図面を参照しながら本発明の実施例を説明する。本発明の1つの図面又は1つの実施形態に説明されている要素及び特徴は、1つ又は複数の他の図面又は実施形態に示されている要素及び特徴と組み合わせてもよい。なお、説明の便宜上、図面及び発明の詳細な説明では、本発明と関係のない、当業者にとって既知のユニット及び処理の説明及び記述が省略される。   Embodiments of the present invention will be described below with reference to the drawings. Elements and features described in one drawing or embodiment of the invention may be combined with elements and features shown in one or more other drawings or embodiments. For convenience of explanation, in the drawings and detailed description of the invention, descriptions and descriptions of units and processes that are not related to the present invention and are known to those skilled in the art are omitted.

図1を参照しながら、本発明の実施例に係る画像処理方法の流れを説明する。   The flow of the image processing method according to the embodiment of the present invention will be described with reference to FIG.

本発明の実施例に係る画像処理方法の処理対象は、静的な画像(例えばネットワーク上のピクチャ又はユーザにより撮影された画像など)であってもよいし、映像(例えばテレビ、ネットワーク映像など)のフレームであってもよいが、これらに限定されない。また、画像は、カラー画像、グレースケール画像、二値画像などを含んでもよいが、これらに限定されない。また、対応の光学文字認識の要求を満たすため、必要に応じて、本技術分野の多種の従来方法により、画像に対して色、解像度などを調整或いは変換してもよい。また、多種の従来方法により、画像内のテキスト領域を認識してもよく、その説明はここに省略される。   The processing target of the image processing method according to the embodiment of the present invention may be a static image (for example, a picture on a network or an image taken by a user) or a video (for example, a television, a network video, or the like). However, the present invention is not limited to these. The image may include a color image, a gray scale image, a binary image, and the like, but is not limited thereto. Further, in order to satisfy the requirement for corresponding optical character recognition, the color, resolution, and the like may be adjusted or converted with respect to the image by various conventional methods in this technical field as necessary. In addition, the text region in the image may be recognized by various conventional methods, and the description thereof is omitted here.

図1に示すように、ステップS110において、画像のテキスト領域から所定の記号を認識する。   As shown in FIG. 1, in step S110, a predetermined symbol is recognized from the text area of the image.

異なる用途に応じて、認識される具体的な所定の記号を設定してもよい。例えば、本発明の1つの具体的な実施例に係る画像処理方法では、画像に含まれるURLに対して光学文字認識を行ってもよい。画像又は映像のフレームに基づくURL検知又は認識は、光学文字認識の重要な技術であり、この技術によって、テレビ又は広告の視聴者へ画面に表示されたウェブサイトのリンクのURLを提供でき、視聴者が手動で入力することなくウェブサイトを簡単にアクセスすることができる。ヒューマンコンピュータインタラクションの方法として、重要なのは、光学文字システムを用いて画像内のURLを速く、正確に認識することである。URLには文字と記号とが混合するものを含んでいるため、光学文字システムにより出力されたURLの誤りを訂正するのは、URL認識の1つの難点である。   A specific predetermined symbol to be recognized may be set according to different uses. For example, in the image processing method according to one specific embodiment of the present invention, optical character recognition may be performed on a URL included in an image. URL detection or recognition based on image or video frames is an important technique for optical character recognition, which can provide TV or advertisement viewers with the URL of a website link displayed on the screen. Websites can be easily accessed without manual entry by the user. An important method of human computer interaction is to quickly and accurately recognize URLs in images using an optical character system. Since URLs contain a mixture of characters and symbols, correcting URL errors output by an optical character system is one difficulty in URL recognition.

これに対し、本発明の1つの実施例では、認識される所定の記号は、URLに用いられる区切り記号、例えば:「-」、「_」、「.」、「〜」、「!」、「*」、「'」、「(」、「)」、「;」、「:」、「@」、「&」、「=」、「+」、「$」、「,」、「/」、「?」、「%」、「#」、「[」、「]」を含む。なお、本発明はこれに限定されず、他の文字と記号とが混合する対象に対して光学文字認識を行う場合、ステップS110において認識される所定の記号を設定してもよい。例えば、画像における数学の公式又はプログラムのコードに対して光学文字認識を行う場合、所定の数学記号又はプログラムコード記号を所定の記号としてもよい。以下、URLの光学文字認識を一例として、本発明の実施例を説明する。   On the other hand, in one embodiment of the present invention, the predetermined symbol to be recognized is a delimiter used in the URL, for example: “-”, “_”, “.”, “˜”, “!”, "*", "'", "(", ")", ";", ":", "@", "&", "=", "+", "$", ",", "/ ","?","%","#","[","]"including. In addition, this invention is not limited to this, When performing optical character recognition with respect to the object which another character and a symbol mix, you may set the predetermined symbol recognized in step S110. For example, when optical character recognition is performed on a mathematical formula or program code in an image, a predetermined mathematical symbol or program code symbol may be used as the predetermined symbol. Hereinafter, an embodiment of the present invention will be described by taking optical character recognition of URL as an example.

テレビ広告又は印刷広告に含まれるURLは、視聴者に覚えさせる、或いはアクセスさせるため、通常、簡単である。このため、通常、URLによく現れる記号は、URL区切り記号のドット「.」及びスラッシュ「/」である。   URLs included in television or print advertisements are usually simple because they allow viewers to remember or access. For this reason, symbols that often appear in URLs are the URL delimiter dot “.” And slash “/”.

従って、1つの実施例では、画像のテキスト領域から所定の記号を認識するステップは、所定の基準に基づいてテキスト領域内の字画をドット「.」として認識すること、及び/又は所定の基準に基づいてテキスト領域内の字画をスラッシュ「/」として認識することを含んでもよい。   Thus, in one embodiment, the step of recognizing a predetermined symbol from the text region of the image is to recognize a stroke in the text region as a dot “.” Based on a predetermined criterion and / or to meet the predetermined criterion. Recognizing a stroke in the text area based on a slash “/”.

ここで、「字画」は、画像の前景画素の所定の大きさの範囲内の連通部(connected component)であってもよい。例えば、二値画像について、所定の大きさの範囲内の黒画素の連通部を字画として決定してもよく、グレースケール画像及びカラー画像について、グレー又はカラーの所定の範囲内の画素を前景画素として設定し、所定の大きさの範囲内の前景画素の連通部を字画として決定してもよい。また、連通部の大きさは、絶対的な大きさ(例えば含まれる画素の数)又は相対的な大きさ(例えば画像サイズ又は他の連通部のサイズに対して)であってもよい。画像内の字画を認識する方法が多種存在するが、その説明はここに省略される。   Here, the “stroke” may be a connected component within a predetermined size range of the foreground pixels of the image. For example, for a binary image, a communication portion of black pixels within a predetermined size range may be determined as a stroke. For grayscale images and color images, pixels within a predetermined range of gray or color may be determined as foreground pixels. The foreground pixel communication portion within a predetermined size range may be determined as a stroke. Further, the size of the communication portion may be an absolute size (for example, the number of included pixels) or a relative size (for example, with respect to the image size or the size of another communication portion). There are various methods for recognizing strokes in an image, but the description thereof is omitted here.

ドットを認識するための所定の基準は、例えば(a)テキスト領域内の他の字画に対する該字画の相対的なサイズは、所定の基準よりも小さいこと、(b)該字画は、テキスト領域の対応のテキスト行の中心線の下に位置すること、及び(c)該字画の外接の矩形領域内の背景画素に対する前景画素の数の比は、所定の閾値よりも大きいこと、を含んでもよい。   The predetermined criteria for recognizing the dots are, for example: (a) that the relative size of the stroke relative to other strokes in the text area is smaller than the predetermined criteria; (b) the stroke is Located below the centerline of the corresponding text line, and (c) the ratio of the number of foreground pixels to the background pixels in the bounding rectangular area of the stroke is greater than a predetermined threshold. .

ここで、条件(a)について、該相対的なサイズの所定の基準は、例えばテキスト領域内の他の字画の平均の大きさに対する該字画の大きさ(例えば、含まれる画素の数)の比が所定の閾値よりも小さいことであってもよいが、これに限定されない。   Here, for the condition (a), the predetermined standard of the relative size is, for example, the ratio of the stroke size (for example, the number of pixels included) to the average size of other strokes in the text area. May be smaller than a predetermined threshold, but is not limited to this.

条件(b)について、従来の方法(例えば画素投影、字画投影など)を用いてテキスト領域内のテキスト行を決定して、該字画がそのテキスト行の中心線の下に位置するか否かを決定してもよい。また、上下方向の判断について、例えば、画像のデフォルト方向を参照してもよいし、従来の方法を用いて画像の方向を判断して上下の位置関係を決定してもよい。テキスト行を認識する方法及び画像の方向を判断する方法が多くあるから、その説明はここに省略される。   For condition (b), a conventional method (eg pixel projection, stroke projection, etc.) is used to determine the text line in the text area and whether the stroke is below the center line of the text line. You may decide. For the determination of the vertical direction, for example, the default direction of the image may be referred to, or the positional relationship between the vertical direction may be determined by determining the direction of the image using a conventional method. Since there are many methods for recognizing text lines and determining the direction of an image, the description thereof is omitted here.

条件(c)について、ドットの形状特徴により、該字画の外接の矩形領域は基本的に前景画素により占められているため、背景画素に対する前景画素の数の比が所定の閾値よりも大きい場合のみ、ドットとして決定する。   For condition (c), the circumscribing rectangular area of the stroke is basically occupied by foreground pixels due to the shape characteristics of the dots, so only when the ratio of the number of foreground pixels to the background pixels is greater than a predetermined threshold. Determine as a dot.

また、上記の条件以外に、ドット記号を決定する際に、他の要素、例えば字画の外接矩形の幅に対する長さの比が1に十分に接近することなどをさらに考慮してもよい。   In addition to the above-mentioned conditions, when determining the dot symbol, it may be further considered that the ratio of the length to the width of the circumscribed rectangle of the stroke is sufficiently close to 1, for example.

スラッシュを認識するための所定の基準は、(d)該字画の外接の矩形領域を複数のブロックに区切る場合、矩形領域の左下から右上への対角線のブロックは前景画素を含み、左上角及び右下角のブロックは前景画素を含まないこと、及び(e)字画の傾斜角度は、所定の範囲内にあること、を含んでもよい。   The predetermined criteria for recognizing the slash are: (d) When the circumscribed rectangular area of the stroke is divided into a plurality of blocks, the diagonal block from the lower left to the upper right of the rectangular area includes the foreground pixels, the upper left corner and the right The lower corner block may include no foreground pixels and (e) the stroke angle of the stroke is within a predetermined range.

条件(d)について、図2に示すように、字画の外接の矩形領域を9のブロックに区切る場合、左下から右上への対角線上のブロック、即ちブロック7、9及び3は、前景画素(黒)を含み、左上角及び右下角のブロック、即ちブロック1及び5は、前景画素を含まないため、スラッシュの判断条件を満たしている。なお、ブロックの分割方法は、図2に示されている具体的な方式に限定されない。   With respect to the condition (d), as shown in FIG. 2, when the circumscribed rectangular area of the stroke is divided into nine blocks, the blocks on the diagonal line from the lower left to the upper right, that is, the blocks 7, 9 and 3 are foreground pixels (black ) And the blocks in the upper left corner and the lower right corner, that is, blocks 1 and 5 do not include the foreground pixels, and therefore satisfy the slash determination condition. The block dividing method is not limited to the specific method shown in FIG.

条件(e)について、従来の方法、例えば主成分分析を用いて、字画の傾斜角度を決定してもよい。1つの具体的な実施例では、傾斜角度の所定の範囲は、対応のテキスト行の横軸方向(例えば図2に示しているX軸方向)に対する傾斜角度(例えば図2におけるα)が30°〜90°にあってもよい。ここで、テキスト行の横軸方向は、テキスト行において文字が順次に配列する方向を指す。上述したように、テキスト行を認識する方法は多種あるため、それに応じてテキスト行の横軸方向を決定することができる。   For condition (e), the stroke angle of the stroke may be determined using a conventional method, for example, principal component analysis. In one specific example, the predetermined range of the tilt angle is such that the tilt angle (for example, α in FIG. 2) with respect to the horizontal axis direction (for example, the X-axis direction shown in FIG. 2) of the corresponding text line is 30 °. It may be at ~ 90 °. Here, the horizontal axis direction of the text line indicates a direction in which characters are sequentially arranged in the text line. As described above, since there are various methods for recognizing a text line, the horizontal axis direction of the text line can be determined accordingly.

以上、URLによく使われている記号を例として、本発明の実施例に係る画像処理方法の所定の記号を認識するステップS110を説明しているが、他の認識対象(例えば電子メールアドレス、数学の公式、プログラムのコードなど)に応じて、異なる所定の記号及びその認識方法を決定してもよい。   As described above, the step S110 for recognizing a predetermined symbol of the image processing method according to the embodiment of the present invention has been described using a symbol often used in the URL as an example, but other recognition targets (for example, an e-mail address, Different predetermined symbols and their recognition methods may be determined according to mathematical formulas, program codes, etc.

図1に戻り、所定の記号を認識した場合、テキスト領域から、認識された所定の記号に対応する部分を除去する(S120)。例えば、所定の記号の前景画素を背景画素に変更する。   Returning to FIG. 1, when a predetermined symbol is recognized, a portion corresponding to the recognized predetermined symbol is removed from the text area (S120). For example, the foreground pixel of a predetermined symbol is changed to a background pixel.

次に、該所定の記号に対応する部分が除去されたテキスト領域に対して、光学文字認識(OCR)を行う(S130)。従来の光学文字認識方法を用いてもよい。   Next, optical character recognition (OCR) is performed on the text region from which the portion corresponding to the predetermined symbol has been removed (S130). A conventional optical character recognition method may be used.

次に、ステップS130の光学文字認識の結果内の対応の位置に、ステップS110において認識された所定の記号を追加する。即ち、テキスト行における元の位置となるように、認識された所定の記号を光学文字認識の結果に追加する。なお、所定の記号を元の位置となるように光学文字認識の結果に追加するため、多種の方法を用いて所定の記号の位置を決定してもよい。例えば、光学文字認識の結果には、各認識された文字の画像内の位置を含んでもよく、光学文字認識の結果内の位置情報を参照して、認識された所定の記号を文字列内の正確な位置に追加してもよい。   Next, the predetermined symbol recognized in step S110 is added to the corresponding position in the result of optical character recognition in step S130. That is, the recognized predetermined symbol is added to the result of optical character recognition so as to be the original position in the text line. In addition, in order to add a predetermined symbol to the result of optical character recognition so as to be the original position, the position of the predetermined symbol may be determined using various methods. For example, the result of optical character recognition may include the position in the image of each recognized character, and by referring to the position information in the result of optical character recognition, the recognized predetermined symbol in the character string It may be added at an accurate position.

上記本発明の実施例に係る画像処理方法によれば、所定の記号を個別に認識して、該所定の記号が除去されたテキスト領域に対して光学文字認識を行うことで、光学文字認識の符号と文字との混合による認識誤りを低減でき、最終的な認識結果の正確率を向上できる。また、所定の記号を他の文字と共に光学文字認識する方法に比べて、特定の対象に対して所定の記号を個別に認識する方法は高い計算効率を有する。   According to the image processing method according to the embodiment of the present invention, optical character recognition is performed by individually recognizing predetermined symbols and performing optical character recognition on the text area from which the predetermined symbols have been removed. Recognition errors due to mixing of codes and characters can be reduced, and the accuracy rate of the final recognition result can be improved. In addition, the method of individually recognizing a predetermined symbol for a specific object has higher calculation efficiency than the method of recognizing a predetermined symbol together with other characters.

続いて、図3を参照しながら、本発明の実施例に係る画像処理方法を説明する。ステップS310乃至S340は、図1に説明されているステップS110乃至S140と類似し、特に、ステップS310において認識された所定の記号はURLに用いられる区切り記号を含む。ステップS350において、ステップS340において光学文字認識の結果に所定の記号を追加することで得られた文字列に基づいて、URLを認識する。多種のURL認識方法、例えば所定の文法規則に基づくURLの認識方法を用いてもよい。   Next, an image processing method according to an embodiment of the present invention will be described with reference to FIG. Steps S310 to S340 are similar to steps S110 to S140 described in FIG. 1, and in particular, the predetermined symbol recognized in step S310 includes a delimiter used in the URL. In step S350, URL is recognized based on the character string obtained by adding a predetermined symbol to the result of optical character recognition in step S340. Various URL recognition methods, for example, URL recognition methods based on predetermined grammatical rules may be used.

本発明の実施例に係る画像処理方法によれば、正確性の高い文字認識結果に基づいてURLを認識することで、記号と文字との重なり、接着などによるホストネームの誤りを回避でき、従来のURL認識方法に比べて、URL認識の正確性を向上できる。   According to the image processing method according to the embodiment of the present invention, by recognizing a URL based on a highly accurate character recognition result, it is possible to avoid host name errors due to overlap of symbols and characters, adhesion, and the like. Compared with the URL recognition method, the accuracy of URL recognition can be improved.

また、本発明の実施例では、認識結果の文字列からURLを認識するステップは、図4乃至図7に示すサブプロセスを含む、或いは適切に組み合わせてもよい。   In the embodiment of the present invention, the step of recognizing the URL from the character string of the recognition result may include the subprocesses shown in FIGS. 4 to 7 or may be appropriately combined.

図4に示すように、本発明の実施例では、URLを認識するステップにおいて、後続の処理を行うように、統一のコーディングフォーマット(例えばASCII)で文字列を表してもよい。なお、光学文字認識の出力自身は統一のコーディングフォーマットを有する場合、統一のコーディングフォーマットの処理を省略してもよい。   As shown in FIG. 4, in the embodiment of the present invention, in the step of recognizing a URL, a character string may be represented in a unified coding format (for example, ASCII) so that subsequent processing is performed. If the optical character recognition output itself has a uniform coding format, the processing of the uniform coding format may be omitted.

好適には、フォーマットを統一して、後続の検索又はマッピング等の処理を行うように、文字列内の英文字を小文字のフォーマットに統一してもよい(S420)。なお、このステップの処理は、後続の検索又はマッピングのプロセスにおいて行われてもよい。   Preferably, the English characters in the character string may be unified into a lower case format so that the format is unified and subsequent processing such as search or mapping is performed (S420). Note that the processing of this step may be performed in a subsequent search or mapping process.

上述したように、URLに使用可能な記号は、「-」、「_」、「.」、「〜」、「!」、「*」、「'」、「(」、「)」、「;」、「:」、「@」、「&」、「=」、「+」、「$」、「,」、「/」、「?」、「%」、「#」、「[」、「]」を含んでもよい。それに応じて、後続の認識処理の対象の範囲を縮小するように、これらの有効記号以外の記号(即ち、URLに使用禁止の記号)を含む文字列を非URL文字列と判断し、除去してもよい(S430)。   As described above, the symbols that can be used in the URL are “-”, “_”, “.”, “˜”, “!”, “*”, “′”, “(”, “)”, “ ; ”,“: ”,“ @ ”,“ & ”,“ = ”,“ + ”,“ $ ”,“, ”,“ / ”,“? ”,“% ”,“ # ”,“ [” , “]” May be included. Accordingly, a character string including a symbol other than these valid symbols (that is, a symbol prohibited for use in a URL) is determined as a non-URL character string and removed so as to reduce the range of the target of subsequent recognition processing. (S430).

通常、URLは特定の文字列、例えば文字列「www」又は「http://」をはじめとする。また、「www」及びその後の部分、又は「http://」の後の部分は、URLのメインの部分として、有効に接続し、アクセスするようにユーザに提供する。しかし、「www」の前の部分、又は「http://」及びその前の部分は、URLに属しない部分としてもよい。本発明の実施例では、文字列に「www」が含まれる場合、「www」の前の部分を除去し、(S440〜S450)、且つ/或いは、文字列に「//」が含まれる場合、「//」及びその前の部分を除去する(S460〜S470)。   Usually, the URL includes a specific character string, for example, the character string “www” or “http: //”. In addition, “www” and the subsequent part or the part after “http: //” are provided as a main part of the URL so that the user can effectively connect and access. However, the part before “www” or “http: //” and the part before it may be a part that does not belong to the URL. In the embodiment of the present invention, when “www” is included in the character string, the part before “www” is removed (S440 to S450), and / or “//” is included in the character string. , “//” and the preceding part are removed (S460 to S470).

なお、説明の便宜上、同一のフローチャートにS410乃至S470が示されている。なお、上述したように、そのうちのあるステップを省略する、或いはこららのステップ又はその組み合わせを個別に行ってもよい。   For convenience of explanation, S410 to S470 are shown in the same flowchart. As described above, certain steps may be omitted, or these steps or combinations thereof may be performed individually.

図5に示すように、本発明の実施例では、統一資源ロケータを認識するステップにおいて、文字列に含まれるスペース及び/又は隣接する文字間の距離に基づいて、文字列を分割してもよい(S510)。   As shown in FIG. 5, in the embodiment of the present invention, in the step of recognizing the unified resource locator, the character string may be divided based on the space included in the character string and / or the distance between adjacent characters. (S510).

ステップS510において、光学文字認識の結果内のスペース、画像に基づいて得られた字画間の距離、又は光学文字認識の結果内のスペース及び画像に基づいて得られた字画間の距離両者に基づいて、文字列を複数のセグメントに分割してもよい。   In step S510, based on both the space in the result of optical character recognition, the distance between strokes obtained based on the image, or the distance in the result of optical character recognition and the distance between strokes obtained based on the image. The character string may be divided into a plurality of segments.

URLの文法特徴によれば、URLにはスペースが含まれない。このため、文字列を分割した後、潜在するURLがある文字列のセグメントに存在する可能性がある。例えば、認識された文字列が「visit us.fujitsu.com/computers」である場合、スペースによりそれを2つの文字列のセグメント「visit」と「us.fujitsu.com/computers」に分割し、後続のステップにおいて候補URLのセグメントとして選択する、或いは非URLのセグメントとして除去してもよい。   According to the URL grammatical feature, the URL does not include spaces. For this reason, after dividing a character string, there is a possibility that a latent URL exists in a segment of the character string. For example, if the recognized string is “visit us.fujitsu.com/computers”, it is divided into two string segments “visit” and “us.fujitsu.com/computers” by a space, followed by In this step, it may be selected as a candidate URL segment or removed as a non-URL segment.

スペースの決定について、光学文字認識の結果内のスペースを直接利用してもよいし、画像内の字画の間隔に基づいてスペースを個別に認識してもよい。或いは、これら2種類の方法を結合して利用してもよい。例えば、光学文字認識の結果内のスペースについて、画像内の対応位置の字画の間隔を検証し、字画の間隔が所定の基準に達成している場合、スペースが存在すると決定する。このような検証によれば、計算コストを増加することなく、スペース認識の正確性を控除できる。   Regarding the determination of the space, the space in the result of the optical character recognition may be directly used, or the space may be individually recognized based on the stroke interval in the image. Alternatively, these two methods may be combined and used. For example, with respect to the space in the result of optical character recognition, the stroke interval at the corresponding position in the image is verified, and if the stroke interval has reached a predetermined standard, it is determined that the space exists. According to such verification, the accuracy of space recognition can be subtracted without increasing the calculation cost.

なお、上記の図4に説明されているURLに使用禁止の記号基づいて文字列を除去するステップS430に用いられる使用禁止の記号は、スペースを含まない。また、上述したステップS430において文字列のレベルにより排除すべき対象を除去して後続の認識処理の範囲を縮小する処理は、スペース及び/又は距離に基づいて文字列を分割する処理(S510)の後で行われてもよい。URLに使用禁止の記号を含む文字列のセグメントを除去することで、文字列のセグメントのレベルにより排除すべき対象を除去でき、処理の正確性をさらに向上できる。   It should be noted that the use prohibition symbol used in step S430 for removing the character string based on the use prohibition symbol in the URL described in FIG. 4 does not include a space. Further, the process of removing the target to be excluded according to the character string level in step S430 and reducing the range of the subsequent recognition process is a process of dividing the character string based on the space and / or the distance (S510). It may be done later. By removing the character string segment including the use prohibition symbol in the URL, it is possible to remove the object to be excluded according to the character string segment level, thereby further improving the accuracy of the processing.

図5に示すように、URLを認識するステップにおいて、分割された文字列から、URLの通常のキーワードを含む文字列部分を候補統一資源ロケータとして選択してもよい(S520)。   As shown in FIG. 5, in the step of recognizing the URL, a character string portion including a normal keyword of the URL may be selected as a candidate unified resource locator from the divided character strings (S520).

例えば、URLの通常キーワードのライブラリに基づいて、文字列セグメントにライブラリ内のキーワードが含まれる場合、該文字列セグメントを候補URLと決定してもよい。キーワードは、URLによく使われているドメイン、例えば「.com」、「.net」、「.gov」、「.edu」、「.info」、「.cn」、「.us」、「.jp」、「.uk」などを含むが、これらに限定されない。   For example, when a keyword in a library is included in a character string segment based on a normal keyword library of URLs, the character string segment may be determined as a candidate URL. Keywords are often used in URLs, such as `` .com '', `` .net '', `` .gov '', `` .edu '', `` .info '', `` .cn '', `` .us '', `` .us ''. jp "," .uk ", etc., but not limited to.

なお、説明の便宜上、同一のフローチャートにステップS510及びS520を示している。なお、上述したように、これらのステップを個別に行ってもよいし、他の処理と組み合わせてもよい。   For convenience of explanation, steps S510 and S520 are shown in the same flowchart. As described above, these steps may be performed individually or may be combined with other processes.

また、本発明の実施例では、URLを認識するステップは、図6に示しているサブプロセスの1つ又は全部をさらに含んでもよい。   In the embodiment of the present invention, the step of recognizing the URL may further include one or all of the sub-processes shown in FIG.

ステップS610において、URLの通常の組み合わせの規則に基づいて、光学文字認識の結果内の認識漏れのドットを推定し、追加する。   In step S610, recognition missing dots in the result of optical character recognition are estimated and added based on the rule of a normal combination of URLs.

光学文字認識において、画像内のドット記号は、隣接する文字と結合するため、隣接する文字の一部と誤認され、得られた文字列からドットを見逃す可能性がある。これに対して、URLの構成特徴及び文法規則に基づいて、認識漏れのドットが存在するか否かを推定してもよい。例えば、候補文字列に上記列挙したURLの通常ドメインを含まが、「.」を含まない場合、認識漏れのドットが存在すると推定してもよい。また、画像内の推定された認識漏れのドットに対する位置について、該推定を検証するように、画像をさらに分析してもよい。   In the optical character recognition, the dot symbol in the image is combined with the adjacent character, so that it is mistaken as a part of the adjacent character, and the dot may be missed from the obtained character string. On the other hand, it may be estimated whether or not there is an unrecognized dot, based on the URL configuration characteristics and grammatical rules. For example, when the candidate character string includes the normal domains of the URLs listed above but does not include “.”, It may be estimated that there is a recognition failure dot. Also, the image may be further analyzed to verify the estimate for the position of the estimated recognition failure dot in the image.

また、URLを認識するステップにおいて、位置及び形状の特徴に基づいて、光学文字認識の結果内のドット、ハイフン及びアンダーバーを検証してもよい(S620)。例えば、光学文字認識の結果にドット「.」、ハイフン「-」、又はアンダーバー「_」が含まれる場合、文字認識の正確性をさらに向上するように、画像内の対応の字画の形状及び/又は位置に基づいて該光学文字認識の結果を検証してもよい。例えば、対応の字画の位置及び形状に基づいて、「.」と「-」を区別してもよいし、対応の字画の形状に基づいて、「.」と「_」を区別してもよいし、対応の字画の位置に基づいて、「-」と「_」を区別してもよい。   Further, in the step of recognizing the URL, dots, hyphens, and underbars in the result of optical character recognition may be verified based on the position and shape characteristics (S620). For example, if the result of optical character recognition includes a dot “.”, A hyphen “-”, or an underscore “_”, the shape of the corresponding stroke in the image and / or to improve the character recognition accuracy further. Alternatively, the result of optical character recognition may be verified based on the position. For example, “.” And “-” may be distinguished based on the position and shape of the corresponding stroke, “.” And “_” may be distinguished based on the corresponding stroke shape, Based on the position of the corresponding stroke, “-” and “_” may be distinguished.

なお、説明の便宜上、同一のフローチャートにステップS610及びS620を示している。なお、これらのステップを個別に行ってもよいし、他の処理と組み合わせてもよい。   For convenience of explanation, steps S610 and S620 are shown in the same flowchart. In addition, you may perform these steps separately and may combine with another process.

図7に示すように、本発明の実施例では、URLを認識するステップにおいて、URLの辞書とマッピングすることで、光学文字認識の結果に含まれるURLを決定してもよい。光学文字認識の結果から候補URLを得た場合、それを認識結果としてユーザに直接提供してもよい。又は、候補URLと所定のURL辞書内の実際のURLとマッピングしてもよい(S710)。マッピングの信頼水準が所定の閾値よりも高い場合(S720のYES)、URL辞書内のマッピングURLをURL認識結果とする。マッピングの信頼水準が所定の閾値以下である場合(S720のNO)、光学文字認識により得られた候補URLをURL認識結果とする。ここで、マッピングの信頼水準は、例えば、対比が行われたURL間の編集距離に基づいて決定されてもよい。この処理によれば、URL認識の正確性をさらに向上できる。   As shown in FIG. 7, in the embodiment of the present invention, in the step of recognizing the URL, the URL included in the result of the optical character recognition may be determined by mapping with the URL dictionary. When the candidate URL is obtained from the result of optical character recognition, it may be directly provided to the user as the recognition result. Alternatively, the candidate URL may be mapped to an actual URL in a predetermined URL dictionary (S710). If the mapping confidence level is higher than the predetermined threshold (YES in S720), the mapping URL in the URL dictionary is used as the URL recognition result. If the mapping confidence level is equal to or lower than the predetermined threshold (NO in S720), the candidate URL obtained by optical character recognition is set as the URL recognition result. Here, the confidence level of the mapping may be determined based on, for example, the edit distance between the URLs that have been compared. According to this process, the accuracy of URL recognition can be further improved.

以上、図4乃至図7を参照しながらURL認識ステップの複数のサブプロセスを説明しているが、これらのサブプロセスを適宜組み合わせてもよい。   As mentioned above, although the several subprocess of the URL recognition step is demonstrated referring FIG. 4 thru | or FIG. 7, you may combine these subprocesses suitably.

従来のURL認識方法に比べて、本発明のURL認識の具体的な実施形態は、URL認識の正確性を向上できる。通常、従来の方法は簡単の文法規則に基づいてURLのフォーマットを制限し、用いられるURLの文法規則は簡単であり、有限の誤りしか訂正できないものであり、例えば記号と文字とが重なり、結合している場合のホストネームの誤りを訂正できない。本発明は、このような誤りを効果的に回避できる。また、上述したように、本発明の画像処理方法の処理対象は、映像フレームを含んでもよい。従来のマルチフレーム情報の結合方法は、映像の冗長特徴を用いて信頼性水準の高いものを出力としているが、同じ映像セグメントについて、OCRシステムの出力は基本的に同じであり、画像内のURLを処理できない。一方、本発明の実施例に係る画像処理方法によれば、デジタル画像及び映像フレームの両方に対して、ロバスト性を有する。   Compared with the conventional URL recognition method, the specific embodiment of URL recognition of the present invention can improve the accuracy of URL recognition. Usually, the conventional method restricts the URL format based on simple grammar rules, and the URL grammar rules used are simple and can correct only a finite number of errors. For example, symbols and characters overlap and combine. I cannot correct the host name error. The present invention can effectively avoid such errors. Moreover, as described above, the processing target of the image processing method of the present invention may include a video frame. The conventional multi-frame information combining method uses a redundant feature of video to output a high reliability level, but for the same video segment, the output of the OCR system is basically the same, and the URL in the image Cannot be processed. On the other hand, the image processing method according to the embodiment of the present invention has robustness for both digital images and video frames.

続いて、本発明の実施例に係る画像処理装置の構成例を説明する。   Subsequently, a configuration example of the image processing apparatus according to the embodiment of the present invention will be described.

図8に示すように、画像処理装置800は、記号認識部810、記号除去部820、光学文字認識部830、及び記号追加部840を含む。   As shown in FIG. 8, the image processing apparatus 800 includes a symbol recognition unit 810, a symbol removal unit 820, an optical character recognition unit 830, and a symbol addition unit 840.

記号認識部810は、画像のテキスト領域から所定の記号を認識する。認識される具体的な対象に応じて、異なる所定の記号を設定してもよい。例えば、URLを認識する場合、所定の記号は、URLに用いられる区切り記号を含んでもよく、数学の公式を認識する場合、所定の記号を特定の数学記号と設定してもよい。本発明は、ここに列挙された具体的な認識対象及び所定の記号に限定されず、異なる記号と文字が混合する認識対象に対して、多種の具体的な設定を有してもよい。   The symbol recognition unit 810 recognizes a predetermined symbol from the text area of the image. Different predetermined symbols may be set according to the specific object to be recognized. For example, when recognizing a URL, the predetermined symbol may include a delimiter used in the URL, and when recognizing a mathematical formula, the predetermined symbol may be set as a specific mathematical symbol. The present invention is not limited to the specific recognition objects and predetermined symbols listed here, and may have various specific settings for recognition objects in which different symbols and characters are mixed.

記号除去部820は、テキスト領域から、記号認識部810により認識された所定の記号に対応する部分を除去する、即ち、画像内の対応の字画又は連通部を除去する。   The symbol removal unit 820 removes a portion corresponding to a predetermined symbol recognized by the symbol recognition unit 810 from the text area, that is, removes a corresponding stroke or communication portion in the image.

光学文字認識部830は、記号除去部820により対応する部分が除去されたテキスト領域に対して、光学文字認識(OCR)を行う。   The optical character recognition unit 830 performs optical character recognition (OCR) on the text area from which the corresponding part has been removed by the symbol removal unit 820.

記号追加部840は、光学文字認識部830による光学文字認識の結果内の対応の位置に、記号認識部810により認識された所定の記号を追加する。   The symbol addition unit 840 adds a predetermined symbol recognized by the symbol recognition unit 810 to a corresponding position in the result of optical character recognition by the optical character recognition unit 830.

本発明の実施例に係る画像処理装置によれば、所定の記号を個別に認識して、該所定の記号が除去されたテキスト領域に対して光学文字認識を行うことで、光学文字認識の符号と文字との混合による認識誤りを低減でき、最終的な認識結果の正確率を向上でき、処理の効率を向上できる。   According to the image processing apparatus according to the embodiment of the present invention, a predetermined symbol is individually recognized, and optical character recognition is performed on a text area from which the predetermined symbol is removed, so that an optical character recognition code is obtained. Recognition errors due to the mixing of characters and characters, the accuracy rate of the final recognition result can be improved, and the processing efficiency can be improved.

上述したように、本発明の実施例に係る画像処理装置は、URLを含む画像に対して光学文字認識を行うことができる。よって、図9に示すように、記号認識部910は、URL内の2つの通常の区切り記号を認識するように、ドット認識ユニット912及びスラッシュ認識ユニット914を含んでもよい。   As described above, the image processing apparatus according to the embodiment of the present invention can perform optical character recognition on an image including a URL. Therefore, as shown in FIG. 9, the symbol recognition unit 910 may include a dot recognition unit 912 and a slash recognition unit 914 so as to recognize two normal delimiters in the URL.

ここで、ドット認識ユニット912は、下記の基準(a)〜(c)に基づいて、テキスト領域内の字画をドットとして認識してもよく、(a)テキスト領域内の他の字画に対する前記字画の相対的なサイズは、所定の基準よりも小さく、(b)字画は、テキスト領域の対応のテキスト行の中心線の下に位置し、且つ(c)字画の外接の矩形領域内の背景画素に対する前景画素の数の比は、所定の閾値よりも大きい。   Here, the dot recognition unit 912 may recognize a stroke in the text area as a dot based on the following criteria (a) to (c), and (a) the stroke for the other strokes in the text area. Is smaller than a predetermined reference, (b) the stroke is located below the center line of the corresponding text line in the text area, and (c) the background pixels in the rectangular area circumscribing the stroke The ratio of the number of foreground pixels to is greater than a predetermined threshold.

スラッシュ認識ユニット914は、下記の基準(d)、(e)に基づいて、テキスト領域内の字画をスラッシュとして認識してもよく、(d)字画の外接の矩形領域を複数のブロックに区切る場合、矩形領域の左下から右上への対角線のブロックは前景画素を含み、矩形領域の左上角及び右下角のブロックは前景画素を含まず、且つ(e)字画の傾斜角度は、所定の範囲内にある。ここで、スラッシュ認識ユニット914は、主成分分析により、字画の傾斜角度を決定してもよい。また、1つの具体的な実施例では、傾斜角度の所定の範囲は、対応のテキスト行の横軸方向に対する傾斜角度が30°〜90°にある。   The slash recognition unit 914 may recognize the stroke in the text area as a slash based on the following criteria (d) and (e). (D) When the circumscribed rectangular area of the stroke is divided into a plurality of blocks The diagonal block from the lower left to the upper right of the rectangular area includes the foreground pixels, the upper left corner and the lower right corner of the rectangular area do not include the foreground pixels, and (e) the inclination angle of the stroke is within a predetermined range. is there. Here, the slash recognition unit 914 may determine the inclination angle of the stroke by principal component analysis. In one specific embodiment, the predetermined range of the inclination angle is such that the inclination angle with respect to the horizontal axis direction of the corresponding text line is 30 ° to 90 °.

図10に示すように、本発明の1つの実施例では、画像内のURLを認識可能な画像処理装置1000は、記号認識部1010、記号除去部1020、光学文字認識部1030、記号追加部1040、及びURL認識部1050を含む。なお、記号認識部1010、記号除去部1020、光学文字認識部1030、及び記号追加部1040の構成は、上述した対応の部分の構成と類似し、その説明はここに省略される。   As shown in FIG. 10, in one embodiment of the present invention, an image processing apparatus 1000 capable of recognizing a URL in an image includes a symbol recognition unit 1010, a symbol removal unit 1020, an optical character recognition unit 1030, and a symbol addition unit 1040. , And a URL recognition unit 1050. The configurations of the symbol recognition unit 1010, the symbol removal unit 1020, the optical character recognition unit 1030, and the symbol addition unit 1040 are similar to the configuration of the corresponding parts described above, and the description thereof is omitted here.

URL認識部1050は、所定の文法規則に基づいて、光学文字認識部1030による光学文字認識の結果に前記所定の記号を記号追加部1040により追加することで得られた文字列から、URLを認識する。URL認識部1050は、複数の方式により設けられてもよく、例えば従来の文法規則に基づく方式によりURLを認識する。   The URL recognizing unit 1050 recognizes a URL from a character string obtained by adding the predetermined symbol by the symbol adding unit 1040 to the result of the optical character recognition by the optical character recognizing unit 1030 based on a predetermined grammar rule. To do. The URL recognizing unit 1050 may be provided by a plurality of methods, for example, recognizing a URL by a method based on a conventional grammar rule.

また、図11乃至図14は、URL認識部の構成例を示している。   FIGS. 11 to 14 show configuration examples of the URL recognition unit.

図11に示すように、URL認識部1150は、コーディングユニット1152、フォーマット変換ユニット1154、文字列選別ユニット1156、及び文字列切り取りユニット1158を含んでもよい。   As illustrated in FIG. 11, the URL recognition unit 1150 may include a coding unit 1152, a format conversion unit 1154, a character string selection unit 1156, and a character string cutting unit 1158.

コーディングユニット1152は、統一のコーディングフォーマット、例えばASCIIで文字列を表す。   The coding unit 1152 represents a character string in a uniform coding format, for example, ASCII.

フォーマット変換ユニット1154は、文字列内の英文字を小文字に変換する。   The format conversion unit 1154 converts the English characters in the character string to lower case.

コーディングユニット1152及びフォーマット変換ユニット1154は、後続処理を行うように同一の光学文字認識の結果のフォーマットに用いられるが、これらのユニットは、URL認識部に含まれず、光学文字認識処理の光学文字認識部又は後続処理部に含まれてもよい。   The coding unit 1152 and the format conversion unit 1154 are used for formatting the same optical character recognition result so as to perform subsequent processing. However, these units are not included in the URL recognition unit and are used for optical character recognition in the optical character recognition process. Or a subsequent processing unit.

文字列選別ユニット1156は、後続の認識処理の対象範囲を縮小するように、統一資源ロケータに使用禁止の記号を含む文字列を除去する。   The character string selection unit 1156 removes the character string including the prohibited symbol in the unified resource locator so as to reduce the target range of the subsequent recognition process.

文字列切り取りユニット1158は、文字列に「www」が含まれる場合、「www」の前の部分を除去する、或いは、文字列に「//」が含まれる場合、「//」及びその前の部分を除去する。よって、処理される文字列の長さを短縮できる。   When the character string includes “www”, the character string cutting unit 1158 removes the part before “www”, or when the character string includes “//”, “//” The part of is removed. Therefore, the length of the character string to be processed can be shortened.

図12に示すように、URL認識部1250は、文字列分割ユニット1252及び候補選択ユニット1254を含んでもよい。   As shown in FIG. 12, the URL recognition unit 1250 may include a character string division unit 1252 and a candidate selection unit 1254.

文字列分割ユニット1252は、スペース及び/又は隣接する文字間の距離に基づいて、文字列を分割する。ここで、文字列分割ユニット1252は、光学文字認識の結果内のスペースを直接用いて分割してもよいし、画像内の字画の間隔に基づいてスペースを個別に認識して、識別されたスペースにより分割してもよい。或いは、文字列分割ユニと1252は、これら2種類の方式を結合して、例えば光学文字認識の結果内のスペースについて、画像内の対応の位置の字画の間隔を検証し、字画の間隔が所定の基準に達している場合、スペースが存在すると決定し、検証されたスペースを用いて文字列を分割する。   The character string dividing unit 1252 divides the character string based on the space and / or the distance between adjacent characters. Here, the character string dividing unit 1252 may directly divide the space in the result of the optical character recognition, or recognize the space individually based on the interval of strokes in the image and identify the space. You may divide by. Alternatively, the character string dividing uni and 1252 combine these two types of methods, for example, verify the distance between strokes at corresponding positions in the image for the space in the result of optical character recognition, and the distance between strokes is predetermined. If the criterion is reached, it is determined that a space exists, and the character string is divided using the verified space.

候補選択ユニット1254は、文字列分割ユニット1252により分割された文字列から、URLの通常のキーワード(例えば上記列挙されたもの)を含む文字列部分を候補URLとして選択する。   Candidate selection unit 1254 selects, as a candidate URL, a character string portion that includes a normal URL keyword (for example, those listed above) from the character strings divided by character string dividing unit 1252.

なお、図11に示されている文字列選別ユニット1156に用いられる使用禁止の記号は、スペースを含まない。また、文字列選別ユニット1156は文字列のレベルにより排除すべき対象を除去しているが、文字列分割ユニット1252と協力して、スペース及び/又は距離に基づいて文字列を分割する処理の後、文字列セグメントを選別してもよい。   Note that the use prohibition symbol used in the character string selection unit 1156 shown in FIG. 11 does not include a space. Further, the character string selection unit 1156 removes the object to be excluded according to the character string level, but after the process of dividing the character string based on the space and / or distance in cooperation with the character string dividing unit 1252. The character string segment may be selected.

図13に示すように、URL認識部1350は、認識漏れ決定ユニット1352、及び記号検証ユニット1354を含んでもよい。   As illustrated in FIG. 13, the URL recognition unit 1350 may include a recognition failure determination unit 1352 and a symbol verification unit 1354.

認識漏れ決定ユニット1352は、URLの通常の組み合わせの規則に基づいて、光学文字認識の結果内の認識漏れのドットを推定し、追加する。例えば、認識漏れ決定ユニット1352は、候補文字列に上記URLの通常のドメインの英文字が含まれ、「.」が含まれない場合、認識漏れのドットが存在すると推定してもよい。また、認識漏れ決定ユニット1352は、画像内の推定された認識漏れのドットに対応する位置について、画像をさらに分析して検証してもよい。   The recognition failure determination unit 1352 estimates and adds recognition failure dots in the result of optical character recognition based on the normal combination rules of URLs. For example, the recognition failure determination unit 1352 may estimate that a recognition failure dot exists when the candidate character string includes English characters of the normal domain of the URL and does not include “.”. The recognition omission determination unit 1352 may further analyze and verify the image for the position corresponding to the estimated recognition omission dot in the image.

記号検証ユニット1354は、位置及び形状の特徴に基づいて、光学文字認識の結果内のドット、ハイフン及びアンダーバーを検証する。例えば、記号検証ユニット1354は、光学文字認識の結果にドット「.」、ハイフン「-」、又はアンダーバー「_」が含まれる場合、画像内の対応の字画の形状及び/又は位置に基づいて、該光学文字認識の結果を検証してもよい。   The symbol verification unit 1354 verifies dots, hyphens and underbars in the result of optical character recognition based on the position and shape features. For example, if the optical character recognition result includes a dot “.”, A hyphen “-”, or an underscore “_”, the symbol verification unit 1354 may be based on the shape and / or position of the corresponding stroke in the image. The result of optical character recognition may be verified.

図14に示すように、URL認識部1450は、URLの辞書とマッピングすることで、光学文字認識の結果に含まれる統一資源ロケータを決定するマッピングユニット1452を含んでもよい。具体的には、光学文字認識の結果から得られた候補URLについて、マッピングユニット1452は、候補URLと所定のURL辞書内の実際のURLとマッピングし、マッピングの信頼水準が所定の閾値よりも高い場合、URL辞書内のマッピングされたURLをURLの認識結果とし、マッピングの信頼水準が所定の閾値以下である場合、光学文字認識により得られた候補URLをURLの認識結果としてもよい。ここで、マッピングの信頼水準は、対比が行われたURL間の編集距離に基づいて決定されてもよい。   As shown in FIG. 14, the URL recognition unit 1450 may include a mapping unit 1452 that determines a unified resource locator included in the result of optical character recognition by mapping with a URL dictionary. Specifically, for the candidate URL obtained from the result of optical character recognition, the mapping unit 1452 maps the candidate URL to the actual URL in the predetermined URL dictionary, and the mapping reliability level is higher than the predetermined threshold value. In this case, the mapped URL in the URL dictionary may be used as a URL recognition result, and if the mapping confidence level is equal to or lower than a predetermined threshold, the candidate URL obtained by optical character recognition may be used as the URL recognition result. Here, the confidence level of the mapping may be determined based on the editing distance between the URLs that have been compared.

以上、説明の便宜上、図11乃至図14を参照しながらURL認識部の構成例を説明しているが、この構成例における各ユニットは、個別に設けられてもよいし、適宜組み合わせてもよい。   For convenience of explanation, the configuration example of the URL recognition unit has been described with reference to FIGS. 11 to 14. However, each unit in this configuration example may be provided individually or may be combined as appropriate. .

1つの実施例として、上記の方法の各ステップ及び上記の装置の各構成モジュール及び/又はユニットは、ソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせにより実現されてもよい。ソフトウェア又はファームウェアにより実施されている場合、記録媒体又はネットワークから専用のハードウェア構成を有するコンピュータ(例えば図15に示されている汎用のコンピュータ1500)に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。   As one example, each step of the above method and each component module and / or unit of the above device may be realized by software, firmware, hardware, or a combination thereof. When implemented by software or firmware, a program that configures software for performing the above method from a recording medium or a network to a computer having a dedicated hardware configuration (for example, the general-purpose computer 1500 shown in FIG. 15) The computer can execute various functions when various programs are installed.

図15において、運算処理部(即ちCPU)1501は、読み出し専用メモリ(ROM)1502に記憶されているプログラム、又は記憶部1508からランダムアクセスメモリ(RAM)1503にロードされたプログラムにより各種の処理を実行する。RAM1503には、必要に応じて、CPU1501が各種の処理を実行するに必要なデータが記憶されている。CPU1501、ROM1502、及びRAM1503は、バス1504を介して互いに接続されている。入力/出力インターフェース1505もバス1504に接続されている。   In FIG. 15, an arithmetic processing unit (ie, CPU) 1501 performs various processes by a program stored in a read-only memory (ROM) 1502 or a program loaded from a storage unit 1508 to a random access memory (RAM) 1503. Run. The RAM 1503 stores data necessary for the CPU 1501 to execute various processes as necessary. The CPU 1501, ROM 1502, and RAM 1503 are connected to each other via a bus 1504. An input / output interface 1505 is also connected to the bus 1504.

入力部1506(キーボード、マウスなどを含む)、出力部1507(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部1508(例えばハードディスクなどを含む)、通信部1509(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース1505に接続されている。通信部1509は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部1510は、入力/出力インターフェース1505に接続されてもよい。着脱可能な媒体1511は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部1510にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部1508にインストールされている。   An input unit 1506 (including a keyboard and a mouse), an output unit 1507 (including a display such as a cathode ray tube (CRT), a liquid crystal display (LCD), and a speaker), a storage unit 1508 (including a hard disk and the like), communication A unit 1509 (for example, a network interface card such as a LAN card or a modem) is connected to the input / output interface 1505. The communication unit 1509 executes communication processing via a network, for example, the Internet. The drive unit 1510 may be connected to the input / output interface 1505 as needed. The detachable medium 1511 is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, etc., and is set up in the drive unit 1510 as necessary, and a computer program read from the medium is stored as necessary. Part 1508 is installed.

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば着脱可能な媒体1511を介してソフトウェアを構成するプログラムをインストールする。   When the above processing is performed by software, a program constituting the software is installed via a network such as the Internet or a storage medium such as a removable medium 1511.

また、これらの記憶媒体は、図15に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する着脱可能な媒体1511に限定されない。着脱可能な媒体1511は、例えば磁気ディスク(フロッピー(登録商標)ディスクを含む)、光ディスク(光ディスク−読み出し専用メモリ(CDROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM1502、記憶部1508に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。   Further, these storage media are not limited to the removable media 1511 shown in FIG. 15 that stores the program and provides the program to the user separately from the device. The removable medium 1511 includes, for example, a magnetic disk (including a floppy (registered trademark) disk), an optical disk (including an optical disk-read only memory (CDROM), and a digital multipurpose disk (DVD)), a magneto-optical disk (mini disk ( MD) (registered trademark)) and semiconductor memory. Alternatively, the storage medium may be a hard disk included in the ROM 1502 or the storage unit 1508, stores the program, and is provided to the user together with the device including them.

本発明は、機器に読み取り可能な指令コードを記憶するプログラムプロダクトをさらに提供する。該指令コードは機器により読み出されて、上述した本発明の実施例に係る方法を実行できる。   The present invention further provides a program product for storing a command code readable by a device. The command code is read by the device, and the method according to the embodiment of the present invention described above can be executed.

それに応じて、本発明は、機器読み取り可能な指令コードを記憶するプログラムのプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックを含むが、これらに限定されない。   Accordingly, the present invention further includes a storage medium in which a product of a program that stores a device-readable command code is recorded. The storage medium includes, but is not limited to, a floppy disk, an optical disk, a magneto-optical disk, a memory card, and a memory stick.

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。   Features described and / or shown in one embodiment may be used in one or many other embodiments in the same or similar manner, and may be combined with features in other embodiments, Features in other embodiments may be substituted.

なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。   As used herein, the term “inclusive / include” means the presence of a feature, element, step or component, and the presence or absence of one or more other features, elements, steps or components. It does not exclude the addition.

フローチャート又は他の方式に記載された如何なるプロセス、方法の記述又はブロックは、特定の論理機能又はプロセスにおけるステップの実行可能なコードを実現可能なモジュール、セグメント又は部分を表示することと理解してもよい。   It is understood that any process, method description or block described in a flowchart or other manner represents a module, segment or portion capable of implementing executable code for a step in a particular logic function or process. Good.

また、本発明の好適な実施形態の範囲は、他の実施方法を含んでもよく、例えば、示される順序に基づかなく、係る機能に応じて、基本的に同時の方式又は逆の順序に基づいて機能を実行してもよい。   The scope of the preferred embodiment of the present invention may also include other implementation methods, for example, not based on the order shown, but basically on the basis of the simultaneous method or the reverse order, depending on the function concerned. A function may be performed.

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び同等的なものが含まれる。   Certain embodiments of the present invention are disclosed in detail and illustrate the manner in which the principles of the present invention can be employed, as illustrated in the following description and drawings. The embodiment of the present invention is not limited in scope. The embodiments of the present invention include various alterations, modifications, and equivalents within the scope and spirit of the appended claims.

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。   Moreover, the following additional remarks are disclosed regarding the embodiment including each of the above-described examples.

(付記1)
画像のテキスト領域から所定の記号を認識するステップと、
前記テキスト領域から、前記認識された所定の記号に対応する部分を除去するステップと、
前記対応する部分が除去された前記テキスト領域に対して、光学文字認識(OCR)を行うステップと、
前記光学文字認識の結果内の対応の位置に、前記認識された所定の記号を追加するステップと、
を含む、画像処理方法。
(Appendix 1)
Recognizing a predetermined symbol from the text area of the image;
Removing a portion corresponding to the recognized predetermined symbol from the text region;
Performing optical character recognition (OCR) on the text region from which the corresponding portion has been removed;
Adding the recognized predetermined symbol to a corresponding position in the result of optical character recognition;
Including an image processing method.

(付記2)
前記所定の記号は、統一資源ロケータ(URL)に用いられる区切り記号を含む、付記1に記載の画像処理方法。
(Appendix 2)
The image processing method according to claim 1, wherein the predetermined symbol includes a delimiter used for a unified resource locator (URL).

(付記3)
前記所定の記号は、ドットを含み、
前記所定の記号を認識するステップにおいて、下記の基準(a)〜(c)に基づいて、前記テキスト領域内の字画をドットとして認識し、
(a)前記テキスト領域内の他の字画に対する前記字画の相対的なサイズは、所定の基準よりも小さく、
(b)前記字画は、前記テキスト領域の対応のテキスト行の中心線の下に位置し、且つ
(c)前記字画の外接の矩形領域内の背景画素に対する前景画素の数の比は、所定の閾値よりも大きい、
付記1に記載の画像処理方法。
(Appendix 3)
The predetermined symbol includes a dot,
In the step of recognizing the predetermined symbol, the stroke in the text area is recognized as a dot based on the following criteria (a) to (c):
(A) the relative size of the stroke relative to other strokes in the text area is smaller than a predetermined reference;
(B) the stroke is located below the center line of the corresponding text line in the text area; and (c) the ratio of the number of foreground pixels to the background pixels in the bounding rectangular area of the stroke is a predetermined value. Greater than the threshold,
The image processing method according to attachment 1.

(付記4)
前記所定の記号は、スラッシュを含み、
前記所定の記号を認識するステップにおいて、下記の基準(d)、(e)に基づいて、前記テキスト領域内の字画をスラッシュとして認識し、
(d)前記字画の外接の矩形領域を複数のブロックに区切る場合、前記矩形領域の左下から右上への対角線のブロックは前景画素を含み、前記矩形領域の左上角及び右下角のブロックは前景画素を含まず、且つ
(e)前記字画の傾斜角度は、所定の範囲内にある、
付記1に記載の画像処理方法。
(Appendix 4)
The predetermined symbol includes a slash;
In the step of recognizing the predetermined symbol, the stroke in the text area is recognized as a slash based on the following criteria (d) and (e):
(D) When the circumscribed rectangular area of the stroke is divided into a plurality of blocks, the diagonal block from the lower left to the upper right of the rectangular area includes foreground pixels, and the upper left corner and lower right corner blocks of the rectangular area are foreground pixels. And (e) the stroke angle of the stroke is within a predetermined range.
The image processing method according to attachment 1.

(付記5)
主成分分析により、前記字画の傾斜角度を決定する、付記4に記載の画像処理方法。
(Appendix 5)
The image processing method according to appendix 4, wherein an inclination angle of the stroke is determined by principal component analysis.

(付記6)
前記傾斜角度の所定の範囲は、対応のテキスト行の横軸方向に対する傾斜角度が30°〜90°にある、付記4に記載の画像処理方法。
(Appendix 6)
The image processing method according to appendix 4, wherein the predetermined range of the inclination angle has an inclination angle of 30 ° to 90 ° with respect to the horizontal axis direction of the corresponding text line.

(付記7)
所定の文法規則に基づいて、前記光学文字認識の結果に前記所定の記号を追加することで得られた文字列から、統一資源ロケータを認識するステップ、さらに含む、付記2に記載の画像処理方法。
(Appendix 7)
The image processing method according to claim 2, further comprising a step of recognizing a unified resource locator from a character string obtained by adding the predetermined symbol to the optical character recognition result based on a predetermined grammatical rule. .

(付記8)
前記統一資源ロケータを認識するステップにおいて、
統一のコーディングフォーマットで前記文字列を表す、
付記7に記載の画像処理方法。
(Appendix 8)
In recognizing the unified resource locator,
Represent the string in a unified coding format,
The image processing method according to appendix 7.

(付記9)
前記統一のコーディングフォーマットは、ASCIIを含む、
付記8に記載の画像処理方法。
(Appendix 9)
The unified coding format includes ASCII.
The image processing method according to attachment 8.

(付記10)
前記統一資源ロケータを認識するステップにおいて、
前記文字列内の英文字を小文字に変換する、
付記7に記載の画像処理方法。
(Appendix 10)
In recognizing the unified resource locator,
Convert alphabetic characters in the string to lower case,
The image processing method according to appendix 7.

(付記11)
前記統一資源ロケータを認識するステップにおいて、
統一資源ロケータに使用禁止の記号を含む文字列を除去する、
付記7に記載の画像処理方法。
(Appendix 11)
In recognizing the unified resource locator,
Remove the string containing prohibited symbols in the Uniform Resource Locator,
The image processing method according to appendix 7.

(付記12)
前記統一資源ロケータを認識するステップにおいて、
前記文字列に「www」が含まれる場合、「www」の前の部分を除去する、或いは、
前記文字列に「//」が含まれる場合、「//」及びその前の部分を除去する、
付記7に記載の画像処理方法。
(Appendix 12)
In recognizing the unified resource locator,
If the string contains "www", remove the part before "www", or
If the string contains "//", remove "//" and the part before it.
The image processing method according to appendix 7.

(付記13)
前記統一資源ロケータを認識するステップにおいて、
スペース及び/又は隣接する文字間の距離に基づいて、前記文字列を分割する、
付記7に記載の画像処理方法。
(Appendix 13)
In recognizing the unified resource locator,
Splitting the string based on space and / or distance between adjacent characters;
The image processing method according to appendix 7.

(付記14)
前記統一資源ロケータを認識するステップにおいて、
前記分割された文字列から、統一資源ロケータの通常のキーワードを含む文字列部分を候補統一資源ロケータとして選択する、
付記13に記載の画像処理方法。
(Appendix 14)
In recognizing the unified resource locator,
From the divided character strings, select a character string portion including a normal keyword of the uniform resource locator as a candidate uniform resource locator.
The image processing method according to attachment 13.

(付記15)
前記統一資源ロケータを認識するステップにおいて、
統一資源ロケータの通常の組み合わせの規則に基づいて、前記光学文字認識の結果内の認識漏れのドットを推定し、追加する、
付記7に記載の画像処理方法。
(Appendix 15)
In recognizing the unified resource locator,
Estimating and adding recognition missing dots in the result of optical character recognition based on the rules of normal combination of uniform resource locators;
The image processing method according to appendix 7.

(付記16)
前記統一資源ロケータを認識するステップにおいて、
位置及び形状の特徴に基づいて、前記光学文字認識の結果内のドット、ハイフン及びアンダーバーを検証する、
付記7に記載の画像処理方法。
(Appendix 16)
In recognizing the unified resource locator,
Verify dots, hyphens and underbars in the optical character recognition results based on position and shape characteristics;
The image processing method according to appendix 7.

(付記17)
前記統一資源ロケータを認識するステップにおいて、
統一資源ロケータの辞書とマッピングすることで、前記光学文字認識の結果に含まれる統一資源ロケータを決定する、
付記7に記載の画像処理方法。
(Appendix 17)
In recognizing the unified resource locator,
Determining a unified resource locator included in the optical character recognition result by mapping with a dictionary of the unified resource locator;
The image processing method according to appendix 7.

(付記18)
編集距離に基づいて前記マッピングの信頼水準を決定する、付記17に記載の画像処理方法。
(Appendix 18)
18. The image processing method according to appendix 17, wherein a confidence level of the mapping is determined based on an edit distance.

(付記19)
前記画像は、映像のフレームを含む、付記1乃至18のいずれかに記載の画像処理方法。
(Appendix 19)
The image processing method according to any one of appendices 1 to 18, wherein the image includes a video frame.

(付記20)
画像のテキスト領域から所定の記号を認識する記号認識手段と、
前記テキスト領域から、前記認識された所定の記号に対応する部分を除去する記号除去手段と、
前記対応する部分が除去された前記テキスト領域に対して、光学文字認識(OCR)を行う光学文字認識手段と、
前記光学文字認識の結果内の対応の位置に、前記認識された所定の記号を追加する記号追加手段と、
を含む、画像処理装置。
(Appendix 20)
A symbol recognition means for recognizing a predetermined symbol from the text area of the image;
Symbol removing means for removing a portion corresponding to the recognized predetermined symbol from the text area;
Optical character recognition means for performing optical character recognition (OCR) on the text region from which the corresponding part has been removed;
A symbol adding means for adding the recognized predetermined symbol to a corresponding position in the result of the optical character recognition;
An image processing apparatus.

(付記21)
前記所定の記号は、統一資源ロケータ(URL)に用いられる区切り記号を含む、付記20に記載の画像処理方法。
(Appendix 21)
The image processing method according to attachment 20, wherein the predetermined symbol includes a delimiter used for a unified resource locator (URL).

(付記22)
前記記号認識手段は、ドット認識手段を含み、
前記ドット認識手段は、下記の基準(a)〜(c)に基づいて、前記テキスト領域内の字画をドットとして認識し、
(a)前記テキスト領域内の他の字画に対する前記字画の相対的なサイズは、所定の基準よりも小さく、
(b)前記字画は、前記テキスト領域の対応のテキスト行の中心線の下に位置し、且つ
(c)前記字画の外接の矩形領域内の背景画素に対する前景画素の数の比は、所定の閾値よりも大きい、
付記20に記載の画像処理方法。
(Appendix 22)
The symbol recognition means includes dot recognition means,
The dot recognition means recognizes strokes in the text area as dots based on the following criteria (a) to (c):
(A) the relative size of the stroke relative to other strokes in the text area is smaller than a predetermined reference;
(B) the stroke is located below the center line of the corresponding text line in the text area; and (c) the ratio of the number of foreground pixels to the background pixels in the bounding rectangular area of the stroke is a predetermined value. Greater than the threshold,
The image processing method according to attachment 20.

(付記23)
前記記号認識手段は、スラッシュ認識手段を含み、
前記スラッシュ認識手段は、下記の基準(d)、(e)に基づいて、前記テキスト領域内の字画をスラッシュとして認識し、
(d)前記字画の外接の矩形領域を複数のブロックに区切る場合、前記矩形領域の左下から右上への対角線のブロックは前景画素を含み、前記矩形領域の左上角及び右下角のブロックは前景画素を含まず、且つ
(e)前記字画の傾斜角度は、所定の範囲内にある、
付記20に記載の画像処理方法。
(Appendix 23)
The symbol recognition means includes a slash recognition means,
The slash recognition means recognizes a stroke in the text area as a slash based on the following criteria (d) and (e):
(D) When the circumscribed rectangular area of the stroke is divided into a plurality of blocks, the diagonal block from the lower left to the upper right of the rectangular area includes foreground pixels, and the upper left corner and lower right corner blocks of the rectangular area are foreground pixels. And (e) the stroke angle of the stroke is within a predetermined range.
The image processing method according to attachment 20.

(付記24)
前記スラッシュ認識手段は、主成分分析により、前記字画の傾斜角度を決定する、付記23に記載の画像処理方法。
(Appendix 24)
The image processing method according to attachment 23, wherein the slash recognition means determines an inclination angle of the stroke by principal component analysis.

(付記25)
前記傾斜角度の所定の範囲は、対応のテキスト行の横軸方向に対する傾斜角度が30°〜90°にある、付記23に記載の画像処理方法。
(Appendix 25)
The image processing method according to attachment 23, wherein the predetermined range of the inclination angle is such that the inclination angle of the corresponding text line with respect to the horizontal axis direction is 30 ° to 90 °.

(付記26)
所定の文法規則に基づいて、前記光学文字認識の結果に前記所定の記号を追加することで得られた文字列から、統一資源ロケータを認識する統一資源ロケータ認識手段、さらに含む、付記21に記載の画像処理方法。
(Appendix 26)
The additional resource locator recognition means for recognizing a uniform resource locator from a character string obtained by adding the predetermined symbol to the optical character recognition result based on a predetermined grammatical rule, further comprising: Image processing method.

(付記27)
前記統一資源ロケータ認識手段は、
統一のコーディングフォーマットで前記文字列を表すコーディング手段、を含む、付記7に記載の画像処理方法。
(Appendix 27)
The unified resource locator recognition means includes:
The image processing method according to appendix 7, including coding means for representing the character string in a unified coding format.

(付記28)
前記統一のコーディングフォーマットは、ASCIIを含む、
付記27に記載の画像処理方法。
(Appendix 28)
The unified coding format includes ASCII.
The image processing method according to attachment 27.

(付記29)
前記統一資源ロケータ認識手段は、
前記文字列内の英文字を小文字に変換するフォーマット変換手段、を含む、
付記26に記載の画像処理方法。
(Appendix 29)
The unified resource locator recognition means includes:
Format conversion means for converting English characters in the character string to lower case,
27. The image processing method according to appendix 26.

(付記30)
前記統一資源ロケータ認識手段は、
統一資源ロケータに使用禁止の記号を含む文字列を除去する文字列選別手段、を含む、
付記26に記載の画像処理方法。
(Appendix 30)
The unified resource locator recognition means includes:
A character string selection means for removing character strings including prohibited symbols in the uniform resource locator,
27. The image processing method according to appendix 26.

(付記31)
前記統一資源ロケータ認識手段は、
前記文字列に「www」が含まれる場合、「www」の前の部分を除去する、或いは、前記文字列に「//」が含まれる場合、「//」及びその前の部分を除去する文字列切り取り手段、を含む、
付記26に記載の画像処理方法。
(Appendix 31)
The unified resource locator recognition means includes:
If “www” is included in the character string, the part before “www” is removed, or if “//” is included in the character string, “//” and the part before it are removed. Including character string cutting means,
27. The image processing method according to appendix 26.

(付記32)
前記統一資源ロケータ認識手段は、
スペース及び/又は隣接する文字間の距離に基づいて、前記文字列を分割する文字列分割手段、を含む、
付記26に記載の画像処理方法。
(Appendix 32)
The unified resource locator recognition means includes:
Character string dividing means for dividing the character string based on a space and / or a distance between adjacent characters;
27. The image processing method according to appendix 26.

(付記33)
前記統一資源ロケータ認識手段は、
前記分割された文字列から、統一資源ロケータの通常のキーワードを含む文字列部分を候補統一資源ロケータとして選択する候補選択手段、をさらに含む、
付記32に記載の画像処理方法。
(Appendix 33)
The unified resource locator recognition means includes:
Candidate selection means for selecting, as a candidate uniform resource locator, a character string portion including a normal keyword of the uniform resource locator from the divided character string;
The image processing method according to attachment 32.

(付記34)
前記統一資源ロケータ認識手段は、
統一資源ロケータの通常の組み合わせの規則に基づいて、前記光学文字認識の結果内の認識漏れのドットを推定し、追加する認識漏れ決定手段、を含む、
付記26に記載の画像処理方法。
(Appendix 34)
The unified resource locator recognition means includes:
A recognition failure determination means for estimating and adding a recognition failure dot in the result of the optical character recognition based on a rule of a normal combination of uniform resource locators,
27. The image processing method according to appendix 26.

(付記35)
前記統一資源ロケータ認識手段は、
位置及び形状の特徴に基づいて、前記光学文字認識の結果内のドット、ハイフン及びアンダーバーを検証する記号検証手段、を含む、
付記26に記載の画像処理方法。
(Appendix 35)
The unified resource locator recognition means includes:
Symbol verification means for verifying dots, hyphens and underbars in the result of optical character recognition based on position and shape characteristics;
27. The image processing method according to appendix 26.

(付記36)
前記統一資源ロケータ認識手段は、
統一資源ロケータの辞書とマッピングすることで、前記光学文字認識の結果に含まれる統一資源ロケータを決定するマッピング手段、を含む、
付記26に記載の画像処理方法。
(Appendix 36)
The unified resource locator recognition means includes:
Mapping means for determining a unified resource locator included in the optical character recognition result by mapping with a dictionary of the unified resource locator,
27. The image processing method according to appendix 26.

(付記37)
前記マッピング手段は、編集距離に基づいて前記マッピングの信頼水準を決定する、付記36に記載の画像処理方法。
(Appendix 37)
37. The image processing method according to appendix 36, wherein the mapping unit determines a confidence level of the mapping based on an edit distance.

(付記38)
前記画像は、映像のフレームを含む、付記20乃至37のいずれかに記載の画像処理方法。
(Appendix 38)
The image processing method according to any one of appendices 20 to 37, wherein the image includes a video frame.

Claims (10)

画像のテキスト領域から所定の記号を認識するステップと、
前記テキスト領域から、前記認識された所定の記号に対応する部分を除去するステップと、
前記対応する部分が除去された前記テキスト領域に対して、光学文字認識(OCR)を行うステップと、
前記光学文字認識の結果内の対応の位置に、前記認識された所定の記号を追加するステップと、
を含む、画像処理方法。
Recognizing a predetermined symbol from the text area of the image;
Removing a portion corresponding to the recognized predetermined symbol from the text region;
Performing optical character recognition (OCR) on the text region from which the corresponding portion has been removed;
Adding the recognized predetermined symbol to a corresponding position in the result of optical character recognition;
Including an image processing method.
前記所定の記号は、統一資源ロケータ(URL)に用いられる区切り記号を含む、請求項1に記載の画像処理方法。   The image processing method according to claim 1, wherein the predetermined symbol includes a delimiter used for a unified resource locator (URL). 前記所定の記号は、ドットを含み、
前記所定の記号を認識するステップにおいて、下記の基準(a)〜(c)に基づいて、前記テキスト領域内の字画をドットとして認識し、
(a)前記テキスト領域内の他の字画に対する前記字画の相対的なサイズは、所定の基準よりも小さく、
(b)前記字画は、前記テキスト領域の対応のテキスト行の中心線の下に位置し、且つ
(c)前記字画の外接の矩形領域内の背景画素に対する前景画素の数の比は、所定の閾値よりも大きい、
請求項1に記載の画像処理方法。
The predetermined symbol includes a dot,
In the step of recognizing the predetermined symbol, the stroke in the text area is recognized as a dot based on the following criteria (a) to (c):
(A) the relative size of the stroke relative to other strokes in the text area is smaller than a predetermined reference;
(B) the stroke is located below the center line of the corresponding text line in the text area; and (c) the ratio of the number of foreground pixels to the background pixels in the bounding rectangular area of the stroke is a predetermined value. Greater than the threshold,
The image processing method according to claim 1.
前記所定の記号は、スラッシュを含み、
前記所定の記号を認識するステップにおいて、下記の基準(d)、(e)に基づいて、前記テキスト領域内の字画をスラッシュとして認識し、
(d)前記字画の外接の矩形領域を複数のブロックに区切る場合、前記矩形領域の左下から右上への対角線のブロックは前景画素を含み、前記矩形領域の左上角及び右下角のブロックは前景画素を含まず、且つ
(e)前記字画の傾斜角度は、所定の範囲内にある、
請求項1に記載の画像処理方法。
The predetermined symbol includes a slash;
In the step of recognizing the predetermined symbol, the stroke in the text area is recognized as a slash based on the following criteria (d) and (e):
(D) When the circumscribed rectangular area of the stroke is divided into a plurality of blocks, the diagonal block from the lower left to the upper right of the rectangular area includes foreground pixels, and the upper left corner and lower right corner blocks of the rectangular area are foreground pixels. And (e) the stroke angle of the stroke is within a predetermined range.
The image processing method according to claim 1.
所定の文法規則に基づいて、前記光学文字認識の結果に前記所定の記号を追加することで得られた文字列から、統一資源ロケータを認識するステップ、さらに含む、請求項2に記載の画像処理方法。   The image processing according to claim 2, further comprising a step of recognizing a unified resource locator from a character string obtained by adding the predetermined symbol to the optical character recognition result based on a predetermined grammatical rule. Method. 前記統一資源ロケータを認識するステップにおいて、
前記文字列に「www」が含まれる場合、「www」の前の部分を除去する、或いは、
前記文字列に「//」が含まれる場合、「//」及びその前の部分を除去する、
請求項5に記載の画像処理方法。
In recognizing the unified resource locator,
If the string contains "www", remove the part before "www", or
If the string contains "//", remove "//" and the part before it.
The image processing method according to claim 5.
前記統一資源ロケータを認識するステップにおいて、
スペース及び/又は隣接する文字間の距離に基づいて、前記文字列を分割する、
請求項5に記載の画像処理方法。
In recognizing the unified resource locator,
Splitting the string based on space and / or distance between adjacent characters;
The image processing method according to claim 5.
前記統一資源ロケータを認識するステップにおいて、
統一資源ロケータの辞書とマッピングすることで、前記光学文字認識の結果に含まれる統一資源ロケータを決定する、
請求項5に記載の画像処理方法。
In recognizing the unified resource locator,
Determining a unified resource locator included in the optical character recognition result by mapping with a dictionary of the unified resource locator;
The image processing method according to claim 5.
前記画像は、映像のフレームを含む、
請求項1乃至8のいずれかに記載の画像処理方法。
The image includes a frame of video,
The image processing method according to claim 1.
画像のテキスト領域から所定の記号を認識する記号認識手段と、
前記テキスト領域から、前記認識された所定の記号に対応する部分を除去する記号除去手段と、
前記対応する部分が除去された前記テキスト領域に対して、光学文字認識(OCR)を行う光学文字認識手段と、
前記光学文字認識の結果内の対応の位置に、前記認識された所定の記号を追加する記号追加手段と、
を含む、画像処理装置。
A symbol recognition means for recognizing a predetermined symbol from the text area of the image;
Symbol removing means for removing a portion corresponding to the recognized predetermined symbol from the text area;
Optical character recognition means for performing optical character recognition (OCR) on the text region from which the corresponding part has been removed;
A symbol adding means for adding the recognized predetermined symbol to a corresponding position in the result of the optical character recognition;
An image processing apparatus.
JP2014033893A 2013-03-27 2014-02-25 Image processing method and image processing device Ceased JP2014191825A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310101523.0 2013-03-27
CN201310101523.0A CN104077593A (en) 2013-03-27 2013-03-27 Image processing method and image processing device

Publications (1)

Publication Number Publication Date
JP2014191825A true JP2014191825A (en) 2014-10-06

Family

ID=51598839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014033893A Ceased JP2014191825A (en) 2013-03-27 2014-02-25 Image processing method and image processing device

Country Status (2)

Country Link
JP (1) JP2014191825A (en)
CN (1) CN104077593A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019036146A (en) * 2017-08-16 2019-03-07 富士ゼロックス株式会社 Image analysis device and image analysis program

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961063B (en) * 2017-12-26 2021-12-14 杭州海康机器人技术有限公司 Text detection method and device, computer equipment and storage medium
CN108416555A (en) * 2018-03-26 2018-08-17 海航货运有限公司 A kind of aviation goods postal shipping bill data processing method and device
CN109815946A (en) * 2018-12-03 2019-05-28 东南大学 Multithreading business license positioning identifying method based on intensive connection network
CN109766885B (en) * 2018-12-29 2022-01-18 北京旷视科技有限公司 Character detection method and device, electronic equipment and storage medium
CN110059214B (en) * 2019-04-01 2021-12-14 北京奇艺世纪科技有限公司 Image resource processing method and device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62298885A (en) * 1986-06-18 1987-12-25 Hitachi Ltd Optical character read system
JPH09274646A (en) * 1996-04-05 1997-10-21 Zakuson R & D:Kk Automatic recognition method for url
JP2003069914A (en) * 2001-08-29 2003-03-07 Matsushita Electric Ind Co Ltd Url information acquisition device
JP2005055991A (en) * 2003-08-07 2005-03-03 Hitachi Ltd Personal digital assistant and character row extraction method using it
JP2006244243A (en) * 2005-03-04 2006-09-14 Canon Inc On-demand catalog creating system
JP2011065646A (en) * 2009-09-18 2011-03-31 Fujitsu Ltd Apparatus and method for recognizing character string

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441713B (en) * 2007-11-19 2010-12-08 汉王科技股份有限公司 Optical character recognition method and apparatus of PDF document
CN101520851A (en) * 2008-02-29 2009-09-02 富士通株式会社 Character information identification device and method
CN101593276B (en) * 2008-05-29 2011-10-12 汉王科技股份有限公司 Video OCR image-text separation method and system
US8401293B2 (en) * 2010-05-03 2013-03-19 Microsoft Corporation Word recognition of text undergoing an OCR process
CN102654874A (en) * 2011-03-02 2012-09-05 顾菊林 Bill data management method and system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62298885A (en) * 1986-06-18 1987-12-25 Hitachi Ltd Optical character read system
JPH09274646A (en) * 1996-04-05 1997-10-21 Zakuson R & D:Kk Automatic recognition method for url
JP2003069914A (en) * 2001-08-29 2003-03-07 Matsushita Electric Ind Co Ltd Url information acquisition device
JP2005055991A (en) * 2003-08-07 2005-03-03 Hitachi Ltd Personal digital assistant and character row extraction method using it
JP2006244243A (en) * 2005-03-04 2006-09-14 Canon Inc On-demand catalog creating system
JP2011065646A (en) * 2009-09-18 2011-03-31 Fujitsu Ltd Apparatus and method for recognizing character string

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019036146A (en) * 2017-08-16 2019-03-07 富士ゼロックス株式会社 Image analysis device and image analysis program
JP7039882B2 (en) 2017-08-16 2022-03-23 富士フイルムビジネスイノベーション株式会社 Image analysis device and image analysis program

Also Published As

Publication number Publication date
CN104077593A (en) 2014-10-01

Similar Documents

Publication Publication Date Title
JP2014191825A (en) Image processing method and image processing device
CN110069767B (en) Typesetting method based on electronic book, electronic equipment and computer storage medium
WO2020140698A1 (en) Table data acquisition method and apparatus, and server
JP5387124B2 (en) Method and system for performing content type search
JP4271878B2 (en) Character search method and apparatus in video, and character search processing program
US9082181B2 (en) Image processing method and apparatus
WO2019020061A1 (en) Video dialogue processing method, video client, video server, and computer readable storage medium
CN111460355B (en) Page analysis method and device
WO2017088479A1 (en) Method of identifying digital on-screen graphic and device
JP2013238999A (en) Image processing device and image processing program
JP2009258815A (en) Image processor and image processing program
US20150254869A1 (en) Image processing apparatus, image processing method, and storage medium
JP4626777B2 (en) Information processing apparatus and information processing program
US20180225541A1 (en) Image processing apparatuses and non-transitory computer readable medium
JP4565396B2 (en) Image processing apparatus and image processing program
CN115331247A (en) Document structure identification method and device, electronic equipment and readable storage medium
JP2007164719A (en) Line direction judgement program, method, and device
JP2012175220A (en) Image processing apparatus and image processing program
JP7019963B2 (en) Character string area / character rectangle extraction device, character string area / character rectangle extraction method, and program
JP6609181B2 (en) Character attribute estimation apparatus and character attribute estimation program
JP2008004116A (en) Method and device for retrieving character in video
JP5146199B2 (en) Difference extraction apparatus and difference extraction program
JP7342518B2 (en) Image processing device and image processing program
JP2002342711A (en) Image recognizing device and image recognizing method and program for realizing the image recognizing method and recording medium recorded with its program
JP5062076B2 (en) Information processing apparatus and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171211

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20180529