JP7026165B2 - テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 - Google Patents
テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 Download PDFInfo
- Publication number
- JP7026165B2 JP7026165B2 JP2020085898A JP2020085898A JP7026165B2 JP 7026165 B2 JP7026165 B2 JP 7026165B2 JP 2020085898 A JP2020085898 A JP 2020085898A JP 2020085898 A JP2020085898 A JP 2020085898A JP 7026165 B2 JP7026165 B2 JP 7026165B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- area
- prediction
- character prediction
- text recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Description
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するステップとを含む。
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得するステップと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得るステップとを含む。
前記文字領域集合から前記分類信頼度が第1閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップをさらに含む。
前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつけるステップと、
各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離IoUを順に算出するステップとを含む。
前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離IoUが、いずれも前記第2閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップを含む。
前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも1つの文字予測領域との水平距離IoUが第2閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れるステップと、
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップとを含む。
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値より小さい場合、前記2つの文字予測領域のうちの、面積が大きい文字予測領域を前記文字位置集合に入れるステップとを含む。
前記2つの文字予測領域間の分類信頼度の差が第3閾値以上となる場合、前記2つの文字予測領域のうちの、分類信頼度の大きい文字予測領域を前記文字位置集合に入れるステップを含む。
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するための領域抽出モジュールと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するためのIoU算出モジュールと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るための重なり除去モジュールと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するための文字出力モジュールとを有する。
上記のテキスト認識方法を実行するプロセッサーと、
プロセッサーが実行可能な命令を記憶するためのメモリとを有する。
本出願の実施例によるコンピュータの読取可能な記憶媒体は、プロセッサーの実行により上記のテキスト認識方法を実現するコンピュータプログラムが記憶されている。
(x2-x3)/(x4-x1) ・・・式1
Claims (10)
- 既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するステップと
を含み、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するステップは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得するステップと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得るステップと、を含む
ことを特徴とするテキスト認識方法。 - 前記文字予測領域に対してNMS処理を行い、文字領域集合を得たあと、
前記文字領域集合から前記分類信頼度が第1閾値より大きい文字予測領域を選出して、前記文字領域集合を再構成するステップ
をさらに含むことを特徴とする請求項1に記載のテキスト認識方法。 - 前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するステップは、
前記文字領域集合における各文字予測領域の横座標に基づいて、前記文字領域集合における文字予測領域に順位をつけるステップと、
各文字予測領域に対して、前記文字予測領域と前記文字領域集合における他の文字予測領域との水平距離IoUを順に算出するステップと
を含むことを特徴とする請求項1に記載のテキスト認識方法。 - 前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合におけるすべての文字予測領域との水平距離IoUが、いずれも第2閾値以下となる場合、前記文字領域集合における選択された前記文字予測領域を前記文字位置集合に入れるステップ
を含むことを特徴とする請求項1に記載のテキスト認識方法。 - 前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るステップは、
前記文字領域集合におけるある文字予測領域と前記文字領域集合における少なくとも1つの文字予測領域との水平距離IoUが第2閾値より大きい場合、該当文字予測領域を、前記文字領域集合から除去するとともに候補集合に入れるステップと、
前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップと
を含むことを特徴とする請求項1に記載のテキスト認識方法。 - 前記候補集合における各文字予測領域の分類信頼度に基づいて、文字予測領域を選択して前記文字位置集合に入れるステップは、
前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値より小さい場合、前記2つの文字予測領域のうちの、面積が大きい文字予測領域を前記文字位置集合に入れるステップと
を含むことを特徴とする請求項5に記載のテキスト認識方法。 - 前記候補集合における各文字予測領域の分類信頼度に基づいて、分類信頼度が最も大きい2つの文字予測領域を選出するステップのあと、
前記2つの文字予測領域間の分類信頼度の差が第3閾値以上となる場合、前記2つの文字予測領域のうちの、分類信頼度が大きい文字予測領域を前記文字位置集合に入れるステップ
を含むことを特徴とする請求項6に記載のテキスト認識方法。 - 既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得するための領域抽出モジュールと、
前記文字領域集合における各文字予測領域の位置に基づいて、前記文字領域集合における文字予測領域間の水平距離IoUを算出するためのIoU算出モジュールと、
前記文字領域集合における文字予測領域間の水平距離IoUに基づいて、前記文字領域集合における重なりがあった文字予測領域を除去して、文字位置集合を得るための重なり除去モジュールと、
前記文字位置集合における文字予測領域に対応する文字クラスを、前記文字位置集合における文字予測領域の位置に基づいて順位をつけて出力するための文字出力モジュールと
を有し、
既設のテキスト認識モデルにより、テキスト行画像の文字予測領域を抽出し、文字領域集合を取得することは、
テキスト行画像を既設のテキスト認識モデルに入力し、前記テキスト認識モデルから出力した文字予測領域及び前記文字予測領域に対応する分類信頼度を取得することと、
前記文字予測領域に対応する分類信頼度に基づいて、前記文字予測領域に対してNMS処理を行い、文字領域集合を得ることと、を含む
ことを特徴とするテキスト認識装置。 - 請求項1~7のいずれか1項に記載のテキスト認識方法を実行するプロセッサーと、
プロセッサーが実行可能な命令を記憶するためのメモリと
を有することを特徴とする電子設備。 - プロセッサーの実行により請求項1~7のいずれか1項に記載のテキスト認識方法を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータの読取可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114235.9 | 2020-02-24 | ||
CN202010114235.9A CN111340023B (zh) | 2020-02-24 | 2020-02-24 | 文本识别方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021135993A JP2021135993A (ja) | 2021-09-13 |
JP7026165B2 true JP7026165B2 (ja) | 2022-02-25 |
Family
ID=71181781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020085898A Active JP7026165B2 (ja) | 2020-02-24 | 2020-05-15 | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11132576B2 (ja) |
JP (1) | JP7026165B2 (ja) |
CN (1) | CN111340023B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783695B (zh) * | 2020-07-06 | 2022-06-07 | 北京易真学思教育科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN113254653B (zh) * | 2021-07-05 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 一种文本分类方法、***、设备及介质 |
CN113723422B (zh) * | 2021-09-08 | 2023-10-17 | 重庆紫光华山智安科技有限公司 | 车牌信息确定方法、***、设备及介质 |
CN113780229A (zh) * | 2021-09-18 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 文本识别方法及装置 |
CN115937843B (zh) * | 2023-01-09 | 2023-05-26 | 苏州浪潮智能科技有限公司 | 图像的文本检测方法、装置、存储介质和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020119559A (ja) | 2019-01-28 | 2020-08-06 | 富士通株式会社 | 文字認識方法及び文字認識装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130066444A (ko) * | 2011-12-12 | 2013-06-20 | 한국전자통신연구원 | 자동차 번호판 내에서 문자 영역을 추출하기 위한 장치 및 그 방법 |
US10467465B2 (en) * | 2015-07-20 | 2019-11-05 | Kofax, Inc. | Range and/or polarity-based thresholding for improved data extraction |
CN105809164B (zh) * | 2016-03-11 | 2019-05-14 | 北京旷视科技有限公司 | 文字识别方法和装置 |
CN106446899A (zh) * | 2016-09-22 | 2017-02-22 | 北京市商汤科技开发有限公司 | 文字检测方法和装置、及文字检测训练方法和装置 |
CN107563377A (zh) * | 2017-08-30 | 2018-01-09 | 江苏实达迪美数据处理有限公司 | 一种利用边缘和文字区域的证件关键区域检测定位方法 |
CN108564084A (zh) * | 2018-05-08 | 2018-09-21 | 北京市商汤科技开发有限公司 | 文字检测方法、装置、终端及存储介质 |
CN110717366A (zh) * | 2018-07-13 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 文本信息的识别方法、装置、设备及存储介质 |
CN109447015A (zh) * | 2018-11-03 | 2019-03-08 | 上海犀语科技有限公司 | 一种处理表格图片中框选文字的方法及装置 |
CN109948507B (zh) * | 2019-03-14 | 2021-05-07 | 北京百度网讯科技有限公司 | 用于检测表格的方法和装置 |
CN110533079B (zh) * | 2019-08-05 | 2022-05-24 | 贝壳技术有限公司 | 形成图像样本的方法、装置、介质以及电子设备 |
-
2020
- 2020-02-24 CN CN202010114235.9A patent/CN111340023B/zh active Active
- 2020-05-15 JP JP2020085898A patent/JP7026165B2/ja active Active
- 2020-06-15 US US16/901,154 patent/US11132576B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020119559A (ja) | 2019-01-28 | 2020-08-06 | 富士通株式会社 | 文字認識方法及び文字認識装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111340023A (zh) | 2020-06-26 |
CN111340023B (zh) | 2022-09-09 |
US11132576B2 (en) | 2021-09-28 |
US20210264189A1 (en) | 2021-08-26 |
JP2021135993A (ja) | 2021-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7026165B2 (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
US10896349B2 (en) | Text detection method and apparatus, and storage medium | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN110008809B (zh) | 表格数据的获取方法、装置和服务器 | |
CN111401371B (zh) | 一种文本检测识别方法、***及计算机设备 | |
CN108427950B (zh) | 一种文字行检测方法及装置 | |
CN108108731B (zh) | 基于合成数据的文本检测方法及装置 | |
KR20160132842A (ko) | 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법 | |
CN108108734B (zh) | 一种车牌识别方法及装置 | |
CN112070649B (zh) | 一种去除特定字符串水印的方法及*** | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN109508716B (zh) | 一种图像文字的定位方法及装置 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN111598076B (zh) | 一种标签图像中日期检测处理方法及装置 | |
CN115240203A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
CN112418220A (zh) | 一种单字检测方法、装置、设备及介质 | |
JP5385372B2 (ja) | 文字認識装置及び文字認識方法 | |
CN114550062A (zh) | 图像中运动对象的确定方法、装置、电子设备和存储介质 | |
CN113095313A (zh) | 文本字符串的识别方法、装置和服务器 | |
CN114758145B (zh) | 一种图像脱敏方法、装置、电子设备及存储介质 | |
CN111898602B (zh) | 一种图像中的凭证号码区域识别方法、装置及设备 | |
CN116386064A (zh) | 图像文本的检测方法、装置、设备和可读存储介质 | |
KR20220168787A (ko) | 만주어의 글자 추출 방법 및 이를 수행하는 시스템 | |
KR20240044777A (ko) | 실시간 물체 감지 네트워크 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211012 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20211012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7026165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |