CN113111881A - 信息处理装置及记录媒体 - Google Patents
信息处理装置及记录媒体 Download PDFInfo
- Publication number
- CN113111881A CN113111881A CN202010909037.1A CN202010909037A CN113111881A CN 113111881 A CN113111881 A CN 113111881A CN 202010909037 A CN202010909037 A CN 202010909037A CN 113111881 A CN113111881 A CN 113111881A
- Authority
- CN
- China
- Prior art keywords
- character string
- character
- information processing
- mark
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
一种信息处理装置及记录媒体,所述信息处理装置(10)从文件(2)的图像中提取在提取表(15)中设定的标记(4),并以所提取的标记(4)为基准,对与标记(4)预先建立了对应的读取位置所表示的方向上的区域进行字符识别,来获取所述区域中的字符串。本发明的课题在于:利用文件中所写入的记号,也进行除用于指定进行字符识别的区域的指示以外的指示。
Description
技术领域
本发明涉及一种信息处理装置及记录媒体。
背景技术
在专利文献1中公开了一种图像处理装置,从所输入的文本图像中提取信息项目的值,所述图像处理装置包括:提取项目存储部,存储包括作为提取对象的信息项目的项目名在内的提取项目信息;字符识别部,对所述文本图像执行字符识别;项目名提取部,从由字符识别部输出的字符识别结果中,提取与存储于提取项目存储部中的提取对象的项目名相应的字符串;项目值提取部,从所述文本图像中的与项目名相应的字符串的附近位置,提取与所述项目名对应的项目值的字符串;以及提取信息制作部,将项目值提取部所提取的项目值的字符串与项目名建立对应,来制作提取信息。
在专利文献2中公开了一种信息处理装置,包括:获取构件,获取手写信息,所述手写信息表示使用书写工具进行手写时的所述书写工具的时间序列的位置变化;检测构件,基于所获取的所述手写信息检测手写记号;转换构件,基于所获取的所述手写信息来生成手写图像,并对所述手写图像的全部区域中的、检测出所述手写记号的位置附近的规定区域进行字符识别处理,由此将所述手写图像转换为字符串;以及手写记号对应构件,根据检测出所述手写记号的情况,执行与所述手写记号对应的规定处理,并将所述字符串应用于所述规定处理。
[现有技术文献]
[专利文献]
[专利文献1]日本专利特开2007-233913号公报
[专利文献2]日本专利5459046号公报
发明内容
[发明所要解决的问题]
即便原样保存文件也难以进行文本的活用,因此正在推进对文件进行光学字符识别(Optical Character Recognition,OCR)处理,将文件的内容保存为字符数据的文件电子化。
用户在不需要对文件的整个页面进行电子化的情况下,有时例如在文件中以手写方式写入记号,并指示进行OCR处理的信息处理装置在记号附近的区域中进行字符识别。
在此情况下,即便是由于想要进行字符识别的字符串的记载位置的关系、例如空白少而难以写入记号的部位,也不得不在想要进行字符识别的字符串的附近写入记号,因此,有时记号会与其他字符重叠或变得过小,从而无法良好地进行字符识别。
因此,有时例如使用以下方法:一边观看信息处理装置的画面上所显示的文件的图像,一边向信息处理装置指定进行字符识别的区域。
然而,由于用户例如是在比文件的尺寸小的画面上一边移动或放大文件的图像一边指定进行字符识别的区域,因此与在文件上以手写方式写出进行字符识别的区域的情况相比,操作性差。
本发明的目的在于提供一种信息处理装置及记录媒体,与在文件中写入记号来指示在记号附近的区域中进行字符识别的情况相比,还可进行区域的指定以外的指示。
[解决问题的技术手段]
第一实施例的信息处理装置包括处理器,所述处理器从文件的图像中提取预先指定的标志,以所述标志的位置为基准,对与所述标志预先建立了对应的方向上所存在的区域进行字符识别,来获取所述区域中所含的字符串。
第二实施例的信息处理装置是根据第一实施例所述的信息处理装置,其中,所述处理器对所述区域中的指定范围进行字符识别,来获取所述指定范围中所含的所述字符串。
第三实施例的信息处理装置是根据第二实施例所述的信息处理装置,其中,在与所述标志预先建立了对应的方向上不存在所述指定范围的情况下,所述处理器不获取所述字符串。
第四实施例的信息处理装置是根据第一实施例至第三实施例中任一实施例所述的信息处理装置,其中,为了在与所述标志预先建立了关联的应用中利用通过字符识别而获取的所述字符串,所述处理器将所述字符串转换为在所述应用中利用的数据格式,并将转换了数据格式后的所述字符串通知给所述应用。
第五实施例的信息处理装置是根据第四实施例所述的信息处理装置,其中,所述处理器将所述字符串以及与所述标志预先建立了关联的所述字符串的属性一并通知给所述应用,并对所述应用进行控制,以使所述应用将所述字符串分类为属性单位来予以输出。
第六实施例的信息处理装置是根据第一实施例至第五实施例中任一实施例所述的信息处理装置,其中,所述处理器从表示对于字符识别结果的准确程度的可信度高于预定值的所述字符串中,将用作所述标志的字符推荐给用户。
第七实施例的记录媒体记录有信息处理程序,所述信息处理程序是用于使计算机执行下述处理的程序:从文件的图像中提取预先指定的标志,以所述标志的位置为基准,对与所述标志预先建立了对应的方向上所存在的区域进行字符识别,来获取所述区域中所含的字符串。
[发明的效果]
根据第一实施例及第七实施例,具有如下效果:与在文件中写入记号来指示在记号附近的区域中进行字符识别的情况相比,还可进行区域的指定以外的指示。
根据第二实施例,具有如下效果:与仅通过标志来指定进行字符识别的区域的情况相比,可明确地指定想要进行字符识别的范围。
根据第三实施例,具有如下效果:与仅通过标志来指定进行字符识别的区域的情况相比,可降低从文件的画面中获取未预期的字符串的状况的发生频率。
根据第四实施例,具有如下效果:仅进行字符识别便可将进行字符识别而得的字符串通知给应用。
根据第五实施例,具有如下效果:即便用户不进行编辑作业,也可使属性相同的字符串彼此汇总而从应用输出。
根据第六实施例,具有如下效果:与使用用户所指定的标志的情况相比,进行字符识别的区域的遗漏减少。
附图说明
图1是表示信息处理装置的功能结构例的框图。
图2是表示文件的图像的一例的图。
图3是表示由边界线包围字符串的方式的一例的图。
图4是表示提取表的一例的图。
图5是表示信息处理装置中的电气***的主要部分结构例的图。
图6是表示字符识别处理的一例的流程图。
图7是表示通过字符识别而获取的字符串的一例的图。
图8是表示所获取的字符串的分类例的图。
图9的(A)、图9的(B)是表示应用所输出的字符串的输出例的图。
图10是表示应用所输出的字符串的另一输出例的图。
图11是表示记载有文字的文件的图像例的图。
图12是表示从记载有文字的文件的图像中获取的字符串的一例的图。
[符号的说明]
2(2A):文件
4(4A、4B、4C):标记
6:指定范围
10:信息处理装置
11:接收部
12:控制部
13:OCR识别部
14:转换部
15:提取表
20:计算机
21:CPU
22:ROM
23:RAM
24:非易失性存储器
25:I/O
26:总线
27:通信单元
28:输入单元
29:显示单元
具体实施方式
以下,参照附图对本实施方式进行说明。此外,在所有附图中,对相同的构成部件及相同的处理赋予相同的符号,并省略重复的说明。
所谓本实施方式的“字符串”,是指一字符以上的字符的串联。所谓字符是由字符代码表示的符号,例如包括平假名、片假名、汉字、字母、记号及图符的图形等。
图1是表示信息处理装置10的功能结构例的框图,所述信息处理装置10接收通过例如扫描仪装置等以光学方式读取文件2的内容而生成的文件2的图像,对所接收的文件2的图像执行OCR处理,并进行文件2中所记载的字符串的字符识别。此处,作为一例,将扫描仪装置与信息处理装置10作为独立装置来进行说明,但信息处理装置10也可在内部包括扫描仪装置。
如图1所示,信息处理装置10包括作为接收部11、控制部12、OCR识别部13及转换部14的各功能部、以及提取表15。
接收部11接收作为字符识别的对象的文件2的图像,并且接收来自信息处理装置10的操作者(以下,称为“用户”)的指示。接收部11可通过未图示的通信线路接收文件2的图像,另外,可通过存储卡或通用串行总线(Universal Serial Bus,USB)存储器等便携式的半导体存储器接收文件2的图像。接收部11将所接收的文件2的图像移交至控制部12。
图2是表示由接收部11接收的文件2的一例的图。在由接收部11接收的文件2的图像中,例如包含标记4A、标记4B及标记4C那样的用户在文件2中以手写方式写入的标记4、以及由用户以包围文件2中所记载的字符串的方式手写写入的边界线所表示的指定范围6。
此外,在不需要区别说明标记4A、标记4B及标记4C的情况下,将标记4A、标记4B及标记4C汇总表示为“标记4”。标记4是本实施方式的标志的一例。在图2所示的文件2的例子中,作为标记4A使用了矩形,作为标记4B使用了叉号标志,作为标记4C使用了日元的货币记号。手写在文件2中的标记4的种类与含义在提取表15中进行了定义,用户将提取表15中所定义的标记4以手写方式写在文件2中。
标记4所使用的字符串可为任意的字符串,并不限于图形、记号,也可为平假名、片假名、汉字或字母。另外,例如也可如这样由两字符以上的字符串表示标记4,还可如“标志A”这样组合字符种类不同的字符来表示标记4。
指定范围6表示通过OCR识别部13进行字符识别的范围。对表示指定范围6的边界线的种类及形状并无限制,例如可为实线,也为虚线或单点划线,另外,还可为波浪线或双重线那样的线的种类。另外,边界线的形状可为圆、椭圆、矩形等任意的形状。进而,未必需要以边界线的起点与终点成为相同位置的方式引出边界线,即,未必需要以封闭的边界线环绕字符串。例如,即便如图3所示,边界线的起点与终点处于不同的位置处,只要由信息处理装置10正确地推测由边界线包围的字符串,则字符串的包围方式并无限制。
此外,用户未必需要在文件2中写入边界线来明确表示指定范围6,但是以下设为用户在文件2中明确示出指定范围6来进行说明。
信息处理装置10参照文件2中所写入的标记4、指定范围6及提取表15,从文件2中确定进行字符识别的区域,关于其确定方法将在之后详细说明。
控制部12对OCR识别部13进行控制,以便对从接收部11移交的文件2的图像进行字符识别。具体而言,控制部12参照提取表15,向OCR识别部13指示进行字符识别的区域。
图4是表示提取表15的一例的图。如图4所示,提取表15中包括标记栏、属性栏、读取位置栏及处理栏。
在标记栏中设定写在文件2中的各个标记4。在图4的提取表15的例子中,设定有图2所示的文件2的图像中所含的标记4A、标记4B及标记4C。
在属性栏中设定与标记4对应的字符串的属性。所谓字符串的属性规定了由字符串表示的内容的种类,在图4的提取表15的例子中,对标记4A设定了“预定”的属性,对标记4B设定了“完成”的属性,对标记4C设定了“金额”的属性。
在读取位置栏中设定以标记4的位置为基准的进行字符识别的区域的方向。在图4的提取表15的例子中,对标记4A设定了“右”的读取位置,对标记4B设定了“下”的读取位置,对标记4C设定了“左”的读取位置。
在处理栏中设定与各标记4预先建立了关联的应用,所述应用将通过字符识别而获取的字符串作为输入来进行处理。在图4的提取表15的例子中,对标记4A及标记4B设定了“备忘录”的应用,对标记4C设定了“电子表格”的应用。所谓处理栏的“备忘录”例如表示如记事本那样包括字符串的编辑功能的应用,所谓“电子表格”表示包括通过在排列成格子状的单元格(cell)中输入数字来进行数值的统计或分析的功能的应用。
若应用可被唯一地确定,则无需在提取表15的处理栏中设定应用的正式名称,例如可设定应用的简称、应用所提供的功能的种类名称及执行文档名等。
此外,将沿提取表15的行方向建立了对应的标记4、属性、读取位置及处理的组合所表示的各个信息称为“提取信息”。
控制部12通过将由提取表15定义的标记4与读取位置的组合通知给OCR识别部13,向OCR识别部13指示从文件2的图像中进行字符识别的区域。
OCR识别部13从文件2的图像中提取出从控制部12通知的标记4,针对所提取的每个标记4,以标记4为基准,对与标记4建立了对应的读取位置所表示的方向上存在的区域进行字符识别,并获取指定方向上的区域内所含的字符串。OCR识别部13将通过字符识别而获取的字符串分别与进行字符识别时作为字符串的读取位置的基准而使用的标记4建立对应并通知给控制部12。
从OCR识别部13收到了字符串的控制部12将OCR识别部13中所获取的字符串通知给转换部14。
转换部14参照提取表15,经由建立了对应的标记4来确定与字符串建立了关联的应用,并将所获取的字符串转换为在相关联的应用中可使用的数据格式,以便在与字符串相关联的应用中利用各个字符串。
在转换部14中将字符串转换为在相关联的应用中可使用的数据格式之后,控制部12启动与各个字符串相关联的应用。控制部12在将转换了数据格式后的字符串与字符串的属性建立对应之后,使相关联的应用分别读入各字符串,并对应用进行控制,以便将应用中所读入的字符串分类为属性单位并输出。
此外,信息处理装置10也可在内部包括以光学方式读取文件2的内容的扫描装置。
接着,对信息处理装置10中的电气***的主要部分结构例进行说明。
图5是表示信息处理装置10中的电气***的主要部分结构例的图。信息处理装置10例如使用计算机20而构成。
计算机20包括:担当信息处理装置10的各功能部的中央处理器(CentralProcessing Unit,CPU)21、存储使计算机20作为图1所示的各功能部发挥功能的信息处理程序的只读存储器(Read Only Memory,ROM)22、用作CPU 21的暂时的作业区域的随机存取存储器(Random Access Memory,RAM)23、非易失性存储器24及输入输出接口(Input/Output,I/O)25。而且,CPU 21、ROM 22、RAM 23、非易失性存储器24及I/O 25分别经由总线26而连接。
非易失性存储器24是即便向非易失性存储器24供给的电力被阻断,也维持已存储的信息的存储装置的一例,例如可使用半导体存储器,但也可使用硬盘。非易失性存储器24未必需要内置于计算机20中,例如也可为相对于计算机20可拆装的便携式的存储装置。
I/O 25例如与通信单元27、输入单元28及显示单元29连接。
通信单元27与未图示的通信线路连接,并包括与连接于未图示的通信线路的外部装置之间进行数据通信的通信协议。在未图示的通信线路中使用的通信协议的种类并无限制。另外,未图示的通信线路可为有线线路,也可为无线线路,还可为有线线路与无线线路混合存在的线路。进而,未图示的通信线路可为专用线路,也可为如因特网那样与不确定的多个用户共享线路的公共线路。
输入单元28是接收用户的指示并通知给CPU 21的装置,例如可使用按钮、触摸屏、键盘及鼠标等。在用户的指示是通过音声来进行的情况下,作为输入单元28而有时使用麦克风。
显示单元29是显示由CPU 21处理后的信息的装置,例如可使用液晶显示器及有机电致发光(Electro Luminescence,EL)显示器等。
此外,与I/O 25连接的单元并不限定于图5所示的各单元,例如也可连接如在纸张等记录介质形成图像的图像形成单元那样的其他单元。另外,在并非通过未图示的通信线路从扫描装置获取文件2的图像,而是通过便携式的半导体存储器获取文件2的图像的情况下,信息处理装置10未必需要包括通信单元27。
相反,在利用云服务(cloud service)构建信息处理装置10的情况下,对信息处理装置10而言必需通信单元27,但有时不需要输入单元28及显示单元29。
接着,对进行文件2的图像中所含的字符串的字符识别的信息处理装置10的运行进行详细说明。
图6是表示在接收了文件2的图像的情况下由信息处理装置10的CPU 21执行的字符识别处理的一例的流程图。对字符识别处理进行规定的信息处理程序例如预先存储于信息处理装置10的ROM 22中。信息处理装置10的CPU 21读入ROM 22中所存储的信息处理程序,并执行字符识别处理。
以下,以接收了图2所示的文件2的图像的情况为例对信息处理装置10的运行进行说明。此外,设为图4所示的提取表15预先存储于非易失性存储器24中。
在步骤S10中,CPU 21使用公知的图案识别手法等,从所接收的文件2的图像中检测在提取表15的标记栏中定义的标记4。CPU 21参照提取表15,获取与检测出的标记4建立了对应的读取位置,并对读取位置所表示的方向上所存在的区域进行字符识别。即,CPU 21并非将文件2的图像整体设为字符识别的对象范围,另外,也并非将距标记4为预定范围内的区域、即标记4的附近设为字符识别的对象范围。CPU 21将以标记4为基准的指定方向上所存在的区域作为字符识别的对象范围。
在从文件2的图像中检测出标记4A的情况下,CPU 21对标记4A的右方向上所存在的区域进行字符识别。在从文件2的图像中检测出标记4B的情况下,CPU 21对标记4B的下方向上所存在的区域进行字符识别。在从文件2的图像中检测出标记4C的情况下,CPU 21对标记4C的左方向上所存在的区域进行字符识别。
当如图2所示由边界线设定了用于指定作为字符识别的对象的字符串的范围的指定范围6时,CPU 21对与标记4建立了对应的读取位置所表示的方向上所存在的区域中的、位于指定范围6内的字符串进行字符识别。通过由边界线示出指定范围6,进行字符识别的范围变得明确,因此与仅利用读取位置指定进行字符识别的区域的情况相比,可从文件2的图像中获取仅用户想要获取的字符串。
图7是表示在对图2所示的文件2的图像进行字符识别的情况下所获取的字符串的例子的图。如图7所示,CPU 21将通过字符识别而获取的字符串与经由标记4建立关联的字符串的属性建立对应并存储于RAM 23中。
在图7中表示了以下状况:作为属性为“预定”的字符串而获取“制作文件”、“买书”以及“修改报告”的字符串,作为属性为“完成”的字符串而获取“买点心”及“预约视频”的字符串,作为属性为“金额”的字符串而获取“商品A 1280日元”、“商品B 228日元”及“商品C948日元”的字符串。
此外,在与标记4对应的属性为“金额”的情况下,在所获取的字符串中有时会一并包含例如“日元”或这样的表示货币的字符串与数字,或者包含在表示金额时容易使用的字符串(附带字符串)。因此,CPU 21当在与标记4对应的读取位置所表示的方向上检测出多个指定范围6时,将包含与表示货币的字符串一并使用的数字或附带字符串的指定范围6识别为包含与“金额”的属性对应的字符串的区域即可。此外,在属性为“金额”时的附带字符串中,例如不仅包含作为买卖对象的商品名,还包含“费用”、“销售额”及“利润”等字符串。将此种附带字符串按照属性进行分类并预先存储于非易失性存储器24中即可。
如此,将字符串的属性与具有所述属性的字符串的特征预先建立对应,且CPU 21根据通过字符识别而获取的字符串的特征是否具有所指定的属性的字符串的特征,来判定是否从文件2的图像正确地获取了认为是用户想要获取的字符串。
如上述所示,CPU 21获取与检测出的标记4建立了对应的读取位置,并对读取位置所表示的方向上所存在的区域进行字符识别,但在读取位置所表示的方向上不存在指定范围6的情况下,也可不进行字符识别且不获取字符串。
在步骤S20中,CPU 21参照提取表15,经由在获取各个字符串时使用的标记4,将在步骤S10中获取的字符串按照属性进行分类,并且将按照属性分类后的字符串按照提取表15的处理栏中所设定的应用进行分类。
图8是表示相对于图7所示的字符串的获取例,将字符串按照属性、且按照应用进行分类的一例的图。
在图4所示的提取表15中,与属性为“预定”及“完成”的字符串相关联的应用被设定为“备忘录”,因此属性为“预定”及“完成”的字符串被分类为“备忘录”。另外,在图4所示的提取表15中,与属性为“金额”的字符串相关联的应用被设定为“电子表格”,因此属性为“金额”的字符串被分类为“电子表格”。
在步骤S30中,CPU 21将在步骤S20中经分类的各个字符串的数据格式转换为在作为分类目的地的应用中可使用的数据格式。
例如,若通过字符识别而获取的字符串的数据格式为“转移_日本工业标准(Shift_JIS)”,且在与处理栏的“备忘录”建立了对应的应用(以下,称为“编辑器(editor)”)中可使用的字符串的数据格式为“统一码(Unicode)”,则CPU 21将字符串的数据格式从“Shift_JIS”转换为“Unicode”。另外,若与处理栏的“电子表格”建立了对应的应用(以下,称为“电子表格应用”)只能读入以逗号分隔值(Comma Separated Value,CSV)格式记载的字符串,则CPU 21将字符串的数据格式转换为CSV格式。如此,本实施方式的所谓数据格式的转换不仅包括表示字符串本身的数据格式的转换,而且还包括记载有字符串的文档格式(file format)的转换。
在步骤S40中,CPU 21启动作为字符串的分类目的地的各个应用,并使作为字符串的分类目的地的应用读入在步骤S30中转换了数据格式后的各个字符串。在此情况下,CPU21使应用一并读入各个字符串的属性。
此后,CPU 21对读入了字符串的应用进行控制,以使应用将应用中所读入的字符串分类为属性单位并予以输出,并结束图6所示的字符识别处理。
图9的(A)、图9的(B)是表示读入了图8所示的被分类为“备忘录”的字符串的编辑器所输出的字符串的输出例的图。图9的(A)是与属性“预定”建立了对应的字符串的输出例,图9的(B)是与属性“完成”建立了对应的字符串的输出例。如此,CPU 21将从文件2获取的字符串按照字符串的属性进行分类并从应用输出,因此,即便用户不操作应用来进行按照字符串的属性对字符串进行分类的编辑,文件2中所记载的字符串也在被分类为属性单位后从应用输出。
另一方面,图10是表示读入了图8所示的被分类为“电子表格”的字符串的电子表格应用所输出的字符串的输出例的图。
在图10中,上格的行中所记载的“A”、“B”的字符串以及左侧的列中所记载的“1”~“4”的字符串是用于指定单元格的索引,例如通过指定为单元格“B1”来指定记载有“1280日元”的单元格。
在图10的例子中示出了CPU 21将图8所示的“商品A 1280日元”、“商品B 228日元”及“商品C 948日元”的各字符串转换为“商品A,1280日元”、“商品B,228日元”、“商品C,948日元”这样的将商品名与金额加以组合的CSV格式并读入至电子表格应用的结果,因此商品名与金额被记载于不同的单元格中。
CPU 21不仅对应用进行控制以便将字符串分类为属性单位并予以输出,而且还可对应用进行控制以便使用分类后的字符串进行后处理。在图10的例子中,示出了CPU 21对电子表格应用进行控制以便将从单元格“B1”至单元格“B3”的金额的合计输出至单元格“B4”的结果。
例如,用于在应用中表示字符串的字体的种类、大小、颜色以及对字符串添加下划线等字符串的装饰也是应用中的后处理的一例,且由CPU 21控制。
此外,所谓在应用中输出字符串是指使得用户可识别字符串。具体而言,不仅包括在显示单元29中显示包含字符串的画面的形态,还包括例如利用音声通知字符串的形态;利用未图示的图像形成单元将字符串打印至记录介质的形态;通过未图示的通信线路将包含字符串的数据存储至数据服务器等外部装置,使得用户可通过外部装置进行字符串的确认的形态;及将字符串存储至用户所指定的便携式的半导体存储器的形态。
在上述中,说明了信息处理装置10从如图2所示的例如记载有十字符以下的比较短的字符串的文件2中获取用户所指定的字符串的例子,但信息处理装置10也从如图11所示的文件2A中获取用户所指定的字符串,所述文件2A记载有包含由句号分隔的句子的文字。
在图11所示的文件2A的例子中,依照图4所示的提取表15的定义写入了标记4与指定范围6,因此从文件2A的图像获取如图12所示的字符串。
此外,在图11的文件2A中,在标记4C的左方向上存在“参加费用”与“一万日元”这两个指定范围6,在其中一个指定范围6中一并包含“日元”这一字符串与数字,在另一指定范围6中包含作为属性为“金额”时的附带字符串的“费用”这一字符串。在此种情况下,CPU21也可将各个指定范围6中所指定的区域的字符串当作相关联的一连串的字符串来获取。在图12的例子中,将与标记4C建立了对应的属性为“金额”的字符串作为“参加费用一万日元”这样的一连串的字符串来获取。
如此,用户可不使指定范围6与标记4一对一地建立对应,而是利用一个标记4来使属性与多个指定范围6建立对应。
此外,当在图6的步骤S10中从文件2的图像中检测出提取表15的标记栏中所定义的标记4时,CPU 21可输出可信度。所谓可信度是相对于字符识别结果的表示准确程度的值,且可信度的值越大,表示未将文件2的图像中所含的标记4误认为其他标记4而是正确地识别的概率越高。只要遵循此种评价尺度,则可信度的算出方法并无限制。在本实施方式的信息处理装置10中,使用采纳了人的视觉机制的字符识别方法,将手写字符的输入图像与字符识别结果之间的类似度的关系规则化,来算出可信度。
因此,当用户在提取表15中设定的标记4中包含容易被误认为是其他标记4的标记4时,可见从文件2的图像中检测出的标记4的可信度变低的倾向。因此,例如将各种标记4的可信度预先存储于非易失性存储器24中,当检测出的标记4的可信度为预定值以下时,CPU21从存储于非易失性存储器24的标记4中将示出比预定值高的可信度的标记4显示于显示单元29,从而代替可信度为预定值以下的标记4来推荐给用户。
存储于非易失性存储器24的标记4的可信度并非固定值,CPU 21可使用每次从文件2的图像中检测标记4时获得的可信度来更新对应的标记4的可信度。例如,关于各标记4,可在每次获得可信度时算出可信度的移动平均值,并将所算出的移动平均值作为所述标记4的新的可信度。
此外,关于可信度的所谓预定值,是指开始发生从文件2的图像中错误地检测出提取表15中所未设定的标记4来作为提取表15中所设定的标记4的状况的最低限度的可信度。
另外,用户例如也可在标记4之后组合数字来指定指定范围6,以代替使用边界线指定指定范围6。例如,在想要对标记4的右方向上的且距标记4的距离处于2cm至4cm的范围内的字符串进行字符识别的情况下,也可进行如“□2-4”这样的指定。CPU 21依据此种预定的指定范围6的指定方法来确定进行字符识别的区域。
如此,根据本实施方式的信息处理装置10,将用户以手写方式写在文件2中的标记4为基准,在标记4所表示的方向上存在的区域内进行字符识别。因此,仅通过利用扫描装置等以光学方式读取文件2的内容,便从文件2确定出进行字符识别的区域。
另外,信息处理装置10将通过字符识别而获取的字符串按照与标记4建立了对应的属性进行分类,并使与标记4建立了对应的应用读入分类后的字符串。因此,将从文件2的图像获取字符串的工序、与使用所获取的字符串进行处理的工序经一体化,故与单独进行各个工序的情况相比,用户的操作性提高。
以上,使用实施方式对本发明进行了说明,但本发明并不限定于实施方式中记载的范围。可在不脱离本发明的主旨的范围内对实施方式施加多种变更或改良,施加了所述变更或改良的形态也包含在本发明的技术范围内。例如,也可在不脱离本发明的主旨的范围内变更处理的顺序。
另外,在实施方式中,作为一例,对通过软件来实现字符识别处理的形态进行了说明,但也可将与图6所示的流程图同等的处理安装于例如专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)、或可编程逻辑元件(Programmable Logic Device,PLD)中,通过硬件来进行处理。在此情况下,与通过软件来实现字符识别处理的情况相比,可谋求处理的高速化。
如此,也可将信息处理装置10的CPU 21替换成例如ASIC、FPGA、PLD、图形处理单元(Graphics Processing Unit,GPU)、及浮点运算单元(Floating Point Unit,FPU)等专注于特定的处理的专用的处理器。
实施方式的信息处理装置10的运行不仅可为由一个CPU 21来实现的形态,也可由多个CPU 21来实现。进而,实施方式的信息处理装置10的运行也可由位于在物理上分离的位置的计算机20中的CPU 21的协作来实现。
另外,在所述实施方式中,对将信息处理程序安装于ROM 22的形态进行了说明,但并不限定于此。实施方式的信息处理程序也可以已被记录在可由计算机20读取的存储介质中的形态来提供。例如,也可以已记录在小型光盘-只读存储器(Compact Disk Read OnlyMemory,CD-ROM)、数字通用光盘-只读存储器(Digital Versatile Disk Read OnlyMemory,DVD-ROM)等光盘中的形态来提供信息处理程序。另外,也可以已记录在USB存储器或存储卡等可携式的半导体存储器中的形态来提供实施方式的信息处理程序。
进而,信息处理装置10也可经由通信单元27而从连接于未图示的通信线路的外部装置获取信息处理程序。
Claims (7)
1.一种信息处理装置,包括处理器,
所述处理器从文件的图像中提取预先指定的标志,
以所述标志的位置为基准,对与所述标志预先建立了对应的方向上所存在的区域进行字符识别,来获取所述区域中所含的字符串。
2.根据权利要求1所述的信息处理装置,其中,
所述处理器对所述区域中的指定范围进行字符识别,来获取所述指定范围中所含的所述字符串。
3.根据权利要求2所述的信息处理装置,其中,
在与所述标志预先建立了对应的方向上不存在所述指定范围的情况下,所述处理器不获取所述字符串。
4.根据权利要求1至3中任一项所述的信息处理装置,其中,
为了在与所述标志预先建立了关联的应用中利用通过字符识别而获取的所述字符串,所述处理器将所述字符串转换为在所述应用中利用的数据格式,并将转换了数据格式后的所述字符串通知给所述应用。
5.根据权利要求4所述的信息处理装置,其中,
所述处理器将所述字符串以及与所述标志预先建立了关联的所述字符串的属性一并通知给所述应用,
并对所述应用进行控制,以使所述应用将所述字符串分类为属性单位来予以输出。
6.根据权利要求1至5中任一项所述的信息处理装置,其中,
所述处理器从相对于字符识别结果的表示准确程度的可信度高于预定值的所述字符串中,将用作所述标志的字符推荐给用户。
7.一种记录媒体,其记录有信息处理程序,所述信息处理程序使电脑执行下述处理:
从文件的图像中提取预先指定的标志,
以所述标志的位置为基准,对与所述标志预先建立了对应的方向上所存在的区域进行字符识别,来获取所述区域中所含的字符串。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-003225 | 2020-01-10 | ||
JP2020003225A JP2021111157A (ja) | 2020-01-10 | 2020-01-10 | 情報処理装置、及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113111881A true CN113111881A (zh) | 2021-07-13 |
Family
ID=76708958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010909037.1A Pending CN113111881A (zh) | 2020-01-10 | 2020-09-02 | 信息处理装置及记录媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11508139B2 (zh) |
JP (1) | JP2021111157A (zh) |
CN (1) | CN113111881A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11763073B2 (en) * | 2021-08-20 | 2023-09-19 | Sap Se | Multi-dimensional table reproduction from image |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58169679A (ja) * | 1982-03-31 | 1983-10-06 | Comput Basic Mach Technol Res Assoc | 文章読取り装置後処理方式 |
JPS5975375A (ja) * | 1982-10-21 | 1984-04-28 | Sumitomo Electric Ind Ltd | 文字認識装置 |
JP2007233913A (ja) | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
CN101340395A (zh) * | 2008-08-28 | 2009-01-07 | 北京搜狗科技发展有限公司 | 邮件地址补全方法及装置 |
JP5459046B2 (ja) | 2010-04-27 | 2014-04-02 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム、並びに情報処理システム |
EP2757502B1 (en) * | 2011-09-16 | 2017-04-12 | NEC Corporation | Image processing apparatus, image processing method, and image processing program |
JP6707825B2 (ja) * | 2015-09-14 | 2020-06-10 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
CN107534710B (zh) * | 2016-02-29 | 2019-07-23 | 京瓷办公信息***株式会社 | 电子设备以及标记处理方法 |
JP7259403B2 (ja) * | 2019-02-27 | 2023-04-18 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN110196646A (zh) * | 2019-05-29 | 2019-09-03 | 维沃移动通信有限公司 | 一种信息输入方法及移动终端 |
US11520827B2 (en) * | 2019-06-14 | 2022-12-06 | Dell Products L.P. | Converting unlabeled data into labeled data |
JP7310354B2 (ja) * | 2019-06-25 | 2023-07-19 | 株式会社リコー | 画像処理装置、画像形成装置および画像処理方法 |
EP3772015B1 (en) * | 2019-07-31 | 2023-11-08 | MyScript | Text line extraction |
-
2020
- 2020-01-10 JP JP2020003225A patent/JP2021111157A/ja active Pending
- 2020-09-02 CN CN202010909037.1A patent/CN113111881A/zh active Pending
- 2020-09-14 US US17/020,768 patent/US11508139B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11508139B2 (en) | 2022-11-22 |
JP2021111157A (ja) | 2021-08-02 |
US20210216803A1 (en) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100359961B1 (ko) | 문자 분할 사용자 인터페이스를 갖춘 수기 정보 처리 시스템 | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JP2006221569A (ja) | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 | |
JP2005216203A (ja) | 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置 | |
JP2012212293A (ja) | 文書認識装置、文書認識方法、プログラム及び記憶媒体 | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
Saad et al. | BCE-Arabic-v1 dataset: Towards interpreting Arabic document images for people with visual impairments | |
US20150261735A1 (en) | Document processing system, document processing apparatus, and document processing method | |
CN113111881A (zh) | 信息处理装置及记录媒体 | |
JP2012181653A (ja) | 採点方法、採点方法のプログラム及び採点システム | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
JPWO2014068770A1 (ja) | データ抽出方法、データ抽出装置及びそのプログラム | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
Kasar et al. | MAST: Multi-script annotation toolkit for scenic text | |
JP2014078168A (ja) | 文字認識装置及びプログラム | |
US20210064815A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
JP6682827B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2005108032A (ja) | 筆跡処理装置 | |
JP7430219B2 (ja) | 文書情報構造化装置、文書情報構造化方法およびプログラム | |
CN110909723B (zh) | 信息处理装置及计算机可读存储介质 | |
JP7229318B1 (ja) | 新聞電子版システム | |
JP2013182459A (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2023062799A1 (ja) | 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |