CN116569225B

CN116569225B - 文档图像识别***

Info

Publication number: CN116569225B
Application number: CN202080103301.0A
Authority: CN
Inventors: 岩村光贵; 横田守真; 三轮刚久; 长谷川康次; 小田仁己; 奥村诚司; 小平孝之; 齐藤启太; 榎本嵩久
Original assignee: Mitsubishi Electric Building Solutions Corp
Current assignee: Mitsubishi Electric Building Solutions Corp
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2024-04-30
Anticipated expiration: 2040-08-24
Also published as: JPWO2022044067A1; JP7134380B2; WO2022044067A1; CN116569225A

Abstract

文档图像识别***(100)包含用户终端(10)、中心服务器(20)和云API(31)，其中，中心服务器(20)具有选择数据库(24)，该选择数据库(24)存储有在进行了输入文档图像的字符识别处理时字符识别的正解率最大的字符识别云API(31)，用户终端(10)将取得的文档图像作为处理对象文档图像发送到中心服务器(20)，中心服务器(20)从处理对象文档图像中提取特征，根据提取出的特征选择一个字符识别云API(31)，向选择出的一个字符识别云API(31)发送处理对象文档图像。

Description

文档图像识别***

技术领域

涉及利用字符识别云API的文档图像识别***。

背景技术

公知有利用云服务提供的字符识别功能应用程序接口(以下称作字符识别云API)的文档图像识别***。在该***中，多数情况下，使用事先准备的试验用图像对多个字符识别云API的正解率、处理速度进行评价，选定字符识别云API，使选定的字符识别云API执行字符识别处理(例如参照专利文献1)。

现有技术文献

专利文献

专利文献1：日本特开2008-293354号公报

发明内容

发明要解决的课题

另一方面，在字符识别云API中，字符识别的正解率有时根据文档图像的特征而不同。因此，在事先输入了具有与在评价字符识别云API时使用的试验用图像不同的特征的文档图像的情况下，有时与事先评价不同的字符识别云API成为最佳。因此，文档图像识别***的字符识别精度有时降低。

因此，本发明的目的在于，提供字符识别精度高的文档图像识别***。

用于解决课题的手段

本发明的文档图像识别***包含：用户终端，其取得文档图像；中心服务器，其利用通信线路与所述用户终端连接；以及多个字符识别云API，它们利用通信线路与所述中心服务器连接，进行被输入的文档图像的字符识别处理，输出字符识别结果，其特征在于，所述中心服务器具有选择数据库，该选择数据库存储有输入文档图像的特征和在进行了所述输入文档图像的字符识别处理时字符识别的正解率在多个字符识别云API中最大的字符识别云API的组，所述用户终端将取得的文档图像作为处理对象文档图像发送到所述中心服务器，所述中心服务器在从所述用户终端接收到的所述处理对象文档图像中提取所述处理对象文档图像的特征，从所述选择数据库中存储的所述输入文档图像的特征中选择与所述处理对象文档图像的特征最相似的所述输入文档图像的特征，选择与选择出的所述输入文档图像的特征成组的一个字符识别云API，向选择出的一个字符识别云API发送所述处理对象文档图像，从一个字符识别云API接收字符识别结果，将接收到的字符识别结果发送到所述用户终端。

这样，选择最适合于从用户终端接收到的处理对象文档图像的字符识别处理的字符识别云API，使该字符识别云API进行字符识别处理，因此，能够提高文档图像识别***的字符识别精度。

在本发明的文档图像识别***中，也可以是，所述用户终端在从所述中心服务器接收到字符识别结果时，将用户输入的所述处理对象文档图像中包含的正解字符串输出到所述中心服务器，所述中心服务器在被所述用户终端输入了所述正解字符串的情况下，将所述处理对象文档图像发送到各字符识别云API，所述中心服务器从各字符识别云API分别接收字符识别结果，所述中心服务器根据接收到的字符识别结果的正解度，进行与所述选择数据库的各字符识别云API成组的各输入文档图像的各特征的更新、以及向所述选择数据库追加输入文档图像的特征与字符识别云API的组中的任意一方或双方。

由此，能够实现选择数据库的最佳化，能够提高文档图像识别***的字符识别精度。

在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中的至少一方为正解的情况下，并且处理对象文档图像的特征和与选择出的一个字符识别云API成组的输入文档图像的特征的相似值为规定的阈值以上的情况下，所述中心服务器根据处理对象文档图像的特征对与选择出的一个字符识别云API成组的输入文档图像的特征进行更新。

此外，在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从其他字符识别云API接收到的字符识别结果中的至少一方为正解的情况下，并且处理对象文档图像的特征和与选择出的一个字符识别云API成组的输入文档图像的特征的相似值小于规定的阈值的情况下，所述中心服务器将处理对象文档图像的特征与选择出的一个字符识别云API的组追加到选择数据库中。

此外，在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中的至少一方为正解的情况下，并且处理对象文档图像的特征和与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征的相似值为规定的阈值以上的情况下，根据处理对象文档图像的特征，对与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征进行更新。

此外，在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从其他字符识别云API接收到的字符识别结果中的至少一方为正解的情况下，并且处理对象文档图像的特征和与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征的相似值小于规定的阈值的情况下，所述中心服务器将处理对象文档图像的特征与其他字符识别云API中字符识别结果为正解的字符识别云API的组追加到选择数据库中。

此外，在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中没有正解的情况下，并且处理对象文档图像的特征和与选择出的一个字符识别云API成组的输入文档图像的特征的相似值为规定的阈值以上的情况下，所述中心服务器根据处理对象文档图像的特征对与选择出的一个字符识别云API成组的输入文档图像的特征进行更新。

此外，在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中没有正解的情况下，并且处理对象文档图像的特征和与选择出的一个字符识别云API成组的输入文档图像的特征的相似值小于规定的阈值的情况下，所述中心服务器将处理对象文档图像的特征与选择出的一个字符识别云API的组追加到选择数据库中。

此外，在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为非正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中的至少一方为正解的情况下，并且处理对象文档图像的特征和与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征的相似值为规定的阈值以上的情况下，所述中心服务器根据处理对象文档图像的特征，对与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征进行更新。

此外，在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为非正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中的至少一方为正解的情况下，并且处理对象文档图像的特征和与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征的相似值小于规定的阈值的情况下，所述中心服务器将处理对象文档图像的特征与其他字符识别云API中字符识别结果为正解的字符识别云API的组追加到选择数据库中。

此外，在本发明的文档图像识别***中，也可以是，在从选择出的一个字符识别云API接收到的字符识别结果为非正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果1个正解也没有的情况下，所述中心服务器向与输入文档图像的特征成组地存储于选择数据库的字符识别云API以外的别的字符识别云API发送处理对象文档图像，在从别的字符识别云API接收到的字符识别结果为正解的情况下，所述中心服务器将处理对象文档图像的特征与别的字符识别云API的组追加到选择数据库中。

此外，在本发明的文档图像识别***中，也可以是，文档图像的特征包含根据文档图像的像素信息计算的图像特征量、表示由所述用户终端取得了文档图像时的状况的图像属性、以及使用学习机计算的学习特征值中的至少一方。

此外，在本发明的文档图像识别***中，也可以是，所述图像属性是在由所述用户终端取得文档图像时由所述用户终端取得的信息，包含文档图像的亮度、照度、取得场所、取得时间中的至少一方。

此外，在本发明的文档图像识别***中，也可以是，所述选择数据库中存储的字符识别云API是如下的字符识别云API：提取含有字符串已知的多个设定用文档图像的特征，对特征彼此相似的设定用文档图像进行分组，在进行了设定用文档图像的各组中包含的多个设定用文档图像的字符识别时，字符识别的正解率最大，与字符识别云API成组的输入文档图像的特征是代表设定用文档图像的各组的特征的代表特征。

发明效果

本发明能够提供字符识别精度高的文档图像识别***。

附图说明

图1是示出实施方式的文档图像识别***的结构的***图。

图2是示出通用计算机的结构的***图。

图3是示出实施方式的文档图像识别***的选择数据库设定动作的前半部分的流程图。

图4是示出实施方式的文档图像识别***的选择数据库设定动作的后半部分的流程图。

图5是示出选择数据库设定动作中的设定用文档图像的特征提取的说明图。

图6是示出选择数据库设定动作中的图像特征数据集的分类以及设定用文档图像的分组的说明图。

图7是示出选择数据库设定动作中的字符识别云API的正解率的计算以及正解率最高的字符识别云API的提取的说明图。

图8是示出选择数据库设定动作中的代表图像特征数据集的生成的说明图。

图9是示出代表图像特征数据集和字符识别云API的组与代表图像特征数据集和设定用文档图像组之间的对应的说明图。

图10是示出选择数据库的构造的说明图。

图11是示出实施方式的文档图像识别***的字符识别动作的流程图。

图12是示出字符识别动作中的处理对象文档图像的特征提取的说明图。

图13是示出字符识别动作中的字符识别云API的选择的说明图。

图14是示出存在来自用户终端的处理对象文档图像的正解字符串的输入的情况下的选择数据库更新动作的流程图。

图15是示出图14所示的结合点2的情况下的处理的流程图。

图16是示出图14所示的结合点3的情况下的处理的流程图。

图17是示出图14所示的结合点4的情况下的处理的流程图。

图18是示出图17所示的结合点5的情况下的处理的流程图。

图19是示出存在来自用户终端的处理对象文档图像的正解字符串的输入的情况下的选择数据库更新动作的说明图。

具体实施方式

下面，参照附图对实施方式的文档图像识别***100进行说明。在以下的说明中，将字符识别云API设为云API31或云API32进行说明。如图1所示，文档图像识别***100由用户终端10、中心服务器20和包含多个云API31的云API群30构成。用户终端10取得文档图像并将其发送到中心服务器20。中心服务器20向从云API群30中选择出的云API31发送文档图像，从云API31接收字符识别结果，将其发送到用户终端10。用户终端10显示从中心服务器20接收到的字符识别结果。在以下的说明中，在不区分多个云API31的情况下，使用标号31，在区分各云API31的情况下，在标号31后面带括弧地附加字母，如云API31(A)～云API31(M)那样表记。

用户终端10由带摄像头的智能手机或带摄像头的平板终端构成，通过互联网、电话线路等通信线路与中心服务器20连接。用户终端10包含文档图像取得部11、字符串显示部12和正解字符串输入部13这3个功能块。用户终端10利用文档图像取得部11通过摄像等取得文档图像，将取得的文档图像作为处理对象文档图像80(参照图12)发送到中心服务器20。此外，用户终端10从中心服务器20接收处理对象文档图像80的字符识别结果，将其显示于字符串显示部12。用户终端10的正解字符串输入部13在字符串显示部12中显示的字符串是正确的字符串的情况下受理用户的同意输入，在字符串显示部12中显示的字符串是不正确的字符串的情况下，受理用户的正解字符串的输入。

用户终端10的文档图像取得部11通过安装于用户终端10的摄像头实现。此外，字符串显示部12通过智能手机或平板终端的画面实现。此外，正解字符串输入部13通过智能手机或平板终端的画面中显示的图标、触摸键或键盘等输入装置和字符转换功能或语音输入功能实现。

中心服务器20利用通信线路与用户终端10连接，并且，利用互联网、电话线路等通信线路与云API群30中包含的各云API31连接。中心服务器20具有字符识别处理部21、选择数据库24和选择数据库更新部25这3个功能块。此外，字符识别处理部21在内部包含数据发送接收部22和云API选择部23这2个功能块。

数据发送接收部22从用户终端10接收处理对象文档图像80，将接收到的处理对象文档图像80发送到云API选择部23选择出的一个云API31。此外，数据发送接收部22从选择出的一个云API31接收字符识别结果，将接收到的字符识别结果发送到用户终端10。云API选择部23参照选择数据库24，根据处理对象文档图像80的特征选择最适合于字符识别的云API31，将选择出的结果输出到数据发送接收部22。这里，选择数据库24是存储有输入文档图像的特征与在进行了输入文档图像的字符识别处理时字符识别的正解率在多个云API31中最大的云API31的组的数据库。另外，云API选择部23的动作的详细情况在后面说明。

选择数据库更新部25在被用户终端10输入了处理对象文档图像80的正解字符串时，将处理对象文档图像80发送到云API群30的各云API31，从各云API31接收字符识别结果，根据字符识别结果的正解或非正解的程度即正解度对选择数据库24的内容进行更新。选择数据库更新部25的动作在后面详细说明。

中心服务器20的各功能块能够通过图2所示的通用计算机150实现。如图2所示，通用计算机150包含作为进行信息处理的处理器的CPU151、在信息处理时暂时存储数据的ROM152、RAM153、存储程序、用户的数据等的硬盘驱动器(HDD)154、作为输入单元而设置的鼠标155、键盘156、以及作为显示装置而设置的显示器157。CPU151、ROM152、RAM153和HDD154通过数据总线160连接。此外，鼠标155、键盘156和显示器157经由输入输出接口158与数据总线160连接。此外，在数据总线160连接有作为通信单元而设置的网络控制器159。

中心服务器20的数据发送接收部22、云API选择部23、选择数据库更新部25通过图2所示的通用计算机150的硬件和在CPU151中进行动作的程序的协作动作来实现。选择数据库24通过在图2所示的通用计算机150的HDD154中存储输入文档图像的特征与云API31的组来实现。另外，也可以代替HDD154而通过经由网络利用外部的存储单元来实现。

多个云API31是云服务提供的字符识别功能应用程序接口(字符识别云API)。各云API31进行从外部输入的文档图像的字符识别处理，将字符识别结果输出到外部。各云API31利用互联网、电话线路等通信线路与中心服务器20连接。

接着，参照图3～图10对选择数据库24的设定动作的一例进行说明。另外，在以下的说明中，在不区分多个设定用文档图像50、多个图像特征数据集51、多个图像特征数据集组55、多个设定用文档图像组60、多个代表图像特征数据集70的情况下使用各标号50、51、55、60、70。此外，在区分多个设定用文档图像50、多个图像特征数据集51、多个图像特征数据集组55、多个设定用文档图像组60、多个代表图像特征数据集70的情况下，在标号后面带括弧地如(1)、(2)、(J)那样附加编号进行表记。

首先，如图3的步骤S101和图5所示，准备N个在选择数据库24的设定中使用的设定用文档图像50。设定用文档图像50是图像中包含的含有字符串已知的文档图像。

接着，如图3的步骤S102和图5所示，将N个设定用文档图像50输入到中心服务器20。中心服务器20的处理器提取各设定用文档图像50的图像特征。如图5所示，图像特征被提取为由表示图像特征的多个参数和各参数的数据构成的图像特征数据集51。图像特征数据集51的参数由根据文档图像的像素信息计算的多个图像特征量、表示由用户终端10取得了文档图像时的状况的多个图像属性、以及使用学习机计算的学习特征值构成。另外，图像特征数据集51也可以不包含全部图像特征量、图像属性和学习特征值，包含它们中的至少一方即可。

作为图像特征量，能够使用各种参数，例如可以使用外部留白率、内部留白率、色度分布率、彩度分布率、色差分布率、格式化率等。这里，外部留白率是表示外周的留白面积相对于文档图像的面积占据几％的指标。内部留白率是表示除了外周的留白以外的文档图像内的白色部分占据几％的指标。色度分布率是表示彩色部分的分布状况的指标。彩度分布率与色度分布率同样，是表示彩色部分的分布状况的指标。色差分布率是表示图像的偏移、溢出、模糊的分布状况的指数。格式化率是将字符规则地排列的情况数值化而成的指标。

图像属性例如是利用用户终端10的摄像头对文档图像进行摄像时的文档图像的亮度、照度、取得场所、取得时间。此外，学习特征值例如是使用卷积神经网络(CNN)提取出的特征值等。

接着，如图3的步骤S103和图6所示，中心服务器20的处理器将在图3的步骤S102中提取出的N个图像特征数据集51(1)～51(N)分类到彼此的相似值为规定的阈值以上的K个图像特征数据集组55(1)～55(K)。如图6所示，在各图像特征数据集组55中分别包含多个图像特征数据集51。例如，在图像特征数据集组55(1)中包含图像特征数据集51(1)、51(4)、…51(N-1)，在图像特征数据集组55(K)中包含图像特征数据集51(2)、51(3)、…51(N)。这里，相似值是表示彼此的相似性的数值，在一致的情况下为1.0，在完全不相似的情况下为0。规定的阈值能够自由决定，但是，例如可以设为0.7～0.9左右。此外，也可以利用较高的阈值进行分类，在无法顺利地分类的情况下，依次降低阈值来进行分类。

此外，在图3的步骤S104中，如图6所示，中心服务器20的处理器生成将与各图像特征数据集组55中分别包含的多个图像特征数据集51对应的各设定用文档图像50设为组的K个设定用文档图像组60。例如，对与图像特征数据集组55(1)中包含的图像特征数据集51(1)、51(4)、…51(N-1)分别对应的设定用文档图像50(1)、50(4)、…50(N-1)进行分组，生成设定用文档图像组60(1)。此外，对与图像特征数据集组55(K)中包含的图像特征数据集51(2)、51(3)、…51(N)分别对应的设定用文档图像50(2)、50(3)、…50(N)进行分组，生成设定用文档图像组60(K)。

接着，如图4的步骤S105所示，中心服务器20的处理器对计数器J设置初始值的1。然后，进入图4的步骤S106，如图7所示，将设定用文档图像组60(J)中包含的各设定用文档图像发送到M个云API31。然后，如图4的步骤S107所示，中心服务器20从M个云API31(A)～31(M)分别接收字符识别结果。

在图4的步骤S108中，中心服务器20的处理器对从一个云API31(A)接收到的设定用文档图像组60(J)中包含的多个设定用文档图像50的字符识别结果和各设定用文档图像50的已知的含有字符串进行比较，将字符识别结果和已知的含有字符串完全一致的情况设为正解，将不完全一致的情况设为非正解。然后，中心服务器20的处理器对成为正解的设定用文档图像50的数量进行计数。

然后，在图4的步骤S109中，中心服务器20的处理器将正解数除以设定用文档图像组60(J)中包含的设定用文档图像50的全部数量，计算使云API31(A)对设定用文档图像组60(J)的多个设定用文档图像50进行字符识别的情况下的正解率。

同样，中心服务器20的处理器对从其他云API31(B)～API31(M)接收到的设定用文档图像组60(J)中包含的多个设定用文档图像50的字符识别结果和各设定用文档图像50的已知的含有字符串进行比较，分别计算使云API31(B)～云API31(M)对设定用文档图像组60(J)的多个设定用文档图像50进行字符识别的情况下的正解率。

然后，在图4的步骤S110中，中心服务器20的处理器提取在步骤S109中计算出的正解率最高的云API31(A)。

接着，在图4的步骤S111中，如图8所示，中心服务器20的处理器生成将1个图像特征数据集组55(J)的各参数的代表值设为各参数的各数据的代表图像特征数据集70(J)。如图8所示，在图像特征数据集组55(1)中包含图像特征数据集51(1)、51(4)、…51(N-1)。同样，图像特征数据集51(4)还存储有图像特征量(1)、图像特征量(2)、图像属性(1)、图像属性(2)、学***均值、中央值等。在使用平均值的情况下，图像特征量(1)的代表值成为图像特征数据集51(1)的图像特征量(1)～图像特征数据集51(N-1)的图像特征量(1)的平均值。此外，在图像属性(1)中，也可以将包含各图像特征数据集51的各图像属性(1)的上位概念的用语设为代表值。此外，在将由用户终端10对文档图像进行摄像时的场所设为图像属性(1)的情况下，也可以将经纬度的平均值或中央值设为代表值。

如图9所示，代表图像特征数据集70(J)是代表包含多个设定用文档图像50的设定用文档图像组60(J)的图像的特征的代表特征。

在将图3的步骤S103的分类时的阈值设为0.7～0.9左右的情况下，生成的代表图像特征数据集70(J)与图像特征数据集组55(J)中包含的多个图像特征数据集51的相似值成为与阈值相同的0.7～0.9左右。因此，对设定用文档图像组60(J)中包含的多个设定用文档图像50进行字符识别的情况下的正解率最高的云API31(A)，为在进行了具有与其代表图像特征数据集70相似的图像特征数据集51的文档图像的字符识别时成为最高的正解率的云API31。

在图4的步骤S112中，中心服务器20的处理器将在步骤S111中生成的代表图像特征数据集70(J)和在图4的步骤S110中提取出的正解率最高的云API31(A)成组地存储于选择数据库24。

在图4的步骤S113中，中心服务器20的处理器使计数器J增加1，在图4的步骤S114中，判断计数器J是否超过图像特征数据集组55的数量或设定用文档图像组60的数量K。然后，在图4的步骤S114中判断为“否”的情况下，返回图4的步骤S106。

然后，中心服务器20的处理器反复执行图4的步骤S106～步骤S112，如图10所示，生成K组的K个代表图像特征数据集70和在进行了具有与其代表图像特征数据集70相似的图像特征数据集51的文档图像的字符识别时成为最高的正解率的云API31的组，将其存储于选择数据库24。另外，1个云API31也可以与多个代表图像特征数据集70成组。

然后，中心服务器20的处理器在图4的步骤S114中判断为“是”后，结束选择数据库24的设定动作。

另外，以上说明的选择数据库24的设定动作只是一例，也可以通过其他动作来设定选择数据库24。

接着，参照图1和图11～图13对使用文档图像识别***100的字符识别动作进行说明。

如图1所示，在用户将由用户终端10取得的文档图像作为处理对象文档图像80发送到中心服务器20时，如图11的步骤S201所示，中心服务器20的数据发送接收部22接收处理对象文档图像80。数据发送接收部22将接收到的处理对象文档图像80输出到云API选择部23。

如图11的步骤S202和图12所示，云API选择部23与之前在选择数据库设定动作中说明的情况同样，提取处理对象文档图像80的特征，生成处理对象文档图像80的图像特征数据集81。

接着，如图11的步骤S203和图13所示，云API选择部23计算与选择数据库24中存储的多个代表图像特征数据集70之间的各相似值。然后，选择相似值最大的代表图像特征数据集70(1)。最大的相似值根据处理对象文档图像80的图像特征数据集81而不同，但是，在图像特征数据集81接近在设定选择数据库24时使用的设定用文档图像50的特征的情况下，例如如0.8或0.7那样变高。另一方面，在图像特征数据集81远离在设定选择数据库24时使用的设定用文档图像50的特征的情况下，如0.2～0.3左右那样变低。

然后，在图11的步骤S204中，云API选择部23选择与在步骤S203中选择出的代表图像特征数据集70(1)成组的云API31(A)，将其输出到数据发送接收部22。

如图11的步骤S205所示，数据发送接收部22向从云API选择部23输入的选择出的云API31(A)发送处理对象文档图像80。然后，在图11的步骤S206中，数据发送接收部22从云API31(A)接收字符识别结果。

然后，数据发送接收部22将从云API31(A)接收到的字符识别结果发送到用户终端10。

如图1所示，用户终端10将从中心服务器20的数据发送接收部22发送的字符识别结果的字符串显示于字符串显示部12。

如以上说明的那样，实施方式的文档图像识别***100选择最适合于从用户终端10接收到的处理对象文档图像80的字符识别处理的云API31，使该云API31进行字符识别处理，因此，能够高精度地进行字符识别处理。

接着，参照图14～图19对选择数据库24的更新动作进行说明。

如之前说明的那样，云API选择部23计算处理对象文档图像80的图像特征数据集81与选择数据库24中存储的多个代表图像特征数据集70的各相似值，选择相似值最大的代表图像特征数据集70。但是，在图像特征数据集81接近在设定选择数据库24时使用的设定用文档图像50的特征的情况下，最大的相似值例如如0.8或0.7那样变高。另一方面，在图像特征数据集81远离在设定选择数据库24时使用的设定用文档图像50的特征的情况下，最大的相似值例如如0.2～0.3左右那样变低。因此，在选择相似值最大的代表图像特征数据集70并使用与其成组的云API31进行了字符识别处理的情况下，字符识别结果也可能不是正解。因此，需要对选择数据库24进行更新，以使处理对象文档图像80的图像特征数据集81与选择数据库24中存储的代表图像特征数据集70的相似值尽可能变高。

用户终端10从中心服务器20接收字符识别结果，在字符串显示部12中显示字符识别结果的字符串，看到该字符串的用户将处理对象文档图像80中包含的正解字符串输入到正解字符串输入部13，由此开始进行选择数据库24的更新。在输入正解字符串后，用户终端10将正解字符串发送到中心服务器20。中心服务器20将处理对象文档图像80发送到各云API31，根据接收到的字符识别结果的正解或非正解的程度即正解度进行选择数据库24的更新。下面进行详细说明。另外，在以下的说明中，正解是指接收到的字符识别结果的字符串全部正确的情况，在接收到的字符识别结果的字符串中包含至少1个不正确的字符的情况下，设为非正解来进行说明。此外，在以下的说明中，在字符识别动作中，设为选择了云API31(A)来进行说明。

如图1所示，用户确认用户终端10的字符串显示部12中显示的字符识别结果的字符串。此时，在用户终端10的画面中显示同意图标和字符输入区域。同意图标和字符输入区域构成正解字符串输入部13。

如果字符串显示部12中显示的字符识别结果是正确的字符串，则用户按下用户终端10的画面中显示的同意图标。于是，在图11的步骤S207中，用户终端10将从中心服务器20发送的字符识别结果作为正解字符串发送到中心服务器20的选择数据库更新部25。另一方面，在用户确认字符串显示部12中显示的字符串的结果是判断为字符识别结果不是正确的字符串的情况下，用户在用户终端10的画面中显示的字符输入区域中输入处理对象文档图像80的正解字符串。当在字符输入区域中输入了正解字符串的情况下，用户终端10将输入的正解字符串发送到中心服务器20的选择数据库更新部25。另外，用户也可以通过语音输入的方式进行同意输入或正解字符串的输入。此时，语音输入功能构成正解字符串输入部13。

如图14的步骤S301所示，中心服务器20的选择数据库更新部25待机到存在来自用户终端10的处理对象文档图像80的正解字符串的输入为止，在存在正解字符串的输入后，进入图14的步骤S302，如图19所示，将处理对象文档图像80发送到全部M个云API31(A)～31(M)。然后，如图14的步骤S303所示，选择数据库更新部25从M个云API31(A)～31(M)接收字符识别结果。

如图14的步骤S304和图19所示，选择数据库更新部25对从在之前的字符识别动作中由云API选择部23选择出的云API31(A)接收到的字符识别结果和正解字符串进行对比，在选择出的云API31(A)的字符识别结果为正解的情况下，进入图14的步骤S305。

在图14的步骤S305中，选择数据库更新部25对从之前选择出的云API31(A)以外的其他云API31(B)～31(M)接收到的字符识别结果和正解字符串进行对比，在从其他云API31(B)～31(M)接收到的字符识别结果中的至少一方存在正解的情况下，进入图15的步骤S306。

在图15的步骤S306中，选择数据库更新部25判断图12所示的处理对象文档图像80的图像特征数据集81和与之前选择出的云API31(A)成组的图13所示的代表图像特征数据集70(1)的相似值是否为规定的阈值以上。这里，规定的阈值能够自由选择，但是，例如也可以设定为0.8或0.7左右。

选择数据库更新部25在图15的步骤S306中判断为“是”的情况下，进入图15的步骤S307，根据处理对象文档图像80的图像特征数据集81对与之前选择出的云API31(A)成组的代表图像特征数据集70(1)进行更新。更新例如可以是，以对代表图像特征数据集70(1)的各参数的各数据与处理对象文档图像80的图像特征数据集81的各参数的各数据之差进行加权后的量，使代表图像特征数据集70(1)的各参数的各数据进行增减。此外，也可以将代表图像特征数据集70(1)的各参数的各数据置换成处理对象文档图像80的图像特征数据集81的各参数的各数据。

此外，选择数据库更新部25在图15的步骤S306中判断为“否”的情况下，进入图15的步骤S308，将处理对象文档图像80的图像特征数据集81与之前选择出的一个云API31(A)的组追加到选择数据库24中。但是，在选择数据库24中存在上述的组的情况下，不进行组的追加。

选择数据库更新部25结束图15的步骤S307或步骤S308的处理后，进入图15的步骤S309，判断处理对象文档图像80的图像特征数据集81和与其他云API31中在图14的步骤S305中字符识别结果为正解的云API31成组的代表图像特征数据集70的相似值是否为规定的阈值以上。

然后，选择数据库更新部25在图15的步骤S309中判断为“是”的情况下，进入图15的步骤S310，根据处理对象文档图像80的图像特征数据集81，对与其他云API31中字符识别结果为正解的云API31成组的代表图像特征数据集70进行更新。与之前说明的情况同样，更新可以是，以对代表图像特征数据集70的各参数的各数据与处理对象文档图像80的图像特征数据集81的各参数的各数据之差进行加权后的量，使代表图像特征数据集70的各参数的各数据进行增减。此外，也可以将代表图像特征数据集70的各参数的各数据置换成处理对象文档图像80的图像特征数据集81的各参数的各数据。

此外，选择数据库更新部25在图15的步骤S309中判断为“否”的情况下，进入图15的步骤S311，将处理对象文档图像80的图像特征数据集81与其他云API31中字符识别结果为正解的云API31的组追加到选择数据库24中。另外，在选择数据库24中存在上述的组的情况下，不进行组的追加。

另外，在图14的步骤S305中从其他云API31(B)～31(M)接收到的多个字符识别结果为正解的情况下，关于各个其他云API31，进行图15的步骤S309～S311的处理。

选择数据库更新部25结束图15的步骤S310或S311的处理后，结束更新动作。

此外，选择数据库更新部25在图14的步骤S305中判断为“否”的情况下，执行图16的步骤S401～S403的动作。图16的步骤S401～S403的动作与图15所示的步骤S306～S308的动作相同，因此省略说明。

此外，选择数据库更新部25在图14的步骤S304中判断为“否”的情况下，进入图17的步骤S501，判断其他云API31(B)～31(M)的字符识别结果是否存在正解。然后，选择数据库更新部25在图17的步骤S501中判断为“是”的情况下，执行图17的步骤S502～S504的动作。图17的步骤S502～S504的动作与图15所示的步骤S309～S311的动作相同，因此省略说明。

选择数据库更新部25在图17的步骤S501中判断为“否”的情况下，进入图18的步骤S505，如图19所示，向与代表图像特征数据集70成组地存储于选择数据库24的云API31以外的别的云API32发送处理对象文档图像80。然后，如图18的步骤S506所示，选择数据库更新部25从别的云API32接收到字符识别结果后，在步骤S507中，确认接收到的字符识别结果是否存在正解。然后，在图18的步骤S507中判断为“是”的情况下，选择数据库更新部25进入步骤S508，将处理对象文档图像80的图像特征数据集81与别的云API32的组追加到选择数据库24中。

在以上说明的更新动作中，使与字符识别结果为正解的云API31成组的代表图像特征数据集70接近处理对象文档图像80的图像特征数据集81，因此，能够以处理对象文档图像80的图像特征数据集81与选择数据库24中存储的代表图像特征数据集70的相似值逐渐变高的方式对选择数据库24进行更新。此外，在字符识别结果没有正解的情况下，将字符识别结果为正解的别的云API32和处理对象文档图像80的图像特征数据集81成组地存储于选择数据库24，因此，能够准确地扩大能够进行字符识别的范围。

由此，能够提高实施方式的文档图像识别***100的字符识别精度。

在以上的说明中，正解是指接收到的字符识别结果的字符串全部正确的情况，在接收到的字符识别结果的字符串中包含至少1个不正确的字符的情况下，设为非正解进行了说明，但是不限于此。例如，也可以在接收到的字符识别结果中包含的全部字符数中的正解字符数的比例为90％等规定的阈值以上的情况下，视为正解，将小于规定的阈值的情况视为非正解，执行上述的更新动作。

标号说明

10：用户终端；11：文档图像取得部；12：字符串显示部；13：正解字符串输入部；20：中心服务器；21：字符识别处理部；22：数据发送接收部；23：云API选择部；24：选择数据库；25：选择数据库更新部；30：云API群；31、32：云API；50：设定用文档图像；51、81：图像特征数据集；55：图像特征数据集组；60：设定用文档图像组；70：代表图像特征数据集；80：处理对象文档图像；100：文档图像识别***；150：通用计算机；151：CPU；152：ROM；153：RAM；154：HDD；155：鼠标；156：键盘；157：显示器；158：输入输出控制器；159：网络控制器；160：数据总线。

Claims

1.一种文档图像识别***，该文档图像识别***包含：

用户终端，其取得文档图像；

中心服务器，其利用通信线路与所述用户终端连接；以及

多个字符识别云API，它们利用通信线路与所述中心服务器连接，进行被输入的文档图像的字符识别处理，输出字符识别结果，

其特征在于，

所述中心服务器具有选择数据库，该选择数据库存储有输入文档图像的特征与在进行了所述输入文档图像的字符识别处理时字符识别的正解率在多个字符识别云API中最大的字符识别云API的组，

所述用户终端将取得的文档图像作为处理对象文档图像发送到所述中心服务器，

所述中心服务器在从所述用户终端接收到的所述处理对象文档图像中提取所述处理对象文档图像的特征，从所述选择数据库中存储的所述输入文档图像的特征中选择与所述处理对象文档图像的特征最相似的所述输入文档图像的特征，选择与选择出的所述输入文档图像的特征成组的一个字符识别云API，向选择出的一个字符识别云API发送所述处理对象文档图像，从一个字符识别云API接收字符识别结果，将接收到的字符识别结果发送到所述用户终端，

所述用户终端在从所述中心服务器接收到字符识别结果时，将用户输入的所述处理对象文档图像中包含的正解字符串输出到所述中心服务器，

所述中心服务器在被所述用户终端输入了所述正解字符串的情况下，将所述处理对象文档图像发送到各字符识别云API，

所述中心服务器从各字符识别云API分别接收字符识别结果，

所述中心服务器根据接收到的字符识别结果的正解度，进行所述选择数据库的与各字符识别云API成组的各输入文档图像的各特征的更新、以及输入文档图像的特征与字符识别云API的组向所述选择数据库的追加中的任意一方或双方，

在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中的至少一方为正解，并且处理对象文档图像的特征和与选择出的一个字符识别云API成组的输入文档图像的特征的相似值为规定的阈值以上的情况下，所述中心服务器根据处理对象文档图像的特征对与选择出的一个字符识别云API成组的输入文档图像的特征进行更新。

2.根据权利要求1所述的文档图像识别***，其特征在于，

在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从其他字符识别云API接收到的字符识别结果中的至少一方为正解，并且处理对象文档图像的特征和与选择出的一个字符识别云API成组的输入文档图像的特征的相似值小于规定的阈值的情况下，所述中心服务器将处理对象文档图像的特征与选择出的一个字符识别云API的组追加到选择数据库中。

3.一种文档图像识别***，该文档图像识别***包含：

用户终端，其取得文档图像；

中心服务器，其利用通信线路与所述用户终端连接；以及

其特征在于，

所述中心服务器从各字符识别云API分别接收字符识别结果，

在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中的至少一方为正解，并且处理对象文档图像的特征和与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征的相似值为规定的阈值以上的情况下，所述中心服务器根据处理对象文档图像的特征，对与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征进行更新。

4.根据权利要求3所述的文档图像识别***，其特征在于，

在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从其他字符识别云API接收到的字符识别结果中的至少一方为正解，并且处理对象文档图像的特征和与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征的相似值小于规定的阈值的情况下，所述中心服务器将处理对象文档图像的特征与其他字符识别云API中字符识别结果为正解的字符识别云API的组追加到选择数据库中。

5.一种文档图像识别***，该文档图像识别***包含：

用户终端，其取得文档图像；

中心服务器，其利用通信线路与所述用户终端连接；以及

其特征在于，

所述中心服务器从各字符识别云API分别接收字符识别结果，

在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果没有正解，并且处理对象文档图像的特征和与选择出的一个字符识别云API成组的输入文档图像的特征的相似值为规定的阈值以上的情况下，所述中心服务器根据处理对象文档图像的特征对与选择出的一个字符识别云API成组的输入文档图像的特征进行更新。

6.根据权利要求5所述的文档图像识别***，其特征在于，

在从选择出的一个字符识别云API接收到的字符识别结果为正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果没有正解，并且处理对象文档图像的特征和与选择出的一个字符识别云API成组的输入文档图像的特征的相似值小于规定的阈值的情况下，所述中心服务器将处理对象文档图像的特征与选择出的一个字符识别云API的组追加到选择数据库中。

7.一种文档图像识别***，该文档图像识别***包含：

用户终端，其取得文档图像；

中心服务器，其利用通信线路与所述用户终端连接；以及

其特征在于，

所述中心服务器从各字符识别云API分别接收字符识别结果，

在从选择出的一个字符识别云API接收到的字符识别结果为非正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中的至少一方为正解，并且处理对象文档图像的特征和与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征的相似值为规定的阈值以上的情况下，所述中心服务器根据处理对象文档图像的特征，对与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征进行更新。

8.根据权利要求7所述的文档图像识别***，其特征在于，

在从选择出的一个字符识别云API接收到的字符识别结果为非正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果中的至少一方为正解，并且处理对象文档图像的特征和与其他字符识别云API中字符识别结果为正解的字符识别云API成组的输入文档图像的特征的相似值小于规定的阈值的情况下，所述中心服务器将处理对象文档图像的特征与其他字符识别云API中字符识别结果为正解的字符识别云API的组追加到选择数据库中。

9.一种文档图像识别***，该文档图像识别***包含：

用户终端，其取得文档图像；

中心服务器，其利用通信线路与所述用户终端连接；以及

其特征在于，

所述中心服务器从各字符识别云API分别接收字符识别结果，

在从选择出的一个字符识别云API接收到的字符识别结果为非正解，且从选择出的一个字符识别云API以外的其他字符识别云API接收到的字符识别结果1个正解也没有的情况下，所述中心服务器向与输入文档图像的特征成组地存储于选择数据库的字符识别云API以外的别的字符识别云API发送处理对象文档图像，在从别的字符识别云API接收到的字符识别结果为正解的情况下，所述中心服务器将处理对象文档图像的特征与别的字符识别云API的组追加到选择数据库中。

10.根据权利要求1～9中的任意一项所述的文档图像识别***，其特征在于，

文档图像的特征包含根据文档图像的像素信息计算的图像特征量、表示由所述用户终端取得了文档图像时的状况的图像属性、以及使用学习机计算的学习特征值中的至少一方。

11.根据权利要求10所述的文档图像识别***，其特征在于，

所述图像属性是在由所述用户终端取得文档图像时由所述用户终端取得的信息，包含文档图像的亮度、照度、取得场所、取得时间中的至少一方。

12.根据权利要求1～9中的任意一项所述的文档图像识别***，其特征在于，

所述选择数据库中存储的字符识别云API是如下的字符识别云API：提取含有字符串已知的多个设定用文档图像的特征，对特征彼此相似的设定用文档图像进行分组，在进行了设定用文档图像的各组中包含的多个设定用文档图像的字符识别时，字符识别的正解率最大，

与字符识别云API成组的输入文档图像的特征是代表设定用文档图像的各组的特征的代表特征。