CN113382123A

CN113382123A - 扫描、存储介质以及扫描的扫描数据生成方法

Info

Publication number: CN113382123A
Application number: CN202110243528.1A
Authority: CN
Inventors: 大室诚
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2020-03-10
Filing date: 2021-03-05
Publication date: 2021-09-10
Also published as: US11336793B2; JP2021145160A; JP7467999B2; US20210289086A1

Abstract

本发明提供一种扫描***、程序以及扫描***的扫描数据生成方法。本发明的复合机(1)具备：生成部(110)，其对原稿进行扫描并生成扫描数据；图像识别部(120)，其对扫描数据进行图像识别；发音部(130)，其使与图像识别部(120)的识别结果相对应的词语、且与原稿中所包含的图或照片相对应的词语从扬声器电路中进行发音；发送部(140)，其在由发音部(130)实施的发音过程中、或者在由发音部(130)实施的发音结束后的固定时间内，在实施了特定的操作时，将由生成部(110)所生成的扫描数据发送至特定的目的地。

Description

扫描***、存储介质以及扫描***的扫描数据生成方法

技术领域

本发明涉及一种扫描***、程序以及扫描***的扫描数据生成方法。

背景技术

在专利文献1中，公开了一种光学性地读取原稿并使原稿中所包含的字符发音，以使具有视觉障碍的用户能够掌握所复印的原稿的内容的复印装置。

在专利文献1的技术中，在读取了不包含字符的原稿的情况下，将无法掌握内容。

专利文献1：日本特开2006-163288号公报

发明内容

本发明的扫描***具备：生成部，其对原稿进行扫描并生成扫描数据；图像识别部，其对扫描数据进行图像识别；发音部，其使与图像识别部的识别结果相对应的词语、且与原稿中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路中进行发音。

本发明的程序使扫描***执行如下步骤，所述步骤为：对原稿进行扫描并生成扫描数据的步骤；对扫描数据进行图像识别的步骤；使与图像识别的识别结果相对应的词语、且与原稿中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路中进行发音的步骤。

本发明的扫描***的扫描数据生成方法执行如下步骤，即：对原稿进行扫描并生成扫描数据的步骤；对扫描数据进行图像识别的步骤；使与图像识别的识别结果相对应的词语、且与原稿中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路中进行发音的步骤。

本发明的扫描***具备：生成部，其对原稿进行扫描并生成扫描数据；图像识别部，其对扫描数据进行图像识别；发音部，其使与图像识别部的识别结果相对应的词语、且不是与原稿中所包含的字符相对应的词语并且也不是与原稿中所包含的代码相对应的字符·代码非对应词语，从扬声器电路中进行发音。

附图说明

图1为表示复合机的硬件结构的框图。

图2为图像模板存储区域的说明图。

图3为表示复合机的功能结构的框图。

图4为表示第一设定画面的显示例的图。

图5为表示第二设定画面的显示例的图。

图6为表示第三设定画面的显示例的图。

图7为表示原稿的一个示例的图。

图8为表示扫描处理的流程的流程图。

图9为表示继图8之后的、扫描处理的流程的流程图。

图10为表示继图9之后的、扫描处理的流程的流程图。

图11为表示继图10之后的、扫描处理的流程的流程图

具体实施方式

以下，参照附图来对一个实施方式所涉及的扫描***、程序以及扫描***的扫描数据生成方法进行说明。图1为，表示复合机1的硬件结构的框图。复合机1为，“扫描***”的一个示例。

在复合机1中，作为硬件结构而具备CPU(Central Processing Unit：中央处理单元)11、RAM(Random Access Memory：随机存取存储器)12、ROM(Read Only Memory：只读存储器)13、操作面板14、印刷机构15、图像读取机构16、扬声器电路17和通信接口18，并且这些装置经由总线19而被连接在一起。

CPU11通过将被存储于ROM13中的各种程序在RAM12中展开，从而对复合机1内的各部进行控制。另外，作为代替CPU11的处理器，也可以使用ASIC(Application SpecificIntegrated Circuit：特定用途集成电路)等硬件电路。此外，处理器也可以为如下结构，即，以一个以上的CPU和ASIC等的硬件电路协同工作的方式而进行动作的结构。

ROM13为非易失性的存储介质，并且对各种程序以及各种数据进行存储。例如，ROM13对控制程序13a进行存储。控制程序13a为，用于复合机1执行各种处理的固件。CPU11基于该控制程序13a，从而以后述的扫描处理(参照图8、图9)为代表而执行复印处理或印刷处理等。此外，本实施方式所涉及的复合机1具有原稿50的朗读功能，以便在扫描处理中，具有视觉障碍的用户能够掌握所要扫描的原稿50的内容。该原稿50的朗读功能是通过如下方式来实现的，即，CPU11对扫描了原稿50(参照图7)的扫描数据进行图像识别，并从扬声器电路17中使与该图像识别结果相对应的词语发音。

另外，“与图像识别结果相对应的词语”是指，通过对扫描数据进行图像识别而能够获得的词语。此外，“图像识别”是指，对扫描数据之中的图像是表示什么而进行自动识别的处理。例如，是指针对扫描数据而执行图像匹配处理或光学字符识别处理，并且也可以使用AI。例如，CPU11通过针对扫描数据而实施图像匹配处理，从而从扫描数据中所包含的图像之中提取与被预先存储的图像模板相对应的图像，并使表示所提取的图像的词语从扬声器电路17中发音。此外，CPU11通过针对扫描数据而实施光学字符识别处理，从而使与扫描数据中所包含的字符相对应的词语从扬声器电路17中发音。

此外，CPU11基于控制程序13a而接受与原稿50的朗读相关的各种设定。以下，将与原稿50的朗读相关的各种设定称为“朗读设定”。关于朗读设定，将参照图4等而在后文叙述。

ROM13具有图像模板存储区域13b、字符数据存储区域13c、目的地存储区域13d和设定值存储区域13e。图像模板存储区域13b为，“存储部”的一个示例。

图像模板存储区域13b将在图像匹配处理中所使用的图像模板和词语建立关联并进行存储。图像模板为，“图像数据”的一个示例。图2为，图像模板存储区域13b的说明图。在图像模板存储区域13b中，作为与图像模板建立了关联的词语而对“表示图像的词语”和“表示图像的分类的词语”进行存储。所谓“表示图像的分类的词语”，是表示根据规定的分类而对图像所示的内容进行区分时的分类的词语，且是成为“表示图像的词语”的上位概念的词语。另外，“表示图像的词语”以及“表示图像的分类的词语”包括“字符·代码非对应词语”，“字符·代码非对应词语”包括“照片·绘画·图对应词语”。

例如，“表示图像的词语”包括表示人物的姓名的词语。图像模板存储区域13b针对每个人物而将人物的脸部的图像模板和表示人物的姓名的词语建立关联并存储。在图2中，“图像模板A”以及“图像模板B”为，人物的脸部的图像模板。此外，“山田太郎”以及“铃木花子”为，表示人物的姓名的词语。表示人物的姓名的词语与作为“表示图像的分类的词语”的例如“人物”这一词语建立有关联。

此外，“表示图像的词语”包括表示图表的种类的词语。图像模板存储区域13b针对图表的每个种类而将图表的图像模板和表示图表的种类的词语建立关联并存储。在图2中，“图像模板C”以及“图像模板D”为，图表的图像模板。此外，“折线图”以及“条形图”为，表示图表的种类的词语。表示图表的种类的词语与作为“表示图像的分类的词语”的例如“图表”这一词语建立有关联。另外，作为表示图表的种类的词语，除了该图所示的“折线图”或“条形图”以外，也可以将“圆形图”、“带图”以及“雷达图”等存储在图像模板存储区域13b中。

此外，在图像模板存储区域13b中，作为“表示图像的词语”，除了表示人物的姓名的词语或表示图表的种类的词语以外，还对“激光打印机”或“柴犬”等的普通名称进行存储。在图2中，“图像模板E”为激光打印机的图像模板，“图像模板F”为柴犬的图像模板。例如，“激光打印机”这一词语与作为“表示图像的分类的词语”的例如“电器产品”这一词语建立有关联。另外，作为“表示图像的分类的词语”，也可以将“打印机”、“电器产品”以及“电子设备”等多个词语与“激光打印机”这一词语建立关联。此外，“柴犬”这一词语与作为“表示图像的分类的词语”的例如“犬”这一词语建立有关联。另外，作为“表示图像的分类的词语”，也可以将“犬”以及“动物”等多个词语与“柴犬”这一词语建立关联。

字符数据存储区域13c对在光学字符识别处理中所使用的字符数据进行存储。CPU11通过光学字符识别处理而提取符合被存储于字符数据存储区域13c中的字符数据的字符，并将所提取的字符作为“与图像识别结果相对应的词语”，从而使之从扬声器电路17发音。

目的地存储区域13d对扫描了原稿50而得到的扫描数据的目的地进行存储。在本实施方式中，作为扫描数据的目的地而对外部装置内的特定的存储区域的地址进行存储。外部装置内的特定的存储区域为，“特定的目的地”的一个示例。作为外部装置，能够使用PC(Personal Computer：个人计算机)、服务器以及打印机等。

设定值存储区域13e对上述的“朗读设定”的设定值进行存储。以下，将“朗读设定”的设定值称为“朗读设定值”。

操作面板14具有：触摸面板14a、预扫描按钮14b、正式扫描按钮14c和取消按钮14d。

触摸面板14a将各种信息提示给用户，并且从用户处接受各种操作。例如，触摸面板14a显示后述的朗读设定画面DA(参照图4等)，并接受由用户实施的朗读设定。此外，预扫描按钮14b为，用于在扫描处理中用户对预扫描进行指示的按钮。所谓“预扫描”是指，用于复合机1进行原稿50的朗读的原稿50的扫描动作。此外，正式扫描按钮14c为，用于在扫描处理中用户对正式扫描进行指示的按钮。所谓“正式扫描”是指，用于在扫描处理中最终获得扫描数据的原稿50的扫描动作。

以此方式，虽然预扫描和正式扫描均指相同原稿50的扫描动作，但其目的不同。在本实施方式中，设为预扫描以第一分辨率进行扫描，正式扫描以高于第一分辨率的高分辨率的第二分辨率进行扫描。以下，将通过预扫描而得到的扫描数据称为“预扫描数据”，将通过正式扫描而获得的扫描数据称为“正式扫描数据”。另外，正式扫描按钮14c的操作为“特定的操作”的一个示例。此外，预扫描数据为“第一扫描数据”的一个示例，正式扫描数据为“第二扫描数据”的一个示例。

取消按钮14d为，用于用户对扫描处理(参照图8、图9)的取消进行指示的按钮。

印刷机构15对印刷纸张等印刷介质进行印刷。此外，图像读取机构16朗读原稿50。图像读取机构16既可以为单页进纸方式，也可以为平台方式。图像读取机构16能够对原稿50被安置在原稿台上的情况或从原稿台被移走的情况进行检测。

CPU11通过使印刷机构15进行动作，从而执行印刷处理。此外，CPU11通过使图像读取机构16进行动作，从而执行扫描处理。此外，复合机1通过使印刷机构15以及图像读取机构16进行动作，从而执行复印处理。

扬声器电路17对词语进行发音。CPU11对与预扫描数据的识别结果相对应的词语进行语音转换，并将所转换的语音数据输入到扬声器电路17中。扬声器电路17通过基于被输入的语音数据而进行语音输出，从而对词语进行发音。

通信接口18经由互联网等网络而与外部装置(省略图示)进行通信。当通过正式扫描按钮14c的操作而由用户指示了正式扫描时，CPU11经由通信接口18而向外部装置发送正式扫描数据。

接下来，参照图3，对复合机1的功能结构进行说明。在复合机1中，作为功能结构而具备生成部110、图像识别部120、发音部130和发送部140。这些功能通过CPU11执行控制程序13a而被实现。

生成部110通过利用图像读取机构16对原稿50进行扫描，从而生成扫描数据。生成部110根据由用户实施的预扫描的指示而生成预扫描数据，并根据正式扫描的指示而生成正式扫描数据。

图像识别部120对由生成部110生成的预扫描数据进行图像识别。图像识别部120通过图像匹配处理，从而对人物的脸部、图表的种类以及图像的分类进行识别。此外，图像识别部120通过光学字符识别处理，从而对字符进行识别。

发音部130使与图像识别部120的识别结果相对应的词语从扬声器电路17中发音。例如，发音部130使与由图像识别部120所识别出的字符相对应的词语从扬声器电路17中发音。

此外，发音部130使如下的字符·代码非对应词语从扬声器电路17中发音，所述字符·代码非对应词语为，与图像识别部120的识别结果相对应的词语，且既不是与原稿50中所包含的字符相对应的词语，也不是与原稿50中所包含的代码相对应的词语。在此，所谓“原稿50中所包含的字符”是指，不仅是在目视观看原稿50时用户可识别的字符，而且还是包括用户不能识别的字符、例如隐含字符在内的字符。此外，所谓“原稿50中所包含的代码”是指，包括条形码、二维码以及彩色码等在内的代码。此外，所谓“与代码相对应的词语”是指，例如在条形码的情况下，不是“条形码”这一词语，而是作为代码化信息而被包含在条形码中的词语。

此外，发音部130使照片·绘画·图对应词语从扬声器电路17中发音，所述照片·绘画·图对应词语为，与图像识别部120的识别结果相对应的词语，且与原稿50中所包含的照片、绘画以及图中的任意一个相对应的词语。在此，所谓“照片”是指，由照相机拍摄而得到的图像。此外，所谓“绘画”是指，描绘图画等的、对物体的形象或情景进行描画而得到的图像。此外，所谓“图”是指，地图、图形以及图纸等的、对物体的形状或状态进行描画而得到的图像。

例如，发音部130参照图像模板存储区域13b而使在图像识别部120中识别出了脸部的表示人物的姓名的词语作为字符·代码非对应词语中的照片·绘画·图对应词语，而从扬声器电路17中发音。此外，发音部130使在图像识别部120中被识别出的表示图表的种类的词语、以及表示图像的分类的词语作为字符·代码非对应词语中的照片·绘画·图对应词语，而从扬声器电路17中发音。

当在由发音部130实施的发音结束后的固定时间内对正式扫描按钮14c进行了操作时，发送部140将由生成部110所生成的正式扫描数据发送至特定的目的地。发送部140将正式扫描数据发送至被存储于目的地存储区域13d中的目的地。

接下来，参照图4至图6，对朗读设定画面DA进行说明。如上述那样，朗读设定画面DA为，用于进行朗读设定的画面。本实施方式所涉及的复合机1能够以三个阶段来进行朗读设定。以下，将第一阶段的朗读设定称为“第一朗读设定”，将第二阶段的朗读设定称为“第二朗读设定”，将第三阶段的朗读设定称为“第三朗读设定”。另外，虽然设想了以下的朗读设定画面DA的操作由没有视觉障碍的健康人实施的情况，但也可以通过复合机1朗读被显示在朗读设定画面DA上的信息，从而能够进行由视障人士实施的操作。

复合机1在后述的扫描处理中，在最初预扫描按钮14b被进行了操作时，将根据第一朗读设定而对词语进行发音。此外，复合机1在后述的扫描处理中，在第二次预扫描按钮14b被进行了操作时，将根据第二朗读设定而对词语进行发音。此外，复合机1在后述的扫描处理中，在第三次预扫描按钮14b被进行了操作时，将根据第三朗读设定而对词语进行发音。另外，在本实施方式中，复合机1在最初预扫描按钮14b被进行了操作时，当在原稿50中不包含有符合第一朗读设定的字符或图像的情况下，将根据第二朗读设定而对词语进行发音。关于详细情况，将在扫描处理(图8至图11)中进行说明。

图4为，表示用于实施第一朗读设定的第一朗读设定画面DA1的显示例的图。在第一朗读设定画面DA1上，显示有图像选项组21、字符选项组22、第一画面转移按钮31和第一设定结束按钮32。

图像选项组21能够对“图像分类”、“人物”以及“图表”这三个选项中的任意一个以上、或者“全部图像”的选项进行选择。此外，字符选项组22能够对“大尺寸字符”、“装饰字符”、“彩色字符”以及“日期时间”的选项中的任意一个以上、或者“全部字符”的选项进行选择。

例如，复合机1在图像选项组21的“图像分类”的选项被选择时，对表示在图像识别部120中被识别出的图像的分类的词语进行发音。即，复合机1在图像选项组21的“图像分类”的选项被选择时，对在图像模板存储区域13b中与被图像识别部120识别出的图像的图像模板建立了关联的“表示图像的分类的词语”进行发音。

此外，复合机1在图像选项组21的“人物”的选项被选择时，对表示在图像识别部120中识别出了脸部的人物的姓名的词语进行发音。在图像选项组21的“人物”的选项被选择了的情况下，复合机1将不对图像模板存储区域13b中的“表示图像的分类的词语”进行发音。

同样地，复合机1在图像选项组21的“图表”的选项被选择时，对表示在图像识别部120中被识别出的图表的种类的词语进行发音。在图像选项组21的“图表”的选项被选择了的情况下，复合机1将不对图像模板存储区域13b中的“表示图像的分类的词语”进行发音。

此外，复合机1在图像选项组21的“全部图像”的选项被选择时，对表示在图像识别部120中被识别出的全部图像的词语、也就是在图像模板存储区域13b中的与被图像识别部120识别出的全部图像的图像模板建立了关联的“表示图像的词语”进行发音。在图像选项组21的“全部图像”的选项被选择了的情况下，复合机1将不对图像模板存储区域13b中的“表示图像的分类的词语”进行发音。

此外，复合机1在字符选项组22的“大尺寸字符”的选项被选择时，对在图像识别部120中被识别出的字符中的字符尺寸较大的字符进行发音。此外，复合机1在字符选项组22的“装饰字符”的选项被选择时，对由图像识别部120识别出的字符中的带装饰的字符进行发音。

此外，复合机1在字符选项组22的“彩色字符”的选项被选择时，对在图像识别部120中被识别出的字符中的带彩色的字符进行发音。此外，复合机1在字符选项组22的“日期时间”的选项被选择时，对在图像识别部120中被识别出的字符中的表示日期时间的字符进行发音。

此外，复合机1在字符选项组22的“全部字符”的选项被选择时，对与在图像识别部120中被识别出的全部字符相对应的词语、也就是与通过光学字符识别处理而被识别出的全部字符相对应的词语进行发音。

另外，“字符尺寸较大的字符”是指，在图像识别部120中被识别出的字符的大小为阈值以上的字符。或者，也可以将在图像识别部120中识别出的多个种类的字符的大小中的最大的字符等、在被图像识别部120识别出的字符之中相对较大的字符设为“字符尺寸较大的字符”。

此外，“装饰的字符”是指，下划线字符或网格字符等、字符被装饰了的字符。此外，“彩色的字符”是指，黑色或者白色以外的颜色的字符。例如，对于“白色以外的颜色的字符”而言，在基底为白色的情况下，是指黑色以外的字符，在基底为黑色的情况下，是指白色以外的颜色的字符。此外，“表示日期时间的字符”是指，数字和“年”或者“年度”的组合、年号和数字和“年”的组合、一位或两位的数字和“月”的组合、一位或两位的数字与“日”的组合等。

另外，在本实施方式中，设为在第一朗读设定画面DA1中选择了图像选项组21的“图像分类”的选项、和字符选项组22的“大尺寸字符”的选项。

复合机1在第一朗读设定画面DA1中，在第一画面转移按钮31被选择时，将显示第二朗读设定画面DA2(参照图5)。此外，复合机1在第一设定结束按钮32被选择时，将至此为止在朗读设定画面DA中被设定的朗读设定值存储在设定值存储区域13e中，并结束朗读设定。

图5为，表示用于实施第二朗读设定的第二朗读设定画面DA2的显示例的图。在第二朗读设定画面DA2上，显示有图像选项组21、字符选项组22、第二画面转移按钮33、第三画面转移按钮34和第二设定结束按钮35。第二朗读设定画面DA2的图像选项组21以及字符选项组22中所包含的选项与第一朗读设定画面DA1是相同的。此外，如该图所示那样，在本实施方式中，设为在第二朗读设定画面DA2中选择了图像选项组21的“人物”的选项、和字符选项组22的“装饰字符”的选项。

复合机1在第二朗读设定画面DA2中，在选择了第二画面转移按钮33时，将显示第一朗读设定画面DA1。此外，复合机1在第三画面转移按钮34被选择时，将显示第三朗读设定画面DA3(参照图6)。此外，复合机1在第二设定结束按钮35被选择时，将至此为止在朗读设定画面DA中被设定的朗读设定值存储在设定值存储区域13e中，并结束朗读设定。

图6为，表示用于实施第三朗读设定的第三朗读设定画面DA3的显示例的图。在第三朗读设定画面DA3上，显示有图像选项组21、字符选项组22、第四画面转移按钮36和第三设定结束按钮37。第三朗读设定画面DA3的图像选项组21以及字符选项组22中所包含的选项与第一朗读设定画面DA1是相同的。此外，如该图所示那样，在本实施方式中，设为在第三朗读设定画面DA3中，选择了图像选项组21的“图表”的选项、和字符选项组22的“日期时间”的选项。

复合机1在第三朗读设定画面DA3中，在选择了第四画面转移按钮36时，将显示第二朗读设定画面DA2。此外，复合机1在第三设定结束按钮37被选择时，至此为止在朗读设定画面DA中被设定的朗读设定值存储在设定值存储区域13e中，并结束朗读设定。

接下来，参照图7，对基于图4至图6所示的朗读设定画面DA的设定而被发音的词语进行说明。图7为表示原稿50的一个示例的图。在该图所示的原稿50中，包括表示人的脸部的脸部图像61、表示激光打印机的外观的第一打印机图像62、表示喷墨打印机的外观的第二打印机图像63、表示激光打印机的按月印刷张数的图表的第一图表图像64、表示喷墨打印机的按月印刷张数的图表的第二图表图像65。此外，在原稿50中，包括表示标题的标题字符串71、表示说明文的说明文字符串72、表示项目名称“激光打印机”的第一项目名称字符串73、表示项目名称“喷墨打印机”的第二项目名称字符串74。

复合机1在基于图4至图6所示的朗读设定画面DA的朗读设定值被存储在设定值存储区域13e中的情况下、且在对图7所示的原稿50进行了扫描的情况下，以如下方式对词语进行发音。另外，在以下所示的示例中，为了用户能够区分是字符的朗读还是图像的朗读，而设为复合机1在表示被图像识别部120识别出的字符或图像的词语之前，发音为“字符”或者“图像”。

复合机1在扫描处理中，在最初预扫描按钮14b被进行了操作时，基于第一朗读设定画面DA1(参照图4)的图像选项组21的选择结果，而对表示脸部图像61、第一打印机图像62、第二打印机图像63、第一图表图像64以及第二图表图像65的图像分类的词语进行发音。例如，复合机1发音为“图像、人物。图像、电器产品。图像、电器产品。图像、图表。图像、图表。”等。

此外，复合机1在扫描处理中，在最初预扫描按钮14b被进行了操作时，基于第一朗读设定画面DA1(参照图4)的字符选项组22的选择结果，而对字符尺寸较大的标题字符串71进行发音。例如，复合机1发音为“字符、打印机的使用状况的通知。”等。

此外，复合机1在扫描处理中，在第二次预扫描按钮14b被进行了操作时，基于第二朗读设定画面DA2(图5参照)的图像选项组21的选择结果，而对表示脸部图像61的人物的姓名的词语进行发音。例如，当在图像模板存储区域13b中在表示脸部图像61的人物的脸部的图像模板和表示人物的姓名的词语即“山田太郎”建立了关联并被存储的情况下(参照图2)，复合机1发音为“图像、山田太郎。”等。

此外，复合机1在扫描处理中，在第二次预扫描按钮14b被进行了操作时，基于第二朗读设定画面DA2(参照图5)的字符选项组22的选择结果，而对作为装饰的字符的第一项目名称字符串73以及第二项目名称字符串74进行发音。例如，复合机1发音为“字符、激光打印机。字符、喷墨打印机。”等。

此外，复合机1在扫描处理中，在第三次预扫描按钮14b被进行了操作时，基于第三朗读设定画面DA3(参照图6)的图像选项组21的选择结果，而对表示第一图表图像64以及第二图表图像65的图表的种类的词语进行发音。例如，复合机1发音为“图像、折线图。图像、折线图。”等。另外，复合机1也可以与图表的种类一起，对第一图表图像64以及第二图表图像65中所包含的字符进行发音。例如，复合机1也可以基于第一图表图像64而发音为“图像、折线图。激光打印机。横轴、1月、6月、12月。纵轴、印刷张数。”等。此外，复合机1也可以与图表的种类一起，对图表的要点进行发音。例如，复合机1也可以基于第二图表图像65而发音为“图像、折线图。印刷张数的峰值为8月。”等。

此外，复合机1在扫描处理中，第三次预扫描按钮14b被进行了操作时，基于第三朗读设定画面DA3(图6参照)的字符选项组22的选择结果，而对包含表示日期时间的字符在内的说明文字符串72进行发音。例如，复合机1发音为“字符、2019年度的打印机的按月印刷张数如下。”等。另外，复合机1也可以仅对表示日期时间的字符进行发音。例如，复合机1也可以发生为“字符、2019年度。”等。

接下来，参照图8至图11的流程图，对扫描处理的流程进行说明。复合机1根据检测出原稿50已被安置在图像读取机构16的原稿台上的情况而开始图8的流程图。首先，定期地对预扫描按钮14b的操作进行监视，直到预扫描按钮14b的操作被检测出为止。以下所示的扫描处理是指，预扫描按钮14b的操作以后的处理。另外，设为复合机1在扫描处理之前，将第一朗读设定、第二朗读设定以及第三朗读设定的设定值存储在设定值存储区域13e中。此外，设为复合机1将正式扫描数据的目的地存储在目的地存储区域13d中。

在S01中，复合机1对预扫描按钮14b是否***作了进行判断。复合机1在判断为预扫描按钮14b***作了的情况下，前进至S02。此外，复合机1在判断为预扫描按钮14b未***作的情况下，反复执行S01。

在S02中，复合机1通过图像读取机构16而对原稿50进行扫描，并生成作为朗读结果的图像数据即预扫描数据。

在S03中，复合机1对在S02中所生成的预扫描数据进行图像识别。由此，对在原稿中包含了什么样的图像进行识别，并创建符合各个朗读设定的字符或图像的列表。

在S04中，复合机1基于符合各个朗读设定的字符或图像的列表，而对在原稿50中是否包含符合第一朗读设定的字符或图像进行判断。复合机1在判断为在原稿50中包含符合第一朗读设定的字符或图像的情况下，前进至S05。此外，复合机1在判断为在原稿50中不包含符合第一朗读设定的字符或图像的情况下，前进至图10的S21。

在S05中，复合机1对与符合第一朗读设定的字符或图像相对应的词语进行发音。

在图9的S11中，复合机1对预扫描按钮14b是否被再次操作进行判断。复合机1在扫描处理开始后，将第二次以后的预扫描按钮14b的操作判断为“预扫描按钮14b的再次操作”。复合机1在判断为预扫描按钮14b被再次操作了的情况下，前进至图10的S21。此外，复合机1在判断为预扫描按钮14b未被再次操作的情况下，前进至S12。另外，设为复合机1在预扫描按钮14b被再次操作了的情况下、也就是针对扫描处理中的第二次以后的预扫描按钮14b的操作，将不实施原稿50的扫描。

在S12中，复合机1对正式扫描按钮14c是否***作了进行判断。复合机1在判断为正式扫描按钮14c***作了的情况下，前进至S13。此外，复合机1在判断为正式扫描按钮14c未***作的情况下，前进至S15。

在S13中，复合机1通过图像读取机构16来对原稿50进行正式扫描，并生成正式扫描数据。正式扫描数据为，与在图8的S02中所生成的预扫描相比而更高的高分辨率的扫描数据。另外，复合机1在正式扫描按钮14c***作之前，在实施读取分辨率的设定等各种设定时，使其设定反映在S13中的正式扫描数据的生成中，在没有特别实施设定的情况下，则将默认的设定反映在正式扫描数据的生成中。

在S14中，复合机1向特定的目的地发送在S13中生成的正式扫描数据。此时，在由用户指定了目的地的情况下，复合机1向被指定的目的地发送正式扫描数据。此外，在目的地未被特别指定的情况下，复合机1将其发送至默认的目的地。如果该目的地为打印机，则将通过发送目的地的打印机而实施印刷。

在S15中，复合机1对取消按钮14d是否***作了进行判断。复合机1在判断为取消按钮14d***作了的情况下，结束扫描处理。此外，复合机1在判断为取消按钮14d未***作的情况下，前进至S16。

在S16中，复合机1对在发音结束后是否经过了固定时间进行判断。在此，“发音结束”是指，图8的S05中的发音结束。复合机1在判断为在发音结束后经过了固定时间的情况下，结束扫描处理。此外，复合机1在判断为发音结束后未经过固定时间的情况下，返回至S11。

在图10的S21中，复合机1基于符合各个朗读设定的字符或图像的列表，而对在原稿50中是否包括符合第二朗读设定的字符或图像进行判断。复合机1在判断为在原稿50中包括符合第二朗读设定的字符或图像的情况下，前进至S22。此外，复合机1在判断为在原稿50中不包含符合第二朗读设定的字符或图像的情况下，前进至图11的S31。

在S22中，复合机1对与符合第二朗读设定的字符或图像相对应的词语进行发音。

在S23中，复合机1对预扫描按钮14b是否被再次操作了进行判断。复合机1在判断为预扫描按钮14b被再次操作了的情况下，前进至图11的S31。此外，复合机1在判断为预扫描按钮14b未被再次操作的情况下，前进至S24。

在S24中，复合机1对正式扫描按钮14c是否***作了进行判断。复合机1在判断为正式扫描按钮14c***作了的情况下，前进至S25。此外，复合机1在判断为正式扫描按钮14c未***作的情况下，前进至S27。

在S25中，复合机1通过图像读取机构16来对原稿50进行正式扫描，并生成正式扫描数据。此外，本工序与图9的S13相同。

在S26中，复合机1向特定的目的地发送在S25中生成的正式扫描数据。此外，本工序与图9的S14相同。

在S27中，复合机1对取消按钮14d是否***作了进行判断。复合机1在判断为取消按钮14d***作了的情况下，结束扫描处理。此外，复合机1在判断为取消按钮14d未***作的情况下，前进至S28。

在S28中，复合机1对在发音结束后是否经过了固定时间进行判断。在此，“发音结束”是指，S22中的发音结束。复合机1在判断为在发音结束后经过了固定时间的情况下，结束扫描处理。此外，复合机1在判断为在发音结束后未经过固定时间的情况下，返回至S23。

在图11的S31中，复合机1基于符合各个朗读设定的字符或图像的列表，而对在原稿50中是否包含符合第三朗读设定的字符或图像进行判断。复合机1在判断为在原稿50中包含符合第三朗读设定的字符或图像的情况下，前进至S32。此外，复合机1在判断为在原稿50中未包含符合第三朗读设定的字符或图像的情况下，前进至S33。

在S32中，复合机1对与符合第三朗读设定的字符或图像相对应的词语进行发音。

在S33中，复合机1对预扫描按钮14b是否被再次操作了进行判断。复合机1在判断为预扫描按钮14b被再次操作了的情况下，前进至图8的S04。此外，复合机1在判断为预扫描按钮14b未被再次操作的情况下，前进至S34。

在S34中，复合机1对正式扫描按钮14c是否***作了进行判断。复合机1在判断为正式扫描按钮14c***作了的情况下，前进至S35。此外，复合机1在判断为正式扫描按钮14c未***作的情况下，前进至S37。

在S35中，复合机1通过图像读取机构16来对原稿50进行正式扫描，并生成正式扫描数据。此外，本工序与图9的S13相同。

在S36中，复合机1向特定的目的地发送在S35中生成的正式扫描数据。此外，本工序与图9的S14相同。

在S37中，复合机1对取消按钮14d是否***作了进行判断。复合机1在判断为取消按钮14d***作了的情况下，结束扫描处理。此外，复合机1在判断为取消按钮14d未***作的情况下，前进至S38。

在S38中，复合机1对在发音结束后是否经过了固定时间进行判断。在此，所谓“发音结束”，在S32被执行了的情况下，是指S32中的发音结束，在S32未被执行的情况下，是指最后预扫描按钮14b***作时。复合机1在判断为在发音结束后经过了固定时间的情况下，结束扫描处理。此外，复合机1在判断为在发音结束后未经过固定时间的情况下，返回至S33。

如以上说明的那样，本实施方式所涉及的复合机1能够对扫描原稿50而得到的扫描数据进行图像识别，并使与该识别结果相对应的词语从扬声器电路17中发音。

此外，复合机1也能够针对与图像识别结果相对应的词语且被包含在原稿50中的各种各样的内容，而从扬声器电路17中发音。因此，对复合机1进行操作的用户能够掌握原稿50中所包含的字符以外的信息。此外，由于用户能够在掌握了原稿50中所包含的信息的基础上，指示进行正式扫描，因此能够减少错误地扫描了不想要的原稿50等的扫描错误。尤其是，在原稿50仅为照片或绘画且未书写有字符这样的情况下，效果较明显。

此外，复合机1能够在发音处理中的发音结束后的固定时间内，在正式扫描按钮14c***作时，生成正式扫描数据，并将所生成的正式扫描数据发送至特定的目的地。即，用户能够通过仅对正式扫描按钮14c进行操作的简单操作，而将正式扫描数据发送至特定的目的地。

另外，不论上述实施方式如何，均能够采用以下的变形例。

变形例1

虽然在上述的实施方式中，复合机1在扫描处理内实施了原稿50的朗读，但也可以在复印处理内实施原稿50的朗读。在该情况下，复合机1也可以代替正式扫描指示，而在接受复印指示时，对原稿50进行复印即可。

变形例2

如何朗读原稿50内的哪个图像、或者以哪种分类来对朗读设定进行设定，均未被限于上述的实施方式。例如，也可以像“ABC公司的商标”等这样朗读出不包含字符的商标。此外，虽然进行朗读的语言为，作为***语言而被设定的语言，但在对原稿50内的字符进行解析的结果为，判断出是其他语言的文件的情况下，也可以通过所判断出的语言来进行朗读。例如，也可以通过***语言来朗读图像，接下来通过所判断出的语言来朗读图像。在朗读字符的情况下，也可以同样地翻译为***语言来朗读字符，并接下来通过所判断出的语言来朗读字符。当然，朗读的顺序是任意的，并未被限定于此。

变形例3

在原稿50内包含多个相同的符合朗读设定的字符或图像的情况下，以怎样的顺序来朗读与它们相对应的词语，能够在用户易于理解的范围内进行适设计。例如，也可以采用如下方式，即，在判断为是横写的原稿50的情况下，从左上朝向右下而依次朗读，在判断为纵写的原稿50的情况下，从右上朝向左下而依次朗读。

变形例4

虽然在上述的实施方式中，复合机1在接受到正式扫描指示时，对原稿50进行正式扫描，但也可以省略正式扫描。在该情况下，复合机1只要在接受到扫描指示时，开始进行扫描处理并生成正式扫描数据，并基于所生成的正式扫描数据而进行图像识别，并且在接受到发送指示时，将所生成的正式扫描数据发送至特定的目的地即可。

变形例5

虽然在上述的实施方式中，复合机1在发音结束后的固定时间内接受到正式扫描指示时，生成正式扫描数据，并将所生成的正式扫描数据发送至特定的目的地，但也可以设为在发音处理中的发音中，也能够接受正式扫描指示。即，复合机1在发音处理中的发音中接受到正式扫描指示的情况下，也可以生成正式扫描数据，并将所生成的正式扫描数据发送至特定的目的地。

变形例6

虽然在上述的实施方式中，复合机1向外部装置内的特定的存储区域发送了正式扫描数据，但也可以将PC的邮件地址设为正式扫描数据的发送目的地。PC的邮件地址为，“特定的目的地”的一个示例。

此外，作为进一步的变形例，也可以将在复合机1上可装拆的外部存储介质、或对复合机1进行操作的用户所持有的智能手机等信息处理终端设为“特定的目的地”。

变形例7

虽然在上述的实施方式中，复合机1在接受到第二次预扫描按钮指示时，对与符合第二朗读设定的字符或图像相对应的词语进行了发音，但也可以以包括与符合第一朗读设定的字符或图像相对应的词语在内的方式来进行发音。即，复合机1也可以在接受到第二次预扫描按钮指示时，对与符合第一朗读设定以及第二朗读设定的字符或图像相对应的词语进行发音，并在接受到第三次预扫描按钮指示时，对与符合第一朗读设定、第二朗读设定以及第三朗读设定的字符或图像相对应的词语进行发音。但是，当在图像选项组21中选择了“全部图像”的情况下，优选为，省略符合其他图像选项的词语且重复的词语的发音。同样地，当在字符选项组22中选择了“全部字符”时，优选为，省略符合其他字符选项的词语且重复的词语的发音。

变形例8

此外，虽然在复合机1判断为在原稿5中未包含符合第一朗读设定的字符或图像的情况下、也就是在图8的S04：否的情况下，前进到了图10的S21，但也可以在对该主旨的消息进行了发音之后，进入S216。同样地，复合机1既可以在图10的S21：否的情况下，对在原稿50中不包含符合第二朗读设定的字符或图像的主旨的消息进行发音，也可以在图11的S31：否的情况下，对在原稿50中不包含符合第三朗读设定的字符或图像的主旨的消息进行发音。

变形例9

虽然在上述的实施方式中，在扫描处理的中途取消按钮14d***作时，结束扫描处理，但也可以在原稿50从图像读取机构16的原稿台上被移走时，结束扫描处理。

变形例10

虽然在上述的实施方式中，复合机1在检测出了原稿50被安置在图像读取机构16的原稿台上的状态下，通过按压预扫描按钮14b而前进至接下来的处理，但也可以设为，复合机1在检测出了原稿50被安置在图像读取机构16的原稿台上的状态下，在判断为预扫描按钮14b未被按压而正式扫描按钮14c***作了的情况下，前进至S13。

变形例11

虽然在上述的实施方式中，作为扫描***而例示了复合机1，但也可以通过复合机1和服务器来实现扫描***。在该情况下，也可以将图3所示的功能中的图像识别部120的全部或者一部分设置在服务器中，并将除此以外的功能设置在复合机1中。此外，也可以代替服务器，而使用智能手机等信息处理终端。即，也可以通过复合机1和信息处理终端来实现扫描***。

变形例12

扫描***也可以为复合机1以外的电子设备。作为电子设备，也可以使用扫描仪、复印机、投影仪、文档照相机(Document camera)、附带照相机的信息处理终端等。例如，在作为扫描***而使用了投影仪的情况下，只要能够实施进行投影的原稿50的朗读即可。此外，在作为扫描***而使用了文档照相机以及附带照相机的信息处理终端的情况下，只要通过照相机来拍摄原稿50，并代替扫描数据而使用拍摄得到的图像数据即可。

此外，在不脱离发明的主旨的范围内，能够进行适当变更。

附记

以下，对扫描***、程序以及扫描***的扫描数据生成方法进行附记。

一种扫描***，其具备：生成部110，其对原稿50进行扫描并生成扫描数据；图像识别部120，其对扫描数据进行图像识别；发音部130，其使与图像识别部120的识别结果相对应的词语、且与原稿50中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路17中进行发音。

一种程序，其使扫描***执行如下步骤，即：对原稿50进行扫描并生成扫描数据的步骤；对扫描数据进行图像识别的步骤；使与图像识别的识别结果相对应的词语、且与原稿50中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路17中进行发音的步骤。

一种扫描***的扫描数据生成方法，其执行如下步骤，即：对原稿50进行扫描并生成扫描数据的步骤；对扫描数据进行图像识别的步骤；使与图像识别的识别结果相对应的词语、且与原稿50中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路17中进行发音的步骤。

根据该结构，扫描***能够使与图像识别结果相对应的词语、且与原稿50中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路17中进行发音。

在上述的扫描***中，优选为，当在原稿50中包含人物的脸部的情况下，图像识别部120对人物的脸部进行识别，发音部130参照针对每个人物而将脸部的图像数据和表示姓名的词语建立关联并存储的图像模板存储区域13b，而使表示在图像识别部120中脸部被识别出的人物的姓名的词语作为照片·绘画·图对应词语，而从扬声器电路17中进行发音。

根据该结构，扫描***能够使表示在图像识别部120中脸部被识别出的人物的姓名的词语作为照片·绘画·图对应词语，而从扬声器电路17中进行发音。

在上述的扫描***中，优选为，当在原稿50中包含图表的情况下，图像识别部120对图表的种类进行识别，发音部130参照针对每个图表的种类而将图表的图像数据和表示图表的种类的词语建立关联并存储的图像模板存储区域13b，而使表示在图像识别部120中被识别出的图表的种类的词语作为照片·绘画·图对应词语，而从扬声器电路17中进行发音。

根据该结构，扫描***能够使表示在图像识别部120中被识别出的图表的种类的词语作为照片·绘画·图对应词语，而从扬声器电路17中进行发音。

在上述的扫描***中，优选为，当在原稿50中包括图像的情况下，图像识别部120对图像的分类进行识别，发音部130参照针对每个图像而将图像数据和表示图像的分类的词语建立关联并存储的图像模板存储区域13b，而使表示在图像识别部120中被识别出的图像的分类的词语作为照片·绘画·图对应词语，而从扬声器电路17中进行发音。

根据该结构，扫描***能够使表示在图像识别部120中被识别出的图像的分类的词语作为照片·绘画·图对应词语，而从扬声器电路17中进行发音。

在上述的扫描***中，优选为，当在原稿50中包括字符的情况下，图像识别部120通过光学字符识别处理而对字符进行识别，发音部130进一步使与在图像识别部120中被识别出的字符相对应的词语，从扬声器电路17中进行发音。

根据该结构，扫描***能够使与通过光学字符识别处理而被识别出的字符相对应的词语，从扬声器电路17中进行发音。

在上述的扫描***中，优选为，生成部110生成第一扫描数据以及第二扫描数据，图像识别部120对第一扫描数据进行图像识别，所述扫描***还具备发送部140，所述发送部140在由发音部130实施的发音过程中、或者在由发音部130实施的发音结束后的固定时间内，在实施了特定的操作时，将第二扫描数据发送至特定的目的地。

根据该结构，扫描***能够在由发音部130实施的发音过程中、或者在由发音部130实施的发音结束后的固定时间内，在实施了特定的操作时，将第二扫描数据发送至特定的目的地。

一种扫描***，其具备：生成部110，其对原稿50进行扫描并生成扫描数据；图像识别部120，其对扫描数据进行图像识别；发音部130，其使与图像识别部120的识别结果相对应的词语、且不是与原稿50中所包含的字符相对应的词语并且也不是与原稿50中所包含的代码相对应的字符·代码非对应词语，从扬声器电路17中进行发音。

根据该结构，扫描***能够使与图像识别结果相对应的词语、且不是与原稿50中所包含的字符相对应的词语并且也不是与原稿50中所包含的代码相对应的字符·代码非对应词语，从扬声器电路17中进行发音。

符号说明

1…复合机；110…生成部；120…图像识别部；130…发音部；140…发送部。

Claims

1.一种扫描***，其特征在于，具备：

生成部，其对原稿进行扫描并生成扫描数据；

图像识别部，其对所述扫描数据进行图像识别；

发音部，其使与所述图像识别部的识别结果相对应的词语、且与所述原稿中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路中进行发音。

2.如权利要求1所述的扫描***，其特征在于，

当在所述原稿中包含人物的脸部的情况下，

所述图像识别部对所述人物的脸部进行识别，

所述发音部参照针对每个人物而将脸部和姓名建立关联并存储的存储部，而使表示在所述图像识别部中脸部被识别出的所述人物的姓名的词语作为所述照片·绘画·图对应词语，而从所述扬声器电路中进行发音。

3.如权利要求1或2所述的扫描***，其特征在于，

当在所述原稿中包含图表的情况下，

所述图像识别部对所述图表的种类进行识别，

所述发音部参照针对每个所述图表的种类而将所述图表和表示所述图表的种类的词语建立关联并存储的存储部，而使表示在所述图像识别部中被识别出的所述图表的种类的词语作为所述照片·绘画·图对应词语，而从所述扬声器电路中进行发音。

4.如权利要求1所述的扫描***，其特征在于，

当在所述原稿中包含图像的情况下，

所述图像识别部对所述图像的分类进行识别，

所述发音部参照针对每个所述图像而将图像的分类和表示所述图像的分类的词语建立关联并存储的存储部，而使表示在所述图像识别部中被识别出的所述图像的分类的词语作为所述照片·绘画·图对应词语，而从所述扬声器电路中进行发音。

5.如权利要求1所述的扫描***，其特征在于，

当在所述原稿中包含字符的情况下，

所述图像识别部通过光学字符识别处理而对所述字符进行识别，

所述发音部进一步使与在所述图像识别部中被识别出的所述字符相对应的词语从所述扬声器电路中进行发音。

6.如权利要求1所述的扫描***，其特征在于，

所述生成部生成第一扫描数据以及第二扫描数据，

所述图像识别部对所述第一扫描数据进行图像识别，

所述扫描***还具备发送部，所述发送部在由所述发音部实施的发音过程中、或者在由所述发音部实施的发音结束后的固定时间内，在实施了特定的操作时，将所述第二扫描数据发送至特定的目的地。

7.一种存储介质，其上存储有用于使扫描***执行如下步骤的程序，所述步骤为：

对原稿进行扫描并生成扫描数据的步骤；

对所述扫描数据进行图像识别的步骤；

使与所述图像识别的识别结果相对应的词语、且与所述原稿中所包含的照片、绘画以及图之中的任意一个相对应的照片·绘画·图对应词语，从扬声器电路中进行发音的步骤。

8.一种扫描***的扫描数据生成方法，其特征在于，在所述方法中执行如下步骤，即：

对原稿进行扫描并生成扫描数据的步骤；

对所述扫描数据进行图像识别的步骤；