CN112040079A

CN112040079A - 图像处理装置以及记录介质

Info

Publication number: CN112040079A
Application number: CN202010488618.2A
Authority: CN
Inventors: 山本宪三
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-06-03
Filing date: 2020-06-02
Publication date: 2020-12-04
Also published as: JP2020198553A; US20200382660A1; JP7388006B2

Abstract

提供一种即使在图像处理装置的周围的噪音较大的情况下，也能够以较高的识别率对从麦克风等语音输入装置输入的用户的语音进行语音识别，并且，无需在语音输入时停止本机的动作的图像处理装置和程序。该图像处理装置包括：控制单元(100)，使语音输出装置(220)语音输出对于用户的提问；以及受理单元(100)，受理针对提问而说出并输入到语音输入装置(210)的用户的语音。作为对用户的提问的方式，设定了第一模式和第二模式，该第二模式与第一模式相比，限定了针对提问的回答候选，该图像处理装置还包括：切换单元(100)，切换第一模式和第二模式，控制单元(100)通过由切换单元切换的第一模式或第二模式，使语音输出装置语音输出对于用户的提问。

Description

图像处理装置以及记录介质

技术领域

本发明涉及复印机、打印机或被称为MFP(多功能复合一体机)的多功能数字复合机等的图像处理装置以及记录介质。

背景技术

作为上述那样的图像处理装置，可进行语音操作的装置逐渐增多。具体而言，针对经由扬声器等语音输出装置从图像处理装置中输出的提问，用户说出回答，经由麦克风等语音输入装置受理所说出的用户的语音并进行语音识别处理，进行与语音的内容相应的动作设定或动作指示等。

但是，麦克风等语音输入装置中不仅输入了说出的用户的语音，还输入了图像处理装置的周围的噪音。该噪音包括图像处理本装置的动作声，例如，在图像处理装置为具有扫描仪部或打印机部等的图像形成装置的情况下，扫描仪部或打印机部等的动作过程中它们的动作声会作为噪音被输入。因此，在噪音较大的情况下，对输入到麦克风等中的用户的语音的语音识别率下降，有可能会在语音操作中产生错误。

因此，为了应对这样的问题，专利文献1提出了一种在用户针对操作说话的情况下，通过停止设备的动作，从而避免了设备动作过程中产生的动作声成为噪音导致语音识别率下降的图像形成装置。

现有技术文献

专利文献

专利文献1：(日本)特开第2010-136335号公报

发明内容

发明要解决的课题

然而，在如专利文献1那样，在用户针对操作说话的情况下，停止设备动作的方法中，每次语音识别都要停止并延迟任务的执行。由此，存在尤其在大量印刷时或紧急时妨碍任务执行的课题。

本发明是鉴于这样的技术背景而完成的，其目的在于提供一种即使在图像处理装置的周围的噪音较大的情况下，也能够以较高的识别率对从麦克风等语音输入装置输入的用户的语音进行语音识别，并且无需在语音输入时停止本机的动作的图像处理装置以及记录介质。

用于解决问题的手段

上述目的是通过以下手段实现的。

(1)一种图像处理装置，其特征在于，包括：控制单元，使语音输出装置语音输出对于用户的提问；受理单元，受理针对所述提问而说出并被输入到语音输入装置的用户的语音；以及第二控制单元，基于由所述受理单元受理的语音内容来控制图像处理动作，作为对用户进行所述提问的方式，设定了第一模式和第二模式，所述第二模式与第一模式相比，限定了针对提问的回答候选，所述图像处理装置还包括：切换单元，切换所述第一模式和第二模式，所述第一控制单元通过由所述切换单元切换的第一模式或第二模式，使所述语音输出装置语音输出对于用户的提问。

(2)如上述(1)所述的图像处理装置，其中，所述第一模式为进行提问而不提示回答候选且用户能够自由地说出回答的自由说话模式，所述第二模式为向用户提示回答候选供用户选择的选择式说话模式。

(3)如上述(2)所述的图像处理装置，其中，所述图像处理装置包括显示单元，所述第一控制单元在通过所述第二模式使语音输出装置输出提问的情况下，将回答候选的列表显示在所述显示单元上，所述用户从所述显示单元上显示的回答候选的列表中选择候选并说话。

(4)如上述(2)或(3)所述的图像处理装置，其中，所述第一控制单元在通过所述第二模式使语音输出装置输出提问的情况下，使回答候选的列表通过语音被输出，所述用户从通过语音来输出的回答候选的列表中选择候选并说话。

(5)如上述(3)或(4)所述的图像处理装置，其中，回答候选的列表是按照过去的选择频率从高到低的回答候选的顺序创建的。

(6)如上述(3)或(4)所述的图像处理装置，其中，回答候选的列表是按照在本装置中注册的先后顺序创建的。

(7)如上述(1)至(6)中任一项所述的图像处理装置，其中，所述切换单元基于用户的切换操作来切换第一模式和第二模式。

(8)如上述(1)至(6)中任一项所述的图像处理装置，其中，所述切换单元基于本装置的周围的噪音的大小来切换第一模式和第二模式，在噪音的大小超过规定的阈值的情况下，从第一模式切换到第二模式。

(9)如上述(8)所述的图像处理装置，其中，所述噪音为本装置的动作噪音。

(10)如上述(8)或(9)所述的图像处理装置，其中，所述噪音是通过所述语音输入装置收集的当前的噪音，所述切换单元对当前的噪音的大小和所述阈值进行比较。

(11)如上述(8)或(9)所述的图像处理装置，其中，所述图像处理装置包括：存储单元，存储基于过去的动作时的声音收集数据而计算出的各个动作时的噪音的大小，所述切换单元根据所述存储单元中存储的与当前的动作相同的过去的动作时的噪音的大小来预测本装置的周围的噪音的大小。

(12)如上述(11)所述的图像处理装置，其中，在执行多个动作的情况下，所述切换单元通过结合所述存储单元中存储的与当前的动作相同的过去的各个动作时的噪音来预测本装置的周围的噪音的大小。

(13)如上述(1)至(12)中任一项所述的图像处理装置，其中，在预先设定的动作的执行过程中，所述切换单元不进行从第一模式至第二模式的切换。

(14)如上述(8)至(13)中任一项所述的图像处理装置，其中，在本装置的动作过程中，所述切换单元在本装置的周围的噪音的大小超过阈值的时间点从第一模式切换到第二模式，在成为阈值以下的时间点从第二模式切换到第一模式。

(15)如上述(11)至(13)中任一项所述的图像处理装置，其中，在预测到动作过程中任意时间点噪音的大小会超过阈值的情况下，所述切换单元从动作开始的时间点起就进行向第二模式的切换，而无需等到超过阈值的时间点。

(16)一种计算机可读取的记录介质，其中，所述记录介质存储了程序，所述程序用于使图像处理装置的计算机执行以下步骤：控制步骤，使语音输出装置输出对于用户的提问；受理步骤，受理针对所述提问而说出并被输入到语音输入装置的用户的语音；以及第二控制步骤，基于通过所述受理步骤受理的语音内容来控制图像处理动作，作为对用户进行的所述提问的方式，设定了第一模式和第二模式，所述第二模式与第一模式相比，限定了针对提问的回答候选，所述程序还使所述计算机执行以下步骤：切换步骤，切换所述第一模式和第二模式，所述程序使所述计算机执行以下处理：在所述控制步骤中，通过由所述切换步骤切换的第一模式或第二模式，使所述语音输出装置输出对于用户的提问。

(17)如上述(16)所述的记录介质，其中，所述第一模式为进行提问而不提示回答候选且用户能够自由地说出回答的自由说话模式，所述第二模式为向用户提示回答候选供用户选择的选择式说话模式。

(18)如上述(17)所述的记录介质，其中，所述图像处理装置包括显示单元，所述程序使所述计算机执行以下处理：在所述第一控制步骤中，在通过所述第二模式使语音输出装置输出提问的情况下，将回答候选的列表显示在所述显示单元上，所述用户从所述显示单元上显示的回答候选的列表中选择候选并说话。

(19)如上述(17)或(18)所述的记录介质，其中，所述程序使所述计算机执行以下处理：在所述第一控制步骤中，在通过所述第二模式使语音输出装置输出提问的情况下，使回答候选的列表通过语音被输出，所述用户从通过语音来输出的回答候选的列表中选择候选并说话。

(20)如上述(18)或(19)所述的记录介质，其中，回答候选的列表是按照过去的选择频率从高到低的回答候选的顺序创建的。

(21)如上述(18)或(19)所述的记录介质，其中，回答候选的列表是按照在本装置中注册的先后顺序创建的。

(22)如上述(16)至(21)中任一项所述的记录介质，其中，所述程序使所述计算机执行以下处理：在所述切换步骤中，基于用户的切换操作来切换第一模式和第二模式。

(23)如上述(16)至(21)中任一项所述的记录介质，其中，所述程序使所述计算机执行以下处理：在所述切换步骤中，基于本装置的周围的噪音的大小来切换第一模式和第二模式，在噪音的大小超过规定的阈值的情况下，从第一模式切换到第二模式。

(24)如上述(23)所述的记录介质，其中，所述噪音是本装置的动作噪音。

(25)如上述(23)或(24)所述的记录介质，其中，所述噪音是由所述语音输入装置收集的当前的噪音，所述程序使所述计算机执行以下处理：在所述切换步骤中，对当前的噪音的大小和所述阈值进行比较。

(26)如上述(23)或(24)所述的记录介质，其中，所述图像处理装置包括：存储单元，存储基于过去的动作时的声音收集数据而计算出的各个动作时的噪音的大小，所述程序使所述计算机执行以下处理：在所述切换步骤中，根据所述存储单元中存储的与当前的动作相同的过去的动作时的噪音的大小来预测本装置的周围的噪音的大小。

(27)如上述(26)所述的记录介质，其中，在执行多个动作的情况下，所述程序使所述计算机执行以下处理：在所述切换步骤中，通过结合所述存储单元中存储的与当前的动作相同的过去的各个动作时的噪音来预测图像处理装置的周围的噪音的大小。

(28)如上述(16)至(27)中任一项所述的记录介质，其中，所述程序使所述计算机执行以下处理：在所述切换步骤中，在预先设定的动作的执行过程中不进行从第一模式至第二模式的切换。

(29)如上述(23)至(28)中任一项所述的记录介质，其中，所述程序使所述计算机执行以下处理：在所述切换步骤中，在图像处理装置的动作过程中，在图像处理装置的周围的噪音的大小超过阈值的时间点从第一模式切换到第二模式，在成为阈值以下的时间点从第二模式切换到第一模式。

(30)如上述(26)至(28)中任一项所述的程序，其中，所述程序使所述计算机执行以下处理：在所述切换步骤中，在预测到动作过程中任意时间点噪音的大小会超过阈值的情况下，从动作开始的时间点起就进行向第二模式的切换，而无需等到超过阈值的时间点。

发明的效果

根据上述(1)所述的发明，当使扬声器等语音输出装置输出对于用户的提问时，用户针对提问而说话。所说出的用户的语音被输入到麦克风等语音输入装置，由图像处理装置受理。基于所受理的语音的内容来控制图像处理动作。作为对用户提问的方式，设定了第一模式和第二模式，该第二模式与第一模式相比，限定了针对提问的回答候选，该图像处理装置包括：切换单元，切换第一模式和第二模式。然后，通过由切换单元切换的第一模式或第二模式，从语音输出装置语音输出对于用户的提问。

其中，由于第二模式与第一模式相比，限定了针对提问的回答候选，因此在语音识别时，能够预先对回答候选的语音数据进行模式化，因而能够提高语音识别率。因此，在图像处理装置周围的噪音较大等情况下，通过利用切换单元切换到第二模式来对用户进行提问，从而能够以较高的识别率对从语音输入装置输入的用户的语音进行语音识别。而且，只要利用切换单元切换到第二模式即可，也无需在语音输入时停止本机的动作，因此也不会出现在大量印刷时或紧急时妨碍任务执行的情况。

根据上述(2)所述的发明，第一模式为进行提问而不提示回答候选，用户能够自由地说出回答的自由说话模式，第二模式是使用户选择回答候选的选择式说话模式，因此与第一模式相比，能够可靠地提高第二模式下的语音识别率。

根据上述(3)所述的发明，在通过第二模式即选择式说话模式使语音输出装置输出提问的情况下，在显示单元上显示回答候选的列表，用户从所显示的回答候选的列表中选择候选并说话即可，因此用户可以用眼睛确认所显示的列表，更容易选择回答候选。

根据上述(4)所述的发明，在通过第二模式即选择式说话模式使语音输出装置输出提问的情况下，使回答候选的列表通过语音被输出，用户从通过语音来输出的回答候选的列表中选择候选并说话，因此无需将列表显示在显示单元上。

根据上述(5)所述的发明，回答候选的列表是按照过去的选择频率从高到低的回答候选的顺序创建的，因此成为用户选择回答候选时的参考。

根据上述(6)所述的发明，回答候选的列表是按照在本装置中注册的先后顺序创建的，因此成为用户选择回答候选时的参考。

根据上述(7)所述的发明，基于用户的切换操作来切换第一模式和第二模式，因此，通过在用户进行语音操作时感觉到周围的噪音较大等情况下进行切换操作，能够进行识别率较高的语音识别。

根据上述(8)所述的发明，基于本装置的周围的噪音的大小来切换第一模式和第二模式，在噪音的大小超过规定的阈值的情况下，从第一模式切换到第二模式，因此，在进行语音操作时周围的噪音较大的情况下，能够自动切换到语音识别率较高的第二模式而无需用户的切换操作。

根据上述(9)所述的发明，在本装置的动作噪音超过阈值的情况下，通过切换到第二模式，能够实现较高的语音识别率。

根据上述(10)所述的发明，在语音输入装置收集的当前的噪音超过阈值的情况下，通过切换到第二模式，能够实现较高的语音识别率。

根据上述(11)所述的发明，根据存储单元中存储的与当前的动作相同的过去的动作时的噪音的大小来预测本装置的周围的噪音的大小，因此无需测量噪音的大小。

根据上述(12)所述的发明，在执行多个动作的情况下，通过结合存储单元中存储的与当前的动作相同的过去的各个动作时的噪音来预测本装置的周围的噪音的大小，因此，能够简单地求出当前的噪音的大小。

根据上述(13)所述的发明，在预先设定的动作的执行过程中不进行从第一模式至第二模式的切换，因此在该动作过程中无需进行求出噪音的大小的处理，从而能够简化处理。

根据上述(14)所述的发明，在本装置的动作过程中，在本装置的周围的噪音的大小超过阈值的时间点从第一模式切换到第二模式，在成为阈值以下的时间点从第二模式切换到第一模式，因此能够进行与噪音的变化相应的、精度较高的切换。

根据上述(15)所述的发明，在预测到动作过程中任意时间点噪音的大小会超过阈值的情况下，从动作开始的时间点起就进行向第二模式的切换，而无等到超过阈值的时间点，因此在动作过程中无需进行求出噪音的大小的处理，从而能够简化处理。

根据上述(16)所述的发明，能够使图像处理装置的计算机执行以下处理：使语音输出装置输出对于用户的提问，受理针对提问说出并被输入到语音输入装置的用户的语音，基于所受理的语音内容来控制图像处理动作，切换第一模式和第二模式，该第二模式与第一模式相比，限定了针对提问的回答候选，并通过切换的第一模式或第二模式，使语音输出装置输出对于用户的提问。

附图说明

图1是本发明的一实施方式涉及的图像处理装置的结构图。

图2是表示第一模式中的来自图像处理装置的提问和用户对提问的回答的一例的图。

图3是表示图像处理装置的动作声的大小的一例的图。

图4是表示在语音操作过程中切换到第二模式时的来自图像处理装置的提问和用户对提问的回答的一例的图。

图5是表示在显示单元上显示了回答候选的状态的图。

图6是表示在语音操作过程中切换到第二模式时的来自图像处理装置的提问和用户对提问的回答的其它例子的图。

图7是表示在语音操作时由图像处理装置执行的、第一模式和第二模式的切换动作的一例的流程图。

图8是表示在语音操作时由图像处理装置执行的、第一模式和第二模式的切换动作的其它例子的流程图。

图9是表示任务执行时的动作声(噪音)的变迁的一例的图表。

图10是表示基于过去的任务执行时的动作声来预测噪音，并进行模式切换时的图像处理装置的动作的流程图。

图11是表示任务执行时的动作声(噪音)的变迁的其它例子的图表。

图12是表示在任务开始之前预先切换到第二模式的情况下的图像处理装置的动作的流程图。

图13是表示由用户选择自动进行还是手动进行第一模式和第二模式的切换的情况下的选择画面的图。

图14是表示在图13的画面中选择了“手动”的情况下跳转的模式选择画面的图。

标号说明

1 图像形成装置(图像处理装置)

100 控制部

101 CPU

102 ROM。

103 RAM

110 存储装置

140 图像输出装置

160 网络接口

200 语音终端装置

210 麦克风部(语音输入装置)

220 扬声器部(语音输出装置)

具体实施方式

下面，基于附图对本发明的实施方式进行说明。

图1是表示作为本发明的一个实施方式涉及的图像处理装置的图像形成装置1的结构的框图。在该实施方式中，作为图像形成装置1，使用具备复印功能、打印机功能、传真功能、扫描功能等的多功能数字复合机。

如图1所示，图像形成装置1包括控制部100、存储装置110、图像读取装置120、操作面板130、图像输出装置140、打印机控制器150、网络接口(网络I/F)160、无线通信接口(无线通信I/F)170、认证部180、语音识别部190、语音终端装置200等，经由***总线175相互连接。

控制器100包括CPU(中央处理单元)101、ROM(只读存储器)102、S-RAM(静态随机存取存储器)103、NV-RAM(非易失性RAM)104以及时钟IC105等。

CPU101通过执行保存在ROM 102等中的动作程序，统一控制整个图像形成装置1。例如，控制为可执行复印功能、打印机功能、扫描功能、传真功能等。而且在该实施方式中，在用户对图像形成装置1进行操作时，进行如下处理：使语音终端装置200通过语音输出提问，并且经由语音终端装置200受理用户针对该提问而说出的语音数据，进而通过语音识别部190对所受理的语音输入数据进行语音识别，从而确定用户的说话内容，并进行与所确定的说话内容相应的图像处理动作等，例如任务的设定值的设定、动作指示等。此外，还进行以下处理：将通过从语音终端装置200输出的语音进行提问的方式从第一模式切换到第二模式或者与之相反，对此将在后面进行说明。

ROM102存储由CPU101执行的程序或其它数据。

S-RAM103是CPU101执行程序时的工作区域，临时保存程序或执行程序时的数据等。

NV-RAM104为通过电池进行备份的非易失性存储器，存储与图像形成相关的各种设定等。

时钟IC105计时时间，并作为内部定时器发挥功能，进行处理时间的计量等。

存储装置110由硬盘构成，保存程序或各种数据等。尤其在该实施方式中，作为使语音终端装置200输出提问的方式，设定了第一模式和第二模式，针对每个可由用户输入的操作项目，存储有第一模式的提问和第二模式的提问。

图像读取装置120包括扫描仪等，通过扫描来读取放置在稿台玻璃上的原稿，并将所读取的原稿转换为图像数据。

操作面板130是在用户对图像形成装置1进行任务等的指示或各种设定时使用的，且包括重置键131、开始键132、停止键133、显示部134以及触摸面板135等。

重置键131是在重置设定时使用的，开始键132是在扫描等的开始操作中使用的，停止键133是在中止动作等情况下按下的。

显示部134例如由液晶显示装置构成，显示消息或各种操作画面等，触摸面板135形成于显示部134的画面上，检测用户的触摸操作。

图像输出装置140将基于由图像读取装置120读取的原稿的图像数据或从终端装置3发送的打印数据生成的复印图像打印在纸张上，并作为印刷品输出。

打印机控制器150基于通过网络接口160接收的打印数据生成复印图像。

网络I/F160作为在与用户终端等外部装置之间经由网络3进行数据的发送接收的通信单元发挥功能，无线通信I/F170是用于通过短距离无线通信与外部装置进行通信的接口。

认证部180获取登录的用户的认证用信息，并将该认证用信息与事先保存在固定存储装置110等中的核对用信息进行比较核对从而进行认证。另外，用户的认证用信息与核对用信息之间的比较核对也可以通过外部的认证服务器进行，认证部180从认证服务器接收认证结果。

语音识别部190通过公知的方法对经由语音终端装置200受理的用户的语音数据进行语音识别处理，并确定语音(说话)的内容。另外，也可以是以下结构：通过个人计算机等其它外部装置来进行该语音识别而不是通过图像形成装置1来进行该语音识别，图像形成装置1仅获取语音识别处理结果。

语音终端装置200包括作为语音输入装置发挥功能的麦克风部210、以及作为语音输出装置发挥功能的扬声器部220。麦克风部210输入用户所输入的语音数据，并且收集包括图像形成装置1的动作声在内的周围的噪音，并按照控制部100的指示将其发送至语音识别部190。扬声器部220按照控制部100的指示来输出(说话)提问等语音数据。

另外，语音终端装置200也可以设置在图像形成装置1的外部，通过有线或无线与图像形成装置1连接，或者经由网络与图像形成装置1连接。

接着，对图1所示的图像形成装置1中设定的、作为图像形成装置1使语音终端装置200语音输出的提问方式的第一模式和第二模式进行说明。

作为第一模式，在该实施方式中设定为自由说话模式。自由说话模式是用户针对提问能够自由地说出回答的提问方式。例如，是在对发送所扫描到的数据时的收件人进行确定时提问“收件人是？”的方式。针对该提问，用户能够说出“tanaka@xxx”、“发送给田中先生”、“给田中先生发邮件”等进行回答，说话时的自由度较大，对用户来说方便性较高。另外，在实施复印的情况下，是提问“几份？”或者“纸张尺寸是？”的方式。这种情况下用户也能够自由地说出任意的地址、任意的份数、任意的纸张尺寸分别作为回答。

与此相对地，第二模式是与第一模式相比限定了针对提问的回答候选的提问方式，在该实施方式中，设定了向用户提示回答候选供用户选择的选择式说话模式。例如，是在对发送扫描到的数据时的收件人进行确定时说出“请从候选中选择收件人”，并且提示多个回答候选例如“1.tanaka@xxx、2.田中先生、3.铃木先生……”的提问方式。针对该提问，用户从被提示的多个回答候选中选择收件人并说话。这种情况下，可以说出收件人本身，也可以说出与收件人对应的编号。此外，如果是在实施复印的情况下，则为说出“请从候选中选择份数”或者“请从候选中选择纸张尺寸”并提示多个回答候选的提问方式。在这种情况下也是用户从被提示的多个回答候选中进行选择并说话。

另外，第二模式也可以是用户用“是”、“否”的任一个来回答的提问方式。在这种情况下，回答候选也是“是”和“否”这两个，与第一模式即自由说话模式相比，限定了回答候选。例如，在确定纸张尺寸时，提问“是A4吗？”，当用户回答“否”时，重复提问例如“是B4吗？”来确定纸张尺寸。

图像形成装置1具有关键词和与其对应的语音特征词典，并基于该词典进行语音识别。如上所述，第一模式即自由说话模式具有用户的说话自由度较大的优点。但是，图像形成装置1需要一字不漏地获取用户的说话内容并提取关键词，也无法预先知道说话长度。此外，在图像形成装置1中，有许多类似的操作术语，如“复印”、“防复印(Copy guard)”、“复印保护(Copy protect)”等。因此，当图像形成装置1周围的噪音较大时，存在无法进行较高精度的语音识别的情况，这种情况下，会导致图像形成装置1的动作停止，在大量印刷时或紧急时会妨碍任务的执行。

另一方面，在第二模式中，用户从图像形成装置1提示的多个回答候选中进行选择，因此图像形成装置1预先掌握了各个回答候选的关键词。在第二模式中，图像形成装置1通过进行模式匹配来检查用户说出的语音的特征与哪个关键词的语音特征最接近，从而确定用户选择的回答候选。由于限定了回答候选，因此即使在用户说出的语音过程中发出了较大的噪音，也能够通过模式匹配容易地确定回答候选。换句话说，第二模式与第一模式相比具有抗噪更强的特征。

因此，在该实施方式中，在由用户进行语音操作时，能够根据图像形成装置1周围的噪音来切换第一模式和第二模式。

下面，对与第一模式和第二模式的切换相关的动作进行说明。

通过按下在操作面板130的显示部134上显示的未图示的语音操作模式的设定按钮开始语音操作，并通过重复来自图像形成装置1的提问和用户针对提问的回答从而完成任务设定等并继续操作。

图2表示来自图像形成装置1的提问和用户针对提问的回答的一例。图2的例子示出了图像形成装置1周围的噪音较小的情况。在图像形成装置1周围的噪音较小的情况下，通过第一模式即自由说话模式来进行来自图像形成装置1的提问。通过由自由说话模式来进行，确保了对于用户的便利性，能够发出自由度较高的回答。

如图2所示，首先，为了确定用户，图像形成装置1从语音终端装置200的扬声器部220输出“用户名是？”这样的提问Q1。若用户说出例如“山田”这样的回答A1，则该语音数据被输入到语音终端装置200的麦克风部210，图像形成装置1受理用户的回答A1的语音数据，并且通过语音识别部190进行语音识别处理，确定用户为“山田”。

接着，图像形成装置1从扬声器部220输出“要做什么？”这样的提问Q2。针对该提问，若用户说出“扫描、发送邮件”这样的回答A2作为想要使用的功能，则图像形成装置1受理说话语音并通过语音识别部190进行语音识别处理，确定用户想要使用的功能为扫描功能和邮件发送功能。

接着，图像形成装置1从扬声器部220输出“是彩色？是灰度？”这样的提问Q3。针对该提问，若用户说出“彩色”这样的回答A3，图像形成装置1通过语音识别部190进行语音识别处理，确定扫描功能为彩色。

接着，图像形成装置1从扬声器部220输出“收件人是？”这样的提问Q4。针对该提问，若用户说出作为具体的收件人的“[email protected]”这样的回答A4，则图像形成装置1通过语音识别部190进行语音识别处理，确定收件人。

由此，图像形成装置1能够按照用户的说话内容，进行用户所希望的任务设定或动作条件的设定等，并执行任务。

在上述例子中，设为在受理了来自用户的“彩色”这样的回答A3的说话语音后，在定时T1开始图像形成装置1的图像读取装置120进行的扫描动作。

图3表示图像形成装置1的动作声的大小的一个例子。在该实施方式中，设将成为第一模式和第二模式的切换定时的、图像形成装置1周围的噪音的阈值设定为例如50分贝(dB)，并设为在预热时噪音小于阈值，但是在扫描动作时和打印时均会产生大于阈值的噪音。

图像形成装置1经由麦克风部210预先收集本机的周围的噪音并测量噪音的大小，始终判断噪音的大小是否超过了阈值。所收集的噪音除了本装置的动作声之外，还包括非本装置产生的噪音。

图像形成装置1周围的噪音由于扫描动作的开始而增大，当判定出在定时T1超过了预先设定的阈值时，如图4所示，图像形成装置1切换到第二模式，并进行接下来的提问。

在图4的例子中，关于收件人，通过第二模式即选择式说话模式使扬声器部220输出“请回答收件人的编号”这样的提问Q41，并且提示多个收件人候选作为回答候选。在该实施方式中，如图5所示，通过在操作面板130的显示部134上画面显示的方式进行多个收件人候选的提示。在图5的例子中，作为收件人候选的列表而例示了编号1.田中tanaka@xxx、编号2.铃木suzuki@xxx，编号3.佐藤：sato@xxx……。

若用户从显示部134上显示的收件人候选的列表中选择收件人并说出其编号(例如，2号)作为回答A41，则说出的语音被输入到麦克风部210。图像形成装置1受理该语音数据并进行语音识别处理，确定用户选择的收件人，并将其设定为扫描发送任务的收件人。如上所述，在第二模式即选择式说话模式的情况下，由于通过模式匹配对说话内容和关键词进行比较，因而抗噪音能力较强。因此，即使噪音超过了阈值，也能够以高精度地识别用户选择的收件人，因此，能够防止发生第一模式的情况下的问题，即在噪音较大的情况下，由于识别精度下降导致图像形成装置1的动作停止，在大量印刷时或紧急时，妨碍任务的执行的情况。

在图4的例子中表示了在操作面板130的显示部134上如图5所示那样显示多个收件人候选的情况，但也可以用语音朗读“请回答收件人的编号。1.田中、2.铃木、……”即回答候选(候选收件人)的列表(提问Q42)。在这种情况下，用户也可以从被朗读的收件人候选的列表中选择收件人，并说出其编号(例如，2号)作为回答A42。

另外，也可以设定为，在显示部134上显示或通过语音朗读的回答候选的列表按照过去作为收件人使用的次数从多到少的顺序，换言之，按照使用频率从高到低的顺序来显示或朗读。或者，也可以设定为按照在图像形成装置1中作为收件人注册的先后顺序来显示或朗读。不论哪种情况，都能够作为用户进行选择时的参考。

另外，在切换到第二模式之后噪音达到阈值以下时，也可以再次切换到第一模式。

由此，在该实施方式中，当噪音为阈值以下时，通过第一模式即自由说话模式进行提问，从而确保用户的说话自由度并使易用性良好，若噪音超过阈值，则切换到第二模式即选择式说话模式，以防止由噪音引起的语音识别的精度下降，因此，成为在语音操作时易用性良好且误操作较少的图像形成装置。另外，也可以使图像形成装置1的管理员等能够对阈值进行更改。

图7是表示语音操作时由图像形成装置1执行的第一模式和第二模式的切换动作的一例的流程图。图7的流程图和其它流程图所示的动作通过由图像形成装置1的控制部100的CPU 101按照ROM102等记录介质中存储的动作程序进行动作而执行。

在步骤S01中，检查用户是否选择了语音操作模式，如果没有选择语音操作模式(步骤S01中为否)，则结束处理。若选择了语音操作模式(步骤S01中为是)时，在步骤S02中经由麦克风部21收集当前的噪音后，在步骤S03中测量噪音的大小。

在步骤S04中，判断噪音的大小是否超过了预先设定的阈值，如果超过了阈值(步骤S04中为是)，则在步骤S05中，判断当前模式是否为第一模式(自由说话模式)。如果是第一模式(步骤S05中为是)，则在步骤S06中切换到第二模式即选择式说话模式，然后进入步骤S10。在步骤S05中当前模式不是第一模式(步骤S05中为否)的情况下，在步骤S08中不进行模式切换而进入步骤S10。在这种情况下，维持第二模式不变。

在步骤S04中，在噪音未超过阈值的情况下(步骤S04中为否)，在步骤S07中判断当前模式是否为第一模式，如果是第一模式(步骤S07中为是)，则在步骤S08中不进行模式切换而进入步骤S10。因此，在这种情况下，维持第一模式。在步骤S07中，如果当前模式不是第一模式(步骤S07中为否)，则在步骤S09中切换到第一模式后，进入步骤S10。

在步骤S10中，例如，判断语音操作模式是否由于任务的执行而已结束，如果已结束(步骤S10中为是)，则结束处理。如果语音操作模式未结束(步骤S10中为否)，则返回至步骤S02。

由此，根据噪音是否超过了阈值，在第一模式和第二模式之间进行切换。

图8是表示由图像形成装置1执行的第一模式和第二模式的切换动作的其它例子的流程图。在该实施方式中成为以下结构：在图像形成装置1正在执行作为动作声较小的动作而预先设定的规定的动作的情况下，设定第一模式，而无不测量噪音或不判断噪音是否超过了阈值。这是因为考虑到在周围环境寂静的情况下，由于噪音主要为图像形成装置1的动作声，因而在动作声较小的动作的情况下不会超过阈值。关于作为动作声较小的动作而预先设定的规定的动作，可以举出例如图像稳定化动作或预热动作等。

在步骤S01中，检查用户是否选择了语音操作模式，如果没有选择语音操作模式(步骤S01中为否)，则结束处理。若选择了语音操作模式(步骤S01中为是)，则在步骤S11中，判断本装置是否正处于图像稳定化动作或预热动作等规定动作过程中。如果正处于规定动作过程中(步骤S11中为是)，则进入步骤S07，判断当前模式是否为第一模式，如果是第一模式(步骤S07中为是)，则在步骤S08中不进行模式的切换而进入步骤S10。在步骤S07中，如果当前模式不是第一模式(步骤S07中为否)，则在步骤S09中，切换到第一模式。因此，在图像形成装置1正处于规定的动作过程中的情况下，维持第一模式而不进行噪音的测量等，或者从第二模式切换到第一模式。

在步骤S11中如果并非处于规定动作过程中(步骤S11为否)，则进入步骤S02。

另外，步骤S02至步骤S10的处理与图8的步骤S02至步骤S10的处理相同，因此省略说明。

接着，对本发明的另一个其它实施方式进行说明。在该实施方式中为以下结构：并非收集噪音而测量其大小，而是通过在存储装置110等中预先存储图像形成装置1的过去的任务执行时的动作声作为噪音，并从存储装置110中读出有关与想要执行的任务相同的过去的任务的动作声(噪音)，从而预测有关想要执行的任务的噪音的大小，并对该预测值与阈值进行比较。

作为一例，图9的图表示出了任务执行时的动作声(噪音)的变迁。在图9的例子中，示出了在任务为复印任务的情况下的噪音，纵轴表示动作声(噪音)，横轴表示时间。

由图像读取装置120对原稿进行读取动作时的动作声为阈值以下，但是当打印动作开始时动作声变大并超过阈值，当打印动作结束时，动作声成为阈值以下。这样的时间和动作声的大小的变迁数据被存储在存储装置110等中。

在用户设定的任务为复印任务的情况下，从存储装置110调取作为与相同的复印任务相关的过去的数据的图9所示的变迁数据，从而预测(估计)其为当前的复印任务执行时的噪音，将该噪音的大小与阈值进行比较，在超过阈值的定时切换到第二模式。

图10是表示基于过去的任务执行时的动作声来预测噪音，并进行模式切换时的图像形成装置1的动作的流程图。

在步骤S21中，检查用户是否选择了语音操作模式，如果没有选择语音操作模式(步骤S21中为否)，则结束处理。若选择了语音操作模式(步骤S21中为是)，则在步骤S22中，判断是否已决定待执行的任务。如果未决定(步骤S22中为否)，则等待决定。若已决定(步骤S22中为是)，则在步骤S23中，从存储装置110等中调取过去执行相同任务时的动作声的变迁数据，并基于该动作声预测(估计)当前的任务执行时的动作声。

任务执行开始后，在步骤S24中，根据所预测的噪音的大小与阈值的比较，判断任务执行过程中的当前的噪音的大小是否超过了阈值。如果超过了阈值(步骤S24中为是)，则在步骤S25中，判断当前的模式是否为第一模式(自由说话模式)。如果是第一模式(步骤S25中为是)，则在步骤S26中切换到第二模式即选择式说话模式后，进入步骤S30。在步骤S25中，如果当前模式不是第一模式的情况下(步骤S25中为否)，则在步骤S28中不进行模式切换而进入步骤S30。在这种情况下，维持第二模式不变。

在步骤S24中，当前的噪音未超过阈值的情况下(步骤S24中为否)，在步骤S27中判断当前模式是否为第一模式，如果是第一模式(步骤S27中为是)，则在步骤S28中不进行模式切换而进入步骤S30。因此，在这种情况下维持第一模式。在步骤S27中，如果当前模式不是第一模式(步骤S27中为否)，则在步骤S29中切换到第一模式后，进行步骤S30。

在步骤S30中，例如判断语音操作模式是否由于任务的执行而已结束，如果已结束(步骤S30中为是)，则结束处理。如果语音操作模式未结束(步骤S30中为否)，则返回至步骤S24。

由此，通过根据过去的动作声来预测噪音并将其与阈值进行比较，从而无需对噪音进行收集或测量处理，能够实现处理的简化。

另外，在图10的步骤S23中，设为根据过去的任务执行时的动作声预测当前的任务执行时的噪音，但是也可以结合过去的多个动作声来预测噪音。例如，在打印了10张后，设定了对打印出来的10张实施装订的任务的情况下，结合打印1张的打印动作时的动作声和装订1次的动作声来预测本次任务的动作声(噪音)的变迁数据。具体而言，成为如下的变迁数据：打印1张的打印动作声持续每打印1张的动作时间*10的时间，接着持续装订1次的动作声。

通过如此结合过去的多个动作声，即使不存在与整个任务相关的过去的动作声，也能够预测噪音，并且能够高精度地切换第一模式和第二模式。

接着，对本发明的另一个其它实施方式进行说明。在该实施方式中为以下结构：与图9和图10中说明的实施方式一样，基于图像形成装置1的过去的任务执行时的动作声，预测当前的任务的动作声(噪音)，但是在预测到在动作过程中的任意时间点所预测的噪音的大小会超过阈值的情况下，在动作开始的时间点起就进行向第二模式的切换，而无需等到超过阈值的时间点。

作为一例，图11的图表示出了任务执行时的动作声(噪音)的变迁。在图11的例子中示出了任务为复印任务的情况下的噪音，纵轴表示动作声(噪音)，横轴表示时间。

在图11的变迁数据中，存在动作声变大并超过阈值的部分。因此，在想要执行复印任务的情况下，在任务开始之前预先切换到第二模式。

图12是表示如上述那样在任务开始前预先切换到第二模式的情况下的图像形成装置1的动作的流程图。

在步骤S41中，检查用户是否选择了语音操作模式，如果没有选择语音操作模式(步骤S41中为否)，则结束处理。若选择了语音操作模式(步骤S41中为是)，则在步骤S42中，判断是否已决定了待执行的任务。如果未决定(步骤S42中为否)，则等待决定。若已决定(步骤S42中为是)，则在步骤S43中，从存储装置110等中调取过去执行相同任务时的动作声的变迁数据，基于该动作声来预测(估计)当前的任务执行时的动作声。在这种情况下，也可以结合多个动作声来进行预测。

接着，在步骤S44中，判断是否存在所预测的噪音的大小会超过阈值的情况。如果存在会超过阈值的情况(步骤S44中为是)，则在步骤S45中判断当前模式是否为第一模式(自由说话模式)。如果是第一模式(步骤S45中为是)，则在步骤S46中切换到第二模式即选择式说话模式后，进入步骤S50。在步骤S45中在当前模式不是第一模式的情况下(步骤S45中为否)，在步骤S48中不进行模式切换而进入步骤S50。在这种情况下，维持第二模式不变。

在步骤S44中，如果不存在所预测的噪音超过阈值的情况(在步骤S44中为否)，则在步骤S47中，判断当前模式是否为第一模式，如果是第一模式(在步骤S47中为是)，则在步骤S48中不进行模式切换而进入步骤S50。因此，在这种情况下，维持第一模式。在步骤S47中，如果当前模式不是第一模式(步骤S47中为否)，则在步骤S49中切换到第一模式后，进入步骤S50。

在步骤S50中，判断例如语音操作模式是否由于任务的执行而已结束，如果没有结束(在步骤S50中为否)，则留在步骤S24直到结束。如果已结束(步骤S50中为是)，则结束处理。

在图11和图12所示的实施方式中，在预测到在动作过程中的任意时间点噪音的大小会超过阈值的情况下，从动作开始的时间点起就进行向第二模式的切换，而无需等到超过阈值的时间点。因此，在图像形成装置1的动作过程中，无需进行求出噪音的大小的处理，能够简化处理。

以上，对本发明的一个实施方式进行了说明，然而本发明不限于这些实施方式。

虽然示出了例如图像形成装置1自动进行第一模式和第二模式的切换的情况，但是也可以设置为由用户进行选择。这种情况下，若设定了语音操作模式，则在操作面板130的显示部134上显示如图13所示的选择画面。在图13所示的画面中，显示了提示选择第一模式(自由说话模式)和第二模式(选择式说话模式)的切换方法的消息，并且还显示了“自动”切换和“手动”切换的选项，以选择任意一个项目。当用户选择任意一个并按下OK按钮后，选择生效。当按下取消按钮时，返回至上一个画面。

在选择了“自动”的情况下，进行图7、图8、图10、图12等所示的处理。在选择了“手动”的情况下，跳转到图14所示的模式选择画面。在图14的模式选择画面中，显示了“请选择任意一个模式”的消息，还显示了第一模式和第二模式的选项，以选择任意一个模式。若用户选择第一模式并按下OK按钮，则切换到第一模式，若选择第二模式并按下OK按钮，则切换到第二模式。若按下取消按钮，则返回至图13的画面。

若选择任意一个模式，则无论噪音的大小如何，都会以所选择的模式输出提问。但是，也可以设为用户能够在语音操作过程中手动进行模式切换。

由此，能够根据用户的切换操作来切换第一模式和第二模式，因此用户在进行语音操作时感觉到周围噪音较大等情况下，通过进行切换操作，能够进行可以反映自己的意图并且识别率较高的语音识别。

Claims

1.一种图像处理装置，其特征在于，包括：

第一控制单元，使语音输出装置语音输出对于用户的提问；

受理单元，受理针对所述提问而说出并被输入到语音输入装置的用户的语音；以及

第二控制单元，基于由所述受理单元受理的语音的内容来控制图像处理动作，

作为对用户进行所述提问的方式，设定了第一模式和第二模式，所述第二模式与第一模式相比，限定了针对提问的回答候选，

所述图像处理装置还包括：

切换单元，切换所述第一模式和第二模式，

所述第一控制单元通过由所述切换单元切换的第一模式或第二模式，使所述语音输出装置语音输出对于用户的提问。

2.如权利要求1所述的图像处理装置，其中，

所述第一模式为进行提问而不提示回答候选且用户能够自由地说出回答的自由说话模式，所述第二模式为向用户提示回答候选供用户选择的选择式说话模式。

3.如权利要求2所述的图像处理装置，其中，

所述图像处理装置包括显示单元，

所述第一控制单元在通过所述第二模式使语音输出装置输出提问的情况下，将回答候选的列表显示在所述显示单元上，

所述用户从所述显示单元上显示的回答候选的列表中选择候选并说话。

4.如权利要求2或3所述的图像处理装置，其中，

所述第一控制单元在通过所述第二模式使语音输出装置输出提问的情况下，使回答候选的列表通过语音被输出，

所述用户从通过语音来输出的回答候选的列表中选择候选并说话。

5.如权利要求3或4所述的图像处理装置，其中，

回答候选的列表是按照过去的选择频率从高到低的回答候选的顺序创建的。

6.如权利要求3或4所述的图像处理装置，其中，

回答候选的列表是按照在本装置中注册的先后顺序创建的。

7.如权利要求1至6中任一项所述的图像处理装置，其中，

所述切换单元基于用户的切换操作来切换第一模式和第二模式。

8.如权利要求1至6中任一项所述的图像处理装置，其中，

所述切换单元基于本装置的周围的噪音的大小来切换第一模式和第二模式，在噪音的大小超过规定的阈值的情况下，从第一模式切换到第二模式。

9.如权利要求8所述的图像处理装置，其中，

所述噪音为本装置的动作噪音。

10.如权利要求8或9所述的图像处理装置，其中，

所述噪音是通过所述语音输入装置收集的当前的噪音，所述切换单元对当前的噪音的大小和所述阈值进行比较。

11.如权利要求8或9所述的图像处理装置，其中，

所述图像处理装置包括：

存储单元，存储基于过去的动作时的声音收集数据而计算出的各个动作时的噪音的大小，

所述切换单元根据所述存储单元中存储的与当前的动作相同的过去的动作时的噪音的大小来预测本装置的周围的噪音的大小。

12.如权利要求11所述的图像处理装置，其中，

在执行多个动作的情况下，所述切换单元通过结合所述存储单元中存储的与当前的动作相同的过去的各个动作时的噪音来预测本装置的周围的噪音的大小。

13.如权利要求1至12中任一项所述的图像处理装置，其中，

在预先设定的动作的执行过程中，所述切换单元不进行从第一模式至第二模式的切换。

14.如权利要求8至13中任一项所述的图像处理装置，其中，

在本装置的动作过程中，所述切换单元在本装置的周围的噪音的大小超过阈值的时间点从第一模式切换到第二模式，在成为阈值以下的时间点从第二模式切换到第一模式。

15.如权利要求11至13中任一项所述的图像处理装置，其中，

在预测到动作过程中任意时间点噪音的大小会超过阈值的情况下，所述切换单元从动作开始的时间点起就进行向第二模式的切换，而无需等到超过阈值的时间点。

16.一种计算机可读取的记录介质，其中，

所述记录介质存储了程序，所述程序用于使图像处理装置的计算机执行以下步骤：

第一控制步骤，使语音输出装置输出对于用户的提问；

受理步骤，受理针对所述提问而说出并被输入到语音输入装置的用户的语音；以及

第二控制步骤，基于通过所述受理步骤受理的语音的内容来控制图像处理动作，

作为对用户进行的所述提问的方式，设定了第一模式和第二模式，所述第二模式与第一模式相比，限定了针对提问的回答候选，

所述程序还使所述计算机执行以下步骤：

切换步骤，切换所述第一模式和第二模式，

所述程序使所述计算机执行以下处理：

在所述控制步骤中，通过由所述切换步骤切换的第一模式或第二模式，使所述语音输出装置输出对于用户的提问。

17.如权利要求16所述的记录介质，其中，

18.如权利要求17所述的记录介质，其中，

所述图像处理装置包括显示单元，

所述程序使所述计算机执行以下处理：

在所述第一控制步骤中，在通过所述第二模式使语音输出装置输出提问的情况下，将回答候选的列表显示在所述显示单元上，

19.如权利要求17或18所述的记录介质，其中，

所述程序使所述计算机执行以下处理：

在所述第一控制步骤中，在通过所述第二模式使语音输出装置输出提问的情况下，使回答候选的列表通过语音被输出，

20.如权利要求18或19所述的记录介质，其中，

21.如权利要求18或19所述的记录介质，其中，

回答候选的列表是按照在本装置中注册的先后顺序创建的。

22.如权利要求16至21中任一项所述的记录介质，其中，

所述程序使所述计算机执行以下处理：

在所述切换步骤中，基于用户的切换操作来切换第一模式和第二模式。

23.如权利要求16至21项中任一项所述的记录介质，其中，

所述程序使所述计算机执行以下处理：

在所述切换步骤中，基于本装置的周围的噪音的大小来切换第一模式和第二模式，在噪音的大小超过规定的阈值的情况下，从第一模式切换到第二模式。

24.如权利要求23所述的记录介质，其中，

所述噪音是本装置的动作噪音。

25.如权利要求23或24所述的记录介质，其中，

所述噪音是由所述语音输入装置收集的当前的噪音，所述程序使所述计算机执行以下处理：

在所述切换步骤中，对当前的噪音的大小和所述阈值进行比较。

26.如权利要求23或24所述的记录介质，其中，

所述图像处理装置包括：

所述程序使所述计算机执行以下处理：

在所述切换步骤中，根据所述存储单元中存储的与当前的动作相同的过去的动作时的噪音的大小来预测本装置的周围的噪音的大小。

27.如权利要求26所述的记录介质，其中，

在执行多个动作的情况下，所述程序使所述计算机执行以下处理：

在所述切换步骤中，通过结合所述存储单元中存储的与当前的动作相同的过去的各个动作时的噪音来预测图像处理装置的周围的噪音的大小。

28.如权利要求16至27中任一项所述的记录介质，其中，

所述程序使所述计算机执行以下处理：

在所述切换步骤中，在预先设定的动作的执行过程中不进行从第一模式至第二模式的切换。

29.如权利要求23至28中任一项所述的记录介质，其中，

所述程序使所述计算机执行以下处理：

在所述切换步骤中，在图像处理装置的动作过程中，在图像处理装置的周围的噪音的大小超过阈值的时间点从第一模式切换到第二模式，在成为阈值以下的时间点从第二模式切换到第一模式。

30.一种如权利要求26至28中任一项所述的程序，其中，

所述程序使所述计算机执行以下处理：

在所述切换步骤中，在预测到动作过程中任意时间点噪音的大小会超过阈值的情况下，从动作开始的时间点起就进行向第二模式的切换，而无需等到超过阈值的时间点。