JP7388006B2

JP7388006B2 - 画像処理装置及びプログラム

Info

Publication number: JP7388006B2
Application number: JP2019103859A
Authority: JP
Inventors: 憲三山本
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2023-11-29
Anticipated expiration: 2039-06-03
Also published as: US20200382660A1; JP2020198553A; CN112040079A

Description

この発明は、複写機、プリンタあるいはＭＦＰ（Multi Function Peripheral）と称される多機能デジタル複合機等の画像処理装置、及びプログラムに関する。

上記のような画像処理装置として音声操作が可能な装置が増えてきている。具体的には、スピーカー等の音声出力装置を介して画像処理装置から出力された質問に対してユーザーが回答を発話し、発話したユーザーの音声をマイク等の音声入力装置を介して受け付けて音声認識処理を行い、音声の内容に応じた動作設定や動作指示等を行う。

しかし、マイク等の音声入力装置には、発話したユーザーの音声のみならず、画像処理装置の周囲のノイズ音も入力される。このノイズ音には画像処理装置自身の動作音、例えば画像処理装置がスキャナ部やプリンタ部等を有する画像形成装置である場合は、スキャナ部やプリンタ部等の動作中はそれらの動作音がノイズ音として入力される。このため、ノイズ音が大きい場合は、マイク等に入力されたユーザーの音声に対する音声認識率が低下し、音声操作に誤りが生じる恐れがある。

そこで、このような問題に対処するため、特許文献１には、ユーザーから操作に対する発話があった場合には、機器の動作を停止することにより、機器動作中に発生する動作音が騒音になることによる音声認識率の低下を回避した画像形成装置が提案されている。

特開２０１０－１３６３３５号公報

しかしながら、特許文献１のように、ユーザーから操作に対する発話があった場合に、機器の動作を停止する方法では、音声認識の度にジョブの実行が停止され遅延することになる。これでは、特に大量印刷時や緊急時においてジョブの実行に支障を来してしまうという課題がある。

この発明は、このような技術的背景に鑑みてなされたものであって、画像処理装置の周囲のノイズ音が大きい場合であっても、マイク等の音声入力装置から入力されたユーザーの音声を高い認識率で音声認識でき、しかも音声入力時に自機の動作を停止させる必要がない画像処理装置及びプログラムを提供することを目的とする。

上記目的は以下の手段によって達成される。
（１）音声出力装置からユーザーに対する質問を音声出力させる第１の制御手段と、前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付手段と、前記受付手段により受け付けた音声の内容に基づいて画像処理動作を制御する第２の制御手段と、を備え、ユーザーに対する前記質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、さらに前記第１のモードと第２のモードを切り替える切替手段と、過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段と、を備え、
前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第１のモードから第２のモードへ切り替え、閾値以下になった時点で第２のモードから第１のモードへ切り替え、前記第１の制御手段は、前記切替手段により切り替えられた第１のモードまたは第２のモードで、前記音声出力装置からユーザーに対する質問を音声出力させることを特徴とする画像処理装置。
（２）音声出力装置からユーザーに対する質問を音声出力させる第１の制御手段と、前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付手段と、前記受付手段により受け付けた音声の内容に基づいて画像処理動作を制御する第２の制御手段と、を備え、ユーザーに対する前記質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、さらに前記第１のモードと第２のモードを切り替える切替手段と、過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段と、を備え、前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが、ジョブの実行中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第２のモードへの切り替えを行い、前記第１の制御手段は、前記切替手段により切り替えられた第１のモードまたは第２のモードで、前記音声出力装置からユーザーに対する質問を音声出力させることを特徴とする画像処理装置。
（３）前記第１のモードは、回答候補を示すことなく質問を行いユーザーが回答を自由に発話できる自由発話モードであり、前記第２のモードはユーザーに回答候補を提示して選択させる選択式発話モードである前項１または２に記載の画像処理装置。
（４）表示手段を備え、前記第１の制御手段は、前記第２のモードにより音声出力装置から質問を出力させる場合、回答候補のリストを前記表示手段に表示し、前記ユーザーは前記表示手段に表示された回答候補のリストの中から候補を選択して発話する前項３に記載の画像処理装置。
（５）前記第１の制御手段は、前記第２のモードにより音声出力装置から質問を出力させる場合、回答候補のリストを音声により出力させ、前記ユーザーは音声により出力された回答候補のリストの中から候補を選択して発話する前項３または４に記載の画像処理装置。
（６）回答候補のリストは、過去の選択頻度の高い回答候補の順に作成されている前項４または５に記載の画像処理装置。
（７）回答候補のリストは、自装置に登録された順に作成されている前項４または５に記載の画像処理装置。
（８）前記切替手段は、ユーザーの切替操作に基づいて、第１のモードと第２のモードを切り替える前項１～７のいずれかに記載の画像処理装置。
（９）複数のジョブを実行する場合、前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のそれぞれのジョブの実行時のノイズ音を組み合わせて予測する前項１～８のいずれかに記載の画像処理装置。
（１０）前記切替手段は、予め設定された動作の実行中は第１のモードから第２のモードへの切り替えは行わない前項１～９のいずれかに記載の画像処理装置。
（１１）過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段を備えた画像処理装置のコンピュータに、音声出力装置からユーザーに対する質問を出力させる第１の制御ステップと、前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付ステップと、前記受付ステップにより受け付けた音声の内容に基づいて画像処理動作を制御する第２の制御ステップと、を実行させ、ユーザーに対する前記質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、さらに前記第１のモードと第２のモードを切り替える切替ステップを前記コンピュータに実行させ、前記切替ステップでは、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第１のモードから第２のモードへ切り替え、閾値以下になった時点で第２のモードから第１のモードへ切り替える処理を前記コンピュータに実行させ、前記第１の制御ステップでは、前記切替ステップにより切り替えられた第１のモードまたは第２のモードで、前記音声出力装置からユーザーに対する質問を出力させる処理を前記コンピュータに実行させるためのプログラム。
（１２）過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段を備えた画像処理装置のコンピュータに、音声出力装置からユーザーに対する質問を出力させる第１の制御ステップと、前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付ステップと、前記受付ステップにより受け付けた音声の内容に基づいて画像処理動作を制御する第２の制御ステップと、を実行させ、ユーザーに対する前記質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、さらに前記第１のモードと第２のモードを切り替える切替ステップを前記コンピュータに実行させ、前記切替ステップでは、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが、ジョブの実行中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第２のモードへ切り替える処理を前記コンピュータに実行させ、前記第１の制御ステップでは、前記切替ステップにより切り替えられた第１のモードまたは第２のモードで、前記音声出力装置からユーザーに対する質問を出力させる処理を前記コンピュータに実行させるためのプログラム。

前項（１）に記載の発明によれば、スピーカー等の音声出力装置からユーザーに対する質問を出力させると、質問に対してユーザーが発話する。発話されたユーザーの音声はマイク等の音声入力装置に入力され、画像処理装置で受け付けられる。受け付けられた音声の内容に基づいて画像処理動作が制御される。ユーザーに対する質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、第１のモードと第２のモードを切り替える切替手段が備えられている。そして、切替手段により切り替えられた第１のモードまたは第２のモードで、音声出力装置からユーザーに対する質問が音声出力される。

ここで、第２のモードは第１のモードよりも質問に対する回答候補が限定されているから、音声認識に際しては回答候補の音声データをパターン化しておくことができ、このため音声認識率を高くできる。従って、画像処理装置の周囲のノイズ音が大きい場合等には切替手段により第２のモードに切り替えてユーザーに質問することにより、音声入力装置から入力されたユーザーの音声を高い認識率で音声認識することができる。しかも、切替手段により第２のモードに切り替えれば良く、音声入力時に自機の動作を停止させる必要もないから、大量印刷時や緊急時にジョブの実行に支障を来してしまうという不都合もない。
また、自装置の周囲のノイズ音の大きさが、記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測されるから、ノイズ音の大きさを測定する必要はなくなる。
前項（２）に記載の発明によれば、ジョブの実行中のいずれかの時点でノイズ音の大きさが閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第２のモードへの切り替えが行われるから、そのジョブの実行中はノイズ音の大きさを求める処理は不要となり、処理を簡素化できる。

前項（３）に記載の発明によれば、第１のモードは、回答候補を示すことなく質問を行いユーザーが回答を自由に発話できる自自発話モードであり、第２のモードはユーザーに回答候補を選択させる選択式発話モードであるから、第２のモードの場合の音声認識率を第１のモードの場合よりも確実に高くすることができる。

前項（４）に記載の発明によれば、第２のモードである選択式発話モードにて音声出力装置から質問を出力させる場合、回答候補のリストが表示手段に表示され、ユーザーは表示された回答候補のリストの中から候補を選択して発話すれば良いから、ユーザーは表示されたリストを目視で確認でき、回答候補を選択しやすくなる。

前項（５）に記載の発明によれば、第２のモードである選択式発話モードにて音声出力装置から質問を出力させる場合、回答候補のリストが音声により出力され、ユーザーは音声により出力された回答候補のリストの中から候補を選択して発話するから、表示手段へのリスト表示は不要となる。

前項（６）に記載の発明によれば、回答候補のリストは、過去の選択頻度の高い回答候補の順に作成されているから、ユーザーは回答候補を選択する際の参考となる。

前項（７）に記載の発明によれば、回答候補のリストは、自装置に登録された順に作成されているから、ユーザーは回答候補を選択する際の参考となる。

前項（８）に記載の発明によれば、ユーザーの切替操作に基づいて、第１のモードと第２のモードが切り替えられるから、ユーザーは音声操作を行う際に周囲のノイズ音が大きいと感じた場合等に切替操作を行うことにより、認識率の高い音声認識を行わせることができる。

前項（９）に記載の発明によれば、複数のジョブを実行する場合、自装置の周囲のノイズ音の大きさが、記憶手段に記憶されている現在のジョブと同じ過去のそれぞれのジョブの実行時のノイズ音を組み合わせて予測されるから、現在のノイズ音の大きさを容易に求めることができる。

前項（１０）に記載の発明によれば、予め設定された動作の実行中は第１のモードから第２のモードへの切り替えは行わないから、その動作中はノイズ音の大きさを求める処理は不要となり、処理を簡素化できる。

前項（１１）に記載の発明によれば、音声出力装置からユーザーに対する質問を出力させ、質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付け、受け付けた音声の内容に基づいて画像処理動作を制御し、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第１のモードから第１のモードよりも質問に対する回答候補が限定された第２のモードへ切り替え、閾値以下になった時点で第２のモードから第１のモードへ切り替え、切り替えられた第１のモードまたは第２のモードで、音声出力装置からユーザーに対する質問を出力させる処理を、画像処理装置のコンピュータに実行させることができる。

この発明の一実施形態に係る画像処理装置の構成図である。第１のモードにおける画像処理装置からの質問と質問に対するユーザーの回答の一例を示す図である。画像処理装置の動作音の大きさの一例を示す図である。音声操作の途中で第２のモードに切り替えられたときの画像処理装置からの質問と質問に対するユーザーの回答の一例を示す図である。回答候補を表示手段に表示した状態を示す図である。音声操作の途中で第２のモードに切り替えられたときの画像処理装置からの質問と質問に対するユーザーの回答の他の例を示す図である。音声操作時に画像処理装置によって実行される第１のモードと第２のモードの切り替え動作の一例を示すフローチャートである。音声操作時に画像処理装置によって実行される第１のモードと第２のモードの切り替え動作の他の例を示すフローチャートである。ジョブ実行時の動作音（ノイズ音）の推移の一例を示すグラフである。過去のジョブ実行時の動作音に基づいてノイズ音を予測し、モード切り替えを行う際の画像処理装置の動作を示すフローチャートである。ジョブ実行時の動作音（ノイズ音）の推移の他の例を示すグラフである。ジョブの開始時前に第２のモードに切り替えておく場合の画像処理装置の動作を示すフローチャートである。第１のモードと第２のモードの切り替えを自動で行うか手動で行うかを、ユーザーが選択する場合の選択画面を示す図である。図１３の画面において「手動」が選択された場合に遷移するモード選択画面を示す図である。

以下、この発明の実施形態を図面に基づいて説明する。

図１は、この発明の一実施形態に係る画像処理装置としての画像形成装置１の構成を示すブロック図である。この実施形態では、画像形成装置１として、コピー機能、プリンタ機能、ファクシミリ機能、スキャン機能等を備えた多機能デジタル複合機が用いられている。

図１に示すように、画像形成装置１は、制御部１００、記憶装置１１０、画像読取装置１２０、操作パネル１３０、画像出力装置１４０、プリンタコントローラ１５０、ネットワークインターフェース（ネットワークＩ/Ｆ）１６０、無線通信インターフェース（無線通信Ｉ／Ｆ）１７０、認証部１８０、音声認識部１９０、音声端末装置２００等を備え、互いにシステムバス１７５を介して接続されている。

制御部１００は、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、Ｓ－ＲＡＭ（Static Random Access Memory）１０３、ＮＶ－ＲＡＭ（Non Volatile RAM）１０４及び時計ＩＣ１０５等を備えている。

ＣＰＵ１０１は、ＲＯＭ１０２等に保存されている動作プログラムを実行することにより、画像形成装置１の全体を統括的に制御する。例えばコピー機能、プリンタ機能、スキャン機能、ファクシミリ機能等を実行可能に制御する。更にこの実施形態では、ユーザーによる画像形成装置１の操作に際し、音声端末装置２００から音声による質問を出力させるとともに、その質問に対するユーザーの発話による音声データを音声端末装置２００を介して受け付け、さらに、受け付けた音声入力データを音声認識部１９０で音声認識することによりユーザーの発話内容を特定し、特定された発話内容に応じた画像処理動作例えばジョブの設定値の設定、動作指示等を実行する等の処理を行う。さらには、音声端末装置２００から出力される音声による質問の仕方を、第１のモードから第２のモードへあるいはその逆へ切り替える処理も行うが、これらの点については後述する。

ＲＯＭ１０２は、ＣＰＵ１０１が実行するプログラムやその他のデータを格納する。

Ｓ－ＲＡＭ１０３は、ＣＰＵ１０１がプログラムを実行する際の作業領域となるものであり、プログラムやプログラムを実行する際のデータ等を一時的に保存する。

ＮＶ－ＲＡＭ１０４は、バッテリでバックアップされた不揮発メモリであり、画像形成に係わる各種の設定等を記憶するものである。

時計ＩＣ１０５は、時刻を計時すると共に、内部タイマーとして機能し処理時間の計測等を行う。

記憶装置１１０はハードディスク等からなり、プログラムや各種データ等を保存する。特にこの実施形態では、音声端末装置２００から出力させる質問の仕方として、第１のモードと第２のモードが設定されており、ユーザーが入力可能な操作項目毎に、第１のモードの質問と第２のモードの質問が記憶されている。

画像読取装置１２０は、スキャナ等を備え、プラテンガラス上にセットされた原稿を走査することによって読み取り、読み取った原稿を画像データに変換する。

操作パネル１３０は、ユーザーがＭＦＰ１へジョブ等の指示や各種設定を行う際に用いられるものであり、リセットキー１３１、スタートキー１３２、ストップキー１３３、表示部１３４及びタッチパネル１３５等を備えている。

リセットキー１３１は、設定をリセットする際に使用されるものであり、スタートキー１３２はスキャン等の開始操作に使用されるものであり、ストップキー１３３は動作を中断する場合等に押下されるものである。

表示部１３４は、例えば液晶表示装置からなりメッセージや各種の操作画面等を表示するものであり、タッチパネル１３５は表示部１３４の画面上に形成され、ユーザーのタッチ操作を検出する。

画像出力装置１４０は、画像読取装置１２０で読み取られた原稿の画像データや、端末装置３から送信されたプリントデータから生成された複写画像を用紙上に印字し印刷物として出力するものである。

プリンタコントローラ１５０は、ネットワークインターフェース１６０によって受信されたプリントデータから複写画像を生成するものである。

ネットワークＩ/Ｆ１６０は、ユーザー端末等の外部装置との間でネットワーク３を介してデータの送受信を行う通信手段として機能し、無線通信Ｉ／Ｆ１７０は近距離無線通信により外部装置と通信を行うためのインターフェースである。

認証部１８０はログインするユーザーの認証用情報を取得し、この認証用情報を予め固定記憶装置１１０等に保存されている照合用の情報と比較照合して認証を行うものである。なお、ユーザーの認証用情報と照合用の情報との比較照合は、外部の認証サーバーにより行い、認証部１８０が認証サーバーから認証結果を受信することにより認証が行われても良い。

音声認識部１９０は、音声端末装置２００を介して受け付けたユーザーの音声データを公知の方法にて音声認識処理し、音声（発話）の内容を特定するものである。なお、この音声認識は画像形成装置１で行われるのではなく、パーソナルコンピュータ等の他の外部装置で行われ、画像形成装置１は音声認識処理結果のみを取得する構成であっても良い。

音声端末装置２００は音声入力装置として機能するマイク部２１０と、音声出力装置として機能するスピーカー部２２０を備えている。マイク部２１０は、入力されたユーザーの音声データを入力すると共に画像形成装置１の動作音を含む周囲のノイズ音を集音し、制御部１００の指示に従い音声認識部１９０に送信する。スピーカー部２２０は制御部１００の指示に従い質問等の音声データを出力（発話）させる。

なお、音声端末装置２００は画像形成装置１の外部に備えられて、画像形成装置１と有線あるいは無線により接続され、あるいはネットワークを介して接続されていても良い。

次に、図１に示した画像形成装置１において設定されている、画像形成装置１が音声端末装置２から音声出力させる質問の仕方としての第１のモードと第２のモードについて説明する。

第１のモードとして、この実施形態では自由発話モードが設定されている。自由発話モードは、質問に対してユーザーが回答を自由に発話できる質問の仕方である。例えば、スキャンしたデータを送信するときの宛先を特定するときに「宛先は？」という質問の仕方である。この質問に対してユーザーは、「tanaka@xxx」「田中さんへ送って」「田中さんへメールして」等と発話して回答することができ、発話時の自由度が大きくユーザーにとっての利便性が高い。また、コピーを実施する場合に「部数は？」とか「用紙サイズは？」という質問の仕方である。この場合も、ユーザーは任意の宛先、任意の部数、任意の用意サイズを、それぞれ回答として自由に発話することができる。

これに対し、第２のモードは、第１のモードよりも質問に対する回答候補が限定された質問の仕方であり、この実施形態では、ユーザーに回答候補を提示して選択させる選択式発話モードが設定されている。例えば、スキャンしたデータを送信するときの宛先を特定するときに「宛先を候補から選択して下さい」と発話すると共に、「１．tanaka@xxx、２：田中さん、３．鈴木さん、・・・」というように複数の回答候補を提示する質問の仕方である。この質問に対しては、ユーザーは提示された複数の回答候補から宛先を選択して発話する。この場合、宛先そのものを発話しても良いし宛先に対応する番号を発話しても良い。また、コピーを実施する場合であれば「部数を候補から選択して下さい」とか「用紙サイズを候補から選択して下さい」と発話して複数の回答候補を提示する質問の仕方である。この場合も、ユーザーは提示された複数の回答候補の中から選択して発話する。

なお、第２のモードは、ユーザーが「はい」「いいえ」のいずれかで回答する質問の仕方であっても良い。この場合も、回答候補は「はい」「いいえ」の２つであり、第１のモードである自由発話モードに較べて回答候補が限定されている。例えば用紙サイズを特定するときは、「Ａ４ですか？」と質問し、ユーザーが「いいえ」と回答すると「Ｂ４ですか？」というように、質問を繰り返しながら用紙サイズを特定する。

画像形成装置１は、キーワードとそれに対応する音声特徴の辞書を持っており、この辞書を元に音声認識を行う。上述したように、第１のモードである自由発話モードは、ユーザーの発話の自由度が大きいという利点がある。しかし、画像形成装置１はユーザーの発話内容を一言一句漏らすことなく取得して、キーワードを抽出する必要があり、発話長さも予め知ることができない。さらに、画像形成装置１では、「コピー」「コピーガード」「コピープロテクト」等、類似した操作用語が多い。従って、画像形成装置１の周囲のノイズ音が大きいと、精度の高い音声認識を行えない場合があり、この場合は画像形成装置１の動作が停止してしまい、大量印刷時や緊急時にジョブの実行に支障を来してしまう。

一方、第２のモードでは、画像形成装置１が提示した複数の回答候補の中から、ユーザーが選択するから、画像形成装置１は各回答候補のキーワードを予め把握している。第２のモードにおいて、画像形成装置１は、ユーザーが発話した音声の特徴がどのキーワードの音声特徴と最も近いかをパターンマッチングを行って調べることで、ユーザーが選択した回答候補を特定する。回答候補は限定されているため、ユーザーが発話した音声の途中で大きなノイズ音が発声したしても、パターンマッチングにより回答候補を容易に特定することができる。つまり、第２のモードは第１のモードよりもノイズ音に強いという特徴がある。

そこで、この実施形態では、ユーザーによる音声操作が行われる際に、画像形成装置１の周囲のノイズ音に応じて、第１のモードと第２のモードを切り替えることができるようになっている。

以下に、第１のモードと第２のモードの切り替えに関する動作を説明する。

音声操作は、操作パネル１３０の表示部１３４に表示された図示しない音声操作モードの設定ボタンを押すことにより開始され、画像形成装置１からの質問と、質問に対するユーザーの回答が繰り返されることにより、ジョブの設定等がなされ操作が進行していく。

画像形成装置１からの質問と質問に対するユーザーの回答の一例を図２に示す。図２の例は画像形成装置１の周囲のノイズ音が小さい場合を示している。画像形成装置１の周囲のノイズ音が小さい場合、画像形成装置１からの質問は第１のモードである自由発話モードで行われる。自由発話モードで行うことで、自由度の高い回答を発話できるというユーザーにとっての利便性が確保される。

図２に示すように、まず画像形成装置１は、ユーザーを特定するために音声端末装置２００のスピーカー部２２０から「ユーザー名は？」という質問Ｑ１を出力させる。ユーザーが例えば「山田」と回答Ａ１を発話すると、この音声データが音声端末装置２００のマイク部２１０に入力され、画像形成装置１はユーザーの回答Ａ１の音声データを受け付けるとともに、音声認識部１９０で音声認識処理を行い、ユーザーが「山田」であることを特定する。

続いて、画像形成装置１はスピーカー部２２０から「何をしますか？」という質問Ｑ２を出力させる。この質問に対し、ユーザーは使用したい機能として「スキャン、メール送信」と回答Ａ２を発話すると、画像形成装置１は発話音声を受け付けて音声認識部１９０で音声認識処理を行い、ユーザーが使用したい機能がスキャン機能とメール送信機能であることを特定する。

続いて、画像形成装置１はスピーカー部２２０から「カラーですか？グレースケールですか？」という質問Ｑ３を出力させる。この質問に対し、ユーザーが「カラー」と回答Ａ３を発話すると、画像形成装置１は音声認識部１９０で音声認識処理を行い、スキャン機能はカラーであることを特定する。

続いて、画像形成装置１はスピーカー部２２０から「宛先は？」という質問Ｑ４を出力させる。この質問に対し、ユーザーが具体的な宛先である「[email protected]」の回答Ａ４を発話すると、画像形成装置１は音声認識部１９０で音声認識処理を行い、宛先を特定する。

こうして、画像形成装置１はユーザーの発話内容に従い、ユーザーが希望するジョブの設定や動作条件の設定等を行い、ジョブを実行させることができる。
上記の例において、ユーザーからの「カラー」という回答Ａ３の発話音声を受け付けた後、タイミングＴ１で、画像形成装置１の画像読取装置１２０によるスキャン動作が開始されたとする。

図３に画像形成装置１の動作音の大きさの一例を示す。この実施形態では、第１のモードと第２のモードの切り替えタイミングとなる、画像形成装置１の周囲のノイズ音の閾値が、例えば５０デシベル（ｄＢ）に設定されているものとし、ウォームアップ時にはノイズ音は閾値よりも小さいが、スキャン動作時及びプリント時にはいずれも閾値を上回るノイズ音が発生するものとする。

画像形成装置１は自機の周囲のノイズ音をマイク部２１０を介して集音しノイズ音の大きさを測定しており、ノイズ音の大きさが閾値を超えたかどうかを常時判定している。集音されるノイズ音には、自装置の動作音に加えて自装置以外から生じるノイズ音も含まれている。

スキャン動作の開始により画像形成装置１の周囲のノイズ音が増大し、タイミングＴ１で、予め設定された閾値を超えたと判定すると、画像形成装置１は図４に示すように、第２のモードに切り替えて次からの質問を行う。

図４の例では、宛先に関して第２のモードである選択式発話モードにより「宛先を番号で回答してください」という質問Ｑ４１をスピーカー部２２０から出力すると共に、複数の宛先候補を回答候補として提示する。この実施形態では、複数の宛先候補の提示を、図５に示すように操作パネル１３０の表示部１３４に画面表示させることにより行っている。図５の例では、番号１．田中tanaka@xxx、番号２．鈴木suzuki@xxx、番号３．佐藤：sato@xxx・・・が、宛先候補のリストとして例示されている。

ユーザーは表示部１３４に表示された宛先候補のリストの中から、宛先を選択してその番号（例えば２番）を回答Ａ４１として発話すると、発話による音声がマイク部２１０に入力される。画像形成装置１はこの音声データを受け付けて音声認識処理を行い、ユーザーが選択した宛先を特定し、スキャン送信ジョブの宛先として設定する。前述したように、第２のモードである選択式発話モードの場合、パターンマッチングにより発話内容とキーワードが比較されるためノイズ音に強い。このため、ノイズ音が閾値を超えていても、ユーザーが選択した宛先を精度良く認識することができるから、第１のモードの場合の課題であるノイズ音が大きい場合に認識精度の低下により画像形成装置１の動作が停止し、大量印刷時や緊急時にジョブの実行に支障を来してしまうという不都合の発生を防止することができる。

図４の例では、図５に示したように、複数の宛先候補を操作パネル１３０の表示部１３４に表示した場合を示したが、図６に示すように「宛先を番号で回答して下さい。１．田中、２．鈴木、・・・」と音声で回答候補（宛先候補）のリストを読み上げてもよい（質問Ｑ４２）。この場合も、ユーザーは読み上げられた宛先候補のリストの中から、宛先を選択してその番号（例えば２番）を回答Ａ４２として発話すれば良い。

なお、表示部１３４に表示されまたは音声で読み上げられる回答候補のリストは、過去に宛先として使用された回数が多い順、換言すれば使用頻度の高い順に表示され、または読み上げられるように設定しても良い。あるいは、画像形成装置１に宛先として登録された順に表示され、または読み上げられるように設定しても良い。いずれの場合も、ユーザーが選択する際の参考とすることができる。

なお、第２のモードに切り替え後にノイズ音が閾値以下になったときは、再度第１のモードに切り替えても良い。

このように、この実施形態では、ノイズ音が閾値以下の場合は第１のモードである自由発話モードでの質問を行うことで、ユーザーの発話自由度を確保して使い勝手をよくし、ノイズ音が閾値を超えると第２のモードである選択発話モードに切り替えて、ノイズ音による音声認識の精度低下を防止するから、音声操作時に使い勝手が良く誤操作の少ない画像形成装置となる。なお、閾値については画像形成装置１の管理者等が変更できるようにしても良い。

図７は、音声操作時に画像形成装置１によって実行される第１のモードと第２のモードの切り替え動作の一例を示すフローチャートである。図７のフローチャート及び他のフローチャートで示される動作は、画像形成装置１の制御部１００のＣＰＵ１０１がＲＯＭ１０２等の記録媒体に格納された動作プログラムに従って動作することにより実行される。

ステップＳ０１では、ユーザーが音声操作モードを選択したかどうかを調べ、音声操作モードが選択されなければ（ステップＳ０１でＮＯ）、処理を終了する。音声操作モードが選択されると（ステップＳ０１でＹＥＳ）、ステップＳ０２で、現在のノイズ音をマイク部２１を介して集音したのち、ステップＳ０３でノイズ音の大きさを測定する。

ステップＳ０４では、ノイズ音の大きさが予め設定された閾値を超えたかどうかがを判断し、閾値を超えていれば（ステップＳ０４でＹＥＳ）、ステップＳ０５で、現在のモードが第１のモード（自由発話モード）かどうかを判断する。第１のモードであれば（ステップＳ０５でＹＥＳ）、ステップＳ０６で、第２のモードである選択式発話モードに切り替えた後、ステップＳ１０に進む。ステップＳ０５で現在のモードが第１のモードでない場合は（ステップＳ０５でＮＯ）、ステップＳ０８でモードの切り替えを行うことなくステップＳ１０に進む。この場合は第２のモードがそのまま維持される。

ステップＳ０４でノイズ音が閾値を超えていない場合は（ステップＳ０４でＮＯ）、ステップＳ０７で現在のモードが第１のモードかどうかを判断し、第１のモードであれば（ステップＳ０７でＹＥＳ）、ステップＳ０８でモードの切り替えを行うことなくステップＳ１０に進む。従って、この場合は第１のモードが維持される。ステップＳ０７で、現在のモードが第１のモードでなければ（ステップＳ０７でＮＯ）、ステップＳ０９で第１のモードに切り替えた後、ステップＳ１０に進む。

ステップＳ１０では、例えばジョブの実行により音声操作モードが終了したかどうかを判断し、終了すれば（ステップＳ１０でＹＥＳ）、処理を終了する。音声操作モードの終了でなければ（ステップＳ１０でＮＯ）、ステップＳ０２に戻る。

このように、ノイズ音が閾値を超えたかどうかに応じて、第１のモードと第２のモードとの間で切り換えが行われる。

図８は、画像形成装置１によって実行される第１のモードと第２のモードの切り替え動作の他の例を示すフローチャートである。この実施形態では、画像形成装置１が動作音が小さい動作として予め設定された所定の動作の実行中の場合は、ノイズ音の測定やノイズ音が閾値を超えたかどうかを判断することなく、第１のモードを設定する構成となっている。周囲環境が静寂な場合、ノイズ音は主として画像形成装置１の動作音となるから、動作音が小さい動作の場合は閾値を超えることはないと考えられるからである。動作音が小さい動作として予め設定された所定の動作としては、例えば画像安定化動作やウォームアップ動作等を挙げることができる。

ステップＳ０１では、ユーザーが音声操作モードを選択したかどうかを調べ、音声操作モードが選択されなければ（ステップＳ０１でＮＯ）、処理を終了する。音声操作モードが選択されると（ステップＳ０１でＹＥＳ）、ステップＳ１１で、自装置は画像安定化動作やウォームアップ動作等の所定動作中かどうかを判断する。所定動作中であれば（ステップＳ１１でＹＥＳ）、ステップＳ０７に進み、現在のモードが第１のモードかどうかを判断し、第１のモードであれば（ステップＳ１０でＹＥＳ）、ステップＳ０８でモードの切り替えを行うことなくステップＳ１０に進む。ステップＳ０７で、現在のモードが第１のモードでなければ（ステップＳ０７でＮＯ）、ステップＳ０９で第１のモードに切り替える。従って、画像形成装置１が所定の動作中である場合、ノイズ音の測定等を行うことなく第１のモードが維持され、または第２のモードから第１のモードに切り替えられる。

ステップＳ１１で所定動作中でなければ（ステップＳ１１でＮＯ）、ステップＳ０２に進む。

なお、ステップＳ０２～ステップＳ１０の処理は図８のステップＳ０２～ステップＳ１０の処理と同じであるので、説明は省略する。

次に、この発明のさらに他の実施形態を説明する。この実施形態では、ノイズ音を集音して大きさを測定するのではなく、画像形成装置１の過去のジョブ実行時の動作音をノイズ音として記憶装置１１０等に記憶しておき、実行しようとするジョブと同じ過去のジョブについての動作音（ノイズ音）を記憶装置１１０から読み出すことにより、実行しようとするジョブについてのノイズ音の大きさを予測し、この予測値と閾値とを比較する構成になっている。

一例として、ジョブ実行時の動作音（ノイズ音）の推移を図９のグラフに示す。図９の例ではジョブがコピージョブである場合のノイズ音を示しており、縦軸が動作音（ノイズ音）、横軸が時間を示している。

画像読取装置１２０による原稿の読み取り動作時の動作音は閾値以下であるが、印字動作が開始されると動作音が大きくなって閾値を超え、印字動作が終了すると、動作音は閾値以下となる。このような時間と動作音の大きさの推移データが、記憶装置１１０等に記憶されている。

ユーザーが設定したジョブがコピージョブである場合、同じコピージョブについての過去のデータである図９に示した推移データが、記憶装置１１０から呼び出されて、現在のコピージョブの実行時のノイズ音と予測（推定）され、そのノイズ音の大きさと閾値とが比較され、閾値を超えたタイミングで第２のモードに切り替えられる。

図１０は、過去のジョブ実行時の動作音に基づいてノイズ音を予測し、モード切り替えを行う際の画像形成装置１の動作を示すフローチャートである。

ステップＳ２１では、ユーザーが音声操作モードを選択したかどうかを調べ、音声操作モードが選択されなければ（ステップＳ２１でＮＯ）、処理を終了する。音声操作モードが選択されると（ステップＳ２１でＹＥＳ）、ステップＳ２２で、実行するジョブが決定したかどうかを判断する。決定されなければ（ステップＳ２２でＮＯ）、決定されるのを待つ。決定されると（ステップＳ２２でＹＥＳ）、ステップＳ２３で、過去に同じジョブを実行したときの動作音の推移データを記憶装置１１０等から呼び出し、この動作音に基づいて現在のジョブの実行時の動作音を予測（推定）する。

ジョブの実行開始後、ステップＳ２４で、ジョブ実行途中の現在のノイズ音の大きさは閾値を超えているかどうかを、予測したノイズ音の大きさと閾値との比較から判断する。閾値を超えていれば（ステップＳ２４でＹＥＳ）、ステップＳ２５で、現在のモードが第１のモード（自由発話モード）かどうかを判断する。第１のモードであれば（ステップＳ２５でＹＥＳ）、ステップＳ２６で、第２のモードである選択式発話モードに切り替えた後、ステップＳ３０に進む。ステップＳ２５で現在のモードが第１のモードでない場合は（ステップＳ２５でＮＯ）、ステップＳ２８でモードの切り替えを行うことなくステップＳ３０に進む。この場合は第２のモードがそのまま維持される。

ステップＳ２４で、現在のノイズ音が閾値を超えていない場合は（ステップＳ２４でＮＯ）、ステップＳ２７で現在のモードが第１のモードかどうかを判断し、第１のモードであれば（ステップＳ２７でＹＥＳ）、ステップＳ２８でモードの切り替えを行うことなくステップＳ３０に進む。従って、この場合は第１のモードが維持される。ステップＳ２７で、現在のモードが第１のモードでなければ（ステップＳ２７でＮＯ）、ステップＳ２９で第１のモードに切り替えた後、ステップＳ３０に進む。

ステップＳ３０では、例えばジョブの実行により音声操作モードが終了したかどうかを判断し、終了すれば（ステップＳ３０でＹＥＳ）、処理を終了する。音声操作モードの終了でなければ（ステップＳ３０でＮＯ）、ステップＳ２４に戻る。

このように、ノイズ音を過去の動作音から予測して閾値と比較することにより、ノイズ音の集音や測定処理が不要となり、処理の簡素化を図ることができる。

なお、図１０のステップＳ２３では、過去のジョブの実行時の動作音から現在のジョブ実行時のノイズ音を予測するものとしたが、過去の複数の動作音を組み合わせてノイズ音を予測しても良い。例えば、１０枚印字後、印字した１０枚をステープルを実施するジョブが設定された場合、プリント１枚の印字動作時の動作音と、ステープル１回分の動作音を組み合わせて、今回のジョブの動作音（ノイズ音）の推移データを予測する。具体的には、プリント１枚の印字動作音がプリント１枚当たりの動作時間×１０の時間継続し、続いてステープル１回分の動作音が継続する推移データとなる。

このように過去の複数の動作音を組み合わせることで、ジョブ全体についての過去の動作音が存在していなくても、ノイズ音を予測することができ、第１のモードと第２のモードを精度よく切り替えることができる。

次に、この発明のさらに他の実施形態を説明する。この実施形態では、図８及び図９で説明した実施形態と同様に、画像形成装置１の過去のジョブ実行時の動作音に基づいて現在のジョブの動作音（ノイズ音）を予測するが、予測したノイズ音の大きさが動作中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなく動作開始の時点から、第２のモードへの切り替えを行う構成となっている。

一例として、ジョブ実行時の動作音（ノイズ音）の推移を図１１のグラフに示す。図１１の例ではジョブがコピージョブである場合のノイズ音を示しており、縦軸が動作音（ノイズ音）、横軸が時間を示している。

図１１の推移データでは、動作音が大きくなって閾値を超える部分が存在する。このため、コピージョブを実行しようとする場合、ジョブの開始時前に第２のモードに切り替えておく。

図１２は、上記のようにジョブの開始時前に第２のモードに切り替えておく場合の画像形成装置１の動作を示すフローチャートである。

ステップＳ４１では、ユーザーが音声操作モードを選択したかどうかを調べ、音声操作モードが選択されなければ（ステップＳ４１でＮＯ）、処理を終了する。音声操作モードが選択されると（ステップＳ４１でＹＥＳ）、ステップＳ４２で、実行するジョブが決定したかどうかを判断する。決定されなければ（ステップＳ４２でＮＯ）、決定されるのを待つ。決定されると（ステップＳ４２でＹＥＳ）、ステップＳ４３で、過去に同じジョブを実行したときの動作音の推移データを記憶装置１１０等から呼び出し、この動作音に基づいて現在のジョブの実行時の動作音を予測（推定）する。この場合、複数の動作音を組み合わせて予測しても良い。

次にステップＳ４４では、予測したノイズ音の大きさが閾値を超える場合があるかどうかを判断する。閾値を超える場合があれば（ステップＳ４４でＹＥＳ）、ステップＳ４５で、現在のモードが第１のモード（自由発話モード）かどうかを判断する。第１のモードであれば（ステップＳ４５でＹＥＳ）、ステップＳ４６で、第２のモードである選択発話モードに切り替えた後、ステップＳ５０に進む。ステップＳ４５で現在のモードが第１のモードでない場合は（ステップＳ４５でＮＯ）、ステップＳ４８でモードの切り替えを行うことなくステップＳ５０に進む。この場合は第２のモードがそのまま維持される。

ステップＳ４４で、予測したノイズ音が閾値を超える場合がなければ（ステップＳ４４でＮＯ）、ステップＳ４７で現在のモードが第１のモードかどうかを判断し、第１のモードであれば（ステップＳ４７でＹＥＳ）、ステップＳ４８でモードの切り替えを行うことなくステップＳ５０に進む。従って、この場合は第１のモードが維持される。ステップＳ４７で、現在のモードが第１のモードでなければ（ステップＳ４７でＮＯ）、ステップＳ４９で第１のモードに切り替えた後、ステップＳ５０に進む。

ステップＳ５０では、例えばジョブの実行により音声操作モードが終了したかどうかを判断し、終了しなければ（ステップＳ５０でＮＯ）、ステップＳ２４に留まり終了するまで待つ。終了すれば（ステップＳ５０でＹＥＳ）、処理を終了する。

図１１及び図１２に示した実施形態では、動作中のいずれかの時点でノイズ音の大きさが閾値を超えることが予測される場合、閾値を超える時点を待つことなく動作開始の時点から、第２のモードへの切り替えが行われる。このため、画像形成装置１の動作中はノイズ音の大きさを求める処理は不要となり、処理を簡素化できる。

以上、本発明の一実施形態を説明したが、本発明はこれらの実施形態に限定されることはない。

例えば、第１のモードと第２のモードの切り替えを画像形成装置１が自動で行う場合を示したが、ユーザーが選択できるようにしても良い。この場合、音声操作モードが設定されると、図１３に示すような選択画面を操作パネル１３０の表示部１３４に表示する。図１３に示す画面には、第１のモード（自由発話モード）と第２のモード（選択式発話モード）の切り替え方法の選択を促すメッセージとともに、「自動」切替と「手動」切替の選択項目が表示され、いずれかの項目を選択するようになっている。ユーザーがいずれかを選択しＯＫボタンを押すと選択が有効となる。キャンセルボタンが押されるとひとつ前の画面に戻る。

「自動」が選択された場合は図７、図８、図１０、図１２などに示した処理が行われる。「手動」が選択された場合は図１４に示すモード選択画面に遷移する。図１４のモード選択画面には、「いずれかのモードを選択してください」のメッセージとともに、第１のモードと第２のモードの選択項目が表示され、いずれかのモードを選択するようになっている。ユーザーが第１のモードを選択しＯＫボタンを押すと、第１のモードに切り替えられ、第２のモードを選択しＯＫボタンを押すと、第２のモードに切り替えられる。キャンセルボタンを押すと図１３の画面に戻る。

いずれかのモードが選択されると、ノイズ音の大きさにかかわらず、選択したモードで質問が出力される。ただし、音声操作の途中でユーザーが手動でモードの切り替えをできるようにしても良い。

このように、ユーザーの切替操作により第１のモードと第２のモードを切り替えることができるから、ユーザーは音声操作を行う際に周囲のノイズ音が大きいと感じた場合等に切替操作を行うことにより、自己の意思を反映でき認識率の高い音声認識を行わせることができる。

１画像形成装置（画像処理装置）
１００制御部
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１１０記憶装置
１４０画像出力装置
１６０ネットワークインターフェース
２００音声端末装置
２１０マイク部（音声入力装置）
２２０スピーカー部（音声出力装置）

Claims

音声出力装置からユーザーに対する質問を音声出力させる第１の制御手段と、
前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付手段と、
前記受付手段により受け付けた音声の内容に基づいて画像処理動作を制御する第２の制御手段と、
を備え、
ユーザーに対する前記質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、さらに
前記第１のモードと第２のモードを切り替える切替手段と、
過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段と、を備え、
前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第１のモードから第２のモードへ切り替え、閾値以下になった時点で第２のモードから第１のモードへ切り替え、
前記第１の制御手段は、前記切替手段により切り替えられた第１のモードまたは第２のモードで、前記音声出力装置からユーザーに対する質問を音声出力させることを特徴とする画像処理装置。
音声出力装置からユーザーに対する質問を音声出力させる第１の制御手段と、
前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付手段と、
前記受付手段により受け付けた音声の内容に基づいて画像処理動作を制御する第２の制御手段と、
を備え、
ユーザーに対する前記質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、さらに
前記第１のモードと第２のモードを切り替える切替手段と、
過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段と、を備え、
前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが、ジョブの実行中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第２のモードへの切り替えを行い、
前記第１の制御手段は、前記切替手段により切り替えられた第１のモードまたは第２のモードで、前記音声出力装置からユーザーに対する質問を音声出力させることを特徴とする画像処理装置。
前記第１のモードは、回答候補を示すことなく質問を行いユーザーが回答を自由に発話できる自由発話モードであり、前記第２のモードはユーザーに回答候補を提示して選択させる選択式発話モードである請求項１または２に記載の画像処理装置。
表示手段を備え、
前記第１の制御手段は、前記第２のモードにより音声出力装置から質問を出力させる場合、回答候補のリストを前記表示手段に表示し、
前記ユーザーは前記表示手段に表示された回答候補のリストの中から候補を選択して発話する請求項３に記載の画像処理装置。
前記第１の制御手段は、前記第２のモードにより音声出力装置から質問を出力させる場合、回答候補のリストを音声により出力させ、
前記ユーザーは音声により出力された回答候補のリストの中から候補を選択して発話する請求項３または４に記載の画像処理装置。
回答候補のリストは、過去の選択頻度の高い回答候補の順に作成されている請求項４または５に記載の画像処理装置。
回答候補のリストは、自装置に登録された順に作成されている請求項４または５に記載の画像処理装置。
前記切替手段は、ユーザーの切替操作に基づいて、第１のモードと第２のモードを切り替える請求項１～７のいずれかに記載の画像処理装置。
複数のジョブを実行する場合、前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のそれぞれのジョブの実行時のノイズ音を組み合わせて予測する請求項１～８のいずれかに記載の画像処理装置。
前記切替手段は、予め設定された動作の実行中は第１のモードから第２のモードへの切り替えは行わない請求項１～９のいずれかに記載の画像処理装置。
過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段を備えた画像処理装置のコンピュータに、
音声出力装置からユーザーに対する質問を出力させる第１の制御ステップと、
前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付ステップと、
前記受付ステップにより受け付けた音声の内容に基づいて画像処理動作を制御する第２の制御ステップと、
を実行させ、
ユーザーに対する前記質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、さらに
前記第１のモードと第２のモードを切り替える切替ステップを前記コンピュータに実行させ、
前記切替ステップでは、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第１のモードから第２のモードへ切り替え、閾値以下になった時点で第２のモードから第１のモードへ切り替える処理を前記コンピュータに実行させ、
前記第１の制御ステップでは、前記切替ステップにより切り替えられた第１のモードまたは第２のモードで、前記音声出力装置からユーザーに対する質問を出力させる処理を前記コンピュータに実行させるためのプログラム。
過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段を備えた画像処理装置のコンピュータに、
音声出力装置からユーザーに対する質問を出力させる第１の制御ステップと、
前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付ステップと、
前記受付ステップにより受け付けた音声の内容に基づいて画像処理動作を制御する第２の制御ステップと、
を実行させ、
ユーザーに対する前記質問の仕方として、第１のモードと、第１のモードよりも質問に対する回答候補が限定された第２のモードが設定されており、さらに
前記第１のモードと第２のモードを切り替える切替ステップを前記コンピュータに実行させ、
前記切替ステップでは、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが、ジョブの実行中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第２のモードへ切り替える処理を前記コンピュータに実行させ、
前記第１の制御ステップでは、前記切替ステップにより切り替えられた第１のモードまたは第２のモードで、前記音声出力装置からユーザーに対する質問を出力させる処理を前記コンピュータに実行させるためのプログラム。