JP7409155B2 - 画像形成装置 - Google Patents

画像形成装置 Download PDF

Info

Publication number
JP7409155B2
JP7409155B2 JP2020034980A JP2020034980A JP7409155B2 JP 7409155 B2 JP7409155 B2 JP 7409155B2 JP 2020034980 A JP2020034980 A JP 2020034980A JP 2020034980 A JP2020034980 A JP 2020034980A JP 7409155 B2 JP7409155 B2 JP 7409155B2
Authority
JP
Japan
Prior art keywords
state
image forming
forming apparatus
voice recognition
pressure level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020034980A
Other languages
English (en)
Other versions
JP2021141362A (ja
Inventor
憲三 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2020034980A priority Critical patent/JP7409155B2/ja
Publication of JP2021141362A publication Critical patent/JP2021141362A/ja
Application granted granted Critical
Publication of JP7409155B2 publication Critical patent/JP7409155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Accessory Devices And Overall Control Thereof (AREA)
  • Control Or Security For Electrophotography (AREA)
  • Facsimiles In General (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、画像形成装置に関し、音声認識によるジョブデータの設定入力の改良に関する。
近年の画像形成装置は多機能化が進んでおり旧来のようなタッチパネルディスプレイを用いた操作では、画像形成装置が具備する多彩な機能を全て使いこなすことは難しいといわれる。階層的なメニューを開いて、ジョブに必要な各項目を正しく入力せねばならないからである。
その反面、音声認識では「2in1でコピーして」というように、画像形成装置にさせたいことを直接的に言葉で表現すればよく、直観的な操作が可能になる。また、「2in1コピーよろしく。あとスティプルも」「コピー2in1でお願い」など様々な言い回しが可能であり、ストレスのない操作が可能になるので、新時代を担うユーザーインターフェイスとして期待がかかっている。
従来の画像形成装置では、ユーザーが音声認識モードの起動のために予め定められた単語を発すると音声認識モードに移行し、音声による指示の取り込みを開始する。そうして取り込まれた音声をデジタル化して、スペクトル変調、フーリエ変換等の信号処理を施して音素を得る。一群の音素を単語にまとめて、名詞、形容詞に変換して、ユーザーが発話した発話文の構文を明らかにする。それによってジョブの内容が認識されると、画像形成装置はその発話文に基づきジョブを実行する。
特開平04-343561号公報
ところで画像形成装置は動作音が大きく、音声認識モードが起動された後に、動作音が発生すると、動作音がノイズになって、ユーザーが発した音声が正しい音素に変換されなくなる。音素の変換の段階でつまづくと、以降の処理において、ジョブの設定を命じる正しい文章が生成されず、画像形成装置は音声の再入力をユーザーに求めざるを得ない。自装置が発する動作音が原因で音声入力が阻害されているというのに音声の入力を何度も求めるのは装置としての一貫性を欠き、画像形成装置に対する不信感を募らせてしまう。
音声認識の発話中は、装置動作を停止させ、静寂な音響環境を保つことも考えられる(詳しくは特許文献1を参照)。しかし、多人数の従業員が在籍する職場で画像形成装置が設置されている場合、こうした音声入力時の動作停止は望ましくない。一人のユーザーの音声認識のために、画像形成装置の動作を止めてしまうことになり、職場全体の作業効率の低下をもたらすからである。
本開示の目的は、職場の作業効率の低下を最小限にしつつも、音声認識のための発声の繰り返しを少なくすることができる、画像形成装置を提供することである。
上記課題は、ユーザーによる発話に応じて、音声認識モードを起動し、音声による画像形成に関する指示を受け付ける画像形成装置であって、音声認識モードが起動された後、次に移行すべき状態を現在の状態に基づき特定する特定手段と、次の状態に移行する前に、その状態において生じる動作音が前記音声認識モードでの音声認識を遮るかどうかを、前記音声認識モードの起動時にユーザーが発した声の音圧レベルに基づき判定する判定手段と、遮ると判定された場合、画像形成に関する指示の内容が、音声認識により確定するまでの間、前記現在の状態を維持し、指示内容が確定すると前記次の状態に移行する制御手段とを備えることを特徴とする画像形成装置により解決される。
前記特定手段は、現状態がスリープ状態である場合、次に移行すべき状態としてウォームアップ状態を特定し、前記判定手段による音声認識を遮るかどうかの判定は、ウォームアップ状態で生ずる動作音の音圧レベルと、音声認識モードの起動時におけるユーザーの発話の音圧レベルとを比較することでなされてもよい。
前記特定手段は、現状態が画像形成ジョブの実行待ち状態である場合、次に移行すべき状態として当該実行待ちジョブを実行する実行状態を特定し、前記動作音が、前記判定手段による音声認識を遮るかどうかの判定は、実行待ちジョブを行う際の動作音の音圧レベルと、音声認識モードの起動時におけるユーザーの発話の音圧レベルとを比較することでなされてもよい。
音圧レベルの複数の閾値を示す閾値テーブルを備え、
前記閾値テーブルにおける各閾値は、自装置が内蔵している複数の機構部、及び/又は、自装置と接続された後処理装置内の複数の機構部の何れかを単独で又は同時に駆動することにより生ずる動作音の音圧レベルを示し、前記判定手段による音声認識を遮るかどうかの判定は、閾値テーブルに記載された複数の閾値のうち、特定手段が特定した次に移行すべき状態に対応するものと、ユーザーが発した音声の音圧レベルとを比較することでなされてもよい。
自装置が内蔵している複数の機構部、及び、自装置と接続された複数の機構部の何れかを単独で又は同時に駆動することにより生ずる動作音を録音する録音手段を備え、前記閾値テーブルに示される閾値は、録音手段により録音された動作音の音圧レベルに基づき定められてもよい。
自装置が内蔵している機構部には、感光体を露光して静電潜像を得る露光器、感光体に得られた静電潜像を現像する現像器、シートを搬送する搬送部、現像で得られた像をシートに転写する転写部、シートに転写された像を定着する定着器、原稿を読み取る原稿読取部の少なくとも2つがあるとしてもよい。
前記特定手段が特定した次の状態への移行を開始することなく、ユーザーからの音声入力を受け付け、音声認識を試みたが、発話内容を認識できない場合、操作パネルを用いることが適切である旨をユーザーに報知する報知手段を更に備えてもよい。
音声認識モードの起動時にユーザーが発した音声に基づき、次に移行すべき状態における動作音が、音声認識モードにおける音声認識を遮るかどうかを判定し、遮ると判定された場合、音声による画像形成の指示内容が確定するまでの間、前記現在の状態を維持するので、良好な音響環境の下、音声による指示内容を発することができる。良好な音響環境の下、ユーザーにより入力された音声から指示内容の音声認識を試みるので、指示内容が正しく認識される確率が高まり、画像形成装置が動作しない期間を短くすることができる。一方、遮らないと判定されると、次の状態への移行をすぐに開始することができる。これにより、画像形成装置の稼働率を確保しつつも、ユーザーが発した音声からジョブの内容を正しく導くことができる。
画像形成装置1000の外観を示す。 動作音の音源となる画像形成装置1000の機構部を示す。 画像形成装置1000の制御系統の構成を示す。 各動作において駆動される機構部を表形式に示す。 画像形成装置1000の制御内容のメインルーチンを示すフローチャートである。 図6(a)は、ユーザーと、スマートスピーカー1006との間でなされる会話シーケンスの一例を示す。図6(b)は、発話の繰り返しをもたらす会話シーケンスの一例を示す。 図7(a)は、ウォームアップ状態への移行と、音声指示とを入れ替えた場合の会話シーケンスを示す。図7(b)は、ユーザーAがウェークワードV1を発話した後、ユーザーBがPCプリントの実行を要求したケースの会話シーケンスを示す。 スマートスピーカー1006及び自然言語処理部105によりなされる会話シーケンスの手順を示すフローチャートである。 閾値テーブル205に記載された閾値を更新するため、追加される構成要素を示す。 タッチパネルディスプレイ1001への切り替えを促す場合の会話シーケンスを示す。
以下、図面を参照しながら、本開示にかかる画像形成装置の実施形態について説明する。
[1]画像形成装置
(1-1)画像形成装置の外観
図1は、画像形成装置1000の外観を示す。図1に示す画像形成装置1000は、多機能複合機 (Multifunction Peripheral)であり、タッチパネルディスプレイ1001によりジョブの設定を受け付けた上、スキャナー1004により原稿画像を光学的に読み取り、給紙カセット1002a、b、c、dから繰り出された用紙に、上記設定に従った画像を形成する。
スマートスピーカー1006は、オプション機器として画像形成装置1000に接続され、画像形成装置1000を音声で操作するためのユーザーとの会話(ユーザーが発した音声の取り込み、ユーザーに対する発話)を行う。ユーザーがウェークワードを発した際、スマートスピーカー1006は起動して、ユーザーが発した音声の認識を試みる。スマートスピーカー1006の音声認識により、実行すべきジョブの内容を定める動作モードを音声認識モードという。音声認識モードにおいて、ユーザーが発した音声を認識し、ユーザーが発した音声を文章化したテキスト文字列を画像形成装置1000に出力する。
(1-2)動作音の音源となる画像形成装置1000の機構部
画像形成装置1000は、電子写真方式の画像形成を行うための複数の機構部として、図2に示すように感光体ドラム110Dを露光して静電潜像を得る露光器110、感光体ドラム110Dに得られた静電潜像を現像してトナー像を得る現像器111、給紙カセット1002a、b、c、dから用紙を繰り出して搬送する搬送部113、現像で得られたトナー像を中間転写ベルト112Nに転写して2次転写位置112Pに搬送し、2次転写位置112Pにおいて用紙に転写する転写器112、定着ローラー114Rを用いてトナー像を用紙に定着する定着器114を含む。
これらの機構部は、ギア機構を通じて、駆動モーター(図3の110M、111M、112M、113M、114Mを参照)の回転駆動力を、感光体ドラム110D、定着ローラー114R等のローラー部材に印加する。そうした回転駆動力を印加する際、ギア機構でギアとギアとが噛み合う際の機械音や、ローラの軸受けで回転軸が摺動する際の機械音、フレーム部材の振動等も各機構部の動作音に含まれる。
機構部のうち何れが駆動されるかは、ウォームアップ状態、ジョブ実行状態で異なり、また、ジョブの内容によっても異なる。ウォームアップ状態や各ジョブで駆動される機構部については、後段の動作例で詳しく説明する。
[2]画像形成装置1000の制御系統
画像形成装置1000の制御系統の構成を図3に示す。画像形成装置1000の制御系統には、画像形成に関するものと、音声認識モードでの音響環境の保全に関するものとがある。まず、画像形成に関する制御系統について説明する。画像形成に関する制御系統は、図3に示すように、パネル制御部101、待ち行列メモリ102、ジョブデータ実行部103、メカコントローラー104、自然言語処理部105、通信制御部106を含み、露光器110、現像器111、転写器112、搬送部113、定着器114を制御する。
(2-1)パネル制御部101
パネル制御部101は、ジョブの設定画面をタッチパネルディスプレイ1001に表示させる制御や設定画面に対するユーザー操作を検出する制御を行う入出力モジュールであり、スキャナー1004により原稿が読み取られ、タッチパネルディスプレイ1001に対してユーザーにより設定操作がなされると、スキャナー1004の読み取りにより得られた画像データと、当該設定操作の内容とを含むジョブデータを生成して待ち行列メモリ102に蓄積する。
(2-2)待ち行列メモリ102
待ち行列メモリ102は、先入先出し式のメモリ(FIFOメモリ)であり、実行すべきコピーの内容を示す複数のジョブデータを、実行順序に従い格納する。
(2-3)ジョブデータ実行部103
ジョブデータ実行部103は、待ち行列メモリ102に蓄積された個々のジョブデータに含まれる設定データを解釈する設定データ解釈モジュールであり、待ち行列メモリ102に格納されたジョブデータを1つずつ取り出し、取り出されジョブデータの個々のページを、印刷出力用の画像データ(露光パターン)に変換して、変換後の画像データを画像メモリ103Mに書き込む。
(2-4)メカコントローラー104
メカコントローラー104は、ASIC、マイコンシステム等で構成され、パルス幅変調回路104Wを通じて駆動モーター110M、111M、113M、114Mの回転速度を調整して、露光器110、現像器111、転写器112、搬送部113、定着器114のローラー部材等の回転を制御する。具体的にいうと、メカコントローラー104は、図2に示す露光器110における感光体ドラム110Dの回転やポリゴンミラー110Pの回転、現像器111における攪拌スクリュー111S、111Tの回転や現像ローラー111Rの回転、中間転写ベルト112Nが張架された駆動ローラー112Rの回転や、ピックアップローラー121及び給紙ローラー122の回転、タイミングローラー123の回転開始、定着ローラー114Rの回転を制御する。こうした制御により、露光器110の露光走査や現像器111による静電潜像の現像、転写器112によるトナー像の一次転写や二次転写、搬送部113による用紙搬送、定着器114による熱定着を順次実行させる。
(2-5)自然言語処理部105
自然言語処理部105は、テキストベースの会話モジュールであり、後述する図6(a)に示すような会話シーケンスをスマートスピーカー1006に行わせる。会話シーケンスは、スマートスピーカー1006から発せられたテキスト文字列の意味内容の解析(1)、解析された意味内容がジョブの指示内容として成立するかどうかの成立性判定(2)、解析した意味内容を示すテキスト文字列をスマートスピーカー1006に引き渡してスマートスピーカー1006に発話を行わせ、解析された意味内容が正しいかどうかを確認するという応答(3)を含む。ユーザーに対する応答に対し、解析した意味内容の発話が、ユーザーによって肯定された場合、解析された指示内容と、スキャナー1004の読み取りで得られた画像データとを含むジョブデータを生成して待ち行列メモリ102に蓄積する。
(2-6)通信制御部106
通信制御部106は、階層的な通信手順を行う通信モジュールであり、無線、有線ネットワークを通じて図1に示したパーソナルコンピュータ型の端末1011が送信したジョブデータを受信して、待ち行列メモリ102に蓄積する。端末1011が送信するジョブデータは、パーソナルコンピュータ型の端末による印刷要求のジョブ(PCプリントと呼ぶ)である。スマートスピーカー1006の音声認識では、上記の会話シーケンスを行う必要があり、時間がかかるので、PCプリントによる割り込みが発生する。この割り込みにより、音声認識モードが起動されてから、自然言語処理部105が生成したジョブデータが待ち行列メモリ102に格納されるまでの間に、端末1011が送信したPCプリントのジョブデータが先に待ち行列メモリ102に格納されると、実行順序が入れ替わることになる。
[3]音声認識モードでの制御のための構成要素
以上は、画像形成のための構成要素である。続いて音声認識モードでの音響環境保全に関する構成要素を説明する。
(3-1)状態制御部201
状態制御部201は、現在状態レジスタ201Rの管理を行うのと共に、待ち行列メモリ102におけるジョブデータの有無やユーザー操作の有無に応じて、待ち行列メモリ102に蓄積されたジョブデータをジョブデータ実行部103に実行させるかどうかを決定する。現在状態レジスタ201Rは、画像形成装置1000の状態を表す環境変数レジスタの1つであり、現在状態レジスタ201Rを用いることで、現在の画像形成装置1000の状態は、ジョブ実行状態、実行待ち状態、スリープ状態、ウォームアップ状態の何れであるかを明らかにする。
スリープ状態では、タッチパネルディスプレイ1001のバックライトを消灯させ、露光器110、現像器111、転写器112、搬送部113、定着器114への電源供給を絶ち、本図の制御系統のみに電力供給を行う。画像形成装置1000がスリープ状態を解除する際、ウォームアップ状態への移行を行う。
(3-2)次状態特定部202
次状態特定部202は、画像形成装置の状態遷移パターンに従い、現在状態レジスタ201Rに示される現在状態から次に移行すべき状態を特定する。現在状態レジスタ201Rがスリープ状態を示す場合、次の状態として、ウォームアップ状態を特定する。一方、現在状態レジスタ201Rがジョブの実行待ち状態を示し、待ち行列メモリ102にジョブデータが新たに蓄積された場合、次の状態は、ジョブの実行状態であるとして特定する。この場合、待ち行列メモリ102に蓄積されたジョブデータに基づき、次の状態でなされるジョブの内容まで特定する。
(3-3)ウェークワードキャプチャ部203
ウェークワードキャプチャ部203は、音声信号の入出力を制御する入力モジュールであり、スマートスピーカー1006にウェークワードが入力され、音声認識モードが起動した際、その時点に取り込まれたデジタル音声データを、ウェークワードの音声データとして音声波形メモリ203Mに取り込む。
(3-4)音圧レベル算出部204
音圧レベル算出部204は、音声信号を処理する信号処理モジュールであり、ウェークワードを取り込むことで得られた音声波形からデシベル単位の音圧レベルを得る。音圧レベルの計算手順は以下の通りである。ウェークワードの音声波形のうちユーザーが発した音声の基本周波数の整数倍となる範囲から、N個の電圧データV[n]を取り出して、電圧の平均値を算出することで、ウェークワードの実効電圧を計算する。ウェークワードの実効電圧をVe[v]、マイク感度をF[V/Pa] 、アンプ利得をAとすると、ウェークワードの音圧レベルLx[dB]は以下の数1の式(式1)により算出される。
Figure 0007409155000001
(3-5)閾値テーブル205
閾値テーブル205は、行列構造でデータを格納するメモリ等で構成され、画像形成装置1000が、ウォームアップ状態、ジョブ実行状態の何れかに移行した際、これらの状態で、生ずる音圧レベルの閾値を示す。ここで、ウォームアップ状態の閾値は、画像形成装置1000がウォームアップ状態になった際、各機構部から生ずる音圧レベルを示す。その閾値テーブル205は、ウォームアップ状態の動作音の閾値の他、PCプリントの閾値、後処理付きのPCプリントの閾値、FAX受信の閾値を示す。これらの閾値はそれぞれ、PCプリント、後処理付きのPCプリント、FAX受信が実行される際、各機構部から生ずる音圧レベルを示す。
(3-6)閾値比較部206
閾値比較部206は、閾値テーブル205をアクセスするメモリ読出回路、及び、当該アクセスで読みだされた閾値と、音圧レベル算出部204が算出した音圧レベルとを比較する比較器であり、次の状態として、ウォームアップ状態が特定された場合、ウォームアップ状態に対応する閾値を閾値テーブル205から読み出す。一方、ジョブ実行状態が特定され、尚且つ、実行されるジョブが特定された場合、ジョブ実行状態で実行されるジョブに対応する閾値を閾値テーブル205から読み出す。そうして読み出された閾値と、音声認識モードの起動時にユーザーが発したウェークワードの音圧レベルとを比較する。
(3-7)維持制御部207
維持制御部207は、メカコントローラー104に次状態への移行の指示信号を発する指示モジュールであり、スマートスピーカー1006及び自然言語処理部105の音声認識に応じた指示制御を実行する。その指示制御とは以下のものである。即ち、音圧レベル比較部206の比較により、ウェークワードの音声入力時の音圧レベルが閾値テーブル205から読み出された閾値を下回ると判定された場合、スマートスピーカー1006の会話シーケンスにより、ユーザーが命じた指示内容が特定されるまで、次状態への移行の指示信号を発しない。スマートスピーカー1006の会話シーケンスにより、ユーザーが命じた指示内容が明らかになると、次状態への移行の指示信号をメカコントローラー104に発する。これにより次状態への移行をメカコントローラー104に指示する。
[4]動作例
以上のように構成された装置の動作を説明する。
(4-1)閾値テーブル205の設定
閾値テーブル205には、動作毎の閾値が、画像形成装置1000のメーカーにより事前に設定されている。ある動作で駆動するn個の機構部のそれぞれが発する音圧レベルをL1、L2、L3~Lnとし、Po を基準音圧(20μpa)とした場合、L1、L2、L3~Lnは、以下の数2の式(式2)により算出される。
Figure 0007409155000002
画像形成装置1000が何れかの動作を行う場合、当該動作音は、その動作で駆動される機構部の音圧レベルL1、L2、L3~Lnを用いて、以下の数3の式(式3)により算出される。
Figure 0007409155000003
(4-1-1)ウォームアップ状態、各ジョブで駆動される機構部
駆動される機構部は、動作毎に異なる。図4は、各動作において駆動される機構部を表形式に示す。ウォームアップ状態では、給紙カセット1002a、bをはじめとする複数の機構部が同時に動作するのに対し、後処理付きのPCプリントでは、画像形成装置1000により印刷がなされた複数の用紙をスィッチバックして図2に示す後処理用トレイ1005Fに格納して、スティプラー、パンチ等に供し、後処理装置1005の排出トレイ1005Tに排出する。そのため後処理付きのコピー、後処理付きのPCプリントの閾値は、スティプラー、パンチ等の後処理の動作音の音圧レベルを対象として算出される。
その他、両面印刷のPCプリントでは、排出口119においてスィッチバックした用紙がタイミングローラー123により2次転写位置112Pに送り込まれる。そのため、両面印刷のPCプリントについては反転搬送路116で生じる動作音を対象として算出される。
図2に示される機構部の騒音レベルを音圧レベルLi(i=1,2,3,4~n)として式3に代入することで複数の機構部が同時に動作した場合の合成音圧レベルを算出する。数値の一例をあげると、定着器114で生ずる音圧レベルは50[dB]、スキャナー1004におけるスキャンユニット1004Sで生ずる音圧レベルは60[dB]、後処理装置1005で生ずる音圧レベルは70[dB]、図2に示した搬送部113が動作時に発する音圧レベルは60[dB]であり、これらを式3に代入することで合成音圧レベルを算出し、こうして算出した合成音圧レベルを、閾値として閾値テーブル205に記載する。
(4-1-2)ウォームアップ状態で駆動される機構部
ウォームアップ状態において、図2に示した機構部を同時に駆動する理由を以下に示す。
i.スリープ状態に移行した際、給紙カセット1002a、b、c、dの用紙束が下降している場合がある。そこでウォームアップ状態においては、給紙カセット1002a、b、c、dのリフトアップを行う。
ii.前回のジョブ終了時に、スキャナー1004のスキャンユニット1004Uの位置がホームポジションからずれている可能性があり、スキャナー1004におけるスキャンユニット1004U(図2参照)の位置をホームポジションに復帰させる必要がある。そこでウォームアップ状態においてスキャナー1004は、スキャンユニットをホームポジションに移動させる。
iii.定着器114の定着ローラー114Rは、例えば、160℃の定着温度まで昇温させる必要があり、またこの昇温に併せて定着ローラー114Rを回転させ、定着ローラー114Rの周面に熱を拡散させる必要がある。そこでウォームアップ状態において定着器114は加熱を開始し、定着ローラー114Rの回転を開始させる。
iv.前回のジョブ実行までに生じた汚れが、転写器112の中間転写ベルト112Nに残っている可能がある。これらの汚れを除去するため、転写器112はウォームアップ状態に中間転写ベルト112Nの周回駆動を行う。
v.現像器111の攪拌槽における現像剤が放置されることで、攪拌槽111Lの現像剤の嵩が低下している可能性がある。そこでウォームアップ状態において現像器111は、攪拌槽111Lに蓄積された現像剤の攪拌を行い、現像剤の嵩を回復させる。
vi.前回のジョブ実行までに生じた汚れが、感光体ドラム110Dに残っている可能がある。これらの汚れを除去するため、ウォームアップ状態に感光体ドラム110Dの回転を行う。
ウォームアップ状態では、これら給紙カセット1002、スキャナー1004、定着ローラー114R、中間転写ベルト112N、攪拌スクリュー111S,T、感光体ドラム110Dを同時に駆動するため、動作音の音圧レベルは相当なものとなる。こうした動作音の音圧レベルに基づく閾値を、動作毎に、閾値テーブル205に明記している。
(4-1-3)音声認識モードに対する、動作音の影響
ウォームアップ状態等における動作音が、音声認識にどのように影響するかを説明する。音声認識モードにおいてスマートスピーカー1006の認識部は、ユーザーが発した音声の音声信号に対しスペクトラム変調、フーリエ変換の信号処理を施し、発話を表す特徴量ベクトルを得る。入力される音声のS/N比が高いと、特徴量空間におけるユーザーによる1の音素の発話を表す特徴量ベクトルと、他の音素の発話を表す特徴量ベクトルとのベクトル間距離が大きくなる。この場合、ユーザーによる発話を表す特徴量ベクトルが、どういった音素を表すかが明らかになり、ユーザーが発した音声は正しい音素に変換される。しかし、入力される音声のS/N比が低いと、特徴量空間において、1の音素の発話を表す特徴量ベクトルと、他の音素の発話を表す特徴量ベクトルとの距離が短くなり、ユーザーが発した音声の特徴量ベクトルが、どういった音素を表すかの区別が曖昧になって認識精度が低下する。このようにユーザーが発する音声のS/N比は、音素の変換精度、音声の認識精度を大きく左右するので、ウォームアップ状態への移行やジョブの実行を開始するに先立ち、それらウォームアップ状態への移行、ジョブ実行で生ずる動作音が、ユーザーが発した音声の認識を阻害するかどうかを閾値テーブル205を用いて判定することにしている。
(4-2)画像形成装置1000の動作
ウェークワードキャプチャ部203、音圧レベル算出部204、次動作特定部202、閾値比較部206、維持制御部207が行う一連の処理を、条件分岐やループ等のプログラム的記法を用いて表したのが図5のフローチャートである。また、自然言語処理部105によってなされる会話シーケンスを条件分岐やループ等のプログラム的記法を用いて表したのが図8のフローチャートである。これらのフローチャートを参照して、画像形成装置1000の動作を説明する。
一人のユーザー(ユーザーA)が、図1に示した画像形成装置1000の前面に立ち、スマートスピーカー1006に対しウェークワードの発話を行って、何等かのジョブ(コピー、スキャン、FAX送信)を命じたとする。
ウェークワードキャプチャ部203はスマートスピーカー1006に対してウェークワードが音声入力されたかどうかの入力待ちを行っている(ステップS101)。音声入力がなされると(ステップS101でYes)、ウェークワード発話時の音量を取得して(ステップS102)、ステップS103、ステップS104からなる判定ステップ列に移行する。ステップS103は、待ち行列メモリ102にジョブデータがなく、スリープ状態であるかどうかの判定であり、ステップS104は待ち行列メモリ102が空であったが、ウェークワード入力後に端末1011が要求したジョブデータが割り込んできたかどうかの判定である。画像形成装置1000が実行待ち状態であり、ウェークワードを入力した後に、他のユーザーによるジョブが待ち行列メモリ102に蓄積されていない場合、ステップS103がNo、ステップS104がNoになり、ステップS105に移行する。ステップS105では、スキャナー1004の読み取りにより得られた画像データと、スマートスピーカー1006の音声認識で認識された指示内容とを含むジョブデータを生成して待ち行列メモリ102に蓄積する。その後、ジョブ実行状態に移行し(ステップS106)、待ち行列メモリ102に蓄積されたジョブデータを実行する(ステップS107)。
図6(a)は、ユーザーと、スマートスピーカー1006との間でなされる会話のシーケンスの一例を示す。本図に示すように、会話のシーケンスは、音声認識モードを起動するためのウェークワードの発話V1、「2in1でコピーして」など、具体的な指示内容の発話V2、「2in1でコピーですね。よろしいですか」との認識内容の確認をスマートスピーカー1006がユーザーに求めるレスポンスR1、「スタートして」等の最終的な意思確認のためのユーザーによる発話V3で構成される。
(4-3)画像形成装置1000がスリープ状態である場合
自装置がスリープ状態であると、次状態はウォームアップ状態となる。そうして音声認識モードが起動された後にウォームアップ状態に移行すると、図6(b)の会話シーケンスに示すような発話の繰り返しが発生する。この発話の繰り返しとは、スマートスピーカー1006による「聞き取れません」とのレスポンスR11、R12、R13と、音声によるジョブ内容の再指示V13、V14、V15とを繰り返すものである。ユーザーの発話が充分な音圧レベルをもっていれば、そうした繰り返しは発生しない。しかし近くに人がいる場合、周囲で打合せがなされている場合や休憩中でオフィスが静寂を保っている場合、画像形成装置の前で大きな声を出させるのはユーザーに苦痛を与える。更に、精神状態や病気、障害等により、声を出せないユーザーが存在することも配慮せねばならない。
そこで、スリープ状態において、ウェークワードの発声がなされ、音声認識モードが起動された際、ステップS103がYesになって、ステップS108以降の処理を行う。つまり、次に移行すべき状態として、次状態特定部202がウォームアップ状態を特定する。ウォームアップ状態に対応する閾値を、閾値テーブル205から読み出し、当該閾値を、ウェークワード発話時の音圧レベルと比較して、ウェークワード発話時の音圧レベルは、ウォームアップ状態の閾値以下かどうかを判定する(ステップS108)。
ウェークワードの音圧レベルが閾値以下であれば(ステップS108でYes)、自然言語処理部105の会話シーケンスにより指示内容が確定するまで(ステップS111でNo)、現在の状態を維持する(ステップS112)。
音声認識により指示内容が確定すれば(ステップS111でYes)、認識された指示内容と、画像データとを含むジョブデータを生成して待ち行列メモリ102に蓄積する(ステップS113)。その後、ウォームアップ状態に移行し(ステップS114)、ジョブ実行状態に移行して(ステップS106)、待ち行列メモリ102に蓄積されたジョブデータを実行する(ステップS107)。この場合、ユーザーのシーケンスは図7(a)に示すものとなる。つまり、ウェークワードの発話V1がなされ、音声による指示V2がなされた後にウォームアップ状態への移行W1を開始する。音声による指示V2は、動作音がない良好な音響環境下でなされるから、図6(b)に示したようなスマートスピーカー1006のレスポンス、音声によるジョブ内容の指示の繰り返しが発生しない。
ウェークワード発声時のユーザーの音圧レベルが、閾値テーブル205に記載されたウォームアップ状態の閾値を上回る場合(ステップS108でNo)、ウォームアップ状態に移行し(ステップS109)、その後、スキャナー1004の読み取りにより得られた画像データと、スマートスピーカー1006の音声認識で認識された指示内容とを含むジョブデータを生成して待ち行列メモリ102に蓄積する(ステップS105)。
(4-4)PCプリントの割り込み時
待ち行列メモリ102が空だったが、ウェークワードの入力後、端末1011が要求したジョブデータが割り込んできたケースについて説明する。具体的にいうと、上述した事業所において、ウェークワードが入力された後、ユーザーBにより要求されたジョブデータが割り込んできた場合、図5のステップS103がNo、ステップS104がYesになる。音圧レベル比較部206は、閾値テーブル205から読み出した、次に実行すべきジョブの動作音の閾値と、ウェークワードの音圧レベルとを比較する(ステップS115)。ウェークワードの音圧レベルが閾値以下であれば(ステップS115でYes)、自然言語処理部105の会話シーケンスにより指示内容が確定するまで(ステップS116)、現在の状態を維持する(ステップS117)。音声認識により指示内容が確定すれば(ステップS116でYes)、認識された指示内容と、画像データとを含むジョブデータを生成して待ち行列メモリ102に蓄積する(ステップS105)。ユーザーAがウェークワードV1を発話した後、ユーザーBがPCプリントの実行が要求されたケースの会話シーケンスを図7(b)に示す。この場合、ウェークワードが入力された後に、ユーザーBが要求したジョブのジョブデータが要求され(L1)、ジョブデータが待ち行列メモリ102に格納されたが、ユーザーAの音声によるジョブの指示V2がなされるまで、ユーザーBによるジョブの実行開始は猶予される(L2)。ユーザーAによる音声認識は、静寂な音響環境下でなされるので、ユーザーによる音声入力と、レスポンスとの繰り返しは発生しない。
(4-5)ジョブ実行中に音声認識モードが起動された場合
ウェークワードが発せられる前に待ち行列メモリ102にジョブデータが蓄積され、既にジョブの実行が開始されている場合、図5のステップS103、ステップS104がNoになり、ウェークワードが発せられた際のユーザーの声の音圧レベルと、閾値との比較(ステップS107、S111)は行わない。音声認識モードが起動しているということは、ウェークワードの入力のため、ユーザーが発した声が相応の音圧レベルを有しているということであり、待ち行列メモリ102に蓄積されているジョブを停止することなく、そのまま実行を継続したとしても支障がないと考えられるからである。ユーザーの声が充分な音圧レベルでないとしても、ジョブが既に実行されている場合、ジョブを中止するようなことはせず、画像形成装置1000の作業効率を優先すべきと考えるためである。
(4-6)音声認識により指示内容が特定するまでの過程
図8は、自然言語処理部105、スマートスピーカー1006による会話シーケンスの手順を示すフローチャートである。本フローチャートは、ウェークワードが入力されて音声認識モードが起動された後に実行される。スマートスピーカー1006に対してユーザーによる発声がなされるのを待つ(ステップS120)。ユーザーによる発声がなされると(ステップS120でYes)、ユーザーの音声を音素に変換し(ステップS121)、音素を単語に変換する(ステップS122)。単語を隠れハフマンモデル等の学習モデルに適用して発話文を生成し(ステップS123)、当該発話文のテキスト文字列を自然言語処理部105に引き渡す。自然言語処理部105は、スマートスピーカー1006から受け取った発話文がジョブ設定として意味をなすかどうかを判定する(ステップS124)。受け取った発話文がジョブ設定として意味をなす場合(ステップS124でYes)、自然言語処理部105の解析で明らかになった意味内容を示すテキスト文字列をスマートスピーカー1006に引き渡して、意味内容をスマートスピーカー1006に発声させることでユーザーに対する応答を行う(ステップS127)。この応答に対して肯定的な発声がなされたかどうかを判定し(ステップS128)、肯定的な発声がなされると、本フローチャートを終了する。否定的な発声がなされると、ステップS120にまで戻ってユーザーによる発声を再び待つ。得られた発話文がジョブとして意味をなさない場合(ステップS124でNo)、「もっと大きな声で」又は「もっとマイクに近づいて」とのガイダンスを発して、音声の再入力をユーザーに促し(ステップS125)、ステップS120に戻ってユーザーによる発声を再び待つ。以上の過程を経て、音声による指示内容を特定する。
[5]まとめ
以上のように本実施形態によれば、ウォームアップ状態に移行する際、ジョブを実行する際の動作音が、音声認識のための音響環境を害するかどうかを次状態に移行する前、ジョブの実行を開始する前に判定して、音声認識のための音響環境を害する場合、各駆動装置のウォームアップ状態への移行やジョブの実行を行わせず、音声認識環境を良好なものとする。良好な音響環境を維持してウェークワードに続く音声信号が聞こえるようにするので、画像形成装置1000の動作音を原因とする認識率の低下を回避することができる。
ウォームアップ状態に移行する際、ジョブを実行する際の動作音が、音声認識のための音響環境を害するかどうかの判定は、ユーザーが発したウェークワードの音圧レベルと、閾値テーブルに記載された閾値とに基づきなされるので、音声入力や音声認識のやり直しを発生させない。そのため、画像形成装置1000が配置された事業所の作業効率を低下させることはない。
[6]変形例
以上、本発明を実施の形態に基づいて説明してきたが本発明は上述の実施の形態に限定されないのは勿論であり以下の変形例が考えられる。
(1)上記実施形態において、閾値テーブルにおける閾値は予め記載されているとしたがこれに限られない。画像形成装置1000が逐次、閾値テーブル205に記載された閾値の更新を行うようにしてもよい。
閾値更新のための構成要素を図9に示す。閾値更新のための構成要素としては、録音部211、ストレージ212が追加されている。
録音部211は、駆動装置が動作を開始した際、スマートスピーカー1006のマイクにより駆動装置の駆動による動作音を含む環境音を録音する。そして、録音された音声データを含む録音ファイル(ウォームアップ時録音ファイル212W、コピー時録音ファイル212C、後処理付きコピー時録音ファイル212F、PCプリント時録音ファイル212P)をストレージ212に格納する。
音圧レベル算出部203は、そうして録音された録音ファイルのそれぞれにおいて音圧レベルを算出し、算出された音圧レベルを用いて閾値テーブル205を作成する。画像形成装置1000が設置された場所の周囲環境の騒音を含む形で、ウォームアップ状態で図2に示した各機構部が動作する際の動作音や、コピー時の動作音が録音されるので、閾値テーブル205に記載される音圧レベルは画像形成装置1000の実際の使用環境で生ずるものに近くなる。
また、一定期間が経過する度に、録音部211による録音、及び、音圧レベル算出部204による音圧レベルの算出を実行し、閾値テーブル205を更新してもよい。画像形成装置1000や後処理装置1005が劣化することによる動作音の増大を、閾値テーブルに反映して高精度な判定を行うことができる。
(2)上記実施形態ではウォームアップ状態への移行や別ユーザーが要求したジョブの実行開始を猶予したが、そのようにウォームアップ状態への移行やジョブ実行開始を猶予したとしても、音声認識を正しく行うことができないことがある。このような場合、音声入力から、タッチパネルディスプレイ1001の操作に切り替えるよう案内を発するよう、自然言語処理部105に報知に行わせてもよい。図10は、タッチパネルディスプレイ1001への切り替えを促す場合の会話シーケンスを示す。このシーケンスでは、音声の指示V2を発したものの、ジョブ内容を認識し得ない場合、タッチパネルディスプレイ1001への切り替えを促すレスポンスR21をユーザーに返す。これに応じて、タッチパネルディスプレイ1001を用いた操作P1、P2を行うことで、ユーザーによる音声入力の繰り返しが生じない。
(3)上記実施形態では、合成音圧レベルを予め閾値テーブル205に記載するとしたがこれに限られない。各機構部が発する音圧レベルを閾値テーブル205に記載しておいてもよい。そして次になすべき動作を次状態特定部202が決定する度に、式3の計算を実行することで合成音圧レベルを算出して、当該合成音圧レベルと、音圧レベル算出部204が算出した音圧レベルとの比較を閾値比較部206に行わせてもよい。
(4)スマートスピーカー1006における音声認識技術は日々進化しており、隠れハフマンモデル、伝播ニューラルネットワーク、ビタビアルゴリズム、ディープラーニング等の採用で、音声認識の耐ノイズ性は日々向上している。劣悪な音響環境の音声入力がなされ、一部、全部の音素、単語が不鮮明であったとしても、前後の文脈から、それらしき文章を推測することができるからである。こうした、スマートスピーカー1006による音声認識の耐ノイズ性を示す係数を、各動作時の合成音圧レベルに乗じた値を閾値として閾値テーブル205に記載して、ウェークワードの音圧レベルと比較してもよい。
本開示にかかる画像形成装置1000は、スマートスピーカー1006による音声認識で、コピー、PCプリント、スキャン、FAX等、様々なジョブを画像形成装置1000に実行させることができ、OA機器、情報機器の産業分野を始め、小売業、賃貸業、不動産業、広告業、運輸業、出版業等、様々な業種の産業分野で利用される可能性がある。
201 状態制御部
202 次状態特定部
203 ウェークワードキャプチャ部
204 音圧レベル算出部
204M 音声波形メモリ
205 閾値テーブル
206 閾値比較部
207 維持制御部
1000 画像形成装置
1001 タッチパネルディスプレイ
1003 排出トレイ
1006 スマートスピーカー
1011 端末

Claims (7)

  1. ユーザーによる発話に応じて、音声認識モードを起動し、音声による画像形成に関する指示を受け付ける画像形成装置であって、
    音声認識モードが起動された後、次に移行すべき状態を現在の状態に基づき特定する特定手段と、
    次の状態に移行する前に、その状態において生じる動作音が前記音声認識モードでの音声認識を遮るかどうかを、前記音声認識モードの起動時にユーザーが発した声の音圧レベルに基づき判定する判定手段と、
    遮ると判定された場合、画像形成に関する指示の内容が、音声認識により確定するまでの間、前記現在の状態を維持し、指示内容が確定すると前記次の状態に移行する制御手段と、
    を備えることを特徴とする画像形成装置。
  2. 前記特定手段は、現状態がスリープ状態である場合、次に移行すべき状態としてウォームアップ状態を特定し、
    前記判定手段による音声認識を遮るかどうかの判定は、ウォームアップ状態で生ずる動作音の音圧レベルと、音声認識モードの起動時におけるユーザーの発話の音圧レベルとを比較することでなされる
    ことを特徴とする請求項1に記載の画像形成装置。
  3. 前記特定手段は、現状態が画像形成ジョブの実行待ち状態である場合、次に移行すべき状態として当該実行待ちジョブを実行する実行状態を特定し、
    前記動作音が、前記判定手段による音声認識を遮るかどうかの判定は、実行待ちジョブを行う際の動作音の音圧レベルと、音声認識モードの起動時におけるユーザーの発話の音圧レベルとを比較することでなされる
    ことを特徴とする請求項1に記載の画像形成装置。
  4. 音圧レベルの複数の閾値を示す閾値テーブルを備え、
    前記閾値テーブルにおける各閾値は、自装置が内蔵している複数の機構部、及び/又は、自装置と接続された後処理装置内の複数の機構部の何れかを単独で又は同時に駆動することにより生ずる動作音の音圧レベルを示し、
    前記判定手段による音声認識を遮るかどうかの判定は、閾値テーブルに記載された複数の閾値のうち、特定手段が特定した次に移行すべき状態に対応するものと、ユーザーが発した音声の音圧レベルとを比較することでなされる
    ことを特徴とする請求項1に記載の画像形成装置。
  5. 自装置が内蔵している複数の機構部、及び、自装置と接続された複数の機構部の何れかを単独で又は同時に駆動することにより生ずる動作音を録音する録音手段を備え、
    前記閾値テーブルに示される閾値は、録音手段により録音された動作音の音圧レベルに基づき定められる
    ことを特徴とする請求項4に記載の画像形成装置。
  6. 自装置が内蔵している機構部には、感光体を露光して静電潜像を得る露光器、感光体に得られた静電潜像を現像する現像器、シートを搬送する搬送部、現像で得られた像をシートに転写する転写部、シートに転写された像を定着する定着器、原稿を読み取る原稿読取部の少なくとも2つがある
    請求項4又は5に記載の画像形成装置。
  7. 前記特定手段が特定した次の状態への移行を開始することなく、ユーザーからの音声入力を受け付け、音声認識を試みたが、発話内容を認識できない場合、操作パネルを用いることが適切である旨をユーザーに報知する報知手段を更に備える
    ことを特徴とする請求項1~6の何れかに記載の画像形成装置。
JP2020034980A 2020-03-02 2020-03-02 画像形成装置 Active JP7409155B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020034980A JP7409155B2 (ja) 2020-03-02 2020-03-02 画像形成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020034980A JP7409155B2 (ja) 2020-03-02 2020-03-02 画像形成装置

Publications (2)

Publication Number Publication Date
JP2021141362A JP2021141362A (ja) 2021-09-16
JP7409155B2 true JP7409155B2 (ja) 2024-01-09

Family

ID=77669104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020034980A Active JP7409155B2 (ja) 2020-03-02 2020-03-02 画像形成装置

Country Status (1)

Country Link
JP (1) JP7409155B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010068026A (ja) 2008-09-08 2010-03-25 Konica Minolta Business Technologies Inc 画像形成装置、画像形成方法、画像形成プログラム
JP2018169442A (ja) 2017-03-29 2018-11-01 京セラドキュメントソリューションズ株式会社 音声入力システム、音声入力装置および音声入力プログラム
JP2021124780A (ja) 2020-01-31 2021-08-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010068026A (ja) 2008-09-08 2010-03-25 Konica Minolta Business Technologies Inc 画像形成装置、画像形成方法、画像形成プログラム
JP2018169442A (ja) 2017-03-29 2018-11-01 京セラドキュメントソリューションズ株式会社 音声入力システム、音声入力装置および音声入力プログラム
JP2021124780A (ja) 2020-01-31 2021-08-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JP2021141362A (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
US20100110489A1 (en) Image forming apparatus, method of controlling the same based on speech recognition, and computer program product
US11140284B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
US10868929B2 (en) Information processing apparatus, information processing system, and information processing method
JP2006321190A (ja) 画像形成装置及びその言語設定方法
JP7409155B2 (ja) 画像形成装置
US20200366800A1 (en) Apparatus
JP2009065562A (ja) 音出力装置およびこれを含む画像形成装置
JP7397633B2 (ja) 音声制御システム、音声制御方法、画像処理装置及びプログラム
JP2021086510A (ja) 電子機器
US10606531B2 (en) Image processing device, and operation control method thereof
JP2016176706A (ja) プログラム、情報処理装置および画像処理装置
JP6825435B2 (ja) 情報処理装置、制御方法及びプログラム
JP2006184722A (ja) 自己診断機能を備えた画像形成装置
JP2001175278A (ja) 表示手段を有する制御装置
CN111711728B (zh) 图像形成装置、图像形成装置的控制方法及控制程序
JP2011193139A (ja) 画像形成装置
US20200152201A1 (en) System, image forming apparatus, method, and program
JP2007243347A (ja) 故障診断システム、画像形成装置及び故障診断方法
US10992829B2 (en) Image forming apparatus performing processing for resolving user's complaint against to printed result
US11368593B2 (en) Image forming system allowing voice operation, control method therefor, and storage medium storing control program therefor
JP2007300223A (ja) 画像処理装置、画像処理装置の制御方法、画像処理装置の制御プログラム、およびコンピュータ読み取り可能な記録媒体
JP7115259B2 (ja) 画像形成装置及びプログラム
JP2004077601A (ja) 音声入力機能を有する稼働装置
US11700338B2 (en) Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor
US20220328036A1 (en) Information processing apparatus, information processing method, and non-transitory computer-readable recording medium storing information processing program for selecting set value used to execute function

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231204

R150 Certificate of patent or registration of utility model

Ref document number: 7409155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150