JP7193312B2 - 情報処理装置、制御方法及びプログラム - Google Patents

情報処理装置、制御方法及びプログラム Download PDF

Info

Publication number
JP7193312B2
JP7193312B2 JP2018213191A JP2018213191A JP7193312B2 JP 7193312 B2 JP7193312 B2 JP 7193312B2 JP 2018213191 A JP2018213191 A JP 2018213191A JP 2018213191 A JP2018213191 A JP 2018213191A JP 7193312 B2 JP7193312 B2 JP 7193312B2
Authority
JP
Japan
Prior art keywords
voice
unit
input
voice input
display unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018213191A
Other languages
English (en)
Other versions
JP2020080062A (ja
Inventor
允 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018213191A priority Critical patent/JP7193312B2/ja
Priority to US16/678,874 priority patent/US11082570B2/en
Priority to CN201911085198.7A priority patent/CN111179922B/zh
Publication of JP2020080062A publication Critical patent/JP2020080062A/ja
Application granted granted Critical
Publication of JP7193312B2 publication Critical patent/JP7193312B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00403Voice input means, e.g. voice commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1244Job translation or job parsing, e.g. page banding
    • G06F3/1248Job translation or job parsing, e.g. page banding by printer language recognition, e.g. PDL, PCL, PDF
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1278Dedicated interfaces to print systems specifically adapted to adopt a particular infrastructure
    • G06F3/1285Remote printer device, e.g. being remote from client or server
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00395Arrangements for reducing operator input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/0049Output means providing a visual indication to the user, e.g. using a lamp
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Facsimiles In General (AREA)

Description

本発明は、情報処理装置等に関する。
近年、音声認識技術の向上により、利用者による音声に基づいて、種々の処理を実行することができる装置が普及している。このような装置においては、利用者は、表示部を見ながら操作パネル等を介して行う操作に加え、音声による操作を行うことができる。利用者は、シンプルな指示を音声による操作により行い、詳細な指示が必要な場合は、操作パネルによる操作によって行うといった使い分けができる。
また、表示部を有する装置において、操作の内容に応じて、表示部の証明を消灯する技術が提案されている。例えば、無線通信端末の稼動中に着信又は利用者による操作が検出されると、端末の表示部、操作部がともに照明される。その後、所定時間が経過した時点で動作中の通信モードが動画像通信か音声通話かが判定される。動画像通信である場合、操作部の照明は不要であるためその時点で消灯され、後に通信が完了した時点で表示部の照明も消灯される。一方、動作中の通信モードが音声通話である場合、表示部、操作部ともに照明は不要であるため、その時点で消灯されるといった制御を行う無線通信端末に関する技術が提案されている(例えば、特許文献1参照)。
特開2002-94656号公報
音声による操作と、操作パネルによる操作とが存在する装置の利用者は、どちらの操作によって装置に対する指示が可能であるかを判別しづらいという問題がある。このような問題に対して、例えば、音声に基づく操作が可能である場合は、表示部を消灯させることで、音声に基づく操作を促すことが考えられる。しかし、特許文献1に記載の技術は、利用者の操作によって表示部や操作部を消灯させる技術であり、利用者に対して、どちらの操作が可能であるかを判別させることができない。
上述した課題に鑑み、本発明は、音声による操作が実行された場合に、表示部の視認性を低下させる制御が可能な情報処理装置等を提供することを目的とする。
上述した課題を解決するために、本発明の情報処理装置は、
音声入力部と、表示部と、制御部とを備えた情報処理装置において、
前記制御部は、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実行し、
前記音声操作モードの実行が開始された場合、前記表示部の視認性を低下させる制御を行う、
ことを特徴とする。
本発明の情報処理装置は、
会話サーバに接続可能な情報処理装置において、
前記情報処理装置は、音声入出力部と、表示部と、制御部とを備え、
前記制御部は、
前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合は、前記表示部の視認性を低下させる制御を行う、
ことを特徴とする。
本発明の制御方法は、
音声入力部と、表示部と、制御部とを備えた情報処理装置における制御方法であって、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実行するステップと、
前記音声操作モードの実行が開始された場合、前記表示部の視認性を低下させる制御を行うステップと、
を含むことを特徴とする。
本発明の制御方法は、
音声入出力部と、表示部と、制御部とを備え、会話サーバに接続可能な情報処理装置における制御方法であって、
前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合は、前記表示部の視認性を低下させる制御を行うステップを含むことを特徴とする。
本発明のプログラムは、
音声入力部と、表示部と、制御部とを備えたコンピュータに、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実現させ、
前記音声操作モードの実行が開始された場合、前記表示部の視認性を低下させる制御を実現させることを特徴とする。
本発明のプログラムは、
音声入出力部と、表示部と、制御部とを備え、会話サーバに接続可能なコンピュータに、前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合は、前記表示部の視認性を低下させる制御を実現させることを特徴とする。
本発明によれば、音声による操作が実行された場合に、表示部の視認性を低下させる制御を行う。したがって、情報処理装置の利用者は、表示部を見ながら操作を行うのではなく、音声に基づく操作を行うことを、明確に判別することができる。また、表示部の視認性が低下するため、利用者は、表示部の存在を気にとめることなく、音声による操作に集中することができる。
第1実施形態における情報処理システムの全体構成を説明するための図である。 第1実施形態における画像形成装置の機能構成を説明するための図である。 第1実施形態におけるサーバ装置の機能構成を説明するための図である。 第1実施形態におけるシーケンス図である。 第1実施形態におけるシーケンス図である。 第1実施形態における音声操作モード移行処理の流れを示すフロー図である。 第1実施形態における画面操作モード移行処理の流れを示すフロー図である。 第1実施形態における動作例を示す図である。 第1実施形態における動作例を示す図である。 第2実施形態におけるシーケンス図である。 第3実施形態におけるシーケンス図である。 第3実施形態におけるシーケンス図である。 第3実施形態におけるシーケンス図である。 第4実施形態における画像形成装置の機能構成を説明するための図である。 第4実施形態における画像形成装置のメイン処理を説明するためのフロー図である。
以下、本発明の実施の形態について、図面を参照して説明する。なお、本実施形態では、一例として、本発明の情報処理装置を備えた画像形成装置と、サーバ装置とを含む情報処理システムについて説明する。
[1.第1実施形態]
[1.1 全体構成]
まず、第1実施形態の全体構成について説明する。図1は、画像形成装置10と、サーバ装置20とによって構成される情報処理システム1を示した図である。画像形成装置10と、サーバ装置20とは、ネットワークNWを介して接続されている。ネットワークNWとしては、例えば、インターネット等の外部ネットワークが想定されるが、LAN(Local Area Network)や、その他の公知の接続方法によるネットワークであってもよい。
画像形成装置10は、表示部と操作入力部とを備えている。画像形成装置10の利用者は、表示部(画面)を確認しながら、操作入力部を介して、所望する処理に関する入力操作を行う。このように、利用者が画面を確認しながら操作を行うモードを、「画面操作モード」という。
また、画像形成装置10は、音声出力部と音声入力部とを備えている。画像形成装置10の利用者は、音声出力部から出力された音声を聞いた上で、所望する処理に関する音声を、音声入力部を介して入力することで音声操作を行う。このように、利用者が音声によって操作を行うモードを「音声操作モード」という。
画像形成装置10は、利用者からの操作を受け付けるモード(動作モード)として、上述した画面操作モードと、音声操作モードとを切り替えることが可能である。そして、画像形成装置10は、動作モードによって、利用者から受け付ける操作を変える。
画像形成装置10は、音声操作モードにより動作している場合において入力された音声を、音声データとしてサーバ装置20に送信する。サーバ装置20は、受信した音声データを解析し、画像形成装置10が解釈可能なコマンドを生成する。コマンドは、例えば、音声データとして「スキャンをする」と受信した場合、「scan」のコマンドを生成する。なお、コマンドは特定の機能を示す文字列や数字などのコードであってもよいし、バイナリデータであってもよい。すなわち、コマンドは、画像形成装置10に所定の処理の実行が指示可能な形式であれば、どのような形式であってもよい。
また、画像形成装置10は、サーバ装置20が生成したコマンドによって、処理の実行が指示できない場合は、必要な情報に関する発言を利用者に促す音声を出力してもよい。例えば、原稿のスキャンデータを、画像形成装置10に登録されている送信先であるABCに送信するジョブを実行する場合は、スキャンを実行することと、ABCという送信先との2つの情報が必要となる。ここで、サーバ装置20は、画像形成装置10から、「スキャンをする」という音声データを受信した場合、画像形成装置10にスキャンを実行することを示すコマンドを生成する。画像形成装置10は、スキャンを実行することを示すコマンドをサーバ装置20から受信したら、音声出力部160から、送信先を問い合わせる音声(例えば、「どちらに送りますか?」)を出力する。
ここで、サーバ装置20は、画像形成装置10から「ABCに送る」という音声データを受信した場合、画像形成装置10に、ABCに送ることを示すコマンド(例えば、「send to "ABC"」)を生成する。画像形成装置10は、ABCに送ることを示すコマンドを受信したら、既に受信したコマンドである「scan」と併せて、原稿のスキャンデータを、画像形成装置10に登録されている送信先であるABCに送信するジョブを実行する。
このようにして、画像形成装置10は、所定の処理の実行が指示できるまで利用者に対して音声の入力を促し、サーバ装置20は、コマンドの生成を繰り返すことで、実行するジョブを明確にすることができる。また、利用者としては、ジョブが実行されるまで、画像形成装置10から出力される音声を聞きながら、必要な情報を音声によって、画像形成装置10に入力することとなる。本実施形態では、サーバ装置20を用いて、利用者と、画像形成装置10との間において行われる音声によるやりとりを「対話」という。
画像形成装置10は、サーバ装置20によって生成されたコマンドを取得することにより、利用者の音声に基づき、所定の処理を実行することが可能である。このように、画像形成装置10は、サーバ装置20と連携することにより、音声操作モードによる操作を実現する。
[1.2 機能構成]
[1.2.1 画像形成装置]
画像形成装置10の機能構成について、図2を参照して説明する。図2に示すように、画像形成装置10は、制御部100と、画像入力部110と、画像形成部120と、表示部130と、操作入力部140と、音声入力部150と、音声出力部160と、発光部170と、記憶部180と、通信部190とを備えて構成されている。
制御部100は、画像形成装置10の全体を制御するための機能部である。制御部100は、各種プログラムを読み出して実行することにより各種機能を実現しており、例えば、1又は複数の演算装置(CPU(Central Processing Unit))等により構成されている。
画像入力部110は、画像形成装置10に入力される画像データを読み取るための機能部である。例えば、スキャナといった原稿読取装置接続され、原稿読取装置から出力される画像データを入力する。また、USB(Universal Serial Bus)メモリや、SDカード等の記憶媒体から画像データを入力してもよい。
画像形成部120は、画像データに基づく出力データを記録媒体(例えば、記録用紙)に形成するための機能部である。例えば、電子写真方式を利用したレーザプリンタ等により構成されている。
表示部130は、利用者に各種情報を表示するための機能部である。例えば、LCD(Liquid crystal display)等により構成されている。また、操作入力部140は、利用者が各種操作を行うための機能部である。例えば、表示部130の上に重ねて設けられるタッチパネルによって構成される。タッチパネルによるタッチの検出は、静電誘電方式であったり、感圧方式であったり、公知の技術によって実現する。なお、操作入力部140は、ハードキーによって実現してもよいし、タッチパネルとハードキーとを組み合わせてもよい。
音声入力部150は、音声入力装置(例えば、マイク)から入力された音声を音声データに変換して制御部100へ出力する機能部である。音声入力部150としては、画像形成装置10に予め備えられたマイクであってもよいし、入力インターフェイスに接続された外部マイクであってもよい。
音声出力部160は、音声データに基づく音声を出力する機能部である。音声出力部160としては、画像形成装置10に予め備えられたスピーカーであってもよいし、外部装置に音声を出力させるための音声出力端子であってもよい。
発光部170は、光源を制御して、光源の発光を行ったり、光源の発光を止めたりする機能部である。発光部170を構成する光源としては、例えば、蛍光管、LED(Light Emitting Diode)、SLD(Super Luminescent Diode)等種々考えられるが、本実施形態ではLEDを利用する。なお、発光部170は、表示部130とは異なる第2の表示部として、LCDによって構成されてもよい。発光部170によって制御される光源は、表示部130近傍に設けられてもよい。このようにすることで、画像形成装置10の利用者は、表示部130と、発光部170によって制御される光源とを同時に視認することが可能となる。また、光源の近傍に音声入力部150を備えてもよい。このようにすることで、光源に向けて発せられた利用者の音声を、入力しやすくできる。
なお、発光部170は光源と一体に構成されていてもよい。本実施形態では、発光部170は、光源を含むものとして説明する。したがって、利用者に発光部170を視認させるといった場合は、発光部170によって発光又は消灯された光源を視認させることを示す。
記憶部180は、画像形成装置10の動作に必要な各種プログラムや、各種データを記憶する機能部である。記憶部180は、例えば、半導体メモリであるSSD(Solid State Drive)や、HDD(Hard Disk Drive)等により構成される。
記憶部180には、音声入力部150から入力された音声を、音声データとして記憶する領域である音声データ記憶領域182が確保されている。
通信部190は、画像形成装置10が外部機器と通信を行うための機能部である。例えば、無線LANで利用されるNIC(Network Interface Card)や、LTE(Long Term Evolution)/LTE-A(LTE-Advanced)/LAA(License-Assisted Access using LTE)/5G回線に接続可能な通信モジュールにより構成される。
[1.2.2 サーバ装置]
サーバ装置20の機能構成について、図3を参照して説明する。図3に示すように、サーバ装置20は、制御部200と、通信部210と、記憶部220とを備えて構成されている。
制御部200は、サーバ装置20の全体を制御するための機能部である。制御部200は、各種プログラムを読み出して実行することにより各種機能を実現しており、例えば、1又は複数の演算装置(CPU)等により構成されている。
また、制御部200は、記憶部220に記憶されたプログラムを読み出して実行することにより、音声解析部202及びコマンド生成部204として機能する。音声解析部202及びコマンド生成部204については後述する。
通信部210は、サーバ装置20が外部機器と通信を行うための機能部である。例えば、無線LANで利用されるNICや、LTE/LTE-A/LAA/5G回線に接続可能な通信モジュールにより構成される。
記憶部220は、サーバ装置20の動作に必要な各種プログラムや、各種データを記憶する機能部である。記憶部220は、例えば、半導体メモリであるSSDや、HDD等により構成される。
記憶部220には、通信部210を介して受信した音声データを記憶する領域である音声データ記憶領域222と、コマンド生成部204によって生成されたコマンドを記憶する領域である生成コマンド記憶領域224とが確保されている。生成コマンド記憶領域224は、例えば、コマンド生成部204によって生成された順に、生成されたコマンドを記憶するリストである。なお、生成コマンド記憶領域224は、コマンド生成部204によって生成されたコマンドをリスト形式で記憶したファイルを記憶して実現してもよいし、データベースによって実現してもよい。また、最後に生成コマンド記憶領域224が生成したコマンドのみを記憶してもよい。
また、サーバ装置20が、複数の画像形成装置10から音声データを受信する場合は、コマンドと併せて、音声データを送信したサーバ装置20を特定するための情報(例えば、IPアドレスやシリアル番号等)を記憶してもよい。このようにすることで、コマンド生成部204によって生成されたコマンドを、画像形成装置10毎に記憶することが可能となる。
音声解析部202は、音声データ記憶領域222に記憶された音声データを読み出し、音声データを解析(認識)することで、音声データの解析結果を示す音声解析データを生成する機能部である。音声解析データは、例えば、音声データに基づく文字列、すなわち、利用者の発話内容を示した文字列である。なお、音声解析データには、発話内容以外にも、発話時間や、息継ぎ等の無音状態が発生したタイミング、音量等の情報を含めてもよい。また、音声データを解析する方法としては、周知の音声認識技術を用いればよい。
コマンド生成部204は、音声解析部202によって生成された音声解析データに基づき、画像形成装置10にするコマンドを生成する機能部である。また、コマンド生成部204は、生成したコマンドを、生成コマンド記憶領域224に記憶する。
コマンド生成部204がコマンドを生成する方法としては、例えば、利用者の発話内容に含まれるキーワードに基づいて生成する。具体的には、コマンド生成部204は、音声解析部202によって生成された音声解析データに含まれる発話内容から、画像形成装置10が実行可能なジョブを示すキーワード(例えば、「スキャン」「コピー」等)が含まれているか否かを判定する。キーワードが含まれていた場合は、キーワードを抽出し、キーワードに対応するコマンドを生成する。キーワードや、キーワードに対応するコマンドについては、予め記憶部220に記憶されていてもよいし、サーバ装置20の管理者等によって設定されてもよい。
別の方法としては、コマンド生成部204は、予め発話内容のパターンを記憶して、パターンと発話内容とから、発話内容に含まれる情報を抽出して、対応するコマンドを生成してもよい。例えば、コマンド生成部204は、発話内容から画像形成装置10が実行すべきジョブを抽出するためのパターンとして「<ジョブ内容>をして」というパターンを記憶する。発話内容が「スキャンをして」であれば、ジョブを抽出するためのパターンと比較することで、パターンの<ジョブ内容>には、発話内容のうち「スキャン」が対応することを判定することができる。したがって、コマンド生成部204は、「スキャンをして」という発話内容から、画像形成装置10が実行すべきジョブとして、「スキャン」を抽出することが可能である。そして、コマンド生成部204は、スキャンを実行するためのコマンドを生成する。
また、コマンドには、ジョブの設定に関する情報が含まれていてもよい。ジョブの設定に関する情報としては、原稿のカラーモード(グレースケール読み込みか、カラー読み込み)、原稿の解像度、出力(印刷)部数、スキャンデータの送信先といった情報が含まれてもよい。
更に、コマンドには、ジョブ以外の情報が含まれていてもよい。ジョブ以外の情報としては、音声操作モードを終了するためのコマンドや、音声データの解析に失敗したことを示すコマンドや、コマンドの生成に失敗したことを示すコマンドが含まれる。画像形成装置10は、音声操作モードを終了するためのコマンドを受信した場合は、音声操作モードを終了する。また、画像形成装置10は、音声データの解析に失敗したことを示すコマンドや、コマンドの生成に失敗したことを示すコマンドを受信した場合は、例えば、音声出力部160から「もう一度お願いします」といった音声を出力する。このようにすることで、利用者に対して、再度の発言を促すことができる。
[1.3 処理の流れ]
つづいて、本実施形態の処理の流れについて説明する。図4及び図5は、画像形成装置10とサーバ装置20とによって実行される処理と、画像形成装置10とサーバ装置20との間で送受信されるデータを示したシーケンス図である。
はじめに、図4を参照して、画像形成装置10の制御部100は、音声入力部150を介して入力された音声に基づく音声データを、音声データ記憶領域182に記憶する(S102)。そして、制御部100は、音声データ記憶領域182に記憶された音声データを、通信部190を介して、サーバ装置20に送信する(S104)。制御部100は、サーバ装置20によって生成されたコマンドを取得するために、定期的にサーバ装置20に接続して、コマンドの送信を要求するためのポーリングを行う(S106)。
つづいて、サーバ装置20の制御部200は、画像形成装置10から音声データを受信したら、受信した音声データを音声データ記憶領域222に記憶する。そして、制御部200は、対話セッションが開始していないか否かを判定し、対話セッションが開始していない場合は、対話セッションを開始する(S108;Yes→S110)。
対話セッションとは、サーバ装置20が、対話を管理する単位である。対話セッションにおいて、制御部200は、ジョブに関する情報(例えば、ジョブの種類やジョブの設定に関する情報)の抽出を行い、コマンドの生成を行う。対話セッションにおいてサーバ装置20が実行する処理については、具体的には、サーバ装置20に記憶された対話を管理するためのアプリケーションによって実現される。
つづいて、制御部200の音声解析部202は、画像形成装置10から受信した音声データを解析し、音声解析データを生成することにより、音声データを解析する(S112)。そして、制御部200のコマンド生成部204は、音声解析データに基づきコマンドを生成する(S114)。また、コマンド生成部204は、生成したコマンドを、生成コマンド記憶領域224に記憶する。
制御部100は、コマンドのポーリングにより、サーバ装置20によって生成されたコマンドの送信を要求し、サーバ装置20からコマンドを取得(受信)する(S116)。なお、サーバ装置20の制御部200は、画像形成装置10からのコマンドの送信の要求を受信した場合は、生成コマンド記憶領域224に記憶されているコマンドを送信すればよい。
制御部100は、サーバ装置20からコマンドを受信した場合は、現在の動作モードが画面操作モードであるか否かを判定する(S118)。現在の動作モードが画面操作モードである場合は、制御部100は、音声操作モードに切り替えるため、音声操作モード移行処理を実行する(S118;Yes→S120)。
音声操作モード移行処理について、図6を参照して説明する。まず、制御部100は、画像形成装置10の動作モードを、音声操作モードに変更する(切り替える)ことにより、音声操作モードを開始する(S152)。そして、制御部100は、表示部130の視認性を低下させる処理を実行する(S154)。
表示部130の視認性を低下させる処理として、例えば、以下の処理を行う。
(1)表示部130のバックライトを暗くする
表示部130が、LCDのようにバックライトを必要とする表示装置である場合は、バックライトを暗くしたり、バックライトを消灯したりする。
(2)表示部130の表示部の輝度を上げる
表示部130の輝度を上げることにより、表示部130の画面全体を白くすることで、いわゆるホワイトアウトの状態にする。表示部130に表示された内容を、背景色と紛れさせることで、表示部130の表示内容を利用者にとって見づらくする。
(3)表示部130のコントラストを低下・変更する
表示部130のコントラストの設定を低下したり、変更したりすることで、表示部130に表示されている内容を、利用者にとって見づらくする。例えば、表示部130のコントラストが、コントラストレベルといった数値によって指定することが可能であれば、制御部100は、コントラストレベルとして、指定可能な最低の数値を指定する。なお、制御部100は、コントラストレベルとして所定の値を指定してもよいし、音声操作モード用のコントラストレベルを指定してもよい。
また、視認性を低下させるのではなく、画面操作モードでないことを示すような画面を表示部130に表示することで、音声操作モードに切り替わっていることを利用者に視認させてもよい。
(4)表示部130に別画面を表示する
表示部130の表示内容を別画面にする。例えば、タッチ操作が可能なボタンを表示せず、その代わりにジョブの設定に関する情報や、所定のメッセージ(例えば、「画面操作モードに切り替える場合は、画面をタッチして下さい。」)、画像形成装置10のステータス等を含んだ画面を表示する。このようにすることで、利用者に対して、表示部130をタッチしても所定の操作が実行できないことを視認させることができる。
(5)表示部130の表示内容に別の画像を重畳する
表示部130の表示内容に、網掛けの画像を重畳させたり、表示画面全体に透明度の低い色を重畳させたり、ジョブの設定に関する情報を重畳させたりすることで、表示部130の表示内容を利用者にとって見づらくする。例えば、表示部130にはタッチ操作が可能なボタンが表示されていた場合において、別の画像が重畳して表示することで、利用者に、別の画像が重畳して表示されているときは、ボタンがタッチ操作できないことを視認させる。
なお、上述した方法以外であっても、表示部130に表示されている内容を利用者にとって見づらくすることで、表示部130の視認性を下げられれば、どのような方法によって実現されてもよい。また、制御部100は、音声入力部150に入力された音声(利用者からの指示)に基づいて、表示部130の視認性を低下させてもよい。
つづいて、制御部100は、発光部170を介して、光源の点灯(発光)を実行する(S156)。発光部170の光源がLEDであれば、制御部100は、発光部170を制御して、光源の点灯を行う。このとき、発光部170は、光源の点灯の制御として、音声入力部150に入力された音声や操作に基づいて明減させてもよいし、音声出力部160が出力する音声に基づいて明減させてもよい。そして、音声操作モード移行処理を終了する。
図4に戻り、つづいて、制御部100は、サーバ装置20から取得したコマンドに基づき、実行するジョブを特定する(S122)。そして、コマンドに基づき特定されたジョブが実行可能であれば、ジョブを実行する(S124;Yes→S128)。
ジョブが実行可能でない場合は、利用者に対して、再度音声の入力を促すための音声を出力し(S124;No→S126)、ステップS102へ戻る。
ジョブが実行可能でない場合とは、例えば、以下の場合である。
(1)ジョブを実行するために必要な情報が足りていない場合
必要な情報が足りていないために、ジョブが実行できない場合である。この場合は、制御部100は、利用者に対して、更に必要な情報を音声により入力されるような音声を出力する。例えば、スキャンを実行する場合に、スキャンデータの宛先の情報が足りていない場合は、制御部100は、ステップS126において、「どちらに送りますか?」といった音声を出力する。
(2)応答が適切でない場合
制御部100が、足りていない情報を補うための音声を出力したのにも関わらず、対話が適切でなかったために、情報が足りていない状態が続く場合である。この状態は、制御部100が、サーバ装置20から取得されたコマンドが、それよりも前に取得したコマンドと一致すると判定することにより、検出することが可能である。コマンドが一致する場合は、新たな情報が付加されていないことを示し、依然として、ジョブを実行するために必要な情報が足りていない。この場合は、制御部100は、ステップS126において、「もう一度言っていただけますか?」といった音声を出力し、利用者に対して、再度の応答を促す。
(3)音声が認識できなかった場合
サーバ装置20から、音声が認識できなかったことを示すコマンド取得した場合である。このような場合も、ジョブを実行するために必要な情報が足りておらず、画像形成装置10は、ジョブを実行することができない。この場合は、制御部100は、ステップS126において、「もう一度言っていただけますか?」といった音声を出力する。
図5を参照して、制御部100が、コマンドに基づくジョブを実行した場合は、つづいて、制御部100はコマンドのポーリングを実行する(S132)。そして、制御部100は、サーバ装置20に対して、通信部190を介して、音声操作モードを終了することを示す音声操作終了通知を送信する(S134)。音声操作終了通知とは、画像形成装置10と、サーバ装置20との間の対話を終了し、画像形成装置10における音声操作モードを終了することをサーバ装置20へ知らせるために、画像形成装置10がサーバ装置20に対して送信する通知である。音声操作終了通知には、音声操作モードを終了することを示す特定のデータや、特定のコマンドを含めてもよい。
制御部200は、画像形成装置10から音声操作終了通知を受信した場合、対話セッションを終了する(S136)。例えば、制御部200は、対話セッションにおいて記憶した音声データや、音声データから抽出した情報を削除したり、生成コマンド記憶領域224に記憶されたコマンドを削除したりする。そして、制御部200は、対話を終了するコマンドを生成する(S138)。
制御部100は、コマンドのポーリングにより、サーバ装置20によって生成された対話を終了するコマンドを取得する(S140)。そして、制御部100は、画面操作モード移行処理を実行する(S142)。
画面操作モード移行処理について、図7を参照して説明する。まず、制御部100は、画像形成装置10の動作モードを、画面操作モードに変更する(切り替える)ことにより、画面操作モードを開始する(S172)。そして、制御部100は、ステップS154において実行した処理に対応して、表示部130の視認性を回復させる(視認性を戻す)処理を実行する(S174)。例えば、コントラストを低下させていた場合は、コントラストを増加させる。その他にも、バックライトを暗くしていた場合はバックライトを明るくしたり、輝度を上げていた場合は輝度を元に戻したり、画像を重畳させていた場合は重畳していた画像を削除するといった処理を実行する。また、制御部100は、発光部170を介して、光源を消灯する(S176)。
つづいて、制御部100は、表示部130に表示する画面を、初期画面に戻したりすることにより、利用者による操作入力部140による操作が可能なように、画像形成装置10を待機状態にする(S178)。そして、音声操作モード移行処理を終了する。
[1.4 動作例]
図8及び図9を参照して、本実施形態の動作例について説明する。図8(a)は、画像形成装置10の動作モードが画面操作モードであるときに、利用者によって、画像形成装置10に対して音声が入力された場合を示した図である。音声が入力された時点では、表示部130には、画像形成装置10に関する情報や、UI画面が表示されている。また、発光部170は、光源を消灯させている。操作入力部140が表示部130の上に重ねて設けられるタッチパネルであれば、利用者は、タッチパネルである操作入力部140をタッチすることで、表示部130に表示されたボタンに対する操作をすることができる。
図8(b)は、音声が入力されることにより、画像形成装置10の動作モードを音声操作モードに切り替えた場合を示した図である。この場合は、表示部130の視認性は低下されており、また、発光部170の制御により光源が点灯されている。このようにすることで、サーバ装置20は、利用者に対して、画像形成装置10の操作を、表示部130や操作入力部140によって行うのではなく、音声を介して行うことを明確に示す。そして、画像形成装置10は、必要な情報を得るために、「どこに送りますか?」といった音声を出力することで、利用者に音声の入力を促す。
図8(c)は、ジョブの実行が完了し、画像形成装置10の動作モードを画面操作モードに切り替えた場合を示した図である。画像形成装置10は、表示部130の視認性を回復させる。また、発光部170の制御により、光源は消灯される。
また、図9は、視認性を低下させる処理において、表示部130に表示される画面の別の例である。図9(a)は、表示部130の輝度を上げた場合の画面の例である。表示部130の画面全体が明るくなり、視認性が低下する。図9(b)は、表示部130のコントラストを変更した場合の画面の例である。例えばコントラストを低くすることにより、背景とボタン等との色が似た色となり、視認性が低下する。図9(c)は、表示部130に別画面を表示した場合の画面の例である。図9(c)に示すように、そもそも利用者が選択できるボタンが存在しない画面を表示することで、利用者は音声による応答を行うこととなる。例えば、画像形成装置10が「どこに送りますか」と音声出力した場合、利用者は送信先を表示部130を操作することで指定することができないため、音声による応答をすることとなる。なお、図9(c)には、表示部130には、ジョブの設定(例えば、「Color:On」)が表示されている。また、斜線部で示した箇所には、画面の下部には、画像形成装置10のステータスや、音声入力を促す表示(例えば、「音声でしゃべりかけてください」)を表示してもよい。
このように、本実施形態によれば、画像形成装置10は、音声操作モードが実行される場合は、表示部130の視認性を低下させることで、画像形成装置10の利用者に対する表示部130の存在感を下げることが可能となる。また、発光部170を点灯させることにより、画像形成装置10の利用者の関心を、発光部170に惹き付けることができる。その結果、利用者は、音声を入力して操作するのか、表示部を介して操作するのかといったことを、判別しやすくなる。
また、画像形成装置10のように、装置がある程度の大きさである場合、利用者はどこに向かって話しかければよいか分からない場合がある。さらに、表示部に表示される情報の多さや、表示部の大きさ、表示部への操作の慣れにより、表示部の存在に気を取られてしまい、音声による応答に集中できないことがある。この結果、利用者は、操作のフィードバックを表示部に対して期待をしてしまったり、表示部に対して話しかけてしまったり、表示部の表示画面に集中してしまい、発光部の光応答や、音声出力部による音声応答を逃してしまうことがある。
このような場合であっても、表示部130の視認性を低下させ、発光部170によって光源を発光させることで、画像形成装置10の利用者の関心を、音声操作に誘導・集中させることが可能となる。この結果、利用者には、自然に音声による操作が可能であることを判別しやすくさせることが可能となる。また、利用者は、自然と画像形成装置10と会話しているような感覚となる。更に、発光部の制御により発光を行うことで、利用者によって、画像形成装置10に話しかける場所が意識され、音声データの認識率の向上を実現できる。
なお、上述した説明以外であっても、矛盾のない範囲において、処理の順番を変更したり、一部のステップを省略・変更したりしても構わない。例えば、画像形成装置10と、サーバ装置20との対話を終了する場合として、サーバ装置20が、画像形成装置10から、音声操作終了通知を受信した場合であるとして説明したが、このような方法でなくてもよい。例えば、サーバ装置20は、画像形成装置10が所定のジョブを実行するために必要なコマンドを記憶し、コマンドを生成した時点で、生成コマンド記憶領域に、画像形成装置10が所定のジョブを実行するために必要なコマンドを生成したか否かを判定する。画像形成装置10が所定のジョブを実行するために必要なコマンドを生成した場合は、更に対話を終了するコマンドを生成してもよい。このようにすることで、画像形成装置10は、サーバ装置20に、音声操作終了通知を送信しなくても、音声操作モードを終了させることが可能となる。
なお、本実施形態は、画像形成装置10に適用した場合について説明したが、表示部を備え、音声による操作が可能な装置であれば、本発明を適用することが可能である。例えば、カーナビゲーション、レジ端末等の操作装置、工場等における工作装置に対して、本発明を適用することができる。
[2.第2実施形態]
つづいて第2実施形態について説明する。第2実施形態は第1実施形態と異なり、音声操作モードに移行するためのキーワードが音声入力された場合に、画像形成装置10の動作モードを音声操作モードに切り替える実施形態である。
本実施形態は、第1実施形態の図4を図10に置き換えたものである。なお、同一の機能部及び処理には同一の符号を付し、説明については省略する。
本実施形態の処理の流れを、図10を参照して説明する。はじめに、画像形成装置10の制御部100は、音声入力部150を介して入力された音声に、所定のキーワードが含まれているか否かを検出する(S202)。キーワードとは、例えば、画像形成装置10に対する呼びかけの言葉(例えば、「ねえ」「ヘイ」「OK」)や、画像形成装置10の名称や、それらの組み合わせである。なお、キーワードは予め設定されていてもよいし、利用者によって設定されてもよい。
音声にキーワードが含まれているか否かは、制御部100が簡易的な音声認識を実行することにより判定する。音声にキーワードが含まれている場合は、制御部100は、音声操作モード移行処理を実行する(S204)。
それ以降の処理は、第1実施形態と同様である。しかし、音声操作モードに移行したことを前提として処理を実行することが可能であるため、制御部100は、サーバ装置20からコマンドを受信した際に、現在の動作モードを判定する必要がない。
本実施形態によれば、利用者によって、所定のキーワードが発音された場合に音声操作モードに移行する。したがって、利用者が音声操作モードによる操作を所望しない場合には、利用者はキーワードを発音しなければよいため、利用者は、操作方法を選択することが可能となる。
また、画像形成装置10は、操作に関係のない音声や雑音等の音声データをサーバ装置20に送信したり、不要なコマンドのポーリングを行ったりすることを防ぐことができる。この結果、画像形成装置10は、操作に関係のない音声や雑音等により、利用者が所望していないジョブを実行してしまうことを回避できる。
なお、音声操作モードに移行する操作としては、上述した音声の入力操作以外であってもよい。例えば、タッチパネルに対する、所定のジェスチャ操作が検出された場合であってもよいし、音声操作モードに移行するためのボタンや、ハードキーが選択される操作であってもよい。
[3.第3実施形態]
第3実施形態は、ジョブが完了したときでない場合であっても、画像形成装置10の動作モードを音声操作モードから、画面操作モードに切り替える実施形態である。
本実施形態の処理の流れを、図を参照して説明する。本実施形態では、音声操作モードから、画面操作モードに切り替える場合として、(1)音声操作モードを終了する操作がされた場合、(2)所定時間操作がされなかった場合、(3)対話終了条件を満たす場合について説明する。
[3.1 音声操作モードを終了する操作がされた場合]
図11は、音声操作モードを終了する操作が検出された場合に、音声操作モードを終了する処理の流れを示したシーケンス図である。
まず、制御部100は、音声操作モードを終了するための操作を検出する(S302)。音声操作モードを終了するための操作とは、音声操作に関係しない操作である。例えば、利用者によって表示部130がタッチされる操作であったり、ハードキーが押される操作だったり、画像形成装置10のドアの開け閉めがされるといった操作である。
このような操作により、終了イベントが生成され、制御部100に出力される。終了イベントとは、音声操作モードを終了することを示す信号やデータである。例えば、タッチされる操作がされることにより、表示部130から制御部100に、タッチされたという信号が出力される。また、ドアの開け閉めの操作は、画像形成装置10に備えられたセンサなどにより検出され、ドアが開け示されたことを示す信号が、センサから制御部100に出力される。
制御部100が、終了イベントを検出した場合は(S304)、音声出力部160から、音声操作モードを終了する音声(例えば、「音声操作を終了します」)を出力する(S306)。そして、制御部100は、通信部190を介して、サーバ装置20に対して、音声操作終了通知を送信し、コマンドのポーリングを行う(S308→S310)。
制御部200は、音声操作終了通知を受信したら、対話セッションを終了し、対話を終了するコマンドを生成する(S312→S314)。
制御部100は、コマンドのポーリングにより、対話を終了するコマンドを受信したら、画面操作モード移行処理を実行する(S316→S318)。なお、本実施形態では、S304からS318まで(図11において、点線の矩形内に含まれる処理)を、音声操作モード終了処理という。
このようにすることで、画像形成装置10の利用者は、意図的に音声操作モードを終了させることが可能となる。
[3.2 所定時間操作がされなかった場合]
本実施形態の別の処理の流れを、図12を参照して説明する。図12は、所定時間、利用者による操作がされなかった場合に、音声操作モードを終了する処理の流れを示したシーケンス図である。
制御部100は、利用者によって、音声が入力されたり、表示部130に対してタッチされたり、ハードキーを選択されたりする操作が、一定時間されていないと判定した場合は、終了イベントを生成する(S342→S344)。音声入力がされていないことは、所定の音量を超える音声が、音声入力部150から入力されていないことにより判定すればよい。また、利用者による操作がされていないと判定する時間については、予め定められていてもよいし、利用者によって設定可能であってもよい。
つづいて、画像形成装置10と、サーバ装置20とにより、音声操作モード終了処理を実行する(S346)。なお、S344で生成された終了イベントは、音声操作モード終了処理に含まれるステップS304によって検出される。このようにして、一定時間、利用者による音声入力がされていない場合に、音声操作モードを終了することができる。
このようにすることで、ある利用者が、画像形成装置10の動作モードを音声操作モードにしたまま画像形成装置10から離れてしまっても、画像形成装置10は、所定の時間経過後に音声操作終了通知をサーバ装置20に送信することができる。したがって、所定の時間経過後に、別の利用者が画像形成装置10を操作する場合であっても、画像形成装置10の操作モードを画面操作モードとすることができる。また、サーバ装置20は、画像形成装置10から送信される音声操作終了通知により、対話セッションを終了させ、前の利用者の情報を消去する。そのため、別の利用者は、前の利用者が入力した内容に関係なく、新たなジョブを実行することができる。
[3.3 対話終了条件を満たす場合]
本実施形態の別の処理の流れを、図13を参照して説明する。図13は、画像形成装置10から送信される音声データに基づき、サーバ装置20が画像形成装置10に対して、音声操作モードを終了するコマンドを送信する処理の流れを示したシーケンス図である。なお、図13に示したシーケンス図は、画像形成装置10の動作モードが音声操作モードであることを前提とした処理の流れを示した図である。
まず、画像形成装置10によって、音声データの記憶、音声データの送信、コマンドのポーリングが行われる(S362→S364→S366)。つづいて、制御部200は、画像形成装置10から受信した音声データの解析をしたら(S368)、音声データの解析結果として、対話終了条件を満たす解析結果を検出したか否かを判定する(S370)。
対話終了条件とは、サーバ装置20と、画像形成装置10との対話を終了する条件である。サーバ装置20は、音声データの解析結果に基づき、対話終了条件を満たすか否かを判定する。
対話終了条件として、例えば、以下に示す条件が考えられる。
(1)音声操作を所望しないことを示すキーワードを検出した場合
サーバ装置20は、「分からない」「やめたい」といった利用者のフラストレーションに関わる表現や、「音声操作を終了したい」といった音声操作を終了する意思を示す表現をキーワードとして記憶部220に記憶する。そして、それらのキーワードが、画像形成装置10から受信した音声データに含まれる場合には、対話終了条件を満たすと判定する。
(2)音声操作を間違えていることを検出した場合
例えば、音声データを解析した結果として、同じ内容(例えば、設定の変更を所望することを示す内容)を示す音声が所定の閾値以上(例えば、10回以上)入力されている場合は、対話が適切に行われていない可能性がある。これは、画像形成装置10によって出力される音声による問いかけに対して、利用者によって適切な応答がされていない可能性が考えられる。また、制御部200が、音声データに基づくコマンドを特定できない場合も、対話が適切に行われていない可能性が考えられる。このような場合は、利用者が音声操作を間違えていることが考えられる。したがって、制御部200は、画面操作モードによる操作が適切であるとして、対話終了条件を満たすと判定する。なお、閾値は、サーバ装置20に予め記憶されていてもよいし、画像形成装置10に設定されてもよい。画像形成装置10に閾値が設定されている場合は、画像形成装置10は、音声データをサーバ装置20に送信する場合に、閾値も併せて送信すればよい。
(3)音声データの解析ができない場合
音声解析部202から出力される音声解析データとして、音声データの誤検知などにより、音声データが解析不能であった旨を示す情報を含んだ音声解析データを、所定の閾値の回数以上出力された場合である。このような場合は、画像形成装置10において、音声操作モードに関する機能に異常が発生している可能性が考えられる。したがって、制御部200は、画面操作モードによる操作が適切であるとして、対話終了条件を満たすと判定する。なお、閾値は、サーバ装置20に予め記憶されていてもよいし、画像形成装置10に設定されてもよい。
なお、上述した対話終了条件を組み合わせて、複数の条件について判定してもよい。また、(2)の閾値と、(3)の閾値とは、異なる値であってもよい。なお、上述した例以外にも、異なる対話終了条件を設けてもよいことは勿論である。
対話終了条件を満たす場合は、制御部200は、通信部210を介して、画像形成装置10に対話の終了を問い合わせるコマンドを生成する(S372)。
制御部100は、コマンドのポーリングにより、対話の終了を問い合わせるコマンドを受信したら、音声出力部160を介して、音声操作モードを終了するか否かを問い合わせる音声を出力する(例えば、「音声操作を終了しますか?」)(S378)。そして、利用者から音声が入力されるまで待機を行う。
利用者から音声入力部150を介して音声が入力された場合は、入力された音声を音声データとして記憶し、記憶した音声データをサーバ装置20へ送信する(S378;Yes→S380→S382)。なお、ここで入力される音声は、音声操作を終了する問い合わせに対する応答であるため、「はい」又は「いいえ」といった、肯定的又は否定的な表現の何れかである。したがって、肯定的又は否定的な表現以外の表現を示す音声が入力された場合は、制御部100は、再度音声操作モードを終了するか否かを問い合わせる音声を出力してもよい。このようにすることで、画像形成装置10は、利用者に対して、音声操作モードを終了させることについての合意を得ることが可能となる。そして、制御部100は、サーバ装置20で生成されるコマンドを取得するために、コマンドのポーリングを行う(S384)。
制御部200は、音声データを受信したら、音声データを解析して、解析結果に基づくコマンドを発行する(S386→S388)。この場合に、制御部200が発行するコマンドは、音声操作モードを継続することを示すコマンドか、音声操作モードを終了することを示すコマンドの何れかである。
制御部100は、コマンドのポーリングにより、サーバ装置20からコマンドを受信した場合は(S390)、そのコマンドが、音声操作モードを終了することを示すコマンドであるか否かを判定する(S392)。音声操作モードを終了することを示すコマンドであれば、制御部100は終了イベントを生成し、音声操作モード終了処理を実行する(S392;Yes→S394→S396)。音声操作モードを継続するコマンドであれば、S362に戻り、音声操作モードを継続する。
このようにすることで、利用者が、音声操作モードに対してフラストレーションを感じていたり、音声操作を間違えていたり、音声操作がわからない場合等に、サーバ装置20の判定により、画面操作モードに切り替えることが可能となる。したがって、画像形成装置10は、利用者による画面操作モードへの切り替えの意図に基づき、自動的に音声操作モードを終了し、画面操作モードに切り替えることが可能となる。
このように、本実施形態によれば、ジョブの完了以外のタイミングによっても、音声操作モードから、画面操作モードに切り替えることが可能となる。
[4.第4実施形態]
第4実施形態は、音声データの解析を画像形成装置10で行う実施形態である。本実施形態は、第1実施形態の図2を図14に置き換えたものである。なお、同一の機能部には同一の符号を付し、説明については省略する。
図14を参照して、本実施形態の画像形成装置12の機能構成について説明する。画像形成装置12は、画像形成装置10と比較して、制御部100が、音声データを解析する音声解析部102及びコマンド生成部104として機能する点が異なる。音声解析部102は音声解析部202に、コマンド生成部104はコマンド生成部204に、それぞれ相当する機能部である。
また、記憶部180に、コマンド生成部104によって生成されたコマンドを記憶する領域である生成コマンド記憶領域184を確保している点が異なる。生成コマンド記憶領域184は、生成コマンド記憶領域224に相当する領域である。
つづいて、図15を参照して、画像形成装置12のメイン処理について説明する。はじめに、制御部100は、音声入力部150を介して、利用者から音声が入力された場合は、入力された音声を、音声データとして、音声データ記憶領域182に記憶する(ステップS402)。
つづいて、音声解析部102は、音声データ記憶領域182に記憶された音声データを解析して、音声解析データを生成する(ステップS404)。そして、コマンド生成部104は、音声解析データに基づき、コマンドを生成する(ステップS406)。なお、コマンド生成部104は、生成したコマンドを、生成コマンド記憶領域184に記憶する。
つづいて、制御部100は、現在の画像形成装置10の動作モードが画面操作モードであるか否かを判定し、画面操作モードである場合は、制御部100は、音声操作モード移行処理を実行する(ステップS408;Yes→ステップS410)。
つづいて、制御部100は、生成コマンド記憶領域184に記憶されたコマンドに基づき、実行するジョブを特定し、ジョブが実行可能であるかを判定する(ステップS412→ステップS414)。ジョブが実行可能であれば、制御部100はジョブを実行する(ステップS414;Yes→ステップS418)。そして、制御部100は、画面操作モード移行処理を実行する(ステップS420)。
ジョブが実行可能でなければ、ジョブを実行するために必要な情報が足りていない場合や、応答が適切でない場合、音声が認識できなかった場合が考えられる。このような場合は、制御部100は、利用者に対して再度の応答を促すための音声を、音声出力部160から出力し、ステップS402へ戻る(ステップS414;No→ステップS416→ステップS402)。
本実施形態によれば、サーバ装置20との接続を行うことなく、画像形成装置10単体で、音声操作モードの実行が開始された場合に、表示部の視認性を低下させる制御を行うことが可能となる。
[5.変形例]
本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能である。すなわち、本発明の要旨を逸脱しない範囲内において適宜変更した技術的手段を組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。
また、上述した実施形態は、説明の都合上、それぞれ別に説明している部分があるが、技術的に可能な範囲で組み合わせて実行してもよいことは勿論である。
また、実施形態において各装置で動作するプログラムは、上述した実施形態の機能を実現するように、CPU等を制御するプログラム(コンピュータを機能させるプログラム)である。そして、これら装置で取り扱われる情報は、その処理時に一時的に一時記憶装置(例えば、RAM)に蓄積され、その後、各種ROM(Read Only Memory)やHDD等の記憶装置に格納され、必要に応じてCPUによって読み出し、修正・書き込みが行なわれる。
ここで、プログラムを格納する記録媒体としては、半導体媒体(例えば、ROMや、不揮発性のメモリカード等)、光記録媒体・光磁気記録媒体(例えば、DVD(Digital Versatile Disc)、MO(Magneto Optical Disc)、MD(Mini Disc)、CD(Compact Disc)、BD (Blu-ray(登録商標) Disk) 等)、磁気記録媒体(例えば、磁気テープ、フレキシブルディスク等)等の何れであってもよい。また、ロードしたプログラムを実行することにより、上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することにより、本発明の機能が実現される場合もある。
また、市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等のネットワークを介して接続されたサーバコンピュータに転送したりすることができる。この場合、サーバコンピュータの記憶装置も本発明に含まれるのは勿論である。
1 情報処理システム
10、12 画像形成装置
100 制御部
102 音声解析部
104 コマンド生成部
110 画像入力部
120 画像形成部
130 表示部
140 操作入力部
150 音声入力部
160 音声出力部
170 発光部
180 記憶部
182 音声データ記憶領域
184 生成コマンド記憶領域
190 通信部
20 サーバ装置
200 制御部
202 音声解析部
204 コマンド生成部
210 通信部
220 記憶部
222 音声データ記憶領域
224 生成コマンド記憶領域

Claims (12)

  1. 音声入力部と、音声出力部と、表示部と、制御部とを備えた情報処理装置において、
    前記制御部は、
    前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実行し、
    前記音声操作モードの実行が開始された場合であって、前記音声入力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声出力部を介して音声の入力を促すための音声を出力し、
    少なくとも前記音声出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行う、
    ことを特徴とする情報処理装置。
  2. 前記制御部は、
    前記入力された音声に所定のキーワードが含まれる場合、前記表示部の視認性を低下させる制御を行う、
    ことを特徴とする請求項に記載の情報処理装置。
  3. 利用者の操作入力を受け付ける操作部を更に備え、
    前記制御部は、
    前記表示部の視認性を低下させた後、前記操作部により操作入力を受け付けた場合、前記表示部の視認性を戻す制御を行う、
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記制御部は、
    前記音声入力部により、所定時間以上音声入力を検知しない場合、前記表示部の視認性を戻す制御を行う、
    ことを特徴とする請求項1からの何れか一項に記載の情報処理装置。
  5. 発光部を更に備え、
    前記制御部は、
    前記表示部の視認性を低下させる制御を行う場合に、前記発光部を発光させる制御を行うことを特徴とする請求項1からの何れか一項に記載の情報処理装置。
  6. 前記発光部は、前記表示部近傍に設けられることを特徴とする請求項に記載の情報処理装置。
  7. 前記制御部は、前記表示部に利用者が操作する画面を表示させたまま、前記表示部の視認性を低下させることを特徴とする請求項1から6の何れか一項に記載の情報処理装置。
  8. 会話サーバに接続可能な情報処理装置において、
    前記情報処理装置は、音声入出力部と、表示部と、制御部とを備え、
    前記制御部は、
    前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合であって、前記音声入出力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声入出力部を介して音声の入力を促すための音声を出力し、
    少なくとも前記音声入出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行う、
    ことを特徴とする情報処理装置。
  9. 音声入力部と、音声出力部と、表示部と、制御部とを備えた情報処理装置における制御方法であって、
    前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実行するステップと、
    前記音声操作モードの実行が開始された場合であって、前記音声入力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声出力部を介して音声の入力を促すための音声を出力するステップと、
    少なくとも前記音声出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行うステップと、
    を含むことを特徴とする制御方法。
  10. 音声入出力部と、表示部と、制御部とを備え、会話サーバに接続可能な情報処理装置における制御方法であって、
    前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合であって、前記音声入出力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声入出力部を介して音声の入力を促すための音声を出力するステップと、
    少なくとも前記音声入出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行うステップと、
    を含むことを特徴とする制御方法。
  11. 音声入力部と、音声出力部と、表示部と、制御部とを備えたコンピュータに、
    前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実現させ、
    前記音声操作モードの実行が開始された場合であって、前記音声入力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声出力部を介して音声の入力を促すための音声を出力する機能と、
    少なくとも前記音声出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行う機能と、
    を実現させることを特徴とするプログラム。
  12. 音声入出力部と、表示部と、制御部とを備え、会話サーバに接続可能なコンピュータに、
    前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合であって、前記音声入出力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声入出力部を介して音声の入力を促すための音声を出力する機能と、
    少なくとも前記音声入出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行う機能と、
    を実現させることを特徴とするプログラム。
JP2018213191A 2018-11-13 2018-11-13 情報処理装置、制御方法及びプログラム Active JP7193312B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018213191A JP7193312B2 (ja) 2018-11-13 2018-11-13 情報処理装置、制御方法及びプログラム
US16/678,874 US11082570B2 (en) 2018-11-13 2019-11-08 Information processor, control method, and computer-readable recording medium having stored program that control display visibility
CN201911085198.7A CN111179922B (zh) 2018-11-13 2019-11-08 信息处理装置、控制方法及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018213191A JP7193312B2 (ja) 2018-11-13 2018-11-13 情報処理装置、制御方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020080062A JP2020080062A (ja) 2020-05-28
JP7193312B2 true JP7193312B2 (ja) 2022-12-20

Family

ID=70550041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018213191A Active JP7193312B2 (ja) 2018-11-13 2018-11-13 情報処理装置、制御方法及びプログラム

Country Status (3)

Country Link
US (1) US11082570B2 (ja)
JP (1) JP7193312B2 (ja)
CN (1) CN111179922B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7172551B2 (ja) * 2018-12-17 2022-11-16 コニカミノルタ株式会社 情報処理装置及びプログラム
JP7430126B2 (ja) * 2020-09-01 2024-02-09 シャープ株式会社 情報処理装置、印刷システム、制御方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004037998A (ja) 2002-07-05 2004-02-05 Denso Corp 音声制御装置
JP2005284492A (ja) 2004-03-29 2005-10-13 Mitsubishi Electric Corp 音声利用操作装置
WO2015029296A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3438693B2 (ja) * 2000-02-03 2003-08-18 日本電気株式会社 表示部付き電子機器
JP2002094656A (ja) 2000-09-12 2002-03-29 Toshiba Corp 無線通信端末
KR20080047811A (ko) * 2006-11-27 2008-05-30 삼성전자주식회사 영상처리장치를 포함하는 디스플레이시스템과,영상처리장치와 연결되는 디스플레이장치 및 그디스플레이방법
KR20120116207A (ko) * 2011-04-12 2012-10-22 엘지전자 주식회사 디스플레이 장치 및 이를 구비하는 냉장고
KR20170024308A (ko) * 2015-08-25 2017-03-07 엘지전자 주식회사 이동단말기 및 그 제어방법
CN105848268B (zh) * 2016-05-25 2019-04-19 努比亚技术有限公司 一种降低功耗的方法及终端
CN106251829A (zh) * 2016-08-01 2016-12-21 乐视控股(北京)有限公司 降低功耗的方法和装置
CN106506816B (zh) * 2016-10-21 2020-01-14 青岛海信电器股份有限公司 点亮屏幕的方法及装置
CN108076210A (zh) * 2016-11-11 2018-05-25 中兴通讯股份有限公司 智能设备的屏幕背光控制***与方法
KR102601892B1 (ko) * 2017-01-02 2023-11-15 엘지전자 주식회사 냉장고
CN107124513A (zh) * 2017-05-04 2017-09-01 努比亚技术有限公司 通话状态下的息屏方法、移动终端及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004037998A (ja) 2002-07-05 2004-02-05 Denso Corp 音声制御装置
JP2005284492A (ja) 2004-03-29 2005-10-13 Mitsubishi Electric Corp 音声利用操作装置
WO2015029296A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置

Also Published As

Publication number Publication date
US11082570B2 (en) 2021-08-03
CN111179922B (zh) 2024-04-16
US20200153984A1 (en) 2020-05-14
JP2020080062A (ja) 2020-05-28
CN111179922A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
US9648180B2 (en) Information processing system performing operation based on tag information, information processing device, portable terminal and non-transitory computer readable recording medium
JP7471379B2 (ja) 音声操作システム及び音声操作方法
JP4065516B2 (ja) 情報処理装置及び情報処理方法
US11140284B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
JP7193312B2 (ja) 情報処理装置、制御方法及びプログラム
JP2007334879A (ja) 関連機能を視覚的に符号化するシステムおよびその方法
US11792338B2 (en) Image processing system for controlling an image forming apparatus with a microphone
US11423903B2 (en) Information processing system and information processing method
US9917969B2 (en) Image forming apparatus configured to notify that setting change of information processing terminal is needed
US20220129211A1 (en) Converting voice command into text code blocks that support printing services
JP2011164878A (ja) プロジェクター、プロジェクターの制御方法、及び画像表示システム
US10268936B2 (en) Information processing apparatus including near-field wireless communication tag, method of controlling the same, and storage medium
US20110296297A1 (en) Display device, display method, and computer-readable non-transitory recording medium encoded with display program
US20210055903A1 (en) Information processing apparatus and non-transitory computer readable medium
US9905141B2 (en) Image output apparatus and computer-readable recording medium
US20180373466A1 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium
US20210021723A1 (en) Information processing system, information processing apparatus, and information processing method
JP2007079955A (ja) 情報処理方法および装置、記録媒体、並びにプログラム
US10320996B2 (en) Operation apparatus having a voice generator,information processing system having the same, and operation method using the same
JP7047401B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2005332072A (ja) データ処理装置、カード型リムーバブル記憶装置及びデータ処理方法
JP6037077B1 (ja) 画像出力装置、画像出力システム及び画像処理プログラム
JP7404818B2 (ja) 機器、モード切替方法およびプログラム
JP7238619B2 (ja) 画像投射装置、制御方法およびプログラム
US20150381850A1 (en) Display control apparatus, control method thereof, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221208

R150 Certificate of patent or registration of utility model

Ref document number: 7193312

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150