JP7508781B2

JP7508781B2 - 情報処理システム、情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7508781B2
Application number: JP2020006467A
Authority: JP
Inventors: 裕中村; 圭祐寺崎
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2024-07-02
Anticipated expiration: 2040-01-20
Also published as: JP2021113899A

Description

本発明は、情報処理システム、情報処理装置、情報処理方法及びプログラムに関する。

今日において、音声により機器操作を行うＡＩ（ＡＩ：Artificial Intelligence）音声アシスタントが知られている。また、音声によって操作可能なスマート家電も知られており、音声操作の分野は今後も更なる成長が見込まれている。

例えば、音声操作の一例として、端末装置に対して発話された内容をサーバで解釈し、解釈した結果に基づくジョブをネットワークを介して接続された画像形成装置が実行するシステムが開示されている（特許文献１参照）。

しかしながら、特許文献１に開示された発明においては、連続する複数のジョブを音声入力によって画像形成装置に実行させたい場合についての開示、示唆等はなく、その都度ジョブを実行するための条件を音声入力して設定する必要があった。

本発明は、上述の課題に鑑みてなされたものであり、連続する複数のジョブを音声によって画像形成装置に実行させる場合、ジョブを実行させるための音声操作を簡略化することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音声を集音して音声データを得る音声取得装置と、原稿に対して少なくとも１回以上の画像の読取りを行う画像読取装置と、前記音声取得装置が送信した第１のタイミングで第１の音声データを受信し、当該第１の音声データから所定の読取条件に基づいて前記原稿を読み取るための読取命令に変換して、前記所定の読取条件に基づいた前記読取命令を前記画像読取装置に送信する情報処理装置と、を備えた情報処理システムであって、前記情報処理装置は、前記第１のタイミングよりも後の第２のタイミングで受信した第２の音声データが前記第１の音声データに基づく前記読取命令の実行の継続を可能とする内容である場合に、前記読取命令を前記画像読取装置に再送し、前記第１の音声データおよび前記第２の音声データを、テキストデータに変換し、変換した前記テキストデータが予め定義された辞書情報と一致した場合、前記テキストデータを、前記画像読取装置に対して要求するジョブの種類を示すインテントに変換し、前記インテントを前記読取命令に変換し、前記第１の音声データから変換した前記インテントの受信から所定時間内に前記第２の音声データから同一の前記インテントが取得された場合、前記第２の音声データに基づく原稿の読み取りを、前記第１の音声データに基づく原稿に対する継続した原稿の読み取りであると判断し、前記第２の音声データから変換した前記インテントが前記ジョブの種類を含まない場合でも、前記第１の音声データに基づく前記読取命令の実行の継続と解釈して、前記読取命令を前記画像読取装置に再送することを特徴とする情報処理システムである。

本発明の実施形態によれば、連続する複数のジョブを音声によって画像形成装置に実行させる場合、ジョブを実行させるための音声操作を簡略化することが可能になる。

本実施形態に係る音声操作システムの構成の一例を示す図である。スマートスピーカのハードウェア構成の一例を示す図である。音声認識サーバ装置のハードウェア構成の一例を示す図である。ＡＩアシスタントサーバ装置のハードウェア構成の一例を示す図である。各種テーブルデータの一例である。ＭＦＰのハードウェア構成の一例を示す図である。音声操作システムを構成する各装置の機能ブロックの一例を示す図である。第１の実施形態におけるユーザの発話に基づく読取処理の一例を示すシーケンス図である。第１の実施形態におけるユーザの発話に基づく読取処理の一例を示すシーケンス図である。第１の実施形態における情報の補完及び問合せ処理の一例を示すフローチャートである。第１の実施形態における読取命令の変換及び送信の一例を示すフローチャートである。第２の実施形態におけるユーザの発話に基づく読取処理の一例を示すシーケンス図である。第２の実施形態におけるユーザの発話に基づく読取処理の一例を示すシーケンス図である。第２の実施形態における読取命令の実行処理の一例を示すフローチャートである。

以下、情報処理システム、情報処理方法及びプログラムの適用例となる音声操作システムの説明をする。

〔システムの概略〕
図１は、本実施形態に係る音声操作システムの構成の一例を示す図である。図１に示すように、本実施形態の音声操作システム１は、少なくとも１以上のスマートスピーカ２、音声認識サーバ装置３、ＡＩアシスタントサーバ装置４及び少なくとも１以上の複合機６（ＭＦＰ：Multifunction Peripheral。以下、単にＭＦＰ６とも呼ぶ）を、例えばＬＡＮ（Local Area Network）等のネットワーク７を介して相互に接続することで形成されている。

ここで、音声操作システム１は、情報処理システムの一例である。スマートスピーカ２は、内蔵されているマイクで音声を集音して音声データを得るリモート操作可能な周知のスマートスピーカ装置である。また、スマートスピーカ２は、音声入力によって、例えば、音楽及び動画などの各種コンテンツ、天気、ニュース等の視聴を可能にする人工知能を搭載した機器であり、例えば、対話型の音声操作に対応したＡＩアシスタント機能を持つスピーカを指す。さらに、スマートスピーカ２は、照明及び家電等の各種機器を音声によって遠隔操作する機能も備える。

スマートスピーカ２は、例えば、ユーザ（使用者ともいう）の発話による音声操作を受け付け、音声操作によって得られる音声データ（音声情報ともいう）に基づいて、ＭＦＰ６に対する原稿を読み取るための命令（以下、読取命令と記載する）等の各種命令（ジョブ）に伴う処理（以下、所定の処理ともいう）を実行する音声操作システム１における音声取得装置の一例として機能する。なお、スマートスピーカ２は、上述したように音声操作システム１において１以上備えられていてもよい。また、スマートスピーカ２は、受け付けた音声操作に基づく音声データを、ネットワーク７を介して音声認識サーバ装置３（又はクラウドサービス装置５）に送信する。さらに、スマートスピーカ２は、ユーザの発話による音声操作から得られる音声データを補完するために、ユーザに対してフィードバックを行うためのマイク機能、カメラ機能等を有してもよい。

音声認識サーバ装置３は、スマートスピーカ２で得られた音声データを受信し、テキストデータに変換する機能を備える。また、ＡＩアシスタントサーバ装置４は、音声認識サーバ装置３と連携してスマートスピーカ２で得られた音声データを処理する機能を備える。音声認識サーバ装置３及びＡＩアシスタントサーバ装置４は、ネットワーク７を介して相互に接続され、一つに纏めてクラウドサービス装置５としても機能する。クラウドサービス装置５は、例えば、ＭＦＰ６に対して読取命令を生成して送信する。

上述したクラウドサービス装置５を構成する音声認識サーバ装置３及びＡＩアシスタントサーバ装置４のうちの少なくとも一つ又はその両方は、情報処理装置の一例である。

ＡＩアシスタントサーバ装置４は、音声認識サーバ装置３によって変換されたユーザの意図に基づいてＭＦＰ６が解釈可能な読取命令に変換する。ＡＩアシスタントサーバ装置４は、変換した読取命令等を、ネットワーク７を介してＭＦＰ６に送信する。ここで、読取命令は、例えば、ユーザがスマートスピーカ２に対して音声操作により与えられた原稿を読み取るための指示（以下、原稿読取指示と記載する）に基づいて生成される。なお、原稿読取指示は、情報処理要求の一例である。

また、ＡＩアシスタントサーバ装置４は、ＨＤＤ４４等の記憶部に管理データベース４０１（以下、管理ＤＢ４０１という）及び紐づけ用データベース４０２（以下、紐づけ用ＤＢ４０２という）を備えている。管理ＤＢ４０１及び紐づけ用ＤＢ４０２は、例えば、クラウドサービス装置５がネットワーク７上に備えるＨＤＤ等の記憶部を用いることができる。このほか、管理ＤＢ４０１及び紐づけ用ＤＢ４０２のうち、一方又は両方を、ネットワーク７を介してクラウドサービス装置５でアクセス可能な別のサーバ装置に記憶してもよい。

管理ＤＢ４０１には、例えば、ＡＩアシスタントサーバ装置４が提供するコンテンツ（データ）としてのテキストデータ、画像データ及び音声データ等が記憶されている。

なお、管理ＤＢ４０１で管理される情報は、例えば、ネットワーク７を介して接続されるＭＦＰ６によって新規追加又は変更することができる。図１では、管理ＤＢ４０１とＭＦＰ６は別体として図示しているが、同一の機能を備えたサーバとして構成してもよい。この場合、後述する管理プログラムは、管理ＤＢ４０１に対してＭＦＰ６に対する読取命令を送信することによって、管理ＤＢ４０１が管理する各種情報を取得してもよい。

一方、紐づけ用ＤＢ４０２には、例えば、各スマートスピーカ２（音声取得装置）を識別するためのデバイスＩＤ（以下、単にデバイスＩＤともいう）と、各スマートスピーカ２に関連付けられた情報処理装置としてのＭＦＰ６（ＭＦＰ＿＃１、ＭＦＰ＿＃２、等）の機器ＩＤとが関連付けられて記憶されている。この紐づけ用ＤＢ４０２の詳細については、後述する。

本実施形態では、管理ＤＢ４０１及び紐づけ用ＤＢ４０２は、ＡＩアシスタントサーバ装置４に含まれることを例示しているが、それぞれＡＩアシスタントサーバ装置４と別に設けられてもよいし、いずれか一方がＡＩアシスタントサーバ装置４に含まれ、他方がＡＩアシスタントサーバ装置４と別に設けられてもよい。

また、本実施形態では、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４の二つのサーバ装置を一つに纏めたクラウドサービス装置５として説明する。但し、音声認識サーバ装置３、ＡＩアシスタントサーバ装置４のそれぞれは、さらに複数のサーバ装置に分けて実現されてもよい。

さらに、本実施形態では、クラウドサービス装置５の機能の一部又は全部を、スマートスピーカ２又はＭＦＰ６が有していてもよい。クラウドサービス装置５の機能の全部をスマートスピーカ２又はＭＦＰ６が有している場合、音声操作システム１にクラウドサービス装置５は含まれていなくてもよい。このような場合、スマートスピーカ２はクラウドサービス装置５を介さずにＭＦＰ６と通信してもよく、音声操作システム１は、スマートスピーカ２及びＭＦＰ６を纏めた入力応答システム８を構築してもよい。

上述したように、クラウドサービス装置５は、音声認識サーバ装置３とＡＩアシスタントサーバ装置４を含む場合について説明したが、音声認識サーバ装置３の機能の一部又は全部をＡＩアシスタントサーバ装置４が有していてもよいし、ＡＩアシスタントサーバ装置４の機能の一部又は全部を音声認識サーバ装置３が有していてもよい。つまり、音声認識サーバ装置３とＡＩアシスタントサーバ装置４が互いの機能を補完し合う構成でもよい。また、クラウドサービス装置５は一つのサーバによって構成されていてもよいし、３以上のサーバによって構成されていてもよい。

上述した各構成によって、音声操作システム１では、ユーザから発話された読取処理に係る音声をスマートスピーカ２が集音して音声データを取得してクラウドサービス装置５に音声データを送信する。クラウドサービス装置５は、スマートスピーカ２から受信した音声データに基づいて読取命令を生成し、生成した読取命令を、ネットワーク７を介してＭＦＰ６に送信する。さらに、読取命令を受信したＭＦＰ６は、受信した読取命令を実行する。ここで、ＭＦＰ６は、画像読取装置の一例である。なお、上述したネットワーク７は、有線ＬＡＮ、無線ＬＡＮのいずれで構成されてもよい。

〔ハードウェア構成〕
次に、図２乃至図６を用いて、本実施形態のスマートスピーカ２、音声認識サーバ装置３、ＡＩアシスタントサーバ装置４及びＭＦＰ６のハードウェア構成を詳細に説明する。

＜スマートスピーカのハードウェア構成＞
図２は、スマートスピーカのハードウェア構成の一例を示す図である。音声取得装置の一例としてのスマートスピーカ２は、図２に示すようにＣＰＵ２１、ＲＡＭ２２、ＲＯＭ２３、インターフェイス部（Ｉ／Ｆ部）２４及び通信部２５を含むハードウェア資源を、内部バス２６を介して相互に接続される。

ＣＰＵ２１は、スマートスピーカ２全体を統括制御する制御デバイスである。

ＲＡＭ２２は、例えば、ＲＯＭ２３等に記憶された各種プログラムがダウンロードされ、ＣＰＵ２１によって各種処理が実行されるワークエリアとしての機能を有する。

ＲＯＭ２３には、操作音声処理プログラムを含む各種プログラムを構成するデータが記憶されている。ＣＰＵ２１は、これらの処理プログラムを実行することで、ＭＦＰ６に対する音声操作による処理を可能とする。また、ＣＰＵ２１は、クラウドサービス装置５から取得したデータのタッチパネル２７への表示制御、スピーカ部２８を介したフィードバックのための音声出力制御、画像出力制御等を実行する。

Ｉ／Ｆ部２４には、タッチパネル２７、スピーカ部２８、マイクロホン部２９及び撮像部（カメラ部）３０が接続される。

通信部２５は、ユーザによる音声操作によって得られた情報を、ネットワーク７を介して音声認識サーバ装置３に送信する。また、通信部２５は、ネットワーク７を介して他の装置と通信を行う際、有線、無線いずれの通信形態でも通信を行うことが可能である。

内部バス２６は、ＣＰＵ２１、ＲＡＭ２２、ＲＯＭ２３、Ｉ／Ｆ部２４及び通信部２５を接続する汎用バスである。この内部バス２６は、スマートスピーカ等の汎用機器で一般的に用いられるバスであればその種類は問わない。

タッチパネル２７は、例えば、液晶表示部（ＬＣＤ：Liquid Crystal Display）とタッチセンサとが一体的に形成されたものである。タッチパネル２７は、液晶表示部上に配置されたタッチキー等に対してユーザがタッチ動作等を行うことによって、所望の動作が指定される。

スピーカ部２８は、ユーザに対して、不足する情報の入力等を促すための音声による音声フィードバックを行う。

マイクロホン部２９は、例えば、音声操作によってＭＦＰ６に対して原稿の読み取りを実行させるために、ユーザが発話した音声によって与えられた音声データを取得する。取得された音声データは、通信部２５を介して音声認識サーバ装置３に送信され、音声認識サーバ装置３でテキストデータに変換される。

撮像部（カメラ部）３０は、スマートスピーカ２を使用するユーザ及びその他の画像等を撮影する。撮影された画像等は、動画像データ若しくは静止画像データ（以下、単に画像データと呼ぶ）として通信部２５を介して音声認識サーバ装置３に送信される。

＜音声認識サーバ装置のハードウェア構成＞
図３は、音声認識サーバ装置のハードウェア構成の一例を示す図である。
音声認識サーバ装置３は、図３に示すように、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ（Hard Disk Drive）３４、インターフェイス部（Ｉ／Ｆ部）３５及び通信部３６を含むハードウェア資源を、内部バス３７を介して相互に接続される。また、Ｉ／Ｆ部３５には、表示部３８及び操作部３９が接続される。

ＨＤＤ３４には、以下の操作音声変換プログラムを構成するデータが記憶されている。なお、操作音声変換プログラムは、例えば、スマートスピーカ２から受信した音声データをテキストデータに変換する。続いて、操作音声変換プログラムは、変換したテキストデータを予め定義された辞書情報と一致するか否かを判断する。辞書情報と一致するか否かの判断において、操作音声変換プログラムは、辞書情報と一致した場合には、テキストデータをユーザの意図を示すインテント（Ｉｎｔｅｎｔ）及び所定の処理の実行条件などの変数を示すパラメータに変換する。その後、操作音声変換プログラムは、ユーザの意図を示すインテント及び所定の処理の実行条件などの変数を示すパラメータを、ＡＩアシスタントサーバ装置４に送信する。

ＣＰＵ３１は、上述した操作音声変換プログラムを含む各種プログラムを実行する。つまり、音声認識サーバ装置３は、音声データを受信して、音声を解析する装置として機能する。なお、操作音声変換プログラム、操作画像変換プログラム、音声アシスタントプログラムは、一つのサーバ装置で実行されてもよいし、それぞれ異なるサーバ装置で実行されてもよい。さらに、複数のサーバ装置の連携によって、これらのプログラムが実行されてもよい。

ＲＡＭ３２は、例えば、ＲＯＭ３３等の記憶部に記憶された各種プログラムがダウンロードされ、ＣＰＵ３１によって各種処理が実行されるワークエリアとしての機能を有する。

ＲＯＭ３３には、ＨＤＤ３４に記憶された各種プログラム以外のその他のプログラムを構成するデータが記憶されている。ＣＰＵ３１は、ＲＯＭ３３に記憶された各種プログラムを実行することで、スマートスピーカ２及びＡＩアシスタントサーバ装置４との間の制御を行ってもよい。

Ｉ／Ｆ部３５には、表示部３８及び操作部３９が接続される。

通信部３６は、ユーザの発話に伴う音声操作によって得られた音声データをスマートスピーカ２から受信する。また、通信部３６は、ネットワーク７を介して他の装置と通信を行う際、有線、無線いずれの通信形態でも通信を行うことが可能である。

内部バス３７は、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ３４、Ｉ／Ｆ部３５及び通信部３６を接続する汎用バスである。この内部バス３７は、音声認識サーバ装置３がサーバ装置としての機能が実現できるものであれば、その種類は問わない。

表示部３８は、例えば、液晶表示部（ＬＣＤ：Liquid Crystal Display）で構成され、例えば、音声認識サーバ装置３の各種状態を表示する。

操作部３９は、例えば、液晶表示部とタッチセンサとが一体的に形成された、いわゆるタッチパネルである。操作者（ユーザ）は、操作部３９を用いて所望の動作の実行命令を行う場合、操作部３９に表示された操作ボタン（ソフトウェアキー）等を接触操作することで、所望の動作を指定する。

また、操作音声処理プログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、ＣＤ－Ｒ、ＤＶＤ（Digital Versatile Disk）、ブルーレイディスク（登録商標）、半導体メモリなどのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、インターネット等のネットワーク経由でインストールするかたちで提供してもよいし、音声認識サーバ装置３のＲＯＭ等の記憶部に予め組み込んで提供してもよい。

＜ＡＩアシスタントサーバ装置のハードウェア構成＞
図４は、ＡＩアシスタントサーバ装置のハードウェア構成の一例を示す図である。ＡＩアシスタントサーバ装置４は、ＣＰＵ４１、ＲＡＭ４２、ＲＯＭ４３、ＨＤＤ４４、インターフェイス部（Ｉ／Ｆ部）４５及び通信部４６を含むハードウェア資源を、内部バス４７を介して相互に接続している。また、Ｉ／Ｆ部４５には、表示部４８及び操作部４９が接続されている。

ＨＤＤ４４のＡＩ記憶部４０には、ユーザが音声入力により指示する読取命令を解釈するための辞書情報が記憶されている。この辞書情報には、後述するエンティティ（Ｅｎｔｉｔｙ）情報、アクション（Ａｃｔｉｏｎ）情報及びインテント情報が含まれる。また、ＨＤＤ４４には、以下に示すユーザ管理テーブル４０２ａ及び装置管理テーブル４０２ｂがそれぞれ記憶されている。これらのテーブルは、予め所定の設定値が与えられているが、適宜追加及び変更が行われてもよい。以下に、ユーザ管理テーブル４０２ａ及び装置管理テーブル４０２ｂの概要を説明する。

（各種テーブル）
図５は、各種テーブルの一例である。ＡＩアシスタントサーバ装置４のＨＤＤ４４等の記憶部には、図５（ａ）に示すユーザ管理テーブル４０２ａ、図５（ｂ）に示す装置管理テーブル４０２ｂ及び図５（ｃ）に示す命令管理テーブル４０２ｃによって構成された紐づけ用ＤＢ４０２が構築されている。ただし、命令管理テーブル４０２ｃはＭＦＰ６に記憶されていてもよい。この場合、命令管理テーブル４０２ｃは一つのＭＦＰ６でのみ利用されるため、命令管理テーブル４０２ｃは画像読取装置名及び画像読取装置の装置ＩＤを含まなくてもよい。これらのうち、ユーザ管理テーブル４０２ａでは、音声取得装置のデバイスＩＤ毎に、ユーザ名、ユーザＩＤを含む情報が関連付けられて管理される。また、装置管理テーブル４０２ｂでは、音声取得装置名又は音声取得装置のデバイスＩＤ毎に、ＭＦＰ６(画像読取装置)の装置名、画像読取装置を識別するための装置ＩＤ（以下、単に装置ＩＤともいう）及び画像読取装置の接続情報を含む各種情報が関連付けられて管理される。さらに、命令管理テーブル４０２ｃでは、画像読取装置名又は装置ＩＤ毎に、原稿サイズ、ファイル形式、解像度、カラー／モノクロ、シングルページ／マルチページ、宛先及び連続処理フラグが関連付けられて管理される。

ユーザ管理テーブル４０２ａ及び装置管理テーブル４０２ｂで用いられる音声取得装置のデバイスＩＤは、上述したように音声取得装置の一例としてのスマートスピーカ２を識別するためのデバイス識別情報の一例である。つまり、デバイスＩＤは、音声取得装置を識別するための装置識別情報の一例である。また、音声取得装置のデバイスＩＤに代えて又は加えて、音声取得装置の装置名を示す音声取得装置名を管理してもよい。

また、装置管理テーブル４０２ｂで管理される画像読取装置名は、ユーザが使用するスマートスピーカ２に対する発話によって読取命令等が実行される画像読取装置の装置名である。この画像読取装置名には、上述したＭＦＰ６、単体で稼働するスキャナ等の装置名が与えられる。

一方、装置ＩＤは、画像読取装置を識別するための装置識別情報の一例である。また、装置ＩＤは、ＭＦＰ６を識別するための情報である。

また、ＨＤＤ４４には画像読取装置（ＭＦＰ）毎に接続情報が割り振られて記憶されている。ここで、接続情報はそれぞれのＭＦＰと通信接続するために必要な情報であり、例えばアドレス情報が与えられる。

なお、装置管理テーブル４０２ｂは、未登録の新たな使用者のユーザＩＤ及びその使用者が使用する音声取得装置のデバイスＩＤ並びにその使用者が指定した装置ＩＤをそれぞれ関連付けて、新たに追加登録されるようにしてもよい。

さらに、命令管理テーブル４０２ｃの連続処理フラグは、原稿が複数ページからなる書籍等の場合に、ユーザが発する所定の発話内容に応じて、原稿の読取り処理を継続するか否かを判断するためのフラグとして管理される。この連続処理フラグは、ユーザが最初の原稿の読取りを指定した後、「次」、「続けて」等の発話内容が検出された場合に、例えば、『１』の値が設定されて管理される。一方、原稿が１枚だけの場合では、ユーザから次の原稿の読取りを示唆する発話はされないため、この連続処理フラグは、例えば、『０』の値が設定されて管理される。なお、連続処理フラグは、初期設定値として『０」が与えられてもよい。

なお、ユーザから発話された「終了」、「以上」又は「これで最後」等の発話内容に応じて複数ページからなる原稿の最終ページの読取りが完了した場合、又は１ページのみの原稿の読取りが完了した場合には、命令管理テーブル４０２ｃの命令は削除される。ただし、連続処理フラグが『１』の場合は『０』」に変更又は設定され、『０』の場合はその値が維持されるようにしてもよい。この連続処理フラグに係る設定処理については、後ほど詳細に説明する。

さらに、命令管理テーブル４０２ｃも同様に、未登録の新たなユーザのユーザＩＤ及びそのユーザが使用する音声取得装置のデバイスＩＤ並びにそのユーザが指定した装置ＩＤをそれぞれ関連付けて、新たに追加登録されるようにしてもよい。例えば、ＡＩアシスタントサーバ装置４は、ユーザの発話に基づいて命令を生成するタイミングやＭＦＰ６に対して読取命令を送信するタイミングにおいて、命令管理テーブル４０２ｃに命令が含まれているか否かを確認し、含まれていない場合は命令管理テーブル４０２ｃに登録することができる。このとき、命令を送信する対象となるＭＦＰ６を特定するための情報として画像読取装置名又は画像読取装置の装置ＩＤと、ユーザによって指定された各種パラメータとを関連付けて、連続処理フラグは０として登録する。

ＣＰＵ４１は、音声認識サーバ装置３で生成（変換）された解釈結果をＭＦＰ６に対する読取命令等のデータに変換してネットワーク７を介してＭＦＰ６に送信する。なお、ユーザから指示された意図は、例えば、ＭＦＰ６への読取命令及び各種命令のための指示を含む。このようにして、スマートスピーカ２で取得された音声データにより、ＭＦＰ６を操作することができる。

ＲＡＭ４２は、例えば、ＨＤＤ４４等の記憶部に記憶された各種プログラムがダウンロードされ、ＣＰＵ４１によって各種処理が実行されるワークエリアとしての機能を有する。

ＲＯＭ４３には、例えば、ＨＤＤ４４に記憶されたプログラム以外の各種プログラムを構成するデータが記憶されている。

ＨＤＤ４４には、上述したように管理ＤＢ４０１及び紐づけ用ＤＢ４０２が構築されている。管理ＤＢ４０１には、例えば、ＡＩアシスタントサーバ装置４がクラウドサービス装置５として提供するコンテンツを示すテキストデータ、画像データ及び音声データ等が記憶されている。また、紐づけ用ＤＢ４０２には、例えば、スマートスピーカ２が複数用いられることを想定して、以下の情報が記憶されている。その情報とは、例えば、各スマートスピーカ２を特定する各デバイスＩＤと、各スマートスピーカ２への音声操作によって読取命令等が実行されるＭＦＰ６の装置ＩＤとが関連付けられた情報である。すなわち、紐づけ用ＤＢ４０２には、各スマートスピーカ２に対する音声操作により使用可能なＭＦＰ６を特定できるように、各スマートスピーカ２のデバイスＩＤとＭＦＰ６の機器ＩＤとが関連付けられて装置管理テーブル４０２ｂとして記憶されている。

Ｉ／Ｆ部４５には、表示部４８及び操作部４９が接続される。

通信部４６は、音声認識サーバ装置３及びＭＦＰ６に対するデータの送受信を、ネットワーク７を介して行う。また、通信部４６は、ネットワーク７を介して他の装置と通信を行う際、有線、無線いずれの通信形態でも通信を行うことが可能である。

内部バス４７は、ＣＰＵ４１、ＲＡＭ４２、ＲＯＭ４３、ＨＤＤ４４、Ｉ／Ｆ部４５及び通信部４６を接続する汎用バスである。この内部バス４７は、ＡＩアシスタントサーバ装置４が情報処理装置の機能を実現するものであれば、その種類は問わない。

表示部４８は、例えば、液晶表示部（ＬＣＤ：Liquid Crystal Display）で構成され、例えば、ＡＩアシスタントサーバ装置４の各種状態を表示する。

操作部４９は、例えば、液晶表示部とタッチセンサとが一体的に形成された、いわゆるタッチパネルである。操作者（ユーザ）は、操作部３９を用いて所望の動作の実行命令を行う場合、操作部４９に表示された操作ボタン（ソフトウェアキー）等を接触操作することで、所望の動作を指定する。

＜クラウドサービス装置のハードウェア構成＞
クラウドサービス装置５は、上述したように、例えば、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４を纏めたもので、スマートスピーカ２及びＭＦＰ６とそれぞれネットワーク７を介して接続される。クラウドサービス装置５を構成するハードウェア構成は、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４で説明したとおりである。

＜ＭＦＰのハードウェア構成＞
図６は、ＭＦＰのハードウェア構成の一例を示す図である。ＭＦＰ６は、コントローラ６００、近距離無線通信回路６２０、エンジン制御部６３０、操作パネル６４０、ネットワークＩ／Ｆ６５０を備えている。

これらのうち、コントローラ６００は、例えば、操作パネル６４０からの入力等を制御する。また、コントローラ６００は、ＭＦＰ６の全体制御を行う制御部としてのＣＰＵ６０１、システムメモリ（ＭＥＭ－Ｐ）６０２、ノースブリッジ（ＮＢ）６０３、サウスブリッジ（ＳＢ）６０４、ＡＳＩＣ（Application Specific Integrated Circuit）６０６、記憶部としてのローカルメモリ（ＭＥＭ－Ｃ）６０７、ＨＤＤコントローラ６０８及び記憶部としてのＨＤＤ６０９を有する。さらに、ＮＢ６０３とＡＳＩＣ６０６との間は、ＡＧＰ（Accelerated Graphics Port）バス６２１で接続される。

ＮＢ６０３は、ＣＰＵ６０１と、ＭＥＭ－Ｐ６０２、ＳＢ６０４及びＡＳＩＣ６０６とを接続するためのブリッジ回路である。ＮＢ６０３は、ＭＥＭ－Ｐ６０２に対する読み書きなどを制御するメモリコントローラと、ＰＣＩ（Peripheral Component Interconnect）マスタ及びＡＧＰターゲットとを有する。

ＭＥＭ－Ｐ６０２は、コントローラ６００の各機能を実現させるプログラム及びデータの格納用メモリであるＲＯＭ６０２ａ、プログラム及びデータの展開並びに原稿スキャン時のストレージ用メモリ及びメモリ印刷時の描画用メモリなどとして用いるＲＡＭ６０２ｂを備える。なお、ＲＡＭ６０２ｂに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルで、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

ＳＢ６０４は、ＮＢ６０３とＰＣＩデバイス、周辺デバイスとを接続するためのブリッジ回路である。

ＡＳＩＣ６０６は、画像処理用のハードウェア要素を有する画像処理用途向けのＩＣ（Integrated Circuit）である。その役割は、ＡＧＰバス６２１、ＰＣＩバス６２２、ＨＤＤコントローラ６０８及びＭＥＭ－Ｃ６０７をそれぞれ接続するブリッジ回路である。また、ＡＳＩＣ６０６は、ＰＣＩターゲット及びＡＧＰマスタ、ＡＳＩＣ６０６に接続される他のデバイスの動作及びタイミングを調停するアービタ（ＡＲＢ）、ＭＥＭ－Ｃ６０７を制御するメモリコントローラ、ＤＭＡ制御を司るＤＭＡＣ（Direct Memory Access Controller）、スキャナ部６３１及びプリンタ部６３２との間でＰＣＩバス６２２を介したデータ転送を行うＰＣＩユニットを有する。

なお、ＡＳＩＣ６０６には、ＵＳＢ（Universal Serial Bus）のインターフェイス、及び、ＩＥＥＥ１３９４（Institute of Electrical and Electronics Engineers 1394）のインターフェイスを接続するようにしてもよい。

ＭＥＭ－Ｃ６０７は、コピー用画像バッファ及び符号バッファとして用いるローカルメモリである。

ＨＤＤ６０９は、画像データの蓄積、読み取られた原稿の印刷時に用いるフォントデータの蓄積、フォームの蓄積等を行うためのストレージである。ＨＤＤコントローラ６０８は、ＣＰＵ６０１の制御にしたがってＨＤＤ６０９に対するデータの読出し又は書込みを制御する。

ＡＧＰバス６２１は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインターフェイスである。ＡＧＰバス６２１は、ＭＥＭ－Ｐ６０２に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。

近距離無線通信回路６２０は、近距離無線通信を行うための回路であり、近距離無線通信回路用アンテナ６２０ａを備える。近距離無線通信回路６２０は、例えば、ＮＦＣ（Near Field Communication）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の無線通信回路である。

エンジン制御部６３０は、スキャナ部６３１及びプリンタ部６３２によって構成される。スキャナ部６３１及びプリンタ部６３２には、誤差拡散及びガンマ変換などの画像処理部分が含まれる。

（スキャナ部の構成）
操作部１１の一部としての操作パネル６４０は、ＭＦＰ６に搭載又は接続可能であり、パネル表示部６４０ａ及びパネル操作部６４０ｂを含む。本実施形態では、一例としてＭＦＰ６に接続可能な状態を示している。パネル表示部６４０ａは、現在の設定値及び選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等を備える。また、パネル操作部６４０ｂは、原稿サイズ、ファイル形式、解像度等で与えられる原稿の読取りに係る属性情報（各種条件ともいう）の入力を受け付けるテンキー及びコピー開始指示を受け付けるスタートキー等を備える。原稿の読取りに係る属性情報は、具体的には、命令管理テーブル４０２ｃに例示した、原稿サイズ、ファイル形式、解像度、カラー／モノクロ、シングルページ／マルチページ、宛先及び連続処理フラグ等が与えられる。

ネットワークＩ／Ｆ６５０は、通信ネットワークを利用してデータ通信をするためのインターフェイスである。近距離無線通信回路６２０及びネットワークＩ／Ｆ６５０は、ＰＣＩバス６２２を介して、ＡＳＩＣ６０６に電気的に接続される。

なお、ＭＦＰ６は、パネル表示部６４０ａに表示される又はパネル操作部６４０ｂが備えるアプリケーション切替キーにより、ドキュメントボックス機能、コピー機能、プリンタ機能及びファクシミリ機能を切り替えて選択することが可能となる。つまり、ＭＦＰ６は、ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリ機能の選択時にはファクシミリモードとなる。

〔機能構成〕
＜音声操作システムの機能構成＞
図７は、音声操作システムを構成する各装置の機能ブロックの一例を示す図である。音声操作システム１は、図１に示したように、スマートスピーカ２、音声認識サーバ装置３、ＡＩアシスタントサーバ装置４、クラウドサービス装置５（音声認識サーバ装置３及びＡＩアシスタントサーバ装置４を纏めたもの）及びＭＦＰ６がそれぞれネットワーク７を介して接続されている。

＜スマートスピーカの機能構成＞
スマートスピーカ２は、クラウドサービス装置５を構成する音声認識サーバ装置３及びＡＩアシスタントサーバ装置４との間で、例えば音声データ、画像データ及びテキストデータ等のデータ通信を行う。

図２に示したスマートスピーカ２のＣＰＵ２１は、ＲＯＭ２３等の記憶部に記憶された操作音声処理プログラムをＲＡＭ２２に展開して実行することで、例えば、通信制御部２５１、取得部２５２、フィードバック部２５３、記憶・読出処理部２５４（以下、通信制御部２５１～記憶・読出処理部２５４とも記載する）として機能又は機能する手段を構成する。

＜スマートスピーカの各機能構成＞
次に、スマートスピーカ２の各機能構成について説明する。通信制御部２５１は、ネットワーク７を介してスマートスピーカ２と音声認識サーバ装置３又はクラウドサービス装置５との間の通信を制御し、各種データ又は情報の送受信を行う。その際、通信制御部２５１は、スマートスピーカ２の通信部２５を制御して各種データ又は情報の送受信を行う。通信制御部２５１は、次に説明する取得部２５２が取得した当該スマートスピーカ２に対してユーザが行った所定の操作及び指示等に基づく情報を音声認識サーバ装置３（又はクラウドサービス装置５）に送信する。また、通信制御部２５１は、フィードバックのために、クラウドサービス装置５からテキストデータ、画像データ、音声データ等を取得する。さらに、通信制御部２５１は、ユーザが行った所定の操作及び指示等に係る情報を音声認識サーバ装置３（又はクラウドサービス装置５）に送信する際に、スマートスピーカ２を特定するデバイスＩＤもあわせて送信する。

上述したように、通信制御部２５１は、スマートスピーカ２がＬＡＮ等のネットワーク７を介して接続される他の装置との通信を制御する。この通信を行う際の通信方式は、例えば、一般的にＬＡＮで使用されるＥｔｈｅｒｎｅｔ（登録商標）等の通信プロトコルが用いられる。この通信制御部については、後述する音声認識サーバ装置３、ＡＩアシスタントサーバ装置４、クラウドサービス装置５及びＭＦＰ６が有する各通信制御部についても同様の機能を有する。

取得部２５２は、音声データ取得手段の一例である。取得部２５２は、マイクロホン部２９を介して集音されたユーザの音声操作に伴う指示音声を取得する。また、取得部２５２は、ユーザによるタップ操作又は物理スイッチの押下などの機械操作を含む指示操作を取得してもよい。つまり、取得部２５２は、指示音声及び指示操作を含む指示を表す情報のうち少なくとも一つを取得する。ここで、上述した指示を表す情報は、指示情報に相当する。なお、ユーザの指示音声には、例えば、ＭＦＰ６等に原稿の読取りを実行させるための読取命令及び各種命令を実行するための処理実行命令に変換するための情報が含まれる。

取得部２５２は、上述した操作音声処理プログラムを実行することで、ユーザの発話によって与えられた音声データを取得して音声認識サーバ装置３（又はクラウドサービス装置５）に送信する。さらに取得部２５２は、フィードバック部２５３と協働して、クラウドサービス装置５から取得したデータ（音声データ、画像データ及びテキストデータ等）を、タッチパネル２７に表示するか、又はスピーカ部２８を介した音声をユーザに通知する。なお、タッチパネル２７は、スマートスピーカ２と一体で構成されていてもよいし、別々に構成されていてもよい。スマートスピーカ２と別々に構成される場合、タッチパネル２７は、スマートスピーカ２と行う無線通信等に必要な無線通信インターフェイスを備えておけばよい。

フィードバック部２５３は、ユーザの発話によって与えられた音声データに基づいてＭＦＰ６で実行される原稿の読取り及び所定の処理において、必要に応じてスマートスピーカ２がユーザに対して応答するように機能する。このフィードバック部２５３によって、本実施形態はユーザとの間での対話型システムを実現している。また、この対話型システムにおける音声操作を実現するため、フィードバック部２５３は、例えば、ユーザの指示音声に対して不足するデータを補うために音声のフィードバックを行う。さらに、フィードバック部２５３は、タッチパネル２７の画面への表示により、フィードバック対象のテキスト、音声又は画像をユーザに提供してもよい。なお、フィードバック部２５３による対話型動作及びフィードバックの詳細については、後述する。

記憶・読出処理部２５４は、例えば、ＲＯＭ２３に各種データを記憶したり、ＲＯＭ２３に記憶された操作音声処理プログラム等の各種データを読み出したりする処理を行う。

なお、本実施形態では、通信制御部２５１～記憶・読出処理部２５４は、ソフトウェアで実現されてもよい。また、通信制御部２５１～記憶・読出処理部２５４は、他のプログラムに処理の一部を実行させ、又は他のプログラムを用いて間接的に処理を実行させてもよい。さらに、通信制御部２５１～記憶・読出処理部２５４は、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現されてもよい。

＜音声認識サーバ装置の機能構成＞
音声認識サーバ装置３は、スマートスピーカ２から受信した音声データを解析し、テキストデータへ変換する。また、テキストデータと事前登録されている辞書情報とに基づいてユーザの意図を解釈し、解釈結果をＡＩアシスタントサーバ装置４に送信する。

音声認識サーバ装置３のＣＰＵ３１は、スマートスピーカ２を介してユーザによって与えられた音声データに応じて、ＨＤＤ３４等の記憶部に記憶された操作音声変換プログラム等をＲＡＭ３２に展開して実行する。この操作音声変換プログラムが実行されることにより、ＣＰＵ３１は、例えば、通信制御部３５１、取得部３５２、テキスト変換部３５３、解釈部３５４、出力部３５５、提供部３５６及び記憶・読出処理部３５７（以下、通信制御部３５１～記憶・読出処理部３５７とも記載する）として機能又は機能する手段を構成する。

＜音声認識サーバ装置の各機能構成＞
次に、音声認識サーバ装置３の各機能構成について説明する。通信制御部３５１は、ネットワーク７を介してスマートスピーカ２又はＡＩアシスタントサーバ装置４との間の通信を制御し、各種データ又は情報の送受信を行う。具体的には、通信制御部３５１は、ユーザによって与えられた音声データの受信及びスマートスピーカ２に対するテキストデータの送信等を行うように、音声認識サーバ装置３の通信部３６を制御する。

取得部３５２は、スマートスピーカ２から送信される所定の操作及び指示等に基づく情報を取得する。また、取得部３５２は、スマートスピーカ２のタッチパネル、ボタン又はスイッチ等のユーザ操作に基づく情報を取得してもよい。

テキスト変換部３５３は、取得部３５２で取得した情報、すなわち音声データをテキストデータに変換する。

解釈部３５４は、テキスト変換部３５３で変換されたテキストデータに基づいて、ユーザからの指示を解釈する。具体的には、解釈部３５４は、音声アシスタントプログラムから提供された辞書情報に基づいて、テキストデータに含まれる単語などが辞書情報と一致しているか否かを判断する。そして、辞書情報と一致している場合には、解釈部３５４は、ユーザの意図を示すインテントと所定の処理の実行条件などの変数を示すパラメータに変換する。解釈部３５４は、インテント及びパラメータを、通信制御部３５１を介してＡＩアシスタントサーバ装置４で実行される管理プログラムに送信する。このとき、解釈部３５４は、スマートスピーカ２のデバイスＩＤもインテント及びパラメータと共に通信制御部３５１を介してＡＩアシスタントサーバ装置４で実行される管理プログラムに送信する。

出力部３５５は、スマートスピーカ２に対するテキストデータ、音声データ、画像データ等のデータの送信を行うように、通信部３６を制御する。

さらに、ＣＰＵ３１は、ＨＤＤ３４等の記憶部に記憶された音声アシスタントプログラムを実行することで、提供部３５６として機能する。

提供部３５６は、ＨＤＤ３４等の記憶部に記憶されているテキストデータ、インテント及びパラメータの関係を予め定義した辞書情報を管理し、操作音声変換プログラムに対して提供する。また、提供部３５６は、テキスト変換部３５３で変換したテキストデータに基づいて、ユーザからの発話内容を変換、解釈してもよい。すなわち、提供部３５６は、テキスト変換部３５３及び解釈部３５４の機能を併せ持っていてもよい。具体的には、提供部３５６は、まず操作音声変換プログラムからテキストデータを取得し、テキストデータに含まれる単語などが辞書情報と一致しているか否かを判断する。その判断の結果、辞書情報と一致している場合には、提供部３５６は、テキストデータをインテントとパラメータに変換する。その後、提供部３５６は、インテント及びパラメータを操作音声変換プログラムに対して提供する。

記憶・読出処理部３５７は、例えば、ＲＯＭ３３に記憶された操作音声変換プログラム等の各種プログラムを構成するデータの読出し処理を行う。

なお、本実施形態では、通信制御部３５１～記憶・読出処理部３５７は、ソフトウェアで実現されてもよい。また、通信制御部３５１～記憶・読出処理部３５７は、他のプログラムに処理の一部を実行させ、又は他のプログラムを用いて間接的に処理を実行させてもよい。例えば、操作音声変換プログラムの解釈部３５４の機能の一部又は全てを音声アシスタントプログラムに実行させてもよい。さらに、操作画像変換プログラムの解釈部３５４の機能の一部又は全てを画像アシスタントプログラムに実行させてもよい。これらの場合、例えば、テキストデータに含まれる単語などが辞書情報と一致しているか否かの判断、及び辞書情報と一致している場合にユーザの意図を示すインテントと所定の処理の実行条件などの変数を示すパラメータへの変換は、音声アシスタントアプリ、画像アシスタントアプリ等に実行させてもよい。さらに、解釈部３５４は、インテント及びパラメータを音声アシスタントプログラム等から取得するものとしてもよい。さらに、通信制御部３５１～記憶・読出処理部３５７のうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。

また、上述した例では、提供部３５６をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよいこと等は、上述の他のプログラムと同様である。

＜ＡＩアシスタントサーバ装置の機能構成＞
ＡＩアシスタントサーバ装置４は、例えば、音声認識サーバ装置３で実行された操作音声変換プログラムによって得られたインテント、パラメータ及びスマートスピーカ２のデバイスＩＤ等を取得して、後述する各機能の処理を行う。

また、ＡＩアシスタントサーバ装置４は、音声認識サーバ装置３から受信した解釈結果を、ＭＦＰ６に対する読取命令等のデータに変換する。その後、ＡＩアシスタントサーバ装置４は、変換した読取命令等のデータをＭＦＰ６に送信する。ＭＦＰ６では、ＡＩアシスタントサーバ装置４から送信される読取命令等にしたがって所定の処理が実行される。なお、ＡＩアシスタントサーバ装置４は、ＭＦＰ６に読取命令等を送信する以外に、例えば、ＭＦＰ６を管理する他のサーバ装置が存在すれば、ＭＦＰ６で実行される他の実行命令等を他のサーバ装置に送信してもよい。

ＡＩアシスタントサーバ装置４のＣＰＵ４１は、ネットワーク７を介して音声認識サーバ装置３のＨＤＤ３４等の記憶部に記憶された管理プログラムを取得し、ＲＡＭ４２に展開して実行する。ＣＰＵ４１は、この管理プログラムを実行することで、例えば、通信制御部４５１、取得部４５２、解釈結果変換部４５３、実行判定部４５４、補完部４５５、実行指示部４５６、機器情報取得部４５７、通知部４５８、管理部４５９、検索部４６０及び記憶・読出処理部４６１（以下、通信制御部４５１～記憶・読出処理部４６１とも記載する）として機能又は機能する手段を構成する。

＜ＡＩアシスタントサーバ装置の各機能構成＞
次に、ＡＩアシスタントサーバ装置４の各機能構成について説明する。通信制御部４５１は、ユーザのスマートスピーカ２に対する解釈結果の送信、及びユーザによって与えられた音声データに係るテキストデータの受信等を行うように通信部４６を制御する。

取得部４５２は、は、音声認識サーバ装置３から送信されるインテント、パラメータ及びスマートスピーカ２のデバイスＩＤ等を取得する。

解釈結果変換部４５３は、操作音声変換プログラムで変換されたインテント及びパラメータなどの解釈結果を、ＭＦＰ６が解釈可能な読取命令等に変換する。この解釈結果変換部４５３は、ＡＩアシスタントサーバ装置４（又はクラウドサービス装置５）で実行される管理プログラムの機能の一つであり、読取命令変換手段の機能を担う。また、ＭＦＰ６が解釈可能な読取命令は、当該ＭＦＰ６における原稿の読取り処理（以下、読取処理と記載する）を実行するための情報（処理情報）の一例である。

実行判定部４５４は、取得した機器情報で示されるＭＦＰ６の状態と、ユーザから指定された原稿読取指示及び印刷指示等を比較することで、ユーザから指定された原稿読取指示及び印刷指示等に基づく各処理をＭＦＰ６で実行することが可能か否かを判断する。ユーザから指定された原稿の読取り及び印刷に係る内容は、例えば、ユーザから指示された時間帯に当該ＭＦＰ６が使用可能か否かの判断処理、当該ＭＦＰ６の電源状態の変更処理、当該ＭＦＰ６に対する原稿の読取り処理及び印刷処理である。また、ユーザから指定された原稿読取指示及び印刷指示等に基づく各処理が実行可能と判断された場合、実行判定部４５４は、解釈結果変換部４５３に対して、ＭＦＰ６に出力要求の一例としての読取命令及び印刷命令等に変換するよう判定する。一方、実行不可能と判断した場合、実行判定部４５４は、操作音声変換プログラム等の実行の下、スマートスピーカ２に対してエラーメッセージ等のレスポンス情報をフィードバックする。

補完部４５５は、解釈結果変換部４５３によって変換される読取命令及び印刷命令等の各種実行命令に対して、装置管理テーブル４０２ｂ及び命令管理テーブル４０２ｃを参照して、ＭＦＰ６における処理に必要な情報を補完する機能を有する。この処理に必要な情報とは、例えば、ＭＦＰ６に対する読取命令及び印刷命令等への変換に必要な情報である。この補完部４５５は補完手段の一例である。

実行指示部４５６は、解釈結果変換部４５３で変換されたＭＦＰ６への読取命令及び印刷命令等の実行を指示する。また、実行指示部４５６は、ユーザが使用したスマートスピーカ２を特定するデバイスＩＤに関連付けられているＭＦＰ６を紐づけ用ＤＢ４０２から検索し、ＭＦＰ６に対して、インテント及びパラメータと共に読取命令及び印刷命令等を送信する。

機器情報取得部４５７は、例えば、ＭＦＰ６との通信接続が確立されているか否かを示す接続状態、ＭＦＰ６の電源のオン／オフ等に係る電力使用状態、ＭＦＰ６への電力供給状態（通常モード、省エネモード等）の機器情報を取得する。なお、機器情報取得部４５７は、ＭＦＰ６から取得した機器情報を、ＭＦＰ６を特定する装置ＩＤ等と関連付けてＨＤＤ４４等の記憶部に記憶して管理する。この機器情報の記憶先は、紐づけ用ＤＢ４０２を構築する後述する装置管理テーブル４０２ｂでもよい。さらに、機器情報取得部４５７は、装置管理テーブル４０２ｂを参照して、ＭＦＰ６で実行される読取命令の生成に関連する情報を補完する機能も有する。

通知部４５８は、ユーザによる原稿読取指示及び印刷指示等への応答としてテキストデータ、音声データ及び画像データ等を操作音声変換プログラム等に通知する。また、ＭＦＰ６に対する読取命令及び印刷命令等の実行条件を示すパラメータが不足している場合には、通知部４５８は、操作音声変換プログラム等を介してスマートスピーカ２に対してフィードバックを行う。つまり、通知部４５８は、ユーザに対して不足しているパラメータの入力を促す。ここで、通知部４５８は、不足しているパラメータを確認するために必要な情報として、所定のパラメータ情報をスマートスピーカ２に送信してもよいし、パラメータの指定を促すために必要な情報としてテキストデータ、音声データ及び画像データ等をスマートスピーカ２に送信してもよい。上述した処理によって、ユーザは、どんな情報が不足しているかをスマートスピーカ２から発生される音声等によって確認することができる。

管理部４５９は、スマートスピーカ２又はクラウドサービス装置５に接続されたクライアントデバイスに対して入力された情報に基づいて、スマートスピーカ２のデバイスＩＤとＭＦＰ６の装置ＩＤとを関連付けて、紐づけ用ＤＢ４０２に登録する。つまり、紐づけ用ＤＢ４０２では、スマートスピーカ２のデバイスＩＤとＭＦＰ６の装置ＩＤとを関連付けた情報が、装置管理テーブル４０２ｂとして記憶され、管理される。

検索部４６０は、デバイスＩＤ及びユーザＩＤ（使用者ＩＤ）に基づいてＭＦＰ６を検索し、特定する。なお、検索部４６０は、上述した管理部４５９と合わせて一つの機能ユニットとして機能してもよい。

記憶・読出処理部４６１は、ＡＩアシスタントサーバ装置４のＨＤＤ４４等の記憶部に記憶された各種データの読み出し、ＨＤＤ４４等の記憶部への各種データの書き込み等の各処理を行う。

上述した通信制御部４５１～記憶・読出処理部４６１のそれぞれの機能は一例であり、どの機能ユニットがどのような処理を行うかは、音声操作システム１のソフトウェア構成により適宜変えてもよい。

なお、本実施形態では、通信制御部４５１～記憶・読出処理部４６１をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、通信制御部４５１～記憶・読出処理部４６１が実現する機能は、音声認識サーバ装置３のＨＤＤ３４等の記憶部に記憶された他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させてもよい。

（クラウドサービス装置による解釈動作の詳細）
ここで、クラウドサービス装置５による解釈動作の詳細について説明する。クラウドサービス装置５は、上述したように音声認識サーバ装置３及びＡＩアシスタントサーバ装置４を一つに纏めた装置であり、一つのサーバ装置としても機能するものである。操作音声変換プログラムは、ユーザの発話に基づく各種指示を解釈するための辞書情報に基づいてインテント及びパラメータを生成する。より具体的には、操作音声変換プログラムは、ユーザの発話によって与えられた音声データから変換されたテキストデータに含まれる単語などが辞書情報と一致するか否かを判断し、一致する場合は辞書情報に定義されているインテント及びパラメータを含む解釈結果を生成する。

上述した辞書情報は、インテント及びパラメータを生成することができるものであればどのような形態であってもよい。一例として、辞書情報は、エンティティ情報、インテント情報及び関連付け情報を含んで構成される。エンティティ情報は、ＭＦＰ６が所定の処理を実行するためのパラメータと自然言語を関連付ける情報である。また、一つのパラメータには、複数の類義語が登録可能である。インテント情報は、上述したように所定の処理の種類を示す情報である。関連付け情報は、ユーザが発話した発話フレーズ（自然言語）及びエンティティ情報、並びに、発話フレーズ及びインテント情報を、それぞれ関連付ける情報である。この関連付け情報により、ＡＩアシスタントサーバ装置４（又はクラウドサービス装置５）は、パラメータの発話順序又はニュアンスが多少変わっても、正しい解釈が可能となる。また、関連付け情報は、発話された内容に基づいてレスポンスのテキスト（解釈結果）を生成してもよい。なお、辞書情報は、上述したＡＩアシスタントサービス情報と一部機能を共通にする。

さらに、エンティティ情報には、関連付け情報の一例としてのパラメータに係る類義語も関連付けられて記憶されている。この類義語には、例えば、「スキャン」や「スキャンして」といった発話内容に対して、「読み取る」、「読取り」、「読み取って」等がＭＦＰ６に対する同じ命令及び処理を与えるものとして対応付けられている。このような類義語を登録することで、クラウドサービス装置５は、例えば、ＭＦＰ６を用いて原稿を読み取る場合に、「これ１０００ｄｐｉでスキャンして」と発話しても、「これ１０００ｄｐｉで読み取って」と発話しても、同様の処理を行うパラメータとして設定することができる。つまり、クラウドサービス装置５は、同様の処理として解釈をすることができる。

（対話型動作）
本実施形態の音声操作システム１では、ユーザの発話によって与えられた音声データに基づいてシステムが応答する対話型システムによる対話型動作を実現している。この対話型動作は、上述したように、スマートスピーカ２のフィードバック部２５３によって実行される動作の一つである。また、音声操作システム１は、対話等に必要な定型文を応答する以外に、ＭＦＰ６における原稿の読取りに係る特有の応答として、「入力不足フィードバック」及び「入力確認フィードバック」の、２種類の応答をする。これによって、音声操作システム１は、対話によるＭＦＰ６における読取処理及び印刷処理等を可能とする対話型の画像読取操作システムを実現している。

「入力不足フィードバック」は、ＭＦＰ６における原稿の読取りを実行するために必要な情報が揃っていない場合にスマートスピーカ２から出力される応答である。さらに、「入力不足フィードバック」は、ユーザの発話によって与えられた音声データの入力内容を認識できなかった場合、又は、音声操作による入力内容に必要な項目（以下、必須パラメータという）が不足している場合にスマートスピーカ２から出力される。換言すれば、必須パラメータ以外の項目（以下、単にパラメータともいう）については、ユーザから指示されていない場合であっても入力不足フィードバックを行う必要はない。一方で、「入力不足フィードバック」は、パラメータ以外にも、ＭＦＰ６における原稿の読取りにおいて必要な機能を確認する処理を含んでもよい。

対話型動作では、フィードバック部２５３は、クラウドサービス装置５が通信接続中の画像読取装置の種類に応じて、ユーザに確認する機能及びパラメータを変更してもよい。この場合、ＡＩアシスタントサーバ装置４の機器情報取得部４５７が、画像読取装置との通信が確立した後の所定のタイミングで画像読取装置の種類及び機能を示す情報を取得する。その後、機器情報取得部４５７は、取得した情報に基づいて、フィードバック部２５３がユーザに確認する機能及びパラメータを決定してもよい。

例えば、画像読取装置がＭＦＰ６である場合、フィードバック部２５３は、ＭＦＰ６での原稿の読取りに必要な項目（使用者名、使用日時、等）をユーザに確認できる。更に、フィードバック部２５３は、ＭＦＰ６で使用される備品リソース等の情報をユーザに確認してもよい。また、機器情報取得部４５７は、ユーザから指定された設定条件に応じて必須パラメータを変更してもよい。例えば、ユーザが指定した原稿の読取りの条件が見開きページ読取りの場合は、機器情報取得部４５７は、原稿の読取りに必要な具体的な条件（例えば、ＡＤＦによる原稿の読取りか原稿台による原稿の読取りか、等）を必須パラメータとして設定してもよい。

「入力確認フィードバック」は、ＭＦＰ６での原稿の読取りを実行するために必要な情報が揃った場合に出力される応答である。つまり、「入力確認フィードバック」は、全ての必須パラメータについて指示された場合に行われる。また、「入力確認フィードバック」は、現在の設定値で読取処理を実行するか、又は、設定値を変更するかの選択をユーザに促すために行われる。なお、「入力確認フィードバック」が行われることによって、現在の設定値で読取処理を実行するか否かを確認するために、ユーザにより指示された全てのパラメータ（必須パラメータか必須パラメータ以外のパラメータかに関わらず）を、ユーザに確認することができる。

（ＡＩアシスタントサーバ装置からフィードバックされる情報の例）
上述の説明では、スマートスピーカ２のフィードバック部２５３はレスポンス情報に含まれるテキストデータ及び音声データを出力することとして説明した。しかし、フィードバック部２５３は、スマートスピーカ２のＲＯＭ２３等の記憶部に記憶されたテキストデータに基づいて、レスポンス情報に対応するテキストデータを形成し、フィードバック出力（音声出力及びテキスト出力のうち少なくとも一つ）を行ってもよい。なお、具体的なフィードバックの内容は後述する。

次に、紐づけ用ＤＢ４０２の具体例について図５を用いて説明する。図５は、情報処理システムの一例としての音声操作システム１で用いられる紐づけ用ＤＢ４０２で管理されるデータテーブルの一例である。例えば、本実施形態では、デバイスＩＤとして「ｕｄ１００１」を有するスマートスピーカ２から原稿読取指示が与えられた画像読取装置の名称は、「ＭＦＰ＿＃１」であり、「ＭＦＰ＿＃１」の装置ＩＤは、「ｄ０００１」である。以下、詳細な説明は省略するが、図５に示した紐づけ用ＤＢ４０２の装置管理テーブル４０２ｂは、音声取得装置名毎に、音声取得装置のデバイスＩＤ、画像読取装置名及び装置ＩＤとが関連付けられている。すなわち、紐づけ用ＤＢ４０２には、各スマートスピーカ２とＭＦＰ６とを特定できるように、各スマートスピーカ２のデバイスＩＤとＭＦＰ６の装置ＩＤとがそれぞれ関連付けられて記憶されている。なお、図５に示したそれぞれのＩＤの種類及び値は一例であり、上述した内容に限らない。

＜ＭＦＰの機能構成＞
ＭＦＰ６のＣＰＵ６０１は、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）から送信された読取命令に基づいて、ＨＤＤ６０９等の記憶手段に記憶された原稿の読取りに係る実行プログラムをＲＡＭ６０２ｂに展開して実行する。ＣＰＵ６０１は、この読取命令を実行することで、例えば、通信制御部６５１、命令受信部６５２、判断部６５３、読取実行部６５４、通知部６５５及び記憶・読出処理部６５６として機能又は機能する手段を構成する。

＜ＭＦＰの各機能構成＞
次に、ＭＦＰ６の各機能構成について説明する。通信制御部６５１は、ＡＩアシスタントサーバ装置４の通信制御部４５１とネットワーク７を介して通信を行う。但し、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）と直接通信を行ってもよい。

命令受信部６５２は、ＭＦＰ６で実行される読取命令等の各種命令を、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）から受信する。つまり、命令受信部６５２は、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）から読取命令等の各種命令を受信する受信手段の機能を担う。

判断部６５３は、命令受信部６５２が読取命令を受信した場合、読取命令に係る情報（画像読取装置名、画像読取装置の装置ＩＤ、ユーザ名及びユーザＩＤ、等）に基づいて、ＨＤＤ６４等の記憶部に記憶された各種情報の検索を行い、読取命令の実行対象となるファイルを特定し、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）に対して読取命令又は所定の処理要求を生成する。

読取実行部６５４は、命令受信部６５２で受信した読取命令に基づいて、ＭＦＰ６において読取処理を実行する。また、読取実行部６５４は、例えば、命令受信部６５２が読取命令を受信した場合、読取命令に含まれる上述の各種情報に基づいて、ＨＤＤ６０９等の記憶部に記憶された原稿の読取状況を更新する。一方、ＭＦＰ６が何らかの原因で原稿の読取処理ができない場合は、ＭＦＰ６からのステータス信号等を受信して、外部にエラーを通知してもよい。その際、エラー通知はＭＦＰ６から直接スマートスピーカ２に送信される。また、エラー通知の受信に伴い、原稿の読取りに係る取消要求を取得した場合は、読取実行部６５４は、条件に一致するＭＦＰ６の読取処理を記憶部から削除する。

上述したように、読取実行部６５４は、スマートスピーカ２に対してユーザが行う音声操作によって与えられた、ＭＦＰ６に対する読取命令及び所定の処理の指示等の内容に基づく読取処理等を実行する読取制御手段の機能を担う。本実施形態では、読取実行部６５４はＭＦＰ６における読取処理を例に説明したが、実行される処理が読取処理に加えて外部装置へのファイル送信及びストレージへの保存等を行う画像読取装置の場合は、画像読取装置で受信したそれぞれのファイル及びデータを所定の出力要求に含まれる出力形式で出力（送信）するなどの出力処理が可能である。

通知部６５５は、ＭＦＰ６の状態をスマートスピーカ２に通知する。通知される内容は、例えば、当該装置の原稿の読取り及びその他の動作に係る情報、並びに当該装置の起動又はログイン等に関する情報である。なお、通知部６５５は、ユーザから与えられた原稿読取指示を受け付けた時点で、上述した各種情報をスマートスピーカ２に通知してもよい。一方で通知部６５５は、受信した読取命令に含まれる原稿の読取りの開始時刻になったら上述した各種情報をスマートスピーカ２に通知してもよい。また、読取命令に含まれる原稿の読取りの内容に重複があった場合、又は原稿の読取りの開始時刻の所定時間前（例えば、１０分前）に当該装置に故障等が発生した場合は、通知部６５５は、通信制御部６５１を介してスマートスピーカ２に対して、メール、画像配信等で読取処理に係る内容の重複及び故障等に関する通知を行ってもよい。

記憶・読出処理部６５６は、ＨＤＤ６０９等の記憶部を制御して、各種データの読出し、書込みを行う。

なお、本実施形態では、通信制御部６５１～記憶・読出処理部６５６をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。

＜音声操作システムの処理の概要＞
本実施形態に係る音声操作システム１は、音声を集音して音声データを得るスマートスピーカ２と、原稿に対して少なくとも１回以上の画像の読取りを行うＭＦＰ６と、スマートスピーカ２が送信した音声データを受信し、受信した音声データから所定の読取条件に基づいて原稿を読み取るための読取命令に変換してＭＦＰ６に送信するクラウドサービス装置５（又はＡＩアシスタントサーバ装置４）を備える。クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）は、ユーザから続けて与えられたスマートスピーカ２への発話内容に基づく音声データが、直前に送信した読取命令を継続して実行可能な内容であるか否か、すなわち、継続して原稿の読取りを行う読取条件が存在するか否かを判断する。クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）は、継続して原稿の読取りを行う読取条件が存在すると判断した場合には、その読取条件を引き継いだ読取命令をＭＦＰ６に再送し、その読取命令を受信したＭＦＰ６は、再送された読取命令に基づいて原稿の読取りを継続して実行する構成となっている。上述した構成について、以下に詳述する。

〔実施形態の処理又は動作〕
＜第１の実施形態＞
図８ａ及び図８ｂは、第１の実施形態におけるユーザの発話に基づく読取処理の一例を示すシーケンス図である。第１の実施形態では、ＭＦＰ６に対する原稿読取要求をＡＩアシスタントサーバ装置４から送信するとともに、連続して原稿を読み取る場合の読取命令に変換する処理について説明する。具体的には、第１の実施形態では、ユーザの発話によってＡＩアシスタントサーバ装置４からＭＦＰ＿＃１に対して読取命令を送信し、ＭＦＰ６で原稿の読取り及び継続した読取処理を行う場合を例示する。以下にシーケンス図における各処理を示す。

本実施形態における音声操作システム１では、ユーザが利用するＭＦＰ６の隣りに又は近接してスマートスピーカ２が配置されている状態を一例として説明する。この状態において、まずユーザは、例えば製本された原稿の所望のページを開いて動作可能な状態のＭＦＰ６の原稿台に乗せる。このとき、ユーザは製本原稿に手を添えて原稿台に押さえていてもよい。続いてユーザは、スマートスピーカ２に向かって「１０００ｄｐｉで田中さん宛にスキャン」と発話する。この発話に伴い、スマートスピーカ２の取得部２５２は、例えば、図３に示したマイクロホン部２９を使用してユーザから発話された「１０００ｄｐｉで田中さん宛にスキャン」という発話音声に基づく音声データを取得する（ステップＳ１０１）。

なお、ユーザから発話された内容が単に「スキャンして」のように原稿の読取りに係る解像度、宛先等が含まれていない場合は、ＡＩアシスタントサーバ装置４の補完部４５５は、後述するフィードバック処理によって、スマートスピーカ２に対して「何ｄｐｉでスキャンしますか？」、「スキャンした原稿を誰宛に送信しますか？」等の問合せを音声で行うように制御する。この問合せには、各種パラメータを補完するための情報が含まれる。つまり、本実施形態における音声操作システム１は、ユーザが発話した一つの内容に対して一つの質問（１対１のフィードバック処理）が行われることを前提とする。但し、音声操作システム１は、ユーザが発話した複数の内容に対して一つの質問（多対１のフィードバック処理）、又は、ユーザが発話した一つの質問に対して多数の質問（１対多のフィードバック処理）が行われるように制御されてもよい。

なお、ＭＦＰ６に対して原稿のスキャンを実行させるための発話内容は上述した内容に限定されない。例えば、発話内容に原稿の読取りのための各種設定を示すスキャン設定を指定する内容が含まれていてもよい。

続いて、スマートスピーカ２の通信制御部２５１は、取得した音声データを音声認識サーバ装置３に送信する。この音声データを送信する送信タイミングは、第１のタイミングの一例である。また、第１のタイミングで送信される上述の音声データは、第１の音声データの一例である。このとき、通信制御部２５１は、当該スマートスピーカ２のデバイスＩＤもあわせて音声認識サーバ装置３に送信する（ステップＳ１０２）。

なお、デバイスＩＤは、ユーザに関連付けられたスマートスピーカ２を特定する情報の一例であり、ユーザ管理テーブル４０２ａに示したとおりである。通信制御部２５１は、例えば、デバイスＩＤに代えて又は加えて、スマートスピーカ２の位置情報、スマートスピーカ２を使用するユーザ個人を特定するユーザＩＤ、ユーザ名又はユーザの所属する組織等の個人を特定する情報を送信してもよい。

続いて、音声認識サーバ装置３の取得部３５２は、通信制御部３５１を介して、デバイスＩＤとあわせてスマートスピーカ２から送信された音声データを取得し、テキスト化する（ステップＳ１０３）。

なお、取得部３５２は、スマートスピーカ２に備えられた音声データを得るための取得部２５２の機能を兼ね備えてもよい。その場合、取得部３５２は、例えば、マイクロホン部２９を介して集音されたユーザの指示音声を、スマートスピーカ２のデバイスＩＤ及び使用者のユーザＩＤとあわせて取得する機能を有する。つまり、上述したステップＳ１０１及びステップＳ１０２の機能を兼用する。このような取得部３５２は、スマートスピーカ２の取得部２５２と同様に、音声データ取得手段の一例として機能してもよい。つまり、音声認識サーバ装置３は、音声データ取得手段を備えるサーバ装置の一例として機能してもよい。

続いて、テキスト化の具体例として、音声認識サーバ装置３のテキスト変換部３５３は、取得した音声データをテキスト化する。このテキスト化の処理は、例えば、「１０００ｄｐｉで田中さん宛にスキャン」という内容の音声操作に基づく情報をテキストデータに変換する処理を行う。

続いて、操作音声変換プログラムは、ＡＩアシスタントサーバ装置４で実行される音声アシスタントプログラムに対して、辞書情報の要求を、通信制御部３５１を介してＡＩアシスタントサーバ装置４に送信する（ステップＳ１０４）。

ＡＩアシスタントサーバ装置４の取得部４５２は、音声認識サーバ装置３から、辞書情報の要求を通信制御部４５１を介して取得する。テキスト化された音声データを取得したＡＩアシスタントサーバ装置４は、取得した辞書情報の要求に応じて辞書情報を音声認識サーバ装置３で実行されている操作音声変換プログラムに提供する（ステップＳ１０５）。

続いて、解釈部３５４は、テキスト化された音声データからインテントとパラメータを生成する（ステップＳ１０６）。ステップＳ１０６の処理の具体例として、解釈部３５４は、音声アシスタントプログラムから取得した辞書情報に基づいて、テキストデータに含まれる単語、及び、所定の意味を持つことば、等が辞書情報と一致しているか否かを判断する。つまり、テキスト解釈を行う。テキストデータに含まれる単語及び所定の意味を持つことばが辞書情報と一致している場合、解釈部３５４は、ユーザから指示された操作を示すインテント及び各種処理の実行条件等の変数を示すパラメータに変換する。なお上述した解釈部３５４の処理については、提供部３５６が行ってもよい。

本実施形態では、インテントは、例えば、ＭＦＰ６に対して要求するジョブの種類を示す情報、すなわちＭＦＰ６に対して要求する読取処理の実行を示す情報である。また、パラメータは、例えば、ＡＩアシスタントサーバ装置４がＭＦＰ６に対して送信するジョブの設定などを示す情報、すなわち原稿の読取りに係る解像度及び読取処理におけるデータの送信先などの各種設定を示す情報である。変換されるインテントとパラメータは、例えば、「インテント：ＳＣＡＮＥＸＥＣＵＴＥ」（表１の「Ａｃｔｉｏｎ」に相当）である。パラメータについては、例えば「解像度：１０００ｄｐｉ」及び「宛先：田中」である。但し、上述した例に限定されず、パラメータ中にＭＦＰ６に対して送信する他の読取りに関する設定（読取りサイズ、カラー／モノクロ、等）の情報を含めてもよい。

なお、他の装置へのemail送信を行う場合、又は、クラウドサービス装置５によって読取りの対象となる原稿が特定される場合等には、パラメータはemail送信先の装置のアドレス、外部のクラウド装置の装置ＩＤ、送信されるファイルのファイル名及びファイルの保存場所を示すネットワークアドレス等のファイルに係る情報であってもよい。

より具体的には、解釈部３５４は、ユーザが操作するＭＦＰ＿＃１において、原稿の読取りが実行される際に生成されるインテントに係る情報として「インテント：ＳＣＡＮＥＸＥＣＵＴＥ」を生成する。さらに、解釈部３５４は、ＭＦＰ＿＃１において実行される読取処理のパラメータに係る情報として、例えば、「画像読取装置名：ＭＦＰ＿＃１」を生成する。このように、解釈部３５４は、取得したテキストデータに基づいて、例えば、ユーザから与えられた原稿読取指示、所定の処理の種別（インテント）及び所定の処理に関連する内容（パラメータ）を示す解釈結果を生成する。

続いて、解釈部３５４は、生成したインテント、パラメータ及びスマートスピーカ２のデバイスＩＤをＡＩアシスタントサーバ装置４で実行される管理プログラムに送信する（ステップＳ１０７）。

＜情報の補完処理＞
次に、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）で実行される情報の補完処理の一例を説明する。

まず、ＡＩアシスタントサーバ装置４の解釈結果変換部４５３は、取得部４５２で取得されたインテント、パラメータ及びスマートスピーカ２のデバイスＩＤ等に基づいて、ＭＦＰ＿＃１に対する読取命令を示すデータに変換する。このとき、インテントには原稿を読み画像読取装置名を表す「ＭＦＰ＿＃１」等が与えられる。以下、画像読取装置としてＭＦＰ＿＃１を例に説明するが、装置管理テーブル４０２ｂに例示したような画像読取装置であれば、その種類は問わない。さらに、パラメータについて、装置管理テーブル４０２ｂ及び命令管理テーブル４０２ｃに例示したような内容であれば、その種類は問わない。

解釈結果変換部４５３によるデータ変換に伴い、検索部４６０は、ユーザ管理テーブル４０２ａに示すスマートスピーカ２のデバイスＩＤ使用者のユーザ名及び使用者のユーザＩＤ、並びに装置管理テーブル４０２ｂで管理される情報に基づいて、原稿を読み取るためのスキャナを備えるＭＦＰ＿＃１を特定する。なお、ＭＦＰ＿＃１を特定する場合、検索部４６０は、装置管理テーブル４０２ｂで記憶、管理されている各種情報に基づいて画像読取装置を特定する。つまり、音声取得装置のデバイスＩＤに基づいて画像読取装置の装置ＩＤを照合し、画像読取装置を特定する。しかし、スマートスピーカ２が何らかの理由でＭＦＰ＿＃１の近くから移動され、装置管理テーブル４０２ｂに記憶、管理されている各種情報と一致しなくなる場合も想定される。そのような場合は、検索部４６０は、ユーザ管理テーブル４０２ａで記憶、管理されているスマートスピーカ２のデバイスＩＤ及び使用者のユーザＩＤのうち少なくとも一つを取得した後、スマートスピーカ２及びＭＦＰ＿＃１のそれぞれの設置位置を示す位置情報等を取得して、互いの位置関係から装置管理テーブル４０２ｂの正当性をチェックするように機能してもよい。仮に、スマートスピーカ２及びＭＦＰ＿＃１のそれぞれの設置位置が所定のずれていると判断した場合は、検索部４６０は、スマートスピーカ２に対して、原稿の読取りが行われるＭＦＰがユーザの傍に存在しないことを音声で伝えるように、スマートスピーカ２に対してフィードバックしてもよい。

さらに補完部４５５は、ユーザの発話によって与えられた音声データに対して、紐づけ用ＤＢ４０２に記憶された装置管理テーブル４０２ｂ及び命令管理テーブル４０２ｃを参照して、ＭＦＰ＿＃１で実行される読取命令の変換（生成）に必要な情報を補完する（ステップＳ１０８）。しかし、この装置管理テーブル４０２ｂ及び命令管理テーブル４０２ｃを参照してもなお読取命令に係る必須パラメータの生成に必要な情報を補完できない場合は、補完部４５５は、スマートスピーカ２を介してユーザにフィードバックを行い、必須パラメータの生成に必要な情報の入力（取得）をユーザに促すよう制御してもよい。なお、補完に係る補完処理は補完部４５５が行い、補完部４５５は、補完手段に相当する。

このとき、管理部４５９は、紐づけ用ＤＢ４０２に対して、デバイスＩＤ、ユーザＩＤ及び情報処理装置名（ＭＦＰ＿＃１等）を関連付けて、ユーザ管理テーブル４０２ａ及び装置管理テーブル４０２ｂとして登録することができる。

図９は、第１の実施形態における情報の補完及び問合せ処理の一例を示すフローチャートである。

ＡＩアシスタントサーバ装置４の取得部４５２は、ステップＳ１０７の処理で音声認識サーバ装置３からインテント、パラメータ及びデバイスＩＤ等を取得する（ステップＳ１００１）。

続いて、解釈結果変換部４５３は、取得したインテント、パラメータ及びデバイスＩＤ等のデータから、必須パラメータを充足するか否かを判断する（ステップＳ１００２）。この必須パラメータを充足するか否かを判断する方法として、例えば、解釈結果変換部４５３は、ユーザ名、ユーザＩＤ、原稿の読取りに必要となる情報等が取得したインテント、パラメータ及びデバイスＩＤ等のデータに含まれているか否かを確認する方法が挙げられる。上述の判断は、解釈結果変換部４５３が、例えば、紐づけ用ＤＢ４０２に記憶されたユーザ管理テーブル４０２ａ、装置管理テーブル４０２ｂ及び命令管理テーブル４０２ｃを参照することで実現される。

続いて、取得したインテント、パラメータ及びデバイスＩＤ等のデータから、必須パラメータを充足すると判断された場合（ステップＳ１００２でＹｅｓ）、解釈結果変換部４５３は、受信したインテント、パラメータ及びデバイスＩＤ等のデータからＭＦＰ＿＃１（ＭＦＰ６）に対する読取命令に変換してこのフローを抜ける（ステップＳ１００３）。

一方、取得したインテント、パラメータ及びデバイスＩＤ等のデータから、必須パラメータを充足しないと判断された場合（ステップＳ１００２でＮｏ）、解釈結果変換部４５３は、紐づけ用ＤＢ４０２で記憶、管理されている各種テーブル（ユーザ管理テーブル４０２ａ、装置管理テーブル４０２ｂ及び命令管理テーブル４０２ｃ）の情報で必須パラメータを充足可能か否か判断する（ステップＳ１００４）。

各種テーブルの情報で必須パラメータを充足すると判断された場合（ステップＳ１００４でＹｅｓ）、解釈結果変換部４５３は、補充した内容に基づいてＭＦＰ＿＃１に対する読取命令に変換してこのフローを抜ける（ステップＳ１００５）。

一方、各種テーブルの情報で必須パラメータを充足しないと判断された場合（ステップＳ１００４でＮｏ）、解釈結果変換部４５３は、必須パラメータの問合せのために、ユーザに再度必要な情報を入力させるためのフィードバック処理を行い、このフローを抜ける（ステップＳ１００６）。以上が、解釈結果変換部４５３が実行する情報の補完処理の一例である。

なお、上述したユーザＩＤを特定する方法として、例えば、以下の方法がある。スマートスピーカ２をあるユーザが使用する場合、そのスマートスピーカ２に向けて自分の名前をマイクロホン部２９に向けて発話する。この発話による名前の入力を受けて、音声認識サーバ装置３の取得部３５２は、入力された名前のテキスト化を行う。続いて、ＡＩアシスタントサーバ装置４の解釈結果変換部４５３は、上述したユーザ管理テーブル４０２ａで記憶、管理されているユーザ名を照合して、発話をした使用者のユーザＩＤを特定する。なお、名前の入力に代えてユーザのメールアドレス等を発話するようにしてもよい。さらに、スマートスピーカ２の撮像部（カメラ部）３０を使用して使用者の顔写真等を撮影し、その撮影画像とユーザＩＤとを照合するようにしてもよい。

また、別の例として、スマートスピーカ２及びそのスマートスピーカ２を利用するユーザが変わり、新たなユーザＩＤ及びデバイスＩＤの組合せでＭＦＰ＿＃１における原稿の読取り等に関する情報が与えられたときは、管理部４５９は、それらの情報をＡＩアシスタントサーバ装置４のＨＤＤ４４等の記憶部に記憶、管理された命令管理テーブル４０２ｃのＭＦＰ＿＃１の項目に追加することで、命令管理テーブル４０２ｃを更新してもよい。

続いて、機器情報取得部４５７は、取得したインテントとパラメータに基づいてＭＦＰ＿＃１における原稿の読取りに必要な必須パラメータが充足しているか否かを判断する。この必須パラメータとは、例えば、受信したパラメータのうち読取りの対象となる原稿の読取りに係る属性情報を特定するための情報である。つまり、必須パラメータには、原稿の読取り後に生成されるファイルのファイル形式、原稿の読取り時の解像度、カラー／モノクロ設定、ファイル送信時の宛先等の任意の条件を設定することができる。

さらに、この必須パラメータは、上述したＭＦＰ＿＃１に関する命令管理テーブル４０２ｃとして、例えば、ＡＩアシスタントサーバ装置４のＨＤＤ４４等の記憶部に予め記憶させておき、適宜設定することもできる。さらに、この必須パラメータは、ユーザ及び画像読取装置の組合せ等にしたがって適宜必須パラメータと通常のパラメータを入れ替えることも可能である。つまり、ある条件では必須パラメータとして定義されたものでも、別の条件では通常のパラメータとして管理してもよい。

上述した説明より、機器情報取得部４５７は、以下の特徴を有する。つまり、機器情報取得部４５７は、紐づけ用ＤＢ４０２に記憶された装置管理テーブル４０２ｂ及び命令管理テーブル４０２ｃを参照して、必須パラメータの生成に関連する情報を補完する。必須パラメータの生成に関連する情報としては、原稿の読取りにおける原稿（１ページの原稿、複数のページを含む製本原稿等）及び画像読取装置（ＭＦＰ＿＃１、等）を特定するための情報等が挙げられる。具体的には、例えば、「田中さん」、「１０００ｄｐｉ」等の情報である。しかし、パラメータの生成に関連する情報、装置管理テーブル４０２ｂ及び命令管理テーブル４０２ｃを参照してもなお必須パラメータの生成に必要な情報を補完できない場合は、機器情報取得部４５７は、必須パラメータを補完するための問合せとして、スマートスピーカ２に対して、不足しているパラメータの要求を送信する（ステップＳ１０９）。

さらに、ステップＳ１０９で機器情報取得部４５７からパラメータの要求を受信したスマートスピーカ２の取得部２５２は、受信したパラメータの要求をフィードバック部２５３に転送する。フィードバック部２５３は、パラメータの要求に相当する情報を音声に変換して通信制御部２５１を介してユーザにフィードバックを行い、必須パラメータの生成に必要な情報の入力をユーザに促すよう制御する（ステップＳ１１０）。なお、ステップＳ１０９及びＳ１１０の各処理は、図９で上述したフローチャートのステップＳ１００６の処理に相当する。但し、図９でステップＳ１００６の処理の実行が不要と判断された場合は、上述したステップＳ１０９及びＳ１１０の処理は行われない（省略される）。

続いて、実行判定部４５４は、上述した補完処理に基づいて、必須パラメータの充足判断を行う。その際、実行判定部４５４は、補完処理によって補完された内容でもなお必須パラメータが充足していないと判断した場合は、必須パラメータを問い合わせるためのレスポンス情報を生成する。このレスポンス情報の生成に基づいて、通知部４５８は、生成されたレスポンス情報をスマートスピーカ２に対して送信し、スマートスピーカ２から出力される音声等によってユーザに周知する。

なお、実行判定部４５４は、必須パラメータが充足していない場合は、必須パラメータが充足するまでパラメータを指定するようなレスポンス情報を生成して、スマートスピーカ２を介してユーザに問合せを継続するように機能する。このようにして実行される情報の補完及び必須パラメータの問合せ処理については、解釈結果変換部４５３及び実行判定部４５４が互いに協働することによって、ユーザの発話によって与えられる音声データに関連する情報を補完するための取得制御部４６２として機能してもよい。

また、必須パラメータは、ステップＳ１０２でスマートスピーカ２から取得したデバイスＩＤ及びユーザＩＤのうち少なくとも一つに基づいて変更されてもよい。また、必須パラメータには、ＭＦＰ＿＃１を使用する使用者の（使用者名（ユーザ名）、使用者のユーザＩＤ等）が含まれていることが好ましい。但し、ユーザが音声操作等によってＭＦＰ＿＃１の使用者名、使用者のユーザＩＤ等を設定しなかった場合、実行判定部４５４は、ステップＳ１０２でスマートスピーカ２から取得したデバイスＩＤ及びユーザＩＤのうち少なくとも一つによって使用者を特定できるか否かを判断する。例えば、ある１台のスマートスピーカ２は、一人のユーザによって占有される場合があり得る。そこで、実行判定部４５４は、スマートスピーカ２のデバイスＩＤ及び使用者のユーザＩＤに関連付けられたユーザが紐づけ用ＤＢ４０２に登録されているかを判断する。つまり、実行判定部４５４は、デバイスＩＤ及びユーザＩＤに基づいてユーザを検索し、ユーザを特定する機能を備える。

ここで、実行判定部４５４は、ユーザを特定できた場合には、特定したユーザをＭＦＰ＿＃１の使用者としてパラメータに設定することができる。一方、ユーザを特定できなかった場合には、実行判定部４５４は、スマートスピーカ２を介して使用者の情報を設定するようにユーザへ問い合わせてもよい。つまり、所定の処理要求（読取指示等）を示すデータを生成するために、実行判定部４５４は、通知部４５８及び通信制御部４５１を介してスマートスピーカ２と通信し、ユーザに対して補完情報の入力を依頼してもよい。

なお、パラメータにはＭＦＰ＿＃１の使用者に係る情報が含まれていてもよい。但し、ユーザが音声操作によって使用者に係る情報、すなわち、ユーザ名及びユーザＩＤ等を設定しない場合、実行判定部４５４は、ステップＳ１０２でスマートスピーカ２から取得したデバイスＩＤ及びユーザＩＤのうち少なくとも一つによってＭＦＰ＿＃１を特定できるか否かを判断する。

上述の判断に基づいて、検索部４６０は、原稿の読取りに用いられるＭＦＰ＿＃１を検索し、特定する。ここで、ＭＦＰ＿＃１を特定できた場合には、検索部４６０は、当該ＭＦＰ＿＃１を原稿の読取りに用いられる画像読取装置としてパラメータに設定する。一方、ＭＦＰ＿＃１を特定できなかった場合には、検索部４６０は、通知部４５８と協働してスマートスピーカ２を介してＭＦＰ＿＃１を設定するようにユーザへ問い合わせてもよい。

なお、ユーザが音声操作によってＭＦＰ＿＃１を設定した場合であっても、設定したＭＦＰ＿＃１と同一の名称を含む画像読取装置が複数存在する場合がある。そこで、実行判定部４５４は、音声操作によって設定されたＭＦＰ＿＃１の名称に加えて、デバイスＩＤ及びユーザＩＤのうち少なくとも一つによってＭＦＰ＿＃１を特定できるか否かを判断してもよい。つまり、実行判定部４５４は、デバイスＩＤ及びユーザＩＤに関連付けられたＭＦＰ＿＃１が紐づけ用ＤＢ４０２に登録されているかを判断する。これに続いて検索部４６０は、音声操作によって設定されたＭＦＰ＿＃１の名称に加えて、デバイスＩＤ及びユーザＩＤに基づいてＭＦＰ＿＃１を検索し、検索した結果から目的のＭＦＰ＿＃１を特定する。

ここで、本実施形態で使用される表１のテーブルデータとしてのＡｃｔｉｏｎ（アクション）及びＰａｒａｍｅｔｅｒ（パラメータ）について、表１に示した具体例を用いて説明する。なお、ＡＩアシスタントサーバ装置４の解釈結果変換部４５３は、音声認識サーバ装置３で解釈された解釈結果に基づいてＭＦＰ＿＃１における読取命令を示すデータに変換するために、例えば、以下に詳述する表１に示された情報をＡＩアシスタントサーバ装置４のＨＤＤ４４等の記憶部に記憶し、参照できる構成としてもよい。

ＡＩアシスタントサーバ装置４は、ＨＤＤ４４等の記憶部に、表１に示す画像読取装置に対する読取命令を含むテーブルデータを記憶する。なお、ＡＩアシスタントサーバ装置４の解釈結果変換部４５３は、音声認識サーバ装置３で得られた解釈結果を読取命令に変換するために、表１に相当する情報をＭＦＰ６のＨＤＤ６０９等の記憶部に記憶し、参照できる構成としてもよい。

表１の例の場合、例えば、「ＳＣＡＮＥＸＥＣＵＴＥ」、「ＥＭＡＩＬＥＸＥＣＵＴＥ」、及び「ＳＴＯＲＥＥＸＥＣＵＴＥ」等が、アクション又はインテントの一例として示されている。また、「１０００ＤＰＩ」、「田中」及び「ＡＤＤＲＥＳＳ」が、パラメータの一例として示されている。なお、パラメータは、ＭＦＰ６への読取命令等に対する設定値として指定可能な全てのパラメータが含まれる。

本実施形態では、例えば、解釈結果変換部４５３は、「ＳＣＡＮＥＸＥＣＵＴＥ」の解釈結果を、ＭＦＰ＿＃１に対する「原稿の読取りの実行」を示す命令に変換する。同様に、解釈結果変換部４５３は、「ＥＭＡＩＬＥＸＥＣＵＴＥ」の解釈結果を、ＭＦＰ＿＃１に対する「ｅｍａｉｌの送信」を示す命令に変換する。同様に、解釈結果変換部４５３は、「ＳＴＯＲＥＥＸＥＣＵＴＥ」の解釈結果を、ＭＦＰ＿＃１に対する「ストレージサービスへの保存」を示す命令に変換する。

すなわち、ＡＩアシスタントサーバ装置４の解釈結果変換部４５３は、解釈結果のアクション又はインテントに含まれる情報で、ＭＦＰ＿＃１に対する読取命令の種類を判断し、パラメータに含まれる値を読取命令に対する設定値と判断して、解釈結果を読取命令に変換する。

なお、実行判定部４５４は、は、ＨＤＤ４４等の記憶部に表１とは異なる所定の処理の実行命令を含むテーブルデータを記憶し、そのテーブルデータを用いて、解釈結果変換部４５３で解釈した解釈結果をスマートスピーカ２にフィードバックしてもよい。

＜読取命令の変換処理＞
次に、ＡＩアシスタントサーバ装置４で実行される読取命令への変換について説明する。解釈結果変換部４５３は、ステップＳ１０８で補完された情報から、例えば、ＭＦＰ＿＃１で実行される読取命令に変換して、通信制御部４５１を介してＭＦＰ＿＃１に送信する（ステップＳ１１１）。このときの読取命令は、第一の読取要求の一例である。この場合、例えば、ユーザが発話等によって指示した「これスキャンして」、「これを田中さん宛にスキャンして」、「これを１０００ｄｐｉでスキャンして」等の指示内容に相当する読取命令が、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）から通信制御部４５１を介してＭＦＰ＿＃１に送信される。なお、通信制御部４５１は、通信手段の一例である。

図１０は、第１の実施形態における読取命令の変換及び送信の一例を示すフローチャートである。

図１０では、解釈結果変換部４５３及び実行判定部４５４は、スマートスピーカ２で取得されたユーザの発話によって与えられる音声データ、スマートスピーカ２を識別するデバイスＩＤ、原稿の読取りに係る属性情報及びＭＦＰ６を識別する装置ＩＤを含む情報に基づいて、原稿の読取りを継続させるための読取条件が存在するか否かを判断し、その判断結果に応じて読取命令に変換する一連の処理を行う。

まず、解釈結果変換部４５３は、充足された必須パラメータを取得して読取命令に変換する（ステップＳ１１０１）。例えば、発話にスキャンなどの読取を指示する内容が含まれていた場合は読取命令に変換する。更に、「次」や「続けて」など明示的に読取を指示する内容が発話中に含まれていない場合であっても、直前の指示が読取命令であった場合には、読取命令に変換することができる。例えば、実行判定部４５４は、スマートスピーカ２から取得した音声取得装置のデバイスＩＤに紐づく画像読取装置の装置ＩＤを装置管理テーブル４０２ｂから特定する。特定した装置ＩＤを含む命令が命令管理テーブル４０２ｃに含まれる一方で発話にジョブの種類が明示的に含まれていない場合は、実行判定部４５４は、読取命令であるものと判断することができる。

続いて、実行判定部４５４は、変換された読取命令について１回目の原稿の読取りであるか否かを判断する。転送された読取命令に対して原稿の読取りが１回目であるか否かの判断は、例えば、命令管理テーブル４０２ｃにて記憶、管理されている連続処理フラグの値を確認することで行われる。具体的には、実行判定部４５４は、連続処理フラグの値が『０』か『１』かのいずれであるかを判断する。つまり、実行判定部４５４は、スマートスピーカ２から取得した音声取得装置のデバイスＩＤに紐づく画像読取装置の装置ＩＤを装置管理テーブル４０２ｂから特定する。続いて、実行判定部４５４は、特定した装置ＩＤを含む命令を命令管理テーブル４０２ｃから特定し、特定した命令に含まれる連続処理フラグの値を確認する。この処理においては、実行判定部４５４は、連続処理フラグの値が『０』であることを確認する。このとき、連続処理フラグの値が『０』であれば、実行判定部４５４は原稿の読取りが１回目であると判断して原稿の読取りに係る属性情報で原稿の読取りを行うための処理を行う。一方、連続処理フラグの値が『１』であれば、実行判定部４５４は、原稿の読取りが２回目以降であると判断する。（ステップＳ１１０２）。したがって、連続処理フラグの値は、原稿の読取りを継続させるための読取条件の一例ということになる。なお、連続処理フラグの値は、ある原稿の読取りが行われる最初の状態では初期値として『０』が与えられてもよい。このように、ユーザから与えられた音声による指示を読取命令に変換する際に、原稿の読取りを連続（継続）して実行することを示す連続処理フラグをパラメータとして含めてもよい。

連続処理フラグの値を確認することで、１回目の原稿の読取りであると判断された場合（ステップＳ１１０２でＹｅｓ）、すなわち、連続処理フラグが『０』と確認された場合、実行判定部４５４は、上述した原稿の読取りに係る属性情報に基づいて１回目の原稿の読取処理を実行するための読取命令を、通信制御部４５１を介してＭＦＰ＿＃１に送信する（ステップＳ１１０３）。さらに、実行判定部４５４は、連続処理フラグの値を『０』から『１』に変更する。

一方、連続処理フラグの値を確認することで、１回目の原稿の読取りでないと判断された場合（ステップＳ１１０２でＮｏ）、すなわち、連続処理フラグが『１』と確認された場合、実行判定部４５４は、変換した読取命令がその原稿の読取りを終了させる内容であるか否かを判断する（ステップＳ１１０４）。このステップでは、実行判定部４５４は、例えば、読取命令に、「終了」、「以上」等の原稿読取を終了させる意味を持つことばを探す。この「終了」、「以上」等の発話を与えることは、周知の画像形成装置等におけるコピー、印刷、スキャン機能等を実行する際に操作部に配置もしくは表示される「＃」記号を押下して最終原稿、最終ページであることを示す処理に相当する。なお、前回の音声データの取得から所定時間内にその原稿に対する原稿読取りの要求がなされた場合に、実行判定部４５４は、その原稿に対して継続した原稿読取りの要求であると判断してもよい。

読取命令に、「終了」、「以上」等の原稿の読取りを終了させる意味を持つことばが含まれていない場合（ステップＳ１１０４でＮｏ）、実行判定部４５４は、直前に送信された読取命令をＭＦＰ＿＃１に再送してステップＳ１１０１に戻り、ユーザが原稿の読取りの終了を指示するまで繰り返す（ステップＳ１１０５）。このステップＳ１１０５において実行判定部４５４は、ユーザの指示が読取命令であった場合、つまり音声認識サーバ装置３が「次」、「続けて」のような音声データを受信した場合は、受信した音声データから生成されたパラメータに原稿の読取りに係る必須パラメータが含まれていない場合であっても、連続処理フラグが『１』であることを条件に原稿の読取りに係る必須パラメータが充足していると判断する。つまり、このステップＳ１１０５における処理では、実行判定部４５４は、直前に送信した読取命令とともに直前に送信した各種パラメータ等の読取条件もあわせてＭＦＰ＿＃１に再送する。このステップＳ１１０５から次のステップＳ１１０１までに実行される音声データの取得タイミングは、上述した第１のタイミングよりも後のタイミングである第２のタイミングの一例である。また、第２のタイミングで取得される音声データは、第２の音声データの一例である。さらに、第２の音声データのうち、「次」、「続けて」のように、直前に実行された読取命令を継続して実行可能な意味を持つ音声データが、所定の読取条件に基づく読取命令の実行を可能とする内容の一例となる。つまり、「次」、「続けて」のような音声データが、所定の読取条件を引き継いだ内容の一例でもある。

ただし、実行判定部４５４は、継続した原稿の読取である場合には各種パラメータは送信しなくてもよい。つまり、実行判定部４５４は、読取を実行する命令のみを送ってもよい。この場合、ＭＦＰ６は、それ以前に取得した各種パラメータに基づいて読取を実行する。

なお、実行判定部４５４は、前回のインテントの受信から所定時間内に同一のインテントを取得した場合に、その原稿に対する継続した原稿の読取りであると判断してもよい。さらに、解釈結果変換部４５３は、「次」、「続けて」など発話にジョブの種類を明示的に含まない場合にはインテントとして「ＪＯＢ＿ＥＸＥＣＵＴＥ」を解釈結果として生成することができる。この場合、実行判定部４５４は、「ＪＯＢ＿ＥＸＥＣＵＴＥ」等のジョブの種類を明示しないインテントを受信した場合にも、継続した原稿の読取りであると判断してもよい。

一方、読取命令に、「終了」、「以上」等の原稿の読取りを終了させる意味を持つことばが含まれている場合（ステップＳ１１０４でＹｅｓ）、実行判定部４５４は、原稿の読取りに係る終了要求を生成し、命令管理テーブル４０２ｃから対応する読取命令を削除するとともに連続処理フラグの値を『０』にしてこのフローを抜ける（ステップＳ１１０６）。ステップＳ１１０６の処理において、実行判定部４５４は、対応する読取命令を削除するだけでもよいし、連続処理フラグの値を『０』にしてから対応する読取命令を削除してもよい。また、実行判定部４５４は、所定時間以上ユーザから指示を受け付けなかった場合に終了要求を生成してもよい。なお、「終了」、「以上」等の原稿の読取りを終了させる意味を持つことばが含まれる読取命令は、第二の読取要求の一例である。

なお、本実施形態において、ユーザから発話される音声に原稿の読取りに無関係な意味を持つ内容が含まれていた場合、ＡＩアシスタントサーバ装置４の実行判定部４５４は、図１０のフローチャートを実行する前に、解釈結果変換部４５３と協働してユーザに対してフィードバック処理（図８ｂのステップＳ１０８）を実行するようにしてもよい。

また、本実施形態では、同一原稿の読取りにおいて、連続処理フラグの値が『０』のときに原稿の読取りが１回目であることを示し、『１』のときに原稿の読取りが２回目以降であることを示したが、これに限らない。例えば、同一原稿の読取りにおいて、『１』のときに原稿の読取りが１回目であることを示し、『０』のときに原稿の読取りが２回目以降であることを示してもよい。さらに、連続処理フラグの値を『０』、『１』に限らず、他の値及び文字列、記号等を用いて判断するようにしてもよい。

さらに、その原稿に対して２回目以降の読取りが行われる場合、次の原稿は、ユーザが原稿のページを更新した状態（ページを捲った状態、原稿の方向を変えた状態、等）で原稿台に載置されていることを前提とする。このような前提において、実行判定部４５４が連続処理フラグの値を確認することで１回目の原稿の読取りでないと判断された場合（ステップＳ１１０２でＮｏ）、すなわち、連続処理フラグが『１』と確認された場合、実行判定部４５４は、ステップＳ１１０５で説明したように、直前に実行された原稿の読取りに係る属性情報を維持したまま、１回目の原稿の読取処理を実行するための読取命令と同じ命令を通信制御部４５１を介してＭＦＰ＿＃１に送信する。さらに、実行判定部４５４は、連続処理フラグの値を『１』に維持する。

なお、連続処理フラグの値については、同一原稿の読取りにおいて、『０』のときに読取りの実行が１回目であることを示し、『１』のときに読取りの実行が２回目以降であることを示したが、これに限らない。例えば、同一原稿の読取りにおいて、『１』のときに読取りの実行が１回目であることを示し、『０』のときに読取りの実行が２回目以降であることを示してもよい。さらに、連続処理フラグの値を『０』、『１』に限らず、他の値及び文字列、記号等を用いて判断するようにしてもよい。

＜原稿の読取り及び継続処理＞
図８ｂのシーケンス図に戻り、ＭＦＰ＿＃１で実行される読取命令について説明する。ステップＳ１１１でＡＩアシスタントサーバ装置４から読取命令を受信したＭＦＰ＿＃１は、ネットワークＩ／Ｆ６５０で読取命令を受信し、ＣＰＵ６０１で命令の内容に対応する各種制御信号を生成してエンジン制御部６３０に送信する。エンジン制御部６３０に送信された各種制御信号は、読取実行部６５４の制御の下、スキャナ部６３１で原稿を読み取るための各種駆動系を制御して原稿を読み取る。このようにして、受信した読取命令に基づいて原稿の読取処理及びその原稿に対する継続読取りの処理を行う（ステップＳ１１２）。このステップＳ１１２において、原稿の読取りの終了指示若しくは命令を受け付けた場合、ＭＦＰ＿＃１の通信制御部６５１は、原稿の読取りによって生成したスキャンデータを自装置のＨＤＤ６０９等の記憶部に記憶、又は読取命令に含まれていた宛先に送信する。なお、読取命令に宛先が含まれていない場合は、ＭＦＰ＿＃１は、自装置の操作部がユーザからの操作を受け付けることで、スキャンデータの送信先を示す宛先の指定を受け付けてもよい。

図１０のステップＳ１１０２～Ｓ１１０６の処理で説明したように、ＡＩアシスタントサーバ装置４から送信された読取命令の内容に応じて、ＭＦＰ＿＃１の読取実行部６５４は、その原稿に対して、１回の原稿の読取りで終了する場合と２回以上継続して原稿の読取りを行う場合のそれぞれに対して原稿の読取処理を行う。

読取実行部６５４において所定の読取処理が終了したら、通知部６５５は、ＡＩアシスタントサーバ装置４に対して、終了要求に対する終了通知を送信する（ステップＳ１１３）。なお、読取処理に係る終了要求は、ＭＦＰ＿＃１の操作部がユーザの操作に応じて受け付けてもよいし、上述したように、ユーザがスマートスピーカ２に対して、例えば、「終了」と発話することによって終了させてもよい。この「終了」という発話内容によって、ＡＩアシスタントサーバ装置４の通信制御部４５１は、操作音声変換プログラムで生成された「ＳＣＡＮ＿ＥＮＤ」又は「ＪＯＢ＿ＥＮＤ」等の読取処理の終了を指示するインテントを取得し、読取命令に変換してＭＦＰ＿＃１に送信する。そして、ＭＦＰ＿＃１の読取実行部６５４は、読取命令を受信してその原稿に対する読取りを実行して生成した複数のスキャンデータを複数ページからなる一つのファイルとして生成し、記憶・読出処理部を介してＨＤＤ６０９等の記憶手段に記憶、保存させることができる。さらに、読取実行部６５４は、通信制御部６５１と協働して、生成した複数ページからなる一つのファイルを外部装置にemail送信等により送信することもできる。

続いて、ＭＦＰ＿＃１から終了通知を受信したＡＩアシスタントサーバ装置４は、通信制御部４５１からスマートスピーカ２に対して継続命令の有無判断及び発話要求を送信する（ステップＳ１１４）。

さらに、継続命令の有無判断及び発話要求を受信したスマートスピーカ２の取得部２５２及びフィードバック部２５３は、ＭＦＰ＿＃１を使用するユーザに対して音声によるフィードバックを行い、一連の処理を終了する（ステップＳ１１５）。

なお、図１０に示したフローチャートは一例であって、実行判定部４５４により実行される処理は上述した例に限らない。例えば、本実施形態に係る情報処理システムの置かれた環境及びシステムの用途等に応じて、上述したフローチャートの内容を適宜変えてもよい。

第１の実施形態において上述したような構成を備えることで、ユーザは、原稿を継続して読み取りたい場合に、原稿を読み取るための発話音声を原稿のページを変えたり原稿の方向を変えたりする度にすべて発話することなく、簡略化した発話音声を与えるだけで継続した読取りを行えるようになる。

＜第２の実施形態＞
図１１ａ及び図１１ｂは、第２の実施形態におけるユーザの発話に基づく読取処理の一例を示すシーケンス図である。第１の実施形態との相違点は、読取命令をＭＦＰ６が受信した後、ＡＩアシスタントサーバ装置４から送信された読取命令に基づく原稿の読取りを継続させるための読取条件が存在するか否かをＭＦＰ６が判断し、原稿の読取りを継続させるための読取条件が存在する場合に、その読取条件を引き継いで原稿を読み取る処理を行う点である。具体的には、ユーザの発話によって与えられた原稿読取指示から変換された読取命令をＭＦＰ＿＃１が受信して自ら解釈、判断し、原稿の読取り及び継続した原稿の読取りを行う場合を例示する。以下にシーケンス図における各処理を示す。

＜原稿の読取り及び継続処理＞
図１１ａ及び図１１ｂのシーケンス図において、ステップＳ１０１～Ｓ１１０までは図８ａ及び図８ｂの場合と同様のため、詳細な説明を省略する。

第１の実施形態と同様に、ＡＩアシスタントサーバ装置４の解釈結果変換部４５３は、ステップＳ１０８で補完された情報から、例えば、ＭＦＰ＿＃１で実行される読取命令に変換して、通信制御部４５１を介してＭＦＰ＿＃１に送信する（ステップＳ２１１）。この場合、例えば、ユーザが発話等によって指示した「これスキャンして」、「これを田中さん宛にスキャンして」、「これを１０００ｄｐｉでスキャンして」等の指示内容に相当する読取命令が、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）から通信制御部４５１を介してＭＦＰ＿＃１に送信される。

ステップＳ２１１でＡＩアシスタントサーバ装置４から読取命令を受信したＭＦＰ＿＃１は、受信した読取命令に基づいて原稿の読取処理及びその原稿に対する継続した読取りの処理を行う（ステップＳ２１２）。

第２の実施形態でも同様に、ＡＩアシスタントサーバ装置４から送信された読取命令の内容に応じて、ＭＦＰ＿＃１の読取実行部６５４は、その原稿に対して、１回の原稿の読取りで終了する場合と２回以上継続して原稿の読取りを行う場合のそれぞれに対して原稿の読取処理を行う。

図１２は、第２の実施形態における読取命令の実行処理の一例を示すフローチャートである。図１２のフローチャートは、上述した図８ｂのステップＳ１１１でＡＩアシスタントサーバ装置４の解釈結果変換部４５３から通信制御部４５１を介して送信された読取命令が、ＭＦＰ＿＃１で原稿の読取処理として実行される例を示したものである。

まず、ＭＦＰ＿＃１（ＭＦＰ６）の命令受信部６５２は、ＡＩアシスタントサーバ装置４から送信された読取命令を受信する（ステップＳ１２０１）。本実施形態では、命令受信部６５２は、読取命令受信手段の一例として機能する。

続いて、ＭＦＰ＿＃１の判断部６５３は、命令受信部６５２から転送された読取命令に対して、原稿の読取りが１回目であるか否かを判断する。転送された読取命令に対して原稿の読取りが１回目であるか否かの判断は、例えば、ＭＦＰ６に記憶される命令管理テーブル４０２ｃで記憶、管理されている連続処理フラグの値を確認することで行われる。この処理においては、判断部６５３は、連続処理フラグの値が『０』であることを確認する。このとき、連続処理フラグの値が『０』であれば、判断部６５３は原稿の読取りが１回目であると判断して原稿の読取りに係る属性情報に基づいて原稿の読取りを実行する。一方、連続処理フラグの値が『１』であれば、判断部６５３は、原稿の読取りが２回目以降であると判断する（ステップＳ１２０２）。したがって、連続処理フラグの値は、原稿の読取りを継続させるための読取条件の一例ということになる。なお、連続処理フラグの値は、ある原稿の読取りが行われる最初の状態では初期値として『０』が与えられてもよい。このように、ユーザから与えられた音声による指示から変換された読取命令に、原稿の読取りを継続（連続）して実行することを示す連続処理フラグがパラメータとして含まれてもよい。

連続処理フラグの値を確認することで、１回目の原稿の読取りであると判断された場合（ステップＳ１２０２でＹｅｓ）、すなわち、連続処理フラグが『０』と確認された場合、判断部６５３は、上述した原稿の読取りに係る属性情報に基づいて１回目の原稿の読取処理を実行する（ステップＳ１２０３）。さらに、判断部６５３は、連続処理フラグの値を『０』から『１』に変更する。

一方、連続処理フラグの値を確認することで、１回目の原稿の読取りでないと判断された場合（ステップＳ１２０２でＮｏ）、すなわち、連続処理フラグが『１』と確認された場合、判断部６５３は、変換した読取命令がその原稿の読取りを終了させる内容であるか否かを判断する（ステップＳ１２０４）。このステップでは、判断部６５３は、例えば、読取命令に、「終了」、「以上」等の原稿読取を終了させる意味を持つことばを探す。この「終了」、「以上」等の発話を与えることは、周知の画像形成装置等におけるコピー、印刷、スキャン機能等を実行する際に操作部に配置もしくは表示される「＃」記号を押下して最終原稿、最終ページであることを示す処理に相当する。

読取命令に、「終了」、「以上」等の原稿の読取りを終了させる意味を持つことばが含まれていない場合（ステップＳ１２０４でＮｏ）、判断部６５３は、直前に実行された読取命令を再度ＭＦＰ＿＃１で実行してステップＳ１１０１に戻り、ユーザが原稿の読取りの終了を指示するまで繰り返す（ステップＳ１２０５）。このステップＳ１１０５において判断部６５３は、「次」、「続けて」のような音声データから取得したパラメータには必須パラメータが含まれていない場合であっても、連続処理フラグが『１』であることを条件に必須パラメータが充足していると判断する。なお、判断部６５３は、前回のインテントの受信から所定時間内に同一のインテントを取得した場合に、その原稿に対する継続した原稿の読取りであると判断してもよい。さらに、判断部６５３は、「ＪＯＢ＿ＥＸＥＣＵＴＥ」等の原稿の読取りであることを示すインテントを受信した場合にも、継続した原稿の読取りであると判断してもよい。

一方、読取命令に、「終了」、「以上」等の原稿の読取りを終了させる意味を持つことばが含まれている場合（ステップＳ１２０４でＹｅｓ）、読取実行部６５４は、直前に実行された読取命令を実行し、判断部６５３は、原稿の読取りに係る終了要求の生成及び命令管理テーブル４０２ｃから対応する読取命令を削除するとともに連続処理フラグの値を『０』にしてこのフローを抜ける（ステップＳ１２０６）。ステップＳ１２０６の処理において、判断部６５３は、対応する読取命令を削除するだけでもよいし、連続処理フラグの値を『０』にしてから対応する読取命令を削除してもよい。なお、「終了」、「以上」等の原稿の読取りを終了させる意味を持つことばが含まれる読取命令は、第二の読取要求の一例である。

なお、本実施形態でも、同一原稿の読取りにおいて、連続処理フラグの値と原稿の読取りが何回目であるかの関係に制約は設けない。例えば、同一原稿の読取りにおいて、『１』のときに原稿の読取りが１回目であることを示し、『０』のときに原稿の読取りが２回目以降であることを示してもよい。さらに、連続処理フラグの値を『０』、『１』に限らず、他の値、文字列、記号等を用いて判断するようにしてもよい。

なお、その原稿に対して２回目以降の読取りが行われる場合、次の原稿は、ユーザが原稿のページを更新した状態（ページを捲った状態）で原稿台に載置されていることを前提とする。このような前提において、判断部６５３が連続処理フラグの値を確認することで１回目の原稿の読取りでないと判断された場合（ステップＳ１２０２でＮｏ）、すなわち、連続処理フラグが『１』と確認された場合、読取実行部６５４は、ステップＳ１２０５で説明したように、直前に実行された原稿の読取りに係る属性情報を維持したまま、１回目の原稿の読取処理を実行するための読取命令と同じ命令を実行する。さらに、判断部６５３は、連続処理フラグの値を『１』に維持する。

上述したように、継続して読み取られる原稿は、ユーザが所望のページを更新した（開いた）状態で原稿台に載置されているものとして説明したが、原稿のページが更新されずに次の読取命令がＭＦＰ＿＃１で実行された場合の処理については、後ほど詳述する（重複した読取りに対する処理）。

また、ＡＩアシスタントサーバ装置４から受信した読取命令に基づいて原稿の読取りを実行する場合、ＭＦＰ＿＃１は、自装置の操作部に原稿の読取りに係る設定及びスキャンデータの送付先を示す宛先を表示する画面を表示してもよい。また、あわせて、読み取った原稿に対する印刷条件の変更を受け付けてもよいし、ユーザの許可を受け付けたことを条件に、読み取った原稿の外部装置へのファイル送信を実行してもよい。

さらに、ＭＦＰ＿＃１は、その原稿から読み取られた各ページを１つのファイルとして生成し、生成したファイルを通信制御部６５１を介して外部装置に送信することもできる。この場合、通信制御部６５１は、ファイル送信手段としての機能を担う。なお、上述した命令受信部６５２は、ＡＩアシスタントサーバ装置４から読取命令を受信する読取命令受信手段として機能すると説明したが、通信制御部６５１が読取命令受信手段の機能を兼用してもよい。

ここで図１１ｂのシーケンス図に戻るが、ステップＳ２１３～Ｓ２１５までの処理は、図８ｂのステップＳ１１３～Ｓ１１５と同様のため、詳細の説明は省略する。

ここで、ＭＦＰ＿＃１は、自装置が有する操作部に、原稿の読取りに係る各設定情報、読取処理によって取得したファイル名、自装置内部ストレージへの記憶設定、外部装置へのファイル送信条件及び印刷を実行することを示す画面等を表示してもよい。このときに、ユーザの許可を受け付けたことを条件に読み取った原稿の印刷処理を実行してもよい。

なお、ＭＦＰ＿＃１は、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）から送信された読取命令に応じて、装置の電源及びネットワーク設定を起動し、原稿の読取りを開始するようにしてもよい。

また、本実施形態によれば、ＭＦＰ＿＃１は、操作部による操作を受け付けることなく直ちにジョブを実行することができる。これにより、ユーザは音声操作のみで連続した原稿の読取りを指示することができる。

なお、図１２に示したフローチャートは一例であって、判断部６５３により実行される処理は上述した例に限らない。例えば、本実施形態に係る情報処理システムの置かれた環境及びシステムの用途等に応じて、上述したフローチャートの内容を適宜変えてもよい。

（継続した原稿の読取りとして判断される条件）
上述したように、本実施形態におけるＭＦＰ＿＃１では、その原稿に対して継続した原稿の読取りであると判断される場合として、以下が考えられる。一つは、「次」、「続けて」のように、ユーザの発話から与えられた音声データに含まれるパラメータが、継続して原稿の読取りを行う意味として解釈可能な内容である場合である。

もう一つは、前回の原稿の読取りに係る音声データの取得から所定時間内に、その原稿に対する原稿の読取りに係る音声データを取得した場合である。

さらにもう一つは、あるユーザがＭＦＰ＿＃１にログインをした後、命令受信部６５２で読取命令を受信（又は解釈結果変換部４５３で読取命令に変換）してからそのユーザがログインをした状態で命令受信部６５２が次の読取命令を受信（又は解釈結果変換部４５３で次の読取命令に変換）した場合、又は命令受信部６５２で読取命令を受信してから所定時間内に命令受信部６５２が次の読取命令を受信した場合の少なくとも一つの場合に、継続した原稿の読取りであると判断してもよい。

但し、継続した原稿の読取りとして判断される条件は一例にすぎず、本実施形態において発明の要旨を逸脱しない範囲であれば、継続した原稿の読取りとして判断される条件に特に制約は設けない。

（重複した読取りに対する処理）
ＭＦＰ＿＃１は、原稿を読み取る度に、既存の文字認識技術を用いて、原稿の読取りが完了したページ番号を特定してもよい。ＭＦＰ＿＃１は、特定したページ番号をＡＩアシスタントサーバ装置４へ通知することができる。ＡＩアシスタントサーバ装置４は、管理ＤＢ４０１又は紐づけ用ＤＢ４０２等に通知された情報を、デバイスＩＤ、装置ＩＤ及びユーザＩＤ等と紐づけて記憶する。これにより、ＡＩアシスタントサーバ装置４は、スマートスピーカ２を介して原稿の読取り状況をユーザへ通知することができる。

例えば、同じページ番号を有する原稿が２回以上読み取られたと判断した場合、ＡＩアシスタントサーバ装置４の通知部４５８は、スマートスピーカ２を介してユーザに音声又は画面表示によって、重複して読取処理が行われたことを警告することができる。また、連続したページ番号を有する原稿が読み取られたにも関わらず所定のページ番号を有する原稿だけ読み取られていないと判断した場合、通知部４５８は、スマートスピーカ２を介してユーザに音声又は画面表示によって、所定ページの読取り処理が行われなかったことを警告することができる。

また、ユーザがスマートスピーカ２に対して原稿の読取りの状況を発話によって問い合わせた場合、ＡＩアシスタントサーバ装置４は、スマートスピーカ２を介してユーザに音声又は画面表示によって、原稿の読取りが完了したページ番号を通知することができる。この場合、例えば、操作音声変換プログラムの実行により機能する解釈部３５４は、「ＳＣＡＮ＿ＰＡＧＥＣＯＮＦＩＲＭ」などの原稿の読取りの状況を問い合わせるインテントを生成する。さらに、管理プログラムを実行することで機能する実行指示部４５６は、ＭＦＰ＿＃１に原稿の読取り済みのページ番号を問い合わせることによって、又はＭＦＰ＿＃１から通知されているページ番号に基づいて、原稿の読取りの状況を確認する。そして、通知部４５８は、操作音声変換プログラムを介して、スマートスピーカ２に対して原稿読取り済みのページ番号を通知することができる。

本実施形態において、音声操作システム１は、例えば、過去のＭＦＰ＿＃１の原稿の読取りに係る履歴及び使用履歴、並びに図５、図６の紐づけ用ＤＢ４０２を構築する各管理テーブルの情報から、ユーザの発話等に伴う音声データついて、機械学習を利用して、ＭＦＰ＿＃１における読取処理に加えて関連する処理も自動的に実行するような構成を備えていてもよい。

第２の実施形態において上述したような構成を備えることで、ユーザは、原稿を継続して読み取りたい場合に、原稿を読み取るための発話音声を原稿のページを変えたり原稿の方向を変えたりする度にすべて発話することなく、簡略化した発話音声を与えるだけで継続した読取りを行えるようになる。

〔実施形態の効果〕
以上の説明から明らかなように、本実施形態に係る音声操作システム１は、スマートスピーカ２に、プラットフォームアプリケーションプログラムとなる操作音声処理プログラム等を含むプログラムをインストールし、このプラットフォームアプリケーションプログラムによるクラウドサービス装置５との通信を行う。ユーザがスマートスピーカ２に設けられているマイクロホン部２９に向かって音声操作を行うと、クラウドサービス装置５は、ユーザの発話内容を解析し、ユーザによって与えられた原稿読取指示及び所定の処理の実行指示に基づく各処理が行われるようにＭＦＰ６等の画像読取装置を操作する。

このような構成により、簡略化した音声指示を与えるだけで複数の原稿の読取り処理を継続的に行うようにすることが可能になる。つまり、連続する複数のジョブを音声によって画像形成装置に実行させる場合、その都度ジョブを実行させるための操作を簡略化することが可能になる。

これによって、タッチパネル２７等のＧＵＩ（Graphical User Interface）による操作を不要とすることができる。このため、操作に慣れているユーザであっても、さらに迅速かつ簡単な入力操作を可能とすることができる。また、対話等による操作サポートによって、例えば、複雑なネットワーク設定、高度な処理の設定又は新規アプリの導入等が不要となる。その結果、高齢者又は機械操作に不慣れなユーザ等であっても、ユーザが希望する操作を迅速かつ簡単に実行可能とすることができ、利便性が向上する。さらに、原稿を読み取る際に原稿を手で押さえなければならない場合、操作部等への操作性が悪くなるといった場合が想定される。しかし、本実施形態に係る音声操作システム１によれば、読み取りをしたい原稿を原稿台に置いて必要最低限な発話をすれば継続的な原稿の読取りが実行されるため、操作性の向上が期待できる。

また、本実施形態によれば、ユーザの発話内容から得られたテキストデータに基づくユーザの意図の解析を、クラウドサービス装置５（又はＡＩアシスタントサーバ装置４）側で判断して処理することも可能となる。

なお、画像読取装置は、通信機能を備え繰返しの処理が可能な装置であれば画像形成装置（ＭＦＰ）に限られない。つまり、画像読取装置は、例えば、ＰＪ（Projector：プロジェクタ）、ＩＷＢ（Interactive White Board：相互通信が可能な電子式の黒板機能を有する白板）、デジタルサイネージ等の出力装置、ＨＵＤ（Head Up Display）装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、自動車（Connected Car）、ノートＰＣ（Personal Computer）、携帯電話、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ（Personal Digital Assistant）、デジタルカメラ、ウェアラブルＰＣまたはデスクトップＰＣ等であってもよい。

上述した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサ、上述した各機能を実行するよう設計されたＡＳＩＣ（Application Specific Integrated Circuit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）及び従来の回路モジュール等のデバイスを含むものとする。

また、音声取得装置は、マイク機能、撮像機能、スピーカ機能、表示機能、操作機能及び通信機能等を備えた装置であれば、スマートスピーカに限られない。音声取得装置は、例えば、ノートＰＣ（Personal Computer）、携帯電話、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ（Personal Digital Assistant）、デジタルカメラ、ウェアラブルＰＣ、デスクトップＰＣ又はイヤホン型の送受信装置であってもよい。このイヤホン型の送受信装置とは、例えば、ユーザの耳に装着された状態で発話したユーザ自身の音声を受信（取得）し、受信した音声を音声データに変換して所定のサーバ装置に送信し、所定のサーバ装置からフィードバック結果等を受信（取得）する機能を備えた通信装置をいう。

同様に、画像読取装置は、上述したＭＦＰ以外に、ネットワークを介してサーバ装置及び音声取得装置と通信可能で、製本された状態のブック原稿等の原稿を読取り可能な装置であればその種類を問わない。例えば、画像読取装置は、単体スキャナ等の電子機器であってもよい。

最後に、上述の実施形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な各実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置換え、変更を行うことも可能である。例えば、上述の第１の実施形態の説明では、音声認識サーバ装置３がユーザにより与えられた発話等に対応するテキストデータを生成し、生成したテキストデータに基づいて、ＡＩアシスタントサーバ装置４がユーザの意図している操作を解釈した。しかし、音声取得装置側に、このような音声認識機能及び解釈機能を設け、スマートスピーカ２で、ユーザの発話から意図する操作を解釈してもよい。これにより、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４を不要とすることができ、システム構成を簡素化することができる。

このような各実施形態及び各実施形態の変形は、発明の範囲及び要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１情報処理システム
２スマートスピーカ（音声取得装置の一例）
３音声認識サーバ装置
４ＡＩアシスタントサーバ装置（情報処理装置の一例）
６ＭＦＰ（画像読取装置の一例）
２５２取得部（音声データ取得手段の一例）
４５１通信制御部（通信手段の一例）
４５３解釈結果変換部（読取命令変換手段の一例）
４５５補完部（補完手段の一例）
６５１通信制御部（ファイル送信手段の一例）
６５２命令受信部（読取命令受信手段の一例）
６５４読取実行部（読取制御手段の一例）

特開２０１４－２０３０２４号公報

Claims

音声を集音して音声データを得る音声取得装置と、
原稿に対して少なくとも１回以上の画像の読取りを行う画像読取装置と、
前記音声取得装置が送信した第１のタイミングで第１の音声データを受信し、当該第１の音声データから所定の読取条件に基づいて前記原稿を読み取るための読取命令に変換して、前記所定の読取条件に基づいた前記読取命令を前記画像読取装置に送信する情報処理装置と、
を備えた情報処理システムであって、
前記情報処理装置は、
前記第１のタイミングよりも後の第２のタイミングで受信した第２の音声データが前記第１の音声データに基づく前記読取命令の実行の継続を可能とする内容である場合に、前記読取命令を前記画像読取装置に再送し、
前記第１の音声データおよび前記第２の音声データを、テキストデータに変換し、変換した前記テキストデータが予め定義された辞書情報と一致した場合、前記テキストデータを、前記画像読取装置に対して要求するジョブの種類を示すインテントに変換し、前記インテントを前記読取命令に変換し、
前記第１の音声データから変換した前記インテントの受信から所定時間内に前記第２の音声データから同一の前記インテントが取得された場合、前記第２の音声データに基づく原稿の読み取りを、前記第１の音声データに基づく原稿に対する継続した原稿の読み取りであると判断し、前記第２の音声データから変換した前記インテントが前記ジョブの種類を含まない場合でも、前記第１の音声データに基づく前記読取命令の実行の継続と解釈して、前記読取命令を前記画像読取装置に再送することを特徴とする情報処理システム。
前記画像読取装置は、
前記情報処理装置から送信された前記読取命令を実行して得られた結果を一つのファイルとして生成し、前記ファイルを当該画像読取装置に記憶する、又は、外部装置に送信することを特徴とする請求項１に記載の情報処理システム。
音声を集音して音声データを得る音声取得装置と接続される情報処理装置であって、
前記音声取得装置が第１のタイミングで送信した第１の音声データを受信する受信手段と、
前記第１の音声データから所定の読取条件に基づいて原稿を読み取るための読取命令に変換する変換手段と、
前記読取命令を、当該読取命令を実行する画像読取装置に送信する送信手段と、
を有し、
前記変換手段は、
前記第１のタイミングよりも後の第２のタイミングで受信した第２の音声データが前記第１の音声データに基づく前記読取命令の実行の継続を可能とする内容である場合に、前記読取命令に変換し、前記第１の音声データおよび前記第２の音声データを、テキストデータに変換し、変換した前記テキストデータが予め定義された辞書情報と一致した場合、前記テキストデータを、前記画像読取装置に対して要求するジョブの種類を示すインテントに変換し、前記インテントを前記読取命令に変換し、前記第１の音声データから変換した前記インテントの受信から所定時間内に前記第２の音声データから同一の前記インテントが取得された場合、前記第２の音声データに基づく原稿の読み取りを、前記第１の音声データに基づく原稿に対する継続した原稿の読み取りと判断し、前記第２の音声データから変換した前記インテントが前記ジョブの種類を含まない場合でも、前記第１の音声データに基づく前記読取命令の実行の継続と解釈し、
前記送信手段は、前記変換された前記読取命令を前記画像読取装置に再送することを特徴とする情報処理装置。
前記読取命令に変換する際に、前記読取命令に関する情報を補完する補完手段をさらに備えることを特徴とする請求項３に記載の情報処理装置。
前記補完手段は、前記音声取得装置に対して、前記読取命令に関する情報を補完するための音声の取得を促すことを特徴とする請求項４に記載の情報処理装置。
音声を集音して音声データを得る音声取得装置と、
原稿に対して少なくとも１回以上の原稿の読取りを行う画像読取装置と、
前記音声取得装置が送信した第１のタイミングで第１の音声データを受信し、当該第１の音声データから所定の読取条件に基づいて前記原稿を読み取るための読取命令に変換して、前記所定の読取条件に基づいた前記読取命令を前記画像読取装置に送信する情報処理装置と、
を備えた情報処理システムが実行する情報処理方法であって、
前記情報処理装置が実行するステップは、
前記第１のタイミングよりも後の第２のタイミングで受信した第２の音声データが前記第１の音声データに基づく前記読取命令の実行の継続を可能とする内容である場合に、前記読取命令を前記画像読取装置に再送するステップを含み、
前記ステップは、
前記第１の音声データおよび前記第２の音声データを、テキストデータに変換し、変換した前記テキストデータが予め定義された辞書情報と一致した場合、前記テキストデータを、前記画像読取装置に対して要求するジョブの種類を示すインテントに変換し、前記インテントを前記読取命令に変換し、
前記第１の音声データから変換した前記インテントの受信から所定時間内に前記第２の音声データから同一の前記インテントが取得された場合、前記第２の音声データに基づく原稿の読み取りを、前記第１の音声データに基づく原稿に対する継続した原稿の読み取りであると判断し、前記第２の音声データから変換した前記インテントが前記ジョブの種類を含まない場合でも、前記第１の音声データに基づく前記読取命令の実行の継続と解釈して、前記読取命令を前記画像読取装置に再送する、ことを特徴とする情報処理方法。
コンピュータに、請求項６に記載の情報処理方法を実行させることを特徴とするプログラム。