JP2011065108A - 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム - Google Patents

画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2011065108A
JP2011065108A JP2009218132A JP2009218132A JP2011065108A JP 2011065108 A JP2011065108 A JP 2011065108A JP 2009218132 A JP2009218132 A JP 2009218132A JP 2009218132 A JP2009218132 A JP 2009218132A JP 2011065108 A JP2011065108 A JP 2011065108A
Authority
JP
Japan
Prior art keywords
phrase
compound
speech
phrases
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009218132A
Other languages
English (en)
Other versions
JP5146429B2 (ja
Inventor
Ayumi Ito
歩 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Business Technologies Inc
Original Assignee
Konica Minolta Business Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Business Technologies Inc filed Critical Konica Minolta Business Technologies Inc
Priority to JP2009218132A priority Critical patent/JP5146429B2/ja
Priority to US12/883,388 priority patent/US8630852B2/en
Publication of JP2011065108A publication Critical patent/JP2011065108A/ja
Application granted granted Critical
Publication of JP5146429B2 publication Critical patent/JP5146429B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Facsimiles In General (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】発声する複数の語句の順序をユーザが意識しなくても、音声認識を正しく行うこと。
【解決手段】原稿の画像を読み取る画像読取装置を備えた画像処理装置に、マイク、音声を認識するための認識語句を記憶する認識辞書テーブルTB3、複数の所定の語句についての順序の異なる全ての組合せからなる複数の複合語句WFを生成する複合語句生成部34b、生成された複合語句WFを認識語句として認識辞書テーブルTB3に書き込む複合語句登録部34dと、複数の所定の語句を任意の順序で発声した発声語句に係る音声が入力されたときに、認識辞書テーブルTB3の中から当該発声語句と一致する複合語句WFを検索することによって当該音声を認識する音声認識処理部35、音声の認識の結果に基づいて画像に対する処理を実行する画像処理部を設ける。
【選択図】図11

Description

本発明は、原稿の画像を読み取る画像読取装置を備えた画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラムに関する。
近年、画像処理装置に音声を認識するための機能(音声認識機能)が設けられるようになった。
例えば、画像処理装置に備えられたスキャナ機能などによって生成された画像データを、他の画像処理装置またはパーソナルコンピュータなどに送信する場合において、ユーザは音声によって画像データの送信先(宛先)を検索することができる。
音声認識には、音声を認識するための語句が登録された認識辞書テーブルが必要である。通常、認識辞書テーブルには単語単位に語句が登録されるので、単語単位でしか音声を認識することができない。そのため、複数の単語の音声を認識するには、複数の単語を一つの語句として認識するための辞書テーブルとなるグラマーに登録しておく必要がある。
例えば、ユーザによって既に登録されている「鈴木」という人のファックス番号を音声によって検索するために、「ファックス」、「スズキ」という2つの単語を連続して「ファックススズキ」と発声したとする。この場合は、図33に示す従来の認識辞書テーブルTB10のように「ファックススズキ」という語句が登録されていれば、ユーザの音声は認識される。
ところが、ユーザは同じ組合せの語句をいつも特定の順序で発声するとは限らない。上記の例の場合に、ユーザは単語の順序を入れ替えて「スズキファックス」と発声することもある。
画像処理装置は、認識辞書テーブルに登録されている語句しか音声を認識することはできない。そのため、ユーザが、認識辞書テーブルに登録されている「ファックススズキ」とは異なる順序で「スズキファックス」と発声した場合は、ユーザの音声は認識されない。
よって、意味は同じでも順序を変えて発声した複数の語句の音声が認識されないことがあり、ユーザに戸惑いが生じることがある。また、ユーザにとっての画像処理装置の操作性も低下する。
従来において、音声によって個人名称を検索する場合において、音声認識用の名字辞書および名前辞書を作成し、音声により順番に入力された名字と名前についてそれぞれ音声認識を実行する方法が提案されている(特許文献1)。
特開2002−108389号公報
しかし、特許文献1に記載された方法でも、音声により名字と名前とが正しい順番で入力されなければ、入力された名字および名前について音声を正しく認識することができない。つまり、特許文献1に記載される方法では、意味は同じで順序を変えて発声された複数の単語の音声を認識することができず、ユーザは不便を感じることがある。
本発明は、このような問題点に鑑み、発声する複数の単語または語句の順序をユーザが意識しなくても、音声認識を正しく行うことを目的とする。
本発明の実施形態に係る画像処理装置は、原稿の画像を読み取る画像読取装置を備えた画像処理装置であって、ユーザに音声を入力させるための音声入力手段と、前記音声を認識するための語句情報によって構成される辞書を記憶する辞書記憶手段と、複数の所定の語句についての順序の異なる全ての組合せからなる複数の複合語句を生成する複合語句生成手段と、生成された前記複数の複合語句を前記語句情報として前記辞書に登録する複合語句登録手段と、前記複数の所定の語句を任意の順序で発声した発声語句に係る音声が入力されたときに、前記辞書の中から当該発声語句と一致する前記複合語句を検索することによって当該音声を認識する、音声認識手段と、前記音声認識手段による前記音声の認識の結果に基づいて前記画像に対する処理を実行する画像処理手段と、を有する。
好ましくは、前記複合語句に関連付けられた関連情報を記憶する関連情報記憶手段を有し、前記画像処理手段は、前記音声認識手段による前記音声の認識の結果に基づいて前記関連情報記憶手段から前記関連情報を抽出し、当該関連情報を用いて前記画像に対する処理を実行する。
ユーザにより指定された語句、または予め登録された語句など、複数の所定の語句について、それらの順序の異なる全ての組合せからなる複数の複合語句を生成して辞書に登録しておくことにより、音声で入力された語句の順序が異なってもそれを辞書の中から検索することができる。
本発明によると、発声する複数の単語または語句の順序をユーザが意識しなくても、音声認識を正しく行うことができる。
本発明の一実施形態に係る画像処理装置を含むネットワークシステムの例を示す図である。 一実施形態の画像形成装置のハードウェア構成の例を示す図である。 操作パネルの例を示す図である。 画像形成装置の機能的構成の例を示す図である。 第1実施形態における登録情報テーブルの例を示す図である。 機能語句情報テーブルの例を示す図である。 宛先登録画面の例を示す図である。 読み方登録画面の例を示す図である。 検索文字入力画面の例を示す図である。 認識辞書テーブルの例を示す図である。 辞書管理部の構成の例を示す図である。 音声認識処理部の構成の例を示す図である。 画像形成装置の音声認識処理の流れの例を示すフローチャートである。 宛先選択画面の例を示す図である。 宛先選択画面の例を示す図である。 第2実施形態における登録情報テーブルの例を示す図である。 機能語句情報テーブルの例を示す図である。 ボックス登録画面の例を示す図である。 読み方登録画面の例を示す図である。 認識辞書テーブルの例を示す図である。 ボックス選択画面の例を示す図である。 ボックス選択画面の例を示す図である。 第3実施形態における登録情報テーブルの例を示す図である。 文書保存画面の例を示す図である。 読み方入力画面の例を示す図である。 警告表示画面の例を示す図である。 認識辞書テーブルの例を示す図である。 文書利用画面の例を示す図である。 複合語句生成テーブルの例を示す図である。 読み方登録画面の例を示す図である。 第1〜第3実施形態における画像形成装置全体の処理の流れの例を説明するためのフローチャートである。 実施形態4における画像形成装置全体の処理の流れの例を説明するためのフローチャートである。 従来の認識辞書テーブルの例を示す図である。
図1に示すネットワークシステムSYSは、画像形成装置1を含むネットワークシステムである。画像形成装置1は、本発明に係る画像処理装置の一実施形態である。
図1に示すように、ネットワークシステムSYSは、画像形成装置1、ファイルサーバ2a、端末装置3a、および通信回線NT1などによって構成される。
画像形成装置1、ファイルサーバ2a、および端末装置3aは、それぞれ、通信回線NT1を介して互いに接続されている。通信回線NT1として、LAN、WAN、イントラネット、または専用線などが用いられる。
ファイルサーバ2aは、電子文書(電子データ)を管理するためのファイルサーバである。
端末装置3は、ネットワークシステムSYSのユーザが用いる端末装置である。各ユーザは、この端末装置3を用いて、後に説明する、画像形成装置1の「PCプリント機能」を利用することができる。
ファックス端末4aは、通信回線NT2を介して画像形成装置1または他のファックス端末との間でファクシミリによるデータの送受信を行う。なお、通信回線NT2として、公衆回線などが用いられる。
画像形成装置1は、コピー機能、PCプリント機能、ファックス送信機能、電子メール送信機能、SMB送信機能、FTP送信機能、およびボックス(Box)機能などの様々なアプリケーション機能を集約した画像形成装置である。複合機またはMFP(Multi Function Peripherals)などと呼ばれることもある。
本実施形態の画像形成装置1には、上記のコピー機能などの基本的な機能のほかに、音声実行機能が備えられている。音声実行機能は、音声認識処理を実行し、その音声認識処理の結果に基づいて所定の処理を実行する機能である。音声認識処理は、図1に示す画像形成装置1の操作パネル10fに供えられているマイクから入力される音声を、記憶媒体に記憶されている認識辞書テーブル(グラマー)に基づいて認識するための処理である。本実施形態では、ユーザが2つの単語(語句)を連続して発声することによって画像形成装置1を操作する場合を例に説明する。
図2に示すように、画像形成装置1は、CPU10a、RAM10b、ROM10c、ハードディスク10d、制御用回路10e、操作パネル10f、スキャナ部10g、プリンタ部10h、ファックス部10j、およびネットワークインタフェース10kなどによって構成される。これらの全部または一部によって画像処理装置が形成される。
スキャナ部10gは、原稿の用紙(以下、単に「原稿」と記載する。)に描かれている写真、文字、絵、図表などの画像を光学的に読み取って電子データ化する装置である。原稿として、紙以外の種々のシート、物などを用いることが可能である。
プリンタ部10hは、スキャナ部10gが読み取った画像データまたは他の装置から送信されてきた画像データを、イエロー、マゼンタ、シアン、およびブラックの4色のトナーを使用して用紙に印刷する装置である。
ファックス部10jは、スキャナ部10gが読み取った画像データを、通信回線を介してファックス端末に送信しまたはファックス端末から送信されてくる画像データを受信するための装置である。
ネットワークインタフェース10kは、NIC(Network Interface Card)であって、LANまたはインターネットなどを介して他の装置への接続を行い、電子データの送受信などを行う。
制御用回路10eは、ハードディスク10d、操作パネル10f、スキャナ部10g、プリンタ部10h、ファックス部10j、およびネットワークインタフェース10kなどの装置を制御するための回路である。
操作パネル10fは、ユーザが画像形成装置1に指示を与えまたは画像形成装置1からユーザにメッセージを通知するための装置である。
これらの各装置のうちの一部が連携することによって、前述のアプリケーション機能が実現される。
「コピー機能」は、スキャナ部10gによって原稿の画像を読み取り、それによって得た画像データをプリンタ部10hによって用紙に印刷する機能である。
「PCプリント機能」は、ネットワークインタフェース10kによって通信回線を介して画像形成装置1と互いに接続されている端末装置(以下、単に「端末装置」と記載する)などから画像データなどを受信し、プリンタ部10hによってその画像データなどを用紙に印刷する機能である。この機能は、「ネットワークプリンティング」と呼ばれることもある。
「ファックス送信機能」は、スキャナ部10gで読み取った画像データなどをファックス部10jからファックス端末などに送信する機能である。
「ファックス受信機能」は、ファックス部10jによってファックス端末などから画像データを受信し、プリンタ部10hによってその画像データを用紙に印刷する機能である。
「電子メール送信機能」は、スキャナ部10gで読み取った画像データなどを電子メールに添付してネットワークインタフェース10kから送信する機能である。
「SMB送信機能」は、スキャナ部10gで読み取った画像データなどを、SMB(Server Message Block)に基づいて、IPアドレスなどで指定される送信先に直接送信する機能である。
「FTP送信機能」は、スキャナ部10gで読み取った画像データなどをFTP(File Transfer Protocol)に基づいて送信する機能である。
「ボックス機能」は、ユーザごとに「ボックス」または「パーソナルボックス」などと呼ばれる、パーソナルコンピュータにおけるフォルダまたはディレクトリなどに相当する記憶領域をハードディスク10dに設けておき、ユーザがスキャナ部10gを操作するなどして得た画像データなどを自分の記憶領域に保存できるようにする機能である。「ドキュメントサーバ機能」と呼ばれることもある。
PCプリント機能を利用する際に端末装置において予めボックスを指定しておくことによって、プリントを行いつつプリントする画像データをそのボックス内に保存させることができる。ボックスの指定は、例えば、端末装置にインストールされている画像形成装置1のドライバの機能を用いて行うことができる。
図3に示すように操作パネル10fには、タッチパネルTP、マイクMK、操作部TK、および音声認識ボタンKB、コピーボタンMB、スキャンFAXボタンSB、およびBOXボタンTBなどが設けられている。
タッチパネルTPは、画像形成装置1からユーザに通知するメッセージまたは各種機能を利用するための画面(操作画面)などを表示する表示装置である。タッチパネルの機能によって入力装置としての役割も果たす。
マイク(マイクロフォン)MKは、ユーザが音声(音声コマンド)を入力するための装置であり、入力された音声をアナログの音声データ(アナログ音声データANDT)に変換する。
操作部TKは、プリントの枚数またはファックス番号などを入力するためのボタンのボタン群である。
音声認識ボタンKBは、音声認識モード(音声認識を行うためのモード)への切替えを行うためのボタンである。このボタンが押されると、画像形成装置1は、音声認識処理を実行し、音声認識の結果に基づいて所定の処理を実行する。
コピーボタンMBは、印刷モード(画像データなどを用紙に印刷するためのモード)への切り替えを行うためのボタンである。このボタンが押されると、コピーについての設定を行う画面(コピー設定画面)がタッチパネルTPに表示される。
スキャンFAXボタンSBは、送信モード(画像データなどを他の装置に送信するためのモード)への切り替えを行うためのボタンである。このボタンが押されると、画像データなどの送信先の設定を行うための画面がタッチパネルTPに表示される。
BOXボタンTBは、ボックスモード(ボックスへの画像データの保存またはボックスに保存されている画像データなどの参照を行うためのモード)への切り替えを行うためのボタンである。このボタンが押されると、画像データなどの保存先とするボックスまたは参照したいボックスの指定を行うための画面がタッチパネルTPに表示される。
図4において、画像形成装置1は、総合情報記憶部30、機能語句情報記憶部31、表示制御部32、情報書込み部33、辞書管理部34、および音声認識処理部35を有する。これらの機能を実現するためのプログラムは、当該プログラムが記録されたCD−ROM、DVD−ROM等の記録媒体MS1や半導体メモリ等の記録媒体MS2を含む可搬型の記録媒体MS(図2参照)からインストールすることが可能である。また、ネットワークを介してサーバからプログラムをダウンロードすることも可能である。
各部を実現するためのプログラムおよびデータは、ハードディスク10dにインストールされ、これらのプログラムおよびデータは必要に応じてRAM10bにロードされ、CPU10aによってプログラムが実行される。なお、CPU10aはコンピュータとして動作することが可能である。また、外部のコンピュータとLANなどを介して接続するようにしてもよい。また、図4の一部または全部の機能をプロセッサ(制御用回路)によって実現するように構成してもよい。
〔第1実施形態〕
次に、画像形成装置1の第1実施形態について、図4〜図15を参照して説明する。
以下、ユーザが、「電子メール送信機能」を利用して、スキャナ部10gで読み取った画像データを電子メールで「上杉」という人に宛ててに送信する場合を例に説明する。また、ユーザは、電子メールの宛先を検索する際に、検索対象の宛先名と宛先種別とを連続して発声するものとする。
図5は登録情報テーブルTB1の例を示す図、図6は機能語句情報テーブルTB2の例を示す図、図7は宛先登録画面GM1の例を示す図、図8は読み方登録画面GM2の例を示す図、図9は検索文字入力画面GM3の例を示す図、図10は認識辞書テーブルTB3の例を示す図、図11は辞書管理部34の構成の例を示す図、図12は音声認識処理部35の構成の例を示す図、図13は画像形成装置1の音声認識処理の流れの例を示すフローチャート、図14は宛先選択画面GM4の例を示す図、図15は宛先選択画面GM5の例を示す図である。
これら、宛先登録画面GM1、読み方登録画面GM2、検索文字入力画面GM3、宛先選択画面GM4、宛先選択画面GM5は、操作画面の例である。
図4の各部の機能および処理内容などについて詳細に説明する。
総合情報記憶部30は、登録情報テーブルTB1を記憶している。登録情報テーブルTB1には、図5に示すように、それぞれのユーザの宛先についての情報である宛先情報DT1が記憶され管理されている。宛先情報DT1の「登録番号」フィールドには、他の宛先情報DT1と区別するための登録番号(識別番号)BTが示される。
「登録名」フィールドには、例えばユーザの氏名などの宛先名WU1が示される。「読み(登録名)」フィールドには、「登録名」フィールドに示される氏名などの読み方WU2が示される。「検索文字」フィールドには、宛先を登録名で検索するための文字(検索文字)WU3が示される。「宛先種別」フィールドには、「宛先」フィールドに示される宛先へのデータの送信方法が示される。送信方法としては、E−mail、FTP、SMB、およびFAXの他に、WebDAVやネットワークBOXなどが挙げられる。「宛先」フィールドには、「宛先種別」フィールドに示される送信方法でデータを送信する際の宛先WU4が示される。
これら、宛先名WU1、読み方WU2、検索文字WU3、宛先WU4などは、ユーザによって指定されまたは入力される「ユーザ語句WU」である。第2〜第4実施形態においても、同様に、符号WUを付した要素は「ユーザ語句WU」である。なお、「ユーザ語句WU」は「設定語句WU」ということもある。
機能語句情報記憶部31は、機能語句情報テーブルTB2を記憶している。機能語句情報テーブルTB2には、図6に示すように、画像形成装置1に備えられている送信機能を示す語句(機能語句)についての情報である機能語句情報DT2が記憶され管理されている。機能語句情報DT2の「機能名」フィールドには、画像形成装置1に備えられている送信機能を示す語句が示され、「読み(機能名)」フィールドには、「機能名」フィールドに示される語句の読み方が示される。
なお、「読み(機能名)」フィールドに書き込まれる語句は、機能語句であるが、これは同時に、画像形成装置1において予め準備されたシステム語句である。したがって、これらの機能語句およびシステム語句について、以降においては「システム語句WS」または「機能語句WS」と記載する。第2〜第4実施形態においても、同様に、符号WSを付した要素は「システム語句WS」または「機能語句WS」である。
表示制御部32は、音声が入力されたタイミングまたは操作パネル10fに備えられているボタンが押されたタイミングで、所定の画面を操作パネル10fに表示させるための処理を行う。画像形成装置1にログインしているユーザがいないときは、ユーザIDおよびパスワードを入力するためのログイン用画面を表示させる。表示する画面にはそれぞれ他の画面と識別するための識別番号(画面番号)が付されており、表示制御部32は総合制御部36からの指令に係る画面番号の画面を操作パネル10fに表示させる。
情報書込み部33は、タッチパネルTPまたは操作部TKの操作によってユーザにより指定されまたは入力された登録事項を、総合情報記憶部30に書き込んで記憶させる(登録させる)ための処理を行う。
ここで、ユーザが宛先を登録するときの手順について、図7および図8の各画面を参照しながら説明する。
ユーザは、操作パネル10fのスキャンFAXボタンSBを押下することによって、宛先登録画面GM1(図7参照)を表示させる。ここで、ユーザは、登録番号、登録名、および送信先のアドレス(第1実施形態では、E−mailアドレス)を登録する。それぞれの項目は、登録番号ボタンBTN1、登録名ボタンBTN2、およびE−mail宛先ボタンBTN3をそれぞれ押下することによって表示される、入力キーが表示された入力キー画面(図示せず)から入力することができる。入力された項目は、登録番号ボタンBTN1、登録名ボタンBTN2、およびE−mail宛先ボタンBTN3にそれぞれ対応付けられた表示欄RN1、RN2、RN3に表示される。
ユーザが、登録番号、登録名、および送信先のアドレスを入力しOKボタンを押下すると、読み方登録画面GM2(図8参照)が表示される。ここで、ユーザは、宛先登録画面GM1で登録した登録名を発声するときの読み方を登録する。ユーザは、登録名(読み方)ボタンBTN4を押下して入力キー画面(図示せず)を表示させ、読み方を入力する。読み方は、ひらがなまたはカタカナのどちらを入力してもよい。登録名が英語の場合は、英語の発音などを入力する。入力された読み方は、登録名(読み方)ボタンBTN4に対応付けられた表示欄RN4に表示される。
読み方登録画面GM2では、読み方以外に検索文字を入力し登録することもできる。この場合は、検索文字ボタンBTN5を押下することによって表示される検索文字入力画面GM3(図9参照)から、検索文字を入力することができる。ここで、常用ボタンBTN6を押下すると、検索対象の登録名を検索文字以外の「常用」という区分に振り分けることができる。
図8に戻って、ユーザが読み方を入力してOKボタンを押下すると、宛先登録画面GM1および読み方登録画面GM2での入力内容が宛先情報DT1として、総合情報記憶部30に記憶されている登録情報テーブルTB1に登録される。
図4に戻って、辞書管理部34は、音声認識処理に用いる認識辞書テーブルTB3(図10参照)を保存し管理する。図11に示すように、辞書管理部34は、辞書データベース34a、複合語句生成部34b、語句バッファ34c、および複合語句書込み部34dを有する。
次に、図11の各部の機能および処理内容などについて詳細に説明する。
図11において、認識辞書データベース34aは、認識辞書テーブルTB3を記憶し管理している。認識辞書テーブルTB3は、操作パネル10fに表示されるそれぞれの画面に対応付けて用意される。つまり、音声によって画像形成装置1を操作する場合、ユーザは、操作パネル10fに表示されている画面(正確には、画面に表示されるボタンに示されるコマンド)などを見ながら語句(コマンド)を発声する。したがって、ユーザが発声した音声を認識するためには、表示されている画面に対応したコマンドを示す語句が、認識辞書テーブルTB3に記憶されている必要がある。
図10に示すように、認識辞書テーブルTB3には、認識語句情報DT3が記憶され管理されている。認識語句情報DT3には、登録情報テーブルTB1(図5参照)に記憶されている宛先情報DT1の登録番号に対応する語句番号BTと、音声認識処理により音声データを変換して得られる文字列と比較するための語句(認識語句)WNとが対応付けて示される。
認識語句WNには、複合語句生成部34bによって生成されて書き込まれた複合語句WFと、画像形成装置1において各画面に対応してコマンドとして予め準備されたコマンド語句WCとが含まれる。コマンド語句WCは、画像データの送受信、画像データによる印刷などの画像処理、または画面の制御など、種々の処理または制御を実行させるコマンドとして用いられる。コマンド語句WCには、上に述べたシステム語句WSが含まれる。
語句番号BTが1〜999の認識語句情報DT3は、複合語句WFについての情報であり、後に説明する複合語句書込み部34dにより書き込まれて追加される。語句番号BTが1000〜1007の認識語句情報DT3は、コマンド語句WCについての情報であり、画面番号欄GRNに示される画面番号の画面に表示されるコマンドに対応して予め登録されている。
複合語句生成部34bは、複合語句WFを生成するための処理を行う。すなわち、第1実施形態における複合語句WFは、登録情報テーブルTB1(図5参照)の「読み(登録名)」フィールドに示される語句WU2と、機能語句情報テーブルTB2(図6参照)の「読み(機能名)」フィールドに示される語句WSとの、2つの語句WU2,WSについて、それらの順序の異なる全ての組合せとして生成される。なお、対象となる語句が2つの場合には、前後の配置を逆にして組み合わせることにより複合語句WFが生成される。
なお、複合語句WFを生成するための語句の組合せは、ユーザが適宜変更することができる。その場合に、ユーザは、コマンド語句WCまたはシステム語句WSの中から、その機能などに応じて適宜選択することができる。
次に複合語句WFを生成するための処理について説明する。
複合語句生成部34bは、総合情報記憶部30で管理されている登録情報テーブルTB1に宛先情報DT1が追加(登録)されると、その追加された宛先情報DT1を登録情報テーブルTB1から抽出し語句バッファ34cに一時的に記憶させる。それに伴い、機能語句情報記憶部31で管理されている機能語句情報テーブルTB2から、抽出した宛先情報DT1の「宛先種別」フィールドに示される送信方法と同じ機能名を示す機能語句情報DT2を抽出し、語句バッファ34cに一時的に記憶させる。そして、語句バッファ34cに記憶させた宛先情報DT1および機能語句情報DT2のそれぞれから「読み(登録名)」フィールドおよび「読み(機能名)」フィールドに示される文字の文字データを生成する。
例えば、登録情報テーブルTB1に登録番号006の宛先情報DT1が追加されると、その登録番号006の宛先情報DT1を登録情報テーブルTB1から抽出し、語句バッファ34cに一時的に記憶させる。そして、登録番号006の宛先情報DT1の「読み(登録名)」フィールドに示される語句WU2である「ウエスギ」の文字データを生成する。
また、登録番号006の宛先情報DT1の「宛先種別」フィールドには、「E−mail」が表示されているので、「機能名」フィールドに「E−mail」が示される機能語句情報DT2を機能語句情報テーブルTB2から抽出し、語句バッファ34に一時的に記憶させる。そして、その機能語句情報DT2の「読み(機能名)」フィールドに示される語句WSである「イーメール」の文字データを生成する。
複合語句生成部34bは、生成した2つの文字データを、前後の配置を逆にして組合せて、新たな文字データである複合語句WFを生成する。例えば、上記の例の場合、「ウエスギ」および「イーメール」を前後の配置を逆にして組み合わせた、「ウエスギイーメール」および「イーメールウエスギ」の2つの複合語句WFを生成する。
複合語句生成部34bは、生成した複合語句WFを、その複合語句WFを生成するのに用いた宛先情報DT1の登録番号BTとともに複合語句書込み部34dに送る。
複合語句書込み部34dは、複合語句生成部34bから取得した複合語句WFを、登録番号BTと同じ語句番号BTを用いて、認識語句WNとして認識辞書テーブルTB3に書き込む。
図4に戻って、音声認識処理部35は、操作パネル10fに備えられたマイクMKに入力される音声についての音声認識処理を行う。図12に示すように、音声認識処理部35は、A/D変換部35a、音声データバッファ35b、および音声解析部35cを有する。
次に、音声認識処理について、図12の各部の機能および処理内容などとともに説明する。
A/D変換部35aは、マイクMKから出力されたアナログ音声データANDTをデジタルの音声データ(デジタル音声データDGDT)に変換する。
音声データバッファ35bは、A/D変換部35aから出力されたデジタル音声データDGDTを一時的に記憶する。
音声解析部35cは、音声データバッファ35bに記憶されているデジタル音声データDGDTを解析するための処理を行う。つまり、マイクMKから入力された音声を認識するための処理を行う。音声データバッファ35bにデジタル音声データDGDTが記憶されると、そのデジタル音声データDGDTを文字列(認識対象語句)に変換する。そして、認識辞書テーブルTB3の中から、認識対象語句と一致する認識語句WNを検索する。認識対象語句と一致する認識語句WNが検索された場合、つまり音声が認識された場合は、その認識語句WNの語句番号BTを、検索結果信号SNとして総合制御部36に送る。
総合制御部36は、登録情報テーブルTB1の中から、検索結果信号SNに示される語句番号BTと同じ登録番号BTの宛先情報DT1を抽出し、その情報に基づいて処理を行う。
認識対象語句と一致する認識語句WNが検索されなかった場合、つまり音声が認識されなかった場合は、音声が認識されなかった旨の検索結果信号SNを総合制御部36に送る。
図4に戻って、総合制御部36は、画像処理部37を制御するとともに、画像形成装置1の全体をも制御する。また、音声認識処理部35からの検索結果信号SNに基づいて、認識辞書テーブルTB3に登録されている認識語句WNに対応する処理を行う。
画像処理部37は、総合制御部36からの制御信号に応じて、スキャナ部10gが読み取った画像データまたは他の装置から送信されてきた画像データなどに対し、種々の画像処理を行う。
次に、ユーザが音声によって電子メールの送信先の検索を行う場合における画像形成装置1の音声認識処理について、図14、図15の各画面、および図13のフローチャートを参照しながら参照する。
ユーザが操作パネル10fのスキャンFAXボタンSBを押すと、図14に示すような宛先選択画面GM4が表示される。宛先選択画面GM4には、登録情報テーブルTB1に記憶されているそれぞれの宛先情報DT1に対応付けられている送信対象アイコンSM(SM1〜6)が表示される。それぞれの送信対象アイコンSMには、対応付けられている宛先情報DT1に示される登録名および宛先種別などが示される。ここで、ユーザが音声認識ボタンKBを押すと(図13の#401でYes)、操作パネル10fのマイクMKがオンになり(#402)、音声の入力が可能となる。ユーザは、宛先種別(ここでは「E−mail」)および送信対象となる宛先の登録名(ここでは「上杉」)を示す語句(「イーメール、ウエスギ」または「イーメールウエスギ」)を発声することによって、音声を入力する。
画像形成装置1は、入力された音声について(#403)、宛先選択画面GM4に対応付けられた認識辞書テーブルTB3を用いて音声認識処理を行う(#404)。つまり、入力された音声を認識対象語句、例えば「イーメールウエスギ」に変換し、認識辞書テーブルTB3の中から「イーメールウエスギ」と一致する認識語句WNを検索する。認識対象語句と一致する認識語句WNが検索されると、これに基づいて音声が認識される。
第1実施形態では、語句番号BTが006の認識語句情報DT3に示される認識語句WNが「イーメールウエスギ」と一致する。
音声が認識されると(#405でYes)、認識対象語句と一致する認識語句WNの語句番号BTと同じ登録番号BTの宛先情報DT1に対応付けられている送信対象アイコンSMのみが表示された宛先選択画面GM5(図15参照)を表示する(#406)。
例えば、送信対象アイコンSM6は、登録番号006の宛先情報DT1に対応付けられている。画像形成装置1は、宛先選択画面GM5においてユーザが「オーケー」と発声しその音声が認識されると、登録情報テーブルTB1に記憶されている登録番号006の宛先情報DT1を参照し、「上杉」に対応した電子メールアドレスを示した確認画面(図示せず)を表示する(#407)。ユーザは、電子メールアドレスを確認した後、送信ボタンを押すなどして画像データを電子メールで送信することができる。
認識対象語句と一致する認識語句WNが検索されなかった場合、つまり音声が認識されなかった場合は、音声が認識されなかった旨の警告を示す画面(図示せず)を表示する(#408)。
第1実施形態の認識辞書テーブルTB3には、例えば「ウエスギイーメール」、「イーメールウエスギ」のように、2つの単語(「ウエスギ」、「イーメール」)の前後の配置が逆になった認識語句WNが登録される。これにより、ユーザが「ウエスギ」および「イーメール」のどちらを先に発声しても、音声を認識することができる。また、2つの単語で検索対象を検索することができるので、単語を1つずつ発声する場合よりも早く検索対象を探し出すことができる。
〔第2実施形態〕
次に、画像形成装置1の第2実施形態について図16〜図22を参照して説明する。なお、第1実施形態における画像形成装置1と同一の構成要素には、同一の符号を付してその詳細な説明は適宜省略する。以下同様である。
図16は登録情報テーブルTB4の例を示す図、図17は機能語句情報テーブルTB5の例を示す図、図18はボックス登録画面GM6の例を示す図、図19は読み方登録画面GM7の例を示す図、図20は認識辞書テーブルTB6の例を示す図、図21はボックス選択画面GM8の例を示す図、図22はボックス選択画面GM9の例を示す図である。
以下、ユーザが、「ボックス機能」を利用して、スキャナ部10gで読み取った画像データを「上杉」という名前のボックスに保存する場合を例に説明する。また、ユーザは、保存先のボックスを検索する際に、検索対象のボックスのボックス名とボックスタイプとを連続して発声するものとする。
図16に、第2実施形態における登録情報テーブルTB4を示す。登録情報テーブルTB4には、画像形成装置1に登録されている各ユーザのボックスに関する情報であるボックス情報DT4が記憶され管理されている。ボックス情報DT4の「登録番号」フィールドには、他のボックス情報DT4と区別するための登録番号(識別番号)BTが示される。この登録番号BTは、各ボックスのボックス番号でもある。「BOX名」フィールドには、ボックス名WU11が示される。「読み(BOX名)」フィールドには、「BOX名」フィールドに示されるボックス名の読み方WU12が示される。「検索文字」フィールドには、ボックスをボックス名で検索するための検索文字WU13が示される。「BOXタイプ」フィールドには、ボックスの種類(グループ名)が示される。
その他、図16には示されていないが、登録情報テーブルTB4には、各ボックスの登録場所または送信種別なども示されることがある。例えば、そのボックスが登録されているのが画像形成装置1ではなく通信回線を通じて画像形成装置1に接続されているサーバである場合には、そのボックスの登録場所としてサーバ名が表示される。また、データの送信方法など(例えば、FTP、SMB、WebDAVネットワークBOXなど)も表示される。
図17に、第2実施形態における機能語句情報テーブルTB5を示す。機能語句情報テーブルTB5には、図17に示すように、予め画像形成装置1に設定されているボックスの種類についての情報である機能語句情報DT5が記憶され管理されている。「BOXタイプ」フィールドには画像形成装置1に備えられているボックスの種類を示す語句が示され、「読み(BOXタイプ)」フィールドには「BOXタイプ」フィールドに示される語句の読み方WSが示される。
次に、第2実施形態において、ユーザがボックスを登録するときの手順について、図18および図19の各画面を参照しながら説明する。
ユーザは操作パネル10fのBOXボタンTBを押下することによって、ボックス登録画面GM6(図18参照)を表示させる。ここで、ユーザは、ボックス番号、ボックス名、パスワード、検索文字、およびボックスタイプなどを登録する。それぞれの項目は、第1実施形態と同一の方法で入力することができる。それぞれの項目を入力しOKボタンを押下すると、読み方登録画面GM7(図19参照)が表示される。ここで、ユーザは、第1実施形態と同一の方法で読み方を入力する。
読み方を入力して、OKボタンを押下すると、ボックス登録画面GM6および読み方登録画面GM7での入力内容がボックス情報DT4として、総合情報記憶部30に記憶されている登録情報テーブルTB4に登録される。
次に、第2実施形態における認識辞書テーブルTB6について説明する。
図20に示すように、第2実施形態における認識辞書テーブルTB6に登録される語句番号BTが300〜1999の認識語句WNつまり複合語句WFは、登録情報テーブルTB4の「読み(BOX名)」フィールドに示される語句WU12と、機能語句情報テーブルTB5の「読み(BOXタイプ)」フィールドに示される語句WSとの、2つの語句WU12,WSについて、それらの順序の異なる全ての組合せによって生成される。
語句番号BTが2000〜2010の認識語句WNつまりコマンド語句WCは、画面番号欄GRNに示される画面番号の画面に表示されるコマンドを示す、予め登録されている語句である。
複合語句WFの生成方法は、第1実施形態の場合と同一である。なお、第2実施形態においても、複合語句WFを生成するための語句の組合せは、ユーザが適宜変更することができる。例えば、ボックス登録画面GM6または読み方登録画面GM7などに、複合語句WFを生成するために組合せる対象(語句)を選択するための選択ボタンを設けておき、ユーザが選択できるようにしておく。組合せとしては、ボックス名とボックスタイプとの組合せの他に、ボックス番号とボックス名との組合せまたは検索文字とボックスタイプとの組合せなどが挙げられる。
次に、ユーザが音声によって画像データの保存先のボックスを検索する場合における画像形成装置1の音声認識処理について、図21、図22の各画面、および図13のフローチャートを参照しながら参照する。
ユーザが操作パネル10fのBOXボタンTBを押すと、図21に示すようなボックス選択画面GM8が表示される。ボックス選択画面GM8には、登録情報テーブルTB4に記憶されているそれぞれのボックス情報DT4に対応付けられているボックスアイコンBM(BM1〜6)が表示される。それぞれのボックスアイコンBMには、対応付けられているボックス情報DT4に示される登録番号およびBOX名などが示される。ここで、ユーザが音声認識ボタンKBを押すと(図13の#401でYes)、操作パネル10fのマイクMKがオンになり(#402)、音声の入力が可能となる。ユーザは、ボックスタイプ(ここでは「共有」)および保存先のボックスのボックス名(ここでは「上杉」)を示す語句(「キョウユウ、ウエスギ」)を発声することによって、音声を入力する。
画像形成装置1は、入力された音声について(#403)、ボックス選択画面GM8に対応付けられた認識辞書テーブルTB6を用いて音声認識処理を行う(#404)。つまり、入力された音声を認識対象語句(「キョウユウウエスギ」)に変換し、認識辞書テーブルTB6の中から「キョウユウウエスギ」と一致する認識語句WNを検索する。認識対象語句と一致する認識語句WNが検索されると、音声が認識される。第2実施形態では、語句番号325の認識語句情報DT6に示される認識語句WNが「キョウユウウエスギ」と一致する。
音声が認識されると(#405でYes)、認識対象語句と一致する認識語句WNの語句番号BTと同じ登録番号BTのボックス情報DT4に対応付けられているボックスアイコンBMのみが表示されたボックス選択画面GM9(図22参照)を表示する(#406)。
例えば、ボックスアイコンBM5は、登録番号325のボックス情報DT4に対応付けられている。画像形成装置1は、ボックス選択画面GM9においてユーザが「オーケー」と発声しその音声が認識されると、登録情報テーブルTB4に記憶されている登録番号325の宛先情報DT4を参照し、ボックス名が「上杉」であるボックスの保存内容を示した確認画面(図示せず)を表示する(#407)。ユーザは、ボックスの保存内容を確認した後、保存ボタンを押すなどして画像データをボックスに保存することができる。
認識対象語句と一致する認識語句WNが検索されなかった場合、つまり音声が認識されなかった場合は、音声が認識されなかった旨の警告を示す画面(図示せず)を表示する(#408)。
〔第3実施形態〕
次に、画像形成装置1の第3実施形態について、図23〜図28を参照して説明する。
図23は登録情報テーブルTB7の例を示す図、図24は文書保存画面GM10の例を示す図、図25は読み方入力画面GM11の例を示す図、図26は警告表示画面GM12の例を示す図、図27は認識辞書テーブルTB8の例を示す図、図28は文書利用画面GM13の例を示す図である。
以下、ユーザが、画像形成装置1に登録されているボックスに保存されている文書データ(単に「文書」と記載することがある)を検索する場合を例に説明する。また、ユーザは、文書が保存されているボックスのボックス名と文書名とを連続して発声することによって、文書の検索を行うものとする。
図23に、第3実施形態における登録情報テーブルTB7を示す。登録情報テーブルTB7には、画像形成装置1に登録されている各ユーザのボックスに保存されている文書に関する情報である保存文書情報DT7が記憶され管理されている。
保存文書情報DT7の「登録番号」フィールドには、他の保存文書情報DT7と区別するための登録番号(識別番号)BTが示される。この登録番号BTは、各文書の文書番号でもある。
「文書名」フィールドには、文書名WU21が示される。「読み(文書名)」フィールドには、「文書名」フィールドに示される文書名の読み方WU22が示される。「検索文字」フィールドには、文書を文書名で検索するための検索文字WU23が示される。「BOX名」フィールドには、文書を保存しているボックスのボックス名WU11が示される。「読み(BOX名)」フィールドには、第2実施形態でユーザによって登録された登録情報テーブルTB4の「読み(BOX名)」フィールドに示されるボックス名と同じ読み方WU12が示される。
なお、ボックス名WU11および読み方WU12は、登録情報テーブルTB7においては、システム語句WSとして登録される。
次に、第3実施形態において、ユーザが文書をボックスに保存するときの手順について、図24〜図26の各画面を参照しながら説明する。
ユーザは、第2実施形態の手順によってボックスを検索して、または所定の操作を行って、文書を保存させるためのボックスを表示させる。そして、保存ボタンなどを押下することによって、図24に示すような文書保存画面GM10を表示させる。ここで、ユーザは、登録番号、文書名、および文書名の読み方を登録する。それぞれの項目は、基本的に第1実施形態と同一の方法で入力することができる。例えば、文書名の読み方は、文書名(読み方)ボタンBTN7を押下することによって表示される読み方入力画面GM11(図25参照)から入力することができる。ここで、入力された文書名が既にそのボックスに保存されている文書の文書名の読み方として登録されている場合は、図26に示すような再入力を促すための警告表示画面GM12を表示するようにしてもよい。
警告表示画面GM12が表示された場合は、ユーザは、読み方入力画面GM11に戻って、再度文書名の読み方を入力すればよい。なお、第1実施形態および第2実施形態においても、第3実施形態のように、ユーザが入力する読み方が既に登録されている場合に、警告表示画面GM12のような警告を示す画面を表示するようにしてもよい。
登録番号、文書名、および文書名の読み方を入力して、実行ボタンを押下すると、文書保存画面GM10での入力内容がボックス情報DT4として、総合情報記憶部30に記憶されている登録情報テーブルTB7に登録される。
次に、第3実施形態における認識辞書テーブルTB8について説明する。
図27に示すように、第3実施形態における認識辞書テーブルTB8に登録される語句番号BTが500〜2999の認識語句情報DT8に示される認識語句WNつまり複合語句WFは、登録情報テーブルTB7の「読み(文書名)」フィールドに示される語句WU2と、「読み(BOX名)」フィールドに示される語句WSとの、2つの語句WU22,WSについて、それらの順序の異なる全ての組合せとして生成される。
語句番号BTが3000〜3010の認識語句情報DT8に示される認識語句WNつまりコマンド語句WCは、画面番号欄GRNに示される画面番号の画面に表示されるコマンドを示す、予め登録されている語句である。
複合語句WFの生成方法は、第1実施形態と同一である。なお、第3実施形態においても、複合語句WFを生成するための語句の組合せは、ユーザが適宜変更することができる。例えば、ボックス名と文書名との組合せの他に、ボックスタイプと文書名との組合せなどが挙げられる。
次に、ユーザが音声によってボックスに保存されている文書を検索する場合における画像形成装置1の音声認識処理について、図21、図28の各画面、および図13のフローチャートを参照しながら参照する。
文書の検索は、ボックス選択画面GM8から行うことができる。つまり、ボックス選択画面GM8には、ボックスを検索するための認識辞書テーブルTB6および文書を検索するための認識辞書テーブルTB8が対応付けられている。
よって、ユーザは操作パネル10fのBOXボタンTBを押して、ボックス選択画面 M8(図21参照)を表示させる。ユーザが音声認識ボタンKBを押すと(図13の#401でYes)、操作パネル10fのマイクMKがオンになり(#402)、音声の入力が可能となる。ユーザは、ボックス名(ここでは「上杉」)および検索対象の文書名(ここでは「契約書1」)を示す語句(「ウエスギ、ケイヤクショイチ」)を発声することによって、音声を入力する。
画像形成装置1では、入力された音声について(#403)、ボックス選択画面GM8に対応付けられた認識辞書テーブルTB6を用いて音声認識処理を行う(#404)。つまり、入力された音声を認識対象語句(「ウエスギケイヤクショイチ」)に変換し、認識辞書テーブルTB8の中から「ウエスギケイヤクショイチ」と一致する認識語句WNを検索する。認識対象語句と一致する認識語句WNが検索されると、音声が認識される。第3実施形態では、語句番号542の認識語句情報DT8に示される認識語句WNが「ウエスギケイヤクショイチ」と一致する。
音声が認識されると(#405でYes)、認識対象語句と一致する認識語句WNの語句番号と同じ登録番号の保存文書情報DT7に対応付けられている文書アイコンDMのみが表示された文書利用画面GM13(図28参照)を表示する(#406)。例えば、文書アイコンDMは、登録番号542の保存文書情報DT7に対応付けられている。よって、画像形成装置1は、文書利用画面GM13において表示されるコマンド名をユーザが発声しその音声が認識されると、登録情報テーブルTB7に記憶されている登録番号542の保存文書情報DT7を参照し、文書名が「契約書1」である文書の内容を示した確認画面(図示せず)を表示する(#407)。ユーザは、文書の内容を確認した後、所定のボタンを押して文書の編集などを行うことができる。
認識対象語句と一致する認識語句WNが検索されなかった場合、つまり音声が認識されなかった場合は、音声が認識されなかった旨の警告を示す画面(図示せず)を表示する(#408)。
第1〜第3実施形態では、読み方をユーザが入力し登録するようにしたが、宛先の登録名、BOX名、または文書名に英語名を入力した場合は、英語名が入力された時点で自動的にその読み方が入力されるようにしてもよい。登録名に数字だけが入力された場合も、自動的に読み方が入力されるようにしてもよい。
〔第4実施形態〕
次に、画像形成装置1の第4実施形態について、図29および図30を参照して説明する。
図29は複合語句生成テーブルTB9a、9bの例を示す図、図30は読み方登録画面GM14の例を示す図である。
第1〜第3実施形態では、認識辞書テーブルに登録される認識語句WNを、画像形成装置1に備えられている機能に関する語句であるシステム語句WSとユーザが任意で登録した語句であるユーザ語句WUとのみを組み合わせて生成するようにした。しかし、ユーザは、複数の単語を発声する際、それら複数の単語に助詞および動詞を付けて発声する場合がある。そこで、このような言葉のゆらぎを考慮して、システム語句WSとユーザ語句WUとの組合せに、助詞および動詞を付加した語句を認識語句WNとするようにしてもよい。
この場合は、複合語句WFを生成するにあたって、予め、図29に示すような複合語句生成テーブルTB9a、9bをハードディスク10dなどに格納しておく。日本語の複合語句WFを生成する場合は、システム語句WSおよびユーザ語句WUをそれぞれ複合語句生成テーブルTB9aに当てはめて組合せを生成する。英語の複合語句WFを生成する場合は、英語のシステム語句WSおよびユーザ語句WUをそれぞれ複合語句生成テーブルTB9bに当てはめて組合せを生成する。
例えば、第4実施形態では、ユーザが宛先を登録する場合において登録名の読み方を入力させる際に、図30に示すような読み方登録画面GM14を表示する。ここでユーザは、システム語句WSおよびユーザ語句WUのみからなる複合語句WFを生成させる場合(連続単語モードの場合)は、連続単語ボタンBTN8を押下し、助詞および動詞を付加した複合語句WFを生成させる場合(簡易文書モードの場合)は、簡易文書ボタンBTN9を押下する。
簡易文書ボタンBTN8が押下された場合は、複合語句生成部34bは助詞および動詞を付加した複合語句WFを生成するための処理を行う。例えば、複合語句生成部34bは、複合語句生成テーブルTB9aを用いて、「イーメールのウエスギさんを探す」、「イーメールのウエスギさんを検索する」、「ウエスギさんのイーメールを探す」、または「ウエスギさんのイーメールを検索する」などの複合語句WFを生成する。複合語句生成テーブルTB9bを用いた場合は、「It looks for UESUGI of Email. 」、「It looks for UESUGI ’s Email.」、「UESUGI of Fax is retrieved. 」、「UESUGI’s Email is retrieved. 」などの英語の複合語句WFが生成される。
第4実施形態では、簡易文書ボタンBTN8が押下された場合に、助詞および動詞を含めた認識語句を生成するようにしたが、助詞および動詞を含めない認識語句(第1〜第3実施形態の複合語句)と助詞および動詞を含めた複合語句WF(第4実施形態の複合語句)との2種類の複合語句WFを生成し、複合辞書テーブルに登録するようにしてもよい。
図31は第1〜第3実施形態における画像形成装置1全体の処理の流れの例を説明するためのフローチャート、図32は第4実施形態における画像形成装置1全体の処理の流れの例を説明するためのフローチャートである。
次に、第1〜第3実施形態における画像形成装置1全体の処理について、図31のフローチャートを参照して説明する。
ユーザが操作パネル10fを操作して、種々の登録画面(宛先登録画面GM1、ボックス登録画面GM6、または文書保存画面GM10)を表示させると、画像形成装置1は、複合語句WFを生成するための語句の組合せの設定を読み込む(#501)。次に、ユーザが所定の読み方登録画面(読み方登録画面GM2、読み方登録画面GM7、または読み方登録画面GM14)で、宛先名、ボックス名、または文書名などの読み方を入力した場合に、入力された読み方が既に画像形成装置1に登録されているものでないか否かを判別する。そして、入力された読み方が既に登録されているものではない場合は(#503でYes)、システム語句WSおよびユーザ語句WUの2つの語句を前後の配置を逆にして組み合わせることにより複合語句WFを生成し、認識辞書テーブルに登録する(#504)。入力された読み方が既に画像形成装置1に登録されているものである場合は(#503でNo)、警告を示す画面を表示する(#505)。
次に、第4実施形態における画像形成装置1全体の処理について、図32のフローチャートを参照して説明する。
#601〜#603の処理は、図31のフローチャートと同じである。画像形成装置1は、入力された読み方が既に登録されているものではない場合は(#603でYes)、連続単語モードまたは簡易文書モードのいずれが選択されたかを判別する。そして、連続単語モードが選択された場合は(#604でYes)、第1〜第3実施形態と同様に、システム語句WSおよびユーザ語句ドの2つの語句を前後の配置を逆にして組み合わせることにより複合語句WFを生成し、認識辞書テーブルに登録する(#605)。簡易文書モードが選択された場合は(#604でNo)、認識語句生成テーブル9を用いて、システム語句WSおよびユーザ語句の2つの語句の前後の配置を逆にした組み合わせに助詞および動詞を含めた複合語句WFを生成し、認識辞書テーブルに登録する(#606)。
上述の実施形態において、スキャナ部10gは本発明における「画像読取装置」に相当し、マイクMKは本発明における「音声入力手段」に相当し、認識語句情報DT3、DT6、DT8のそれぞれは本発明における「語句情報」に相当し、認識辞書テーブルTB3、TB6、TB8のそれぞれは本発明における「辞書」に相当し、宛先情報DT1の「読み(登録名)」フィールドおよび機能語句情報DT2の「読み(機能名)」フィールドに示される読み方、ボックス情報DT4の「読み(BOX名)」フィールドおよび機能語句情報DT5の「読み(BOXタイプ)」フィールドに示される読み方、および保存文書情報DT7の「読み(文書名)」フィールドおよび「読み(BOXタイプ)」フィールドに示される読み方、のそれぞれは、本発明における「複数の所定の語句」に相当し、複合語句生成部34bは本発明における「複合語句生成手段」に相当し、複合語句書込み部34dは本発明における「複合語句書込み手段」に相当し、認識対象語句は本発明における「発声語句」に相当し、音声認識処理部35は本発明における「音声認識手段」に相当し、画像処理部37は本発明における「画像処理手段」に相当する。
また、宛先情報DT1、ボックス情報DT4、保存文書情報DT7のそれぞれは本発明における「関連情報」に相当し、総合情報記憶部30は本発明における「関連情報記憶手段」に相当する。
また、機能語句情報記憶部31は本発明における「機能語句記憶手段」に相当し、情報書込み部33は本発明における「任意語句記憶手段」に相当し、宛先情報DT1の「読み(登録名)」フィールド、ボックス情報DT4の「読み(BOX名)」フィールド、または保存文書情報DT7の「読み(文書名)」フィールドに示される語句のそれぞれは本発明における「ユーザ語句」に相当する。
また、辞書管理部34および音声認識処理部35は、本発明における「音声認識処理装置」に相当する。
上に述べた各実施形態では、2つの単語の組合せから複合語句WFを生成するようにしたが、3つ以上の単語を組み合わせた複合語句WFを生成するようにしてもよい。この場合も、それら3つ以上の単語を並べ替えて全ての組合せを生成することにより(つまり全ての順列を生成することにより)、複合語句WFを生成すればよい。
その他、ネットワークシステムSYSおよび画像形成装置1の構成、機能、各データが示す内容、テーブルの内容、処理の内容または順序などは、本発明の趣旨に沿って適宜変更することができる。
1 画像形成装置(画像処理装置)
10g スキャナ部(画像読取装置)
30 総合情報記憶部(関連情報記憶手段)
31 機能語句情報記憶部(機能語句記憶手段)
32 表示制御部
33 情報書込み部(任意語句記憶手段)
34a 辞書データベース(辞書記憶手段)
34b 複合語句生成部(複合語句生成手段)
34d 複合語句書込み部(複合語句登録手段)
35 音声認識処理部(音声認識手段)
37 画像処理部(画像処理手段)
MK マイク(音声入力手段)
TP タッチパネル(表示装置)
GM1 宛先登録画面(操作画面)
GM2 読み方登録画面(操作画面)
GM3 検索文字入力画面(操作画面)
GM4 宛先選択画面(操作画面)
GM5 宛先選択画面(操作画面)
DT1、DT4、DT7 宛先情報、ボックス情報、保存文書情報(関連情報)
TB3、TB6、TB8 認識辞書テーブル(辞書)
WU ユーザ語句
WS システム語句(機能語句)
WC コマンド語句

Claims (10)

  1. 原稿の画像を読み取る画像読取装置を備えた画像処理装置であって、
    ユーザに音声を入力させるための音声入力手段と、
    前記音声を認識するための語句情報によって構成される辞書を記憶する辞書記憶手段と、
    複数の所定の語句についての順序の異なる全ての組合せからなる複数の複合語句を生成する複合語句生成手段と、
    生成された前記複数の複合語句を前記語句情報として前記辞書に登録する複合語句登録手段と、
    前記複数の所定の語句を任意の順序で発声した発声語句に係る音声が入力されたときに、前記辞書の中から当該発声語句と一致する前記複合語句を検索することによって当該音声を認識する、音声認識手段と、
    前記音声認識手段による前記音声の認識の結果に基づいて前記画像に対する処理を実行する画像処理手段と、
    を有することを特徴とする画像処理装置。
  2. 前記複合語句に関連付けられた関連情報を記憶する関連情報記憶手段を有し、
    前記画像処理手段は、前記音声認識手段による前記音声の認識の結果に基づいて前記関連情報記憶手段から前記関連情報を抽出し、当該関連情報を用いて前記画像に対する処理を実行する、
    請求項1記載の画像処理装置。
  3. 当該画像処理装置が有する機能に関する機能語句を記憶する機能語句記憶手段と、
    ユーザにより指定されたユーザ語句を前記関連情報記憶手段に書き込むユーザ語句書込み手段と、を有し、
    前記複合語句生成手段は、前記機能語句および前記ユーザ語句についての前記複合語句を生成する、
    請求項1または請求項2記載の画像処理装置。
  4. 表示装置に表示するために準備された複数の操作画面のそれぞれに対応して前記辞書が設けられており、
    前記音声認識手段は、音声が入力されたときに前記表示装置に表示されている前記操作画面に対応する前記辞書を用いて当該音声を認識する、
    請求項1ないし請求項3のいずれかに記載の画像処理装置。
  5. ユーザにより指定されたユーザ語句が前記関連情報記憶手段に既に書き込まれている場合に、前記表示装置に当該ユーザに対する警告のための表示を行う、
    請求項3または請求項4に記載の画像処理装置。
  6. 前記複合語句生成手段は、前記複合語句が一文となるように所定の助詞および動詞を付加した前記組合せを生成する、
    請求項1ないし請求項5のいずれかに記載の画像処理装置。
  7. 音声を認識するための音声認識処理装置であって、
    ユーザに音声を入力させるための音声入力手段と、
    前記音声を認識するための語句情報によって構成される辞書を記憶する辞書記憶手段と、
    複数の所定の語句についての順序の異なる全ての組合せからなる複数の複合語句を生成する複合語句生成手段と、
    生成された前記複数の複合語句を前記語句情報として前記辞書に登録する複合語句登録手段と、
    前記複数の所定の語句を任意の順序で発声した発声語句に係る音声が入力されたときに、前記辞書の中から当該発声語句と一致する前記複合語句を検索することによって当該音声を認識する、音声認識手段と、
    を有することを特徴とする音声認識処理装置。
  8. 前記複合語句に関連付けられた関連情報を記憶する関連情報記憶手段を有し、
    前記画像処理手段は、前記音声認識手段による前記音声の認識の結果に基づいて前記関連情報記憶手段から前記関連情報を抽出し、当該関連情報を用いて前記画像に対する処理を実行する、
    請求項7記載の音声認識処理装置。
  9. 音声認識処理装置において音声を認識するための制御方法であって、
    音声を認識するための語句情報によって構成される辞書を前記音声認識処理装置に記憶しておき、
    複数の所定の語句についての順序の異なる全ての組合せからなる複数の複合語句を生成し、
    生成された前記複数の複合語句を前記語句情報として前記辞書に登録し、
    前記複数の所定の語句を任意の順序で発声した発声語句に係る音声が入力されたときに、前記辞書の中から当該発声語句と一致する前記複合語句を検索することによって当該音声を認識する、
    ことを特徴とする音声認識処理装置の制御方法。
  10. 音声を認識するための音声認識処理装置を制御するコンピュータのためのコンピュータプログラムであって、
    前記コンピュータによって実行されたときに、前記音声認識処理装置に、
    複数の所定の語句についての順序の異なる全ての組合せからなる複数の複合語句を生成する手段と、
    生成された前記複数の複合語句を、音声を認識するための語句情報として辞書に登録する手段と、
    前記複数の所定の語句を任意の順序で発声した発声語句に係る音声が入力されたときに、前記辞書の中から当該発声語句と一致する前記複合語句を検索することによって当該音声を認識させる手段と、
    を実現させることを特徴とするコンピュータプログラム。
JP2009218132A 2009-09-18 2009-09-18 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム Active JP5146429B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009218132A JP5146429B2 (ja) 2009-09-18 2009-09-18 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム
US12/883,388 US8630852B2 (en) 2009-09-18 2010-09-16 Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009218132A JP5146429B2 (ja) 2009-09-18 2009-09-18 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2011065108A true JP2011065108A (ja) 2011-03-31
JP5146429B2 JP5146429B2 (ja) 2013-02-20

Family

ID=43757400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009218132A Active JP5146429B2 (ja) 2009-09-18 2009-09-18 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム

Country Status (2)

Country Link
US (1) US8630852B2 (ja)
JP (1) JP5146429B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013190957A1 (ja) * 2012-06-19 2013-12-27 株式会社エヌ・ティ・ティ・ドコモ 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
JP2020038348A (ja) * 2018-09-04 2020-03-12 キヤノン株式会社 音声対話装置及びその制御方法、並びにプログラム
JP2020065171A (ja) * 2018-10-17 2020-04-23 コニカミノルタ株式会社 画像形成装置、画像形成システム、及び画像読取装置
US11159684B2 (en) 2018-12-27 2021-10-26 Canon Kabushiki Kaisha Image forming system and image forming apparatus

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713426B2 (en) 2013-11-14 2020-07-14 Elsevier B.V. Systems, computer-program products and methods for annotating multiple controlled vocabulary-defined concepts in single noun phrases
JP6674216B2 (ja) * 2015-09-15 2020-04-01 キヤノン株式会社 画像通信装置とその制御方法、及びプログラム
US10547729B2 (en) 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
CN107886947A (zh) * 2017-10-19 2018-04-06 珠海格力电器股份有限公司 一种图像处理的方法以及装置
JP7159608B2 (ja) * 2018-05-14 2022-10-25 コニカミノルタ株式会社 操作画面の表示装置、画像処理装置及びプログラム
JP7175696B2 (ja) * 2018-09-28 2022-11-21 キヤノン株式会社 画像処理システム、画像処理装置、及びその制御方法
JP7415350B2 (ja) * 2019-07-08 2024-01-17 コニカミノルタ株式会社 音声操作システム、制御装置、および制御プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001027540A (ja) * 1999-07-14 2001-01-30 Fujitsu Ten Ltd 音声認識機能を用いたナビゲーション方法
JP2004294872A (ja) * 2003-03-27 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識を利用した電子機器
JP2004309654A (ja) * 2003-04-03 2004-11-04 Mitsubishi Electric Corp 音声認識装置
JP2005338274A (ja) * 2004-05-25 2005-12-08 Mitsubishi Electric Corp 音声対話装置
JP2008268571A (ja) * 2007-04-20 2008-11-06 Xanavi Informatics Corp 音声認識装置、その音声認識方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0607615B1 (en) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
US6349282B1 (en) * 1999-04-20 2002-02-19 Larnout & Hauspie Speech Products N.V. Compound words in speech recognition systems
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
JP2002108389A (ja) 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
AU2003277587A1 (en) * 2002-11-11 2004-06-03 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation device and speech recognition device
WO2006127504A2 (en) * 2005-05-20 2006-11-30 Sony Computer Entertainment Inc. Optimisation of a grammar for speech recognition
US7957968B2 (en) * 2005-12-22 2011-06-07 Honda Motor Co., Ltd. Automatic grammar generation using distributedly collected knowledge
JP4867622B2 (ja) * 2006-11-29 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
GB2457855B (en) * 2006-11-30 2011-01-12 Nat Inst Of Advanced Ind Scien Speech recognition system and speech recognition system program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001027540A (ja) * 1999-07-14 2001-01-30 Fujitsu Ten Ltd 音声認識機能を用いたナビゲーション方法
JP2004294872A (ja) * 2003-03-27 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識を利用した電子機器
JP2004309654A (ja) * 2003-04-03 2004-11-04 Mitsubishi Electric Corp 音声認識装置
JP2005338274A (ja) * 2004-05-25 2005-12-08 Mitsubishi Electric Corp 音声対話装置
JP2008268571A (ja) * 2007-04-20 2008-11-06 Xanavi Informatics Corp 音声認識装置、その音声認識方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013190957A1 (ja) * 2012-06-19 2013-12-27 株式会社エヌ・ティ・ティ・ドコモ 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
JP2020038348A (ja) * 2018-09-04 2020-03-12 キヤノン株式会社 音声対話装置及びその制御方法、並びにプログラム
JP7458716B2 (ja) 2018-09-04 2024-04-01 キヤノン株式会社 音声対話装置及びその制御方法、並びにプログラム
JP2020065171A (ja) * 2018-10-17 2020-04-23 コニカミノルタ株式会社 画像形成装置、画像形成システム、及び画像読取装置
JP7135704B2 (ja) 2018-10-17 2022-09-13 コニカミノルタ株式会社 画像形成装置、画像形成システム、及び画像読取装置
US11159684B2 (en) 2018-12-27 2021-10-26 Canon Kabushiki Kaisha Image forming system and image forming apparatus

Also Published As

Publication number Publication date
US20110071829A1 (en) 2011-03-24
JP5146429B2 (ja) 2013-02-20
US8630852B2 (en) 2014-01-14

Similar Documents

Publication Publication Date Title
JP5146429B2 (ja) 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム
US10652178B2 (en) Information processing apparatus, information processing system, and information processing method
JP2006330576A (ja) 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
US11140284B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
US11327697B2 (en) Information processing apparatus and startup method for input-output device
US12015746B2 (en) Image processing system, setting control method, image processing apparatus, and storage medium
JP5343652B2 (ja) 操作画面制御装置、画像形成装置、およびコンピュータプログラム
JP2020027132A (ja) 情報処理装置およびプログラム
US11792338B2 (en) Image processing system for controlling an image forming apparatus with a microphone
US11595535B2 (en) Information processing apparatus that cooperates with smart speaker, information processing system, control methods, and storage media
TWI453655B (zh) 多功能事務機及其警示方法
US11036441B1 (en) System and method for creation and invocation of predefined print settings via speech input
US11838459B2 (en) Information processing system, information processing apparatus, and information processing method
JP2021092982A (ja) 画像処理システム、画像処理装置、画像処理方法
US11838460B2 (en) Information processing system, information processing apparatus, and information processing method
JP7361509B2 (ja) 周辺装置管理システム、印刷装置制御システム、制御方法、印刷制御装置及びプログラム
US11700338B2 (en) Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor
JP2020112933A (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP2020038348A (ja) 音声対話装置及びその制御方法、並びにプログラム
JP4562547B2 (ja) 画像形成装置、プログラムおよび記録媒体
JP7388272B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2015088890A (ja) 操作案内サーバ、操作案内システム、画像形成装置およびプログラム
JP7327939B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
US20210360113A1 (en) Image forming system allowing voice operation, control method therefor, and storage medium storing control program therefor
JP2022096305A (ja) 情報処理システム、画像処理装置、情報処理システムの制御方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121112

R150 Certificate of patent or registration of utility model

Ref document number: 5146429

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350