JP7185866B2 - 情報処理装置、情報処理方法、コンピュータプログラム - Google Patents

情報処理装置、情報処理方法、コンピュータプログラム Download PDF

Info

Publication number
JP7185866B2
JP7185866B2 JP2019048717A JP2019048717A JP7185866B2 JP 7185866 B2 JP7185866 B2 JP 7185866B2 JP 2019048717 A JP2019048717 A JP 2019048717A JP 2019048717 A JP2019048717 A JP 2019048717A JP 7185866 B2 JP7185866 B2 JP 7185866B2
Authority
JP
Japan
Prior art keywords
information processing
command file
processing apparatus
text data
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019048717A
Other languages
English (en)
Other versions
JP2020149585A (ja
Inventor
尚之 大江
▲琢▼磨 杉田
亮 栗田
祐一 安田
翔悟 大塚
謙一 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUMMING HEADS Inc
Original Assignee
HUMMING HEADS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUMMING HEADS Inc filed Critical HUMMING HEADS Inc
Priority to JP2019048717A priority Critical patent/JP7185866B2/ja
Priority to EP20161790.9A priority patent/EP3719642A1/en
Priority to US16/814,170 priority patent/US11693620B2/en
Publication of JP2020149585A publication Critical patent/JP2020149585A/ja
Application granted granted Critical
Publication of JP7185866B2 publication Critical patent/JP7185866B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、アプリケーションプログラムの実行制御技術に関するものである。
スマートフォン等のコンピュータ装置にインストールしたアプリケーションソフトウェアを操作するためには、その操作方法についての知識が必要となる。特許文献1には、スマートフォンなどの装置におけるアプリケーションの操作において、少ない操作で所望の機能を実行するための技術が開示されている。
特開2017-195633号公報
上記の通り、アプリケーションソフトウェアを操作するためには、そのアプリケーションソフトウェアの操作方法についての知識が必要となる。また、同じ処理であっても、アプリケーションソフトウェアごとに操作方法が異なる場合もある。このように、アプリケーションソフトウェアを使用して所望の目的を達成するためには、様々なアプリケーションソフトウェアについての知識が必要となる。
本発明はこのような課題に鑑み、アプリケーションソフトウェアを用いて所望の目的を達成するためのユーザの負担を軽減させるための技術を提供する。
本発明の1つの様態によれば、入力された指示の内容を表すテキストデータを取得する第1の取得手段と、表示されている画面の内容を表すシーン情報を取得する第2の取得手段と、前記テキストデータの解析結果と前記シーン情報との組み合わせ対応するコマンドファイルを取得する第3の取得手段と、前記コマンドファイルに従って処理を実行する実行手段とを備えることを特徴とする。
本発明によれば、アプリケーションソフトウェアを用いて所望の目的を達成するためのユーザの負担を軽減させることができる。
システムの構成例を示すブロック図。 アプリケーションソフトウェアを実行中の情報処理装置100の動作を示すフローチャート。 ステップS201における処理の詳細を示すフローチャート。 ステップS204におけるシーン解析処理の詳細を示すフローチャート。 第4の実施形態に係るフローチャート。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでするものでなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
先ず、本実施形態に係るシステムの構成例について、図1のブロック図を用いて説明する。図1に示す如く、本実施形態に係るシステムは、情報処理装置100と、該情報処理装置100とネットワーク300を介して通信可能なサーバ装置200と、を有する。
先ず、情報処理装置100について説明する。情報処理装置100は、スマートフォン、タブレット型端末装置、PC(パーソナルコンピュータ)、表示画面を有するIoT(Internet of Things)機器などのコンピュータ装置である。
CPU101は、RAM102やROM103に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU101は、情報処理装置100全体の動作制御を行うと共に、情報処理装置100が行うものとして後述する各処理を実行若しくは制御する。なお、CPU101に代えて若しくは加えてGPUを設けても良く、その場合、CPU101が行うものとして後述する各処理の一部若しくは全部をGPUに実行させても良い。
RAM102は、ROM103や記憶装置106からロードされたコンピュータプログラムやデータ、通信I/F107を介してサーバ装置200からダウンロードしたデータ、を格納するためのエリアを有する。更にRAM102は、CPU101が各種の処理を実行する際に用いるワークエリアを有する。このようにRAM102は、各種のエリアを適宜提供することができる。
ROM103には、情報処理装置100の設定データや起動プログラムなどが格納されている。
ユーザインターフェース104は、キーボード、マウス、タッチパネル画面など、ユーザが各種の操作入力を行うために使用するものであり、ユーザがユーザインターフェース104を操作することで入力した各種の指示はCPU101に対して通知される。
表示装置105は、液晶画面やタッチパネル画面を有し、CPU101による処理結果を画像や文字などでもって表示することができる。なお表示装置105は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。
記憶装置106は、ハードディスクドライブ装置、EEPROMなど、RAM102やROM103に比べて大容量の情報を保存可能な記憶装置である。記憶装置106には、OS(オペレーティングシステム)や、各種のアプリケーションソフトウェア、アプリケーションソフトウェアを実行するために必要な各種のデータ、などが保存されている。記憶装置106に保存されているコンピュータプログラムやデータは、CPU101による制御に従って適宜RAM102にロードされ、CPU101による処理対象となる。
通信I/F107は、情報処理装置100がネットワーク300を介してサーバ装置200との間のデータ通信を行うために使用するものであり、ネットワーク300を介したサーバ装置200との間のデータ通信は、この通信I/F107を介して行われる。
収音装置108は、ユーザの声などの音声を収音する装置であり、収音した音声に応じた音声データを出力する。収音装置108から出力された音声データはRAM102や記憶装置106に格納される。
CPU101、RAM102、ROM103、ユーザインターフェース104、表示装置105、記憶装置106、通信I/F107、収音装置108、は何れも、バス109に接続されている。なお、図1に示した情報処理装置100の構成は、情報処理装置100を適用する装置(スマートフォン、タブレット型端末装置、PCなど)に応じて適宜変形/変更(削除を含む)しても構わない。例えば、スピーカ、バイブレータ、状態表示ランプ、各種のセンサ、撮像装置、自身の位置姿勢を計測するためのGPSの受信機、等を設けても良い。
次に、サーバ装置200について説明する。サーバ装置200は、例えば情報処理装置100と同様のハードウェア構成を有するコンピュータ装置であり、情報処理装置100が後述の処理を行うために必要な情報の一部若しくは全部を保持する。
次に、ネットワーク300について説明する。ネットワーク300は、LANやインターネットなどの有線および/または無線のネットワークで構成されており、上記の通り、情報処理装置100およびサーバ装置200は、このネットワーク300を介して互いにデータ通信を行うことができる。
次に、アプリケーションソフトウェアを実行中の情報処理装置100の動作について、図2のフローチャートに従って説明する。このアプリケーションソフトウェアは、例えば、日時および該日時における予定の入力を受け付け、該入力された日時に対して該入力された予定を関連づけて登録するカレンダーのアプリケーションソフトウェアであっても良い。また例えば、このアプリケーションソフトウェアは、出発地、目的地、日時などの経路探索のために必要な探索情報の入力を受け付け、該入力された探索条件に合致する経路に係る情報を出力するアプリケーションソフトウェアであっても良い。このように、図2のフローチャートに従った処理は、命令や入力事項を入力可能なアプリケーションソフトウェアを実行中の情報処理装置100において行われる処理である。
<ステップS201>
収音装置108は、音声の入力を受け付けている受付状態にあり、ユーザが収音装置108に対して音声を発すると、収音装置108は該音声に応じた音声信号を生成し、該生成した音声信号に対してA/D変換等の変換を行うことで該音声信号に対応する音声データを生成して出力する。CPU101は、収音装置108から出力された音声データを取得すると、該音声データに対して音声認識を行う。この音声認識は、CPU101がアプリケーションソフトウェアに含まれている音声認識ソフトウェアを実行することで実施しても良いし、アプリケーションソフトウェアとは異なる別の音声認識用のアプリケーションソフトウェア(記憶装置106に保存されている)を起動して実行することで実施しても良い。
ステップS201における処理の詳細について、図3のフローチャートに従って説明する。
<ステップS301>
CPU101は、収音装置108から出力された音声データに対して音声認識を行うことで、該音声データに対応するテキストデータ(ユーザが発声した内容を表すテキストデータ)を、該音声認識の結果として取得する。CPU101は、この取得したテキストデータを表示装置105の表示画面に表示しても良い。
<ステップS302>
CPU101は、ステップS301で得られたテキストデータに対して構文解析などの解析処理を行うことで、該テキストデータに含まれている名詞や動詞を特定する。
そしてCPU101は、この解析処理の結果、テキストデータから名詞が得られた場合には、該名詞と対応付けて記憶装置106に保持されているIDを名詞IDに設定する。なお、テキストデータから名詞が得られなかった場合には、名詞IDにはNULL(無為の値の一例)を設定する。
またCPU101は、この解析処理の結果、テキストデータから動詞が得られた場合には、該動詞と対応付けて記憶装置106に保持されているIDを命令IDに設定する。なお、テキストデータから動詞が得られなかった場合には、命令IDにはNULL(無為の値の一例)を設定する。
そして処理は、図2のステップS202に進む。
<ステップS202>
CPU101は、ステップS201で取得した名詞IDおよび命令IDと、シーンID(=NULL(無為の値の一例))と、から成るセット{シーンID(=NULL)、名詞ID、命令ID}と対応付けて記憶装置106に保持されているコマンドファイルを検索する。このコマンドファイルはシーンIDには依存していないコマンドファイルであることから、シーンに依存していないコマンドファイルとなる。
そしてこの検索の結果、コマンドファイルが記憶装置106から見つけることができた場合には、処理はステップS203に進み、コマンドファイルが記憶装置106から見つけることができなかった場合には、処理はステップS204に進む。
<ステップS203>
CPU101は、ステップS202における検索で見つけたコマンドファイルを記憶装置106からRAM102に読み出す。
<ステップS204>
表示装置105の表示画面には、アプリケーションソフトウェアを実行したことで対応するGUI(グラフィカルユーザインターフェース)が表示されている。CPU101は、表示装置105の表示画面に表示されているシーンがどのようなシーンであるのか(どのようなアプリケーションソフトウェアのどのような画面が表示装置105の表示画面に表示中であるのか)を解析するシーン解析処理を行う。ステップS204におけるシーン解析処理の詳細について、図4のフローチャートに従って説明する。
<ステップS401>
CPU101は、表示装置105の表示画面に表示されているシーンを表すシーン情報として、該表示画面に表示されているオブジェクト(全てでなくても良く、予め設定された一部のオブジェクトであっても良い)の種別や該オブジェクトのレイアウトなどの「表示画面に表示されている画面の構成情報」を取得する。表示装置105の表示画面に表示されている画面のソースコードはアプリケーションソフトウェアが有している。そこでCPU101は、このソースコードから、現在表示装置105の表示画面に表示されているオブジェクトの種別やそのレイアウトを取得することができる。なお、構成情報の取得方法はこのような方法に限らない。例えば、表示装置105の表示画面に表示されている画面が、サーバ装置200などの外部装置からダウンロードしたウェブページである場合には、このウェブページのソースコードを該サーバ装置200から取得し、該ソースコードから構成情報を取得するようにしても良い。また例えば、様々なアプリケーションソフトウェアの様々な画面の画像を予め収集して記憶装置106に保持しておき、該画像のうち表示装置105の表示画面に表示されている画面と最も類似する画像を構成情報として取得するようにしても良い。このように、画面の構成情報の取得方法は特定の取得方法に限らない。
<ステップS402>
CPU101は、ステップS401で取得した構成情報と対応付けて記憶装置106に保持されているIDをシーンIDに設定する。記憶装置106には様々な構成情報に対応するIDが保持されており、ステップS402では、記憶装置106に保持されているそれぞれのIDのうち、ステップS401で取得した構成情報と対応付けて記憶装置106に保持されているIDをシーンIDに設定する。
そして処理は図2のステップS205に進む。
<ステップS205>
ステップS205では、CPU101は、ステップS201で取得した名詞IDおよび命令IDと、ステップS402で取得したシーンIDと、から成るセット{シーンID、名詞ID、命令ID}と対応付けて記憶装置106に保持されているコマンドファイルをRAM102に読み出す。このコマンドファイルはシーンIDに依存しているコマンドファイルであることから、シーンに依存しているコマンドファイルとなる。
<ステップS206>
CPU101は、ステップS203若しくはステップS205でRAM102に読み出したコマンドファイルに従って処理を実行する。コマンドファイルは、処理A→処理B→処理C→…というように処理のシーケンスを定義するファイルである。然るに本ステップではCPU101は、ステップS203若しくはステップS205でRAM102に読み出したコマンドファイルで規定されている処理のシーケンスを実行する。
<ステップS207>
CPU101は、処理の終了条件が満たされたか否かを判断する。例えばCPU101は、ユーザがユーザインターフェース104を用いて処理の終了指示を入力した場合には、処理の終了条件が満たされたと判断する。
処理の終了条件が満たされた場合には、図2のフローチャートに従った処理は終了する。一方、処理の終了条件が満たされていない場合には、処理はステップS201に戻り、次の音声入力を受け付ける。
次に、図2のフローチャートに従った処理について、具体例を挙げて説明する。
アプリケーションソフトウェアを実行したことで表示装置105の表示画面に表示されているGUIを見たユーザが音声「今日の予定を表示して」を発したとする。このとき上記のステップS301では、「今日の予定を表示して」と記されたテキストデータを取得することになり、ステップS302では、このテキストデータから名詞として「今日」および「予定」、動詞として「表示して」を特定する。そしてステップS302では更に、名詞「今日」の名詞ID「今日:時間」、名詞「予定」の名詞ID「予定:その他」、動詞「表示して」の命令ID「表示系」を取得する。そしてこの時点ではシーンIDは特定されていないので、シーンIDにはデフォルトの値であるNULLが設定されている。そしてステップS202の検索により、セット{NULL、「今日:時間」、「予定:その他」、「表示系」}に対応するコマンドファイルが見つかった場合には、ステップS203においてこのコマンドファイルをRAM102に取得する。このコマンドファイルは、「カレンダーを起動→指定日時の予定をクリック」という処理のシーケンスを規定するものである。そしてステップS203からステップS206に処理が進み、ステップS206では、ステップS203で取得したコマンドファイルが規定する処理のシーケンスを実行する。つまり、カレンダーのアプリケーションソフトウェアを起動し、その後、該アプリケーションソフトウェアの画面(カレンダーの画面)に表示される「指定日時の予定」をクリックする。指定日時としては、名詞ID「今日:時間」の「時間」に対してCPU101がセットする今日の日時(例えば11月9日)を使用するので、カレンダーの画面において11月9日に対応する領域をクリックすることになる。なお、CPU101はタイマなどの計時機能を有しており、名詞ID「今日:時間」の「時間」には、CPU101が計時している今日の日時(例えば11月9日)がセットされる。
また、アプリケーションソフトウェアを実行したことで表示装置105の表示画面に表示されているGUIを見たユーザが音声「ここへの行き方」を発したとする。このとき上記のステップS301では、「ここへの行き方」と記されたテキストデータを取得することになり、ステップS302では、このテキストデータから名詞として「ここ」、動詞として「行く」を特定する。そしてステップS302では更に、名詞「ここ」の名詞ID「ここ:場所」、動詞「行く」の命令ID「行く系」を取得する。そしてこの時点ではシーンIDは特定されていないので、シーンIDにはデフォルトの値であるNULLが設定されている。そしてステップS202の検索により、セット{NULL、「ここ:場所」、「行く系」}に対応するコマンドファイルが見つからなかったとする。そこでステップS401では構成情報を取得し、ステップS402では、このような構成情報に対応するシーンIDとして「カレンダーで予定を表示」を取得する。そしてステップS205では、{「カレンダーで予定を表示」、「ここ:場所」、「行く系」}に対応するコマンドファイルを取得する。このコマンドファイルは、「予定の場所をクリックしてマップを表示→経路をクリック→出発地を入力→経路探索」という処理のシーケンスを規定するものである。そしてステップS205からステップS206に処理が進み、ステップS206では、ステップS205で取得したコマンドファイルが規定する処理のシーケンスを実行する。この時点で表示装置105の表示画面には、カレンダーで表示している予定として目的地の画像が表示されているので、先ずこの画像をクリックして地図のアプリケーションソフトウェアを起動することで、該目的地を含む周辺の地図を表示装置105の表示画面に表示させ、該地図のアプリケーションソフトウェアの画面における「経路」をクリックして出発地および目的地を入力するための画面を表示させ、該画面において出発地にGPS等の手段で取得した現在地を入力し、目的地には、名詞ID「ここで:場所」の「場所」に対してCPU101がセットする場所(クリックした画像に対応する場所名を示す文字列)を入力し、その後、経路探索を行う。
[第2の実施形態]
本実施形態を含め、以下の各実施形態では、第1の実施形態との差分について説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとする。
第1の実施形態で例として挙げたコマンドファイル「カレンダーを起動→指定日時の予定をクリック」に従った処理のシーケンスを実行する場合、パラメータとして「指定日時」が必要になる。第1の実施形態では、このパラメータ「指定日時」に設定するものとして「今日」を発声していたが、パラメータ「指定日時」に設定するものを発声していない場合、コマンドファイルに従った処理を行う前に、パラメータ「指定日時」に設定するものをユーザに問い合わせるようにしても良い。例えば、パラメータ「指定日時」に設定するものが得られていない場合には、対応するメッセージとして予め作成した「いつの予定を表示しますか?」といったメッセージを表示装置105の表示画面に表示してユーザに音声入力を促すようにしても良いし、これに加えて若しくは代えて、対応するメッセージとして予め作成した「いつの予定を表示しますか?」といったメッセージを音声として不図示のスピーカから出力してユーザに音声入力を促すようにしても良い。
これは他のケースについても同様で、コマンドファイルに従った処理を行う前に、パラメータに設定するものが得られていない場合は、対応するメッセージとして予め作成したメッセージを表示装置105の表示画面に表示してユーザに音声入力を促すようにしても良いし、これに加えて若しくは代えて、対応するメッセージとして予め作成したメッセージを音声として不図示のスピーカから出力してユーザに音声入力を促すようにしても良い。
[第3の実施形態]
第1の実施形態では、アプリケーションソフトウェアの画面などの各種の画面は情報処理装置100が有する表示装置105の表示画面に表示したが、これに限らない。すなわち、情報処理装置100に直接的若しくは間接的に接続されている表示装置に表示しても良い。
[第4の実施形態]
第1の実施形態では、シーン解析やコマンドファイルの特定は、ユーザが音声にて指示入力を行ったことをトリガにして行われていた。しかし、シーン解析やコマンドファイルの特定のトリガは、これに限らない。
以下に、シーン解析およびコマンドファイルの特定のトリガの一例を説明する。以下では、条件が満たされたことに応じて表示装置105の表示画面が切り替わった場合に、該切り替わった後の画面におけるタイトルを音声でユーザに入力させるための構成について説明する。この処理のフローチャートを図5に示す。図5のフローチャートに従った処理は、図2のフローチャートに従った処理と並行して行っても良いし、ステップS207までに行うようにしても良い。
ステップS501では、CPU101は、表示装置105の表示画面に表示されている画面が切り替わったか否かを判断する。CPU101は、ユーザがユーザインターフェース104を操作して画面の切替指示を入力したり、ユーザが画面の切替指示を音声入力したりした場合には、該切替指示に従って画面を切り替える。また、カレンダーのアプリケーションソフトウェアに登録した予定日と現在の日時との差が規定値以下となった場合や、GPS等の手段で取得した現在地がカレンダーのアプリケーションソフトウェアに登録した目的地から規定距離以内となった場合にも、画面を切り替えるようにしても良い。つまり、画面が切り替わるための条件は特定の条件に限らない。
上記の判断の結果、画面が切り替わった場合には、処理はステップS502に進み、切り替わっていない場合には、処理はステップS501に戻る。
ステップS502では、CPU101は、切り替わった後の画面に対して、上記のステップS204と同様のシーン解析を行うことで、該画面に対応するシーンIDを特定する。
ステップS503では、CPU101は、上記のステップS202と同様の判断処理を行う。本ステップでは、{シーンID、NULL、NULL}のセットに対応するコマンドファイルを検索する。この検索により、{シーンID、NULL、NULL}のセットに対応するコマンドファイルが見つかった場合には、処理はステップS504に進み、{シーンID、NULL、NULL}のセットに対応するコマンドファイルが見つからなかった場合には、処理はステップS501に戻る。
ステップS504では、CPU101は、ステップS503で検索したコマンドファイルに従った処理を行う。例えば、コマンドファイルが「切り替わった後の画面のタイトルを音声入力する」である場合には、表示装置105の表示画面に「タイトルを入力して下さい」等のメッセージを表示し、ユーザが音声を発すると、該音声の認識結果であるテキストデータをタイトルとして表示装置105の表示画面に表示する。これに加えて若しくは代えて、コマンドファイルが「切り替わった後の画面のタイトルを音声入力する」である場合には、「タイトルを入力して下さい」等のメッセージを不図示のスピーカから音声として出力するようにしても良い。
なお、カレンダーのアプリケーションソフトウェアに追加した予定時刻のX時間前に「X時間後に○○の予定があります」とのメッセージを表示装置105の表示画面に表示しても良い。また、カレンダーのアプリケーションソフトウェアに追加した予定の場所に近づいたら、「あとX分で到着します」とのメッセージを表示装置105の表示画面に表示しても良い。なお、これに加えて若しくは代えて、メッセージは音声として不図示のスピーカから出力するようにしても良い。
[第5の実施形態]
名詞ID、命令ID、パラメータ、構成情報、コマンドファイル等の記憶装置106に保持されている上記の各種の情報はユーザ、システムの管理者、図2のフローチャートに従った処理を情報処理装置100に実行させるためのソフトウェアの発行元(製造元)の会社のスタッフなどが適宜編集したり追加したり削除したりしても良い。このような情報の編集/追加/削除は、例えば、新たなアプリケーションソフトウェアが追加された場合や、既存のアプリケーションソフトウェアが編集/削除された場合や、OSがバージョンアップされた場合に行う。
[第6の実施形態]
第1の実施形態において記憶装置106に保持されているものとして説明したアプリケーションソフトウェアやデータは、情報処理装置100と直接的若しくは間接的に接続されている外部装置(たとえばサーバ装置200)に保持させておいても良い。その場合、情報処理装置100は、外部装置にアクセスして必要な情報を適宜該外部装置からダウンロードすることになる。なお、情報処理装置100と外部装置とでどのような情報を分担して保持するのかについては特定の形態に限らず、例えば、情報処理装置100において頻繁に使用される情報については情報処理装置100が保持しておくようにしても良い。
[第7の実施形態]
音声認識の結果の取得形態は特定の取得形態に限らない。例えば、情報処理装置100にインストールされているアプリケーションソフトウェアがサーバ装置200が提供する音声認識サービスを使用して音声認識結果を取得するようにしても良い。
また、音声認識により得たテキストデータは、そのままステップS302以降の処理対象としても良いが、適宜編集してからステップS302以降の処理対象としても良い。例えば、取得したテキストデータを表示装置105に表示し、それを見たユーザがユーザインターフェース104を用いて編集しても良い。
また第1の実施形態では、テキストデータに対して構文解析などの解析処理を行うことで、該テキストデータに含まれている名詞や動詞を特定し、該特定した名詞や動詞に基づいてコマンドファイルを検索していたが、テキストデータに対して構文解析などの解析処理を行うことなく、対応するコマンドファイルを検索するようにしても良い。例えば、「スクリーンショット」という文字列が記されたテキストデータに対してコマンドファイル(「スクリーンショットを撮る」という処理のシーケンスを規定する)が記憶装置106に保持されている場合、文字列「スクリーンショット」が記されたテキストデータが得られると、対応するコマンドファイル(「スクリーンショットを撮る」という処理のシーケンスを規定する)が記憶装置106から検索されることになる。また、テキストデータから名詞や動詞に加えて副詞(「もう少し」、「もっと」など)を特定しても良く、その場合、シーンID、名詞ID、命令ID、副詞ID(特定した副詞のID)のセットに対応するコマンドファイルを特定する。
また、音声認識の結果として得られるテキストデータを曖昧に解釈するようにしても良い。例えば、音声認識の結果、「わふいおん」という文字列が記されたテキストデータが得られた場合、この文字列を周知の曖昧解釈などの機能によって「Wi-Fi ON」という文字列に変換しても良い。
また、コマンドファイルによって規定される処理のシーケンスは、OSの設定など、OSを対象にした処理を含んでも良い。
また、第4の実施形態では、カレンダーのアプリケーションソフトウェアに登録した予定日と現在の日時との差が規定値以下となった場合や、GPS等の手段で取得した現在地がカレンダーのアプリケーションソフトウェアに登録した目的地から規定距離以内となった場合には、画面を切り替えていたが、画面の切替は必須ではなく、カレンダーのアプリケーションソフトウェアに登録した予定日と現在の日時との差が規定値以下となった場合や、GPS等の手段で取得した現在地がカレンダーのアプリケーションソフトウェアに登録した目的地から規定距離以内となった場合等、条件が満たされた場合に処理がステップS502に進むようにしても良い。
コマンドファイルで規定されている処理のシーケンスを実行した後、規定時間(コマンドファイルごとに異なっていても良いし、同じでも良い)以内に、更に音声が入力された場合、該音声は先に実行した処理と関連する可能性が高い。そこで例えば、カメラのアプリケーションソフトウェアを実行中にユーザが「ズームイン」と発声した後、規定時間内にユーザが「もう少し」と発声した場合、発声内容「ズームイン」に応じてカメラがズームイン動作を行った後、発声内容「もう少し」に応じて更にズームイン動作を行う。この場合、「もう少し」に対応するコマンドファイルは、先の動作(ズームイン)に対応する名詞IDおよび動詞IDと、カメラのアプリケーションソフトウェアの画面に対応するシーンIDと、のセットに対応するコマンドファイルである。また、「ズームイン」と発声した後で「もう少し」の代わりに反対命令、例えば「戻して」と発声した場合は、発声内容「ズームイン」に応じてカメラがズームイン動作を行った後、発声内容「戻して」に応じて元の倍率にズームアウト(先の動作(ズームイン)の逆動作)する。同様の原理で、例えば、「Wi-FiをONにして」と発声してから「やっぱりやめて」と発声すると、Wi-FiをONにした後でOFFにする(先の動作(Wi-FiをONにする)の逆動作)ようにしても良い。
なお、先の処理に後続する音声入力に対応するコマンドファイルはシーンIDに対応していなくても良い。つまり、先の処理に後続する音声入力は先の処理に関連する可能性が高いので、先の処理に後続する音声入力に対応するコマンドファイルは単に、名詞IDおよび動詞IDと対応するコマンドファイルであっても良い。
また第1の実施形態では、指示の入力を音声にて行っていたが、指示の入力は音声以外で行っても良い。例えば、指示の入力方法には、キー入力、ジェスチャ入力(ユーザが行ったジェスチャを撮像装置で撮像し、該撮像により得られる動画像/静止画像に写っているジェスチャを情報処理装置100が認識する)、各種のセンサによるセンシング結果に基づく入力、などがある。例えば、手を振るジェスチャ入力を行った場合には、そのジェスチャの認識結果に対するメッセージ「バイバイ」を表示しても良い。
[第8の実施形態]
上記の説明において使用した数値やアプリケーションソフトウェアの種類等は具体的な説明を行うために使用したものであり、上記の各実施形態が、これらに限定されることを意図したものではない。また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。

Claims (13)

  1. 入力された指示の内容を表すテキストデータを取得する第1の取得手段と、
    表示されている画面の内容を表すシーン情報を取得する第2の取得手段と、
    前記テキストデータの解析結果と前記シーン情報との組み合わせ対応するコマンドファイルを取得する第3の取得手段と、
    前記コマンドファイルに従って処理を実行する実行手段と
    を備えることを特徴とする情報処理装置。
  2. 前記第2の取得手段は、前記画面に表示されているオブジェクトの種別およびそのレイアウトを前記シーン情報として取得することを特徴とする請求項1に記載の情報処理装置。
  3. 前記第2の取得手段は、予め保持している複数の画像のうち、前記表示されている画面またはその一部と最も類似する画像を前記シーン情報として取得することを特徴とする請求項1に記載の情報処理装置。
  4. 前記第3の取得手段は、前記テキストデータの解析結果および前記シーン情報のうち一方を取得しており、他方を取得していない場合には、該一方と無為値との組み合わせに対応するコマンドファイルを取得することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 前記コマンドファイルは、表示されている画面に対する操作と画面に依存しない操作のいずれかまたは両方を順次実行することを定義するファイルであることを特徴とする請求項1乃至の何れか1項に記載の情報処理装置。
  6. 前記第1の取得手段は、入力された音声に対する音声認識の結果を前記テキストデータとして取得することを特徴とする請求項1乃至の何れか1項に記載の情報処理装置。
  7. 前記実行手段は、前記コマンドファイルに含まれている処理のパラメータを前記音声認識の結果に基づいて設定することを特徴とする請求項に記載の情報処理装置。
  8. 前記実行手段は、前記コマンドファイルに含まれている処理のパラメータが前記音声認識の結果に基づいて設定できない場合には、該パラメータに対応する音声の入力をユーザに促す表示を行うことを特徴とする請求項に記載の情報処理装置。
  9. 前記実行手段は、前記コマンドファイルに含まれている処理のパラメータが前記音声認識の結果に基づいて設定できない場合には、該パラメータに対応する音声の入力を音声にてユーザに促すことを特徴とする請求項またはに記載の情報処理装置。
  10. 前記第1の取得手段は、前記音声認識の結果を表示することを特徴とする請求項乃至の何れか1項に記載の情報処理装置。
  11. 前記第1の取得手段は、キー入力、ジェスチャ入力、センサによるセンシング結果に基づく入力、の何れかで入力された結果を前記テキストデータとして取得することを特徴とする請求項1乃至の何れか1項に記載の情報処理装置。
  12. 情報処理装置が行う情報処理方法であって、
    前記情報処理装置の第1の取得手段が、入力された指示の内容を表すテキストデータを取得する第1の取得工程と、
    前記情報処理装置の第2の取得手段が、表示されている画面の内容を表すシーン情報を取得する第2の取得工程と、
    前記情報処理装置の第3の取得手段が、前記テキストデータの解析結果と前記シーン情報との組み合わせ対応するコマンドファイルを取得する第3の取得工程と、
    前記情報処理装置の実行手段が、前記コマンドファイルに従って処理を実行する実行工程と
    を備えることを特徴とする情報処理方法。
  13. コンピュータを、請求項1乃至11の何れか1項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。
JP2019048717A 2019-03-15 2019-03-15 情報処理装置、情報処理方法、コンピュータプログラム Active JP7185866B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019048717A JP7185866B2 (ja) 2019-03-15 2019-03-15 情報処理装置、情報処理方法、コンピュータプログラム
EP20161790.9A EP3719642A1 (en) 2019-03-15 2020-03-09 Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
US16/814,170 US11693620B2 (en) 2019-03-15 2020-03-10 Information processing apparatus, information processing method, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019048717A JP7185866B2 (ja) 2019-03-15 2019-03-15 情報処理装置、情報処理方法、コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2020149585A JP2020149585A (ja) 2020-09-17
JP7185866B2 true JP7185866B2 (ja) 2022-12-08

Family

ID=69784158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019048717A Active JP7185866B2 (ja) 2019-03-15 2019-03-15 情報処理装置、情報処理方法、コンピュータプログラム

Country Status (3)

Country Link
US (1) US11693620B2 (ja)
EP (1) EP3719642A1 (ja)
JP (1) JP7185866B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013137584A (ja) 2011-12-27 2013-07-11 Toshiba Corp 電子機器、表示方法、およびプログラム
US20170031652A1 (en) 2015-07-29 2017-02-02 Samsung Electronics Co., Ltd. Voice-based screen navigation apparatus and method
JP2017146729A (ja) 2016-02-16 2017-08-24 日本電信電話株式会社 情報処理装置、操作支援方法および操作支援プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
US8983938B1 (en) * 2009-02-06 2015-03-17 Hewlett-Packard Development Company, L.P. Selecting a command file
US9081550B2 (en) * 2011-02-18 2015-07-14 Nuance Communications, Inc. Adding speech capabilities to existing computer applications with complex graphical user interfaces
US9715879B2 (en) * 2012-07-02 2017-07-25 Salesforce.Com, Inc. Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device
US10521189B1 (en) * 2015-05-11 2019-12-31 Alan AI, Inc. Voice assistant with user data context
WO2017138777A1 (en) * 2016-02-12 2017-08-17 Samsung Electronics Co., Ltd. Method and electronic device for performing voice based actions
KR102667413B1 (ko) * 2016-10-27 2024-05-21 삼성전자주식회사 음성 명령에 기초하여 애플리케이션을 실행하는 방법 및 장치
JP6553681B2 (ja) 2017-07-12 2019-07-31 京セラ株式会社 スマートフォン、制御方法、及びプログラム
US10515625B1 (en) * 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
US10503468B2 (en) * 2017-12-08 2019-12-10 Amazon Technologies, Inc. Voice enabling applications
US10796695B2 (en) * 2018-11-27 2020-10-06 Lg Electronics Inc. Multimedia device for processing voice command

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013137584A (ja) 2011-12-27 2013-07-11 Toshiba Corp 電子機器、表示方法、およびプログラム
US20170031652A1 (en) 2015-07-29 2017-02-02 Samsung Electronics Co., Ltd. Voice-based screen navigation apparatus and method
JP2017146729A (ja) 2016-02-16 2017-08-24 日本電信電話株式会社 情報処理装置、操作支援方法および操作支援プログラム

Also Published As

Publication number Publication date
JP2020149585A (ja) 2020-09-17
US20200293275A1 (en) 2020-09-17
US11693620B2 (en) 2023-07-04
EP3719642A1 (en) 2020-10-07

Similar Documents

Publication Publication Date Title
EP3821330B1 (en) Electronic device and method for generating short cut of quick command
US8150809B2 (en) File delete method, file open method, storage medium storing file delete program, and storage medium storing file open program
EP2835798B1 (en) Interfacing device and method for supporting speech dialogue service
CN107293294B (zh) 一种语音识别处理方法及装置
JP6661409B2 (ja) 自動設置システム、情報処理装置、情報処理装置の制御方法、及びプログラム
CN109428968B (zh) 控制终端的方法、装置及存储介质
KR102527107B1 (ko) 음성에 기반하여 기능을 실행하기 위한 방법 및 이를 지원하는 사용자 전자 장치
JP5892444B2 (ja) 情報処理装置
JP6375592B2 (ja) 情報処理装置及び情報処理方法並びにプログラム
JP7185866B2 (ja) 情報処理装置、情報処理方法、コンピュータプログラム
KR102353797B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
JP2019001428A (ja) 車載装置、音声操作システムおよび音声操作方法
JP6822448B2 (ja) 情報処理装置及び情報処理方法並びにプログラム
JP6124594B2 (ja) 電力系統監視制御装置およびその制御プログラム
US20160170717A1 (en) Association of program code and application features
JP5190324B2 (ja) 個人情報開示支援装置
JP2015141540A (ja) 情報処理装置、文言関連付け提示システム及び情報処理プログラム
JP2007058677A (ja) 表示制御装置および方法
JP2002156996A (ja) 音声認識装置、認識結果修正方法及び記録媒体
JP2001318796A (ja) 内外イベントドリブン方式によるプログラム実行制御方法、記録媒体およびプログラム作成支援システム
JP2003302995A (ja) 音声認識文法の更新方法、情報処理装置及びコンピュータ・プログラム
JP2014048507A (ja) ローカル言語資源の補強装置及びサービス提供設備装置
JP2018116632A (ja) 情報処理装置、情報処理方法及びプログラム
JP2002007015A (ja) 情報処理装置およびコンピュータ読み取り可能な記憶媒体
KR20220043753A (ko) 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221115

R150 Certificate of patent or registration of utility model

Ref document number: 7185866

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150