JP7185866B2 - 情報処理装置、情報処理方法、コンピュータプログラム - Google Patents
情報処理装置、情報処理方法、コンピュータプログラム Download PDFInfo
- Publication number
- JP7185866B2 JP7185866B2 JP2019048717A JP2019048717A JP7185866B2 JP 7185866 B2 JP7185866 B2 JP 7185866B2 JP 2019048717 A JP2019048717 A JP 2019048717A JP 2019048717 A JP2019048717 A JP 2019048717A JP 7185866 B2 JP7185866 B2 JP 7185866B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- command file
- processing apparatus
- text data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 45
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000003672 processing method Methods 0.000 title claims 3
- 238000012545 processing Methods 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 35
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 3
- 244000005894 Albizia lebbeck Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
先ず、本実施形態に係るシステムの構成例について、図1のブロック図を用いて説明する。図1に示す如く、本実施形態に係るシステムは、情報処理装置100と、該情報処理装置100とネットワーク300を介して通信可能なサーバ装置200と、を有する。
収音装置108は、音声の入力を受け付けている受付状態にあり、ユーザが収音装置108に対して音声を発すると、収音装置108は該音声に応じた音声信号を生成し、該生成した音声信号に対してA/D変換等の変換を行うことで該音声信号に対応する音声データを生成して出力する。CPU101は、収音装置108から出力された音声データを取得すると、該音声データに対して音声認識を行う。この音声認識は、CPU101がアプリケーションソフトウェアに含まれている音声認識ソフトウェアを実行することで実施しても良いし、アプリケーションソフトウェアとは異なる別の音声認識用のアプリケーションソフトウェア(記憶装置106に保存されている)を起動して実行することで実施しても良い。
CPU101は、収音装置108から出力された音声データに対して音声認識を行うことで、該音声データに対応するテキストデータ(ユーザが発声した内容を表すテキストデータ)を、該音声認識の結果として取得する。CPU101は、この取得したテキストデータを表示装置105の表示画面に表示しても良い。
CPU101は、ステップS301で得られたテキストデータに対して構文解析などの解析処理を行うことで、該テキストデータに含まれている名詞や動詞を特定する。
CPU101は、ステップS201で取得した名詞IDおよび命令IDと、シーンID(=NULL(無為の値の一例))と、から成るセット{シーンID(=NULL)、名詞ID、命令ID}と対応付けて記憶装置106に保持されているコマンドファイルを検索する。このコマンドファイルはシーンIDには依存していないコマンドファイルであることから、シーンに依存していないコマンドファイルとなる。
CPU101は、ステップS202における検索で見つけたコマンドファイルを記憶装置106からRAM102に読み出す。
表示装置105の表示画面には、アプリケーションソフトウェアを実行したことで対応するGUI(グラフィカルユーザインターフェース)が表示されている。CPU101は、表示装置105の表示画面に表示されているシーンがどのようなシーンであるのか(どのようなアプリケーションソフトウェアのどのような画面が表示装置105の表示画面に表示中であるのか)を解析するシーン解析処理を行う。ステップS204におけるシーン解析処理の詳細について、図4のフローチャートに従って説明する。
CPU101は、表示装置105の表示画面に表示されているシーンを表すシーン情報として、該表示画面に表示されているオブジェクト(全てでなくても良く、予め設定された一部のオブジェクトであっても良い)の種別や該オブジェクトのレイアウトなどの「表示画面に表示されている画面の構成情報」を取得する。表示装置105の表示画面に表示されている画面のソースコードはアプリケーションソフトウェアが有している。そこでCPU101は、このソースコードから、現在表示装置105の表示画面に表示されているオブジェクトの種別やそのレイアウトを取得することができる。なお、構成情報の取得方法はこのような方法に限らない。例えば、表示装置105の表示画面に表示されている画面が、サーバ装置200などの外部装置からダウンロードしたウェブページである場合には、このウェブページのソースコードを該サーバ装置200から取得し、該ソースコードから構成情報を取得するようにしても良い。また例えば、様々なアプリケーションソフトウェアの様々な画面の画像を予め収集して記憶装置106に保持しておき、該画像のうち表示装置105の表示画面に表示されている画面と最も類似する画像を構成情報として取得するようにしても良い。このように、画面の構成情報の取得方法は特定の取得方法に限らない。
CPU101は、ステップS401で取得した構成情報と対応付けて記憶装置106に保持されているIDをシーンIDに設定する。記憶装置106には様々な構成情報に対応するIDが保持されており、ステップS402では、記憶装置106に保持されているそれぞれのIDのうち、ステップS401で取得した構成情報と対応付けて記憶装置106に保持されているIDをシーンIDに設定する。
ステップS205では、CPU101は、ステップS201で取得した名詞IDおよび命令IDと、ステップS402で取得したシーンIDと、から成るセット{シーンID、名詞ID、命令ID}と対応付けて記憶装置106に保持されているコマンドファイルをRAM102に読み出す。このコマンドファイルはシーンIDに依存しているコマンドファイルであることから、シーンに依存しているコマンドファイルとなる。
CPU101は、ステップS203若しくはステップS205でRAM102に読み出したコマンドファイルに従って処理を実行する。コマンドファイルは、処理A→処理B→処理C→…というように処理のシーケンスを定義するファイルである。然るに本ステップではCPU101は、ステップS203若しくはステップS205でRAM102に読み出したコマンドファイルで規定されている処理のシーケンスを実行する。
CPU101は、処理の終了条件が満たされたか否かを判断する。例えばCPU101は、ユーザがユーザインターフェース104を用いて処理の終了指示を入力した場合には、処理の終了条件が満たされたと判断する。
本実施形態を含め、以下の各実施形態では、第1の実施形態との差分について説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとする。
第1の実施形態では、アプリケーションソフトウェアの画面などの各種の画面は情報処理装置100が有する表示装置105の表示画面に表示したが、これに限らない。すなわち、情報処理装置100に直接的若しくは間接的に接続されている表示装置に表示しても良い。
第1の実施形態では、シーン解析やコマンドファイルの特定は、ユーザが音声にて指示入力を行ったことをトリガにして行われていた。しかし、シーン解析やコマンドファイルの特定のトリガは、これに限らない。
名詞ID、命令ID、パラメータ、構成情報、コマンドファイル等の記憶装置106に保持されている上記の各種の情報はユーザ、システムの管理者、図2のフローチャートに従った処理を情報処理装置100に実行させるためのソフトウェアの発行元(製造元)の会社のスタッフなどが適宜編集したり追加したり削除したりしても良い。このような情報の編集/追加/削除は、例えば、新たなアプリケーションソフトウェアが追加された場合や、既存のアプリケーションソフトウェアが編集/削除された場合や、OSがバージョンアップされた場合に行う。
第1の実施形態において記憶装置106に保持されているものとして説明したアプリケーションソフトウェアやデータは、情報処理装置100と直接的若しくは間接的に接続されている外部装置(たとえばサーバ装置200)に保持させておいても良い。その場合、情報処理装置100は、外部装置にアクセスして必要な情報を適宜該外部装置からダウンロードすることになる。なお、情報処理装置100と外部装置とでどのような情報を分担して保持するのかについては特定の形態に限らず、例えば、情報処理装置100において頻繁に使用される情報については情報処理装置100が保持しておくようにしても良い。
音声認識の結果の取得形態は特定の取得形態に限らない。例えば、情報処理装置100にインストールされているアプリケーションソフトウェアがサーバ装置200が提供する音声認識サービスを使用して音声認識結果を取得するようにしても良い。
上記の説明において使用した数値やアプリケーションソフトウェアの種類等は具体的な説明を行うために使用したものであり、上記の各実施形態が、これらに限定されることを意図したものではない。また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。
Claims (13)
- 入力された指示の内容を表すテキストデータを取得する第1の取得手段と、
表示されている画面の内容を表すシーン情報を取得する第2の取得手段と、
前記テキストデータの解析結果と前記シーン情報との組み合わせに対応するコマンドファイルを取得する第3の取得手段と、
前記コマンドファイルに従って処理を実行する実行手段と
を備えることを特徴とする情報処理装置。 - 前記第2の取得手段は、前記画面に表示されているオブジェクトの種別およびそのレイアウトを前記シーン情報として取得することを特徴とする請求項1に記載の情報処理装置。
- 前記第2の取得手段は、予め保持している複数の画像のうち、前記表示されている画面またはその一部と最も類似する画像を前記シーン情報として取得することを特徴とする請求項1に記載の情報処理装置。
- 前記第3の取得手段は、前記テキストデータの解析結果および前記シーン情報のうち一方を取得しており、他方を取得していない場合には、該一方と無為値との組み合わせに対応するコマンドファイルを取得することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
- 前記コマンドファイルは、表示されている画面に対する操作と画面に依存しない操作のいずれかまたは両方を順次実行することを定義するファイルであることを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
- 前記第1の取得手段は、入力された音声に対する音声認識の結果を前記テキストデータとして取得することを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
- 前記実行手段は、前記コマンドファイルに含まれている処理のパラメータを前記音声認識の結果に基づいて設定することを特徴とする請求項6に記載の情報処理装置。
- 前記実行手段は、前記コマンドファイルに含まれている処理のパラメータが前記音声認識の結果に基づいて設定できない場合には、該パラメータに対応する音声の入力をユーザに促す表示を行うことを特徴とする請求項7に記載の情報処理装置。
- 前記実行手段は、前記コマンドファイルに含まれている処理のパラメータが前記音声認識の結果に基づいて設定できない場合には、該パラメータに対応する音声の入力を音声にてユーザに促すことを特徴とする請求項7または8に記載の情報処理装置。
- 前記第1の取得手段は、前記音声認識の結果を表示することを特徴とする請求項6乃至9の何れか1項に記載の情報処理装置。
- 前記第1の取得手段は、キー入力、ジェスチャ入力、センサによるセンシング結果に基づく入力、の何れかで入力された結果を前記テキストデータとして取得することを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
- 情報処理装置が行う情報処理方法であって、
前記情報処理装置の第1の取得手段が、入力された指示の内容を表すテキストデータを取得する第1の取得工程と、
前記情報処理装置の第2の取得手段が、表示されている画面の内容を表すシーン情報を取得する第2の取得工程と、
前記情報処理装置の第3の取得手段が、前記テキストデータの解析結果と前記シーン情報との組み合わせに対応するコマンドファイルを取得する第3の取得工程と、
前記情報処理装置の実行手段が、前記コマンドファイルに従って処理を実行する実行工程と
を備えることを特徴とする情報処理方法。 - コンピュータを、請求項1乃至11の何れか1項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019048717A JP7185866B2 (ja) | 2019-03-15 | 2019-03-15 | 情報処理装置、情報処理方法、コンピュータプログラム |
EP20161790.9A EP3719642A1 (en) | 2019-03-15 | 2020-03-09 | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium |
US16/814,170 US11693620B2 (en) | 2019-03-15 | 2020-03-10 | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019048717A JP7185866B2 (ja) | 2019-03-15 | 2019-03-15 | 情報処理装置、情報処理方法、コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020149585A JP2020149585A (ja) | 2020-09-17 |
JP7185866B2 true JP7185866B2 (ja) | 2022-12-08 |
Family
ID=69784158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019048717A Active JP7185866B2 (ja) | 2019-03-15 | 2019-03-15 | 情報処理装置、情報処理方法、コンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11693620B2 (ja) |
EP (1) | EP3719642A1 (ja) |
JP (1) | JP7185866B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013137584A (ja) | 2011-12-27 | 2013-07-11 | Toshiba Corp | 電子機器、表示方法、およびプログラム |
US20170031652A1 (en) | 2015-07-29 | 2017-02-02 | Samsung Electronics Co., Ltd. | Voice-based screen navigation apparatus and method |
JP2017146729A (ja) | 2016-02-16 | 2017-08-24 | 日本電信電話株式会社 | 情報処理装置、操作支援方法および操作支援プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101502003B1 (ko) * | 2008-07-08 | 2015-03-12 | 엘지전자 주식회사 | 이동 단말기 및 그 텍스트 입력 방법 |
US8983938B1 (en) * | 2009-02-06 | 2015-03-17 | Hewlett-Packard Development Company, L.P. | Selecting a command file |
US9081550B2 (en) * | 2011-02-18 | 2015-07-14 | Nuance Communications, Inc. | Adding speech capabilities to existing computer applications with complex graphical user interfaces |
US9715879B2 (en) * | 2012-07-02 | 2017-07-25 | Salesforce.Com, Inc. | Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device |
US10521189B1 (en) * | 2015-05-11 | 2019-12-31 | Alan AI, Inc. | Voice assistant with user data context |
WO2017138777A1 (en) * | 2016-02-12 | 2017-08-17 | Samsung Electronics Co., Ltd. | Method and electronic device for performing voice based actions |
KR102667413B1 (ko) * | 2016-10-27 | 2024-05-21 | 삼성전자주식회사 | 음성 명령에 기초하여 애플리케이션을 실행하는 방법 및 장치 |
JP6553681B2 (ja) | 2017-07-12 | 2019-07-31 | 京セラ株式会社 | スマートフォン、制御方法、及びプログラム |
US10515625B1 (en) * | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
US10503468B2 (en) * | 2017-12-08 | 2019-12-10 | Amazon Technologies, Inc. | Voice enabling applications |
US10796695B2 (en) * | 2018-11-27 | 2020-10-06 | Lg Electronics Inc. | Multimedia device for processing voice command |
-
2019
- 2019-03-15 JP JP2019048717A patent/JP7185866B2/ja active Active
-
2020
- 2020-03-09 EP EP20161790.9A patent/EP3719642A1/en active Pending
- 2020-03-10 US US16/814,170 patent/US11693620B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013137584A (ja) | 2011-12-27 | 2013-07-11 | Toshiba Corp | 電子機器、表示方法、およびプログラム |
US20170031652A1 (en) | 2015-07-29 | 2017-02-02 | Samsung Electronics Co., Ltd. | Voice-based screen navigation apparatus and method |
JP2017146729A (ja) | 2016-02-16 | 2017-08-24 | 日本電信電話株式会社 | 情報処理装置、操作支援方法および操作支援プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020149585A (ja) | 2020-09-17 |
US20200293275A1 (en) | 2020-09-17 |
US11693620B2 (en) | 2023-07-04 |
EP3719642A1 (en) | 2020-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3821330B1 (en) | Electronic device and method for generating short cut of quick command | |
US8150809B2 (en) | File delete method, file open method, storage medium storing file delete program, and storage medium storing file open program | |
EP2835798B1 (en) | Interfacing device and method for supporting speech dialogue service | |
CN107293294B (zh) | 一种语音识别处理方法及装置 | |
JP6661409B2 (ja) | 自動設置システム、情報処理装置、情報処理装置の制御方法、及びプログラム | |
CN109428968B (zh) | 控制终端的方法、装置及存储介质 | |
KR102527107B1 (ko) | 음성에 기반하여 기능을 실행하기 위한 방법 및 이를 지원하는 사용자 전자 장치 | |
JP5892444B2 (ja) | 情報処理装置 | |
JP6375592B2 (ja) | 情報処理装置及び情報処理方法並びにプログラム | |
JP7185866B2 (ja) | 情報処理装置、情報処理方法、コンピュータプログラム | |
KR102353797B1 (ko) | 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템 | |
JP2019001428A (ja) | 車載装置、音声操作システムおよび音声操作方法 | |
JP6822448B2 (ja) | 情報処理装置及び情報処理方法並びにプログラム | |
JP6124594B2 (ja) | 電力系統監視制御装置およびその制御プログラム | |
US20160170717A1 (en) | Association of program code and application features | |
JP5190324B2 (ja) | 個人情報開示支援装置 | |
JP2015141540A (ja) | 情報処理装置、文言関連付け提示システム及び情報処理プログラム | |
JP2007058677A (ja) | 表示制御装置および方法 | |
JP2002156996A (ja) | 音声認識装置、認識結果修正方法及び記録媒体 | |
JP2001318796A (ja) | 内外イベントドリブン方式によるプログラム実行制御方法、記録媒体およびプログラム作成支援システム | |
JP2003302995A (ja) | 音声認識文法の更新方法、情報処理装置及びコンピュータ・プログラム | |
JP2014048507A (ja) | ローカル言語資源の補強装置及びサービス提供設備装置 | |
JP2018116632A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2002007015A (ja) | 情報処理装置およびコンピュータ読み取り可能な記憶媒体 | |
KR20220043753A (ko) | 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7185866 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |