JP2019175453A

JP2019175453A - ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置

Info

Publication number: JP2019175453A
Application number: JP2019058263A
Authority: JP
Inventors: ホ準諸葛; Jun Jaygarl Ho; 栽建盧; Jae Gun No; ミン成金; Min-Sung Kim; 珍雄金; Jinwoong Kim; 栽榮梁; Jae Yung Yeo; 光斌李; Kwangbin Lee; 在永余; Jaeyung Yeo; 多順李; Da Som Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-03-27
Filing date: 2019-03-26
Publication date: 2019-10-10
Also published as: EP3547310A1; KR20190113130A; CN110308886A; WO2019190062A1; US20190304455A1; CN110308886B; AU2019201441B2; US11151995B2; AU2019201441A1

Abstract

【課題】ユーザが直接定義したタスクに対して音声認識サービスをサポートすることができるシステムを提供する。【解決手段】タッチスクリーンディスプレイ（ＴＳＤ）、通信回路、マイク、スピーカを含む第１電子装置、第１電子装置の一部か又は第１電子装置と遠隔で通信するプロセッサ、プロセッサと作動的に接続される間第１電子装置上に又は第１電子装置の外部に常駐するメモリを有し、メモリは実行時プロセッサが第１ユーザ入力をＴＳＤ又はマイクを介して受信しタッチ及び／又は音声ベースのユーザ入力のシーケンスをＴＳＤ又はマイクを介して受信しタッチ及び／又は音声ベースのユーザ入力のシーケンスをメモリに保存しシーケンスと関連したインヴォークワードを含む第２ユーザ入力をＴＳＤ又はマイクを介して受信しインヴォークワードをシーケンスとマッピングされるようにメモリに保存することを指示するコマンド語を保存する。【選択図】図５

Description

本発明は、ユーザ音声入力の処理を含む装置に関し、特に、ユーザが直接定義したタスクに対して音声認識サービスをサポートすることができるユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置に関する。

キーボードやマウスを用いた入力方式に加えて、最近の電子装置は音声入力方式をサポートすることができる。
例えば、スマートフォンやタブレットのような電子装置は、音声認識サービスが実行された状態でユーザの発話を認識し、発話に対応する動作を実行することができる。

音声認識サービスは、ユーザの発話を入力として受信し、認識する。
音声認識サービスは、ユーザの発話に含まれた特定の語句を用いて発話に対応する結果をユーザに提供することができる。
例えば、音声認識サービスは、自然言語処理技術に基づいて発話からユーザの意図を把握し、把握した意図に応じた結果をユーザに提供することができる。

音声認識サービスは、予め保存されたルール（ｒｕｌｅ）にマッピングされるユーザの発話が受信すると、上記ルールを用いてユーザの意図に合致するコマンド語（ｃｏｍｍａｎｄ）を生成する。
コマンド語は、電子装置においてユーザが意図するタスク（ｔａｓｋ）を行う動作の実行を指示する。
サービス提供者は、処理可能な規則を予め定義することができる。
サービス提供者は、ユーザに予め定義された規則にマッチングする電子装置に、一部のタスクに対してのみ音声認識サービスをサポートするので、より進んだ音声認識サービスのために、音声認識サービスの自由度の拡大という課題がある。

特開２０００−７８２８８号公報

本発明は上記従来の音声認識サービスにおける課題に鑑みてなされたものであって、本発明の目的は、ユーザが直接定義したタスクに対して音声認識サービスをサポートすることができるユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置を提供することにある。

上記目的を達成するためになされた本発明によるユーザ音声入力の処理を含むシステムは、ユーザ音声入力の処理を含むシステムであって、タッチスクリーンディスプレイ、通信回路、マイク、及びスピーカを含む第１電子装置と、前記第１電子装置の一部であるか、又は、前記第１電子装置と遠隔で通信する少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと作動的に（ｏｐｅｒａｔｅｌｙ）接続される間、前記第１電子装置上に、又は前記第１電子装置の外部に常駐する少なくとも一つのメモリと、を有し、前記少なくとも一つのメモリは、実行時、前記少なくとも一つのプロセッサが、第１ユーザ入力をタッチスクリーンディスプレイ又はマイクを介して受信し、少なくともタッチ又は音声ベースのどちらか一方のユーザ入力のシーケンスを前記タッチスクリーンディスプレイ又は前記マイクを介して受信し、前記少なくともタッチ又は音声ベースのどちらか一方のユーザ入力の前記シーケンスを前記メモリに保存し、前記シーケンスと関連した少なくとも一つのインヴォークワード（ｉｎｖｏｋｅｗｏｒｄ）を含む第２ユーザ入力を前記タッチスクリーンディスプレイ又は前記マイクを介して受信し、前記少なくとも一つのインヴォークワードを、前記シーケンスとマッピングされるように前記少なくとも一つのメモリに保存することを指示するコマンド語を保存することを特徴とする。

上記目的を達成するためになされた本発明によるユーザ音声入力の処理を含むシステムの動作方法は、第１ユーザ入力を受信する段階と、少なくともタッチ又は音声ベースのどちらか一方のユーザ入力のシーケンスをタッチスクリーンディスプレイ又はマイクを介して受信する段階と、前記少なくともタッチ又は音声ベースのどちらか一方のユーザ入力の前記シーケンスを前記メモリに保存する段階と、前記シーケンスと関連した少なくとも一つのインヴォークワード（ｉｎｖｏｋｅｗｏｒｄ）を含む第２ユーザ入力を前記マイクを介して受信する段階と、前記少なくとも一つのインヴォークワードを、前記シーケンスとマッピングされるように保存する段階と、を有することを特徴とする。

上記目的を達成するためになされた本発明による電子装置は、タッチスクリーンディスプレイと、マイクと、ストレージ（ｓｔｏｒａｇｅ）と、前記タッチスクリーンディスプレイ、前記マイク、及び前記ストレージと電気的に接続された少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと電気的に接続され、コマンド語を保存する少なくとも一つのメモリと、を有し、前記コマンド語が実行された時、前記少なくとも一つのプロセッサにおいて、第１ユーザ入力を受信し、タッチ又は音声ベースの複数のユーザ入力を含むシーケンスを受信し、前記シーケンスを前記ストレージに保存し、前記シーケンスと関連するユーザ発話を前記マイクを介して受信し、前記ユーザ発話を前記シーケンスとマッピングされるように前記ストレージに保存することを特徴とする。

本発明に係るユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置によれば、予め保存された規則に対応されない個人化されたタスクに対するユーザコマンド機能を提供することができる知能化システムにより、ユーザが定義したタスクに対する音声認識サービスを提供することができるという効果がある。

本発明の実施形態による統合知能化システムの概要を示す図である。本発明の一実施形態による統合知能化システムのユーザ端末の構成を示すブロック図である。本発明の一実施形態によるユーザ端末の知能型アプリを実行しているところを示す図である。本発明の一実施形態による統合知能化システムの知能型サーバを示したブロック図である。本発明の一実施形態による音声認識サービスを提供する知能化システムの概略構成を示すブロック図である。本発明の一実施形態による電子装置に保存されたタスク実行モジュールの概略構成を示すブロック図である。本発明の一実施形態による電子装置に保存された記録モジュールの概略構成を示すブロック図である。本発明の他の実施形態による電子装置に保存されたタスク実行モジュールの概略構成を示すブロック図である。本発明の一実施形態による個人化されたコマンドを生成する方法を説明するためのフローチャートである。本発明の様々な実施形態による個人化されたコマンドを生成するシステムの動作に対するシーケンス図である。本発明の様々な実施形態によって生成された個人化されたコマンドを行うシステムの動作に対するシーケンス図である。本発明の一実施形態による個人化されたコマンドを行う方法を説明するためのフローチャートである。本発明の様々な実施形態による個人化されたタスクを生成する方法を説明するための一シナリオである。本発明の様々な実施形態による個人化されたタスクが生成される時に表示されるインタフェースの一例である。本発明の様々な実施形態によるネットワーク環境内の電子装置の概略構成を示すブロック図である。

次に、本発明に係るユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置を実施するための形態の具体例を図面を参照しながら説明する。

以下、本発明の様々な実施形態を添付された図面を参照して記載する。
しかし、これは、本発明を特定の実施形態に対して限定するものではなく、本発明の実施形態の様々な変更（ｍｏｄｉｆｉｃａｔｉｏｎ）、均等物（ｅｑｕｉｖａｌｅｎｔ）、及び／又は代替物（ａｌｔｅｒｎａｔｉｖｅ）を含むものと理解されるべきである。
図面の説明に関連して、同一又は類似の構成要素については、同一又は類似の参照符号が使用する。

本明細書の様々な実施形態及びこれに使用する用語は、本明細書に記載した技術的特徴を特定の実施形態に限定するものではなく、当該実施形態の様々な変更、均等物、又は代替物を含むものとして理解されるべきである。
アイテムに対応する名詞の単数形は、関連する文脈上特に断わらない限り、アイテム一つ又は複数個を含むことができる。
本明細書において、「Ａ又はＢ」、「Ａ及びＢのうち少なくとも一つ」、「Ａ又はＢのうち少なくとも一つ」、「Ａ、Ｂ又はＣ」、「Ａ、Ｂ及びＣのうち少なくとも一つ」、及び「Ａ、Ｂ、又はＣのうち少なくとも一つ」のような語句のそれぞれは、その語句のうち該当する語句に共に並べられた項目において全ての可能な組み合わせを含むことができる。
「第１」、「第２」、又は「第一に」又は「第二に」のような用語は、単に当該構成要素を他の当該構成要素と区分するために使用され得ると共に、当該構成要素を他の側面（例：重要性又は手順）に限定しない。
ある（例：第１）構成要素が他の（例：第２）構成要素に、「機能的に」又は「通信的に」という用語と共に、又はこのような用語なしで、「結合された」又は「接続された」と言及された場合、それは前記ある構成要素が前記他の構成要素に直接的に（例：有線で）、無線で、又は第３構成要素を介して接続されることができるとの意味である。

本明細書において使用する用語「モジュール」は、ハードウェア、ソフトウェア又はファームウェアで具現されたユニットを含むことができ、例えば、ロジック、論理ブロック、部品、又は回路などの用語と相互互換的に使用することができる。
モジュールは、一体に構成された部品又は一つもしくはそれ以上の機能を行う、部品の最小単位又はその一部となり得る。
例えば、一実施形態によれば、モジュールはＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）の形態で具現することができる。

図１は、本発明の実施形態による統合知能化システムの概要を示す図である。
図１を参照すると、統合知能化システム１０は、ユーザ端末１００、知能型サーバ２００、個人化情報サーバ３００、又は提案サーバ４００を含む。

ユーザ端末１００は、ユーザ端末１００の内部に保存されたアプリ（ａｐｐ）（又は、アプリケーションプログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ））（例：アラームアプリ、メッセージアプリ、写真（ギャラリー）アプリなど）を介してユーザに必要なサービスを提供することができる。
例えば、ユーザ端末１００は、ユーザ端末１００の内部に保存された知能型アプリ（又は、音声認識アプリ）を介して他のアプリを実行し、動作させることができる。
ユーザ端末１００の知能型アプリを介して他のアプリを実行し、動作を実行させるためのユーザ入力を受信する。
ユーザ入力は、例えば、物理的ボタン、タッチパッド、音声入力、遠隔入力などを介して受信する。
一実施形態によれば、ユーザ端末１００は、携帯電話、スマートフォン、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、又はノートパソコンなどインターネットに接続可能な各種の端末装置（又は、電子装置）がこれに該当し得る。

一実施形態によれば、ユーザ端末１００は、ユーザの発話をユーザ入力で受信する。
ユーザ端末１００は、ユーザの発話を受信し、ユーザの発話に基づいてアプリを動作させるコマンドを生成する。
これにより、ユーザ端末１００は、コマンドを用いてアプリを動作させる。

知能型サーバ２００は、通信網を介してユーザ端末１００からユーザ音声入力（ｖｏｉｃｅｉｎｐｕｔ）を受信してテキストデータ（ｔｅｘｔｄａｔａ）に変更する。
他の実施形態では、知能型サーバ２００は、テキストデータに基づいてパスルール（ｐａｔｈｒｕｌｅ）を生成（又は、選択）することができる。
パスルールは、アプリの機能を行うための動作（ａｃｔｉｏｎ）（又は、オペレーション（ｏｐｅｒａｔｉｏｎ））に対する情報又は動作を実行するために必要なパラメータに対する情報を含み得る。
また、パスルールは、アプリの動作の手順を含み得る。
ユーザ端末１００は、パスルールを受信し、パスルールに従ってアプリを選択し、選択されたアプリでパスルールに含まれた動作を実行させる。

例えば、ユーザ端末１００は、動作を実行し、動作を実行したユーザ端末１００の状態に対応する画面をディスプレイに表示する。
他の例を挙げれば、ユーザ端末１００は、動作を実行し、動作を行った結果をディスプレイに表示しないこともできる。
ユーザ端末１００は、例えば、複数の動作を実行し、複数の動作の一部の結果のみをディスプレイに表示することもできる。
ユーザ端末１００は、例えば、最後の手順の動作を実行した結果のみをディスプレイに表示することもできる。
また、他の例を挙げれば、ユーザ端末１００は、ユーザの入力を受信して動作を実行した結果をディスプレイに表示することもできる。

個人化情報サーバ３００は、ユーザ情報が保存されたデータベースを含む。
例えば、個人化情報サーバ３００は、ユーザ端末１００からユーザ情報（例：コンテキスト情報、アプリ実行など）を受信してデータベースに保存する。
知能型サーバ２００は、通信網を介して個人化情報サーバ３００からユーザ情報を受信してユーザ入力に対するパスルールを生成する場合に用いられ得る。
一実施形態によれば、ユーザ端末１００は、通信網を介して個人化情報サーバ３００からユーザ情報を受信してデータベースを管理するための情報として用いることができる。

提案サーバ４００は、端末内に機能あるいはアプリケーションの紹介又は提供される機能に対する情報が保存されたデータベースを含む。
例えば、提案サーバ４００は、個人化情報サーバ３００からユーザ端末１００のユーザ情報を受信してユーザが使用可能な機能に対するデータベースを含む。
ユーザ端末１００は、通信網を介して提案サーバ４００から提供される機能に対する情報を受信してユーザに情報を提供する。

図２は、本発明の一実施形態による統合知能化システムのユーザ端末の構成を示すブロック図である。
図２を参照すると、ユーザ端末１００は、入力モジュール１１０、ディスプレイ１２０、スピーカ１３０、メモリ１４０及びプロセッサ１５０を含む。
ユーザ端末１００は、ハウジングをさらに含むことができ、ユーザ端末１００の構成はハウジングの内部に安着するか、ハウジング上に（ｏｎｔｈｅｈｏｕｓｉｎｇ）配置され得る。

一実施形態によれば、入力モジュール１１０は、ユーザからユーザ入力を受信する。
例えば、入力モジュール１１０は、接続された外部装置（例：キーボード、ヘッドセット）からユーザ入力を受信する。
他の例を挙げれば、入力モジュール１１０は、ディスプレイ１２０と結合されたタッチスクリーン（例：タッチスクリーンディスプレイ）を含み得る。
また他の例を挙げれば、入力モジュール１１０は、ユーザ端末１００（又は、ユーザ端末１００のハウジング）に配置されたハードウェアキー（又は、物理的キー）を含み得る。

一実施形態によれば、入力モジュール１１０は、ユーザの発話を音声信号として受信することができるマイク１１１を含む。
例えば、入力モジュール１１０は、発話入力システム（ｓｐｅｅｃｈｉｎｐｕｔｓｙｓｔｅｍ）を含み、発話入力システムを介してユーザの発話を音声信号として受信する。

一実施形態によれば、ディスプレイ１２０は、イメージやビデオ、及び／又はアプリケーションの実行画面を表示する。
例えば、ディスプレイ１２０は、アプリのグラフィックユーザインタフェース（ｇｒａｐｈｉｃｕｓｅｒｉｎｔｅｒｆａｃｅ）（ＧＵＩ）を表示する。
一実施形態によれば、スピーカ１３０は、音声信号を出力する。
例えば、スピーカ１３０は、ユーザ端末１００の内部で生成された音声信号を外部へ出力する。

一実施形態によれば、メモリ１４０は、複数のアプリ（１４１、１４３）を保存する。
メモリ１４０に保存された複数のアプリ（１４１、１４３）は、ユーザ入力によって選択されて実行され、動作する。
一実施形態によれば、メモリ１４０は、ユーザ入力を認識するのに必要な情報を保存することができるデータベースを含み得る。
例えば、メモリ１４０は、ログ（ｌｏｇ）情報を保存することができるログデータベースを含む。
他の例を挙げれば、メモリ１４０は、ユーザ情報を保存することができるペルソナデータベースを含むことができる。

一実施形態によれば、メモリ１４０は、複数のアプリ（１４１、１４３）を保存し、複数のアプリ（１４１、１４３）はロードされて動作する。
例えば、メモリ１４０に保存された複数のアプリ（１４１、１４３）は、プロセッサ１５０の実行マネージャモジュール１５３によりロードされて動作する。
複数のアプリ（１４１、１４３）は、機能を行う実行サービス（１４１ａ、１４３ａ）又は複数の動作（又は、単位動作）（１４１ｂ、１４３ｂ）を含み得る。
実行サービス（１４１ａ、１４３ａ）は、プロセッサ１５０の実行マネージャモジュール１５３により生成され、複数の動作（１４１ｂ、１４３ｂ）を実行する。

一実施形態によれば、アプリ（１４１、１４３）の動作（１４１ｂ、１４３ｂ）が実行されたとき、動作（１４１ｂ、１４３ｂ）の実行による実行状態画面はディスプレイ１２０に表示される。
実行状態画面は、例えば、動作（１４１ｂ、１４３ｂ）が完了した状態の画面であり得る。
実行状態画面は、他の例を挙げれば、動作（１４１ｂ、１４３ｂ）の実行が停止された状態（ｐａｒｔｉａｌｌａｎｄｉｎｇ）（例：動作（１４１ｂ、１４３ｂ）に必要なパラメータが入力されなかった場合）の画面であり得る。

一実施形態によれば、実行サービス（１４１ａ、１４３ａ）は、パスルールに従って動作（１４１ｂ、１４３ｂ）を実行する。
例えば、実行サービス（１４１ａ、１４３ａ）は、実行マネージャモジュール１５３により生成され、実行マネージャモジュール１５３からパスルールに従って実行要請を受信し、実行要請に応じて動作（１４１ｂ、１４３ｂ）をアプリ（１４１、１４３）の動作を実行する。
実行サービス（１４１ａ、１４３ａ）は、動作（１４１ｂ、１４３ｂ）の実行が完了すると、完了情報を実行マネージャモジュール１５３へ送信する。

一実施形態によれば、アプリ（１４１、１４３）で複数の動作（１４１ｂ、１４３ｂ）が実行される場合、複数の動作（１４１ｂ、１４３ｂ）は順次に実行される。
実行サービス（１４１ａ、１４３ａ）は一つの動作（動作１）の実行が完了すると、次の動作（動作２）をオープンし、完了情報を実行マネージャモジュール１５３へ送信する。
ここで任意の動作をオープンするというのは、任意の動作を実行可能な状態に遷移させるか、任意の動作の実行を準備するものと理解され得る。
言い換えれば、任意の動作がオープンされなければ、当該動作は実行され得ない。
実行マネージャモジュール１５３は、完了情報が受信すると、次の動作（１４１ｂ、１４３ｂ）に対する実行要請を実行サービス（例：動作２）へ送信する。
一実施形態によれば、複数のアプリ（１４１、１４３）が実行される場合、複数のアプリ（１４１、１４３）は順次に実行される。
例えば、第１アプリ１４１の最後の動作が完了して完了情報を受信すると、実行マネージャモジュール１５３は第２アプリ１４３の最初の動作の実行要請を実行サービス１４３ａへ送信する。

一実施形態によれば、アプリ（１４１、１４３）で複数の動作（１４１ｂ、１４３ｂ）が実行された場合、実行された複数の動作（１４１ｂ、１４３ｂ）それぞれの実行による結果画面はディスプレイ１２０に表示される。
一実施形態によれば、実行された複数の動作（１４１ｂ、１４３ｂ）の実行による複数の結果画面のうち一部のみディスプレイ１２０に表示することもできる。

一実施形態によれば、メモリ１４０は、知能型エージェント１５１と連動した知能型アプリ（例：音声認識アプリ）を保存する。
知能型エージェント１５１と連動したアプリはユーザの発話を音声信号として受信して処理する。
一実施形態によれば、知能型エージェント１５１と連動したアプリは、入力モジュール１１０を介して入力される特定入力（例：ハードウェアキーを介した入力、タッチスクリーンを介した入力、特定の音声入力）により動作する。

一実施形態によれば、プロセッサ１５０は、ユーザ端末１００の全般的な動作を制御する。
例えば、プロセッサ１５０は、入力モジュール１１０を制御してユーザ入力を受信する。
プロセッサ１５０は、ディスプレイ１２０を制御してイメージを表示する。
プロセッサ１５０は、スピーカ１３０を制御して音声信号を出力する。
プロセッサ１５０は、メモリ１４０を制御して必要な情報を読み込むか、保存する。

一実施形態によれば、プロセッサ１５０は、知能型エージェント１５１、実行マネージャモジュール１５３又は知能型サービスモジュール１５５を含む。
一実施形態において、プロセッサ１５０は、メモリ１４０に保存されたコマンド語を実行して知能型エージェント１５１、実行マネージャモジュール１５３、又は知能型サービスモジュール１５５を駆動させる。
本発明の様々な実施形態で言及される各種のモジュールは、ハードウェアとして具現することもでき、ソフトウェアとして具現することもできる。
本発明の様々な実施形態において、知能型エージェント１５１、実行マネージャモジュール１５３、又は知能型サービスモジュール１５５により行われる動作は、プロセッサ１５０により行われる動作として理解され得る。

一実施形態によれば、知能型エージェント１５１は、ユーザ入力で受信した音声信号に基づいてアプリを動作させるコマンドを生成する。
一実施形態による、実行マネージャモジュール１５３は、知能型エージェント１５１から生成されたコマンドを受信してメモリ１４０に保存されたアプリ（１４１、１４３）を選択して実行させ、動作させる。
一実施形態によれば、知能型サービスモジュール１５５は、ユーザの情報を管理してユーザ入力を処理するのに用いる。

知能型エージェント１５１は、入力モジュール１１０を介して受信したユーザ入力を知能型サーバ２００へ送信して処理する。
一実施形態によれば、知能型エージェント１５１は、ユーザ入力を知能型サーバ２００へ送信する前に、ユーザ入力を前処理する。
一実施形態によれば、知能型エージェント１５１は、ユーザ入力を前処理するために、適応反響除去（ａｄａｐｔｉｖｅｅｃｈｏｃａｎｃｅｌｌｅｒ：ＡＥＣ）モジュール、ノイズ抑制（ｎｏｉｓｅｓｕｐｐｒｅｓｓｉｏｎ：ＮＳ）モジュール、終点検出（ｅｎｄ−ｐｏｉｎｔｄｅｔｅｃｔｉｏｎ：ＥＰＤ）モジュール又は自動利得制御（ａｕｔｏｍａｔｉｃｇａｉｎｃｏｎｔｒｏｌ：ＡＧＣ）モジュールを含むことができる。

適応反響除去部は、ユーザ入力に含まれたエコー（ｅｃｈｏ）を除去する。
ノイズ抑制モジュールは、ユーザ入力に含まれた背景雑音を抑制する。
終点検出モジュールは、ユーザ入力に含まれたユーザ音声の終点を検出してユーザの音声が存在する部分を探す。
自動利得制御モジュールは、ユーザ入力を認識して処理するのに適合するようにユーザ入力の音量を調節する。
一実施形態によれば、知能型エージェント１５１は、性能のために前処理構成をすべて含むことができるが、他の実施形態において、知能型エージェント１５１は低電力で動作するために前処理構成の一部を含むこともできる。

一実施形態によれば、知能型エージェント１５１は、ユーザの呼び出しを認識するウェイクアップ（ｗａｋｅｕｐ）認識モジュールを含み得る。
ウェイクアップ認識モジュールは、音声認識モジュールを介してユーザのウェイクアップコマンドを認識し、ウェイクアップコマンドを受信した場合、ユーザ入力を受信するために知能型エージェント１５１を活性化させる。
一実施形態によれば、知能型エージェント１５１のウェイクアップ認識モジュールは、低電力プロセッサ（例：オーディオコーデックに含まれたプロセッサ）に具現することができる。
一実施形態によれば、知能型エージェント１５１は、ハードウェアキーによるユーザ入力によって活性化される。
知能型エージェント１５１が活性化される場合、知能型エージェント１５１と連動した知能型アプリ（例：音声認識アプリ）が実行される。

一実施形態によれば、知能型エージェント１５１は、ユーザ入力を実行するための音声認識モジュールを含む。
音声認識モジュールは、アプリで動作を実行するようにするためのユーザ入力を認識する。
例えば、音声認識モジュールは、アプリ（１４１、１４３）でウェイクアップコマンドのような動作を実行する制限されたユーザ（音声）入力（例：カメラアプリが実行中のとき撮影動作を実行させる「パチリ」のような発話など）を認識する。
知能型サーバ２００を補助してユーザ入力を認識する音声認識モジュールは、例えば、ユーザ端末１００内で処理可能なユーザコマンドを認識して迅速に処理する。
一実施形態によれば、知能型エージェント１５１のユーザ入力を実行するための音声認識モジュールは、アプリプロセッサで具現され得る。

一実施形態によれば、知能型エージェント１５１の音声認識モジュール（ウェイクアップモジュールの音声認識モジュールを含む）は、音声を認識するためのアルゴリズムを用いてユーザ入力を認識する。
音声を認識するために使用されるアルゴリズムは、例えば、ＨＭＭ（ｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌ）アルゴリズム、ＡＮＮ（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）アルゴリズム、又はＤＴＷ（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ）アルゴリズムの内の少なくとも一つであり得る。

一実施形態によれば、知能型エージェント１５１は、ユーザの音声入力をテキストデータに変換する。
一実施形態によれば、知能型エージェント１５１は、ユーザの音声を知能型サーバ２００へ伝達して、変換されたテキストデータを受信する。
これにより、知能型エージェント１５１は、テキストデータをディスプレイ１２０に表示する。
一実施形態によれば、知能型エージェント１５１は、知能型サーバ２００から送信したパスルールを受信する。
一実施形態によれば、知能型エージェント１５１は、パスルールを実行マネージャモジュール１５３へ送信する。

一実施形態によれば、知能型エージェント１５１は、知能型サーバ２００から受信したパスルールによる実行結果ログ（ｌｏｇ）を知能型サービス（ｉｎｔｅｌｌｉｇｅｎｃｅｓｅｒｖｉｃｅ）モジュール１５５に送信し、送信された実行結果ログは、ペルソナモジュール（ｐｅｒｓｏｎａｍａｎａｇｅｒ）１５５ｂのユーザの選好（ｐｒｅｆｅｒｅｎｃｅ）情報に累積して管理される。

一実施形態によれば、実行マネージャモジュール１５３は、知能型エージェント１５１からパスルールを受信してアプリ（１４１、１４３）を実行させ、アプリ（１４１、１４３）がパスルールに含まれた動作（１４１ｂ、１４３ｂ）を実行するようにする。
例えば、実行マネージャモジュール１５３は、アプリ（１４１、１４３）へ動作（１４１ｂ、１４３）を実行するためのコマンド情報を送信し、アプリ（１４１、１４３）から動作（１４１ｂ、１４３ｂ）の完了情報を受信する。

一実施形態によれば、実行マネージャモジュール１５３は、知能型エージェント１５１とアプリ（１４１、１４３）との間でアプリ（１４１、１４３）の動作（１４１ｂ、１４３ｂ）を実行するためのコマンド情報を送受信する。
実行マネージャモジュール１５３は、パスルールに従って実行するアプリ（１４１、１４３）をバインディング（ｂｉｎｄｉｎｇ）し、パスルールに含まれた動作（１４１ｂ、１４３ｂ）のコマンド情報をアプリ（１４１、１４３）へ送信する。
例えば、実行マネージャモジュール１５３は、パスルールに含まれた動作（１４１ｂ、１４３ｂ）を順次にアプリ（１４１、１４３）へ送信して、アプリ（１４１、１４３）の動作（１４１ｂ、１４３ｂ）をパスルールに従って順次に実行させる。

一実施形態によれば、実行マネージャモジュール１５３は、アプリ（１４１、１４３）の動作（１４１ｂ、１４３ｂ）の実行状態を管理する。
例えば、実行マネージャモジュール１５３は、アプリ（１４１、１４３）から動作（１４１ｂ、１４３ｂ）の実行状態に対する情報を受信する。
動作（１４１ｂ、１４３ｂ）の実行状態が、例えば、停止された状態（ｐａｒｔｉａｌｌａｎｄｉｎｇ）の場合（例：動作（１４１ｂ、１４３ｂ）に必要なパラメータが入力されなかった場合）、実行マネージャモジュール１５３は、停止された状態に対する情報を知能型エージェント１５１へ送信する。
知能型エージェント１５１は、受信した情報を用いて、ユーザに必要な情報（例：パラメータ情報）の入力を要請する。

動作（１４１ｂ、１４３ｂ）の実行状態が、他の例を挙げれば、動作状態の場合にユーザから発話を受信することができ、実行マネージャモジュール１５３は実行されているアプリ（１４１、１４３）及びアプリ（１４１、１４３）の実行状態に対する情報を知能型エージェント１５１へ送信する。
知能型エージェント１５１は、知能型サーバ２００を介してユーザの発話のパラメータ情報を受信し、受信したパラメータ情報を実行マネージャモジュール１５３へ送信する。
実行マネージャモジュール１５３は、受信したパラメータ情報を用いて動作（１４１ｂ、１４３ｂ）のパラメータを新たなパラメータに変更する。

一実施形態によれば、実行マネージャモジュール１５３はパスルールに含まれたパラメータ情報をアプリ１４１、１４３へ伝達することができる。前記パスルールに従って複数のアプリ１４１、１４３が順次に実行される場合、実行マネージャモジュール１５３は一つのアプリから他のアプリへパスルールに含まれたパラメータ情報を伝達することができる。

一実施形態によれば、実行マネージャモジュール１５３は、複数のパスルールを受信する。
実行マネージャモジュール１５３は、ユーザの発話に基づいて複数のパスルールを選択する。
例えば、実行マネージャモジュール１５３は、ユーザの発話が一部の動作１４１ａを実行する一部のアプリ１４１を特定するが、残りの動作１４３ｂを実行する他のアプリ１４３を特定しなかった場合、一部の動作１４１ａを実行する同一のアプリ１４１（例：ギャラリーアプリ）が実行され、残りの動作１４３ｂを実行可能な相異なるアプリ１４３（例：メッセージアプリ、テレグラムアプリ）がそれぞれ実行される相異なる複数のパスルールを受信する。
実行マネージャモジュール１５３は、例えば、複数のパスルールの同一の動作（１４１ｂ、１４３ｂ）（例：連続した同一の動作（１４１ｂ、１４３ｂ））を実行する。
実行マネージャモジュール１５３は、同一の動作まで実行した場合、複数のパスルールにそれぞれ含まれた相異なるアプリ（１４１、１４３）を選択可能な状態画面としてディスプレイ１２０に表示する。

一実施形態によれば、知能型サービスモジュール１５５は、コンテキストモジュール１５５ａ、ペルソナモジュール１５５ｂ、又は提案モジュール１５５ｃを含み得る。
コンテキストモジュール１５５ａは、アプリ（１４１、１４３）からアプリ（１４１、１４３）の現在の状態を収集する。
例えば、コンテキストモジュール１５５ａは、アプリ（１４１、１４３）の現在の状態を示すコンテキスト情報を受信してアプリ（１４１、１４３）の現在の状態を収集する。

ペルソナモジュール１５５ｂは、ユーザ端末１００を使用するユーザの個人情報を管理する。
例えば、ペルソナモジュール１５５ｂは、ユーザ端末１００の使用情報及び実行結果を収集してユーザの個人情報を管理する。
提案モジュール１５５ｃは、ユーザの意図を予測してユーザにコマンドを推薦する。
例えば、提案モジュール１５５ｃは、ユーザの現在の状態（例：時間、場所、状況、アプリ）を考慮してユーザにコマンドを推薦する。

図３は、本発明の一実施形態によるユーザ端末の知能型アプリを実行しているところを示す図である。
図３を参照すると、ユーザ端末１００がユーザ入力を受信して知能型エージェント１５１と連動した知能型アプリ（例：音声認識アプリ）を実行しているところを示すものである。

一実施形態によれば、ユーザ端末１００は、ハードウェアキー１１２を介して音声を認識するための知能型アプリを実行させる。
例えば、ユーザ端末１００は、ハードウェアキー１１２を介してユーザ入力を受信した場合、ディスプレイ１２０に知能型アプリのＵＩ（ｕｓｅｒｉｎｔｅｒｆａｃｅ）１２１を表示する。
ユーザは、例えば、知能型アプリのＵＩ１２１がディスプレイ１２０に表示された状態で音声を入力１１１ｂするために知能型アプリのＵＩ１２１に音声認識ボタン１２１ａをタッチする。
ユーザは、他の例を挙げれば、音声を入力１１１ｂするためにハードウェアキー１１２を持続的に押して音声を入力１１１ｂすることができる。

一実施形態によれば、ユーザ端末１００は、マイク１１１を介して音声を認識するための知能型アプリを実行させる。
例えば、ユーザ端末１００は、マイク１１１を介して指定された音声（例：起きてよ！（ｗａｋｅｕｐ！）が入力１１１ａされた場合、ディスプレイ１２０に知能型アプリのＵＩ１２１を表示する。

図４は、本発明の一実施形態による統合知能化システムの知能型サーバの概略構成を示すブロック図である。
図４を参照すると、知能型サーバ２００は、自動音声認識（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）モジュール２１０、自然言語理解（ｎａｔｕｒａｌｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ：ＮＬＵ）モジュール２２０、パスプランナー（ｐａｔｈｐｌａｎｎｅｒ）モジュール２３０、対話マネージャ（ｄｉａｌｏｇｕｅｍａｎａｇｅｒ：ＤＭ）モジュール２４０、自然言語生成（ｎａｔｕｒａｌｌａｎｇｕａｇｅｇｅｎｅｒａｔｏｒ：ＮＬＧ）モジュール２５０、又はテキスト音声変換（ｔｅｘｔｔｏｓｐｅｅｃｈ：ＴＴＳ）モジュール２６０を含み得る。

知能型サーバ２００の自然言語理解モジュール２２０又はパスプランナーモジュール２３０は、パスルール（ｐａｔｈｒｕｌｅ）を生成する。
一実施形態によれば、自動音声認識（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）モジュール２１０は、ユーザ端末１００から受信したユーザ入力をテキストデータに変換する。
一実施形態によれば、自動音声認識モジュール２１０は、ユーザ端末１００から受信したユーザ入力をテキストデータに変換する。

例えば、自動音声認識モジュール２１０は、発話認識モジュールを含み得る。
発話認識モジュールは、音響（ａｃｏｕｓｔｉｃ）モデル及び言語（ｌａｎｇｕａｇｅ）モデルを含み得る。
例えば、音響モデルは発声に関連した情報を含み、言語モデルは単位音素情報及び単位音素情報の組み合わせに対する情報を含む。
発話認識モジュールは、発声に関連した情報及び単位音素情報に対する情報を用いてユーザ発話をテキストデータに変換する。
音響モデル及び言語モデルに対する情報は、例えば、自動音声認識データベース（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｄａｔａｂａｓｅ：ＡＳＲＤＢ）２１１に保存される。

一実施形態によれば、自然言語理解モジュール２２０は、文法的分析（ｓｙｎｔａｃｔｉｃａｎａｌｙｚｅ）又は意味的分析（ｓｅｍａｎｔｉｃａｎａｌｙｚｅ）を行ってユーザの意図を把握する。
文法的分析は、ユーザ入力を文法的単位（例：単語、句、形態素など）に分けて、分けられた単位がどのような文法的な要素を有するのか把握する。
意味的分析は、意味（ｓｅｍａｎｔｉｃ）マッチング、ルール（ｒｕｌｅ）マッチング、フォーミュラ（ｆｏｒｍｕｌａ）マッチングなどを用いて行う。
これにより、自然言語理解モジュール２２０は、ユーザ入力が、あるドメイン、意図（ｉｎｔｅｎｔ）、又は意図を表現するのに必要なパラメータ（ｐａｒａｍｅｔｅｒ）（又は、スロット（ｓｌｏｔ））を取得する。

一実施形態によれば、自然言語理解モジュール２２０は、ドメイン（ｄｏｍａｉｎ）、意図（ｉｎｔｅｎｄ）、及び意図を把握するのに必要なパラメータ（ｐａｒａｍｅｔｅｒ）（又は、スロット（ｓｌｏｔ））に分けられたマッチングルールを用いてユーザの意図及びパラメータを決定する。
例えば、一つのドメイン（例：アラーム）は、複数の意図（例：アラーム設定、アラーム解除など）を含み得、一つの意図は、複数のパラメータ（例：時間、繰り返し回数、アラーム音など）を含み得る。
複数のルールは、例えば、一つ以上の必須要素パラメータを含む。
マッチング規則は、自然言語理解データベース（ｎａｔｕｒａｌｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇｄａｔａｂａｓｅ：ＮＬＵＤＢ）２２１に保存される。

一実施形態によれば、自然言語理解モジュール２２０は、形態素、句などの言語的特徴（例：文法的要素）を用いてユーザ入力から抽出された単語の意味を把握し、把握された単語の意味をドメイン及び意図にマッチングさせてユーザの意図を決定する。
例えば、自然言語理解モジュール２２０は、それぞれのドメイン及び意図にユーザ入力から抽出された単語がどれだけ含まれているかを計算してユーザの意図を決定する。
一実施形態によれば、自然言語理解モジュール２２０は、意図を把握するのに基となった単語を用いてユーザ入力のパラメータを決定する。
一実施形態によれば、自然言語理解モジュール２２０は、ユーザ入力の意図を把握するための言語的特徴が保存された自然言語認識データベース２２１を用いてユーザの意図を決定する。
他の実施形態によれば、自然言語理解モジュール２２０は、個人化言語モデル（ｐｅｒｓｏｎａｌｌａｎｇｕａｇｅｍｏｄｅｌ：ＰＬＭ）を用いてユーザの意図を決定する。
例えば、自然言語理解モジュール２２０は、個人化された情報（例：連絡先リスト、音楽リスト）を用いてユーザの意図を決定する。
個人化言語モデルは、例えば、自然言語理解データベース２２１に保存され得る。
一実施形態によれば、自然言語理解モジュール２２０のみならず、自動音声認識モジュール２１０も自然言語認識データベース２２１に保存された個人化言語モデルを参考としてユーザの音声を認識することができる。

一実施形態によれば、自然言語理解モジュール２２０は、ユーザ入力の意図及びパラメータに基づいてパスルールを生成する。
例えば、自然言語理解モジュール２２０は、ユーザ入力の意図に基づいて実行されるアプリを選択し、選択されたアプリで実行される動作を決定する。
自然言語理解モジュール２２０は、決定された動作に対応するパラメータを決定してパスルールを生成する。
一実施形態によれば、自然言語理解モジュール２２０により生成されたパスルールは、実行されるアプリ、アプリで実行される動作及び動作を実行するのに必要なパラメータに対する情報を含み得る。

一実施形態によれば、自然言語理解モジュール２２０は、ユーザ入力の意図及びパラメータをベースとしたパスルール、又は複数のパスルールを生成する。
例えば、自然言語理解モジュール２２０は、パスプランナーモジュール２３０からユーザ端末１００に対応するパスルールセットを受信し、ユーザ入力の意図及びパラメータを受信したパスルールセットにマッピングさせてパスルールを決定する。

他の実施形態によれば、自然言語理解モジュール２２０は、ユーザ入力の意図及びパラメータに基づいて実行されるアプリ、アプリで実行される動作、及び動作を実行するのに必要なパラメータを決定して一つのパスルール、又は複数のパスルールを生成する。
例えば、自然言語理解モジュール２２０は、ユーザ端末１００の情報を用いて実行されるアプリ及びアプリで実行される動作をユーザ入力の意図によってオントロジー（ｏｎｔｏｌｏｇｙ）又はグラフモデル（ｇｒａｐｈｍｏｄｅｌ）形態に配列してパスルールを生成する。
生成されたパスルールは、例えば、パスプランナーモジュール２３０を介してパスルールデータベース（ｐａｔｈｒｕｌｅｄａｔａｂａｓｅ：ＰＲＤＢ）２３１に保存される。
生成されたパスルールは、パスルールデータベース２３１のパスルールセットに追加される。

一実施形態によれば、自然言語理解モジュール２２０は、生成された複数のパスルールの内の少なくとも一つのパスルールを選択する。
例えば、自然言語理解モジュール２２０は、複数のパスルールの内の最適のパスルールを選択する。
他の例を挙げれば、自然言語理解モジュール２２０は、ユーザの発話に基づいて一部の動作のみが特定された場合、複数のパスルールを選択することができる。
自然言語理解モジュール２２０は、ユーザの追加入力により複数のパスルールの内の一つのパスルールを決定することができる。

一実施形態によれば、自然言語理解モジュール２２０は、ユーザ入力に対する要請でパスルールをユーザ端末１００へ送信する。
例えば、自然言語理解モジュール２２０は、ユーザ入力に対応する一つのパスルールをユーザ端末１００へ送信する。
他の例を挙げれば、自然言語理解モジュール２２０は、ユーザ入力に対応する複数のパスルールをユーザ端末１００へ送信することができる。
複数のパスルールは、例えば、ユーザの発話に基づいて一部の動作のみが特定された場合、自然言語理解モジュール２２０により生成することができる。

一実施形態によれば、パスプランナーモジュール２３０は、複数のパスルールの内の少なくとも一つのパスルールを選択する。
一実施形態によれば、パスプランナーモジュール２３０は、自然言語理解モジュール２２０へ複数のパスルールを含むパスルールセットを伝達する。
パスルールセットの複数のパスルールは、パスプランナーモジュール２３０に接続されたパスルールデータベース２３１にテーブル形態に保存される。
例えば、パスプランナーモジュール２３０は、知能型エージェント１５１から受信したユーザ端末１００の情報（例：ＯＳ情報、アプリ情報）に対応するパスルールセットを自然言語理解モジュール２２０へ伝達する。
パスルールデータベース２３１に保存されたテーブルは、例えば、ドメイン又はドメインのバージョン別に保存される。

一実施形態によれば、パスプランナーモジュール２３０は、パスルールセットから一つのパスルール、又は複数のパスルールを選択して自然言語理解モジュール２２０へ伝達する。
例えば、パスプランナーモジュール２３０は、ユーザの意図及びパラメータをユーザ端末１００に対応するパスルールセットにマッチングして一つのパスルール、又は複数のパスルールを選択して自然言語理解モジュール２２０へ伝達する。

一実施形態によれば、パスプランナーモジュール２３０は、ユーザの意図及びパラメータを用いて一つのパスルール、又は複数のパスルールを生成する。
例えば、パスプランナーモジュール２３０は、ユーザの意図及びパラメータに基づいて実行されるアプリ及びアプリで実行される動作を決定して一つのパスルール、又は複数のパスルールを生成する。
一実施形態によれば、パスプランナーモジュール２３０は、生成されたパスルールをパスルールデータベース２３１に保存する。
一実施形態によれば、パスプランナーモジュール２３０は、自然言語理解モジュール２２０で生成されたパスルールをパスルールデータベース２３１に保存する。
生成されたパスルールは、パスルールデータベース２３１に保存されたパスルールセットに追加される。

一実施形態によれば、パスルールデータベース２３１に保存されたテーブルには複数のパスルール又は複数のパスルールセットを含み得る。
複数のパスルール又は複数のパスルールセットは、各パスルールを行う装置の種類、バージョン、タイプ、又は特性を反映することができる。

一実施形態によれば、対話マネージャモジュール２４０は、自然言語理解モジュール２２０により把握されたユーザの意図が明確であるかどうかを判断する。
例えば、対話マネージャモジュール２４０は、パラメータの情報が十分であるかどうかに基づいてユーザの意図が明確であるかどうかを判断する。
対話マネージャモジュール２４０は、自然言語理解モジュール２２０で把握されたパラメータがタスクを行うのに十分であるかどうかを判断する。
一実施形態によれば、対話マネージャモジュール２４０は、ユーザの意図が明確でない場合、ユーザに必要な情報を要請するフィードバックを行う。
例えば、対話マネージャモジュール２４０は、ユーザの意図を把握するためのパラメータに対する情報を要請するフィードバックを行う。

一実施形態によれば、対話マネージャモジュール２４０は、コンテンツ提供（ｃｏｎｔｅｎｔｐｒｏｖｉｄｅｒ）モジュールを含み得る。
コンテンツ提供モジュールは、自然言語理解モジュール２２０で把握された意図及びパラメータに基づいて動作を行うことができる場合、ユーザ入力に対応するタスクを行なった結果を生成する。
一実施形態によれば、対話マネージャモジュール２４０は、ユーザ入力に対する応答としてコンテンツ提供モジュールで生成された結果をユーザ端末１００へ送信する。

一実施形態によれば、自然言語生成モジュール（ＮＬＧ）２５０は、指定された情報をテキスト形態に変更する。
テキスト形態に変更された情報は、自然言語の発話の形態であり得る。
指定された情報は、例えば、追加入力に対する情報、ユーザ入力に対応される動作の完了を案内する情報、又はユーザの追加入力を案内する情報（例：ユーザ入力に対するフィードバック情報）であり得る。
テキスト形態に変更された情報は、ユーザ端末１００へ送信されてディスプレイ１２０に表示されるか、テキスト音声変換モジュール２６０へ送信されて音声形態に変更される。

一実施形態によれば、テキスト音声変換モジュール２６０は、テキスト形態の情報を音声形態の情報に変更する。
テキスト音声変換モジュール２６０は、自然言語生成モジュール２５０からテキスト形態の情報を受信し、テキスト形態の情報を音声形態の情報に変更してユーザ端末１００へ送信する。
ユーザ端末１００は、音声形態の情報をスピーカ１３０へ出力する。

一実施形態によれば、自然言語理解モジュール２２０、パスプランナーモジュール２３０、及び対話マネージャモジュール２４０は、一つのモジュールとして具現することができる。
例えば、自然言語理解モジュール２２０、パスプランナーモジュール２３０、及び対話マネージャモジュール２４０は、一つのモジュールとして具現され、ユーザの意図及びパラメータを決定し、決定されたユーザの意図及びパラメータに対応する応答（例：パスルール）を生成する。
これにより、生成された応答は、ユーザ端末１００へ送信される。

図５は、本発明の一実施形態による音声認識サービスを提供する知能化システムの概略構成を示すブロック図である。
図５を参照すると、一実施形態によるシステム５００は、タッチスクリーンディスプレイ５３１、無線通信回路５１１、マイク５３３、及びスピーカ５３５を含む電子装置５１０を含む。
システム５００は、電子装置５１０の一部であるか、電子装置５１０と遠隔で通信する少なくとも一つのプロセッサ（５１０、５６０）及び少なくとも一つのプロセッサ（５１０、５６０）と動作可能に接続される間、電子装置５１０上に、又は電子装置５１０の外部に常駐する少なくとも一つのメモリ（５２０、５７０）を含み得る。

一実施形態において、システム５００は、音声認識サービスを提供する。
例えば、システム５００は、ユーザから発話を受信し、発話に対応するユーザの意図を把握することができる。
システム５００は、ユーザの意図に合致する特定の機能を行う。
システム５００は、発話が受信すると、発話にマッピングされ、予め保存されたコマンドを行う。

一実施形態において、システム５００は個人化された音声コマンドを提供することができる。例えば、システム５００はユーザにより定義されたタスクと前記タスクにマッピングされた発話を保存することができる。システム５００は前記発話を受信すると、ユーザにより定義されたタスクを行うことができる。

システム５００の例を挙げれば、システム５００は、電子装置５１０（例：図２のユーザ端末１００）及びサーバ５５０（例：図４の知能型サーバ２００）を含み得る。
一実施形態において、電子装置５１０は、無線通信回路５１１、メモリ５２０、タッチスクリーンディスプレイ５３１、マイク５３３、スピーカ５３５、及びプロセッサ５１２を含み得る。

一実施形態において、プロセッサ５１２は、メモリ５２０に保存されたコマンド語を実行してタスク実行モジュール５１３、アクセシビリティサービスモジュール５１５、又は記録モジュール５１７、音声秘書モジュール５１９を駆動させる。
本発明の様々な実施形態で言及される各種のモジュールは、ハードウェアとして具現することもでき、ソフトウェアとして具現することもできる。
本発明の様々な実施形態において、タスク実行モジュール５１３、アクセシビリティサービスモジュール５１５、又は記録モジュール５１７により行われる動作は、プロセッサ５１２により行われる動作として理解され得る。

一実施形態において、音声秘書モジュール５１９は、音声認識サービスを提供する。
例えば、音声秘書モジュール５１９は、音声認識サービスの提供のために必要なインタフェースを電子装置のタッチスクリーンディスプレイ５３１を介して表示する。
音声秘書モジュール５１９は、音声認識の結果としてユーザのコマンドに対応する結果画面をタッチスクリーンディスプレイ５３１を介して提供する。

一実施形態において、タスク実行モジュール５１３は、電子装置５１０又は電子装置５１０に保存された特定のアプリケーションでサポートする機能を実行する。
例えば、タスク実行モジュール５１３は、タッチ又は音声ベースのユーザの入力を受信すると、受信したユーザ入力に対応するタスクを行う。
電子装置５１０は、マイク５３３を介してユーザから音声入力を受信し、タッチスクリーンディスプレイ５３１を介してユーザからタッチベースのユーザ入力を受信する。
例えば、受信したユーザ入力は、特定のアプリケーションの動作を誘発する。

一実施形態において、アクセシビリティサービスモジュール５１５は、電子装置５１０に表示された画面の内容を読み上げるＴＴＳ（ｔｅｘｔｔｏｓｐｅｅｃｈ）及び振動を用いた通知を提供するハプティックフィードバック（ｈａｐｔｉｃｆｅｅｄｂａｃｋ）などのような機能を提供することができる。
アクセシビリティサービスモジュール５１５は、例えば、グーグル（登録商標）のアンドロイド（登録商標）のフレームワークで提供するモジュールであり得る。
アクセシビリティサービスモジュール５１５は、画面に含まれたオブジェクトの属性及び内容などを認識し、認識されたオブジェクトを操作する。

例えば、アクセシビリティサービスモジュール５１５は、画面をクローリング（ｃｒａｗｌｉｎｇ）することにより、画面に含まれたオブジェクトを認識する。
アクセシビリティサービスモジュール５１５は、認識されたオブジェクトに入力が印加される時に実行される動作を認識する。
アクセシビリティサービスモジュール５１５は、該当する動作を実行するための入力方式（例：タップ、ロングタップ、ダブルタップ、スクロール、ドラッグ、又はフリックなど）も認識することができる。
アクセシビリティサービスモジュール５１５は、タスク実行モジュール５１３により実行されるタスクに動作（例：アクション）を注入する。
例えば、タスク実行モジュール５１３がステートを知能型サーバ５５０から受信すると、アクセシビリティサービスモジュール５１５はステートを実行するためのオブジェクトを識別し、オブジェクトに動作を注入する。
例えば、アクセシビリティサービスモジュール５１５は、ステートを実行するための入力方式としてユーザが直接入力を印加するものと類似して仮想のユーザ入力を注入することができる。

タスク実行モジュール５１３により実行されたアプリケーション５２２は、アクセシビリティサービスモジュール５１５により制御される。
図５では、電子装置５１０が１つのアプリケーション５２２を保存するものとして示したが、これに制限されず、電子装置５１０は、複数個のアプリケーションを保存することもできる。

タスク実行モジュール５１３により実行されたアプリケーション５２２にアクションが注入されると、電子装置６００に表示された画面はアップデートされる。
アクセシビリティサービスモジュール５１５は、画面がアップデートされると、イベントが発生したと判断し、発生したイベントをタスク実行モジュール５１３へ伝達する。
アクセシビリティサービスモジュール５１５は、アップデートされた画面に含まれたオブジェクトの属性及び内容などを認識する。
アクセシビリティサービスモジュール５１５は、オブジェクトの属性及び内容などをタスク実行モジュール５１３へ伝達する。

タスク実行モジュール５１３はイベントが伝達されると、受信したステートの実行が完了したかどうかを判断する。
ステートの実行が完了すると、タスク実行モジュール５１３は、実行マネージャ（例：図２の実行マネージャモジュール１５３）へ結果をリターンする。
一実施形態において、知能型サーバ５５０は、電子装置５１０にステートを送信する。
電子装置５１０は受信したステートを行う。
一実施形態において、知能型サーバ５５０は、ユーザにより定義されたタスクに対応するステートを電子装置５１０へ送信する。
ユーザ入力のシーケンスは、ユーザにより定義されたタスクを行うために必要なユーザ入力を含み得る。
例えば、知能型サーバ５５０は、ユーザ入力のシーケンスを受信し、シーケンスと関連したルール（ｒｕｌｅ）を生成又は選択する。
例えば、ルールは、図４のパスルールから選択されるか、パスルールと同一又は類似の形式で生成される。

一実施形態において、ルールは、ユーザのコマンドに対応する動作を行うための一つ以上のステート（ｓｔａｔｅ）及び一つ以上のステートを行うために必要なパラメータに対する情報を含み得る。
ルールは、ルールが複数のステートを含む場合、ステートの手順に対する情報を含み得る。
電子装置（ユーザ端末）５１０は、ルールを受信し、ルールに基づいてアプリケーションを選択し、選択されたアプリケーションを制御することにより、ルールに含まれたステートを行う。
例えば、電子装置（ユーザ端末）５１０はステートを行い、ステートを行った画面をタッチスクリーンディスプレイ５３１に表示する。

図６ａは、本発明の一実施形態による電子装置に保存されたタスク実行モジュールの概略構成を示すブロック図である。
図６ａを参照すると、一実施形態によるタスク実行モジュール５１３は、ステート受信器５４１、画面探知器５４３、入力注入器５４５、及び結果モニタ５４７を含み得る。

タスク実行モジュール５１３は、図５に示したタスク実行モジュール５１３として参照され得る。
ステート受信器５４１、画面探知器５４３、入力注入器５４５、結果モニタ５４７により行われるものとして説明した動作は、電子装置５１０のプロセッサ５１２により実行される。
ステート受信器５４１は、ルールに含まれたステートを受信する。
ルールは、知能型サーバ５５０（例：図４の知能型サーバ３００）から受信する。
例えば、知能型サーバ５５０から電子装置５１０のステートのシーケンスを受信する。

画面探知器５４３は、電子装置５１０のタッチスクリーンディスプレイ５３１に表示された画面を探知する。
画面探知器５４３は、ステートを行う前に画面を探知する。
画面探知器５４３は、アクセシビリティサービスモジュール５１５から画面に含まれたオブジェクトに対する情報を受信する。
画面探知器５４３は、アクセシビリティサービスモジュール５１５から受信した情報に基づいて当該ステートを行うことができるかどうかを確認する。

入力注入器５４５は、ステート受信器５４１により受信したステートに対応するアクションを決定する。
入力注入器５４５は、例えば、ステートを行うためのオブジェクト及びオブジェクトに対する入力方式を決定する。

結果モニタ５４７は、電子装置５１０のタッチスクリーンディスプレイ５３１に表示された画面を探知する。
結果モニタ５４７は、ステートを行った後、アップデートされた画面を探知する。
結果モニタ５４７は、アクセシビリティサービスモジュール５１５からアップデートされた画面に含まれたオブジェクトに対する情報を受信する。
結果モニタ５４７は、アクセシビリティサービスモジュール５１５から受信した情報に基づいてステートの実行が完了したかどうかを確認する。
結果モニタ５４７は、実行結果をタスク実行モジュール５１３又は知能型サーバ５５０へリターンする。

タスク実行モジュール５１３は、電子装置５１０に設置されたアプリケーションの内の一つを実行させ、アプリケーションのタスクを行う。
タスク実行モジュール５１３は、アプリケーションがアップデートされると、共にアップデートされる。
アップデートされたタスク実行モジュール５１３は、外部装置（例：知能型サーバ５５０）から受信され得る。

図６ｂは、本発明の一実施形態による電子装置に保存された記録モジュールの概略構成を示すブロック図である。
図６ｂを参照すると、本発明の一実施形態による記録モジュール５１７は、情報収集器（ｉｎｆｏｒｍａｔｉｏｎｃｏｌｌｅｃｔｏｒ）５５１、ルール変換器（ｒｕｌｅｃｏｎｖｅｒｔｅｒ）５５３、ルール確認モジュール５５５を含む。

情報収集器５５１は、電子装置５１０で取得されるタッチやボタン入力を含むユーザの入力情報と電子装置５１０の変動情報（例：アプリケーションの画面切り替えなど）を収集する。
ユーザの入力情報は、例えば、ユーザのタッチ、ドラッグ、クリックなどが入力される画面の座標情報、特定機能の実行、物理ボタンの押え、入力されたテキストなどが挙げられる。
変動情報は、例えば、アプリケーションの「ＲｅｓｏｕｒｃｅＩＤ」の変動の有無、タスク実行モジュール５１３から発生する様々な情報を含み得る。

ルール変換器５５３は、情報収集器５５１により収集された情報に基づき、タスクを行うことができる形態に変換する。
例えば、ルール変換器５５３は、収集された情報を知能型サーバ２００（例：図１の知能型サーバ２００）で使用されるパスルールのように、ステートとパラメータを含む形態のデータに変換する。
他の例を挙げれば、ルール変換器５５３は、特定のページやイメージ、アプリの特定動作への接続をベースとしたディープリンク（ｄｅｅｐｌｉｎｋ）が存在すれば、当該ディープリンクと当該リンクに含まれるデータ形態に変換する。
また他の例を挙げれば、ルール変換器５５３は、オントロジー（ｏｎｔｏｌｏｇｙ）ベースのカプセル（ｃａｐｓｕｌｅ）を使用するアクションオブジェクト（ａｃｔｉｏｎｏｂｊｅｃｔ）形態に変換することもできる。

様々な実施形態によれば、カプセルは、コンセプトオブジェクト（ｃｏｎｃｅｐｔｏｂｊｅｃｔ）、アクションオブジェクト（ａｃｔｉｏｎｏｂｊｅｃｔ）を含み得る。
コンセプトオブジェクト（ｃｏｎｃｅｐｔｏｂｊｅｃｔ）は、例えば、「レストラン」のような現実世界のＥｎｔｉｔｙモデルであるか、「レストラン」、「時間」、「予約」のようなＥｎｔｉｔｙなどの結合である。
また、コンセプトオブジェクト（ｃｏｎｃｅｐｔｏｂｊｅｃｔ）は、コンセプトオブジェクトが有し得る値のクラスに対する定義の形態となり得る。
例えば、インテジャータイプ（ｉｎｔｅｇｅｒｔｙｐｅ）、ストリングタイプ（ｓｔｒｉｎｇｔｙｐｅ）などのようなタイプを有し得る。
コンセプトオブジェクト（ｃｏｎｃｅｐｔｏｂｊｅｃｔ）は、タスク単位（ａｔｏｍｉｃｕｎｉｔｏｆｗｏｒｋ）のモデルであって外部従属性を入力（ｉｎｐｕｔ）として有し、事前に決定されたタイプの出力を有する。

アクションオブジェクト（ａｃｔｉｏｎｏｂｊｅｃｔ）は、あるタスクを行うことができる演算に対する定義の形態となり得る。
例えば、ジャバスクリプトの「ｆｕｎｃｔｉｏｎｓ」、「ｍｅｔｈｏｄｓ」、「ｉｎｔｅｒｆａｃｅ」のような形態を有し得る。
ルール変換器５５３により変換されたデータは、音声秘書モジュール５１９により行われ得、ストレージ５２５に保存され得る。

ルール確認モジュール５５５は、ルール変換器５５３により生成されたデータが電子装置５１０により動作するかどうかを確認する。
ルール確認モジュール５５５は、様々な方法を通じて動作の有無を確認することができる。
例えば、ルール確認モジュール５５５は、最終目標とするアプリケーションの画面状態を確認したり、データの実行中間の過程を確認することができる。

様々な実施形態において、ルール確認モジュール５５５は、ルール変換器５５３により生成されたデータを最適化する。
例えば、ユーザにより生成されたデータがユーザの５段階の入力からなる場合、ルール確認モジュール５５５は、データを４段階あるいは３段階に減らすルートがあるかどうかを確認する。
ルール確認モジュール５５５は、当該ルートを発見した場合、データを交替する。
他の例を挙げれば、ルール確認モジュール５５５は、ディープリンクのように直ぐに最終目標にアクセスできる方法があれば、当該方法にデータを変更することもできる。

図６ｃは、本発明の他の実施形態による電子装置に保存されたタスク実行モジュールの概略構成を示すブロック図である。
図６ｃを参照すると、本発明の他の実施形態において、タスク実行モジュール５１６は図６ａのタスク実行モジュール５１３と異なるように構成される。
例えば、行おうとするタスクがディープリンクあるいはＶｉｖカプセルである場合、タスク実行モジュール５１６は、パラメータを含む関数の実行を介してタスクを行う。
タスク実行モジュール５１６は、関数呼出器５６１、パラメータ作成器５６３、確認モジュール５６５を含み得る。

関数呼出器５６１は、行おうとするタスクに対応するアクション又は関数を行うモジュールとして参照され得る。
ユーザ発話に対応するルールが選択され、選択されたＲｕｌｅに対応する関数が定義されている場合、関数呼出器５６１は定義された関数を行う。

パラメータ作成器（ｐａｒａｍｅｔｅｒｔａｇｇｅｒ）５６３は、関数呼出器５６１が関数を行うために必要なパラメータを伝達する。
パラメータ作成器５６３は、ユーザ発話に対応する関数に必要なパラメータを保存する。

確認モジュール５６５は、タスク実行モジュール５１３を介して行ったルールが正常に行われたかどうかを判断する。
例えば、確認モジュール５６５は、行われた関数が最初に登録された時に行われた結果と現在行われた結果とを比較する。
例えば、確認モジュール５６５は、関数の結果画面のスクリーンＩＤを比較する。
確認モジュール５６５は、呼び出した関数の種類（例：ディープリンク、Ｖｉｖカプセル）によってそのリターン値を介して関数の実行を確認する。

図７は、本発明の一実施形態による個人化されたコマンドを生成する方法を説明するためのフローチャートである。
図７を参照すると、本発明の一実施形態によるシステムにより行われる個人化されたコマンドを生成する方法は、ステップＳ７１０〜ステップＳ７４０を含む。

ステップＳ７１０〜ステップＳ７４０は、例えば、図５に示したシステム５００により行われる。
ステップＳ７１０〜ステップＳ７４０の各ステップは、例えば、システム５００の少なくとも一つのプロセッサ（５１２、５６０）により行う（あるいは、実行）ことができるインストラクション（コマンド語）で具現することができる。
インストラクションは、例えば、コンピュータ記録媒体又は図５に示したシステム５００の少なくとも一つのメモリ（５２０、５７０）に保存される。
以下では、ステップＳ７１０〜ステップＳ７４０の説明に図５の説明と重複した説明は省略する。

ステップＳ７１０において、システム５００は、第１ユーザ入力を受信する。
例えば、システム５００は、タッチスクリーンディスプレイ５３１又はマイク５３３を介して第１ユーザ入力を受信する。

様々な実施形態において、システム５００は、個人化されたコマンドを生成可能とするインタフェースをサポートすることができる。
例えば、システム５００は、第１ユーザ入力に応答して個人化された音声コマンドを生成するための第１モードを実行する。
例えば、第１ユーザ入力は、インタフェースの実行のためのユーザ入力として参照され得る。
例えば、ユーザは、インタフェース実行のためのボタン（例：ｒｅｃｏｄｉｎｇボタン）をタッチする。
又は、ユーザは、インタフェースの実行のための発話（例：コマンド生成）を入力する。

ステップＳ７２０において、システム５００は、第１ユーザ入力を受信した後に、タッチ及び／又は音声ベースのユーザ入力のシーケンスをタッチスクリーンディスプレイ５３１又はマイク５３３を介して受信する。
システム５００は、シーケンスをメモリ（５２０、５７０）に保存する。
例えば、シーケンスをメモリ（５２０、５７０）に保存する動作は、ユーザのアクションを録画する動作として参照され得る。

様々な実施形態において、ユーザは、個人化されたタスクを生成することができる。
例えば、ユーザは、保存しようとする複数の入力を行う。
システム５００は、複数の入力のシーケンスを受信し、それを保存する。
保存されたシーケンスは、ユーザの個人化されたタスクに対応し得る。
例えば、ユーザは、保存しようとするタスクをタッチ動作を介して行う。

様々な実施形態において、電子装置５１０のタッチスクリーンディスプレイ５３１を介して出力される画面に対して、システム５００（例：アクセシビリティサービスモジュール５１５）は、画面に含まれる少なくとも一つのオブジェクト、少なくとも一つのオブジェクトに関連した少なくとも一つの動作（ａｃｔｉｏｎ）を認知する。
システム５００は、少なくとも一つのオブジェクトと関連した少なくとも一つの動作のシーケンスを受信し、保存する。

例えば、システム５００は、少なくとも一つのメモリ５２０に保存されたアンドロイド（登録商標）フレームワークを用いて少なくとも一つのオブジェクト及び少なくとも一つのオブジェクトに関連して行われる少なくとも一つの動作を認知する。

例えば、オブジェクトは、座標情報、リソースＩＤ（ｒｅｓｏｕｒｃｅＩＤ）、入力窓、テキスト情報、（情報）タッチスクリーンディスプレイ５３１の解像度、ステータスバー（ｓｔａｔｕｓｂａｒ）の有無、電子装置５１０に設置されたＯＳ情報などの電子装置５１０と関連した情報を含み得る。
例えば、オブジェクトと関連した動作は、選択（ｓｅｌｅｃｔ）、クリック、ロングクリック（ｌｏｎｇｃｌｉｃｋ）、スクロール、コピー、切り取り、貼り付け、テキスト入力、発話入力などを含み得る。
システム５００は、どのオブジェクトにどのような動作が行われるかを認知する。
例えば、システム５００は、検索窓に検索語が入力されるとき、「検索窓」のオブジェクトに「検索語が入力される動作」を認識する。
例えば、システム５００は、画面情報、オブジェクト情報、及び動作情報のシーケンスを受信する。
システム５００は、受信したシーケンスを保存する。

様々な実施形態において、ユーザ入力は、知能型サーバ２００に予め定義されたステートに対応し得る。
例えば、システム５００は、予め定義されたステートの内の選択されたステート又はユーザ入力に対応するステートをシーケンスとして受信する。

様々な実施形態において、システム５００は、受信したシーケンスが電子装置５１０により正しく行われるかどうかを確認する。
例えば、電子装置５１０は、受信したシーケンスを行い、実行結果をユーザに提供する。
例えば、ユーザは、実行結果に基づき、ユーザが意図したタスクが行われるかどうかを確認する。
意図したタスクが上手く行われた場合、ユーザは入力されたシーケンスに対する確認を入力する。
万一、意図したタスクが上手く行われなかった場合、ユーザは入力されたシーケンスに対するキャンセルを入力し、個人化されたタスクに対応するユーザ入力を再度行う。

ステップＳ７３０において、システム５００は、シーケンスと関連した少なくとも一つのインヴォークワード（ｉｎｖｏｋｅｗｏｒｄ）を含む第２ユーザ入力を受信する。
例えば、インヴォークワードは、ユーザが入力した個人化されたタスクを呼び出すことができる個人化されたコマンドとして参照され得る。
ユーザは、インヴォークワードを発話したり、インヴォークワードをテキストで入力することにより、保存した個人化されたタスクを呼び出す。
インヴォークワードを含む第２ユーザ入力は、タッチスクリーンディスプレイ５３１又はマイク５３３を介して受信する。

ステップＳ７４０において、システム５００は、少なくとも一つのインヴォークワードを、シーケンスとマッピングされるようにシステム５００の少なくとも一つのメモリ（５２０、５７０）に保存する。
例えば、システム５００は、ユーザの個人化されたタスクに対応するシーケンスとインヴォークワードを共に保存する。
システム５００は、インヴォークワードが入力されると、インヴォークワードにマッピングされたシーケンスから誘発される動作を行う。
システム５００は、個人化されたコマンドを提供することができる。

様々な実施形態において、システム５００は、シーケンスと関連したデータを受信した後に、シーケンスに基づいて複数個のインヴォークワードを提供する。
例えば、複数のインヴォークワードは、シーケンスに対する推薦項目として参照され得る。
例えば、サーバ５５０は、シーケンスに基づいて複数個のインヴォークワードを含む推薦項目を電子装置５１０へ送信し、電子装置５１０から複数個のインヴォークワードの内の選択されたインヴォークワードを受信する。
システム５００は、選択されたインヴォークワードを受信したシーケンスとマッピングされるように少なくとも一つのメモリ（５２５、５７０）に保存する。

図８は、本発明の様々な実施形態による個人化されたコマンドを生成するシステムの動作に対するシーケンス図である。
本発明の様々な実施形態において、複数のユーザの入力を含むシーケンスは、電子装置５１０に設置された少なくとも一つのアプリケーション５２２に関連する。
図８を参照すると、例えば、一つのアプリケーション５２２と関連した個人化されたコマンドを生成する過程を示している。

システム５００は、アプリケーション５２２の実行によって出力される画面をタッチスクリーンディスプレイ５３１を介して表示する。
システム５００（例：アクセシビリティサービスモジュール５１５）は、画面に含まれる少なくとも一つのオブジェクト、少なくとも一つのオブジェクトに関連した少なくとも一つの動作（ａｃｔｉｏｎ）を認知する。

システム５００は、第１画面（アプリケーション５２２の実行によって出力される画面：画面第１状態）に含まれるオブジェクトに関連する動作を受信する。
アクセシビリティサービスモジュール５１５は、画面のアップデートを感知すると（動作８０１）、イベントを発生させ、結果モニタ５４７に伝達する（動作８０３）。
アクセシビリティサービスモジュール５１５は、上記動作によってアップデートされた第２画面（画面第２状態）を感知する（動作８０５）。
結果モニタ５４７は、第２画面の状態をキャプチャーし、記録モジュール５１７へ伝達する（動作８０７）。
記録モジュール５１７は、受信した第２画面情報を保存する。
例えば、記録モジュール５１７は、第１画面情報、第１画面のオブジェクトに対する動作情報、及び上記動作によりアップデートされた第２画面情報を保存する（動作８０９）。
様々な実施形態において、動作８０１〜８０９は繰り返して行われ得る。
これにより、ユーザの入力のシーケンスが記録モジュール５１７により保存される。

記録モジュール５１７は、シーケンスの保存が完了すると、実行マネージャ（例：図２の実行マネージャモジュール１５３）へシーケンスと関連したデータを伝達する（動作８１１）。
実行マネージャは、シーケンスと関連したデータを送信する知能型サーバ５５０のクライアント（５５０−１）へ伝達する（動作８１３）。
知能型サーバ５５０は、クライアント（５５０−１）を介してシーケンスと関連したデータを知能型サーバ５５０へ送信する。

様々な実施形態において、システム５００は、シーケンスとマッピングされたインヴォークワードと関連したデータを電子装置５１０のストレージ５２５に保存するか、クライアント（５５０−１）を介して知能型サーバ５５０へ送信する。
知能型サーバ５５０は、メモリ５７０に上記データを保存する。

図９は、本発明の様々な実施形態によって生成された個人化されたコマンドを行うシステムの動作に対するシーケンス図である。
図９を参照すると、システム５００は、インヴォークワードが含まれたユーザ入力を受信すると、インヴォークワードにマッピングされた個人化されたコマンドを行う。
例えば、システム５００は、保存されたユーザ入力のシーケンスから誘発される動作を行う。

様々な実施形態において、システム５００は、音声認識サービスを提供する。
システム５００は、例えば、インヴォークワードが含まれたユーザの発話を受信する。
システム５００は、ユーザの発話に対応して予め保存されたシーケンスを検索する。
システム５００は、シーケンスを電子装置５１０により行われ得るステートを含むルールに変更し、ルールをシステム５００へ送信する。

一実施形態において、システム５００は、クライアント（５５０−１）を介してユーザの発話に対応するルール（例：図５のルール）を受信する（動作９０１）。
実行マネージャ（例：図２の実行マネージャ１５３）は、ルールに含まれるステートを記録モジュール５１７へ伝達する（動作９０３）。
例えば、ルールに複数個のステートが含まれる場合、実行マネージャモジュール１５３は、複数個のステートを順次に記録モジュール５１７へ伝達する。

一実施形態において、記録モジュール５１７は、受信したステートをタスク実行モジュール５１３へ伝達する（動作９０５）。
様々な実施形態において、システム５００は、複数個のアプリケーションを保存することができ、複数個のアプリケーションそれぞれに対応するタスク実行モジュール５１３を含み得る。
例えば、記録モジュール５１７は、ステートがどのアプリケーションにより行われるかを判断し、アプリケーションに対応するタスク実行モジュール５１３（例：ステート受信器５４１）へステートを伝達する。

ステート受信器５４１は、受信したステートの実行のために、画面探知器５４３に画面感知を要請する（動作９０７）。
画面探知器５４３は画面を感知し、ステートが実行可能な状態かどうかを判断する（動作９０９）。
画面探知器５４３は、感知結果をステート受信器５４１へ伝達する（動作９１１）。
ステート受信器５４１は、ステートが実行され得る状態であれば、入力注入器５４５にステートに対応するアクション（動作）を伝達する（動作９１３）。

入力注入器５４５は、アクセシビリティサービスモジュール５１５の機能を用いて要請されたアクションを行う（動作９１５）。
アクセシビリティサービスモジュール５１５を介して行われた動作がターゲットアプリケーション５２２に適用され（動作９１７）、その結果ターゲットアプリケーション５２２の画面はアップデートされる（動作９１９）。
アクセシビリティサービスモジュール５１５は、画面のアップデートを感知すると、イベントが発生したものと判断する（動作９２１）。
結果モニタ５４７は、イベントを受信し、ステートが正常に行われたかどうかを判断する（動作９２３）。
結果モニタ５４７は、ステートの成功又は失敗の有無を実行マネージャモジュール１５３へ伝達する（動作９２５）。
動作９０３〜動作９２５は、知能型サーバ５５０から受信したルールに含まれるステートがすべて実行されるまで繰り返され得る。
ルールに含まれるステートがすべて行われると、実行マネージャモジュール１５３はその結果を知能型サーバ５５０のクライアント（５５０−１）へ伝達する（動作９２７）。
知能型サーバ５５０は、当該ルールが正常に実行、完了したことが分かる。

図１０は、本発明の一実施形態による個人化されたコマンドを行う方法を説明するためのフローチャートである。
図１０を参照すると、一実施形態による個人化されたコマンドを行う方法は、ステップＳ１０１０〜ステップＳ１０５０を含む。

ステップＳ１０１０〜ステップＳ１０５０は、例えば、図５に示した電子装置５１０により行われ得る。
ステップＳ１０１０〜ステップＳ１０５０の各ステップは、例えば、電子装置５１０のプロセッサ５１２により行う（あるいは、実行する）ことができるインストラクション（コマンド語）で具現することができる。
インストラクションは、例えば、コンピュータ記録媒体又は図５に示した電子装置５１０の少なくとも一つのメモリ５２０に保存される。
以下では、ステップＳ１０１０〜ステップＳ１０５０の説明において図５の説明と重複した説明は省略する。

本発明の様々な実施形態において、電子装置５１０は、音声認識サービスを提供する。
電子装置５１０は、個人化されたコマンドをストレージ５２５に保存し、個人化されたコマンドが受信すると、個人化されたタスクを行う。
電子装置５１０は、個人化されたコマンドを音声認識サービスを提供するサーバ（例：サーバ５５０）に保存せず、直接保存することにより、個人化されたタスクを迅速に提供することができる。

ステップＳ１０１０において、電子装置５１０は、ユーザ発話をマイク５３３を介して受信する。
ユーザ発話は、予め保存された個人化されたタスクに対応するコマンドとして参照され得る。
例えば、ユーザ発話はインヴォークワードを含み得る。

例えば、電子装置５１０は、ユーザの発話を知能型サーバ５５０へ送信する。
知能型サーバ５５０は、発話をＡＳＲモジュール５６８を用いてテキストに変換する。
様々な実施形態において、電子装置５１０は、ＡＳＲモジュールをさらに含むことができる。
この場合、電子装置５１０は、ＡＳＲモジュールを用いて直接ユーザの発話をテキストに変換することができる。

ステップＳ１０２０において、電子装置５１０は、ユーザの発話にマッピングされて保存されたシーケンスが保存されているかどうかを判断する。
電子装置５１０のストレージ５２５は、個人化されたタスクに対応するシーケンスを保存する。
電子装置５１０は、発話から変換されたテキストを用いてストレージ５２５を検索する。
電子装置５１０は、ストレージ５２５でユーザの発話にマッピングされたシーケンスを検索する。

ステップＳ１０３０において、電子装置５１０は、ユーザ発話にマッピングされるシーケンスが保存されている場合（ステップＳ１０２０「Ｙ」）、シーケンスから誘発される動作を行う。
例えば、電子装置５１０のタスク実行モジュール５１３は、シーケンスに対応するルール及びステートを実行する。
様々な実施形態において、シーケンスは、シーケンスが行われ得る特定のアプリケーションを介して行われる。
個人化されたタスクに対応するシーケンスが保存されると、ユーザは個人化されたタスクとマッピングされて保存されたコマンドを発話することにより、個人化されたタスクを呼び出す。
特に、個人化されたタスクは、特定のアプリケーションと関連し得る。

ステップＳ１０４０において、電子装置５１０は、ユーザ発話にマッピングされるシーケンスが保存されていない場合（ステップＳ１０２０「Ｎ」）、ユーザ発話を知能型サーバ５５０へ送信する。
この場合、ユーザ発話は、知能型サーバ５５０に予め保存されたコマンドとして参照され得る。
受信したユーザ発話に対応するシーケンスがストレージ５２５に保存されていない場合、電子装置５１０はユーザ発話が個人化されたコマンドではなく、知能型サーバ５５０から提供されたコマンドとして判断し得る。

ステップＳ１０５０において、電子装置５１０は、知能型サーバ５５０から予め保存されたコマンドに対応するステートを受信し、ステートから誘発される動作を行う。
例えば、電子装置５１０のタスク実行モジュール５１３は、知能型サーバ５５０からステートを受信し、実行する。
ステートが特定のアプリケーションに関連した場合、タスク実行モジュール５１３は、当該アプリケーションを実行し、アプリケーション上でステートを実行する。

様々な実施形態において、個人化されたタスクは、知能型サーバ５５０のメモリ５７０に保存され得る。
例えば、知能型サーバ５５０の音声認識サービスから提供する予め指定されたタスク及び個人化されたタスクは、すべて知能型サーバ５５０に保存され得る。
この場合、電子装置５１０は、ユーザ発話を知能型サーバ５５０へ送信し、知能型サーバ５５０からユーザ発話に含まれたインヴォークワードにマッピングされたシーケンスを受信する。

図１１は、本発明の様々な実施形態による個人化されたタスクを生成する方法を説明するための一シナリオであり、図１２は、様々な実施形態による個人化されたタスクが生成されるとき表示されるインタフェースの一例である。

図１１を参照すると、例えば、地図アプリケーションに対して個人化されたタスクを生成する一シナリオを説明する。
地図アプリケーションにより実行される経路検索動作を個人化されたタスクとして生成する一シナリオを例示として説明する。
例えば、ユーザは、特定の出発地から特定の到着地までの経路検索動作を個人化されたタスクとして生成する。

システム５００は、個人化されたタスクを生成するためのモード（以下、学習モードとする）を実行する。
システム５００は、学習モードを始めるために予め定められたユーザ入力を受信し、受信に応答して学習モードを実行する。
例えば、システム５００は、タッチスクリーンディスプレイ５３１に表示されたボタン（例：録画開始ボタン）に対するタッチ入力を受信すると、受信に応答して学習モードを実行する。
システム５００は、マイク５３３を介して予め指定された発話が受信すると、受信に応答して学習モードを実行する。
予め指定された発話は、例えば、「クイックコマンド生成」、「学習モード開始」など、様々な形態に設定することができる。

学習モードが実行されると、システム５００は、テキスト入力、タッチ入力、ドラッグ入力、クリック入力のようなキーボード、マウスを用いた様々なユーザ入力を受信し得る。
様々なユーザ入力は、個人化されたコマンドにより行われる動作として参照され得る。
システム５００は、様々なユーザ入力を受信すると、ユーザ入力が受信した画面と関連した情報を用いて、ユーザ入力に対応する動作を保存する。

例えば、システム５００は、アクセシビリティサービスモジュール５１５を介して個人化されたコマンドに含まれる動作を保存する。
例えば、アクセシビリティサービスモジュール５０５は、ユーザの入力の種類を識別する。
アクセシビリティサービスモジュール５０５は、画面ＩＤ（例：ｒｅｓｏｕｒｃｅＩＤ）、画面に表示されたテキスト情報、画面に表示された客体の座標情報などを含む画面と関連した情報を取得する。

一シナリオにおいて、学習モードが実行され、システム５００は、地図アプリケーションに対する実行動作（動作０とする。）（例：地図アプリケーションに対するクリック入力）を受信する。
システム５００は、地図アプリケーションを実行する。
地図アプリケーションが実行されると、画面１（１１０１）が表示される。

画面１（１１０１）〜画面４（１１０７）は、地図アプリケーションの実行によって表示される画面として参照され得る。
システム５００（例：アクセシビリティサービスモジュール５１５）は、画面１（１１０１）〜画面４（１１０７）に含まれるオブジェクト情報を取得する。
例えば、電子装置５１０は、画面１（１１０１）のメニューボタン１１１１を認知し、メニューボタン１１１１に対して実行され得る「クリック動作」を認知する。

画面１（１１０１）において、システム５００は、メニューボタン１１１１に対するクリック動作（動作１とする。）を受信する。
クリック動作により画面１（１１０１）は画面２（１１０３）にアップデートされる。
画面２（１１０３）において、システム５００は、ルート検索ボタン１１１３に対するクリック動作（動作２とする。）を受信する。
クリック動作により画面２（１１０３）は画面３（１１０５）にアップデートされる。
画面３（１１０５）において、システム５００は、テキスト入力窓１１１５にテキスト（「光教新都市」）入力動作（動作３とする。）を受信し、自動車ルート検索ボタン１１１７に対するクリック動作（動作４とする。）を受信する。
クリック動作により画面３（１１０５）は画面４（１１０７）にアップデートされる。
システム５００は、動作０〜動作４のシーケンスをストレージ５２５に保存するか、知能型サーバ５５０へ送信する。
シーケンスは、個人化されたタスクとして参照され得る。

例えば、システム５００は、個人化されたタスクの入力が完了すると、入力されたシーケンスをメモリ５２０に保存する。
システム５００は、学習モードの終了を要請するユーザ入力が受信すると、ユーザ入力の受信に応答して学習モードを終了し、シーケンスを保存する。
例えば、システム５００は、タッチスクリーンディスプレイ５３１に表示されたボタン（例：録画終了ボタン）に対するタッチ入力を受信すると、受信に応答して学習モードを終了する。
システム５００は、マイク５３３を介して予め指定された発話が受信すると、受信に応答して学習モードを実行する。
予め指定された発話は、例えば、「クイックコマンド完了」、「学習モード終了」など、様々な形態に設定することができる。

様々な実施形態において、システム５００は、シーケンスに対応する発話を取得し、発話とシーケンスがマッピングされるようにストレージ５２５に保存する。
発話は、シーケンスが実行されるようにするインヴォークワード（ｉｎｖｏｋｅｗｏｒｄ）として参照され得る。
又は、システム５００は、シーケンス及び発話と関連したデータを知能型サーバ５５０へ送信する。
発話は、個人化されたコマンドとして参照され得る。

様々な実施形態において、システム５００は、受信した動作をタッチスクリーンディスプレイ５３１を介して表示する。
図１２の画面１２０１を参照すると、システム５００は、受信した動作０〜動作４をタッチスクリーンディスプレイ５３１を介して表示する。
システム５００は、受信した動作を表示し、動作に対する編集機能を提供する。
画面１（１２０１）を参照すると、動作１２２１が動作１２２１に対応する関数名として表示される。
例えば、画面１（１２０１）に表示された動作１２２１は、アンドロイド（登録商標）フレームワークから提供するオブジェクト名称、及び関数名称として参照され得る。

様々な実施形態において、システム５００は、受信した動作をユーザにとって分かり易く画面に表示する。
画面３（１２０５）を参照すると、動作１２２５は、ユーザにとって分かり易く表示される。
例えば、「ｃｌｉｃｋ−ｒｅｓｏｕｒｃｅｉｄ：ｍｅｎｕ」は「クリック−メニューボタン」として表示され、「ｃｌｉｃｋ−ｒｅｓｏｕｒｃｅｉｄ：ｆｉｎｄ−ｒｏｏｔ」は「クリック−ルート検索」として表示され、「ｓｅｔｔｅｘｔ−ｒｅｓｏｕｒｃｅｉｄ：ｌｏｃａｔｉｏｎ−ｔｏ／‘光教新都市’」は「文字入力−‘光教新都市’」として表示される。

様々な実施形態において、システム５００は、受信した動作に対して推薦単語を提供する。
例えば、推薦単語は、前述のインヴォークワードとして参照され得る。
システム５００は、予め保存されたシーケンスと、それとマッチングされたインヴォークワードを参照して、新たに受信したシーケンスに対する推薦単語を提供する。
例えば、画面１２０１及び画面１２０５を参照すると、受信した動作に対する推薦単語が「自宅」として提供される。
ユーザは「自宅」をインヴォークワードとして選択し得る。
「自宅」は、上記動作０〜動作４とマッピングされて保存される。
以後、ユーザが「自宅」を発話すると、「自宅」に対応する動作０〜動作４が電子装置５１０により行われ得る。

様々な実施形態において、システム５００は、受信した動作に関連して取得したオブジェクト情報を表示する。
画面１２０３を参照すると、「メニューボタンクリック」動作に対して、「ｒｅｓｏｕｒｃｅｉｄ」、座標情報、ターゲットアプリケーションが表示される。

様々な実施形態において、システム５００は、シーケンスを受信すると、受信したシーケンスにより誘発される動作を行い、動作の実行結果をタッチスクリーンディスプレイ５３１を介して出力する。
システム５００は、実行結果に対する確認入力を要請する。
ユーザは、表示された実行結果を参照して意図するタスクが入力されたかどうかを確認する。
システム５００は、確認入力を受信すると、シーケンスをストレージ５２５に保存するか、サーバ５５０へ送信する。

様々な実施形態において、システム５００は、取得したシーケンスのパターンを分析し、同一に繰り返される動作をテンプレートの形態に保存する。
例えば、図１１の一シナリオによって地図アプリケーション上で経路検索動作は、様々な出発地及び様々な目的地に対して行われることができる。
図１１を参照すると、経路検索動作は、地図アプリケーション実行（動作０）、画面１１０１の右側上段にあるボタン１１１１、クリック（動作１）、画面１１０３のルート検索ボタン１１１３、クリック（動作２）、及び画面１１０５での出発地及び到着地入力の動作（動作４）を共通して含み得る。
この場合、画面１１０５で入力される出発地と到着地のみが異なる動作であるので、システム５００は、動作０、動作１、及び動作２をテンプレートとして保存することができる。
テンプレートは、地図アプリケーション上に登録され得る。

様々な実施形態において、システム５００は、予め保存されたテンプレートを電子装置５１０を介してユーザに提供する。
予め保存されたテンプレートは、特定のアプリケーションに登録することができ、ユーザのコマンドに対するカテゴリにマッピングされて保存される。
システム５００は、テンプレートに含まれる画面とユーザ入力、ユーザ入力によって切り替えられる画面を再生することにより、ユーザにとってテンプレートを直接確認するようにする。
又は、システム５００は、テンプレートに含まれる画面に対するスナップショット（ｓｎａｐｓｈｏｔ）を再生する。

様々な実施形態において、ユーザは提供されるテンプレートを選択することにより、そのテンプレートに対応される個人化されたコマンドを生成する。
又は、ユーザは、提供されるテンプレートを選択し、テンプレートの一部を修正した個人化されたコマンドを生成する。

様々な実施形態において、システム５００は、学習モードが実行される時、学習モードで入力されるユーザ入力に対応する少なくとも一つ以上のテンプレートがある場合、テンプレートに含まれた動作をタッチスクリーンディスプレイ５３１に表示するか、少なくとも一つ以上のテンプレートのリストをタッチスクリーンディスプレイ５３１に表示する。

様々な実施形態において、システム５００は、予め保存されたテンプレートを用いて新たに生成された個人化されたタスクを最適化する。
例えば、新たに生成された個人化されたタスクに含まれる第１動作及び第２動作が予め保存されたテンプレートに含まれ得る。
システム５００は、予め保存されたテンプレートに基づき、第１動作及び第２動作の間に実行される少なくとも一つ以上の動作を省略することにより、個人化されたタスクの最適化を行う。
システム５００は、最適化された個人化されたタスクを推薦し、ユーザは推薦されたタスクを選択する。

様々な実施形態において、システム５００は、特定のアプリケーションに登録されたテンプレートはアプリケーションに対するバージョン情報を含む。
システム５００は、テンプレートに含まれたバージョン情報と現在設置されたアプリケーションのバージョン情報を比較し、テンプレートの使用可能の可否を判断する。
万一、保存されたテンプレートのバージョンが現在設置されたアプリケーションのバージョンと一致しない場合、システム５００は新たなバージョンのテンプレートをダウンロードするか、電子装置５１０に設置されたアプリケーションのバージョンが変更されるようにする。

図１３は、本発明の様々な実施形態による、ネットワーク環境１３００内の電子装置１３０１の概略構成を示すブロック図である。
図１３を参照すると、ネットワーク環境１３００において電子装置１３０１（例：図２のユーザ端末１００、図５の電子装置５１０）は、第１ネットワーク１３９８（例：近距離無線通信ネットワーク）を介して電子装置１３０２と通信するか、又は第２ネットワーク１３９９（例：遠距離無線通信ネットワーク）を介して電子装置１３０４又はサーバ１３０８と通信する。
一実施形態によれば、電子装置１３０１は、サーバ１３０８を介して電子装置１３０４と通信する。

一実施形態によれば、電子装置１３０１は、プロセッサ１３２０（例：図５のプロセッサ５１２）、メモリ１３３０、入力装置１３５０（例：マイクロホン、マウス）、音響出力装置１３５５、表示装置１３６０、オーディオモジュール１３７０、センサモジュール１３７６、インタフェース１３７７、ハプティックモジュール１３７９、カメラモジュール１３８０、電力管理モジュール１３８８、バッテリ１３８９、通信モジュール１３９０、加入者識別モジュール１３９６、アンテナモジュール１３９７を含む。
他の実施形態では、電子装置１３０１には、この構成要素の内の少なくとも一つ（例：表示装置１３６０又はカメラモジュール１３８０）が省略されるか、一つ以上の他の構成要素が追加され得る。
また、他の実施形態では、これらの構成要素の内の一部は、一つの統合された回路として具現することができる。
例えば、センサモジュール１３７６（例：指紋センサ、虹彩センサ、又は照度センサ）は、表示装置１３６０（例：ディスプレイ）に組み込まれたままで具現することができる。

プロセッサ１３２０は、例えば、ソフトウェア（例：プログラム１３４０）を実行してプロセッサ１３２０に接続された電子装置１３０１の少なくとも一つの他の構成要素（例：ハードウェア又はソフトウェア構成要素）を制御し、様々なデータ処理又は演算を行う。
一実施形態によれば、データ処理又は演算の少なくとも一部として、プロセッサ１３２０は、他の構成要素（例：センサモジュール１３７６又は通信モジュール１３９０）から受信したコマンド又はデータを揮発性メモリ１３３２にロードし、揮発性メモリ１３３２に保存されたコマンド又はデータを処理し、結果データを不揮発性メモリ１３３４に保存する。
一実施形態によれば、プロセッサ１３２０は、メインプロセッサ１３２１（例：中央処理装置又はアプリケーションプロセッサ）、及びこれとは独立して又は共に運営可能な補助プロセッサ１３２３（例：グラフィック処理装置、イメージシグナルプロセッサ、センサハブプロセッサ、又はコミュニケーションプロセッサ）を含み得る。
追加的に又は代替的に、補助プロセッサ１３２３は、メインプロセッサ１３２１より低電力を使用するか、又は指定された機能に特化されるように設定することができる。
補助プロセッサ１３２３は、メインプロセッサ１３２１とは別個に、またその一部として具現することができる。

補助プロセッサ１３２３は、例えば、メインプロセッサ１３２１がインアクティブ（例：スリープ）状態にある間、メインプロセッサ１３２１に代わって、又はメインプロセッサ１３２１がアクティブ（例：アプリケーション実行）状態にある間、メインプロセッサ１３２１と共に、電子装置１３０１の構成要素の内の少なくとも一つの構成要素（例：表示装置１３６０、センサモジュール１３７６、又は通信モジュール１３９０）と関連した機能又は状態の少なくとも一部を制御する。
一実施形態によれば、補助プロセッサ１３２３（例：イメージシグナルプロセッサ又はコミュニケーションプロセッサ）は、機能的に関連する他の構成要素（例：カメラモジュール１３８０又は通信モジュール１３９０）の一部として具現することができる。

メモリ１３３０は、電子装置１３０１の少なくとも一つの構成要素（例：プロセッサ１３２０又はセンサモジュール１３７６）により使用される様々なデータを保存する。
データは、例えば、ソフトウェア（例：プログラム１３４０）及び、これと関連したコマンドに対する入力データ又は出力データを含み得る。
メモリ１３３０は、揮発性メモリ１３３２又は不揮発性メモリ１３３４を含み得る。

プログラム１３４０は、メモリ１３３０にソフトウェアとして保存することができ、例えば、運営体制（オペレーティングシステム）１３４２、ミドルウェア１３４４、又はアプリケーション１３４６を含む。
入力装置１３５０は、電子装置１３０１の構成要素（例：プロセッサ１３２０）に使用されるコマンド又はデータを電子装置１３０１の外部（例：ユーザ）から受信する。
入力装置１３５０は、例えば、マイク、マウス、又はキーボードを含む。

音響出力装置１３５５は、音響信号を電子装置１３０１の外部に出力する。
音響出力装置１３５５は、例えば、スピーカ又はレシーバを含む。
スピーカは、マルチメディア再生又は録音再生のように一般的な用途に使用され、レシーバは、着信電話を受信するために使用される。
一実施形態によれば、レシーバはスピーカとは別個に、又はその一部として具現することができる。

表示装置１３６０（例：図５のタッチスクリーンディスプレイ５３１）は、電子装置１３０１の外部（例：ユーザ）に情報を視覚的に提供する。
表示装置１３６０は、例えば、ディスプレイ、ホログラム装置、又はプロジェクタ及び当該装置を制御するための制御回路を含む。
一実施形態によれば、表示装置１３６０は、タッチを感知するように設定されたタッチ回路（ｔｏｕｃｈｃｉｒｃｕｉｔｒｙ）、又はタッチにより発生する力の強度を測定するように設定されたセンサ回路（例：圧力センサ）を含む。

オーディオモジュール１３７０は音を電気信号に変換させるか、逆に電気信号を音に変換させることができる。一実施形態によれば、オーディオモジュール１３７０は、入力装置１３５０を介して音を獲得するか、音響出力装置１３５５、又は電子装置１３０１と直接又は無線で接続された外部電子装置（例：電子装置１３０２（例：スピーカ又はヘッドホン））を介して音を出力することができる。

センサモジュール１３７６は、電子装置１３０１の作動状態（例：電力又は温度）、又は外部の環境状態（例：ユーザ状態）を感知し、感知された状態に対応する電気信号又はデータ値を生成する。
一実施形態によれば、センサモジュール１３７６は、例えば、ジェスチャーセンサ、ジャイロセンサ、気圧センサ、マグネチックセンサ、加速度センサ、グリップセンサ、近接センサ、カラーセンサ、ＩＲ（ｉｎｆｒａｒｅｄ）センサ、生体センサ、温度センサ、湿度センサ、又は照度センサを含む。

インタフェース１３７７は、電子装置１３０１が外部電子装置（例：電子装置１３０２）と直接又は無線で接続されるために使用され得る一つ以上の指定されたプロトコルをサポートする。
一実施形態によれば、インタフェース１３７７は、例えば、ＨＤＭＩ（登録商標）（ｈｉｇｈｄｅｆｉｎｉｔｉｏｎｍｕｌｔｉｍｅｄｉａｉｎｔｅｒｆａｃｅ）、ＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）インタフェース、ＳＤ（登録商標）カードインタフェース、又はオーディオインタフェースを含むことができる。

接続端子１３７８は、それを介して電子装置１３０１が外部電子装置（例：電子装置１３０２）と物理的に接続され得るコネクタを含む。
一実施形態によれば、接続端子１３７８は、例えば、ＨＤＭＩ（登録商標）コネクタ、ＵＳＢコネクタ、ＳＤ（登録商標）カードコネクタ、又はオーディオコネクタ（例：ヘッドホンコネクタ）を含む。

ハプティックモジュール１３７９は、電気的信号をユーザが触覚又は運動感覚を介して認知することができる機械的な刺激（例：振動又は動き）又は電気的な刺激に変換する。
一実施形態によれば、ハプティックモジュール１３７９は、例えば、モータ、圧電素子、又は電気刺激装置を含む。
カメラモジュール１３８０は、静止画及び動画を撮影する。
一実施形態によれば、カメラモジュール１３８０は一つ以上のレンズ、イメージセンサ、イメージシグナルプロセッサ、又はフラッシュを含む。

電力管理モジュール１３８８は、電子装置１３０１に供給される電力を管理する。
一実施形態によれば、電力管理モジュール１３８８は、例えば、ＰＭＩＣ（ｐｏｗｅｒｍａｎａｇｅｍｅｎｔｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）の少なくとも一部として具現することができる。
バッテリ１３８９は、電子装置１３０１の少なくとも一つの構成要素に電力を供給する。
一実施形態によれば、バッテリ１３８９は、例えば、再充電不可能な１次電池、再充電可能な２次電池又は燃料電池を含む。

通信モジュール１３９０は、電子装置１３０１と外部電子装置（例：電子装置１３０２、電子装置１３０４、又はサーバ１３０８）間の直接（例：有線）通信チャンネル又は無線通信チャンネルの樹立、及び樹立された通信チャンネルを介した通信実行をサポートする。
通信モジュール１３９０は、プロセッサ１３２０（例：アプリケーションプロセッサ）と独立して運営され、直接（例：有線）通信又は無線通信をサポートする一つ以上のコミュニケーションプロセッサを含み得る。
一実施形態によれば、通信モジュール１３９０は、無線通信モジュール１３９２（例：セルラー通信モジュール、近距離無線通信モジュール、又はＧＮＳＳ（ｇｌｏｂａｌｎａｖｉｇａｔｉｏｎｓａｔｅｌｌｉｔｅｓｙｓｔｅｍ）通信モジュール）又は有線通信モジュール１３９４（例：ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）通信モジュール、電話線サービス（ＰｌａｉｎＯｌｄＴｅｌｅｐｈｏｎｅｓｅｒｖｉｃｅ；ＰＯＴＳ）又は電力線通信モジュール）を含む。

これらの通信モジュールの内の該当する通信モジュールは、第１ネットワーク１３９８（例：ブルートゥース（登録商標）、ＷｉＦｉｄｉｒｅｃｔ又はＩｒＤＡ（ｉｎｆｒａｒｅｄｄａｔａａｓｓｏｃｉａｔｉｏｎ）のような近距離通信ネットワーク）又は第２ネットワーク１３９９（例：セルラーネットワーク、インターネット、又はコンピュータネットワーク（例：ＬＡＮ又はＷＡＮ）のような遠距離通信ネットワーク）を介して外部電子装置と通信する。
このような各種の通信モジュールは、一つの構成要素（例：単一チップ）として統合されるか、又は互いに別途の複数の構成要素（例：複数チップ）として具現することができる。
無線通信モジュール１３９２は、加入者識別モジュール１３９６に保存された加入者情報（例：国際モバイル加入者識別子（ＩＭＳＩ））を用いて第１ネットワーク１３９８又は第２ネットワーク１３９９のような通信ネットワーク内で電子装置１３０１を確認及び認証する。

アンテナモジュール１３９７は、信号又は電力を外部（例：外部電子装置）へ送信するか、外部から受信する。
一実施形態によれば、アンテナモジュール１３９７は、一つ以上のアンテナを含むことができ、これによって、第１ネットワーク１３９８又は第２ネットワーク１３９９のような通信ネットワークで使用される通信方式に適合する少なくとも一つのアンテナが、例えば、通信モジュール１３９０により選択される。
信号又は電力は、選択された少なくとも一つのアンテナを介して通信モジュール１３９０と外部電子装置との間で送信されるか、受信される。

構成要素の内の少なくとも一部は、周辺機器間の通信方式（例：バス、ＧＰＩＯ（ｇｅｎｅｒａｌｐｕｒｐｏｓｅｉｎｐｕｔａｎｄｏｕｔｐｕｔ）、ＳＰＩ（ｓｅｒｉａｌｐｅｒｉｐｈｅｒａｌｉｎｔｅｒｆａｃｅ）、又はＭＩＰＩ（ｍｏｂｉｌｅｉｎｄｕｓｔｒｙｐｒｏｃｅｓｓｏｒｉｎｔｅｒｆａｃｅ））を介して互いに接続され、信号（例：コマンド又はデータ）を相互交換する。

一実施形態によれば、コマンド又はデータは、第２ネットワーク１３９９に接続されたサーバ１３０８を介して電子装置１３０１と外部の電子装置１３０４との間で送信又は受信される。
電子装置（１３０２、１３０４）それぞれは、電子装置１３０１と同一又は別の種類の装置であり得る。
一実施形態によれば、電子装置１３０１で実行される動作のすべて又は一部は外部の電子装置（１３０２、１３０４、ｏｒ１３０８）の内の一つ以上の外部装置で実行される。
例えば、電子装置１３０１が、ある機能やサービスを自動的に、又はユーザもしくは他の装置からの要請に反応して行わなければならない場合に、電子装置１３０１は、機能又はサービスを自身で実行する代わりに、又は追加的に、一つ以上の外部電子装置にその機能又はそのサービスの少なくとも一部を行うように要請する。
要請を受信した一つ以上の外部電子装置は、要請された機能又はサービスの少なくとも一部、又は要請に関連した追加機能もしくはサービスを実行し、その実行の結果を電子装置１３０１へ伝達する。
電子装置１３０１は結果を、そのまま又は追加的に処理して、要請に対する応答の少なくとも一部として提供する。
このために、例えば、クラウドコンピューティング、分散コンピューティング、又はクライアント−サーバコンピューティング技術が用いられ得る。

本明細書に開示した様々な実施形態による電子装置は、多様な形態の装置となり得る。
電子装置は、例えば、携帯用通信装置（例：スマートフォン）、コンピュータ装置（例：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ（ＰＤＡ）、タブレットＰＣ、ｌａｐｔｏｐＰＣ（デスクトップＰＣ、ワークステーション、又はサーバ））、携帯用マルチメディア装置（例：ｅ−ブックリーダ又はＭＰ３プレーヤ）、携帯用医療機器（例：心拍計、グルコースメータ、血圧計、又は体温計）、カメラ、ウェアラブル装置、又は家電装置を含み得る。
本明細書の実施形態による電子装置は、上述の機器に限定されない。

本明細書の様々な実施形態は、機器（ｍａｃｈｉｎｅ）（例：電子装置１３０１）により読み取ることができる保存媒体（ｓｔｏｒａｇｅｍｅｄｉｕｍ）（例：内蔵メモリ１３３６又は外付けメモリ１３３８）に保存された一つ以上のコマンド語を含むソフトウェア（例：プログラム１３４０）として具現することができる。
例えば、機器（例：電子装置１３０１のプロセッサ（例：プロセッサ１３２０））は、保存媒体から保存された一つ以上のコマンド語の内の少なくとも一つのコマンドを呼び出し、それを実行することができる。
これは、機器が呼び出された少なくとも一つのコマンド語に従って少なくとも一つの機能を行うように運営されることを可能とする。
一つ以上のコマンド語は、コンパイラにより生成されたコード又はインタプリタにより実行され得るコードを含むことができる。
機器で読み取り可能な保存媒体は、非一時的（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）保存媒体の形態で提供されることができる。
ここで、「非一時的」は、保存媒体が実在（ｔａｎｇｉｂｌｅ）する装置であり、信号（ｓｉｇｎａｌ）（例：電磁気波）を含まないことを意味するだけであり、この用語は、データが保存媒体に半永久的に保存される場合と臨時的に保存される場合とを区分しない。

一実施形態によれば、本明細書に開示した様々な実施形態による方法は、コンピュータプログラム製品（ｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｐｒｏｄｕｃｔ）に含まれて提供することができる。
コンピュータプログラム製品は商品として販売者及び購買者間で取引可能である。
コンピュータプログラム製品は、機器で読み取り可能な保存媒体（例：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄｏｎｌｙｍｅｍｏｒｙ（ＣＤ−ＲＯＭ））の形態で配布されるか、又はアプリケーションストア（例：プレイストア（登録商標））を介して、もしくは二つのユーザ装置（例：スマートフォン）間で直接、オンラインで配布（例：ダウンロード又はアップロード）することができる。
オンライン配布の場合、コンピュータプログラム製品の少なくとも一部は製造会社のサーバ、アプリケーションストアのサーバ、又は中継サーバのメモリのような機器で読み取り可能な保存媒体に少なくとも一時保存されるか、臨時的に生成することができる。

様々な実施形態によれば、前述の構成要素のそれぞれの構成要素（例：モジュール又はプログラム）は単数又は複数の個体を含むことができる。
様々な実施形態によれば、前述の当該構成要素の内の一つ以上の構成要素もしくは動作が省略されるか、又は一つ以上の他の構成要素もしくは動作が追加することができる。
代替的に又は追加的に、複数の構成要素（例：モジュール又はプログラム）は、一つの構成要素として統合することができる。
この場合、統合された構成要素は、複数の構成要素それぞれの構成要素の一つ以上の機能を統合以前に複数の構成要素の内の当該構成要素により行われるものと同一又は類似して行うことができる。
様々な実施形態によれば、モジュール、プログラム又は他の構成要素により行われる動作は、順次に、並列的に、反復的に、もしくはヒューリスティックに実行されるか、動作の内の一つ以上が他の手順で実行されるか、省略されるか、又は一つ以上の他の動作が追加され得る。

尚、本発明は、上述の実施形態に限られるものではない。本発明の技術的範囲から逸脱しない範囲内で多様に変更実施することが可能である。

１０統合知能化システム
１００ユーザ端末
１１０入力モジュール
１１１、５３３マイク
１１１ａ、１１１ｂ入力
１１２ハードウェアキー
１２０ディスプレイ
１２１知能型アプリのＵＩ（ｕｓｅｒｉｎｔｅｒｆａｃｅ）
１２１ａ音声認識ボタン
１３０、５３５スピーカ
１４０、５２０、５７０メモリ
１４１、１４３アプリ
１４１ａ、１４３ａ実行サービス
１４１ｂ、１４３ｂ動作
１５０、５１２、５６０プロセッサ
１５１知能型エージェント
１５３実行マネージャモジュール
１５５知能型サービスモジュール
１５５ａコンテキストモジュール
１５５ｂペルソナモジュール
１５５ｃ提案モジュール
２００知能型サーバ
２１０、５６８自動音声認識モジュール
２１１自動音声認識データベース
２２０、５６６自然言語理解モジュール
２２１自然言語理解データベース
２３０パスプランナーモジュール
２３１パスルールデータベース
２４０対話マネージャモジュール
２５０自然言語生成モジュール
２６０テキスト音声変換モジュール
３００個人化情報サーバ
４００提案サーバ
５００システム
５１０電子装置
５１１無線通信回路
５１３タスク実行モジュール
５１５アクセシビリティサービスモジュール
５１６タスク実行モジュール
５１７記録モジュール
５１９音声秘書モジュール
５２２アプリケーション
５２５ストレージ
５３１タッチスクリーンディスプレイ
５４１ステート受信器
５４３画面探知器
５４５入力注入器
５４７結果モニタ
５５０知能型サーバ
５５１情報収集器
５５３ルール変換器
５５５ルール確認モジュール
５６１関数呼出器
５６３パラメータ作成器
５６５確認モジュール

Claims

ユーザ音声入力の処理を含むシステムであって、
タッチスクリーンディスプレイ、通信回路、マイク、及びスピーカを含む第１電子装置と、
前記第１電子装置の一部であるか、又は、前記第１電子装置と遠隔で通信する少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと作動的に（ｏｐｅｒａｔｅｌｙ）接続される間、前記第１電子装置上に、又は前記第１電子装置の外部に常駐する少なくとも一つのメモリと、を有し、
前記少なくとも一つのメモリは、実行時、前記少なくとも一つのプロセッサが、第１ユーザ入力をタッチスクリーンディスプレイ又はマイクを介して受信し、
少なくともタッチ又は音声ベースのどちらか一方のユーザ入力のシーケンスを前記タッチスクリーンディスプレイ又は前記マイクを介して受信し、
前記少なくともタッチ又は音声ベースのどちらか一方のユーザ入力の前記シーケンスを前記メモリに保存し、
前記シーケンスと関連した少なくとも一つのインヴォークワード（ｉｎｖｏｋｅｗｏｒｄ）を含む第２ユーザ入力を前記タッチスクリーンディスプレイ又は前記マイクを介して受信し、
前記少なくとも一つのインヴォークワードを、前記シーケンスとマッピングされるように前記少なくとも一つのメモリに保存することを指示するコマンド語を保存することを特徴とするユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つのプロセッサが、前記タッチスクリーンディスプレイ又は前記マイクを介して前記少なくとも一つのインヴォークワードを受信し、
前記少なくとも一つのインヴォークワードに応答して、前記少なくともタッチ又は音声ベースのどちらか一方のユーザ入力の前記シーケンスから誘発される（ｒｅｓｕｌｔｉｎｇｆｒｏｍ）動作を行うことを指示するコマンド語を保存することを特徴とする請求項１に記載のユーザ音声入力の処理を含むシステム。
前記第１電子装置は、前記少なくとも一つのプロセッサの第１プロセッサを含み、
前記システムは、前記少なくとも一つのプロセッサの第２プロセッサを含むサーバをさらに有することを特徴とする請求項２に記載のユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つの第１プロセッサが、前記第１ユーザ入力を前記タッチスクリーンディスプレイ又は前記マイクを介して受信し、
前記少なくともタッチスクリーンディスプレイ又は前記マイクのどちらか一方を用いて前記少なくともタッチ又は音声ベースのどちらか一方のユーザ入力の前記シーケンスを受信し、
前記少なくともタッチスクリーンディスプレイ又は前記マイクのどちらか一方を介して前記第２ユーザ入力を受信し、
前記シーケンス及び前記第２ユーザ入力と関連したデータを前記サーバへ送信することを指示するコマンド語を保存することを特徴とする請求項３に記載のユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つの第１プロセッサが、前記少なくとも一つのインヴォークワードを前記ディスプレイ又は前記マイクを介して受信し、
前記少なくとも一つのインヴォークワードと関連したデータを前記サーバへ送信し、
前記第１電子装置のステート（ｓｔａｔｅｓ）のシーケンスを前記動作を行うために前記サーバから受信し、
前記第１電子装置において、前記動作を行うための前記ステートのシーケンスを有するように指示するコマンド語を保存することを特徴とする請求項４に記載のユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つの第２プロセッサが、前記シーケンスに基づいて複数個のインヴォークワードを前記第１電子装置へ送信し、
前記第１電子装置から前記複数個のインヴォークワードの内から選択されたインヴォークワードと関連したデータを受信し、
前記選択されたインヴォークワードを前記シーケンスとマッピングされるように前記少なくとも一つのメモリに保存することを指示するコマンド語を保存することを特徴とする請求項４に記載のユーザ音声入力の処理を含むシステム。
前記シーケンスは、前記第１電子装置に設置された少なくとも一つのアプリケーションプログラムと関連することを特徴とする請求項１に記載のユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つのプロセッサが、前記少なくとも一つのアプリケーションプログラムの実行によって出力される画面を前記タッチスクリーンディスプレイを介して表示し、
前記画面に含まれるオブジェクトと関連する動作を受信し、
前記画面に対する情報のシーケンス、前記オブジェクトに対する情報のシーケンス、及び前記オブジェクトと関連する動作に対する情報のシーケンスを前記メモリに保存することを指示するコマンド語を保存することを特徴とする請求項７に記載のユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つのプロセッサが、前記シーケンスに基づき、複数個のインヴォークワードを前記タッチスクリーンディスプレイに表示し、
前記表示された複数個のインヴォークワードの内から選択されたインヴォークワードを前記シーケンスとマッピングされるように前記メモリに保存することを指示するコマンド語を保存することを特徴とする請求項１に記載のユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つのプロセッサが、前記画面に含まれる少なくとも一つのオブジェクト、前記少なくとも一つのオブジェクトに関連した少なくとも一つの動作（ａｃｔｉｏｎ）を認知し、
前記少なくとも一つのオブジェクトと関連した前記少なくとも一つの動作のシーケンスを受信することを指示するコマンド語を保存することを特徴とする請求項８に記載のユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つのプロセッサが、前記タッチスクリーンディスプレイを介して出力される第１画面に含まれる第１オブジェクトと関連する第１動作を受信し、
前記第１画面に対する情報、前記第１オブジェクトに対する情報、前記第１動作に対する情報、及び前記第１動作によりアップデートされた第２画面に対する情報のシーケンスを前記メモリに保存することを指示するコマンド語を保存することを特徴とする請求項１０に記載のユーザ音声入力の処理を含むシステム。
前記少なくとも一つのメモリは、実行時、前記少なくとも一つのプロセッサが、前記メモリに保存されたアンドロイド（登録商標）フレームワークを用いて前記少なくとも一つのオブジェクト及び前記少なくとも一つのオブジェクトと関連した少なくとも一つの動作を認知することを指示するコマンド語を保存することを特徴とする請求項１０に記載のユーザ音声入力の処理を含むシステム。
ユーザ音声入力の処理を含むシステムの動作方法であって、
第１ユーザ入力を受信する段階と、
少なくともタッチ又は音声ベースのどちらか一方のユーザ入力のシーケンスをタッチスクリーンディスプレイ又はマイクを介して受信する段階と、
前記少なくともタッチ又は音声ベースのどちらか一方のユーザ入力の前記シーケンスをメモリに保存する段階と、
前記シーケンスと関連した少なくとも一つのインヴォークワード（ｉｎｖｏｋｅｗｏｒｄ）を含む第２ユーザ入力を前記マイクを介して受信する段階と、
前記少なくとも一つのインヴォークワードを、前記シーケンスとマッピングされるように保存する段階と、を有することを特徴とするユーザ音声入力の処理を含むシステムの動作方法。
電子装置であって、
タッチスクリーンディスプレイと、
マイクと、
ストレージ（ｓｔｏｒａｇｅ）と、
前記タッチスクリーンディスプレイ、前記マイク、及び前記ストレージと電気的に接続された少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと電気的に接続され、コマンド語を保存する少なくとも一つのメモリと、を有し、
前記コマンド語が実行された時、前記少なくとも一つのプロセッサにおいて、
第１ユーザ入力を受信し、
タッチ又は音声ベースの複数のユーザ入力を含むシーケンスを受信し、
前記シーケンスを前記ストレージに保存し、
前記シーケンスと関連するユーザ発話を前記マイクを介して受信し、前記ユーザ発話を前記シーケンスとマッピングされるように前記ストレージに保存することを特徴とする電子装置。
前記コマンド語が実行された時、前記少なくとも一つのプロセッサにおいて、
前記受信されたシーケンスから誘発される動作を行い、
前記動作の実行結果を前記タッチスクリーンディスプレイを介して出力し、
前記実行結果に対する確認入力を受信すると、前記シーケンスを前記ストレージに保存することを特徴とする請求項１４に記載の電子装置。