JP7142783B2

JP7142783B2 - 音声制御方法及び電子装置

Info

Publication number: JP7142783B2
Application number: JP2021528948A
Authority: JP
Inventors: ジョウ，ジュアン; ワン，ショウチェン; ロォン，ジィアユィ; ジャオ，ユエ
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-11-23
Filing date: 2019-11-15
Publication date: 2022-09-27
Anticipated expiration: 2039-11-15
Also published as: CN113794800A; RU2766255C1; US11450322B2; CN109584879B; ES2964533T3; AU2019385366A1; EP3872807A4; CN113794800B; JP2022508176A; KR20210092795A; CN109584879A; AU2019385366B2; WO2020103764A1; CN113056901A; EP3872807A1; KR102470275B1; EP3872807B1; US20210407507A1

Description

本願は、通信技術の分野に関し、特に、音声制御（speech control）方法及び電子装置に関する。

音声（speech：発話）認識技術は、マシン（例えば、携帯電話又はウェアラブル装置）が、認識及び理解を通じて音（sound）信号を対応するテキスト又はコマンドに変換するのを可能にする技術である。現在、多くの携帯電話には、音声アシスタント（例えば、Xiaoai、Siri、及びXiao E）等、音声認識に使用される音声アプリがインストールされている。通常、携帯電話は、１つ又は複数のウェイクアップ信号（例えば、タッピング信号又は「こんにちは、ＸｉａｏＥ」等のウェイクアップワード）を予めセットすることができる。ユーザによってこれらのウェイクアップ信号が入力されたことが検出された場合に、それは、ユーザがこの時点で音声認識機能を使用する意思があることを示している。従って、携帯電話は、音声認識を実行するために音声アプリを開始するようにトリガーされ、次に対応する音声タスクを実行することができる。

通常、配送前に、携帯電話が認識及び実行できる特定の音声タスク、例えば、天気を問い合わせるための音声タスク及び連絡先に電話するための音声タスクが携帯電話に予め構成されている。図１に示されるように、ユーザは、各アプリケーションによって特にサポートされる全ての音声タスクを音声アプリの設定インターフェイス１０１上で見ることができる。しかしながら、音声タスクには様々な種類があるため、アプリケーションを使用する特定の過程で、ユーザは、アプリケーションが音声認識機能をサポートしているかどうかを忘れたり、又は音声によって制御できるアプリケーション内の特定のタスクを忘れたりすることがある。その結果、携帯電話での音声アプリの利用率は高くなく、携帯電話では音声アプリの音声認識機能を十分に活用できず、音声アプリはユーザのフリーハンド（free hand：手による入力がない）を助けることができない。

本願の実施形態は、アプリケーションの実行過程において、アプリケーションに関連する音声タスクを実行するようユーザに促すことができる音声制御方法及び電子装置を提供する。これにより、電子装置における音声アプリの音声制御効率及びユーザ・エクスペリエンスが向上する。

前述の目的を達成するために、本願では以下の技術的解決策を使用する。

第１の態様によれば、本願の実施形態は、音声制御方法を提供する。この方法は、電子装置が、アプリケーションの第１のインターフェイスを表示するステップであって、第１のインターフェイスは、第１のインターフェイスを更新するために使用されるコントロールを含む、表示するステップと；ユーザによって入力されたウェイクアップ信号が受信された場合に、電子装置が、音声アプリケーションをバックグラウンドで有効にするステップと；さらに、電子装置が、音声アプリケーションによって提供されるＭ個（Ｍは０より大きい整数）の音声入力プロンプトを第１のインターフェイス上に表示するステップであって、各音声入力プロンプトは、第１のインターフェイス上の少なくとも１つのコントロールに対応する、表示するステップと；その後、電子装置が、有効にした音声アプリケーション（例えば、Siri、又はXiao E等の音声アシスタント）を使用して、ユーザによって入力された音声制御信号を収集するステップと；音声制御信号がＭ個の音声入力プロンプト内の第１の音声入力プロンプトに対応する場合に、電子装置が、音声制御信号に応答してアプリケーションの第２のインターフェイスを表示するステップであって、第２のインターフェイスは、第１のインターフェイス上の第１のコントロール（第１のコントロールが第１の音声入力プロンプトに対応する）がトリガーされた後に更新することによって得られるインターフェイスである、表示するステップと；を含む。

換言すれば、電子装置がアプリケーションのインターフェイスを表示するときに、ユーザが音声アプリケーションを起動したことが検出された場合に、電子装置は、音声アプリケーションを使用することにより、ユーザに音声入力プロンプトを現在のインターフェイス上に入力するよう促すことができる。音声入力プロンプトは、インターフェイス上の１つ又は複数のコントロールに関連付けられる。このようにして、ユーザが音声入力プロンプトに対応する音声制御信号を入力したことが検出されると、電子装置は、音声制御信号に基づいて、対応するコントロールをトリガーし、それによって、電子装置は、表示されているインターフェイスを更新する。このようにして、アプリケーションを使用する過程において、ユーザは、音声入力プロンプトに基づいて、現在のインターフェイスで実行可能な音声制御信号を電子装置に入力することができる。これにより、電子装置の音声アプリの音声制御効率が向上し、ユーザ・エクスペリエンスが向上する。

可能な設計方法では、電子装置が音声アプリケーションをバックグラウンドで有効にした後に、方法は、第１のインターフェイス上のコントロールでユーザによって行われたタッチコントロール操作が検出された場合に、電子装置が、タッチコントロール操作に対応する操作命令を実行するステップをさらに含む。換言すれば、電子装置が音声アプリケーションをバックグラウンドで有効にした後に、バックグラウンドで動作している音声アプリケーションがユーザとフォアグラウンド・アプリケーションとの間の対話に影響を与えないため、ユーザは、表示された第１のインターフェイス上の第１のインターフェイスのコントロールを引き続き操作できる。

可能な設計方法では、電子装置が、音声アプリケーションをバックグラウンドで有効にした後に、方法は、電子装置が、音声アプリケーションが有効であるか、バックグラウンドで有効にされているかをユーザに促すために、音声アプリケーションの識別子を第１のインターフェイス上に表示するステップをさらに含む。音声アプリケーションの識別子は、フローティング式ボタンの形態で第１のインターフェイス上に表示され、ユーザは、第１のインターフェイス上の識別子の位置を調整することができる。

可能な設計方法では、電子装置が、アプリケーションの第１のインターフェイスを表示した後に、方法は、電子装置が、プロンプトボタンを第１のインターフェイス上に表示するステップと；電子装置が、ユーザによるプロンプトボタンをクリックするクリック操作を受信した場合に、電子装置が、クリック操作に応答して、Ｍ個の音声入力プロンプトを第１のインターフェイス上に表示するステップと；をさらに含む。

可能な設計方法では、電子装置が、アプリケーションの第１のインターフェイスを表示した後に、方法は、電子装置が、第１のインターフェイスに関連する構成ファイルを取得するステップであって、構成ファイルは、電子装置が実行できるＮ個（ＮはＭ以上の整数である）の音声タスクを第１のインターフェイス上に記録する、取得するステップをさらに含み；この場合に、電子装置が、Ｍ個の音声入力プロンプトを第１のインターフェイス上に表示するステップは、電子装置が、構成ファイルに基づいて、Ｍ個の音声入力プロンプトを第１のインターフェイス上に表示するステップを含み、各音声入力プロンプトは、構成ファイル内の１つの音声タスクに関連付けられる。例えば、音声入力プロンプト「再生（play）」は、構成ファイル内の再生タスクに関連付けられる。

例えば、Ｍ個の音声入力プロンプトはＭ個の音声タスクと１対１の対応関係にあり得、Ｍ個の音声タスクのそれぞれの使用頻度がＮ個の音声タスクにおける閾値よりも大きい。

可能な設計方法では、構成ファイルは、第１の音声タスクと第１のコントロールの第１のタッチイベントとの間の対応関係をさらに含み、第１の音声タスクはＮ個の音声タスクのうちの１つであり、電子装置が、ユーザによって入力された音声制御信号を収集した後に、方法は、電子装置が、音声制御信号に対応する音声タスクが第１の音声タスクであると決定するステップをさらに含み；電子装置が、音声制御信号に応答してアプリケーションの第２のインターフェイスを表示するステップは、電子装置が、音声制御信号に応答して、第１のコントロール上で第１のタッチイベントを実行し、それにより、電子装置が、第１のインターフェイスを第２のインターフェイスに更新するステップを含む。

換言すれば、電子装置は、第１のインターフェイスの構成ファイルに基づいて、ユーザによって入力された音声制御信号を対応するタッチイベントに変換し、次にタッチイベントを実行することができる。これにより、音声を使用して第１のインターフェイス上の各操作ボタンを制御する機能を実現する。このようにして、電子装置は、アプリケーションの各インターフェイス上で、インターフェイス上の操作ボタン毎の音声制御機能を実現することができる。これにより、携帯電話の音声制御効率及びユーザ・エクスペリエンスが向上する。

可能な設計方法では、電子装置が第１のコントロール上で第１のタッチイベントを実行するときに、方法は、電子装置が、ユーザが第１のコントロール上で第１のタッチイベントを実行したときに提示されるアニメーション効果を表示するステップをさらに含み、これにより、ユーザはＧＵＩとＶＵＩとの両方で優れたユーザ・エクスペリエンスを得る。

可能な設計方法では、電子装置が、ユーザによって入力された音声制御信号を収集した後に、方法は、電子装置が、音声制御信号及び第１のインターフェイスのインターフェイス情報をサーバに送信し、それによって、サーバが、インターフェイス情報に基づいて、音声制御信号に対応する音声タスクを認識するステップをさらに含み、インターフェイス情報は、第１のインターフェイスの識別子、第１のインターフェイスのページタイプ、又は第１のインターフェイスが属するアプリケーションのタイプのうちの少なくとも１つを含む。この場合に、インターフェイス情報が現在の電子装置の実際の使用状況を反映できるため、サーバは、インターフェイス情報に基づいて、ユーザが入力した音声制御信号に対して音声認識をより正確に行うことができ、ユーザが実行する必要がある実際の音声タスクをより正確に決定することができる。

第２の態様によれば、本願は、電子装置を提供し、この装置は、タッチ感知面及びディスプレイを含むタッチスクリーンと；１つ又は複数のプロセッサと；１つ又は複数のメモリと；通信モジュールと；１つ又は複数のコンピュータプログラムと；を含む。プロセッサは、タッチスクリーン、通信モジュール、及びメモリのそれぞれに結合される。１つ又は複数のコンピュータプログラムがメモリに記憶される。電子装置が実行されると、プロセッサはメモリに記憶した１つ又は複数のコンピュータプログラムを実行し、それによって、電子装置は可能な設計のいずれかに１つよる音声制御方法を実行する。

第３の態様によれば、本願は、コンピュータ命令を含むコンピュータ記憶媒体を提供する。コンピュータ命令が電子装置で実行されると、電子装置は、第１の態様の可能な設計のいずれか１つによる音声制御方法を実行できるようになる。

第４の態様によれば、本願は、コンピュータプログラム製品を提供する。コンピュータプログラム製品が電子装置で実行されると、電子装置は、第１の態様の可能な設計のいずれか１つによる音声制御方法を実行することができる。

第２の態様による端末、第３の態様によるコンピュータ記憶媒体、及び第４の態様によるコンピュータプログラム製品は全て、上記で提供した対応する方法を実行するために使用されることが理解され得る。従って、端末、コンピュータ記憶媒体、及びコンピュータプログラム製品が達成できる有利な効果については、上記で提供した対応する方法における有利な効果を参照されたい。詳細についてはここでは説明しない。

従来技術における音声アプリケーションの設定インターフェイスの概略図である。本願の一実施形態による電子装置の概略構造図１である。本願の一実施形態による電子装置におけるオペレーティングシステムの概略アーキテクチャ図である。本願の一実施形態による音声制御方法の概略シナリオ図１である。本願の一実施形態による音声制御方法の概略フローチャートである。本願の一実施形態による音声制御方法の概略シナリオ図２である。本願の一実施形態による音声制御方法の概略シナリオ図３である。従来技術において音声アプリケーションがフォアグラウンドで動作する場合に示されるシナリオの概略図である。本願の一実施形態による音声制御方法の概略シナリオ図４である。本願の一実施形態による音声制御方法の概略シナリオ図５である。本願の一実施形態による音声制御方法の概略シナリオ図５である。本願の一実施形態による音声制御方法の概略シナリオ図６である。本願の一実施形態による音声制御方法の概略シナリオ図７である。本願の一実施形態による音声制御方法の概略シナリオ図８である。本願の一実施形態による音声制御方法の概略シナリオ図９である。本願の一実施形態による電子装置の概略構造図２である。

以下では、添付図面を参照して、本願の実施形態の実施態様について詳細に説明する。

本願の実施形態で提供される音声制御方法は、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ウルトラモバイルパーソナルコンピュータ（ultra-mobile personal computer, UMPC）、ハンドヘルドコンピュータ、ネットブック、携帯情報端末（personal digital assistant, PDA）、ウェアラブル電子装置、又は仮想現実装置等の電子装置に適用することができる。これは、本願の実施形態に限定されない。

例えば、図２は、電子装置１００の概略構造図である。

電子装置１００は、プロセッサ１１０、外部メモリインターフェイス１２０、内部メモリ１２１、ユニバーサルシリアルバス（universal serial bus, USB）ポート１３０、充電管理モジュール１４０、電力管理モジュール１４１、バッテリ１４２、アンテナ１、アンテナ２、移動通信モジュール１５０、無線通信モジュール１６０、オーディオモジュール１７０、スピーカ１７０Ａ、受信機１７０Ｂ、マイク１７０Ｃ、ヘッドセットジャック１７０Ｄ、センサモジュール１８０、キー１９０、モータ１９１、インジケータ１９２、カメラ１９３、ディスプレイ１９４、加入者識別モジュール（subscriber identification module, SIM）カードインターフェイス１９５等を含み得る。センサモジュール１８０は、圧力センサ１８０Ａ、ジャイロセンサ１８０Ｂ、気圧センサ１８０Ｃ、磁気センサ１８０Ｄ、加速度センサ１８０Ｅ、距離センサ１８０Ｆ、光近接センサ１８０Ｇ、指紋センサ１８０Ｈ、温度センサ１８０Ｊ、タッチセンサ１８０Ｋ、環境光センサ１８０Ｌ、骨伝導センサ１８０Ｍ等を含み得る。

本願のこの実施形態に示される構造は、電子装置１００に対する特定の限定を構成しないことが理解され得る。本願のいくつかの他の実施形態では、電子装置１００は、図に示されるものよりも多い又は少ないコンポーネントを含んでもよく、又はいくつかのコンポーネントを組み合わせてもよく、又はいくつかのコンポーネントを分割してもよく、又は異なるコンポーネント配置を使用してもよい。図に示されるコンポーネントは、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアとの組合せによって実装してもよい。

プロセッサ１１０は、１つ又は複数の処理ユニットを含み得る。例えば、プロセッサ１１０は、アプリケーションプロセッサ（application processor, AP）、モデムプロセッサ、グラフィックス処理装置（graphics processing unit, GPU）、画像信号プロセッサ（image
signal processor, ISP）、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ（digital
signal processor, DSP）、ベースバンドプロセッサ、ニューラルネットワーク処理装置（neural-network
processing unit, NPU）等を含み得る。異なる処理装置は、独立したコンポーネントである場合もあれば、１つ又は複数のプロセッサに統合される場合もある。

コントローラは、電子装置１００の中枢及びコマンドセンターであり得る。コントローラは、命令オペレーションコード及び時系列信号に基づいて動作制御信号を生成し、命令読出し及び命令実行の制御を完了する。

メモリが、プロセッサ１１０にさらに配置され、命令及びデータを記憶するように構成される。いくつかの実施形態では、プロセッサ１１０内のメモリはキャッシュメモリである。メモリは、プロセッサ１１０によって使用された、又は周期的に使用された命令又はデータを記憶することができる。プロセッサ１１０が命令又はデータを再び使用する必要がある場合に、プロセッサ１１０は、命令又はデータをメモリから直接呼び出すことができる。これにより、繰返しアクセスが回避され、プロセッサ１１０の待ち時間が短縮される。従って、システム効率が向上する。

いくつかの実施形態では、プロセッサ１１０は、１つ又は複数のインターフェイスを含み得る。インターフェイスは、集積回路間（inter-integrated circuit, I2C）インターフェイス、集積回路間サウンド（inter-integrated circuit sound, I2S）インターフェイス、パルスコード変調（pulse code modulation, PCM）インターフェイス、ユニバーサル非同期受信機／送信機（universal asynchronous receiver/transmitter, UART）インターフェイス、モバイル産業プロセッサインターフェイス（mobile industry processor interface, MIPI）、汎用入出力（general-purpose input/output, GPIO）インターフェイス、加入者識別モジュール（subscriber identify module, SIM）インターフェイス、ユニバーサルシリアルバス（universal serial bus, USB）インターフェイス等を含み得る。

Ｉ２Ｃインターフェイスは、双方向同期シリアルバスであり、シリアルデータライン（serial data line, SDA）及びシリアルクロックライン（serial clock line, SCL）を含む。いくつかの実施形態では、プロセッサ１１０は、Ｉ２Ｃバスの複数のグループを含み得る。プロセッサ１１０は、異なるＩ２Ｃバスインターフェイスを使用して、タッチセンサ１８０Ｋ、充電器、フラッシュ、カメラ１９３等に個別に結合され得る。例えば、プロセッサ１１０は、Ｉ２Ｃインターフェイスを使用してタッチセンサ１８０Ｋに結合され得、それによって、プロセッサ１１０は、Ｉ２Ｃバスインターフェイスを使用してタッチセンサ１８０Ｋと通信して、電子装置１００のタッチ機能を実現する。

Ｉ２Ｓインターフェイスは、オーディオ通信を行うように構成され得る。いくつかの実施形態では、プロセッサ１１０は、Ｉ２Ｓバスの複数のグループを含み得る。プロセッサ１１０は、Ｉ２Ｓバスを使用してオーディオモジュール１７０に結合され、プロセッサ１１０とオーディオモジュール１７０との間の通信を実現することができる。いくつかの実施形態では、オーディオモジュール１７０は、Ｉ２Ｓインターフェイスを使用してオーディオ信号を無線通信モジュール１６０に送信して、Ｂｌｕｅｔｏｏｔｈヘッドセットを使用して電話に出る（answer a call：呼出しに応答する）機能を実現することができる。

ＰＣＭインターフェイスは、オーディオ通信にも使用でき、アナログ信号をサンプリングし、量子化し、符号化する。いくつかの実施形態では、オーディオモジュール１７０は、ＰＣＭバスインターフェイスを使用して無線通信モジュール１６０に結合され得る。いくつかの実施形態では、オーディオモジュール１７０は、代替的に、ＰＣＭインターフェイスを使用してオーディオ信号を無線通信モジュール１６０に送信し、Ｂｌｕｅｔｏｏｔｈヘッドセットを使用して電話に出る機能を実現することができる。Ｉ２ＳインターフェイスとＰＣＭインターフェイスとの両方がオーディオ通信を行うように構成され得る。

ＵＡＲＴインターフェイスは、ユニバーサルシリアルデータバスであり、非同期通信のために構成される。バスは双方向通信バスでもよい。バスは、シリアル通信とパラレル通信との間で送信すべきデータを変換する。いくつかの実施形態では、ＵＡＲＴインターフェイスは、通常、プロセッサ１１０及び無線通信モジュール１６０を接続するように構成される。例えば、プロセッサ１１０は、ＵＡＲＴインターフェイスを使用して無線通信モジュール１６０内のＢｌｕｅｔｏｏｔｈモジュールと通信し、Ｂｌｕｅｔｏｏｔｈ機能を実現する。いくつかの実施形態では、オーディオモジュール１７０は、ＵＡＲＴインターフェイスを使用してオーディオ信号を無線通信モジュール１６０に転送し、Ｂｌｕｅｔｏｏｔｈヘッドセットを使用して音楽を再生する機能を実現することができる。

ＭＩＰＩインターフェイスは、プロセッサ１１０を、ディスプレイ１９４又はカメラ１９３等の周辺コンポーネントに接続するように構成され得る。ＭＩＰＩインターフェイスは、カメラシリアルインターフェイス（camera serial interface, CSI）、ディスプレイシリアルインターフェイス（display serial interface, DSI）等を含む。いくつかの実施形態では、プロセッサ１１０は、ＣＳＩインターフェイスを使用してカメラ１９３と通信し、電子装置１００の撮影機能を実現する。プロセッサ１１０は、ＤＳＩインターフェイスを使用してディスプレイ１９４と通信し、電子装置１００のディスプレイ１９４の表示機能を実現する。

ＧＰＩＯインターフェイスは、ソフトウェアにより構成され得る。ＧＰＩＯインターフェイスは、制御信号又はデータ信号として構成され得る。いくつかの実施形態では、ＧＰＩＯインターフェイスは、プロセッサ１１０を、カメラ１９３、ディスプレイ１９４、無線通信モジュール１６０、オーディオモジュール１７０、センサモジュール１８０等に接続するように構成され得る。ＧＰＩＯインターフェイスは、Ｉ２Ｃインターフェイス、Ｉ２Ｓインターフェイス、ＵＡＲＴインターフェイス、ＭＩＰＩインターフェイス等としても構成され得る。

ＵＳＢインターフェイス１３０は、ＵＳＢ標準規格に準拠したインターフェイスであり、具体的には、ミニＵＳＢインターフェイス、マイクロＵＳＢインターフェイス、ＵＳＢｔｙｐｅ－Ｃインターフェイス等であり得る。ＵＳＢインターフェイス１３０は、充電器に接続して電子装置１００を充電するように構成され得るか、又は電子装置１００と周辺装置との間でデータ伝送を行うように構成され得るか、又はヘッドセットに接続してヘッドセットを使用してオーディオを再生するように構成され得る。インターフェイスは、ＡＲ装置等の別の電子装置に接続するようにさらに構成され得る。

本願のこの実施形態に示されるモジュール同士の間のインターフェイス接続関係は、説明のための一例に過ぎず、電子装置１００の構造に対する制限を構成するものではないことが理解され得る。本願のいくつかの他の実施形態では、電子装置１００は、代替的に、上記実施形態とは異なるインターフェイス接続方式を使用してもよく、又は複数のインターフェイス接続方式の組合せを使用してもよい。

充電管理モジュール１４０は、充電器から充電入力を受け取るように構成される。充電器は、無線充電器又は有線充電器であり得る。有線充電のいくつかの実施形態では、充電管理モジュール１４０は、ＵＳＢインターフェイス１３０を使用して有線充電器の充電入力を受け取ることができる。無線充電のいくつかの実施形態では、充電管理モジュール１４０は、電子装置１００の無線充電コイルを使用して無線充電入力を受け取ることができる。充電管理モジュール１４０は、バッテリ１４２を充電しながら、電力管理モジュール１４１を使用して電力を電子装置に供給する。

電力管理モジュール１４１は、バッテリ１４２及び充電管理モジュール１４０をプロセッサ１１０に接続するように構成される。電力管理モジュール１４１は、バッテリ１４２及び／又は充電管理モジュール１４０の入力を受け取り、電力を、プロセッサ１１０、内部メモリ１２１、外部メモリ、ディスプレイ１９４、カメラ１９３、無線通信モジュール１６０等に供給する。電力管理モジュール１４１は、バッテリ容量、バッテリサイクル回数、及びバッテリ健全状態（漏電又はインピーダンス）等のパラメータを監視するようにさらに構成され得る。いくつかの他の実施形態では、電力管理モジュール１４１は、代替的に、プロセッサ１１０に配置してもよい。いくつかの他の実施形態では、電力管理モジュール１４１及び充電管理モジュール１４０は、代替的に、同じ装置内に配置してもよい。

電子装置１００の無線通信機能は、アンテナ１、アンテナ２、移動通信モジュール１５０、無線通信モジュール１６０、モデムプロセッサ、ベースバンドプロセッサ等を使用して実現することができる。

アンテナ１及びアンテナ２は、電磁波信号を送受信するように構成される。電子装置１００内の各アンテナは、１つ又は複数の通信周波数帯域をカバーするように構成され得る。アンテナの利用を改善するために、異なるアンテナをさらに多重化することができる。例えば、アンテナ１は、無線ローカルエリアネットワークのダイバーシティアンテナとして多重化してもよい。いくつかの他の実施形態では、アンテナは、同調スイッチと組み合わせて使用してもよい。

移動通信モジュール１５０は、電子装置１００に適用される、２Ｇ、３Ｇ、４Ｇ、５Ｇ等を含む無線通信に対する解決策を提供することができる。移動通信モジュール１５０は、少なくとも１つのフィルタ、スイッチ、電力増幅器、低雑音増幅器（low noise amplifier, LNA）等を含み得る。移動通信モジュール１５０は、アンテナ１を使用して電磁波を受信し、受信した電磁波に対してフィルタリング又は増幅等の処理を行い、電磁波を復調のためにモデムプロセッサに送信する。移動通信モジュール１５０は、モデムプロセッサによって変調された信号をさらに増幅し、アンテナ１を使用して信号を放射のための電磁波に変換することができる。いくつかの実施形態では、移動通信モジュール１５０内の少なくともいくつかの機能モジュールがプロセッサ１１０に配置され得る。いくつかの実施形態では、移動通信モジュール１５０内の少なくともいくつかの機能モジュールは、プロセッサ１１０内の少なくともいくつかのモジュールと同じ装置内に配置してもよい。

モデムプロセッサは、変調器及び復調器を含み得る。変調器は、送信すべき低周波ベースバンド信号を中周波又は高周波信号に変調するように構成される。復調器は、受信した電磁波信号を低周波数ベースバンド信号に復調するように構成される。次に、復調器は、復調によって得られた低周波ベースバンド信号を処理のためにベースバンドプロセッサに送信する。低周波ベースバンド信号は、ベースバンドプロセッサによって処理され、次にアプリケーションプロセッサに送信される。アプリケーションプロセッサは、オーディオ装置（スピーカ１７０Ａ、受信機１７０Ｂ等に限定されない）を使用して音信号を出力し、又はディスプレイ１９４を使用して画像又はビデオを表示させる。いくつかの実施形態では、プロセッサは独立したコンポーネントであり得る。いくつかの他の実施形態では、モデムプロセッサは、プロセッサ１１０から独立してもよく、移動通信モジュール１５０又は別の機能モジュールと同じ装置内に配置される。

無線通信モジュール１６０は、電子装置１００、無線ローカルエリアネットワーク（wireless local area networks, WLAN）（例えば、ワイファイ（wireless fidelity, Wi-Fi）ネットワーク）、Ｂｌｕｅｔｏｏｔｈ（Bluetooth,
BT）、全地球航法衛星システム（global navigation satellite system,
GNSS）、周波数変調（frequency modulation, FM）、近距離通信（near field communication, NFC）、赤外線（infrared,
IR）技術等に適用される解決策を提供し得る。無線通信モジュール１６０は、少なくとも１つの通信プロセッサモジュールを統合する１つ又は複数のコンポーネントであり得る。無線通信モジュール１６０は、アンテナ２を使用して電磁波を受信し、電磁波信号に対して周波数変調及びフィルタリング処理を行って、処理した信号をプロセッサ１１０に送信する。無線通信モジュール１６０は、プロセッサ１１０から送信すべき信号を受信し、信号に対して周波数変調及び増幅を行い、アンテナ２を使用して信号を放射のための電磁波に変換することができる。

いくつかの実施形態では、電子装置１００のアンテナ１及び移動通信モジュール１５０が結合され、電子装置１００のアンテナ２及び無線通信モジュール１６０が結合され、それによって、電子装置１００は、無線通信技術を使用して、ネットワーク及び他の装置と通信できるようになる。無線通信技術には、汎欧州デジタル移動電話方式（global system for mobile communications, GSM）、汎用パケット無線サービス（general packet radio service, GPRS）、符号分割多元接続（code division multiple access, CDMA）、広帯域符号分割多元接続（wideband code division multiple access, WCDMA）、時分割符号分割多元接続（time-division code division multiple access, TD-SCDMA）、ロングタームエボリューション（long term evolution, LTE）、ＢＴ、ＧＮＳＳ、ＷＬＡＮ、ＮＦＣ、ＦＭ、ＩＲ技術等が含まれ得る。ＧＮＳＳには、全地球測位システム（global positioning system, GPS）、全地球航法衛星システム（global
navigation satellite system, GLONASS）、ＢｅｉＤｏｕ航法衛星システム（BeiDou navigation satellite system, BDS）、準天頂衛星システム（quasi-zenith satellite system, QZSS）、及び／又は衛星ベースの拡張システム（satellite based augmentation systems, SBAS）が含まれ得る。

電子装置１００は、ＧＰＵ、ディスプレイ１９４、アプリケーションプロセッサ等を使用して表示機能を実現する。ＧＰＵは、画像処理のためのマイクロプロセッサであり、ディスプレイ１９４をアプリケーションプロセッサに接続する。ＧＰＵは、数学的計算及び幾何学的計算を行い、画像をレンダリングするように構成される。プロセッサ１１０は、表示情報を生成又は変更するプログラム命令を実行する１つ又は複数のＧＰＵを含み得る。

ディスプレイ１９４は、画像、ビデオ等を表示するように構成される。ディスプレイ１９４は、表示パネルを含む。表示パネルは、液晶ディスプレイ（liquid crystal display, LCD）、有機発光ダイオード（organic
light-emitting diode, OLED）、アクティブマトリクス有機発光ダイオード（active-matrix
organic light emitting diode, AMOLED）、フレキシブル発光ダイオード（flew
light-emitting diode, FLED）、Ｍｉｎｉｌｅｄ、Ｍｉｃｒｏｌｅｄ、ｍｉｃｒｏ－ｏＬｅｄ、量子ドット発光ダイオード（quantum dot light emitting diode, QLED）等であり得る。いくつかの実施形態では、電子装置１００は、１つ又はＮ個のディスプレイ１９４を含むことができ、Ｎは１より大きい正の整数である。

電子装置１００は、ＩＳＰ、カメラ１９３、ビデオコーデック、ＧＰＵ、ディスプレイ１９４、アプリケーションプロセッサ等を使用して撮影機能を実現することができる。

ＩＳＰは、カメラ１９３によってフィードバックされたデータを処理するように構成される。例えば、撮影中にシャッターが押され、光線がレンズを通してカメラの光感応素子に伝送され、光信号が電気信号に変換される。カメラの光感応素子は、電気信号を処理するためにＩＳＰに送信して、電気信号を可視画像に変換する。ＩＳＰは、画像のノイズ、輝度、及び外観に関してアルゴリズムの最適化をさらに実行する場合がある。ＩＳＰは、撮影シナリオの露出及び色温度等のパラメータをさらに最適化する場合がある。いくつかの実施形態では、ＩＳＰはカメラ１９３内に配置してもよい。

カメラ１９３は、静止画又はビデオを取り込むように構成される。物体の光学像が、レンズを使用して生成され、光感応素子に投影される。光感応素子は、電荷結合素子（charge coupled device, CCD）又は相補型金属酸化膜半導体（complementary
metal-oxide-semiconductor, CMOS）フォトトランジスタであってもよい。光感応素子は、光信号を電気信号に変換し、電気信号をＩＳＰに伝送して、電気信号をデジタル画像信号に変換する。ＩＳＰは、デジタル画像信号を処理のためにＤＳＰに出力する。ＤＳＰは、デジタル画像信号を、ＲＧＢ又はＹＵＶ等の標準フォーマットの画像信号に変換する。いくつかの実施形態では、電子装置１００は、１つ又はＮ個のカメラ１９３を含むことができ、Ｎは１より大きい正の整数である。

デジタル信号プロセッサは、デジタル信号を処理するように構成される。デジタル画像信号に加えて、デジタル信号プロセッサは、別のデジタル信号をさらに処理することができる。例えば、電子装置１００が周波数を選択する場合に、デジタル信号プロセッサは、周波数エネルギー等に対してフーリエ変換を行うように構成される。

ビデオコーデックは、デジタルビデオを圧縮又は解凍するように構成される。電子装置１００は、１つ又は複数のビデオコーデックをサポートすることができる。このようにして、電子装置１００は、例えば動画エキスパートグループ（moving picture experts group, MPEG）１、ＭＰＥＧ２、ＭＰＥＧ３、ＭＰＥＧ４等の複数の符号化フォーマットでビデオを再生又は記録することができる。

ＮＰＵは、ニューラルネットワーク（neural-network, NN）コンピューティングプロセッサであり、生体ニューラルネットワークの構造を参照することにより、例えば人間の脳のニューロン同士の間の伝達モードを参照することにより、入力情報を迅速に処理し、さらに自己学習を継続的に行うことができる。電子装置１００のインテリジェント認知等のアプリケーションは、例えば、画像認識、顔認識、音声認識、及びテキスト理解等、ＮＰＵを使用することによって実装することができる。

外部メモリインターフェイス１２０は、外部メモリカード、例えばマイクロＳＤカードに接続して、電子装置１００の記憶能力を拡張するように構成され得る。外部メモリカードは、外部メモリインターフェイス１２０を使用してプロセッサ１１０と通信して、データ記憶機能を実現する。例えば、音楽及びビデオ等のファイルは外部メモリカードに記憶される。

内部メモリ１２１は、コンピュータ実行可能プログラムコードを記憶するように構成され得、実行可能プログラムコードは命令を含む。プロセッサ１１０は、内部メモリ１２１に記憶した命令を実行して、電子装置１００の様々な機能アプリケーション及びデータ処理を行う。内部メモリ１２１は、プログラム記憶領域及びデータ記憶領域を含む。プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能（例えば、音声再生機能又は画像再生機能）に必要なアプリケーション等を記憶することができる。データ記憶領域は、電子装置１００の使用過程で生成されるデータ（例えば、オーディオデータ及び電話帳）等を記憶することができる。また、内部メモリ１２１は、高速ランダムアクセスメモリを含み得、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ、又はユニバーサルフラッシュストレージ（universal flash storage, UFS）等の不揮発性メモリをさらに含み得る。

電子装置１００は、オーディオモジュール１７０、スピーカ１７０Ａ、受信機１７０Ｂ、マイク１７０Ｃ、ヘッドセットジャック１７０Ｄ、アプリケーションプロセッサ等を使用して、音楽の再生又は録音等のオーディオ機能を実現することができる。

オーディオモジュール１７０は、デジタルオーディオ情報をアナログオーディオ信号出力に変換するように構成され、アナログオーディオ入力をデジタルオーディオ信号に変換するようにも構成される。オーディオモジュール１７０は、オーディオ信号を符号化及び復号化するようにさらに構成され得る。いくつかの実施形態では、オーディオモジュール１７０はプロセッサ１１０に配置してもよく、又はオーディオモジュール１７０内のいくつかの機能モジュールはプロセッサ１１０に配置してもよい。

スピーカ１７０Ａは、「ホーン（horn）」とも呼ばれ、オーディオ電気信号を音信号に変換するように構成される。電子装置１００は、スピーカ１７０Ａを介してハンズフリーモードで音楽を聴く、又は電話に出るために使用することができる。

受信機１７０Ｂは、「イヤホン」とも呼ばれ、オーディオ電気信号を音信号に変換するように構成される。電子装置１００を使用して電話に出る、又は音声情報を聞くときに、音声を聞くために受信機１７０Ｂを人の耳に近づけることができる。

マイク１７０Ｃは、「マイク」又は「マイクロホン」とも呼ばれ、音信号を電気信号に変換するように構成される。電話をかけ（making a call）又は音声情報を送信するときに、ユーザは、自分の口からマイク１７０Ｃの近くで音を出して、音信号をマイク１７０Ｃに入力することができる。電子装置１００には、少なくとも１つのマイク１７０Ｃが配置され得る。いくつかの他の実施形態では、２つのマイク１７０Ｃを電子装置１００に配置して、音信号を収集しノイズ低減機能を実現することができる。いくつかの他の実施形態では、代替的に、３つ、４つ、又はそれ以上のマイク１７０Ｃを電子装置１００に配置して、音信号を収集し、ノイズ低減を実現し、音源を認識して、指向性記録機能等を実現することができる。

ヘッドセットジャック１７０Ｄは、有線ヘッドセットに接続するように構成される。ヘッドセットジャック１７０Ｄは、ＵＳＢインターフェイス１３０であってもよく、又は３．５ｍｍオープンモバイル端末プラットフォーム（open mobile terminal platform, OMTP）標準インターフェイス、又は米国セルラー電気通信工業会（cellular telecommunications industry association of the USA, CTIA）標準インターフェイスであってもよい。

圧力センサ１８０Ａは、圧力信号を感知するように構成され、圧力信号を電気信号に変換することができる。いくつかの実施形態では、圧力センサ１８０Ａをディスプレイ１９４に配置してもよい。例えば、抵抗性圧力センサ、誘導性圧力センサ、及び容量性圧力センサ等、多くのタイプの圧力センサ１８０Ａがある。容量性圧力センサは、導電性材料で作製された少なくとも２つの平行板を含むことができる。圧力センサ１８０Ａに力が加わると、電極同士の間の静電容量が変化する。電子装置１００は、静電容量の変化に基づいて圧力強度を決定する。ディスプレイ１９４に対してタッチ操作が行われると、電子装置１００は、圧力センサ１８０Ａを使用してタッチ操作の強さを検出する。電子装置１００は、圧力センサ１８０Ａの検出信号に基づいてタッチ位置も算出することができる。いくつかの実施形態では、同じタッチ位置で行われるが異なるタッチ操作の強さを有するタッチ操作は、異なる操作命令に対応し得る。例えば、メッセージアプリケーションアイコンに対してタッチ操作の強さが第１の圧力閾値未満のタッチ操作が行われると、ＳＭＳメッセージの閲覧命令が実行される。メッセージングアプリケーションアイコンに対してタッチ操作の強さが第１の圧力閾値以上のタッチ操作が行われると、ＳＭＳメッセージの作成命令が実行される。

ジャイロセンサ１８０Ｂは、電子装置１００の移動姿勢を決定するように構成され得る。いくつかの実施形態では、３つの軸（すなわち、軸ｘ、ｙ、及びｚ）の周りの電子装置１００の角速度が、ジャイロセンサ１８０Ｂを使用して決定され得る。ジャイロセンサ１８０Ｂは、撮影中に手振れ補正を行うように構成され得る。例えば、シャッターが押されると、ジャイロセンサ１８０Ｂは、電子装置１００が揺れる角度を検出し、その角度に基づいて、レンズモジュールが補正する必要のある距離を計算し、逆の動きによってレンズが電子装置１００の揺れをキャンセルできるようにして、手ぶれ補正を実施する。ジャイロセンサ１８０Ｂは、ナビゲーションシナリオ及び体性（somatic）ゲームシナリオでも使用され得る。

気圧センサ１８０Ｃは、気圧を測定するように構成される。いくつかの実施形態では、電子装置１００は、位置決定及びナビゲーションを支援するために、気圧センサ１８０Ｃによって測定された気圧を使用することによって高度を計算する。

磁気センサ１８０Ｄは、ホールセンサを含む。電子装置１００は、磁気センサ１８０Ｄを使用してフリップ式レザーケースの開閉を検出することができる。いくつかの実施形態では、電子装置１００がクラムシェル型電話である場合に、電子装置１００は、磁気センサ１８０Ｄに基づいてフリップ式カバーの開閉を検出することができる。また、皮革ケースの検出した開閉状態又はフリップ式カバーの検出した開閉状態に基づいて、フリップ式カバーの自動ロック解除等の機構が設定される。

加速度センサ１８０Ｅは、電子装置１００の様々な方向（通常は、３軸）の加速度の大きさを検出することができ、電子装置１００が静止している場合の重力の大きさ及び方向を検出することができる。また、加速度センサ１８０Ｅは、電子装置の姿勢を特定する構成としてもよく、風景モードとポートレート（肖像）モードとの間の切替え又は歩数計等のアプリケーションに適用される。

距離センサ１８０Ｆは、距離を測定するように構成される。電子装置１００は、赤外線又はレーザー方式で距離を測定することができる。いくつかの実施形態では、写真撮影シナリオにおいて、電子装置１００は、距離センサ１８０Ｆを使用して距離を測定し、迅速な焦点合せを実施することができる。

光近接センサ１８０Ｇは、例えば、発光ダイオード（ＬＥＤ）と、例えばフォトダイオード等の光検出器とを含むことができる。発光ダイオードは、赤外線発光ダイオードであってもよい。電子装置１００は、発光ダイオードを使用して赤外線を放射する。電子装置１００は、フォトダイオードを使用して、近くの物体から反射した赤外光を検出する。十分な反射光が検出された場合に、その電子装置１００は、電子装置１００の近くに物体が存在すると判定することができる。不十分な反射光が検出された場合に、電子装置１００は、電子装置１００の近くに物体がないと判定することができる。電子装置１００は、光近接センサ１８０Ｇを使用して、ユーザが電子装置１００を耳に近づけて電話をかけることを検出し、節電のための画面を自動的にオフ状態にしてもよい。光近接センサ１８０Ｇは、スマートカバーモード又はポケットモードで使用されて、画面のロック解除又はロックを自動的に行うこともできる。

環境光センサ１８０Ｌは、環境光の輝度を感知するように構成される。電子装置１００は、感知した環境光の輝度に基づいてディスプレイ１９４の輝度を適応的に調整することができる。環境光センサ１８０Ｌは、撮影中にホワイトバランスを自動的に調整するようにも構成され得る。環境光センサ１８０Ｌは、光近接センサ１８０Ｇと協働して、電子装置１００がポケット内にあるかどうかを検出して、偶発的なタッチを回避することができる。

指紋センサ１８０Ｈは、指紋を採取するように構成される。電子装置１００は、採取した指紋の特徴を使用して、指紋ベースのロック解除、アプリケーションロック（lock）アクセス、指紋ベースの写真撮影、指紋ベースの通話応答等を実施することができる。

温度センサ１８０Ｊは、温度を検出するように構成される。いくつかの実施形態では、電子装置１００は、温度センサ１８０Ｊによって検出された温度を使用して温度処理ポリシーを実行する。例えば、温度センサ１８０Ｊによって報告された温度が閾値を超える場合に、電子装置１００は、温度センサ１８０Ｊの近くのプロセッサの性能を低下させて、熱保護のために電力消費を減らす。いくつかの他の実施形態では、温度が別の閾値よりも低い場合に、電子装置１００は、バッテリ１４２を加熱して、低温のために電子装置１００が異常にシャットダウンすることを防止する。いくつかの他の実施形態では、温度がさらに別の閾値よりも低い場合に、電子装置１００は、低温によって引き起こされる異常なシャットダウンを回避するために、バッテリ１４２の出力電圧を昇圧する。

タッチセンサ１８０Ｋは、「タッチパネル」とも呼ばれる。タッチセンサ１８０Ｋは、ディスプレイ１９４上に配置され得、タッチセンサ１８０Ｋ及びディスプレイ１９４は、「タッチスクリーン」とも呼ばれるタッチスクリーンを構成する。タッチセンサ１８０Ｋは、タッチセンサ１８０Ｋ上又はタッチセンサ１８０Ｋ付近のタッチ操作を検出する。タッチセンサは、検出したタッチ操作をアプリケーションプロセッサに転送して、タッチイベントのタイプを決定することができる。タッチ操作に関連する視覚的出力は、ディスプレイ１９４を使用して提供され得る。いくつかの他の実施形態では、タッチセンサ１８０Ｋは、ディスプレイ１９４の表面とは異なる位置で電子装置１００の表面上に配置してもよい。

骨伝導センサ１８０Ｍは、振動信号を取得することができる。いくつかの実施形態では、骨伝導センサ１８０Ｍは、人の声帯部分の振動骨の振動信号を取得することができる。骨伝導センサ１８０Ｍは、体脈と接触して血圧拍動信号を受信することもできる。いくつかの実施形態では、骨伝導センサ１８０Ｍをヘッドセット内に配置して、骨伝導ヘッドセットを得ることもできる。オーディオモジュール１７０は、声帯部分の振動骨に関するものであり且つ骨伝導センサ１８０Ｍによって得られた振動信号に基づいて、解析によって音声信号を取得し、音声機能を実現する。アプリケーションプロセッサは、骨伝導センサ１８０Ｍによって取得された血圧拍動信号に基づいて心拍数情報を解析して、心拍数検出機能を実現することができる。

キー１９０は、電源キー、音量キー等を含む。キー１９０は、機械式キーであってもよく、又はタッチ式キーであってもよい。電子装置１００は、キー入力を受信し、電子装置１００のユーザ設定及び機能制御に関するキー信号入力を生成することができる。

モータ１９１は、振動プロンプトを生成することができる。モータ１９１は、着信振動プロンプト及びタッチ振動フィードバックを提供するように構成され得る。例えば、異なるアプリケーション（例えば、写真撮影及びオーディオ再生）で行われるタッチ操作は、異なる振動フィードバック効果に対応し得る。モータ１９１は、ディスプレイ１９４の異なる領域で行われるタッチ操作に対する異なる振動フィードバック効果にも対応し得る。異なるアプリケーションシナリオ（例えば、時間アラーム（time reminder）、情報の受取り、目覚まし時計、及びゲーム）は、異なる振動フィードバック効果にも対応し得る。タッチ振動フィードバック効果はさらにカスタマイズできる。

インジケータ１９２は、インジケータライトであってもよく、且つ充電状態及び電力変化を表示するように構成してもよく、又はメッセージ、不在着信、通知等を表示するように構成してもよい。

ＳＩＭカードインターフェイス１９５は、ＳＩＭカードに接続するように構成される。ＳＩＭカードは、ＳＩＭカードインターフェイス１９５内に挿入されるか、又はＳＩＭカードインターフェイス１９５から取り外されて、電子装置１００との接触又は分離を実現することができる。電子装置１００は、１つ又はＮ個のＳＩＭカードインターフェイスをサポートすることができ、Ｎは１より大きい正の整数である。ＳＩＭカードインターフェイス１９５は、ナノＳＩＭカード、マイクロＳＩＭカード、ＳＩＭカード等をサポートすることができる。複数のカードを同時に同じＳＩＭカードインターフェイス１９５内に挿入することができる。複数のカードは、同種又は異種であってもよい。ＳＩＭカードインターフェイス１９５は、異なるタイプのＳＩＭカードと互換性があり得る。ＳＩＭカードインターフェイス１９５は、外部メモリカードとさらに互換性があり得る。電子装置１００は、ＳＩＭカードを使用してネットワークと対話し、会話及びデータ通信等の機能を実現する。いくつかの実施形態では、電子装置１００は、ｅＳＩＭ、すなわち埋込み型ＳＩＭカードを使用する。ｅＳＩＭカードは、電子装置１００内に埋め込まれ、電子装置１００から分離することができない。

電子装置１００のソフトウェアシステムは、階層化アーキテクチャ、イベント駆動型アーキテクチャ、マイクロカーネルアーキテクチャ、マイクロサービスアーキテクチャ、又はクラウドアーキテクチャを使用することができる。本願のこの実施形態では、電子装置１００のソフトウェア構造を示すために、階層化されたアーキテクチャを有するＡｎｄｒｏｉｄシステムを例として使用する。

図３は、本願の一実施形態による電子装置１００のソフトウェア構造のブロック図である。

階層化アーキテクチャでは、ソフトウェアがいくつかのレイヤに分割され、各レイヤが明確な役割及びタスクを有している。レイヤは、ソフトウェアインターフェイスを使用して互いに通信する。いくつかの実施形態では、Ａｎｄｒｏｉｄシステムは、上から順に、アプリケーションレイヤ、アプリケーションフレームワークレイヤ、Ａｎｄｒｏｉｄランタイム（android runtime）及びシステムライブラリ、及びカーネルレイヤの４つのレイヤに分割される。

アプリケーションレイヤは、一連のアプリケーションパッケージを含み得る。

図３に示されるように、アプリケーションパッケージには、「カメラ」、「ギャラリー」、「カレンダー」、「通話」、「地図」、「ナビゲーション」、「Ｂｌｕｅｔｏｏｔｈ」、「音楽」、「ビデオ」、「メッセージ」等のアプリケーションが含まれ得る。

本願のこの実施形態では、アプリケーションレイヤは、音声認識機能を有する音声アプリをさらに含み得る。音声アプリは、時には音声アシスタントアプリとも呼ばれ得、例えば、音声アシスタントＸｉａｏＥ、Ｘｉａｏａｉ、又はＳｉｒｉである。

音声アプリが有効にされた後に、ユーザが送った音声制御信号が収集され、音声制御信号が対応する音声タスクに変換される。さらに、音声アプリは、関連するアプリケーションのインターフェイスを呼び出して音声タスクを完了し、それによって、ユーザが電子装置を音声で制御できるようにすることができる。

アプリケーションフレームワークレイヤは、アプリケーションプログラミングインターフェイス（application programming interface, API）及びアプリケーションレイヤにおけるアプリケーションのためのプログラミングフレームワークを提供する。アプリケーションフレームワークレイヤには、予め規定された関数がいくつか含まれる。

図３に示されるように、アプリケーションフレームワークレイヤは、ウィンドウマネージャ、コンテンツプロバイダ、ビューシステム、電話マネージャ、リソースマネージャ、通知マネージャ等を含み得る。

ウィンドウマネージャは、ウィンドウプログラムを管理するように構成される。ウィンドウマネージャは、ディスプレイのサイズを取得し、ステータスバーがあるかどうかを判定し、画面ロックを行い、スクリーンショットの取得等を行うことができる。

コンテンツプロバイダは、データを記憶及び取得し、アプリケーションがデータにアクセスできるようにするように構成される。データには、ビデオ、画像、オーディオ、発着信した通話、閲覧履歴及びブックマーク、アドレス帳等が含まれ得る。

ビューシステムは、テキストを表示するコントロール及び写真を表示するコントロール等の視覚化コントロールを含む。ビューシステムは、アプリケーションを構築するように構成され得る。表示インターフェイスは、１つ又は複数のビューを含み得る。例えば、ＳＭＳメッセージ通知アイコンを含む表示インターフェイスは、テキスト表示ビュー及び写真表示ビューを含み得る。

電話マネージャは、電子装置１００に通信機能、例えば通話状態の管理（応答又は拒否を含む）を提供するように構成される。

リソースマネージャは、アプリケーションにローカライズ（特定の場所に制限）された文字列、アイコン、画像、レイアウトファイル、ビデオファイル等の様々なリソースを提供する。

通知マネージャは、アプリケーションがステータスバーに通知情報を表示するのを可能にし、通知メッセージを伝達するように構成され得る。通知マネージャは、ユーザとの対話を必要とせずに、短いポーズ（pause）後に自動的に消え得る。例えば、通知マネージャは、ダウンロードの完了を通知し、メッセージを通知したりする等を行うように構成される。通知マネージャは、システムの上部ステータスバーにグラフ又はスクロールバーテキストの形式で現れる通知、例えば、バックグラウンドで実行されているアプリケーションの通知であってもよく、又はダイアログウィンドウ形式で画面に現れる通知であってもよい。例えば、テキスト情報がステータスバーに表示され、警告音が鳴ったり、電子装置が振動したり、又はインジケータライトが点滅したりする。

本願のこの実施形態では、アプリケーションフレームワークレイヤは、ＶＵＩ（voice user interface、音声ユーザインターフェイス）マネージャをさらに含む。ＶＵＩマネージャは、音声アプリの動作状態を監視し得、又は音声アプリと別のアプリとの間のブリッジとして機能し得、及び音声アプリによって認識された音声タスクを実行のために関連アプリに転送することができる。

例えば、アプリケーションレイヤのアプリケーションが構成ファイルを提供し得、アプリケーションの関連インターフェイスによってサポートされる音声タスクが構成ファイルに記録され得る。音楽アプリを例として説明する。音楽アプリをインストールするときに、電子装置は、音楽アプリによって提供される構成ファイル１を電子装置に記憶することができる。構成ファイル１は、音楽アプリが音楽再生インターフェイスを表示するときに、音楽アプリによってサポートされる音声タスクを記録することができる。例えば、音声タスクには、再生、一時停止、前後の曲への切替え、音量の上げ下げ等が含まれる。

この場合に、電子装置が音楽アプリの音楽再生インターフェイスをフォアグラウンド（foreground：最前面）で実行するときに、ユーザがウェイクアップワード「こんにちは、ＸｉａｏＥ」を入力したことが検出された場合に、電子装置は、音声アプリをバックグラウンドで有効にすることができる。音声アプリが有効であることを検出した後に、ＶＵＩマネージャは、現在表示されている音楽再生インターフェイスに対応する構成ファイル１を取得することができる。また、図４に示されるように、ＶＵＩマネージャは、実行中の音楽再生インターフェイス４０２上の構成ファイル１に記録された音声タスクを音声入力プロンプト４０１の形式で表示することができる。

このようにして、ユーザが音楽アプリを使用するときに、電子装置は、現在のアプリケーションインターフェイスによってサポートされる音声タスクでユーザを促すことができる。その後、ユーザは、音楽再生インターフェイス４０２に表示される音声入力プロンプト４０１に基づいて、対応する音声制御信号を電子装置に送信し、電子装置が現在のアプリケーションインターフェイスによってサポートされる音声タスクを実行するようにトリガーすることができる。これにより、電子装置の音声アプリの音声制御効率が向上し、ユーザ・エクスペリエンスがさらに向上する。

なお、フォアグラウンドで動作するアプリケーションとは、通常、携帯電話の画面上に表示されているインターフェイスが属するアプリケーションを指すことに留意されたい。通常、インターフェイスは展開された（expanded）状態であり、ユーザはインターフェイス上のフォアグラウンド・アプリケーションと対話できる。例えば、携帯電話にＷｅＣｈａｔアプリのインターフェイスが表示されている場合に、フォアグラウンドで実行されているアプリケーションはこの時点でＷｅＣｈａｔアプリである。別の例では、図４の音楽アプリが携帯電話の画面に展開された状態で表示される場合に、音楽アプリがこの時点で最前面のアプリである。別の例では、図６のビデオアプリが携帯電話の画面上に展開された状態で表示される場合に、ビデオアプリがこの時点で最前面のアプリである。アプリケーションがバックグラウンドで動作している場合に、携帯電話は、通常、アプリケーションのインターフェイスを画面上に展開した状態で表示せず、アプリケーションのインターフェイスはユーザには見えない。しかしながら、携帯電話は、バックグラウンドアプリケーションのエントリ（例えば、アプリケーションのアイコン）を画面上に表示する場合がある。例えば、図７Ａ又は図８に示されるように、携帯電話は、バックグラウンドで実行している音声アプリの識別子７０１をフローティングメニューの形式でフォアグラウンド・アプリケーションのインターフェイス上に表示することができる。ユーザは、識別子７０１を現在のインターフェイス上の任意の位置にドラッグすることができる。さらに、携帯電話が音声アプリの識別子７０１を表示している場合でも、ユーザは、フォアグラウンド・アプリケーションのインターフェイスとさらに対話することができる。例えば、図７Ａに示されるように、ユーザは、ビデオアプリのインターフェイス６０１上の再生ボタン６０２等のコントロールをクリックすることができる。

通常、音声アプリは２つのパートを含む。１つのパートはバックグラウンドで動作する音声サービス（service）であり、ユーザが入力した音信号を収集して音信号を抽出し、テキスト変換、音声認識等を行うために使用される。他のパートは、携帯電話の画面に表示されるコンテンツであり、音声アプリのインターフェイス、例えばユーザと音声アプリとの間の対話（dialog）のコンテンツを表示するために使用される。本願のこの実施形態では、携帯電話のバックグラウンドで動作する音声アプリは、携帯電話のバックグラウンドで動作する音声サービスとして理解することができる。確かに、音声サービスがバックグラウンドで動作している場合に、携帯電話は、代替的に、音声アプリの識別子等の情報をフローティングメニュー等の形式で表示することができる。これは、本願の実施形態に限定されない。

Ａｎｄｒｏｉｄランタイムは、コアライブラリ及び仮想マシンを含む。Ａｎｄｒｏｉｄランタイムは、Ａｎｄｒｏｉｄシステムのスケジューリング及び管理を担当する。

コアライブラリは、ｊａｖａ言語で呼び出す必要のある関数とＡｎｄｒｏｉｄのコアライブラリとの２つのパートを含む。

アプリケーションレイヤ及びアプリケーションフレームワークレイヤは、仮想マシン上で動作する。仮想マシンは、アプリケーションレイヤ及びアプリケーションフレームワークレイヤのｊａｖａファイルをバイナリファイルとして実行する。仮想マシンは、オブジェクトのライフサイクル管理、スタック管理、スレッド管理、セキュリティ及び例外管理、ガベージ（garbage）コレクション等の機能を実現するように構成される。

システムライブラリは、複数の機能モジュール、例えば、サーフェイスマネージャ（surface manager）、メディアライブラリ（Media Libraries）、３次元グラフィックス処理ライブラリ（例えば、ＯｐｅｎＧＬＥＳ）、及び２Ｄグラフィックエンジン（例えば、ＳＧＬ）を含み得る。

サーフェイスマネージャは、表示サブシステムを管理し、複数のアプリケーションのために２Ｄ及び３Ｄレイヤの融合を提供するように構成される。

メディアライブラリは、一般的に使用される複数のオーディオ及びビデオフォーマット、静止画像ファイル等での再生及び記録をサポートする。メディアライブラリは、ＭＰＥＧ４、Ｈ．２６４、ＭＰ３、ＡＡＣ、ＡＭＲ、ＪＰＧ、ＰＮＧ等の複数のオーディオ及びビデオ・コーディングフォーマットをサポートすることができる。

３次元グラフィックス処理ライブラリは、３次元グラフィックスの描画、画像のレンダリング、合成、レイヤ処理等を実施するように構成される。

２Ｄグラフィックスエンジンは、２Ｄ描画のための描画エンジンである。

カーネルレイヤは、ハードウェアとソフトウェアとの間のレイヤである。カーネルレイヤには、少なくともディスプレイドライバ、カメラドライバ、オーディオドライバ、センサドライバ等が含まれる。これは、本願の実施形態に限定されない。

以下では、添付図面を参照して、本願の実施形態で提供される音声制御方法について詳細に説明する。

図５に示されるように、本願で提供される音声制御方法は、以下のステップＳ５０１～Ｓ５０５を含む。ステップＳ５０１～Ｓ５０５では、携帯電話が電子装置として使用される例を用いて説明する。

Ｓ５０１：携帯電話は、アプリケーションの第１のインターフェイスを表示し、第１のインターフェイスは、第１のインターフェイスを更新するために使用される１つ又は複数のコントロールを含む。

通常、携帯電話には、１つ又は複数のアプリケーションがインストールされている。ユーザによるアプリケーションの有効にする操作を検出した後に、携帯電話は、そのアプリケーションをフォアグラウンド・アプリケーションとして実行し始めることができる。この場合に、携帯電話は、アプリケーションのインターフェイスをタッチスクリーン上に表示することができる。第１のインターフェイスを例として使用すると、アプリケーションの第１のインターフェイスを表示するときに、携帯電話は、通常、第１のインターフェイスを展開した状態で表示し、ユーザが第１のインターフェイス上のアプリケーションと対話できるようにする。

携帯電話によって表示される第１のインターフェイスは、通常、１つ又は複数のコントロールを含む。通常、ＧＵＩ（Graphical User Interface）に提示される要素は、コントロールと呼ばれ得、コントロールは、ユーザに特定の操作を提供することができる。図６に示されるように、携帯電話によって表示される第１のインターフェイスは、ビデオアプリの再生インターフェイス６０１である。再生ボタン、戻るボタン、入力ボックス等の複数のコントロールが、再生インターフェイス６０１に配置される。ユーザは、これらのコントロールを操作して携帯電話の表示コンテンツを更新し、携帯電話は、更新した第２のインターフェイスを表示することができる。例えば、ユーザが再生インターフェイス６０１の戻るボタンをクリックしたことを検出すると、携帯電話は、クリック操作に応答して、再生インターフェイス６０１の１つ前のレベルのメニュー（すなわち、第２のインターフェイス）を表示する。別の例では、例えば、ユーザが再生インターフェイス６０１上の再生ボタンをクリックしたことを検出すると、携帯電話は、クリック操作に応答して、再生インターフェイス６０１上でビデオを再生する。この場合に、携帯電話に表示されるインターフェイスは、第１のインターフェイスから第２のインターフェイスに更新される。

Ｓ５０２：携帯電話が予めセットされたウェイクアップ信号を受信したことに応答して、携帯電話は、音声アプリをバックグラウンドで有効にして、ユーザによって入力された音声制御信号の収集を開始する。

例えば、音声アプリを有効にする前に、携帯電話は、マイクを常時オン（always on）の状態に設定してもよい。この場合に、携帯電話がアプリケーションのインターフェイス（例えば、第１のインターフェイス）を表示すると、携帯電話のマイクは、特定の動作周波数の音信号を収集する。

図６に示されるように、携帯電話は、ビデオアプリ内の「ゲーム・オブ・スローンズ（“Game of Thrones”）」の再生インターフェイス６０１（すなわち、第１のインターフェイス）を表示している。マイクが音信号を収集するときに、携帯電話は、収集した音信号が予めセットされたウェイクアップ信号であるかどうかをさらに認識することができる。例えば、ユーザが「こんにちは、ＸｉａｏＥ」という音信号を送った後、携帯電話は、マイクを使用して音信号を収集することができる。携帯電話が、音信号が予めセットされたウェイクアップ信号であると認識した場合に、この時点で、それは、ユーザが、音声アプリが提供する音声認識機能を使用して、関連する音声タスクを完了することを期待していることを示す。この場合に、携帯電話が表示している第１のインターフェイス（例えば、再生インターフェイス６０１）をブロックするのを避けるために、携帯電話は、音声アプリをバックグラウンドで有効にすることができる。例えば、図７Ａに示されるように、音声アプリをバックグラウンドで有効にした後に、携帯電話は、音声アプリのアイコン７０１を再生インターフェイス６０１上に表示することができる。アイコン７０１は、音声アプリが携帯電話のバックグラウンドで動作していることを示すために使用される。音声アプリが携帯電話のバックグラウンドで動作しているため、携帯電話は、再生インターフェイス６０１上でユーザによって行われる様々な操作、例えばユーザによる再生ボタンをクリックする操作にさらに応答することができる。もちろん、音声アプリをバックグラウンドで有効にする場合に、第１のインターフェイス（例えば、再生インターフェイス６０１）上でユーザによって行われる様々な操作に携帯電話が応答できないように代替的に予め設定しておいてもよい。これは、本願の実施形態に限定されない。

携帯電話が音声アプリをバックグラウンドで有効にした後に、ユーザは、携帯電話が実行すると期待する音声制御信号（例えばサムに電話して連絡するか、又はビデオの再生を開始する）を音声アプリに入力し始めることができる。従って、音声アプリをバックグラウンドで有効にした後にも、携帯電話は、引き続きマイクを使用して、ユーザによって入力された音声制御信号を収集できる。例えば、携帯電話は、音声アプリが有効になってから５秒間、マイクが自動的に有効になるように設定し、５秒間にユーザによって入力された音声制御信号を収集することができる。別の例では、携帯電話は、音声アプリのアイコン７０１をマイクのオン／オフボタンとして設定することができる。ユーザがアイコン７０１をクリックしたことを検出すると、携帯電話は、５秒間マイクを有効にして、５秒間にユーザによって入力された音声制御信号を収集することができる。別の例では、ユーザがアイコン７０１をクリックしたことを検出すると、携帯電話は、マイクを有効にして、マイクを作動状態に保ち、ユーザによって入力された音声制御信号を収集する。ユーザがアイコン７０１を再びクリックしたことを検出した後に、携帯電話は、マイクを無効にすることができる。

なお、ウェイクアップ信号は、ユーザが音声によって入力したウェイクアップワードに加えて、他の信号を含んでもよいことに留意されたい。例えば、ウェイクアップ信号は、ボタン上のユーザのクリック信号であってもよく、又はウェイクアップ信号は、ユーザのタッチジェスチャであってもよい。これは、本願の実施形態に限定されない。

また、携帯電話は、音声アプリの使用を許可するアプリケーションを予め設定しておいてもよい。例えば、ＷｅＣｈａｔアプリには音声アプリを使用する許可があるが、Ａｌｉｐａｙアプリには音声アプリを使用する許可がない場合がある。この場合に、携帯電話がフォアグラウンドで音声アプリを使用する許可を有するアプリケーションを実行している場合に、携帯電話がユーザによって入力されたウェイクアップ信号を受信すると、携帯電話は、音声アプリをバックグラウンドで有効にすることができる。これに対応して、携帯電話がフォアグラウンドで音声アプリを使用する許可がないアプリケーション又はアプリケーションのインターフェイスを実行している場合に、携帯電話がユーザによって入力されたウェイクアップ信号を受信した後に、携帯電話は、フォアグラウンドで音声アプリを実行することができる。図７Ｂに示されるように、フォアグラウンドで音声アプリを実行するときに、携帯電話は、音声アプリのインターフェイス７０２を展開した状態で表示することができる。インターフェイス７０２は、音声アプリのコントロールを含み得る。インターフェイス７０２において、携帯電話は、ユーザと音声アプリとの間の対話（dialog）のコンテンツを表示することができる。

Ｓ５０３：携帯電話は、第１のインターフェイスに関連する構成ファイルを取得し、構成ファイルは、携帯電話による実行が許可される音声タスクを第１のインターフェイス上に記録する。

ユーザが、携帯電話が第１のインターフェイスを表示しているときに音声アプリを有効にするので、音声アプリを有効にした後に、ユーザは、音声アプリを使用して第１のインターフェイスに関連する音声タスクを実行したいと考える場合がある。例えば、第１のインターフェイスは再生インターフェイス６０１である。携帯電話が再生インターフェイス６０１を表示するときに、携帯電話がユーザによって入力されたウェイクアップ信号を検出すると、それはおそらく、ユーザが、音声アプリを使用して再生インターフェイス６０１上の操作ボタンに対して特定の操作を行う必要があることを示す。例えば、ユーザが再生インターフェイス６０１上の再生ボタン６０２を片手でクリックするのが不便な場合に、ユーザは、音声アプリの音声制御機能を使用して、ビデオ「ゲーム・オブ・スローンズ」を再生インターフェイス６０１上に表示する操作を行いたい場合がある。

本願のこの実施形態では、携帯電話は、各アプリケーションの構成ファイルを予め記憶することができる。例えば、各アプリケーションは１つ又は複数の構成ファイルに対応する。１つの構成ファイルの場合に、構成ファイルは、音声アプリによってサポートされる音声タスクを１つのアプリケーションの異なるインターフェイスに記録する。代替的に、１つの構成ファイルは、音声アプリによってサポートされている音声タスクを１つのアプリケーションの１つのインターフェイスのみに記録する場合がある。前述のビデオアプリを例として使用すると、ビデオアプリの開発者は、再生インターフェイスの構成ファイル１及びホームページの構成ファイル２をビデオアプリのインストールパッケージに設定することができる。構成ファイル１は、音声アプリによって実行が許可されている音声タスク（例えば、再生、早送り、次のエピソードへの切替え）をビデオアプリの再生インターフェイスに記録する。構成ファイル２は、音声アプリによって実行が許可されている音声タスク（例えば、履歴再生記録の表示、又はキーワードの検索）をビデオアプリのホームページに記録する。ビデオアプリをインストールするときに、携帯電話は、ビデオアプリのインストールパッケージで提供される構成ファイル１及び構成ファイル２をローカルに保存することができる。

あるいはまた、携帯電話は、構成ファイル１及び構成ファイル２を自動的に生成することができる。例えば、ビデオアプリの再生インターフェイス６０１を実行するときに、携帯電話は、再生インターフェイス６０１に含まれるボタン及びボタンの属性を取得することができる。再生ボタン６０２を例として使用すると、再生ボタン６０２の属性は、再生ボタン６０２がクリック可能なボタンタイプであることであり、再生ボタン６０２のクリックは、ビデオの再生を開始するか、又はビデオの再生を停止するために使用され得る。この場合に、携帯電話は、再生インターフェイス６０１がサポートする音声タスクとして、再生タスク及び一時停止タスクを構成ファイル１に記録することができる。同様に、携帯電話は、再生インターフェイス６０１上の別のボタン対応する音声タスクを構成ファイル１に記録し、最終的に、再生インターフェイス６０１に対応する構成ファイル１を生成する。

例えば、構成ファイルは、ＸＭＬ（Extensible Markup Language、拡張マークアップ言語）フォーマットのファイルであってもよい。例えば、構成ファイル１の特定のコンテンツは次の通りである。
<VoiceIntentList>
<VoiceIntent //音声タスク１
IntentId="@id/intent_power" //音声タスク１は再生タスクである
bindViewId="@id/power" //音声タスク１に対応するボタンは再生ボタンである
voiceOnClick="voiceSwitchPower" //音声タスク１に対応する操作は再生ボタンのクリックである
voiceTags="@string/power_controller"/> //発言：（オプション）電源制御
<VoiceIntent //音声タスク２
…>
<VoiceIntent //音声タスク３
…>

構成ファイル１は、音声アプリによって実行が許可される１つ又は複数の音声タスクをビデオアプリの再生インターフェイス上に記録することが分かり得る。音声タスク１を例として使用する。ＩｎｔｅｎｔＩｄフィールドは、音声タスク１の特定のコンテンツが再生タスクであることを記録する。ｂｉｎｄＶｉｅｗＩｄフィールドは、音声タスク１が実行されるボタンが再生インターフェイス上の再生ボタンであることを記録する。ｖｏｉｃｅＯｎＣｌｉｃｋフィールドは、音声タスク１が実行されたときに携帯電話で行われた特定の操作が再生ボタンのクリックであることを記録する。

具体的には、構成ファイル１は、音声タスク１と、再生インターフェイス上の再生ボタンをクリックするタッチイベントとの間の対応関係をさらに記録する。携帯電話の場合に、携帯電話がユーザによる再生タスクを入力するための音声制御信号を受信すると、それは、携帯電話が、ユーザが再生インターフェイス上の再生ボタンをクリックしたことを検出することと等価である。オプションで、ｖｏｉｃｅＴａｇｓフィールドは音声タスク１の音声に関する発言（remark）を記録する。例えば、一部のユーザは、再生操作を電源制御として呼び出すために使用する。従って、電力制御は、再生タスクの別の表現方法と言うことができる。その後、ユーザが入力した電力制御に関する音声制御信号を検出すると、携帯電話は、音声タスク１の発言を参照して、ユーザが実行を期待している音声タスクが再生タスクであると判断することができる。

その後、携帯電話が、ユーザによって入力された音声制御信号が再生タスクに対応すると判断した場合に、携帯電話は、構成ファイル１のｂｉｎｄＶｉｅｗＩｄフィールド及びｖｏｉｃｅＯｎＣｌｉｃｋフィールドに基づいて、ビデオアプリにおける再生ボタンのクリックに対応する関連する関数（例えば、ｖｏｉｃｅＳｗｉｔｃｈＰｏｗｅｒコールバック関数）を実行することができる。このようにして、ビデオアプリにおいて音声制御信号を使用して、携帯電話が再生タスクを実行するように制御する機能が実現される。

具体的には、ステップＳ５０３において、携帯電話がアプリケーションレイヤで音声アプリを有効にした後に、音声アプリは、音声アプリの有効化イベントをアプリケーションフレームワークレイヤのＶＵＩマネージャに報告することができる。有効化イベントを検出した後に、ＶＵＩマネージャは、現在表示されている第１のインターフェイスに関連する構成ファイルを取得できる。例えば、ＶＵＩマネージャは、フォアグラウンドで実行されているインターフェイスがビデオアプリの再生インターフェイス６０１であると最初に決定することができる。次に、ＶＵＩマネージャは、再生インターフェイス６０１の識別子に基づいて、再生インターフェイス６０１のビデオアプリに設定されている構成ファイル１を読み出すことができる。構成ファイル１は、音声アプリによって実行が許可される１つ又は複数の音声タスクをビデオアプリの再生インターフェイス上に記録する。

Ｓ５０４：携帯電話は、構成ファイルに基づいて、音声入力プロンプトを第１のインターフェイス上に表示する。

第１のインターフェイス上で音声アプリを有効にした後に、ユーザは、第１のインターフェイス上で音声アプリによって実行できる特定の音声タスクを知らない可能性がある。このため、ユーザは、音声アプリが提供する様々な音声認識機能を正確に利用することができない。ステップＳ５０４において、携帯電話が第１のインターフェイスに関連する構成ファイルを取得した後に、構成ファイルに記録された全ての音声タスクが第１のインターフェイス上の音声アプリによって実行できるため、携帯電話は、構成ファイル内の１つ又は複数の音声タスクを音声入力プロンプトとして第１のインターフェイス上に表示して、ユーザに正確な音声制御信号を送信して第１のインターフェイス上の機能を制御するように促す。

例えば、再生インターフェイス６０１の構成ファイル１を取得した後に、ＶＵＩマネージャは、構成ファイル１に記録された音声タスクを音声入力プロンプトの形式で再生インターフェイス６０１上に表示することができる。図８に示されるように、携帯電話は、音声アプリのアイコン７０１の近くに１つ又は複数の音声入力プロンプト８０１を表示させることができる。各音声入力プロンプト８０１は、構成ファイル１内の１つの音声タスクに対応する。通常、各音声タスクは、再生インターフェイス６０１上の１つ又は複数のコントロールに関連付けられる。従って、各音声入力プロンプトは、第１のインターフェイス上の１つ又は複数のコントロールにも関連付けられる。例えば、再生タスクが構成ファイル１に記録されており、再生タスクが再生インターフェイス６０１上の再生ボタンに対応する場合に、携帯電話は、対応する音声入力プロンプト「再生」を表示させることができる。早送りタスクが構成ファイル１に記録されており、早送りタスクが再生インターフェイス６０１上の早送りボタン及びビデオ進行バーのスライダーに対応している場合に、携帯電話は、対応する音声入力プロンプト「ｘ秒早送り」を表示させることができ、ｘは任意の正の整数であり、例えば、図８の「１０秒早送り」である。

音声入力プロンプトの量が比較的多い場合に、「もっと（more）」ボタン８０２を再生インターフェイス６０１上に表示してもよい。ユーザが「もっと」ボタン８０２をクリックしたことを検出すると、携帯電話は、非表示の音声入力プロンプト８０１を再生インターフェイス６０１上で完全に表示させることができる。ユーザが「もっと」ボタンをクリックする前に、携帯電話は、ユーザの使用習慣に基づいて、ユーザが最も頻繁に使用するいくつかの音声入力プロンプト８０１のみを表示させることができる。また、携帯電話は、ユーザの音声を知的に認識することができる。例えば、図８に示される音声入力プロンプト８０１では、「１０秒早送り」という音声プロンプトがある。ユーザが与えた音声命令が「１５秒早送り」の場合に、携帯電話は、その命令を２つの命令：「早送り」及び「１５秒」に分割してユーザの意図をさらに理解し、ビデオを１５秒間早送りすることができる。

上記実施形態では、音声入力プロンプト８０１を再生インターフェイス６０１に表示する例を説明のために使用した。携帯電話が別のアプリケーションのインターフェイスを表示するときに、携帯電話は、音声入力プロンプトの形式で、前述の方法に従って現在のインターフェイスによってサポートされる音声タスクをユーザに促すこともできることを理解されたい。例えば、図９（ａ）に示されるように、携帯電話がカメラアプリの撮影インターフェイス９０１を表示するときに、携帯電話が音声アプリをバックグラウンドで有効にしていることをこの携帯電話が検出すると、携帯電話は、カメラアプリの撮影インターフェイス９０１に関連する構成ファイルを取得し、さらに、構成ファイル内の音声タスクを音声入力プロンプト９０２の形式で撮影インターフェイス９０１上に表示させることができる。例えば、音声入力プロンプト９０２は「写真撮影」、「記録（record：録画）」、「自撮り（self-photographing）」、「写真を見る」等を含み得る。「写真撮影」は、撮影インターフェイス９０１上の撮影ボタンに対応する。「記録」は、撮影インターフェイス９０１上の記録ボタンに対応する。「自撮り」は、撮影インターフェイス９０１上にある正面カメラを有効にするボタンに対応する。「写真を見る」は、撮影インターフェイス９０１上の写真サムネイル９０３に対応する。音声入力プロンプト９０２に対応する全ての音声タスクは、撮影インターフェイス９０１上の音声アプリによって実行できるタスクである。

例えば、携帯電話が図９（ａ）に示される撮影インターフェイス９０１を表示している場合に、携帯電話１００が、ユーザが音声制御信号「写真撮影」を入力したことを検出すると、携帯電話は、音声制御信号に応答して、音声制御信号に対応する写真撮影操作を行うために音声アプリを呼び出すことができる。写真撮影操作が完了した後に、携帯電話は、カメラアプリの撮影インターフェイス９０１を表示し続けることができる。この場合に、図９（ｂ）に示されるように、以前の撮影で携帯電話が取得した写真サムネイル９０３も撮影インターフェイス９０１上に表示され得る。さらに、携帯電話は、撮影インターフェイス９０１に対応する音声入力プロンプト９０２を表示し続けることができる。この場合に、ユーザが以前の撮影で取得した写真を見たい場合に、ユーザは、「写真を見る」という音声制御信号を携帯電話に入力することができる。音声制御信号に応答して、図１０に示されるように、携帯電話は、ギャラリーアプリを有効にして、最新の写真の閲覧インターフェイス９０４を表示させることができる。また、携帯電話は、閲覧インターフェイス９０４に関連する構成ファイルを取得し、さらに、構成ファイル内の音声タスクを音声入力プロンプト９０５の形式で閲覧インターフェイス９０４上に表示させることができる。例えば、音声入力プロンプト９０５は、「ズームイン」、「ズームアウト」、「次へ」、「カメラに戻る」等を含み得る。閲覧インターフェイス９０４に表示される写真をコントロールとしても使用でき、「ズームイン」、「ズームアウト」、「次へ」等の音声入力プロンプト９０５は全て写真に対応する。「ズームイン」は、写真上でズームイン操作を行うことに対応する。「ズームアウト」は、写真上でズームアウト操作を行うことに対応する。「次へ」は、写真上でスライド操作を行うことに対応する。閲覧インターフェイス９０４が次の写真を表示するために使用されるボタンを含む場合に、「次へ」は、次の写真を表示するために使用されるボタンにさらに対応し得る。

また、携帯電話が顔認識機能を有する場合に、携帯電話は、閲覧インターフェイス９０４に含まれる顔、例えば、ユーザＡをさらに自動的に認識することができる。さらに、ユーザによって入力され受信した音声制御信号が「ユーザＡを拡大」である場合に、携帯電話は、ユーザＡの位置（例えば、ユーザＡの顔）を中心に、現在表示中の画像をズームインすることができる。

換言すれば、携帯電話が、アプリケーションのインターフェイスを表示し、音声アプリをバックグラウンドで有効にした後に、携帯電話は、現在のインターフェイス上の音声アプリによって実行できる音声タスクをユーザに促すことができる。このようにして、ユーザは音声アプリを使用して現在のインターフェイス上の様々な機能を音声でどの様に制御するかを正確に学習できる。これにより、音声アプリの利用効率が向上する。

また、携帯電話によって表示される同じアプリケーションのインターフェイス上の音声入力プロンプトも動的に変更することができる。例えば、携帯電話が、ビデオが再生インターフェイス６０１で再生されていることを検出すると、携帯電話は、音声入力プロンプト「再生」を非表示にすることができる。これに対応して、ユーザが再生インターフェイス６０１でビデオの再生を一時停止したことを検出すると、携帯電話は音声入力プロンプト「再生」を表示し、携帯電話は音声入力プロンプト「一時停止」を非表示にすることができる。これは、本願の実施形態に限定されない。

例えば、音声アプリを有効にした後に、携帯電話は、第１のインターフェイスに関連する音声入力プロンプトを直ぐに表示することができる。あるいはまた、音声アプリを有効にした後に、携帯電話が特定の時間（例えば、２秒）以内にユーザによって入力された音声制御信号を収集しない場合に、それは、ユーザがこの場合に音声アプリをどの様に使用かを知らない可能性があることを示す。従って、携帯電話は、第１のインターフェイスに関連する音声入力プロンプトを表示させることができる。あるいはまた、図１１に示されるように、音声アプリを有効にした後に、携帯電話は、プロンプトボタン１００１を第１のインターフェイス（例えば、再生インターフェイス６０１）上に表示させることができる。ユーザがプロンプトボタン１００１をクリックしたことを検出すると、携帯電話は、前述の方法に従って、図８に示される関連する音声入力プロンプト８０１を再生インターフェイス６０１上に表示させることができる。

ある期間（例えば、３秒）に亘って音声入力プロンプトを第１のインターフェイス上に表示した後に、携帯電話は、音声入力プロンプトを自動的に非表示にすることができる。あるいはまた、携帯電話が音声入力プロンプトを第１のインターフェイス上に表示した後に、携帯電話が特定の時間内にユーザによって入力された音声制御信号を収集しないか、又は特定の時間内にタッチスクリーン上でのユーザの入力イベントを検出しなかった場合に、携帯電話は、第１のインターフェイス上の音声入力プロンプトを自動的に非表示にしてもよい。

携帯電話が音声入力プロンプトを第１のインターフェイス上に表示するステップ（すなわち、ステップＳ５０４）はオプションのステップであることに留意されたい。換言すると、音声アプリをバックグラウンドで有効にした後に、携帯電話は、現在のインターフェイス上の音声アプリによってサポートされる音声タスクでユーザに促さない（プロンプトを表示しない）場合がある。これは、本願の実施形態に限定されない。

携帯電話が音声入力プロンプトを表示するかどうかにかかわらず、携帯電話が音声アプリをバックグラウンドで有効にした後に、ユーザは、音声アプリを使用して音声制御信号を携帯電話に入力することができる。この場合に、音声アプリがユーザによって入力された音声制御信号を収集した後に、以下のステップＳ５０５が続いて実行され得る。

Ｓ５０５：音声アプリによって収集された音声制御信号に応答して、携帯電話は音声制御信号に対応する音声タスクを実行し、それによって、携帯電話は表示された第１のインターフェイスを第２のインターフェイスに更新する。

再生インターフェイス６０１を例として引き続き使用すると、携帯電話が音声入力プロンプト８０１を再生インターフェイス６０１上に表示した後に、ユーザは、音声入力プロンプト８０１に基づいて、対応する音声制御信号を携帯電話に入力することができる。この場合に、音声アプリは引き続きバックグラウンドで実行される。従って、音声アプリは、マイクを使用して、ユーザによって入力された音声制御信号を収集することができる。例えば、ユーザが「再生」又は「再生を開始」等の音声制御信号を入力した後に、音声アプリは、予め設定した音声認識アルゴリズムを使用して、ユーザが入力した音声制御信号をテキスト信号に変換し、音声制御信号に対応する実際の音声タスクを認識するために、意味（semantic）理解を実行する。また、音声アプリは、認識した実際の音声タスクをアプリケーションフレームワークレイヤのＶＵＩマネージャに報告することができる。ＶＵＩマネージャは、実際の音声タスクとステップＳ５０３で取得した構成ファイル１に記録された音声タスクとを比較し、ユーザによって入力された音声制御信号が構成ファイル１内でサポートされている音声タスクであるかどうかを判定する。

ユーザによって入力された音声制御信号が構成ファイル１内の音声タスクである場合に、例えば、ユーザによって入力された音声制御信号「再生」が構成ファイル１内の音声タスク１である場合に、ＶＵＩマネージャは、構成ファイル１に基づいて、音声タスク１に対応するタッチイベントを実行することができる。音声タスク１を例として引き続き使用すると、構成ファイル１は、音声タスク１が再生ボタンに対応する、具体的には再生インターフェイス上の再生ボタンをクリックするタッチイベントに対応することを記録する。これは、ユーザが、音声制御信号「再生」を入力することにより、再生インターフェイス６０１上の再生ボタン６０２を制御して再生機能を実行することを期待していることを示す。この場合に、ＶＵＩマネージャは、構成ファイル１内のｂｉｎｄＶｉｅｗＩｄフィールド及びｖｏｉｃｅＯｎＣｌｉｃｋフィールドに基づいて、ビデオアプリにおいて再生ボタンをクリックすることに対応する関連する関数（例えば、音声タスク１のｖｏｉｃｅＳｗｉｔｃｈＰｏｗｅｒコールバック関数）を実行して、ビデオアプリにおいて音声制御信号「再生」に対応する音声タスクを実施することができる。この場合に、図１２に示されるように、再生インターフェイス６０１上の再生ボタン６０２がクリックされた後に、携帯電話によって再生されるビデオコンテンツが変化する。また、元々表示されていた再生ボタン６０２を一時停止ボタン１１０３に更新してもよい。換言すると、携帯電話によって表示されるインターフェイスは、第１のインターフェイスから第２のインターフェイス１１０２に更新される。

また、図１２に示されるように、音声制御信号「再生」に対応する音声タスクが実施された後に、音声アプリは、ユーザが入力した音声制御信号に関する応答情報１１０１をさらに表示して、音声制御信号に対する応答が完了したことをユーザに促すことができる。その後、ユーザは、さらに音声アプリと通信し続けて、別の音声制御信号に対する応答を完了することができる。

あるいはまた、携帯電話が、ユーザによって入力された音声制御信号が構成ファイル１内の音声タスク１であると判定した後に、音声タスク１には、タスクが具体的には再生タスクであり、そのタスクに使用されるボタンが再生ボタンであることが記録されているため、ＶＵＩマネージャは、再生ボタンのクリックイベントをビデオアプリにさらに報告する場合がある。例えば、ＶＵＩマネージャは、クリックイベントにおける再生ボタンの座標を伝えて、座標をビデオアプリに報告することができる。さらに、クリックイベントに応答して、ビデオアプリは、関連する関数をフレームワークレイヤで呼び出して、ビデオを再生するための再生タスクを実行することができる。

本願のこの実施形態では、対応する構成ファイルがアプリケーション内のインターフェイス毎に設定され得ることが分かり得る。構成ファイルは、対応するインターフェイスによってサポートされる音声タスクと、音声タスクに対応する特定のタッチイベントとを記録する。このようにして、アプリケーションのインターフェイスを実行するときに、携帯電話は、インターフェイスの構成ファイルに基づいて、ユーザが入力した音声制御信号を対応するタッチイベントに変換し、次にタッチイベントを実行して、アプリケーションのインターフェイス上の各操作ボタンを音声によって制御する機能を実現することができる。このようにして、携帯電話は、インターフェイス上の操作ボタン毎の音声制御機能をアプリケーションの各インターフェイス上で実現することができる。これにより、携帯電話の音声制御効率及びユーザ・エクスペリエンスが向上する。

また、ユーザによって入力された音声制御信号が構成ファイル１内の再生タスクであると判定した後に、携帯電話は、再生ボタン６０２をクリックするタッチ制御操作のアニメーション効果を再生インターフェイス６０１上にさらに表示して、携帯電話がユーザによって入力された音声制御信号に応答していることをユーザに視覚的に促すことができる。別の例では、携帯電話に表示されているインターフェイス上でユーザが音声によってテキスト（例えば、電話番号）を入力すると、携帯電話は、インターフェイス上で、電話番号を入力するプロセスをユーザに提示すこともでき、それによって、ユーザは、ＧＵＩ（graphical user interface、グラフィカルユーザインターフェイス）とＶＵＩとの両方で優れたユーザ・エクスペリエンスを得ることができる。

例えば、携帯電話が、ユーザによって入力された音声制御信号が構成ファイル１内の再生タスクであると判定した後に、携帯電話は、以下のコードを実行することにより、タッチスクリーン上でのクリックイベントの表示プロセスをシミュレートすることができる。
new
OnVoiceClickListener{
public
void onVoiceClick（final View view）{
view.setPressed（true）； //指の押圧をシミュレートし、押圧した状態を表示する
view.performClick（）； //クリックイベントに対応するコールバック関数を実行する
view.postDelayed（new RealsePressed（view）, 500）； //５００ｍｓ後、指のリリースをシミュレートし、リリース状態を表示する
}
}

これに対応して、ユーザによって入された音声制御信号が第１のインターフェイスの構成ファイル内の音声タスクに属していない場合に、それは、携帯電話が、ユーザが送った音声制御信号の現在の第１のインターフェイス上での実行をサポートしていないことを示す。携帯電話は、音声アプリを使用して、音声タスクを完了できないことをユーザに促す、又は音声タスクを再入力するようユーザに促すことができる。

いくつかの他の実施形態では、図１３に示されるように、音声アプリを使用してユーザが入力した音声制御信号を収集した後に、携帯電話は、その音声制御信号をサーバにさらに送信することができる。例えば、ユーザによって入力された音声制御信号が比較的複雑であり、その結果、音声アプリが音声制御信号を認識し難い場合に、携帯電話は、ユーザによって入力された音声制御信号をサーバに送信することができる。サーバは、ユーザによって入力された音声制御信号に対して意味認識及び理解を行い、音声制御信号に対応する実際の音声タスクを認識する。その後、サーバは、認識した実際の音声タスクを携帯電話に送信し得、それによって、携帯電話は、実際の音声タスクを対応する構成ファイル内の音声タスクと比較して、ユーザによって入力された音声制御信号が構成ファイル内にサポートされている音声タスクであるかどうかを判定する。

例えば、本願のこの実施形態では、ユーザにより入力された音声制御信号をサーバに送信することに加えて、携帯電話は、第１のインターフェイスのインターフェイス情報をサーバにさらに送信することができる。例えば、第１のインターフェイスのインターフェイス情報は、第１のインターフェイスの識別子であってもよく、又は第１のインターフェイスのページタイプ（例えば、設定インターフェイス又はチャットインターフェイス）であってもよく、又は第１のインターフェイスが属するアプリケーションのタイプ（例えば、ビデオアプリケーション）、パッケージ名（package name）等であってもよい。

例えば、ユーザの携帯電話には、ＣｔｒｉｐアプリとＢｏｏｋｉｎｇ（予約）アプリとの両方がインストールされている。Ｂｏｏｋｉｎｇアプリは、携帯電話の音声アプリで使用されるデフォルトのアプリケーションのうちの１つである。さらに図１３に示されるように、携帯電話は、現在、Ｃｔｒｉｐアプリのホームページ１２０１を表示している。携帯電話が音声アプリをバックグラウンドで有効にすると、音声アプリは、ユーザが入力した「航空券を予約したい」という音声制御信号を収集する。また、携帯電話は、音声アプリによって収集された音声制御信号をサーバに送信することができる。また、携帯電話は、現在実行中のホームページ１２０１のインターフェイス情報（例えば、Ｃｔｒｉｐアプリのパッケージ名）をサーバにさらに送信することができる。このようにして、サーバは、インターフェイス情報を参照して「航空券を予約したい」という音声制御信号に対して音声認識を実行し、ユーザが送った実際の音声タスクはＢｏｏｋｉｎｇアプリの代わりにＣｔｒｉｐアプリを使用して航空券を予約することを認識できる。この場合に、サーバが認識した実際の音声タスクを携帯電話に送信した後に、携帯電話は、「航空券を予約したい」という音声制御信号に応答して、実際の音声タスクに基づいてＣｔｒｉｐアプリの航空券検索インターフェイスを自動的に有効にすることができる。

これに対応して、携帯電話が現在表示しているインターフェイスがＣｔｒｉｐアプリのインターフェイスでない場合に、例えば、携帯電話がデスクトップ（home screen、ホーム画面とも呼ばれる）を現在表示している場合に、携帯電話が音声アプリをバックグラウンドで有効にし、音声アプリが、ユーザが入力した「航空券を予約したい」という音声制御信号を収集すると、携帯電話は、音声アプリによって収集された音声制御信号をサーバに送信することができる。また、携帯電話は、現在実行中のデスクトップのインターフェイス情報をサーバにさらに送信することができる。このようにして、サーバは、インターフェイス情報を参照して「航空券を予約したい」という音声制御信号に対して音声認識を実行し、ユーザが送った実際の音声タスクが、Ｃｔｒｉｐアプリを使用して航空券を予約する代わりに、デフォルトのＢｏｏｋｉｎｇアプリを使用して航空券を予約することを認識できる。この場合に、サーバが認識した実際の音声タスクを携帯電話に送信した後に、携帯電話は、「航空券を予約したい」という音声制御信号に応答して、実際の音声タスクに基づいてＢｏｏｋｉｎｇアプリの航空券検索インターフェイスを自動的に有効にすることができる。

換言すれば、本願のこの実施形態では、携帯電話は、実行中のアプリケーションのインターフェイス情報をサーバに能動的に送信することができる。インターフェイス情報が携帯電話の現在の実際の使用状況を反映することができるので、サーバは、インターフェイス情報を参照して、ユーザが入力した音声制御信号に対する音声認識をより正確に行うことができる。このようにして、ユーザが送った実際の音声タスクがより正確に決定される。

図１４に示されるように、本願の実施形態は、電子装置を開示しており、電子装置は、タッチスクリーン１４０１（タッチスクリーン１４０１は、タッチ感知表面１４０６及びディスプレイ１４０７を含む）；１つ又は複数のプロセッサ１４０２；メモリ１４０３；通信モジュール１４０８；１つ又は複数のアプリケーション（図示せず）；１つ又は複数のコンピュータプログラム１４０４を含み、前述のコンポーネントは、１つ又は複数の通信バス１４０５を使用して接続することができる。１つ又は複数のコンピュータプログラム１４０４は、メモリ１４０３に記憶され、１つ又は複数のプロセッサ１４０２によって実行されるように構成される。１つ又は複数のコンピュータプログラム１４０４は、命令を含む。命令は、前述の実施形態のステップを実行するために使用され得る。例えば、命令は、図５に示されるステップを実行するために使用され得る。

実施態様に関する前述の説明により、当業者は、便宜的且つ簡潔な説明の目的で、前述の機能モジュールの分割が説明のための例として取り上げられることを理解することができる。実際のアプリケーションでは、必要に応じて、上記の機能を異なるモジュールに割り当てて実装することができる。すなわち、機器の内部構造を異なる機能モジュールに分割して、上記の機能の全部又は一部を実現することができる。前述のシステム、機器、及びユニットの詳細な作業プロセスについては、前述の方法の実施形態の対応するプロセスを参照されたい。ここでは詳細について再び説明しない。

本願の実施形態における機能ユニットは、１つの処理ユニットに統合してもよく、又は各ユニットが物理的に単独で存在してもよく、又は２つ以上のユニットを１つのユニットに統合してもよい。統合ユニットは、ハードウェアの形式で実装してもよく、又はソフトウェア機能ユニットの形式で実装してもよい。

統合ユニットがソフトウェア機能ユニットの形式で実装され、独立した製品として販売又は使用される場合に、統合ユニットは、コンピュータ可読記憶媒体に記憶してもよい。このような理解に基づいて、本願の実施形態の技術的解決策、又は先行技術に寄与する部分、又は技術的解決策の全て又は一部をソフトウェア製品の形式で実装することができる。コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ装置（パーソナルコンピュータ、サーバ、又はネットワーク装置であり得る）に、本願の実施形態で説明した方法の全て又は一部のステップを実行するように命令するためのいくつかの命令を含む。前述の記憶媒体には、フラッシュメモリ、リムーバブルハードディスク、読取り専用メモリ、ランダムアクセスメモリ、磁気ディスク、又は光ディスク等、プログラムコードを記憶できる任意の媒体が含まれる。

前述の説明は、本願の実施形態の特定の実施態様に過ぎず、本願の実施形態の保護範囲を限定することを意図していない。本願の実施形態に開示された技術的範囲内のいかなる変形又は置換も、本願の実施形態の保護範囲内にあるものとする。従って、本願の実施形態の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims

電子装置であって、当該電子装置は、
タッチ感知面及びディスプレイを含むタッチスクリーンと、
１つ又は複数のプロセッサと、
１つ又は複数のメモリと、
１つ又は複数のコンピュータプログラムと、を含み、
該１つ又は複数のコンピュータプログラムは前記１つ又は複数のメモリに記憶され、前記１つ又は複数のコンピュータプログラムは命令を含み、該命令が前記１つ又は複数のプロセッサによって実行されると、当該電子装置は、
第１のアプリケーションの第１のインターフェイスを表示する段階であって、該第１のインターフェイスは、前記第１のインターフェイスを更新するために使用される少なくとも１つのコントロールを含む、表示する段階と、
ユーザにより入力されたウェイクアップ信号に応答して、音声アプリケーションをバックグラウンドで有効にする段階と、
Ｍ個の音声入力プロンプトを前記第１のインターフェイス上に表示する段階であって、前記Ｍ個の音声入力プロンプトの各音声入力プロンプトは前記第１のインターフェイス上の１つのコントロールに対応し、Ｍは０より大きい整数である、表示する段階と、
ユーザによって入力された第１の音声制御信号を収集する段階であって、該第１の音声制御信号は、前記Ｍ個の音声入力プロンプト内の第１の音声入力プロンプトに対応し、該第１の音声入力プロンプトは前記第１のインターフェイス上の第１のコントロールに対応し、該第１のコントロールは前記第１のインターフェイスの前記少なくとも１つのコントロールのうちの１つである、収集する段階と、
前記第１の音声制御信号に応答して、前記第１のコントロールをクリックする操作をシミュレーションすることによって生成される前記第１のコントロールのアニメーション効果を前記第１のインターフェイス上に表示する段階と、
前記アニメーション効果を表示した後に、前記第１の音声制御信号に応答して前記第１のアプリケーションの第２のインターフェイスを表示する段階であって、該第２のインターフェイスは、前記第１のインターフェイス上の前記第１のコントロールがトリガーされた後に更新することによって得られるインターフェイスであり、前記第１のコントロールは前記第１の音声入力プロンプトに対応する、表示する段階と、
第２のアプリケーションの第３のインターフェイスを表示する段階と、
Ｌ個の音声入力プロンプトを前記第３のインターフェイス上に表示する段階であって、該第３のインターフェイスは、前記第３のインターフェイスを更新するために使用されるコントロールを含み、前記Ｌ個の音声入力プロンプトの各音声入力プロンプトは前記第３のインターフェイス上の１つのコントロールに対応し、Ｌは０より大きい整数であり、及び前記Ｌ個の音声入力プロンプトは前記Ｍ個の音声入力プロンプトとは異なる、表示する段階と、
ユーザによって入力された第２の音声制御信号を収集する段階であって、該第２の音声制御信号は、前記Ｌ個の音声入力プロンプト内の第２の音声入力プロンプトに対応する、収集する段階と、
前記第２の音声制御信号に応答して、前記第２のアプリケーションの第４のインターフェイスを表示する段階であって、前記第４のインターフェイスは、前記第３のインターフェイス上の第２のコントロールがトリガーされた後に更新することによって得られるインターフェイスであり、前記第２のコントロールは、前記第２の音声入力プロンプトに対応する、表示する段階と、を実行するように有効化される、
電子装置。
前記音声アプリケーションを前記バックグラウンドで有効にする段階の後に、当該電子装置は、
前記第１のインターフェイス上の前記コントロールでユーザによって行われたタッチコントロール操作が検出された場合に、前記タッチコントロール操作に対応する操作命令を実行する、ようにさらに構成される、請求項１に記載の電子装置。
前記音声アプリケーションを前記バックグラウンドで有効にする段階の後に、当該電子装置は、
前記音声アプリケーションの識別子を前記第１のインターフェイス上に表示する、ようにさらに構成される、請求項１又は２に記載の電子装置。
前記第１のアプリケーションは音楽アプリケーションであり、前記第１のインターフェイスは、前記音楽アプリケーションの音楽再生インターフェイスであり、当該電子装置は、
以下のコンテンツの１つ又は複数を第１のインターフェイス上に表示する、ようにさらに構成され、
前記コンテンツは、
再生コントロール及び該再生コントロールに対応する音声入力プロンプト、又は
一時停止コントロール及び該一時停止コントロールに対応する音声入力プロンプト、又は
以前の曲への切替えコントロール及び該以前の曲への切替えコントロールに対応する音声入力プロンプト、又は
次の曲への切替えコントロール及び該次の曲への切替えコントロールに対応する音声入力プロンプト、又は
音量を上げるコントロール及び該音量を上げるコントロールに対応する音声入力プロンプト、又は
前記音量を下げるコントロール及び該音量を下げるコントロールに対応する音声入力プロンプト、含む、請求項１乃至３のいずれか一項に記載の電子装置。
前記第１のアプリケーションはカメラアプリケーションであり、前記第１のインターフェイスは、前記カメラアプリケーションの撮影インターフェイスであり、当該電子装置は、
以下のコンテンツの１つ又は複数を前記第１のインターフェイスに表示する、ようにさらに構成され、
前記コンテンツは、
写真撮影コントロール及び該写真撮影コントロールに対応する音声入力プロンプト、又は
記録コントロール及び該記録コントロールに対応する音声入力プロンプト、又は
正面カメラを有効にするコントロール及び該正面カメラを有効にするコントロールに対応する音声入力プロンプト、又は
写真を見るコントロール及び該写真を見るコントロールに対応する音声入力プロンプト、を含む、請求項１乃至３のいずれか一項に記載の電子装置。
当該電子装置は、
撮影インターフェイス上でユーザによって入力された写真撮影に使用される音声制御信号を受信し、
写真撮影に使用される前記音声制御信号に応答して写真を撮影し、
前記撮影インターフェイス及び該撮影インターフェイスに対応する音声入力プロンプトを表示し続け、及び
前記写真の写真サムネイルを前記撮影インターフェイス上に表示する、ようにさらに構成される、請求項５に記載の電子装置。
当該電子装置は、
前記撮影インターフェイス上でユーザによって入力された写真を見るために使用される音声制御信号を受信し、
写真を表示するために使用される前記音声制御信号に応答して前記写真を表示するようにさらに構成される、請求項６に記載の電子装置。
当該電子装置は、
以下の段階の１つ又は複数を実行するようにさらに構成され、
前記段階には、
前記写真を表示するためのインターフェイス上で、ユーザによって入力されたズームインに使用される音声制御信号を受信し、前記写真にズームインする段階、又は
前記写真を表示するための前記インターフェイス上で、ユーザによって入力されたズームアウトに使用される音声制御信号を受信し、前記写真をズームアウトする段階、又は
前記写真を表示するための前記インターフェイス上で、ユーザによって入力された次の写真を見るために使用される音声制御信号を受信し、前記写真上でスライド操作を行う段階、又は
前記写真を表示するための前記インターフェイス上で、ユーザによって入力されたカメラに戻るために使用される音声制御信号を受信し、前記カメラアプリケーションの前記撮影インターフェイスを表示する段階が含まれる、請求項７に記載の電子装置。
前記一時停止コントロール及び該一時停止コントロールに対応する前記音声入力プロンプトを前記第１のインターフェイスに表示し、当該電子装置は、
ユーザによって入力された一時停止に使用される音声制御信号を受信することと、
一時停止に使用される前記音声制御信号に応答して、前記第２のインターフェイスを表示することと、行うようにさらに構成され、
該第２のインターフェイスは、前記第１のインターフェイス上の前記一時停止コントロールがトリガーされた後に更新することによって得られるインターフェイスであり、第２のインターフェイスは、前記再生コントロール及び該再生コントロールに対応する前記音声入力プロンプトを表示し、前記第２のインターフェイスは、前記一時停止コントロール及び該一時停止コントロールに対応する音声入力プロンプトを表示しない、請求項４に記載の電子装置。
前記第１の音声制御信号は、前記第１のコントロールの名前を含む、又は
前記第２の音声制御信号は、前記第２のコントロールの名前を含む、請求項１乃至９のいずれか一項に記載の電子装置。
構成ファイルを使用して前記第１のコントロールの前記名前を取得する、又は
構成ファイルを使用して前記第２のコントロールの前記名前を取得する、請求項１０に記載の電子装置。
前記ウェイクアップ信号は、ユーザによって入力されたウェイクアップワードを含む、又は
前記ウェイクアップ信号は、ユーザのボタンに対するクリック信号を含む、又は
前記ウェイクアップ信号は、ユーザのタッチジェスチャを含む、請求項１乃至１１のいずれか一項に記載の電子装置。
当該電子装置は、
前記音声アプリケーションが有効になった後に、前記Ｍ個の音声入力プロンプトを前記第１のインターフェイス上に直ぐに表示する、又は
前記音声アプリケーションが有効になった後に、予め設定した期間後に、Ｍ個の音声入力プロンプトを前記第１のインターフェイス上に表示する、ようにさらに構成される、請求項１乃至１２のいずれか一項に記載の電子装置。
当該電子装置は、
当該電子装置が前記ユーザによって入力された前記第１の音声制御信号を収集する前に、前記Ｍ個の音声入力プロンプトを自動的に非表示にする、ようにさらに構成される、請求項１乃至１３のいずれか一項に記載の電子装置。
音声制御方法であって、当該方法は、
電子装置が、第１のアプリケーションの第１のインターフェイスを表示するステップであって、該第１のインターフェイスは、前記第１のインターフェイスを更新するために使用される少なくとも１つのコントロールを含む、表示するステップと、
前記電子装置が、ユーザにより入力されたウェイクアップ信号に応答して、音声アプリケーションをバックグラウンドで有効にするステップと、
前記電子装置が、Ｍ個の音声入力プロンプトを前記第１のインターフェイス上に表示するステップであって、前記Ｍ個の音声入力プロンプトの各音声入力プロンプトは前記第１のインターフェイス上の１つのコントロールに対応し、Ｍは０より大きい整数である、表示するステップと、
前記電子装置が、前記ユーザにより入力された第１の音声制御信号を収集するステップであって、該第１の音声制御信号は、前記Ｍ個の音声入力プロンプトの第１の音声入力プロンプトに対応し、該第１の音声入力プロンプトは前記第１のインターフェイス上の第１のコントロールに対応し、該第１のコントロールは前記第１のインターフェイスの前記少なくとも１つのコントロールのうちの１つである、収集するステップと、
前記第１の音声制御信号に応答して、前記第１のコントロールをクリックする操作をシミュレーションすることによって生成された前記第１のコントロールのアニメーション効果を前記第１のインターフェイス上に表示する段階と、
前記アニメーション効果を表示した後に、前記電子装置が、前記第１の音声制御信号に応答して、前記第１のアプリケーションの第２のインターフェイスを表示するステップであって、該第２のインターフェイスは、前記第１のインターフェイス上の前記第１のコントロールがトリガーされた後に更新することによって得られるインターフェイスであり、前記第１のコントロールは前記第１の音声入力プロンプトに対応する、表示するステップと、
前記電子装置が、第２のアプリケーションの第３のインターフェイスを表示するステップと、
前記電子装置が、Ｌ個の音声入力プロンプトを前記第３のインターフェイス上に表示するステップであって、該第３のインターフェイスは、前記第３のインターフェイスを更新するために使用されるコントロールを含み、前記Ｌ個の音声入力プロンプトの各音声入力プロンプトは前記第３のインターフェイス上の１つのコントロールに対応し、Ｌは０より大きい整数であり、及び前記Ｌ個の音声入力プロンプトの各音声入力プロンプトは前記Ｍ個の音声入力プロンプトの各音声入力プロンプトとは異なる、表示するステップと、
前記電子装置が、前記ユーザによって入力された第２の音声制御信号を収集するステップであって、該第２の音声制御信号は、前記Ｌ個の音声入力プロンプトの第２の音声入力プロンプトに対応する、収集するステップと、
前記電子装置が、前記第２の音声制御信号に応答して、前記第２のアプリケーションの第４のインターフェイスを表示するステップであって、該第４のインターフェイスは、前記第３のインターフェイス上の第２のコントロールがトリガーされた後に更新することによって得られるインターフェイスであり、前記第２のコントロールは前記第２の音声入力プロンプトに対応する、表示するステップと、を含む、
方法。
前記第１のアプリケーションはカメラアプリケーションであり、前記第１のインターフェイスは、前記カメラアプリケーションの撮影インターフェイスであり、当該方法は、
前記電子装置が、前記第１のインターフェイスに、
写真撮影コントロール及び該写真撮影コントロールに対応する音声入力プロンプト、又は
記録コントロール及び該記録コントロールに対応する音声入力プロンプト、又は
正面カメラを有効にするコントロール及び該正面カメラを有効にするコントロールに対応する音声入力プロンプト、又は
写真を見るコントロール及び該写真を見るコントロールに対応する音声入力プロンプト、の１つ又は複数を表示するステップをさらに含む、請求項１５に記載の方法。
当該方法は、
前記電子装置が、前記撮影インターフェイス上で前記ユーザによって入力された写真撮影に使用される第３の音声制御信号を受信するステップと、
前記電子装置が、写真撮影に使用される前記第３の音声制御信号に応答して写真を撮影し、前記撮影インターフェイス及び該撮影インターフェイスに対応する音声入力プロンプトを表示し続けるステップと、
前記電子装置が、前記写真の写真撮影に応答して、前記写真の写真サムネイルを前記撮影インターフェイス上に表示するステップと、をさらに含む、請求項１６に記載の方法。
当該方法は、
前記電子装置が、前記撮影インターフェイス上で前記ユーザによって入力された写真を見るために使用される第４の音声制御信号を受信するステップと、
前記電子装置が、前記写真を見るために使用される前記第４の音声制御信号に応答して、前記写真を表示するステップと、をさらに含む、請求項１７に記載の方法。