JP7142783B2 - 音声制御方法及び電子装置 - Google Patents

音声制御方法及び電子装置 Download PDF

Info

Publication number
JP7142783B2
JP7142783B2 JP2021528948A JP2021528948A JP7142783B2 JP 7142783 B2 JP7142783 B2 JP 7142783B2 JP 2021528948 A JP2021528948 A JP 2021528948A JP 2021528948 A JP2021528948 A JP 2021528948A JP 7142783 B2 JP7142783 B2 JP 7142783B2
Authority
JP
Japan
Prior art keywords
interface
voice
control
electronic device
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021528948A
Other languages
English (en)
Other versions
JP2022508176A (ja
Inventor
ジョウ,ジュアン
ワン,ショウチェン
ロォン,ジィアユィ
ジャオ,ユエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2022508176A publication Critical patent/JP2022508176A/ja
Application granted granted Critical
Publication of JP7142783B2 publication Critical patent/JP7142783B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/03Constructional features of telephone transmitters or receivers, e.g. telephone hand-sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72406User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by software upgrading or downloading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72442User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本願は、通信技術の分野に関し、特に、音声制御(speech control)方法及び電子装置に関する。
音声(speech:発話)認識技術は、マシン(例えば、携帯電話又はウェアラブル装置)が、認識及び理解を通じて音(sound)信号を対応するテキスト又はコマンドに変換するのを可能にする技術である。現在、多くの携帯電話には、音声アシスタント(例えば、Xiaoai、Siri、及びXiao E)等、音声認識に使用される音声アプリがインストールされている。通常、携帯電話は、1つ又は複数のウェイクアップ信号(例えば、タッピング信号又は「こんにちは、Xiao E」等のウェイクアップワード)を予めセットすることができる。ユーザによってこれらのウェイクアップ信号が入力されたことが検出された場合に、それは、ユーザがこの時点で音声認識機能を使用する意思があることを示している。従って、携帯電話は、音声認識を実行するために音声アプリを開始するようにトリガーされ、次に対応する音声タスクを実行することができる。
通常、配送前に、携帯電話が認識及び実行できる特定の音声タスク、例えば、天気を問い合わせるための音声タスク及び連絡先に電話するための音声タスクが携帯電話に予め構成されている。図1に示されるように、ユーザは、各アプリケーションによって特にサポートされる全ての音声タスクを音声アプリの設定インターフェイス101上で見ることができる。しかしながら、音声タスクには様々な種類があるため、アプリケーションを使用する特定の過程で、ユーザは、アプリケーションが音声認識機能をサポートしているかどうかを忘れたり、又は音声によって制御できるアプリケーション内の特定のタスクを忘れたりすることがある。その結果、携帯電話での音声アプリの利用率は高くなく、携帯電話では音声アプリの音声認識機能を十分に活用できず、音声アプリはユーザのフリーハンド(free hand:手による入力がない)を助けることができない。
本願の実施形態は、アプリケーションの実行過程において、アプリケーションに関連する音声タスクを実行するようユーザに促すことができる音声制御方法及び電子装置を提供する。これにより、電子装置における音声アプリの音声制御効率及びユーザ・エクスペリエンスが向上する。
前述の目的を達成するために、本願では以下の技術的解決策を使用する。
第1の態様によれば、本願の実施形態は、音声制御方法を提供する。この方法は、電子装置が、アプリケーションの第1のインターフェイスを表示するステップであって、第1のインターフェイスは、第1のインターフェイスを更新するために使用されるコントロールを含む、表示するステップと;ユーザによって入力されたウェイクアップ信号が受信された場合に、電子装置が、音声アプリケーションをバックグラウンドで有効にするステップと;さらに、電子装置が、音声アプリケーションによって提供されるM個(Mは0より大きい整数)の音声入力プロンプトを第1のインターフェイス上に表示するステップであって、各音声入力プロンプトは、第1のインターフェイス上の少なくとも1つのコントロールに対応する、表示するステップと;その後、電子装置が、有効にした音声アプリケーション(例えば、Siri、又はXiao E等の音声アシスタント)を使用して、ユーザによって入力された音声制御信号を収集するステップと;音声制御信号がM個の音声入力プロンプト内の第1の音声入力プロンプトに対応する場合に、電子装置が、音声制御信号に応答してアプリケーションの第2のインターフェイスを表示するステップであって、第2のインターフェイスは、第1のインターフェイス上の第1のコントロール(第1のコントロールが第1の音声入力プロンプトに対応する)がトリガーされた後に更新することによって得られるインターフェイスである、表示するステップと;を含む。
換言すれば、電子装置がアプリケーションのインターフェイスを表示するときに、ユーザが音声アプリケーションを起動したことが検出された場合に、電子装置は、音声アプリケーションを使用することにより、ユーザに音声入力プロンプトを現在のインターフェイス上に入力するよう促すことができる。音声入力プロンプトは、インターフェイス上の1つ又は複数のコントロールに関連付けられる。このようにして、ユーザが音声入力プロンプトに対応する音声制御信号を入力したことが検出されると、電子装置は、音声制御信号に基づいて、対応するコントロールをトリガーし、それによって、電子装置は、表示されているインターフェイスを更新する。このようにして、アプリケーションを使用する過程において、ユーザは、音声入力プロンプトに基づいて、現在のインターフェイスで実行可能な音声制御信号を電子装置に入力することができる。これにより、電子装置の音声アプリの音声制御効率が向上し、ユーザ・エクスペリエンスが向上する。
可能な設計方法では、電子装置が音声アプリケーションをバックグラウンドで有効にした後に、方法は、第1のインターフェイス上のコントロールでユーザによって行われたタッチコントロール操作が検出された場合に、電子装置が、タッチコントロール操作に対応する操作命令を実行するステップをさらに含む。換言すれば、電子装置が音声アプリケーションをバックグラウンドで有効にした後に、バックグラウンドで動作している音声アプリケーションがユーザとフォアグラウンド・アプリケーションとの間の対話に影響を与えないため、ユーザは、表示された第1のインターフェイス上の第1のインターフェイスのコントロールを引き続き操作できる。
可能な設計方法では、電子装置が、音声アプリケーションをバックグラウンドで有効にした後に、方法は、電子装置が、音声アプリケーションが有効であるか、バックグラウンドで有効にされているかをユーザに促すために、音声アプリケーションの識別子を第1のインターフェイス上に表示するステップをさらに含む。音声アプリケーションの識別子は、フローティング式ボタンの形態で第1のインターフェイス上に表示され、ユーザは、第1のインターフェイス上の識別子の位置を調整することができる。
可能な設計方法では、電子装置が、アプリケーションの第1のインターフェイスを表示した後に、方法は、電子装置が、プロンプトボタンを第1のインターフェイス上に表示するステップと;電子装置が、ユーザによるプロンプトボタンをクリックするクリック操作を受信した場合に、電子装置が、クリック操作に応答して、M個の音声入力プロンプトを第1のインターフェイス上に表示するステップと;をさらに含む。
可能な設計方法では、電子装置が、アプリケーションの第1のインターフェイスを表示した後に、方法は、電子装置が、第1のインターフェイスに関連する構成ファイルを取得するステップであって、構成ファイルは、電子装置が実行できるN個(NはM以上の整数である)の音声タスクを第1のインターフェイス上に記録する、取得するステップをさらに含み;この場合に、電子装置が、M個の音声入力プロンプトを第1のインターフェイス上に表示するステップは、電子装置が、構成ファイルに基づいて、M個の音声入力プロンプトを第1のインターフェイス上に表示するステップを含み、各音声入力プロンプトは、構成ファイル内の1つの音声タスクに関連付けられる。例えば、音声入力プロンプト「再生(play)」は、構成ファイル内の再生タスクに関連付けられる。
例えば、M個の音声入力プロンプトはM個の音声タスクと1対1の対応関係にあり得、M個の音声タスクのそれぞれの使用頻度がN個の音声タスクにおける閾値よりも大きい。
可能な設計方法では、構成ファイルは、第1の音声タスクと第1のコントロールの第1のタッチイベントとの間の対応関係をさらに含み、第1の音声タスクはN個の音声タスクのうちの1つであり、電子装置が、ユーザによって入力された音声制御信号を収集した後に、方法は、電子装置が、音声制御信号に対応する音声タスクが第1の音声タスクであると決定するステップをさらに含み;電子装置が、音声制御信号に応答してアプリケーションの第2のインターフェイスを表示するステップは、電子装置が、音声制御信号に応答して、第1のコントロール上で第1のタッチイベントを実行し、それにより、電子装置が、第1のインターフェイスを第2のインターフェイスに更新するステップを含む。
換言すれば、電子装置は、第1のインターフェイスの構成ファイルに基づいて、ユーザによって入力された音声制御信号を対応するタッチイベントに変換し、次にタッチイベントを実行することができる。これにより、音声を使用して第1のインターフェイス上の各操作ボタンを制御する機能を実現する。このようにして、電子装置は、アプリケーションの各インターフェイス上で、インターフェイス上の操作ボタン毎の音声制御機能を実現することができる。これにより、携帯電話の音声制御効率及びユーザ・エクスペリエンスが向上する。
可能な設計方法では、電子装置が第1のコントロール上で第1のタッチイベントを実行するときに、方法は、電子装置が、ユーザが第1のコントロール上で第1のタッチイベントを実行したときに提示されるアニメーション効果を表示するステップをさらに含み、これにより、ユーザはGUIとVUIとの両方で優れたユーザ・エクスペリエンスを得る。
可能な設計方法では、電子装置が、ユーザによって入力された音声制御信号を収集した後に、方法は、電子装置が、音声制御信号及び第1のインターフェイスのインターフェイス情報をサーバに送信し、それによって、サーバが、インターフェイス情報に基づいて、音声制御信号に対応する音声タスクを認識するステップをさらに含み、インターフェイス情報は、第1のインターフェイスの識別子、第1のインターフェイスのページタイプ、又は第1のインターフェイスが属するアプリケーションのタイプのうちの少なくとも1つを含む。この場合に、インターフェイス情報が現在の電子装置の実際の使用状況を反映できるため、サーバは、インターフェイス情報に基づいて、ユーザが入力した音声制御信号に対して音声認識をより正確に行うことができ、ユーザが実行する必要がある実際の音声タスクをより正確に決定することができる。
第2の態様によれば、本願は、電子装置を提供し、この装置は、タッチ感知面及びディスプレイを含むタッチスクリーンと;1つ又は複数のプロセッサと;1つ又は複数のメモリと;通信モジュールと;1つ又は複数のコンピュータプログラムと;を含む。プロセッサは、タッチスクリーン、通信モジュール、及びメモリのそれぞれに結合される。1つ又は複数のコンピュータプログラムがメモリに記憶される。電子装置が実行されると、プロセッサはメモリに記憶した1つ又は複数のコンピュータプログラムを実行し、それによって、電子装置は可能な設計のいずれかに1つよる音声制御方法を実行する。
第3の態様によれば、本願は、コンピュータ命令を含むコンピュータ記憶媒体を提供する。コンピュータ命令が電子装置で実行されると、電子装置は、第1の態様の可能な設計のいずれか1つによる音声制御方法を実行できるようになる。
第4の態様によれば、本願は、コンピュータプログラム製品を提供する。コンピュータプログラム製品が電子装置で実行されると、電子装置は、第1の態様の可能な設計のいずれか1つによる音声制御方法を実行することができる。
第2の態様による端末、第3の態様によるコンピュータ記憶媒体、及び第4の態様によるコンピュータプログラム製品は全て、上記で提供した対応する方法を実行するために使用されることが理解され得る。従って、端末、コンピュータ記憶媒体、及びコンピュータプログラム製品が達成できる有利な効果については、上記で提供した対応する方法における有利な効果を参照されたい。詳細についてはここでは説明しない。
従来技術における音声アプリケーションの設定インターフェイスの概略図である。 本願の一実施形態による電子装置の概略構造図1である。 本願の一実施形態による電子装置におけるオペレーティングシステムの概略アーキテクチャ図である。 本願の一実施形態による音声制御方法の概略シナリオ図1である。 本願の一実施形態による音声制御方法の概略フローチャートである。 本願の一実施形態による音声制御方法の概略シナリオ図2である。 本願の一実施形態による音声制御方法の概略シナリオ図3である。 従来技術において音声アプリケーションがフォアグラウンドで動作する場合に示されるシナリオの概略図である。 本願の一実施形態による音声制御方法の概略シナリオ図4である。 本願の一実施形態による音声制御方法の概略シナリオ図5である。 本願の一実施形態による音声制御方法の概略シナリオ図5である。 本願の一実施形態による音声制御方法の概略シナリオ図6である。 本願の一実施形態による音声制御方法の概略シナリオ図7である。 本願の一実施形態による音声制御方法の概略シナリオ図8である。 本願の一実施形態による音声制御方法の概略シナリオ図9である。 本願の一実施形態による電子装置の概略構造図2である。
以下では、添付図面を参照して、本願の実施形態の実施態様について詳細に説明する。
本願の実施形態で提供される音声制御方法は、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ウルトラモバイルパーソナルコンピュータ(ultra-mobile personal computer, UMPC)、ハンドヘルドコンピュータ、ネットブック、携帯情報端末(personal digital assistant, PDA)、ウェアラブル電子装置、又は仮想現実装置等の電子装置に適用することができる。これは、本願の実施形態に限定されない。
例えば、図2は、電子装置100の概略構造図である。
電子装置100は、プロセッサ110、外部メモリインターフェイス120、内部メモリ121、ユニバーサルシリアルバス(universal serial bus, USB)ポート130、充電管理モジュール140、電力管理モジュール141、バッテリ142、アンテナ1、アンテナ2、移動通信モジュール150、無線通信モジュール160、オーディオモジュール170、スピーカ170A、受信機170B、マイク170C、ヘッドセットジャック170D、センサモジュール180、キー190、モータ191、インジケータ192、カメラ193、ディスプレイ194、加入者識別モジュール(subscriber identification module, SIM)カードインターフェイス195等を含み得る。センサモジュール180は、圧力センサ180A、ジャイロセンサ180B、気圧センサ180C、磁気センサ180D、加速度センサ180E、距離センサ180F、光近接センサ180G、指紋センサ180H、温度センサ180J、タッチセンサ180K、環境光センサ180L、骨伝導センサ180M等を含み得る。
本願のこの実施形態に示される構造は、電子装置100に対する特定の限定を構成しないことが理解され得る。本願のいくつかの他の実施形態では、電子装置100は、図に示されるものよりも多い又は少ないコンポーネントを含んでもよく、又はいくつかのコンポーネントを組み合わせてもよく、又はいくつかのコンポーネントを分割してもよく、又は異なるコンポーネント配置を使用してもよい。図に示されるコンポーネントは、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアとの組合せによって実装してもよい。
プロセッサ110は、1つ又は複数の処理ユニットを含み得る。例えば、プロセッサ110は、アプリケーションプロセッサ(application processor, AP)、モデムプロセッサ、グラフィックス処理装置(graphics processing unit, GPU)、画像信号プロセッサ(image
signal processor, ISP)、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ(digital
signal processor, DSP)、ベースバンドプロセッサ、ニューラルネットワーク処理装置(neural-network
processing unit, NPU)等を含み得る。異なる処理装置は、独立したコンポーネントである場合もあれば、1つ又は複数のプロセッサに統合される場合もある。
コントローラは、電子装置100の中枢及びコマンドセンターであり得る。コントローラは、命令オペレーションコード及び時系列信号に基づいて動作制御信号を生成し、命令読出し及び命令実行の制御を完了する。
メモリが、プロセッサ110にさらに配置され、命令及びデータを記憶するように構成される。いくつかの実施形態では、プロセッサ110内のメモリはキャッシュメモリである。メモリは、プロセッサ110によって使用された、又は周期的に使用された命令又はデータを記憶することができる。プロセッサ110が命令又はデータを再び使用する必要がある場合に、プロセッサ110は、命令又はデータをメモリから直接呼び出すことができる。これにより、繰返しアクセスが回避され、プロセッサ110の待ち時間が短縮される。従って、システム効率が向上する。
いくつかの実施形態では、プロセッサ110は、1つ又は複数のインターフェイスを含み得る。インターフェイスは、集積回路間(inter-integrated circuit, I2C)インターフェイス、集積回路間サウンド(inter-integrated circuit sound, I2S)インターフェイス、パルスコード変調(pulse code modulation, PCM)インターフェイス、ユニバーサル非同期受信機/送信機(universal asynchronous receiver/transmitter, UART)インターフェイス、モバイル産業プロセッサインターフェイス(mobile industry processor interface, MIPI)、汎用入出力(general-purpose input/output, GPIO)インターフェイス、加入者識別モジュール(subscriber identify module, SIM)インターフェイス、ユニバーサルシリアルバス(universal serial bus, USB)インターフェイス等を含み得る。
I2Cインターフェイスは、双方向同期シリアルバスであり、シリアルデータライン(serial data line, SDA)及びシリアルクロックライン(serial clock line, SCL)を含む。いくつかの実施形態では、プロセッサ110は、I2Cバスの複数のグループを含み得る。プロセッサ110は、異なるI2Cバスインターフェイスを使用して、タッチセンサ180K、充電器、フラッシュ、カメラ193等に個別に結合され得る。例えば、プロセッサ110は、I2Cインターフェイスを使用してタッチセンサ180Kに結合され得、それによって、プロセッサ110は、I2Cバスインターフェイスを使用してタッチセンサ180Kと通信して、電子装置100のタッチ機能を実現する。

I2Sインターフェイスは、オーディオ通信を行うように構成され得る。いくつかの実施形態では、プロセッサ110は、I2Sバスの複数のグループを含み得る。プロセッサ110は、I2Sバスを使用してオーディオモジュール170に結合され、プロセッサ110とオーディオモジュール170との間の通信を実現することができる。いくつかの実施形態では、オーディオモジュール170は、I2Sインターフェイスを使用してオーディオ信号を無線通信モジュール160に送信して、Bluetoothヘッドセットを使用して電話に出る(answer a call:呼出しに応答する)機能を実現することができる。
PCMインターフェイスは、オーディオ通信にも使用でき、アナログ信号をサンプリングし、量子化し、符号化する。いくつかの実施形態では、オーディオモジュール170は、PCMバスインターフェイスを使用して無線通信モジュール160に結合され得る。いくつかの実施形態では、オーディオモジュール170は、代替的に、PCMインターフェイスを使用してオーディオ信号を無線通信モジュール160に送信し、Bluetoothヘッドセットを使用して電話に出る機能を実現することができる。I2SインターフェイスとPCMインターフェイスとの両方がオーディオ通信を行うように構成され得る。
UARTインターフェイスは、ユニバーサルシリアルデータバスであり、非同期通信のために構成される。バスは双方向通信バスでもよい。バスは、シリアル通信とパラレル通信との間で送信すべきデータを変換する。いくつかの実施形態では、UARTインターフェイスは、通常、プロセッサ110及び無線通信モジュール160を接続するように構成される。例えば、プロセッサ110は、UARTインターフェイスを使用して無線通信モジュール160内のBluetoothモジュールと通信し、Bluetooth機能を実現する。いくつかの実施形態では、オーディオモジュール170は、UARTインターフェイスを使用してオーディオ信号を無線通信モジュール160に転送し、Bluetoothヘッドセットを使用して音楽を再生する機能を実現することができる。
MIPIインターフェイスは、プロセッサ110を、ディスプレイ194又はカメラ193等の周辺コンポーネントに接続するように構成され得る。MIPIインターフェイスは、カメラシリアルインターフェイス(camera serial interface, CSI)、ディスプレイシリアルインターフェイス(display serial interface, DSI)等を含む。いくつかの実施形態では、プロセッサ110は、CSIインターフェイスを使用してカメラ193と通信し、電子装置100の撮影機能を実現する。プロセッサ110は、DSIインターフェイスを使用してディスプレイ194と通信し、電子装置100のディスプレイ194の表示機能を実現する。
GPIOインターフェイスは、ソフトウェアにより構成され得る。GPIOインターフェイスは、制御信号又はデータ信号として構成され得る。いくつかの実施形態では、GPIOインターフェイスは、プロセッサ110を、カメラ193、ディスプレイ194、無線通信モジュール160、オーディオモジュール170、センサモジュール180等に接続するように構成され得る。GPIOインターフェイスは、I2Cインターフェイス、I2Sインターフェイス、UARTインターフェイス、MIPIインターフェイス等としても構成され得る。
USBインターフェイス130は、USB標準規格に準拠したインターフェイスであり、具体的には、ミニUSBインターフェイス、マイクロUSBインターフェイス、USB type-Cインターフェイス等であり得る。USBインターフェイス130は、充電器に接続して電子装置100を充電するように構成され得るか、又は電子装置100と周辺装置との間でデータ伝送を行うように構成され得るか、又はヘッドセットに接続してヘッドセットを使用してオーディオを再生するように構成され得る。インターフェイスは、AR装置等の別の電子装置に接続するようにさらに構成され得る。
本願のこの実施形態に示されるモジュール同士の間のインターフェイス接続関係は、説明のための一例に過ぎず、電子装置100の構造に対する制限を構成するものではないことが理解され得る。本願のいくつかの他の実施形態では、電子装置100は、代替的に、上記実施形態とは異なるインターフェイス接続方式を使用してもよく、又は複数のインターフェイス接続方式の組合せを使用してもよい。
充電管理モジュール140は、充電器から充電入力を受け取るように構成される。充電器は、無線充電器又は有線充電器であり得る。有線充電のいくつかの実施形態では、充電管理モジュール140は、USBインターフェイス130を使用して有線充電器の充電入力を受け取ることができる。無線充電のいくつかの実施形態では、充電管理モジュール140は、電子装置100の無線充電コイルを使用して無線充電入力を受け取ることができる。充電管理モジュール140は、バッテリ142を充電しながら、電力管理モジュール141を使用して電力を電子装置に供給する。
電力管理モジュール141は、バッテリ142及び充電管理モジュール140をプロセッサ110に接続するように構成される。電力管理モジュール141は、バッテリ142及び/又は充電管理モジュール140の入力を受け取り、電力を、プロセッサ110、内部メモリ121、外部メモリ、ディスプレイ194、カメラ193、無線通信モジュール160等に供給する。電力管理モジュール141は、バッテリ容量、バッテリサイクル回数、及びバッテリ健全状態(漏電又はインピーダンス)等のパラメータを監視するようにさらに構成され得る。いくつかの他の実施形態では、電力管理モジュール141は、代替的に、プロセッサ110に配置してもよい。いくつかの他の実施形態では、電力管理モジュール141及び充電管理モジュール140は、代替的に、同じ装置内に配置してもよい。
電子装置100の無線通信機能は、アンテナ1、アンテナ2、移動通信モジュール150、無線通信モジュール160、モデムプロセッサ、ベースバンドプロセッサ等を使用して実現することができる。
アンテナ1及びアンテナ2は、電磁波信号を送受信するように構成される。電子装置100内の各アンテナは、1つ又は複数の通信周波数帯域をカバーするように構成され得る。アンテナの利用を改善するために、異なるアンテナをさらに多重化することができる。例えば、アンテナ1は、無線ローカルエリアネットワークのダイバーシティアンテナとして多重化してもよい。いくつかの他の実施形態では、アンテナは、同調スイッチと組み合わせて使用してもよい。
移動通信モジュール150は、電子装置100に適用される、2G、3G、4G、5G等を含む無線通信に対する解決策を提供することができる。移動通信モジュール150は、少なくとも1つのフィルタ、スイッチ、電力増幅器、低雑音増幅器(low noise amplifier, LNA)等を含み得る。移動通信モジュール150は、アンテナ1を使用して電磁波を受信し、受信した電磁波に対してフィルタリング又は増幅等の処理を行い、電磁波を復調のためにモデムプロセッサに送信する。移動通信モジュール150は、モデムプロセッサによって変調された信号をさらに増幅し、アンテナ1を使用して信号を放射のための電磁波に変換することができる。いくつかの実施形態では、移動通信モジュール150内の少なくともいくつかの機能モジュールがプロセッサ110に配置され得る。いくつかの実施形態では、移動通信モジュール150内の少なくともいくつかの機能モジュールは、プロセッサ110内の少なくともいくつかのモジュールと同じ装置内に配置してもよい。
モデムプロセッサは、変調器及び復調器を含み得る。変調器は、送信すべき低周波ベースバンド信号を中周波又は高周波信号に変調するように構成される。復調器は、受信した電磁波信号を低周波数ベースバンド信号に復調するように構成される。次に、復調器は、復調によって得られた低周波ベースバンド信号を処理のためにベースバンドプロセッサに送信する。低周波ベースバンド信号は、ベースバンドプロセッサによって処理され、次にアプリケーションプロセッサに送信される。アプリケーションプロセッサは、オーディオ装置(スピーカ170A、受信機170B等に限定されない)を使用して音信号を出力し、又はディスプレイ194を使用して画像又はビデオを表示させる。いくつかの実施形態では、プロセッサは独立したコンポーネントであり得る。いくつかの他の実施形態では、モデムプロセッサは、プロセッサ110から独立してもよく、移動通信モジュール150又は別の機能モジュールと同じ装置内に配置される。
無線通信モジュール160は、電子装置100、無線ローカルエリアネットワーク(wireless local area networks, WLAN)(例えば、ワイファイ(wireless fidelity, Wi-Fi)ネットワーク)、Bluetooth(Bluetooth,
BT)、全地球航法衛星システム(global navigation satellite system,
GNSS)、周波数変調(frequency modulation, FM)、近距離通信(near field communication, NFC)、赤外線(infrared,
IR)技術等に適用される解決策を提供し得る。無線通信モジュール160は、少なくとも1つの通信プロセッサモジュールを統合する1つ又は複数のコンポーネントであり得る。無線通信モジュール160は、アンテナ2を使用して電磁波を受信し、電磁波信号に対して周波数変調及びフィルタリング処理を行って、処理した信号をプロセッサ110に送信する。無線通信モジュール160は、プロセッサ110から送信すべき信号を受信し、信号に対して周波数変調及び増幅を行い、アンテナ2を使用して信号を放射のための電磁波に変換することができる。
いくつかの実施形態では、電子装置100のアンテナ1及び移動通信モジュール150が結合され、電子装置100のアンテナ2及び無線通信モジュール160が結合され、それによって、電子装置100は、無線通信技術を使用して、ネットワーク及び他の装置と通信できるようになる。無線通信技術には、汎欧州デジタル移動電話方式(global system for mobile communications, GSM)、汎用パケット無線サービス(general packet radio service, GPRS)、符号分割多元接続(code division multiple access, CDMA)、広帯域符号分割多元接続(wideband code division multiple access, WCDMA)、時分割符号分割多元接続(time-division code division multiple access, TD-SCDMA)、ロングタームエボリューション(long term evolution, LTE)、BT、GNSS、WLAN、NFC、FM、IR技術等が含まれ得る。GNSSには、全地球測位システム(global positioning system, GPS)、全地球航法衛星システム(global
navigation satellite system, GLONASS)、BeiDou航法衛星システム(BeiDou navigation satellite system, BDS)、準天頂衛星システム(quasi-zenith satellite system, QZSS)、及び/又は衛星ベースの拡張システム(satellite based augmentation systems, SBAS)が含まれ得る。
電子装置100は、GPU、ディスプレイ194、アプリケーションプロセッサ等を使用して表示機能を実現する。GPUは、画像処理のためのマイクロプロセッサであり、ディスプレイ194をアプリケーションプロセッサに接続する。GPUは、数学的計算及び幾何学的計算を行い、画像をレンダリングするように構成される。プロセッサ110は、表示情報を生成又は変更するプログラム命令を実行する1つ又は複数のGPUを含み得る。
ディスプレイ194は、画像、ビデオ等を表示するように構成される。ディスプレイ194は、表示パネルを含む。表示パネルは、液晶ディスプレイ(liquid crystal display, LCD)、有機発光ダイオード(organic
light-emitting diode, OLED)、アクティブマトリクス有機発光ダイオード(active-matrix
organic light emitting diode, AMOLED)、フレキシブル発光ダイオード(flew
light-emitting diode, FLED)、Miniled、Microled、micro-oLed、量子ドット発光ダイオード(quantum dot light emitting diode, QLED)等であり得る。いくつかの実施形態では、電子装置100は、1つ又はN個のディスプレイ194を含むことができ、Nは1より大きい正の整数である。
電子装置100は、ISP、カメラ193、ビデオコーデック、GPU、ディスプレイ194、アプリケーションプロセッサ等を使用して撮影機能を実現することができる。
ISPは、カメラ193によってフィードバックされたデータを処理するように構成される。例えば、撮影中にシャッターが押され、光線がレンズを通してカメラの光感応素子に伝送され、光信号が電気信号に変換される。カメラの光感応素子は、電気信号を処理するためにISPに送信して、電気信号を可視画像に変換する。ISPは、画像のノイズ、輝度、及び外観に関してアルゴリズムの最適化をさらに実行する場合がある。ISPは、撮影シナリオの露出及び色温度等のパラメータをさらに最適化する場合がある。いくつかの実施形態では、ISPはカメラ193内に配置してもよい。
カメラ193は、静止画又はビデオを取り込むように構成される。物体の光学像が、レンズを使用して生成され、光感応素子に投影される。光感応素子は、電荷結合素子(charge coupled device, CCD)又は相補型金属酸化膜半導体(complementary
metal-oxide-semiconductor, CMOS)フォトトランジスタであってもよい。光感応素子は、光信号を電気信号に変換し、電気信号をISPに伝送して、電気信号をデジタル画像信号に変換する。ISPは、デジタル画像信号を処理のためにDSPに出力する。DSPは、デジタル画像信号を、RGB又はYUV等の標準フォーマットの画像信号に変換する。いくつかの実施形態では、電子装置100は、1つ又はN個のカメラ193を含むことができ、Nは1より大きい正の整数である。
デジタル信号プロセッサは、デジタル信号を処理するように構成される。デジタル画像信号に加えて、デジタル信号プロセッサは、別のデジタル信号をさらに処理することができる。例えば、電子装置100が周波数を選択する場合に、デジタル信号プロセッサは、周波数エネルギー等に対してフーリエ変換を行うように構成される。
ビデオコーデックは、デジタルビデオを圧縮又は解凍するように構成される。電子装置100は、1つ又は複数のビデオコーデックをサポートすることができる。このようにして、電子装置100は、例えば動画エキスパートグループ(moving picture experts group, MPEG)1、MPEG2、MPEG3、MPEG4等の複数の符号化フォーマットでビデオを再生又は記録することができる。
NPUは、ニューラルネットワーク(neural-network, NN)コンピューティングプロセッサであり、生体ニューラルネットワークの構造を参照することにより、例えば人間の脳のニューロン同士の間の伝達モードを参照することにより、入力情報を迅速に処理し、さらに自己学習を継続的に行うことができる。電子装置100のインテリジェント認知等のアプリケーションは、例えば、画像認識、顔認識、音声認識、及びテキスト理解等、NPUを使用することによって実装することができる。
外部メモリインターフェイス120は、外部メモリカード、例えばマイクロSDカードに接続して、電子装置100の記憶能力を拡張するように構成され得る。外部メモリカードは、外部メモリインターフェイス120を使用してプロセッサ110と通信して、データ記憶機能を実現する。例えば、音楽及びビデオ等のファイルは外部メモリカードに記憶される。
内部メモリ121は、コンピュータ実行可能プログラムコードを記憶するように構成され得、実行可能プログラムコードは命令を含む。プロセッサ110は、内部メモリ121に記憶した命令を実行して、電子装置100の様々な機能アプリケーション及びデータ処理を行う。内部メモリ121は、プログラム記憶領域及びデータ記憶領域を含む。プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能(例えば、音声再生機能又は画像再生機能)に必要なアプリケーション等を記憶することができる。データ記憶領域は、電子装置100の使用過程で生成されるデータ(例えば、オーディオデータ及び電話帳)等を記憶することができる。また、内部メモリ121は、高速ランダムアクセスメモリを含み得、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ、又はユニバーサルフラッシュストレージ(universal flash storage, UFS)等の不揮発性メモリをさらに含み得る。
電子装置100は、オーディオモジュール170、スピーカ170A、受信機170B、マイク170C、ヘッドセットジャック170D、アプリケーションプロセッサ等を使用して、音楽の再生又は録音等のオーディオ機能を実現することができる。
オーディオモジュール170は、デジタルオーディオ情報をアナログオーディオ信号出力に変換するように構成され、アナログオーディオ入力をデジタルオーディオ信号に変換するようにも構成される。オーディオモジュール170は、オーディオ信号を符号化及び復号化するようにさらに構成され得る。いくつかの実施形態では、オーディオモジュール170はプロセッサ110に配置してもよく、又はオーディオモジュール170内のいくつかの機能モジュールはプロセッサ110に配置してもよい。
スピーカ170Aは、「ホーン(horn)」とも呼ばれ、オーディオ電気信号を音信号に変換するように構成される。電子装置100は、スピーカ170Aを介してハンズフリーモードで音楽を聴く、又は電話に出るために使用することができる。
受信機170Bは、「イヤホン」とも呼ばれ、オーディオ電気信号を音信号に変換するように構成される。電子装置100を使用して電話に出る、又は音声情報を聞くときに、音声を聞くために受信機170Bを人の耳に近づけることができる。
マイク170Cは、「マイク」又は「マイクロホン」とも呼ばれ、音信号を電気信号に変換するように構成される。電話をかけ(making a call)又は音声情報を送信するときに、ユーザは、自分の口からマイク170Cの近くで音を出して、音信号をマイク170Cに入力することができる。電子装置100には、少なくとも1つのマイク170Cが配置され得る。いくつかの他の実施形態では、2つのマイク170Cを電子装置100に配置して、音信号を収集しノイズ低減機能を実現することができる。いくつかの他の実施形態では、代替的に、3つ、4つ、又はそれ以上のマイク170Cを電子装置100に配置して、音信号を収集し、ノイズ低減を実現し、音源を認識して、指向性記録機能等を実現することができる。
ヘッドセットジャック170Dは、有線ヘッドセットに接続するように構成される。ヘッドセットジャック170Dは、USBインターフェイス130であってもよく、又は3.5mmオープンモバイル端末プラットフォーム(open mobile terminal platform, OMTP)標準インターフェイス、又は米国セルラー電気通信工業会(cellular telecommunications industry association of the USA, CTIA)標準インターフェイスであってもよい。
圧力センサ180Aは、圧力信号を感知するように構成され、圧力信号を電気信号に変換することができる。いくつかの実施形態では、圧力センサ180Aをディスプレイ194に配置してもよい。例えば、抵抗性圧力センサ、誘導性圧力センサ、及び容量性圧力センサ等、多くのタイプの圧力センサ180Aがある。容量性圧力センサは、導電性材料で作製された少なくとも2つの平行板を含むことができる。圧力センサ180Aに力が加わると、電極同士の間の静電容量が変化する。電子装置100は、静電容量の変化に基づいて圧力強度を決定する。ディスプレイ194に対してタッチ操作が行われると、電子装置100は、圧力センサ180Aを使用してタッチ操作の強さを検出する。電子装置100は、圧力センサ180Aの検出信号に基づいてタッチ位置も算出することができる。いくつかの実施形態では、同じタッチ位置で行われるが異なるタッチ操作の強さを有するタッチ操作は、異なる操作命令に対応し得る。例えば、メッセージアプリケーションアイコンに対してタッチ操作の強さが第1の圧力閾値未満のタッチ操作が行われると、SMSメッセージの閲覧命令が実行される。メッセージングアプリケーションアイコンに対してタッチ操作の強さが第1の圧力閾値以上のタッチ操作が行われると、SMSメッセージの作成命令が実行される。
ジャイロセンサ180Bは、電子装置100の移動姿勢を決定するように構成され得る。いくつかの実施形態では、3つの軸(すなわち、軸x、y、及びz)の周りの電子装置100の角速度が、ジャイロセンサ180Bを使用して決定され得る。ジャイロセンサ180Bは、撮影中に手振れ補正を行うように構成され得る。例えば、シャッターが押されると、ジャイロセンサ180Bは、電子装置100が揺れる角度を検出し、その角度に基づいて、レンズモジュールが補正する必要のある距離を計算し、逆の動きによってレンズが電子装置100の揺れをキャンセルできるようにして、手ぶれ補正を実施する。ジャイロセンサ180Bは、ナビゲーションシナリオ及び体性(somatic)ゲームシナリオでも使用され得る。
気圧センサ180Cは、気圧を測定するように構成される。いくつかの実施形態では、電子装置100は、位置決定及びナビゲーションを支援するために、気圧センサ180Cによって測定された気圧を使用することによって高度を計算する。
磁気センサ180Dは、ホールセンサを含む。電子装置100は、磁気センサ180Dを使用してフリップ式レザーケースの開閉を検出することができる。いくつかの実施形態では、電子装置100がクラムシェル型電話である場合に、電子装置100は、磁気センサ180Dに基づいてフリップ式カバーの開閉を検出することができる。また、皮革ケースの検出した開閉状態又はフリップ式カバーの検出した開閉状態に基づいて、フリップ式カバーの自動ロック解除等の機構が設定される。
加速度センサ180Eは、電子装置100の様々な方向(通常は、3軸)の加速度の大きさを検出することができ、電子装置100が静止している場合の重力の大きさ及び方向を検出することができる。また、加速度センサ180Eは、電子装置の姿勢を特定する構成としてもよく、風景モードとポートレート(肖像)モードとの間の切替え又は歩数計等のアプリケーションに適用される。
距離センサ180Fは、距離を測定するように構成される。電子装置100は、赤外線又はレーザー方式で距離を測定することができる。いくつかの実施形態では、写真撮影シナリオにおいて、電子装置100は、距離センサ180Fを使用して距離を測定し、迅速な焦点合せを実施することができる。
光近接センサ180Gは、例えば、発光ダイオード(LED)と、例えばフォトダイオード等の光検出器とを含むことができる。発光ダイオードは、赤外線発光ダイオードであってもよい。電子装置100は、発光ダイオードを使用して赤外線を放射する。電子装置100は、フォトダイオードを使用して、近くの物体から反射した赤外光を検出する。十分な反射光が検出された場合に、その電子装置100は、電子装置100の近くに物体が存在すると判定することができる。不十分な反射光が検出された場合に、電子装置100は、電子装置100の近くに物体がないと判定することができる。電子装置100は、光近接センサ180Gを使用して、ユーザが電子装置100を耳に近づけて電話をかけることを検出し、節電のための画面を自動的にオフ状態にしてもよい。光近接センサ180Gは、スマートカバーモード又はポケットモードで使用されて、画面のロック解除又はロックを自動的に行うこともできる。
環境光センサ180Lは、環境光の輝度を感知するように構成される。電子装置100は、感知した環境光の輝度に基づいてディスプレイ194の輝度を適応的に調整することができる。環境光センサ180Lは、撮影中にホワイトバランスを自動的に調整するようにも構成され得る。環境光センサ180Lは、光近接センサ180Gと協働して、電子装置100がポケット内にあるかどうかを検出して、偶発的なタッチを回避することができる。
指紋センサ180Hは、指紋を採取するように構成される。電子装置100は、採取した指紋の特徴を使用して、指紋ベースのロック解除、アプリケーションロック(lock)アクセス、指紋ベースの写真撮影、指紋ベースの通話応答等を実施することができる。
温度センサ180Jは、温度を検出するように構成される。いくつかの実施形態では、電子装置100は、温度センサ180Jによって検出された温度を使用して温度処理ポリシーを実行する。例えば、温度センサ180Jによって報告された温度が閾値を超える場合に、電子装置100は、温度センサ180Jの近くのプロセッサの性能を低下させて、熱保護のために電力消費を減らす。いくつかの他の実施形態では、温度が別の閾値よりも低い場合に、電子装置100は、バッテリ142を加熱して、低温のために電子装置100が異常にシャットダウンすることを防止する。いくつかの他の実施形態では、温度がさらに別の閾値よりも低い場合に、電子装置100は、低温によって引き起こされる異常なシャットダウンを回避するために、バッテリ142の出力電圧を昇圧する。
タッチセンサ180Kは、「タッチパネル」とも呼ばれる。タッチセンサ180Kは、ディスプレイ194上に配置され得、タッチセンサ180K及びディスプレイ194は、「タッチスクリーン」とも呼ばれるタッチスクリーンを構成する。タッチセンサ180Kは、タッチセンサ180K上又はタッチセンサ180K付近のタッチ操作を検出する。タッチセンサは、検出したタッチ操作をアプリケーションプロセッサに転送して、タッチイベントのタイプを決定することができる。タッチ操作に関連する視覚的出力は、ディスプレイ194を使用して提供され得る。いくつかの他の実施形態では、タッチセンサ180Kは、ディスプレイ194の表面とは異なる位置で電子装置100の表面上に配置してもよい。
骨伝導センサ180Mは、振動信号を取得することができる。いくつかの実施形態では、骨伝導センサ180Mは、人の声帯部分の振動骨の振動信号を取得することができる。骨伝導センサ180Mは、体脈と接触して血圧拍動信号を受信することもできる。いくつかの実施形態では、骨伝導センサ180Mをヘッドセット内に配置して、骨伝導ヘッドセットを得ることもできる。オーディオモジュール170は、声帯部分の振動骨に関するものであり且つ骨伝導センサ180Mによって得られた振動信号に基づいて、解析によって音声信号を取得し、音声機能を実現する。アプリケーションプロセッサは、骨伝導センサ180Mによって取得された血圧拍動信号に基づいて心拍数情報を解析して、心拍数検出機能を実現することができる。
キー190は、電源キー、音量キー等を含む。キー190は、機械式キーであってもよく、又はタッチ式キーであってもよい。電子装置100は、キー入力を受信し、電子装置100のユーザ設定及び機能制御に関するキー信号入力を生成することができる。
モータ191は、振動プロンプトを生成することができる。モータ191は、着信振動プロンプト及びタッチ振動フィードバックを提供するように構成され得る。例えば、異なるアプリケーション(例えば、写真撮影及びオーディオ再生)で行われるタッチ操作は、異なる振動フィードバック効果に対応し得る。モータ191は、ディスプレイ194の異なる領域で行われるタッチ操作に対する異なる振動フィードバック効果にも対応し得る。異なるアプリケーションシナリオ(例えば、時間アラーム(time reminder)、情報の受取り、目覚まし時計、及びゲーム)は、異なる振動フィードバック効果にも対応し得る。タッチ振動フィードバック効果はさらにカスタマイズできる。
インジケータ192は、インジケータライトであってもよく、且つ充電状態及び電力変化を表示するように構成してもよく、又はメッセージ、不在着信、通知等を表示するように構成してもよい。
SIMカードインターフェイス195は、SIMカードに接続するように構成される。SIMカードは、SIMカードインターフェイス195内に挿入されるか、又はSIMカードインターフェイス195から取り外されて、電子装置100との接触又は分離を実現することができる。電子装置100は、1つ又はN個のSIMカードインターフェイスをサポートすることができ、Nは1より大きい正の整数である。SIMカードインターフェイス195は、ナノSIMカード、マイクロSIMカード、SIMカード等をサポートすることができる。複数のカードを同時に同じSIMカードインターフェイス195内に挿入することができる。複数のカードは、同種又は異種であってもよい。SIMカードインターフェイス195は、異なるタイプのSIMカードと互換性があり得る。SIMカードインターフェイス195は、外部メモリカードとさらに互換性があり得る。電子装置100は、SIMカードを使用してネットワークと対話し、会話及びデータ通信等の機能を実現する。いくつかの実施形態では、電子装置100は、eSIM、すなわち埋込み型SIMカードを使用する。eSIMカードは、電子装置100内に埋め込まれ、電子装置100から分離することができない。
電子装置100のソフトウェアシステムは、階層化アーキテクチャ、イベント駆動型アーキテクチャ、マイクロカーネルアーキテクチャ、マイクロサービスアーキテクチャ、又はクラウドアーキテクチャを使用することができる。本願のこの実施形態では、電子装置100のソフトウェア構造を示すために、階層化されたアーキテクチャを有するAndroidシステムを例として使用する。
図3は、本願の一実施形態による電子装置100のソフトウェア構造のブロック図である。
階層化アーキテクチャでは、ソフトウェアがいくつかのレイヤに分割され、各レイヤが明確な役割及びタスクを有している。レイヤは、ソフトウェアインターフェイスを使用して互いに通信する。いくつかの実施形態では、Androidシステムは、上から順に、アプリケーションレイヤ、アプリケーションフレームワークレイヤ、Androidランタイム(android runtime)及びシステムライブラリ、及びカーネルレイヤの4つのレイヤに分割される。
アプリケーションレイヤは、一連のアプリケーションパッケージを含み得る。
図3に示されるように、アプリケーションパッケージには、「カメラ」、「ギャラリー」、「カレンダー」、「通話」、「地図」、「ナビゲーション」、「Bluetooth」、「音楽」、「ビデオ」、「メッセージ」等のアプリケーションが含まれ得る。
本願のこの実施形態では、アプリケーションレイヤは、音声認識機能を有する音声アプリをさらに含み得る。音声アプリは、時には音声アシスタントアプリとも呼ばれ得、例えば、音声アシスタントXiao E、Xiaoai、又はSiriである。
音声アプリが有効にされた後に、ユーザが送った音声制御信号が収集され、音声制御信号が対応する音声タスクに変換される。さらに、音声アプリは、関連するアプリケーションのインターフェイスを呼び出して音声タスクを完了し、それによって、ユーザが電子装置を音声で制御できるようにすることができる。
アプリケーションフレームワークレイヤは、アプリケーションプログラミングインターフェイス(application programming interface, API)及びアプリケーションレイヤにおけるアプリケーションのためのプログラミングフレームワークを提供する。アプリケーションフレームワークレイヤには、予め規定された関数がいくつか含まれる。
図3に示されるように、アプリケーションフレームワークレイヤは、ウィンドウマネージャ、コンテンツプロバイダ、ビューシステム、電話マネージャ、リソースマネージャ、通知マネージャ等を含み得る。
ウィンドウマネージャは、ウィンドウプログラムを管理するように構成される。ウィンドウマネージャは、ディスプレイのサイズを取得し、ステータスバーがあるかどうかを判定し、画面ロックを行い、スクリーンショットの取得等を行うことができる。
コンテンツプロバイダは、データを記憶及び取得し、アプリケーションがデータにアクセスできるようにするように構成される。データには、ビデオ、画像、オーディオ、発着信した通話、閲覧履歴及びブックマーク、アドレス帳等が含まれ得る。
ビューシステムは、テキストを表示するコントロール及び写真を表示するコントロール等の視覚化コントロールを含む。ビューシステムは、アプリケーションを構築するように構成され得る。表示インターフェイスは、1つ又は複数のビューを含み得る。例えば、SMSメッセージ通知アイコンを含む表示インターフェイスは、テキスト表示ビュー及び写真表示ビューを含み得る。
電話マネージャは、電子装置100に通信機能、例えば通話状態の管理(応答又は拒否を含む)を提供するように構成される。
リソースマネージャは、アプリケーションにローカライズ(特定の場所に制限)された文字列、アイコン、画像、レイアウトファイル、ビデオファイル等の様々なリソースを提供する。
通知マネージャは、アプリケーションがステータスバーに通知情報を表示するのを可能にし、通知メッセージを伝達するように構成され得る。通知マネージャは、ユーザとの対話を必要とせずに、短いポーズ(pause)後に自動的に消え得る。例えば、通知マネージャは、ダウンロードの完了を通知し、メッセージを通知したりする等を行うように構成される。通知マネージャは、システムの上部ステータスバーにグラフ又はスクロールバーテキストの形式で現れる通知、例えば、バックグラウンドで実行されているアプリケーションの通知であってもよく、又はダイアログウィンドウ形式で画面に現れる通知であってもよい。例えば、テキスト情報がステータスバーに表示され、警告音が鳴ったり、電子装置が振動したり、又はインジケータライトが点滅したりする。
本願のこの実施形態では、アプリケーションフレームワークレイヤは、VUI(voice user interface、音声ユーザインターフェイス)マネージャをさらに含む。VUIマネージャは、音声アプリの動作状態を監視し得、又は音声アプリと別のアプリとの間のブリッジとして機能し得、及び音声アプリによって認識された音声タスクを実行のために関連アプリに転送することができる。
例えば、アプリケーションレイヤのアプリケーションが構成ファイルを提供し得、アプリケーションの関連インターフェイスによってサポートされる音声タスクが構成ファイルに記録され得る。音楽アプリを例として説明する。音楽アプリをインストールするときに、電子装置は、音楽アプリによって提供される構成ファイル1を電子装置に記憶することができる。構成ファイル1は、音楽アプリが音楽再生インターフェイスを表示するときに、音楽アプリによってサポートされる音声タスクを記録することができる。例えば、音声タスクには、再生、一時停止、前後の曲への切替え、音量の上げ下げ等が含まれる。
この場合に、電子装置が音楽アプリの音楽再生インターフェイスをフォアグラウンド(foreground:最前面)で実行するときに、ユーザがウェイクアップワード「こんにちは、Xiao E」を入力したことが検出された場合に、電子装置は、音声アプリをバックグラウンドで有効にすることができる。音声アプリが有効であることを検出した後に、VUIマネージャは、現在表示されている音楽再生インターフェイスに対応する構成ファイル1を取得することができる。また、図4に示されるように、VUIマネージャは、実行中の音楽再生インターフェイス402上の構成ファイル1に記録された音声タスクを音声入力プロンプト401の形式で表示することができる。
このようにして、ユーザが音楽アプリを使用するときに、電子装置は、現在のアプリケーションインターフェイスによってサポートされる音声タスクでユーザを促すことができる。その後、ユーザは、音楽再生インターフェイス402に表示される音声入力プロンプト401に基づいて、対応する音声制御信号を電子装置に送信し、電子装置が現在のアプリケーションインターフェイスによってサポートされる音声タスクを実行するようにトリガーすることができる。これにより、電子装置の音声アプリの音声制御効率が向上し、ユーザ・エクスペリエンスがさらに向上する。
なお、フォアグラウンドで動作するアプリケーションとは、通常、携帯電話の画面上に表示されているインターフェイスが属するアプリケーションを指すことに留意されたい。通常、インターフェイスは展開された(expanded)状態であり、ユーザはインターフェイス上のフォアグラウンド・アプリケーションと対話できる。例えば、携帯電話にWeChatアプリのインターフェイスが表示されている場合に、フォアグラウンドで実行されているアプリケーションはこの時点でWeChatアプリである。別の例では、図4の音楽アプリが携帯電話の画面に展開された状態で表示される場合に、音楽アプリがこの時点で最前面のアプリである。別の例では、図6のビデオアプリが携帯電話の画面上に展開された状態で表示される場合に、ビデオアプリがこの時点で最前面のアプリである。アプリケーションがバックグラウンドで動作している場合に、携帯電話は、通常、アプリケーションのインターフェイスを画面上に展開した状態で表示せず、アプリケーションのインターフェイスはユーザには見えない。しかしながら、携帯電話は、バックグラウンドアプリケーションのエントリ(例えば、アプリケーションのアイコン)を画面上に表示する場合がある。例えば、図7A又は図8に示されるように、携帯電話は、バックグラウンドで実行している音声アプリの識別子701をフローティングメニューの形式でフォアグラウンド・アプリケーションのインターフェイス上に表示することができる。ユーザは、識別子701を現在のインターフェイス上の任意の位置にドラッグすることができる。さらに、携帯電話が音声アプリの識別子701を表示している場合でも、ユーザは、フォアグラウンド・アプリケーションのインターフェイスとさらに対話することができる。例えば、図7Aに示されるように、ユーザは、ビデオアプリのインターフェイス601上の再生ボタン602等のコントロールをクリックすることができる。
通常、音声アプリは2つのパートを含む。1つのパートはバックグラウンドで動作する音声サービス(service)であり、ユーザが入力した音信号を収集して音信号を抽出し、テキスト変換、音声認識等を行うために使用される。他のパートは、携帯電話の画面に表示されるコンテンツであり、音声アプリのインターフェイス、例えばユーザと音声アプリとの間の対話(dialog)のコンテンツを表示するために使用される。本願のこの実施形態では、携帯電話のバックグラウンドで動作する音声アプリは、携帯電話のバックグラウンドで動作する音声サービスとして理解することができる。確かに、音声サービスがバックグラウンドで動作している場合に、携帯電話は、代替的に、音声アプリの識別子等の情報をフローティングメニュー等の形式で表示することができる。これは、本願の実施形態に限定されない。
Androidランタイムは、コアライブラリ及び仮想マシンを含む。Androidランタイムは、Androidシステムのスケジューリング及び管理を担当する。
コアライブラリは、java言語で呼び出す必要のある関数とAndroidのコアライブラリとの2つのパートを含む。
アプリケーションレイヤ及びアプリケーションフレームワークレイヤは、仮想マシン上で動作する。仮想マシンは、アプリケーションレイヤ及びアプリケーションフレームワークレイヤのjavaファイルをバイナリファイルとして実行する。仮想マシンは、オブジェクトのライフサイクル管理、スタック管理、スレッド管理、セキュリティ及び例外管理、ガベージ(garbage)コレクション等の機能を実現するように構成される。
システムライブラリは、複数の機能モジュール、例えば、サーフェイスマネージャ(surface manager)、メディアライブラリ(Media Libraries)、3次元グラフィックス処理ライブラリ(例えば、OpenGL ES)、及び2Dグラフィックエンジン(例えば、SGL)を含み得る。
サーフェイスマネージャは、表示サブシステムを管理し、複数のアプリケーションのために2D及び3Dレイヤの融合を提供するように構成される。
メディアライブラリは、一般的に使用される複数のオーディオ及びビデオフォーマット、静止画像ファイル等での再生及び記録をサポートする。メディアライブラリは、MPEG4、H.264、MP3、AAC、AMR、JPG、PNG等の複数のオーディオ及びビデオ・コーディングフォーマットをサポートすることができる。
3次元グラフィックス処理ライブラリは、3次元グラフィックスの描画、画像のレンダリング、合成、レイヤ処理等を実施するように構成される。
2Dグラフィックスエンジンは、2D描画のための描画エンジンである。
カーネルレイヤは、ハードウェアとソフトウェアとの間のレイヤである。カーネルレイヤには、少なくともディスプレイドライバ、カメラドライバ、オーディオドライバ、センサドライバ等が含まれる。これは、本願の実施形態に限定されない。
以下では、添付図面を参照して、本願の実施形態で提供される音声制御方法について詳細に説明する。
図5に示されるように、本願で提供される音声制御方法は、以下のステップS501~S505を含む。ステップS501~S505では、携帯電話が電子装置として使用される例を用いて説明する。
S501:携帯電話は、アプリケーションの第1のインターフェイスを表示し、第1のインターフェイスは、第1のインターフェイスを更新するために使用される1つ又は複数のコントロールを含む。
通常、携帯電話には、1つ又は複数のアプリケーションがインストールされている。ユーザによるアプリケーションの有効にする操作を検出した後に、携帯電話は、そのアプリケーションをフォアグラウンド・アプリケーションとして実行し始めることができる。この場合に、携帯電話は、アプリケーションのインターフェイスをタッチスクリーン上に表示することができる。第1のインターフェイスを例として使用すると、アプリケーションの第1のインターフェイスを表示するときに、携帯電話は、通常、第1のインターフェイスを展開した状態で表示し、ユーザが第1のインターフェイス上のアプリケーションと対話できるようにする。
携帯電話によって表示される第1のインターフェイスは、通常、1つ又は複数のコントロールを含む。通常、GUI(Graphical User Interface)に提示される要素は、コントロールと呼ばれ得、コントロールは、ユーザに特定の操作を提供することができる。図6に示されるように、携帯電話によって表示される第1のインターフェイスは、ビデオアプリの再生インターフェイス601である。再生ボタン、戻るボタン、入力ボックス等の複数のコントロールが、再生インターフェイス601に配置される。ユーザは、これらのコントロールを操作して携帯電話の表示コンテンツを更新し、携帯電話は、更新した第2のインターフェイスを表示することができる。例えば、ユーザが再生インターフェイス601の戻るボタンをクリックしたことを検出すると、携帯電話は、クリック操作に応答して、再生インターフェイス601の1つ前のレベルのメニュー(すなわち、第2のインターフェイス)を表示する。別の例では、例えば、ユーザが再生インターフェイス601上の再生ボタンをクリックしたことを検出すると、携帯電話は、クリック操作に応答して、再生インターフェイス601上でビデオを再生する。この場合に、携帯電話に表示されるインターフェイスは、第1のインターフェイスから第2のインターフェイスに更新される。
S502:携帯電話が予めセットされたウェイクアップ信号を受信したことに応答して、携帯電話は、音声アプリをバックグラウンドで有効にして、ユーザによって入力された音声制御信号の収集を開始する。
例えば、音声アプリを有効にする前に、携帯電話は、マイクを常時オン(always on)の状態に設定してもよい。この場合に、携帯電話がアプリケーションのインターフェイス(例えば、第1のインターフェイス)を表示すると、携帯電話のマイクは、特定の動作周波数の音信号を収集する。
図6に示されるように、携帯電話は、ビデオアプリ内の「ゲーム・オブ・スローンズ(“Game of Thrones”)」の再生インターフェイス601(すなわち、第1のインターフェイス)を表示している。マイクが音信号を収集するときに、携帯電話は、収集した音信号が予めセットされたウェイクアップ信号であるかどうかをさらに認識することができる。例えば、ユーザが「こんにちは、Xiao E」という音信号を送った後、携帯電話は、マイクを使用して音信号を収集することができる。携帯電話が、音信号が予めセットされたウェイクアップ信号であると認識した場合に、この時点で、それは、ユーザが、音声アプリが提供する音声認識機能を使用して、関連する音声タスクを完了することを期待していることを示す。この場合に、携帯電話が表示している第1のインターフェイス(例えば、再生インターフェイス601)をブロックするのを避けるために、携帯電話は、音声アプリをバックグラウンドで有効にすることができる。例えば、図7Aに示されるように、音声アプリをバックグラウンドで有効にした後に、携帯電話は、音声アプリのアイコン701を再生インターフェイス601上に表示することができる。アイコン701は、音声アプリが携帯電話のバックグラウンドで動作していることを示すために使用される。音声アプリが携帯電話のバックグラウンドで動作しているため、携帯電話は、再生インターフェイス601上でユーザによって行われる様々な操作、例えばユーザによる再生ボタンをクリックする操作にさらに応答することができる。もちろん、音声アプリをバックグラウンドで有効にする場合に、第1のインターフェイス(例えば、再生インターフェイス601)上でユーザによって行われる様々な操作に携帯電話が応答できないように代替的に予め設定しておいてもよい。これは、本願の実施形態に限定されない。
携帯電話が音声アプリをバックグラウンドで有効にした後に、ユーザは、携帯電話が実行すると期待する音声制御信号(例えばサムに電話して連絡するか、又はビデオの再生を開始する)を音声アプリに入力し始めることができる。従って、音声アプリをバックグラウンドで有効にした後にも、携帯電話は、引き続きマイクを使用して、ユーザによって入力された音声制御信号を収集できる。例えば、携帯電話は、音声アプリが有効になってから5秒間、マイクが自動的に有効になるように設定し、5秒間にユーザによって入力された音声制御信号を収集することができる。別の例では、携帯電話は、音声アプリのアイコン701をマイクのオン/オフボタンとして設定することができる。ユーザがアイコン701をクリックしたことを検出すると、携帯電話は、5秒間マイクを有効にして、5秒間にユーザによって入力された音声制御信号を収集することができる。別の例では、ユーザがアイコン701をクリックしたことを検出すると、携帯電話は、マイクを有効にして、マイクを作動状態に保ち、ユーザによって入力された音声制御信号を収集する。ユーザがアイコン701を再びクリックしたことを検出した後に、携帯電話は、マイクを無効にすることができる。
なお、ウェイクアップ信号は、ユーザが音声によって入力したウェイクアップワードに加えて、他の信号を含んでもよいことに留意されたい。例えば、ウェイクアップ信号は、ボタン上のユーザのクリック信号であってもよく、又はウェイクアップ信号は、ユーザのタッチジェスチャであってもよい。これは、本願の実施形態に限定されない。
また、携帯電話は、音声アプリの使用を許可するアプリケーションを予め設定しておいてもよい。例えば、WeChatアプリには音声アプリを使用する許可があるが、Alipayアプリには音声アプリを使用する許可がない場合がある。この場合に、携帯電話がフォアグラウンドで音声アプリを使用する許可を有するアプリケーションを実行している場合に、携帯電話がユーザによって入力されたウェイクアップ信号を受信すると、携帯電話は、音声アプリをバックグラウンドで有効にすることができる。これに対応して、携帯電話がフォアグラウンドで音声アプリを使用する許可がないアプリケーション又はアプリケーションのインターフェイスを実行している場合に、携帯電話がユーザによって入力されたウェイクアップ信号を受信した後に、携帯電話は、フォアグラウンドで音声アプリを実行することができる。図7Bに示されるように、フォアグラウンドで音声アプリを実行するときに、携帯電話は、音声アプリのインターフェイス702を展開した状態で表示することができる。インターフェイス702は、音声アプリのコントロールを含み得る。インターフェイス702において、携帯電話は、ユーザと音声アプリとの間の対話(dialog)のコンテンツを表示することができる。
S503:携帯電話は、第1のインターフェイスに関連する構成ファイルを取得し、構成ファイルは、携帯電話による実行が許可される音声タスクを第1のインターフェイス上に記録する。
ユーザが、携帯電話が第1のインターフェイスを表示しているときに音声アプリを有効にするので、音声アプリを有効にした後に、ユーザは、音声アプリを使用して第1のインターフェイスに関連する音声タスクを実行したいと考える場合がある。例えば、第1のインターフェイスは再生インターフェイス601である。携帯電話が再生インターフェイス601を表示するときに、携帯電話がユーザによって入力されたウェイクアップ信号を検出すると、それはおそらく、ユーザが、音声アプリを使用して再生インターフェイス601上の操作ボタンに対して特定の操作を行う必要があることを示す。例えば、ユーザが再生インターフェイス601上の再生ボタン602を片手でクリックするのが不便な場合に、ユーザは、音声アプリの音声制御機能を使用して、ビデオ「ゲーム・オブ・スローンズ」を再生インターフェイス601上に表示する操作を行いたい場合がある。
本願のこの実施形態では、携帯電話は、各アプリケーションの構成ファイルを予め記憶することができる。例えば、各アプリケーションは1つ又は複数の構成ファイルに対応する。1つの構成ファイルの場合に、構成ファイルは、音声アプリによってサポートされる音声タスクを1つのアプリケーションの異なるインターフェイスに記録する。代替的に、1つの構成ファイルは、音声アプリによってサポートされている音声タスクを1つのアプリケーションの1つのインターフェイスのみに記録する場合がある。前述のビデオアプリを例として使用すると、ビデオアプリの開発者は、再生インターフェイスの構成ファイル1及びホームページの構成ファイル2をビデオアプリのインストールパッケージに設定することができる。構成ファイル1は、音声アプリによって実行が許可されている音声タスク(例えば、再生、早送り、次のエピソードへの切替え)をビデオアプリの再生インターフェイスに記録する。構成ファイル2は、音声アプリによって実行が許可されている音声タスク(例えば、履歴再生記録の表示、又はキーワードの検索)をビデオアプリのホームページに記録する。ビデオアプリをインストールするときに、携帯電話は、ビデオアプリのインストールパッケージで提供される構成ファイル1及び構成ファイル2をローカルに保存することができる。
あるいはまた、携帯電話は、構成ファイル1及び構成ファイル2を自動的に生成することができる。例えば、ビデオアプリの再生インターフェイス601を実行するときに、携帯電話は、再生インターフェイス601に含まれるボタン及びボタンの属性を取得することができる。再生ボタン602を例として使用すると、再生ボタン602の属性は、再生ボタン602がクリック可能なボタンタイプであることであり、再生ボタン602のクリックは、ビデオの再生を開始するか、又はビデオの再生を停止するために使用され得る。この場合に、携帯電話は、再生インターフェイス601がサポートする音声タスクとして、再生タスク及び一時停止タスクを構成ファイル1に記録することができる。同様に、携帯電話は、再生インターフェイス601上の別のボタン対応する音声タスクを構成ファイル1に記録し、最終的に、再生インターフェイス601に対応する構成ファイル1を生成する。
例えば、構成ファイルは、XML(Extensible Markup Language、拡張マークアップ言語)フォーマットのファイルであってもよい。例えば、構成ファイル1の特定のコンテンツは次の通りである。
<VoiceIntentList>
<VoiceIntent //音声タスク1
IntentId="@id/intent_power" //音声タスク1は再生タスクである
bindViewId="@id/power" //音声タスク1に対応するボタンは再生ボタンである
voiceOnClick="voiceSwitchPower" //音声タスク1に対応する操作は再生ボタンのクリックである
voiceTags="@string/power_controller"/> //発言:(オプション)電源制御
<VoiceIntent //音声タスク2
…>
<VoiceIntent //音声タスク3
…>
構成ファイル1は、音声アプリによって実行が許可される1つ又は複数の音声タスクをビデオアプリの再生インターフェイス上に記録することが分かり得る。音声タスク1を例として使用する。IntentIdフィールドは、音声タスク1の特定のコンテンツが再生タスクであることを記録する。bindViewIdフィールドは、音声タスク1が実行されるボタンが再生インターフェイス上の再生ボタンであることを記録する。voiceOnClickフィールドは、音声タスク1が実行されたときに携帯電話で行われた特定の操作が再生ボタンのクリックであることを記録する。
具体的には、構成ファイル1は、音声タスク1と、再生インターフェイス上の再生ボタンをクリックするタッチイベントとの間の対応関係をさらに記録する。携帯電話の場合に、携帯電話がユーザによる再生タスクを入力するための音声制御信号を受信すると、それは、携帯電話が、ユーザが再生インターフェイス上の再生ボタンをクリックしたことを検出することと等価である。オプションで、voiceTagsフィールドは音声タスク1の音声に関する発言(remark)を記録する。例えば、一部のユーザは、再生操作を電源制御として呼び出すために使用する。従って、電力制御は、再生タスクの別の表現方法と言うことができる。その後、ユーザが入力した電力制御に関する音声制御信号を検出すると、携帯電話は、音声タスク1の発言を参照して、ユーザが実行を期待している音声タスクが再生タスクであると判断することができる。
その後、携帯電話が、ユーザによって入力された音声制御信号が再生タスクに対応すると判断した場合に、携帯電話は、構成ファイル1のbindViewIdフィールド及びvoiceOnClickフィールドに基づいて、ビデオアプリにおける再生ボタンのクリックに対応する関連する関数(例えば、voiceSwitchPowerコールバック関数)を実行することができる。このようにして、ビデオアプリにおいて音声制御信号を使用して、携帯電話が再生タスクを実行するように制御する機能が実現される。
具体的には、ステップS503において、携帯電話がアプリケーションレイヤで音声アプリを有効にした後に、音声アプリは、音声アプリの有効化イベントをアプリケーションフレームワークレイヤのVUIマネージャに報告することができる。有効化イベントを検出した後に、VUIマネージャは、現在表示されている第1のインターフェイスに関連する構成ファイルを取得できる。例えば、VUIマネージャは、フォアグラウンドで実行されているインターフェイスがビデオアプリの再生インターフェイス601であると最初に決定することができる。次に、VUIマネージャは、再生インターフェイス601の識別子に基づいて、再生インターフェイス601のビデオアプリに設定されている構成ファイル1を読み出すことができる。構成ファイル1は、音声アプリによって実行が許可される1つ又は複数の音声タスクをビデオアプリの再生インターフェイス上に記録する。
S504:携帯電話は、構成ファイルに基づいて、音声入力プロンプトを第1のインターフェイス上に表示する。
第1のインターフェイス上で音声アプリを有効にした後に、ユーザは、第1のインターフェイス上で音声アプリによって実行できる特定の音声タスクを知らない可能性がある。このため、ユーザは、音声アプリが提供する様々な音声認識機能を正確に利用することができない。ステップS504において、携帯電話が第1のインターフェイスに関連する構成ファイルを取得した後に、構成ファイルに記録された全ての音声タスクが第1のインターフェイス上の音声アプリによって実行できるため、携帯電話は、構成ファイル内の1つ又は複数の音声タスクを音声入力プロンプトとして第1のインターフェイス上に表示して、ユーザに正確な音声制御信号を送信して第1のインターフェイス上の機能を制御するように促す。
例えば、再生インターフェイス601の構成ファイル1を取得した後に、VUIマネージャは、構成ファイル1に記録された音声タスクを音声入力プロンプトの形式で再生インターフェイス601上に表示することができる。図8に示されるように、携帯電話は、音声アプリのアイコン701の近くに1つ又は複数の音声入力プロンプト801を表示させることができる。各音声入力プロンプト801は、構成ファイル1内の1つの音声タスクに対応する。通常、各音声タスクは、再生インターフェイス601上の1つ又は複数のコントロールに関連付けられる。従って、各音声入力プロンプトは、第1のインターフェイス上の1つ又は複数のコントロールにも関連付けられる。例えば、再生タスクが構成ファイル1に記録されており、再生タスクが再生インターフェイス601上の再生ボタンに対応する場合に、携帯電話は、対応する音声入力プロンプト「再生」を表示させることができる。早送りタスクが構成ファイル1に記録されており、早送りタスクが再生インターフェイス601上の早送りボタン及びビデオ進行バーのスライダーに対応している場合に、携帯電話は、対応する音声入力プロンプト「x秒早送り」を表示させることができ、xは任意の正の整数であり、例えば、図8の「10秒早送り」である。
音声入力プロンプトの量が比較的多い場合に、「もっと(more)」ボタン802を再生インターフェイス601上に表示してもよい。ユーザが「もっと」ボタン802をクリックしたことを検出すると、携帯電話は、非表示の音声入力プロンプト801を再生インターフェイス601上で完全に表示させることができる。ユーザが「もっと」ボタンをクリックする前に、携帯電話は、ユーザの使用習慣に基づいて、ユーザが最も頻繁に使用するいくつかの音声入力プロンプト801のみを表示させることができる。また、携帯電話は、ユーザの音声を知的に認識することができる。例えば、図8に示される音声入力プロンプト801では、「10秒早送り」という音声プロンプトがある。ユーザが与えた音声命令が「15秒早送り」の場合に、携帯電話は、その命令を2つの命令:「早送り」及び「15秒」に分割してユーザの意図をさらに理解し、ビデオを15秒間早送りすることができる。
上記実施形態では、音声入力プロンプト801を再生インターフェイス601に表示する例を説明のために使用した。携帯電話が別のアプリケーションのインターフェイスを表示するときに、携帯電話は、音声入力プロンプトの形式で、前述の方法に従って現在のインターフェイスによってサポートされる音声タスクをユーザに促すこともできることを理解されたい。例えば、図9(a)に示されるように、携帯電話がカメラアプリの撮影インターフェイス901を表示するときに、携帯電話が音声アプリをバックグラウンドで有効にしていることをこの携帯電話が検出すると、携帯電話は、カメラアプリの撮影インターフェイス901に関連する構成ファイルを取得し、さらに、構成ファイル内の音声タスクを音声入力プロンプト902の形式で撮影インターフェイス901上に表示させることができる。例えば、音声入力プロンプト902は「写真撮影」、「記録(record:録画)」、「自撮り(self-photographing)」、「写真を見る」等を含み得る。「写真撮影」は、撮影インターフェイス901上の撮影ボタンに対応する。「記録」は、撮影インターフェイス901上の記録ボタンに対応する。「自撮り」は、撮影インターフェイス901上にある正面カメラを有効にするボタンに対応する。「写真を見る」は、撮影インターフェイス901上の写真サムネイル903に対応する。音声入力プロンプト902に対応する全ての音声タスクは、撮影インターフェイス901上の音声アプリによって実行できるタスクである。
例えば、携帯電話が図9(a)に示される撮影インターフェイス901を表示している場合に、携帯電話100が、ユーザが音声制御信号「写真撮影」を入力したことを検出すると、携帯電話は、音声制御信号に応答して、音声制御信号に対応する写真撮影操作を行うために音声アプリを呼び出すことができる。写真撮影操作が完了した後に、携帯電話は、カメラアプリの撮影インターフェイス901を表示し続けることができる。この場合に、図9(b)に示されるように、以前の撮影で携帯電話が取得した写真サムネイル903も撮影インターフェイス901上に表示され得る。さらに、携帯電話は、撮影インターフェイス901に対応する音声入力プロンプト902を表示し続けることができる。この場合に、ユーザが以前の撮影で取得した写真を見たい場合に、ユーザは、「写真を見る」という音声制御信号を携帯電話に入力することができる。音声制御信号に応答して、図10に示されるように、携帯電話は、ギャラリーアプリを有効にして、最新の写真の閲覧インターフェイス904を表示させることができる。また、携帯電話は、閲覧インターフェイス904に関連する構成ファイルを取得し、さらに、構成ファイル内の音声タスクを音声入力プロンプト905の形式で閲覧インターフェイス904上に表示させることができる。例えば、音声入力プロンプト905は、「ズームイン」、「ズームアウト」、「次へ」、「カメラに戻る」等を含み得る。閲覧インターフェイス904に表示される写真をコントロールとしても使用でき、「ズームイン」、「ズームアウト」、「次へ」等の音声入力プロンプト905は全て写真に対応する。「ズームイン」は、写真上でズームイン操作を行うことに対応する。「ズームアウト」は、写真上でズームアウト操作を行うことに対応する。「次へ」は、写真上でスライド操作を行うことに対応する。閲覧インターフェイス904が次の写真を表示するために使用されるボタンを含む場合に、「次へ」は、次の写真を表示するために使用されるボタンにさらに対応し得る。
また、携帯電話が顔認識機能を有する場合に、携帯電話は、閲覧インターフェイス904に含まれる顔、例えば、ユーザAをさらに自動的に認識することができる。さらに、ユーザによって入力され受信した音声制御信号が「ユーザAを拡大」である場合に、携帯電話は、ユーザAの位置(例えば、ユーザAの顔)を中心に、現在表示中の画像をズームインすることができる。
換言すれば、携帯電話が、アプリケーションのインターフェイスを表示し、音声アプリをバックグラウンドで有効にした後に、携帯電話は、現在のインターフェイス上の音声アプリによって実行できる音声タスクをユーザに促すことができる。このようにして、ユーザは音声アプリを使用して現在のインターフェイス上の様々な機能を音声でどの様に制御するかを正確に学習できる。これにより、音声アプリの利用効率が向上する。
また、携帯電話によって表示される同じアプリケーションのインターフェイス上の音声入力プロンプトも動的に変更することができる。例えば、携帯電話が、ビデオが再生インターフェイス601で再生されていることを検出すると、携帯電話は、音声入力プロンプト「再生」を非表示にすることができる。これに対応して、ユーザが再生インターフェイス601でビデオの再生を一時停止したことを検出すると、携帯電話は音声入力プロンプト「再生」を表示し、携帯電話は音声入力プロンプト「一時停止」を非表示にすることができる。これは、本願の実施形態に限定されない。
例えば、音声アプリを有効にした後に、携帯電話は、第1のインターフェイスに関連する音声入力プロンプトを直ぐに表示することができる。あるいはまた、音声アプリを有効にした後に、携帯電話が特定の時間(例えば、2秒)以内にユーザによって入力された音声制御信号を収集しない場合に、それは、ユーザがこの場合に音声アプリをどの様に使用かを知らない可能性があることを示す。従って、携帯電話は、第1のインターフェイスに関連する音声入力プロンプトを表示させることができる。あるいはまた、図11に示されるように、音声アプリを有効にした後に、携帯電話は、プロンプトボタン1001を第1のインターフェイス(例えば、再生インターフェイス601)上に表示させることができる。ユーザがプロンプトボタン1001をクリックしたことを検出すると、携帯電話は、前述の方法に従って、図8に示される関連する音声入力プロンプト801を再生インターフェイス601上に表示させることができる。
ある期間(例えば、3秒)に亘って音声入力プロンプトを第1のインターフェイス上に表示した後に、携帯電話は、音声入力プロンプトを自動的に非表示にすることができる。あるいはまた、携帯電話が音声入力プロンプトを第1のインターフェイス上に表示した後に、携帯電話が特定の時間内にユーザによって入力された音声制御信号を収集しないか、又は特定の時間内にタッチスクリーン上でのユーザの入力イベントを検出しなかった場合に、携帯電話は、第1のインターフェイス上の音声入力プロンプトを自動的に非表示にしてもよい。
携帯電話が音声入力プロンプトを第1のインターフェイス上に表示するステップ(すなわち、ステップS504)はオプションのステップであることに留意されたい。換言すると、音声アプリをバックグラウンドで有効にした後に、携帯電話は、現在のインターフェイス上の音声アプリによってサポートされる音声タスクでユーザに促さない(プロンプトを表示しない)場合がある。これは、本願の実施形態に限定されない。
携帯電話が音声入力プロンプトを表示するかどうかにかかわらず、携帯電話が音声アプリをバックグラウンドで有効にした後に、ユーザは、音声アプリを使用して音声制御信号を携帯電話に入力することができる。この場合に、音声アプリがユーザによって入力された音声制御信号を収集した後に、以下のステップS505が続いて実行され得る。
S505:音声アプリによって収集された音声制御信号に応答して、携帯電話は音声制御信号に対応する音声タスクを実行し、それによって、携帯電話は表示された第1のインターフェイスを第2のインターフェイスに更新する。
再生インターフェイス601を例として引き続き使用すると、携帯電話が音声入力プロンプト801を再生インターフェイス601上に表示した後に、ユーザは、音声入力プロンプト801に基づいて、対応する音声制御信号を携帯電話に入力することができる。この場合に、音声アプリは引き続きバックグラウンドで実行される。従って、音声アプリは、マイクを使用して、ユーザによって入力された音声制御信号を収集することができる。例えば、ユーザが「再生」又は「再生を開始」等の音声制御信号を入力した後に、音声アプリは、予め設定した音声認識アルゴリズムを使用して、ユーザが入力した音声制御信号をテキスト信号に変換し、音声制御信号に対応する実際の音声タスクを認識するために、意味(semantic)理解を実行する。また、音声アプリは、認識した実際の音声タスクをアプリケーションフレームワークレイヤのVUIマネージャに報告することができる。VUIマネージャは、実際の音声タスクとステップS503で取得した構成ファイル1に記録された音声タスクとを比較し、ユーザによって入力された音声制御信号が構成ファイル1内でサポートされている音声タスクであるかどうかを判定する。
ユーザによって入力された音声制御信号が構成ファイル1内の音声タスクである場合に、例えば、ユーザによって入力された音声制御信号「再生」が構成ファイル1内の音声タスク1である場合に、VUIマネージャは、構成ファイル1に基づいて、音声タスク1に対応するタッチイベントを実行することができる。音声タスク1を例として引き続き使用すると、構成ファイル1は、音声タスク1が再生ボタンに対応する、具体的には再生インターフェイス上の再生ボタンをクリックするタッチイベントに対応することを記録する。これは、ユーザが、音声制御信号「再生」を入力することにより、再生インターフェイス601上の再生ボタン602を制御して再生機能を実行することを期待していることを示す。この場合に、VUIマネージャは、構成ファイル1内のbindViewIdフィールド及びvoiceOnClickフィールドに基づいて、ビデオアプリにおいて再生ボタンをクリックすることに対応する関連する関数(例えば、音声タスク1のvoiceSwitchPowerコールバック関数)を実行して、ビデオアプリにおいて音声制御信号「再生」に対応する音声タスクを実施することができる。この場合に、図12に示されるように、再生インターフェイス601上の再生ボタン602がクリックされた後に、携帯電話によって再生されるビデオコンテンツが変化する。また、元々表示されていた再生ボタン602を一時停止ボタン1103に更新してもよい。換言すると、携帯電話によって表示されるインターフェイスは、第1のインターフェイスから第2のインターフェイス1102に更新される。
また、図12に示されるように、音声制御信号「再生」に対応する音声タスクが実施された後に、音声アプリは、ユーザが入力した音声制御信号に関する応答情報1101をさらに表示して、音声制御信号に対する応答が完了したことをユーザに促すことができる。その後、ユーザは、さらに音声アプリと通信し続けて、別の音声制御信号に対する応答を完了することができる。
あるいはまた、携帯電話が、ユーザによって入力された音声制御信号が構成ファイル1内の音声タスク1であると判定した後に、音声タスク1には、タスクが具体的には再生タスクであり、そのタスクに使用されるボタンが再生ボタンであることが記録されているため、VUIマネージャは、再生ボタンのクリックイベントをビデオアプリにさらに報告する場合がある。例えば、VUIマネージャは、クリックイベントにおける再生ボタンの座標を伝えて、座標をビデオアプリに報告することができる。さらに、クリックイベントに応答して、ビデオアプリは、関連する関数をフレームワークレイヤで呼び出して、ビデオを再生するための再生タスクを実行することができる。
本願のこの実施形態では、対応する構成ファイルがアプリケーション内のインターフェイス毎に設定され得ることが分かり得る。構成ファイルは、対応するインターフェイスによってサポートされる音声タスクと、音声タスクに対応する特定のタッチイベントとを記録する。このようにして、アプリケーションのインターフェイスを実行するときに、携帯電話は、インターフェイスの構成ファイルに基づいて、ユーザが入力した音声制御信号を対応するタッチイベントに変換し、次にタッチイベントを実行して、アプリケーションのインターフェイス上の各操作ボタンを音声によって制御する機能を実現することができる。このようにして、携帯電話は、インターフェイス上の操作ボタン毎の音声制御機能をアプリケーションの各インターフェイス上で実現することができる。これにより、携帯電話の音声制御効率及びユーザ・エクスペリエンスが向上する。
また、ユーザによって入力された音声制御信号が構成ファイル1内の再生タスクであると判定した後に、携帯電話は、再生ボタン602をクリックするタッチ制御操作のアニメーション効果を再生インターフェイス601上にさらに表示して、携帯電話がユーザによって入力された音声制御信号に応答していることをユーザに視覚的に促すことができる。別の例では、携帯電話に表示されているインターフェイス上でユーザが音声によってテキスト(例えば、電話番号)を入力すると、携帯電話は、インターフェイス上で、電話番号を入力するプロセスをユーザに提示すこともでき、それによって、ユーザは、GUI(graphical user interface、グラフィカルユーザインターフェイス)とVUIとの両方で優れたユーザ・エクスペリエンスを得ることができる。
例えば、携帯電話が、ユーザによって入力された音声制御信号が構成ファイル1内の再生タスクであると判定した後に、携帯電話は、以下のコードを実行することにより、タッチスクリーン上でのクリックイベントの表示プロセスをシミュレートすることができる。
new
OnVoiceClickListener{
public
void onVoiceClick(final View view){
view.setPressed(true); //指の押圧をシミュレートし、押圧した状態を表示する
view.performClick(); //クリックイベントに対応するコールバック関数を実行する
view.postDelayed(new RealsePressed(view), 500); //500ms後、指のリリースをシミュレートし、リリース状態を表示する
}
}
これに対応して、ユーザによって入された音声制御信号が第1のインターフェイスの構成ファイル内の音声タスクに属していない場合に、それは、携帯電話が、ユーザが送った音声制御信号の現在の第1のインターフェイス上での実行をサポートしていないことを示す。携帯電話は、音声アプリを使用して、音声タスクを完了できないことをユーザに促す、又は音声タスクを再入力するようユーザに促すことができる。
いくつかの他の実施形態では、図13に示されるように、音声アプリを使用してユーザが入力した音声制御信号を収集した後に、携帯電話は、その音声制御信号をサーバにさらに送信することができる。例えば、ユーザによって入力された音声制御信号が比較的複雑であり、その結果、音声アプリが音声制御信号を認識し難い場合に、携帯電話は、ユーザによって入力された音声制御信号をサーバに送信することができる。サーバは、ユーザによって入力された音声制御信号に対して意味認識及び理解を行い、音声制御信号に対応する実際の音声タスクを認識する。その後、サーバは、認識した実際の音声タスクを携帯電話に送信し得、それによって、携帯電話は、実際の音声タスクを対応する構成ファイル内の音声タスクと比較して、ユーザによって入力された音声制御信号が構成ファイル内にサポートされている音声タスクであるかどうかを判定する。
例えば、本願のこの実施形態では、ユーザにより入力された音声制御信号をサーバに送信することに加えて、携帯電話は、第1のインターフェイスのインターフェイス情報をサーバにさらに送信することができる。例えば、第1のインターフェイスのインターフェイス情報は、第1のインターフェイスの識別子であってもよく、又は第1のインターフェイスのページタイプ(例えば、設定インターフェイス又はチャットインターフェイス)であってもよく、又は第1のインターフェイスが属するアプリケーションのタイプ(例えば、ビデオアプリケーション)、パッケージ名(package name)等であってもよい。
例えば、ユーザの携帯電話には、CtripアプリとBooking(予約)アプリとの両方がインストールされている。Bookingアプリは、携帯電話の音声アプリで使用されるデフォルトのアプリケーションのうちの1つである。さらに図13に示されるように、携帯電話は、現在、Ctripアプリのホームページ1201を表示している。携帯電話が音声アプリをバックグラウンドで有効にすると、音声アプリは、ユーザが入力した「航空券を予約したい」という音声制御信号を収集する。また、携帯電話は、音声アプリによって収集された音声制御信号をサーバに送信することができる。また、携帯電話は、現在実行中のホームページ1201のインターフェイス情報(例えば、Ctripアプリのパッケージ名)をサーバにさらに送信することができる。このようにして、サーバは、インターフェイス情報を参照して「航空券を予約したい」という音声制御信号に対して音声認識を実行し、ユーザが送った実際の音声タスクはBookingアプリの代わりにCtripアプリを使用して航空券を予約することを認識できる。この場合に、サーバが認識した実際の音声タスクを携帯電話に送信した後に、携帯電話は、「航空券を予約したい」という音声制御信号に応答して、実際の音声タスクに基づいてCtripアプリの航空券検索インターフェイスを自動的に有効にすることができる。
これに対応して、携帯電話が現在表示しているインターフェイスがCtripアプリのインターフェイスでない場合に、例えば、携帯電話がデスクトップ(home screen、ホーム画面とも呼ばれる)を現在表示している場合に、携帯電話が音声アプリをバックグラウンドで有効にし、音声アプリが、ユーザが入力した「航空券を予約したい」という音声制御信号を収集すると、携帯電話は、音声アプリによって収集された音声制御信号をサーバに送信することができる。また、携帯電話は、現在実行中のデスクトップのインターフェイス情報をサーバにさらに送信することができる。このようにして、サーバは、インターフェイス情報を参照して「航空券を予約したい」という音声制御信号に対して音声認識を実行し、ユーザが送った実際の音声タスクが、Ctripアプリを使用して航空券を予約する代わりに、デフォルトのBookingアプリを使用して航空券を予約することを認識できる。この場合に、サーバが認識した実際の音声タスクを携帯電話に送信した後に、携帯電話は、「航空券を予約したい」という音声制御信号に応答して、実際の音声タスクに基づいてBookingアプリの航空券検索インターフェイスを自動的に有効にすることができる。
換言すれば、本願のこの実施形態では、携帯電話は、実行中のアプリケーションのインターフェイス情報をサーバに能動的に送信することができる。インターフェイス情報が携帯電話の現在の実際の使用状況を反映することができるので、サーバは、インターフェイス情報を参照して、ユーザが入力した音声制御信号に対する音声認識をより正確に行うことができる。このようにして、ユーザが送った実際の音声タスクがより正確に決定される。
図14に示されるように、本願の実施形態は、電子装置を開示しており、電子装置は、タッチスクリーン1401(タッチスクリーン1401は、タッチ感知表面1406及びディスプレイ1407を含む);1つ又は複数のプロセッサ1402;メモリ1403;通信モジュール1408;1つ又は複数のアプリケーション(図示せず);1つ又は複数のコンピュータプログラム1404を含み、前述のコンポーネントは、1つ又は複数の通信バス1405を使用して接続することができる。1つ又は複数のコンピュータプログラム1404は、メモリ1403に記憶され、1つ又は複数のプロセッサ1402によって実行されるように構成される。1つ又は複数のコンピュータプログラム1404は、命令を含む。命令は、前述の実施形態のステップを実行するために使用され得る。例えば、命令は、図5に示されるステップを実行するために使用され得る。
実施態様に関する前述の説明により、当業者は、便宜的且つ簡潔な説明の目的で、前述の機能モジュールの分割が説明のための例として取り上げられることを理解することができる。実際のアプリケーションでは、必要に応じて、上記の機能を異なるモジュールに割り当てて実装することができる。すなわち、機器の内部構造を異なる機能モジュールに分割して、上記の機能の全部又は一部を実現することができる。前述のシステム、機器、及びユニットの詳細な作業プロセスについては、前述の方法の実施形態の対応するプロセスを参照されたい。ここでは詳細について再び説明しない。
本願の実施形態における機能ユニットは、1つの処理ユニットに統合してもよく、又は各ユニットが物理的に単独で存在してもよく、又は2つ以上のユニットを1つのユニットに統合してもよい。統合ユニットは、ハードウェアの形式で実装してもよく、又はソフトウェア機能ユニットの形式で実装してもよい。
統合ユニットがソフトウェア機能ユニットの形式で実装され、独立した製品として販売又は使用される場合に、統合ユニットは、コンピュータ可読記憶媒体に記憶してもよい。このような理解に基づいて、本願の実施形態の技術的解決策、又は先行技術に寄与する部分、又は技術的解決策の全て又は一部をソフトウェア製品の形式で実装することができる。コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワーク装置であり得る)に、本願の実施形態で説明した方法の全て又は一部のステップを実行するように命令するためのいくつかの命令を含む。前述の記憶媒体には、フラッシュメモリ、リムーバブルハードディスク、読取り専用メモリ、ランダムアクセスメモリ、磁気ディスク、又は光ディスク等、プログラムコードを記憶できる任意の媒体が含まれる。
前述の説明は、本願の実施形態の特定の実施態様に過ぎず、本願の実施形態の保護範囲を限定することを意図していない。本願の実施形態に開示された技術的範囲内のいかなる変形又は置換も、本願の実施形態の保護範囲内にあるものとする。従って、本願の実施形態の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims (18)

  1. 電子装置であって、当該電子装置は、
    タッチ感知面及びディスプレイを含むタッチスクリーンと、
    1つ又は複数のプロセッサと、
    1つ又は複数のメモリと、
    1つ又は複数のコンピュータプログラムと、を含み、
    該1つ又は複数のコンピュータプログラムは前記1つ又は複数のメモリに記憶され、前記1つ又は複数のコンピュータプログラムは命令を含み、該命令が前記1つ又は複数のプロセッサによって実行されると、当該電子装置は、
    第1のアプリケーションの第1のインターフェイスを表示する段階であって、該第1のインターフェイスは、前記第1のインターフェイスを更新するために使用される少なくとも1つのコントロールを含む、表示する段階と、
    ユーザにより入力されたウェイクアップ信号に応答して、音声アプリケーションをバックグラウンドで有効にする段階と、
    M個の音声入力プロンプトを前記第1のインターフェイス上に表示する段階であって、前記M個の音声入力プロンプトの各音声入力プロンプトは前記第1のインターフェイス上の1つのコントロールに対応し、Mは0より大きい整数である、表示する段階と、
    ユーザによって入力された第1の音声制御信号を収集する段階であって、該第1の音声制御信号は、前記M個の音声入力プロンプト内の第1の音声入力プロンプトに対応し、該第1の音声入力プロンプトは前記第1のインターフェイス上の第1のコントロールに対応し、該第1のコントロールは前記第1のインターフェイスの前記少なくとも1つのコントロールのうちの1つである、収集する段階と、
    前記第1の音声制御信号に応答して、前記第1のコントロールをクリックする操作をシミュレーションすることによって生成される前記第1のコントロールのアニメーション効果を前記第1のインターフェイス上に表示する段階と、
    前記アニメーション効果を表示した後に、前記第1の音声制御信号に応答して前記第1のアプリケーションの第2のインターフェイスを表示する段階であって、該第2のインターフェイスは、前記第1のインターフェイス上の前記第1のコントロールがトリガーされた後に更新することによって得られるインターフェイスであり、前記第1のコントロールは前記第1の音声入力プロンプトに対応する、表示する段階と、
    第2のアプリケーションの第3のインターフェイスを表示する段階と、
    L個の音声入力プロンプトを前記第3のインターフェイス上に表示する段階であって、該第3のインターフェイスは、前記第3のインターフェイスを更新するために使用されるコントロールを含み、前記L個の音声入力プロンプトの各音声入力プロンプトは前記第3のインターフェイス上の1つのコントロールに対応し、Lは0より大きい整数であり、及び前記L個の音声入力プロンプトは前記M個の音声入力プロンプトとは異なる、表示する段階と、
    ユーザによって入力された第2の音声制御信号を収集する段階であって、該第2の音声制御信号は、前記L個の音声入力プロンプト内の第2の音声入力プロンプトに対応する、収集する段階と、
    前記第2の音声制御信号に応答して、前記第2のアプリケーションの第4のインターフェイスを表示する段階であって、前記第4のインターフェイスは、前記第3のインターフェイス上の第2のコントロールがトリガーされた後に更新することによって得られるインターフェイスであり、前記第2のコントロールは、前記第2の音声入力プロンプトに対応する、表示する段階と、を実行するように有効化される、
    電子装置。
  2. 前記音声アプリケーションを前記バックグラウンドで有効にする段階の後に、当該電子装置は、
    前記第1のインターフェイス上の前記コントロールでユーザによって行われたタッチコントロール操作が検出された場合に、前記タッチコントロール操作に対応する操作命令を実行する、ようにさらに構成される、請求項1に記載の電子装置。
  3. 前記音声アプリケーションを前記バックグラウンドで有効にする段階の後に、当該電子装置は、
    前記音声アプリケーションの識別子を前記第1のインターフェイス上に表示する、ようにさらに構成される、請求項1又は2に記載の電子装置。
  4. 前記第1のアプリケーションは音楽アプリケーションであり、前記第1のインターフェイスは、前記音楽アプリケーションの音楽再生インターフェイスであり、当該電子装置は、
    以下のコンテンツの1つ又は複数を第1のインターフェイス上に表示する、ようにさらに構成され、
    前記コンテンツは、
    再生コントロール及び該再生コントロールに対応する音声入力プロンプト、又は
    一時停止コントロール及び該一時停止コントロールに対応する音声入力プロンプト、又は
    以前の曲への切替えコントロール及び該以前の曲への切替えコントロールに対応する音声入力プロンプト、又は
    次の曲への切替えコントロール及び該次の曲への切替えコントロールに対応する音声入力プロンプト、又は
    音量を上げるコントロール及び該音量を上げるコントロールに対応する音声入力プロンプト、又は
    前記音量を下げるコントロール及び該音量を下げるコントロールに対応する音声入力プロンプト、含む、請求項1乃至3のいずれか一項に記載の電子装置。
  5. 前記第1のアプリケーションはカメラアプリケーションであり、前記第1のインターフェイスは、前記カメラアプリケーションの撮影インターフェイスであり、当該電子装置は、
    以下のコンテンツの1つ又は複数を前記第1のインターフェイスに表示する、ようにさらに構成され、
    前記コンテンツは、
    写真撮影コントロール及び該写真撮影コントロールに対応する音声入力プロンプト、又は
    記録コントロール及び該記録コントロールに対応する音声入力プロンプト、又は
    正面カメラを有効にするコントロール及び該正面カメラを有効にするコントロールに対応する音声入力プロンプト、又は
    写真を見るコントロール及び該写真を見るコントロールに対応する音声入力プロンプト、を含む、請求項1乃至3のいずれか一項に記載の電子装置。
  6. 当該電子装置は、
    撮影インターフェイス上でユーザによって入力された写真撮影に使用される音声制御信号を受信し、
    写真撮影に使用される前記音声制御信号に応答して写真を撮影し、
    前記撮影インターフェイス及び該撮影インターフェイスに対応する音声入力プロンプトを表示し続け、及び
    前記写真の写真サムネイルを前記撮影インターフェイス上に表示する、ようにさらに構成される、請求項5に記載の電子装置。
  7. 当該電子装置は、
    前記撮影インターフェイス上でユーザによって入力された写真を見るために使用される音声制御信号を受信し、
    写真を表示するために使用される前記音声制御信号に応答して前記写真を表示するようにさらに構成される、請求項6に記載の電子装置。
  8. 当該電子装置は、
    以下の段階の1つ又は複数を実行するようにさらに構成され、
    前記段階には、
    前記写真を表示するためのインターフェイス上で、ユーザによって入力されたズームインに使用される音声制御信号を受信し、前記写真にズームインする段階、又は
    前記写真を表示するための前記インターフェイス上で、ユーザによって入力されたズームアウトに使用される音声制御信号を受信し、前記写真をズームアウトする段階、又は
    前記写真を表示するための前記インターフェイス上で、ユーザによって入力された次の写真を見るために使用される音声制御信号を受信し、前記写真上でスライド操作を行う段階、又は
    前記写真を表示するための前記インターフェイス上で、ユーザによって入力されたカメラに戻るために使用される音声制御信号を受信し、前記カメラアプリケーションの前記撮影インターフェイスを表示する段階が含まれる、請求項7に記載の電子装置。
  9. 前記一時停止コントロール及び該一時停止コントロールに対応する前記音声入力プロンプトを前記第1のインターフェイスに表示し、当該電子装置は、
    ユーザによって入力された一時停止に使用される音声制御信号を受信することと、
    一時停止に使用される前記音声制御信号に応答して、前記第2のインターフェイスを表示することと、行うようにさらに構成され、
    該第2のインターフェイスは、前記第1のインターフェイス上の前記一時停止コントロールがトリガーされた後に更新することによって得られるインターフェイスであり、第2のインターフェイスは、前記再生コントロール及び該再生コントロールに対応する前記音声入力プロンプトを表示し、前記第2のインターフェイスは、前記一時停止コントロール及び該一時停止コントロールに対応する音声入力プロンプトを表示しない、請求項4に記載の電子装置。
  10. 前記第1の音声制御信号は、前記第1のコントロールの名前を含む、又は
    前記第2の音声制御信号は、前記第2のコントロールの名前を含む、請求項1乃至9のいずれか一項に記載の電子装置。
  11. 構成ファイルを使用して前記第1のコントロールの前記名前を取得する、又は
    構成ファイルを使用して前記第2のコントロールの前記名前を取得する、請求項10に記載の電子装置。
  12. 前記ウェイクアップ信号は、ユーザによって入力されたウェイクアップワードを含む、又は
    前記ウェイクアップ信号は、ユーザのボタンに対するクリック信号を含む、又は
    前記ウェイクアップ信号は、ユーザのタッチジェスチャを含む、請求項1乃至11のいずれか一項に記載の電子装置。
  13. 当該電子装置は、
    前記音声アプリケーションが有効になった後に、前記M個の音声入力プロンプトを前記第1のインターフェイス上に直ぐに表示する、又は
    前記音声アプリケーションが有効になった後に、予め設定した期間後に、M個の音声入力プロンプトを前記第1のインターフェイス上に表示する、ようにさらに構成される、請求項1乃至12のいずれか一項に記載の電子装置。
  14. 当該電子装置は、
    当該電子装置が前記ユーザによって入力された前記第1の音声制御信号を収集する前に、前記M個の音声入力プロンプトを自動的に非表示にする、ようにさらに構成される、請求項1乃至13のいずれか一項に記載の電子装置。
  15. 音声制御方法であって、当該方法は、
    電子装置が、第1のアプリケーションの第1のインターフェイスを表示するステップであって、該第1のインターフェイスは、前記第1のインターフェイスを更新するために使用される少なくとも1つのコントロールを含む、表示するステップと、
    前記電子装置が、ユーザにより入力されたウェイクアップ信号に応答して、音声アプリケーションをバックグラウンドで有効にするステップと、
    前記電子装置が、M個の音声入力プロンプトを前記第1のインターフェイス上に表示するステップであって、前記M個の音声入力プロンプトの各音声入力プロンプトは前記第1のインターフェイス上の1つのコントロールに対応し、Mは0より大きい整数である、表示するステップと、
    前記電子装置が、前記ユーザにより入力された第1の音声制御信号を収集するステップであって、該第1の音声制御信号は、前記M個の音声入力プロンプトの第1の音声入力プロンプトに対応し、該第1の音声入力プロンプトは前記第1のインターフェイス上の第1のコントロールに対応し、該第1のコントロールは前記第1のインターフェイスの前記少なくとも1つのコントロールのうちの1つである、収集するステップと、
    前記第1の音声制御信号に応答して、前記第1のコントロールをクリックする操作をシミュレーションすることによって生成された前記第1のコントロールのアニメーション効果を前記第1のインターフェイス上に表示する段階と、
    前記アニメーション効果を表示した後に、前記電子装置が、前記第1の音声制御信号に応答して、前記第1のアプリケーションの第2のインターフェイスを表示するステップであって、該第2のインターフェイスは、前記第1のインターフェイス上の前記第1のコントロールがトリガーされた後に更新することによって得られるインターフェイスであり、前記第1のコントロールは前記第1の音声入力プロンプトに対応する、表示するステップと、
    前記電子装置が、第2のアプリケーションの第3のインターフェイスを表示するステップと、
    前記電子装置が、L個の音声入力プロンプトを前記第3のインターフェイス上に表示するステップであって、該第3のインターフェイスは、前記第3のインターフェイスを更新するために使用されるコントロールを含み、前記L個の音声入力プロンプトの各音声入力プロンプトは前記第3のインターフェイス上の1つのコントロールに対応し、Lは0より大きい整数であり、及び前記L個の音声入力プロンプトの各音声入力プロンプトは前記M個の音声入力プロンプトの各音声入力プロンプトとは異なる、表示するステップと、
    前記電子装置が、前記ユーザによって入力された第2の音声制御信号を収集するステップであって、該第2の音声制御信号は、前記L個の音声入力プロンプトの第2の音声入力プロンプトに対応する、収集するステップと、
    前記電子装置が、前記第2の音声制御信号に応答して、前記第2のアプリケーションの第4のインターフェイスを表示するステップであって、該第4のインターフェイスは、前記第3のインターフェイス上の第2のコントロールがトリガーされた後に更新することによって得られるインターフェイスであり、前記第2のコントロールは前記第2の音声入力プロンプトに対応する、表示するステップと、を含む、
    方法。
  16. 前記第1のアプリケーションはカメラアプリケーションであり、前記第1のインターフェイスは、前記カメラアプリケーションの撮影インターフェイスであり、当該方法は、
    前記電子装置が、前記第1のインターフェイスに、
    写真撮影コントロール及び該写真撮影コントロールに対応する音声入力プロンプト、又は
    記録コントロール及び該記録コントロールに対応する音声入力プロンプト、又は
    正面カメラを有効にするコントロール及び該正面カメラを有効にするコントロールに対応する音声入力プロンプト、又は
    写真を見るコントロール及び該写真を見るコントロールに対応する音声入力プロンプト、の1つ又は複数を表示するステップをさらに含む、請求項15に記載の方法。
  17. 当該方法は、
    前記電子装置が、前記撮影インターフェイス上で前記ユーザによって入力された写真撮影に使用される第3の音声制御信号を受信するステップと、
    前記電子装置が、写真撮影に使用される前記第3の音声制御信号に応答して写真を撮影し、前記撮影インターフェイス及び該撮影インターフェイスに対応する音声入力プロンプトを表示し続けるステップと、
    前記電子装置が、前記写真の写真撮影に応答して、前記写真の写真サムネイルを前記撮影インターフェイス上に表示するステップと、をさらに含む、請求項16に記載の方法。
  18. 当該方法は、
    前記電子装置が、前記撮影インターフェイス上で前記ユーザによって入力された写真を見るために使用される第4の音声制御信号を受信するステップと、
    前記電子装置が、前記写真を見るために使用される前記第4の音声制御信号に応答して、前記写真を表示するステップと、をさらに含む、請求項17に記載の方法。
JP2021528948A 2018-11-23 2019-11-15 音声制御方法及び電子装置 Active JP7142783B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811407531.7 2018-11-23
CN201811407531.7A CN109584879B (zh) 2018-11-23 2018-11-23 一种语音控制方法及电子设备
PCT/CN2019/118645 WO2020103764A1 (zh) 2018-11-23 2019-11-15 一种语音控制方法及电子设备

Publications (2)

Publication Number Publication Date
JP2022508176A JP2022508176A (ja) 2022-01-19
JP7142783B2 true JP7142783B2 (ja) 2022-09-27

Family

ID=65924299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021528948A Active JP7142783B2 (ja) 2018-11-23 2019-11-15 音声制御方法及び電子装置

Country Status (9)

Country Link
US (1) US11450322B2 (ja)
EP (1) EP3872807B1 (ja)
JP (1) JP7142783B2 (ja)
KR (1) KR102470275B1 (ja)
CN (3) CN109584879B (ja)
AU (1) AU2019385366B2 (ja)
ES (1) ES2964533T3 (ja)
RU (1) RU2766255C1 (ja)
WO (1) WO2020103764A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584879B (zh) * 2018-11-23 2021-07-06 华为技术有限公司 一种语音控制方法及电子设备
CN110138959B (zh) * 2019-04-10 2022-02-15 荣耀终端有限公司 显示人机交互指令的提示的方法及电子设备
CN110060679B (zh) * 2019-04-23 2022-02-11 诚迈科技(南京)股份有限公司 一种全程语音控制的交互方法和***
CN110096211B (zh) * 2019-04-30 2021-03-19 广东美的厨房电器制造有限公司 家用电器的控制方法和家用电器
CN110148414B (zh) * 2019-05-21 2021-06-29 大众问问(北京)信息科技有限公司 一种语音说法引导方法和装置
US20200379716A1 (en) * 2019-05-31 2020-12-03 Apple Inc. Audio media user interface
CN110262767B (zh) * 2019-06-03 2022-03-11 交互未来(北京)科技有限公司 基于靠近嘴部检测的语音输入唤醒装置、方法和介质
CN110336720B (zh) * 2019-06-29 2021-08-20 华为技术有限公司 设备控制方法和设备
CN112346695A (zh) * 2019-08-09 2021-02-09 华为技术有限公司 语音控制设备的方法及电子设备
CN110502300A (zh) * 2019-08-14 2019-11-26 上海掌门科技有限公司 语音播放方法、设备以及计算机可读介质
CN110493123B (zh) * 2019-09-16 2022-06-28 腾讯科技(深圳)有限公司 即时通讯方法、装置、设备及存储介质
CN110825469A (zh) * 2019-09-18 2020-02-21 华为技术有限公司 语音助手显示方法及装置
CN112533041A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和可读存储介质
CN112540741A (zh) * 2019-09-23 2021-03-23 深圳市万普拉斯科技有限公司 指令动态推荐方法、移动终端和计算机存储介质
CN112579032B (zh) * 2019-09-27 2023-10-03 百度在线网络技术(北京)有限公司 智能设备引导的方法及装置
CN110910872B (zh) * 2019-09-30 2023-06-02 华为终端有限公司 语音交互方法及装置
CN112652302B (zh) * 2019-10-12 2024-05-24 腾讯科技(深圳)有限公司 语音控制方法、装置、终端及存储介质
CN110865755A (zh) * 2019-11-11 2020-03-06 珠海格力电器股份有限公司 终端的语音控制方法、装置、存储介质及终端
CN110851108A (zh) * 2019-11-18 2020-02-28 北京小米移动软件有限公司 电子设备操作方法、装置、电子设备及存储介质
CN111124229B (zh) * 2019-12-24 2022-03-11 山东舜网传媒股份有限公司 通过语音交互实现网页动画控制的方法、***及浏览器
CN111326149A (zh) * 2020-02-25 2020-06-23 青岛海尔空调器有限总公司 一种提高语音辨识率的优化方法及***
CN111462783A (zh) * 2020-03-05 2020-07-28 深圳壹账通智能科技有限公司 音视频录制引导方法、装置、计算机设备及存储介质
US11595509B2 (en) * 2020-03-05 2023-02-28 Avaya Management L.P. Telecommunications soft client having a GUI-less operating mode
CN111427532A (zh) * 2020-03-20 2020-07-17 青岛聚好联科技有限公司 一种App语音输入控制的方法及装置
CN113535040A (zh) * 2020-04-14 2021-10-22 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备和存储介质
CN111880875B (zh) * 2020-07-15 2023-12-22 百度在线网络技术(北京)有限公司 多媒体播放的控制方法、装置、设备、存储介质和***
CN114007117B (zh) * 2020-07-28 2023-03-21 华为技术有限公司 一种控件显示方法和设备
CN114327198A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 控制功能推送方法及设备
CN114363462B (zh) * 2020-09-30 2023-01-06 华为技术有限公司 一种界面显示方法、电子设备及计算机可读介质
US20220310058A1 (en) * 2020-11-03 2022-09-29 Microsoft Technology Licensing, Llc Controlled training and use of text-to-speech models and personalized model generated voices
CN115048161A (zh) * 2021-02-26 2022-09-13 华为技术有限公司 应用的控制方法及其电子设备、装置和介质
CN115408492A (zh) * 2021-05-26 2022-11-29 华为技术有限公司 资源显示的方法、终端及服务器
CN113709294A (zh) * 2021-07-26 2021-11-26 青岛海尔科技有限公司 一种语音助手的状态管理和ui更新方法、装置及设备
CN113940831B (zh) * 2021-10-27 2022-12-16 青岛豪江智能科技股份有限公司 带语音控制及生命体征监测的智能护理床电控***
CN114090148A (zh) * 2021-11-01 2022-02-25 深圳Tcl新技术有限公司 信息同步方法、装置、电子设备及计算机可读存储介质
CN113946810B (zh) * 2021-12-07 2022-09-20 荣耀终端有限公司 一种应用程序的运行方法及电子设备
CN114639384B (zh) * 2022-05-16 2022-08-23 腾讯科技(深圳)有限公司 语音控制方法、装置、计算机设备及计算机存储介质
CN115729544A (zh) * 2022-11-18 2023-03-03 维沃移动通信有限公司 桌面组件生成方法、装置、电子设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171809A (ja) 2005-12-26 2007-07-05 Canon Inc 情報処理装置及び情報処理方法
JP2013041580A (ja) 2011-08-05 2013-02-28 Samsung Electronics Co Ltd 電子装置及びその制御方法
JP2015026102A (ja) 2013-07-24 2015-02-05 シャープ株式会社 電子機器
JP2015095002A (ja) 2013-11-08 2015-05-18 株式会社ソニー・コンピュータエンタテインメント 表示制御装置、表示制御方法、プログラム及び情報記憶媒体
JP2017076438A (ja) 2017-01-05 2017-04-20 任天堂株式会社 情報処理装置、情報処理システム、ならびに起動用プログラムおよびそれを記憶した記憶媒体

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7334050B2 (en) * 2000-06-07 2008-02-19 Nvidia International, Inc. Voice applications and voice-based interface
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7174294B2 (en) * 2002-06-21 2007-02-06 Microsoft Corporation Speech platform architecture
US8311836B2 (en) 2006-03-13 2012-11-13 Nuance Communications, Inc. Dynamic help including available speech commands from content contained within speech grammars
TW200928315A (en) 2007-12-24 2009-07-01 Mitac Int Corp Voice-controlled navigation device and method thereof
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8290780B2 (en) * 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
KR101626159B1 (ko) 2009-11-25 2016-05-31 엘지전자 주식회사 사용자 적응형 디스플레이 장치 및 디스플레이 방법
US9665344B2 (en) 2010-02-24 2017-05-30 GM Global Technology Operations LLC Multi-modal input system for a voice-based menu and content navigation service
WO2014055181A1 (en) * 2012-10-01 2014-04-10 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
CN103871437B (zh) * 2012-12-11 2017-08-22 比亚迪股份有限公司 车载多媒体装置及其语音控制方法
KR20140075997A (ko) * 2012-12-12 2014-06-20 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
CN103885693B (zh) * 2012-12-20 2018-07-06 联想(北京)有限公司 一种信息处理方法及电子设备
US9196262B2 (en) * 2013-03-14 2015-11-24 Qualcomm Incorporated User sensing system and method for low power voice command activation in wireless communication systems
CN104076916B (zh) * 2013-03-29 2017-05-24 联想(北京)有限公司 一种信息处理方法以及电子设备
US9530410B1 (en) * 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
CN103338311A (zh) * 2013-07-11 2013-10-02 成都西可科技有限公司 一种智能手机锁屏界面启动app的方法
CN103442138A (zh) 2013-08-26 2013-12-11 华为终端有限公司 语音控制方法、装置及终端
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测***及方法
US9582246B2 (en) * 2014-03-04 2017-02-28 Microsoft Technology Licensing, Llc Voice-command suggestions based on computer context
KR101584887B1 (ko) * 2014-03-07 2016-01-22 주식회사 엘지유플러스 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템
CN103885596B (zh) 2014-03-24 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
US10592095B2 (en) * 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US10200824B2 (en) * 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
CN105094331B (zh) * 2015-07-27 2018-08-07 联想(北京)有限公司 一种信息处理方法及电子设备
CN105895093A (zh) * 2015-11-02 2016-08-24 乐视致新电子科技(天津)有限公司 语音信息处理方法及装置
CN105446489B (zh) * 2015-12-08 2017-09-22 广州神马移动信息科技有限公司 语音双模控制方法、装置及用户终端
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105957530B (zh) 2016-04-28 2020-01-03 海信集团有限公司 一种语音控制方法、装置和终端设备
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR20180046780A (ko) * 2016-10-28 2018-05-09 에스케이텔레콤 주식회사 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR102423298B1 (ko) * 2017-03-28 2022-07-21 삼성전자주식회사 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 시스템
CN107277225B (zh) 2017-05-04 2020-04-24 北京奇虎科技有限公司 语音控制智能设备的方法、装置和智能设备
US10237209B2 (en) * 2017-05-08 2019-03-19 Google Llc Initializing a conversation with an automated agent via selectable graphical element
KR102007478B1 (ko) * 2017-06-28 2019-08-05 크리스토퍼 재현 윤 특정 조건에서 음성인식을 이용한 어플리케이션 제어 장치 및 방법
CN107346229A (zh) * 2017-07-18 2017-11-14 珠海市魅族科技有限公司 语音输入方法及装置、计算机装置及可读存储介质
US10896050B2 (en) * 2017-10-03 2021-01-19 Google Llc Systems, methods, and apparatus that provide multi-functional links for interacting with an assistant agent
CN108366281A (zh) * 2018-02-05 2018-08-03 山东浪潮商用***有限公司 一种应用于机顶盒的全语音交互方法
CN108572764B (zh) * 2018-03-13 2022-01-14 努比亚技术有限公司 一种文字输入控制方法、设备及计算机可读存储介质
CN108520750A (zh) * 2018-03-13 2018-09-11 努比亚技术有限公司 一种语音输入控制方法、设备及计算机可读存储介质
CN108829371B (zh) 2018-06-19 2022-02-22 Oppo广东移动通信有限公司 界面控制方法、装置、存储介质及电子设备
CN109584879B (zh) 2018-11-23 2021-07-06 华为技术有限公司 一种语音控制方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171809A (ja) 2005-12-26 2007-07-05 Canon Inc 情報処理装置及び情報処理方法
JP2013041580A (ja) 2011-08-05 2013-02-28 Samsung Electronics Co Ltd 電子装置及びその制御方法
JP2015026102A (ja) 2013-07-24 2015-02-05 シャープ株式会社 電子機器
JP2015095002A (ja) 2013-11-08 2015-05-18 株式会社ソニー・コンピュータエンタテインメント 表示制御装置、表示制御方法、プログラム及び情報記憶媒体
JP2017076438A (ja) 2017-01-05 2017-04-20 任天堂株式会社 情報処理装置、情報処理システム、ならびに起動用プログラムおよびそれを記憶した記憶媒体

Also Published As

Publication number Publication date
CN113794800A (zh) 2021-12-14
RU2766255C1 (ru) 2022-02-10
US11450322B2 (en) 2022-09-20
CN109584879B (zh) 2021-07-06
ES2964533T3 (es) 2024-04-08
AU2019385366A1 (en) 2021-06-10
EP3872807A4 (en) 2021-12-22
CN113794800B (zh) 2022-08-26
JP2022508176A (ja) 2022-01-19
KR20210092795A (ko) 2021-07-26
CN109584879A (zh) 2019-04-05
AU2019385366B2 (en) 2022-12-01
WO2020103764A1 (zh) 2020-05-28
CN113056901A (zh) 2021-06-29
EP3872807A1 (en) 2021-09-01
KR102470275B1 (ko) 2022-11-23
EP3872807B1 (en) 2023-10-18
US20210407507A1 (en) 2021-12-30

Similar Documents

Publication Publication Date Title
JP7142783B2 (ja) 音声制御方法及び電子装置
WO2021129326A1 (zh) 一种屏幕显示方法及电子设备
WO2021103981A1 (zh) 分屏显示的处理方法、装置及电子设备
WO2021036571A1 (zh) 一种桌面的编辑方法及电子设备
CN113645351B (zh) 应用界面交互方法、电子设备和计算机可读存储介质
CN110362244B (zh) 一种分屏方法及电子设备
WO2021082835A1 (zh) 启动功能的方法及电子设备
WO2021036770A1 (zh) 一种分屏处理方法及终端设备
WO2022068483A1 (zh) 应用启动方法、装置和电子设备
CN114363462B (zh) 一种界面显示方法、电子设备及计算机可读介质
CN112130714B (zh) 可进行学习的关键词搜索方法和电子设备
WO2022042769A2 (zh) 多屏交互的***、方法、装置和介质
WO2022042766A1 (zh) 信息显示方法、终端设备及计算机可读存储介质
CN112068907A (zh) 一种界面显示方法和电子设备
WO2021190524A1 (zh) 截屏处理的方法、图形用户接口及终端
US20230236714A1 (en) Cross-Device Desktop Management Method, First Electronic Device, and Second Electronic Device
CN115904160A (zh) 一种图标移动方法、相关图形界面及电子设备
CN112740148A (zh) 一种向输入框中输入信息的方法及电子设备
WO2022002213A1 (zh) 翻译结果显示方法、装置及电子设备
WO2024012346A1 (zh) 任务迁移的方法、电子设备和***
WO2022143891A1 (zh) 焦点同步方法及电子设备
WO2024037542A1 (zh) 一种触控输入的方法、***、电子设备及存储介质
WO2024109481A1 (zh) 窗口控制方法及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220913

R150 Certificate of patent or registration of utility model

Ref document number: 7142783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150