JP2021099533A - 音声インタラクション処理方法、装置及び電子機器 - Google Patents

音声インタラクション処理方法、装置及び電子機器 Download PDF

Info

Publication number
JP2021099533A
JP2021099533A JP2021043721A JP2021043721A JP2021099533A JP 2021099533 A JP2021099533 A JP 2021099533A JP 2021043721 A JP2021043721 A JP 2021043721A JP 2021043721 A JP2021043721 A JP 2021043721A JP 2021099533 A JP2021099533 A JP 2021099533A
Authority
JP
Japan
Prior art keywords
voice
electronic device
voice interaction
target application
interaction processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021043721A
Other languages
English (en)
Inventor
コイ ホー
Gui He
コイ ホー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021099533A publication Critical patent/JP2021099533A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】電子機器が対応するサービスをユーザに適時に提供することを可能にし、それによってユーザエクスペリエンスを向上させる音声インタラクション処理方法、装置及び電子機器を提供する。【解決手段】方法は、音声データを受信し、この音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する、ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれる音声ライブラリとマッチングさせ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、ウェイクアップされることなく、音声データに対応する動作を直接実行する。【選択図】図2

Description

本出願は、データ技術分野、特に音声技術分野に関する。
人工知能技術の発展に伴い、ユーザは日常生活で音声インタラクション方式を通じて電子機器からサービスを受けることがますます多くなっている。
現在、ほとんどの電子機器は、ユーザによってウェイクされる必要があり、ユーザは、電子機器をウェイクアップしないと、音声クエリ(query)要求を正常に開始できず、すなわち、ユーザは電子機器と対話できない。ユーザが音声クエリ要求を開始するたびに電子機器をウェイクアップしなければならないという状況のため、ユーザエクスペリエンスが劣化することになる。これに基づいて、従来技術では、ウェイクフリー方式が提供されており、電子機器は、予め設定されたいくつかのウェイクフリーワードについて大量のコーパスデータを収集し、これらのコーパスデータに基づいて初期ウェイクモデルを継続的に訓練してウェイクモデルを得る。これにより、電子機器は、音声データを取得した時、取得した音声データを訓練により得られたウェイクモデルとマッチングさせ、予め設定されたウェイクフリーワードとマッチングした場合、電子機器をウェイクアップする。
しかしながら、上記のウェイクフリー方式では、予め設定されたウェイクフリーワードの数が限られているため、音声データに予め設定されたウェイクフリーワードが含まれていない場合には、電子機器が対応するサービスを適時に提供できず、ユーザエクスペリエンスの劣化を引き起こすことがある。
本出願の実施例は、電子機器が対応するサービスをユーザに適時に提供することを可能にし、それによってユーザエクスペリエンスを向上させることができる音声インタラクション処理方法、装置及び電子機器を提供する。
第1の態様では、本出願の実施例は、
音声データを受信するステップと、
前記音声データを、現在フォアグラウンド(foreground)で実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれているステップと、
マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるステップと、を含む音声インタラクション処理方法を提供する。
これから分かるように、従来技術とは異なり、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。
第2の態様では、本出願の実施例は、
音声データを受信するための受信モジュールと、
前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるためのものであって、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれている処理モジュールとを含み、
前記処理モジュールは、さらに、マッチングが成功した場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるために用いられる、音声インタラクション処理装置をさらに提供する。
第3の態様では、本出願の実施例は、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、そのうち、前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記少なくとも1つのプロセッサが上記の第1の態様のいずれかの可能な実施形態に記載の音声インタラクション処理方法を実行することを可能にするように、前記命令が前記少なくとも1つのプロセッサによって実行される、電子機器をさらに提供する。
第4の態様では、本出願の実施例は、コンピュータ命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、上記第1の態様のいずれかの可能な実施形態に記載の音声インタラクション処理方法をコンピュータに実行させるために用いられる。
第5の態様では、本出願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータ可読記憶媒体に記憶され、電子機器の少なくとも1つのプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサは、前記コンピュータプログラムを実行することによって、前記電子機器に上記第1の態様のいずれかの可能な実施形態に記載の音声インタラクション処理方法を実行させる。
上記の出願の一実施例は、以下の利点又は有益な効果を有する。音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。したがって、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。
上記任意選択的な形態が有する他の効果は、具体的な実施例を参照して以下で説明される。
図面は、本技術案をよく理解しやすくするためのものであり、本出願を制限するものではない。
本出願の実施例による音声インタラクション処理方法の適用シーンの模式図である。 本出願の実施例1による音声インタラクション処理方法の模式的フローチャートである。 本出願の実施例2による音声インタラクション処理方法の模式的フローチャートである。 音声ライブラリの更新の模式図である。 本出願の実施例3による音声インタラクション処理方法の模式的フローチャートである。 本出願の実施例による音声インタラクション処理装置60の構造模式図である。 本出願の実施例に係る音声インタラクション処理方法を実現するための電子機器のブロック図である。
以下では、図面を参照しながら本出願の例示的な実施例を説明するが、この説明には、理解を容易にするために本出願の実施例の様々な詳細が含まれるが、これらは単に例示的なものであると考えられるべきである。したがって、当業者が理解できるように、本出願の範囲及び精神を逸脱することなく、ここで記載される実施例に対して様々な変更及び修正を行うことができる。同様に、以下の説明では、明確化及び簡明化のために、周知の機能及び構造については、説明を省略する。
本出願の実施例において、「少なくとも1つ」は1つ又は複数を意味し、「複数」は2つ又はそれ以上を意味する。「及び/又は」は、関連付けられた対象の関連関係を記述し、3つの関係が存在し得ることを表し、たとえば、A及び/又はBは、Aが単独で存在する場合、AとBの両方が存在する場合、Bが単独で存在する場合の3つの場合を表し、ここで、A、Bは単数又は複数であってもよい。本出願の説明において、「/」という符号は、一般に、前後の関連付けられた対象が「又は」の関係であることを意味する。
本出願の実施例では、電子機器は、情報通信をサポートし、音声データを処理することができる様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ポータブルコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。
音声インタラクション方式で電子機器からサービスを受けるためには、まず、電子機器をウェイクアップする必要があるが、この方式は、ユーザの操作が煩雑になり、ユーザエクスペリエンスが悪くなる。これに基づいて、現在、電子機器が予め設定されたいくつかのウェイクフリーワードについて大量のコーパスデータを収集し、これらのコーパスデータに基づいて初期ウェイクモデルを継続的に訓練してウェイクモデルを得る方法もある。これにより、電子機器は、音声データを取得した時、取得した音声データを訓練により得られたウェイクモデルとマッチングさせ、予め設定されたウェイクフリーワードとマッチングした場合、電子機器をウェイクアップする。しかし、予め設定されたウェイクフリーワードの数は限られており、また、電子機器から取得したい関連サービスは人によって異なるため、ユーザが電子機器を使用して関連サービスを取得し、電子機器に入力した音声データに上記の予め設定されたウェイクフリーワードが含まれていない場合、電子機器は対応するサービスを適時に提供できないことになり、それによってユーザエクスペリエンスの劣化を引き起こす。
電子機器がユーザの要求に応じて、対応するサービスをユーザに適時に提供できるようにするために、ユーザがいくつかのウェイクフリーワードをカスタマイズすることとしてもよく、すなわち、電子機器のウェイクフリーの目的を達成するように、ユーザが自分の要求に応じて、電子機器にいくつかのウェイクフリーワードを事前に記憶しておく。しかし、この方法を採用すると、電子機器が、ウェイクフリー状況でユーザに関連サービスを提供する適時性をある程度で向上させることができるが、電子機器が提供できるサービスは常に変化するため、電子機器が提供するサービスが変化するとユーザはウェイクフリーワードを新たに設定する必要があり、その結果、ユーザの操作が煩雑になり、ユーザエクスペリエンスが悪くなる。
以上の検討に基づいて、電子機器が対応するサービスをユーザに適時に提供することを可能にして、ユーザエクスペリエンスを向上させるために、本出願の実施例は、音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる音声インタラクション処理方法を提供する。これから分かるように、従来技術とは異なり、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。
本出願の実施例による音声インタラクション処理方法は、音声認識のシーンに適用し、特に、ウェイクフリー方式で電子機器を制御して、関連サービスを取得するシーンに適用することができることが理解されるであろう。以下、ある映画シーンを再生するように電子機器を音声方式で制御する場合を例として、音声インタラクション処理をどのように行うかについて詳細に説明する。
図1は、本出願の実施例による音声インタラクション処理方法の適用シーンの模式図であり、図1に示すように、ユーザが電子機器である映画を再生したい場合、ユーザは、「映画Cを再生しなさい」という音声データを電子機器に入力し、電子機器は、この音声データを受信すると、現在フォアグラウンドで実行されているターゲットアプリケーション(application、APP)を確定し、現在フォアグラウンドで実行されているターゲットアプリケーションがあるビデオアプリケーションであると確定した場合、「映画Cを再生しなさい」がこのビデオアプリケーションの音声ライブラリにあるか否かを問い合わせる。「映画Cを再生しなさい」がこのビデオアプリケーションの音声ライブラリにあれば、電子機器は、電子機器をウェイクアップする必要がなく、つまり、ウェイクエンジンをオフにし、認識エンジンを直接オンにして、受信した「映画Cを再生しなさい」を認識することで、映画Cの再生を開始する。このように、ウェイクフリー方式により、対応するサービスをユーザに提供することができ、従来技術における、ユーザが入力する音声データに予め設定されたウェイクフリーワードを含まなければ端末がサービスを提供できないという現象を回避し、これによって、電子機器がサービスを提供する適時性を向上させることができ、それによってユーザエクスペリエンスを向上させることができる。
以下、本出願による音声インタラクション処理方法について、具体的な実施例により詳細に説明する。以下のいくつかの具体的な実施例は、互いに組み合わせることができ、同一又は類似の概念又はプロセスについては、いくつかの実施例では詳しく説明しないことがあることが理解されるであろう。
図2は、本出願の実施例1による音声インタラクション処理方法の模式的フローチャートであり、この音声インタラクション処理方法は、ソフトウェア及び/又はハードウェア装置によって実行することができ、たとえば、このハードウェア装置は、音声インタラクション処理装置であってもよく、該音声インタラクション処理装置は電子機器又は車載端末に配置することができる。一例として、図2に示すように、この音声インタラクション処理方法は、ステップS201〜S203を含むことができる。
S201において、音声データを受信する。
S202において、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる。
ただし、音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれている。
このステップでは、電子機器は、ユーザから入力された音声データを受信すると、現在、電子機器における、フォアグラウンドで実行されているターゲットアプリケーションを確定し、且つ、受信した音声データを、このターゲットアプリケーションの音声ライブラリとマッチングさせ、すなわち、この音声データがターゲットアプリケーションの音声ライブラリにあるか否かを問い合わせる。
ただし、ターゲットアプリケーションは、ユーザにサービスを提供できる様々なプラットフォームを含むことができ、たとえば、ビデオアプリケーション、画像処理アプリケーション、インスタントコミュニケーションアプリケーション、及びナビゲーションアプリケーションなどであってもよい。
S203において、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。
このステップでは、音声データとターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した場合、すなわち、ターゲットアプリケーションに対応する音声ライブラリにこの音声データが存在する場合、電子機器を制御してウェイクフリー機能を起動させ、つまり、電子機器をウェイクアップすることなく、受信した音声データを直接認識して、この音声データに対応する動作を実行する。
本実施例では、電子機器は、受信した音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功する限り、電子機器を制御して音声データに対応する動作を実行させることができ、それによって従来技術における、電子機器がウェイクアップされた後、ユーザが予め設定された期間内にしか電子機器とインタラクションすることができず、予め設定された期間が過ぎると、電子機器を再度ウェイクアップする必要があるという現象を回避し、それによって、ユーザと電子機器との間の複数回のインタラクションを可能とする。
本出願の実施例による音声インタラクション処理方法は、音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。したがって、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。
さらに、電子機器内で実行されるアプリケーションについては、それに対応する音声ライブラリを予め作成する必要があり、この音声ライブラリには、このアプリケーションに関連付けられているか、又は相関の複数の制御コマンドが含まれている。一例として、この音声ライブラリは、ユーザによって予め登録されていてもよいし、アプリケーション開発者によって予め入力されて記憶されていてもよい。
なお、異なるアプリケーションに対応する音声ライブラリ内の制御コマンドは、同じであってもよく、異なってもよい。たとえば、ビデオアプリケーションでは、それに対応する音声ライブラリには、「映画Aを再生しなさい」、「再生」、「一時停止」、「次のページ」、「前のページ」などが記憶されていることがある。画像アプリケーションでは、それに対応する音声ライブラリには、「画像を見たい」、「削除」、「拡大」、「次のページ」、「前のページ」などが記憶されていることがある。
本実施例では、音声ライブラリは、アプリケーションがサポートできるサービスに応じて作成され得、これによって、音声データのマッチングの精度を向上させることができる。また、ユーザは必要に応じてウェイクフリー機能をサポートするアプリケーションのリストを登録することができ、それによって、音声インタラクション処理の柔軟性が向上する。
図3は、本出願の実施例2による音声インタラクション処理方法の模式的フローチャートであり、本実施例は、上記の各実施例に基づいて、ターゲットアプリケーションに対応する音声ライブラリを更新するプロセスを詳細に説明する。図3に示すように、この音声インタラクション処理方法は、ステップS301〜S302を含むことができる。
S301において、ターゲットアプリケーションの識別情報及び新たな制御コマンドを含む更新命令を受信する。
このステップでは、電子機器が提供できるサービスは常に変化しており、たとえば、ビデオアプリケーションにおけるビデオは常に変化しており、このため、音声データと音声ライブラリとのマッチングの精度を向上させるためには、アプリケーションに対応する音声ライブラリを常に更新する必要がある。
具体的には、ユーザは、音声方式で電子機器に更新命令を送信してもよいし、あるキーをタッチしたり、ある物理キーを押下したりすることにより、この更新命令を送信してもよいが、更新命令の具体的な送信方式については、本出願の実施例は制限しない。
S302において、識別情報及び新たな制御コマンドに従って、ターゲットアプリケーションの音声ライブラリを更新する。
このステップでは、電子機器が受信した更新命令には、ターゲットアプリケーションの識別情報と新たな制御コマンドとが含まれており、電子機器は、この識別情報に基づいて、この識別情報に対応するターゲットアプリケーションの音声ライブラリに対して更新を行うと確定し、次に、新たな制御コマンドに従って、ターゲットアプリケーションの音声ライブラリを更新する。ただし、更新とは、新たな制御コマンドを音声ライブラリに追加したり、新たな制御コマンドに従って音声ライブラリ内の制御コマンドを削除したりすることを含むものである。
1つの可能な実施形態では、音声ライブラリを更新する際に、電子機器は、まず、この新たな制御コマンドが音声ライブラリに既に含まれているか否かを問い合わせ、この新たな制御コマンドが音声ライブラリに既に含まれている場合、この音声ライブラリに対して更新処理を行わない。
図4は、音声ライブラリの更新の模式図であり、図4に示すように、たとえば、ユーザが「アプリケーションAに「ビデオ1を再生しなさい」を追加する」と電子機器に入力するなど、ユーザが音声方式で更新命令を電子機器に送信すると、電子機器は、この更新命令に基づいて、アプリケーションAの音声ライブラリに対して更新を行い、かつ、この音声ライブラリに「ビデオ1を再生しなさい」の制御コマンドを追加する必要があることを把握できる。電子機器は、図4に示すように、ユーザに追加確認ページを表示し、ユーザが「確認」をクリックすると、電子機器は、アプリケーションAに対応する音声ライブラリに「ビデオ1を再生しなさい」の制御コマンドを追加する。ただし、電子機器は、この制御コマンドを追加する前に、アプリケーションAに対応する音声ライブラリに「ビデオ1を再生しなさい」が既に存在するか否かを判断することができ、存在する場合、音声ライブラリを更新せず、存在しない場合、音声ライブラリにこの制御コマンドを追加する。
別の可能な実施形態では、電子機器は、ターゲットアプリケーションが提供できるサービスに基づいて、それに対応する音声ライブラリを定期的に更新することもできる。たとえば、ビデオアプリケーションでは、更新されたビデオや更新されたビデオ処理機能に基づいて、音声ライブラリ内の制御コマンドを更新し、画像処理アプリケーションでは、更新された画像や更新された画像処理機能に基づいて、音声ライブラリ内の制御コマンドを更新するなどが可能である。
本実施例では、電子機器は、更新命令を受信すると、その更新命令に従って音声ライブラリ内の制御コマンドを更新するので、音声データと音声ライブラリのマッチングの精度を向上させることができ、さらに作成された音声ライブラリ内の制御コマンドをより豊富にすることができる。
図5は、本出願の実施例3による音声インタラクション処理方法の模式的フローチャートであり、本実施例は、上記の各実施例に基づいて、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるプロセスを詳細に説明する。図5に示すように、この音声インタラクション処理方法は、ステップS501〜S504を含むことができる。
S501において、音声データを受信する。
S501は、S201の実行プロセスと同様であるので、ここでは詳しく説明しない。
S502において、ターゲットオブジェクトの向きを確定する。
S503において、ターゲットオブジェクトが電子機器に向かう場合、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる。
具体的には、実際に利用する際に、ユーザは、電子機器を介して関連サービスを取得しようとすることではなく、チャット中にターゲットアプリケーションの音声ライブラリ内のある制御コマンドを言及するだけである場合があり、たとえば、ユーザがチャット中に、「XX映画を見たい」と言及した場合、電子機器は誤って認識することにより、この制御コマンドに関連付けられた動作を実行する可能性がある。
この問題を解決するために、本出願の実施例では、電子機器は、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる際に、まずターゲットオブジェクトの向きを確定し、ターゲットオブジェクトが電子機器に向かう場合、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる。
具体的には、上記したターゲットオブジェクトは、ユーザであってもよく、電子機器に音声データを入力するユーザであると理解されてもよい。電子機器は、ユーザによって入力された音声データを受信すると、音源定位技術により、電子機器に対するユーザの角度を確定することができ、確定された角度が予め設定された値よりも小さい場合、ユーザが電子機器に向かうと確定することができ、ユーザが電子機器を介して関連サービスを取得しようとすることを示す。この場合、電子機器は、受信した音声データをターゲットアプリケーションに対応する音声ライブラリとマッチングさせることができる。
もちろん、電子機器は、たとえば、カメラによって撮影されたターゲットオブジェクトを含む画像に基づき、かつ画像を認識することにより、ターゲットオブジェクトが電子機器に向かうか否かを確定するなど、他の方式によってターゲットオブジェクトの向きを確定することもできる。ターゲットオブジェクトの向きを確定する具体的な方式については、本出願の実施例は制限しない。
本実施例では、電子機器は、ターゲットオブジェクトの向きを確定し、ターゲットオブジェクトが電子機器に向かう場合、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせることにより、電子機器の誤認識の確率を低減し、ユーザエクスペリエンスを向上させることができる。
電子機器の誤認識の確率をさらに低減するために、ターゲットオブジェクトが電子機器に向かうと確定した後、ターゲットオブジェクトと電子機器との間の距離が予め設定された値よりも小さいか否かを確定し、ターゲットオブジェクトと電子機器との間の距離が予め設定された値よりも小さいと確定した場合、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるようにしてもよい。
具体的には、上記したターゲットオブジェクトは、ユーザであってもよく、具体的な実現過程では、ユーザと電子機器との間の距離は赤外線誘導によって確定することができ、ユーザと電子機器との間の距離が予め設定された値よりも小さいと確定した場合、現在、ユーザは電子機器を操作している可能性があり、すなわちユーザは電子機器を介して対応するサービスを取得しようとすることを示し、この場合、電子機器は、受信した音声データを現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる。
ただし、上記した予め設定された値は、実際の状況や経験に応じて設定することができ、たとえば、10cmや15cmなどに設定することができ、予め設定された値の具体的な値については、本実施例は制限しない。
本実施例では、ターゲットオブジェクトが電子機器に向かい、かつターゲットオブジェクトと電子機器との間の距離が予め設定された値よりも小さい場合、受信された音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせることができ、それによって、誤認識の確率をよりよく低減し、ユーザエクスペリエンスを向上させることができる。
S504において、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。
1つの可能な実施形態では、電子機器を制御してウェイクフリー機能を起動させることは、電子機器を制御して、ウェイクエンジンをオフにさせ、認識エンジンをオンにさせることであってもよい。すなわち、音声データとターゲットアプリケーションの音声ライブラリとのマッチングが成功した後、電子機器は、ウェイクエンジンをオフにし、この場合、電子機器は、ウェイクエンジンによってウェイクアップする必要がなく、認識エンジンをオンにすることによって、受信した音声データを認識して、この音声データに対応する動作を実行する。
本実施例では、音声データとターゲットアプリケーションの音声ライブラリとのマッチングが成功した後、電子機器を制御して、ウェイクエンジンをオフにさせ、認識エンジンをオンにさせ、これにより、電子機器は、ウェイクフリーの状態で、音声データを直接認識することにより、音声データに対応する動作を実行することができ、これによって、電子機器が関連サービスをユーザに提供する適時性を向上させることができ、ユーザエクスペリエンスが向上する。
さらに、音声データと現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが失敗した場合、すなわち、ターゲットアプリケーションに対応する音声ライブラリにこの音声データが存在しない場合は、この音声データを無視してもよく、電子機器はいずれの動作も実行しない。
本出願の実施例による音声インタラクション処理方法は、音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。したがって、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。
上記の各実施例に基づいて、電子機器が、ターゲットアプリケーションがオフにされるか、又はバックグラウンドで実行されていることを監視した場合は、この電子機器を制御してウェイクフリー機能を終了させる。
ただし、この電子機器を制御してウェイクフリー機能を終了させることは、電子機器を制御してウェイクエンジンをオンにさせるとして理解でき、すなわち、電子機器は、ウェイクワードでウェイクされたこそ、ユーザに対応するサービスを提供し続けえる。
本実施例では、電子機器は、ターゲットアプリケーションがオフにされるか、又はバックグラウンド実行状態にあることを監視した場合、この電子機器を制御してウェイクフリー機能を終了させ、これによって、電子機器が関連動作を実行する精度を向上させることができるだけでなく、誤トリガを効果的に防止することができる。
また、一例として、電子機器は、ウェイクエンジンをオンにした後、認識エンジンをオフにすることができ、それによって、メモリを節約し、電力消費を低減することができる。
図6は、本出願の実施例による音声インタラクション処理装置60の構造模式図であり、図6に示すように、この音声インタラクション処理装置60は、
音声データを受信するための受信モジュール601と、
前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるためのものであって、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれている処理モジュール602とを含み、
前記処理モジュール602は、さらに、マッチングが成功した場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるために用いられる。
オプションとして、前記処理モジュール602は、さらに、前記ターゲットアプリケーションがオフにされるか、又はバックグラウンド実行状態にあることが監視された場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を終了させるために用いられる。
オプションとして、前記処理モジュール602は、さらに、前記ターゲットアプリケーションに対応する音声ライブラリを作成するために用いられる。
オプションとして、前記受信モジュール601は、さらに、ターゲットアプリケーションの識別情報及び新たな制御コマンドを含む更新命令を受信するために用いられ、
前記処理モジュール602は、さらに、前記識別情報及び前記新たな制御コマンドに従って、前記ターゲットアプリケーションの音声ライブラリを更新するために用いられる。
オプションとして、前記処理モジュール602は、具体的には、
ターゲットオブジェクトの向きを確定し、
前記ターゲットオブジェクトが前記音声インタラクション処理装置に向かう場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるために用いられる。
オプションとして、前記処理モジュール602は、具体的には、
前記ターゲットオブジェクトが前記音声インタラクション処理装置に向かう場合、前記ターゲットオブジェクトと前記音声インタラクション処理装置との間の距離が予め設定された値よりも小さいか否かを確定し、
前記ターゲットオブジェクトと前記音声インタラクション処理装置との間の距離が前記予め設定された値よりも小さい場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるために用いられる。
オプションとして、前記処理モジュール602は、具体的には、
前記電子機器を制御して、ウェイクエンジンをオフにさせ、認識エンジンをオンにさせるために用いられる。
本出願の実施例による音声インタラクション処理装置60は、上記のいずれかの実施例における音声インタラクション処理方法の技術案を実行することができ、その実現の原理及び有益な効果は音声インタラクション処理方法の実現の原理及び有益効果と類似しており、音声インタラクション処理方法の実現の原理及び有益な効果を参照してもよいが、ここでは詳しく説明しない。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図7に示すように、本出願の実施例による音声インタラクション処理方法の電子機器のブロック図である。電子機器は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを示すことを意図している。電子機器は、たとえば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器、及びその他の類似のコンピューティング装置など、様々な形式の移動装置をさらに示してもよい。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書に説明及び/又は要求される本出願の実施を制限する意図はしない。
図7に示すように、この電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、各コンポーネントを接続するためのインターフェースであって高速インターフェースと低速インターフェースを含むものとを含む。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ得るか、又は必要に応じて他の方式で取り付けられ得る。プロセッサは、電子機器内で実行される、GUIのグラフィックス情報を外部入力/出力装置(例えば、インターフェースに結合された表示機器)上に表示させるようにメモリ内又はメモリ上に記憶された命令を含む命令を処理することができる。他の実施形態では、複数のプロセッサ及び/又は複数のバスを、必要に応じて、複数のメモリとともに使用することができる。同様に、それぞれが必要な操作の一部(たとえば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする)を提供する複数の電子機器を接続することができる。図7では、1つのプロセッサ701の場合が例示されている。
メモリ702は、本出願による非一時的なコンピュータ読み取り可能な記憶媒体である。ただし、前記メモリは少なくとも1つのプロセッサによって実行可能な命令を記憶していることで、前記少なくとも1つのプロセッサは本出願による音声インタラクション処理方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、本出願による音声インタラクション処理方法をコンピュータに実行させるためのコンピュータ命令を記憶している。
非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ702は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、たとえば、本出願の実施例における音声インタラクション処理方法に対応するプログラム命令/モジュール(たとえば、図6に示す受信モジュール601及び処理モジュール602)を記憶することができる。プロセッサ701は、メモリ702に記憶された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例における音声インタラクション処理方法を実現する。
メモリ702は、オペレーティングシステム、及び少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、音声インタラクション処理方法の電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含むことができる。さらに、メモリ702は、高速ランダムアクセスメモリを含み、さらに、たとえば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含むことができる。いくつかの実施例では、メモリ702は、任意選択敵に、プロセッサ701に対して遠隔に設置されるメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して音声インタラクション処理方法の電子機器に接続され得る。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
音声インタラクション処理方法の電子機器は、入力装置703及び出力装置704をさらに含むことができる。プロセッサ701、メモリ702、入力装置703及び出力装置704はバス又はその他の方式で接続してもよく、図7には、バスによる接続が例示されている。
入力装置703は、入力される数字又はキャラクター情報を受信し、音声インタラクション処理方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができるものであり、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置704は、表示機器、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含むことができる。この表示機器は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであり得る。
ここで説明するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラム内で実施されることを含むことができ、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、この記憶システム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置にデータ及び命令を送信することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語でこれらのコンピュータプログラムを実行することができる。本明細書に使用される用語の「機械可読媒体」及び「コンピュータ可読媒体」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラマブルロジック機器(PLD))を指し、機械可読信号としての機械命令を受信する機械可読媒体を含む。用語の「機械可読信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
本開示の実施例の別の態様において、本開示の実施例はさらに、コンピュータプログラムをさらに提供し、前記コンピュータプログラムは、コンピュータ可読記憶媒体に記憶され、電子機器の少なくとも1つのプロセッサは、コンピュータ可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサは、コンピュータプログラムを実行することによって、電子機器に上記実施例に記載の方法を実行させる。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)であって、ユーザがこのキーボード及びこのポインティングデバイスによりコンピュータに入力を提供できるものとを有する。他の種類の装置は、ユーザとのインタラクションを提供するために用いることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントとの任意の組み合わせを含むコンピューティングシステムで実施される。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
本出願の実施例の技術案によれば、音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。したがって、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。
上記に示される様々な形態のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本出願に記載されている各ステップは、並列に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよいが、本出願で開示されている技術的解決手段が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記の具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因によって、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本出願の精神及び原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (17)

  1. 音声データを受信するステップと、
    前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれているステップと、
    マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるステップと、を含む、ことを特徴とする音声インタラクション処理方法。
  2. 前記ターゲットアプリケーションがオフにされるか、又はバックグラウンド実行状態にあることが監視された場合、前記電子機器を制御して、ウェイクフリー機能を終了させるステップをさらに含む、ことを特徴とする請求項1に記載の音声インタラクション処理方法。
  3. 前記音声データを、前記ターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップの前に、前記方法は、
    前記ターゲットアプリケーションに対応する音声ライブラリを作成するステップをさらに含む、ことを特徴とする請求項1に記載の音声インタラクション処理方法。
  4. ターゲットアプリケーションの識別情報及び新たな制御コマンドを含む更新命令を受信するステップと、
    前記識別情報及び前記新たな制御コマンドに従って、前記ターゲットアプリケーションの音声ライブラリを更新するステップと、をさらに含む、ことを特徴とする請求項1〜3のいずれか1項に記載の音声インタラクション処理方法。
  5. 前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップは、
    ターゲットオブジェクトの向きを確定するステップと、
    前記ターゲットオブジェクトが前記電子機器に向かう場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップとを含む、ことを特徴とする請求項1〜3のいずれか1項に記載の音声インタラクション処理方法。
  6. 前記ターゲットオブジェクトが前記電子機器に向かう場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップは、
    前記ターゲットオブジェクトが前記電子機器に向かう場合、前記ターゲットオブジェクトと前記電子機器との間の距離が予め設定された値よりも小さいか否かを確定するステップと、
    前記ターゲットオブジェクトと前記電子機器との間の距離が予め設定された値よりも小さい場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップとを含む、ことを特徴とする請求項5に記載の音声インタラクション処理方法。
  7. 電子機器を制御してウェイクフリー機能を起動させるステップは、
    前記電子機器を制御して、ウェイクエンジンをオフにさせ、且つ、認識エンジンをオンにさせるステップを含む、ことを特徴とする請求項1〜3のいずれか1項に記載の音声インタラクション処理方法。
  8. 音声インタラクション処理装置であって、
    音声データを受信するための受信モジュールと、
    前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるためのものであって、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれている処理モジュールとを含み、
    前記処理モジュールは、さらに、マッチングが成功した場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるために用いられる、ことを特徴とする音声インタラクション処理装置。
  9. 前記処理モジュールは、さらに、前記ターゲットアプリケーションがオフにされるか、又はバックグラウンド実行状態にあることが監視された場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を終了させるために用いられる、ことを特徴とする請求項8に記載の音声インタラクション処理装置。
  10. 前記処理モジュールは、さらに、前記ターゲットアプリケーションに対応する音声ライブラリを作成するために用いられる、ことを特徴とする請求項8に記載の音声インタラクション処理装置。
  11. 前記受信モジュールは、さらに、ターゲットアプリケーションの識別情報及び新たな制御コマンドを含む更新命令を受信するために用いられ、
    前記処理モジュールは、さらに、前記識別情報及び前記新たな制御コマンドに従って、前記ターゲットアプリケーションの音声ライブラリを更新するために用いられる、ことを特徴とする請求項8〜10のいずれか1項に記載の音声インタラクション処理装置。
  12. 前記処理モジュールは、
    ターゲットオブジェクトの向きを確定し、
    前記ターゲットオブジェクトが前記音声インタラクション処理装置に向かう場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるために用いられる、ことを特徴とする請求項8〜10のいずれか1項に記載の音声インタラクション処理装置。
  13. 前記処理モジュールは、
    前記ターゲットオブジェクトが前記音声インタラクション処理装置に向かう場合、前記ターゲットオブジェクトと前記音声インタラクション処理装置との間の距離が予め設定された値よりも小さいか否かを確定し、
    前記ターゲットオブジェクトと前記音声インタラクション処理装置との間の距離が前記予め設定された値よりも小さい場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるために用いられる、ことを特徴とする請求項12に記載の音声インタラクション処理装置。
  14. 前記処理モジュールは、
    前記音声インタラクション処理装置を制御して、ウェイクエンジンをオフにさせ、且つ、認識エンジンをオンにさせるために用いられる、ことを特徴とする請求項8〜10のいずれか1項に記載の音声インタラクション処理装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記少なくとも1つのプロセッサが請求項1〜7のいずれかに記載の音声インタラクション処理方法を実行することを可能にするように、前記命令が前記少なくとも1つのプロセッサによって実行される、ことを特徴とする電子機器。
  16. コンピュータ命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、請求項1〜7のいずれか1項に記載の音声インタラクション処理方法をコンピュータに実行させるために用いられる、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータプログラムであって、前記コンピュータプログラムがプロセッサで実行されると、コンピュータに請求項1〜7のいずれか1項に記載の音声インタラクション処理方法を実行させる、ことを特徴とするコンピュータプログラム。
JP2021043721A 2020-03-17 2021-03-17 音声インタラクション処理方法、装置及び電子機器 Pending JP2021099533A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010187179.1 2020-03-17
CN202010187179.1A CN111354360A (zh) 2020-03-17 2020-03-17 语音交互处理方法、装置和电子设备

Publications (1)

Publication Number Publication Date
JP2021099533A true JP2021099533A (ja) 2021-07-01

Family

ID=71197486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021043721A Pending JP2021099533A (ja) 2020-03-17 2021-03-17 音声インタラクション処理方法、装置及び電子機器

Country Status (3)

Country Link
JP (1) JP2021099533A (ja)
KR (1) KR102523350B1 (ja)
CN (1) CN111354360A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114286362A (zh) * 2021-11-08 2022-04-05 厦门阳光恩耐照明有限公司 一种本地语音配网的方法、***及电子设备
CN114785838A (zh) * 2022-03-30 2022-07-22 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816192A (zh) * 2020-07-07 2020-10-23 云知声智能科技股份有限公司 语音设备及其控制方法、装置和设备
CN111880875B (zh) * 2020-07-15 2023-12-22 百度在线网络技术(北京)有限公司 多媒体播放的控制方法、装置、设备、存储介质和***
CN115086096A (zh) * 2021-03-15 2022-09-20 Oppo广东移动通信有限公司 响应控制语音的方法、装置、设备及存储介质
CN113593544A (zh) * 2021-06-11 2021-11-02 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114047900A (zh) * 2021-10-12 2022-02-15 中电金信软件有限公司 业务处理方法、装置、电子设备及计算机可读存储介质
CN114090166A (zh) * 2021-11-29 2022-02-25 云知声智能科技股份有限公司 一种交互的方法和装置
CN114193477B (zh) * 2021-12-24 2024-06-21 上海擎朗智能科技有限公司 一种位置引领方法、装置、机器人及存储介质
KR20230119317A (ko) * 2022-02-07 2023-08-16 삼성전자주식회사 전자 장치 및 전자 장치의 발화 처리 방법
CN114678012A (zh) * 2022-02-18 2022-06-28 青岛海尔科技有限公司 语音交互数据的处理方法和装置、存储介质及电子装置
CN117690423A (zh) * 2022-09-05 2024-03-12 华为技术有限公司 人机交互方法及相关装置
CN115472156A (zh) * 2022-09-05 2022-12-13 Oppo广东移动通信有限公司 语音控制方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014523543A (ja) * 2011-06-19 2014-09-11 エムモーダル アイピー エルエルシー コンテキストアウェア認識モデルを使用した音声認識
JP2017509917A (ja) * 2014-02-19 2017-04-06 ノキア テクノロジーズ オサケユイチア 空間音響特性に少なくとも部分的に基づく動作指令の決定
JP2018537714A (ja) * 2015-12-01 2018-12-20 クゥアルコム・インコーポレイテッドQualcomm Incorporated ユーザからの音声フレーズに応答してのコンテキストデータに基づいた電子デバイスによる通知の生成
JP2019512102A (ja) * 2016-03-01 2019-05-09 グーグル エルエルシー 開発者ボイスアクションシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593134B (zh) * 2012-08-17 2018-01-23 上海博泰悦臻电子设备制造有限公司 车载设备和语音功能的控制方法
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
CN107665708B (zh) * 2016-07-29 2021-06-08 科大讯飞股份有限公司 智能语音交互方法及***
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
CN109754814B (zh) * 2017-11-08 2023-07-28 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
CN108196814A (zh) * 2017-12-28 2018-06-22 广东欧珀移动通信有限公司 语音输入方法及相关产品
CN109410952B (zh) * 2018-10-26 2020-02-28 北京蓦然认知科技有限公司 一种语音唤醒方法、装置及***
CN109979446A (zh) * 2018-12-24 2019-07-05 北京奔流网络信息技术有限公司 语音控制方法、存储介质和装置
CN109493849A (zh) * 2018-12-29 2019-03-19 联想(北京)有限公司 语音唤醒方法、装置及电子设备
CN109979455A (zh) * 2019-04-03 2019-07-05 深圳市尚可饰科技有限公司 一种方言语音ai控制方法、装置及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014523543A (ja) * 2011-06-19 2014-09-11 エムモーダル アイピー エルエルシー コンテキストアウェア認識モデルを使用した音声認識
JP2017509917A (ja) * 2014-02-19 2017-04-06 ノキア テクノロジーズ オサケユイチア 空間音響特性に少なくとも部分的に基づく動作指令の決定
JP2018537714A (ja) * 2015-12-01 2018-12-20 クゥアルコム・インコーポレイテッドQualcomm Incorporated ユーザからの音声フレーズに応答してのコンテキストデータに基づいた電子デバイスによる通知の生成
JP2019512102A (ja) * 2016-03-01 2019-05-09 グーグル エルエルシー 開発者ボイスアクションシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114286362A (zh) * 2021-11-08 2022-04-05 厦门阳光恩耐照明有限公司 一种本地语音配网的方法、***及电子设备
CN114785838A (zh) * 2022-03-30 2022-07-22 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114785838B (zh) * 2022-03-30 2024-01-26 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
KR102523350B1 (ko) 2023-04-18
KR20210038460A (ko) 2021-04-07
CN111354360A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
JP2021099533A (ja) 音声インタラクション処理方法、装置及び電子機器
JP7266635B2 (ja) 画面切り替え表示方法、装置、スマートバックミラー及び読み取り可能な記憶媒体
US11178454B2 (en) Video playing method and device, electronic device, and readable storage medium
US10747427B2 (en) Keyboard automatic language identification and reconfiguration
JP7258932B2 (ja) 車載多音域に基づくノイズ低減方法、装置、電子機器及び記憶媒体
JP7167222B2 (ja) アプレットデータの取得方法、装置、機器及び記憶媒体
US20210149558A1 (en) Method and apparatus for controlling terminal device, and non-transitory computer-readle storage medium
JP7200277B2 (ja) ワードスロットを識別するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7320016B2 (ja) 車両呼び出し命令の送信方法、装置及び電子機器
US20210096814A1 (en) Speech control method, speech control device, electronic device, and readable storage medium
JP7242737B2 (ja) 音声認識によるページ操作方法、装置、機器、媒体及びプログラム
US10831297B2 (en) Method, apparatus and computer-readable media for touch and speech interface
US11430441B2 (en) Voice device, interaction method of same, device and storage medium
KR20210068333A (ko) 응용 프로그램의 조작 안내 방법, 장치, 기기 및 판독 가능 저장 매체
US20210090562A1 (en) Speech recognition control method and apparatus, electronic device and readable storage medium
JP2021114284A (ja) 句読点予測方法および装置
US20210097991A1 (en) Speech control method and apparatus, electronic device, and readable storage medium
WO2018112856A1 (zh) 基于语音控制的位置定位方法、装置、用户设备及计算机程序产品
JP7257434B2 (ja) 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品
KR102440635B1 (ko) 음성 패킷 녹취 기능의 안내 방법, 장치, 기기 및 컴퓨터 저장 매체
US20210074265A1 (en) Voice skill creation method, electronic device and medium
JP2021056989A (ja) 音声スキル推薦方法、装置、機器及び記憶媒体
KR102206486B1 (ko) 입력 어플리케이션을 이용한 번역 서비스 제공 방법 및 이를 이용하는 단말장치
JP2021111336A (ja) スキルサービスの更新方法、装置、電子機器、プログラム及び可読記憶媒体
US20210097992A1 (en) Speech control method and device, electronic device, and readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210317

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220921

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230411