JP6906584B2

JP6906584B2 - デバイスをウェイクアップするための方法及び装置

Info

Publication number: JP6906584B2
Application number: JP2019196478A
Authority: JP
Inventors: ダンダンタン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2019-03-11
Filing date: 2019-10-29
Publication date: 2021-07-21
Anticipated expiration: 2039-10-29
Also published as: US20200294491A1; CN109887505A; US11270690B2; JP2020149038A

Description

本願の実施形態は、コンピューター技術の分野に関し、特には、デバイスをウェイクアップするための方法及び装置に関する。

人工知能技術の発展に伴い、スマート音声デバイス（例えば、スマートサウンドボックス、スマートホン、スマートテレビ等）が益々多くのユーザーに使用されるようになっている。ユーザーは、音声でスマート端末デバイスとインタラクティブすることによって、スマート音声デバイスをウェイクアップすることができる。

従来のウェイクアップする方案では、通常、スマート音声デバイスの固有のウェイクワードを用いてウェイクアップしている。

本願の実施形態は、デバイスをウェイクアップするための方法及び装置を提供する。

本願の第一態様によれば、デバイスをウェイクアップするための方法であって、デバイスを取り巻く環境の音声信号を収集するステップと、前記音声信号が自己定義ウェイクワードを含むことを判定したことに応答し、ユーザーによって予め設定された、前記自己定義ウェイクワードに対応する応答ポリシーを決定するステップと、前記応答ポリシーに基づき、ターゲット応答テキストを決定するステップと、前記ターゲット応答テキストの応答音声を生成し、前記応答音声を再生するステップとを備えることを特徴とする方法を提供する。

幾つかの実施例において、前記応答ポリシーに基づき、ターゲット応答テキストを決定するステップは、現在のネットワークの接続状態が正常であることに応答し、クラウドサーバーに前記自己定義ウェイクワードを送信するステップと、前記クラウドサーバーから受信した応答テキストをターゲット応答テキストとして決定するステップとを備える。

幾つかの実施例において、前記応答ポリシーに基づき、ターゲット応答テキストを決定するステップは、現在のネットワークの接続状態が異常であることに応答し、予め設定された応答テキスト集合から前記自己定義ウェイクワードにマッチするターゲット応答テキストを決定し、又は、応答テキスト履歴集合からターゲット応答テキストを決定するステップを備える。

幾つかの実施例において、応答テキスト履歴集合からターゲット応答テキストを決定するステップは、前記応答テキスト履歴集合が空であると決定されたことに応答し、予め設定された応答テキストをターゲット応答テキストとして決定するステップを備える。

幾つかの実施例において、ユーザーによって送信された、自己定義ウェイクワードを含むウェイクワード設定要求を受信するステップと、前記自己定義ウェイクワードをデバイスの自己定義ウェイクワードとして設定するステップとを更に備える。

幾つかの実施例において、前記ウェイクワード設定要求は、応答テキストを更に含み、前記応答ポリシーに基づいてターゲット応答テキストを決定するステップは、前記ウェイクワード設定要求の中の応答テキストをターゲット応答テキストとして決定するステップを含む。

第二態様によれば、デバイスをウェイクアップするための装置であって、デバイスを取り巻く環境の音声信号を収集するように構成されている音声信号収集ユニットと、前記音声信号が自己定義ウェイクワードを含むことを判定したことに応答し、ユーザーが予め設定された、前記自己定義ウェイクワードに対応する応答ポリシーを決定するように構成されている応答ポリシー決定ユニットと、前記応答ポリシーに基づき、ターゲット応答テキストを決定するように構成されている応答テキスト決定ユニットと、前記ターゲット応答テキストの応答音声を生成し、前記応答音声を再生するように構成されている応答音声再生ユニットとを備えることを特徴とする装置を提供する。

幾つかの実施例において、応答テキスト決定ユニットは、現在のネットワークの接続状態が正常であることに応答し、クラウドサーバーに前記自己定義ウェイクワードを送信し、前記クラウドサーバーから受信した応答テキストをターゲット応答テキストとして決定するように更に構成されている。

幾つかの実施例において、応答テキスト決定ユニットは、現在のネットワークの接続状態が異常であることに応答し、予め設定された応答テキスト集合から前記自己定義ウェイクワードにマッチするターゲット応答テキストを決定し、又は、応答テキスト履歴集合からターゲット応答テキストを決定するように更に構成されている。

幾つかの実施例において、応答テキスト決定ユニットは、前記応答テキスト履歴集合が空であると決定されたことに応答し、予め設定された応答テキストをターゲット応答テキストとして決定するように更に構成されている。

幾つかの実施例において、ユーザーが送った、自己定義ウェイクワードを含むウェイクワード設定要求を受信し、前記自己定義ウェイクワードをデバイスの自己定義ウェイクワードとして設定するように構成されている自己定義ウェイクワード設定ユニットを更に備える。

幾つかの実施例において、ウェイクワード設定要求は、応答テキストを更に含み、前記応答テキスト決定ユニットは、前記ウェイクワード設定要求の中の応答テキストをターゲット応答テキストとして決定するように更に構成されている。

第三態様によれば、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶している記憶装置とを備え、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに、第一態様の何れか１つに記載の方法を実行させることを特徴とする端末デバイスを提供する。

第四態様によれば、コンピュータープログラムを記憶しているコンピューター可読メディアであって、前記コンピュータープログラムがプロセッサによって実行されると、第一態様の何れか１つに記載の方法を前記プロセッサに実行させることを特徴とするコンピューター可読メディアを提供する。

本願の前記実施形態によるデバイスをウェイクアップするための方法及び装置は、まず、デバイスを取り巻く環境の音声信号を収集することができる。その後、前記音声信号が自己定義ウェイクワードを含むことを判定したと、ユーザーが予め設定された、前記自己定義ウェイクワードに対応する応答ポリシーを決定する。応答ポリシーに基づき、ターゲット応答テキストを決定する。最後に、ターゲットテキストの応答音声を生成し、応答音声を再生する。本実施形態の方法では、ユーザーにより自己定義ウェイクワードを設定し、ユーザーにより前記自己定義ウェイクワードの応答音声を設定することができるので、ユーザーとデバイスとのインタラクティブ方式を豊かにすることができる。

以下の図面による非限定的な実施形態についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
本願の一実施形態が適用可能な例示システムアーキテクチャ図である。本願のデバイスをウェイクアップするための方法にかかる一実施形態のフローチャート図である。本願のデバイスをウェイクアップするための方法にかかる１つの応用場面の模式図である。本願のデバイスをウェイクアップするための方法にかかるターゲット応答テキストを決定する一実施形態のフローチャート図である。本願のデバイスをウェイクアップするための装置にかかる一実施形態の構造模式図である。本願の実施形態にかかる端末デバイスを実現するためのコンピューターシステムの構造模式図である。

以下、図面及び実施形態を参照しながら、本願を更に詳しく説明する。ここで記載された具体的な実施形態は、関連発明を解釈するために用いられ、本発明を限定しないことが理解されたい。なお、説明の便宜上、図面は、発明と関係する部分しか示されていない。
なお、矛盾しない限り、本願の実施形態及び実施形態の特徴は、組合わせても良い。以下、図面を参照しながら、実施形態を用いて本願を説明する。

図１は、本願が用いられることが可能なデバイスをウェイクアップするための方法又はデバイスをウェイクアップするための装置の実施形態の例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末デバイス１０１、１０２、１０３、ネットワーク１０４及びサーバー１０５を含んでも良い。ネットワーク１０４は、端末デバイス１０１、１０２、１０３とサーバー１０５の間において通信リンクのメディアを提供するために用いられる。ネットワーク１０４は、有線、無線通信リンク又は光ファイバーケーブル等のような様々な接続タイプを含んでも良い。

ユーザーは、情報等を受信又は送信するように、端末デバイス１０１、１０２、１０３を使ってネットワーク１０４によりサーバー１０５とインタラクティブを行うことができる。端末デバイス１０２、１０３には、オーディオ処理タイプアプリケーション、オーディオ再生タイプアプリケーション等のような様々な通信クライアントのアプリケーションをインストールすることができる。

端末デバイス１０１、１０２、１０３は、ハードウェアであっても良く、ソフトウェアであっても良い。端末デバイス１０２、１０３がハードウェアである場合、マイクロホン又はスピーカーを有する様々な電子デバイスであっても良く、スマートサウンドボックス、スマートホン、スマートテレビ、タブレットコンピューター、ラップトップポータブルコンピューター及びデスクトップコンピューター等を含むが、これらに限定されない。端末デバイス１０１、１０２、１０３がソフトウェアである場合、上述した列挙した電子デバイスにインストールすることができる。複数のソフトウェア又はソフトウェアモジュール（例えば、分布式サービスを提供するために用いられる）として実現しても良く、単独のソフトウェア又はソフトウェアモジュールとして実現しても良い。ここでは、具体的に限定されない。

サーバー１０５は、様々なサービスを提供するためのサーバーであっても良く、例えば、端末デバイス１０１、１０２、１０３により収集された音声信号に対して処理を行うバックエンドサーバーである。バックエンドサーバーは、受信された音声信号等のデータに対して分析等の処理を行い、処理結果（例えば、ターゲット応答テキスト）を端末デバイス１０１、１０２、１０３にフィートバックすることができる。

なお、サーバー１０５は、ハードウェアであっても良く、ソフトウェアであっても良い。サーバー１０５がハードウェアである場合、複数のサーバーからなる分布式サーバーグループとして実現しても良く、単独のサーバーとして実現しても良い。サーバー１０５がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分布式サービスを提供するために用いられる）として実現しても良く、単独のソフトウェア又はソフトウェアモジュールとして実現しても良い。ここでは、具体的に限定されない。

なお、本願の実施形態によるデバイスをウェイクアップするための方法は、一般的に端末デバイス１０１、１０２、１０３により実行され、相応するように、デバイスをウェイクアップするための装置は、一般的に端末デバイス１０１、１０２、１０３に設置されている。

図１における端末デバイス、ネットワーク及びサーバーの数は、例示するものに過ぎないことが理解されたい。実際の必要に応じて任意の数の端末デバイス、ネットワーク及びサーバーを有しても良い。

図２は、本願のデバイスをウェイクアップするための方法による一実施形態のフロー２００を示している。本実施形態のデバイスをウェイクアップするための方法は、ステップ２０１、ステップ２０２、ステップ２０３及びステップ２０４を備える。

ステップ２０１においては、デバイスを取り巻く環境の音声信号を収集する。

本実施形態においては、デバイスをウェイクアップするための方法の実行主体（例えば、図１に示す端末デバイス１０１、１０２、１０３）は、デバイスに設置されたマイクロホン又は集音器を用いてデバイスを取り巻く環境の音声信号を収集することができる。その後、収集された音声信号を分析することができる。

ステップ２０２においては、音声信号が自己定義ウェイクワードを含むことを判定したことに応答し、ユーザーが予め設定された、自己定義ウェイクワードに対応する応答ポリシーを決定する。

実行主体は、音声信号に対して音声識別を行うことによって、前記音声信号が自己定義ウェイクワードを含むか否かを判断することができる。前記音声信号が自己定義ウェイクワードを含む場合、実行主体は、ユーザーが予め設定された、前記自己定義ウェイクワードに対応する応答ポリシーを決定することができる。本実施形態においては、応答ポリシーは、自己定義応答ポリシー、デフォルト応答ポリシー及び自動応答ポリシーを含んでも良い。なお、自己定義応答ポリシーは、ユーザーが予め設定した、自己定義ウェイクワードに対応する自己定義応答テキストを含み、デフォルト応答ポリシーは、デバイスのデフォルトの応答テキストを含み、自動応答ポリシーは、実行主体又は実行主体に接続されるクラウドサーバーが自己定義ウェイクワードのために自動的にマッチングする応答テキストであっても良い。

ステップ２０３においては、応答ポリシーに基づいてターゲット応答テキストを決定する。

実行主体は、応答ポリシーを決定した後、ターゲット応答テキストを決定することができる。具体的には、実行主体は、応答ポリシーに含まれる応答テキストをターゲット応答テキストとすることができる。例えば、実行主体は、応答ポリシーを自己定義応答ポリシーとして決定するすると、自己定義応答ポリシーに含まれる自己定義応答テキストをターゲット応答テキストとして決定することができる。

本実施形態の幾つかの選択可能な実現方法においては、同一のウェイクワードが複数のターゲット応答テキストに対応しても良い。

本実現方法においては、応答ポリシーが自動応答ポリシーである場合、同一の自己定義ウェイクワードに対して異なる応答テキストをマッチングする可能性がある。例えば、自己定義ウェイクワードである「小さい兎」に対し、その対応する応答テキストは、「歯を綺麗に磨きましたか」、「私達は、また会いました」等を含んでも良い。

ステップ２０４においては、ターゲット応答テキストの応答音声を生成し、応答音声を再生する。

実行主体は、ターゲット応答テキストを決定した後、ターゲット応答テキストの応答音声を生成することができる。具体的には、実行主体は、TTS（Text To Speech、テキストから音声に）技術を用いて応答音声を生成することができる。応答音声が生成された後、実行主体は、ユーザーの自己定義ウェイクワードに応答するように、前記応答音声を再生することで、デバイスをウェイクアップすることができる。応答音声を再生するために、実行主体の中には、スピーカー等の音声再生装置を取り付ける又は接続することができる。

本実施形態の幾つかの選択可能な実現方法においては、前記方法は、図２に示されていない次のステップを含んでも良い。即ち、前記方法は、ユーザーが送った、自己定義ウェイクワードを含むウェイクワード設定要求を受信するステップと、自己定義ウェイクワードをデバイスの自己定義ウェイクワードとして設定するステップとを含んでも良い。

本実現方法においては、実行主体は、ユーザーが送ったウェイクワード設定要求を受信することができる。前記ウェイクワード設定要求は、音声形式であっても良く、テキスト形式であっても良い。例えば、ユーザーは、「私は、杜さん杜さんをウェイクワードと設定したい」と直接に実行主体に言うことができる。実行主体は、前記音声に対して音声識別を行い、識別が成功すると、「杜さん杜さん」を自己定義ウェイクワードとすることができる。

本実施形態の幾つかの選択可能な実現方法においては、前記自己定義ウェイクワードは、複数を含んでも良い。

本実現方法においては、ユーザーは、１つのデバイスのために複数の自己定義ウェイクワードを設定するように、複数のウェイクワード設定要求を複数回送り、それぞれのウェイクワード設定要求が１つの自己定義ウェイクワードを含むことができる。

本実施形態の幾つかの選択可能な実現方法においては、前記ウェイクワード設定要求は、応答テキストを更に含む。実行主体は、ターゲット応答テキストを決定する際、直接にウェイクワード設定要求の中の応答テキストをターゲット応答テキストとすることができる。

本実現方法においては、ユーザーは、自己定義応答テキストを設定することができる。前記自己定義応答テキストは、自己定義ウェイクワードと共に実行主体に送ることができる。実行主体は、分析した後、自己定義応答テキストを自己定義ウェイクワードの応答テキストとすることができる。

図３は、本実施形態のデバイスをウェイクアップするための方法による１つの応用場面の模式図である。図３の応用場面においては、デバイスは、スマートサウンドボックスである。ユーザーは、スマートサウンドボックスの自己定義ウェイクワード及び自己定義ウェイクワードに対応する自己定義応答テキストを予め設定した。なお、自己定義ウェイクワードは、「衆裏に他を尋ぬること千百度」であり、自己定義応答テキストは、「驀然として回首すれば、那の人却って、燈火闌珊たる処に在り」である。ユーザーは、前記自己定義ウェイクワードである「衆裏に他を尋ぬること千百度」を言い出すと、スマートサウンドボックスは、応答音声である「驀然として回首すれば、那の人却って、燈火闌珊たる処に在り」を再生する。

デバイスをウェイクアップする従来の方法においては、通常、ユーザーは、システムの設定されたウェイクワードを用いてデバイスをウェイクアップすることができる。これらのシステムの設定されたウェイクワードは、メインウェイクワードと称されても良い。これらのデバイスは、ユーザーが自己定義ウェイクワードを設定することもサポートする。しかしながら、自己定義ウェイクワードのウェイクアップ率が一般的にメインウェイクワードのウェイクアップ率より低い。なぜならば、メインウェイクワードでウェイクアップすることは、大量のデータによりトレーニングされたウェイクアップモデルを用いて行うが、自己定義ウェイクワードでウェイクアップすることは、データによりトレーニングする必要がない。もし、メインウェイクワードの代わりに、自己定義ウェイクワードを用いれば、ウェイクアップする効果が低く、ユーザーは、常に「ウェイクアップできない」又は「ウェイクアップし間違い」に直面する可能性があるので、ユーザーにマイナスのユーザー体験を与えてしまう。

本願の前記実施形態によるデバイスをウェイクアップするための方法においては、まず、デバイスを取り巻く環境の音声信号を収集する。その後、前記音声信号が自己定義ウェイクワードを含むことを判定したと、ユーザーによって予め設定された、前記自己定義ウェイクワードに対応する応答ポリシーを決定する。応答ポリシーに基づき、ターゲット応答テキストを決定する。最後に、ターゲット応答テキストの応答音声を生成し、応答音声を再生する。本実施形態の方法においては、ユーザーにより自己定義ウェイクワードを設定し、ユーザーにより前記自己定義ウェイクワードの応答音声を設定することができるので、ユーザーとデバイスとのインタラクティブ方式を豊かにし、ユーザーのウェイクアップする経験を高めることができる。

図４は、本願のデバイスをウェイクアップするための方法によるさらなる一実施形態のフロー４００を示している。図４に示すように、本実施形態のデバイスをウェイクアップするための方法は、ステップ４０１、ステップ４０２１、ステップ４０２２、ステップ４０３、ステップ４０４、ステップ４０５及びステップ４０６によりターゲット応答テキストを決定することができる。

ステップ４０１においては、現在のネットワークの接続状態が正常か否かを判断する。

本実施形態においては、実行主体は、まず、現在のネットワークの接続状態が正常か否かを判断することができる。正常であれば、ステップ４０２１〜ステップ４０２２を実行し、正常でなければ、ステップ４０３又はステップ４０４を実行する。実行主体は、クラウドサーバーに要求を送ることによって、現在のネットワークの接続状態が正常か否かを判断することができることを理解されたい。所定の時間内にクラウドサーバーの応答を受信したら、現在のネットワークの接続状態が正常であると見なされる。所定の時間内にクラウドサーバーの応答を受信していなかったら、現在のネットワークの接続状態が異常であると見なされる。

ステップ４０２１においては、クラウドサーバーに自己定義ウェイクワードを送る。

現在のネットワークの接続状態が正常である場合、実行主体は、クラウドサーバーに自己定義ウェイクワードを送ることによって、クラウドサーバーが詞語データベース又は現在のネットワークの人気ワードに基づいて応答テキストを決定する。

ステップ４０２２においては、クラウドサーバーから受信した応答テキストをターゲット応答テキストとして決定する。

実行主体は、クラウドサーバーから応答テキストを受信し、その後、受信した応答テキストをターゲット応答テキストとすることができる。

ステップ４０３においては、予め設定された応答テキスト集合から自己定義ウェイクワードにマッチするターゲット応答テキストを決定する。

本実施形態においては、現在のネットワークの接続状態が異常である場合、実行主体は、予め設定された応答テキスト集合から自己定義ウェイクワードにマッチするターゲット応答テキストを決定することができる。ここでは、予め設定された応答テキスト集合は、詞語集合、掛け言葉集合、ネットワーク人気ワード集合等を含んでも良い。例えば、予め設定された応答テキスト集合が掛け言葉集合であり、自己定義ウェイクワードが「胡麻の花は、咲く」である場合、対応する応答テキストは、「下の方からだんだんと咲いてゆく」であっても良い。

ステップ４０４においては、応答テキスト履歴集合が空か否かを判断する。

実行主体は、応答テキスト履歴集合からターゲット応答テキストを決定することもできる。実行主体は、まず、応答テキスト履歴集合が空である否かを判断する。空であれば、ステップ４０５を実行し、空でなければ、ステップ４０６を実行する。

ステップ４０５においては、予め設定された応答テキストをターゲット応答テキストとして決定する。

応答テキスト履歴集合が空である場合、実行主体は、予め設定された応答テキストをターゲット応答テキストとして決定する。ここでは、予め設定された応答テキストは、デバイスのデフォルトの応答テキストであっても良い。

ステップ４０６においては、応答テキスト履歴集合からターゲット応答テキストを決定する。

応答テキスト履歴集合が空でない場合、実行主体は、応答テキスト履歴集合からターゲット応答テキストを決定する。具体的には、実行主体は、応答テキスト履歴集合から任意の１つの応答テキスト履歴をターゲット応答テキストとして選出することができる。

本願の前記実施形態によるデバイスをウェイクアップするための方法においては、様々な方式でターゲット応答テキストを決定することができるので、ユーザーのウェイクアップする体験を高めることができる。

図５は、前記各図に示す方法の実現として、本願によるデバイスをウェイクアップするための装置の一実施形態を示している。当該装置の実施形態は、図２に示す方法の実施形態に対応し、当該装置は、具体的に様々な電子デバイスの中に応用することができる。

図５に示すように、本実施形態のデバイスをウェイクアップするための装置５００は、音声信号収集ユニット５０１、応答ポリシー決定ユニット５０２、応答テキスト決定ユニット５０３及び応答音声再生ユニット５０４を備える。

音声信号収集ユニット５０１は、デバイスを取り巻く環境の音声信号を収集するように構成されている。

応答ポリシー決定ユニット５０２は、音声信号が自己定義ウェイクワードを含むと判定されたことに応答し、ユーザーが予め設定された、自己定義ウェイクワードに対応する応答ポリシーを決定するように構成されている。

応答テキスト決定ユニット５０３は、応答ポリシーに基づき、ターゲット応答テキストを決定するように構成されている。

応答音声再生ユニット５０４は、ターゲット応答テキストの応答音声を生成し、応答音声を再生するように構成されている。

本実施形態の幾つかの選択可能な実現方法においては、応答テキスト決定ユニット５０３は、現在のネットワークの接続状態が正常であることに応答し、クラウドサーバーに前記自己定義ウェイクワードを送り、クラウドサーバーから受信した応答テキストをターゲット応答テキストとして決定するように更に構成されている。

本実施形態の幾つかの選択可能な実現方法においては、応答テキスト決定ユニット５０３は、現在のネットワークの接続状態が異常であることに応答し、予め設定された応答テキスト集合から自己定義ウェイクワードにマッチするターゲット応答テキストを決定し、又は、応答テキスト履歴集合からターゲット応答テキストを決定するように構成されている。

本実施形態の幾つかの選択可能な実現方法においては、応答テキスト決定ユニット５０３は、応答テキスト履歴集合が空であると決定されたことに応答し、予め設定された応答テキストをターゲット応答テキストとして決定する。

本実施形態の幾つかの選択可能な実現方法においては、装置５００は、図５に示されていない自己定義ウェイクワード設定ユニットを更に備え、ユーザーから送った、自己定義ウェイクワードを含むウェイクワード設定要求を受信し、自己定義ウェイクワードをデバイスの自己定義ウェイクワードとするように構成されている。

本実施形態の幾つかの選択可能な実現方法においては、ウェイクワード設定要求は、応答テキストを更に備える。応答テキスト決定ユニット５０３は、ウェイクワード設定要求の中の応答テキストをターゲット応答テキストとして決定するように更に構成されている。

デバイスをウェイクアップするための装置５００におけるユニット５０１〜ユニット５０４は、それぞれ図２に示される方法の各ステップに対応することが理解されたい。故に、上述した文書においてデバイスをウェイクアップするための方法に関する操作及び特徴は、装置５００及びその中に含まれるユニットにも同様に適用し、ここでは、繰り返して説明しない。

図６は、本願の実施形態を実現するために用いられる電子デバイス（例えば、図１の端末デバイス）６００の構造模式図を示している。本願の実施形態における端末デバイスは、携帯電話、ノートパソコン、デジタル放送受信機、PDA（パーソナルデジタルアシスタンス）、PAD（タブレットコンピューター）、PMP（携帯型マルチメディアプレイヤー）、車載端末（例えば、車載ナービケーション端末）等のような携帯端末及びデジタルTV、デスクトップコンピューター等のような固定端末を含むが、これらに限定されない。図６に示す端末デバイスは、１つの例示に過ぎず、本願の実施形態の機能及び適用範囲を制限しない。

図６に示すように、電子デバイス６００は、リードオンリーメモリ（ROM、Read Only Memory）６０２に記憶されているプログラム又は記憶装置６０８からランダムアクセスメモリ（RAM、Random Access Memory）６０３にローディングされたプログラムに基づいて様々な適切な動作及び処理を実行することが可能な処理装置（例えば、CPU、グラフィックプロセッサ等）６０１を含む。RAM６０３の中には、電子デバイス６００を操作するために必要な様々プログラム及びデータを更に記憶している。処理装置６０１、ROM６０２及びRAM６０３は、バス６０４により互いに接続する。入力/出力（I/O）インターフェイス６０５もバス６０４に接続されている。

タッチパネルディスプレイ、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロ等を含む入力装置６０６、液晶ディスプレイ（LCD、Liquid Crystal Display）、スピーカー、発振器等を含む出力装置６０７、磁気テープ、ハードディスク等を含む記憶装置６０８及び通信装置６０９は、I/Oインターフェイス６０５に接続されても良い。通信装置６０９は、電子デバイス６００が他のデバイスと無線又は有線通信を行うことを許可することで、データのやり取りを行う。図６は、様々な装置の電子デバイス６００を示しているが、示された全ての装置を実施する又は有する必要がないことを理解されたい。その代わりに、もっと多い又はもっと少ない装置を実施し又は有しても良い。図６に示されている各ブロックは、１つの装置を表しても良く、必要に応じて複数の装置を表しても良い。

特に、本願の実施形態により、上述した内容においてフローチャート図を参照して記載したプロセスは、コンピューターのソフトウェアのプログラムとして実現することができる。例えば、本明細書に開示する実施形態は、コンピューターのプログラムの製品を含み、当該コンピューターのプログラムの製品は、コンピューター可読メディアにインストールされている、フローチャート図に示す方法を実行するためのプログラムコードを含むコンピューターのプログラムを備える。このような実施形態においては、当該コンピューターのプログラムは、通信装置６０９によりネットワークからダウンロード及びインストールし、又は、記憶装置６０８からインストールされ、又は、ROM６０２からインストールされる。当該コンピューターのプログラムが処理装置６０１に実行されると、本願の方法に限定される上述した機能を実行する。なお、本願の実施形態に記載の前記コンピューター可読メディアは、コンピューター可読信号メディア又はコンピューター可読記憶メディア又は上述した２つの任意の組み合わせであっても良い。コンピューター可読記憶メディアは、電気、磁気、光、電磁気、赤外線、半導体のシステム、装置、デバイス又は前記したものの任意の組み合わせであっても良いが、これらに限定しない。コンピューター可読記憶メディアのより具体的な例としては、１つ又は複数のリード線を有する、電気的に接続するボータブルコンピューターディスク、ハードディスク、ランダムアクセスメモリ（RAM）、リードオンリーメモリ（ROM）、書き込み・消去可能なリードオンリーメモリ（EPROM又はフラッシュメモリ）、光ファイバー、コンパクトディスクリードオンリーメモリ（CD−ROM）、光記憶装置、磁気記憶装置又は上述したものの任意の適切な組み合わせが挙げられる。本願の実施形態においては、コンピューター可読記憶メディアは、プログラムを含む又は記憶する任意の有形メディアであっても良く、当該プログラムは、命令実行システム、装置又はデバイスに用いられ、又は、組合わせて用いられても良い。本願の実施形態においては、コンピューター可読信号メディアは、ベースバンドの中にある又は搬送波の一部として伝播するデータ信号に、コンピューター可読プログラムコードが積載されている。このような伝播するデータ信号は、様々な形を用いることができ、電磁気信号、光信号又は上述したもの任意の適切な組み合わせを含むが、これらに限定されない。コンピューター可読信号メディアは、コンピューター可読記憶メディア以外の如何なるコンピューター可読メディアであっても良く、当該コンピューター可読メディアは、命令実行システム、装置又はデバイスに用いられ、又は、その組み合わせに用いられるためのプログラムを送信、伝播又は伝送することができる。コンピューター可読メディアに含まれるプログラムコードは、如何なる適切なメディアを用いて伝送しても良く、電線、光ケーブル、RF（無線周波数）等又は上述したものの任意の適切な組み合わせを含むが、これらに限定されない。

前記コンピューター可読メディアは、前記電子デバイスに含まれても良く、当該電子デバイスに設置されずに単独で存在しても良い。前記コンピューター可読メディアは、１つ又は複数のプログラムを積載しており、前記１つ又は複数のプログラムが当該電子デバイスに実行される際、当該電子デバイスに次のようにさせる：デバイスを取り巻く環境の音声信号を収集し、音声信号が自己定義ウェイクワードを含むと判定されたことに応答し、ユーザーによって予め設定された、自己定義ウェイクワードに対応する応答ポリシーを決定し、応答ポリシーに基づき、ターゲット応答テキストを決定し、ターゲット応答テキストの応答音声を生成し、応答音声を再生する。

１つ又は複数のプログラム設計言語又はその組み合わせで本願の実施形態の操作を実行するコンピューターのプログラムコードをプログラミングすることができ、前記プログラム設計言語は、Java 、Smalltalk、 C++のようなオブジェクト向けのプログラム設計言語を含み、「C」言語又は類似するプログラム設計言語のような通常の過程式プログラム設計言語も含む。プログラムコードは、完全にユーザーのコンピューターにより実行されても良く、部分的にユーザーのコンピューターにより実行されても良く、一つの独立したパッケージソフトとして実行されても良く、一部がユーザーのコンピューターにより実行され、一部が遠隔コンピューターにより実行されても良く、完全に遠隔コンピューター又はサーバーにより実行されても良い。遠隔コンピューターにより実行される場合、遠隔コンピューターは、ローカルエリヤネットワーク（LAN）又はワイドエリヤネットワーク（WAN）を含む任意の種類のネットワークによりユーザーのコンピューター又は外部コンピューター（例えば、インターネットサービスプロバイダを用いてインターネットにより接続する）に接続されることができる。

図面におけるフローチャート図及びブロック図は、本願のそれぞれの実施形態によるシステム、方法及びコンピュータープログラム製品の実現可能な体系アーキテクチャ、機能及び操作を示している。ここでは、フローチャート図及びブロック図における各ブロックは、１つのモジュール、プログラムセグメント又はコードの一部を表すことができ、当該モジュール、プログラムセグメント又はコードの一部は、定められたロジック機能を実現するための１つ又は複数の実行可能な命令を含む。幾つかの代替できる実現としては、ブロックの中に示されている機能は、図面に示されている順番と違う順番で行われても良い。例えば、２つの連続して示されているブロックは、実は、ほぼ並行して行われても良く、逆の順序で行われる場合もあり、これは、係る機能によって決められることに注意すべきである。ブロック図及び/又はフローチャート図におけるそれぞれのブロック、及び、ブロック図及び/又はフローチャート図におけるブロックの組み合わせは、定めされた機能又は操作を実行するための専用のハードウェアを元にするシステムにより実行しても良く、又は、専用のハードウェアとコンピューター命令の組み合わせにより実行しても良いことにも注意すべきである。

記載の本願の実施形態に係るユニットは、ソフトウェアの形で実現しても良く、ハードウェアの形で実現しても良い。上記ユニットは、プロセッサの中に設置されても良く、例えば、音声信号収集ユニット、応答ポリシー決定ユニット、応答テキスト決定ユニット及び応答音声再生ユニットを含むプロセッサであるというように記載しても良い。なお、これらのユニットの名称は、当該ユニット自身を限定しない場合があり、例えば、音声信号収集ユニットは、「デバイスを取り巻く環境の音声信号を収集するユニット」と記載されても良い。

上述した記載は、本願の比較的好ましい実施形態及び応用される技術原理に対する説明に過ぎない。当業者は、本願に係る発明の範囲が上述した技術特徴の特定の組み合わせからなる技術案に限らず、上述した発明の精神から逸脱しないかぎり、上述した技術特徴又は均等な特徴から行われる任意の組み合わせによる他の技術案も含まれていることに理解すべきである。例えば、上述した特徴と本願の実施形態に開示されている特徴と類似する機能を有する技術特徴（しかし、これに限定されない）に対して置換えることで形成した技術案も含まれている。

Claims

デバイスをウェイクアップするための方法であって、
デバイスを取り巻く環境の音声信号を収集するステップと、
前記音声信号が自己定義ウェイクワードを含むと判定されたことに応答し、ユーザーによって予め設定された、前記自己定義ウェイクワードに対応する応答ポリシーを決定するステップと、
前記応答ポリシーに基づき、ターゲット応答テキストを決定するステップと、
前記ターゲット応答テキストの応答音声を生成し、前記応答音声を再生するステップと
を備えることを特徴とする方法。
前記応答ポリシーに基づき、ターゲット応答テキストを決定するステップは、
現在のネットワークの接続状態が正常であることに応答し、クラウドサーバーに前記自己定義ウェイクワードを送信するステップと、
前記クラウドサーバーから受信した応答テキストをターゲット応答テキストとして決定するステップとを備えることを特徴とする請求項１に記載の方法。
前記応答ポリシーに基づき、ターゲット応答テキストを決定するステップは、
現在のネットワークの接続状態が異常であることに応答し、予め設定された応答テキスト集合から前記自己定義ウェイクワードにマッチするターゲット応答テキストを決定し、又は、応答テキスト履歴集合からターゲット応答テキストを決定するステップを備えることを特徴とする請求項２に記載の方法。
応答テキスト履歴集合からターゲット応答テキストを決定するステップは、前記応答テキスト履歴集合が空であると決定されたことに応答し、予め設定された応答テキストをターゲット応答テキストとして決定するステップを備えることを特徴とする請求項３に記載の方法。
ユーザーによって送信された、自己定義ウェイクワードを含むウェイクワード設定要求を受信するステップと、
前記自己定義ウェイクワードをデバイスの自己定義ウェイクワードとして設定するステップとを更に備えることを特徴とする請求項１〜４の何れか１項に記載の方法。
前記ウェイクワード設定要求は、応答テキストを更に含み、
前記応答ポリシーに基づいてターゲット応答テキストを決定するステップは、前記ウェイクワード設定要求の中の応答テキストをターゲット応答テキストとして決定するステップを含むことを特徴とする請求項５に記載の方法。
デバイスをウェイクアップするための装置であって、
デバイスを取り巻く環境の音声信号を収集するように構成されている音声信号収集ユニットと、
前記音声信号が自己定義ウェイクワードを含むと判定されたことに応答し、ユーザーによって予め設定された、前記自己定義ウェイクワードに対応する応答ポリシーを決定するように構成されている応答ポリシー決定ユニットと、
前記応答ポリシーに基づき、ターゲット応答テキストを決定するように構成されている応答テキスト決定ユニットと、
前記ターゲット応答テキストの応答音声を生成し、前記応答音声を再生するように構成されている応答音声再生ユニットと
を備えることを特徴とする装置。
前記応答テキスト決定ユニットは、現在のネットワークの接続状態が正常であることに応答し、クラウドサーバーに前記自己定義ウェイクワードを送信し、前記クラウドサーバーから受信した応答テキストをターゲット応答テキストとして決定するように更に構成されていることを特徴とする請求項８に記載の装置。
前記応答テキスト決定ユニットは、現在のネットワークの接続状態が異常であることに応答し、予め設定された応答テキスト集合から前記自己定義ウェイクワードにマッチするターゲット応答テキストを決定し、又は、応答テキスト履歴集合からターゲット応答テキストを決定するように更に構成されていることを特徴とする請求項８に記載の装置。
前記応答テキスト決定ユニットは、前記応答テキスト履歴集合が空であると決定されたことに応答し、予め設定された応答テキストをターゲット応答テキストとして決定するように更に構成されていることを特徴とする請求項９に記載の装置。
ユーザーが送った、自己定義ウェイクワードを含むウェイクワード設定要求を受信し、前記自己定義ウェイクワードをデバイスの自己定義ウェイクワードとして設定するように構成されている自己定義ウェイクワード設定ユニットを更に備えることを特徴とする請求項７〜１０の何れか１項に記載の装置。
前記ウェイクワード設定要求は、応答テキストを更に含み、
前記応答テキスト決定ユニットは、前記ウェイクワード設定要求の中の応答テキストをターゲット応答テキストとして決定するように更に構成されていることを特徴とする請求項１１に記載の装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶している記憶装置とを備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに、請求項１〜６の何れか１項に記載の方法を実現させることを特徴とする端末デバイス。
コンピュータープログラムを記憶しているコンピューター可読メディアであって、
前記コンピュータープログラムがプロセッサによって実行されると、請求項１〜６の何れか１項に記載の方法を前記プロセッサに実現させることを特徴とするコンピューター可読メディア。