JP2022512486A - スマートスピーカーの再生方法、装置およびスマートスピーカー - Google Patents

スマートスピーカーの再生方法、装置およびスマートスピーカー Download PDF

Info

Publication number
JP2022512486A
JP2022512486A JP2021533667A JP2021533667A JP2022512486A JP 2022512486 A JP2022512486 A JP 2022512486A JP 2021533667 A JP2021533667 A JP 2021533667A JP 2021533667 A JP2021533667 A JP 2021533667A JP 2022512486 A JP2022512486 A JP 2022512486A
Authority
JP
Japan
Prior art keywords
user
broadcast
loudspeaker
smart speaker
azimuth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021533667A
Other languages
English (en)
Other versions
JP7270739B2 (ja
Inventor
チェン,フェイ
ウ,ハイクアン
チ,シン
ジャン,エンキン
カオ,レイ
シ,ルイウェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Grandsun Electronics Co Ltd
Original Assignee
Shenzhen Grandsun Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Grandsun Electronics Co Ltd filed Critical Shenzhen Grandsun Electronics Co Ltd
Publication of JP2022512486A publication Critical patent/JP2022512486A/ja
Application granted granted Critical
Publication of JP7270739B2 publication Critical patent/JP7270739B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • H04R29/002Loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本出願は、音声処理の技術分野に適用され、スマートスピーカーの再生方法、装置およびスマートスピーカーを提供し、前記方法は、ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御することと、ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、前記ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出することと、ラウドスピーカーが対応する初期放送周波数、実際の放送振幅および実際の放送位相で音声信号を出力するように制御することと、を含む。本出願は、既存のスマートスピーカーにおける、スマートスピーカーにいかに多くの機能を追加するかに重点が置かれており、スマートスピーカーの音響再生機能にあまり注目されておらず、スピーカーが知能化されるにもかかわらず、スマートスピーカーの音響再生効果が向上できなかったという課題を解決することができる。【選択図】図1

Description

本出願は、音声処理の技術分野に属し、特に、スマートスピーカーの再生方法、装置およびスマートスピーカーに関する。
科学技術の発展に伴い、様々なスマートホームデバイスが徐々に普通の家庭に普及しているが、スマートスピーカーもそのスマートホームデバイスの1つである。
スマートスピーカーは、従来のスピーカーをアップグレードした製品で、ユーザーとのヒューマンコンピュータインタラクションを行うことができ、例えば、ユーザーは、音声でスマートスピーカーを操作して、楽曲のリクエストやオンラインショッピング、天気予報の取得など、インターネットにアクセスすることができ、また、ユーザーは、スマートスピーカーを通じて、カーテンを開けたり、冷蔵庫の温度を設定したり、湯沸かし器を温めたりするなど、スマートホームデバイスを制御することができる。
しかし、既存のスマートスピーカーでは、スマートスピーカーにいかに多くの機能を追加するかに重点が置かれており、スマートスピーカーの音響再生機能にあまり注目されておらず、スピーカーが知能化されるにもかかわらず、スマートスピーカーの音響再生効果が向上できなかった。
これに鑑み、本出願の実施例は、スマートスピーカーの再生方法、装置およびスマートスピーカーを提供し、それによって、既存のスマートスピーカーではスマートスピーカーにいかに多くの機能を追加するかに重点が置かれており、スマートスピーカーの音響再生機能にあまり注目されておらず、スピーカーが知能化されるにもかかわらず、スマートスピーカーの音響再生効果が向上できなかったという課題を解決する。
本出願の実施例の第1の態様は、スマートスピーカーの再生方法を提供し、
ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御することと、
ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、前記ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの前記初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出することと、
各前記ラウドスピーカーが対応する前記初期放送周波数、前記実際の放送振幅および前記実際の放送位相で音声信号を出力するように制御することと、を含む。
本出願の実施例の第2の態様は、スマートスピーカーの再生装置を提供し、
ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御するための初期再生モジュールと、
ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、前記ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの前記初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出するための理論計算モジュールと、
各前記ラウドスピーカーが対応する前記初期放送周波数、前記実際の放送振幅および前記実際の放送位相で音声信号を出力するように制御するための音声指向性モジュールと、を含む。
本出願の実施例の第3の態様は、メモリと、プロセッサーと、前記メモリに記憶され、前記プロセッサー上で実行可能なコンピュータプログラムとを備えるスマートスピーカーを提供し、前記プロセッサーは、前記コンピュータプログラムを実行するときに、上述した方法のステップを実現する。
本出願の実施例の第4の態様は、コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムは、プロセッサーによって実行されるときに、上述した方法のステップを実現する。
本出願の実施例は、従来の技術と比較して、以下の有益な効果を有する。
本出願に係るスマートスピーカーの再生方法では、音声エネルギー収束アルゴリズム、ユーザーの方位角、各ラウドスピーカーの放送角度および初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出し、各ラウドスピーカーが対応する初期放送周波数、実際の放送振幅および実際の放送位相で音声信号を出力するように制御することで、同じ音声を指向的に集束させて出力することができ、同じ出力電力でも、より質の高い、より強いエネルギーのある音を出力することができ、それによって、既存のスマートスピーカーにおける、スマートスピーカーにいかに多くの機能を追加するかに重点が置かれており、スマートスピーカーの音響再生機能にあまり注目されておらず、スピーカーが知能化されるにもかかわらず、スマートスピーカーの音響再生効果が向上できなかったという課題が解決された。
本出願の実施例における技術的解決手段をより明確に説明するために、以下、実施例または従来技術の説明で使用される図面を簡単に紹介し、当然のことながら、以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者であれば、創造的労働を要することなく、これらの図面に基づく他の図面を得ることができる。
本出願の実施例によって提供されるスマートスピーカーの再生方法を実施するためのプロセスを示す図である。 本出願の実施例によって提供されるスマートスピーカーの再生装置の模式図である。 本出願の実施例によって提供されるスマートスピーカーの模式図である。 本出願の実施例によって提供されるスマートスピーカーの使用例を示す図である。
以下の説明では、本出願の実施例を完全に理解するために提供される特定のシステム構造、技術などの詳細は、単なる例示に過ぎず、本出願を制限するものではない。しかしながら、当業者には、これらの具体的な詳細なしに他の実施例においても本出願を実施できることが明らかであろう。その他の場合、本出願の説明を妨害しないために、周知のシステム、装置、回路および方法の詳細は省略する。
本出願に記載の技術的解決手段を説明するために、以下では具体的な実施例を通じて説明する。
なお、本明細書および特許請求の範囲において使用されるとき、「含む」という用語は記載される特徴、全体、ステップ、操作、要素および/または構成要素の存在を指示するものであるが、1つ以上の他の特徴、全体、ステップ、操作、要素、構成要素および/またはそれらの集合の存在または追加は排除されない。
また、本出願の明細書中で使用される用語は、本出願を限定することを意図するものではなく、特定の実施例を説明することを目的とするものに過ぎない。本発明の明細書および特許請求の範囲において使用されるように、文脈上明らかにそうでないことを示さない限り、単数形の「1」、「1つ」および「当該」は複数形を含むことが意図される。
さらに、本出願の明細書および特許請求の範囲において使用される「および/または」という用語は、関連する列挙された項目のうちの1つ以上の任意の組み合わせおよび全ての可能な組み合わせを意味し、そしてこれらの組み合わせも含まれる。
本明細書および特許請求の範囲において使用されるように、用語「の場合」という用語は、文脈に応じて「のとき」、「すると」、「決定に応じて」または「検出に応じて」と解釈され得る。同様に、「決定された場合」または「[記載された条件または事象]が検出された場合」という語句は、文脈に応じて「決定すると」、「決定に応じて」、「[記載された条件または事象]が検出されると」、または「[記載された条件または事象]が検出されたことに応じて」を意味すると解釈され得る。
本出願の実施例1によって提供されるスマートスピーカーの再生方法を以下に説明し、図面1を参照し、本出願の実施例1に係るスマートスピーカーの再生方法は、ステップS101~ステップS103を含む。
ステップS101、ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御する。
スマートスピーカーの主な機能は、様々なヒューマンコンピュータインタラクション機能ではなく、やはり音声再生であるが、現在のスマートスピーカーの製品アップグレードは、ヒューマンコンピュータインタラクション機能を中心として行われており、スピーカーの知能化を利用して音声の再生効果を高める方法を考慮していない。
そこで、本実施例は、スマートスピーカーの再生方法を提供し、スマートスピーカーの各ラウドスピーカーから出力される実際の放送振幅と実際の放送位相を調整して、スピーカーの再生音声をユーザーのいる方向に集束させて伝搬するようにすることで、同じ出力電力でも、より質の高い、より強いエネルギーのある音を聴くことができる。
各ラウドスピーカーの出力を調整する前に、まずユーザーの方位角を取得する必要があり、スマートスピーカーでは、指定された方向を基準方向とし、基準方向を0度とすることで、ユーザーの方位角を決定することができる。
ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御することができ、例えば、各ラウドスピーカーが初期放送周波数、同じ放送振幅および同じ放送位相で音声信号を出力するように制御し、各ラウドスピーカーで音声信号が均一に出力されるように制御することができる。
ステップS102、ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、前記ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの前記初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出する。
ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出する。
ステップS103、各前記ラウドスピーカーが対応する前記初期放送周波数、前記実際の放送振幅および前記実際の放送位相で音声信号を出力するように制御する。
各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出した後、各ラウドスピーカーが対応する初期放送周波数、実際の放送振幅および実際の放送位相で音声信号を出力するように制御することで、音声をユーザーのいる方向に集束させて伝搬するようにすることができ、例えば、スマートスピーカーの放送構造は、図4に示すように、複数のラウドスピーカーでラウドスピーカーアレイを構成し、各ラウドスピーカーは同じまたは異なるラウドスピーカーであってよく、各ラウドスピーカーは環状アレイの形態で設定され、つまり、各ラウドスピーカーは同一円周上に等間隔で配置され、ラウドスピーカーの環状アレイの上方または下方にウーファーユニットが設定され、音声の低周波部分がウーファーユニットによって出力され、他の周波数帯の音声がラウドスピーカーの環状アレイによって指向的に集束して出力され、各ラウドスピーカーに対応する実際の放送振幅および実際の放送位相が算出された場合、各ラウドスピーカーが対応する初期放送周波数、実際の放送振幅および実際の放送位相で音声信号を出力するように、各ラウドスピーカーのフィルターのパラメータを調整し、これにより、ラウドスピーカーから出力される音声がユーザーのいる方向に集束し、他の方向から出力される音のエネルギーが減衰する。
本実施例に係るスマートスピーカーの再生方法では、音声エネルギー収束アルゴリズム、ユーザーの方位角、各ラウドスピーカーの放送角度および初期放送周波数を用いて、各ラウドスピーカーの出力を算出および調整することで、再生した音声をユーザーのいる方向に集束して伝搬させることができ、同じ出力電力でも、より質の高い、より強いエネルギーのある音を放送することができ、それによって、既存のスマートスピーカーにおける、スマートスピーカーにいかに多くの機能を追加するかに重点が置かれており、スマートスピーカーの音響再生機能にあまり注目されておらず、スピーカーが知能化されるにもかかわらず、スマートスピーカーの音響再生効果が向上できなかったという課題が解決された。
さらに、前記ユーザーの方位角は、以下の方法によって得られる。
A1、マイクアレイにおける各マイクの位置と、各前記マイクで受信したユーザーの音声の振幅値を用いて、前記ユーザーの方位角を算出する。
マイクアレイを介してユーザーの方位角を取得することができ、スマートスピーカーがマイクアレイを介してユーザーの音声を受信した際に、マイクアレイにおける各マイクの位置と、各前記マイクで受信したユーザーの音声の振幅値を用いて、前記ユーザーの方位角を算出することができ、例えば、図4に示すように、ユーザーuserが入室して「音楽を再生して」と言うと、スマートスピーカーはマイクアレイを通じてユーザーの音声を受信し、受信した音声の意味認識を行って音楽を再生するだけでなく、マイクアレイにおける各マイクで受信したユーザーの音声の振幅値に応じて、ユーザーの方位角の角度検出を行うこともでき、各マイクの位置が異なるため、各マイクで受信したユーザーの音声の振幅値も異なり、各マイクで受信したユーザーの音声の振幅値を処理および分析することで、ユーザーの方位角を得ることができる。
および/または、前記ユーザーの方位角は、以下の方法によって得られる。
B1、カメラの撮影画面をリアルタイムに監視し、前記カメラの撮影画面にユーザーの画像が検出された場合、前記カメラの撮影角度と、前記カメラの撮影画面における前記ユーザーの画像の位置とに基づいて、前記ユーザーの方位角を算出する。
マイクアレイによってユーザーの方位角を取得できる以外、カメラでユーザーの方位角を取得し、カメラの撮影画面をリアルタイムに監視することも可能であり、画面内にユーザーの画像が表示されている場合、カメラの撮影角度と、カメラの撮影画面におけるユーザーの画像の位置とに基づいて、ユーザーの方位角を算出することができ、例えば、カメラとして、撮影角度が120度の広角カメラを使用し、撮影画面の左端を基準方向とし、角度を0度とした場合、撮影画面の中央にユーザーの画像が表示される時、ユーザーの方位角が60度となる。
実際の応用中、マイクアレイやカメラ以外の他の手段でユーザーの方位角を取得してもよく、上記手段は、ユーザーの方位角を取得する手段を限定するものではなく、いくつかの例に過ぎない。
さらに、前記音声エネルギー収束アルゴリズムは、具体的には、近接解法、直接解法またはエネルギー差最大化解法である。
音声エネルギー収束アルゴリズムは、実情に応じて近接解法、直接解法またはエネルギー差最大化解法の中から選ぶことができ、近接解法は次のように表すことができる。
Figure 2022512486000002
ここで、ZBは、明領域の音声伝達関数で構成される行列であり、ZDは、暗領域の音声伝達関数で構成される行列であり、λ1は、行列式を構成する特徴値であり、λ2とIは、行列を解く際の悪条件性問題を回避するための調整パラメータであり、Hは行列の擬似逆行列を表し、qはラウドスピーカーの出力ベクトルであり、ベクトル内の要素数はラウドスピーカーの数である。
直接解法は次のように表される:
Figure 2022512486000003

エネルギー差最大化解法は次のように表される:
Figure 2022512486000004

ここで、αは、明領域と暗領域のエネルギー差を算出するために導入された演算子である。
本実施例1によって提供されるスマートスピーカーの再生方法では、音声エネルギー収束アルゴリズム、ユーザーの方位角、各ラウドスピーカーの放送角度および初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出し、各ラウドスピーカーが対応する初期放送周波数、実際の放送振幅および実際の放送位相で音声信号を出力するように制御することで、同じ音声を指向的に集束させて出力することができ、同じ出力電力でも、より質の高い、より強いエネルギーのある音を出力することができ、それによって、既存のスマートスピーカーにおける、スマートスピーカーにいかに多くの機能を追加するかに重点が置かれており、スマートスピーカーの音響再生機能にあまり注目されておらず、スピーカーが知能化されるにもかかわらず、スマートスピーカーの音響再生効果が向上できなかったという課題が解決された。
ユーザーの方位角は、マイクアレイにおける各マイクの位置と、各マイクで受信したユーザーの音声の振幅値に基づいて算出してもよく、カメラの撮影角度と、撮影画面におけるユーザーの画像の位置とに基づいて算出してもよい。
音声エネルギー収束アルゴリズムは、実情に応じて近接解法、直接解法やエネルギー差最大化解法などの音声エネルギー収束アルゴリズムのうちの1つを選ぶことができる。
上記実施例における各ステップの番号は実行順序を意味するものではなく、各プロセスの実行順序はその機能および内部ロジックによって決定され、本発明の実施例の実施プロセスを限定するものではないことを理解すべきである。
本出願の実施例2は、スマートスピーカーの再生装置を提供し、説明の便宜上、本出願に関連する部分のみが示され、図2に示すように、スマートスピーカーの再生装置は、
ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御するための初期再生モジュール201と、
ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、前記ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの前記初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出するための理論計算モジュール202と、
各前記ラウドスピーカーが対応する前記初期放送周波数、前記実際の放送振幅および前記実際の放送位相で音声信号を出力するように制御するための音声指向性モジュール203と、を含む。
さらに、前記装置は、
マイクアレイにおける各マイクの位置と、各前記マイクで受信したユーザーの音声の振幅値とに基づいて、前記ユーザーの方位角を算出するためのマイク位置決めモジュール、をさらに含む。
および/または、前記装置は、
カメラの撮影画面をリアルタイムに監視し、前記カメラの撮影画面にユーザーの画像が検出された場合、前記カメラの撮影角度と、前記カメラの撮影画面における前記ユーザーの画像の位置とに基づいて、前記ユーザーの方位角を算出するためのカメラ位置決めモジュール、をさらに含む。
さらに、前記音声エネルギー収束アルゴリズムは、具体的には、近接解法、直接解法またはエネルギー差最大化解法である。
なお、上記装置/ユニット間の情報のやりとりや実行プロセスなどは、本出願の方法実施例と同じ考えに基づいているため、その具体的な機能やもたらされる技術的効果は、方法実施例の部分を参照することができ、ここでは繰り返して説明しない。
図3は、本出願の実施例3によって提供されるスマートスピーカーの模式図である。図3に示すように、当該実施例のスマートスピーカー3は、プロセッサー30と、メモリ31と、前記メモリ31に記憶され、前記プロセッサー30上で実行可能なコンピュータプログラム32を備える。前記プロセッサー30は、前記コンピュータプログラム32を実行するときに、上記スマートスピーカーの再生方法の実施例におけるステップ、例えば、図1に示すステップS101~S103を実現する。または、前記プロセッサー30は、前記コンピュータプログラム32を実行するときに、上記各装置の実施例における各モジュール/ユニットの機能、例えば、図2に示すモジュール201~203の機能を実現する。
例示的に、前記コンピュータプログラム32は、1つ以上のモジュール/ユニットに分割されてもよく、前記1つ以上のモジュール/ユニットは、前記メモリ31に格納され、かつ前記プロセッサー30によって実行され、このように本出願に至った。前記1つ以上のモジュール/ユニットは、具体的な機能を実行できる一連のコンピュータプログラムの命令セグメントであってもよく、この命令セグメントは、前記スマートスピーカー3における前記コンピュータプログラム32の実行プロセスを記述するために使用される。例えば、前記コンピュータプログラム32は、初期再生モジュール、理論計算モジュールおよび音声指向性モジュールに分割されてもよく、各モジュールの具体的な機能は以下のとおりである。
初期再生モジュールは、ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御するために使用され、
理論計算モジュールは、ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、前記ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの前記初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出するために使用され、
音声指向性モジュールは、各前記ラウドスピーカーが対応する前記初期放送周波数、前記実際の放送振幅および前記実際の放送位相で音声信号を出力するように制御するために使用される。
前記スマートスピーカーは、プロセッサー30、メモリ31を備えてもよいが、これらに限定されない。当業者であれば、図3はスマートスピーカー3の一例に過ぎず、スマートスピーカー3を限定するものではなく、図示よりも多くの部品またはより少ない部品を含み、または一部の部品若しくは異なる部品を組合せてもよく、例えば前記スマートスピーカーはさらに出入力装置、ネットワークアクセス装置やバスなどを含んでもよいことは理解可能である。
前記プロセッサー30は中央処理装置(Central Processing Unit,CPU)であってもよいし、他の汎用のプロセッサー、デジタル信号プロセッサー(Digital Signal Processor,DSP)、特定用途向け集積回路(Application Specific Integrated Circuit,ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array,FPGA)または他のプログラマブルロジックデバイス、ディスクリートゲートやトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。汎用のプロセッサーはマイクロプロセッサー、または任意の従来のプロセッサーなどであってもよい。
前記メモリ31は、例えば、スマートスピーカー3のハードディスクまたはメモリなど、前記スマートスピーカー3の内部記憶部であってもよい。前記メモリ31は、例えば、前記スマートスピーカー3に搭載されたプラグインハードディスク、スマートメモリカード(Smart Media Card, SMC)、セキュアデジタル(Secure Digital, SD)カード、フラッシュカード(Flash Card)など、前記スマートスピーカー3の外部記憶装置であってもよい。さらに、前記メモリ31はさらに、前記スマートスピーカー3の内部記憶部と外部記憶装置の両方を備えてもよい。前記メモリ31は、前記コンピュータプログラムおよび前記スマートスピーカーに必要な他のプログラムおよびデータを記憶するために用いられる。前記メモリ31はさらに、出力されたデータまたは出力しようとするデータを一時的に記憶するために用いることができる。
当業者であれば、説明を容易および簡潔にするために、上記の各機能ユニット、モジュールの分割のみが例示されているが、実際の応用で、必要に応じて上記機能の割り当ては異なる機能ユニット、モジュールによって完成され得て、即ち前記装置の内部構造を異なる機能ユニットやモジュールに分割して上述機能の全部または一部を実現することは明確に理解できるであろう。実施例における各機能ユニット、モジュールは1つの処理ユニットに統合されていてもよく、物理的に別々に存在していてもよく、さらに、2つ以上のユニットが1つのユニットに統合されてもよいが、上記統合ユニットは、ハードウェアの形態またはソフトウェア機能ユニットの形態で実現可能である。また、各機能ユニット、モジュールの具体的な名称は、互いに区別することのみを目的とし、本出願の保護範囲を制限するものではない。上記のシステムにおけるユニット、モジュールの具体的な作業プロセスについては、前記の方法実施例における対応するプロセスを参照することができ、ここで再度の説明を省略する。
前記の実施例において、各実施例についての説明はそれぞれ重要点があり、ある実施例で詳細に記述または記載しない部分は、他の実施例の関連記述を参照することができる。
本明細書で開示される実施例で説明された様々な例のユニットおよびアルゴリズムステップの結合は、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアの組合せによって実現できることは、当業者が意識できる。これらの機能がハードウェアとソフトウェアのどちらの形態で実行されるかは、技術的解決手段の具体的な応用および設計上の制約条件によるものである。当業者であれば、ぞれぞれの具体的な応用に対して異なる方法を利用して記述される機能を実現することができるが、これらの実現は本出願の範囲内になされたものではないと考えられるべきではない。
本出願によって提供される実施例において、開示された装置/スマートスピーカーおよび方法は、他の方法で実施され得ることを理解すべきである。例えば、以上説明された装置/スマートスピーカーの実施例は例示に過ぎず、例えば、前記モジュールまたはユニットの分割は、論理的な機能の分割にすぎず、実際の実施では、例えば複数のユニットまたはコンポーネントを組み合わせたり、別のシステムに統合したり、一部の特徴を無視したり、実行したりしないなど、他の分割方法も採用できる。一方、図示または説明した相互結合または直接結合または通信接続は、いくつかのインターフェースを介した装置またはユニットの間接結合または通信接続であってもよく、電気的、機械的または他の形態を採用してなったものであってもよい。
前記の分離部品として記載されたユニットは物理的に分離されてもよいし、物理的に分離されなくてもよいが、ユニットとして表示された部品は物理的ユニットであってもなくてもよいが、つまり、1つの場所に配置することも、複数のネットワークユニットに分散することもできる。本実施例の解決的手段を達成するために、実際の必要に応じてユニットの一部または全部を選択することができる。
また、本出願の各実施例における各機能ユニットは、1つの処理ユニットに統合されていてもよいし、物理的に別々に存在していてもよいし、さらに、2つまたは2つ以上のユニットが1つのユニットに統合されてもよい。上記統合ユニットは、ハードウェアの形態またはソフトウェア機能ユニットの形態で実現可能である。
前記の統合モジュール/ユニットは、ソフトウェア機能ユニットの形態で実現されて独立の製品として販売または使用される場合、コンピュータの読み取り可能な記憶媒体に記憶することができる。このような理解に基づいて、本出願は上記実施例の方法におけるフローの全部または一部を実現し、関連するハードウェアにコマンドを出すためのコンピュータプログラムによって実現されてもよく、前記のコンピュータプログラムはコンピュータ読み取り可能な記憶媒体に記憶することができ、当該コンピュータプログラムはプロセッサーによって実行されるとき、前記の各方法実施例のステップを実現することができる。ここで、前記コンピュータプログラムはコンピュータプログラムコードを含み、前記コンピュータプログラムコードはソースコード形式、オブジェクトコード形式、実行ファイルまたは何らかの中間形式などの形式であってよい。前記コンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラムコードを運ぶ可能な任意のエンティティまたは装置、記録媒体、USBメモリ、移動ハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、読み出し専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、電気キャリア信号、電気通信信号およびソフトウェア配布媒体などを含む。なお、前記コンピュータ読み取り可能な記憶媒体に含まれるコンテンツは、司法管轄区域内の法律および特許実務の要件に従って適切に増減することができ、例えばいくつかの司法管轄区域では、法律および特許実務によって、コンピュータ読み取り可能な記憶媒体には電気キャリア信号および電気通信信号が含まれない。
上述した実施例は本出願の技術的解決手段を説明するためのものであり、これに限定されるものではない。前記の実施例を参照しながら本出願を詳細に説明したが、当業者であれば、前記の各実施例に記載された技術的解決手段を変更し、またはその技術特徴の一部を等価的に置き換えることができ、これらの変更や置き換えは、対応する技術的解決手段の本質を本出願の各実施例の技術的解決手段の要旨および範囲から逸脱することなく、本出願の保護の範囲内に含まれると理解すべきである。


Claims (10)

  1. ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御することと、
    ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、前記ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの前記初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出することと、
    各前記ラウドスピーカーが対応する前記初期放送周波数、前記実際の放送振幅および前記実際の放送位相で音声信号を出力するように制御することとを含むことを特徴とする、スマートスピーカーの再生方法。
  2. 前記ユーザーの方位角は、
    マイクアレイにおける各マイクの位置と、各前記マイクで受信したユーザーの音声の振幅値を用いて、前記ユーザーの方位角を算出することによって得られることを特徴とする、請求項1に記載のスマートスピーカーの再生方法。
  3. 前記ユーザーの方位角は、
    カメラの撮影画面をリアルタイムに監視し、前記カメラの撮影画面にユーザーの画像が検出された場合、前記カメラの撮影角度と、前記カメラの撮影画面における前記ユーザーの画像の位置とに基づいて、前記ユーザーの方位角を算出することによって得られることを特徴とする、請求項1に記載のスマートスピーカーの再生方法。
  4. 前記音声エネルギー収束アルゴリズムは、具体的には、近接解法、直接解法またはエネルギー差最大化解法であることを特徴とする、請求項1に記載のスマートスピーカーの再生方法。
  5. ユーザーの方位角が取得されていない場合、各ラウドスピーカーが対応する初期放送周波数、初期放送振幅および初期放送位相で音声信号を出力するように制御するための初期再生モジュールと、
    ユーザーの方位角が取得された場合、音声エネルギー収束アルゴリズム、前記ユーザーの方位角、各ラウドスピーカーの放送角度および各ラウドスピーカーの前記初期放送周波数を用いて、各ラウドスピーカーの実際の放送振幅および実際の放送位相を算出するための理論計算モジュールと、
    各前記ラウドスピーカーが対応する前記初期放送周波数、前記実際の放送振幅および前記実際の放送位相で音声信号を出力するように制御するための音声指向性モジュールとを含むことを特徴とする、スマートスピーカーの再生装置。
  6. 前記装置は、
    マイクアレイにおける各マイクの位置と、各前記マイクで受信したユーザーの音声の振幅値とに基づいて、前記ユーザーの方位角を算出するためのマイク位置決めモジュールをさらに含むことを特徴とする、請求項5に記載のスマートスピーカーの再生装置。
  7. 前記装置は、
    カメラの撮影画面をリアルタイムに監視し、前記カメラの撮影画面にユーザーの画像が検出された場合、前記カメラの撮影角度と、前記カメラの撮影画面における前記ユーザーの画像の位置とに基づいて、前記ユーザーの方位角を算出するためのカメラ位置決めモジュールをさらに含むことを特徴とする、請求項5に記載のスマートスピーカーの再生装置。
  8. 前記音声エネルギー収束アルゴリズムは、具体的には、近接解法、直接解法またはエネルギー差最大化解法であることを特徴とする、請求項5に記載のスマートスピーカーの再生装置。
  9. メモリと、プロセッサーと、前記メモリに記憶され、前記プロセッサー上で実行可能なコンピュータプログラムとを備えるスマートスピーカーであって、前記プロセッサーは、前記コンピュータプログラムを実行するときに、請求項1~4のいずれか一項に記載の方法のステップを実現することを特徴とする、スマートスピーカー。
  10. コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサーによって実行されるときに、請求項1~4のいずれか一項に記載の方法のステップを実現することを特徴とする、コンピュータ読み取り可能な記憶媒体。


JP2021533667A 2018-12-12 2019-09-25 スマートスピーカーの再生方法、装置およびスマートスピーカー Active JP7270739B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811523871.6A CN111314821A (zh) 2018-12-12 2018-12-12 一种智能音箱播放方法、装置及智能音箱
CN201811523871.6 2018-12-12
PCT/CN2019/107877 WO2020119220A1 (zh) 2018-12-12 2019-09-25 一种智能音箱播放方法、装置及智能音箱

Publications (2)

Publication Number Publication Date
JP2022512486A true JP2022512486A (ja) 2022-02-04
JP7270739B2 JP7270739B2 (ja) 2023-05-10

Family

ID=71076733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021533667A Active JP7270739B2 (ja) 2018-12-12 2019-09-25 スマートスピーカーの再生方法、装置およびスマートスピーカー

Country Status (5)

Country Link
US (1) US20220014846A1 (ja)
EP (1) EP3886466A4 (ja)
JP (1) JP7270739B2 (ja)
CN (1) CN111314821A (ja)
WO (1) WO2020119220A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986645A (zh) * 2020-07-30 2020-11-24 深圳金质科技有限公司 高速可控波的聚焦方法、装置及终端设备
CN112351366A (zh) * 2020-10-27 2021-02-09 深圳Tcl新技术有限公司 一种声音播放设备、方法以及存储介质
CN113192446A (zh) * 2021-05-08 2021-07-30 益逻触控***公司 媒体播放装置和自助服务终端
CN116506775B (zh) * 2023-05-22 2023-10-10 广州市声讯电子科技股份有限公司 分布式扬声阵列布置点选择与优化方法及***
CN116866509B (zh) * 2023-07-10 2024-02-23 深圳市创载网络科技有限公司 会议现场画面跟踪方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004004239A (ja) * 2002-05-31 2004-01-08 Nec Corp 音声認識対話装置およびプログラム
JP2004024863A (ja) * 1994-05-13 2004-01-29 Matsushita Electric Ind Co Ltd ***認識装置および発生区間認識装置
JP2010136336A (ja) * 2008-12-03 2010-06-17 Korea Electronics Telecommun 聴取空間基盤の指向性音源制御方法及び装置
JP2016206646A (ja) * 2015-04-24 2016-12-08 パナソニックIpマネジメント株式会社 音声再生方法、音声対話装置及び音声対話プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7760891B2 (en) * 2004-03-16 2010-07-20 Xerox Corporation Focused hypersonic communication
CN101656908A (zh) * 2008-08-19 2010-02-24 深圳华为通信技术有限公司 控制声音聚焦的方法、通讯设备及通讯***
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
US9363597B1 (en) * 2013-08-21 2016-06-07 Turtle Beach Corporation Distance-based audio processing for parametric speaker system
WO2016054090A1 (en) * 2014-09-30 2016-04-07 Nunntawi Dynamics Llc Method to determine loudspeaker change of placement
CN104967953B (zh) * 2015-06-23 2018-10-09 Tcl集团股份有限公司 一种多声道播放方法和***
TW201707471A (zh) * 2015-08-14 2017-02-16 Unity Opto Technology Co Ltd 自動控制指向性喇叭及其燈具
CN106535059B (zh) * 2015-09-14 2018-05-08 ***通信集团公司 重建立体声的方法和音箱及位置信息处理方法和拾音器
US10945068B2 (en) * 2016-06-03 2021-03-09 Huawei Technologies Co., Ltd. Ultrasonic wave-based voice signal transmission system and method
CN106686520B (zh) * 2017-01-03 2019-04-02 南京地平线机器人技术有限公司 能跟踪用户的多声道音响***和包括其的设备
EP4138400A1 (en) * 2017-05-16 2023-02-22 Apple Inc. Methods and interfaces for home media control
US10299039B2 (en) * 2017-06-02 2019-05-21 Apple Inc. Audio adaptation to room
CN207382538U (zh) * 2017-09-29 2018-05-18 深圳市汉普电子技术开发有限公司 定向收音与定向发音装置
KR102469753B1 (ko) * 2017-11-30 2022-11-22 삼성전자주식회사 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004024863A (ja) * 1994-05-13 2004-01-29 Matsushita Electric Ind Co Ltd ***認識装置および発生区間認識装置
JP2004004239A (ja) * 2002-05-31 2004-01-08 Nec Corp 音声認識対話装置およびプログラム
JP2010136336A (ja) * 2008-12-03 2010-06-17 Korea Electronics Telecommun 聴取空間基盤の指向性音源制御方法及び装置
JP2016206646A (ja) * 2015-04-24 2016-12-08 パナソニックIpマネジメント株式会社 音声再生方法、音声対話装置及び音声対話プログラム

Also Published As

Publication number Publication date
EP3886466A4 (en) 2022-09-07
US20220014846A1 (en) 2022-01-13
WO2020119220A1 (zh) 2020-06-18
JP7270739B2 (ja) 2023-05-10
CN111314821A (zh) 2020-06-19
EP3886466A1 (en) 2021-09-29

Similar Documents

Publication Publication Date Title
JP2022512486A (ja) スマートスピーカーの再生方法、装置およびスマートスピーカー
CN103026735B (zh) 用于声学图像空间的经增强产生的***、方法和设备
JP6051505B2 (ja) 音声処理装置および音声処理方法、記録媒体、並びにプログラム
WO2016131266A1 (zh) 一种调整耳机声场的方法、装置、终端及耳机
JP6785907B2 (ja) ワイヤレススピーカの配置方法、ワイヤレススピーカ及び端末装置
CA2917376C (en) Audio processor for orientation-dependent processing
CN104238990B (zh) 一种电子设备及音频输出方法
WO2017158338A1 (en) Sound reproduction system
US20240015438A1 (en) Managing low frequencies of an output signal
CN114363512A (zh) 一种视频处理的方法及相关电子设备
WO2020256612A1 (en) Bass management in audio systems
US20200037057A1 (en) Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
CN107404587B (zh) 音频播放控制方法、音频播放控制装置及移动终端
WO2023221607A1 (zh) 声场均衡调整方法、装置、设备和计算机可读存储介质
US20200037056A1 (en) Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
CN111050270A (zh) 移动终端多声道切换方法、装置、移动终端及存储介质
WO2022237252A1 (zh) 音频信号处理方法、装置及存储介质
US11736889B2 (en) Personalized and integrated virtual studio
EP2997573A1 (en) Spatial object oriented audio apparatus
RU2365030C1 (ru) Способ и прибор для регулирования уровня громкости
US20240080608A1 (en) Perceptual enhancement for binaural audio recording
CN115334414A (zh) 声道切换方法、装置、设备及介质
CN115835120A (zh) 音频信号处理方法、装置、设备及存储介质
WO2020107192A1 (zh) 立体声播放方法、装置、存储介质及电子设备
WO2020073562A1 (zh) 音频处理方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230425

R150 Certificate of patent or registration of utility model

Ref document number: 7270739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150