JP7290749B2 - 音声通話方法並びにその、装置、電子機器及びコンピュータプログラム - Google Patents

音声通話方法並びにその、装置、電子機器及びコンピュータプログラム Download PDF

Info

Publication number
JP7290749B2
JP7290749B2 JP2021558866A JP2021558866A JP7290749B2 JP 7290749 B2 JP7290749 B2 JP 7290749B2 JP 2021558866 A JP2021558866 A JP 2021558866A JP 2021558866 A JP2021558866 A JP 2021558866A JP 7290749 B2 JP7290749 B2 JP 7290749B2
Authority
JP
Japan
Prior art keywords
signal
voice call
audio
time
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021558866A
Other languages
English (en)
Other versions
JP2022528683A (ja
Inventor
岳▲鵬▼ 李
志▲鵬▼ ▲劉▼
睿 朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022528683A publication Critical patent/JP2022528683A/ja
Application granted granted Critical
Publication of JP7290749B2 publication Critical patent/JP7290749B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本出願は、2019年9月24日に国家知識産権局に提出された、出願番号が201910906728.3で、発明の名称が「音声通話方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。
本出願は、コンピュータの技術分野に関し、具体的には、本出願は、音声通話方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。
科学技術の急速な発展に伴い、人々はスマートフォン、スマートウォッチ、タブレットコンピュータなどの端末システムを介して音声通話を行うことができる。通話品質を向上させるために、端末システムの製造元は、集音用のデュアルマイクロホン(Microphone)をデバイスに搭載する。デュアルマイクロホンは2つの対応する音声信号をもたらすため、それにより、対応する音声強化の技術案を設定することができる。
第1の態様によれば、本出願の実施例は、電子機器が実行する音声通話方法を提供し、この方法は、
端末システムの履歴時刻での音声通話状態を取得するステップであって、端末システムに少なくとも2つのオーディオキャプチャ機器が設けられているステップと、
各オーディオキャプチャ機器により現在の時刻にキャプチャされた第1の音声信号を取得し、各第1の音声信号の信号エネルギーをそれぞれ決定するステップと、
履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定するステップとを含む。
第2の態様によれば、本出願の実施例は、電子機器が実行する音声通話方法を提供し、この方法は、
ユーザによる音声通話トリガー動作を受信するステップと、
音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも2つのオーディオキャプチャ機器を起動させるステップと、
音声通話の初期時刻に対して、事前設定情報に対応する少なくとも2つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、初期時刻での音声通話状態を決定するステップと、
音声通話の初期時刻以外の現在の時刻に対して、第1の態様または第1の態様のいずれかの実施例に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うステップとを含む。
第3の態様によれば、本出願の実施例は、音声通話装置を提供し、この装置は、
端末システムの履歴時刻での音声通話状態を取得するための通話状態取得モジュールであって、端末システムに少なくとも2つのオーディオキャプチャ機器が設けられている通話状態取得モジュールと、
各オーディオキャプチャ機器により現在の時刻にキャプチャされた第1の音声信号を取得し、各第1の音声信号の信号エネルギーをそれぞれ決定するための信号エネルギー取得モジュールと、
履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を決定するためのターゲットオーディオキャプチャ機器決定モジュールとを含む。
第4の態様によれば、本出願の実施例は、音声通話装置を提供し、この装置は、
ユーザによる音声通話トリガー動作を受信するためのトリガー動作受信モジュールと、
音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも2つのオーディオキャプチャ機器を起動させるための機器起動モジュールと、
音声通話の初期時刻に対して、事前設定情報に対応する少なくとも2つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、初期時刻での音声通話状態を決定するための初期決定モジュールと、
音声通話の初期時刻以外の現在の時刻に対して、第1の態様または第1の態様のいずれかの実施例に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うための音声通話モジュールとを含む。
第5の態様によれば、本出願の実施例は、電子機器を提供し、この電子機器は、メモリ、プロセッサ、オーディオ再生機器及び少なくとも2つのオーディオキャプチャ機器を含み、
オーディオ再生機器は、音声信号を再生するためのものであり、
少なくとも2つのオーディオキャプチャ機器は、音声信号をキャプチャするためのものであり、
メモリにコンピュータプログラムが記憶されており、
プロセッサは、コンピュータプログラムを実行することで、第1の態様または第2の者面に係る方法を実現するためのものである。
第6の態様によれば、本出願の実施例は、コンピュータ読み取り可能な記憶媒体であって、プロセッサによって実行されると、第1の態様または第2の態様に係る方法を実現するコンピュータプログラムが記憶されている、ことを特徴とするコンピュータ読み取り可能な記憶媒体を提供する。
本出願の実施形態における技術的解決策をより明確に説明するために、以下、本出願の実施形態の説明において使用すべき図面を簡単に説明する。
携帯電話端末の構造模式図である。 本出願の実施例に係る音声通話方法のフローチャートである。 本出願の実施例の一例における音声通話の実現フローチャートである。 本出願の実施例の一例における通話状態推定及びマイクロホン選択の実現フローチャートである。 本出願の実施例の一例におけるターゲットマイクロホンの選択結果の模式図である。 本出願の実施例に係る音声通話方法のフローチャートである。 本出願の一例におけるアプリケーションシーンの模式図である。 本出願の実施例に係る音声通話装置の構造ブロック図である。 本出願の実施例に係る音声通話装置の構造ブロック図である。 本出願の実施例に係る電子機器の構造模式図である。
以下、本出願の実施例について詳細に説明し、前記実施例の例は、図面に示され、常に同一または類似する符号は、同一または類似する素子または同一または類似機能を有する素子を表す。以下、図面を参照して説明された実施例は、例示的なものであり、本出願を解釈するためのものに過ぎず、本発明に対する限定として解釈すべきではない。
当業者であれば理解できるように、ここで使用される単数形式「1」、「1つ」、「前記」及び「この」は、明確に説明されない限り、複数形もまた含むことが意図される。本出願の明細書で使用される用語の「含む」は、前記特徴、整数、ステップ、動作、素子及び/またはユニットの存在を指定するが、1つ以上の他の特徴、整数、ステップ、動作、素子、ユニット及び/またはそれらのグループの存在または追加を除外しないことが更に理解されるであろう。要素が別の要素に「接続されている」または「結合されている」として言及される場合は、他の要素に直接接続、または結合されていてもよく、或は介在する要素が存在してもよいことを理解されるであろう。また、ここで用いられる「接続される」または「結合される」は、無線接続されるまたは無線結合されること、を含むことがさらに理解されるであろう。ここで用いられる「及び/または」という用語は、1つ以上のリストされた項目のすべてまたはいずれかのユニット及び全ての組み合わせを含む。
本出願の目的、技術案及び利点をより明瞭にするために、以下、図面を組み合わせて本出願の実施の形態についてさらに詳細に説明する。
先ず、本出願に係る複数の名詞について説明して解釈する。
近端とは、音声通話中の通信ネットワークにおけるローカル端である。
遠端とは、音声通話中の通信ネットワークにおける相手端である。
近端機器とは、音声通話中の近端での発話者が用いた通話機器であり、近端機器に、オーディオキャプチャ機器(例えばマイクロホン)及びオーディオ再生機器(例えばスピーカ、受話器)が設けられている。
遠端機器とは、音声通話中の遠端での発話者が用いた通話機器であり、遠端機器に、オーディオキャプチャ機器(例えばマイクロホン)及びオーディオ再生機器(例えばスピーカ、受話器)が設けられている。
近端音声信号とは、音声通話中に、近端の発話者が話し、近端機器のオーディオキャプチャ機器がキャプチャした音声信号である。
遠端音声信号とは、音声通話中に、遠端の発話者が話し、遠端機器のオーディオキャプチャ機器がキャプチャした後、通信ネットワークを介して近端機器に伝送した音声信号である。
エコー信号とは、音声通話中に、近端機器のオーディオ再生機器が遠端音声信号を再生した後、近端機器のオーディオキャプチャ機器がキャプチャした音声信号である。
エコーキャンセレーションとは、近端機器のオーディオキャプチャ機器からキャプチャされた音声信号からエコー信号をフィルタリングする処理プロセスである。
遠端シングルトークとは、音声通話中に、遠端音声信号が存在し、且つ近端音声信号が存在しない場合の通話状態である。
近端シングルトークとは、音声通話中に、遠端音声信号が存在せず、且つ近端音声信号が存在する場合の通話状態である。
両端ダブルトークとは、音声通話中に、遠端音声信号が存在し、且つ近端音声信号が存在する場合の通話状態である。
ノートークとは、音声通話中に、遠端音声信号が存在せず、且つ近端音声信号が存在しない場合の通話状態である。
デュアルマイクロホン端末システムを有する通話システムでは、通常、信号振幅が大きい一方のマイクロホン信号を以後の使用の入力とし、この選択技術案は、近端音声が存在する場合しか、音声を効果的に強化する効果を果たすことができず、次に強い遠端音声が存在するシーンでは、2つのマイクロホンがいずれも非常に強いエコーをキャプチャし、信号振幅が大きい一方のマイクロホン信号を選択すると、エコーが大きい一方のマイクロホン信号を選択してしまう可能性があり、音声強化が望まれる効果を実現できず、さらに、音声通話品質を低減させる。
音声通話を行っている2つの機器をA、Bとし、機器Aのユーザa、すなわち、このユーザaの角度から、機器Aが近端機器であり、Bが対応する遠端機器すなわち相手端機器である。同様に、機器Bのユーザbにとって、機器Bが近端機器であり、機器Aが対応する遠端機器である。
以下、近端機器が機器Aであることを例として説明し、Aが近端機器である場合、Aのオーディオキャプチャ機器がキャプチャしたローカル発話者すなわちユーザaの音声信号は、近端音声信号であり、BによりAに送信された音声信号(相手端の発話者すなわちユーザbが話すことで生じた音声信号)は、遠端音声信号であり、Aにおけるオーディオ再生機器が遠端音声信号を再生した後、Aにおけるオーディオキャプチャ機器がキャプチャした音声信号は、エコー信号であり、Aのオーディオキャプチャ機器がキャプチャした音声信号中のエコー信号を削除するプロセスは、エコーキャンセレーションである。機器Aのユーザaと機器Bのユーザbとが音声通話を行っているとき、機器Aにとっては、Bにより送信された遠端音声信号(ユーザbが話している)を受信し、且つAのオーディオキャプチャ機器がキャプチャした音声信号のうち、近端音声信号がない(ユーザaが話していない)場合の通話状態は、遠端シングルトークであり、ユーザbが話さず、ユーザaのみ話している場合の通話状態は、近端シングルトークであり、ユーザa及びユーザbがいずれも話している場合の通話状態は、両端ダブルトークであり、ユーザa及びユーザbがいずれも話していない場合の通話状態は、ノートークである。
2つのオーディオキャプチャ機器を有する端末システムの通話システムでは、音声を強化するために、デュアルマイクロホンのうち1つのマイクロホンを入力マイクロホンとして選択する必要がある。関連技術で用いられた入力マイクロホンの選択技術案は、一般に、以下の2つある。
1つとしては、マイクロホンがキャプチャした音声信号の信号振幅に基づいて入力マイクロホンを選択し、2つのマイクロホンのうち、キャプチャした音声信号の信号振幅が高いマイクロホンを入力マイクロホンとして選択し、すなわち、以後の音声強化処理のために、信号振幅が最大の音声信号を入力音声信号とする。しかし、音声通話に強い遠端音声信号が存在する場合、2つのマイクロホンがキャプチャした音声信号にいずれも、強いエコーが存在し、選択した信号振幅が大きいマイクロホンは、エコーが大きいマイクロホンである可能性があるため、エコーが漏洩し、音声通話品質が低減してしまう。
もう1つとしては、端末システムの通話シーンに応じて入力マイクロホンを選択し、デュアルマイクロホン端末システムを例とし、図1は、通常の携帯電話のオーディオキャプチャ機器及びオーディオ再生機器の構造模式図を示し、図1に示すように、この携帯電話には、端末システムのスクリーンの上方にあるトップマイクロホン(トップマイクと略称)201、スクリーンの下方にあるボトムマイクロホン(ボトムマイクと略称)202、スクリーンのトップにある受話器203、及び、スクリーンの底部にあるスピーカ204が設けられている。
ハンズフリーシーンでは、携帯電話の底部にあるスピーカ204が遠端音声信号を再生し、マイクロホンがキャプチャしてエコーを形成する。ボトムマイク202がスピーカに近いため、キャプチャしたエコーが大きい一方が、近端に話している人が携帯電話から離れており、2つのマイクロホンがキャプチャした近端にある人の声のエネルギーがほぼ同じであり、この場合、トップマイクがキャプチャした信号は、以後の処理のための最適な入力選択である。
手持ちシーンでは、携帯電話の上方にある受話器203が遠端音声信号を再生し、近端の発話者が携帯電話を持ってスクリーンの下方に近接して話し、この場合、ボトムマイク202がキャプチャした近端音声信号が大きいが、トップマイク201がキャプチャしたエコーが大きく、この場合、ボトムマイクがキャプチャした信号は、以後の処理のための最適な選択である。
つまり、手持ちシーンではボトムマイクを選択し、ハンズフリーシーンではトップマイクを選択することは、合理的な選択である。しかし、実際の通話シーンは、より複雑であり、ハンズフリーシーンでも、ユーザは、口がボトムマイク202に接近することがあり、この場合、トップマイク201を選択すると、近端音声信号を効果的に取得することができない。オーディオ再生機器の種類が異なり、キャプチャ機器の種類が多く、マイクロホンの配置位置がさまざまであるほか、ダブルスピーカを備えたステレオ再生携帯電話もあり、これらにより、マイクロホンの選択とシーンシンプルとを簡単に関連づけることができなくなる。従って、シーンに応じてマイクロホンを選択する技術案は、適用範囲が狭く、選択したマイクロホンが合理的であることを確保できない。
従来の音声通話技術案に存在する以上の技術課題に対して、本出願の実施例は、音声通話方法を提供し、この方法は、別の合理的なオーディオキャプチャ機器の選択方式を提供し、音声通話効果を効果的に向上できる。
以下、具体的な実施例を通して、本出願の技術案及び本出願の技術案が如何に上記技術課題を解決するかについて、詳細に説明する。以下の複数の具体的な実施例は、互いに組み合わせることができ、同一または類似する概念またはプロセスは、一部の実施例で繰り返し説明されない。以下、図面を参照し、本出願の実施例について説明する。
図2は、本出願の実施例に係る音声通話方法のフローチャートであり、この方法は、具体的には、端末システムまたはサーバなどの電子機器により実行されてもよく、図1に示すように、この方法は、ステップS101~ステップS103を含んでもよい。
ステップS101において、端末システムの履歴時刻での音声通話状態を取得し、端末システムに少なくとも2つのオーディオキャプチャ機器が設けられている。
なお、端末システムは、オーディオ再生機器、オーディオキャプチャ機器及びプロセッサなどのデバイスが集積された端末機器であり得、この端末機器の具体的な種類については、音声通話ができる機器である限り、本出願の実施例で限定しない。携帯電話、PADなどを含むが、これらに限られない。端末システムは、互い独立したオーディオ再生機器、オーディオキャプチャ機器及びプロセッサからなる音声通話システムであってもよく、例えば、端末システムは、ビデオ会議システムであってもよく、ビデオ会議システムは、複数のオーディオキャプチャ機器(例えば、マイクロホン)、1つまたは複数のオーディオ再生機器(例えば、スピーカ)、及び、プロセッサを含み、オーディオキャプチャ機器及びオーディオ再生機器は、ミーティング場所などの実際のニーズに応じて分散して配置されてもよい。
この方法は、端末システムは各デバイスが集積された端末機器である場合、端末機器に集積されたプロセッサにより実行されてもよいし、この端末機器に対応するサーバにより実行されてもよく、端末システムが互い独立した複数の機器からなる音声通話システムである場合、この端末システムにおけるプロセッサにより実行されてもよいし、この端末システムに対応するサーバにより実行されてもよいことが理解され得る。要するに、この方法は、端末システムまたはサーバなどの電子機器により実行され得る。
この音声通話方法を実行する端末システムにとっては、この端末システムが現在の音声通話の近端機器であり、この端末システムと音声通話を行う相手端機器が遠端機器である。
音声通話中の各時刻は、ターゲットオーディオキャプチャ機器を再決定する時刻と捉える。履歴時刻は、1つまたは複数の時刻を含むことができ、2つの時刻の時間間隔は、実際のニーズに応じて設定されてもよい。例えば、2つの時刻の時間間隔が0.02秒に設定され、現在の時刻が音声通話中の0.20秒目であると、履歴時刻が音声通話中の0.18秒目である。
音声通話状態は、音声通話中の近端音声状況及び遠端音声状況を特徴付けるものであり、いずれかの時刻での近端音声通話状態に応じて、この時刻に近端音声信号及び遠端音声信号が存在するか否かを決定することができる。例えば、音声通話の0.20秒目の音声通話状態が遠端シングルトークであり、すなわち、音声通話の0.20秒目に遠端音声信号が存在するが、近端音声信号が存在しない。
端末システムに設けられたオーディオキャプチャ機器は、マイクロホンであってもよいし、他の種類のオーディオキャプチャ機器であってもよく、少なくとも2つのオーディオキャプチャ機器の具体的な種類、具体的な数、及びオーディオキャプチャ機器の端末システムでの位置については、本出願の実施例では限定しない。例えば、携帯電話の場合、少なくとも2つのオーディオキャプチャ機器は、2つのマイクロホンであってもよく、2つのマイクロホンは、図1に示すデュアルマイクロホンの設置形態のように、それぞれ携帯電話のスクリーンの正面の上方及び下方に設けられてもよく、他の設置形態であってもよく、例えば、スクリーンの裏面に設けられてもよく、本出願の実施例では具体的に限定しない。
ステップS102において、各オーディオキャプチャ機器により現在の時刻にキャプチャされた第1の音声信号を取得し、各第1の音声信号の信号エネルギーをそれぞれ決定する。
第1の音声信号は、近端音声信号、エコー信号及び環境ノイズ信号などを含み得、音声通話中に、エコー信号及び環境ノイズ信号を削除し、近端音声信号を遠端機器に伝送する必要がある。近端機器の各オーディオキャプチャ機器によりキャプチャされた第1の音声信号に含まれる信号種類及び信号エネルギーの大きさは、それぞれ同じではなく、第1の音声信号の信号エネルギーの各々の大きさは、含まれる音声信号の大きさを表すことができ、さらに、この後にターゲットオーディオキャプチャ機器を決定するときの根拠とすることができる。実際の使用では、音声信号の信号エネルギーの大きさは、音声信号の信号振幅またはピークエンベロープなどに応じて決定されてもよい。
なお、上記ステップS101及びステップS102のステップ番号は、2つのステップの順序を限定するものではないことに留意されたい。すなわち、ステップS101及びステップS102の実行順序は、どうでもよく、ステップS101を実行してからステップS102を実行してもよいし、または、ステップS102を実行してからステップS101を実行してもよいし、または、ステップS101及びステップS102を同時に実行してもよい。すなわち、本出願の実施例で実現されるプロセスにおいて、近端機器の履歴時刻での音声通話状態を取得すること、及び、各オーディオキャプチャ機器が現在の時刻にキャプチャした第1の音声信号の信号エネルギーを取得することの実行順序については限定しない。
ステップS103において、履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定する。
具体的には、実際の使用では、音声通話の短い時間間隔内に、音声通話の状態は、一般的に変わらない。従って、履歴時刻での音声通話状態に応じて、現在の時刻での音声通話状態を予測し、すなわち、履歴時刻での音声通話状態を現在の時刻での音声通話状態とすることができる。履歴時刻が1つ時刻だけ含む場合、この1つの時刻での音声通話状態を履歴時刻での音声通話状態とし、履歴時刻に含まれる時刻が現在の時刻に隣接する前の時刻であってもよい。履歴時刻が複数の時刻を含む場合、履歴時刻での音声通話状態は、各時刻での音声通話状態をそれぞれ取得し、発生回数が最多の音声通話状態を履歴時刻での音声通話状態とする方式、または、現在の時刻に最も近い時刻での音声通話状態を履歴時刻での音声通話状態とする方式によって決定される。
異なる音声通話状態が存在するため、オーディオキャプチャ機器によりキャプチャされた音声信号の種類も異なる。例えば、音声通話状態が遠端シングルトークである場合、オーディオキャプチャ機器によりキャプチャされた信号がエコー信号であり、近端シングルトークである場合、オーディオキャプチャ機器によりキャプチャされた信号が近端音声信号である(もちろん、一般的にノイズ信号も存在する)。従って、音声通話状態は、オーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコー信号が存在するか否か、近端音声信号などが存在するか否かを特徴づけるものであり、すなわち、履歴時刻での音声通話状態に応じて、第1の音声信号に含まれる信号の種類を決定することができる。例えば、履歴時刻での音声通話状態が近端シングルトークである場合、現在の時刻に近端音声信号が存在し、且つ遠端音声信号が存在しない。エコー信号が遠端音声信号の存在により生じるものであるため、第1の音声信号にエコー信号が存在しないことを判断できる。
履歴時刻での音声通話状態に応じて、各第1の音声信号に含まれる信号の種類を決定した後、各第1の音声信号の信号エネルギーの大きさに基づいて、含まれる特定のタイプの音声信号の信号エネルギーの大きさを決定することができ、つまり、各オーディオキャプチャ機器によりキャプチャされた特定のタイプの音声信号の信号エネルギーの大きさを決定することができる。例えば、履歴時刻での音声通話状態が近端シングルトークである場合、この音声通話状態に応じて、各第1の音声信号が近端音声信号を含み、一般的に環境ノイズ信号などをさらに含むことを決定し、しかし、各第1の音声信号に含まれる環境ノイズ信号の信号エネルギーの大きさがほぼ同じであり、従って、第1の音声信号中の近端音声信号の信号エネルギーの大きさが、この第1の音声信号の信号エネルギーの大きさと正相関し、すなわち、第1の音声信号の信号エネルギーが大きいほど、この第1の音声信号に含まれる近端音声信号の信号エネルギーが大きく、すなわち、対応するオーディオキャプチャ機器がキャプチャした近端音声信号の信号エネルギーが大きく、この場合、キャプチャした信号エネルギーが大きい第1の音声信号のオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とすることができる。
以上のように、履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器が特定の音声通話状態でキャプチャした特定のタイプの音声信号の信号エネルギーの大きさ関係を決定することができる。
さらに、決定された現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号は、対応する音声状態で以後の音声強化処理により寄与する第1の音声信号であり、一般に、第1の音声信号は、以後の音声強化処理に寄与すればするほど、含む近端音声信号の信号エネルギーが大きく、または、含むエコー信号の信号エネルギーが小さい。履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器が特定の音声通話状態でキャプチャした特定のタイプの音声信号の信号エネルギーの大きさ関係を決定できるため、履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギーに応じて、特定の音声通話状態でのターゲットオーディオキャプチャ機器を決定することができる。
そうすると、ターゲットオーディオキャプチャ機器を決定するとき、各オーディオキャプチャ機器によりキャプチャされた第1の音声信号の信号エネルギーを根拠とした上で、履歴時刻での音声通話状態をさらに組み合わせることによって、決定されたターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号に含まれるエコー信号が最大の状況を効果的に回避できる。また、このターゲットオーディオキャプチャ機器の決定プロセスが近端機器の通話シーンに依存しないため、決定されたターゲットオーディオキャプチャ機器が有効的な近端音声信号をキャプチャできない状況も回避する。
初期時刻以外、音声通話のいずれかの時刻でも、本出願の実施例に係るこの方法に基づいて、この時刻でのターゲットオーディオキャプチャ機器を決定することができることが理解され得る。音声通話の初期時刻では、ターゲットオーディオキャプチャ機器が少なくとも2つのオーディオキャプチャ機器のうちの1つのオーディオキャプチャ機器を予め指定または選択してもよいし、従来のターゲットオーディオキャプチャ機器の決定方式で選択してもよく、例えば、通話シーンに応じて、初期時刻でのターゲットオーディオキャプチャ機器を決定する。
なお、この方法がサーバにより実行される場合、この技術案で、端末システムとサーバとのインタラクションプロセスは、音声通話の初期時刻に、サーバが端末にターゲットオーディオキャプチャ機器の事前設定情報を送信し、端末システムが受信した事前設定情報に基づいて、少なくとも2つのオーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を選択するステップ、または、事前設定情報が端末システムに記憶されており、端末システムが事前設定情報に基づいて、少なくとも2つのオーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を選択するステップを含むことができる。サーバは、現在の時刻に、端末により送信された少なくとも2つのオーディオキャプチャ機器によりキャプチャされた第1の音声信号を受信し、各第1の音声信号の信号エネルギーを取得し、履歴時刻での音声通話状態、及び受信した各第1の音声信号の信号エネルギー応じて、現在の時刻でのターゲットオーディオキャプチャ機器を決定する。
本出願の実施例に係る音声通話方法では、履歴時刻での音声通話状態を用い、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーを組み合わせ、特定の音声通話状態で、以後の音声強化処理に寄与する音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、ターゲットオーディオキャプチャ機器の決定プロセスは、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーまたは近端機器の通話シーンのみに依存するものではなく、従って、関連技術で決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号中のエコーが大きい、または、近端音声が小さい問題を回避し、音声通話の効果を向上させる。
本出願の一実施例では、履歴時刻での音声通話状態は、
履歴時刻に遠端音声信号が存在するか否かを決定し、第1の決定結果を得て、
履歴時刻に近端近端音声信号が存在するか否かを決定し、第2の決定結果を得て、
第1の決定結果及び第2の決定結果に従って、履歴時刻での音声通話状態を決定する方式によって決定される。
音声通話状態は、音声通話中の近端音声状況及び遠端音声状況を指示するものであり、音声通話中の近端音声状況及び遠端音声状況に応じて、対応する音声通話状態を決定することができる。
具体的には、履歴時刻に遠端音声信号が存在するか否かは、履歴時刻に端末システムが遠端音声信号を受信したか否かを判断することで決定され、例えば、履歴時刻に端末システムが受信した音声信号に、遠端発話者の声信号(すなわち遠端音声信号)が存在すると、履歴時刻に遠端音声信号が存在することを決定する。履歴時刻に近端音声信号が存在するか否かは、履歴時刻に端末システムにおけるいずれかのオーディオキャプチャ機器によりキャプチャされた音声信号が近端音声信号を含むか否かを判断することで決定され、例えば、履歴時刻のいずれかのオーディオキャプチャ機器によりキャプチャされた音声信号が近端発話者の声信号(すなわち近端音声信号)を含むと、履歴時刻に近端音声信号が存在することを決定する。
音声信号に近端音声信号または遠端音声信号が存在するか否かを決定するとき、近端音声信号及び遠端音声信号の信号エネルギー、信号波形などの特徴に基づいて判定してもよく、例えば、第1の音声信号中の信号エネルギーが所定範囲内にある音声信号を近端音声信号として決定することが理解され得る。
本出願は、履歴時刻が複数の時刻を含む場合、上記技術案を用いて、それぞれ各時刻での音声通話状態を決定し、各時刻での音声通話状態を決定した後、履歴時刻での音声通話状態をさらに決定することが理解され得る。履歴時刻に含まれる複数の時刻での音声通話状態に応じて、履歴時刻での音声通話状態を決定するプロセスは、以上に記載された通り、各時刻に対応する音声通話状態のうち、発生回数が最多の音声通話状態を履歴時刻での音声通話状態とし、または、現在の時刻に最も近い時刻での音声通話状態を履歴時刻での音声通話状態とする。
なお、この方法がサーバにより実行される場合、対応する端末システムとサーバとのインタラクションプロセスは、履歴時刻に、サーバが端末システムにより送信された遠端信号及び各第1の音声信号を受信し、サーバが受信した遠端音声信号が0であるか否かに応じて、第1の決定結果を得て、サーバが受信した各第1の音声信号に近端音声信号が存在するか否かに応じて、第2の決定結果を得るステップと、次に第1の決定結果及び第2の決定結果に従って、履歴時刻での音声通話状態を決定するステップと、を含むことができる。
本出願の一実施例では、履歴時刻に近端音声信号が存在するか否かを決定するステップは、
履歴時刻でのターゲットオーディオキャプチャ機器により履歴時刻にキャプチャされた第2の音声信号を取得するステップと、
第2の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の第2の音声信号に近端音声信号が存在するか否かを決定するステップと、を含む。
具体的には、履歴時刻でのターゲットオーディオキャプチャ機器を決定した後、履歴時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第2の音声信号にエコーキャンセレーション及び以後の音声強化処理を行う必要があり、第2の音声信号は、近端音声信号、エコー信号及び環境ノイズ信号などを含み得、第2の音声信号にエコーキャンセレーションを行った後、第2の音声信号がエコー信号を含まなくなると考えることができ、近端音声信号が存在するか否かを決定するとき、エコー信号の影響を排除でき、決定結果がより正確になる。また、履歴時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第2の音声信号にエコーキャンセレーションを行うことも、音声通話中の必要な動作であるため、エコーキャンセレーション処理後の前記第2の音声信号を判断対象として選択すると、音声通話中の処理ステップをさらに増加させることがない。
なお、この方法がサーバにより実行される場合、対応する端末システムとサーバとのインタラクションプロセスは、履歴時刻に、サーバが端末システムにより送信されたターゲット音声機器によりキャプチャされた第2の音声信号を受信し、この第2の音声信号に近端音声信号が存在するか否かを決定するステップを含むことができる。
本出願の一実施例では、音声通話状態は、遠端シングルトーク、近端シングルトーク、両端ダブルトークまたはノートークを含む。
本出願の一実施例では、第1の決定結果及び第2の決定結果に従って、履歴時刻での音声通話状態を決定するステップは、
第1の決定結果として遠端音声信号が存在し、且つ第2の決定結果として近端音声信号が存在しない場合、履歴時刻での音声通話状態が遠端シングルトークであるステップと、
第1の決定結果として遠端音声信号が存在せず、且つ第2の決定結果として近端音声信号が存在する場合、履歴時刻での音声通話状態が近端シングルトークであるステップと、
第1の決定結果として遠端音声信号が存在し、且つ第2の決定結果として近端音声信号が存在する場合、履歴時刻での音声通話状態が両端ダブルトークであるステップと、
第1の決定結果として遠端音声信号が存在せず、且つ第2の決定結果として近端音声信号が存在しない場合、履歴時刻での音声通話状態がノートークであるステップと、を含む。
音声通話中に、音声通話状態を遠端シングルトーク、近端シングルトーク、両端ダブルトークまたはノートークなどの4つの状態にまとめることが理解され得る。実際の音声通話では、一方が話し、他方が聞き、または、一方が聞き、他方が話すことが多く、両方が同時に話す、または、両方が話さないことが少なく、遠端シングルトーク及び近端シングルトークの通話状態が多く、両端ダブルトークまたはノートークの通話状態が少ない。
本出願の一実施例では、履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定するステップは、
履歴時刻での音声通話状態が遠端シングルトークである場合、信号エネルギーが最小の第1の音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、
履歴時刻での音声通話状態が近端シングルトークである場合、信号エネルギーが最大の第1の音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、
履歴時刻での音声通話状態が両端ダブルトークまたはノートークである場合、履歴時刻で決定されたターゲットオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、を含む。
具体的には、履歴時刻での音声通話状態が遠端シングルトークである場合、現在の時刻での音声通話状態も遠端シングルトークであり、近端機器における各オーディオキャプチャ機器によりキャプチャされた第1の音声信号がエコー信号及び環境ノイズ信号を含むことを予測すると、各第1の音声信号の信号エネルギーの大きさが、含まれるエコー信号の信号エネルギーの大きさと正相関し、以後の音声強化処理用の音声信号中のエコー信号の信号エネルギーを最小にするために、信号エネルギーが最小の第1の音声信号に対応するオーディオキャプチャ機器を選択し、ターゲットオーディオキャプチャ機器として決定し、すなわち、信号エネルギーが最小の第1の音声信号を以後の音声強化処理の入力信号とする。
履歴時刻での音声通話状態が近端シングルトークである場合、現在の時刻での音声通話状態も近端シングルトークであり、近端機器における各オーディオキャプチャ機器によりキャプチャされた第1の音声信号が近端音声信号及び環境ノイズ信号を含むことを予測すると、各第1の音声信号の信号エネルギーの大きさが、含まれる近端音声信号の信号エネルギーの大きさと正相関し、以後の音声強化処理用の音声信号中の近端音声信号の信号エネルギーを最大にするために、信号エネルギーが最大の第1の音声信号に対応するオーディオキャプチャ機器を選択し、ターゲットオーディオキャプチャ機器として決定し、すなわち、信号エネルギーが最大の第1の音声信号を以後の音声強化処理の入力信号とする。
履歴時刻での音声通話状態が両端ダブルトークである場合、現在の時刻での音声通話状態も両端ダブルトークであることを予測すると、近端機器における各オーディオキャプチャ機器によりキャプチャされた第1の音声信号の信号エネルギーの大きさが、エコー信号の信号エネルギーの大きさと関連しているとともに、近端音声信号の信号エネルギーの大きさにも関連している。この場合、第1の音声信号の信号エネルギーの大きさに基づいて、含まれるエコー信号及び近端音声信号の信号エネルギーの大きさを決定できないが、一般的に、両端ダブルトークの持続時間が短く、音声通話の安定性を確保するために、ターゲットオーディオキャプチャ機器を不変に維持するため、履歴時刻に決定されたターゲットオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器とする。
履歴時刻での音声通話状態がノートークである場合、現在の時刻での音声通話状態もノートークであることを予測すると、近端機器における各オーディオキャプチャ機器によりキャプチャされた第1の音声信号がエコー信号及び近端音声信号を含まないが、一般的に両端ダブルトークの持続時間が短く、音声通話の安定性を確保するために、ターゲットオーディオキャプチャ機器を不変に維持するため、履歴時刻に決定されたターゲットオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器とする。
本出願の一実施例では、この方法は、履歴時刻での音声通話状態が遠端シングルトークである場合、
現在の時刻よりも前に、音声通話状態が遠端シングルトークであり続ける回数を決定するステップと、
回数が所定値よりも大きい場合、現在の時刻でのターゲットオーディオキャプチャ機器を現在の時刻以降の所定期間内のターゲットオーディオキャプチャ機器として決定するステップと、をさらに含んでもよい。
具体的には、実際の使用では、通話中に持続的な長時間の通話状態が遠端シングルトークであり続け、すなわち、相手端の通話者のみ話している場合、以後の通話中にこの状態が続く可能性が高いと考える。従って、ある時刻に音声通話状態を決定する際、状態が遠端シングルトークであり続ける回数を記録し、例えば、カウンタを設け、通話状態が遠端シングルトークであると、このカウンタの値に1を加算し、他の通話状態であると、カウンタをクリアし、通話状態が遠端シングルトークであることを再び決定した場合、カウントを再開始する。持続回数が所定値を超えると、現在の時刻でのターゲットオーディオキャプチャ機器をそのまま、以後の通話中のターゲットオーディオキャプチャ機器としてもよく、もちろん、以後の通話中の所定期間のターゲットオーディオキャプチャ機器としてもよい。この期間の後に、上記の実施例で説明された方式によって、ターゲットオーディオキャプチャ機器を決定する。所定値を超えると、上記の実施例で説明された方式を用いてターゲットオーディオキャプチャ機器を決定する。
なお、この方法がサーバにより実行される場合、対応する端末システムとサーバとのインタラクションプロセスは、サーバが各時刻での通話状態を統計し、現在の時刻よりも前に、音声通話状態が遠端シングルトークであり続ける回数が所定値よりも大きいことを決定する場合、現在の時刻でのターゲットオーディオキャプチャ機器を現在の時刻以降の所定期間内のターゲットオーディオキャプチャ機器として決定するステップを含むことができる。
本出願の一実施例では、この方法は、
現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行うステップと、
エコーキャンセレーション処理後の第1の音声信号に近端音声信号が存在する場合、エコーキャンセレーション処理後の第1の音声信号を遠端機器に送信するステップと、をさらに含む。
具体的には、以上の説明から分かるように、ターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号は、近端音声信号、エコー信号及び環境ノイズ信号などを含み得るため、音声通話中に、エコーが漏洩することを回避するために、第1の音声信号を遠端機器に送信する前、第1の音声信号にエコーキャンセレーションを行う必要がある。エコーキャンセレーション処理後の第1の音声信号に対して音声検出を行い、近端音声信号が存在すると、遠端機器に送信し、近端音声信号が存在しないと、残留エコー信号及び環境ノイズ信号を含み、遠端機器に送信しない。
なお、この方法がサーバにより実行される場合、対応する端末システムとサーバとのインタラクションプロセスは、サーバが現在の時刻ターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の第1の音声信号に近端音声信号が存在すると、近端音声信号を遠端機器に送信するステップを含んでもよい。
本出願の一実施例では、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行うステップは、具体的には、
現在の時刻での遠端音声信号を取得するステップと、
現在の時刻での遠端音声信号及び現在の時刻でのエコー伝搬経路関数に基づいて、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号中のエコー信号を得るステップと、
エコー信号に基づいて、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行うステップと、を含む。
エコー伝搬経路関数は、遠端音声信号と、オーディオキャプチャ機器により受信されたエコー信号とのマッピング関係と捉え、すなわち、現在の時刻での遠端音声信号を現在の時刻でのエコー伝搬経路関数に導入すると、対応するエコー信号を得ることができる。
具体的には、現在の時刻に遠端音声信号が存在する場合、エコー伝搬経路関数に基づいて対応するエコー信号を得、第1の音声信号中のエコー信号を除去し、第1の音声信号のエコーキャンセレーションを完了する。現在の時刻に遠端音声信号が存在しない場合、第1の音声信号にもエコー信号が存在せず、エコーキャンセレーション処理後の第1の音声信号をエコーキャンセレーションの前と不変に維持する。
本出願の一実施例では、この方法は、
履歴時刻に選択されたターゲットオーディオキャプチャ機器によりキャプチャされた第2の音声信号にエコー信号削除を行い、履歴時刻での残留エコー信号を得るステップと、
履歴時刻での残留エコー信号に基づいて、履歴時刻でのエコー伝搬経路関数を更新し、現在の時刻でのエコー伝搬経路関数を得るステップと、をさらに含んでもよい。
具体的には、各時刻にこの時刻での遠端音声信号及びエコー伝搬経路関数に基づいて得たこの時刻でのエコー信号と、この時刻での実際のエコー信号と偏差があるため、次の時刻に得るエコー信号と実際のエコー信号との偏差を小さくするために、各時刻にエコーキャンセレーション処理後の残留エコー信号を用いて、この時刻でのエコー伝搬経路関数のパラメータを補正し、すなわち、更新し、次の時刻でのエコー伝搬経路関数を得る。履歴時刻に遠端音声信号が存在しない場合、第1の音声信号も信号を含まず、さらに残留エコー信号も存在せず、現在の時刻でのエコー伝搬経路関数と、履歴時刻でのエコー伝搬経路関数とが同じであることが理解され得る。
本出願の一実施例では、エコーキャンセレーション処理後の第1の音声信号を遠端機器に送信するステップは、具体的には、
エコーキャンセレーション処理後の第1の音声信号中の環境ノイズ信号及び残留エコー信号を除去して得られた音声信号を遠端機器に送信するステップを含む。
具体的には、第1の音声信号にエコーキャンセレーションを行った後、音声通話品質をさらに向上させるために、さらに、以後の音声強化処理を行う必要がある。以後の音声強化処理は、環境ノイズ信号、及び残留エコー信号などを除去すること、を含む。
以下、例を通して本出願の実施例についてさらに説明し、この例では、端末システムが実行本体であることについて説明し、音声通話中の近端機器を携帯電話とし、この例では、図1に示す携帯電話を例とし、この携帯電話は、それぞれトップマイクロホン(トップマイク)201及びボトムマイクロホン(ボトムマイク)202の2つのオーディオキャプチャ機器が設けられ、受話器203及びスピーカ204をさらに含む。トップマイク201及びボトムマイク202は、いずれも、第1の音声信号をキャプチャでき、受話器203及びスピーカ204は、いずれも、受信した遠端音声を再生できる。
図3は、本例でこの携帯電話がターゲットオーディオキャプチャ機器を選択する原理模式図を示す。図3に示すように、この携帯電話は、通話状態推定・マイクロホン選択装置301、エコー推定装置302及び音声強化プロセッサ304を含んでもよい。通話状態推定・マイクロホン選択装置301は、各時刻での音声通話状態を決定し、履歴時刻での音声通話状態、及び現在の時刻トップマイクとボトムマイクによりキャプチャされた音声信号の信号エネルギーの大きさに応じて、ターゲットマイクロホンを決定する。エコー推定装置302は、入力された遠端音声信号に基づいて、現在の時刻でのエコー信号を推定する。エコーキャンセレーション装置303は、入力されたエコー信号に基づいて、入力された音声信号にエコーキャンセレーションを行い、エコーキャンセレーション装置303は、加算器として捉え、「-」及び「+」は、それぞれ、入力信号に対する減算及び加算を表す。音声強化プロセッサ304は、入力された音声信号に以後の強化処理(残留エコー信号及び環境ノイズ信号を除去すること、を含む)を行う。
なお、以上の通話状態推定・マイクロホン選択装置301、エコー推定装置302及び音声強化プロセッサ304は、対応する機能を有する物理的デバイスであってもよいし、対応する機能を実現できるアプリケーションプログラムであってもよい。
本出願の実施例に係る技術案によれば、現在の時刻にこの携帯電話における音声通話の実現プロセスは、ステップ1-1~ステップ1-5を含む。
ステップ1-1において、この携帯電話が遠端音声信号を受信した後に、スピーカまたは受話器が遠端発話者の声を再生し、トップマイク及びボトムマイクがそれぞれ近端発話者の声信号、遠端発話者の声信号及び環境ノイズ信号をキャプチャし、対応する2つの第1の音声信号を得、それぞれ2つの第1の音声信号を通話状態推定・マイクロホン選択装置301に入力する。
ステップ1-2において、通話状態推定・マイクロホン選択装置301が予め取得された履歴時刻での音声通話状態及び受信したトップマイク及びボトムマイク入力された2つの第1の音声信号に基づいて、ターゲットマイクロホンを決定し、ターゲットマイクロホンによりキャプチャされた第1の音声信号をエコーキャンセレーション装置303に入力する。
ステップ1-3において、エコー推定装置302が入力された遠端音声信号に基づいて推定してエコー信号を得、エコー信号をエコーキャンセレーション装置303中に入力する。
ステップ1-4において、エコーキャンセレーション装置303がエコー推定装置302によって入力されたエコー信号に基づいて、ターゲットマイクロホンによりキャプチャされた第1の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の第1の音声信号を音声強化プロセッサ304に入力する。
ステップ1-5において、音声強化プロセッサ304が、エコー信号が削除された後の第1の音声信号にさらなる音声強化処理(環境ノイズ信号及び残留エコー信号などを除去すること、を含む)を行い、さらに音声強化処理された第1の音声信号を遠端機器に送信する。
また、図に示すように、ステップ1-4において、エコーキャンセレーション装置303は、さらに、エコーキャンセレーション処理後の第1の音声信号を通話状態推定・マイクロホン選択装置301及びエコー推定装置302に入力することで、通話状態推定・マイクロホン選択装置301は、次の時刻でのターゲットマイクロホンを決定するために、この入力信号に基づいて、現在の時刻での音声通話状態を決定し、エコー推定装置302は、エコーキャンセレーション処理後の第1の音声信号中の残留エコー信号に基づいて自体を更新し、例えば、エコー伝搬経路関数を更新する。
図4は、通話状態推定・マイクロホン選択装置の任意選択的な構造模式図を示す。図4に示すように、この通話状態推定・マイクロホン選択装置は、第1のピークエンベロープ検出モジュール401、第2のピークエンベロープ検出モジュール402、遠端音声行動検出モジュール403、近端音声行動検出モジュール404、通話状態推定モジュール405、マイクロホン選択モジュール406及び音声ミキシングモジュール407を含んでもよい。
第1のピークエンベロープ検出モジュール401は、トップマイクによりキャプチャされた音声信号のピークエンベロープの大きさを検出し、第2のピークエンベロープ検出モジュール402は、ボトムマイクによりキャプチャされた音声信号のピークエンベロープの大きさを検出する。遠端音声行動検出モジュール403は、各通話時刻に遠端音声信号が存在するか否かを検出し、近端音声行動検出モジュール404は、各通話時刻に近端音声信号が存在するか否かを検出する。通話状態推定モジュール405は、各通話時刻に近端音声信号が存在するか否か、及び遠端音声信号が存在するか否かに応じて、各時刻での通話状態を決定し、すなわち、遠端音声行動検出モジュール403及び近端音声行動検出モジュール403の判断結果に従って、対応する時刻での通話状態を決定する。マイクロホン選択モジュール406は、入力されたトップマイクによりキャプチャされた音声信号のピークエンベロープの大きさ及びボトムマイクによりキャプチャされた音声信号のピークエンベロープの大きさに応じて、ターゲットマイクロホン選択結果を決定する。音声ミキシングモジュール407は、入力されたターゲットマイクロホン選択結果に従って、ターゲットマイクロホンによりキャプチャされた第1の音声信号を出力する。
なお、以上の第1のピークエンベロープ検出モジュール401、第2のピークエンベロープ検出モジュール402、遠端音声行動検出モジュール403、近端音声行動検出モジュール404、通話状態推定モジュール405、マイクロホン選択モジュール406及び音声ミキシングモジュール407は、対応する機能を有する物理的デバイスであってもよいし、対応する機能を実現できるアプリケーションプログラムであってもよい。図4に示すこの構造によれば、この携帯電話が現在の時刻でのターゲットマイクロホンを決定するプロセスは、ステップ2-1~ステップ2-3を含む。
ステップ2-1において、第1のピークエンベロープ検出モジュール401がトップマイクによりキャプチャされた第1の音声信号のピークエンベロープの大きさを検出し、第2のピークエンベロープ検出モジュール402がボトムマイクによりキャプチャされた第1の音声信号のピークエンベロープの大きさを検出し、それぞれ2つのピークエンベロープの大きさをマイクロホン選択モジュール406に入力する。
ステップ2-2において、マイクロホン選択モジュール406が通話状態推定モジュール405によって決定された履歴時刻での音声通話状態、及び入力された2つのピークエンベロープの大きさに応じて、ターゲットマイクロホン選択結果を決定し、ターゲットマイクロホン選択結果を音声ミキシングモジュール407に入力する。
具体的には、通話状態推定モジュール405は、履歴時刻での音声通話状態を決定とき、遠端音声行動検出モジュール403によって決定される履歴時刻に遠端音声信号が存在するか否かという第1の決定結果、及び近端音声行動検出モジュール404によって決定される履歴時刻に近端音声信号が存在するか否かという第2の決定結果に従って、履歴時刻での音声通話状態を決定する。
マイクロホン選択モジュール406は、履歴時刻での音声通話状態が遠端シングルトークである場合、信号エネルギーが小さい第1の音声信号に対応するマイクロホンをターゲットマイクロホンとして決定し、履歴時刻での音声通話状態が近端シングルトークである場合、信号エネルギーが大きい第1の音声信号に対応するマイクロホンをターゲットマイクロホンとして決定し、履歴時刻での音声通話状態が両端ダブルトークまたはノートークである場合、履歴時刻で決定されたターゲットマイクロホンをターゲットマイクロホンとして決定する。
ステップ2-3において、音声ミキシングモジュール407が入力されたターゲットマイクロホン選択結果に従って、2つのマイクロホンによりキャプチャされた第1の音声信号に対して音声ミキシング選択を行い、ターゲットマイクロホンの音声信号を出力する。一方のマイクロホン信号から他方のマイクロホン信号に切り替えるとき、スムーズな遷移時間ウィンドウを設定し、遷移の連続性を確保する。
また、次の時刻でターゲットマイクロホンを選択するために、通話状態推定モジュール405が現在の時刻での音声通話状態をさらに決定する必要があり、このプロセスは、具体的には、ステップ3-1及びステップ3-2を含む。
ステップ3-1において、遠端音声行動検出モジュール403が入力された現在の時刻での遠端音声信号(図に示す遠端音声)に基づいて、現在の時刻に遠端音声信号が存在するか否かを決定し、近端音声状況検出器モジュール404が入力され現在の時刻でのターゲットマイクロホンによりキャプチャされたエコーキャンセレーション処理後の第1の音声信号(図に示すエコーキャンセレーション処理後の第1の音声)に基づいて、現在の時刻に近端音声信号が存在するか否かを決定し、それぞれ2つの確認結果を通話状態推定モジュール405に入力する。
ステップ3-2において、通話状態推定モジュール405が入力された2つの確認結果に基づいて現在の時刻での音声通話状態を決定する。
具体的には、遠端音声信号が存在し、且つ近端音声信号が存在しない場合、現在の時刻での音声通話状態が遠端シングルトークであり、遠端音声信号が存在せず、且つ近端音声信号が存在する場合、現在の時刻での音声通話状態が近端シングルトークであり、遠端音声信号が存在し、且つ近端音声信号が存在する場合、現在の時刻での音声通話状態が両端ダブルトークであり、遠端音声信号が存在せず、且つ近端音声信号が存在しない場合、現在の時刻での音声通話状態がノートークである。
本出願の実施例に係る技術案は、端末システムの複数のオーディオキャプチャ機器によりキャプチャされた音声信号、オーディオ再生機器により再生された音声信号、及び機器の通話状態を統合して分析することで、ターゲットオーディオキャプチャ機器を選択することを実現し、関連技術に比べて、音声通話の全体性能を効果的に向上できる。
1つの例としては、本出願の実施例に係る音声通話技術案によれば、この例では、端末システムが実行本体であることについて説明し、図5は、端末システムがハンズフリー通話シーンでマイクロホンを選択する効果の模式図を示し、この携帯電話は、それぞれマイクロホンa及びマイクロホンbの2つのマイクロホンを含み、この携帯電話は、ハンズフリーで音声通話を行い、マイクロホンaによりキャプチャされた音声信号の時間領域の波形が図におけるa波形に示され、マイクロホンbによりキャプチャされた音声信号の時間領域の波形が図におけるb波形に示され、スピーカにより再生された音声信号の時間領域の波形が図におけるc波形に示され、ターゲットマイクロホンの選択結果が図における曲線dに示される。この例では、曲線dのS1に示す結果によれば、ターゲットマイクロホンがaであることが表われ、曲線dのS2に示す結果によれば、ターゲットマイクロホンがbであることを表われる。この模式図において、横座標は、単位が秒(s)の時間(図において一部の時間のみ示される)を表し、波形a~波形cは、縦座標が信号エネルギーの大きさを表し、具体的には、信号の振幅である。
具体的には、この例では、隣接する2つの時刻の間隔を0.1sとし、音声通話の0s~1s内に、曲線dから分かるように、この期間内においてマイクロホンaをターゲットマイクロホンとして選択し、具体的ば選択プロセスは、以下のとおりである。0s~1sの期間内のいずれかの時刻、例えば0.3sに、履歴時刻が0.2sであり、0.2s時刻での実際の音声検出結果として、この時刻に近端音声信号が存在せず、遠端音声信号が存在する場合、0.2秒での音声通話状態が遠端シングルトークであることを決定し、0.3sに信号エネルギーが小さい音声信号に対応するマイクロホンをターゲットマイクロホンとして選択すべきであり、波形a及び波形bから分かるように、0.3sにマイクロホンaによりキャプチャされた音声信号の信号エネルギーがマイクロホンbによりキャプチャされた音声信号の信号エネルギー未満であり、0.3sにマイクロホンaをターゲットマイクロホンとして選択すべきである。
また例えば、音声通話の1s~1.5sにおいて、音声信号の実際検出結果として遠端音声信号も存在せず、近端音声信号も存在せず、図の波形a及び波形bのこの期間の波形から分かるように、この期間内において2つのマイクロホンがあまり信号をキャプチャせず、実際の検出では、遠端音声信号が存在せず、すなわち、遠端音声信号を受信せず、スピーカが音声信号を再生せず、この期間内の各時刻での音声通話状態がいずれもノートーク状態であることを決定し、履歴時刻でのターゲットマイクロホンを現在の時刻でのターゲットマイクロホンとして決定し、すなわち、この期間内の各時刻でも、引き続きマイクロホンaをターゲットマイクロホンとして選択する。
また例えば、音声通話の1.5s~2.4sの期間内において、曲線dから分かるように、この期間のターゲットマイクロホンがマイクロホンbであり、ターゲットマイクロホンの選択プロセスは、以下のとおりである。この期間の実際音声検出結果として、近端音声信号が存在し、遠端音声信号が存在しない場合、この期間内の各時刻での音声通話状態が近端シングルトークであることを決定し、2つのマイクロホンのうち、キャプチャした音声信号の信号エネルギーが大きいマイクロホンをこの期間内の各時刻でのターゲットマイクロホンとして選択すべきであり、波形a及び波形bから分かるように、この期間内においてマイクロホンbによりキャプチャされた音声信号のエネルギーがマイクロホンaによりキャプチャされた音声信号のエネルギーより大きく、この期間内の各時刻にマイクロホンbをターゲットマイクロホンとして選択する。
また例えば、音声通話の3.6s~4.6sの期間内において、4.1sを例とすると、対応する履歴時刻が4.0sであり、4.0sに対応する時間検出結果として近端音声信号も存在し、遠端音声信号も存在する場合、4.0sの音声通話状態が両端ダブルトークであることを決定し、履歴時刻でのターゲットマイクロホンを現在の時刻でのターゲットマイクロホンとして決定し、すなわち、4.0sのターゲットマイクロホンすなわちマイクロホンaを4.1sのターゲットマイクロホンとする。
同様に、本出願の実施例に係る技術案により、上記例における音声通話の各時刻でのターゲットマイクロホンの選択を実現することができ、ここで繰り返し説明しない。実験の認証によれば、本出願に係る技術案を用いることで、特定の音声通話状態で対応するターゲットマイクロホンを選択することができ、音声通話効果を効果的に向上させることができる。
図6は、本出願の実施例に係る音声通話方法のフローチャートであり、図6に示すように、この方法は、ステップ501~ステップ504を含むことができる。
ステップ501において、ユーザによる音声通話トリガー動作を受信する。
音声通話のトリガー動作とは、音声通話を起動させる指示であり、ユーザによる、対応する音声通話アプリケーションプログラムに対するクリック動作であってもよいし、ユーザが音声または文字を入力することで音声通話を起動させる指示であってもよい。
ステップ502において、前記音声通話トリガー動作に応じて、端末システムにおけるオーディオ再生機器と少なくとも2つのオーディオキャプチャ機器を起動させる。
この端末システムの具体的な種類については、音声通話ができる機器である限り、本出願の実施例で限定しない。携帯電話、PADなどなどを含むが、これらに限られない。設けられたオーディオ再生機器は、スピーカであってもよく、オーディオキャプチャ機器は、マイクロホンであってもよく、オーディオ再生機器及び少なくとも2つのオーディオキャプチャ機器の具体的な種類、具体的な数、及びオーディオキャプチャ機器の端末システムにおける位置については、本出願の実施例で限定しない。
実際の使用では、端末システムは、音声通話に、対応するインタラクションインタフェースを提供することができ、このインタラクションインタフェースにおける対応する位置にオーディオ再生機器のアイコン及び少なくとも2つのオーディオキャプチャ機器アイコンを表示し、アイコンの色または形状などで、対応する機器のオンまたはオフ状態を表す。
ステップ503において、音声通話の初期時刻に対して、事前設定情報に対応する前記少なくとも2つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、前記初期時刻での音声通話状態を決定する。
具体的には、事前設定情報に対応するターゲットオーディオキャプチャ機器は、少なくとも2つのオーディオキャプチャ機器のうちの1つのオーディオキャプチャ機器を予め指定または選択してもよいし、従来のターゲットオーディオキャプチャ機器の決定方式で選択してもよく、例えば、通話シーンに応じて、初期時刻でのターゲットオーディオキャプチャ機器を決定する。
ステップ504において、音声通話の初期時刻以外の現在の時刻に対して、上記実施例に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行う。
本出願の実施例に係る音声通話方法は、履歴時刻での音声通話状態を用い、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーを組み合わせることで、特定の音声通話状態で以後の音声強化処理により寄与する音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、ターゲットオーディオキャプチャ機器の決定プロセスが各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーまたは近端機器の通話シーンのみに依存するものではなく、従って、従来技術で決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号中のエコーが大きい、または、近端音声が小さい問題を回避し、音声通話の効果を向上させる。
本出願の実施例に係る音声通話方法は、マルチマイクロホン(デュアルマイクロホンを例とする)を有する端末システムの音声通話、例えば、音声通話シーンに関する関連アプリケーションプログラムに適用され、端末システムにおけるデュアルマイクロホンを用いて通話中のエコーを抑え、近端の音声ボリュームを向上させ、通話品質を向上させる。音声ミーティングアプリケーションプログラム(APP)を例とすると、具体的には、図7に示すように、アプリケーションプログラムを起動させ、ユーザ(図におけるアバターが現在のユーザを表す)がミーティングインタフェースに入り、マイクロホンを起動させると、発言し始め、図に示すように、ユーザがさらにこのミーティングインタフェースにおいて(誘いボタンをクリックすることで)他のユーザを誘ってこの会話に参加させ、さらにスクリーンを共有し、カメラを起動させて録画し、APPを設定するなどを行うことができる。この場合、ユーザが発言した声は、端末システムにおける2つのマイクロホンによりキャプチャされ、オンラインの他のユーザの声も、機器により再生された後、マイクロホンによりキャプチャされるため、オンラインの他のユーザは、自分が発言した声、すなわち、エコーも聞いてしまう。エコーキャンセレーション装置がAPPに内蔵されてもよく、マイクロホンが他のユーザのエコーをキャプチャすることを回避し、ローカルのユーザが発言した声のみを残し、ミーティングエクスペリエンスを向上させ、音声通話中、端末システムのデュアルマイクロホン音声強化モジュール(具体的には、ターゲットマイクロホンを決定し、音声信号を送信するなど)によってターゲットマイクロホンを選択することができ、選択したターゲットマイクロホンによりキャプチャされた音声信号に基づいて、他のユーザの端末システムに音声信号を送信する。なお、実際の使用では、ユーザがマイクロホン切り替えなどの他の動作を行うことなく、デュアルマイクロホンの音声強化モジュールは、マイクロホンスイッチのオンオフとともに、自動的にオンオフすることができる。
本出願の実施例に係る音声通話方法に対応し、本出願の実施例は、音声通話装置をさらに提供し、図8に示すように、この装置600は、通話状態取得モジュール601、信号エネルギー取得モジュール602及びターゲットオーディオキャプチャ機器決定モジュール603を含むことができる。
通話状態取得モジュール601は、端末システムの履歴時刻での音声通話状態を取得するためのものであり、端末システムに少なくとも2つのオーディオキャプチャ機器が設置されており、
信号エネルギー取得モジュール602は、各オーディオキャプチャ機器により現在の時刻にキャプチャされた第1の音声信号を取得し、各第1の音声信号の信号エネルギーをそれぞれ決定するためのものであり、
ターゲットオーディオキャプチャ機器決定モジュール603は、履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を決定するためのものである。
本出願の実施例に係る音声通話装置は、履歴時刻での音声通話状態を用い、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーを組み合わせ、特定の音声通話状態で以後の音声強化処理に寄与する音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、ターゲットオーディオキャプチャ機器の決定プロセスが各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーまたは近端機器の通話シーンのみに依存するものではなく、従って、従来技術で決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号中のエコーが大きいまたは近端音声が小さい問題を回避し、音声通話の効果を向上させる。
本出願の一実施例では、この装置は、端末システムの音声通話状態を決定するための通話状態決定モジュールをさらに含み、このモジュールは、履歴時刻での音声通話状態を決定するとき、具体的には、
履歴時刻に遠端音声信号が存在するか否かを決定し、第1の決定結果を得て、
履歴時刻に近端音声信号が存在するか否かを決定し、第2の決定結果を得て、
第1の決定結果及び第2の決定結果に従って、履歴時刻での音声通話状態を決定する。
本出願の一実施例では、通話状態決定モジュールは、履歴時刻に近端音声信号が存在するか否かを決定するとき、具体的には、
履歴時刻でのターゲットオーディオキャプチャ機器により履歴時刻にキャプチャされた第2の音声信号を取得し、
第2の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の第2の音声信号に近端音声信号が存在するか否かを決定する。
本出願の一実施例では、音声通話状態は、遠端シングルトーク、近端シングルトーク、両端ダブルトークまたはノートークを含む。
本出願の一実施例では、通話状態決定モジュールは、第1の決定結果及び第2の決定結果に従って、履歴時刻での音声通話状態を決定するとき、具体的には、
第1の決定結果として遠端音声信号が存在し、且つ第2の決定結果として近端音声信号が存在しない場合、履歴時刻での音声通話状態が遠端シングルトークであり、
第1の決定結果として遠端音声信号が存在せず、且つ第2の決定結果として近端音声信号が存在する場合、履歴時刻での音声通話状態が近端シングルトークであり、
第1の決定結果として遠端音声信号が存在し、且つ第2の決定結果として近端音声信号が存在する場合、履歴時刻での音声通話状態が両端ダブルトークであり、
第1の決定結果として遠端音声信号が存在せず、且つ第2の決定結果として近端音声信号が存在しない場合、履歴時刻での音声通話状態がノートークである。
本出願の一実施例では、ターゲットオーディオキャプチャ機器決定モジュール603は、具体的には、
履歴時刻での音声通話状態が遠端シングルトークである場合、信号エネルギーが最小の第1の音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、
履歴時刻での音声通話状態が近端シングルトークである場合、信号エネルギーが最大の第1の音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、
履歴時刻での音声通話状態が両端ダブルトークまたはノートークである場合、履歴時刻でのターゲットオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定する。
本出願の一実施例では、ターゲットオーディオキャプチャ機器決定モジュール603は、さらに、
履歴時刻での音声通話状態が遠端シングルトークである場合、現在の時刻よりも前に、音声通話状態が遠端シングルトークであり続ける回数を決定し、この回数が所定値よりも大きい場合、現在の時刻でのターゲットオーディオキャプチャ機器を現在の時刻以降のターゲットオーディオキャプチャ機器として決定する。
本出願の一実施例では、この装置は、
現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行い、
エコーキャンセレーション処理後の第1の音声信号に近端音声信号が存在する場合、エコーキャンセレーション処理後の第1の音声信号を音声通話の相手端機器に送信するための信号送信モジュールをさらに含む。
本出願の一実施例では、信号送信モジュールは、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行うとき、具体的には、
現在の時刻での遠端音声信号を取得し、
現在の時刻での遠端音声信号及び現在の時刻でのエコー伝搬経路関数に基づいて、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号中のエコー信号を決定し、
エコー信号に基づいて、現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行う。
本出願の一実施例では、現在の時刻でのエコー伝搬経路関数は、
履歴時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第2の音声信号にエコーキャンセレーションを行い、履歴時刻での残留エコー信号を得て、
履歴時刻での残留エコー信号に基づいて、履歴時刻でのエコー伝搬経路関数を更新し、現在の時刻でのエコー伝搬経路関数を得る方式によって得られる。
図9は、本出願の実施例に係る音声通話装置の構造ブロック図であり、図9に示すように、この装置700は、トリガー動作受信モジュール701、機器起動モジュール702、初期決定モジュール703及び音声通話モジュール704を含むことができ、
トリガー動作受信モジュール701は、ユーザによる音声通話トリガー動作を受信するためのものであり、
機器起動モジュール702は、音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも2つのオーディオキャプチャ機器を起動させるためのものであり、
初期決定モジュール703は、音声通話の初期時刻に対して、事前設定情報に対応する少なくとも2つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、初期時刻での音声通話状態を決定するためのものであり、
音声通話モジュール704は、音声通話の初期時刻以外の現在の時刻に対して、第1の態様、第1の態様のいずれかの任意選択的な実施例または第3の態様に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うためのものである。
本出願の実施例に係る音声通話装置は、履歴時刻での音声通話状態を用い、各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーを組み合わせ、特定の音声通話状態で以後の音声強化処理により寄与する音声信号に対応するオーディオキャプチャ機器を現在の時刻でのターゲットオーディオキャプチャ機器として決定し、ターゲットオーディオキャプチャ機器の決定プロセスが各オーディオキャプチャ機器によりキャプチャされた音声信号の信号エネルギーまたは近端機器の通話シーンのみ依存するものではなく、従って、従来技術で決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号中のエコーが大きい、または、近端音声が小さい問題を回避し、音声通話の効果を向上させる。
同じ原理に基づいて、本出願の実施例は、電子機器をさらに提供し、この電子機器は、メモリ、プロセッサ、オーディオ再生機器、及び少なくとも2つのオーディオキャプチャ機器を含み、オーディオ再生機器は、音声信号を再生するためのものであり、少なくとも2つのオーディオキャプチャ機器は、音声信号をキャプチャするためのものであり、メモリにコンピュータプログラムが記憶されており、プロセッサは、このコンピュータプログラムを実行すると、本出願のいずれかの実施例に係る方法を実現し、具体的には、場合1及び場合2を実現することができる。
場合1:端末システムの履歴時刻での音声通話状態を取得し、端末システムに少なくとも2つのオーディオキャプチャ機器が設置されており、各オーディオキャプチャ機器により現在の時刻にキャプチャされた第1の音声信号を取得し、各第1の音声信号の信号エネルギーをそれぞれ決定し、履歴時刻での音声通話状態、及び各第1の音声信号の信号エネルギー応じて、各オーディオキャプチャ機器のうち現在の時刻でのターゲットオーディオキャプチャ機器を決定する。
場合2:ユーザによる音声通話トリガー動作を受信し、音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも2つのオーディオキャプチャ機器を起動させ、音声通話の初期時刻に対して、事前設定情報に対応する少なくとも2つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、初期時刻での音声通話状態を決定し、音声通話の初期時刻以外の現在の時刻に対して、場合1に係る方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行う。
本出願の実施例は、コンピュータ読み取り可能な記憶媒体をさらに提供し、このコンピュータ読み取り可能な記憶媒体にコンピュータプログラムが記憶されており、このプログラムがプロセッサにより実行されると、本出願のいずれかの実施例に示す方法を実現する。このコンピュータ読み取り可能な記憶媒体に記憶されるのは、本出願のいずれかの実施例に係る音声通話方法に対応するコンピュータプログラムであることが理解され得る。
図10は、本出願の実施例が適用される電子機器の構造模式図を示し、図10に示すように、図10に示す電子機器800は、プロセッサ801、メモリ803、オーディオ再生機器805及び少なくとも2つのオーディオキャプチャ機器806を含む。プロセッサ801、オーディオ再生機器805、少なくとも2つのオーディオキャプチャ機器806は、メモリ803に接続され、例えば、バス802を介して接続される。電子機器800は、送受信機804をさらに含んでもよい。電子機器800は、送受信機804を介して他の電子機器とデータを交換することができる。なお、実際の使用では、送受信機804は1つに限られず、この電子機器800の構造は、本出願の実施例を限定するものを構成しない。
プロセッサ801は、本出願の実施例に適用され、図8または図9に示す音声通話装置の機能を実現する。
プロセッサ801は、CPU、汎用プロセッサ、DSP、ASIC、FPGAまたは他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部材またはそれらの任意の組み合わせであり得る。本出願に開示される内容を組み合わせて説明された様々な例示的な論理ブロック、モジュール及び回路を実現または実行することができる。プロセッサ801は、計算機能を実現する組み合わせであってもよく、例えば、1つまたは複数のマイクロプロセッサー組み合わせ、DSPとマイクロプロセッサの組み合わせなどを含む。
バス802は、上記ユニットの間に情報を転送する通路を含んでもよい。バス802は、PCIバスやEISAバスなどであり得る。バス802は、アドレスバス、データバス、コントロールバスなどに分けられる。表示の便宜上、図10には1本の太い線で示めされているが、決して1本のバスや1種類のバスだけがあることを示していないのである。
メモリ803は、ROMまたは静的情報及び命令を記憶できる他の種類の静的記憶デバイス、RAMまたは情報及び命令を記憶できる他の種類の動的記憶デバイスであってもよいし、EEPROM、CD-ROMまたは他の磁気ディスク・メモリー、光ディスク・メモリー(コンパクトディスク、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク、レーザーディスク(登録商標)などを含む)、磁気ディスク記憶媒体または他の磁気メモリデバイス、または、命令あるいはデータ構造形式を有する望まれるプログラム・コードを含むまたは記憶し、かつコンピュータがアクセスできる他の如何なる適切な媒体であってもよいが、これらに限られない。
メモリ803は、本出願の技術案を実行するアプリケーションプログラムコードを記憶し、プロセッサ801は、制御することで実行させる。プロセッサ801は、メモリ803に記憶されるアプリケーションプログラムコードを実行することで、図8または図9に示す実施例に係る音声通話装置の動作を実現する。
図面のフローチャートの各ステップは、矢印の指示に沿って順次示されているが、これらのステップは必ずしも矢印の指示順序に沿って実行されるわけではない。本文に明示されない限り、これらのステップの実行は順序によって厳密に制限されず、他の順序で実行してもいいことが理解すべきである。また、図面のフローチャートの少なくとも一部のステップは複数のサブステップまたは複数の段階を含み、これらのサブステップまたは段階は必ずしも同一時刻で実行されずに、異なる時刻で実行してもよく、それらの実行順序も必ずしも順序通りに実行するものではなく、他のステップ、或いは、他のステップのサブステップまたは段階の少なくとも一部と順番にまたは入れ替えて実行することができる。
以上は、本出願の一部の実施の形態である。なお、当業者は、本出願に記載されている原理を逸脱せずに様々な改良や修飾をすることもできる。これらの改良や修飾も、本出願の保護範囲として見なされるべきである。
600 音声通話装置
601 通話状態取得モジュール
602 信号エネルギー取得モジュール
603 ターゲットオーディオキャプチャ機器決定モジュール
700 音声通話装置
701 トリガー動作受信モジュール
702 機器起動モジュール
703 初期決定モジュール
704 音声通話モジュール
800 電子機器
801 プロセッサ
802 バス
803 メモリ
804 送受信機
805 オーディオ再生機器
806 オーディオキャプチャ機器

Claims (14)

  1. 電子機器が実行する音声通話方法であって、
    端末システムの履歴時刻での音声通話状態を取得するステップであって、前記端末システムに少なくとも2つのオーディオキャプチャ機器が設けられているステップと、
    各前記オーディオキャプチャ機器により現在の時刻にキャプチャされた第1の音声信号を取得し、各前記第1の音声信号の信号エネルギーをそれぞれ決定するステップと、
    前記履歴時刻での音声通話状態、及び各前記第1の音声信号の信号エネルギーに応じて、前記オーディオキャプチャ機器のうち前記現在の時刻でのターゲットオーディオキャプチャ機器を決定するステップであって、前記履歴時刻での音声通話状態が、
    前記履歴時刻に遠端音声信号が存在するか否かを決定し、第1の決定結果を得ることと、
    前記履歴時刻に近端音声信号が存在するか否かを決定し、第2の決定結果を得ることと、
    前記第1の決定結果と前記第2の決定結果に従って、前記履歴時刻での音声通話状態を決定することとにより決定される、ステップと、を含む、ことを特徴とする音声通話方法。
  2. 前記履歴時刻に近端音声信号が存在するか否かを決定するステップは、
    前記履歴時刻でのターゲットオーディオキャプチャ機器により前記履歴時刻にキャプチャされた第2の音声信号を取得するステップと、
    前記第2の音声信号にエコーキャンセレーションを行い、エコーキャンセレーション処理後の前記第2の音声信号に近端音声信号が存在するか否かを決定するステップと、を含む、ことを特徴とする請求項に記載の方法。
  3. 前記音声通話状態は、少なくとも、遠端シングルトーク、近端シングルトーク、両端ダブルトークまたはノートークを含む、ことを特徴とする請求項に記載の方法。
  4. 第1の決定結果と前記第2の決定結果に従って、前記履歴時刻での音声通話状態を決定する前記ステップは、
    前記第1の決定結果として遠端音声信号が存在し、且つ前記第2の決定結果として近端音声信号が存在しない場合、前記履歴時刻での音声通話状態が遠端シングルトークであるステップと、
    前記第1の決定結果として遠端音声信号が存在せず、且つ前記第2の決定結果として近端音声信号が存在する場合、前記履歴時刻での音声通話状態が近端シングルトークであるステップと、
    前記第1の決定結果として遠端音声信号が存在し、且つ前記第2の決定結果として近端音声信号が存在する場合、前記履歴時刻での音声通話状態が両端ダブルトークであるステップと、
    前記第1の決定結果として遠端音声信号が存在せず、且つ前記第2の決定結果として近端音声信号が存在しない場合、前記履歴時刻での音声通話状態がノートークであるステップと、を含む、ことを特徴とする請求項に記載の方法。
  5. 前記履歴時刻での音声通話状態、及び各前記第1の音声信号の信号エネルギーに応じて、前記オーディオキャプチャ機器のうち前記現在の時刻でのターゲットオーディオキャプチャ機器を決定する前記ステップは、
    前記履歴時刻での音声通話状態が遠端シングルトークである場合、信号エネルギーが最小の第1の音声信号に対応するオーディオキャプチャ機器を前記現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、
    前記履歴時刻での音声通話状態が近端シングルトークである場合、信号エネルギーが最大の第1の音声信号に対応するオーディオキャプチャ機器を前記現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、
    前記履歴時刻での音声通話状態が両端ダブルトークまたはノートークである場合、履歴時刻でのターゲットオーディオキャプチャ機器を前記現在の時刻でのターゲットオーディオキャプチャ機器として決定するステップと、を含む、ことを特徴とする請求項に記載の方法。
  6. 前記履歴時刻での音声通話状態が遠端シングルトークである場合、
    前記現在の時刻よりも前に、音声通話状態が遠端シングルトークであり続ける回数を決定するステップと、
    前記回数が所定値よりも大きい場合、前記現在の時刻でのターゲットオーディオキャプチャ機器を前記現在の時刻以降のターゲットオーディオキャプチャ機器として決定するステップと、をさらに含む、ことを特徴とする請求項に記載の方法。
  7. 前記現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行うステップと、
    エコーキャンセレーション処理後の第1の音声信号に近端音声信号が存在する場合、エコーキャンセレーション処理後の前記第1の音声信号を音声通話の相手端機器に送信するステップと、をさらに含む、ことを特徴とする請求項1~のいずれか1項に記載の方法。
  8. 前記現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行う前記ステップは、具体的には、
    前記現在の時刻での遠端音声信号を取得するステップと、
    前記現在の時刻での遠端音声信号と前記現在の時刻でのエコー伝搬経路関数に基づいて、前記現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号中のエコー信号を決定するステップと、
    前記エコー信号に基づいて、前記現在の時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第1の音声信号にエコーキャンセレーションを行うステップと、を含む、ことを特徴とする請求項に記載の方法。
  9. 前記現在の時刻でのエコー伝搬経路関数は、
    前記履歴時刻でのターゲットオーディオキャプチャ機器によりキャプチャされた第2の音声信号にエコーキャンセレーションを行い、前記履歴時刻での残留エコー信号を得て、
    前記履歴時刻での残留エコー信号に基づいて、前記履歴時刻でのエコー伝搬経路関数を更新し、前記現在の時刻でのエコー伝搬経路関数を得る方式によって得られる、ことを特徴とする請求項に記載の方法。
  10. 電子機器が実行する音声通話方法であって、
    ユーザによる音声通話トリガー動作を受信するステップと、
    前記音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも2つのオーディオキャプチャ機器を起動させるステップと、
    音声通話の初期時刻に対して、事前設定情報に対応する前記少なくとも2つのオーディオキャプチャ機器のうちの1つのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、前記初期時刻での音声通話状態を決定するステップと、
    音声通話の初期時刻以外の現在の時刻に対して、請求項1~のいずれか1項に記載の方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うステップと、を含む、ことを特徴とする音声通話方法。
  11. 音声通話装置であって、
    端末システムの履歴時刻での音声通話状態を取得するための通話状態取得モジュールであって、前記端末システムに少なくとも2つのオーディオキャプチャ機器が設けられている通話状態取得モジュールと、
    各前記オーディオキャプチャ機器により現在の時刻にキャプチャされた第1の音声信号を取得し、各前記第1の音声信号の信号エネルギーをそれぞれ決定するための信号エネルギー取得モジュールと、
    前記履歴時刻での音声通話状態、及び各前記第1の音声信号の信号エネルギーに応じて、前記オーディオキャプチャ機器のうちターゲットオーディオキャプチャ機器を決定するためのターゲットオーディオキャプチャ機器決定モジュールであって、前記履歴時刻での音声通話状態が、
    前記履歴時刻に遠端音声信号が存在するか否かを決定し、第1の決定結果を得ることと、
    前記履歴時刻に近端音声信号が存在するか否かを決定し、第2の決定結果を得ることと、
    前記第1の決定結果と前記第2の決定結果に従って、前記履歴時刻での音声通話状態を決定することとにより決定される、ターゲットオーディオキャプチャ機器決定モジュールと、を含む、ことを特徴とする音声通話装置。
  12. 音声通話装置であって、
    ユーザによる音声通話トリガー動作を受信するためのトリガー動作受信モジュールと、
    前記音声通話トリガー動作に応じて、端末システムのオーディオ再生機器と少なくとも2つのオーディオキャプチャ機器を起動させるための機器起動モジュールと、
    音声通話の初期時刻に対して、事前設定情報に対応する前記少なくとも2つのオーディオキャプチャ機器のうちのオーディオキャプチャ機器をターゲットオーディオキャプチャ機器とし、前記初期時刻での音声通話状態を決定するための初期決定モジュールと、
    音声通話の初期時刻以外の現在の時刻に対して、請求項1~10のいずれか1項に記載の方法によって決定されたターゲットオーディオキャプチャ機器によりキャプチャされた音声信号に基づいて、相手端機器と音声通話を行うための音声通話モジュールと、を含む、ことを特徴とする音声通話装置。
  13. メモリ、プロセッサ、オーディオ再生機器、及び少なくとも2つのオーディオキャプチャ機器を含み、
    前記オーディオ再生機器は、音声信号を再生するためのものであり、
    前記少なくとも2つのオーディオキャプチャ機器は、音声信号をキャプチャするためのものであり、
    前記メモリにコンピュータプログラムが記憶されており、
    前記プロセッサは、前記コンピュータプログラムを実行することで、請求項1~10のいずれか1項に記載の方法を実現する、ことを特徴とする電子機器。
  14. 請求項1~10のいずれか1項に記載の方法を実現させるコンピュータプログラム。
JP2021558866A 2019-09-24 2020-03-26 音声通話方法並びにその、装置、電子機器及びコンピュータプログラム Active JP7290749B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910906728.3 2019-09-24
CN201910906728.3A CN110602327B (zh) 2019-09-24 2019-09-24 语音通话方法、装置、电子设备及计算机可读存储介质
PCT/CN2020/081385 WO2021056999A1 (zh) 2019-09-24 2020-03-26 语音通话方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022528683A JP2022528683A (ja) 2022-06-15
JP7290749B2 true JP7290749B2 (ja) 2023-06-13

Family

ID=68862870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021558866A Active JP7290749B2 (ja) 2019-09-24 2020-03-26 音声通話方法並びにその、装置、電子機器及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11875808B2 (ja)
EP (1) EP3920516B1 (ja)
JP (1) JP7290749B2 (ja)
CN (1) CN110602327B (ja)
WO (1) WO2021056999A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602327B (zh) 2019-09-24 2021-06-25 腾讯科技(深圳)有限公司 语音通话方法、装置、电子设备及计算机可读存储介质
CN112151051B (zh) * 2020-09-14 2023-12-19 海尔优家智能科技(北京)有限公司 音频数据的处理方法和装置及存储介质
CN115208976A (zh) * 2021-04-13 2022-10-18 深圳市万普拉斯科技有限公司 通话通道切换的处理方法、装置、通话设备和存储介质
CN113452855B (zh) * 2021-06-03 2022-05-27 杭州网易智企科技有限公司 啸叫处理方法、装置、电子设备及存储介质
CN113555030B (zh) * 2021-07-29 2024-05-31 杭州萤石软件有限公司 音频信号的处理方法、装置及设备
WO2023238419A1 (ja) * 2022-06-07 2023-12-14 サントリーホールディングス株式会社 携帯情報端末、情報処理システム、携帯情報端末の制御方法及びプログラム
CN117935835B (zh) * 2024-03-22 2024-06-07 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100111324A1 (en) 2008-10-31 2010-05-06 Temic Automotive Of North America, Inc. Systems and Methods for Selectively Switching Between Multiple Microphones
US20160227336A1 (en) 2015-01-30 2016-08-04 Knowles Electronics, Llc Contextual Switching of Microphones
US20170064087A1 (en) 2015-08-27 2017-03-02 Imagination Technologies Limited Nearend Speech Detector

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6424662A (en) * 1987-07-21 1989-01-26 Nippon Telegraph & Telephone Voice conference equipment
JPH07336790A (ja) * 1994-06-13 1995-12-22 Nec Corp マイクロホンシステム
US8401178B2 (en) * 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
CN101719969B (zh) * 2009-11-26 2013-10-02 美商威睿电通公司 判断双端对话的方法、***以及消除回声的方法和***
US9729344B2 (en) * 2010-04-30 2017-08-08 Mitel Networks Corporation Integrating a trigger button module into a mass audio notification system
US20120057717A1 (en) * 2010-09-02 2012-03-08 Sony Ericsson Mobile Communications Ab Noise Suppression for Sending Voice with Binaural Microphones
JP2012075039A (ja) 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
CN102710839B (zh) * 2012-04-27 2017-11-28 华为技术有限公司 一种提升语音通话效果的方法及通信终端
CN103384203B (zh) * 2012-05-04 2017-05-24 江虹 在通信终端设备之间已建立通信信道的即时通信***和方法
CN105513596B (zh) * 2013-05-29 2020-03-27 华为技术有限公司 一种语音控制方法和控制设备
CN104639719A (zh) * 2013-11-11 2015-05-20 中兴通讯股份有限公司 一种通话方法和通信终端
US9451360B2 (en) * 2014-01-14 2016-09-20 Cisco Technology, Inc. Muting a sound source with an array of microphones
CN104092801A (zh) * 2014-05-22 2014-10-08 中兴通讯股份有限公司 智能终端通话降噪方法及智能终端
US9712915B2 (en) * 2014-11-25 2017-07-18 Knowles Electronics, Llc Reference microphone for non-linear and time variant echo cancellation
KR20170052056A (ko) * 2015-11-03 2017-05-12 삼성전자주식회사 전자 장치 및 그의 음향 에코 저감 방법
CN107181853B (zh) * 2016-03-10 2020-10-09 深圳富泰宏精密工业有限公司 麦克风切换方法及应用该方法的电子装置
CN105847497A (zh) * 2016-03-28 2016-08-10 乐视控股(北京)有限公司 一种语音信号处理方法及装置
CN106101365A (zh) * 2016-06-29 2016-11-09 北京小米移动软件有限公司 通话过程中调整麦克风的方法及装置
US20210407668A1 (en) * 2017-02-28 2021-12-30 19Labs, Inc. Systems and methods for maintaining privacy and security while real time monitoring a plurality of patients over the internet
CN106953961A (zh) * 2017-04-28 2017-07-14 苏州科技大学 一种双麦克风的手机语音应用装置及其应用方法
CN107547704A (zh) * 2017-09-28 2018-01-05 奇酷互联网络科技(深圳)有限公司 通话mic的切换方法、装置和移动终端
CN108076226B (zh) * 2017-12-22 2020-08-21 Oppo广东移动通信有限公司 一种通话质量调整的方法、移动终端及存储介质
CN108234766A (zh) * 2017-12-29 2018-06-29 努比亚技术有限公司 麦克风切换方法、移动终端及计算机可读存储介质
US11404073B1 (en) * 2018-12-13 2022-08-02 Amazon Technologies, Inc. Methods for detecting double-talk
CN110166615A (zh) * 2019-05-28 2019-08-23 努比亚技术有限公司 自动切换通话上行信号源的方法、装置、终端及存储介质
US11114109B2 (en) * 2019-09-09 2021-09-07 Apple Inc. Mitigating noise in audio signals
CN110602327B (zh) * 2019-09-24 2021-06-25 腾讯科技(深圳)有限公司 语音通话方法、装置、电子设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100111324A1 (en) 2008-10-31 2010-05-06 Temic Automotive Of North America, Inc. Systems and Methods for Selectively Switching Between Multiple Microphones
US20160227336A1 (en) 2015-01-30 2016-08-04 Knowles Electronics, Llc Contextual Switching of Microphones
US20170064087A1 (en) 2015-08-27 2017-03-02 Imagination Technologies Limited Nearend Speech Detector

Also Published As

Publication number Publication date
WO2021056999A1 (zh) 2021-04-01
CN110602327B (zh) 2021-06-25
EP3920516A1 (en) 2021-12-08
US11875808B2 (en) 2024-01-16
JP2022528683A (ja) 2022-06-15
EP3920516A4 (en) 2022-05-04
EP3920516C0 (en) 2023-12-06
EP3920516B1 (en) 2023-12-06
CN110602327A (zh) 2019-12-20
US20210390969A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
JP7290749B2 (ja) 音声通話方法並びにその、装置、電子機器及びコンピュータプログラム
CN105513596B (zh) 一种语音控制方法和控制设备
US20210375298A1 (en) Voice processing method, apparatus, electronic device, and storage medium
JP5085556B2 (ja) エコー除去の構成
US8842851B2 (en) Audio source localization system and method
US8451312B2 (en) Automatic video stream selection
US20090046866A1 (en) Apparatus capable of performing acoustic echo cancellation and a method thereof
US20220076688A1 (en) Method and apparatus for optimizing sound quality for instant messaging
WO2013127302A1 (zh) 一种防止外放扬声器与麦克风声音串扰的方法及终端
EP2982101A1 (en) Noise reduction
CN109308905B (zh) 音频数据处理方法、装置、电子设备和存储介质
CN107621933B (zh) 一种音频播放方法和装置和相关介质产品
CN104871520B (zh) 回波抑制
EP2636212B1 (en) Controlling audio signals
CN108540680B (zh) 讲话状态的切换方法及装置、通话***
CN106297816B (zh) 一种回声消除的非线性处理方法和装置及电子设备
US9858944B1 (en) Apparatus and method for linear and nonlinear acoustic echo control using additional microphones collocated with a loudspeaker
US20140133647A1 (en) Speaker phone noise suppression method and apparatus
EP3941027A1 (en) Adaptive method and apparatus for intelligent terminal, and terminal
TWI790718B (zh) 會議終端及用於會議的回音消除方法
CN111292760B (zh) 发声状态检测方法及用户设备
CN111294473B (zh) 信号处理方法及装置
CN111930339B (zh) 设备控制方法、装置、存储介质及电子设备
CN111383648B (zh) 一种回波消除方法和装置
CN117373469A (zh) 回声信号消除方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230601

R150 Certificate of patent or registration of utility model

Ref document number: 7290749

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150