DE102022204702A1 - Verfahren und system zur verarbeitung von entfernter aktiver sprache während eines anrufs - Google Patents

Verfahren und system zur verarbeitung von entfernter aktiver sprache während eines anrufs Download PDF

Info

Publication number
DE102022204702A1
DE102022204702A1 DE102022204702.8A DE102022204702A DE102022204702A1 DE 102022204702 A1 DE102022204702 A1 DE 102022204702A1 DE 102022204702 A DE102022204702 A DE 102022204702A DE 102022204702 A1 DE102022204702 A1 DE 102022204702A1
Authority
DE
Germany
Prior art keywords
audio
signal
media content
playback
vad
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022204702.8A
Other languages
English (en)
Inventor
Joseph M. Williams
Eric H. Zhang
Taylor G. Carrigan
Darin B. Adler
David L. Biderman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of DE102022204702A1 publication Critical patent/DE102022204702A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1818Conference organisation arrangements, e.g. handling schedules, setting up parameters needed by nodes to attend a conference, booking network resources, notifying involved parties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/253Telephone sets using digital voice transmission
    • H04M1/2535Telephone sets using digital voice transmission adapted for voice communication over an Internet Protocol [IP] network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
    • H04M7/0081Network operation, administration, maintenance, or provisioning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephone Function (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Computational Linguistics (AREA)

Abstract

Ein Verfahren, das durch eine erste Vorrichtung durchgeführt wird, welches Folgendes einschließt: Durchführen eines Audioanrufs mit einer zweiten Vorrichtung durch Übertragen eines Mikrofonsignals als Uplink-Signal und Empfangen eines Downlink-Signals zum Ansteuern eines ersten Lautsprechers, und während des Durchführens des Audioanrufs Durchführen einer gemeinsamen Medienwiedergabesitzung, in der beide Vorrichtungen unabhängig voneinander ein Stück eines Medieninhalts für die synchrone Wiedergabe derart streamen, dass beide Vorrichtungen ein Audiosignal des Stücks des Medieninhalts zum Ansteuern der entsprechenden Lautsprecher zur gleichen Zeit empfangen, Bestimmen, dass ein Sprechpausenerkennungssignal (VAD-Signal) anzeigt, dass das Downlink-Signal Sprache einschließt, als Reaktion auf das Bestimmen, dass das VAD-Signal anzeigt, dass das Downlink-Signal Sprache einschließt, Verarbeiten des Audiosignals des Stücks des Medieninhalts durch Anlegen einer skalaren Verstärkung und Ansteuern des ersten Lautsprechers mit einer Mischung des Downlink-Signals und des Audiosignals.

Description

  • GEBIET
  • Ein Gesichtspunkt der Offenbarung bezieht sich auf ein Verfahren und ein System zum Verarbeiten von entfernter aktiver Sprache während eines Anrufs. Es werden auch andere Gesichtspunkte beschrieben.
  • HINTERGRUND
  • Viele Vorrichtungen, wie ein Smartphone, sind in der Lage, verschiedene Arten von Telekommunikation mit anderen Vorrichtungen zu verwenden. Zum Beispiel kann ein Smartphone einen Telefonanruf mit einer anderen Vorrichtung durchführen. In diesem Fall, wenn eine Telefonnummer gewählt wird, verbindet sich das Smartphone mit einem Mobilfunknetz, das dann das Smartphone mit einer anderen Vorrichtung (z. B. einem anderen Smartphone oder einem Festnetz) verbinden kann. Darüber hinaus kann das Smartphone auch in der Lage sein, einen Videokonferenzanruf durchzuführen, bei dem Videodaten und Audiodaten mit einer anderen Vorrichtung ausgetauscht werden.
  • KURZDARS TELLUNG
  • Ein Gesichtspunkt der Offenbarung ist ein Verfahren, das von einer ersten elektronischen Vorrichtung (z. B. einer lokalen Vorrichtung) durchgeführt wird, die kommunikativ mit einer Audioausgabevorrichtung, wie einem drahtlosen Headset oder einer am Kopf getragenen Vorrichtung, die mindestens einen Lautsprecher einschließt, gekoppelt sein kann. Zum Beispiel kann die erste elektronische Vorrichtung einen Anruf (z. B. einen Sprachanruf oder einen Videoanruf) zwischen der lokalen Vorrichtung und einer zweiten elektronischen Vorrichtung (z. B. einer entfernten Vorrichtung) initiieren. Während des Anrufs und an der ersten Vorrichtung wird eine gemeinsame Medienwiedergabesitzung eingeleitet, in der die erste und die zweite Vorrichtung unabhängig Medieninhalt (z. B. eine musikalische Komposition, einen Film usw.) für eine synchrone Wiedergabe streamen. Die erste Vorrichtung bestimmt, dass ein Downlink-Signal von der zweiten Vorrichtung Sprache basierend auf der Ausgabe von einem Sprechpausendetektor (VAD - Voice Activity Detector) einschließt. Zum Beispiel kann der VAD ein Algorithmus sein, der lokal auf der ersten Vorrichtung läuft, in der ein Rauschunterdrückungsalgorithmus auf dem Downlink-Signal durchgeführt wird und die Ausgabe des VAD basierend auf dem Downlink-Signal erzeugt wird. In einem anderen Gesichtspunkt kann die Ausgabe des VAD von der zweiten Vorrichtung empfangen werden. Als Reaktion auf das Bestimmen, dass das Downlink-Signal Sprache einschließt, wird eine skalare Verstärkung an ein Audiosignal des Medieninhalts angelegt, um einen Signalpegel des Audiosignals zu verringern, und ein Lautsprecher kann mit einer Mischung des Downlink-Signals und des Audiosignals angesteuert werden. Infolgedessen kann ein Schallpegel des Medieninhalts verringert werden, während ein Benutzer der zweiten Vorrichtung spricht.
  • In einem Gesichtspunkt ist die erste Vorrichtung kommunikativ mit einem drahtlosen Headset gekoppelt, um den Anruf und die gemeinsame Medienwiedergabesitzung durchzuführen. In diesem Fall kann die erste Vorrichtung die Ausgabe des VAD basierend auf einem Beschleunigungsmessersignal erzeugen, das von einem Beschleunigungsmesser des drahtlosen Headsets erzeugt wird. In einem anderen Gesichtspunkt kann die erste Vorrichtung die Ausgabe des VAD von dem drahtlosen Headset empfangen, die der VAD basierend auf dem Beschleunigungsmessersignal erzeugt.
  • In einigen Gesichtspunkten schließt der Medieninhalt ein Videosignal und das Audiosignal ein, sodass das Einleiten der gemeinsamen Medienwiedergabesitzung das Anzeigen des Videosignals auf einem Anzeigebildschirm und das Ansteuern des Lautsprechers mit der Mischung des Downlink-Signals und des Audiosignals einschließt. In einem anderen Gesichtspunkt bestimmt die erste Vorrichtung einen Signalpegel des Downlink-Signals und als Reaktion darauf, dass der Signalpegel über einem Schwellenwert liegt oder als Reaktion auf das Bestimmen, dass das Downlink-Signal basierend auf der Ausgabe des VAD Sprache einschließt, zeigt die erste Vorrichtung auf dem Anzeigebildschirm Untertitel an, die den Audioinhalt darstellen, der in dem Audiosignal des Medieninhalts enthalten ist.
  • In einem Gesichtspunkt bestimmt die erste Vorrichtung einen ersten Zeitstempel entlang einer Wiedergabedauer des Medieninhalts, an dem die Ausgabe von dem VAD anzuzeigen beginnt, dass das Downlink-Signal Sprache einschließt, und bestimmt einen zweiten Zeitstempel nach dem ersten Zeitstempel entlang der Wiedergabedauer des Medieninhalts, an dem eine Bestimmung durchgeführt wird, in der die Ausgabe von dem VAD angibt, dass das Downlink-Signal darauf hinweist, dass Sprache eingeschlossen ist. Als Reaktion darauf spult die erste Vorrichtung die Wiedergabe des Medieninhalts zurück, indem die Wiedergabe des Medieninhalts an oder nach dem zweiten Zeitstempel angehalten wird, und beginnt die Wiedergabe des Medieninhalts, der am ersten Zeitstempel entlang der Wiedergabedauer beginnt. In einem anderen Gesichtspunkt kann die erste Vorrichtung als Reaktion auf die Bestimmung, dass die Ausgabe von dem VAD anzeigt, dass das Downlink-Signal aufgehört hat, Sprache einzuschließen, eine Benachrichtigung (z. B. eine Popup-Benachrichtigung, die auf einem Anzeigebildschirm der ersten Vorrichtung angezeigt wird) bereitstellen, welche die Benutzerautorisierung anfordert, um die Wiedergabe des Medieninhalts zurückspulen zu lassen.
  • In einem Gesichtspunkt kann der mit der zweiten Vorrichtung initiierte Anruf ein Telefonanruf (z. B. ein Nur-Sprach-Anruf) sein. Ein weiterer Gesichtspunkt der Offenbarung ist ein Verfahren, das von der ersten Vorrichtung durchgeführt wird, in der die erste Vorrichtung gleichzeitig einen Videokonferenzanruf und eine gemeinsame Medienwiedergabesitzung mit der zweiten Vorrichtung durchführt. Die erste Vorrichtung bestimmt, dass ein Benutzer der zweiten Vorrichtung basierend auf dem Audioinhalt des Videokonferenzanrufs zu sprechen beginnt, und verringert als Reaktion auf das Bestimmen, dass der Benutzer zu sprechen beginnt, einen Lautstärkepegel des Audioinhalts von einem Medieninhalt, welcher der gemeinsamen Medienwiedergabesitzung zugeordnet ist. In einem Gesichtspunkt kann die erste Vorrichtung als Reaktion auf das Bestimmen, dass der Benutzer der zweiten Vorrichtung aufhört zu sprechen (z. B. basierend auf dem Audioinhalt des Videokonferenzanrufs), den Lautstärkepegel des Audioinhalts des Medieninhalts auf einen vorherigen Pegel von vor der Verringerung des Lautstärkepegels erhöhen.
  • Die vorstehende Zusammenfassung schließt keine erschöpfende Aufzählung aller Gesichtspunkte der Offenbarung ein. Die Offenbarung soll alle in die Praxis umsetzbaren Systeme und Verfahren aus allen geeigneten Kombinationen der oben zusammengefassten, verschiedenen Gesichtspunkte einschließen, ebenso wie solche, die in der nachstehenden ausführlichen Beschreibung offenbart werden und die in den Ansprüchen ausdrücklich genannt sind. Solche Kombinationen können bestimmte Vorteile aufweisen, die in der obigen Kurzdarstellung nicht spezifisch angegeben sind.
  • Figurenliste
  • Die Gesichtspunkte werden in beispielhafter und nicht einschränkender Weise in den Figuren der begleitenden Zeichnungen veranschaulicht, in denen gleiche Bezugszeichen gleiche Elemente angeben. Es sei darauf hingewiesen, dass sich Verweise auf „einen“ Gesichtspunkt dieser Offenbarung nicht notwendigerweise auf denselben Gesichtspunkt beziehen, und sie bedeuten mindestens einen. Außerdem kann im Interesse der Kürze und des Reduzierens der Gesamtzahl von Figuren eine gegebene Figur verwendet werden, um die Merkmale von mehr als einem Gesichtspunkt zu veranschaulichen, und möglicherweise sind nicht alle Elemente in der Figur für einen gegebenen Gesichtspunkt erforderlich.
    • 1 zeigt ein Audiosystem, das eine lokale Vorrichtung und eine oder mehrere entfernte Vorrichtungen einschließt, die in einen Anruf eingreifen, während eine gemeinsame Medienwiedergabesitzung gemäß einem Gesichtspunkt durchgeführt wird.
    • 2 zeigt ein Blockdiagramm der lokalen Vorrichtung, das eine gemeinsame Wiedergabemediensitzung einleitet, während sie in einem Anruf mit der einen oder den mehreren entfernten Vorrichtungen in Eingriff steht, und einer Audioausgabevorrichtung, die drahtlos mit der lokalen Vorrichtung gemäß einem Gesichtspunkt kommuniziert.
    • 3 veranschaulicht mehrere Stufen, in denen eine lokale Vorrichtung und eine entfernte Vorrichtung eine gemeinsame Wiedergabemediensitzung einleiten, um eine musikalische Komposition synchron wiederzugeben, während sie in einem Telefonanruf gemäß einem Gesichtspunkt in Eingriff stehen.
    • 4 veranschaulicht mehrere Stufen, in denen die lokale Vorrichtung und die entfernte Vorrichtung eine gemeinsame Wiedergabemediensitzung einleiten, um einen Film synchron wiederzugeben, während sie in einem Videoanruf gemäß einem Gesichtspunkt in Eingriff stehen.
    • 5 zeigt ein Blockdiagramm der lokalen Vorrichtung, die Audiosignalverarbeitungsvorgänge aufgrund eines Audiosignals des Medieninhalts durchführt, basierend darauf, ob Sprache innerhalb eines Signals eines Telefonanrufs erfasst wird, der zwischen der lokalen Vorrichtung und der entfernten Vorrichtung gemäß einem Gesichtspunkt durchgeführt wird.
    • 6 zeigt ein Blockdiagramm der lokalen Vorrichtung, die Audiosignalverarbeitungsvorgänge aufgrund des Audiosignals des Medieninhalts durchführt, basierend darauf, ob Sprache durch eine Audioausgabevorrichtung gemäß einem Gesichtspunkt erfasst wird.
    • 7 zeigt ein Blockdiagramm der lokalen Vorrichtung, die Audiosignalverarbeitungsvorgänge durchführt, basierend darauf, ob Sprache innerhalb eines Signals eines Videoanrufs gemäß einem Gesichtspunkt erfasst wird.
    • 8 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses zum Verarbeiten eines Audiosignals des Medieninhalts basierend darauf, ob Sprache innerhalb des Downlink-Audiosignals erfasst wird.
    • 9 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses zum Anzeigen von Untertiteln, die den Audioinhalt des Medieninhalts darstellen.
    • 10 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses zum Wiedergaberückspulen von Medieninhalten aufgrund einer Bestimmung, dass das Downlink-Audiosignal aufgehört hat, Sprache einzuschließen.
    • 11 zeigt ein Blockdiagramm, in dem die lokale Vorrichtung 2 über eine bidirektionale drahtlose Audioverbindung mit Audioausgabevorrichtung 6 zum Austauschen von Audiodaten kommunikativ gekoppelt ist, während die lokale Vorrichtung in einem Anruf mit einer entfernten Vorrichtung 3 gemäß einem Gesichtspunkt in Eingriff steht.
    • 12 zeigt ein Blockdiagramm, in dem die lokale Vorrichtung 2 über eine bidirektionale drahtlose Audioverbindung während einer gemeinsamen Medienwiedergabesitzung und eines Anrufs mit der entfernten Vorrichtung 3 gemäß einem Gesichtspunkt kommunikativ mit der Audioausgabevorrichtung 6 gekoppelt ist.
    • 13a und 13b zeigen mehrere Blockdiagramme, in denen die lokale Vorrichtung 2, die kommunikativ mit der Audioausgabevorrichtung 6 gekoppelt ist, zwischen drahtlosen Audioverbindungen, basierend auf der Initiierung der gemeinsamen Medienwiedergabesitzung gemäß einem Gesichtspunkt, umschaltet.
    • 14 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses zum Hin- und Herschalten zwischen drahtlosen Audioverbindungen.
    • 15 ist ein Flussdiagramm eines anderen Gesichtspunkts eines Prozesses zum Hin- und Herschalten zwischen drahtlosen Audioverbindungen.
    • 16 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses zum Bestimmen, ob zwischen drahtlosen Audioverbindungen basierend auf einem oder mehreren Kriterien umgeschaltet werden soll.
    • 17 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses, der durch die Audioausgabevorrichtung zum Umschalten zwischen drahtlosen Audioverbindungen durchgeführt wird.
    • 18 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses, der durch die Audioausgabevorrichtung durchgeführt wird, zum Umschalten von der unidirektionalen drahtlosen Audioverbindung auf die bidirektionale drahtlose Audioverbindung, basierend darauf, ob Sprache erkannt wird.
  • DETAILLIERTE BESCHREIBUNG
  • Mehrere Gesichtspunkte der Offenbarung werden nun unter Bezugnahme auf die beigefügten Zeichnungen erklärt. In Fällen, in denen die Formen, relativen Positionen und anderen Gesichtspunkte der gemäß einem gegebenen Gesichtspunkt beschriebenen Teile nicht klar definiert sind, ist der Schutzumfang der Offenbarung hier nicht nur auf die gezeigten Teile beschränkt, die lediglich zum Zweck der Veranschaulichung vorgesehen sind. Auch wenn zahlreiche Details dargelegt werden, versteht es sich außerdem, dass manche Gesichtspunkte ohne diese Details ausgeführt werden können. In anderen Fällen wurden allgemein bekannte Schaltungen, Strukturen und Techniken nicht im Detail gezeigt, um das Verständnis dieser Beschreibung nicht zu verunklaren. Ferner werden, sofern die Bedeutung nicht eindeutig gegenteilig ist, alle hierin dargelegten Bereiche als die Endpunkte jedes Bereichs einschließend angesehen.
  • 1 zeigt ein Audiosystem 1, das eine lokale Vorrichtung und eine oder mehrere entfernte Vorrichtungen einschließt, die in einen Anruf eingreifen, während eine gemeinsame Medienwiedergabesitzung gemäß einem Gesichtspunkt durchgeführt wird. Wie hierin beschrieben, kann dies Benutzern der Vorrichtungen ermöglichen, Medieninhalte (z. B. auf einer oder mehreren der Vorrichtungen) zu hören (und/oder anzusehen), während sie an einem Gespräch miteinander teilnehmen. Das Audiosystem schließt eine lokale (oder erste elektronische) Vorrichtung 2, eine entfernte (oder zweite elektronische) Vorrichtung 3, ein Netzwerk 4 (z. B. ein Computernetzwerk wie das Internet), einen Medieninhaltsserver 5 und eine Audioausgabevorrichtung 6 ein. Gemäß einem Gesichtspunkt kann das System mehr oder weniger Elemente einschließen. Zum Beispiel kann das System eine oder mehrere entfernte Vorrichtungen aufweisen, wobei alle Vorrichtungen in dem Anruf und die gemeinsame Medienwiedergabevorrichtung miteinander und mit der lokalen Vorrichtung in Eingriff stehen, wie hierin beschrieben. In einem anderen Gesichtspunkt kann das Audiosystem einen oder mehrere entfernte (elektronische) Server einschließen, die kommunikativ mit mindestens einigen der Vorrichtungen des Audiosystems 1 gekoppelt sind und konfiguriert sein können, um mindestens einige der hierin beschriebenen Vorgänge durchzuführen. In einem anderen Gesichtspunkt muss das System keine Audioausgabevorrichtung einschließen. In diesem Fall kann die lokale Vorrichtung Audioausgabevorgänge durchführen (z. B. unter Verwendung eines oder mehrerer Signale, um einen oder mehrere Lautsprecher anzusteuern).
  • In einem Gesichtspunkt kann die lokale Vorrichtung (und/oder die entfernte Vorrichtung) eine beliebige elektronische Vorrichtung sein (z. B. mit elektronischen Komponenten wie einem Prozessor, Speicher usw.), die in der Lage ist, in einen Anruf einzugreifen, wie ein Telefon (oder „Nur-Sprache“-Anruf) oder ein Video-Anruf (Konferenzanruf), während eine gemeinsame Medienwiedergabesitzung mit einer oder mehreren anderen Vorrichtungen (z. B. einer oder mehreren entfernten Vorrichtungen) durchgeführt wird, in denen (mindestens einige davon) die Vorrichtungen gleichzeitig Medieninhalte (z. B. eine musikalische Komposition, einen Film usw.) wiedergeben. Mehr zur gleichzeitigen Wiedergabe von Medieninhalten wird hierin beschrieben. Zum Beispiel kann die lokale Vorrichtung ein Desktop-Computer, ein Laptop-Computer, ein digitaler Media-Player usw. sein. In einem Gesichtspunkt kann die Vorrichtung eine tragbare elektronische Vorrichtung sein (z. B. als Handgerät betrieben), wie ein Tablet-Computer, ein Smartphone usw. In einem anderen Gesichtspunkt kann die Vorrichtung eine am Kopf montierte Vorrichtung wie eine intelligente Brille oder eine tragbare Vorrichtung wie eine Smartwatch sein. In einem Gesichtspunkt kann/können die entfernte(n) Vorrichtung(en) die gleiche Art von Vorrichtung wie die lokale Vorrichtung sein (z. B. sind beide Vorrichtungen Smartphones). In einem anderen Gesichtspunkt können mindestens einige der entfernten Vorrichtungen unterschiedlich, wie einige Desktop-Computer, sein, während andere Smartphones sind.
  • Wie veranschaulicht, ist die lokale Vorrichtung 2 mit der entfernten Vorrichtung 3 und/oder dem Medieninhaltsserver 5 über das Computernetzwerk (z. B. Internet) 4 gekoppelt (z.B. kommunikativ). Insbesondere können die lokalen und entfernten Vorrichtungen konfiguriert sein, um einen Telefonanruf (oder Nur-Sprache-Anruf), in dem die Vorrichtungen, die innerhalb der Anruf-Audio-Austauschdaten in Eingriff stehen, einzurichten und in ihn einzugreifen. Beispielsweise überträgt jede Vorrichtung mindestens ein Mikrofonsignal als Uplink-Audiosignal an die anderen Vorrichtungen, die in dem Anruf in Eingriff stehen, und empfängt mindestens ein Audiosignal als Downlink-Audiosignal von den anderen Vorrichtungen zur Wiedergabe durch einen oder mehrere Lautsprecher. In einem Gesichtspunkt kann das Netzwerk ein öffentliches Telefonnetz (PSTN) einschließen, über das die lokale Vorrichtung und die entfernte(n) Vorrichtung(en) in der Lage sein können, ausgehende Anrufe zu platzieren und/oder eingehende Anrufe zu empfangen. In einem anderen Gesichtspunkt kann die lokale Vorrichtung konfiguriert sein, um ein Internetprotokoll- (IP) Telefonat (oder ein Voiceover-IP-Telefonat (VoIP)) mit einer oder mehreren entfernten Vorrichtungen über das Netzwerk (z. B. das Internet) einzurichten. Insbesondere kann die lokale Vorrichtung jedes Signalisierungsprotokoll (z. B. Session Initiation Protocol (SIP)) verwenden, um eine Kommunikationssitzung einzurichten und ein beliebiges Kommunikationsprotokoll (z. B. Übertragungssteuerungsprotokoll (TCP), Real-time Transport Protocol (RTP) usw.) zu verwenden, um Audiodaten während eines Anrufs auszutauschen. Wenn zum Beispiel ein Anruf eingeleitet wird (z. B. durch eine Telefon-Anwendung, die innerhalb der lokalen Vorrichtung ausgeführt wird), kann die lokale Vorrichtung ein oder mehrere Mikrofonsignale übertragen, die von einem oder mehreren Mikrofonen (z. B. als ein Uplink-Audiosignal) als Audiodaten (z. B. IP-Pakete) an eine oder mehrere entfernte Vorrichtungen erfasst werden, und eines oder mehrere Signale (z. B. Downlink-Audiosignale) von den entfernten Vorrichtungen zum Ansteuern eines oder mehrerer Lautsprecher der lokalen Vorrichtung über das Netzwerk empfangen. In einem anderen Gesichtspunkt kann die lokale Vorrichtung konfiguriert sein, um einen drahtlosen Anruf (z. B. über Mobilfunk) einzurichten. In diesem Fall kann das Netzwerk 4 einen oder mehrere Zellentürme einschließen, die Teil eines Kommunikationsnetzwerks sein können (z. B. ein 4G-Long Term Evolution-Netzwerk (LTE-Netzwerk)), die Datenübertragung (und/oder Sprachanrufe) für elektronische Vorrichtungen wie mobile Vorrichtungen (z. B. Smartphones) unterstützen.
  • In einem anderen Gesichtspunkt können die lokalen und entfernten Vorrichtungen konfiguriert sein, um einen Videoanruf mit einem oder mehreren entfernten Vorrichtungen 3 einzurichten und in diesen einzugreifen. In diesem Fall kann die lokale Vorrichtung den Videoanruf einrichten (z. B. ähnlich wie eine VoIP, unter Verwendung von SIP, um die Sitzung und RTP zum Übertragen von Daten einzuleiten), und wenn eingerichtet, Video- und/oder Audiodaten mit einer oder mehreren entfernten Vorrichtungen austauschen. Zum Beispiel kann die lokale Vorrichtung eine oder mehrere Kameras einschließen, die ein Video erfassen, das unter Verwendung eines beliebigen Videocodec (z. B. H.264) codiert und an die entfernten Vorrichtungen zum Decodieren und Anzeigen auf einem oder mehreren Anzeigebildschirmen übertragen wird. Mehr über Anrufe wird hierin beschrieben.
  • In einigen Gesichtspunkten kann der Medieninhaltsserver 5 ein eigenständiger Server-Computer oder eine Gruppe von Server-Computern sein, die konfiguriert sind, um Medieninhalte an elektronische Vorrichtungen, wie die lokalen und entfernten Vorrichtungen, zu streamen. In diesem Fall kann der Server ein Teil eines Cloud-Rechensystems sein, das in der Lage ist, Daten als einen cloud-basierten Dienst zu streamen, der einem oder mehreren Teilnehmern bereitgestellt wird. In einigen Gesichtspunkten kann der Server konfiguriert sein, um jede Art von Medien- (oder Multi-Media) Inhalt, wie Audioinhalt (z. B. musikalische Kompositionen, Hörbücher, Podcasts usw.), sogar Bilder, Videoinhalte (z. B. Filme, Fernsehproduktionen usw.) usw. zu streamen. In einem Gesichtspunkt kann der Server jedes Audio- und/oder Videocodierungsformat und/oder ein beliebiges Verfahren zum Streamen des Inhalts an eine oder mehrere Vorrichtungen verwenden.
  • In einem Gesichtspunkt kann der Medieninhaltsserver 5 konfiguriert sein, um gleichzeitig Medieninhalte an eine oder mehrere Vorrichtungen zu streamen, um zu ermöglichen, dass die Vorrichtungen in eine gemeinsame Medienwiedergabesitzung eingreifen. Zum Beispiel kann der Server eine Anforderung von einer Vorrichtung (z. B. der lokalen Vorrichtung 2) empfangen, um ein Stück Medieninhalt zu streamen, der einen Audioinhalt (z. B. eine musikalische Komposition) und/oder einen Videoinhalt (z. B. ein Videosignal, das einem Film zugeordnet ist) mit einer anderen Vorrichtung (z. B. eine entfernte Vorrichtung 3) einschließen kann. In einem Gesichtspunkt kann die Anforderung von der lokalen Vorrichtung (und/oder der/den entfernten Vorrichtung(en)) als Reaktion darauf übertragen werden, dass die Vorrichtung die Benutzereingabe empfängt, um zu beginnen, den Medieninhalt wiederzugeben, wie in 3 und 4 gezeigt. In diesem Fall kann der Server eine Kommunikationsverbindung sowohl mit der lokalen Vorrichtung als auch der/den entfernten Vorrichtung(en) einrichten, die bereits in einem Anruf (z. B. Telefon und/oder Video) in Eingriff stehen. Nach dem Einrichten kann der Server den Audioinhalt unter Verwendung eines beliebigen Codecs (z. B. MP3, AAC usw.) codieren und/oder Videoinhalte unter Verwendung eines beliebigen Codecs codieren und den codierten Inhalt an jede Vorrichtung übertragen, um decodiert und ausgegeben zu werden. In einem anderen Gesichtspunkt kann die lokale Vorrichtung eine Nachricht an die entfernte Vorrichtung senden, die anfordert, eine gemeinsame Medienwiedergabesitzung einzuleiten. Als Reaktion darauf kann die entfernte Vorrichtung mit dem Medieninhaltsserver kommunizieren, um den Medieninhalt abzurufen und die Wiedergabe mit der lokalen Vorrichtung zu synchronisieren. In einem Gesichtspunkt können Vorrichtungen, die an der gemeinsamen Medienwiedergabesitzung teilnehmen, Medieninhalte synchron ausgeben, sodass der Inhalt ausgegeben wird und gleichzeitig von Benutzern erfahren wird. In einigen Gesichtspunkten kann jedes Zeitsynchronisationsverfahren verwendet werden (z. B. durch die Vorrichtungen, die an der Sitzung und/oder dem Server beteiligt sind), um sicherzustellen, dass das Medium gleichzeitig und synchron gestreamt wird. Mehr über die gemeinsame Medienwiedergabesitzung wird hierin beschrieben.
  • Wie veranschaulicht, kann die Audioausgabevorrichtung 6 jede elektronische Vorrichtung sein, die mindestens einen Lautsprecher einschließt und konfiguriert ist, um Ausgangsschall durch Ansteuern des Lautsprechers durchzuführen. Zum Beispiel ist die Vorrichtung, wie veranschaulicht, ein drahtloses Headset (z. B. In-Ear-Kopfhörer oder Ohrhörer), das ausgelegt ist, um an (oder in) den Ohren des Benutzers positioniert zu werden, und dazu ausgelegt ist, Schall in den Gehörgang des Benutzers auszugeben. Gemäß einigen Gesichtspunkten kann der Ohrhörer vom abdichtenden Typ sein, der einen flexible Ohrstöpsel aufweist, der dazu dient, den Eingang des Gehörgangs des Benutzers akustisch von der Umgebung abzuschotten, indem er den Gehörgang blockiert oder verschließt. Wie gezeigt, schließt die Ausgabevorrichtung einen linken Ohrhörer für das linke Ohr des Benutzers und einen rechten Ohrhörer für das rechte Ohr des Benutzers ein. In diesem Fall kann jeder Ohrhörer konfiguriert sein, um mindestens einen Audiokanal von Medieninhalt auszugeben (z. B. der rechte Ohrhörer, der einen rechten Audiokanal ausgibt, und der linke Ohrhörer, der einen linken Audiokanal einer Zweikanaleingabe einer stereophonischen Aufzeichnung, wie eines musikalischen Werks, ausgibt). Gemäß einem anderen Gesichtspunkt kann die Ausgabevorrichtung eine beliebige elektronische Vorrichtung sein, die mindestens einen Lautsprecher einschließt und so angeordnet ist, dass sie vom Benutzer getragen werden kann und durch Ansteuern des Lautsprechers mit einem Audiosignal Schall ausgibt. Als weiteres Beispiel kann die Ausgabevorrichtung jede Art von Headset sein, wie ein Over-the-Ear- (oder On-the-Ear) Headset, das die Ohren des Benutzers zumindest teilweise abdeckt und angeordnet ist, um Schall in die Ohren des Benutzers zu leiten.
  • In einigen Gesichtspunkten kann die Audioausgabevorrichtung eine am Kopf getragene Vorrichtung sein, wie hierin veranschaulicht. In einem weiteren Gesichtspunkt kann die Audioausgabevorrichtung eine beliebige elektronische Vorrichtung sein, die angeordnet ist, um Schall an die räumliche Umgebung auszugeben. Beispiele schließen einen eigenständigen Lautsprecher, einen intelligenten Lautsprecher, ein Heimkinosystem oder ein Infotainmentsystem ein, das in ein Fahrzeug integriert ist.
  • In einem Gesichtspunkt kann die Ausgabevorrichtung eine drahtlose Vorrichtung sein, die kommunikativ mit der lokalen Vorrichtung gekoppelt sein kann, um Audiodaten auszutauschen. Zum Beispiel kann die lokale Vorrichtung konfiguriert sein, um eine drahtlose Verbindung mit der Audioausgabevorrichtung über ein drahtloses Kommunikationsprotokoll einzurichten (z. B. über ein BLUETOOTH-Protokoll oder ein beliebiges anderes drahtloses Kommunikationsprotokoll). Während der eingerichteten drahtlosen Verbindung kann die lokale Vorrichtung Datenpakete (z. B. Internetprotokoll (IP) -Pakete) mit der Audioausgabevorrichtung austauschen (z. B. senden und empfangen), die audiodigitale Daten in einem beliebigen Audioformat einschließen können. Insbesondere kann die lokale Vorrichtung konfiguriert sein, um die Audioausgabevorrichtung über eine bidirektionale drahtlose Audioverbindung einzurichten und zu kommunizieren (was beispielsweise beiden Vorrichtungen ermöglicht, Audiodaten auszutauschen), zum Beispiel um einen freihändigen Anruf zu führen oder Sprachbefehle zu verwenden. Beispiele für ein bidirektionales drahtloses Kommunikationsprotokoll schließen ohne Einschränkung das Hands-Free-Profile (HFP) und das Headset-Profile (HSP) ein, die beide BLUETOOTH-Kommunikationsprotokolle sind. In einem anderen Gesichtspunkt kann die lokale Vorrichtung konfiguriert sein, um mit der Ausgabevorrichtung eine unidirektionale drahtlose Audioverbindung, wie (z. B. Advanced Audio Distribution Profile (A2DP) -Protokoll), einzurichten und über sie zu kommunizieren, was der lokalen Vorrichtung ermöglicht, Audiodaten an eine oder mehrere Audioausgabevorrichtungen zu übertragen. Mehr über diese drahtlosen Audioverbindungen wird hierin beschrieben.
  • In einem anderen Gesichtspunkt kann die lokale Vorrichtung 2 mit der Audioausgabevorrichtung 6 über andere Verfahren kommunikativ koppeln. Zum Beispiel können beide Vorrichtungen über eine drahtgebundene Verbindung koppeln. In diesem Fall kann ein Ende der drahtgebundenen Verbindung (z. B. fest) mit der Audioausgabevorrichtung verbunden sein, während ein anderes Ende einen Verbinder, wie einen Medienanschluss oder einen universellen seriellen Bus (USB) -Steckverbinder, aufweisen kann, der in eine Buchse der Audioquellenvorrichtung eingesteckt ist. Nach dem Verbinden kann die lokale Vorrichtung konfiguriert sein, um einen oder mehrere Lautsprecher der Audioausgabevorrichtung mit einem oder mehreren Audiosignalen über die drahtgebundene Verbindung anzusteuern. Zum Beispiel kann die lokale Vorrichtung die Audiosignale als digitales Audio (z. B. PCM-digitales Audio) übertragen. In einem anderen Gesichtspunkt kann das Audio in analogem Format übertragen werden.
  • In einigen Gesichtspunkten können die lokale Vorrichtung 2 und die Audioausgabevorrichtung 6 unterschiedliche (separate) elektronische Vorrichtungen sein, wie hierin gezeigt. In einem anderen Gesichtspunkt kann die lokale Vorrichtung ein Teil der Audioausgabevorrichtung (oder damit integriert) sein. Zum Beispiel können, wie hierin beschrieben, mindestens einige der Komponenten der lokalen Vorrichtung (wie eine Steuerung) Teil der Audioausgabevorrichtung sein, und/oder mindestens einige der Komponenten der Audioausgabevorrichtung können Teil der lokalen Vorrichtung sein. In diesem Fall kann jede der Vorrichtungen über Leiterbahnen kommunikativ gekoppelt sein, die Teil einer oder mehrerer Leiterplatten (PCBs) innerhalb der Audioausgabevorrichtung sind.
  • 2 zeigt ein Blockdiagramm der lokalen Vorrichtung 2, die eine gemeinsame Wiedergabemediensitzung einleitet, während sie in einem (z. B. Sprach- oder Video-) Anruf mit der einen oder den mehreren entfernten Vorrichtungen 3 verbunden ist, und zeigt eine Audioausgabevorrichtung 6, die drahtlos mit der lokalen Vorrichtung gemäß einem Gesichtspunkt kommuniziert. Die lokale Vorrichtung 2 schließt eine Steuerung 20, eine Netzwerkschnittstelle 21, einen Lautsprecher 22, ein Mikrofon 23, eine Kamera 24, einen Anzeigebildschirm 25 und (optional) einen oder mehrere zusätzliche Sensoren 40 ein. In einem Gesichtspunkt kann die Quellenvorrichtung mehr oder weniger Elemente wie hierin beschrieben einschließen. Zum Beispiel kann die Vorrichtung zwei oder mehr von mindestens einigen der Elemente (z. B. mit zwei oder mehr Mikrofonen 23) einschließen.
  • Die Steuerung 20 kann ein Spezialprozessor wie eine anwendungsspezifische integrierte Schaltung (Application-Specific Integrated Circuit, ASIC), ein Universalmikroprozessor, eine feldprogrammierbare Gatteranordnung (Field-Programmable Gate Array, FPGA), eine digitale Signalsteuerung oder ein Satz von Hardware-Logikstrukturen (z. B. Filter, arithmetisch-logische Einheiten und dedizierte Zustandsmaschinen) sein. Die Steuerung ist konfiguriert, um Audiosignalverarbeitungsvorgänge und/oder Netzwerkvorgänge durchzuführen. Zum Beispiel kann die Steuerung 20 konfiguriert sein, um in einen Anruf einzugreifen und gleichzeitig eine gemeinsame Medienwiedergabesitzung durchzuführen, um Medieninhalte mit einer oder mehreren entfernten Vorrichtungen über die Netzwerkschnittstelle 21 zu streamen. In einem anderen Gesichtspunkt kann die Steuerung konfiguriert sein, um Audiosignalverarbeitungsvorgänge bei Audiodaten des Medieninhalts und/oder Audiodaten (z. B. einem Downlink-Signal) durchzuführen, die einem in Eingriff stehendem Anruf zugeordnet sind. Mehr zu den Vorgängen, die von der Steuerung 20 durchgeführt werden, wird hierin beschrieben.
  • In einem Gesichtspunkt sind der eine oder die mehreren Sensoren 40 konfiguriert, um die Umgebung (in der sich z. B. die lokale Vorrichtung befindet) zu erfassen und Sensordaten basierend auf der Umgebung zu erzeugen. In einigen Gesichtspunkten kann die Steuerung eingerichtet sein, um Vorgänge basierend auf den Sensordaten durchzuführen, die von einem oder mehreren Sensoren 40 erzeugt werden. Zum Beispiel kann die lokale Vorrichtung einen (z. B. optischen) Näherungssensor einschließen, der ausgelegt ist, um Sensordaten zu erzeugen, die angeben, dass sich ein Objekt in einem bestimmten Abstand von dem Sensor (und/oder der lokalen Vorrichtung) befindet. Als weiteres Beispiel kann die lokale Vorrichtung eine Trägheitsmesseinheit (IMU) einschließen, die dazu ausgelegt ist, die Position und/oder Ausrichtung der lokalen Vorrichtung zu messen. In einem Gesichtspunkt können die Sensoren ein Teil der lokalen Vorrichtung (oder darin integriert) sein. In einem anderen Gesichtspunkt können Sensoren separate elektronische Vorrichtungen sein, die kommunikativ mit der Steuerung gekoppelt sind (z. B. über die Netzwerkschnittstelle 21). Zum Beispiel kann die Audioausgabevorrichtung 6 einen oder mehrere Sensoren einschließen, von denen Daten der lokalen Vorrichtung über eine drahtlose Verbindung bereitgestellt werden können.
  • Der Lautsprecher 22 kann ein elektrodynamischer Treiber sein, der speziell zur Schallausgabe in bestimmten Frequenzbändern ausgelegt sein kann, wie zum Beispiel ein Tieftöner, ein Hochtöner oder ein Mitteltöner. In einem Gesichtspunkt kann der Lautsprecher 22 ein elektrodynamischer „Vollbereichs“-Treiber (oder „Vollband“-Treiber) sein, der einen möglichst großen hörbaren Frequenzbereich wiedergibt. Das Mikrofon 23 kann jeder Typ von Mikrofon (z. B. ein Kondensatormikrofon in Mikrosystemtechnik (MEMS-Mikrofon)) sein, das dazu ausgelegt ist, akustische Energie, die durch eine Schallschwelle verursacht wird, die sich in einer akustischen Umgebung ausbreitet, in ein Mikrofoneingangssignal umzuwandeln.
  • In einem Gesichtspunkt ist die Kamera 24 ein komplementärer Metalloxid-Halbleiter-Bildsensor (CMOS-Bildsensor), der in der Lage ist, digitale Bilder einschließlich Bilddaten aufzunehmen, die ein Sichtfeld der Kamera 24 darstellen, wobei das Sichtfeld eine Szene einer Umgebung einschließt, in der sich die Vorrichtung 2 befindet. In einigen Gesichtspunkten kann die Kamera vom Typ einer ladungsgekoppelten Kamera (CCD-Kamera) sein. Die Kamera ist konfiguriert, um digitale Standbilder und/oder Videos aufzunehmen, die durch eine Reihe digitaler Bilder dargestellt werden. In einem Gesichtspunkt kann die Kamera irgendwo über der lokalen Vorrichtung positioniert sein. In einigen Gesichtspunkten kann die Vorrichtung mehrere Kameras einschließen (wobei z. B. jede Kamera ein anderes Sichtfeld aufweisen kann).
  • Der Anzeigebildschirm 25 ist dazu ausgelegt, digitale Bilder oder Videos von Video- (oder Bild-) Daten darzustellen (oder anzuzeigen). In einem Gesichtspunkt kann der Anzeigebildschirm die Technologie der Flüssigkristallanzeige (LCD), die Technologie der lichtemittierenden Polymeranzeige (LPD) oder die Technologie der Leuchtdiode (LED) verwenden, obwohl andere Anzeigetechnologien in anderen Gesichtspunkten verwendet werden können. In einigen Gesichtspunkten ist die Anzeige ein berührungsempfindlicher Anzeigebildschirm, der konfiguriert ist, um eine Benutzereingabe als Eingangssignale zu erfassen. In einigen Gesichtspunkten kann die Anzeige beliebige Berührungserfassungstechnologien verwenden, einschließlich, aber nicht darauf beschränkt, kapazitiver, resistiver, Infrarot- und Oberflächenwellentechnologien.
  • Die Audioausgabevorrichtung 6 schließt eine Steuerung 75, eine Netzwerkschnittstelle 76, einen Lautsprecher 77, ein Mikrofon 78 und einen Beschleunigungsmesser 79 ein. In einem Gesichtspunkt kann die Vorrichtung mehr oder weniger Elemente einschließen. Zum Beispiel kann die Ausgabevorrichtung ein oder mehrere Mikrophone und einen oder mehrere Lautsprecher einschließen. In einigen Gesichtspunkten kann die Vorrichtung ein Mikrofon einschließen, das ein „externes“ (oder Referenz-) Mikrofon ist, das eingerichtet ist, um Schall aus der akustischen Umgebung zu erfassen, während es mindestens ein anderes „internes“ (oder Fehler-) Mikrofon aufweist, das eingerichtet ist, um Schall (und/oder Druckänderungen) im Ohr (oder Gehörgang) eines Benutzers zu erfassen. Im Falle eines In-Ear-Kopfhörers kann das interne Mikrofon innerhalb des Ohrs des Benutzers erfassen, wenn der Kopfhörer auf (oder in) dem Ohr des Benutzers positioniert ist.
  • Der Beschleunigungsmesser 79 ist eingerichtet und konfiguriert, um Sprachvibrationen zu empfangen (zu erfassen oder zu fühlen), die erzeugt werden, während ein Benutzer (z. B. derjenige, der die Ausgabevorrichtung trägt) spricht, und ein Beschleunigungsmessersignal erzeugt, das die Sprachschwingungen darstellt (oder enthält). Insbesondere ist der Beschleunigungsmesser konfiguriert, um Knochenleitungsvibrationen zu erfassen, die von den Stimmbändern des Benutzers an das Ohr (den Ohrkanal) des Benutzers übertragen werden, während er spricht und/oder summt. Wenn zum Beispiel die Audioausgabevorrichtung ein drahtloses Headset ist, kann der Beschleunigungsmesser irgendwo an oder innerhalb des Kopfhörers positioniert sein, was einen Abschnitt des Körpers des Benutzers berühren kann, um Vibrationen zu erfassen.
  • In einem Gesichtspunkt ist die Steuerung 75 konfiguriert, um Audiosignalverarbeitungsvorgänge und/oder Netzwerkvorgänge durchzuführen, wie hierin beschrieben. Zum Beispiel kann die Steuerung konfiguriert sein, um Audiodaten (als analoges oder digitales Audiosignal) von Medieninhalt oder benutzergewünschtem Medieninhalt (z. B. Musik usw.) zur Wiedergabe durch den Lautsprecher 77 zu erhalten (oder zu empfangen). In einigen Gesichtspunkten kann die Steuerung Audiodaten aus dem lokalen Speicher erhalten, oder die Steuerung kann Audiodaten von der Netzwerkschnittstelle 76 erhalten, die Daten aus einer externen Quelle wie der lokalen Vorrichtung 2 (über seine Netzwerkschnittstelle 21) erhalten kann. Zum Beispiel kann die Ausgabevorrichtung ein Audiosignal von der lokalen Vorrichtung (z. B. über die BLUETOOTH-Verbindung) zur Wiedergabe durch den Lautsprecher 77 streamen. Das Audiosignal kann ein Signaleingangsaudiokanal (z. B. Mono) sein. In einem anderen Gesichtspunkt kann die Steuerung zwei oder mehr Eingangsaudiokanäle (z. B. Stereo) für die Ausgabe über zwei oder mehr Lautsprecher erhalten. In einem Gesichtspunkt kann in dem Fall, in dem die Vorrichtung zwei oder mehr Lautsprecher einschließt, die Steuerung zusätzliche Audiosignalverarbeitungsvorgänge durchführen. Zum Beispiel kann die Steuerung die Eingabeaudiokanäle räumlich rendern (z. B. durch Anwenden von räumlichen Filtern, wie z. B. kopfbezogenen Übertragungsfunktionen (HRTFs)), um stereophone Ausgangsaudiosignale zum Ansteuern von mindestens zwei Lautsprechern (z. B. einen linken Lautsprecher und einen rechten Lautsprecher) zu erzeugen.
  • In einem Gesichtspunkt kann die Steuerung 75 konfiguriert sein, um (zusätzliche) Audiosignalverarbeitungsvorgänge basierend auf Elementen durchzuführen, die mit der Steuerung gekoppelt sind. Wenn zum Beispiel die Ausgabevorrichtung zwei oder mehr „extra-auditive“ Lautsprecher einschließt, die eingerichtet sind, um Schall in die akustische Umgebung auszugeben, anstatt Lautsprecher, die eingerichtet sind, um Schall in ein Ohr des Benutzers (z. B. als Lautsprecher eines In-Ear-Kopfhörers) auszugeben, kann die Steuerung einen Schallausgabe-Strahlformer einschließen, der konfiguriert ist, um Lautsprecheransteuersignale zu erzeugen, die beim Ansteuern der zwei oder mehr Lautsprecher räumlich selektive Schallausgabe erzeugen. Somit kann die Ausgabevorrichtung, wenn sie zum Ansteuern der Lautsprecher verwendet wird, Richtstrahlmuster erzeugen, die auf Standorte innerhalb der Umgebung gerichtet sind.
  • In einigen Gesichtspunkten kann die Steuerung 75 einen Schallaufnahme-Strahlformer einschließen, der konfiguriert sein kann, um die Audiosignale (oder Mikrofonsignale), die von zwei oder mehr externen Mikrofonen der Ausgabevorrichtung erzeugt werden, so zu verarbeiten, dass Richtstrahlmuster (als ein oder mehrere Audiosignale) für die räumlich selektive Schallaufnahme in bestimmten Richtungen gebildet werden, um empfindlicher gegenüber einem oder mehreren Schallquellenstandorten zu sein. In einigen Gesichtspunkten kann die Steuerung Audioverarbeitungsvorgänge an den Audiosignalen durchführen, welche die Richtstrahlmuster enthalten (z. B. spektrale Formung durchführen) und/oder die Audiosignale an die lokale Vorrichtung senden.
  • In einem anderen Gesichtspunkt kann die Steuerung 75 andere Funktionen durchführen. Beispielsweise kann die Steuerung 75 konfiguriert sein, um eine Funktion zur aktiven Rauschunterdrückung (Active Noise Cancellation (ANC)) zu aktivieren, um zu bewirken, dass der Lautsprecher 77 Gegengeräusche erzeugt, um Umgebungsgeräusche aus der Umgebung, die in das Ohr des Benutzers eindringen, zu reduzieren. Die ANC-Funktion kann als eine von einer Vorwärtskopplungs-ANC, einer Rückkopplungs-ANC oder einer Kombination davon implementiert sein. Infolgedessen kann die Steuerung 75 ein Referenzmikrofonsignal von einem Mikrofon, das äußere Umgebungsgeräusche erfasst, wie dem Mikrofon 78, empfangen. In einem anderen Gesichtspunkt kann die Steuerung ein beliebiges ANC-Verfahren durchführen, um die Gegengeräusche zu erzeugen. In einem weiteren Gesichtspunkt kann die Steuerung 75 einen Transparenzmodus durchführen, in dem von der Audioausgabevorrichtung 6 wiedergegebener Schall eine Reproduktion der Umgebungsgeräusche ist, die von dem externen Mikrofon der Vorrichtung auf „transparente“ Weise erfasst werden, z. B. als ob der Kopfhörer nicht vom Benutzer getragen würde. Die Steuerung 75 verarbeitet mindestens ein Mikrofonsignal, das von mindestens einem externen Mikrofon 78 erfasst wird, und filtert das Signal durch einen Transparenzfilter, der akustische Maskierung aufgrund der auf, in oder über dem Ohr des Benutzers vorhandenen Audioausgabevorrichtung reduziert, während auch die räumliche Filterwirkung der anatomischen Merkmale des Trägers (z. B. Kopf, Ohrmuschel, Schulter usw.) beibehalten wird. Der Filter trägt auch dazu dabei, die Klangfarbe und die räumlichen Hinweise, die mit den tatsächlichen Umgebungsgeräuschen verbunden sind, zu bewahren. In einem Gesichtspunkt kann der Filter der Transparenzfunktion gemäß spezifischen Messungen des Kopfes des Benutzers benutzerspezifisch sein. Zum Beispiel kann die Steuerung 75 den Transparenzfilter gemäß einer kopfbezogenen Übertragungsfunktion (Head-Related Transfer Function (HRTF)) oder, entsprechend, einer kopfbezogenen Impulsantwort (Head-Related Impulse Response (HRIR)), die auf der Anthropometrie des Benutzers basiert, bestimmen.
  • Wie hierin beschrieben, sind sowohl die lokale Vorrichtung als auch die Audioausgabevorrichtung konfiguriert, um eine drahtlose Audioverbindung (z. B. BLUETOOTH-Verbindung) einzurichten, um Audiodaten auszutauschen. In einem Gesichtspunkt kann die Steuerung 75 (und/oder die Steuerung 20) konfiguriert sein, um zwischen einer bidirektionalen drahtlosen Audioverbindung (z. B. HFP-Verbindung) und einer unidirektionalen drahtlosen Audioverbindung (z. B. A2DP-Verbindung) hin- und herzuschalten, um beide Vorrichtungen kommunikativ miteinander zu koppeln, um Audiodaten auszutauschen (und zu übertragen). Mehr über das Hin- und Herschalten zwischen den Audioverbindungen wird hierin beschrieben.
  • Gemäß einem Gesichtspunkt können die von den Steuerungen durchgeführten Vorgänge in Software implementiert werden (z. B. als Anweisungen, die in einem Speicher gespeichert sind und von jeder der Steuerungen ausgeführt werden) und/oder können durch Hardware-Logikstrukturen, wie hierin beschrieben, implementiert werden.
  • In einem anderen Gesichtspunkt können mindestens einige Vorgänge, die von dem Audiosystem 20 durchgeführt werden, wie hierin beschrieben, von der lokalen Vorrichtung 2 und/oder von der Audioausgabevorrichtung 6 durchgeführt werden. Zum Beispiel kann die lokale Vorrichtung zwei oder mehr Lautsprecher einschließen und kann konfiguriert sein, um Vorgänge des Schallausgabe-Strahlformers durchzuführen (z. B. wenn die lokale Vorrichtung zwei oder mehr Lautsprecher einschließt). In einem anderen Gesichtspunkt können mindestens einige der Vorgänge von einem entfernten Server durchgeführt werden, der kommunikativ mit jeder der Vorrichtungen gekoppelt ist, zum Beispiel über das Netzwerk (z. B. Internet).
  • In einem Gesichtspunkt können mindestens einige Elemente der lokalen Vorrichtung 2 und/oder der Audioausgabevorrichtung 6 in die jeweilige Vorrichtung (oder einem Teil davon) integriert sein. Wenn zum Beispiel die Audioausgabevorrichtung On-Ear-Kopfhörer sind, können das Mikrofon, der Lautsprecher und der Beschleunigungsmesser ein Teil von mindestens einer Hörmuschel des Kopfhörers sein, der auf einem Ohr des Benutzers platziert ist. In einem anderen Gesichtspunkt können mindestens einige der Elemente separate elektronische Vorrichtungen sein, die kommunikativ mit der Vorrichtung gekoppelt sind. Zum Beispiel kann der Anzeigebildschirm 25 eine separate Vorrichtung sein (z. B. ein Anzeigebildmonitor oder Fernseher), der kommunikativ mit der lokalen Vorrichtung gekoppelt (z. B. verdrahtet oder drahtlos verbunden) ist, um Bilddaten für die Anzeige zu empfangen. Als weiteres Beispiel kann die Kamera 24 Teil einer separaten elektronischen Vorrichtung sein (z. B. eine Webcam) sein, die mit der lokalen Vorrichtung gekoppelt ist, um aufgenommene Bilddaten bereitzustellen.
  • Wie hierin beschrieben, können die lokale Vorrichtung 2 und die entfernten Vorrichtungen 3 des Audiosystems 1 eine gemeinsame Medienwiedergabesitzung durchführen, während sie in einem Anruf in Eingriff stehen, um Benutzern der Vorrichtungen zu ermöglichen, während einer gleichzeitigen Medieninhaltswiedergabe zu kommunizieren. In einem Gesichtspunkt kann die lokale Vorrichtung die gemeinsame Medienwiedergabesitzung einleiten, während sie bereits in einem Anruf in Eingriff steht. 3 und 4 veranschaulichen grafische Beispiele der lokalen Vorrichtung und der entfernten Vorrichtung, die gemeinsame eine Medienwiedergabe einleiten, während sie in einem Telefonanruf und einem Videokonferenzanruf in Eingriff stehen.
  • 3 veranschaulicht drei Stufen 26-28, in denen die lokale Vorrichtung 2 und die entfernte Vorrichtung 3 eine gemeinsame Wiedergabemediensitzung einleiten, um eine musikalische Komposition synchron wiederzugeben, während sie in einem Telefonanruf gemäß einem Gesichtspunkt in Eingriff stehen. Die erste Stufe 26 zeigt eine Haupt- (oder Home-) Bildschirm-Benutzerschnittstelle (UI), die auf Anzeigebildschirmen jeder jeweiligen Vorrichtung angezeigt wird, während die Vorrichtungen in einem Telefonanruf in Eingriff stehen. In einem Gesichtspunkt kann jede der Vorrichtungen den Telefonanruf eingeleitet haben, wie hierin beschrieben. Insbesondere zeigt der Hauptbildschirm der lokalen Vorrichtung UI 11 Anrufer-ID-Informationen der entfernten Vorrichtung, die mehreren auswählbaren UI-Elementen überlagert sind, die jeweils einer Anwendung zugeordnet sind (z. B. Anw 1 - Anw 4), einschließlich einer Medienanwendung 29, die bei Ausführung durch die lokale Vorrichtung Medieninhalt an die lokale Vorrichtung (z. B. vom Medieninhaltsserver 5) streamt. Insbesondere kann die Medienanwendung 29 eine Musik-Streaming-Anwendung sein, die bei Ausführung Musik zur Wiedergabe durch den Lautsprecher 22 (und/oder Lautsprecher 77 der Audioausgabevorrichtung) streamt. In ähnlicher Weise zeigt der Hauptbildschirm UI 12 der entfernten Vorrichtung Anrufer-ID-Informationen der lokalen Vorrichtung, die mehreren (ähnlichen) UI-Elementen überlagert sind, wie sie für die lokale Vorrichtung gezeigt sind. In einem Gesichtspunkt kann jede der Vorrichtungen den Telefonanruf unter Verwendung eines beliebigen bekannten Verfahrens eingeleitet haben. Zum Beispiel kann der Benutzer der lokalen Vorrichtung eine Telefon-Anwendung eingeleitet haben, die innerhalb der lokalen Vorrichtung gespeichert ist, und die Telefonnummer der entfernten Vorrichtung gewählt haben. Nach dem Wählen kann die lokale Vorrichtung über ein Mobilfunknetzwerk (z. B. ein 4G Long Term Evolution (LTE) -Netzwerk) des Netzwerks 4 mit der entfernten Vorrichtung verbunden sein, wie hierin beschrieben.
  • Diese Stufe zeigt auch den Benutzer der lokalen Vorrichtung 2, der das UI-Element drückt, das der Medienanwendung 29 zugeordnet ist. Zum Beispiel kann der Anzeigebildschirm (z. B. Anzeigebildschirm 25, gezeigt in 2) der lokalen Vorrichtung ein berührungsempfindlicher Anzeigebildschirm sein, wie hierin beschrieben. Die lokale Vorrichtung kann eine Benutzereingabe als Reaktion darauf empfangen, dass der Benutzer auf das UI-Element der Medienanwendung 29 drückt. Die zweite Stufe 27 zeigt das Ergebnis, wenn der Benutzer das UI-Element der Medienanwendung 29 drückt. Insbesondere zeigt diese Stufe, dass auf dem Anzeigebildschirm der lokalen Vorrichtung eine UI 30 der Medienanwendung angezeigt wird, die einen Titel einer musikalischen Komposition (z. B. „Die Musik“) und Wiedergabesteuerungs-UI Elemente zeigt, die eine Wiedergabetaste, eine Rückspultaste und eine schnelle Vorlauftaste einschließen. Diese Stufe zeigt auch, dass der Benutzer die Schaltfläche „Abspielen“ gedrückt hat.
  • Die dritte Stufe 28 zeigt das Ergebnis, wenn der Benutzer der lokalen Vorrichtung die Wiedergabetaste auswählt. Insbesondere überträgt die lokale Vorrichtung, sobald die Wiedergabetaste ausgewählt ist, eine Anforderung an den Medieninhaltsserver 5, um das Streamen des Medieninhalts an die entfernte Vorrichtung und die lokale Vorrichtung zu beginnen. In einem Gesichtspunkt kann, wenn mehrere Vorrichtungen einen Anruf zusammenführen (z. B. eine Konferenzschaltung), der Medieninhaltsserver 5 den Medieninhalt an jede der Vorrichtungen, die an der Konferenzschaltung teilnehmen, streamen. Infolgedessen geben sowohl die entfernte Vorrichtung als auch die lokale Vorrichtung den Medieninhalt wieder (z. B. durch Ansteuern jeweiliger Lautsprecher mit Audiodaten des Medieninhalts, der von dem Medieninhaltsserver empfangen wird).
  • Beide Vorrichtungen geben somit den Inhalt gleichzeitig und synchron wieder, was durch den Fortschrittsindikator 39 beider der in jeweiligen Medienanwendungen UIs dargestellten Vorrichtungen an der Halbzeitmarke veranschaulicht wird. Mehr zum gleichzeitigen Wiedergeben des Medieninhalts wird hierin beschrieben.
  • 4 veranschaulicht drei Stufen 31-33, in denen die lokale Vorrichtung 2 und die entfernte Vorrichtung 3 eine gemeinsame Wiedergabemediensitzung einleiten, um einen Film synchron wiederzugeben, während sie in einem Videoanruf gemäß einem Gesichtspunkt in Eingriff stehen. Die erste Stufe 31 zeigt den Hauptbildschirm UI, der auf Bildschirmen jeder jeweiligen Vorrichtung angezeigt wird, während die Vorrichtungen in einem Videoanruf in Eingriff stehen. Insbesondere ist der Hauptbildschirm UI 11 der lokalen Vorrichtung einem Videoanruf UI 14 überlagert, der eine Videodarstellung des lokalen Benutzers 38 in der oberen rechten Ecke der UI und eine Videodarstellung des entfernten Benutzers 37 (die größer als die Darstellung des lokalen Benutzers ist), die in der Mitte der Videoanrufs UI positioniert ist, zeigt. In ähnlicher Weise ist der Hauptbildschirm UI 12 der entfernten Vorrichtung einem Videoanruf UI 15 überlagert, der die Videodarstellung des entfernten Benutzers in der Mitte und die Videodarstellung des lokalen Benutzers in der oberen rechten Ecke der UI zeigt. In einem Gesichtspunkt können die Videodarstellungen unter Verwendung von Videodaten erzeugt werden, die von einer oder mehreren Kameras jeder Vorrichtung erfasst werden. Während sich zum Beispiel der lokale Benutzer im Sichtfeld der Kamera 24 befindet, kann die Kamera Videodaten des lokalen Benutzers erfassen, die dann auf der lokalen Vorrichtung angezeigt und (z. B. über Netzwerk 4) an die entfernte Vorrichtung zum Anzeigen auf der Anzeige der entfernten Vorrichtung übertragen werden.
  • Diese Stufe zeigt auch, dass der lokale Benutzer ein auswählbares UI-Element auswählt, das einer Medienanwendung 35 innerhalb des Hauptbildschirms 11 zugeordnet ist, die eine Video-Streaming-Anwendung sein kann. Die zweite Stufe 32 zeigt das Ergebnis, wenn der Benutzer das UI-Element der Medienanwendung 35 drückt. Insbesondere zeigt diese Stufe eine UI 18 der Medienanwendung 35 auf dem Anzeigebildschirm der lokalen Vorrichtung, die einen Titel eines Films (z. B. „Der Film“), eine Wiedergabedauer von einer Stunde und dreißig Minuten und eine Wiedergabetaste zeigt, die von dem lokalen Benutzer gedrückt wird.
  • Die dritte Stufe 33 zeigt das Ergebnis, wenn der lokale Benutzer die Wiedergabetaste in der Medienanwendung UI 18 auswählt. Insbesondere, sobald die Wiedergabetaste ausgewählt wird, überträgt die lokale Vorrichtung eine Anforderung an den Medieninhaltsserver 5, um das Streamen des Medieninhalts (z. B. Audio- und Videodaten des Films) zu den Vorrichtungen, die in dem Videoanruf in Eingriff stehen, zu beginnen. Infolgedessen geben beide Vorrichtungen ein Video des Medieninhalts 36 synchron wieder (und geben ein Audio des Medieninhalts aus), während sie immer noch in dem Videoanruf in Eingriff stehen.
  • Wie in diesen Beispielen gezeigt, kann der Audioinhalt in einer gemeinsamen Medienwiedergabevorrichtung wiedergegeben werden, während Vorrichtungen in einem Telefonanruf in Eingriff stehen, und Video- und Audioinhalte können während der Sitzung abgespielt werden, während die Vorrichtungen in einem Videoanruf in Eingriff stehen. In einem anderen Gesichtspunkt kann jede Art von Medieninhalt während einer gemeinsamen Medienwiedergabesitzung wiedergegeben werden, während lokale und entfernte Vorrichtungen entweder in einem Telefonanruf oder einem Videoanruf in Eingriff stehen. Beispielsweise kann, während die Vorrichtungen in einem Telefonanruf in Eingriff stehen, ein Film während einer gemeinsamen Medienwiedergabesitzung abgespielt werden.
  • Während das Eingreifen in eine gemeinsame Medienwiedergabesitzung während eines Anrufs Teilnehmern eine bessere Benutzermedienerfahrung in Bezug auf den Medieninhalt bereitstellen kann, der über die Teilnehmervorrichtungen abgespielt wird (z. B. durch Zulassen, dass Teilnehmer Medieninhalt der Wiedergabesitzung in Echtzeit diskutieren), kann es einige Nachteile geben. Zum Beispiel kann ein Gespräch zwischen Teilnehmern den Inhalt des Medieninhalts übertönen oder überlagern. Als Beispiel kann, wenn die Teilnehmer einen Film betrachten, das Gespräch zwischen den Teilnehmern nicht von dem Dialog des Films, der gleichzeitig ausgegeben wird, unterscheidbar sein. Dadurch können Teilnehmer, die in diese Nebengespräche eingreifen, es schwierig finden, zu sprechen, während der Film wiedergegeben wird. Darüber hinaus kann dies auch die Gesamtbenutzererfahrung derjenigen Teilnehmer verschlechtern, die nicht in diesen Gesprächen in Eingriff stehen, da das Gespräch sie davon ablenken kann, ihre volle Aufmerksamkeit auf den Ton des Films zu richten. Somit besteht ein Bedarf daran, die Audiowiedergabequalität zu bewahren, während Teilnehmer während eines Anrufs in der gemeinsamen Medienwiedergabesitzung in Eingriff stehen.
  • Um diese Mängel zu überwinden, beschreibt die vorliegende Offenbarung ein Audiosystem, das in der Lage ist, die Audioqualität der Medieninhaltswiedergabe während einer Medienwiedergabesitzung durch Verarbeiten der entfernten aktiven Sprache während eines Anrufs zu bewahren. Insbesondere bestimmt das Audiosystem während des Eingriffs in einen Anruf und eine gemeinsame Medienwiedergabesitzung, bei der eine lokale Vorrichtung und (mindestens eine) entfernte Vorrichtung unabhängig voneinander einen Medieninhalt für eine synchrone Wiedergabe streamt, dass ein Downlink- (Audio) Signal von der entfernten Vorrichtung Sprache basierend auf Ausgabe von einem Sprechpausendetektor (VAD) einschließt. Falls dies der Fall ist, wendet das Audiosignal wieder ein Skalar auf ein Audiosignal des Medieninhalts an, um einen Signalpegel des Audiosignals zu reduzieren. Das Audiosystem steuert dann einen Lautsprecher mit einer Mischung des Downlink-Signals und des Audiosignals an. Somit kann das System den Signalpegel des Medieninhalts verwalten, während Teilnehmer von entfernten Vorrichtungen sprechen.
  • 5 zeigt ein Blockdiagramm der lokalen Vorrichtung 2, die Audiosignalverarbeitungsvorgänge aufgrund eines Audiosignals des Medieninhalts durchführt, basierend darauf, ob Sprache innerhalb eines Signals eines Telefonanrufs erfasst wird, der zwischen der lokalen Vorrichtung 2 und mindestens einer entfernten Vorrichtung 3 gemäß einem Gesichtspunkt durchgeführt wird. Insbesondere zeigt diese Figur, dass die Steuerung 20 mehrere Betriebsblöcke zum Durchführen von Audiosignalverarbeitungsvorgängen zum Verarbeiten der entfernten aktiven Sprache während eines Anrufs und einer gemeinsamen Medienwiedergabesitzung aufweist. Wie gezeigt, schließt die Steuerung einen Anrufmanager 46, einen gemeinsamen Medienwiedergabesitzungsmanager 47, einen digitalen Sprachsignalprozessor (DSP) 41, einen Sprechpausendetektor (VAD) 42, eine skalare Verstärkung 43 (z. B. Matrix), einen Mischer 44 und einen (optionalen) zusätzlichen DSP 45 ein.
  • Der Anrufmanager 46 ist konfiguriert, um einen Anruf zwischen der lokalen Vorrichtung 2 und einer oder mehreren entfernten Vorrichtungen 3 einzuleiten (und zu führen). In einem Gesichtspunkt kann der Anrufmanager den Anruf als Reaktion auf die Benutzereingabe initiieren. Beispielsweise kann der Anrufmanager ein Teil von einer Telefon-Anwendung sein (oder Anweisungen davon empfangen), die von der lokalen Vorrichtung (z. B. deren Steuerung 20) ausgeführt wird. Beispielsweise kann die Telefon-Anwendung eine UI auf dem Anzeigebildschirm 25 der lokalen Vorrichtung anzeigen, die einem Benutzer der lokalen Vorrichtung die Fähigkeit bereitstellen kann, den Anruf (z. B. eine Tastatur, eine Kontaktliste usw.) einzuleiten. Sobald die UI Benutzereingaben empfängt (z. B. ein Wählen einer Telefonnummer des entfernten Benutzers unter Verwendung der Tastatur), kann der Anrufmanager mit der Netzwerkschnittstelle 21 der lokalen Vorrichtung 2 kommunizieren, um den Anruf einzurichten, wie hierin beschrieben. In einem Gesichtspunkt kann der Telefonanruf über jedes Netzwerk, wie über das öffentliche Telefonnetz und/oder über das Internet (z. B. für einen VoIP-Anruf) erfolgen. In einigen Gesichtspunkten kann der Anrufmanager den Anruf, wie hierin beschrieben, und/oder unter Verwendung eines beliebigen Verfahrens initiieren.
  • Sobald der Anrufmanager initiiert wurde, kann der Anrufmanager Anrufdaten zwischen der/den entfernten Vorrichtung(en) austauschen, mit der die lokale Vorrichtung in dem Anruf in Eingriff steht. Zum Beispiel kann der Anrufmanager ein oder mehrere Downlink-Audiosignale von jeder der entfernten Vorrichtungen empfangen. In einem Gesichtspunkt kann der Anrufmanager die Downlink-Signale in (mindestens ein) Downlink-Audiosignal (z. B. über Matrixmischvorgänge) mischen. Zusätzlich kann der Anrufmanager ein Mikrofonsignal (das beispielsweise die Sprache des lokalen Benutzers einschließen kann) vom Mikrofon 23 empfangen und kann das Mikrofonsignal an jede entfernte Vorrichtung als Uplink-Audiosignal übertragen. In einigen Gesichtspunkten kann, wenn die lokale Vorrichtung zwei oder mehr Mikrofone einschließt, der Anrufmanager ein Schallaufnahme-Strahlformersignal übertragen, das Schall eines gerichteten Strahlmusters einschließt.
  • Der gemeinsame Medienwiedergabesitzungsmanager 47 ist konfiguriert, um die gemeinsame Medienwiedergabesitzung zwischen der lokalen Vorrichtung und einer oder mehreren entfernten Vorrichtungen einzuleiten, in denen beide Vorrichtungen unabhängig voneinander Medieninhalt für synchrone Wiedergabe streamen. Zum Beispiel kann der Wiedergabesitzungsmanager als Reaktion auf das Empfangen von Anweisungen zum Initiieren der Sitzung eine Anforderung an den Medieninhaltserver senden, um die Sitzung zu initiieren, wie hierin beschrieben. Insbesondere kann eine Medienanwendung, die innerhalb der lokalen Vorrichtung ausgeführt wird, Anweisungen an den Sitzungsmanager als Reaktion auf das Empfangen von Benutzereingaben übertragen (z. B. basierend auf einem Benutzer, der eine Wiedergabetaste in der Medienanwendung auswählt, wie in 3 und 4 veranschaulicht). In einem weiteren Gesichtspunkt kann der Sitzungsmanager eine Benutzerautorisierung anfordern, bevor die Sitzung eingeleitet wird. Sobald ein Benutzer beispielsweise eine Medienwiedergabe in einer Medienanwendung einleitet, kann der Sitzungsmanager eine Benachrichtigung bereitstellen (z. B. eine Popup-Benachrichtigung, die auf dem Anzeigebildschirm 25 angezeigt wird), indem er eine Benutzerberechtigung anfordert, um eine gemeinsame Medienwiedergabesitzung mit (mindestens einigen) Teilnehmern des Anrufs einzuleiten. Sobald die Benutzerberechtigung empfangen wird (z. B. durch Empfangen einer Benutzerauswahl eines UI-Elements innerhalb der Popup-Benachrichtigung), kann der Sitzungsmanager das Anfordern der Initiierung der Sitzung verarbeiten, wie hierin beschrieben.
  • In einem Gesichtspunkt ist der gemeinsame Medienwiedergabesitzungsmanager 47 konfiguriert, um Medieninhaltsdaten zu empfangen (z. B. sobald die Sitzung eingeleitet wurde). In diesem Fall empfängt der Sitzungsmanager mindestens ein Audiosignal (oder einen Audiokanal), der dem Medieninhalt zugeordnet ist. Zum Beispiel kann das empfangene Audiosignal einer musikalischen Komposition zugeordnet sein, von welcher der lokale Benutzer die Wiedergabe angefordert hat, wie in 3 veranschaulicht. In einem Gesichtspunkt kann der Sitzungsmanager zwei oder mehr Audiosignale eines Medieninhalts empfangen. Zum Beispiel kann der Sitzungsmanager beim Streamen einer musikalischen Komposition von dem Medieninhaltsserver zwei Audiokanäle empfangen (z. B. linke und rechte Kanäle einer stereophonischen Aufzeichnung der musikalischen Komposition). In einem anderen Gesichtspunkt kann die Sitzung zwei oder mehr Audiokanäle empfangen, wie beispielsweise die gesamte Audiotonspur eines Films im 5.1-Surround-Format.
  • Der Sprach-DSP 41 ist konfiguriert, um das Downlink-Audiosignal von dem Anrufmanager zu empfangen und ist konfiguriert, um Sprachverarbeitungsvorgänge auf dem Signal durchzuführen. In einem Gesichtspunkt kann der Sprach-DSP einen Rauschunterdrückungsalgorithmus auf dem Downlink-Signal durchführen, um darin enthaltenes Rauschen zu reduzieren (oder zu eliminieren) (z. B. um ein Sprachsignal zu erzeugen, das hauptsächlich Sprache von entfernten Benutzern enthält). In einem Gesichtspunkt kann der Algorithmus zum Verarbeiten des Signals einen Hochpassfilter anwenden, da das meiste Rauschen (oder Nicht-Sprachrauschen) ein Niederfrequenzinhalt sein kann. In einem anderen Gesichtspunkt kann der Algorithmus das Signal-RauschVerhältnis (SNR) verbessern. Dazu kann der Sprach-DSP das Downlink-Signal spektral durch Anlegen eines oder mehrerer Filter (z. B. eines Tiefpassfilters, eines Bandpassfilters, eines Hochpassfilters usw.) auf das Signal bilden. Als weiteres Beispiel kann der DSP auf das Signal einen skalaren Verstärkungswert anwenden. In einem Gesichtspunkt kann der Sprach-DSP ein beliebiges Verfahren durchführen, um das Downlink-Signal zu verarbeiten, um das darin enthaltene Rauschen zu reduzieren.
  • Der VAD 42 ist konfiguriert, um das (z. B. verarbeitete) Downlink-Audiosignal zu empfangen, und ist konfiguriert, um Sprechpausenerkennungs- (oder Spracherkennungs-) Vorgänge durchzuführen, um ein Vorhandensein (oder Nichtvorhandensein) einer darin enthaltenen Stimme des Benutzers (Sprache) zu erfassen. Zum Beispiel kann der VAD bestimmen, ob der spektrale Inhalt (oder ein Teil davon) des Downlink-Signals menschlicher Sprache zugeordnet ist. In einem anderen Gesichtspunkt kann der VAD ein Vorhandensein von Sprache bestimmen, basierend darauf, ob ein Signalpegel des Downlink-Signals einen Schwellenwert überschreitet. In einigen Gesichtspunkten kann der VAD ein beliebiges Verfahren verwenden, um zu bestimmen, ob ein Vorhandensein von Sprache innerhalb des Signals vorliegt. Der VAD ist konfiguriert, um eine Ausgabe basierend auf dem Downlink-Signal zu erzeugen. Insbesondere kann der VAD ein VAD-Signal erzeugen, das angibt, ob Sprache innerhalb des Downlink-Signals enthalten ist oder nicht. Zum Beispiel kann das VAD-Signal einen hohen Signalpegel aufweisen (z. B. Eins), wenn das Vorhandensein von Sprache erkannt wird, und kann einen niedrigen Signalpegel (z. B. Null) aufweisen, wenn die Sprache nicht erkannt wird (oder zumindest nicht innerhalb eines Schwellenpegels erfasst wird). In einem anderen Gesichtspunkt muss das VAD-Signal keine binäre Entscheidung (Sprache/Nicht-Sprache) sein; es könnte stattdessen eine Sprachpräsenzwahrscheinlichkeit sein, die Skalarverstärkung aufweist, wie hierin beschrieben. In einigen Gesichtspunkten kann das VAD-Signal auch den Signalpegel (z. B. Schalldruckpegel (SPL)) der erfassten Sprache angeben.
  • Wie hierin beschrieben, kann der VAD eine Mischung von zwei oder mehr Downlink-Audiosignalen (z. B. gemischt durch den Anrufmanager 46) empfangen, wobei jedes Downlink-Signal von einer entfernten Vorrichtung empfangen wird, die in einen (z. B. Konferenz-) Anruf mit der lokalen Vorrichtung in Eingriff steht. In einem Gesichtspunkt kann der VAD jedes separate Downlink-Signal empfangen, um zu bestimmen, ob mindestens eines der Downlink-Signale Sprache enthält. Sobald die Sprache in mindestens einem der Downlink-Signale erfasst wird, kann der VAD das VAD-Signal erzeugen, um die Erkennung von Sprache anzugeben. In einigen Gesichtspunkten kann der Sprach-DSP jedes einzelne Downlink-Signal verarbeiten, bevor es durch den VAD empfangen wird.
  • In einem anderen Gesichtspunkt kann die lokale Vorrichtung zusätzlich zum Erzeugen des VAD-Signals (oder stattdessen) optional ein VAD-Signal von (z. B. mindestens einer) der/den entfernten Vorrichtung(en) empfangen. Insbesondere kann jede entfernte Vorrichtung ihren eigenen VAD einschließen und kann konfiguriert sein, um ein VAD-Signal als Ausgabe des VAD zu erzeugen, das angibt, ob mindestens ein Mikrofonsignal, das von einem Mikrofon der entfernten Vorrichtung erzeugt wird (und/oder dessen Uplink-Signale, die während des Anrufs an die lokale Vorrichtung 2 übertragen werden) eine aktive Sprache des entfernten Benutzers einschließt. Nach dem Erzeugen kann jede entfernte Vorrichtung das VAD-Signal über das Netzwerk 4 an die lokale Vorrichtung übertragen. Nach dem Empfangen kann die skalare Verstärkung 43 auf der Grundlage des/der empfangenen VAD-Signals (Signale) von der/den entfernten Vorrichtung(en) einen skalaren Verstärkungswert auf das Audiosignal des Medieninhalts anwenden.
  • Die skalare Verstärkung 43 ist konfiguriert, um das Audiosignal von dem gemeinsamen Medienwiedergabesitzungsmanager 47 und dem VAD-Signal von dem VAD 42 (und/oder von mindestens einer entfernten Vorrichtung) zu empfangen, und ist konfiguriert, um das Audiosignal basierend auf dem VAD-Signal zu verarbeiten. Insbesondere ist die skalare Verstärkung konfiguriert, um den Signalpegel (z. B. mindestens einen Abschnitt) des Audiosignals durch Anlegen eines oder mehrerer skalarer Verstärkungswerte basierend darauf, ob das VAD-Signal angibt, dass das Vorhandensein von Sprache innerhalb des Downlink-Audiosignals erfasst wird, einzustellen. Insbesondere kann die Verstärkungsanpassung einen Volumenpegel des Audiosignals des Medieninhalts, welcher der gemeinsamen Medienwiedergabesitzung zugeordnet ist (z. B. durch Streamen), verringern. In einem Gesichtspunkt kann der angelegte skalare Verstärkungswert ein vordefinierter Wert sein. In einem anderen Gesichtspunkt kann der Wert auf dem VAD-Signal basieren. Zum Beispiel kann, wie hierin beschrieben, das VAD-Signal einen Signalpegel des Downlink-Audiosignals (oder genauer einen Signalpegel der darin enthaltenen Sprache) angeben. In diesem Fall kann die skalare Verstärkung konfiguriert sein, um den angelegten skalaren Verstärkungswert basierend auf dem Signal anzupassen. Wenn beispielsweise die im Downlink-Audiosignal erfasste Sprache auf einem bestimmten Signalpegel liegt, kann die skalare Verstärkung den Verstärkungswert anwenden, um den Signalpegel des Audiosignals unter den des bestimmten Signalpegels des Downlink-Signals zu reduzieren, um sicherzustellen, dass der Schall des Medieninhalts niedriger als die Sprache innerhalb des Anrufs ist.
  • Der Mischer 44 ist konfiguriert, um das verarbeitete Audiosignal von der skalaren Verstärkung 43 und dem verarbeiteten Downlink-Audiosignal von dem Sprach-DSP 41 zu empfangen, und ist konfiguriert, um Matrixmischvorgänge durchzuführen, um beispielsweise eine Mischung der zwei Signale zu erzeugen. Die Steuerung kann das Mischsignal verwenden, um den Lautsprecher 22 zur Wiedergabe von Schall des Anrufs anzusteuern, sowie den Medieninhalt der Wiedergabesitzung. In einem anderen Gesichtspunkt kann der Mischer ein oder mehrere unverarbeitete Downlink-Audiosignale empfangen. Zum Beispiel kann der Mischer das Downlink-Audiosignal von dem Anrufmanager 46 empfangen, anstatt das verarbeitete Downlink-Audiosignal von dem Sprach-DSP 41 zu empfangen.
  • In einem Gesichtspunkt kann die Steuerung optional einen zusätzlichen DSP 45 aufweisen, der konfiguriert sein kann, um eine oder mehrere Audiosignalverarbeitungsvorgänge auf der Mischung durchzuführen. Zum Beispiel kann der zusätzliche DSP mindestens einige der hierin beschriebenen Vorgänge durchführen, wie räumliches Rendern der Mischung (z. B. durch Anwenden von räumlichen Filtern wie kopfbezogenen Übertragungsfunktionen (HRTFs), um binaurale Audiosignale zum Ansteuern eines oder mehrerer Lautsprecher (z. B. eines linken Lautsprechers und eines rechten Lautsprechers), wie hierin beschrieben, zu erzeugen. Die Steuerung 20 kann dann die verarbeitete Mischung verwenden, um den Lautsprecher 22 anzusteuern, wie hierin beschrieben. Somit kann die Steuerung die hierin beschriebenen Vorgänge durchführen, um den Volumenpegel des Medieninhalts als Reaktion auf das Bestimmen, dass der entfernte Benutzer begonnen hat (und/oder aktiv ist), während des Anrufs mit dem lokalen Benutzer zu sprechen, zu verringern.
  • Wie bisher beschrieben, wendet die Steuerung 20 die skalare Verstärkung als Reaktion auf das Erkennen des Vorhandenseins von Stimme (oder Sprache) an, die innerhalb eines oder mehrerer Downlink-Signale von einer oder mehreren entfernten Vorrichtungen enthalten ist. In einem anderen Gesichtspunkt kann die Bestimmung darauf basieren, ob ein lokaler Benutzer der lokalen Vorrichtung spricht. Insbesondere kann das von dem VAD erzeugte VAD-Signal anzeigen, ob ein oder mehrere entfernte Benutzer und/oder der lokale Benutzer sprechen. Um dies zu bestimmen, kann der Sprach-DSP 41 optional das von dem Mikrofon 23 erzeugte Mikrofonsignal erhalten, um Rauschreduktionsvorgänge durchzuführen, wie hierin beschrieben. Der VAD kann das verarbeitete Downlink-Audiosignal und/oder das verarbeitete Mikrofonsignal von dem Sprach-DSP 41 empfangen und kann das VAD-Signal basierend auf jedem (oder beiden) der Signale erzeugen. Infolgedessen kann die lokale Vorrichtung den Signalpegel des Audiosignals des Medieninhalts verringern, wenn entweder der lokale Benutzer oder der entfernte Benutzer sprechen.
  • In einem Gesichtspunkt kann die Steuerung, wenn der Medieninhalt zwei oder mehr Audiosignale einschließt, mindestens einige der Vorgänge für mindestens eines der Audiosignale durchführen. Wenn zum Beispiel der Medieninhalt zwei Audiokanäle für eine stereoskopische Aufzeichnung einschließt, kann die Steuerung 20 mindestens einige der Vorgänge für beide Audiokanäle durchführen, um die Signalpegel jedes Audiokanals, der von zwei oder mehr Lautsprechern der lokalen Vorrichtung ausgegeben wird, zu senken.
  • In einigen Gesichtspunkten kann die Steuerung 20 das Audiosignal des Medieninhalts verarbeiten, während das VAD-Signal angibt, dass das Downlink-Signal eine entfernte aktive Sprache einschließt. Insbesondere kann die skalare Verstärkung 43 weiterhin einen skalaren Verstärkungswert anwenden, während das VAD-Signal angibt, dass Sprache vorliegt (z. B. solange der entfernte oder lokale Benutzer spricht). Sobald das VAD-Signal angibt, dass Sprache nicht mehr vorhanden ist, kann die Steuerung das Anlegen der skalaren Verstärkung 43 einstellen, wobei das Audiosignal ohne Anpassung der skalaren Verstärkung in den Mischer 44 gelangen kann. In einem Gesichtspunkt kann, sobald die Sprache nicht mehr vorhanden ist, der angelegte skalare Verstärkungswert allmählich reduziert werden, um den Signalpegel des Audiosignals allmählich zu erhöhen.
  • 6 zeigt ein Blockdiagramm der lokalen Vorrichtung 2, die Audiosignalverarbeitungsvorgänge auf dem Audiosignal des Medieninhalts durchführt, basierend darauf, ob Sprache durch eine Audioausgabevorrichtung 6 gemäß einem Gesichtspunkt erfasst wird. Insbesondere veranschaulicht diese Figur, dass die lokale Vorrichtung kommunikativ mit der Audioausgabevorrichtung gekoppelt ist, um einen (z. B. „freihändigen“) Anruf und die gemeinsame Medienwiedergabesitzung durchzuführen, wie in 5 beschrieben. Beispielsweise können beide Vorrichtungen über eine bidirektionale drahtlose Audioverbindung (z. B. gemäß HFP-Protokoll) verbunden sein, in der beide Vorrichtungen Audiodaten des Telefonanrufs und den Medieninhalt, der während der gemeinsamen Medienwiedergabesitzung wiedergegeben wird, austauschen. Beispielsweise kann die Audioausgabevorrichtung eine freihändige Vorrichtung sein, wie ein drahtloses Headset, das konfiguriert ist, um ein Mikrofonsignal, das durch Mikrofon 78 erzeugt wird, an die Steuerung 20 (z. B. deren Anrufmanager 46) zu übertragen, die dann das Mikrofonsignal an eine oder mehrere entfernte Vorrichtungen als das Uplink-Signal des Anrufs überträgt. Darüber hinaus überträgt die lokale Vorrichtung die (z. B. verarbeitete) Mischung des Audiosignals und des (verarbeiteten) Downlink-Signals über die bidirektionale Audioverbindung mit der Audioausgabevorrichtung, welche die Mischung verwendet, um den Lautsprecher 77 anzusteuern (anstatt die Mischung zum Ansteuern des Lautsprechers 22 zu verwenden, wie in 5 veranschaulicht). Diese Figur veranschaulicht auch, dass die skalare Verstärkung 43 basierend auf einer Ausgabe eines VAD 82 der lokalen Vorrichtung einen Verstärkungswert anwenden kann. Insbesondere kann der Verstärkungswert als Reaktion darauf angelegt werden, dass die Audioausgabevorrichtung Sprache des lokalen Benutzers erfasst. Zum Beispiel schließt die Audiovorrichtung einen VAD 82 ein, der konfiguriert ist, um ein Beschleunigungsmessersignal zu empfangen, das von dem Beschleunigungsmesser 79 erzeugt wird, und konfiguriert ist, um ein VAD-Signal basierend auf dem empfangenen Signal zu erzeugen. Insbesondere bestimmt der VAD, ob ein Energiepegel des Beschleunigungsmessersignals über einem Beschleunigungsmesssignalschwellenwert (oder Energieschwellenwert) liegt, der einen sprechenden Benutzer anzeigen kann. Als Reaktion auf das Bestimmen, dass der Energiepegel über dem Energieschwellenwert liegt, kann das VAD-Signal auf einen hohen Signalpegel eingestellt werden, wie hierin beschrieben. Beim Erzeugen des VAD-Signals überträgt die Audioausgabevorrichtung 6 das Signal an die lokale Vorrichtung 2, die von der skalaren Verstärkung 43 empfangen wird, um einen Verstärkungswert basierend auf dem Signal anzuwenden, wie hierin beschrieben.
  • In einem Gesichtspunkt kann der VAD gemeinsam mit (oder anstelle von) dem VAD 82, der das Beschleunigungsmessersignal empfängt, das von dem Mikrofon 78 erzeugte Mikrofonsignal (optional) empfangen, um das VAD-Signal zu erzeugen, wie hierin beschrieben. In einem anderen Gesichtspunkt kann die Audioausgabevorrichtung anstelle des Erzeugens des VAD das Beschleunigungsmessersignal (und/oder Mikrofonsignal) an den VAD 42 der lokalen Vorrichtung übertragen, der dann das/die Signal(e) verwenden kann, um das VAD-Signal zu erzeugen, wie hierin beschrieben. Somit kann die lokale Vorrichtung (z. B. deren VAD 42) das VAD-Signal basierend auf dem Beschleunigungsmessersignal erzeugen, das von dem Beschleunigungsmesser 79 erzeugt wird.
  • 7 zeigt ein Blockdiagramm der lokalen Vorrichtung 2, die Audiosignalverarbeitungsvorgänge durchführt, basierend darauf, ob Sprache innerhalb eines Signals eines Videoanrufs gemäß einem Gesichtspunkt erfasst wird. Insbesondere zeigt diese Figur die Steuerung 20, während eine Audiosignalverarbeitung durchgeführt wird, um eine entfernte aktive Sprache zu verarbeiten und/oder Videoverarbeitungsvorgänge durchzuführen, während gleichzeitig ein Videoanruf und eine gemeinsame Medienwiedergabesitzung mit einer oder mehreren entfernten Vorrichtungen durchgeführt werden.
  • In einem Gesichtspunkt kann die lokale Vorrichtung 2 den Videoanruf und die gemeinsame Medienwiedergabesitzung durchführen, wie in 4 veranschaulicht. Insbesondere kann der Anrufmanager 46 konfiguriert sein, um einen Videoanruf zwischen der lokalen Vorrichtung 2 und einer oder mehreren entfernten Vorrichtungen 3 einzuleiten (und zu führen). In diesem Fall kann der Anrufmanager gemeinsam mit dem Übertragen des von dem Mikrofon 23 erfassten Mikrofonsignals als ein Uplink-Audiosignal ein Kamerasignal (z. B. Videosignal) von der Kamera 24 empfangen und das Videosignal als Uplink-Videosignal gemeinsam mit (oder anstelle von) dem Uplink-Audiosignal an entfernte Vorrichtungen übertragen, die an dem Videoanruf teilnehmen. Zum Beispiel kann, wie hierin beschrieben, der Anrufmanager (z. B. als Reaktion auf das Empfangen einer Benutzeranforderung in einer Telefon- oder Videokonferenzanwendung) eine Kommunikationssitzung mit den entfernten Vorrichtungen einrichten, die Mikrofon- und Kamerasignale codieren und die codierten Signale (als Uplink-Signale) an die entfernten Vorrichtungen übertragen. Neben dem Übertragen von Uplink-Signalen kann der Anrufmanager mindestens ein Downlink-Audiosignal und mindestens ein Downlink-Videosignal von jeder entfernten Vorrichtung empfangen, die an dem Videoanruf teilnimmt, um durch den Lautsprecher 22 bzw. Anzeigebildschirm 25 ausgegeben zu werden. In einem Gesichtspunkt kann jedes Verfahren verwendet werden, um den Videoanruf einzuleiten und durchzuführen. In einigen Gesichtspunkten kann der gemeinsame Medienwiedergabesitzungsmanager 47 konfiguriert sein, um Medieninhaltsdaten zu empfangen, die mindestens ein Audiosignal und mindestens ein Videosignal einschließen, das einem Medieninhalt zugeordnet ist. Zum Beispiel können das empfangene Audiosignal und das Videosignal einem Film zugeordnet sein, von dem der lokale Benutzer die Wiedergabe angefordert hat, wie in 4 veranschaulicht.
  • In einem Gesichtspunkt kann die Steuerung 20 Vorgänge durchführen, während gleichzeitig der Videoanruf und die gemeinsame Medienwiedergabesitzung geführt werden, die den Vorgängen ähnlich sind, die von der in 5 und 6 beschriebenen Steuerung durchgeführt werden. Zum Beispiel kann die Steuerung (z. B. deren VAD 42) bestimmen, ob der entfernte Benutzer der entfernten Vorrichtung basierend auf dem Downlink-Audiosignal (z. B. Audioinhalt) des Videokonferenzanrufs zu sprechen beginnt (und/oder aktiv spricht). Als Reaktion darauf kann die Steuerung die skalare Verstärkung 43 verwenden, um einen skalaren Verstärkungswert anzuwenden, um einen Lautstärkepegel des Audiosignals zu verringern, wenn er durch den Lautsprecher 22 ausgegeben wird.
  • Darüber hinaus schließt die Steuerung 20 zusätzliche Betriebsblöcke zum Durchführen von Audiosignalverarbeitungsvorgängen und/oder Videoverarbeitungsvorgängen ein, basierend darauf, ob Sprache eines entfernten Benutzers aktiv ist. Zum Beispiel schließt die Steuerung einen Untertitelgenerator 48 und einen Videoprozessor 49 ein. Der Untertitelgenerator ist konfiguriert, um Untertitel zu erzeugen, die Audioinhalte darstellen, die in dem Audiosignal des Medieninhalts basierend auf der VAD-Signalausgabe des VAD 42 enthalten sind. Insbesondere kann der Untertitelgenerator konfiguriert sein, um Untertitel als Reaktion darauf zu erzeugen, dass die Steuerung 20 bestimmt, dass das Downlink-Signal (oder mindestens ein Downlink-Signal) Sprache basierend auf dem VAD-Signal einschließt (z. B. weist das VAD-Signal einen hohen Signalpegel auf, der angibt, dass das Downlink-Signal Sprache einschließt, wie hierin beschrieben), und kann konfiguriert sein, um die Untertitel anzuzeigen. Somit können Untertitel erzeugt und angezeigt werden, wenn der entfernte Benutzer zu sprechen beginnt (und während der Benutzer spricht). In einem Gesichtspunkt kann, sobald das VAD-Signal angibt, dass das Downlink-Signal keine Sprache mehr einschließt, der Untertitelgenerator das Erzeugen und Anzeigen von Untertiteln beenden. In einem anderen Gesichtspunkt kann der Untertitelgenerator weiterhin Untertitel für einen Zeitraum erzeugen und anzeigen, nachdem der entfernte Benutzer aufhört zu sprechen.
  • In einem anderen Gesichtspunkt kann der Untertitelgenerator 48 konfiguriert sein, um Untertitel für die Anzeige als Reaktion auf das Bestimmen, dass der Ausgabeschallpegel der lokalen Vorrichtung unter einem Schwellenwert liegt, zu erzeugen. Beispielsweise kann der Untertitelgenerator bestimmen, ob der lokale Benutzer die Lautstärke der lokalen Vorrichtung verringert hat (z. B. erkennen, ob der Benutzer die Lautstärke verringert hat, indem eine Lautstärkensteuerung der lokalen Vorrichtung angepasst wird). Falls dies der Fall ist, kann der Untertitelgenerator automatisch Untertitel erzeugen und anzeigen. In einem anderen Gesichtspunkt können die Untertitel basierend auf dem Signalpegel des Audiosignals, das dem Medieninhalt zugeordnet ist, angezeigt werden. Zum Beispiel kann der Untertitelgenerator als Reaktion auf das verarbeitete Audiosignal des Medieninhalts durch die skalare Verstärkung einen Signalpegel erzeugen und anzeigen, der unter einem Schwellenwert liegt.
  • In einem Gesichtspunkt ist der Untertitelgenerator zum Erzeugen der Untertitel konfiguriert, um vom Sitzungsmanager 47 das Audiosignal zu empfangen, das dem Medieninhalt zugeordnet ist, der während der Sitzung gestreamt wird, und kann konfiguriert sein, um die Untertitel basierend auf dem darin enthaltenen Audioinhalt zu erzeugen. In einigen Gesichtspunkten kann der Generator einen Sprechpausen-Rauschunterdrückungsalgorithmus durchführen, der die im Audiosignal enthaltene Sprache identifiziert und eine textuelle Darstellung der identifizierten Sprache erzeugen kann. Somit können die Untertitel eine Transkription des Audioinhalts einschließen. In einem anderen Gesichtspunkt können die Untertitel eine Textbeschreibung von Nicht-Sprache-Audio einschließen, wie eine Beschreibung einer aktuellen Szene. In einer anderen Ausführungsform können die Untertitel aus den Medieninhaltsdaten erhalten werden anstatt Untertitel zu erzeugen. In diesem Fall kann der Untertitelgenerator die Untertitel vom Sitzungsmanager empfangen. In einigen Gesichtspunkten kann der Untertitelgenerator Untertitel unter Verwendung eines beliebigen Verfahrens erzeugen.
  • In einem Gesichtspunkt ist der Videoprozessor 49 konfiguriert, um Bilddaten, wie das Downlink-Videosignal von dem Anrufmanager 46, das Videosignal von dem Sitzungsmanager 47 und (optional) die Untertitel von dem Untertitelgenerator 48 zu empfangen (z. B. wenn das VAD-Signal aktive entfernte Sprache anzeigt) und ist konfiguriert, um die Daten zur Anzeige auf dem Anzeigebildschirm 25 zu rendern, um den Medieninhalt während des Videoanrufs wiederzugeben (z. B. wie in 4 veranschaulicht). Zum Beispiel kann der Videoprozessor Untertitel auf dem angezeigten Videosignal des Medieninhalts überlagern. In einigen Gesichtspunkten kann der Videoprozessor andere Videoverarbeitungsvorgänge auf einem oder mehreren der Videosignale durchführen, wie Bildgröße, Bildzusammensetzung usw.
  • In einem Gesichtspunkt kann die Steuerung die Wiedergabe des Medieninhalts basierend darauf einstellen, ob die entfernte aktive Sprache durch den VAD 42 erfasst wird. Insbesondere kann, sobald bestimmt wird, dass die entfernte Sprache nicht länger aktiv ist (z. B. durch den VAD), die gemeinsame Medienwiedergabesitzung 47 den Medieninhalt zu einem Zeitpunkt zurückspulen, bevor die aktive Sprache ursprünglich erkannt wurde. Beispielsweise kann der gemeinsame Medienwiedergabesitzungsmanager das VAD-Signal von dem VAD 42 empfangen und einen ersten Zeitstempel entlang einer Wiedergabedauer des Medieninhalts bestimmen, an dem das VAD-Signal anzuzeigen beginnt, dass das Downlink-Signal Sprache einschließt (z. B. einen Zeitpunkt, zu dem das VAD-Signal von einem niedrigen Signalpegel zu einem hohen Signalpegel übergeht). An dieser Stelle können ein entfernter Benutzer und der lokale Benutzer ein Gespräch begonnen haben. Sobald dieses Gespräch abgeschlossen ist, kann der Medieninhalt erneut zurückgefahren werden, um die Wiedergabe an (oder vor) dem ersten Zeitstempel entlang der Wiedergabedauer zu beginnen. Wenn zum Beispiel der Sitzungsmanager einen zweiten nachfolgenden Zeitstempel bestimmt, an dem eine Bestimmung vorgenommen wird, bei der das VAD-Signal angibt, dass das Downlink-Signal darauf hingewiesen hat, eine Sprache einzuschließen (z. B. einen Zeitpunkt, zu dem der Signalpegel des VAD von einem hohen Signalpegel auf einen niedrigen Signalpegel übergeht), kann der Sitzungsmanager die Wiedergabe des Medieninhalts (an oder nach dem zweiten Zeitstempel) anhalten. In einem Gesichtspunkt kann das Anhalten der Videowiedergabe das Anhalten der Anzeige des Medieninhalts zu einem Zeitpunkt entlang der Wiedergabedauer einschließen. Zusätzlich kann die Audiowiedergabe des Audiosignals angehalten werden, indem sie den Lautsprecher 22 mit der Mischung des Downlink-Signals und des Audiosignals ansteuert. In einem anderen Gesichtspunkt kann die Audiowiedergabe des Audiosignals angehalten werden, während die Wiedergabe des Downlink-Audiosignals fortgesetzt werden kann. In diesem Fall kann, sobald die Audiowiedergabe angehalten werden soll, der Mischer 44 das Mischen beider Signale einstellen und kann das Downlink-Signal zum Verwenden des Ansteuerns des Lautsprechers 22 durchstellen. Somit können der lokale Benutzer und der entfernte Benutzer in ein Gespräch eingreifen und, wenn abgeschlossen, kann die Wiedergabe des Medieninhalts fortgesetzt werden.
  • In einem Gesichtspunkt kann die Wiedergabevorrichtung über mindestens einige der entfernten Vorrichtungen erfolgen, die in dem Anruf und der gemeinsamen Medienwiedergabesitzung mit der lokalen Vorrichtung in Eingriff stehen. Beispielsweise kann die Steuerung 20 ein Steuersignal an entfernte Vorrichtungen senden, das die Vorrichtungen anweist, die Wiedergabe als Reaktion darauf, dass die entfernte Sprache nicht mehr aktiv ist, auf einen Zeitpunkt entlang der Wiedergabedauer zurückzuspulen.
  • 8-10 sind Flussdiagramme von Prozessen 50, 60 bzw. 70 zum Durchführen einer oder mehrerer Vorgänge als Reaktion auf das Erfassen der entfernten aktiven Sprache. In einem Gesichtspunkt können die Prozesse durch eine oder mehrere Vorrichtungen des Audiosystems 1 durchgeführt werden, wie in 1 veranschaulicht. Zum Beispiel können mindestens einige der Vorgänge dieser Prozesse durch die lokale Vorrichtung 2 (z. B. deren Steuerung 20) und/oder durch die Audioausgabevorrichtung 6 (z. B. deren Steuerung 75) durchgeführt werden.
  • Hinsichtlich 8 ist diese Figur ein Flussdiagramm eines Gesichtspunkts eines Prozesses 50 zum Verarbeiten eines Audiosignals des Medieninhalts basierend darauf, ob Sprache innerhalb des Downlink-Audiosignals erfasst wird. Der Prozess 50 beginnt, indem die Steuerung 20 einen Anruf (z. B. einen Telefonanruf oder einen Videoanruf) zwischen der lokalen Vorrichtung 2 und einer oder mehreren entfernten Vorrichtungen 3 (bei Block 51) initiiert. Wie hierin beschrieben, kann der Anruf durch den Anrufmanager 46 als Reaktion auf das Empfangen einer Anforderung durch den lokalen Benutzer eingeleitet werden. In einem Gesichtspunkt kann die Initiierung des Anrufs als Reaktion auf das Empfangen eines eingehenden Anrufs von einer oder mehreren entfernten Vorrichtungen erfolgen. In diesem Fall kann der Anruf durch den Anrufmanager als Reaktion darauf eingeleitet werden, dass der Benutzer den Anruf annimmt (z. B. über eine Benutzerauswahl eines UI-Elements einer Telefon-Anwendung zum Abheben eines Anrufs, der auf dem Anzeigebildschirm 25 angezeigt wird, wenn ein eingehendes Anrufsignal von einer entfernten Vorrichtung empfangen wird).
  • Während des Anrufs initiiert die Steuerung 20 als lokale Vorrichtung 2 eine gemeinsame Medienwiedergabesitzung, in der die lokale Vorrichtung und eine oder mehrere entfernte Vorrichtungen den Medieninhalt für die synchrone Wiedergabe (bei Block 52) unabhängig streamen. Zum Beispiel kann der gemeinsame Medienwiedergabesitzungsmanager 47 die Wiedergabe basierend auf einer Benutzereingabe initiieren. In einem Gesichtspunkt kann sich die Wiedergabesitzung unter allen Vorrichtungen befinden, die den Anruf führen. In einem weiteren Gesichtspunkt kann die Wiedergabesitzung zwischen der lokalen Vorrichtung und mindestens einigen der entfernten Vorrichtungen initiiert werden. In diesem Fall kann der lokale Benutzer definieren, welche entfernten Vorrichtungen teilnehmen sollen. In einigen Gesichtspunkten kann das Initiieren der gemeinsamen Medienwiedergabesitzung als Reaktion darauf erfolgen, dass die Steuerung 20 eine Initiierungsanforderung von einer oder mehreren der entfernten Vorrichtungen und/oder dem Medieninhaltsserver 5 empfängt.
  • Wie hierin beschrieben, kann die Steuerung 20 nach der Initiierung mindestens ein Audiosignal und/oder mindestens ein Videosignal empfangen, das dem Medieninhalt zugeordnet ist, und kann konfiguriert sein, um den Medieninhalt wiederzugeben und das Downlink-Audiosignal und/oder das Downlink-Videosignal gleichzeitig auszugeben, wie hierin beschrieben.
  • Die Steuerung 20 bestimmt, ob das Downlink-Signal von einer oder mehreren der entfernten Vorrichtungen Sprache (z. B. entfernte aktive Sprache) basierend auf Ausgabe von einem VAD, wie VAD 42 der Steuerung 20 und/oder VAD 82 der Audioausgabevorrichtung 6 (bei Entscheidungsblock 53), einschließt. Insbesondere kann die Steuerung bestimmen, ob das VAD-Signal auf einem hohen Signalpegel liegt, was auftreten kann, wenn der entfernte Benutzer zu sprechen beginnt oder bereits zu sprechen begonnen hat. Falls dies der Fall ist, legt die Steuerung 20 eine skalare Verstärkung an ein Audiosignal an, das dem Medieninhalt zugeordnet ist, um einen Signalpegel des Audiosignals (bei Block 54) zu verringern. Zum Beispiel kann die Steuerung beim Erkennen von Sprache eine skalare Verstärkung 43 auf das Audiosignal von dem Sitzungsmanager 47 anwenden. Die Steuerung 20 mischt das (auf die Verstärkung angepasste) Audiosignal und das/die Downlink-Signal(e) (bei Block 55). Die Steuerung 20 steuert einen Lautsprecher mit der Mischung (bei Block 56) an. In einem Gesichtspunkt kann der Lautsprecher ein Teil der lokalen Vorrichtung sein, wie Lautsprecher 22. In einem weiteren Gesichtspunkt kann der Lautsprecher ein Teil einer separaten elektronischen Vorrichtung sein, die kommunikativ mit der lokalen Vorrichtung, wie dem Lautsprecher 77 der Audioausgabevorrichtung 6, gekoppelt ist.
  • 9 ist ein Flussdiagramm eines Gesichtspunkts des Prozesses 60 zum Anzeigen von Untertiteln, die den Audioinhalt des Medieninhalts darstellen. In einem Gesichtspunkt kann dieser Prozess durchgeführt werden, während die lokale Vorrichtung 2 und eine oder mehrere entfernte Vorrichtungen 3 gleichzeitig einen Anruf und eine gemeinsame Medienwiedergabesitzung führen, wie hierin beschrieben. Der Prozess 60 beginnt durch die Steuerung 20, die ein Downlink-Signal (bei Block 61) empfängt. Die Steuerung empfängt eine Ausgabe von einem VAD (z. B. VAD 42), die anzeigt, ob das Downlink-Signal Sprache einschließt (bei Block 62). Die Steuerung bestimmt, ob die Ausgabe von dem VAD anzeigt, dass das Downlink-Signal Sprache einschließt (bei Entscheidungsblock 63). Insbesondere bestimmt die Steuerung, ob der Benutzer der entfernten Vorrichtung zu sprechen beginnt (oder bereits begonnen hat). Falls dies der Fall ist, erzeugt die Steuerung Untertitel, die einen Audioinhalt darstellen, der in einem oder mehreren Audiosignalen des Medieninhalts enthalten ist (bei Block 64). Die Steuerung zeigt dann die Untertitel an (bei Block 65). Somit zeigt die lokale Vorrichtung 2 als Reaktion auf das Bestimmen, dass der entfernte Benutzer spricht, die Untertitel auf dem Anzeigebildschirm 25 an.
  • 10 ist ein Flussdiagramm eines Gesichtspunkts des Prozesses 70 zum Wiedergaberückspulen von Medieninhalt aufgrund einer Bestimmung, dass das Downlink-Audiosignal aufgehört hat, Sprache einzuschließen. Der Prozess 70 beginnt mit der Steuerung 20, die einen ersten Zeitstempel entlang einer Wiedergabedauer des Medieninhalts bestimmt, an dem die Ausgabe von dem VAD anzuzeigen beginnt, dass das Downlink-Signal Sprache einschließt (bei Block 71). Die Steuerung 20 bestimmt einen zweiten Zeitstempel nach dem ersten Zeitstempel entlang der Wiedergabedauer des Medieninhalts, an dem die Ausgabe von dem VAD angibt, dass das Downlink-Signal aufgehört hat, Sprache einzuschließen (bei Block 72). Insbesondere kann der erste Zeitstempel als Reaktion auf das Bestimmen bestimmt werden, dass das von dem VAD erzeugte VAD-Signal auf einem hohen Signalpegel liegt, und der zweite Zeitstempel kann als Reaktion auf das Bestimmen bestimmt werden, dass das VAD-Signal von dem hohen Signalpegel auf einen niedrigen Signalpegel übergeht. Die Steuerung 20 spult die Wiedergabe des Medieninhalts zurück, indem die Wiedergabe des Medieninhalts an oder nach dem zweiten Zeitstempel angehalten wird und die Wiedergabe des Medieninhalts an (oder vor) dem ersten Zeitstempel entlang der Wiedergabedauer (bei Block 73) beginnt.
  • Einige Gesichtspunkte können Variationen für die Prozesse 50, 60 und/oder 70 durchführen, die in 8-10 beschrieben sind. Zum Beispiel müssen die spezifischen Vorgänge von mindestens einigen der Verfahren nicht in der exakten Reihenfolge durchgeführt werden, die gezeigt und beschrieben ist. Die spezifischen Vorgänge müssen nicht in einer fortlaufenden Serie von Vorgängen durchgeführt werden, und verschiedene spezifische Vorgänge können gemäß verschiedenen Gesichtspunkten durchgeführt werden. Beispielsweise kann in 8 die gemeinsame Medienwiedergabesitzung vor der Einleitung des Anrufs initiiert werden. In diesem Fall kann ein lokaler Benutzer den Medieninhalt für die Wiedergabe auswählen (z. B. innerhalb einer UI einer Medienanwendung, wie den in 3 und 4 dargestellten Medienanwendungen) und eine oder mehrere entfernte Vorrichtungen auswählen (z. B. Auswählen von Kontaktinformationen wie Telefonnummern, die den entfernten Vorrichtungen zugeordnet sind). Nach dem Auswählen kann der lokale Benutzer die Wiedergabe einleiten, indem er eine Wiedergabetaste auswählt, wie zum Beispiel in 3 und 4 gezeigt.
  • Zusätzlich kann die Steuerung 20 eine oder mehrere der Vorgänge als Reaktion auf das Erfassen der entfernten aktiven Sprache durchführen. Beispielsweise kann die Steuerung 20 beim Erkennen, dass die entfernte Sprache begonnen hat, die Vorgänge in den Prozessen 50 und 60 durchführen, um den Lautstärkepegel des Audiosignals zu reduzieren und Untertitel anzuzeigen.
  • In einem Gesichtspunkt kann die Steuerung 20 das Durchführen mindestens einiger der in den Prozessen 50, 60 und/oder 70 beschriebenen Vorgänge als Reaktion darauf beenden, dass die Ausgabe des VAD anzeigt, dass das Downlink-Signal keine Sprache einschließt. Beispielsweise kann die Steuerung bei der Ausgabe des VAD, die anzeigt, dass innerhalb des Downlink-Signals keine Sprache vorhanden ist, das Anlegen der skalaren Verstärkung an das Audiosignal bei Block 54 von 8 beenden. Infolgedessen kann der Schallpegel des Medieninhalts auf einen vorherigen Pegel von vor der Verringerung des Lautstärkepegels wiederhergestellt werden (z. B. bevor die Sprache des entfernten Benutzers erfasst wurde). In ähnlicher Weise kann die Steuerung bei den Blöcken 64 und 65 das Erzeugen und Anzeigen von Untertiteln beenden, sobald die entfernte Sprache nicht mehr aktiv ist.
  • In einem Gesichtspunkt können die Vorgänge, die von der Steuerung durchgeführt werden, um die Audioqualität des Medieninhalts basierend auf einer Erfassung der entfernten aktiven Sprache zu bewahren, automatisch (z. B. ohne Benutzereingriff) erfolgen. Beispielsweise kann der Untertitelgenerator 48 basierend auf der Ausgabe des VAD, wie in Prozess 60 beschrieben, automatisch die Untertitel erzeugen und anzeigen. In einem anderen Gesichtspunkt können mindestens einige der Vorgänge (z. B. die Anpassung an den Signalpegel des Audiosignals durch die Anwendung der skalaren Verstärkung, die Erzeugung und Anzeige von Untertiteln und/oder das Wiedergaberückspulen usw.) als Reaktion auf das Empfangen der Benutzerberechtigung durchgeführt werden. Insbesondere kann die Steuerung als Reaktion auf das Bestimmen, dass die Ausgabe des VAD anzeigt, dass das Downlink-Signal Sprache einschließt, eine Benachrichtigung an den lokalen Benutzer bereitstellen, welche die Berechtigung zum Durchführen mindestens einer der hierin beschriebenen Vorgänge anfordert. Beispielsweise kann die Steuerung beim Bestimmen des zweiten Zeitstempels, bei dem die entfernte Sprache nicht länger bei Block 72 des Prozesses 70 vorhanden ist, eine Benachrichtigung an den Benutzer bereitstellen, welche die Berechtigung zum Wiedergaberückspulen bei Block 73 anfordert. In einem Gesichtspunkt kann die Benachrichtigung eine Popup-Benachrichtigung sein, die auf dem Anzeigebildschirm 25 angezeigt wird. Sobald die Berechtigung empfangen wurde (z. B. durch Benutzerauswahl eines UI-Elements), kann die Steuerung mindestens einen der hierin beschriebenen Vorgänge durchführen. In einem anderen Gesichtspunkt kann die Steuerung, wenn die Benutzerberechtigung nicht empfangen wird (z. B. innerhalb eines Zeitraums), von der Durchführung mindestens einiger der hierin beschriebenen Vorgänge absehen. Wenn zum Beispiel die Berechtigung zur Wiedergaberückspulung empfangen wird, kann die Steuerung die Wiedergabe des Medieninhalts nach dem Zeitraum fortsetzen.
  • Wie hierin beschrieben, können Vorgänge, die von der Steuerung durchgeführt werden, um die Medienqualität der Medieninhaltswiedergabe zu bewahren (z. B. die Anwendung der skalaren Verstärkung, die Erzeugung und Anzeige von Untertiteln und/oder das Rückspulen der Wiedergabe des Medieninhalts usw.) darauf basieren, ob eine entfernte aktive Sprache während eines gleichzeitigen Anrufs vorliegt. Zusätzlich können mindestens einige der Vorgänge als Reaktion darauf durchgeführt werden, dass die Steuerung bestimmt, dass eine lokale aktive Sprache vorliegt. Beispielsweise kann die Steuerung 20 als Reaktion auf das Bestimmen, dass die Ausgabe eines VAD anzeigt, dass entweder 1) ein von einem Mikrofon der lokalen Vorrichtung oder einer Audioausgabevorrichtung erzeugtes Signal Sprache eines lokalen Benutzers und/oder 2) ein von einem Beschleunigungsmesser erzeugtes Beschleunigungsmessersignal mit einem Energiepegel, der auf Sprache hinweist, einschließt, die skalare Verstärkung auf ein Audiosignal anlegen.
  • Wie bisher beschrieben, können die Vorgänge, die von der Steuerung durchgeführt werden, um die Audioqualität des Medieninhalts zu bewahren, als Reaktion auf das Erfassen einer entfernten und/oder lokalen aktiven Sprache vorliegen. Mit anderen Worten können die Vorgänge durchgeführt werden, wenn die lokalen oder entfernten Benutzer sprechen. In einem anderen Gesichtspunkt können mindestens einige der Vorgänge, um die Audioqualität zu bewahren, als Reaktion auf einen Signalpegel des Downlink-Signals und/oder eines Geräuschpegels eines Mikrofonsignals durchgeführt werden, das von einem mit der lokalen Vorrichtung gekoppelten Mikrofon erzeugt wird, wie Mikrofon 23, das einen Schwellenwert überschreitet. Insbesondere können die Vorgänge durchgeführt werden, wenn es einen lauten Ton gibt, der entweder an der entfernten Vorrichtung oder der lokalen Vorrichtung auftritt. Somit kann die Steuerung beispielsweise als Reaktion darauf, dass das Downlink-Signal oder das Mikrofonsignal einen Signalpegel überschreitet, Untertitel erzeugen und anzeigen, wie in Prozess 60 beschrieben. Darüber hinaus kann die Steuerung 20 eine Wiedergabe zurückspulen lassen, wenn das Geräusch nachlässt (z. B. der Signalpegel unter den Schwellenwert fällt), wie in Prozess 70 beschrieben.
  • Streaming-Medieninhalt, wie musikalische Kompositionen, Filme usw., erfordert, während eine Audioausgabevorrichtung (z. B. drahtlose Kopfhörer) verwendet wird, die drahtlos mit einer Medienquellenvorrichtung verbunden ist, dass die Quellvorrichtung einen hochwertigen Audio-Stream über die drahtlose Verbindung zu der Audioausgabevorrichtung zur Ausgabe überträgt (z. B. um einen oder mehrere Lautsprecher anzusteuern), um ein gutes Hörerlebnis bereitzustellen. Um hochwertiges Audio zu streamen, stellen die meisten drahtlosen Kopfhörer eine unidirektionale drahtlose Audioverbindung her, die eine hohe Bitrate und Abtastrate mit der Quellvorrichtung unterstützt. Beispielsweise können beide Vorrichtungen eine BLUETOOTH-Verbindung unter Verwendung eines drahtlosen Profils einrichten, das hochwertiges Audio, wie A2DP, bereitstellt. A2DP ermöglicht das Streamen von Stereo-Audio von der Quellvorrichtung zu dem drahtlosen Kopfhörer und verwendet den SBC-Codec mit einer Abtastrate bis zu 48 kHz.
  • Einige Audioausgabevorrichtungen können nicht in der Lage sein, hochwertiges Audio zu unterstützen, wenn sie mit einer Quellvorrichtung kommunizieren, die einen Anruf mit einer anderen Vorrichtung initiiert hat und eine gemeinsame Medienwiedergabesitzung initiiert hat, um Medieninhalte zu streamen. Um beispielsweise eine drahtlose Kommunikation zwischen einer Audioausgabevorrichtung und einer Quellvorrichtung zu ermöglichen, können beide Vorrichtungen eine bidirektionale drahtlose Audioverbindung einrichten, um Audiosignale auszutauschen, die dem Anruf zugeordnet sind. Diese bidirektionalen drahtlosen Audioverbindungen stellen jedoch nur einen niederqualitativen Audio-Stream an die Audioausgabevorrichtung bereit. Beispielsweise können beide Vorrichtungen eine BLUETOOTH-Verbindung unter Verwendung eines drahtlosen Profils einrichten, das Audiodaten ermöglicht, zwischen mehreren Vorrichtungen, wie HFP oder HSP, ausgetauscht zu werden. Diese Profile unterstützen nur „Sprachqualität“ oder niederqualitatives Audio, die zwischen beiden Vorrichtungen ausgetauscht werden sollen. Beispielsweise verwendet HFP traditionell nur Codecs, die eine Abtastrate von 8 bis 16 kHz aufweisen, und sind nur in der Lage, Mono-Audiosignale zu übertragen. Obwohl ein derart niederqualitativer Stream für die Nur-Sprachkommunikation ausreichend sein kann, kann eine derartige drahtlose Verbindung möglicherweise keine ausreichende Audioqualität bereitstellen, wenn der Medieninhalt gemeinsam mit dem Führen eines Anrufs gestreamt wird. In einem Gesichtspunkt können andere Audioausgabevorrichtungen jedoch dazu ausgelegt sein, eine hochwertige drahtlose Audioübertragung zu unterstützen. Zum Beispiel kann eine Audioausgabevorrichtung eine „hochwertige“ bidirektionale drahtlose Audioverbindung unter Verwendung eines drahtlosen Profils unterstützen, das einen Codec mit einer höheren Abtastrate (z. B. 24 kHz) aufweist. Daher besteht ein Bedarf zum Hin- und Herschalten zwischen drahtlosen Audioverbindungen, wenn eine gemeinsame Medienwiedergabesitzung während eines Anrufs basierend auf den Fähigkeiten einer Audioausgabevorrichtung eingeleitet wird.
  • Um diese Mängel zu überwinden, beschreibt die vorliegende Offenbarung ein Verfahren und ein Audiosignal zum Umschalten drahtloser Audioverbindungen während eines Anrufs. Insbesondere kann das Verfahren durch die lokale Vorrichtung 2 durchgeführt werden, die kommunikativ mit der Audioausgabevorrichtung 6 gekoppelt ist (z. B. in der freihändigen Kommunikation). Während zum Beispiel die lokale Vorrichtung in einem Anruf (z. B. einem Telefonanruf oder einem Videoanruf) mit einer entfernten Vorrichtung in Eingriff steht, kommuniziert sie mit der Audioausgabevorrichtung über eine bidirektionale drahtlose Audioverbindung. Die lokale Vorrichtung bestimmt, dass eine gemeinsame Medienwiedergabesitzung initiiert wurde, in der die lokale Vorrichtung und die entfernte Vorrichtung den Medieninhalt für eine separate Wiedergabe von beiden Vorrichtungen unabhängig streamen sollen, während sie in den Anruf eingreifen. Die lokale Vorrichtung schaltet zum Kommunizieren mit dem drahtlosen Headset über eine unidirektionale drahtlose Audioverbindung basierend auf einer Bestimmung einer oder mehrerer Fähigkeiten der Audioausgabevorrichtung (z. B. Bestimmen, dass die Ausgabevorrichtung nur einen Audio-Stream minderer Qualität unterstützt) um, wobei eine Mischung von 1) ein oder mehreren dem Anruf zugeordneten Signalen und 2) ein Audiosignal des Medieninhalts über die unidirektionale drahtlose Audioverbindung an das drahtlose Headset übertragen wird. Infolgedessen kann die Audioausgabevorrichtung hochwertiges Audio bereitstellen, wenn sie sowohl einen Anruf als auch eine gemeinsame Medienwiedergabesitzung in Eingriff nimmt.
  • 11 zeigt ein Blockdiagramm, in dem die lokale Vorrichtung 2 über eine bidirektionale drahtlose Audioverbindung mit Audioausgabevorrichtung 6 zum Austauschen von Audiodaten kommunikativ gekoppelt ist, während die lokale Vorrichtung in einem Anruf mit einer entfernten Vorrichtung 3 gemäß einem Gesichtspunkt in Eingriff steht. Insbesondere veranschaulicht diese Figur, dass die lokale Vorrichtung mit der Audioausgabevorrichtung über eine bidirektionale drahtlose Audioverbindung kommuniziert, während sie in einem (z. B. freihändigen) Anruf mit einer entfernten Vorrichtung in Eingriff steht, um Audiodaten des Anrufs zwischen der lokalen Vorrichtung und der Audioausgabevorrichtung auszutauschen. Dies wird veranschaulicht, indem das Mikrofon 23 der lokalen Vorrichtung deaktiviert wird (z. B. als gestreift gezeigt) und das Mikrofon 78 der Audiovorrichtung den Ton aufnimmt (z. B. wie durch Schallwellen gezeigt). In einem Gesichtspunkt zeigt diese Figur beide Vorrichtungen, bevor (oder nachdem) eine gemeinsame Medienwiedergabesitzung eingeleitet wurde.
  • Wie gezeigt, sind beide Vorrichtungen kommunikativ über eine bidirektionale drahtlose Audioverbindung 80 gekoppelt, die es beiden Vorrichtungen ermöglicht, Audiodaten auszutauschen, wie hierin beschrieben. In einem Gesichtspunkt kann die bidirektionale Verbindung jede Art von drahtloser Verbindung sein, die es beiden Vorrichtungen ermöglicht, Audiodaten auszutauschen, wie eine HFP-Verbindung. In einem Gesichtspunkt kann die bidirektionale Verbindung eine „niederqualitative“ bidirektionale drahtlose Audioverbindung (niederqualitative drahtlose Verbindung) oder eine „hochwertige“ bidirektionale drahtlose Audioverbindung (hochwertige drahtlose Verbindung) sein. In einem Gesichtspunkt kann eine niederqualitative drahtlose Verbindung dazu ausgelegt sein, Mono-Audio und/oder die Übertragung eines Audio-Streams mit einer Abtastrate zu unterstützen, die kleiner als eine Schwellenabtastrate (z. B. 24 kHz) ist. In einigen Gesichtspunkten kann die niederqualitative bidirektionale Verbindung eine herkömmliche HFP oder HSP-Verbindung sein, wie hierin beschrieben. In einigen Gesichtspunkten kann eine hochwertige Audioverbindung dazu ausgelegt sein, Stereo-Audio und/oder die Übertragung eines Audio-Streams mit einer Abtastrate zu unterstützen, die mindestens die Schwellenabtastrate beträgt. In einem Gesichtspunkt kann die hochwertige Audioverbindung eine BLUETOOTH-Verbindung sein, die ein drahtloses Profil (z. B. HFP) mit einem Codec verwendet, der dazu ausgelegt ist, einen Stereo-Audiostream mit oder über der Schwellenabtastrate zu übertragen.
  • In einem Gesichtspunkt kann die Audioqualität der drahtlosen Verbindung auf den Fähigkeiten (oder Eigenschaften) der Audioausgabevorrichtung (und/oder der lokalen Vorrichtung) basieren. Beispielsweise kann die Audioausgabevorrichtung während der Initiierung der bidirektionalen drahtlosen Audioverbindung Vorrichtungseigenschaften an die lokale Vorrichtung übertragen. In einem Gesichtspunkt können die Eigenschaften angeben, welche Typen von drahtlosen Audioverbindungen die Audioausgabevorrichtung mit der lokalen Vorrichtung einrichten können. Zum Beispiel können die Eigenschaften angeben, welche drahtlosen Profile und/oder Audio-Codecs die Audioausgabevorrichtung unterstützen. In einem Gesichtspunkt kann die lokale Vorrichtung basierend auf diesen Eigenschaften die bidirektionale drahtlose Audioverbindung einrichten.
  • Um die freihändige Kommunikation zu führen, schließen beide Steuerungen 20 und 75 der lokalen Vorrichtung und Audioausgabevorrichtung einen oder mehrere Betriebsblöcke ein. Beispielsweise schließt die Steuerung 20 den Audioanrufmanager 46 und den Sprach-DSP 41 ein, und die Steuerung 75 schließt einen (optionalen) Echokompensator 83 ein. Die Steuerung 20 schließt auch den Medienwiedergabemanager 47 ein, aber da beide Vorrichtungen keine gemeinsame Medienwiedergabesitzung führen, ist dieser Betriebsblock inaktiv (wie durch gestrichelte Grenzen gezeigt).
  • Wie hierin beschrieben, ist der Audioanrufmanager konfiguriert, um einen Anruf (z. B. durch Austausch von Audiodaten des Anrufs) zwischen der lokalen Vorrichtung 2 und einer oder mehreren entfernten Vorrichtungen 3 zu initiieren (und zu führen). Insbesondere empfängt der Manager ein Downlink-Audiosignal von der entfernten Vorrichtung und sendet ein Mikrofonsignal, das von der Audioausgabevorrichtung als ein Uplink-Audiosignal empfangen wird, an die entfernte Vorrichtung. Der Sprach-DSP 41 ist konfiguriert, um das Downlink-Audiosignal von dem Audioanrufmanager zu empfangen, und ist konfiguriert, um eine Audiosignalverarbeitung (z. B. Sprachverarbeitung) auf dem Signal durchzuführen, um darin enthaltene Geräusche zu reduzieren (oder zu eliminieren). Wie hierin beschrieben, kann der Sprach-DSP eine Rauschreduktion auf das dem Anruf zugeordnete Downlink-Audiosignal anwenden. Die Audioausgabevorrichtung überträgt das (verarbeitete) Downlink-Audiosignal über die bidirektionale drahtlose Audioverbindung 80 (über Netzwerkschnittstellen 21 und 76) an die Audioausgabevorrichtung, um den Lautsprecher 77 anzusteuern.
  • In einem Gesichtspunkt kann die Audioausgabevorrichtung einen optionalen Echokompensator 83 einschließen, der konfiguriert ist, um ein von dem Mikrofon 78 erfasstes Mikrofonsignal zu empfangen, und konfiguriert ist, um Echokompensationsvorgänge zum Unterdrücken des linearen Echos aus dem Mikrofonsignal durchzuführen. Insbesondere kann der Kompensator einen linearen Filter basierend auf einem Übertragungspfad zwischen dem Mikrofon 78 und dem Lautsprecher 77 bestimmen und den Filter auf das Downlink-Audiosignal anwenden, um eine Schätzung von einem Echo zu erzeugen, die vom Mikrofonsignal subtrahiert wird. In einigen Gesichtspunkten kann der Echokompensator jedes Verfahren der Echokompensation verwenden. Das (Echo kompensierende) Mikrofonsignal wird dann über die bidirektionale drahtlose Audioverbindung 80 an den Audioaufrufmanager 46 zur Übertragung an die entfernte Vorrichtung als Uplink-Audiosignal übertragen.
  • 12 zeigt ein Blockdiagramm, in dem die lokale Vorrichtung 2 über eine bidirektionale drahtlose Audioverbindung während einer gemeinsamen Medienwiedergabesitzung und eines Anrufs mit der entfernten Vorrichtung 3 gemäß einem Gesichtspunkt kommunikativ mit der Audioausgabevorrichtung 6 gekoppelt ist. Insbesondere veranschaulicht diese Figur das Ergebnis der lokalen Vorrichtung 2, die eine gemeinsame Medienwiedergabesitzung initiiert, während die lokale Vorrichtung und die Audioausgabevorrichtungen in einen freihändigen Anruf eingriffen, wie in 5 gezeigt. Die Initiierung der Wiedergabesitzung wird durch den Medienwiedergabemanager 47 veranschaulicht, der Medieninhalt von dem Medieninhaltsserver 5 empfängt (z. B. als ein Audiosignal). In einem Gesichtspunkt kann diese Figur 6 ähnlich sein, welche die lokale Vorrichtung beschreibt, die kommunikativ mit der Audioausgabevorrichtung gekoppelt ist, während sie einen freihändigen Anruf und die gemeinsame Medienwiedergabesitzung gleichzeitig führt. Diese Figur zeigt auch, dass die Steuerung einen oder mehrere zusätzliche Betriebsblöcke, wie Mischer 44, eine drahtlose Audioverbindungsumschaltentscheidungslogik 13 und eine skalare Verstärkung 86 (die optional ist) einschließt.
  • In einem Gesichtspunkt ist die Entscheidungslogik 13 konfiguriert, um zu bestimmen, ob in die unidirektionale drahtlose Audioverbindung oder die bidirektionale drahtlose Audioverbindung umgeschaltet (z. B. sie aufrechterhalten) werden soll, um die Audioqualität des Medieninhalts und des Anrufs zu maximieren, wodurch die beste Benutzererfahrung bereitgestellt wird. Insbesondere bestimmt die Entscheidungslogik, dass eine gemeinsame Medienwiedergabesitzung durch Empfangen eines Steuersignals von dem gemeinsamen Medienwiedergabesitzungsmanager initiiert wurde, was anzeigt, dass eine (z. B. neue) Mediensitzung zwischen der lokalen Vorrichtung und einer oder mehreren entfernten Vorrichtungen eingerichtet ist (z. B. eingerichtet werden soll). In einem Gesichtspunkt bestimmt die Entscheidungslogik, ob basierend auf den Fähigkeiten der Audioausgabevorrichtung (die z. B. während der Initialisierung der bidirektionalen drahtlosen Audioverbindung 80 empfangen wurden) umgeschaltet werden soll, wie hierin beschrieben. Wenn zum Beispiel bestimmt wird, dass die Audioausgabevorrichtung durch die Verwendung einer bidirektionalen Verbindung hochwertiges Audio nicht unterstützt (z. B. basierend auf einem verfügbaren Audio-Codec, der eine Abtastrate unter der Schwellenwertrate aufweist, wie hierin beschrieben), kann die Entscheidungslogik die drahtlose Verbindung auf eine unidirektionale Verbindung umschalten. Mehr über die unidirektionale Verbindung wird beschrieben in 13a und 13b. In dieser Figur hat die Entscheidungslogik jedoch bestimmt, dass die Audioausgabevorrichtung hochwertiges Audio unterstützt. In diesem Fall hat die lokale Vorrichtung eine (z. B. hochwertige) bidirektionale drahtlose Audioverbindung 81 zum Streamen von hochwertigem Audio hergestellt. In einem Gesichtspunkt kann diese Verbindung bei Einleitung des freihändigen Anrufs hergestellt worden sein (z. B. in 11). In diesem Fall kann, sobald bestimmt wird, dass die bestehende Verbindung (z. B. zwischen der lokalen Vorrichtung und der Audioausgabevorrichtung während der freihändigen Verbindung) hochwertiges Audio bereitstellt, die lokale Vorrichtung die bidirektionale Verbindung mit der Audioausgabevorrichtung aufrechterhalten. Infolgedessen können die Verbindungen 80 und 81 dieselbe Verbindung sein.
  • In einem anderen Gesichtspunkt kann die Entscheidungslogik 13 anstelle von Eigenschaften von der Audioausgabevorrichtung eine oder mehrere Eigenschaften basierend auf der Audioausgabevorrichtung abrufen. Insbesondere kann die Audioausgabevorrichtung während der Initialisierung des freihändigen Anrufs eine Vorrichtungskennung an die lokale Vorrichtung übertragen. Die Entscheidungslogik kann die Kennung verwenden, um eine Tabellensuche in eine Datenstruktur durchzuführen, die Eigenschaften mit Vorrichtungskennungen verknüpft.
  • In einem Gesichtspunkt kann die lokale Vorrichtung bei Initiierung der gemeinsamen Medienwiedergabevorrichtung bestimmen, ob sie auf die unidirektionale drahtlose Audioverbindung oder die bidirektionale drahtlose Audioverbindung umgeschaltet (z. B. aufrechterhalten) werden soll, um die Audioqualität des Medieninhalts und des Anrufs zu maximieren, wodurch die beste Benutzererfahrung bereitgestellt wird. In einem Gesichtspunkt kann die Bestimmung auf den Fähigkeiten der Audioausgabevorrichtung basieren, wie hierin beschrieben. Wenn zum Beispiel die Audioausgabevorrichtung durch die Verwendung einer bidirektionalen Verbindung kein hochwertiges Audio unterstützt (z. B. basierend auf einem verfügbaren Audio-Codec mit einer Abtastrate unter der Schwellenwertrate, wie hierin beschrieben), kann die lokale Vorrichtung die drahtlose Verbindung auf eine unidirektionalen Verbindung umschalten. Mehr über die unidirektionale Verbindung wird beschrieben in 13a und 13b. In dieser Figur hat die lokale Vorrichtung jedoch bestimmt, dass die Audioausgabevorrichtung hochwertiges Audio unterstützt. In diesem Fall hat die lokale Vorrichtung eine (z. B. hochwertige) bidirektionale drahtlose Audioverbindung 81 zum Streamen von hochwertigem Audio hergestellt. In einem Gesichtspunkt kann diese Verbindung bei Einleitung des freihändigen Anrufs hergestellt worden sein (z. B. in 11). In diesem Fall kann, sobald bestimmt wird, dass die bestehende Verbindung (z. B. zwischen der lokalen Vorrichtung und der Audioausgabevorrichtung während der freihändigen Verbindung) hochwertiges Audio bereitstellt, die lokale Vorrichtung die bidirektionale Verbindung mit der Audioausgabevorrichtung aufrechterhalten. Infolgedessen können die Verbindungen 80 und 81 dieselbe Verbindung sein.
  • In einem Gesichtspunkt kann die lokale Vorrichtung während des Führens der gemeinsamen Medienwiedergabesitzung und des Anrufs die Durchführung eines oder mehrerer Vorgänge beenden und beginnt, eine oder mehrere Audioverarbeitungsvorgänge auf dem Downlink-Signal des Anrufs und/oder dem Audiosignal des Medieninhalts durchzuführen. Beispielsweise schließt die Steuerung 20 den Mischer 44 und eine skalare Verstärkung 86 ein (die optional ist), wobei der Mischer 44 ein Audiosignal des Medieninhalts von dem Medienwiedergabemanager 47 und dem Downlink-Audiosignal von dem Anrufmanager 46 empfängt, anstelle des Sprach-DSP 41, der das Downlink-Audiosignal empfängt. In einem Gesichtspunkt kann die Steuerung die Durchführung von Sprach-DSP-Vorgängen (z. B. das Anlegen der Rauschreduktion auf das Downlink-Audiosignal) als Reaktion auf das Umschalten zum Kommunizieren mit der Audioausgabevorrichtung über die unidirektionale Verbindung einstellen, um einen volleren spektralen Inhalt sowohl des Medieninhalts als auch des Audioinhalts des Downlink-Signals bereitzustellen. Wie hierin beschrieben, ist der Mischer konfiguriert, um Matrixmischvorgänge zum Erzeugen einer Mischung der Signale durchzuführen. Die skalare Verstärkung 86 ist konfiguriert, um die Mischung zu empfangen, und ist konfiguriert, um eine skalare Verstärkung an die Mischung anzulegen, um einen Signalpegel der Mischung zu verringern. In einem Gesichtspunkt kann die skalare Verstärkung für einen Zeitraum angelegt werden, nach dem die gemeinsame Medienwiedergabesitzung initiiert wurde (oder nach dem die Steuerung 20 umschaltet, um mit der Audioausgabevorrichtung über die unidirektionale drahtlose Audioverbindung zu kommunizieren). Nach dem Zeitraum kann die skalare Verstärkung verringert (oder entfernt) werden, sodass die Verstärkung nicht länger auf die Mischung angelegt wird. In einem Gesichtspunkt kann die skalare Verstärkung für einen zweiten Zeitraum inkrementell verringert werden, um ein Absinken der Wirkung bereitzustellen. Die Mischung wird dann über die bidirektionale drahtlose Audioverbindung 81 an die Audioausgabevorrichtung zum Ansteuern des Lautsprechers 77 übertragen, wie hierin beschrieben.
  • 13a und 13b zeigen mehrere Blockdiagramme, in denen die lokale Vorrichtung 2, die kommunikativ mit der Audioausgabevorrichtung 6 gekoppelt ist, zwischen drahtlosen Audioverbindungen, basierend auf der Initiierung der gemeinsamen Medienwiedergabesitzung gemäß einem Gesichtspunkt, umschaltet. Insbesondere 13a zeigt ein Blockdiagramm, in dem die lokale Vorrichtung und die Audioausgabevorrichtung über eine unidirektionale drahtlose Audioverbindung 85 gekoppelt sind. Insbesondere veranschaulicht diese Figur das Ergebnis der lokalen Vorrichtung 2, die eine gemeinsame Medienwiedergabesitzung initiiert, während sie in einem Anruf in Eingriff steht. Anders als 12, in der eine bidirektionale drahtlose Audioverbindung zwischen der lokalen Vorrichtung und der Audioausgabevorrichtung aufrechterhalten wird, zeigt diese Figur jedoch, dass die lokale Vorrichtung auf eine unidirektionale drahtlose Audioverbindung 85 umgeschaltet hat, um hochwertige Audiodaten an die Audioausgabevorrichtung zur Ausgabe zu streamen (z. B. durch Lautsprecher 77).
  • In einem Gesichtspunkt kann die Umschaltung (oder der Übergang) von der bidirektionalen Verbindung zu der unidirektionalen drahtlosen Audioverbindung auf der Audioausgabevorrichtung basieren, wie hierin beschrieben. Beispielsweise kann die Entscheidungslogik 13 über eine bidirektionale drahtlose Audioverbindung mit einer Abtastrate, die mindestens eine Schwellenabtastrate ist, bestimmen (z. B. als Reaktion auf das Empfangen des Steuersignals von dem Sitzungsmanager 47), dass die Audioausgabevorrichtung keine Audiosignale unterstützt. Wie hierin beschrieben, kann die Bestimmung auf Eigenschaften basieren, die von der Audioausgabevorrichtung empfangen werden, oder basierend auf einer Tabellensuche in eine Datenstruktur unter Verwendung einer Vorrichtungskennung. In einem Gesichtspunkt kann die Entscheidungslogik bestimmen, auf die unidirektionale drahtlose Audioverbindung umzuschalten, basierend auf nicht empfangenden Eigenschaften von der Vorrichtung und/oder Nicht-Identifizieren der Vorrichtung innerhalb der Datenstruktur (z. B. kann die Entscheidung zum Übergang eine Standardentscheidung durch die Entscheidungslogik sein).
  • In einem Gesichtspunkt können die lokale Vorrichtung 2 und die Audioausgabevorrichtung eine oder mehrere Vorgänge durchführen, um von der bidirektionalen Verbindung 80 auf die unidirektionale drahtlose Audioverbindung 85 überzugehen. Beispielsweise kann die lokale Vorrichtung 2 (oder die Audioausgabevorrichtung 6) die bidirektionale drahtlose Audioverbindung 80 abbrechen (oder beenden). Nach dem Abbrechen kann die lokale Vorrichtung die unidirektionale drahtlose Audioverbindung (z. B. eine BLUETOOTH-A2DP-Verbindung) mit der Audioausgabevorrichtung einrichten. Da in einem Gesichtspunkt die bidirektionale Verbindung für die unidirektionale Verbindung abgebrochen ist, in der Audiodaten nur von der lokalen Vorrichtung an die Audioausgabevorrichtung übertragen werden können, kann die Steuerung konfiguriert werden, um ein oder mehrere andere Mikrofone zu aktivieren, um die Sprache des lokalen Benutzers für das Uplink-Audiosignal zu erfassen. Insbesondere kann die Steuerung ein Signal an die Audioausgabevorrichtung senden, um das Mikrofon 78 (als gestreift veranschaulicht) stummzuschalten, und kann das Mikrofon 23 der lokalen Vorrichtung aktivieren, um die Stimme des lokalen Benutzers zu erfassen. In einem Gesichtspunkt kann das aktivierte Mikrofon Teil einer unterschiedlichen elektronischen Vorrichtung sein. Somit kann ein Mikrofonsignal des Mikrofons 23 als ein Uplink-Audiosignal an die entfernte Vorrichtung übertragen werden. Mehr über die Vorgänge, die von der Steuerung zum Umschalten drahtloser Audioverbindungen durchgeführt werden, werden hierin beschrieben.
  • In einem Gesichtspunkt kann die Steuerung 20 (optional) einen Echokompensationsschätzvorgang auf das durch Mikrofon 23 erzeugte Mikrofonsignal durchführen. Insbesondere schließt die Steuerung 20 einen Echokompensationsschätzer 87 ein, der konfiguriert ist, um Echokompensationsvorgänge durchzuführen, um Echo aus dem Mikrofonsignal zu kompensieren. In einem Gesichtspunkt kann der Schätzer einen ähnlichen Vorgang wie den in 11 beschriebenen Kompensator 83 durchführen. Beispielsweise kann der Schätzer ein Mikrofonsignal der lokalen Vorrichtung erhalten, das an die entfernte Vorrichtung übertragen werden soll, während beide Vorrichtungen in dem Anruf in Eingriff stehen. Der Schätzer ist konfiguriert, um eine Schätzung eines Abschnitts eines oder mehrerer Signale (z. B. Downlink-Audio-Signale) zu erzeugen, die dem Anruf zugeordnet sind. Beispielsweise kann der Schätzer einen linearen Filter basierend auf einem Übertragungspfad zwischen dem Mikrofon 23 und dem Lautsprecher 77 bestimmen. In einem Gesichtspunkt ist, anders als der Übertragungspfad zwischen dem Mikrofon 78 und dem Lautsprecher 77, der definiert sein kann (z. B. basierend darauf, dass das Mikrofon und der Lautsprecher an vordefinierten Stellen in die Audioausgabevorrichtung integriert sind), der Übertragungspfad zwischen dem Mikrofon 23 des lokalen und dem Lautsprecher 77 der Audioausgabevorrichtung nicht vordefiniert. Daher kann der Schätzer den Übertragungspfad schätzen. Beispielsweise kann der Schätzer den Abstand zwischen dem Mikrofon 23 und dem Lautsprecher 77 basierend auf einer Ankunftszeit von durch den Lautsprecher 77 erzeugtem Schall bestimmen, der durch das Mikrofon 23 erfasst wird. In einem anderen Gesichtspunkt kann der Schätzer den Pfad basierend auf einer empfangenen Signalstärke (RSSI) der drahtlosen Audioverbindung schätzen. In einigen Gesichtspunkten kann der Schätzer ein beliebiges Schalllokalisierungsverfahren verwenden, um den Standort des Lautsprechers 77 und somit den Pfad vom Lautsprecher zum Mikrofon zu bestimmen. In einem anderen Gesichtspunkt kann der Übertragungspfad vordefiniert sein (z. B. ein Pfad, der in einer kontrollierten Umgebung, wie einem Labor, bestimmt wird). Unter Verwendung der Schätzung des Übertragungspfads wird der lineare Filter bestimmt, der auf das Downlink-Audiosignal angelegt wird, um eine Schätzung von einem Echo zu erzeugen, die von dem Mikrofonsignal subtrahiert wird, wie hierin beschrieben.
  • In einem Gesichtspunkt kann die drahtlose Audioverbindungsumschaltentscheidungslogik 13 konfiguriert sein, um zwischen der unidirektionalen drahtlosen Audioverbindung 85 und einer bidirektionalen drahtlosen Audioverbindung hin- und herzuschalten, während die gemeinsame Medienwiedergabesitzung und der Anruf geführt werden. In einem Gesichtspunkt kann die Entscheidungslogik auf die hochwertige bidirektionale drahtlose Audioverbindung umschalten (z. B. Verbindung 81 in 12). In einem weiteren Gesichtspunkt kann, wenn die Audioausgabevorrichtung keine hochwertige bidirektionale drahtlose Audioverbindung unterstützt, die Entscheidungslogik die unidirektionale drahtlose Audioverbindung auf eine niederqualitative bidirektionale drahtlose Audioverbindung umschalten, um eine freihändige Kommunikation mit der Audioausgabevorrichtung bereitzustellen, wie hierin beschrieben. Obwohl weniger bevorzugt als die unidirektionale drahtlose Audioverbindung aufgrund einer niedrigeren Audioqualität, kann in einigen Fällen diese Funktionsweise basierend auf einem oder mehreren Kriterien erforderlich oder nötig sein. Die Umschaltung auf die bidirektionale Verbindung wird beschrieben in 13b.
  • In einem Gesichtspunkt kann die Umschaltung auf eine bidirektionale drahtlose Audioverbindung auf dem Standort der lokalen Vorrichtung 2 und/oder der Audioausgabevorrichtung 6 basieren. Beispielsweise kann, wie hierin beschrieben, beim Übergang auf die unidirektionale drahtlose Audioverbindung die Position des Mikrofons, das während des Anrufs und vor der Initiierung der gemeinsamen Medienwiedergabesitzung verwendet wird, an der Audioausgabevorrichtung liegen, die ein drahtloses Headset sein kann, das am Kopf des Benutzers getragen wird. Nach dem Initiieren der unidirektionalen Verbindung kann sich die Position des (z. B. aktiven) Mikrofons jedoch zu einem unterschiedlichen Mikrofon (z. B. dem Mikrofon 23 der lokalen Vorrichtung), das von der Audioausgabevorrichtung getrennt sein kann, ändern. Somit können das/die Mikrofon(e) und der/die Lautsprecher, die während des Anrufs und der gemeinsamen Medienwiedergabesitzung verwendet werden, ein Teil unterschiedlicher elektronischer Vorrichtungen sein, jede Vorrichtung an einem anderen Ort. Infolgedessen kann es für den lokalen Benutzer zur Teilnahme an dem Anruf und der Verbindungssitzung erforderlich sein, sowohl die lokale Vorrichtung als auch die Audioausgabevorrichtung in unmittelbarer Nähe zu haben (z. B. damit das Mikrofon die Stimme des Benutzers erfasst und damit der Benutzer den von dem Lautsprecher der Audioausgabevorrichtung erzeugten Ton hört). In einem Gesichtspunkt kann die Entscheidungslogik Sensordaten von einem oder mehreren Sensoren 40 empfangen und kann konfiguriert sein, um zu bestimmen, ob die lokale Vorrichtung und die Audioausgabevorrichtung durch einen Schwellenabstand getrennt sind.
  • Beispielsweise kann die Entscheidungslogik Bilddaten von einer oder mehreren Kameras (z. B. Kamera 24) empfangen und die Bilddaten verwenden, um die Position der Audioausgabevorrichtung unter Verwendung eines Bilderkennungsalgorithmus zu bestimmen. In einem weiteren Gesichtspunkt kann die Entscheidungslogik die Position der Audioausgabevorrichtung basierend auf dem RSSI der unidirektionalen Verbindung bestimmen. Beispielsweise kann als Reaktion auf das Bestimmen, dass der RSSI unter einem Schwellenwert liegt, die Entscheidungslogik die Umschaltung auf die bidirektionale Verbindung durchführen. Da der Benutzer von dem neuen aktiven Mikrofon zu weit entfernt sein kann, um die Stimme des lokalen Benutzers störungsfrei aufzunehmen.
  • In einem weiteren Gesichtspunkt kann die Entscheidung darauf basieren, ob der lokale Benutzer vor (oder neben) dem Anzeigebildschirm 25 der lokalen Vorrichtung positioniert ist. Beispielsweise kann die Kamera 24 angrenzend an den Anzeigebildschirm und mit einem Sichtfeld positioniert sein, das vor dem Anzeigebildschirm liegt. Die Entscheidungslogik kann Bilddaten von der Kamera empfangen und den Bilderkennungsalgorithmus durchführen, um zu bestimmen, ob ein Benutzer vorhanden ist (z. B. vor dem Anzeigebildschirm). Falls nicht, kann die Entscheidungslogik die Umschaltung durchführen. In einigen Gesichtspunkten kann die Entscheidungslogik diese Bestimmung basierend auf anderen Sensordaten, wie Näherungssensordaten, vornehmen. In diesem Fall können ein oder mehrere Näherungssensoren angeordnet sein, um zu bestimmen, ob sich ein Objekt innerhalb eines Schwellenabstands von dem Anzeigebildschirm 25 befindet. Wenn nicht, was anzeigt, dass sich der lokale Benutzer nicht vor der Anzeige befindet, kann die Entscheidungslogik die Umschaltung durchführen.
  • In einem anderen Gesichtspunkt kann die Entscheidungslogik 13 die Umschaltung durchführen, basierend darauf, ob sich ein Objekt innerhalb eines Schwellenabstands von der lokalen Vorrichtung (z. B. deren Mikrofon 23) befindet. Wenn zum Beispiel die lokale Vorrichtung ein Smartphone ist, kann der Benutzer das Smartphone in einer Hosentasche platzieren. In diesem Fall kann das Mikrofon eine dumpfe Stimme des Benutzers erfassen. Somit kann die Entscheidungslogik Sensordaten empfangen, die angeben, ob ein Objekt innerhalb eines Schwellenabstands liegt. Beispielsweise kann der Sensor ein Näherungssensor sein. Als Reaktion darauf, dass das Objekt innerhalb des Abstands liegt, kann die Entscheidungslogik die Umschaltung durchführen.
  • In einigen Gesichtspunkten kann die Entscheidungslogik die Umschaltung basierend darauf, ob der lokale Benutzer spricht, durchführen. Zum Beispiel kann während der Zeitpunkte, zu denen der lokale Benutzer nicht spricht, das Mikrofon möglicherweise nicht erforderlich sein und somit kann eine unidirektionale drahtlose Verbindung hergestellt werden, um qualitativ hochwertiges Audio bereitzustellen. Als Reaktion darauf kann jedoch die Entscheidungslogik die Umschaltung durchführen, um zu bestimmen, dass der lokale Benutzer spricht. Beispielsweise kann die Entscheidungslogik ein Steuersignal von der Audioausgabevorrichtung als Reaktion auf den sprechenden lokalen Benutzer empfangen, und die Umschaltung kann basierend auf dem empfangenen Steuersignal durchgeführt werden. Wenn zum Beispiel das Steuersignal ein VAD-Signal ist, das durch VAD 82 der Audioausgabevorrichtung als Reaktion auf das Erfassen eines hohen Energiepegels eines Beschleunigungsmessersignals von Beschleunigungsmesser 79 erzeugt wird, kann die Entscheidungslogik bestimmen, dass der lokale Benutzer spricht. In einem anderen Gesichtspunkt kann das VAD-Signal von einem VAD der lokalen Vorrichtung empfangen werden (z. B. VAD 42, wie in 5 veranschaulicht), die konfiguriert sein kann, um die Stimme des lokalen Benutzers basierend auf Signalen zu erkennen, die von der Audioausgabevorrichtung empfangen werden, wie einem oder mehreren Beschleunigungsmessersignalen und/oder einem oder mehreren Mikrofonsignalen. Sobald der Benutzer spricht, kann die Entscheidungslogik auf die bidirektionale drahtlose Audioverbindung umschalten und kann das Mikrofon des Ausgabegeräts 78 aktivieren, um die Stimme des Benutzers zu erfassen. Nach Beendigung des Gesprächs (das z. B. VAD-Signal zeigt an, dass die Stimme des Benutzers nicht länger erkannt wird), kann die Entscheidungslogik zurück auf die unidirektionale Audioverbindung umschalten.
  • 13b zeigt ein Blockdiagramm, in dem die lokale Vorrichtung und die Audioausgabevorrichtung auf eine bidirektionale drahtlose Audioverbindung umgeschaltet haben, während die gemeinsame Medienwiedergabesitzung und der Anruf geführt werden, wie hierin beschrieben. Insbesondere zeigt diese Figur das Ergebnis der Entscheidungslogik 13, die auf die bidirektionale drahtlose Audioverbindung (z. B. basierend auf einem oder mehreren Kriterien) während des Anrufs und der Wiedergabesitzung umgeschaltet wird. Wie gezeigt, ist die bidirektionale drahtlose Audioverbindung 89 eine niederqualitative Verbindung, was darauf zurückzuführen sein kann, dass die Audioausgabevorrichtung die hochwertige Verbindung nicht unterstützt, wie hierin beschrieben. Zusätzlich zum Übergang zur bidirektionalen Verbindung haben die lokale und die Audioausgabevorrichtung die (aktive) Position des Mikrofons wieder auf die Audioausgabevorrichtung zurückgeschaltet.
  • Wie in 12, 13a und 13b beschrieben, kann die lokale Vorrichtung an einer gemeinsamen Medienwiedergabesitzung teilnehmen, in der ein oder mehrere Audiosignale des Medieninhalts (z. B. eine musikalische Komposition) zur Wiedergabe empfangen werden. In einem Gesichtspunkt können die in diesen Figuren durchgeführten Vorgänge auftreten, wenn die lokale Vorrichtung an einer gemeinsamen Wiedergabesitzung beteiligt ist, in der Multi-Medieninhalte abgespielt werden, zum Beispiel mit der Anzeige von Video auf dem Anzeigebildschirm 25 und der Ausgabe von Audio durch den Lautsprecher 77. Zusätzlich können die Steuerung 20 und/oder die Steuerung 75 auch mindestens einige andere hierin beschriebene Vorgänge durchführen.
  • 14-18 sind Flussdiagramme der Prozesse 90, 100, 110, 130 bzw. 120 zum Durchführen einer oder mehrerer Vorgänge zum Umschalten von drahtlosen Audioverbindungen während eines Anrufs. In einem Gesichtspunkt können mindestens einige der Prozesse durch eine oder mehrere Vorrichtungen des Audiosystems 1 durchgeführt werden, wie in 1 veranschaulicht. Zum Beispiel werden mindestens die Prozesse 90, 100 und 110 von der lokalen Vorrichtung 2 (z. B. deren Steuerung 20) und die Prozesse 130 und 120 von der Audioausgabevorrichtung 6 (z. B. deren Steuerung 75) durchgeführt. In einem anderen Gesichtspunkt kann jede der Vorrichtungen einen der hierin beschriebenen Vorgänge durchführen.
  • 14 ist ein Flussdiagramm eines Gesichtspunkts eines Verfahrens 90 zum Hin- und Herschalten zwischen drahtlosen Audioverbindungen. In einem Gesichtspunkt kann dieser Prozess von der Steuerung 20 der lokalen Vorrichtung 2 durchgeführt werden. Der Prozess 90 beginnt mit der Steuerung, die einen Anruf zwischen der lokalen Vorrichtung und einer entfernten Vorrichtung (bei Block 91) einleitet. Beispielsweise kann der Anrufmanager 46 den Anruf (z. B. Telefonat oder Video) zwischen der lokalen Vorrichtung und einer oder mehreren entfernten Vorrichtungen initiieren, wie hierin beschrieben. Während die Steuerung 20 in dem Anruf mit der/den entfernten Vorrichtung(en) in Eingriff steht, kommuniziert sie mit einer Audioausgabevorrichtung über eine bidirektionale drahtlose Audioverbindung (in Block 92). Insbesondere kann die lokale Vorrichtung 2 eine drahtlose Verbindung mit der Ausgabevorrichtung über eine drahtlose Kommunikationsverbindung einrichten (z. B. über ein BLUETOOTH-Protokoll oder ein beliebiges anderes drahtloses Kommunikationsprotokoll). Beispielsweise kann die lokale Vorrichtung mit der Audioausgabevorrichtung kommunizieren, um den BLUETOOTH-Stapel zu konfigurieren, der innerhalb der Audioausgabevorrichtung ausgeführt wird, um Audiodaten zwischen den Vorrichtungen über eine bidirektionale drahtlose Audioverbindung auszutauschen (z. B. durch Aushandeln des Codecs zum Decodieren und Codieren von Audiosignalen, die zwischen den Vorrichtungen ausgetauscht werden). Dabei kann die Audioausgabevorrichtung eine Nachricht übertragen, die ihre Fähigkeiten angibt (z. B. Audio-Codecs, die sie unterstützt usw.). In einem Gesichtspunkt kann die lokale Vorrichtung basierend auf den Fähigkeiten die bidirektionale drahtlose Audioverbindung einrichten. Insbesondere kann die lokale Vorrichtung, falls sie in der Lage ist, hochwertige Audio-Streams (z. B. bei einer Abtastrate von mindestens der Schwellenabtastrate) zu unterstützen, eine hochwertige bidirektionale drahtlose Audioverbindung einrichten, wie hierin beschrieben. Nach der Erstellung kann die lokale Vorrichtung über die bidirektionale Verbindung ein oder mehrere Signale (z. B. Downlink-Audio-Signale), die dem Anruf zugeordnet sind, an die Audioausgabevorrichtung übertragen und ein oder mehrere Mikrofonsignale für den Anruf empfangen. In einem anderen Gesichtspunkt können die Vorrichtungen die niederqualitative drahtlose Audioverbindung einrichten, unabhängig von den Fähigkeiten der Audioausgabe der Vorrichtung, da nur Sprachdaten zwischen den Vorrichtungen ausgetauscht werden.
  • Die Steuerung 20 bestimmt, dass eine gemeinsame Medienwiedergabesitzung initiiert wurde, in der die lokale und entfernte Vorrichtung(en) unabhängig voneinander Medieninhalt für die getrennte Wiedergabe durch beide Vorrichtungen streamen sollen, während sie im Anruf in Eingriff stehen (bei Block 93). Insbesondere kann der gemeinsame Medienwiedergabesitzungsmanager 47 eine Benutzeranforderung von dem lokalen Benutzer empfangen haben (z. B. über eine auf dem Anzeigebildschirm 25 angezeigte UI) oder eine Anforderung von dem Medieninhaltsserver 5 empfangen haben, die angibt, dass eine oder mehrere entfernte Vorrichtungen aufgefordert haben, eine Wiedergabesitzung einzuleiten.
  • Die Steuerung 20 bestimmt über die (z. B. hochwertige) bidirektionale Verbindung, ob die Audioausgabevorrichtung das Austauschen von Audiosignalen des Anrufs und Medieninhalts mit der lokalen Vorrichtung unterstützt. (bei Entscheidungsblock 94) Insbesondere kann die drahtlose Audioverbindungsumschaltentscheidungslogik 13 von der (z. B. aktuell festgelegten) bidirektionalen Audioverbindung auf eine unidirektionale drahtlose Audioverbindung umschalten, beispielsweise basierend auf einer oder mehreren Fähigkeiten der Audioausgabevorrichtung 6. Beispielsweise kann die Entscheidungslogik bestimmen, ob die Audioausgabevorrichtung hochwertiges Audio basierend auf einer Tabellensuche in einer Datenstruktur unterstützt, die Vorrichtungskennungen mit Eigenschaften zugeordnet ist. In einem Gesichtspunkt kann die Entscheidungslogik, da die bidirektionale drahtlose Audioverbindung bereits hergestellt ist, die Art der Verbindung bestimmen, die bereits zwischen den beiden Vorrichtungen vorhanden ist (ob es sich z. B. bei der Verbindung um eine HFP-Verbindung handelt, die einen Codec mit einer Abtastrate über einer Schwellenwertrate verwendet und/oder ob die HFP-Verbindung Stereo-Audio unterstützt). Falls dies der Fall ist, kommuniziert die Steuerung mit der Audioausgabevorrichtung über die (z. B. hochwertige) bidirektionale Audioverbindung, während sie im Anruf und während der gemeinsamen Medienwiedergabesitzung (bei Block 95) in Eingriff steht. In einem Gesichtspunkt kann die Steuerung, wenn die ursprüngliche drahtlose Audioverbindung eine niederqualitative Verbindung ist, diese Verbindung abbrechen und die hochwertige bidirektionale drahtlose Audioverbindung einrichten. Wenn jedoch die ursprünglich hergestellte bidirektionale drahtlose Audioverbindung eine hochwertige Verbindung ist, kann die Steuerung die bestehende Verbindung aufrechterhalten.
  • Wenn jedoch die Audioausgabevorrichtung keine hochwertige bidirektionale drahtlose Audioverbindung unterstützt, schaltet die Steuerung 20 zum Kommunizieren mit der Audioausgabevorrichtung über die unidirektionale drahtlose Audioverbindung um (z. B. basierend auf einer oder mehreren Fähigkeiten der Audioausgabevorrichtung, wie hierin beschrieben), wobei eine Mischung von einem oder mehreren Signalen, die dem Anruf zugeordnet sind, und ein Audiosignal des Medieninhalts an die Audioausgabevorrichtung über die unidirektionale drahtlose Audioverbindung (bei Block 96) übertragen werden. Insbesondere kann, wie hierin beschrieben, die Steuerung 20 die bidirektionale drahtlose Audioverbindung abbrechen und die unidirektionale Verbindung einrichten. Nach der Erstellung kann die Steuerung den Medieninhalt und das Downlink-Audiosignal des Anrufs an die Audioausgabevorrichtung zur Wiedergabe streamen. Mehr über die Vorgänge zum Umschalten drahtloser Audioverbindungen wird beschrieben in 15.
  • 15 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses 100 zum Hin- und Herschalten zwischen drahtlosen Audioverbindungen. In einem Gesichtspunkt können mindestens einige der Vorgänge, die in dem Prozess 100 durchgeführt werden, von der Steuerung 20 beim (und/oder nach dem) Umschalten durchgeführt werden, um mit der Audioausgabevorrichtung über die unidirektionale drahtlose Audioverbindung zu kommunizieren, wie in Block 96 von 14 beschrieben. Der Prozess 100 beginnt mit der Steuerung, die ein Signal überträgt, um ein Mikrofon (z. B. Mikrofon 78) der Audioausgabevorrichtung (bei Block 101) stummzuschalten. Insbesondere kann die Steuerung ein Steuersignal über die bidirektionale drahtlose Audioverbindung an die Audioausgabevorrichtung für die Steuerung 75 senden, um das Mikrofon 78 stummzuschalten. In einem Gesichtspunkt kann das Stummschalten der Steuerung 75 das Mikrofon 78 stummschalten, indem es das von dem Mikrofon erzeugte Mikrofonsignal an die lokale Vorrichtung überträgt. In diesem Fall kann das Mikrofon 78 weiterhin ein Mikrofonsignal erzeugen, das die Steuerung 75 verwenden kann, um einen oder mehrere Vorgänge durchzuführen (z. B. Durchführen einer ANC-Funktion, einer Transparenzfunktion usw.). Die Steuerung 20 schaltet von der bidirektionalen drahtlosen Audioverbindung auf eine unidirektionale drahtlose Audioverbindung um (bei Block 102). Wie hierin beschrieben, kann die unidirektionale drahtlose Audioverbindung jede drahtlose Verbindung sein, die hochwertiges Audio (z. B. A2DP-Verbindung) bereitstellt. In einem Gesichtspunkt kann die unidirektionale Verbindung auf Fähigkeiten der Audioausgabevorrichtung basieren.
  • Die Steuerung 20 stellt eine Benachrichtigung bereit, die anzeigt, dass das Mikrofon der Audioausgabevorrichtung stummgeschaltet ist und/oder eine Benutzerberechtigung anfordert, um ein anderes Mikrofon zu aktivieren (bei Block 103). Zum Beispiel kann die Steuerung die Benachrichtigung als eine Popup-Benachrichtigung auf dem Anzeigebildschirm 25 der lokalen Vorrichtung 2 anzeigen, wobei es den lokalen Benutzer darauf hinweist, dass das Mikrofon stummgeschaltet ist. In einem Gesichtspunkt soll dies den Benutzer darauf aufmerksam machen, dass der Benutzer nicht zu sprechen beginnt, bevor ein Mikrofon aktiv ist. In einigen Gesichtspunkten kann die Benachrichtigung auch die neue Position des Mikrofons anzeigen. Insbesondere kann die Benachrichtigung anzeigen, dass sich die Position des Mikrofons an der lokalen Vorrichtung befinden kann. In einem Gesichtspunkt kann die Benachrichtigung auch eine Benutzerberechtigung anfordern, um das unterschiedliche Mikrofon zu aktivieren (z. B. durch Anzeigen eines UI-Elements innerhalb der Popup-Benachrichtigung).
  • Die Steuerung 20 beginnt, die Medien der gemeinsamen Medienwiedergabesitzung (bei Block 104) wiederzugeben. Insbesondere kann die Steuerung 20 beginnen, ein oder mehrere Audiosignale des Medieninhalts über die unidirektionale Verbindung an die Audioausgabevorrichtung zu übertragen, die Signale zum Ansteuern eines oder mehrerer Lautsprecher verwenden kann. Zusätzlich kann, wenn der Medieninhalt Video einschließt, die Steuerung Videosignale auf dem Anzeigebildschirm 25 anzeigen. Die Steuerung bestimmt, ob der Benutzer die Mikrofone genehmigt hat (bei Entscheidungsblock 105). Zum Beispiel kann die Steuerung bestimmen, ob der Benutzer das UI-Element ausgewählt hat, das in der Popup-Benachrichtigung angezeigt wird. Wenn nicht, kann die Steuerung den Medieninhalt fortsetzen, während kein Mikrofon der lokalen Vorrichtung und/oder der Audioausgabevorrichtung aktiv ist, um die Stimme des Benutzers für ein Uplink-Signal des Anrufs zu erfassen. Wenn die Steuerung jedoch die Benutzerberechtigung empfangen hat, aktiviert die Steuerung das unterschiedliche Mikrofon und beginnt, ein Mikrofonsignal zu empfangen, um an die entfernte Vorrichtung (z. B. als ein Uplink-Signal) für den Anruf (bei Block 106) zu übertragen.
  • In einem Gesichtspunkt kann die Steuerung dem Benutzer eine Auswahl von Mikrofonen bereitstellen, die der Benutzer für den Anruf aktivieren kann. Zum Beispiel kann die Popup-Benachrichtigung eine Liste von Mikrofonen und ihre Positionen anzeigen, damit der lokale Benutzer eine Entscheidung darüber trifft, welches Mikrofon während des Anrufs verwendet werden soll. In einem anderen Gesichtspunkt kann dem Benutzer die Auswahl bereitgestellt werden, ob die lokale Vorrichtung weiterhin mit der Audioausgabevorrichtung über die bidirektionale drahtlose Audioverbindung kommunizieren soll. Beispielsweise kann die Steuerung eine Benachrichtigung bereitstellen, die eine Benutzerberechtigung anfordert, um die Umschaltung von der bidirektionalen drahtlosen Audioverbindung auf die unidirektionale drahtlose Audioverbindung durchzuführen. Wenn der Benutzer keine Antwort bereitstellt (und/oder keine Berechtigung durch Auswählen eines UI-Elements bereitstellt), kann die Steuerung weiterhin innerhalb der bidirektionalen drahtlosen Audioverbindung kommunizieren, die basierend auf den Fähigkeiten der Audioausgabe die niederqualitative Verbindung sein kann, wie hierin beschrieben.
  • 16 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses 110 zum Bestimmen, ob zwischen drahtlosen Audioverbindungen basierend auf einem oder mehreren Kriterien umgeschaltet werden soll. Insbesondere besteht dieser Prozess darin, zu bestimmen, ob von dem Kommunizieren mit der Audioausgabevorrichtung über die unidirektionale drahtlose Audioverbindung umgeschaltet werden soll, um mit der Vorrichtung über die (z. B. niederqualitative) bidirektionale drahtlose Audioverbindung zu kommunizieren. Der Prozess 110 beginnt mit der Steuerung 20, die mit der Audioausgabevorrichtung über die unidirektionale drahtlose Audioverbindung kommuniziert, zum Beispiel während eines Anrufs und einer gemeinsamen Medienwiedergabesitzung, wie hierin beschrieben (bei Block 111). Die Steuerung 20 empfängt Sensordaten von mindestens einem Sensor (bei Block 112). Zum Beispiel kann die Steuerung Sensordaten von einem Näherungssensor, einem Lichtsensor, einem Mikrofon (z. B. Mikrofon 23), einer Kamera (z. B. Kamera 24) usw. empfangen. Die Steuerung 20 bestimmt, ob sie zum Kommunizieren mit der Audioausgabevorrichtung über die bidirektionale drahtlose Audioverbindung basierend auf den Sensordaten umschaltet (bei Entscheidungsblock 113). Wie hierin beschrieben, kann die Steuerung Sensordaten verwenden, wie Näherungsdaten von einem Näherungssensor, um zu bestimmen, ob sich ein Objekt innerhalb eines Schwellenabstands befindet. Als Reaktion darauf, dass sie sich innerhalb eines Schwellenabstands befindet, schaltet die Steuerung 20 zum Kommunizieren mit der Audioausgabevorrichtung über die bidirektionale drahtlose Audioverbindung (bei Block 114) um. Wie hierin beschrieben, kann die bidirektionale Verbindung eine niederqualitative (z. B. herkömmliche 8 kHz-HFP) Verbindung sein, basierend auf den Fähigkeiten der Audioausgabe.
  • Wenn jedoch die Steuerung basierend auf Sensordaten bestimmt, nicht umzuschalten, bestimmt die Steuerung, ob die lokale Vorrichtung eine Benutzeranforderung empfangen hat, um auf die bidirektionale drahtlose Audioverbindung umzuschalten (bei Entscheidungsblock 115). Beispielsweise kann die lokale Vorrichtung ein UI-Element auf dem Anzeigebildschirm 25 anzeigen, das dem lokalen Benutzer ermöglicht, auf die bidirektionale drahtlose Audioverbindung umzuschalten. In einem Gesichtspunkt kann der Benutzer aus verschiedenen Gründen auf die bidirektionale Verbindung umschalten wollen. Beispielsweise kann der Benutzer das eingebaute Mikrofon der Audioausgabevorrichtung verwenden, wenn die Umgebung, in der sich der Benutzer befindet, Umgebungsgeräusche aufweist. Falls dies der Fall ist, fährt die Steuerung mit Umschaltverbindungen fort.
  • Wenn nicht, bestimmt die Steuerung eine Signalstärke der unidirektionalen drahtlosen Audioverbindung (bei Block 116). Zum Beispiel kann die Steuerung den RSSI der Verbindung bestimmen. Die Steuerung bestimmt, ob die Signalstärke über einem Schwellenwert liegt (bei Entscheidungsblock 117). Wenn nicht, kann die Steuerung mit Umschaltverbindungen fortfahren. In einem Gesichtspunkt kann die Signalstärke niedrig sein, da sich der Benutzer von der lokalen Vorrichtung entfernt, während er weiterhin die Audioausgabevorrichtung trägt. Wenn zum Beispiel die lokale Vorrichtung ein Desktop-Computer mit einem eingebauten Mikrofon ist, das zum Aufnehmen der Stimme des Benutzers für den Anruf verwendet wird, kann die Steuerung die Umschaltung durchführen, um das aktive Mikrofon innerhalb einer Entfernung des Benutzers zu halten. Wenn die Signalstärke über dem Schwellenwert liegt, kann die Steuerung weiterhin mit der Audioausgabevorrichtung über die unidirektionale drahtlose Audioverbindung kommunizieren (bei Block 118).
  • In einem Gesichtspunkt kann die Steuerung in die unidirektionale drahtlose Audioverbindung zurückschalten, wenn mindestens einer der Zustände, den die Steuerung verursachte, endet. Beispielsweise kann die Steuerung, während sie über die bidirektionale drahtlose Audioverbindung mit der Audioausgabevorrichtung kommuniziert, nach dem Bestimmen, dass die Signalstärke über dem Schwellenwert liegt, auf die unidirektionale drahtlose Audioverbindung zurückschalten. Unter Fortsetzung des vorherigen Beispiels kann, wenn die Signalstärke über dem Schwellenwert liegt, bestimmt werden, dass sich der Benutzer nun vor dem Desktop-Computer befindet.
  • 17 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses 130, der durch die Ausgabevorrichtung 6 (z. B. deren Steuerung 75) zum Hin- und Herschalten zwischen drahtlosen Audioverbindungen durchgeführt wird. Der Prozess 130 beginnt mit der Steuerung 75, die während eines Anrufs zwischen der lokalen Vorrichtung 2 und der entfernten Vorrichtung 3 mit der lokalen Vorrichtung über eine bidirektionale drahtlose Audioverbindung (bei Block 131) kommuniziert. Beispielsweise kann die Audioausgabevorrichtung während des Anrufs eine freihändige Kommunikation mit der lokalen Vorrichtung durchführen, wie hierin beschrieben. Die Steuerung 75 bestimmt, dass eine unidirektionale drahtlose Audioverbindung anstelle der bidirektionalen drahtlosen Audioverbindung zwischen der lokalen Vorrichtung und der Audioausgabevorrichtung während des Anrufs hergestellt werden soll (bei Block 132). Beispielsweise kann die Bestimmung darauf basieren, ob die bidirektionale Verbindung eine hohe Audioqualität unterstützen kann. In einem Gesichtspunkt kann die bestehende bidirektionale Verbindung das Austauschen von Audiosignalen mit einer Abtastrate unterstützen, die niedriger als eine Abtastrate ist, welche die unidirektionale Verbindung unterstützt. Beispielsweise kann die bidirektionale Verbindung eine HFP-Verbindung sein, die eine Abtastrate von 8 - 16 kHz unterstützt, während die unidirektionale Verbindung eine A2DP-Verbindung sein kann, die eine 48 kHz-Abtastrate unterstützt. In einem Gesichtspunkt kann die Audioausgabevorrichtung ein Steuersignal (z. B. von der lokalen Vorrichtung) empfangen, das angibt, dass die bidirektionale drahtlose Audioverbindung unterbrochen werden soll. Die Steuerung 75 schaltet ein Mikrofon der Audioausgabevorrichtung stumm (bei Block 133). Wie hierin beschrieben, kann die Steuerung 75 das Mikrofon deaktivieren und/oder das Übermitteln des Mikrofonsignals an die lokale Vorrichtung beenden. Die Steuerung 75 schaltet von der bidirektionalen drahtlosen Audioverbindung auf die unidirektionale drahtlose Audioverbindung (bei Block 134) um. Beispielsweise kann die Audioausgabevorrichtung die bidirektionale Verbindung abbrechen und eine Bestätigungsnachricht an die lokale Vorrichtung übermitteln, die angibt, dass die Verbindung abgebrochen wurde. Anschließend kann die Audioausgabevorrichtung eine Kommunikation von der lokalen Vorrichtung empfangen, um die bidirektionale drahtlose Audioverbindung einzurichten. Als Reaktion darauf kann die Audioausgabevorrichtung die Verbindung einrichten. Die Steuerung 75 empfängt über die unidirektionale drahtlose Audioverbindung ein Audiosignal, das eine Mischung eines dem Anruf zugeordneten Signals und ein Signal einschließt, das dem Medieninhalt zugeordnet ist, der von der lokalen Vorrichtung und der entfernten Vorrichtung in einer gemeinsamen Medienwiedergabesitzung (bei Block 135) wiedergegeben wird. Die Steuerung kann dann einen Lautsprecher (z. B. Lautsprecher 77) der Audioausgabevorrichtung unter Verwendung des Audiosignals (bei Block 136) ansteuern.
  • 18 ist ein Flussdiagramm eines Gesichtspunkts eines Prozesses 120, der durch die Audioausgabevorrichtung 6 zum Umschalten von der unidirektionalen drahtlosen Audioverbindung auf die bidirektionale drahtlose Audioverbindung basierend darauf, ob Sprache erkannt wird, durchgeführt wird. In einem Gesichtspunkt kann die Audioausgabevorrichtung 6 vor dem Durchführen des Prozesses 120 kommunikativ mit der lokalen Vorrichtung über die unidirektionale Verbindung gekoppelt sein, um Audiodaten des Medieninhalts zu empfangen, der von der lokalen Vorrichtung während einer gemeinsamen Medienwiedergabesitzung gleichzeitig mit einem Anruf wiedergegeben wird, wie hierin beschrieben. Beispielsweise kann die Audioausgabevorrichtung über die unidirektionale Verbindung ein Audiosignal empfangen, das eine Mischung von 1) einem Signal eines Telefon- (oder Video-) Anrufs und 2) einem Signal, das dem Medieninhalt zugeordnet ist, einschließt, wobei die lokale Vorrichtung und entfernte Vorrichtung(en) gleichzeitig in dem Anruf und der gemeinsamen Medienwiedergabesitzung in Eingriff stehen. Zusätzlich kann die Audioausgabevorrichtung einen Lautsprecher unter Verwendung des Audiosignals ansteuern. Der Prozess 120 beginnt mit der Steuerung 75, die von einem Beschleunigungsmesser der Audioausgabevorrichtung (z. B. Beschleunigungsmesser 79) ein Beschleunigungsmessersignal (bei Block 121) empfängt. Die Steuerung 75 erzeugt ein VAD-Signal (z. B. als Ausgabe von VAD 82) basierend auf dem Beschleunigungsmessersignal (bei Block 122). Wie hierin beschrieben, kann das VAD-Signal anzeigen, dass die Stimme des Benutzers basierend auf dem Energiepegel des Beschleunigungsmessers erfasst wird. Die Steuerung 75 bestimmt, ob das VAD-Signal über einem Schwellenwert liegt, wodurch anzeigt wird, dass eine Stimme des Benutzers erkannt wird (bei Entscheidungsblock 123). Wenn nicht, kommuniziert die Audioausgabevorrichtung weiterhin mit der lokalen Vorrichtung über die unidirektionale drahtlose Audioverbindung (bei Block 124).
  • Andernfalls schaltet die Steuerung 75 zum Kommunizieren mit der lokalen Vorrichtung über die bidirektionale drahtlose Audioverbindung um (bei Block 125). Die Steuerung 75 empfängt ein Mikrofonsignal von einem Mikrofon der Audioausgabevorrichtung (bei Block 126). Die Steuerung 75 überträgt dann das Mikrofonsignal an die lokale Vorrichtung über die bidirektionale drahtlose Audioverbindung, das an die entfernten Vorrichtungen als Uplink-Signal übertragen werden soll, wie hierin beschrieben (bei Block 127).
  • Einige Gesichtspunkte können Variationen zu den Prozessen 90, 100, 110, 130 und 120 durchführen, die in 14-18 beschrieben sind. Zum Beispiel müssen die spezifischen Vorgänge von mindestens einigen der Verfahren nicht in der exakten Reihenfolge durchgeführt werden, die gezeigt und beschrieben ist. Die spezifischen Vorgänge müssen nicht in einer fortlaufenden Serie von Vorgängen durchgeführt werden, und verschiedene spezifische Vorgänge können gemäß verschiedenen Gesichtspunkten durchgeführt werden. Beispielsweise können die Vorgänge innerhalb der gestrichelten Kästchen optionale Vorgänge sein, die möglicherweise nicht durchgeführt werden, während ein jeweiliger Prozess durchgeführt wird. Beispielsweise muss in Prozess 100 von 15 die Benachrichtigung nicht bereitgestellt werden. Stattdessen kann die Wiedergabe des Medieninhalts beginnen (bei Block 104) und das unterschiedliche Mikrofon kann als Reaktion darauf, dass die Verbindungen umgeschaltet werden, aktiviert werden (bei Block 106).
  • Es versteht sich, dass die Verwendung persönlich identifizierbarer Informationen Datenschutzvorschriften und Praktiken folgen sollte, von denen allgemein anerkannt wird, dass sie Industrie- oder Regierungsanforderungen zum Aufrechterhalten der Privatsphäre von Benutzern erfüllen oder übererfüllen. Insbesondere sollten persönlich identifizierbare Informationsdaten so verwaltet und gehandhabt werden, dass Risiken eines unbeabsichtigten oder unautorisierten Zugangs oder einer unbeabsichtigten oder unautorisierten Verwendung minimiert werden, und die Art einer autorisierten Verwendung sollte den Benutzern klar angegeben werden.
  • Wie vorstehend erläutert, kann ein Gesichtspunkt der Offenbarung ein nichtflüchtiges maschinenlesbares Medium (wie zum Beispiel ein mikroelektronischer Speicher) sein, auf dem Anweisungen gespeichert sind, die eine oder mehrere Datenverarbeitungskomponenten (hierin allgemein als ein Prozessor bezeichnet) programmieren, um die Netzwerkvorgänge und Audiosignalverarbeitungsvorgänge durchzuführen, wie hierin beschrieben. In anderen Gesichtspunkten könnten manche dieser Vorgänge durch spezifische Hardwarekomponenten durchgeführt werden, die eine fest verdrahtete Logik enthalten. Diese Vorgänge könnten alternativ durch eine beliebige Kombination von programmierten Datenverarbeitungskomponenten und festen fest verdrahteten Schaltungskomponenten durchgeführt werden.
  • Auch wenn gewisse Gesichtspunkte beschrieben und in den begleitenden Zeichnungen gezeigt wurden, sollte es sich verstehen, dass solche Gesichtspunkte für die breite Offenbarung lediglich veranschaulichend und nicht einschränkend sind und dass die Offenbarung nicht auf die gezeigten und beschriebenen spezifischen Konstruktionen und Anordnungen eingeschränkt ist, weil dem Fachmann verschiedene andere Modifikationen einfallen können. Die Beschreibung ist somit als veranschaulichend und nicht als einschränkend zu betrachten.
  • Gemäß manchen Gesichtspunkten kann diese Offenbarung zum Beispiel die Sprache „mindestens eines von [Element A] und [Element B]“ einschließen. Diese Sprache kann sich auf eines oder mehrere der Elemente beziehen. Zum Beispiel kann sich „mindestens eines von A und B“ auf „A“, „B“ oder „A und B“ beziehen. Speziell kann sich „mindestens eines von A und B“ auf „mindestens eines von A und mindestens eines von B“ oder „mindestens von entweder A oder B“ beziehen. Gemäß manchen Gesichtspunkten kann diese Offenbarung zum Beispiel die Sprache „[Element A], [Element B] und/oder [Element C]“ einschließen Diese Sprache kann sich auf eines der Elemente oder jede Kombination davon beziehen. Zum Beispiel kann sich „A, B und/oder C“ auf „A“, „B“, „C“, „A und B“, „A und C, „B und C“ oder „A, B und C“ beziehen.

Claims (24)

  1. Verfahren, umfassend: Initiieren eines Anrufs zwischen einer ersten elektronischen Vorrichtung und einer zweiten elektronischen Vorrichtung, während des Anrufs Einleiten, an der ersten elektronischen Vorrichtung, einer gemeinsamen Medienwiedergabesitzung, in der die erste und die zweite elektronische Vorrichtung unabhängig voneinander Medieninhalt für synchrone Wiedergabe streamen; Bestimmen, dass ein Downlink-Signal von der zweiten elektronischen Vorrichtung Sprache basierend auf Ausgabe von einem Sprechpausendetektor (VAD) einschließt; als Reaktion auf das Bestimmen, dass das Downlink-Signal Sprache einschließt, Anlegen einer skalaren Verstärkung an ein Audiosignal des Medieninhalts, um einen Signalpegel des Audiosignals zu verringern; und Ansteuern eines Lautsprechers mit einer Mischung des Downlink-Signals und des Audiosignals.
  2. Verfahren nach Anspruch 1, ferner umfassend Durchführen eines Rauschunterdrückungsalgorithmus auf dem Downlink-Signal, um darin enthaltene Geräusche zu reduzieren; und Erzeugen der Ausgabe des VAD basierend auf dem Downlink-Signal.
  3. Verfahren nach Anspruch 1, ferner umfassend das Empfangen der Ausgabe des VAD von der zweiten elektronischen Vorrichtung.
  4. Verfahren nach Anspruch 1, wobei die erste elektronische Vorrichtung kommunikativ mit einem drahtlosen Headset gekoppelt ist, um den Anruf und die gemeinsame Medienwiedergabesitzung zu führen, wobei das Verfahren ferner das Erzeugen der Ausgabe des VAD basierend auf einem Beschleunigungsmessersignal umfasst, das von einem Beschleunigungsmesser des drahtlosen Headsets erzeugt wird.
  5. Verfahren nach Anspruch 1, wobei der Medieninhalt ein Videosignal und das Audiosignal einschließt, wobei das Einleiten der gemeinsamen Medienwiedergabesitzung das Anzeigen des Videosignals auf einem Anzeigebildschirm und das Ansteuern des Lautsprechers mit der Mischung des Downlink-Signals und des Audiosignals umfasst.
  6. Verfahren nach Anspruch 5, ferner umfassend: Bestimmen eines Signalpegels des Downlink-Signals; und als Reaktion darauf, dass der Signalpegel über einem Schwellenwert liegt oder als Reaktion auf das Bestimmen, dass das Downlink-Signal basierend auf der Ausgabe von dem VAD Sprache einschließt, Anzeigen, auf dem Anzeigebildschirm, von Untertiteln, die Audioinhalte darstellen, die in dem Audiosignal des Medieninhalts enthalten sind.
  7. Verfahren nach Anspruch 1, ferner umfassend: Bestimmen eines ersten Zeitstempels entlang einer Wiedergabedauer des Medieninhalts, an dem die Ausgabe von dem VAD beginnt, um anzuzeigen, dass das Downlink-Signal Sprache einschließt; Bestimmen eines zweiten Zeitstempels nach dem ersten Zeitstempel entlang der Wiedergabedauer des Medieninhalts, an dem eine Bestimmung vorgenommen wird, in der die Ausgabe von dem VAD anzeigt, dass das Downlink-Signal aufgehört hat, Sprache einzuschließen; und als Reaktion darauf, Rückspulen der Wiedergabe des Medieninhalts durch Anhalten der Wiedergabe des Medieninhalts an oder nach dem zweiten Zeitstempel, und Beginnen der Wiedergabe des Medieninhalts beginnend am ersten Zeitstempel entlang der Wiedergabedauer.
  8. Verfahren nach Anspruch 1, ferner umfassend: Bestimmen eines ersten Zeitstempels entlang einer Wiedergabedauer des Stücks des Medieninhalts, an dem die Ausgabe von dem VAD beginnt anzuzeigen, dass das Downlink-Signal Sprache einschließt; Bestimmen eines zweiten Zeitstempels nach dem ersten Zeitstempel entlang der Wiedergabedauer des Stücks des Medieninhalts, an dem eine Bestimmung vorgenommen wird, in der die Ausgabe von dem VAD anzeigt, dass das Downlink-Signal aufgehört hat, Sprache einzuschließen; und Bereitstellen, als Reaktion auf die Bestimmung, dass die Ausgabe von dem VAD anzeigt, dass das Downlink-Signal aufgehört hat, Sprache einzuschließen, einer Benachrichtigung, die eine Benutzerberechtigung anfordert, um die Wiedergabe des Medieninhalts zurückzuspulen.
  9. Verfahren nach Anspruch 7, wobei die Benachrichtigung eine Popup-Benachrichtigung ist, die auf einem Anzeigebildschirm der ersten elektronischen Vorrichtung angezeigt wird.
  10. Erste elektronische Vorrichtung, umfassend: einen Prozessor; und einen Speicher, in dem Anweisungen gespeichert sind, die bei Ausführung durch den Prozessor die erste elektronische Vorrichtung veranlassen zum Initiieren eines Anrufs mit einer zweiten elektronischen Vorrichtung; während des Aufrufs, Einleiten einer gemeinsamen Medienwiedergabesitzung, in der die erste und die zweite elektronische Vorrichtung unabhängig voneinander Medieninhalt für synchrone Wiedergabe streamen; Bestimmen, dass ein Downlink-Signal von der zweiten elektronischen Vorrichtung Sprache basierend auf Ausgabe von einem Sprechpausendetektor (VAD) einschließt; als Reaktion auf das Bestimmen, dass das Downlink-Signal Sprache einschließt, Anlegen einer skalaren Verstärkung an ein Audiosignal des Medieninhalts, um einen Signalpegel des Audiosignals zu verringern; und Ansteuern eines Lautsprechers mit einer Mischung des Downlink-Signals und des Audiosignals.
  11. Erste elektronische Vorrichtung nach Anspruch 10, wobei der Speicher weitere Anweisungen aufweist zum Durchführen eines Rauschunterdrückungsalgorithmus auf dem Downlink-Signal, um darin enthaltene Geräusche zu reduzieren; und Erzeugen der Ausgabe des VAD basierend auf dem Downlink-Signal.
  12. Erste elektronische Vorrichtung nach Anspruch 10, wobei der Speicher weitere Anweisungen zum Empfangen der Ausgabe des VAD von der zweiten elektronischen Vorrichtung aufweist.
  13. Erste elektronische Vorrichtung nach Anspruch 10, wobei die erste elektronische Vorrichtung kommunikativ mit einem drahtlosen Headset gekoppelt ist, um den Anruf und die gemeinsame Medienwiedergabesitzung durchzuführen, wobei der Speicher weitere Anweisungen aufweist, um die Ausgabe des VAD basierend auf einem Beschleunigungsmessersignal zu erzeugen, das von einem Beschleunigungsmesser des drahtlosen Headsets erzeugt wird.
  14. Erste elektronische Vorrichtung nach Anspruch 10 umfasst ferner einen Anzeigebildschirm, wobei der Medieninhalt ein Videosignal und das Audiosignal einschließt, wobei das Initiieren der gemeinsamen Medienwiedergabesitzung das Anzeigen des Videosignals auf dem Anzeigebildschirm und das Ansteuern des Lautsprechers mit der Mischung des Downlink-Signals und des Audiosignals umfasst.
  15. Erste elektronische Vorrichtung nach Anspruch 14, wobei der Speicher weitere Anweisungen aufweist zum Bestimmen eines Signalpegels des Downlink-Signals; und als Reaktion darauf, dass der Signalpegel über einem Schwellenwert liegt oder als Reaktion auf das Bestimmen, dass das Downlink-Signal basierend auf der Ausgabe von dem VAD Sprache einschließt, Anzeigen, auf dem Anzeigebildschirm, von Untertitel, die Audioinhalte darstellen, die in dem Audiosignal des Medieninhalts enthalten sind.
  16. Erste elektronische Vorrichtung nach Anspruch 10, wobei der Speicher weitere Anweisungen aufweist zum Bestimmen eines ersten Zeitstempels entlang einer Wiedergabedauer des Medieninhalts, an dem die Ausgabe von dem VAD beginnt anzuzeigen, dass das Downlink-Signal Sprache einschließt; Bestimmen eines zweiten Zeitstempels nach dem ersten Zeitstempel entlang der Wiedergabedauer des Medieninhalts, an dem eine Bestimmung vorgenommen wird, bei der die Ausgabe von dem VAD anzeigt, dass das Downlink-Signal aufgehört hat, Sprache einzuschließen; und als Reaktion darauf Rückspulen der Wiedergabe des Medieninhalts durch Anhalten der Wiedergabe des Medieninhalts an oder nach dem zweiten Zeitstempel, und Beginnen der Wiedergabe des Medieninhalts beginnend am ersten Zeitstempel entlang der Wiedergabedauer.
  17. Erste elektronische Vorrichtung nach Anspruch 10, wobei der Speicher weitere Anweisungen aufweist zum Bestimmen eines ersten Zeitstempels entlang einer Wiedergabedauer des Stücks des Medieninhalts, an dem die Ausgabe von dem VAD beginnt anzuzeigen, dass das Downlink-Signal Sprache einschließt; Bestimmen eines zweiten Zeitstempels nach dem ersten Zeitstempel entlang der Wiedergabedauer des Stücks des Medieninhalts, an dem eine Bestimmung vorgenommen wird, in der die Ausgabe von dem VAD anzeigt, dass das Downlink-Signal aufgehört hat, Sprache einzuschließen; und Bereitstellen, als Reaktion auf die Bestimmung, dass die Ausgabe von dem VAD angibt, dass das Downlink-Signal aufgehört hat, Sprache einzuschließen, einer Benachrichtigung, die eine Benutzerberechtigung anfordert, um die Wiedergabe des Medieninhalts zurückzuspulen.
  18. Erste elektronische Vorrichtung nach Anspruch 17, wobei die Benachrichtigung eine Popup-Benachrichtigung ist, die auf einem Anzeigebildschirm der ersten elektronischen Vorrichtung angezeigt wird.
  19. Verfahren, das durch eine erste elektronische Vorrichtung durchgeführt wird, wobei das Verfahren umfasst: gleichzeitiges Durchführen eines Videokonferenzanrufs und einer gemeinsamen Medienwiedergabesitzung mit einer zweiten elektronischen Vorrichtung, Bestimmen, dass ein Benutzer der zweiten elektronischen Vorrichtung zu sprechen beginnt, basierend auf dem Audioinhalt des Videokonferenzanrufs; und als Reaktion auf das Bestimmen, dass der Benutzer zu sprechen beginnt, Reduzieren eines Lautstärkepegels des Audioinhalts des Medieninhalts, welcher der gemeinsamen Medienwiedergabesitzung zugeordnet ist.
  20. Verfahren nach Anspruch 19, ferner umfassend, als Reaktion auf das Bestimmen, dass der Benutzer der zweiten elektronischen Vorrichtung zu sprechen beginnt, Anzeigen, auf einem Anzeigebildschirm der ersten elektronischen Vorrichtung, von Untertitel, die den Audioinhalt des Medieninhalts darstellen, welcher der gemeinsamen Medienwiedergabesitzung zugeordnet ist.
  21. Verfahren nach Anspruch 19, ferner umfassend: Bestimmen, dass der Benutzer der zweiten elektronischen Vorrichtung zu sprechen aufhört, basierend auf dem Audioinhalt des Videokonferenzanrufs, und als Reaktion auf das Bestimmen, dass der Benutzer zu sprechen aufhört, Erhöhen des Lautstärkepegels des Audioinhalts des Medieninhalts auf einen vorherigen Pegel vor der Verringerung des Lautstärkepegels.
  22. Verfahren nach Anspruch 19, wobei der Benutzer beginnt, zu einem ersten Zeitpunkt entlang einer Wiedergabedauer des Medieninhalts zu sprechen, wobei das Verfahren ferner umfasst: Bestimmen, dass der Benutzer der zweiten elektronischen Vorrichtung aufhört zu sprechen, basierend auf dem Audioinhalt des Videokonferenzanrufs zu einem zweiten, nachfolgenden Zeitpunkt entlang der Wiedergabedauer des Medieninhalts; und als Reaktion auf das Bestimmen, dass der Benutzer der zweiten elektronischen Vorrichtung zu sprechen aufhört, Rückspulen der Wiedergabe des Medieninhalts, um die Wiedergabe zum ersten Zeitpunkt entlang der Wiedergabedauer zu starten.
  23. Verfahren nach Anspruch 19, wobei der Benutzer beginnt, zu einem ersten Zeitpunkt entlang einer Wiedergabedauer des Medieninhalts zu sprechen, wobei das Verfahren ferner umfasst: Bestimmen, dass der Benutzer der zweiten elektronischen Vorrichtung aufhört zu sprechen, basierend auf dem Audioinhalt des Videokonferenzanrufs zu einem zweiten, nachfolgenden Zeitpunkt entlang der Wiedergabedauer des Medieninhalts; und Bereitstellen, als Reaktion darauf, einer Benachrichtigung, die eine Benutzerberechtigung anfordert, um die Wiedergabe des Medieninhalts zurückzuspulen.
  24. Verfahren nach Anspruch 23, wobei die Benachrichtigung eine Popup-Benachrichtigung ist, die auf einem Anzeigebildschirm der ersten elektronischen Vorrichtung angezeigt wird.
DE102022204702.8A 2021-05-15 2022-05-13 Verfahren und system zur verarbeitung von entfernter aktiver sprache während eines anrufs Pending DE102022204702A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163189075P 2021-05-15 2021-05-15
US63/189,075 2021-05-15

Publications (1)

Publication Number Publication Date
DE102022204702A1 true DE102022204702A1 (de) 2022-11-17

Family

ID=83806331

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022204702.8A Pending DE102022204702A1 (de) 2021-05-15 2022-05-13 Verfahren und system zur verarbeitung von entfernter aktiver sprache während eines anrufs

Country Status (3)

Country Link
US (1) US20220368554A1 (de)
CN (1) CN115348411A (de)
DE (1) DE102022204702A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230260538A1 (en) * 2022-02-15 2023-08-17 Google Llc Speech Detection Using Multiple Acoustic Sensors

Also Published As

Publication number Publication date
CN115348411A (zh) 2022-11-15
US20220368554A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
US9071900B2 (en) Multi-channel recording
US20220369034A1 (en) Method and system for switching wireless audio connections during a call
US10241741B2 (en) Audio processing based upon camera selection
JP2006020314A (ja) 電話会議用のステレオ・マイクロフォン処理
EP3430819B1 (de) Ohrhörer mit getrennten mikrofonen für binauralaufnahmen und zum telefonieren
US20140226842A1 (en) Spatial audio processing apparatus
DE112016004218T5 (de) Verfahren zum stereophonischen Aufnehmen und binaurale Ohrhörereinheit
EP3228096A1 (de) Audioanschluss
EP2084937B1 (de) Verfahren und vorrichtung zur aufnahme, übertragung und wiedergabe von schallereignissen für kommunikationsanwendungen
DE102020117780A1 (de) Akustische erfassung der passung von in-ohr-kopfhörern
DE102022204702A1 (de) Verfahren und system zur verarbeitung von entfernter aktiver sprache während eines anrufs
DE102022205633A1 (de) Räumliche audiosteuerung
DE102019107173A1 (de) Verfahren und Vorrichtung zum Erzeugen und Ausgeben eines Audiosignals zum Erweitern des Höreindrucks bei Live-Veranstaltungen
CN211403645U (zh) 音视频互动装置
US10993064B2 (en) Apparatus and associated methods for presentation of audio content
JP2006339869A (ja) 映像信号と音響信号の統合装置
DE112021004727T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsendgerät, informationsverarbeitungsverfahren und programm
DE112019005697T5 (de) Verfahren zur Bereitstellung von Dienstleistungen unter Verwendung eines Ohrbügels
DE102022117387A1 (de) Verfahren und system zur lautstärkesteuerung
US10264116B2 (en) Virtual duplex operation
DE102023116204A1 (de) Verfahren und System zur akkustischen Durchleitung
US20230113703A1 (en) Method and system for audio bridging with an output device
JPH02230898A (ja) 音声再生方式
EP1750414A1 (de) Telekommunikationsgerät mit einer drahtlosen Schnittstelle und zugehöriges Verfahren
EP2866455A1 (de) Verfahren und Vorrichtung zur Videokonferenzdurchführung

Legal Events

Date Code Title Description
R012 Request for examination validly filed