DE102017106670B4

DE102017106670B4 - Verfahren und Vorrichtung für Audioaufnahmen

Info

Publication number: DE102017106670B4
Application number: DE102017106670.5A
Authority: DE
Inventors: Bin Yuan
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2016-03-29
Filing date: 2017-03-28
Publication date: 2023-12-21
Anticipated expiration: 2037-03-29
Also published as: DE102017106670A1; CN106157986A; CN111724823B; CN111724823A; CN106157986B; US20170289681A1

Abstract

Verfahren, umfassend:
Aufnehmen (S201) eines Audios mit einem Mikrofon eines elektronischen Gerätes;
Cachen (S201) des aufgenommenen Audios in Echtzeit;
Erfassen (S202) eines Echtzeitbildes mit einer Kamera des elektronischen Gerätes; und
Anpassen (S204) eines Steuerparameters des Mikrofons basierend auf dem Echtzeitbild;
wobei das Anpassen (S204) ein Beziehen (S203) eines Variationsparameters einer Brennweite der Kamera und ein Anpassen eines ersten Steuerparameters des Mikrofons basierend auf dem Variationsparameter der Brennweite der Kamera umfasst; und
wobei das Anpassen des ersten Steuerparameters ein Bestimmen eines gewünschten Signal- zu Rauschverhältnisses entsprechend dem Variationsparameter der Brennweite der Kamera und voreingestellten Regeln sowie ein Anpassen eines Signalzu Rauschverhältnisses des Mikrofons basierend auf dem gewünschten Signal- zu Rauschverhältnis umfasst, wobei gemäß einer Abbildungsbeziehungstabelle das Signalzu Rauschverhältnis erhöht wird, wenn der Variationsparameter der Brennweite steigt.

Description

Gebiet
Die vorliegende Offenbarung bezieht sich auf eine elektronische Technologie und betrifft insbesondere ein Informationsverarbeitungsverfahren, eine Vorrichtung und ein elektronisches Gerät.
Hintergrund
Mobile Telefone und andere Geräte werden für viele Gelegenheiten verwendet, um Audios, sowohl für sich allein als auch zusammen mit visuellen Informationen, aufzuzeichnen. Wenn überhaupt, werden jedoch nur begrenzte Anpassungen an dem Audio bereitgestellt, um das Audioaufzeichnen entsprechend dem aktuellen Aufzeichnungsszenario und in einigen Fällen begleitend zu den aufgezeichneten visuellen Informationen durchzuführen.
Aus der US 2010 / 0 245 624 A1 ist ein Audio/Video-(A/V)-Erfassungsgerät und -verfahren bekannt, die Audio und Video in räumlich synchronisierter Weise erfassen. In einer Implementierung passen die Vorrichtung und das Verfahren automatisch die Form eines räumlichen Richtwirkungsmusters eines Mikrofonarrays, das zum Erfassen von Audio verwendet wird, an, so dass das Muster räumlich mit einem Betrag eines Videozooms synchronisiert ist, der von einem Videoerfassungsabschnitt angewendet wird, um Video zu erfassen.
Aus der US 2002 / 0 064 287 A1 sind Zoommikrofonvorrichtungen bekannt, die in der Lage sind, einen Zielton synchron mit einer Zoombewegung einer Linse zum Aufnehmen des Ziels heranzuzoomen.
Es ist Aufgabe der vorliegenden Erfindung eine verbesserte Aufnahme eines Audios mit einem Mikrofon eines elektronischen Gerätes zu ermöglichen.
Diese Aufgabe wird durch die Gegenstände des Hauptanspruchs 1 und des nebengeordneten Anspruchs 9 gelöst, die die vorliegende Erfindung definieren. Bevorzugte Ausführungsformen sind Gegenstand der Unteransprüche.
Zusammenfassung
Es werden ein Verfahren gemäß dem Hauptanspruch 1 und eine Vorrichtung gemäß dem nebengeordneten Anspruch 9 offenbart.
Kurze Beschreibung der Zeichnungen
Die vorhergehenden und anderen Objekte, Merkmale und Vorteile der vorliegenden Offenbarung werden aus der detaillierten Beschreibung von Ausführungsformen der vorliegenden Offenbarung in Verbindung mit den Zeichnungen deutlicher. Die Zeichnungen werden zum Bereitstellen eines weiteren Verständnisses der Ausführungsformen der vorliegenden Offenbarung verwendet und stellen einen Teil der Beschreibung dar, welche, zusammen mit den Ausführungsformen der vorliegenden Offenbarung, einem Erklären der vorliegenden Offenbarung dienen und nicht als eine Begrenzung der vorliegenden Offenbarung auszulegen sind. Außer ausdrücklich angezeigt, sind die Zeichnungen nicht als maßstäblich gezeichnet zu verstehen. In den Zeichnungen betreffen die gleichen Bezugsnummern im Allgemeinen die gleichen Komponenten oder Schritte. In den Zeichnungen:

ist 1 ein Flussdiagramm eines Informationsverarbeitungsverfahrens gemäß einer Ausführungsform 1;
ist 2 ein Flussdiagramm eines Informationsverarbeitungsverfahrens gemäß Ausführungsform 2;
ist 3 ein Flussdiagramm einer Rauschverminderung gemäß einer Ausführungsform;
ist 4 ein schematisches Diagramm 1 eines Szenarios gemäß einer Ausführungsform;
ist 5 ein schematisches Diagramm 2 eines Szenarios einer Ausführungsform;
ist 6 ein Flussdiagramm eines Informationsverarbeitungsverfahrens gemäß Ausführungsform 6;
ist 7 ein Flussdiagramm eines Informationsverarbeitungsverfahrens gemäß Ausführungsform 7;
ist 8 ein strukturelles schematisches Diagramm von Komponenten einer Informationsverarbeitungsvorrichtung gemäß Ausführungsform 8;
ist 9 ein strukturelles schematisches Diagramm von Komponenten einer Informationsverarbeitungsvorrichtung gemäß Ausführungsform 9; und
ist 10 ein schematisches strukturelles Diagramm eines elektronischen Gerätes gemäß Ausführungsform 10.

Detaillierte Beschreibung
Die technischen Lösungen der vorliegenden Offenbarung werden weiterhin mit Bezug auf die begleitenden Zeichnungen und die spezifischen Ausführungsformen beschrieben.
Ausführungsform 1 wird nun beschrieben.
Die Ausführungsform der vorliegenden Offenbarung stellt ein Informationsverarbeitungsverfahren bereit, welches auf einem elektronischen Gerät ausgeführt wird. Die Funktionen, die durch das Informationsverarbeitungsverfahren realisiert werden, können mittels eines Prozessors ausgeführt werden, der Programmcodes in einem elektronischen Gerät aufruft. Auch können die Programmcodes in einem Computerspeichermedium gespeichert sein. Es ist somit klar, dass das elektronische Gerät, auf dem diese Ausführungsform der vorliegenden Offenbarung ausgeführt wird, wenigstens einen Prozessor und ein Speichermedium umfasst.
1 ist ein Flussdiagramm zum Verwirklichen eines Informationsverarbeitungsverfahrens gemäß einer Ausführungsform 1 der vorliegenden Offenbarung. Wie in 1 gezeigt, umfasst das Informationsverarbeitungsverfahren die folgenden Schritte S101, S102 und S103.
Der Schritt S101 umfasst ein Aufnehmen und Caching eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes.
In einigen Ausführungsformen kann das elektronische Gerät irgendeins von unterschiedlichen Arten von Geräten mit Informationsverarbeitungsfähigkeit sein. Zum Beispiel kann das elektronische Gerät ein mobiles Telefon, ein Tabletcomputer, ein Desktopcomputer, ein Personal Digital Assistant, ein Navigationssystem, ein digitales Telefon, ein Videotelefon, ein Fernseher oder ein anderes geeignetes Gerät sein. Es ist jedoch erforderlich, dass das elektronische Gerät ein Mikrofon hat.
Zusätzlich ist es auch erforderlich, dass das elektronische Gerät ein Speichermedium zum Cachen des in Echtzeit aufgenommenen (oder aufgezeichneten) Sounds aufweist. In einigen Ausführungsformen umfasst das Echtzeitcachen ein Speichern aller Echtzeit-Sounds auf einem Speichermedium in Form eines Audiofiles.
In einigen Ausführungsformen kann das Mikrofon in dem elektronischen Gerät ein einzelnes Mikrofon oder eine Mikrofonanordnung sein. Im Allgemeinen weist das Mikrofon eine Audioaufnahmeregion oder einen Bereich auf, nämlich die strahlformende Region des Mikrofons.
Der Schritt S102 umfasst ein Aufnehmen eines Echtzeitbildes durch die Bildaufnahmeregion einer Kamera des elektronischen Gerätes.
Der Schritt S103 umfasst ein Anpassen eines Steuerparameters des Mikrofons basierend auf dem Echtzeitbild, wobei die Audioaufnahmeregion und die Bildaufnahmeregion voreingestellte Bedingungen erfüllen, so dass sich ein Soundeffekt während der Audioausgabe des Echtzeit-Sounds, der nach der Anpassung in Echtzeit aufgenommen wurde, sich von einem Soundeffekt während der Audioausgabe des Echtzeit-Sounds, der vor der Anpassung in Echtzeit aufgenommen wurde, unterscheidet.
In der Durchführung gibt es keine bevorzugte Ausführungsfolge zwischen dem Schritt S101 und dem Schritt S102. Schritt S101 kann vor dem Schritt S102 ausgeführt werden oder der Schritt S102 kann vor dem Schritt S101 ausgeführt werden.
In einigen Ausführungsformen können die voreingestellten Bedingungen eine Bedingung, gemäß der die Audioaufnahmeregion und die Bildaufnahmeregion ein bestimmtes voreingestelltes Verhältnis erfüllen, einschließen. Zum Beispiel kann die Audioaufnahmeregion mit der Bildaufnahmeregion überlappen, kann die strahlformende Richtung der Audioaufnahmeregion mit der Brennpunktrichtung der Bildaufnahmeregion übereinstimmen oder kann die strahlformende Richtung der Audioaufnahmeregion die Brennpunktrichtung der Bildaufnahmeregion einschließen.
In einigen Ausführungsformen umfasst das Verfahren weiterhin den Schritt S104, bei dem das Echtzeitbild auf einem Anzeigebildschirm angezeigt wird.
In einigen Ausführungsformen umfasst das Echtzeiterfassen ein Speichern aller erfassten Echtzeit-Sounds auf einem Speichermedium in Form eines Audiofiles. In anderen Ausführungsformen umfasst das Echtzeiterfassen ein Speichern aller erfassten Echtzeit-Sounds und aller erfassten Echtzeitbilder auf einem Speichermedium in Form eines Videofiles.
Es gibt wenigstens zwei betrachtete Szenarien in den Ausführungsformen der vorliegenden Offenbarung. Das erste Szenario steht rein für ein Aufzeichnen des Sounds, wobei die Bildaufnahmeregion der Kamera eingeschlossen ist, um den Steuerparameter des Mikrofons in dem Prozess der Soundaufzeichnung zu manipulieren. Mit anderen Worten muss nur der Echtzeit-Sound muss gespeichert werden und werden die Bilder nur zum Unterstützen beim Aufzeichnen des Sounds verwendet. Deshalb kann das Ausgabefile nur einen Soundfile umfassen und kann Bild- oder Videofiles ausschließen.
Das zweite Szenario umfasst ein aufzeichnendes Video (es ist nämlich erforderlich, sowohl den Echtzeit-Sound als auch das Echtzeitbild zu speichern). In einer derartigen Situation werden alle erfassten Echtzeit-Sounds und alle erfassten Echtzeitbilder auf dem Speichermedium in Form eines Videofiles gespeichert. Auf diese Weise wird, wenn die Brennweite variiert und das Bild herangezoomt wird, der Sound entsprechend geändert, als ob der Sound herangezoomt wird (zum Beispiel kann der Sound nach dem Heranzoomen lauter werden, selbst wenn die Sound-Lautstärkeeinstellung auf dem Gerät die gleiche bleibt), so dass die hörbare Erfahrung eines Nutzers mit der visuellen Erfahrung übereinstimmt.
In dieser Ausführungsform wird der Echtzeit-Sound akquiriert und in Echtzeit durch die Audioaufnahmeregion des Mikrofons in dem elektronischen Gerät erfasst, wobei das Echtzeitbild in Echtzeit durch die Bildaufnahmeregion der Kamera des elektronischen Gerätes aufgenommen wird; die Steuerparameter des Mikrofons werden basierend auf dem Echtzeitbild angepasst, wobei die Audioaufnahmeregion und die Bildaufnahmeregion die vorliegenden Bedingungen erfüllen, so dass sich ein Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, welcher nach der Anpassung in Echtzeit aufgenommen wird, von einem Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der vor der Anpassung in Echtzeit aufgenommen wird, unterscheidet. Dadurch kann der Aufzeichnungseffekt des Mikrofons gemäß dem aufgenommenen Bild in Echtzeit angepasst werden, um so die Nutzererfahrung zu verbessern.
Eine Ausführungsform 2 wird nun beschrieben.
Basierend auf der Ausführungsform 1 stellt die Ausführungsform der vorliegenden Offenbarung ein Informationsverarbeitungsverfahren bereit, welches auf ein elektronisches Gerät angewandt wird. Die Funktionen, die durch das Informationsverarbeitungsverfahren verwirklicht werden, können mittels eines Prozessors verwirklicht werden, der Programmcodes in dem elektronischen Gerät aufruft. Auch können die Programmcodes in einem Computerspeichermedium gespeichert sein. Es ist damit klar, dass das elektronische Gerät, auf das diese Ausführungsform der vorliegenden Offenbarung angewandt wird, wenigstens einen Prozessor und ein Speichermedium aufweist.
2 ist ein Flussdiagramm zum Verwirklichen eines Informationsverarbeitungsverfahrens gemäß der Ausführungsform 2 der vorliegenden Offenbarung. Wie in 2 gezeigt, umfasst das Informationsverarbeitungsverfahren die folgenden Schritte S201, S202, S203 und S204.
Der Schritt S201 umfasst ein Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion eines Mikrofons des elektronischen Gerätes.
Der Schritt S202 umfasst ein Aufnehmen eines Echtzeitbildes in Echtzeit durch die Bildaufnahmeregion einer Kamera des Elektronikgerätes.
Der Schritt S203 umfasst ein Beziehen eines Variationsparameters für die Brennweite der Kamera.
In einigen Ausführungsformen ist der Variationsparameter für die Brennweite der Kamera derart angepasst, dass sich die Größe eines Objektes in dem Echtzeitbild, das in Echtzeit nach der Variation der Brennweite der Kamera aufgenommen wird, von dem Objekt in dem Echtzeitbild, das in Echtzeit vor der Variation der Brennweite der Kamera aufgenommen wird, unterscheidet. In der Praxis kann der Variationsparameter für die Brennweite der Kamera ein Parameter zum Reflektieren des Heranzoomens und Herauszoomens der Kamera sein.
Der Schritt S204 umfasst ein Anpassen eines ersten Steuerparameters des Mikrofons basierend auf dem Variationsparameter für die Brennweite der Kamera, wobei der erste Steuerparameter zum Reduzieren des Umgebungsrauschens in dem Echtzeit-Sound und/oder zum Erhöhen des Sound-Ziels in dem Echtzeit-Sound verwendet wird.
In einigen Ausführungsformen erfüllen die Audioaufnahmeregion und die Bildaufnahmeregien voreingestellte Bedingungen, so dass sich ein Sound, der während des Audioausgangs des Echtzeit-Sounds wiedergegeben wird, der nach der Anpassung in Echtzeit aufgenommen wird, von einem Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der vor der Anpassung in Echtzeit aufgenommen wird, unterscheidet.
In einigen Ausführungsformen kann der erste Steuerparameter durch ein Signal des Rauschverhältnisses oder der Sound-Dichte berücksichtigt werden
Die obigen Schritte S203 und S204 stellen eine Ausführungsform des Verfahrens zum Realisieren des Schrittes S103 in Ausführungsform 1 bereit.
Die obigen Schritte S201 bis S202 entsprechen den Schritten S101 bis S102 in Ausführungsform 1. Somit kann ein Fachmann der Technik sich auf Ausführungsform 1 beziehen, um die Schritte S201 bis S202 zu verstehen. Der Kürze wegen, werden diese hierin nicht noch einmal wiederholt.
In dieser Ausführungsformen wird, wenn das Objekt in dem Echtzeitbild über die Brennweitenvariation der Kamera herangezoomt ist, der erste Parameter verwendet, um den Sound des Zielobjektes in dem Echtzeit-Sound zu erhöhen und um die Hintergrund/Umgebungsgeräusche zu reduzieren, um somit dem Nutzer das Gefühl zu geben, dass das Zielobjekt in der Nähe spricht, wenn das Audiofile oder das Videofile wiedergegeben wird. Wenn das Objekt in dem Echtzeitbild durch die Brennweitenvariation der Kamera herausgezoomt wird, wird der erste Steuerparameter zum Mischen des Sounds des Zielobjektes in dem Echtzeit-Sound mit den Hintergrund/Umgebungsgeräuschen verwendet, um somit dem Nutzer das Gefühl zu geben, dass das Zielobjekt in einem Abstand spricht, wenn das Audiofile oder das Videofile wiedergegeben wird.
In dieser Ausführungsform umfasst das Echtzeiterfassen ein Speichern aller erfassten Echtzeit-Sounds auf dem Speichermedium wie einem Audiofile; oder ein Speichern aller erfassten Echtzeit-Sounds und aller erfassten Echtzeitbilder auf einem Speichermedium in Form eines Videofiles.
Eine Ausführungsform 3 wird nun beschrieben.
Der Schritt S201 umfasst ein Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes.
Der Schritt S202 umfasst ein Aufnehmen eines Echtzeitbildes in Echtzeit durch die Bildaufnahmeregion einer Kamera des elektronischen Gerätes.
Der Schritt S203 umfasst ein Beziehen eines Variationsparameters für die Brennweite der Kamera.
Hierin wird der Variationsparameter der Brennweite der Kamera derart umgesetzt, dass die Größe eines Objektes in dem Echtzeitbild, das nach der Variation der Brennweite der Kamera in Echtzeit aufgenommen wird, sich von dem Objekt in dem Echtzeitbild unterscheidet, das vor der Variation der Brennweite der Kamera in Echtzeit aufgenommen wurde. In einigen Ausführungsformen kann der Variationsparameter für die Brennweite der Kamera ein Parameter zum Berücksichtigen des Heranzoomens und Herauszoomens der Kamera sein.
Der Schritt S241 umfasst ein Bestimmen eines SNR (Signal- zu Rauschverhältnis) nach der Anpassung entsprechend dem Brennweitenparameter der Kamera und den voreingestellten Regeln.
Hierin werden die voreingestellten Regeln verwendet, um Verhältnisse zwischen dem Brennweitenparameter und dem SNR (Signal- zu Rauschverhältnis) zu berücksichtigen. Zum Beispiel kann in einigen Ausführungsformen eine Abbildungsbeziehungstabelle zeigen, dass das SNR erhöht werden soll, wenn der Brennweitenparameter steigt (das heißt der Rauschverminderungseffekt erhöht werden soll, wenn Herangezoomt wird).
Der Schritt S242 umfasst ein Anpassen des SNR für das Mikrofon entsprechend dem angepassten SNR.
Hierin erfüllen die Audioaufnahmeregion und die Bildaufnahmeregion die voreingestellten Bedingungen, so dass sich ein Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der nach der Anpassung in Echtzeit aufgenommen wird, von einem Sound, der während einer Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der vor der Anpassung in Echtzeit aufgenommen wird, unterscheidet.
In dieser Ausführungsform kann die Stimme intensiviert werden, wenn ein Kurzzeitspektrum einer „klaren“ Sprache von einem Kurzzeitspektrum mit Rauschen abgeschätzt werden kann. Dieser Prozess erfordert eine Abschätzung des SNR. Basierend auf dem vorhergehenden allgemeinen Algorithmus, wird die künstliche Information (Heranzoomen und Herauszoomen), die auf dem Bildschirm ausgewählt wird, auf den Sprachrauschen-Reduktionsalgorithmus übertragen, welcher Gewinne für die übertragene Information in folgenden zwei Aspekten erzeugt. Ein Gewinn ist ein Gewinn an Geräuschkennwerten, welcher die Größe darstellt, auf welche das Rauschen reduziert werden muss, und der andere Gewinn stellt die Größe dar, auf welche die Lautstärke nach der Rauschreduktion erhöht werden muss.
Eine Rauschreduktion gemäß der Ausführungsform der vorliegenden Offenbarung umfasst, wie in 3 gezeigt, die folgenden Schritte. Erstens umfasst eine Rauschreduktion ein Eingeben einer Stimme mit Rauschen, um eine Zeitfrequenzdomänentransformation und eine Rauschcharakteristik-Abschätzung auszuführen. Zweitens umfasst die Rauschreduktion ein Bestimmen des Gewinns nach der Variation entsprechend dem Parameter, der durch den Videoaufzeichnungszooms übertragen wird, und ein Überlagern des Rauschgewinns und des Ergebnisses, nachdem die Rauschcharakteristik abgeschätzt ist. Drittens umfasst die Rauschreduktion ein Durchführen einer Zeitfrequenzdomänentransformation für das Ergebnis des charakteristischen Wertes der Stimme mit Rauschen und des Abziehens des charakteristischen Wertes für das Rauschen. Viertens umfasst die Rauschreduktion ein Überlagern des erhaltenen Ergebnisses entsprechend dem bestimmten Gewinn und schließlich ein Ausgeben einer klaren Stimme.
Hierin haben die obigen Schritte S241 und S242 tatsächlich ein Verwendungsverfahren zum Realisieren des Schrittes S204 in Ausführungsform 1 bereitgestellt. In Ausführungsform 2 wird der erste Steuerparameter zum Reduzieren des umgebenden Rauschens in dem Echtzeit-Sound und/oder zum Erhöhen des Zielsounds in dem Echtzeit-Sound verwendet. Spezieller Weise kann in dieser Ausführungsform der erste Steuerparameter durch das SNR berücksichtigt werden.
In dieser Ausführungsform entsprechen die Schritte S201 bis S203 den Schritten S201 bis S203 in Ausführungsform 2. Somit kann sich ein Fachmann der Technik auf Ausführungsform 2 beziehen, um die Schritte S201 bis S203 zu verstehen. Der Kürze wegen, werden diese hierin nicht wiederholt.
In einigen Ausführungsformen umfasst ein Echtzeiterfassen: ein Speichern aller erfassten Echtzeit-Sounds auf einem Speichermedium in Form eines Audiofiles; oder ein Speichern aller erfassten Echtzeit-Sounds und aller erfassten Echtzeitbilder auf einem Speichermedium in Form eines Videofiles.
Eine Ausführungsform 4 wird nun beschrieben.
Basierend auf der Ausführungsform 1, stellt diese Ausführungsform der vorliegenden Offenbarung ein Informationsverarbeitungsverfahren bereit, das auf ein elektronisches Gerät angewandt wird. Die Funktionen, die durch das Informationsverarbeitungsverfahren realisiert werden, können mittels eines Prozessors ausgeführt werden, der Programmcodes in einem elektronischen Gerät aufruft. Auch können die Programmcodes in einem Computerspeichermedium gespeichert sein. Es ist somit klar, dass das elektronische Gerät, auf dem diese Ausführungsform der vorliegenden Offenbarung ausgeführt wird, wenigstens einen Prozessor und ein Speichermedium umfasst.
Das Informationsverarbeitungsverfahren umfasst die folgenden Schritte S401, S402, S403 und S404.
Der Schritt S401 umfasst ein Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes.
Der Schritt S402 umfasst ein Aufnehmen eines Echtzeitbildes in Echtzeit durch die Bildaufnahmeregion einer Kamera eines elektronischen Gerätes.
Der Schritt S403 umfasst ein Beziehen eines Variationsparameters für die Brennweitenrichtung der Kamera.
Hierin wird der Variationsparameter für die Brennweitenrichtung der Kamera derart umgesetzt, dass sich ein Objekt in dem Echtzeitbild, das nach der Variation der Brennweitenrichtung der Kamera in Echtzeit aufgenommen wird, von dem Objekt in dem Echtzeitbild, das vor der Variation der Brennweitenrichtung der Kamera in Echtzeit aufgenommen wird, unterscheidet.
Der Schritt S404 umfasst ein Anpassen eines zweiten Steuerparameters des Mikrofons basierend auf dem Variationsparameter für die Brennweitenrichtung der Kamera.
Hierin wird der zweite Steuerparameter zum Anpassen der Audioaufnahmeregion des Mikrofons verwendet. In einigen Ausführungsformen kann der zweite Steuerparameter eine strahlformende Richtung umfassen.
Hierin erfüllen die Audioaufnahmeregion und die Bildaufnahmeregion voreingestellte Bedingungen, so dass sich ein Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der nach der Anpassung in Echtzeit aufgenommen wird, von einem Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der vor der Anpassung in Echtzeit aufgenommen wird, unterscheidet. In dieser Ausführungsform kann die Audioaufnahmeregion (die strahlformende Richtung) entsprechend zu der Brennweitenrichtung angepasst sein. Mit anderen Worten wird die strahlformende Richtungsinformation basierend auf der Brennweitenrichtungsinformation der Kamera bestimmt und wird die Audioaufnahmeregion des Mikrofons entsprechend der strahlformenden Richtungsinformation angepasst.
Hierin entsprechen die obigen Schritte S401 bis S402 den Schritten S101 bis S102 in Ausführungsform 1. Somit kann sich ein Fachmann auf Ausführungsform 1 beziehen, um die Schritte S401 bis S402 zu verstehen. Der Kürze wegen, wird dieses hierin nicht wiederholt. Die Schritte S403 und S404 stellen ein Verfahren zum Verwenden des Schrittes S103 in Ausführungsform 1 bereit.
In der Ausführungsform der vorliegenden Offenbarung umfasst das Echtzeiterfassen: ein Speichern aller erfassten Echtzeit-Sounds auf dem Speichermedium in Form eines Audiofiles; oder ein Speichern aller erfassten Echtzeit-Sounds und aller erfassten Echtzeitbilder auf einem Speichermedium in Form eines Videofiles.
Eine Ausführungsform 5 wird nun beschrieben.
Basierend auf Ausführungsform 1, stellt diese Ausführungsform der vorliegenden Offenbarung ein Informationsverarbeitungsverfahren bereit, das auf ein elektronisches Gerät angewandt wird. Die Funktionen, die durch das Informationsverarbeitungsverfahren realisiert werden, können mittels eines Prozessors ausgeführt werden, der Programmcodes in einem elektronischen Gerät aufruft. Auch können die Programmcodes in einem Computerspeichermedium gespeichert sein. Es ist somit klar, dass das elektronische Gerät, auf dem diese Ausführungsform der vorliegenden Offenbarung ausgeführt wird, wenigstens einen Prozessor und ein Speichermedium umfasst. Das Informationsverarbeitungsverfahren umfasst die folgenden Schritte S501, S502, S503, S504 und S505.
Der Schritt S501 umfasst ein Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes.
Der Schritt S502 umfasst ein Aufnehmen eines Echtzeitbildes in Echtzeit durch die Bildaufnahmeregion einer Kamera des elektronischen Gerätes.
Der Schritt S503 umfasst ein Beziehen eines Zielobjektes unter einer Mehrzahl von Objekten in dem Echtzeitbild.
4 zeigt eine Situation, wobei das Echtzeitbild eine Vielzahl von Objekte 41 bis 43 aufweist. Wenn ein Nutzer durch einen ersten Vorgang (zum Beispiel durch Tippen auf einen Touchscreen des elektronischen Gerätes) ein Objekt 43 auswählt, kann dann das elektronische Gerät ein Zielobjekt aus der Vielzahl von Objekten in dem Echtzeitbild basierend auf dem Objekt bestimmen, das durch den Nutzer durch den ersten Vorgang ausgewählt wurde. Wenn alternativ als ein anderes Beispiel die Kamera eines Nutzers auf das Objekt 43 gerichtet ist, kann das elektronische Gerät ein Zielobjekt aus der Vielzahl von Objekten in dem Echtzeitbild basierend auf dem Objekt bestimmen, auf das die Kamera des mobilen Elektronikgerätes gerichtet ist.
Der Schritt S504 umfasst ein Ändern der Brennweite des Zielparameters der Kamera gemäß dem Zielobjekt.
Es wird wieder auf 4 Bezug genommen. Wenn sich das von dem Nutzer fokussierte Objekt von dem Objekt 41 zu dem Objekt 43 ändert, kann das elektronische Gerät zum Beispiel das Objekt 43 entsprechend dem Fokussierungsvorgang des Nutzers als das Zielobjekt in dem Echtzeitbild bestimmen. Das elektronische Gerät kann dann das Objekt 43 als Zielparameter heranziehen, was durch einen eindimensionalen Parameter dargestellt werden kann, wie einem Parameter, der zum Darstellen von links und rechts verwendet wird. Der Zielparameter kann auch durch einen zweidimensionalen Parameter, wie Positionskoordinaten des Touchscreens auf dem elektronischen Gerät dargestellt werden.
Schritt S505 umfasst ein Anpassen eines ersten Steuerparameters des Mikrofons basierend auf den Brennweiten- bzw. Fokussierungszielparametern der Kamera.
Hierin erfüllen die Audioaufnahmeregion und die Bildaufnahmeregion die voreingestellten Bedingungen, so dass sich ein Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der nach der Anpassung in Echtzeit aufgenommen wird, von einem Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der vor der Anpassung in Echtzeit aufgenommen wird, unterscheidet.
Hierin entsprechen die obigen Schritte S501 bis S502 den Schritten S101 bis S102 in Ausführungsform 1. Somit kann ein Fachmann der Technik sich auf Ausführungsform 1 beziehen, um die Schritte S501 bis S502 zu verstehen. Der Kürze wegen, werden diese hierin nicht wiederholt. Der obige Schritt S503 und Schritt S505 stellen ein Verwenden des Verfahrens für den Schritt S103 in der Ausführungsform 1 bereit. Das bedeutet, falls es mehrere Objekte in dem Bild gibt, wenn sich der Nutzer auf ein Objekt (das Zielobjekt) fokussiert, der aufgenommene Sound der Sound des Zielobjektes sein wird, während der Sound, der durch andere umgebende Menschen erzeugt wird, als Umgebungsrauscchen betrachtet wird und reduziert wird.
Eine Ausführungsform 6 wird nun beschrieben.
6 ist ein Flussdiagramm eines Informationsverarbeitungsverfahrens gemäß Ausführungsform 6. Wie in 6 gezeigt, umfasst das Informationsverarbeitungsverfahren die folgenden Schritte S601, S602, S603, S604, S605 und S606.
Der Schritt S601 umfasst ein Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion der Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes.
Der Schritt S602 umfasst ein Aufnehmen eines Echtzeitbildes in Echtzeit durch die Bildaufnahmeregion einer Kamera des elektronischen Gerätes.
Der Schritt S603 umfasst ein Beziehen eines Zielobjekts unter einer Vielzahl von Objekten in dem Echtzeitbild;
Der Schritt S604 umfasst ein Ändern der fokussierenden Zielparameter der Kamera gemäß den Zielobjekten. Hierin werden die fokussierenden Zielparameter der Kamera übernommen, so dass sich ein Zielobjekt in dem Echtzeitbild, das nach der Brennweitenvariation in Echtzeit der Kamera aufgenommen wird, von dem Zielobjekt in dem Echtzeitbild, das vor der Brennweitenvariation der Kamera in Echtzeit aufgenommen wird, unterscheidet.
Der Schritt S605 umfasst ein Anpassen des zweiten Steuerparameters des Mikrofons basierend auf den fokussierenden Zielparametern der Kamera, wobei der zweite Steuerparameter verwendet wird, um die Audioaufnahmeregion des Mikrofons anzupassen.
Hierin erfüllen die Audioaufnahmeregion und die Bildaufnahmeregion voreingestellte Bedingungen, so dass sich ein Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der in Echtzeit nach der Anpassung aufgenommen wird, von einem Sound, der während der Audioausgabe des Echtzeit-Sounds wiedergegeben wird, der in Echtzeit vor der Anpassung aufgenommen wird, unterscheidet.
Hierin entsprechen die obigen Schritte S601 bis S603 jeweils den Schritten S501 bis S503 in Ausführungsform 1. Somit kann ein Fachmann der Technik sich auf die Ausführungsform 1 beziehen, um die Schritte S601 bis S603 zu verstehen. Der Kürze wegen, werden diese hierin nicht wiederholt. Die obigen Schritte S603 bis S605 stellen eine Verwendung des Schrittes S103 in der Ausführungsform 1 bereit. Das bedeutet, dass, falls es eine Vielzahl von Objekten in dem Bild gibt, wenn sich der Nutzer auf ein Objekt (das Zielobjekt) fokussiert, der Sound, der durch das Mikrofon aufgenommen wird, der Sound aus der fokussierten Richtung sein sollte, während der Sound, der durch andere umgebende Menschen erzeugt wird, als Umgebungsrauschen betrachtet und leiser werden sollte.
Die obigen Ausführungsformen sind Rauschreduktionslösungen basierend auf einem Strahlformen mehrerer Mikrofone mit den folgenden Prinzipien: Informationen der Brennweitenanpassung (Heranzoomen oder Herauszoomen der Brennweite oder der Bewegung eines Videofokus) werden an einen strahlformenden Algorithmus in dem Brennweitenanpassungsprozess während der Videoaufzeichnung eines mobilen Telefons gesendet, welcher die Richtung eines Videoaufzeichnungsfokus und die Anzeigerichtung des Strahlformens integriert, um so eine Echtzeitanpassung für den Rauschreduktionspegel und die Sound-Aufnahmeausrichtung bereitzustellen.
Während der Videoaufzeichnung und der Soundaufzeichnung einer einzelnen Person, wie in 5 gezeigt, sollen, falls die Brennweite an das Heranzoomen einer Person, die Brennweitenrichtung und die strahlformende Richtung grob übereinstimmend sein, wenn die beiden verglichen werden, und werden nur die Informationen, welche den Brennpunktabstandswechsel betreffen, an den Rauschreduktionsalgorithmus gesandt, um den Rauschreduktionspegel entsprechend anzupassen, so dass entsprechend der Klarheitspegel der Stimme des Sprechers geändert wird. Wie in 4 gezeigt, sollen, während der Videoaufzeichnung und Soundaufzeichnung von mehreren Menschen, die Brennweitenrichtung und die strahlformende Richtung unterschiedlich sein. In diesem Fall wird die strahlformende Richtung angepasst, um so die strahlformende Richtung in die Richtung des bewegten Brennpunkts zu ändern.
Wenigstens zwei Szenarien werden betrachtet. Das erste Szenario umfasst einen Fall, wobei die Brennweite während der Videoaufzeichnung und der Soundaufzeichnung von einer einzelnen Person angepasst werden. Ein Beispiel eines derartigen Falls kann umfassen: 1) das Ziel spricht während der Videoaufzeichnung; 2) die Brennweitenrichtung einer Kamera in einem Videotelefon ist übereinstimmend mit der strahlformenden Richtung; 3) nachdem das Mikrofonarray die Indikation der strahlformenden Richtung bildet, wird der Rauschreduktionspegel während des Audio-Heranzoomens vergrößert, um damit den Sound klarer zu machen.
Das zweite Szenario umfasst einen Fall, in dem, während der Videoaufzeichnung und der Soundaufzeichnung von mehreren Leuten, die Brennweitenrichtungen angepasst werden, wenn mehrere Leute sprechen, um somit die strahlformende Richtung auf eine Zielperson zu richten. Ein Beispiel eines derartigen Szenarios kann das Folgende umfassen: 1) mehrere Menschen sprechen während der Videoaufzeichnung und der Soundaufzeichnung gleichzeitig; 2) eine bestimmte Person wird ausgewählt, um auf dem Bildschirm fokussiert zu werden, und die strahlformende Richtung wird auf den Sprecher ausgerichtet; 3) wenn das Mikrofonarray die Indikation der strahlformenden Richtung bildet, wird der Rauschreduktionspegel während des Heranzoomens verstärkt, um damit den Sound klarer zu machen.
Es gibt verschiedene Vorteile beim Verwenden der Ausführungsformen. Erstens werden die Videoaufzeichnung und die Soundaufzeichnung zusammen kombiniert, um mit den echten menschlichen Erfahrungen übereinzustimmen. Zum Beispiel wird die Soundaufzeichnungsqualität mit dem Anpassen der Brennweite während der Videoaufzeichnung geändert, welche sich von der unveränderten Soundqualität, die im gegenwärtigen Markt zu beobachten ist, unterscheidet. Zweitens wird, während der Videoaufzeichnung und der Soundaufzeichnung einer einzelnen Person, falls die Brennweite an das Heranzoomen oder Herauszoomen einer Person angepasst ist, damit auch die Klarheit der Stimme der Person geändert. 3) Während der Videoaufzeichnung und der Soundaufzeichnung von mehreren Menschen, wird, falls der Brennpunkt zu einem anderen Sprecher bewegt wird, die Stimme des Sprechers verstärkt oder klarer und werden die Stimmen der umgebenden Menschen in ihrer Lautstärke reduziert.
Eine Ausführungsform 7 wird nun beschrieben.
7 ist ein Flussdiagramm eines Informationsverarbeitungsverfahrens gemäß Ausführungsform 7. Wie in 7 gezeigt, umfasst das Informationsverarbeitungsverfahren die folgenden Schritte S701, S702, S703 und S704.
Der Schritt S701 umfasst ein Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion der Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes.
Der Schritt S702 umfasst ein Beziehen eines Eingabevorgangs, wobei der Eingabevorgang eine Operation eines Nutzers in Bezug auf den Echtzeit-Sound ist.
Der Eingabevorgang kann hierin eine Operation an einer Software-Schnittstelle oder kann auch eine Operation einer physikalischen Taste sein. Zum Beispiel können die Ausführungsformen durch eine Soundaufzeichnungssoftware ausgedrückt sein, welche mit einer Steuertaste bereitgestellt wird, und führt ein Nutzer deshalb den Eingabevorgang durch Klicken auf die Steuertaste aus. Alternativ kann das elektronische Gerät mit einer physischen Taste bereitgestellt werden und kann der Nutzer dann den Eingabevorgang durch Drücken der Soundtaste während der Soundaufzeichnung ausführen.
Der Schritt S703 umfasst ein Bestimmen eines Steuerkommandos entsprechend dem Eingabevorgang, wobei das Steuerkommando zum Steuern eines Abstands zwischen der Sound-Quelle des Sounds, der durch das Mikrofon aufgenommen wird, und dem elektronischen Gerät verwendet wird.
Der Schritt S704 umfasst ein Ausführen des Steuerkommandos, so dass sich ein Fern- und Naheffekt während der Audioausgabe des Echtzeit-Sounds, der nach Ausführen des Steuerkommandos in Echtzeit aufgenommen wird, von einem Fern- und Naheffekt während der Audioausgabe des Echtzeit-Sounds, der vor dem Ausführen des Steuerkommandos in Echtzeit aufgenommen wurde, unterscheidet.
In den Ausführungsformen der vorliegenden Offenbarung umfasst das Steuerkommando wenigstens ein erstes Steuerkommando und ein zweites Steuerkommando, wobei das erste Steuerkommando zum Steuern des relativen Abstands von der Sound-Quelle von einem Sound, der durch das Mikrofon aufgenommen wird, zu dem elektronischen Gerät, derart, dass dieser größer wird (wobei ein Abstandsschwellwert eingestellt werden kann), verwendet wird und das zweite Steuerkommando zum Steuern des relativen Abstands von der Sound-Quelle von dem Sound, der durch das Mikrofon aufgenommen wird, zu dem elektronischen Gerät, derart, dass dieser geringer wird (wobei ein anderer Abstandsschwellwert eingestellt werden kann), verwendet wird. Für ein besseres Verständnis der technischen Lösung von dieser Ausführungsform werden hiernach Beispiele mit einer detaillierten Beschreibung dargestellt.
In einem Beispiel umfasst das Mikrofon auf dem elektronischen Gerät eine mechanische Struktur, die in der Lage ist, den Abstand von dem Mikrofon zu der Sound-Quelle einzustellen. Falls der Eingabevorgang des Nutzers dem ersten Steuerkommando entspricht, kann die Mechanismus-Struktur den Abstand zwischen dem Mikrofon und der Sound-Quelle erhöhen. Falls der Eingabevorgang des Nutzers dem zweiten Steuerkommando entspricht, kann die Mechanismus-Struktur den Abstand zwischen dem Mikrofon und der Sound-Quelle vermindern.
Eine Ausführungsform 8 wird nun beschrieben.
Basierend auf den obigen Ausführungsformen stellt die Ausführungsform der vorliegenden Offenbarung eine Informationsverarbeitungsvorrichtung bereit, wobei jede Einheit, die in der Vorrichtung enthalten ist, durch den Prozessor in dem elektronischen Gerät realisiert werden kann, und auch durch eine spezifische Logikschaltung realisiert werden kann. Bei den Prozessen der spezifischen Ausführungsformen kann der Prozessor eine zentrale Verarbeitungseinheit (CPU), eine Mikroprozessoreinheit (MPU), ein digitaler Signalprozessor (DSP) oder ein Field Programmable Gatearray (FPGA) oder dergleichen sein.
8 ist ein strukturelles schematisches Diagramm der Komponenten einer Informationsverarbeitungsvorrichtung gemäß der Ausführungsform 8. Wie in 8 gezeigt, umfasst die Vorrichtung 800 eine erste Aufnahmeeinheit 801, eine zweite Aufnahmeeinheit 802 und eine Anpassungseinheit 803.
In dieser Ausführungsform wird die erste Aufnahmeeinheit zum Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion der Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes verwendet.
In dieser Ausführungsform wird die zweite Aufnahmeeinheit zum Aufnehmen eines Echtzeitbildes in Echtzeit durch die Bildaufnahmeregion der Bildaufnahmeregion einer Kamera des elektronischen Gerätes verwendet.
In dieser Ausführungsform wird die Anpassungseinheit zum Anpassen eines Steuerparameters des Mikrofons basierend auf dem Echtzeitbild, der Audioaufnahmeregion und der Bildaufnahmeregion verwendet, die voreingestellte Bedingungen erfüllen, so dass sich ein Soundeffekt während der Audioausgabe des Echtzeit-Sounds, der nach der Anpassung in Echtzeit aufgenommen wird, von einem Soundeffekt während einer Audioausgabe des Echtzeit-Sounds, der vor der Anpassung in Echtzeit aufgenommen wird, unterscheidet.
In einigen Ausführungsformen der vorliegenden Offenbarung umfasst die Vorrichtung ferner eine Anzeigeeinheit, die zum Anzeigen des Echtzeitbildes auf dem Anzeigebildschirm verwendet wird.
In einigen Ausführungsformen der vorliegenden Offenbarung werden unten einige Moden zum Realisieren der Anpassungseinheit bereitgestellt.
In Modus 1 umfasst die Anpassungseinheit ein erstes Akquisitionsmodul und ein erstes Anpassungsmodul, wobei das erste Akquisitionsmodul für ein Beziehen eines Variationsparameters für die Brennweite der Kamera verwendet wird; der Variationsparameter für die Brennweite der Kamera derart angenommen wird, dass sich die Größe eines Objektes in dem Echtzeitbild, das nach der Variation der Brennweite in Echtzeit der Kamera aufgenommen wird, von dem Objekt in dem Echtzeitbild unterscheidet, das vor der Variation der Brennweite der Kamera in Echtzeit aufgenommen wird; und das erste Anpassungsmodul zum Anpassen des Steuerparameters des Mikrofons verwendet wird, basierend auf dem Variationsparameter für die Brennweite der Kamera und der erste Steuerparameter zum Reduzieren des Umgebungsrauschens in dem Echtzeit-Sound und/oder zum Vergrößern des Zielsounds in dem Echtzeit-Sound verwendet wird.
In einigen Ausführungsformen umfasst das erste Anpassungsmodul ein Bestimmungshilfsmodul und ein Anpassungshilfsmodul, wobei das Bestimmungshilfsmodul für ein Bestimmen des SNR (Signal zu Rauschverhältnis) nach dem Anpassen gemäß des Brennweitenparameters der Kamera und voreingestellter Regeln verwendet wird, und das Anpassungshilfsmodul für ein Anpassen des SNR des Mikrofons gemäß dem angepassten SNR verwendet wird.
In Modus 2 umfasst die Anpassungseinheit ein drittes Akquisitionsmodul und ein zweites Anpassungsmodul, wobei das dritte Akquisitionsmodul verwendet wird, um einen Variationsparameter der Kamera in einer Brennweitenrichtung zu beziehen; der Variationsparameter der Kamera in der Brennweitenrichtung derart angenommen wird, dass sich ein Objekt in dem Echtzeitbild, das nach der Variation in der Brennweitenrichtung der Kamera in Echtzeit aufgenommen wird, von dem Objekt in dem Echtzeitbild unterscheidet, das vor der Variation in der Brennweitenrichtung der Kamera in Echtzeit aufgenommen wird; und das zweite Anpassungsmodul für ein Anpassen des zweiten Steuerparameters des Mikrofons basierend auf dem Variationsparameter der Kamera in der Brennweitenrichtung verwendet wird und der zweite Steuerparameter zum Anpassen der Audioaufnahmeregion des Mikrofons verwendet wird.
In Modus 3 umfasst die Anpassungseinheit ein viertes Akquisitionsmodul, ein Korrekturmodul und ein drittes Anpassungsmodul, wobei das vierte Akquisitionsmodul zum Beziehen eines Zielobjektes unter einer Vielzahl von Objekten in dem Echtzeitbild verwendet wird; das erste Korrekturmodul zum Korrigieren der Brennpunktzielparameter der Kamera entsprechend dem Zielobjekt verwendet wird; und das dritte Anpassungsmodul zum Anpassen des ersten Steuerparameters des Mikrofons basierend auf den fokussierenden Zielparametern der Kamera verwendet wird.
In Modus 4 umfasst die Anpassungseinheit ein fünftes Akquisitionsmodul, ein zweites Korrekturmodul und ein viertes Anpassungsmodul, wobei das fünfte Akquisitionsmodul für ein Beziehen eines Zielobjektes unter einer Vielzahl Objekten in dem Echtzeitbild verwendet wird; das zweite Korrekturmodul zum Ändern der Zielparameter der Kamera gemäß den Zielobjekten verwendet wird; die fokussierenden Zielparameter der Kamera derart angenommen werden, dass sich ein Zielobjekt in dem Echtzeitbild, das nach der Brennweitenvariation der Kamera in Echtzeit aufgenommen wird, von dem Zielobjekt in dem Echtzeitbild unterscheidet, das vor der Brennweitenvariation der Kamera in Echtzeit aufgenommen wird; und das vierte Anpassungsmodul für ein Anpassen des zweiten Steuerparameters des Mikrofons verwendet wird basierend auf den fokussierenden Zielparametern der Kamera und der zweite Steuerparameter zum Anpassen der Audioaufnahmeregion des Mikrofons verwendet wird.
In anderen Ausführungsformen der vorliegenden Offenbarung umfasst die Vorrichtung auch eine Speichereinheit, welche zum Speichern aller erfassten Echtzeit-Sounds auf dem Speichermedium in Form eines Audiofiles verwendet wird. Einige Ausführungsformen der Vorrichtung umfassen eine Speichereinheit, die alle erfassten Echtzeit-Sounds und alle erfassten Echtzeitbilder auf dem Speichermedium in Form eines Videofiles speichern.
Es sollte hier angemerkt werden, dass: die Beschreibung der obigen Vorrichtungsausführungsformen ähnlich zu der Beschreibung der obigen Verfahrensausführungsformen ist, welche ähnliche vorteilhafte Effekte der Verfahrensausführungsformen erreichen können, weshalb eine wiederholende Beschreibung hierin weggelassen wird. Mit Bezug auf die technischen Details, die in den Vorrichtungsausführungsformen in der vorliegenden Offenbarung nicht offenbart werden, ist für ein besseres Verständnis bitte auf die Beschreibung der Verfahrensausführungsformen der vorliegenden Offenbarung Bezug zu nehmen. Der Kürze wegen, werden diese hierin nicht wiederholt.
Eine Ausführungsform 9 wird nun beschrieben.
Basierend auf den obigen Ausführungsformen stellt die Ausführungsform der vorliegenden Offenbarung eine Informationsverarbeitungsvorrichtung bereit, wobei jede Einheit, die in der Vorrichtung enthalten ist, durch einen Prozessor in dem elektronischen Gerät realisiert sein kann, wobei diese natürlich auch durch eine spezifische Logikschaltung realisiert sein kann. In den Prozessen der spezifischen Ausführungsformen kann der Prozessor eine zentrale Verarbeitungseinheit (CPU), eine Mikroprozessoreinheit (MPU), ein digitaler Signalprozessor (DSP) oder ein Field Programmable Gatearray (FPGA) oder dergleichen sein.
9 ist ein strukturelles schematisches Diagramm der Komponenten einer Informationsverarbeitungsvorrichtung gemäß Ausführungsform 9. Wie in 9 gezeigt, umfasst die Vorrichtung 900 eine dritte Aufnahmeeinheit 901, eine Akquisitionseinheit 902, eine Bestimmungseinheit 903 und eine Ausführungseinheit 904.
Die dritte Aufnahmeeinheit 901 wird zum Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion der Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes verwendet.
Die Akquisitionseinheit 902 wird verwendet, um einen Eingabevorgang zu beziehen, wobei der Eingabevorgang eine Operation eines Nutzers mit Bezug auf den Echtzeit-Sound ist.
Die Bestimmungseinheit 903 wird zum Bestimmen eines Steuerkommandos entsprechend dem Eingabevorgang verwendet, und das Steuerkommando wird zum Steuern eines Abstands zwischen der Sound-Quelle des Sounds, der durch das Mikrofon aufgenommen wird, und dem elektronischen Gerät verwendet.
Die Ausführungseinheit 904 wird zum Ausführen des Steuerkommandos verwendet, so dass sich ein Abstandseffekt während der Audioausgabe des Echtzeit-Sounds, der nach dem Ausführen des Steuerkommandos in Echtzeit aufgenommen wird, von einem Abstandseffekt während der Audioausgabe des Echtzeit-Sounds unterscheidet, der vor dem Ausführen des Steuerkommandos in Echtzeit aufgenommen wird.
Es sollte hier angemerkt werden, dass: die Beschreibung der obigen Vorrichtungsausführungsformen ähnlich zu der Beschreibung der obigen Verfahrensausführungsformen ist, welche ähnliche vorteilhafte Effekte der Verfahrensausführungsformen erreichen können, weshalb eine wiederholende Beschreibung hierin weggelassen wird. Mit Bezug auf die technischen Details, die in den Vorrichtungsausführungsformen in der vorliegenden Offenbarung nicht offenbart werden, ist für ein besseres Verständnis bitte auf die Beschreibung der Verfahrensausführungsformen der vorliegenden Offenbarung Bezug zu nehmen. Um die Beschreibung kurz zu machen, werden diese hierin nicht wiederholt.
Ausführungsform 10 wird nun beschrieben.
Basierend auf den obigen Ausführungsformen stellt die Ausführungsform der vorliegenden Offenbarung eine Informationsverarbeitungsvorrichtung bereit. 10 ist ein schematisches strukturelles Diagramm eines elektronischen Gerätes gemäß der Ausführungsform 10. Wie in 10 gezeigt, umfasst das elektronische Gerät 1000 ein Mikrofon 1001, eine Kamera 1002 und einen Prozessor 1003.
Der Prozessor 1003 nimmt einen Echtzeit-Sound auf und speichert diesen in Echtzeit durch die Audioaufnahmeregion der Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes zwischen.
Der Prozessor 1003 nimmt ein Echtzeitbild in Echtzeit durch die Bildaufnahmeregion einer Kamera eines elektronischen Gerätes auf.
Der Prozessor 1003 passt einen Steuerparameter des Mikrofons basierend auf dem Echtzeitbild an, wobei die Audioaufnahmeregion und die Bildaufnahmeregion voreingestellte Bedingungen erfüllen, so dass sich ein Soundeffekt während der Audioausgabe des Echtzeitsounds, der nach der Anpassung in Echtzeit aufgenommen wird, von einem Soundeffekt während der Audioausgabe des Echtzeitsounds, der vor der Anpassung in Echtzeit aufgenommen wird, unterscheidet.
In anderen Ausführungsformen der vorliegenden Offenbarung wird der Prozessor 1003 ferner zum Anzeigen des Echtzeitbildes auf dem Anzeigebildschirm verwendet.
In anderen Ausführungsformen der vorliegenden Offenbarung passt der Prozessor 1003 den Steuerparameter des Mikrofons basierend auf dem Echtzeitbild an, was ein Beziehen eines Variationsparameters für die Brennweitenlänge der Kamera umfasst; wobei der Variationsparameter für die Brennweitenlänge der Kamera derart angenommen wird, dass sich die Größe eines Objektes in dem Echtzeitbild, das nach der Variation der Brennweitenlänge der Kamera in Echtzeit aufgenommen wird, von dem Objekt in dem Echtzeitbild, das vor der Variation der Brennweitenlänge der Kamera in Echtzeit aufgenommen wird, unterscheidet.
Der Prozessor 1003 passt den ersten Steuerparameter des Mikrofons basierend auf dem Variationsparameter für die Brennweitenlänge der Kamera an, wobei der erste Steuerparameter zum Reduzieren des Umgebungsrauschens in dem Echtzeit-Sound verwendet wird und/oder zum Erhöhen des Zielsounds in dem Echtzeit-Sound.
In anderen Ausführungsformen der vorliegenden Offenbarung umfasst der Schritt des Anpassens des ersten Steuerparameters des Mikrofons basierend auf dem Variationsparameter für die Brennweitenlänge der Kamera ein Bestimmen des SNR (Signal zu Rauschverhältnis) nach dem Anpassen gemäß der Brennweitenparameter der Kamera und voreingestellten Regeln; und ein Anpassen des SNR des Mikrofons gemäß dem angepassten SNR.
In anderen Ausführungsformen der vorliegenden Offenbarung umfasst der Schritt des Anpassens des Steuerparameters des Mikrofons basierend auf dem Echtzeitbild ein Beziehen eines Variationsparameters der Kamera in einer Brennweitenrichtung; wobei der Variationsparameter der Kamera in der Brennweitenrichtung übernommen wird, so dass sich ein Objekt in dem Echtzeitbild, das nach der Variation in der Brennweitenrichtung der Kamera in Echtzeit aufgenommen wird, von dem Objekt in dem Echtzeitbild unterscheidet, das vor der Variation in der Brennweitenrichtung der Kamera in Echtzeit aufgenommen wird; und ein Anpassen eines zweiten Steuerparameters des Mikrofons basierend auf dem Variationsparameter der Kamera in der Brennweitenrichtung, wobei der zweite Steuerparameter für ein Anpassen der Audioaufnahmeregion des Mikrofons verwendet wird.
In anderen Ausführungsformen der vorliegenden Offenbarung umfasst das Anpassen des Steuerparameters des Mikrofons basierend auf dem Echtzeitbild ein Beziehen eines Zielobjektes unter einer Vielzahl von Objekten in dem Echtzeitbild; ein Ändern der fokussierenden Zielparameter der Kamera entsprechend dem Zielobjekt; und ein Anpassen des ersten Steuerparameters des Mikrofons basierend auf den fokussierenden Zielparametern der Kamera.
In anderen Ausführungsformen der vorliegenden Offenbarung umfasst das Anpassen des Steuerparameters des Mikrofons basierend auf dem Echtzeitbild ein Beziehen eines Zielobjektes unter einer Vielzahl von Objekten in dem Echtzeitbild; ein Ändern der fokussierenden Zielparameter der Kamera entsprechend den Zielobjekten, wobei die fokussierenden Zielparameter der Kamera übernommen werden, so dass sich ein Zielobjekt in dem Echtzeitbild, das nach der Brennweitenvariation der Kamera in Echtzeit aufgenommen wird, von dem Zielobjekt in dem Echtzeitbild unterscheidet, das vor der Brennweitenvariation der Kamera in Echtzeit aufgenommen wird; und ein Anpassen des zweiten Steuerparameters des Mikrofons basierend auf den fokussierenden Zielparametern der Kamera, wobei der zweite Steuerparameter für ein Anpassen der Audioaufnahmeregion des Mikrofons verwendet wird.
In einigen Ausführungsformen der vorliegenden Offenbarung speichert der Prozessor 1003 auch alle erfassten Echtzeit-Sounds auf einem Speichermedium in Form eines Audiofiles. In einigen Ausführungsformen speichert der Prozessor 1003 alle erfassten Echtzeit-Sounds und alle erfassten Echtzeitbilder auf einem Speichermedium in Form eines Videofiles.
Es sollte hier angemerkt werden, dass die Beschreibung der obigen Ausführungsformen des elektronischen Gerätes oben ähnlich zu der obigem Verfahrensbeschreibung ist, und gleiche vorteilhafte Effekte der Verfahrensausführungsformen erreichen kann, weshalb eine wiederholende Beschreibung hierin weggelassen wird. Mit Bezug auf die technischen Details, die in den elektronischen Geräteausführungen in der vorliegenden Offenbarung nicht offenbart werden, kann sich ein Fachmann der Technik für ein besseres Verständnis auf die Beschreibung der Verfahrensausführungsformen der vorliegenden Offenbarung beziehen. Der Kürze wegen, werden diese hierin nicht wiederholt.
Eine Ausführungsform 11 wird nun beschrieben.
Basierend auf den Ausführungsformen, die oben erwähnt werden, stellt die Ausführungsform der vorliegenden Offenbarung ein elektronisches Gerät bereit, umfassend: ein Mikrofon und einen Prozessor, wobei der Prozessor ferner verwendet wird zum: Aufnehmen und Cachen eines Echtzeit-Sounds in Echtzeit durch die Audioaufnahmeregion eines Mikrofons eines elektronischen Gerätes; Beziehen eines Eingabevorgangs, wobei der Eingabevorgang eine Operation eines Nutzers mit Bezug auf den Echtzeit-Sound ist; Bestimmen eines Steuerkommandos gemäß des Eingabevorgangs, wobei das Steuerkommando zum Steuern eines Abstands zwischen der Sound-Quelle des Sounds, der durch das Mikrofon aufgenommen wird, und dem elektronischen Gerät verwendet wird; und Ausführen des Steuerkommandos, so dass sich ein Abstandseffekt während der Audioausgabe des Echtzeit-Sounds, der nach dem Ausführen des Steuerkommandos in Echtzeit aufgenommen wird, von einem Abstandseffekt während der Audioausgabe des Echtzeit-Sounds, der vor dem Ausführen des ersten Steuerkommandos in Echtzeit aufgenommen wird, unterscheidet.
Zum Beispiel kann der Eingabevorgang das Sound-Aufnahmeteil des Mikrofons durch eine mechanische Struktur ausdehnen, um näher an das Zielobjekt zu gelangen (zum Beispiel einen Zielnutzer A), um Sound in Echtzeit in einem nicht-flüchtigen Speichermedium in Form eines Audiofiles zu speichern, welches durch eine Soundausgabevorrichtung wie einen Lautsprecher ausgegeben werden kann, um einen Soundeffekt zu erreichen, der nahe zu dem Nutzer A ist. Auf gleiche Weise kann der Eingabevorgang auch ein Zurückziehen des Sound-Aufnahmeteils des Mikrofons sein, so dass es sich weiter weg von dem Zielobjekt (zum Beispiel einem Zielnutzer A) befindet und kann der Sound, der in Echtzeit aufgenommen wird, in einem nicht-flüchtigen Speichermedium wie in einem Audiofile gespeichert werden, welches durch eine Sound-Ausgabevorrichtung wie einem Lautsprecher ausgegeben werden kann, um einen Soundeffekt zu erreichen, der weg von dem Nutzer A ist.
Derartige Ausführungsformen können auch den gleichen Effekt der vorliegenden Ausführungsform mit dem Verfahren der oben erwähnten Ausführungsform unter Verwenden von Software erreichen, um den Aufnahmeparameter anzupassen. Zum Beispiel kann der Eingabevorgang ein erster gleitender Vorgang sein, wobei die Richtung im Wesentlichen die Richtung auf das Zielobjekt zu (zum Beispiel den Zielnutzer A), das aufzunehmen ist, sein kann. Das elektronische Gerät erzeugt dann einen ersten Steuerparameter gemäß dem ersten Gleitvorgang und das elektronische Gerät vergrößert den Zielsound des Zielobjektes in Echtzeit-Sounds und reduziert das Hintergrund/Umgebungsrauschen in Reaktion auf den ersten Steuerparameter. Somit kann es den Nutzer in die Lage versetzen zu fühlen, dass das Zielobjekt näher dran ist, wenn der Nutzer das Audiofile (wobei der Echtzeit-Sound, der in Echtzeit erfasst wird, vollständig gespeichert wurde) oder das Videofile (wobei der Echtzeit-Sound, der in Echtzeit erfasst wird, vollständig gespeichert wurde) wiedergibt. Das bedeutet, der Effekt, in dem das Sound-Aufnahmeteil eines Mikrofons sich derart erstreckt, um nahe an das Zielobjekt zu kommen, kann durch die technischen Mittel einer Software simuliert werden.
Mit dem gleichen Prinzip kann der Eingabevorgang ein zweiter gleitender Vorgang sein, dessen Richtung die Richtung weit weg von dem aufzunehmenden Zielobjekt (zum Beispiel dem Zielnutzer A) sein kann. Das elektronische Gerät kann dann zum Erzeugen eines Soundsteuerparameters gemäß dem zweiten Gleitvorgang und zum Mischen des Sounds und des Hintergrund/Umgebungsrauschens in Reaktion auf die zweiten Steuerparameter verwendet werden, so dass der Sound des Zielobjektes in dem Echtzeit-Sound und das Hintergrund/Umgebungsrauschen gemischt werden, und es dem Nutzer entsprechend ermöglicht wird zu fühlen, dass das Zielobjekt aus einem Abstand spricht, während das Audiofile (wobei der Echtzeit-Sound, der in Echtzeit aufgenommen ist, vollständig gespeichert wurde) oder Videofile (wobei der Echtzeit-Sound, der in Echtzeit aufgenommen ist, vollständig gespeichert wurde) wiedergegeben wird. Mit anderen Worten kann der Effekt, bei dem das Sound-Aufnahmeteil des Mikrofons sich weit weg von dem Zielobjekt zurückzieht, durch die technischen Mittel einer Software simuliert werden.
Die obigen Ausführungsformen werden nur zum Darstellen der vorliegenden Offenbarung verwendet und sind nicht dazu beabsichtigt, den Schutzumfang der vorliegenden Offenbarung zu begrenzen. Verschiedene Modifikationen und Ersetzungen, die bereits von dem Fachmann der Technik innerhalb der technischen Offenbarung der vorliegenden Offenbarung abgeleitet werden, können in den Schutzumfang der vorliegenden Offenbarung fallen. Dementsprechend ist der Schutzumfang der vorliegenden Offenbarung durch die Ansprüche definiert.
Was beansprucht wird, ist:

Claims

Verfahren, umfassend: Aufnehmen (S201) eines Audios mit einem Mikrofon eines elektronischen Gerätes; Cachen (S201) des aufgenommenen Audios in Echtzeit; Erfassen (S202) eines Echtzeitbildes mit einer Kamera des elektronischen Gerätes; und Anpassen (S204) eines Steuerparameters des Mikrofons basierend auf dem Echtzeitbild; wobei das Anpassen (S204) ein Beziehen (S203) eines Variationsparameters einer Brennweite der Kamera und ein Anpassen eines ersten Steuerparameters des Mikrofons basierend auf dem Variationsparameter der Brennweite der Kamera umfasst; und wobei das Anpassen des ersten Steuerparameters ein Bestimmen eines gewünschten Signal- zu Rauschverhältnisses entsprechend dem Variationsparameter der Brennweite der Kamera und voreingestellten Regeln sowie ein Anpassen eines Signalzu Rauschverhältnisses des Mikrofons basierend auf dem gewünschten Signal- zu Rauschverhältnis umfasst, wobei gemäß einer Abbildungsbeziehungstabelle das Signalzu Rauschverhältnis erhöht wird, wenn der Variationsparameter der Brennweite steigt.
Verfahren nach Anspruch 1, ferner umfassend: Anzeigen des Echtzeitbildes auf einem Anzeigebildschirm.
Verfahren nach Anspruch 1, wobei das Anpassen (S204) eines Steuerparameters des Mikrofons, das auf dem Echtzeitbild basiert, umfasst: Beziehen eines Zielobjektes in dem Echtzeitbild, Ändern der fokussierenden Zielparameter der Kamera basierend auf dem Ort des Zielobjektes, und Anpassen eines zweiten Steuerparameters des Mikrofons basierend auf den fokussierenden Zielparametern der Kamera; der zweite Steuerparameter eine Audioaufnahmeregion des Mikrofons anpasst.
Verfahren nach Anspruch 1, wobei der erste Steuerparameter das Umgebungsrauschen in dem Audio reduziert.
erfahren nach Anspruch 1, wobei der erste Steuerparameter einen Zielsound in dem Audio verstärkt.
Verfahren nach Anspruch 1, wobei das Anpassen (S204) eines Steuersignals des Mikrofons basierend auf dem Echtzeitbild, umfasst: ein Beziehen eines Variationsparameters der Kamera in eine Brennweitenrichtung, und ein Anpassen eines dritten Steuerparameters des Mikrofons basierend auf dem Variationsparameter der Kamera in der Brennweitenrichtung, wobei der dritte Steuerparameter eine Audioaufnahmeregion des Mikrofons anpasst.
Verfahren nach Anspruch 1, ferner umfassend: Speichern aller erfassten Audios auf einem Speichermedium in Form eines Audiofiles.
Verfahren nach Anspruch 1, ferner umfassend: Cachen des Echtzeitbildes in Echtzeit; und Speichern aller erfassten Audios und aller erfassten Echtzeitbilder auf einem Speichermedium in Form eines Videofiles.
Vorrichtung (1000), umfassend: ein Mikrofon (1001), das ein Audio in Echtzeit aufnimmt, eine Kamera (1002), die ein Echtzeitbild aufnimmt; und einen Prozessor (1003), der das aufgenommene Audio in Echtzeit cached, und einen Steuerparameter des Mikrofons (1001) basierend auf dem Echtzeitbild anpasst; wobei der Prozessor (1003) den Steuerparameter des Mikrofons (1001) basierend auf dem Echtzeitbild durch ein Beziehen eines Variationsparameters einer Brennweite der Kamera (1002) und ein Anpassen eines ersten Steuerparameters des Mikrofons (1001) basierend auf dem Variationsparameter der Brennweite der Kamera (1002) anpasst; und wobei der Prozessor (1003) den ersten Steuerparameter durch ein Bestimmen eines gewünschten Signal- zu Rauschverhältnisses gemäß dem Variationsparameter der Brennweite der Kamera (1002) und voreingestellter Regeln sowie ein Anpassen eines Signal- zu Rauschverhältnisses des Mikrofons (1001) basierend auf dem gewünschten Signal- zu Rauschverhältnis anpasst, wobei gemäß einer Abbildungsbeziehungstabelle das Signal- zu Rauschverhältnis erhöht wird, wenn der Variationsparameter der Brennweite steigt.
Vorrichtung (1000) nach Anspruch 9, ferner umfassend: einen Anzeigebildschirm, wobei der Anzeigebildschirm das Echtzeitbild anzeigt.
Vorrichtung (1000) nach Anspruch 9, wobei der Prozessor (1003) den Steuerparameter des Mikrofons (1001) basierend auf dem Echtzeitbild anpasst durch: ein Beziehen eines Zielobjektes in dem Echtzeitbild, ein Ändern der fokussierenden Zielparameter der Kamera (1002) basierend auf dem Ort des Zielobjektes, und ein Anpassen eines zweiten Steuerparameters des Mikrofons (1001) basierend auf den fokussierenden Zielparametern der Kamera (1002), wobei der zweite Steuerparameter eine Audioaufnahmeregion des Mikrofons (1001) vorgibt.
Vorrichtung (1000) nach Anspruch 9, wobei der erste Steuerparameter die Größe eines Umgebungsrauschens in dem Audio und die Größe der Verstärkung eines Zielsounds in dem Audio vorgibt.
Vorrichtung (1000) nach Anspruch 9, wobei der Prozessor (1003) einen Steuerparameter des Mikrofons (1001) basierend auf dem Echtzeitbild anpasst durch: ein Beziehen eines Variationsparameters der Kamera (1002) in einer Brennweitenrichtung; und ein Anpassen eines dritten Steuerparameters des Mikrofons (1001) basierend auf dem Variationsparameter der Kamera (1002) in der Brennweitenrichtung; wobei der dritte Steuerparameter eine Audioaufnahmeregion des Mikrofons (1001) anpasst.
Vorrichtung (1000) nach Anspruch 9, ferner umfassend ein Speichermedium, wobei der Prozessor (1003) alle erfassten Audios auf dem Speichermedium in Form eines Audiofiles speichert.
Vorrichtung (1000) nach Anspruch 9, ferner umfassend ein Speichermedium, wobei der Prozessor (1003) das Echtzeitbild in Echtzeit erfasst und alle erfassten Audios und alle erfassten Echtzeitbilder auf einem Speichermedium in Form eines Videofiles speichert.