DE602005006217T2

DE602005006217T2 - Audiosignalverarbeitungsvorrichtung und -programm

Info

Publication number: DE602005006217T2
Application number: DE602005006217T
Authority: DE
Inventors: Hideki Kemmochi; Jordi Bonada
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-11-19
Filing date: 2005-11-14
Publication date: 2009-05-14
Anticipated expiration: 2025-11-15
Also published as: US8170870B2; EP1659569B1; JP4701684B2; DE602005006217D1; EP1659569A1; JP2006145867A; US20060111903A1

Description

Hintergrund der Erfindung
[Technisches Gebiet]
Die vorliegende Erfindung bezieht sich auf das technische Gebiet der Bearbeitung eines Audiosignals und insbesondere auf eine Technik zum Hinzufügen von Effekten zum Audiosignal zum Ausgeben eines resultierenden Signals.
[Hintergrund der Erfindung]
Herkömmlicherweise wurden verschiedene Arten von Techniken zum Erzeugen einer Stimme mit gewünschten Charakteristiken vorgeschlagen. Zum Beispiel offenbart die japanische nicht geprüfte Patentveröffentlichung (Kokai) Nr. 2002-202790 (Absätze 0049 und 0050) eine Technik zum Synthetisieren der sogenannten heiseren Stimme. Gemäß dieser Technik werden durch Durchführen einer SMS-Analyse (Spectrum Modeling Synthesis) am Audiosignal, das eine spezifische Stimme auf Rahmenbasis darstellt, eine harmonische Komponente und eine nicht harmonische Komponente als Daten im Frequenzbereich erzeugt, um einen Stimmabschnitt (ein Phonem oder eine Phonemkette) zu erzeugen. Wenn die Stimme nun tatsächlich synthetisiert wird, nachdem die Stimmabschnitte, die zum Beispiel einem bestimmten Vokalklang (z. B. Liedtexten) entsprechen, miteinander verbunden werden, wird eine Addierung der harmonischen Komponente und der nichtharmonischen Komponente durchgeführt und dann für jeden Rahmen eine reverse schnelle Fourier-Transformationsverarbeitung an einem Ergebnis dieser Addition durchgeführt, wodurch ein Audiosignal erzeugt wird. Gemäß dieser Konfiguration wird ein Merkmal der nicht harmonischen Komponente, die zur harmonischen Komponente addiert wird, entsprechend geändert, um das Erzeugen des Audiosignals mit den gewünschten Eigenschaften, wie zum Beispiel der heiseren Stimme, zu erlauben.
Übrigens kann sich wie bei einer echten menschlichen Stimme eine Periode der Wellenform in jedem Augenblick unregelmäßig ändern. Diese Tendenz ist insbesondere bei individuellen Stimmen, wie zum Beispiel einer rauen oder harschen Stimme (der sogenannten krächzenden Stimme), zu bemerken. Gemäß der herkömmlichen oben beschriebenen Technik wird jedoch, da die Stimme durch das Verarbeiten im Frequenzbereich für jeden Rahmen synthetisiert wird, die Periode dieses synthetisierten Audiosignals unvermeidlich für jeden Rahmen konstant gehalten. Dadurch entsteht dahingehend ein Problem, dass die unter der Verwendung dieser Technik erzeugte Stimme als Ergebnis eine mechanische und unnatürliche Stimme ergibt, was an weniger Veränderungen in der Periode liegt, als sie bei der echten menschlichen Stimme vorkommen. Es sollte dabei bemerkt werden, dass der Fall des Synthetisierens der Stimme durch Verbinden der Stimmsegmente hier als ein Beispiel beschrieben wurde, jedoch auf ein gleiches Problem auch bei einer Technik des Änderns der Charakteristiken der Stimme, die ein Benutzer abgibt, und zum Ausgeben einer resultierenden Stimme getroffen wird. Wie ersichtlich ist, wird auch bei dieser Technik das Audiosignal, das von einer Klangaufnahmevorrichtung, wie zum Beispiel einem Mikrofon, geliefert wird, für jeden Rahmen in Daten im Frequenzbereich umgewandelt, und wird für jeden Rahmen nach dem entsprechenden Ändern der Frequenzcharakteristiken das Audiosignal im Zeitbereich erzeugt, so dass die Periode der Stimme in einem Rahmen konstant gehalten wird. Daher besteht auch gemäß dieser Technik, ähnlich wie bei der Technik, die in der japanischen nicht geprüften Patentveröffentlichung (Kokai) Nr. 2002-202790 offenbart ist, eine Grenze für das Erzeugen einer natürlichen Stimme, die der tatsächlichen menschlichen Stimme nahe kommt.
Die Druckschrift US 5,381,514 offenbart ein Verfahren zum Verbessern der Qualität stimmloser synthetisierter Sprache durch Kombinieren der Wellenform mit einer verzögerten Version von dieser. Die Verzögerung wird zufällig festgelegt, und die verzögerte Wellenform wird durch eine Zufallsverstärkung skaliert.
Eine weitere Druckschrift US 5,763,803 offenbart ein System, das zum Anwenden eines Effekts auf ein von einer elektrischen Gitarre erzeugtes Signal geeignet ist. Der Klang wird um einen von der Tonhöhe und der Amplitude abhängigen Faktor verzögert.
Eine weitere Druckschrift US 2004/0136546 A1 offenbart einen Chorus-Effekt-Generator. Die Chorus-Verzögerung wird durch den Benutzer eingestellt.
Zusammenfassung der Erfindung
Die vorliegende Erfindung wurde angesichts der oben beschriebenen Situation gemacht und ist auf das Erzeugen einer natürlichen Stimme mit verschiedenen Charakteristiken gerichtet.
Um das Problem zu lösen, weist ein erstes Merkmal einer Audiosignalbearbeitungsvorrichtung gemäß Anspruch 1 der vorliegenden Erfindung Folgendes auf: einen Erzeugungsabschnitt, der ein Audiosignal erzeugt, das eine Stimme repräsentiert; einen Verteilungsabschnitt, der das vom Erzeugungsabschnitt erzeugte Audiosignal auf einen ersten Kanal bzw. einen zweiten Kanal verteilt; einen Verzögerungsabschnitt, der das Audiosignal des zweiten Kanals relativ zum Audiosignal des zweiten Signals verzögert, so dass zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals eine Phasendifferenz eine Dauer haben kann, die einem addierten Wert oder einem Differenzwert einer ersten Dauer, die ungefähr die Hälfte einer Periode des vom Erzeugungsabschnitt erzeugten Audiosignals ist, und einer zweiten Dauer, die kürzer als die erste Dauer eingestellt wird (genauer gesagt, kürzer als ungefähr eine Hälfte der ersten Dauer eingestellt wird), entspricht; und einen Additionsabschnitt, der das Audiosignal des ersten Kanals mit dem Audiosignal des zweiten Kanals miteinander addiert, dem die Phasendifferenz vom Verzögerungsabschnitt gegeben wird, um ein addiertes Audiosignal auszugeben. Übrigens wird ein spezifisches Beispiel dieser Konfiguration später als eine erste Ausführungsform beschrieben.
Gemäß dieser Konfiguration resultieren, da das Audiosignal des ersten Kanals relativ zum Audiosignal des zweiten Kanals verzögert wird, so dass die Phasendifferenz zwischen den Audiosignalen, die auf die entsprechenden Kanäle verzweigt werden, die Phasendifferenz gemäß dem addierten Wert oder dem Differenzwert zwischen der ersten Dauer, die ungefähr eine Hälfte der Periode des Audiosignals sein kann, das vom Erzeugungsabschnitt erzeugt wird, und die zweite Dauer, die kürzer als die erste Dauer eingestellt wird, das durch Addieren der Audiosignale der entsprechenden Kanäle erhaltene Audiosignal in einer Wellenform, in der die Periode für jede einzelne Wellenform geändert wird. Deshalb kann gemäß der vorliegenden Erfindung eine natürliche Stimme, die die heisere Stimme eines echten menschlichen Wesens imitiert, sowie auch eine raue oder harsche Stimme erzeugt werden.
Es wird darauf hingewiesen, dass der Verzögerungsabschnitt gemäß der vorliegenden Erfindung durch einen Verzögerungsabschnitt (z. B. siehe 12) oder auch durch eine Vielzahl von Verzögerungsabschnitten dargestellt werden kann, die der ersten Dauer bzw. der zweiten Dauer entsprechen. In der letzteren Konfiguration weist der Verzögerungsabschnitt einen ersten Verzögerungsabschnitt (zum Beispiel einen Verzögerungsabschnitt 31 in 4) zum Verzögern des Audiosignals des ersten Kanals relativ zum Audiosignal des zweiten Kanals um die erste Dauer auf, die ein Verzögerungsdauerberechnungsabschnitt berechnet, sowie einen zweiten Verzögerungsabschnitt (zum Beispiel einen Verzögerungsabschnitt 32 in 4) zum Verzögern des Audiosignals des ersten Kanals relativ zum Audiosignal des zweiten Kanals, um die zweite Dauer, die kürzer als die erste Dauer eingestellt wird.
Gemäß einem bevorzugten Aspekt der vorliegenden Erfindung weist die Audiosignalbearbeitungsvorrichtung ferner Folgendes auf: einen Amplitudenfeststellungsabschnitt zum Feststellen einer Amplitude des Audiosignals, das vom Erzeugungsabschnitt erzeugt wird, wobei der Verzögerungsabschnitt die zweite Dauer auf der Grundlage der vom Amplitudenfeststellungsabschnitt festgestellten Amplitude ändert. Gemäß diesem Aspekt wird die zweite Dauer auf der Grundlage der Amplitude des Audiosignals geändert, das vom Erzeugungsabschnitt erzeugt wird, um dadurch die Charakteristiken der echten Stimme genau nachzubilden. Wenn zum Beispiel die zweite Dauer länger gemacht wird, während die Amplitude des vom Erzeugungsabschnitt erzeugten Audiosignals größer wird (nämlich, wenn die zweite Dauer kürzer gemacht wird, während die Amplitude des vom Erzeugungsabschnitt erzeugten Audiosignals kleiner wird), ist es möglich, eine Tendenz der Stimme zu realisieren, bei der, je lauter das Stimmvolumen wird, desto merklicher die Charakteristiken der rauen oder harschen Stimme sind. Ein spezifisches Beispiel dieses Aspekts wird später als ein zweiter Aspekt der ersten Ausführungsform beschrieben (5).
Gemäß noch einem weiteren Aspekt enthält die Audiosignalbearbeitungsvorrichtung ferner einen Steuerabschnitt, der Daten zum Festlegen der zweiten Dauer empfängt und die zweite Dauer, die durch diese Daten festgelegt wird, im Verzögerungsabschnitt einstellt. Gemäß diesem Aspekt können durch entsprechendes Auswählen von Einzelheiten der Daten die Charakteristiken als die raue oder harsche Stimme automatisch zu einer bestimmten Zeit geändert werden.
Ein spezifisches Beispiel für diesen Aspekt wird später als ein dritter Aspekt der ersten Ausführungsform beschrieben (7).
Gemäß noch einem weiteren Aspekt weist die Audiosignalbearbeitungsvorrichtung ferner einen Verstärkungsabschnitt zum Einstellen eines Verstärkungsverhältnisses zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals auf, wobei der Additionsabschnitt die Audiosignale des ersten Kanals und des zweiten Kanals nach deren Einstellung durch den Verstärkungsabschnitt addiert, um ein addiertes Audiosignal auszugeben. Gemäß diesem Aspekt kann durch entsprechendes Einstellen des Verstärkungsverhältnisses zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals die raue oder harsche Stimme mit gewünschten Charakteriken ausgegeben werden. Übrigens kann ein Verfahren zum Auswählen der im Verstärkungsabschnitt eingestellten Verstärkung auch willkürlich verwendet werden. Zum Beispiel kann er in einer solchen Weise konfiguriert sein, dass die festgelegte Verstärkung im Verstärkungsabschnitt durch eine Eingabevorrichtung auf der Grundlage einer Betätigung durch den Benutzer eingestellt wird, oder dass der Amplitudenfeststellungsabschnitt zum Feststellen der Amplitude des vom Erzeugungsabschnitt erzeugten Audiosignals die Verstärkung des Verstärkungsabschnitts gemäß dieser festgestellten Amplitude einstellt.
Ein zweites Merkmal einer Audiosignalbearbeitungsvorrichtung nach Anspruch 6 der vorliegenden Erfindung enthält Folgendes: einen Erzeugungsabschnitt, der ein Audiosignal erzeugt, das eine Stimme repräsentiert; einen Verteilungsabschnitt, der das vom Erzeugungsabschnitt erzeugte Audiosignal auf einen ersten Kanal bzw. einen zweiten Kanal verteilt; einen Verzögerungsabschnitt, der das Audiosignal des ersten Kanals relativ zum Audiosignal des zweiten Signals verzögert, so dass die zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals erzeugte Phasendifferenz eine Dauer hat, die ungefähr eine Hälfte einer Periode des vom Erzeugungsabschnitt erzeugten Audiosignals ist; einen Verstärkungsabschnitt, der eine Amplitude des Audiosignals des ersten Kanals mit der Zeit variiert; und einen Additionsabschnitt zum Addieren der Audiosignale des ersten Kanals und des zweiten Kanals, nachdem diese der Bearbeitung durch den Verzögerungsabschnitt und den Verstärkungsabschnitt unterzogen wurden, um ein addiertes Audiosignal auszugeben. Übrigens wird ein spezifisches Beispiel für diese Konfiguration später als eine zweite Ausführungsform beschrieben.
Gemäß dieser Konfiguration ändert sich die Amplitude des Audiosignals des ersten Kanals, das relativ zum Audiosignal des zweiten Kanals um die Dauer verzögert wird, mit der Zeit. Zum Beispiel wird die Amplitude des Audiosignals des ersten Kanals mit dem Verstreichen der Zeit erhöht, so dass es möglich ist, eine natürliche Stimme zu erzeugen, die allmählich von einer ursprünglichen Tonhöhe des Audiosignals, das vom Erzeugungsabschnitt erzeugt wird, mit dem Verstreichen der Zeit auf eine Zieltonhöhe verschoben wird, die doppelt so hoch ist (die nämlich um eine Oktave höher ist). Hierbei ist zu beachten, dass die Tonhöhe in der vorliegenden Erfindung eine Grundfrequenz der Stimme bedeutet.
In einem weiteren Aspekt der Audiosignalbearbeitungsvorrichtung mit dem zweiten Merkmale ist ferner ein Amplitudenfeststellungsabschnitt zum Feststellen einer Amplitude des vom Erzeugungsabschnitt erzeugten Audiosignals vorgesehen, wobei der Verstärkungsabschnitt die Amplitude des Audiosignals des ersten Kanals in Abhängigkeit von der Amplitude ändert, die vom Amplitudenfeststellungsabschnitt festgestellt wurde. Gemäß diesem Aspekt ist es, wenn der Erzeugungsabschnitt das Audiosignal erzeugt, dessen Amplitude allmählich von einem bestimmten Zeitpunkt an angehoben wird, möglich, eine derartige Stimme zu erzeugen, die sich allmählich einer Stimme nähert, deren Tonhöhe gegenüber der Anfangstonhöhe um eine Oktave höher ist (eine Tonhöhe des Audiosignals, das vom Erzeugungsabschnitt erzeugt wird). Ein spezifisches Beispiel dieses Aspekts wird später als ein erstes Beispiel der zweiten Ausführungsform beschrieben (siehe 8).
Es versteht sich, dass die Konfiguration zum Einstellen der Verstärkung des Verstärkungsabschnitts hierauf nicht eingeschränkt ist. Zum Beispiel ist gemäß einem weiteren Aspekt ein Steuerabschnitt vorgesehen, der Daten zum Festlegen der Verstärkung des Verstärkungsabschnitts empfängt und die von diesen Daten festgelegte Verstärkung für den Verstärkungsabschnitt einstellt. Bei diesem Aspekt ist es, wenn der Steuerabschnitt die vom Verstärkungsabschnitt festgelegte Verstärkung mit Verstreichen der Zeit auf der Grundlage der Daten erhöht, möglich, eine solche natürliche Stimme zu erzeugen, bei der die Stimme allmählich von der Anfangstonhöhe zur Tonhöhe, die um eine Oktave höher ist, verschoben wird. Ein spezifisches Beispiel für diesen Aspekt wird später als ein zweiter Aspekt der zweiten Ausführungsform beschrieben (10).
Gemäß einem spezifischen Aspekt der Audiosignalbearbeitungsvorrichtung mit dem ersten und dem zweiten Merkmal ist ein Verzögerungsgradberechnungsabschnitt zum Festlegen einer Periode (Periode T0 in 3) vorgesehen, die einer Zieltonhöhe (Tonhöhe P0 in 3) entspricht, als die erste Dauer im Verzögerungsabschnitt, wobei der Erzeugungsabschnitt ein Audiosignal mit einer Tonhöhe erzeugt, die ungefähr eine Hälfte der Zieltonhöhe beträgt. Gemäß diesem Aspekt kann eine Stimme erzeugt werden, die der Zieltonhöhe entspricht. Es versteht sich, dass ein Verfahren zum Auswählen der Zieltonhöhe und ein Verfahren zum Erzeugen des Audiosignals der Tonhöhe durch den Erzeugungsabschnitt willkürlich eingesetzt werden können. Zum Beispiel kann eine derartige Konfiguration eingesetzt werden, bei der der Erzeugungsabschnitt Daten zum Festlegen der Zieltonhöhe empfängt, um das Audiosignal derjenigen Tonhöhe zu synthetisieren, die ungefähr eine Hälfte der durch diese Daten festgelegten Tonhöhe entspricht (Tonhöhe Pa in 3), indem die Stimmsegmente verbunden werden, und der Verzögerungsgradberechnungsabschnitt eine Periode, die der durch die Daten festgelegten Tonhöhe entspricht, als die erste Dauer berechnet (erste und zweite Ausführungsform). Inzwischen berechnet in einer Konfiguration, die einen Tonhöhenerfassungsabschnitt zum Erfassen der Tonhöhe des Audiosignals enthält, das von einer Tonaufnahmevorrichtung geliefert wird, als die Zieltonhöhe, der Verzögerungsgradberechnungsabschnitt eine Periode, die der Tonhöhe entspricht, die vom Tonhöhenerfassungsabschnitt erfasst wurde, als die erste Dauer, und wandelt der Erzeugungsabschnitt die Tonhöhe des Audiosignals, das von der Tonaufnahmevorrichtung geliefert wird, in eine Tonhöhe um, die ungefähr einer Hälfte der Tonhöhe entspricht, die vom Tonhöhenerfassungsabschnitt erfasst wurde (zum Beispiel siehe 14). Eine natürliche Stimme mit verschiedenen Charakteristiken kann in einer beliebigen der beschriebenen Konfigurationen erzeugt werden.
Übrigens können bei der Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung das erste Merkmal und das zweite Merkmal entsprechend zusammen kombiniert werden. Zum Beispiel kann der Verzögerungsabschnitt der Audiosignalbearbeitungsvorrichtung gemäß dem zweiten Merkmal zum Verzögern des Audiosignals des ersten Kanals relativ zum Audiosignal des zweiten Kanals verwendet werden, so dass eine Phasendifferenz zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals eine Dauer haben kann, die dem addierten Wert entspricht, oder einem Differenzwert zwischen der ersten Dauer und der zweiten Dauer, die kürzer als die erste Dauer eingestellt wird, entspricht. Darüber hinaus ist die Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung so definiert, dass sie eine Konfiguration aufweist, bei der das Audiosignal auf den ersten Kanal und den zweiten Kanal verteilt wird, doch kann auch eine andere Konfiguration, bei der das Audiosignal, das vom Erzeugungsabschnitt erzeugt wird, auf mehrere Kanäle verteilt wird, im Umfang der vorliegenden Erfindung enthalten sein, wenn ein Kanal unter diesen als der erste Kanal und der andere Kanal als der zweite Kanal betrachtet wird.
Die Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung kann nicht nur durch Hardware, wie zum Beispiel einen DSP (digitalen Signalprozessor), der für die Audiosignalbearbeitung dediziert ist, praktisch umgesetzt werden, sondern auch durch eine Zusammenarbeit zwischen einem Computer, wie zum Beispiel einem PC, und Software. Ein Programm gemäß einem ersten Merkmal der vorliegenden Erfindung ist mit Befehlen ausgestattet, die dazu fähig sind, es einem Computer zu erlauben, einen Erzeugungsprozess zum Erzeugen eines Audiosignals auszuführen, das eine Stimme repräsentiert, einen Verzögerungsprozess zum Verzögern eines Audiosignals eines ersten Kanals relativ zu einem Audiosignal eines zweiten Kanals, so dass eine Phasendifferenz zwischen den Audiosignalen des ersten Kanals und dem Audiosignal des zweiten Kanals, auf welche das von der Erzeugungsverarbeitung erzeugte Audiosignal verteilt wird, eine Dauer haben kann, die einen addierten Wert oder einem Differenzwert zwischen einer ersten Dauer, die ungefähr die Hälfte einer Periode des Audiosignals beträgt, das vom Erzeugungsprozess erzeugt wird, und einer zweiten Dauer, die kürzer als die erste Dauer eingestellt wird, entspricht, sowie ein Additionsprozess zum Addieren der Audiosignale des ersten Kanals und des zweiten Kanals, denen die Phasendifferenz in der Verzögerungsverarbeitung gegeben wird, um ein addiertes Audiosignal auszugeben.
Gemäß einem weiteren Aspekt ist ein Computerprogramm nach Anspruch 11 vorgesehen.
Darüber hinaus ist ein Programm nach Anspruch 12 der vorliegenden Erfindung mit Befehlen ausgestattet, die dazu fähig sind, es einem Computer zu erlauben, die folgenden Prozesse auszuführen: einen Erzeugungsprozess zum Erzeugen eines Audiosignals, das eine Stimme repräsentiert, einen Verzögerungsprozess zum Verzögern eines Audiosignals eines ersten Kanals relativ zu einem Audiosignal eines zweiten Kanals, so dass eine Phasendifferenz zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals, auf welche das vom Erzeugungsprozess erzeugte Audiosignal verteilt wird, eine Dauer haben kann, die ungefähr einer Hälfte einer Periode des von der Erzeugungsverarbeitung erzeugten Audiosignals entspricht, einen Verstärkungsprozess zum Ändern einer Amplitude des Audiosignals des ersten Kanals mit der Zeit, und einen Additionsprozess zum Addieren des Audiosignals des ersten Kanals, das dem Verzögerungsprozess und dem Verstärkungsprozess unterliegt, und des Audiosignals des zweiten Kanals miteinander, um dadurch ein addiertes Audiosignal auszugeben. Ebenfalls gemäß diesem Programm können eine Funktion und ein Effekt erzielt werden, die mit denjenigen bei der Audiosignalbearbeitungsvorrichtung gemäß dem zweiten Merkmal der vorliegenden Erfindung identisch sind. Übrigens wird das erfindungsgemäße Programm einem Benutzer nicht nur in einer auf einem computerlesbaren Aufzeichnungsmedium aufgezeichneten Form, wie zum Beispiel einer CD-Rom, die auf dem Computer zu installieren ist, zur Verfügung gestellt, sondern auch von einer Servervorrichtung in der Form einer Verteilung über ein Netzwerk zur Verfügung gestellt, um dann im Computer installiert zu werden. Wie oben beschrieben, kann gemäß der vorliegenden Erfindung eine natürliche Stimme mit verschiedenen Charakteristiken erzeugt werden.
Kurze Beschreibung der Zeichnungen
Es zeigt:
1 eine Audiosignalwellenform, die eine raue bzw. harsche Stimme repräsentiert;
2 ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einer ersten Ausführungsform zeigt;
3 eine Audiosignalwellenform in Verbindung mit dem Bearbeitungsvorgang durch die Audiosignalbearbeitungsvorrichtung;
4 ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einem ersten Aspekt der ersten Ausführungsform zeigt;
5 ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einem zweiten Aspekt der ersten Ausführungsform zeigt;
6 eine Kurvendarstellung einer Beziehung zwischen der Amplitude des Audiosignals Sa und einer Dauer L2 im zweiten Aspekt der ersten Ausführungsform;
7 ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einem dritten Aspekt der ersten Ausführungsform zeigt;
8 ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einem ersten Aspekt einer zweiten Ausführungsform zeigt;
9 entsprechende Audiosignalwellenformen gemäß dem ersten Aspekt der zweiten Ausführungsform;
10 ein Blockdiagramm, das eine Konfiguration einer Audiosignalverarbeitungsvorrichtung gemäß einem zweiten Aspekt der zweiten Ausführungsform zeigt;
11 entsprechende Audiosignalwellenformen gemäß dem zweiten Aspekt der zweiten Ausführungsform;
12 ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einer modifizierten Ausführungsform zeigt;
13 ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einer weiteren modifizierten Ausführungsform zeigt; und
14 ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß noch einer weiteren modifizierten Ausführungsform zeigt.
Detaillierte Beschreibung der Erfindung
Eine Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung wird in angemessener Weise zum Erzeugen verschiedener Stimmen, wie zum Beispiel insbesondere einer rauen oder harschen Stimme, verwendet. Es wird nun vor der Beschreibung einer Konfiguration der Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung zuerst eine Audiosignalwellenform zum Ausdrücken der rauen oder harschen Stimme erläutert. Ein Teil (b) von 1 zeigt eine Wellenform auf einer Zeitachse D eines Audiosignals Sout, das die raue oder harsche Stimme ausdrückt. Eine Ordinate von 1 repräsentiert eine Amplitude A. Darüber hinaus ist in einem Teil (a) von 1 ein Audiosignal S0, das eine artikulierte Stimme (die sogenannte klare Stimme) ohne Heiserkeit und Belegtheit ausdrückt, gleichzeitig zu Zwecken des Vergleichs dargestellt. Wie im Teil (a) von 1 gezeigt, hat die Wellenform des Audiosignals S0 eine Form, bei der Wellenformen U, die als eine wiederholte Einheit (die hiernach als eine "Einheitswellenform" bezeichnet wird) verwendet werden, in gleichmäßigen Intervallen auf der Zeitachse angeordnet sind. Bei diesem Audiosignal S0 ist eine Periode T0 einer jeden Einheitswellenform U fast gleich. Im Gegensatz dazu hat, wie im Teil (b) von 1 gezeigt, eine Wellenform des Audiosignals Sout, das die raue oder harsche Stimme ausdrückt, eine Form, bei der sich zwei Typen von Einheitswellenformen U (U1 und U2), deren Perioden sich voneinander unterscheiden, auf der Zeitachse abwechseln. Zum Beispiel ist im Teil (b) von 1 eine Periode T1 der Einheitswellenform U1 länger als eine Periode T2 der Einheitswellenform U2, die ihr unmittelbar folgt, und ferner ist diese Periode T2 kürzer als die Periode T1 der Einheitswellenform U1, die unmittelbar nach dieser Einheitswellenform U2 folgt.
(A: Erste Ausführungsform)
Zuerst wird anhand von 2 eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung erläutert. Diese Audiosignalbearbeitungsvorrichtung D ist eine Vorrichtung zum Erzeugen des Audiosignals Sout zum Ausdrücken der rauen oder harschen Stimme, wie im Teil (b) von 1 gezeigt, und ist, wie in 2 gezeigt, mit einem Erzeugungsmittel 10, einem Verteilungsmittel 20, einem Verzögerungsmittel 30, einem Verstärkungsmittel 40 und einem Additionsmittel 50 ausgerüstet. Es versteht sich, dass das Erzeugungsmittel 10, das Verzögerungsmittel 30, das Verstärkungsmittel 40 und das Additionsmittel 50 jeweils durch Hardware, wie zum Beispiel digitale Signalprozessoren (DSP) oder dergleichen, die zum Verarbeiten des Audiosignals dediziert sind, dargestellt werden können, oder auch durch die Ausführung eines Programms in einer Verarbeitungseinheit, wie zum Beispiel einer CPU (Central Processing Unit/Zentraleinheit) oder dergleichen umgesetzt werden können.
Das Erzeugungsmittel 10, das in 2 gezeigt ist, ist ein Mittel zum Erzeugen eines Audiosignals (nämlich eines Signals einer Wellenform, die einer Wellenform einer tatsächlichen Klangwelle ähnlich ist) Sa im Zeitbereich. Insbesondere erzeugt das Erzeugungsmittel 10 das Audiosignal Sa mit einer Wellenform, die in einem Teil (b) von 3 gezeigt ist. Inzwischen ist in einem Teil (a) von 3 eine Wellenform des Audiosignals S0, das eine Tonhöhe P0 (Zieltonhöhe) hat, die zum Audiosignal Sout äquivalent ist, das die Audiosignalbearbeitungsvorrichtung D erzeugen sollte, gleichzeitig zum Vergleich mit dem anderen Audiosignal dargestellt. Wie im Teil (a) von 1 gezeigt, ist dieses Audiosignal S0 ein Signal, das eine Stimme repräsentiert, die hörbar als eine artikulierte Stimme wahrgenommen wird (es handelt sich nämlich weder um eine heisere Stimme noch um eine raue oder harsche Stimme). Wie im Teil (b) von 3 gezeigt, drückt das Audiosignal Sa, das das Erzeugungsmittel 10 erzeugt, eine Stimme aus, die um eine Oktave tiefer als das Audiosignal S0 ist. Mit anderen Worten erzeugt das Erzeugungsmittel 10 das Audiosignal Sa mit einer Tonhöhe Pa (Periode Ta), die ungefähr die Hälfte der Zieltonhöhe P0 ist.
Das Verteilungsmittel 20, das in 2 gezeigt ist, ist ein Mittel zum Verteilen des Audiosignals Sa, das vom Erzeugungsmittel 10 erzeugt wird, auf ein Audiosignal Sa1 eines ersten Kanals und ein Audiosignal Sa2 eines zweiten Kanals. In 2 ist ein Fall gezeigt, bei dem das Verteilungsmittel 20 durch Verzweigen eines Übertragungspfads, der sich von einem Ausgang des Erzeugungsmittels 10 erstreckt, auf zwei Kanäle erzielt wird. Die Audiosignale Sa1 und Sa2 werden an das Verzögerungsmittel 30 geliefert. Dieses Verzögerungsmittel 30 verzögert das Audiosignal Sa1 des ersten Kanals relativ zum Audiosignal Sa2 des zweiten Kanals und gibt sie als die Audiosignale Sb1 bzw. Sb2 an das Verstärkungsmittel 40 aus. Das Verstärkungsmittel 40 ist ein Mittel zum entsprechenden Einstellen eines Verstärkungsverhältnisses zwischen dem Audiosignal Sb1 und dem Audiosignal Sb2 und zum Ausgeben entsprechender Signale nach dieser Einstellung als Audiosignale Sc1 bzw. Sc2. Das Additionsmittel 50 erzeugt ein Audiosignal Sout durch Addieren des Audiosignals Sc1 des ersten Kanals mit dem Audiosignal Sc2 des zweiten Kanals, die vom Verstärkungsmittel 40 ausgegeben werden, um dadurch ein addiertes Audiosignal auszugeben. Dieses Audiosignal Sout wird dann als eine Klangwelle zum Erklingen gebracht, nachdem es an eine Klangerzeugungsvorrichtung, wie zum Beispiel einen Lautsprecher, einen Ohrhörer oder dergleichen, geliefert wurde.
Hier ist in einem Teil (c) von 3 das Audiosignal Sb2, das vom Verzögerungsmittel 30 ausgegeben wird, gezeigt, während in einem Teil (e) von 3 das Audiosignal Sb1 gezeigt ist, das vom Verzögerungsmittel 30 ausgegeben wird. In dieser Ausführungsform ist das Audiosignal Sa1 relativ zum Audiosignal Sa2 verzögert, so dass eine Phasendifferenz zwischen dem Audiosignal Sb1 und dem Audiosignal Sb2 eine Phasendifferenz sein kann, die einem addierten Wert (L1 + L2) zwischen einer Dauer L1, die ungefähr eine Hälfte der Periode Ta des Audiosignals Sa beträgt, und einer Dauer L2, die kürzer als L1 ist, entspricht. Insbesondere erzeugt zuerst durch Verzögern des Audiosignals Sa1 um die Dauer L1, die ungefähr gleich einer Hälfte der Periode Ta des Audiosignals Sa (nämlich der Periode T0, die der Zieltonhöhe P0 entspricht) ist, das Verzögerungsmittel 30 das Audiosignal Sa1', das in einem Teil (d) von 3 gezeigt ist, und erzeugt zweitens durch Verzögern dieses Audiosignals Sa1' um die Dauer L2, die kürzer als die Dauer L1 ist, das Audiosignal Sb1, das in einem Teil (e) von 3 gezeigt ist. Wenn wir nun annehmen, dass das Audiosignal Sa1' und das Audiosignal Sb2 addiert werden, dann hat das Audiosignal Sout, das aus der Addition resultiert, eine Wellenform, in der eine große Anzahl von Einheitswellenformen U, die jeweils dieselbe Periode T0 haben, in gleichmäßigen Intervallen angeordnet sind, wie im Teil (a) von 1 und dem Teil (a) von 3 gezeigt ist. Im Gegensatz dazu wird, wenn das Audiosignal Sb1, das durch eine weitere Verzögerung des Audiosignals Sa1' um die Dauer L2 erhalten wird, zum Audiosignal Sb2, wie es im Teil (b) von 1 und im Teil (f) von 3 gezeigt ist, addiert wird, das Audiosignal Sout mit der Wellenform, bei der entsprechende Einheitswellenformen U (U1 + U2), die jeweils unterschiedliche Perioden haben, alternierend auf der Zeitachse angeordnet sind, erzeugt. Wie oben beschrieben, ist das Audiosignal Sout, das solche Charakteristiken aufweist, ein Signal, das eine individuelle Stimme, die an Ausdruck reich ist, wie zum Beispiel eine raue oder harsche Stimme, ausdrückt.
Wie oben beschrieben, ist gemäß der vorliegenden Ausführungsform das Audiosignal Sa im Zeitbereich, das die Tonhöhe Pa hat, die ungefähr gleich einer Hälfte der Zieltonhöhe P0 ist, auf zwei Kanäle aufgeteilt, und werden die Audiosignale Sa1 und Sa2 der entsprechenden Kanäle miteinander addiert, nachdem ihnen die Phasendifferenz verliehen wurde, die dem addierten Wert der Dauer L1 und der Dauer L2 entspricht, so dass das Audiosignal Sout erzeugt wird. Wie sich versteht, wird es hierdurch, da das Audiosignal im Zeitbereich (ohne in Rahmen aufgeteilt zu werden) verarbeitet wird, wie im Teil (b) von 1 gezeigt, möglich, eine Stimme, bei der die Dauer einer jeden Einheitswellenform U sich in jedem Augenblick ändert, nämlich eine natürliche Stimme, die einer rauen oder harschen Stimme eines echten menschlichen Wesens nahe kommt, zu erzeugen. Hiernach wird ein spezifischerer Aspekt der Audiosignalbearbeitungsvorrichtung D, die in 2 gezeigt ist, erläutert. Übrigens wird dasselbe oder ein ähnliches Bezugszeichen einem Teil gegeben, der derselben oder einer ähnlichen Funktion dient, und zwar durchwegs in den unten gezeigten unterschiedlichen Zeichnungen.
(A1: Erster Aspekt)
4 ist ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einem ersten Aspekt zeigt. Das Erzeugungsmittel 10 einer Audiosignalbearbeitungsvorrichtung Da1 gemäß diesem ersten Aspekt ist ein Mittel zum Synthetisieren des Audiosignals Sa durch Verbinden von Stimmsegmenten auf der Grundlage von Tonhöhendaten Dp und Stimmklangdaten Dv, die von einer äußeren Quelle geliefert werden. Die Tonhöhendaten Dp sind Daten zum Festlegen einer Tonhöhe des Audiosignals Sout, das von der Audiosignalbearbeitungsvorrichtung Da1 ausgegeben werden sollte, und die Stimmklangdaten Dv sind Daten zum Festlegen eines Stimmklangs einer Stimme, die das Audiosignal Sout ausdrückt. Zum Beispiel werden, wenn die Audiosignalbearbeitungsvorrichtung Da1 auf eine Singsynthesevorrichtung angewendet wird, Daten zum Ausdrücken eines Musikintervalls (einer Note) einer Musikkomposition als die Tonhöhendaten Dp verwendet, und werden Daten zum Festlegen eines Buchstabens oder eines Liedtexts als die Stimmklangdaten Dv verwendet.
Wie in 4 gezeigt, enthält das Erzeugungsmittel 10 in diesem ersten Aspekt einen Tonhöhenumwandlungsabschnitt 11 und einen Syntheseabschnitt 12. Unter diesen wandelt der Tonhöhenumwandlungsabschnitt 11 die Tonhöhendaten Dp, die von der externen Quelle geliefert werden, in Daten um, welche die Tonhöhe Pa präsentieren, die um eine Oktave tiefer sind, und gibt konvertierte Daten an den Syntheseabschnitt 12 aus. Mit anderen Worten handelt es sich bei dem Tonhöhenumwandlungsmittel 11 um ein Mittel zum Festlegen der Tonhöhe Pa, die ungefähr die Hälfte der Zieltonhöhe P0 beträgt, an den Syntheseabschnitt 12. Bei dem Syntheseabschnitt 12 handelt es sich wiederum um ein Mittel zum Ausgeben des Audiosignals Sa durch Einstellen des Audiosignals, das durch Verbinden der Stimmsegmente gemäß den Stimmklangdaten Dv erhalten wird, auf die Tonhöhe Pa, welche die Tonhöhendaten Dp repräsentieren. Insbesondere enthält der Syntheseabschnitt 12 ein Speichermittel zum Speichern des Stimmsegments, das ein Phonem oder eine Phonemkette ist, für jeden Stimmklang (einen Vokal, einen Konsonant und eine Kombination davon). Der Syntheseabschnitt 12 wählt zuerst nacheinander das Stimmsegment gemäß den Stimmklangdaten Dv unter einer großen Anzahl von Stimmsegmenten aus, die im Speichermittel abgelegt sind, um hierdurch ausgewählte Stimmsegmente zu verbinden, erzeugt zweitens das Audiosignal aus einer Anordnung dieser Stimmsegmente und erzeugt drittens das Audiosignal Sa durch Einstellen der Tonhöhe dieses Audiosignals auf die Tonhöhe Pa, welche die Tonhöhendaten Dp repräsentieren, um das Audiosignal Sa nach dieser Einstellung auszugeben. In der vorliegenden Erfindung ist jedoch ein Verfahren zum Synthetisieren des Audiosignals Sa hierauf nicht eingeschränkt. Das Audiosignal Sa, das vom Syntheseabschnitt 12 ausgegeben wird, wird durch das Verteilungsmittel 20 auf die Audiosignale Sa1 und Sa2 der beiden Kanäle aufgeteilt.
Das Verzögerungsmittel 30 gemäß diesem ersten Aspekt enthält einen Verzögerungsabschnitt 31 und einen Verzögerungsabschnitt 32. Unter diesen verzögert der Verzögerungsabschnitt 31 das Audiosignal Sa1 des ersten Kanals um die Dauer L1 und gibt das Audiosignal Sa1' aus. Währenddessen verzögert der Verzögerungsabschnitt 32 das Audiosignal Sa1', das vom Verzögerungsmittel 31 ausgegeben wird, um die Dauer L2 und gibt das Audiosignal Sb1 aus. Die Dauer L2 ist in diesem ersten Aspekt ein fester Wert, der im Voraus definiert wird. Inzwischen wird die Dauer L1 je nach der Tonhöhe Pa des Audiosignals Sa entsprechend geändert. Ein Verzögerungsgradberechnungsabschnitt 61, der in 4 gezeigt ist, ist ein Mittel zum Berechnen dieser Dauer L1, um sie beim Verzögerungsabschnitt 31 einzustellen. Die Tonhöhendaten Dp werden an den Verzögerungsgradberechnungsabschnitt 61 geliefert. Der Verzögerungsgradberechnungsabschnitt 61 berechnet die Periode T0 (nämlich die Dauer, die ungefähr eine Hälfte der Periode Ta des Audiosignals Sa beträgt), die der Tonhöhe P0 entspricht, die von diesen Tonhöhendaten Dp repräsentiert wird, und legt die hier berechnete Periode T0 für den Verzögerungsabschnitt 31 als die Dauer L1 fest. Es wird darauf hingewiesen, dass das Audiosignal Sa2 des zweiten Kanals an das Addierungsmittel 50 geliefert wird, ohne der Verzögerungsverarbeitung und der Verstärkungsverarbeitung unterzogen zu werden, doch sind zur einfacheren Erläuterung das Audiosignal Sb2, das vom Verzögerungsmittel 30 ausgegeben wird, und das Audiosignal Sc2, das vom Verstärkungsmittel 40 ausgegeben wird, durch unterschiedliche Symbole repräsentiert (eine ähnliche Beschreibung wird nachfolgend gegeben).
Währenddessen enthält das Verstärkungsmittel 40 einen Verstärkungsabschnitt 41, der entsprechend zum ersten Kanal angeordnet ist. Dieser Verstärkungsabschnitt 41 verstärkt das Audiosignal Sb1 und gibt das Signal nach dieser Verstärkung als das Audiosignal Sc1 aus. Eine Verstärkung im Verstärkungsabschnitt 41 wird passend gemäß den Einzelheiten der Betätigung an einer Eingabevorrichtung (zum Beispiel einer Tastatur, die mit dem Betätigungselement ausgerüstet ist), die hier nicht gezeigt ist, geändert. Hierbei wird, je mehr die Verstärkung im Verstärkungsabschnitt 41 erhöht wird, desto mehr die Amplitude des Audiosignal Sc1 relativ zur Amplitude des Audiosignals Sc2 erhöht. Da die Charakteristiken der rauen oder harschen Stimme, die das Audiosignal Sout ausdrückt, in entscheidender Weise vom Audiosignal Sc1 beeinflusst werden, wird, je mehr die Amplitude des Audiosignals Sc1 aufgrund einer Erhöhung der Verstärkung des Verstärkungsabschnitts 41 erhöht wird, desto mehr die Ähnlichkeit der rauen oder harschen Stimme derjenigen Stimme, die das Audiosignal Sout ausdrückt, verstärkt. Auf diese Weise kann durch entsprechendes Betätigen der Eingabevorrichtung der Benutzer spontan die Charakteristiken der Stimme auswählen, die von der Audiosignalbearbeitungsvorrichtung Da1 ausgegeben wird.
Auf der Grundlage der oben angegebenen Konfiguration wird das synthetisierte Audiosignal Sa durch das Erzeugungsmittel 10 in das Audiosignal Sa1 und das Audiosignal Sa2 aufgezweigt (siehe der Teil (b) von 3), und unter diesen wird das Audiosignal Sa1, nachdem es durch den addierten Wert zwischen der Dauer L1, die ungefähr eine Hälfte der Periode des Audiosignals Sa beträgt, und der vorbestimmten Dauer L2 verzögert wurde, an das Verstärkungsmittel 40 als das Audiosignal Sb1 (siehe hierzu den Teil (e) von 3) ausgegeben. Ferner wird dieses Audiosignal Sb1 durch den Verstärkungsabschnitt 41 auf die gewünschte Amplitude eingestellt und als das Audiosignal Sc1 ausgegeben. Inzwischen wird das Audiosignal Sa2 an das Additionsmittel 50 als das Audiosignal Sc2 geliefert, ohne die Verzögerungsverarbeitung und die Verstärkungsverarbeitung zu durchlaufen (siehe hierzu den Teil (c) von 3). Nachfolgend werden das Audiosignal Sc1 und das Audiosignal Sc2 durch das Additionsmittel 50 addiert und wird das Audiosignal Sout, das durch diese Addition erzeugt wird, von der Tonerzeugungsvorrichtung als Klangwelle ausgegeben.
Wie oben beschrieben, kann gemäß diesem ersten Aspekt, da das Audiosignal Sa auf der Grundlage der Stimmklangdaten Dv und der Tonhöhendaten Dp synthetisiert wird, eine Singstimme verschiedener Musikkompositionen als eine raue oder harsche Stimme erzeugt werden. Darüber hinaus können, da der Grad der Verzögerung (Dauer L1) des Verzögerungsabschnitts 31 gemäß den Tonhöhendaten Dp ausgewählt wird, die verschiedenen rauen oder harschen Stimmen gemäß der Tonhöhe (dem Musikintervall) der Musikkomposition willkürlich entsprechend erzeugt werden.
(A2: Zweiter Aspekt)
Wie bei der rauen oder harschen Stimme besteht eine Tendenz, dass je lauter deren Stimmvolumen ist, desto merklicher das Merkmal bei der Hörbarkeit wird. Zum Beispiel gibt es das Phänomen, dass eine mit einem kleinen Stimmvolumen zum Erklingen gebrachte Stimme als nicht so belegt gehört wird, jedoch eine Stimme, die mit einem großen Stimmvolumen zum Erklingen gebracht wird, als beträchtlich belegt gehört wird. Um eine derartige Tendenz nachzubilden, stellt eine Audiosignalbearbeitungsvorrichtung Da2 gemäß diesem Aspekt einen Grad der Verzögerung des Verzögerungsabschnitts 32 gemäß einem Stimmvolumen des Audiosignals Sa ein.
Übrigens erhöht sich ein Grad, zu dem die Stimme als belegt gehört wird (hiernach als "Grad der rauen oder harschen Stimme" bezeichnet) mit dem Zunehmen einer Differenz zwischen der Periode T1 und der Periode T2, die im Teil (b) von 1 gezeigt sind. Je größer die Differenz zwischen der Periode T1 und der Periode T2 ist, desto weiter entfernt sich die Phasendifferenz zwischen dem Audiosignal Sc1 des ersten Kanals und dem Audiosignal Sc2 des zweiten Kanals von der Dauer L1. Wenn nun zum Beispiel ein Fall angenommen wird, bei dem die Dauer L2 null ist, da das Audiosignal Sout, das aus der Addition zwischen dem Audiosignal Sc1, das weiter als das Audiosignal Sc2 um die Dauer L1 verzögert wurde, die entsprechend einer Hälfte der Periode Ta des Audiosignals Sa entspricht, erhalten wurde, und das Audiosignal Sc2 eine Wellenform hat, bei der die Perioden T0 aller Einheitswellenformen U fast gleich sind, wie bei der in Teil (a) von 1 gezeigten artikulierten Stimme, so wird kaum ein Merkmal einer rauen oder harschen Stimme gezeigt. Inzwischen wird, wenn die Dauer L2 verlängert wird, die Differenz zwischen der Periode T1 und der Periode T2 im Audiosignal Sout allmählich vergrößert, sodass der Grad der rauen oder harschen Stimme derjenigen Stimme, die dieses Audiosignal Sout ausdrückt, ebenfalls verstärkt wird. Mit anderen Worten kann es sein, dass der Grad der rauen oder harschen Stimme derjenigen Stimme, die von der Audiosignalbearbeitungsvorrichtung Da2 ausgegeben wird, durch den Grad der Verzögerung (Dauer L2) bestimmt wird, der am Verzögerungsabschnitt 32 eingestellt wird. Aus diesem Grund kann gemäß der vorliegenden Ausführungsform die Dauer L2, die für den Verzögerungsabschnitt 32 eingestellt wird, gemäß dem Stimmvolumen des Audiosignals Sa geändert werden.
5 ist ein Blockdiagramm, das eine Konfiguration der Audiosignalbearbeitungsvorrichtung gemäß diesem Aspekt zeigt. Wie in 5 dargestellt, weist zusätzlich zu den entsprechenden in 4 dargestellten Abschnitten diese Audiosignalbearbeitungsvorrichtung Da2 ferner einen Amplitudenfeststellungsabschnitt 621 auf. Der Amplitudenfeststellungsabschnitt 621 erfasst die Amplitude (die Lautstärke) des Audiosignals Sa, das vom Erzeugungsmittel 10 (Syntheseabschnitt 12) ausgegeben wird, und legt die Dauer L2 gemäß dieser Amplitude im Verzögerungsabschnitt 32 fest. Insbesondere legt, wie in 6 gezeigt, der Amplitudenfeststellungsabschnitt 621 die Dauer L2 für den Verzögerungsabschnitt 32 fest, die um so länger wird, desto stärker die Amplitude A des Audiosignals Sa wird. Wenn die Dauer L2 jedoch "ein Viertel" der Periode Ta des Audiosignals Sa übersteigt, so verringert sich diese Zeit, das heißt, die Differenz zwischen der Periode T1 und der Periode T2, und verringert sich der Grad der rauen oder harschen Stimme hierdurch, so dass der Amplitudenfeststellungsabschnitt 621 die Dauer L2, die für den Verzögerungsabschnitt festgelegt wurde, innerhalb eines Bereichs von "0" bis "1/4Ta" gemäß der Amplitude A des Audiosignals Sa ändert. Mit anderen Worten ist dann, wie in 6 gezeigt, wenn die Amplitude A des Audiosignals Sa einen vorbestimmten Schwellenwert Ath übersteigt, die Dauer L2, die für den Verzögerungsabschnitt festgelegt wird, "1/4Ta". Wie oben beschrieben wird gemäß diesem Aspekt, je größer die Amplitude A des Audiosignals Sa ist, desto mehr der Grad der rauen oder harschen Stimme des Audiosignals Sout verstärkt, so dass es möglich ist, die Tendenz der Änderung des Grads der rauen oder harschen Stimme nachzubilden, so wie ein menschliches Wesen tatsächlich klingt. Übrigens sind die Konfiguration und der Betrieb derjenigen Elemente, die nicht die Elemente zum Ändern des Grads der rauen oder harschen Stimme sind, gleich wie diejenigen des ersten Aspekts.
(A3: Dritter Aspekt)
Im ersten Aspekt wurde die Konfiguration veranschaulicht, bei der die Dauer L2, die für den Verzögerungsabschnitt 32 eingestellt wird, im Voraus definiert wurde, während im zweiten Aspekt die Konfiguration veranschaulicht wurde, bei der die Dauer L2 gemäß der Amplitude A des Audiosignals Sa gesteuert wurde, doch kann auch eine Konfiguration eingesetzt werden, bei der der Grad der Verzögerung des Verzögerungsmittels 30 durch andere Elemente bestimmt wird. Zum Beispiel kann auch, wie unten gezeigt, eine Konfiguration eingesetzt werden, bei der die Dauer L2 des Verzögerungsabschnitts 32 gemäß Daten (die hiernach als "Steuerdaten") bezeichnet werden) Dc bestimmt wird, die von einer externen Quelle geliefert werden.
7 ist ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß diesem Aspekt zeigt. Wie in 7 dargestellt, enthält zusätzlich zu den entsprechenden in 4 gezeigten Elementen eine Audiosignalbearbeitungsvorrichtung Da3 ferner einen Steuerabschnitt 631. Dieser Steuerabschnitt 631 ist ein Mittel zum Steuern des Verzögerungsabschnitts 32 des Verzögerungsmittels 30 auf der Grundlage der von der externen Quelle gelieferten Steuerdaten Dc. Bei den Steuerdaten Dc handelt es sich um Daten zum Festlegen des Grads der Verzögerung (Dauer L2) des Verzögerungsabschnitts 32, und sie weisen eine Datenstruktur auf, die zum Beispiel mit dem MIDI-Standard konform ist. Mit anderen Worten handelt es sich bei diesen Steuerdaten Dc um die Daten, in denen eine große Anzahl von Paaren, die aus Ereignisdaten zum Festlegen der Dauer L2 und Zeitsteuerungsdaten zum Angeben der Zeit, zu der jedes Ereignis ausgeführt wird, nacheinander angeordnet sind. Wenn eine Zeit, die durch die Zeitsteuerungsdaten angegeben wird, eintritt, legt der Steuerabschnitt 631 die Dauer L2, die durch die Ereignisdaten, die mit den Zeitsteuerungsdaten gepaart sind, angegeben werden, für den Verzögerungsabschnitt 32 fest. Dieser Verzögerungsabschnitt 32 verzögert das Audiosignal Sa1', das vom Verzögerungsabschnitt 31 geliefert wird, um die vom Steuerabschnitt 631 festgelegte Dauer L2 und gibt ein verzögertes Signal als das Audiosignal Sb1 aus. Die übrige Konfiguration und der übrige Betrieb sind denjenigen des ersten Aspekts ähnlich.
Wie im zweiten Aspekt erläutert, kann, da der Grad der rauen oder harschen Stimme derjenigen Stimme, die das Audiosignal Sout ausdrückt, durch die Dauer L2 bestimmt wird, gemäß diesem Aspekt der Grad der rauen oder harschen Stimme des Audiosignals Sout in einer willkürlichen Zeitsteuerung gemäß den Steuerdaten Dc geändert werden. Darüber hinaus macht, wenn die Audiosignalbearbeitungsvorrichtung Da3 gemäß diesem Aspekt zum Beispiel auf die Singsynthesevorrichtung angewendet wird, wenn die Steuerdaten Dc so erzeugt werden, dass die Dauer L2 zu einer Zeit des Synchronisierens mit einem Spiel einer Musikkomposition geändert werden kann, es dies möglich, die Attraktivität des Gesangs, der das Spiel der Musikkomposition begleitet, zu erhöhen.
(B: Zweite Ausführungsform)
Es folgt eine Erläuterung einer Audiosignalbearbeitungsvorrichtung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung. Gemäß der ersten Ausführungsform wurde die Konfiguration veranschaulicht, bei der die Verstärkung des Verstärkungsmittels 40 gemäß der Betätigung der Eingabevorrichtung bestimmt wurde. Inzwischen wird gemäß der vorliegenden Ausführungsform eine Konfiguration verwendet, bei der der Grad der Verzögerung, der für das Verzögerungsmittel 30 eingestellt wird, bei der Dauer L1 beibehalten wird, während die Verstärkung des Verstärkungsmittels 40 gegebenenfalls mit dem Verstreichen der Zeit verändert wird. Übrigens werden, da eine Konfiguration der Audiosignalbearbeitungsvorrichtung D gemäß dieser Ausführungsform ähnlich derjenigen ist, die in 2 gezeigt ist, über diese Ausführungsformen hinweg, gleiche oder ähnliche Bezugszeichen für ein Element verwendet, das eine Funktion ausfüllt, die derjenigen der ersten Ausführungsform ähnlich ist, und es wird entsprechend eine Beschreibung dieses Elements weggelassen.
(B1: Erster Aspekt)
8 ist ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einem ersten Aspekt dieser Ausführungsform zeigt. Wie in 8 dargestellt, weist zusätzlich zu den entsprechenden in 4 dargestellten Abschnitten diese Audiosignalbearbeitungsvorrichtung Db1 ferner einen Amplitudenfeststellungsabschnitt 622 auf. Dieser Amplitudenfeststellungsabschnitt 622 ist ein Mittel zum Erfassen der Amplitude A (der Lautstärke) des vom Erzeugungsmittel 10 (Syntheseabschnitt 12) ausgegebenen Audiosignals Sa in einer Weise, die derjenigen des in 5 gezeigten Amplitudenfeststellungsabschnitts 621 ähnlich ist. Der Amplitudenfeststellungsabschnitt 622 im vorliegenden Aspekt steuert jedoch die Verstärkung G des Verstärkungsabschnitts 41 gemäß der Amplitude A des Audiosignals Sa. Insbesondere erhöht der Amplitudenfeststellungsabschnitt 622 die Verstärkung G des Verstärkungsabschnitts 41, wenn die Amplitude A des Audiosignals Sa größer wird. Wenn die Amplitude des Audiosignals Sa einen Schwellenwert übersteigt, wird die Verstärkung G, die für den Verstärkungsabschnitt 41 festgelegt wird, jedoch auf einem vorbestimmten Wert gehalten.
9 zeigt entsprechende Audiosignalwellenformen gemäß dem vorliegenden Aspekt. In einem Teil (a) in 9 wird von einem Fall ausgegangen, bei dem die Amplitude A des Audiosignals Sa mit dem Verstreichen der Zeit allmählich angehoben wird. Hiernach wird eine Anstiegsrate der Amplitude A des Audiosignals Sa zu dieser Zeit als "Ca" bezeichnet. Diese Anstiegsrate Ca ist ein Parameter, der einen Grad angibt, in dem die Amplitude zwischen Einheitswellenformen U, die nacheinander vorwärts und rückwärts auf der Zeitachse erscheinen, zu ändern ist, und es handelt sich insbesondere dabei um eine Steigung einer Strecke, die zwei Peaks entsprechender Einheitswellenformen U miteinander verbindet. Wie in einem Teil (b) von 9 gezeigt, gibt das Verstärkungsmittel 30 das Audiosignal Sb1 dadurch aus, dass dieses Audiosignal Sa um die Dauer L1, die ungefähr einer Hälfte der Periode Ta entspricht, verzögert wird.
Inzwischen gibt der Verstärkungsabschnitt 41 des Verstärkungsmittels 40 auf der Grundlage der Steuerung durch den Amplitudenfeststellungsabschnitt 622 das Audiosignal Sc1 durch Verstärken des Audiosignals Sb1 um die Verstärkung G gemäß der Amplitude A des Audiosignals Sa aus. Hierbei verändert, wie in einem Teil (c) von 9 gezeigt, der Amplitudenfeststellungsabschnitt 622 die Verstärkung G, die für den Verstärkungsabschnitt 41 gemäß der Amplitude A des Audiosignals Sa festgelegt wird, so dass eine Anstiegsrate Cb der Amplitude des Audiosignals Sc1 (nämlich die Steigung der Strecke, welche die Peaks der entsprechenden Einheitswellenformen U des Audiosignals Sc1 miteinander verbindet) größer als die Anstiegsrate Ca der Amplitude A des Audiosignals Sa sein kann. Inzwischen wird das Audiosignal Sa2 als das Audiosignal Sc2 an das Additionsmittel 50 geliefert, während die Wellenform unverändert beibehalten bleibt. Als ein Ergebnis hiervon wird die Amplitude des Peaks in der jeweiligen Einheitswellenform U des Audiosignals Sc1 größer als diejenige des Audiosignals Sc2, die um die Dauer L1 vor dem Audiosignal Sc1 erscheint.
In einem Teil (d) von 9 ist die Wellenform des Audiosignals Sout gezeigt, das durch Addieren des Audiosignals Sc1 und des Audiosignals Sc2 erzeugt wird. Wie im Teil (d) von 9 gezeigt, resultiert dieses Audiosignal Sout in einer Wellenform, bei der ein Peak p2, der dem Audiosignal Sc2 (= Sa2) entspricht, und ein Peak P1, der dem Audiosignal Sc1 entspricht, alternierend für jede Dauer (Periode T0) erscheinen, die ungefähr eine Hälfte der Periode Ta beträgt. Unter diesen erhöht sich die Amplitude eines jeden Peaks P2, der dem Audiosignal Sc2 entspricht, mit der Anstiegsrate Ca mit dem Verstreichen der Zeit. Inzwischen erhöht sich die Amplitude eines jeden Peaks P1, der dem Audiosignal Sc1 entspricht, mit einer Anstiegsrate Cb, die größer als die Anstiegsrate Ca ist, mit dem Verstreichen der Zeit. Bei einem Schritt, bei dem das Audiosignal Sa sich zu verstärken beginnt (nämlich bei einem Schritt auf der linken Seite in 9) wird, weil die Amplitude des Peaks P1, die sich mit der Anstiegsrate Cb verstärkt, im Vergleich zu derjenigen des Peaks P2 ausreichend größer ist, die von der Klangerzeugungsvorrichtung auf der Grundlage dieses Audiosignals Sout abgegebene Stimme vom Benutzer als eine Stimme der Tonhöhe Pa wahrgenommen. Inzwischen nähert sich, da die Amplitude des Peaks P2 sich der Amplitude des Peaks P1 nähert, wenn die Amplitude des Audiosignals Sa größer wird, die Tonhöhe der von der Klangerzeugungsvorrichtung abgegebenen Stimme allmählich der Tonhöhe P0, und schließlich fallen die Amplitude des Peaks P1 und die Amplitude des Peaks P2 zusammen, was in einer Wellenform resultiert, die derjenigen des Audiosignals S0 der Tonhöhe P0, die im Teil (a) von 1 gezeigt ist, entspricht. Es versteht sich, dass es durch ein allmähliches Anheben der Verstärkung G des Verstärkungsabschnitts 41 gemäß der Amplitude A des Audiosignals Sa in diesem Aspekt möglich ist, die Stimme zu erzeugen, die sich von der Stimme (Tonhöhe Pa), die gegenüber der Zieltonhöhe P0 um eine Oktave tiefer ist, der Tonhöhe P0 nähert.
Übrigens ist zwar hier die Konfiguration zum Erfassen der Amplitude A aus dem Audiosignal Sa veranschaulicht, doch kann auch eine Konfiguration zum Festlegen der Amplitude durch das Erhalten von Daten zum Festlegen der Amplitude A des Audiosignals Sa aus einer externen Quelle verwendet werden. Zum Beispiel kann, wie durch die gestrichelten Linien in 8 gezeigt, in einer Konfiguration, in der der Syntheseabschnitt 12 des Erzeugungsmittels 10 die Stimmvolumensdaten Da zum Festlegen der Amplitude A des Audiosignals Sa von der externen Quelle erhält, um das Audiosignal Sa der betreffenden Amplitude A zu synthetisieren, in einer solchen Weise konfiguriert werden, dass auf der Grundlage der Amplitude A, die durch die Stimmvolumensdaten Da festgelegt werden, der Amplitudenfeststellungsabschnitt 622 die Verstärkung G des Verstärkungsabschnitts 41 steuert. Zusätzlich resultiert in diesem Fall die Wellenform eines jeden Audiosignals Sout in einer in 9(d) gezeigten Form.
(B2: Zweiter Aspekt)
Im ersten Aspekt wurde die Konfiguration veranschaulicht, bei der die Verstärkung G des Verstärkungsmittels 40 gemäß der Amplitude A des Audiosignals Sa gesteuert wurde. Inzwischen liegt in diesem Aspekt eine Konfiguration vor, bei der die Verstärkung des Verstärkungsabschnitts 40 gemäß den von der externen Quelle gelieferten Daten gesteuert wird.
10 ist ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß diesem Aspekt darstellt. Wie in 10 gezeigt, enthält zusätzlich zu den in 4 gezeigten entsprechenden Elementen eine Audiosignalbearbeitungsvorrichtung Db2 ferner einen Steuerabschnitt 632. Dieser Steuerabschnitt 632 ist ein Mittel zum Steuern des Verstärkungsabschnitts 41 des Verstärkungsmittels 40 auf der Grundlage der Steuerdaten Dc, die von der externen Quelle geliefert werden. Bei den Steuerdaten Dc handelt es sich um Daten zum Festlegen der Verstärkung G des Verstärkungsabschnitts 41, und sie weisen eine Datenstruktur auf, die zum Beispiel mit dem MIDI-Standard konform ist. Mit anderen Worten handelt es sich bei den Steuerdaten Dc um die Daten, in denen eine große Anzahl von Paaren angeordnet ist, die aus Ereignisdaten zum Festlegen der Verstärkung G und Zeitsteuerungsdaten zum Angeben der Zeit eines jeden Ereignisses bestehen. Wenn eine Zeit, die durch die Zeitsteuerungsdaten festgelegt ist, eintritt, legt der Steuerabschnitt 632 die Verstärkung G, die durch die Ereignisdaten, die mit den Zeitsteuerungsdaten gepaart sind, angegeben ist, für den Verstärkungsabschnitt 41 fest. In diesem Aspekt wird von einem Fall ausgegangen, bei dem die Steuerungsdaten Dc so erzeugt werden, dass die für den Verstärkungsabschnitt 41 festgelegte Verstärkung mit dem Verstreichen der Zeit allmählich von "0" auf "1" anwachsen kann.
11 zeigt entsprechende Audiosignalwellenformen gemäß diesem Aspekt. Wie in einem Teil (a) von 11 gezeigt, ist dieser Aspekt ähnlich der ersten Ausführungsform dahingehend, dass das Audiosignal Sa der Tonhöhe Pa, die vom Erzeugungsmittel 10 erzeugt wird, auf zwei Kanäle verzweigt wird. In diesem Aspekt wird das Audiosignal Sa2 des zweiten Kanals an das Additionsmittel 50 als das Audiosignal Sc2 geliefert, während die Wellenform unverändert beibehalten bleibt. Zusätzlich wird, wie in einem Teil (b) von 11 gezeigt, das Audiosignal Sa1 des ersten Kanals vom Verzögerungsmittel 30 um die Dauer L1 verzögert und als das Audiosignal Sb an den Verstärkungsabschnitt 41 geliefert. Inzwischen erhöht der Steuerabschnitt 632 gemäß den Steuerdaten Dc die für den Verstärkungsabschnitt 41 festgelegte Verstärkung mit dem Verstreichen der Zeit von "0" auf "1" Folglich ist dann, wie in einem Teil (c) von 11 gezeigt, das Audiosignal Sc1, das vom Verstärkungabschnitt 41 ausgegeben wird, eine Wellenform, bei der die Amplitude A mit dem Verstreichen der Zeit ansteigt und schließlich eine Amplitude erreicht, die ungefähr gleich dem Audiosignal Sc2 ist.
In einem Teil (d) von 11 ist die Wellenform des Audiosignals Sout gezeigt, das durch Addieren des Audiosignals Sc1 und des Audiosignals Sc2 erzeugt wird. Wie in 11 gezeigt, resultiert dieses Audiosignal Sout in einer Wellenform, bei der der Peak P2, der dem Audiosignal Sc2 (nämlich dem Audiosignal Sa) entspricht, und der Peak P1, der dem Audiosignal Sc1 entspricht, für jede Dauer (Periode T0), die ungefähr eine Hälfte der Periode Ta beträgt, alternierend erscheinen. Die Amplitude A eines jeden Peaks P2, der dem Audiosignal Sc2 entspricht, wird ungefähr konstant (auf der Amplitude des Audiosignals Sa) gehalten. Inzwischen wird die Amplitude A eines jeden Peaks P1, der dem Audiosignal Sc1 entspricht, allmählich mit dem Verstreichen der Zeit gemäß den Steuerdaten Dc erhöht. Folglich ist die Stimme, die von der Klangerzeugungsvorrichtung auf der Grundlage des Audiosignals abgegeben wird, auf der Tonhöhe Pa (nämlich auf der Tonhöhe, die um eine Oktave tiefer als die Zieltonhöhe P0 ist) an dem Zeitpunkt links in 11, und steigt die Tonhöhe mit dem Verstreichen der Zeit allmählich an, was in einer Stimme resultiert, die schließlich die Tonhöhe P0 erreicht. Es versteht sich, dass Effekte ähnlich wie beim ersten Aspekt auch bei diesem Aspekt immer noch erreicht werden können. Darüber hinaus kann gemäß diesem Aspekt, da die Amplitude des Audiosignals Sc1 gemäß den Steuerdaten Dc unabhängig vom Audiosignal Sa gesteuert wird, wenn die Amplitude des Audiosignals Sa genügend gesichert ist, selbst wenn die Steuerdaten Dc die Verstärkung "0" angeben, die Stimme der Tonhöhe Pa klar zum Erklingen gebracht werden.
(C: Modifizierte Ausführungsform)
Jeder dieser Ausführungsformen können verschiedene Modifikationen hinzugefügt werden. Spezifische modifizierte Aspekte werden unten angegeben. Übrigens kann jeder folgende Aspekt entsprechend kombiniert werden.

(1) Jeder Aspekt der ersten Ausführungsform und jeder Aspekt der zweiten Ausführungsform können kombiniert werden. Zum Beispiel wurde in der zweiten Ausführungsform die Konfiguration veranschaulicht, bei der der Grad der Verzögerung des Verzögerungsmittels 30 als die Dauer L1 eingestellt wird, jedoch kann in einer Weise, die derjenigen der ersten Ausführungsform ähnlich ist, auch eine Konfiguration verwendet werden, bei der der addierte Wert zwischen der Dauer L1 und der Dauer L2 als der Grad der Verzögerung durch das Verzögerungsmittel 30 eingestellt wird. Die Dauer L2 kann bei dieser Konfiguration gemäß der Betätigung der Eingabevorrichtung wie bei der in 4 gezeigten Konfiguration eingestellt werden, kann gemäß der Amplitude des Audiosignals Sa bei der in 5 gezeigten Konfiguration eingestellt werden oder kann gemäß den Steuerdaten Dc wie bei der in 7 gezeigten Konfiguration eingestellt werden. Darüber hinaus kann sie zum Beispiel in einer solchen Weise konfiguriert werden, dass durch Kombinieren der in 5 und 8 gezeigten Aspekte der Amplitudenfeststellungsabschnitt 62 (das Mittel, das sowohl die Funktion des Amplitudenfeststellungsabschnitts 621 als auch die Funktion des Amplitudenfeststellungsabschnitts 622 übernimmt) die Dauer L2 des Verzögerungsabschnitts 32 steuert und die Verstärkung G des Verstärkungsabschnitts 41 gemäß der Amplitude A des Audiosignals Sa steuert. Außerdem kann sie in einer solchen Weise konfiguriert werden, dass durch Kombinieren der in 7 und 10 gezeigten Aspekte der Steuerabschnitt 63 (das Mittel, das sowohl die Funktion des Steuerabschnitts 631 als auch die Funktion des Steuerabschnitts 632 übernimmt), der die Steuerdaten Dc zum Festlegen sowohl der Dauer L2 als auch der Verstärkung G empfangen hat, die Verstärkung G für den Verstärkungsabschnitt 41 festlegt, während diese Dauer L2 für den Verzögerungsabschnitt 32 festgelegt wird.
(2) In jeder Ausführungsform wurde die Konfiguration, bei der das Verzögerungsmittel 30 den Verzögerungsabschnitt 31 und den Verzögerungsabschnitt 32 enthalten hat, veranschaulicht, doch kann auch, wie in 12 gezeigt, eine Konfiguration verwendet werden, bei der das Verzögerungsmittel 30 lediglich einen Verzögerungsabschnitt 33 enthält. Zusätzlich kann bei dieser Konfiguration, wenn sie in einer solchen Weise konfiguriert wird, dass der Verzögerungsgradberechnungsabschnitt 61 die Dauer L1 gemäß den Tonhöhendaten Dp berechnet, die von der externen Quelle geliefert werden, und den addierten Wert zwischen dieser Dauer L1 und der vorbestimmten Dauer L2 als den Grad der Verzögerung für den Verzögerungsabschnitt 33 festlegt, eine Funktion ähnlich derjenigen der ersten Ausführungsform erhalten werden. Zusätzlich wurde in 12 die Konfiguration des Anordnens des Verzögerungsabschnitts 33 und des Verstärkungsabschnitts 41, so dass sie dem ersten Kanal entsprechen, veranschaulicht, doch kann, wie in 13 gezeigt, auch eine Konfiguration des Anordnens eines ähnlichen Verzögerungsabschnitts 34 und eines Verstärkungsabschnitts 42 verwendet werden, so dass sie dem zweiten Kanal entsprechen. Kurz gesagt ist in diesem Aspekt eine Konfiguration, bei der mindestens entweder das Audiosignal Sa1 oder das Audiosignal Sa2 relativ zum anderen verzögert ist, so dass die Phasendifferenz zwischen dem Audiosignal Sc1 des ersten Kanals und dem Audiosignals Sc2 des zweiten Kanals die Phasendifferenz sein kann, die dem addierten Wert der Dauer L1 und der Dauer L2 entspricht, oder eine Konfiguration, bei der mindestens entweder das Audiosignal Sb1 oder das Audiosignal Sb2 verstärkt wird, so dass das Verstärkungsverhältnis zwischen dem Audiosignal Sc1 des ersten Kanals und dem Audiosignal Sc2 des zweiten Kanals ein gewünschter Wert sein kann, für diesen Aspekt ausreichend, so dass eine Konfiguration dafür, wie die Verzögerung und die Verstärkung für jedes Audiosignal erreicht werden kann, außer Frage steht.
(3) In jeder Ausführungsform wurde die Konfiguration, bei der der Syntheseabschnitt 12 das Audiosignal Sa aus den Stimmsegmenten synthetisiert hat, veranschaulicht. Als eine Alternative zu dieser Konfiguration oder zusammen mit dieser Konfiguration kann jedoch auch eine Konfiguration verwendet werden, bei der das Audiosignal Sa gemäß der Stimme erzeugt wird, die der Benutzer tatsächlich zum Erklingen bringt. 14 ist ein Blockdiagramm, das eine Konfiguration der Audiosignalbearbeitungsvorrichtung D gemäß dieser modifizierten Ausführungsform zeigt. Eine Tonaufnahmevorrichtung 10, die in 14 gezeigt ist, ist ein Mittel (zum Beispiel ein Mikrofon) zum Aufnehmen der vom Benutzer abgegebenen Stimme zum Ausgeben des Audiosignals S0 gemäß dieser Stimme. Das Audiosignal S0, das von dieser Tonaufnahmevorrichtung 70 ausgegeben wird, wird an das Erzeugungsmittel 10 und einen Tonhöhenerfassungsabschnitt 65 geliefert. Wenn der Benutzer die artikulierte Stimme abgibt, die sich von der rauen oder harschen Stimme unterscheidet, so resultiert die Wellenform des Audiosignals S0 in einer Form, die im Teil (a) von 1 und dem Teil (a) von 3 gezeigt ist.

Wie in 14 gezeigt, enthält das Erzeugungsmittel 10 gemäß dieser modifizierten Ausführungsform ferner einen Tonhöhenumwandlungsabschnitt 15. Dieser Tonhöhenumwandlungsabschnitt 15 ist ein Mittel zum Umwandeln der Tonhöhe P0 des Audiosignals S0, das von der Tonaufnahmevorrichtung 70 geliefert wird, in das Audiosignal Sa (nämlich das Signal, das die Stimme ausdrückt, die um eine Oktave tiefer als die Stimme ist, die vom Audiosignal S0 ausgedrückt wird) die ungefähr eine Hälfte der Tonhöhe dieser Tonhöhe PaP0 ist, um das Audiosignal Sa auszugeben. Demgemäß resultiert dann die Wellenform des Audiosignals Sa, das vom Tonhöhenumwandlungsabschnitt 15 ausgegeben wird, in einer Form, die im Teil (b) von 3 dargestellt ist. Als das Verfahren zum Verschieben der Tonhöhe P0 des Audiosignals S0 können verschiedene wohlbekannte Verfahren eingesetzt werden.
Inzwischen ist der Tonhöhenerfassungsabschnitt 65 ein Mittel zum Erfassen der Tonhöhe P0 des Audiosignals S0, das von der Tonaufnahmevorrichtung 70 geliefert wird, um diese erfasste Tonhöhe P0 dem Verzögerungsgradberechnungsabschnitt 61 mitzuteilen. In einer Art und Weise, die derjenigen des ersten Aspekts ähnlich ist, berechnet der Verzögerungsgradberechnungsabschnitt 61 die Periode T0 (nämlich die Dauer, die ungefähr eine Hälfte der Periode Ta des Audiosignals Sa beträgt), die der Tonhöhe P0 entspricht, und legt diese Periode T0 als die Dauer L1 für den Verzögerungsabschnitt 31 fest. Die übrige Konfiguration ist die gleich wie diejenige des ersten Aspekts. Gemäß dieser modifizierten Ausführungsform kann, da die von dem Benutzer abgegebene Stimme in die raue oder harsche Stimme umgewandelt und ausgegeben werden kann, eine neue Attraktivität vorgesehen werden, indem sie zum Beispiel auf eine Karaokevorrichtung oder dergleichen angewendet wird. Übrigens kann in der in 14 gezeigten Konfiguration diese so angelegt werden, dass, nachdem das Audiosignal Sout, das vom Additionsmittel 50 ausgegeben wird, mit dem Audiosignal S0 addiert wird, das von der Tonaufnahmevorrichtung 70 ausgegeben wird, dieses als die Klangwelle von der Klangerzeugungsvorrichtung ausgegeben wird. Gemäß dieser Konfiguration kann, da die raue oder harsche Stimme, die von der Stimme erzeugt wird, die mit der Stimme des Benutzers zum Erklingen gebracht wird, die Attraktivität weiter erhöht werden.
Darüber hinaus kann das Audiosignal Sa, das als eine Basis zum Erzeugen des Audiosignals Sout verwendet wird, im Voraus vorbereitet werden. Das heißt, dass auf eine solche Weise konfiguriert werden kann, dass das Audiosignal Sa im Voraus im (nicht gezeigten) Speichermittel abgelegt werden kann, wobei dieses Audiosignal Sa dann nacheinander an das Verteilungsmittel 20 auszulesen ist. Es versteht sich, dass gemäß der vorliegenden Erfindung für diese Konfiguration lediglich das Erzeugen des Audiosignals Sa zum Ausdrücken der Stimme ausreichend ist, und ein Verfahren, wie diese erzeugt wird, nicht in Frage steht.

(4) In der ersten Ausführungsform wurde die Konfiguration veranschaulicht, bei der die Dauer, die dem addierten Wert zwischen der Dauer L1 und der Dauer L2 entspricht, als der Grad der Verzögerung durch das Verzögerungsmittel 30 eingestellt wurde, doch kann, selbst wenn der Grad der Verzögerung, der für dieses Verzögerungsmittel 30 eingestellt wird, als die Dauer eingestellt wird, die einem Differenzwert (L1–L2) zwischen der Dauer L1 und der Dauer L2 entspricht, eine Funktion erzielt werden, die derjenigen der ersten Ausführungsform ähnlich ist.
(5) In jeder Ausführungsform wurde die Konfiguration veranschaulicht, bei der das Verstärkungsmittel 40 in einer nachfolgenden Stufe nach dem Verzögerungsmittel 30 angeordnet war, doch kann diese Anordnung auch umgekehrt werden. Konkret kann eine solche Konfiguration verwendet werden, bei der das Verzögerungsmittel 40 das Audiosignal Sa1 und das Audiosignal Sa2, die vom Verteilungsmittel 20 ausgegeben werden, zwar entsprechend verstärkt, und diese auch als die Audiosignale Sb1 und Sb2 ausgibt, doch das Verzögerungsmittel 30 die Audiosignals Sb1 und Sb2, die vom Verstärkungsmittel 40 ausgegeben werden, verzögert und die Audiosignale Sc1 und Sc2 ausgibt.

Claims

Audiosignalbearbeitungsvorrichtung, mit: einem Erzeugungsabschnitt (10), der ein Audiosignal erzeugt, das eine Stimme repräsentiert; einem Verteilungsabschnitt (20), der das vom Erzeugungsabschnitt erzeugte Audiosignal auf einen ersten Kanal bzw. einen zweiten Kanal verteilt; einem Verzögerungsabschnitt (30), der das Audiosignal des ersten Kanals relativ zum Audiosignal des zweiten Kanals verzögert, um zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals eine Phasendifferenz zu erzeugen, sodass die erzeugte Phasendifferenz eine Dauer, die entweder einem addierten Wert einer ersten Dauer, die ungefähr die Hälfte einer Tonhöhenperiode des vom Erzeugungsabschnitt erzeugten Audiosignals ist, und einer zweiten Dauer, die kürzer als die erste Dauer eingestellt wird, oder einem Differenzwert der ersten Dauer und der zweiten Dauer entspricht; und einem Additionsabschnitt (50), der das Audiosignal des ersten Kanals mit dem Audiosignal des zweiten Kanals miteinander addiert, zwischen denen die Phasendifferenz vom Verzögerungsabschnitt erzeugt wird, und der das addierte Audiosignal ausgibt.
Audiosignalbearbeitungsvorrichtung nach Anspruch 1, ferner mit einem Amplitudenfeststellungsabschnitt, der eine Amplitude des vom Erzeugungsabschnitt erzeugten Audiosignals feststellt, und wobei der Verzögerungsabschnitt die zweite Dauer auf der Grundlage der vom Amplitudenfeststellungsabschnitt festgestellten Amplitude ändert.
Audiosignalbearbeitungsvorrichtung nach Anspruch 1, ferner mit einem Steuerabschnitt, der Daten zum Festlegen der zweiten Dauer empfängt und der die zweite Dauer für den Verzögerungsabschnitt gemäß den empfangenen Daten zum Festlegen der zweiten Dauer einstellt.
Audiosignalbearbeitungsvorrichtung nach Anspruch 1, ferner mit einem Verstärkungsabschnitt, der ein Verstärkungsverhältnis zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals einstellt, wobei der Additionsabschnitt das Audiosignal des ersten Kanals und das Audiosignal des zweiten Kanals miteinander addiert, nachdem das Verstärkungsverhältnis zwischen diesen vom Verstärkungsabschnitt eingestellt wurde.
Audiosignalbearbeitungsvorrichtung nach Anspruch 1, ferner mit einem Verzögerungsgradberechnungsabschnitt, der die erste Dauer für den Verzögerungsabschnitt so einstellt, dass die erste Dauer einer Periode entspricht, die eine Zieltonhöhe des auszugebenden Audiosignals definiert, wobei der Erzeugungsabschnitt das Audiosignal erzeugt, das eine Originaltonhöhe hat, die ungefähr die Hälfte der Zieltonhöhe ist.
Audiosignalbearbeitungsvorrichtung, mit: einem Erzeugungsabschnitt (10), der ein Audiosignal erzeugt, das eine Stimme repräsentiert; einem Verteilungsabschnitt (20), der das vom Erzeugungsabschnitt erzeugte Audiosignal auf einen ersten Kanal bzw. einen zweiten Kanal verteilt; einem Verzögerungsabschnitt (30), der das Audiosignal des ersten Kanals relativ zum Audiosignal des zweiten Kanals verzögert, um so zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals eine Phasendifferenz zu erzeugen, sodass die erzeugte Phasendifferenz eine Dauer hat, die ungefähr eine Hälfte einer Tonhöhenperiode des vom Erzeugungsabschnitt erzeugten Audiosignals ist; einem Verstärkungsabschnitt (40), der eine Amplitude des Audiosignals des ersten Kanals entlang einer Zeitachse variiert; und einem Additionsabschnitt (50), der das Audiosignal des ersten Kanals, das vom Verzögerungsabschnitt und vom Verstärkungsabschnitt einer Bearbeitung unterzogen wurde, und das Audiosignal des zweiten Kanals miteinander addiert und der das addierte Audiosignal ausgibt.
Audiosignalbearbeitungsvorrichtung nach Anspruch 6, wobei der Verzögerungsabschnitt das Audiosignal des ersten Kanals relativ zum Audiosignal des zweiten Kanals verzögert, sodass die erzeugte Phasendifferenz eine Dauer hat, die entweder einem addierten Wert einer ersten Dauer, die eine Hälfte der Periode des vom Erzeugungsabschnitt erzeugten Audiosignals ist, und einer zweiten Dauer, die kürzer als die erste Dauer eingestellt wird, oder einem Differenzwert der ersten Dauer und der zweiten Dauer entspricht.
Audiosignalbearbeitungsvorrichtung nach Anspruch 6, ferner mit einem Amplitudenfeststellungsabschnitt, der eine Amplitude des vom Erzeugungsabschnitt erzeugten Audiosignals feststellt, und wobei der Verstärkungsabschnitt die Amplitude des Audiosignals des ersten Kanals auf der Grundlage der vom Amplitudenfeststellungsabschnitt festgestellten Amplitude ändert.
Audiosignalbearbeitungsvorrichtung nach Anspruch 6, ferner mit einem Steuerabschnitt, der Daten zum Festlegen einer Verstärkung des Verstärkungsabschnitts empfängt und der die Verstärkung des Verstärkungsabschnitts gemäß den empfangenen Daten zum Festlegen der Verstärkung des Verstärkungsabschnitts ändert.
Audiosignalbearbeitungsvorrichtung nach Anspruch 6, ferner mit einem Verzögerungsgradberechnungsabschnitt, der die Dauer der Phasendifferenz für den Verzögerungsabschnitt so einstellt, dass die erste Dauer einer Periode entspricht, die eine Zieltonhöhe des auszugebenden Audiosignals definiert, wobei der Erzeugungsabschnitt das Audiosignal erzeugt, das eine Originaltonhöhe hat, die ungefähr die Hälfte der Zieltonhöhe ist.
Programm, das von einem Computer auszuführen ist, um ein Audiosignalbearbeitungsverfahren durchzuführen, mit: einem Erzeugungsprozess zum Erzeugen eines Audiosignals, das eine Stimme repräsentiert, und zum Liefern des erzeugten Audiosignals an einen ersten Kanal und einen zweiten Kanal; einem Verzögerungsprozess zum Verzögern des Audiosignals des ersten Kanals relativ zum Audiosignal des zweiten Kanals zum Erzeugen einer Phasendifferenz zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals, sodass die erzeugte Phasendifferenz eine Dauer hat, die entweder einem addierten Wert einer ersten Dauer, die ungefähr eine Hälfte einer Tonhöhenperiode des erzeugten Audiosignals ist, und einer zweiten Dauer, die kürzer als die erste Dauer eingestellt wird, oder einem Differenzwert der ersten Dauer und der zweiten Dauer entspricht; und einem Additionsprozess zum Addieren des Audiosignals des ersten Kanals und des Audiosignals des zweiten Kanals miteinander, zwischen denen die Phasendifferenz erzeugt wird, und zum Ausgeben des addierten Audiosignals.
Programm, das von einem Computer auszuführen ist, zum Durchführen eines Audiobearbeitungsverfahrens, mit: einem Erzeugungsprozess zum Erzeugen eines Audiosignals, das eine Stimme repräsentiert, und zum Liefern des erzeugten Audiosignals an einen ersten Kanal und einen zweiten Kanal; einem Verzögerungsprozess zum Verzögern des Audiosignals des ersten Kanals relativ zum Audiosignal des zweiten Kanals, um so eine Phasendifferenz zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals zu erzeugen, sodass die erzeugte Phasendifferenz eine Dauer hat, die ungefähr eine Hälfte einer Tonhöhenperiode des erzeugten Audiosignals ist; einem Verstärkungsprozess zum Variieren einer Amplitude des Audiosignals des ersten Kanals entlang einer Zeitachse; und einem Additionsprozess zum Addieren des Audiosignals des ersten Kanals, das dem Verzögerungsprozess und dem Verstärkungsprozess unterzogen wurde, und des Audiosignals des zweiten Kanals miteinander, und zum Ausgeben des addierten Audiosignals.