-
Hintergrund der Erfindung
-
[Technisches Gebiet]
-
Die
vorliegende Erfindung bezieht sich auf das technische Gebiet der
Bearbeitung eines Audiosignals und insbesondere auf eine Technik
zum Hinzufügen
von Effekten zum Audiosignal zum Ausgeben eines resultierenden Signals.
-
[Hintergrund der Erfindung]
-
Herkömmlicherweise
wurden verschiedene Arten von Techniken zum Erzeugen einer Stimme
mit gewünschten
Charakteristiken vorgeschlagen. Zum Beispiel offenbart die
japanische nicht geprüfte Patentveröffentlichung
(Kokai) Nr. 2002-202790 (Absätze 0049 und 0050) eine Technik
zum Synthetisieren der sogenannten heiseren Stimme. Gemäß dieser Technik
werden durch Durchführen
einer SMS-Analyse (Spectrum Modeling Synthesis) am Audiosignal, das
eine spezifische Stimme auf Rahmenbasis darstellt, eine harmonische
Komponente und eine nicht harmonische Komponente als Daten im Frequenzbereich
erzeugt, um einen Stimmabschnitt (ein Phonem oder eine Phonemkette)
zu erzeugen. Wenn die Stimme nun tatsächlich synthetisiert wird,
nachdem die Stimmabschnitte, die zum Beispiel einem bestimmten Vokalklang
(z. B. Liedtexten) entsprechen, miteinander verbunden werden, wird
eine Addierung der harmonischen Komponente und der nichtharmonischen
Komponente durchgeführt
und dann für
jeden Rahmen eine reverse schnelle Fourier-Transformationsverarbeitung
an einem Ergebnis dieser Addition durchgeführt, wodurch ein Audiosignal
erzeugt wird. Gemäß dieser
Konfiguration wird ein Merkmal der nicht harmonischen Komponente,
die zur harmonischen Komponente addiert wird, entsprechend geändert, um
das Erzeugen des Audiosignals mit den gewünschten Eigenschaften, wie
zum Beispiel der heiseren Stimme, zu erlauben.
-
Übrigens
kann sich wie bei einer echten menschlichen Stimme eine Periode
der Wellenform in jedem Augenblick unregelmäßig ändern. Diese Tendenz ist insbesondere
bei individuellen Stimmen, wie zum Beispiel einer rauen oder harschen
Stimme (der sogenannten krächzenden
Stimme), zu bemerken. Gemäß der herkömmlichen
oben beschriebenen Technik wird jedoch, da die Stimme durch das Verarbeiten
im Frequenzbereich für
jeden Rahmen synthetisiert wird, die Periode dieses synthetisierten Audiosignals
unvermeidlich für
jeden Rahmen konstant gehalten. Dadurch entsteht dahingehend ein Problem,
dass die unter der Verwendung dieser Technik erzeugte Stimme als
Ergebnis eine mechanische und unnatürliche Stimme ergibt, was an
weniger Veränderungen
in der Periode liegt, als sie bei der echten menschlichen Stimme
vorkommen. Es sollte dabei bemerkt werden, dass der Fall des Synthetisierens
der Stimme durch Verbinden der Stimmsegmente hier als ein Beispiel
beschrieben wurde, jedoch auf ein gleiches Problem auch bei einer
Technik des Änderns
der Charakteristiken der Stimme, die ein Benutzer abgibt, und zum
Ausgeben einer resultierenden Stimme getroffen wird. Wie ersichtlich
ist, wird auch bei dieser Technik das Audiosignal, das von einer
Klangaufnahmevorrichtung, wie zum Beispiel einem Mikrofon, geliefert
wird, für
jeden Rahmen in Daten im Frequenzbereich umgewandelt, und wird für jeden
Rahmen nach dem entsprechenden Ändern der
Frequenzcharakteristiken das Audiosignal im Zeitbereich erzeugt,
so dass die Periode der Stimme in einem Rahmen konstant gehalten
wird. Daher besteht auch gemäß dieser
Technik, ähnlich
wie bei der Technik, die in der
japanischen
nicht geprüften
Patentveröffentlichung
(Kokai) Nr. 2002-202790 offenbart ist, eine Grenze für das Erzeugen
einer natürlichen
Stimme, die der tatsächlichen
menschlichen Stimme nahe kommt.
-
Die
Druckschrift
US 5,381,514 offenbart
ein Verfahren zum Verbessern der Qualität stimmloser synthetisierter
Sprache durch Kombinieren der Wellenform mit einer verzögerten Version
von dieser. Die Verzögerung
wird zufällig
festgelegt, und die verzögerte
Wellenform wird durch eine Zufallsverstärkung skaliert.
-
Eine
weitere Druckschrift
US 5,763,803 offenbart
ein System, das zum Anwenden eines Effekts auf ein von einer elektrischen
Gitarre erzeugtes Signal geeignet ist. Der Klang wird um einen von
der Tonhöhe
und der Amplitude abhängigen
Faktor verzögert.
-
Eine
weitere Druckschrift
US
2004/0136546 A1 offenbart einen Chorus-Effekt-Generator. Die Chorus-Verzögerung wird
durch den Benutzer eingestellt.
-
Zusammenfassung der Erfindung
-
Die
vorliegende Erfindung wurde angesichts der oben beschriebenen Situation
gemacht und ist auf das Erzeugen einer natürlichen Stimme mit verschiedenen
Charakteristiken gerichtet.
-
Um
das Problem zu lösen,
weist ein erstes Merkmal einer Audiosignalbearbeitungsvorrichtung gemäß Anspruch
1 der vorliegenden Erfindung Folgendes auf: einen Erzeugungsabschnitt,
der ein Audiosignal erzeugt, das eine Stimme repräsentiert;
einen Verteilungsabschnitt, der das vom Erzeugungsabschnitt erzeugte
Audiosignal auf einen ersten Kanal bzw. einen zweiten Kanal verteilt;
einen Verzögerungsabschnitt,
der das Audiosignal des zweiten Kanals relativ zum Audiosignal des
zweiten Signals verzögert,
so dass zwischen dem Audiosignal des ersten Kanals und dem Audiosignal
des zweiten Kanals eine Phasendifferenz eine Dauer haben kann, die
einem addierten Wert oder einem Differenzwert einer ersten Dauer,
die ungefähr
die Hälfte
einer Periode des vom Erzeugungsabschnitt erzeugten Audiosignals
ist, und einer zweiten Dauer, die kürzer als die erste Dauer eingestellt
wird (genauer gesagt, kürzer als
ungefähr
eine Hälfte
der ersten Dauer eingestellt wird), entspricht; und einen Additionsabschnitt,
der das Audiosignal des ersten Kanals mit dem Audiosignal des zweiten
Kanals miteinander addiert, dem die Phasendifferenz vom Verzögerungsabschnitt
gegeben wird, um ein addiertes Audiosignal auszugeben. Übrigens
wird ein spezifisches Beispiel dieser Konfiguration später als
eine erste Ausführungsform
beschrieben.
-
Gemäß dieser
Konfiguration resultieren, da das Audiosignal des ersten Kanals
relativ zum Audiosignal des zweiten Kanals verzögert wird, so dass die Phasendifferenz
zwischen den Audiosignalen, die auf die entsprechenden Kanäle verzweigt
werden, die Phasendifferenz gemäß dem addierten
Wert oder dem Differenzwert zwischen der ersten Dauer, die ungefähr eine
Hälfte
der Periode des Audiosignals sein kann, das vom Erzeugungsabschnitt
erzeugt wird, und die zweite Dauer, die kürzer als die erste Dauer eingestellt
wird, das durch Addieren der Audiosignale der entsprechenden Kanäle erhaltene Audiosignal
in einer Wellenform, in der die Periode für jede einzelne Wellenform
geändert
wird. Deshalb kann gemäß der vorliegenden
Erfindung eine natürliche
Stimme, die die heisere Stimme eines echten menschlichen Wesens
imitiert, sowie auch eine raue oder harsche Stimme erzeugt werden.
-
Es
wird darauf hingewiesen, dass der Verzögerungsabschnitt gemäß der vorliegenden
Erfindung durch einen Verzögerungsabschnitt
(z. B. siehe 12) oder auch durch eine Vielzahl
von Verzögerungsabschnitten
dargestellt werden kann, die der ersten Dauer bzw. der zweiten Dauer
entsprechen. In der letzteren Konfiguration weist der Verzögerungsabschnitt
einen ersten Verzögerungsabschnitt
(zum Beispiel einen Verzögerungsabschnitt 31 in 4) zum
Verzögern
des Audiosignals des ersten Kanals relativ zum Audiosignal des zweiten
Kanals um die erste Dauer auf, die ein Verzögerungsdauerberechnungsabschnitt
berechnet, sowie einen zweiten Verzögerungsabschnitt (zum Beispiel
einen Verzögerungsabschnitt 32 in 4)
zum Verzögern
des Audiosignals des ersten Kanals relativ zum Audiosignal des zweiten
Kanals, um die zweite Dauer, die kürzer als die erste Dauer eingestellt
wird.
-
Gemäß einem
bevorzugten Aspekt der vorliegenden Erfindung weist die Audiosignalbearbeitungsvorrichtung
ferner Folgendes auf: einen Amplitudenfeststellungsabschnitt zum
Feststellen einer Amplitude des Audiosignals, das vom Erzeugungsabschnitt
erzeugt wird, wobei der Verzögerungsabschnitt
die zweite Dauer auf der Grundlage der vom Amplitudenfeststellungsabschnitt
festgestellten Amplitude ändert.
Gemäß diesem
Aspekt wird die zweite Dauer auf der Grundlage der Amplitude des
Audiosignals geändert,
das vom Erzeugungsabschnitt erzeugt wird, um dadurch die Charakteristiken
der echten Stimme genau nachzubilden. Wenn zum Beispiel die zweite
Dauer länger
gemacht wird, während
die Amplitude des vom Erzeugungsabschnitt erzeugten Audiosignals
größer wird
(nämlich,
wenn die zweite Dauer kürzer
gemacht wird, während
die Amplitude des vom Erzeugungsabschnitt erzeugten Audiosignals
kleiner wird), ist es möglich,
eine Tendenz der Stimme zu realisieren, bei der, je lauter das Stimmvolumen
wird, desto merklicher die Charakteristiken der rauen oder harschen
Stimme sind. Ein spezifisches Beispiel dieses Aspekts wird später als
ein zweiter Aspekt der ersten Ausführungsform beschrieben (5).
-
Gemäß noch einem
weiteren Aspekt enthält die
Audiosignalbearbeitungsvorrichtung ferner einen Steuerabschnitt,
der Daten zum Festlegen der zweiten Dauer empfängt und die zweite Dauer, die
durch diese Daten festgelegt wird, im Verzögerungsabschnitt einstellt.
Gemäß diesem
Aspekt können
durch entsprechendes Auswählen
von Einzelheiten der Daten die Charakteristiken als die raue oder
harsche Stimme automatisch zu einer bestimmten Zeit geändert werden.
-
Ein
spezifisches Beispiel für
diesen Aspekt wird später
als ein dritter Aspekt der ersten Ausführungsform beschrieben (7).
-
Gemäß noch einem
weiteren Aspekt weist die Audiosignalbearbeitungsvorrichtung ferner
einen Verstärkungsabschnitt
zum Einstellen eines Verstärkungsverhältnisses
zwischen dem Audiosignal des ersten Kanals und dem Audiosignal des
zweiten Kanals auf, wobei der Additionsabschnitt die Audiosignale
des ersten Kanals und des zweiten Kanals nach deren Einstellung
durch den Verstärkungsabschnitt addiert,
um ein addiertes Audiosignal auszugeben. Gemäß diesem Aspekt kann durch
entsprechendes Einstellen des Verstärkungsverhältnisses zwischen dem Audiosignal
des ersten Kanals und dem Audiosignal des zweiten Kanals die raue
oder harsche Stimme mit gewünschten
Charakteriken ausgegeben werden. Übrigens kann ein Verfahren
zum Auswählen
der im Verstärkungsabschnitt
eingestellten Verstärkung
auch willkürlich
verwendet werden. Zum Beispiel kann er in einer solchen Weise konfiguriert sein,
dass die festgelegte Verstärkung
im Verstärkungsabschnitt
durch eine Eingabevorrichtung auf der Grundlage einer Betätigung durch
den Benutzer eingestellt wird, oder dass der Amplitudenfeststellungsabschnitt
zum Feststellen der Amplitude des vom Erzeugungsabschnitt erzeugten
Audiosignals die Verstärkung
des Verstärkungsabschnitts
gemäß dieser
festgestellten Amplitude einstellt.
-
Ein
zweites Merkmal einer Audiosignalbearbeitungsvorrichtung nach Anspruch
6 der vorliegenden Erfindung enthält Folgendes: einen Erzeugungsabschnitt,
der ein Audiosignal erzeugt, das eine Stimme repräsentiert;
einen Verteilungsabschnitt, der das vom Erzeugungsabschnitt erzeugte
Audiosignal auf einen ersten Kanal bzw. einen zweiten Kanal verteilt; einen
Verzögerungsabschnitt,
der das Audiosignal des ersten Kanals relativ zum Audiosignal des
zweiten Signals verzögert,
so dass die zwischen dem Audiosignal des ersten Kanals und dem Audiosignal
des zweiten Kanals erzeugte Phasendifferenz eine Dauer hat, die
ungefähr
eine Hälfte
einer Periode des vom Erzeugungsabschnitt erzeugten Audiosignals
ist; einen Verstärkungsabschnitt,
der eine Amplitude des Audiosignals des ersten Kanals mit der Zeit
variiert; und einen Additionsabschnitt zum Addieren der Audiosignale
des ersten Kanals und des zweiten Kanals, nachdem diese der Bearbeitung
durch den Verzögerungsabschnitt
und den Verstärkungsabschnitt
unterzogen wurden, um ein addiertes Audiosignal auszugeben. Übrigens
wird ein spezifisches Beispiel für diese
Konfiguration später
als eine zweite Ausführungsform
beschrieben.
-
Gemäß dieser
Konfiguration ändert
sich die Amplitude des Audiosignals des ersten Kanals, das relativ
zum Audiosignal des zweiten Kanals um die Dauer verzögert wird,
mit der Zeit. Zum Beispiel wird die Amplitude des Audiosignals des
ersten Kanals mit dem Verstreichen der Zeit erhöht, so dass es möglich ist,
eine natürliche
Stimme zu erzeugen, die allmählich
von einer ursprünglichen
Tonhöhe
des Audiosignals, das vom Erzeugungsabschnitt erzeugt wird, mit
dem Verstreichen der Zeit auf eine Zieltonhöhe verschoben wird, die doppelt
so hoch ist (die nämlich
um eine Oktave höher
ist). Hierbei ist zu beachten, dass die Tonhöhe in der vorliegenden Erfindung
eine Grundfrequenz der Stimme bedeutet.
-
In
einem weiteren Aspekt der Audiosignalbearbeitungsvorrichtung mit
dem zweiten Merkmale ist ferner ein Amplitudenfeststellungsabschnitt
zum Feststellen einer Amplitude des vom Erzeugungsabschnitt erzeugten
Audiosignals vorgesehen, wobei der Verstärkungsabschnitt die Amplitude
des Audiosignals des ersten Kanals in Abhängigkeit von der Amplitude ändert, die
vom Amplitudenfeststellungsabschnitt festgestellt wurde. Gemäß diesem
Aspekt ist es, wenn der Erzeugungsabschnitt das Audiosignal erzeugt,
dessen Amplitude allmählich
von einem bestimmten Zeitpunkt an angehoben wird, möglich, eine
derartige Stimme zu erzeugen, die sich allmählich einer Stimme nähert, deren
Tonhöhe
gegenüber der
Anfangstonhöhe
um eine Oktave höher
ist (eine Tonhöhe
des Audiosignals, das vom Erzeugungsabschnitt erzeugt wird). Ein
spezifisches Beispiel dieses Aspekts wird später als ein erstes Beispiel
der zweiten Ausführungsform
beschrieben (siehe 8).
-
Es
versteht sich, dass die Konfiguration zum Einstellen der Verstärkung des
Verstärkungsabschnitts
hierauf nicht eingeschränkt
ist. Zum Beispiel ist gemäß einem
weiteren Aspekt ein Steuerabschnitt vorgesehen, der Daten zum Festlegen
der Verstärkung
des Verstärkungsabschnitts
empfängt
und die von diesen Daten festgelegte Verstärkung für den Verstärkungsabschnitt einstellt.
Bei diesem Aspekt ist es, wenn der Steuerabschnitt die vom Verstärkungsabschnitt
festgelegte Verstärkung
mit Verstreichen der Zeit auf der Grundlage der Daten erhöht, möglich, eine
solche natürliche
Stimme zu erzeugen, bei der die Stimme allmählich von der Anfangstonhöhe zur Tonhöhe, die
um eine Oktave höher
ist, verschoben wird. Ein spezifisches Beispiel für diesen Aspekt
wird später
als ein zweiter Aspekt der zweiten Ausführungsform beschrieben (10).
-
Gemäß einem
spezifischen Aspekt der Audiosignalbearbeitungsvorrichtung mit dem
ersten und dem zweiten Merkmal ist ein Verzögerungsgradberechnungsabschnitt
zum Festlegen einer Periode (Periode T0 in 3) vorgesehen,
die einer Zieltonhöhe
(Tonhöhe
P0 in 3) entspricht, als die erste Dauer im Verzögerungsabschnitt,
wobei der Erzeugungsabschnitt ein Audiosignal mit einer Tonhöhe erzeugt,
die ungefähr
eine Hälfte
der Zieltonhöhe
beträgt.
Gemäß diesem
Aspekt kann eine Stimme erzeugt werden, die der Zieltonhöhe entspricht.
Es versteht sich, dass ein Verfahren zum Auswählen der Zieltonhöhe und ein
Verfahren zum Erzeugen des Audiosignals der Tonhöhe durch den Erzeugungsabschnitt
willkürlich
eingesetzt werden können.
Zum Beispiel kann eine derartige Konfiguration eingesetzt werden,
bei der der Erzeugungsabschnitt Daten zum Festlegen der Zieltonhöhe empfängt, um
das Audiosignal derjenigen Tonhöhe
zu synthetisieren, die ungefähr
eine Hälfte
der durch diese Daten festgelegten Tonhöhe entspricht (Tonhöhe Pa in 3),
indem die Stimmsegmente verbunden werden, und der Verzögerungsgradberechnungsabschnitt
eine Periode, die der durch die Daten festgelegten Tonhöhe entspricht, als
die erste Dauer berechnet (erste und zweite Ausführungsform). Inzwischen berechnet
in einer Konfiguration, die einen Tonhöhenerfassungsabschnitt zum
Erfassen der Tonhöhe
des Audiosignals enthält, das
von einer Tonaufnahmevorrichtung geliefert wird, als die Zieltonhöhe, der
Verzögerungsgradberechnungsabschnitt
eine Periode, die der Tonhöhe
entspricht, die vom Tonhöhenerfassungsabschnitt
erfasst wurde, als die erste Dauer, und wandelt der Erzeugungsabschnitt
die Tonhöhe
des Audiosignals, das von der Tonaufnahmevorrichtung geliefert wird, in
eine Tonhöhe
um, die ungefähr
einer Hälfte
der Tonhöhe
entspricht, die vom Tonhöhenerfassungsabschnitt
erfasst wurde (zum Beispiel siehe 14). Eine
natürliche
Stimme mit verschiedenen Charakteristiken kann in einer beliebigen
der beschriebenen Konfigurationen erzeugt werden.
-
Übrigens
können
bei der Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung
das erste Merkmal und das zweite Merkmal entsprechend zusammen kombiniert
werden. Zum Beispiel kann der Verzögerungsabschnitt der Audiosignalbearbeitungsvorrichtung
gemäß dem zweiten Merkmal
zum Verzögern des
Audiosignals des ersten Kanals relativ zum Audiosignal des zweiten
Kanals verwendet werden, so dass eine Phasendifferenz zwischen dem
Audiosignal des ersten Kanals und dem Audiosignal des zweiten Kanals
eine Dauer haben kann, die dem addierten Wert entspricht, oder einem
Differenzwert zwischen der ersten Dauer und der zweiten Dauer, die
kürzer
als die erste Dauer eingestellt wird, entspricht. Darüber hinaus
ist die Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung
so definiert, dass sie eine Konfiguration aufweist, bei der das
Audiosignal auf den ersten Kanal und den zweiten Kanal verteilt
wird, doch kann auch eine andere Konfiguration, bei der das Audiosignal,
das vom Erzeugungsabschnitt erzeugt wird, auf mehrere Kanäle verteilt
wird, im Umfang der vorliegenden Erfindung enthalten sein, wenn
ein Kanal unter diesen als der erste Kanal und der andere Kanal
als der zweite Kanal betrachtet wird.
-
Die
Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung
kann nicht nur durch Hardware, wie zum Beispiel einen DSP (digitalen
Signalprozessor), der für
die Audiosignalbearbeitung dediziert ist, praktisch umgesetzt werden,
sondern auch durch eine Zusammenarbeit zwischen einem Computer,
wie zum Beispiel einem PC, und Software. Ein Programm gemäß einem
ersten Merkmal der vorliegenden Erfindung ist mit Befehlen ausgestattet,
die dazu fähig
sind, es einem Computer zu erlauben, einen Erzeugungsprozess zum
Erzeugen eines Audiosignals auszuführen, das eine Stimme repräsentiert, einen
Verzögerungsprozess
zum Verzögern
eines Audiosignals eines ersten Kanals relativ zu einem Audiosignal
eines zweiten Kanals, so dass eine Phasendifferenz zwischen den
Audiosignalen des ersten Kanals und dem Audiosignal des zweiten
Kanals, auf welche das von der Erzeugungsverarbeitung erzeugte Audiosignal
verteilt wird, eine Dauer haben kann, die einen addierten Wert oder
einem Differenzwert zwischen einer ersten Dauer, die ungefähr die Hälfte einer
Periode des Audiosignals beträgt,
das vom Erzeugungsprozess erzeugt wird, und einer zweiten Dauer,
die kürzer
als die erste Dauer eingestellt wird, entspricht, sowie ein Additionsprozess
zum Addieren der Audiosignale des ersten Kanals und des zweiten Kanals,
denen die Phasendifferenz in der Verzögerungsverarbeitung gegeben
wird, um ein addiertes Audiosignal auszugeben.
-
Gemäß einem
weiteren Aspekt ist ein Computerprogramm nach Anspruch 11 vorgesehen.
-
Darüber hinaus
ist ein Programm nach Anspruch 12 der vorliegenden Erfindung mit
Befehlen ausgestattet, die dazu fähig sind, es einem Computer zu
erlauben, die folgenden Prozesse auszuführen: einen Erzeugungsprozess
zum Erzeugen eines Audiosignals, das eine Stimme repräsentiert,
einen Verzögerungsprozess
zum Verzögern
eines Audiosignals eines ersten Kanals relativ zu einem Audiosignal eines
zweiten Kanals, so dass eine Phasendifferenz zwischen dem Audiosignal
des ersten Kanals und dem Audiosignal des zweiten Kanals, auf welche
das vom Erzeugungsprozess erzeugte Audiosignal verteilt wird, eine
Dauer haben kann, die ungefähr
einer Hälfte
einer Periode des von der Erzeugungsverarbeitung erzeugten Audiosignals
entspricht, einen Verstärkungsprozess
zum Ändern
einer Amplitude des Audiosignals des ersten Kanals mit der Zeit,
und einen Additionsprozess zum Addieren des Audiosignals des ersten
Kanals, das dem Verzögerungsprozess
und dem Verstärkungsprozess
unterliegt, und des Audiosignals des zweiten Kanals miteinander, um
dadurch ein addiertes Audiosignal auszugeben. Ebenfalls gemäß diesem
Programm können
eine Funktion und ein Effekt erzielt werden, die mit denjenigen
bei der Audiosignalbearbeitungsvorrichtung gemäß dem zweiten Merkmal der vorliegenden
Erfindung identisch sind. Übrigens
wird das erfindungsgemäße Programm
einem Benutzer nicht nur in einer auf einem computerlesbaren Aufzeichnungsmedium aufgezeichneten
Form, wie zum Beispiel einer CD-Rom, die auf dem Computer zu installieren
ist, zur Verfügung
gestellt, sondern auch von einer Servervorrichtung in der Form einer
Verteilung über
ein Netzwerk zur Verfügung
gestellt, um dann im Computer installiert zu werden. Wie oben beschrieben,
kann gemäß der vorliegenden
Erfindung eine natürliche Stimme
mit verschiedenen Charakteristiken erzeugt werden.
-
Kurze Beschreibung der Zeichnungen
-
Es
zeigt:
-
1 eine
Audiosignalwellenform, die eine raue bzw. harsche Stimme repräsentiert;
-
2 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung
gemäß einer
ersten Ausführungsform
zeigt;
-
3 eine
Audiosignalwellenform in Verbindung mit dem Bearbeitungsvorgang
durch die Audiosignalbearbeitungsvorrichtung;
-
4 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung
gemäß einem
ersten Aspekt der ersten Ausführungsform
zeigt;
-
5 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung
gemäß einem
zweiten Aspekt der ersten Ausführungsform
zeigt;
-
6 eine
Kurvendarstellung einer Beziehung zwischen der Amplitude des Audiosignals
Sa und einer Dauer L2 im zweiten Aspekt der ersten Ausführungsform;
-
7 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung
gemäß einem
dritten Aspekt der ersten Ausführungsform
zeigt;
-
8 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung
gemäß einem
ersten Aspekt einer zweiten Ausführungsform
zeigt;
-
9 entsprechende
Audiosignalwellenformen gemäß dem ersten
Aspekt der zweiten Ausführungsform;
-
10 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalverarbeitungsvorrichtung gemäß einem
zweiten Aspekt der zweiten Ausführungsform
zeigt;
-
11 entsprechende
Audiosignalwellenformen gemäß dem zweiten
Aspekt der zweiten Ausführungsform;
-
12 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einer
modifizierten Ausführungsform
zeigt;
-
13 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einer
weiteren modifizierten Ausführungsform zeigt;
und
-
14 ein
Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß noch einer
weiteren modifizierten Ausführungsform
zeigt.
-
Detaillierte Beschreibung
der Erfindung
-
Eine
Audiosignalbearbeitungsvorrichtung gemäß der vorliegenden Erfindung
wird in angemessener Weise zum Erzeugen verschiedener Stimmen, wie
zum Beispiel insbesondere einer rauen oder harschen Stimme, verwendet.
Es wird nun vor der Beschreibung einer Konfiguration der Audiosignalbearbeitungsvorrichtung
gemäß der vorliegenden
Erfindung zuerst eine Audiosignalwellenform zum Ausdrücken der
rauen oder harschen Stimme erläutert. Ein
Teil (b) von 1 zeigt eine Wellenform auf
einer Zeitachse D eines Audiosignals Sout, das die raue oder harsche
Stimme ausdrückt.
Eine Ordinate von 1 repräsentiert eine Amplitude A.
Darüber
hinaus ist in einem Teil (a) von 1 ein Audiosignal
S0, das eine artikulierte Stimme (die sogenannte klare Stimme) ohne
Heiserkeit und Belegtheit ausdrückt, gleichzeitig
zu Zwecken des Vergleichs dargestellt. Wie im Teil (a) von 1 gezeigt,
hat die Wellenform des Audiosignals S0 eine Form, bei der Wellenformen
U, die als eine wiederholte Einheit (die hiernach als eine "Einheitswellenform" bezeichnet wird)
verwendet werden, in gleichmäßigen Intervallen
auf der Zeitachse angeordnet sind. Bei diesem Audiosignal S0 ist
eine Periode T0 einer jeden Einheitswellenform U fast gleich. Im
Gegensatz dazu hat, wie im Teil (b) von 1 gezeigt,
eine Wellenform des Audiosignals Sout, das die raue oder harsche
Stimme ausdrückt, eine
Form, bei der sich zwei Typen von Einheitswellenformen U (U1 und
U2), deren Perioden sich voneinander unterscheiden, auf der Zeitachse
abwechseln. Zum Beispiel ist im Teil (b) von 1 eine Periode
T1 der Einheitswellenform U1 länger
als eine Periode T2 der Einheitswellenform U2, die ihr unmittelbar
folgt, und ferner ist diese Periode T2 kürzer als die Periode T1 der
Einheitswellenform U1, die unmittelbar nach dieser Einheitswellenform
U2 folgt.
-
(A: Erste Ausführungsform)
-
Zuerst
wird anhand von 2 eine Konfiguration einer Audiosignalbearbeitungsvorrichtung
gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung erläutert.
Diese Audiosignalbearbeitungsvorrichtung D ist eine Vorrichtung
zum Erzeugen des Audiosignals Sout zum Ausdrücken der rauen oder harschen
Stimme, wie im Teil (b) von 1 gezeigt, und
ist, wie in 2 gezeigt, mit einem Erzeugungsmittel 10,
einem Verteilungsmittel 20, einem Verzögerungsmittel 30,
einem Verstärkungsmittel 40 und
einem Additionsmittel 50 ausgerüstet. Es versteht sich, dass
das Erzeugungsmittel 10, das Verzögerungsmittel 30,
das Verstärkungsmittel 40 und
das Additionsmittel 50 jeweils durch Hardware, wie zum
Beispiel digitale Signalprozessoren (DSP) oder dergleichen, die
zum Verarbeiten des Audiosignals dediziert sind, dargestellt werden
können,
oder auch durch die Ausführung
eines Programms in einer Verarbeitungseinheit, wie zum Beispiel
einer CPU (Central Processing Unit/Zentraleinheit) oder dergleichen
umgesetzt werden können.
-
Das
Erzeugungsmittel 10, das in 2 gezeigt
ist, ist ein Mittel zum Erzeugen eines Audiosignals (nämlich eines
Signals einer Wellenform, die einer Wellenform einer tatsächlichen
Klangwelle ähnlich
ist) Sa im Zeitbereich. Insbesondere erzeugt das Erzeugungsmittel 10 das
Audiosignal Sa mit einer Wellenform, die in einem Teil (b) von 3 gezeigt ist.
Inzwischen ist in einem Teil (a) von 3 eine Wellenform
des Audiosignals S0, das eine Tonhöhe P0 (Zieltonhöhe) hat,
die zum Audiosignal Sout äquivalent
ist, das die Audiosignalbearbeitungsvorrichtung D erzeugen sollte,
gleichzeitig zum Vergleich mit dem anderen Audiosignal dargestellt.
Wie im Teil (a) von 1 gezeigt, ist dieses Audiosignal
S0 ein Signal, das eine Stimme repräsentiert, die hörbar als eine
artikulierte Stimme wahrgenommen wird (es handelt sich nämlich weder
um eine heisere Stimme noch um eine raue oder harsche Stimme). Wie
im Teil (b) von 3 gezeigt, drückt das
Audiosignal Sa, das das Erzeugungsmittel 10 erzeugt, eine
Stimme aus, die um eine Oktave tiefer als das Audiosignal S0 ist. Mit
anderen Worten erzeugt das Erzeugungsmittel 10 das Audiosignal
Sa mit einer Tonhöhe
Pa (Periode Ta), die ungefähr
die Hälfte
der Zieltonhöhe
P0 ist.
-
Das
Verteilungsmittel 20, das in 2 gezeigt
ist, ist ein Mittel zum Verteilen des Audiosignals Sa, das vom Erzeugungsmittel 10 erzeugt
wird, auf ein Audiosignal Sa1 eines ersten Kanals und ein Audiosignal
Sa2 eines zweiten Kanals. In 2 ist ein Fall
gezeigt, bei dem das Verteilungsmittel 20 durch Verzweigen
eines Übertragungspfads,
der sich von einem Ausgang des Erzeugungsmittels 10 erstreckt, auf
zwei Kanäle
erzielt wird. Die Audiosignale Sa1 und Sa2 werden an das Verzögerungsmittel 30 geliefert.
Dieses Verzögerungsmittel 30 verzögert das
Audiosignal Sa1 des ersten Kanals relativ zum Audiosignal Sa2 des
zweiten Kanals und gibt sie als die Audiosignale Sb1 bzw. Sb2 an
das Verstärkungsmittel 40 aus.
Das Verstärkungsmittel 40 ist
ein Mittel zum entsprechenden Einstellen eines Verstärkungsverhältnisses
zwischen dem Audiosignal Sb1 und dem Audiosignal Sb2 und zum Ausgeben
entsprechender Signale nach dieser Einstellung als Audiosignale
Sc1 bzw. Sc2. Das Additionsmittel 50 erzeugt ein Audiosignal
Sout durch Addieren des Audiosignals Sc1 des ersten Kanals mit dem
Audiosignal Sc2 des zweiten Kanals, die vom Verstärkungsmittel 40 ausgegeben werden,
um dadurch ein addiertes Audiosignal auszugeben. Dieses Audiosignal
Sout wird dann als eine Klangwelle zum Erklingen gebracht, nachdem
es an eine Klangerzeugungsvorrichtung, wie zum Beispiel einen Lautsprecher,
einen Ohrhörer
oder dergleichen, geliefert wurde.
-
Hier
ist in einem Teil (c) von 3 das Audiosignal
Sb2, das vom Verzögerungsmittel 30 ausgegeben
wird, gezeigt, während
in einem Teil (e) von 3 das Audiosignal Sb1 gezeigt
ist, das vom Verzögerungsmittel 30 ausgegeben
wird. In dieser Ausführungsform
ist das Audiosignal Sa1 relativ zum Audiosignal Sa2 verzögert, so
dass eine Phasendifferenz zwischen dem Audiosignal Sb1 und dem Audiosignal
Sb2 eine Phasendifferenz sein kann, die einem addierten Wert (L1
+ L2) zwischen einer Dauer L1, die ungefähr eine Hälfte der Periode Ta des Audiosignals
Sa beträgt,
und einer Dauer L2, die kürzer als
L1 ist, entspricht. Insbesondere erzeugt zuerst durch Verzögern des
Audiosignals Sa1 um die Dauer L1, die ungefähr gleich einer Hälfte der
Periode Ta des Audiosignals Sa (nämlich der Periode T0, die der Zieltonhöhe P0 entspricht)
ist, das Verzögerungsmittel 30 das
Audiosignal Sa1',
das in einem Teil (d) von 3 gezeigt
ist, und erzeugt zweitens durch Verzögern dieses Audiosignals Sa1' um die Dauer L2,
die kürzer
als die Dauer L1 ist, das Audiosignal Sb1, das in einem Teil (e)
von 3 gezeigt ist. Wenn wir nun annehmen, dass das
Audiosignal Sa1' und
das Audiosignal Sb2 addiert werden, dann hat das Audiosignal Sout,
das aus der Addition resultiert, eine Wellenform, in der eine große Anzahl
von Einheitswellenformen U, die jeweils dieselbe Periode T0 haben,
in gleichmäßigen Intervallen
angeordnet sind, wie im Teil (a) von 1 und dem
Teil (a) von 3 gezeigt ist. Im Gegensatz
dazu wird, wenn das Audiosignal Sb1, das durch eine weitere Verzögerung des
Audiosignals Sa1' um
die Dauer L2 erhalten wird, zum Audiosignal Sb2, wie es im Teil
(b) von 1 und im Teil (f) von 3 gezeigt
ist, addiert wird, das Audiosignal Sout mit der Wellenform, bei
der entsprechende Einheitswellenformen U (U1 + U2), die jeweils
unterschiedliche Perioden haben, alternierend auf der Zeitachse
angeordnet sind, erzeugt. Wie oben beschrieben, ist das Audiosignal
Sout, das solche Charakteristiken aufweist, ein Signal, das eine
individuelle Stimme, die an Ausdruck reich ist, wie zum Beispiel
eine raue oder harsche Stimme, ausdrückt.
-
Wie
oben beschrieben, ist gemäß der vorliegenden
Ausführungsform
das Audiosignal Sa im Zeitbereich, das die Tonhöhe Pa hat, die ungefähr gleich
einer Hälfte
der Zieltonhöhe
P0 ist, auf zwei Kanäle
aufgeteilt, und werden die Audiosignale Sa1 und Sa2 der entsprechenden
Kanäle
miteinander addiert, nachdem ihnen die Phasendifferenz verliehen wurde,
die dem addierten Wert der Dauer L1 und der Dauer L2 entspricht,
so dass das Audiosignal Sout erzeugt wird. Wie sich versteht, wird
es hierdurch, da das Audiosignal im Zeitbereich (ohne in Rahmen
aufgeteilt zu werden) verarbeitet wird, wie im Teil (b) von 1 gezeigt,
möglich,
eine Stimme, bei der die Dauer einer jeden Einheitswellenform U
sich in jedem Augenblick ändert,
nämlich
eine natürliche
Stimme, die einer rauen oder harschen Stimme eines echten menschlichen
Wesens nahe kommt, zu erzeugen. Hiernach wird ein spezifischerer
Aspekt der Audiosignalbearbeitungsvorrichtung D, die in 2 gezeigt ist,
erläutert. Übrigens
wird dasselbe oder ein ähnliches
Bezugszeichen einem Teil gegeben, der derselben oder einer ähnlichen
Funktion dient, und zwar durchwegs in den unten gezeigten unterschiedlichen Zeichnungen.
-
(A1: Erster Aspekt)
-
4 ist
ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einem
ersten Aspekt zeigt. Das Erzeugungsmittel 10 einer Audiosignalbearbeitungsvorrichtung Da1
gemäß diesem ersten
Aspekt ist ein Mittel zum Synthetisieren des Audiosignals Sa durch
Verbinden von Stimmsegmenten auf der Grundlage von Tonhöhendaten
Dp und Stimmklangdaten Dv, die von einer äußeren Quelle geliefert werden.
Die Tonhöhendaten Dp
sind Daten zum Festlegen einer Tonhöhe des Audiosignals Sout, das
von der Audiosignalbearbeitungsvorrichtung Da1 ausgegeben werden
sollte, und die Stimmklangdaten Dv sind Daten zum Festlegen eines
Stimmklangs einer Stimme, die das Audiosignal Sout ausdrückt. Zum
Beispiel werden, wenn die Audiosignalbearbeitungsvorrichtung Da1
auf eine Singsynthesevorrichtung angewendet wird, Daten zum Ausdrücken eines
Musikintervalls (einer Note) einer Musikkomposition als die Tonhöhendaten
Dp verwendet, und werden Daten zum Festlegen eines Buchstabens oder
eines Liedtexts als die Stimmklangdaten Dv verwendet.
-
Wie
in 4 gezeigt, enthält das Erzeugungsmittel 10 in
diesem ersten Aspekt einen Tonhöhenumwandlungsabschnitt 11 und
einen Syntheseabschnitt 12. Unter diesen wandelt der Tonhöhenumwandlungsabschnitt 11 die
Tonhöhendaten
Dp, die von der externen Quelle geliefert werden, in Daten um, welche
die Tonhöhe
Pa präsentieren,
die um eine Oktave tiefer sind, und gibt konvertierte Daten an den
Syntheseabschnitt 12 aus. Mit anderen Worten handelt es
sich bei dem Tonhöhenumwandlungsmittel 11 um
ein Mittel zum Festlegen der Tonhöhe Pa, die ungefähr die Hälfte der
Zieltonhöhe
P0 beträgt,
an den Syntheseabschnitt 12. Bei dem Syntheseabschnitt 12 handelt
es sich wiederum um ein Mittel zum Ausgeben des Audiosignals Sa
durch Einstellen des Audiosignals, das durch Verbinden der Stimmsegmente
gemäß den Stimmklangdaten
Dv erhalten wird, auf die Tonhöhe
Pa, welche die Tonhöhendaten
Dp repräsentieren.
Insbesondere enthält der
Syntheseabschnitt 12 ein Speichermittel zum Speichern des
Stimmsegments, das ein Phonem oder eine Phonemkette ist, für jeden
Stimmklang (einen Vokal, einen Konsonant und eine Kombination davon).
Der Syntheseabschnitt 12 wählt zuerst nacheinander das
Stimmsegment gemäß den Stimmklangdaten
Dv unter einer großen
Anzahl von Stimmsegmenten aus, die im Speichermittel abgelegt sind, um
hierdurch ausgewählte
Stimmsegmente zu verbinden, erzeugt zweitens das Audiosignal aus
einer Anordnung dieser Stimmsegmente und erzeugt drittens das Audiosignal
Sa durch Einstellen der Tonhöhe
dieses Audiosignals auf die Tonhöhe
Pa, welche die Tonhöhendaten
Dp repräsentieren,
um das Audiosignal Sa nach dieser Einstellung auszugeben. In der
vorliegenden Erfindung ist jedoch ein Verfahren zum Synthetisieren
des Audiosignals Sa hierauf nicht eingeschränkt. Das Audiosignal Sa, das
vom Syntheseabschnitt 12 ausgegeben wird, wird durch das
Verteilungsmittel 20 auf die Audiosignale Sa1 und Sa2 der
beiden Kanäle
aufgeteilt.
-
Das
Verzögerungsmittel 30 gemäß diesem ersten
Aspekt enthält
einen Verzögerungsabschnitt 31 und
einen Verzögerungsabschnitt 32.
Unter diesen verzögert
der Verzögerungsabschnitt 31 das
Audiosignal Sa1 des ersten Kanals um die Dauer L1 und gibt das Audiosignal
Sa1' aus. Währenddessen verzögert der
Verzögerungsabschnitt 32 das
Audiosignal Sa1',
das vom Verzögerungsmittel 31 ausgegeben
wird, um die Dauer L2 und gibt das Audiosignal Sb1 aus. Die Dauer
L2 ist in diesem ersten Aspekt ein fester Wert, der im Voraus definiert
wird. Inzwischen wird die Dauer L1 je nach der Tonhöhe Pa des Audiosignals
Sa entsprechend geändert.
Ein Verzögerungsgradberechnungsabschnitt 61,
der in 4 gezeigt ist, ist ein Mittel zum Berechnen dieser
Dauer L1, um sie beim Verzögerungsabschnitt 31 einzustellen.
Die Tonhöhendaten
Dp werden an den Verzögerungsgradberechnungsabschnitt 61 geliefert.
Der Verzögerungsgradberechnungsabschnitt 61 berechnet
die Periode T0 (nämlich
die Dauer, die ungefähr eine
Hälfte
der Periode Ta des Audiosignals Sa beträgt), die der Tonhöhe P0 entspricht,
die von diesen Tonhöhendaten
Dp repräsentiert
wird, und legt die hier berechnete Periode T0 für den Verzögerungsabschnitt 31 als
die Dauer L1 fest. Es wird darauf hingewiesen, dass das Audiosignal
Sa2 des zweiten Kanals an das Addierungsmittel 50 geliefert
wird, ohne der Verzögerungsverarbeitung
und der Verstärkungsverarbeitung
unterzogen zu werden, doch sind zur einfacheren Erläuterung
das Audiosignal Sb2, das vom Verzögerungsmittel 30 ausgegeben
wird, und das Audiosignal Sc2, das vom Verstärkungsmittel 40 ausgegeben
wird, durch unterschiedliche Symbole repräsentiert (eine ähnliche
Beschreibung wird nachfolgend gegeben).
-
Währenddessen
enthält
das Verstärkungsmittel 40 einen
Verstärkungsabschnitt 41,
der entsprechend zum ersten Kanal angeordnet ist. Dieser Verstärkungsabschnitt 41 verstärkt das
Audiosignal Sb1 und gibt das Signal nach dieser Verstärkung als das
Audiosignal Sc1 aus. Eine Verstärkung
im Verstärkungsabschnitt 41 wird
passend gemäß den Einzelheiten
der Betätigung
an einer Eingabevorrichtung (zum Beispiel einer Tastatur, die mit
dem Betätigungselement
ausgerüstet
ist), die hier nicht gezeigt ist, geändert. Hierbei wird, je mehr
die Verstärkung
im Verstärkungsabschnitt 41 erhöht wird,
desto mehr die Amplitude des Audiosignal Sc1 relativ zur Amplitude des
Audiosignals Sc2 erhöht.
Da die Charakteristiken der rauen oder harschen Stimme, die das
Audiosignal Sout ausdrückt,
in entscheidender Weise vom Audiosignal Sc1 beeinflusst werden,
wird, je mehr die Amplitude des Audiosignals Sc1 aufgrund einer
Erhöhung
der Verstärkung
des Verstärkungsabschnitts 41 erhöht wird,
desto mehr die Ähnlichkeit
der rauen oder harschen Stimme derjenigen Stimme, die das Audiosignal
Sout ausdrückt,
verstärkt.
Auf diese Weise kann durch entsprechendes Betätigen der Eingabevorrichtung
der Benutzer spontan die Charakteristiken der Stimme auswählen, die
von der Audiosignalbearbeitungsvorrichtung Da1 ausgegeben wird.
-
Auf
der Grundlage der oben angegebenen Konfiguration wird das synthetisierte
Audiosignal Sa durch das Erzeugungsmittel 10 in das Audiosignal Sa1
und das Audiosignal Sa2 aufgezweigt (siehe der Teil (b) von 3),
und unter diesen wird das Audiosignal Sa1, nachdem es durch den
addierten Wert zwischen der Dauer L1, die ungefähr eine Hälfte der Periode des Audiosignals
Sa beträgt,
und der vorbestimmten Dauer L2 verzögert wurde, an das Verstärkungsmittel 40 als
das Audiosignal Sb1 (siehe hierzu den Teil (e) von 3)
ausgegeben. Ferner wird dieses Audiosignal Sb1 durch den Verstärkungsabschnitt 41 auf
die gewünschte
Amplitude eingestellt und als das Audiosignal Sc1 ausgegeben. Inzwischen
wird das Audiosignal Sa2 an das Additionsmittel 50 als
das Audiosignal Sc2 geliefert, ohne die Verzögerungsverarbeitung und die
Verstärkungsverarbeitung
zu durchlaufen (siehe hierzu den Teil (c) von 3).
Nachfolgend werden das Audiosignal Sc1 und das Audiosignal Sc2 durch
das Additionsmittel 50 addiert und wird das Audiosignal
Sout, das durch diese Addition erzeugt wird, von der Tonerzeugungsvorrichtung
als Klangwelle ausgegeben.
-
Wie
oben beschrieben, kann gemäß diesem ersten
Aspekt, da das Audiosignal Sa auf der Grundlage der Stimmklangdaten
Dv und der Tonhöhendaten
Dp synthetisiert wird, eine Singstimme verschiedener Musikkompositionen
als eine raue oder harsche Stimme erzeugt werden. Darüber hinaus
können,
da der Grad der Verzögerung
(Dauer L1) des Verzögerungsabschnitts 31 gemäß den Tonhöhendaten
Dp ausgewählt
wird, die verschiedenen rauen oder harschen Stimmen gemäß der Tonhöhe (dem Musikintervall)
der Musikkomposition willkürlich
entsprechend erzeugt werden.
-
(A2: Zweiter Aspekt)
-
Wie
bei der rauen oder harschen Stimme besteht eine Tendenz, dass je
lauter deren Stimmvolumen ist, desto merklicher das Merkmal bei
der Hörbarkeit
wird. Zum Beispiel gibt es das Phänomen, dass eine mit einem
kleinen Stimmvolumen zum Erklingen gebrachte Stimme als nicht so
belegt gehört wird,
jedoch eine Stimme, die mit einem großen Stimmvolumen zum Erklingen
gebracht wird, als beträchtlich
belegt gehört
wird. Um eine derartige Tendenz nachzubilden, stellt eine Audiosignalbearbeitungsvorrichtung
Da2 gemäß diesem
Aspekt einen Grad der Verzögerung
des Verzögerungsabschnitts 32 gemäß einem
Stimmvolumen des Audiosignals Sa ein.
-
Übrigens
erhöht
sich ein Grad, zu dem die Stimme als belegt gehört wird (hiernach als "Grad der rauen oder
harschen Stimme" bezeichnet)
mit dem Zunehmen einer Differenz zwischen der Periode T1 und der
Periode T2, die im Teil (b) von 1 gezeigt sind.
Je größer die
Differenz zwischen der Periode T1 und der Periode T2 ist, desto
weiter entfernt sich die Phasendifferenz zwischen dem Audiosignal
Sc1 des ersten Kanals und dem Audiosignal Sc2 des zweiten Kanals
von der Dauer L1. Wenn nun zum Beispiel ein Fall angenommen wird,
bei dem die Dauer L2 null ist, da das Audiosignal Sout, das aus
der Addition zwischen dem Audiosignal Sc1, das weiter als das Audiosignal
Sc2 um die Dauer L1 verzögert wurde,
die entsprechend einer Hälfte
der Periode Ta des Audiosignals Sa entspricht, erhalten wurde, und das
Audiosignal Sc2 eine Wellenform hat, bei der die Perioden T0 aller
Einheitswellenformen U fast gleich sind, wie bei der in Teil (a)
von 1 gezeigten artikulierten Stimme, so wird kaum
ein Merkmal einer rauen oder harschen Stimme gezeigt. Inzwischen wird,
wenn die Dauer L2 verlängert
wird, die Differenz zwischen der Periode T1 und der Periode T2 im
Audiosignal Sout allmählich
vergrößert, sodass
der Grad der rauen oder harschen Stimme derjenigen Stimme, die dieses
Audiosignal Sout ausdrückt, ebenfalls
verstärkt
wird. Mit anderen Worten kann es sein, dass der Grad der rauen oder
harschen Stimme derjenigen Stimme, die von der Audiosignalbearbeitungsvorrichtung
Da2 ausgegeben wird, durch den Grad der Verzögerung (Dauer L2) bestimmt
wird, der am Verzögerungsabschnitt 32 eingestellt
wird. Aus diesem Grund kann gemäß der vorliegenden
Ausführungsform
die Dauer L2, die für
den Verzögerungsabschnitt 32 eingestellt
wird, gemäß dem Stimmvolumen
des Audiosignals Sa geändert
werden.
-
5 ist
ein Blockdiagramm, das eine Konfiguration der Audiosignalbearbeitungsvorrichtung
gemäß diesem
Aspekt zeigt. Wie in 5 dargestellt, weist zusätzlich zu
den entsprechenden in 4 dargestellten Abschnitten
diese Audiosignalbearbeitungsvorrichtung Da2 ferner einen Amplitudenfeststellungsabschnitt 621 auf.
Der Amplitudenfeststellungsabschnitt 621 erfasst die Amplitude
(die Lautstärke)
des Audiosignals Sa, das vom Erzeugungsmittel 10 (Syntheseabschnitt 12)
ausgegeben wird, und legt die Dauer L2 gemäß dieser Amplitude im Verzögerungsabschnitt 32 fest.
Insbesondere legt, wie in 6 gezeigt,
der Amplitudenfeststellungsabschnitt 621 die Dauer L2 für den Verzögerungsabschnitt 32 fest,
die um so länger
wird, desto stärker die
Amplitude A des Audiosignals Sa wird. Wenn die Dauer L2 jedoch "ein Viertel" der Periode Ta des
Audiosignals Sa übersteigt,
so verringert sich diese Zeit, das heißt, die Differenz zwischen
der Periode T1 und der Periode T2, und verringert sich der Grad
der rauen oder harschen Stimme hierdurch, so dass der Amplitudenfeststellungsabschnitt 621 die
Dauer L2, die für
den Verzögerungsabschnitt
festgelegt wurde, innerhalb eines Bereichs von "0" bis "1/4Ta" gemäß der Amplitude
A des Audiosignals Sa ändert.
Mit anderen Worten ist dann, wie in 6 gezeigt,
wenn die Amplitude A des Audiosignals Sa einen vorbestimmten Schwellenwert
Ath übersteigt,
die Dauer L2, die für den
Verzögerungsabschnitt
festgelegt wird, "1/4Ta". Wie oben beschrieben
wird gemäß diesem
Aspekt, je größer die
Amplitude A des Audiosignals Sa ist, desto mehr der Grad der rauen
oder harschen Stimme des Audiosignals Sout verstärkt, so dass es möglich ist,
die Tendenz der Änderung
des Grads der rauen oder harschen Stimme nachzubilden, so wie ein menschliches
Wesen tatsächlich
klingt. Übrigens sind
die Konfiguration und der Betrieb derjenigen Elemente, die nicht
die Elemente zum Ändern
des Grads der rauen oder harschen Stimme sind, gleich wie diejenigen
des ersten Aspekts.
-
(A3: Dritter Aspekt)
-
Im
ersten Aspekt wurde die Konfiguration veranschaulicht, bei der die
Dauer L2, die für
den Verzögerungsabschnitt 32 eingestellt
wird, im Voraus definiert wurde, während im zweiten Aspekt die
Konfiguration veranschaulicht wurde, bei der die Dauer L2 gemäß der Amplitude
A des Audiosignals Sa gesteuert wurde, doch kann auch eine Konfiguration eingesetzt
werden, bei der der Grad der Verzögerung des Verzögerungsmittels 30 durch
andere Elemente bestimmt wird. Zum Beispiel kann auch, wie unten gezeigt,
eine Konfiguration eingesetzt werden, bei der die Dauer L2 des Verzögerungsabschnitts 32 gemäß Daten
(die hiernach als "Steuerdaten") bezeichnet werden)
Dc bestimmt wird, die von einer externen Quelle geliefert werden.
-
7 ist
ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß diesem
Aspekt zeigt. Wie in 7 dargestellt, enthält zusätzlich zu
den entsprechenden in 4 gezeigten Elementen eine Audiosignalbearbeitungsvorrichtung
Da3 ferner einen Steuerabschnitt 631. Dieser Steuerabschnitt 631 ist
ein Mittel zum Steuern des Verzögerungsabschnitts 32 des
Verzögerungsmittels 30 auf
der Grundlage der von der externen Quelle gelieferten Steuerdaten
Dc. Bei den Steuerdaten Dc handelt es sich um Daten zum Festlegen des
Grads der Verzögerung
(Dauer L2) des Verzögerungsabschnitts 32,
und sie weisen eine Datenstruktur auf, die zum Beispiel mit dem
MIDI-Standard konform ist. Mit anderen Worten handelt es sich bei
diesen Steuerdaten Dc um die Daten, in denen eine große Anzahl
von Paaren, die aus Ereignisdaten zum Festlegen der Dauer L2 und
Zeitsteuerungsdaten zum Angeben der Zeit, zu der jedes Ereignis
ausgeführt
wird, nacheinander angeordnet sind. Wenn eine Zeit, die durch die
Zeitsteuerungsdaten angegeben wird, eintritt, legt der Steuerabschnitt 631 die
Dauer L2, die durch die Ereignisdaten, die mit den Zeitsteuerungsdaten
gepaart sind, angegeben werden, für den Verzögerungsabschnitt 32 fest.
Dieser Verzögerungsabschnitt 32 verzögert das
Audiosignal Sa1', das
vom Verzögerungsabschnitt 31 geliefert
wird, um die vom Steuerabschnitt 631 festgelegte Dauer
L2 und gibt ein verzögertes
Signal als das Audiosignal Sb1 aus. Die übrige Konfiguration und der übrige Betrieb
sind denjenigen des ersten Aspekts ähnlich.
-
Wie
im zweiten Aspekt erläutert,
kann, da der Grad der rauen oder harschen Stimme derjenigen Stimme,
die das Audiosignal Sout ausdrückt,
durch die Dauer L2 bestimmt wird, gemäß diesem Aspekt der Grad der
rauen oder harschen Stimme des Audiosignals Sout in einer willkürlichen
Zeitsteuerung gemäß den Steuerdaten
Dc geändert
werden. Darüber hinaus
macht, wenn die Audiosignalbearbeitungsvorrichtung Da3 gemäß diesem
Aspekt zum Beispiel auf die Singsynthesevorrichtung angewendet wird,
wenn die Steuerdaten Dc so erzeugt werden, dass die Dauer L2 zu
einer Zeit des Synchronisierens mit einem Spiel einer Musikkomposition
geändert
werden kann, es dies möglich,
die Attraktivität
des Gesangs, der das Spiel der Musikkomposition begleitet, zu erhöhen.
-
(B: Zweite Ausführungsform)
-
Es
folgt eine Erläuterung
einer Audiosignalbearbeitungsvorrichtung gemäß einer zweiten Ausführungsform
der vorliegenden Erfindung. Gemäß der ersten
Ausführungsform
wurde die Konfiguration veranschaulicht, bei der die Verstärkung des
Verstärkungsmittels 40 gemäß der Betätigung der
Eingabevorrichtung bestimmt wurde. Inzwischen wird gemäß der vorliegenden
Ausführungsform
eine Konfiguration verwendet, bei der der Grad der Verzögerung,
der für
das Verzögerungsmittel 30 eingestellt
wird, bei der Dauer L1 beibehalten wird, während die Verstärkung des
Verstärkungsmittels 40 gegebenenfalls
mit dem Verstreichen der Zeit verändert wird. Übrigens werden,
da eine Konfiguration der Audiosignalbearbeitungsvorrichtung D gemäß dieser
Ausführungsform ähnlich derjenigen
ist, die in 2 gezeigt ist, über diese
Ausführungsformen
hinweg, gleiche oder ähnliche
Bezugszeichen für
ein Element verwendet, das eine Funktion ausfüllt, die derjenigen der ersten Ausführungsform ähnlich ist,
und es wird entsprechend eine Beschreibung dieses Elements weggelassen.
-
(B1: Erster Aspekt)
-
8 ist
ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß einem
ersten Aspekt dieser Ausführungsform zeigt.
Wie in 8 dargestellt, weist zusätzlich zu den entsprechenden
in 4 dargestellten Abschnitten diese Audiosignalbearbeitungsvorrichtung
Db1 ferner einen Amplitudenfeststellungsabschnitt 622 auf.
Dieser Amplitudenfeststellungsabschnitt 622 ist ein Mittel
zum Erfassen der Amplitude A (der Lautstärke) des vom Erzeugungsmittel 10 (Syntheseabschnitt 12)
ausgegebenen Audiosignals Sa in einer Weise, die derjenigen des
in 5 gezeigten Amplitudenfeststellungsabschnitts 621 ähnlich ist.
Der Amplitudenfeststellungsabschnitt 622 im vorliegenden Aspekt
steuert jedoch die Verstärkung
G des Verstärkungsabschnitts 41 gemäß der Amplitude
A des Audiosignals Sa. Insbesondere erhöht der Amplitudenfeststellungsabschnitt 622 die
Verstärkung
G des Verstärkungsabschnitts 41,
wenn die Amplitude A des Audiosignals Sa größer wird. Wenn die Amplitude
des Audiosignals Sa einen Schwellenwert übersteigt, wird die Verstärkung G,
die für
den Verstärkungsabschnitt 41 festgelegt
wird, jedoch auf einem vorbestimmten Wert gehalten.
-
9 zeigt
entsprechende Audiosignalwellenformen gemäß dem vorliegenden Aspekt.
In einem Teil (a) in 9 wird von einem Fall ausgegangen,
bei dem die Amplitude A des Audiosignals Sa mit dem Verstreichen
der Zeit allmählich
angehoben wird. Hiernach wird eine Anstiegsrate der Amplitude A
des Audiosignals Sa zu dieser Zeit als "Ca" bezeichnet.
Diese Anstiegsrate Ca ist ein Parameter, der einen Grad angibt,
in dem die Amplitude zwischen Einheitswellenformen U, die nacheinander vorwärts und
rückwärts auf
der Zeitachse erscheinen, zu ändern
ist, und es handelt sich insbesondere dabei um eine Steigung einer
Strecke, die zwei Peaks entsprechender Einheitswellenformen U miteinander
verbindet. Wie in einem Teil (b) von 9 gezeigt,
gibt das Verstärkungsmittel 30 das
Audiosignal Sb1 dadurch aus, dass dieses Audiosignal Sa um die Dauer
L1, die ungefähr
einer Hälfte
der Periode Ta entspricht, verzögert
wird.
-
Inzwischen
gibt der Verstärkungsabschnitt 41 des
Verstärkungsmittels 40 auf
der Grundlage der Steuerung durch den Amplitudenfeststellungsabschnitt 622 das
Audiosignal Sc1 durch Verstärken des
Audiosignals Sb1 um die Verstärkung
G gemäß der Amplitude
A des Audiosignals Sa aus. Hierbei verändert, wie in einem Teil (c)
von 9 gezeigt, der Amplitudenfeststellungsabschnitt 622 die
Verstärkung
G, die für
den Verstärkungsabschnitt 41 gemäß der Amplitude
A des Audiosignals Sa festgelegt wird, so dass eine Anstiegsrate
Cb der Amplitude des Audiosignals Sc1 (nämlich die Steigung der Strecke, welche
die Peaks der entsprechenden Einheitswellenformen U des Audiosignals
Sc1 miteinander verbindet) größer als
die Anstiegsrate Ca der Amplitude A des Audiosignals Sa sein kann.
Inzwischen wird das Audiosignal Sa2 als das Audiosignal Sc2 an das Additionsmittel 50 geliefert,
während
die Wellenform unverändert
beibehalten bleibt. Als ein Ergebnis hiervon wird die Amplitude
des Peaks in der jeweiligen Einheitswellenform U des Audiosignals
Sc1 größer als
diejenige des Audiosignals Sc2, die um die Dauer L1 vor dem Audiosignal
Sc1 erscheint.
-
In
einem Teil (d) von 9 ist die Wellenform des Audiosignals
Sout gezeigt, das durch Addieren des Audiosignals Sc1 und des Audiosignals
Sc2 erzeugt wird. Wie im Teil (d) von 9 gezeigt,
resultiert dieses Audiosignal Sout in einer Wellenform, bei der
ein Peak p2, der dem Audiosignal Sc2 (= Sa2) entspricht, und ein
Peak P1, der dem Audiosignal Sc1 entspricht, alternierend für jede Dauer
(Periode T0) erscheinen, die ungefähr eine Hälfte der Periode Ta beträgt. Unter
diesen erhöht
sich die Amplitude eines jeden Peaks P2, der dem Audiosignal Sc2
entspricht, mit der Anstiegsrate Ca mit dem Verstreichen der Zeit.
Inzwischen erhöht
sich die Amplitude eines jeden Peaks P1, der dem Audiosignal Sc1
entspricht, mit einer Anstiegsrate Cb, die größer als die Anstiegsrate Ca
ist, mit dem Verstreichen der Zeit. Bei einem Schritt, bei dem das
Audiosignal Sa sich zu verstärken
beginnt (nämlich
bei einem Schritt auf der linken Seite in 9) wird,
weil die Amplitude des Peaks P1, die sich mit der Anstiegsrate Cb
verstärkt, im
Vergleich zu derjenigen des Peaks P2 ausreichend größer ist,
die von der Klangerzeugungsvorrichtung auf der Grundlage dieses
Audiosignals Sout abgegebene Stimme vom Benutzer als eine Stimme der
Tonhöhe
Pa wahrgenommen. Inzwischen nähert sich,
da die Amplitude des Peaks P2 sich der Amplitude des Peaks P1 nähert, wenn
die Amplitude des Audiosignals Sa größer wird, die Tonhöhe der von der
Klangerzeugungsvorrichtung abgegebenen Stimme allmählich der
Tonhöhe
P0, und schließlich
fallen die Amplitude des Peaks P1 und die Amplitude des Peaks P2
zusammen, was in einer Wellenform resultiert, die derjenigen des
Audiosignals S0 der Tonhöhe P0,
die im Teil (a) von 1 gezeigt ist, entspricht. Es versteht
sich, dass es durch ein allmähliches
Anheben der Verstärkung
G des Verstärkungsabschnitts 41 gemäß der Amplitude
A des Audiosignals Sa in diesem Aspekt möglich ist, die Stimme zu erzeugen, die
sich von der Stimme (Tonhöhe
Pa), die gegenüber
der Zieltonhöhe
P0 um eine Oktave tiefer ist, der Tonhöhe P0 nähert.
-
Übrigens
ist zwar hier die Konfiguration zum Erfassen der Amplitude A aus
dem Audiosignal Sa veranschaulicht, doch kann auch eine Konfiguration zum
Festlegen der Amplitude durch das Erhalten von Daten zum Festlegen
der Amplitude A des Audiosignals Sa aus einer externen Quelle verwendet
werden. Zum Beispiel kann, wie durch die gestrichelten Linien in 8 gezeigt,
in einer Konfiguration, in der der Syntheseabschnitt 12 des
Erzeugungsmittels 10 die Stimmvolumensdaten Da zum Festlegen
der Amplitude A des Audiosignals Sa von der externen Quelle erhält, um das
Audiosignal Sa der betreffenden Amplitude A zu synthetisieren, in
einer solchen Weise konfiguriert werden, dass auf der Grundlage
der Amplitude A, die durch die Stimmvolumensdaten Da festgelegt
werden, der Amplitudenfeststellungsabschnitt 622 die Verstärkung G
des Verstärkungsabschnitts 41 steuert.
Zusätzlich
resultiert in diesem Fall die Wellenform eines jeden Audiosignals
Sout in einer in 9(d) gezeigten Form.
-
(B2: Zweiter Aspekt)
-
Im
ersten Aspekt wurde die Konfiguration veranschaulicht, bei der die
Verstärkung
G des Verstärkungsmittels 40 gemäß der Amplitude
A des Audiosignals Sa gesteuert wurde. Inzwischen liegt in diesem
Aspekt eine Konfiguration vor, bei der die Verstärkung des Verstärkungsabschnitts 40 gemäß den von
der externen Quelle gelieferten Daten gesteuert wird.
-
10 ist
ein Blockdiagramm, das eine Konfiguration einer Audiosignalbearbeitungsvorrichtung gemäß diesem
Aspekt darstellt. Wie in 10 gezeigt,
enthält
zusätzlich
zu den in 4 gezeigten entsprechenden Elementen
eine Audiosignalbearbeitungsvorrichtung Db2 ferner einen Steuerabschnitt 632.
Dieser Steuerabschnitt 632 ist ein Mittel zum Steuern des
Verstärkungsabschnitts 41 des
Verstärkungsmittels 40 auf
der Grundlage der Steuerdaten Dc, die von der externen Quelle geliefert
werden. Bei den Steuerdaten Dc handelt es sich um Daten zum Festlegen
der Verstärkung
G des Verstärkungsabschnitts 41,
und sie weisen eine Datenstruktur auf, die zum Beispiel mit dem
MIDI-Standard konform ist. Mit anderen Worten handelt es sich bei
den Steuerdaten Dc um die Daten, in denen eine große Anzahl von
Paaren angeordnet ist, die aus Ereignisdaten zum Festlegen der Verstärkung G
und Zeitsteuerungsdaten zum Angeben der Zeit eines jeden Ereignisses
bestehen. Wenn eine Zeit, die durch die Zeitsteuerungsdaten festgelegt
ist, eintritt, legt der Steuerabschnitt 632 die Verstärkung G,
die durch die Ereignisdaten, die mit den Zeitsteuerungsdaten gepaart
sind, angegeben ist, für
den Verstärkungsabschnitt 41 fest.
In diesem Aspekt wird von einem Fall ausgegangen, bei dem die Steuerungsdaten
Dc so erzeugt werden, dass die für
den Verstärkungsabschnitt 41 festgelegte
Verstärkung
mit dem Verstreichen der Zeit allmählich von "0" auf "1" anwachsen kann.
-
11 zeigt
entsprechende Audiosignalwellenformen gemäß diesem Aspekt. Wie in einem
Teil (a) von 11 gezeigt, ist dieser Aspekt ähnlich der ersten
Ausführungsform
dahingehend, dass das Audiosignal Sa der Tonhöhe Pa, die vom Erzeugungsmittel 10 erzeugt
wird, auf zwei Kanäle
verzweigt wird. In diesem Aspekt wird das Audiosignal Sa2 des zweiten
Kanals an das Additionsmittel 50 als das Audiosignal Sc2
geliefert, während
die Wellenform unverändert
beibehalten bleibt. Zusätzlich
wird, wie in einem Teil (b) von 11 gezeigt,
das Audiosignal Sa1 des ersten Kanals vom Verzögerungsmittel 30 um
die Dauer L1 verzögert
und als das Audiosignal Sb an den Verstärkungsabschnitt 41 geliefert.
Inzwischen erhöht
der Steuerabschnitt 632 gemäß den Steuerdaten Dc die für den Verstärkungsabschnitt 41 festgelegte
Verstärkung
mit dem Verstreichen der Zeit von "0" auf "1" Folglich ist dann, wie in einem Teil (c)
von 11 gezeigt, das Audiosignal Sc1, das vom Verstärkungabschnitt 41 ausgegeben
wird, eine Wellenform, bei der die Amplitude A mit dem Verstreichen
der Zeit ansteigt und schließlich
eine Amplitude erreicht, die ungefähr gleich dem Audiosignal Sc2
ist.
-
In
einem Teil (d) von 11 ist die Wellenform des Audiosignals
Sout gezeigt, das durch Addieren des Audiosignals Sc1 und des Audiosignals Sc2
erzeugt wird. Wie in 11 gezeigt, resultiert dieses
Audiosignal Sout in einer Wellenform, bei der der Peak P2, der dem
Audiosignal Sc2 (nämlich
dem Audiosignal Sa) entspricht, und der Peak P1, der dem Audiosignal
Sc1 entspricht, für
jede Dauer (Periode T0), die ungefähr eine Hälfte der Periode Ta beträgt, alternierend
erscheinen. Die Amplitude A eines jeden Peaks P2, der dem Audiosignal
Sc2 entspricht, wird ungefähr
konstant (auf der Amplitude des Audiosignals Sa) gehalten. Inzwischen
wird die Amplitude A eines jeden Peaks P1, der dem Audiosignal Sc1 entspricht,
allmählich
mit dem Verstreichen der Zeit gemäß den Steuerdaten Dc erhöht. Folglich
ist die Stimme, die von der Klangerzeugungsvorrichtung auf der Grundlage
des Audiosignals abgegeben wird, auf der Tonhöhe Pa (nämlich auf der Tonhöhe, die
um eine Oktave tiefer als die Zieltonhöhe P0 ist) an dem Zeitpunkt
links in 11, und steigt die Tonhöhe mit dem
Verstreichen der Zeit allmählich
an, was in einer Stimme resultiert, die schließlich die Tonhöhe P0 erreicht.
Es versteht sich, dass Effekte ähnlich
wie beim ersten Aspekt auch bei diesem Aspekt immer noch erreicht
werden können.
Darüber
hinaus kann gemäß diesem
Aspekt, da die Amplitude des Audiosignals Sc1 gemäß den Steuerdaten
Dc unabhängig vom
Audiosignal Sa gesteuert wird, wenn die Amplitude des Audiosignals
Sa genügend
gesichert ist, selbst wenn die Steuerdaten Dc die Verstärkung "0" angeben, die Stimme der Tonhöhe Pa klar
zum Erklingen gebracht werden.
-
(C: Modifizierte Ausführungsform)
-
Jeder
dieser Ausführungsformen
können verschiedene
Modifikationen hinzugefügt
werden. Spezifische modifizierte Aspekte werden unten angegeben. Übrigens
kann jeder folgende Aspekt entsprechend kombiniert werden.
- (1) Jeder Aspekt der ersten Ausführungsform
und jeder Aspekt der zweiten Ausführungsform können kombiniert
werden. Zum Beispiel wurde in der zweiten Ausführungsform die Konfiguration
veranschaulicht, bei der der Grad der Verzögerung des Verzögerungsmittels 30 als
die Dauer L1 eingestellt wird, jedoch kann in einer Weise, die derjenigen
der ersten Ausführungsform ähnlich ist, auch
eine Konfiguration verwendet werden, bei der der addierte Wert zwischen
der Dauer L1 und der Dauer L2 als der Grad der Verzögerung durch das
Verzögerungsmittel 30 eingestellt
wird. Die Dauer L2 kann bei dieser Konfiguration gemäß der Betätigung der
Eingabevorrichtung wie bei der in 4 gezeigten
Konfiguration eingestellt werden, kann gemäß der Amplitude des Audiosignals Sa
bei der in 5 gezeigten Konfiguration eingestellt
werden oder kann gemäß den Steuerdaten
Dc wie bei der in 7 gezeigten Konfiguration eingestellt
werden. Darüber
hinaus kann sie zum Beispiel in einer solchen Weise konfiguriert werden,
dass durch Kombinieren der in 5 und 8 gezeigten
Aspekte der Amplitudenfeststellungsabschnitt 62 (das Mittel,
das sowohl die Funktion des Amplitudenfeststellungsabschnitts 621 als
auch die Funktion des Amplitudenfeststellungsabschnitts 622 übernimmt)
die Dauer L2 des Verzögerungsabschnitts 32 steuert
und die Verstärkung
G des Verstärkungsabschnitts 41 gemäß der Amplitude
A des Audiosignals Sa steuert. Außerdem kann sie in einer solchen
Weise konfiguriert werden, dass durch Kombinieren der in 7 und 10 gezeigten
Aspekte der Steuerabschnitt 63 (das Mittel, das sowohl
die Funktion des Steuerabschnitts 631 als auch die Funktion
des Steuerabschnitts 632 übernimmt), der die Steuerdaten
Dc zum Festlegen sowohl der Dauer L2 als auch der Verstärkung G
empfangen hat, die Verstärkung
G für den
Verstärkungsabschnitt 41 festlegt,
während
diese Dauer L2 für
den Verzögerungsabschnitt 32 festgelegt
wird.
- (2) In jeder Ausführungsform
wurde die Konfiguration, bei der das Verzögerungsmittel 30 den
Verzögerungsabschnitt 31 und
den Verzögerungsabschnitt 32 enthalten
hat, veranschaulicht, doch kann auch, wie in 12 gezeigt,
eine Konfiguration verwendet werden, bei der das Verzögerungsmittel 30 lediglich
einen Verzögerungsabschnitt 33 enthält. Zusätzlich kann
bei dieser Konfiguration, wenn sie in einer solchen Weise konfiguriert
wird, dass der Verzögerungsgradberechnungsabschnitt 61 die
Dauer L1 gemäß den Tonhöhendaten
Dp berechnet, die von der externen Quelle geliefert werden, und
den addierten Wert zwischen dieser Dauer L1 und der vorbestimmten Dauer
L2 als den Grad der Verzögerung
für den Verzögerungsabschnitt 33 festlegt,
eine Funktion ähnlich
derjenigen der ersten Ausführungsform erhalten
werden. Zusätzlich
wurde in 12 die Konfiguration des Anordnens
des Verzögerungsabschnitts 33 und
des Verstärkungsabschnitts 41, so
dass sie dem ersten Kanal entsprechen, veranschaulicht, doch kann,
wie in 13 gezeigt, auch eine Konfiguration
des Anordnens eines ähnlichen
Verzögerungsabschnitts 34 und
eines Verstärkungsabschnitts 42 verwendet
werden, so dass sie dem zweiten Kanal entsprechen. Kurz gesagt ist
in diesem Aspekt eine Konfiguration, bei der mindestens entweder
das Audiosignal Sa1 oder das Audiosignal Sa2 relativ zum anderen verzögert ist,
so dass die Phasendifferenz zwischen dem Audiosignal Sc1 des ersten
Kanals und dem Audiosignals Sc2 des zweiten Kanals die Phasendifferenz
sein kann, die dem addierten Wert der Dauer L1 und der Dauer L2
entspricht, oder eine Konfiguration, bei der mindestens entweder
das Audiosignal Sb1 oder das Audiosignal Sb2 verstärkt wird,
so dass das Verstärkungsverhältnis zwischen
dem Audiosignal Sc1 des ersten Kanals und dem Audiosignal Sc2 des
zweiten Kanals ein gewünschter
Wert sein kann, für
diesen Aspekt ausreichend, so dass eine Konfiguration dafür, wie die
Verzögerung
und die Verstärkung für jedes
Audiosignal erreicht werden kann, außer Frage steht.
- (3) In jeder Ausführungsform
wurde die Konfiguration, bei der der Syntheseabschnitt 12 das
Audiosignal Sa aus den Stimmsegmenten synthetisiert hat, veranschaulicht.
Als eine Alternative zu dieser Konfiguration oder zusammen mit dieser
Konfiguration kann jedoch auch eine Konfiguration verwendet werden,
bei der das Audiosignal Sa gemäß der Stimme
erzeugt wird, die der Benutzer tatsächlich zum Erklingen bringt. 14 ist
ein Blockdiagramm, das eine Konfiguration der Audiosignalbearbeitungsvorrichtung
D gemäß dieser modifizierten
Ausführungsform
zeigt. Eine Tonaufnahmevorrichtung 10, die in 14 gezeigt
ist, ist ein Mittel (zum Beispiel ein Mikrofon) zum Aufnehmen der
vom Benutzer abgegebenen Stimme zum Ausgeben des Audiosignals S0
gemäß dieser
Stimme. Das Audiosignal S0, das von dieser Tonaufnahmevorrichtung 70 ausgegeben
wird, wird an das Erzeugungsmittel 10 und einen Tonhöhenerfassungsabschnitt 65 geliefert.
Wenn der Benutzer die artikulierte Stimme abgibt, die sich von der
rauen oder harschen Stimme unterscheidet, so resultiert die Wellenform
des Audiosignals S0 in einer Form, die im Teil (a) von 1 und dem
Teil (a) von 3 gezeigt ist.
-
Wie
in 14 gezeigt, enthält das Erzeugungsmittel 10 gemäß dieser
modifizierten Ausführungsform
ferner einen Tonhöhenumwandlungsabschnitt 15.
Dieser Tonhöhenumwandlungsabschnitt 15 ist
ein Mittel zum Umwandeln der Tonhöhe P0 des Audiosignals S0,
das von der Tonaufnahmevorrichtung 70 geliefert wird, in
das Audiosignal Sa (nämlich das
Signal, das die Stimme ausdrückt,
die um eine Oktave tiefer als die Stimme ist, die vom Audiosignal S0
ausgedrückt
wird) die ungefähr
eine Hälfte
der Tonhöhe
dieser Tonhöhe
PaP0 ist, um das Audiosignal Sa auszugeben. Demgemäß resultiert
dann die Wellenform des Audiosignals Sa, das vom Tonhöhenumwandlungsabschnitt 15 ausgegeben
wird, in einer Form, die im Teil (b) von 3 dargestellt
ist. Als das Verfahren zum Verschieben der Tonhöhe P0 des Audiosignals S0 können verschiedene
wohlbekannte Verfahren eingesetzt werden.
-
Inzwischen
ist der Tonhöhenerfassungsabschnitt 65 ein
Mittel zum Erfassen der Tonhöhe
P0 des Audiosignals S0, das von der Tonaufnahmevorrichtung 70 geliefert
wird, um diese erfasste Tonhöhe P0
dem Verzögerungsgradberechnungsabschnitt 61 mitzuteilen.
In einer Art und Weise, die derjenigen des ersten Aspekts ähnlich ist,
berechnet der Verzögerungsgradberechnungsabschnitt 61 die
Periode T0 (nämlich
die Dauer, die ungefähr
eine Hälfte
der Periode Ta des Audiosignals Sa beträgt), die der Tonhöhe P0 entspricht,
und legt diese Periode T0 als die Dauer L1 für den Verzögerungsabschnitt 31 fest.
Die übrige
Konfiguration ist die gleich wie diejenige des ersten Aspekts. Gemäß dieser
modifizierten Ausführungsform
kann, da die von dem Benutzer abgegebene Stimme in die raue oder
harsche Stimme umgewandelt und ausgegeben werden kann, eine neue
Attraktivität
vorgesehen werden, indem sie zum Beispiel auf eine Karaokevorrichtung
oder dergleichen angewendet wird. Übrigens kann in der in 14 gezeigten
Konfiguration diese so angelegt werden, dass, nachdem das Audiosignal
Sout, das vom Additionsmittel 50 ausgegeben wird, mit dem
Audiosignal S0 addiert wird, das von der Tonaufnahmevorrichtung 70 ausgegeben
wird, dieses als die Klangwelle von der Klangerzeugungsvorrichtung
ausgegeben wird. Gemäß dieser
Konfiguration kann, da die raue oder harsche Stimme, die von der
Stimme erzeugt wird, die mit der Stimme des Benutzers zum Erklingen
gebracht wird, die Attraktivität
weiter erhöht
werden.
-
Darüber hinaus
kann das Audiosignal Sa, das als eine Basis zum Erzeugen des Audiosignals Sout
verwendet wird, im Voraus vorbereitet werden. Das heißt, dass
auf eine solche Weise konfiguriert werden kann, dass das Audiosignal
Sa im Voraus im (nicht gezeigten) Speichermittel abgelegt werden kann,
wobei dieses Audiosignal Sa dann nacheinander an das Verteilungsmittel 20 auszulesen
ist. Es versteht sich, dass gemäß der vorliegenden
Erfindung für
diese Konfiguration lediglich das Erzeugen des Audiosignals Sa zum
Ausdrücken
der Stimme ausreichend ist, und ein Verfahren, wie diese erzeugt wird,
nicht in Frage steht.
- (4) In der ersten Ausführungsform
wurde die Konfiguration veranschaulicht, bei der die Dauer, die dem
addierten Wert zwischen der Dauer L1 und der Dauer L2 entspricht,
als der Grad der Verzögerung
durch das Verzögerungsmittel 30 eingestellt
wurde, doch kann, selbst wenn der Grad der Verzögerung, der für dieses
Verzögerungsmittel 30 eingestellt
wird, als die Dauer eingestellt wird, die einem Differenzwert (L1–L2) zwischen
der Dauer L1 und der Dauer L2 entspricht, eine Funktion erzielt
werden, die derjenigen der ersten Ausführungsform ähnlich ist.
- (5) In jeder Ausführungsform
wurde die Konfiguration veranschaulicht, bei der das Verstärkungsmittel 40 in
einer nachfolgenden Stufe nach dem Verzögerungsmittel 30 angeordnet
war, doch kann diese Anordnung auch umgekehrt werden. Konkret kann
eine solche Konfiguration verwendet werden, bei der das Verzögerungsmittel 40 das Audiosignal
Sa1 und das Audiosignal Sa2, die vom Verteilungsmittel 20 ausgegeben
werden, zwar entsprechend verstärkt,
und diese auch als die Audiosignale Sb1 und Sb2 ausgibt, doch das Verzögerungsmittel 30 die
Audiosignals Sb1 und Sb2, die vom Verstärkungsmittel 40 ausgegeben werden,
verzögert
und die Audiosignale Sc1 und Sc2 ausgibt.