EP1758096A1 - Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen - Google Patents

Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen Download PDF

Info

Publication number
EP1758096A1
EP1758096A1 EP05107730A EP05107730A EP1758096A1 EP 1758096 A1 EP1758096 A1 EP 1758096A1 EP 05107730 A EP05107730 A EP 05107730A EP 05107730 A EP05107730 A EP 05107730A EP 1758096 A1 EP1758096 A1 EP 1758096A1
Authority
EP
European Patent Office
Prior art keywords
transformation
frequency
frequency ranges
signal
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP05107730A
Other languages
English (en)
French (fr)
Inventor
Rainer Schierle
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to EP05107730A priority Critical patent/EP1758096A1/de
Priority to US11/466,379 priority patent/US20070044642A1/en
Publication of EP1758096A1 publication Critical patent/EP1758096A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/086Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/121Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of a musical score, staff or tablature
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/221Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
    • G10H2250/225MDCT [Modified discrete cosine transform], i.e. based on a DCT of overlapping data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Definitions

  • the invention relates to a method and a device for pattern recognition in acoustic recordings according to the preamble of claim 1 or 13, as well as a computer program product and a data structure product.
  • acoustic recordings or audio signals these are usually digitized today.
  • a recording by suitable sensors wherein the recorded signal is sampled and stored digitized.
  • a widespread approach is the conversion and storage in WAVE format.
  • a sampling 44.1 kHz and 16-bit resolution In order to allow for the human ear lossless conversion and storage, usually a sampling 44.1 kHz and 16-bit resolution, so that maximum for the human ear perceptible frequencies the Nyquist theorem is satisfied.
  • this format requires a large memory space, e.g. is disadvantageous in a transmission on the Internet, as long transmission times are the result.
  • this format requires a large memory space, e.g. is disadvantageous in a transmission on the Internet, as long transmission times are the result.
  • MIDI Musical Instrument Digital Interface
  • This format developed for the exchange of data between synthesizers, transmits control signals instead of audio data, which can be reproduced by a synthesizer or displayed graphically or visually.
  • the widely used GM standard encodes and later plays 128 sound colors. Due to the comparatively small file size, this format is well suited for transmission on the Internet. However, this low bandwidth of timbres can not reproduce the natural sound.
  • the MIDI format has a dependency on the playback of the hardware.
  • US 6,140,568 a system and method for automatically detecting and identifying a plurality of frequencies simultaneously contained in an audio signal, such as the duration, amplitude and phase of those frequencies. From these frequencies harmonic components are filtered out to determine the fundamental frequencies.
  • the system includes a computer readable medium having executable code for decomposing the signal into its sinusoidal components by computation and comparison between the input signal and sinusoidal waves having various combinations of phase and amplitude.
  • the system also uses various optimization and error correction routines.
  • the object of the present invention is therefore to provide an improved method or an improved device, which also enables the resolution of components with a wide range of spectral contributions.
  • Another object of the invention is also to enable identification of percussion shares in recordings of music.
  • Another object of the invention is to enable improved interactive variability of acoustic recordings.
  • a further object of the invention is the provision of a data structure product which, with the storage of control signals, allows reproduction as true to the original as possible, so that, for example, the advantages of wave and MIDI format are combined without having to accept their disadvantages.
  • the inventive method or the device according to the invention for pattern recognition in acoustic recordings analyze acoustic signals, as are detected, for example, by microphones. These signals may represent musical pieces, speech, machine vibrations, seismic vibrations or other forms of mechanical vibration.
  • the signal is preferably digitized after or during recording to allow signal processing on computers, where data storage is e.g. in wave format.
  • data storage is e.g. in wave format.
  • an implementation of the method is also possible in analog technology, e.g. through an appropriate circuit.
  • the detected and stored signal is subsequently divided into individual frequency ranges, e.g. Octaves, decomposed, for which known methods can be used.
  • individual frequency ranges e.g. Octaves
  • An example of this is the Pyramidendekomposition, in which the input signal is decomposed into different subband signals with different frequency ranges.
  • the first subband includes only the highest frequencies.
  • the subsequent subbands then contain the respective next lower signal components.
  • the frequency ranges are subsequently spectrally decomposed, from which follows a set of coefficients. According to the invention, this spectral decomposition takes place in two independent transformation processes.
  • Transformation algorithms suitable for this purpose are, for example, the Fourier transformation, fast Fourier transformation, wavelet transformation, sine transformation or cosine transformation, the discrete variants in particular being suitable.
  • One of the two independent transformation processes is optimized in terms of temporal resolution.
  • the temporal window is chosen comparatively short, so that the time course is well resolved.
  • the time limitation reduces the frequency resolution, so that the other transformation process analyzes the same frequency range with a comparatively large temporal window, so that a higher resolution of the frequencies takes place for this purpose.
  • Both transforms each provide a set of coefficients for the contributing frequency components.
  • the resulting TF output image (TF for frequency-time image) is now in turn subdivided into subbands over time and / or time and frequency, which in turn corresponds to a transformation with longer time constants.
  • Various frequency-time (TF) images are used to detect signals or signal characteristics and to reconstruct original signals (input signals).
  • the signal stored after the transformation in the layers of the output quantity is a mixture of the transformation output signals and a pyramid decomposition of the next higher level of the pyramid
  • TF n ⁇ t ⁇ f A s t ⁇ f ⁇ A c t ⁇ f
  • atan A s t ⁇ f A c t ⁇ f
  • the individual layers of the pyramid can be generated from a combination of high and low pass filters and subsampling. This TF pyramid can also be generated multiple times to accommodate different purposes such as signal analysis and signal reconstruction.
  • Information from one or more of the layers is combined in a filter, for example a two-dimensional filter with an average core, into a one-dimensional vector from which note events can then be derived, for example, with detection of local maxima.
  • a filter for example a two-dimensional filter with an average core
  • the spectral decomposition is completed by generating at least one coefficient file.
  • coefficients are taken from the coefficient sets of the two transformations, wherein the coefficients can be selected from one of the two sets or else can be generated as a mixture of coefficients.
  • the two sets of coefficients of the different transforms are transformed into a coefficient file in an overall transformation under selection or blending, this file then containing portions of both transformations.
  • the generation of the coefficient file uses heuristics, given information, e.g. from previous analyzes, or statistical evaluations of the current signal. Basically, all frequency bands are routed through both transformation processes. However, also, e.g. due to given information, only one of the two transformation processes are used for individual frequency bands, so that only the result of this step is used further.
  • the selection or mixture of coefficients for generation can be done by various methods.
  • a first Fourier transform with a long time window and a second Fourier transform with a short time window and subsequent low-pass filter are performed.
  • the real part is calculated and their ratio educated. Based on this ratio, it is decided from which transformation the coefficient is selected.
  • Another approach relies on analyzing the slope in a plot of phase vs. frequency, i. the frequency-dependent slope of the phase signal. By setting thresholds or calculating a weighting parameter, a determination is made as to which coefficient is used or whether and how a mixture of coefficients takes place.
  • the use of given information is done by comparing the sets of coefficients obtained by the transformations with a set of stored coefficients. This comparison serves as a selection criterion for the coefficients or their mixture.
  • the complete transformation process eventually creates a file containing the selected or mixed coefficients.
  • statistical information regarding the signal may still be stored in this file.
  • the harmonic decomposition takes place, which finally leads to an assignment of spectral components to patterns, such as special musical instruments.
  • the detected patterns or events can be displayed graphically after conversion, eg as notes, or reproduced by synthesizers. Patterns or events are to be understood here as the characteristic components in an acoustic signal whose identification represents the aim of the analysis. These can be, for example, individual musical instruments, words or seismic parameters.
  • Basis of the decomposition according to the invention not only the coefficients themselves, but also their aggregates, e.g. the temporal integral of an amplitude for a given frequency, or statistical information.
  • a comparison can be made with a database in which examples of patterns are stored.
  • databases are available, for example, for musical instruments.
  • Another possibility is the construction of a model for the patterns to be identified, this model being e.g. can be built from the current signal with statistical methods.
  • the model is iteratively compared to the signal and gradually optimized. If the remaining residual falls below a predefined threshold value, the method is aborted and the pattern recognition is considered to be sufficiently good.
  • characteristic features of the individual musical instruments are determined by suitable one- or two-dimensional filters in the individual layers of the TF pyramid. These features can then be assigned directly to the individual musical instruments and their representation in notation format (eg Midi or internal format). Alternatively, the features are supplied to a neural network as input variables.
  • the regions of the TF pyramids determined by the features are more closely examined, for example, by pixel-to-pixel comparison in a delimited environment of the feature.
  • the determined results of these comparisons can, coupled with the feature recognition, bring about an improvement of the feature recognition.
  • feature centers, feature thresholds and frequency-time extent of feature recognition are adjusted.
  • characteristics for percussive and / or harmonic sounds can be determined. In particular, this will produce individual sounds of an instrument, e.g. Guitar, bass, drums and cymbals of a drum kit, but also piano and guitar chords recognized.
  • seismic events or linguistic features e.g. be blanked background noise in an acoustic communication link, to be analyzed.
  • features and patterns that have been identified can be used to search the entire information content (TF) for such iterations.
  • the determined patterns are classified according to predetermined criteria or after the analysis by assignment, wherein this assignment can be performed by the computer program fully automatically, semi-automatically or interactively by the program user.
  • this assignment can be performed by the computer program fully automatically, semi-automatically or interactively by the program user.
  • the result set (TF) can be examined for comparable patterns. This method is time-saving, since the transformation can often be a comparatively long-lasting process.
  • the clock division can be added or changed manually as a temporal classification. Notation requires a classification in a temporal sense in such a way that the note values determined can be assigned note lengths.
  • a function in the user program makes it possible to mark the beginning of the cycle and an automatic function of the program then determines the missing cycles between these markings. This process can be repeated until the clock division is satisfactory.
  • functions which automatically recognize the clock division can be used.
  • An improvement in harmony recognition by temporal classification is possible due to a division of the information content into measures that can be used to improve the harmony recognition by making use of the fact that in real music played the harmonies often change at the clock change.
  • threshold values for the note recognition can also be subsequently changed, so that the recognized notes can be made available to the user in an optimal representation.
  • criteria for example features, are provided with a threshold value so that signals below the threshold value are not displayed as musical notes and also do not sound.
  • the user can interact with the system feedback also affect the result.
  • this may be derived from its - e.g. obtained by listening to the recorded piece of music - knowledge of the occupation of a music group preselection of the existing musical instruments manually specify.
  • This predetermined information then facilitates and accelerates the harmonic decomposition or the pattern recognition.
  • the basis of this modifiability thus represents the method according to the invention, which includes modeling with variable coefficients which is or can not be achieved in the prior art.
  • an adapted presentation of the results with different elements takes place.
  • an event image is generated, for example as an image with notation-like groups of lines, which correspond to pitches, arranged in the Y-direction.
  • the time is plotted or a currently proportional size.
  • Events are going through Noteheads or patterns or images generally available through symbols of a font or bitmap or other graphic formats.
  • the Y position in the picture is assigned to the properties of the event by the assignment table or a mathematical function, eg the note height D6 (Midi 74) as the second line from above).
  • the events can also be displayed in standard music notation.
  • a representation may also be in the form of lead-sheets as a one-to-one-page summaries of a piece of music.
  • Leadsheets in the traditional sense are created by hand.
  • an automatic generation of leadsheets can now also be carried out.
  • marks are set in the piece of music which describe definable areas of the piece of music, e.g. Introduction, 1st verse, 1st chorus, intermediate part, etc.
  • the method then generates from the determined notes, bars, and chords a summarized representation of all or part of the piece of music. This presentation can then be added to the lyrics, which then also in the score is also insertable.
  • a pitch threshold control allows note values to be activated, displayed and sounded. It can be determined whether events are hidden or whether the pitch should be shifted by a certain amount, for example an octave, whereby the notes are then played one octave lower and recorded. As a result, the result can be improved to such an extent that, if notes by their harmonic Shares are detected, they can be transposed to the fundamental frequency.
  • note events can be selected with the methods mentioned and copied or moved to other soundtracks.
  • f ⁇ R t ⁇ f 2 can be formulated.
  • P denotes a signal pattern
  • R denotes a reference pattern.
  • the reference pattern may be a pattern at another location of the TF matrix, or a prestored pattern, or a pattern formed from a combination of existing patterns, such as averaging. In the dynamic case, both patterns are shifted in time relative to each other, so that a time-dependent match can be derived. For small values of S there is a great similarity of the patterns to be compared.
  • AS (i, j) S (i, j).
  • groups are formed and assigned to a graph. Here, there is a connection of each pattern to the pattern that is most similar. Due to preprogrammed features, the patterns are then classified and assigned note values.
  • chords in pieces of music is done in the same way as described above for pattern recognition drum notes.
  • a threshold value determines whether a frequency of a TF layer is active or not.
  • each active frequency is converted to a note, with position, note height, and length, i. the entry above the threshold to the exit at the transition from active to below the threshold, be determined.
  • This method is used, for example, for the recognition of instruments which produce only a few overtones, e.g. a sine organ.
  • collections can be created, which are typically divided into instruments in soundtracks. These collections can be stored in files on a computer system. Such files may also be transmitted via the Internet, by wire or by electromagnetic transmission.
  • transmission protocols Http, Tcp, Https, SOAP, etc. are listed, but other formats are possible.
  • the detected events or notes are displayed in one or more ways.
  • one embodiment illustrates the events as a combination of symbols (note heads), where the vertical axis corresponds to a common note image and the horizontal axis of time. Since with a standard five-line note each line can stand for three notes (eg g, ges and gis), these states can be represented by different symbols, eg a regular notehead for g, a triangle with a top for ges and a triangle with top up for gis.
  • the event length can be indicated by a rectangle.
  • Another possible Presentation of the results is the usual notation.
  • threshold values have to be set before the time-consuming analysis. Inadequate settings require the entire analysis process to be repeated, which is cumbersome, unfriendly, prone to error, and time consuming.
  • the method according to the invention has the advantage that threshold values for the note recognition can also be set after the analysis. This allows the results to be adjusted in real time to the wishes of the user. This method combines the possibilities of note recognition with the notation representation in a way that allows the results to be individually adapted by interaction of the program user with the analysis software.
  • positions in the event image can be marked, which musically mark the first beat of a bar.
  • at least one clock is set by two markers and thus given a temporal information.
  • the program then automatically calculates the missing bars for the whole song, eg with the help of extrapolation. Due to the inaccuracy of the set bar and tempo variations in the song deviations from the ideal result often arise, ie the assumption that all bars are set correctly. Additional first beats of a bar can be set by the user, in which case the new bar layout is recalculated.
  • the threshold controller shown above can also be used as a pitch filter, i. as an instrument to set cutoff frequencies, in which case note events with pitches above (or below or centered around) a threshold are not displayed or just displayed and played.
  • notes that are outside the threshold can be returned to the range of displayed events by pitch transposition (octave shift).
  • pitch transposition octave shift
  • This method is used to reduce erroneously recognized octave jumps in tunes in which the harmonic signals were recognized instead of the fundamental tones.
  • the coefficients of adjacent frequencies can be obtained by interpolation or by statistical methods.
  • coefficients may be supplemented or replaced by using synthetically generated coefficients as well as those from previous recordings, an earlier analysis of the same signal or mixtures thereof.
  • coefficients may be supplemented or replaced by using synthetically generated coefficients as well as those from previous recordings, an earlier analysis of the same signal or mixtures thereof.
  • the generated coefficient files may be in their own format or, if appropriate, after conversion, in a common data format, e.g. MIDI or Wave format. Equally, such files can also be imported and their contents used or modified in the method according to the invention.
  • the original or original-sounding signals can be generated by an inverse transformation, for example in wave format, which can then be reproduced, for example, via the computer music system and loudspeaker.
  • sounds represented by music notes or images of any kind on the screen can be reconstructed and played back from the TF coefficients.
  • the acoustic signal is detected by a recording component or imported from a data carrier and provided in the form of an input signal ES for further processing.
  • This input signal ES is decomposed in a subband coder SC into individual frequency bands, which are subsequently each supplied to a frequency-optimized first transformation TF1 and a time-optimized second transformation TF2.
  • These transformation processes can also extract information from the original input signal ES in parallel and use it for the transformation process.
  • the results of the two transformations are combined in a transformation processor TP-possibly in feedback with the first transformation TF1 and the second transformation TF2-to form a coefficient file.
  • the harmonic decomposition HD is performed to detect patterns inherent in the input signal ES. It can be used for harmonic decomposition HD predetermined coefficients that are stored for example in a memory or supplied via external media.
  • the identified patterns are made exportable via a graphical conversion for a graphical interface.
  • An example of this is the conversion into notes and, for example, the printout of a score. If a representation is made on a graphical user interface, parameters can be interactively changed or be given as well as further selections or modifications.
  • the acoustic representation of the patterns may be transmitted via an audio output, e.g. connected to a synthesizer done.
  • FIG. 2 shows a schematic representation of provision alternatives for the input signal ES.
  • the input signal can be provided by various sources. These include timely or real-time recording as well as the use of stored data.
  • signals in Wave format and files from Audio CDs can be used directly.
  • Files in the formats MPx (MP3, MP4) or WMA or any other format are first converted to wave files by decoders. These are commercially available function libraries, e.g. for MP3 from the Fraunhofer Institute, available on the Internet.
  • the coefficients of MP3 or comparable formats may be arranged directly or via a pre-treatment (e.g., scaling) into one or more layers of the pyramid decomposition of the signal.
  • Decoders for other formats e.g. Ogg or WMA, are provided on the Internet, e.g. on www.microsoft.com.
  • a recording buffer AP is part of a Sigalfact Kunststoffe on the computer, such as Microsoft DirectX. This allows, for example, recordings of signals via a microphone connected to the computer.
  • the high pass filters may also be omitted, thereby producing a series of low pass filtered subbands.
  • the individual subbands SBB are subjected to the two differently optimized transformations TF1 and TF2 and subsequently stored in different layers TFL0, TFL1, ... TFLN.
  • the signal stored in the layers TFL0, TFL1, ... TFLN of the output quantity is for example a mixture of the transformation output signals and a pyramid decomposition of the next higher level of the pyramid.
  • a different type of decomposition or a multiple pyramid decomposition can also be carried out.
  • FIG. 5 shows a schematic representation of the steps for note recognition by harmonic decomposition HD.
  • the information contained in the various layers TFL0, TFL1, ... TFLN are combined in a filter FI and then subjected to harmonic decomposition event extraction, where pattern recognition and modeling takes place.
  • a multiplicity of approaches described above can be used according to the invention.
  • the results of the harmonic decomposition HD are represented graphically in the form of notes, for example, so that a selection or specification of information can be made by a user or other methods, which in turn find their way into the step of harmonic decomposition HD.
  • FIG. 1 An example of a graphical user interface for interactively providing additional information is shown in FIG.
  • the surface provides, inter alia, a gain control 1 and a manually changeable clock marker 2 for setting clocks.
  • the application of the clock marker 2 is explained in FIG. 7 in a first step of a first example for the interactive provision of additional information by setting clock markings.
  • This approach allows a determination of all measures in the entire song.
  • a clock in the song is identified and displayed graphically by a diamond 3 in the top line.
  • the actuation of a function element then leads to the conversion of the events into standard music notes, wherein the automatically set clocks are marked by triangles 4 in the top line. Improvements to this method can still do so be achieved that the soundtracks, especially the drum track, can be used to fine-tune the clocks. Nevertheless, due to variations in the music being played, variations in recording speed or drift effects, calculated clocks and actual patterns in the recording may fall apart, as indicated by arrows in the example within the dashed area.
  • the threshold controller is selected with a threshold greater than 0 so that only note events greater than the threshold are displayed. Some relevant areas are marked by ellipses.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Zur Mustererkennung in akustischen Aufnahmen wird ein aufgenommenes Signal in einzelne Frequenzbereiche zerlegt und nachfolgend zur spektralen Zerlegung in wenigstens eine Koeffizientendatei transformiert. Hierbei erfolgen parallel eine hinsichtlich der Frequenzauflösung optimierte erste Transformation und eine hinsichtlich der Zeitauflösung optimierte zweite Transformation.
Auf der Basis der Koeffizientendatei erfolgt eine harmonische Dekomposition mit einer Musterzuordnung. Die identifizierten Muster können nachfolgend modifiziert und weiter genutzt werden, beispielsweise in Form einer graphischen Darstellung oder akustischen Wiedergabe.

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Mustererkennung in akustischen Aufnahmen nach dem Oberbegriff des Anspruchs 1 bzw. 13, sowie ein ComputerProgrammprodukt und ein Datenstrukturprodukt.
  • In vielen Anwendungsbereichen besteht das Erfordernis, in Aufnahmen akustischer Signale Muster zu erkennen und zur Nutzung zu konvertieren. Beispiele hierfür stellen seismische Messungen, Schwingungsanalysen im Maschinenbau, die Selektion von Audiosignalen im Hörgerätebereich, die Sprachanalyse oder die Konversion von Musik in abspiel- bzw. veränderbare Formate dar. Die Grundproblematik in allen diesen Bereichen ist stets dieselbe, im folgenden wird rein exemplarisch die Mustererkennung in Aufnahmen von Musikstücken erläutert, ohne hierbei eine Einschränkung auf diesen Anwendungszweck zu begründen. Das erfindungsgemässe Verfahren bzw. die erfindungsgemässe Vorrichtung können auch zur Lösung anderer Problemstellungen, insbesondere aus den oben explizit dargestellten Gebieten, angewendet werden.
  • Zur Verarbeitung von akustischen Aufnahmen bzw. Audiosignalen werden diese heute in aller Regel digitalisiert. Beispielsweise erfolgt eine Aufnahme durch geeignete Sensoren, wobei das aufgenommene Signal abgetastet und digitalisiert gespeichert wird. Ein weit verbreiteter Ansatz ist die Konversion und Abspeicherung im WAVE-Format. Um eine für das menschliche Ohr verlustfreie Konversion und Speicherung zu ermöglichen, erfolgt zumeist ein Sampling 44,1 kHz und 16 Bit Auflösung, so dass für die vom menschlichen Ohr maximalen wahrnehmbaren Frequenzen das Nyquist-Theorem erfüllt ist.
  • In diesem Format sind somit zwar alle akustisch relevanten Anteile erfasst, so dass für das menschliche Ohr eine Wiedergabe ohne erkennbaren Verlust möglich ist. Jedoch erfordert dieses Format einen grossen Speicherplatz, was z.B. bei einer Übertragung im Internet nachteilig ist, da lange Übertragungszeiten die Folge sind. Zudem erfolgt keine Speicherung von aufgelösten Mustern, d.h. eine Trennung von z.B. verschiedenen Musikinstrumenten erfolgt nicht, so dass beispielsweise keine einfache Veränderung der Aufnahme möglich ist, z.B. durch Streichen eines Instrumentes.
  • Ein weiteres Datenformat, welches quasi den entgegengesetzten Informationsgehalt verkörpert, ist das MIDI-Format, wobei MIDI für Musical Instrument Digital Interface steht. Dieses für den Datenaustausch zwischen Synthesizern entwikkelte Format überträgt statt Audiodaten Kontrollsignale, welche durch einen Synthesizer wiedergegeben oder auch graphisch oder visuell dargestellt werden können. Im weit verbreiteten GM-Standard erfolgt dabei eine Kodierung bzw. spätere Wiedergabe in 128 Klangfarben. Aufgrund des somit vergleichsweise geringen Dateiumfangs eignet sich dieses Format gut zur Übertragung im Internet. Allerdings kann diese geringe Bandbreite an Klangfarben den natürlichen Klang nicht wiedergeben. Zudem besteht beim MIDI-Format eine Abhängigkeit der Wiedergabe von der Hardware.
  • Im Stand der Technik werden verschiedene Ansätze verfolgt, die eine Mustererkennung in Audiosignalen erlauben, wobei häufig eine Konversion von Wave- in MIDI-Dateien erfolgt.
  • Beispielsweise offenbart US 6,140,568 ein System und ein Verfahren zur automatischen Erkennung und Identifikation einer Vielzahl von Frequenzen, die gleichzeitig in einem Audiosignal enthalten sind, wie z.B. Zeitdauer, Amplitude und Phase dieser Frequenzen. Aus diesen Frequenzen werden zur Bestimmung der fundamentalen Frequenzen harmonische Komponenten herausgefiltert. Das System beinhaltet ein computerlesbares Medium mit ausführbarem Code zur Dekomposition des Signals in seine sinusförmigen Komponenten durch Berechnung und Vergleich zwischen dem Eingangssignal und sinusförmigen Wellen mit verschiedenen Kombinationen von Phase und Amplitude. Das System verwendet ebenfalls verschiedene Optimierungs- und Fehlerkorrekturroutinen.
  • In der Schrift US 6,355,869 B1 werden ein Verfahren und ein System zur Erzeugung von Noten aus einer Aufzeichnung von Musik sowie die Erzeugung eines editierbaren Musikformats beschrieben. Das Verfahren beruht auf dem Speichern der Musikaufnahme als Wave-Datei aus der für jeden relevanten Abschnitt in der Aufzeichnung eine Pseudo-Wave-Datei erzeugt wird. Für jede Pseudo-Wave-Datei wird eine Sequenz-Datei erzeugt, aus der wiederum eine Liste von Ereignissen generiert wird. Diese Liste wird in eine MIDI-Datei oder eine andere notenlesbare Datei konvertiert und zum Ausdruck der Noten in ein Noten-Programm importiert.
  • Während die Mustererkennung für verschiedene Typen von Mustern bzw. die Identifikation von vielen Musikinstrumenten mit den Ansätzen des Stands der Technik geleistet werden kann, bereiten einige Mustertypen nach wie vor Probleme. So können mit bisherigen Verfahren gerade die Schlagzeuganteile in Audiosignalen nur schlecht aufgelöst und in Noten dargestellt werden. Das Problem besteht beim Schlagzeug darin, dass dieses einen breiten Bereich an spektralen Beiträgen liefert, der mit den bisherigen Verfahren nicht eindeutig separiert und analysiert werden kann.
  • Ausserdem erlaubt datenhaltungsseitig das weitverbreitete MIDI-Format nur eine Speicherung bzw. Wiedergabe, welche starke Abstriche in Hinblick auf die originale Klangqualität mit sich bringt.
  • Die Aufgabe der vorliegenden Erfindung besteht daher in der Bereitstellung eines verbesserten Verfahren bzw. einer verbesserten Vorrichtung, welche auch die Auflösung von Komponenten mit einem breiten Bereich an spektralen Beiträgen ermöglicht.
  • Eine weitere Aufgabe der Erfindung besteht darin, auch eine Identifikation von Schlagzeuganteilen in Aufnahmen von Musik zu ermöglichen.
  • Eine weitere Aufgabe der Erfindung besteht darin, eine verbesserte interaktive Veränderbarkeit von akustischen Aufnahmen zu ermöglichen.
  • Eine weitere Aufgabe der Erfindung besteht in der Bereitstellung eines Datenstrukturproduktes, welches unter Abspeicherung von Kontrollsignalen eine möglichst originalgetreue Wiedergabe erlaubt, so dass beispielsweise die Vorteile von Wave- und MIDI-Format kombiniert werden, ohne deren Nachteile in Kauf nehmen zu müssen.
  • Diese Aufgaben werden erfindungsgemäss durch die Merkmale der Ansprüche 1 und 13 bzw. durch die kennzeichnenden Merkmale der abhängigen Ansprüche gelöst oder die Lösungen fortgebildet.
  • Das erfindungsgemässe Verfahren bzw. die erfindungsgemässe Vorrichtung zur Mustererkennung in akustischen Aufnahmen analysieren akustische Signale, wie sie beispielsweise durch Mikrophone erfasst werden. Diese Signale können Musikstücke, Sprache, Maschinenvibrationen, seismische Schwingungen oder andere Formen von mechanischen Schwingungen darstellen.
  • Das Signal wird nach oder während der Aufnahme vorzugsweise digitalisiert, um eine Signalverarbeitung auf Rechnern zu erlauben, wobei die Datenspeicherung z.B. im Wave-Format erfolgen kann. Alternativ oder ergänzend ist eine Realisierung des Verfahrens auch in Analogtechnik möglich, z.B. durch eine entsprechende Schaltung.
  • Das erfasste und gespeicherte Signal wird nachfolgend in einzelne Frequenzbereiche, z.B. Oktaven, zerlegt, wofür an sich bekannte Verfahren zur Anwendung kommen können. Ein Beispiel hierfür ist die Pyramidendekomposition, bei der das Eingangssignal in verschiedene Subband-Signale mit unterschiedlichen Frequenzbereichen zerlegt wird. Typischerweise umfasst das erste Subband nur die höchsten Frequenzen. Die nachfolgenden Subbänder beinhalten dann die jeweils nächsten niedrigeren Signalanteile.
  • Die Frequenzbereiche werden nachfolgend spektral zerlegt, woraus jeweils ein Satz von Koeffizienten folgt. Erfindungsgemäss erfolgt diese spektrale Zerlegung in zwei voneinander unabhängigen Transformationsprozessen.
  • Hierfür geeignete Transformationsalgorithmen stellen beispielsweise die Fourier-Transformation, Fast-Fourier-Transformation, Wavelet-Transformation, SinusTransformation oder Kosinus-Transformation dar, wobei insbesondere die diskreten Varianten geeignet sind.
  • Einer der beiden voneinander unabhängigen Transformationsprozesse ist hinsichtlich der zeitlichen Auflösung optimiert. Hierfür wird das zeitliche Fenster vergleichsweise kurz gewählt, so dass der zeitliche Verlauf gut aufgelöst wird. Die zeitliche Beschränkung vermindert jedoch die Frequenzauflösung, so dass der andere Transformationsprozess den gleichen Frequenzbereich mit einem vergleichsweise grossen zeitlichen Fenster analysiert, so dass hierfür eine höhere Auflösung der Frequenzen erfolgt. Beide Transformationen liefern jeweils einen Koeffizientensatz für die beitragenden Frequenzanteile. Das entstandene TF-Ausgangsbild (TF für Frequency-Time-Image) wird nun seinerseits in Subbänder über Zeit und/oder Zeit und Frequenz zerlegt, was wiederum einer Transformation mit längeren Zeitkonstanten entspricht. Verschiedene Frequenz-Zeit-Bilder (TF) werden dazu verwendet, um Signale oder Signaleigenschaften zu detektieren und um Originalsignale (Eingangssignale) zu rekonstruieren.
  • Diese Transformationen sind somit für verschiedene Aufgabenbereiche optimiert, wie z.B. die Unterteilung in perkussive und harmonische Signalkomponenten. Als mögliche Transformation sei rein exemplarisch die Fourier-Transformation beschrieben: A s t f = I t sin ωt t
    Figure imgb0001
    A c t f = I t cos ωt t
    Figure imgb0002

    wobei
  • As (t, f)
    den Sinusanteil des Ausgangssignals,
    Ac (t,f)
    den Cosinusanteil des Ausgangssignals,
    ω
    die Kreisfrequenz der zu untersuchenden Frequenzkomponente und
    t
    die Zeit bezeichnen.
  • Das nach der Transformation in den Schichten der Ausgangsmenge gespeicherte Signal ist eine Mischung aus den Transformationsausgangssignalen und einer Pyramidenzerlegung der jeweils nächsthöheren Stufe der Pyramide TF n t f = A s t f A c t f
    Figure imgb0003

    wobei ⊗ eine allgemeine Verknüpfung bezeichnet, die im einfachsten Falle einer Addition entspricht. Werden auch Beiträge nächsthöherer bzw. darüberliegender Schichten berücksichtigt so ergibt sich TF n t f = A s t f A c t f TF n - 1 , t , f
    Figure imgb0004

    wobei TF(n-1,t,f) den Beitrag der nächsthöheren Schicht n -1 bezeichnet. Auch können As(t, f) und Ac(t,f) im üblichen Fall die Amplituden und Phasenwerte der Fouriertransformation darstellen Amp t f = A s t f 2 + A c t f 2
    Figure imgb0005

    bzw. φ = atan A s t f A c t f
    Figure imgb0006
  • Die einzelnen Schichten der Pyramide können aus einer Kombination von Hoch-, Tiefpassfiltern und Subsampling erzeugt werden. Diese TF-Pyramide kann auch mehrfach vorhanden generiert werden, um verschiedenen Zwecken, wie Signalanalyse und Signalrekonstruktion Rechnung zu tragen.
  • Informationen aus einer oder mehrerer der Schichten werden in einem Filter, beispielsweise einem zweidimensionalen Filter mit Mittelwertskern, zu einem eindimensionalen Vektor zusammengefasst, aus welchem dann beispielsweise mit Detektion lokaler Maxima Notenereignisse ableitbar sind.
  • Zusätzlich zur Anordnung mit zwei Transformationen, welche beispielsweise für harmonische und perkussive Signale optimiert sind, kann auch ein Schema eingesetzt werden, bei dem eine oder mehrere Transformationen einen mehrschichtigen Ausgangsbereich füllen. Dies bedeutet, dass für jede Oktave des Subband-Eingangssignals eine Transformation für eine (1) bis mehrere (12 für eine Oktave mit Halbtönen, 14 oder 16, um mit Filtern in Frequenzrichtung filtern zu können) Frequenzen durchgeführt wird, was ein Frequenz/Zeit-Bild erzeugt. Dieses Bild kann aus dem Signal einer oder mehreren Transformationen erstellt werden. So können beispielsweise Anteile aus der frequenzoptimierten Transformation mit Anteilen der perkussiven Transformation so gemischt werden, dass eine klare Abgrenzung zwischen harmonischen und perkussiven Signalen möglich wird.
  • Nach dem Transformieren der Frequenzbereiche wird die spektrale Zerlegung durch Erzeugung wenigstens einer Koeffizientendatei abgeschlossen. In diese Koeffizientendatei werden Koeffizienten aus den Koeffizientensätzen der beiden Transformationen übernommen, wobei die Koeffizienten aus einer der beiden Sätze ausgewählt oder aber auch als Mischung von Koeffizienten erzeugt werden können. Somit werden die beiden Koeffizientensätze der unterschiedlichen Transformationen in einer Gesamttransformation unter Selektion oder Mischung in eine Koeffizientendatei überführt, wobei diese Datei dann Anteile aus beiden Transformationen enthält.
  • Die Erzeugung der Koeffizientendatei nutzt dabei Heuristiken, vorgegebene Informationen, z.B. aus früheren Analysen, oder auch statistische Auswertungen des aktuellen Signals. Grundsätzlich werden alle Frequenzbänder durch beide Transformationsprozesse geführt. Jedoch kann auch, z.B. aufgrund von vorgegebenen Informationen, für einzelne Frequenzbänder nur einer der beiden Transformationsprozesse zur Anwendung kommen, so dass nur das nur das Ergebnis dieses Schrittes weiterverwendet wird.
  • Die Auswahl bzw. Mischung von Koeffizienten zur Erzeugung kann mittels verschiedener Verfahren erfolgen.
  • In einem Ansatz erfolgen eine erste Fouriertransformation mit langem zeitlichem Fenster und eine zweite Fouriertransformation mit kurzem zeitlichen Fenster und nachfolgendem Tiefpassfilter. Für die Ergebnisse beider Transformationen wird jeweils der Realteil berechnet und deren Verhältnis gebildet. Anhand dieses Verhältnisses wird entschieden, aus welcher Transformation der Koeffizient gewählt wird.
  • Ein anderer Ansatz beruht auf der Analyse der Steigung in einer Darstellung von Phase gegenüber Frequenz, d.h. der frequenzabhängigen Steigung des Phasensignals. Durch das Setzen von Schwellen oder das Berechnen eines Gewichtungsparameters erfolgt eine Bestimmung, welcher Koeffizient verwendet wird, bzw. ob und wie eine Mischung von Koeffizienten erfolgt.
  • Die Nutzung von vorgegebenen Informationen erfolgt durch einen Vergleich der durch die Transformationen erhaltenen Koeffizientensätze mit einem Satz gespeicherter Koeffizienten. Dieser Vergleich dient als Auswahlkriterium für die Koeffizienten bzw. deren Mischung.
  • Durch den vollständigen Transformationsprozess wird schliesslich eine Datei erzeugt, welche die ausgewählten bzw. gemischten Koeffizienten enthält. Darüber hinaus kann in dieser Datei noch statistische Information bezüglich des Signals abgelegt sein.
  • Auf der Basis dieser Koeffizientendatei erfolgt die harmonische Dekomposition, die schliesslich zu einer Zuordnung von spektralen Anteilen zu Mustern, wie z.B. speziellen Musikinstrumenten, führt. Die detektierten Muster oder Ereignisse können nach einer Konversion graphisch dargestellt, z.B. als Noten, oder durch Synthesizer wiedergegeben werden. Unter Mustern oder Ereignissen sollen hier die charakteristischen Anteile in einem akustischen Signal verstanden werden, deren Identifikation das Ziel der Analyse darstellt. Dies können beispielsweise einzelne Musikinstrumente, Worte oder seismische Kenngrössen sein.
  • Grundlage der Dekomposition bilden erfindungsgemäss nicht nur die Koeffizienten selbst, sondern auch deren Aggregate, z.B. das zeitliche Integral einer Amplitude für eine bestimmte Frequenz, oder statistische Informationen.
  • Zur Dekomposition kann im einfachsten Fall ein Vergleich mit einer Datenbank erfolgen, in der Beispiele für Muster abgelegt sind. Solche Datenbanken stehen beispielsweise für Musikinstrumente zur Verfügung.
  • Eine weitere Möglichkeit stellt der Aufbau eines Modells für die zu identifizierenden Muster dar, wobei dieses Modell z.B. aus dem aktuellen Signal mit statistischen Verfahren aufgebaut werden kann. Das Modell wird iterativ mit dem Signal verglichen und schrittweise optimiert. Unterschreitet das verbleibende Residuum einen vorgegebenen Schwellwert, wird das Verfahren abgebrochen und die Mustererkennung wird als hinreichend gut betrachtet.
  • Zur Merkmals- bzw. Notenerkennung können verschiedene Ansätze alternativ oder kumulativ Verwendung finden.
  • So werden beispielsweise durch geeignete ein- oder zweidimensionale Filter in den einzelnen Schichten der TF-Pyramide charakteristische Merkmale der einzelnen Musikinstrumente ermittelt. Diese Merkmale können dann direkt den einzelnen Musikinstrumenten und deren Repräsentation im Notationsformat (z.B. Midi, oder internes Format) zugewiesen werden. Alternativ werden die Merkmale einen neuronalen Netzwerk als Eingangsvariablen zugeführt.
  • In diesem neuronalen Netzwerk werden die durch die Merkmale bestimmten Regionen der TF-Pyramiden genauer untersucht, beispielsweise durch Pixel-zu-Pixel-Vergleich in einer abgegrenzten Umgebung des Merkmals. Die ermittelten Resultate dieser Vergleiche können rückgekoppelt auf die Merkmalserkennung eine Verbesserung der Merkmalserkennung bewirken. Beispielweise werden Merkmalszentren, Merkmalsschwellwerte und Frequenz-Zeit-Ausdehnung der Merkmalserkennung angepasst. Mit diesen Methoden lassen sich Merkmale für perkussive und/oder harmonische Klänge bestimmen. Im speziellen werden dadurch einzelne Töne eines Instruments, z.B. Gitarre, Bass, Trommeln und Becken eines Schlagzeugs, aber auch Piano- und Gitarrenakkorde erkannt. In grundsätzlich gleicher Weise können auch seismische Ereignisse oder sprachliche Merkmale, z.B. auszublendende Hintergrundgeräusche bei einer akustischen Kommunikationsverbindung, analysiert werden.
  • Da sich in den Eingangssignalen Merkmale oft wiederholen, können ermittelte Merkmale und Muster dazu verwendet werden, den gesamten Informationsgehalt (TF) auf solche Wiederholungen zu durchsuchen.
  • Die ermittelten Muster werden nach vorgegebenen Kriterien oder nach der Analyse durch Zuordnung klassifiziert, wobei diese Zuordnung vom Computerprogramm vollautomatisch, halbautomatisch bzw. interaktiv durch den Programmanwender durchgeführt werden kann. Zur Verbesserung der Klassifizierung der Muster kann die Ergebnismenge (TF) nachmals auf vergleichbare Muster untersucht werden. Diese Methode ist zeitsparend, da die Transformation oftmals ein vergleichsweise langer andauernder Prozess sein kann.
  • Alle Verfahren des Stands der Technik zur Musikerkennung führen bislang zu einem statischen, nicht interaktiv korrigierbaren Notenbild, welches fehlerbehaftet oder nicht korrekt im Sinne der gewünschten Darstellung ist. Zur Verbesserung stehen erfindungsgemäss Methoden zur Verfügung, welche durch interaktive Vorgabe von Parametern zwischen dem Computerprogramm und dem Anwender die generierte Notdarstellung modifizierbar gestalten. Beispielsweise können durch Informationen mit zeitlichem Charakter identifizierte Harmonien (z.B. Gitarren- und Pianoakkorde) verbessert oder geändert werden.
  • So kann beispielsweise die Takteinteilung als zeitliche Klassifizierung manuell ergänzt oder geändert werden. Notenschrift bedarf einer Klassifizierung in zeitlichem Sinne in einer solchen Weise, dass ermittelten Notenwerten Notenlängen zugeordnet werden können. Eine Funktion im Anwenderprogramm ermöglicht hierbei die Markierung von Taktbeginn und eine automatische Funktion des Programms ermittelt dann zwischen diesen Markierungen die fehlenden Takte. Dieser Prozess kann wiederholt werden, bis die Takteinteilung zufriedenstellend ist. Es können aber auch Funktionen verwendet werden, welche die Takteinteilung automatisch erkennen.
  • Eine Verbesserung der Harmonieerkennung durch zeitliche Klassifizierung ist aufgrund einer Einteilung des Informationsgehalts in Takte möglich, die zur Verbesserung der Harmonieerkennung herangezogen werden kann, indem von der Tatsache Gebrauch gemacht wird, dass sich in real gespielter Musik die Harmonien oft beim Taktwechsel ändern.
  • Eine unzureichende Einstellung von automatischen oder manuellen Schwellwerten bei der Notenerkennung des Stands der Technik führt dazu, dass der zeitlich aufwendige Prozess der Notenerkennung neu gestartet werden muss. Erfindungsgemäss können Schwellwerte für die Notenerkennung auch nachträglich verändert werden, damit die erkannten Noten dem Anwender in optimaler Darstellung zur Verfügung gestellt werden können. Dazu werden Kriterien, beispielsweise Merkmale, mit einem Schwellwert so versehen, dass Signale unter den Schwellwert nicht als Musiknoten dargestellt werden und auch nicht erklingen.
  • Dabei kann der Nutzer durch Interaktion mit dem System auch rückgekoppelt auf das Ergebnis einwirken. Beispielsweise kann dieser aus seiner - z.B. durch das Anhören des aufgenommenen Musikstückes erhaltenen - Kenntnis der Besetzung einer Musikgruppe eine Vorauswahl der vorhandenen Musikinstrumente manuell vorgeben. Durch diese vorgegebenen Informationen wird dann die harmonische Dekomposition bzw. die Mustererkennung erleichtert und beschleunigt. Die Basis dieser Modifizierbarkeit stellt somit das erfindungsgemässe Verfahren dar, dass eine Modellbildung mit veränderbaren Koeffizienten beinhaltet, welche im Stand der Technik nicht geleistet wird bzw. werden kann.
  • Um eine optimale Nutzung und interaktive Veränderbarkeit zu gewährleisten erfolgt eine angepasste Darstellung der Ergebnisse mit verschiedenen Elementen. Zur Auswahl und Veränderung von Ereignissen wird ein Ereignisbild, beispielsweise als Bild mit notationsüblichen, in Y-Richtung angeordneten Gruppen von Linien, welche Tonhöhen entsprechen, generiert. In X-Richtung wird die Zeit aufgetragen oder eine zur Zeit proportionale Grösse. Ereignisse werden durch Notenköpfe oder aber ganz allgemein durch Symbole eines Fonts oder aber Bitmap oder anderen graphischen Formaten erhältliche Muster oder Bilder angezeigt. Dabei wird die Y-Position im Bild durch die Zuordnungstabelle oder einer mathematischen Funktion der Eigenschaften des Ereignisses zugeordnet, z.B. die Notenhöhe D6 (Midi 74) als zweite Linie von oben).
  • Sobald die Takte festgelegt sind, können die Ereignisse auch in üblicher Musiknotenschrift dargestellt werden.
  • Eine Darstellung kann auch in Form von Leadsheets als einbis mehrseitigen Zusammenfassungen eines Musikstücks erfolgen. Leadsheets in traditionellem Sinne werden von Hand erzeugt. Mit dem erfindungsgemässen Verfahren kann nun auch ein automatisches Erzeugen von Leadsheets durchgeführt werden. Dazu werden im Musikstück Markierungen gesetzt, welche abgrenzbare Bereiche des Musikstücks beschreiben, z.B. Einleitung, 1.Strophe, 1. Refrain, Zwischenteil, etc. Das Verfahren erzeugt dann aus den ermittelten Noten, Takten, und Akkorden eine zusammengefasste Darstellung des gesamten oder eines Teils des Musikstücks. Dieser Darstellung kann dann noch der Liedtext angefügt werden, wobei dieser dann auch im Notenbild zusätzlich einfügbar ist.
  • Durch einen Schwellwertregler für Tonhöhe können Notenwerte aktiviert, zur Darstellung und zum Erklingen gebracht werden. Dabei kann festgelegt werden, ob Ereignisse ausgeblendet werden oder aber auch die Tonhöhe um einen bestimmten Betrag, beispielsweise eine Oktave, verschoben werden sollen, wodurch die Noten dann eine Oktave tiefer abgespielt und notiert werden. Hierdurch kann das Ergebnis in soweit verbessert werden, dass, wenn Noten durch ihre harmonischen Anteile erkannt werden, diese auf die Grundfrequenz transponiert werden können.
  • Mit geeigneten Auswahlinstrumenten, wie z.B. einer Maus, einem Keyboard oder einem anderen Tool, können einzelne oder Gruppen von Noten selektiert und ggf. nachfolgend, z.B. per Midi, abgespielt werden. Erfindungsgemäss besteht die Möglichkeit, die Originalklänge, welche zur Erstehung des Ereignisses geführt haben, zu rekonstruieren und über das Musiksystem des Computers wieder abzuspielen. Diese Rekonstruktionen können nun auch separat in Musikdateien abgelegt werden.
  • Zum weitern Trennen in verschiedene Musikinstrumente können mit den genannten Methoden Notenereignisse selektiert und auf andere Tonspuren kopiert oder verschoben werden.
  • Zur Verbesserung des Schlagzeugergebnisses als sich wiederholende Abfolge mit Akzentuierung stehen Verfahren zur Verfügung, welche eine Korrelation sich wiederholender Muster feststellen können, wobei die Korrelationslänge automatisch durch die Algorithmen des Programms oder durch den Anwender oder durch die Festlegung der Takte ermittelbar ist. Durch diese Korrelation können auch verschiedene Teile eines Musikstücks identifiziert werden. Die so ermittelten Schlagzeugmuster werden zusammengefasst auch auf den Leadsheets notiert.
  • Mit der zuvor angeführten Methode der Schlagzeugnotenerkennung können Bereiche in TF-Schichten markiert werden, aus deren Umgebung Muster abgeleitet werden können. Ein Teil oder alle diese Muster werden miteinander verglichen, wobei beispielsweise die Methode der Summe der Quadrate der Differenzen übereinander gelegter Pixel als Kriterium herangezogen werden kann, was für den statischen Fall wie folgt formuliert werden kann S = t 1 t 2 f = 0 f max P t f R t f 2
    Figure imgb0007

    wobei der korrespondierende dynamische Fall gemäss S t 0 = t 1 - t 0 t 2 - t 0 f = 0 f max P t - t 0 , f R t f 2
    Figure imgb0008

    formuliert werden kann. Hierbei bezeichnen P ein Signalmuster und R ein Referenzmuster. Als Verknüpfungen ⊗ können beispielsweise Subtraktion oder Multiplikation verwendet werden. Das Referenzmuster kann ein Muster an einer anderen Stelle der TF-Matrix sein oder ein vorabgespeichertes Muster oder aber ein Muster, welches aus einer Kombination bestehender Muster, beispielsweise durch Mittelwertbildung, entstanden ist. Im dynamischen Fall werden beide Muster gegeneinander zeitlich verschoben, so dass eine zeitabhängige Übereinstimmung ableitbar ist. Bei kleinen Werten von S besteht eine grosse Ähnlichkeit der zu vergleichenden Muster. In einer aus Vergleichen aller Muster miteinander erstellten Matrix AS sind die Elemente AS(i,j) = S(i,j).
  • Zur Klassifizierung werden Gruppen gebildet und einem Graphen zugeordnet. Hierbei besteht eine Verbindung von jedem Muster zu dem Muster, welches am ähnlichsten ist. Auf Grund von vorprogrammierten Merkmalen werden die Muster dann klassifiziert und Notenwerte zugeordnet.
  • Die Erkennung von Akkorden in Musikstücken erfolgt auf die gleiche Art wie oben beschrieben für Schlagzeugnoten mit Mustererkennung.
  • Die Erkennung von harmonischen Klängen, wie z.B. Gitarre, Bass, Piano, Melodie oder Gesang, nutzt Schwellwerte. Ein Schwellwert bestimmt dabei, ob eine Frequenz einer TF-Schicht aktiv ist oder nicht. Im einfachsten Fall wird jede aktive Frequenz in eine Note umgewandelt, wobei Position, Notenhöhe und Länge, d.h. der Eintritt über die Schwelle bis zum Austritt beim Übergang von aktiv zu unterhalb der Schwelle, bestimmt werden. Diese Methode wird beispielsweise zur Erkennung von Instrument herangezogen, welche nur wenige Obertöne erzeugen, wie z.B. eine Sinusorgel.
  • Für harmonische Signale mit hohem Obertonanteilen, d.h. die Töne liegen bei Frequenzanteilen, die ein Vielfaches der Grundfrequenz betragen werden für eine oder mehrere Schichten der TF-Pyramide die Produkte F 0 F 0 H 1 + H 2 + H 3 + H n
    Figure imgb0009

    mit F 0 als Grundfrequenz und H 1 ,H 2 ,H 3 ,...Hn als Höherharmonischen, d.h. H 1 = 2 · F 0 , H 2 = 3 · F 0 etc., gebildet, wobei als Verknüpfung ⊗ beispielsweise eine Multiplikation gewählt werden kann. Danach werden die Bereiche aktiviert, die einen zuvor ermittelten oder festgelegten Schwellwert überschreiten, als Ereignisse ermittelt und in Noten umgewandelt.
  • Zudem können Notenobjekte gesammelt werden. Jeder Note stehen typischerweise folgende Eigenschaften zu:
    • o Position im Lied
    • o Länge des Ereignisses
    • o Text
    • o Frequenz
    • o Notenhöhe
    • o Detektionsvolumen
    • o Musikinstrument
    • o Amplitude
    • o Koeffizienten.
  • Hierfür können Sammlungen (Collections) von Noten angelegt werden, welche typischerweise nach Instrumenten in Tonspuren aufgeteilt werden. Diese Sammlungen können in Dateien auf einem Computersystem abgespeichert werden. Solche Dateien können auch über das Internet, drahtgebunden oder durch elektromagnetische Übertragung weitergereicht werden. Als Beispiele für Übertragungsprotokolle seien Http, Tcp, Https, SOAP, etc. angeführt, wobei aber auch andere Formate möglich sind.
  • Die ermittelten Ereignisse bzw. Noten werden auf eine oder mehrere Arten angezeigt. Beispielsweise stellt ein Ausführungsbeispiel die Ereignisse als eine Kombination von Symbolen (Notenköpfen) dar, wobei die vertikale Achse einen üblichen Notenbild und die horizontale Achse der Zeit entspricht. Da bei einem standardgemässen Notenbild mit 5 Zeilen jede Zeile für 3 Noten stehen kann (z.B. g, ges und gis) können diese Zustände durch verschiedene Symbole dargestellt werden, z.B. ein regulärer Notenkopf für g, ein Dreieck mit Spitze nach unten für ges und ein Dreieck mit Spitze nach oben für gis. Zusätzlich kann die Ereignislänge durch ein Rechteck angezeigt werden. Eine weitere mögliche Darstellung der Ergebnisse ist die gebräuchliche Notenschrift.
  • Im Gegensatz zum erfindungsgemässen Verfahren, das eine Anpassung der Ergebnisse erlaubt, haben Verfahren des Stands der Technik den Nachteil, dass Schwellwerte vor der zeitaufwendigen Analyse gesetzt werden müssen. Bei unzureichender Einstellung muss der gesamte Analysevorgang wiederholt werden, was aufwendig, wenig benutzerfreundlich, fehleranfällig und zeitraubend ist. Das erfindungsgemässe Verfahren hat den Vorteil, dass Schwellwerte für die Notenerkennung auch nach der Analyse gesetzt werden können. Dadurch können die Ergebnisse in Echtzeit an die Wünsche des Benutzers angepasst werden. Dieses Verfahren kombiniert die Möglichkeiten der Notenerkennung mit der Notendarstellung in einer Weise, die es erlaubt, die Ergebnisse durch Interaktion des Programmbenutzers mit der Analysesoftware individuell anzupassen.
  • Mit der speziellen Anwendermethode des halbautomatischen Setzens der Taktstriche können Positionen im Ereignisbild markiert werden, die musikalisch den ersten Schlag eines Taktes markieren. Bei diesem Ansatz wird mindestens ein Takt durch zwei Markierungen gesetzt und so eine zeitliche Information vorgegeben. Das Programm errechnet dann automatisch, z.B. mit Hilfe von Extrapolation, die fehlenden Takte für das ganze Lied. Dabei entstehen durch die Ungenauigkeit des gesetzten Taktes und durch Tempovariationen im Lied oft Abweichungen vom Idealergebnis, d.h. der Annahme, dass alle Takte richtig gesetzt sind. Zusätzliche erste Schläge eines Taktes können vom Anwender gesetzt werden, wobei dann das neue Taktlayout jeweils neu berechnet wird.
  • Der oben dargestellte Schwellwertregler kann auch als Tonhöhenfilter eingesetzt werden, d.h. als Instrument, um Grenzfrequenzen festzulegen, wobei dann Notenereignisse mit Tonhöhen über (bzw. unter oder zentriert um) einem Schwellwert nicht angezeigt oder eben angezeigt und gespielt werden. Wahlweise können Noten, die ausserhalb der Schwelle liegen, durch Tonhöhentransposition (Oktaveverschiebung) wieder in den Bereich der angezeigten Ereignisse gebracht werden. Als Beispiel gelte ein Tiefpass, bei dem Noten über dem Wert 60 (mittleres C (C5) gemäss Midi Standard, 61 = cis5) nicht angezeigt werden. Im einen Fall wird eine Note der Tonhöhe 70 nicht mehr angezeigt und/oder gespielt, im anderen Fall wird die Note um eine Oktave nach unten transponiert (70-12 Halbtonschritte = 58), somit wird die Note mit Tonhöhe 58 gezeigt und gespielt. Dieses Verfahren dient zur Verminderung von fälschlich erkannten Oktavesprüngen in Melodien, in denen die harmonischen Signale anstatt der Grundtöne erkannt wurden.
  • Im Rahmen der Transformation oder der harmonischen Dekomposition können darüber hinaus noch weitere Verfahren zum Einsatz kommen. So können beispielsweise die Koeffizienten benachbarter Frequenzen durch Interpolation oder durch statistische Verfahren erhalten werden.
  • Gleichfalls können Koeffizienten ergänzt oder ersetzt werden, indem synthetisch erzeugte Koeffizienten sowie solche aus früheren Aufnahmen, einer früheren Analyse des gleichen Signals oder Mischungen derselben verwendet werden. So können z.B. für eine Trommel obere Frequenzanteile künstlich aus einer Datenbank ergänzt werden.
  • Die erzeugten Koeffizientendateien können in einem eigenen Format oder aber - gegebenenfalls nach einer Konversion - auch in einem verbreiteten Datenformat, wie z.B. MIDI- oder Wave-Format exportiert werden. Gleichermassen können auch solche Dateien importiert und deren Inhalt im erfindungsgemässen Verfahren verwendet oder modifiziert werden.
  • Aus den Koeffizienten können schliesslich durch eine Rücktransformation wieder das Original oder originalgetreu klingende Signale erzeugt werden, beispielsweise im Wave Format, welche dann beispielsweise über das Computermusiksystem und Lautsprecher wiedergegeben werden können. Im speziellen Fall können Klänge, welche durch Musiknoten oder Bilder irgendwelcher Art am Bildschirm dargestellt werden, aus den TF-Koeffizienten rekonstruiert und abgespielt werden.
  • Das erfindungsgemässe Verfahren bzw. die logische oder physische Verschaltung der Vorrichtung werden nachfolgend anhand der Ablauf- und Anordnungsbeziehungen der einzelnen Komponenten sowie der graphischen Darstellung auf einem Bildschirm beispielhaft und rein schematisch näher erläutert.
  • Im einzelnen zeigen
  • Fig.1
    eine schematische Darstellung der einzelnen Schritte des erfindungsgemässen Verfahrens;
    Fig.2
    eine schematische Darstellung von Bereitstellungsalternativen für ein Eingangssignal;
    Fig.3
    eine schematische Darstellung der Zerlegung des Eingangssignals in Frequenzbereiche;
    Fig.4
    eine schematische Darstellung eines Transformierens der Frequenzbereiche;
    Fig.5
    eine schematische Darstellung der Schritte zur Notenerkennung durch harmonischen Dekomposition;
    Fig.6
    eine Darstellung einer graphischen Benutzeroberfläche zur interaktiven Bereitstellung von Zusatzinformationen;
    Fig.7
    eine Darstellung eines ersten Schrittes in einem ersten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Setzen von Taktmarkierungen;
    Fig.8
    eine Darstellung eines zweiten Schrittes in einem ersten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Setzen von Taktmarkierungen;
    Fig.9
    eine Darstellung eines ersten Schrittes in einem zweiten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Anpassung des Verstärkungsfaktors und
    Fig.10
    eine Darstellung eines zweiten Schrittes in einem zweiten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Anpassung des Verstärkungsfaktors.
  • Fig.1 zeigt eine schematische Darstellung der einzelnen Schritte des erfindungsgemässen Verfahrens.
  • Das akustische Signal wird durch eine Aufnahmekomponente erfasst oder von einem Datenträger importiert und in Form eines Eingangssignals ES zur Weiterverarbeitung bereitgestellt. Dieses Eingangssignal ES wird in einem Subband Coder SC in einzelne Frequenzbänder zerlegt, die nachfolgend jeweils einer frequenzoptimierten ersten Transformation TF1 und einer zeitoptimierten zweiten Transformation TF2 zugeführt werden. Diese Transformationsprozesse können parallel auch Informationen aus dem originalen Eingangssignal ES gewinnen und für den Transformationsprozess nutzen.
  • Die Ergebnisse der beiden Transformationen werden in einem Transformations-Prozessor TP - gegebenenfalls unter Rückkopplung mit der ersten Transformation TF1 und der zweiten Transformation TF2 - zu einer Koeffizientendatei zusammengeführt.
  • Auf der Basis dieser Koeffizientendatei erfolgt die harmonische Dekomposition HD zur Erkennung von dem Eingangssignal ES inhärenten Mustern. Dabei können zur harmonischen Dekomposition HD vorgegebene Koeffizienten genutzt werde, die beispielsweise in einem Speicher abgelegt sind oder über externe Datenträger zugeführt werden.
  • Die identifizierten Muster werden über eine graphische Konversion für eine graphische Schnittstelle exportierbar bzw. darstellbar gemacht. Ein Beispiel hierfür stellen die Umsetzung in Noten und beispielsweise der Ausdruck einer Partitur dar. Erfolgt eine Darstellung auf einer graphischen Benutzeroberfläche, so können interaktiv Parameter verändert oder vorgegeben werden sowie weitere Auswählen oder Modifikationen erfolgen.
  • Zum Transfer von Dateien wird eine Schnittstelle EX/IM verwendet. Darüber hinaus kann nach einer Formatkonversion die akustische Darstellung der Muster über einen Audioausgang, der z.B. mit einem Synthesizer verbunden ist, erfolgen.
  • In Fig.2 erfolgt die schematische Darstellung von Bereitstellungsalternativen für das Eingangssignal ES. Das Eingangssignal kann durch verschiedenartige Quellen bereitgestellt werden. Hierzu gehören zeitnah oder in Echtzeit erfolgende Aufnahme wie auch die Verwendung gespeicherter Daten. Dabei können beispielsweise Signale im Wave-Format und Dateien von Audio-CDs direkt verwendet werden. Dateien in den Formaten MPx (MP3, MP4) oder WMA oder einem anderen Format werden zuerst durch Decoder in Wave-Dateien umgewandelt. Dazu stehen handelsübliche Funktionsbibliotheken, z.B. für MP3 vom Fraunhofer Institut, im Internet zur Verfügung. Alternativ können die Koeffizienten von MP3 oder vergleichbaren Formaten direkt oder über eine Vorbehandlung (z.B. Skalierung) in eine oder mehrere Schichten der Pyramidenzerlegung des Signals eingeordnet werden. Decoder für andere Formate, wie z.B. Ogg oder WMA, werden im Internet bereitgestellt, z.B. auf www.microsoft.com.
  • Ein Aufnahmepuffer AP ist Bestandteil eines Sigalaufnahmeverfahrens auf dem Computer, beispielsweise DirectX der Firma Microsoft. Hierdurch können z.B. Aufnahmen von Signalen über ein an den Computer angeschlossenes Mikrofon erfolgen.
  • Die Zerlegung des Eingangssignals ES in Frequenzbereiche im Subband Coder SC wird in Fig.3 schematisch dargestellt.
  • Das als Wave-Datei bereitgestellte Eingangssignal ES wird durch geeignete Hochpassfilter HP und Tiefpassfilter TP und durch Verminderung der Samplingrate, z.B. durch eine Halbierung der Datenrate HDR, in Unterbereiche oder Subbänder SBB zerteilt. Typischerweise enthält jedes Subband SBB eine bandpass-gefilterte Version des Eingangssignals ES. Beispiele für Filterkerne sind
    • o für Tiefpass {0.25, 0.5, 0.25} oder {0.05, 0.2, 0.4, 0.2, 0.05} und
    • o für Hochpässe Filterkerne deren Mittelwert der Koeffizienten Null (0.0) ergibt, z.B. {-1, 2, -1}.
  • Wahlweise können die Hochpassfilter auch weggelassen werden, wodurch sich eine Serie von tiefpassgefilterten Subbändern erzeugen lässt.
  • Fig.4 veranschaulicht das Transformieren der Frequenzbereiche in einer schematischen Darstellung. Die einzelnen Subbänder SBB werden den beiden unterschiedlich optimierten Transformationen TF1 und TF2 unterworfen und nachfolgend in verschiedenen Schichten TFL0, TFL1,...TFLN gespeichert. Das in den Schichten TFL0, TFL1,...TFLN der Ausgangsmenge gespeicherte Signal ist beispielsweise eine Mischung aus den Transformationsausgangssignalen und einer Pyramidenzerlegung der jeweils nächsthöheren Stufe der Pyramide. Je nach konkreten Anwendungszweck und zu verarbeitenden Typen von akustischen Eingangssignalen ES kann auch eine andere Zerlegungsart oder auch eine mehrfache Pyramidenzerlegung erfolgen.
  • Fig.5 zeigt eine schematische Darstellung der Schritte zur Notenerkennung durch harmonischen Dekomposition HD. Die in den verschiedenen Schichten TFL0, TFL1,...TFLN enthaltenen Informationen werden in einem Filter FI zusammengefasst und danach zur Ereignisextraktion der harmonischen Dekomposition unterworfen, in denen die Mustererkennung und Modellbildung stattfindet. Hierzu können erfindungsgemäss eine Vielzahl von vorstehend beschriebenen Ansätzen verwendet werden. Die Ergebnisse der harmonischen Dekomposition HD werden beispielsweise graphisch in Form von Noten dargestellt, so dass durch einen Benutzer oder auch andere Verfahren eine Auswahl oder Vorgabe von Informationen erfolgen kann, die wiederum Eingang in den Schritt der harmonischen Dekomposition HD finden.
  • Ein Beispiel für eine graphische Benutzeroberfläche zur interaktiven Bereitstellung von Zusatzinformationen wird in Fig.6 dargestellt. Die Oberfläche stellt unter anderem einen Verstärkungsregler 1 und einen manuell veränderbaren Taktmarkierer 2 zur Festsetzung von Takten bereit.
  • Die Anwendung des Taktmarkierers 2 wird in Fig. 7 in einem ersten Schritt eines ersten Beispiels zur interaktiven Bereitstellung von Zusatzinformationen durch Setzen von Taktmarkierungen erläutert. Dieser Ansatz erlaubt eine Bestimmung aller Takte im gesamten Lied. Durch den Taktmarkierer 2 wird ein Takt im Lied identifiziert und graphisch durch eine Raute 3 in der obersten Zeile angezeigt. Das Betätigen eines Funktionselementes führt dann zum Umrechnen der Ereignisse in standardgemässe Musiknoten, wobei die automatisch gesetzten Takte durch Dreiecke 4 in der obersten Zeile markiert werden. Verbesserungen dieser Methode können noch dadurch erreicht werden, dass die Tonspuren, speziell dabei die Schlagzeugspur, zur Feinabstimmung der Takte herangezogen werden können. Trotzdem kann es aufgrund von Variationen in der gespielten Musik, durch Schwankungen der Aufnahmegeschwindigkeit oder Drifteffekte zu einem Auseinanderfallen von errechneten Takten und tatsächlichen Mustern in der Aufnahme kommen, wie im Beispiel innerhalb des gestrichelten Bereichs durch Pfeile angezeigt.
  • Durch das manuelle Anpassen der Taktmarkierung kann dieses Auseinanderfallen wieder korrigiert werden, wie in Fig.8 gezeigt.
  • In Fig.9 erfolgt eine Darstellung eines ersten Schrittes in einem zweiten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Anpassung des Verstärkungsfaktors. In diesem Beispiel wird der Schwellwertregler mit einem Schwellwert grösser 0 gewählt, so dass nur Notenereignisse angezeigt werden, welche grösser als der Schwellwert sind. Einige relevante Bereiche werden durch Ellipsen markiert.
  • In diesen Bereichen werden nach Veränderung der Einstellung des Schwellwertreglers weitere Informationen sichtbar, wie in Fig.10 gezeigt. Wird der Schwellwertregler auf Null gesetzt, so werden alle Notenereignisse sichtbar und es werden alle ermittelten Ereignisse angezeigt. Durch die Variation des Schwellwertreglers können somit Anpassungen des Ergebnisses erfolgen, ohne dass das gesamte Verfahren von Anfang an neu durchgeführt werden muss.

Claims (14)

  1. Verfahren zur Musterzuordnung für akustischen Aufnahmen mit den Schritten
    - Bereitstellen eines Signals welches eine akustische Aufnahme repräsentiert;
    - Zerlegen des Signals in Frequenzbereiche;
    - Transformieren der Frequenzbereiche zur spektralen Zerlegung in wenigstens eine Koeffizientendatei;
    - Durchführen einer harmonischen Dekomposition der Koeffizientendatei; und
    - Musterzuordnung;
    dadurch gekennzeichnet, dass
    beim Transformieren der Frequenzbereiche, insbesondere jeweils für alle Frequenzbereiche, wenigstens
    - eine hinsichtlich der Frequenzauflösung optimierte erste Transformation und
    - eine hinsichtlich der Zeitauflösung optimierte zweite Transformation erfolgt.
  2. Verfahren nach Anspruch 1,
    dadurch gekennzeichnet, dass
    beim Transformieren der Frequenzbereiche eine optimierte Selektion der Koeffizienten aus den Ergebnissen der ersten Transformation und der zweiten Transformation und/oder eine Mischung der Koeffizienten aus den Ergebnissen der ersten Transformation und der zweiten Transformation erfolgt.
  3. Verfahren nach Anspruch 2,
    dadurch gekennzeichnet, dass
    beim Transformieren der Frequenzbereiche
    - die erste Transformation mit einem längeren Zeitfenster und
    - die zweite Transformation mit einem kürzeren Zeitfenster erfolgt,
    insbesondere wobei die Selektion anhand des Verhältnisses der Realteile von erster und zweiter Transformation getroffen wird.
  4. Verfahren nach Anspruch 2,
    dadurch gekennzeichnet, dass
    beim Transformieren der Frequenzbereiche die Selektion oder Mischung anhand der frequenzabhängigen Steigung des Phasensignals jeweils für die Ergebnisse der ersten Transformation und der zweiten Transformation erfolgt.
  5. Verfahren nach Anspruch 2,
    dadurch gekennzeichnet, dass
    beim Transformieren der Frequenzbereiche die Selektion oder Mischung anhand eines Vergleichs der Ergebnisse der ersten Transformation und der zweiten Transformation mit einem Satz von vorgegebenen Koeffizienten erfolgt.
  6. Verfahren nach einem der vorangehenden Ansprüche,
    dadurch gekennzeichnet, dass
    die erste Transformation und/oder zweite Transformation nach einem der folgenden Prinzipien erfolgt
    - Diskrete Fourier-Transformation,
    - Fast-Fourier-Transformation,
    - Wavelet-Transformation,
    - Sinus Transformation,
    - Kosinus Transformation.
  7. Verfahren nach einem der vorangehenden Ansprüche,
    dadurch gekennzeichnet, dass
    beim Transformieren der Frequenzbereiche für jede Transformation ein Aggregat der Ergebnisse, insbesondere das zeitliche Integral für eine Frequenz, berücksichtigt werden.
  8. Verfahren nach einem der vorangehenden Ansprüche,
    dadurch gekennzeichnet, dass
    das Zerlegen des Signals nach dem Prinzip der Teilung in Oktaven und/oder der Pyramidenzerlegung erfolgt.
  9. Verfahren nach einem der vorangehenden Ansprüche,
    dadurch gekennzeichnet, dass
    beim Durchführen der harmonischen Dekomposition
    - ein Vergleich mit vorgegebenen Koeffizienten, insbesondere unter Minimierung des Residuums, oder
    - ein Vergleich mit Koeffizienten aus einer vorangegangenen Analyse des Signals, insbesondere durch Ableiten von Koeffizienten unter Verwendung eines charakteristischen Grundprofils,
    erfolgt.
  10. Verfahren nach einem der vorangehenden Ansprüche,
    dadurch gekennzeichnet, dass
    beim Durchführen der harmonischen Dekomposition eine Interaktion mit einem Benutzer erfolgt, insbesondere durch Eingabe von Zusatzinformationen.
  11. Verfahren nach einem der vorangehenden Ansprüche,
    dadurch gekennzeichnet, dass
    beim Durchführen der harmonischen Dekomposition originale und/oder synthetische Frequenzanteile, insbesondere obere Frequenzanteile, verwendet werden.
  12. Computerprogrammprodukt mit Programmcode, der auf einem maschinenlesbaren Träger gespeichert oder durch eine elektromagnetische Welle verkörpert ist, zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 11.
  13. Vorrichtung zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 11
    mit wenigstens
    - einer Aufnahmekomponente zur Aufnahmen eines akustischen Signals,
    - einem Subband-Coder zum Zerlegen des Signals in einzelne Frequenzbereiche,
    - einem Transformations-Prozessor zur spektralen Zerlegung der Frequenzbereiche in wenigstens eine Koeffizientendatei,
    - einer Exportschnittstelle zum Export der Koeffizientendatei,
    dadurch gekennzeichnet, dass
    dem Transformations-Prozessor eine erste Transformationsstufe und eine zweite Transformationsstufe zugeordnet sind, wobei die erste Transformationsstufe eine optimierte Frequenzauflösung und die zweite Transformationsstufe eine optimierte Zeitauflösung bewirkt.
  14. Koeffizientendatei zur Verwendung in einem Verfahrens nach einem der Ansprüche 1 bis 11
    gekennzeichnet durch
    die Koeffizienten der spektralen Zerlegung des akustischen Signals und zugeordneter Informationen zur Signalstatistik.
EP05107730A 2005-08-23 2005-08-23 Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen Withdrawn EP1758096A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP05107730A EP1758096A1 (de) 2005-08-23 2005-08-23 Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen
US11/466,379 US20070044642A1 (en) 2005-08-23 2006-08-22 Method and device for pattern recognition in acoustic recordings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP05107730A EP1758096A1 (de) 2005-08-23 2005-08-23 Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen

Publications (1)

Publication Number Publication Date
EP1758096A1 true EP1758096A1 (de) 2007-02-28

Family

ID=35520688

Family Applications (1)

Application Number Title Priority Date Filing Date
EP05107730A Withdrawn EP1758096A1 (de) 2005-08-23 2005-08-23 Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen

Country Status (2)

Country Link
US (1) US20070044642A1 (de)
EP (1) EP1758096A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8618404B2 (en) * 2007-03-18 2013-12-31 Sean Patrick O'Dwyer File creation process, file format and file playback apparatus enabling advanced audio interaction and collaboration capabilities
US8283546B2 (en) * 2007-03-28 2012-10-09 Van Os Jan L Melody encoding and searching system
US10978033B2 (en) 2016-02-05 2021-04-13 New Resonance, Llc Mapping characteristics of music into a visual display
US10325580B2 (en) * 2016-08-10 2019-06-18 Red Pill Vr, Inc Virtual music experiences
US10008188B1 (en) * 2017-01-31 2018-06-26 Kyocera Document Solutions Inc. Musical score generator

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5752224A (en) * 1994-04-01 1998-05-12 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus information transmission method and information recording medium
US6140568A (en) 1997-11-06 2000-10-31 Innovative Music Systems, Inc. System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
US6355869B1 (en) 1999-08-19 2002-03-12 Duane Mitton Method and system for creating musical scores from musical recordings

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1308913C (zh) * 2002-04-11 2007-04-04 松下电器产业株式会社 编码设备、解码设备及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5752224A (en) * 1994-04-01 1998-05-12 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus information transmission method and information recording medium
US6140568A (en) 1997-11-06 2000-10-31 Innovative Music Systems, Inc. System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
US6355869B1 (en) 1999-08-19 2002-03-12 Duane Mitton Method and system for creating musical scores from musical recordings

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BOSI M ET AL: "ISO/IEC MPEG-2 ADVANCED AUDIO CODING", JOURNAL OF THE AUDIO ENGINEERING SOCIETY, AUDIO ENGINEERING SOCIETY, NEW YORK, NY, US, vol. 45, no. 10, October 1997 (1997-10-01), pages 789 - 812, XP000730161, ISSN: 1549-4950 *
EDLER B: "CODIERUNG VON AUDIOSIGNALEN MIT UEBERLAPPENDER TRANSFORMATION UND ADAPTIVEN FENSTERFUNKTIONEN CODING OF AUDIO SIGNALS WITH OVERLAPPING BLOCK TRANSFORM AND ADAPTIVE WINDOW FUNCTIONS", FREQUENZ, SCHIELE UND SCHON, BERLIN, DE, vol. 43, no. 9, 1 September 1989 (1989-09-01), pages 252 - 256, XP000052987, ISSN: 0016-1136 *
MELIH K ET AL: "Audio retrieval using perceptually based structures", MULTIMEDIA COMPUTING AND SYSTEMS, 1998. PROCEEDINGS. IEEE INTERNATIONAL CONFERENCE ON AUSTIN, TX, USA 28 JUNE-1 JULY 1998, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 28 June 1998 (1998-06-28), pages 338 - 347, XP010291569, ISBN: 0-8186-8557-3 *
YASUI NAGOSHI, YUSUKE HIOKA, NOZOMU HAMADA: "Transcription of Music Composed of Melody and Chord Using Tree-structured Filter Bank", PROCEEDINGS OF THE IASTED INTERNATIONAL CONFERENCE, 16 August 2001 (2001-08-16), Honolulu, Hawaii, USA, pages 415 - 419, XP009059920 *

Also Published As

Publication number Publication date
US20070044642A1 (en) 2007-03-01

Similar Documents

Publication Publication Date Title
DE69629486T2 (de) Kontrollstruktur für klangsynthesierung
EP2099024B1 (de) Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
DE69904640T2 (de) Verfahren zum ändern des oberweyllengehalts einer komplexen wellenform
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE60018626T2 (de) Vorrichtung und Verfahren zur Eingabe von Steuerungsdateien für Musikvorträge
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
EP1797552A2 (de) Verfahren und vorrichtung zur extraktion einer einem audiosignal zu grunde liegenden melodie
DE102007034774A1 (de) Vorrichtung zur Bestimmung von Akkordnamen und Programm zur Bestimmung von Akkordnamen
DE60024157T2 (de) Vorrichtung und Verfahren zur Eingabe eines Vortragstils
DE2926090A1 (de) Tonerzeugungsverfahren
DE60026189T2 (de) Verfahren und Vorrichtung zur Wellenformkomprimierung und Erzeugung
DE69629934T2 (de) Umgekehrte transform-schmalband/breitband tonsynthese
DE112013005807T5 (de) Vorrichtung und Verfahren zur Erzeugung einer Echtzeitmusikbegleitung
WO2006039995A1 (de) Verfahren und vorrichtung zur harmonischen aufbereitung einer melodielinie
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE2711511C2 (de) Polyphones elektronisches Musikinstrument
EP1758096A1 (de) Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen
EP1787283A1 (de) Extraktion einer einem audiosignal zu grunde liegenden melodie
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE60318282T2 (de) Methoden und Vorrichtung zur Verarbeitung von Ausführungsdaten und zur Synthetisierung von Tonsignalen
DE60033098T2 (de) Verfahren und Vorrichtung zur Aufnahme/Wiedergabe oder Erzeugung von Wellenformen mittels Zeitlageinformation
DE60032844T2 (de) Verfahren und Vorrichtung zur Erzeugung einer Wellenform auf einem Auslegungsstildatenstrom basiert
DE60032085T2 (de) Verfahren und Vorrichtung zur Erzeugung einer Wellenform mit verbessertem Übergang zwischen aufeinandervolgenden Dateimodulen
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR MK YU

17P Request for examination filed

Effective date: 20070822

AKX Designation fees paid

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20110118

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20110729