WO2011070956A1 - オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体 - Google Patents

オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体 Download PDF

Info

Publication number
WO2011070956A1
WO2011070956A1 PCT/JP2010/071490 JP2010071490W WO2011070956A1 WO 2011070956 A1 WO2011070956 A1 WO 2011070956A1 JP 2010071490 W JP2010071490 W JP 2010071490W WO 2011070956 A1 WO2011070956 A1 WO 2011070956A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio data
sound source
speaker
virtual sound
audio
Prior art date
Application number
PCT/JP2010/071490
Other languages
English (en)
French (fr)
Inventor
純生 佐藤
永雄 服部
嬋斌 倪
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to US13/514,909 priority Critical patent/US20120269351A1/en
Priority to CN2010800554178A priority patent/CN102640522A/zh
Publication of WO2011070956A1 publication Critical patent/WO2011070956A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Definitions

  • the present invention relates to an audio data processing device, an audio device, an audio data processing method, a program, and a recording medium on which the program is recorded.
  • WFS wave field synthesis
  • a listener who is listening to sound facing the speaker array in the acoustic space provided by the WFS is actually a sound source (hereinafter referred to as a sound source) in which sound radiated from the speaker array is virtually present behind the speaker array. (Referred to as “virtual sound source”) (see FIG. 1 for example).
  • Patent Document 1 describes a system that enables a virtual sound source to move.
  • the Doppler effect is known as a physical phenomenon in which the sound wave frequency is observed differently depending on the relative speed of the sound source that is the sound wave generation source and the listener.
  • the vibrations of the sound waves are increased and the frequency is increased, and when moving away from the observer, the vibrations of the sound waves are increased and decreased. .
  • Non-Patent Document 1 is based on the premise that the virtual sound source is fixed without moving, and the Doppler effect generated with the movement of the virtual sound source has not been studied.
  • the number of waves of the audio signal that is the basis of the sound emitted by the speaker changes, and the waveform is distorted by the change in the number of waves. Will occur.
  • distortion occurs in the waveform, the listener perceives it as noise, so it is necessary to take measures to eliminate the waveform distortion. Details of the waveform distortion will be described later.
  • the one described in Patent Document 1 takes into account the Doppler effect generated with the movement of the virtual sound source, and from the appropriate sample data in a certain segment in the audio data that is the basis of the audio signal, The weighting coefficient for the audio data in the range up to the appropriate sample data is changed, and the audio data in the range is corrected.
  • segment is a unit of processing audio data.
  • the present invention has been made in view of such a problem, and is an audio data processing apparatus or the like that specifies a distortion portion in audio data and corrects the distortion of the specified waveform. It is an object of the present invention to provide an audio data processing apparatus and the like that can output audio data without causing it.
  • the audio data processing apparatus of the present invention inputs audio data corresponding to sound emitted by a moving virtual sound source, the position of the virtual sound source, and the position of a speaker that emits sound based on the audio data, and the position of the virtual sound source and
  • the first distance and the second distance are calculated from the position of the speaker to the position of the virtual sound source at successive times.
  • the specifying means for specifying a distortion portion in the audio data at the previous and subsequent time points, and the audio data of the specified portion as a function Correction means for correcting by the interpolation used.
  • the audio data includes sample data
  • the specifying unit specifies a repetition portion and a missing portion of the sample data resulting from the separation and approach of the virtual sound source to the speaker, and the correction
  • the means corrects the identified repeated portion and missing portion by interpolation using a function.
  • the interpolation using the function is linear interpolation.
  • the portion for performing the correction is a difference in time width in which sound waves propagate through the first and second distances, or a time width proportional to the difference.
  • the audio device of the present invention uses audio data corresponding to sound emitted by a moving virtual sound source, a position of the virtual sound source, and a speaker position that emits sound based on the audio data, and uses the position of the virtual sound source and the speaker.
  • the digital content input unit that inputs the digital content including the audio data and the position of the virtual sound source, and the digital content input by the digital content input unit are analyzed, Based on the content information separation unit that separates audio data and virtual sound source position data included in the digital content, the virtual sound source position data and the speaker position data separated by the content information separation unit, content An audio data processing unit that corrects the audio data separated by the information separation unit; and an audio signal generation unit that converts the corrected audio data into an audio signal and outputs the audio signal to the speaker.
  • the digital content input unit inputs digital content from a recording medium storing digital content, a server that distributes digital content via a network, or a broadcasting station that broadcasts digital content.
  • the audio data corresponding to the sound emitted by the moving virtual sound source, the position of the virtual sound source and the position of the speaker that emits sound based on the audio data are input, and the position of the virtual sound source and the In the audio data processing method in the audio data processing apparatus that corrects the audio data based on the position of the speaker, the first distance and the second distance from the position of the speaker to the position of the virtual sound source at successive times, respectively.
  • the program of the present invention provides the audio data corresponding to the sound emitted by the moving sound source based on the position of the virtual sound source formed by the sound emitted from the speaker that inputs the audio signal corresponding to the audio data and the position of the speaker. And calculating a first distance and a second distance from the position of the speaker to the position of the virtual sound source at a point in time, and the first distance and the second distance. If the two distances are different, a step of specifying a distortion portion in the audio data at the previous and subsequent time points and a step of correcting the audio data of the specified portion by interpolation using a function are executed.
  • the recording medium of the present invention records the aforementioned program.
  • the location of the waveform distortion is specified according to the approach and separation of the virtual sound source from the speaker, and then the specified waveform distortion is corrected by interpolation using a function. Therefore, the audio data can be corrected and output without delay.
  • the repeated portion and missing portion of the sample data due to the separation and approach of the virtual sound source to the speaker are specified, and the correcting means is the specified repetition by interpolation using a function. Since the portion and the missing portion are corrected, the audio data can be corrected and output without delay.
  • Audio data in order to identify the location of the waveform distortion according to the approach and separation of the virtual sound source to the speaker, and then to correct the identified waveform distortion by linear interpolation, Audio data can be corrected and output without delay.
  • the location of the waveform distortion is specified according to the approach and the separation of the virtual sound source from the speaker, and then the specified waveform distortion is corrected by interpolation using a function. Audio data can be corrected and output without delay.
  • the location of the waveform distortion is specified according to the approach and separation of the virtual sound source to the speaker, and then the specified waveform distortion is corrected by interpolation using a function. Therefore, the audio data can be corrected and output without delay.
  • Audio data can be corrected and output without delay.
  • the location of the waveform distortion is specified according to the approach and separation of the virtual sound source from the speaker, and then the specified waveform distortion is performed by interpolation using a function. Therefore, audio data can be corrected and output without delay.
  • the audio data processing apparatus and the like it is possible to correct the distortion of the audio data caused by the approach or separation of the virtual sound source from the speaker without delay, and output the corrected audio data.
  • FIG. 6 is an explanatory diagram of an example of an audio signal waveform obtained by combining the audio signal waveform formed by the audio data shown in FIG. 4 and the audio signal waveform formed by the audio data shown in FIG. 5.
  • FIG. 9 is an explanatory diagram of an example of an audio signal waveform obtained by combining the audio signal waveform formed by the audio data shown in FIG. 7 and the audio signal waveform formed by the audio data shown in FIG. 8.
  • FIG. 1 is a block diagram illustrating a configuration example of an audio apparatus including an audio data processing unit according to Embodiment 1.
  • FIG. 3 is a block diagram illustrating an internal configuration example of an audio data processing unit according to Embodiment 1.
  • FIG. It is explanatory drawing of the example of 1 structure of an input audio data buffer. It is explanatory drawing of the example of 1 structure of the sound wave propagation time data buffer. It is explanatory drawing of an example of the audio signal waveform formed with the audio data after correction
  • 3 is a flowchart showing a flow of data processing according to the first embodiment.
  • FIG. 6 is a block diagram illustrating an internal configuration example of an audio apparatus according to Embodiment 2.
  • Embodiment 1 First, a calculation model on the assumption that the virtual sound source does not move in the acoustic space provided by WFS and a calculation model considering the movement of the virtual sound source will be described, and then the description of the embodiment will proceed.
  • FIG. 1 is an explanatory diagram of an example of an acoustic space provided by WFS.
  • a speaker array 103 composed of M speakers 103_1 to 103_M and a listener 102 who is listening to the sound while facing the speaker array 103.
  • the wavefronts of the sound radiated from the M speakers 103_1 to 103_M are subjected to wavefront synthesis based on Huygens' principle, and are transmitted through the acoustic space as a synthesized wavefront 104.
  • the listener 102 feels as if the sound actually radiated from the speaker array 103 is radiated from N virtual sound sources 101_1 to 101_N which are located behind the speaker array 103 and do not actually exist. Receive a good feeling.
  • the N virtual sound sources 101_1 to 101_N are collectively referred to as a virtual sound source 101.
  • FIG. 2 is an explanatory diagram for generally explaining an audio signal.
  • the audio signal is generally expressed as a continuous signal S (t).
  • 2A shows a continuous signal S (t)
  • FIG. 2B shows an impulse train at a sampling interval ⁇ t
  • the continuous signal S (t) is continuous on both the time t axis and the amplitude S axis.
  • Sampling aims to obtain a temporally discrete signal from the continuous signal S (t).
  • sampling and quantization operation is performed by punching out the continuous signal S (t) with an impulse train (FIG. 2B) of the sampling interval ⁇ t and quantizing them, as shown in FIG. 2C. Is called.
  • the quantized data s (b ⁇ t) is referred to as “sample data”.
  • sample data at a discrete time t of an audio signal to be given to an m-th speaker (hereinafter referred to as “speaker 103_m”) included in the speaker array 103 is generated.
  • the number of virtual sound sources 101 is N and the number of speakers constituting the speaker array 103 is M.
  • q n (t) Sample data at discrete times t of sound waves emitted from the nth virtual sound source (hereinafter referred to as “virtual sound source 101_n”) of the N virtual sound sources 101 and reaching the speaker 103_m l m (t): sample data at discrete time t of the audio signal applied to the speaker 103_m
  • G n gain coefficient for the virtual sound source 101_n s n (t): sample data of the audio signal applied to the virtual sound source 101_n at the discrete time t ⁇ mn : sound wave resulting from the distance between the position of the virtual sound source 101_n and the position of the speaker 103_m Number of samples for propagation time
  • the floor symbol indicates “the largest of the integers not exceeding the given value”.
  • the gain coefficient G n for the virtual sound source 101_n is inversely proportional to the square root of the distance from the virtual sound source 101_n to the speaker 103_m. This is because a set of speakers 103_m is modeled as a line sound source.
  • the sound wave propagation time ⁇ mn is proportional to the distance from the virtual sound source 101 — n to the speaker 103 — m.
  • Equations (1) to (4) are based on the assumption that the virtual sound source 101_n does not move and is still at a certain position.
  • the sound source may be stationary or may move. Therefore, in order to deal with such a case, a new calculation model (calculation model according to Embodiment 1) that considers the case where the sound source moves is introduced.
  • a new calculation model will be described.
  • G n, t Gain coefficient with respect to virtual sound source 101 — n at discrete time t ⁇ mn
  • t Number of samples of sound wave propagation time due to distance between virtual sound source 101 — n and speaker 103 — m at discrete time t
  • the gain coefficient for the virtual sound source 101_n, the position of the virtual sound source 101_n, and the sound wave propagation time all vary according to the discrete time t. .
  • audio data is signal-processed in segment units.
  • a “segment” is a unit of processing audio data and is also called a “frame”.
  • One segment is composed of, for example, 256 sample data or 512 sample data. Therefore, l m (t) (sample data at the discrete time t of the audio signal applied to the speaker 103 — m ) in Expression (1) is calculated in segment units. Therefore, in this calculation model, a segment of audio data forming an audio signal to be given to the speaker 103 — m calculated at the discrete time t is set as a vector, and L m, t .
  • L m, t is vector data composed of a sample data (for example, 256, 512, etc.) included in one segment from the discrete time t ⁇ a + 1 to the discrete time t. And is expressed by Equation (8).
  • G n, t and ⁇ mn, t also vary according to the distance the virtual sound source 101_n has moved from the discrete time (t 0 -a) to the discrete time t 0 .
  • Equations (9) and (10) shown below represent the amount of gain coefficient variation and the sound wave propagation time that vary according to the distance the virtual sound source 101_n has moved from the discrete time (t 0 -a) to the discrete time t 0. Represents the amount of change in the number of samples per minute.
  • .DELTA.G n t0 represents the amount of change of the gain coefficient at discrete time t 0, ⁇ mn, t0 is the number of samples of the wave propagation time duration at discrete time t 0, at the discrete time (t 0 -a) It represents the amount of fluctuation (also called “time width”) from the number of samples for the sound wave propagation time.
  • These fluctuation amounts take either a positive value or a negative value depending on the direction in which the virtual sound source 101_n moves when the virtual sound source moves from the discrete time (t 0 -a) to the discrete time t 0. .
  • ⁇ G n, t0 and time width ⁇ mn, t0 are generated when the virtual sound source 101_n moves in a direction away from or near the speaker 103_m, a waveform distortion occurs at the discrete time t 0 .
  • the state in which the “waveform distortion” has occurred means a state in which the audio signal waveform does not change continuously but changes so discontinuously that the listener perceives that portion as noise.
  • the first segment of the segment starting from the discrete time t 0 is used.
  • the audio data of the last part in the previous segment appears again by the time width ⁇ mn, t0 .
  • the segment immediately preceding segment which starts discrete time t 0 is referred to as a first segment, called a segment which starts discrete time t 0 and the second segment.
  • FIG. 3 is an explanatory diagram of a part of an audio signal waveform formed by audio data.
  • the audio data shown in FIG. 3 is represented by a total of 28 pieces of sample data from sample data 301 to sample data 328.
  • the waveform distortion occurs when the virtual sound source 101_n moves in the direction away from the speaker 103_m and in the approaching direction based on the audio signal illustrated in FIG. 3 will be described.
  • FIG. 4 is an explanatory diagram of an example of an audio signal waveform formed by the audio data in the first segment.
  • Sample data 301 to 312 are included in the last part of the first segment.
  • FIG. 5 is an explanatory diagram of an example of an audio signal waveform formed by the audio data in the second segment.
  • the first portion of the second segment includes sample data 308 'to 318.
  • the number of samples corresponding to the sound wave propagation time with respect to the distance from the virtual sound source 101_n to the speaker 103_m in the second segment becomes the virtual sound source 101_n in the first segment.
  • sample data 308, 309, 310, 311 and 312 in the first segment shown in FIG. 4 is transferred to the first portion in the second segment shown in FIG. Reappear as sample data 308 ′, 309 ′, 310 ′, 311 ′, 312 ′. Therefore, when the audio signal waveform formed by the audio data shown in FIG. 4 and the audio signal waveform formed by the audio data shown in FIG. 5 are combined, waveform distortion occurs in the combined portion.
  • FIG. 6 is an explanatory diagram of an example of an audio signal waveform formed by combining the audio signal waveform formed by the audio data shown in FIG. 4 and the audio signal waveform formed by the audio data shown in FIG. From FIG. 6, it can be seen that the audio data is discontinuous in the vicinity of the sample data 308 ′ and waveform distortion occurs. This waveform distortion is perceived by the listener as noise.
  • FIG. 7 is an explanatory diagram of an example of an audio signal waveform formed by the audio data in the first segment.
  • Sample data 301 to 312 are included in the last part of the first segment.
  • the contents are the same as those shown in FIG.
  • FIG. 8 is an explanatory diagram of an example of an audio signal waveform formed by audio data in the second segment.
  • Sample data 317 to 328 are included in the first portion of the second segment.
  • FIG. 9 shows four points between the audio signal waveform formed by the audio data of the first part in the first segment and the audio signal waveform formed by the audio data of the last part in the second segment. It is explanatory drawing which shows the state in which the missing part has generate
  • the audio signal waveform formed by the audio data of the last part in the first segment and the audio data of the first part in the second segment are formed.
  • Four missing points are generated between the audio signal waveforms. Therefore, when the audio signal waveform formed by the audio data shown in FIG. 7 and the audio signal waveform formed by the audio data shown in FIG. 8 are combined, waveform distortion occurs in the combined portion.
  • FIG. 10 is an explanatory diagram of an example of an audio signal waveform obtained by combining the audio signal waveform formed by the audio data shown in FIG. 7 and the audio signal waveform formed by the audio data shown in FIG.
  • the audio data is discontinuous in the vicinity of the sample data 317, and waveform distortion occurs. This waveform distortion is also perceived by the listener as noise.
  • FIG. 11 is a block diagram illustrating a configuration example of an audio apparatus including the audio data processing unit according to the first embodiment.
  • the audio device 1100 includes an audio data processing unit 1101, a content information separation unit 1102, an audio data storage unit 1103, a virtual sound source position data storage unit 1104, a speaker position data input unit 1105, and a speaker position data storage unit 1106 according to Embodiment 1.
  • the audio apparatus 1100 includes a CPU (Central Processing Unit) 1111 that controls the above-described units centrally, a ROM (Read-Only Memory) 1112 that stores a computer program executed by the CPU 1111, and data and variables that are processed during the execution of the computer program. Further, a RAM (Random-Access Memory) 1113 is stored. The audio device 1100 outputs an audio signal corresponding to the corrected audio data to the speaker array 103.
  • a CPU Central Processing Unit
  • ROM Read-Only Memory
  • RAM Random-Access Memory
  • the playback unit 1109 reads the digital content from the recording medium 1117 that stores the digital content (movie, computer game, music video, etc.), and outputs the digital content to the content information separation unit 1102.
  • the recording medium 1117 is, for example, a CD-R (Compact Disc Recordable), a DVD (Digital Versatile Disk), or a Blu-ray Disc (registered trademark).
  • a plurality of audio data files corresponding to each of the virtual sound sources 101_1 to 101_N and virtual sound source position data corresponding to the virtual sound sources 101_1 to 101_N are recorded in association with each other.
  • the communication interface unit 1110 acquires the digital content from the server 1115 that distributes the digital content via a communication network such as the Internet 1114 and outputs the digital content to the content information separation unit 1102.
  • the communication interface unit 1110 includes a device (not shown) such as an antenna or a tuner, receives a program broadcast by the broadcast station 1116, and outputs it as a digital content to the content information separation unit 1102.
  • the content information separation unit 1102 acquires digital content from the playback unit 1109 or the communication interface unit 1110, analyzes the digital content, and separates audio data and virtual sound source position data from the digital content. Next, the content information separation unit 1102 outputs the separated audio data and virtual sound source position data to the audio data storage unit 1103 and the virtual sound source position data storage unit 1104, respectively.
  • the virtual sound source position data is, for example, position data corresponding to the relative positions of a singer and a plurality of musical instruments displayed on the video screen when the digital content is a music video.
  • the virtual sound source position data is stored in the digital content together with the audio data.
  • the audio data storage unit 1103 stores audio data acquired from the content information separation unit 1102, and the virtual sound source position data storage unit 1104 stores virtual sound source position data acquired from the content information separation unit 1102.
  • the speaker position data storage unit 1106 acquires speaker position data indicating the position in the acoustic space where the speakers 103_1 to 103_M of the speaker array 103 are arranged from the speaker position data input unit 1105, and stores the speaker position data.
  • the speaker position data is information set by the user based on the positions of the speakers 103_1 to 103_M constituting the speaker array 103.
  • the information is represented by, for example, coordinates in one plane (XY coordinate system) fixed to the audio device 1100 in the acoustic space.
  • the user operates the speaker position data input unit 1105 to store the speaker position data in the speaker position data storage unit 1106. If the arrangement of the speaker array 103 is determined in advance due to mounting restrictions, the speaker position data is set as a fixed value. On the other hand, when the user can freely determine the arrangement of the speaker array 103 to some extent, the speaker position data is set as a variable value.
  • the audio data processing unit 1101 reads the audio file corresponding to each of the virtual sound sources 101_1 to 101_N from the audio data storage unit 1103. Also, the audio data processing unit 1101 reads virtual sound source position data corresponding to the virtual sound sources 101_1 to 101_N from the virtual sound source position data storage unit 1104. Furthermore, the audio data processing unit 1101 reads speaker position data corresponding to the speakers 103_1 to 103_M of the speaker array 103 from the speaker position data storage unit 1106. The audio data processing unit 1101 performs processing according to the embodiment on the read audio data based on the read virtual sound source position data and speaker position data.
  • the audio data processing unit 1101 generates audio data that forms an audio signal to be given to the speakers 103_1 to 103_M by performing arithmetic processing based on the above-described arithmetic model in consideration of movement of the virtual sound sources 101_1 to 101_N.
  • the audio data generated by the audio data processing unit 1101 is output as an audio signal by the D / A conversion unit 1107, and is output to the speakers 103_1 to 103_M via the amplification units 1108_1 to 1108_M.
  • the speaker array 103 generates sound based on the audio signal and radiates it into the acoustic space.
  • FIG. 12 is a block diagram illustrating an internal configuration example of the audio data processing unit 1101 according to the first embodiment.
  • the audio data processing unit 1101 includes a distance data calculation unit 1201, a sound wave propagation time data calculation unit 1202, a sound wave propagation time data buffer 1203, a gain coefficient data calculation unit 1204, a gain coefficient data buffer 1205, an input audio data buffer 1206, and output audio data.
  • a generation unit 1207, an output audio data superimposing unit 1208, and an output audio data buffer 1209 are provided.
  • the distance data calculation unit 1201 is connected to the virtual sound source position data storage unit 1104 and the speaker position data storage unit 1106.
  • the input audio data buffer 1206 is connected to the audio data storage unit 1103.
  • the output audio data superimposing unit 1208 is connected to the D / A conversion unit 1107.
  • the output audio data buffer 1209 is connected to the output audio data generation unit 1207.
  • the distance data calculation unit 1201 acquires the virtual sound source position data and the speaker position data from the virtual sound source position data storage unit 1104 and the speaker position data storage unit 1106, and based on them, between the virtual sound source 101_n and each of the speakers 103_1 to 103_M. Distance data (
  • the sound wave propagation time data calculation unit 1202 is based on the distance data (
  • the sound wave propagation time data buffer 1203 acquires the sound wave propagation time data ⁇ mn, t from the sound wave propagation time data calculation unit 1202 and temporarily stores sound wave propagation time data for a plurality of segments.
  • the gain coefficient data calculation unit 1204 calculates gain coefficient data G n, t based on the distance data (
  • the input audio data buffer 1206 obtains input audio data corresponding to each virtual sound source 101_n from the audio data storage unit 1103, and temporarily stores input audio data for a plurality of segments therein.
  • One segment is composed of, for example, sample data of 256 or 512 audio data.
  • the output audio data generation unit 1207 uses the sound wave propagation time data ⁇ mn, t calculated by the sound wave propagation time data calculation unit 1203 and the gain coefficient data G n, t calculated by the gain coefficient data calculation unit 1205 to input audio data.
  • Output audio data corresponding to the input audio data temporarily stored in the buffer 1206 is generated.
  • the output audio data superimposing unit 1208 synthesizes the output audio data generated by the output audio data generating unit 1207 according to the number of virtual sound sources 101_n.
  • FIG. 13 is an explanatory diagram of a configuration example of the input audio data buffer 1206.
  • the input audio data buffer 1206 temporarily stores data using a FIFO (First-In, First-Out) method, and discards old data.
  • the input audio data buffer 1206 reads the input audio data from the audio data storage unit 1103 according to its own buffer size, and outputs it to the output audio data generation unit 1207 after storage.
  • each square block represents a sample data storage area, and one sample data in the segment is temporarily stored in the sample data storage area.
  • one sample data of the head part of the latest segment is temporarily stored in the sample data storage area 1300_1, and one of the last part of the latest segment is stored in the sample data storage area 1300_1 + a-1.
  • Sample data, that is, the latest one sample data is temporarily stored.
  • a is the segment length, which is the number of sample data included in one segment.
  • FIG. 14 is an explanatory diagram of a configuration example of the sound wave propagation time data buffer 1203.
  • the sound wave propagation time data buffer 1203 is also a temporary storage unit that inputs and outputs data using the FIFO method.
  • each square block represents a sound wave propagation time data storage area, and the sound wave propagation time data of each segment is temporarily stored in the sound wave propagation time data storage area.
  • FIG. 14 shows that the sound wave propagation time data for two segments is temporarily stored in the sound wave propagation time data buffer 1203. Further, FIG.
  • the oldest sound wave propagation time data is temporarily stored in the sound wave propagation time data storage area 1203_1 of the sound wave propagation time data buffer 1203, and the newest sound wave propagation time data is stored in the sound wave propagation time data storage area 1203_2. Is stored temporarily.
  • the input audio data buffer 1206 reads one segment of input audio data from the discrete time t 1 to the discrete time (t 1 + a ⁇ 1) from the audio data storage unit 1103 and temporarily stores it.
  • sample data from the discrete time t 1 to the discrete time (t 1 + a-1) are stored in order.
  • input audio data for a plurality of segments before the discrete time t 1 is already stored in the sample data storage areas other than the sample data storage areas 1300_1 to 1300_1 + a-1.
  • the output audio data buffer 1209 already stores sample data of the output audio data corresponding to the previous segment at the discrete time (t 1 ⁇ 1).
  • the sound wave propagation time data buffer 1203 already stores sound wave propagation time data of the previous segment.
  • the distance data calculation unit 1201 indicates the distance between the first virtual sound source (hereinafter referred to as “virtual sound source 101_1”) and the first speaker (hereinafter referred to as “speaker 103_1”) at the discrete time t 1 .
  • Distance data (
  • the sound wave propagation time data calculation unit 1202 calculates the sound wave propagation time data ⁇ 11, t 1 based on the distance data (
  • the sound wave propagation time data buffer 1203 stores the sound wave propagation time data ⁇ 11, t 1 acquired from the sound wave propagation time data calculation unit 1202. Referring to FIG. 14, after the data already stored in the data storage area 1203_2 is moved to 1203_1, the sound wave propagation time data ⁇ 11, t1 is stored in the data storage area 1203_2. Therefore, at this time, the sound wave propagation time data buffer 1203_1 stores the sound wave propagation time data of the previous segment. Note that as many sound wave propagation time data buffers as the number of speakers ⁇ the number of virtual sound sources existing at time t 1 are prepared. That is, at least M ⁇ N sound wave propagation time data buffers are provided, each storing sound wave propagation time data and current sound wave propagation time data for the past one segment.
  • the gain coefficient data calculation unit 1204 calculates gain coefficient data G 1, t1 based on the distance data (
  • the output audio data generation unit 1207 generates output audio data using the newer sound wave propagation time data stored in the sound wave propagation time data buffer 1203 and the gain coefficient data calculated by the gain coefficient data calculation unit 1204.
  • the waveform distortion shown in FIG. 6 occurs. Street. That is, as shown in the equation (7), the sound wave propagation time data ⁇ mn, t1 is larger than the sound wave propagation time data ⁇ mn, t1- a, and therefore, in the segment starting from the discrete time t 1 .
  • the first part is a repetition of the last part in the segment starting from the discrete time (t 1 -a).
  • the first part in the segment starting from the discrete time t 1 and the last part in the segment starting from the discrete time (t 1 -a) are the time width ⁇ mn that is the difference in the sound propagation time data.
  • the waveform of the audio data becomes discontinuous in the vicinity of the discrete time t 1 .
  • the time width ⁇ mn, t1 of the sound wave propagation time data is set to 5.
  • FIG. 6 is an explanatory diagram of an example of a waveform before correction.
  • the waveform before correction from the discrete time t 1 to the discrete time (t 1 + ⁇ mn, t1 ) is a waveform obtained by connecting the sample data 308 ′, 309 ′, 310 ′, 311 ′, and 312 ′.
  • This waveform is the same as the waveform obtained by connecting the sample data 308, 309, 310, 311 and 312 in the previous segment.
  • the correction section width is set to 5 similarly to the time width ⁇ mn, t1 .
  • the output audio data buffer 1209 already stores the sample data 312 at the last discrete time (t 1 ⁇ 1) of the previous segment.
  • the sample data 312 (see FIG. 6) at the discrete time (t 1 ⁇ 1), that is, the sample data stored in the output audio data buffer 1209 is used.
  • linear interpolation is used as an example.
  • FIG. 15 is an explanatory diagram of an example of an audio signal waveform formed from the corrected audio data. From FIG. 15, in the corrected audio signal waveform, sample data 312 to sample data 313 are linearized by linear interpolation (sample data 1500 to sample data 1504), thereby eliminating the waveform distortion shown in FIG. You can see that
  • the sound wave propagation time of the segment starting from the discrete time (t 1 -a) and the sound wave propagation time of the segment starting from the discrete time t 1 are calculated. It only has to be done. That is, in order to correct the distortion in the audio data in the vicinity of the starting point of the current segment, the sound wave propagation time of the audio data of the segment starting from the discrete time (t 1 + a) that is the next segment is calculated. There is no need to keep it. Therefore, when the virtual sound source 101_n is separated from the speaker 103_m, there is no delay for one segment. Therefore, even when the virtual sound source position is changed in real time, the audio data can be corrected without delay.
  • FIG. 10 is an explanatory diagram of an example of an audio signal waveform obtained by combining the audio signal waveform formed by the audio data shown in FIG. 7 and the audio signal waveform formed by the audio data shown in FIG.
  • the audio data changes abruptly in the vicinity of the sample data 317, resulting in waveform distortion. This waveform distortion is also perceived by the listener as noise.
  • the output audio data buffer 1209 stores sample data 312 at the last discrete time (t 1 ⁇ 1) of the previous segment.
  • linear interpolation is used as an example. Therefore, in FIG. 10, it is considered that the sample data 312 to the sample data 321 are linear.
  • FIG. 16 is an explanatory diagram of an example of an audio signal waveform formed by the corrected audio data. From FIG.
  • the sample data 312 to the sample data 321 are linearized by linear interpolation (sample data 1600 to sample data 1603), thereby eliminating the waveform distortion shown in FIG.
  • the sound wave propagation time of the segment starting from the discrete time (t 1 -a) The sound wave propagation time of the segment starting from the discrete time t 1 may be calculated.
  • the sound wave propagation time of the audio data of the segment starting from the discrete time (t 1 + a) that is the next segment is calculated. There is no need to keep it. Therefore, when the virtual sound source 101_n is separated from the speaker 103_m, there is no delay for one segment. Therefore, even when the virtual sound source position is changed in real time, the audio data can be corrected without delay.
  • FIG. 17 is a flowchart showing a data processing flow according to the first embodiment.
  • This data processing is executed by the audio data processing unit 1101 under the control of the CPU 1111.
  • the audio data processing unit 1101 first substitutes 1 for the number n of the virtual sound source 101_n and 1 for the number m of the speaker 103_m. That is, the audio data processing unit 1101 designates the first virtual sound source 101_1 and the first speaker 103_1 (S10).
  • the audio data processing unit 1101 inputs an audio file corresponding to the nth virtual sound source 101_n from the audio data storage unit 1103 (S11).
  • the audio data processing unit 1101 inputs the virtual sound source position data and the speaker position data corresponding to the virtual sound source 101_n from the virtual sound source position data storage unit 1104 and the speaker position data storage unit 1106 (S12). Based on the input virtual sound source position data and speaker position data, the audio data processing unit 1101 first and second distance data (
  • the audio data processing unit 1101 stores the sound wave propagation time data ⁇ mn, t and the gain coefficient data G n, t in the sound wave propagation time data buffer 1203 and the gain coefficient data buffer 1205, respectively. Next, the audio data processing unit 1101 determines whether or not the first and second distance data are different (S15). Even if it is determined whether or not the sound wave propagation time ⁇ mn, ta corresponding to the previous segment stored in the sound wave propagation time data buffer 1203 is different from the sound wave propagation time data ⁇ mn, t stored this time. Good. That is, in this step, the audio data processing unit 1101 determines whether the virtual sound source 101_n is moving or stationary with respect to the speaker 103_m.
  • step S15 If it is determined in step S15 that the first and second distance data are different (S15: YES), that is, if it is determined that the virtual sound source 101_n has moved relative to the speaker 103_m, the audio data processing unit 1101 performs step The process proceeds to S16. On the other hand, if it is determined in step S15 that the first and second distance data are the same (S15: NO), that is, if it is determined that the virtual sound source 101_n is stationary, the audio data processing unit 1101 The process proceeds to step S19. Based on the determination result of step S15, the audio data processing unit 1101 identifies the repeated portion and missing portion of the sample data due to the separation and approach of the virtual sound source to the speaker (S16), and the waveform distortion portion is described above. The waveform is corrected by performing the linear interpolation (S17).
  • the audio data processing unit 1101 performs gain control on the virtual sound source 101_n (S18).
  • the audio data processing unit 1101 adds 1 to the number n of the virtual sound source 101_n (S19), and determines whether the number n of the virtual sound source 101_n is the maximum value N (S20). If it is determined in step S20 that the number n of the virtual sound source 101_n is the maximum value N (S20: YES), audio data is synthesized (S21).
  • step S20 when it is determined that the number of the virtual sound source 101_n is not the maximum value N (S20: NO), the audio data processing unit 1101 returns to the process of step S11, and then continues to the second virtual sound source 101_n.
  • the processing from step S11 to step S18 is performed on the sound source 101_2 and the first speaker 103_1.
  • the audio data processing unit 1101 After synthesizing the audio data in step S21, the audio data processing unit 1101 substitutes 1 for the number n of the virtual sound source 101_n (S22), and adds 1 to the number m of the speaker 103_m (S23). Next, the audio data processing unit 1101 determines whether or not the number m of the speaker 103_m is the maximum value M (S24), and determines that the number m of the speaker 103_m is the maximum value M (S24: YES). Exit. On the other hand, when it is determined that the number m of the speaker 103_m is not the maximum value M (S24: NO), the process returns to step S11.
  • FIG. 18 is a block diagram illustrating an internal configuration example of the audio apparatus 1100 according to the second embodiment.
  • the program stored in the ROM 1112 in the audio device 1100 is executed in the first embodiment, whereas the rewritable EEPROM (Electrically Erasable Programmable Read-Only Memory) or the internal storage device 25 is used.
  • the stored program is read out and executed.
  • the audio device 1100 includes an EEPROM 24, an internal storage device 25, and a recording medium reading unit 23.
  • the CPU 17 reads the program 231 from a recording medium 230 such as a CD (Compact Disk) -ROM or a DVD (Digital Versatile Disk) -ROM inserted in the recording medium reading unit 23 and stores it in the EEPROM 24 or the internal storage device 25. It is.
  • the CPU 17 is configured to read the program 231 stored in the EEPROM 24 or the internal storage device 25 to the RAM 18 and execute it.
  • the program 231 is not limited to being read from the recording medium 230 and stored in the EEPROM 24 or the internal storage device 25, but may be stored in an external memory such as a memory card. In this case, the program 231 is read from an external memory (not shown) connected to the CPU 17 and stored in the EEPROM 24 or the internal storage device 25. Further, communication may be established between a communication unit (not shown) connected to the CPU 17 and an external computer, and the program 231 may be downloaded to the EEPROM 24 or the internal storage device 25.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

 仮想音源がスピーカから移動した場合に発生する波形の歪みを線形補間することによって、補正処理の高速化を図るオーディオデータ処理装置等を提供する。本装置は、相前後する時点でのスピーカの位置から仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出する算出手段と、第1の距離及び第2の距離が異なる場合、前後の時点におけるオーディオデータにある歪みの部分を特定する特定手段と、特定された部分のオーディオデータを、関数を用いた補間によって補正する補正手段を有する。

Description

オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体
 本発明は、オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体に関する。
 近年、欧州を中心に波面合成技術(Wave Field Synthesis:WFS)を基本原理とするオーディオシステムの研究が盛んに行われている(例えば、非特許文献1参照)。WFSとは、アレイ状に並べられた複数のスピーカ(以下、「スピーカアレイ」と呼ぶ。)から放射される音の波面をホイヘンスの原理に基づき合成する技術である。
 WFSによって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源(以下、「仮想音源」と呼ぶ。)から放射されているかのような感覚を受ける(例えば、図1参照)。
 WFSシステムを適用することが可能な装置としては、映画、オーディオシステム、テレビ、AVラック、テレビ会議システム、テレビゲーム等がある。例えば、ディジタルコンテンツが映画の場合、俳優の存在が仮想音源という形でメディアに記録されている。したがって、会話をしながらスクリーン内を俳優が移動する場合、スクリーン内の俳優の動き方向に合わせて仮想音源をスクリーンに対して左右、前後及び任意の方向に定位させることができる。例えば特許文献1には、仮想音源を移動可能にするシステムが記載されている。
特表2007-502590号公報
ベルクハウト、ド ブリース、フォーゲル(A. J. Berkhout, D. de Vries, and P. Vogel)著、「アコースティック コントロール バイ ウェーブフィールド シンセシス (Acoustic control by wave field synthesis)」(オランダ)、第93(5)版、ジャーナル・オブ・ジ・アコウスティカル・ソサイエティ・オブ・アメリカ(J. Acoust. Soc)、1993年5月、p.2764-2778
 音波の発生源である音源及び受聴者の相対的な速度によって音波の周波数が異なって観測される物理現象としてドップラー効果が知られている。ドップラー効果によると、音波の発生源である音源が受聴者に近付く場合には音波の振動が詰められて周波数が高くなり、逆に観測者から遠ざかる場合には音波の振動が伸ばされて低くなる。これは、音源が移動しても音源から到達する音波の波の数は変わらないことを意味する。しかし、非特許文献1に記載のものは、仮想音源は動かずに固定されていることを前提としており、仮想音源の移動に伴って発生するドップラー効果に対しては検討がなされていない。そのため、仮想音源をスピーカから遠ざかる方向に移動させる場合又は近づく方向に移動させる場合に、スピーカが発する音の基となるオーディオ信号の波の数が変化し、その波の数の変化により波形に歪みが生ずる。波形に歪みが発生すると受聴者はそれをノイズとして知覚するため、波形の歪みを解消する手段を講ずる必要がある。尚、波形の歪みの詳細については後述する。
 一方、特許文献1に記載のものは、仮想音源の移動に伴って発生するドップラー効果を考慮し、オーディオ信号の基となるオーディオデータ内のあるセグメント内の適当な標本データからその次のセグメント内の適当な標本データまでの範囲のオーディオデータに対する重み係数を変化させ、その範囲のオーディオデータを補正する。ここで、「セグメント」とは、オーディオデータの処理単位である。オーディオデータを補正することによってオーディオ信号波形の極端な歪みはある程度解消され、波形の歪みによって発生するノイズを低減することができる。しかし、特許文献1に記載のものは、現時点のセグメントのオーディオデータを補正するためには、その次のセグメントのオーディオデータの音波伝播時間を予め算出しておく必要がある。すなわち、特許文献1に記載のものでは、次のセグメントのオーディオデータの音波伝播時間の算出処理等が完了していないと現時点のセグメントのオーディオデータを補正することができない。よって、現時点のセグメントのオーディオデータを出力するのに1セグメント分の遅延が生じるという課題を有する。
 本発明はかかる課題に鑑みてなされたものであり、オーディオデータにある歪みの部分を特定し、特定された波形の歪みに対して補正を行うオーディオデータ処理装置等であって、上記の遅延を生じさせることなくオーディオデータを出力することができるオーディオデータ処理装置等を提供することを目的とする。
 本発明のオーディオデータ処理装置は、移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及び前記オーディオデータに基づき音を放射するスピーカの位置を入力し、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオデータ処理装置において、相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出する算出手段と、前記第1の距離及び第2の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定する特定手段と、前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正する補正手段とを備える。
 本発明のオーディオデータ処理装置において、前記オーディオデータは標本データを含み、前記特定手段は、前記仮想音源の前記スピーカに対する離隔及び接近に起因する標本データの繰り返し部分及び欠落部分を特定し、前記補正手段は、特定された前記繰り返し部分及び欠落部分を、関数を用いた補間によって補正する。
 本発明のオーディオデータ処理装置において、前記関数を用いた補間は、線形補間である。
 本発明のオーディオデータ処理装置において、前記補正を行う部分は、前記第1及び第2の距離を音波が伝播する時間幅の差、又は、前記差に比例する時間幅である。
 本発明のオーディオ装置は、移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及び前記オーディオデータに基づき音を放射するスピーカの位置を用い、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオ装置において、前記オーディオデータ及び前記仮想音源の位置を含むディジタルコンテンツを入力するディジタルコンテンツ入力部と、前記ディジタルコンテンツ入力部が入力したディジタルコンテンツを解析し、該ディジタルコンテンツに含まれるオーディオデータ及び仮想音源の位置のデータを分離するコンテンツ情報分離部と、前記コンテンツ情報分離部が分離した仮想音源の位置のデータ及び前記スピーカの位置のデータに基づいて、前記コンテンツ情報分離部が分離したオーディデータを補正するオーディオデータ処理部と、補正後のオーディオデータをオーディオ信号に変換してスピーカへ出力するオーディオ信号生成部とを備え、前記オーディオデータ処理部は、相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出する算出手段と、前記第1の距離及び第2の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定する特定手段と、前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正する補正手段とを備える。
 本発明のオーディオ装置において、前記ディジタルコンテンツ入力部は、ディジタルコンテンツを格納する記録媒体、ネットワークを介してディジタルコンテンツを配信するサーバ又はディジタルコンテンツを放送する放送局からディジタルコンテンツを入力する。
 本発明のオーディオデータ処理方法において、移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及びオーディオデータに基づき音を放射するスピーカの位置を入力し、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオデータ処理装置におけるオーディオデータ処理方法において、相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出するステップと、前記第1の距離及び第2の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定するステップと、前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正するステップとを含む。
 本発明のプログラムは、オーディオデータに対応するオーディオ信号を入力するスピーカが放射する音によって形成される仮想音源の位置及び該スピーカの位置に基づいて、移動する音源が発する音に対応する前記オーディオデータを補正させるプログラムにおいて、コンピュータに、相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出するステップと、前記第1の距離及び第2の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定するステップと、前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正するステップとを実行させる。
 本発明の記録媒体は、前述のプログラムを記録する。
 本発明のオーディオデータ処理装置にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。
 本発明のオーディオデータ処理装置にあっては、仮想音源のスピーカに対する離隔及び接近に起因する標本データの繰り返し部分及び欠落部分を特定し、補正手段は、関数を用いた補間によって、特定された繰り返し部分及び欠落部分を補正するため、遅延なくオーディオデータを補正し、出力することができる。
 本発明のオーディオデータ処理装置にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、線形補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。
 本発明のオーディオ装置にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。
 本発明のオーディオデータ処理方法にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。
 本発明のプログラムにあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。
 本発明のプログラムを記録した記録媒体にあっては、仮想音源のスピーカに対する接近及び離隔に応じて波形の歪みの場所を特定し、次いで、関数を用いた補間によって、当該特定された波形の歪みを補正するため、遅延なくオーディオデータを補正し、出力することができる。
 本発明に係るオーディオデータ処理装置等によれば、仮想音源のスピーカに対する接近又は離隔に起因するオーディオデータの歪みを遅延なく補正し、補正後のオーディオデータを出力することができる。
WFSにより提供される音響空間の一例の説明図である。 オーディオ信号を一般的に説明する説明図である。 オーディオ信号を一般的に説明する説明図である。 オーディオ信号を一般的に説明する説明図である。 オーディオデータにより形成されるオーディオ信号波形の一部の説明図である。 第1のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。 第2のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。 図4に示すオーディオデータにより形成されるオーディオ信号波形及び図5に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。 第1のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。 第2のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。 第1のセグメント内の最初の部分のオーディオデータにより形成されるオーディオ信号波形及び第2のセグメント内の最後の部分のオーディオデータにより形成されるオーディオ信号波形の間に4点分の空白部分が発生している状態を示す説明図である。 図7に示すオーディオデータにより形成されるオーディオ信号波形及び図8に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。 実施の形態1に係るオーディオデータ処理部を備えるオーディオ装置の構成例を示すブロック図である。 実施の形態1に係るオーディオデータ処理部の内部構成例を示すブロック図である。 入力オーディオデータバッファの一構成例の説明図である。 音波伝播時間データバッファの一構成例の説明図である。 補正後のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。 補正後のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。 実施の形態1に係るデータ処理の流れを示すフローチャートである。 実施の形態2に係るオーディオ装置の内部構成例を示すブロック図である。
 実施の形態1
 まず始めに、WFSにより提供される音響空間内で仮想音源が移動しないことを前提とした演算モデル及び仮想音源の移動を考慮した演算モデルについて説明し、次いで、実施の形態の説明に移る。
 図1は、WFSにより提供される音響空間の一例の説明図である。図1に示す音響空間には、M個のスピーカ103_1から103_Mから構成されるスピーカアレイ103及びスピーカアレイ103と対面して音を聴いている受聴者102が存在する。この音響空間においては、M個のスピーカ103_1から103_Mから放射される音の波面はホイヘンスの原理に基づいて波面合成され、合成波面104として音響空間内を伝わる。このとき、受聴者102は、実際にはスピーカアレイ103から放射される音が、スピーカアレイ103の後方に定位された実際には存在しないN個の仮想音源101_1から101_Nから放射されているかのような感覚を受ける。N個の仮想音源101_1から101_Nを総称して仮想音源101と呼ぶ。
 一方、図2は、オーディオ信号を一般的に説明する説明図である。オーディオ信号を理論的に取り扱うとき、一般的には、オーディオ信号は、連続信号S(t)として表現される。図2Aは連続信号S(t)を示し、図2Bはサンプリング間隔Δtのインパルス列を示し、図2Cは連続信号S(t)がサンプリング間隔Δtで標本化されかつ量子化されたデータs(bΔt)を示す図である(ただし、b=正の整数)。例えば、図2Aに示すように、連続信号S(t)は、時間tの軸でも、振幅Sの軸でも連続である。標本化は、連続信号S(t)から時間的に離散的な信号を得ることを目的とする。これは、連続信号S(t)を離散的な離散時刻bΔtにおけるデータs(bΔt)で表現しようとするものである。理論的にはサンプリング間隔は可変でもよいが、一定間隔にするほうが実際的である。標本化及び量子化操作は、サンプリング間隔をΔtとすると、図2Cに示すように、連続信号S(t)をサンプリング間隔Δtのインパルス列(図2B)で打ち抜き、それらを量子化することにより行われる。尚、以後の説明においては、量子化されたデータs(bΔt)のことを「標本データ」と呼ぶ。
 仮想音源101の移動を考慮しない演算モデルの内容は次の通りである。本演算モデルでは、以下に示す数式(1)から(4)を用いて、スピーカアレイ103に与えるオーディオ信号を生成する。
 本演算モデルでは、スピーカアレイ103に含まれるm番目のスピーカ(以下、「スピーカ103_m」と呼ぶ。)に与えるオーディオ信号の離散時刻tにおける標本データを生成する。ここでは、図1に示したとおり、仮想音源101の数はNであり、スピーカアレイ103を構成するスピーカの台数はMであるとする。
Figure JPOXMLDOC01-appb-M000001
 
 但し、
  q(t):N個の仮想音源101の内のn番目の仮想音源(以下、「仮想音源101_n」と呼ぶ。)から放射されて、スピーカ103_mに到達した音波の離散時刻tにおける標本データ
  l(t):スピーカ103_mに与えるオーディオ信号の離散時刻tにおける標本データ
Figure JPOXMLDOC01-appb-M000002
 
 但し、
  G:仮想音源101_nに対する利得係数
  s(t):仮想音源101_nに与えるオーディオ信号の離散時刻tにおける標本データ
  τmn:仮想音源101_nの位置及びスピーカ103_mの位置の間の距離に起因する音波伝播時間の分のサンプル数
Figure JPOXMLDOC01-appb-M000003
 
 但し、
  w:重み定数
  r:仮想音源101_nの位置ベクトル(固定値)
  r:スピーカ103_mの位置ベクトル(固定値)
Figure JPOXMLDOC01-appb-M000004
 
 ここで、フロア記号とは、「与えられた値を超えない整数のうち、最大のもの」を示す。
 数式(3)及び(4)からわかるように、本演算モデルにおいては、仮想音源101_nに対する利得係数Gn は、仮想音源101_nからスピーカ103_mまでの距離の平方根に反比例する。これは、スピーカ103_mの集合を線音源としてモデル化しているからである。一方、音波伝播時間τmnは、仮想音源101_nからスピーカ103_mまでの距離に比例する。
 数式(1)から(4)は、仮想音源101_nが移動せずに、ある位置に静止している状態を前提としている。しかし、現実世界においては、人は歩きながら会話を行い、自動車はエンジン音を鳴らして走行する。つまり、現実世界では音源は静止している場合もあれば、移動する場合もある。したがって、そのような場合に対処するため、音源が移動する場合を考慮した新たな演算モデル(実施の形態1に係る演算モデル)を導入する。以下、新たな演算モデルについて説明する。
 仮想音源101_nが移動する場合を考慮すると、数式(2)から(4)は、以下に示す数式(5)から(7)に置き換えられる。
Figure JPOXMLDOC01-appb-M000005
 
 但し、
  Gn,t :離散時刻tにおける仮想音源101_nに対する利得係数
  τmn,t:離散時刻tにおける仮想音源101_n及びスピーカ103_mの間の距離に起因する音波伝播時間の分のサンプル数
Figure JPOXMLDOC01-appb-M000006
 
 但し、
  rn,t :離散時刻tにおける仮想音源101_nの位置ベクトル
Figure JPOXMLDOC01-appb-M000007
 
 仮想音源101_nは移動しているため、数式(5)から(7)からわかるように、仮想音源101_nに対する利得係数、仮想音源101_nの位置及び音波伝播時間はいずれも離散時刻tに応じて変動する。
 オーディオデータはセグメント単位で信号処理されるのが一般的である。「セグメント」とは、オーディオデータの処理単位であり「フレーム」とも呼ばれる。1セグメントは、例えば、256個の標本データ又は512個の標本データから構成される。よって数式(1)のl(t)(スピーカ103_mに与えるオーディオ信号の離散時刻tにおける標本データ)は、セグメント単位で算出される。そこで、本演算モデルでは、離散時刻tにおいて算出されるスピーカ103_mに与えるオーディオ信号を形成するオーディオデータのセグメントをベクトルとし、Lm,t とする。その場合、Lm,t は、離散時刻t-a+1から離散時刻tまでの1セグメント内に含まれるa個の標本データ(例えば、256個、512個等の標本データ)から構成されるベクトルデータであり、数式(8)で表される。
Figure JPOXMLDOC01-appb-M000008
 
 オーディオデータがセグメント単位で処理されることに伴いrn,t もセグメント毎に求められるのが実際的である。ただし、rの更新の頻度は必ずしもセグメント単位と一致していなくてもよい。そして、離散時刻tにおける仮想音源位置rn,t0及び離散時刻(t-a)における仮想音源位置rn,t0-aを比較することにより、仮想音源位置rn,t0は、離散時刻(t-a)から離散時刻t0の間に仮想音源101_nがスピーカ103_mから移動した距離だけ変化したことになる。ここで、仮想音源101_nがスピーカ103_mから遠ざかる方向に移動(仮想音源101_nがスピーカ103_mに対して離隔)する場合及び近づく方向に移動(仮想音源101_nがスピーカ103_mに対して接近)する場合を説明する。
 Gn,t 及びτmn,tもまた、離散時刻(t-a)から離散時刻tの間に仮想音源101_nが移動した距離に応じて変動する。以下に示す数式(9)及び(10)は、離散時刻(t-a)から離散時刻tの間に仮想音源101_nが移動した距離に応じて変動する利得係数の変動量及び音波伝播時間分のサンプル数の変動量を表す。例えば、ΔGn,t0は、離散時刻tにおける利得係数の変動量を表し、Δτmn,t0 は、離散時刻tにおける音波伝播時間分のサンプル数の、離散時刻(t-a)における音波伝播時間分のサンプル数からの変動量(「時間幅」とも呼ぶ)を表す。これらの変動量は、仮想音源が離散時刻(t-a)から離散時刻tにかけて移動した場合、仮想音源101_nが移動する方向に応じて正の値又は負の値のいずれか一方をとる。
Figure JPOXMLDOC01-appb-M000009
 
Figure JPOXMLDOC01-appb-M000010
 
 仮想音源101_nがスピーカ103_mから遠ざかる方向に移動又は近づく方向に移動することによって、ΔGn,t0及び時間幅Δτmn,t0 が生じるため、離散時刻tにおいて波形の歪みが発生する。ここで、「波形の歪み」が発生した状態とは、オーディオ信号波形が連続的に変化するのではなく、受聴者がその部分をノイズとして知覚するほど不連続に変化した状態を意味する。
 例えば、仮想音源101_nがスピーカ103_mから遠ざかる方向に移動することによって音波伝播時間が増加した場合、すなわち、時間幅Δτmn,t0 が正である場合、離散時刻t0 を起点とするセグメントの最初の部分に、その1つ前のセグメント内の最後の部分のオーディオデータが時間幅Δτmn,t0 だけ再度現れる。以下、離散時刻tを起点とするセグメントの1つ前のセグメントを第1のセグメントと呼び、離散時刻tを起点とするセグメントを第2のセグメントと呼ぶ。このようにオーディオデータが繰り返し現れる結果、波形に歪みが生ずる。
 一方、仮想音源101_nがスピーカ103_mに近づく方向に移動することによって音波伝播時間が減少した場合、すなわち、時間幅Δτmn,t0 が負である場合、第1のセグメント内の最後の部分のオーディオデータ及び第2のセグメント内の最初の部分のオーディオデータの間に時間幅Δτmn,t0 だけ欠落が生じる。その結果、オーディオ信号波形に不連続点が生じる。これもまた波形の歪みである。以下、波形の歪みの具体例を、図面を用いて説明する。
 図3は、オーディオデータにより形成されるオーディオ信号波形の一部の説明図である。図3に示すオーディオデータは、標本データ301から標本データ328の計28個の標本データによって表されるとする。以下、図3に示すオーディオ信号を基にして、仮想音源101_nがスピーカ103_mから遠ざかる方向に移動する場合及び近づく方向に移動する場合において波形の歪みが発生する理由を説明する。
 まず、仮想音源101_nがスピーカ103_mから遠ざかる方向に移動することによって仮想音源101_nの位置およびスピーカ103_mの位置の間の距離に対する音波伝播時間が増加する場合、すなわち、時間幅Δτmn,t0 が正の場合について説明する。
 図4は、第1のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第1のセグメントの最後の部分には、標本データ301から312が含まれる。図5は、第2のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第2のセグメントの最初の部分には、標本データ308’から318が含まれる。本例では、仮想音源101_nがスピーカ103_mから遠ざかる方向に移動することによって、第2のセグメントにおける仮想音源101_nからスピーカ103_mまでの距離に対する音波伝播時間分のサンプル数が第1のセグメントにおける仮想音源101_nからスピーカ103_mまでの距離に対する音波伝播時間分のサンプル数よりも例えば5(=Δτmn,t)点の分だけ増加したとする。音波伝播時間が増加した結果、図4に示す第1のセグメント内の最後の部分の標本データ308、309、310、311、312が、図5に示す第2のセグメント内の最初の部分に、標本データ308’、309’、310’、311’、312’として再び現れる。そのため、図4に示すオーディオデータにより形成されるオーディオ信号波形及び図5に示すオーディオデータにより形成されるオーディオ信号波形が結合されると結合部分に波形の歪みが発生する。図6は、図4に示すオーディオデータにより形成されるオーディオ信号波形及び図5に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。図6から、標本データ308’の近傍においてオーディオデータが不連続となり、波形の歪みが発生していることがわかる。この波形の歪みは、ノイズとして受聴者に知覚される。
 これとは逆に、仮想音源101_nがスピーカ103_mに近づく方向に移動することによって音波伝播時間が減少する場合、すなわち、時間幅Δτmn,t0 が負の場合について説明する。図7は、第1のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第1のセグメントの最後の部分には、標本データ301から312が含まれる。その内容は、図5に示したものと同じである。図8は、第2のセグメント内のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。第2のセグメントの最初の部分には、標本データ317から328が含まれる。本例では、仮想音源101_nがスピーカ103_mに近づく方向に移動することによって、第2のセグメントにおける仮想音源101_nからスピーカ103_mまでの距離に対する音波伝播時間分のサンプル数が第1のセグメントにおける仮想音源101_nからスピーカ103_mまでの距離に対する音波伝播時間分のサンプル数よりも例えば4(=Δτmn,t)点の分だけ減少したとする。
 図9は、第1のセグメント内の最初の部分のオーディオデータにより形成されるオーディオ信号波形及び第2のセグメント内の最後の部分のオーディオデータにより形成されるオーディオ信号波形の間に4点分の欠落部分が発生している状態を示す説明図である。音波伝播時間が減少した結果、図9に示すように、第1のセグメント内の最後の部分のオーディオデータにより形成されるオーディオ信号波形及び第2のセグメント内の最初の部分のオーディオデータにより形成されるオーディオ信号波形の間に4点分(標本データ313から316)の欠落部分が生じる。そのため、図7に示すオーディオデータにより形成されるオーディオ信号波形及び図8に示すオーディオデータにより形成されるオーディオ信号波形を結合すると結合部分に波形の歪みが発生する。図10は、図7に示すオーディオデータにより形成されるオーディオ信号波形及び図8に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。図10からわかるように、標本データ317の近傍においてオーディオデータが不連続となり、波形の歪みが発生している。この波形の歪みも同様にノイズとして受聴者に知覚される。
 以上、仮想音源101_nが移動することによって波形の歪みが発生する理由を説明した。次いで、オーディオデータを補正することによって波形の歪みを解消する実施の形態1を、図面を参照して具体的に説明する。
 図11は、実施の形態1に係るオーディオデータ処理部を備えるオーディオ装置の構成例を示すブロック図である。オーディオ装置1100は、実施の形態1に係るオーディオデータ処理部1101、コンテンツ情報分離部1102、オーディオデータ格納部1103、仮想音源位置データ格納部1104、スピーカ位置データ入力部1105、スピーカ位置データ格納部1106、D/A変換部1107、M個の増幅器1108_1から1108_M、再生部1109及び通信インタフェース部1110を備える。オーディオ装置1100は、上記各部を統括的に制御するCPU(Central Processing Unit)1111、CPU1111が実行するコンピュータプログラムを格納するROM(Read-Only Memory)1112及びコンピュータプログラムの実行中に処理するデータや変数等を格納するRAM(Random-Access Memory)1113を更に備える。オーディオ装置1100は、スピーカアレイ103に補正後のオーディオデータに対応するオーディオ信号を出力する。
 再生部1109は、ディジタルコンテンツ(映画、コンピュータゲーム、ミュージックビデオ等)を格納する記録媒体1117から当該ディジタルコンテンツを読み出し、コンテンツ情報分離部1102に出力する。記録媒体1117は、例えば、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、ブルーレイ・ディスク(Blu-ray Disk、登録商標)である。ディジタルコンテンツには、仮想音源101_1から101_Nの各々に対応する複数のオーディオデータのファイル及び仮想音源101_1から101_Nに対応する仮想音源位置データが関連付けて記録されている。
 通信インタフェース部1110は、インターネット1114等の通信ネットワークを介してディジタルコンテンツを配信するサーバ1115からディジタルコンテンツを取得し、コンテンツ情報分離部1102に出力する。また、通信インタフェース部1110は、アンテナ又はチューナ等の機器(図示せず)を備え、放送局1116が放送する番組を受信し、それをディジタルコンテンツとしてコンテンツ情報分離部1102に出力する。
 コンテンツ情報分離部1102は、再生部1109又は通信インタフェース部1110からディジタルコンテンツを取得し、当該ディジタルコンテンツを解析し、当該ディジタルコンテンツからオーディオデータ及び仮想音源位置データを分離する。次いで、コンテンツ情報分離部1102は、分離したオーディオデータ及び仮想音源位置データの各々をオーディオデータ格納部1103及び仮想音源位置データ格納部1104に出力する。仮想音源位置データとは、例えば、ディジタルコンテンツがミュージックビデオである場合、当該ビデオ画面に映し出されるシンガーや複数の楽器の相対的位置に対応する位置データである。仮想音源位置データは、オーディオデータと共にディジタルコンテンツ内に格納されている。
 オーディオデータ格納部1103は、コンテンツ情報分離部1102から取得したオーディオデータを格納し、仮想音源位置データ格納部1104は、コンテンツ情報分離部1102から取得した仮想音源位置データを格納する。スピーカ位置データ格納部1106は、スピーカアレイ103の各々のスピーカ103_1から103_Mが配置されている音響空間内の位置を示すスピーカ位置データをスピーカ位置データ入力部1105から取得し、格納する。スピーカ位置データは、スピーカアレイ103を構成するスピーカ103_1から103_Mの各々の位置に基づいてユーザによって設定される情報である。当該情報は、例えば、音響空間内のオーディオ装置1100に対して固定されている1平面内(X-Y座標系)における座標によって表される。ユーザは、スピーカ位置データ入力部1105を操作してスピーカ位置データをスピーカ位置データ格納部1106に格納する。実装上の制約からスピーカアレイ103の配置が予め決められている場合には、スピーカ位置データは固定値として設定される。一方、ユーザがスピーカアレイ103の配置をある程度自由に決めることができる場合には、スピーカ位置データは可変値として設定される。
 オーディオデータ処理部1101は、仮想音源101_1から101_Nの各々に対応するオーディオファイルをオーディオデータ格納部1103から読み出す。また、オーディオデータ処理部1101は、仮想音源101_1から101_Nに対応する仮想音源位置データを仮想音源位置データ格納部1104から読み出す。さらに、オーディオデータ処理部1101は、スピーカアレイ103のスピーカ103_1から103_Mに対応するスピーカ位置データをスピーカ位置データ格納部1106から読み出す。オーディオデータ処理部1101は、読み出した仮想音源位置データ及びスピーカ位置データに基づいて、読み出したオーディオデータに対して実施の形態に係わる処理を行う。すなわち、オーディオデータ処理部1101は、仮想音源101_1から101_Nの移動を考慮した上述の演算モデルに基づいた演算処理を行うことによってスピーカ103_1から103_Mに与えるオーディオ信号を形成するオーディオデータを生成する。オーディオデータ処理部1101が生成したオーディオデータは、D/A変換部1107によりオーディオ信号として出力され、増幅部1108_1から1108_Mを介して、スピーカ103_1から103_Mに出力される。スピーカアレイ103は、このオーディオ信号に基づいて音を生成し、音響空間に放射する。
 図12は、実施の形態1に係るオーディオデータ処理部1101の内部構成例を示すブロック図である。オーディオデータ処理部1101は、距離データ算出部1201、音波伝播時間データ算出部1202、音波伝播時間データバッファ1203、利得係数データ算出部1204、利得係数データバッファ1205、入力オーディオデータバッファ1206、出力オーディオデータ生成部1207、出力オーディオデータ重畳部1208及び出力オーディオデータバッファ1209を備える。距離データ算出部1201は、仮想音源位置データ格納部1104及びスピーカ位置データ格納部1106に接続される。入力オーディオデータバッファ1206は、オーディオデータ格納部1103に接続される。出力オーディオデータ重畳部1208は、D/A変換部1107に接続される。出力オーディオデータバッファ1209は、出力オーディオデータ生成部1207に接続される。
 距離データ算出部1201は、仮想音源位置データ格納部1104及びスピーカ位置データ格納部1106から仮想音源位置データとスピーカ位置データとを取得し、それらに基づき仮想音源101_nと各スピーカ103_1から103_Mの間の距離データ(|rn,t -r|)を算出し、音波伝播時間データ算出部1202及び利得係数データ算出部1204に出力する。音波伝播時間データ算出部1202は、距離データ算出部1201から取得した距離データ(|rn,t -r|)に基づき、音波伝播時間データ(音波伝播時間の分のサンプル数)τmn,tを算出する(数式(7)参照)。音波伝播時間データバッファ1203は、音波伝播時間データ算出部1202から音波伝播時間データτmn,tを取得し、その内の複数セグメント分の音波伝播時間データを一時的に格納する。利得係数データ算出部1204は、距離データ算出部1201から取得した距離データ(|rn,t -r|)に基づき、利得係数データGn,t を算出する(数式(6)参照)。
 入力オーディオデータバッファ1206は、オーディオデータ格納部1103から各仮想音源101_nに対応する入力オーディオデータを取得し、その内の複数セグメント分の入力オーディオデータを一時的に格納する。1セグメントは、例えば、256個又は512個のオーディオデータの標本データから構成される。出力オーディオデータ生成部1207は、音波伝播時間データ算出部1203が算出した音波伝播時間データτmn,t及び利得係数データ算出部1205が算出した利得係数データGn,t を用いて、入力オーディオデータバッファ1206に一時的に格納されている入力オーディオデータに対応する出力オーディオデータを生成する。出力オーディオデータ重畳部1208は、出力オーディオデータ生成部1207が生成した出力オーディオデータを仮想音源101_nの数に応じて合成する。
 図13は、入力オーディオデータバッファ1206の一構成例の説明図である。入力オーディオデータバッファ1206は、FIFO(First-In,First-Out:先入れ先出し)方式でデータを一時的に格納し、古いデータは捨てていく。バッファサイズは通常、仮想音源とスピーカ間の距離の最大値のサンプル数幅に基づいて設定すればよい。例えばその最大値を仮に34メートルとする場合、サンプリング周波数が44100ヘルツ、音速が340メートルとして、44100×34÷340=4410サンプル以上用意しておけばよい。入力オーディオデータバッファ1206は、自己のバッファサイズに応じてオーディオデータ格納部1103から入力オーディオデータを読み出し、格納後、出力オーディオデータ生成部1207に出力する。すなわち、古いデータから順に出力オーディオデータ生成部1207に出力される訳ではない。図13において四角のブロックの各々は標本データ格納領域を表し、当該標本データ格納領域には、セグメント内の1標本データが一時的に格納される。図13によれば、例えば、標本データ格納領域1300_1には最新のセグメントの先頭部分の1標本データが一時的に格納され、標本データ格納領域1300_1+a-1には最新のセグメントの最後の部分の1標本データ、つまり最新の1標本データが一時的に格納される。ここで、aは、セグメント長であり、1セグメントに含まれる標本データの個数である。
 図14は、音波伝播時間データバッファ1203の一構成例の説明図である。音波伝播時間データバッファ1203もまた、FIFO方式でデータの入出力を行う一時格納部である。図14において四角のブロックの各々は音波伝播時間データ格納領域を表し、その音波伝播時間データ格納領域には、各セグメントの音波伝播時間データが一時的に格納される。また、図14は、音波伝播時間データバッファ1203に2セグメント分の音波伝播時間データが一時的に格納されることを示す。さらに、図14は、音波伝播時間データバッファ1203の音波伝播時間データ格納領域1203_1には最も古い音波伝播時間データが一時的に格納され、音波伝播時間データ格納領域1203_2には最も新しい音波伝播時間データが一時的に格納されることを示す。
 図12から図14を参照して、実施の形態に係る動作を説明する。入力オーディオデータバッファ1206は、離散時刻t1 から離散時刻(t+a-1)までの1セグメントの入力オーディオデータをオーディオデータ格納部1103から読み出し、一時的に格納する。図13を参照して説明すると、標本データ格納領域1300_1から標本データ格納領域1300_1+a-1には、離散時刻tから離散時刻(t+a-1)までの標本データが順番に格納される。また、標本データ格納領域1300_1から1300_1+a-1以外の標本データ格納領域には、離散時刻t以前の複数セグメント分の入力オーディオデータが既に格納されている。また、出力オーディオデータバッファ1209には1つ前のセグメントに対応する出力オーディオデータの離散時刻(t-1)おける標本データが既に格納されている。また、音波伝播時間データバッファ1203には、同じく1つ前のセグメントの音波伝播時間データが既に格納されている。
 距離データ算出部1201は、離散時刻tにおける、1番目の仮想音源(以下、「仮想音源101_1」と呼ぶ。)及び1番目のスピーカ(以下、「スピーカ103_1」と呼ぶ。)の距離を示す距離データ(|r1,t1-r|)を算出し、音波伝播時間データ算出部1202及び利得係数データ算出部1204に出力する。
 音波伝播時間データ算出部1202は、数式(7)を用いて、距離データ算出部1201から取得した距離データ(|r1,t1-r|)に基づいて音波伝播時間データτ11,t1 を算出し、音波伝播時間データバッファ1203に出力する。
 音波伝播時間データバッファ1203は、音波伝播時間データ算出部1202から取得した音波伝播時間データτ11,t1 を格納する。図14を参照すると、データ格納領域1203_2に既に格納されていたデータは1203_1に移動された後、音波伝播時間データτ11,t1 は、データ格納領域1203_2に格納される。よってこの時点で、音波伝播時間データバッファ1203_1には、1つ前のセグメントの音波伝播時間データが格納されている。尚、音波伝播時間データバッファは、スピーカ数×時刻t時点で存在する仮想音源の数だけ用意されている。すなわち、音波伝播時間データバッファは、少なくともM×N個備えられており、それぞれ過去1セグメント分の音波伝播時間データと現在の音波伝播時間データが格納されている。
 利得係数データ算出部1204は、数式(6)を用いて、距離データ算出部1201から取得した距離データ(|r1,t1-r|)に基づいて利得係数データG1,t1を算出する。
 出力オーディオデータ生成部1207は、音波伝播時間データバッファ1203に格納されている新しい方の音波伝播時間データ及び利得係数データ算出部1204が算出した利得係数データを用いて出力オーディオデータを生成する。
 離散時刻(t-a)から離散時刻(t-1)の間に仮想音源101_nがスピーカ103_mに対して離隔する場合、図6に示すような波形の歪みが発生することは既に述べた通りである。つまり、数式(7)に示したように、音波伝播時間データτmn,t1-a よりも音波伝播時間データτmn,t1 の方が大きくなるため、離散時刻tを起点とするセグメント内の最初の部分は、離散時刻(t-a)を起点とするセグメント内の最後の部分の繰り返しとなる。すなわち、離散時刻tを起点とするセグメント内の最初の部分に、離散時刻(t-a)を起点とするセグメント内の最後の部分が、音波伝播時間データの差である時間幅Δτmn,t1 (=τmn,t1 -τmn,t1-a )だけ現れる。このため、離散時刻tの近傍においてオーディオデータの波形が不連続となる。これが波形の歪みであり、ノイズの原因となる。ここで、本例では、音波伝播時間データの時間幅Δτmn,t1 を5とする。前述の通り、図6は、補正前の波形の一例の説明図である。離散時刻tから離散時刻(t+Δτmn,t1 )までの補正前の波形は、標本データ308’、309’、310’、311’、312’を連結した波形である。この波形は、1つ前のセグメント内の標本データ308、309、310、311、312を連結した波形と同じである。
 まず、補正区間幅を時間幅Δτmn,t1 と同じく5とする。出力オーディオデータバッファ1209には、1つ前のセグメントの最後の離散時刻(t-1)の標本データ312が既に格納されている。実施の形態1では、図6に示した波形の歪みをなくすために、離散時刻(t-1)における標本データ312(図6参照)、すなわち出力オーディオデータバッファ1209に格納されている標本データ312と、離散時刻(t+Δτmn,t1 )における標本データ313との間の5個(Δτmn,t1 =5)の標本データに対して関数を用いた補間を行う。ここでは、一例として線形補間を用いる。線形補間とは、数字と数字の間が直線的であると考えて、近似値を算出する手法である。そこで、図6において、標本データ312から標本データ313までが直線的であると考える。図15は、補正後のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。図15から、補正後のオーディオ信号波形においては標本データ312から標本データ313までが線形補間により直線化(標本データ1500から標本データ1504)され、それによって図6に示した波形の歪みが解消していることがわかる。
 離散時刻t1 の近傍にある波形の歪みを補正するためには、離散時刻(t-a)を起点とするセグメントの音波伝播時間及び離散時刻tを起点とするセグメントの音波伝播時間が算出されていればよい。すなわち、現在のセグメントの起点の近傍にあるオーディオデータに歪みを補正するために、その次のセグメントである離散時刻(t+a)を起点とするセグメントのオーディオデータの音波伝播時間を算出しておく必要がない。したがって、仮想音源101_nがスピーカ103_mから離隔する場合、1セグメント分の遅れが発生しない。よって、仮想音源位置をリアルタイムに変更する場合であっても、遅延なくオーディオデータを補正できる。
 次に、離散時刻(t1 -a)から離散時刻t1 の間に仮想音源101_nがスピーカ103_mに対して接近する場合、音波伝播時間データτmn,t1-a は、音波伝播時間データτmn,t1 よりも小さくなる。したがって、(Δτmn,t1 =τmn,t1-a -τmn,t1 )であることから、時間幅Δτmn,t1 は負となる。この場合、離散時刻(t-a)を起点とするセグメント及び離散時刻tを起点とするセグメントの間でオーディオデータが欠落する。図10は、図7に示すオーディオデータにより形成されるオーディオ信号波形及び図8に示すオーディオデータにより形成されるオーディオ信号波形を結合したオーディオ信号波形の一例の説明図である。図10からわかるように、標本データ317の近傍においてオーディオデータが急激に変化し、その結果、波形の歪みが発生している。この波形の歪みも同様にノイズとして受聴者に知覚される。
 出力オーディオデータバッファ1209には、1つ前のセグメントの最後の離散時刻(t-1)の標本データ312が格納されている。実施の形態1では、図10に示した波形の歪みをなくすために、離散時刻(t-1)における標本データ317と離散時刻(t+Δτmn,t1 )における標本データ321までの間の4個(Δτmn,t1 =4)の標本データに対して関数を用いた補間を行う。ここでは、一例として線形補間を用いる。そこで、図10において、標本データ312から標本データ321までが直線的であると考える。図16は、補正後のオーディオデータにより形成されるオーディオ信号波形の一例の説明図である。図16から、補正後のオーディオ信号波形においては標本データ312から標本データ321までが線形補間により直線化(標本データ1600から標本データ1603)され、それによって図10に示した波形の歪みが解消していることがわかる。仮想音源101_nがスピーカ103_mから離隔する場合と同様に、離散時刻t1 の近傍にある波形の歪みを補正するためには、離散時刻(t-a)を起点とするセグメントの音波伝播時間及び離散時刻tを起点とするセグメントの音波伝播時間が算出されていればよい。すなわち、現在のセグメントの起点の近傍にあるオーディオデータに歪みを補正するために、その次のセグメントである離散時刻(t+a)を起点とするセグメントのオーディオデータの音波伝播時間を算出しておく必要がない。したがって、仮想音源101_nがスピーカ103_mから離隔する場合、1セグメント分の遅れが発生しない。よって、仮想音源位置をリアルタイムに変更する場合であっても、オーディオデータを遅延なく補正できる。
 図17は、実施の形態1に係るデータ処理の流れを示すフローチャートである。本データ処理は、CPU1111による制御のもと、オーディオデータ処理部1101により実行される。オーディオデータ処理部1101は、まず、仮想音源101_nの番号nに1を代入し、スピーカ103_mの番号mに1を代入する。すなわち、オーディオデータ処理部1101は、1番目の仮想音源101_1及び1番目のスピーカ103_1を指定する(S10)。オーディオデータ処理部1101は、n番目の仮想音源101_nに対応するオーディオファイルをオーディオデータ格納部1103より入力する(S11)。さらに、オーディオデータ処理部1101は、仮想音源101_nに対応する仮想音源位置データ及びスピーカ位置データの各々を仮想音源位置データ格納部1104及びスピーカ位置データ格納部1106から入力する(S12)。オーディオデータ処理部1101は、入力した仮想音源位置データ及びスピーカ位置データに基づいて、相前後する時点での仮想音源101_n及びスピーカ103_mの第1及び第2の距離データ(|rn,t -r|)を算出する(S13)。オーディオデータ処理部1101は、算出した第1及び第2の距離データ(|rn,t -r|)に基づき、その距離に対する音波伝播時間データτmn,tを算出する(S14)。オーディオデータ処理部1101は、音波伝播時間データτmn,t及び利得係数データGn,t をそれぞれ音波伝播時間データバッファ1203と利得係数データバッファ1205に格納する。次いで、オーディオデータ処理部1101は、第1及び第2の距離データが異なるか否かを判定する(S15)。尚、音波伝播時間データバッファ1203に格納されている1つ前のセグメントに対応する音波伝播時間τmn,t-aと今回格納した音波伝播時間データτmn,tが異なるか否かを判定してもよい。すなわち、本ステップでは、オーディオデータ処理部1101は、仮想音源101_nがスピーカ103_mに対して移動しているか静止しているかを判定する。
 ステップS15にて第1及び第2の距離データが異なると判定した場合(S15:YES)、すなわち、仮想音源101_nがスピーカ103_mに対して移動したと判定した場合、オーディオデータ処理部1101は、ステップS16の処理に進む。これに対して、ステップS15にて第1及び第2の距離データが同じと判定した場合(S15:NO)、すなわち、仮想音源101_nが静止していると判定した場合、オーディオデータ処理部1101は、ステップS19の処理に進む。オーディオデータ処理部1101は、ステップS15の判定結果に基づき、仮想音源のスピーカに対する離隔及び接近に起因する標本データの繰り返し部分及び欠落部分を特定し(S16)、波形の歪みの部分に対して上述した線形補間を行うことによって当該波形を補正する(S17)。
 次いでオーディオデータ処理部1101は、仮想音源101_nに対する利得制御を行う(S18)。次いでオーディオデータ処理部1101は、仮想音源101_nの番号nに1を加算し(S19)、仮想音源101_nの番号nが最大値Nであるかどうか判定する(S20)。ステップS20で判定した結果、仮想音源101_nの番号nが最大値Nであると判定した場合(S20:YES)、オーディオデータの合成を行う(S21)。一方、ステップS20で判定した結果、仮想音源101_nの番号が最大値Nでないと判定した場合(S20:NO)、オーディオデータ処理部1101は、ステップS11の処理に戻り、続いて、2番目の仮想音源101_2と1番目のスピーカ103_1に対して、ステップS11からステップS18の処理を行う。
 ステップS21でオーディオデータの合成を行った後、オーディオデータ処理部1101は、仮想音源101_nの番号nに1を代入し(S22)、スピーカ103_mの番号mに1を加算する(S23)。次いで、オーディオデータ処理部1101は、スピーカ103_mの番号mが最大値Mであるかどうか判定し(S24)、スピーカ103_mの番号mが最大値Mであると判定した場合(S24:YES)、処理を終了する。これに対して、スピーカ103_mの番号mが最大値Mでないと判定した場合(S24:NO)、ステップS11の処理に戻る。
 実施の形態2
 図18は、実施の形態2に係るオーディオ装置1100の内部構成例を示すブロック図である。実施の形態2は、実施の形態1がオーディオ装置1100内のROM1112に記憶してあるプログラムを実行するのに対して、書き換え可能なEEPROM( Electrically Erasable Programmable Read-Only Memory )又は内部記憶装置25に記憶されたプログラムを読み出して実行するようにしてある。オーディオ装置1100は、EEPROM24、内部記憶装置25及び記録媒体読込部23を備える。CPU17は、記録媒体読込部23に挿入されたCD( Compact Disk )-ROM又はDVD(Digital Versatile Disk )-ROM等の記録媒体230からプログラム231を読み込んでEEPROM24又は内部記憶装置25に記憶するようにしてある。CPU17は、EEPROM24又は内部記憶装置25に記憶したプログラム231をRAM18に読み出して実行する構成となっている。
 プログラム231は、記録媒体230から読み出してEEPROM24又は内部記憶装置25に記憶される場合に限るものではなく、メモリカード等の外部メモリに記憶させても良い。この場合、CPU17に接続される図示しない外部メモリからプログラム231を読み出してEEPROM24又は内部記憶装置25に記憶させる。さらにCPU17に接続された図示しない通信部と外部のコンピュータとの間で通信を確立し、プログラム231をEEPROM24又は内部記憶装置25へダウンロードしても良い。
 101 仮想音源
 1100 オーディオ装置
 1101 オーディオデータ処理部
 1102 コンテンツ情報分離部
 1109 再生部
 1110 通信インタフェース部
 1115 サーバ
 1116 放送局

Claims (9)

  1.  移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及び前記オーディオデータに基づき音を放射するスピーカの位置を入力し、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオデータ処理装置において、
     相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出する算出手段と、
     前記第1の距離及び第2の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定する特定手段と、
     前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正する補正手段と
     を備えるオーディオデータ処理装置。
  2.  前記オーディオデータは標本データを含み、
     前記特定手段は、前記仮想音源の前記スピーカに対する離隔及び接近に起因する標本データの繰り返し部分及び欠落部分を特定し、
     前記補正手段は、特定された前記繰り返し部分及び欠落部分を、関数を用いた補間によって補正する請求項1記載のオーディオデータ処理装置。
  3.  前記関数を用いた補間は、線形補間である請求項1又は2に記載のオーディオデータ処理装置。
  4.  前記補正を行う部分は、前記第1及び第2の距離を音波が伝播する時間幅の差、又は、前記差に比例する時間幅である請求項1から3までのいずれか1項に記載のオーディオデータ処理装置。
  5.  移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及び前記オーディオデータに基づき音を放射するスピーカの位置を用い、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオ装置において、
     前記オーディオデータ及び前記仮想音源の位置を含むディジタルコンテンツを入力するディジタルコンテンツ入力部と、
     前記ディジタルコンテンツ入力部が入力したディジタルコンテンツを解析し、該ディジタルコンテンツに含まれるオーディオデータ及び仮想音源の位置のデータを分離するコンテンツ情報分離部と、
     前記コンテンツ情報分離部が分離した仮想音源の位置のデータ及び前記スピーカの位置のデータに基づいて、前記コンテンツ情報分離部が分離したオーディデータを補正するオーディオデータ処理部と、
     補正後のオーディオデータをオーディオ信号に変換してスピーカへ出力するオーディオ信号生成部と
     を備え、
     前記オーディオデータ処理部は、
     相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出する算出手段と、
     前記第1の距離及び第2の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定する特定手段と、
     前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正する補正手段と
     を備えるオーディオ装置。
  6.  前記ディジタルコンテンツ入力部は、ディジタルコンテンツを格納する記録媒体、ネットワークを介してディジタルコンテンツを配信するサーバ又はディジタルコンテンツを放送する放送局からディジタルコンテンツを入力する請求項5に記載のオーディオ装置。
  7.  移動する仮想音源が発する音に対応するオーディオデータ、該仮想音源の位置及びオーディオデータに基づき音を放射するスピーカの位置を入力し、前記仮想音源の位置及び前記スピーカの位置に基づいて前記オーディオデータを補正するオーディオデータ処理装置におけるオーディオデータ処理方法において、
     相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出するステップと、
     前記第1の距離及び第2の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定するステップと、
     前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正するステップと
     を含むオーディオデータ処理方法。
  8.  オーディオデータに対応するオーディオ信号を入力するスピーカが放射する音によって形成される仮想音源の位置及び該スピーカの位置に基づいて、移動する音源が発する音に対応する前記オーディオデータを補正させるプログラムにおいて、
     コンピュータに、
     相前後する時点での前記スピーカの位置から前記仮想音源の位置までそれぞれの第1の距離及び第2の距離を算出するステップと、
     前記第1の距離及び第2の距離が異なる場合、前後の時点における前記オーディオデータにある歪みの部分を特定するステップと、
     前記特定された部分の前記オーディオデータを、関数を用いた補間によって補正するステップと
     を実行させるプログラム。
  9.  請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2010/071490 2009-12-09 2010-12-01 オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体 WO2011070956A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/514,909 US20120269351A1 (en) 2009-12-09 2010-12-01 Audio data processing apparatus, audio apparatus, and audio data processing method
CN2010800554178A CN102640522A (zh) 2009-12-09 2010-12-01 音频数据处理装置、音频装置、音频数据处理方法、程序以及记录该程序的记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-279793 2009-12-09
JP2009279793A JP2011124723A (ja) 2009-12-09 2009-12-09 オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
WO2011070956A1 true WO2011070956A1 (ja) 2011-06-16

Family

ID=44145501

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/071490 WO2011070956A1 (ja) 2009-12-09 2010-12-01 オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体

Country Status (4)

Country Link
US (1) US20120269351A1 (ja)
JP (1) JP2011124723A (ja)
CN (1) CN102640522A (ja)
WO (1) WO2011070956A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9838824B2 (en) 2012-12-27 2017-12-05 Avaya Inc. Social media processing with three-dimensional audio
US10203839B2 (en) 2012-12-27 2019-02-12 Avaya Inc. Three-dimensional generalized space
US9301069B2 (en) 2012-12-27 2016-03-29 Avaya Inc. Immersive 3D sound space for searching audio
US9892743B2 (en) 2012-12-27 2018-02-13 Avaya Inc. Security surveillance via three-dimensional audio space presentation
CN105264914B (zh) * 2013-06-10 2017-03-22 株式会社索思未来 音频再生装置以及方法
CN106465031B (zh) * 2014-06-17 2019-10-18 夏普株式会社 音频装置、电视接收机以及声音信号调整方法
US9392368B2 (en) * 2014-08-25 2016-07-12 Comcast Cable Communications, Llc Dynamic positional audio
CN107211213B (zh) * 2014-12-01 2019-06-14 三星电子株式会社 基于扬声器的位置信息输出音频信号的方法和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007502590A (ja) * 2003-05-15 2007-02-08 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ スピーカ信号内のコンポーネントの離散値を算出する装置および方法
JP2007047813A (ja) * 2002-11-21 2007-02-22 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号処理方法、そのプログラム、及びそのプログラムを格納した記録媒体
JP2008035320A (ja) * 2006-07-31 2008-02-14 Konami Digital Entertainment:Kk 音声シミュレーション装置、音声シミュレーション方法、ならびに、プログラム
WO2008106680A2 (en) * 2007-03-01 2008-09-04 Jerry Mahabub Audio spatialization and environment simulation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4551652B2 (ja) * 2003-12-02 2010-09-29 ソニー株式会社 音場再生装置及び音場空間再生システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047813A (ja) * 2002-11-21 2007-02-22 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号処理方法、そのプログラム、及びそのプログラムを格納した記録媒体
JP2007502590A (ja) * 2003-05-15 2007-02-08 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ スピーカ信号内のコンポーネントの離散値を算出する装置および方法
JP2008035320A (ja) * 2006-07-31 2008-02-14 Konami Digital Entertainment:Kk 音声シミュレーション装置、音声シミュレーション方法、ならびに、プログラム
WO2008106680A2 (en) * 2007-03-01 2008-09-04 Jerry Mahabub Audio spatialization and environment simulation

Also Published As

Publication number Publication date
JP2011124723A (ja) 2011-06-23
US20120269351A1 (en) 2012-10-25
CN102640522A (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
WO2011070956A1 (ja) オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び当該プログラムを記録した記録媒体
EP3675527B1 (en) Audio processing device and method, and program therefor
US8219394B2 (en) Adaptive ambient sound suppression and speech tracking
CN100525101C (zh) 使用波束形成算法来记录信号的方法和设备
KR102430769B1 (ko) 몰입형 오디오 재생을 위한 신호의 합성
JP6284480B2 (ja) 音声信号再生装置、方法、プログラム、及び記録媒体
JP6019969B2 (ja) 音響処理装置
JP2023517720A (ja) 残響のレンダリング
JP2010538571A (ja) オーディオ信号のデコーディング方法及び装置
JP5931182B2 (ja) 付加的な出力チャンネルを提供するためのステレオ出力信号を生成する装置、方法およびコンピュータプログラム
KR20230038426A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
JP2001296894A (ja) 音声処理装置および音声処理方法
JP5361689B2 (ja) オーディオデータ処理装置、オーディオ装置、オーディオデータ処理方法、プログラム及び記録媒体
JP6126390B2 (ja) ノイズ低減装置、放送受信装置及びノイズ低減方法
JP5556673B2 (ja) 音声信号補正装置、音声信号補正方法及びプログラム
JP5224586B2 (ja) オーディオ信号補間装置
JP6920144B2 (ja) バイノーラル再生用の係数行列算出装置及びプログラム
JP4969978B2 (ja) オーディオ再生装置
JP6774912B2 (ja) 音像生成装置
JP6296573B2 (ja) スピーカを駆動するための力の変化の信号を生成する信号生成装置、スピーカ
JP6314803B2 (ja) 信号処理装置、信号処理方法及びプログラム
JP2019113866A (ja) 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置
JP2016051033A (ja) カラオケ装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080055417.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10835877

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13514909

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 10835877

Country of ref document: EP

Kind code of ref document: A1