WO2009098975A1 - 音声ミキシング装置および方法ならびに多地点会議サーバ - Google Patents

音声ミキシング装置および方法ならびに多地点会議サーバ Download PDF

Info

Publication number
WO2009098975A1
WO2009098975A1 PCT/JP2009/051302 JP2009051302W WO2009098975A1 WO 2009098975 A1 WO2009098975 A1 WO 2009098975A1 JP 2009051302 W JP2009051302 W JP 2009051302W WO 2009098975 A1 WO2009098975 A1 WO 2009098975A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
sampling frequency
signal
added
audio
Prior art date
Application number
PCT/JP2009/051302
Other languages
English (en)
French (fr)
Inventor
Hironori Ito
Kazunori Ozawa
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US12/812,135 priority Critical patent/US8489216B2/en
Priority to CN2009801029381A priority patent/CN101926159A/zh
Priority to JP2009552440A priority patent/JP5158099B2/ja
Priority to EP09709003A priority patent/EP2239931A4/en
Publication of WO2009098975A1 publication Critical patent/WO2009098975A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Definitions

  • the present invention relates to a technique for mixing a plurality of audio signals, and more particularly, to an audio signal mixing technique used in a server or the like that provides a multipoint conference service.
  • This multipoint video conference system includes a plurality of conference terminals and a multipoint control apparatus to which these conference terminals are connected. A conference terminal is assigned to the participant.
  • each conference terminal transmits an acoustic signal related to sound (voice) detected by the terminal itself to the multipoint control device.
  • the multipoint control device adds the acoustic signals received from the conference terminals.
  • the multipoint control device subtracts the audio signal received from the conference terminal from the added audio signal for each conference terminal, encodes the audio signal obtained as a result of the subtraction, and outputs the encoded audio signal.
  • a signal is transmitted to the conference terminal.
  • the multipoint control device can be applied to various communication networks such as a circuit switching network, a mobile network, and a packet network.
  • a circuit switching network H.264 of ITU-T (Telecommunication Union Telecommunication Standardization Sector) recommendation.
  • a communication protocol defined by H.324 is used.
  • a communication protocol defined by 3G-324M is used.
  • a packet network based on IP Internet Protocol
  • RFC3550 RTP of IETF The Internet Engineering Task Force
  • the multipoint control device is equipped with a voice encoder for a telephone band voice having a sampling frequency of 8 kHz and a band of 3.4 kHz, or for a wideband voice having a sampling frequency of 16 kHz and a band of 7 kHz.
  • Some are equipped with a speech coder.
  • a speech coder for telephone band speech G.I. 711 and G.G.
  • the AMR (Adaptive Multi-Rate) method adopted in 729, 3GPP and the EVRC (Enhanced Variable Rate Codec) method adopted in 3GPP2 are used.
  • As a speech coder for wideband speech G.I.
  • the AMR-WB (Wide Band) method specified in 722 and 3GPP TS26.190 is used.
  • a codec such as MPEG-4 AAC (Advanced Audio Coding)
  • the multipoint conference service can be used even between terminals that transmit and receive audio (acoustic) signals in different bands, such as terminals that use telephone bands and terminals that use broadband. It is desirable that it can be provided.
  • the multipoint control device described above supports only a single-band audio signal, such as for telephone band audio or broadband audio, between terminals transmitting and receiving audio signals of different bands It is difficult to provide a multipoint conference service.
  • An object of the present invention is to provide an audio mixing apparatus, an audio mixing method, and a multipoint conference server that can solve the above-described problems and can mix audio signals of a plurality of bands having different sampling frequencies.
  • an audio mixing apparatus includes: It consists of multiple mixing processing units provided for each sampling frequency, Each of the plurality of mixing processing units includes: Input audio signals having the same sampling frequency are added to generate a first added audio signal, the sampling frequency of the first added audio signal is converted to a sampling frequency that can be processed by another mixing processing unit, and the sampling frequency To the other mixing processing unit The first added audio signal generated by the own processing unit and the first added audio signal which is supplied from the other mixing processing unit and converted to a sampling frequency that can be processed by the own processing unit. Are added to generate a second added audio signal.
  • the audio mixing method of the present invention includes: A first step of classifying a plurality of input audio signals having different sampling frequencies into a plurality of groups according to the sampling frequency; For each group classified in the first step, input audio signals having the same sampling frequency are added to generate a first added audio signal, and the sampling frequency of the first added audio signal can be processed by another group A second step of converting to a different sampling frequency and assigning the audio signal having the converted sampling frequency to the other group; For each group classified in the first step, the first added audio signal generated in the own group and the sampling frequency allocated from the other group and processed in the own group are converted. And a third step of adding the first added audio signal to generate a second added audio signal.
  • the multipoint conference server of the present invention is a multipoint conference server connected to a plurality of communication terminals via a network, A signal classification unit that classifies a plurality of audio signals received from the plurality of communication terminals by sampling frequency; A plurality of mixing processing units provided for each sampling frequency, and Each of the plurality of mixing processing units includes: Input audio signals having the same sampling frequency are added to generate a first added audio signal, the sampling frequency of the first added audio signal is converted to a sampling frequency that can be processed by another mixing processing unit, and the sampling frequency To the other mixing processing unit The first added audio signal generated by the own processing unit and the first added audio signal which is supplied from the other mixing processing unit and converted to a sampling frequency that can be processed by the own processing unit. Are added to generate a second added audio signal.
  • FIG. 1 It is a block diagram which shows the structure of the audio
  • FIG. 1 is a block diagram showing a configuration of an audio mixing apparatus according to an embodiment of the present invention.
  • the audio mixing apparatus shown in FIG. 1 is mounted on a multipoint conference server, which is a multipoint control apparatus, and has k mixing processing units 1 1 to 1 k .
  • the multipoint conference server can receive audio signals in a plurality of bands having different sampling frequencies, and a mixing processing unit is provided for each band. That is, the number of mixing processing units 1 1 to 1 k corresponds to the maximum number of bands that can be handled by the multipoint conference server.
  • the multipoint conference server is configured to receive audio signals in k different bands B 1 to B k , and mixing processing units 1 1 to 1 k in which the received audio signals are provided for each band. To be supplied.
  • FIG. 2 is a block diagram showing a configuration of a multipoint conference system using a multipoint conference server equipped with the audio mixing apparatus shown in FIG.
  • This multipoint conference system includes a plurality of terminals 200 and a multipoint conference server 100 to which these terminals 200 are connected via a transmission path 300.
  • the transmission line 300 includes a plurality of communication networks such as a circuit switching network, a mobile network, and a packet network.
  • a circuit switching network such as a circuit switching network, a mobile network, and a packet network.
  • the plurality of terminals 200 include a plurality of terminals having different audio signal bands and sampling frequencies transmitted and received via the transmission line 300.
  • a terminal for telephone band voice having a sampling frequency of 8 kHz and a band of 3.4 kHz, a terminal for broadband voice having a sampling frequency of 16 kHz and a band of 7 kHz, and the like are used as the terminal 200.
  • the configuration of each terminal 200 is basically the same.
  • the terminal 200 includes an AD conversion unit 201, an encoding unit 202, a transmission unit 203, a DA conversion unit 204, a decoding unit 205, and a reception unit 206.
  • the AD converter 201 converts the audio signal (analog signal) from the microphone 207 into a digital signal.
  • the encoding unit 202 encodes the audio signal (digital signal) supplied from the AD conversion unit 201.
  • the transmission unit 203 transmits the encoded audio signal supplied from the encoding unit 202 to the multipoint conference server 100 via the transmission path 300.
  • the receiving unit 206 receives the encoded audio signal (digital signal) from the multipoint conference server 100 via the transmission path 300.
  • the decoding unit 205 decodes the encoded audio signal supplied from the receiving unit 206.
  • the DA converter 204 converts the decoded audio signal (digital signal) from the decoder 205 into an analog signal.
  • the audio signal converted into the analog signal is supplied from the DA conversion unit 204 to the speaker 208.
  • the multipoint conference server 100 includes a reception unit 101, a plurality of decoding units 102, a signal classification unit 103, an audio mixing device 104, and a transmission unit 105.
  • the audio mixing device 104 is the audio mixing device shown in FIG.
  • the receiving unit 101 receives an audio signal from each terminal 200 via the transmission path 300.
  • the received audio signal is supplied from the receiving unit 101 to any of the plurality of decoding units 102.
  • the decoding unit 102 decodes the audio signal supplied from the receiving unit 101.
  • the decoded audio signal is supplied from the decoding unit 102 to the signal classification unit 103.
  • the signal classification unit 103 converts the decoded audio signal supplied from the decoding unit 102 into a corresponding mixing processing unit among the mixing processing units 1 1 to 1 k shown in FIG. 1 according to the sampling frequency of the decoded audio signal. To supply. In addition, the signal classification unit 103 supplies the audio signal supplied from the audio mixing device 104 to the transmission unit 105.
  • the sampling frequency of the decoded voice signal can be obtained from call control information obtained when the receiving unit 101 receives the voice signal.
  • the transmission unit 105 transmits the audio signal supplied from the signal classification unit 103 to a corresponding terminal among the plurality of terminals 200 via the transmission path 300. Based on the call control information obtained when the reception unit 101 receives an audio signal, a terminal serving as a transmission destination can be identified.
  • the audio mixing device 104 mixes and encodes a plurality of audio signals classified by sampling frequency supplied from the signal classification unit 103, and supplies the encoded audio signals to the signal classification unit 103.
  • the audio mixing device 104 includes mixing processing units 1 1 to 1 k .
  • the mixing processing units 1 1 to 1 k have basically the same configuration.
  • FIG. 1 shows specific configurations of the mixing processing unit 1 1 , the mixing processing unit 1 2, and the mixing processing unit 1 k .
  • the mixing processing unit 1 1 includes audio signal input terminals 10 1 to 10 n , a group signal addition unit 13 1 , sampling conversion units 14 1 to 14 k ⁇ 1 , an all signal addition unit 15 1 , and signal subtraction units 16 1 to 16 n. , Encoders 17 1 to 17 n and audio signal output terminals 19 1 to 19 n .
  • the audio signal in the band B 1 is assigned to the audio signal input terminals 10 1 to 10 n .
  • the received audio signals are supplied to the audio signal input terminals 10 1 to 10 n .
  • the audio signal from the audio signal input terminal 10 1 is supplied to the first input of the signal subtracting unit 16 1 and also supplied to the group signal adding unit 13 1 .
  • the audio signals from the audio signal input terminals 10 2 to 10 n are supplied to the first inputs of the signal subtracting units 16 2 to 16 n and also supplied to the group signal adding unit 13 1 .
  • the group signal adding unit 13 1 adds the audio signals from the audio signal input terminals 10 1 to 10 n and outputs the addition result.
  • the output of the group signal adder 13 1 is supplied to the sampling converters 14 1 to 14 k ⁇ 1 and the total signal adder 15 1 .
  • Sampling converters 14 1 to 14 k ⁇ 1 are provided corresponding to other bands B 2 to B k excluding band B 1 .
  • the sampling conversion unit 14 1 converts the sampling frequency of the audio signal (addition result) supplied from the group signal addition unit 13 1 to match the sampling frequency of the audio signal in the band B 2 .
  • the sampling conversion unit 14 1 uses the audio signal from the group signal adding unit 13 1.
  • the sampling frequency is converted from 8 kHz to 16 kHz.
  • the sampling converters 14 2 to 14 k ⁇ 1 also convert the sampling frequency of the audio signal from the group signal adding unit 13 1 to the sampling frequency of the audio signal in the corresponding band.
  • the output of the sampling converter 14 1 is supplied to all the signal addition unit of mixing processing unit 1 2 corresponding to band B 2.
  • the outputs of the sampling converters 14 2 to 14 k ⁇ 1 are supplied to all signal adders of the mixing processors 1 3 to 1 k corresponding to the bands B 3 to B k .
  • All signal adding unit 15 1 receives as input the sound signal from each group signal adder unit of the audio signal and the other mixing processing unit 1 2 ⁇ 1 k from group signal adder 13 1, adds the input audio signal To do.
  • the output of all signal adder 15 1 is supplied to signal subtractors 16 1 to 16 n .
  • the signal subtracting unit 16 1 uses the audio signal from the audio signal input terminal 10 1 as a first input, the audio signal from the all-signal adding unit 15 1 as a second input, and the first input from the second input. Output audio signal minus input. The output of the signal subtracting unit 16 1 is supplied to the encoding unit 17 1 .
  • each of the signal subtracting units 16 2 to 16 n uses the audio signal from the corresponding input terminal of the audio signal input terminals 10 2 to 10 n as the first input, and uses the total signal adding unit 15 1. Is used as the second input, and the audio signal obtained by subtracting the first input from the second input is output.
  • the output of the signal subtraction unit 16 2 ⁇ 16 n are supplied to the encoding unit 17 2 ⁇ 17 n.
  • the encoding unit 17 1 encodes the audio signal from the signal subtracting unit 16 1 .
  • the encoding units 17 2 to 17 n also encode the audio signal from the corresponding signal subtracting unit among the signal subtracting units 16 2 to 16 n .
  • the output of the encoding unit 17 1 ⁇ 17 n is supplied to the audio signal output terminals 19 1 ⁇ 19 n.
  • the audio signal output terminals 19 1 to 19 n supply the input audio signals to the signal classification unit 103 shown in FIG.
  • Mixing processing unit 1 2 the audio signal input terminals 20 1 ⁇ 20 n, group signal adder 13 2, sampling conversion section 24 1 ⁇ 24 k-1, all the signal addition unit 15 2, signal subtraction unit 26 1 ⁇ 26 n , Encoders 27 1 to 27 n , and audio signal output terminals 29 1 to 29 n .
  • the audio signal in the band B 2 is assigned to the audio signal input terminals 20 1 to 20 n .
  • the number of audio signal input terminals 20 1 to 20 n may be the same as or different from the number of audio signal input terminals of other mixing processing units.
  • the audio signal from the audio signal input terminal 20 1 is supplied to the first input of the signal subtracting unit 26 1 and also supplied to the group signal adding unit 13 2 .
  • audio signals from the audio signal input terminals 20 2 to 20 n are supplied to the first inputs of the signal subtracting units 26 2 to 26 n and also supplied to the group signal adding unit 13 2 .
  • the group signal adding unit 13 2 adds the audio signals from the audio signal input terminals 20 1 to 20 n and outputs the addition result.
  • the output of the group signal adder 13 2 is supplied to the sampling converters 24 1 to 24 k ⁇ 1 and the total signal adder 15 2 .
  • the sampling converters 24 1 to 24 k-1 are provided corresponding to the other bands B 1 and B 3 to B k excluding the band B 2 .
  • the sampling conversion unit 24 1 converts the sampling frequency of the audio signal (addition result) supplied from the group signal addition unit 13 2 to match the sampling frequency of the audio signal in the band B 1 .
  • the sampling converters 24 2 to 24 k ⁇ 1 also convert the sampling frequency of the audio signal from the group signal adding unit 13 2 to the sampling frequency of the audio signal in the corresponding band.
  • the output of the sampling conversion section 24 1 is supplied to all the signal addition unit of mixing processing unit 1 1 corresponding to band B 1.
  • the outputs of the sampling converters 24 2 to 24 k ⁇ 1 are supplied to all signal adders of the mixing processors 1 3 to 1 k corresponding to the bands B 3 to B k .
  • the total signal adder 15 2 receives the audio signal from the group signal adder 13 2 and the audio signals from the group signal adders of the other mixing processing units 1 1 and 1 3 to 1 k , and inputs these input audios. Add the signals.
  • the output of all signal adding unit 15 2 is supplied to signal subtracting units 26 1 to 26 n .
  • the signal subtracting unit 26 1 uses the audio signal from the audio signal input terminal 20 1 as a first input, the audio signal from the all-signal adding unit 15 2 as a second input, and the first input from the second input. Output audio signal minus input. The output of the signal subtracting unit 26 1 is supplied to the encoding unit 27 1 .
  • each of the signal subtracting units 26 2 to 26 n uses the audio signal from the corresponding audio signal input terminal of the audio signal input terminals 20 2 to 20 n as the first input, the audio signal from the 15 2 has a second input, and outputs a sound signal obtained by subtracting the first input from the second input.
  • the output of the signal subtraction unit 26 2 ⁇ 26 n are supplied to the encoding unit 27 2 ⁇ 27 n.
  • the encoding unit 27 1 encodes the audio signal from the signal subtracting unit 26 1 .
  • the encoding units 27 2 to 27 n also encode the audio signal from the corresponding signal subtracting unit among the signal subtracting units 26 2 to 26 n .
  • Output encoding unit 27 1 ⁇ 27 n is supplied to the audio signal output terminals 29 1 ⁇ 29 n.
  • the audio signal output terminals 29 1 to 29 n supply the input audio signals to the signal classification unit 103 shown in FIG.
  • the mixing processing unit 1 k includes audio signal input terminals 30 1 to 30 n , group signal addition unit 13 k , sampling conversion units 34 1 to 34 k ⁇ 1 , total signal addition unit 15 k , and signal subtraction units 36 1 to 36 n. , Encoders 37 1 to 37 n , and audio signal output terminals 39 1 to 39 n .
  • the audio signal in the band B k is assigned to the audio signal input terminals 30 1 to 30 n .
  • the number of audio signal input terminals 30 1 to 30 n may be the same as or different from the number of audio signal input terminals of other mixing processing units.
  • the audio signal from the audio signal input terminal 30 1 is supplied to the first input of the signal subtracting unit 36 1 and also supplied to the group signal adding unit 13 k .
  • audio signals from the audio signal input terminals 30 2 to 30 n are supplied to the first inputs of the signal subtracting units 36 2 to 36 n and also supplied to the group signal adding unit 13 k .
  • the group signal adding unit 13 k adds the audio signals from the audio signal input terminals 30 1 to 30 n and outputs the addition result.
  • the output of the group signal adder 13 k is supplied to the sampling converters 34 1 to 34 k ⁇ 1 and the total signal adder 15 k .
  • Sampling converters 34 1 to 34 k-1 are provided corresponding to other bands B 1 to B k-1 other than band B k .
  • the sampling conversion unit 34 1 converts the sampling frequency of the audio signal (addition result) supplied from the group signal addition unit 13 k so as to match the sampling frequency of the audio signal in the band B 1 .
  • the sampling converters 34 2 to 34 k ⁇ 1 also convert the sampling frequency of the audio signal from the group signal adding unit 13 k to the sampling frequency of the audio signal in the corresponding band.
  • the output of the sampling conversion section 34 1 is supplied to all the signal addition unit of mixing processing unit 1 1 corresponding to band B 1.
  • the outputs of the sampling converters 34 2 to 34 k-1 are supplied to all signal adders of the mixing processors 1 1 to 1 k-1 corresponding to the bands B 1 to B k-1 .
  • the total signal adding unit 15 k receives the audio signal from the group signal adding unit 13 k and the audio signal from each of the group signal adding units of the other mixing processing units 1 1 to 1 k ⁇ 1 as input signals. Is added. The output of all signal adding unit 15 k is supplied to signal subtracting units 36 1 to 36 n .
  • the signal subtracting unit 36 1 uses the audio signal from the audio signal input terminal 30 1 as a first input, the audio signal from the all-signal adding unit 15 k as a second input, and receives the first input from the second input. Output audio signal minus input.
  • each of the signal subtracting units 36 2 to 36 n also uses the audio signal from the corresponding audio signal input terminal among the audio signal input terminals 30 2 to 30 n as the first input, the audio signal from the 15 k and as a second input, and outputs a sound signal obtained by subtracting the first input from the second input.
  • the output of the signal subtraction unit 36 1 ⁇ 36 n are supplied to the encoding unit 37 1 ⁇ 37 n.
  • the encoding unit 37 1 encodes the audio signal from the signal subtracting unit 36 1 .
  • the encoding units 37 2 to 37 n also encode the audio signal from the corresponding signal subtracting unit among the signal subtracting units 36 2 to 36 n .
  • the output of the encoding unit 37 1 ⁇ 37 n is supplied to the audio signal output terminals 39 1 ⁇ 39 n.
  • the audio signals input to the audio signal output terminals 39 1 to 39 n are supplied to the signal classification unit 103 shown in FIG.
  • the configuration of the other mixing processing units 1 3 to 1 k-1 is basically the same as the configuration of the mixing processing units 1 1 , 1 2 , 1 k described above.
  • FIG. 3 is a flowchart showing a procedure of mixing processing of the audio mixing apparatus shown in FIG.
  • the operations of the mixing processing units 1 1 to 1 k are basically the same.
  • the signal classifying unit 103 shown in FIG. 2 the operation of mixing processing unit 1 1 in the case where the audio signal band B 1 ⁇ B k is supplied to mixing processing unit 1 1 ⁇ 1 k, FIGS This will be described with reference to FIG.
  • the sampling frequencies of the audio signals in the bands B 1 to B k are the sampling frequencies F 1 to F k , respectively.
  • a plurality of audio signals S 1 to S n having a sampling frequency F 1 are supplied to the audio signal input terminals 10 1 to 10 n as audio signals in the band B 1 (step S10).
  • Audio signals S 1 ⁇ S n from the audio signal input terminals 10 1 ⁇ 10 n is supplied to a first input of the signal subtraction unit 16 1 ⁇ 16 n, group signal a first input of the adder 13 1 To be supplied.
  • group signal adder 13 1 generates a first addition voice signal by adding the audio signal S 1 ⁇ S n from the audio signal input terminals 10 1 ⁇ 10 n (step S11).
  • the first added audio signal is supplied to sampling converters 14 1 to 14 k ⁇ 1 and full signal adder 15 1 .
  • the sampling converter 14 1 converts the sampling frequency F 1 of the first added audio signal in the same band supplied from the group signal adder 13 1 to the sampling frequency F 2 .
  • the sampling conversion section 14 2 ⁇ 14 k-1 is the sampling frequencies F 1 of the first addition voice signal of the same band supplied from group signal adder 13 1 of the sampling frequency F 3 ⁇ F k Convert to the corresponding sampling frequency.
  • the first added audio signal in the same band whose sampling frequency is converted to the sampling frequency in the other band by the sampling converters 14 1 to 14 k ⁇ 1 is added to all the signals of the other mixing processors 1 2 to 1 k. Is supplied to the units 15 2 to 15 k (step S12).
  • the all signal adder 15 1 converts the sampling frequency from the first added audio signal in the same band supplied from the group signal adder 13 1 and the other mixing processors 1 2 to 1 k. and other by adding the first addition audio signals of the same band, and outputs a second addition audio signals of the same sampling frequency F 1 (step S13). Second addition audio signals of the same sampling frequencies F 1 outputted from all the signal addition unit 15 1 is supplied to the signal subtraction unit 16 1 ⁇ 16 n.
  • the signal subtracting unit 16 1 subtracts the input audio signal (first input) from the audio signal input terminal 10 1 from the second added audio signal (second input) from the total signal adding unit 15 1. Audio signal is output. Then, the encoding unit 17 1 encodes the audio signal from the signal subtracting unit 16 1 . Similarly, each of the signal subtraction unit 16 2 ⁇ 16 n is, from the second summing speech signals from all the signal addition unit 15 1 (second input), of the audio signal input terminals 10 2 ⁇ 10 n The audio signal obtained by subtracting the audio signal (first input) from the corresponding input terminal is output. Then, the encoding units 17 2 to 17 n encode the audio signals from the signal subtracting units 16 2 to 16 n (step S14).
  • the outputs of the encoding units 17 1 to 17 n are supplied to the signal classification unit 103 shown in FIG. 2 via the audio signal output terminals 19 2 to 19 n (step S15).
  • a plurality of terminals 200 shown in FIG. 2 transmits and receives a voice signal (for example, G.729 or AMR voice data) with a sampling frequency of 8 kHz, and a voice with a sampling frequency of 16 kHz.
  • a voice signal for example, G.729 or AMR voice data
  • a second terminal group that transmits and receives signals (for example, G.722 and AMR-WB audio data) and a third terminal that transmits and receives audio signals (for example, AAC audio data) with a sampling frequency of 32 kHz.
  • Terminal group transmits and receives a voice signal (for example, G.729 or AMR voice data) with a sampling frequency of 8 kHz, and a voice with a sampling frequency of 16 kHz.
  • a second terminal group that transmits and receives signals (for example, G.722 and AMR-WB audio data)
  • a third terminal that transmits and receives audio signals (for example, AAC audio data) with a sampling frequency of
  • Audio signal from the first terminal group is supplied to mixing processing unit 1 1, the audio signal from the second terminal group is supplied to mixing processing unit 1 2, the audio signal from the third terminal group mixing process It is supplied to the part 1 3.
  • mixing processing unit 1 the procedure shown in FIG 3, the mixing process is performed for the audio signal from the first terminal group.
  • sampling converter 14 the sampling frequency 8kHz of the addition sound signal of the same band from group signal adder 13 1 is converted into the processing capable sampling frequency 16kHz in mixing processing unit 1 2.
  • the upsampling conversion from the sampling frequency of 8 kHz to the sampling frequency of 16 kHz for example, by inserting one sample having a value of 0 between each sample of the audio signal having the sampling frequency of 8 kHz, the audio having the number of samples doubled. Generate a signal. Then, the generated audio signal is passed through a band limiting filter that passes only a frequency band of 4 kHz or less, thereby obtaining an audio signal having a sampling frequency of 16 kHz.
  • sampling conversion section 14 sampling frequency 8kHz of the addition sound signal of the same band from group signal adder 13 1, to the conversion processing in the mixing processor 1 3 capable sampling frequency 32 kHz.
  • the number of samples is quadrupled by inserting three samples having a value of 0 between each sample of the audio signal having the sampling frequency 8 kHz. Generate an audio signal. Then, the generated audio signal is passed through a band limiting filter that passes only a frequency band of 4 kHz or less, thereby obtaining an audio signal having a sampling frequency of 32 kHz.
  • band extension processing for adding a pseudo signal to a high band may be performed.
  • bandwidth expansion processing see, for example, the publications “Yan Ming Cheng, O'Shaughnessy and D. Mermelstein,“ Statistical Recovery of Wideband Speech from Narrowband speech, ”Speech and Audio Processing, IEEE Transactions on Volume 2, 1994 pp.544-548.
  • any mixing processing unit 1 2 the procedure shown in FIG. 3, the mixing process is performed for the audio signal from the second terminal group.
  • This mixing process sampling converter 24 1, the sampling frequency 16kHz of the same band of the addition sound signal from group signal adder 13 2 is converted into the processing capable sampling frequency 8kHz in mixing processing unit 1 1.
  • an audio signal having a sampling frequency of 16 kHz is passed through a band limiting filter that passes only a band having a frequency of 4 kHz or less and then thinned out for each sample.
  • An audio signal having a sampling frequency of 8 kHz is obtained.
  • sampling conversion section 24 sampling frequency 16kHz of the addition sound signal of the same band from group signal adder 13 2, converting processing in the mixing processor 1 3 capable sampling frequency 32 kHz.
  • the generated audio signal is passed through a band limiting filter that allows only a frequency band of 8 kHz or less to pass, thereby obtaining an audio signal having a sampling frequency of 32 kHz.
  • Any mixing processing unit 1 3 the procedure shown in FIG. 3, the mixing process is performed for the audio signal from the third terminal group.
  • This mixing process sampling converter 34 1, the sampling frequency 32kHz of the addition sound signal of the same band from group signal adder 13 3, converted into process capable sampling frequency 8kHz in mixing processing unit 1 1.
  • an audio signal having a sampling frequency of 32 kHz is passed through a band limiting filter that passes only a band having a frequency of 4 kHz or less, and then thinned every three samples.
  • a band limiting filter that passes only a band having a frequency of 4 kHz or less, and then thinned every three samples.
  • sampling frequency 32kHz of the addition sound signal of the same band from group signal adder 13 2 is converted into the processing capable sampling frequency 16kHz in mixing processing unit 1 2.
  • an audio signal having a sampling frequency of 32 kHz is passed through a band limiting filter that passes only a band having a frequency of 8 kHz or less, and then thinned out for each sample.
  • a band limiting filter that passes only a band having a frequency of 8 kHz or less
  • each of the mixing processing units 1 1 to 1 k is capable of processing the sampling frequency of the inputted additional audio signal in the same band by another mixing processing unit. Convert to frequency. Furthermore, each of the mixing processing units 1 1 to 1 k has been converted into the added audio signal in the same band generated by the own processing unit and the sampling frequency of the own processing unit supplied from another mixing processing unit. The added audio signals in the same band are added to generate an added signal having the same sampling frequency. Each of the mixing processing units 1 1 to 1 k subtracts the input audio signal from the addition signal having the same sampling frequency, and encodes the audio signal obtained as a result of the subtraction.
  • each of the mixing processing units 1 1 to 1 k converts the sampling frequency of the added audio signal in the same band into a sampling frequency that can be processed by another mixing processing unit, and is generated by the own processing unit.
  • a plurality of different band audios It is possible to mix signals. Therefore, for example, a multipoint conference service can be provided between terminals that transmit and receive audio signals in different bands, such as terminals that use telephone bands and terminals that use broadband.
  • each of the mixing processing units 1 1 to 1 k has been converted into the added audio signal of the same band generated by the own processing unit and the sampling frequency of the own processing unit supplied from another mixing processing unit.
  • a pseudo audio signal having a predetermined high frequency component may be added to the added signal.
  • audio mixing apparatus of the present embodiment is an example of the present invention, and the configuration and operation thereof can be changed as appropriate without departing from the spirit of the invention.
  • the mixing processing units 1 1 to 1 k are the audio signals output from the all signal adding units 15 1 to 15 k or the audio data obtained by encoding the output audio signals. May be the respective output signals.
  • the encoding units of the mixing processing units 1 1 to 1 k (for example, encoding units 17 1 to 17 k , 27 1 to 27 k , 37 1 to 37 k, etc.) However, it may be a predictive encoder.
  • the decoding unit and the signal classification unit may be provided in the audio mixing apparatus or may be provided in the reception unit.
  • the multipoint conference server shown in FIG. 2 can be realized by a computer system operated by a program.
  • the main parts of this computer system are storage devices that store programs and data, input devices such as keyboards and mice, display devices such as LCD (Liquid Crystal Display), communication devices such as modems that communicate with the outside, printers It consists of a control device (CPU: Central Processing Unit) that operates according to the program stored in the storage device and the output device, and receives the input from the input device and controls the operation of the communication device, output device, and display device.
  • a program for causing the CPU to execute the mixing process shown in FIG. 3 is stored in the storage device.
  • This program may be provided through a recording medium or the Internet.
  • a program for causing a DSP (Digital Signal Processor) to execute the mixing process shown in FIG. 3 can be provided as a program.
  • DSP Digital Signal Processor
  • a multipoint conference service can be provided between terminals that transmit and receive audio (sound) signals in different bands. Therefore, it is possible to improve convenience in the multipoint audio conference service.
  • the present invention can be applied not only to a system that provides a multipoint conference service, but also to all devices that perform audio mixing.
  • the present invention can be applied to a system that provides various media services realized by MRF (Media Resource Function) defined by 3GPP and MRCF (Media Resource Control Function) corresponding to a call control unit. it can.
  • MRF Media Resource Function
  • MRCF Media Resource Control Function
  • the MRF and MRCF are used to realize the function of a so-called multipoint control unit (MCU) of a multipoint conference system.
  • MCU multipoint control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声ミキシング装置は、サンプリング周波数別に設けられたミキシング処理部11~1kからなる。ミキシング処理部11~1kのそれぞれは、同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を上記他のミキシング処理部に供給し、自処理部で生成した上記第1の加算音声信号と、上記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた上記第1の加算音声信号とを加算して第2の加算音声信号を生成する。

Description

音声ミキシング装置および方法ならびに多地点会議サーバ
 本発明は、複数の音声信号をミキシングする技術に関し、特に、多地点会議サービスを提供するサーバ等において用いられる音声信号のミキシング技術に関する。
 多地点会議サービスを提供するシステムとして、特開2000-175170号公報に記載の多地点テレビ会議システムがある。この多地点テレビ会議システムは、複数の会議端末と、これら会議端末が接続される多地点制御装置とからなる。会議端末が参加者に割り当てられる。
 この多地点テレビ会議システムでは、各会議端末が、自端末にて検出した音響(音声)に関する音響信号を多地点制御装置に送信する。多地点制御装置は、各会議端末から受信した音響信号を加算する。そして、多地点制御装置は、会議端末のそれぞれに対して、加算した音響信号から当該会議端末から受信した音響信号を減算し、その減算結果として得られる音響信号を符号化し、その符号化した音響信号を当該会議端末に送信する。
 ところで、多地点制御装置は、回線交換網、モバイル網、パケット網等の種々の通信網に適用することが可能である。回線交換網では、ITU‐T(Telecommunication Union Telecommunication Standardization Sector)勧告のH.323やH.324により規定される通信プロトコルが用いられる。モバイル網では、3G-324Mにより規定される通信プロトコルが用いられる。IP(Internet Protocol)に基づくパケット網では、IETF(The Internet Engineering Task Force)のRFC3550RTPが用いられる。「RFC」は「Request for Comments」の略であり、「RTP」は「Real-time Transport Protocol」の略である。
 また、多地点制御装置には、サンプリング周波数が8kHzで、帯域が3.4kHzの電話帯域音声向けの音声符号化器を搭載するものや、サンプリング周波数が16kHzで、帯域が7kHzの広帯域音声向けの音声符号化器を搭載するものなどがある。電話帯域音声向けの音声符号化器として、ITU‐T勧告のG.711やG.729,3GPPで採用されているAMR(Adaptive Multi-Rate)方式のものや、3GPP2で採用されているEVRC(Enhanced Variable Rate Codec)方式のものなどが用いられる。広帯域音声向けの音声符号化器として、ITU‐T勧告によるG.722や3GPP TS26.190で規定されているAMR‐WB(Wide Band)方式のものが用いられる。さらに、MPEG‐4AAC(Advanced Audio Coding)などのコーデックを用いることで、より広帯域な音声信号を扱うことが可能である。
 多地点会議サービスを利用する上での利便性を考慮すると、電話帯域を利用する端末や広帯域を利用する端末といった、異なる帯域の音声(音響)信号を送受信する端末間においても多地点会議サービスを提供できることが望ましい。しかしながら、上述した多地点制御装置は、電話帯域音声向け、または、広帯域音声向け、といったように、単一の帯域の音声信号にしか対応していないため、異なる帯域の音声信号を送受信する端末間における多地点会議サービスを提供することは困難である。
 本発明の目的は、上記課題を解決し、サンプリング周波数が異なる複数の帯域の音声信号をミキシングすることができる、音声ミキシング装置、音声ミキシング方法および多地点会議サーバを提供することにある。
 上記目的を達成するため、本発明の音声ミキシング装置は、
 サンプリング周波数別に設けられた複数のミキシング処理部からなり、
 前記複数のミキシング処理部のそれぞれは、
 同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
 自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、ことを特徴とする。
 本発明の音声ミキシング方法は、
 サンプリング周波数が異なる複数の入力音声信号をサンプリング周波数別に複数のグループに分類する第1のステップと、
 前記第1のステップで分類したグループ毎に、同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第2のステップと、
 前記第1のステップで分類したグループ毎に、自グループで生成した前記第1の加算音声信号と、前記他のグループから割り当てられる、自グループでの処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する第3のステップと、を含むことを特徴とする。
 本発明の多地点会議サーバは、複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
 前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
 サンプリング周波数別に設けられた複数のミキシング処理部と、を有し、
 前記複数のミキシング処理部のそれぞれは、
 同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
 自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、ことを特徴とする。
本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。 図1に示す音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。 図1に示す音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。
符号の説明
1~1k ミキシング処理部
101~10n、201~20n、301~30n 音声信号入力端子
131~13k グループ信号加算部
141~14k-1、121~12k-1、131~13k-1 サンプリング変換部
151~15k 全信号加算部
161~16n、261~26n、361~36n 信号減算部
171~17n、271~27n、371~37n 符号化部
191~19n、291~29n、391~39n 音声信号出力端子
 次に、本発明の実施形態について図面を参照して説明する。
 図1は、本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。
 図1に示す音声ミキシング装置は、多地点制御装置である多地点会議サーバに搭載されるものであって、k個のミキシング処理部11~1kを有する。多地点会議サーバは、サンプリング周波数の異なる複数の帯域の音声信号を受信することが可能とされており、ミキシング処理部は、その帯域毎に設けられている。すなわち、ミキシング処理部11~1kの数は、多地点会議サーバで取り扱うことができる帯域の最大数に対応する。ここでは、多地点会議サーバは、k個の異なる帯域B1~Bkの音声信号を受信するように構成されており、受信した音声信号が帯域別に設けられたミキシング処理部11~1kに供給される。
 本実施形態の音声ミキシング装置の詳細な構成を説明する前に、本実施形態の音声ミキシング装置を搭載する多地点会議サーバの構成について簡単に説明する。
 図2は、図1に示した音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。この多地点会議システムは、複数の端末200と、これら端末200が伝送路300を介して接続される多地点会議サーバ100とを有する。
 伝送路300は、回線交換網、モバイル網、パケット網等の複数の通信網を含む。端末200と多地点会議サーバ100の間において音声信号を送受信する際に、それぞれの通信網のプロトコルを通じて、音声信号の呼接続情報(音声信号を送信した端末のアドレス情報、帯域の情報、サンプリング周波数の情報などを含む)が多地点会議サーバ100に供給される。
 複数の端末200は、伝送路300を介して送受信される音声信号の帯域およびサンプリング周波数が異なる複数の端末を含む。例えば、サンプリング周波数が8kHzで、帯域が3.4kHzの電話帯域音声向けの端末や、サンプリング周波数が16kHzで、帯域が7kHzの広帯域音声向けの端末などが、端末200として用いられる。なお、各端末200の構成は基本的に同じである。
 端末200は、AD変換部201、符号化部202、送信部203、DA変換部204、復号部205および受信部206からなる。
 AD変換部201は、マイクロホン207からの音声信号(アナログ信号)をデジタル信号に変換する。符号化部202は、AD変換部201から供給された音声信号(デジタル信号)を符号化する。送信部203は、符号化部202から供給された符号化音声信号を、伝送路300を介して多地点会議サーバ100へ送信する。
 受信部206は、多地点会議サーバ100からの符号化音声信号(デジタル信号)を、伝送路300を介して受信する。復号部205は、受信部206から供給される符号化音声信号を復号する。DA変換部204は、復号部205からの復号音声信号(デジタル信号)をアナログ信号に変換する。アナログ信号に変換された音声信号は、DA変換部204からスピーカ208に供給される。
 多地点会議サーバ100は、受信部101、複数の復号部102、信号分類部103、音声ミキシング装置104および送信部105を有する。音声ミキシング装置104は、図1に示した音声ミキシング装置である。
 受信部101は、各端末200からの音声信号を、伝送路300を介して受信する。受信した音声信号は、受信部101から複数の復号部102のいずれかに供給される。復号部102は、受信部101から供給された音声信号を復号する。復号された音声信号は、復号部102から信号分類部103に供給される。
 信号分類部103は、復号部102から供給された復号音声信号を、該復号音声信号のサンプリング周波数に応じて、図1に示したミキシング処理部11~1kのうちの対応するミキシング処理部に供給する。また、信号分類部103は、音声ミキシング装置104から供給された音声信号を送信部105に供給する。復号音声信号のサンプリング周波数は、受信部101が音声信号を受信した際に得られる呼制御情報から得ることができる。
 送信部105は、信号分類部103から供給された音声信号を、伝送路300を介して、複数の端末200のうちの対応する端末へ送信する。受信部101が音声信号を受信した際に得られる呼制御情報に基づいて、送信先となる端末を識別することができる。
 音声ミキシング装置104は、信号分類部103から供給される、サンプリング周波数別に分類された複数の音声信号をミキシングして符号化し、符号化した音声信号を信号分類部103に供給する。
 以下、図1を参照して音声ミキシング装置104の構成を具体的に説明する。
 音声ミキシング装置104は、ミキシング処理部11~1kからなる。ミキシング処理部11~1kは、基本的に同じ構成である。便宜上、図1には、ミキシング処理部11、ミキシング処理部12およびミキシング処理部1kについての具体的な構成が示されている。
 [ミキシング処理部11の構成]
 ミキシング処理部11は、音声信号入力端子101~10n、グループ信号加算部131、サンプリング変換部141~14k-1、全信号加算部151、信号減算部161~16n、符号化部171~17n、および音声信号出力端子191~19nを有する。
 帯域B1の音声信号は、音声信号入力端子101~10nに割り振られる。例えば、帯域B1の音声信号として、n個の音声信号を受信した場合は、音声信号入力端子101~10nのそれぞれに受信音声信号が供給される。
 音声信号入力端子101からの音声信号は、信号減算部161の第1の入力に供給されるとともに、グループ信号加算部131に供給される。これと同様に、音声信号入力端子102~10nからの音声信号は、信号減算部162~16nの第1の入力に供給されるとともに、グループ信号加算部131に供給される。
 グループ信号加算部131は、音声信号入力端子101~10nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部131の出力は、サンプリング変換部141~14k-1および全信号加算部151に供給される。
 サンプリング変換部141~14k-1は、帯域B1を除く他の帯域B2~Bkに対応して設けられている。サンプリング変換部141は、グループ信号加算部131から供給された音声信号(加算結果)のサンプリング周波数を、帯域B2の音声信号のサンプリング周波数に一致するように変換する。例えば、帯域B1の音声信号のサンプリング周波数が8kHzであり、帯域B2の音声信号のサンプリング周波数が16kHzである場合は、サンプリング変換部141は、グループ信号加算部131からの音声信号のサンプリング周波数を、8kHzから16kHzに変換する。これと同様に、サンプリング変換部142~14k-1も、グループ信号加算部131からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
 サンプリング変換部141の出力は、帯域B2に対応するミキシング処理部12の全信号加算部に供給される。これと同様に、サンプリング変換部142~14k-1の出力は、帯域B3~Bkに対応するミキシング処理部13~1kの全信号加算部に供給される。
 全信号加算部151は、グループ信号加算部131からの音声信号と他のミキシング処理部12~1kの各グループ信号加算部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部151の出力は、信号減算部161~16nに供給される。
 信号減算部161は、音声信号入力端子101からの音声信号を第1の入力とし、全信号加算部151からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部161の出力は、符号化部171に供給される。これと同様に、信号減算部162~16nのそれぞれも、音声信号入力端子102~10nのうちの対応する入力端子からの音声信号を第1の入力とし、全信号加算部151からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部162~16nの出力は、符号化部172~17nに供給される。
 符号化部171は、信号減算部161からの音声信号を符号化する。これと同様に、符号化部172~17nも、信号減算部162~16nのうちの対応する信号減算部からの音声信号を符号化する。符号化部171~17nの出力は、音声信号出力端子191~19nに供給される。音声信号出力端子191~19nは、入力された音声信号を図2に示した信号分類部103に供給する。
 [ミキシング処理部12の構成]
 ミキシング処理部12は、音声信号入力端子201~20n、グループ信号加算部132、サンプリング変換部241~24k-1、全信号加算部152、信号減算部261~26n、符号化部271~27n、および音声信号出力端子291~29nを有する。
 帯域B2の音声信号は、音声信号入力端子201~20nに割り振られる。音声信号入力端子201~20nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。
 音声信号入力端子201からの音声信号は、信号減算部261の第1の入力に供給されるとともに、グループ信号加算部132に供給される。これと同様に、音声信号入力端子202~20nからの音声信号は、信号減算部262~26nの第1の入力に供給されるとともに、グループ信号加算部132に供給される。
 グループ信号加算部132は、音声信号入力端子201~20nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部132の出力は、サンプリング変換部241~24k-1および全信号加算部152に供給される。
 サンプリング変換部241~24k-1は、帯域B2を除く他の帯域B1、B3~Bkに対応して設けられている。サンプリング変換部241は、グループ信号加算部132から供給された音声信号(加算結果)のサンプリング周波数を、帯域B1の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部242~24k-1も、グループ信号加算部132からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
 サンプリング変換部241の出力は、帯域B1に対応するミキシング処理部11の全信号加算部に供給される。これと同様に、サンプリング変換部242~24k-1の出力は、帯域B3~Bkに対応するミキシング処理部13~1kの全信号加算部に供給される。
 全信号加算部152は、グループ信号加算部132からの音声信号と他のミキシング処理部11、13~1kの各グループ信号加算部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部152の出力は、信号減算部261~26nに供給される。
 信号減算部261は、音声信号入力端子201からの音声信号を第1の入力とし、全信号加算部152からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部261の出力は、符号化部271に供給される。これと同様に、信号減算部262~26nのそれぞれも、音声信号入力端子202~20nのうちの対応する音声信号入力端からの音声信号を第1の入力とし、全信号加算部152からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部262~26nの出力は、符号化部272~27nに供給される。
 符号化部271は、信号減算部261からの音声信号を符号化する。これと同様に、符号化部272~27nも、信号減算部262~26nのうちの対応する信号減算部からの音声信号を符号化する。符号化部271~27nの出力は、音声信号出力端子291~29nに供給される。音声信号出力端子291~29nは、入力された音声信号を図2に示した信号分類部103に供給する。
 [ミキシング処理部1kの構成]
 ミキシング処理部1kは、音声信号入力端子301~30n、グループ信号加算部13k、サンプリング変換部341~34k-1、全信号加算部15k、信号減算部361~36n、符号化部371~37n、および音声信号出力端子391~39nを有する。
 帯域Bkの音声信号は、音声信号入力端子301~30nに割り振られる。音声信号入力端子301~30nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。
 音声信号入力端子301からの音声信号は、信号減算部361の第1の入力に供給されるとともに、グループ信号加算部13kに供給される。これと同様に、音声信号入力端子302~30nからの音声信号は、信号減算部362~36nの第1の入力に供給されるとともに、グループ信号加算部13kに供給される。
 グループ信号加算部13kは、音声信号入力端子301~30nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部13kの出力は、サンプリング変換部341~34k-1および全信号加算部15kに供給される。
 サンプリング変換部341~34k-1は、帯域Bkを除く他の帯域B1~Bk-1に対応して設けられている。サンプリング変換部341は、グループ信号加算部13kから供給された音声信号(加算結果)のサンプリング周波数を、帯域B1の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部342~34k-1も、グループ信号加算部13kからの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
 サンプリング変換部341の出力は、帯域B1に対応するミキシング処理部11の全信号加算部に供給される。これと同様に、サンプリング変換部342~34k-1の出力は、帯域B1~Bk-1に対応するミキシング処理部11~1k-1の全信号加算部に供給される。
 全信号加算部15kは、グループ信号加算部13kからの音声信号と他のミキシング処理部11~1k-1の各グループ信号加算部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部15kの出力は、信号減算部361~36nに供給される。
 信号減算部361は、音声信号入力端子301からの音声信号を第1の入力とし、全信号加算部15kからの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。これと同様に、信号減算部362~36nのそれぞれも、音声信号入力端子302~30nのうちの対応する音声信号入力端子からの音声信号を第1の入力とし、全信号加算部15kからの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部361~36nの出力は、符号化部371~37nに供給される。
 符号化部371は、信号減算部361からの音声信号を符号化する。これと同様に、符号化部372~37nも、信号減算部362~36nのうちの対応する信号減算部からの音声信号を符号化する。符号化部371~37nの出力は、音声信号出力端子391~39nに供給される。音声信号出力端子391~39nに入力された音声信号は、図2に示した信号分類部103に供給される。
 他のミキシング処理部13~1k-1の構成も、基本的に、上述したミキシング処理部11、12、1kの構成と同じである。
 次に、本実施形態の音声ミキシング装置の動作について詳細に説明する。
 図3は、図1に示した音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。
 ミキシング処理部11~1kの動作は基本的に同じである。ここでは、図2に示した信号分類部103が、帯域B1~Bkの音声信号をミキシング処理部11~1kに供給した場合におけるミキシング処理部11の動作について、図1および図3を参照して説明する。なお、帯域B1~Bkの音声信号のサンプリング周波数はそれぞれサンプリング周波数F1~Fkとする。
 帯域B1の音声信号として、サンプリング周波数F1の複数の音声信号S1~Snが音声信号入力端子101~10nに供給される(ステップS10)。音声信号入力端子101~10nからの音声信号S1~Snは、信号減算部161~16nの第1の入力に供給されるとともに、グループ信号加算部131の第1の入力に供給される。
 次に、グループ信号加算部131が、音声信号入力端子101~10nからの音声信号S1~Snを加算して第1の加算音声信号を生成する(ステップS11)。第1の加算音声信号は、サンプリング変換部141~14k-1および全信号加算部151に供給される。
 次に、サンプリング変換部141が、グループ信号加算部131から供給された同一帯域の第1の加算音声信号のサンプリング周波数F1をサンプリング周波数F2に変換する。これと同様に、サンプリング変換部142~14k-1が、グループ信号加算部131から供給された同一帯域の第1の加算音声信号のサンプリング周波数F1をサンプリング周波数F3~Fkのうちの対応するサンプリング周波数に変換する。サンプリング変換部141~14k-1にてサンプリング周波数が他の帯域のサンプリング周波数に変換された同一帯域の第1の加算音声信号は、他のミキシング処理部12~1kの全信号加算部152~15kに供給される(ステップS12)。
 次に、全信号加算部151が、グループ信号加算部131から供給された同一帯域の第1の加算音声信号と、他のミキシング処理部12~1kからの、サンプリング周波数が変換された他の同一帯域の第1の加算音声信号とを加算して、同一サンプリング周波数F1の第2の加算音声信号を出力する(ステップS13)。全信号加算部151から出力された同一サンプリング周波数F1の第2の加算音声信号は、信号減算部161~16nに供給される。
 次に、信号減算部161が、全信号加算部151からの第2の加算音声信号(第2の入力)から音声信号入力端子101からの入力音声信号(第1の入力)を差し引いた音声信号を出力する。そして、符号化部171が、信号減算部161からの音声信号を符号化する。これと同様に、信号減算部162~16nのそれぞれが、全信号加算部151からの第2の加算音声信号(第2の入力)から、音声信号入力端子102~10nのうちの対応する入力端子からの音声信号(第1の入力)を差し引いた音声信号を出力する。そして、符号化部172~17nが、信号減算部162~16nからの音声信号を符号化する(ステップS14)。
 符号化部171~17nの出力は、音声信号出力端子192~19nを介して図2に示した信号分類部103に供給される(ステップS15)。
 他のミキシング処理部12~1kにいても、上述のステップS10~S15と同様な手順で、音声ミキシング処理が行われる。
 次に、本実施形態の音声ミキシング装置の各ミキシング処理部の動作について、サンプリング周波数の具体的な数値を挙げて説明する。
 図2に示した複数の端末200が、サンプリング周波数が8kHzである音声信号(例えば、G.729方式やAMR方式の音声データ)を送受信する第1の端末グループと、サンプリング周波数が16kHzである音声信号(例えば、G.722方式やAMR‐WB方式の音声データ)を送受信する第2の端末グループと、サンプリング周波数が32kHzである音声信号(例えば、AAC方式の音声データ)を送受信する第3の端末グループとを含む。
 第1の端末グループからの音声信号はミキシング処理部11に供給され、第2の端末グループからの音声信号はミキシング処理部12に供給され、第3の端末グループからの音声信号はミキシング処理部13に供給される。
 ミキシング処理部11では、図3に示した手順で、第1の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部141が、グループ信号加算部131からの同一帯域の加算音声信号のサンプリング周波数8kHzを、ミキシング処理部12での処理が可能なサンプリング周波数16kHzに変換する。
 上記のサンプリング周波数8kHzからサンプリング周波数16kHzへのアップサンプリング変換では、例えば、サンプリング周波数8kHzの音声信号の各サンプルの間に値が0のサンプルを1つ挿入することにより、サンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数16kHzの音声信号を得る。
 また、サンプリング変換部142が、グループ信号加算部131からの同一帯域の加算音声信号のサンプリング周波数8kHzを、ミキシング処理部13での処理が可能なサンプリング周波数32kHzに変換する。
 上記のサンプリング周波数8kHzからサンプリング周波数32kHzへのアップサンプリング変換では、例えば、サンプリング周波数8kHzの音声信号の各サンプルの間に値が0のサンプルを3つ挿入することにより、サンプル数を4倍にした音声信号を生成する。そして、その生成した音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数32kHzの音声信号を得る。
 上述のサンプリング変換の詳細については、例えば、文献「J.O.Smith, "A Flexible Sampling-Rate Conversion Method," Proc. IEEEICASSP '84 Vol. 9, Part 1, pp.112-115.」を参照できる。
 なお、アップサンプリング変換を行う際に、帯域が異なる音声信号をミキシングすることで生じる違和感を避けるために、例えば、高域に擬似的な信号を付加する帯域拡張処理を施してもよい。帯域拡張処理の詳細については、例えば、文献「Yan Ming Cheng, O'Shaughnessy and D. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband speech," Speech and Audio Processing, IEEE Transactions on Volume 2, Issue 4, Oct. 1994 pp.544-548.」を参照できる。
 ミキシング処理部12でも、図3に示した手順で、第2の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部241が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数16kHzを、ミキシング処理部11での処理が可能なサンプリング周波数8kHzに変換する。
 上記のサンプリング周波数16kHzからサンプリング周波数8kHzへのダウンサンプリング変換では、例えば、サンプリング周波数16kHzの音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、1サンプル毎に間引くことにより、サンプリング周波数が8kHzの音声信号を得る。
 また、サンプリング変換部242が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数16kHzを、ミキシング処理部13での処理が可能なサンプリング周波数32kHzに変換する。
 上記のサンプリング周波数16kHzからサンプリング周波数32kHzへのアップサンプリング変換では、例えば、16kHzサンプリングの音声信号の各サンプルの間に値が0のサンプルを1つ挿入することによりサンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数8kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数が32kHzの音声信号を得る。
 ミキシング処理部13でも、図3に示した手順で、第3の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部341が、グループ信号加算部133からの同一帯域の加算音声信号のサンプリング周波数32kHzを、ミキシング処理部11での処理が可能なサンプリング周波数8kHzに変換する。
 上記のサンプリング周波数32kHzからサンプリング周波数8kHzへのダウンサンプリング変換では、例えば、サンプリング周波数が32kHzの音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、3サンプル毎に間引くことにより、サンプリング周波数が8kHzの音声信号を得る。
 また、サンプリング変換部342が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数32kHzを、ミキシング処理部12での処理が可能なサンプリング周波数16kHzに変換する。
 上記のサンプリング周波数32kHzからサンプリング周波数16kHzへのダウンサンプリング変換では、例えば、サンプリング周波数が32kHzの音声信号を、周波数8kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、1サンプル毎に間引くことにより、サンプリング周波数が16kHzの音声信号を得る。
 上述のようなサンプリング周波数の変換処理により、帯域別に設けられた各ミキシング処理部において、自処理部に供給された音声信号と、他のミキシング処理部に供給された音声信号とのミキシングを行うことができる。
 以上説明したように、本実施形態の音声ミキシング装置では、ミキシング処理部11~1kのそれぞれが、入力された同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換する。さらに、ミキシング処理部11~1kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算して、同一サンプリング周波数の加算信号を生成する。そして、ミキシング処理部11~1kのそれぞれが、同一サンプリング周波数の加算信号から入力音声信号を減算し、その減算結果として得られた音声信号を符号化する。
 上記の構成によれば、ミキシング処理部11~1kのそれぞれが、同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換するとともに、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算することで、複数の異なる帯域の音声信号をミキシングすることが可能となっている。したがって、例えば、電話帯域を利用する端末や広帯域を利用する端末、といった異なる帯域の音声信号を送受信する端末間において、多地点会議サービスを提供することができる。
 また、ミキシング処理部11~1kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算する際に、その加算信号に、予め定められた高域成分を有する擬似音声信号を付加してもよい。これにより、アップサンプリング変換を行う際の、帯域が異なる音声信号をミキシングすることで生じる違和感を避けることができ、低いサンプリング周波数の信号の音質を改善することができる。
 上述した本実施形態の音声ミキシング装置は、本発明の一例であり、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。
 例えば、図1に示した音声ミキシング装置において、ミキシング処理部11~1kは、全信号加算部151~15kから出力される音声信号、または、その出力音声信号を符号化した音声データを、それぞれの出力信号としてもよい。
 また、図1に示した音声ミキシング装置において、ミキシング処理部11~1kの各符号化部(例えば、符号化部171~17k、271~27k、371~37kなど)が、予測符号化器であってもよい。
 また、図1および図2に示した構成において、復号部や信号分類部は、音声ミキシング装置内に設けられてもよく、また、受信部に設けられてもよい。
 また、図2に示した多地点会議サーバは、プログラムにより動作するコンピュータシステムより実現することができる。このコンピュータシステムの主要部は、プログラムやデータなどを蓄積する記憶装置、キーボードやマウスなどの入力装置、LCD(Liquid Crystal Display)などの表示装置、外部との通信を行うモデムなどの通信装置、プリンタなどの出力装置、および記憶装置に格納されたプログラム従って動作し、入力装置からの入力を受け付けて通信装置、出力装置、表示装置の動作を制御する制御装置(CPU:Central Processing Unit)から構成される。プログラムとして、図3に示したミキシング処理をCPUに実行させるためのプログラムが記憶装置に格納される。このプログラムは、記録媒体やインターネットを通じて提供されてもよい。また、プログラムとして、図3に示したミキシング処理をDSP(Digital Signal Processor)に実行させるためのプログラムを提供することもできる。
 以上説明した本発明によれば、サンプリング周波数が異なる複数の帯域の音声信号を混在させた音声ミキシングを行うことが可能であるので、例えば、電話帯域を利用する端末や広帯域を利用する端末、といった異なる帯域の音声(音響)信号を送受信する端末間においても多地点会議サービスを提供できる。したがって、多地点音声会議サービスにおける利便性の向上を図ることができる。
 本発明は、多地点会議サービスを提供するシステムの他、音声ミキシングを行う装置全般に適用することができる。例えば、本発明は、3GPPにて規定されたMRF(Media Resource Function)と呼制御部に相当するMRCF(Media Resource Control Function)によって実現される、種々のメディアサービスを提供するシステムに適用することができる。MRFおよびMRCFは、所謂、多地点会議システムの多地点制御装置(MCU:Multi-Point Control Unit)の機能を実現するために用いられている。
 以上、実施形態を参照して本発明を説明したが、本発明は上述した実施形態に限定されるものではない。本発明の構成及び動作については、本発明の趣旨を逸脱しない範囲において、当業者が理解し得る様々な変更を行うことができる。
 この出願は、2008年2月4日に出願された日本出願特願2008-23976を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (8)

  1.  サンプリング周波数別に設けられた複数のミキシング処理部からなり、
     前記複数のミキシング処理部のそれぞれは、
     同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
     自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、音声ミキシング装置。
  2.  前記複数のミキシング処理部のそれぞれは、前記同一サンプリング周波数の入力音声信号毎に、前記第2の加算音声信号から該入力音声信号を差し引いた減算音声信号を生成し、該減算音声信号を符号化する、請求の範囲第1項に記載の音声ミキシング装置。
  3.  前記複数のミキシング処理部のそれぞれは、予め定められた高域成分を有する擬似音声信号を前記第2の加算音声信号に加える、請求の範囲第1項または第2項に記載の音声ミキシング装置。
  4.  前記複数のミキシング処理部のそれぞれは、
     前記同一サンプリング周波数の入力音声信号を加算して前記第1の加算音声信号を生成するグループ信号加算部と、
     前記グループ信号加算部にて生成された前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して前記第2の加算音声信号を生成する全信号加算部と、
     前記同一サンプリング周波数の入力音声信号毎に設けられ、該入力音声信号が第1の入力として供給され、前記全信号加算部で生成された前記第2の加算音声信号が第2の入力として供給され、該第2の入力から該第1の入力を減算する複数の信号減算器と、
     前記複数の信号減算器から出力された音声信号をそれぞれ符号化する複数の符号化部と、を有する、請求の範囲第1項乃至第3項のいずれかに記載の音声ミキシング装置。
  5.  サンプリング周波数が異なる複数の入力音声信号をサンプリング周波数別に複数のグループに分類する第1のステップと、
     前記第1のステップで分類したグループ毎に、同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第2のステップと、
     前記第1のステップで分類したグループ毎に、自グループで生成した前記第1の加算音声信号と、前記他のグループから割り当てられる、自グループでの処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する第3のステップと、を含む、音声ミキシング方法。
  6.  前記第1のステップで分類したグループのそれぞれにおいて、前記同一サンプリング周波数の入力音声信号毎に、前記第2の加算音声信号から該入力音声信号を差し引いた減算音声信号を生成し、該減算音声信号を符号化するステップを、さらに含む、請求の範囲第5項に記載の音声ミキシング方法。
  7.  前記第1のステップで分類したグループのそれぞれにおいて、予め定められた高域成分を有する擬似音声信号を前記第2の加算音声信号に加えるステップを、さらに含む、請求の範囲第5項または第6項に記載の音声ミキシング方法。
  8.  複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
     前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
     サンプリング周波数別に設けられた複数のミキシング処理部と、を有し、
     前記複数のミキシング処理部のそれぞれは、
     同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
     自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、多地点会議サーバ。
PCT/JP2009/051302 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ WO2009098975A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US12/812,135 US8489216B2 (en) 2008-02-04 2009-01-28 Sound mixing apparatus and method and multipoint conference server
CN2009801029381A CN101926159A (zh) 2008-02-04 2009-01-28 声音混合装置和方法以及多点会议服务器
JP2009552440A JP5158099B2 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ
EP09709003A EP2239931A4 (en) 2008-02-04 2009-01-28 LANGUAGE MIXER AND METHOD AND MULTIPORT CONFERENCE SERVER

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008023976 2008-02-04
JP2008-023976 2008-02-04

Publications (1)

Publication Number Publication Date
WO2009098975A1 true WO2009098975A1 (ja) 2009-08-13

Family

ID=40952053

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/051302 WO2009098975A1 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ

Country Status (5)

Country Link
US (1) US8489216B2 (ja)
EP (1) EP2239931A4 (ja)
JP (1) JP5158099B2 (ja)
CN (1) CN101926159A (ja)
WO (1) WO2009098975A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016092679A (ja) * 2014-11-07 2016-05-23 沖電気工業株式会社 音声処理装置、プログラム及び方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103259943B (zh) * 2012-02-21 2015-04-22 深圳市东进软件开发有限公司 一种pstn电话会议混音方法
CN104427389B (zh) * 2013-08-27 2018-06-26 广州艾缔亿生物科技有限公司 基于多媒体内容投入式声音信号的广告***及方法
GB2524984B (en) * 2014-04-08 2018-02-07 Acano (Uk) Ltd Audio mixer

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63314946A (ja) * 1987-06-17 1988-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声加算方式
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
JP2000069179A (ja) * 1998-08-19 2000-03-03 Sony Corp 多地点会議装置及びその方法並びに多地点会議用端末装置
JP2000175170A (ja) 1998-12-04 2000-06-23 Nec Corp 多地点テレビ会議システム及びその通信方法
JP2005229259A (ja) * 2004-02-12 2005-08-25 Nippon Telegr & Teleph Corp <Ntt> 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2102857C (en) * 1992-12-31 1998-06-23 Alexander Feiner Technique for reducing echoes in conference communications
US5621805A (en) * 1994-06-07 1997-04-15 Aztech Systems Ltd. Apparatus for sample rate conversion
US5647008A (en) * 1995-02-22 1997-07-08 Aztech Systems Ltd. Method and apparatus for digital mixing of audio signals in multimedia platforms
JP3592879B2 (ja) 1997-02-20 2004-11-24 京セラ株式会社 音声情報通信システム及び多地点制御装置
US5907295A (en) * 1997-08-04 1999-05-25 Neomagic Corp. Audio sample-rate conversion using a linear-interpolation stage with a multi-tap low-pass filter requiring reduced coefficient storage
JPH11213558A (ja) * 1998-01-27 1999-08-06 Toshiba Corp 音声データ処理装置およびコンピュータシステム並びに音声データ処理方法
US7369665B1 (en) * 2000-08-23 2008-05-06 Nintendo Co., Ltd. Method and apparatus for mixing sound signals
US6889182B2 (en) 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US7409056B2 (en) * 2002-12-16 2008-08-05 Broadcom Corporation Switchboard for dual-rate single-band communication system
JP2005020639A (ja) 2003-06-30 2005-01-20 Nec Engineering Ltd 衛星を利用した多地点テレビ会議システム
JP4305307B2 (ja) * 2004-07-13 2009-07-29 ヤマハ株式会社 ミキサ構成をプログラム可能なディジタルミキサ、ミキサ構成編集装置、及び、ディジタルミキサの制御を行う制御アプリケーションプログラム
JP4250578B2 (ja) 2004-09-07 2009-04-08 株式会社リコー 音声オーディオ装置
US20080215681A1 (en) * 2006-05-01 2008-09-04 Thomas Darcie Network architecture for multi-user collaboration and data-stream mixing and method thereof
US8334891B2 (en) * 2007-03-05 2012-12-18 Cisco Technology, Inc. Multipoint conference video switching
JP5239453B2 (ja) * 2008-03-31 2013-07-17 ヤマハ株式会社 編集装置及び音響信号処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63314946A (ja) * 1987-06-17 1988-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声加算方式
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
JP2000069179A (ja) * 1998-08-19 2000-03-03 Sony Corp 多地点会議装置及びその方法並びに多地点会議用端末装置
JP2000175170A (ja) 1998-12-04 2000-06-23 Nec Corp 多地点テレビ会議システム及びその通信方法
JP2005229259A (ja) * 2004-02-12 2005-08-25 Nippon Telegr & Teleph Corp <Ntt> 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. O. SMITH: "A Flexible Sampling-Rate Conversion Method", PROC. IEEEICASSP '84, vol. 9, pages 112 - 115
See also references of EP2239931A4
YAN MING CHENG; O'SHAUGHNESSY; D. IVIERMEISTEIN: "Statistical Recovery of Wideband Speech from Narrowband speech", SPEECH AND AUDIO PROCESSING, IEEE TRANSACTIONS, vol. 2, 4 October 1994 (1994-10-04), pages 544 - 548

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016092679A (ja) * 2014-11-07 2016-05-23 沖電気工業株式会社 音声処理装置、プログラム及び方法

Also Published As

Publication number Publication date
US20100290645A1 (en) 2010-11-18
US8489216B2 (en) 2013-07-16
JP5158099B2 (ja) 2013-03-06
JPWO2009098975A1 (ja) 2011-05-26
EP2239931A1 (en) 2010-10-13
CN101926159A (zh) 2010-12-22
EP2239931A4 (en) 2012-01-11

Similar Documents

Publication Publication Date Title
KR101036965B1 (ko) 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체
US7987095B2 (en) Method and system for dual mode subband acoustic echo canceller with integrated noise suppression
US20060282265A1 (en) Methods and apparatus to perform enhanced speech to text processing
JP5158099B2 (ja) 音声ミキシング装置および方法ならびに多地点会議サーバ
US9961209B2 (en) Codec selection optimization
US8358600B2 (en) Method of transmitting data in a communication system
US20130066641A1 (en) Encoder Adaption in Teleconferencing System
Cox et al. Itu-t coders for wideband, superwideband, and fullband speech communication [series editorial]
JP5158098B2 (ja) 音声ミキシング装置および方法ならびに多地点会議サーバ
Valin et al. Requirements for an Internet Audio Codec
Chinna Rao et al. Real-time implementation and testing of VoIP vocoders with asterisk PBX using wireshark packet analyzer
US7715365B2 (en) Vocoder and communication method using the same
US20160019903A1 (en) Optimized mixing of audio streams encoded by sub-band encoding
US7619994B2 (en) Adapter for use with a tandem-free conference bridge
Varun et al. Transcoding of Voice Codecs G. 711 to G. 729 and Vice-versa Implementation on FPGA
Luksa et al. Sound quality assessment in VOIP environment
Seung-Han et al. The development of HD-VoIP application with G. 711.1 for smartphone
Varga On Development of New Audio Codecs
Valin et al. RFC 6366: Requirements for an Internet Audio Codec
CN114927138A (zh) 网络电话处理方法、***、设备及存储介质
Delluza et al. Employing Mean Opinion Score of Audio Lossy Compression Algorithms in VoIP Application
van den Braak et al. FPGA implementation of Voice-over IP

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980102938.1

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09709003

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12812135

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2009709003

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2009552440

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE