WO2012053629A1 - 音声処理装置及び音声処理方法 - Google Patents

音声処理装置及び音声処理方法 Download PDF

Info

Publication number
WO2012053629A1
WO2012053629A1 PCT/JP2011/074255 JP2011074255W WO2012053629A1 WO 2012053629 A1 WO2012053629 A1 WO 2012053629A1 JP 2011074255 W JP2011074255 W JP 2011074255W WO 2012053629 A1 WO2012053629 A1 WO 2012053629A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
voice
output
masker
unit
Prior art date
Application number
PCT/JP2011/074255
Other languages
English (en)
French (fr)
Inventor
小林 詠子
利晃 石橋
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN2011800448169A priority Critical patent/CN103189912A/zh
Priority to US13/822,490 priority patent/US9117436B2/en
Publication of WO2012053629A1 publication Critical patent/WO2012053629A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/46Jamming having variable characteristics characterized in that the jamming signal is produced by retransmitting a received signal, after delay or processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/84Jamming or countermeasure characterized by its function related to preventing electromagnetic interference in petrol station, hospital, plane or cinema
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • H04K1/02Secret communication by adding a second signal to make the desired signal unintelligible
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • the present invention relates to a sound processing apparatus and a sound processing method for collecting sound generated in the surroundings and changing sound to be output based on the collected sound.
  • the sound generated around is collected and processed, and the collected sound and the processed sound are mixed and output from the speaker, so that the sound is different from the sound generated around Has been proposed (see, for example, Patent Document 1).
  • This makes it difficult to hear the voice (for example, the voice of the speaker) generated in the surroundings and masks the voice of the speaker.
  • a certain frequency component of the picked up sound may be amplified and output, and howling may occur. Further, when a voice different from the voice of the speaker is collected, a masker sound that appropriately masks the voice of the target speaker may not be output.
  • an object of the present invention is to provide an audio processing device and an audio processing method that generate an appropriate masker sound while preventing howling.
  • the speech processing apparatus is: An input unit for inputting an audio signal; An analysis unit for analyzing the input audio signal; A storage unit for storing general-purpose masker sounds; Based on the analysis result of the analysis unit, a masker sound generation unit that processes the general-purpose masker sound stored in the storage unit to generate an output masker sound; An output unit for outputting the output masker sound; Is a voice processing apparatus.
  • the analysis unit extracts an audio feature amount of the input audio signal
  • the masker sound generation unit generates the output masker sound by processing the general-purpose masker sound stored in the storage unit based on the voice feature amount.
  • the apparatus further includes a reduction unit that reduces the output masker sound from the input audio signal.
  • the masker sound generation unit compares the analysis result of the analysis unit with the analysis result held in the analysis result holding unit, and when a different analysis result is calculated, based on the analysis result of the analysis unit The generation of the output masker sound is stopped.
  • the output masker sound is composed of a combination of continuously generated sound and intermittently generated sound.
  • the voice processing method of the voice processing apparatus provided with the storage unit that stores the general-purpose masker sound provided by the present invention
  • An input step for inputting an audio signal;
  • An analysis step for analyzing the input audio signal;
  • a masker sound generation step for processing the general-purpose masker sound stored in the storage unit to generate an output masker sound based on the analysis result of the analysis unit;
  • an audio feature amount of the input audio signal is extracted
  • the output masker sound is generated by processing the general-purpose masker sound stored in the storage unit based on the voice feature amount.
  • the method further includes a reduction step of reducing the output masker sound from the input audio signal.
  • the speech processing apparatus further includes an analysis result holding unit that holds the analysis result for a predetermined time
  • the voice processing method includes: In the masker sound generation step, the analysis result of the analysis step is compared with the analysis result held in the analysis result holding unit, and when a different analysis result is calculated, it is based on the analysis result of the analysis step. The generation of the output masker sound is stopped.
  • the output masker sound is composed of a combination of continuously generated sound and intermittently generated sound.
  • FIG. 1A and FIG. 1B are block diagrams showing the configuration of a sound masking system.
  • FIG. 2A is a diagram illustrating frequency characteristics of an audio signal.
  • FIG. 2B is a diagram showing a formant shift process, a level change process, and a bandwidth change process for a disturbing sound.
  • FIG. 3 is a block diagram illustrating a configuration of a sound processing apparatus according to the first modification.
  • FIG. 4 is a block diagram illustrating a configuration of a sound processing apparatus according to the second modification.
  • FIGS. 5A to 5C are diagrams showing a correspondence table of disturbance sound, background sound, and effect sound.
  • FIG. 1A is a block diagram showing a configuration of a sound masking system provided with a sound processing apparatus of the present invention.
  • the sound masking system includes a voice processing device 1, a microphone 11 that collects speaker voice of the speaker 2 and ambient voice, and a speaker 17 that emits masker sound to the listener 3.
  • the voice processing device 1 collects the voice of the speaker 2 via the microphone 11 and emits a masker sound that masks the voice of the speaker 2 to the listener 3 via the speaker 17.
  • the speech processing apparatus 1 includes an A / D conversion unit 12, a speech analysis unit 13, a masker sound generation unit 14, a database 15, and a D / A conversion unit 16.
  • the microphone 11 and the speaker 17 are provided integrally with the sound processing device 1 in FIG. 1A may be used, as in the sound processing device 1 ′ illustrated in FIG. Further, only one of the microphone 11 and the speaker 17 may be provided integrally with the sound processing apparatus 1 of FIG.
  • the microphone 11 picks up sound generated around the apparatus (in this example, mainly the voice of the speaker 2).
  • the voice analysis unit 13 analyzes the input voice signal and extracts a voice feature amount.
  • the voice feature amount is a physical parameter serving as an index for identifying a speaker, and includes, for example, formants and pitches.
  • the formant indicates a plurality of peaks on the frequency spectrum of speech, and is a physical parameter that affects voice quality.
  • the pitch is a physical parameter that represents the pitch (fundamental frequency).
  • the speaker 17 approximates the voice of the speaker 2 and outputs a voice having a different content (for example, lexically meaningless) included as a disturbing sound in the masker sound, the listener 3 It becomes difficult to understand the content of the second statement, and a high mask effect can be expected.
  • a different content for example, lexically meaningless
  • the voice analysis unit 13 first calculates the pitch from the input voice signal.
  • the pitch is calculated from, for example, a zero cross point on the time axis (a point where the amplitude is 0).
  • the voice analysis unit 13 performs frequency analysis (for example, FFT: fast Fourier transform) of the input voice signal and calculates a frequency spectrum.
  • the voice analysis unit 13 detects a frequency peak from the frequency spectrum.
  • the frequency peak is a frequency component whose level is higher than the frequency components before and after in the frequency spectrum, and a plurality of frequency peaks are detected.
  • FIG. 2A since the human voice includes a large number of very fine frequency peaks, only the frequency peak of the envelope component is extracted. This frequency peak becomes a formant.
  • the center frequency, level, bandwidth (half-value width), and the like are extracted. Note that other physical parameters such as the slope of the spectrum may be extracted as the audio feature amount.
  • the voice analysis unit 13 outputs the voice feature amount extracted as described above to the masker sound generation unit 14.
  • the masker sound generation unit 14 generates an output masker sound based on the input voice feature quantity and the sound source data (general-purpose masker sound) stored in the database 15. Specifically, the following processing is performed.
  • the masker sound generation unit 14 reads out general-purpose masker sound data from the database 15.
  • a general-purpose masker sound is a general-purpose sound that can be expected to have a certain degree of mask effect for any speaker. For example, it is voice data in which voices of a plurality of persons including men and women are recorded, and includes disturbing sounds that have no meaning in terms of vocabulary (the contents of conversation cannot be understood).
  • general-purpose masker sounds include background sounds (such as river buzzing) and production sounds (such as bird calls) in addition to disturbing sounds. It may be.
  • the database 15 stores audio signals on the frequency axis (or may be audio signals on the time axis) such as disturbing sounds, background sounds, and production sounds as audio data of general-purpose masker sounds.
  • the masker sound generation unit 14 processes the sound data related to the disturbing sound among the read general-purpose masker sounds based on the sound feature amount input from the sound analysis unit 13. For example, the pitch of the read disturbing sound is converted into the pitch of the input audio signal. In this case, the frequency shift is performed so that the fundamental frequency component of the disturbing sound matches the fundamental frequency component of the input audio signal.
  • each formant component of the disturbing sound is matched with the formant component of the input voice signal.
  • the first formant, the second formant, and the third formant of the disturbing sound have lower center frequencies than the first formant, the second formant, and the third formant of the input sound signal, respectively. Shift to the side.
  • the second formant has a level higher than the level of the input audio signal, processing for lowering the level is performed.
  • the third formant has a level lower than the level of the input audio signal, the level is increased, and the bandwidth is wider than the level of the input audio signal, so that the bandwidth is also reduced. .
  • the fourth formant a process for shifting to the low frequency side is performed and a process for widening the bandwidth is also performed.
  • the first formant to the fourth formant are processed.
  • the order of the formant to be processed is not limited to this example. For example, higher order formant components may be processed.
  • the voice data of the disturbing sound is further processed based on these parameters.
  • the masker sound generator 14 generates an output masker sound by processing the disturbance sound as described above.
  • the generated output masker sound is converted into an analog audio signal by the D / A converter 16, emitted from the speaker 17, and listened to by the listener 3.
  • the masker sound emitted from the speaker 17 in this manner has no meaning in terms of vocabulary, and the voice quality and pitch include disturbing sounds that approximate the voice of the speaker 2.
  • the listener 3 hears the voice of the speaker 2 together with the voice of the same voice quality and pitch that cannot be understood, and it is difficult to extract and understand the actual speech contents of the speaker 2. .
  • Such disturbing sounds have a high masking effect even at a low volume because the voice quality and pitch are similar to those of the speaker 2, and the listener 3 feels uncomfortable when listening to masker sounds. Can be reduced.
  • audio data such as background sounds (river murmurs, etc.) and production sounds (bird calls, etc.) are stored in the database 15 and included in the output masker sound for output. It is also possible to reduce pleasure.
  • the masker sound is a newly generated sound based on the input sound signal
  • the input sound signal is not amplified and output, but the sound emitted from the speaker is input to the microphone.
  • a loop system that emits sound again is not formed, and there is no fear of howling. Therefore, in the sound masking system shown in this embodiment, it is possible to output a stable masker sound in any installation environment without considering the arrangement relationship of microphones and speakers.
  • the speech feature quantity such as formant extracted by the speech analysis unit 13 is a physical parameter peculiar to human speech, it is rarely extracted from sound other than human speech. Therefore, there is a low possibility that the masker sound is changed by environmental sounds (for example, noise of an air conditioner) generated around the apparatus, and an appropriate masker sound can be generated stably.
  • the disturbing sound need not always be output.
  • the speech analysis unit 13 cannot extract the speech feature amount, the output of the disturbing sound may be stopped.
  • the masker sound may be a combination of a continuously generated sound and an intermittently generated sound.
  • the speech analysis unit 13 cannot extract the speech feature amount when the speaker 2 is not speaking, the disturbing sound stored in the database 15 is output as the output masker sound as it is.
  • the speech analysis unit 13 can extract the speech feature value, an output masker sound obtained by processing the disturbing sound is output.
  • a situation so-called cocktail party effect
  • the listener 3 gets used to the masker sound and hears the voice of the actual speaker 2.
  • disturbance sound and background sound such as Ogawa murmur may be used as continuously generated sound
  • effect sound such as bird call may be used as intermittently generated sound.
  • the disturbance sound and the background sound are output continuously, and the effect sound is output intermittently at a predetermined timing.
  • the recording data for a predetermined time (recording the actual stream of Ogawa's murmuring, etc.) is repeatedly and continuously played, and for the production sound, the recording data for the predetermined time (actual bird call) Recorded at random) or at regular intervals (according to the repetition timing of the environmental sound, etc.).
  • the cocktail party effect can be prevented.
  • the following application examples are possible for combinations of continuously generated sounds and intermittently generated sounds.
  • FIG. 5 is a diagram showing a correspondence table of disturbance sound, background sound, and production sound. This table is stored in the database 15 and read by the masker sound generation unit 14. In the example of the figure, a description will be given as an example in which a plurality of types of disturbance sounds having different formants and pitches are stored in the database 15.
  • the association table describes combinations of each disturbance sound, background sound, and effect sound stored in the database 15.
  • the disturbing sound A is associated with a background sound A (for example, a stream of brook) and a production sound A (for example, a cry of a bird). It is desirable that each disturbing sound is associated with a background sound or a production sound having a high mask effect.
  • the masker sound generation unit 14 selects and reads the disturbing sound (for example, the disturbing sound A) closest to the sound feature amount of the input sound signal, and further refers to the table to associate the background sound ( For example, background sound A) and effect sound (for example effect sound A) are selected and read. Thereby, the disturbance sound and the background sound suitable for the input audio signal are continuously reproduced, and the effect sound is reproduced intermittently.
  • the disturbing sound for example, the disturbing sound A
  • the table for example, background sound A
  • effect sound for example effect sound A
  • the background sound and the production sound associated with each disturbing sound are not limited to one.
  • the disturbing sound A in addition to the combination of the background sound A and the effect sound A, the combination of the background sound A and the effect sound B, the background sound B, and the effect sound B
  • the combination is described in the association table.
  • the disturbing sound B in addition to the combination of the background sound B and the effect sound B, the combination of the background sound C and the effect sound C is described in the association table.
  • the voice processing device 1 may be provided with an interface for user operation, and the masker sound generation unit 14 may receive a manual selection by the user and select and read the received combination of background sound and effect sound. Further, it may be automatically selected according to time zone, season, place, and the like. For example, in the morning, background sound A and production sound A (river murmur + bird call) are selected, and in summer afternoon, background sound A and production sound B (river murmur + cicada call) are selected. In the case where the background sound B (ripple sound or the like) is selected in a place close to the sea, etc. In this case, since the change of sound is further diversified, the cocktail party effect can be prevented more appropriately.
  • the volume ratio of each sound may also be described in the table. Note that the numerical value of the volume ratio shown in FIG. 5C represents a relative value and does not represent an actual volume value (dB).
  • the masker sound generation unit 14 outputs a masker sound with the background sound A set to about half the volume of the disturbing sound A and the effect sound A set to about 1/10 the volume of the disturbed sound A.
  • a mode in which the effect sound volume is set to 0 and the effect sound is not output is also possible.
  • the volume can be changed.
  • the content of the combination and the specification of the volume ratio may be received from the user, and the description content of the table may be changed.
  • FIG. 3 is a block diagram showing the configuration of the speech processing apparatus according to the first modification.
  • the same components as those of the speech processing apparatus 1 shown in FIG. 1A are denoted by the same reference numerals, and the description thereof is omitted.
  • the microphone 11 and the speaker 17 are provided integrally with the sound processing device 1 of FIG. 3 in addition to the same configuration as the speech processing apparatus 1 shown in FIG. Note that a configuration in which the microphone 11 and the speaker 17 are provided integrally with the sound processing device 1 of FIG. 3 may be used, as in the sound processing device 1 ′ illustrated in FIG. Further, only one of the microphone 11 and the speaker 17 may be provided integrally with the sound processing device 1 of FIG.
  • the reduction unit 18 is a so-called echo canceller, and performs a process of reducing the echo component of the audio signal (the signal after A / D conversion) input from the microphone 11. Thereby, only the voice (speaker's voice) generated around the apparatus is input to the voice analysis unit 13, and the extraction accuracy of the voice feature amount can be improved.
  • the echo canceling mode of the reduction unit 18 may be any mode.
  • the masking sound for output is filtered using an adaptive filter that simulates the transfer characteristics of the acoustic transmission system from the speaker 17 to the microphone 11. Then, the echo component is reduced by subtracting the signal input from the microphone 11.
  • the audio analysis unit 13 simply removes (ignores) the output masker sound component. What is necessary is just to extract an audio
  • FIG. 4 is a block diagram showing a configuration of a sound processing apparatus according to the second modification. Also in this figure, the same components as those of the speech processing apparatus shown in FIG. 1A are denoted by the same reference numerals, and the description thereof is omitted.
  • the buffer 19 corresponds to an analysis result holding unit that holds a voice feature amount input from the voice analysis unit 13 to the masker sound generation unit 14 for a predetermined time.
  • the microphone 11 and the speaker 17 are provided integrally with the sound processing device 1 of FIG. 4 may be used, as in the sound processing device 1 ′ illustrated in FIG. Further, only one of the microphone 11 and the speaker 17 may be provided integrally with the sound processing apparatus 1 of FIG.
  • the masker sound generation unit 14 compares the latest audio feature amount input from the audio analysis unit 13 with the past audio feature amount held in the buffer 19, and when a different audio feature amount is calculated. Then, the generation process of the output masker sound based on the latest voice feature value is stopped, and the output masker sound is generated based on the past voice feature value held in the buffer 19. In this case, even if speech speech other than the speaker 2 is suddenly input, the masking sound for output does not change significantly (the wrong speech feature amount is not reflected in the output mask sound), so that the masking effect Can be stabilized.
  • the speech feature amount of the new speaker is extracted even after a predetermined time has elapsed.
  • the latest voice feature value updated to the new speaker's voice feature value and input from the voice analysis unit 13 again matches the past voice feature value held in the buffer 19. Therefore, an appropriate masker sound can be generated after a predetermined time has elapsed.
  • An audio processing apparatus is generated by an input unit that inputs an audio signal, an analysis unit that analyzes the input audio signal, a storage unit that stores general-purpose masker sounds, a masker sound generation unit, and a masker sound generation unit And an output unit for outputting the output masker sound.
  • General-purpose masker sound can be expected to have a mask effect to some extent regardless of the voice of any speaker.
  • it is voice data in which voices of a plurality of people including men and women are recorded, and includes disturbing sounds that have no meaning in terms of vocabulary (the contents of conversation cannot be understood). It is difficult for the listener to understand the content of the speaker's speech by listening to the disturbing sound simultaneously with the speaker's voice.
  • the mask effect is lower than when the user's voice is processed and output as a disturbing sound.
  • the masker sound generation unit of the present invention generates an output masker sound based on the analysis result of the analysis unit and the general-purpose masker sound stored in the storage unit.
  • the analysis unit extracts the speech feature amount (pitch, formant, etc.) of the speaker included in the input speech signal, and the masker sound generation unit stores the storage unit based on the extracted speaker speech feature amount.
  • the general-purpose masker sound stored in is processed to generate an output masker sound. Specifically, the pitch of the general-purpose masker sound stored in the storage unit is converted to the pitch of the input voice signal, or the formant of the general-purpose masker sound is converted to the formant of the input voice signal (the center frequency is adjusted, the bandwidth is And so on).
  • a disturbing sound having a voice quality that approximates the voice quality of the actual speaker is output from the output unit, so that the mask effect is higher than that of the general-purpose masker sound, and the voice of the speaker can be appropriately masked.
  • the input speaker's voice is only used for analysis, and the speaker's voice is not amplified and output, but the output voice is picked up again and amplified. Since there is no loop (no loop system is formed), howling can be prevented.
  • an analysis result holding unit that holds the analysis result for a predetermined time is provided, and the masker sound generation unit compares the analysis result of the analysis unit with the analysis result held in the analysis result holding unit, and calculates a different analysis result. In this case, the generation of the output masker sound based on the analysis result of the analysis unit may be stopped.
  • an audio processing device and an audio processing method that generate an appropriate masker sound while preventing howling.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Electromagnetism (AREA)
  • Oil, Petroleum & Natural Gas (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 音声解析部13は、入力された音声信号からフォルマントやピッチ等の音声特徴量を抽出する。マスカ音生成部14は、抽出した音声特徴量に基づいて、データベース15に記憶されている音源データ(汎用マスカ音)を加工し、出力用マスカ音を生成する。汎用マスカ音は、例えば、男性および女性を含む複数人の音声を録音したものであり、語彙的には何ら意味をなさない(会話内容が理解できない)撹乱音が含まれている。マスカ音生成部14は、撹乱音のフォルマントを入力音声信号のフォルマントに一致させる。生成されたマスカ音は、語彙的には何ら意味をなさないものであり、かつ声質や音高は話者と近似している撹乱音が含まれているため、聴取者は、実際の話者の発言内容を理解することが困難となる。

Description

音声処理装置及び音声処理方法
 この発明は、周囲で発生している音声を収音し、収音した音声に基づいて出力する音声を変化させる音声処理装置及び音声処理方法に関するものである。
 従来、周囲で発生している音声を収音して加工し、収音した音声と加工した音声とをミキシングしてスピーカから音声を出力することにより、周囲で発生している音声とは異なる音声を聴取者に聞かせるものが提案されている(例えば、特許文献1参照)。これにより、周囲で発生している音声(例えば話者の音声)を聞き取り難くし、話者の音声をマスクすることが可能となる。
日本国特開2009-118062号公報
 しかし、スピーカから出力された音声が再びマイクで収音されると、収音された音声のある周波数成分が増幅されて出力される可能性もあり、ハウリングが発生するおそれがある。また、話者の音声とは異なる音声が収音されると、目的の話者の音声を適切にマスクするマスカ音を出力することができない場合がある。
 そこで、本発明は、ハウリングを防止しつつ、適切なマスカ音を生成する音声処理装置及び音声処理方法を提供することを目的とする。
 本発明の提供する音声処理装置は、
 音声信号を入力する入力部と、
 入力した音声信号を解析する解析部と、
 汎用マスカ音を記憶する記憶部と、
 前記解析部の解析結果に基づいて、前記記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成するマスカ音生成部と、
 前記出力用マスカ音を出力する出力部と、
 を備えた音声処理装置である。
 好適には、前記解析部は、前記入力した音声信号の音声特徴量を抽出し、
 前記マスカ音生成部は、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する。
 好適には、前記入力した音声信号から前記出力用マスカ音を削減する削減部をさらに備える。
 好適には、前記解析結果を所定時間保持する解析結果保持部をさらに備え、
 前記マスカ音生成部は、前記解析部の解析結果と、前記解析結果保持部に保持されている解析結果とを比較し、異なる解析結果が算出された場合に、前記解析部の解析結果に基づく前記出力用マスカ音の生成を停止する。
 好適には、前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる。
 また、本発明の提供する、汎用マスカ音を記憶する記憶部を備えた音声処理装置の音声処理方法は、
 音声信号を入力する入力ステップと、
 入力した音声信号を解析する解析ステップと、
 前記解析部の解析結果に基づいて、前記記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成するマスカ音生成ステップと、
 前記出力用マスカ音を出力する出力ステップと、
 を備えた音声処理方法である。
 好適には、前記解析ステップでは、前記入力した音声信号の音声特徴量を抽出し、
 前記マスカ音生成ステップでは、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する。
 好適には、前記入力した音声信号から前記出力用マスカ音を削減する削減ステップをさらに備える。
 好適には、前記音声処理装置は、前記解析結果を所定時間保持する解析結果保持部をさらに備え、
 前記音声処理方法は、
 前記マスカ音生成ステップでは、前記解析ステップの解析結果と、前記解析結果保持部に保持されている解析結果とを比較し、異なる解析結果が算出された場合に、前記解析ステップの解析結果に基づく前記出力用マスカ音の生成を停止する。
 好適には、前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる。
 この発明によれば、ハウリングを防止しつつ、適切なマスカ音を生成することができる。
図1(A)及び図1(B)は、サウンドマスキングシステムの構成を示すブロック図である。 図2(A)は、音声信号の周波数特性を示す図である。図2(B)は、攪乱音のフォルマントのシフト処理、レベル変更処理及び帯域幅変更処理を示す図である。 図3は、変形例1に係る音声処理装置の構成を示すブロック図である。 図4は、変形例2に係る音声処理装置の構成を示すブロック図である。 図5(A)-図5(C)は、撹乱音と背景音、演出音の対応付けテーブルを示した図である。
 図1(A)は、本発明の音声処理装置を備えたサウンドマスキングシステムの構成を示すブロック図である。サウンドマスキングシステムは、音声処理装置1、話者2の話者音声や周囲音声を収音するマイク11、および聴取者3へマスカ音を放音するスピーカ17を備える。音声処理装置1は、話者2の音声をマイク11を介して収音し、聴取者3に対して話者2の音声をマスクするマスカ音をスピーカ17を介して放音する。
 図1(A)において、音声処理装置1は、A/D変換部12、音声解析部13、マスカ音生成部14、データベース15、及びD/A変換部16を備えている。なお、図1(B)に示す音声処理装置1’のように、マイク11およびスピーカ17が図1(A)の音声処理装置1と一体に設けられた構成であってもよい。また、マイク11およびスピーカ17の一方のみが図1(A)の音声処理装置1と一体に設けられていてもよい。
 マイク11は、装置周囲で発生する音声(この例では主に話者2の発話音声)を収音する。収音された音声は、A/D変換部12でデジタル音声信号に変換され、音声解析部13に入力される。なお、A/D変換部12におけるサンプリングレートFsは、人の声の主成分が含まれる帯域(例えば10kHz以下)に対応する周波数(例えばFs=20kHz)とすれば十分である。
 音声解析部13は、入力された音声信号を解析し、音声特徴量を抽出する。音声特徴量は、話者を識別するための指標となる物理パラメータであり、例えばフォルマントやピッチ等からなる。フォルマントは、音声の周波数スペクトル上の複数のピークを示したものであり、声質に影響を与える物理パラメータである。ピッチは、音高(基本周波数)を表す物理パラメータである。聴取者は、2つの音声を聴取したとき、これら2つの音声の声質や音高が近似していれば、これら2つの音声を区別することが困難となる。したがって、スピーカ17から話者2の音声に近似し、かつ異なる内容の音声(例えば語彙的に意味をなさないもの)を撹乱音としてマスカ音に含めて出力すれば、聴取者3は、話者2の発言内容を理解することが困難となり、高いマスク効果が期待できる。
 そこで、音声解析部13は、まず入力音声信号からピッチを算出する。ピッチは、例えば時間軸上のゼロクロス点(振幅が0となる点)から算出する。また、音声解析部13は、入力音声信号の周波数解析(例えばFFT:高速フーリエ変換)を行い、周波数スペクトルを算出する。そして、音声解析部13は、周波数スペクトルから周波数ピークを検出する。周波数ピークは、周波数スペクトルのなかで、前後の周波数成分よりもレベルが高くなっている周波数成分であり、複数の周波数ピークが検出される。ただし、図2(A)に示すように、人の声には非常に微細な周波数ピークが多数含まれるため、包絡成分の周波数ピークだけを抽出する。この周波数ピークがフォルマントとなる。各フォルマントを表すパラメータとしては、中心周波数やレベル、帯域幅(半値幅)等が抽出される。なお、音声特徴量としては、スペクトルの傾斜度等、他の物理パラメータを抽出してもよい。
 音声解析部13は、以上のようにして抽出した音声特徴量をマスカ音生成部14に出力する。
 マスカ音生成部14は、入力された音声特徴量、およびデータベース15に記憶されている音源データ(汎用マスカ音)に基づいて、出力用マスカ音を生成する。具体的には以下の処理を行う。
 まず、マスカ音生成部14は、データベース15から汎用マスカ音の音声データを読み出す。汎用マスカ音とは、どの様な話者であってもある程度のマスク効果が期待できる汎用的なものである。例えば、男性および女性を含む複数人の音声を録音した音声データであり、語彙的には何ら意味をなさない(会話内容が理解できない)撹乱音が含まれる。なお、後述のように、汎用マスカ音には、撹乱音の他にも、聴取者の不快感を緩和させるための背景音(川のせせらぎ等)や演出音(鳥の鳴き声等)が含まれていてもよい。データベース15には、汎用マスカ音の音声データとして、撹乱音や背景音、演出音等の周波数軸上の音声信号(または時間軸上の音声信号でもよい。)が記憶されている。
 マスカ音生成部14は、音声解析部13から入力された音声特徴量に基づいて、読み出した汎用マスカ音のうち、撹乱音に係る音声データを加工する。例えば、読み出した撹乱音のピッチを、入力音声信号のピッチに変換する。この場合、撹乱音の基本周波数成分を、入力音声信号の基本周波数成分に一致させるように周波数シフトする。
 また、図2(B)に示すように、撹乱音の各フォルマント成分を、入力音声信号のフォルマント成分に一致させる。例えば同図(B)において、撹乱音の第1フォルマント、第2フォルマントおよび第3フォルマントは、入力音声信号の第1フォルマント、第2フォルマントおよび第3フォルマントよりもそれぞれ中心周波数が低いため、高域側にシフトする処理を行う。また、第2フォルマントについては、入力音声信号のレベルよりも高いレベルを有するため、レベルを下げる処理を行う。さらに、第3フォルマントについては、入力音声信号のレベルよりも低いレベルを有するため、レベルを上げる処理を行うとともに、入力音声信号のレベルよりも帯域幅が広いため、帯域幅を狭くする処理も行う。また、第4フォルマントについては低域側にシフトする処理を行うとともに、帯域幅を広くする処理も行う。なお、同図の例では第1フォルマント乃至第4フォルマントについて加工する処理を示したが、加工するフォルマントの次数はこの例に限るものではない。例えば、さらに高次のフォルマント成分を加工してもよい。
 なお、音声特徴量にスペクトルの傾斜度等の他のパラメータが含まれる場合には、これらのパラメータに基づいてさらに撹乱音の音声データを加工する。
 マスカ音生成部14は、以上のようにして撹乱音を加工することで出力用マスカ音を生成する。生成された出力用マスカ音は、D/A変換部16でアナログ音声信号に変換され、スピーカ17から放音され、聴取者3に聴取される。
 このようにしてスピーカ17から放音されたマスカ音は、語彙的には何ら意味をなさないものであり、かつ声質や音高は話者2の音声と近似した撹乱音が含まれているため、聴取者3は、話者2の音声とともに同じような声質や音高で意味の理解できない音声を聞くことになり、実際の話者2の発言内容を抽出して理解することが困難となる。
 また、このような撹乱音は、声質や音高が話者2の音声に近似しているため、低い音量であってもマスク効果が高く、聴取者3がマスカ音を聞くことによる不快感を低減することができる。さらに、上述のように、背景音(川のせせらぎ等)や演出音(鳥の鳴き声等)の音声データをデータベース15に記憶しておき、出力用マスカ音に含めて出力することにより、より不快感を低減することも可能である。
 さらに、上記のマスカ音は、入力音声信号に基づいて新たに生成された音声であるため、入力音声信号が増幅して出力されたものではなく、スピーカから放音された音声がマイクに入力され、再び放音されるようなループ系が形成されることはなく、ハウリングが発生するおそれはない。したがって、本実施形態に示すサウンドマスキングシステムでは、マイクやスピーカの配置関係を考慮する必要なく、どの様な設置環境においても安定したマスカ音を出力することができる。
 また、音声解析部13において抽出されるフォルマント等の音声特徴量は、人の発話音声に特有の物理パラメータであるため、人の発話音声以外の音から抽出することはほとんどない。したがって、装置周囲で発生する環境音(例えばエアコンのノイズ等)によってマスカ音が変化する恐れは低く、安定して適切なマスカ音を生成することができる。
 なお、上記実施形態においては、データベース15に1種類の撹乱音を記憶しておく例を示したが、フォルマントやピッチの異なる複数種類の撹乱音をデータベース15に記憶しておくことも可能である。この場合、入力音声信号の音声特徴量に最も近い撹乱音を選択して読み出し、加工して(あるいは加工しないで)出力用マスカ音を生成することにより、演算量を抑えることもできる。
 また、上記実施形態においては、撹乱音が常に出力される例として説明したが、撹乱音は常に出力される必要はない。例えば話者2が発話していない状態においては撹乱音を出力する必要がないため、音声解析部13において音声特徴量を抽出できなかったときは撹乱音の出力を停止してもよい。
 また、マスカ音は、連続的に発生する音声と、断続的に発生する音声とを組み合わせてもよい。例えば、話者2が発話していない状態で、音声解析部13において音声特徴量を抽出できなかったときは、データベース15に記憶されている撹乱音をそのまま出力用マスカ音として出力し、話者2が発話し、音声解析部13において音声特徴量を抽出できたときには、撹乱音を加工した出力用マスカ音を出力する。これにより、聴取者3がマスカ音に慣れ、実際の話者2の音声を聞き分けてしまう状態(いわゆるカクテルパーティ効果)を防止することができる。
 また、連続的に発生する音声として撹乱音と小川のせせらぎ等の背景音とを用い、断続的に発生する音声として鳥の鳴き声等の演出音を用いてもよい。例えば、撹乱音と背景音については連続的に出力し、演出音については所定のタイミングで断続的に出力する。このとき、背景音については、所定時間分の録音データ(実際の小川のせせらぎを録音したもの等)を繰り返し連続再生し、演出音については、同じく所定時間分の録音データ(実際の鳥の鳴き声を録音したもの等)をランダムあるいは一定時間毎(環境音の繰り返しタイミングに合わせる等)に再生する。この場合も、聴取者3に聞こえる音が常時同じ音にならないため、カクテルパーティ効果を防止することができる。さらに、連続的に発生する音声と断続的に発生する音声の組み合わせは、以下のような応用例も可能である。
 図5は、撹乱音と背景音、演出音の対応付けテーブルを示した図である。このテーブルは、データベース15に記憶され、マスカ音生成部14が読み出すものである。同図の例では、フォルマントやピッチの異なる複数種類の撹乱音をデータベース15に記憶しておく例として説明する。
 図5(A)に示すように、対応付けテーブルには、データベース15に記憶されている各撹乱音と背景音、演出音の組み合わせが記載されている。例えば、撹乱音Aには、背景音A(例えば小川のせせらぎとする。)、演出音A(例えば鳥の鳴き声とする。)が対応づけられている。各撹乱音には、マスク効果が高い背景音や演出音が対応づけられていることが望ましい。
 この場合、マスカ音生成部14は、入力音声信号の音声特徴量に最も近い撹乱音(例えば撹乱音A)を選択して読み出すとともに、さらにテーブルを参照して、対応づけられている背景音(例えば背景音A)と演出音(例えば演出音A)を選択して読み出す。これにより、入力音声信号に適した撹乱音と背景音が連続的に再生され、演出音が断続的に再生される。
 さらに、図5(B)に示すように、各撹乱音に対応付けられる背景音や演出音は1つに限るものではない。例えば、図5(B)のように、撹乱音Aについては、背景音Aおよび演出音Aの組み合わせの他にも、背景音Aおよび演出音Bの組み合わせや、背景音Bおよび演出音Bの組み合わせが対応付けテーブルに記載されている。撹乱音Bについては、背景音Bおよび演出音Bの組み合わせの他にも、背景音Cおよび演出音Cの組み合わせが対応付けテーブルに記載されている。
 この場合、音声処理装置1にユーザ操作用のインタフェースを設け、マスカ音生成部14は、ユーザによる手動選択を受け付け、受け付けた背景音と演出音の組み合わせを選択して読み出してもよい。また、時間帯、季節、場所等によって自動選択されてもよい。例えば午前中は背景音Aおよび演出音A(川のせせらぎ+鳥の鳴き声)が選択される場合や、夏の午後は背景音Aおよび演出音B(川のせせらぎ+セミの鳴き声)が選択される場合、海に近い場所では背景音B(さざ波音等)が選択される場合、等である。この場合、音の変化がさらに多様化するため、より適切にカクテルパーティ効果を防止することができる。
 また、図5(C)に示すように、各音の音量比についてもテーブルに記載されていてもよい。なお、図5(C)に示す音量比の数値は、相対的な値を示したものであり、実際の音量値(dB)を表したものではない。
 例えば、撹乱音Aについては、音量100に対し、背景音Aが音量50、演出音Aが音量10の音量比として記載されている。したがって、マスカ音生成部14は、背景音Aを撹乱音Aの半分程度の音量とし、演出音Aを撹乱音Aの1/10程度の音量としたマスカ音を出力する。また、図5(C)に示す撹乱音A、背景音B、演出音Bの組み合わせのように、演出音の音量を0とし、演出音を出力しない、という態様も可能である。このように、入力音声信号によって発生する背景音や演出音が変化する態様に加え、音量も変化させることができる。
 また、上述のように、音声処理装置1にユーザ操作用のインタフェースを設ける場合、ユーザから組み合わせの内容や音量比の指定を受け付け、テーブルの記載内容を変更できるようにしてもよい。
 さらに、本実施形態に示した音声処理装置は、以下のような変形例も可能である。
 図3は、変形例1に係る音声処理装置の構成を示すブロック図である。なお、図3においては、図1(A)に示した音声処理装置1と同一の構成については、同一の符号を付し、その説明を省略する。
 図3に示す変形例1に係る音声処理装置1は、図1(A)に示した音声処理装置1と同様の構成に加えて、削減部18を備えている。なお、図1(B)に示す音声処理装置1’のように、マイク11およびスピーカ17が図3の音声処理装置1と一体に設けられた構成であってもよい。また、マイク11およびスピーカ17の一方のみが図3の音声処理装置1と一体に設けられていてもよい。
 削減部18は、いわゆるエコーキャンセラであり、マイク11から入力された音声信号(A/D変換後の信号)のエコー成分を削減する処理を行う。これにより、音声解析部13には、装置周囲で発生する音声(話者の音声)だけが入力されることになり、音声特徴量の抽出精度を向上することができる。
 削減部18のエコーキャンセルの態様はどの様な態様であってもよいが、例えばスピーカ17からマイク11に至る音響伝達系の伝達特性を模擬した適応型フィルタを用いて出力用マスカ音をフィルタ処理し、マイク11から入力される信号から減算処理することでエコー成分を削減する。
 ただし、本実施形態では、上述したように、入力音声信号がループしてマイクに入力される系が存在しないため、音声解析部13において、単に出力用マスカ音の成分を除去(無視)して音声特徴量を抽出すればよい。この場合、適応型フィルタは不要である。
 図4は、変形例2に係る音声処理装置の構成を示すブロック図である。同図においても、図1(A)に示した音声処理装置と同一の構成については、同一の符号を付し、その説明を省略する。
 図4に示す音声処理装置1は、バッファ19を備えている。バッファ19は、音声解析部13からマスカ音生成部14に入力された音声特徴量を所定時間保持する解析結果保持部に相当する。なお、図1(B)に示す音声処理装置1’のように、マイク11およびスピーカ17が図4の音声処理装置1と一体に設けられた構成であってもよい。また、マイク11およびスピーカ17の一方のみが図14の音声処理装置1と一体に設けられていてもよい。
 マスカ音生成部14は、音声解析部13から入力される最新の音声特徴量と、バッファ19に保持されている過去の音声特徴量とを比較し、異なる音声特徴量が算出された場合には、最新の音声特徴量に基づく出力用マスカ音の生成処理を停止し、バッファ19に保持されている過去の音声特徴量に基づいて出力用マスカ音を生成する。この場合、突発的に話者2以外の発話音声が入力された場合であっても、出力用マスカ音が大きく変化しない(誤った音声特徴量が出力用マスク音に反映されない)ため、マスキング効果を安定させることができる。
 なお、実際の話者が変わって異なる音声特徴量が抽出された場合、所定時間が経過した後も新たな話者の音声特徴量が抽出されるため、バッファ19に保持される音声特徴量が新たな話者の音声特徴量に更新され、再び音声解析部13から入力される最新の音声特徴量と、バッファ19に保持されている過去の音声特徴量と、が一致することになる。そのため、所定時間経過後は、適切なマスカ音を生成することができる。
 以下に、本発明の概要を記載する。
 この発明の音声処理装置は、音声信号を入力する入力部と、入力した音声信号を解析する解析部と、汎用マスカ音を記憶する記憶部と、マスカ音生成部と、マスカ音生成部が生成した出力用マスカ音を出力する出力部と、を備えている。
 汎用マスカ音とは、どの様な話者の音声であってもある程度マスク効果が期待できるものである。例えば、男性および女性を含む複数人の音声を録音した音声データであり、語彙的には何ら意味をなさない(会話内容が理解できない)撹乱音が含まれている。聴取者は、このような撹乱音を話者の音声と同時に聞くことで、話者の発言内容を理解することが困難となる。ただし、本人の音声を加工して撹乱音として出力する場合に比べ、マスク効果は低くなる。
 そこで、本発明のマスカ音生成部は、解析部の解析結果、および前記記憶部に記憶されている汎用マスカ音に基づいて、出力用マスカ音を生成する。例えば、解析部は、入力した音声信号に含まれている話者の音声特徴量(ピッチやフォルマント等)を抽出し、マスカ音生成部は、抽出した話者の音声特徴量に基づいて記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成する。具体的には、記憶部に記憶されている汎用マスカ音のピッチを入力音声信号のピッチに変換したり、汎用マスカ音のフォルマントを入力音声信号のフォルマントに変換(中心周波数を合わせる、帯域幅を合わせる、等)したりする。これにより、出力部から実際の話者の声質に近似した声質の撹乱音が出力されるため、汎用マスカ音よりもマスク効果が高くなり、話者の音声を適切にマスクすることができる。また、入力された話者の音声は、解析に用いられるだけであり、話者の音声が増幅等されて出力されることはなく、出力された音声が再び収音されて増幅されることがない(ループ系が形成されない)ため、ハウリングの発生を防止することができる。
 さらに、入力した音声信号から出力用マスカ音を削減する削減部を備えると、出力された出力用マスカ音が再び収音された場合であっても、話者の音声だけを適切に解析することができる。
 また、解析結果を所定時間保持する解析結果保持部を備え、マスカ音生成部は、解析部の解析結果と、解析結果保持部に保持されている解析結果を比較し、異なる解析結果が算出された場合に解析部の解析結果に基づく出力用マスカ音の生成を停止してもよい。
 この場合、話者の音声とは異なる音声が突発的に入力された場合であっても、出力用マスカ音が大きく変化しない(誤った解析結果が出力用マスク音に反映されない)ため、マスキング効果を安定させることができる。
本出願は、2010年10月21日出願の日本特許出願(特願2010-236019)に基づくものであり、その内容はここに参照として取り込まれる。
 本発明によれば、ハウリングを防止しつつ、適切なマスカ音を生成する音声処理装置及び音声処理方法を提供することができる。
1…音声処理装置
2…話者
3…聴取者
11…マイク
12…A/D変換部
13…音声解析部
14…マスカ音生成部
15…データベース
17…スピーカ

Claims (10)

  1.  音声信号を入力する入力部と、
     入力した音声信号を解析する解析部と、
     汎用マスカ音を記憶する記憶部と、
     前記解析部の解析結果に基づいて、前記記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成するマスカ音生成部と、
     前記出力用マスカ音を出力する出力部と、
     を備えた音声処理装置。
  2.  前記解析部は、前記入力した音声信号の音声特徴量を抽出し、
     前記マスカ音生成部は、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する請求項1に記載の音声処理装置。
  3.  前記入力した音声信号から前記出力用マスカ音を削減する削減部をさらに備えた請求項1または請求項2に記載の音声処理装置。
  4.  前記解析結果を所定時間保持する解析結果保持部をさらに備え、
     前記マスカ音生成部は、前記解析部の解析結果と、前記解析結果保持部に保持されている解析結果とを比較し、異なる解析結果が算出された場合に、前記解析部の解析結果に基づく前記出力用マスカ音の生成を停止する請求項1乃至請求項3のいずれか一項に記載の音声処理装置。
  5.  前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる請求項1乃至請求項4のいずれか一項に記載の音声処理装置。
  6.  汎用マスカ音を記憶する記憶部を備えた音声処理装置の音声処理方法であって、
     音声信号を入力する入力ステップと、
     入力した音声信号を解析する解析ステップと、
     前記解析部の解析結果に基づいて、前記記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成するマスカ音生成ステップと、
     前記出力用マスカ音を出力する出力ステップと、
     を備えた音声処理方法。
  7.  前記解析ステップでは、前記入力した音声信号の音声特徴量を抽出し、
     前記マスカ音生成ステップでは、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する請求項6に記載の音声処理方法。
  8.  前記入力した音声信号から前記出力用マスカ音を削減する削減ステップをさらに備えた請求項6または請求項7に記載の音声処理方法。
  9.  前記音声処理装置は、前記解析結果を所定時間保持する解析結果保持部をさらに備え、
     前記音声処理方法は、
     前記マスカ音生成ステップでは、前記解析ステップの解析結果と、前記解析結果保持部に保持されている解析結果とを比較し、異なる解析結果が算出された場合に、前記解析ステップの解析結果に基づく前記出力用マスカ音の生成を停止する請求項6乃至請求項8のいずれか一項に記載の音声処理方法。
  10.  前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる請求項6乃至請求項9のいずれか一項に記載の音声処理方法。
PCT/JP2011/074255 2010-10-21 2011-10-21 音声処理装置及び音声処理方法 WO2012053629A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011800448169A CN103189912A (zh) 2010-10-21 2011-10-21 声音处理设备和声音处理方法
US13/822,490 US9117436B2 (en) 2010-10-21 2011-10-21 Sound processing apparatus and sound processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010236019A JP5644359B2 (ja) 2010-10-21 2010-10-21 音声処理装置
JP2010-236019 2010-10-21

Publications (1)

Publication Number Publication Date
WO2012053629A1 true WO2012053629A1 (ja) 2012-04-26

Family

ID=45975337

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/074255 WO2012053629A1 (ja) 2010-10-21 2011-10-21 音声処理装置及び音声処理方法

Country Status (4)

Country Link
US (1) US9117436B2 (ja)
JP (1) JP5644359B2 (ja)
CN (1) CN103189912A (ja)
WO (1) WO2012053629A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014130251A (ja) * 2012-12-28 2014-07-10 Glory Ltd 会話保護システム及び会話保護方法
JP6197367B2 (ja) * 2013-05-23 2017-09-20 富士通株式会社 通話装置及びマスキング音生成プログラム
CN103617797A (zh) * 2013-12-09 2014-03-05 腾讯科技(深圳)有限公司 一种语音处理方法,及装置
CN104575486B (zh) * 2014-12-25 2019-04-02 中国科学院信息工程研究所 基于声掩蔽原理的声泄漏防护方法及***
EP3048608A1 (en) * 2015-01-20 2016-07-27 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Speech reproduction device configured for masking reproduced speech in a masked speech zone
JP2016177204A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 サウンドマスキング装置
JP6033927B1 (ja) * 2015-06-24 2016-11-30 ヤマハ株式会社 情報提供システムおよび情報提供方法
US10277581B2 (en) * 2015-09-08 2019-04-30 Oath, Inc. Audio verification
CN106558303A (zh) * 2015-09-29 2017-04-05 苏州天声学科技有限公司 阵列式声音掩蔽器及声音掩蔽方法
JP6160794B1 (ja) * 2015-10-15 2017-07-12 ヤマハ株式会社 情報管理システムおよび情報管理方法
US10354638B2 (en) 2016-03-01 2019-07-16 Guardian Glass, LLC Acoustic wall assembly having active noise-disruptive properties, and/or method of making and/or using the same
JP2019522825A (ja) 2016-05-20 2019-08-15 ケンブリッジ サウンド マネジメント, インコーポレイテッド サウンドマスキングのための自給式ラウドスピーカ
JP6837214B2 (ja) * 2016-12-09 2021-03-03 パナソニックIpマネジメント株式会社 騒音マスキング装置、車両、及び、騒音マスキング方法
US10304473B2 (en) 2017-03-15 2019-05-28 Guardian Glass, LLC Speech privacy system and/or associated method
US10373626B2 (en) 2017-03-15 2019-08-06 Guardian Glass, LLC Speech privacy system and/or associated method
US10726855B2 (en) * 2017-03-15 2020-07-28 Guardian Glass, Llc. Speech privacy system and/or associated method
WO2019036092A1 (en) * 2017-08-16 2019-02-21 Google Llc DYNAMIC MASKING OF AUDIO DATA TRANSFER
CN108922516B (zh) * 2018-06-29 2020-11-06 北京语言大学 检测调域值的方法和装置
JP2021068490A (ja) * 2019-10-25 2021-04-30 東京瓦斯株式会社 音声再生システムおよびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004510191A (ja) * 2000-09-21 2004-04-02 ロイヤルカレッジ オブ アート 環境を音響的に向上させるための装置
JP2008233670A (ja) * 2007-03-22 2008-10-02 Yamaha Corp サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050254663A1 (en) * 1999-11-16 2005-11-17 Andreas Raptopoulos Electronic sound screening system and method of accoustically impoving the environment
GB9927131D0 (en) * 1999-11-16 2000-01-12 Royal College Of Art Apparatus for acoustically improving an environment and related method
US7363227B2 (en) * 2005-01-10 2008-04-22 Herman Miller, Inc. Disruption of speech understanding by adding a privacy sound thereto
JP2009118062A (ja) 2007-11-05 2009-05-28 Pioneer Electronic Corp 音発生装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004510191A (ja) * 2000-09-21 2004-04-02 ロイヤルカレッジ オブ アート 環境を音響的に向上させるための装置
JP2008233670A (ja) * 2007-03-22 2008-10-02 Yamaha Corp サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム

Also Published As

Publication number Publication date
CN103189912A (zh) 2013-07-03
JP5644359B2 (ja) 2014-12-24
US20130182866A1 (en) 2013-07-18
JP2012088577A (ja) 2012-05-10
US9117436B2 (en) 2015-08-25

Similar Documents

Publication Publication Date Title
JP5644359B2 (ja) 音声処理装置
US9591410B2 (en) Hearing assistance apparatus
US7243060B2 (en) Single channel sound separation
US5757937A (en) Acoustic noise suppressor
KR100643310B1 (ko) 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치
JP5929786B2 (ja) 信号処理装置、信号処理方法及び記憶媒体
EP2650872A1 (en) Masking sound generation device, masking sound output device, and masking sound generation program
JP2014174255A5 (ja)
US10504538B2 (en) Noise reduction by application of two thresholds in each frequency band in audio signals
JP2010122617A (ja) ノイズゲート、及び収音装置
CN111161699B (zh) 一种环境噪音的掩蔽方法、装置及设备
US11516599B2 (en) Personal hearing device, external acoustic processing device and associated computer program product
CN113035167A (zh) 一种主动降噪的音频调教方法及存储介质
JP2012194415A (ja) マスカ音測定装置、およびサウンドマスキング装置
JP2007187748A (ja) 音選択加工装置
JP2006333396A (ja) 音声信号拡声装置
US20230320903A1 (en) Ear-worn device and reproduction method
JP5747490B2 (ja) マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム
JP4527654B2 (ja) 音声通信装置
JP2006235102A (ja) 音声処理装置および音声処理方法
CN102341853B (zh) 用于分离信号路径的方法及用于改善电子喉语音的应用
KR20210086217A (ko) 쉰목소리 잡음 제거시스템
JP2002064617A (ja) 反響抑圧方法・反響抑圧装置
JP2007086592A (ja) 音声出力装置および音声出力方法
US11996073B2 (en) Masking sound adjustment method and masking sound adjustment device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11834468

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13822490

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11834468

Country of ref document: EP

Kind code of ref document: A1