WO2012093470A1 - 音声制御装置、音声制御方法及び音声制御プログラム - Google Patents

音声制御装置、音声制御方法及び音声制御プログラム Download PDF

Info

Publication number
WO2012093470A1
WO2012093470A1 PCT/JP2011/050017 JP2011050017W WO2012093470A1 WO 2012093470 A1 WO2012093470 A1 WO 2012093470A1 JP 2011050017 W JP2011050017 W JP 2011050017W WO 2012093470 A1 WO2012093470 A1 WO 2012093470A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
hearing
voice control
correction amount
transmission
Prior art date
Application number
PCT/JP2011/050017
Other languages
English (en)
French (fr)
Inventor
鈴木 政直
猛 大谷
太郎 外川
千里 石川
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to CN201180063528.8A priority Critical patent/CN103282960B/zh
Priority to PCT/JP2011/050017 priority patent/WO2012093470A1/ja
Priority to EP11855034.2A priority patent/EP2662855A4/en
Priority to JP2012551766A priority patent/JP5626366B2/ja
Publication of WO2012093470A1 publication Critical patent/WO2012093470A1/ja
Priority to US13/924,071 priority patent/US9271089B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/30Monitoring or testing of hearing aids, e.g. functioning, settings, battery power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/70Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/12Audiometering
    • A61B5/121Audiometering evaluating hearing capacity
    • A61B5/123Audiometering evaluating hearing capacity subjective methods
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7475User input or interface means, e.g. keyboard, pointing device, joystick
    • A61B5/749Voice-controlled interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking

Definitions

  • the present invention relates to a voice control device, a voice control method, and a voice control program for controlling a received sound.
  • Patent Document 1 there is a technique for processing a plurality of single-tone frequency signals for a user, calculating a minimum listening level based on the user's listening result, and processing sound.
  • Patent Literature there is a technology that automatically adjusts the reception volume to be small when the transmission volume is high by using the Lombard effect and the reception volume is increased by judging that the surroundings are noisy and the transmission volume is low (Patent Literature). 2).
  • Patent Document 3 there is a technology that includes an equalizer that emphasizes an audio signal in a specific sound range and corrects the characteristics of the equalizer based on the user's volume operation.
  • Patent Document 1 since the user needs to perform a hearing test, the user is forced to perform complicated processing, and there is a problem that usability is poor.
  • Patent Document 2 since the reception volume is determined only by the transmission volume, there is a problem that the sound quality may be poor depending on the user without considering the user's hearing characteristics.
  • Patent Document 3 since the volume operation of the user is required, it is difficult to perform the volume operation during a call, and there is a problem that voice control cannot be performed during the call.
  • the disclosed technology has been made in view of the above problems, and a voice control device, a voice control method, and a voice control capable of performing voice control according to the user's hearing without imposing a burden on the user.
  • the purpose is to provide a program.
  • An audio control device includes a hearing estimation unit that estimates a user's hearing based on a transmission / reception ratio that represents a ratio between a volume of a transmission sound and a volume of a reception sound, and the estimated hearing
  • a correction amount calculation unit that calculates a correction amount of the received sound with respect to the reception signal; and a correction unit that corrects the reception signal based on the calculated correction amount.
  • voice control can be performed according to the hearing ability of the user without imposing a burden on the user.
  • the figure which shows the change of the hearing level by age The block diagram which shows an example of the function of the audio
  • FIG. 1 is a diagram showing changes in hearing level with age.
  • the graph shown in FIG. 1 shows the experimental results of the hearing experiment conducted by the inventors. According to the experiment shown in FIG. 1, it can be seen that the average hearing level differs between the 40s and 60s. The average hearing level in the 60's has dropped significantly in the high range (2 kHz to 4 kHz).
  • survey results on hearing loss due to age are also reported at http://tri-osaka.jp/group/infoele/life/sense/data/katagiri/070622.pdf.
  • the hearing level decreases with aging.
  • the hearing level decreases with age.
  • the Lombard effect is an effect in which the speaking voice becomes loud when it is difficult to hear the other party's voice when the surroundings are noisy or the other party's voice is low.
  • the background noise is 50 dB spl (hereinafter simply referred to as dB)
  • dB background noise
  • This survey is shown in Figure 1 of "Effects of noise on speech production: acoustic and perceptual analyzes", W. Van. Summers et.al., J. Acoust. Soc. Am., Vol.84, No.3, September 1988. Please refer to.
  • the Lombard effect is thought to affect not only the ambient noise and the loudness of the other party's voice, but also the hearing ability of the listener. When the hearing ability decreases, it is difficult to hear the other party's voice, and the speaking voice tends to increase. As shown in FIG. 1, since the decrease in hearing is related to age, the Lombard effect and age are considered to be related.
  • the relationship between the reception volume and the transmission volume is obtained using the Lombard effect, the age is estimated from this relationship, the hearing ability is estimated from the estimated age, the received sound is controlled, and the received sound is easy to hear.
  • FIG. 2 is a block diagram illustrating an example of functions of the voice control device 1 according to the embodiment.
  • the voice control device 1 includes frequency conversion units 101 and 102, a hearing estimation unit 103, a noise estimation unit 104, a hearing correction unit 105, a spectrum correction amount calculation unit 106, a spectrum correction unit 107, and an inverse frequency conversion. Part 108.
  • the frequency conversion unit 101 performs time-frequency conversion on the reception signal r (t) of the reception sound, and obtains the spectrum R (f) by the following equation (1).
  • the time frequency conversion is, for example, fast Fourier transform (FFT).
  • the frequency conversion unit 101 outputs the obtained spectrum R (f) to the hearing estimation unit 103, the spectrum correction amount calculation unit 106, and the spectrum correction unit 107.
  • the frequency conversion unit 102 performs time-frequency conversion on the transmission signal s (t) of the transmission sound, and obtains the spectrum S (f) by the following equation (2).
  • the time frequency conversion is, for example, fast Fourier transform (FFT).
  • K is the Nyquist frequency
  • Re ⁇ Real part Im
  • Imaginary part
  • the frequency conversion unit 102 outputs the obtained spectrum S (f) to the hearing estimation unit 103 and the noise estimation unit 104.
  • the hearing estimation unit 103 estimates the user's hearing based on the volume of the received sound and the volume of the transmitted sound.
  • FIG. 3 is a block diagram illustrating an example of the configuration of the hearing estimation unit 103.
  • the hearing estimation unit 103 includes a transmission / reception sound ratio calculation unit 131, an age estimation unit 132, and a minimum audible range estimation unit 133.
  • the sound transmission / reception ratio calculation unit 131 calculates the average power of the spectrum R (f) of the reception sound and the spectrum S (f) of the transmission sound by the following equation.
  • R_ave Average power of the received sound spectrum
  • S_ave Average power of spectrum of transmitted sound
  • the transmitted / received sound calculation unit 131 obtains a transmission / reception sound ratio sp_ratio from the average power R_ave of the received sound and the average power S_ave of the transmitted sound by the following equation, for example.
  • sp_ratio S_ave / R_ave (5)
  • sp_ratio Transmission / reception sound ratio
  • the transmission / reception sound ratio calculation unit 131 sets the ratio of the volume of the reception sound and the volume of the transmission sound as the transmission / reception sound ratio.
  • the transmission / reception sound ratio calculation unit 131 outputs the obtained transmission / reception sound ratio to the age estimation unit 132.
  • the age estimation unit 132 estimates the age of the user by referring to the information indicating the relationship between the transmission / reception sound ratio and the age stored in advance.
  • FIG. 4 is a diagram showing an example of the relationship between the transmission / reception sound ratio and the age.
  • the experiment is performed based on the idea that the voice becomes louder because the hearing ability decreases and it becomes difficult to hear the voice of the other party as the age increases.
  • the relationship between the age and the sound transmission / reception ratio is estimated in advance by an experiment similar to the method for obtaining the Lombard effect.
  • the relationship between the age and the transmission / reception ratio is obtained by the following procedure.
  • (2) The average transmission volume of all subjects at each age measured in (1) is obtained.
  • (3) The ratio (transmission / reception ratio) between the average transmission volume and reception volume in (2) is obtained.
  • the processes of (1) to (3) are similarly performed for other received sound volumes (for example, 30 to 80 dB).
  • the age estimation unit 132 holds information indicating the relationship between the age and the transmission / reception sound ratio for each reception volume.
  • the age estimation unit 132 estimates the age from the relationship shown in FIG. 4 based on the transmission / reception ratio obtained from the transmission / reception ratio calculation unit 131. For example, the age estimating unit 132 specifies information indicating a relationship as shown in FIG. 4 corresponding to the received sound volume for which the transmission / reception sound ratio is obtained. The age estimation unit 132 estimates the age from information indicating the specified relationship and the calculated transmission / reception sound ratio. Age estimation unit 132 outputs the estimated age to minimum audible range estimation unit 133.
  • the minimum audible range estimation unit 133 estimates the minimum audible range based on the age acquired from the age estimation unit 132.
  • the minimum audible range estimation unit 133 holds an average minimum audible range for each age based on the relationship shown in FIG.
  • FIG. 5 is a diagram showing an example of the relationship between the age and the minimum audible range.
  • A1 shown in FIG. 5 represents the minimum audible range of the 60s
  • A2 represents the minimum audible range of the 40s
  • A3 represents the minimum audible range of the 20s.
  • the relationship between the age and the minimum audible range is provided for every 20s in the example shown in FIG. 5, but may be provided for every 10s, for example.
  • the minimum audible range estimation unit 133 holds data indicating the relationship between the age and the minimum audible range as shown in FIG. 5 and acquires the minimum audible range corresponding to the age acquired from the age estimation unit 132.
  • the minimum audible range estimation unit 133 outputs the acquired minimum audible range to the hearing correction unit 105.
  • the amount of hearing loss for each age may be used.
  • the noise estimation unit 104 estimates ambient noise from the transmitted sound. For example, the noise estimation unit 104 estimates noise from the average power S_ave of the transmission sound of the current frame.
  • the noise estimation unit 104 compares the average power S_ave of the transmitted sound with the threshold value TH. When S_ave ⁇ TH, the noise estimation unit 104 does not update the noise amount. When S_ave ⁇ TH, the noise estimation unit 104 updates the noise amount by the following equation.
  • noise_level (f) ⁇ ⁇ S (f) + (1 ⁇ ) ⁇ noise_level (f) (6) noise_level (f): Noise amount ⁇ : constant
  • the initial value of noise_level (f) is arbitrary. For example, the initial value is 0.
  • is a constant from 0 to 1.
  • is set to 0.1.
  • Threshold value TH should be 40-50dB. Since the loudness level of human conversation is 70 to 80 dB, the threshold value TH is set to be smaller than the loudness level of human speech.
  • the noise estimation unit 104 outputs the estimated noise amount to the hearing correction unit 105.
  • the hearing correction unit 105 corrects the hearing (for example, the minimum audible range) based on the minimum audible range acquired from the hearing estimation unit 103 and the amount of noise acquired from the noise estimation unit 104.
  • FIG. 6 is a block diagram illustrating an example of the configuration of the hearing correction unit 105.
  • the hearing correction unit 105 includes a correction amount calculation unit 151 and a minimum audible range correction unit 152.
  • the correction amount calculation unit 151 calculates the correction amount according to the noise amount acquired from the noise estimation unit 104.
  • the correction amount calculation unit 151 outputs the calculated noise amount to the minimum audible range correction unit 152.
  • the minimum audible range correction unit 152 corrects the minimum audible range based on the minimum audible range acquired from the hearing estimation unit 103 and the correction amount acquired from the correction amount calculation unit 151. For example, the minimum audible range correction unit 152 adds the acquired correction amount to the acquired minimum audible range.
  • FIG. 7 is a diagram illustrating an example of the relationship between the noise amount and the correction amount.
  • the noise is divided into three levels of large, medium, and small, and the correction amount corresponding to each is represented.
  • B1 represents the correction amount of the spectrum having the noise level “large”
  • B2 represents the correction amount of the spectrum having the noise level “medium”
  • B3 represents the spectrum having the noise level “small”. Represents the correction amount.
  • the correction amount calculation unit 151 determines whether the acquired noise amount is large, medium, or small by threshold determination or the like, and obtains a correction amount from the relationship shown in FIG. 7 according to the determination result.
  • the correction amount calculation unit 151 outputs the obtained correction amount to the minimum audible range correction unit 152.
  • the minimum audible range correction unit 152 adds the correction amount acquired from the correction amount calculation unit 151 to the minimum audible range acquired from the hearing estimation unit 103.
  • FIG. 8 is a diagram illustrating an example of the minimum audible range before and after correction. In the example shown in FIG. 8, C1 represents the minimum audible area after correction, and C2 represents the minimum audible area before correction.
  • the minimum audible range correction unit 152 adds one of the correction amounts (B1 to B3) shown in FIG. 7 to the minimum audible range of C2 shown in FIG. 8, thereby correcting the minimum audible range (see FIG. 7). C1) shown is obtained.
  • the minimum audible range correction unit 152 outputs the corrected minimum audible range H ′ (f) to the spectrum correction amount calculation unit 106.
  • the minimum audible range H ′ (f) after correction is, for example, C1 shown in FIG.
  • the correction amount calculation unit 151 multiplies the noise amount noise_level (f) acquired from the noise estimation unit 104 by a constant ⁇ to calculate a correction amount.
  • is a constant, for example, 0.1.
  • the correction amount calculation unit 151 outputs the calculated correction amount to the minimum audible range correction unit 152.
  • the minimum audible range correction unit 152 obtains the corrected minimum audible range by the following equation.
  • H ′ (f) H (f) + ⁇ ⁇ noise_level (f) (7)
  • Constant noise_level (f): Noise level
  • FIG. 9 is a diagram illustrating an example of the relationship between the noise level and the minimum audible range before and after correction.
  • D1 represents the minimum audible area after correction
  • D2 represents the minimum audible area before correction
  • D3 represents the amount of noise.
  • the minimum audible range correction unit 152 adds a correction amount obtained by multiplying the noise level of D3 shown in FIG. 9 by a constant ⁇ to the minimum audible range of D2 shown in FIG. D1) shown in FIG.
  • the minimum audible range correction unit 152 outputs the corrected minimum audible range H ′ (f) to the spectrum correction amount calculation unit 106.
  • the spectrum correcting unit 107 obtains a corrected received sound spectrum R ′ (f) from the received sound spectrum R (f) and the spectrum correction amount G (f) by the following equation.
  • R ′ (f) R (f) + G (f) (8)
  • FIG. 10 is a diagram for explaining spectrum correction.
  • E1 shown in FIG. 10 represents the corrected minimum audible range H ′ (f)
  • E2 represents the reception sound spectrum R (f) before correction
  • E3 represents the reception sound spectrum R ′ (f) after correction.
  • the spectrum correcting unit 107 corrects the received sound spectrum R (f) so that the corrected received sound spectrum R ′ (f) is equal to or greater than the minimum audible range H ′ (f).
  • the spectrum correcting unit 107 outputs the corrected spectrum R ′ (f) of the received sound to the frequency inverse converting unit 108.
  • the spectrum correction amount calculation unit 106 may correct only the received sound spectrum in the preset frequency band.
  • the frequency band set in advance is, for example, a low frequency band and / or a high frequency band in which hearing ability tends to decrease. This is because a band in which hearing loss tends to decrease is known.
  • the frequency inverse transform unit 108 performs inverse frequency transform (inverse FFT transform) on the corrected received sound spectrum R ′ (f) acquired from the spectrum corrector 107, and the corrected received signal r ′ (t ) To get.
  • the corrected received signal r ′ (t) is output from the speaker and becomes an output sound.
  • the voice control device 1 estimates the user's hearing based on the ratio of the volume of the transmitted sound and the volume of the received sound, and controls the voice according to the hearing so that the user is automatically notified during the call. It is possible to provide a voice that is easy to hear.
  • the voice control device 1 can provide a voice that is easier to hear for the user by correcting the minimum audible range estimated from the user's age based on the estimated noise.
  • the noise estimation unit 104 and the hearing correction unit 105 are not necessarily required configurations.
  • the spectrum correction amount calculation unit 106 may calculate the spectrum correction amount using the hearing ability (minimum audible range) estimated by the hearing ability estimation unit 103.
  • FIG. 11 is a flowchart illustrating an example of a voice control process in the embodiment.
  • step S101 shown in FIG. 11 the transmission / reception ratio calculation unit 131 calculates the transmission / reception ratio from the volume of the reception sound and the volume of the transmission sound.
  • step S102 the age estimation unit 132 estimates the age from information indicating the relationship between the transmission / reception sound ratio and the age based on the calculated transmission / reception ratio.
  • the minimum audible range estimation unit 133 estimates the minimum audible range from information indicating the relationship between the age (or age) and the minimum audible range based on the estimated age.
  • step S104 the hearing correction unit 105 corrects the estimated minimum audible range based on the noise included in the transmitted sound. This correction process will be described with reference to FIG.
  • step S105 the spectrum correction amount calculation unit 106 calculates the correction amount of the received sound spectrum so as to be equal to or more than the corrected minimum audible range.
  • step S106 the spectrum correction unit 107 corrects the received signal by adding the calculated correction amount.
  • FIG. 12 is a flowchart showing an example of the hearing correction process.
  • the noise estimation unit 104 determines whether the average power of the transmitted sound (hereinafter also referred to as transmitted power) is smaller than the threshold value TH. If the transmitted power is smaller than the threshold value TH (step S201—YES), the process proceeds to step S202. If the transmitted power is greater than the threshold value TH (step S202—NO), the process proceeds to step S203. If the transmission power is smaller than TH, the noise estimation unit 104 determines that the transmitted sound is silent.
  • transmitted power hereinafter also referred to as transmitted power
  • step S202 the noise estimator 104 updates the noise level according to the equation (6) using the transmission sound spectrum of the current frame.
  • step S203 the hearing correction unit 105 corrects the minimum audible range based on the estimated amount of noise (see FIGS. 8 and 9).
  • voice control can be performed according to the hearing ability of the user without imposing a burden on the user. Further, according to the embodiment, since voice control can be performed during a call, it is not necessary for the user to perform voice control operation, and voice control can be automatically performed according to the user.
  • the processing by the hearing estimation unit 103 may be performed at a predetermined timing (once a week, once a month, etc.), and usually only the hearing correction based on the amount of noise may be performed. This is because if the user does not change, it is not necessary to perform hearing estimation every time a call is made.
  • the transmission / reception sound calculation unit 131 may calculate the transmission / reception sound ratio when the transmission sound and the reception sound are sound (voice).
  • the sound determination may be performed using a known technique.
  • the first audio feature amount calculated using power, zero crossing rate, peak frequency of power spectrum, pitch period, and the like, and the peak frequency of the power spectrum are calculated. It is determined whether the sound is speech or non-speech based on the second speech feature amount calculated based on the difference only in the higher order components. Thereby, a user's hearing ability can be estimated based on the volume of the transmitted sound and the volume of the received sound when there is a sound.
  • FIG. 13 is a block diagram illustrating an example of hardware of the mobile terminal device 200 according to the embodiment.
  • the mobile terminal device 200 includes an antenna 201, a radio unit 202, a baseband processing unit 203, a control unit 204, a microphone 205, a speaker 206, a main storage unit 207, an auxiliary storage unit 208, and a terminal interface unit 209.
  • the antenna 201 transmits a radio signal amplified by the transmission amplifier and receives a radio signal from the base station.
  • Radio section 202 D / A converts the transmission signal spread by baseband processing section 203, converts it to a high frequency signal by orthogonal modulation, and amplifies the signal by a power amplifier.
  • the wireless unit 202 amplifies the received wireless signal, A / D converts the signal, and transmits the signal to the baseband processing unit 203.
  • the baseband unit 203 performs baseband processing such as addition of error correction codes of transmission data, data modulation, spread modulation, despreading of received signals, determination of reception environment, threshold determination of each channel signal, error correction decoding, and the like. .
  • the control unit 204 performs wireless control such as transmission / reception of control signals. Further, the control unit 204 executes a voice control program stored in the auxiliary storage unit 208 or the like, and performs voice control processing in the embodiment.
  • the main storage unit 207 is a ROM (Read Only Memory), a RAM (Random Access Memory), or the like, and a storage device that stores or temporarily stores programs and data such as an OS and application software that are basic software executed by the control unit 204 It is.
  • the auxiliary storage unit 208 is an HDD (Hard Disk Drive) or the like, and is a storage device that stores data related to application software. For example, information as illustrated in FIGS. 4, 5, and 7 is stored in the auxiliary storage unit 208.
  • HDD Hard Disk Drive
  • the terminal interface unit 209 performs data adapter processing, interface processing with a handset, and an external data terminal.
  • the mobile terminal device 200 can automatically provide a sound corresponding to the user's hearing during a call.
  • the voice control device 1 according to the embodiment can be mounted on the mobile terminal device 200 as one or a plurality of semiconductor integrated circuits.
  • the disclosed technology can be implemented not only in the mobile terminal device 200 but also in other devices.
  • the example in which the voice control device according to the embodiment is mounted on the mobile terminal device has been described.
  • the voice control device described above or the voice control processing described above is a videophone conference device or information processing having a telephone function. It can also be applied to devices, landline telephones, and the like.
  • the voice control process in the embodiment can be performed by a computer.
  • the recording medium is a recording medium that records information optically, electrically, or magnetically, such as a CD-ROM, flexible disk, magneto-optical disk, etc., and information is electrically recorded, such as a ROM, flash memory, etc.
  • Various types of recording media such as a semiconductor memory can be used.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Neurosurgery (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 送話音の音量と受話音の音量との比を表す送受音比に基づいてユーザの聴力を推定する聴力推定部と、推定された聴力に応じて受話音の受話信号に対する補正量を算出する補正量算出部と、算出された補正量により受話信号を補正する補正部と、を備える音声制御装置。

Description

音声制御装置、音声制御方法及び音声制御プログラム
 本発明は、受話音を制御する音声制御装置、音声制御方法及び音声制御プログラムに関する。
 従来から、受話音声を聞きやすくするための制御を行う携帯端末装置がある。例えば、ユーザに対して複数の単音周波数信号を再生し、ユーザの聴取結果に基づいて最低聴取レベルを算出し、音声を加工する技術がある(特許文献1)。
 また、ロンバード効果を利用して送話音量が大きい場合、周囲が騒がしいと判断して受話音量を大きくし、送話音量が小さい場合、受話音量を小さくするよう自動調整する技術がある(特許文献2)。
 また、特定の音域の音声信号を強調するイコライザを備え、ユーザの音量操作に基づいてイコライザの特性を補正する技術がある(特許文献3)。
特開平7-66767号公報 特開2004-165865号公報 特開2010-81523号公報
 しかしながら、特許文献1では、ユーザが聴力検査を実施する必要があるため、ユーザに対し煩雑な処理を強いることになり、使い勝手が悪いという問題点がある。
 また、特許文献2では、送話音量のみで受話音量を判定するため、ユーザの聴力の特性を考慮しておらず、ユーザによっては音質が悪い場合もあるという問題点がある。
 また、特許文献3では、ユーザの音量操作が必要であるため、通話中に音量操作をすることは困難であり、通話中に音声制御を行うことができないという問題点がある。
 そこで、開示の技術は、上記問題点に鑑みてなされたものであり、ユーザに負担を強いることなく、ユーザの聴力に応じて音声制御を行うことができる音声制御装置、音声制御方法及び音声制御プログラムを提供することを目的とする。
 開示の一態様の音声制御装置は、送話音の音量と受話音の音量との比を表す送受音比に基づいてユーザの聴力を推定する聴力推定部と、推定された前記聴力に応じて前記受話音の受話信号に対する補正量を算出する補正量算出部と、算出された前記補正量により前記受話信号を補正する補正部と、を備える。
 開示の技術によれば、ユーザに負担を強いることなく、ユーザの聴力に応じて音声制御を行うことができる。
年齢による聴力レベルの変化を示す図。 実施例における音声制御装置の機能の一例を示すブロック図。 聴力推定部の構成の一例を示すブロック図。 送受音比と年齢との関係の一例を示す図。 年齢と最小可聴域との関係の一例を示す図。 聴力補正部の構成の一例を示すブロック図。 騒音量と補正量との関係の一例を示す図。 補正前後の最小可聴域の一例を示す図。 騒音量と、補正前後の最小可聴域との関係の一例を示す図。 スペクトル補正を説明するための図。 実施例における音声制御処理の一例を示すフローチャート。 聴力補正処理の一例を示すフローチャート。 実施例における携帯端末装置のハードウェアの一例を示すブロック図。
 101、102 周波数変換部
 103 聴力推定部
 104 騒音推定部
 105 聴力補正部
 106 スペクトル補正量算出部
 107 スペクトル補正部
 108 周波数逆変換部
 204 制御部
 まず、年齢と聴力との関係について説明する。聴力は、例えば最小可聴域である。図1は、年齢による聴力レベルの変化を示す図である。図1に示すグラフは、発明者らにより実験された聴力実験の実験結果を示す。図1に示す実験によれば、40歳代と60歳代とでは平均聴力レベルが異なることが分かる。60歳代の平均聴力レベルが高域(2kHz~4kHz)で顕著に落ち込んでいる。また、年齢による聴力低下については、http://tri-osaka.jp/group/infoele/life/sense/data/katagiri/070622.pdfにも調査結果が報告されている。
 図1に示すように、加齢により聴力レベルが落ちることが既に知られている。特に、高周波領域において、年齢を重ねるにつれ、聴力レベルが低下する。
 ここで、ロンバード効果について説明する。ロンバード効果とは、周囲が騒がしい場合、又は相手の声が小さい場合に相手の声が聞こえにくくなると、話声が大きくなる効果をいう。例えば、背景騒音が50dBspl(以下、単にdBと表記する)の場合、静かな状態(37dB)に比べて話声が4dB大きくなることが調査されている。この調査は、"Effects of noise on speech production: acoustic and perceptual analyses", W. Van. Summers et.al.,J. Acoust. Soc. Am., Vol.84, No.3, September 1988の図1を参照されたい。
 しかし、ロンバード効果は、周囲騒音と相手の声の大きさだけでなく、聞く人の聴力にも影響すると考えられる。聴力が低下すると相手の声が聞こえにくくなり、話声が大きくなる傾向がある。図1に示すように、聴力の低下は年齢に関係するため、ロンバード効果と年齢とは関係があると考えられる。
 そこで、以下では、ロンバード効果を用いて受話音量と送話音量との関係を求め、この関係から年齢を推定し、推定した年齢から聴力を推定して受話音を制御し、受話音声を聞きやすくする実施例について説明する。以下、図面に基づいて実施例を説明する。
 [実施例]
 <構成>
 次に、実施例における音声制御装置1の機能について説明する。図2は、実施例における音声制御装置1の機能の一例を示すブロック図である。図2に示すように、音声制御装置1は、周波数変換部101、102、聴力推定部103、騒音推定部104、聴力補正部105、スペクトル補正量算出部106、スペクトル補正部107、周波数逆変換部108を含む。
 周波数変換部101は、受話音の受話信号r(t)に対して、時間周波数変換を行い、次の式(1)によりスペクトルR(f)を求める。時間周波数変換は、例えば、高速フーリエ変換(FFT)とする。
Figure JPOXMLDOC01-appb-M000001
f:周波数(f=0,1,2、・・・K-1) Kはナイキスト周波数
Re{}:実部
Im{}:虚部
 周波数変換部101は、求めたスペクトルR(f)を聴力推定部103、スペクトル補正量算出部106、スペクトル補正部107に出力する。
 周波数変換部102は、送話音の送話信号s(t)に対して、時間周波数変換を行い、次の式(2)によりスペクトルS(f)を求める。時間周波数変換は、例えば、高速フーリエ変換(FFT)とする。
Figure JPOXMLDOC01-appb-M000002
f:周波数(f=0,1,2、・・・K-1) Kはナイキスト周波数
Re{}:実部
Im{}:虚部
 周波数変換部102は、求めたスペクトルS(f)を聴力推定部103、及び騒音推定部104に出力する。
 聴力推定部103は、受話音の音量と送話音の音量とに基づいて、ユーザの聴力を推定する。図3は、聴力推定部103の構成の一例を示すブロック図である。図3に示す例では、聴力推定部103は、送受音比算出部131、年齢推定部132、最小可聴域推定部133を含む。
 送受音比算出部131は、受話音のスペクトルR(f)と送話音のスペクトルS(f)との平均電力を次の式により算出する。
Figure JPOXMLDOC01-appb-M000003
R_ave:受話音のスペクトルの平均電力
S_ave:送話音のスペクトルの平均電力
 送受音算出部131は、例えば、受話音の平均電力R_aveと送話音の平均電力S_aveとから送受音比sp_ratioを次の式により求める。
sp_ratio=S_ave/R_ave ・・・式(5)
sp_ratio:送受音比
 送受音比算出部131は、受話音の音量と送話音の音量との比を送受音比とする。送受音比算出部131は、求めた送受音比を年齢推定部132に出力する。
 年齢推定部132は、送受音比算出部131から送受音比を取得すると、予め保持しておいた送受音比と年齢との関係を示す情報を参照し、ユーザの年齢を推定する。
 図4は、送受音比と年齢との関係の一例を示す図である。これは、年齢が高くなると聴力が低下して相手の声が聞こえにくくなるため、話声が大きくなるという考えに基づき実験を行う。ロンバード効果の求め方と同様の実験により、予め年齢と送受音比との関係を推定しておく。
 例えば、以下の手順により、年齢と送受音比との関係が求められる。
(1)各年齢(又は各年代:10代、20代など)の被験者に対して、受話音量(例えば60dB)に対する送話音量を測定する。
(2)(1)で測定した各年齢で全被験者の平均送話音量を求める。
(3)(2)の平均送話音量と受話音量との比(送受音比)を求める。
(4)(1)~(3)の処理を他の受話音量(例えば30~80dB)についても同様に行う。
 これにより、受話音量毎に、年齢と送受音比との関係を示す情報ができることになる。年齢推定部132は、この受話音量毎の、年齢と送受音比との関係を示す情報を保持しておく。
 年齢推定部132は、送受音比算出部131から取得した送受音比に基づき、図4に示す関係から年齢を推定する。例えば、年齢推定部132は、送受音比を求めた受話音量に対応する、図4に示すような関係を示す情報を特定する。年齢推定部132は、特定した関係を示す情報と、算出された送受音比とから年齢を推定する。年齢推定部132は、推定した年齢を最小可聴域推定部133に出力する。
 最小可聴域推定部133は、年齢推定部132から取得した年齢に基づき、最小可聴域を推定する。最小可聴域推定部133は、図1に示すような関係に基づき、各年代の平均的な最小可聴域を保持しておく。
 図5は、年代と最小可聴域との関係の一例を示す図である。図5に示すA1は60代の最小可聴域を表し、A2は40代の最小可聴域を表し、A3は20代の最小可聴域を表す。なお、年代と最小可聴域との関係は、図5に示す例では20代ごとに設けているが、例えば10代ごとに設けてもよい。
 図5に示すように、年代が上がるにつれて、最小可聴域が上がり聞こえにくくなる。最小可聴域推定部133は、図5に示すような年代と最小可聴域との関係を示すデータを保持し、年齢推定部132から取得した年齢に対応する最小可聴域を取得する。最小可聴域推定部133は、取得した最小可聴域を聴力補正部105に出力する。
 年代と最小可聴域との関係以外にも、各年代の聴力低下量を用いてもよい。また、性別に基づく最小可聴域や聴力低下量を用いてもよい。性別による聴力特性の違いは、日本建築学会編「高齢者のための建築環境」、彰国社発行、1994年1月10日発行、p.72-73を参照されたい。
 図2に戻り、騒音推定部104は、送話音から周囲の騒音を推定する。例えば、騒音推定部104は、現フレームの送話音の平均電力S_aveから騒音を推定する。
 騒音推定部104は、送話音の平均電力S_aveと閾値THとを比較する。
S_ave≧THの場合、騒音推定部104は、騒音量を更新しない。
S_ave<THの場合、騒音推定部104は、騒音量を次の式により更新する。
noise_level(f)=α×S(f)+(1-α)×noise_level(f) ・・・式(6)
noise_level(f):騒音量
α:定数
ここで、noise_level(f)の初期値は任意である。例えば、この初期値は0とする。また、αは0~1の定数である。αは、例えば、0.1とする。
 閾値THは40~50dBするとよい。人の会話の音声の大きさは70~80dBであるから、閾値THは人の音声の大きさよりも小さくする。騒音推定部104は、推定した騒音量を聴力補正部105に出力する。
 聴力補正部105は、聴力推定部103から取得した最小可聴域と、騒音推定部104から取得した騒音量とにより、聴力(例えば最小可聴域)を補正する。図6は、聴力補正部105の構成の一例を示すブロック図である。聴力補正部105は、補正量算出部151、最小可聴域補正部152を含む。
 補正量算出部151は、騒音推定部104から取得した騒音量に応じて補正量を算出する。補正量算出部151は、算出した騒音量を最小可聴域補正部152に出力する。
 最小可聴域補正部152は、聴力推定部103から取得した最小可聴域と、補正量算出部151から取得した補正量とに基づき、最小可聴域を補正する。最小可聴域補正部152は、例えば、取得した最小可聴域に、取得した補正量を加算する。
 以下、最小可聴域補正の具体例について説明する。
(例1)
補正量算出部151は、騒音量に応じた補正量を保持しておく。図7は、騒音量と補正量との関係の一例を示す図である。図7に示す例では、騒音を大、中、小の3段階に分け、それぞれに対応する補正量を表す。図7に示す例では、B1は騒音量が「大」のスペクトルの補正量を表し、B2は騒音量が「中」のスペクトルの補正量を表し、B3は騒音量が「小」のスペクトルの補正量を表す。
 補正量算出部151は、取得した騒音量が大、中、小のいずれに相当するかを閾値判定などで判定し、判定結果に応じて図7に示す関係から補正量を求める。補正量算出部151は、求めた補正量を最小可聴域補正部152に出力する。
 最小可聴域補正部152は、聴力推定部103から取得した最小可聴域に、補正量算出部151から取得した補正量を加算する。図8は、補正前後の最小可聴域の一例を示す図である。図8に示す例では、C1は補正後の最小可聴域を表し、C2は補正前の最小可聴域を表す。
 最小可聴域補正部152は、図8に示すC2の最小可聴域に対し、図7に示すいずれかの補正量(B1~B3)を加算することで、補正後の最小可聴域(図7に示すC1)を求める。最小可聴域補正部152は、補正後の最小可聴域H'(f)をスペクトル補正量算出部106に出力する。補正後の最小可聴域H'(f)は、例えば、図8に示すC1である。
 (例2)
 補正量算出部151は、騒音推定部104から取得した騒音量noise_level(f)に定数βを乗算し、補正量を算出する。βは定数であり、例えば0.1とする。補正量算出部151は、算出した補正量を最小可聴域補正部152に出力する。
 最小可聴域補正部152は、次の式により補正後の最小可聴域を求める。
H'(f)=H(f)+β×noise_level(f) ・・・式(7)
H'(f):補正後の最小可聴域
H(f):補正前の最小可聴域
β:定数
noise_level(f):騒音量
 図9は、騒音量と、補正前後の最小可聴域との関係の一例を示す図である。図9に示す例では、D1は補正後の最小可聴域を表し、D2は補正前の最小可聴域を表し、D3は騒音量を表す。
 最小可聴域補正部152は、図9に示すD2の最小可聴域に対し、図9に示すD3の騒音量に定数βを乗算した補正量を加算することで、補正後の最小可聴域(図9に示すD1)を求める。最小可聴域補正部152は、補正後の最小可聴域H'(f)をスペクトル補正量算出部106に出力する。
 これにより、推定した騒音に基づいて、ユーザの年齢から推定した最小可聴域を補正することができる。
 図2に戻り、スペクトル補正量算出部106は、受話音のスペクトルR(f)と補正後の最小可聴域H'(f)とを比較して、スペクトル補正量G(f)を求める。例えば、スペクトル補正量算出部106は、次の条件に基づきスペクトル補正量を求める。
R(f)<H'(f)の場合:G(f)=H'(f)-R(f)
R(f)≧H'(f)の場合:G(f)=0
 スペクトル補正量算出部106は、求めたスペクトル補正量G(f)をスペクトル補正部107に出力する。
 スペクトル補正部107は、例えば、受話音のスペクトルR(f)とスペクトル補正量G(f)から補正後の受話音スペクトルR'(f)を次の式により求める。
R'(f)=R(f)+G(f) ・・・式(8)
 図10は、スペクトル補正を説明するための図である。図10に示すE1は補正後の最小可聴域H'(f)を表し、E2は補正前の受話音スペクトルR(f)を表し、E3は補正後の受話音スペクトルR'(f)を表す。スペクトル補正部107は、補正後の受話音スペクトルR'(f)が最小可聴域H'(f)以上になるように受話音スペクトルR(f)を補正する。スペクトル補正部107は、補正された受話音のスペクトルR'(f)を周波数逆変換部108に出力する。
 スペクトル補正量算出部106は、予め設定した周波数帯域の受話音スペクトルのみを補正するようにしてもよい。予め設定した周波数帯域は、例えば、聴力が低下しやすい低周波帯域及び/又は高周波帯域とする。これは、聴力が低下しやすい帯域が分かっているからである。
 図2に戻り、周波数逆変換部108は、スペクトル補正部107から取得した補正後の受話音スペクトルR'(f)を逆周波数変換(逆FFT変換)し、補正された受話信号r'(t)を取得する。補正された受話信号r'(t)は、スピーカから出力され、出力音となる。
 これにより、音声制御装置1は、送話音の音量と受話音の音量との比に基づきユーザの聴力を推定し、この聴力に応じて音声を制御することで、通話中に自動でユーザに聞きやすい音声を提供することができる。
 また、音声制御装置1は、推定した騒音に基づいて、ユーザの年齢から推定した最小可聴域を補正することで、ユーザにとってより聞きやすい音声を提供することができる。
 なお、騒音推定部104及び聴力補正部105は、必ずしも必要な構成ではない。このとき、スペクトル補正量算出部106は、聴力推定部103により推定された聴力(最小可聴域)を用いてスペクトル補正量を算出すればよい。
 <動作>
 次に、実施例における音声制御装置1の動作について説明する。図11は、実施例における音声制御処理の一例を示すフローチャートである。
 図11に示すステップS101で、送受音比算出部131は、受話音の音量と送話音の音量とから送受音比を算出する。
 ステップS102で、年齢推定部132は、算出された送受音比に基づき、送受音比と年齢との関係を示す情報から年齢を推定する。
 ステップS103で、最小可聴域推定部133は、推定された年齢に基づき、年齢(又は年代)と最小可聴域との関係を示す情報から最小可聴域を推定する。
 ステップS104で、聴力補正部105は、推定された最小可聴域を、送話音に含まれる騒音に基づいて最小可聴域を補正する。この補正処理は、図12を用いて説明する。
 ステップS105で、スペクトル補正量算出部106は、補正された最小可聴域以上になるように、受話音スペクトルの補正量を算出する。
 ステップS106で、スペクトル補正部107は、算出された補正量を加算するなどして受話信号を補正する。
 これにより、通話中に、ユーザの聴力に応じてユーザにとって聞きやすい音声を提供することができる。
 図12は、聴力補正処理の一例を示すフローチャートである。図12に示すステップS201で、騒音推定部104は、送話音の平均電力(以下、送話電力ともいう)が閾値THより小さいかを判定する。送話電力が閾値THより小さければ(ステップS201-YES)ステップS202に進み、送話電力が閾値TH以上であれば(ステップS202-NO)ステップS203に進む。送信電力がTHより小さければ、騒音推定部104は、送話音は無音であると判定する。
 ステップS202で、騒音推定部104は、現フレームの送話音スペクトルを用いて騒音量を式(6)により更新する。
 ステップS203で、聴力補正部105は、推定された騒音量に基づいて、最小可聴域を補正する(図8,9参照)。
 これにより、周囲の騒音量が大きい場合には、騒音量に基づいて最小可聴域を補正することで、周囲の騒音に応じて音声をより聞きやすくすることができる。なお、実施例では、騒音量による最小可聴域の補正を必ずしもしなくても、十分な効果を発揮する。
 以上、実施例によれば、ユーザに負担を強いることなく、ユーザの聴力に応じて音声制御を行うことができる。また、実施例によれば、通話中に音声制御を行うことができるので、ユーザに音声制御の操作をしてもらう必要がなく、ユーザに応じて自動的に音声制御を行うことができる。
 また、聴力推定部103による処理は、所定のタイミング(週に一回、月に一回など)で行い、通常は騒音量による聴力補正のみを行うようにしてもよい。ユーザが変わらなければ、通話する度に毎回聴力推定を行う必要はないからである。
 また、送受音算出部131は、送受音比を算出する際、送話音及び受話音が有音(音声)であるときに算出するようにしてもよい。有音判定は、公知の技術を用いて行えばよい。
 例えば、特許第3849116号公報では、入力信号のフレーム毎に、電力、零交差率、パワースペクトルのピーク周波数、ピッチ周期等を用いて算出した第1の音声特徴量と、パワースペクトルのピーク周波数の高次成分のみの相違を基に算出した第2の音声特徴量を基に音声か非音声かの判定を行なう。これにより、有音時の送話音の音量と受話音の音量とに基づいてユーザの聴力を推定することができる。
 [変形例]
 図13は、実施例における携帯端末装置200のハードウェアの一例を示すブロック図である。携帯端末装置200は、アンテナ201、無線部202、ベースバンド処理部203、制御部204、マイク205、スピーカ206、主記憶部207、補助記憶部208、端末インタフェース部209を有する。
 アンテナ201は、送信アンプで増幅された無線信号を送信し、また、基地局から無線信号を受信する。無線部202は、ベースバンド処理部203で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部202は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部203に伝送する。
 ベースバンド部203は、送信データの誤り訂正符号の追加、データ変調、拡散変調、受信信号の逆拡散、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。
 制御部204は、制御信号の送受信などの無線制御を行う。また、制御部204は、補助記憶部208などに記憶されている音声制御プログラムを実行し、実施例における音声制御処理を行う。
 主記憶部207は、ROM(Read Only Memory)やRAM(Random Access Memory)などであり、制御部204が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
 補助記憶部208は、HDD(Hard Disk Drive)などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。例えば、図4、5、7に示すような情報は、補助記憶部208に記憶される。
 端末インタフェース部209は、データ用アダプタ処理、ハンドセットおよび外部データ端末とのインタフェース処理を行う。
 これにより、携帯端末装置200において、通話中に、自動でユーザの聴力に応じた音声を提供することができる。また、実施例における音声制御装置1を1又は複数の半導体集積化回路として、携帯端末装置200に実装することも可能である。
 また、開示の技術は、携帯端末装置200に限らず、他の機器にも実装することができる。変形例では、実施例の音声制御装置を携帯端末装置に実装した例について説明したが、例えば、前述した音声制御装置、又は前述した音声制御処理は、テレビ電話会議装置や電話機能を有する情報処理装置、固定電話などにも適用可能である。
 また、前述した実施例で説明した音声制御処理を実現するためのプログラムを記録媒体に記録することで、実施例での音声制御処理をコンピュータに実施させることができる。
 また、このプログラムを記録媒体に記録し、このプログラムが記録された記録媒体をコンピュータや携帯端末装置に読み取らせて、前述した制御処理を実現させることも可能である。なお、記録媒体は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
 以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、前述した実施例の構成要素を全部又は複数を組み合わせることも可能である。

Claims (7)

  1.  送話音の音量と受話音の音量との比を表す送受音比に基づいてユーザの聴力を推定する聴力推定部と、
     推定された前記聴力に応じて前記受話音の受話信号に対する補正量を算出する補正量算出部と、
     算出された前記補正量により前記受話信号を補正する補正部と、
     を備える音声制御装置。
  2.  前記聴力推定部は、
     前記送受音比からユーザの年齢を推定し、該年齢に基づく最小可聴域を推定し、
     前記補正量算出部は、
     推定された前記最小可聴域以上になるように前記受話信号に対する補正量を求める請求項1記載の音声制御装置。
  3.  前記送話音から騒音量を推定する騒音推定部と、
     推定された前記騒音量に基づいて前記最小可聴域を補正する聴力補正部と、をさらに備え、
     前記補正量算出部は、
     補正された前記最小可聴域以上になるように前記受話信号に対する補正量を求める請求項2記載の音声制御装置。
  4.  前記聴力推定部は、
     前記受話音及び前記送話音が有音であるかを判定し、有音であると判定した受話音及び送話音に対して前記送受音比を求める請求項1乃至3いずれか一項に記載の音声制御装置。
  5.  前記騒音推定部は、
     前記送話音が無音であるかを判定し、無音であると判定した送話音に基づき前記騒音量を更新する請求項3記載の音声制御装置。
  6.  音声制御装置における音声制御方法であって、
     送話音の音量と受話音の音量との比を表す送受音比に基づいてユーザの聴力を推定し、
     推定された前記聴力に応じて前記受話音の受話信号に対する補正量を算出し、
     算出された前記補正量により前記受話信号を補正する音声制御方法。
  7.  送話音の音量と受話音の音量との比を表す送受音比に基づいてユーザの聴力を推定し、
     推定された前記聴力に応じて前記受話音の受話信号に対する補正量を算出し、
     算出された前記補正量により前記受話信号を補正する、
     処理をコンピュータに実行させるための音声制御プログラム。
PCT/JP2011/050017 2011-01-04 2011-01-04 音声制御装置、音声制御方法及び音声制御プログラム WO2012093470A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201180063528.8A CN103282960B (zh) 2011-01-04 2011-01-04 声音控制装置、声音控制方法以及声音控制程序
PCT/JP2011/050017 WO2012093470A1 (ja) 2011-01-04 2011-01-04 音声制御装置、音声制御方法及び音声制御プログラム
EP11855034.2A EP2662855A4 (en) 2011-01-04 2011-01-04 VOICE CONTROL DEVICE, VOICE CONTROL METHOD, AND VOICE CONTROL PROGRAM
JP2012551766A JP5626366B2 (ja) 2011-01-04 2011-01-04 音声制御装置、音声制御方法及び音声制御プログラム
US13/924,071 US9271089B2 (en) 2011-01-04 2013-06-21 Voice control device and voice control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/050017 WO2012093470A1 (ja) 2011-01-04 2011-01-04 音声制御装置、音声制御方法及び音声制御プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/924,071 Continuation US9271089B2 (en) 2011-01-04 2013-06-21 Voice control device and voice control method

Publications (1)

Publication Number Publication Date
WO2012093470A1 true WO2012093470A1 (ja) 2012-07-12

Family

ID=46457338

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/050017 WO2012093470A1 (ja) 2011-01-04 2011-01-04 音声制御装置、音声制御方法及び音声制御プログラム

Country Status (5)

Country Link
US (1) US9271089B2 (ja)
EP (1) EP2662855A4 (ja)
JP (1) JP5626366B2 (ja)
CN (1) CN103282960B (ja)
WO (1) WO2012093470A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152121A1 (ja) * 2015-03-23 2016-09-29 日本電気株式会社 電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
WO2023206788A1 (zh) * 2022-04-28 2023-11-02 歌尔股份有限公司 听力的保护方法、装置、终端设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014064093A (ja) * 2012-09-20 2014-04-10 Sony Corp 信号処理装置およびプログラム
CN110808723A (zh) 2014-05-26 2020-02-18 杜比实验室特许公司 音频信号响度控制
KR20160000345A (ko) * 2014-06-24 2016-01-04 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
EP3402217A1 (en) 2017-05-09 2018-11-14 GN Hearing A/S Speech intelligibility-based hearing devices and associated methods
KR101941680B1 (ko) * 2018-07-13 2019-01-23 신의상 사용자 맞춤형 오디오 주파수 이퀄라이저 조절 장치 및 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06217398A (ja) * 1993-01-18 1994-08-05 Hitachi Ltd 聴覚特性補償用音声処理装置
JPH0766767A (ja) 1993-08-23 1995-03-10 Toshiba Corp 無線通信装置
JPH08163121A (ja) * 1994-12-06 1996-06-21 Canon Inc 映像コミュニケーションシステム
JPH08223256A (ja) * 1995-02-15 1996-08-30 Nec Corp 電話装置
JP2000209698A (ja) * 1999-01-13 2000-07-28 Nec Saitama Ltd 音声補正装置及び音声補正機能付き移動機
JP2004165865A (ja) 2002-11-12 2004-06-10 Mitsubishi Electric Corp 電話機及び受話音量調整方法
JP2004235708A (ja) * 2003-01-28 2004-08-19 Mitsubishi Electric Corp 電話装置
JP3849116B2 (ja) 2001-02-28 2006-11-22 富士通株式会社 音声検出装置及び音声検出プログラム
JP2010081523A (ja) 2008-09-29 2010-04-08 Nec Corp 携帯端末、携帯端末の制御方法、及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5777664A (en) 1994-11-18 1998-07-07 Canon Kabushiki Kaisha Video communication system using a repeater to communicate to a plurality of terminals
US20050246170A1 (en) * 2002-06-19 2005-11-03 Koninklijke Phillips Electronics N.V. Audio signal processing apparatus and method
US20060088154A1 (en) * 2004-10-21 2006-04-27 Motorola, Inc. Telecommunication devices that adjust audio characteristics for elderly communicators
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
CN101166017B (zh) * 2006-10-20 2011-12-07 松下电器产业株式会社 用于声音产生设备的自动杂音补偿方法及装置
JP2009171189A (ja) * 2008-01-16 2009-07-30 Pioneer Electronic Corp 音声補正装置及び音声補正機能を備えた通信端末装置
JP5453740B2 (ja) * 2008-07-02 2014-03-26 富士通株式会社 音声強調装置
JP5151762B2 (ja) * 2008-07-22 2013-02-27 日本電気株式会社 音声強調装置、携帯端末、音声強調方法および音声強調プログラム
JP2010062663A (ja) * 2008-09-01 2010-03-18 Sony Ericsson Mobilecommunications Japan Inc 音声信号処理装置、音声信号処理方法、及び、通信端末
CN102165707B (zh) * 2008-09-24 2013-12-04 三菱电机株式会社 回波消除装置
JP2010239542A (ja) * 2009-03-31 2010-10-21 Yamaha Corp 音声処理装置
WO2012090282A1 (ja) * 2010-12-27 2012-07-05 富士通株式会社 音声制御装置、音声制御方法、音声制御プログラム及び携帯端末装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06217398A (ja) * 1993-01-18 1994-08-05 Hitachi Ltd 聴覚特性補償用音声処理装置
JPH0766767A (ja) 1993-08-23 1995-03-10 Toshiba Corp 無線通信装置
JPH08163121A (ja) * 1994-12-06 1996-06-21 Canon Inc 映像コミュニケーションシステム
JPH08223256A (ja) * 1995-02-15 1996-08-30 Nec Corp 電話装置
JP2000209698A (ja) * 1999-01-13 2000-07-28 Nec Saitama Ltd 音声補正装置及び音声補正機能付き移動機
JP3849116B2 (ja) 2001-02-28 2006-11-22 富士通株式会社 音声検出装置及び音声検出プログラム
JP2004165865A (ja) 2002-11-12 2004-06-10 Mitsubishi Electric Corp 電話機及び受話音量調整方法
JP2004235708A (ja) * 2003-01-28 2004-08-19 Mitsubishi Electric Corp 電話装置
JP2010081523A (ja) 2008-09-29 2010-04-08 Nec Corp 携帯端末、携帯端末の制御方法、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Building Environment for Aged People", 10 January 1994, SHOKOKUSHA PUBLISHING CO., LTD., pages: 72 - 73
See also references of EP2662855A4
W. VAN. SUMMERS: "Effects of noise on speech production: acoustic and perceptual analyses", J. ACOUST. SOC. AM., vol. 84, no. 3, September 1988 (1988-09-01)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152121A1 (ja) * 2015-03-23 2016-09-29 日本電気株式会社 電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
JP2016178596A (ja) * 2015-03-23 2016-10-06 日本電気株式会社 電話機、電話システム、電話機の音量設定方法、及びプログラム
WO2023206788A1 (zh) * 2022-04-28 2023-11-02 歌尔股份有限公司 听力的保护方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
JPWO2012093470A1 (ja) 2014-06-09
CN103282960B (zh) 2016-01-06
JP5626366B2 (ja) 2014-11-19
CN103282960A (zh) 2013-09-04
US20130279709A1 (en) 2013-10-24
US9271089B2 (en) 2016-02-23
EP2662855A4 (en) 2015-12-16
EP2662855A1 (en) 2013-11-13

Similar Documents

Publication Publication Date Title
JP5626366B2 (ja) 音声制御装置、音声制御方法及び音声制御プログラム
JP5704470B2 (ja) オーディオ明瞭度増大方法および装置とコンピュータ装置
TWI463817B (zh) 可適性智慧雜訊抑制系統及方法
JP6147744B2 (ja) 適応音声了解度処理システムおよび方法
JP5598552B2 (ja) 音声制御装置、音声制御方法、音声制御プログラム及び携帯端末装置
US8515087B2 (en) Apparatus for processing an audio signal and method thereof
JP5923994B2 (ja) 音声処理装置及び音声処理方法
TW201142831A (en) Adaptive environmental noise compensation for audio playback
EP2626857B1 (en) Reverberation reduction device and reverberation reduction method
US10362412B2 (en) Hearing device comprising a dynamic compressive amplification system and a method of operating a hearing device
CN111383647B (zh) 语音信号处理方法及装置、可读存储介质
JP5136378B2 (ja) 音響処理方法
US20140185818A1 (en) Sound processing device, sound processing method, and program
JP2010109624A (ja) 音声処理回路、音声処理装置及び音声処理方法
JP2008309955A (ja) ノイズサプレス装置
JP2012095047A (ja) 音声処理装置
JP5172580B2 (ja) 音補正装置及び音補正方法
JP2005107448A (ja) 雑音低減処理方法、この方法を実施する装置、プログラム、記録媒体
JP2012163682A (ja) 音声処理装置及び方法
JP4739887B2 (ja) オーディオ再生装置
JP6690285B2 (ja) 音信号調整装置、音信号調整プログラム及び音響装置
JP2004320122A (ja) 携帯電話端末及び音声レベル制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11855034

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012551766

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2011855034

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE